Att förändra slumpmässigt beteende för en Q-learning-agent över tid

Peter Boström & Anna Maria Modée

Sammanfattning

Q-learning är en belöningsbaserad inlärningsteknik där en AI-agent lär sig genom erfarenheter. Den här tekniken förekommer vanligen ihop med en policy som kallas epsilon-greedy. Målet med det här arbetet var att bestämma hur olika policies påverkade inlärningsgraden för den Q-learningbaserade agenten. För att testa agenten spelades en mindre instans av brädspelet Blokus på ett 5 gånger 5-bräde, först och främst mot en motspelare som lade sina brickor fullständigt slumpmässigt. Under testerna undersöktes två olika policies som båda startade med att agenten föredrog planlösa drag för att sedan gradvis gå över till att lita mer och mer på sina tidigare erfarenheter. Båda nya policies gjorde att agentens beteende konvergerade till nära 100% vinstfrekvens. Studierna visade sig dock vara ofullständiga på grund av att spelinstansen var väldigt begränsad och att agenten i vår implementation klarade av instansen utan något slumpat beteende över huvud taget. Resultatet gav dock att båda nya policies hade liknande prestanda på denna instans. Tillsammans med teoretiska argument för de nya policiernas användning indikerar detta på att fortsatt undersökning inom området är motiverad.