Björn Löfroth och Johan Dalenius

Sammanfattning

Själv-inlärning av fyra-i-rad

Vi har implementerat en självinlärande datorspelare för spelet fyra-i- rad. Utgångspunkten är att spelaren endast får veta spelbrädets ut- seende och möjliga drag, och därför själv måste lära sig de relevanta spelkoncept som behövs för att spela framgångsrikt. Inlärningen sker med belöningsbaserad inlärning med TD(λ) där värdesfunktionen ap- proximeras med att artificiellt neuralt nät. Vi har använt ett tvålagers nät som tränats med BackProp-algoritmen.

Spelaren har under inlärning utvärderats mot en slumpspelare och fyra spelare som använder minimax-algoritmen med en enkel evalue- ringsfunktion, som söker på olika djup i spelträdet. Dessutom har spe- laren utvärderats mot specifika speltillstånd för att undersöka om den lär sig viktiga spelkoncept så som attack och försvar, men även mer specifika begrepp så som rader, kolumner och diagonaler.

Vi lyckas träna upp en datorspelare som slår en slumpmässig spelare i nästan samtliga matcher. Mot den svåraste förprogrammerade taktiken (den som söker djupast) utvecklas agenten ifrån att förlora nästan alla matcher till att vinna ungefär 60% av matcherna.