av Andreas Pettersson
Självlärande Dots & Boxes-spelare
Sammanfattning
Denna rapport handlar om reinforcement learning-algoritmen Q-Learning. Syftet med arbetet är att implementera en självlärande
dots & boxes spelare som efter träning får testspela mot två stycken förprogrammerade spelare. Jag har undersökt hur
träningsfasen påverkar hur bra den självlärande spelaren blir genom att variera hur länge den ska få utforska
alla möjliga tillstånd spelet kan hamna i. Resultaten är framförda i grafer som analyseras i arbetet. Den självlärda
spelaren och Q-Learning-algoritmen analyseras för att ta reda på vad det är den har lärt sig och hur den har lärt sig sina
strategier under träningsfasen.
Resultatet jag kom fram till var att den självlärande spelaren behöver spela flera hundra tusen matcher mot sig själv innan den
slutar att lära sig. Den självlärande spelaren blev i alla testerna bättre än mina förprogrammerade spelare – den blev
till och med så bra att den besegrade mig majoriteten av matcherna jag spelade mot den.