SquirrelMail 1.4.21

av Andreas Pettersson

Självlärande Dots & Boxes-spelare

Sammanfattning

Denna rapport handlar om reinforcement learning-algoritmen Q-Learning. Syftet med arbetet är att implementera en självlärande dots & boxes spelare som efter träning får testspela mot två stycken förprogrammerade spelare. Jag har undersökt hur träningsfasen påverkar hur bra den självlärande spelaren blir genom att variera hur länge den ska få utforska alla möjliga tillstånd spelet kan hamna i. Resultaten är framförda i grafer som analyseras i arbetet. Den självlärda spelaren och Q-Learning-algoritmen analyseras för att ta reda på vad det är den har lärt sig och hur den har lärt sig sina strategier under träningsfasen.

Resultatet jag kom fram till var att den självlärande spelaren behöver spela flera hundra tusen matcher mot sig själv innan den slutar att lära sig. Den självlärande spelaren blev i alla testerna bättre än mina förprogrammerade spelare – den blev till och med så bra att den besegrade mig majoriteten av matcherna jag spelade mot den.

	Sign Out
Compose Addresses Folders Options Search Help Filters	SquirrelMail