Sammanfattning

 

Denna kandidatuppsats undersöker en implementation av Q-inlärningsalgoritmen på ett impartiellt, kombinatoriskt spel kallat Nim. Under analysen av impartiella spel och Nim presenteras en redan etablerad optimal strategi för att spela Nim. Denna strategi används sedan som jämförelse för att evaluera inlärningsprocessen.

Det visas att Q-lärningsalgoritmen konvergerar till den optimala strategin under vissa antaganden. En parameteranalys åtas även och slutligen diskutera implikationerna av resultatet. Det är troligt att Q-läringsalgoritmen är effektiv i lärandet av optimala strategier för även andra impartiella spel.