Authors/Av:
Emre Berge Ergenekon, erge[at]kth[dot]se
Anton Jonsson, antonjon[at]kth[dot]se

Självlärande Brädspelare

Sammanfattning

Belöningsbaserad inlärning eller BBI är en av flera maskininlärningsmetoder.BBI kan användas för att lära en dator att spela spelet tre-i-rad. Den lärande delen kallas för en agent, pjäsernas aktuella placering på brädet kallas för tillstånd och ett drag kallas för en handling. 1992 kom en viktig implementation kallat Q-learning vilket är den algoritm som använts.

Rapporten undersöker hur Q-learning algoritmen fungerar, implementerar den för att lära datorn att spela det enkla brädspelet tre-i-rad samt analyserar hur olika parametrar påverkar inlärningsprocessen.

Rapporten inleds med en kortare sammanfattning av bakgrunden till BBI och Q-learning för att sedan gå vidare till att beskriva underbyggande teori för Q-learning algoritmen. Efter detta kommer avsnitt som beskriver implementation, analys samt slutsatser.

Vår implementation använder tre parametrar, alfa α, gamma γ och epsilon ε. Vi har kommit fram till att för vår implementation av tre-i-rad leder följande värden till stabil inlärning: α=0.2, γ=0.8 och ε=0.1.

Self-learning Game Player

Abstract

Reinforcement learning, RL, is one of many machine learning techniques used today. RL can be implemented to teach a computer to play a game of tic-tac-toe. The learning game player is called the agent, the appearance of a specific game play is called the state and a move is called an action. In 1992 an algorithm called Q-learning was created, the same algorithm is used in this document.

This document contains research on how Q-learning works, an implementation of the algorithm and analysis on how different parameters affect the result.

The beginning of this document contains background information on RL and Q-learning. Later on the Q-learning algorithm is described in more detail. The final chapter contains an analysis, conclusion and discussion regarding the results obtained with different parameter values.

Our implementation uses three parameters, alpha α, gamma γ and epsilon ε. Our results lead to the conclusion that the following parameter values lead to stable learning: α=0.2, γ=0.8 and ε=0.1.