Toepen with reasoning agents

Tijs Zwinkels and Jelle Prins

Menu

Home
Toepen applet
Uitleg van het spel
Agents
Experiment
Source code
Experiment

Methoden
Om te kijken hoe de agents ten opzichte van elkaar presteerde, hebben we een klein experiment uitgevoerd. De 4 agents hebben 1000 potjes tot aan de 15 strafpunten tegen elkaar gespeeld. Telkens als 1 van de agents 15 strafpunten had, is de agent met de minste strafpunten als winnaar aangewezen. We voeren dit experiment 8x uit, met elke agent 2x op elke positie aan tafel.

Resultaten

Run Random Player FeebleMinded Player Reasoning Player Greedy Player
1 105x 299x 292x 304x
2 71x 228x 261x 440x
3 52x 202x 394x 352x
4 72x 221x 267x 431x
5 104x 302x 291x 303x
6 56x 242x 266x 436x
7 54x 220x 386x 340x
8 73x 222x 264x 441x
Gemiddeld: 73,38x 242x 303,8x 380,9x
Winaantallen per 1000 potjes.

De gemiddelde getallen geven ongeveer het beeld dat we verwachtte: De agents zijn qua complexiteit van links naar rechts gerangschikt, en het valt op dat de extra complexiteit inderdaad de prestaties van de agent bevorderd. Zie de beschrijvingen van de agents in de vorige paragraaf voor een uitgebreidere uitleg van de gedragingen van de verschillende agents. Iets dat opvalt, is hoe ver de 'Random Player' achterblijft. Zeker ten opzichte van de Feebleminded Player, die met slechts de toevoeging dat hij de laagste kaart in plaats van een willekeurige kaart weg moet gooien als hij geen kleur kan bekennen, een ruime factor 3 beter presteerd dan de random agent. Zoals eerder opgemerkt: Door het lage aantal kaarten waar je mee speelt in toepen, maakt het weggooien van een verkeerde kaart erg veel uit, en dat is hier mooi terug te zien.

Verder is het opvallend dat de Greedy Player, die qua codeomvang een heel stuk complexer is dan de op intuïtieve heuristieken gebaseerde Reasoning Player, niet zo heel veel beter presteerd. We beginnen in deze agent al duidelijk aan te lopen tegen 'the point of dimishing returns'; Veel meer (computationele) tijd besteden aan complexer gedrag, levert verhoudingsgewijs maar weinig extra prestaties op. Dit heeft vermoedelijk ook te maken met de relatief lage wingrens van 15 potjes, waardoor de kans om toevallig met het minste strafpunten te eindigen relatief hoog is.