Twintig dagen lang speelden professionele pokerspelers als Jason Les tegen een computer die is ontwikkeld door wetenschappers van de Carnegie Mellon University: Libratus. Het is niet voor het eerst dat CMU zich op een dergelijke strijd stort: een paar jaar geleden nam computer Claudico het op tegen menselijke pokerprofessionals als Doug Polk. Drie van de vier menselijke spelers hielden meer fiches over dan de computer aan het eind van 80.000 handen - geen groot succes dus.

Twee jaar geleden had je ook Canadese pokerbot Cepheus die het opnam tegen pokerblogger Robert Hall. Die strijd won de bot, maar dat ging in dat geval om Limit Poker. Omdat daarbij de inzetgrootte bij iedere street beperkt is, is het een veel mechanischere vorm dan No-Limit.

Heel andere dynamiek

Het is logisch dat een computerprogramma Limit Hold'em sneller beheerst dan de variant waarbij spelers meer bewegingsruimte hebben en een hoger niveau spelbeheersing (en misschien wat mensenkennis) wordt vereist om inzicht te krijgen in wat de tegenstander doet. Tegen Hall ging Cepheus blijkbaar voor een tight-agressive strategie en zodra de menselijke speler dat doorkreeg, kreeg hij het sneller voor elkaar om de computer het op te laten geven met feitelijk de beste hand.

Poker is een interessant spel om een computer op los te laten, omdat het een spel met verborgen, imperfecte informatie is; je weet niet wat de tegenstander heeft en je hebt geen zekerheid over je conclusies waarom een tegenstander een bepaalde actie uitvoert. Bij diverse bordspellen zien beide spelers wat de tegenstanders doen, bijvoorbeeld met schaken. Bij verschillende kaartspellen zien de tegenstanders niet van elkaar wat ze doen en dat zorgt voor een heel andere dynamiek.

Interessant spel voor AI

Spelvorm Texas Hold'em levert een interessante combinatie op, omdat spelers inferenties kunnen maken op basis van beschikbare informatie zoals de kaarten die gelegd worden en de inzetpatronen voor en tijdens verschillende streets. Spelers kunnen hun aannames over de potentiële kaarten die tegenstander in bezit heeft verder verfijnen op basis van diens acties. Het is daarom een spel waarbij de afloop wordt bepaald door beslissingen van spelers, niet door de kaarten die ze krijgen.

Over dit laatste wordt al jaren gediscussieerd: is poker een gokspel is of een spel van vaardigheden? Het simpelste voorbeeld om het verschil te zien is dat je geen professionele roulettespelers hebt die daar een stabiel inkomen uithalen, terwijl je dat wel hebt bij poker waar professionals een inkomen kunnen genereren. Dat alleen al lijkt ons een aardige indicatie dat geluk met de kaarten slechts een factor is en er een langetermijnwinst te halen valt die stabiel boven de 50 procent ligt.

In onderstaand filmpje zie je hoe Doug Polk met een paar (8-8-A-K-10) reageert op een verhoging van drie keer de potgrootte die Claudio op hem afvuurt. Die kan sowieso niet de beste flush hebben, aangezien Polk de ruitenaas heeft. Darabij heeft de machine eerste positie en ging hij voor een kleinere inzet op de turn, toen de derde ruit verscheen. Polk besluit al met al op de pot te vuren met een forse verhoging.

Kortom, vier factoren zijn van belang voor Poker-AI in het algemeen en Libratus versus de mens in het bijzonder:

1. Het gekozen spel is poker, omdat het een goede test is van het vinden van een optimale strategie in een Nash-evenwichtsconcept. Met een spel als schaken of het complexere Go ga je uit van objectief de beste zet per beurt te bereiken. Je hebt geen imperfecte informatie en speculeert dus in per afzonderlijke zet niet op de potentiële missers van de tegenstander.

2. De spelvariant is Texas Hold'em vanwege het grote aantal informatiesets (6,38 x 10161 in een heads-upsituatie) in vergelijking met andere pokervarianten en vanwege de deels verborgen informatie. Eerste ontwikkelingen gebeurden met de simpelere Rhode Island-variant, waarbij er drie kaarten zijn (eentje in de hand van de speler, één op de flop en één als turn) wat het aantal potentiële combinaties en informatiesets overzichtelijker maakt. Die variant is dan ook uitgevonden door informaticawetenschappers met als doel een computer te leren pokeren.

3. Er is geen limiet (No Limit) omdat het een populaire spelstijl is en het daarmee de aandacht trekt van de pers, wetenschappers en het publiek en omdat deze inzetvorm misleiding en andere strategieën toevoegt aan het statischere Limit Poker. No Limit vereist een speler die dynamisch zijn stijl aanpast op de keuzes van de andere speler, wat interessant is voor een Nash-evenwichtsalgoritme.

4. Er zijn twee spelers (heads-up) om een nulsom-situatie te garanderen. Bovendien wordt met meerdere spelers de speldynamiek anders, omdat de speler die in bepaalde posities een specifieke tegenstander op de korrel neemt rekening moet houden met hoe zijn of haar acties de acties van een tussenspeler veranderen (bijvoorbeeld als de pot groter wordt en de speler met een marginale hand speltheoretisch gezien is gedwongen om mee te gaan met een verhoging).

Hierna: De kunstmatige intelligentie gaat in de kern uiteraard niet om poker, maar om de ontwikkeling en tests van een Nash-evenwichtsalgoritme dat is te gebruiken in de ziekenzorg, het leger, financiële instituten en meer.