• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Äntligen, AI slår proffs i poker för sex spelare

    Noam Brown är en Facebook AI-forskare medan han avslutar sin doktorsexamen. på Carnegie Mellon. Upphovsman:Noam Brown

    Ett program för artificiell intelligens utvecklat av Carnegie Mellon University i samarbete med Facebook AI har besegrat ledande proffs inom sex-spelare no-limit Texas hold'em poker, världens mest populära form av poker.

    AI, kallas Pluribus, besegrade pokerproffset Darren Elias, som har rekordet för flest World Poker Tour-titlar, och Chris "Jesus" Ferguson, vinnare av sex World Series of Poker-evenemang. Varje proffs spelade separat 5, 000 händer poker mot fem exemplar av Pluribus.

    I ett annat experiment som involverade 13 proffs, som alla har vunnit mer än 1 miljon dollar på poker, Pluribus spelade fem proffs åt gången för totalt 10, 000 händer och gick igen som segrare.

    "Pluribus uppnådde övermänsklig prestation i multi-player poker, som är en erkänd milstolpe inom artificiell intelligens och spelteori som har varit öppen i decennier, sa Tuomas Sandholm, Angel Jordan professor i datavetenskap, som utvecklade Pluribus med Noam Brown, som avslutar sin doktorsexamen. i Carnegie Mellons datavetenskapliga avdelning som forskare vid Facebook AI. "Än så länge, övermänskliga AI-milstolpar i strategiska resonemang har begränsats till tvåpartskonkurrens. Möjligheten att slå fem andra spelare i ett så komplicerat spel öppnar nya möjligheter att använda AI för att lösa en mängd olika verkliga problem."

    En forskningsartikel som beskriver denna prestation inom AI kommer att publiceras online av tidskriften Vetenskap på torsdag, 11 juli, 2019.

    "Att spela ett spel för sex spelare snarare än head-to-head kräver grundläggande förändringar i hur AI utvecklar sin spelstrategi, "sa Brown, som gick med i Facebook AI förra året. "Vi är glada över dess prestanda och tror att några av Pluribus spelstrategier till och med kan förändra hur proffsen spelar spelet."

    Pluribus algoritmer skapade några överraskande funktioner i sin strategi. Till exempel, de flesta mänskliga spelare undviker "donk-betting" – det vill säga, avslutar en omgång med ett syn, men börjar sedan nästa omgång med en insats. Det ses som ett svagt drag som vanligtvis inte är strategiskt vettigt. Men Pluribus placerade donk-satsningar mycket oftare än proffsen som den besegrade.

    "Dess största styrka är dess förmåga att använda blandade strategier, " sa Elias förra veckan när han förberedde sig för 2019 World Series of Poker main event. "Det är samma sak som människor försöker göra. Det är en fråga om avrättning för människor – att göra detta på ett helt slumpmässigt sätt och att göra det konsekvent. De flesta människor kan bara inte."

    Pluribus registrerade en solid vinst med statistisk signifikans, vilket är särskilt imponerande med tanke på dess motstånd, sa Elias. "Boten spelade inte bara mot några mellanproffs. Den spelade några av de bästa spelarna i världen."

    Michael "Gags" Gagliano, som har tjänat nästan 2 miljoner dollar i karriärinkomster, tävlade även mot Pluribus.

    "Det var otroligt fascinerande att få spela mot pokerboten och se några av strategierna den valde", sa Gagliano. "Det fanns flera pjäser som människor helt enkelt inte gör alls, särskilt när det gäller dess insatsstorlek. Bots/AI är en viktig del i utvecklingen av poker, och det var fantastiskt att ha förstahandserfarenhet i detta stora steg mot framtiden."

    Sandholm har lett ett forskarlag som studerar datorpoker i mer än 16 år. Han och Brown utvecklade tidigare Libratus, som för två år sedan avgörande slog fyra pokerproffs som spelade sammanlagt 120, 000 händer av heads-up no-limit Texas hold'em, en tvåspelarversion av spelet.

    Spel som schack och Go har länge fungerat som milstolpar för AI -forskning. I de spelen, alla spelare känner till statusen för spelbrädet och alla pjäser. Men poker är en större utmaning eftersom det är ett ofullständigt informationsspel; spelare kan inte vara säkra på vilka kort som är i spel och motståndare kan och kommer att bluffa. Det gör det både till en tuffare AI-utmaning och mer relevant för många verkliga problem som involverar flera parter och saknad information.

    Alla AI:er som visade övermänskliga färdigheter i spel för två spelare gjorde det genom att approximera vad som kallas en Nash-jämvikt. Uppkallad efter den avlidne Carnegie Mellon-alumnen och nobelpristagaren John Forbes Nash Jr., en Nash-jämvikt är ett par strategier (en per spelare) där ingen av spelarna kan dra nytta av att byta strategi så länge den andra spelarens strategi förblir densamma. Även om AI:s strategi bara garanterar ett resultat som inte är sämre än oavgjort, AI:n går segrande om dess motståndare gör felräkningar och inte kan upprätthålla jämvikten.

    I ett spel med fler än två spelare, att spela en Nash-jämvikt kan vara en förlorande strategi. Så Pluribus avstår från teoretiska garantier för framgång och utvecklar strategier som ändå gör det möjligt för den att konsekvent spela ut motståndare.

    Pluribus beräknar först en "blåkopia"-strategi genom att spela sex kopior av sig själv, vilket är tillräckligt för den första satsningsrundan. Från den stunden, Pluribus gör en mer detaljerad sökning efter möjliga drag i en finkornigare abstraktion av spelet. Den blickar framåt flera drag medan den gör det, men kräver inte att se framåt hela vägen till slutet av spelet, vilket skulle vara beräkningsmässigt oöverkomligt. Begränsad sökning är en standardmetod i spel med perfekt information, men är extremt utmanande i spel med imperfekt information. En ny sökalgoritm med begränsad framsyn är det huvudsakliga genombrottet som gjorde det möjligt för Pluribus att uppnå övermänsklig flerspelarpoker.

    Specifikt, sökningen är en imperfekt informationsspellösning av ett underspel med begränsad framsyn. Vid löven av det delspelet, AI:n överväger fem möjliga fortsättningsstrategier som varje motståndare och sig själv kan använda under resten av spelet. Antalet möjliga fortsättningsstrategier är mycket större, men forskarna fann att deras algoritm bara behöver överväga fem fortsättningsstrategier per spelare vid varje blad för att beräkna en stark, en balanserad övergripande strategi.

    Pluribus försöker också vara oförutsägbar. Till exempel, vadslagning skulle vara vettigt om AI:n hade den bästa möjliga handen, men om AI:n bara satsar när den har den bästa handen, motståndare kommer snabbt att fånga. Så Pluribus beräknar hur den skulle agera med varje möjlig hand den kunde hålla och beräknar sedan en strategi som är balanserad över alla dessa möjligheter.

    Även om poker är ett otroligt komplicerat spel, Pluribus använde beräkningar effektivt. AI:er som har uppnått de senaste milstolpar i spel har använt ett stort antal servrar och/eller farmar av GPU:er; Libratus använde cirka 15 miljoner kärntimmar för att utveckla sina strategier och, under livespel, använd 1, 400 CPU-kärnor. Pluribus beräknade sin ritningsstrategi på åtta dagar med endast 12, 400 kärntimmar och använde bara 28 kärnor under livespel.


    © Vetenskap https://sv.scienceaq.com