DeepRole, en MIT-uppfunnen spelbot utrustad med "deduktivt resonemang, ” kan slå mänskliga spelare i knepiga flerspelarspel online där spelarroller och motiv hålls hemliga. Kredit:Massachusetts Institute of Technology
MIT-forskare har utvecklat en bot utrustad med artificiell intelligens som kan slå mänskliga spelare i knepiga online multiplayer-spel där spelarens roller och motiv hålls hemliga.
Många spelrobotar har byggts för att hålla jämna steg med mänskliga spelare. Tidigare i år, ett team från Carnegie Mellon University utvecklade världens första bot som kan slå proffs i multiplayer poker. DeepMinds AlphaGo skapade rubriker 2016 för att vara bäst på en professionell Go-spelare. Flera botar har också byggts för att slå professionella schackspelare eller slå sig samman i samarbetsspel som online capture the flag. I dessa spel, dock, boten känner sina motståndare och lagkamrater från början.
Vid konferensen om neurala informationsbehandlingssystem nästa månad, forskarna kommer att presentera DeepRole, den första spelboten som kan vinna online multiplayer-spel där deltagarnas laglojalitet initialt är oklart. Boten är designad med nya "deduktiva resonemang" som lagts till i en AI-algoritm som vanligtvis används för att spela poker. Detta hjälper den att resonera om delvis observerbara handlingar, för att bestämma sannolikheten att en given spelare är en lagkamrat eller motståndare. Genom att göra så, den lär sig snabbt vem den ska alliera sig med och vilka åtgärder den ska vidta för att säkerställa sitt lags seger.
Forskarna ställde DeepRole mot mänskliga spelare i mer än 4, 000 omgångar av onlinespelet "The Resistance:Avalon." I det här spelet, spelare försöker härleda sina kamraters hemliga roller när spelet fortskrider, samtidigt som de gömmer sina egna roller. Som både lagkamrat och motståndare, DeepRole presterade konsekvent bättre än mänskliga spelare.
"Om du ersätter en mänsklig lagkamrat med en bot, du kan förvänta dig en högre vinstfrekvens för ditt lag. Bots är bättre partners, " säger första författaren Jack Serrino '18, som studerade elektroteknik och datavetenskap vid MIT och är en ivrig online "Avalon"-spelare.
Arbetet är en del av ett bredare projekt för att bättre modellera hur människor fattar socialt informerade beslut. Att göra det kan hjälpa till att bygga robotar som bättre förstår, lär från, och arbeta med människor.
"Människor lär sig av och samarbetar med andra, och som gör det möjligt för oss att tillsammans uppnå saker som ingen av oss kan uppnå ensam, " säger medförfattaren Max Kleiman-Weiner, en postdoc i Center for Brains, Minds and Machines och Institutionen för hjärn- och kognitionsvetenskap vid MIT, och vid Harvard University. "Spel som "Avalon" efterliknar bättre de dynamiska sociala miljöer som människor upplever i vardagen. Du måste ta reda på vem som är i ditt team och som kommer att arbeta med dig, oavsett om det är din första dag på dagis eller en annan dag på ditt kontor."
Med Serrino och Kleiman-Weiner på tidningen är David C. Parkes från Harvard och Joshua B. Tenenbaum, en professor i beräkningskognitiv vetenskap och en medlem av MIT:s datavetenskap och artificiell intelligens Laboratory och Center for Brains, Sinnen och maskiner.
Deduktiv bot
I "Avalon, " tre spelare tilldelas slumpmässigt och i hemlighet till ett "motståndslag" och två spelare till ett "spion"lag. Båda spionspelarna känner till alla spelares roller. Under varje omgång, en spelare föreslår en delmängd av två eller tre spelare för att utföra ett uppdrag. Alla spelare röstar samtidigt och offentligt för att godkänna eller ogilla delmängden. Om majoriteten godkänner delmängden avgör i hemlighet om uppdraget kommer att lyckas eller misslyckas. Om två "lyckas" väljs, uppdraget lyckas; om ett "misslyckande" väljs, uppdraget misslyckas. Motståndsspelare måste alltid välja att lyckas, men spionspelare kan välja vilket resultat som helst. Motståndslaget vinner efter tre lyckade uppdrag; spionteamet vinner efter tre misslyckade uppdrag.
Att vinna spelet handlar i princip om att härleda vem som är motstånd eller spion, och rösta på dina medarbetare. Men det är faktiskt mer beräkningsmässigt komplicerat än att spela schack och poker. "Det är ett spel med ofullkomlig information, " säger Kleiman-Weiner. "Du är inte ens säker på vem du är emot när du börjar, så det finns en ytterligare upptäcktsfas för att hitta vem man ska samarbeta med."
DeepRole använder en spelplaneringsalgoritm som kallas "counterfactual regret minimization" (CFR) – som lär sig att spela ett spel genom att upprepade gånger spela mot sig själv – förstärkt med deduktiva resonemang. Vid varje punkt i ett spel, CFR ser framåt för att skapa ett "spelträd" för beslut av linjer och noder som beskriver varje spelares potentiella framtida handlingar. Spelträd representerar alla möjliga åtgärder (linjer) som varje spelare kan vidta vid varje framtida beslutspunkt. Genom att spela ut potentiellt miljarder spelsimuleringar, CFR noterar vilka åtgärder som hade ökat eller minskat dess chanser att vinna, och reviderar iterativt sin strategi för att inkludera fler bra beslut. Så småningom, den planerar en optimal strategi som, som värst, band mot någon motståndare.
CFR fungerar bra för spel som poker, med offentliga handlingar – som att satsa pengar och lägga en hand – men det kämpar när handlingar är hemliga. Forskarnas CFR kombinerar offentliga handlingar och konsekvenser av privata handlingar för att avgöra om spelarna är motstånd eller spioner.
Boten tränas genom att spela mot sig själv som både motstånd och spion. När du spelar ett onlinespel, den använder sitt spelträd för att uppskatta vad varje spelare ska göra. Spelträdet representerar en strategi som ger varje spelare den högsta chansen att vinna som en tilldelad roll. Trädets noder innehåller "kontrafaktiska värden, " som i princip är uppskattningar för en utdelning som spelaren får om de spelar den givna strategin.
Vid varje uppdrag, boten tittar på hur varje person spelade i jämförelse med spelträdet. Om, under hela spelet, en spelare fattar tillräckligt många beslut som inte överensstämmer med botens förväntningar, då spelar förmodligen spelaren som den andra rollen. Så småningom, boten tilldelar en hög sannolikhet för varje spelares roll. Dessa sannolikheter används för att uppdatera botens strategi för att öka dess chanser till seger.
Samtidigt, den använder samma teknik för att uppskatta hur en tredjepersonsobservatör kan tolka sina egna handlingar. Detta hjälper det att uppskatta hur andra spelare kan reagera, hjälpa den att fatta smartare beslut. "Om det är på ett tvåspelaruppdrag som misslyckas, de andra spelarna vet att en spelare är en spion. Boten kommer förmodligen inte att föreslå samma team på framtida uppdrag, eftersom det vet att de andra spelarna tycker att det är dåligt, säger Serrino.
Språk:Nästa gräns
Intressant, boten behövde inte kommunicera med andra spelare, vilket vanligtvis är en nyckelkomponent i spelet. "Avalon" gör det möjligt för spelare att chatta på en textmodul under spelets gång. "Men det visade sig att vår bot kunde fungera bra med ett team av andra människor samtidigt som vi bara observerade spelarnas handlingar, " säger Kleiman-Weiner. "Det här är intressant, eftersom man kanske tror att spel som detta kräver komplicerade kommunikationsstrategier."
Nästa, forskarna kan göra det möjligt för boten att kommunicera under spel med enkel text, som att säga att en spelare är bra eller dålig. Det skulle innebära att tilldela text till den korrelerade sannolikheten att en spelare är motstånd eller spion, som boten redan använder för att fatta sina beslut. Bortom det, en framtida bot kan vara utrustad med mer komplexa kommunikationsmöjligheter, gör det möjligt för den att spela språktunga sociala avdragsspel – som ett populärt spel "Werewolf" – som involverar flera minuters bråk och övertalning av andra spelare om vem som är i det bra och dåliga laget.
"Språket är definitivt nästa gräns, ", säger Serrino. "Men det finns många utmaningar att attackera i de spelen, där kommunikation är så nyckeln."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.