Ny forskning tyder på att träning av en artificiell intelligensmodell med matematiskt "mångfaldiga" lagkamrater förbättrar dess förmåga att samarbeta med annan AI som den aldrig har arbetat med tidigare. Kredit:Bryan Mastergeorge
Eftersom artificiell intelligens blir bättre på att utföra uppgifter en gång enbart i händerna på människor, som att köra bil, ser många teaming intelligens som en nästa gräns. I den här framtiden är människor och AI sanna partners i höginsatsjobb, som att utföra komplexa operationer eller försvara sig från missiler. Men innan teaming intelligens kan ta fart måste forskare övervinna ett problem som korroderar samarbetet:människor tycker ofta inte om eller litar på sina AI-partners.
Nu pekar ny forskning på att mångfald är en nyckelparameter för att göra AI till en bättre lagspelare.
Forskare från MIT Lincoln Laboratory har funnit att träning av en AI-modell med matematiskt "mångfaldiga" lagkamrater förbättrar dess förmåga att samarbeta med annan AI som den aldrig har arbetat med tidigare, i kortspelet Hanabi. Dessutom publicerade både Facebook och Googles DeepMind samtidigt oberoende arbete som också ingjutit mångfald i träning för att förbättra resultaten i samarbetsspel mellan människa och AI.
Sammantaget kan resultaten peka forskare på en lovande väg för att göra AI som både kan prestera bra och ses som bra samarbetspartners av mänskliga lagkamrater.
"Det faktum att vi alla konvergerade om samma idé - att om du vill samarbeta måste du träna i en mångsidig miljö - är spännande, och jag tror att det verkligen sätter scenen för det framtida arbetet inom kooperativ AI", säger Ross Allen, en forskare i Lincoln Laboratorys Artificial Intelligence Technology Group och medförfattare till en artikel som beskriver detta arbete, som nyligen presenterades vid den internationella konferensen om autonoma agenter och multiagentsystem.
Anpassa sig till olika beteenden
För att utveckla kooperativ AI använder många forskare Hanabi som en testplats. Hanabi utmanar spelare att arbeta tillsammans för att lägga korten i ordning, men spelare kan bara se sina lagkamraters kort och kan bara ge glesa ledtrådar till varandra om vilka kort de har.
I ett tidigare experiment testade forskare från Lincoln Laboratory en av världens bäst presterande Hanabi AI-modeller med människor. De blev förvånade när de upptäckte att människor starkt ogillade att leka med denna AI-modell och kallade den en förvirrande och oförutsägbar lagkamrat. "Slutsatsen var att vi saknar något om mänskliga preferenser, och vi är ännu inte bra på att göra modeller som kan fungera i den verkliga världen", säger Allen.
Teamet undrade om kooperativ AI behöver tränas annorlunda. Den typ av AI som används, kallad förstärkningsinlärning, lär sig traditionellt hur man lyckas med komplexa uppgifter genom att upptäcka vilka åtgärder som ger högst belöning. Den tränas ofta och utvärderas mot modeller som liknar den själv. Denna process har skapat oöverträffade AI-spelare i konkurrenskraftiga spel som Go och StarCraft.
Men för att AI ska vara en framgångsrik samarbetspartner måste den kanske inte bara bry sig om att maximera belöningen när man samarbetar med andra AI-agenter, utan också något mer inneboende:förståelse och anpassning till andras styrkor och preferenser. Den behöver med andra ord lära av och anpassa sig till mångfald.
Hur tränar man en så mångfaldsinriktad AI? Forskarna kom med "Any-Play". Any-Play utökar processen att träna en AI Hanabi-agent genom att lägga till ytterligare ett mål, förutom att maximera spelpoängen:AI:n måste korrekt identifiera spelstilen för sin träningspartner.
Denna spelstil är kodad inom träningspartnern som en latent, eller dold, variabel som agenten måste uppskatta. Den gör detta genom att observera skillnader i beteendet hos sin partner. Detta mål kräver också att dess partner lär sig distinkta, igenkännbara beteenden för att förmedla dessa skillnader till den mottagande AI-agenten.
Även om denna metod för att framkalla mångfald inte är ny inom AI-området, utökade teamet konceptet till samarbetsspel genom att utnyttja dessa distinkta beteenden som olika spelstilar i spelet.
"AI-agenten måste observera sina partners beteende för att identifiera den hemliga input de fått och måste ta emot dessa olika sätt att spela för att prestera bra i spelet. Tanken är att detta skulle resultera i en AI-agent som är bra på att leka med olika spelstilar", säger första författare och Carnegie Mellon University Ph.D. kandidat Keane Lucas, som ledde experimenten som tidigare praktikant på laboratoriet.
Leka med andra som inte liknar sig själv
Teamet utökade den tidigare Hanabi-modellen (den som de hade testat med människor i sitt tidigare experiment) med träningsprocessen Any-Play. För att utvärdera om tillvägagångssättet förbättrade samarbetet, slog forskarna ihop modellen med "främlingar" - mer än 100 andra Hanabi-modeller som den aldrig hade stött på tidigare och som tränades av separata algoritmer - i miljontals matcher för två spelare.
Any-Play-paren överträffade alla andra lag, när dessa lag också bestod av partners som var algoritmiskt olika varandra. Den fick också bättre poäng när den samarbetade med originalversionen av sig själv som inte tränats med Any-Play.
Forskarna ser denna typ av utvärdering, kallad inter-algoritm cross-play, som den bästa prediktorn för hur kooperativ AI skulle fungera i den verkliga världen med människor. Inter-algoritm cross-play kontrasterar med mer vanligt använda utvärderingar som testar en modell mot kopior av sig själv eller mot modeller tränade av samma algoritm.
"Vi hävdar att de andra mätvärdena kan vara vilseledande och på konstgjord väg öka den uppenbara prestandan hos vissa algoritmer. Istället vill vi veta "om du bara släpper in en partner direkt utan förkunskaper om hur de kommer att spela , hur bra kan du samarbeta?' Vi tror att den här typen av utvärdering är mest realistisk när man utvärderar kooperativ AI med annan AI, när man inte kan testa med människor, säger Allen.
Det här arbetet testade faktiskt inte Any-Play med människor. Men forskning publicerad av DeepMind, samtidigt med labbets arbete, använde en liknande mångfaldsträningsmetod för att utveckla en AI-agent för att spela samarbetsspelet Overcooked with humans. "AI-agenten och människor visade anmärkningsvärt bra samarbete, och detta resultat får oss att tro att vårt tillvägagångssätt, som vi finner vara ännu mer generaliserat, också skulle fungera bra med människor", säger Allen. Facebook använde på liknande sätt mångfald i träning för att förbättra samarbetet mellan Hanabi AI-agenter, men använde en mer komplicerad algoritm som krävde modifieringar av Hanabis spelregler för att kunna hanteras.
Huruvida inter-algoritm cross-play poäng faktiskt är bra indikatorer på mänskliga preferenser är fortfarande en hypotes. För att föra tillbaka mänskligt perspektiv i processen vill forskarna försöka koppla en persons känslor om en AI, såsom misstro eller förvirring, till specifika mål som används för att träna AI. Att avslöja dessa kopplingar kan hjälpa till att påskynda framstegen inom området.
"Utmaningen med att utveckla AI för att fungera bättre med människor är att vi inte kan ha människor i ögat under träning och berätta för AI vad de gillar och ogillar. Det skulle ta miljontals timmar och personligheter. Men om vi kunde hitta någon form av kvantifierbar proxy för mänskliga preferenser - och kanske mångfald i träning är en sådan proxy - då kanske vi har hittat en väg igenom den här utmaningen, säger Allen.