En AI lärde sig själv att spela ett videospel och nu slår det människor

Illustration av agenter som spelar Capture the Flag, visar en rad olika beteenden. Kredit:DeepMind

Sedan de tidigaste dagarna av virtuellt schack och patiens, TV-spel har varit en spelplan för att utveckla artificiell intelligens (AI). Varje seger för maskin mot människa har hjälpt till att göra algoritmer smartare och effektivare. Men för att ta itu med verkliga problem – som att automatisera komplexa uppgifter inklusive körning och förhandling – måste dessa algoritmer navigera i mer komplexa miljöer än brädspel, och lär dig teamwork. Att lära AI hur man arbetar och interagerar med andra spelare för att lyckas hade varit en oöverstiglig uppgift – fram till nu.

I en ny studie, forskare beskriver ett sätt att träna AI-algoritmer för att nå mänskliga prestandanivåer i ett populärt 3D-spel för flera spelare – en modifierad version av Quake III Arena i Capture the Flag-läget.

Även om uppgiften med det här spelet är okomplicerad – två motståndarlag tävlar om att fånga varandras flaggor genom att navigera på en karta – kräver vinnande komplext beslutsfattande och en förmåga att förutsäga och svara på andra spelares handlingar.

Detta är första gången en AI har uppnått mänskliga färdigheter i ett förstapersonsspel. Så hur gjorde forskarna det?

Robotens inlärningskurva

Under 2019, flera milstolpar inom AI-forskning har nåtts i andra strategispel för flera spelare. Fem "bots - spelare som kontrolleras av en AI - besegrade ett professionellt e-sportlag i en omgång DOTA 2. Professionella mänskliga spelare blev också slagna av en AI i en omgång StarCraft II. I alla fall, en form av förstärkningsinlärning tillämpades, varvid algoritmen lär sig genom att trial and error och genom att interagera med sin omgivning.

Bild som visar vinstfrekvenser för mänskliga spelare mot svarsfördröjda agenter. Dessa är låga, vilket indikerar att även med mänskliga jämförbara reaktionsförseningar, agenter överträffar mänskliga spelare. Kredit:DeepMind
Gif som visar nyare resultat som agenter spelar i två olika fullständiga Quake III Arena-kartor med olika spellägen. Kredit:DeepMind

De fem botarna som slog människor på DOTA 2 lärde sig inte av att människor spelade – de tränades uteslutande genom att spela matcher mot kloner av sig själva. Förbättringen som gjorde det möjligt för dem att besegra professionella spelare kom från att skala befintliga algoritmer. På grund av datorns hastighet, AI:n kan spela på några sekunder ett spel som tar minuter eller till och med timmar för människor att spela. Detta gjorde det möjligt för forskarna att träna sin AI med 45, 000 år av spelande inom tio månader i realtid.

Botten Capture the Flag från den senaste studien började också lära sig från grunden. Men istället för att spela mot dess identiska klon, en kohort på 30 bots skapades och tränades parallellt med deras egen interna belöningssignal. Varje bot inom denna population skulle sedan spela tillsammans och lära av varandra. Som David Silver - en av de inblandade forskarna - noterar, AI börjar "ta bort begränsningarna för mänsklig kunskap ... och skapa kunskap själv."

Video som visar visualiseringar av en agent som spelar, samt några exempel på prototypbeteenden. Kredit:DeepMind

Inlärningshastigheten för människor är fortfarande mycket snabbare än de mest avancerade algoritmerna för inlärning av djup förstärkning. Både OpenAI:s bots och DeepMinds AlphaStar (boten som spelar StarCraft II) slukade tusentals år av gameplay innan de kunde nå en mänsklig prestationsnivå. Sådan utbildning beräknas kosta flera miljoner dollar. Ändå, en självlärd AI som kan slå människor i deras eget spel är ett spännande genombrott som kan förändra hur vi ser på maskiner.

Framtiden för människor och maskiner

AI skildras ofta som ersätter eller kompletterar mänskliga förmågor, men sällan som en fullfjädrad teammedlem, utföra samma uppgift som människor. Eftersom dessa videospelsexperiment involverar maskin-mänsklig samarbete, de ger en glimt av framtiden.

Hur man spelar CTF, som agenterna har visat. Kredit:DeepMind

Mänskliga spelare i Capture the Flag bedömde botarna som mer samarbetsvilliga än andra människor, men spelare i DOTA 2 hade en blandad reaktion på sina AI-lagkamrater. Vissa var ganska entusiastiska, säga att de kände sig stöttade och att de lärde sig av att spela tillsammans med dem. Sheever, en professionell DOTA 2-spelare, berättade om sin erfarenhet av att samarbeta med bots:"Det kändes faktiskt trevligt; [AI-lagkamraten] gav sitt liv för mig någon gång. Han försökte hjälpa mig, tänkte "jag är säker på att hon vet vad hon gör" och då gjorde jag uppenbarligen inte det. Men, du vet, han trodde på mig. Jag får inte så mycket med [mänskliga] lagkamrater."

Andra var mindre entusiastiska, men eftersom kommunikation är en grundpelare i alla relationer, Att förbättra kommunikationen mellan människa och maskin kommer att vara avgörande i framtiden. Forskare har redan anpassat vissa funktioner för att göra botarna mer "mänskliga vänliga, " som att låta bots på konstgjord väg vänta innan de väljer sin karaktär under lagutkastet före matchen, för att undvika att pressa människor.

En video med åtta agenter som spelar spelläget en-flagga-flagga-flaggan tillsammans i en Quake III Arena-karta populär bland professionella spelare. Kredit:DeepMind

Men ska AI lära av oss eller fortsätta att lära sig själva? Självinlärning utan att imitera människor kan lära AI mer effektivitet och kreativitet, men detta kan skapa algoritmer som är mer lämpliga för uppgifter som inte involverar mänskligt samarbete, såsom lagerrobotar.

Å andra sidan, man kan hävda att det skulle vara mer intuitivt att ha en maskin utbildad från människor – människor som använder sådan AI kunde förstå varför en maskin gjorde vad den gjorde. När AI blir smartare, vi är alla i för fler överraskningar.

Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.

Vätgaskraftigt elektriskt flygande fordon:Lång väg till uppsving

Patentprat:Apple har hopfällbara, hållbarhet i tankarna

Elektronik

Frågor ökar över förseningar efter att Cathay Pacific erkänt en enorm dataläcka

LSU-forskare fortsätter arbetet med böjbar betong, tillsätt sockerrörsbiprodukter till blandningen

Robotsmide:En teknik som kan återuppliva amerikansk tillverkning

Vetenskap

Audi -chef greps i dieselsond (uppdatering)

Redaktionell:Saltonhavet är en katastrof i vardande. Kalifornien gör ingenting för att stoppa det

Jorden behöver klimatkontroll, rymdpionjär varnar