En MIT-uppfunnen modell demonstrerar en förståelse för någon grundläggande "intuitiv fysik" genom att registrera "överraskning" när objekt i simuleringar rör sig på oväntade sätt, som att rulla bakom en vägg och inte dyka upp igen på andra sidan. Kredit:Christine Daniloff, MIT
Människor har en tidig förståelse för den fysiska verklighetens lagar. spädbarn, till exempel, ha förväntningar på hur objekt ska röra sig och interagera med varandra, och kommer att visa överraskning när de gör något oväntat, som att försvinna i ett slumpmässigt magiskt trick.
Nu har MIT-forskare designat en modell som visar en förståelse för en del grundläggande "intuitiv fysik" om hur objekt ska bete sig. Modellen kan användas för att bygga smartare artificiell intelligens och, i tur och ordning, tillhandahålla information för att hjälpa forskare att förstå spädbarns kognition.
Modellen, kallas ADEPT, observerar objekt som rör sig runt en scen och gör förutsägelser om hur objekten ska bete sig, baserat på deras underliggande fysik. När du spårar föremålen, modellen matar ut en signal vid varje videobildruta som korrelerar till en nivå av "överraskning" – ju större signalen, desto större överraskning. Om ett objekt någonsin dramatiskt inte matchar modellens förutsägelser – genom att, säga, försvinner eller teleporterar över en scen – dess överraskningsnivåer kommer att öka.
Som svar på videor som visar föremål som rör sig på fysiskt rimliga och osannolika sätt, modellen registrerade nivåer av överraskning som matchade nivåer som rapporterats av människor som hade sett samma videor.
"När spädbarn är 3 månader gamla, de har en föreställning om att föremål inte blinkar in och ut ur existensen, och kan inte röra sig genom varandra eller teleportera, " säger första författaren Kevin A. Smith, en forskare vid Institutionen för hjärn- och kognitionsvetenskap (BCS) och medlem av Center for Brains, sinnen, och maskiner (CBMM). "Vi ville fånga och formalisera den kunskapen för att bygga spädbarns kognition till agenter med artificiell intelligens. Vi börjar nu närma oss mänskliga på det sätt som modeller kan plocka isär grundläggande osannolika eller rimliga scener."
Med Smith på tidningen är de första författarna Lingjie Mei, en kandidatexamen vid institutionen för elektroteknik och datavetenskap, och BCS-forskaren Shunyu Yao; Jiajun Wu Ph.D. '19; CBMM-utredaren Elizabeth Spelke; Joshua B. Tenenbaum, professor i beräkningskognitionsvetenskap, och forskare i CBMM, BCS, och datavetenskap och artificiell intelligens Laboratory (CSAIL); och CBMM-utredaren Tomer D. Ullman Ph.D. '15.
Felaktiga verkligheter
ADEPT förlitar sig på två moduler:en "invers grafik"-modul som fångar objektrepresentationer från råbilder, och en "fysikmotor" som förutsäger objektens framtida representationer utifrån en fördelning av möjligheter.
Invers grafik extraherar i princip information om objekt – som form, utgör, och hastighet – från pixelingångar. Den här modulen fångar videorutor som bilder och använder omvänd grafik för att extrahera denna information från objekt i scenen. Men det fastnar inte i detaljerna. ADEPT kräver bara någon ungefärlig geometri för varje form för att fungera. Till viss del, detta hjälper modellen att generalisera förutsägelser till nya objekt, inte bara de det är tränat på.
"Det spelar ingen roll om ett föremål är rektangel eller cirkel, eller om det är en lastbil eller en anka. ADEPT ser bara att det finns ett objekt med någon position, rör sig på ett visst sätt, att göra förutsägelser, " säger Smith. "På liknande sätt, unga spädbarn verkar inte heller bry sig mycket om vissa egenskaper som form när de gör fysiska förutsägelser."
Dessa grova objektbeskrivningar matas in i en fysikmotor – programvara som simulerar beteendet hos fysiska system, såsom stela eller flytande kroppar, och används ofta för filmer, Videospel, och datorgrafik. Forskarnas fysikmotor "skjuter objekten framåt i tiden, " säger Ullman. Detta skapar en rad förutsägelser, eller en "trosfördelning, " för vad som kommer att hända med dessa objekt i nästa bildruta.
Nästa, modellen observerar nästa bildruta. Ännu en gång, den fångar objektrepresentationerna, som den sedan anpassar till en av de förutsagda objektrepresentationerna från dess trosfördelning. Om föremålet lydde fysikens lagar, det kommer inte att vara mycket oöverensstämmelse mellan de två representationerna. Å andra sidan, om föremålet gjorde något osannolikt – säg, den försvann bakom en mur – det kommer att bli en stor obalans.
ADEPT omsamplar sedan från sin trosfördelning och noterar en mycket låg sannolikhet att objektet helt enkelt hade försvunnit. Om det är tillräckligt låg sannolikhet, modellen registrerar stor "överraskning" som en signalspik. I grund och botten, överraskning är omvänt proportionell mot sannolikheten för att en händelse inträffar. Om sannolikheten är mycket låg, signaltoppen är mycket hög.
"Om ett föremål går bakom en vägg, din fysikmotor upprätthåller en tro på att föremålet fortfarande är bakom väggen. Om väggen går ner, och ingenting finns där, det finns en obalans, " säger Ullman. "Då, modellen säger, "Det finns ett föremål i min förutsägelse, men jag ser ingenting. Den enda förklaringen är att den försvann, så det är förvånande."
Brott mot förväntningar
Inom utvecklingspsykologi, forskare kör "överträdelse av förväntningar"-test där spädbarn visas par av videor. En video visar en rimlig händelse, med föremål som håller fast vid sina förväntade föreställningar om hur världen fungerar. Den andra videon är densamma på alla sätt, förutom att föremål beter sig på ett sätt som bryter mot förväntningarna på något sätt. Forskare använder ofta dessa tester för att mäta hur länge barnet tittar på en scen efter att en osannolik handling har inträffat. Ju längre de stirrar, forskare antar, desto mer kan de bli förvånade eller intresserade av vad som just hände.
För sina experiment, forskarna skapade flera scenarier baserade på klassisk utvecklingsforskning för att undersöka modellens kärnobjektkunskap. De anställde 60 vuxna för att titta på 64 videor av kända fysiskt rimliga och fysiskt osannolika scenarier. Objekt, till exempel, kommer att röra sig bakom en vägg och, när väggen faller, de kommer fortfarande att vara där eller så försvinner de. Deltagarna bedömde sin överraskning vid olika ögonblick på en ökande skala från 0 till 100. Sedan, forskarna visade samma videor till modellen. Specifikt, scenarierna undersökte modellens förmåga att fånga föreställningar om beständighet (objekt dyker inte upp eller försvinner utan anledning), kontinuitet (objekt rör sig längs anslutna banor), och soliditet (objekt kan inte röra sig genom varandra).
ADEPT matchade människor särskilt väl på videor där föremål rörde sig bakom väggar och försvann när väggen togs bort. Intressant, modellen matchade också överraskningsnivåer på videor som människor inte blev förvånade över men kanske borde ha blivit. Till exempel, i en video där ett föremål som rör sig med en viss hastighet försvinner bakom en vägg och omedelbart kommer ut på andra sidan, objektet kan ha ökat dramatiskt när det gick bakom väggen eller så kan det ha teleporterat till andra sidan. I allmänhet, människor och ADEPT var båda mindre säkra på om den händelsen var eller inte var överraskande. Forskarna fann också att traditionella neurala nätverk som lär sig fysik från observationer - men som inte uttryckligen representerar objekt - är mycket mindre exakta när det gäller att skilja överraskande från föga överraskande scener, och deras val för överraskande scener stämmer inte ofta överens med människor.
Nästa, forskarna planerar att fördjupa sig ytterligare i hur spädbarn observerar och lär sig om världen, med syftet att införliva eventuella nya rön i sin modell. Studier, till exempel, visa att spädbarn upp till en viss ålder faktiskt inte blir särskilt förvånade när föremål helt förändras på något sätt – som om en lastbil försvinner bakom en vägg, men återuppstår som en anka.
"Vi vill se vad mer som behöver byggas in för att förstå världen mer som spädbarn, och formalisera vad vi vet om psykologi för att bygga bättre AI-agenter, " säger Smith.
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.