En konstnärs tolkning av tidningen av S.M. Ali Eslami et al., med titeln "Representation och rendering av neural scen." Kredit:DeepMind
Ett team av forskare som arbetar med Googles DeepMind-avdelning i London har utvecklat vad de beskriver som ett Generation Query Network (GQN) – det tillåter en dator att skapa en 3D-modell av en scen från 2D-fotografier som kan ses från olika vinklar. I deras papper publicerad i tidskriften Vetenskap , teamet beskriver den nya typen av neurala nätverkssystem och vad det representerar. De erbjuder också en mer personlig syn på sitt projekt i ett inlägg på deras hemsida. Matthias Zwicker, med University of Maryland erbjuder ett perspektiv på det arbete som gjorts av teamet i samma tidningsnummer.
Inom datavetenskap, stora hopp inom systemteknik kan verka små på grund av den skenbara enkelheten i resultaten – det är inte förrän någon tillämpar resultaten som det stora språnget verkligen upptäcks. Detta var fallet, till exempel, när de första systemen började dyka upp som kunde lyssna på vad en person säger och utvinna mening ur det. I denna nya strävan, teamet på DeepMind kan ha gjort ett liknande steg.
I traditionella datorapplikationer, inklusive nätverk för djupinlärning, en dator måste skedmatas med data för att bete sig som om den har lärt sig något. Så är inte fallet för GQN, som lär sig rent av observation, som mänskliga spädbarn. Systemet kan observera en scen i verkligheten, som block som sitter på ett bord, och sedan återskapa en modell av den som kan visa scenen från andra vinklar. Vid första ögonkastet, som Zwicker noterar, det här kanske inte verkar så banbrytande. Det är först när man överväger vad systemet måste göra för att komma på dessa nya vinklar som systemets verkliga kraft blir tydlig. Den måste titta på scenen och härleda egenskaper hos tilltäppta föremål som inte kan observeras med endast 2D-information från kameror. Det finns ingen radar eller djupsökare, eller bilder av hur block ska se ut lagrade i dess databanker. Det enda den behöver arbeta med är de få fotografier den tar.
Att åstadkomma detta, teamet förklarar, involverar användning av två neurala nätverk, en för att analysera scenen, den andra för att använda de resulterande data för att skapa en 3D-modell av den som kan ses från vinklar som inte visas på fotografierna. Det finns mycket mer att göra, självklart, mest uppenbart, avgöra om det kan breddas till mer komplexa objekt - men i sin primitiva form, det representerar helt klart ett nytt sätt att låta datorer lära sig.
© 2018 Tech Xplore