Det nya tillvägagångssättet tillåter artificiell intelligens att lära sig känna igen transformerade bilder mycket snabbare. Kredit:Diogo Matias
Ett team av italienska matematiker, inklusive en neuroforskare från Champalimaud Center for the Unknown (CCU), i Lissabon, Portugal, har visat att maskiner för artificiell syn kan lära sig att känna igen komplexa bilder snabbare genom att använda en matematisk teori som utvecklades för 25 år sedan av en av den här nya studiens medförfattare. Deras resultat har publicerats i tidskriften Nature Machine Intelligence .
Under de senaste decennierna, maskinsynprestanda har förbättrats avsevärt. Konstgjorda system kan nu lära sig att känna igen praktiskt taget alla mänskliga ansikten eller att identifiera varje enskild fisk som rör sig i en tank.
Sådana maskiner är faktiskt, elektroniska modeller av nätverk av biologiska neuroner, och deras mål är att simulera hjärnans funktion, som utmärker sig vid dessa visuella uppgifter utan någon medveten ansträngning från vår sida.
Men hur lär sig dessa artificiella neurala nätverk egentligen? När det gäller ansiktsigenkänning, till exempel, de gör det genom att skaffa sig erfarenhet om hur mänskliga ansikten ser ut i form av en serie porträtt. Mer specifikt, efter att ha digitaliserats till en matris av pixelvärden, varje bild är "knäckt" inuti det neurala nätverket, som sedan extraherar allmänna, meningsfulla egenskaper från uppsättningen av provansikten (som ögonen, mun, näsa, etc).
Denna djupa inlärning gör det möjligt för maskinen att spotta ut ytterligare en uppsättning värden, vilket i sin tur gör det möjligt för den att identifiera ett ansikte som den aldrig har sett förut i en databank med ansikten (ungefär som en fingeravtrycksdatabas), och därför förutsäga vem det ansiktet tillhör med stor noggrannhet.
Berättelsen om smarta Hans
Men innan det neurala nätverket kan utföra detta bra, det är vanligtvis nödvändigt att presentera den med tusentals ansikten (dvs. matriser med siffror). Dessutom, även om dessa maskiner har blivit allt mer framgångsrika när det gäller mönsterigenkänning, faktum är att ingen riktigt vet vad som händer inom dem när de lär sig uppgifter. De är i princip svarta lådor.
Vad detta betyder är att det inte är möjligt att avgöra vilka eller hur många funktioner som maskinen faktiskt extraherar från de initiala data - och inte ens hur många av dessa funktioner som verkligen är meningsfulla för ansiktsigenkänning.
"För att illustrera detta, överväg paradigmet för den kloka hästen, "säger författaren till studien Mattia Bergomi, som arbetar i Systems Neuroscience Lab vid CCU. Berättelsen, från början av 1900-talet, handlar om en häst i Tyskland som heter Clever Hans som hans husse påstod hade lärt sig att utföra aritmetik och meddela resultatet av tillägg, subtraktioner, etc. genom att stämpla en av hans främre hovar i marken rätt antal gånger. Många människor var övertygade om att han kunde räkna; hästen rapporterades till och med av New York Times . Men då, 1907, en tysk psykolog visade att hästen var faktiskt, plocka upp omedvetna ledtrådar i sin mästares kroppsspråk som berättade när han skulle sluta knacka.
"Det är samma sak med maskininlärning; det finns ingen kontroll över hur det fungerar, eller vad den har lärt sig under träningen, "Förklarar Bergomi. Maskinen, har ingen förhandskunskap om ansikten, gör bara sina saker på något sätt – och det fungerar.
Detta fick forskarna att fråga om det kan finnas ett sätt att injicera viss kunskap om den verkliga världen om ansikten eller andra föremål i det neurala nätverket innan träning för att få det att utforska ett mer begränsat utrymme av möjliga funktioner istället för att överväga dem alla - inklusive de som är omöjliga i den verkliga världen. "Vi ville kontrollera utrymmet för inlärda funktioner, ", säger Bergomi. "Det liknar skillnaden mellan en medioker schackspelare och en expert:Den första ser alla möjliga drag, medan den senare bara ser de goda, " han lägger till.
Ett annat sätt att uttrycka det, han säger, är genom att säga att "vår studie tar upp följande enkla fråga:När vi tränar ett djupt neuralt nätverk för att särskilja vägskyltar, hur kan vi berätta för nätverket att dess jobb kommer att bli mycket lättare om det bara behöver bry sig om enkla geometriska former som cirklar och trianglar?"
Forskarna resonerade att detta tillvägagångssätt avsevärt skulle minska träningstiden - och viktigare, ge dem en ledtråd om vad maskinen kan göra för att få dess resultat. "Att tillåta människor att driva inlärningsprocessen för inlärningsmaskiner är grundläggande för att gå mot en mer begriplig artificiell intelligens och minska den skyhöga kostnaden i tid och resurser som nuvarande neurala nätverk kräver för att kunna tränas, " han säger.
Vad är i form?
En abstrakt matematisk teori kallad topologisk dataanalys (TDA) var nyckeln. De första stegen i utvecklingen av TDA togs 1992 av den italienska matematikern Patrizio Frosini, medförfattare till den nya studien, för närvarande vid universitetet i Bologna. "Topologi är en av de renaste formerna av matematik, " säger Bergomi. "Och tills nyligen, folk trodde att topologi inte skulle kunna tillämpas på något konkret på länge, tills TDA blev välkänt under de senaste åren."
Topologi är en sorts utökad geometri som, istället för att mäta linjer och vinklar i stela former (som trianglar, rutor, kottar, etc.), försöker klassificera mycket komplexa föremål efter deras form. För en topolog, till exempel, en munk och en mugg är samma föremål:den ena kan deformeras till den andra genom sträckning eller kompression.
Nu, Saken är den, nuvarande neurala nätverk är inte bra på topologi. Till exempel, de känner inte igen roterade föremål. Till dem, samma objekt kommer att se helt annorlunda ut varje gång det roteras. Det är just därför den enda lösningen är att få dessa nätverk att "memorera" varje konfiguration separat — i tusental. Och det är precis vad författarna planerade att undvika genom att använda TDA.
Tänk på TDA som ett matematiskt verktyg för att hitta meningsfull inre struktur (topologiska egenskaper), i alla komplexa objekt som kan representeras som en enorm uppsättning siffror. Detta uppnås genom att titta på data genom vissa väl valda "linser, " eller filter. Själva data kan handla om ansikten, finansiella transaktioner eller canceröverlevnad. TDA gör det möjligt att lära ett neuralt nätverk att känna igen ansikten utan att behöva presentera det med var och en av de olika orienteringar som ansikten kan anta i rymden. Maskinen kommer nu att känna igen alla ansikten som ett ansikte, även i olika roterade positioner.
I deras studie, forskarna testade fördelarna med att kombinera maskininlärning och TDA genom att lära ett neuralt nätverk att känna igen handskrivna siffror. Resultaten talar för sig själva.
Eftersom dessa nätverk är dåliga topologer och handstil kan vara mycket tvetydig, två olika handskrivna siffror kan visa sig vara oskiljaktiga för nuvarande maskiner – och omvänt, de kan identifiera två instanser av samma handskrivna siffra som olika. Uppgiften kräver att nätverket presenteras, som inte vet något om siffror i den verkliga världen, med tusentals bilder av var och en av de 10 siffrorna skrivna med alla möjliga snedställningar, kalligrafier, etc.
För att tillföra kunskap om siffror, teamet byggde en uppsättning a priori-funktioner som de ansåg vara meningsfulla – med andra ord, en uppsättning "linser" genom vilka nätverket skulle se siffrorna – och tvingade maskinen att välja bland dessa linser för att titta på bilderna. Antalet bilder (dvs. tiden) som behövs för det TDA-förbättrade neurala nätverket att lära sig att skilja femmor från sjuor, hur dåligt skrivet som helst, samtidigt som den behåller sin prediktiva kraft, sjunkit till mindre än 50.
"Vad vi matematiskt beskriver i vår studie är hur man upprätthåller vissa symmetrier, och detta ger en strategi för att bygga maskinlärande agenter som kan lära sig framträdande egenskaper från några exempel genom att dra fördel av den kunskap som injiceras som begränsningar, säger Bergomi.
Betyder detta att inlärningsmaskinernas inre funktioner som efterliknar hjärnan kommer att bli mer transparenta i framtiden? möjliggöra nya insikter om själva hjärnans inre funktioner? Hur som helst, detta är ett av Bergomis mål. "Förståelsen av artificiell intelligens är nödvändig för dess interaktion och integration med biologisk intelligens, " säger han. Han arbetar för närvarande, i samarbete med sin kollega Pietro Vertechi, på att utveckla en ny typ av neurala nätverksarkitektur som gör det möjligt för människor att snabbt injicera kunskap på hög nivå i dessa nätverk för att kontrollera och påskynda sin träning.