Kredit:CC0 Public Domain
Forskare från HSE University och Moscow Polytechnic University har upptäckt att AI-modeller inte kan representera särdrag i mänskligt syn på grund av brist på tät koppling med respektive fysiologi, så de är sämre på att känna igen bilder. Resultaten av studien publicerades i Proceedings of the Seventh International Congress on Information and Communication Technology .
För att förstå hur maskinuppfattning av bilder skiljer sig från mänsklig uppfattning laddade forskare upp bilder av klassiska visuella illusioner till onlinetjänsten IBM Watson Visual Recognition. De flesta av dem var geometriska silhuetter, delvis dolda av geometriska former av bakgrundsfärgen. Systemet försökte fastställa bildens karaktär och angav graden av säkerhet i sitt svar.
Det visade sig att artificiell intelligens inte kan känna igen någon imaginär figur, med undantag för en färgad imaginär triangel. På grund av den höga kontrasten mot bakgrunden kändes den igen korrekt.
"Föremål som liknar de som vi använde under experimentet kan hittas i verkligheten", säger Vladimir Vinnikov, analytiker vid Laboratory of Methods for Big Data Analysis vid HSE-fakulteten för datavetenskap och författare till studien. "Till exempel uppfattar autopiloten på en bil eller ett flygplan en trailer eller ett radiotorn, som på natten endast indikeras av markeringsljus, på samma sätt som vi uppfattar imaginära geometriska former."
Det mänskliga ögat rör sig ständigt ofrivilligt, och den ljuskänsliga ytan på dess näthinna har formen av en halvklot. En person kan se en illusion om bilden är en vektor, d.v.s. om den innehåller referenspunkter och kurvor som förbinder dem. Den mänskliga fantasin kommer att fullborda bilden tack vare ständiga ögonrörelser, ett fysiologiskt inslag i vår syn.
I optoelektroniska system är allt ordnat annorlunda. Deras ljuskänsliga matris har en platt, vanligtvis rektangulär form, och linssystemet i sig är inte alls lika fritt i rörelse som det mänskliga ögat. Därför kan artificiell intelligens inte fullborda imaginära linjer som förbinder fragment av en geometrisk illusion. Maskinseende ser bara det som faktiskt avbildas, medan människor fullbordar bilden i sin fantasi baserat på dess konturer.
Idag sprider sig system för bildigenkänning av neurala nätverk aktivt i den kommersiella sektorn. Frågan om hur exakt maskiner känner igen bilder är dock fortfarande öppen. Människoliv kan bero på riktigheten av erkännandet. Till exempel kan en olycka inträffa om autopiloten på en bil eller ett flygplan inte känner igen ett objekt med låg kontrast i förhållande till bakgrunden och inte kan undvika ett hinder i tid.
Forskare tror att felaktigheter i maskinbildsigenkänning kan korrigeras. Till exempel kan de komplettera igenkänningen av rasterbilder, som representerar ett rutnät av pixlar, genom att simulera fysiologiska drag av ögonrörelser som gör att ögat kan se tvådimensionella och tredimensionella scener. Ett alternativt sätt är att lägga till vektorbeskrivningar av bilderna, vilket hjälper till att programmera maskinen att kringgå bilden längs de banor som anges av vektorerna.
"Imaginära föremål bör definitivt användas som tester i system som är beroende av igenkänning av foto- och videoströmmar, till exempel i autopiloter på bilar eller drönare. Detta kommer att bidra till att undvika riskerna som är förknippade med användningen av maskinintelligenssystem inom industrin och transportsystem", säger Vinnikov. + Utforska vidare