Forskare har utvecklat ett nytt sätt att förbättra hur datorer "ser" och "förstår" objekt i den verkliga världen genom att träna datorernas visuella system i en virtuell miljö.
Forskargruppen publicerade sina resultat i IEEE/CAA Journal of Autmatica Sinica , en gemensam publikation av IEEE och Chinese Association of Automation.
För att datorer ska lära sig och exakt känna igen föremål som byggnader, gator eller människor, maskinerna måste förlita sig på att bearbeta enorma mängder märkta data, I detta fall, bilder av objekt med korrekta anteckningar. En självkörande bil, till exempel, behöver tusentals bilder av vägar och bilar att lära av. Datauppsättningar spelar därför en avgörande roll vid träning och testning av datorseendesystemen. Använda manuellt märkta träningsdatauppsättningar, ett datorseendesystem jämför sin nuvarande situation med kända situationer och vidtar de bästa åtgärderna, vad det än råkar vara.
"Dock, att samla in och kommentera bilder från den verkliga världen är för krävande när det gäller arbete och pengar, " skriver första författare Kunfeng Wang, en docent vid Kinas State Key Laboratory for Management and Control for Complex Systems. Wang säger att målet med deras forskning är att övervinna begränsningarna hos verkliga bilduppsättningar, som är otillräckliga för att träna och testa datorers synsystem.
För att lösa det här problemet, Wang och hans kollegor skapade en datauppsättning som heter ParallelEye. ParallelEye genererades praktiskt taget genom att använda kommersiellt tillgänglig datorprogramvara, specifikt videospelsmotorn Unity3D. Med hjälp av en karta över Zhongguancun, ett av de mest trafikerade stadsområdena i Peking, Kina, som deras referens, de återskapade praktiskt taget stadsmiljö genom att lägga till byggnader, bilar och även väderförhållanden. Sedan placerade de en virtuell "kamera" på en virtuell bil. Bilen körde runt den virtuella Zhongguancun och skapade datauppsättningar som är representativa för den verkliga världen.
Genom sin "fullständiga kontroll" över den virtuella miljön, Wangs team kunde skapa extremt specifik användbar data för deras objektdetekteringssystem - ett simulerat autonomt fordon. Resultaten var imponerande, ger en markant ökning av prestanda på nästan alla testade mätvärden. Genom att designa skräddarsydda dataset, en större variation av autonoma system kommer att vara mer praktiskt att träna.
Medan deras största prestandaökningar kom från att införliva ParallelEye-datauppsättningar med verkliga datauppsättningar, Wangs team har visat att deras metod lätt kan skapa olika uppsättningar bilder. "Med hjälp av visionramverket ParallelEye, massiva och diversifierade bilder kan syntetiseras flexibelt, och detta kan hjälpa till att bygga mer robusta datorseendesystem, " säger Wang. Forskargruppens föreslagna tillvägagångssätt kan tillämpas på många visuella datorscenarier, inklusive visuell övervakning, medicinsk bildbehandling, och biometri.
Nästa, teamet kommer att skapa en ännu större uppsättning virtuella bilder, förbättra realismen hos virtuella bilder, och utforska nyttan av virtuella bilder för andra datorseende uppgifter. Wang säger, "Vårt slutmål är att bygga en systematisk teori om parallellsyn som kan träna, testa, förstå och optimera datorseende modeller med virtuella bilder och få modellerna att fungera bra i komplexa scener."