När ska du göra vad? Prof. Jürgen Gall (höger) och Yazan Abu Farha från Institutet för datavetenskap vid universitetet i Bonn. Kredit:Barbara Frommann/Uni Bonn
Datavetare från universitetet i Bonn har utvecklat mjukvara som kan se några minuter in i framtiden. Programmet lär sig först den typiska sekvensen av åtgärder, som matlagning, från videosekvenser. Baserat på denna kunskap, den kan sedan exakt förutsäga i nya situationer vad kocken kommer att göra vid vilken tidpunkt. Forskare kommer att presentera sina resultat vid världens största konferens om datorseende och mönsterigenkänning, som kommer att hållas 19-21 juni i Salt Lake City, USA.
Den perfekta butlern, som alla fans av brittiskt socialt drama vet, har en speciell förmåga:Han känner av sin arbetsgivares önskemål innan de ens har uttalats. Prof. Dr. Jürgen Galls arbetsgrupp vill lära datorer något liknande:"Vi vill förutsäga tidpunkten och varaktigheten för aktiviteter – minuter eller till och med timmar innan de inträffar, " han förklarar.
En köksrobot, till exempel, kan sedan skicka ingredienserna så fort de behövs, förvärm ugnen i tid — och under tiden varna kocken om han håller på att glömma ett förberedelsesteg. Den automatiska dammsugaren vet under tiden att den inte har något att göra i köket vid den tiden, och sköter istället vardagsrummet.
Vi människor är väldigt bra på att förutse andras handlingar. Men för datorer, denna disciplin är fortfarande i sin linda. Forskarna vid Institutet för datavetenskap vid universitetet i Bonn kan nu tillkännage en första framgång:De har utvecklat mjukvara för självlärande som kan uppskatta tidpunkten och varaktigheten för framtida aktiviteter med häpnadsväckande noggrannhet under perioder på flera minuter.
Träningsdata:fyra timmars salladsvideor
Träningsdata som användes av forskarna inkluderade 40 videor där artister förbereder olika sallader. Var och en av inspelningarna var cirka 6 minuter långa och innehöll i genomsnitt 20 olika handlingar. Videorna innehöll också exakta detaljer om när åtgärden startade och hur lång tid det tog.
Datorn "tittade" på dessa salladsvideor på totalt cirka fyra timmar. Den här vägen, Algoritmen lärde sig vilka åtgärder som vanligtvis följer varandra under denna uppgift och hur länge de varar. Detta är på intet sätt trivialt:trots allt, varje kock har sin egen inställning. Dessutom, sekvensen kan variera beroende på recept.
"Sedan testade vi hur framgångsrik inlärningsprocessen var, " förklarar Gall. "För detta konfronterade vi programvaran med videor som den inte hade sett förut." De nya kortfilmerna passade åtminstone in i sammanhanget:De visade också beredningen av en sallad. För testet, datorn fick veta vad som visas i de första 20 eller 30 procenten av en av de nya videorna. På grundval av detta fick den sedan förutsäga vad som skulle hända under resten av filmen.
Det fungerade fantastiskt bra. Gall:"Noggrannheten var över 40 procent under korta prognosperioder, men sedan sjönk ju mer algoritmen behövde se in i framtiden." För aktiviteter som var mer än tre minuter i framtiden, datorn hade fortfarande rätt i 15 procent av fallen. Dock, prognosen ansågs bara vara korrekt om både aktiviteten och dess tidpunkt var korrekt förutspådd.
Gall och hans kollegor vill att studien endast ska förstås som ett första steg in i det nya området för aktivitetsförutsägelse. Speciellt eftersom algoritmen presterar märkbart sämre om den på egen hand måste känna igen vad som händer i den första delen av videon, istället för att bli tillsagd. Eftersom den här analysen aldrig är 100 procent korrekt – talar Gall om "bullriga" data. "Vår process fungerar med det, säger han. Men tyvärr inte i närheten av lika bra.