Rörelsesensorn "kamerafällor" tar diskret bilder på djur i deras naturliga miljö, ger ofta bilder som inte annars kan observeras. Det artificiella intelligenssystemet bearbetar automatiskt sådana bilder, här rapporterar detta korrekt som en bild på två impala som står. Kredit:Snapshot Serengeti
Ett nytt papper i Proceedings of the National Academy of Sciences (PNAS) rapporterar hur en banbrytande teknik för artificiell intelligens som kallas djupinlärning automatiskt kan identifiera, räkna och beskriva djur i deras naturliga livsmiljöer.
Fotografier som automatiskt samlas in av rörelsesensorkameror kan sedan automatiskt beskrivas av djupa neurala nätverk. Resultatet är ett system som kan automatisera djuridentifiering för upp till 99,3 procent av bilderna samtidigt som de presterar med samma 96,6 procents noggrannhetsgrad som folkgrupper av mänskliga volontärer.
"Denna teknik låter oss exakt, samla in data om vilda djur på ett diskret och billigt sätt, som skulle kunna hjälpa till att katalysera omvandlingen av många områden inom ekologi, vilda djurs biologi, zoologi, bevarandebiologi och djurbeteende till "big data"-vetenskaper. Detta kommer att dramatiskt förbättra vår förmåga att både studera och bevara vilda djur och värdefulla ekosystem, " säger Jeff Clune, tidningens seniorförfattare. Han är Harris Docent vid University of Wyoming och senior forskningschef vid Ubers Artificiell Intelligens Labs.
Tidningen skrevs av Clune; hans Ph.D. student Mohammad Sadegh Norouzzadeh; hans tidigare Ph.D. student Anh Nguyen (nu vid Auburn University); Margaret Kosmala (Harvard University); Ali Swanson (University of Oxford); och Meredith Palmer och Craig Packer (båda från University of Minnesota).
Djupa neurala nätverk är en form av beräkningsmässig intelligens som är löst inspirerad av hur djurhjärnor ser och förstår världen. De kräver stora mängder träningsdata för att fungera bra, och data måste vara korrekt märkta (t.ex. varje bild är korrekt märkt med vilken djurart som finns, hur många är det, etc.).
Denna studie erhöll nödvändiga data från Snapshot Serengeti, ett medborgarvetenskapligt projekt på http://www.zooniverse.org-plattformen. Snapshot Serengeti har utplacerat ett stort antal "kamerafällor" (rörelsesensorkameror) i Tanzania som samlar in miljontals bilder av djur i deras naturliga livsmiljö, som lejon, leoparder, geparder och elefanter. Informationen i dessa fotografier är användbar först när den har omvandlats till text och siffror. I åratal, den bästa metoden för att extrahera sådan information var att be crowdsourcade team av mänskliga volontärer att märka varje bild manuellt. Studien som publicerades idag utnyttjade 3,2 miljoner märkta bilder som producerats på detta sätt med mer än 50, 000 mänskliga volontärer under flera år.
"När jag berättade för Jeff Clune hade vi 3,2 miljoner märkta bilder, han stannade i sina spår, säger Packer, som leder Snapshot Serengeti -projektet. "Vi ville testa om vi kunde använda maskininlärning för att automatisera mänskliga volontärers arbete. Våra medborgarforskare har gjort ett fenomenalt arbete, men vi behövde påskynda processen för att hantera allt större mängder data. Algoritmen för djupinlärning är fantastisk och överträffade vida mina förväntningar. Det här är en game changer för vilda ekologi."
Swanson, som grundade Snapshot Serengeti, tillägger:"Det finns hundratals kamerafällaprojekt i världen, och väldigt få av dem kan rekrytera stora arméer av mänskliga volontärer för att extrahera sina data. Det betyder att mycket av kunskapen i dessa viktiga datamängder förblir outnyttjad. Även om projekt i allt högre grad vänder sig till medborgarvetenskap för bildklassificering, vi börjar se att det tar längre och längre tid att märka varje bildserie i takt med att efterfrågan på volontärer växer. Vi tror att djupinlärning kommer att vara nyckeln till att lindra flaskhalsen för projekt med kamerafällor:ansträngningen att konvertera bilder till användbar data."
"Det artificiella intelligenssystemet talar inte bara om vilka av 48 olika djurarter som finns, men det berättar också hur många det är och vad de gör. Det kommer att berätta om de äter, sovande, om bebisar är närvarande, etc., " tillägger Kosmala, en annan Snapshot Serengeti -ledare. "Vi uppskattar att den djupa inlärningsteknikpipeline vi beskriver skulle spara mer än åtta års mänsklig märkningsinsats för varje ytterligare 3 miljoner bilder. Det är mycket värdefull volontärtid som kan omdistribueras för att hjälpa andra projekt."
Författaren Sadegh Norouzzadeh påpekar att "Djupinlärning förbättras fortfarande snabbt, och vi förväntar oss att dess prestanda bara kommer att bli bättre under de kommande åren. Här, vi ville visa värdet av tekniken för vilda ekologiska samhällen, men vi förväntar oss att allt eftersom fler människor undersöker hur man kan förbättra djupinlärning för den här applikationen och publicerar sina datauppsättningar, himlen är gränsen. Det är spännande att tänka på alla olika sätt som denna teknik kan hjälpa till med våra viktiga vetenskapliga och bevarandeuppdrag."
Tidningen som visas idag PNAS har titeln, "Identifierar automatiskt, räkning, och beskriva vilda djur i kamerafångabilder med djup inlärning."