En robust drone controller, utbildad med hjälp av förstärkningsinlärningsalgoritmer utvecklade av USC -forskare tillåter drönare att klara hård behandling, inklusive att bli kastad och knuffad. Kredit:Haotian Mai
Drönare, specifikt quadcopters, är en anpassningsbar lott. De har använts för att bedöma skador efter katastrofer, leverera rep och flytvästar i områden som är för farliga för markbaserade räddare, undersöka byggnader i brand och leverera medicinska prover.
Men för att uppnå sin fulla potential, de måste vara tuffa. I den verkliga världen, drönare tvingas navigera i osäkra former i kollapsande byggnader, undvika hinder och hantera utmanande förhållanden, inklusive stormar och jordbävningar.
Vid USC Viterbi School of Engineering:s institution för datavetenskap, forskare har skapat artificiellt intelligenta drönare som snabbt kan återhämta sig när de trycks, sparkad eller vid kollision med ett föremål. Den autonoma drönaren "lär sig" hur man återhämtar sig från en massa utmanande situationer som kastas på den under en simuleringsprocess.
"För närvarande, kontrollerna som är utformade för att stabilisera quadcopters kräver noggrann inställning och även då, de är begränsade när det gäller robusthet mot störningar och är modellspecifika, "sade studiens huvudförfattare Artem Molchanov, en doktorsexamen i datavetenskaplig kandidat i USC:s Robotic Systems Embedded Laboratory.
"Vi försöker eliminera detta problem och presenterar ett tillvägagångssätt som utnyttjar de senaste framstegen inom förstärkningslärande så att vi helt kan eliminera handinställande kontroller och göra drönare super robusta mot störningar."
Pappret, kallad "Sim-to- (Multi) -Real:Överföring av lågnivåstarka kontrollpolicyer till flera fyrhjulingar, "presenterades vid den internationella konferensen om intelligenta robotar och system.
Medförfattare var Tao Chen, USC datavetenskap masterstudent; Wolfgang Honig, en tidigare USC datavetenskap Ph.D. studerande; James A. Preiss, en datavetenskaplig doktorsexamen studerande; Nora Ayanian, USC biträdande professor i datavetenskap och Andrew och Erna Viterbi Early Career Chair; och Gaurav Sukhatme, professor i datavetenskap och el- och datateknik och USC Viterbi vice prodekan.
Lära sig att flyga
Robotiker har vänt sig till fåglar för flyginspiration i åratal. Men drönare har en lång väg att gå innan de är lika smidiga som sina fjädrade motsvarigheter. När en drönare hamnar i en oönskad orientering, som upp och ner, det kan vara svårt för det att rätta sig själv. "En drönare är ett i sig instabilt system, sa Molchanov.
"Att styra en drönare kräver mycket precision. Speciellt när något plötsligt inträffar, du behöver en snabb och exakt sekvens av kontrollingångar. "Men, om en drönare kunde lära av erfarenhet, som människor, den skulle vara mer kapabel att övervinna dessa utmaningar.
Med detta är sinne, USC -forskargruppen skapade ett system som använder en typ av maskininlärning, en delmängd av artificiell intelligens, kallas förstärkningslärande för att träna drönaren i en simulerad miljö. Mer exakt, att träna drönarens "hjärna, "eller neural nätverksstyrenhet.
"Förstärkningsinlärning är inspirerad av biologi - det liknar mycket hur du kan träna en hund med en belöning när den fyller i ett kommando, sa Molchanov.
Självklart, drönare får inte mellanmål. Men i processen med förstärkning lärande, de får en algoritmisk belöning:en matematisk förstärkningssignal, vilket är en positiv förstärkning som den använder för att utläsa vilka åtgärder som är mest önskvärda.
Huvudförfattare Artem Molchanov (i mitten), en doktorsexamen i datavetenskapstudent, med medförfattare professor Gaurav Sukhatme och biträdande professor Nora Ayanian. Kredit:Haotian Mai
Inlärning i simulering
Drönaren startar i simuleringsläge. I början, den vet ingenting om världen eller vad den försöker uppnå, sa Molchanov. Den försöker hoppa lite eller rotera på marken.
Så småningom, den lär sig att flyga lite och tar emot den positiva förstärkningssignalen. Gradvis, genom denna process, den förstår hur man balanserar sig själv och slutligen flyger. Sedan, saker blir mer komplicerade.
Medan den fortfarande är i simulering, forskarna kastar slumpmässiga förhållanden på kontrollern tills den lär sig att hantera dem framgångsrikt. De lägger till brus i ingången för att simulera en realistisk sensor. De ändrar motorns storlek och styrka och driver drönaren från olika vinklar.
Under 24 timmar, systemet bearbetar 250 timmars verklig utbildning. Som träningshjul, genom att lära sig i simuleringsläge kan drönaren lära sig själv i en säker miljö, innan de släpptes ut i naturen. Så småningom, den hittar lösningar på varje utmaning som läggs på vägen.
"I simulering kan vi köra hundratusentals scenarier, sa Molchanov.
"Vi fortsätter att ändra simulatorn något, vilket gör att drönaren kan lära sig att anpassa sig till alla möjliga brister i miljön. "
Tre quadcopters av olika storlekar som styrs av samma policy tränas helt i simulering. Kredit:Molchanov et al.
En utmaning i verkligheten
För att bevisa deras tillvägagångssätt, forskarna flyttade den utbildade kontrollern till riktiga drönare som utvecklats i Ayanians Automatic Coordination of Teams Lab. I en drone -anläggning inomhus, de flög drönarna och försökte kasta dem genom att sparka och skjuta dem.
Drönarna lyckades korrigera sig från måttliga träffar (inklusive knuffar, ljus sparkar och kolliderar med ett föremål) 90% av tiden. Efter att ha tränat på en maskin, kontrollen kunde snabbt generalisera till quadcopters med olika dimensioner, vikter och storlekar.
Medan forskarna fokuserade på robusthet i denna studie, de blev förvånade över att upptäcka att systemet också fungerade konkurrenskraftigt när det gäller spårning av banor - från punkt A till B till C. Även om det inte var specifikt utbildat för detta ändamål, det verkar som om den rigorösa simuleringsträningen också utrustade regulatorn för att följa ett rörligt mål exakt.
Forskarna noterar att det fortfarande finns arbete kvar. I detta experiment, de justerade manuellt några parametrar på drönarna, till exempel, begränsa maximal dragkraft, men nästa steg är att göra drönarna helt oberoende. Experimentet är ett lovande steg mot att bygga robusta drönare som kan ställa in sig själva och lära av erfarenhet.
Professor Sukhatme, Molchanovs rådgivare och en Fletcher Jones Foundation begåvad ordförande i datavetenskap, sa att forskningen löser två viktiga problem inom robotik:robusthet och generalisering.
"Ur ett säkerhetsperspektiv, robusthet är superviktigt. Om du bygger ett flygkontrollsystem, det kan inte vara sprött och falla isär när något går fel, sa Sukhatme.
"Den andra viktiga saken är generalisering. Ibland kan du bygga ett mycket säkert system, men det kommer att vara mycket specialiserat. Denna forskning visar vilken mogen och fulländad doktorsexamen. studenten kan uppnå, och jag är väldigt stolt över Artem och laget han samlade. "