• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Fokusera på en förstärkningsinlärningsalgoritm som kan lära av misslyckanden

    Kredit:OpenAI

    De senaste nyheterna från OpenAI-folket handlar om en bonustrio. De släpper nya gymmiljöer – en uppsättning simulerade robotmiljöer baserade på riktiga robotplattformar – inklusive en Shadow-hand och en Fetch-forskningsrobot, sa IEEE spektrum .

    Förutom den verktygslådan, de släpper en öppen källkodsversion av Hindsight Experience Replay (HER). Som namnet antyder, det hjälper robotar att lära sig från efterhand, för målbaserade robotuppgifter.

    Sist men inte minst, de släppte en uppsättning förfrågningar om robotforskning. "Om du är en ambitiös sort, sa Evan Ackerman in IEEE spektrum , "OpenAI har också publicerat en uppsättning förfrågningar om HER-relaterad forskning."

    "Även om HER är ett lovande sätt att lära sig komplexa målbaserade uppgifter med sparsamma belöningar som robotmiljöerna som vi föreslår här, det finns fortfarande mycket utrymme för förbättringar, " de bloggade. "I likhet med våra nyligen publicerade Requests for Research 2.0, vi har några idéer om sätt att förbättra HENNE specifikt, och förstärkningsinlärning i allmänhet."

    OpenAI är ett AI-forskningsföretag. De publicerar på maskininlärningskonferenser och deras blogginlägg kommunicerar sin forskning.

    Elon Musk är en av grundarna. Det är sponsrat av privatpersoner och företag, och de syftar till att upptäcka och genomföra "vägen till säker artificiell allmän intelligens."

    En OpenAI-video som visar vad de åstadkom i delen Gymmiljöer publicerades den 26 februari.

    De visar de olika uppgifterna som utförts. En ShadowHand-robot manipulerar ett objekt (visar en hand som manipulerar, inklusive böjande fingrar, ett barns alfabetblock, ett äggformat föremål, och för fingrarna genom en liten pinne). De introducerar också en robot "nudge" robotmekanism som kan skjuta en puck såväl som greppa en liten boll och lyfta upp den

    Specifikt, det här är de olika bedrifterna som visas:ShadowHand måste nå med tummen och ett utvalt finger tills de möts vid en önskad målposition ovanför handflatan. ShadowHand måste manipulera ett block tills det uppnår en önskad målposition och rotation. ShadowHand måste manipulera ett ägg tills det uppnår en önskad målposition och rotation. ShadowHand måste manipulera en penna tills den uppnår en önskad målposition och rotation.

    Allt som allt, "de senaste miljöerna simulerar en Fetch-robotarm för att skjuta runt saker, och en ShadowHand för att greppa och manipulera saker med robotfingrar, sa Katyanna Quach in Registret .

    OpenAI HER-erbjudandet är särskilt intressant; träning och förstärkning får en omtanke. HER låter en agent lära sig av misslyckanden. Som Ackerman skrev, HENNES "omarbetar misslyckanden som framgångar för att hjälpa robotar att lära sig mer som människor."

    Jackie Snow in MIT Technology Review observerade att "det gör det genom att titta på hur varje försök till en uppgift kan tillämpas på andra."

    Snö tillagd, "HENNE ger inte robotar belöningar för att få ett steg i en uppgift rätt - den delar ut dem bara om allt görs ordentligt."

    Omformulera misslyckanden som framgångar? Ackerman erbjöd denna förklaring:"För att förstå hur HENNE fungerar, föreställ dig att du är igång att slå i en omgång baseboll. Ditt mål är att slå ett hem. På första planen, du slår en boll som går fel. ...du har också lärt dig exakt hur man slår en foulboll...Med efterhandsreportage, du bestämmer dig för att lära dig av det du just gjorde ändå, huvudsakligen genom att säga, 'Du vet, om jag hade velat slå en ful boll, det hade varit perfekt!'"

    Hur bra är implementeringen av HER? "Våra resultat visar att HER kan lära sig framgångsrika riktlinjer för de flesta av de nya robotproblemen från endast sparsamma belöningar."

    Barn som spelar ögonbindel-spel säger ofta till spelaren, "Du blir varm, varmare." Nyckelord för att uppskatta deras forskning är sparsamma och täta belöningar.

    "De flesta förstärkningsinlärningsalgoritmer använder "täta belöningar, förklarade Ackerman, "där roboten får kakor av olika storlekar beroende på hur nära den kommer att slutföra en uppgift...Glesa belöningar betyder att roboten bara får en kaka om den lyckas, och det är det:Lättare att mäta, lättare att programmera, och lättare att implementera."

    © 2018 Tech Xplore




    © Vetenskap https://sv.scienceaq.com