• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Ny AI-metod överbryggar det slanka datagapet som kan hindra djupinlärning

    PNNL:s nätverk för djupinlärning tar itu med tuffa kemiproblem med hjälp av lite förträning. Kredit:Timothy Holland/PNNL

    Forskare har utvecklat ett djupt neuralt nätverk som kringgår ett problem som har fördärvat ansträngningarna att tillämpa artificiell intelligens för att hantera komplex kemi - en brist på exakt märkta kemiska data. Den nya metoden ger forskare ett ytterligare verktyg för att tillämpa djupinlärning för att utforska läkemedelsupptäckt, nya material för tillverkning, och en rad andra applikationer.

    Att förutsäga kemiska egenskaper och reaktioner bland miljontals och åter miljoner föreningar är en av de mest skrämmande uppgifter som forskare står inför. Det finns ingen källa till fullständig information som ett djupinlärningsprogram kan dra nytta av. Vanligtvis, en sådan brist på en enorm mängd ren data är en stopp för ett djupt lärande projekt.

    Forskare vid Department of Energy's Pacific Northwest National Laboratory upptäckte en väg runt problemet. De skapade ett förträningssystem, typ av en snabbguide där de utrustar programmet med lite grundläggande information om kemi, utrusta den att lära av sina erfarenheter, utmana sedan programmet med enorma datamängder.

    Verket presenterades på KDD2018, konferensen om kunskapsupptäckt och datautvinning, i London.

    Katter, hundar, och ren data

    För nätverk för djupinlärning, riklig och tydlig data har länge varit nyckeln till framgång. I dialogen katt mot hund som peppar diskussioner om AI-system, forskare inser vikten av "märkta data - ett foto av en katt är märkt som en katt, en hund är märkt som en hund, och så vidare. Att ha många, många bilder på katter och hundar, tydligt markerad som sådan, är ett bra exempel på den typ av data som AI-forskare gillar att ha. Fotona ger tydliga datapunkter som ett neuralt nätverk kan använda för att lära av när det börjar skilja katter från hundar.

    Kredit:Pacific Northwest National Laboratory

    Men kemin är mer komplex än att sortera katter från hundar. Hundratals faktorer påverkar en molekyls promiskuitet, och tusentals interaktioner kan hända på en sekund. AI-forskare inom kemi ställs ofta inför antingen små men grundliga datamängder eller enorma men inkonsekventa datauppsättningar – tänk 100 tydliga bilder av chihuahuas eller 10 miljoner bilder av lurviga blobbar. Varken är idealisk eller ens genomförbar ensam.

    Så forskarna skapade ett sätt att överbrygga klyftan, kombinerar det bästa av "tunn men bra data" med "big but poor data."

    Laget, ledd av den tidigare PNNL-forskaren Garrett Goh, använde en teknik som kallas regelbaserat övervakat lärande. Forskare pekar det neurala nätverket till ett stort förråd av kemiska data som kallas ChEMBL, och de genererar regelbaserade etiketter för var och en av dessa många molekyler, till exempel beräkna molekylens massa. Det neurala nätverket knasar igenom rådata, lära sig principer för kemi som relaterar molekylen till grundläggande kemiska fingeravtryck. Ta det neurala nätverket utbildat i regelbaserade data, forskarna presenterade det för de små, men hög kvalitet, datauppsättning som innehåller de slutliga egenskaperna som ska förutsägas.

    Förträningen gav resultat. Programmet, kallas ChemNet, uppnått en nivå av kunskap och precision som är lika exakt eller mer än de nuvarande bästa modellerna för djupinlärning som finns tillgängliga vid analys av molekyler för deras toxicitet, deras nivå av biokemisk aktivitet relaterad till HIV, och deras nivå av en kemisk process som kallas solvation. Programmet gjorde det med mycket mindre märkta data än sina motsvarigheter och uppnådde resultaten med mindre beräkningar, vilket leder till snabbare prestanda.


    © Vetenskap https://sv.scienceaq.com