Upphovsman:CC0 Public Domain
Föreställ dig att ditt Facebook-flöde utgör ett lockande pussel. Du presenteras med några fragment om en person - ögonfärg, hårfärg, ålder, och höjd - och har bara en minut på sig att välja personens namn och identitet från hundratals profiler. Om du gör så, du vinner 100 miljoner dollar.
Men du känner bara 10 av dessa personer vid namn. För de andra, du har bara en brist på data att arbeta utifrån. Vissa är unga och andra är inte så unga. Vissa är blonda och andra är brunetter. Vissa av deras namn låter bekanta men du kan inte riktigt fastställa hur du känner dem.
Den här typen av scenario - en till synes omöjlig uppgift med en enorm utdelning - konfronterar PNNL-forskare som studerar metabolomik. Det är studiet av små molekyler som ligger bakom och informerar varje aspekt av våra liv, inklusive energiproduktion, planetens öde, och vår hälsa.
Forskare uppskattar att mindre än 1 procent av små molekyler är kända. Ett typiskt kommersiellt tillgängligt metabolomikbibliotek har kanske 5, 000 föreningar, men forskarna vet att det finns miljarder till.
Hur "identifierar" de något som de vet så lite om? Det är som att be Galileo att identifiera stjärnor i djupt utrymme som var omöjliga att upptäcka när han använde ett av de första teleskopen för mer än 400 år sedan.
Ange DarkChem, ett forskningsprojekt finansierat av PNNL:s Deep Learning for Scientific Discovery Agile Investment. Ett team ledd av Ryan Renslow tar med artificiell intelligens till bordet för att ta itu med det stora, okänt landskap av metaboliter som bedevil-forskare som Tom Metz, som leder PNNL:s metabolomicssatsning.
"Just nu, vi skummar bara igenom vad som är potentiellt kännbart och säger adjö till mycket intressanta data eftersom vi inte kan identifiera den stora majoriteten av metaboliter som vår teknologi upptäcker, ", sa Metz. "Djup inlärning ger ett nytt sätt att lösa pusslet."
Renslow och kollegor Sean Colby och Jamie Nunez har anammat principer för djupinlärning som ofta används i applikationer som språköversättning och tillämpat dem på denna mörka materia i den molekylära världen.
Tidiga resultat är anmärkningsvärda:Teamets DarkChem-nätverk kan beräkna en nyckelfunktion i en molekyl på millisekunder och med 13 procent färre fel, jämfört med 40 timmar på en superdator som kör PNNL:s flaggskeppsmjukvara för kvantkemi, NWChem.
"Vi blev chockade över hur bra DarkChem gjorde, sa Renslow.
Nätverket går inte bara igenom data för att sammanställa resultat. Snarare, nätverket bygger på artificiell intelligens. DarkChem utvecklades så att det kan upptäcka nya saker som fortfarande är okända för människor.
Av fotboll och kollisionstvärsnitt
I detta fall, teamet tränade programmet för att förstå och förutsäga en kemisk egenskap som kallas kollisionstvärsnitt (CCS). Medan CCS maskerar sig som en skrämmande vetenskaplig akronym, alla som har sett en fotbollsmatch har sett något som CCS i aktion.
Tänk dig en bollbärare som slår igenom motståndare. En mindre spelare kan ha färre kollisioner, men när de kolliderar med en motståndare, effekten är annorlunda än när en hulk-liknande Marshawn Lynch går in i bestläge och skakar av sig flera stötar.
Du lär dig mycket om fotbollsspelare genom att se dem krascha in i varandra.
På samma sätt, spåra kollisioner mellan metabolitjoner som reser genom ett laboratorieinstrument fyllt med gasmolekyler berättar forskare mycket om metabolitjonstrukturer - deras storlek, deras massa, och andra funktioner. CCS är det matematiska måttet på den åtgärden, och det är centralt för att låsa upp den kemiska strukturen i gasfas - den sanna "identifieringen" - av en molekyl.
Renslow och hans team tränade DarkChem för att beräkna CCS för kemiska strukturer, drog sedan loss det för att göra beräkningen för mer än 50 miljoner föreningar - en del av biblioteket i PubChem. Programmet löste den uppgiften på ett kick.
Även om det är ett lovande steg framåt, teamet är mer entusiastiska över konsekvenserna för alla dessa ännu oidentifierade små molekyler.
Nätverket kan köras framåt såväl som bakåt, dvs. det kan lösa en molekyls CCS och förutsäga andra egenskaper, men det kan också generera nya kemiska strukturer utifrån de egenskaper man är ute efter. Till exempel, Renslows team har använt DarkChem för att lägga fram flera nya kemiska strukturer som har potential att påverka NMDA -receptorn, som är involverad i minnet och andra viktiga hjärnfunktioner.
Nätverket memorerar inte bara data. Faktiskt, teamet lägger avsiktligt till lite numerisk luddighet i utmaningarna som nätverket står inför för att hindra det från att memorera.
"Det är som att lära en dator att känna igen en hund, " sade Renslow. "Det kunde helt enkelt memorera bilden, men du vill att nätverket ska kunna känna igen en mängd olika hundar, så du kan vända bilden upp och ner, sträck ut det lite, ändra dess färger. Du stör bilden så att programmet tvingas generalisera och förlita sig på den kunskap och regler som det har lärt sig. "
Lära nätverket att lära sig
För att skapa nätverket, teamet använde en form av artificiell intelligens som kallas transfer learning, där nätverket lär sig av en datauppsättning och sedan tillämpar sin kunskap på en annan datamängd. Utbildningen bestod huvudsakligen av tre steg:
Programmet granskade mer än 50 miljoner kända molekyler i PubChem, lära sig grunderna i kemi och hur man representerar kemiska strukturer matematiskt. Men databasen saknade information om CCS, ett avgörande mått för att förstå metaboliter.
Sedan, teamet exponerade DarkChem för en PNNL-utvecklad uppsättning beräknande CCS-data, cirka 700, 000 molekyler. Detta hjälpte till att utbilda programmet om hur man kopplar den allmänna informationen som det hade lärt sig om kemisk struktur till CCS.
Till sist, laget finjusterade nätverket med en liten, robust datauppsättning på cirka 1, 000 kemiska strukturer vars CCS-mått har bestämts genom mödosamt arbete i laboratoriet.
Förmågan att beräkna CCS för okända molekyler - molekyler vars enda antydan till existens kan vara en tunn linje från ett masspektrometriexperiment - lägger till en viktig funktion för att hjälpa forskare att skilja en metabolit från en annan. Att skina ett ljus på mörk molekylär materia.
"Varje dimension du lägger till ger dig bättre upplösningsförmåga, sa Colby, som hjälper till att ta reda på andra möjliga molekylära egenskaper för DarkChem att analysera, såsom infraröda spektra, fragmenteringsmönster, och lösningsmedeltillgängliga ytdata.
Det är analogt med att finslipa vår förmåga att identifiera tusentals bekanta på Facebook.
"Du kan säga att någon är man och bär glasögon, " sa Renslow. "Men om du kan tillägga att han är 54 år gammal och kör en röd Mercedes, du begränsar kandidaterna.
"Det är inte så mycket annorlunda med metaboliter. Vi fortsätter att lägga till egenskaper vi kan mäta, och så småningom finns det bara en molekyl i universum som passar den kombinationen av data, " han lade till.