Två bakteriekolonier som har bildat lila ringar på grund av den gendrift som forskare har implanterat i dem. En ny maskininlärningsmodell påskyndar denna vetenskap avsevärt genom att förutsäga interaktionen mellan dussintals biologiska variabler. Kredit:Lingchong You, Duke University
Biomedicinska ingenjörer vid Duke University har utarbetat en maskininlärningsmetod för att modellera interaktioner mellan komplexa variabler i konstruerade bakterier som annars skulle vara för besvärliga att förutsäga. Deras algoritmer är generaliserbara till många typer av biologiska system.
I den nya studien, forskarna tränade ett neuralt nätverk för att förutsäga de cirkulära mönster som skulle skapas av en biologisk krets inbäddad i en bakteriekultur. Systemet fungerade 30, 000 gånger snabbare än den befintliga beräkningsmodellen.
För att ytterligare förbättra noggrannheten, teamet tog fram en metod för att omskola maskininlärningsmodellen flera gånger för att jämföra sina svar. Sedan använde de det för att lösa ett andra biologiskt system som är beräkningskrävande på ett annat sätt, att visa algoritmen kan fungera för olika utmaningar.
Resultaten visas online den 25 september i tidskriften Naturkommunikation .
"Detta arbete var inspirerat av Google som visade att neurala nätverk kunde lära sig att slå en människa i brädspelet Go, " sa Lingchong You, professor i biomedicinsk teknik vid Duke.
"Även om spelet har enkla regler, det finns alldeles för många möjligheter för en dator att deterministiskt beräkna det bästa nästa alternativet, " Du sa. "Jag undrade om ett sådant tillvägagångssätt kunde vara användbart för att hantera vissa aspekter av biologisk komplexitet som vi möter."
Utmaningen som du och hans postdoktor Shangying Wang stod inför var att bestämma vilken uppsättning parametrar som kunde producera ett specifikt mönster i en bakteriekultur efter en konstruerad genkrets.
En bakteriekoloni genetiskt redigerad för att inkludera en genkrets bildar en lila ring när den växer. Forskare använder maskininlärning för att upptäcka interaktioner mellan dussintals variabler som påverkar ringens egenskaper såsom dess tjocklek, hur snabbt det bildas och antalet ringar som bildas. Kredit:Lingchong You, Duke University
I tidigare arbeten, Din laboratorieprogrammerade bakterier att producera proteiner som beroende på detaljerna i kulturens tillväxt, interagerar med varandra för att bilda ringar. Genom att kontrollera variabler som storleken på tillväxtmiljön och mängden näringsämnen som tillhandahålls, forskarna fann att de kunde kontrollera ringens tjocklek, hur lång tid det tog att synas och andra egenskaper.
Genom att ändra ett valfritt antal dussintals potentiella variabler, forskarna upptäckte att de kunde göra mer, som att orsaka bildandet av två eller till och med tre ringar. Men eftersom en datorsimulering tog fem minuter, det blev opraktiskt att söka i alla stora designutrymmen efter ett specifikt resultat.
För sina studier, systemet bestod av 13 bakterievariabler såsom tillväxthastigheten, diffusion, proteinnedbrytning och cellulär rörelse. Bara att beräkna sex värden per parameter skulle ta en enda dator mer än 600 år. Att köra det på ett parallellt datorkluster med hundratals noder kan minska körtiden till flera månader, men maskininlärning kan minska det till timmar.
"Modellen vi använder är långsam eftersom den måste ta hänsyn till mellanliggande steg i tiden i en tillräckligt liten takt för att vara korrekt, " sa du. "Men vi bryr oss inte alltid om de mellanliggande stegen. Vi vill bara ha slutresultatet för vissa applikationer. Och vi kan (gå tillbaka till) ta reda på de mellanliggande stegen om vi finner slutresultaten intressanta."
För att hoppa till slutresultatet, Wang vände sig till en maskininlärningsmodell som kallas ett djupt neuralt nätverk som effektivt kan göra förutsägelser i storleksordningar snabbare än den ursprungliga modellen. Nätverket tar modellvariabler som sin input, tilldelar initialt slumpmässiga vikter och fördomar, och spottar ut en förutsägelse om vilket mönster bakteriekolonin kommer att bilda, hoppar över de mellanliggande stegen som leder till det slutliga mönstret.
Även om det initiala resultatet inte är i närheten av det korrekta svaret, vikterna och fördomarna kan justeras varje gång som ny träningsdata matas in i nätverket. Med ett tillräckligt stort "träningsset", det neurala nätverket kommer så småningom att lära sig att göra exakta förutsägelser nästan varje gång.
För att hantera de få fall där maskininlärningen gör fel, Du och Wang kom på ett sätt att snabbt kontrollera deras arbete. För varje neuralt nätverk, inlärningsprocessen har ett inslag av slumpmässighet. Med andra ord, det kommer aldrig att lära sig på samma sätt två gånger, även om det är tränat på samma uppsättning svar.
Var och en av dessa grafer representerar ett tvärsnitt av en bakteriekoloni. Topparna förutsäger var kolonin kommer att producera lila proteiner som bildar ringar på grund av en artificiell genkrets. Graferna på toppen skapades av en maskininlärningsalgoritm, medan de på botten skapades genom en mer grundlig simulering. De matchar väldigt bra – förutom den sista. Kredit:Duke University
Forskarna tränade fyra separata neurala nätverk och jämförde sina svar för varje instans. De fann att när de tränade neurala nätverken gör liknande förutsägelser, dessa förutsägelser var nära det rätta svaret.
"Vi upptäckte att vi inte behövde validera varje svar med den långsammare standardberäkningsmodellen, " sa du. "Vi använde i huvudsak 'publikens visdom' istället."
Med maskininlärningsmodellen utbildad och bekräftad, forskarna tänkte använda den för att göra nya upptäckter om deras biologiska kretslopp. I de första 100, 000 datasimuleringar som används för att träna det neurala nätverket, endast en producerade en bakteriekoloni med tre ringar. Men med hastigheten på det neurala nätverket, Du och Wang kunde inte bara hitta många fler trillingar, men bestäm vilka variabler som var avgörande för att ta fram dem.
"Det neurala nätet kunde hitta mönster och interaktioner mellan variablerna som annars skulle ha varit omöjliga att avslöja, " sa Wang.
Som en avslutning på deras studie, Du och Wang försökte sitt tillvägagångssätt på ett biologiskt system som fungerar slumpmässigt. Att lösa sådana system kräver att en datormodell upprepar samma parametrar många gånger för att hitta det mest sannolika resultatet. Även om detta är en helt annan orsak till långa beräkningskörtider än deras ursprungliga modell, forskarna fann att deras tillvägagångssätt fortfarande fungerade, visar att det är generaliserbart till många olika komplexa biologiska system.
Forskarna försöker nu använda sitt nya tillvägagångssätt på mer komplexa biologiska system. Förutom att köra det på datorer med snabbare GPU:er, de försöker programmera algoritmen för att vara så effektiv som möjligt.
"Vi tränade det neurala nätverket med 100, 000 datamängder, men det kan ha varit överdrivet, ", sa Wang. "Vi utvecklar en algoritm där det neurala nätverket kan interagera med simuleringar i realtid för att påskynda saker och ting."
"Vårt första mål var ett relativt enkelt system, " sa du. "Nu vill vi förbättra dessa neurala nätverkssystem för att ge ett fönster till den underliggande dynamiken i mer komplexa biologiska kretsar."