Virus är en mystisk och dåligt förstådd kraft i mikrobiella ekosystem. Forskare vet att de kan infektera, döda och manipulera mänskliga och bakteriella celler i nästan alla miljöer, från haven till din tarm. Men forskare har ännu inte en fullständig bild av hur virus påverkar deras omgivande miljö till stor del på grund av deras extraordinära mångfald och förmåga att snabbt utvecklas.
Gemenskaper av mikrober är svåra att studera i laboratoriemiljö. Många mikrober är utmanande att odla, och deras naturliga miljö har många fler egenskaper som påverkar deras framgång eller misslyckande än forskare kan replikera i ett labb.
Så systembiologer som jag sekvenserar ofta allt DNA som finns i ett prov – till exempel ett fekalt prov från en patient – separerar de virala DNA-sekvenserna och kommenterar sedan avsnitten av det virala genomet som kodar för proteiner. Dessa anteckningar om platsen, strukturen och andra egenskaper hos gener hjälper forskare att förstå vilka funktioner virus kan utföra i miljön och hjälpa till att identifiera olika typer av virus. Forskare kommenterar virus genom att matcha virala sekvenser i ett prov med tidigare kommenterade sekvenser som finns tillgängliga i offentliga databaser med virala genetiska sekvenser.
Men forskare identifierar virussekvenser i DNA som samlats in från miljön i en takt som vida överträffar vår förmåga att kommentera dessa gener. Det betyder att forskare publicerar resultat om virus i mikrobiella ekosystem med hjälp av oacceptabelt små fraktioner av tillgänglig data.
För att förbättra forskarnas förmåga att studera virus runt om i världen har mitt team och jag utvecklat en ny metod för att kommentera virussekvenser med hjälp av artificiell intelligens. Genom proteinspråksmodeller som liknar stora språkmodeller som ChatGPT men specifika för proteiner, kunde vi klassificera tidigare osynliga virala sekvenser. Detta öppnar dörren för forskare att inte bara lära sig mer om virus, utan också att ta itu med biologiska frågor som är svåra att besvara med nuvarande tekniker.
Stora språkmodeller använder relationer mellan ord i stora datamängder av text för att ge potentiella svar på frågor som de inte uttryckligen "lärs" svaret på. När du frågar en chatbot "Vad är Frankrikes huvudstad?" till exempel letar modellen inte upp svaret i en tabell över huvudstäder. Snarare använder den sin utbildning på enorma datauppsättningar av dokument och information för att sluta sig till svaret:"Frankrikes huvudstad är Paris."
På liknande sätt är proteinspråksmodeller AI-algoritmer som är tränade att känna igen relationer mellan miljarder proteinsekvenser från miljöer runt om i världen. Genom den här utbildningen kan de kanske dra slutsatser om essensen av virala proteiner och deras funktioner.
Vi undrade om proteinspråksmodeller kunde svara på denna fråga:"Med tanke på alla annoterade virala genetiska sekvenser, vad är den här nya sekvensens funktion?"
I vårt proof of concept tränade vi neurala nätverk på tidigare kommenterade virala proteinsekvenser i förtränade proteinspråksmodeller och använde dem sedan för att förutsäga annoteringen av nya virala proteinsekvenser. Vårt tillvägagångssätt tillåter oss att undersöka vad modellen "ser" i en viss viral sekvens som leder till en viss anteckning. Detta hjälper till att identifiera kandidatproteiner av intresse antingen baserat på deras specifika funktioner eller hur deras arvsmassa är ordnat, vilket gör att sökutrymmet i stora datamängder blir större.
Genom att identifiera mer avlägset besläktade virala genfunktioner kan proteinspråksmodeller komplettera nuvarande metoder för att ge nya insikter i mikrobiologi. Till exempel kunde mitt team och jag använda vår modell för att upptäcka ett tidigare okänt integras – en typ av protein som kan flytta genetisk information in och ut ur celler – i de globalt rikliga marina picocyanobakterierna Prochlorococcus och Synechococcus. Noterbart kan detta integras kunna flytta gener in och ut ur dessa populationer av bakterier i haven och göra det möjligt för dessa mikrober att bättre anpassa sig till föränderliga miljöer.
Vår språkmodell identifierade också ett nytt viralt kapsidprotein som är utbrett i de globala haven. Vi tog fram den första bilden av hur dess gener är ordnade, vilket visar att den kan innehålla olika uppsättningar gener som vi tror indikerar att detta virus har olika funktioner i sin miljö.
Dessa preliminära fynd representerar bara två av tusentals kommentarer som vårt tillvägagångssätt har tillhandahållit.
De flesta av de hundratusentals nyupptäckta virus förblir oklassificerade. Många virala genetiska sekvenser matchar proteinfamiljer utan känd funktion eller har aldrig setts tidigare. Vårt arbete visar att liknande proteinspråksmodeller kan hjälpa till att studera hotet och löftet med vår planets många okarakteriserade virus.
Medan vår studie fokuserade på virus i de globala haven, är förbättrad annotering av virala proteiner avgörande för att bättre förstå vilken roll virus spelar för hälsa och sjukdom i människokroppen. Vi och andra forskare har antagit att viral aktivitet i den mänskliga tarmmikrobiomet kan förändras när du är sjuk. Det betyder att virus kan hjälpa till att identifiera stress i mikrobiella samhällen.
Men vårt tillvägagångssätt är också begränsat eftersom det kräver högkvalitativa kommentarer. Forskare utvecklar nyare proteinspråksmodeller som inkluderar andra "uppgifter" som en del av sin träning, särskilt att förutsäga proteinstrukturer för att upptäcka liknande proteiner, för att göra dem mer kraftfulla.
Att göra alla AI-verktyg tillgängliga via FAIR Data Principles – data som är hittad, tillgänglig, interoperabel och återanvändbar – kan hjälpa forskare i stort att inse potentialen hos dessa nya sätt att kommentera proteinsekvenser som leder till upptäckter som gynnar människors hälsa.
Tillhandahålls av The Conversation
Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.