Sedan det första mikrobiella genomet sekvenserades 1995, har forskare rekonstruerat den genomiska sammansättningen av hundratusentals mikroorganismer och har till och med utarbetat metoder för att ta en inventering av bakteriesamhällen på huden, i tarmen eller i mark, vatten och på andra ställen. på bulkprover, vilket leder till uppkomsten av ett relativt nytt studieområde känt som metagenomics.
Att analysera metagenomiska data kan vara en skrämmande uppgift, ungefär som att försöka sätta ihop flera massiva pussel med alla bitar blandade. Med denna unika beräkningsutmaning gick Rice Universitys graf-artificiell intelligens (AI)-expert Santiago Segarra och beräkningsbiolog Todd Treangen ihop för att utforska hur AI-driven dataanalys kan hjälpa till att skapa nya verktyg för att driva metagenomisk forskning.
Forskarduon nollställde två typer av data som gör metagenomisk analys särskilt utmanande – upprepningar och strukturella varianter – och utvecklade verktyg för att hantera dessa datatyper som överträffar nuvarande metoder.
Upprepningar är identiska DNA-sekvenser som förekommer upprepade gånger både genom genomet hos enstaka organismer och över flera genom i en gemenskap av organismer.
"DNA:t i ett metagenomiskt prov från flera organismer kan representeras som en graf", säger Segarra, biträdande professor i elektro- och datorteknik.
"I huvudsak utnyttjar ett av verktygen vi utvecklat strukturen i denna graf för att avgöra vilka bitar av DNA som visas upprepade gånger antingen över mikrober eller inom samma mikroorganism."
Metoden, kallad GraSSRep, kombinerar självövervakad inlärning, en maskininlärningsprocess där en AI-modell tränar sig att skilja mellan dold och tillgänglig indata, och grafiska neurala nätverk, system som bearbetar data som representerar objekt och deras sammankopplingar som grafer.
Tidningen, även tillgänglig på arXiv preprint server, presenterades vid den 28:e sessionen av en årlig internationell konferens om forskning inom beräkningsmolekylär biologi, RECOMB 2024. Projektet leddes av Rice doktorand och forskningsassistent Ali Azizpour. Advait Balaji, en doktoralumn från Rice, är också författare till studien.
Upprepningar är av intresse eftersom de spelar en betydande roll i biologiska processer såsom bakteriell respons på förändringar i deras miljö eller mikrobiomers interaktion med värdorganismer. Ett specifikt exempel på ett fenomen där upprepningar kan spela en roll är antibiotikaresistens.
Generellt sett kan spårning av upprepningars historia eller dynamik i ett bakteriegenom kasta ljus över mikroorganismers strategier för anpassning eller evolution. Dessutom kan upprepningar ibland faktiskt vara virus i förklädnad, eller bakteriofager. Från det grekiska ordet för "sluka" används fager ibland för att döda bakterier.
"Dessa fager ser faktiskt ut som upprepningar, så du kan spåra bakterie-fags dynamik baserat på upprepningarna som finns i genomen", säger Treangen, docent i datavetenskap.
"Detta kan ge ledtrådar om hur man kan bli av med svårdöda bakterier, eller måla upp en tydligare bild av hur dessa virus interagerar med ett bakteriesamhälle."
Tidigare när en grafbaserad metod användes för att utföra upprepad detektering, använde forskarna fördefinierade specifikationer för vad de skulle leta efter i grafdata. Det som skiljer GraSSRep från dessa tidigare tillvägagångssätt är avsaknaden av sådana fördefinierade parametrar eller referenser som informerar om hur data bearbetas.
"Vår metod lär sig hur man bättre använder grafstrukturen för att upptäcka upprepningar i motsats till att förlita sig på initial input," sa Segarra. "Självövervakad inlärning gör det möjligt för detta verktyg att träna sig själv i avsaknad av någon grundsanning som fastställer vad som är en upprepning och vad som inte är en upprepning. När du hanterar ett metagenomiskt prov behöver du inte veta något om vad som finns i där för att analysera det."
Detsamma gäller i fallet med en annan metagenomisk analysmetod som utvecklats tillsammans av Segarra och Treangen - referensfri strukturell variantdetektion i mikrobiomer via långlästa sammansättningsgrafer, eller rhea. Deras uppsats om rhea kommer att presenteras på International Society for Computational Biologys årliga konferens, som äger rum 12–16 juli i Montreal.
Huvudförfattaren på tidningen är doktoralumnen Kristen Curry i Rice i datavetenskap, som kommer att ansluta sig till labbet av Rayan Chikhi – också en medförfattare på tidningen – vid Institut Pasteur i Paris som postdoktor. En version av tidningen finns tillgänglig på bioRxiv förtrycksserver.
Medan GraSSRep är designad för att hantera upprepningar, hanterar rhea strukturella varianter, som är genomiska förändringar av 10 baspar eller fler som är relevanta för medicin och molekylärbiologi på grund av deras roll i olika sjukdomar, reglering av genuttryck, evolutionär dynamik och främjande av genetisk mångfald inom populationer och bland arter.
"Att identifiera strukturella varianter i isolerade genom är relativt okomplicerat, men det är svårare att göra det i metagenomer där det inte finns något tydligt referensgenom för att hjälpa till att kategorisera data," sa Treangen.
För närvarande är en av de mycket använda metoderna för att bearbeta metagenomiska data genom metagenomsammansatta genom eller MAG.
"Dessa de novo eller referensstyrda montörerna är ganska väletablerade verktyg som innebär en hel operativ pipeline med upprepad detektering eller identifiering av strukturella varianter som bara några av deras funktioner," sa Segarra.
"En sak som vi tittar på är att ersätta befintliga algoritmer med våra och se hur det kan förbättra prestandan hos dessa mycket använda metagenomiska assemblers."
Rhea behöver inte referensgenom eller MAG för att upptäcka strukturella varianter, och det överträffade metoder som förlitade sig på sådana förspecificerade parametrar när den testades mot två skenmetagenom.
"Detta var särskilt märkbart eftersom vi fick en mycket mer detaljerad läsning av data än vi gjorde med referensgenom," sa Segarra.
"En annan sak som vi för närvarande tittar på är att tillämpa verktyget på datauppsättningar i verkliga världen och se hur resultaten relaterar till biologiska processer och vilka insikter detta kan ge oss."
Treangen sa att GraSSRep och rhea kombinerat – som bygger på tidigare bidrag i området – har potentialen "att låsa upp de underliggande levnadsreglerna som styr mikrobiell evolution."
Projekten är resultatet av ett år långt samarbete mellan Segarra och Treangen labs.
"Detta har varit en produkt av att utföra flerårig samarbetsforskning inom olika expertområden, vilket har gjort det möjligt för våra elever Ali och Kristen att utmana befintliga paradigm och utveckla nya förhållningssätt till befintliga problem inom metagenomik," sa Treangen.
Mer information: Ali Azizpour et al, GraSSRep:Graph-Based Self-Supervised Learning for Repeat Detection in Metagenomic Assembly, arXiv (2024). DOI:10.48550/arxiv.2402.09381
Kristen D. Curry et al., Referensfri strukturvariantdetektering i mikrobiomer via långlästa samsammansättningsgrafer, bioRxiv (2024). DOI:10.1101/2024.01.25.577285
Journalinformation: bioRxiv , arXiv
Tillhandahålls av Rice University