• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  •  science >> Vetenskap >  >> Biologi
    Ett bättre sätt att hitta RNA-virusnålar i databashöstackar

    Grafisk översikt av pipelinen som börjar med databasen RNA Virus MetaTranscriptomes (RVMT) för att avslöja expansionen i RNA-virusmångfald. Kredit:Simon Roux

    En djurpark erbjöd en gång en målarbok med isbjörnar i vinterscener som kom med kritor i olika nyanser av vitt. För forskare som söker efter sekvenser av RNA-virus i stora datamängder kan deras arbete liknas vid att hitta en enda snöflinga på en färgad sida i den boken.

    Publicerad online 28 september 2022 i Cell , ett team ledd av forskare vid Tel Aviv University i Israel, National Center for Biotechnology Information och U.S. Department of Energy (DOE) Joint Genome Institute (JGI), en DOE Office of Science User Facility belägen vid Lawrence Berkeley National Laboratory ( Berkeley Lab) beskriver en beräkningspipeline som specifikt kan skanna efter dessa snöflingor eller RNA-virussekvenser. Med hjälp av detta arbetsflöde, kammade teamet igenom mer än 5 000 datamängder med RNA-sekvenser (metatranskriptom) som genererats från olika miljöprover runt om i världen, vilket resulterade i en femfaldig ökning av RNA-virusmångfalden.

    "Virusvärlden runt omkring oss är enorm, och vi har nu möjlighet att utforska den", säger Eugene Koonin, senior utredare vid NCBI och en av de seniora författarna på tidningen, om den avslöjade virala mångfalden. "Även om de tekniska utmaningarna med dataanalys i denna skala är enorma."

    Beräkningssiktar för att filtrera sekvenser

    Det finns fler mikrober på planeten än partiklar i en handfull smuts, och virus är betydligt fler än mikroberna. Framsteg inom sekvenseringsteknik och beräkningsverktyg har avslöjat en mångfald av virus som infekterar inte bara grödor, djur och människor, utan också mikrober vars närvaro eller frånvaro kan påverka planetens näringskretslopp.

    Medan de flesta organismers genetiska information är kodad i DNA, med RNA som levererar instruktionerna inuti DNA till cellen, lagrar RNA-virus sin genetiska information i RNA utan ett DNA-stadium. "Jag skulle hävda att RNA-virus globalt är ännu mindre kända än DNA-virus", säger Simon Roux, en JGI-forskare och en av projektledaren. "Men precis som DNA-virus infekterar RNA-virus mikrober över hela världen och leder till celldöd och/eller djupgående förändringar i cellfysiologin under infektion."

    Medan alla RNA-virus har en gen som kodar för ett enzym som kallas RNS-riktat RNA-polymeras (RdRP), som är nödvändigt för att replikera RNA-genomreplikationen, har det varit en utmaning att upptäcka det. Att hitta RNA-virussnöflingorna i snöstormen av genomiska data involverade utveckling av speciella beräkningssiktar för att filtrera bort sekvenser som sannolikt inte skulle innehålla RdRP-sekvensen.

    Arbetet var resultatet av ett trevägssamarbete som inleddes 2019, påminde Uri Neri från Tel Aviv University, en av projektledarna och första författare till studien. Medlemmar av Tel Aviv- och NCBI-teamen, som redan arbetade med att bryta prokaryota virus tillsammans, fick veta av JGI:s Nikos Kyrpides att hans Microbiome Data Science-grupp också arbetade med RNA-virusbrytning. Efter ett par virtuella möten med de tre teamen stod det klart att en större samverkan skulle vara mycket effektivare för att uppnå resultat av högre kvalitet jämfört med mindre individuella insatser. Detta är också den typ av synergistisk och samarbetande gemenskapsanda som JGI förespråkar och aktivt främjar.

    Teamet använde alla offentligt tillgängliga metatranskriptomdatauppsättningar från JGI:s Integrated Microbial Genomes &Microbiomes (IMG/M) system. "Vi tittade sedan på många fler prover och förfinade vår metod," sa Neri. "Vårt team växte och det gjorde även omfattningen av projektet." För detta ändamål, betonade Kyrpides, kan bidragen från de många JGI-vetenskapsanvändarna i att samla in och skicka in sina mikrobiomprover för sekvensering vid JGI inte överskattas. Deras samarbete och stöd, sade han, och i flera fall, deras tillåtelse att använda ännu opublicerade sekvensdata, var absolut avgörande för framgången för detta arbete och det var även erkännandet av deras bidrag.

    Både Roux och Koonin noterade att uppsjön av RNA-virussekvenser som avslöjats "avsevärt förändrar den globala synen på virusmångfald", men inte på högre nivåklassificeringar av virusgrupper (fyla.) De nya sekvenserna fyller i vissa luckor på existerande virus. grupper samtidigt som man lägger till nya grenar. Dessutom verkar RNA-virus inte vara jämnt fördelade över världen.

    En utökad grupp är virus associerade med bakterier; fram till nu har de flesta av de kända RNA-virusen associerats med eukaryoter. Tillsammans med expansionen av bakterieassocierade RNA-virus är upptäckten att "några få bakterier använder CRISPR för att försvara sig mot RNA", noterade Roux, "även om det är oklart varför detta så sällan upptäcks."

    Utveckla metoder för att stämma av "riktiga" Big Data

    För teamet är det beräkningsarbete som ledde till det upptäckta överflöd av RNA-virus bara början. "Jag säger ofta att bara att identifiera en sekvens som viral är inte ens halva historien." sa Neri. "Vi investerade mycket av våra ansträngningar i analyserna efter upptäckten - så gott vi kunde försökte vi beskriva proteindomänerna varje virus bär och vem som är deras troliga värd. Vi har gjort all den informationen helt gratis och öppet. tillgänglig för det bredare forskarsamhället."

    Uri Gophna från Tel Aviv University och Koonin noterade båda att annan forskning parallellt har rapporterat liknande "dramatiska expansioner" av det globala RNA-viromet. "Vi måste nu jämföra och stämma av resultaten och komma fram till en enda, icke-redundant datauppsättning," sa Koonin. "Förhoppningsvis kommer vi relativt snart att kunna uppskatta den faktiska storleken på RNA-viromet. Men detta är nu riktiga Big Data, vi har att göra med miljarder sekvenser, och snart med biljoner. Utvecklingen av effektiva, automatiserade metoder för att analysera och klassificera sekvensdata i denna skala är väsentligt." + Utforska vidare

    Ett automatiserat verktyg för att utvärdera virusdatakvalitet




    © Vetenskap https://sv.scienceaq.com