Siktar guld från datafloden

Nästa generations DNA-sekvenseringsteknik har översvämmat databaser och hårddiskar världen över med stora datamängder, men får forskarna ut så mycket de kan av denna störtflod av data? I en ny studie i oktobernumret av Ansökningar inom växtvetenskap , Dr Brent Berger och kollegor föreslår ett sätt att sålla det återstående guldet ur stora sekvensdatauppsättningar. Författarna visar att en ny datautvinningsteknik kan användas för att hämta värdefull information från befintliga datamängder, och bevisa konceptet genom att hämta sekvenser från gener som påverkar de säregna blomstrukturerna som ses i växtfamiljen Goodeniaceae.

DNA-sekvensering har blivit så billig att även om en forskare egentligen bara är intresserad av sekvensen av ett fåtal gener, det är ofta mest praktiskt att bara sekvensera hela arvsmassan. Bioinformatiska tekniker kan välja ut den önskade gensekvensen senare, med mindre krångel än att rikta specifika gener till sekvens. denna praxis, känd som "genomskumning, " har blivit ett allt populärare sätt att svara på frågor om relationer mellan växtarter.

Utgångspunkten för genomskumning är att använda lågtäckande hagelgevärssekvensering för att hämta DNA-sekvens från högkopierade fraktioner av genomet. I hagelgevärssekvensering, genomet bryts upp i små bitar för sekvensering, och sedan sys ihop igen beräkningsmässigt med hjälp av överlappningarna mellan bitarna, en process som kallas montering. Mängden "täckning" motsvarar hur många av dessa små bitar som är sekvenserade; ju högre täckning, desto lättare är det att sy ihop genomet igen, vilket resulterar i en mer komplett genomsekvens.

Men högre täckning är dyrare, och vissa frågor kan besvaras med en billigare, sekvenseringskörning med låg täckning. "Högkopierade fraktioner" av totalt genomiskt DNA, såsom kloroplastgenom eller nukleärt ribosomalt DNA, finns i högre mängd i sekvenspoolen, och kan därför sekvenseras fullt ut även i billiga, körningar med låg täckning. Sekvens från dessa högkopierade genomiska fraktioner används vanligtvis för att lösa evolutionära relationer mellan olika arter och grupper. Men i processen med genomskumning, forskare producerar och kasserar sedan enorma mängder potentiellt värdefulla sekvensdata. "Många genomskumningsdatauppsättningar används för att sätta ihop kloroplastgenomet, vilket i vårt fall, använde endast 3 % av sekvensdata, " anmärkte Dr Dianella Howarth, en medförfattare till studien.

I den här studien, författarna tog en andra titt på en genomskumningsdatauppsättning som tidigare använts för att lösa evolutionära samband i Goodeniaceae, en familj av växter som vanligtvis kallas "fanblommor" eller "halvblommor" på grund av sin spännande blomform, som ser ut som att någon skar blomman på mitten. Författarna ville se om denna genom-skimming-datauppsättning skulle kunna användas för mer information om genetiken bakom denna unika blomstruktur. De använde flera mjukvarupaket för att sätta ihop tidigare oanvända sekvensfragment från den låga kopian av den ursprungliga genomskimmingsdatauppsättningen. De sökte sedan i den resulterande samlingen efter sekvens från en uppsättning gener som kallas CYCLOIDEA gener, som är involverade i blomstruktur och symmetri.

Författarna kunde hämta tillräckligt med delar av generna, från flera arter, för att skapa fullständiga justeringar av alla fyra CYCLOIDEA gener i kärnan Goodeniaceae. Dessa data kan visa sig användbara för framtida studier om utvecklingen av den bisarra blomstrukturen som ses i denna grupp. "Jämföra sekvenser från CYCLOIDEA -liknande gener över denna kladd kan ge ledtrådar om de exakta sekvensförändringarna som resulterar i förändringar i blommorfologi, " förklarade Dr Howarth.

Mer allmänt, Dr Howarth fortsatte, "Delar av vilken gen som helst av intresse kan potentiellt utvinnas från genomskumningsdatauppsättningar som redan har slutförts." En bit av en gen kanske inte låter så mycket, men det finns ett överraskande antal användningsområden för dessa fragment. "Dessa data kan ge tillräckligt med information för att bestämma användbara kärnområden för fylogenetiska analyser eller lokalisera möjliga gendupliceringshändelser. Dessutom, sonder för målanrikningssekvensering kan genereras snabbt över en kladde för att undersöka kandidatgener och deras regulatoriska regioner i evo-devo-studier."

Datautvinningsmetoder som dessa möjliggör en mycket mer fullständig användning av genomskumningsdatauppsättningar. Detta gör att viktiga frågor kan besvaras med befintliga data, och öppnar dörren för forskare utan tillgång till resurserna för att producera storskaliga datamängder – till exempel, forskare vid mindre högskolor eller länder utan stora anslagsgivande organ. När DNA-sekvensdata fortsätter att strömma in, studier som denna pekar på sätt att se till att vi inte låter värdefull information flyta förbi.

Ansträngningar att fånga, rädda Mexicos hotade tumlareslut

Zombiemyrhjärnor som lämnats intakta av svampparasit

Biologi