Forskare som är intresserade av att förbättra en given egenskap hos växter kan nu identifiera generna som reglerar egenskapens uttryck utan att göra några experiment.
Purdue Universitys Kranthi Varala och 10 medförfattare har publicerat detaljerna om det nya webbaserade verktyget för regulatorisk genupptäckt i Proceedings of the National Academy of Sciences . Varala har patentsökt på resultaten som relaterar till ekonomiskt viktig fröoljebiosyntes.
Purdue-USDA-teamet försökte bygga en resurs som lär sig, från stora mängder allmänt tillgänglig data, för att snabbt identifiera vilka speciella gener som kallas transkriptionsfaktorer som reglerar uttrycket av en given egenskap hos olika växtarter.
"Varje studie fokuserar på en handfull av dem", säger Varala, biträdande professor i trädgårdsodling och landskapsarkitektur. "Vår utgångspunkt var att om vi kan lägga allt i en enda analys, så kan vi använda dessa data för att bygga något globalt."
Arabidopsis fungerade som PNAS studiens modellanläggning, "men detta tillvägagångssätt har inget specifikt för Arabidopsis," sa Varala. "Tillvägagångssättet är tillräckligt generellt för att du skulle kunna börja med en majsdatauppsättning. Du kan göra det med ris, med tomat, vilken gröda du än arbetar med så länge du har tusentals mätningar av genuttryck som människor har gjort. Och det finns över ett dussin arter nu där vi har tiotusentals studier av genuttryck."
För att bevisa att systemet fungerar fokuserade teamet på en genetisk väg som reglerar hur växter gör och lagrar olja i sina frön. Teamet valde den egenskapen på grund av dess betydelse för livsmedels- och biobränsleproduktion, och eftersom mer än 300 av de inblandade generna redan är kända.
Genom att genetiskt manipulera en växts transkriptionsfaktorer kan forskare öka eller minska mängden olja som produceras i dess frön.
Liksom andra forskare har Varala drivit många projekt under åren där hans mål var att identifiera gener och regulatorer som är involverade i att lösa ett problem. Detta innebar att man genomförde noggranna, tidskrävande experiment. Men de genererade uppgifterna gav inte alla svar han sökte. Han jämförde det med att arbeta med en ekvation och bara känna till tre av de 10 faktorerna.
"Du kan inte lösa ekvationen," sa han. Likaså ville Varala ofta ställa fler frågor än vad uppgifterna kunde svara på. Det motiverade honom att bygga ett ramverk som använder all möjlig data för att ställa dessa frågor utan att behöva göra alla relevanta experiment för att få en lista över kandidater som sedan behöver genetisk validering.
"Jag försöker kortsluta den inledande datainsamlingsfasen," sa Varala, så att forskare kan fokusera på att utföra de genetiska valideringarna. Men för att göra det måste hans team börja med en datauppsättning baserad på 18 000 individuella studier.
Varala och hans team analyserade denna enorma datamängd med hjälp av Bell och de nu pensionerade Brown superdatorerna vid Purdues Rosen Center for Advanced Computing. Teamet byggde ett ramverk för maskininlärning för att påskynda processen för andra.
Det skulle vara omöjligt för en person att göra detta manuellt. Ett team skulle kunna göra det, men det skulle införa fördomar i hur gruppmedlemmar behandlar data. Maskininlärningsklassificeraren fungerar utan partiskhet.
Det nya med tillvägagångssättet är att istället för att dra data relaterade till alla organ, fokuserar det på organspecifika datamängder. Oberoende gennätverk reglerar dessa organ – blad, rötter, skott, blommor och frön.
"Istället för att använda alla organ, sa vi, inom de fröexperiment som människor har gjort under åren, kan vi använda all data för att lära oss något som händer i fröet och inte nödvändigtvis roten eller bladet eller blomman? Det förbättrades vårt tillvägagångssätt mycket", sa Varala.
Teamet använde en beräkningsmetod som kallas inferensmetoden för att förutsäga vilka transkriptionsfaktorer som skulle reglera fröoljans biosyntesprocess i Arabidopsis.
"De vi känner hjälper oss att validera att vårt tillvägagångssätt fungerar korrekt. De som vi inte känner till är bra kandidater för att ta reda på ny biologi," sa Varala. "Denna rent beräkningsmetod vet ingenting om frön eller olja eller något liknande. Vi gav den en lista med gener och den kunde återupptäcka de kända utan att känna till något biologiskt sammanhang."
Huvudförfattaren, Rajeev Ranjan, en postdoktor vid institutionen för trädgårdsodling och landskapsarkitektur i Purdue, tog de andra 12 av de 20 bästa och frågade om dessa förutsägelser var sanna. "Vi kunde generera muterade linjer för elva av dessa tolv. Fem av dessa elva ändrar fröoljeinnehållet," sa han. "Vidare visade vi också att överuttryck av en faktor ökar fröoljan med upp till tolv procent."
De åtta kända regulatoriska generna, tillagda till de åtta nya, visade att inferensmetoden exakt identifierade 13 av de 20 bästa kandidaterna. Styrkan med tillvägagångssättet är att genom att bara arbeta utifrån en lista med gener kan den med hög noggrannhet förutsäga vilka som kommer att reglera en egenskap av intresse.
"Det tog lång tid att göra eftersom det är en lång, komplicerad process, och det fanns ingen garanti för att det skulle fungera", säger Varala om det fyraåriga projektet. "Inget i den här skalan hade försökts tidigare."
Mer information: Rajeev Ranjan et al, organavgränsade genreglerande nätverk ger hög noggrannhet i valet av kandidattranskriptionsfaktorer över olika processer, Proceedings of the National Academy of Sciences (2024). DOI:10.1073/pnas.2322751121
Journalinformation: Proceedings of the National Academy of Sciences
Tillhandahålls av Purdue University