Föreställ dig att förutsäga den exakta målordningen för Kentucky Derby från ett stillbild taget 10 sekunder in i loppet.
Den utmaningen bleknar i jämförelse med vad forskare står inför när de använder encellig RNA-sekvensering (scRNA-seq) för att studera hur embryon utvecklas, celler differentierar, cancer bildas och immunsystemet reagerar.
I en artikel publicerad idag i Proceedings of the National Academy of Sciences , har forskare från UChicago Pritzker School of Molecular Engineering och Chemistry Department skapat TopicVelo, en kraftfull ny metod för att använda statiska ögonblicksbilder från scRNA-seq för att studera hur celler och gener förändras över tiden.
Teamet tog en tvärvetenskaplig, samarbetsstrategi, som inkorporerade koncept från klassisk maskininlärning, beräkningsbiologi och kemi.
"När det gäller oövervakad maskininlärning använder vi en väldigt enkel, väletablerad idé. Och när det gäller den transkriptionsmodell vi använder är det också en väldigt enkel, gammal idé. Men när man sätter ihop dem gör de något kraftfullare än du kanske förväntar dig", säger PME biträdande professor i molekylär teknik och medicin Samantha Riesenfeld, som skrev uppsatsen med kemiavdelningen Prof. Suriyanarayanan Vaikuntanathan och deras gemensamma student, UChicago Chemistry Ph.D. kandidat Cheng Frank Gao.
Forskare använder scRNA-seq för att få mätningar som är kraftfulla och detaljerade, men till sin natur statiska.
"Vi utvecklade TopicVelo för att härleda celltillståndsövergångar från scRNA-seq-data," sa Riesenfeld. "Det är svårt att göra det från den här typen av data eftersom scRNA-seq är destruktiv. När du mäter cellen på detta sätt förstör du cellen."
Detta ger forskarna en ögonblicksbild av ögonblicket då cellen mättes/förstördes. Medan scRNA-seq ger den bästa tillgängliga transkriptomomfattande ögonblicksbilden, är informationen som många forskare behöver hur cellerna övergår över tiden . De behöver veta hur en cell blir cancerös eller hur ett visst genprogram beter sig under ett immunsvar.
För att hjälpa till att räkna ut dynamiska processer från en statisk ögonblicksbild använder forskare traditionellt vad som kallas "pseudotid". Det är omöjligt att se en enskild cells eller gens uttryck förändras och växa i en stillbild, men den bilden fångade också andra celler och gener av samma typ som kan vara lite längre fram i samma process. Om forskarna kopplar ihop prickarna korrekt kan de få kraftfulla insikter i hur processen ser ut över tid.
Att koppla ihop dessa prickar är svårt att gissa, baserat på antagandet att celler som ser likadana ut bara finns på olika punkter längs samma väg. Biologin är mycket mer komplicerad, med falska starter, stopp, sprängningar och flera kemiska krafter som drar i varje gen.
Istället för traditionella pseudotidsmetoder, som tittar på uttryckslikheten mellan transkriptionsprofilerna hos celler, tittar RNA-hastighetsstrategier på dynamiken i transkription, splitsning och nedbrytning av mRNA i dessa celler.
Det är en lovande men tidig teknik.
"Den ihållande klyftan mellan löftet och verkligheten av RNA-hastighet har till stor del begränsat dess tillämpning", skrev författarna i tidningen.
För att överbrygga denna klyfta lägger TopicVelo åt sidan deterministiska modeller och omfattar – och hämtar insikter från – en mycket svårare stokastisk modell som återspeglar biologins ofrånkomliga slumpmässighet.
"Celler, när du tänker på dem, är i sig slumpmässiga," sa Gao, den första författaren på tidningen. "Du kan ha tvillingar eller genetiskt identiska celler som kommer att växa upp och bli väldigt olika. TopicVelo introducerar användningen av en stokastisk modell. Vi kan bättre fånga den underliggande biofysiken i de transkriptionsprocesser som är viktiga för mRNA-transkription."
Teamet insåg också att ett annat antagande begränsar standard RNA-hastighet. "De flesta metoder förutsätter att alla celler i princip uttrycker samma stora genprogram, men du kan föreställa dig att celler måste göra olika typer av processer samtidigt, i varierande grad," sa Riesenfeld. Att reda ut dessa processer är en utmaning.
Probabilistisk ämnesmodellering – ett maskininlärningsverktyg som traditionellt används för att identifiera teman från skrivna dokument – försåg UChicago-teamet med en strategi. TopicVelo grupperar scRNA-seq-data inte efter typen av cell eller gen, utan efter de processer dessa celler och gener är involverade i. Processerna härleds från data snarare än påtvingade av extern kunskap.
"Om du tittar på en vetenskaplig tidskrift, kommer den att organiseras efter ämnen som "fysik", "kemi" och "astrofysik", den här typen av saker," sa Gao. "Vi tillämpade denna organiseringsprincip på encellig RNA-sekvenseringsdata. Så nu kan vi organisera våra data efter ämnen, som 'ribosomal syntes', 'differentiering', 'immunsvar' och 'cellcykel'. Och vi kan anpassa stokastiska transkriptionsmodeller specifika för varje process."
Efter att TopicVelo löser ihop den här samlingen av processer och organiserar dem efter ämne, applicerar den ämnesvikter tillbaka på cellerna, för att ta hänsyn till vilken procentandel av varje cells transkriptionsprofil som är involverad i vilken aktivitet.
Enligt Riesenfeld, "Det här tillvägagångssättet hjälper oss att titta på dynamiken i olika processer och förstå deras betydelse i olika celler. Och det är särskilt användbart när det finns grenpunkter, eller när en cell dras i olika riktningar."
Resultaten av att kombinera den stokastiska modellen med ämnesmodellen är slående. Till exempel kunde TopicVelo rekonstruera banor som tidigare krävde speciella experimentella tekniker för att återhämta sig. Dessa förbättringar breddar potentiella tillämpningar avsevärt.
Gao jämförde tidningens resultat med själva uppsatsen – en produkt av många studier och expertis.
"På PME, om du har ett kemiprojekt, är chansen stor att det finns en fysik- eller ingenjörsstudent som arbetar med det," sa han. "Det är aldrig bara kemi."
Mer information: Cheng Frank Gao et al, Dissection and integration of bursty transcriptional dynamics for complex systems, Proceedings of the National Academy of Sciences (2024). DOI:10.1073/pnas.2306901121
Journalinformation: Proceedings of the National Academy of Sciences
Tillhandahålls av University of Chicago