I den här delen av ett exempel på en hypergraf av ett biologiskt system, färgade linjer representerar gener och omger experimentella förhållanden (svarta cirklar) där genen var signifikant. Ju större svart cirkel, desto mer experimentella förhållanden finns i den gruppen. Kredit:Emilie Purvine | PNNL
Forskare tävlar för att hålla jämna steg med covid-19, skapa nya verktyg för att ta reda på hur det nya coronaviruset fungerar.
För forskare vid Pacific Northwest National Laboratory (PNNL), Att förstå virusinfektion är en fråga om matematik snarare än en ren molekylär analys. De använder ett avancerat matematiskt verktyg som kallas hypergrafer för att identifiera hur mänskliga celler svarar på virusinfektion, inklusive det nya coronaviruset. De nyckelproteiner som deltar i det svaret kan vara mål för utveckling av läkemedel för att behandla covid-19.
PNNL-matematikern Emilie Purvine och beräkningsbiologen Jason McDermott presenterade nyligen sitt arbete virtuellt på Association for Computing Machinerys SIGKDD (Special Interest Group on Knowledge Discovery and Data Mining), en årlig konferens för datautvinning, datavetenskap, och analyser.
Hypergrafer för virusinfektion
I ett nyckelsteg, teamet testade den nya metoden med data från ett liknande virus, coronaviruset som orsakar allvarligt akut respiratoriskt syndrom, eller SARS. Det viruset infekterade fler än 8, 000 människor när det svepte över hela världen 2003.
PNNL-teamet fann att resultaten från den nya metoden stämde överens med data som tidigare samlats in om det viruset. Använda hypergrafer, teamet identifierade och rangordnade aktiviteten hos flera gener som nu är kända för att vara viktiga för aktiviteten hos viruset som orsakade SARS-1-utbrottet.
"Vårt arbete identifierade oberoende samma gener som är kända för att vara viktiga med SARS-aktivitet. Detta var ett viktigt steg att ta innan vi tillämpade vårt arbete på viruset som orsakar covid-19, sa McDermott.
Nu tillämpar PNNL-teamet den nya tekniken på det aktuella viruset, använda hypergrafer för att reda ut och rangordna betydelsen av många av de hundratals gener som är aktiva i covid-19.
Purvine och McDermott har använt hypergrafer för att utforska hur mänskliga celler reagerar på virusinfektioner under de senaste två åren. De har arbetat med data som samlats in av PNNL-biolog Katrina Waters, som har spårat genuttryck, proteinuttryck, och molekylära förändringar i mänskliga celler infekterade med virus inklusive influensa, Zika, Ebola, och coronavirus i ungefär ett decennium.
För att tillämpa hypergrafer på denna stora datamängd, forskarna var först tvungna att ta reda på hur man identifierade grupper av proteiner på ett sätt som satte upp dem för att bygga en meningsfull hypergraf. Teamet tacklade den utmaningen tidigare i år, samtidigt som coronapandemin slog till.
Från grafer till hypergrafer
Samarbetet med Purvine erbjuder ett nytt verktyg för McDermott, som har använt grafbaserade matematiska tekniker för att analysera samband mellan gener, proteiner, och signalerande molekyler i celler i flera år.
Han och hans kollegor identifierar relationer mellan två molekyler åt gången. Sedan kategoriserar de kopplingar mellan många separata interaktioner. Dessa kopplingar trasslar snabbt ihop sig till komplexa grafer som representerar molekylära nätverk som håller cellerna i funktion.
Forskarna analyserar strukturen och formen på dessa grafer, letar efter meningsfulla mönster som indikerar molekylära komponenter med nyckelroller. Centralitet, eller när en molekyl har många kopplingar till andra, är en typ av mönster.
Hela strukturen i en graf är ett annat meningsfullt mönster. Vissa centrala förbindelser fungerar som broar för att hålla informationen flytande mellan olika delar av nätverket. Gener eller proteiner som är involverade i dessa "mellan"-kopplingar håller sannolikt en hel cell i funktion.
Hypergrafer representerar ett potentiellt steg framåt. Istället för att representera kopplingar mellan enskilda komponenter, hypergrafer visar samband mellan grupper av saker. Eftersom biologiska nätverk fungerar genom molekylära grupper, Forskare tror att hypergrafer kan representera deras struktur mer realistiskt än standardgrafer.
Forskare har använt hypergrafer för att representera sociala grupper och datornätverksinfrastruktur, men deras beräkningskomplexitet gör dem till en ovanlig teknik för att studera storskaliga biologiska nätverk som uppstår från experimentella data.
Ett hypergrafprogram med öppen källkod som heter HyperNetX, utvecklad på PNNL, gör denna analys mer tillgänglig för forskare inom olika discipliner. Men att tillämpa tekniken på data från en mängd olika områden kräver fortfarande en del mixtrande.
"Eftersom det finns så många sätt att bygga hypergrafer från biologiska data, biologer måste förmodligen involvera en beräkningsmatematiker för att göra detta, tills vidare, sa Purvine.