Gamze Gursoy, Ph.D., Yale universitet. Kredit:Gamze Gursoy
Baserat på en analys av dataläckage och möjligheter att förhindra potentiellt missbruk av genetisk information, forskare har utvecklat ett nytt filformat för funktionell genomikdata som möjliggör datadelning samtidigt som forskningsdeltagarnas personliga information skyddas. Resultaten presenterades vid American Society of Human Genetics (ASHG) 2018 årsmöte i San Diego, Calif.
Funktionell genomik är studiet av hur genomet fungerar i kroppen, till exempel hur gener regleras, uttrycks i proteiner, och interagerar med proteiner för att påverka cellulära funktioner i sjukdom och hälsa. Gamze Gursoy, Ph.D., postdoktoral forskningsassistent vid Yale University Computational Biology and Bioinformatics Program, och hennes kollegor försökte identifiera svagheter i nuvarande funktionella genomikdatafiler och -processer och hitta praktiska korrigeringar.
"Eftersom funktionell genomisk teknik fortfarande växer fram, data som härrör från denna forskning har inte studerats väl av integritetsforskare, " sa Dr. Gursoy. Tidigare analyser har visat att i vissa fall, det är möjligt att spåra avidentifierade funktionella genomikdata tillbaka till den enskilda deltagaren, ett koncept som kallas dataläckage. Genom en serie tester under de senaste åren, Dr. Gursoy och hennes kollegor mätte mängden variantinformation som läckt i genuttryck och funktionella genomikexperiment som involverade olika datatyper, och i vilken utsträckning denna information kunde kartläggas tillbaka till individer.
"Precis som genetiska data, denna data kommer från verkliga individer, och vi ville öka medvetenheten om att det kan finnas läckage. På samma gång, vi vill demokratisera tillgång till data och undvika byråkratiska hinder, " sa hon. För att uppnå detta mål, forskarna utvecklade sätt att mäta läckage från råa funktionella genomdata och ett filformat för att minska läckaget på ett målinriktat sätt.
I synnerhet, formatet de utvecklade kan enkelt läggas till genetiska datafiltyper som redan används allmänt, såsom sekvensanpassningsmapping och binär alignmentmapping. Dr. Gursoy hoppas att dess användarvänlighet uppmuntrar fler forskare att göra sina resultat tillgängliga via rätt kanaler.
"Vi vill balansera deltagarnas integritet med flödet av vetenskaplig information, " sa Dr. Gursoy. "Om forskare begränsar sina data helt, vetenskapliga upptäckter stannar."
Dr. Gursoy arbetar nu med befintliga datalager, såsom ENCODE. Hon betonade att integritetsskydd är ett kontinuerligt arbete som inte slutar med detta enda filformat; det handlar också om att utbilda allmänheten.
"Genomisk integritet är väldigt unik, ", sade Dr. Gursoy. "Genetiska data kan användas för att länka människor till deras sjukdomsstatus i vissa databaser. Även om det finns lagar som lagen om icke-diskriminering av genetisk information, människor är omedvetna om att försäkringsbolag inte kan använda din genetiska information för att vägra täckning."
Dr. Gursoy hoppas att denna filtyp kommer att användas mer allmänt, leder till mer samarbete på området och färre hinder för att reproducera forskning. Hon fortsätter att arbeta med metoder för att tillhandahålla forskningsdata i tid och samtidigt hålla informationen säker.