Paradigm4 tillåter användare att integrera data från källor som genomisk sekvensering, biometriska mått, miljöfaktorer, och mer i sina förfrågningar för att möjliggöra nya upptäckter inom en rad livsvetenskapliga områden. Kredit:Massachusetts Institute of Technology
Som teknologier som encellig genomisk sekvensering, förbättrad biomedicinsk avbildning, och medicinska "sakernas internet"-enheter sprider sig, Nyckelupptäckter om människors hälsa återfinns i allt större utsträckning i stora mängder av komplexa biovetenskapliga och hälsodata.
Men att dra meningsfulla slutsatser från dessa data är ett svårt problem som kan innebära att sammanfoga olika datatyper och manipulera enorma datamängder som svar på olika vetenskapliga förfrågningar. Problemet handlar lika mycket om datavetenskap som det handlar om andra områden inom vetenskapen. Det är där Paradigm4 kommer in.
Företaget, grundad av Marilyn Matz SM '80 och Turing Award -vinnare och MIT -professor Michael Stonebraker, hjälper läkemedelsföretag, forskningsinstitut, och bioteknikföretag omvandlar data till insikter.
Det åstadkommer detta med ett beräkningssystem för databashantering som är byggt från grunden för att vara värd för de olika, mångfacetterad data vid gränserna för biovetenskaplig forskning. Det inkluderar data från källor som nationella biobanker, kliniska tester, det medicinska internet of things, mänskliga cellatlaser, medicinska bilder, miljöfaktorer, och multiomics, ett område som inkluderar studiet av genom, mikrobiomer, metabolomer, och mer.
Utöver systemets unika arkitektur, företaget har också byggt dataförberedelser, metadatahantering, och analysverktyg för att hjälpa användare att hitta de viktiga mönstren och sambanden som lurar inom alla dessa siffror.
I många fall, kunder utforskar datamängder som grundarna säger är för stora och komplexa för att kunna representeras effektivt av traditionella databashanteringssystem.
"Vi är angelägna om att göra det möjligt för forskare och datavetare att göra saker de inte kunde göra tidigare genom att göra det lättare för dem att hantera storskalig beräkning och maskininlärning på olika data, "Matz säger." Vi hjälper forskare och bioinformatiker med samarbete, reproducerbar forskning för att ställa och svara på svåra frågor snabbare."
Ett nytt paradigm
Stonebraker har varit en pionjär inom området för databashanteringssystem i decennier. Han har startat nio företag, och hans innovationer har satt standarder för hur moderna system tillåter människor att organisera och få tillgång till stora datamängder.
Mycket av Stonebrakers karriär har fokuserat på relationsdatabaser, som organiserar data i kolumner och rader. Men i mitten av 2000-talet Stonebraker insåg att mycket data som genererades bättre skulle lagras inte i rader eller kolumner utan i flerdimensionella arrayer.
Till exempel, satelliter bryter jordens yta i stora kvadrater, och GPS-system spårar en persons rörelse genom dessa rutor över tiden. Den operationen involverar vertikal, horisontell, och tidsmätningar som inte är lätta att gruppera eller på annat sätt manipulera för analys i relationsdatabassystem.
Stonebraker minns att hans forskarkollegor klagade över att tillgängliga databashanteringssystem var för långsamma för att arbeta med komplexa vetenskapliga datauppsättningar inom områden som genomik, där forskare studerar sambanden mellan populationsskala multi-omics-data, fenotypiska data, och medicinska journaler.
"[Relationella databassystem] skannar antingen horisontellt eller vertikalt, men inte båda, " Stonebraker förklarar. "Så du behöver ett system som gör både och, och det kräver en lagringshanterare längst ner i systemet som kan röra sig både horisontellt och vertikalt genom en mycket stor array. Det är vad Paradigm4 gör."
2008, Stonebraker började utveckla ett databashanteringssystem vid MIT som lagrade data i flerdimensionella arrayer. Han bekräftade att tillvägagångssättet gav stora effektivitetsfördelar, tillåter analytiska verktyg baserade på linjär algebra, inklusive många former av maskininlärning och statistisk databehandling, att tillämpas på stora datamängder på nya sätt.
Stonebraker bestämde sig för att göra projektet till ett företag 2010, när han samarbetade med Matz, en framgångsrik entreprenör som var med och grundade Cognex Corporation, ett stort industriellt maskinvisionsföretag som blev börsnoterat 1989. Grundarna och deras team började arbeta med att bygga ut nyckelfunktioner i systemet, inklusive dess distribuerade arkitektur som gör att systemet kan köras på lågkostnadsservrar, och dess förmåga att automatiskt rensa och organisera data på användbara sätt för användare.
Grundarna beskriver sitt databashanteringssystem som en beräkningsmotor för vetenskapliga data, och de har döpt den till SciDB. Ovanpå SciDB, de utvecklade en analysplattform, kallad REVEAL Discovery Engine, baserat på användarnas dagliga forskningsaktiviteter och ambitioner.
"Om du är en vetenskapsman eller datavetare, Paradigms REVEAL- och SciDB-produkter tar hand om all datatvistelse och beräknings-'VVS och ledningar, "så att du inte behöver oroa dig för att komma åt data, flytta data, eller ställa in parallell distribuerad beräkning, " Säger Matz. "Din data är redo för vetenskap. Ställ bara din vetenskapliga fråga och plattformen orkestrerar all datahantering och beräkning åt dig."
SciDB är utformad för att användas av både forskare och utvecklare, så att användare kan interagera med systemet genom grafiska användargränssnitt eller genom att utnyttja statistiska och programmeringsspråk som R och Python.
"Det har varit väldigt viktigt att sälja lösningar, inte byggstenar, "Matz säger." En stor del av vår framgång inom biovetenskapen med de bästa apoteken och bioteknikerna och forskningsinstituten ger dem vår REVEAL-uppsättning applikationsspecifika lösningar på problem. Vi ger dem inte en analytisk plattform som är en uppsättning LEGO-klossar; vi ger dem lösningar som hanterar den data de hanterar dagligen, and solutions that use their vocabulary and answer the questions they want to work on."
Accelerating discovery
Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Stanford University, och på andra ställen.
Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.
Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.
"If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."
Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.
In the life sciences, dock, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Down the line, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.
"The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."
This story is republished courtesy of MIT News (web.mit.edu/newsoffice/), a popular site that covers news about MIT research, innovation and teaching.