Kredit:CC0 Public Domain
En ny MIT-studie hittar "hälsokunskapsgrafer, "som visar samband mellan symtom och sjukdomar och är avsedda att hjälpa till med klinisk diagnos, kan komma till korta för vissa tillstånd och patientpopulationer. Resultaten föreslår också sätt att öka deras prestanda.
Hälsokunskapsdiagram har vanligtvis sammanställts manuellt av expertläkare, men det kan vara en mödosam process. Nyligen, forskare har experimenterat med att automatiskt generera dessa kunskapsdiagram från patientdata. MIT-teamet har studerat hur väl sådana grafer håller över olika sjukdomar och patientpopulationer.
I en artikel som presenterades vid Pacific Symposium on Biocomputing 2020, forskarna utvärderade automatiskt genererade hälsokunskapsdiagram baserade på verkliga datamängder som omfattar mer än 270, 000 patienter med nästan 200 sjukdomar och mer än 770 symtom.
Teamet analyserade hur olika modeller använde data från elektroniska journaler (EPJ), innehåller medicinska och behandlingshistorier för patienter, att automatiskt "lära sig" mönster av sjukdomssymptomkorrelationer. De fann att modellerna presterade särskilt dåligt för sjukdomar som har höga andelar mycket gamla eller unga patienter, eller höga andelar manliga eller kvinnliga patienter – men att välja rätt data för rätt modell, och göra andra ändringar, kan förbättra prestandan.
Tanken är att ge vägledning till forskare om förhållandet mellan datauppsättningsstorlek, modellspecifikation, och prestanda när man använder elektroniska journaler för att bygga hälsokunskapsdiagram. Det kan leda till bättre verktyg för att hjälpa läkare och patienter med medicinskt beslutsfattande eller för att söka efter nya samband mellan sjukdomar och symtom.
"Under de senaste 10 åren, EPJ-användningen har skjutit i höjden på sjukhus, så det finns en enorm mängd data som vi hoppas kunna ta fram för att lära oss dessa grafer över sjukdoms-symptomsamband, " säger första författaren Irene Y. Chen, en doktorand vid institutionen för elektroteknik och datavetenskap (EECS). "Det är viktigt att vi noggrant undersöker dessa grafer, så att de kan användas som de första stegen i ett diagnostiskt verktyg."
Med Chen på tidningen är Monica Agrawal, en doktorand i MIT:s datavetenskap och artificiell intelligens Laboratory (CSAIL); Steven Horng från Beth Israel Deaconess Medical Center (BIDMC); och EECS professor David Sontag, som är medlem i CSAIL och Institutet för medicinsk teknik och vetenskap, och chef för Clinical Machine Learning Group.
Patienter och sjukdomar
I hälsokunskapsdiagram, det finns hundratals noder, var och en representerar olika sjukdomar och symptom. Kanter (linjer) förbinder sjukdomsnoder, som "diabetes, " med korrelerade symtomnoder, som "överdriven törst". Google lanserade sin egen version 2015, som kurerades manuellt av flera kliniker under hundratals timmar och anses vara guldstandarden. När du Googler en sjukdom nu, systemet visar associerade symtom.
I ett 2017 Nature Scientific Reports-dokument, Sontag, Horng, och andra forskare utnyttjade data från samma 270, 00 patienter i sin nuvarande studie – som kom från akutmottagningen vid BIDMC mellan 2008 och 2013 – för att bygga grafer för hälsokunskaper. De använde tre modellstrukturer för att generera graferna, kallas logistisk regression, naiva Bayes, och bullriga ELLER. Med hjälp av data från Google, forskarna jämförde deras automatiskt genererade hälsokunskapsdiagram med Google Health Knowledge Graph (GHKG). Forskarnas graf presterade mycket bra.
I deras nya arbete, forskarna gjorde en rigorös felanalys för att avgöra vilka specifika patienter och sjukdomar som modellerna fungerade dåligt för. Dessutom, de experimenterade med att utöka modellerna med mer data, bortom akuten.
I ett test, de delade upp data i delpopulationer av sjukdomar och symtom. För varje modell, de tittade på sambandslinjer mellan sjukdomar och alla möjliga symtom, och jämförde det med GHKG. I tidningen, de sorterar fynden i de 50 botten- och 50 bäst presterande sjukdomarna. Exempel på lågpresterande är polycystiskt ovariesyndrom (som drabbar kvinnor), allergisk astma (mycket sällsynt), och prostatacancer (som främst drabbar äldre män). Högpresterande är de vanligaste sjukdomarna och tillstånden, såsom hjärtarytmi och plantar fasciit, vilket är vävnadssvullnad längs fötterna.
De fann att den bullriga ELLER-modellen var den mest robusta mot fel totalt sett för nästan alla sjukdomar och patienter. Men noggrannheten minskade bland alla modeller för patienter som har många samtidigt förekommande sjukdomar och samtidigt förekommande symtom, såväl som patienter som är mycket unga eller över 85 år. Prestanda drabbades också för patientpopulationer med mycket höga eller låga andelar av vilket kön som helst.
Väsentligen, forskarna antar, dålig prestation orsakas av patienter och sjukdomar som har extrema prediktiva prestanda, såväl som potentiella omättade konfounders. Äldre patienter, till exempel, tenderar att komma in på sjukhus med fler sjukdomar och relaterade symtom än yngre patienter. Det betyder att det är svårt för modellerna att korrelera specifika sjukdomar med specifika symtom, säger Chen. "Liknande, " tillägger hon, "Unga patienter har inte många sjukdomar eller lika många symtom, och om de har en sällsynt sjukdom eller symptom, det presenterar inte på ett normalt sätt som modellerna förstår."
Dela upp data
Forskarna samlade också in mycket mer patientdata och skapade tre distinkta datauppsättningar med olika granularitet för att se om det kunde förbättra prestandan. För 270, 000 besök som användes i den ursprungliga analysen, forskarna extraherade hela EHR-historien för 140, 804 unika patienter, spåra ett decennium tillbaka, med totalt cirka 7,4 miljoner kommentarer från olika källor, såsom läkaranteckningar.
Val i processen för att skapa dataset påverkade också modellens prestanda. En av datamängderna samlar var och en av de 140, 400 patienthistorier som en datapunkt var. En annan datauppsättning behandlar var och en av de 7,4 miljoner anteckningarna som en separat datapunkt. En sista skapar "avsnitt" för varje patient, definieras som en kontinuerlig serie av besök utan uppehåll på mer än 30 dagar, ger totalt cirka 1,4 miljoner avsnitt.
Intuitivt, en datauppsättning där hela patienthistoriken är aggregerad till en datapunkt bör leda till större noggrannhet eftersom hela patienthistoriken beaktas. kontraintuitivt, dock, det fick också den naiva Bayes-modellen att prestera sämre för vissa sjukdomar. "Du antar ju mer intrapatientinformation, desto bättre, med maskininlärningsmodeller. Men dessa modeller är beroende av granulariteten hos den data du matar dem, " säger Chen. "Den typ av modell du använder kan bli överväldigad."
Som förväntat, Att mata modellen med demografisk information kan också vara effektivt. Till exempel, modeller kan använda den informationen för att utesluta alla manliga patienter för, säga, förutsäga livmoderhalscancer. Och vissa sjukdomar som är mycket vanligare för äldre patienter kan elimineras hos yngre patienter.
Men, i en annan överraskning, den demografiska informationen ökade inte prestandan för den mest framgångsrika modellen, så att samla in dessa uppgifter kan vara onödigt. Det är viktigt, Chen säger, eftersom det kan vara dyrt och tidskrävande att sammanställa data och utbildningsmodeller på datan. Än, beroende på modell, att använda mängder av data kanske inte förbättrar prestandan.
Nästa, forskarna hoppas kunna använda sina resultat för att bygga en robust modell som kan användas i kliniska miljöer. För närvarande, Hälsokunskapsgrafen lär sig sambanden mellan sjukdomar och symtom men ger inte en direkt förutsägelse av sjukdom utifrån symtom. "Vi hoppas att varje prediktiv modell och alla medicinska kunskapsdiagram skulle sättas under ett stresstest så att kliniker och maskinlärande forskare med tillförsikt kan säga, "Vi litar på detta som ett användbart diagnostiskt verktyg, '" säger Chen.
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.