Med varje nyhet, begreppen datautvinning hälso- och sjukvårdsinformation flyttar ännu högre upp på forsknings- och policyagendan på detta område. Klinisk information och genetiska data som finns i elektroniska hälsojournaler (EPJ) utgör en viktig källa till användbar information för biomedicinsk forskning, men det kan vara svårt att komma åt den på ett användbart sätt.
Skriver i International Journal of Intelligent Engineering Informatics, Hassan Mahmoud och Enas Abbas från Benha University och Ibrahim Fathy Ain Shams University, i Egypten, diskutera behovet av innovativa och effektiva metoder för att representera denna enorma mängd data. De påpekar att det finns datautvinningstekniker såväl som ontologibaserade tekniker som kan spela en stor roll för att upptäcka syndrom hos patienter effektivt och korrekt. Ett syndrom definieras som en uppsättning samtidiga medicinska symtom och indikatorer associerade med en given sjukdom eller störning.
Teamet har granskat den senaste tekniken och även fokuserat på att granska de välkända datautvinningsteknikerna som beslutsträd (J48), Naiva Bayes, flerskiktsperceptron (MLP), och random forest (RF)-tekniker och jämförde hur väl de var och en presterar i klassificeringen av ett visst syndrom, hjärtsjukdom.
Teamet drar slutsatsen att i experiment med en offentlig datauppsättning, RF-klassificeraren ger den bästa prestandan när det gäller noggrannhet. I framtiden, de tyder på att datautvinning kommer att gynna sjukvård och medicin som är betydande för att bygga ett system som kan upptäcka ett specifikt syndrom.