Waheeda Saib. Kredit:IBM
Cancerregister innehåller viktiga datamängder, hålls tätt krypterad, som innehåller demografisk information, medicinsk historia, diagnostik och terapi. Onkologer och hälsotjänstemän får tillgång till data för att förstå de diagnostiserade cancerfallen och incidensen nationellt. Det slutliga målet är att använda dessa data för att informera folkhälsoplanering och interventionsprogram. Även om realtidsuppdateringar inte är praktiska, Fleråriga förseningar gör det utmanande för tjänstemän att förstå effekterna av cancer i landet och fördela resurser därefter.
Ostrukturerade patologirapporter innehåller tumörspecifika data och är den huvudsakliga informationskällan som samlas in av cancerregister. Mänskliga experter märker patologirapporterna med hjälp av International Classification of Disease for Oncology (ICD-O) -koder som spänner över 42 olika cancertyper. Kombinationen av manuella processer och omfattningen av rapporter som mottas årligen leder till en försening på fyra år för landet. I jämförelse, det är nästan två års försening i USA.
2016, när vi invigde vårt nya IBM Research-labb i Johannesburg, vi antog denna utmaning och rapporterar våra första lovande resultat på Health Day på KDD Data Science Conference i London denna månad.
Vårt mål från början var att tillämpa djupinlärning för att automatisera märkning av cancerpatologi för att påskynda rapporteringsprocessen. Arbetar med National Cancer Registry i Sydafrika, vi använde 2, 201 avidentifierade, fritextpatologirapporter och jag är stolt över att kunna rapportera att vår artikel visar 74 procents noggrannhet – en förbättring jämfört med nuvarande benchmarkmodeller. Vi tror att vi kan nå 95 procents noggrannhet med mer data.
Vi använde hierarkisk klassificering med konvolutionella neurala nätverk, även om detta inte var vårt första val. Vi började initialt utforska modeller av multiklass och binära konvolutionella neurala nätverk, men resultaten var inte lovande och jag slutade nästan i frustration. Så småningom, med råd och stöd från mina kollegor, vi städade i texten, förfinade funktionsteknikprocessen och förbättrade den till 60 procent. Detta resultat var en förbättring, men vi visste att vi behövde 90-95 procent för att göra det tillräckligt pålitligt för den verkliga världen.
Efter mer forskning och utforskning, vi funderade på att minska komplexiteten i flerklassproblemet, vilket ledde till att vi skapade en toppmodern hierarkisk klassificeringsmetod för djupinlärning baserad på den hierarkiska strukturen hos onkologins ICD-O-kodningssystem. Således, vi använde en kombinerad metod för att identifiera klasshierarki och validera den med hjälp av expertkunskap för att uppnå bättre prestanda än en platt multiklassmodell för klassificering av fritextpatologirapporter.
Vårt arbete är givetvis inte klart än; vi måste nå över 95 procents noggrannhet, och vi tror att detta är möjligt med mer data, som kommer att tillhandahållas av våra partners vid National Cancer Registry. När vi väl fått detta, vi tror att Sydafrika kan vara det bästa i världen när det gäller cancerrapportering, vilket är viktigt särskilt eftersom det har rapporterats att mitt land kommer att se en 78-procentig ökning av cancer till 2030.
Den här historien återpubliceras med tillstånd av IBM Research. Läs originalberättelsen här.