Intel samarbetar med Novartis om användningen av djupa neurala nätverk (DNN) för att påskynda screening med högt innehåll – en nyckelfaktor i tidig upptäckt av läkemedel. Samarbetsteamet minskade tiden för att träna bildanalysmodeller från 11 timmar till 31 minuter – en förbättring med mer än 20 gånger.
Screening med högt innehåll av cellulära fenotyper är ett grundläggande verktyg som stödjer tidig upptäckt av läkemedel. Termen "högt innehåll" betecknar den rika uppsättningen av tusentals fördefinierade funktioner (som storlek, form, textur) som extraheras från bilder med hjälp av klassisk bildbehandlingsteknik. Screening med högt innehåll tillåter analys av mikroskopiska bilder för att studera effekterna av tusentals genetiska eller kemiska behandlingar på olika cellkulturer.
Löftet om djupinlärning är att relevanta bildegenskaper som kan skilja en behandling från en annan "automatiskt" lärs från datan. Genom att tillämpa djup neural nätverksacceleration, biologer och dataforskare vid Intel och Novartis hoppas kunna påskynda analysen av bildskärmar med högt innehåll. I detta gemensamma arbete, teamet fokuserar på hela mikroskopibilder i motsats till att använda en separat process för att identifiera varje cell i en bild först. Hela mikroskopibilder kan vara mycket större än de som vanligtvis finns i datauppsättningar för djupinlärning. Till exempel, bilderna som används i denna utvärdering är mer än 26 gånger större än bilder som vanligtvis används från den välkända ImageNet-datauppsättningen av djur, föremål och scener.
Djupa konvolutionella neurala nätverksmodeller, för att analysera mikroskopbilder, fungerar vanligtvis på miljontals pixlar per bild, miljontals parametrar i modellen och möjligen tusentals träningsbilder åt gången. Det utgör en hög beräkningsbelastning. Även med avancerade beräkningsmöjligheter på befintlig datorinfrastruktur, djupare utforskning av DNN-modeller kan vara oöverkomligt tidsmässigt.
För att lösa dessa utmaningar, samarbetet tillämpar tekniker för acceleration av djupa neurala nätverk för att bearbeta flera bilder på betydligt kortare tid samtidigt som man extraherar större insikt från bildegenskaper som modellen till slut lär sig.
Samarbetsteamet med representanter från Novartis och Intel har visat mer än 20 gånger1 förbättring i tiden för att bearbeta en datauppsättning med 10K bilder för utbildning. Genom att använda datauppsättningen Broad Bioimage Benchmark Collection 021 (BBBC-021), teamet har uppnått en total bearbetningstid på 31 minuter med över 99 procents noggrannhet.
För detta resultat, teamet använde åtta CPU-baserade servrar, en höghastighets tygförbindelse, och optimerad TensorFlow1. Genom att utnyttja den grundläggande principen för dataparallellism i djupinlärningsträning och förmågan att fullt ut utnyttja fördelarna med stöd för stort minne på serverplattformen, teamet kunde skala till mer än 120 3,9-megapixelbilder per sekund med 32 TensorFlow-arbetare.
Medan övervakade metoder för djupinlärning är väsentliga för att påskynda bildklassificeringen och påskynda tiden till insikt, metoder för djupinlärning är beroende av stora expertmärkta datamängder för att träna modellerna. Den tid och manuella ansträngning som krävs för att skapa sådana datamängder är ofta oöverkomlig. Oövervakade metoder för djupinlärning – som kan tillämpas på omärkta mikroskopibilder – lovar att avslöja nya insikter för cellbiologi och i slutändan läkemedelsupptäckt. Detta kommer att vara fokus för fortsatta ansträngningar i framtiden.