En applikation för artificiell intelligens används av KAUST-forskaren för att hitta gener som orsakar sjukdomar. Upphovsman:Kiyoshi Takahase Segundo / Alamy Stock Photo
Artificiell intelligens (AI) utnyttjas av forskare för att spåra gener som orsakar sjukdomar. Ett KAUST-team tar en kreativ, kombinerad djupinlärningsmetod som använder data från flera källor för att lära algoritmer hur man hittar mönster mellan gener och sjukdomar.
Maskininlärning använder algoritmer och statistiska modeller för att identifiera mönster och associationer mellan data för att lösa specifika problem. Genom att mata in tillräckligt med känd data, gilla taggade bilder av "Jack, " Systemet kan så småningom lära sig att föreslå andra icke-taggade bilder som inkluderar Jack.
Forskare använder denna tillämpning av AI för att hitta gener som orsakar sjukdomar. Dock, endast ett begränsat antal gener har experimentellt bekräftats vara orsakande. Detta innebär att forskare inte har mycket data att mata in i sina program för att hjälpa dem att lära sig mönstren som visar gen-sjukdomsassociationer. Således, de måste vara kreativa för att hitta sätt att lära maskininlärningsalgoritmer att lära sig och sedan leta efter dessa mönster.
Databas- och informationshanteringsspecialist Panagiotis Kalnis, Beräkningsbioforskaren Xin Gao och kollegor har utvecklat en modell för djupinlärning som de säger överträffar nuvarande toppmoderna metoder.
Först, de tog till kända databaser för att extrahera information om genplatser och funktioner och om hur och när de slås på och av. Dessa data användes för att lära algoritmer för att hitta gener som fungerar tillsammans. Sedan, de fick data om egenskaperna hos genetiska sjukdomar från andra databaser. Detta lärde algoritmerna hur man identifierar sjukdomar med liknande manifestationer. De kombinerade dessa datamängder med data om de kända associationerna mellan 12, 231 gener och 3, 209 sjukdomar.
KAUST -modellen extraherar de mönster som lärt sig från hur gener nätverkar och om likheterna mellan genetiska sjukdomar och överför dem till en djupinlärningsmodell som kallas ett grafkonvolutionsnätverk. Detta levererar ytterligare en uppsättning data som placeras i matriser, som de som används i rekommendationssystem, för att förutsäga samband mellan gen och sjukdomar.
Modellen kunde identifiera komplexa, olinjära samband mellan gener och sjukdomar, så att den kan fortsätta att förutsäga nya associationer. "Genom att använda mer information, vi uppnådde bättre noggrannhet än de toppmoderna metoder som för närvarande används, " säger Peng Han, den första författaren till studien. "Men, även om vi överträffade andra metoder i våra experiment, det är fortfarande inte tillräckligt korrekt för att tillämpas på industrin, " han lägger till.
Teamet planerar sedan att förbättra sin modells noggrannhet genom att införliva fler typer av data. De kommer också att tillämpa metoden för att lösa andra typer av problem där endast begränsad data finns tillgänglig, som att rekommendera nya platser att besöka baserat på en användares tidigare preferenser.