AI kommer att tjäna till att utveckla ett nätverkskontrollsystem som inte bara upptäcker och reagerar på problem utan också kan förutsäga och undvika dem. Upphovsman:CC0 Public Domain
MIT -forskare har utvecklat ett kryptografiskt system som kan hjälpa neurala nätverk att identifiera lovande läkemedelskandidater i massiva farmakologiska datamängder, samtidigt som data hålls privata. Säker beräkning utförd i en så omfattande skala kan möjliggöra en bred sammanslagning av känsliga farmakologiska data för prediktiv upptäckt av läkemedel.
Datauppsättningar för läkemedelsmålinteraktioner (DTI), som visar om kandidatföreningar verkar på målproteiner, är avgörande för att hjälpa forskare att utveckla nya mediciner. Modeller kan utbildas för att krossa datauppsättningar av kända DTI:er och sedan, använder den informationen, hitta nya läkemedelskandidater.
Under de senaste åren har läkemedelsföretag, universitet, och andra enheter har blivit öppna för att samla farmakologiska data i större databaser som kan förbättra utbildningen av dessa modeller avsevärt. På grund av immateriella rättigheter och andra integritetsfrågor, dock, dessa datamängder förblir begränsade i omfattning. Kryptografimetoder för att säkra data är så beräknande intensiva att de inte skala bra till datamängder bortom, säga, tiotusentals DTI, som är relativt liten.
I ett papper publicerat i Vetenskap , forskare från MIT:s datavetenskap och artificiell intelligenslaboratorium (CSAIL) beskriver ett neuralt nätverk som är säkert utbildat och testat på en datamängd med mer än en miljon DTI:er. Nätverket utnyttjar moderna kryptografiska verktyg och optimeringstekniker för att hålla indata privata, medan du kör snabbt och effektivt i stor skala.
Teamets experiment visar att nätverket presterar snabbare och mer exakt än befintliga tillvägagångssätt; det kan bearbeta massiva datamängder på dagar, medan andra kryptografiska ramar skulle ta månader. Dessutom, nätverket identifierade flera nya interaktioner, inklusive en mellan leukemidroget imatinib och ett enzym ErbB4 - mutationer som har associerats med cancer - vilket kan ha klinisk betydelse.
"Människor inser att de måste samla sina data för att påskynda läkemedelsupptäcktsprocessen och möjliggöra för oss, tillsammans, att göra vetenskapliga framsteg när det gäller att lösa viktiga sjukdomar hos människor, som cancer eller diabetes. Men de har inte bra sätt att göra det, "säger motsvarande författare Bonnie Berger, Simons professor i matematik och en huvudutredare vid CSAIL. "Med detta arbete, Vi tillhandahåller ett sätt för dessa enheter att effektivt samla och analysera deras data i mycket stor skala. "
Ansluta Berger på tidningen är de första författarna Brian Hie och Hyunghoon Cho, både doktorander inom elektroteknik och datavetenskap och forskare i CSAILs beräknings- och biologigrupp.
"Hemlig delning" -data
Det nya dokumentet bygger på tidigare arbete av forskarna för att skydda patienters sekretess i genomiska studier, som hittar kopplingar mellan särskilda genetiska varianter och förekomst av sjukdom. Att genomisk data potentiellt kan avslöja personlig information, så patienter kan vara ovilliga att anmäla sig till studierna. I det arbetet, Berger, Cho, och en tidigare Stanford University Ph.D. student utvecklade ett protokoll baserat på ett kryptografiskt ramverk som kallas "hemlig delning, "som säkert och effektivt analyserar datamängder av en miljon genomer. Däremot befintliga förslag kunde endast hantera några tusen genomer.
Hemlig delning används vid beräkning av flera parter, där känslig data är uppdelad i separata "delningar" bland flera servrar. Under hela beräkningen, varje part kommer alltid att bara ha sin andel av uppgifterna, som verkar helt slumpmässigt. Kollektivt, dock, servrarna kan fortfarande kommunicera och utföra användbara operationer på underliggande privata data. I slutet av beräkningen, när ett resultat behövs, parterna kombinerar sina aktier för att avslöja resultatet.
"Vi använde vårt tidigare arbete som grund för att tillämpa hemlig delning på problemet med farmakologiskt samarbete, men det fungerade inte direkt från hyllan, Säger Berger.
En viktig innovation var att minska beräkningen som behövs vid utbildning och testning. Befintliga prediktiva modeller för upptäckt av läkemedel representerar de kemiska och proteinstrukturerna hos DTI som grafer eller matriser. Dessa tillvägagångssätt, dock, skala kvadratiskt, eller i kvadrat, med antalet DTI:er i datamängden. I grund och botten, att bearbeta dessa representationer blir extremt beräknande intensivt när storleken på datamängden växer. "Även om det kan vara bra för att arbeta med rådata, om du försöker det i säker beräkning, det är omöjligt, "Säger Hie.
Forskarna utbildade istället ett neuralt nätverk som bygger på linjära beräkningar, som skalar mycket mer effektivt med data. "Vi behövde absolut skalbarhet, eftersom vi försöker ge ett sätt att sammanföra data [till] mycket större datamängder, "Säger Cho.
Forskarna utbildade ett neuralt nätverk på STITCH -datasetet, som har 1,5 miljoner DTI, vilket gör den till den största offentligt tillgängliga datamängden i sitt slag. I träning, nätverket kodar varje läkemedelsförening och proteinstruktur som en enkel vektorrepresentation. Detta kondenserar i huvudsak de komplicerade strukturerna till 1:or och 0:or som en dator enkelt kan bearbeta. Från dessa vektorer, nätverket lär sig sedan mönstren för interaktioner och icke -interaktioner. Matade nya par av föreningar och proteinstrukturer, nätverket förutspår sedan om de kommer att interagera.
Nätverket har också en arkitektur optimerad för effektivitet och säkerhet. Varje lager i ett neuralt nätverk kräver viss aktiveringsfunktion som avgör hur informationen ska skickas till nästa lager. I deras nätverk, forskarna använde en effektiv aktiveringsfunktion som kallas en rectified linear unit (ReLU). Denna funktion kräver bara en enda, säker numerisk jämförelse av en interaktion för att avgöra om data ska skickas (1) eller inte (0) till nästa lager, samtidigt som de aldrig avslöjar något om de faktiska uppgifterna. Denna operation kan vara mer effektiv vid säker beräkning jämfört med mer komplexa funktioner, så det minskar beräkningsbördan samtidigt som datasekretessen säkerställs.
"Anledningen som är viktig är att vi vill göra detta inom den hemliga delningsramen ... och vi vill inte öka beräkningsomkostnaderna, "Berger säger. Till slut, "inga parametrar i modellen avslöjas och all inmatad data - drogerna, mål, och interaktioner - hålls privata. "
Hitta interaktioner
Forskarna ställde sitt nätverk mot flera toppmoderna, klartext (okrypterade) modeller på en del kända DTI från DrugBank, en populär dataset som innehåller cirka 2, 000 DTI. Förutom att hålla uppgifterna privata, forskarnas nätverk överträffade alla modeller i förutsägelse noggrannhet. Endast två baslinjemodeller kunde rimligen skala till STITCH -datasetet, och forskarnas modell uppnådde nästan dubbelt så exakta modeller.
Forskarna testade också läkemedelsmålpar utan listade interaktioner i STITCH, och hittade flera kliniskt etablerade läkemedelsinteraktioner som inte listades i databasen men borde vara. I tidningen, forskarna listar de bästa starkaste förutsägelserna, inklusive:droloxifen och en östrogenreceptor, som nådde fas III kliniska prövningar som behandling för bröstcancer; och seocalcitol och en vitamin D -receptor för behandling av andra cancerformer. Cho och Hie validerade oberoende de högst poängsatta nya interaktionerna via kontraktsforskningsorganisationer.
Nästa, forskarna samarbetar med partners för att etablera sin gemensamma pipeline i en verklig miljö. "Vi är intresserade av att skapa en miljö för säker beräkning, så att vi kan köra vårt säkra protokoll med riktiga data, "Säger Cho.
Denna artikel publiceras på nytt med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT -forskning, innovation och undervisning.