Aminosyran selenocystein, 3D-bollar modell. Kredit:YassineMrabet/CC BY 3.0/Wikipedia
Nästan varje grundläggande biologisk process som är nödvändig för liv utförs av proteiner. De skapar och underhåller former av celler och vävnader; utgör de enzymer som katalyserar livsuppehållande kemiska reaktioner; fungera som molekylära fabriker, transportörer och motorer; fungera som både signal och mottagare för cellulär kommunikation; och mycket mer.
Består av långa kedjor av aminosyror, proteiner utför dessa otaliga uppgifter genom att vika sig själva till exakta 3D-strukturer som styr hur de interagerar med andra molekyler. Eftersom ett proteins form avgör dess funktion och omfattningen av dess dysfunktion vid sjukdom, ansträngningar för att belysa proteinstrukturer är centrala för hela molekylärbiologin – och i synnerhet, terapeutisk vetenskap och utveckling av livräddande och livsförändrande läkemedel.
På senare år har beräkningsmetoder har gjort betydande framsteg i att förutsäga hur proteiner viker sig baserat på kunskap om deras aminosyrasekvens. Om det är fullt realiserat, dessa metoder har potential att förändra praktiskt taget alla aspekter av biomedicinsk forskning. Nuvarande tillvägagångssätt, dock, är begränsade i omfattningen och omfattningen av de proteiner som kan bestämmas.
Nu, en forskare från Harvard Medical School har använt en form av artificiell intelligens som kallas djupinlärning för att förutsäga 3D-strukturen hos vilket protein som helst baserat på dess aminosyrasekvens.
Rapportera online i Cellsystem den 17 april, Systembiologen Mohammed AlQuraishi beskriver ett nytt tillvägagångssätt för att beräkningsmässigt bestämma proteinstruktur - att uppnå en noggrannhet som är jämförbar med nuvarande toppmoderna metoder men med hastigheter uppåt en miljon gånger snabbare.
"Proteinveckning har varit ett av de viktigaste problemen för biokemister under det senaste halvseklet, och detta tillvägagångssätt representerar ett i grunden nytt sätt att tackla den utmaningen, " sa AlQuraishi, instruktör i systembiologi vid Blavatnik-institutet vid HMS och fellow i Laboratory of Systems Pharmacology. "Vi har nu en helt ny utsikt för att utforska proteinveckning, och jag tror att vi precis har börjat skrapa på ytan."
Lätt att ange
Även om mycket framgångsrik, processer som använder fysiska verktyg för att identifiera proteinstrukturer är dyra och tidskrävande, även med moderna tekniker som kryo-elektronmikroskopi. Som sådan, de allra flesta proteinstrukturer – och effekterna av sjukdomsalstrande mutationer på dessa strukturer – är fortfarande i stort sett okända.
Beräkningsmetoder som beräknar hur proteiner viker sig har potential att dramatiskt minska kostnaden och tiden som behövs för att bestämma strukturen. Men problemet är svårt och förblir olöst efter nästan fyra decennier av intensiva ansträngningar.
Proteiner byggs upp från ett bibliotek med 20 olika aminosyror. Dessa fungerar som bokstäver i ett alfabet, förenas till ord, meningar och stycken för att producera ett astronomiskt antal möjliga texter. Till skillnad från bokstäverna i alfabetet, dock, Aminosyror är fysiska objekt placerade i 3D-rymden. Ofta, sektioner av ett protein kommer att vara i nära fysisk närhet men vara åtskilda av stora avstånd vad gäller sekvens, eftersom dess aminosyrakedjor bildar loopar, spiraler, lakan och snoddar.
"Det som är övertygande med problemet är att det är ganska lätt att säga:ta en sekvens och ta reda på formen, "AlQuraishi sa. "Ett protein börjar som en ostrukturerad sträng som måste anta en 3D-form, och de möjliga uppsättningarna av former som ett snöre kan vikas till är enorma. Många proteiner är tusentals aminosyror långa, och komplexiteten överstiger snabbt kapaciteten hos mänsklig intuition eller till och med de mest kraftfulla datorerna."
Svårt att lösa
För att möta denna utmaning, forskare utnyttjar det faktum att aminosyror interagerar med varandra baserat på fysikens lagar, letar efter energiskt gynnsamma tillstånd som en boll som rullar nedför för att slå sig ner i botten av en dal.
De mest avancerade algoritmerna beräknar proteinstruktur genom att köra på superdatorer – eller crowd-sourced datorkraft i fallet med projekt som Rosetta@Home och Folding@Home – för att simulera den komplexa fysiken av aminosyrainteraktioner genom brute force. För att minska de enorma beräkningskraven, dessa projekt är beroende av att kartlägga nya sekvenser på fördefinierade mallar, som är proteinstrukturer som tidigare bestämts genom experiment.
Andra projekt som Googles AlphaFold har genererat enorm spänning på senare tid genom att använda framsteg inom artificiell intelligens för att förutsäga ett proteins struktur. Att göra så, dessa metoder analyserar enorma mängder genomisk data, som innehåller ritningen för proteinsekvenser. De letar efter sekvenser över många arter som troligen har utvecklats tillsammans, använda sådana sekvenser som indikatorer på nära fysisk närhet för att styra sammansättningen av strukturen.
Dessa AI-metoder, dock, förutsäger inte strukturer baserade enbart på ett proteins aminosyrasekvens. Således, de har begränsad effekt för proteiner som det inte finns några förkunskaper om, evolutionärt unika proteiner eller nya proteiner designade av människor.
Träning på djupet
För att utveckla ett nytt tillvägagångssätt, AlQuraishi tillämpade så kallad end-to-end differentierbar djupinlärning. Denna gren av artificiell intelligens har dramatiskt minskat den beräkningskraft och tid som behövs för att lösa problem som bild- och taligenkänning, aktivera applikationer som Apples Siri och Google Translate.
I huvudsak, differentierbart lärande innebär en enda, enorm matematisk funktion – en mycket mer sofistikerad version av en kalkylekvation från gymnasiet – arrangerad som ett neuralt nätverk, med varje komponent i nätverket matar information framåt och bakåt.
Denna funktion kan ställa in och justera sig själv, om och om igen på ofattbara nivåer av komplexitet, för att "lära sig" exakt hur en proteinsekvens matematiskt relaterar till sin struktur.
AlQuraishi utvecklade en modell för djupinlärning, kallas ett återkommande geometriskt nätverk, som fokuserar på nyckelegenskaper hos proteinveckning. Men innan den kan göra nya förutsägelser, den måste tränas med hjälp av tidigare bestämda sekvenser och strukturer.
För varje aminosyra, modellen förutsäger den mest sannolika vinkeln för de kemiska bindningar som förbinder aminosyran med dess grannar. Den förutsäger också rotationsvinkeln runt dessa bindningar, vilket påverkar hur någon lokal del av ett protein är geometriskt relaterad till hela strukturen.
Detta görs upprepade gånger, med varje beräkning informerad och förfinad av de relativa positionerna för varannan aminosyra. När hela strukturen är klar, modellen kontrollerar noggrannheten i dess förutsägelse genom att jämföra den mot proteinets "grundsannings"-struktur.
Hela denna process upprepas för tusentals kända proteiner, med modellen att lära sig och förbättra dess noggrannhet med varje iteration.
Ny utsikt
När hans modell väl utbildades, AlQuraishi testade dess prediktiva kraft. Han jämförde dess prestanda mot andra metoder från flera senaste år av Critical Assessment of Protein Structure Prediction - ett årligt experiment som testar beräkningsmetoder för deras förmåga att göra förutsägelser med hjälp av proteinstrukturer som har fastställts men inte släppts offentligt.
Han fann att den nya modellen överträffade alla andra metoder för att förutsäga proteinstrukturer för vilka det inte finns några redan existerande mallar, inklusive metoder som använder samevolutionära data. Det överträffade också alla utom de bästa metoderna när redan existerande mallar var tillgängliga för att göra förutsägelser.
Även om dessa vinster i noggrannhet är relativt små, AlQuraishi noterar att eventuella förbättringar i den övre delen av dessa tester är svåra att uppnå. Och eftersom denna metod representerar ett helt nytt tillvägagångssätt för proteinveckning, det kan komplettera befintliga metoder, både beräkningsmässigt och fysiskt, att bestämma ett mycket bredare spektrum av strukturer än vad som tidigare varit möjligt.
Slående, den nya modellen utför sina förutsägelser vid cirka sex till sju storleksordningar snabbare än befintliga beräkningsmetoder. Att träna modellen kan ta månader, men när den väl har tränats kan den göra förutsägelser i millisekunder jämfört med de timmar till dagar det tar med andra metoder. Denna dramatiska förbättring beror delvis på den enda matematiska funktionen som den är baserad på, kräver bara några tusen rader datorkod för att köras istället för miljoner.
Den snabba hastigheten på denna modells förutsägelser möjliggör nya applikationer som var långsamma eller svåra att uppnå tidigare, AlQuraishi sa, som att förutsäga hur proteiner ändrar form när de interagerar med andra molekyler.
"Djupa inlärningsmetoder, inte bara min, kommer att fortsätta att växa i sin förutsägelsekraft och i popularitet, eftersom de representerar en minimal, enkelt paradigm som kan integrera nya idéer lättare än nuvarande komplexa modeller, " han lade till.
Den nya modellen är inte omedelbart klar för användning i, säga, drog upptäckt eller design, AlQuraishi sa, eftersom dess noggrannhet för närvarande faller någonstans runt 6 ångström – fortfarande en bit bort från de 1 till 2 ångström som behövs för att lösa hela atomstrukturen hos ett protein. Men det finns många möjligheter att optimera tillvägagångssättet, han sa, inklusive ytterligare integrering av regler hämtade från kemi och fysik.
"Exakt och effektivt förutsäga proteinveckning har varit en helig gral för fältet, och det är min förhoppning och förväntan att detta tillvägagångssätt, kombinerat med alla andra anmärkningsvärda metoder som har utvecklats, kommer att kunna göra det inom en snar framtid, " sa AlQuraishi. "Vi kanske löser det här snart, och jag tror att ingen skulle ha sagt det för fem år sedan. Det är väldigt spännande och också lite chockerande på samma gång."
För att hjälpa andra att delta i metodutveckling, AlQuraishi har gjort sin mjukvara och resultat fritt tillgängliga via GitHubs mjukvarudelningsplattform.
"En anmärkningsvärd egenskap hos AlQuraishis arbete är att en enda forskare, inbäddat i det rika forskningsekosystemet vid Harvard Medical School och Bostons biomedicinska samfund, kan konkurrera med företag som Google inom ett av datavetenskapens hetaste områden, sa Peter Sorger, HMS Otto Krayer professor i systemfarmakologi vid Blavatnik-institutet vid HMS, direktör för Laboratory of Systems Pharmacology vid HMS och AlQuraishis akademiska mentor.
"Det är oklokt att underskatta den störande effekten av briljanta kollegor som AlQuraishi som arbetar med öppen källkod i det offentliga området, sa Sorger.