• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  •  science >> Vetenskap >  >> Kemi
    Modellen lär sig hur individuella aminosyror bestämmer proteinfunktionen

    En ny modell utvecklad av MIT-forskare skapar rikare, mer lätträknade representationer av hur individuella aminosyror bestämmer ett proteins funktion, som skulle kunna användas för att designa och testa nya proteiner. Kredit:Massachusetts Institute of Technology

    En maskininlärningsmodell från MIT-forskare bryter beräkningsmässigt ner hur segment av aminosyrakedjor bestämmer ett proteins funktion, vilket skulle kunna hjälpa forskare att designa och testa nya proteiner för läkemedelsutveckling eller biologisk forskning.

    Proteiner är linjära kedjor av aminosyror, sammankopplade med peptidbindningar, som viker sig till ytterst komplexa tredimensionella strukturer, beroende på sekvensen och fysiska interaktioner inom kedjan. Den strukturen, i tur och ordning, bestämmer proteinets biologiska funktion. Att känna till ett proteins 3D-struktur, därför, är värdefullt för, säga, förutsäga hur proteiner kan reagera på vissa läkemedel.

    Dock, trots decennier av forskning och utveckling av flera bildtekniker, vi känner bara till en mycket liten del av möjliga proteinstrukturer – tiotusentals av miljoner. Forskare börjar använda maskininlärningsmodeller för att förutsäga proteinstrukturer baserat på deras aminosyrasekvenser, som skulle kunna möjliggöra upptäckten av nya proteinstrukturer. Men det här är utmanande, eftersom olika aminosyrasekvenser kan bilda mycket liknande strukturer. Och det finns inte många strukturer att träna modellerna på.

    I ett dokument som presenterades vid den internationella konferensen om läranderepresentationer i maj, MIT-forskarna utvecklar en metod för att "lära sig" lättberäknade representationer av varje aminosyraposition i en proteinsekvens, initialt med hjälp av 3D-proteinstruktur som en träningsguide. Forskare kan sedan använda dessa representationer som indata som hjälper maskininlärningsmodeller att förutsäga funktionerna hos enskilda aminosyrasegment – ​​utan att någonsin behöva någon data om proteinets struktur.

    I framtiden, modellen skulle kunna användas för förbättrad proteinteknik, genom att ge forskare en chans att bättre nolla in och modifiera specifika aminosyrasegment. Modellen kan till och med styra forskare bort från förutsägelse av proteinstruktur helt och hållet.

    "Jag vill marginalisera struktur, " säger första författaren Tristan Bepler, en doktorand i gruppen Computation and Biology i Computer Science and Artificial Intelligence Laboratory (CSAIL). "Vi vill veta vad proteiner gör, och att känna till struktur är viktigt för det. Men kan vi förutsäga funktionen hos ett protein endast med tanke på dess aminosyrasekvens? Motivationen är att gå bort från specifikt förutsägande strukturer, och gå mot [att hitta] hur aminosyrasekvenser relaterar till funktion."

    Medförfattaren Bonnie Berger ansluter sig till Bepler, Simons professor i matematik vid MIT med en gemensam fakultetstjänst vid institutionen för elektroteknik och datavetenskap, och chef för gruppen Computation and Biology.

    Att lära av struktur

    Istället för att förutsäga struktur direkt - som traditionella modeller försöker - kodade forskarna förutspådd proteinstrukturinformation direkt i representationer. Att göra så, de använder kända strukturella likheter mellan proteiner för att övervaka sin modell, eftersom modellen lär sig funktionerna hos specifika aminosyror.

    De tränade sin modell omkring 22, 000 proteiner från databasen Structural Classification of Proteins (SCOP), som innehåller tusentals proteiner organiserade i klasser efter likheter mellan strukturer och aminosyrasekvenser. För varje par proteiner, de beräknade ett verkligt likhetspoäng, menar hur nära de är i struktur, baserat på deras SCOP-klass.

    Forskarna matade sedan sin modell med slumpmässiga par av proteinstrukturer och deras aminosyrasekvenser, som konverterades till numeriska representationer som kallas inbäddningar av en kodare. I naturlig språkbehandling, inbäddningar är i huvudsak tabeller med flera hundra siffror kombinerade på ett sätt som motsvarar en bokstav eller ett ord i en mening. Ju mer lika två inbäddningar är, desto mer sannolikt kommer bokstäverna eller orden att visas tillsammans i en mening.

    I forskarnas arbete har varje inbäddning i paret innehåller information om hur lika varje aminosyrasekvens är den andra. Modellen anpassar de två inbäddningarna och beräknar ett likhetspoäng för att sedan förutsäga hur lika deras 3D-strukturer kommer att vara. Sedan, modellen jämför dess förutsagda likhetspoäng med det verkliga SCOP-likhetspoängen för deras struktur, och skickar en återkopplingssignal till kodaren.

    Samtidigt, modellen förutspår en "kontaktkarta" för varje inbäddning, som i princip säger hur långt borta varje aminosyra är från alla andra i proteinets förutspådda 3D-struktur - i huvudsak, tar de kontakt eller inte? Modellen jämför också sin förutsagda kontaktkarta med den kända kontaktkartan från SCOP, och skickar en återkopplingssignal till kodaren. Detta hjälper modellen att bättre lära sig var exakt aminosyror faller i ett proteins struktur, vilket ytterligare uppdaterar varje aminosyras funktion.

    I grund och botten, forskarna tränar sin modell genom att be den förutsäga om parade sekvensinbäddningar kommer eller inte kommer att dela en liknande SCOP-proteinstruktur. Om modellens förutsagda poäng är nära den verkliga poängen, den vet att den är på rätt väg; om inte, den anpassar sig.

    Protein design

    I slutet, för en inmatad aminosyrakedja, modellen kommer att producera en numerisk representation, eller inbäddning, för varje aminosyraposition i en 3D-struktur. Maskininlärningsmodeller kan sedan använda dessa sekvensinbäddningar för att exakt förutsäga varje aminosyras funktion baserat på dess förutspådda 3D-strukturella "kontext" - dess position och kontakt med andra aminosyror.

    Till exempel, forskarna använde modellen för att förutsäga vilka segment, om någon, passera genom cellmembranet. Givet endast en aminosyrasekvens, forskarnas modell förutspådde alla transmembrana och icke-transmembrana segment mer exakt än state-of-the-art modeller.

    "Arbetet av Bepler och Berger är ett betydande framsteg när det gäller att representera de lokala strukturella egenskaperna hos en proteinsekvens, " säger Serafim Batzoglou, professor i datavetenskap vid Stanford University. "Representationen lärs in med hjälp av state-of-the-art metoder för djupinlärning, som har gjort stora framsteg i förutsägelse av proteinstruktur i system som RaptorX och AlphaFold. Detta arbete har ultimat tillämpning inom människors hälsa och farmakogenomik, eftersom det underlättar upptäckt av skadliga mutationer som stör proteinstrukturer."

    Nästa, forskarna strävar efter att tillämpa modellen på fler prediktionsuppgifter, som att ta reda på vilka sekvenssegment som binder till små molekyler, som är avgörande för läkemedelsutveckling. De arbetar också med att använda modellen för proteindesign. Genom att använda deras sekvensinbäddningar, de kan förutsäga, säga, vid vilka färgvåglängder kommer ett protein att fluorescera.

    "Vår modell tillåter oss att överföra information från kända proteinstrukturer till sekvenser med okänd struktur. Genom att använda våra inbäddningar som funktioner, vi kan bättre förutsäga funktion och möjliggöra mer effektiv datadriven proteindesign, " säger Bepler. "På hög nivå, den typen av proteinteknik är målet."

    Berger tillägger:"Våra maskininlärningsmodeller gör det möjligt för oss att lära oss "språket" för proteinveckning - ett av de ursprungliga problemen med "Heliga Graal" - från ett relativt litet antal kända strukturer."

    Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com