En ny maskininlärningsmodell kan lära sig att bokstaven "a" måste läggas till i slutet av ett ord för att göra den maskulina formen feminin på serbokroatiska. Till exempel blir den maskulina formen av ordet "bogat" det feminina "bogata". Kredit:Jose-Luis Olivares, MIT
Mänskliga språk är notoriskt komplexa, och lingvister har länge trott att det skulle vara omöjligt att lära en maskin hur man analyserar talljud och ordstrukturer på det sätt som mänskliga utredare gör.
Men forskare vid MIT, Cornell University och McGill University har tagit ett steg i denna riktning. De har visat ett artificiellt intelligenssystem som kan lära sig regler och mönster för mänskliga språk på egen hand.
När de ges ord och exempel på hur dessa ord ändras för att uttrycka olika grammatiska funktioner (som tid, kasus eller kön) på ett språk, kommer denna maskininlärningsmodell upp med regler som förklarar varför formerna för dessa ord ändras. Det kan till exempel lära sig att bokstaven "a" måste läggas till i slutet av ett ord för att göra den maskulina formen feminin på serbokroatiska.
Den här modellen kan också automatiskt lära sig språkmönster på högre nivå som kan tillämpas på många språk, vilket gör att den kan uppnå bättre resultat.
Forskarna tränade och testade modellen med hjälp av problem från lingvistiska läroböcker som innehöll 58 olika språk. Varje problem hade en uppsättning ord och motsvarande ordformsändringar. Modellen kunde ta fram en korrekt uppsättning regler för att beskriva dessa ordformsförändringar för 60 % av problemen.
Detta system skulle kunna användas för att studera språkhypoteser och undersöka subtila likheter i hur olika språk omvandlar ord. Det är särskilt unikt eftersom systemet upptäcker modeller som lätt kan förstås av människor, och det hämtar dessa modeller från små mängder data, till exempel några dussin ord. Och istället för att använda en massiv datauppsättning för en enda uppgift, använder systemet många små datauppsättningar, vilket är närmare hur forskare föreslår hypoteser – de tittar på flera relaterade datauppsättningar och kommer på modeller för att förklara fenomen över dessa datauppsättningar.
"En av motiven för detta arbete var vår önskan att studera system som lär sig modeller av datamängder som är representerade på ett sätt som människor kan förstå. Kan modellen lära sig uttryck eller regler istället för att lära sig vikter? Och vi ville se om vi skulle kunna bygga det här systemet så att det skulle lära sig på ett helt batteri av sammanhängande datamängder, för att få systemet att lära sig lite om hur man bättre modellerar var och en, säger Kevin Ellis, biträdande professor i datavetenskap vid Cornell University och huvudförfattare till tidningen.
Med Ellis på tidningen är MIT-fakultetens medlemmar Adam Albright, professor i lingvistik; Armando Solar-Lezama, professor och biträdande direktör för datavetenskap och artificiell intelligens Laboratory (CSAIL); och Joshua B. Tenenbaum, Paul E. Newtons karriärutvecklingsprofessor i kognitionsvetenskap och beräkningar vid institutionen för hjärn- och kognitionsvetenskap och medlem av CSAIL; samt seniorförfattaren Timothy J. O'Donnell, biträdande professor vid institutionen för lingvistik vid McGill University, och Canada CIFAR AI-ordförande vid Mila—Quebec Artificial Intelligence Institute.
Forskningen publiceras idag i Nature Communications .
Titta på språket
I sin strävan att utveckla ett AI-system som automatiskt kunde lära sig en modell från flera relaterade datauppsättningar, valde forskarna att utforska interaktionen mellan fonologi (studiet av ljudmönster) och morfologi (studiet av ordstruktur).
Data från lingvistiska läroböcker erbjöd en idealisk testbädd eftersom många språk delar kärnegenskaper, och läroboksproblem visar upp specifika språkliga fenomen. Läroboksproblem kan också lösas av studenter på ett ganska enkelt sätt, men dessa studenter har vanligtvis förkunskaper om fonologi från tidigare lektioner som de använder för att resonera kring nya problem.
Ellis, som tog sin doktorsexamen. vid MIT och rådgavs gemensamt av Tenenbaum och Solar-Lezama, lärde sig först om morfologi och fonologi i en MIT-klass undervisad av O'Donnell, som var postdoc vid den tiden, och Albright.
"Lingvister har trott att för att verkligen förstå reglerna för ett mänskligt språk, för att känna empati med vad det är som får systemet att ticka, måste man vara människa. Vi ville se om vi kan efterlikna den sortens kunskap och resonemang som människor (lingvister) tar till uppgiften", säger Albright.
För att bygga en modell som kunde lära sig en uppsättning regler för sammansättning av ord, som kallas grammatik, använde forskarna en maskininlärningsteknik som kallas Bayesian Program Learning. Med denna teknik löser modellen ett problem genom att skriva ett datorprogram.
I det här fallet är programmet den grammatik som modellen tror är den mest sannolika förklaringen av orden och betydelserna i ett språkligt problem. De byggde modellen med Sketch, en populär programsynt som utvecklades vid MIT av Solar-Lezama.
Men Sketch kan ta mycket tid att resonera kring det mest troliga programmet. För att komma runt detta lät forskarna modellen arbeta en bit i taget, skriva ett litet program för att förklara vissa data, sedan skriva ett större program som modifierar det lilla programmet för att täcka mer data, och så vidare.
De designade också modellen så att den lär sig hur "bra" program brukar se ut. Till exempel kan det lära sig några allmänna regler om enkla ryska problem som det skulle gälla för ett mer komplext problem på polska eftersom språken är lika. Detta gör det lättare för modellen att lösa det polska problemet.
Att hantera läroboksproblem
När de testade modellen med hjälp av 70 läroboksproblem kunde den hitta en grammatik som matchade hela uppsättningen ord i problemet i 60 % av fallen och korrekt matchade de flesta av ordformsförändringarna i 79 % av problemen.
Forskarna försökte också förprogrammera modellen med viss kunskap som den "borde" ha lärt sig om den gick en lingvistikkurs, och visade att den kunde lösa alla problem bättre.
"En utmaning i detta arbete var att ta reda på om det som modellen gjorde var rimligt. Det här är inte en situation där det finns ett nummer som är det enda rätta svaret. Det finns en rad möjliga lösningar som du kan acceptera som rätt, nära till höger osv", säger Albright.
Modellen kom ofta med oväntade lösningar. I ett fall upptäckte den det förväntade svaret på ett polskt språkproblem, men också ett annat korrekt svar som utnyttjade ett misstag i läroboken. Detta visar att modellen kunde "felsöka" lingvistiska analyser, säger Ellis.
Forskarna genomförde också tester som visade att modellen kunde lära sig några allmänna mallar av fonologiska regler som kunde tillämpas på alla problem.
"En av de saker som var mest överraskande är att vi kunde lära oss över språk, men det verkade inte göra någon stor skillnad", säger Ellis. "Det tyder på två saker. Kanske behöver vi bättre metoder för att lära sig över problem. Och kanske, om vi inte kan komma på de metoderna, kan det här arbetet hjälpa oss att undersöka olika idéer vi har om vilken kunskap vi ska dela över problem."
I framtiden vill forskarna använda sin modell för att hitta oväntade lösningar på problem inom andra domäner. De skulle också kunna tillämpa tekniken på fler situationer där kunskap på högre nivå kan tillämpas över sammanhängande datamängder. Till exempel kanske de skulle kunna utveckla ett system för att härleda differentialekvationer från datauppsättningar om olika objekts rörelse, säger Ellis.
"Det här arbetet visar att vi har några metoder som i viss mån kan lära sig induktiva fördomar. Men jag tror inte att vi riktigt har räknat ut, även för dessa läroboksproblem, den induktiva fördomen som låter en lingvist acceptera de rimliga grammatikerna och avvisa de löjliga," tillägger han.
"Detta arbete öppnar upp för många spännande platser för framtida forskning. Jag är särskilt fascinerad av möjligheten att tillvägagångssättet som utforskats av Ellis och kollegor (Bayesian Program Learning, BPL) kan tala om hur spädbarn förvärvar språk", säger T. Florian Jaeger, en professor i hjärn- och kognitionsvetenskap och datavetenskap vid University of Rochester, som inte var författare till denna artikel.
"Framtida arbete kan till exempel fråga sig under vilka ytterligare induktionsfördomar (antaganden om universell grammatik) BPL-metoden framgångsrikt kan uppnå mänskligt inlärningsbeteende på den typ av data som spädbarn observerar under språkinlärning. Jag tror att det skulle vara fascinerande att se oavsett om det är induktiva fördomar som är ännu mer abstrakta än de som Ellis och hans team anser – såsom fördomar som har sitt ursprung i gränserna för mänsklig informationsbehandling (t.ex. minnesbegränsningar på beroendelängd eller kapacitetsbegränsningar i mängden information som kan bearbetas per gång )—skulle vara tillräckligt för att framkalla några av de mönster som observeras i mänskliga språk." + Utforska vidare