Ett team av forskare vid MIT, University of Massachusetts i Amherst, och University of California i Berkeley hoppas kunna sluta gapet mellan materialvetenskap och automatisering, med ett nytt artificiell intelligenssystem som skulle gå igenom forskningsartiklar för att härleda "recept" för att producera speciella material. Kredit:Chelsea Turner/MIT
På senare år har forskningsinsatser som Materials Genome Initiative och Materials Project har tagit fram en mängd beräkningsverktyg för att designa nya material som är användbara för en rad applikationer, från energi och elektronik till flygteknik och anläggningsteknik.
Men att utveckla processer för att producera dessa material har fortsatt att bero på en kombination av erfarenhet, intuition, och manuella litteraturgenomgångar.
Ett team av forskare vid MIT, University of Massachusetts at Amherst, och University of California i Berkeley hoppas kunna täppa till det materialvetenskapliga automationsgapet, med ett nytt artificiell intelligenssystem som skulle gå igenom forskningsartiklar för att härleda "recept" för att producera speciella material.
"Beräkningsmaterialforskare har gjort stora framsteg i "vad" de ska göra - vilket material som ska designas baserat på önskade egenskaper, säger Elsa Olivetti, Atlantic Richfield biträdande professor i energistudier vid MIT:s institution för materialvetenskap och teknik (DMSE). "Men på grund av den framgången, flaskhalsen har flyttats till, 'Okej, hur gör jag nu?'"
Forskarna föreställer sig en databas som innehåller materialrecept utvunna från miljontals tidningar. Forskare och ingenjörer kan ange namnet på ett målmaterial och andra kriterier – prekursormaterial, reaktionsbetingelser, tillverkningsprocesser – och ta fram förslag på recept.
Som ett steg mot att förverkliga den visionen, Olivetti och hennes kollegor har utvecklat ett maskininlärningssystem som kan analysera en forskningsartikel, utläsa vilka av dess stycken som innehåller materialrecept, och klassificera orden i dessa stycken enligt deras roller i recepten:namn på målmaterial, numeriska mängder, namnen på utrustningsdelar, driftsförhållanden, beskrivande adjektiv, och liknande.
I en tidning i det senaste numret av tidskriften Materialkemi , de visar också att ett maskininlärningssystem kan analysera extraherade data för att sluta sig till allmänna egenskaper hos materialklasser – såsom de olika temperaturområden som deras syntes kräver – eller särskilda egenskaper hos enskilda material – såsom de olika fysiska former de kommer att ha. när deras tillverkningsförhållanden varierar.
Olivetti är senior författare på tidningen, och hon får sällskap av Edward Kim, en MIT doktorand i DMSE; Kevin Huang, en DMSE postdoc; Adam Saunders och Andrew McCallum, datavetare vid UMass Amherst; och Gerbrand Ceder, en kanslersprofessor vid institutionen för materialvetenskap och teknik i Berkeley.
Fyller i luckorna
Forskarna utbildade sitt system med en kombination av övervakade och oövervakade maskininlärningstekniker. "Övervakad" betyder att träningsdata som matas till systemet först kommenteras av människor; systemet försöker hitta korrelationer mellan rådata och kommentarer. "Ej övervakad" betyder att utbildningsdata är oannoterade, och systemet lär sig istället att klustera data enligt strukturella likheter.
Eftersom materialreceptextraktion är ett nytt forskningsområde, Olivetti och hennes kollegor hade inte lyxen av stora, kommenterade datamängder som samlats under åren av olika team av forskare. Istället, de var tvungna att kommentera sina uppgifter själva - i slutändan ca 100 papper.
Enligt maskininlärningsstandarder, det är en ganska liten datamängd. För att förbättra det, de använde en algoritm utvecklad på Google som heter Word2vec. Word2vec tittar på de sammanhang där ord förekommer – ordens syntaktiska roller i meningar och de andra orden runt dem – och grupperar ord som tenderar att ha liknande sammanhang. Så, till exempel, om ett papper innehöll meningen "Vi värmde titantetracholoriden till 500 C, " och en annan innehöll meningen "Natriumhydroxiden värmdes till 500 C, " Word2vec skulle gruppera "titanium tetracholoride" och "natriumhydroxid" tillsammans.
Med Word2vec, forskarna kunde kraftigt utöka sin utbildning, eftersom maskininlärningssystemet kan dra slutsatsen att en etikett som är fäst vid ett visst ord sannolikt gäller för andra ord som samlas med det. Istället för 100 papper, forskarna kunde alltså träna sitt system på cirka 640, 000 papper.
Toppen av isberget
För att testa systemets noggrannhet, dock, de var tvungna att lita på de märkta uppgifterna, eftersom de inte hade något kriterium för att utvärdera dess prestanda på omärkta data. I dessa tester, Systemet kunde med 99 procents noggrannhet identifiera styckena som innehöll recept och märka med 86 procents noggrannhet orden i dessa stycken.
Forskarna hoppas att ytterligare arbete kommer att förbättra systemets noggrannhet, och i pågående arbete undersöker de ett batteri av tekniker för djupinlärning som kan göra ytterligare generaliseringar om strukturen hos materialrecept, med målet att automatiskt ta fram recept för material som inte beaktas i den befintliga litteraturen.
Mycket av Olivettis tidigare forskning har koncentrerats på att hitta mer kostnadseffektiva och miljömässigt ansvarsfulla sätt att producera användbara material, och hon hoppas att en databas med materialrecept kan bidra till det projektet.
"Det här är ett landmärkearbete, säger Ram Seshadri, Fred och Linda R. Wudl professor i materialvetenskap vid University of California i Santa Barbara. "Författarna har antagit den svåra och ambitiösa utmaningen att fånga, genom AI-metoder, strategier som används för framställning av nya material. Arbetet visar kraften i maskininlärning, men det skulle vara korrekt att säga att den slutliga domaren av framgång eller misslyckande skulle kräva övertygande utövare om att användbarheten av sådana metoder kan göra det möjligt för dem att överge sina mer instinktuella tillvägagångssätt.
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.