Berkeley Lab -forskare fann att textbrytning av materialvetenskapliga abstrakt kan ge upphov till nya termoelektriska material. Upphovsman:Berkeley Lab
Säker, datorer kan användas för att spela schack på stormästernivå (schackdator), men kan de göra vetenskapliga upptäckter? Forskare vid US Department of Energy's Lawrence Berkeley National Laboratory (Berkeley Lab) har visat att en algoritm utan utbildning i materialvetenskap kan skanna texten i miljontals papper och avslöja ny vetenskaplig kunskap.
Ett team under ledning av Anubhav Jain, en forskare i Berkeley Labs division för energilagring och distribuerade resurser, samlade 3,3 miljoner abstrakt av publicerade materialvetenskapliga artiklar och matade in dem i en algoritm som heter Word2vec. Genom att analysera samband mellan ord kunde algoritmen förutse upptäckter av nya termoelektriska material år i förväg och föreslå ännu okända material som kandidater för termoelektriska material.
"Utan att berätta något om materialvetenskap, den lärde sig begrepp som det periodiska systemet och kristallstrukturen hos metaller, "sa Jain." Det antydde teknikens potential. Men förmodligen det mest intressanta vi kom på är, du kan använda denna algoritm för att åtgärda luckor i materialforskning, saker som människor borde studera men inte har studerat hittills. "
Resultaten publicerades den 3 juli i tidningen Natur . Studiens huvudförfattare, "Oövervakad ordinbäddning fångar latent kunskap från materialvetenskaplig litteratur, "är Vahe Tshitoyan, en postdoktor i Berkeley Lab som nu arbetar på Google. Tillsammans med Jain, Berkeley Lab -forskarna Kristin Persson och Gerbrand Ceder hjälpte till att leda studien.
"Tidningen konstaterar att textbrytning av vetenskaplig litteratur kan avslöja dold kunskap, och att ren textbaserad extraktion kan fastställa grundläggande vetenskaplig kunskap, "sade Ceder, som också har en tid vid UC Berkeleys institution för materialvetenskap och teknik.
Tshitoyan sa att projektet motiverades av svårigheten att förstå den överväldigande mängden publicerade studier. "Inom varje forskningsområde finns det 100 år av tidigare forskningslitteratur, och varje vecka kommer dussintals fler studier ut, "sa han." En forskare har endast tillgång till en bråkdel av det. Vi trodde, kan maskininlärning göra något för att utnyttja all denna kollektiva kunskap på ett oövervakat sätt - utan att behöva vägledning från mänskliga forskare? "
'Kung - drottning + man =?'
Teamet samlade de 3,3 miljoner abstrakten från papper publicerade i mer än 1, 000 tidskrifter mellan 1922 och 2018. Word2vec tog var och en av de cirka 500, 000 olika ord i dessa abstrakt och förvandlade var och en till en 200-dimensionell vektor, eller en grupp med 200 nummer.
"Det viktiga är inte varje nummer, men använder siffrorna för att se hur ord är relaterade till varandra, "sa Jain, som leder en grupp som arbetar med upptäckt och design av nya material för energitillämpningar med hjälp av en blandning av teori, beräkning, och datamining. "Till exempel kan du subtrahera vektorer med hjälp av standardvektormatematik. Andra forskare har visat att om du tränar algoritmen på icke -vetenskapliga textkällor och tar vektorn som är resultatet av" king minus queen, 'du får samma resultat som' man minus kvinna '. Det räknar ut förhållandet utan att du säger något till det. "
Liknande, när den är utbildad i materialvetenskaplig text, algoritmen kunde lära sig betydelsen av vetenskapliga termer och begrepp som kristallstrukturen för metaller helt enkelt baserat på ordenas positioner i abstraktet och deras förekomst med andra ord. Till exempel, precis som det kunde lösa ekvationen "kung - drottning + man, "det kan räkna ut att för ekvationen" ferromagnetisk - NiFe + IrMn "skulle svaret vara" antiferromagnetiskt ".
Mendelejevs periodiska system är till höger. Word2vecs representation av elementen, projiceras på två dimensioner, är till vänster. Upphovsman:Berkeley Lab
Word2vec kunde till och med lära sig sambandet mellan element i det periodiska systemet när vektorn för varje kemiskt element projicerades på två dimensioner.
Förutspår upptäckter år i förväg
Så om Word2vec är så smart, kan den förutsäga nya termoelektriska material? Ett bra termoelektriskt material kan effektivt omvandla värme till el och är tillverkat av säkra material, rikligt och lätt att producera.
Berkeley Lab -teamet tog de bästa termoelektriska kandidaterna som algoritmen föreslog, som rankade varje förening efter dess ordvektors likhet med ordet "termoelektrisk". Sedan körde de beräkningar för att verifiera algoritmens förutsägelser.
Av de 10 bästa förutsägelserna, de fann att alla hade beräknade effektfaktorer något högre än genomsnittet för känd termoelektrisk; de tre bästa kandidaterna hade effektfaktorer över 95:e percentilen av känd termoelektrisk.
Därefter testade de om algoritmen kunde utföra experiment "tidigare" genom att ge den abstrakt bara upp till, säga, år 2000. Återigen, av de bästa förutsägelserna, ett betydande antal dök upp i senare studier - fyra gånger mer än om material hade valts slumpmässigt. Till exempel, tre av de fem bästa förutsägelserna som tränats med data fram till år 2008 har sedan dess upptäckts och de återstående två innehåller sällsynta eller giftiga element.
Resultaten var överraskande. "Jag trodde ärligt talat inte att algoritmen skulle vara så förutsägbar för framtida resultat, "Jain sa." Jag hade trott att algoritmen kanske kunde vara beskrivande för vad folk hade gjort tidigare men inte komma på dessa olika kopplingar. Jag blev ganska förvånad när jag såg inte bara förutsägelserna utan också resonemanget bakom förutsägelserna, saker som halva Heusler-strukturen, som är en riktigt het kristallstruktur för termoelektriska dessa dagar. "
Han tillade:"Denna studie visar att om denna algoritm fanns på plats tidigare, Vissa material kunde ha kunnat upptäckas år i förväg. "Tillsammans med studien släpper forskarna de 50 bästa termoelektriska materialen som algoritmen förutsäger. De kommer också att släppa ordet inbäddningar som behövs för att människor ska kunna göra egna applikationer om de vill att söka på, säga, ett bättre topologiskt isoleringsmaterial.
Strax, Jain sa att laget arbetar på ett smartare, kraftfullare sökmotor, låta forskare söka abstrakt på ett mer användbart sätt.
Studien finansierades av Toyota Research Institute. Andra medförfattare till studien är Berkeley Lab-forskarna John Dagdelen, Leigh Weston, Alexander Dunn, och Ziqin Rong, och UC Berkeley -forskaren Olga Kononova.