Lågdimensionell enhetlig grenrörsapproximationsprojektion för att visualisera hur neurala nätverk lär sig semantiska likheter med naturliga bilder. Kredit:Joshua Agar/Lehigh University
Att förstå relationer mellan struktur och egendom är ett nyckelmål för materialforskning, enligt Joshua Agar, en fakultetsmedlem vid Lehigh Universitys institution för materialvetenskap och teknik. Och ändå finns det för närvarande inget mått för att förstå strukturen hos material på grund av strukturens komplexitet och flerdimensionella natur.
Artificiellt nervsystem, en typ av maskininlärning, kan tränas i att identifiera likheter – och till och med korrelera parametrar som struktur och egenskaper – men det finns två stora utmaningar, säger Agar. En är att majoriteten av de stora mängder data som genereras av materialförsök aldrig analyseras. Detta beror till stor del på att sådana bilder, produceras av forskare i laboratorier över hela världen, lagras sällan på ett användbart sätt och delas vanligtvis inte med andra forskargrupper. Den andra utmaningen är att neurala nätverk inte är särskilt effektiva för att lära sig symmetri och periodicitet (hur periodisk ett material struktur är), två egenskaper av yttersta vikt för materialforskare.
Nu, ett team under ledning av Lehigh University har utvecklat en ny maskininlärningsmetod som kan skapa likhetsprojektioner via maskininlärning, gör det möjligt för forskare att för första gången söka i en ostrukturerad bilddatabas och identifiera trender. Agar och hans medarbetare utvecklade och tränade en neural nätverksmodell för att inkludera symmetrimedvetna funktioner och tillämpade sedan sin metod på en uppsättning av 25, 133 piezoresponskraftmikroskopbilder samlade på olika materialsystem under fem år vid University of California, Berkeley. Resultaten:de kunde gruppera liknande materialklasser och observera trender, utgör en grund för att börja förstå struktur-egenskapsrelationer.
"En av nyheterna i vårt arbete är att vi byggde ett speciellt neuralt nätverk för att förstå symmetri och vi använder det som en funktionsextraktor för att göra det mycket bättre på att förstå bilder, säger Agar, en huvudförfattare till artikeln där arbetet beskrivs:"Symmetri-medveten rekursiv bildlikhet Exploration for Material Microscopy, " publiceras idag i npj Beräkningsmaterial . Förutom agar, författare inkluderar, från Lehigh University:Tri N.M. Nguyen, Yichen Guo, Shuyu Qin och Kylie S. Frew och, från Stanford University:Ruijuan Xu. Nguyen, en huvudförfattare, var en grundutbildning vid Lehigh University och håller nu på med en doktorsexamen. på Stanford.
Teamet kunde komma fram till prognoser genom att använda Uniform Manifold Approximation and Projection (UMAP), en icke-linjär dimensionsreduktionsteknik. Detta tillvägagångssätt, säger Agar, låter forskare lära sig "...på ett luddigt sätt, topologin och data på högre nivå och komprimera den till 2D. "
"Om du tränar ett neuralt nätverk, resultatet är en vektor, eller en uppsättning siffror som är en kompakt beskrivning av funktionerna. Dessa funktioner hjälper till att klassificera saker så att vissa likheter lärs in, " säger Agar. "Det som produceras är fortfarande ganska stort i rymden, fastän, eftersom du kan ha 512 eller fler olika funktioner. Så, då vill du komprimera det till ett utrymme som en människa kan förstå som 2D, eller 3D—eller, kanske , 4D."
Genom att göra det här, Agar och hans team kunde ta de 25, 000 plus-bilder och gruppera mycket liknande klasser av material tillsammans.
"Liknande typer av strukturer i material ligger semantiskt nära varandra och även vissa trender kan observeras särskilt om du använder vissa metadatafilter, " säger Agar. "Om du börjar filtrera efter vem som gjorde deponeringen, vem gjorde materialet, vad försökte de göra, vad är materialsystemet... man kan verkligen börja förfina och få mer och mer likhet. Denna likhet kan sedan kopplas till andra parametrar som egenskaper. "
Lågdimensionell enhetlig grenrörsapproximationsprojektion som visar symmetrimedveten bildlikhet från en databas med mer än 25, 000 piezoresponse kraftmikroskopi bilder. Kredit:Joshua Agar/Lehigh University
Detta arbete visar hur förbättrad datalagring och hantering snabbt kan påskynda materialupptäckten. Enligt Agar, av särskilt värde är bilder och data som genererats av misslyckade experiment.
"Ingen publicerar misslyckade resultat och det är en stor förlust för sedan några år senare upprepar någon samma rad experiment, " säger Agar. "Så, du slösar riktigt bra resurser på ett experiment som sannolikt inte kommer att fungera."
Istället för att förlora all information, data som redan har samlats in kan användas för att generera nya trender som inte har setts tidigare och påskynda exponentiellt, säger Agar.
Denna studie är det första "användningsfallet" av ett innovativt nytt datalagringsföretag inrymt vid Oak Ridge National Laboratory som heter DataFed. DataFed, enligt sin webbplats är "...en federerad, stordatalagring, samarbete, och ledningssystem för hela livscykeln för beräkningsvetenskap och/eller dataanalys inom distribuerade högpresterande datorer (HPC) och/eller molnberäkningsmiljöer."
"Mitt team på Lehigh har varit en del av designen och utvecklingen av DataFed när det gäller att göra det relevant för vetenskapliga användningsfall, " säger Agar. "Lehigh är den första liveimplementeringen av detta fullt skalbara system. Det är en federerad databas så att vem som helst kan öppna sin egen server och vara bunden till den centrala anläggningen."
Agar är maskininlärningsexpert på Lehigh Universitys Presidential Nano-Human Interface Initiative-team. Det tvärvetenskapliga initiativet, integrera samhällsvetenskap och teknik, strävar efter att förändra människors sätt att interagera med instrument för vetenskaplig upptäckt för att påskynda innovationer.
"Ett av huvudmålen med Lehighs Nano/Human Interface Initiative är att ge experimentalister relevant information till hands för att tillhandahålla handlingskraftig information som möjliggör mer informerat beslutsfattande och påskyndar vetenskaplig upptäckt, " säger Agar. "Människor har begränsad kapacitet för minne och minne. DataFed är ett modernt Memex; det ger ett minne av vetenskaplig information som lätt kan hittas och återkallas. "
DataFed tillhandahåller ett särskilt kraftfullt och ovärderligt verktyg för forskare som är engagerade i tvärvetenskaplig teamvetenskap, låta forskare som samarbetar i teamprojekt på olika/avlägsna platser få tillgång till varandras rådata. Detta är en av nyckelkomponenterna i vårt Lehigh Presidential Nano/Human Interface (NHI) initiativ för att påskynda vetenskaplig upptäckt, " säger Martin P. Harmer, Alcoa Foundation -professor vid Lehighs institution för materialvetenskap och teknik och chef för Nano/Human Interface Initiative.