Forskare från ISI och USC Dornsife skapar en ny plattform för att standardisera paleoklimatologiska data. Kredit:Cassidy Joyes CC-BY-SA-4.0
Ibland kan de mest orelaterade sakerna ge de mest innovativa resultaten. Ta, till exempel, aikido - en japansk kampsport som kan översättas som "sättet att förena energi" - och paleoklimatologi, ett vetenskapligt område som undersöker klimatutvecklingen.
Julien Emile-Geay, en docent vid institutionen för geovetenskaper vid USC Dornsife College of Letters, Konst och vetenskap, fick en direkt smak av detta 2011 när jag bodde hos en vän på ett aikidoläger i San Francisco. Hans vän utvecklade semantiska databaser för biomedicinsk data och Emile-Geay fann att detta tillvägagångssätt också kunde fungera för extremt idiosynkratiska data som samlats in av paleoklimatologer.
Efter ett otroligt möte 2012 med Yolanda Gil, chef för Knowledge Technologies vid USC:s Information Sciences Institute (ISI) och en forskningsprofessor vid USC Viterbis avdelning för datavetenskap, forskarna skapade ett förslag för att integrera Gils AI-expertis med Emile-Geays geovetenskapliga bakgrund, utveckla en ny plattform som ger paleoklimatologer ett sätt att förena de olika datauppsättningarna av paleoklimatdata, aikido stil.
Tillsammans med Emile-Geay, paleoklimatologigruppen inkluderar Deborah Khider, en postdoc vid USC:s institution för geovetenskaper och ISI-dataforskare, och Nicholas McKay, docent vid School of Earth Sciences and Environmental Sustainability vid North Arizona University. På AI-sidan, Gil samarbetade med Daniel Garijo och Varun Ratnakar, datavetare och forskningsprogrammerare vid ISI, respektive. Teamen arbetade för att skapa ett nytt tillvägagångssätt för att standardisera paleoklimatologiska data så att jordforskare bättre kan förutsäga framtida klimat för att förstå orsakerna och effekterna av klimatförändringar.
Deras forskning var en artikel i American Geophysicist's Union (AGU) Paleoceanografi och paleoklimatologi tidskrift och uppmärksammades på AGU Centennial-konferensen, hölls 9-13 december i San Francisco.
The Lone Wranglers
Paleoklimatologi är studiet av klimathistoria, med forskare som använder avtryck och indikatorer för att rekonstruera tidigare klimat. Dessa indikatorer är vanligtvis fysiska prover som samlats in från naturliga källor, såsom glaciäriskärnor, träd ringar, skal, grottavlagringar, och sjö- och havsediment. Efter att ha integrerat de resulterande olika datamängderna, forskare kan rekonstruera klimatvariabler, som temperaturer och nederbördsnivåer. Genom att återskapa tidigare klimat, Jordforskare kan förutsäga framtida klimat.
Exempel på omröstningar på (a) LinkedEarth-plattformen och (b) Twitter (@Linked_Earth). Kreditera: Paleoceanografi och paleoklimatologi
Dock, ironiskt, en stor fråga med disciplinen ligger i en av dess styrkor:mångfalden av datauppsättningar. Medan de olika datamängderna hjälper till att skapa komplicerade modellsimuleringar för att hjälpa forskare att förstå klimatutvecklingen, Egenskaperna för varje dataset kan vara svåra att integrera.
Jordforskare har sina egna tillvägagångssätt, processer, och datainsamling och kodningsmetoder som kanske inte alltid är komplementära eller intuitiva, och omvandla data till ett användbart format för forskning och analys, eller "databråk, " kan vara en besvärlig uppgift. Vissa forskare kan spendera upp till 80 % av sin tid på att tjafsa om data, som att identifiera extremvärden och saknade värden eller leta efter spridda poster i flera databaser. Behovet av standardisering på området var tydligt. "Livet utan normer är eländigt!" sa Emile-Geay. "Föreställ dig att du behöver en annan typ av plugg för varje enskilt föremål i ditt hus - det är för närvarande tillståndet för paleoklimatdata, tvingar personer i tidiga karriärer som vill integrera sina data att spendera månader av sitt liv på att uppfinna hjulet på nytt varje gång de gör något." Speciellt eftersom finansieringen blir knappare, Emile-Geay noterade, detta datatvistande är i grunden ett slöseri med tid. "Vi var trötta på det och ville rädda framtida generationer från att slösa bort sina doktorshjärnor på det sättet."
Ett sociotekniskt förhållningssätt
För att ta itu med dessa problem, paleoklimatologi- och AI-teamen utvecklade en ny plattform. Denna nya plattform är en del av NSF:s LinkedEarth-projekt (finansierat av EarthCube), och är baserad på en "kontrollerad crowdsourcing"-metod, där publiken (dvs. paleoklimatologiexperterna som använder systemet) kan utveckla termer, eller fastigheter, att koda sina data, som sedan görs tillgängliga omedelbart för andra användare. Genom att skapa nya egenskaper, användare kan välja lämpliga termer för att definiera datamängden de arbetar med.
Processen styrs genom att en utvald grupp användare som representerar ett brett spektrum av paleoklimatologiska fält upprättar en redaktion, som granskar förfrågningar om nya eller ändrade fastigheter och avgör om användarnas förslag ska införlivas i Paleoclimate Community Reporting Standard, eller PACTS. Alla beslut som fattas angående PaCTS involverar bidrag från paleoklimatologiforskare, gör det transparent, inkluderande och i god tro gemenskapsinsatser.
Systemet implementerar AI för att hjälpa till att skapa länkar mellan data och göra dem mer tillgängliga. "AI-teknikerna som vi använder är semantiska teknologier som tillåter oss att representera vetenskaplig kunskap, " förklarade Gil. "Vi konstruerar också vad vi kallar "Linked Earth-kunskapsgrafen" som uttrycker kopplingar mellan datamängder, forskare, platser, publikationer, etc." Hon noterade att, dessutom, användare kan ställa "sofistikerade frågor i ontologi- och kunskapsdiagrammet för att enkelt komma åt data de är intresserade av."
Plattformen beskrivs som ett sociotekniskt system. Tillsammans med alla tekniska aspekter, tillvägagångssättet har starka sociala aspekter, eftersom värdet av plattformen är beroende av informationsdelning. Ett viktigt incitament för användare är att de får erkännande för allt de bidrar med till plattformen, som spåras och visas på deras profilsidor. Dessutom, de kan ladda upp metadataspecifikationer och befintliga datauppsättningar i flera standardformat, gör det lättare att bidra till, tillgång, och förena data.
Exempel på en enkätfråga för en ny datamängd. Histogrammet representerar antalet röster på varje plattform (orange:LinkedEarth, lila:Twitter, och grönt:Google-undersökning). Cirkeldiagrammet representerar bråkdelen av rösterna för väsentliga (gröna), rekommenderas (rosa), och önskad (blå). Kreditera: Paleoceanografi och paleoklimatologi
Sätta standarden
Att utveckla plattformen var ingen promenad i parken. Khider förklarade, "En av utmaningarna var att ta fram ramverket för standarden, " som består av tre element:datarepresentation, ordförråd och rapporteringskrav. "Den andra [utmaningen] var att engagera samhället, " fortsatte hon. "Vi vill alla ha standarder för att främja vetenskapen, men ingen vill egentligen prata om dem." En annan fråga var att ta reda på var och hur man ska börja. Som Khider noterade, "I slutet, vi beslutade att standarden skulle återspegla behoven hos en specifik gemenskap för att göra den mest rigorösa och spännande vetenskapen."
Det fanns också hinder ur ett AI-perspektiv. "Den största utmaningen är att vetenskaplig kunskap alltid utvecklas, så att forskare utvecklar en bättre förståelse av data och deras modeller, de kan ändra hur de vill att data ska beskrivas och organiseras i Linked Earth-plattformen, ", sa Gil. "[Vi behövde] anpassa utvecklingen av ontologierna och kunskapsgrafen utan att förlora det arbete som användarna hade gjort på plattformen med hjälp av tidigare versioner av den kunskapen."
Men det hårda arbetet gav resultat. Inte överraskande, Plattformen har fått positiv feedback från paleoklimatet. Från och med 2019, den kontrollerade crowdsourcing-wikin har 692 datamängder, med 150 registrerade användare och över 50 bidragsgivare. Fler än 14, 000 sidor har skapats, eftersom paleoklimatologi- och AI-teamen fortsätter sitt arbete med att förbättra plattformen och få fler användare att engagera sig.
Erkännandet från AGU kom efter att projektet genomförts. "Redaktionen kl Paleoceanografi och paleoklimatologi var avgörande för att få detta projekt synligt inom samhället genom att välja manuskriptet till deras Grand Challenges-serie, " Khider påpekade. "Att ha utgivare som driver på standarder hjälper till med samhällsengagemang för den andra versionen av standarden, eftersom de ser intresse för den här typen av arbete."
Plattformen kan även appliceras på andra områden. "Vi använder [plattformen] nu för att beskriva neurovetenskapliga data i ett NIH-finansierat projekt som vi har med ENIGMA-samarbetet, " sa Gil. "En ny aspekt av den här domänen är att varje datauppsättning beskriver data för en kohort av människor som ingår i en studie, och innehåller en samling observationer och inte bara en viss."
Dessutom, PaCTS är bara en tredjedel av standardiseringsprocessen, eftersom det står för rapporteringskraven. Standardisering av datarepresentation och terminologi avslutar processen. Det senare innebär ordförråd och tillhörande stavning, Khider noterade, eftersom de flesta av databaserna innehåller identiska begrepp skrivna på olika sätt, vilket kan göra det svårt att söka efter en viss datauppsättning. "Det mest uppenbara nästa steget är att bygga ett bibliotek med exemplariska anteckningsböcker som visar hur dessa standarder och kod hjälper till att lösa vanliga forskningsproblem inom paleoklimatologi, och hur de öppnar dörren till nya undersökningar, " sa Emile-Geay. "Det är nu dags att få dessa standarder att fungera för [vetenskapsmän]."