(L-R) Fuad Jamour, Panos Kalnis och Yanzhao Chen bygger system och algoritmer för att bearbeta och analysera mycket stora datamängder. Kredit:2019 KAUST
För att lösa ett av de viktigaste hindren inom big-data-vetenskap, KAUST-forskare har skapat ett ramverk för att söka i mycket stora datamängder som går lätt på olika datorarkitekturer. Deras prestation gör det möjligt för forskare att koncentrera sig på att utveckla sökmotorn, eller frågemotor, sig själv snarare än att noggrant koda för specifika datorplattformar.
Big data är en av de mest lovande men ändå utmanande aspekterna av dagens informationstunga värld. Medan de enorma och ständigt växande uppsättningarna av information, såsom onlineinsamlad data eller genetisk information, kan ha kraftfulla insikter för vetenskap och mänsklighet, Bearbetning och förhör av alla dessa data kräver mycket sofistikerade tekniker.
Många olika tillvägagångssätt för att söka efter big data har undersökts. Men en av de mest kraftfulla och beräkningseffektiva är baserad på att analysera data med en subjekt-predikat-objekt-trippellagringsstruktur av formuläret (t.ex. äpple, är en, frukt). Denna struktur lämpar sig för att behandlas som en graf med kanter och hörn, och denna egenskap har använts för att koda frågemotorer för specifika datorarkitekturer för maximal effektivitet. Dock, sådana arkitekturspecifika tillvägagångssätt kan inte lätt porteras till olika plattformar, begränsa möjligheterna till innovation och framsteg inom analys.
"Moderna datorsystem tillhandahåller olika plattformar och acceleratorer, och att programmera dem kan vara skrämmande och tidskrävande, säger Fuad Jamour och Yanzhao Chen, Ph.D. kandidater i Panos Kalnis grupp i KAUSTs Extreme Computing Research Center. "Vår forskargrupp fokuserar på att bygga system och algoritmer för att bearbeta och analysera mycket stora datamängder. Den här forskningen tar upp önskan att skriva ett program en gång och sedan använda det på olika plattformar."
Istället för de tidigare använda metoderna för genomgång av grafer eller uttömmande relationsindexering, gruppen frågade triplestore-data genom att använda en tillämpad matematisk metod som kallas sparse-matrix algebra.
"Vår artikel beskriver den första forskningsgraffrågemotorn med matrisalgebra i kärnan för att ta itu med frågan om portabilitet, " säger Jamour. "De flesta befintliga graffrågemotorer är designade för enstaka datorer eller små distribuerade minnessystem. Och porta befintliga motorer till stora distribuerade minnessystem, som superdatorer, innebär betydande ingenjörsinsatser. Vårt gles-matris algebraschema kan användas för att bygga skalbara, bärbara och effektiva graffrågemotorer."
Teamets experiment med storskaliga verkliga och syntetiska datauppsättningar uppnådde prestanda jämförbar med, eller bättre än, befintliga specialiserade metoder för komplexa frågor. Deras system har också kapacitet att skala upp till mycket stora datorinfrastrukturer som hanterar datauppsättningar på upp till 512 miljarder trippel.
"Dessa idéer kan underlätta att bygga analyskomponenter i grafdatabaser med banbrytande prestanda, som för närvarande är mycket efterfrågad, säger Chen.