Fig 1. Flera asynkrona GPU-strömmar av GMiner. Kredit:Daegu Gyeongbuk Institute of Science and Technology (DGIST)
En forskargrupp vid Koreas Daegu Gyeongbuk Institute of Science and Technology (DGIST) lyckades analysera big data upp till 1, 000 gånger snabbare än befintlig teknik genom att använda GPU-baserad 'GMiner'-teknik. Upptäckten av stordatamönsteranalys förväntas användas i olika branscher inklusive finans- och IT-sektorerna.
Ett internationellt team av forskare, ledd av professor Min-Soo Kim från institutionen för informations- och kommunikationsteknik utvecklade 'GMiner'-teknologi som kan analysera stora datamönster i hög hastighet. GMiner-tekniken uppvisar prestanda upp till 1, 000 gånger snabbare än världens nuvarande bästa mönsterbrytningsteknik.
Pattern mining-teknologi identifierar alla viktiga mönster som upprepas i big data från olika områden som att köpa varor på mega-marts, banktransaktioner, nätverkspaket, och sociala nätverk. Den här tekniken används i stor utsträckning i olika branscher för ändamål som att bestämma var produkterna befinner sig på megamarts hyllor eller för att rekommendera kreditkort som matchar användningsmönstren för konsumenter i olika åldrar.
Den växande betydelsen av mönsterbrytning har lett till utvecklingen av tusentals mönsterbrytningstekniker under de senaste 20 åren; dock, på grund av den ökande längden av stora datamönster, vilket ökade antalet analytiska mönster exponentiellt, befintliga gruvtekniker hindrades i sin analys av data på mer än tio gigabyte (GB) eftersom de inte lyckades slutföra sin analys på grund av otillräckligt datorminne eller tog för mycket tid.
Traditionella mönsterbrytningstekniker hittade först medellånga mönster och lagrade dem i minnet. När du söker ett mönster som är längre än medellångt, de använde en metod för att hitta slutliga mönster i jämförelse med ett medellångt mönster som tidigare hade sparats.
Fig 2. Dataflöde för GMiner med flera GPU:er. Kredit:Daegu Gyeongbuk Institute of Science and Technology (DGIST)
Dock, GMiner-teknologi som utvecklats av forskargruppen har lyckats lösa problemet med befintliga teknologier i grunden genom att föreslå anti-intuitiva tekniker som kombinerar de tillfälligt beräknade medellånga mönstren med hjälp av tusentals kärnor på grafikprocessorenheter (GPU) för att beräkna den ultimata längden av mönster.
GMiner-tekniken löste helt det kroniska problemet med otillräckligt minne som konventionell teknik lidit genom att inte lagra ett exponentiellt antal medellånga mönster i minnet. Dessutom, det löste problemet med långsam hastighet genom att strömma data från huvudminnet till GPU:n samtidigt som man letade efter mönster med hjälp av GPU:ns höga beräkningsprestanda.
GMiner-teknik visade analysprestanda som är minst 10 gånger till maximalt 1, 000 gånger snabbare än konventionell distribuerad och parallell teknik som analyserade data genom att använda upp till dussintals vanliga hemdatorer som har en enda GPU per dator; Således, den kan analysera stora data i större skala än befintlig teknik. Den visade också utmärkta expansionsprestanda som förbättrar prestandan i proportion till antalet GPU:er.
Professor Kim sa, "Vi har säkrat grundläggande teknologier som kan analysera big data-mönster i hög hastighet utan problem i minnet för big data som ackumulerats i en mängd olika branscher. Genom att lösa problem där mönsterutvinningstekniker inte tillämpades korrekt på big data på grund av brist på minne och låg hastighet, denna nya teknik kan användas för att hjälpa företag att fatta effektiva beslut genom att analysera stora datamönster inom olika sektorer inklusive finans, detaljhandeln, DEN, och biorelaterade sektorer."
Detta forskningsresultat publicerades i numret av Information Sciences den 9 maj, den mest auktoritativa internationella tidskriften inom informationsvetenskap.