Till skillnad från specialbyggda datalagringssystem, en datasjö kan användas för att dumpa data i sin ursprungliga form. Dessa data förblir vanligtvis utan tillsyn. Upphovsman:Shutterstock.com
Maskiner och internet vävs in i vårt samhälles struktur. Ett växande antal användare, enheter och applikationer samarbetar för att producera det vi nu kallar "big data". Och denna data hjälper till att driva många av de vardagliga tjänster vi får tillgång till, som bank.
En jämförelse av internet -ögonblicksbilder från 2018 och 2019 belyser den ökande hastigheten med vilken digital information utbyts dagligen. Utmaningen med att säkert fånga och lagra data blir allt mer komplicerad med tiden.
Det är här datalager och datasjöar är relevanta. Båda är onlinelokaler som används av företag för intern databehandling och lagring.
Tyvärr, eftersom begreppet datasjöar har sitt ursprung 2010, inte tillräckligt har gjorts för att ta itu med frågor om cybersäkerhet.
Dessa värdefulla arkiv förblir utsatta för ett ökande antal cyberattacker och dataintrång.
Ett föreslaget universalmedel för stora dataproblem
Den traditionella metoden som används av tjänsteleverantörer är att lagra data i ett "datalager" - ett enda förråd som kan användas för att analysera data, skapa rapporter, och konsolidera information.
Dock, data som går in i ett lager måste förbehandlas. Med zettabyte med data i cyberrymden, det här är ingen lätt uppgift. Förbehandling kräver en rejäl mängd beräkning som görs av avancerade superdatorer, och kostar tid och pengar.
Datasjöar föreslogs för att lösa detta. Till skillnad från lager, de kan lagra rådata av vilken typ som helst. Datasjöar anses ofta vara ett universalmedel för stora dataproblem, och har omfamnats av många organisationer som försöker driva innovation och nya tjänster för användare.
James Dixon, den amerikanska datatekniker som påstått myntade termen, beskriver datasjöar sålunda:"Om du tänker på en datamart som ett lager av vatten på flaska - rengjort och förpackat och strukturerat för enkel konsumtion - är datasjön en stor vattenmassa i ett mer naturligt tillstånd. Innehållet i datasjöströmmen in från en källa för att fylla sjön, och olika användare av sjön kan komma för att undersöka, dyka i, eller ta prover. "
Var försiktig med att simma i en datasjö
Även om datasjöar skapar möjligheter för datakrasare, deras digitala dörrar förblir obevakade, och att lösa cybersäkerhetsfrågor är fortfarande en eftertanke.
Vår förmåga att analysera och extrahera intelligens från datasjöar hotas inom cyber space. Detta framgår av det stora antalet senaste dataintrång och cyberattacker världen över.
Med tekniska framsteg, vi blir ännu mer benägna att cyberattacker. Att konfrontera skadlig cyberaktivitet bör vara en prioritet i det nuvarande digitala klimatet.
Medan forskning om detta har blomstrat under de senaste åren, en stark koppling mellan effektiv cybersäkerhet och datasjöar återstår.
Inte ovanligt att äventyras
På grund av framsteg inom skadlig programvara, specifikt vid skadlig programvara, Det är lätt för hackare att dölja ett farligt virus i en ofarlig fil.
Falska datainjektionsattacker har ökat under det senaste decenniet.
Attacken sker när en cyberkriminell utnyttjar fritt tillgängliga verktyg för att kompromissa med ett system som är anslutet till internet, att injicera den med falska uppgifter.
Utländska data som injiceras får obehörig åtkomst till datasjön och manipulerar lagrad data för att vilseleda användare. Det finns många potentiella motivatorer bakom en sådan attack.
Komponenter i datasjöar
Data lake -arkitektur kan delas in i tre komponenter:dataintag, datalagring och dataanalys.
Dataintag avser data som kommer in i sjön från en mängd olika källor. Detta händer vanligtvis utan någon legitim säkerhetspolicy. När inkommande data inte kontrolleras för säkerhetshot, ett gyllene tillfälle ges för cyberbrottslingar att injicera falska uppgifter.
Den andra komponenten är datalagring, det är där alla rådata dumpas. På nytt, detta sker utan några betydande cybersäkerhetshänsyn.
Den viktigaste komponenten i datasjöar är dataanalys, som kombinerar analytikernas expertis, forskare och datatjänstemän. Syftet med dataanalys är att designa och utveckla modelleringsalgoritmer som kan använda rådata för att skapa meningsfulla insikter.
Till exempel, dataanalys är hur Netflix lär sig om sina prenumerants visningsvanor.
Utmaningar framöver för dataexperter
Den minsta ändringen eller manipulationen i datasjöar kan enormt vilseleda datakrasare och få stor inverkan.
Till exempel, komprometterade datasjöar har enorma konsekvenser för vården, eftersom varje avvikelse i data kan leda till en felaktig diagnos, eller till och med offer.
Också, myndigheter som använder komprometterade datasjöar kan möta kaos i internationella frågor och handelssituationer. Försvaret, finansiera, förvaltnings- och utbildningssektorerna är också sårbara för attacker på datasjön.
Med tanke på mängden data som lagras i datasjöar, konsekvenserna av cyberattacker är långt ifrån triviala.
Och eftersom det är oundvikligt att generera enorma mängder data i dagens värld, Det är av avgörande betydelse att data lake-arkitekter försöker hårdare se till att dessa riskdata depoter är korrekt omhändertagna.
Denna artikel publiceras från The Conversation under en Creative Commons -licens. Läs originalartikeln.