(Foto: Computerworld)

Den store dataeksplosion

Big data er på alles læber disse år, og markedet flyder over med
virksomheder, der kan opbevare og sikre dine data samt analysere på hver
eneste lille detalje. Træk vejret helt roligt, glem alt om hypen for et øjeblik, og gør op med jer selv, hvad der er essentielt for forretningen, lyder rådet fra lektor på IT-Universitetet. Ellers drukner man.

7. februar 2013 kl. 14.00

Af Jakob D. Lund, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Overalt i verden stiger datamængderne. Navnlig videoindhold fylder og bliver genereret af virksomheder, organisationer og private personer i et dagligt omfang, som gør det svært at forstå. Som et ekstremt eksempel sendte de amerikanske dronefly, der i sin tid fløj hen over Irak og Afghanistan i 2009, 24 års videooptagelser hjem, som derefter skulle håndteres, analyseres og opbevares.

I dagligdagen kommer der flere og flere Dropbox-lignende tjenester på markedet, ligesom videostreams og video-møder vil fortsætte med at booste datatrafikken.

Kløft mellem kapacitet og processor Buzz og hype Tre typer af dataanalyse »I den anden tilgang forsøger man at analysere data ved hjælp af klassificeringsalgoritmer, der kigger på typiske egenskaber eller egenskaber, som skiller sig ud fra mængden. Det er typisk for overvågningssystemer, hvor man kun er interesseret i det unormale og ekstreme.

Endelig kan der også være behov for at gemme alle oprindelige data. For eksempel når man arbejder med modeller for, hvor der bliver oversvømmelse næste gang, når vi oplever et skybrud. Der skal man bruge hele datamængden for at kunne lave en troværdig forudsigelse, hvilket igen kræver en særlig algoritme, der er tilpasset store datamængder,« slutter Rasmus Pagh.

I en Cisco-analyse fra 2012 vurderede man, at cloudtrafikken i verdens datacentre vil gå fra et niveau på 683 exabytes i 2011 til en seksdobling i 2016 med 4,3 zettabytes. Og at verdens datacentre i 2016 samlet set vil håndtere 6,6 zettabytes data om året. Det svarer til, at hver person på Jorden dagligt streamer cirka 2,5 timers hd-video.

Vi har med andre ord at gøre med enorme datamængder – deraf betegnelsen big data – som tvinger virksomheder til at ændre praksis – eller i mindste fald at forholde sig til data på en ny måde.

Rasmus Pagh er lektor på IT-Universitetet i København. Han er ekspert i algoritmer og datastrukturer og har en særlig viden om håndteringen af big data.

»Engang var problemet at opbevare data. Det er det ikke længere. Opbevaringen af data i dag er forholdsvis enkel, fordi lagringskapaciteten er vokset eksplosivt. Problemet i dag er at gøre noget meningsfuldt med sin data, så man ikke drukner. Det er der mange virksomheder og organisationer, der mærker som en udfordring,« siger Rasmus Pagh.

»I dag er der stort gap mellem kapaciteten til at lagre data og den tid, det tager at tilgå data. For 20 år siden tog det cirka et minut at læse al data på din harddisk. Hvis du sætter en computer til at gennemgå al data på en gennemsnitscomputer i dag, tager det samme flere timer, og det er der ingen, der har tid til at vente på. Kapaciteten til at lagre data er vokset meget hurtigere end kapaciteten til at behandle data. Og det betyder groft sagt, at der er analyser, man kunne foretage dengang, som man ikke kan foretage i dag,« fortæller Rasmus Pagh og giver et eksempel:

»Tag eksempelvis den gamle AltaVista-søgemaskine. For mange år siden var man faktisk i stand til at foretage ret avancerede søgninger, hvor man kunne instruere søgemaskinen til at vise websites, der indeholdt bestemte ord og ikke indeholdt andre ord. For eksempel ”Tiger AND NOT Woods”. I dag er datamængderne på nettet alt for store til, at man kan lave den samme søgning. På tilsvarende vis er der mange virksomheder i dag, som tidligere var i stand til at lave søgninger i deres data, som simpelthen ikke kan gøre det i dag,« siger Rasmus Pagh.

I takt med at datamængderne er vokset eksplosivt gennem årene, er flere og flere virksomheder begyndt at sælge ydelser, der relaterer sig til big data, hvad enten det handler om opbevaring af data, søgning i data, analyse i data eller sikring af data. Fra sin forskningsstol på ITU har Rasmus Pagh fulgt kommercialiseringsprocessen, og han er klar med nogle gode råd.

»Der er mange, der har interesse i at gøre big data til det nye buzzword og skabe en hype på området. Der tror jeg, det er vigtigt, at man spørger sig selv, hvad man egentlig vil med sine data. Hvad er forretningsbehovet? Der er ikke nogen tvivl om, at man kan analysere på mange forskellige ting – eksempelvis inddele besøgende på dit website i forskellige brugerprofiler for at kortlægge deres adfærd – men er det essentielt for kerneydelsen? Ikke altid. Der er dog også områder, som er parat til at blive forandret på baggrund af big data. Eksempelvis analysen af sociale netværk, hvor data, ud fra en sociologisk vinkel, kan give en bedre forståelse af, hvorfor folk opfører sig, som de gør,« forklarer Rasmus Pagh.

Rasmus Pagh arbejder meget med analysedelen af big data i forsøget på at finde mønstre og sammenhænge i datamaterialet. Mønstre og sammenhænge, som ikke nødvendigvis stod klart, da man indledte analysen. Han nævner tre forskellige tilgange til analyse af data. Den første tilgang har med reduktion af data at gøre ved hjælp af stikprøver. Den anden har med klassificering af data at gøre, hvor man kigger på data, der skiller sig ud fra mængden. Og den sidste tilgang har med opbevaringen af store datamængder at gøre, hvor man hverken tager stikprøver eller kun gemmer unikke data, men hvor man opbevarer alt.

»Grundlæggende handler det om at finde ud af, hvornår man har brug for at opbevare store eller små datamængder. De fleste mennesker har det sådan, at der er noget trygt ved at gemme alt, for så er man helt sikker på, at man altid kan grave alt frem. Men problemet er, at det kan være enormt dyrt at gemme alt, og det er heller ikke alle, der har brug det. Ofte kan man nøjes med at opsamle de data, der er relevante, og smide resten væk,« siger Rasmus Pagh og fortsætter:

»Her arbejder vi eksempelvis med en stikprøvemodel, hvor man over en længere periode kun analyserer på en lille del af den samlede datamængde. Forudsat at mønstret er hyppigt nok til at dukke op med den analysefrekvens, står man altså lige så stærkt, som hvis man havde gemt det hele. Det er en metode, der eksempelvis bruges ved meningsmålinger,« siger Rasmus Pagh.