Wat is Big Data?
IT-begrippen kort en helder uitgelegd. Wat is Big Data?
Big Data draait om wat de naam al aangeeft: enorme verzamelingen gegevens. De term is vooral populair bij leveranciers van opslag- en virtualisatie-gerelateerde technologieën, die in enorme datasets nieuwe mogelijkheden zien voor ondernemingen, voor IT en voor hun eigen productportfolio.
Al sinds mensenheugenis doet de mens zijn best informatie op te slaan. De opkomst van het schrift, en later de boekdrukkunst, waren doorbraken op dat gebied, maar sinds de opkomst van de digitale opslagtechnieken is het hek van de dam. Data-expert EMC rekende onlangs voor dat tegen 2020 op aarde zo'n 35 Zettabytes aan data zal zijn opgeslagen.
90% daarvan is niet gestructureerd.
Hoewel er geen eensluidende definitie van de term bestaat, draait Big Data om de vraag hoe dat soort enorme hoeveelheden gegevens nog hanteerbaar zijn te maken.
Nu probeert de IT-industrie al jaren ondernemingen enige houvast te geven in de wereld van de immer uitbreidende data. Business Intelligence bijvoorbeeld legt zich toe op het analyseren van gegevens tot informatie, en het transformeren van die informatie tot strategische kennis. Data Deduplicatie probeert de databerg te ontdoen van de onvermijdelijke versies van dezelfde bestanden die in ieder datacenter worden aangetroffen. Data Warehousing beoogt gegevens te structureren ten bate van, bijvoorbeeld, BI, et cetera.
Kansen
Al die technieken gaan uit van de ongestructureerde databerg als een probleem dat moet worden opgelost. Big Data draait het om en ziet diezelfde gegevensbrei als kans. Met name de grote opslag- en dataspecialisten (zoals EMC en IBM) zien mogelijkheden om uit de schat aan ruwe, ongestructureerde gegevens die in talloze datacentra liggen opgeslagen zinvolle strategische informatie te peuteren. In feite hebben we het dan over datamining, maar dan op ongekende schaal.
Als we de grote partijen in deze branche mogen geloven, is Big Data (samen met de cloud) het volgende onontgonnen terrein waar IT in de komende jaren zijn meerwaarde voor de business kan bewijzen. Met automatisering alleen kun je je als bedrijf tegenwoordig niet tot nauwelijks nog onderscheiden, terwijl in potentie uit Big Data enorme concurrentievoordelen zijn te halen.
Wat Big Data anders maakt dan andere dataverzamelingen, is dat het gaat om datasets die met normale tools niet meer te verwerken zijn. Denk aan de enorme hoeveelheden gegevens die wereldwijd door weerstations worden verzameld, of de gegevens die radiotelescopen verzamelen uit het heelal, of de gegevens die geheime diensten bijeenscharrelen (het verhaal gaat dat de CIA voldoende gegevens had om 9-11 te kunnen voorkomen - als iemand maar op tijd de juiste verbanden had gelegd). IBM heeft onlangs met Watson aangetoond dat computers snel beter worden in het leggen van verbanden. Tegelijkertijd is Jeopardy maar een spelletje; ook Watson is (nog) niet in staat zelfstandig betekenisvolle conclusies te trekken uit (bijvoorbeeld) alle gegevens die een provider in de loop der jaren over zijn klanten zou kunnen verzamelen.
Data Scientists
Om toch zinnige strategische informatie uit dergelijke verzamelingen te halen, is gespecialiseerd personeel nodig: de zogenaamde Data Scientists (of, in normaal Nederlands: gegevenswetenschappers). Volgens opslag- en dataspecialist EMC zijn dat mensen die, naast de gebruikelijke analytische en statistische kennis, een bijna kunstzinnig talent hebben om grote hoeveelheden gegevens gericht te doorzoeken op voor de business bruikbare informatie. (EMC erkent overigens dat het nog ontbreekt aan een duidelijke definitie van de Data Scientist, maar belooft daar in de loop van dit jaar met een nieuw te lanceren certificering meer duidelijkheid over te verschaffen).
Alles bij elkaar is Big Data een mooie naam voor weinig nieuws op grote schaal. Toch hangen er wel wat haken en ogen aan de ontwikkelingen rond Big Data, die met name door de push van de grote leveranciers op dit terrein steeds actueler worden. Er is de juridische vraag of bedrijven alle gegevens die nu op hun servers rondwaren wel mogen gebruiken voor dergelijke analyses. Er is de vraag of het ethisch gezien wel verantwoord is uitgebreide analyses te maken van bijvoorbeeld het gedrag van klanten en bezoekers. En dan is er nog de vraag in hoeverre dit soort analyses wetenschappelijk nog te verantwoorden zijn, omdat het per definitie gaat om gerichte en dus mogelijk onzuivere selecties van deelverzamelingen. Zoals EMC ons tijdens een presentatie rond dit onderwerp liet weten: "we zijn ons bewust van die dilemma's, maar we hebben er verder geen mening over". Des te meer redenen om de ontwikkelingen rond Big Data zorgvuldig in de gaten te houden.
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Facebook zit in de kleinste haarvaten...
- Kliksafe en Solcon vechten netneutral...
- NPD: bedrijven en je data (video)
- Hoge Raad overweegt downloadverbod pl...
- Service pack Avira crasht Windows-pc's
- EC houdt Microsoft in de gaten in nie...
- .nl krijgt DNSSEC breder doorgevoerd
- Apple krijgt patent op virtuele shift...
- Nieuwe functies Chrome 19 liggen acht...
- 10 tips om Android nóg beter te make...
- 'Google komt met 5 verschillende Nexu...
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Een goed cv opstellen: zo moet het
- Leidinggevenden meeste bezig met soci...
- Nederlandse bedrijven bezorgd over cl...
- E-mail minder, leef langer
- Windows 8 minder populair dan 7 destijds
- 'Goedaardige virussen nodig voor secu...
- Cloud: riskant maar toch gebruiken
- Kleine organisaties vaker doelwit ger...
- 'Huur ontwikkelaars in die deelnemen ...
- Wakker worden, uw bedrijf werkt al in...
- Zijn BYOD-werknemers productiever?



