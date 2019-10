"Het tijdperk van data breekt nu pas aan", zegt Splunk-CEO Doug Merritt op conferentie .conf19 in Las Vegas deze week. Een opvallende uitspraak, omdat er er al zoveel data is in de wereld: de hoeveelheid van alle ooit gecreëerde data ter wereld is al een jaar of 15 elke twee jaar opnieuw dubbel zo groot als de totale data die de mensheid in heel zijn bestaan produceerde. Voor 2025 voorspelt IDC bijvoorbeeld dat we wereldwijd met 175 zettabyte aan data zitten te werken.

Heel veel data

Hoeveel dat is? Een zettabyte is 1024 exabyte, wat weer 1024 petabyte is, de eerste unit die de meeste mensen tegenwoordig zich een beetje kunnen voorstellen. (Een petabyte is dan weer 1024 terabyte.) We hebben het dus over 127 biljoen gigabyte als we spreken over 175 zettabyte. Dat zijn getallen waar je je geen voorstelling meer van kan maken. Want wat is dat precies?

Er zijn vergelijkingen van stapels BluRays tientallen keren van de Aarde naar de maan, maar dat maakt het er, voor mij in elk geval, niet echt duidelijker op. Of dat je als je al deze gegevens wilt parkeren op de grootst beschikbare schijven die we tegenwoordig hebben, je er 12,5 miljoen nodig hebt. Maar ook dat blijft abstract. Of dat 5 exabyte (een fractie van die 175 ZB) neerkomt op alle woorden die ooit door de mensheid zijn uitgesproken. Ook abstract natuurlijk. Toch komen al deze vergelijkingen op hetzelfde neer: het gaat om verduiveld veel gegevens.

Volgens cijfers van IDC zorgt IoT voor 90 van die 175 ZB aan data in 2025 en 30 procent van die enorme hoeveelheid gegevens wordt realtime geconsumeerd. Dat zijn krankzinnige datapunten, maar het is een tijdperk waar we niet zo gek ver meer vanaf zitten. Het onderzoeksbureau brengt de datagroei al tijden in kaart en tussen 2005 en 2015 nam de groei exponentieel toe: van 130 exabyte in 2005, naar 281 het jaar daarop, naar 7,9 zettabyte in 2015. In dat jaar extrapoleerde IDC naar 2020 een hoeveelheid van 44 ZB en inmiddels dus 175 ZB in 2025. De EMEA-regio alleen al zit in dat jaar op 48 ZB, ongeveer evenveel data als er volgend jaar in de totale wereld bestaat.

Rijdende sensorfabrieken

Dus hoezo breekt het datatijdperk nu pas aan? Het zou evident moeten zijn dat we ons al tijden in het midden van een enorme data-explosie bevinden. Maar wat interessant is in de recentste cijfers van IDC, is waar de groei tussen nu en 2025 grotendeels vandaan komt. Die 90 ZB komt van een groot geheel aan verbonden apparaten, IoT, die samen goed zijn voor 4900 interacties per persoon per dag. Dat komt erop neer dat een gemiddelde Aardbewoner elke 18 seconden een data-interactie uitvoert. Dat is het tijdperk van data waar Merritt op doelt.

Dat zijn dus niet alleen calls naar databases van applicaties die we nu veel zien - je ING, je Facebook, je Uber, je wat-dan-ook - maar interacties met sensoren. De scheidslijn tussen de fysieke en digitale wereld vervaagt met smart cities, industriële IoT, automotive, ML/AI en meer van dat soort buzzwords. Bovendien levert het bij elkaar komen van deze twee domeinen een feedbackloop op: de fysieke wereld levert met bijvoorbeeld sensorinformatie digitale gegevens op en vervolgens wordt er in de fysieke wereld weer gehandeld op basis van deze data, wat nieuwe data oplevert, nieuwe acties, nieuwe data enzovoorts, enzovoorts.

Zo presenteerde Porsche over de elektrische auto Taycan, waarbij Splunk wordt gebruikt om realtime in kaart te brengen hoe de oplaadinfrastructuur functioneert en waar dient te worden bijgebouwd op basis van behoefte. Elke Porsche Taycan is een rijdende sensorfabriek die collectief een hoop inzicht leveren aan de autofabrikant over het gebruik, waardoor knelpunten en onderhoudsprioriteiten kunnen worden gedefinieerd.

Operaties op ongestructureerde data

Maar een enorme hoeveelheid data betekent ook een enorme hoeveelheid verschillende datastores, met verschillende formaten, talen, types, protocollen en wat dies meer zij. Verschillende leveranciers bieden daarom haken naar zoveel mogelijk verschillende datastores, terwijl andere kijken naar het integreren van alles in nóg een nieuwe datastore en weer andere proberen alles naar een specifieke (cloud)locatie te pompen. Splunks aanpak probeert daar los van te komen, zodat het niet meer uitmaakt waar en hoe je gegevens parkeert, maar dat je er hoe dan ook operaties op kunt uitvoeren.

"We moeten maar eens af van het geloof dat silo's slecht zijn", vindt Merritt. "Het is tijd dat we daar voorbij stappen. Innovatie gebeurt gedistribueerd en hoe ga je al die componenten naar de cloud brengen? Je kunt niet alle bronnen naar een datalake brengen, sommige data blijft intern. Dus het wordt tijd dat we naar een andere aanpak kijken, waarin silo's kunnen blijven bestaan, terwijl we ze gedistribueerd inzetten", zo zegt hij iets later in gesprek met journalisten.

Met zo'n aanpak maakt het niet meer uit welke technologie du jour in 2023 de IT-sector domineert, want het gaat niet meer om het integreren van data naar een nieuwe bron voor het voeren van een holistisch databeleid, of om het herformatteren van gegevens zodat ze passen in je beleid of om het kiezen tussen cloud, on-prem of hybride. Splunk kun je namelijk zien als een tool om te kijken naar data, ongeacht waar gegevens staan geparkeerd en in welke vorm. Splunks tools vormen eigenlijk geen databron, maar een indexer en zoekmachine om al je datastores te kunnen onderzoeken.

Broker tussen datastores

Als je het zo bekijkt is het niet zo verwonderlijk dat Splunk verkondigt dat disparate datastores er niet toe doen, want dat is voor dit bedrijf ook niet zo. De tool is ontstaan vanuit een noodzaak om data voor IT-beveiliging te monitoren - netwerkpakketjes, logfiles, et cetera - en het bedrijf ontwikkelde daarom een tool om gegevens te kunnen inzien zonder dat ze op een bepaalde manier ingevoerd hoefden te worden of in een bepaald dataformaat moesten worden gegoten.

Een aanpak waarbij je alles naar nóg een datastore giet is onwenselijk als je realtime je assets wilt kunnen monitoren, dus Splunk Enterprise is meer een externe tool die boven de data staat, waarbij je met query's connecties maakt op een high-level niveau. De softwareproducten die het bedrijf biedt, kun je dus zien als een broker tussen al deze databronnen.

De core van Splunks aanbod is nog steeds waar het allemaal mee begon: SIEM. Op .conf19 presenteert bijvoorbeeld de volledige online bank Japan Net Bank over het gebruik van Splunk voor security analyse. Het doel is niet het aggregeren van alle logs om ongeautoriseerde toegang vervolgens te detecteren, maar om realtime overzicht te houden van alle gegevens, of ze nu van de Active Directory (2,5 GB per dag), de NG-firewall (2 GB per dag) of servers van Akamai (9 GB per dag) komen. Splunk groeide uit die wens om al van dit soort loggegevens inzichtelijk te maken bij ontwikkelaars van Yahoo die vijftien jaar geleden met dit probleem worstelden, zo legt Rick Fitz van het bedrijf uit in gesprek met Computerworld.

Van SIEM naar breed OT-platform

"Dat begon met logdata die was voorzien van een timestamp en de software keek dan vervolgens wat het event was dat ontwikkelaars eigenlijk logden", vertelt Fitz. "Dat bevat het gedrag van het systeem en de interacties van mensen daarmee en dat werd al heel snel een rijke bron aan informatie voor IT'ers." Het platform dat vervolgens uit dat SIEM-concept werd opgebouwd, Splunk Enterprise, draaide erom dat data op deze manier op grote schaal kon worden geïndexeerd. Je kunt zoveel ongestructureerde gegevens niet in een RDBMS gieten, dus je hebt een andere aanpak nodig om met disparate gegevensbronnen om te gaan.

"Splunk indexeert data op basis van de bron: waar komt het vandaan, welke host maakte de record aan en wanneer gebeurde dat?" Op die index van de ongestructureerde data kan een gebruiker query's uitvoeren en rapportages aanmaken. De gegevens worden op dat moment genormaliseerd voor de eindgebruiker.

Maar die agnostische data-aanpak van een SIEM was veel breder inzetbaar dan enkel security, zo ontdekten zowel klanten als Splunk zelf. De software wordt dan ook steeds breder ingezet. Op de bijeenkomst met journalisten wijst CEO Merritt op een luchtvaartmaatschappij die de uitgebreidere tooling van Splunk nu inzet om allerlei databronnen beter te ontsluiten, zodat onder meer checklists van piloten, gegevens luchtverkeersleiding en data van andere operationele techniek allemaal realtime in te zien zijn door het personeel. De maatschappij gebruikt nu tientallen Splunk-dashboards die allemaal volgens dat principe opereren: gebruik gegevens waar ze zich ook maar bevinden en in welke vorm ze ook maar bestaan.

Toekomst van Splunk

Zulke Business Intelligence is waarschijnlijk de toekomst van het bedrijf. Nu is de core nog vooral SIEM, maar Merritt legt uit dat als je daarbij blijft en die verder verfijnt, je aan relevantie inboet en uiteindelijk verdwijnt in een overname door een andere techpartij. Splunk wil juist verder groeien buiten de beveiligingswereld als datagrootgrutter voor alle IT en OT en lijkt met de stappen die het de afgelopen jaren zette aardig die richting op te bewegen.