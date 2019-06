De grote drie knuffelprojecten van big data - Cloudera, Hortonworks en MapR - verkeren in lastigere vaarwateren. In het verleden konden ze op gigantische investeringen rekenen, zo pompte Intel ooit in één ronde 766 miljoen dollar in Cloudera. Maar de voormalige zwaargewichten hebben allemaal moeten krimpen, ofwel door fusie (Cloudera en Hortonworks) of door personeel te schrappen (MapR).

Ondertussen doen andere open source big data-leveranciers als Elastic en MongoDB het goed. Wat is er aan de hand? Natuurlijk zijn er meerdere oorzaken. Niet in de laatste plaats hebben de drie eerstgenoemde gewed op de verkeerde doelgroep, namelijk netwerkarchitecten in het datacenter, terwijl de markt meer zijn heil zocht bij developers in de cloud.

MapR werd ooit gewaardeerd op meer dan 1 miljard dollar, maar maakte onlangs bekend dat het 122 werknemers moet ontslaan (ruwweg een kwart van zijn totale personeelsbestand) inclusief de CEO John Schroeder, andere bestuurders en veel ontwikkelaars. Als er geen investeerder kan worden gevonden, wordt ook het huidige hoofdkwartier gesloten. Mocht er vrijdag nog geen investeerder gevonden zijn, ziet de toekomst van MapR er somber uit.

Maar dat is eigenlijk niets nieuws. De afgelopen twee jaar is MapR 29 procent geslonken, zo blijkt uit cijfers van LinkedIn. MapR staat daar niet alleen in. Na het samengaan met Hortonworks (schijnbaar omdat de twee niet afzonderlijk kunnen bestaan) kondigde Cloudera desastreuze omzetcijfers aan, met een verwachte lagere omzet van 69 tot 89 miljoen dollar minder dan analisten hadden gedacht. Tegelijkertijd kondigden CEO Tom Reilly samen met CSO en mede-oprichter Mike Olson hun vertrek aan. De koers daalde prompt met 40 procent.

Deze resultaten zou je misschien kunnen wegwimpelen als de lucht die uit een overgehypete big data-bubbel wordt gelaten, als andere leveranciers het niet juist heel goed doen met big data, ook nu de Hadoop'ers omvallen. MongoDB bijvoorbeeld blijft groeien in populariteit en is nu ongeveer een derde van Oracle en MySQL (als je verschillende indices bekijkt), terwijl dat vijf jaar geleden nog ongeveer een vijfde was. Deze populariteit vertaalt zich naar omzetgroei, met een recente stijging van 78 procent.

Ook heeft Elastic, het bedrijf achter gedistribueerde zoek- en analyticsengine Elasticsearch, zijn arbeidskracht verdubbeld het afgelopen jaar en zag het de omzet groeien met 70 procent in het afgelopen kwartaal. Bedrijven gebruiken Elastic voor zoekwerk in tekstuele data, bijvoorbeeld vliegveld Stansted die de tools gebruikt om bezoekers en bagage in het vliegveld te monitoren en te visualiseren met realtime analyse.

Dat was niet het verhaal dat iedereen verwachtte. Technologieën als MongoDB en Elasticsearch zouden niet Hadoop en diens nakomelingen moeten verslaan, maar dat is wel precies wat er is gebeurd. Waarom? Cloud is één antwoord, maar dat is slechts een deel van het issue. Matthew Lodge, directeur bij Anaconda schreef bijvoorbeeld dat hoewel Cloudera, Hortonworks en MapR hard vochten om zich aan hun on-prem verleden te ontworstelen, cloud-native opties van AWS, Microsoft Azure en Google Cloud "volledig geïntegreerde oplossingen hebben met lagere aanschafkosten, die goedkoper zijn te schalen". Dat viel bedrijven op en hoewel Hadoop-leveranciers zo snel als ze konden overstapten op het uitbouwen van clouddiensten, konden ze de ontwikkelsnelheid van cloudzwaargewichten niet bijhouden.

Kijkend naar andere voordelen van cloud valt op dat Hadoop, revolutionair voor zijn tijd, absurd prijzig is vergeleken met cloudalternatieven. Zoals Clint Sharp opmerkt: "De primaire use-case voor Hadoop is altijd goedkope opslag geweest. Met goedkopere [cloud]oplsag en de UX van S3+EMR en andere diensten is AWS 1000x beter." Hadoop mag dan wel een goed alternatief zijn geweest voor traditionele propriëtaire data-warehouses, maar het is lang zo goed niet als moderne aanpakken, zoals cloudgebaseerd Snowflake.

Tegelijkertijd leverde cloud andere, nieuwe manieren om met data om te gaan. Dit waren geen soortgelijke vervangingen, maar net als MongoDB en Elsticsearch losten ze wel dezelfde problemen op als Hadoop, alleen dan zonder de verlammende moeilijkheidsgraad. MongoDB's Joe Drumgoole: "Het is erg, erg moeilijk om effectieve gedistribueerde map-reduce algoritmes te schrijven." Om het nog complexer te maken brachten Hadoop-leveranciers een hoop open source add-ons uit (Impala! Pig! Hive! Flume!) voor hun Hadoop-producten, waardoor meer omslachtige 'solution-stacks' verschenen totdat niemand meer precies begrijpt wat Hadoop-bedrijven doen.

Voor sommige bedrijven loonde het de moeite om deze kosten qua tijd en aandacht uit te besteden. Maar ontwikkelaars die de opdracht kregen om "dingen voor elkaar te krijgen" kozen vaker voor alternatieven die meer rechttoe-rechtaan zijn.

De out-of-the-box gebruikerservaring van Hadoop en diens nakomelingen is niet mooi. Zet dat af tegen de gebruikerservaring van MongoDB, die door voormalig bestuurslid Kelly Stirman wordt aangehaald als belangrijk onderscheidend vermogen. Hoe dan? Tom Barber legt uit:

Met MongoDB kun je met gemakt apt install op een server uitvoeren zonder met een afschuwelijke VM te hoeven omgaan om te starten. In productie kun je het op één server draaien. Je kunt het inprikken op een hoop spullen zonder een heleboel code te hoeven schrijven. Mensen willen databases... Het is makkelijk om data in MongoDB te zetten en het is makkelijk om er data uit te halen.

TimeScale DB-CEO Ajay Kulkarni voegt daaraan toe:

Liefde voor ontwikkelaars [is er de oorzaak van dat MongoDB won van Hadoop]. Mongo richtte zich op de eerste ervaring van gebruikers. Hadoop is notoir moeilijk om in gebruik te nemen. Leveranciers hadden een goed verkooppraatje voor bedrijven, maar zonder aandacht voor devs vlakte de groei af en verdampte de markt.

Het zou te veel eer zijn om het bedienen van ontwikkelaars te noemen als enige reden dat MongoDB en Elastic het wonnen van Cloudera en MapR, maar het is wel een factor. Ontwikkelaars verwerkten daarom MongoDB in hun moderne applicaties, redeneert Jake Kaldenbaugh. Developers die MongoDB in minder kritieke applicaties verwerkten, schoven ze ook door naar bedrijfskritieke toepassingen met MongoDB om functionaliteiten toe te voegen (bijvoorbeeld multi-document transacties) om complexere use-cases mogelijk te maken zonder ze té ingewikkeld te maken.

Wat betekent dit voor de voormalige reuzen van big data? Lodge geeft de volgende grafrede:

Nadat Cloudera en Hortonworks tien jaar in het centrum hebben gestaan van het Big data-universum, is het zwaartepunt nu ergens anders komen te liggen. De leidende cloudbedrijven draaien geen grote Hadoop/Spark-clusters van Cloudera en Hortonworks - ze draaien gedistribueerde clouddatabases en -applicaties bovenop een containerinfrastructuur. Ze doen machine learning in Python, R en andere talen die niet Java zijn. Bedrijven richten zich steeds meer op een soortgelijke aanpak, omdat ze de voordelen van die snelheid en schaal willen gebruiken. Het is tijd dat de Hadoop- en Spark-wereld met hun tijd meegaan.

Dit is zowel de vloek als zege van open source innovatie van data-infrastructuur. Het gebeurt in een moordend tempo en sommige leveranciers komen daarbij om het leven.