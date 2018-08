Als het je taak is om de cloudinfrastructuur te leveren voor analyses en het uitvoeren van workloads in drie datacenters die zowat 200 kilometer uit elkaar liggen, en dagelijks 100 plus petabytes zuigen, dan is kopen van Megaleverancier X op geen enkele manier meer een geloofwaardige optie. De enige plek waar je zulke software kunt vinden is ergens in een open source repository. En precies daar ging Didi Chuxing, de Uber van China, de software zoeken.

"Geen merkgebonden software kan alle problemen van bedrijven oplossen die op de schaal van Didi werken," zei Li Luo, technisch directeur big data bij Didi. "We hebben toegang tot de broncode nodig om deze bij te werken en regelmatig bij te dragen aan veranderende behoeften. Voor bedrijven als de onze is open-sourcesoftware de juiste keuze."

Sterker nog, het is de enige keuze.

Vijf jaar geleden schreef Mike Olson, één van de oprichters van Cloudera: "In de afgelopen tien jaar is er geen dominante software-infrastructuur op platformniveau ontstaan in een gesloten, gepatenteerde vorm."

In belangrijke mate vloeit dit voort uit de realiteit van het werken op basis van het web: De financiële kosten, en al helemaal de technische kosten, van het schaalbaar maken van eigen hard- en softwaresystemen zijn gewoonweg te hoog.

Bedrijven als Google en Facebook blijven geniale creaties cadeau doen aan de open-sourcegemeenschap, waardoor innovatie sneller gaat, ver voorbij het vermogen van proprietary bedrijven om te concurreren op het gebied van data-infrastructuur. Daarom is Didi al snel afgestapt van het idee om een grote leverancier als Oracle te betalen voor schaalvergroting.

Schaal die niet voor geld te koop is

In de wereldwijde wedloop om het ruiterijbedrijf te domineren, denken mensen meestal eerst aan Uber. Maar Didi, dat nu een slordige 56 miljard dollar waard is, heeft tot nu toe meer dan 20 miljard op gehaald van investeerders, waarmee het maar 2 miljard achterloopt op Uber.

Het in China gevestigde mobiele transportplatform bedient meer dan 500 miljoen gebruikers en bereikt 80 procent van de wereldbevolking in meer dan 1000 steden. Dat is wat je noemt schaal. En wat zit er onder de motorkap van die cloud-engine? Open source.

Voordat Li en zijn team hun dataplatform opnieuw ontworpen om de exploderende werkbelasting van machine learning op te vangen, vertrouwde het bedrijf op dure, langzame ETL-tools om de gegevens in HDFS te bundelen voor het uitvoeren van Big-datatoepassingen die onder andere bestuurders aan passagiers konden koppelen. Met de nieuwe architectuur draait Didi standaard open source big-datatoepassingen zoals Apache Spark, Presto, Hive, Flink en Druid voor algemene analyses en queries. Kosten? Nul cent.

Natuurlijk betaalt de autonome technologiegigant op andere manieren. Want niets is gratis, en het open source-arsenaal van Didi mag dan wel gratis zijn, de mensen die het ontwikkelen zijn dat niet. Didi erkent dan ook dat bekwame ontwikkelaars van cruciaal belang zijn als je je wilt onderscheiden van de concurrentie. Dat lukt niet iedere onderneming, denkt Li. Maar voor bedrijven die data serieus nemen, is er eenvoudigweg geen kant-en-klare oplossing die big-data mogelijkheden biedt. Om dit te bereiken heb je ontwikkelaars nodig en zij hebben open source nodig.

Een knooppunt voor open-source-innovatie

Een open-sourceplatform dat oorspronkelijk werd ontwikkeld bij AMPLabs van UC Berkeley, Alluxio, was de brug naar het oplossen van kritieke problemen in Didi's oude ETL-oplossing. Alluxio beheert alle gegevens van de datacenters in het gedeelde geheugen, zodat opdrachten in realtime kunnen worden uitgevoerd, zonder ETL. Hiermee kunnen veel verschillende taken en toepassingen tegelijkertijd worden uitgevoerd in de gigantische gedeelde datapool.

Bovendien zijn de nieuwe toepassingen plug and play, waardoor er geen problemen meer zijn met verschillende gegevensformaten en bestandssystemen. Waar Li vroeger een enorme HDFS-cluster draaide om één namenode te krijgen, kan hij nu gedistribueerde databronnen hebben en toch één namespace hebben.

Hoe kiest Li welke open-sourceprojecten hij inzet? "Meestal hoeven we geen moeite te doen om het tempo van de innovatie bij te houden, omdat we in de projecten die we gebruiken vaak ook een van de toonaangevende contributors zijn van innovaties. We hebben nu eenmaal heel specifieke eisen", aldus Li. "We hoeven ons dus geen zorgen te maken dat open-sourceprojecten door nieuwe worden vervangen. Het is onze taak om de bedrijfsproblemen van ons bedrijf op te lossen en open source stelt ons in staat om die problemen efficiënter op te lossen. Daarom gebruiken we het.

Laat je dat goed tot je doordringen? Hoewel het bedrijf over het algemeen zelf de grenzen van innovatie verlegt, zorgt het er door het delen van deze innovatie voor dat het niet de enige maintainer ervan zal zijn. Open source geeft het bedrijf een manier om samen te werken op het gebied van innovatie en onderhoud. Dat is niet minder dan geniaal.

Zo wijst Li erop dat open source er ook voor zorgt dat Didi niet heel veel aangepaste code hoeft te schrijven en te onderhouden, terwijl het wel helpt om integratieproblemen op te lossen. Het Alluxio-project kan bijvoorbeeld gegevens van vrijwel elke bron verwerken, van HDFS en objectstores tot traditionele opslagsystemen. Voordat ze overgingen op Alluxio en nog met ETL werkten, waren er voor elke afzonderlijke toepassing veel aangepaste integraties nodig om ze op HDFS te kunnen gebruiken. Het was moeilijk om al die gegevens samen te brengen.

Het belangrijkste advies dat Li aan zijn collega's kan geven die grootschalige architecturen bouwen is om eerst echt te begrijpen wat voor probleem ze proberen op te lossen. Open source helpt hem om die beslissingen toekomstbestendig te maken. "Uiteindelijk gaat het om de verwachtingen van je klanten met betrekking tot de data", zei Li. "Vind de beste manier om aan die verwachtingen te voldoen en zorg ervoor dat je een infrastructuur hebt die gemakkelijk kan worden bijgewerkt om aan veranderende bedrijfsvereisten te voldoen."

O ja, en draag bij aan een open-sourcegemeenschap.