Duizenden euro's besparen met Hadoop
De open-source natuur van Hadoop maakt het een aantrekkelijke optie voor organisaties met krappe budgetten. Wij maakten een berekening.
Veel mensen associëren het open-source raamwerk Hadoop met het beheer van werkelijk overweldigende hoeveelheden data (dit fenomeen is vooral bekend onder de noemer 'big data'). Hier is een goede reden voor: Hadoop wordt bijvoorbeeld ingezet door Yahoo en Facebook; bedrijven die onmiddellijk worden gelinkt met gigantische datasets. Zo heeft Yahoo een Hadoop-netwerk met 50.000 nodes draaien, terwijl Facebook 10.000 nodes actief heeft.
Toch is Hadoop ook geschikt voor kleinere bedrijven en hoeft het niet per se voor big data ingezet te worden. Een van de grootste voordelen van Hadoop is schaalbaarheid, zegt Arun Murthy, VP Apache Hadoop bij de Apache Software Foundation. Yahoo en Facebook zijn geweldige voorbeelden van hoe Hadoop opgeschaald kan worden, maar hetzelfde kan gezegd worden van downscaling. Door deze eigenschap kan Hadoop voor ieder bedrijf een prima BI-tool zijn, zegt Murthy.
Storage
Data-opslag was in het verleden nogal prijzig, vertelt Murthy. Nog maar enkele jaar geleden moesten bedrijven op allerlei manieren improviseren om hun groeiende datasets (e-mail, zoekresultaten, salesdata, inventaris, klantdata, etc.) via een relationeel database management systeem (RDBMS) te beheren. Dit werd soms een flink kostbare exercitie.
Organisaties probeerden op allerlei manieren kosten te drukken en gingen vaak aan de slag om de data te 'downsamplen' naar een kleiner geheel. Deze data, die Murthy 'historische data' noemt, kan automatisch worden geclassificeerd op basis van bepaalde aannames - de belangrijkste aanname is dan dat bepaalde data belangrijker is dan andere data.
Zo zou voor e-commerce data ingesteld kunnen worden dat creditcarddata belangrijker is dan productdata, die op zijn beurt weer belangrijker is dan click-through data.
Data verspreid over de organisatie
Wanneer je een businessmodel baseert op een set aan aannames, dan is het niet moeilijk om daaruit informatie te trekken waarmee beslissingen voor de business gemaakt kunnen worden. Maar de informatie zal altijd gelinkt blijven aan deze aannames; wat gebeurt er wanneer de aannames veranderen? Omdat de data downsampled is, heb je bij een nieuw businessscenario de ruwe data nodig (die je eerder hebt weggegooid) of de schone data voor verwerking. Omdat RDBMS-gebaseerde opslag duur is, zal deze onverwerkte data in verschillende silo's verspreid over de organisatie staan. Sales heeft hun data beschikbaar, marketing hun eigen data, accounting ook, etc. etc. Daarmee worden dus businses-model beslissingen beperkt tot onderdelen van de organisatie - niet als geheel.
"Met Hadoop hoef je geen aannames te doen, omdat je alle data kunt behouden", zegt Murthy. Naast het kleinere kostenplaatje (daarover zodirect meer) is het voorkomen van downsampling een van de grote voordelen van Hadoop. "Downsampling maakt de aanname dat bepaalde data groter en belangrijker is dan andere data. In Hadoop is alle data gelijk", vertelt de vice-president van Apache.
De verandering in de omgang met data is gigantisch, omdat er niet langer zoiets bestaat als historische data. Daarnaast kan data worden opgeslagen zoals het is en worden overhead managementacties als extract, transform en load operations verminderd.
Je kunt er niet omheen dat Hadoops grote voordeel de lagere kosten zijn. Omdat het gehele raamwerk open-source is onder de Apache Software-licentie, betaal je geen licentiekosten voor het basispakket.
Waarom geen Hadoop gebruiken?
Hoewel voorvechters als Murthy razend enthousiast zijn over de mogelijkheden van Hadoop-implementaties, zijn er een aantal beperkingen waarmee je rekening dient te houden wanneer je organisatie Hadoop overweegt.
Allereerst zijn er de complexe transacties en rapportages waarvoor je jouw data misschien gebruikt minder geschikt voor Hadoop dan voor RDBMS. Als je data constant wordt geüpdate en veranderd, is er genoeg reden om weg te blijven bij Hadoop.
Afhankelijk van welke Hadoop-leverancier je kiest, kun je te maken krijgen met kosten. Zo krijg je bij leverancier Cloudera Hadoop gratis, maar betaal je voor de licenties van de Cloudera-extensies. Bij Hortonworks is alle software gratis en open-source, maar verdient men aan training en ondersteuning.
Besparen met Hadoop kan gemakkelijk omdat je niet per se high-end servers nodig hebt. Iedere server die wordt verbonden met een Hadoop-netwerk werkt. Het enige wat een Hadoop-node vereist is een processor, een netwerkkaart en een paar harde schijven waardoor je al snel een factor 3 goedkoper uit bent dan met een high-end RDBMS-systeem. Dit verschilt verklaart precies waarom Hadoop de laatste tijd zoveel media-aandacht genereert.
Goed personeel kost veel geld
Maar let op, met alleen de servers ben je er nog niet. Je zult met een goed migratieplan moeten komen waarbij je gebruikmaakt van ervaren Hadoop systeembouwers en beheerders. Bedrijven die deze kennis niet in huis hebben, kunnen verwachten meer kwijt te zijn aan geschoold personeel - onafhankelijk of je nu voor een commerciële of gratis variant van Hadoop kiest. Wees gewaarschuwd: de markt voor Hadoop-engineers is zo oververhit aan het raken, dat Google en Facebook smijten met geld om gekwalificeerde ingenieurs bij hen te krijgen. Verwacht daarom niet dat je voor een prikkie de juiste mensen binnen krijgt. Maakt deze investering de goedkope hard- en software goed?
We maken een berekening. Stel dat je voor een volledig gratis variant van Hadoop kiest met 100 nodes van 4000 euro euro per stuk (die in drie jaar afgeschreven worden) en daarvoor een ingenieur aanstelt die 150.000 euro per jaar aan salaris verdient. Dan is je kostenplaatje als volgt:
Hardwarekosten per uur (over drie jaar): € 15,21
Beheerkosten per uur: € 17,11
Samengenomen zijn je operationele kosten iets meer dan 32 euro per uur voor het gehele systeem. Jaarlijks ben je er 283.320 euro aan kwijt (exclusief energie, koeling en kosten voor de ruimte).
Nu kijken we even naar een RDBMS-systeem van gelijke grote. Je kunt van Oracle een 168TB-machine kopen voor € 650.000 en daarnaast 1,68 miljoen euro betalen voor de software. Laten we zeggen dat een goed opgeleide Oracle databasebeheerder 95.000 euro verdient, dan zijn de operationele kosten als volgt:
Hardwarekosten per uur (over drie jaar): € 88,60
Beheerkosten per uur: € 10,27
Zoals je ziet compenseert de goedkopere Oracle-beheerder de duurdere hard- en software niet en ben je voor de RDBMS-oplossing € 98,87 per uur kwijt of jaarlijks € 866.694. Dat is een groot verschil en drie keer duurder dan een gelijksoortige Hadoop-implementatie, al heb ik daarbij niet de energiekosten gerekend. Houdt je daarmee rekening, dan nog is de Oracle-oplossing 1,8 keer duurder dan het gedistribueerde Hadoop-systeem.
Conclusie: flink besparen kan prima
Er zijn natuurlijk ook migratiekosten en kosten voor ondersteuning, mocht je kiezen voor een externe Hadoop-leverancier. Maar het grote verschil in kosten betekent dat bedrijven flink kunnen besparen, zelfs al moeten ze de beheerder meer gaan betalen.
Met lagere hardwarekosten en flinke voordelen voor bedrijven die meer met hun data willen doen, heeft Hadoop terecht de interesse gewekt van zowel grote bedrijven als het MKB. Meer weten over Hadoop en big data? Neem dan eens een kijkje in ons speciale dossier.
(De oorspronkelijke prijzen en kosten in dollars in dit artikel zijn voor de leesbaarheid vervangen door euro's en hoeven niet overeen te komen met werkelijke prijzen en kosten.)
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Facebook zit in de kleinste haarvaten...
- Kliksafe en Solcon vechten netneutral...
- NPD: bedrijven en je data (video)
- Hoge Raad overweegt downloadverbod pl...
- Service pack Avira crasht Windows-pc's
- EC houdt Microsoft in de gaten in nie...
- .nl krijgt DNSSEC breder doorgevoerd
- Apple krijgt patent op virtuele shift...
- Nieuwe functies Chrome 19 liggen acht...
- 10 tips om Android nóg beter te make...
- 'Google komt met 5 verschillende Nexu...
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Een goed cv opstellen: zo moet het
- Leidinggevenden meeste bezig met soci...
- Nederlandse bedrijven bezorgd over cl...
- E-mail minder, leef langer
- Windows 8 minder populair dan 7 destijds
- 'Goedaardige virussen nodig voor secu...
- Cloud: riskant maar toch gebruiken
- Kleine organisaties vaker doelwit ger...
- 'Huur ontwikkelaars in die deelnemen ...
- Wakker worden, uw bedrijf werkt al in...
- Zijn BYOD-werknemers productiever?



