Aan de wieg van Hadoop
Het Hadoop framework is een open source oplossing om grote hoeveelheden ongestructureerde data op te slaan en te verwerken. Een gesprek met Doug Cutting, de geestelijk vader.
Het open source Hadoop framework staat op dit moment volop in de belangstelling. Hadoop stelt ondernemingen in staat petabytes aan ongestructureerde data op te slaan en te analyseren. Het framework is inmiddels in gebruik bij een groot aantal partijen die werken met forse hoeveelheden gegevens, zoals Yahoo, Facebook, LinkedIn en eBay, maar ook Rackspace, Amazon.com, Microsoft en IBM.
Doug Cutting stond aan de wieg van Hadoop - hij noemde het raamwerk naar de speelgoedolifant van zijn zoontje. Onder zijn leiding werd voor Yahoo een van 's werelds grootste Hadoop-clusters gebouwd. Hij heeft een geschiedenis bij Excite, Apple en Xerox PARC, en ontwikkelde behalve Hadoop ook Lucene en Nutch, twee succesvolle open source zoekmachinetechnologieën die nu, net als Hadoop, beheerd worden door de Apache Foundation.
Inmiddels is Cutting als architect in dienst bij Cloudera, waar een commerciële versie van Hadoop wordt verkocht en ondersteund. Computerworld spraken hem over de groeiende belangstelling voor Hadoop.
Hoe zou je Hadoop zelf introduceren bij een CIO of CFO? Waarom is het interessant voor een onderneming?
Als je het heel simpel wilt houden: het is een oplossing die je tegen geringe kosten in staat stelt vele malen grotere hoeveelheden data op te slaan en te verwerken dan je ooit hebt gedaan. Als je meer data tot je beschikking hebt, en je hebt de mogelijkheid die hoeveelheid ook te verwerken, dan zie je meer, leer je meer en kun je uiteindelijk ook meer doen. Met Hadoop kun je allerlei soorten analyses uitvoeren die voorheen praktisch onmogelijk waren. Je kunt bijvoorbeeld op zoek naar patronen in datasets die vele jaren beslaan, of verschillende seizoenen, of grote groepen gebruikers met allerlei verschillende achtergronden. Die hoeveelheid data maakt het plots mogelijk op basis van de patronen die je ontdekt voorspellingen te doen, aan de hand waarvan je bijvoorbeeld je prijsstelling bepaalt, of hoe, waar en wanneer je het beste kunt adverteren. Je hebt niet alleen data over langere perioden tot je beschikking, maar ook meer en complexere data over kleinere perioden.
Wat zijn 'Hive' en 'Pig' precies?
Hive geeft je de mogelijkheid query's uit te voeren op data die is opgeslagen in Hadoop. Veel mensen zijn gewend aan SQL, en voor die mensen en voor sommige toepassingen kan Hive een handige tool zijn (query's in Hive stel je op in HiveQL, dat sterk op SQL lijkt - red.). Pig is een heel andere taal. Het is nadrukkelijk niet SQL. Het is een imperative data flow language. het is een alternatieve manier om Hadoop-clusters op een hoger niveau te programmeren. Je hebt ook nog HBase, als je realtime analyses wilt in plaats van batch. Er is een heel ecosysteem van projecten ontstaan rond Hadoop, die zich allemaal druk aan het ontwikkelen zijn. Hadoop is de kernel van een gedistribueerd besturingssysteem, en alle andere componenten rond die kernel beginnen nu tot wasdom te komen.
Waarom denk je zelf dat er op dit moment zoveel belangstelling is voor Hadoop?
Het is een relatief nieuwe technologie. Mensen beginnen nu net te ontdekken hoe handig het eigenlijk is. Ik denk zelf dat we nu nog in een groeiperiode zitten waarin mensen er steeds meer toepassingen voor ontdekken. Tot op zekere hoogte is het jarenlang zo geweest dat software achter de hardware aan holde, en nu zijn we die achterstand aan het inlopen. We hebben nu software waarmee bedrijven optimaal gebruik kunnen maken van de hardware die ze zich kunnen veroorloven.
Wat is er mis met relationele database-technologieën waardoor die niet geschikt zijn voor een aantal van de taken waar Hadoop nu voor wordt gebruikt?
Voor een deel zit dat in technologische uitdagingen. Als je een SQL query wilt schrijven voor een combinatie van gegevens uit tabellen die vele petabytes groot zijn, dan kom je in de problemen - niemand weet hoe je dat moet doen. De normale manier waarop je met gegevens in een database kunt werken loopt gewoon vast op een bepaald niveau. Relationele databases zijn niet ontworpen om gedistribueerd parallellisme te ondersteunen, in elk geval niet op het niveau dat mensen tegenwoordig kunnen betalen. Maar je kunt al een oplossing op basis van Hadoop aanschaffen voor een tiende van de prijs van een conventionele relationele database technologie. Dus het is betaalbaar. En Hadoop is weliswaar een tamelijk primitieve tool, maar het stelt je wel in staat letterlijk duizenden processors tegelijk heel direct door al je data te laten graven.
Waar wordt Hadoop voor gebruikt?
We zien een heleboel verschillende toepassingen die verschillen per branche. In de financiële sector bijvoorbeeld wordt nu gekeken naar fraude-detectie, creditcard-maatschappijen zoeken naar transacties waar een luchtje aan zit, banken kijken naar kredietwaardigheid - om te besluiten of ze iemand al dan niet een lening willen verstrekken. Retailers kijken naar lange-termijntrends, analyseren hun campagnes, analyseren hun inventaris. Inlichtingendiensten gebruiken het om informatie te analyseren.
Vervangt Hadoop bij die gebruikers de relationele databases, of is het meer een aanvulling?
Het wordt gebruikt ter aanvulling, niet als vervanging. Er zijn allerlei taken waarvan ik niet geloof dat Hadoop daar ooit voor gebruikt zal worden; dingen als de salarisadministratie, de puur praktische zaken waar mensen al decennia lang relationele databases voor gebruiken. Dat is niet waar de kracht ligt van Hadoop.
Microsoft, Oracle, IBM en andere grote leveranciers zijn inmiddels allemaal met Hadoop aan de slag gegaan. Wat vind je van die ontwikkeling?
Dat zie ik als bevestiging dat dit klopt, dat het voorziet in een reële behoefte. Ik vind dat goed nieuws.
Wat zou je adviseren aan bedrijven die overwegen met Hadoop aan de slag te gaan?
Ik denk dat ze het beste kunnen beginnen door een probleem aan te wijzen dat ze, om wat voor reden dan ook, op dat moment niet kunnen oplossen, en dat ze daarmee een soort pilot starten. Bouw een cluster, vergelijk de prestaties van Hadoop gerust met andere toepassingen. Naarmate je meer data in een Hadoop cluster opneemt, onstaat de echte synergie. Met Hadoop kun je al je data rustig op een enkele plek opslaan, waarbij je gerust kunt blijven combineren en analyseren.
Waar staat Hadoop volgens jou over een jaar of vijf?
Tegen die tijd moet het wel zo'n beetje een vast onderdeel zijn van de IT infrastructuur. Op dit moment zijn Oracle en Microsoft er nog mee aan het experimenteren. Ik denk dat dat stadium over vijf jaar wel voorbij is. Dan is Hadoop de gevestigde orde.
Ik hoop iets te kunnen bouwen met voldoende samenhang en vrijheid om het te laten evolueren en veranderen, iets dat we steeds component voor component kunnen vervangen, zodat er voorlopig geen nieuwe revolutie meer nodig zal zijn.
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Facebook zit in de kleinste haarvaten...
- Kliksafe en Solcon vechten netneutral...
- NPD: bedrijven en je data (video)
- Hoge Raad overweegt downloadverbod pl...
- Service pack Avira crasht Windows-pc's
- EC houdt Microsoft in de gaten in nie...
- .nl krijgt DNSSEC breder doorgevoerd
- Apple krijgt patent op virtuele shift...
- Nieuwe functies Chrome 19 liggen acht...
- 10 tips om Android nóg beter te make...
- 'Google komt met 5 verschillende Nexu...
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Een goed cv opstellen: zo moet het
- Leidinggevenden meeste bezig met soci...
- Nederlandse bedrijven bezorgd over cl...
- E-mail minder, leef langer
- Windows 8 minder populair dan 7 destijds
- 'Goedaardige virussen nodig voor secu...
- Cloud: riskant maar toch gebruiken
- Kleine organisaties vaker doelwit ger...
- 'Huur ontwikkelaars in die deelnemen ...
- Wakker worden, uw bedrijf werkt al in...
- Zijn BYOD-werknemers productiever?



