Wat is Hadoop?
IT-begrippen kort en helder uitgelegd. Wat is Hadoop?
Hadoop is een open-source softwareraamwerk van The Apache Software Foundation waarmee applicaties petabytes aan ongestructureerde data in een cloudomgeving op commodity hardware kunnen verwerken. Doordat het systeem is gebaseerd op Google's MapReduce en Google File System (GFS), kunnen grote datasets in kleinere datablokken worden opgedeeld zodat een cluster deze parallel kan verwerken.
Hoe werkt het?
Hadoop werkt met een gedistribueerd bestandssysteem (HDFS) wat maakt dat data op meerdere nodes kunnen staan en geaggregeerd met een hoge bandbreedte door een cluster behandeld kunnen worden. Dankzij Hadoop kunnen bedrijven bijvoorbeeld razendsnel meerdere scenario's tegelijkertijd doorrekenen om op basis daarvan beslissingen te maken. Hadoop verzamelt informatie als logs en eventdata, zoekresultaten en content van social media sites.
Wie beheren Hadoop?
Het Hadoop-raamwerk is geschreven in Java en kent een ontwikkelaarscommunity waarin duizenden vrijwilligers en professionals aan de vrije software bijdragen. Zoekmachine Yahoo levert de grootste bijdrage aan het project en gebruikt Hadoop veelvuldig binnen de eigen bedrijfsmuren. Hadoop staat eind 2011 op 60.000 nodes (servers) geïnstalleerd bij de zoekspecialist. Hiermee wordt meer dan 200PB aan data beheerd. Andere organisaties die actief meewerken aan de code zijn onder meer UC Berkely, Cloudera, LinkedIn, Twitter en Last.fm.
Waarom Hadoop?
Bij gebruik van Hadoop gaat het dus om het verwerken van grote hoeveelheden data. Dit fenomeen van een almaar toenemende berg data waarin bedrijven de spreekwoordelijke speld in de hooiberg willen vinden heet met een buzzterm 'Big Data'. "Bij Big Data draait het meer dan alleen om grootte; het draait ook om complexiteit", zegt CEO Mike Olson van Cloudera. Hij noemt daarom "Hadoop de kern van een data analytics platform."
Hadoop vs. relationele databases
Wie denkt dat Hadoop een vervanging is voor relationele databasesystemen (RDBMS) heeft het mis. Sterker nog, Hadoop werkt juist goed samen met zulke systemen, schreef onderzoeker Ventana Research eerder dit jaar. Bedrijven als Facebook, Amazon en eBay gebruiken Hadoop om petabytes aan ongestructureerde data naast hun RDBMS-servers te analyseren. Voor de analyse van gestructureerde data blijven zij, net als veel andere Hadoop-klanten, de voorkeur geven aan RDBMS-tools die een weliswaar trager, maar beter zijn toegespitst op conventionele gestructureerde data. Toepassingen afhankelijk van transactiedata, klantinformatie en belregistratie zijn minder geschikt voor zo'n oplossing.
Nadelen
De techniek is op moment van schrijven nog volop in ontwikkeling. Uitdagingen liggen er nog op gebied van security en clustering, terwijl ook een tekort aan Hadoop-experts bedrijven die snel aan de slag willen gaan parten speelt.
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Facebook zit in de kleinste haarvaten...
- Kliksafe en Solcon vechten netneutral...
- NPD: bedrijven en je data (video)
- Hoge Raad overweegt downloadverbod pl...
- Service pack Avira crasht Windows-pc's
- EC houdt Microsoft in de gaten in nie...
- .nl krijgt DNSSEC breder doorgevoerd
- Apple krijgt patent op virtuele shift...
- Nieuwe functies Chrome 19 liggen acht...
- 10 tips om Android nóg beter te make...
- 'Google komt met 5 verschillende Nexu...
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Een goed cv opstellen: zo moet het
- Leidinggevenden meeste bezig met soci...
- Nederlandse bedrijven bezorgd over cl...
- E-mail minder, leef langer
- Windows 8 minder populair dan 7 destijds
- 'Goedaardige virussen nodig voor secu...
- Cloud: riskant maar toch gebruiken
- Kleine organisaties vaker doelwit ger...
- 'Huur ontwikkelaars in die deelnemen ...
- Wakker worden, uw bedrijf werkt al in...
- Zijn BYOD-werknemers productiever?



