Overstappen van RDBMS naar Hadoop
Hoe ga je over van een relationeel databasesysteem (RDMS) naar Hadoop? Doe je dat top-down of bottom-up? En hoe verloopt de migratie?
Mocht het je interessant lijken om als organisatie een begin te maken met Hadoop, dan kun je direct aan de slag met de open-source software voor het dataraamwerk en het relatief eenvoudig uitproberen.
Eerder hebben we op deze site bijvoorbeeld al aangegeven wat de voor- en nadelen van een Hadoop-implementatie zijn. Nu willen we je laten zien hoe je daadwerkelijk overstapt van Hadoop vanaf een bestaande RDBMS-situatie, hoe bedrijven omgaan met een deploy van Hadoop en hoe je Hadoop kunt gebruiken om data sneller en goedkoper te analyseren dan mogelijk is met een RDBMS-systeem.
Net als andere nieuwe technologieën die een stormachtige ontwikkeling doormaken, vooral die in de open-source wereld, heeft Hadoop vele testritjes van IT-afdelingen beleefd die benieuwd waren naar het ware verhaal achter de hype. Op dit moment zijn het vooral ook bestuurders op C-niveau die benieuwd zijn naar de technologie en willen weten hoe het hun bedrijf van dienst kan zijn. Deze twee verschillende niveaus van adoptie - in de loopgraven en bij de bazen - leiden ertoe dat we graag een nadere blik op Hadoop willen werpen.
Bottom-up
'Shadow IT', oftewel IT die niet in productie draait, kan zowel een bedreiging als een risico voor een organisatie vormen. Vergis je niet: veel van de tijd die aan een experimentele configuratie wordt besteed heeft de potentie om uit te groeien tot een waardevolle activiteit van een IT-organisatie. Een voorbeeld hiervan is Linux tijdens de eeuwwisseling, dat nu op vele productieservers actief is.
Vandaag is het aan Hadoop om de schaduw te ontvluchten, zegt Arun Murthy, VP Apache Hadoop bij de Apache Software Foundation. "Bij de bottom-up methode van deployment, zijn er vaak een paar engineers die Hadoop downloaden en installeren op een enkele node of een kleine cluster met vier of vijf nodes", vertelt Murthy.
Wat daarna gebeurt is een patroon dat Murthy verschillende keren is tegengekomen. Personeel dat gebruikmaakt van het Hadoop-cluster begint de toegevoegde waarde te zien van de toolsets. Daarna zijn het ook andere afdelingen van het bedrijf die zelf om een Hadoop-cluster vragen. Uiteindelijk wordt de waarde van Hadoop door de hele organisatie onderkent en zie je grote clusters met 50 tot 60 nodes ontstaan.
Volgens Murthy is dit precies wat gebeurde toen Yahoo en Facebook voor het eerst met Hadoop aan de slag gingen. Zodra de toegevoegde waarde voor betrokken teams en applicaties duidelijk werd, ontstond de vraag naar één groot Hadoop-netwerk.
Uiteraard kunnen de meeste bedrijven niet tippen aan de systemen met tienduizenden nodes die bij Yahoo en Facebook draaien, maar het principe blijkt gelijk.
Top-down
Een andere manier waarop Hadoop wordt geïmplementeerd is top-down. Een bestuurder op C-niveau die de trends volgt, merkt de lage storagekosten van een Hadoop-systeem op en begint formeel te onderzoeken of een Hadoop-oplossing de juiste keuze is voor zijn organisatie.
Dit is waar leveranciers als Murthy's werkgever Hortonworks om de hoek komen kijken. Hortonworks begon zijn bedrijfsvoering in juli 2011 en stelde zichzelf tot doel om open-source Hadoop aan te bieden naast een portfolio van training, support en deployment-diensten.
Wanneer klanten naar Hortonworks komen, stelt het bedrijf een kleine set aanbevelingen voor op basis van de klantbehoeften die ter tafel komen. Meestal begint het dan bij een kleine 'proof-of-concept' Hadoop-cluster met tussen de 20 en 100 nodes en kan de klant de voordelen van Hadoop 'proeven'. Ditzelfde proces zie ook bij andere Hadoop-leveranciers zoals Cloudera en MapR opduiken. Inmiddels is er een keur aan leveranciers beschikbaar voor iedereen die op zoek is naar Hadoop-consulting en support.
De migratie
Of je het nu helemaal zelf doet, of dat je er wat hulp bij kan gebruiken, op een bepaald moment zul je de data van de huidige locatie naar Hadoop moeten migreren. De beste tool hiervoor is, helemaal wanneer het vanaf een RDBMS moet gebeuren, is Cloudera's Sqoop ('SQL-to-Hadoop'). Sqoop is een applicatie die vanaf de commandline bediend wordt en waarmee individuele tabellen of gehele databases in het Hadoop Distributed File System (HDFS) kunnen worden geladen. Sqoop gebruikt de DBInputFormat Java-connector waarmee MapReduce de data binnen kan trekken vanaf de JDBC-interface van MySQL, PostgreSQL, Oracle en de meeste andere populaire relationele databases.
Sqoop zal ook de Java classes genereren die MapReduce nodig heeft om met te data te interacteren,. Je kunt Scoop ook gebruikten om RDBMS-data direct in je Apache Hive datawarehouse te importeren. Deze functionaliteit maakt dat je zelf weinig hoeft te doen om je data te prepareren voor Hadoop, anders dan de gebruikelijke taken die je voor het dedupliceren en onderhouden van je RDBMS toch al deed.
Het eerder kort genoemde Hive is het onderdeel van het Hadoop-raamwerk waarmee analisten hun data in het HDFS kunnen structureren en daarop queries kunnen loslaten. De data kan worden samengevat, bevraagd en geanaliseerd via de Hive Query Language (HiveQL) die erg lijkt op SQL, waardoor zulke werkzaamheden voor analisten niet al te ingewikkeld mogen zijn.
Hive stelt MapReduce-programmeurs daarnaast in staat om direct hun custom datamappers en datareducers te gebruiken, mocht het niet lukken om via HiveQL aan de benodigde informatie te komen.
Let op: omdat Hive binnen Hadoop met batch processing werkt, hebben de taken een hoge vertraging, waardoor het uitvoeren van een query minuten kan duren. Hierdoor is Hive geen goede keuze wanneer je aan de slag wilt met realtime processing. Als je dit toch wilt hebben, overweeg dan Apache Cassandra, een open-source gedistribueerd databasemanagementsysteem dat veel beter werkt voor realtime behoeften.
Bepaal zelf het traject
Hoe het migratiepad naar Hadoop eruit ziet, hangt van de behoeften van je organisatie af. Belangrijk is daarnaast ook om te weten dat Hadoop zich niet beperkt tot alleen 'big data'. Het is een systeem geschikt voor iedere organisatie op zoek naar goedkopere storage of de mogelijkheid om veel data efficiënt te analyseren. Heeft jouw organisatie daar baat bij?
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Facebook zit in de kleinste haarvaten...
- Kliksafe en Solcon vechten netneutral...
- NPD: bedrijven en je data (video)
- Hoge Raad overweegt downloadverbod pl...
- Service pack Avira crasht Windows-pc's
- EC houdt Microsoft in de gaten in nie...
- .nl krijgt DNSSEC breder doorgevoerd
- Apple krijgt patent op virtuele shift...
- Nieuwe functies Chrome 19 liggen acht...
- 10 tips om Android nóg beter te make...
- 'Google komt met 5 verschillende Nexu...
Nu op
- ADV:2e webcast Nationaal Privacy Debat
- Een goed cv opstellen: zo moet het
- Leidinggevenden meeste bezig met soci...
- Nederlandse bedrijven bezorgd over cl...
- E-mail minder, leef langer
- Windows 8 minder populair dan 7 destijds
- 'Goedaardige virussen nodig voor secu...
- Cloud: riskant maar toch gebruiken
- Kleine organisaties vaker doelwit ger...
- 'Huur ontwikkelaars in die deelnemen ...
- Wakker worden, uw bedrijf werkt al in...
- Zijn BYOD-werknemers productiever?



