Als jij denkt dat de storagesystemen in jouw datacenter de pan uit rijzen, stel je dan eens voor dat je 450 miljard objecten in je database moet beheren of iedere week 40 terabyte aan data kunt bijschrijven.
De uitdagingen bij het beheer van gigantische hoeveelheden data zijn onder meer de opslag van reusachtige bestanden, het aanleggen van archieven voor de lange termijn en de data toegankelijk maken. Hoewel datamanagement altijd een belangrijke functie in IT heeft vervuld, zorgt "de huidige gekte ervoor dat marktactiviteit naar een geheel nieuw plan getrokken wordt", laat Richard Winter weten. Hij is analist bij WinterCorp Consulting Services, een leverancier van analyseoplossingen voor big data.
Zowel gevestigde bedrijven als startups brengen regelmatig nieuwe big data-producten uit. Of het nu gaat om Hadoop, MapReduce, NoSQL of een van de andere datawarehousing appliances; de branche floreert, zegt Winter.
Sommige IT-afdelingen kunnen goed meepraten over de uitdagingen bij het beheer van big data. Bij de nationale bibliotheek van de VS (The Library of Congress), Amazon en Mazda, moeten innovatieve manieren ontwikkeld worden om met miljarden objecten en petabytes aan opslagmedia om te gaan.
1. The Library of Congress
De nationale bibliotheek in Washington verwerkt jaarlijks 2,5 petabyte (PB) aan data, wat neerkomt op ongeveer 40 terabyte (TB) per week. En Thomas Youkel, groepschef systeemontwikkeling, voorspelt dat deze hoeveelheid data de komende jaren zal verviervoudigen, aangezien de bibliotheek zowel data aan historici willen kunnen aanbieden als data willen bewaren voor toekomstige generaties.
De informatie wordt door de bibliotheek op 15 tot 18 duizend verschillende harde schijven opgeslagen in 600 verschillende servers in twee datacenters. Meer dan 90 procent van de data, oftewel 3PB, worden opgeslagen op een fiber-attached SAN. De rest staan op network-attached storage devices.
De bibliotheek hanteert een interessant model waarbij de informatie deels wordt opgeslagen als metadata - oftewel data die wat zegt over de opgeslagen data - terwijl de overige data actuele content zijn, vertelt analist Greg Schulz van StorageIO. Veel organisaties maken van metadata gebruik, maar wat de bibliotheek uniek maakt, is de grootte van zijn dataverzameling en het feit dat absoluut alles in de collectie getagd wordt, of het nu gaat om antieke audio-opnamen, video's, foto's of andere media. De werkelijke content - die nauwelijks aangesproken wordt - staat offline en vaak op tape. Vaak is er slechts sprake van een thumbnail of lage-resolutie kopie op schijf.
Momenteel zitten er zo'n 500 miljoen objecten in de database, maar Youkel verwacht dat dit binnen een paar jaar toeneemt tot 5 miljard. Om de organisatie voor te bereiden, moet Youkel met zijn team het bestandssysteem voor de bibliotheek herzien. "We kijken nu naar nieuwe bestandssystemen die zoveel objecten aankunnen", laat hij weten.
Gene Ruth, storage-analist bij Gartner, zegt dat het essentieel is om goed en correct op te kunnen schalen. Wanneer je meer dan 10PB in je datastore hebt, exploderen de kosten en tijd die je nodig hebt om zoveel data aan te kunnen exponentieel. Een manier van aanpakken is de infrastructuur op een primaire locatie te hebben waar de meeste data aangeroepen kan worden, terwijl een andere faciliteit zorgdraagt voor de archieffunctie op lange termijn.
2. Amazon.com
E-commerce gigant Amazon.com is hard op weg om een van de grootste databibliotheken van de wereld te worden met ca. 450 miljard opgeslagen objecten in zijn cloud. Dit staat gelijk aan ongeveer 1500 objecten voor iedere inwoner van de VS of één object voor iedere ster in onze melkweg.
Sommige objecten in de database zijn aardig groot - 5TB per stuk is geen uitzondering - en kunnen op hun eigen manier een gehele database vertegenwoordigen. Alyssa Henry, VP storage-diensten bij Amazon, verwacht dat deze objecten in 2016 zelfs 500TB in grootte kunnen bedragen.
Het geheim van het omgaan met dergelijke massieve data is het opsplitsen in kleinere onderdelen, via een proces dat paralellisatie heet. Bij de S3-dienst van Amazon wordt daarvoor een eigen ontworpen code gebruikt die de bestanden opbreekt in stukjes van 1000MB (1 gigabyte). Dit is op zich niet opzienbarend, maar wat wel uniek is aan de methode van Amazon is dat het opsplitsen in realtime gebeurt. "Deze altijd beschikbare storage-architectuur contrasteert met bepaalde storagesystemen waarin data zich verplaatst tussen 'gearchiveerde' en 'levende' statussen, waardoor er vertraging optreedt bij het opvragen van data", legt Henry uit.
Een van de andere problemen bij het beheer van grote hoeveelheden data zijn corrupte bestanden. De eigen software van Amazon analyseert daarom ieder stukje data op slechte geheugentoewijzingen, calculeert de checksums en analyseert hoe snel een fout gerepareerd kan worden om de doorvoersnelheid te krijgen die nodig is voor cloudopslag.
3. Mazda
Mazda Motor Corp USA beheert ongeveer 90TB aan data, afkomstig van 900 dealerkantoren in de Verenigde Staten. Volgens infrastructuurarchitect Barry Blakely bevatten deze data onder andere analytische bestanden, marketingmaterialen, BI-databases en Mirosoft SharePoint-data. "We hebben alles gevirtualiseerd, inclusief storage", zegt Blakely. Het bedrijf gebruikt tools van Compellent (nu onderdeel van Dell) voor storagevirtualisatie en een Dell PowerVault NX3100 als SAN, gecombineerd met VMware-oplossingen voor het hosten van virtuele servers.
De kunst is om 'vastgeroeste' data te migreren naar tape, zegt Blakely. Hij zegt dat 80 procent van Mazda's opgeslagen data na enkele maanden vastroesten, wat zoveel betekent dat de data vanaf die periode niet meer opgevraagd worden. Om deze gebruikspatronen te ondersteunen, maakt Mazda gebruik van een virtuele storage-oplossing met meerdere tiers, waarin data geleidelijk van snelle SSD's naar 15.000 RPM Fibre Channel-schijven en uiteindelijk naar 7.200 RPM SCSI-disks geschreven worden.
Daarnaast is opvallend dat het bedrijf toewerkt naar een 'business continuance model' in plaats van een disaster recovery-model, legt Blakely uit. Hierbij wordt niet op dezelfde locatie een back-up geregeld, maar wordt live gebackup'ed naar een colocatie. Hierdoor kunnen alle Tier 1-applicaties vrijwel direct weer online gebracht worden, mocht het datacenter het af laten weten. Andere tiers worden hersteld via back-up data die wel op gezette tijdstippen naar de colocatie wordt gerepliceerd.
Werken met deze technieken
Genoemde organisaties laten zien dat zij prima in staat zijn om te gaan met duizelingwekkende hoeveelheden data. Hierbij is het van cruciaal belang om te kiezen voor technologie die past bij de behoeften van je organisatie in plaats van te kiezen op basis van prijs of populariteit van het systeem, zegt Greg Schulz van StorageIO. Als dit gebeurt, kan iedere organisatie de komst van big data aan, meent de analist.
Reageer
Preview