Wat is Deduplicatie?

  • Opslaan als PDF
  • Print
  • Aanbevelen
Gepubliceerd:13-11-2009 om 11:57 Auteur:Kristian van Tuil

Deduplicatie of data deduplicatie is een manier om je opgeslagen gegevens te ontdoen van meerdere gelijke versies, met als doel de totale hoeveelheid opgeslagen data te beperken.

deduplicatie opslagtechniek

De hoeveelheid opgeslagen gegevens binnen een onderneming kan snel uit de klauwen lopen wanneer dezelfde bestanden meerder malen worden opgeslagen. Stel dat een onderneming een handleiding van 1 megabyte voor een afdeling verzendt aan duizend personen. Als die de handleiding allemaal lokaal opslaan, neemt de handleiding ineens 1 gigabyte aan schijfruimte in. Veel backupsoftware slaat ook die kopie nog een keer op, waardoor nog eens 1 gigabyte nodig is. Mocht het bestand door de gebruiker worden gewijzigd, dan wordt vaak ook nog een kopie van het oorspronkelijke document bewaard.

Het is niet lastig voor te stellen dat de hoeveelheid aan opgeslagen GB’s op die manier snel kan toenemen. Om ingenomen schijfruimte te reduceren, is deduplicatie uitgevonden. Van de duizend exemplaren in het voorbeeld, worden 999 exemplaren vervangen door een snelkoppeling naar het ene bewaarde exemplaar. Hetzelfde wordt gedaan met nieuwere versies, zodat alleen de gewijzigde delen van het bestand worden opgeslagen. Hiervoor maken deduplicatietechnieken gebruik van speciale algoritmes.

Met het gebruik van deduplicatie van gegevens kan schijfruimte tot vijftig procent efficiënter worden gebruikt (bron: Hewlett-Packard). Vooral bij grote bedrijven zijn dat significante verschillen. Zo hoeven minder investeringen in hardware gedaan te worden, wordt netwerkbandbreedte vrijgemaakt en is het eenvoudiger te herstellen van een crash.

Nadelen

Nadelen van deduplicatie is de bijkomende afhankelijkheid van cryptografische hashfuncties voor het identificeren van dubbele segmenten van data. Gaat hierbij iets mis (hash collision), dan is er sprake van dataverlies. Fabrikanten van deduplicatiesoftware maken de hashwaarden echter zo complex, dat de kans op uitval van hardware groter is dan een hash collision.

Een ander nadeel is dat er meer processorkracht nodig is om de data te verwerken. Voor elke hash die bij een snelkoppeling moet worden aangemaakt, moet de data van het te backuppen bestand geheel worden gelezen. Daarna moet nog gecontroleerd worden of de hash uniek is. Voor een computer is dit een relatief intensief proces.

Zie ook onze whitepapers over deduplicatie:

Case: Bestrijd data-explosie
Gemeente Sittard-Geleen gaat met deduplicatie data-explosie te lijf. Resultaat: back-uptijd is nu minuten in plaats van uren.

Checklist voor disk-to-disk back-up
Waaraan moet een disk-to-diskoplossing voldoen? Eenvoud en kostenefficiëntie bij aanschaf en beheer. Gebruik de checklist vóór aanschaf.

Deduplicatietest helpt u kiezen
Meer data veilig opslaan, en tegelijkertijd lagere IT-kosten? Test nu of deduplicatie past in de consolidatiestrategie van uw bedrijf.

Harde cijfers deduplicatie en ROI
Negen ondernemingen tonen de voordelen van investeringen in deduplicatie. Met harde cijfers over de ROI van back-upoplossingen.

Welke deduplicatie-aanpak kiest u?
Deze whitepaper kijkt naar verschillende manieren voor deduplicatie van back-ups. Lees welke aanpak voor uw onderneming het meest geschikt is.

  • Opslaan als PDF
  • Print
  • Aanbevelen
Relevante whitepaper: Uitdagingen van een Windows 7-migratie Download
blog comments powered by Disqus

Nieuwsbrief

Ontvang tweemaal per week een overzicht van de meest recente artikelen op Computerworld.nl in uw mailbox