Nieuws

Wat is Deduplicatie?

  • Print
  • Aanbevelen
Gepubliceerd:13-11-2009 om 11:57 Auteur:Kristian van Tuil

Deduplicatie of data deduplicatie is een manier om je opgeslagen gegevens te ontdoen van meerdere gelijke versies, met als doel de totale hoeveelheid opgeslagen data te beperken.

deduplicatie opslagtechniek

De hoeveelheid opgeslagen gegevens binnen een onderneming kan snel uit de klauwen lopen wanneer dezelfde bestanden meerder malen worden opgeslagen. Stel dat een onderneming een handleiding van 1 megabyte voor een afdeling verzendt aan duizend personen. Als die de handleiding allemaal lokaal opslaan, neemt de handleiding ineens 1 gigabyte aan schijfruimte in. Veel backupsoftware slaat ook die kopie nog een keer op, waardoor nog eens 1 gigabyte nodig is. Mocht het bestand door de gebruiker worden gewijzigd, dan wordt vaak ook nog een kopie van het oorspronkelijke document bewaard.

Het is niet lastig voor te stellen dat de hoeveelheid aan opgeslagen GB’s op die manier snel kan toenemen. Om ingenomen schijfruimte te reduceren, is deduplicatie uitgevonden. Van de duizend exemplaren in het voorbeeld, worden 999 exemplaren vervangen door een snelkoppeling naar het ene bewaarde exemplaar. Hetzelfde wordt gedaan met nieuwere versies, zodat alleen de gewijzigde delen van het bestand worden opgeslagen. Hiervoor maken deduplicatietechnieken gebruik van speciale algoritmes.

Met het gebruik van deduplicatie van gegevens kan schijfruimte tot vijftig procent efficiënter worden gebruikt (bron: Hewlett-Packard). Vooral bij grote bedrijven zijn dat significante verschillen. Zo hoeven minder investeringen in hardware gedaan te worden, wordt netwerkbandbreedte vrijgemaakt en is het eenvoudiger te herstellen van een crash.

Nadelen

Nadelen van deduplicatie is de bijkomende afhankelijkheid van cryptografische hashfuncties voor het identificeren van dubbele segmenten van data. Gaat hierbij iets mis (hash collision), dan is er sprake van dataverlies. Fabrikanten van deduplicatiesoftware maken de hashwaarden echter zo complex, dat de kans op uitval van hardware groter is dan een hash collision.

Een ander nadeel is dat er meer processorkracht nodig is om de data te verwerken. Voor elke hash die bij een snelkoppeling moet worden aangemaakt, moet de data van het te backuppen bestand geheel worden gelezen. Daarna moet nog gecontroleerd worden of de hash uniek is. Voor een computer is dit een relatief intensief proces.

  • Print
  • Aanbevelen

Reageer

Relevante persberichten

Peiling

Loading
Bekijk hier de uitslagen van eerder gehouden peilingen.

Nieuwsbrief

Ontvang tweemaal per week een overzicht van de meest recente artikelen op Computerworld.nl in uw mailbox