
'Anonieme' ruwe data geeft schokkend persoonlijke details
...Althans, voor mensen die te veel verwachten van anonimisering.
De digitale variant van het doorhalen van namen in documenten is het anonimiseren van gegevens in ruwe datasets. Maar dat gebeurt niet altijd zorgvuldig, waardoor er ontzettend veel persoonlijke informatie uit te halen is.

'Anonieme' ruwe data geeft schokkend persoonlijke details
De digitale variant van het doorhalen van namen in documenten is het anonimiseren van gegevens in ruwe datasets. Maar dat gebeurt niet altijd zorgvuldig, waardoor er ontzettend veel persoonlijke informatie uit te halen is.
Quasi-identifiers zijn gegevens die niet uniek zijn en daarom niet gelden als persoonsgegevens onder de Wet bescherming persoonsgegevens (Wbp) - en buitenlandse equivalenten van dergelijke privacywetten. In de Europese Unie wordt dat pseudonieme data genoemd: gegevens die je alleen kunt herleiden door data te combineren.
Door verschillende datasets van quasi-identifiers te combineren, kom je toch terecht bij persoonlijk identificeerbare gegevens. Een belangrijke praktijkles in 'anoniem bestaat niet', ook niet als het "maar om metadata" gaat.
Orignele data te herleiden
Een mooi voorbeeld over hoe je met geaggregeerde data tóch uitkomt bij persoonlijke informatie gaat over 'anonieme' taxigegevens. Uit 20 GB aan geWOB'de ruwe data over taxiritten in New York zijn identificeerbare gegevens verwijderd. Zo zijn details als het taxinummer 'geanonimiseerd', maar al snel zagen Reddit-gebruikers dat je in elk geval al kunt herleiden dat een bepaalde rit van taxi X is, omdat de waarde erbij hetzelfde is. Maar erger: die waardes zijn te herleiden.
Die waarde is namelijk een MD5-hash. Zo'n hash is niet te herleiden als je geen informatie hebt over de originele invoer. Maar als je dat wel weet, is de informatie wel te achterhalen. Neem wachtwoorden. Die zijn vaak gehasht met bijvoorbeeld MD5, maar de oorspronkelijke waardes vóór het hashen zijn te achterhalen als je een flinke lijst met bekende wachtwoorden hebt. Zo kun je uitrekenen dat 'waarde X' overeenkomt met 'wachtw00rd', als je weet dat 'wachtw00rd' een veelgebruikte term is in je database.
De taxinummers bestaan uit zes cijfers, of zeven cijfers beginnend met '5'. Daarnaast zijn er licentienummers, die bestaan uit cijfers en letters. Website Medium berekent dat alles bij elkaar zo'n 22 miljoen combinaties mogelijk zijn. Een computer berekent in enkele minuten deze miljoenen hashwaardes van de mogelijke cijfers en deze kunnen in een vergelijkingstabel worden geduwd met de MD5-hashes van taxinummers. Met behulp van Amazons rekenkracht is de dataset in een uurtje gedeanonimiseerd.
Metadata en persoonsgegevens
Datzelfde kan met andere 'geanonimiseerde' data worden gedaan en opeens hebben we een dataset in handen met gênant specifieke informatie. Goed, dat blijft metadata (wie, waar, wanneer) en dat is geen persoonlijke, inhoudelijke informatie, zegt bijvoorbeeld minister Plasterk. Rare uitspraak eigenlijk, want door alleen al te volgen wie met wie op welk moment informatie uitwisselt, kun je al het een en ander concluderen over de inhoud.
Analysebedrijf Neustar beschrijft in een uitgebreide blogpost hoe deze dataset met ook GPS-gegevens van de eindlocatie verder gecombineerd kan worden om te kunnen benaderen waar beroemde mensen wonen. Bradley Cooper stapt in taxi 12345 en stapt uit - waarschijnlijk bij zijn huis of andere plek waar je hem verder kunt traceren. Uit de data is zelfs te achterhalen welke route de taxi nam, door te kijken naar beginplaats, eindplaats, ritduur en ritafstand.
Nachtclubbezoekjes
Het is kinderspel met beroemdheden, omdat er al zoveel informatie over te vinden is - zoals de foto's van Jessica Alba die een taxi instapt. Maar ook doorsnee taxiklanten zijn niet veilig. Neustar gebruikte de data bijvoorbeeld om ritjes naar de nachtclub van pornomagnaat Larry Flynt te destilleren. Vervolgens werden de gegevens geclusterd om er mensen uit te halen die de club vaak frequenteren. In een voorbeeld was uit de GPS-informatie direct te achterhalen om welk adres het precies ging. Via Google werd de identiteit van de klant ontdekt, rechtbankdocumenten, informatie van social media - enzovoorts.
Dit zou allemaal niet zo problematisch zijn, als de gegevens daadwerkelijk goed geanonimiseerd waren geweest, beargumenteert Neustar. Net als met een wachtwoorddatabase, volstaat het MD5-hashen van de datavelden niet.
Onder de Wbp zijn alle herleidbare persoonsgegevens beschermd, dus ook hier moet salt worden gebruikt - willekeurige data wordt dan toegevoegd aan de hashfuntie - om de gegevens niet te kunnen achterhalen. In de huidige vorm was het de equivalent van het gebruiken van een te lichte markeerstift bij het censureren van documenten, waardoor de onderliggende tekst nog te lezen is.
Toestemmingsvereiste
En daarmee zijn we terug bij de discussie die momenteel nog steeds in Brussel speelt: hoe privacygevoelig is pseudonieme data en moet voor de verwerking ervan toestemming worden gegeven? En is het mogelijk dergelijke grote datasets daadwerkelijk onherleidbaar te anonimiseren?
Nee, daar zijn we dus niet bij terug. Heeft de auteur van deze bijdrage het artikel wel gelezen, dus ook de laatste alinea's waar het concept van 'differential privacy' wordt uitgelegd? Daar staat, ik citeer: afdoende geanonimiseerd zodat individuen niet meer terug te vinden zijn, in ieder geval niet met de huidige nauwkeurigheid, maar wel dat er nog voldoende bruikbare gegevens overblijven.
Met andere woorden, de discussie is geen ja/nee-kwestie. Het is, zoals altijd, ergens ertussenin:Maar helaas ken ik privacyvoorvechters goed genoeg om te weten dat hun enige stellingname in deze een glashard 'NEE!' is, oprecht nuttige informatie be damned.
Scherp opgemerkt Boaz!
Dat is ofwel een typo ofwel wordt er verbazend slecht gerekend. Er zijn exact 1 miljoen 6-cijferige nummer met voorloopnullen (van 000000 t/m 999999) en door er een 5 voor te plakken ontstaat er nog een reeks van 1 miljoen getallen, oftewel 2 miljoen in totaal.
Goed punt, artikel is aangepast. Het gaat om zowel taxinummers als licentienummers, en die laatste zijn een combi van letters en cijfers. In totaal 22 miljoen mogelijke combinaties, aldus Medium.
Reageer
Preview