Datenschutz: Trotz Anonymisierung leicht zu finden

Eine neue Studie zeigt, dass man in nahezu jeder Datenbank leicht wieder identifizierbar ist, selbst wenn die persönlichen Daten entfernt wurden.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 2 Beiträge
Iranische Hacker sollen Dutzende deutsche Universitäten ausspioniert haben

(Bild: plantic\Shutterstock.com)

Von
  • Charlotte Jee

Die Datenspur, die wir hinterlassen, wächst ständig. Das meiste dabei ist nicht so interessant: Etwa welches Essen oder welcher Duschkopf online bestellt wurde. Aber einige Informationen wie unsere medizinischen Diagnosen, die sexuelle Orientierung oder Steuererklärungen sind sehr persönlich. Die gebräuchlichste Methode zum Identitätsschutz durch öffentliche Stellen ist die Anonymisierung. Dabei werden offensichtlich identifizierbare Elemente wie Namen, Telefonnummern und E-Mail-Adressen entfernt. Darüber hinaus werden Datensätze so verändert, dass sie weniger präzise sind, Spalten in Kalkulationstabellen entfernt und die Daten mit "Rauschen" versehen. Datenschutzrichtlinien versichern uns, dies bedeute, es besteht kein Risiko, dass wir in der Datenbank aufgespürt werden. Eine neue Studie in Nature Communications legt jedoch nahe, dass dies ganz entschieden nicht der Fall ist.

Forscher vom Imperial College London und der belgischen Université catholique de Louvain haben ein Modell für maschinelles Lernen erstellt, das berechnet, wie einfach es ist, Personen anhand eines anonymisierten Datensatzes zu identifizieren. Jeder kann die Wahrscheinlichkeit, gefunden zu werden, hier überprüfen, indem er eine vorgegebene Postleitzahl sowie Geschlecht und Geburtsdatum angibt.

Im Durchschnitt kann man in den USA mit diesen drei Datensätzen in 81% der Fälle korrekt in einer sogenannten anonymisierten Datenbank gefunden werden. Angesichts von 15 demografischen Merkmalen einer in Massachusetts lebenden Person besteht eine 99,98-prozentige Wahrscheinlichkeit, dass man diese Person in einer beliebigen anonymisierten Datenbank findet. "Während sich die Informationen häufen, sinken die Chancen, dass es sich nicht um Sie handelt, sehr schnell", sagt Imperial-College-Forscher Yves-Alexandre de Montjoye, einer der Autoren der Studie.

Die Forscher erstellten das Werkzeug, indem sie eine Datenbank mit 210 verschiedenen Datensätzen aus fünf Quellen zusammenfügten, einschließlich der US-Volkszählung. Dann speisten sie die Daten in ein Maschinenlern-Modell ein, das lernte, welche Kombinationen nahezu eindeutig und welche weniger eindeutig sind, und dann die Wahrscheinlichkeit einer korrekten Identifizierung berechnete.

Dies ist nicht die erste Studie, die zeigt, wie einfach es ist, Personen aus anonymisierten Datenbanken aufzuspüren. Ein Artikel aus dem Jahr 2007 hat beleuchtet, dass wenige Filmbewertungen bei Netflix reichen, um eine Person so leicht zu identifizieren wie etwa durch ihre Sozialversicherungsnummer. Die neue Studie zeigt jedoch, wie weit die gegenwärtigen Anonymisierungspraktiken hinter unserer Fähigkeit zurückgeblieben sind, diese zu brechen. Die Unvollständigkeit eines Datensatzes schützt die Privatsphäre der Menschen keineswegs, sagt de Montjoye.

Mehr Infos

Das gilt einerseits für legale Zugriffe wie die Recherchen von Journalisten der New York Times, die Anfang dieses Jahres mit denselben Techniken die Steuererklärungen von Donald Trump von 1985 bis 1994 mit Informationen aus öffentlich zugänglichen, anonymisierten Datenbanken etwa der US-Steuerbehörde IRS zusammentrugen. Die IRS-Datenbank enthält jedes Jahr anonymisierte Daten von einem Drittel der Top-Verdiener. Dieselben Methoden lassen sich andererseits aber auch für das Sammeln von Informationen für Ausweisbetrug und Erpressungszwecke anwenden.

Deshalb sollten Unternehmen den differenziellen Datenschutz verwenden, ein komplexes mathematisches Modell, mit dem Organisationen aggregierte Daten über Benutzergewohnheiten austauschen und gleichzeitig die Identität einer Person schützen können, argumentiert Charlie Cabot, Forschungsleiter des Datenschutz-Unternehmens Privitar. Diese Technik wird 2020 einem ersten großen Test unterworfen: Sie wird zur Sicherung der US-Volkszählungsdatenbank verwendet.

(vsz)