zurück zum Artikel

36C3: Wie gängige Methoden zur Anonymisierung von Daten versagen

36C3: Wie gängige Methoden zur Anonymisierung von Daten versagen

Selbst in aufwendig anonymisierten Datenbanken lassen sich einzelne Personen zuordnen. Wie erschreckend einfach das klappt, zeigte Yves-Alexandre de Montjoye.

Egal ob Surf-Verhalten, Autofahrten oder Gesundheitsdaten: Sie werden vielfach gesammelt und ausgewertet. Eventuelle Datenschutzbedenken wischen Firmen und Behörden oft mit dem Argument vom Tisch, dass die Daten ja "pseudonymisiert" oder gar "anonymisiert" würden, und somit der Einzelne im Datenpool nicht mehr aufzufinden sei. Wie falsch diese Annahme ist, demonstrierte Yves-Alexandre de Montjoye auf dem 36C3 in Leipzig. Sein Paradebeispiel: Ein anonymisierter Datensatz von 1,5 Millionen Autofahrern mit Bewegungsdaten, die über 15 Monate gesammelt wurden. Wie viele Datenpunkte (also das Wissen, ob jemand zu einer bestimmten Zeit an einem bestimmten Ort war) braucht es wohl, um einen Einzelnen daraus wiederzuerkennen?

Es sind ganze vier Datenpunkte nötig: Wer also an vier Zeitpunkten weiß, wo eine bestimmte Person war, kann anhand der anonymisierten Datenbank ihr komplettes Bewegungsprofil rekonstruieren.

Deshalb genüge es nicht, so Montjoye, beispielsweise in Datenschutzgesetzen einfach nur eine "Anonymisierung" zu fordern. Vielmehr müsse man festlegen, wie die Daten anonymisiert werden. Denn die Wirksamkeit der Methoden unterscheide sich beträchtlich.

Relativ wenig bringe es, die Genauigkeit der Daten zu reduzieren, indem man etwa bei Positionsdaten nur einen gewissen Umkreis speichert: "Wenn man bei Lokalisationsdaten die Auflösung von einem Kilometer auf zwei Kilometer verdoppelt, dann steigt der Aufwand, die Daten zu de-anonymisieren, nur um fünf Prozent", erläutert Montjoye. Im obigen Beispiel brauche man statt vier Punkten dann vielleicht fünf oder sechs Punkte, um eine Person zu identifizieren.

Viele gängige Methoden der Anonymisierung, die bis vor kurzem als sicher galten, seien mittlerweile widerlegt worden. So gäbe es Datenbanken, die keinen direkten Zugriff auf die Datensätze zulassen, sondern Fragen nach Filtern annehmen und dann eine gewisse Anzahl möglicher Ergebnisse ausspucken. Mittels einer "Differential Attack" ließen sich solche Systeme aber leicht überlisten. Dabei formuliert man einfach zwei Fragen (siehe Bild oben unter dem Meldungstitel), bei der man ein Merkmal aus der ersten Frage in der zweiten negiert – und schon ließen sich aus den gefilterten Ergebnissen Einzelpersonen zuordnen.

Eins der prominentesten Opfer, deren Daten aus einer öffentlich zugänglichen, anonymisierten Steuerdatenbank herausgefischt werden konnten, war Donald Trump: Mitte Mai veröffentlichten Reporter der New York Times [1], dass der US-Präsident – der sich selbst gerne als erfolgreicher Geschäftsmann darstellt – von 1985 bis 1994 Verluste in Höhe von einer Milliarde US-Dollar eingefahren hatte.

Trump sei kein Einzelfall, so Montjoye, in Australien wurden öffentliche Datenbanken mit 10.000en Patientendaten nach kurzer Zeit wieder zurückgezogen, weil sich einzelne Personen zuordnen ließen. Die Anonymisierung hatte versagt.

2018 zeigte Montjoye mit anderen Wissenschaftlern Methoden auf, wie die bis dahin als sicher geltende Anynomisierungsmethode Diffix [2] ausgehebelt werden kann. Diffix wurde von der in Kaiserslautern ansässigen Firma Aircloak patentiert und reichert Datensätze mit statischem und dynamischem Rauschen an. Mithilfe geschickt formulierter Anfragen an eine Diffix-Datenbank konnte Montjoye mit seinem Team jedoch einzelne Datensätze zuordnen. Sein Hebel war eine Analyse des zu den Daten addierten Rauschens, das sich unter bestimmten Bedingungen eliminieren ließ. Details erläutert das zugehörige Whitepaper [3].

Lehren zieht Montjoye aus dem Diffix-Fall folgende: Selbst wenn heute eine Anonymisierungsmethode als unknackbar gilt, könne sie morgen schon widerlegt werden, wenn es Forschern gelingt, sie zu überwinden. Daher sollte man besonders vorsichtig mit der Veröffentlichung brisanter Daten sein und mehrere Verfahren kombinieren. Als Stichworte nannte Montjoye hier Techniken wie QBS, QA, DP, SMPC und HE – keine von ihnen allein sei eine "Silver Bullet", um das Problem der De-Anonymisierung zu lösen.

Folgt man den Ausführungen des Wissenschaftlers, sollten Gesetzesvorgaben künftig genauer auf den nötigen Stand der Technik zur Anonymisierung eingehen. Sonst bleibt Donald Trump womöglich nicht der letzte Politiker, der einer Doxing-Attacke aus öffentlichen, anonymisierten Datenbeständen zum Opfer fällt. (hag [4])


URL dieses Artikels:
http://www.heise.de/-4624450

Links in diesem Artikel:
[1] https://www.nytimes.com/interactive/2019/05/07/us/politics/donald-trump-taxes.html
[2] https://aircloak.com/wp-content/uploads/Diffix-High-Utility-Database-Anonymization.pdf
[3] https://arxiv.org/abs/1804.06752
[4] mailto:hag@ct.de