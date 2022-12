Synthetische Daten sind groß im Kommen, genauer gesagt von Künstlicher Intelligenz (KI) erzeugte, strukturierte synthetische Daten. Von der Klimaforschung zur Suizidverhütung, von selbstfahrenden Autos bis zur Big-Data-Datenschutzlösung – synthetische Daten ziehen in immer mehr Bereiche ein. Für Datenschutzprojekte sind Testläufe mit strukturierten synthetischen Datensätzen dank des österreichischen Start-ups Mostly.ai gebührenfrei möglich.

Einsatz finden synthetische Daten insbesondere dort, wo es nicht genügend (variantenreiche) Daten gibt, oder wo vorhandene Originaldaten aus Gründen des Datenschutzes nicht direkt eingesetzt werden können. Beispielsweise im Bereich der Entwicklung selbstfahrender Autos kommt synthetische Datenerzeugung zum Einsatz, um mehr Varianten ähnlicher Situationen virtuell ausprobieren zu müssen.

So können einige bereits vorhandene Aufnahmen plötzlich auf die Fahrbahn laufender Kinder um tausende synthetische Aufnahmen erweitert werden, in denen unterschiedlich aussehende Kinder aus unterschiedlichsten Richtungen zu unterschiedlichen Tageszeiten und Witterungsverhältnissen auf Fahrbahnen unterschiedlicher Ausgestaltung laufen, ohne dass dafür echte Kinder aufgeopfert werden müssten.

Software für autonome Fahrzeuge kann dann mit allerlei synthetisch erzeugten Situationen virtuell konfrontiert werden und sich beweisen. Das US-Unternehmen Parallel Domain wurde 2017 dazu gegründet, virtuelle Welten aus echten Straßenkarten zu kreieren. Inzwischen füllt es diese Welten mit vielerlei Licht- und Wetterverhältnissen sowie synthetischen Fahrzeugen und Menschen, die sich mitunter überraschend verhalten. Zu den Kunden zählen beispielsweise Continental, Google, sowie Woven Planet (ehemals Toyota Research Institute, das Lyfts Selbstfahrtochter übernommen hat). Bekanntere Beispiele synthetischer Daten für mehr Vielfalt sind KI-generierte Bilder von Menschengesichtern oder Katzen.

Synthetische Daten für Datenschutz

Für Datenschutzbelange eingesetzt, ist Ziel von Datensynthetisierung, vorhandene Daten vollständig und unumkehrbar zu anonymisieren, ohne die Nützlichkeit und Nutzbarkeit der in den echten Daten enthaltenen statistischen Informationen zu verlieren. Die Anonymisierung durch synthetische Daten funktioniert allerdings nur korrekt, wenn wesentliche Schutzmaßnahmen gesetzt werden. Offensichtlichstes Beispiel: Die anhand der echten Daten trainierte KI darf die echten Daten (und Metadaten) natürlich nicht zu exakt nachbilden, sonst könnte man ja einfach die Datenbank kopieren.

Auch müssen Originaldaten (samt Metadaten) meist leicht reduziert werden: Spezielle Ausreißer sind zu entfernen, bevor die KI daran trainiert wird (im Fachenglisch rare category protection genannt). Es gibt einfach nicht so viele Deutsche, die mehrfache Formel-1-Weltmeister sind und schwere Ski-Unfälle hatten. Das Risiko, Michael S. in synthetischen Daten neu anzulegen, wäre zu groß. Weitere Schutzmaßnahmen müssen bei der Erstellung von Datenbanken aus synthetischen Daten greifen – die Fortschritte, die KI-Experten bei De-Anonymisierung gemacht haben, sind beachtlich. Details dazu sprengen allerdings den Rahmen dieses Artikels.

Branchenstandards sind beabsichtigt

Alexandra Ebert, Vorsitzende der IEEE Synthetic Data Industry Connections (Bild: mostly.ai)

Solche synthetische Daten, die auf echten personenbezogenen Daten beruhen, sind rechtlich gesehen anonymisierte Daten, technisch gesehen aber vielleicht gar keine personenbezogenen Daten. Standards gibt es für synthetische Daten und deren Einsatz für Datenschutzzwecke noch keine. Bei der IT-Branchenorganisation IEEE Standards Association gibt es eine Arbeitsgruppe, die Vorarbeiten für Standardisierung leistet. Sie heißt Synthetic Data Industry Connections und wird von der Österreicherin Alexandra Ebert organisiert, die im Brotberuf Chief Trust Officer beim Unternehmen Mostly.ai mit Sitz in Wien und New York City ist. Die Firma erzeugt unter besonderer Berücksichtigung des Datenschutzes synthetische Daten für Unternehmen wie Nvidia, Telefonica, Versicherungen, Banken oder die Stadt Wien.

Im März war Ebert im c't-Datenschutz-Podcast Auslegungssache 58 zum Thema synthetische Daten zu Gast. "Synthetische Daten funktionieren so, dass Du im Gegensatz zu traditioneller Anonymisierung nicht am original Datensatz herumschraubst, versuchst etwas wegzulöschen, zu ändern oder zu verfälschen, sondern Du nutzt den Originaldatensatz nur dazu, Künstliche Intelligenz zu trainieren. Diese KI hat dann vereinfacht gesagt die Aufgabe, herauszufinden, wie sich die (Erzeuger) der Daten verhalten. Was sind die Statistiken, die Muster, die zeitlichen Abhängigkeiten", erklärte sie in der Auslegungssache 58.

Traditionelle Anonymisierung nutzt destruktive Verfahren, die auf originalen Datensätzen beruhen und Teile wegstreichen. Oft bleibt nicht viel über. Das schränkt dann den Nutzen der Daten ein. "So etwas wie KI (auf traditionell anonymisierte Daten) zu trainieren, ist nicht mehr sinnvoll möglich", stellte Ebert fest. Gleichzeitig bliebe das Risiko der Re-Identifizierung bestehen: Denn bei Verhaltensdaten aus Big Data, beispielsweise Banktransaktionen oder Gesundheitsdaten, funktioniere traditionelle Anonymisierung nicht mehr. KI sei einfach zu gut bei Re-Identifizierung.

Beispiel-Projekte

Im Bereich Gesundheitsdaten sind leicht Beispiele zu finden. Zur Förderung künstlicher Befruchtungen könnte es helfen, die Qualität von Embryos im Frühstadium (Blastoyzsten) besser zu bewerten. An entsprechender KI forschen das Kinderwunschzentrum am Kepler Universitätsklinikum im oberösterreichischen Linz gemeinsam mit dem Software Competence Center Hagenberg,. Weil nicht so viele Bilder von Blastozysten zur Verfügung, hat eine KI (konkret Generative Adversarial Networks) weitere Varianten erzeugt. Nicht unähnlich hat BMW eine KI für Qualitätssicherung in der Produktion – trainiert wurde sie anhand hunderttausender auf Knopfdruck erzeugter, synthetischer Bilder.

Das US-Veteranenministerium hat mit dem Wettbewerb "Mission Daybreak" 20 Millionen Dollar ausgelobt, um Mittel und Wege zu finden, die Suizidraten unter Ex-Soldaten zu senken. In der ersten Runde des Wettbewerbs wurden 20 Projekte ausgesucht, die nun Zugriff auf synthetische Daten über Veteranen und deren Gesundheit erhalten. Die Echtdaten können aus Datenschutzgründen nicht preisgegeben werden. Die Preisträger des Wettbewerbs sollen dieser Tage bekanntgegeben werden. Dann wird sich zeigen, ob und wie sie die synthetischen Daten nutzen.

Für den Finanzbereich schildert Ebert im c‘t-Podacst das Beispiel von Transaktionsdaten einer Bank. Daraus geht hervor, wie oft Pensionisten zum Bankomaten gehen oder wie häufig Studenten bei Amazon einkaufen. "All das wird auf sehr granularer Ebene (von einer KI) erlernt; und dann, in einem komplett separaten Schritt, wird der Algorithmus genutzt, um neue synthetische Daten zu erzeugen", sagte Ebert, "Ich habe dann synthetische Konsumenten und deren synthetische Finanztransaktionen. Da gibt es keinen 1:1-Bezug zwischen einem echten (Menschen) und irgendeinem synthetischen Individuum." Aber trotzdem seien im Datensatz die gleichen Statistiken zu finden wie in den Originaldaten. Die für die Bank wertvollen Muster bleiben erhalten, jedoch ohne datenschutzrelevanten Personenbezug.

Kein simpler Remix

Anders ausgedrückt: Die Geschichten, die die synthetischen Daten erzählen, ähneln den Geschichten der Originaldaten sehr, aber die handelnden Charaktere sind andere. Allerdings soll es sich, richtig synthetisiert, nicht um einen simplen Remix echter Daten handeln, sondern um neu erstellte Datensätze. Mit Synthetisierung sollen über 90% der in einem Datenkonvolut enthaltenen Information erhalten werden, verspricht die Branche. Mit traditioneller Anonymisierung, korrekt umgesetzt, wäre es oft nur ein einstelliger Prozentwert.

Die synthetisierten Daten können mit Dritten geteilt oder als Open Data veröffentlicht werden. Und natürlich kann das eigene Unternehmen die synthetischen Daten dort verwenden, wo es die Originaldaten nicht auswerten darf, weil diese zu anderen Zwecken erhoben wurden (juristisches Stichwort: Zweckbindung).

Um Unternehmen und Forschern den Einstieg in die Arbeit mit synthetischen Daten für Datenschutzbelange zu erleichtern, stellt Mostly.ai einen gebührenfreien Generator für Versuche zur Verfügung. Mit dem Testdatengenerator kann jeder Nutzer eigene Daten einsetzen und daraus pro Tag bis zu 100.000 Zeilen synthetischer Daten generieren lassen.

