Künstliche Intelligenz trifft Datenschutz

Spezifische Risiken durch KI

Das Auflisten aller Gewährleistungsziele [5] und der Anforderungen konventioneller IT-Sicherheit auf dem nicht kognitiven Layer der IT würden im Rahmen des Artikels zu weit gehen. Für eine Übersicht sollen die Antworten auf folgende drei Fragen helfen:

  1. Was ist zu prüfen?
  2. Wie lässt sich die Zweckbindung sichern?
  3. Wie kann eine KI gestoppt werden?

Prüfbarkeit einer KI herstellen

Eine wesentliche Anforderung an Verarbeitungen mit KI-Komponenten ist die Transparenz, genauer nach deren Prüffähigkeit. So verlangt Artikel 13 DSGVO: Es sind "(...) aussagekräftige Informationen über die involvierte Logik sowie die Tragweite und die angestrebten Auswirkungen einer derartigen Verarbeitung für die betroffene Person" zu geben. Das heißt: KI-Systeme müssen für eine Soll-Ist-Bilanzierung im Hinblick auf bestimmte Eigenschaften zugänglich sein.

Genauer formuliert: KI-Systeme sind auf der Grundlage der mit den Schutzzielen verbundenen Maßnahmen zu spezifizieren, der Betrieb ist unter Ausweis einer Prüfmethodik zu dokumentieren und anhand von Protokollen – durch aktive Selbstauskünfte und bei Interaktion mit anderen Systemen durch Fremdprotokolle – nachvollziehbar zu gestalten. Ein Datenschutz-Managementsystem hat schließlich dafür zu sorgen, dass Datenschutzdefizite integer festgestellt und behebbar sind und tatsächlich vom verantwortlichen Systembetreiber behoben werden.

Durch KI beziehungsweise ML ist eine neue Klasse an Transparenz in der Spezifikationsphase bezüglich der Daten entstanden, nämlich die Qualität der Aufbereitung der Daten für eine KI, das sogenannte Kuratieren, zu sichern. In diesem Sinne müssen Entwickler die folgenden Eigenschaften dokumentieren, um bei einer DSFA für ein KI-Verfahren das Schutzziel Transparenz zu erfüllen [6]:

  • die Herkunft der Daten,
  • die Form der Veredlung (Definieren, Sammeln, Selektieren, Umwandeln, Verifizieren) und Anreicherung der Rohdaten zu Modell- oder Trainingsdaten,
  • der Lernstil (Supervised Learning, Unsupervised Learning, Reinforcement Learning),
  • die verwendeten Lernmodelle (von Regressionsmodell bis KNN mit ML),
  • der potenzielle Einsatz einer speziellen KI-Komponente,
  • menschliche Beteiligung an den Entscheidungsfindungen innerhalb einer Verarbeitung,
  • die Institutionen, die die Komponenten des KI-Systems hergestellt und über die Auswahl, Konfiguration, Implementation und Betrieb der verwendeten KI-Technik, das Kuratieren der Daten, das Training und der Auswahl der Modelle entschieden haben,
  • ein Gutachten zur Vollständigkeit der Repräsentativität der von der KI beherrschten Wissensdomäne (die sich historisch ändert),
  • die Implementierung des KI-Algorithmus, insbesondere der regelbasierten Instruktionen und Entscheidungen,
  • der Einbau von Prüfankern, Prüfagenten, Selbstdokumentationsmechanismen.

Zweckbindung einer KI sicherstellen

Die Zwecksetzung für die Nutzung einer KI geschieht durch den Verantwortlichen und muss legitim sein. Die nachfolgende Zweckdefinition für die Verarbeitung muss rechtskonform erfolgen, die Zwecktrennung von anderen, inhaltlich benachbarten Verarbeitungstätigkeiten muss scharf und entschieden sein, damit sich die Zweckbindung der Datenverarbeitung über alle Weisungshierarchien der Organisation und alle Ebenen der technischen Infrastruktur hinweg überprüfen beziehungsweise nachweisen lässt.

Die wesentliche generische Maßnahme zum Beherrschen durch Zweckbindung ist die funktionale Kapselung, Isolation beziehungsweise Trennung von Komponenten, um kleinteilige Prüfungen für Teilfunktionen durchführen und Bedingungen für Aktoren formulieren zu können. Die generelle Strategie dabei ist die, das unvermeidliche Maß an Nichtkalkulierbarkeit beziehungsweise die erwartete Unsicherheit möglichst sicher zu isolieren.

Anders formuliert geht es darum, Inseln zu bilden, deren Vertrauensniveaus beispielsweise auf der Grundlage eines statistischen Fehlerverteilungsmodells kalkulierbar sind [7]. Ein schwerer Fehler in einer Komponente darf sich bei einem komplexen Automaten nicht auf das gesamte System ausbreiten können (Konzept Brandmauer oder Schiffsschott). Auf keinen Fall darf bei einem KNN passieren, dass durch geringfügige Änderungen der Trainingsdaten das "katastrophische Vergessen" von zuvor stabil Abgebildetem einsetzt. Für Verantwortliche und Betroffene muss zudem jederzeit klar sein, in welchem Zustand sich alle Komponenten eines größeren IT-Gesamtsystems befinden, das in der Praxis zumeist aus verschiedenen Typen von KI-Modellen besteht.

Um die Kalkulierbarkeit zu verbessern, lassen sich zwei gegensätzliche Strategien verfolgen: Trivialisierung und Komplexitätssteigerung. Für Ersteres sollte die Modellierung weg von KI/ML hin zu Entscheidungsbäumen gehen, die beispielsweise auf linearer Regression oder Cluster-Bildungen basieren. Überspitzt lautet die Strategie "Weg von der bloßen Korrelation durch Musteradaptionen und hin zur theoriegestützten, regelbeherrschbaren Kausalität". KI-Entwickler müssen insofern nachweisen können, dass ihre Entscheidungskomponenten nicht weniger riskant als mit KNN/ML umsetzbar sind, selbst wenn die Entstehungskosten dafür um vieles höher sind.

Für den gegenteiligen Ansatz der Komplexitätssteigerung ließe sich eine zweite KI, die durchaus ebenfalls auf KNN/ML basieren kann, auf das Einhalten des Zwecks der Produktions-KI ansetzen. Die zweite KI warnt oder greift besser noch unmittelbar regulierend ein. Diese Strategie ließe sich bezeichnen als "Feuer mit Gegenfeuer unter Kontrolle halten" Es zeichnet sich ab: Die Vielschichtigkeit einer grundrechtskonformen Regulation komplexer Verarbeitungstätigkeiten ist dermaßen groß, dass ein tatsächlich wirksamer Datenschutz auf die Entwicklung von Prüf-KI angewiesen sein wird.

Für eine Prüf-KI ist zu fordern, dass sie unabhängig von der Produktions-KI agiert. Diese Forderung nach Unabhängigkeit durch Trennung und Isolation besteht streng genommen für den Hersteller der Hardware, des Betriebssystems und der Middleware bis hin zu den kognitiven Ebenen und deren Kuratoren, Customizers und Trainern.

Es ist somit geboten, dass gerade innerhalb einer Domäne unterschiedliche Ökosysteme für KI – neben dem amerikanischen und dem chinesischen mindestens noch ein europäisches – ausgebildet werden, um zumindest über integre Prüfverfahren zu verfügen, sollte die KI der Produktionsebene auf Systemen bekannter Monopolhersteller laufen. Die Einhaltung des definierten Zwecks und das Durchsetzen der Zweckbindung für eine KI zu sichern und nachzuweisen, dürfte die Hauptschwierigkeit einer DSFA bilden.