Cybersicherheit: KI fälscht Dokumente für Honeypots

Ein neues System natürlicher Sprachverarbeitung stellt gefälschte Dokumente her. Damit sollen Hacker getäuscht und geistiges Eigentum geschützt werden.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 11 Beiträge

(Bild: Chris Yang / Unsplash)

Von
  • Ben Schwan

Von der Korrektheit mancher Dokumente hingen schon Kriege ab. Fehlinformationen können auf eine falsche Fährte locken – so geschehen im Zweiten Weltkrieg etwa bei der "Operation Mincemeat". Damals ketteten die Briten angebliche Geheimdokumente an eine Leiche, deren Fund die Deutschen für Zufall hielten. Sie glaubten den darin vermeintlichen "Geheiminformationen" und änderten ihre eigene Militärstrategie entsprechend erwartbar.

Dies ist das vielleicht bekannteste Beispiel für eine Spionage-Technik, die sich "Kanarienfalle" nennt. Bei ihr werden mehrere Kopien gefälschter Dokumente im Umlauf gebracht, die entweder von den Originalen ablenken sollen oder dabei helfen, einen Maulwurf aufzuspüren. Am Institut für Informatik der Dartmouth University soll der altbewährte Spycraft-Trick nun von Künstlicher Intelligenz verfeinert werden.

Das KI-System namens WE-FORGE generiert gefälschte Geheiminformationen. "Das System erstellt Dokumente, die den Originalen ausreichend ähneln, um glaubwürdig zu erscheinen, und ausreichend abweichen, um falsch zu sein", erklärt V.S. Subrahmanian, Professor für Cybersicherheit, Technologie und Gesellschaft und Direktor des Instituts für Sicherheit, Technologie und Gesellschaft der Hochschule.

Neu ist die Idee nicht: Experten nutzen bereits seit längerem digitale Kanarienfallen in sogenannten Honeypots. In den Honeypots befinden sich dann sogenannte Honey Files ("Honigdateien"), die wie digitale Lockvögel funktionieren. Mit WE-FORGE soll man die Erstellung dieser Informationen nun maschinellem Lernen überlassen: Das System generiert eine Vielzahl von Fake-Dateien. Dabei kommen Randomisierungsverfahren zum Einsatz: Das erschwert die sichere Identifizierung des Originals erheblich und macht sie besonders zeitintensiv, wenn nicht sogar unmöglich.

Der Algorithmus berechnet Ähnlichkeiten zwischen Konzepten in einem Dokument und analysiert die Relevanz jedes Wortes im Gesamtkontext. Doch ein einzelnes Patent kann Tausende solcher Konzepte umfassen, hinzu kommen noch mögliche Ersetzungen. Dem Algorithmus fallen also Millionen Möglichkeiten ein, ein Dokument aus einer Vorgabe zu fälschen. Um vielfältige Varianten zu finden, sortiert das System Konzepte in einzelne Bereiche und berechnet mögliche Austausch-Kandidaten für jeden davon. "Man kann WE-FORGE auch Beiträge von Autoren des Originaldokuments geben", erklärt Dongkai Chen, Doktorand in Dartmouth und Mitentwickler des Systems. Es sei "die Kombination von menschlichem und maschinellem Einfallsreichtum", welche den Diebstahl von geistigem Eigentum kostspieliger mache.

Insbesondere technische Design-Dokumente eignen sich für das System, beispielsweise Rezepturen von Medikamenten oder Baupläne aus der Militärtechnik. In einem Testlauf sollten sachkundige Probanden gefälschte Patente im Bereich der Informatik und Chemie von den Originalen unterscheiden. Laut der im Journal ACM Transactions on Management Information Systems veröffentlichten Studie sind die gefälschten Dokumente von WE-FORGE dabei fast durchweg glaubwürdig gewesen. (bsc)