Auf der Suche nach der Unterscheidung von Normalität und scheinbarer Normalität

US-Geheimdienst entwickelt ein Folgeprojekt des Total Information Awareness Program (TIA), die Ausschreibung weist auf Hunderte von Überwachungsprojekten wie das vom Kongress verbotene TIPS-Programm hin

Seit dem 11.9. sind die Schleusen für Data-Mining-Programme weit offen, die möglichst viele Informationen aus möglichst vielen Quellen sammeln und nach verdächtigen Mustern durchsuchen sollen. Das ist manchmal wie beim Total Information Awareness Program (TIA) des Pentagon oder dem Terrorism Information and Prevention System (TIPS) des US-Justizministeriums dem Kongress zu weit gegangen, aber die Tendenz nicht nur in den USA ist seitdem, lieber durch Einschränkungen der Bürgerrechte möglichst viele Informationen zu sammeln und zu durchsuchen, auch wenn sie zu keinen "Erfolgen", sondern nur zu Fehlschlägen führen, als zu wenig zu wissen. Die Überwachungsmentalität schlägt nun auch wieder in einem Nachfolgeprogramm von TIA mit dem Namen Tangram durch, das von der obersten Geheimdienstbehörde DNI entwickelt wird und nach dem chinesischen Puzzle-Spiel benannt wurde. Auf das Programm, das zwar ausgeschrieben wurde, aber bislang kein Aufsehen erregt hat, ist das National Journal gestoßen: Terrorist Profiling, Version 2.0.

Tangram, so heißt es in der Ausschreibung vom November 2005, ist ein "vollautomatisches, permanent arbeitendes Unterstützungssystem zur Analyse von Geheimdienstinformationen". Es gebe bereits einige Methoden und Algorithmen, um "verdächtige Muster terroristischer Aktivitäten" zu erkennen und zu verfolgen. Das Problem aber ist, dass die Systeme nicht die gewünschten Datenmengen in kurzer Zeit, in "Stunden oder Minuten", verarbeiten können, sondern dafür Wochen oder gar Monate benötigen.

Entwickelt und gestestet werden sollen Verfahren, die Hypothesen erzeugen, um 1) die Absichten, Methoden, Logistik oder geplanten Ziele aufgrund von in den gesammelten Daten ausgedrückten Verhaltensmustern, Beziehungen oder Kontext darzustellen, und 2) aufgrund von Feedback von Analysten über frühere Hypothesen. Das System soll sich aber auch selbst automatisch auf ein effektives Verhältnis von Datenmengen und Lösungszeit einstellen. Dazu müssen Eigenschaften der Daten, Leistungen und Anforderungen der Algorithmen und verfügbare Hardware-Ressourcen so berücksichtigt werden, dass eine Hypothesenbildung bestmöglich zustande kommt, wobei kein Optimum erreicht werden muss.

Bei den bereits vorhandenen Data-Mining-Programmen wird beispielsweise neben dem Programm Novel Information for Massive Data (NIMD) auf EAGLE (Evidence Assessment, Grouping. Linking and Evaluation) verwiesen, bei dem Objekte und Aktivitäten mit einem Modell der Schuld durch Assoziation verbunden werden. EAGLE sei 2005 trotz der Erfolge eingestellt worden, weil es zu schwerfällig gewesen war. Die Programme sind also vorhanden, aber man sucht nach Verfahren, um Zehntausende Analysen gleichzeitig durchführen zu können.

"The underlying assumption of existing approaches is that behaviors are constant. Yet, behaviors are not constant.... How can we profile dynamic behavior well enough to be able to identify, with more-or-less confidence, entities who want to remain anonymous?

Zudem wünscht man einige nicht unerhebliche Verbesserungen. Das Tangram-Programm mache beispielsweise noch keine Unterscheidungen zwischen "beabsichtigten Verhaltensweisen, um der Erkennung zu entgehen", und den Folgen von falscher Datenerhebung, weil sie für das System gleich aussehen. Man müsse also das System selbst unterscheiden lassen zwischen normalen Verhaltensweisen und "scheinbar normalen Verhaltensweisen des Beobachteten und des beobachtenden Systems". Überdies sei es auch nicht möglich, normale Verhaltensweisen als solche zu erkennen, festgestellt werden in der Regel nur Verhaltensveränderungen, "die zunächst als anormal, dann als verdächtig und schließlich vielleicht als etwa vortäuschend erscheinen". Meist sei auch wenig über mögliche Terroristen bekannt, die sich um Täuschung bemühen, weswegen man kaum "bekannte Informationen" habe. Daher wünscht man sich Programme, die zunächst bedeutungslose Informationen bedeutsam machen. Wichtigstes Ziel sei es, die "wichtigsten bekannten Unbekannten" zu finden. Allerdings ist man bescheiden, die Erkennung von Täuschungsmanövern sei zwar das wichtigste Ziel, aber die Feststellung von anomalen und verdächtigen Verhaltensweisen wird als zufrieden stellendes zweitbestes Ergebnis bezeichnet.

Interessant aber sind weitere Ausführungen. Man habe einige "terroristische Datenbanken", die aber vorwiegend aus berichteten, aber nicht in ihrer Wichtigkeit und Bedeutung interpretierten "Informationsfragmenten" bestehen. Damit gemeint sind Datenbanken, die von Freiwilligen beispielsweise im Hinblick auf Lebensmittelsicherheit oder Kundenbeschwerden gefüllt werden. Diese Informationen seien mit sehr viel Rauschen behaftet, könnten aber sinnvoll verwendet werden, um plötzlich entstehende Trends zu erkennen. Dann aber ist auch in der Ausschreibung von Ende 2005 die Rede von "neuen Systemen wie dem TIPS-System, durch das verdächtiges Verhalten von Transport- und Hafenarbeitern berichtet werden soll" (Ashcrofts Spitzelsystem).

Das Terrorism Information and Prevention System (TIPS), das vom damaligen Justizminister Ashcroft als landesweites Spitzelsystem aufgebaut wurde, ist vom Kongress bekanntlich Ende 2002 verboten worden (Big Brother Staat USA?). Offenbar wurde es doch heimlich weiter geführt. Das National Journal fragte beim DNI nach. Dort hieß es, die Autoren der Ausschreibung hätten wohl nicht gewusst, was es mit TIPS auf sich hat und sich darauf nur als Beispiel berufen:

The people writing this [Tangram] packet really didn't know any of this background. They had been thinking of ideas like the TIPS program, and referred to it in that way.

Tim Edgar, Datenschutzbeauftragter des Office of the Director of National Intelligence

Weiter heißt es, dass die Geheimdienste "Hunderte von kleinen Datensammlungen wie TIPS" hätten. Man könne damit räumliche Analysen für "Hotspots" oder "Raum-Zeit-Analysen zur Erkennung von bislang unbeobachteten Trends" machen. Man habe aber noch keine effizienten Verfahren, um diese Quellen auszubeuten, und suche daher nach neuen Ideen, diese Lücke aufzufüllen. Dabei wird an eine "Kombination aus der Erkennung von Verbindungen, lernende Mustererkennungsprogrammen und anderen Werkzeugen (gedacht), die in der Epidemiologie, in der räumlichen Statistik, in dynamischen Meinungsnetzwerken und der Graphentheorie" angewendet werden.

Im September 2006 wurden drei Aufträge in Höhe von 12 Millionen US-Dollar für die Weiterentwicklung von Tangram bewilligt, insgesamt stehen für das Programm 49 Millionen zur Verfügung. Zwei der mit einem Auftrag bedachten Firmen, Booz Allen Hamilton und 21st Century Technologies, waren bereits an TIA beteiligt gewesen. SRI International war an dem TIA-Vorläufer Genoa beteiligt (Totale Überwachung). Obgleich zur Evaluation von Tangram Datenbanken benutzt werden, fällt in der Ausschreibung auf, dass nie die Rede von Vorkehrungen zum Datenschutz ist. Der DNI-Datenschutzbeauftragte erklärte, es würde sich um ein reines Forschungsprogramm handeln: "Wir wurden informiert, dass es nicht zum operativen Einsatz verwendet wird." Zudem werde es angeblich nur mit anonymisierten Informationen getestet, bislang sei es nur "künstlichen Daten oder mit solchen, die von Auslandsgeheimdiensten stammen", getestet worden (Florian Rötzer)