Die Entschlüsselung der Panama Papers

Bankenviertel in Panama-Stadt. Bild: Dronepicr/CC-BY-SA-3.0

Der 2,6 Terabyte große Datenberg konnte nur mit neuer Big-Data-Technik durchforstet werden

Die durch die Panama Papers ausgelösten Schockwellen reichen bis heute um den gesamten Globus. Sie sind das Ergebnis der erfolgreichen Bewältigung einer schier unglaublichen Datenmenge durch rund 400 Journalisten in rund 80 Ländern. Was kaum jemand fragt: Wie war dieses einzigartige Unterfangen rein technisch überhaupt möglich?

Werfen wir zunächst einen Blick in die USA zur Zeit der Watergate-Affäre: Ab 1972 spielte ein geheimer Informant unter dem Decknamen "Deep Thoat" den beiden Reportern Bob Woodward und Carl Bernstein von der Washington Post Informationen zu, die zwei Jahre später zum Rücktritt von Präsident Richard Nixon führen sollten. Heute wissen wir, dass der nach einem Pornofilm benannte Informant der stellvertretende FBI-Direktor Mark Felt war. Dessen "Informationen" beschränkten sich im Wesentlichen auf die Bestätigung von Thesen, welche die beiden Journalisten bereits eigenständig erarbeitet hatten.

Völlig anders war die Lage, als ein anonymer Informant unter dem Decknamen John Doe den beiden Reportern Bastian Obermayer und Frederik Obermaier von der Süddeutschen Zeitung geheime Informationen zu den Machenschaften der Anwaltskanzlei Mossack Fonseca aus Panama zuspielte. Innerhalb eines Jahres übermittelte John Doe 2,6 Terabyte an Daten - 11,5 Millionen Dokumente - zu Hunderttausenden von in Steueroasen gegründeten Briefkastenfirmen an die beiden Berichterstatter der SZ. Die Panama Papers sind das mit Abstand größte Datenleck der Geschichte.

Zum Vergleich: Die gesamte Datenmenge der von WikiLeaks veröffentlichten Dokumente beträgt gerade einmal 1,7 Gigabyte. Sie passt somit gleich dreimal bequem auf eine einzige Brenn-DVD. Die Datenmenge der Panama Papers ist dahingegen über 1.500 Mal so groß. Um sie auf DVD zu brennen, bräuchte man über 550 der silbernen Scheiben. Diese würden sich, samt ihrer Hüllen fast 2,80 m hoch stapeln. Doch wie war es überhaupt möglich, aus diesem Datenwust sinnvolle Informationen zu destillieren und diese mit fast 400 Journalisten auf der ganzen Welt auszutauschen?

Tatsache ist: Noch vor zehn Jahren wäre es schon rein technisch gar nicht möglich gewesen, eine derartig gigantische Datenmenge so weit zu analysieren, dass man darüber in einem Umfang hätte berichten können, wie dies nun bei den Panama Papers der Fall ist. Dies ist erst heute möglich durch den gezielten Einsatz neuester Big-Data-Technologien. Diese Arbeit begann bei der Süddeutschen Zeitung mit der Erfassung der Daten mittels Nuix, eines Programms, das auch von internationalen Ermittlungsbehörden zur Entschlüsselung großer Datenmengen verwendet wird.

Die 11,5 Millionen geleakten Daten besaßen folgende Struktur: Bei Mossack Fonseca wird für jede Briefkastenfirma ein eigener Ordner angelegt. Dieser enthält neben vielen E-Mails zahlreiche weitere Dokumente, wie Verträge, Abschriften und eingescannte Schriftstücke. Ein einziger Ordner umfasst manchmal mehrere Tausend Seiten an Verträgen und an Schriftverkehr. Um diesen gigantischen Berg an Dokumenten überhaupt nutzbar machen zu können, waren zunächst zwei Schritte notwendig, für die Nuix zur Anwendung kam:

Zunächst einmal mussten sämtliche eingescannten Dokumente per optischer Zeichenerkennung ("optical character recognition" oder kurz OCR) in eine maschinenlesbare - und somit überhaupt erst per Computer durchforstbare - Form gebracht werden. Auf diese Weise wurden Bilder von eingescannten Ausweisen, unterschriebenen Verträgen und vieles mehr in ein Format gebracht, das anschließend mit einer einfachen Suchmaske durchkämmt werden konnte.

Diese Durchsuchung erfolgte bei der SZ ebenfalls mithilfe von Nuix. Hierbei wurden die Dateien zuerst so indiziert, also mit Markierungen für bestimmte Wörter versehen, dass sie anschließend systematisch nach bestimmten Namen von Personen und Firmen durchsucht werden konnten. Aber auch dies war nur ein erster Schritt. Denn anschließend mussten Wege gefunden werden, diese Dokumente mit fast 400 Journalisten in rund 80 unterschiedlichen Ländern auszutauschen und von diesen tiefer analysieren zu lassen.

Da 11,5 Millionen Daten selbst mithilfe von modernster Big-Data-Technologie schlicht zu viel Material sind, um von nur zwei Personen ausgewertet werden zu können, gaben Bastian Obermayer und Frederik Obermaier diese an das International Consortium for Investigative Journalists (oder kurz: ICIJ) weiter. Mit dem ICIJ hatte die SZ zuvor bereits bei Recherchen zu den Offshore-Leaks, den Lux-Leaks und den Swiss-Leaks erfolgreich zusammengearbeitet. Obwohl so letztendlich fast 400 Journalisten an der Aufschlüsselung der Panama Papers beteiligt waren, dauerte es rund ein Jahr, bis jene am 3. April 2016 der weltweiten Öffentlichkeit präsentiert werden konnten.

Damit diese auf den ganzen Globus verteilten Reporter überhaupt erst sinnvoll - und in einer Umgebung, in der ihre brisanten Daten geschützt waren - miteinander kommunizieren konnten, erschuf das ICIJ mit dem Open-Source-Netzwerk-Tool Oxwall ein privates soziales Netzwerk, das einen gesicherten Zugang besaß. Mit diesem konnten - ähnlich wie bei Facebook - Neuigkeiten und Daten mit allen beteiligten ICIJ-Mitgliedern geteilt und kommentiert und auch private Nachrichten zwischen einzelnen Journalisten verschickt werden. Doch auch dies war nur der Anfang:

Um auch die Dokumente maschinenlesbar zu machen, die noch nicht bei der Süddeutschen mit Nuix konvertiert wurden, griffen die Reporter vom ICIJ auf die Open-Source-Tools Apache Tika und Tesseract für das OCR zurück. Zusätzlich schuf das ICIJ sogar noch ein eigenes kleines Programm zur Datenkonvertierung, das sie Extract nannten. Nun wurden die konvertierten Daten an Apache Solr geschickt, das die Indizierung der Daten vornahm. Zum Durchsuchen der Daten setzte das ICIJ wiederum das Open-Source-Programm Project Blacklight, das beispielsweise auch von der Bibliothek der New Yorker Columbia Universität verwendet wird.

Die Tools, welche sich die ICIJ-Reporter auf diese Weise aus Open-Source-Progammen selbst zusammengebastelt haben, besaßen eine Reihe von handfesten Vorteilen: Sie waren so leicht zu händeln, dass auch die oftmals besonders erfahrenen, aber meist weniger technikaffinen Journalisten gut mit ihnen umgehen konnten. Zudem konnten die Reporter mit diesen Tools nicht nur nach exakten, sondern ebenfalls nach nur verwandten Begriffen suchen. Beispielsweise zeigte die Suche nach dem Namen "Joaquim Loera" bald schnell auch Ergebnisse für "Joaquim Guzmán Loera".

Auf dieser Weise lassen sich auch Verwandtschaftsverhältnisse schneller aufdecken. So zeigte sich zwar schnell, dass nur verhältnismäßig selten hochrangige Politiker selbst Scheinfirmen in Steuerparadiesen gegründet hatten. Doch dafür traf dies auf auffallend viele nahe Verwandte von Staatsdienern zu. Zudem konnten diese Tools so modifiziert werden, dass sich die Panama Papers nicht nur nach einzelnen Namen, sondern auch gleich nach ganzen Namensgruppen durchforsten ließen. So konnten die Reporter Listen mit allen wichtigen Politikern ihres jeweiligen Landes eingeben, um mit einem Schlag zu sehen, ob diese möglicherweise etwas auf dem Kerbholz hatten.

Doch sogar auf diese Weise wurde erst die Spitze des Eisbergs sichtbar. Der weit größere Teil an wichtigen Informationen blieb weiterhin im undurchdringlichen Datenmeer verborgen. Denn nur wenige Briefkastenfirmen ließen sich direkt ihren wahren Besitzern zuordnen. Denn es gehört zu dem von Mossack Fonseca offerierten Service, dass die panamaische Kanzlei eigene Mitarbeiter als nominale Direktoren oder als treuhänderische Verwalter der von ihr gegründeten Briefkastenfirmen stellt.

Um selbst solche verschleierten Besitzverhältnisse enttarnen zu können, brachte das ICIJ ihr wohl schwerstes Big-Data-Geschütz in Stellung: den kombinierten Einsatz der Graphdatenbank Neo4j und der Visualisierungssoftware Linkurious. Diese Kombination erlaubt die Visualisierung komplexer Zusammenhänge zwischen einer Vielzahl unterschiedlicher Akteure mit leicht lesbaren Pfeildiagrammen.

Mittels einer ähnlichen Graphtechnologie gelang es dem ICIJ schon 2013 bei den Offshore Leaks nachzuweisen, dass sich ein bestimmtes Bild von Van Gogh, das in dem berühmten Madrider Museum Thyssen-Bornemisza ausgestellt ist, im Besitz von Carmen Cervera, der Baroness Thyssen-Bornemiza, befindet. Allerdings befindet sich das Gemälde nicht direkt im Besitz der bekannten Sammlerin, sondern gehört offiziell einer Firma auf den Cook Islands, hinter welcher jedoch in Wahrheit die Baroness steckt.

Solche Skandale kamen bei den Offshore Leaks aufgrund der Verwendung von Graph-Software ans Licht, obwohl das ICIJ zu diesem Zeitpunkt noch recht simple Programme verwendete. Die Kombination von Neo4j und Linkuious kam dahingegen erstmals 2014 bei den Swiss-Leaks zum Einsatz. Damals deckte das ICIJ die betrügerischen Machenschaften von über 100.000 Kunden der Schweizer HSBC Bank auf.

Ein großes Plus der Programme Neo4j und Linkurious besteht in deren Verwendung von Fuzzy-Technologie: Diese ermöglicht es selbst dann eine bestimmte Person zu finden, wenn man deren Namen nicht ganz richtig in die Suchmaske eingibt. - Bei fast 400 Journalisten aus rund 80 unterschiedlichen Ländern kann man sich leicht vorstellen, was für eine babylonische Sprachverwirrung es bei der Suche ansonsten gegeben hätte!

Das Knacken der Panama Papers ist ein gewaltiger Triumph bei der Aufdeckung globaler mafiöser Machenschaften, in welche Personen wie der Präsident Argentiniens und enge Freunde des russischen Präsidenten Wladimir Putins verwickelt sind. Dieser Schlag ist das Ergebnis der erfolgreichen Zusammenarbeit einer Vielzahl unabhängiger Journalisten. Dass dies möglich wurde, ist auch das Resultat neuester Big-Data-Technologien, wie sie vor zehn Jahren noch gar nicht zur Verfügung standen. Mit anderen Worten: Damals hätte selbst der ICIJ wie der Ochs vor dem 2,6 Terabyte großen Datenberg gestanden.

(Gregor Torinus)

Anzeige