Verräterische Metadaten in Unternehmensdokumenten

Das kostenlose Tool Foca extrahiert aus öffentlich zugängliche Dokumenten und Bildern verborgene Informationen. Es ist oft erstaunlich, was dabei alles zusammenkommt.

Lesezeit: 6 Min.
In Pocket speichern
vorlesen Druckansicht
Von
  • Daniel Bachfeld

In den letzten Wochen haben sich Meldungen über Einbrüche in Unternehmen gehäuft. Bei HBGary, RSA, Epsilon, Barracuda Networks und anderen haben Hacker teilweise äußerst brisante Daten ausgespäht. Zumindest bei RSA handelte es sich um eine gezielte Attacke, bei der die Angreifer sich einzelne Mitarbeiter als Ziel ausgesucht hatten. Offenbar haben sie dafür vorab Informationen über die Zielpersonen im Internet gesammelt, wofür sich soziale Netze wie Facebook und Xing eignen.

Die US-Army bietet zahlreiche PDF-Dokumente zum Download an. Welche davon ungewollt Informationen preisgeben, ist schwer einzuschätzen.

Daneben bieten von Unternehmen zum Download angebotene Dokumente aber ebenfalls oft reichlich interessante Informationen – meist ohne es zu wollen. Office-Dokumente, Präsentationen, Bilder und andere Dateien enthalten Metadaten wie Ersteller, Datum, benutzte Software und andere Informationen, die wertvolle Hinweise für gezielte technische oder Social-Engineering-Attacken liefern können.

Wie geschwätzig die auf der eigenen Webseite zum Download angebotenen Dateien sind, ließe sich durch eine manuelle Kontrolle feststellen, bei der man jede einzelne in die damit verknüpfte Anwendung lädt und die Eigenschaften kontrolliert. Leichter und schneller geht das mit der kostenlosen Version des Metadaten-Extraktionstool Foca. Für dessen Download ist nur die Angabe einer E-Mail-Adresse erforderlich.

Mit Foca muss man nicht einmal die Pfade zu einzelnen Dateien wissen oder vorgeben, um sie herunterzuladen und zu analysieren. Es genügt, die Domain und die zu analysierenden Dateitypen vorzugeben. Damit füttert Foca die Suchmaschinen Google, Bing und Exalead, übernimmt die Ergebnisse in eine Liste und startet mit dem Herunterladen der gefundenen Dokumente. Das Tool unterstützt diverse Dokumentenformate wie .doc, .pdf, ppt, odt, xls und jpg. Die Angabe site:heise.de filetype:pdf liefert alle auf Servern in der Domain heise.de gefundenen PDF-Dokumente zurück.

Foca zeigt zu den gefundenen Anwendernamen das benutzte Betriebssystem. Zudem zeigt das Tool Verknüpfungen mit Servern im Dokument auf.

Wird die Liste der von Suchmaschinen gefundenen Links zu Dokumenten zu groß oder dauert es zu lange, kann man die weitere Suche abbrechen und manuell der Download der Dateien im Kontextmenü (Rechtsklick) anstoßen. Nach dem Download lassen sich nun die Metadaten extrahieren (Kontextmenu). Foca sortiert sie unter dem Punkt "Metadata Summary" in die Rubriken User, Folders, Printers, Software, E-Mails und Operating-Systems ein. Zusätzlich sind die Daten auch für jedes Dokument einzeln einsehbar. Je nach Dokumentenart können einige Punkte vaiieren, wie etwa EXIF-Daten aus eingebetteten JPG-Bildern in Präsentationen.

Unter Users finden sich vollständige Nutzernamen oder deren Kürzel, Folders offenbart vollständige lokale Pfade auf dem PC des Erstellers und der Ordner Operating Systems gibt Auskunft über die eingesetzte Windows-Version oder ob gar Mac OS X oder Linux zum Einsatz kamen. Der Ordner Software listet die benutzte Software auf, etwa Adobe Distiller, Microsoft Office oder OpenOffice. Je nach Aktualität des Dokuments können Angreifer aus den gelieferten Daten Schlüsse auf die Verwundbarkeit eines Systems ziehen und beispielsweise gezielt einen Mitarbeiter per E-Mail kontaktieren und für dessen Office-Programm einen Exploit mitschicken. Grundsätzlich muss ein Anwender die von Foca gelieferten Daten jedoch selbst interpretieren und einschätzen – Foca ist kein Schwachstellenscanner oder Angriffstool.

In Präsentationen eingebettete Bilder von Kameras enthalten wiederum Metadaten beispielsweise Kameramodell und das Thumbnail des unverfälschten Bilds.

Einige Dokumentenformate sind auskunftsfreudiger als andere: PowerPoint-Präsentationen lieferten im Test mehr Informationen als etwa PDF-Dokumente. Das liegt unter anderem daran, dass beispielsweise beim Konvertieren von Office-Dokumenten ins PDF-Format einige Metadaten nicht übernommen werden. PowerPoint-Präsentationen sind auch deshalb interessanter, weil Foca aus eingebetteten Bildern weitere Metadaten wie die benutzte Kamera auslesen kann (EXIF). In der Regel enthalten die EXIF-Daten auch noch ein Thumbnail des Originalfotos – das oft trotz Bearbeitung des Fotos nicht mehr verändert wird. Ein unkenntlich gemachter Bildausschnitt im Foto kann also im Thumbnail unter Umständen noch zu erkennen sein.

Office-Dokumente enthalten daneben oft Pfadangaben ihres Speicherortes, wobei allein schon die Angaben im Pfad Rückschlüsse auf Windows-Anmeldenamen, Projektnamen und dergleichen zulassen. In manchen Fällen kann Foca sogar die Daten benutzter Drucker extrahieren, etwa intern verwendete Domain-Namen. Im unseren kurzen Versuchen mit dem Tool stießen wir jedoch auf kein einziges Dokument, das solche Angaben enthielt.

Mitunter enthalten im Dokument gefundene Pfadnamen Hinweise auf die Struktur eines PCs oder andere Projekte.

Mit Foca kann man die gesammelten Metadaten einer weiteren Analyse unterziehen, um Informationen über Netzwerkangaben zu korrelieren. Foca sammelt dazu Verweise in den Dokumente zu anderen Systemen wie Server und fragt mit diesen Daten wiederum den Netzwerkinformationsdienst Robtex ab, um weitere Hinweise zu möglicherweise zusammenhängenden Systemen zu geben. Robtex liefert unter anderem DNS-Daten von Domains und darin enthaltene Server zurück. Das lässt sich zwar auch mit dedizierten Tools erledigen, dennoch ist es praktisch, dass Foca das gleich miterledigt. Das Tool kann zu gefundenen IP-Adresse via DNS-Reverse-Lookup auch den passenden Namen abfragen – sofern verfügbar.

Einzelne Daten in den Dokumenten mögen zwar noch für keinen gezielten Angriff ausreichen, wie so oft gilt aber auch hier: Die Masse macht's. Aus vielen Puzzleteilen lässt sich ein Gesamtbild zusammenlegen, in dem versierte Angreifer Ansatzpunkte für das weitere Vorgehen entdecken können. Der beste Schutz vor solchen Aufklärungsversuchen ist es, Metadaten aus Dokumenten vor der Veröffentlichung zu entfernen oder mit Dummy-Daten zu füllen. Microsoft hat für diese Zwecke Anleitungen veröffentlicht, wie man dies manuell erledigen kann.

Daneben enthält Microsofts Office-Paket seit der Version 2010 eine Funktion, mit der man ein Dokument vor der Veröffentlichung von verräterischen Daten befreien können soll. Wie gut das funktioniert, haben wir bislang allerdings nicht getestet. Wie weit Foca noch Daten extrahieren könnte, lässt sich für einzelne Dokumente auch mit einem Online-Test prüfen, bei dem man die Datei über den Browser hochlädt. Der Hersteller verspricht zwar, die Dokumente nicht zu speichern und Daten nur für statistische Zwecke zu benutzen. Im Zweifel sollte man jedoch den Test auf Dokumente ohne vertraulichen Inhalt beschränken. Darüber hinaus bietet der Hersteller von Foca die Lösung MetaShield für den Internet Information Server und SharePoint an. Sie verspricht, quasi on-the-Fly alle Metadaten in auszuliefernden MS-Office, OpenOffice- und PDF-Dokumenten zu entfernen.
(dab)