Die Woche: Offene Dateiformate gegen das digitale Vergessen

@ctmagazin | Kommentar

Das Wissen unserer Tage wird immer häufiger nur digital gespeichert. Proprietäre, nicht offengelegte Dateiformate werden es unseren Nachfahren jedoch schwer machen, Dokumente unserer Zeit überhaupt einzusehen.

Mirko Dölle

Historiker künftiger Generationen werden mit der Rekonstruktion der Jahrtausendwende ganz besondere Probleme haben: Viele Dokumente und zeitgenössische Berichte werden heute nur noch digital gespeichert und nicht mehr zu Papier gebracht. Die Forscher der Zukunft werden vor der Herausforderung stehen, aus den überlieferten Einsen und Nullen wieder ein lesbares Dokument zu generieren, das optimalerweise genau so angezeigt wird, wie es beim Speichern aussah.

Proprietäre Dateiformate erschweren diese Aufgabe erheblich oder machen sie gänzlich unmöglich, denn die Hersteller der zugehörigen Anwendungen veröffentlichen die Spezifikationen praktisch nie vollständig. So brauchten schon die Entwickler von OpenOffice schon jetzt Jahre, um proprietäre Word-Dateien nahezu einwandfrei einlesen und darstellen zu können. Bei Excel-Dateien ist das Ziel noch nicht erreicht, gerade Tabellendokumente mit eingebetteten Formeln und Funktionen lassen sich nicht immer zuverlässig öffnen und bearbeiten.

Bei selten verwendeten proprietären Dateiformaten hat man schon heute keine Chance mehr, an den Inhalt heranzukommen. So besitze ich zum Beispiel noch eine Kopie der Abschlusszeitung meiner Schulklasse von vor gut 15 Jahren auf einem alten Streamer-Band. Das damalige Standard-DTP-Programm TimeWorks, das unter der grafischen Oberfläche GEM auf Ataris und PCs lief, gibt es jedoch schon lange nicht mehr. Importfilter für aktuelle DTP-Programme sucht man vergebens, Spezifikationen zum Dateiformat hat der Hersteller GST ebenfalls nicht veröffentlicht.

Es bliebe nur, GEM sowie TimeWorks auf einem aktuellen Rechner zu installieren, das Dokument mit dem ursprünglichen Programm zu öffnen und, sofern überhaupt vorgesehen, in einem heute noch verwendeten Format zu speichern. Das scheitert jedoch schon an der Treiberunterstützung von Betriebssystem und grafischer Oberfläche. Einen Rechner aus der damaligen Zeit zusammen mit den Daten zu archivieren, scheidet aus, da sich elektronische Komponenten nicht unbegrenzt lagern lassen. Auch der Einsatz virtueller Maschinen als Wirt für veraltete Betriebssysteme ist bei der Aktivierungspolitik von Betriebssystemen und Anwendungen nicht unproblematisch -- ob Microsoft wohl auch in 100 Jahren noch Windows Vista und Office 2007 aktiviert?

Am leichtesten dürfte es den zukünftigen Forschern fallen, reine ASCII-Textdateien mit Formatierungsanweisungen zu lesen, also zum Beispiel HTML- und XML-Dokumente. Bei einem gut dokumentierten offenen Dokumentenformat wäre es schon eine Fleißaufgabe, einen Importfilter für moderne Applikationen zu schreiben. Allerdings nutzen offene Formate wenig, wenn manche Hersteller sie mit proprietären Erweiterungen aufweichen, die sie nicht offenlegen – das PDF-Format ist ein gutes Beispiel dafür.

Selbst wenn es sich nicht um ein offiziell standardisiertes Dokumentenformat handelt, sondern nur die Quellen der Anwendung offengelegt werden, stehen die Chancen gut, dass man die Dateien in ferner Zukunft trotzdem noch lesen kann: Zur Not müssen die Forscher den Quellcode analysieren und herausfinden, wie die Anwendung damals die Dateien eingelesen hat. So ergibt sich zwangsläufig die Spezifikation. Dabei hilft es, dass Programmiersprachen im Unterschied zu Binärprogrammen für den Menschen lesbar sind. Einige sinnvolle Kommentare der Entwickler dürften die Arbeit der Informatik-Archäologen zusätzlich erleichtern. Offene Dateiformate und Open-Source-Software könnten der Schlüssel für zukünftige Historiker sein, auf das Wissen unserer Zeit zuzugreifen.

Auch wenn der Koalitionsantrag der Schwarz-Roten Bundesregierung von dieser Woche in erster Linie darauf abzielt, mehr Wettbewerb in den Office-Markt zu bringen, erreicht man mit der Festschreibung offener Dokumentenformate gleichzeitig, dass es auch in Zukunft möglich sein wird, alte Dateien zu lesen.

Doch dazu müssen die Dokumente und ihre Spezifikation erst einmal erhalten bleiben. Früher schrieb man auf Papier oder Stein -- sofern sie nicht bei Überschwemmungen oder Feuer zerstört wurden, haben diese Dokumente etliche Jahrhunderte oder gar Jahrtausende überdauert. Heutige Billig-CD- und -DVD-Rohlinge haben jedoch allenfalls eine Haltbarkeit von zwei bis fünf Jahren. Danach müssen sämtliche Daten eines Archivs auf ein neues Medium kopiert werden. Der Vorteil dieses Kopierzwangs ist, dass die Daten bei der Gelegenheit auf einem aktuellen Speichermedium untergebracht werden können. So erspart man sich gleichzeitig die zweifelhafte Archivierung der Laufwerke zusammen mit den Medien. Vernachlässigt man allerdings die regelmäßige Pflege, verfällt das gesamte Archiv und damit das Wissen unserer Zeit binnen weniger Jahre unwiederbringlich -- egal ob die Dokumentenformate offen oder proprietär waren. (mid)

Infos zum Artikel

Anzeige
Anzeige