Wie sichert man solch einen gigantischen Ozean digitaler Daten für die Nachwelt? Die durchschnittliche Lebensdauer einer Webseite beträgt etwa 44 Tage, die von offiziellen Seiten ungefähr vier Monate. Automatische Archivierungs-Software macht nur sporadisch die Runde durchs Web und bringt eine Momentaufnahme zurück, die bereits veraltet ist, wenn sie online verfügbar ist.
"In traditionellen Archiven treffen Menschen Entscheidungen, welche Werke aufbewahrt werden sollen. Im Internet ist das eine mathematische Entscheidung", erläutert Lyman. Alle großen Suchmaschinen haben sich mittlerweile zu Archiven entwickelt. Google etwa hat jüngst seinen Bestand archivierter Internetseiten von vier auf acht Milliarden nach oben korrigiert. "Diese Unternehmen hüten die Kriterien für die Auswahl ihrer gespeicherten Webseiten wie ein Geheimnis", sagt Lyman. Sicher ist nur: Alle so und so viel Tage zieht ein Roboter Bilanz. Die Entscheidungen der Maschine mögen objektiver sein als die eines Kurators am Königshof, der unliebsame Bestände aus dem Verkehr zieht - aber eine umfassende Abbildung der Wirklichkeit ergeben sie ebenso wenig.
Auch beim Format herrscht Verwirrung: Jede Webseite verweist im Schnitt auf 15 andere Seiten und enthält fünf Objekte wie Bilder, Grafiken, Videos, Tondateien, Werbung. Wer eine Seite archiviert, muss beim zu speichernden Umfeld irgendwo eine Grenze ziehen und kappt damit möglicherweise verständniswichtigen Kontext. Ebenso wichtig sind die Metadaten - also Informationen über Herkunft und Authentizität der Quelle. Sonst kann es passieren, dass spätere Forscher Webseiten voller Verschwörungstheorien über die Anschläge vom 11. September finden und sie mit offiziellen Berichten der verschiedenen Untersuchungskommissionen und seriösen Analysen gleichsetzen.
Doch selbst wenn sich heute jede Seite samt Hintergrundinformationen archivieren ließe, heißt das noch lange nicht, dass zukünftige Generationen in der Lage sein werden, diese Dokumente aufzurufen. Browser etwa gibt es erst seit Anfang der 90er Jahre - und schon jetzt schwankt die Darstellung je nachdem, ob man eine Seite mit einer alten Version von Netscape, Microsofts Internet Explorer oder Apples Safari aufruft. Ganz zu schweigen von der Gefahr, dass sich veraltete Formate überhaupt nicht mehr öffnen lassen, weil sie inkompatibel sind oder sich die Speichermedien zersetzt haben, auf die der Server zugreifen will. "Die Hardware und Software, um ein Webobjekt authentisch darzustellen, muss bewahrt werden", gibt Lyman zu bedenken.
Lyman und Kahle sind deshalb Berater eines bereits im Jahr 2000 vom US-Kongress angestoßenen Vorhabens, ein Nationales Programm für Digitale Informationsinfrastruktur und Aufbewahrung (NDIIPP) zu entwickeln. Unter der Leitung der Library of Congress arbeiten renommierte US-Universitäten an Machbarkeitsstudien zum richtigen Umgang mit digitalen Materialien. Acht Förderprogramme mit einem Gesamtvolumen von 15 Millionen Dollar vergab Washington diesen Herbst. Sie reichen von der Entwicklung neuer Archivierungswerkzeuge für offizielle Dateien der Nasa oder verschiedener Regierungskommissionen über die Speicherung digitaler Fernsehprogramme bis zur Aufbewahrung von Dokumenten aus der schnelllebigen Dotcom-Ära.
Dieser Text ist der Zeitschriften-Ausgabe 01/2005 von Technology Review entnommen. Der Artikel steht auch als kostenpflichtiges pdf im Heise Kiosk zum Download bereit.
Permalink: http://heise.de/-281103