Wider das digitale Vergessen

Die US-Kongressbibliothek entwickelt einen Plan zur Sammlung digitaler Werke - Probleme gibt es nicht nur mit der langfristigen Speicherung und dem Copyright, sondern vor allem auch mit der Selektion

Trotz oder wegen der wachsenden Speicherkapazitäten entsteht mit den digitalen Informationen ein Problem: Es gibt nicht nur immer mehr digitale Informationen, weil sie einfach und relativ billig erzeugt und gespeichert werden können, sondern die riesigen Datenfluten haben auch keine lange Beständigkeit und verschwinden schnell wieder. Damit machen sie zwar Platz für neue Daten und verstopfen nicht das maschinelle Gedächtnis, aber sie könnten auch zu einer Art des digitalen Alzheimer führen: Die Informationsgesellschaft verliert paradoxerweise ihre digitale Geschichte.

Der digitale Gedächtnisverlust hat viele Ursachen. Nicht die geringste ist natürlich die, dass Formate und Hardware sich schnell verändern und daher Daten immer wieder neu abgespeichert werden müssen, um zugänglich zu bleiben. Neben allen technischen Aspekten kommt aber eine andere Schwierigkeit hinzu, die sich mit den digitalen Speichermedien zu einem schier unlösbaren Problem aufgetürmt hat.

Zwar hat mit der Neuzeit bereits der systematische Versuch eingesetzt, mit Museen und Archiven das zu versammeln, was als wichtig genug erachtet wurde, um es der Nachwelt zu übermitteln und für sie zu erhalten. Doch war es noch nie leichter und billiger, Informationen zu archivieren, als heute mit den digitalen Medien (Microsoft: MyLifeBits). Daher hat die Speicherungswut sich auf alle ausgedehnt, die Maschinen der Speicherung ihr eigen nennen. Die Verführung liegt nahe, alles zu speichern, damit nichts verloren geht, was auch manchen Überwachungsprojekten wie dem geplanten Total Awareness Projekt zugrunde liegt (Weltweites Schnüffelsystem). Der digitale Sammlerwahn kann aber nur zeitweise die Schwierigkeit verdecken, Entscheidungen treffen zu müssen, also nach Maßgabe irgendwelcher Kriterien zu selektieren, was aufbewahrt werden soll und was dem Vergessen anheim fallen darf oder muss.

Das Problem der Selektion stellt sich natürlich auch bei der professionellen Archivierung von Internetinhalten und ist nicht nur eine Frage der Technik und des Geldes. Letzte Woche wurde vom Kongress der Plan for the National Digital Information Infrastructure and Preservation Program (NDIIPP) gebilligt, mit dem die Library of Congress, die weltweit größte Bibliothek, auch systematisch digitale Werke aller Art archivieren will. Der Plan mit einem Budget von 100 Millionen US-Dollar, stammt aus dem Jahr 2000 und soll verhindern, dass der Großteil der digitalen Geschichte der USA weiterhin Gefahr läuft, einfach aus dem kollektiven Gedächtnis zu verschwinden.

Bewilligt wurden im Jahr 2000 erst einmal 5 Millionen, um den Plan auszuarbeiten. Jetzt hat der Kongress weitere 20 Millionen freigegeben, um ein System zur Bewertung und Speicherung digitaler Informationen zu entwickeln. Die restlichen 75 Millionen soll die Bibliothek selbst aus privaten Spenden aufbringen. Im Vordergrund der Archivierung stehen Websites, digitale Zeitschriften, digitale Bücher, digital aufgezeichnete Ton-, Film- und Fernsehdokumente. Dabei geht es auch um Fragen des Copyright, der Definition eines einzelnen Werks oder der Veränderungen in Bezug auf Autoren, Distributoren und Benutzer.

Durchschnittliche Dauer einer Website: 44 Tage

Allein das schnell wachsende Web ist mit vielen Milliarden von Seiten mit multimedialen Inhalten und Texten in vielen Sprachen das größte Dokument, das jemals entstanden ist. Obwohl gerade erst 12 Jahre alt, gibt es schon jetzt hier weitaus mehr Texte, als die Sammlung gedruckter Werke der Library of Congress umfasst. Im Januar 2002 soll das Web mehr als 550 Milliarden Seiten und verlinkte Dokumente enthalten haben. Nach dem Stand im Jahr 2000 werden dem Web aber nicht nur täglich 7 Millionen Seiten hinzugefügt, sondern verschwinden auch wieder viele Inhalte. Die durchschnittliche Lebensdauer einer Seite soll 44 Tage betragen, 44 Prozent der Websites von 1998 soll es 1999 nicht mehr gegeben haben. Mit Snapshots können viele Inhalte nicht gespeichert werden, Copyright behindert überdies die Abspeicherung, zudem enthält eine Webseite durchschnittlich 15 Links. Gehören die verlinkten Inhalte auch mit zu einer Webseite, deren Bedeutung oft erheblich eingeschränkt ist, wenn die verlinkten Seiten nicht zugänglich wären.

"Vieles, was geschaffen worden ist, ist nicht mehr zugänglich", so James H. Billington von der Kongressbibliothek. "Und viel von dem, was verschwindet, ist wichtiges einmaliges Material, das niemals wieder reproduziert werden kann, sondern nach dem man verzweifelt suchen wird." Billington mahnt daher zur größten Eile.

Zusammen mit dem Internet Archive hat die Kongressbibliothek bislang Websites vom Präsidentschaftswahlkampf im Jahr 2000 und Websites mit Informationen über den 11. September 2001 archiviert. Die Kongressbibliothek archiviert mittlerweile auch Seiten des Kongresses. Unter dem Titel American Memory hat die Kongressbibliothek bereits über 7,5 Millionen Sammlungsgegenstände digitalisiert. Mit der Entwicklung eines nationalen Netzwerks zur Sammlung und Katalogisierung digitaler Werke steht nicht nur die Entscheidung darüber an, was für das nationale Kulturerbe tatsächlich bedeutsam ist, sondern müssen auch Strategien für eine langfristige Archivierung digitaler Inhalte geklärt und geschaffen werden.

Die Zukunft der digitalen Medien und ihrer Formate ist jedoch auch mittelfristig kaum vorhersehbar, die Aufgabe gewaltig, da man davon ausgeht, dass sich die Flut der digitalen Informationen in nächster Zukunft zumindest jedes Jahr mindestens verdoppeln wird. Der Plan sieht zumindest vor, "die geschichtlich wichtigsten kulturellen Materialien und wichtige Informationsquellen, unabhängig von entstehenden Formaten, zu sammeln, zu selektieren und zu organisieren". Die Archivierung soll nicht nur langfristig geschehen, sondern den Bürgern auch einen dauerhaften Zugang zum "digitalen Erbe des amerikanischen Volks" gewähren. (Florian Rötzer)

Anzeige