Langfristige Archivierung von Webdateien
High Wire entwickelt für wissenschaftliche Online-Journale ein interessantes verteiltes System, das Inhalte für hundert und mehr Jahre sichern soll
High Wire Press von den Stanford Universities Libraries hat ein ehrgeiziges Ziel. Schon jetzt ist es eine Plattform, die mehr als 170 wissenschaftliche Periodika zugänglich macht. Mitte Februar standen im Archiv 134143 Artikel zur Verfügung, die frei zugänglich waren, insgesamt gab es 615602 Artikel. High Wire Press verbindet Artikel, Autoren und Zitate quer über die Journale durch Links, bietet eine Suchmaschine, multimediale Darstellungen, zusätzliche Informationen und alle archivierten Ausgaben an, aber verwaltet auch bei den Inhalten, die ein Abonnement erfordern, die vielen unterschiedlichen Zugangsbedingungen. Um die Attraktivität von Online-Journalen zu verstärken, hat High Wire Press einen Plan gefasst: die langfristige Kontinuität der wissenschaftlichen Artikel sicherzustellen und mindestens aus der Perspektive des 22. Jahreshunderts zu garantieren, dass alle Inhalte aktualisiert werden und zugänglich bleiben.
Was als endgültige Realisierung des Traums erscheint, eine Bibliothek zu schaffen, in der das gesamte Wissen der Welt zu finden ist, hat jedoch seine Schattenseiten. Als Ptolemäus die Bibliothek von Alexandrien gegründet hatte, bestand sein Ziel darin, alle Bücher der damaligen Welt zu beschaffen und in die Bibliothek zu bringen. Das war für die heutige Situation gleichsam noch eine überschaubare Angelegenheit. Die Bücher und Schriftrollen, die aus aller Welt eintrafen, wurden katalogisiert und systematisch eingeordnet. Aber bekanntlich brannte die Bibliothek ab und es blieb von den vielen hunderttausend Dokumenten nichts zurück, ein Trauma, das dann wieder im Zeitalter des Buchdrucks zu neuen Projekten wie die der Enzyklopädien führte, um die Menschen vor dem Rückfall in die Dunkelheit zu bewahren. Der Buchdruck eröffnete an sich schon die Möglichkeit, das Wissen besser zu bewahren, weil nun viele Kopien gleichzeitig auf relativ dauerhaftem Material vorhanden waren. Selbst wenn viele oder fast alle Bücher zerstört sein sollten, reicht eine Kopie aus, die zudem einem Schriftkundigen ohne weiteres zugänglich war, das darin gespeicherte Wissen zu erhalten.
Gleichwohl ist allen Trägermaterialien eines eigen: sie sind vergänglich, zerfallen, lösen sich auf, werden unleserlich. Und dieser Prozess der geringen Haltbarkeit hat sich seltsamerweise just in der Zeit verstärkt, in der immer mehr Informationsberge auf die Menschen zugeschoben werden. "Modernes" Papier hat noch eine Haltbarkeit von vielleicht 80 Jahren, bis es sich durch die Säure selbst zersetzt, Fotografien überdauern, richtig gelagert, möglicherweise 100 Jahre, Ton-, Video- oder Datenbänder nur 20 Jahre. Die Digitalisierung hat die Probleme nur noch verschärft, denn digitale Daten sind in ihrer Lebensdauer nicht nur abhängig von den Trägermaterialien, auf denen sie gespeichert wurden, sondern auch noch von Soft- und Hardware, um sie überhaupt lesen zu können. Gab es bei Druckpublikationen gewissermaßen nur einen Standrad, so jagen sich in der Informationstechnik die Innovationen gleichzeitig mit der Menge dessen, was wegen der leichten Erfassung und billigen Speicherung archiviert wird. Schon nach kurzer Zeit können Computer und periphere Geräte nicht nur veraltet, sondern wie die Laufwerke für die 5 1/4 Disketten auch weitgehend verschwunden sein. Hohe "Beweglichkeit" ist erforderlich, um die Informationen verfügbar zu halten. Migration nennt man es, wenn Dateien von einem Träger auf einen anderen umkopiert werden. Das muss alle paar Jahre geschehen - und lähmt bei stetig wachsenden Datenbergen trotz zunehmender Kapazität die verfügbaren Ressourcen.
|
|
Das Web bildet keine Ausnahme vom Alzheimer-Defekt digitaler Medien, der möglicherweise erst gerade in seinen Anfängen steht. An sich eine vorbildliche Universalbibliothek, die permanent aktualisiert und durch Suchmaschinen erschlossen wird, ist das Internet doch besonders vergänglich. Die durchschnittliche Lebensdauer einer Webseite beträgt gerade einmal ein paar Wochen, dann ist sie verschwunden, ersetzt oder aktualisiert. Das muss freilich nicht immer oder oft kein großer Verlust sein, aber der Informationszerfall ist ein drängendes Problem für jene Institutionen, die Archive nicht nur kurzfristig anlegen, sondern für möglichst lange Zeit zur Verfügung stellen wollen. Natürlich gibt es bereits Dienste wie www.alexa.com/, die auf kommerzieller Basis in regelmäßigen Abständen versuchen, möglichst viele der Informationen, die sich im Web befinden, abzuspeichern (im Augenblick sind beispielsweise an die 14 Terabyte www-Dateien archiviert, jede Woche werden es 150 Millionen Seiten mehr), aber warum sollte jemand, der beispielsweise sowieso schon ein Abonnement für ein wissenschaftliches Journal bezahlt, wieder Geld hinlegen müssen, um einen Artikel aus einer Online-Ausgabe zu erhalten, die aus irgendwelchen Gründen nicht mehr zur Verfügung steht? Zudem ist keineswegs garantiert, dass Alexa tatsächlich alle Dokumente abspeichert, und niemand weiß, wie lange wiederum ein solcher Dienst verlässlich existiert. Zudem kommen durch die "Fremdspeicherung" Copyrightprobleme hinzu.
Bibliotheken haben den Auftrag, unabhängig von den Verlagen Veröffentlichungen zu sammeln, zu archivieren und für die Öffentlichkeit zur Verfügung zu halten. Das ist bislang vornehmlich mit physisch archivierbaren Dokumenten an einem Ort geschehen. Online-Publikationen müssen aber nicht nur in digitaler Form abgespeichert werden, sondern es sollte gerade auch ihre ursprüngliche Funktionalität, also etwa die Querverweise zu anderen Seiten und Inhalten, gewahrt bleiben. Die Qualität von Onlinepublikationen besteht etwa, wie bei High-Wire, aus einer automatisch erfolgenden Vorwärts- und Rückwärtsverlinkung der Artikel, die man mit einer "passiven" Abspeicherung auf Trägern wie CDs, Bändern oder Mikrofilmen nicht realisieren könnte. John Sack, Direktor von High Wire, nennt die Schwierigkeiten, die gerade bei Online-Publikationen gelöst werden müssen, will man für lange Zeit die Informationen verfügbar und über das Internet zugänglich erhalten: "Online-Journale sind besonders kompliziert, da sie temporäre Zugangs- oder Abonnentenbedingungen, eine kontinuierlich wachsende Sammlung von Artikeln und Links sowie die 'traditionellen' Probleme einer sich verändernden Technik für die Benutzergeräte, die Server, die Programme und die Speicherung beinhalten."
An sich banal erscheinende Probleme gilt es zu lösen, wenn beispielsweise jemand für eine gewisse Zeit ein Online-Journal abonniert hatte, aber auch nach Beendigung des Abonnements noch Zugang zu den in der Zahlung eingeschlossenen Artikeln haben will und muss. Die größeren Schwierigkeiten aber sind, so Sack, andere: "Es gibt ein riesiges Problem mit der sich entwickelnden Technik. Man muss die vergangenen Ausgaben so archivieren, wie sie gewesen sind, und sie müssen mit den auf sie folgenden Ausgaben, mit den Serversystemen und der Software sowie mit der Software der Benutzer kompatibel bleiben. Um trotz eines unvorhersehbare Wandels über kurze und lange Zeitabschnitte Kontinuität zu gewährleisten, sind redundante Verfahren unerlässlich." Manchmal werden wissenschaftliche Journale eingestellt, die Website verschwindet und die Server werden vom Netz genommen. Websites können zeitweise nicht zugänglich sei, Dateien können verloren gehen oder beschädigt werden. Journale können von einem anderen Verlag aufgekauft oder vollständig verändert werden. Jetzt noch kostenlos zugängliche Online-Journale können kostenpflichtig werden. Copyrightregelungen können sich verändern ...
Der Anspruch, wie ihn Michael Keller, Herausgeber von High Wire Press beschreibt, ist groß: "Die Stanford Libraries sind wirklich der Kontinuität der wissenschaftlichen Archivierung verpflichtet. Wir betrachten das Archivierungsprogramm mindestens aus der Perspektive des 22. Jahrhunderts, nicht nur in Hinsicht auf die Speicherung der Bits und Bytes, sondern auch hinsichtlich des Zugangs. Wenn ein Verleger einmal High Wire beauftragt hat, den Zugang zu einem bestimmten Artikel oder Dokument herzustellen, dann sollte die Wissenschaftlergemeinschaft darauf vertrauen können, dass der Artikel oder das Dokument mindestens ein Jahrzehnt oder eine Generation lang so, wie er ist, frei zugänglich bleibt." Eine Voraussetzung dafür ist die kontinuierliche Migration von Formaten, Standards und Medien, aber die Stanford University Libraries haben für die Internetarchivierung mit Geldern der NSF und in Zusammenarbeit mit Sun Microsystems ein neues Modell entwickelt: "Irreversible Publishing" oder LOCKSS (Lots of Copies Keeps Stuff Safe). Schon im Sommer 2000 soll es für einen ersten Test zur Anwendung kommen und letztlich demonstrieren, dass es für einzelne Kunden, Universitäten und Bibliotheken ausreicht, die Online-Ausgabe eines Journals zu abonnieren.
Um die gewünschte Kontinuität zu ermöglichen und sie weitestgehend unabhängig von einer einzigen Instanz zu machen, fungiert LOCKSS als ein selbstorganisiertes, plattformunabhängiges Open-Source-System ohne zentrale Kontrolle für die Speicherung von Online-Dokumenten auf lokalen, untereinander vernetzten Servern. Die Inhalte werden mit einem Linux-Betriebssystem durch die übliche Squid-Cache-Technik auf einem lokalen PC gespeichert, der angeblich relativ günstig sein soll, weil er nur einen langsamen Prozessor, einen kleinen Arbeitsspeicher, aber große Festplatten benötigt. So würde ein Computer, der das Journal of Biological Chemistry, das umfangreichste der von High Wire angebotenen Journale, für fünf Jahre abspeichert, einen 100MHz Pentium-Prozessor, 32 MB RAM und zwei 16GB Festplattenspeicher benötigen.
Automatisch gespeichert und upgedated werden jeweils die etwa von einer Bibliothek abonnierten Journale mit den entsprechenden Zugangsrechten. Die Benutzer rufen von ihren Computern die im Cache gespeicherten Dateien allerdings nur dann ab, wenn der Verlag sie auf seinem Server nicht mehr bereitstellt. Da idealerweise Inhalte so auf vielen Computern abgespeichert sind, sollte es von beschädigten, verloren gegangenen oder anderweitig über das Internet nicht mehr zugänglichen Dateien stets mehrere Kopien geben, um sie wieder herzustellen und zugänglich zu machen. Je mehr Bibliotheken LOCKSS benutzen, desto sicherer würden nach dem Prinzip des Buchdrucks Dateien archiviert werden können. Der Cache eines Journals auf jedem der vernetzten LOCKSS-Rechner ist darauf eingestellt, durch Anfragen bei den anderen LOCKSS-Rechnern zu überprüfen, ob eine minimale Anzahl von Kopien im Gesamtsystem vorhanden ist. Wenn der Cache entdeckt, dass es nicht genügend gibt, wird eine Anfrage nach zusätzlichem Cache gestartet. Vorgesehen ist, dass für diesen Zweck jeweils 10 Prozent des Speichers reserviert werden sollen. Falls nirgendwo mehr Platz vorhanden ist, gilt das Journal als "gefährdet" und müssen Menschen eingreifen.
LOCKSS soll freilich mit dem Cache nur dann einspringen, wenn Dateien auf der Website eines Verlages nicht mehr zugänglich sind, denn diese wollen natürlich, dass die Leser auf ihre Website gehen. Möglich sei auch weiterhin der Einbau von HTTP-Befehlen, die eine Speicherung im Cache verhindern, wenn dies Verlage so wünschen. Natürlich aber müssen auch die LOCKSS-Rechner immer wieder erneuert und der Speicherplatz ausgebaut werden. Voraussetzung für das System ist, dass die Journale weitgehend ihre URLs beibehalten, eine logische Struktur besitzen und die Dateien auf HTML-Formaten und damit zusammenhängenden Formaten wie GIF oder JPEC basieren. Neue HTML-Formate oder ganz andere Formate der Zukunft sollen allerdings auch automatisch upgedatet werden.
Und weil es sich um ein Open-Source-Projekt handelt, bei dem jeder Zugang zum Quellcode besitzt, hofft man darauf, dass in der Testphase und später Programmierer Verbesserungen und Fehlerbehebungen vorschlagen werden. Zu diesem Zweck wird eine Newsgroup eingerichtet, die von David Rosenthal von High Wire moderiert wird, der auch die offiziellen Veränderungen der Software kontrolliert. Später einmal ist vorgesehen, wenn LOCKSS erfolgreich sein sollte, dass diese Aufgabe eine Gruppe übernimmt. Natürlich ließe sich das System auch anderweitig einsetzen, etwa bei den digitalen Archiven der dot.coms, wodurch LOCKSS dann auch richtig profitabel werden könnte.
http://www.heise.de/tp/artikel/5/5788/1.htmlDarstellungsbreite ändern
Da bei großen Monitoren im Fullscreen-Modus die Zeilen teils unleserlich lang werden, können Sie hier die Breite auf das Minimum zurücksetzen. Die einmal gewählte Einstellung wird durch ein Cookie fortgesetzt, sofern Sie dieses akzeptieren.
