Digitales für die Ewigkeit

Langzeitarchivierung digitaler Inhalte

Trends & News | News

Bislang funktionierte das Prinzip des Nichtstuns hervorragend: Bücher überdauern lange Zeiträume besonders gut, wenn man sie unter optimalen Umgebungsbedingungen in Ruhe lässt. Doch zunehmend liegen Dokumente in digitaler Form vor und das stellt Bibliotheken und Archive vor völlig neue Herausforderungen.

Digitale Inhalte verlangen nach ständiger Pflege: Datenträgern fehlen nach wenigen Jahrzehnten die Lesegeräte, Formate und Plattformen ändern sich, der Zugang zu digitalen Dokumenten ist wegen Rechtefragen ungleich komplizierter. Außerdem wächst die Datenfülle rasant - welche digitalen Dokumente und welche Teile des Web sollen für die Nachwelt erhalten werden?

Erst seit Ende der neunziger Jahre versuchen Bibliotheken diese Fragen und die damit verbundenen Probleme in großem Maßstab anzugehen und auch Politikern nahe zu bringen. Bereits heute liegen wesentliche Teile unseres kulturellen Erbes digital vor, sind bedroht und sogar teilweise zerstört - der digitale Alzheimer schlägt zunächst fast unbemerkt zu, von wenigen spektakulären Vorfällen wie dem Teilverlust der Viking-Mars-Missions-Daten von 1976 abgesehen.

Nationale Programme sollen nun digitale Inhalte langfristig erhalten, unter anderem in Australien, Deutschland, Großbritannien, in den Niederlanden und den USA. Beim Digitalisieren gedruckter Werke, im Branchenjargon Retrodigitalisierung genannt, engagieren sich eher private Unternehmen: Google und Yahoo trommeln mit der Print Library respektive Open Content Alliance zurzeit am lautesten.

Der Abschlussreport „Preserving Digital Information“ der Research Libraries Group von 1996 rüttelte auf und führte zu Aktivitäten, die bis in die Gegenwart reichen. In den folgenden Jahren löste ein Gutachten das andere ab, bevor die ersten Testsysteme laufen konnten. Auf internationaler Ebene hob die UNESCO das Thema am 17. Oktober 2003 zum ersten Mal aufs Podest: Die UN-Organisation veröffentlichte eine Charta zur Bewahrung des digitalen Kulturerbes und schreibt in der Präambel: „... (wir sind uns) bewusst, dass dieses digitale Erbe in Gefahr ist, verloren zu gehen, und dass seine Erhaltung für gegenwärtige und künftige Generationen eine dringende Aufgabe von weltweiter Bedeutung ist, ...“ Das digitale Vergessen kam damit auf die internationale Bühne.

Unter denen, die heute bereits digitale Archive im täglichen Betrieb testen und digitale Inhalte in ein Bibliotheksystem einbinden, nehmen unter anderem die Niederlande in Europa eine herausragende Rolle ein. Das e-Depot der Nationalbibliothek (Koninklijke Bibliotheek) ist verantwortlich für alle Akquisitionen und Kataloge, ob digital oder analog, und integriert digitales Material in den Bibliotheksablauf. Seit Mai 2003 arbeitet das System und gegenwärtig hält es 2200 Fachzeitschriften von allerdings wenigen Verlagen und 3,7 Millionen Werke digital bereit - nicht viel, aber ein Anfang.

Das komplette e-Depot-System für digitale Inhalte ist ungeheuer komplex, weil es alle Aspekte des digitalen Archivierens umfasst: Nahezu beliebige Inhalte müssen so aufbereitet werden, dass sie erstens für den virtuellen Besucher zugänglich sind und zweitens auch noch in Jahrzehnten gelesen werden können - unabhängig von der dann aktuellen Hard- und Software. Das Herz des Workflow-Systems heißt DIAS und wurde maßgeblich von IBM entwickelt.

Auch Metadaten, wie es sie in jeder Bibliothek zur Katalogisierung gedruckter Werke gibt, müssen in die digitale Welt übertragen werden, was Formatprobleme nach sich zieht. Hier unterscheiden sich die Systeme im Innern, auch wenn viele nach außen kompatibel sind: Das internationale Referenzmodell OAIS (ISO 14721 vom Januar 2002) beschreibt, wie Information zur Langzeitarchivierung verfügbar gemacht werden soll.

Die Frage nach der Art und der Langlebigkeit der Datenträger stellt sich für große Bibliotheken übrigens nicht in dem Maße wie für Privatpersonen und kleine Unternehmen. Die meisten der Institutionen erneuern und prüfen ihre Daten mindestens einmal pro Jahr, und alle fünf bis zehn Jahre wollen sie zu aktuellen Datenträgern wechseln.

In Deutschland soll das Kompetenznetzwerk Nestor den Weg zum Erhalt des digitalen Erbes ebnen, vom BMBF mit 800 000 Euro drei Jahre lang bis Mai 2006 gefördert. Nestor will Diskussionsplattform und Netzwerk für alle Fragen der Langzeitarchivierung sein. Kürzlich haben Nestor und die Göttinger Universitätsbibliothek eine internationale Konferenz zur Langzeitarchivierung digitaler Inhalte ausgerichtet (iPRES). Die Augen richten sich jetzt auf Kopal, das drei Jahre lang insgesamt vier Millionen Euro vom BMBF bekommt. Ziel ist, wie in den Niederlanden ein Archivsystem zu entwickeln und zu betreiben. Federführend ist die Deutsche Bibliothek als Nationalbibliothek, unter den Mitstreitern befinden sich die Universitätsbibliothek Göttingen, IBM und das Unternehmen GWDG.

Die Entwicklung eines Metadatenformats zur Beschreibung der digitalen Archivdokumente und die erforderlichen Arbeitsabläufe sollen bis Jahresende für eine Testphase abgeschlossen sein. Kopal lehnt sich eng an das niederländische Modell an, das Archivsystem basiert ebenfalls auf DIAS von IBM. Selbst entwickelte Open-Source-Module soll DIAS fit für die Zukunft machen. Das Problem der hunderte von Formaten, die Kopal kennen muss, will man durch Emulation lösen, um damit von der Hard- und Software unabhängig zu sein: Emulationen sollen ein Word-Dokument auch noch in 30 Jahren lesen können.

Weitere nationale Archivprojekte sind NDIIPP (National Digital Information Infrastructure and Preservation Program) der Library of Congress aus den USA mit einem Etat von 100 Millionen US-Dollar, das Programm der National Library of Australia sowie PANDORA (Preserving and Accessing Networked Documentary Resources of Australia) für die Archivierung von Web-Inhalten. In Großbritannien kämpft seit 2004 das Digital Curation Centre gegen das Vergessen, weitere Programme sind DELOS und die Digital Preservation Coalition.

Zum gegenwärtigen und zukünftigen Formatproblem hat eine der größten digitalen Bibliotheken, die Californian Digital Library, einen radikalen Backup-Vorschlag. Zusätzlich zum Originalformat will die Library den digitalen Inhalt als unformatierten Text und Bilder in einem Rasterformat speichern: Die einfachsten Formate seien die langlebigsten, so die Erkenntnis der Kalifornier.

Kürzlich hat die International Organization for Standardization (ISO) einen Abkömmling von PDF mit Namen PDF/Archive als Format für Langzeitarchivierung definiert. PDF/A hat weder Audio- noch Video-Inhalt und keine Verschlüsselung. Auch das OpenDocument-Format geht in diese Richtung. Für Unternehmen ist das interessant, Bibliotheken dagegen müssen mit allen Formaten umgehen können. Für sie sind deshalb Formatsammlungen wichtig: In Großbritannien hat Pronom eine Format-Datenbank aufgebaut, in den USA die Library of Congress und Global Digital Format Registry in Harvard.

Der Kopal-Projektleiter Reinhard Altenhöner sieht sein Archivsystem nicht nur für einen engen Expertenkreis, sondern langfristig auch als Betriebsmodell für die Industrie. Da große Unternehmen schon jetzt Probleme haben, ihre riesigen Datenmengen lesbar zu halten, könnten die mit staatlichen Geldern finanzierten Archivsysteme Geld in die knappen Bibliothekskassen bringen. Doch solche Public-Private-Partnerships sind in der Branche noch Zukunftsmusik, was angesichts der Geldnöte verwundert.

Auch laufen die nationalen Projekte international aneinander vorbei - die Niederlande haben schon längst ein funktionierendes System, Deutschland beginnt erst noch mit der Testphase, obwohl wesentliche Teile vom e-Depot stammen. Der gerade veröffentlichte Abschlussbericht des DFG-Projekts „Datenbankgestützte Langzeitarchivierung digitaler Objekte“ stellt in diesem Zusammenhang eine unsystematische Herangehensweise fest und sieht eine Vielfalt von Archivierungsszenarien, aber keine fertigen Rezepte.

Gegen mangelnde Kooperation und den langsamen Fortschritt will die EU mit dem Programm eContentplus angehen, das bis 2008 läuft und 149 Millionen Euro zu verteilen hat. Das Programm will den Zugang zu digitalen Inhalten erleichtern. Einer der drei Aktionsbereiche, in denen die EU besonderen Handlungsbedarf sieht, ist die „Intensivierung der Zusammenarbeit zwischen den Akteuren im Bereich der digitalen Inhalte und Sensibilisierung“. Die Qualität möglicher digitaler Archive will die EU im Rahmen von eContent prüfen: Das Projekt reUSE finanziert Projekte von Teilnehmern aus vier Ländern, deren Ergebnisse anschließend evaluiert werden, unter anderem von der Deutschen Bibliothek.

Aus dem EU-Projekt TEL ging kürzlich die Europäische Bibliothek hervor, die digitale Inhalte möglichst vieler Nationalbibliotheken unter einem Dach zur Verfügung stellen will (www.theeuropeanlibrary.org, www.europeanlibrary.org). Das TEL-Projekt beschreibt die Schnittstelle und die Art der Datenaufbereitung für die Europäische Bibliothek. Der Start liegt erst wenige Wochen zurück und man muss abwarten, ob wirklich einmal die digitalen Bestände der Mitgliedsländer greifbar sind oder nur ausgewählte Dokumente, die die Nationalbibliotheken auswählen.

Um Digitales zu erhalten, müssen auch die politischen Rahmenbedingungen stimmen. Digitales auf Datenträgern wie CD und DVD sind in Deutschland durch bestehende Regelungen abgedeckt, aber für rein digitale Publikationen existiert kein staatlicher Auftrag für die Deutsche Bibliothek. Eine Gesetzesnovelle dafür hat es bereits als Kabinettsvorlage in den Bundestag geschafft, aber der weitere zeitliche Ablauf ist wegen der derzeitigen politischen Lage unklar. Mit dem gesetzlichen Auftrag könnte die Deutsche Bibliothek verlangen, jede digitale Publikation in einem vorgegebenen Format angeliefert zu bekommen.

Die Entwickung nationaler digitaler Archive findet größtenteils abseits der Öffentlichkeit statt. Ganz anders bei den Anstrengungen, große Buchbestände zu digitalisieren, wo vor allem Google und Yahoo im Rampenlicht stehen. Die Google Print Library will in einer bislang einmaligen Aktion 15 Millionen Bücher in den USA scannen. Der Deal mit den US-Bibliotheken soll so aussehen, dass Google ältere Texte zur Verfügung stellt und von neueren nur Auszüge. Die Bibliotheken erhalten im Gegenzug die digitalen Ausgaben ihrer Bücher. Von Anfang an war das Projekt umstritten, die größte US-Autorenvereinigung kämpft mit einer Sammelklage gegen die Print Library. Bis November will Google erst mal keine Bücher scannen, sondern hinter den Kulissen verhandeln.

Yahoo setzt mit der Open Content Alliance dagegen, zu der neben Universitäten Adobe und HP gehören. Unterkommen soll der Bestand beim Internet Archive, das mit dem Million Book Project bereits Erfahrung sammeln konnte. Der Yahoo-Ableger will möglichem Ärger, wie ihn Google hat, dadurch entgehen, indem vorwiegend ältere Bestände gescannt werden.

Den Europäern stieß das Google-Projekt wegen der englischsprachigen Dominanz übel auf. Doch die einzelnen Scan-Projekte der Nationalbibliotheken können wegen des fehlenden Geldes und mangels Ressourcen nicht konkurrieren. Privatinitiativen wie das Projekt Gutenberg mit 90 000 Dateien und 450 000 Textseiten und seinem Gegenleseportal Gaga bleiben außen vor oder sind zu klein.

Die EU hat wiederholt die halbherzigen und zögerlichen Digitalisierungprojekte moniert und handelt jetzt - Google lässt grüßen: Das Projekt European Digital Library soll das Flaggschiff der i2010-Initiative sein, die sich dem Ausbau der digitalen Wirtschaft in der EU verschrieben hat. Zunächst soll eine Online-Konsultation bis Januar 2006 laufen, die anschließend in eine Empfehlung zur Digitalisierung, digitalen Archivierung und Online-Verfügbarkeit münden soll.

Damit verfolgt die Kommission vor allem das Ziel, die Zersplitterung und Doppelarbeit nationalstaatlicher Initiativen bei der Retrodigitalisierung zu überwinden. Die Bestände schätzt die EU auf 2,5 Milliarden gedruckte Werke, viel Arbeit und Geld sind für die Digitalisierung notwendig. Der politische Rückhalt scheint mittlerweile vorhanden zu sein und die Bibliotheken wollen mitziehen.

Langsam setzt sich die Erkenntnis durch, dass der digitale Bestand einen wichtigen Teil unseres kulturellen Erbes ausmacht und akut gefährdet ist. Nationalbibliotheken bereiten ihre Erweiterung auf digitale Archivierung vor oder betreiben bereits Systeme. An der Kooperation zwischen den Protagonisten der digitalen Archive mangelt es allerdings, hier will die EU ein Wörtchen mitreden. Bleibt zu hoffen, dass die allseits monierten knappen Kassen dem digitalen kulturellen Erbe nicht entgegenstehen.

Viel Geld wird auch die Digitalisierung von Papierbeständen verschlingen. Bevor Unternehmen wie Google und Yahoo, die in den USA Millionen von Büchern scannen wollen, auch in Europa den finanzschwachen Bibliotheken unter die Arme greifen können, sind wohl noch viele Diskussionen notwendig. Public-Private-Partnerships sind Neuland für das europäische Bibliothekswesen, aber eine Alternative dazu ist zurzeit nicht in Sicht. (jr)

Anzeige
Anzeige