Hoppla, wo sind denn die Daten hin?

09.03.2014

Praktisch alle Daten werden heute digital gespeichert. Analoge Speicherung wäre zwar langlebiger, ist aber kaum noch gefragt.

Nachdem mit dem schweizerischen Filmhersteller Ilford in Marly der einzige Hersteller von langlebigem Farbmikrofilm sich infolge Insolvenz in Abwicklung befindet, ist damit zu rechnen, dass die analoge Langzeit-Speicherung von mehrfarbigen Abbildungen in Kürze nur noch über Farbauszugsverfahren auf Schwarzweißfilm erfolgen kann.

Das sollte eigentlich kein wirkliches Problem sein. Wozu gibt es Festplatten? Nun haben Festplatten eine deutlich kürzere Lebenserwartung als Filme. So liegt die typische Lebenserwartung einer Festplatte bei etwa 5 Jahren, das ist gerade ein Hundertstel des oben erwähnten Films. Daher müssen digitale Datenbestände in bestimmten Zeitabständen auf neue Datenträger überspielt werden. Das dauert. Und nach erfolgtem Überspielen müssen die einzelnen Dateien nochmals auf Vollständigkeit überprüft werden, denn so ganz ohne Verlust erfolgt die Übertragung dann doch nicht.

Das hört sich einfach an, wird jedoch wohl in den meisten Fällen nicht gemacht und so werden Datenfehler in alle folgenden Generationen tradiert. Ein verlorener Datenpfad lässt die Datei dabei ins datentechnische Jenseits übersiedeln. Bei Datensammlungen, die aktuell noch aktiv genutzt werden, mag es auffallen, wenn einzelne Dateien plötzlich nicht mehr auffindbar sind. Bei archivierten Forschungsergebnissen (oder gar bei den Datensammlungen, auf welchen diese Ergebnisse aufbauen) sieht die Sache jedoch ein wenig anders aus. Rohdaten aus Forschungsprojekten sind nach 20 Jahren bereits zu 80 Prozent verschwunden, weil sie nicht richtig gesichert wurden.

Timothy H. Vines, der im Department of Zoology an der University of British Columbia in Vancouver arbeitet, hat im vergangenen Dezember unter dem Titel The Availability of Research Data Declines Rapidly with Article Age die Resultate einer Untersuchung zur Verfügbarkeit von digital archivierten Forschungsergebnissen sowie der diesen zugrundeliegenden Datensätze veröffentlicht. Anhand von 516 Studien, die zwischen 2 und 22 Jahren alt waren, hatte man untersucht, wie viele der Datensätze noch zu finden waren, und stellte dabei fest, dass die Verfügbarkeit der Daten sich pro Jahr um 17% reduzierte.

Die Tatsache, dass die jeweiligen Autoren unter den angegebenen Adressen nicht mehr erreichbar waren, wird niemanden verblüffen, der schon einmal versucht hat, Autoren eines nicht mehr ganz taufrischen Beitrags anzusprechen. Wenn die Verfasser dann (wie der Autor der kanadischen Studie) unter verschiedenen (wenn auch ähnlichen) Namen (Timothy H. Vines, Timothy Vines, Tim Vines) arbeiten oder den Namen aufgrund von Heirat wechseln, wird die Suche ziemlich aufwendig. Dazu kommt das Problem, dass die Daten vielfach auf Speichermedien abgelegt wurden, für die Lesegeräte heute schwer zu finden sind.

Dies können 5 1/4-Zoll-Disketten, Exoten wie MCD- und Orb-Wechselfestplatten oder magneto-optische Laufwerke sein. Auch Magnetbänder waren in den unterschiedlichsten Wechselkassetten gebräuchlich. Manchmal lagern die Daten auch auf Festplatten, für die sich heute keine Anschlüsse und/oder keine Treiber mehr finden lassen. Und selbst wenn die Hardware noch funktioniert, sind die Daten teilweise in Formaten abgelegt, für die es die damals genutzten Programme nicht mehr gibt, oder die heute nicht mehr gebräuchlich sind:

5,25" Diskettenlaufwerk. Foto: MOS6502. Lizenz: CC BY-SA 3.0.

Wer hat heute beispielsweise noch Erfahrung mit dem in den 1980er-Jahren gängigen Datenbankprogramm dBase? Zum Glück waren die ersten PCs nicht wirklich tragbar - und so musste ich einen Teil der Daten für meine Dissertation noch auf Karteikarten erfassen, die heute noch lesbar sind (im Gegensatz zu der dann am heimischen Schreibtisch erstellten Datenbank).

So mancher kreative Forscher legte seine Daten auch mehr oder weniger systematisch in einer selbst gestaltetet Dateistruktur ab, die für Außenstehende nur noch schwer zu durchblicken ist. Ob der jeweils zuständige Systemadministrator dafür sorgte, dass diese Dateien zentral so gespeichert wurden, dass sie auch nach einem Weggang des Forschers aus der Forschungseinrichtung noch verfügbar sind, scheint eine berechtigte Frage zu sein.

Eine nicht repräsentative Befragung bei Forschungseinrichtungen in Deutschland verstärkt die Befürchtung, dass die Ergebnisse aus Kanada hierzulande nicht besser ausfallen würden. Wer heute daran geht, Studien aus der Anfangszeit der digitalen Forschungswelt nachzuvollziehen, oder mit aktuellen Ergebnissen zu vergleichen, steht häufig vor dem Nichts.

Da die Rohdaten vieler älterer Forschungsberichte heute nicht mehr verfügbar sind, lassen sich diese Ergebnisse heute praktisch nicht mehr nachvollziehen. Fehler aufgrund von Irrtümern oder Schlampereien lassen sich nicht mehr nachweisen. Daher kommt vom Team um Timothy H. Vines an der University of British Columbia in Vancouver die Forderung, dass nicht nur die Forschungsberichte, sondern auch die dazu gehörenden Rohdaten in allgemein zugänglichen Datenbanken gespeichert werden sollten. Fälschungen und Schlampereien könnte man so auch in Zukunft noch auf die Schliche kommen.

Wie Andrew J Vickers im British Medical Journal schon 2011 dargestellt hatte, ist derzeit nicht einmal ein Viertel der Autoren von wissenschaftlichen Publikationen bereit, die Rohdaten ihrer Forschungen der Öffentlichkeit zugänglich zu machen. Die Mehrheit betrachtet diese Rohdaten offensichtlich als ihren persönlichen Besitz.

Dies ist keine neue Entwicklung: Auch in der vor-digitalen Zeit war das Interesse überschaubar, die Ausgangsdaten seiner Forschung mit anderen zu teilen. Immerhin bestand in analogen Zeiten aber noch die Möglichkeit, die Unterlagen nach Ableben des Forschers zu finden und auszuwerten. Im digitalen Zeitalter darf man sich weniger Hoffnungen auf solche Zufallsfunde machen. Die digitalen Daten und ihre Datenträger sterben offensichtlich noch schneller als das gefürchtete säurehaltige Papier.

x
Fehler melden
Telepolis zitieren
Vielen Dank!
Anzeige
Anzeige
Hellwach mit Telepolis
Anzeige
Cafe
Telepolis-Cafe

Angebot des Monats:
Kaffee und Espresso aus Nicaragua in der Telepolis-Edition für unsere Leser

Cover

Aufbruch ins Ungewisse

Auf der Suche nach Alternativen zur kapitalistischen Dauerkrise

Anzeige
Cover

Die Form des Virtuellen

Vom Leben zwischen den Welten

bilder

seen.by

Mit dem Schalter am linken Rand des Suchfelds lässt sich zwischen der klassischen Suche mit der Heise-Suchmaschine und einer voreingestellten Suche bei Google wählen.

Tastenkürzel:

ctrl-Taste:
Zum Wechseln zwischen Heise- und Google-Suche

esc-Taste:
Verlassen und Zurücksetzen des Eingabe-Felds

Buchstaben-Taste F
Direkt zur Suche springen

SUCHEN

Mit dem Schalter am linken Rand des Suchfelds lässt sich zwischen der klassischen Suche mit der Heise-Suchmaschine und einer voreingestellten Suche bei Google wählen.

SUCHEN

.
.