aus ein
Ansicht umschalten Baum an
Avatar von Valentin Hilbig
  • Valentin Hilbig

mehr als 1000 Beiträge seit 08.01.2000

Bleiben wir bei der Realität

Ich gehe davon aus, Du wolltest nicht trollen sondern hast das Thema
schlicht verfehlt.  Könnte es sein dass Du den falschen
Realitätsadapter aktiviert hast als Du den Artikel gelesen hast?

Hier ging es um *Archivierung* nicht *Konvertierung*.  Es geht also
nicht um die Übersetzung der Dokumente für die Nachwelt, sondern für
den Erhalt der Dokumente wie sie sind.

Also:

- Du konvertierst Deine Dokumente meinetwegen in MS Office Open XML
- Und dann?  Wodurch ist das Dokument dann besser archiviert als
vorher?

Noch eine Frage:  Ich habe ein Dokument.  Das ist im
Matroshka-Format, also MPEG4 und Ogg-Vorbis.  Wie konvertiere ich das
bitte in MS Office Open XML von dem Du so schwärmst um es zu
archivieren und was hätte ich durch die Konversion gewonnen außer
noch mehr Chaos bereitet?

Merke: Ein Langzeitarchiv ist etwas, das im Idealfall einige tausend
Jahre verstauben kann so dass Historiker oder gar Archäologen, wenn
die Menschen schon gar keine Sprache mehr sprechen sondern sich
direkt gedanklich verständigen,  dann die alten Dokumente noch
interpretieren können. Man kann denen durch einfach lesbare
Datenformate natürlich das Leben einfacher machen, aber in 2000
Jahren oder so müssen die Historiker erst einmal wieder daran denken,
dass wir ja "nur zweiwertige Bits" verwendeten und so etwas wie
gesprochene Sprache hatten und statt einer direkten
Quantenwahrnehmung so primitive Dinge wie Augen und Ohren besaßen um
Schallwellen und Lichtquanten wahrzunehmen.

Also, die Frage beim Archivieren ist nicht, in welchem Datenformat
das Dokument vorliegt, auch nicht wie man es konvertiert, sondern in
welchem Datenträgerformat man das Dokument auf dem Datenträger ablegt
um es haltbar zu machen!  Das Datenformat des Originaldokuments ist
dabei nur ein nachrangiger Aspekt denn ein einziges Format das alle
anderen Formate in einfach verständlicher Weise aufnehmen kann das
kann es nicht geben (siehe auch Gödelisierung und Fundamentalsatz der
Thermodynamik).

Einige langzeitarchivierte Textpassagen sind über 1000 Jahre alt. 
Bibliotheken sind zufrieden, wenn sie Material, das in ihren Archiven
lagert und 200 Jahre alt ist, noch lesen können.  Heutige digitale
"Langzeitarchive" haben aber schon mit 20 Jahren so ziemliche
Probleme - versuche bitte einmal einen Datenträger aus den 80er
Jahren noch zu lesen, dann weißt Du, wo das Problem steckt.  Nicht
die Datenformate der Dokumente ist das Problem, die Information ist
einfach schon erodiert.

Eines der besten Mittel wäre, die Bits auf ein Blatt Papier zu
drucken.  Nur was hilft das, wenn das Punktegewirr niemand mehr lesen
kann weil der Programmierer, der den Converter geschrieben hat,
gestorben ist und leider die notwendige Lesesoftware verlorenging
(das ist der NASA passiert, sie können die Bänder von den
Voyager-Sonden nicht mehr lesen, weil das Programm, das die Bänder
liest, sich ebenfalls auf den Bändern befindet, die man aber nicht
mehr lesen kann, weil dummerweise kein Lesegerät dafür mehr
existiert.  Der letzte, der noch wusste, wie es geht, ist inzwischen
gestorben).  Auch hilft das bei den heutigen Datenmengen wenig,
wieviel Millionen Tonnen Papier will man bedrucken und wo lagert man
diese Kubikkilometer an Papier?

"Ein gut dokumentiertes Datenformat" wie aus dem Artikel ist ein
Datenformat, das ein normaldenkender Archäologe anhand des
aufgezeichneten Datenträgers problemlos lesen kann, *ohne*
technisches Vorwissen. Sprich, es wäre auch vollständig
selbstdokumentierend.  XML ist da schon hart dran.  Aber nur, wenn es
auch ohne die Dokumentation von Microsoft oder sonstigen Leuten
verständlich ist.  Aber was hilft Dir das, wenn Du auf dem
Datenträger keine Information lesen kannst weil Du nicht weißt, wie
das Format da aussieht?  Oder wenn der Bau eines Lesegeräts so teuer
ist, dass es den Verteidigungshausalt eines kleineren Landes
überfordern würde?

Wenn also ein paar Außerirdische auf die Erde kommen sollten sie im
Idealfall den Datenträger lesen können ohne sich lange den Kopf
darüber zu zerbrechen, ob es sich überhaupt um einen Datenträger
handelt oder nicht.  Das Mittel wäre idealerweise ein Mikroskop und
der Datenträger als Palimpsest so kodiert, dass man automatisch in
die einzelnen Datenschichten eingeführt wird.  Sprich, Kompression
ist der *grundfalsche* Ansatz, denn diese dient ja dazu, den Kanal
nach Shannon maximal auszunutzen, damit ist das "Format" dann von
zufälligem Rauschen schlecht zu unterscheiden. Schon da beginnt der
grundlegende Fehler bei der Langzeitarchivierung, außer man definiert
am Anfang des Datenträgers den jeweiligen Entpack-Algorithmus für
eine Emulatorschicht die ebenfalls gut definiert sein will.

Ein guter Ansatz für die Langzeitarchivierung wäre beispielsweise
folgender:

Man stellt eine Glyphe aus einer Diamantstruktur her.  Man erkennt an
der Glyphe, dass es sich um irgendein besonderes Ding handeln muss da
so etwas in der Natur nicht von selber entsteht.

Die Oberfläche der Glyphe strukturiert man so, dass sie mit einem
Muster versehen ist, die einige hundert Byte an Information enthält
die durch einfache mathematische Grundlagen die Leserichtung und
Grundstruktur (8 Bit) der Daten liefert.  Diese Information ist dank
des Musters redundant, sprich, auch wenn die Glyphe zerbricht oder
beschädigt wird bleibt die Information erhalten.

Das Muster selber ist wiederum in einem Bitstrom gezeichnet, den man
dann dank des Musters nun lesen kann.  Dieser ergibt einen
Algorithmus, der darauf hindeutet, dass es noch weitere Informationen
gibt die in der Glyphe verborgen sind.

Beim durchleuchten des Kristalls kann man dann millionen
Kristallfehler erkennen.  Durch den Algorithmus kann man sie dann
zuordnen und lesen.  Es ergibt sich die Bauanleitung für einen
holographischen Scanner der dieses Kristall auslesen kann, und der
idealerweise mit der Technik um 1800 herstellbar sein sollte
(Hologramme zu lesen ist einfacher als sie herzustellen!).

Und nun hat man die Technik, um den Kristall selber lesen zu können,
der dann einige Terabyte an Informationen enthält, mehrfach
gesichert, redundant und mit der notwendigen Technik leicht lesbar. 
Also eine etwa handtellergroße Glyphe könnte die Information er
Enzyklopedia Britannica speichern, selbst dann noch, wenn man sie mit
Gewalt in 4 Teile zerbricht.

Diese Sorte der Langszeitarchivierung können wir noch nicht zu einem
bezahlbaren Preis herstellen.  Der zweitgute Ansatz ist deshalb
Mikrofilm.  Solche Mikrofilme lagern, gut verpackt und
atombombensicher, in einigen Salzstöcken in Deutschland oder so und
andere Länder haben sicher ähnliches.  Mikrofilme sind mit
Mikroskopen relativ leicht lesbar und sind ohne weiteres einige
hundert Jahre haltbar.

Was ich allerdings als "extrem kurz" bezeichnen würde. Denn nach
einem größeren Umwelt-Gau kann es durchaus mal tausend Jahre dauern
bis die Menschheit (oder meinetwegen Ameisenheit, was auch immer
nachkommt) wieder den Stand hat, mit solchen Informationen etwas
anfangen zu können.

Bücher halten also wahrscheinlich länger als all diese aufwendige
Technik mit der wir unsere Daten archivieren.

Hast Du mal in der Serie "Roswell" gesehen wie das Buch der
Außerirdischen aussieht?  Gestanzte Symbole in einem unverwüstlichen
Metall das einiges an Hitze aushält.  Jau, genau, so etwas ist für
ein Langzeitarchiv ein echt guter Ansatz.  Papyrus war auch nicht
schlecht.  Seitdem geht es aber irgendwie abwärts mit der
Archivierungstechnik.  Was inzwischen als "Langzeitarchivierung"
verkauft wird ist aus meiner Sicht ein absoluter Witz ;)

-Tino
Bewerten
- +
Anzeige