Menü

Die Zukunft der Archive: Ein Gedächtnis fürs Internet und Quellcode

"Quellcode als Teil des kulturellen Gedächtnisses der Menschheit"

Inhaltsverzeichnis

Interview mit Stefano Zacchiroli von Software Heritage

heise online: Bei digitaler Langzeitarchivierung sind Fragen nach der Struktur des Archives und der Werkzeuge für Zugriff, Analyse und Auswertung entscheidend. Welche Leitlinien verfolgen Sie bei der Entwicklung von Archiv, Tools und API?

Stefano Zacchiroli

(Bild: Ralf.treinen, CC BY-SA 3.0 )

Stefano Zacchiroli: Wir möchten sicherstellen, dass unser Quellcodearchiv auch in Jahrtausenden noch nutzbar ist – also wenn alle Personen und Institutionen, die das Archiv gegründet haben, längst verschwunden sind. Um das wahrscheinlicher zu machen, verfolgen wir zwei grundlegende Prinzipien: Transparenz und Redundanz.

Transparenz heißt ganz praktisch: Alle Software, die wir selbst für das Projekt schreiben, ist Open Source und wird es immer bleiben; wir halten uns dabei an die bewährten Praktiken der Open-Source-Entwicklung mit öffentlichen Bugtrackern und dergleichen.

Was die Redundanz angeht: Wir bauen an einem weltweiten Netzwerk von unabhängigen Kopien, gehostet von unterschiedlichen Institutionen und in verschiedenen Ländern. Auf diese verhindern wir, dass die Entscheidungen einzelner Personen, Institutionen oder Regierungen die Existenz des gesamten Archives gefährden können.

Sie sagen, dass Quellcode einen wachsenden Anteil des Wissens der Menschheit verkörpert. Das ist offensichtlich, wenn wir über Informatik oder Technikgeschichte sprechen. Was sind Beispiele für Forschungsfragen aus anderen Wissensgebieten, die man mittels Ihres Archiven untersuchen kann?

Forschungsprojekte, die Quellcodes untersuchen, sind in der Regel tatsächlich im Bereich der Informatik angesiedelt. Aber ganz allgemein ist Software ein wesentlicher Bestandteil der meisten wissenschaftlichen Untersuchungen, egal in welchem Bereich: Das gilt für die Mathematik, wo man einen wachsenden Anteil von komplexen Theoremen mittels halbautomatischer Verfahren beweist. Es gilt aber auch für die exakten Wissenschaften, wo man oft riesige Datenmengen prozessiert, um Resultate zu finden. Auch in den Sozialwissenschaften nimmt die Bedeutung von Software zu.

Fehler in Forschungssoftware können schlimme Folgen haben, das hat etwa die "Excelgate Affäre" für den Bereich der Ökonomie gezeigt. Der Quellcode einer jeden Software, die in ein wissenschaftliches Experiment eingebunden ist, muss Gegenstand von Peer Review sein und für die Nachwelt erhalten werden. Das sollte eine sehr hohe Priorität haben. Es gibt keine Rechtfertigung dafür, dass Software aus wissenschaftlichen Experimenten anders behandelt wird als die Publikationen, die diese Experimente beschreiben.

Die Quellcodes von proprietärer Software zu sammeln, scheint eine der größten Herausforderungen Ihrer Arbeit zu sein. Wie gehen sie das Problem an? Sind Sie im Dialog mit Softwareherstellern?

In den ersten Jahren von Software Heritage haben wir uns auf die Sammlung öffentlich verfügbarer Quellcodes konzentriert. Wir haben da eine Dringlichkeit gesehen: Mehrere wichtige Filehostingdienste für Softwareprojekte wurden damals eingestellt oder kündigten die Einstellung an – wir hatten einfach Angst, Quellen zu verlieren.

Aber natürlich enthält auch Closed Source kostbares Wissen, es ist nur wesentlich schwieriger, das zu sammeln, zu bewahren und vor allem – aufgrund von Lizenzbeschränkungen – zu teilen. Unsere Langzeitstrategie für dieses Problem ist einerseits die Unterstützung von "embargoed source-code deposits" (in etwa "Quellcode-Archive unter Embargo"). Mit solchen Deposits kann die Wissensspeicherung auch für Closed Source erst einmal losgehen. Der öffentliche Zugriff wird auf einen Zeitpunkt verschoben, zu dem die lizenzrechtlichen Bestimmungen diesen erlauben.

Andererseits planen wir, die gezielte Suche nach historisch bedeutsamem Quellcode zu koordinieren und zu unterstützen. Der soll dann ins Software Heritage Archiv wandern und nach Möglichkeit "befreit", also öffentlich verfügbar gemacht werden.

Sie haben mit Milliarden Quelldateien zu tun und müssen dabei wohl eher das große Ganze im Blick behalten. Trotzdem: Gibt es ein File oder ein Projekt im Archiv, das sie besonders gern mögen?

Ein Lieblingsstück von den meisten hier bei Software Heritage ist der Code der Mondmission Apollo 11. Nicht nur weil dieser Code buchstäblich die ersten Menschen auf den Mond befördert hat. Sondern auch, weil dessen Entwicklung den Beginn des Software Engineering markiert. Diese Disziplin wurde von Margaret Hamilton begründet, der Leiterin des Entwicklungsteams der Apollo 11 Software.

Apollo 11 (5 Bilder)

Margaret Hamilton und ein Ausdruck des Codes für die Apollo 11 Mission
(Bild: Draper Laboratory)

Geisteswissenschaften operieren viel mit Texten, und Quellcode ist eine bestimmte Textsorte, vielleicht sogar eine bestimmte Sorte von Literatur. Ergibt die Aussage für Sie Sinn, dass ihre Arbeit Teil der "digital humanities", der digitalen Geisteswissenschaften ist?

Der Begriff "digital humanities" bezieht sich ganz allgemein auf den Gebrauch von Computern und Software zur automatisierten Auswertung menschlicher Artefakte. Aber Sie gebrauchen den Begriff hier in einer hübschen Wendung! Ganz sicher betrachten wir, gemeinsam mit der UNESCO, Quellcode als Teil des kulturellen Gedächtnisses der Menschheit, der bewahrt werden muss.

Wie können Privatpersonen, institutionelle und wirtschaftliche Akteure Ihre Arbeit unterstützen?

Danke für die Frage! Wir laden Programmierer dazu ein, uns bei der Entwicklung der Software zu unterstützen, die wir für das Projekt brauchen. Firmen und Institutionen können sich an unserem Unterstützungsprogramm beteiligen, und wir freuen uns auch über Spenden von Einzelpersonen. (mho)