Seine automatischen Index-Programme, die durch das Web kriechen, haben bislang mehr als 40 Milliarden individuelle Seiten gespeichert. Daneben bewahrt das Internet-Archiv die digitalen Versionen von Büchern, Filmen, Liedern und Bildern. Jeden Monat, schätzt Kahle, wächst sein Bestand um rund 25 Terabyte - was ungefähr dem gesamten Bestand der Staatsbibliothek der Vereinigten Staaten, der Library of Congress, entspricht, so dieser digitalisiert und als einfacher Text abgespeichert würde.
Beim Erfassen der Unterlagen bedient sich Kahle automatischer Scanroboter, die mit mechanischen Armen selbstständig die Seiten umblättern. Und er lässt Minibusse mit Satellitenschüsseln auf dem Dach durch Indien, Uganda und die USA rollen, um zu demonstrieren, wie man digital archivierte Bücher auch auf dem flachen Land herunterladen und ausdrucken kann. Auf den hunderten von Servern, die überall auf der Welt verteilt stehen, sind inzwischen ein Petabyte oder eine Billiarde Bytes gespeichert.
Moderne Speichermedien, schnelle Leitungen und immer bessere Suchmaschinen machen es möglich, dieser Datenflut Herr zu werden. "Dank des Internets wird der Zugriff auf Informationen immer besser und schneller, während die Kosten für Speichermedien immer weiter sinken", sagt Peter Lyman von der Schule für Informations-Management an der Universität Berkeley. Das erlaubt Büchereien, Museen, Stiftungen, Unternehmen und Regierungsbehörden in aller Welt, immer mehr Daten zu horten und nach Brauchbarem zu durchsieben. Lyman ist einer der Autoren der wegweisenden Studie "How Much Information?", die in den Jahren 2000 und 2003 den Versuch wagte, das gesamte menschliche Wissen in Bits und Bytes zu quantifizieren.
Wer sich Lymans Zahlen ansieht, merkt rasch, dass Kahles Versprechen des universalen Zugangs etwas hoch gegriffen ist. Im Jahr 2002 etwa produzierte die Menschheit auf Papier, Film, magnetischen und optischen Speichermedien rund fünf Exabyte neue Daten. Neun Zehntel davon wurden auf Festplatten abgelegt. Fünf Exabyte - eine Zahl mit 18 Nullen - entspricht 800 Megabyte pro Kopf der Weltbevölkerung, rechnet Lyman vor, oder zehn Meter aneinander gereihter Buchrücken pro Erdbewohner. Seit 1999, dem Zeitpunkt der ersten Erhebung für die Berkeley-Studie, wuchs das Volumen gespeicherter Informationen um jährlich 30 Prozent.
Das für alle zugängliche Internet macht dabei nach Lymans Schätzung lediglich einen Bruchteil der Datenflut aus, nämlich 170 Terabyte. "Dieses Zahl bezieht sich allerdings nur auf die statischen Webseiten, die für jeden Benutzer gleich aussehen", erläutert der Professor. Rechnet man all jene Seiten hinzu, die aufgrund einer individuellen Anfrage dynamisch erzeugt werden, erhält man das so genannte "tiefe Web" - und das ist geschätzte 92000 Terabyte groß. Hinzu kommen Milliarden von E-Mails und Instant-Messaging-Nachrichten sowie Telefongespräche, die immer häufiger über das Internet übertragen werden.
Dieser Text ist der Zeitschriften-Ausgabe 01/2005 von Technology Review entnommen. Der Artikel steht auch als kostenpflichtiges pdf im Heise Kiosk zum Download bereit.
Permalink: http://heise.de/-281103