08.09.2009 11:01
Während in den USA Googles Einigung mit Verlegern und Autoren über die Digitalisierung ihrer Werke zur Verhandlung ansteht und die EU noch berät, wie sie sich dazu stellt, nimmt die Aufmerksamkeit für die von dem Internetdienstleister bereitgestellten Inhalte und Metadaten zu. So weist der Professor Geoffrey Nunberg von der Berkeley School of Information in seinem Blog auf fehlerhafte Metadaten in der Buchsammlung hin.
Laut Google Books eines der frühesten Bücher zum Thema "Internet"
Beispielhaft führt er an, dass Google 1899 als Erscheinungsjahr vieler Werke angibt, die erst deutlich später herauskamen – etwa Raymond Chandlers "Killer in the Rain" (Chandler kam 1888 auf die Welt) und "La condition humaine" von dem 1901 geborenen André Malraux. Fehler fand er auch bei der Verschlagwortung. So gibt Google über 1000 Fundstellen für "Internet" in Werken an, die vor 1950 erschienen sind. Unter anderem gehört dazu ein 1742 erschienenes Buch von Cesare Calino aus der Bayerischen Staatsbibliothek (s. Abbildung). Weitere Beispiele betreffen zahlreiche Werke von Charles Dickens, Rudyard Kipling und Greta Garbo, die jeweils vor deren Geburt erschienen sein sollen.
In einem Gespräch mit Nunberg habe Dan Clancy, der "Chefingenieur" für Google Books, die Verantwortung für die Fehler auf die Bibliotheken geschoben. Dies hält Nunberg jedoch für ein Hirngespinst ("woolgathering"): In einigen Fällen gebe es zwar systematische Fehler, die auf einzelne Bibliotheken zurückgingen, etwa das massenhaft verwendete Erscheinungsjahr 1899 bei Werken in portugiesischer Sprache. Die meisten Fehler seien jedoch Googles eigene Schuld. Falsche Erscheinungsdaten etwa lägen daran, dass die Firma sie per OCR (Optical Character Recognition) automatisch bestimme. Absurde Kategorisierungen seien bedingt durch Googles "fine algorithmic hand", die mit einem "Icon" automatisch das Stichwort "Religion" assoziiere.
Siehe dazu auch:
(ck/iX)
Version zum Drucken | Per E-Mail versenden | Newsletter abonnieren
Kommentare lesen (60 Beiträge)
Die einen lassen sich impfen, die anderen schwören auf Hausmittel. Auch wenn Wadenwickel bei einer Pandemie nicht unbedingt das Mittel der Wahl sind, bei einer herkömmlichen Erkältung haben sie sich allemal bewährt.
mehr…
Wer Kundendaten in zwei Systemen speichert, braucht Mechanismen zum Abgleichen zwischen ihnen. Kostengünstig lässt sich unter anderem das freie Werkzeug Pentaho Data Integration dafür verwenden.
mehr…
Jahrelang galt Palm als die PDA-Firma: Ihre Organizer waren die ersten in großen Stückzahlen verkauften. Doch dann folgte ein langer Niedergang, den nun ein Smartphone mit neuer Technik beenden soll: der Palm Pre.
mehr…
W3C: XMLHttpRequest als "Last Call"
Neue Veranstaltungsreihe: Rechenzentren & Infrastruktur
Machtpoker um die Vergabe von IP-Adressen und die DNS-Aufsicht
ENISA-Studie hilft bei Risikoabschätzung für Cloud Computing
ONLINE MARKT
Werbung