Da versteh' einer die Maschinen!

Der Gecko-Python-Test: Cuil, Yahoo, Live Search, semaGER und Google

Bei unseren letzten Versuchen mit Suchmaschinen hieß Cuil noch Cuill, und die Homepage meldete lediglich: "Search. We're working on it." Die Reaktionen auf den Launch des selbsterkorenen Google-Jägers waren wenig schmeichelhaft: "Desaster", hieß es, "Schlechter Start", "Kein Text, dafür Pornobilder". Kein Wunder, wenn man sich die Top-Ergebnisse von Cuil-Suchen nach Begriffen wie Köln, München und Berlin ansieht. "Nur nicht aufgeben", will man da den Betreibern zurufen, "immer schön weiterarbeiten." Je mehr man googelt, desto mehr sehnt man sich nach Alternativen.

Aber wie vergleicht man eigentlich Suchmaschinen? Eine Möglichkeit ist es, den eigenen Namen einzugeben, und wer die höchste Zahl sagt, hat gewonnen. Aber Zahlen allein sind kein zuverlässiger Indikator in diesem Geschäft; Cuil hat, eigenen Angaben zufolge, dreimal so viele Webseiten indiziert wie Google und wurde trotzdem mit Häme überschüttet. Nicht nur die Anzahl der Seiten ist wichtig, sondern auch ihre Interpretation.

So kam es zum Gecko-Python-Test. Die Kombination von "Gecko" und "Python" ist ein Beispiel für Begriffspaare, von denen wahrscheinlich ist, dass sie recht häufig gemeinsam in Web-Dokumenten vorkommen - allerdings mit unterschiedlichen Bedeutungen. Zunächst mal sind Gecko und Python natürlich Reptilien, eine Echse und eine Schlange, und man kann erwarten, dass es Webseiten gibt, auf denen diese beiden Vertreter der Schuppenkriechtiere gemeinsam vorkommen. Zum anderen jedoch sind Gecko und Python auch zwei Softwareprodukte, eine Layout-Engine für Web-Browser nämlich und eine Programmiersprache, mit der diese Layout-Engine in andere Programme eingebunden werden kann. Wenn man also nach "Gecko Python" sucht, sollte man mindestens zwei Klassen von Dokumenten finden, nämlich solche über Tiere und solche über Computersoftware. Aber wie viele findet eine Suchmaschine, und in welcher Verteilung?

Cuil findet 27.384.609 Seiten, und hier sind die Top 10:

  1. DRAFT Gecko 1.9 Roadmap (veraltetes Roadmap-Dokument)
  2. Gecko 1.9 Roadmap (aktuelle Gecko-Roadmap)
  3. Herpetology (Allgemeines über Reptilienhaltung; "Gecko" im Quelltext, "Python" gar nicht gefunden)
  4. Re: [globus-python] Python bindings for Condor or SGE? (Newslist-Posting)
  5. In the Pythons Den (Interview mit einem Reptilienzüchter)
  6. Reptielen Luipaard Gecko (Seite auf niederländisch, die nicht mehr existiert und zu einer anderen Tierhandlungs-Seite weiterleitet)
  7. Crested Gecko Caresheet (Rhacodactylus ciliatus (über die Pflege von Crested Geckos - "Python" findet sich im Quelltext)
  8. Burmese Python Care (Python molurus bivittatus) (Ratgeberseite zu einer speziellen Python-Art)
  9. [python-advocacy] The python way to write web applications (Newslist-Posting)
  10. Infrared Python (Infrarotphotografien einer Python zwecks Demonstration ihrer kaltblütigen Natur)

Die Zahl der gefundenen Seiten ist ein Hingucker: Über 27 Millionen, eine Größenordnung mehr als die Konkurrenz. In den Top 10 viermal Software und sechsmal Tiere. Die Relevanz ist unterschiedlich: Nur die Seiten auf den Plätzen 1, 2, 5 und 9 bringen die beiden Begriffe in einen inhaltlichen Zusammenhang; meistens kommt nur einer in Überschrift und/oder Haupttext, der andere im Link- oder Quelltext vor. Rang 1 und 2 werden von zwei Versionen desselben Dokuments belegt, das die Zukunftsplanung für die schon erwähnte Gecko-Engine festschreibt; der um ein Jahr ältere Entwurf rangiert dabei vor der endgültigen Fassung, ein Muster, das uns noch öfter begegnen wird. Nummer 3 ist insofern verblüffend, als das "Gecko" nur im Quelltext auftaucht, neben scheinbar wahllos zusammengerafften Keywords von "Anorexia" über "Flowers" bis "Yoga", und "Python" gar nicht. Wieso das die drittrelevanteste von 27 Millionen Seiten sein soll, kann vermutlich bestenfalls ein besonders abgezockter SEO-Profi erklären.

Yahoo lieferte an zwei aufeinanderfolgenden Tagen zwei völlig unterschiedliche Ergebnislisten für das Begriffspaar. Tag 1 erbrachte 2.400.000 Seiten und diese Liste:

  1. Brandon's Leos (Züchterseite über Reptilien, vor allem Leopardengeckos; das Wort "Python" kommt im Oberflächen-Text nicht vor)
  2. The Gecko Globe (Reptilienhandlung)
  3. DRAFT Gecko 1.9 Roadmap (veraltetes Roadmap-Dokument)
  4. Gecko:Wish List (Wunschliste von Benutzern der Gecko-Engine)
  5. Gecko 1.9 Roadmap (endgültige Fassung des unter 3. gefundenen Dokuments)
  6. How To Breed Leopard Geckos ("Python" kommt in einem Link-Text vor)
  7. Welcome to Harford Reptile! (Reptilienhandlung)
  8. Welcome to Kangas Kritters! (Züchter-Seite; "Gecko" und "Python" in den Keywords des Quelltextes))
  9. Mozilla Developer Center - XPCOM (ein Dokumentenobjektmodell, das - unter anderem - das Zusammenspiel der Python-Programmiersprache mit der Gecko-Engine ermöglicht)
  10. The Guide to Owning a Leopard Gecko (Buch über Haltung und Zucht von Leopardengeckos)

Einen Tag später findet Yahoo sogar 2.580.000 Seiten, doch die Top 10 sehen ganz anders aus:

  1. Ballpythons-Universe (Reptilienzucht)
  2. Morelia viridis (Infos zur Python- und Geckozucht und -haltung)
  3. Dreamgeckos (Geckoverkauf; "Python" als Quelltext-Keyword)
  4. Python Molurus (Infoseite mit Link auf geckos.info)
  5. Fauna-Media (Tierposter u.ä.)
  6. Terratropic (Hobbyzüchter diverser Echsen und Schlangen)
  7. Gecko-Kleinanzeigen (mit Link zu Python-Kleinanzeigen)
  8. Lichanura (Hobby-Tierhalter)
  9. Terrino (Terrarien-Zubehör)
  10. Python&Co. (Terraristikfachhändler)

Eigenartig. Gestern nur englischsprachige Ergebnisse, heute nur deutschsprachige. Gestern zur Hälfte Software-Seiten, heute keine einzige. Als hätten die Yahoos mein gestriges Suchergebnis gesehen, und als hätte ihnen das nicht gefallen. "Schluss mit der Doppeldeutigkeit!", scheinen sie gesagt und dann den Algorithmus neu getunt zu haben.

Lustigerweise lappt Microsofts Windows Live Search voll in die andere Richtung - 485.000 Seiten, und die Top 10 beinahe tierfrei:

  1. [Python-de] Gecko Wrapper für Python (Newslist-Posting)
  2. [Python-de] Gecko Wrapper für Python (Antwort auf 1.)
  3. [Python-de] QT Lizenz Was: [Python-de] Gecko Wrapper für Python (Antwort auf 2.)
  4. Gecko bindings for Python? (dasselbe Thema, diesmal englischsprachige Newslist)
  5. Gecko bindings for Python? (Vorgänger-Post von 4.)
  6. FunkyWiki
  7. epiphany r7183 (Code-Check-In für den Gnome-Desktop)
  8. epiphany r7184 (dito, einen Build später)
  9. Die Tiere des Regenwaldhauses (Liste des Wiener Zoos, Stand Dezember 2004)
  10. Re: [pyxpcom] Python web crawler using Gecko (Newslist-Posting)

Fast ausschließlich geht es da um Softwareentwicklung, und zwar ganz konkret um die Brücke zwischen Gecko und Python. Die Auswahl ist dermaßen speziell, dass nicht mal Platz ist für die Gecko-Roadmap oder sonstige allgemeiner gehaltene Dokumente von der Mozilla-Website. Möglicherweise - niemand kann das beweisen, aber - möglicherweise wird die Mozilla-Site von der Microsoft-Suchmaschine nach Kräften ignoriert, weil von dort der Firefox kommt, Konkurrent von Microsofts Internet Explorer (Die Layout-Engine des IE heisst übrigens Trident, was auch wieder ein lustiger Zufall ist, weil "Gecko" in einer weiteren Bedeutung ein russisches Luftabwehrraketen-System bezeichnet, und "Trident" in einer weiteren Bedeutung einen U-Boot-gestützten Atomraketen-Typ der USA).

Die Deutsche unter den semantischen Suchmaschinen, semaGER, hat mit 69.843 Seiten die kleinste Auswahl:

  1. Welcome to Harford Reptile! (Reptilienhandlung)
  2. The Gecko Globe (Reptilienhandlung)
  3. Draft Gecko 1.9 Roadmap (frühere Version dess unter 10. gefundenen Dokuments)
  4. Crystal Palace Reptiles (Reptilienhandlung)
  5. Snakes alive! (BBC Haustier-Fotogalerie)
  6. Queensland Museum (australisches Museum)
  7. Mystc Gecko (Reptilienzucht)
  8. The Oakland Zoo (Zoo - weder "Gecko" noch "Python" finden sich auf der Seite, doch beide Worte kommen im Quelltext vor)
  9. Gecko:Wish List (Wunschliste von Benutzern der Gecko-Engine)
  10. Gecko 1.9 Roadmap (endgültige Fassung des unter 3. gefundenen Dokuments)

Wenn man allerdings die semaGER Top 10 mit der Cuil Top 10 vergleicht, wird nicht ganz klar, wozu Cuil 27 Millionen mehr Webseiten indizieren muss als semaGER - die Ergebnisse sind kaum unterschiedlich. Hier wie dort rangiert der Entwurf der Gecko-Roadmap vor der endgültigen Version (ebenso übrigens auch bei Yahoo Tag 1), hier wie dort gibt es dazu eine idiosynkratische Auswahl an Seiten mit Reptilienbezug, von denen man nicht weiß, warum sie relevanter sind als jene sehr ähnlichen Seiten, die die Konkurrenz ausbuddelt. Wie kommt die Homepage des Queensland Museums auf Rang 6, obwohl weder im Oberflächen- noch im Quelltext "Gecko" und "Python" vorkommen?

Eine Site-spezifische Suche mit Hilfe von Google brachte dann heraus, dass in diversen Unterverzeichnissen insgesamt acht PDF-Dokumente lagern, in denen "Gecko" und "Python" vorkommen. Warum das "Queensland Museum" deshalb als relevanter gilt als, sagen wir, der "Oakland Zoo", wird so nicht klar; klar ist allerdings, das es hilfreich ist, eine Suchmaschine zu kennen, mit der man einzelne Sites durchsuchen kann. Jawohl, es ist noch ein Elefant im Zimmer, namens Google, und der fand 1.160.000 Seiten, was deutlich mehr ist als Microsoft und semaGER und deutlich weniger als Yahoo und Cuil.

  1. DRAFT Gecko 1.9 Roadmap
  2. Lightweight embedding of Firefox Gecko into application whose top level is Python--possible?
  3. Gecko bindings for Python?
  4. Frosch-Uhr-ANSEHEN-SUPERTEIL-ALU-Reptilien-Gecko-Python (Angebot bei eBay.at)
  5. Reptilienmanager
  6. [Python-de] Gecko Wrapper für Python
  7. [Python-de] QT Lizenz Was: [Python-de] Gecko Wrapper für Python
  8. Gecko bindings for Python?
  9. MY REPTILES AND AMPHIBIANS LEOPARD GECKO BALL ROYAL PYTHON (YouTube-Video)
  10. Gecko:Wish List (Wiki des Gecko-Entwicklers Mozilla)

Und die Qualität der Top 10...ist auch nicht sichtbar besser als die der Konkurrenz. Wenn ich wirklich speziell am Einbau von Gecko in ein Python-Programm interessiert bin, bringen mich diese Newslist-Posts ebenso auf den Weg wie die anderen (zum Teil sind es ja dieselben). Und die Endfassung der Gecko-Roadmap kommt in Googles Liste gar nicht vor. Wieso rangiert der Entwurf durchgängig höher als die Endfassung? Es scheint fast so, als wäre ein Dokument auf www.mozilla.org einfach mehr wert als eines auf wiki.mozilla.org, auch wenn letzteres über ein Jahr jünger ist. Da versteh' einer die Maschinen!

Der Clou des Gecko-Python-Tests ist natürlich, dass er das Web verändert. Es gibt nunmehr, neben Dokumenten über Software-Entwicklung und Dokumenten über Reptilienzucht, eine weitere Klasse von Dokumenten, in der die Begriffe "Gecko" und "Python" vorkommen: Das Suchmaschinentestdokument. Und es gibt im Moment der Veröffentlichung dieses Artikel genau ein Dokument im gesamten Internet, das die Begriffe "Gecko", "Python" und "Suchmaschinentestdokument" enthält - nämlich diesen Artikel. Und weil eine Adresse wie heise.de gut verlinkt ist und damit ordentlich Einfluss auf Suchmaschinen hat, werden wir in den kommenden Tagen nicht nur feststellen können, wie lange es dauert, bis die Crawler der getesteten Maschinen diesen Text gefunden haben und die Indizes ihn indizieren, sondern auch, ob und bei wem er für die Anfrage "Gecko Python" in den Top 10 landet, und ob und wie er damit das Ranking von Dokumenten anderer Klassen beeinflusst. Mehr dazu also demnächst, unter dem unverwechselbaren Titel "Der Suchmaschinentestdokument-Gecko-Python-Test". (Dirk Scheuring)