Leseprobe aus c't 26/04
Während immer mehr Surfer mit Google das Internet durchforsten, bohren die Schwergewichte Yahoo und Microsoft ihre Suchdienste mit riesigem Aufwand auf. Doch auch etliche kleine Dienste, darunter Newcomer mit frischen Ideen und Spezialisten für deutsche Sites, treten gegen den Platzhirsch an. Es drängt sich also die Frage auf, ob Google eigentlich immer noch die beste Suchmaschine ist.
Das Pflichtenheft einer Web-Suchmaschine enthält eine Reihe höchst widersprüchlicher Anforderungen. Sie soll ein durchsuchbares Abbild aller Milliarden Websites abgeben - stets aktuell, versteht sich. Ihre Bedienung muss schnell und einfach von der Hand gehen, und zu nur zwei, drei schnell eingetippten Suchbegriffen hat sie relevante Treffer auszuspucken - also bitte schön keine zwielichtigen Dialer-Sites und anderen Suchmaschinen-Spam.
In den vergangenen zwei Jahren haben immer mehr Surfer darauf gesetzt, dass Google diese Aufgaben am besten erledigt. Laut Statistik von Webhits benutzen mehr als 77 Prozent der deutschen Surfer Google. Mit Yahoo und Microsoft treten zwei globale Unternehmen an, die Dominanz von Google zu brechen. Yahoo hat sich nach und nach Suchmaschinen-Know-how zugekauft. Das Unternehmen betreibt seit Anfang des Jahres eine eigene Volltext-Suchmaschine, deren Funktionen es seither stetig ausbaut. Anfang des Jahres hat auch Microsoft bekundet, Google Marktanteile abnehmen zu wollen. Die seit Oktober als Betaversion verfügbare MSN Search soll ein erster Schritt auf diesem Weg sein.
Doch ist der Spitzenplatz im Suchmaschinenmarkt nicht zwangsläufig großen Unternehmen vorbehalten. Auch Google war ein Nobody, bis es in der Publikumsgunst an den Platzhirschen AltaVista und Co. vorbeizog. Vielleicht gelingt dies wieder einmal einem kleinen Suchdienst mit pfiffigen Funktionen und exzellenten Ergebnissen.
Dieser Artikel vergleicht die Suchfunktionen der großen drei und zwölf weiterer (Meta-)Volltextsuchmaschinen, im einzelnen Abacho, Anyfinder, Clusty, Lycos, KartOO, Mamma, MetaGer, metaspinner, nettz.de, Plaff, Seekport und Web.de. Welchen Tests wir die Suchmaschinen unterzogen haben, erläutert der Kasten auf Seite 158 im Detail.
Auf Seite 164 stellen wir eine Untersuchung vor, die die Struktur und die Größe des deutschen Web unter die Lupe nimmt und versucht abzuschätzen, wie viel Prozent davon Google und Co. kennen. Der Beitrag auf Seite 166 schließlich präsentiert eine Reihe von Spezialsuchdiensten, Portalen und Linksammlungen aller Art - je nach Thema sind diese womöglich ein besserer Ausgangspunkt für eine Recherche als eine allgemeine Volltextsuche à la Google und Co.
Als Google an den Start ging, war es mit seiner aufgeräumten Startseite ein Exot; mittlerweile bieten auch Portalbetreiber wie Yahoo und MSN ihren Nutzern ähnlich schlanke Suchseiten an. Andere Oberflächen, etwa in Flash, oder Dienste, die Suchfunktionen ausschließlich über Portalseiten anbieten, sieht man immer selter.
Viele Suchdienste stellen mittlerweile kostenlose Desktop-Programme für den Schnellzugriff auf die Suchfunktionen bereit, die den Nutzer als positiven Nebeneffekt für den Betreiber an seinen Dienst binden. Die Bandbreite reicht von Tool-Leisten für den Internet Explorer, Firefox oder die Task-Leiste bis zu Desktop-Suchmaschinen, die auf dem PC vorhandene Office-Dateien indexieren.
Die Betreiber der Suchknechte haben erkannt, dass im WWW nicht nur HTML-Dokumente herumliegen. Die Indexer ihrer Suchdienste durchforsten auch Office-, PDF- und Textdateien. Neben dem WWW erschließen einige Dienste immer neue Medien und Bereiche des Internet für die Suche - Bilder, Musik, News, Videos, das Usenet, Produkte et cetera: Die Suchmaschine soll zum Helfer bei allen Rechercheproblemen werden. Kleinere Dienste konzentrieren ihr Angebot auf das Web, ein Teil sogar nur auf den deutschsprachigen beziehungsweise den in der Top-Level-Domain .de beheimateten Teil davon.
Bei der Abfragesyntax orientieren sich alle Web-Sucher an Google. „Das also war des Pudels Kern“ fahndet nach dem Goethe-Zitat, -Begriff schließt einen Begriff aus. Ansonsten gilt das implizite logische Und: Wer nach Romeo Julia sucht, erwartet ausschließlich Seiten, in denen beide vorkommen. Groß- oder Kleinschreibung macht keinen Unterschied.
Mit einfachen Anweisungen lässt sich die Abfrage nach Metainformationen filtern. site:heise.de zum Beispiel beschränkt die Treffermenge auf Seiten vom Heise-Server. Benutzern, die sich mit den Feinheiten der Syntax nicht herumschlagen wollen, liefern die Suchdienste erweiterte Suchmasken, bei denen sie ihre Suchkriterien im Klartext eingeben können.
Die Ergebnispräsentation der meisten Dienste ähnelt sich auf den ersten Blick: eine Liste der Trefferseiten jeweils mit Seitentitel, kurzen Textauszügen sowie der Seiten-URL. Die Unterschiede zeigen sich erst bei genauerem Hinschauen, zum Beispiel in Form von Links nach jedem Treffer, die weitere Verweise von der betreffenden Site, ähnliche Seiten oder ein Abbild aus dem Cache bereitstellen oder die Trefferseite als Frame innerhalb des Ergebnisfensters öffnen.
Immer mehr Dienste versuchen, die Ergebnisse thematisch zu ordnen. Sie präsentieren dem Anwender die Ergebnisse in Kategorien, auch Cluster genannt, am Rand der Haupt-Ergebnisliste. Dazu suchen sie nach Mustern (in der Regel weitere Schlüsselbegriffe), die in mehreren Treffern vorkommen. Mitunter generieren die Recherchehelfer sogar mehrstufig angeordnete Themenbäume zur weiteren Verfeinerung der Recherche. Bei zu allgemein gehaltenen Anfragen, etwa t610, helfen sie dem Anwender, die Ergebnisliste auf das gewünschte Thema einzugrenzen, zum Beispiel Vertrag, Zubehör oder Klingeltöne.
Metasuchmaschinen leiten Anfragen an mehrere Suchmaschinen weiter, sammeln deren Ergebnisse und bereiten sie in einer einheitlichen Weise auf. Die Metasucher begnügen sich bei der Suchsyntax und -präsentation mit dem kleinsten gemeinsamen Nenner aller benutzter Dienste, stellen also nicht so viele Filtermöglichkeiten und Funktionen für die Ergebnispräsentation bereit wie Suchmaschinen ohne Meta. Auch benötigen sie mitunter länger, weil sie zunächst auf die Ergebnisse der Suchmaschinen warten müssen und diese erst dann aufbereiten können. Dafür hält man Metasuchmaschinen zugute, dass man das Web mit ihnen vollständiger durchforstet als mit einer einzelnen Suchmaschine, weil Metasucher die Indizes mehrerer Suchdienste auswerten.
(Meta-)Suchmaschinen stellen ihren Dienst für den Nutzer kostenlos bereit; sie finanzieren sich über Werbung. Das ist legitim, solange der Nutzer über den Charakter der Werbung im Klaren gelassen wird. Häufige Einnahmequelle: so genannte Sponsored Links, die von einer Bezahlsuchmaschine wie Overture oder Qualigo stammen.
Suchmaschinen, die Sponsored Links unter ihre Treffer mischen, ohne sie zu kennzeichnen - zum Beispiel Dogpile und Metacrawler -, haben wir nicht berücksichtigt. Andere Betreiber lavieren durch sehr dezent gekennzeichnete Sponsored Links hart am Rande der Seriosität. Wir sind dann im Text darauf eingegangen.
Den vollständigen Artikel finden Sie in der aktuellen Printausgabe.
[#anfang Seitenanfang]
Protokolliert man mit der Live-Funktion von Suchmaschinen mit [#literatur [2, 3]], was Surfer so als Abfrage eingeben, muss man den Eindruck gewinnen, dass sie in der Mehrzahl entweder ahnungslos zu Werke gehen, tippfaul oder sehr in Eile sind: Ein- bis Zweiwortabfragen der Art „DVD“, „t610“, „flug buchen“ sind die Regel; Operatoren, mit denen sich die Suche eingrenzen ließe - etwa auf eine Domain oder eine Sprache -, werden fast nie benutzt. Und die Suchmaschine muss dann erraten, was der Surfer mit „t610“ eigentlich wissen wollte: Wollte er sich das Handy mit der Typbezeichnung kaufen? Oder sich über technische Details informieren? Oder einen neuen Klingelton herunterladen?
Christian Bomhardt und Nadine Mänz von der Universität Karlsruhe haben bei einer Untersuchung zum Benutzungsverhalten von Suchmaschinen herausgefunden, dass Surfer genauso kurzatmig, wie sie eine Anfrage stellen, auch die Treffer bewerten [#literatur [4]]. So gaben von 6000 befragten, vorwiegend erfahrenen Surfern 70 Prozent an, nur fünf Ergebnisse zu betrachten. Ältere Untersuchungen haben ergeben, dass Surfer die Treffer auf den ersten zwei, drei Ergebnisseiten überprüfen, aber auch nicht mehr.
Wir haben uns bei unserem Test an diesen Benutzungsmustern orientiert und neun fast ausschließlich kurze Anfragen formuliert. Für jede Suchmaschine haben wir die ersten zwanzig Treffer festgehalten und analysiert. Das Testfeld umfasst populäre (rountenplaner) und sehr spezielle Abfragen (Johann Ludwig Bach -Sebastian), reine Wissensfragen (Go Regeln) und Abfragen, die ein Kaufinteresse nicht ausschließen.
| Test-Abfragen | |||
| 1 | Songtexte Anastacia | ||
| 2 | rezept zwiebelkuchen | ||
| 3 | routenplaner | ||
| 4 | t610 | ||
| 5 | Nebenwirkungen Viagra | ||
| 6 | Test Linksys NSLU2 | ||
| 7 | Wein von den kanarischen Inseln | ||
| 8 | Go Regeln | ||
| 9 | Johann Ludwig Bach -Sebastian | ||
Für alle Abfragen haben wir untersucht, inwieweit die Antworten mit dem Thema zu tun hatten, ob sie die Suchbegriffe überhaupt enthielten, ob es sich um tote Links, Suchmaschinen-Spam oder um Treffer handelte, die den Nutzer zu Dialer-Sites leiten. Gerade für populäre Anfragen schießen solche Sites ins Kraut, die unerfahrenen Anwendern minderwertige Inhalte, die man an anderer Stelle im Web auch kostenlos findet, per Einwahlprogramm andrehen wollen.
Die Relevanz lässt sich nur sehr schwer bewerten. Bei der Beurteilung allgemein gehaltener Fragen muss man zunächst die Messlatte sehr niedrig legen - „Wein von den kanarischen Inseln“ kann für eine Kaufabsicht stehen, aber auch für Interesse am Weinanbau. Insofern sind zunächst viele Seiten in irgendeiner Weise relevant.
Darüber hinaus haben wir die Treffer aber auch individuell begutachtet - die Einführung auf der Homepage des deutschen Go-Bundes ist als Treffer für die Abfrage „Go Regeln“ nun mal relevanter als die Kurzanleitung einer kleinen Hobbysite. Insofern floss neben messbaren Faktoren auch die persönliche Einschätzung des Testers mit ein.
Die Anzahl der ermittelten relevanten Seiten in der Tabelle entspricht daher nicht immer der Note, die sich am Ende ergibt: Es ist nicht wirklich schlimm, dass die Suchmaschine Spam-Sites, tote Links et cetera ausliefert, wenn die ersten Treffer bereits die Abfrage befriedigend beantworten.
Um eine grobe Abschätzung zu erhalten, wie sich die Indexgröße der Suchmaschinen zueinander verhält, haben wir sechs weitere Abfragen mit recht kleiner Ergebnismenge gestellt und die Treffer duchgezählt - siehe Tabelle links.
| Anzahl der Treffer für ausgewählte Abfragen | ||||||||
| Suchmaschine | Abacho | Lycos | MSN Beta | Plaff | Seekport | web.de | Yahoo | |
| "Streifenprojektion zur Inspektion großflächiger Bauteile in der Formteil-Serienproduktion" |
0 | 9 | 0 | 5 | 0 | 1 | 0 | 0 |
| wikitravel deutschland | 32 | 423 | 23 | 159 | 29 | 38 | 27 | 189 |
| Bürgernetz Wichte | 16 | 96 | 15 | 54 | 17 | 26 | 16 | 49 |
| naturkindergarten eilenriede | 11 | 47 | 9 | 16 | 11 | 11 | 11 | 23 |
| "Des Googles Kern" | 4 | 29 | 3 | 6 | 4 | 7 | 4 | 10 |
| retch site:heise.de | 7 | 131 | 7 | 10 | 7 | 93 | 7 | 17 |
Die Tabellen auf den Seiten 160 und 163, c't 26/04, fasst sämtliche Testergebnisse zusammen. Wir haben neben der Volltextsuche auch die anderen Suchmöglichkeiten der einzelnen Dienste erfasst - getestet oder gar bewertet haben wir sie nicht.
[3] Lycos Live-Suche
[4] Institut ETU, Universität Karlsruhe (TH), Marketing, Marktforschung & Unternehmensplanung
"Wer findet was?" Weitere Artikel zum Thema Suchmaschinen finden Sie in der c't 26/2004: Suchmaschinen und Metasuchmaschinen im Test S. 156 Wie viel finden Suchmaschinen? S. 164 Recherchieren in Verzeichnissen und Portalen S. 166
Version zum Drucken | Per E-Mail versenden | Heft bestellen
Permalink: http://heise.de/-289688
Kommentare lesen (20 Beiträge)
Das aktuelle Heft ist jetzt im Handel erhältlich.
Ältere Artikel können Sie über unser Zeitschriften-Archiv bestellen.