Schatzsucher

Die Internet-Suchmaschinen der Zukunft

Wissen | Know-how

Können Sie sich ein sinnvolles Arbeiten im Internet ohne Suchmaschinen vorstellen? Wahrscheinlich kaum. Vor zehn Jahren hingegen gab es noch nicht einmal das Wort 'Suchmaschine' in der deutschen Sprache, und auch heute sucht man's im Duden oder Brockhaus vergeblich. In der Realität des Internet haben die Suchmaschinen jedoch einen dramatischen Aufschwung erlebt.

Das Internet enthält eine gigantische Informationsmenge, die größte, die der Mensch jemals geschaffen hat. Gerade deshalb aber ist das Auffinden brauchbarer Informationen eine nicht ganz einfache Aufgabe. Stellen Sie sich die Bücher einer Bibliothek auf einem Haufen vor - kaum jemand wäre in der Lage, in akzeptabler Zeit das gewünschte Buch herauszusuchen. Jetzt stellen Sie sich alle Bibliotheken der Welt auf einem Haufen vor. Ungefähr so sieht es im Internet aus.

Ohne Suchmaschinen wären Rechercheaufgaben im Web von vornherein zum Scheitern verurteilt. Aber auch mit diesen unentbehrlichen Helfern ist der Erfolg nicht garantiert. Suchmaschinen haben so ihre Tücken: entweder ist das Gesuchte gerade nicht erfaßt oder aber der Suchende wird umgekehrt von der Menge des Gefundenen 'erschlagen'.

Weltweit konkurrieren mehr als tausend Suchmaschinen um die Gunst des Internet-Surfers. Welche ist die beste? Besonders erfolgversprechende Adressen werden in der Szene wie Geheimtips gehandelt. Hinzu kommen Fragen wie: Welchen Nachrichtenraum oder welchen Teil des Internet deckt diese Suchmaschine eigentlich ab? Oder gleicht die ganze Suche eher einem zufälligen 'Stochern im Nebel'?

Eine statistische Untersuchung, die Wissenschaftler Anfang April am NEC-Forschungsinstitut in Princeton, New Jersey, vorstellten, legt eher letzteres nahe [[#lit1 1]]. Das überraschende Ergebnis in Kurzform: Jede einzelne Suchmaschine indexiert nur einen Bruchteil der gesamten Dokumentenmenge im Web. Von den sechs bekanntesten Suchmaschinen liegt Hotbot mit 34 Prozent an der Spitze, gefolgt von Altavista mit 28 und NorthernLight mit 20 Prozent. Excite und Infoseek fallen mit 14 und 10 Prozent schon stark ab; und für die mickrigen 3 Prozent von Lycos kann man schon kaum mehr eine Empfehlung aussprechen.

Die Suche mit einer einzelnen Suchmaschine ähnelt somit eher einem Spiel mit dem Zufall. Kombiniert man jedoch die Ergebnisse aller sechs Maschinen, so erzielt man eine 3,5mal bessere Abdeckung als mit der besten Einzelrecherche. Somit lautet der einfachste Lösungsvorschlag der Wissenschaftler: Benutzen Sie solche Suchmaschinen, die parallel möglichst viele Suchdienste auf einmal absuchen und die Ergebnisse zusammenführen. Solche Maschinen nennt man Meta-Suchmaschinen.

Nur unter Ausnutzung aller zur Verfügung stehender Suchangebote kann es gelingen, der Informationsflut im Internet Herr zu werden. Die beiden international bekanntesten Meta-Suchmaschinen sind der am Computer Science Department der University of Washington entwickelte MetaCrawler und die kommerzielle Maschine Highway61 von Virtual Mirror in Highland Park, New Jersey. Für den deutschsprachigen Raum wurde am Regionalen Rechenzentrum Niedersachsen an der Uni Hannover als erste und bisher einzige deutsche Meta-Suchmaschine MetaGer entwickelt.

Meta-Sucher sind das Gebot der Stunde, kein Internet-Benutzer kommt mehr ohne die flinken Rechercheknechte aus. Seitdem jedoch PR-Strategen das Web als Werbeplattform entdeckt haben, versuchen viele Betreiber, ihren Suchdienst aus Marketing-Gründen durch klingende Bezeichnungen aufzuwerten. Je mehr 'page visits' man nachweisen kann, desto mehr Werbegroschen fließen schließlich in die Taschen des Betreibers. Aber nicht jede Meta-Suchmaschine ist echt. Begriffsdefinitionen sollen deshalb helfen, die schlimmsten Falschaussagen zu entlarven:

Eine Suchmaschine ist ein Suchdienst, der ein Suchangebot automatisiert erstellt, wie zum Beispiel Altavista oder Crawler.de.

Ein Katalog enthält demgegenüber ein manuell erstelltes Suchangebot. Prominente Beispiele für Kataloge sind Yahoo oder die Virtual Library in Karlsruhe. Im einfachsten Fall steckt hinter einem manuell erstellten Suchangebot eine alphabetische oder nach thematischen Kriterien geordnete Liste.

Meta-Suchmaschinen schließlich sind Recherchetools der nächsten Generation, die mehrere einfache Suchmaschinen parallel abfragen und die Ergebnisse aufbereiten. Mit derselben Bedeutung benutzt man auch Bezeichnungen wie Meta-Maschine, MetaCrawler, MultiSearcher oder ParallelSearcher.

Bauernfängerei dagegen betreiben Anbieter, die simple All-in-one-Formulare, die jedem CGI-Programmierer als Einstiegsübung gelingen, Meta-Suchmaschinen nennen. Hinter All-in-one-Formularen verbergen sich einfache Eingabehilfen, die mehrere Suchdienste nacheinander über eine einheitliche Eingabemaske abfragen - ganz praktisch. Der Performance-Gewinn dabei aber ist gleich null. Der Etikettenschwindel dient nur dazu, Web-Surfer und die werbetreibende Industrie auf die eigene Website zu locken.

Nicht zu verachten sind manuell zusammengestellte Suchangebote, lange Listen, in denen Freaks seit den Urtagen des Internet interessante Netzadressen mehr oder minder geordnet zusammenstellen. Automatische Suchmaschinen verstehen Texte nicht wirklich, sondern gewichten Dokumente nur nach Worthäufigkeit. Im Gegensatz dazu steckt hinter manuellen Angeboten meistens ein kluger Kopf, der für den späteren Nutzer eine intelligente Vorauswahl trifft.

Der Klassiker dieser Listen ist die Yanoff-Liste, benannt nach ihrem 'Erfinder' Scott Yanoff. Das Angebot ist zwar immer noch unter http://sirius.we.lc.ehu.es/internet/inet.services.html zu erreichen, wird aber seit rund zwei Jahren nicht mehr aktualisiert.

Ebenfalls in die Kategorie Handarbeit gehören die FAQs, Frage- und Antwortlisten zu allem Möglichen und Unmöglichen. In der FAQ der Uni Paderborn finden Sie alles, angefangen bei der Kunst des heimischen Bierbrauens bis zu Bauanleitungen für Compiler.

Strukturiert man diese unübersichtlichen linearen Listen nach Themengebieten, erhält man die sogenannten Kataloge. Auch sie 'leben' davon, daß Menschen (Tag und Nacht) im Netz surfen, Adressen sammeln, erfassen und auswerten. Für Kataloge spricht die redaktionelle Bewertung, die automatisierte Meta-Sucher so nicht leisten können.

Aber: So lobenswert diese Bemühungen auch sind - mit der Dynamik des Internet können manuelle Kataloge nicht mithalten. Eine Analyse von WWW-Adressen in Proxy-Caches hat zutage gefördert, daß bereits nach einem halben Jahr die Hälfte aller Adressen veraltet ist. Der Anspruch, das Informationsangebot im Internet möglichst vollständig zu erfassen, wird von Katalogen auch nicht nur annähernd erfüllt.

Wenn menschliche Arbeitskraft nicht mehr ausreicht, eine Tätigkeit zufriedenstellend auszuführen, müssen Maschinen das übernehmen. Im Internet kommt Suchmaschinen im engeren Sinne diese Aufgabe zu. Die drei international größten und bekanntesten heißen Altavista, Hotbot und NothernLight. Auf deutschsprachige Inhalte haben sich Fireball, Crawler.de und Hotlist spezialisiert.

Das ist jedoch nur die Spitze des Eisberges; eine vollständige Auflistung aller Suchmaschinen würde mehrere c't-Seiten füllen. Freundlicherweise haben das andere vor uns bereits getan. Unter http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/ steht die größte Zusammenstellung von Suchdiensten im Internet - es sind mehr als tausend.

Steht man vor einem solchen Riesenangebot, dann stößt die menschliche Arbeitskraft wieder einmal an ihre Grenzen. Maschinen müssen dem Internet-Nutzer unter die Arme greifen und die Auswahltätigkeit erleichtern oder übernehmen.

Jetzt schlägt die Geburtsstunde der Meta-Suchmaschinen: Wenn es nicht möglich ist, alle vorhandenen Suchdienste manuell abzusuchen, muß ein Automat das tun. Aber auch Automaten haben damit so ihre Probleme. Auch für Meta-Suchmaschinen wird die Luft dünn, wenn es darum geht, mehr als tausend Suchdienste parallel abzusuchen. Daher schließt man in der Praxis einen Kompromiß, wählt manuell die 'wichtigsten' Suchdienste aus und übergibt nur diese Kandidaten dem Automaten.

Erneut steht der Anwender jedoch vor einem Auswahlproblem, denn Meta-Suchmaschinen gibt es seit kurzem mehr als ein Dutzend. Welche ist die leistungsfähigste? Einige Entscheidungshilfen haben Wissenschaftler vor kurzem aufgestellt.

In einer Arbeit, die im Juli auf der internationalen Tagung der 'Internet Society' in Genf vorgestellt werden soll [[#lit2 2]], haben Forscher klare und nachvollziehbare Kriterien zur Bewertung von Meta-Suchmaschinen formuliert:

  1. Parallele Suche (keine All-in-one-Formulare): Die Meta-Suchmaschine muß wirklich parallel suchen.
  2. Ergebnis-Merging: Die Ergebnisse müssen zusammengeführt und in einem einheitlichen Format dargestellt werden.
  3. Doubletten-Eliminierung: Doppelte Fundstellen müssen erkannt und gekennzeichnet werden.
  4. Mindestens AND- und OR-Operatoren: Für logische Operationen müssen mindestens die Operatoren AND und OR zur Verfügung stehen.
  5. Kein Informationsverlust: Wenn ein Suchdienst eine Kurzbeschreibung der Fundstelle liefert, dann muß diese übernommen werden.
  6. Search Engine Hiding: Die spezifischen Eigenschaften der unter der Meta-Maschine liegenden Suchdienste dürfen für die Bedienung keine Rolle spielen, der Anwender muß nichts darüber wissen müssen.
  7. Vollständige Suche: Die Meta-Suchmaschine sollte in der Lage sein, so lange zu suchen, bis irgendeine der darunterliegenden Suchdienste noch Treffer liefert.

Eine echte Meta-Suchmaschine sollte von den sieben Kriterien mindestens sechs erfüllen. Anscheinend stellt diese Forderung die Suchmaschinen-Programmierer vor erhebliche Probleme, denn dann bleiben derzeit weltweit nur drei Meta-Sucher übrig. Zu den Besten der Besten gehören der MetaCrawler, Highway61 und der auf deutsche Internet-Inhalte spezialisierte MetaGer.

Meta-Suchmaschinen im Web - Checkliste
Meta-Suchmaschine Parallele
Suche
Ergebnis-
Merging
Doubletten-
Eliminierung
AND/OR Hiding Vollständige
Suche
Metasearch v - - - - - -
DigiSearch v - - v v - -
Verio v v v - - v -
ProFusion v v v v v - -
Cyber 411 v - - - - v -
Inference Find v teilweise v v - - -
Dogpile v - - v - v -
Mamma v v - v v v -
SavvySearch v - - v v v -
MetaCrawler v v v v v v -
MESA v v v v - v -
MetaGer v v v v v v v
Highway 61 v v v v v v v
v vorhanden - nicht vorhanden

Wissenschaftler haben klare und nachvollziehbare Kriterien zur Bewertung von Meta-Suchmaschinen formuliert. Ein echter Meta-Sucher sollte von den sieben Kriterien mindestens sechs erfüllen.

Aber auch Meta-Suchmaschinen sind nicht der Weisheit letzter Schluß. Ein kurzer Blick in die Entwicklungsgeschichte der Suchmaschinen hilft zu erkennen, wohin die Reise gehen könnte.

Läßt man Vor-WWW-Produkte außer Betracht, dann beginnt die Entwicklung der Suchdienste um 1991 mit WAIS. WAIS legt eine Volltext-Indexierung von kompletten Web-Servern an, tut dies jedoch sehr uneffektiv: Die erzeugte Datenbank beansprucht etwa denselben Speicherplatz wie die eigentlichen Daten. Dieses Manko gleicht Glimpse aus, das zwei Jahre später als freie Software auf den Markt kam. Glimpse benutzt effektivere Algorithmen und benötigt nur einen Bruchteil des Speicherplatzes. Im gleichen Zeitraum entstanden unter anderem mit Excite die ersten Internet-Suchdienste.

Fast zeitgleich kamen die recht einfach zu programmierenden All-in-one-Formulare auf. Auf echt parallel suchende Meta-Dienste mußten Web-Surfer jedoch noch zwei Jahre lang warten. Etwa zur gleichen Zeit begann eine weitere Entwicklungsrichtung: die verteilten Systeme (Abbildung S. 182).

Aus der kurzen, aber bewegten Geschichte der Suchdienste lassen sich drei Tendenzen ablesen:

  1. Suchdienste entwickeln sich von lokalen Sammelprozessen hin zu globalen Strukturierungsversuchen.
  2. Mit steigendem Angebot an Suchmaschinen etablieren sich Meta-Dienste.
  3. Mit steigendem Datenvolumen entwickelt sich eine Tendenz hin zu verteilten Systemen. Allein die Hardware, die Altavista braucht, um 'nur' 28 Prozent des Web zu erfassen, läßt viele Wissenschaftler neidisch werden.

Verteilte Systeme zerlegen die Aufgaben einer Suchmaschine in Einzelschritte und delegieren diese Teilaufgaben an verschiedene Rechner. Jeder Suchdienst arbeitet im Prinzip nach dem gleichen Schema: Zunächst geht es um das Sammeln der Daten. Die Programmteile der Suchmaschine, die sich dieser Aufgabe widmen, tragen Namen wie gatherer, robot oder scooter. Gatherer benötigen Einstiegsadressen und gehen dann jedem auf diese Anfangsseiten verweisenden Link nach.

Das Ergebnis dieses Sammelprozesses wird in einer Datenbank abgespeichert. Dazu indiziert das Programm die gesammelten Daten, das heißt, es legt Schlagworte an. Die meisten Suchmaschinen generieren Schlagworte automatisch aus dem Volltext der gefundenen Dokumente; meist werden Meta-Tags gesondert berücksichtigt. Schlagworte führen den Benutzer wie Karteikarten zum gesuchten Dokument.

Eine Abfrageschnittstelle fordert später zur Eingabe der Suchbegriffe auf und hilft eventuell bei der Formulierung des Suchfilters. Dieser Teil beansprucht die geringsten Ressourcen.

Führt man die Idee der Aufgabenverteilung konsequent weiter fort, dann kann man sich ein mehrfach verteiltes System vorstellen, bei dem jede Komponente jede beliebige Einzelaufgabe erledigen kann (Abbildung oben). Bis jetzt gibt es nur ein einziges System, das zumindest theoretisch in der Lage wäre, eine solche Mehrfachverteilung zu realisieren: das Harvest-System.

Ursprünglich bestand Harvest aus den chaotischen Überbleibseln einer Programmierertätigkeit, die sich im Rahmen eines APRA-Projektes an der University of Boulder zunächst prächtig entwickelte. Leider wurde das Projekt 1996 abgewürgt, mit dem Resultat: Dokumentation und Software paßten nicht zusammen, die Programme enthielten noch zahlreiche Bugs.

Glücklicherweise nahm sich die University of Edinburgh der Weiterentwicklung des Harvest-Systems an und beseitigte die Mängel. Heraus kam eine komplette, fertige Suchmaschine, die auf allen modernen Unix-Systemen läuft. Das Programm kostet zudem keinen Pfennig. Interessenten sollten für eine Installation auf jeden Fall die Version 1.5 der University of Edinburgh verwenden.

Harvest erfreut sich besonders im universitären Bereich großer Beliebtheit und dient als Grundlage für zahlreiche Suchmaschinen wie beispielsweise im GERHARD-Projekt der Uni Oldenburg. Trotzdem bleibt Harvest meistens weit unter seinen Möglichkeiten; als verteiltes System, für das Harvest als einziges Programm geeignet wäre, kommt es leider nur sehr selten zum Einsatz.

Für Harvest-Entwickler gibt es eine eigene Newsgroup ([news:comp.infosystems.harvest comp.infosystems.harvest]). Alle bisher dort erschienenen Beiträge sind außerdem unter http://www.mathematik.uni-osnabrueck.de/harvest/brokers/CIH/ archiviert und dort per Volltextsuche recherchierbar.

Suchmaschinen, verteilte Systeme, Meta-Maschinen, alles schön und gut - aber was kommt danach? Das Internet wächst ständig. Droht uns in naher Zukunft doch noch der Informations-Overkill?

Die meisten Menschen, die im Internet Informationen suchen, haben eine bestimmte Fragestellung, einen speziellen Themenbereich im Auge, der sie besonders interessiert. Eine umfassende Auflistung aller Treffer kann sich da schnell hinderlich auswirken. Ein Gartenbauingenieur beispielsweise, der nach dem Wort 'Kohl' sucht, ist nicht an Informationen über den bekannten Politiker gleichen Namens interessiert. Wesentlich besser wäre es, der Ingenieur würde eine Suchmaschine benutzen, die auf Dokumente über den Gartenbau spezialisiert wäre.

Eine solche Suchmaschine aufzusetzen ist relativ einfach: Im ersten Schritt sammelt man alle URLs, die zum Thema passen. Im zweiten Schritt läßt man über genau diese URLs eine Suchmaschine laufen. Das Problem beziehungsweise der Aufwand dabei liegt im Finden und in der Auswahl der URLs sowie im Updating der hierfür installierten Suchmaschine.

Also besteht folgerichtig der nächste Schritt darin, diesen Prozeß des Aufsetzens einer neuen Suchmaschine zu einem bestimmten Thema zu automatisieren - also einen Automaten zu schaffen, der themenorientierte Suchmaschinen selbsttätig generiert. An dieser Aufgabe arbeiten das Regionale Rechenzentrum Niedersachen (RRZN) und das Lehrgebiet Rechnernetze und Verteilte System (RVS) der Uni Hannover im Rahmen eines Teilprojekts der DFN-Expo, gefördert mit Mitteln des DFN-Vereins und des BMBF. Das Ziel dieser Entwicklungsarbeit: Mit Hilfe eines flexiblen Meta-Suchautomaten soll sich jeder Nutzer seine persönliche Suchmaschine selber generieren können.

Dieses Ziel erreichen die angestrebten Meta-Suchmaschinen der nächsten Generation (Level-3-Maschinen) in mehreren Schritten (Abbildung unten): Ein Benutzer stellt an eine herkömmliche Meta-Suchmaschine (Suchmaschine 2. Ordnung) eine Rechercheanfrage. Die gibt den Suchauftrag weiter - normale, einfache Suchmaschinen sammeln daraufhin passende URLs.

Danach werden die Ergebnis-URLs einer Relevanzfilterung unterzogen, ein halbautomatischer Vorgang, wo teilweise auch Handarbeit gefragt ist. Daraus entsteht eine Indizierungsvorschrift für eine Level-3-Datenbank, eine verschlagwortete Adreß- und Textsammlung, die nur diejenigen Dokumenten enthält, die für den Rechercheauftrag des jeweiligen Nutzers relevant sind. An die auf diese Weise generierte Level-3-Datensammlung kann der Kunde dann spezialisiertere Suchanfragen richten.

Um die Qualität der Suchergebnisse zu erhöhen, setzen die Suchmaschinen-Betreiber derzeit verschiedene Ranking-Verfahren ein. Die konventionellen Verfahren basieren dabei fast ausschließlich auf Zählungen und Gewichtungen von Worthäufigkeiten. Der Sinn eines Textes wird nicht erkannt, von seiner Aussagekraft ganz zu schweigen.

Außerdem öffnet diese Methode der Manipulation Tür und Tor: Soll eine Web-Seite, auf der für ein Produkt geworben wird, im Ranking der Suchmaschinen möglichst weit oben stehen, dann muß man einfach die passenden Stichwörter auf dieser Seite an den richtigen Stellen möglichst oft wiederholen. Auf http://www.rankthis.com/ können Web-Autoren die richtige Stichwortvergabe ausprobieren, um gegebenenfalls ihre Seiten nachzubessern.

Derzeit diskutieren Wissenschaftler über verschiedene Ranking-Methoden, um hier bessere Ergebnisse zu erzielen. Ein Ansatz ist das sogenannte 'kollaborative Filtern'. Hierbei erhalten die Besucher von Websites die Möglichkeit, Seiten zu bewerten. Die Bewertung wird für spätere Rankings berücksichtigt. Ob dieses Verfahren sinnvoll ist, bleibt jedoch zweifelhaft. Jeder kann damit unliebsamer Konkurrenz gezielt schlechte Noten unterjubeln und diesen Prozeß sogar noch automatisieren.

Ein anderer Ansatz geht von der Überlegung aus, daß die Qualität einer Web-Seite von der Anzahl der externen Links abhängt, die auf diese Seite verweisen. Je mehr Links darauf zeigen, desto besser wird sie bewertet. Dieses Verfahren ist unter dem Namen 'Hyperlink Vector Voting' (HVV) bekannt. Aber auch diese Vorgehensweise ist natürlich manipulierbar.

Bibliothekare und Rechercheure, die sich professionell mit der Wiederauffindung von Dokumenten beschäftigen, beschreiben den Inhalt von Web-Seiten mit Hilfe des Dublin Core, ein besonders im Bibliothekswesen verbreitetes Schema zur genormten Vergabe von Meta-Tags in HTML-Dokumenten. Diese Methode wäre sicherlich optimal, stellt aber an die Autoren von Web-Seiten hohe Ansprüche. Da es bereits jetzt einige hundert Millionen Web-Dokumente gibt, die diese Tags nicht enthalten und nie enthalten werden, ist auch dieser Weg wohl nur für eine Nische im Webspace gangbar.

Eine andere Richtung - eher vergleichbar mit dem oben beschriebenen Level-3-Ansatz - schlägt GERHARD, das GERman Harvest Automated Retrieval and Directory der Uni Oldenburg, ein, um dem Information-Overload Herr zu werden. GERHARD beschränkt sich von vornherein auf Texte aus dem deutschen Wissenschaftsbereich. Dadurch scheint ein gewisses Qualitätsniveau der Dokumente von Anfang an gesichert und die Anzahl der Fundstellen bleibt überschaubar.

GERHARD kann jedoch noch mehr: es ist derzeit die einzige Suchmaschine weltweit, die aus den Dokumenten automatisch einen nach Themengebieten geordneten Katalog erzeugt. Das Programm analysiert den Volltext und kategorisiert die Dokumente nach der dreisprachigen universalen Dezimalklassifikation der ETH Zürich (UDK). Das UDK-Lexikon enthält zur Zeit rund 70 000 Einträge.

Damit stehen dem Benutzer beide Wege bei der Informationssuche offen: er kann nach Stichworten suchen wie bei allen anderen Suchmaschinen auch und zusätzlich in Themenkatalogen herumstöbern.

Trotzdem trifft das 'nobody is perfect' auch auf GERHARD zu: bei der automatischen Kategorisierung treten unweigerlich Fehler durch falsche Zuordnungen auf, die ein Automat nicht erkennen kann. Die Fehlerrate liegt jedoch in einem noch akzeptablen Bereich zwischen 10 und 20 Prozent.

Ein anderes Manko fällt stärker ins Gewicht: GERHARD zeigt die gefundenen Dokumente nur mit Kurzüberschrift und URL an. Eine Beschreibung oder ein kurzer Textauszug fehlen.

Bei der Meta-Suchmaschine MetaGer wurde neben der parallelen Suche noch ein weiteres neues Feature eingebaut: die Kombination der Meta-Suche mit vorwiegend lokalen Datenquellen (sog. QuickTips). Vor der eigentlichen Parallelsuche schaut MetaGer in diesen lokalen Datenbeständen nach. Dazu existiert einerseits eine lokale Datenbasis mit manuell ausgewählten Adressen, die vom Betreiber erfaßt und gepflegt werden.

Für den Nutzer besteht darüber hinaus die Möglichkeit, ebenfalls Adressen vorzuschlagen. Die Praxis hat jedoch gezeigt, daß hier fast ausschließlich nutzlose Einträge à la 'meine Homepage ist die schönste und soll an erster Stelle stehen' erfolgen.

Als zweite vorwiegend lokale Datenquelle benutzt MetaGer das Domain-Name-System (DNS). Erscheint ein Suchwort oder eine Kombination aus mehreren Worten im DNS, wird diese Adresse ausgegeben. Dem Mißbrauch des DNS durch skrupellose Namensaufkäufer wird durch Ausschlußkriterien zu begegnen versucht.

Ein Wunschtraum aller Suchmaschinenbenutzer wird wohl noch für längere Zeit unerfüllt bleiben: ein 'mitdenkendes' Abfrage-Interface, das sich wie ein natürlichsprachlicher Dialogpartner verhält. Bei einer nicht-eindeutigen Fragestellung - und das sind die meisten Suchanfragen - reagiert das Interface mit Rückfragen und versucht, das Problem zu 'verstehen'. Falls auch Sie einen Wunschtraum haben, der später vielleicht einmal in Erfüllung gehen soll: Der Autor ist einer der Entwickler der Meta-Suchmaschine MetaGer und per EMail erreichbar unter wsb@rrzn.uni-hannover.de. (ku)

[1] Science: 1998 April 3; 280 (5360):98, S. Lawrence and C. L. Giles 'Searching the World Wide Web'; Zusammenfassung auch im WWW unter http://www.wissenschaft.de, NewsTicker, 6. 4. 1998

[2] Proceedings of the 1998 Internet Summit of the InternetSociety, July 21-24, Genf, W. Sander-Beuermann, M. Schomburg, 'Internet Information Retrieval: The Further Development of Meta-Searchengine Technology'

[#anfang Seitenanfang]


Recherchetips für die Praxis

Überlegen Sie, mit welchen Worten das Gesuchte am besten beschrieben wird. Welche Worte müssen in den gesuchten Texten unbedingt enthalten sein (UND-Verknüpfung), welche können vorkommen (ODER-Verknüpfung) und welche dürfen auf keinen Fall auftauchen (NOT-Operator)?

Machen Sie sich auch darüber Gedanken, ob der exakte Wortlaut in voller Länge vorkommen muß, oder ob mit Wildcards trunkierte Wortstämme sinnvoller sind.

Wählen Sie für die erste Suche am besten eine Meta-Suchmaschine aus; damit haben Sie die höchste Gewähr, auch alles zu erfassen ([#Checkliste Checkliste] S. 180).

Für deutschsprachige Dokumente: http://meta.rrzn.uni-hannover.de/

Bevor Sie die Suche starten: Lesen Sie die Bedienungsanleitung - auch wenn's lästig ist! (Die Bedienungsanleitung steht meist unter Schaltern wie 'Help', 'Hilfe' oder 'Tips'.)

Wer mit einer Meta-Suchmaschine nicht fündig wurde, sollte mit einer konventionellen Suchmaschine weitersuchen. Hier hat man gegenüber den Meta-Suchmaschinen meist den Vorteil, genauer suchen zu können. (Die Auswahl an Operatoren und Optionen ist größer.)

Führt auch das nicht zum Erfolg, können Sie auf das umfangreiche Verzeichnis aller Internet-Suchdienste unter http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/ zurückgreifen, um dort die für Ihre spezielle Abfrage beste Suchmaschine auszusuchen. Dann heißt es leider: noch einmal von vorne anfangen.

Wenn Sie alle diese Tips nicht beachten und trotzdem fündig werden, dann haben Sie die berühmte Stecknadel im Heuhaufen gefunden - auch das kommt ja durchaus vor. Sie wissen jedoch nicht, wie viele 'Stecknadeln' es sonst noch gibt, und ob die noch nicht gefundenen vielleicht aus purem Gold bestehen ...

Anzeige