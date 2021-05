1998 veröffentlichten Stanford-Absolventen einen Artikel über eine neue Art von Suchmaschine: „In diesem Artikel stellen wir Google vor, den Prototyp einer großen Suchmaschine, die stark die im Hypertext vorhandene Struktur nutzt. Google wurde entwickelt, um das Web effizient zu crawlen, zu indizieren und viel zufriedenstellendere Suchergebnisse zu erzielen als bestehende Systeme.“

Die wichtigste Neuerung war ein Algorithmus namens PageRank, der die Reihenfolge der Suchergebnisse bestimmte. Dafür berechnete er ihre Relevanz für die Anfrage des Nutzers anhand ihrer Links zu anderen Seiten im Web. Basierend auf PageRank wurde Google das Tor zum Internet, das Sergey Brin und Larry Page zu einem der weltweit größten Unternehmen aufbauten.

Anfang Mai hat nun ein Team von Google-Forschern einen Vorschlag für ein radikales Redesign veröffentlicht, das den Ranking-Ansatz durch ein einziges großes KünstIiches-Intelligenz-Sprachmodell (KI) ersetzt – eine zukünftige Version von BERT oder GPT-3. Die Idee ist, dass Benutzer anstelle der Suche nach Informationen in einer großen Liste von Webseiten Fragen stellen und sich von einem auf diesen Seiten geschulten Sprachmodell direkt beantworten lassen. Der Ansatz könnte nicht nur die Funktionsweise von Suchmaschinen ändern, sondern auch die Art und Weise, wie wir mit ihnen interagieren.

Dafür müssen allerdings erst einige Probleme vorhandener Sprachmodellen behoben werden. Zum Beispiel erzeugen diese KI manchmal voreingenommene und toxische Antworten auf Anfragen. Auf dieses Problem haben Google-Forscher und andere bereits öfter hingewiesen.

Das Überdenken von PageRank

Obwohl die Größe des Webs gleichsam explodiert ist, sind Suchmaschinen schneller und genauer geworden. KI dient jetzt dazu, Ergebnisse zu bewerten. Google verwendet BERT, um Suchanfragen besser zu verstehen. Doch trotz dieser Optimierungen funktionieren alle gängigen Suchmaschinen im Grunde immer noch so wie vor 20 Jahren. Webseiten werden fortwährend von Crawler-Software indiziert, die die Liste aller gefundenen Informationen verwaltet. Aus diesem Index werden die Ergebnisse, die mit einer Abfrage übereinstimmen, herausgesucht und anschließend geordnet.

„Diese Durchsuche-den-Index-und-ordne-Ergebnisse-Blaupause hat den Test der Zeit bestanden und wurde selten in Frage gestellt oder ernsthaft weitergedacht“, schreiben Donald Metzler und seine Kollegen von Google Research. Das Problem ist nur, dass selbst die besten Suchmaschinen heute noch eine Liste von Dokumenten auftischen, die die angeforderten Informationen enthalten, und nicht die gesuchten Informationen selbst. Suchmaschinen sind auch nicht gut darin, auf Fragen zu antworten, für die Antworten aus mehreren Quellen erforderlich sind. Es ist, als hätten Sie Ihren Arzt um Rat gefragt und statt einer direkten Antwort eine Liste mit Artikeln zum Lesen erhalten.

Metzler und seine Kollegen aber wollen eine Suchmaschine, die sich wie ein menschlicher Experte verhält. Sie soll Antworten in natürlicher Sprache erstellen, die aus mehr als einem Dokument gespeist sind, und die Antworten mit Verweisen auf unterstützende Beweise untermauern, wie es Wikipedia-Artikel tun.

Echte Fragen beantworten

Große Sprachmodelle könnten uns einen Teil des Weges voranbringen. GPT-3 zum Beispiel, das mit einem Großteil des Internets und Hunderten von Büchern trainiert wurde, bezieht Informationen aus verschiedenen Quellen, um Fragen in natürlicher Sprache zu beantworten. Das Problem ist, dass es diese Quellen nicht im Auge behält und keine Beweise für seine Antworten liefern kann. Es gibt keine Möglichkeit festzustellen, ob GPT-3 vertrauenswürdige Informationen präsentiert, Desinformationen nachplappert, oder einfach selbsterfundenen Unsinn ausspuckt.

Metzler und seine Kollegen bezeichnen Sprachmodelle deshalb als Dilettanten: „Sie werden als vielwissend wahrgenommen, aber ihr Wissen ist dünn.“ Den Forschern zufolge besteht die Lösung darin, zukünftige BERTs und GPT-3 zu bauen und zu trainieren, um Aufzeichnungen darüber zu führen, woher ihre Worte stammen. Bisherige Modelle sind dazu noch nicht in der Lage, aber es ist im Prinzip möglich, und es gibt frühe Arbeiten in dieser Richtung.

In verschiedenen Bereichen der Internetsuche wurden jahrzehntelange Fortschritte erzielt, von der Beantwortung von Fragen über die Zusammenfassung von Dokumenten bis hin zur Strukturierung von Informationen, sagt Ziqi Zhang von der britischen Universität Sheffield, der das Abrufen von Informationen im Internet untersucht. Aber keine dieser Technologien hat die Suche selbst überarbeitet, da sie jeweils spezifische Probleme angehen und nicht verallgemeinerbar sind. Die aufregende Prämisse der neuen Veröffentlichung ist deshakb, dass große Sprachmodelle all diese Dinge gleichzeitig tun können, sagt er.

Suchmaschine braucht eine Schulung

Zhang merkt jedoch an, dass Sprachmodelle mit technischen oder fachlichen Fächern nicht gut abschneiden, da der Text, in dem sie geschult sind, weniger Beispiele enthält. „Es gibt wahrscheinlich hundertmal mehr Daten zum E-Commerce im Internet als Daten zur Quantenmechanik“, sagt er. Sprachmodelle sind heutzutage auch auf Englisch ausgerichtet, wodurch nicht-englische Teile des Webs unterversorgt bleiben würden.

Hanna Hajishirzi, die an der University of Washington die Verarbeitung natürlicher Sprache studiert, begrüßt die Idee, warnt jedoch auch davor, dass sie in der Praxis auch Probleme verursachen könnten. „Ich glaube, große Sprachmodelle sind sehr wichtig und möglicherweise die Zukunft von Suchmaschinen, aber sie erfordern viel Speicher und Rechenressourcen“, sagt sie. „Ich glaube nicht, dass sie die Indizierung ersetzen würden.“

Trotz dieser Bedenken ist Zhang von den Möglichkeiten begeistert. „Das war in der Vergangenheit nicht möglich, da große Sprachmodelle erst vor kurzem gestartet sind“, sagt er. „Wenn es funktioniert, würde es unser Sucherlebnis verändern.“

(vsz)