Meta hat mit Sphere ein neues KI-Werkzeug zum Information Retrieval veröffentlicht, das in Bereich der wissensintensiven Verarbeitung natürlicher Sprache (Knowledge Intense Natural Language Processing, KI-NLP) gehört. Es geht dabei um Beantwortung von Fragen wie "Wer hat den ersten Nobelpreis gewonnen?", die in der Regel Kontext verlangen.

Wissen aus unstrukturierten Crawler-Daten

Sphere ist ein offener Textkorpus, der komplett aus öffentlich zugänglichen Websites besteht. Laut Meta liegt sein Vorteil darin, dass es sich um unkuratierte, unstrukturierte Daten handelt, dass also keine Suchmaschine beteiligt ist, die ein intransparentes Ranking einführt und auch keine bereits aufbereitetes Wissen wie in Wikipedia. Meta verwendete Daten, die vom CommonCrawl-Projekt zusammengetragen und dann aufbereitet und einem Ranking unterzogen wurden. In den Korpus fanden 134 Millionen Dokumente Eingang, die in 960 Millionen Textpassagen zerlegt wurden, von denen jede wiederum 100 Token enthält. Zur Suche kam FAISS zum Einsatz, Facebooks Ähnlichkeitssuche, für die eine verteilte Version entwickelt wurde.

Finde die falsche Referenz

Sphere beschränkt sich aktuell auf Allgemeinwissen (Common Knowledge). Fragen aus der Wissenschaft sind also bewusst ausgeklammert, für diesen Bereich dürfte sich ein Korpus aus öffentlich zugänglichen Web-Texten auch nur bedingt eignen.

Als ersten Anwendungsfall diente Wikipedia. Die Forscher trainierten das System mit 4 Millionen Referenzen. Sphere konnte dann herausfinden, ob eine angegebene Quelle tatsächlich die Angaben im Wikipedia-Artikel unterstützt oder nicht. Als Beispiel führt Meta den Wikipedia-Artikel über den Boxer Joe Hipp an. Als Angehöriger des Blackfeet-Stammes war er der erste indigene Amerikaner, der in die Endrunde einer Schwergewichts-Weltmeisterschaft kam.

Die dafür im Wikipedia-Artikel angegebene Quelle hatte jedoch weder etwas mit Hipp, noch überhaupt etwas mit Boxen zu tun. Sphere fand stattdessen eine Textstelle auf der Website einer Regionalzeitung, die zwar völlig Begriffe benutzte ("challenge" statt "compete") und die Sportart nicht explizit erwähnt, aber dennoch die Behauptung im Artikel bestätigt. Traditionellere Tests erfolgten mit dem ebenfalls bei Facebook entwickelten Benchmark KILT (Knowledge Intense Language Tasks).

Meta hat das gesamte Projekt als Open Source freigegeben. Weiterentwicklungen könnten Wikipedia-Autoren nicht nur in Echtzeit Referenzen vorschlagen, sondern auch automatisch Textvorschläge zu ihrem Thema machen oder das Korrekturlesen übernehmen.

(ulw)