Ein Benchmark verwirrt KIs

Menschen versuchen Systeme der Künstlichen Intelligenz aus dem Tritt zu bringen: Das ist die Idee hinter Facebooks neuem KI-Testverfahren "Dynabench".

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 5 Beiträge

(Bild: Yatheesh Gowda / Pixabay)

Von
  • Will Douglas Heaven

Künstliche Intelligenz hat im letzten Jahrzehnt ein explosives Wachstum hingelegt. Zu verdanken ist dies der Tatsache, dass die Rechenleistung stark zugenommen hat – und die Datenmengen vorhanden sind, die Maschinen zu trainieren.

Benchmarks sind dabei sehr wichtig, um den Fortschritt voranzutreiben – mittels Tests können Forscher prüfen, wie fortgeschritten KI-Systeme sind. Dabei werden häufig die gleichen Lernbasen verwendet. "ImageNet", eine öffentliche Datenbank mit 14 Millionen Bildern, hat sich beispielsweise für Prozesse der Bilderkennung durchgesetzt. "MNIST", eine öffentliche Datenbank für handgeschriebene Dokumente, hat dasselbe für die Handschrifterkennung gemacht und "GLUE" (kurz für "General Language Understanding Evaluation") ermöglicht die Verarbeitung von natürlicher Sprache, was zu bahnbrechenden Sprachmodellen geführt hat wie etwa GPT-3.

Dabei werden die Datensätze immer weiter verfeinert. ImageNet arbeitet derzeit an einem Update und GLUE wurde bereits von SuperGLUE ersetzt, das sich einer Reihe zuvor schwierigerer linguistischer Aufgaben stellt. Ziel bleibt es, dass die KI Fähigkeiten erhält, die dem Menschen in der Erfüllung mancher Aufgaben deutlich überlegen sind.

Zunehmend wichtig wird aber auch, KI auf ihre Universalität zu testen – um sicherzustellen, dass sie an bestimmten Problemstellungen nicht scheitert. Das soziale Netzwerk Facebook veröffentlicht nun eine neue Art von Tests, bei denen KI-Systeme von Menschen geprüft wird, die ihr Bestes geben, die Maschine zu verwirren. Das sogenannte "Dynabench"-Verfahren kann dabei extrem komplex werden.

Standard-Benchmarks könnten vom Ziel wegführen, erklärt Douwe Kiela aus dem Facebook-KI-Research-Team, der die Arbeit an dem neuen Benchmark geleitet hat. Ein zu großer Fokus auf bestimmte Ziele könnte bedeuten, das große Ganze aus dem Blick zu verlieren, indem der Test selbst zur eigentlichen Aufgabe wird. "Dann hat man am Ende ein System, das zwar bei Tests besser abschneidet als Menschen, aber nicht bei allgemeinen Aufgaben", sagt er. "Das ist sehr irreführend, denn dann sieht es so aus als seien wir weiter als wir es tatsächlich sind."

Kiela hält das insbesondere bei natürlicher Sprachverarbeitung (NLP) für ein Problem. Ein Sprachsystem wie GPT-3 wirkt intelligent, weil es sehr gut darin ist, Sprache nachzuahmen. Aber es ist schwierig zu sagen, wie viel das Modell tatsächlich versteht. Man müsse es damit vergleichen, wie versucht wird, menschliche Intelligenz zu messen: Zwar kann man einen IQ-Test machen, doch sagt der wenig darüber aus, ob ein Problem verstanden wird. Dafür braucht es Gespräche und Fragen müssen gestellt werden.

Dynabench macht nun etwas ganz ähnliches, indem Menschen KIs befragen. Im September wurde das Programm veröffentlicht: Die Öffentlichkeit ist eingeladen, es im Internet zu besuchen und KI-Systeme auszufragen. Beispielsweise könnte man einem Sprachsystem einen Wikipedia-Artikel geben und anschließend Fragen dazu stellen und die Antworten bewerten.

In mancherlei Hinsicht ähnelt der Ansatz der spielerischen Nutzung von GPT-3, bei der Nutzer schon jetzt die Grenzen des Programms testen, oder dem Evaluationsverfahren für den Loebner-Preis, einem Wettbewerb, bei dem Bots versuchen, als Menschen durchzugehen. Doch bei Dynabench werden alle Probleme, die während des Tests auffallen, automatisch in zukünftigen Versionen zurückgesetzt. Dadurch soll eine ständige Verbesserung möglich werden.

Aktuell konzentriert Dynabench sich auf Sprachmodelle, denn die gehören zu den einfacheren Interaktionen zwischen KI und Mensch. "Jeder spricht eine Sprache", sagt Kiela. "Man braucht kein spezielles Wissen, um diese Programme zu einem Fehlverhalten zu bringen." Doch der Ansatz soll auch für andere Arten neuronaler Netzwerke funktionieren, etwa Sprach- oder Bilderkennungssysteme.

Laut Kiela bräuchte es dafür nur eine Möglichkeit, dass Menschen ihre eigenen Fotos in das KI-System hochladen könnten – oder eigene Bilder machen – , um die dann zu testen: "Auf lange Sicht planen wir, das [Testverfahren] weiter zu öffnen, sodass jeder sein eigenes Modell entwickeln und seine eigenen Daten sammeln kann." Sein Team wolle die KI-Community davon überzeugen, dass es bessere Wege gibt, den Fortschritt von Künstlicher Intelligenz zu messen. "Hoffentlich kommen wir hiermit schneller voran und entwickeln ein besseres Verständnis davon, weshalb Programme auf Basis maschinellen Lernens immer noch versagen."

(bsc)