70.000 Stunden an Minecraft-Videos sollen der KI neue Trainingsdaten liefern

Online-Videos sind eine riesige ungenutzte Quelle für Trainingsdaten. OpenAI hat nun einen neuen Weg gefunden, sie zu nutzen.

Lesezeit: 8 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 15 Beiträge
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

OpenAIs Minecraft-Bot gilt als bislang bester seiner Art. Und das hat auch seine Gründe: Das System konnte sich in der Trainingsphase 70.000 Stunden Videomaterial von Menschen ansehen, die das beliebte Computerspiel zockten. Das System ist ein Beispiel für eine leistungsstarke neue Technik, mit der Maschinen für eine breite Palette von Aufgaben trainiert werden könnten – einfach, indem sie auf Video-Websites wie YouTube zurückgriffen, die eine bislang noch kaum genutzte riesige Quelle von Trainingsdaten darstellen.

Die Minecraft-KI hat beim YouTube-Schauen sogar gelernt, komplizierte Abfolgen von Tastatur- und Mausklicks auszuführen, um Aufgaben im Spiel zu erfüllen – beispielsweise das Fällen von Bäumen und das Herstellen von Werkzeugen. Es ist der erste Minecraft-Bot, der sogar sogenannte Diamantwerkzeuge herstellen kann – eine Aufgabe, für die ein guter menschlicher Spieler in der Regel 20 Minuten mit Höchstgeschwindigkeit klicken muss beziehungsweise 24.000 Aktionen zu vollführen hat.

Der Minecraft-Bot ist der nächste Durchbruch für eine Technik, die als Imitationslernen bekannt geworden ist und bei der neuronale Netze darauf trainiert werden, Aufgaben auszuführen, indem sie Menschen dabei beobachten, wie sie diese erledigen. Mithilfe des Imitationslernens kann eine Künstliche Intelligenz bereits darauf trainiert werden, Roboterarme zu steuern, Autos zu fahren oder durch Webseiten zu navigieren.

Im Internet gibt es eine riesige Menge an Videos, die Menschen bei der Ausführung verschiedener Aufgaben zeigen. Indem sie diese Ressource anzapfen, hoffen die Forscher, für das Imitationslernen das zu erreichen, was GPT-3 bei großen Sprachmodellen erreicht hat. "In den letzten Jahren haben wir den Aufstieg des GPT-3-Paradigmas erlebt, bei dem große Modelle, die auf Basis riesiger Textmengen aus dem Internet trainiert wurden, erstaunliche Fähigkeiten entwickelt haben", sagt Bowen Baker von OpenAI, der zu dem Team gehört, das hinter dem neuen Minecraft-Bot steht. "Ein großer Teil davon ist darauf zurückzuführen, dass wir modellieren, was Menschen tun, wenn sie online sind."

Das Problem bei bestehenden Ansätzen zum Imitationslernen besteht darin, dass Videodemonstrationen für jeden Schritt händisch beschriftet werden müssen: Wenn man diese Aktion ausführt, passiert das, wenn man jene Aktion ausführt, passiert dies – und so weiter. Eine solche manuelle Beschriftung durch einen Menschen ist sehr arbeitsaufwendig, sodass solche Datensätze meist klein sind. Baker und seine Kollegen wollten einen Weg finden, um die Millionen von Videos, die online verfügbar sind, in ein neues Modell zu verwandeln.

Der Ansatz des Teams, Video-Pre-Training (VPT) genannt, umgeht bisherige Engpässe beim Imitationslernen, indem es ein weiteres neuronales Netzwerk trainiert, Videos automatisch zu kennzeichnen. Die Forscher beauftragten zunächst Crowdworker mit dem Spielen von Minecraft und zeichneten ihre Tastatur- und Mausklicks zusammen mit den Videos auf ihren Bildschirmen auf. Auf diese Weise erhielten sie 2.000 Stunden "kommentiertes" Minecraft-Spiel, mit denen sie ein Modell trainierten, das die Aktionen den Ergebnissen auf dem Bildschirm zuordnet. Das Anklicken einer Maustaste in einer bestimmten Situation führt beispielsweise dazu, dass die Figur ihre Axt schwingt.

Mehr über Künstliche Intelligenz

Der nächste Schritt bestand darin, dieses Modell zu verwenden, um Aktionsbezeichnungen für 70.000 Stunden nicht beschrifteter Videos aus dem Internet zu generieren und den Minecraft-Bot dann auf diesen größeren Datensatz loszulassen. "Video ist eine Trainingsressource mit großem Potenzial", sagt Peter Stone, Executive Director von Sony AI America, der sich bereits mit Imitationslernen beschäftigt hat.

Das Imitationslernen ist eine Alternative zum Verstärkungslernen, bei dem ein neuronales Netz durch Versuch und Irrtum lernt, eine Aufgabe von Grund auf neu zu lösen. Diese Technik steht hinter vielen der größten KI-Durchbrüche der letzten Jahre. Auf diese Weise wurden Modelle trainiert, die Menschen bei Spielen schlagen, einen Fusionsreaktor steuern und einen schnelleren Weg zu mathematischen Grundrechenarten finden können.

Das Problem ist, dass das Verstärkungslernen am besten bei Aufgaben funktioniert, die ein klares Ziel haben, bei denen aber zufällige Aktionen zu einem zufälligen Erfolg führen können. Die Algorithmen des verstärkenden Lernens belohnen diese zufälligen Erfolge, um die Wahrscheinlichkeit zu erhöhen, dass sie sich wiederholen. Minecraft ist jedoch ein Spiel ohne klares Ziel. Die Spielerinnen und Spieler können tun, was sie wollen: durch eine computergenerierte Welt wandern, verschiedene Materialien abbauen und sie zu unterschiedlichen Objekten kombinieren.

Die Offenheit von Minecraft macht es zu einer guten Umgebung für das Training von KI. Baker war einer der Forscher hinter "Hide & Seek", einem Projekt, bei dem Bots auf einen virtuellen Spielplatz losgelassen wurden, wo sie mithilfe von Verstärkungslernen herausfanden, wie sie kooperieren und Werkzeuge einsetzen können, um einfache Spiele zu gewinnen. Aber die Bots wuchsen bald über ihre Umgebung hinaus. "Die Agenten übernahmen sozusagen das Universum; es gab nichts anderes für sie zu tun", sagt Baker. "Wir wollten sie erweitern, und wir dachten, dass Minecraft ein großartiger Bereich ist, um daran zu arbeiten."

Damit sind sie nicht allein. Minecraft wird immer mehr zu einem wichtigen Testfeld für neue KI-Techniken. MineDojo, eine Minecraft-Umgebung mit Dutzenden von vorgefertigten Aufgaben, wurde auf der diesjährigen NeurIPS, einer der größten KI-Konferenzen, mit einem Preis ausgezeichnet. Mithilfe von VPT ist der Bot von OpenAI selbst in der Lage, Aufgaben auszuführen, die mit Reinforcement Learning allein unmöglich gewesen wären – wie etwa das Herstellen von Brettern und deren Umwandlung in einen Tisch, was etwa 970 aufeinanderfolgende Aktionen erfordert. Dennoch stellte das Team fest, dass die besten Ergebnisse erzielt wurden, wenn Imitationslernen und Verstärkungslernen zusammen eingesetzt wurden. Ein mit VPT trainierter Roboter, der mithilfe von Verstärkungslernen feinabgestimmt wurde, konnte Aufgaben mit mehr als 20.000 aufeinanderfolgenden Aktionen ausführen.

Die Forscher glauben, dass ihr Ansatz verwendet werden könnte, um KIs für andere Aufgaben zu trainieren. Etwa könnten damit Bots, die mit Tastatur und Maus auf Websites navigieren, Flüge buchen oder Lebensmittel online einkaufen – eine interessante Vorstellung. Theoretisch könnte man damit aber auch Roboter trainieren, die physische Aufgaben in der realen Welt ausführen, indem man Videos von Menschen kopiert, die diese Aufgaben aus erster Hand erledigen. "Das ist plausibel", sagt Stone.

Matthew Guzdial von der University of Alberta in Kanada, der KI mithilfe von Videos die Regeln von Spielen wie Super Mario Bros. beigebracht hat, glaubt jedoch nicht, dass dies in absehbarer Zeit geschehen wird. Aktionen in Spielen wie Minecraft und Super Mario Bros. werden durch das Drücken von Tasten ausgeführt. Aktionen in der realen Welt sind weitaus komplizierter und für eine Maschine schwieriger zu erlernen. "Das bringt eine ganze Reihe neuer Forschungsprobleme mit sich", sagt Guzdial.

"Diese Arbeit ist ein weiterer Beweis dafür, dass es möglich ist, Modelle zu skalieren und mit großen Datensätzen zu trainieren, um eine gute Leistung zu erzielen", sagt Natasha Jaques, die bei Google und der University of California in Berkeley an "Multi-Agent Reinforcement Learning" arbeitet. Große Datensätze im Internet-Maßstab werden sicherlich neue Möglichkeiten für die KI eröffnen, sagt Jaques: "Wir haben das immer wieder gesehen, und es ist ein großartiger Ansatz". Aber OpenAI setze viel Vertrauen in die Kraft großer Datensätze allein, sagt sie: "Ich persönlich bin etwas skeptischer, dass Daten jedes Problem lösen können."

Dennoch glauben Baker und seine Kollegen, dass die Sammlung von mehr als einer Million Stunden Minecraft-Videos ihre KI noch besser machen wird. Es sei wahrscheinlich der beste Minecraft spielende Bot bisher, sagt Baker: "Aber mit mehr Daten und größeren Modellen würde ich erwarten, dass es sich so anfühlt, als würde man einem Menschen beim Spielen zusehen, und nicht einer Baby-KI, die versucht, einen Menschen zu imitieren."

(jle)