"Gesunder Menschenverstand" für Maschinen: Metas Weg zur allgemeinen KI

Metas KI-Chef Yann LeCun will alte Verfahren zu einem neuen Ganzen zusammenfügen, um die lang erhoffte "Artificial General Intelligence" zu schaffen.

Lesezeit: 13 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 38 Beiträge

(Bild: Besjunior/Shutterstock.com)

Von
  • Melissa Heikkilä
Inhaltsverzeichnis

Schon vor gut anderthalb Jahren erkannte Yann LeCun, dass er sich geirrt hatte. Er gilt als einer der einflussreichsten KI-Forscher der Erde. Als leitender Wissenschaftler im KI-Labor von Meta hatte er versucht, Maschinen ein grundlegendes Verständnis dafür zu vermitteln, wie die Welt funktioniert. Diese Art von gesundem Menschenverstand sollte entstehen, indem er neuronale Netze darauf trainierte, vorherzusagen, was als Nächstes in Videoclips von alltäglichen Ereignissen passieren würde. Doch es zeigte sich, dass es einfach zu komplex war, die kommenden Sequenzen eines Videos Pixel für Pixel zu erraten. LeCun rannte gegen eine Mauer.

Jetzt, nachdem er monatelang danach gesucht hatte, was hier noch fehlte, hat er eine kühne neue Vision für die nächste Generation der KI. In einem Entwurf, den er mit MIT Technology Review geteilt hat, skizziert LeCun einen Ansatz, der seiner Meinung nach Maschinen eines Tages jenen gesunden Menschenverstand geben wird, den sie brauchen, um sich in der Welt zurechtzufinden. Für LeCun könnte die Idee ein erster Schritt auf dem Weg zur Entwicklung von Maschinen sein, die in der Lage sind, wie Menschen zu denken und vorauszuplanen – was viele als allgemeine Künstliche Intelligenz (AGI) bezeichnen. Dabei entfernt sich der Experte auch von den derzeit angesagtesten Trends im Bereich des maschinellen Lernens und lässt dagegen einige alte, aus der Mode gekommene Ideen wieder auferstehen.

Doch noch ist seine Vision bei weitem nicht umfassend; sie wirft möglicherweise mehr Fragen auf, als sie beantwortet. Das größte Fragezeichen ist, wie LeCun selbst feststellt, dass er noch nicht wissen kann, wie er das, was er beschreibt, bauen soll. Das Kernstück des neuen Ansatzes ist ein neuronales Netz, das lernen kann, die Welt in verschiedenen Detailstufen zu betrachten. Da dieses Netzwerk keine pixelgenauen Vorhersagen benötigt, konzentriert es sich nur auf die Merkmale einer Szene, die für die jeweilige Aufgabe relevant sind. LeCun koppelt dieses Kernnetzwerk mit einem anderen, dem so genannten Konfigurator, der bestimmt, welcher Detailgrad erforderlich ist, um korrekt zu arbeiten – und das Gesamtsystem entsprechend anpasst.

Für LeCun wird eine AGI Teil der Art und Weise sein, wie wir in Zukunft mit Technologie interagieren. Seine Vision ist von der seines Arbeitgebers Meta geprägt, der ein Metaversum in der virtuellen Realität vorantreibt. Seiner Meinung nach werden die Menschen in 10 oder 15 Jahren keine Smartphones mehr in der Tasche tragen, sondern Augmented-Reality-Brillen, die mit virtuellen Assistenten ausgestattet sind, welche die User durch ihren Tag führen. "Damit diese Assistenten für uns von Nutzen sind, müssen sie im Grunde genommen mehr oder weniger menschliche Intelligenz besitzen", glaubt er.

"Yann spricht schon seit einiger Zeit über viele dieser Ideen", sagt Yoshua Bengio, KI-Forscher an der Universität von Montreal und wissenschaftlicher Direktor am Mila-Quebec-Institut. "Aber es ist gut, alles zusammen in einem zusammengefügten Bild zu sehen." Bengio ist der Meinung, dass LeCun die richtigen Fragen stellt. Er findet es auch spannend, dass LeCun bereit ist, ein Dokument herauszugeben, das so wenige Antworten enthält. Es handelt sich eher um einen Forschungsvorschlag als um eine Reihe echter Ergebnisse, sagt er. "Die Leute reden privat über diese Dinge, aber sie werden normalerweise nicht öffentlich gemacht", sagt Bengio. "Denn das ist riskant."

LeCun beschäftigt sich schon seit fast 40 Jahren mit KI. Im Jahr 2018 erhielt er gemeinsam mit Bengio und Geoffrey Hinton den Turing Award, den wohl wichtigsten Preis der Informatik, für seine bahnbrechenden Arbeiten zum Deep Learning. "Maschinen dazu zu bringen, sich wie Menschen und Tiere zu verhalten, war das Ziel meines Lebens", sagt er.

LeCun glaubt, dass die Gehirne von Menschen und Tieren eine Art Simulation der Welt ausführen, die er ein Weltmodell nennt. Dieses Modell wird im Säuglingsalter erlernt und ist die Art und Weise, wie es uns gelingt, gute Vermutungen darüber anzustellen, was um uns herum vor sich geht. Säuglinge lernen die Grundlagen in den ersten Lebensmonaten durch Beobachtung der Welt, sagt LeCun. Es reicht aus, wenn ein Kind ein paar Mal sieht, wie ein Ball herunterfällt, um ein Gefühl dafür zu bekommen, wie die Schwerkraft funktioniert.

"Gesunder Menschenverstand" ist der Sammelbegriff für diese Art des intuitiven Denkens. Dazu gehört auch das Verständnis einfacher physikalischer Zusammenhänge: zum Beispiel das Wissen, dass die Welt dreidimensional ist und dass Objekte nicht verschwinden, wenn sie aus dem Blickfeld geraten. So können wir vorhersagen, wo ein hüpfender Ball oder ein rasendes Fahrrad in einigen Sekunden sein wird. Und er hilft uns, die Punkte zwischen unvollständigen Informationen zu verknüpfen: Wenn wir ein metallisches Krachen aus der Küche hören, können wir eine fundierte Vermutung anstellen, dass jemand eine Pfanne fallen gelassen hat, weil wir wissen, welche Arten von Gegenständen dieses Geräusch verursachen und wann das passiert.

Kurz gesagt, der gesunde Menschenverstand sagt uns, welche Ereignisse möglich und welche unmöglich sind – und welche Ereignisse wahrscheinlicher sind als andere. Er ermöglicht es uns, die Folgen unserer Handlungen vorherzusehen und Pläne zu machen – und irrelevante Details zu ignorieren. Aber es ist schwierig, Maschinen einen gesunden Menschenverstand beizubringen. Den heutigen neuronalen Netzen müssten dazu Tausende von Beispielen gezeigt werden, bevor sie anfangen, solche Muster zu erkennen.

In vielerlei Hinsicht läuft der gesunde Menschenverstand also auf die Fähigkeit hinaus, vorherzusagen, was als Nächstes passieren wird. "Das ist die Essenz der Intelligenz", meint LeCun. Aus diesem Grund haben er und einige andere Forscher Videoclips zum Trainieren ihrer Modelle verwendet. Bei den bisherigen Techniken des maschinellen Lernens mussten die Modelle jedoch genau vorhersagen, was im nächsten Bild passieren würde – und dies Pixel für Pixel generieren.

"Stellen Sie sich vor, Sie halten einen Stift hoch und lassen ihn los", sagt LeCun. Der gesunde Menschenverstand sagt uns, dass der Stift fallen wird, aber nicht die genaue Position, in der er landen wird. Um das vorherzusagen, müsste man einige schwierige physikalische Gleichungen knacken.

Deshalb versucht LeCun jetzt, ein neuronales Netz zu trainieren, das sich nur auf die relevanten Aspekte der Welt konzentriert: Es soll vorhersagen, dass der Stift fallen wird, aber nicht, wie genau. Er sieht dieses trainierte Netz als das Äquivalent eines Weltmodells, auf das sich Lebewesen verlassen.

LeCun erläutert, dass er eine frühe Version dieses Weltmodells gebaut hat, das grundlegende Objekterkennung leisten kann. Jetzt arbeitet er daran, es so zu trainieren, dass es Vorhersagen macht. Aber wie der ebenfalls notwendige Konfigurator funktionieren soll, bleibe ein Rätsel. LeCun stellt sich dieses neuronale Netz als Controller für das gesamte System vor. Es würde entscheiden, welche Art von Vorhersagen das Weltmodell zu einem bestimmten Zeitpunkt machen sollte und auf welche Detailstufe es sich konzentrieren muss, um diese Vorhersagen zu ermöglichen. Außerdem muss er das Weltmodell nach Bedarf anpassen.