Algorithmus zeichnet Beschreibungen: Ein Avocado-Sessel als Zukunft der KI

OpenAI hat GPT-3 durch Modelle erweitert, die die Verarbeitung natürlichsprachlicher Informationen mit Bilderkennung kombiniert. Das Ergebnis ist verblüffend.

Lesezeit: 8 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 28 Beiträge

(Bild: OpenAI)

Von
  • Will Douglas Heaven

Mit GPT-3 hat OpenAI gezeigt, dass ein einzelnes Deep-Learning-Modell so trainiert werden kann, dass es Texte auf realistische Art und Weise vervollständigen oder gar neu schaffen kann – einfach, indem das System eine gigantische Masse an Text als Startdaten erhält. Als nächstes wurde deutlich, dass derselbe Ansatz auch dann funktioniert, wenn Texte durch Pixel ersetzt werden: Eine KI konnte trainiert werden, halbfertige Bilder zu vervollständigen. GPT-3 ahmt dabei nach, wie Menschen Sprache verwenden; Image GPT-3 sagt voraus, was wir sehen.

OpenAI hat diese beiden Ideen jetzt zusammengeführt und zwei neue Modelle namens DALL·E und CLIP entwickelt, die jeweils Sprache und Bilder auf eine Weise kombinieren, die KI besser verstehen lässt, was Wörter bedeuten und worauf sie verweisen. "Wir leben in einer visuellen Welt", sagt Ilya Sutskever, Chief Scientist bei OpenAI. "Auf lange Sicht wird man Modelle haben, die sowohl Text als auch Bild verstehen. KI wird in der Lage sein, Sprache besser zu verstehen, weil die Technik realisieren wird, was Worte und Sätze bedeuten."

Bei allem Charme, der von GPT-3 ausgeht, kann sich das, was bei dem System rauskommt, noch immer ziemlich realitätsfern anhören, ganz so, als wisse es nicht, wovon es eigentlich spricht. Kein Wunder: Das tut es ja auch nicht. Indem nun Text mit Bildern kombiniert werden, versuchen die Forscher bei OpenAI und andernorts, Sprachmodellen ein besseres Verständnis von jenen alltäglichen Konzepten zu geben, die Menschen verwenden, um Dingen einen Sinn zu verleihen.

DALL·E and CLIP gehen das Problem aus verschiedenen Richtungen an. Auf den ersten Blick handelt es sich bei CLIP (Kurzform von "Contrastive Language-Image-Pre-training") nur um ein weiteres Bilderkennungssystem.

Allerdings kommt hier mehr dazu: Das System hat gelernt, Bilder nicht anhand von entsprechend benannten (getaggten) Beispielen aus einem durch Menschen kuratierten Datenset zu erkennen (wie es die meisten existierenden Modelle tun), sondern anhand von Bildern und deren Untertiteln aus dem Internet. Es lernt anhand einer Beschreibung, was in einem Bild zu sehen ist und nicht auf Basis eines einzelnen Begriffs wie "Katze" oder "Banane".

CLIP wird trainiert, indem es die richtige Beschreibung für eine zufällig gewählte Auswahl aus 32.768 Bildern vorhersagen soll. Um das zu erreichen, lernt CLIP eine breite Vielfalt an Objekten mit den dazugehörigen Begriffen und Wörtern, die sie beschreiben. So kann es dann Objekte identifizieren, deren Bilder nicht Teil des Trainingssets sind.

(Bild: OpenAI)

Die meisten Bilderkennungssysteme sind so trainiert, dass sie bestimmte Objekttypen – wie beispielsweise Gesichter aus Überwachungsvideos oder Gebäude in Satellitenbildern – identifizieren können. Wie auch GPT-3 kann CLIP nun jedoch aufgabenübergreifend generalisieren, ganz ohne zusätzliches Training.

Außerdem ist es unwahrscheinlicher als bei anderen modernsten Bilderkennungsmodellen, dass sich das System von widersprüchlichen Bildern in die Irre führen lässt. Bilder, die nur leicht verändert wurden, hätten Algorithmen typischerweise verwirrt, auch dann, wenn ein Mensch vielleicht keinen Unterschied bemerkt hätte.

DALL·E (vermutlich ein Wortspiel aus dem Filmtitel "WALL·E" und Dali) hingegen erkennt keine Bilder, es malt sie. Das Modell ist eine reduzierte Version von GPT-3 und wurde ebenso mit aus dem Internet bezogenen Text-Bild-Paaren trainiert. Mit einer kurzen Beschreibung in natürlicher Sprache – etwa "Bild eines im Feld sitzenden Wasserschweins bei Sonnenaufgang" oder "Querschnitt-Ansicht einer Walnuss" – generiert DALL·E eine Menge Fotos, die dieser entsprechen sollen: Dutzende von Wasserschweinen in allen Größen und Formen vor einem orangen oder gelben Hintergrund – und reihenweise Walnüsse (wenn auch nicht alle davon im Querschnitt).

Mehr von MIT Technology Review Mehr von MIT Technology Review

Die Ergebnisse sind faszinierend, aber immer noch eine Wundertüte. Die Beschreibung "Beschlagenes Glasfenster mit dem Bild einer blauen Erdbeere" produziert viele zutreffende Ergebnisse, aber auch einige mit blauen Fenstern und roten Erdbeeren. Andere wiederum beinhalten nichts, dass an ein Fenster oder eine Erdbeere erinnern würde. Bei den von OpenAI kürzlich veröffentlichten Ergebnissen wurden allerdings auch nicht manuell die Rosinen herausgepickt, sondern sie wurden von CLIP hierarchisiert.

Das Modell wählte 32 DALL·E-Bilder für jede der Beschreibungen aus, von denen es meinte, dass sie dem Titel entsprechen. "Text-zu-Bild ist eine Herausforderung für die Forschung, die schon lange existiert", sagt Mark Riedl, der an Verarbeitung natürlicher Sprache (NLP) rechnergestützter Kreativität am Georgia Institute of Technology in Atlanta forscht. "Aber hier handelt es sich um eine ziemlich eindrucksvolle Reihe von Beispielen."

Als die Forscher die Fähigkeit von DALL·E testen wollten, neue Konzepte zu erfassen, gaben sie dem System Beschreibungen von Objekten, die es wohl noch nie gesehen hatte, sowas wie "ein Avocado-Sessel" und "die Illustration eines Baby-Rettichs in einem Balletkostüm, das mit einem Hund Gassi geht". In beiden Fällen generierte die KI Bilder, die diese Konzepte auf plausible Weise kombinierten.

Insbesondere die Sessel sehen allesamt aus wie Sitzgelegenheiten aus Avocados. "Was mich am meisten überrascht hat, ist, dass das Modell zwei unabhängige Konzepte annehmen und diese auf eine Weise verbinden kann, die im Ergebnis auf gewisse Art funktional sind", sagt Aditya Ramesh, der DALL·E mitentwickelt hat. Das liegt wohl daran, dass eine halbe Avocado durchaus an einen Sessel mit hoher Rückenlehne erinnert, mit dem Kern als Kissen. Für andere Beschreibungen, etwa "Schnecke, die aus einer Harfe gemacht wurde" sind die Ergebnisse weniger gut – mit Bildern, die Schnecke und Harfe auf seltsame Weise kombinieren. DALL·E ist die Art von System, von dem NLP-Experte Riedl sich vorgestellt hat, es zum Lovelace 2.0-Test einzureichen – ein Gedankenexperiment, das er 2014 entwickelt hat.

(Bild: OpenAI)

Der Test soll den Turing-Test als Maßstab ersetzen, die Fähigkeiten einer KI zu messen. Er nimmt an, dass Intelligenz auch über die Fähigkeit bestimmt wird, Konzepte auf kreative Weise zusammenzuführen. Riedl meint, dass ein besserer Intelligenztest darin bestehe, einen Computer zu bitten, das Bild eines Mannes zu zeichnen, der einen Pinguin hält und nicht in der Frage, ob ein Chatbot – wie beim Turing-Test – es schafft, menschlich zu wirken. Denn ersteres sei ergebnisoffener und Schummeln sehr viel schwieriger. "Der tatsächliche Test liegt darin herauszufinden, inwieweit KI aus der Komfortzone gedrängt werden kann", sagt Riedl.

"Die Fähigkeit des Modells, synthetische Bilder aus eher wunderlichen Konzepten zu generieren, erscheint mir sehr spannend", sagt Ani Kembhavi vom Allen Institute for Artificial Intelligence (AI2), der ebenfalls ein System entwickelt hat, das Bilder aus Texten entwickelt. "Die Ergebnisse scheinen der erwünschten Semantik zu gehorchen, was ich ziemlich eindrucksvoll finde." Auch Jaemin Cho, ein Kollege von Kembhavi, zeigt sich beeindruckt: "Bestehende Text-zu-Bild-Generatoren haben nicht dieses Niveau an Kontrolle gezeigt in der Erstellung mehrerer Objekte oder in der Fähigkeit zu räumlicher Logik wie DALL·E", sagt er.

Doch auch DALL·E stößt an Grenzen: Fügt man zu viele Objekte in eine Beschreibung ein, verliert es den Überblick, was zu zeichnen ist. Und formuliert man eine Beschreibung mit Worten um, die eigentlich dasselbe meinen, liefert das manchmal andere Ergebnisse. Auch gibt es Anzeichen dafür, dass DALL·E Bilder eher imitiert, die online gefunden wurden und keine neuen generiert. "Ich misstraue dem Rettich-Beispiel ein wenig, da es stilistisch so aussieht, dass [die Bilder] Kunst aus dem Netz entspringen", sagt Riedl. Er merkt an, dass eine rasche Suche einige Cartoons aufstöbert, die solche anthropomorphischen Rettiche zeigen. "GPT-3, auf dem DALL·E basiert, ist berühmt-berüchtigt für seine Erinnerungsleistung."

Trotzdem stimmen die meisten KI-Forscher darin überein, dass man auf einem guten Weg ist, Systeme mit dem Ansatz von CLIP und DALL·E intelligenter zu machen, indem die Sprachverarbeitung auf einem visuellen Verständnis basiert. "Die Zukunft wird aus solchen Systemen bestehen", sagt OpenAI-Chefforscher Sutskever. "Und beide dieser Modelle sind ein Schritt in Richtung eines solchen Systems."

(bsc)