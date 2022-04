Fünfzehn Monate nach der Veröffentlichung von DALL-E hat OpenAI nun den Nachfolger des KI-Systems vorgestellt. DALL-E 2 erstellt Bilder anhand von Beschreibungen und kann darüber hinaus im Gegensatz zum Vorgänger vorhandene Bilder verändern. Der Projektname ist ein Kofferwort aus dem Nachnamen des spanischen Künstlers Salvador Dali und dem Titel des Pixar-Films "WALL-E".

OpenAI hat das System mit zahlreichen Bildern und zugehörigen Beschreibungen trainiert, ähnlich wie das ebenfalls von OpenAI entwickelte Sprachmodell GPT-3 (Generative Pre-Trained Transformer) Texte als Trainingsgrundlage zum Erstellen neuer Texte nutzt. DALL-E 2 konzentriert sich jedoch weiterhin auf die Kombination aus Bild und Beschreibung, ist also kein multimodales Modell wie die Vorstöße von Alep Alpha oder auch von Meta, dem Unternehmen formerly known as Facebook.

Akronyme im Hintergrund: GPT-3, CLIP und GLIDE

Die erste Version von DALL-E setzt im Wesentlichen auf GPT-3 auf und verwendet 12 Milliarden Parameter. Darüber hinaus nutzt es das parallel zu DALL-E veröffentlichte Tool CLIP (Contrastive Language-Image Pre-training) – ein künstliches neuronales Netz, das visuelle Konzepte in Kategorien umsetzt.

Im Dezember 2021 veröffentlichte OpenAI mit GLIDE (Guided Language to Image Diffusion for Generation and Editing) ein textgeführtes Diffusionsmodell, das laut dem zugehörigen Paper DALL-E vor allem in den Bereichen Fotorealismus und passende Beschreibung übertroffen hat. DALL-E 2 kombiniert nun CLIP mit GLIDE, um Bilder zu erstellen und zu verändern.

Das Bild erstellte DALL-E 2 anhand der auf Twitter geposteten Beschreibung "Ein Kaninchendetektiv, der auf einer Parkbank sitzt und eine Zeitung liest – in einem viktorianischen Setting" (Bild: Twitter / OpenAI)

Zum Release des neuen Systems hatte Sam Altman auf Twitter dazu aufgerufen, beliebige Beschreibungen zu posten, die er DALL-E 2 für recht beeindruckende Ergebnisse übergeben hat.

Maßgeschneidert retuschiert

DALL-E 2 kann Bilder nachträglich verändern und Inhalte kontextbezogen hinzufügen. Als Beispiel zeigt die Projektseite unter anderem ein Foto in einem Museum, in dem ein Hund einmal in einem Gemälde erscheint und ein anderes Mal auf der Bank vor den Bildern. Während die Vorlage für den letzten Hund ein Foto ist, passt sich der ins Gemälde eingesetzte der künstlerischen Technik des Bildes an.

Beim Einfügen von Inhalten in bestehende Bilder orientiert DALL-E 2 sich stilistisch an der Vorlage. (Bild: Open AI)

Darüber hinaus kann das System vorhandene Bilder umgestalten. Die Projektseite zeigt Variationen bekannter Kunstwerke wie "Das Mädchen mit dem Perlenohrring" von Jan Vermeer van Delft oder "Der Kuss" von Gustav Klimt.

Grenzen durch Wissenslücken

Wie GPT-3 und der Vorgänger ist das System nur so gut wie die Vorlage, also die zum Training verwendeten Bilder mit ihren Beschreibungen. Wenn die Trainingsgrundlage Bilder mit falschen Beschreibungen enthält, übernimmt DALL-E 2 die Fehlinformation und hält beispielsweise ein Flugzeug für ein Auto.

Bei Problemen mit der Wiedergabe des Videos aktivieren Sie bitte JavaScript

Das Video mit der Vorstellung von DALL-E 2 zeigt auch einige der Grenzen des Systems auf. (Quelle: OpenAI)

Bei einigen Bezeichnungen kann es zudem schwierig werden, wenn eine konkrete Vorlage fehlt. Ein Video zeigt das Beispiel des Brüllaffen, der im englischen Howler Monkey heißt, den DALL-E 2 aber ohne das Hintergrundwissen in der Datenbank schlicht als schreienden Affen (Howling Monkey) darstellt.

Grenzen durch Vorsichtsmaßnahmen

Generative Modelle bergen einige Risiken: Sie können verbreitete Vorurteile übernehmen, und User können versuchen, sie gezielt zu manipulieren oder für Inhalte einzusetzen, die beispielsweise gewaltverherrlichend sind. Open AI hat aus dem Grund im Februar mit InstructGPT eine angepasste Variante von GPT-3 veröffentlicht, die durch menschliches Feedback bestimmte Themenbereiche wie sexuelle Inhalte oder Gewalt ausklammert.

Für DALL-E 2 gelten von Anbeginn Vorsichtsmaßnahmen. Unter anderem hat OpenAI den Trainingssatz gefiltert, damit er keine Vorlagen für Gewalt, hassgetriebene oder sexuelle Inhalte bietet. Außerdem verbietet die Content Policy des Unternehmens das Generieren von entsprechenden Inhalten. Auf technischer Seite soll ein Filter für Texteingaben und hochgeladene Bilder einen Missbrauch des Systems abwehren. Schließlich setzt OpenAI Techniken ein, um das Erstellen fotorealistischer Inhalte anhand echter Personen zu verhindern. Details zu den Risiken, Einschränkungen und Gegenmaßnahmen finden sich im GitHub-Repository des Projekts.

Noch nicht öffentlich – Warteliste

Derzeit läuft Dall-E 2 als Forschungsprojekt, das noch nicht über die öffentliche API verfügbar ist. Um das System auch in Bezug auf die Vorsichtsmaßnahmen zu testen, befindet sich das System laut OpenAI in einer geschlossenen Testphase. Interessierte können sich jedoch bereits auf eine Warteliste eintragen.

Weitere Informationen und Demonstrationen zu DALL-E 2 finden sich auf der Projektseite. Ein Paper von OpenAI enthält eine technische Beschreibung des Systems.

