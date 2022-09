DALL·E ist ein KI-System, das Bilder anhand von Beschreibungen erstellt. Die erste Version hatte OpenAI im Januar 2021 veröffentlicht. Sie setzte auf das ebenfalls von OpenAI stammende Sprachmodell GPT-3. Während Letzteres aus einer großen Sammlung von Texten sein Basiswissen bezieht, hat OpenAI DALL·E und dessen Nachfolger mit zahlreichen Bildern und zugehörigen Beschreibungen trainiert. Der Projektname ist ein Kofferwort aus dem Nachnamen des spanischen Künstlers Salvador Dali und dem Titel des Pixar-Films "WALL-E".

Der im April 2022 veröffentlichte Nachfolger DALL·E 2 kombiniert zwei Techniken, die OpenAI seit der Veröffentlichung der ersten Variante entwickelt hat: CLIP (Contrastive Language-Image Pre-training), ein künstliches neuronales Netz, das visuelle Konzepte in Kategorien umsetzt, und GLIDE (Guided Language to Image Diffusion for Generation and Editing), ein textgeführtes Diffusionsmodell, das laut einem Paper DALL·E vor allem in den Bereichen Fotorealismus und passende Beschreibung übertroffen hat. Auch wenn DALL·E 2 den Vorgänger ersetzt hat, spricht OpenAI inzwischen nur noch von DALL·E.

Auch wenn OpenAI das Thema KI-Bildgenerierung angestoßen hat, sind einige andere Systemen am Start. Ein ernsthafter Herausforderer ist im August mit Stable Diffusion erschienen. Das Modell steht anders als DALL·E vollständig als Open Source bereit, und die Ausgaben stehen der Allgemeinheit frei zur Verfügung.

Das heute als Craiyon geführte System ist ebenfalls Open Source und startete ursprünglich mit einer unverhohlenen Anspielung auf das Vorbild als dall·e mini. Google ist bereits im Mai auf den Zug der Bildgeneratoren aufgesprungen und hat die öffentliche Demo des KI-Systems Imagen gestartet. Seid Juli befindet sich zudem der proprietäre Text-zu-Bild-Generator von MidJourney in der Testphase.