Text-zu-Bild-Revolution: Stable Diffusion ermöglicht KI-Bildgenerieren für alle

Mit Stable Diffusion ist ein KI-System frei verfügbar, das eindrucksvolle Bilder erzeugt. Organisationen wie LAION und EleutherAI tragen das Non-Profit-Projekt.

Lesezeit: 8 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 118 Beiträge
Stable Diffusion Launch Announcement, Stability AI

User-generated image from Stable Diffusion Beta

(Bild: stability.ai)

Von
  • Silke Hahn

Die Familie der KI-Bildgeneratoren bekommt erneut Zuwachs, diesmal aus der Open-Source-Ecke: Mit Stable Diffusion ist ein neuronales Text-zu-Bild-Modell erschienen, das womöglich das Zeug hätte, dem bisherigen Platzhirsch DALL·E 2 von OpenAI (erschienen im April 2022) und Imagen von Google Brain (vorgestellt im Mai, bislang ohne Demo) den Rang abzulaufen. Das liegt nicht nur an der hochwertigen Qualität der Bilder, sondern an der Zugänglichkeit: Durch den gemeinnützigen Ansatz der Herausgeber steht das Stable-Diffusion-Modell samt damit erzeugtem Output der Allgemeinheit frei zur Verfügung.

Nach einem geschlossenen Release Anfang August über ein Anmeldeformular (für Forscherinnen und Forscher) hat das Stable-Diffusion-Team das Modell nun für alle geöffnet. Laut Releasemeldung diente die Zeitspanne ab dem Forschungsrelease offenbar dazu, verbliebene rechtliche, ethische und technische Fragen zu klären. So enthält das Public Release einen KI-basierten Safety Classifier, der vom User unerwünschten Output entfernt. Die Parameter des Sicherheitsgurts lassen sich offenbar benutzerdefiniert einstellen.

Das Modell steht unter der Lizenz "Creative ML OpenRAIL-M", deren Details auf Hugging Face einsehbar sind. Die Voraussetzung zum Nutzen des Modells ist das Akzeptieren dieser Lizenz, anschließend lassen die Weights sich herunterladen. Der Einsatz ist nicht auf den Privatgebrauch beschränkt, sondern auch die kommerzielle Nutzung oder das Anbieten von Diensten mit Stable Diffusion ist ausdrücklich erlaubt, sofern die lizenzbedingten Einschränkungen gewahrt werden (illegaler oder schädlicher Output sowie Content sind untersagt). Im Gegenzug tragen die Nutzer selbst volle Verantwortung für den Einsatz.

Zahlreiche User testen das System bereits ausgiebig, insbesondere in der Kombination mit Midjourney (Beta), und teilen im Internet teils eindrucksvolle Ergebnisse. In der Testphase hatten über 10.000 Betatester das Modell in Betrieb und produzierten rund 1,7 Millionen Bilder pro Tag.

Einsteiger können mit der Suchmaschine Lexica die bislang mit Stable Diffusion erzeugten Bilder und Text-Prompts durchstöbern. Lexica erschließt derzeit über fünf Millionen Einträge, laufend werden es mehr. Wer mit Stable Diffusion oder einem anderen Text-zu-Bild-System KI-basiert Bilder erstellt, findet hier kreative Inspiration, aber auch Denkanstöße für die Forschung.

Stable Diffusion: Bilder und Prompts finden mit Lexica (10 Bilder)

Mittelerde: Minen von Moria und Khazad Dum

"Mines of moria, khazad dum, halls of durin, middle earth, tolkien, a bright orb of light in the center of a grand hall, outer edges shrouded in darkness with creatures crawling out into the light, in the style of hieronymus bosch"
(Bild: Stable Diffusion (via Lexica.art) )

Zum Training nutzte das Stable-Diffusion-Team einen Bilddatensatz aus der frei zugänglichen LAION-5B-Datenbank, die rund 5,85 Milliarden CLIP-gefilterter Bild-Text-Paare enthält und damit vierzehnmal größer ist als ihre Vorgängerin LAION-400M. LAION-Datensätze sind als Indizes für das Internet zu verstehen: Sie listen die URLs zu den Originalbildern gemeinsam mit den verknüpften ALT-Texten auf. Bis Anfang August 2022 war LAION-400M die weltweit größte öffentlich zugängliche Bild-Text-Datenbank gewesen, und zahlreiche Machine-Learning-Projekte beruhen auf Datensätzen aus dieser Quelle.

CLIP steht für Contrastive Language-Image Pre-Training und ist eine von OpenAI entwickelte Technik, die auch bei DALL·E 2 zum Einsatz kommt und visuelle Konzepte in Kategorien umsetzt. Neben eigener Arbeit (vorwiegend durch die Teams von CompVis und Runway ML) haben die Forscher sich an den Arbeiten zu DALL·E 2 (von OpenAI), Imagen (von Google Brain) und den Beiträgen der KI-Entwicklerin Katherine Crowson orientiert.

Eine "stabile Diffusion" läuft in zwei Schritten ab: Der Encoder komprimiert ein Bild (x) zu einer niedrigdimensionalen Darstellung (z) im latenten Raum. Anschließend laufen Diffusion und Rauschunterdrückung (Denoising), und zwar vorwiegend über die Repräsentation (z) statt über das Originalbild (x).

Diagramm zu Stable Diffusion: Der Encoder komprimiert ein Bild x zu einer Repräsentation z, es folgen Diffusion und Rauschunterdrückung (Abb. 1).

(Bild: CompVis / AI Pub)

Wer sich weiter in die technischen Hintergründe vertiefen möchte, findet bei arxiv.org das Paper der CompVis-Forschergruppe um Robin Rombach von der LMU München und Patrick Esser von Runway ML, die die Technik entwickelt haben ("High-Resolution Image Synthesis with Latent Diffusion Models"). Die Heidelberger und Münchner hatten das wissenschaftliche Paper im Dezember 2021 hochgeladen, online ist zurzeit die revidierte Version aus April 2022 greifbar. Die CompVis-Gruppe stellt auch ein GitHub-Repository zu Latent Diffusion bereit, in dem sie ihr Vorgehen beim Pre-Training der augmentierten Diffusionsmodelle und den Weg zur Text-zu-Bild-Generierung samt vortrainierter Gewichte beschreibt. Darin erklären die Forscher, wie sich eigene Modelle trainieren lassen.

Wer Stable Diffusion testen will, benötigt einen Nutzerzugang zu Hugging Face Hub und ein Zugangstoken für den Code. Zunächst ist auf dem eigenen Rechner diffusers==0.2.4 zu installieren mit folgendem Befehl: pip install diffusers==0.2.4 transformers scipy ftfy. Die zur benötigten Version 1-4 gehörige Modellkarte ist bei Hugging Face hinterlegt und nach Lektüre der Lizenz abzunicken (durch Ankreuzen eines Kontrollfelds). Mit der Übergabe des Zugangstokens ist das Set-up abgeschlossen, und man kann mit der Inferenz loslegen.

Wie man an das Token gelangt und was die weiteren Schritte sind, ist ausführlich im Blogeintrag zu Stable Diffusion erläutert. Eine Hürde könnte die Rechenpower sein, denn zum Betreiben des Modells ist GPU-Speicherplatz notwendig. Wer über weniger als 10 GByte an GPU-RAM verfügt, muss sich mit einer kleineren Version der Stable-Diffusion-Pipeline begnügen (float 16 precision statt fp32). In dem Fall wären beim Einrichten noch Extraschritte nötig, um den alternativen fp16-Branch einzubinden.

Hinter Stable Diffusion stehen ein Team aus Forschern und Ingenieuren der Non-Profit-Organisation LAION, die Forschungsabteilung des KI-Unternehmens Stability AI sowie CompVis, eine Gruppe an der Ludwig-Maximilians-Universität München (LMU), die aus der vormaligen Computer Vision Group der Universität Heidelberg hervorgegangen ist. Stable Diffusion beruht auf vereinten Kräften der Machine-Learning-Community: So hat sich auch die Community des Graswurzelkollektivs EleutherAI eingebracht, die bereits GPT-Neo und GPT-J schuf.

LAION steht für Large-scale Artificial Intelligence Open Network und ist nicht gewinnorientiert. Das ist bemerkenswert, denn die Organisation finanziert sich (anders als Unternehmen wie Google, Meta und das mit Microsoft liierte OpenAI) ausschließlich über Spenden und öffentliche Forschungsgelder. Das Ziel von LAION ist laut Projektbeschreibung, die wesentlichen Ergebnisse aus dem hochskalierten Machine Learning zugänglich zu machen – und zwar allen, die sich dafür interessieren. Diesem Ziel soll offenbar auch Stable Diffusion dienen.

Potenziell können Milliarden von Menschen mit dem Text-zu-Bild-Modell binnen Sekunden digitale Kunstwerke im Format von 512 x 512 Pixel erstellen, denn das Modell soll sich "auf Consumer-GPUs" (unter 10 GByte virtuelle RAM) betreiben lassen, also kein eigenes Rechenzentrum erfordern – gute Nachrichten auch für unterfinanzierte Forscher.

Details zum Release von Stable Diffusion finden sich in der Ankündigung des Public Release im Blog von Stability AI und in einem Blogeintrag bei Hugging Face – dort sind auch die Gewichte, die Modellkarte und der Code hinterlegt. Die vorgelagerte Ankündigung des Forschungsrelease bietet zusätzliche Einblicke und Stellungnahmen der Beteiligten. Wer besser verstehen möchte, wie Diffusionsmodelle funktionieren, kann sich in der Diffuser-Library bei Hugging Face umsehen (Colab "Getting started with diffusers").

Auf Twitter sind bereits Erklär-Threads zu finden, unter anderem von dem Machine-Learning-Professor Tom Goldstein mit einer Übersicht relevanter Forschungsarbeiten (Thread: "How diffusion models work, how we understand them, and why I think this understanding is broken"). Besonders empfehlenswert ist der Überblick bei AI Pub:

Wer mit großen Bilddatensätzen arbeitet (oder es vorhat) und sich Gedanken über Copyrightfragen macht, findet eine aufschlussreiche FAQ-Sammlung auf der Website von LAION.

(sih)