Mit SDXL 1.0 ist die erste Hauptversion des Nachfolgers der Bild-KI Stable Diffusion erschienen. Bei SDXL handelt es sich um eine Text-zu-Bild-KI, die im Gegensatz zu den meisten anderen erfolgreichen Bild-KIs wie Dall-E oder Midjourney quelloffen zur Verfügung steht. Die Entwickler von Stability AI bezeichnen SDXL 1.0 als das Flaggschiff unter den eigenen Bildmodellen und hoffen, damit die Lücke zu den proprietären Angeboten der Konkurrenz schließen zu können.

Im Vergleich zum Vorgänger, SDXL 0.9, versprechen die Entwickler hauptsächlich Verbesserungen an den Details der erzeugten Bilder. Auswirkungen soll das vor allem auf die Farbbrillanz und -genauigkeit haben. Auch wenn damit zwischen dem aktuellen und dem letzten Release relativ wenig ändert, ist das neue SDXL das erste offizielle öffentliche Release des mächtigeren Open-Source-Modells: Version 0.9, die Ende Juni 2023, war lediglich eine eingeschränkte Forschungsversion des Modells, nun lässt es sich auch lokal betreiben.

SDXL räumt mit klassischen Problemen auf

Neben der verbesserten Farbdarstellung soll das neue SDXL-Modell vor allem mit solchen Darstellungen besser zurechtkommen, die KI-Bildgeneratoren bislang noch häufig Probleme bereiten: Hände, Text und räumliche Arrangements. Während Midjourney und Co. bereits seit einiger Zeit auch Prompts mit wenig Text in beeindruckende Bilder umsetzten, bereitete dies dem SDXL-Vorgänger Stable Diffusion noch Probleme. Die Entwickler versprechen, nun brauche auch ihr Modell nur "wenige Worte, um komplexe, detaillierte und ästhetisch ansprechende Bilder zu erstellen". Auch das Sprachverständnis soll im Kontext besser funktionieren und etwa den roten Platz in Moskau ("The Red Square") von der geometrischen Form ("red square") unterscheiden können.

Neu ist auch der zweistufige Aufbau aus einem Basis-Modell, das auf 3,5 Milliarden Parametern basiert, und dem neuen Refiner, mit 6,6 Milliarden Parametern. Letzterer dient dazu, die Bildausgabe des Basis-Modells mit mehr Details anzureichern und Fehler zu korrigieren. SDXL erzeugt Bilder mit einer Auflösung von 1024x1024 Pixeln. Da es sich um ein quelloffenes Modell handelt, sind Stable-Diffusion-User nicht zwangsläufig auf die Rechenleistung von Clouddiensten angewiesen, sondern können das Modell auch lokal installieren. Laut Stability AI läuft SDXL auch auf Konsumenten-Hardware in Form von GPUs ab 8 GByte VRAM "effektiv".

Modelle einfacher anpassen

Große Fortschritte versprechen die Entwickler außerdem im Bereich des individuellen "Fine-Tunings" des Modells, die sich laut Ankündigung allerdings noch in der Beta-Version befinden. Mit dem Sprung auf Version 1.0 wird eben jene auch zur Standard-Engine für die API, mit der sich das Modell in eigene Anwendungen einbinden lässt – und deren Preise. Die Abrechnung funktioniert über Credits, derer 1000 derzeit 10 US-Dollar kosten. Das reicht laut Anbieter für rund 500 mit SDXL-generierte Bilder. Mehr Informationen liefert die Pricing-Seite des Entwicklers.

Weil es sich bei Stable Diffusion XL um ein quelloffenes Modell handelt – sowohl das Basis-Modell als auch der Refiner stehen bei Hugging Face zur Verfügung – gibt es auch eine Reihe von Webseiten, über die man das Modell einsetzen kann. SDXL lässt sich etwa bei Clipdrop, einem Webportal der Entwickler, austesten, dort allerdings mit einer Warteschlange.

