KI entwirft optimale Prompts für Text-Bild-Generatoren

Die zunehmend beliebten KI-Algorithmen zur Generierung von Bildern benötigen passende Eingaben. Nun soll eine eigene KI dabei helfen, sie zu finden.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 16 Beiträge

Ein mit dem Bildgenerator Stable Diffusion generiertes Bild.

Von
  • Ben Schwan

(This article is also available in English)

Sie heißen DALL-E 2, Midjourney, Craiyon oder Stable Diffusion – und sie sind faszinierende Beispiele dafür, was mit Künstlicher Intelligenz (KI) beziehungsweise Maschinellem Lernen (ML) heute so alles möglich ist. Man gibt in diese Softwaresysteme einen kurzem Text in englischer Sprache, Prompt genannt, ein – und nach einigen Sekunden bis Minuten spucken sie dazu passende Bilder aus.

Heraus kommt oft Erstaunliches: Fotorealistische Grafiken nicht vorhandener Landschaften, Ölportraits, die so nicht einmal mit viel Fantasie entstanden wären oder einfach nur verrückte Kombinationen von Motiven, die eigentlich nicht zusammenpassen sollten. Wie gut die Systeme sind, zeigt sich schon daran, dass mancher Beobachter schon über das Ende der Kunst spekuliert.

Doch so unterhaltsam – und fast süchtig machend – die KI-basierten Text-Bild-Generatoren auch sind, die Bedienung ist nicht ganz leicht. Denn der Prompt muss schon so ausfallen, dass die KI ihn "versteht" und dann wirklich die passenden Bilder erzeugt. Das führt mittlerweile dazu, dass es von Nutzern geführte Datenbanken gibt, über die man sich inspirieren lassen kann. Sie führen dann die eingegebenen Prompts ebenso aus wie verschiedene andere Konfigurationsmerkmale. Ist "Hund, der wie eine Giraffe aussieht; Ölbild" etwa besser als "Giraffenhund als Ölbild"? Was versteht der Generator wie?

Da wäre es doch gut, wenn man sich von einer KI selbst helfen lassen könnte, die richtigen Prompts zu finden, was dann auch viel Rechen- und Wartezeit spart. Und tatsächlich gibt es solche Systeme bereits. Das Start-up Phraser hat eine Software entwickelt, die per Web erreichbar ist, und sogar bereits Anpassungen für verschiedene Text-Bild-Generatoren – aktuell DALL-E 2, Midjourney, Stable Diffusion, Disco Diffusion und Craiyon – enthält. Zur Prompt-Erstellung klickt man sich dafür durch ein einfaches Menüsystem.

So kann man unter verschiedenen Kunstarten auswählen, etwa Malerei, Foto oder 3D-Rendering. Anschließend gibt man einen ersten beschreibenden Satz ein, für den Phraser auch Beispiele gibt. Praktischerweise tauchen parallel dazu rechts stets Beispiele aus bereits generierten Bildern aus, so dass man seinen Prompt selbst anpassen kann. Schließlich lassen sich der Stil, die Farbgebung, Texturen, Auflösung, durch das Bild zu erzeugende Emotionen sowie sogar die Ära eines Bildes auswählen. Wie gut Phraser tatsächlich funktioniert, können bislang allerdings nur Nutzer mit einem sogenannten API-Zugang überprüfen – ohne den rückt das System den generierten Prompt nicht heraus, weil es üBer Stable Diffusion gleich selbst Bilder erzeugen kann.

Mehr von MIT Technology Review Mehr von MIT Technology Review

(bsc)