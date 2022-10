Anfang September stehe ich auf dem Deck eines Schiffes in Berlin und eine Bekannte aus Indien erzählt mir von der Midjourney-Obsession ihrer Mutter. Sie erstellt Grafiken, in denen sie Kunstwerke remixt, und teilt sie dann mit ihren Freundinnen. Der Text-zu-Bild-Generator ist dort in der Masse angekommen.

Midjourney, DALL-E 2 und Stable Diffusion nennen sich die Tools, die aus Texten binnen Sekunden mal originelle, mal weniger gute Grafiken erstellen.

Fünfzehn Stunden später tippe ich "A Giant Donut, Cronenberg, Body Horror" in das Eingabefeld von DALL-E 2. Es entsteht eine Reihe köstlicher Grafiken von Wesen, die halb Mensch, halb Donut sind. Praktisch, jetzt brauche ich keine Illustratorin mehr für diese Kolumne. ;)

Verordnete Diversität für KI-Bildgeneratoren?

Als ich dieselbe Query in Midjourney eingebe, um die Ergebnisse der Plattformen miteinander zu vergleichen, erscheint plötzlich eine Warnmeldung auf meinem Bildschirm: "Der Ausdruck 'Body-Horror' ist verboten." Im Code of Conduct von Midjourney steht ganz oben "Don’t be a jerk". Darauf verlässt man sich natürlich nicht, sondern sorgt mithilfe von gesperrten Begriffen dafür, dass bestimmte Inhalte gar nicht erst generiert werden können.

Die Unternehmen wollen keine Risiken eingehen, deshalb entwerfen sie digitale Werkzeuge, die eine vielfältige Gesellschaft ohne Gewalt, Nacktheit und Hass zeigen sollen. Das klingt auf den ersten Blick erstrebenswert, bedeutet im selben Atemzug aber auch eine Welt ohne weibliche Nippel, ohne politische Satire, ohne Kunstwerke, die Gewalt zeigen. Das ist der Preis, den wir aktuell für die Filter zahlen. Die Text-zu-Bild-Generatoren reichen zwar noch nicht ganz an den geübten Umgang mit Photoshop und Co., doch sie bringen etwas anderes mit sich: Die neue Dimension ist nicht die Qualität, sondern die schiere Quantität an Bildern, die binnen Sekunden erzeugt werden können. Die Vorstellung, dass diese Tools in den Händen von Trollen landen, die Propaganda verbreiten, ist beängstigend.

Nach etwas Experimentierzeit fällt mir tatsächlich auf, dass die generierten Bilder viel mehr Diversität aufweisen als die Realität. Ärzte-, Lehrer- und Feuerwehrteams sind viel weiblicher und kulturell durchmischter als auf den Bildern der Stockfoto-Plattformen, in den Suchmaschinen und der analogen Welt. Das kommt daher, dass Tools wie DALL-E 2 eine eingebaute Bias-Reduktion haben, sprich: Sie erzeugen künstliche Diversität in den Bildern. Ich frage mich, ob die Firmen das aus Überzeugung oder aus Angst vor negativer Presse machen. Am Ende ist die Antwort vielleicht auch gar nicht so wichtig, denn Tatsache ist, dass Sprache und Bilder die Realität formen und beeinflussen. Wenn mir der Begriff "CEO" nicht Bilder von vier weißen, mittelalten Männern ausspuckt, dann finde ich das erst mal positiv.

Mit der KI die Stadt der Träume entwerfen

Ein Freund hat Fotos der grauen Kreuzberger Straßen gemacht und mithilfe von DALL-E 2 den Asphalt und die Autos durch Grünflächen ersetzt. Er nutzt die Werkzeuge, um sich eine andere Gesellschaft vorzustellen. Ich denke an partizipative Stadtplanung, die nicht textbasiert ist, sondern voll von Bildern, in denen Menschen die Städte ihrer Träume entwerfen. Auch gibt es Menschen, die sich in gängigen Videospielen, Filmen und Grafiken im Netz nicht repräsentiert fühlen. Mit den Bildgeneratoren können sie zeigen, was alles möglich ist. So haben diese Tools das Potenzial, Repräsentationen, zumindest im Digitalen, zu verbessern.

Die Generatoren sind wie ein umgekehrter Rohrschachtest. Sie geben Einblick in die Psyche der Menschen und eröffnen Raum für Kreativität. Gefahren, die eine Demokratisierung der Werkzeuge mit sich bringt, wird unsere Gesellschaft meistern – denn nach jetzigem Stand reihen sich DALL-E 2, Midjourney und Co. bestenfalls in das Angebot von Stockfotos und billigen Grafik-Hilfskräften ein. Noch ist das der Fall, denn die Technologie steht am Anfang. Bis die Tools wirklich mehr können, lese ich fleißig Kolumnen, die das Ende der Kunst durch Bildgeneratoren diskutieren.

(jle)