Menü

Missing Link: Künstliche Intelligenz – der weite Weg zur Kunst aus der Maschine

Nachbauen, um zu verstehen

Inhaltsverzeichnis

Der Physik-Nobelpreisträger Richard P. Feynman hat gesagt: "Was ich nicht bauen kann, kann ich nicht verstehen". Wenn wir regelbasierte Systeme entwerfen, die Kunst hervorbringen, dann folgen wir diesem Impuls. Der Gedanke, mit dem Denken und der Kunst etwas genuin menschliches in Formeln und Algorithmen zu externalisieren – und somit nachzubauen und letztlich für eine maschinelle Verarbeitung verfügbar zu machen – findet sich bereits in Antike und Mittelalter.

Schon Aristoteles, Euklid und al-Chwarizmis beschrieben Regelsysteme, die mittels bloßer Manipulation mathematischer und logischer Symbole wahre Aussagen erzeugen konnten. Der mittelalterliche Philosoph Raimundus Lullus (1232-1316) entwarf mit seiner "Ars generalis ultima" eine Art logischen Mechanismus, mittels dessen man Erkenntnisse zu philosophischen und theologischen Fragen erlangen sollte.

Ramon Llulls Denkmaschine "Ars generalis ultima"

Der Ertrag von Lullus' Bemühungen und vergleichbaren Projekten blieb zwar weit hinter den hohen Erwartungen zurück. Auf breiter Front durchgesetzt hat sich allerdings die Auffassung einer mathematischen Physik, die alle Vorgänge im Universum als grundsätzlich regelhaft und somit berechenbar betrachtet. Und da der schöpferische Mensch Teil dieses berechenbaren Ganzen ist, müssten – so die heute weit verbreitete Annahme – auch schöpferische Prozesse, zumindest im Prinzip, Gegenstand von Modellen und Simulationen sein können.

Frühe Bemühungen um die Algorithmisierung von Kunst sind vor allem musikalischer Natur, denn Harmonien und Zeitintervalle sind offenkundig zahlenmäßige Verhältnisse und folglich berechenbar. Ein konkretes Beispiel für algorithmische Kompositionsregeln lieferte 1650 Athanasius Kircher: Er beschrieb ein kombinatorisches Verfahren, das musikalische Laien zur Komposition befähigte. Die Anzahl der in seiner Erfindung potentiell verborgenen Werke geht in die Millionen und macht die Notwendigkeit einer Auswahl deutlich – ein nach wie vor aktuelles Problem generativer Kunst.

Athanasius Kirchers Arca Musarithmica von 1650 sollte Laien zum Komponieren befähigen.

Als die erste Programmiererin, Ada Lovelace, 1842 die Idee eines schöpferischen Computers formulierte, dachte auch sie zunächst an Musik: Die von Charles Babbage entworfene Analytical Engine könne "mit ganz anderen Dingen als Zahlen arbeiten" und "ausgefeilte und wissenschaftlich fundierte Musikstücke jedweder Komplexität und Länge komponieren."

Als in der Nachkriegszeit real existierende Rechenanlagen erstmals auch für nicht-militärische Zwecke zur Verfügung standen, traten wenig später musikalische Anwendungen auf den Plan. Lejaren Hiller und Leonard Issacson präsentierten in den späten 1950er Jahren mit der Illiac Suite das erste von einem Computer komponierte Streichquartett.

Die Illiac Suite von 1957 ist das erste von einer Rechenanlage komponierte Streichquartett.

Konkrete Umsetzungen einer algorithmisch generierten Dichtung lieferten die französischen Autoren Raymond Queneau und Georges Perec. Queneau veröffentlichte 1961 seine Konstruktionsanleitung für "Cent mille milliards de poèmes" (Hunderttausend Milliarden Gedichte). Perecs experimentelles Hörspiel "die Maschine" von 1968 simuliert die Analyse und permutative Resynthese von Goethes "Wanderers Nachtlied" durch ein Computerprogramm.

Georges Perecs Hörspiel "Die Maschine" permutiert Varianten eines Gedichtes von Goethe.

In der frühen algorithmischen Kunst herrschten kombinatorische und pseudozufällige Methoden vor, die nur wenig mit dem zu tun haben, was wir heute unter KI verstehen. Zudem standen Top-Down Verfahren im Vordergrund, etwa die Formalisierung von Eigenschaften musikalischer und sprachlicher Strukturen zur anschließenden Verwendung in Produktionsregeln. Solche Vorgehensweisen sind eher der symbolischen KI zuzuordnen.

Die Verwendung von Algorithmen und Software zur Produktion von Kunst, Musik und Literatur wurde – oft jenseits einer breiteren öffentlichen Wahrnehmung – kontinuierlich weiter verfolgt. Der Kunsthistoriker Thomas Dreher hat mit seiner "Geschichte der Computerkunst" eine profunde Übersicht mit einem Schwerpunkt auf Bildender Kunst geliefert. Einen Überblick über Praktiken und Verfahren der algorithmischen Komposition gibt der Medienwissenschaftler Stefan Lattner. Eine Genealogie der algorithmischen Literatur findet sich auf der Webseite des ZKM in Karlsruhe.

Parallel zu einer an Symbolen orientierten KI verfolgen statistische Verfahren einen anderen Ansatz. Hier bestimmen nicht handgeschriebene Algorithmen, sondern die zum Lernen verwendeten Datensätze das Ergebnis. Was das Programm produziert, ist somit nicht mehr etwas dem Algorithmus Immanentes, sondern etwas Äußerliches, in den Trainingsdaten, beziehungsweise in den Bewertungsverfahren der Trainingssituation (Loss-Funktion) enthaltenes.

Ein entscheidender Durchbruch im Bereich lernfähiger Algorithmen wurde 1982 erzielt: Mit dem Backpropagation-Algorithmus stand endlich ein Verfahren zur Verfügung, mehrschichtige Neuronale Netze zu trainieren. Ein experimenteller Nachweis gelang Geoff Hinton 1986.

Ein künstliches neuronales Netz, so die Mathematikerin Hannah Fry in ihrem Buch "Hello World", kann man sich "als eine riesige mathematische Struktur vorstellen, mit jeder Menge Schaltern und Reglern. Man speist ein Bild an einem Ende ein, es fließt durch eine Struktur, und am anderen Ende kommt eine Vermutung heraus, was dieses Bild enthält. Eine Wahrscheinlichkeit für jede Kategorie: Hund oder nicht Hund."

Ein neuronales Netz erkennt ein Pluszeichen in einem Feld mit 3x3 Pixeln. Der Helligkeitswert jedes Pixels ist einem Neuron in der Eingabeschicht zugeordnet. Jedes Neuron der Ausgabeschicht ist einem Zeichen zugeordnet. Wenn das zum Pluszeichen gehörende Neuron der Ausgabeschicht den höchsten Wert hat, dann interpretiert das Netz die Eingabe als "plusartig".

Damit ein neuronales Netz diese Arbeit tun kann, ist ein Training notwendig. Das ist, grob gesagt, die Justierung der von Fry beschriebenen Regler, die fachsprachlich "Gewichte" heißen. Die geläufigste Spielart ist das überwachte Lernen. Dabei wird das untrainierte Netz mit konkreten Beispielen konfrontiert, etwa handgeschriebenen Buchstaben. Der Vergleich der vom Netz berechneten Ausgaben mit den bekannten korrekten Ergebnissen liefert ein Maß, wie stark das Netz bei jedem Beispiel falsch liegt. Aus diesem Maß berechnet die Ableitung der Fehlerfunktion (Backpropagation), welche Änderungen an den Gewichten nötig sind, damit das Netz ein bisschen weniger Fehler macht. Mit vielen kleinen Schritten dieser Art lernt es künftig auch Buchstaben zu entziffern, die es noch nie gesehen hat.

Für die KI-Kunst folgenreiche Durchbrüche erzielten um 2015 Pioniere wie Alexander Mordvintsev, Ian Goodfellow und Leon Gatys. Die zündende Idee bestand kurz gesagt darin, neuronale Netze "auf links zu drehen": Bis dahin wurden diese Netze vornehmlich zur Klassifikation von gegebenen Daten genutzt. Gatys und seinen Kollegen gelang es erstmals, Netze zu programmieren, die, sozusagen im Rückwärtsgang, Daten hervorbringen können, welche die zuvor antrainierten Klassifikationen bedienen.

Ein wirkmächtige Spielart von derart umgekrempelten Netzen sind die Generative Adversial Networks (GAN), 2014 vorgestellt von Ian Goodfellow. GANs kombinieren zwei miteinander konkurrierende neuronale Netzwerke, den Generator und den Diskriminator.

Der Diskriminator arbeitet nach Art eines zur Bilderkennung trainierten Netzwerkes. Er könnte anhand tausender Abbildungen darauf trainiert worden sein, zwischen Bildern zu unterscheiden, die Kaffeetassen enthalten, und solchen, die das nicht tun.

Der Generator produziert zunächst aus einer zufälligen Anfangskonfiguration heraus Rauschen. Der Diskriminator bewertet die Ausgaben des Generators und meldet diese Bewertungen als Fehlermaß an den Generator zurück. Durch schrittweise Feinjustierung seiner Gewichte abhängig von diesen Rückmeldungen produziert der Generator mit der Zeit Ausgaben, die den Anforderungen des Diskriminators immer mehr genügen. Im Ergebnis liefert der Generator nie gesehene Bilder, die eindeutig "kaffeetassenartig" sind. Mathematisch gesehen lernt ein GAN also Bilder zu produzieren, die ähnliche statistische Eigenschaften haben wie die im Training verwendeten Bilder.

Ausgehend von Goodfellows Arbeiten entwickelten Andrew Brook und Kollegen bei Google das BigGAN. Das fertig trainierte BigGAN produziert Bilder abhängig von 1128 Eingabeparametern. 1000 Parameter drücken die Zugehörigkeit zu ImageNet-Klassen aus: Kaffeetassen, Telefone, E-Gitarren, Armbanduhren, Fahrräder und so fort.

Ein Video des Medienkünstlers Mario Klingemann zeigt die vom BigGAN reproduzierten 1000 ImageNet-Klassen.

Das BigGAN kann man sich wie ein Bildmischpult mit 1000 Reglern vorstellen, welche etwa die "Kaffeetassen-" oder "Telefonartigkeit" des ausgegebenen Bildes steuern. 128 weitere Regler bestimmen Eigenschaften wie Farbe, Position und Orientierung. Googles BigGAN ist letztlich ein 1128-dimensionaler Raum, der Bilder erzeugt. Jeder Punkt in diesem Raum repräsentiert ein konkretes und reproduzierbares Bild.

Artbreeder (8 Bilder)

Die Webseite Artbreeder lädt zur Erforschung des 1128-dimensionalen Raum des BigGAN ein.

Die Webseite Artbreeder lädt zu Explorationen solch vieldimensionaler Bildräume ein. Die visuellen Phantasien des Artbreeders müssen einen Vergleich mit herausragenden Positionen zeitgenössischer Malerei und Skulptur nicht scheuen. Sie bringt einen unerschöpflichen Strom oft bedrohlich anmutender Bildwelten hervor. Neben einer deutlichen Tendenz zum Kitsch scheint es in der aktuellen algorithmischen Kunst auch einen Hang zum Morbiden zu geben. Der manifestiert sich auch in der von CJ Carr und Zack Zukowski programmierten KI Dadabots, die rund um die Uhr improvisierten Deathgrind produziert.