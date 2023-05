Klicken, Ziehen, Loslassen, fertig, so einfach kann Bildbearbeitung sein. Forschende des Max-Planck-Instituts für Informatik, des Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA), des MIT CSAIL und der Universität Pennsylvania haben eine KI-unterstützte Bildbearbeitungsmethode vorgestellt, mit der sich Mimik, Pose, Perspektiven und weitere Eigenschaften auf Fotos flexibel mittels Drag & Drop steuern lassen. Während die Bearbeitung fotorealistischer Inhalte in Photoshop und anderen Programmen bisher viel Können verlangt hat, reicht es bei DragGAN, Start- und Endpunkte auf einem Foto zu markieren, um beispielsweise einen Mund zum Lächeln zu bringen, die Körperhaltung anzupassen, Kleidung zu verlängern oder die Perspektive zu drehen. Das GAN verfolgt die markierten Punkte und erzeugt Bilder, die den gewünschten Änderungen entsprechen – sofern die Bildinhalte den bisher trainierten Kategorien wie Menschen, Tiere, Landschaften oder Fahrzeugen entsprechen.

Mit Maskierungen lassen sich in DragGAN Bildregionen festlegen, die das GAN manipulieren darf. Im Beispiel sorgt das dafür, dass der Hund nur seinen Kopf dreht und nicht die gesamte Bildperspektive angepasst wird. (Bild: MPI für Informatik)

Die Zukunft von Photoshop & Co.?

"Da diese Manipulationen auf der gelernten generativen Bildvielfalt eines GAN durchgeführt werden, führen sie zu realistischen Ergebnissen, selbst bei schwierigen Szenarien wie der Halluzination verdeckter Inhalte und der Verformung von Formen, die konsequent der Steifigkeit des Objekts folgen", schreiben die Wissenschaftler in ihrer Veröffentlichung für die im August stattfindende Computergrafikmesse SIGGRAPH23, das Interessierte beispielsweise bei arXiv herunterladen können. Wie gut DragGAN tatsächlich funktioniert, kann man bisher nicht selbst ausprobieren, sondern lediglich Beispielvideos von der DragGAN-Webseite des Max-Planck-Instituts für Informatik anschauen:

Mit DragGAN lassen sich Posen von Tieren realistisch anpassen. (Quelle: MPI für Informatik)

Auch die Länge von Kleidung soll sich mit DragGAN fotorealistisch manipulieren lassen. (Quelle: MPI für Informatik)

Gesichtsausdrücke, Haare und Drehungen lassen sich ebenfalls anpassen, dabei unterstützt DragGAN Maskierungen, damit das GAN nur bestimmte Bildteile berücksichtigt. (Quelle: MPI für Informatik)

Laut einer Ankündigung auf der bisher nur rudimentären GitHub-Projektseite kündigt der Hauptautor Xingang Pan an, Quellcode für DragGAN im Juni veröffentlichen zu wollen. Wie viele andere Projekte nutzt DragGAN die für maschinelles Lernen optimierte Pythonbibliothek PyTorch. Zu den Hardware-Anforderungen ist bisher nichts bekannt. Die Autoren schreiben lediglich: "Dank der Effizienz unseres Ansatzes müssen die Nutzer nur wenige Sekunden warten und können die Bearbeitung fortsetzen, bis sie zufrieden sind." Noch befindet sich DragGAN in einem frühen Stadium, sodass die Qualität der Resultate trotz einer gewissen Extrapolationsfähigkeit derzeit von der Vielfalt der Trainingsdaten beeinflusst sei.

In der Regel soll DragGAN realistische Ergebnisse liefern, kann aber auch andere Inhalte halluzinieren. (Bild: MPI für Informatik)

(vza)