Ein Roboter macht selbstständig ästhetische Fotos

Ein Roboter erkundet selbstständig unbekannte Räume und findet durch Reinforcement Learning den optimalen Punkt für einen guten Schnappschuss.

Lesezeit: 5 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 9 Beiträge

(Bild: MheePanda/Shutterstock.com)

Von
  • Wolfgang Stieler

Forschende der Cornell University haben eine Software entwickelt, die einen Roboter dazu befähigt, von unbekannten Räumen die ästhetisch bestmöglichen Fotos zu schießen. Um das zu tun, fährt der Roboter in den Räumen herum und sucht mit Hilfe von Reinforcement Learning den optimalen Punkt für seinen Schnappschuss. Technische Einzelheiten des Systems, das die Gruppe erstmals auf der International Conference on Intelligent Robots and Systems im Herbst 2021 vorstellte, beschreiben Hadi AlZayer, Hubert Lin und Kavita Bala in einem Preprint Paper.

AutoPhoto, so der Name des Systems, könnte eingesetzt werden, um vollautomatisch Innenaufnahmen von Häusern, die zum Verkauf stehen, oder von freien Mietwohnungen zu machen. Langfristig ermöglicht die Technologie auch, dass Roboter entlegene oder gefährliche Orte, von fernen Planeten bis hin zu Kriegsgebieten, selbstständig durchqueren und dokumentieren.

Die Aufzählung möglicher Anwendungen dokumentiert zugleich jedoch das Dilemma dieser Art von Forschung: Technisch ist die Arbeit faszinierend, denn um sein Ziel zu erreichen, muss der Roboter zunächst mal ein mathematisches Modell von ästhetisch hochwertigen Fotos kennen – und er muss eine Strategie entwickeln, um in einer unbekannten Umgebung solche hochwertigen Fotos zu produzieren.

Beide Probleme berühren sehr grundsätzliche Fragen, die eng mit menschlicher Ästhetik und Kreativität zusammenhängen: Was ist schön? Wie erziele ich eine gute Komposition in meinen Bildern? Sie sind aber nicht wirklich gut erforscht. Denn selbst wenn es gelänge, Software beizubringen, was ein gutes Foto ist, und wie man es schießt – die Automatik mancher Smartphones ist schon recht nah daran – muss man vorsichtig sein, den Usern nicht alles aus der Hand zu nehmen, weil sie dann kein Erfolgserlebnis mehr haben.

Ganz so einfach ist die Sache zudem nicht: Grundsätzlich kann man zwar beispielsweise ein neuronales Netz darauf trainieren, Fotos zu finden, die nach klassischen Kompositionsregeln gut sind, wie Rossano Schifanella von der Universität Turin und Kollegen das 2015 gezeigt haben. Die "Ground Truth", die Bewertung eines Fotos als ästhetisch oder professionell, ist aber nicht objektiv. Manche Fotografen verstoßen – in manchen Fällen – sogar bewusst gegen diese Regeln. Ähnliche Probleme treten auf, wenn man als Trainingsgrundlage von Usern hoch bewertete Fotos nimmt: Eine so optimierte Software bewertet dann nur Fotos als gut, die diesem Massengeschmack entsprechen.

Der Informatiker Appu Shaji entwickelte für die Foto-Plattform Eyem ein Verfahren, das diese Probleme umgehen sollte. Seine Idee: dem neuronalen Netz große Mengen von jeweils drei ähnlichen Fotos vorzulegen – zum Beispiel drei Porträts einer Frau. Zwei dieser Fotos haben menschliche Experten als ästhetisch besonders gut bewertet, eines als bestenfalls mittelmäßig. Die Software lernt, was die guten Bilder gemeinsam haben und was sie von dem schlechten Bild unterscheidet. Mathematisch formuliert ist das die Suche einer Repräsentation der Bilder, in der die berechnete Distanz zwischen den beiden guten Fotos klein, die Distanz der beiden guten Bilder zu einem ähnlichen, schlechten Foto aber sehr groß ist. Die Software soll interessante Fotos aus der Community prominent präsentieren und damit potenzielle Käufer für diese Fotos anlocken. Das funktioniert allerdings nur auf einer technischen Ebene. Der wirtschaftliche Durchbruch blieb bislang aus.

Das von AutoPhoto gelernte Ästhetik-Modell ist nicht ganz so differenziert, hat sich aber als robust und schnell genug erwiesen: Es verwendet Bilderpaare, die sich leicht unterscheiden, in dem sie unterschiedlich beschnitten werden. Bislang hatte allerdings noch niemand dieses Modell mit einem echten, autonomen Roboter kombiniert, der sich selbstständig in einem neuen Raum zurechtfindet.

Mehr von MIT Technology Review Mehr von MIT Technology Review

Um dem Roboter das zu ermöglichen, verwendeten die Forschenden Reinforcement Learning. Ausgehend von verschiedenen Basisstrategien experimentiert der Roboter dabei, um das optimale Foto zu finden. Aus Versuch und Irrtum lernt er schließlich die beste Vorgehensweise. Nach erfolgreichen Trainingsläufen in der Simulation, bei denen der AutoPhoto-Algorithmus Dutzende von 3D-Fotos von Innenraumszenen scannte und die besten Kompositionswinkel korrekt auswählte, montierte das Cornell-Team sein AutoPhoto-System und eine Kamera auf einen autonome Roboter-Plattform von Clearpath und ließ ihn in einem Gemeinschaftsraum laufen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die Aufnahmen von AutoPhoto aus dem Demo-Video (siehe oben) zeigen Bild für Bild, wie der Roboter seine Umgebung erkundet. Im ersten Anlauf fotografierte der Roboter Wände aus der Nähe, ein Treppenhaus am Bildrand oder einen Mülleimer. Mit jeder weiteren Einstellung erkennt man jedoch, wie das System sich in die richtige Position bringt, um den Raum am besten zu erfassen. Sobald AutoPhoto ein Foto aufgenommen hat, das von seinem ästhetischen Modell als kompositorisch sinnvoll eingestuft wird, speichert er es ab und macht sich daran, weitere Bereiche des Raums zu dokumentieren. Im nächsten Schritt wollen die Forschenden das Prinzip auch auf Szenen im Freien anwenden.

(wst)