Rechner beschreiben Bilder

KI-Forscher feiern Erfolge bei der Formulierung von Bildbeschreibungen

Wissen | Hintergrund

Den meisten Menschen fällt es schwer, für Bilder eine aussagekräftige Beschreibung zu texten. Nun vermelden KI-Forscher bemerkenswerte Fortschritte dank neuronaler Netze, die ursprünglich zur Übersetzung von Fremdsprachen entwickelt wurden.

Wird ein Bild mit den Labels „Pizza“ und „Mensch“ versehen, fehlt die entscheidende Information: Isst der Mensch die Pizza, bereitet er sie zu oder serviert er sie? Nun haben KI-Forscher eine erfolgversprechende Methode entwickelt, um aus Bildern automatisch eine vollständige Beschreibung der dargestellten Szene abzuleiten. Den entscheidenden Impuls brachten neue Verfahren zur Lösung eines verwandten Problems: Bei der maschinellen Übersetzung erhoffen sich Forscher Verbesserungen durch die Kombination zweier sogenannter Recurrent Neural Networks (RNN). Ein solches System wurde gerade an der Universität von Montréal zur Englisch-Französisch-Übersetzung entwickelt.

Forscherkollegen wie Samy Bengio von Google griffen die Idee auf. Sie interpretierten die Bild-zu-Text-Umwandlung einfach als ein spezielles Übersetzungsproblem und lösten es mit einem ähnlichen Konstrukt: Dabei ersetzten sie das für die erste Fremdsprache zuständige RNN durch ein auf Bilderkennung spezialisiertes neuronales Netz, ein „Deep Convolutional Neural Network“. Dieses Konstrukt wurde darauf trainiert, eine sprachliche Beschreibung zu finden, die mit höchster Wahrscheinlichkeit zu einem bestimmten Bild passt, erklärt Google-Forscher Samy Bengio gegenüber c’t. Ähnliche Lösungsansätze präsentierten übrigens auch KI-Forscher der Suchmaschinenkonkurrenten Baidu und Microsoft sowie von den Universitäten Stanford, Berkeley und California. ...

Sie möchten wissen, wie es weitergeht?

Als c't-Plus-Abonnent gratis lesen

Anmelden als c't-Plus-Abonnent

weiterführende Links

Kommentare

Anzeige
Anzeige