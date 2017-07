(Bild: dpa, Wang Zhao)

Wissenschaftler demonstrieren eine Technik, mit der Lippenbewegungen anhand von Audiodateien nachgestellt werden können. Ein Video zeigt, wie Barack Obama Wörter in den Mund gelegt werden.

Wissenschaftler der University of Washington haben ein Verfahren vorgestellt, mit dem Lippenbewegungen in einer Video-Aufzeichnung an einen alternativen Text angepasst werden können. So können Personen Wörter in den Mund gelegt werden, die sie an anderer Stelle geäußert haben, ohne dass es dem unbedarften Zuschauer auf Anhieb auffallen würde – zumindest in der Theorie.

In einem Video demonstrieren die Forscher das Resultat: Barack Obama spricht in ein und derselben Videoaufnahme mal über die Krankenversicherung, mal über Terroranschläge, mal über seine Einstellung zur US-amerikanischen Vielfalt. Die Lippenbewegungen passen sich dem Gesagten so an, dass das Resultat zumindest auf den ersten Blick glaubhaft erscheint. Ganz lebensecht sind die Fake-Speech-Videos zwar noch nicht, bei flüchtigem Hingucken aber trotzdem überzeugend.

Augen und Ohren überlisten



Ein LSTM-Netzwerk (Long short-term memory) wird zuerst mit Videomaterial gefüttert – für die Obama-Lippensynchronisierung waren es 14 Stunden. Es erlernt anhand der Aufzeichnungen die Mundbewegungen des Probanden. Algorithmen können dann aus einer Audiodatei plausible Lippenbewegungen formen und sie über die eigentlichen Gesichtsausdrücke einer Videoaufnahme legen.

In Zukunft ist den eigenen Augen also nur noch eingeschränkt zu glauben. Die Ohren sind ohnehin schon überlistet: Unternehmen wie Lyrebird haben eine Technik entwickelt, mit denen synthetische Stimmen ebenfalls anhand von Trainingsdaten erzeugt werden können – in Kombination könnten so komplette Fake-Reden erzeugt werden. (dahe)