Menü

Nvidia-KI generiert fotorealistische Videos

Eine KI aus Nvidias Forschungslabor erfindet fotorealistische Straßen und Gesichter – und zwar als Video ohne Sprünge. Die Vorlage sind Videos mit Markierungen.

Von
vorlesen Drucken Kommentare lesen 128 Beiträge
Nvidia KI generiert fotorealistische Videos

Die Struktur von Nvidias Generatornetzwerk: Es erzeugt zunächst in kleiner Auflösung Verschiebungen, neue Inhalte und eine Maske und verfeinert diese danach, um Bilder mit 2K-Auflösung zu berechnen.

(Bild: Video-to-Video Synthesis - Wang et al. )

Neuronale Netze können mit den richtigen Trainingsdaten fotorealistische Bilder berechnen. Die kreativen Generative Adversarial Networks (GAN) waren bisher aber auf einzelne Bilder beschränkt, da aufeinanderfolgende Bilder einer Sequenz immer deutlich anders aussahen. Setzt man daraus ein Video zusammen, springt das bei jedem Frame, was den Realismus zerstört. Ein Forschungsteam von Nvidia hat nun ein GAN gebaut, das flüssige Videos erzeugt.

Als Eingabe nutzt das Convolutional Network Videos, die markieren, in welchem Bereich welche Art von Inhalt zu sehen sein soll. Bei einer Straßenszene beispielsweise, wo die Straße ist, wo andere Autos zu sehen sein sollen und wo Häuser oder Bäume sein sollen. Aus denen berechnet es fotorealistische Einzelbilder.

Damit die von einem Frame zum nächsten nicht springen, übernimmt es den Inhalt des vorherigen Einzelbilds so weit wie möglich. Damit sich trotzdem alles korrekt bewegt, verschiebt es die Pixel aus dem vorherigen Bild an die Stellen, die sie im neuen Frame haben müssen. Waren Teile des Bilds zuvor verdeckt, erfindet es an den neu sichtbaren Stellen auch neue Inhalte. Das funktioniert erstaunlich gut und sorgt für flüssige Videos.

Nvidia hat das Netzwerk nicht nur mit Straßenszenen trainiert, sondern auch mit Tanzvideos und Interviews. Letztere funktionieren sogar so gut, dass man kaum Fehler findet. Folgendes Video zeigt die Beispiele in Bewegung:

Beispielvideo von Nvidia – Quelle: NVIDIA

Weitere Details zum Verfahren erklärt eine Seite in c't 20/2018. Das Paper von Nvidia gibt es bei Arxiv zum Download.

(pmk)

Anzeige