KI guckt Video

Der derzeitige Boom bei Künstlicher Intelligenz beruht unter anderem auf Fortschritten beim Erkennen der Inhalte von Standbildern. Doch Forscher wollen mehr: Jetzt versuchen sie, Maschinen das Verstehen von Videos beizubringen.

Lesezeit: 4 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Von
  • Will Knight
Inhaltsverzeichnis

Mittlerweile sind Computer in der Lage, eine Katze oder Ente auf einem Standbild zu identifizieren. Schon das ist keine einfache Aufgabe. Noch komplizierter aber wird es, wenn Künstliche Intelligenz (KI) erkennen soll, dass die Katze auf einem Roomba-Staubsauger herumfährt oder die Ente durch eine Küche jagt.

Vor diesem Hintergrund haben MIT und IBM Anfang Dezember eine riesige Datensammlung mit Videos veröffentlicht, in der die darin zu sehenden Aktivitäten detailliert beschrieben sind. Das Moments in Time Dataset enthält Schnipsel von jeweils drei Sekunden Länge, in denen von Angeln bis Breakdance alles Mögliche zu sehen ist.

Mehr Infos

"Viele Sachen in der Welt verändern sich von einer Sekunde auf die andere", sagt Aude Oliva, eine an dem Projekt beteiligte Forscherin am MIT. "Wenn man verstehen will, warum etwas passiert, bekommt man von Bewegungen viele Informationen, die in einem Einzelbild nicht erfasst sind."

Der aktuelle Boom bei KI wurde unter anderem durch Erfolge bei Bemühungen ausgelöst, die Inhalte von statischen Bildern zu erkennen. Dazu mussten tiefe neuronale Netze mit großen gekennzeichneten Datensammlungen trainiert werden.

Viele heutige KI-Systeme zur Interpretation von Video-Aufnahmen – auch solche für manche selbstfahrende Autos – identifizieren ebenfalls Objekte in statischen Bildern, anstatt laufende Aktivitäten zu interpretieren. Google etwa hat jetzt ein Werkzeug veröffentlicht, das im Rahmen seiner Cloud Platform Objekte in Videos erkennen kann. Auf der Plattform stehen bereits Lösungen für die Verarbeitung von Bildern, Audio und Text bereit.

Die nächste Herausforderung könnte darin liegen, Maschinen beizubringen, nicht nur die Inhalte eines Videos zu verstehen, sondern auch das darin gezeigte Geschehen. Dies verspricht Vorteile in der Praxis, etwa leistungsfähige neue Möglichkeiten zum Durchsuchen, Annotieren und Auswerten von Video-Aufnahmen. Ebenso könnten Roboter und autonome Autos dadurch ein besseres Verständnis vom Geschehen in der Welt um sie herum bekommen.

Tatsächlich ist das Projekt von MIT und IBM nur eines von vielen, das Fortschritte dabei bringen soll, wie gut Maschinen die physische Welt verstehen. So hat Google schon im vergangenen Jahr eine Sammlung von acht Millionen gekennzeichneten YouTube-Videos namens YouTube-8M veröffentlicht. Und auch Facebook entwickelt eine Datensammlung mit Aktivitäten auf Video.

Laut Olga Russakovsky, die als Assistant Professor an der Princeton University auf maschinelles Sehen spezialisiert ist, hat sich die Entwicklung von nützlichen Video-Datensammlungen bislang als schwierig erwiesen, weil sie mehr Speicherplatz und Rechenleistung erfordern als Standbilder. "Ich freue mich darauf, mit den neuen Daten zu experimentieren", sagt sie. "Die Länge von drei Sekunden ist prima – sie gibt zeitlichen Kontext, aber die Anforderungen an Speicher und Rechenleistung bleiben niedrig.“

Andere versuchen es mit kreativeren Ansätzen. Twenty Billion Neurons, ein Start-up aus Toronto und Berlin, hat eine individuelle Datensammlung erstellt, für die bezahlte Crowdsourcing-Mitarbeiter einfache Aufgaben erledigt haben. Außerdem nutzt das Unternehmen ein neuronales Netz, das speziell für die Verarbeitung von visuellen Informationen im Zeitverlauf ausgelegt ist, sagt Roland Memisevic, einer seiner Mitgründer.

"Mit anderen Datensammlungen trainierte Netze können erkennen, ob auf einem Video ein Fußballspiel oder eine Party zu sehen ist", erklärt Memisevic. "Unsere Netze erkennen, ob gerade jemand den Raum betreten hat."

Danny Gutfreund von IBM war an dem Projekt mit dem MIT beteiligt. Um Aktivitäten zu erkennen, sagt er, müssten Maschinen beispielsweise lernen, wann eine Person etwas tut, und dieses Wissen auf einen Fall übertragen können, in dem zum Beispiel ein Tier dasselbe macht. Fortschritte auf diesem als Transfer-Lernen bezeichneten Gebiet werden für die Zukunft der KI von großer Bedeutung sein. "Wir werden sehen, wie gut Maschinen dieses Transfer-Lernen, dieses Arbeiten mit Analogien beherrschen werden. Wir Menschen sind sehr gut darin", sagt er.

Auch Gutfreund geht davon aus, dass die Technologie großen Nutzen in der Praxis haben könnte. "Man könnte sie zum Beispiel in der Altenbetreuung einsetzen, wo sie erkennen würde, ob jemand gestürzt ist oder ob er seine Medikamente genommen hat", erklärt er. "Es könnte auch Geräte geben, die blinden Menschen helfen."

(sma)