Bilderkennung hilft Gehörlosen

US-Forscher haben das erste Lexikon für Gebärdensprache entwickelt, das sich mittels Zeichen durchsuchen lässt.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Von
  • Jennifer Chu

Zweisprachige Wörterbücher sind keine Einbahnstraße: Man sucht sich darin ein Wort auf Deutsch und erhält dann beispielsweise das spanische Äquivalent, kann aber auch umgekehrt nachschlagen. Gebärdensprachlexika übersetzen jedoch jeweils nur vom geschriebenen Wort in die passenden Gebärden. Das kann schnell sehr frustrierend sein, insbesondere für Eltern tauber Kinder, die bislang unbekannte Gesten verstehen wollen. Für Hörbehinderte wird es dadurch außerdem unmöglich, online mit Normalhörigen über ihre Muttersprache zu kommunizieren – sie müssen tippen.

Forscher an der Boston University (BU) arbeiten deshalb derzeit an einem durchsuchbaren elektronischen Wörterbuch der Gebärdensprache, bei dem der Benutzer eine Gebärde über die Kamera seines Laptops eingeben kann.

"Wenn man beispielsweise bei YouTube einige Gebärden sieht, muss man dann in geschriebener Sprache danach suchen", sagt Stan Sclaroff, Professor für Computerwissenschaften an der BU. Das sei in etwa so, als würde man nach spanischen Texten fahnden, indem man die englische Übersetzung eingebe. "Das ist unnatürlich und außerdem ungerecht."

Sclaroff entwickelt sein Wörterbuch in Zusammenarbeit mit Carol Neidle, Professorin für Linguistik an der BU und Vassilis Athitsos vom Institut für Computer- und Ingenieurwissenschaften der University of Texas in Arlington. Sobald ein Nutzer eine Gebärde eingegeben hat, wird sie von der Software analysiert – sie zeigt daraufhin die fünf bestmöglichen Treffer und ihre Bedeutungen.

"Die Erkennung von Gebärden ist heute auf einem Niveau, auf dem die Spracherkennung vor 20 Jahren war", sagt Thad Starner, Leiter der "Contextual Computing Group" am Georgia Institute of Technology. Starners Gruppe arbeitet an einer Gebärdenerkennungssoftware für Kinder, verwendet dazu allerdings mit Sensoren bepackte Datenhandschuhe, um die Handbewegungen zu erfassen. Er und seine Studenten haben Spiele geschaffen, mit denen hörbehinderte Kinder, die die Handschuhe tragen, die Gebärdensprache erlernen können. Ein Computer wertet dabei die Handbewegungen aus und geht stets erst dann zur nächsten Übung über, wenn das Kind eine Gebärde genau beherrscht.

Im Gegensatz zu Starners Arbeit forschen Sclaroff und Neidle an einem sensorlosen System, das von jedem Nutzer mit einer Kamera und einer Internetverbindung genutzt werden kann. So soll das Erlernen der Gebärdensprache für fast jeden möglich werden – und auch die Interaktion in ihr. Der Ansatz ist bislang einzigartig im Forschungsfeld der Gebärdenspracherkennung – im Bereich der Bilderkennung sowieso.

"Man braucht dazu viel Prozessorleistung. Außerdem ist die Gebärdensprache bei unterschiedlicher Qualität der Videoaufzeichnung schwer für den Computer zu identifizieren", meint Starner. Umso hoffnungsfroher ist er: "Wenn das Projekt funktioniert, wäre das sehr cool – etwa dann, wenn man so das Web endlich mit Gebärden durchsuchen könnte."

Um die Herausforderung zu meistern, bat das BU-Team mehrere Gebärdenmuttersprachler in ein Studio. Jeder musste einzeln 3000 Gebärden der klassischen amerikanischen Gebärdensprache (American Sign Language, ASL) in eine Kamera vorführen. Dabei nahmen vier Hochgeschwindigkeitskameras mit hoher Auflösung das Bild von vorne und seitlich auf, außerdem die jeweiligen Gesichtsausdrücke. Laut Neidle sind Lächeln, Stirnrunzeln oder erhobene Augenbrauen bei ASL-Anwendern ein wichtiges Zeichen, weil sie die Bedeutung einer Gebärde unterstreichen.

Nachdem die Bilddaten im Kasten waren, untersuchten Neidle und ihre Studenten sie, markierten Anfang und Ende jeder Gebärde und identifizierten ihre Untereinheiten, die den Phonemen der englischen Sprache ähneln. Parallel nutzte Sclaroff die Bildinformationen, um Algorithmen zu entwickeln, die beispielsweise zwischen den Händen des Gebärdenanwenders und dem Hintergrund unterscheiden oder dessen Handposition, die Form und ihre Bewegungsmuster erkennen kann. Da Gebärden oftmals leicht anders vollführt werden, musste das Team das Vorgehen unterschiedlicher Personen miteinander vergleichen – etwa die Gebärden von Personen, die mit Gebärdensprache aufwuchsen und solcher, die sie erst später erlernten. Auf diese Art soll dem Computer eine Vielfalt beigebracht werden, die die Unterscheidung erleichtert.

Die Hauptherausforderung besteht in nächster Zeit nun darin, das System auf schwer zu kontrollierende Faktoren auf Seiten des Endanwenders vorzubereiten. Beispielsweise könnte die Kamera eines Laptops ja eine schlechtere Bildqualität haben. Auch ist der Hintergrund oft weniger leicht herauszuheben, weil es sich nicht um eine kontrollierte Studioumgebung handelt. Die Software muss außerdem Anpassungen für unterschiedliche Kleidung und unterschiedliche Hauttöne vornehmen. Sollte so beispielsweise die Websuche zuverlässig funktionieren, wäre das schon ein riesiger Fortschritt. "Daran arbeiten wir", sagt Neidle. (bsc)