KI soll gesprochene Sprache besser als Menschen erkennen können

"Wie bitte?" Auch Menschen fällt es nicht immer leicht, einem Gespräch zu folgen. Ein KI-System aus Karlsruhe soll es mit niedrigerer Fehlerrate können.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 23 Beiträge

(Bild: KIT)

Von
  • Oliver Bünte

Forscher des Karlsruher Instituts für Technologie (KIT) und der Firma KITES, einer Ausgründung des KIT, haben nach eigenen Angaben ein System mit Künstlicher Intelligenz (KI) entwickelt, das gesprochene Sprache besser erkennen kann als Menschen. Die menschliche Fehlerrate liege dabei gemeinhin bei 5,5 Prozent, während das KI-System 5 Prozent erreiche, heißt es in einer Mitteilung des KIT vom Dienstag.

Die Erkennung von spontan gesprochener Sprache ist eine große Herausforderung: Unterbrechungen, Stotterer und Verzögerungslaute wie "äh" und "hm" sowie eine undeutliche Aussprache müssen bei der Erkennung von Sprache berücksichtigt werden. Das System des KIT und der Firma KITES soll genau dies leisten können, erläutert Alex Waibel, Professor für Informatik am KIT. Wie aus dem Paper "Super-Human Perfomance in Online Low-latency Recognition of Conversional Speech" hervorgeht, erkennt das KI-System ein Gespräch fehlerfreier als Menschen und schneller als andere bereits existierende Systeme. So erreiche das KI-System des KIT nach dem international anerkannten Switchboard-Benchmark-Test für Spracherkennung eine Fehlerrate von 5 Prozent, Menschen dagegen eine höhere von 5,5 Prozent. Die Latenz zwischen dem gesprochenen Wort und der Erkennung liege je nach Konfiguration des Systems bei minimal einer Sekunde, heißt es.

Waibel, der mit dem "Lecture Translator" einen automatischen Live-Übersetzer entwickelt hat, sieht das neue KI-Erkennungssystem als großen Schritt an. Bereits seit 2012 wird der "Lecture Translator" bei Universitätsvorlesungen des KIT zur Übersetzung vom Deutschen ins Englische genutzt, damit ausländische Studierende der Vorlesung besser folgen können. Dabei sei nicht nur eine genaue Spracherkennungsleistung für eine korrekte Übersetzung wichtig, sondern auch, dass diese mit möglichst geringer Verzögerung erfolgt, damit die Studierenden der Vorlesung besser folgen können.

"Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlichen Bedingungen", betont Waibel mit Blick auf das KI-System. Inhalte oder Zusammenhänge kann es nicht verstehen. Er sieht das KI-Erkennungssystem aber als einen Baustein an, auf denen Dialog-, Übersetzungs- und andere Module aufsetzen können, damit sprachliche Interaktionen in höherer Genauigkeit und Geschwindigkeit erzielt werden können.

Das Karlsruher Institut für Technologie gehört als Technische Universität seit 2019 zu den zehn Exzellenzuniversitäten in Deutschland. Sie ist außerdem nationales Forschungszentrum der Helmholtz-Gesellschaft. Das KIT beschäftigt sich maßgeblich mit Themen rund um Energie, Mobilität und Information.

(olb)