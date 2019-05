Die Realität nähert sich immer mehr dem ausgedachten Babelfisch von Douglas Adams an: Das neue Google-Forschungsprojekt Translatotron überträgt gesprochene Wörter ohne Umwege von einer in die andere Sprache. Im Unterschied zu anderen Techniken verzichtet das System auf übliche Zwischenschritte – das Dolmetschen soll daher schneller funktionieren. Zudem soll die gesprochene Sprache natürlicher klingen.

Normalerweise passiert eine maschinelle Übersetzung in nachfolgenden Einzelschritten: Gesprochene Sprache wird zunächst in Text umgewandelt (Speech-to-Text, STT), der dann maschinell übersetzt wird. Abschließend wird das Ergebnis wieder in Sprache umgewandelt (Text-to-Speech, TTS). Solche kaskadierten Systeme funktioniert inzwischen zwar ganz gut. Doch perfekt sind sie nicht, denn in den einzelnen Verarbeitungsstufen passieren kleine Fehler.

Klingt gut!

Translatotron hingegen übersetzt Sprache direkt. Dafür nutzt es ein Sequence-to-Sequence-Modell, das Spektrogramme übersetzt. Die Sprachausgabe besorgt dann ein Vocoder. Durch die Integration eines Encoder-Netzwerks soll Translatotron zudem die Stimmcharakteristika in der übersetzten Version beibehalten. Dadurch klingt die übersetzte Sprache natürlicher und flüssiger als bei anderen Systemen. Im AI Blog hat Google einige Audio-Beispiele veröffentlicht; dort sind auch technische Details zu dem System zu finden.

Noch ist Translatotron nur ein Experiment, dem eine jahrelange Vorarbeit vorausgegangen ist. Beim BLEU-Score schneidet Translatotron etwas schlechter ab als konventionelle Systeme. Doch "wir haben die Machbarkeit einer Direktübersetzung von Sprache demonstriert", schreibt das Entwicklerteam. Bis Translatotron als fertiges Produkt den multilingualen Austausch erleichtert, wird es aber noch etwas dauern. (dbe)