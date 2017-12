(Bild: dpa, Jussi Nukari)

Forscher von Google und der University of California haben mit Tacotron 2 eine Infrastruktur aus neuronalen Netzen entwickelt, die Text in natürlich klingende Sprachausgabe verwandelt.

Unter dem Namen Tacotron 2 haben Sprachsynthese-Forscher von Google einen neuen Ansatz zur Umwandlung von Text in gesprochene Sprache entwickelt und in einem wissenschaftlichen Paper (PDF) vorgestellt. Zum Einsatz kommt das neuronale Netzwerk namens WaveNet, das bereits in Google Assistant eingesetzt wird; neu ist die Art der Daten, mit denen es gefüttert wird.

Mel-Spektogramm und WaveNet

Tacotron 2 verwandelt die eingegebenen Texte im ersten Schritt in ein Tonhöhendiagramm (Mel-Spektogramm). Dabei berücksichtigt es unter anderem die Position der Wörter im Satz und berechnet jeweils Wahrscheinlichkeiten für mögliche Aussprache. Dieses Spektogramm nutzt WaveNet, um daraus Töne zu generieren. Die Forscher berichten, durch die Wahl von Mel-Spektogrammen als Zwischenstufe den Verlust im Vergleich zu anderen Darstellungen zu verringern. Trainiert wurde mit einem Datensatz aus 24 Stunden Tonmaterial, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde.

Zur Messung der Qualität der generierten Audiodaten ließen die Forscher 100 zufällig ausgewählte Sequenzen von Menschen auf einer Skala von 1 bis 5 bewerten und generierten daraus den sogenannten "Mean Opinion Score" (MOS). Tacotron 2 erreichte einen Wert von 4,525 – echte menschliche Sprachaufnahmen erreichen einen Wert von 4,58.

Neben dem Paper veröffentlichten die Forscher auch Tondateien, die Tacotron 2 auf Basis von ihm unbekannten Texten erstellt hat. Die Beispiele zeigen, dass das System auch mit Tippfehlern umgehen kann und Wörter in den Kontext eines Satzes einordnet.

Bisher handelt es sich nur um eine wissenschaftliche Vorarbeit, die noch nicht in Google-Produkten verbaut ist. Zwischen der Veröffentlichung von WaveNet und dem Einsatz im Google-Assistant verging mehr als ein Jahr. (jam)