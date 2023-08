Microsoft hat SpeechX angekündigt – ein Text-to-Speech-Generator, der aus Audioaufnahmen künstliche Stimmen erzeugen, die gesprochenen Text bearbeiten und Hintergrundgeräusche entfernen kann. Wer beispielsweise etwas falsch ausgesprochen hat, soll SpeechX für eine nachträgliche Korrektur nutzen können. Dazu tippt man in dem Transkript lediglich den angepassten Text ein und lässt SpeechX diesen Teil mit der – zumindest in den Beispielen – kaum vom Original unterscheidbaren Stimme erzeugen. Das soll ohne vorheriges Stimmtraining direkt anhand der vorhandenen Audiospur möglich sein (Zero-shot TTS). Ebenso bringt das Modell die Möglichkeit, ganze Phrasen auszutauschen. In einem Beispiel wird aus einer Zahl eine ganz andere – der übrige Text bleibt gleich.

Außerdem lässt sich die Qualität der Tonspur verbessern, indem Störgeräusche wie Rauschen, Vogelgezwitscher oder Ähnliches automatisch entfernt werden. Auch störende Stimmen lassen sich der Studie und den Hörbeispielen zufolge entfernen – übrig bleiben beispielsweise eine isolierte weitere Stimme, ein Martinshorn und eine Schießerei.

SpeechX: Vom Text zu Audio (Bild: Microsoft)

SpeechX basiert auf Microsofts "Neural Codec Language Model". Das Modell nimmt sowohl Text als auch Sprache entgegen. Über einen Prompt steuert man die gewünschten Audiotransformationsaufgaben. Die Aufforderung kann als Spracheingabe, aber auch als Text erfolgen.

Baustein für weitere Forschung

Das Microsoft-Forscherteam rund um Xiaofei Wang hat über SpeechX ein Paper veröffentlicht, in welchem sie verschiedene Experimente vorstellen. Die Forscher sehen in ihrem Modell einen "wichtigen Schritt zu einheitlichen generativen Sprachmodellen". Zudem könne weitere Forschung auf ihrer Arbeit aufbauen und unter anderem die Robustheit des Modells verbessern.

(mack)