Sprachtechnik mit KI: Was synthetische Stimmen leisten

KI-Verfahren für die Sprachtechnik machen Fortschritte. Inzwischen lassen sich synthetische Stimmen nach dem Vorbild der Stimme einer echten Person anfertigen.

Lesezeit: 16 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag
,
Von
  • Dorothee Wiegand
Inhaltsverzeichnis

Von Montag bis Freitag liefert der News-Podcast "Kurz informiert" von heise online die wichtigsten IT- und Tech-News. Die Stimme in den dreiminütigen Sendungen ist regelmäßigen Hörern bestens vertraut: Isabel Grünewald spricht die Kurznachrichten mit ihrer charakteristischen Sprachmelodie und ihrer klaren und sympathischen Stimme. Mitte September 2022 bekam sie Verstärkung durch eine mithilfe von KI erzeugte künstliche Sprecherkollegin. Rund 2,5 Stunden Audiomaterial, das Grünewald für das Projekt aufgezeichnet hatte, waren das Ausgangsmaterial. Daraus generierten Sprachspezialisten von Aflorithmic Labs die neue, synthetische Stimme, deren Charakteristik möglichst dicht am Vorbild sein sollte.

Matthias Lehmann, Chief Operating Officer des auf Audioproduktionen spezialisierten Start-ups, erklärt: "Wir haben Textschnipsel und Satzfragmente verwendet, die in den Nachrichten bei heise online häufig vorkommen." Die 2,5 Stunden Audiomaterial waren dabei wenig im Vergleich zu dem, was etwa für kommerzielle synthetische Stimmen verwendet wird. "Das können bis zu 40 Stunden sein", erklärt Lehmann, der betont, dass das Projekt mit heise online bisher ein reines Demo-Projekt sei: "Wir wussten, dass es noch nicht perfekt klingen würde."

Mehr zu Künstlicher Intelligenz

Auf GitHub findet man bereits allerlei Open-Source-Systeme, mit denen sich eine synthetische Stimme im heimischen Bastelprojekt erzeugen lässt. Traditionell heißt dieser Bereich der Sprachtechnik "Text-to-Speech", kurz: TTS. Mit Programmierprojekten wie Larynx (Download) oder Mimic3 (Download) können Anwender mit ausreichend Python-Kenntnissen ein TTS-Modell nach dem Vorbild der eigenen Stimme erzeugen. Dessen Qualität steht und fällt mit der Sorgfalt beim Training, das je nach verwendeter Hardware mehrere Tage bis Wochen dauern kann.