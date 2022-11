Klon am Mikrofon Was synthetische Stimmen leisten KI-Verfahren für die Sprachtechnik machen gerade rasante Fortschritte. Inzwischen lassen sich synthetische Stimmen nach dem Vorbild der Stimme einer echten Person anfertigen – mit verblüffenden Ergebnissen. Die Kollegen von heise online probieren das gerade praktisch aus. Von Dorothee Wiegand

c't kompakt Synthetische Stimmen, für die echte Sprecher das Ausgangsmaterial liefern, lassen sich mit KI so gut trainieren, dass sie sehr nahe ans Vorbild herankommen.

Solche Kunststimmen sind bereits für Nachrichtensendungen und in Filmen im Einsatz, sie lassen sich lizenzieren und anschließend im Rahmen der Vertragsbedingungen beliebig verwenden.

Mit dem Einsatz der synthetischen Stimmen sind knifflige juristische Fragen verbunden, weshalb die Beteiligten Möglichkeiten und Grenzen der Nutzung sowie die Vergütung vertraglich festlegen sollten.

Von Montag bis Freitag liefert der News-Podcast „Kurz informiert“ von heise online die wichtigsten IT- und Tech-News. Die Stimme in den dreiminütigen Sendungen ist regelmäßigen Hörern bestens vertraut: Isabel Grünewald spricht die Kurznachrichten mit ihrer charakteristischen Sprachmelodie und ihrer klaren und sympathischen Stimme. Mitte September bekam sie Verstärkung durch eine mithilfe von KI erzeugte künstliche Sprecherkollegin. Rund 2,5 Stunden Audiomaterial, das Grünewald für das Projekt aufgezeichnet hatte, waren das Ausgangsmaterial. Daraus generierten Sprachspezialisten von Aflorithmic Labs die neue, synthetische Stimme, deren Charakteristik möglichst dicht am Vorbild sein sollte.

Matthias Lehmann, Chief Operating Officer des auf Audioproduktionen spezialisierten Start-ups, erklärt: „Wir haben Textschnipsel und Satzfragmente verwendet, die in den Nachrichten bei heise online häufig vorkommen.“ Die 2,5 Stunden Audiomaterial waren dabei wenig im Vergleich zu dem, was etwa für kommerzielle synthetische Stimmen verwendet wird. „Das können bis zu 40 Stunden sein“, erklärt Lehmann, der betont, dass das Projekt mit heise online bisher ein reines Demo-Projekt sei: „Wir wussten, dass es noch nicht perfekt klingen würde.“