Sprachsynthese: Kostenlose Dienste für Text-to-Speech im Vergleich

Sprachassistenten in Handys und smarten Lautsprechern plaudern mit synthetischen ­Stimmen, die sich oft kaum noch von menschlichen Stimmen unterscheiden lassen.

Lesezeit: 6 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag

(Bild: Rudolf A. Blaha)

Von
Inhaltsverzeichnis

Siri, Alexa und ihre Kollegen haben die Sprachsynthese populär gemacht. Die auch unter der Bezeichnung Text-to-Speech (TTS) bekannte Technik gibt es zwar schon lange, doch die künstlichen Stimmen aus dem Computer klangen bis vor ein paar Jahren monoton, oft abgehackt und eindeutig nach Roboter. Durch den Einsatz neuronaler Netze und Deep Learning hat die Sprachsynthese große Fortschritte gemacht. KI verleiht den Stimmen Rhythmus und Sprachmelodie. Insbesondere neu entwickelte englische TTS-Stimmen klingen verblüffend echt und menschlich.

Das Ausgangsmaterial für eine TTS-Stimme sind von Menschen gesprochene Sprachschnipsel – einzelne Wörter, Halbsätze und Sätze, häufig ohne Sinnzusammenhang. Dieses Audiomaterial wird in zum Teil sehr kleine Einheiten zerlegt, die später bei der Synthese in beliebiger Reihenfolge neu zusammengesetzt werden können. Die neueste Entwicklung: Nicht professionelle Sprecher liefern das Ausgangsmaterial, sondern es wird entweder aus öffentlichen Reden prominenter Personen erzeugt oder im Auftrag von Kunden aus von ihnen eingesprochenem Trainingsmaterial gewonnen.

Sprachsynthese-Programme für Privatanwender sind immer noch ein Nischenmarkt. Die meisten kommerziellen TTS-Programme für diese Zielgruppe wurden in den vergangenen Jahren nicht mehr weiterentwickelt. Wie weit die Technik heute schon ist, zeigen Angebote für Webseitenbetreiber und Entwickler viel besser. Für den folgenden Vergleichstest haben wir daher einen eher ungewöhnlichen Weg gewählt und uns Demos von Sprachsynthese-Anbietern angeschaut, mit denen man sich kostenlos Texte vorlesen oder Texteingaben in Audiodateien umwandeln lassen kann. Eine Bedingung zur Teilnahme: Die Programme sollten Texte mit einer Länge von mindestens 2000 Zeichen bearbeiten – so viel, wie auf ein bis zwei bedruckte DIN-A4-Seite passt. Das ist mit den Webdiensten NaturalReader, Notevibes, ttsMP3 und Voicepods möglich. NaturalReader gibt es sowohl online als auch zur lokalen Einrichtung auf einem PC. Außerdem mit dabei: Die Windows-Freeware Balabolka als Alternative, mit der sich Audiodateien lokal ablegen lassen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

  • Zugriff auf alle Inhalte von heise+
  • exklusive Tests, Ratgeber & Hintergründe: unabhängig, kritisch fundiert
  • c't, iX, Technology Review, Mac & i, Make, c't Fotografie direkt im Browser lesen
  • einmal anmelden – auf allen Geräten lesen - monatlich kündbar
  • erster Monat gratis, danach monatlich 9,95 €
  • Wöchentlicher Newsletter mit persönlichen Leseempfehlungen des Chefredakteurs
GRATIS-Monat beginnen Jetzt GRATIS-Monat beginnen Mehr Informationen zu heise+