Transkriptionsdienste im Test: Audioaufnahmen in Text wandeln

Webdienste mit künstlicher Intelligenz erkennen deutsche und englische Rede ohne aufwendiges Training. Damit kann man sich ganz auf das Gespräch konzentrieren.

Lesezeit: 15 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 8 Beiträge

(Bild: Thorsten Hübner)

Von
  • André Kramer
Inhaltsverzeichnis

Transkriptionsdienste wandeln gesprochene Alltagssprache in lesbaren Text. Mit Methoden maschinellen Lernens funktioniert das mittlerweile sprecherunabhängig, das heißt ohne vorheriges Training. Das bietet deutlich mehr Freiheit als der frühere Ansatz, bei dem die eingerichtete Software fest an einen Sprecher gebunden war und somit ausschließlich als persönliche Diktatsoftware diente. Auf YouTube erscheinen bei jedem Video automatisch generierte Untertitel, die zwar gerade in Beiträgen mit vielen exotischen Fachbegriffen nicht immer akkurat sind, aber durchaus gut genug, um den Inhalt wiederzugeben. Sie helfen gehörlosen Zuschauern, aber auch solchen die gerade Kartoffelchips oder eine laute elektrische Zahnbürste im Mund haben.

Webdienste zur Audiotranskription sind für alle hilfreich, die regelmäßig Interviews oder Redebeiträge verschriftlichen. Die Vision der Hersteller: Man hat immer den Audio-Recorder auf dem Smartphone bereit, schickt die Aufnahme im WAV- oder MP3-Format durch die KI auf den Server des Dienstes der Wahl und lädt sich nach kurzer Wartezeit den lupenrein lesbaren Text herunter. Verglichen mit digitalen Assistenten sollen sie besser mit komplexen Themen zurechtkommen. Siri und Alexa geht es da eher wie jemandem mit Fremdsprachenkenntnissen aus der Schule: Für Standardsituationen reicht es, aber bei freier Rede ist schnell der Ofen aus.

Sechs Webdienste versprechen deutschsprachige Audioaufnahmen zuverlässig in editierbaren Text zu verwandeln: Amberscript, Audext, f4x, Happyscribe, Trint und Wreally transcribe.