Inhaltsverzeichnis Spracherkennung und Transkription mit KI: Sprache in Text umwandeln mit Whisper Einrichtung unter Windows, Linux und macOS Virtuelle Umgebung einrichten Die erste Transkription Ausblick Artikel in c't 14/2023 lesen

Nur Wenige können in Sprechgeschwindigkeit tippen. Interviews, Podcasts oder die Sprache in Videos von Hand zu transkribieren, ist daher ein Knochenjob. Diverse Dienstleister bieten Transkriptionen an, allerdings haben zuverlässige Angebote ihren Preis. Hinzu kommt: Wer seine Audiodaten an einen Anbieter von Spracherkennung schickt, gibt damit eventuell vertrauliche Daten aus der Hand.

Seit September 2022 gibt es Whisper, eine kostenlos nutzbare Transkriptionssoftware des US-amerikanischen KI-Start-ups OpenAI, das mit dem KI-Chatbot ChatGPT Furore gemacht hat. Das Open-Source-Programm analysiert Audioaufzeichnungen und wandelt darin enthaltene Sprache in Textdateien um. Für die Einrichtung nutzen Sie die Kommandozeile.

Whisper beherrscht laut OpenAI 96 Sprachen, Deutsch ist demnach unter den fünf mit der geringsten Fehlerrate bei der Erkennung. Die Sprach-KI arbeitet sich mühelos durch minuten- bis stundenlange Aufzeichnungen, mithilfe der freien Multimediasoftware ffmpeg (Download) kann sie nahezu jedes Ton- oder Videoformat verarbeiten. Noch kann Whisper bei Aufnahmen mit mehreren Sprechern nicht zwischen den einzelnen Personen unterscheiden. Doch auch an dieser Aufgabe wird bereits getüftelt.