wir wenden kein „Speech-zu-Text“ Verfahren auf Grundlage des Audiosignals an, sondern setzen umgekehrt „Text-to-Speech“ ein, um aus dem Plenarprotokoll eine Audioversion zu erstellen. Die Waveform dieser generierten Audioversion wird dann visuell mit der Waveform des Originaltons verglichen.
https://de.openparliament.tv/faq
Hört sich nach wenig zukunftsfähiger ABM an, wobei allerdings gegenzurechnen wäre, ob die so durch Manpower ersetzte Computing-Power nicht auch dann teurer wäre, wenn man in sie investiert hätte.
Aber vielleicht steckt der Teufel ja mal wieder im Detail, dass die zwangsläufigen Fehler im Speech-to-Text sich nicht anhand der Transskripte rauskorrigieren lassen, weil die Transkripte nicht exakt korrekt sind.