Computer, zum Diktat!

Die Spracherkennung ist salonfähig geworden

Spracherkennungsprogramme für den Computer gibt es schon geraume Zeit. Ärzte, Rechtsanwälte und andere Berufe mit speziellen Vokabularen benutzen IBM Via Voice oder Dragon Dictate bereits seit einigen Jahren erfolgreich. Allerdings war das Diktieren in den Computer bislang eher anstrengend. Dem ist nun nicht mehr so.

Vor 20 Jahren war es noch eine Sensation, wenn mit einer speziellen, 20.000 DM teuren Hardware-Steckkarte ein PC "Ja", "Nein" und die Zahlen von Null bis Neun verstehen und unterscheiden konnte. Der Plan, ihr mit einer Voicemailbox für Amateurfunk aufzubauen, scheiterte jedoch daran, dass niemand diese teure Steckkarte finanzieren wollte.

Diese Art der sprecherunabhängigen Spracherkennung beschränkt sich auch heute noch auf solch eindeutig unterscheidbare Werte. Und selbst da können ein so manche Telefoncomputer zur Verzweiflung bringen. Kann sich der Computer jedoch an einen einzelnen Sprecher gewöhnen, so klappt es mittlerweile mit der Spracherkennung deutlich besser.

Wärend die ersten Versionen solcher Spracherkennungssoftware noch erwarteten, dass man jedes Wort schön abgehackt und getrennt voneinander nacheinander diktieren und zu einem völlig unnatürlichen Sprachfluss wechseln musste, sind mit den heute hundertfach leistungsfähigeren CPUs ganz andere Dinge möglich geworden. Man kann ganz normale, vollständige Sätze sprechen. Im Gegenteil, die Software erkennt aus dem kompletten Satz sogar dessen mögliche Bedeutung besser, als wenn man nur einzelne Wörter ausspricht. Lediglich die Satzzeichen sind – wie beim normalen Diktieren ebenfalls üblich – explizit mit anzugeben.

Dragon Naturally Speaking (Bild: W.D.Roth)

Für geübte Zehn-Fingerschreiber mag das Diktieren möglicherweise nicht schneller gehen als das normale Abschreiben eines Textes, für den typischen Ein- oder Zwei-Finger-Schreiber ist es jedoch ein deutlicher Tempogewinn, da er nun nicht mehr zwischen Vorlage und Tastatur hin und her blicken muss. Auch Übersetzungen lassen sich so schneller eingeben, sofern diese nicht wörtlich zu machen sind.

Für das wirkliche 1:1-Abtippen einer Textvorlage wäre eine Texterkennung in Verbindung mit einem Scanner selbstverständlich die sinnvollere Lösung. Mit Omni Page 15 bietet der Hersteller Scansoft dafür auch eine der momentan besten Lösungen am Markt an. Allerdings hat Scansoft vor einiger Zeit auch den Spracherkennungssoftware-Hersteller Dragon Software aufgekauft.

Neben IBMs Via Voice, das auch von Scansoft angeboten wird, war Dragon Dictate jahrelang Marktführer bei Spracherkennungssoftware. Inzwischen heißt das Produkt Dragon Naturally Speaking, um anzudeuten, dass man ganz normal sprechen kann, um einen Text in den Computer zu diktieren. Es ist auch nicht mehr notwendig, stundenlang Übungstexte vorzulesen, um die Software in Gang zu bekommen: 15 Minuten reichen. Ebenso lang dauert die Installation – und dann noch etwa 30 Minuten für das Lernprogramm. Anschließend kann man sein erstes Diktat beginnen, und wider Erwarten schaut das Ergebnis anschließend nicht aus wie eine taiwanesische Bedienungsanleitung, sondern es ist relativ fehlerfrei – ähnlich der OCR-Texterkennung. Verbleibende Fehler sind allerdings tückisch und schwer zu sehen – so werden schon einmal aus Nagetieren die in Europa eher seltenen Nageltiere.

Natürlich hängt dies von der Art des Textes ab – so war es deutlich einfacher, diesen Text, Bio-Power macht den Hamster sauer oder Vorsicht, "Rentner" im Netz zu diktieren, als fachspezifische Texte wie beispielsweise Tsunamiwellen breiten sich nicht gleichmäßig aus. Doch sofern man nicht zu faul ist und Diktierfehler sofort über Spracheingabe oder im mitgelieferten Dragon Pad korrigiert, dem sprachgesteuerten Editor – wobei natürlich auch in Office-Software wie E-Mail, Textverarbeitung oder Tabellenkalkulation diktiert werden kann –, lernt das Programm laufend dazu und passt sich dem persönlichen Sprachschatz und der eigenen Aussprache immer besser an.

Hinzu kommen einige Befehle, beispielsweise für einen neuen Absatz, das Markieren einzelner Wörter oder den Sprung ans Textende. Diese kann man natürlich auch mit der Tastatur oder Maus ausführen, doch wenn man sowieso schon beim Sprechen ist, ist es meist einfach, auch dabei zu bleiben.

Tatsächlich kann das Programm bereits bei der Installation eigene Texte analysieren und sich entsprechend anpassen, allerdings müssen diese Texte dazu unbedingt im Windows-Verzeichnis "Eigene Dateien" liegen – es gibt keinerlei Möglichkeit, dem Programm die wirklichen Arbeitsverzeichnisse oder gar eine CD-ROM unterzuschieben, zumal es nur Dateien der letzten drei Monate auswertet. Fachleute in der Arbeit mit Dragon Naturally Speaking raten jedoch ohnehin hiervon ab, da sich diese Text-Auswertung dann auf alle Benutzer der Software auswirkt. Schließlich ist es möglich, die Diktiersoftware auf verschiedene Sprecher oder auch auf einen Sprecher in verschiedenen Sprachen, beispielsweise deutsch und englisch, zu trainieren.

Logitech-Headset (Bild: W.D.Roth)

Das Programm funktioniert auf Rechnern ab 500 MHz mit Windows ME, 2000 oder XP, wobei die Spracherkennung auf schnellen Prozessoren deutlich flüssiger abläuft, auf die Erkennungsgenauigkeit hat dies jedoch keinen Einfluss. Wichtig sind jedoch ausreichend RAM und eine schnelle Festplatte sowie nicht zu viel parallel laufende Programme, wenn man mit der Software schnell arbeiten will. Auch die Qualität von Soundkarte und Mikrophon sind selbstverständlich wichtig, wobei ein hochwertiges Headset mitgeliefert wird.

Im Praxistest wurde der schon mehrfach für Tests herangezogene aktuelle Aldi-PC verwendet, da er praktischerweise bereits Mikrophon- und Kopfhörereingänge auf der Vorderseite aufweist. Lästig war allerdings, dass die Kabellängen der üblichen Headsets auf die Verwendung an einem Walkman oder Notebook ausgelegt sind, nicht dagegen an einen Computer, der womöglich einige Meter entfernt steht. Zwei Verlängerungskabel schaffen hier natürlich Abhilfe, doch für deren Preis gab es bei 1&1 für DSL-Kunden bereits ein so genanntes Internet-Chat-Headset von Logitech, das drei Meter Kabel und zwei Kopfhörermuscheln hat (bei den Diktierheadsets wird oft nur ein Ohr beschallt, was die Verwendung als normalen Stereokopfhörer sabotiert und zum Umstöpseln zwingt), eine Lautstärkeregelung für den Kopfhörer und einen Ausschalter für das Mikrophon. Dies ist doch einfacher, als das Mikrophon in Diktierpausen mit der Maus oder dem entsprechenden Sprachbefehl stumm zu schalten. Was mit den Texten passiert, wenn man in Arbeitspausen das Ausschalten vergisst, kann man sich schließlich ausrechnen.

Natürlich war nicht unbedingt anzunehmen, dass dieses Logitech-Headset mit der Spracherkennung zusammenarbeiten würde. Doch dies klappte perfekt. Und auch während des Diktierens Radio- oder CD-Musik zu hören, scheint der Spracherkennungssoftware keine Probleme zu bereiten. Ob deutsche Schlager statt englischer Rockmusik ihr dann vielleicht doch Probleme bereiten würden, wurde im Interesse des Gemütszustand der beteiligten Personen jedoch nicht mehr getestet.

Auch drahtlos kann inzwischen diktiert werden: Dragon Naturally Speaking 8 Preferred Wireless (Bild: Scansoft)

Wer ganz ohne Kabel auskommen will, kann auch ein schnurloses DECT-Headset anschließen. Auch da stellt sich wieder die Frage der Diktiertauglichkeit. Wer sich eigene Experimente ersparen will, kann ab Ende September 2005 die Version Dragon Naturally Speaking 8 Preferred "Wireless" mit dem einohrigen drahtlosen Plantronics CS60-Headset für knapp 300 Euro erwerben. Einzeln nachkaufen kann man das DECT-Headset allerdings nur über Plantronics – für ebenfalls 300 Euro.

Nachdem frühere Versuche mit Spracherkennungssoftware immer wieder in Enttäuschungen geendet waren, scheint die Spracheingabe also inzwischen tatsächlich praktisch brauchbar zu werden. Zumindest schont sie aber Finger und Tastatur. Und während das normale Diktieren nicht jedermanns Fall ist, weil man im Gegensatz zum selber Tippen den entstehenden Text nicht vor sich hat, und so leicht den roten Faden verliert, ist dies beim Diktieren in den Computer überhaupt kein Problem: der gerade gesprochene Text erscheint ja sofort am Bildschirm. Für Computerfachautoren vielleicht noch etwas ungewohnt, auch wenn das Programm das hierfür übliche Vokabular kennt. Für Romanschreiber aber sicher eine interessante Alternative gegenüber dem stundenlangen Sitzen vor der Schreibmaschine mit dem hirnzermartenden Wunsch "Oh, du weißes Blatt Papier, inspirier mich!".

– Nach Diktat verreist – (Wolf-Dieter Roth)

Anzeige