27.09.2021 - Christian Rentrop

Spracherkennungssoftware im Vergleich

Wichtige Tools zur Spracherkennung am Rechner

Spracherkennungssoftware hilft dabei, den Rechner per Sprache zu steuern. Das kann sowohl beim Verfassen von Nachrichten, als auch bei der Umsetzung von Befehlen ins Betriebssystem hilfreich sein. In unserer Übersicht stellen wir einige Anwendungen vor.

💡 Das Wichtigste in Kürze

Spracherkennung hilft bei der Eingabe von Befehlen und ganzen Texten in den Computer. Dadurch ist es möglich, den Rechner ohne Maus zu steuern und ohne Tastatur zu schreiben.
Moderne Spracherkennung lernt mit der Zeit „ihren“ Sprecher kennen und erhöht dadurch nach und nach die Treffsicherheit.
Man muss zwischen Sprachassistenten mit beschränktem Funktionsumfang und Systemen für einen festen Sprecher unterscheiden.
Dank Cloud und Big Data sind Spracherkennungssysteme inzwischen in vielen Bereichen sehr nützlich, in anderen aber technisch bedingt keine Hilfe.
Zur Liste: ➤ Spracherkennungssoftware in der Übersicht

Die Spracherkennung war ursprünglich vor allem als Hilfsmittel für Menschen mit körperlichen Einschränkungen gedacht – oder als teure Diktierhilfe. Dementsprechend war sie häufig in den Bedienungshilfen der Betriebssysteme versteckt und funktionierte zumeist eher schlecht als recht – oder war sehr teuer. Mit zunehmender Breitband-Vernetzung, starker Rechenleistung, modernem Machine Learning und dem Aufkommen von Smartphones und Smart-Home-Systemen verließ die Spracherkennung vor rund zehn Jahren plötzlich rundumerneuert und auf Nutzbarkeit getrimmt ihr kleines Spezialisten-Schneckenhaus: Aus dem Schatten traten schicke Assistenzsysteme für den Alltag der breiten Masse: Apple Siri, Amazon Alexa, Google Assistant und Microsoft Cortana sind inzwischen für viele Nutzer nicht mehr wegzudenken und ihre Präsenz nimmt täglich weiter zu.

Leistungsstarke Spracherkennung macht’s möglich

Diese Systeme verdanken ihren Erfolg vor allem dem Einsatz von Big Data: Gigantische Systeme arbeiten im Hintergrund, die laufend selbstständig die Varianz der menschlichen Sprache analysieren und einordnen. Sie nehmen dabei Dialekte, Akzente und individuelle Sprechweisen auseinander, um sie am Ende mit einem Befehl, einer Funktion oder einem Wort aus dem Wörterbuch verknüpfen zu können. So wird die Spracherkennung dieser Systeme mit jedem verkauften Gerät und jedem gesprochenen Befehl besser. Unterschieden wurde dabei ursprünglich zwischen sogenannter sprecherabhängiger und sprecherunabhängiger Spracherkennung.

Sprecherunabhängigkeit ist flexibel – und wenig treffsicher

Die Unterscheidung ist einfach: Braucht ein System eine Trainingsphase, ist sie sprecherabhängig. Damit sind sprecherunabhängige Systeme vor allem dort sinnvoll, wo viele Sprecher mit dem System arbeiten müssen, etwa bei automatisierten Reservierungs- und Support-Systemen, wie sie vielerorts zum Einsatz kommen. Ihr Wortschatz ist beschränkt, dafür brauchen sie kein Training. Das ist zum Beispiel bei den Assistenten von Apple, Amazon und Co. der Fall, auch wenn diese im Hintergrund natürlich auch die Sprechweise „ihres“ Anwenders analysieren, wenn auch nicht so effizient. Das ist auch der Grund dafür, dass sich selbst nach 10 Jahren kontinuierlicher Verbesserung mit hunderten Millionen Sprechern und Befehlen in allen möglichen Sprachen, Sprechweisen und Akzenten nach wie vor mit manchen Sprechern Verständigungsprobleme ergeben. Die zum Teil erheblichen Unterschiede der Qualität der Spracherkennung, etwa zwischen Siri und Alexa, sind vor allem der unterschiedlichen Menge der zu analysierenden Daten geschuldet: Amazon drückt Alexa-Systeme auch deshalb seit Jahren zu Schnäppchenpreisen in den Markt, um die Spracherkennung der Assistenten insgesamt deutlich zu verbessern.

Sprecherabhängige Spracherkennung ist deutlich erfolgreicher

Genau aus diesem Grund versagen derartige Systeme jedoch zum Beispiel bei längeren Diktaten und eignen sich daher eher für eng beschränkte Anwendungen – wie eben die Sprachassistenten auf Smartphone und PC, in Smart-Home-Systemen oder Lautsprechern. Als „Out-of-the-Box“-Spracherkennungssysteme sind sie für inhaltlich aufwändige Anwendungen – etwa Diktate, noch dazu in Fachsprache – (noch immer) nicht gut geeignet. An dieser Stelle kommen die sprecherabhängigen Spracherkennungssysteme zum Einsatz: Sie haben einen deutlich größeren Wortschatz, verlangen aber eine gewisse Trainingsphase, um das System an einen Sprecher anzupassen. Inzwischen bedient sich Software dieser Art allerdings meist auch Machine-Learning-Funktionen und Big Data, weshalb die Trainingsphase meist nur wenig aufdringlich bei der Ersteinrichtung oder vollständig im Hintergrund erfolgt: Die Software lernt „ihren“ Sprecher mit der Zeit besser kennen und erhöht so die Treffsicherheit.

💡 Achtung, Verwechslungsgefahr!

Diktiersoftware, Transkriptionssoftware und Spracherkennung werden gerne miteinander verwechselt. Wir ordnen die Begriffe kurz ein:

In eine Diktiersoftware spricht man einen Text samt Satz- und Formatierungszeichen deutlich ein, um daraus automatisch einen geschrieben Text zu erstellen.
Transkriptionssoftware erstellt aus natürlich gesprochenem Text sowie natürlichen Gesprächen mit mehreren Teilnehmern eine Mitschrift.
Spracherkennungs-Software ist der Oberbegriff für alle sprachverarbeitenden Programme. Handelt es sich dabei nicht um eine Diktier- oder Transkriptionssoftware, so wird diese in der Regel zur Steuerung eines Systems bzw. einer anderen Software benutzt – etwa, um das Smart Home oder Virtual-Reality-Spiele zu bedienen.

Vor- und Nachteile von Spracherkennung

Grundsätzlich geht jede Form der Spracherkennung immer mit dem Versprechen in den Markt, dass der Anwender die Hände frei hat, also keine Knöpfe drücken, keine Maus schubsen und keine Tastatur bedienen muss. Sei es, weil er es aufgrund körperlicher Einschränkungen nicht kann oder weil er schlicht Zeit sparen will, denn Sprechen geht in der Regel deutlich schneller als Tippen. Davon profitierten in letzter Zeit Alexa und Co.: Smart-Home-Setups, Musiksteuerung und kurze Textnachrichten sind für sie kein Problem und sparen jede Menge Handgriffe. Komplexer wird das Thema, wenn Anwender eine Alternative zur guten, alten Vorzimmerdame suchen: Hier ist Diktiersoftware grundsätzlich eine gute Wahl: Sie bietet oft fachspezifisches Vokabular und ist daher vor allem in Bereichen mit einem gewissen Volumen von Fachworten – etwa den Ingenieurswissenschaften, der Juristerei oder der Medizin – durchaus leistungsfähig. Sie wird dementsprechend auch mit diesem Fachvokabular verkauft. Allerdings hat auch das seine Grenzen: Allround-Lösungen gibt es nicht und wenn, sind sie eher für den durchschnittlichen Anwender gedacht und verfügen nur über wenig Fachvokabular. Wo Spracherkennung übrigens in aller Regel völlig versagt, sind die schönen Künste: Dichter und Schriftsteller, die nicht selten mit dem Wort- und Satzbau spielen, unübliches Vokabular, erfundene Wörter und angepasste Wortformen für Reime verwenden, werden an Spracherkennung wahrscheinlich keine Freude haben.

Intelligenz nimmt zu – was fehlt, ist Weltwissen

Genau dieses Versagen beim Einsprechen eines Gedichts zeigt, wo momentan noch die Grenzen der Spracherkennung liegen: Anders als der menschliche Sprecher und Hörer haben Spracherkennungssysteme kein sogenanntes „Weltwissen“: Sie wissen nicht, in welcher Umwelt sie sich befinden, hatten keine Kindheit und keinen Kontakt zu anderen Menschen, kurzum: Sie können sich Zusammenhänge nicht oder nur im sehr begrenzten Umfang aus Erfahrungswerten erschließen. Selbst Kleinkinder kennen den Unterschied zwischen Homphonen wie „Meer“ und „mehr“ – für Spracherkennungssysteme aber ist das ein großes Problem. Zwar lässt sich diesem Problem durch eine gewisse kontextbasierte Spracherkennung und maschinelles Lernen entgegenwirken; werden die Worte aber, wie in der Dichtkunst, anders als statistisch erwartet, verwendet, wird die Spracherkennung scheitern. Wunder sollten sich Anwender also nicht erhoffen – und sich damit abfinden, dass Spracherkennung bis auf Weiteres vor allem in formeller Sprache und als Assistenzsystem arbeiten wird. Übrigens steht und fällt die Qualität der Spracherkennung auch durch das verwendete Mikrofon: Wer trotz guter Software durchwachsene Ergebnisse erhält, sollte über die Investition in ein vernünftiges Mikro nachdenken.

Worauf bei der Auswahl achten?

Anwender, die Spracherkennungssysteme nutzen möchten, sollten auf einige Dinge achten. Vor allem für die Diktierfunktion ist natürlich wichtig, wie „smart“ das im Hintergrund arbeitende System ist und ob es sprecherabhängig oder sprecherunabhängig arbeitet. Und natürlich, ob es eine Variante für das gewünschte Fachvokabular gibt. Die im folgenden genannten Lösungen sind deshalb auch weit leistungsfähiger als die smarten Assistenten Alexa oder Siri: Sie erlauben tatsächlich das gezielte Einsprechen längerer Texte in den Computer und können damit eine echte Hilfe im (beruflichen) Alltag sein.

Spracherkennungssoftware in der Übersicht

Ob Gaming oder Büroeinsatz: Die passende Spracherkennung wählt man nach der Aufgabe aus. Wir stellen einige erprobte Programme vor.

Dragon Home: Spracherkennung für Zuhause

🛈 Windows | 199,00 € (Einmalzahlung)

Update vom 20.04.2023: Das Produkt Dragon Home wurde mittlerweile eingestellt. Für den privaten Gebrauch steht die mobile App Dragon Anywhere* zur Verfügung.

Wer Spracherkennung wünscht, aber noch nicht so recht weiß, in welchem Umfang, sollte einen Blick auf Dragon Home* werfen: Die „Basis-Software“ von Nuance basiert auf der Deep-Learning-Technologie, muss also permanent an die Infrastruktur des Herstellers Nuance angebunden sein, um sinnvoll zu funktionieren. Dragon Home besitzt einige interessante Funktionen, etwa die Möglichkeit, Dokumente zu editieren, E-Mails und Kalender zu pflegen oder Chats mit Sprachnachrichten zu betanken. Natürlich ist auch die Internetsuche kein Problem. Dank der Nuance-Technologie passt sich Dragon Home selbstständig an die Gegebenheiten an, ein aufwendiges Training ist nicht mehr notwendig. Trotzdem transkribiert Dragon natürlich umso besser, je konstanter der Sprecher sich an seine eigene Sprechweise hält.

Mit an Bord sind Sprachbefehle für die Steuerung des Cursors, etwa in einem Dokument, die die Tastatur ersetzen können. Damit eignet sich Dragon auch für Anwender, die aus verschiedenen Gründen nicht oder nur sehr langsam mit der Tastatur und Maus umgehen können. Die Mac-Version Dragon Dictate für Mac wurde mittlerweile eingestellt, das Produkt ist nur noch für Windows-Systeme erhältlich. Anwender, die die knapp 200 Euro teure Software erwerben, erhalten automatisch auch ein Jahr kostenlosen Zugriff auf die Dragon Anywhere-App, die es für Android- und iOS/iPadOS gibt.

➤ Dragon Home*
Für 199,00 € kaufen

Dragon Professional: Ideal für den Arbeitsalltag

🛈 Windows | 999,00 € (Einmalzahlung)

Dragon Professional* zielt, anders als Dragon Home, auf professionelle Einzelanwender ab. Neben der Deep-Learning-Technologie setzt das Programm auch auf sprecherbasierte Spracherkennung, wodurch es besonders leistungsfähig ist. Dragon ist durch die Kombination der beiden Technologien vorwiegend auf die schnelle und genaue Dokumentation im professionellen Bereich ausgelegt: Es merkt sich Wörter und Ausdrücke, die häufig verwendet werden, kommt mit Dialekt und Akzent zurecht und lernt selbstständig, typische Hintergrundgeräusche – etwa im Großraumbüro – auszufiltern. Sogar Formatierungsregeln im Text können eingesprochen werden. Zudem ist in Abhebung zur Home-Version die Kompatibilität mit gängigen Business-Anwendungen gegeben.

Nuance verspricht, dass sich Dragon Professional Individual dank unbegrenzter Diktatlänge vom Ein-Seiten-Protokoll „bis hin zu ganzen Büchern“ eignet. Um das zu gewährleisten, bietet das Produkt eine nahtlose Anbindung der Mobil-App Dragon Anywhere. Dragon Anywhere Professional besitzt die Möglichkeit, eigene Sprachbefehle und Automatisierungen anzulegen, wodurch sich die Software besonders produktiv einsetzen lässt. Für Solo-Selbstständige und Kleinunternehmer interessant ist die Möglichkeit, Text mit einem fremden Gerät – etwa einem Diktiergerät – unterwegs einzusprechen und anschließend durch die Software transkribieren zu lassen. Wie bei der Home-Version hat Nuance leider auch in der Professional-Version die Mac-Unterstützung gestrichen, Dragon Professional ist nur für Windows-Systeme erhältlich.

➤ Dragon Professional*
Für 999,00 € kaufen

Linguatec Voice Pro: Spracherkennung für Spezialisten

🛈 Windows | 999,00 € (Premium, Einmalzahlung)

Update vom 03.12.2021: LinguaTec Voice Pro für Privatnutzer wurde eingestellt. Stattdessen ist mit Linguatec Voice Pro Enterprise nur noch eine Variante für Unternehmen erhältlich. Wir haben die Links entsprechend angepasst. Der Leistungsumfang der Enterprise-Version kann von der hier beschriebenen, eingestellten Version für Privatanwender abweichen.

Deutlich günstiger als die Spracherkennung von Nuance sind die Produkte von Linguatec: Mit Voice Pro erhalten Anwender eine leistungsstarke Spracherkennung, die einen großen Basissprachschatz samt Sondervokabular aus den Bereichen EDV, Sport, Wirtschaft und Wissenschaft/Technik mitbringt. Als Spezialversion Voice Pro Legal und Voice Pro Medical besitzt das Produkt zwei – allerdings deutlich hochpreisigere – Varianten, die 12 juristische Fachgebiete beziehungsweise 25 medizinische Fachgebiete mitbringen. Zudem gibt es eine sprecherunabhängige Enterprise-Variante, die für Unternehmen mit mehreren Mitarbeitern geeignet ist und auf firmeneigenen Servern läuft.

Linguatec Voice Pro ist darauf ausgelegt, von einer Einzelperson verwendet zu werden und benötigt daher ein gewisses Training. Anschließend erlaubt Voice Pro das Diktieren von E-Mails, Briefen, Berichten und Protokollen per Spracheingabe, ist aber eine „klassische“ Spracherkennung ohne Anbindung an die Infrastruktur des Anbieters. Das hat den Vorteil hoher Datensicherheit, trotzdem müssen Anwender – das entsprechende Training vorausgesetzt – nicht auf eine hohe Erkennungsqualität verzichten. Das liegt auch daran, dass das Produkt in Zusammenarbeit mit Microsoft entwickelt wurde und dadurch Zugriff auf die Technologien des Unternehmens hatte.

➤ Voice Pro Enterprise
Zur Programmseite

VoiceAttack: Spracheingabe für Gamer

🛈 Windows | 11,99 € (Einmalzahlung)

Einen völlig anderen Ansatz als die anderen Produkte verfolgt VoiceAttack: Die Sprachsteuerung ist darauf ausgelegt, möglichst treffsicher Anwendungen und Spiele zu steuern: So soll die Stimme nach Idee des Herstellers als Controller in PC-Games eingesetzt werden: Spezielle Hotkeys und Funktionen können also per Sprache eingebunden werden, was das Zocker-Erlebnis gerade bei komplexen Games deutlich steigern kann. Auch Virtual-Reality-Spiele können von der Technologie profitieren, denn hier fehlt durch das VR-Headset zwangsläufig Blick auf den Controller oder das Keyboard, was gerade komplexe Bedienabläufe deutlich erschwert.

Die praktische Makro-Funktion von VoiceAttack erlaubt zudem bestimmte Abläufe zu erstellen, die mit einem Sprachbefehl ausgeführt werden. Sogar Controller- und Maus-Befehle können auf diese Weise per Sprachbefehl aufgerufen werden. Dabei ist das Programm so konzipiert, dass die Sprachbefehle Spieler-Chats wie TeamSpeak sowie der Audio-Ausgabe eines Spiels nicht ins Gehege kommen. Damit die Software nicht nur für die Zocker-Gemeinde interessant ist und Anwender nicht noch ein zweites Produkt kaufen müssen, haben die Entwickler aber auch an nützliche Zusatzfunktionen gedacht. So erlaubt VoiceAttack auch den Start und das Beenden sowie die basale Steuerung von Apps. VoiceAttack ist sprecherbasiert und muss dementsprechend trainiert werden. Dafür ist das Produkt ausgesprochen preiswert.

➤ VoiceAttack
Für 11,99 € kaufen

Kostenlose Spracherkennung: Einfach und effizient

Grundsätzlich gibt es natürlich eine ganze Reihe kostenloser Spracherkennungs-Lösungen, darunter die namhaften Assistenten von Apple, Amazon, Google und Microsoft. Allerdings ist eine sinnvolle Nutzung für den Produktiveinsatz mit diesen Helfern, wenn überhaupt, nur sehr eingeschränkt möglich. Wer produktiv sein will, sollte deshalb einen Blick auf die Diktierfunktionen der Betriebssysteme MacOS und Windows werfen: Microsoft Dictate und die MacOS Diktierfunktion bieten eine sprecherunabhängige und cloudbasierte Spracherkennung. Im Hintergrund arbeiten zwar irgendwo die Cortana- und Siri-Systeme, die sind aber im Rahmen der Diktierfunktion nicht wahrnehmbar. Zumindest kurze Texte können auf diese Weise recht zuverlässig im PC oder Mac eingegeben werden. Apple bietet die Funktion auch unter iOS und iPadOS an. Eine hübsche Alternative ist auch die Spracherkennung der in der Basisversion kostenlosen Diktiersoftware Speak-a-Message.

Fazit: Praktisch – egal ob mit oder ohne Cloud

Spracherkennungssoftware ist längst ein leistungsstarker Helfer, wenn es darum geht, Sprache in Text zu verwandeln. Je nach eingesetzter Lösung ist der Kostenfaktor aber nicht unerheblich, die Ergebnisse können sich dafür aber sehen lassen. Vor allem die Lösungen von Nuance versprechen eine hohe Treffsicherheit bei geringem Lernaufwand, da sie zusätzlich auf Deep-Learning-Funktionen in der Cloud setzen. Gerade im Business-Betrieb ist das aus Gründen der Geheimhaltung und des Datenschutzes nicht immer erwünscht, weshalb sich in solchen Fällen Voice Pro von Linguatec anbietet. Speziallösungen wie VoiceAttack können bei der Steuerung des Computers helfen und haben daher als „zweites Standbein“ der Spracherkennung durchaus ihre Existenzberechtigung. Windows und MacOS lassen sich allerdings bereits seit langem mittels Bedienhilfe per Sprachsteuerung bedienen und bieten sogar Diktierfunktionen – hier sollten interessierte Anwender ruhig einen Blick riskieren.

➤ Zurück zur Liste: Spracherkennungssoftware in der Übersicht

* Mit einem Stern markierte Links sind Affiliate-Links, für die wir unter Umständen eine Provision erhalten. Der Kaufpreis erhöht sich dadurch nicht!

Redaktion & Aktualisierung: heise Download-Team

( Christian Rentrop )

Wie bewertest Du die Qualität des Beitrags?

Pflichtlektüre! ({{threeCount}})

Gut zu wissen ({{twoCount}})

Geht gar nicht! ({{oneCount}})

Vielen Dank für Deine Bewertung.

Deine Bewertung wurde gelöscht.

Kommentare

Einloggen, um Kommentar zu melden

Kommentare ({{commentsTotalLength}}) Weitere Kommentare laden...