Mit dem Update 2023.5 geht das Entwicklerteam des Smarthome-Server Home Assistant einen weiteren Schritt in Richtung Sprachsteuerung. Ein Voice Assistant ist nun serienmäßig vorhanden. Er ist zwar noch nicht voll funktionsfähig, kann aber schon getestet werden.

Zur Auswahl stehen in der Konfiguration mehr als 70 Sprachen, von denen aber bislang nur einige wenige funktionieren. Die Konfigurationsseite erreicht man unter Einstellungen und dem neuen Menüpunkt Sprachassistenten.

In der Konfiguration des Sprachassistanten stehen etliche Sprachen zur Auswahl, sogar mehrere deutsche Versionen.

Voreingestellt ist die Spracherkennung über die Home-Assistant-Cloud. Daneben gibt es jetzt aber auch die Möglichkeit, mit den Addons Whisper (Speech to Text) und Piper (Text to Speech) eine lokal-arbeitende Voice-Recognition zu installieren. Dann sollte der Home Assistant aber auf einem einigermaßen leistungsfähigen Computer (Raspberry 4) arbeiten. Während die Spracherkennung (Sprecher-unabhängig und ohne Training) über die Cloud meist in weniger als einer Sekunde arbeitet, braucht die lokale Lösung deutlich länger (ca. 5 bis 6 Mal mehr).

Auch die Sprachausgabe kann auf der Konfigurationsseite eingestellt werden. Eine große Zahl von männlichen und weiblichen Stimmen stehen dort zur Auswahl bereit. Die Sprachein- und -ausgabe benötigt einen entsprechenden Smartspeaker wie Google Assistant oder Selbstbau-Lösungen unter ESPHome. Die Echo-Geräte von Alexa scheinen nicht geeignet zu sein. Auch die Spracheingabe via Smartphone oder PC über die per https geladene Home-Assistant-Oberfläche ist möglich.

Ausprobieren kann man den Sprachassistenten über das kleine Sprechblasen-Symbol oben rechts in der HA-Übersichtsseite.

Die Sprechblase (mitte) führt zum Sprachassistenten.

Nach einem Klick auf das Mikrofon-Symbol hört Home Assistant zu. Allerdings kann man damit noch keine Steuerbefehle oder ähnliches ausführen lassen. Aber ein Test auf die Erkennungssicherheit ist möglich. Dabei sollte jedoch keinerlei andere Schallquelle im Raum ertönen. So kommen beispielsweise bei gleichzeitigem Fernsehton merkwürdige Erkennungsresultate zustande.

Der Fernsehton im Hintergrund verhinderte die korrekte Erkennung.

Die Umwandlung der Sprache in Text hat eine recht hohe Trefferquote über die Cloud (mehr als 90%). Allerdings kann Home Assistant so eingegebene Befehle noch nicht ausführen.

Sprache erkannt, aber mehr funktioniert noch nicht. Immerhin wird die Entschuldigung nicht nur als Schrift ausgegeben, sondern auch gesprochen.

Die Befehlsweiterleitung wird erst in einem der nächsten Updates geliefert. Doch zum Ausprobieren der rechenintensiven Spracherkennung und damit der Eignung der vorhandenen Hardware reicht es schon aus.

(hgb)