Digitale Assistenten: Dein Freund und Lauscher

Sprachassistenten wie Alexa oder Siri werden immer besser. So gut wie Menschen verstehen sie gesprochene Worte zwar noch nicht, doch zum Spionieren reichen ihre Fähigkeiten bereits.

Lesezeit: 12 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Digitale Assistenten: Dein Freund und Lauscher

(Bild: Amazon)

Von
  • Niels Boeing
Inhaltsverzeichnis

Der Super Bowl ist das amerikanische Sportereignis des Jahres. Millionen verfolgen am Fernseher, wer Meister im American Football wird. Und manchmal verliert der Favorit. Der Super Bowl 2017 hatte indes eine ganz eigene Überraschung parat. Als in der Pause ein Werbespot lief, erwachte in Tausenden von Haushalten eine kleine Kiste zum Leben. "Entschuldigung, da ist etwas schiefgegangen", plapperten sie drauflos. Da war in der Tat etwas schiefgegangen: Im Spot von Google hatten die Geräte das Schlüsselwort "Ok Google" vernommen – was die Spracherkennung der Smart Speaker, in diesem Fall der Marke Google Home, aktivierte. Die sollte eigentlich nur anspringen, wenn der Käufer des Geräts die Worte spricht.

Mehr Infos

Der Vorfall ließ binnen Minuten Twitter hochkochen, die Online-Medien folgten. Er schien das Unbehagen zu bestätigen, das viele Nutzer von Smart Speakern immer wieder beschleicht: Was versteht der Heimassistent wirklich? Werde ich im Hintergrund gar rund um die Uhr belauscht?

Smart Speaker sind die jüngste – und wohl interessanteste – Anwendung einer Computersteuerung per Sprache. Seit Apple 2011 Siri in das Betriebssystem von iPhones integrierte, haben vergleichbare Sprachassistenten den Weg in Millionen Geräte gefunden. 700 Millionen iPhone-Nutzern steht Siri inzwischen zur Verfügung, 400 Millionen Nutzer können mit dem Google Assistant sprechen, weitere 400 Millionen mit Microsofts Assistent Cortana.

Aber erst die auf Smart Speakern von Amazon installierte Alexa hat die Technologie ins Rampenlicht gebracht. Die Assistenten wandelten sich zum Mitglied des Haushalts und lachen auch schon einmal unmotiviert los, wie Anfang März bei Amazons Echo-Geräten geschehen. Wie also funktionieren die Geräte wirklich? Und was hören sie mit?

Die Sprachassistenten der großen IT-Konzerne sind das Ergebnis eines neuen Ansatzes in der Künstliche-Intelligenz-Forschung: des sogenannten Deep Learning – des maschinellen Lernens mittels tiefer neuronaler Netze. Seine Anwendung in der maschinellen Sprachverarbeitung geht unter anderem auf eine bahnbrechende Veröffentlichung von 1997 zurück, in der Sepp Hochreiter von der TU München und Jürgen Schmidhuber vom Schweizer KI-Labor IDSIA das Konzept der Long Short-Term Memory vorstellten. Hierbei werden Fehler in der Verarbeitung des Inputs so korrigiert, dass eine Art Kurzzeitgedächtnis im neuronalen Netz entsteht, das über rund 1000 Zeitschritte in der Berechnung anhält.

Es dauerte dann noch rund 15 Jahre, bis dieser Ansatz zur Standardtechnologie wurde. Stärkere Rechenleistung, Cloud Computing und Big Data machten es nun möglich, Audiosignale des gesprochenen Worts nicht nur in Schritten von zehn Millisekunden zu analysieren, sondern auch eine Erinnerung an frühere Gespräche aufzubauen.

Die neuronalen Netze hinter dieser Spracherkennung haben Dutzende Neuronenschichten zwischen künstlichen Input- und Output-Neuronen. Die werden mit enormen Datenmengen trainiert, um einen Satz zu verstehen, etwa die Frage "Regnet es heute irgendwann?", die ein Nutzer beispielsweise in Manhattan stellt. Das Deep Learning "hat der Spracherkennung einen enormen Qualitätssprung beschert", sagt Volker Fischer, Forschungsleiter des European Media Laboratory in Heidelberg. Dort wird derzeit im Projekt Listen eine Sprachsteuerung für Smart Homes entwickelt.

Im ersten Schritt wird das Audiosignal des Satzes von einem tiefen neuronalen Netz in einen Computertext umgewandelt. Auf dieser Basis kann das System die enthaltene Information verarbeiten. Hintergrundgeräusche können dabei herausgefiltert werden. Der zweite Schritt ist die Dialogverarbeitung. Das System ermittelt, wie es weitergehen soll: Muss eine Antwort folgen? Oder ist eine Gegenfrage sinnvoll, weil die Information nicht eindeutig ist? Was ist das Ziel des Dialogs? Auf die Frage nach dem Regen muss das System die Wettervorhersage für den Standort New York City abfragen. Die Information, dass es über Manhattan um 16.30 Uhr mit einer Wahrscheinlichkeit von 90 Prozent regnen wird, geht in den dritten Schritt ein: die Sprachgenerierung einer Antwort wie "Ja, heute Nachmittag ab 16.30 Uhr."

"Auf dieser Grundarchitektur aus drei Verarbeitungsschritten sind alle Sprachassistenten aufgebaut", sagt Josef van Genabith, wissenschaftlicher Direktor für multilinguale Technologien am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken. "Dafür gibt es inzwischen sogar Baukastensysteme." Einer der führenden Anbieter ist beispielsweise die Firma Nuance, die auch an der Entwicklung von Siri beteiligt war.

Dass diese Schrittfolge in Windeseile funktioniert, liegt an den tiefen neuronalen Netzen. Sie funktionieren nach dem Vorbild des menschlichen Gehirns. Einlaufende Daten werden von den künstlichen Neuronen der einen Schicht an die nächste weitergegeben. Die Stärke, mit der ein Neuron ein Signal an die folgende Schicht übermittelt, wird in der Trainingsphase unzählige Male neu justiert. Man spricht davon, dass der Einfluss des Neurons "gewichtet" wird, also einen Zahlenwert erhält, der seine Bedeutung darstellt. Damit ist in tiefen neuronalen Netzen auch eine Erinnerung an frühere Gespräche mitcodiert – die Antwort kommt deutlich schneller.

Diese Fähigkeit zur Erinnerung fehlte früheren Systemen, die auf sogenannten Hidden-Markov-Modellen basierten. Diese Modelle galten um das Jahr 2000 herum als letzter Stand der Technik und arbeiteten ausschließlich statistisch: Mithilfe verschiedener Wahrscheinlichkeiten wurde in vielen Prozessschritten vom Audiosignal auf Töne und damit auf Wortbestandteile geschlossen. Um bestimmte Begriffe wie etwa "Regen" zu verstehen, kamen auch Systeme zum Einsatz, die einen solchen Input nach festen Regeln abarbeiteten. Ganz frühe Versionen dessen, was einmal der Sprachassistent Siri werden sollte, hatten noch Komponenten, die regelbasiert funktionieren. Solche Regeln können Wenn-dann-Abfragen oder Entscheidungsbäume sein. Sie werden heute höchstens noch in einfachen Chatbots verwendet, die Gespräche zu eng umgrenzten Themen führen, etwa zur Abfrage von Fahrplänen.