Ein Alexa-User wünscht, ein bestimmtes Musikstück zu hören. Doch Alexa spielt nach Verarbeitung des Sprachkommandos ein anderes Stück, als der User erwartet hat. Er reagiert unwirsch: "Nein!" Alexa erkennt den Fehler und stoppt die Musik. Der Benutzer wiederholt den Befehl, mit lauter Stimme. Doch wie soll Alexa reagieren?

Amazon hat das zunächst so gelöst: Alexa reagiert deeskalierend-beschwichtigend und versucht es ein zweites Mal, mit einem anderen Stück. Zumindest in der US-englischen Sprachversion von Alexa wird dieses Leistungsmerkmal gerade unter die Nutzer gebracht. Doch diese Problemlösung erscheint simpler als sie ist, wie heise online im Gespräch mit Rohid Prasat herausgefunden hat. Er ist wissenschaftlicher Leiter der Entwicklung der künstlichen Intelligenz Alexas.

"Die Erkennung der Frustration ist gar nicht so schwierig. Wir werten mehrere Signale aus: Bestimmtes Vokabular, wie zum Beispiel 'Nein!', und Veränderungen der Stimme, beispielsweise bei Stimmlage und Lautstärke", erklärte Prasat, "Wenn der Kunde Alexas Antwort unterbricht, ist das ein weiterer Hinweis."

Frustrationstoleranz YMMV

Rohit Prasad, wissenschaftlicher Leiter der Entwicklung der künstlichen Intelligenz Alexas, beim Gespräch mit heise online in Seattle. (Bild: Daniel AJ Sokolov)

Doch wie soll der womöglich besonders laut wiederholte Sprachbefehl verarbeitet werden? "Wenn Alexa wieder daneben liegt, kann das den Kunden doppelt frustrieren", sagte Prasat. "Wir versuchen, herauszufinden, wie viele Versuche zu viel sind. Zwei? Drei? Menschen reagieren unterschiedlich. (…) Die beste Reaktion könnte sein, aufzugeben."

Dann würde Alexa dem User signalisieren, dass sie den Befehl nicht versteht, anstatt mit sinkender Trefferwahrscheinlichkeit andere Antworten auszuprobieren. Naheliegend ist, dass Alexa mit der Zeit lernt, wie frustrationstolerant ein ganz bestimmter User ist, und entsprechend viel oder wenig Antwortversuche unternimmt. Blinde User und Kinder sind laut Prasat übrigens tendenziell geduldiger mit Alexa.

Neuro-Text-to-Speech

Natürlichere Sprachausgabe ist ein weiteres Ziel Amazons, mit es die Kundenzufriedenheit steigern will. Der aktuelle Ansatz heißt "Neuro-Text-to-Speech". Mit neuronalen Netzen soll Alexa beigebracht werden, ihre Intonation an die jeweilige Situation anzupassen.

Menschen sagten beispielsweise das nächste Pop-Musikstück anders an als die Erinnerung an einen Termin, solche Finessen bringt Amazon Alexa gerade bei. In den nächsten Monaten soll Neuro-Text-to-Speech nach und nach für unterschiedliche Anwendungsfälle installiert werden, zumindest für US-Englisch.

Echo von Babel

Apropos: Alexa will Haushalte in drei Ländern bald auch zweisprachig bedienen, in den Vereinigten Staaten (US-Englisch & Spanisch), Kanada (kanadisches Englisch und Quebecois-Französisch) und Indien (indisches Englisch und Hindi). Mit etwas Geduld und Tüftelei an den Einstellungen dürfte es auch für Einwohner anderer Länder möglich sein, Alexa zu diesen Sprachkombinationen zu bewegen.

Aber wer beispielsweise Englisch und Französisch kombinieren möchte, müsste dann amazon.ca zur Voreinstellung machen. Dann funktionierten nur die in Kanada verfügbaren Alexa-Dienste und alle Bestellungen würde über die kanadische Website abgewickelt. Das kann erhebliche Porto- und Zollkosten nach sich ziehen.









Theoretisch ließe sich die Zweisprachigkeit durchaus auf deutlich mehr Länder und Sprachkombinationen ausdehnen, verriet Prasat. Doch das würde die Kundenzufriedenheit gefährden. Denn einerseits ist es nicht so einfach, zu entscheiden, wann in welcher Sprache geantwortet werden soll, zumal natürlich gesprochene Sätze oft Elemente zweier Sprachen enthalten. Das müssen sich die Alex-Entwickler Schritt für Schritt erarbeiten.

Not funny

Andererseits gibt es ein unerschöpfliches Reservoir an Feinheiten und unerwarteter Nebenwirkungen. "Ein Witz kann in einem Land als sehr lustig ankommen, in einem anderen aber als beleidigend empfunden werden", führte Prasat aus. Zudem gibt es viele Bezeichnungen und Begriffe der selben Sprache, die in anderen Ländern anders genutzt werden. "What could possibly go wrong?", fragte Prasat rhetorisch.

Amazon geht die Mehrsprachigkeit also bewusst schrittweise, Land für Land, an. Don't hold your breath. (ds)