Menü
 | Technology Review

Automatische Stimmanalysen übertreffen menschliche Experten

Unsere Stimme verrät viel über uns – das zieht für Psychotherapie und Marketing ebenso nützliche wie erschreckende Anwendungen nach sich.

Emotionserkennung für Therapie und Marketing

(Bild: Gino Crescoli, gemeinfrei )

Wenn es darum geht, automatisch menschliche Emotionen zu erkennen, halten sich Forscher bisher vor allem an die Mimik. Dabei geht es mit der Stimme deutlich besser, wie das Magazin Technology Review in seiner jüngsten Ausgabe 6/2018 berichtet (jetzt am Kiosk oder online zu bestellen).

Bereits vor rund zehn Jahren zeichnete Shrikanth Narayanan von der University of Southern California gemeinsam mit Kollegen zwei Jahre lang Hunderte Therapiegespräche aus der Eheberatung auf. Sie fütterten ihren Algorithmus mit Faktoren wie Lautstärke und Tonhöhe sowie zittrige oder brechende Stimmen. Anschließend sagte das System mit 80-prozentiger Genauigkeit voraus, ob ein Paar nach Ende der Beobachtungsphase noch zusammen war oder nicht – besser als die beteiligten Therapeuten.

Bislang haben Forscher versucht, solche Informationen aus Gesichtsausdrücken zu lesen, weil Digitalaufnahmen von Gesichtern einfach zu bekommen sind. Besonders zuverlässig ist diese Methode allerdings nicht: Die Algorithmen fallen auf ein vorgetäuschtes Lächeln herein und können ein Lächeln aus Scham nicht von einem fröhlichen Lächeln unterscheiden.

Stimmdaten, die schon jetzt immer häufiger anfallen, versprechen da Abhilfe. „Mit der Stimme kann man viel schlechter lügen“, sagt Klaus Scherer, Psychologe am Neuroscience Center der Universität Genf. Wir können sie viel weniger bewusst beeinflussen als die Mimik. Zudem bilde die Stimme gemischte Gefühle besser ab als das Gesicht.

Bereits 1974 hat Scherer ein Programm zur Stimmanalyse geschrieben, das die Daten auf bestimmte Faktoren wie Tonhöhe oder Energie untersucht. So konnte er erkennen, bei welchen Betroffenen die Therapie erfolgreich verläuft: „Sie sprachen mit tieferer Stimme, das Erregungsniveau war niedriger.“

Zur Diagnose von Depressionen wurden rechnerbasierte Klanganalysen bisher allerdings nicht eingesetzt. Die entsprechenden Faktoren maschinell auszuwerten galt als zu schwierig. Mit einem großen Horizon-2020-Projekt will Scherer das ändern. Zusammen mit Informatikern, Psychologen und Ingenieuren will er Computer beispielsweise selbstständig Muster in Daten suchen lassen – in der Hoffnung, stimmliche Signale für Depressionen zu finden.

Dafür sind riesige Mengen an Trainingsdaten notwendig. Emotionsdaten sind jedoch generell schwierig zu bekommen. „Sie sind zu privat“, so Scherer. Um die Datenlage zu verbessern, arbeitet er unter anderem mit Stimmen von Schauspielern – sie gehören offenbar zu den wenigen Menschen, die mit der Stimme lügen können.

Die Frage ist nur: Wie echt ist die Schauspielerei? Björn Schuller, Gründer des Emotionserkennungs-Start-ups Audeering, fragt daher lieber die Menschen direkt, welche Emotion ihrer Meinung nach in einer Stimmprobe steckt. Aus diesen Informationen lernen Algorithmen dann, die Stimmdaten in Zukunft selbst zuzuordnen. Schuller hat etwa eine App entwickelt, die Emotionen autistischer Kinder erkennen soll. Pro Datensatz braucht er bis zu 60 übereinstimmende Angaben von Eltern oder Betreuern, etwa darüber, dass dieses Kind hier glücklich klingt.

Geld verdient Audeering unter anderem mit Marktforschung. Seine Kunden wollen über den Klang der Worte erfahren, wie die Befragten ein Produkt bewerten. Ein riesiger Markt sei auch die Analyse von Stimmdaten aus dem Internet, beispielsweise von YouTube, sagt Schuller: „Da können Sie Meinungsbildung im Netz in Echtzeit verfolgen.“

Klaus Scherer sieht allerdings auch die Gefahr, „dass ohne unser Wissen Informationen über unsere emotionalen Reaktionen gespeichert werden.“ Alexa speichere schließlich schon jetzt alle Daten auf amerikanischen Servern. Und sobald die Daten nicht mehr anonym vorliegen, sondern individualisiert, könnten sie leicht missbraucht werden.

Audeering-Gründer Schuller ist sich dessen bewusst: „Aus unserer Stimme kann man reichhaltige Informationen bekommen – vom Alter über die Gesundheit bis zur Emotion.“ Das erlaube neue, fragwürdige Marketingstrategien. Totalitäre Systeme hätten eine wunderbare Quelle, um ihre Überwachung zu perfektionieren. Oder man denke an Bewerber in einem Vorstellungsgespräch. Unsicherheiten würden sofort erkannt – für die Maschinen wären sie quasi nackt. Psychologe Scherer jedenfalls steht solchen automatischen Emotionserkennern extrem misstrauisch gegenüber: „Im Augenblick schätze ich die Gefahren höher ein als den Nutzen dieser Technologie.“

Mehr zu dem Thema lesen Sie in der aktuellen Ausgabe von Technology Review (jetzt im gut sortierten Zeitschriftenhandel und im heise shop erhältlich). (Eva Wolfangel) / (grh)

Anzeige
Zur Startseite
Anzeige