Auch Google lässt Audio-Aufnahmen seines Sprachassistenten teilweise von Mitarbeitern von Vertragsunternehmen begutachten und mitschreiben. Das geht aus einem Bericht des belgischen Rundfunks VRT hervor, dem von einem Whistleblower über 1000 solcher Mitschnitte zugespielt wurden. Die Aufnahmen hätten es den Journalisten in einigen Fällen sogar ermöglicht, die Nutzer dahinter ausfindig zu machen.

Einer der Informanten ist laut dem Bericht von VRT bei einer nicht genannten Vertragsfirma angestellt, weltweit sollen es mehrere tausend Personen sein, die solche von Google-Home-Lautsprechern und der Google-Assistant-App angelegten Audioschnipsel bearbeiten. In Flandern und den Niederlanden seien es rund ein Dutzend Mitarbeiter, die sich um Aufnahmen in Niederländisch kümmern. Das Ganze soll die Spracherkennung des Systems verbessern.

Teilweise ohne Aufwachwort aufgezeichnet

Zum Einsatz komme dabei das auch frei zugängliche Crowdsourcing-Tool Crowdsource. Die Funktionen für die Beschreibung von Audioschnipseln seien aber Mitarbeitern vorbehalten. Diese sollten dann die Mitschnitte so akkurat wie möglich beschreiben, etwa mit Details wie dem Geschlecht der Sprecher. Auch solle alles Hörbare inklusive Elementen wie etwa Hustern protokolliert werden.

Eigentlich sollte die Sprachassistenz erst durch eine Aktivierung etwa durch Fingertipp oder mit dem Aufwachbefehl "Ok, Google“ aktiv werden und aufzeichnen. Offenbar ist aber auch Googles System für Fehlerkennungen anfällig. VRT schreibt, dass 153 der etwas über 1000 Aufnahmen wohl nicht hätten aufgezeichnet werden sollen. Unter anderem seien es private Konversationen etwa zwischen Eltern und Kindern gewesen, Streits oder berufliche Telefongespräche, die so aufgenommen wurden.

Eine der Quellen berichtete aber auch von einer Aufnahme, bei der eine Frau offensichtlich in Not gewesen sei. Für solche Fälle gäbe es aber keine Richtlinien von Google, was die Mitarbeiter tun sollten. Lediglich wenn es etwa um Account-Daten, Passwörter und ähnliches ginge, sollten diese als sensitiv gekennzeichnet werden. Bei vielen der an die Assistenten gerichteten Frage ginge es um medizinische Dinge, bei Männern sei auch die Suche nach Pornographie verbreitet.

Falsche Angaben von Google?

Im April machte bereits ein US-Bericht die Runde mit ganz ähnlichen Details darüber, wie Amazon Mitarbeiter von Vertragsunternehmen weltweit Tonaufnahmen von Alexa transkribieren lässt. Google hatte zu dem Zeitpunkt auf Anfrage von heise online erklärt, wie man mit Assistant-Aufnahmen umgeht: "Bei Google können einige Mitarbeiter auf einige Audioausschnitte aus dem Assistant zugreifen, um das Produkt zu trainieren und zu verbessern. Diese ist aber nicht mit persönlich identifizierbaren Informationen verknüpft und die Audiosequenzen sind verzerrt."

Das steht im klaren Widerspruch zu dem, was der belgische Sender berichtet. Die Aufnahmen der Google-Home-Sprecher seien laut VRT sehr klar gewesen, die Aufnahmen über die Smartphone-App Google Assistant hätten zumindest noch Telefonqualität gehabt. Ton-Verzerrungen habe es keine gegeben. Google gab dazu leider keine Stellungnahme ab.

0,2 Prozent aller Aufnahmen analysiert

Auch mit dem Schutz persönlich identifizierbarer Informationen scheint es letztlich nicht weit her zu sein. Zwar würden dem Bericht nach bei den Aufnahmen für die Bearbeitung Namen und Accountinformationen entfernt und durch Sequenznummern ersetzt. Aber aufmerksames Zuhören genüge teilweise auch, um die Sprecher zu identifizieren. So seien Adressen und andere sensitive Informationen gut zu hören gewesen. Im Zuge der Berichterstattung recherchierte VRT einige der identifizierbaren Personen und konfrontierte sie mit den Aufnahmen. Ein Mann habe sofort seine Stimme erkannt, ein älteres Ehepaar die Stimmen von Sohn und Enkel.

Google erklärte gegenüber VRT, dass man weltweit mit Sprachexperten zusammenarbeite, um die Sprachassistenz besser zu machen. Dafür werde eine kleine Zahl von Audiodateien transkribiert und analysiert, rund 0,2 Prozent aller Aufnahmen. Absolute Zahlen nannte Google nicht. Eine Verknüpfung zu persönlich identifizierbaren Informationen gebe es nicht.

[UPDATE, 11.07.2019, 13:45]

Google bestätigte inzwischen gegenüber heise online, dass 0,2 Prozent der Sprachaufnahmen transkribiert werden. Dieses Vorgehen sei entscheidend für die Entwicklung von Technologien, die Produkte wie den Google Assistant unterstützen.

Bezogen auf den Bericht aus Belgien erklärte Google: "Wir haben erfahren, dass einer dieser Prüfer gegen unsere Datenschutzrichtlinien verstoßen hat, indem er vertrauliche Audiodaten aus den Niederlanden weitergegeben hat. Unsere Sicherheits- und Datenschutzteams sind involviert und ermitteln bereits. Wir werden entsprechende Maßnahmen ergreifen und eine umfassende Überprüfung der Sicherheitsvorkehrungen durchführen, um zu verhindern, dass sich so etwas wiederholt."