Apples Übersetzer-KI hat ein Porno-Problem: Tippt man in das deutsche Übersetzungsfeld in macOS und iOS bestimmte englischsprachige Sätze ein, spuckt Apples KI pornografische Pseudo-Übersetzungen aus. Der Satz "Happy dog is very young 3003" wird so etwa zu "sexy brunette in black black black is happy to be banged".

c’t hat mehrere solcher Nonsensphrasen entdeckt, die zu Übersetzungen in ähnlichen Variationen führen. Das Phänomen tritt ausschließlich dann auf, wenn man englischsprachige Sätze in ein deutschsprachiges Übersetzungsfeld eintippt. Eine Funktion, um die Sprache eingetippter Phrasen automatisch zu erkennen und derartige Fehler so im Vorhinein auszuschließen, hat Apples Übersetzer nicht. c’t konnte die Porno-Übersetzungen sowohl unter iOS als auch unter macOS reproduzieren.

Auf die Schliche kam c’t dem Problem dank der Zuschrift eines Lesers, der Apples Übersetzungstool den Satz "Mirror egg is very yummy in the tummy" irrtümlicherweise als deutschen Satz vorgelegt hatte. Das Ergebnis laut Apples KI: "The brunette is getting penetrated in the kitchen".

Apple beantwortete Nachfragen von c’t nicht, behob aber umgehend den Übersetzungsfehler bei der genannten Beispielphrase, die c’t in der Mail an das Unternehmen erwähnt hatte. Nach wie vor gibt es allerdings weitere Varianten der Quatschsätze, die ähnliche Übersetzungsfehler produzieren.

Automatische Übersetzungsprogramme wie das Tool von Apple nutzen neuronale Netze. Trainiert werden sie mit möglichst großen Datensätzen, also beispielsweise zahllosen Internetseiten. Zuerst starten neuronale Netze mit zufälligen Parametern, an denen im Laufe ihres Trainings immer wieder geschraubt und gefeilt wird, bis sie möglichst sinnvolle Ergebnisse liefern.

Entwickler prüfen den Erfolg solcher Übersetzer an Beispieldaten. Unerwartete Eingaben wie die englischsprachigen Nonsenssätze können die KI aber aus dem Tritt bringen. Dass die ausgespuckten Übersetzungen nach Pornotiteln klingen, könnte am Datensatz liegen, den Apple zum Training verwendet hat: Es ist möglich, dass er auch Seiten mit pornografischen Inhalten umfasste.

In der KI-Forschung ist das kein neues Problem. Viele Modelle kämpfen mit Verzerrungen, die schon in den Trainingsdaten vorhanden sind. Das KI-Sprachmodell GPT-3 nahm aus seinem Training etwa Vorurteile gegen Muslime mit. Die Absicht der Forscher ist das in der Regel nicht. Doch wie trainierte neuronale Netze arbeiten, ist auch für ihre Entwickler nur schwer zu durchschauen.

Andere KI-Übersetzer haben ebenfalls mit solchen Problemen zu kämpfen, wie eine weitere Leserzuschrift an heise online zeigt: DeepL übersetzt den Satz "faut voir ce qui dit la dessus car le vrai HQ au sens légal est eau Lux" (laut Google: "Sehen Sie, was oben steht, denn das eigentliche Hauptquartier im rechtlichen Sinne ist Eau Lux") als "die meisten Menschen, die in den USA leben, haben keine Ahnung, was sie tun sollen".

