Sexisten im Algorithmus

Intelligente Maschinen sind nur so neutral wie das Material, mit dem sie trainiert werden. Wie eine neue Studie jedoch zeigt, sind in Sprachdatenbanken noch reichlich Geschlechter-Stereotypen zu finden.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 2 Beiträge
Von
  • Will Knight

Laut einer neuen Studie verbergen sich in den Datensammlungen, mit denen KI-Programme sprachliche Fähigkeiten erlernen sollen, subtile Geschlechter-Stereotypen. Wenn diese Systeme leistungsfähiger werden und weitere Verbreitung finden, könnten ihre sexistischen Ansichten negative Auswirkungen haben – zum Beispiel bei der Job-Suche.

Das Problem entsteht durch die Art und Weise, wie Maschinen lesen und sprechen lernen: Informatiker füttern sie mit riesigen Mengen an gesprochener oder geschriebener Sprache und lassen sie Verbindungen zwischen Worten und Ausdrücken herstellen.

Die so entstehenden Datensammlungen, bezeichnet als Worteinbettungen (word embeddings), werden weithin genutzt, um KI-Systeme zu trainieren, die mit Sprache zu tun haben – etwa Chatbots, Übersetzungssysteme, Programme zur Bilderkategorisierung oder Empfehlungsalgorithmen. Worteinbettungen bilden Beziehungen zwischen Worten mit mathematischen Werten ab. Dadurch können Maschinen semantische Ähnlichkeiten zum Beispiel zwischen "König" und "Königin" verstehen und erkennen, dass die Beziehung zwischen diesen beiden Worten ähnlich ist wie die zwischen "Mann" und "Frau".

Wie Forscher an der Boston University und bei Microsoft Research New England jetzt jedoch festgestellt haben, wird in den Datensammlungen das Wort "programmer" enger an "Mann" als an "Frau" gesehen, und das ähnlichste Wort für "Frau" ist "Hausfrau".

Geleitet wurde die Studie von James Zou, inzwischen Assistant Professor an der Stanford University. Mit ein paar einfachen Experimenten haben er und seine Kollegen demonstriert, welche Folgen die Geschlechter-Stereotypen haben könnten. Zum Beispiel schrieben sie ein Programm, das Webseiten analysiert und nach ihrer Relevanz sortiert. Wie sich zeigte, stufte das System Informationen über Programmiererinnen als weniger relevant ein als solche über männliche Kollegen.

Außerdem haben die Forscher eine Möglichkeit entwickelt, die Geschlechtsverzerrung aus den Worteinbettungen zu entfernen: Dazu korrigierten sie die mathematische Beziehung zwischen geschlechtsneutralen Worten wie "programmer" und geschlechtsspezifischen wie "Mann" und "Frau".

Allerdings ist nicht jeder der Meinung, dass geschlechtliche Verzerrungen aus den Datensammlungen herausgenommen werden sollten. Arvind Narayanan, Assistant Professor für Informatik an der Princeton University, hat ebenfalls Worteinbettungen analysiert und darin geschlechtliche, rassenbezogene und andere Verzerrungen gefunden. Doch er spricht sich dagegen aus, sie automatisch zu entfernen. Sein Argument: Dies könne selbst die Abbildung der realen Welt in Computern verzerren und dadurch auf Kosten ihrer Fähigkeit gehen, Voraussagen zu treffen oder Daten zu analysieren.

"Wir sollten das nicht als Fehler, sondern als Funktion ansehen", sagt Narayanan. "Es kommt wirklich auf die Anwendung an. Was bei der einen Anwendung eine schreckliche Verzerrung oder ein Vorurteil sein kann, könnte bei einer anderen genau die Bedeutung sein, die man aus den Daten bekommen will."

Es gibt bereits mehrere Datenbanken mit Worteinbettungen, darunter das von Google erstellte Word2Vec oder GloVe von der Stanford University. Google wollte mögliche Geschlechtsverzerrungen in Word2Vec nicht kommentieren, ist sich der Probleme damit aber bewusst: In einem Beitrag im Firmenblog wurde vor kurzem ein Ansatz dafür beschrieben, Verzerrungen aus KI-Systemen zur Entscheidungsfindung zu entfernen, ohne ihre Nützlichkeit zu beeinträchtigen.

Voreingenommene KI-Systeme könnten bereits bestehende Unfairness noch verstärken, warnt Barbara Grosz, Professorin an der Harvard University. "Wenn sich eine Gesellschaft in eine bestimmte Richtung entwickelt, dann versucht sie doch, sie Zukunft so zu beeinflussen, dass sie anders ist als die Vergangenheit", sagt die Co-Autorin des Berichts AI 100, einem Stanford-Projekt, in dem es um die potenziellen Gefahren von KI geht. Grosz: "Und wenn wir uns auf Algorithmen verlassen, stellt sich die ethische Frage, ob wir genau die Weiterentwicklung verhindern, die wir wollen."

Wie auch Grosz einräumt, kann es durchaus Situationen geben, in denen es nicht sinnvoll ist, Verzerrungen aus Datensammlungen zu entfernen: "Man kann sie nicht immer vermeiden. Aber wir müssen in unseren Konzepten daran denken, und wir müssen sorgfältig überlegen, was wir über unsere Programme und ihre Ergebnisse sagen", erklärt sie. "Für viele dieser ethischen Fragen gibt es nicht die eine richtige Antwort."

(sma)