Warum KI noch immer ein Problem bei der Moderation von Hassrede hat

Trotz der jüngsten Fortschritte in der Sprach-KI-Technologie hat sie immer noch Probleme mit einer der grundlegendsten Anwendungen im Social-Media-Bereich.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 47 Beiträge

(Bild: Jon Tyson / Unsplash)

Von
  • Karen Hao

In einer neuen Studie haben Wissenschaftler vier der besten KI-Systeme zur Erkennung von Hate Speech getestet und dabei festgestellt, dass alle auf unterschiedliche Arten noch immer Schwierigkeiten haben, problematische von harmlosen Sätzen zu unterscheiden.

Die Ergebnisse sind eigentlich nicht überraschend (PDF) – eine Künstliche Intelligenz zu entwickeln, die die Nuancen der natürlichen Sprache versteht, ist schwierig. Doch die Art und Weise, wie die Forscher das Problem diagnostizierten, ist von Bedeutung. Sie entwickelten 29 verschiedene Testvarianten, die auf unterschiedliche Aspekte von Hassrede abzielen, um genauer zu bestimmen, wo jedes System versagt. Das macht es einfacher zu verstehen, wie man die Schwächen solcher Software überwinden kann und hilft immerhin bereits einem der kommerziellen Dienste, seine Algorithmen zu verbessern.

Die Autoren der Studie, angeführt von Wissenschaftlern der University of Oxford und des Alan Turing Institute, befragten Mitarbeiter von 16 gemeinnützigen Organisationen, die sich mit Hass im Netz beschäftigen. Das Team nutzte diese Interviews, um eine Art Taxonomie von 18 verschiedenen Arten von Hassrede zu erstellen, wobei sie sich nur auf englische und rein textbasierte Hassrede im Netz konzentrierten – einschließlich abwertender Sprache, Verunglimpfungen und Sätzen, die andere Menschen bedrohen. Darüber hinaus wurden 11 Szenarien identifiziert, die KI-Moderationssysteme häufig in die Irre führen – darunter die Verwendung von Schimpfwörtern in harmlosen Aussagen, eigentlich problematische Begriffe, die in der jeweiligen Community jedoch weiterverwendet werden sowie und Anprangerungen von Hass, die die ursprüngliche Hassrede zitieren oder darauf verweisen (bekannt als "Counter Speech").

Für jede der 29 verschiedenen Kategorien erstellten sie Dutzende von Beispielen und verwendeten sogenannte Schablonensätze wie "Ich hasse [IDENTITÄT XYZ]" oder "Du bist für mich nur ein [HASSBEGRIFF]", um Beispiele von Sätzen für sieben geschützte Gruppen zu generieren – Identitäten, die nach amerikanischem Recht gesetzlich vor Diskriminierung geschützt sind. Der endgültige Datensatz mit dem Namen "HateCheck", der insgesamt fast 4000 Beispiele enthält, wurde als Open Source veröffentlicht.

Mehr von MIT Technology Review Mehr von MIT Technology Review

Die Forscher testeten dann zwei beliebte kommerzielle Dienste: Die "Perspective API" von Google Jigsaw und "SiftNinja" von Two Hat. Beide ermöglichen es Kunden, verletzende Inhalte in Beiträgen oder Kommentaren zu markieren. Perspective wird insbesondere von Plattformen wie Reddit und Nachrichtenorganisationen wie der "New York Times" und dem "Wall Street Journal" genutzt. Es markiert und priorisiert Beiträge und Kommentare für eine menschliche Überprüfung, basierend auf dem Maß an erkannten problematischen Begrifflichkeiten.

Während SiftNinja bei Hassreden zu nachsichtig war und fast alle Varianten nicht erkannte, war Perspective zu hart. Die Google-API zeichnete sich dadurch aus, dass sie die meisten der 18 Hassrede-Kategorien erkannte, aber auch die meisten der eigentlich unproblematischen, wie z.B. in der jeweiligen Gemeinschaft erlaubte Begriffe oder Counter Speech.

Die Forscher fanden das gleiche Muster, als sie zwei weitere Modelle von Google testeten, die einige der aktuell besten verfügbaren Sprach-KI-Erkennungssysteme darstellen und vermutlich schon als Grundlage für andere kommerzielle Content-Moderationssysteme dienen. Die Modelle zeigten auch eine ungleiche Leistung bei geschützten Gruppen – sie klassifizierten Hassrede, die sich gegen bestimmte Gruppen richtete, häufiger als andere.

Die Ergebnisse weisen auf einen der schwierigsten Aspekte der KI-basierten Erkennung von Hassreden hin: Moderiert man zu wenig, löst man das Problem nicht; moderiert man zu viel, könnte man Aussagen zensieren, die marginalisierte Gruppen nutzen, um sich selbst zu stärken und zu verteidigen. "Plötzlich würde man genau die Gemeinschaften bestrafen, die am häufigsten von Hass betroffen sind", sagt Paul Röttger, Doktorand am Oxford Internet Institute und Mitautor der Studie.

Lucy Vasserman, die leitende Softwareentwicklerin bei Jigsaw, sagt, dass Perspective diese Einschränkungen überwindet, indem es sich auf menschliche Moderatoren verlässt, die die endgültige Entscheidung treffen. Aber dieser Prozess ist für größere Plattformen nicht skalierbar. Jigsaw arbeitet nun an der Entwicklung einer Funktion, die Beiträge und Kommentare auf der Grundlage eines Unsicherheitswerts der API neu priorisiert – und dabei automatisch Inhalte entfernt, bei denen das System sicher ist, dass sie Hassrede sind.

Das Spannende an der neuen Studie ist, dass sie einen Weg aufzeigt, den Stand der Technik zu evaluieren, sagt sie. Jigsaw nutzt nun den Datensatz HateCheck der Forscher, um die Unterschiede zwischen seinen Modellen besser zu verstehen und um herauszufinden, wo sie sich verbessern müssen.

"Dieses Paper gibt uns eine schöne und saubere Ressource für die Bewertung vorhandener Systeme", sagt Maarten Sap, ein Sprach-KI-Forscher an der University of Washington, "die es Unternehmen und Nutzern erlaubt, um Verbesserungen zu bitten". Thomas Davidson, ein Assistenzprofessor für Soziologie an der Rutgers University, stimmt der Aussage zu. Die Grenzen von Sprachmodellen und die Unordnung der Sprache bedeuteten, dass es immer Kompromisse zwischen Unter- und Überidentifizierung von Hassrede geben wird, sagt er. "Der HateCheck-Datensatz hilft, diese Abwägungen sichtbar zu machen."

(bsc)