Was denkt sich die KI?

Niemand weiß wirklich, wie selbstlernende Algorithmen zu ihren Schlüssen kommen. Das führt schon heute zu Schwierigkeiten, und je breiter das Maschinenlernen eingesetzt wird, desto offenkundiger wird das Problem. Wenn Forscher es nicht lösen, entwickelt sich die KI zur Gefahr.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Von
  • Will Knight
  • Eva Wolfangel

Dieser Text-Ausschnitt ist der aktuellen Print-Ausgabe der Technology Review entnommen. Das Heft ist ab 20.7.2017 im gut sortierten Zeitschriftenhandel und im heise shop erhältlich.

Es war ein seltsames Auto, das da im vergangenen Jahr durch die stillen Straßen von Monmouth County, New Jersey, fuhr: Von außen sah es zwar aus wie jedes andere selbstfahrende Auto – doch sein Innenleben glich in nichts dem, was man bisher von Google, Tesla oder General Motors kennt. Das Fahrzeug folgte keiner einzigen Anweisung, die ihm irgendein Programmierer oder Ingenieur vorgegeben hatte. Stattdessen war sein Algorithmus darauf ausgerichtet, sich das Fahren komplett selbst beizubringen – indem er Menschen dabei beobachtet hatte.

Mit dem beeindruckenden Kunststück wollten Forscher des Chipherstellers Nvidia zeigen, dass eine KI sogar dazu in der Lage ist. Aber es ist gleichzeitig ziemlich beunruhigend. Denn niemand weiß, wie das Auto seine Entscheidungen trifft. Hat es wirklich die richtigen Schlüsse aus dem Verhalten anderer Verkehrsteilnehmer gezogen? Hat die Bilderkennung tatsächlich alles korrekt kategorisiert, beispielsweise einen so lebenswichtigen Hinweis wie ein Stoppschild? Wie verhängnisvoll eine Fehlentscheidung sein kann, hat ein Vorfall im vergangenen Jahr gezeigt: Ein Tesla war im Autopilot-Modus ungebremst auf einen Sattelschlepper gefahren, der Fahrer sofort tot. Womöglich hatte das System den weißen Lkw für den Himmel gehalten – das ließ sich nicht endgültig klären.

Eigentlich hätte der Fahrer trotz angeschaltetem Autopiloten die Hände stets am Lenkrad und die Straße im Blick haben müssen. Doch in Zukunft sollen uns komplett autonome Systeme ablösen, sollen uns während der Fahrt vielleicht lesen oder arbeiten lassen. Google hat einst gar versprochen, dass auf diese Weise auch Blinde Auto fahren können. Wie aber soll das gehen, wenn niemand, nicht einmal die Entwickler selbst, erklären können, wie das Fahrzeug denkt?

Das Problem betrifft bei Weitem nicht nur die autonomen Autos von Nvidia. Auch Banken, das Militär, Krankenhäuser, Versicherungen oder Behörden interessieren sich für die komplexen Ansätze des maschinellen Lernens, die automatische Entscheidungsfindungen immer mächtiger, aber auch immer undurchsichtiger machen. Denn der darin weit verbreitete Ansatz des Deep Learning ist etwas fundamental anderes als das Konzept des Programmierens: Anstatt klare Regeln vorzugeben, sollen diese Computerprogramme aus einer riesigen Menge an Beispielen lernen.

Und hier lauert bereits die erste Fehlerquelle: Was das System lernt, ist von den Trainingsdaten abhängig – und die können das Ergebnis von vorurteilsbehafteten Entscheidungen sein. Das KI-System übernimmt also quasi unbewusst die Vorurteile, die in Trainingsdaten stecken. Forscher um Aylin Caliskan von der Princeton University bewiesen das im April 2017 eindrucksvoll mit scheinbar neutralen Texten: Die Wissenschaftler nutzten für das Training einen der größten computerlinguistischen Wortschätze, den „common crawl corpus“ mit 840 Milliarden Wörtern aus dem englischsprachigen Internet. Ihre künstliche Intelligenz sollte damit selbst lernen, welche Begriffe semantisch zusammengehören.

Das Ergebnis: Die KI fällte implizite Werturteile. Sie ordnete Blumen ebenso wie europäisch-amerikanische Vornamen oft positiven Begriffen zu, wohingegen Insekten sowie afroamerikanische Namen mit negativen Begriffen verbunden wurden. Männliche Namen stehen für die KI semantisch näher an Karrierebegriffen, Mathematik und Wissenschaft. Weibliche Namen assoziierte sie eher mit Familie und Kunst.

Das klingt wie akademische Spielerei, erklärt aber, warum solche Deep-Learning-Systeme eben nicht wie erhofft die sachlich beste Entscheidung getroffen haben, sondern sich von Verzerrungen in den Trainingsdaten haben in die Irre führen lassen. Berühmt geworden ist eine Google-Software zur Bilderkennung, die eine schwarze Frau als „Gorilla“ bezeichnet hatte. Aber es gibt weitere Beispiele: Ein Algorithmus wählte in die Vorauswahl eines Schönheitswettbewerbs nur weiße Frauen; und wer das Wort „Hand“ in die Google-Bildersuche eingibt, bekommt vor allem weiße Hände zu sehen. Wirklich bedenklich wird es, wenn aus den maschinellen Fehltritten menschliche Fehlentscheidungen folgen.

Für reichlich politischen Wirbel sorgt beispielsweise derzeit die Entscheidung der australischen Regierung, Zahlungen der Wohlfahrtsbehörde Centrelink seit 2016 per Software zu überprüfen und automatisiert einzufordern. Centrelink unterstützt unter anderem Arbeitslose, indigene Australier, junge Eltern und pensionierte Staatsdiener. Ein vollautomatischer Abgleich der erhobenen Daten mit denen der australischen Steuerbehörde sollte unrechtmäßige Zahlungen in den vergangenen sechs Jahren aufspüren und dem Staat so vier Milliarden Dollar in die Kassen spülen.

Auf den ersten Blick funktionierte die Software ganz ausgezeichnet und stieß bis Ende 2016 rund 160000 Mahnungen aus. Allerdings gerieten die im Volksmund „Roboterschulden“ genannten Rückforderungen schnell in die Kritik, denn die Software machte grobe handwerkliche Fehler. So soll sie laut „Canberra Times“ beispielsweise nicht mit verschiedenen Schreibweisen von Firmennamen klargekommen sein. Hatte ein Minijobber in seinem Antrag den Namen seines Arbeitgebers anders geschrieben als in seiner Steuererklärung, nahm die Software einfach an, der Antragssteller habe zwei Jobs gehabt, aber nur von einem das Einkommen angegeben. Nur und 20 Prozent aller Forderungen, zitiert die Zeitung eine interne Untersuchung der Behörde, sollen tatsächlich berechtigt sein.

Folgenreich sind maschinelle Entscheidungen wohl auch für die Strafgefangenen in den USA, für die eine Software namens COMPAS eine Abschätzung traf, wie hoch das Rückfallrisiko liegt. Richter sollten so besser entscheiden können, wer länger in Haft bleiben muss. Erst eine Recherche der Journalistenvereinigung ProPublica brachte zum Vorschein, dass der Algorithmus aus den Trainingsdaten geschlossen hatte, dass die Hautfarbe eines der entscheidenden Merkmale für kriminelle Energie sei.

Ist das Problem nicht in den Griff zu bekommen, dürfte sich künstliche Intelligenz zu einem äußerst bedenklichen Werkzeug entwickeln.

(wst)