Künstliche Intelligenz – zwischen Hype und Realität

Daten sind voreingenommen

Inhaltsverzeichnis

Der Schlüssel zum Erfolg sind Daten, viele Daten. Sie helfen einem KI-System zu lernen. Technisch gesprochen trainiert man ein maschinell gelerntes Modell. Dieses Modell, heutzutage häufig ein Deep Neural Network, benötigt repräsentative Daten, die die Muster und Ergebnisse abbilden, mit denen das neuronale Netz trainiert werden soll. Allerdings wäre es großartig, wenn sich in diesen Daten nicht zufällig andere Muster finden, wie Bilder mit Autos immer vor einem strahlend blauen Himmel, während Fahrradfahrer fortwährend im Regen auftauchen. Da könnte es durchaus passieren, dass das Muster hier strahlend blauer Himmel und Regen ist und nicht nur Auto und Fahrrad.

In einer aktuellen Studie [2] wurden die Gesichtserkennungsdienste von Microsoft, IBM und Face++ untersucht. Sie erkennen Gesichter und Geschlechter von Personen auf Fotos. Das Ergebnis war, dass grundsätzlich männliche Gesichter (8,1 % Fehlerrate) besser erkannt wurden als weibliche (20,6 % Fehlerrate). Zusätzlich wurden Gesichter mit hellerer Hautfarbe besser erkannt (11,8 % Fehlerrate) als Personen mit dunkler (19,2 % Fehlerrate). Die Dienste von Microsoft und IBM funktionierten am besten mit männlichen Personen mit heller Hautfarbe (~0,3 % Fehlerrate). Offensichtlich bestand der Datensatz, mit dem trainiert wurde, aus vielen männlichen Gesichtern mit heller Hautfarbe.

Das mag an der Stelle nicht wirklich kritisch sein, aber es zeigt den Einfluss des Datensatzes auf das resultierende Modell. Zudem ist es schwierig zu erkennen und zu qualifizieren, wann ein Modell homogen ist oder wann es "biased" ist. Hier muss noch einiges zum Thema Datenqualität passieren – eine eindeutige Metrik, die erkennen lässt, wie der Datensatz das Modell beeinflusst. Hierzu gibt es im Forschungsbereich bereits Arbeiten, die das Resultat eines Modells zurückrechnen auf die Daten und aussagen können, welches Feature das Resultat beeinflusst hat.

Ein weiteres Beispiel, bei dem die Benutzung neuronaler Netze kritisch zu betrachten ist, sind sogenannte Adversarial Attacks ("gegnerische Angriffe"). Sie zielen darauf ab, dass manche (oder fast alle) Modelle völlig instabil sind, wenn dem klassifizierten Bild ein spezielles Rauschen hinzufügt wird. Für das menschliche Auge ist dieses Rauschen völlig irrelevant und hat keinen Einfluss auf die Erkennung des Bildes. Das Modell wird aber so verwirrt, dass es das Bild völlig falsch klassifiziert. In einem Paper von 2015 [3] wurde untersucht, wie leicht sich Deep Neural Networks verwirren lassen. Dabei wird nicht nur Rauschen verwendet, sondern auch Bilder, die wirre Muster darstellen. Der Mensch erkennt meistens nichts darin, das Modell, das für eine spezifische Aufgabe trainiert wurde, versucht aber ein Ergebnis zu liefern und klassifiziert eine grüne Fläche als Schlange oder eine rot gemusterte als Akkordeon.

In einem ähnlichen Fall kann jeder das mit einem Service von Microsoft testen. Der Computer Vision Service liefert zu einer Liste von Dingen, die auf dem Bild erkannt werden, auch eine Beschreibung der Szene. Auf der Website kann man ein eigenes Bild hochladen und bekommt dann die Beschreibung. Das funktioniert manchmal ganz gut, aber manchmal wird auch ein eher überraschendes Resultat zurückgegeben. Das Experiment ist beispielhaft in der Abbildung zu beobachten:

Klar, die Umsetzung ist etwas experimentiert, aber man findet schnell den Sweet-Spot (Abb. 2).

Ähnliches findet man in einer Studie von 2016 [4], die sich mit Adversarial Examples in Bezug auf Gesichtserkennung beschäftigt. Hier ist es Forschern gelungen, die Gesichtserkennung mit einer farbigen Brille soweit zu verunsichern, dass ein Mann aus dem Team als Milla Jovovich erkannt wurde. Klingt zunächst lustig, ist aber in der Konsequenz ein wenig bedenklich.

In einem weiteren Paper [5] konnten Forscher sogar die Spracherkennung von Google austricksen. Der Ansatz ist ähnlich: Es wird ein spezielles Rauschen auf die Audiodaten gemischt. Für das menschliche Gehör hat sich nichts geändert, dieSpracherkennung nimmt allerdings einen völlig anderen Inhalt wahr. Man könnte nun also bei jemandem anrufen, der einen dieser Sprachassistenten zu Hause hat und über den Anrufbeantworter einen Text übermitteln, der sich wie eine Begrüßung anhört, in Wahrheit aber eine Bestellung ausführt.

Es ist sicherlich gut, dass daran geforscht wird, die derzeitigen Grenzen oder Schwachstellen zu erkennen, um entsprechend an Lösungen zu arbeiten. So gibt es Ansätze, die Daten möglichst wild zu mischen, zu drehen und zu verwaschen (Augmentation), um den Einfluss vom Rauschen zu minimieren.

Ein interessanter Ansatz sind sogenannte GANs (Generative Adversarial Networks), bei denen es sich um zwei neuronale Netze handelt. Das eine Netz (Generator) erzeugt Bilder und präsetinert dem anderen entweder das generierte oder ein wirkliches Bild aus dem Datenpool. Das andere Netz (Diskriminator) versucht zu klassifizieren, ob es sich bei dem Bild um ein generiertes oder ein wirkliches Bild handelt. So werden beide Netze verbessert, da der Generator ein möglichst perfektes Bild erzeugen und der Diskriminator möglichst so gut sein möchte, das generierte Bild immer zu erkennen.

Das Generieren von Ergebnissen mit einem KI-Systems wird zudem auch in einem anderen Bereich verwendet. Beim Arbeiten mit Texten oder Musikstücken, also im Prinzip sequenziellen Daten, werden heutzutage Recurrent Neural Networks (RNNs) eingesetzt. Das sind Deep Neural Networks, die hintereinandergeschaltet sind und somit eine Abfolge von Informationen verarbeiten können. Diese Netze lassen sich mit Texten trainieren und sind dann in der Lage, selbst Texte zu produzieren. So hat Andrej Karpathy Texte von Shakespeare in ein RNN eingelesen [6]. Das trainierte RNN-Modell war danach in der Lage, neue Texte, die wie Shakespeare-Text aussahen, zu produzieren. Ähnliches kann man benutzen, um Mozarts Requiem zu Ende zu komponieren oder einfach neue Rock- und Pop-Songs zu erzeugen, die wie von Ed Sheeran oder Lady Gaga klingen.