Mit KI gegen Fake-News

Lässt sich automatisch erkennen, ob man Nachrichten auf einer Website Vertrauen schenken kann? Ein Forscherteam hat das versucht – mit bislang nicht überzeugenden Ergebnissen.

Lesezeit: 5 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag
Mit KI gegen Fake-News

(Bild: MS. TECH)

Von
  • Karen Hao

Künstliche Intelligenz werde dazu beitragen, das Problem von Fake News zu lösen, versprach der Facebook-Chef Mark Zuckerberg in diesem April dem US-Kongress. Allerdings verriet er wenig darüber, wie das funktionieren könnte.

Eine neue Studie liefert jetzt Anhaltspunkte dazu: Forscher von MIT, Quatar Computing Research Institute (QCRI) und der Sofia Universität in Bulgarien haben mehr als 900 mögliche Variablen auf die Frage überprüft, ob sie die Glaubwürdigkeit eines Medien-Angebots erkennen lassen können. Eine umfangreichere Untersuchung zu diesem Thema dürfte es noch nie gegeben haben.

Mehr Infos

Um eine Kombination von Variablen zu finden, die möglichst genaue Ergebnisse liefert, trainierten die Forscher ein Maschinenlern-Modell. Doch selbst das beste auf diese Weise identifizierte Modell war nicht sehr genau: Es bewertete die Faktentreue von Medien mit „gering“, „mittel“ oder „hoch“, lag dabei aber nur in 65 Prozent der Fälle richtig.

Das ist alles andere als ein durchschlagender Erfolg. Doch zumindest liefert das Experiment wichtige Informationen darüber, wie das Überprüfen von Fakten durch Maschinen funktionieren könnte. Preslav Nakov, leitender Wissenschaftler am QCRI und einer der Autoren der Studie, ist nach eigenem Bekunden optimistisch: Die Quellen von Fake-News lassen sich auf diese Weise durchaus automatisch identifizieren, sagt er.

Allerdings heißt das nicht, dass das einfach wäre.

Vier Hauptansätze

Seit der US-Präsidentschaftswahl 2016 hat die Menge an Forschungsarbeiten zur Erkennung von Fake-News explosionsartig zugenommen. Dabei haben sich vier Hauptansätze herauskristallisiert: Überprüfung einzelner Tatsachen-Behauptungen, Erkennen gefälschter Artikel, Aufspüren von Trollen und Bewertung der Glaubwürdigkeit von Nachrichten-Quellen. Nakov und die übrigen Forscher entschieden sich für den vierten Weg, weil er dem Ursprung von Falschinformationen am nächsten kommt. Zudem wurde er bislang am seltensten untersucht.

In früheren Studien wurde versucht, die Zuverlässigkeit eines Angebots anhand der Frage zu beurteilen, wie viele seiner Aussagen zu Aussagen passen, die bereits auf ihre Korrektheit überprüft wurden, oder ihnen widersprechen. Eine Maschine vergleicht also die Historie von Tatsachen-Behauptungen von Medien mit den Befunden von Checking-Seiten wie Snopes oder PolitiFact. Doch dieser Mechanismus basiert auf Fakten-Überprüfungen durch menschliche Experten und bezieht sich nur auf die Geschichte eines Angebots, nicht auf die Gegenwart. Bis die neuesten Behauptungen auf ihren Wahrheitsgehalt überprüft sind, „ist es schon zu spät“, sagt Nakov.

Um Falschnachrichten fast in Echtzeit zu erkennen, trainierten Kanov und Kollegen ihr System mit Hilfe von Variablen, die unabhängig von menschlichen Fakt-Checkern verwendet werden können. Dazu zählten Inhaltsanalysen wie die Satzstruktur von Überschriften und die Wort-Vielfalt in Artikeln; hinzu kamen Indikatoren für die gesamte Site wie die URL-Struktur und die Beliebtheit sowie eine Messung des Einfluss anhand von Social-Media-Aktivitäten und möglichen Wikipedia-Seiten.

Bei der Auswahl dieser Variablen nutzten die Forscher zum einen frühere Forschungsarbeiten, in denen zum Beispiel gezeigt wurde, dass Fake-Artikel tendenziell wenige sprachliche Vielfalt aufweisen. Zum anderen bildeten sie auch neue Hypothesen.

Indem sie unterschiedliche Kombinationen ihrer Variablen testeten, konnten die Forscher dann feststellen, welche davon am besten die Zuverlässigkeit einer Nachrichten-Seite vorhersagen. Ob es eine Wikipedia-Seite über das jeweilige Angebot gab, hatte zum Beispiel große Vorhersagekraft. Zudem fanden sich bei dieser Übung weitere Variablen, die in Zukunft näher untersucht werden können.

Datenmangel

Aber es gibt noch eine weitere Hürde: einen Mangel an Trainingsdaten – Nakov bezeichnet sie als die „Basis-Wahrheit“.

Bei den meisten Maschinenlern-Aufgaben ist es nicht schwierig, die Trainingsdaten richtig auszuzeichnen. Wenn Sie ein System entwickeln, das Artikel über Sport erkennen soll, muss nur gekennzeichnet werden, ob sie mit dem Thema zu tun haben oder nicht. Diese Daten können Sie dann in eine Maschine eingeben, die anhand des Materials die Merkmale eines Sport-Artikels erlernt.

Großen Medien-Angeboten das Etikett hoher oder geringer Faktentreue zu verpassen, ist demgegenüber deutlich heikler. Diese Entscheidung müssen professionelle Journalisten treffen, die strenge Methoden anwenden, und sie ist ein zeitintensiver Prozess. Als Folge davon ist es schwierig, einen soliden Korpus an Trainingsdaten aufzubauen – einer der Gründe dafür, dass die Trefferquote des Modells in der Studie so mäßig ausfiel. „Die offensichtlichste Möglichkeit, um die Genauigkeit zu erhöhen, liegt darin, mehr Trainingsdaten zu bekommen“, sagt Nakov.

Als „Basis-Wahrheit“ bei seiner Studie diente Media Bias Fact Check, eine Organisation, die 2500 Medien-Quellen bewertet hat – nach Maschinenlern-Maßstäben ist das sehr wenig. Doch laut Nakov wird diese Datenbank beständig vergrößert. Außer mit mehr Trainingsdaten wollen die Forscher die Leistung ihres Modells außerdem mit mehr Variablen erhöhen, beispielsweise zur Struktur einer Website, der Frage, ob sie Kontakt-Informationen angibt, und ihre Muster beim Einstellen und Löschen von Inhalten.

Parallel dazu hat das Team mit dem Aufbau einer eigenen Nachrichten-Plattform begonnen, bei der Leser Hinweise zu jeder gezeigten Nachricht und ihrer Quelle bekommen sollen.

Obwohl noch einiges zu tun ist, glaubt Nakov, dass derlei Technologie dazu beitragen kann, die Ausbreitung einer Fake-News-Epidemie relativ schnell zu stoppen, wenn Plattformen wie Facebook und Twitter das wirklich wollen. „Es ist wie der Kampf gegen Spam“, schreibt er in einer Skype-Nachricht. „Wir werden Fake-News nie ganz stoppen können, aber wir können sie unter Kontrolle bekommen.“

(sma)