Von Menschen erstellte Datensätze werden im KI-Zeitalter immer wichtiger. Zu diesem Schluss kommt eine britische Studie von Wissenschaftlern der Universitäten Oxford, Cambridge und London. Genau solche Datensätze könnten aber zur Mangelware werden. Die heute gängigen großen Sprachmodelle (Large Language Models, LLMs) inklusive GPT-4 wurden noch vorwiegend an von Menschen generierten Datensätzen aus dem Netz trainiert. Nach einem zweiten Lerndurchgang mit menschlichem Feedback zur Feinabstimmung funktionieren solche KI-Anwendungen durchaus gut, konstatieren die Autoren der Studie.

Demenz durch Training an KI-Daten

Ein solcher Lernprozess werde aber angesichts der raschen Verbreitung von KI-generierten Texten im Netz zukünftig nicht mehr so einfach möglich sein. Die nächste Generation von KI-Anwendungen werde unweigerlich auch an Datensätzen im Netz trainiert, die nicht von Menschen, sondern von früheren KI-Anwendungen erstellt wurden. "Genauso wie wir die Weltmeere mit Plastikmüll und die Atmosphäre mit CO₂ verdreckt haben, sind wir jetzt dabei, das Internet mit Blah zu füllen." Das löse unumkehrbare Defekte aus, die in Folge ein daran trainiertes KI-Modell kollabieren ließen, heißt es in der Studie.

Nach mehreren solchen Iterationen gingen nämlich alle Verbindungen zum ursprünglichen Inhalt vollständig verloren und danach werde nur noch Textmüll produziert, schreiben die Autoren der Studie "Der Fluch der Rekursion". Training von KI-Anwendungen an künstlich generierten Daten mache die "Künstliche Intelligenz" nämlich vergesslich.

Sammelklage gegen OpenAI und Microsoft

Die Nutzung menschlich generierter Daten ist jedoch konfliktträchtig, wie ein aktuelles Beispiel zeigt: In den USA läuft seit Ende Juni eine erste Sammelklage einer großen Anwaltsfirma aus Kalifornien gegen OpenAI und Microsoft wegen des massenhaften Abzugs von privaten Benutzerdaten aus dem Internet. Für das Training der KI-Anwendung ChatGPT seien Daten im Umfang von 300 Milliarden Wörtern ohne Einwilligung aus dem Netz abgegriffen worden, heißt es in der Klageschrift. Die Sammelklage gegen den systematischen Datenabzug in den USA wird im Namen von 16 Klägern geführt, die in der Klageschrift allerdings nur mit ihren Initialen gelistet sind. Insgesamt wird ein Schadenersatz von drei Milliarden Dollar verlangt.

