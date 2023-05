(This article also exists in English.)

Ein Stockfotograf hat den gemeinnützigen Verein LAION verklagt, der sich für Open-Source-KI und quelloffene Datensätze engagiert, die bei Machine-Learning-Modellen wie Stable Diffusion Verwendung finden. Laut Darstellung in seinem Blog habe der Kläger den Verein aufgefordert, seine Bilder "aus den Trainingsdaten für die großen KI-Systeme zu entfernen". Am 27. April 2023 reichte er beim Landgericht Hamburg Klage ein auf Unterlassung der von ihm behaupteten Urheberrechtsverletzung, wie er bei Twitter mitteilte. Vorab hatte der Fotograf Robert Kneschke die Presse kontaktiert, so auch Heise.

Worum es bei dem Streit geht

Kneschke zieht eigenen Angaben nach vor Gericht, um stellvertretend für die gesamte Branche Rechtsklarheit zu erwirken. Er wolle über seinen Einzelfall hinaus auf eine Vergütung der Urheber der Bilder hinwirken, die zum Training großer Machine-Learning-Modelle herangezogen werden. Zusätzlich sprach Heise mit Vertretern des beklagten Vereins und holte bei einem unabhängigen Copyright-Anwalt eine juristische Einschätzung ein. Das Urteil könnte richtungsweisend werden, und Juristen beobachten den Fall daher mit Interesse: Es ist das erste Mal, dass ein Urheber von Fotos die Frage der Vergütung für die Auswertung von Bildern zum ML-Training rechtlich klären lässt. Anders als bei laufenden Untersuchungen – etwa gegen OpenAI oder Stability AI – trifft diese Klage jedoch einen gemeinnützigen wissenschaftlichen Verein. Englischsprachige Berichte und Postings in Soziale Medien haben den Fall teilweise einseitig aufgegriffen und erhitzt diskutiert.

LAION: Ausrichtung und Ziele des KI-Vereins

LAION e.V. (Large-Scale Artificial Open Network) steht laut seinen Gründern für die Demokratisierung Künstlicher Intelligenz und soll vorwiegend der Forschung die neue Technik zugänglich machen. Unter anderem unterstützt er das Replizieren großer proprietärer KI-Modelle, fordert eine internationale Supercomputing-Einheit aus öffentlicher Hand und warnte in einem offenen Brief an das EU-Parlament Ende April vor Überregulierung durch den AI Act. LAIONs Datenbanken enthalten nach Angaben des Vereins keine Pixeldaten, sondern reine Textdaten, Metadaten und URLs, mit denen LAION-400M und LAION-5B auf im Internet andernorts vorhandenes Bildmaterial verweist. Die Datensätze seien laut den Vereinsgründern Indexverzeichnisse (Kataloge) zum Auffinden von Bildmaterial im freien Internet. Es sei möglich, Verweise auf unerwünschte Bilder aus dem Katalog auszusondern. Bilder hingegen könne man nicht entfernen, da der Verein in seinen Datenbanken keine Bilder bereitstelle.

Im deutschen Urheberrechtsgesetz (UrhG) bestehen zwei Ausnahmen für das Text- und Data-Mining, die LAION bei dem Erstellen der großen Bilddatensätze für sich in Anspruch genommen hat: § 44b UrhG sieht eine generelle Ausnahme vor, sofern Bilddaten nur zur Mustererkennung oder Analyse genutzt und die Bild-Text-Paare nach dem Auswerten nicht gespeichert werden. Der spezieller zugeschnittene § 60d sieht weitreichende Ausnahmen für Forschungszwecke vor, wenn die Ergebnisse nicht zur kommerziellen Nutzung gedacht sind oder eventuell erwirtschaftete Einnahmen wieder in die Forschung zurückfließen.

Ausnahmen für Text- und Data-Mining

Der Fotograf stellt die Gemeinnützigkeit und den Forschungszweck des Vereins infrage. In seinem Blog argumentiert er über eine personelle oder wirtschaftliche Verflechtung mit der Firma Stability AI, die er insbesondere zeitlich zu untermauern sucht. Stability AI hatte den Verein finanziell mit einer Spende unterstützt (Angaben des Vereins und Stability AI zufolge "einmalig in geringer Höhe") sowie Rechenkraft zur Verfügung gestellt. Laut notariell beglaubigten Auszügen aus dem Vereinsregister wurde LAION im Februar 2022 offiziell als Verein eingetragen – das Erstellen der Datensätze LAION-400M und LAION-5B fand bereits im Laufe des Jahres 2021 statt. Somit könne der Argumentation des Fotografen nach der Verein für die Zeit vorher Ausnahmen vom Urheberrechtsgesetz nicht in Anspruch nehmen. Kneschke bezweifelt, dass der Verein vor Februar 2022 bereits bestanden habe.

Die Ursprünge von LAION sowie die Forschungsanliegen für das Frühjahr 2021 lassen sich aber aus überwiegend öffentlichen Quellen wie GitHub und Discord gut nachvollziehen. Am 7. Juli 2021 trat die Gründungsversammlung des Vereins zusammen. Die Eintragung in das Vereinsregister sei aus Formgründen nicht direkt geglückt, erklärte Christoph Schuhmann, eines der Gründungsmitglieder, auf Nachfrage. LAION habe damals bereits als nicht eingetragener Verein bestanden, und das Finanzamt Hamburg bestätigte die Gemeinnützigkeit.

Schuhmann zufolge hatte der Fotograf den Verein per Anwalt abgemahnt und gefordert, "seine Bilder aus dem Datensatz zu entfernen". Er habe eine Anzeige wegen vorsätzlicher Urheberrechtsverletzung in tausenden Fällen in Aussicht gestellt und angekündigt, für jeden einzelnen Fall Forderungen zu erheben. Aufgrund der Abmahnung habe der Verein sich einen Anwalt nehmen müssen. Technisch ist es nicht notwendig, Bilder zu bevorraten: Im Kern geht es daher bei der Auseinandersetzung darum, ob das Verarbeiten der Bilder zum Erstellen eines Indexwerks rechtmäßig war.

Einschätzung eines Copyright-Anwalts

Laut dem Berliner Copyright-Anwalt Dr. Till Jaeger ist der Fall insoweit unspektakulär: Zunächst geht es um den rechtsüblichen Kostenersatz bei Abmahnung (nicht um "Schadensersatz", wie im Blogeintrag des Fotografen steht) – wer abgemahnt wird, kann sich in Deutschland dagegen wehren. Sofern LAION in seinen Datensätzen keine Bilddaten speichert, bewege es sich im Rahmen der Urheberrechtsschranke in § 44b des deutschen Urheberrechtsgesetzes (UrhG), die eine Ausnahme für Text- und Data-Mining vorsieht. Demnach ist in Deutschland das Auswerten und Analysieren frei zugänglicher Daten zur Mustererkennung erlaubt, sofern nach dem Training oder der Analyse keine Kopie der Bilder aufbewahrt wird.

In den von LAION bereitgestellten Datensätzen LAION-400M und LAION-5B sind laut Verein keine pixelierten Daten enthalten, lediglich Textdaten, Text Embeddings und URL-Verweise auf Bild-Text-Paare, die im freien Internet verfügbar sind. Bei den Datensätzen handelt es sich somit um einen Katalog mit Indexverweisen auf jeweils 400 Millionen beziehungsweise im Falle von LAION-5B fünf Milliarden frei zugänglicher Bilder. Der dritte Absatz schränkt ein, dass eine Nutzung nur zulässig sei, wenn der Rechtsinhaber sich diese nicht vorbehalten habe. Allerdings sei ein Nutzungsvorbehalt nur dann wirksam, wenn er "in maschinenlesbarer Form" erfolgt.

Wer verhindern möchte, dass die eigenen Bilder für maschinelles Training genutzt werden, müsste laut Gesetzestext also im Voraus ein maschinenlesbares Opt-out hinterlegt haben, etwa in einer robot.txt-Datei. Das Auswerten von Bildern durch automatisierte Analyse einzelner oder mehrerer digitaler sowie digitalisierter Werke zum Gewinnen von Informationen über etwa Muster, Trends und Korrelationen gilt im deutschen Urheberrecht als zulässig. Dabei ist auch die Vervielfältigung rechtmäßig zugänglicher Werke für das Text- und Data-Mining erlaubt. "Die Vervielfältigungen sind zu löschen, wenn sie für das Text- und Data-Mining nicht mehr erforderlich sind", heißt es im zweiten Abschnitt in §44b UrhG.

§60d UrhG: Forschung und Gemeinnützigkeit

Gerichtlich wäre nun zu klären, ob bei den Bildern, die Kneschke beanstandet, ein solcher Nutzungsvorbehalt maschinenlesbar vorab hinterlegt war und ob beim Zusammenstellen des Datensatzes solch ein vorab hinterlegter Widerspruch gegen maschinelle Auswertung gegebenenfalls Berücksichtigung fand oder nicht. Der Verein beruft sich zudem auf § 60d UrhG: Text- und Data-Mining für Zwecke der wissenschaftlichen Forschung. Hierfür wäre ausschlaggebend, dass Forschungsorganisationen nicht kommerzielle Zwecke verfolgen, sämtliche Gewinne in die wissenschaftliche Forschung reinvestieren (sofern Gewinne anfallen) oder im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig sind. Die Forschungsorganisationen dürfen nicht mit privaten Unternehmen zusammenarbeiten, die bestimmenden Einfluss auf die Forschung nehmen oder bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung haben.

Wissenschaftliches Wirken ist in öffentlichen Beiträgen der LAION-Community ab 2021 greifbar. So hatte das Projekt Crawling@Home (an dem LAION maßgeblich beteiligt war) den Kern der Software für die Zusammenstellung von LAION-400M Commits zufolge zwischen Juni und August 2021 etabliert, und LAION-400M wurde im August 2021 fertiggestellt. Damals schrieben LAION-Mitglieder das LAION-400M-Paper, das sie im November 2021 bei ArXiv hochluden und im Rahmen des Datacentric AI Workshops von Andrew Ng auf der renommierten NeurIPS-Konferenz veröffentlichten. Im September 2021 erschien ein Paper, das sich mit den Inhalten von LAION-400M kritisch auseinandersetzt. Der Vereins-Mitgründer Christoph Schuhmann kam im Dezember 2021 erstmals mit Emad Mostaque (dem CEO von Stability AI) in Kontakt, wie aus Screenshots von Chatverläufen hervorgeht. Zu diesem Zeitpunkt existierten der Verein und der erste Datensatz bereits, und die Arbeiten an LAION-5B waren Schuhmann zufolge weit fortgeschritten. Das LAION-Team erhielt zwischenzeitlich eine in der Forschungsgemeinde anerkannte Auszeichnung (den Outstanding Paper Award NeurIPS 2022).

Wann lizenzfreie Nutzung zum Training infrage kommt

Die deutsche Regelung nach §44b UrhG basiert auf europäischem Recht, und zwar laut dem Berliner Urheberrechtsanwalt Dr. Till Jaeger auf der DSM-Richtlinie (Digital Single Market) zum Urheberrecht im digitalen Binnenmarkt. Da die automatisierte Analyse der Mustererkennung im Machine Learning dient, dürfte es sich um einen typischen Anwendungsfall handeln. Damit können urheberrechtlich geschützte Trainingsdaten wie Bilder aus dem Internet lizenzfrei für das Machine Learning verwendet werden, wie der Fachanwalt für Urheberrecht in einem Heise-Artikel schreibt. Im US-amerikanischen Raum wäre die Rechtslage anders: Dort stünde die Frage im Vordergrund, ob die Verwendung von Bildern unter "Fair Use" fällt und damit ohne Lizenz erlaubt wäre. Auch dies bezieht sich auf das bloße Training.

In laufenden Gerichtsfällen gegen Anbieter trainierter Modelle dürfte nach Einschätzung des Juristen wesentlich sein, ob konkrete Bilder reproduzierbar sind (was über das Identifizieren von Bildmaterial, das zum Training verwendet wurde, hinausgeht). Bilder werden nach Angaben des wissenschaftlichen Leiters des Vereins, Dr. Jenia Jitsev vom Forschungszentrum Jülich, von verschiedenen Forschungsgruppen auf der ganzen Welt bezogen, die ihre Forschung lokal auf eigenen Maschinen betreiben und diese Bilder niemandem sonst zur Verfügung stellen. LAION e.V. biete bislang nur indexartige Datensätze mit Verweisen ins Internet, die von Dritten zum Erstellen von Modellen verwendet werden.

"KI kopiert nicht stumpf Teile existierender Bilder"

Der Gerichtsstreit steht in einem größeren Kontext: Die den Bildgeneratoren zugrundeliegenden künstlichen neuronalen Netze sind auf Milliarden von Bild-Text-Paaren aus dem Internet vortrainiert. Mit den neuen technischen Möglichkeiten sieht sich die Berufsgruppe der Kreativen mit einer existenziellen Herausforderung ihrer Einkommensgrundlage konfrontiert, um Fragen des Urheber- und Leistungsschutzrechts ringen Vertreter verschiedener Interessengruppen. Der Stockfotograf und Blogger Robert Kneschke lebt von den Einnahmen aus der Vermarktung und Verwertung seiner Bilder. Das Portfolio des ehemaligen Hobbyfotografen umfasste bereits vor zehn Jahren über 13.000 Bilder, die er überwiegend auf Stock-Image-Seiten anbietet. In einem Ratgeberbeitrag von t3n hatte Kneschke 2014 erklärt, wie Fotografen im Monat auf über 10.000 Euro Umsatz kommen können. Bei Heise hat er 2020 in einem Gastbeitrag das Geschäftsmodell erläutert und berichtet, wie der Markt sich in den letzten 20 Jahren gewandelt hat.

Kneschke setzt selbst KI ein: So umfasst sein eigenes Portfolio mittlerweile rund 3.000 KI-generierte Stockbilder und er richtet kommerzielle Kurse zur Arbeit mit KI-Generatoren aus. Er sieht sich nicht als Gegner von KI-Bildgeneration, wie er gegenüber Heise betonte. Ihm gehe es um das Prinzip und um die rechtliche Klarstellung, wie es um die Verwertung von Bildern bestellt sei. Mit dem Erstellen von Bildern durch KI hat er sich theoretisch wie praktisch auseinandergesetzt und erklärt in seinem Blog das Generieren von Bildern in Modellen wie Stable Diffusion. Dass den KI-Modellen keine Bilddatenbanken zugrunde liegen, ist Kneschke bekannt. In einem Blogeintrag erklärt er die Funktionsweise von Stable Diffusion: So kopiere "die KI nicht einfach stumpf Teile existierender Bilder, sondern die Informationen kommen aus dem sogenannten latenten Raum".

Klärung im öffentlichen Interesse

Die Beteiligung von Künstlern und Urhebern an derivativen Werken ist zurzeit noch ungeregelt und werde "vermutlich bald von Gerichten geklärt werden müssen", so Kneschke. Dabei werden die Gerichte vor einem grundsätzlichen Problem stehen: Die Modelle interpolieren aus dem Latent Space heraus Werke, denen kein eindeutig identifizierbares Einzelwerk mehr zugrunde liegt – das Prinzip des Copyrights und Urheberrechts setzt jedoch eindeutig identifizierbare Werke voraus.

Dem Fotografen geht es nach eigenen Angaben nicht darum, "nicht im Datensatz zu sein". Seine Klage betrachtet er als Beitrag zur Klärung, ob die Gesetze eingehalten werden. Das Ziel sei eine angemessene Vergütung für die Urheber. Als Stockfotograf leben er und seine Kollegen davon, dass Bilder samt Textbeschreibung bei Agenturen zu finden sind – ein Rückzug aus dem Internet komme daher nicht infrage. Ein Problem sei, dass man als Stockfotograf keine Kontrolle darüber habe, was Kunden nach dem Kauf eines Bildes mit den Bildern anstellen: Die Bilder tauchen vervielfältigt auf im öffentlichen Raum. Ein maschinenlesbares Opt-out geht unterwegs leicht verloren. Auch sei der Aufwand als Betroffener immens, wenn man jedes Bild einzeln per Hand runternehmen müsste. Die Millionen gut beschriebener Stockbilder seien wertvoll für das Machine Learning.

Einerseits gibt es das Anliegen der Bildschaffenden und Kreativen, die vom Produzieren und Lizenzieren ihrer Arbeit leben. Auf ihre öffentlich einsehbare Werken wurden KI-Modelle trainiert, ohne dass sie dem zugestimmt hätten – und ihre Einkünfte schrumpfen auch noch durch die automatisch generierten KI-Erzeugnisse. Andererseits bestehen Spannungen zwischen proprietären und quelloffenen Ansätzen und Tendenzen der Monopolbildung. Es liegt im öffentlichen Interesse, dass Menschen künftig eine Auswahl haben bei generativer KI durch verschiedene Angebote und Anbieter und dass ein Interessenausgleich stattfindet.

Wie es weitergeht

Wie es im Fall Kneschke gegen LAION weitergeht, bleibt spannend. Schließlich befindet sich das Urheberrecht in Zeiten generativer KI-Systeme unter Druck, und neue Fälle können zur Klärung beitragen.

[Disclaimer: Die Kanzlei von Heise-Justiziar Joerg Heidrich vertritt LAION in dem Verfahren. An der Erstellung des Artikels war er nicht beteiligt.]

(sih)