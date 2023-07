Öffentlich zugängliche Quellen werden von Google genutzt, um die eigenen KI-Modelle weiterzuentwickeln und zu trainieren. Das ist zwar bei dem aktuellen Hype wenig überraschend, bisher hatte es Google allerdings anscheinend nicht für nötig befunden, diesen Passus auch in der Datenschutzerklärung und als Nutzungsbedingung festzuhalten. In den Archivversionen ist von Künstlicher Intelligenz noch gar nicht die Rede, stattdessen geht es um Sprachmodelle und das Training dieser für Funktionen wie Google Translate. Sucht man in der aktuellen Ausgabe vom 1. Juli 2023 nach den Buchstaben K und I, findet man 40 Mal das Wort Cookies, was recht aussagekräftig für Googles Geschäftsmodell ist, zweimal tauchen Kinder auf und neuerdings auch ein Absatz zu Künstlicher Intelligenz.

"Beispielsweise erheben wir Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen wie Google Übersetzer, Bard und Cloud AI weiterzuentwickeln. Wenn Ihre Unternehmensinformationen auf einer Website erscheinen, können wir sie indexieren und in Google-Diensten anzeigen", heißt es in dem kurzen Abschnitt der neuen Datenschutzerklärung und Nutzungsbedingung. Knapp zusammengefasst: Wir nutzen alles, was nur irgendwie greifbar ist, um damit unsere KI-Modelle zu füttern, auf denen Bard und Cloud AI aufsetzen.

Gehört Google das Internet?

Das bedeutet auch, alles, was jemand im Internet öffentlich schreibt oder kommuniziert, wird in einem Chatbot landen können, der es auf Nachfrage wieder ausgibt. Googles Indexierung funktioniert im Grunde freilich genauso, die Ausgabe ist bisher jedoch eine andere gewesen. Während die Suchergebnisse mehreren Rankingfaktoren unterliegen, wie etwa einer gut und schnell funktionierenden Webseite, aber auch inhaltlichen Kriterien, ist es eher eine Blackbox, wie und warum ein Sprachmodell auf eine Frage antwortet.

An dem Absatz ist allerdings auch spannend, dass Google keine Ausnahme zu kennen scheint. Während man verhindern kann, dass Google Webseiten und Inhalte indexiert, sieht zumindest die Datenschutzerklärung das nicht für potenzielle KI-Trainingsdaten vor. Datenschutzrechtlich dürfte das schwierig sein – als würde es eine Einwilligung zu Googles Datenschutzerklärung geben, wenn man das Internet nutzt. Urheberrechtlich scheint das Vorgehen keine Schwierigkeiten zu machen. Es sind öffentlich zugängliche Daten, die zwar genutzt werden, aber nicht gespeichert.

