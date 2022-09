Der frei verfügbare Text-zu-Bildgenerator Stable Diffusion erregt seit August 2022 Aufsehen. KI-gestützte Bildgenerierung hört jedoch nicht bei statischen Bildern auf, sondern berührt die Produktion von Bewegtbild und Filmen. Neue Tools und Techniken für das Filmemachen zeichnen sich ab: Mit Text-zu-Video-Produktionen ist verstärkt zu rechnen, unter anderem das Team hinter Stable Diffusion arbeitet Tweets zufolge an der Weiterentwicklung des eigenen Modells für einen solchen Einsatz. Der frühere KI-Chef von Tesla Andrej Karpathy führte ein mit Stable Diffusion erstelltes Video vor, für das er den Code auf GitHub bereitstellt.

Hinter Stable Diffusion steht ein Zusammenschluss von Forschungsteams aus dem Umfeld einer Computer-Vision-Gruppe der Universitäten Heidelberg und München, zudem unterstützen die Community von LAION und die Gruppe EleutherAI das Projekt. Die Graswurzelbewegung EleutherAI hatte während der geschlossenen Phase von GPT-3 bereits quelloffene Alternativen hervorgebracht, namentlich GPT-J und GPT-Neo. Hierzu hatten Mitarbeiter des Heidelberger Start-ups Aleph Alpha wesentliche Codespenden beigetragen. Hinter Stable Diffusion steht mit Stability AI erneut ein kleineres privates KI-Unternehmen, das das Projekt finanziell trägt. Das Motto der Firma lautet schlicht: "AI to augment the potential of humanity."

Stand bei den großen Sprachmodellen

Beim Anbieter der proprietären Systeme GPT-3 und DALL·E wiederum sitzt seit September 2020 Microsoft als Geldgeber mit ihm Boot: Der Konzern hatte sich für eine Milliarde US-Dollar die exklusiven Rechte an GPT-3 gesichert, um dessen Fähigkeiten unter anderem in Cloudprodukten zu nutzen. Zwischenzeitlich stellte Microsoft in Zusammenarbeit mit Nvidia das Megatron-Turing Natural Language Generation Model vor (MT-NLG), und hinter den Kulissen arbeitet OpenAI an GPT-4. OpenAI hatte bis zum Release seines Modells GPT-2 noch tieferen Einblick in seine Forschung gewährt, seither hält die Forschungsabteilung des Unternehmens sich bedeckt. Zum Entwicklungsstand von GPT-4 kursieren bislang nur Andeutungen und Vermutungen.

Als europäische Alternative bietet das deutsche Unternehmen Aleph Alpha große Sprachmodelle mit multimodalen Fähigkeiten (Luminous mit MAGMA), und in Frankreich ist auf staatliche Initiative hin gemeinsam mit Huggingface das Modell BLOOM entstanden (etwas verhaltenes Nutzerfeedback hierzu auf Twitter). Ein Konsortium rund um den KI-Bundesverband hat ein mit 400 Millionen Euro veranschlagtes Großprojekt namens LEAM konzipiert, dessen Finanzierung aber wohl noch unsicher ist. Aufgrund hoher Anforderungen an die Hardware ist es in dem rasch wachsenden, kostenintensiven Feld offenbar nicht ganz einfach, sich zu behaupten und etwas Eigenständiges aufzubauen, statt den Zugang zu großen Modellen anderer oder die zum Entwickeln und Betreiben der eigenen Modelle nötige Rechenpower bei einem der Hyperscaler zu mieten.