Aleph Alpha stellt die Codebasis seines KI-Modells MAGMA ab sofort auf GitHub als Open Source bereit. Das Team des deutschen Machine-Learning-Unternehmens Aleph Alpha mit Sitz in Heidelberg und Berlin hatte gemeinsam mit Forscherinnen der Universität Heidelberg das Modell mit rund 200 Milliarden Parametern trainiert. Das Modell ist GPT-3 ähnlich, geht als Vision-Language-Modell mit multimodalen Fähigkeiten jedoch über das Sprachmodell hinaus und versteht laut seinen Herausgebern potenziell jegliche Kombination von Text und Bild. Optional lässt es sich weiterhin auch wie GPT-3 als reines Sprachmodell einsetzen.

Großes Sprachmodell, das auch Bilder versteht

Aleph Alpha hat eine Methode entwickelt, um generierende Sprachmodelle durch adapterbasiertes Feintuning um zusätzliche Modalitäten wie die Bilderkennung zu erweitern. MAGMA steht für "Multimodal Augmentation of Generative Models through Adapter-based Finetuning" – im Kern handelt es sich um selbstüberwachtes Lernen von Repräsentationen nach dem Transformer-Modell von Hugging Face. Das Team von Aleph Alpha machte sich den Ansatz des "Einfrierens" von Sprachmodellen zunutze (gemeint ist das "Multimodal few-shot learning with frozen language models", kurz: Frozen). Anders als Frozen hat MAGMA eine Reihe zusätzlicher Adapter-Layer erhalten, und als Encoder kommt die visuelle Komponente von CLIP zum Einsatz (einer von OpenAI Anfang 2021 vorgestellten Erweiterung von GPT-3, die frei Bilder zu Textbeschreibungen entwirft).

Ein Vortrainieren (Pretraining) im großen Stil gilt zunehmend als die Norm für das Modellieren großer Vision-Language-Modelle (VL). Allerdings stößt die herkömmliche Methode des Daten-Labelns im mehrstufigen Trainingsverfahren bei neuronalen Netzen mit wachsendem Umfang der Modelle an Grenzen. Hinsichtlich der Performance soll das VL-Modell MAGMA mit hoher Treffsicherheit punkten, dabei eine deutlich geringere Menge an gesampelten Daten für das Training benötigt haben als SimVLM ("Simple visual language model pretraining with weak supervision") – MAGMA benötigte laut Team nur 0,2 Prozent der für SimVLM eingesetzten Menge an Beispieldaten). Einem gängigen Benchmarkvergleich zufolge stellt das in Python geschriebene VL-Modell wohl auch den Vorgänger Frozen in den Schatten. Ein auf arXiv.org veröffentlichtes Paper des Aleph-Alpha-Teams erläutert die Funktionsweise von MAGMA und präsentiert die Vergleichswerte.

Design des Vision-Language-Modells MAGMA von Aleph Alpha (Bild: Aleph Alpha)

Multimodales Modell herunterladen und adaptieren

Wer MAGMA ausprobieren oder für eigene Zwecke abwandeln möchte, findet im GitHub-Repository von Aleph Alpha den Code samt einer Anleitung zur Installation. Vorab müssen PyTorch und Torchvision installiert sein, mit dem Befehl pip install -r requirements.txt lassen sich die darüber hinaus notwendigen Elemente installieren. Developer haben die Wahl zwischen den vortrainierten Weights von CLIP (als Default greifbar) oder denen von GPT-J. Zum Trainieren von MAGMA empfiehlt das Team den Weg über Deepspeed, und zwar mit folgendem Befehl: deepspeed train.py --config path_to_my_config .

Das Open-Source-Release eröffnet laut seinem Herausgeber die nächste Stufe der KI-Entwicklung nach GPT-3. Die europäische Antwort auf GPT-3 könnte sich zudem durch die zusätzlichen Fähigkeiten (Multimodalität) und die nun erfolgte Offenlegung des Codes als Alternative zu dem Produkt von OpenAI etablieren. Weiterführende Informationen zum Modell lassen sich auch der Website von Aleph Alpha entnehmen.

(sih)