KI-Sprachmodell: Meta schickt den nächsten GPT-3-Herausforderer ins Rennen

Effizienter, flexibler und offener als GPT-3 lautet das Versprechen für die unter dem Namen OPT veröffentlichten Transformermodelle.

Lesezeit: 4 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 2 Beiträge

(Bild: lassedesignen/Shutterstock.com)

Von
  • Rainald Menge-Sonnentag
Inhaltsverzeichnis

Die KI-Abteilung von Meta hat mit Open Pre-trained Transformer (OPT) Language Models große Sprachmodelle (Large Language Models, LLM) angekündigt. Das ehemals als Facebook geführte Unternehmen will acht Modelle veröffentlichen, die zwischen 125 Millionen und 175 Milliarden Parameter aufweisen. Die Sprachmodelle dienen dazu, automatisiert Texte zu erstellen, deren Grundlagen sie anhand eines umfangreichen Trainingskorpus aus dem Internet gelernt haben.

In einer Abhandlung auf arXiv stellen 19 Forscherinnen und Forscher von Meta AI das Konzept und die Modelle vor, die sie mit GPT-3 (Generative Pre-trained Transformer) vergleichen. OpenAI hat das derzeit wohl bekannteste Sprachmodell, das ebenfalls auf 175 Milliarden Parameter kommt, zwar bereits im Sommer 2020 vorgestellt, aber den Zugriff anfangs nicht öffentlich freigegeben. Zunächst wollte das Unternehmen verhindern, dass das Modell Vorurteile verinnerlicht. Im November 2021 hat OpenAI die eigenen Sicherheitsmaßnahmen als ausreichend befunden und seitdem die API geöffnet.

Damit haben inzwischen alle Interessierten freien Zugriff auf die Programmierschnittstelle, um Texte mit GPT-3 zu erstellen. In die Arbeitsweise des Modells gibt OpenAI jedoch keinen Einblick. An der Stelle präsentiert Meta sein Modell als offene Alternative, was das "Open" im Namen betonen soll.

Meta macht keinen Hehl daraus, dass GPT-3 als Vorbild dient: In dem Fazit der Abhandlung heißt es "unser Ziel war es, die Performance und die Größe der GPT-3-Modellklasse nachzubilden und dabei die jüngsten Best Practices beim Kuratieren der Daten und bei der Effizienz des Trainings umzusetzen".

Als Texte für das Pre-Training nutzt das Team unter anderem einen Teil des noch zu Facebook-Zeiten veröffentlichten RoBERTa-Korpus, der auf Googles Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) aufbaut. Hinzu kommen Teile der Datensätze The Pile und Pushshift-Reddit.

Laut der Abhandlung soll das Entwickeln von OPT-175B nur ein Siebtel des CO2-Fußabdrucks des gleich großen GPT-3 Modells aufweisen, wobei der Text darauf hinweist, dass die geschätzten Zahlen keine festen Fakten und die Methoden zum Schätzen nicht standardisiert sind.

Meta will die eigenen Transformermodelle "vollständig und verantwortungsbewusst" mit allen interessierten Forschern teilen. Das soll unter anderem dazu dienen, einerseits die Robustheit und andererseits den Bias und die vergiftete Sprache der Modelle zu erforschen. Den negativen Einflüssen ist mit "Bias & Toxicity Evaluations" ein eigenes Kapitel in der Abhandlung gewidmet, das Benchmarks zum Erkennen von Hassrede, Stereotypen und vergifteten Inhalten aufzeigt und ein vollständig unüberwachtes Setting voll überwachten Modellen gegenüberstellt.

Das kleinste der acht Modelle hat "lediglich" 125 Millionen Parameter und 12 Ebenen, während das größte die Parameter mehr als vertausendfacht und auf 175 Milliarden Parameter bei 96 Layers kommt. Vollständig veröffentlichen will Meta die Modelle bis zu einer Größe von 30 Milliarden Parametern.

OPT kommt in acht verschiedenen Variationen mit unterschiedlichen Parametern, Schichten und Batch-Größen.

(Bild: Meta)

Das größte Modell OPT-175B (das "B" steht für das englische Billion, also Milliarden) will Meta auf Anfrage für akademische Forschungsabteilungen freigeben. Die Abhandlung verweist zudem auf ein GitHub-Repository mit der Codebasis metaseq, die aber beim Schreiben dieser Meldung nicht erreichbar war.

In den letzten Wochen und Monaten haben einige Firmen Sprachmodelle und Transformer ins Rennen geschickt. Anfang April hat Google PaLM (Pathways Language Model) vorgestellt. Das Sprachmodell hat 540 Milliarden Parameter, also dreimal so viele wie die größte OPT-Ausführung.

Die Heise-Konferenz zu Machine Learning und KI

Am 2. und 3. Juni geht die Minds Mastering Machines 2022 in die fünfte Runde. Nach zwei Online-Veranstaltungen in den vergangenen Jahren findet die Machine-Learning-Konferenz dieses Jahr wieder vor Ort statt.

Für das Programm haben die Veranstalter heise Developer, iX und dpunkt.verlag dieses Jahr besonders viele Erfahrungsberichte ausgewählt. Daneben stehen aktuelle ML-Themen wie Sentence Embeddings, Kausale Inferenz, Data Mesh und Knowledge Destillation auf dem Plan. Einige Vorträge beschäftigen sich zudem mit dem Weg vom Modell zum Produktivbetrieb über MLOps.

Im Januar hat ein Konsortium aus zehn deutschen Organisationen unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS mit OpenGPT-X einen europäischen Herausforderer für GPT-3 ins Leben gerufen und als Starthilfe Fördergelder in Höhe von 15 Millionen Euro eingestrichen. Ebenfalls aus Europa stammt die im April veröffentlichte LUMINOUS-Serie des Heidelberger Unternehmens Aleph Alpha.

Weitere Details zu den Open Pre-trained Transformer Language Models lassen sich dem Paper der KI-Abteilung von Meta auf arXiv entnehmen.

(rme)