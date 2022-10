Google AI hat ein großes KI-Sprachmodell vorgestellt, das als Open Source verfügbar ist und über 1800 verschiedene Aufgaben lösen können soll. Bei Flan-T5 handelt es sich um eine feingetunte Version des 540 Milliarden Parameter großen Modells PaLM, das im April 2022 bereits durch seine Fähigkeiten beeindruckte. So vermag es, Code zu generieren, kann mit Arithmetik umgehen und Witze erklären.

Flan-T5 gibt es in fünf verschiedenen Größen, von Small über Base und Large bis hin zu XLarge und XXL (540 Milliarden Parameter). Es setzt auf den großen Modellen PaLM (Pathways Language Model) sowie dem Text-To-Text Transfer Transformer (T5) auf. Mehrstufige logische Inferenz und Gedankenketten für komplexere Szenarien unterscheiden das Grundmodell PaLM von den meisten anderen künstlichen neuronalen Netzen. "Flan-T5 XXL" beziehungsweise "Flan-PaLM 540B", wie das Modell in seiner größten Version ebenfalls genannt wird, soll laut seinen Herausgebern alles beherrschen, was PaLM und T5 für sich genommen schon konnten, jedoch in einer verbesserten Qualität.

Mehrstufige logische Inferenz und Reasoning

Rufen wir uns in Erinnerung, womit PaLM bei seinem Erscheinen überraschte: Im Bereich des "Reasoning" galten im Frühjahr die Fähigkeiten des Sprachmodells PaLM als Durchbruch, wobei Textrechenaufgaben und deren Lösung in Einzelschritten hervorzuheben ist. Dem Modell wird ein tiefes Sprachverständnis und (bis zu einem gewissen Grad) so etwas wie "Weltwissen" zugeschrieben. Gefüttert hatte das Google-AI-Team PaLM mit hochwertigen Webdokumenten, Büchern, Wikipedia, frei zugänglichen Unterhaltungen aus dem Internet und GitHub-Code. Das Besondere an dem damals neuen Ansatz war, dass es Zahlen in Token auflöste und Unicode-Zeichen in Bytecode übersetzte, was im Ergebnis zu einem relativ verlustfreien Vokabular führt.

Feintuning für das Multitask-Anweisen bei Flan-T5 XXL (Bild: Hugging Face)

Insbesondere beim Ziehen logischer Schlüsse (Reasoning) in mehreren Schritten konnte das Google-Forschungsteam offenbar Fortschritte erzielen. Die Forscher geben in der Modellbeschreibung auch eine Liste von rund 60 Sprachen an, die das Modell beherrschen soll, darunter neben Englisch, Französisch, Spanisch, Russisch, Japanisch, Chinesisch und Deutsch auch skandinavische Sprachen, einige afrikanische und indische sowie asiatische Sprachen. Aus der Beschreibung geht nicht hervor, auf welchem Niveau das Modell diese Sprachen beherrscht und ob es alle Aufgaben in jeglicher Sprache gleichermaßen gut beherrscht (bisher verfügbare Modelle hatten oft Schwächen in zahlreichen der angegebenen Sprachen, so unter anderem BLOOM, das auch als "multilingual" angekündigt worden war).

Als Haupteinsatzbereich nennt das Team die Forschung an Sprachmodellen, einschließlich der Forschung an NLP-Aufgaben mit Zero-Shot und kontextabhängige NLP-Aufgaben mit wenigen Shots (wie unter anderem das Beantworten von Fragen und einfache Schlussfolgerungen). Das Team gibt an, sich mit Blick auf die Fairness- und Sicherheitsforschung dazu entschieden zu haben, das Modell frei zugänglich zu machen. Zudem soll Flan-T5 das Verständnis der Grenzen derzeitiger großer Sprachmodelle (kurz: LLM, was für Large Language Models steht) ausloten helfen.

Die Aufgabenbereiche, für die das Modell feinabgestimmt wurde, finden sich im Forschungspaper. Eine grafische Übersicht ist darin als Abbildung vorhanden:

Trainingsaufgaben für das Feintuning von Flan-T5 XXL (Flan-PaLM 540B) (Bild: Hugging Face)

Das Text-zu-Text-System soll es ermöglichen, ein einziges Modell, dieselbe Loss-Funktion und die gleichen Hyperparameter für jegliche NLP-Aufgabe zu verwenden. Darunter fallen maschinelle Übersetzung, das Zusammenfassen von Dokumenten, das Beantworten von Fragen und Aufgaben zum Klassifizieren wie die Sentiment-Analyse. Wie schon das ursprüngliche T5 soll es sich laut seiner Modellkarte auf Regressions-Aufgaben anwenden lassen. Dazu kann man es so trainieren, dass es die String-Repräsentation einer Zahl anstelle der Zahl selbst vorhersagt.

Den Forschern ging es in erster Linie darum, die Skalierung und Anzahl der Aufgaben, der Modellgröße sowie der Daten in einer Chain-of-Thought-Kette (CoT) durch Feintuning nachzubessern. Als Ergebnis hält das Paper fest, dass die Feinabstimmung von Anweisungen die Leistung bei zahlreichen Modellklassen (konkret PaLM, T5, U-PaLM), beim Setup des Promptens (Zero-Shot, Little-Shot, CoT) und bei den Benchmarks zum Evaluieren signifikant verbessert worden sei.

Die Modelle sind frei abrufbar im Google-Research-Repository bei GitHub. Die Checkpoints zu Flan-T5 stehen dort in fünf verschiedenen Größen zum Download bereit (Small, Base, Large, XL und XXL). Im Gegensatz zu den reinen T5-Checkpoints lassen sie sich direkt zum Few-Shot-Promptin und für herkömmliches Feintuning einsetzen. Sie begleiten die Veröffentlichung des Forschungspapers "Scaling Instruction-Finetuned Language Models" von Hyung Won Chung und 30 weiteren Google-Brain-Kollegen, das am 20. Oktober 2022 bei arxiv.org hochgeladen wurde (zurzeit ist dort Version 2 vom 21. Oktober aktuell).

(sih)