Inhaltsverzeichnis KI: So funktionieren künstliche Sprachsysteme vom Typ "Transformer" So arbeiten Sprach-KIs Herausforderungen Aufmerksamkeitssysteme Schreiben lernen Architektur von GPT-3 Artikel in c't 11/2022 lesen

Transformieren meint ganz allgemein das Umwandeln von einem in etwas anderes. Im Kontext von KI bedeutet "Transformer" eine ganz bestimmte Architektur für neuronale Netze, die in den letzten Jahren ganz groß herauskam, sowohl bezogen auf den Umfang als auch auf die Verbreitung der Sprachmodelle. Diese neuronalen Netze transformieren Sätze in Bedeutungssequenzen. Aus denen können Netze mit der gleichen Struktur auch wieder Sätze berechnen.

Die 2017 von Google-Forschern vorgestellten Transformer lernen in ihrer Trainingsphase nicht nur, wie sie die Daten verarbeiten, sondern auch, worauf sie ihre Aufmerksamkeit richten müssen. Aufmerksamkeit und Datenverarbeitung stecken zusammen in Blöcken, die sich leicht zu tiefen Netzen stapeln lassen. Deswegen gelingt es, Transformer massiv zu skalieren, beispielsweise zu riesigen Sprachmodellen wie GPT-3 von OpenAI mit 175 Milliarden Parametern. Den Konkurrenten BERT mit 110 Millionen Parametern kann man noch daheim auf einer dicken Grafikkarte trainieren, für GPT-3 benötigt man ein Rechenzentrum und gute Nerven, wenn die Stromrechnung kommt.

Was GPT-3 kann und wie Sie es selbst nutzen, haben wir in "KI: Sachlich korrekte Texte mit neuronalen Sprachmodellen generieren" und "Schreibblockade überwinden: Wie eine KI Ihre Texte vervollständigt" beschrieben. Dieser Artikel beleuchtet die Details, die Transformer zu so raffinierten Schreibern machen. Machen Sie sich allerdings auf einen wilden Ritt gefasst, denn Transformer nutzen nicht nur alle Tricks bekannter neuronaler Netze, sondern satteln noch mehrschichtig und mehrköpfig Aufmerksamkeit darauf. Wir versuchen dabei, alle mathematischen Tricks zu nennen, um es Ihnen einfacher zu machen, wenn Sie das Forschungspaper mit allen Formeln lesen wollen.