Machine Learning: Aleph Alpha feilt mit Oracle und Nvidia an transformativer KI

Das deutsche KI-Unternehmen stellte bei der in den USA hybrid veranstalteten Supercomputing-Konferenz der Welt sein visionäres multimodales KI-Modell vor.

Lesezeit: 7 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 4 Beiträge

(Bild: Phonlamai Photo/Shutterstock.com)

Von
  • Silke Hahn

Im Rahmen der International Supercomputing Conference (ISC) hat am 16. November 2021 das deutsche KI-Unternehmen Aleph Alpha in einem Panel mit Oracle und Nvidia sein neues multimodales Modell Künstlicher Intelligenz (KI) präsentiert, das anders als das reine Sprachmodell GPT-3 Computervision mit NLP verbindet und zudem die Flexibilität von GPT-3 für alle möglichen Arten der Interaktion auf den multimodalen Bereich überträgt. Konkret soll das Modell laut CEO Jonas Andrulis beliebig und frei Texte generieren beziehungsweise Bilder in einen Text-Kontext mit einbinden. Das Aleph-Alpha-Modell ist offenbar genauso mächtig wie GPT im Textteil, allerdings lassen sich beliebig zu jeder Zeit auch Bilder hinein kombinieren. Anders als DALL-E ist das neue Modell dabei nicht auf ein einziges Bild samt Caption beschränkt. Erste Teststrecken zeigen, dass es offenbar in der Lage ist, Bilder und Texte mit Weltwissen zu verstehen.

Andrulis hatte Beispiele im Gepäck, die das Publikum sichtlich beeindruckten und greifbar machen, über welche Fähigkeiten sein KI-Modell bereits jetzt verfügt. Die Beispiele zeigten teils ungewöhnliche Bildinhalte mit surrealem Inhalt wie einen Bären im Taxi, ein Pärchen beim Unterwassercamping oder einen Fisch mit riesigen Zähnen und Zahnlücke, die die KI beim Prompting mit Textfragen korrekt zu beschreiben vermag. Eine Stufe komplexer ist das Bild eines Zettels im Aufzug, in dem die KI korrekt zwischen der Situation, wesentlichen und unwesentlichen Inhalten der Botschaft unterscheiden sowie auf den institutionellen Rahmen (Universität) schließen kann, was nur durch kausale Inferenz möglich ist. Die im Output gelieferten Antworten sind nicht aus dem gezeigten Bild allein möglich, sondern beweisen, dass das KI-Modell eigenständig weitere Zusammenhänge herstellt.

Auf einer per Hand beschrifteten Schatzkarte vermag das Modell beispielhaft nicht nur die Schrift zu entziffern, sondern darüber hinaus auch zutreffende Einschätzungen zum Charakter der eingezeichneten Orte zu treffen (unter anderem, wo es am gefährlichsten ist). Auch die korrekte Analyse und Beschreibung technischer Zeichnungen mit Metabegriffen, die sich nicht aus dem Prompt ableiten lassen, ist in Einzelfällen bereits gelungen. Einige Beispiele lassen sich in der Bilderstrecke nachvollziehen, für die Aleph Alpha heise Developer das Bildmaterial zur Verfügung gestellt hat.

Aus dem Forschungs-Playground von Aleph Alpha (5 Bilder)

Unterwasser-Camping

Das multimodale KI-Modell von Aleph Alpha beschreibt korrekt, was es "sieht": ein Pärchen beim munteren Campen am Meeresgrund. Der Prompt ist jeweils in schwarzer Schrift dargestellt, die Antwort der KI in Grün. Einige Bilder wurden nicht mit einem Text-Prompt versehen.
(Bild: Aleph Alpha)

Es ist somit laut seinem Erfinder Wegbereiter einer Transformation, die perspektivisch alle Industriezweige auf eine Weise verändern könnte, wie es zuletzt die Elektrizität vermocht hatte. Symbolisch trug das Panel daher im Titel den Claim, dass es um nichts Geringeres als eine Vierte Industrielle Revolution gehe ("How GPT-3 is Spearheading the Fourth Industrial Revolution"). Die Panel-Leiter sprachen über den Schulterschluss ihrer Unternehmen und ihrer Forschung. Damit schaffen sie eine Alternative (und sind in Teilen einen Schritt voraus) zu anderen Hyperscalern und Tech-Giganten wie Microsoft, die sich jüngst für eine Milliarde US-Dollar exklusive Rechte an GPT-3 sicherten.

Hyperskalierung der Hardware zum Trainieren großer Sprachmodelle wie GPT-3 ist ein Schwerpunktthema der aktuellen Ausgabe der Fachkonferenz, die zurzeit hybrid stattfindet und alljährlich Experten aus Industrie und Forschung zusammenbringt. Ein brennendes Thema ist dabei unter anderem, dass die größer werdenden Modelle entsprechend größere Cluster für das Training und die Inferenz (Anwendung) benötigen, was vor allem bei der Kühlung und der Hochgeschwindigkeits-Verbindung zwischen GPUs große Herausforderungen für die Ingenieure und Forschungsteams birgt.

Eine Kernaussage des Panels war, dass es beim heutigen Stand der Technik nicht mehr ausreicht, eine smarte Idee als Modell zu formulieren, sondern dass letztlich die benötigte hochskalierte Infrastruktur über Fortschritt und Erfolg entscheiden. Panel-Leiter Kevin Jorissen von Oracle und die beiden Panel-Diskutanten Joey Conway von der Nvidia Corporation sowie Jonas Andrulis von Aleph Alpha veranschaulichten dem Fachpublikum in der Session eindrücklich, was es bedeutet, ein Modell im Umfang von rund 200 Milliarden Parametern oder noch größer zu betreiben und welche Ressourcen an GPU, vor allem aber auch an Zeit dafür mittlerweile erforderlich sind. So würde das beispielhaft diskutierte KI-Modell von Aleph Alpha beim Einsatz von 512 GPUs etwa drei Monate zum Trainieren benötigen. Eine mit dem Publikum diskutierte Frage war die Verteilung des Modells über mehrere GPUs und der Umgang mit Instabilitäten, da bei unzureichender Hardware schon kleine Probleme den Neustart eines wochen- oder gar monatelang laufenden Tests erzwingen können, was neben dem Zeitverlust hohe Kosten verursacht.

Die in Heidelberg gegründete Aleph Alpha GmbH gilt als Leuchtturm in Deutschland und Europa, denn sie betreibt laut dem Technologie-Index MAD 2021 (Machine Learning, AI and Data Landscape) als einziges europäisches KI-Unternehmen die Forschung, Entwicklung und Gestaltung allgemeiner Künstlicher Intelligenz (Artificial General Intelligence, kurz: AGI). Die Aleph-Alpha-Gründer Jonas Andrulis und Samuel Weinbach mit ihrem rund dreißigköpfigen Team arbeiten eng mit dem von Professor Kristian Kersting geleiteten Forschungszentrum Hessian.AI zusammen, das an der TU Darmstadt verankert ist. Zudem besteht eine wissenschaftliche Kooperation mit der Universität Heidelberg, und das KI-Unternehmen hat Oracle sowie Hewlett Packard Enterprise (HPE) als internationale Partner für unter anderem die Cloudinfrastruktur und die erforderliche Hardware an der Seite.

Mitgründer und CEO Andrulis, der zuvor unter anderem bei Apple in leitender Stellung an der KI-Entwicklung beteiligt war, wurde im Oktober 2021 mit dem deutschen KI-Preis ausgezeichnet. Im laufenden Jahr hat das Start-up bereits rund 30 Millionen Euro an Finanzierung von europäischen Investoren erhalten, um als Pionier das Unsupervised Learning voranzutreiben. Ein eigenes Rechenzentrum mit Hochleistungs-Clustern befindet sich zurzeit im Aufbau. Wer sich genauer für die Arbeit von Aleph Alpha interessiert, findet Wissenswertes auf deren Webseite und im Technologie-Blog des Unternehmens.

Lesen Sie auch

Die diesjährige Ausgabe der International Supercomputing Conference (ISC) vom 14. bis 19. November stand beziehungsweise steht unter dem Motto "Science and Beyond", und erstmals haben die Veranstalter die internationale Fachkonferenz auch hybrid ausgerichtet. Neben der Vor-Ort-Veranstaltung in St. Louis im US-Bundesstaat Missouri hatten Teilnehmer weltweit die Gelegenheit, sich auch virtuell einzuklinken. Zahlreiche Sessions sind entweder über die Konferenzplattform oder in Breakout-Räumen via Zoom ausgetragen worden. Wer sich für das Programm interessiert, wird auf der Konferenz-Webseite fündig.

Auch wer den Startschuss verpasst hat, kann noch Last-minute an Bord gehen: Eine Anmeldung ist während der laufenden Konferenz bis zum 19. November 2021 möglich. Je nach Interessenlage könnte das sinnvoll sein, denn registrierten Teilnehmern stehen die Aufzeichnungen der teils mitgeschnittenen Vorträge nachträglich auf der Konferenzplattform zur Verfügung.

(sih)