KI, zum Diktat: Sprachmodell CodeGen schreibt Data-Science-Anwendungen

Das von Salesforce angestoßene Forschungsprojekt CodeGen entwickelt im "Gespräch" mit Data Scientists interaktive Jupyter Notebooks für die Datenanalyse.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag
Missing Link: KI - die Künstlichen Idioten des digitalen Kapitalismus

(Bild: whiteMocca / shutterstock.com)

Von
  • Matthias Parbel

KI-Sprachmodelle wie das LLM (Large Language Model) GPT-3 bewähren sich zunehmend beim Erkennen und Analysieren natürlicher Sprache und deren Übertragung in Text oder Programmcode. Die fortgeschrittenen Fähigkeiten solcher Modelle haben Forschende bei Salesforce inspiriert, das eigene Sprachmodell CodeGen zu entwickeln, das vor allem für die Codesynthese in der Programmierung dienen soll, wie Silvio Savarese, Chief Scientist bei Salesforce, gegenüber dem Newsportal Datanami erklärt hat.

Das Open-Source-Projekt baut auf einer mit GPT vergleichbaren Architektur auf und wurde auf Googles TPU-v4 (Tensor Processing Unit) trainiert. CodeGen sei zum heutigen Stand zwar primär noch ein reines Forschungsprojekt, verspreche aber schon jetzt eine zu OpenAI Codex wettbewerbsfähige Leistung. Das von OpenAI entwickelte KI-Modell kommt unter anderem im GitHub Copilot zum Einsatz, der Entwicklerinnen und Entwickler in Microsofts Editor Visual Studio Code durch automatisches Vervollständigen ihres Codes unterstützt. CodeGen nutzen die Salesforce-Forschenden in ersten Tests vor allem für interaktive Data-Science-Anwendungen. Durch conversational AI programming, also im "Gespräch" mit den Nutzerinnen und Nutzern, analysiert das KI-Modell die beschriebene Problemstellung und entwickelt daraus den geeigneten Code. Der dient dann in interaktiven Jupyter Notebooks zur Datenanalyse.

CodeGen eigne sich darüber hinaus aber ebenfalls für die kontextsensitive Code-Vervollständigung, da es Savarese zufolge gerade bei häufig verwendeten Programmiermustern seine Stärken ausspielen könne – etwa, wenn es um effiziente Implementierung von Algorithmen, Datei-Operationen oder Datenmanipulation gehe. Salesforce sieht CodeGen zudem als hilfreiches Tool bei benutzerdefinierten Datenanalysen auf der hauseigenen Plattformen Tableau an, die seit 2019 zum Konzern gehört. Das KI-Modell soll auch Anwendern ohne tiefgreifenden Programmierkenntnissen, das Gestalten und Durchführen komplexerer Analysen eröffnen.

CodeGen steht als Open Source unter BSD-3-Lizenz auf GitHub öffentlich zur Verfügung. Im Repository des Projekts finden sich trainierte Modelle unterschiedlicher Größe, mit denen sich Interessierte in einem Google Colab Notebook probeweise näher beschäftigen können. Ein Blogpost von Salesforce beschreibt die Conversational AI noch genauer.

(map)