KI-Sprachmodelle wie das LLM (Large Language Model) GPT-3 bewähren sich zunehmend beim Erkennen und Analysieren natürlicher Sprache und deren Übertragung in Text oder Programmcode. Die fortgeschrittenen Fähigkeiten solcher Modelle haben Forschende bei Salesforce inspiriert, das eigene Sprachmodell CodeGen zu entwickeln, das vor allem für die Codesynthese in der Programmierung dienen soll, wie Silvio Savarese, Chief Scientist bei Salesforce, gegenüber dem Newsportal Datanami erklärt hat.

KI hört zu, versteht und entwickelt

Das Open-Source-Projekt baut auf einer mit GPT vergleichbaren Architektur auf und wurde auf Googles TPU-v4 (Tensor Processing Unit) trainiert. CodeGen sei zum heutigen Stand zwar primär noch ein reines Forschungsprojekt, verspreche aber schon jetzt eine zu OpenAI Codex wettbewerbsfähige Leistung. Das von OpenAI entwickelte KI-Modell kommt unter anderem im GitHub Copilot zum Einsatz, der Entwicklerinnen und Entwickler in Microsofts Editor Visual Studio Code durch automatisches Vervollständigen ihres Codes unterstützt. CodeGen nutzen die Salesforce-Forschenden in ersten Tests vor allem für interaktive Data-Science-Anwendungen. Durch conversational AI programming, also im "Gespräch" mit den Nutzerinnen und Nutzern, analysiert das KI-Modell die beschriebene Problemstellung und entwickelt daraus den geeigneten Code. Der dient dann in interaktiven Jupyter Notebooks zur Datenanalyse.

Verständnisvoller Helfer mit Know-how

CodeGen eigne sich darüber hinaus aber ebenfalls für die kontextsensitive Code-Vervollständigung, da es Savarese zufolge gerade bei häufig verwendeten Programmiermustern seine Stärken ausspielen könne – etwa, wenn es um effiziente Implementierung von Algorithmen, Datei-Operationen oder Datenmanipulation gehe. Salesforce sieht CodeGen zudem als hilfreiches Tool bei benutzerdefinierten Datenanalysen auf der hauseigenen Plattformen Tableau an, die seit 2019 zum Konzern gehört. Das KI-Modell soll auch Anwendern ohne tiefgreifenden Programmierkenntnissen, das Gestalten und Durchführen komplexerer Analysen eröffnen.

Lesen Sie auch Programmieren und KI: Künstliche Intelligenz in der Softwareentwicklung

CodeGen steht als Open Source unter BSD-3-Lizenz auf GitHub öffentlich zur Verfügung. Im Repository des Projekts finden sich trainierte Modelle unterschiedlicher Größe, mit denen sich Interessierte in einem Google Colab Notebook probeweise näher beschäftigen können. Ein Blogpost von Salesforce beschreibt die Conversational AI noch genauer.

(map)