Machine Learning: Nvidia gibt Conversational-AI-Framework Jarvis frei

Das Framework zum Erstellen von Chatbots und digitalen Assistenten ist nun als öffentliche Beta verfügbar, und Nvidia kündigt eine Partnerschaft mit Mozilla an.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen

(Bild: Shutterstock)

Von
  • Rainald Menge-Sonnentag

Auf der Hausmesse GPU Technology Conference (GTC), die in diesem Jahr virtuell stattfindet, hat Nvidia einige Werkzeuge und Frameworks für Machine Learning angekündigt. Allen voran dient das interaktive Conversational-AI-Framework Jarvis als Grundlage für Chatbots und virtuelle Assistenten.

Daneben hat das Unternehmen mit Megatron ein Framework zum Trainieren von Sprachmodellen vorgestellt, das auf PyTorch aufbaut und auf das Training großer Sprachmodelle mit einer Transformer-Architektur abzielt. Mit TAO (Train, Adapt Optimize) zeigte Nvidia zudem ein GUI-basiertes Framework, mit dem Unternehmen vortrainierte ML-Modelle auf ihre spezielle Domäne anpassen können, um sie in ML-Anwendungen zu nutzen.

Das Framework Jarvis zielt nicht nur auf Sprachverarbeitung, sondern bindet darüber hinaus Computer Vision in die Verarbeitung ein. Nividia bezeichnet Jarvis als multimodales Conversational-AI-Framework. Zu den Kernfunktionen gehören automatische Spracherkennung (Automatic Speech Recognition, ASR), Natural Language Understanding (NLU) und Sprachsynthese (Text-to-Speech, TTS). Außerdem soll es beim Erkennen von Gesten, Objekten, Stimmungen und der Bewegung der Lippen sowie bei der Blickerfassung helfen.

Jarvis wertet diverse Aspekte der Kommunikation aus.

(Bild: Nvidia)

Hinzu kommen domänenspezifische Services, um spezielle Szenarien abzudecken. Die Machine-Learning-Pipelines zum Verarbeiten der Informationen lassen sich individuell anpassen und mit eigenen Modellen nutzen. Darüber hinaus bringt das Framework vortrainierte Modelle mit. Der Blogbeitrag verspricht, dass das mitgelieferte Spracherkennungsmodell eine Genauigkeit von über 90 Prozent bietet.

Insgesamt sollen die mitgelieferten Modelle ein Training von über 100.000 Stunden auf Nvidia-DGX-Systemen hinter sich haben. Als Grundlagen dienen demnach gut eine Milliarde Textseiten und 60.000 Stunden Sprachdaten. Jarvis soll von Hause aus mit GPU-Beschleunigung Echtzeitübersetzung in fünf Sprachen mit einer Latenz unter 100 Millisekunden bieten.

Nvidias Promotion-Video zeigt die grundlegende Arbeitsweise von Jarvis.

Jarvis befindet sich seit Mai 2020 im Early-Access-Programm. Seit Ende Februar ist die öffentliche Beta von Jarvis 1.0 verfügbar, und im Lauf des zweiten Quartals 2021 will Nvidia das Framework um zusätzliche Funktionen erweitern. Weitere Details lassen sich der Pressemitteilung und dem Entwicklerblog bei Nvidia entnehmen. Zusätzliche Ressourcen finden sich auf der Projektseite.

Darüber hinaus kündigt Nvidia eine Partnerschaft mit Mozilla Common Voice an. Die Open-Source-Sammlung von Sprachdaten war vergangenes Jahr im Zuge der Sparmaßnahmen bei Mozilla ins Wanken geraten, und der Projektleiter Kelly Davis hatte das Unternehmen verlassen.

Insgesamt umfasst Common Voice gut 9000 Stunden Sprachaufzeichnungen in 60 Sprachen. Die Sammlung ist für jeden zugänglich, und jeder kann eigene Daten beisteuern. Erklärtes Ziel ist es, durch ein breites Spektrum an Sprachdaten einem Bias in ML-Anwendungen entgegenzuwirken. Nvidia nutzt den Datensatz zum Entwickeln vortrainierter Modelle, die das Unternehmen wiederum kostenfrei der Allgemeinheit zur Verfügung stellen willen.

Laut einem separaten Blogbeitrag von Mozilla investiert Nvidia 1,5 Millionen US-Dollar in das Projekt. Common Voice läuft ab sofort mit dem Ziel, vertrauenswürdige KI zu schaffen, unter dem Dach der Mozilla Foundation.

(rme)