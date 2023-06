Jemand sagt etwas auf Deutsch, Googles Sprachmodell wiederholt das Gesagte in einer anderen Sprache, dafür aber mit der sehr nah am Original klingenden Stimme. Dieses Beispiel wiederholt Google im Forschungspapier zu AudioPalm gleich mit mehreren Sprachen und Inhalten, die erklären, wie das neu geschaffene Sprachmodell (Large Language Model, LLM) mit einer multimodalen Architektur funktioniert. Dieses besteht nämlich im Grunde aus zwei anderen LLMs, nämlich AudioLM, das alle Audio-Inhalte verarbeitet, und Palm 2, Googles mehrsprachiges und aktuellstes Sprachmodell. Sie liefern quasi jeweils Token, die in einem Decoder-only Transformer zusammengeführt werden.

Um eine Originalstimme nachzuahmen, reichen AudioPalm drei Sekunden einer Audioaufnahme. Das ist in etwa auch die Zeit, die Meta und Microsoft für ihre Übersetzungs-Sprachmodelle benötigen. So hat Meta erst vor Kurzem Voicebox präsentiert, ein generatives KI-Model, das Audio-Dateien editieren, samplen und verändern kann – nach zwei Sekunden Input. Weil Meta jedoch viel Missbrauchspotenzial in Voicebox sieht, wird das Sprachmodell noch nicht veröffentlicht. Vall-E von Microsoft braucht wie Googles AudioPalm drei Sekunden.

Echtzeit, Transkripte und Intonation

AudioPalm kann ebenfalls wie die Mitbewerber Sprache plausibel weiterführen, wenn eine Aufnahme endet oder gestört wird. Zero-Shot-Übersetzungen von Sprache zu Text gibt es, also solche in Echtzeit. Sprachkombinationen, die nicht im Training vorkommen, funktionieren laut Google dennoch. In den Beispielen ist außerdem zu sehen beziehungsweise hören, wie KI die Intonation der Sprecher wiedergeben kann. AudioPalm kann Texte transkribieren – in der Ausgangssprache oder direkt in einer anderen Sprache.

Neben dem befürchteten Missbrauchspotenzial könnte gerade Google derartige Dienste etwa nutzen, um bei Youtube-Videos die Untertitel zu erstellen oder gleich die Originalstimme nutzen, um in dieser zu synchronisieren. Das könnte freilich auch für die Filmbranche und weitere Anwendungsfälle von Interesse sein.

