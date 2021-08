Mit SoundStream hat Google einen neuen KI-gestützte Audiocodec auf den Markt gebracht. Er soll bei der Codierung verschiedener Tontypen wie Sprache und Musik eine höhere Audioqualität liefern und in Echtzeit auf einer Smartphone-CPU laufen.

Audiocodecs komprimieren Audiodaten, um den hohen Speicher- und Bandbreitenbedarf zu verringern. Im Idealfall sollte das dekodierte Audiomaterial vom Original nicht zu unterscheiden sein und der Kodierungs-/Dekodierungsprozess nur geringe Latenzzeiten verursachen. In herkömmlichen Audioverarbeitungspipelines werden Komprimierung und Anreicherung von verschiedenen Modulen durchgeführt – etwa Hintergrundgeräusche entfernen.

SoundStream Training und Inferenz.

Komprimiertes Audio soll genauso klingen wie das Original

SoundStream sattelt auf dem neuronalen Audiocodec Lyra auf, den Google Anfang 2021 veröffentlicht hat. Er besteht aus einem Encoder, Decoder und Quantisierer. Der Encoder wandelt Audio in ein kodiertes Signal um, das mit dem Quantisierer komprimiert und mit dem Decoder wieder in Audio umgewandelt wird. Das Audiosignal soll anschließend so klingen, wie das unkomprimierte Originalsignal. Ein Diskriminator kann zwischen beiden Audiosignal unterscheiden. Einmal trainiert, können dann Encoder und Decoder auf separaten Clients ausgeführt werden. Zudem kann der Decoder mit jeder beliebigen Bitrate arbeiten.

Laut Google übertrifft SoundStream mit 3 KBit/s den beliebten Opus-Codec mit 12 KBit/s und erreicht mit 9,6 KBit/s annähernd die Qualität von EVS, wobei 3,2 bis 4 Mal weniger Bits benötigt werden. Außerdem schneidet SoundStream bei gleicher Bitrate besser ab als die aktuelle Version von Lyra.

(mig)