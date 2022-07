Der US-Konzern Meta hat nach eigenen Angaben einen Algorithmus entwickelt, der zwischen 200 verschiedenen Sprachen übersetzen kann und dabei im Schnitt über 40 Prozent bessere Qualität abliefert als bisherige Vorläufer. Das Werkzeug der Facebook-, Instagram- und Whatsapp-Mutter heißt NLLB-200 (für "No Language Left Behind" also etwa "Keine Sprache zurücklassen") und wird nun als Open Source verfügbar gemacht. Mit zusätzlichen Tools sollen weitere Sprachen hinzugefügt und inklusivere Techniken gebaut werden können, erläutert Metas KI-Abteilung. Auf Basis des Algorithmus sollen jetzt zuerst Übersetzungen auf Facebook, Instagram und Wikipedia verbessert werden.

Rückgriff auf bessere Trainingsdaten

Meta AI will mit dem Algorithmus nicht nur Menschen besser vernetzen, sondern auch dafür sorgen, dass sie "morgen Teil des Metaversums werden können". Mit NLLB-200 habe man dabei einen "bedeutenden Durchbruch" erzielt. Damit ließen sich "hervorragende Übersetzungen" in und aus 200 verschiedenen Sprachen erstellen, darunter viele, die zuvor nicht ausreichend oder überhaupt nicht von Übersetzungssoftware unterstützt worden seien – zum Beispiel Kikamba (etwa vier Millionen Sprechende in Kenia und Tansania) und Laotisch (30 Millionen Sprechende in Südostasien). Die Verbesserung von im Mittel über 40 Prozent und teilweise über 70 Prozent hat Meta mit einem hauseigenen Benchmark namens FLORES ermittelt, der vor einem Jahr als Open Source veröffentlicht wurde und auf Übersetzungen von Muttersprachlern basiert.

Bereits im Februar hatte Meta öffentlich gemacht, dass dort an einem KI-gestütztem Echtzeitübersetzer gearbeitet wird, damals war aber noch von 100 Sprachen die Rede. Die Erweiterung auf doppelt so viele sei nun eine erhebliche Herausforderung gewesen, erklärt Meta AI. So seien beispielsweise immense Mengen an Parallelkorpora notwendig, um die Software zu trainieren, also Texte, die in mehreren Sprachen vorliegen. Der Rückgriff auf Data-Mining im Internet liefere oft nur minderwertige Textqualität, weswegen Meta auf professionelle Üebrsetzungen und Überprüfungen zurückgreift. Weiterhin sei es schwierig, ein einzelnes Modell jeweils für Hunderte Sprache zu optimieren, ohne die allgemeine Leistung zu beeinträchtigen. Komplett überarbeitet worden sei auch die Pipeline zur Bereinigung der Daten, mit der etwa "toxische Inhalte" herausgefiltert werden sollen, heißt es noch.

Eine Auflistung der von NLLB-200 unterstützten Sprachen gibt es in einem Forschungspapier, das das Forschungsteam veröffentlicht hat. Dort wird auch gekennzeichnet, ob die jeweiligen Sprachen von bisherigen Übersetzungswerkzeugen von Google beziehungsweise Microsoft unterstützt wird. Erstmals kann NLLB-200 demnach aus und in Asturisch (Nordspanien) und Schottisch-Gälisch übersetzen. Als unter anderem in Deutschland gesprochene Sprachen werden hier Limburgisch (Südniederfränkisch) und Schlesisch aufgeführt. Auf einer eigens eingerichteten Website von Meta AI gibt es derweil eine Demonstration der Technik. Mehrere Kinderbücher könnten dort automatisch übersetzt werden lassen, bislang aber nur lediglich in eine von 15 Sprachen. Die restlichen fast 200 sollen "bald" folgen. Auf NLLB-200 basierende Technik kann laut Meta AI auch in einem Übersetzungswerkzeug ausprobiert werden, das die Wikimedia Foundation den Redakteuren und Redakteurinnen von Wikipedia zur Verfügung stellt.

(mho)