Menü

Mozilla gibt Sprachdatensammlung frei

Die bisher durch das Common-Voice-Projekt zusammengetragenen Sprach-Samples lassen sich ab sofort frei verwenden. Es ist die größte Sammlung dieser Art.

Von
vorlesen Drucken Kommentare lesen 27 Beiträge
Mozilla gibt Sprachdatensammlung frei

Mozilla hat seine Sprachdatensammlung Common Voice öffentlich freigegeben. Mit 1361 Stunden – das entspricht knapp zwei Monaten – transkribierten Audiodaten ist es nach Angaben von Mozilla die größte frei zugängliche Sammlung der Welt. Ebenso wichtig wie die Größe ist Mozilla die Vielseitigkeit der Samples: 42.000 Sprecher wirkten daran mit und sprachen kurze Texte in 18 verschiedenen Sprachen ein.

Die Veröffentlichung steht unter CC0-Lizenz – der freizügigsten Variante von Creative Commons ("No rights reserved") – der Öffentlichkeit zur Verfügung. Hauptziel der Sammlung ist es, hochwertige und frei verfügbare Sprachdatensätze zum Training für Spracherkennungssysteme zu schaffen – ein Gebiet, das bisher Cloud-Anwendungen großer Konzerne mit riesigen Sprachdatensammlungen dominieren. Mit DeepSpeech entwickelt Mozilla eine eigene Open-Source-Spracherkennung, die bereits in Produkten wie Mycroft oder Leon eingesetzt oder getestet wird.

Das Projekt startete Mitte 2017 mit einer englischsprachigen Textsammlung; ein Jahr später öffnete sich Common Voice für andere Sprachen. Für Englisch hat Mozilla 685 Stunden von fast 36.000 Sprechern aufgezeichnet; Deutsch folgt auf Platz zwei mit 254 Stunden, an denen knapp 4000 Freiwillige mitwirkten.

Während sich kommerzielle Anbieter auf die Sprachen der wichtigsten Märkte konzentrieren, finden sich bei Common Voice auch viele, die sonst kaum im Internet repräsentiert sind, etwa Kabylisch (eine algerische Berbersprache), Tatarisch oder Walisisch. Hier treiben oft wenige Enthusiasten das Projekt voran. Neuerdings kooperiert Mozilla mit der Deutschen Gesellschaft für Internationale Zusammenarbeit, um zum Beispiel Sprecher in dem afrikanischen Land Ruanda zu erreichen. Einige der großen Weltsprachen hinken dagegen noch hinterher, etwa Spanisch, Arabisch oder Russisch.

Seit der Release finalisiert wurde, wuchs die Zahl der Sprachen in der Aufnahmephase auf 22 an; fast 200 Stunden Aufzeichnungen kamen hinzu. Bei 70 weiteren Sprachen läuft die Vorbereitungsphase, in der die Freiwilligen Sätze sammeln und die Website übersetzen.

Auch wenn Deutsch in Common Voice gut vertreten ist, sucht das Projekt weiterhin Sprecher – das erklärte Ziel ist, für jede Sprache 1200 Stunden Material zu sammeln. Die Mitwirkung erfordert keine besonderen Kenntnisse und dauert nur wenige Minuten.

Siehe dazu auch c't 18/2018:

(dbe)