Menü

FOSDEM: Grammatik-Korrektur für Wikipedia

Freie Software soll helfen, sprachliche Fehler in der Wikipedia zu korrigieren. Ein Online-Werkzeug prüft dazu kürzliche Änderung in der Enzyklopädie. Davon profitieren auch die Software-Entwickler.

Von
vorlesen Drucken Kommentare lesen 78 Beiträge

Eine Million Grammatik-Fehler in der englischen Wikipedia und wie man sie beheben kann, so lautete der reißerische Titel der ersten Keynote auf der Open-Source-Konferenz FOSDEM in Brüssel. Daniel Naber, Entwickler der freien Sprachkorrektur-Software LanguageTool, stellte seine Untersuchungen zu stilistischen und grammatikalischen Fehlern in der Online-Enzyklopädie vor. Zudem präsentierte er einen Online-Dienst, der Wikipedia-Autoren bei der Fehlersuche unterstützt und gleichzeitig die Qualität der Software verbessern soll.

LanguageTool untersucht die Texte Satz für Satz nach Mustern. Für jede Sprache gibt es Regeln, wobei die Unterstützung je nach Sprache schwankt. Da sie in XML definiert werden, benötigt man zum Schreiben von Regeln keine Programmierkenntnisse. Pro Satz braucht die Software laut Naber 10 Millisekunden. Daher entschieden sich die LanguageTool-Entwickler, damit lediglich 20.000 Artikel aus der englischsprachigen Wikipedia zu analysieren. Dabei fanden sie 37.000 Fehler, deren Großteil jedoch Falschmeldungen seien, wie Naber einräumt. Bei 200 genauer untersuchten Fehlern ergaben sich 29 korrekt erkannte Probleme. Naber rechnet diese Zahlen auf die gesamte englischsprachige Wikipedia hoch und kommt so auf eine Million Fehler.

Für Helfer sei es aber demotivierend, eine Liste mit acht Millionen potenziellen Fehlern durchzuarbeiten, sagte Naber gegenüber dem FOSDEM-Publikum. Stattdessen schlägt er vor, mit der Software zunächst die neuesten Änderungen in der Wikipedia zu verfolgen, um neue Fehler zu vermeiden. Dazu steht auf der LanguageTool-Website ein Online-Werkzeug bereit. Dort können Nutzer Fehler korrigieren oder als Fehlalarm verwerfen. Änderungen werden direkt zur Wikipedia geleitet. Der Dienst liest den Wikipedia-Feed mit den letzten Änderungen zweimal pro Minute. Dadurch erkenne man nicht nur die Fehler, sondern sammele gleichzeitig auch die Korrekturen. Von ihnen kann auch LanguageTool profitieren, da seine Regeln ausgebaut und verbessert sowie unbrauchbare aussortiert werden können.

Das Projekt läuft derzeit nur auf der LanguageTool-Website und ist keine Erweiterung seitens Wikipedia. Laut Naber könnte es auf lange Sicht zu Wikimedia Labs umziehen. Derzeit sei es vor allem ein Problem, dass LanguageTool in Java implementiert ist. In Zukunft würden die Entwickler gerne den Java-Code nach Javascript kompilieren, wofür Naber Hilfe sucht. (Keywan Tonekaboni) / (ck)

Anzeige
Anzeige