Doppelgänger gesucht

Ein Programm für die kontextsensitive phonetische Stringumwandlung

Artikel aus c't 25/99, S. 252 (jo)
English Version

In Ausgabe 25/99, S. 252 veröffentlichte c't einen Artikel zur phonetischen Stringersetzung. Die dort vorgestellte Funktion "phonet.c" wandelt einen Eingabestring durch phonetisch motivierte Ersetzungsregeln derart um, dass gleich klingende Wörter ("Meyer" = "Maier") auf dieselbe Zeichenkette abgebildet werden. Auf diese Weise lassen sich zum Beispiel in Adressdatenbanken schreibweisentolerante Suchverfahren implementieren.

Der Autor des Beitrags, Jörg Michael, und c't erhielten mehrere Anfragen von Entwicklern sowohl offener als auch kommerzieller Programme, phonet für ihre Projekte verwenden zu dürfen. Jörg Michael hat sich daher bereit erklärt, phonet in einer erweiterten Version unter der so genannten "Lesser General Public License" (LGPL) zur Verfügung zu stellen.

Phonet.zipQuelltexte C-Programm
Phonet.tgzPerl-Bibliothek

Die LGPL besagt im wesentlichen, dass jeder Entwickler eine unter der Lizenz stehende Funktion für seine Software verwenden und verändern darf, wenn man ihren Quellcode beziehungsweise den Code der geänderten Funktion wiederum frei zur Verfügung stellt.

NEU: Version 1.3 wurde durch ein verbessertes Hash-Verfahren um den Faktor drei beschleunigt.

Searching for doubles

A program for context-sensitive phonetic string replacement

The computer magazine c't has published in issue 25/1999, pp. 252, a program for context-sensitive phonetic string replacement. The program "phonet.c" modifies input strings according to predefined replacement rules in such a way that words with the same spelling (e.g. "tail" and "tale") are converted to the same string. This program can, for example, be used to implement error-tolerant search routines in address databases.

The author Joerg Michael and c't have been approached by several developers of free and commercial software who wanted to use this program in their own projects. Due to this general interest, Joerg Michael has placed an improved version of "phonet" under the "Lesser General Public License" (LGPL).

Basically, the LGPL says that you may use an LGPL program for your own projects or even modify it, if you place your sources or changes under the LGPL, too.

NOTE: Due to an improved hashing algorithm, version 1.3 now runs faster by a factor of three.

Phonet.zipsourcecode C-program
Phonet.tgzperl library

Currently, "phonet" contains phonetic rules for German only, but the program has been prepared for multi-language support (for natural languages like French), so anyone may add rules for another language. And for certain languages it might even be possible to plagiarize many or most of the German rules, thereby reducing time and effort.
If you have any questions or comments please mail to Jo Bager.


Die in diesem Archiv enthaltene Software steht unter der LGPL. Bitte beachten Sie die Datei COPYING.LIB in den Archiven. Im allgemeinen ist für das Verständnis und die Inbetriebnahme der Software der dazu in c't veröffentlichte Artikel Voraussetzung. Wir können keine Hilfestellung geben, wenn der entsprechende Artikel beim Anwender nicht bekannt ist.

Download aller Dateien zu diesem Artikel
9925-252.zip

Sourcecode zu Phonet unter offener Lizenz / Click here to download the current versions
phonet.zip C-Programm v1.4.2 vom 27.08.2007
phonet.tgz Perl-Bibliothek v1.3.1 vom 28.04.01

Anzeige