Artikel-Archiv iX 5/2004, Seite 119

  • Gleich strukturiert

    Ähnliche Texte finden mit Fuzzy Checksums

    Im Zeitalter der Daten-Sintflut ist es von großem Wert, die Gleichheit von Dokumenten schnell ermitteln zu können. Damit nicht schon ein kleiner Tipp- oder Scanfehler oder das gezielte Streuen irrelevanter Informationen wie bei Spam-Mails in die Irre führt, sollte der Vergleich in Grenzen tolerant sein -- Praxistipps für die Erzeugung von Fuzzy Checksums mit Unix-Bordmitteln.

    BibTeX anzeigen