Menü

Google: Freie Texterkennung für Linux

vorlesen Drucken Kommentare lesen 154 Beiträge

Prof. Dr. Thomas Breuel vom Deutschen Forschungszentrum für künstliche Intelligenz (DFKI) in Kaiserslautern kündigte Anfang dieser Woche eine Vorabversion des OCR-Systems OCRopus unter der Apache License 2.0 an. Seine Arbeitsgemeinschaft im Forschungsbereich Bildverstehen und Mustererkennung (IUPR) arbeitet im Auftrag von Google an dem Texterkennungssystem, das für die Digitalisierung großer Textmengen wie in Googles Buch-Scan-Projekt entwickelt wird.

Die Software nutzt die in den 90er-Jahren von HP entwickelte Handschriften-Erkennung Tesseract. OCRopus wird unter Ubuntu für x86-Systeme entwickelt, soll jedoch auch auf andere Plattformen portiert werden. Der über Subversion erhältliche Quellcode erkennt zurzeit nur englische Texte.

Der Zeitplan des Projekts kündigt für das dritte Quartal dieses Jahres die Alpha-Version an, ein erstes Beta-Release soll Anfang nächsten Jahres folgen. Erst mit Version 1.0, deren Erscheinen für das dritte Quartal 2008 geplant ist, soll OCRopus eine grafische Oberfläche erhalten. (amu)