News-Meldung vom 22.06.2010 16:11 Uhr
Die bislang als "experimentell" gekennzeichnete Extraktion von Text aus PDF-Dokumenten und Bildern hat Google nun für den Produktiveinsatz in seiner Docs-Anwendung freigeschaltet. Dadurch sollen Anwender vorhandene Dateien zur weiteren Verarbeitung in das Docs-Format übernehmen können.
In einem kurzen Test funktionierte das Verfahren zwar im Prinzip, bei vielen Details gab es jedoch Schwierigkeiten. So kann die Software mehrspaltigen Text nur schlecht erkennen, sodass die einzelnen Spalten durcheinander geraten. In einem anderen Fall brach die Texterkennung ohne Fehlermeldung nach wenigen Seiten ab. Anders als bei der Verwendung von Pixelformaten wie GIF oder PNG gibt es bei Googles PDF-OCR jedoch keine Missgriffe bei den einzelnen Zeichen.
(ck)
Version zum Drucken Per E-Mail versenden Newsletter abonnieren
Permalink: http://heise.de/-1027174
Mehr zum Thema Google Docs OCR PDF Google
Parallelprogrammierung - die Kunst der Multi-Core-Nutzung
Agile ALM - agile Praktiken im Application Lifecycle Management
Webentwicklung - Applikationen für mobile Clients