Menü
iX Magazin

Google Docs extrahiert Text aus PDFs

vorlesen Drucken Kommentare lesen 83 Beiträge

Die bislang als "experimentell" gekennzeichnete Extraktion von Text aus PDF-Dokumenten und Bildern hat Google nun für den Produktiveinsatz in seiner Docs-Anwendung freigeschaltet. Dadurch sollen Anwender vorhandene Dateien zur weiteren Verarbeitung in das Docs-Format übernehmen können.

In einem kurzen Test funktionierte das Verfahren zwar im Prinzip, bei vielen Details gab es jedoch Schwierigkeiten. So kann die Software mehrspaltigen Text nur schlecht erkennen, sodass die einzelnen Spalten durcheinander geraten. In einem anderen Fall brach die Texterkennung ohne Fehlermeldung nach wenigen Seiten ab. Anders als bei der Verwendung von Pixelformaten wie GIF oder PNG gibt es bei Googles PDF-OCR jedoch keine Missgriffe bei den einzelnen Zeichen. (ck)