Avatar von Nyxos
  • Nyxos

67 Beiträge seit 09.07.2001

Re: tesseract 3.03 - PDF plus neuer Parameter lossless compression

Ugglan schrieb am 14.10.2014 15:18:

Und was macht tesseract normalerweise? Ich hätte erwartet, dass das png 1:1 in das pdf eingebunden wird, anstatt nochmal in jpg oder sonstwas umzucodieren. Dadurch wird's selten besser, und die Kompression von PNG ist sehr gut.

Gruß

Ugglan

Das ist jetzt gefixt in https://code.google.com/p/tesseract-ocr/source/detail?r=4904afe65bb100db0b4804883c161a2b67a242e9

Siehe https://github.com/fritz-hh/OCRmyPDF/issues/85

Der Parameter "tessedit_pdf_compression" ist jetzt wieder raus, meine Meldungen beim Tesseract-Team haben dazu geführt diesen Bug (unnötige Transkodierung) zu finden und zu beheben. Ab der genannten Version wird ein input file *.png nicht mehr umkodiert, .d.h. das erstellte PDF File benutzt dann verlustlose FLATE Kompression der PNG Image Daten bzw. macht gar nichts. Ich habe es getestet.

Bitte verwende also die neueste Version von google-git ( https://code.google.com/p/tesseract-ocr/source/list ).

Bewerten
- +