Zum Download
0
0 Stimmen
50
40
30
20
10
Hersteller: » Zur Website
Preis: kostenlos
Lizenz: Open Source
Betriebssystem: Windows, keine näheren Angaben, OS X, keine näheren Angaben, Linux
Download-Größe: keine Angabe
Downloadrang: 711
Datensatz zuletzt aktualisiert: 21.12.2019
Alle Angaben ohne Gewähr

Wer eingescannte PDF-Dokumente wiederfinden will, kann sie manuell mit Schlagworten versehen oder OCR-Technologie nutzen. Letzteres ist mit der Open-Source-Software OCRmyPDF möglich, deren Quelltext auf GitHub zu finden ist.

​Dokumente scannen und archivieren

Da sich das Portable Document Format (PDF) als Standard für Textdokumente etabliert hat, eignet es sich auch, um eingescannte Dokumente zur archivieren. Allerdings sind diese nicht durchsuchbar, denn bei dem Scanvorgang entsteht ein Bild, das lediglich in ein PDF verpackt wird.

​OCR erkennt Text in Bildern

Mit OCR-Software lässt sich dies beheben, da sie Buchstaben entdeckt. OCRmyPDF erkennt durch diese Technik Texte und fügt sie dem PDF hinzu, damit es anhand des erkannten Textes durchsuchbar wird.

Die Technik hinter OCRmyPDF

OCRmyPDF ist in Python geschrieben und nutzt ImageMagick, Pdftk, Ghostscript sowie Tesseract OCR zur Texterkennung. Entsprechend muss Python auf dem genutzten Rechner installiert sein.

Die Installation findet unter Linux über die vorhandenen Paktquellen der genutzten Distribution statt. Unter Windows sind die eben erwähnten Programme zu installieren, die sich bei uns herunterladen lassen. Weitere Informationen zur Installation von OCRmyPDF unter Windows 10 und macOS gibt es auf der Installationsseite von OCRmyPDF.

​Siehe auch:

Kommentare

{{commentsTotalLength}} KommentarKommentare

Weitere Kommentare laden...

Das könnte dich auch interessieren