Durchsuchbare PDF-Dokumente mit OCRmyPDF erstellen

Das Linux-Tool OCRmyPDF macht aus eingescannten Dokumenten durchsuchbare PDF-Dateien. Bei Bedarf kann es Scans drehen und entzerren oder Bilder optimieren.

Lesezeit: 7 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 4 Beiträge
Durchsuchbare PDF-Dokumente mit OCRmyPDF

Gedreht und schief: OCRmyPDF rotiert das Dokument, rückt es gerade und erkennt den Text.

Von
  • Liane M. Dubowy
Inhaltsverzeichnis

Briefe, Artikel und andere Schriftstücke lassen sich gut digital archivieren und sichern. Sind sie als durchsuchbare PDF-Dokumente gespeichert, braucht man auch kein Dokumenten-Management, um etwas wiederzufinden: Eine einfache Desktop-Suche stöbert ein Schreiben vermutlich schneller auf, als Sie einen Ordner aus dem Regal ziehen und durchblättern können.

Das kostenlose Kommandozeilentool OCRmyPDF versieht einfache PDF-Dokumente mit einer unsichtbaren, durchsuchbaren Textebene und legt sie im Format PDF/A ab, das für die Langzeitarchivierung elektronischer Dokumente gedacht ist und sich auch in vielen Jahren noch öffnen lassen soll.

Dabei platziert OCRmyPDF die Textebene recht präzise im Dokument, sodass Sie Textabschnitte mit der Maus markieren und per Copy & Paste weiterverwenden können. Ganz exakt liegen die Buchstaben dabei nicht auf dem Original, unter anderem wegen fehlender Schriftarten.