Hersteller: | Zur Website |
Preis: | kostenlos |
Lizenz: | Open Source |
Betriebssystem: | Linux, Mac, Windows |
Download-Größe: | keine Angabe |
Downloadrang: | 312 |
Datensatz zuletzt aktualisiert: | 11.01.2023 |
Alle Angaben ohne Gewähr |
Wer Dokumente einscannt, hat das Problem, dass sie in Bild-Dateien umgewandelt werden und sich nicht nach Texten und Wörtern durchsuchen lassen. Tesseract OCR analysiert solche Bilddateien und extrahiert die darin enthaltenen Texte.
Erkennt über 100 Sprachen
Tesseract OCR nutzt die OCR-Engine "libtesseract", die für die Erkennung von Zeichen und Textzeilen zuständig ist. Zudem kann die Open-Source-Software mit UTF-8 umgehen und unterstützt so über 100 Sprachen. Das Ergebnis speichert die Software in Textdateien, PDF-Dokumenten, HTML-, XML- und TSV-Dateien.
Tesseract einsetzen
Tesseract eignet sich als Kommandozeilen-Programm unter anderem für Entwickler, die die Texterkennung automatisieren wollen. Der Quellcode der Software wird von der Community auf GitHub bereitgestellt, wo zudem ein Wiki und FAQ für Beispiele und häufige Fragen zu finden ist.
Tesseract für Python
Tesseract lässt sich unter anderem mit der Programmiersprache Python nutzen. Dazu gibt es auf GitHub die Python-Bibliothek "pytesseract", um Texte in Bilddateien und PDFs zu erkennen. Hierzu gibt es auf heise+ den Artikel "Texterkennung mit Tesseract und Python" aus der c't 7/2019, Seite 146.
Siehe auch:
- Toolbox: Texterkennung mit Tesseract OCR auf c't online
Das könnte dich auch interessieren
Die beste Texterkennungssoftware: OCR-Tools im Vergleich
Text in Bildern & PDFs erkennen und verarbeiten
Office-Software für Privat und Beruf: Die besten Office-Pakete im Vergleich
Dokumente, Tabellen und Präsentationen erstellen mit der richtigen Office-Software
Chrome, Firefox, Opera & Co: Browser im Vergleich
Der beste Browser für jeden Zweck
HDD & SSD partitionieren: Partitionierungssoftware im Vergleich
Festplatten partitionieren ohne Datenverlust
Kommentare
{{commentsTotalLength}} KommentarKommentare
{{line}}