Tesseract OCR

0 Stimmen

Hersteller:	Google
Webseite:	Website besuchen
Preis:	kostenlos
Lizenz:	Open Source
Betriebssystem:	Linux, Mac, Windows
Download-Größe:	keine Angabe
Downloadrang:	291
Datensatz zuletzt aktualisiert:	11.01.2023
Alle Angaben ohne Gewähr

Wer Dokumente einscannt, hat das Problem, dass sie in Bild-Dateien umgewandelt werden und sich nicht nach Texten und Wörtern durchsuchen lassen. Tesseract OCR analysiert solche Bilddateien und extrahiert die darin enthaltenen Texte.

Erkennt über 100 Sprachen

Tesseract OCR nutzt die OCR-Engine "libtesseract", die für die Erkennung von Zeichen und Textzeilen zuständig ist. Zudem kann die Open-Source-Software mit UTF-8 umgehen und unterstützt so über 100 Sprachen. Das Ergebnis speichert die Software in Textdateien, PDF-Dokumenten, HTML-, XML- und TSV-Dateien.

Tesseract einsetzen

Tesseract eignet sich als Kommandozeilen-Programm unter anderem für Entwickler, die die Texterkennung automatisieren wollen. Der Quellcode der Software wird von der Community auf GitHub bereitgestellt, wo zudem ein Wiki und FAQ für Beispiele und häufige Fragen zu finden ist.

Tesseract für Python

Tesseract lässt sich unter anderem mit der Programmiersprache Python nutzen. Dazu gibt es auf GitHub die Python-Bibliothek "pytesseract", um Texte in Bilddateien und PDFs zu erkennen. Hierzu gibt es auf heise+ den Artikel "Texterkennung mit Tesseract und Python" aus der c't 7/2019, Seite 146.

Siehe auch:

Toolbox: Texterkennung mit Tesseract OCR auf c't online

Kommentare

Einloggen, um Kommentar zu melden

Kommentare ({{commentsTotalLength}}) Weitere Kommentare laden...

Tesseract OCR

Erkennt über 100 Sprachen

Tesseract einsetzen

Tesseract für Python

Siehe auch:

Kommentare

Das könnte dich auch interessieren

Die beste Texterkennungssoftware: OCR-Tools im Vergleich

Office-Software für Privat und Beruf: Die besten Office-Pakete im Vergleich

F1-Saison 2026 in Stream & TV: Alle Sender und Kosten im Vergleich

[Werbung] Die Zukunft der europäischen Cloud-Infrastruktur