CLI OCR – Funktionsüberblick
Benutzung der CLI-Anwendung - Beispiele
Linux Magazin 07/2010: Die Abbyy-OCR-Engine für Linux im Test - Richtig gelesen?
abbyyocr -if sample.jpg -f HTML -hkl -of sample.html -f RTF -rmp -of sample.rtf
Die Datei „sample.jpg“ wird erkannt,
Die Ergebnisse werden in die Formate
Beim Export ins
HTML-Format werden die ursprünglichen Zeilen des erkannten Texts beibehalten (-hkl).
Beim Export ins RTF-Format bleibt das Layout der erkannten Seite nicht erhalten (-rmp).
abbyyocr -ii -fm -if sample.jpg -tet UTF8 -of sample.txt
Die Datei „sample.jpg“ wird im Schnellmodus (-fm) erkannt.
Die Farben des vorbereiteten Bilds werden bei der Konvertierung ins interne Format invertiert (-ii).
Das Ergebnis wird in eine Textdatei des Typs Unicode UTF8 exportiert (-tet UTF8).
Eigenschaften + Funktionen
ABBYY FineReader Engine CLI für Linux ermöglicht auf der Linux-Plattform mühelosen und sofortigen Zugriff auf ABBYYs leistungsfähige OCR-Technologie. Die Verarbeitung kann über Terminal-/Befehlszeilenaufrufe einfach gesteuert und automatisiert werden.
Die folgenden Bild- und Dokumentformate können geöffnet und verarbeitet werden:
PDF
BMP
PCX
DCX
JPEG
JPEG2000
TIFF
PNG
b) Verarbeitungs- und Erkennungsfunktionen:
Die Bildverarbeitung und Erkennung werden über verschiedene Parameter gesteuert:
Bild (Vor)verarbeitung
Korrektur von Bildverzerrungen, Bildformat, Komprimierungseinstellungen, Bildauflösung, Bereinigung von Bildern, Farbumwandlung, Trennung von Doppelseiten
Erkennungsparameter
Fast/Balanced Modus, Formaterkennung (z. B. kursiv), zu benutzende Erkennungssprachen, Erkennung von Dokumenten mit gemischten Schriften, z. B. normaler Text, Schreibmaschine, Punktmatrix, OCR-A, OCR-B und MICR (E13b)
c) Exportoptionen:
ABBYY CLI für Linux verfügt über vielseitige Ausgabeoptionen und -formate:
Syntheseparameter
Einstellungen zum Export des Erkennungsergebnisses, z. B. Schriftarten, Absätze, Textfarbe, Hyperlinks…
Das Resultat des Erkennungsvorgangs kann in die folgenden Formate exportiert werden:
-
nur Text
Text auf Bild
Bild auf Text
nur Bild
geschützte PDFs
-
-
-
-
-
-
Weitere Informationen finden Sie in der Dokumentation (Englisch).
OCR-Sprachen
ABBYY FineReader Engine für Linux kann bis zu über 190 OCR-Sprachen erkennen, weitere Infos
Strichcodetypen
1D: Check Code 39, Check Interleaved 25, Code 128, Code 39, EAN 13, EAN 8, Interleaved 25, CODABAR (ohne Prüfsumme), UCC Code 128, Code 2 of 5 (Industrial, IATA, Matrix), Code 93, UPC-A, UPC-E und Postnet.
2D: PDF 417, Aztec, DataMatrix, QRCode
Lizenz Erweiterungen