Tipps & Tricks
21.09.2011, 06:01 Uhr
Texterkennung (OCR) gesucht
Problem: Ich besitze einen Epson Stylus SX510W, der scannen kann. Mit dem mitgelieferten Scanprogramm kann kein Text gescannt bzw. erkannt werden. Gibt es eine Alternative - möglichst kostenlos?
Lösung: Richtig gute Texterkennungssoftware ist teuer; besonders wenn sie auch Layouts und verschiedene Sprachen erkennen soll. Die wohl bekanntesten Produkte für Windows sind der Abbyy Finereader und I.R.I.S Readiris. Hersteller von Scannern und Multifunktionsgeräten legen ihren Geräten oft eine zeitlich oder funktionell eingeschränkte Demo-Version von Finereader oder Readiris bei.
Im Freewarebereich sieht es momentan noch mager aus. Hier könnten Sie es mit FreeOCR versuchen. Dieses enthält die Open-Source-OCR-Engine Tesseract, die inzwischen via Google Code weiterentwickelt wird. Google verwendet das Modul angeblich auch für die Texterkennung für Google Books.
Laden Sie FreeOCR bei http://www.paperfile.net/ herunter. Da auf der Webseite einige irreführende Google-Ads und sonstige Werbe-Download-Links verstreut sind, achten Sie bitte darauf, dass sie den richtigen Download-Link erwischen. Scrollen Sie hierfür auf der Webseite etwa um zwei Drittel herunter; er steckt im grau/lila Kasten und heisst Download here. Hier der Direktlink: http://www.paperfile.net/freeocr.exe.
Nach dem Download installieren Sie die Software. Zu Beginn erkennt FreeOCR nur englische Texte; deshalb patzt es beispielsweise bei deutschen Umlauten (ä, ö, ü). Surfen Sie nun zur Webseite mit den Infos über die Sprachpakete. Klicken Sie dort auf den Link Click Here for filtered list.
Laden Sie das File «German language data for Tesseract (2.00 and up)» herunter (Direktlink). Sie erhalten damit eine Datei namens tesseract-2.00.deu.tar.gz. Entpacken Sie sie mit einem Programm, das .tar.gz-Dateien versteht, z.B. 7zip oder WinRar. Öffnen Sie den entpackten Ordner tessdata. Gehen Sie im FreeOCR zu Settings/Open Language Folder. Jetzt öffnet sich ein Explorer-Fenster mit den bereits vorhandenen englischen Sprachdateien (eng.*). Kopieren Sie die «deu.»-Dateien in denselben Ordner. Sie brauchen hierzu Administrator-Rechte. Schliessen Sie FreeOCR und starten Sie es erneut. Jetzt wählen Sie oben rechts bei «OCR Language» den Punkt «deu» aus.
Zur Bedienung des Programms: Öffnen Sie via Open oder Open PDF eine Bild- oder PDF-Datei. Mit dem Icon OCR starten Sie die Texterkennung. Falls Sie nur einen Bereich des Bildes oder PDFs erkennen wollen, ziehen Sie vorher um die gewünschte Stelle per Maus einen rechteckigen Rahmen. Wie bereits erwähnt, kann FreeOCR nicht mit den eingangs genannten kostenpflichtigen Programmen mithalten. Annehmbare Resultate erzielen Sie nur, wenn die Vorlage ein paar Bedingungen erfüllt: Kein kompliziertes Layout, guter Schwarz/Weiss- bzw. Graustufendruck, keine exotische oder unüblich grosse/kleine Schrift, keine durchscheinenden Rückseiten, keine nicht installierte Sprache. In allen anderen Fällen ist die Texterkennung Glückssache, siehe Screenshot.
Nach dem Scannen können Sie die erkannten Textschnipsel via Text/Save Text in eine Datei speichern. (PCtipp-Forum)
Kommentare
Es sind keine Kommentare vorhanden.