Aus Bild wird Text

OCR in PDFs

Wenn ein Scanner eine Vorlage erfasst, dann speichert er das Resultat vorzugsweise in einer PDF-Datei. Im Gegensatz zu den meisten anderen Formaten, kann ein PDF beliebig viele Seiten enthalten. Doch vor allem kennt das Format auch die Möglichkeit, um neben dem unverständlichen Pixel-Text eine weitere Schicht zu speichern, auf der der Text in einer maschinenlesbaren Form abgespeichert ist.
Diese Textschicht macht ein PDF durchsuchbar, etwa über die Windows-Suche oder über Apples Spotlight. Und es lässt sich nicht leugnen: Ein PDF ohne maschinenlesbaren Text ist nicht annähernd so nützlich, wie eines, dessen Text durch OCR erkannt wurde.
Tipp: PDFs, die aus beliebigen Office- oder Layoutprogrammen herausgeschrieben werden, enthalten bereits maschinenlesbaren Text. Diese Dateien benötigen keine zusätzliche Behandlung, um sie für die Windows-­Suche respektive für Apples Spotlight erkennbar zu machen.

PDFs unter macOS

Unter macOS baut Apple die Funktion Live Text immer weiter aus. Seit macOS 14 «Sonoma» kann sie sogar Texte nicht nur aus Fotos, sondern auch aus Videos kopieren. Dazu wird lediglich die Datei geöffnet, die gewünschte Passage markiert und in die Zwischenablage kopiert, Bild 1. Oft genug hat sich die lästige Abtipperei damit bereits erledigt. Es lässt sich allerdings nicht leugnen, dass dedizierte OCR-Programme bei komplexen Dokumenten eine höhere Genauigkeit vorweisen können.
Bild 1: Unter macOS ist die OCR-Funktion systemweit aktiv, hier zum Beispiel in der Anwendung Vorschau
Quelle: PCtipp.ch
Hinweis: Apples OCR-Behandlung wird ad hoc vorgenommen und ist flüchtig: Sie bleibt also nicht im PDF erhalten. Deshalb ist es (noch) nicht möglich, den maschinenlesbaren Text dauerhaft in das PDF-Dokument zu integrieren, damit die Spotlight-Suchfunktion den Inhalt indexieren kann.

Externe Hilfen

Wenn Texte in einem PDF dauerhaft lesbar sein sollen, helfen externe Programme. Unterdessen gibt es zahlreiche Werkzeuge, die eine solche Funktion unterstützen: teils gratis, teils als Bestandteil einer grösseren Software.
Tipp: Je nach Scannermodell oder Multifunktionsgerät gehört eventuell eine OCR-Software zum Lieferumfang, die noch während des Scannens aktiv wird. Ein Blick in die Schachtel lohnt sich, denn vielleicht hat sich das Thema bereits in Wohlgefallen aufgelöst.
Dass eine so komplexe Funktion wie OCR überhaupt kostenlos angeboten werden kann, ist der freien Software Tesseract zu verdanken, die von Google, Hewlett-Packard und der Universität von Nevada entwickelt wurde und unterdessen von Google gepflegt wird. Die Technologie richtet sich jedoch weniger an Endanwender, sondern an Entwickler, die Tesseract kostenlos in ihre Produkte integrieren möchten.
Bei OCR-Programmen kommt als Ausgabematerial fast immer ein PDF zum Einsatz, weil sich die erkannten Texte in der Datei verkapseln lassen – eine Eigenschaft, die einer Bilddatei fehlt. Wenn Sie also Ihre Papiervorlagen mit einem Scanner einlesen, sollten Sie für die Speicherung immer ein PDF als Dateiformat verwenden – auch, weil sich damit beliebig viele Seiten in einem Dokument zusammenfassen lassen.

OCR-Programme für Windows

Auch wenn man von einem Schwergewicht wie Adobe Acrobat DC absieht, das ab Fr. 15,50 monatlich kostet, ist die Auswahl an Alternativen unter Windows gross. Zu den besonders zugänglichen Werkzeugen gehört UPDF: Es unterzieht bestehende PDFs einer OCR-Erkennung und bietet zahlreiche Möglichkeiten, um PDFs zu bearbeiten – soweit dieses ungelenke Format überhaupt Bearbeitungen erlaubt, Bild 2. Überdies hilft UPDF beim Ausfüllen von Formularen, lässt Anmerkungen anbringen und schwärzt Stellen. Und schliesslich lassen sich PDFs in andere Formate wie Excel oder Word umwandeln.
Bild 2: UPFD tut genau das, was es soll – und gefällt durch die zugängliche Oberfläche
Quelle: PCtipp.ch
Leider sind die Einschränkungen der Demoversion restriktiv. Sie bietet zwar alle Möglichkeiten, will aber keine Dateien speichern und erlaubt auch nicht das Heraus­kopieren von Texten. Es lohnt sich auch nicht, sich beim Hersteller zu registrieren, weil das an den Einschränkungen nichts ändert. Davon abgesehen verdient diese Software einen genaueren Blick.
Info: updf.com/de, für Windows und mac­OS, ca. 50 Franken, Deutsch.

OCR-Programme am Mac

Bild 3: PDFScanner für macOS bietet einen idealen Mix aus Leistungsfähigkeit, Benutzerfreundlichkeit und fairem Preis
Quelle: PCtipp.ch
Am Mac bietet die Software PDFScanner, Bild 3, eine ausgezeichnete Mischung aus Leistung, Preis und Benutzerfreundlichkeit. Sie erkennt zwölf Sprachen und arbeitet mit vielen Scannern direkt zusammen, sodass der Scan und die OCR-Erkennung in einem Aufwasch erledigt werden; ansonsten lassen sich PDF-Dateien auch nachträglich erkennen. Scans werden auf Wunsch automatisch zugeschnitten und gedreht. Und schliesslich übernimmt unterwegs die Kamera des iPhones die Funktion eines Scanners – und das sogar kabellos.
Tipp: Für Bastler lässt sich die Software PDFScanner auch in Apples Automator einbinden. Damit lassen sich Verzeichnisse (Hot Folders) auf neu hinzugekommene PDFs über­wachen, die dann ohne Zutun des Benutzers verarbeitet werden.
Info: Kauf im Mac-App-Store unter go.pctipp.ch/2865, einmalig 20 Franken, keine Demoversion, Deutsch.

ABBYY FineReader: der Profi

Seit fast drei Dekaden bietet die Firma ABBYY einen der besten OCR-Scanner überhaupt, Bild 4.
Bild 4: ABBYY FineReader gehört zu den Urgesteinen und kann fast alles; ideal, um in einem Kraftakt die ganzen Papieraltlasten zu digitalisieren
Quelle: PCtipp.ch
Der FineReader bietet eine riesige Auswahl an Funktionen wie das Konvertieren von PDFs in Office-Dateien, die Verarbeitung von Visitenkarten und vielem mehr. Die schier endlose Liste der unterstützten Sprachen startet mit Abchasisch, Adygisch und Afrikaans; und irgendwann endet sie mit Wolof, Xhosa, Zapotekisch und Zulu.
FineReader unterstützt ebenfalls Hot Folders, die ständig auf neue Vorlagen hin überwacht werden. Damit eignet sich die Software auch für grössere Scanvolumen oder um die PDFs aus einem spezialisierten Dokumentescanner über Nacht abzuarbeiten.
Die Software richtet sich allein schon durch das Preismodell eher an Firmen. Doch wenn Sie als privater Anwender im Begriff sind, stapelweise Dokumente aus dem Familienarchiv zu digitalisieren, wird ein Jahres-Abo von FineReader vielleicht zu einem attraktiven Angebot – denn in diesem Fall lassen sich enorm viel Zeit und Nerven sparen. Dasselbe gilt, wenn unzählige Ordner mit Belegen und alten Rechnungen endlich ins digitale Zeitalter überführt werden sollen.
Info: für Windows und macOS, Deutsch, Abo für ca. 100 Franken jährlich. Der Link zur kostenlosen Demoversion wird unter dem Link pdf.abbyy.com/de mit einer E-Mail-Adresse beantragt, was etwa eine Minute dauert und keine Registrierung erfordert. Die Demo funktioniert 7 Tage lang und speichert maximal 100 Seiten.



Kommentare
Avatar
c_a
07.05.2024
Leider fehlt hier der Hinweis auf ein - im Verhältnis zum Preis ! - ausgezeichnetes Freeware-Programm namens PDF24: https://tools.pdf24.org/de/ Es funktioniert online, und es gibt auch eine Offline-Version: https://tools.pdf24.org/de/creator Ich benutze dieses Programm, seit das seinerzeit teuer erworbene Omnipage sich nicht mehr installieren liess, als ich das System neu aufsetzen musste.