Tipps & Tricks 02.11.2019, 10:00 Uhr

Mac-Tipp: PDFScanner

OCR-Programme für PDFs sind entweder teuer oder unbrauchbar. Dieses nicht.

Zuerst ein wenig Grundlagenforschung. Wenn Sie aus einer Anwendung wie Word oder InDesign ein PDF schreiben, dann enthält dieses PDF regulären Text – denn der war ja vorher schon da. Nach diesen Texten können Sie zum Beispiel mit Spotlight suchen, weil der Inhalt des PDFs von macOS indexiert wird. Geben Sie einfach den Suchbegriff ein, und das war’s:

PDFs werden aufgrund ihres Inhaltes mit Spotlight aufgespürt

Quelle: Screenshot / ze

Ganz anders präsentiert sich die Situation bei PDFs, die mit einem Scanner erfasst werden. Zwar ist das Dateiformat dasselbe, aber der Inhalt ist nur ein Pixelhaufen. Um nach dem Text suchen zu können, muss das PDF zuerst einer OCR-Behandlung unterzogen werden, für «Optical Character Recognition» (optische Zeichenerkennung). Dabei werden die pixeligen Abbildungen in echte, durchsuchbare Texte umgewandelt.

Diese Texte werden auf einer unsichtbaren Ebene innerhalb des PDF gespeichert. Mehr noch: Auf dieser Ebene bleibt sogar die Position des Textes erhalten, sodass Sie ihn zum Beispiel in der Anwendung «Vorschau» markieren und kopieren können, selbst wenn die Vorlage ein wenig Schieflage hat:

Der Text wird an der korrekten Position im PDF hinterlegt

Quelle: Screenshot / ze

Einige bessere Scanner-Programme nehmen diese OCR-Behandlung bereits beim Einscannen vor. Andere Programme erlauben das nachträgliche Erkennen von PDFs, etwa das sündhaft teure Acrobat DC von Adobe (ab Fr. 15,10 pro Monat) oder der hochspezialisierte FineReader OCR Pro von Abbyy für einmalige 120 Franken.

Diese Anwendungen haben ihre Berechtigung in Unternehmen. Für die meisten privaten Anwender sind sie jedoch restlos überzüchtet und vor allem viel zu teuer. Aber es geht auch anders – und damit sind wir endlich beim Thema.

PDFScanner

Die Anwendung PDF-Scanner kostet gerade einmal 18 Franken (einmalig) und bietet fast alles, was das Herz des archivierenden Mac-Anwenders begehrt. Diese Software ist die erste Wahl, wenn Sie zuhause ein Archiv aus Belegen, Briefen und Verträgen anlegen möchten. Die Oberfläche ist leider nur in Englisch verfügbar; aber es braucht keine umfassenden Kenntnisse in dieser Sprache, um PDFScanner zu bedienen.

PDFScanner funktioniert auf zwei Arten: entweder als Scanner-Software, die anschliessend einen OCR-Durchgang anhängt. Oder als reine OCR-Software, die bestehende PDFs einer OCR-Behandlung unterzieht.

«Doch ist mein Scanner mit PDFScanner kompatibel?» Diese Frage ist schnell beantwortet: Wenn Sie ihn über die Software «Digitale Bilder» ansprechen können, dann klappt es auch über PDFScanner. Wenn nicht, dann kann es mit dem Treiber des Herstellers trotzdem funktionieren – aber sicher ist das nicht und es gibt auch keine Demoversion von PDFScanner.

Scannen und OCR

Um eine Vorlage zu scannen und gleichzeitig einer OCR-Behandlung zu unterziehen, klicken Sie in der Anwendung links unten auf das Zahnrad. Hier lassen sich die Einstellungen vornehmen, bis hin zur Wahl des Papiereinzuges. Wichtig ist, dass Sie das Markierungsfeld «OCR after Scan» anwählen und im Einblendmenü «OCR Language» die gewünschte Sprache einstellen:

Die Wahr der richtigen Sprache ist natürlich entscheidend

Quelle: Screenshot / ze

Klicken Sie auf die Schaltfläche «Scan», um die Seite(n) einzulesen und mit OCR maschinenlesbar zu machen. Der OCR-Vorgang ist nicht zu übersehen:

Das Symbol zeigt den OCR-Vorgang an

Quelle: Screenshot / ze

Wie lange der Vorgang dauert, hängt von der Anzahl Seiten ab und von der Textmenge, die sich darauf befindet. Das gespeicherte PDF wird nun von Spotlight indexiert und kann über die Suche gefunden werden: