Tipps & Tricks 01.12.2016, 07:00 Uhr

Mit Bordmitteln: vom PDF oder Foto zum Text

Text aus einem Foto extrahieren? Oder ein altes PDF bearbeiten? Die Tools, mit denen das klappt, haben Sie wahrscheinlich schon.
Vielleicht haben Sie per Handy einen Zeitungsausschnitt abfotografiert und möchten den Text gerne bearbeitbar haben. Oder Sie haben ein altes PDF, das nach Ergänzungen schreit, aber Ihnen fehlt die ursprüngliche Datei. Es gibt viele kostenlose oder bei Ihnen schon vorhandene Werkzeuge, mit denen Sie solche Bild- oder PDF-Dateien in bearbeitbaren Text umwandeln. Staunen Sie: Zwei davon sind Word 2016 – und Google Drive.
Wir müssen aber vorausschicken, dass diese Tools nicht hexen können. 
Voraussetzungen: Fotografierter Text wird am besten konvertiert, wenn es sich um schwarzen oder dunklen Text auf weissem oder sehr hellen Hintergrund handelt. Achten Sie auch darauf, dass Sie das Bild so zuschneiden, dass nur noch der gewünschte Abschnitt darauf zu sehen ist. Richten Sie das Bild allenfalls in einer Bildbearbeitung grade. 
Und bei PDFs gibt es zwei grundsätzliche Dinge zu beachten: Ist der Text in der PDF-Datei mit eingebettet? Wenn ja, sollte es sowohl mit Word als auch mit Google Drive klappen. Ist es jedoch ein gescanntes Dokument, das den Text quasi nur als Bild enthält? Dann dürfte Word mutmasslich scheitern – versuchen Sie es mittels Google Drive. 
Bei aufwendig gestalteten PDFs mit Bildern, mehreren Spalten, Kästen und Zierschriften sind Sie in den meisten Fällen ziemlich verloren. Bei einfachen Lauftexten, die höchstens mit Titeln oder Aufzählungen formatiert sind, klappt es aber recht gut.

Einfach mit Word

Ist es bereits ein «durchsuchbares» PDF, also eines, das z.B. seinerzeit aus Word oder einer anderen Textverarbeitung heraus erstellt wurde? Dann sollte es für Word 2016 kein Problem darstellen. Klicken Sie mit Rechts auf die PDF-Datei und wählen Sie bei Öffnen mit einfach den Eintrag Word 2016
PDF mit Word öffnen und bearbeiten
Microsofts Textprogramm macht Sie in einer Meldung darauf aufmerksam, dass die Datei konvertiert wird und dass das Resultat je nach Ausgangsmaterial unterschiedlich ausfallen kann. Klicken Sie auf OK und warten Sie, bis die Datei geöffnet und konvertiert ist. In diesem Beispiel haben wir ein altes PDF der Eidg. Kommunikationskommission ComCom genommen. Es enthält eine mehrstufige Kapitelnummerierung und verschiedene Zwischentitel. Das über 10-jährige File wurde in Word anstandslos geöffnet und war bereit für allerlei Bearbeitungen.
Je nach Ausgangsmaterial ist das Resultat fast perfekt
Word kann auch in schwierigen Fällen helfen. Ist es zwar ein durchsuchbares PDF, kommt aber mit einem komplizierten Layout daher? Dann greifen Sie zum guten alten «Copy&Paste», sprich: kopieren und einfügen. Das geht dann quasi nur häppchenweise. Öffnen Sie das PDF in Ihrem PDF-Reader, zum Beispiel im Foxit-Reader, Adobe Reader, im Webbrowser Chrome oder Edge. Markieren Sie einen ersten Absatz, den Sie kopieren wollen. Drücken Sie Ctrl+C (Strg+C), wechseln Sie in Ihre Textverarbeitung, zum Beispiel Word. Klicken Sie mit Rechts ins noch leere Dokument und wählen Sie im Kontextmenü bei den Einfügeoptionen das Icon für Nur den Text übernehmen. Der Text landet im Dokument, ohne die ursprüngliche Formatierung mitzunehmen. Nehmen Sie sich den nächsten Absatz vor.
Sollen auch einige der Bilder unbedingt im neuen Dokument landen? Falls Sie den Webbrowser als PDF-Viewer benutzen, ziehen Sie das Fenster gross und zoomen per Ctrl+Mausrad etwas ans Bild heran. Erstellen Sie mit dem Windows Snipping Tool einen Screenshot des Bildes. Falls Sie den Foxit- oder Adobe-Reader verwenden, zoomen Sie das gewünschte Bild etwas grösser, greifen Sie zum Werkzeug Schnappschuss und ziehen Sie ein Rechteck ums Bild. Damit wird in der PDF-Datei das Bild geknipst und Sie können es in die Word-Datei (oder besser: in ein Bildbearbeitungsprogramm – und dann in Word) einfügen.
Nächste Seite:
  • mit Google Drive
  • mit LibreOffice
  • mit einem Gratis-Onlinedienst

Mit Google Drive

Mit Google Drive

Die OCR-Künste von Google Drive bzw. Google Docs sind vermutlich noch vielen Nutzern weitgehend unbekannt. Aber es ist Tatsache: Bei Bild- und PDF-Dateien von maximal 2 Megabyte Grösse kann Google Docs eine optische Zeichenerkennung (Optical Character Recognition, OCR) durchführen. Wenn Sie einen Google-Drive-Account haben, ist das auf jeden Fall einen Versuch wert. Laden Sie die umzuwandelnde Datei in Google Drive hoch. Falls es sich um eine Bilddatei handelt, richten Sie das Bild exakt senkrecht aus und schneiden Sie es auf den relevanten Teil zu. 
Beim File mit 4 MB wirds nicht funktionieren
Öffnen Sie Google Drive in Ihrem Webbrowser, loggen Sie sich ein und suchen Sie den Ordner auf, in den Sie die Datei geladen haben. Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie im Kontextmenü Öffnen mit/Google Docs
Öffnen Sie das Bild oder PDF in Google Docs
Es öffnet sich ein weiteres Drive- bzw. Docs-Fenster. Es dauert eine Weile, bis Docs das Dokument darstellt. Im Falle von Bildern ist jeweils das Originalbild enthalten; darunter steht der daraus extrahierte Text. Die Formatierung ist aber meistens nicht brauchbar. Auch hier funktioniert das Ganze natürlich bei einfach gestalteten, durchsuchbaren PDFs am besten, die ursprünglich aus einer Textverarbeitung erzeugt worden sind.
Beim OCR-Versuch an diesem Bild einer Excel-Formel ist das Resultat von Google Docs eher zweifelhaft

Und was ist mit LibreOffice?

Die freie Office-Suite kann zwar durchsuchbare PDF-Dateien ebenfalls öffnen. Aber dieses hat wieder andere Einschränkungen: Die Datei öffnet sich nicht im Textprogramm LibreOffice Writer, sondern im Zeichenprogramm LibreOffice Draw. Die Datei sieht damit zwar nach dem Öffnen praktisch gleich aus wie das Original. Aber alle Textabsätze werden in einzelne Zeilen umgewandelt. Sie können nicht damit rechnen, dass sich der Zeilenumbruch anpasst, wenn Sie in einem der Absätze Wörter einfügen oder löschen.

Gratis-Onlinedienst für OCR

Es gibt auch Onlinedienste, die in PDFs und Bildern OCR machen können. Versuchen Sie es einmal mit http://www.onlineocr.net. Hier laden Sie ohne Anmeldung bei Select File einfach eine Datei (max. 5 MB) hoch, wählen daneben noch die Sprache (z.B. German) und dahinter das gewünschte Zielformat (z.B. Microsoft Word). Lösen Sie noch das Captcha und klicken Sie dahinter auf Convert. Der Text wird in einem Feld angezeigt. Darüber befindet sich ein Icon für den Download im gewünschten Dateiformat.
Kostenloser Online-OCR-Dienst onlineocr.net
Der Betreiber verspricht zwar, die Daten der Nutzer zu schützen. Aber wir können natürlich auch nicht zu 100% sicher sein, dass er sich manche der hochgeladenen Dateien nicht doch mal anschaut. Verfüttern Sie diesem Dienst also bitte weder irgendwelche Passwortlisten noch Atomwaffencodes.



Kommentare
Es sind keine Kommentare vorhanden.