News
04.11.2008, 11:32 Uhr
Google fischt nach PDFs
Google will eingescannte PDF-Dateien im Web durchsuchbar machen. Damit will der Suchmaschinenriese einen Teil des «Deep Web» bergen.
Mit Deep Web werden jene Teile des Internets bezeichnet, die tief vergraben in Datenbanken schlummern oder die anderweitig nicht mit Suchmaschinen durchstöbert werden können. Zu diesem verborgenen Web gehören auch eingescannte Dokumente, die als PDF-Dateien abgelegt werden. Denn bei diesen Files handelt es sich im Grunde genommen um Bilder von gedruckten Seiten, bei denen der Text nicht maschinell weiterverarbeitet werden kann.
Google plant nun eine regelrechte Texterkennungsoffensive, bei der die Abermillionen eingescannten PDF-Dokumente mithilfe von OCR-Software (Optical Character Recognition) analysiert werden. Dadurch lassen sie sich auch nach Begriffen durchsuchen und erscheinen schlussendlich in der Ergebnisliste einer Google-Suche. Durch die Massnahme werden ganze Regierungsarchive und viele wissenschaftliche Arbeiten aus den Tiefen des Webs ans Tageslicht befördert.
Google plant nun eine regelrechte Texterkennungsoffensive, bei der die Abermillionen eingescannten PDF-Dokumente mithilfe von OCR-Software (Optical Character Recognition) analysiert werden. Dadurch lassen sie sich auch nach Begriffen durchsuchen und erscheinen schlussendlich in der Ergebnisliste einer Google-Suche. Durch die Massnahme werden ganze Regierungsarchive und viele wissenschaftliche Arbeiten aus den Tiefen des Webs ans Tageslicht befördert.
04.11.2008