Google indiziert nun auch gescannte Bilder in PDFs

Internet & Webdienste Der Suchmaschinenbetreiber Google kann zukünftig noch umfassendere Inhalte in seinen Index aufnehmen, die als PDF-Dateien vorliegen. Dafür wurde eine OCR-Engine in den Spider integriert. Diese ermöglicht es, die elektronischen Dokumente über eine Schrifterkennung zu analysieren. Dies ist beispielsweise von Vorteil, wenn der Text in einem PDF von einem eingescannten Schriftstück stammt. Das Ergebnis kann anschließend ebenso indiziert werden, wie herkömmliche Textdokumente.

Die Technologie könnte zukünftig auch auf Bilddateien ausgedehnt werden. Allerdings wäre hierbei wohl eine Vorsortierung notwendig, um nicht unnütz Rechenleistung auf Fotos zu verschwenden, die keinerlei Text enthalten.
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Acrobat Pro 2020 im Preisvergleich
Interessante Artikel & Testberichte
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!