Google indiziert nun auch gescannte Bilder in PDFs

Internet & Webdienste Der Suchmaschinenbetreiber Google kann zukünftig noch umfassendere Inhalte in seinen Index aufnehmen, die als PDF-Dateien vorliegen. Dafür wurde eine OCR-Engine in den Spider integriert.

Diese ermöglicht es, die elektronischen Dokumente über eine Schrifterkennung zu analysieren. Dies ist beispielsweise von Vorteil, wenn der Text in einem PDF von einem eingescannten Schriftstück stammt. Das Ergebnis kann anschließend ebenso indiziert werden, wie herkömmliche Textdokumente.

Die Technologie könnte zukünftig auch auf Bilddateien ausgedehnt werden. Allerdings wäre hierbei wohl eine Vorsortierung notwendig, um nicht unnütz Rechenleistung auf Fotos zu verschwenden, die keinerlei Text enthalten.
Diese Nachricht empfehlen:
 
OCR gibts ja schon lange. Man muss nur darauf kommen, es in Google zu benutzen.
 
@GokuSS4: Du hast bestimmt nur den hilfreichen Tip gegeben
 
@GokuSS4: Und Google nutzt es schon lange, aber wenn Du hier das Detail der Meldung gelesen hättest, wüsstest du, was jetzt neu ist.
 
@GokuSS4: Das Rad wurde auch schon oft neu Erfunden, und erst der Gürtel mit Hosenträger - W O W
 
@GokuSS4: schau dir mal Google Booksearch an. Die fotografieren die Bilder ab und der Text usw wird von selbst erkannt. War sicher keine große Schwierigkeit die Bilder aus PDFs rauszufiltern


Alle Kommentare zu dieser News anzeigen

Schreiben Sie uns Ihre Meinung, bewerten Sie Kommentare oder diskutieren Sie mit anderen WinFuture.de Lesern!

Melden Sie sich jetzt kostenlos an
oder verwenden Sie Ihren bestehenden Zugang.

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

Community

  • Neue Kommentare
  • Neue Mitglieder

WinFuture wird gehostet von Artfiles

MSDN Online

News rund ums Web