Tesseract OCR - Texterkennung

Der Suchmaschinenbetreiber Google hat heute die OCR-Software (Texterkennung) Tesseract veröffentlicht. Sie wurde ursprünglich von Hewlett-Packard entwickelt, allerdings zog sich das Unternehmen 1995 aus diesem Geschäft zurück.

Die Universität von Nevada bekam dem Quellcode, so dass sie sich mit der Weiterentwicklung beschäftigen konnten. Allerdings stießen sie auf einige Probleme und baten Google um Hilfe. Der Suchmaschinenbetreiber unterstützte die Universität bei der Weiterentwicklung. Erst jetzt war man der Meinung, dass Produkt sei stabil genug und kann veröffentlicht werden.

Bei Tesseract handelt es sich nur um die Engine einer Texterkennung - eine Benutzeroberfläche fehlt noch. Allerdings hat Google eine Stelle ausgeschrieben, für die ein OCR-Spezialist gesucht wird. Man kann also davon ausgehen, dass es in Zukunft noch eine vollständige Texterkennungs-Suite geben wird. Derzeit unterstützt Tesseract nur englische Dokumente und kann das Seiten-Layout nicht analysieren. Die Software kann also keinesfalls mit kommerziellen Lösungen verglichen werden, sagte Google.
2,71 MB
13.072
Diesen Download empfehlen
Kommentieren0

Das könnte Sie auch interessieren



Kommentar abgeben Netiquette beachten!
Aktuelle IT-Stellenangebote

WinFuture wird gehostet von Artfiles