Google-System kann beschreiben, was auf Fotos zu sehen ist

Der Suchmaschinenkonzern Google hat seine Systeme zur automatischen Analyse von Bild-Inhalten ein gutes Stück weiterentwickelt. In vielen Fällen kann nun bereits recht genau beschrieben werden, was auf einem Foto zu sehen ist - und das in natürlich wirkender Sprache.
Ki, Künstliche Intelligenz, Gehirn, Kopf, Denken
Saad Faruque (CC BY-SA 2.0)
Vor wenigen Monaten konnten die Google-Entwickler bereits in einem Wettbewerb besonders stark punkten, als es ihrem System gelang, verschiedene Gegenstände auf normalen Fotos gut zu erkennen. Das entsprechende Verfahren wurde nun weiterentwickelt und kann in einer Sprache, die für Menschen verständlich ist, beschreiben, was auf einem Foto zu sehen ist.

Bilderkennung durch ComputerBilderkennung durch ComputerBilderkennung durch ComputerBilderkennung durch Computer

Einen leichten Weg hatten die Entwickler dabei nicht. Für Menschen ist es einfach, Gegenstände relativ problemlos zu identifizieren. Denn unser Gehirn ist auf Mustererkennung optimiert. Dies geht so weit, dass das Hirn dem Menschen oft auch Dinge in etwas hineininterpretiert, das gar nicht da ist. Jeder kennt dies aus den Erfahrungen, bestimmte Figuren in Wolken auszumachen oder bestimmte Strukturen in den zufällig angeordneten Punkten auf einer Raufasertapete zu sehen.

Für Computer ist dies ungleich schwerer, da sie eigentlich nicht darauf ausgelegt sind, unscharfe Vergleiche zwischen ähnlichen Werten zu ziehen, sondern sehr exakt arbeiten. Seit einiger Zeit gelingt es inzwischen schon, klar erkennbare Objekte recht sicher einzuordnen. Die Google-Algorithmen können aber inzwischen auch Gegenstände erkennen, die nur ausschnittsweise sichtbar und dann auch noch zum Teil verdeckt sind. Ein Beispiel hierfür ist folgendes Foto, das das System korrekt mit dem Satz beschrieb: Bilderkennung durch ComputerZwei Pizzen auf einem Backofen. Um dahin zu kommen genügte es nicht, allein die Mustererkennungs-Software signifikant voranzubringen. Das ganze musste dann auch noch mit einem Sprachprozessor verknüpft werden, damit ordentliche Beschreibungen herauskommen. Dass auch diese ihre Schwierigkeiten haben, kennen viele Nutzer von den automatischen Übersetzungen, die auch Google anbietet.

Insofern sind die Ergebnisse, die die Google-Entwickler jetzt zeigen können, ein beachtlicher Fortschritt. Allerdings läuft vieles auch noch nicht so glatt wie gewünscht. So werden auch Beispiele gezeigt, in denen der Inhalt mit kleineren, aber auch mit großen Fehlern beschrieben wird. Insbesondere bei der Betrachtung letzterer Fälle zeigt sich, welch beachtliche Leistung dann doch in den richtigen Beschreibungen liegt - etwa wenn hier zwar ein Hund richtig erkannt wird, dieser aber keineswegs einer Frisbee hinterherjagt, sondern still steht und sich Liebkosungen abholt. Bilderkennung durch ComputerBeispiele für Erkennungsgrade
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Jetzt als Amazon Blitzangebot
Ab 06:10 Uhr Lisen Legion Go/ROG Ally/Steam Dock, 13-in-1 Dockingstation mit 5 USB 3.0 und 2.0, Zwei Lüftern, HDMI 4K bei 60 Hz, Gigabit Ethernet, 100 W Aufladung für Stream Deck/LenovoLisen Legion Go/ROG Ally/Steam Dock, 13-in-1 Dockingstation mit 5 USB 3.0 und 2.0, Zwei Lüftern, HDMI 4K bei 60 Hz, Gigabit Ethernet, 100 W Aufladung für Stream Deck/Lenovo
Original Amazon-Preis
79,98
Im Preisvergleich ab
?
Blitzangebot-Preis
53,98
Ersparnis zu Amazon 33% oder 26
Folgt uns auf Twitter
WinFuture bei Twitter
Interessante Artikel & Testberichte
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!