DeepMind: Googles KI lernt beim Fernsehen das Lippenlesen

Sprache, Mund, Lächeln Bildquelle: Public Domain
Googles KI-System DeepMind macht einmal mehr von sich reden: Das System kann inzwischen nicht mehr nur in einem komplexen Spiel wie Go überzeugen, sondern auch besser Lippenlesen als die meisten menschlichen Spezialisten. Man musste das System dafür nur lange genug fernsehen lassen.
Das Training des Neuronalen Netzes im Lippenlesen ist ein Gemeinschaftsprojekt zwischen Google und der University of Oxford. Damit das System lernt, aus den Lippenbewegungen englisch sprechender Menschen möglichst korrekt die Inhalte ableiten zu können, fütterte man den Deep lLearning-Algorithmus mit rund 5.000 Stunden Videomaterial von sechs verschiedenen BBC-Sendungen, in denen sprechende Menschen von der Kamera aufgenommen werden. Das sind unter anderem Nachrichten oder auch das Frühstücksprogramm, berichtete das Magazin New Scientist.

Die Aufzeichnungen, mit denen DeepMind lernte, entstanden in den Jahren 2010 bis 2015. Um dann die Leistungsfähigkeit zu testen konfrontierte man den Algorithmus mit Aufnahmen vom März bis September diesen Jahres. Bei letzterem stand lediglich das Video-Bild ohne Ton zur Verfügung, der im Training noch die Vergleichsgrundlage lieferte. Die KI schaffte hier eine bessere Trefferquote als geübte Menschen.

Ein professioneller Lippenleser, der zum Vergleich mit dem gleichen Video-Material versorgt wurde, kam bei der fehlerfreien Erkennung der gesprochenen Wörter gerade einmal auf eine Trefferquote von 12,4 Prozent. Die ganze Sache funktioniert letztlich trotzdem, da trotz falsch verstandener Worte aus dem Gesamtzusammenhang trotzdem recht gut auf den Inhalt geschlossen werden kann. DeepMind lieferte hingegen eine Trefferquote von 46,8 Prozent ab.

Enormer Wortschatz

An der Uni Oxford arbeitet man schon länger an Systemen, die das Lippenlesen automatisieren können. Das zuletzt eingesetzte Verfahren konnte aber nur bei einem ziemlich geringen Vokabular von 51 einzelnen Wörtern gute Ergebnisse erzielen. Nach dem Studium von tausenden Stunden TV-Program verfügte Googles KI hingegen über einen Wortschatz von 17.500.

Auch hier besteht die größte Herausforderung in der Auswahl des Trainings-Materials. Es stellte sich anfangs heraus, dass in vielen der älteren BBC-Aufzeichnungen Video- und Ton-Spur nicht exakt synchron sind, was den Computer weitgehend durcheinanderbringt. Daher musste man einige Vorarbeit leisten, um ordentliches Material bereitzustellen.

Ein solches System kann vor allem eingesetzt werden, um hörgeschädigten Menschen Vorteile zu verschaffen. So könnte eine entsprechende KI quasi in Echtzeit Untertitel zu Fernsehsendungen liefern. Auf der anderen Seite eröffnen solche Verfahren aber natürlich auch im Überwachungs-Segment komplett neue Möglichkeiten. Sprache, Mund, Lächeln Sprache, Mund, Lächeln Public Domain
Diese Nachricht empfehlen
Kommentieren15
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!

Jetzt als Amazon Blitzangebot

Ab 00:00 Uhr F-Secure Internet Security - 1 Jahr / 1 Computer
F-Secure Internet Security - 1 Jahr / 1 Computer
Original Amazon-Preis
22,99
Im Preisvergleich ab
22,99
Blitzangebot-Preis
18,48
Ersparnis zu Amazon 20% oder 4,51

Video-Empfehlungen

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

Tipp einsenden