DeepMind: Googles KI lernt beim Fernsehen das Lippenlesen

Googles KI-System DeepMind macht einmal mehr von sich reden: Das System kann inzwischen nicht mehr nur in einem komplexen Spiel wie Go überzeugen, sondern auch besser Lippenlesen als die meisten menschlichen Spezialisten. Man musste das System dafür nur lange genug fernsehen lassen.
Sprache, Mund, Lächeln
Public Domain
Das Training des Neuronalen Netzes im Lippenlesen ist ein Gemeinschaftsprojekt zwischen Google und der University of Oxford. Damit das System lernt, aus den Lippenbewegungen englisch sprechender Menschen möglichst korrekt die Inhalte ableiten zu können, fütterte man den Deep lLearning-Algorithmus mit rund 5.000 Stunden Videomaterial von sechs verschiedenen BBC-Sendungen, in denen sprechende Menschen von der Kamera aufgenommen werden. Das sind unter anderem Nachrichten oder auch das Frühstücksprogramm, berichtete das Magazin New Scientist.

Die Aufzeichnungen, mit denen DeepMind lernte, entstanden in den Jahren 2010 bis 2015. Um dann die Leistungsfähigkeit zu testen konfrontierte man den Algorithmus mit Aufnahmen vom März bis September diesen Jahres. Bei letzterem stand lediglich das Video-Bild ohne Ton zur Verfügung, der im Training noch die Vergleichsgrundlage lieferte. Die KI schaffte hier eine bessere Trefferquote als geübte Menschen.

Ein professioneller Lippenleser, der zum Vergleich mit dem gleichen Video-Material versorgt wurde, kam bei der fehlerfreien Erkennung der gesprochenen Wörter gerade einmal auf eine Trefferquote von 12,4 Prozent. Die ganze Sache funktioniert letztlich trotzdem, da trotz falsch verstandener Worte aus dem Gesamtzusammenhang trotzdem recht gut auf den Inhalt geschlossen werden kann. DeepMind lieferte hingegen eine Trefferquote von 46,8 Prozent ab.

Enormer Wortschatz

An der Uni Oxford arbeitet man schon länger an Systemen, die das Lippenlesen automatisieren können. Das zuletzt eingesetzte Verfahren konnte aber nur bei einem ziemlich geringen Vokabular von 51 einzelnen Wörtern gute Ergebnisse erzielen. Nach dem Studium von tausenden Stunden TV-Program verfügte Googles KI hingegen über einen Wortschatz von 17.500.

Auch hier besteht die größte Herausforderung in der Auswahl des Trainings-Materials. Es stellte sich anfangs heraus, dass in vielen der älteren BBC-Aufzeichnungen Video- und Ton-Spur nicht exakt synchron sind, was den Computer weitgehend durcheinanderbringt. Daher musste man einige Vorarbeit leisten, um ordentliches Material bereitzustellen.

Ein solches System kann vor allem eingesetzt werden, um hörgeschädigten Menschen Vorteile zu verschaffen. So könnte eine entsprechende KI quasi in Echtzeit Untertitel zu Fernsehsendungen liefern. Auf der anderen Seite eröffnen solche Verfahren aber natürlich auch im Überwachungs-Segment komplett neue Möglichkeiten.
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Jetzt als Amazon Blitzangebot
Ab 05:59 Uhr 240W USB C Ladegerät, 8 Port USB C netzteil, GaN Ladegerät GaN III Netzteil USB C faltbares PD Ladegerät kompatibel mit MacBook Pro/Air, iPad, Galaxy, iPhone15/14/13 Kamera240W USB C Ladegerät, 8 Port USB C netzteil, GaN Ladegerät GaN III Netzteil USB C faltbares PD Ladegerät kompatibel mit MacBook Pro/Air, iPad, Galaxy, iPhone15/14/13 Kamera
Original Amazon-Preis
79,98
Im Preisvergleich ab
79,99
Blitzangebot-Preis
67,98
Ersparnis zu Amazon 15% oder 12
Im WinFuture Preisvergleich
Folgt uns auf Twitter
WinFuture bei Twitter
Interessante Artikel & Testberichte
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!