DeepMind: Googles KI lernt beim Fernsehen das Lippenlesen
New Scientist.
Die Aufzeichnungen, mit denen DeepMind lernte, entstanden in den Jahren 2010 bis 2015. Um dann die Leistungsfähigkeit zu testen konfrontierte man den Algorithmus mit Aufnahmen vom März bis September diesen Jahres. Bei letzterem stand lediglich das Video-Bild ohne Ton zur Verfügung, der im Training noch die Vergleichsgrundlage lieferte. Die KI schaffte hier eine bessere Trefferquote als geübte Menschen.
Ein professioneller Lippenleser, der zum Vergleich mit dem gleichen Video-Material versorgt wurde, kam bei der fehlerfreien Erkennung der gesprochenen Wörter gerade einmal auf eine Trefferquote von 12,4 Prozent. Die ganze Sache funktioniert letztlich trotzdem, da trotz falsch verstandener Worte aus dem Gesamtzusammenhang trotzdem recht gut auf den Inhalt geschlossen werden kann. DeepMind lieferte hingegen eine Trefferquote von 46,8 Prozent ab.
Auch hier besteht die größte Herausforderung in der Auswahl des Trainings-Materials. Es stellte sich anfangs heraus, dass in vielen der älteren BBC-Aufzeichnungen Video- und Ton-Spur nicht exakt synchron sind, was den Computer weitgehend durcheinanderbringt. Daher musste man einige Vorarbeit leisten, um ordentliches Material bereitzustellen.
Ein solches System kann vor allem eingesetzt werden, um hörgeschädigten Menschen Vorteile zu verschaffen. So könnte eine entsprechende KI quasi in Echtzeit Untertitel zu Fernsehsendungen liefern. Auf der anderen Seite eröffnen solche Verfahren aber natürlich auch im Überwachungs-Segment komplett neue Möglichkeiten.
Das Training des Neuronalen Netzes im Lippenlesen ist ein Gemeinschaftsprojekt zwischen Google und der University of Oxford. Damit das System lernt, aus den Lippenbewegungen englisch sprechender Menschen möglichst korrekt die Inhalte ableiten zu können, fütterte man den Deep lLearning-Algorithmus mit rund 5.000 Stunden Videomaterial von sechs verschiedenen BBC-Sendungen, in denen sprechende Menschen von der Kamera aufgenommen werden. Das sind unter anderem Nachrichten oder auch das Frühstücksprogramm, berichtete das Magazin Die Aufzeichnungen, mit denen DeepMind lernte, entstanden in den Jahren 2010 bis 2015. Um dann die Leistungsfähigkeit zu testen konfrontierte man den Algorithmus mit Aufnahmen vom März bis September diesen Jahres. Bei letzterem stand lediglich das Video-Bild ohne Ton zur Verfügung, der im Training noch die Vergleichsgrundlage lieferte. Die KI schaffte hier eine bessere Trefferquote als geübte Menschen.
Ein professioneller Lippenleser, der zum Vergleich mit dem gleichen Video-Material versorgt wurde, kam bei der fehlerfreien Erkennung der gesprochenen Wörter gerade einmal auf eine Trefferquote von 12,4 Prozent. Die ganze Sache funktioniert letztlich trotzdem, da trotz falsch verstandener Worte aus dem Gesamtzusammenhang trotzdem recht gut auf den Inhalt geschlossen werden kann. DeepMind lieferte hingegen eine Trefferquote von 46,8 Prozent ab.
Enormer Wortschatz
An der Uni Oxford arbeitet man schon länger an Systemen, die das Lippenlesen automatisieren können. Das zuletzt eingesetzte Verfahren konnte aber nur bei einem ziemlich geringen Vokabular von 51 einzelnen Wörtern gute Ergebnisse erzielen. Nach dem Studium von tausenden Stunden TV-Program verfügte Googles KI hingegen über einen Wortschatz von 17.500.Auch hier besteht die größte Herausforderung in der Auswahl des Trainings-Materials. Es stellte sich anfangs heraus, dass in vielen der älteren BBC-Aufzeichnungen Video- und Ton-Spur nicht exakt synchron sind, was den Computer weitgehend durcheinanderbringt. Daher musste man einige Vorarbeit leisten, um ordentliches Material bereitzustellen.
Ein solches System kann vor allem eingesetzt werden, um hörgeschädigten Menschen Vorteile zu verschaffen. So könnte eine entsprechende KI quasi in Echtzeit Untertitel zu Fernsehsendungen liefern. Auf der anderen Seite eröffnen solche Verfahren aber natürlich auch im Überwachungs-Segment komplett neue Möglichkeiten.
Thema:
Neueste Downloads
Jetzt als Amazon Blitzangebot
Ab 05:59 Uhr 240W USB C Ladegerät, 8 Port USB C netzteil, GaN Ladegerät GaN III Netzteil USB C faltbares PD Ladegerät kompatibel mit MacBook Pro/Air, iPad, Galaxy, iPhone15/14/13 Kamera
Original Amazon-Preis
79,98 €
Im Preisvergleich ab
79,99 €
Blitzangebot-Preis
67,98 €
Ersparnis zu Amazon 15% oder 12 €
Neue Nachrichten
Beliebte Nachrichten
Videos
Christian Kahle
Redakteur bei WinFuture
Ich empfehle ...
Meist kommentierte Nachrichten
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen