Stimmen aus Sprachgewirr filtern: Für Google kein Problem mehr
Google hat ein auf neuronalen Netzen basierendes KI-System entwickelt, welches einzelne Stimmen aus einem Sprachgewirr mit mehreren Sprechern herausfiltern kann. Anders als bisherige Systeme, analysiert die neue Technologie sowohl Audio- als auch visuelle Daten aus Videos, um besonders effektiv die Stimme einzelner Personen erkennen zu können.
Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fähigkeit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schallquelle aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qualität trainiert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künstlich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.
Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stimmengewirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stimmen zu erlernen.
Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach eigenen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprachbasierte Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fähigkeit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schallquelle aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qualität trainiert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künstlich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.
Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stimmengewirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stimmen zu erlernen.
Technologischer Zwischenschritt
In Googles Demoanwendung lässt sich das System durch simples Anklicken des gewünschten Sprechers oder durch einen Schieberegler nutzen, bei dem man Stimmen ein- und ausblenden kann. Das von Google veröffentlichte Beispielvideo ist nur eine von vielen Demos, mit dem der Suchkonzern die Leistungsfähigkeit des Systems demonstriert.Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach eigenen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprachbasierte Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
Verwandte Videos
- Move Mirror: Google baut Kinect-Funktion einfach über Webcam nach
- Quake 3 Arena: Google-KI ist in der Lage, wie ein Mensch zu spielen
- Google Assistant nimmt User das Telefonieren ab - und ruft selbst an
- Googles Tacotron 2-Projekt Audio-Beispiele
- Google Assistent ohne Aktivierungswort: Look and Talk vorgestellt
Wenn einer der vielen anwesenden Personen eine Android Wanze besitzt,dann koennen die jetzt ganz genau bestimmen,was von dem vielen Zeugs ich gesagt hab.
Die Besitzer der Handys werden sich freuen,wenn ihr Sprachassistent nur noch auf sie selbst hoert und daran,dass auch andere Leute in der Naehe sind,werden wohl die wenigsten denken.
Das gehoert echt verboten!
Push to Talk geht ja noch,aber dieses dauernde mithoeren,auch wenn damit andere Leute abgehoert werden,sollte endlich gestoppt werden.