Stimmen aus Sprachgewirr filtern: Für Google kein Problem mehr
entwickelt, welches einzelne Stimmen aus einem Sprachgewirr mit mehreren Sprechern herausfiltern kann. Anders als bisherige Systeme, analysiert die neue Technologie sowohl Audio- als auch visuelle Daten aus Videos, um besonders effektiv die Stimme einzelner Personen erkennen zu können.
Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fähigkeit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schallquelle aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qualität trainiert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künstlich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.
Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stimmengewirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stimmen zu erlernen.
Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach eigenen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprachbasierte Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
Google hat ein auf neuronalen Netzen basierendes KI-System Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fähigkeit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schallquelle aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qualität trainiert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künstlich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.
Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stimmengewirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stimmen zu erlernen.
Technologischer Zwischenschritt
In Googles Demoanwendung lässt sich das System durch simples Anklicken des gewünschten Sprechers oder durch einen Schieberegler nutzen, bei dem man Stimmen ein- und ausblenden kann. Das von Google veröffentlichte Beispielvideo ist nur eine von vielen Demos, mit dem der Suchkonzern die Leistungsfähigkeit des Systems demonstriert.Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach eigenen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprachbasierte Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
Verwandte Videos
- Google zeigt beim Super Bowl, wie KI Blinden beim Fotografieren hilft
- Move Mirror: Google baut Kinect-Funktion einfach über Webcam nach
- Quake 3 Arena: Google-KI ist in der Lage, wie ein Mensch zu spielen
- Google Assistant nimmt User das Telefonieren ab - und ruft selbst an
- JRNY Fitness-App im Test: Work-out-Erfolge auf neuem Level
Verwandte Tags