Stimmen aus Sprachgewirr filtern: Für Google kein Problem mehr

Google, Künstliche Intelligenz, Ki, Spracherkennung Google, Künstliche Intelligenz, Ki, Spracherkennung
Google hat ein auf neuronalen Netzen basierendes KI-System entwickelt, welches einzelne Stimmen aus einem Sprachgewirr mit meh­re­ren Sprechern herausfiltern kann. Anders als bisherige Systeme, analysiert die neue Technologie sowohl Audio- als auch visuelle Daten aus Videos, um besonders effektiv die Stimme einzelner Personen erkennen zu können.

Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fä­hig­keit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schall­quel­le aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qua­li­tät trai­niert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künst­lich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.

Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stim­men­ge­wirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stim­men zu erlernen.

Technologischer Zwischenschritt

In Googles Demoanwendung lässt sich das System durch simples Anklicken des gewünschten Sprechers oder durch einen Schieberegler nutzen, bei dem man Stimmen ein- und ausblenden kann. Das von Google veröffentlichte Beispielvideo ist nur eine von vielen Demos, mit dem der Suchkonzern die Leistungsfähigkeit des Systems demonstriert.

Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach ei­ge­nen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprach­ba­sier­te Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
Dieses Video empfehlen
Kommentieren0
Jetzt einen Kommentar schreiben
 
Dann heisst es an oeffentlichen Plaetzen also ab sofort Schnauze halten!
Wenn einer der vielen anwesenden Personen eine Android Wanze besitzt,dann koennen die jetzt ganz genau bestimmen,was von dem vielen Zeugs ich gesagt hab.
Die Besitzer der Handys werden sich freuen,wenn ihr Sprachassistent nur noch auf sie selbst hoert und daran,dass auch andere Leute in der Naehe sind,werden wohl die wenigsten denken.
Das gehoert echt verboten!
Push to Talk geht ja noch,aber dieses dauernde mithoeren,auch wenn damit andere Leute abgehoert werden,sollte endlich gestoppt werden.
Kommentar abgeben Netiquette beachten!
Einloggen