Babelfisch rückt näher: System übersetzt überall und mit Stimmklonen
Wenn mehrere Menschen durcheinanderreden, scheitern selbst die besten Übersetzungs-Apps. Doch ein neues System der University of Washington zeigt, wie es trotzdem gehen kann - und ahmt dabei sogar die Stimmen der Sprecher nach.
Umso verlockender wirkt die Vorstellung aus Douglas Adams' Per Anhalter durch die Galaxis: ein Babelfisch, der sich ins Ohr setzt und jedes gesprochene Wort in Echtzeit verständlich macht - egal von wem, egal in welcher Sprache. Was einst als absurde Science-Fiction galt, rückt mit aktueller Technik nun überraschend nah an die Wirklichkeit heran.
Das System namens "Spatial Speech Translation" kombiniert Mikrofone, 3D-Audioverarbeitung und Künstliche Intelligenz zu einem mobilen Übersetzer, der mehrere Stimmen gleichzeitig erkennt, räumlich zuordnet und nach 2-4 Sekunden verständlich wiedergibt. Das Besondere: Die übersetzten Stimmen klingen nicht generisch, sondern behalten ihre Klangfarbe und Richtung - dank Stimmklon.
Grundlage sind handelsübliche Noise-Cancelling-Kopfhörer mit zusätzlichen Mikrofonen. Eine lokal laufende KI analysiert kontinuierlich das akustische Umfeld, erkennt, wie viele Menschen sprechen, und folgt ihnen beim Gehen. "Unsere Algorithmen funktionieren ein wenig wie Radar", sagt Erstautor Tuochao Chen. "Sie scannen die Umgebung in 360 Grad."
Die Übersetzung findet lokal statt - etwa auf Geräten mit Apple-M2-Chips - um sensible Sprachdaten nicht in die Cloud zu senden. Das System wurde in zehn realen Umgebungen getestet, sowohl drinnen als auch draußen. In einer Studie mit 29 Teilnehmenden schnitt es klar besser ab als Modelle ohne räumliche Verfolgung. Eine Verzögerung von drei bis vier Sekunden erwies sich dabei als optimal.
Technische Kernpunkte:
Das Team um Shyam Gollakota sieht darin einen ersten praktischen Schritt hin zu alltagstauglicher Echtzeitübersetzung mit mehreren Sprechern. Noch sind Fachbegriffe und Spezialsprachen eine Hürde - doch im Alltag könnte der "Babelfisch"-Moment mit diesem Projekt tatsächlich etwas näher rücken.
Siehe auch:
Sprachbarrieren ade? KI-Übersetzer für Gruppen
Was passiert, wenn man eine Konferenz, eine Stadtführung oder ein anderes Gruppen-Gespräch verstehen will - ohne die Sprache zu sprechen? Bislang versagen gängige Übersetzungstechnologien genau in solchen Situationen. Denn die meisten Tools gehen davon aus, dass nur eine Person spricht und diese direkt ins Mikrofon. Doch die Realität ist lauter, komplexer - und oft auch unübersichtlich.Umso verlockender wirkt die Vorstellung aus Douglas Adams' Per Anhalter durch die Galaxis: ein Babelfisch, der sich ins Ohr setzt und jedes gesprochene Wort in Echtzeit verständlich macht - egal von wem, egal in welcher Sprache. Was einst als absurde Science-Fiction galt, rückt mit aktueller Technik nun überraschend nah an die Wirklichkeit heran.
Andere Übersetzungstechnologien basieren auf der Annahme, dass immer nur eine Person spricht. Doch in der realen Welt kann nicht eine einzige Roboterstimme für alle sprechen. Zum ersten Mal ist es uns gelungen, den individuellen Klang jeder Stimme zu bewahren - und auch die Richtung, aus der sie kommt.
Das System namens "Spatial Speech Translation" kombiniert Mikrofone, 3D-Audioverarbeitung und Künstliche Intelligenz zu einem mobilen Übersetzer, der mehrere Stimmen gleichzeitig erkennt, räumlich zuordnet und nach 2-4 Sekunden verständlich wiedergibt. Das Besondere: Die übersetzten Stimmen klingen nicht generisch, sondern behalten ihre Klangfarbe und Richtung - dank Stimmklon.
Grundlage sind handelsübliche Noise-Cancelling-Kopfhörer mit zusätzlichen Mikrofonen. Eine lokal laufende KI analysiert kontinuierlich das akustische Umfeld, erkennt, wie viele Menschen sprechen, und folgt ihnen beim Gehen. "Unsere Algorithmen funktionieren ein wenig wie Radar", sagt Erstautor Tuochao Chen. "Sie scannen die Umgebung in 360 Grad."
Die Übersetzung findet lokal statt - etwa auf Geräten mit Apple-M2-Chips - um sensible Sprachdaten nicht in die Cloud zu senden. Das System wurde in zehn realen Umgebungen getestet, sowohl drinnen als auch draußen. In einer Studie mit 29 Teilnehmenden schnitt es klar besser ab als Modelle ohne räumliche Verfolgung. Eine Verzögerung von drei bis vier Sekunden erwies sich dabei als optimal.
Freies Babeln rückt näher
Die Entwicklung wurde auf der ACM CHI-Konferenz 2025 in Yokohama vorgestellt und auch in einer Arbeit veröffentlicht. Der Quellcode ist öffentlich zugänglich, das System unterstützt derzeit Spanisch, Deutsch und Französisch. Weitere Sprachen lassen sich laut dem Forschungsteam problemlos ergänzen.Technische Kernpunkte:
- Mikrofon-Array in Kopfhörern erkennt die Position und Anzahl der Sprechenden
- Lokale KI-Verarbeitung für Datenschutz beim Stimmklon
- 3D-Audioausgabe für realistische Richtungserkennung
- Übersetzung mit 2-4 Sekunden Verzögerung
- Sprachen im Prototyp: Spanisch, Deutsch, Französisch
Das Team um Shyam Gollakota sieht darin einen ersten praktischen Schritt hin zu alltagstauglicher Echtzeitübersetzung mit mehreren Sprechern. Noch sind Fachbegriffe und Spezialsprachen eine Hürde - doch im Alltag könnte der "Babelfisch"-Moment mit diesem Projekt tatsächlich etwas näher rücken.
Zusammenfassung
- KI-System 'Spatial Speech Translation' übersetzt Gespräche mehrerer Personen
- Noise-Cancelling-Kopfhörer mit Mikrofonen erkennen Sprecherpositionen
- Lokale KI-Verarbeitung analysiert Umgebung und übersetzt ohne Cloud-Nutzung
- Übersetzungen behalten Klangfarbe und Richtung der Originalsprecher bei
- System wurde in verschiedenen Umgebungen mit 29 Teilnehmenden getestet
- Derzeit werden Spanisch, Deutsch und Französisch unterstützt
- Forschungsteam sieht dies als Schritt zur alltagstauglichen Echtzeitübersetzung
Siehe auch:
- Apple plant Live-Übersetzung: alle Sprachen verstehen dank AirPods?
- Windows 11: Letzte Insider-Build 2024 erweitert Echtzeitübersetzung
- Bombendrohung bei DB: Übersetzungs-App sorgt ungewollt für Chaos
- Kurioser Übersetzungsfehler: Windows 11 hält ZIPs für Postleitzahl
- Twitter: Übersetzungsfunktion erst kaputt, jetzt komplett verschwunden
Thema:
Neueste Downloads
Neue Nachrichten
Beliebte Nachrichten
Videos
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!



Alle Kommentare zu dieser News anzeigen