Babelfisch rückt näher: System übersetzt überall und mit Stimmklonen

Wenn mehrere Menschen durcheinanderreden, scheitern selbst die besten Übersetzungs-Apps. Doch ein neues System der University of Washington zeigt, wie es trotzdem gehen kann - und ahmt dabei sogar die Stimmen der Sprecher nach.
Ki, Künstliche Intelligenz, Headphones, Übersetzung, übersetzen, Translator, übersetzer, übersetzungen, Babelfisch

Sprachbarrieren ade? KI-Übersetzer für Gruppen

Was passiert, wenn man eine Konferenz, eine Stadtführung oder ein anderes Gruppen-Gespräch verstehen will - ohne die Sprache zu sprechen? Bislang versagen gängige Übersetzungstechnologien genau in solchen Situationen. Denn die meisten Tools gehen davon aus, dass nur eine Person spricht und diese direkt ins Mikrofon. Doch die Realität ist lauter, komplexer - und oft auch unübersichtlich.

Umso verlockender wirkt die Vorstellung aus Douglas Adams' Per Anhalter durch die Galaxis: ein Babelfisch, der sich ins Ohr setzt und jedes gesprochene Wort in Echtzeit verständlich macht - egal von wem, egal in welcher Sprache. Was einst als absurde Science-Fiction galt, rückt mit aktueller Technik nun überraschend nah an die Wirklichkeit heran.

Andere Übersetzungstechnologien basieren auf der Annahme, dass immer nur eine Person spricht. Doch in der realen Welt kann nicht eine einzige Roboterstimme für alle sprechen. Zum ersten Mal ist es uns gelungen, den individuellen Klang jeder Stimme zu bewahren - und auch die Richtung, aus der sie kommt.
Shyam Gollakota, Studien-Autor

Das System namens "Spatial Speech Translation" kombiniert Mikrofone, 3D-Audioverarbeitung und Künstliche Intelligenz zu einem mobilen Übersetzer, der mehrere Stimmen gleichzeitig erkennt, räumlich zuordnet und nach 2-4 Sekunden verständlich wiedergibt. Das Besondere: Die übersetzten Stimmen klingen nicht generisch, sondern behalten ihre Klangfarbe und Richtung - dank Stimmklon.

Grundlage sind handelsübliche Noise-Cancelling-Kopfhörer mit zusätzlichen Mikrofonen. Eine lokal laufende KI analysiert kontinuierlich das akustische Umfeld, erkennt, wie viele Menschen sprechen, und folgt ihnen beim Gehen. "Unsere Algorithmen funktionieren ein wenig wie Radar", sagt Erstautor Tuochao Chen. "Sie scannen die Umgebung in 360 Grad."

Spatial Speech Translation der University of WashingtonSpatial Speech Translation der University of WashingtonSpatial Speech Translation der University of WashingtonSpatial Speech Translation der University of Washington

Die Übersetzung findet lokal statt - etwa auf Geräten mit Apple-M2-Chips - um sensible Sprachdaten nicht in die Cloud zu senden. Das System wurde in zehn realen Umgebungen getestet, sowohl drinnen als auch draußen. In einer Studie mit 29 Teilnehmenden schnitt es klar besser ab als Modelle ohne räumliche Verfolgung. Eine Verzögerung von drei bis vier Sekunden erwies sich dabei als optimal.

Freies Babeln rückt näher

Die Entwicklung wurde auf der ACM CHI-Konferenz 2025 in Yokohama vorgestellt und auch in einer Arbeit veröffentlicht. Der Quellcode ist öffentlich zugänglich, das System unterstützt derzeit Spanisch, Deutsch und Französisch. Weitere Sprachen lassen sich laut dem Forschungsteam problemlos ergänzen.

Technische Kernpunkte:
  • Mikrofon-Array in Kopfhörern erkennt die Position und Anzahl der Sprechenden
  • Lokale KI-Verarbeitung für Datenschutz beim Stimmklon
  • 3D-Audioausgabe für realistische Richtungserkennung
  • Übersetzung mit 2-4 Sekunden Verzögerung
  • Sprachen im Prototyp: Spanisch, Deutsch, Französisch

Das Team um Shyam Gollakota sieht darin einen ersten praktischen Schritt hin zu alltagstauglicher Echtzeitübersetzung mit mehreren Sprechern. Noch sind Fachbegriffe und Spezialsprachen eine Hürde - doch im Alltag könnte der "Babelfisch"-Moment mit diesem Projekt tatsächlich etwas näher rücken.

Zusammenfassung
  • KI-System 'Spatial Speech Translation' übersetzt Gespräche mehrerer Personen
  • Noise-Cancelling-Kopfhörer mit Mikrofonen erkennen Sprecherpositionen
  • Lokale KI-Verarbeitung analysiert Umgebung und übersetzt ohne Cloud-Nutzung
  • Übersetzungen behalten Klangfarbe und Richtung der Originalsprecher bei
  • System wurde in verschiedenen Umgebungen mit 29 Teilnehmenden getestet
  • Derzeit werden Spanisch, Deutsch und Französisch unterstützt
  • Forschungsteam sieht dies als Schritt zur alltagstauglichen Echtzeitübersetzung

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!