Babelfisch rückt näher: System übersetzt überall und mit Stimmklonen

Wenn mehrere Menschen durcheinanderreden, scheitern selbst die besten Übersetzungs-Apps. Doch ein neues System der University of Washington zeigt, wie es trotzdem gehen kann - und ahmt dabei sogar die Stimmen der Sprecher nach.

John Woll, 12.05.2025 15:23 Uhr

Ki, Künstliche Intelligenz, Headphones, Übersetzung, übersetzen, Translator, übersetzer, übersetzungen, Babelfisch

Sprachbarrieren ade? KI-Übersetzer für Gruppen

Was passiert, wenn man eine Konferenz, eine Stadtführung oder ein anderes Gruppen-Gespräch verstehen will - ohne die Sprache zu sprechen? Bislang versagen gängige Übersetzungstechnologien genau in solchen Situationen. Denn die meisten Tools gehen davon aus, dass nur eine Person spricht und diese direkt ins Mikrofon. Doch die Realität ist lauter, komplexer - und oft auch unübersichtlich.

Umso verlockender wirkt die Vorstellung aus Douglas Adams' Per Anhalter durch die Galaxis: ein Babelfisch, der sich ins Ohr setzt und jedes gesprochene Wort in Echtzeit verständlich macht - egal von wem, egal in welcher Sprache. Was einst als absurde Science-Fiction galt, rückt mit aktueller Technik nun überraschend nah an die Wirklichkeit heran.

Andere Übersetzungstechnologien basieren auf der Annahme, dass immer nur eine Person spricht. Doch in der realen Welt kann nicht eine einzige Roboterstimme für alle sprechen. Zum ersten Mal ist es uns gelungen, den individuellen Klang jeder Stimme zu bewahren - und auch die Richtung, aus der sie kommt.
Shyam Gollakota, Studien-Autor

Das System namens "Spatial Speech Translation" kombiniert Mikrofone, 3D-Audioverarbeitung und Künstliche Intelligenz zu einem mobilen Übersetzer, der mehrere Stimmen gleichzeitig erkennt, räumlich zuordnet und nach 2-4 Sekunden verständlich wiedergibt. Das Besondere: Die übersetzten Stimmen klingen nicht generisch, sondern behalten ihre Klangfarbe und Richtung - dank Stimmklon.

Grundlage sind handelsübliche Noise-Cancelling-Kopfhörer mit zusätzlichen Mikrofonen. Eine lokal laufende KI analysiert kontinuierlich das akustische Umfeld, erkennt, wie viele Menschen sprechen, und folgt ihnen beim Gehen. "Unsere Algorithmen funktionieren ein wenig wie Radar", sagt Erstautor Tuochao Chen. "Sie scannen die Umgebung in 360 Grad."

Spatial Speech Translation der University of Washington

Die Übersetzung findet lokal statt - etwa auf Geräten mit Apple-M2-Chips - um sensible Sprachdaten nicht in die Cloud zu senden. Das System wurde in zehn realen Umgebungen getestet, sowohl drinnen als auch draußen. In einer Studie mit 29 Teilnehmenden schnitt es klar besser ab als Modelle ohne räumliche Verfolgung. Eine Verzögerung von drei bis vier Sekunden erwies sich dabei als optimal.

Freies Babeln rückt näher

Die Entwicklung wurde auf der ACM CHI-Konferenz 2025 in Yokohama vorgestellt und auch in einer Arbeit veröffentlicht. Der Quellcode ist öffentlich zugänglich, das System unterstützt derzeit Spanisch, Deutsch und Französisch. Weitere Sprachen lassen sich laut dem Forschungsteam problemlos ergänzen.

Technische Kernpunkte:

Mikrofon-Array in Kopfhörern erkennt die Position und Anzahl der Sprechenden
Lokale KI-Verarbeitung für Datenschutz beim Stimmklon
3D-Audioausgabe für realistische Richtungserkennung
Übersetzung mit 2-4 Sekunden Verzögerung
Sprachen im Prototyp: Spanisch, Deutsch, Französisch

Das Team um Shyam Gollakota sieht darin einen ersten praktischen Schritt hin zu alltagstauglicher Echtzeitübersetzung mit mehreren Sprechern. Noch sind Fachbegriffe und Spezialsprachen eine Hürde - doch im Alltag könnte der "Babelfisch"-Moment mit diesem Projekt tatsächlich etwas näher rücken.

Zusammenfassung

KI-System 'Spatial Speech Translation' übersetzt Gespräche mehrerer Personen
Noise-Cancelling-Kopfhörer mit Mikrofonen erkennen Sprecherpositionen
Lokale KI-Verarbeitung analysiert Umgebung und übersetzt ohne Cloud-Nutzung
Übersetzungen behalten Klangfarbe und Richtung der Originalsprecher bei
System wurde in verschiedenen Umgebungen mit 29 Teilnehmenden getestet
Derzeit werden Spanisch, Deutsch und Französisch unterstützt
Forschungsteam sieht dies als Schritt zur alltagstauglichen Echtzeitübersetzung

Siehe auch:

Thema:

Forschung & Wissenschaft

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren4

Hinweis einsenden

Weitere Nachrichten zum Thema Apple plant Live-Übersetzung: alle Sprachen verstehen dank AirPods?Windows 11: Letzte Insider-Build 2024 erweitert EchtzeitübersetzungBombendrohung bei DB: Übersetzungs-App sorgt ungewollt für ChaosKurioser Übersetzungsfehler: Windows 11 hält ZIPs für PostleitzahlTwitter: Übersetzungsfunktion erst kaputt, jetzt komplett verschwunden