Dank moderner Technologie wird die Welt immer kleiner, das Internet ist das beste Beispiel. Doch auch Sprachbarrieren reißen ein, denn Übersetzungs-KIs werden immer besser. Das ist mittlerweile auch in live mit gesprochener Sprache möglich und klingt nun auch natürlich(er).

KI-Übersetzung mit "echter" Stimme

Skype TruVoice: Echtzeit-Übersetzungen mit der eigenen Stimme

Der Babelfisch ist zweifellos jedem Leser von "Per Anhalter durch die Galaxis" ein Begriff, das fiktive Tierchen, das Autor Douglas Adams erdacht hat und das direkt im Ohr sitzt, ist in der Lage, in den Sci-Fi-Romanen jede Alien-Sprache live zu übersetzen. Davon träumen auch Menschen in der Realität seit vielen Jahren und der Babelfisch ist auch zum Synonym für fortschrittliche Übersetzungsfunktionen geworden.Bisher ist man einem "echten" Babelfisch jedoch noch nicht sehr nahegekommen, denn einerseits ist die Qualität von Live-Übersetzungen noch alles andere optimal, andererseits bekommt man mehr oder weniger roboterhafte Stimmen zu hören.Letzteres will Microsoft lösen und hat nun per Blogbeitrag sowie Video das Skype-Feature TruVoice vorgestellt. Dabei handelt es sich um eine Live-Übersetzung von Skype-zu-Skype-Videoanrufen in Echtzeit, und zwar mit der natürlichen Stimme der jeweiligen Person. "Das bedeutet, dass Sie ein Gespräch mit jemandem führen können, der eine andere Sprache spricht, und die Übersetzung erfolgt automatisch und in Echtzeit, während das Gespräch läuft", schreibt Microsoft.Wie das Ganze funktioniert, zeigen zwei Skype-Entwickler in einem Video. Einer spricht Spanisch und der andere Englisch. Die Übersetzung ins Englische wird statt einer generischen KI-Stimme in jener des Spanischsprechers durchgeführt (und umgekehrt). Die KI ahmt dabei die Stimmlage des jeweiligen Sprechers nach. Das ist zwar nicht perfekt, aber dennoch beeindruckend.Microsoft erklärt auch in Grundzügen, wie Live-Übersetzung und TruVoice funktionieren: "Es nutzt künstliche Intelligenz, um automatisch die Sprachen zu erkennen, die während eines Videoanrufs gesprochen werden, und sie in Echtzeit zu übersetzen. Dies geschieht durch eine Kombination aus Spracherkennungstechnologie und natürlicher Sprachverarbeitung, die in der Lage sind, die gesprochenen Wörter zu verstehen, zu interpretieren und in die gewünschte Sprache zu übersetzen."Was die Sprachausgabe betrifft, schreiben die Redmonder weiter: "Wenn man darüber hinaus die natürliche Stimme aktiviert, verwenden wir eine zusätzliche KI, um die Worte zu sampeln und die Übersetzung so abzustimmen, dass sie wie man selbst klingt, was das Gespräch menschlicher macht."