Ihr werdet Ohren machen: Google-KI spricht wie echte Menschen

Stimme, Sprachausgabe, Sprechblasen Bildquelle: Pixabay
Mit dem immer noch hörbaren Unterschied zwischen Computerstimmen und echten Menschen dürfte es bald vorbei sein. Forscher von Google und der University of California haben mit Hilfe neuronaler Netze ein Sys­tem entwickelt, das aus Text natürlich klingende Sprache mit sinn­vol­len Betonungen erzeugt.
Googles Tacotron 2-Projekt ist ein mit dem neuronalen Netzwerk Wavenet arbeitendes KI-System, welches Satzbau und Wortposition analysiert, um die korrekte Betonung von Silben zu errechnen. Dazu wird für den Text ein Tonhöhendiagramm erstellt, das dann bei der Sprach­aus­gabe die Intonation der Sätze automatisch anpasst. Die Wavenet-Algorithmen kom­men bereits im Google Assistant für die Sprachausgabe zum Einsatz. Mit Tacotron 2 klingt der gesprochene Text lediglich natürlicher. Eine Integration in bestehende Endprodukte dürfte daher leicht möglich sein.


Fast so gut wie Menschen

Laut den für das Projekt verantwortlichen Forschern wurde das System mit einem 24-stün­di­gen Datensatz trainiert, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde. Durch den Einsatz so genannter Mel-Spektogramme als Zwi­schen­stu­fe erreiche Tacotron 2 eine besonders natürlich klingende Sprachausgabe, da diese eine höhere Abbildung der Tonhöhen ermöglichten.

Um die Qualität des Systems zu bewerten, wur­den 100 zufällig ausgewählte Sequenzen als Audiodateien erstellt, welche anschließend von Menschen auf einer Skala von 1 bis 5 bewertet wurden. Der daraus ermittelte "Mean Opinion Score" (MOS) lag für das KI-System bei einem extrem guten Wert von 4,525. Echte mensch­li­che Aufnahmen liegen mit 4,58 nur un­we­sent­lich darüber.

Demo-Dateien verblüffen

Wer sich von Googles neuer Sprachausgabe selbst überzeugen will, kann dies auf einer Demoseite (siehe Video oben) tun. Dort haben die Forscher eine Reihe von Tondateien für Textschnipsel hochgeladen, die dem System vorher nicht bekannt waren. Die hohe Qualität der Sprachausgabe ist wirklich verblüffend und von der normalen menschlichen Aussprache praktisch nicht mehr zu unterscheiden. Tacotron 2 kommt sogar mit Tippfehlern zurecht und kann die einzelnen Wörter so in den Gesamtkontext einordnen, dass die Betonung dazu passt.

Auch wenn es sich bei dem KI-System nur um Grundlagenforschung handelt. Angesichts der nahezu perfekten Resultate dürfte es nicht allzu lange dauern, bis Google die Technik in den Google Assistant und andere Produkte integriert. Auch andere IT-Firmen wie Googles chinesisches Pendant Baidu arbeiten bereits an ähnlichen Systemen. Bereits im März diesen Jahres hatten die Baidu-Ingenieure bei ihrem Sprachausgabe-System einen Durchbruch vermeldet. Stimme, Sprachausgabe, Sprechblasen Stimme, Sprachausgabe, Sprechblasen Pixabay
Diese Nachricht empfehlen
Kommentieren24
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!
Einloggen

Jetzt als Amazon Blitzangebot

Ab 11:24 Uhr SORAKA V8 Unlocked Smartphone 6.0 'GSM 3G Android 6.0 Quad-Core-Smartphone 5.0MP dual sim smartphoneSORAKA V8 Unlocked Smartphone 6.0 'GSM 3G Android 6.0 Quad-Core-Smartphone 5.0MP dual sim smartphone
Original Amazon-Preis
79,98
Im Preisvergleich ab
?
Blitzangebot-Preis
67,98
Ersparnis zu Amazon 15% oder 12
Im WinFuture Preisvergleich

Video-Empfehlungen

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

WinFuture wird gehostet von Artfiles

Tipp einsenden