Ihr werdet Ohren machen:
Google-KI spricht wie echte Menschen
Mit dem immer noch hörbaren Unterschied zwischen Computerstimmen und echten Menschen dürfte es bald vorbei sein. Forscher von Google und der University of California haben mit Hilfe neuronaler Netze ein System entwickelt, das aus Text natürlich klingende Sprache mit sinnvollen Betonungen erzeugt.
Googles Tacotron 2-Projekt ist ein mit dem neuronalen Netzwerk Wavenet arbeitendes KI-System, welches Satzbau und Wortposition analysiert, um die korrekte Betonung von Silben zu errechnen. Dazu wird für den Text ein Tonhöhendiagramm erstellt, das dann bei der Sprachausgabe die Intonation der Sätze automatisch anpasst. Die Wavenet-Algorithmen kommen bereits im Google Assistant für die Sprachausgabe zum Einsatz. Mit Tacotron 2 klingt der gesprochene Text lediglich natürlicher. Eine Integration in bestehende Endprodukte dürfte daher leicht möglich sein.
Um die Qualität des Systems zu bewerten, wurden 100 zufällig ausgewählte Sequenzen als Audiodateien erstellt, welche anschließend von Menschen auf einer Skala von 1 bis 5 bewertet wurden. Der daraus ermittelte "Mean Opinion Score" (MOS) lag für das KI-System bei einem extrem guten Wert von 4,525. Echte menschliche Aufnahmen liegen mit 4,58 nur unwesentlich darüber.
Auch wenn es sich bei dem KI-System nur um Grundlagenforschung handelt. Angesichts der nahezu perfekten Resultate dürfte es nicht allzu lange dauern, bis Google die Technik in den Google Assistant und andere Produkte integriert. Auch andere IT-Firmen wie Googles chinesisches Pendant Baidu arbeiten bereits an ähnlichen Systemen. Bereits im März diesen Jahres hatten die Baidu-Ingenieure bei ihrem Sprachausgabe-System einen Durchbruch vermeldet.
Fast so gut wie Menschen
Laut den für das Projekt verantwortlichen Forschern wurde das System mit einem 24-stündigen Datensatz trainiert, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde. Durch den Einsatz so genannter Mel-Spektogramme als Zwischenstufe erreiche Tacotron 2 eine besonders natürlich klingende Sprachausgabe, da diese eine höhere Abbildung der Tonhöhen ermöglichten.Um die Qualität des Systems zu bewerten, wurden 100 zufällig ausgewählte Sequenzen als Audiodateien erstellt, welche anschließend von Menschen auf einer Skala von 1 bis 5 bewertet wurden. Der daraus ermittelte "Mean Opinion Score" (MOS) lag für das KI-System bei einem extrem guten Wert von 4,525. Echte menschliche Aufnahmen liegen mit 4,58 nur unwesentlich darüber.
Demo-Dateien verblüffen
Wer sich von Googles neuer Sprachausgabe selbst überzeugen will, kann dies auf einer Demoseite (siehe Video oben) tun. Dort haben die Forscher eine Reihe von Tondateien für Textschnipsel hochgeladen, die dem System vorher nicht bekannt waren. Die hohe Qualität der Sprachausgabe ist wirklich verblüffend und von der normalen menschlichen Aussprache praktisch nicht mehr zu unterscheiden. Tacotron 2 kommt sogar mit Tippfehlern zurecht und kann die einzelnen Wörter so in den Gesamtkontext einordnen, dass die Betonung dazu passt.Auch wenn es sich bei dem KI-System nur um Grundlagenforschung handelt. Angesichts der nahezu perfekten Resultate dürfte es nicht allzu lange dauern, bis Google die Technik in den Google Assistant und andere Produkte integriert. Auch andere IT-Firmen wie Googles chinesisches Pendant Baidu arbeiten bereits an ähnlichen Systemen. Bereits im März diesen Jahres hatten die Baidu-Ingenieure bei ihrem Sprachausgabe-System einen Durchbruch vermeldet.
Thema:
Neueste Downloads
Neue Nachrichten
Beliebte Nachrichten
Videos
Meist kommentierte Nachrichten
Forum
-
Die BCON26, das größte Treffen von Blender-Experten
d-hubs - Heute 14:09 Uhr -
dav2d: ein sehr schneller plattformübergreifender AV2 decoder
d-hubs - Gestern 15:26 Uhr -
Neues von Proxmox, dem Virtualisieurngsspezialisten
d-hubs - Gestern 10:53 Uhr -
#FLOCK ´26: die Flock to Fedora Project Conference
d-hubs - Vorgestern 16:05 Uhr -
DigiKam: das Open-Source-Fotoverwaltungsprogramm
d-hubs - 13.06. 13:22 Uhr
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen