Deep Voice: Extrem realistische Sprache in Echtzeit generiert

Sprache, Lächeln, Mund Bildquelle: Public Domain
Die KI-Ingenieure des chinesischen Suchmaschinenkonzerns Baidu haben ein System entwickelt, das extrem natürlich klingende Sprache in Echtzeit generieren können soll. Dieses soll dabei in allen Belangen besser arbeiten als das von Google-Experten entwickelte WaveNet.
Bei letzteren steht aktuell schon wieder in Frage, ob es je in den Praxiseinsatz geschickt wird. Denn es bedarf immer wieder eines gehörigen Fein-Tunings und bei der Sprachsynthese wird trotzdem immer wieder ein enormer Rechenaufwand benötigt. Und von den Sprach-Technologien, die man in der Praxis auf den Nutzer loslässt, braucht man hier gar nicht groß reden. Ob man es nun im Auto mit dem Navigationssystem zu tun hat, am Smartphone mit Siri oder im Wohnzimmer mit Alexa: Es reichen wenige Worte, um klar zu erkennen, dass da ein Roboter spricht.

Die Entwickler von Baidu wollen nun aber einen entscheidenden Durchbruch erzielt haben. Ihr Deep Voice-System verfügt über eine KI-Komponente, um selbstständig vorgegebene Daten analysieren und in eigene Problemlösungen umsetzen zu können. Binnen nur weniger Stunden soll sich das System selbstständig einen völlig neuen Sprech-Charakter antrainieren können, indem Samples ausgewertet werden. Ein Fein-Tuning durch die Entwickler soll im Grunde überhaupt nicht notwendig sein.

Arbeit im RAM ist zu langsam

Anschließend soll Deep Voice mit relativ überschaubarer Hardware in der Lage sein, in Echtzeit eine sehr natürlich klingende Sprache zu synthetisieren, in der nicht nur die Inhalte in einen vernünftigen Satzbau gepackt werden, sondern jedes Wort auch möglichst angemessen und abwechslungsreich betont wird. Gerade letzteres war bisher im Grunde kein Bestandteil von Sprachsystemen - so waren sie zwar durchaus verständlich, wirkten aber komplett seelenlos.

Um die Sprachsynthese schnell genug hinzubekommen, mussten die Forscher die Software vor allem hinsichtlich ihrer Größe und des Leistungsbedarfs anpassen. Denn wenn ein Mensch mit einem Computer spricht, fällt ihm schnell auch auf, dass die Maschine Bruchteile von Sekunden zu langsam reagiert. Die Entwickler konnten das aber ändern, indem sie schlicht nicht mehr auf den normalen Arbeitsspeicher zurückgriffen. Die Algorithmen zur Sprachsynthese und die Muster, die einen bestimmten Charakter ausmachen, passen nun komplett in den wesentlich kleineren Cache-Speicher des Prozessors, um wichtige Mikrosekunden einzusparen.

Dass die Ergebnisse von Deep Voice wirklich gut sind, sollen Tests mit unabhängigen Probanden gezeigt haben, die mit verschiedenen Samples konfrontiert wurden. Leider haben die Forscher bisher keine Demos öffentlich bereitgestellt.


Sprache, Lächeln, Mund Sprache, Lächeln, Mund Public Domain
Mehr zum Thema: Baidu
Diese Nachricht empfehlen
Kommentieren6
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!
Einloggen

Jetzt als Amazon Blitzangebot

Ab 17:10 Uhr CUBOT X18 Plus HandyCUBOT X18 Plus Handy
Original Amazon-Preis
189,99
Im Preisvergleich ab
160,70
Blitzangebot-Preis
160,99
Ersparnis zu Amazon 15% oder 29

Tipp einsenden