Deep Voice: Extrem realistische Sprache in Echtzeit generiert

Sprache, Lächeln, Mund Bildquelle: Public Domain
Die KI-Ingenieure des chinesischen Suchmaschinenkonzerns Baidu haben ein System entwickelt, das extrem natürlich klingende Sprache in Echtzeit generieren können soll. Dieses soll dabei in allen Belangen besser arbeiten als das von Google-Experten entwickelte WaveNet. Bei letzteren steht aktuell schon wieder in Frage, ob es je in den Praxiseinsatz geschickt wird. Denn es bedarf immer wieder eines gehörigen Fein-Tunings und bei der Sprachsynthese wird trotzdem immer wieder ein enormer Rechenaufwand benötigt. Und von den Sprach-Technologien, die man in der Praxis auf den Nutzer loslässt, braucht man hier gar nicht groß reden. Ob man es nun im Auto mit dem Navigationssystem zu tun hat, am Smartphone mit Siri oder im Wohnzimmer mit Alexa: Es reichen wenige Worte, um klar zu erkennen, dass da ein Roboter spricht.

Die Entwickler von Baidu wollen nun aber einen entscheidenden Durchbruch erzielt haben. Ihr Deep Voice-System verfügt über eine KI-Komponente, um selbstständig vorgegebene Daten analysieren und in eigene Problemlösungen umsetzen zu können. Binnen nur weniger Stunden soll sich das System selbstständig einen völlig neuen Sprech-Charakter antrainieren können, indem Samples ausgewertet werden. Ein Fein-Tuning durch die Entwickler soll im Grunde überhaupt nicht notwendig sein.

Arbeit im RAM ist zu langsam

Anschließend soll Deep Voice mit relativ überschaubarer Hardware in der Lage sein, in Echtzeit eine sehr natürlich klingende Sprache zu synthetisieren, in der nicht nur die Inhalte in einen vernünftigen Satzbau gepackt werden, sondern jedes Wort auch möglichst angemessen und abwechslungsreich betont wird. Gerade letzteres war bisher im Grunde kein Bestandteil von Sprachsystemen - so waren sie zwar durchaus verständlich, wirkten aber komplett seelenlos.

Um die Sprachsynthese schnell genug hinzubekommen, mussten die Forscher die Software vor allem hinsichtlich ihrer Größe und des Leistungsbedarfs anpassen. Denn wenn ein Mensch mit einem Computer spricht, fällt ihm schnell auch auf, dass die Maschine Bruchteile von Sekunden zu langsam reagiert. Die Entwickler konnten das aber ändern, indem sie schlicht nicht mehr auf den normalen Arbeitsspeicher zurückgriffen. Die Algorithmen zur Sprachsynthese und die Muster, die einen bestimmten Charakter ausmachen, passen nun komplett in den wesentlich kleineren Cache-Speicher des Prozessors, um wichtige Mikrosekunden einzusparen.

Dass die Ergebnisse von Deep Voice wirklich gut sind, sollen Tests mit unabhängigen Probanden gezeigt haben, die mit verschiedenen Samples konfrontiert wurden. Leider haben die Forscher bisher keine Demos öffentlich bereitgestellt.


Sprache, Lächeln, Mund Sprache, Lächeln, Mund Public Domain
Mehr zum Thema: Baidu
Diese Nachricht empfehlen
Kommentieren6
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!
Einloggen

Neue Baidu-Bilder

Jetzt als Amazon Blitzangebot

Ab 13:10 Uhr Docooler NK-268 Digital Audio Endstufe Bluetooth 4.0 Mini HiFi Audio Receiver Stereo Verstärker Dual Channel 50W + 50W mit Netzteil EU SteckerDocooler NK-268 Digital Audio Endstufe Bluetooth 4.0 Mini HiFi Audio Receiver Stereo Verstärker Dual Channel 50W + 50W mit Netzteil EU Stecker
Original Amazon-Preis
43,99
Im Preisvergleich ab
43,09
Blitzangebot-Preis
35,99
Ersparnis zu Amazon 18% oder 8

Tipp einsenden