Deep Voice: Extrem realistische Sprache in Echtzeit generiert

Die KI-Ingenieure des chinesischen Suchmaschinenkonzerns Baidu haben ein System entwickelt, das extrem natürlich klingende Sprache in Echtzeit generieren können soll. Dieses soll dabei in allen Belangen besser arbeiten als das von Google-Experten entwickelte WaveNet.

Christian Kahle, 09.03.2017 11:50 Uhr

Public Domain

Bei letzteren steht aktuell schon wieder in Frage, ob es je in den Praxiseinsatz geschickt wird. Denn es bedarf immer wieder eines gehörigen Fein-Tunings und bei der Sprachsynthese wird trotzdem immer wieder ein enormer Rechenaufwand benötigt. Und von den Sprach-Technologien, die man in der Praxis auf den Nutzer loslässt, braucht man hier gar nicht groß reden. Ob man es nun im Auto mit dem Navigationssystem zu tun hat, am Smartphone mit Siri oder im Wohnzimmer mit Alexa: Es reichen wenige Worte, um klar zu erkennen, dass da ein Roboter spricht.

Die Entwickler von Baidu wollen nun aber einen entscheidenden Durchbruch erzielt haben. Ihr Deep Voice-System verfügt über eine KI-Komponente, um selbstständig vorgegebene Daten analysieren und in eigene Problemlösungen umsetzen zu können. Binnen nur weniger Stunden soll sich das System selbstständig einen völlig neuen Sprech-Charakter antrainieren können, indem Samples ausgewertet werden. Ein Fein-Tuning durch die Entwickler soll im Grunde überhaupt nicht notwendig sein.

Arbeit im RAM ist zu langsam

Anschließend soll Deep Voice mit relativ überschaubarer Hardware in der Lage sein, in Echtzeit eine sehr natürlich klingende Sprache zu synthetisieren, in der nicht nur die Inhalte in einen vernünftigen Satzbau gepackt werden, sondern jedes Wort auch möglichst angemessen und abwechslungsreich betont wird. Gerade letzteres war bisher im Grunde kein Bestandteil von Sprachsystemen - so waren sie zwar durchaus verständlich, wirkten aber komplett seelenlos.

Um die Sprachsynthese schnell genug hinzubekommen, mussten die Forscher die Software vor allem hinsichtlich ihrer Größe und des Leistungsbedarfs anpassen. Denn wenn ein Mensch mit einem Computer spricht, fällt ihm schnell auch auf, dass die Maschine Bruchteile von Sekunden zu langsam reagiert. Die Entwickler konnten das aber ändern, indem sie schlicht nicht mehr auf den normalen Arbeitsspeicher zurückgriffen. Die Algorithmen zur Sprachsynthese und die Muster, die einen bestimmten Charakter ausmachen, passen nun komplett in den wesentlich kleineren Cache-Speicher des Prozessors, um wichtige Mikrosekunden einzusparen.

Dass die Ergebnisse von Deep Voice wirklich gut sind, sollen Tests mit unabhängigen Probanden gezeigt haben, die mit verschiedenen Samples konfrontiert wurden. Leider haben die Forscher bisher keine Demos öffentlich bereitgestellt.

Amazon Echo: Der Sprachassistent für den Alltag im großen Test

Thema:

Baidu

Kommentieren7

Hinweis einsenden

Weitere Nachrichten zum Thema Lyrebird: Software imitiert Sprecher nach nur einer Minute ZuhörenMicrosoft ist aktuell der Weltmeister bei der SpracherkennungMicrosoft-Forscher: Sprachbarrieren gibt es in 10 Jahren nicht mehrKinect für Echtzeit-Übersetzung in GebärdenspracheSMS & Co.: Kein negativer Einfluss auf die SpracheSprache verrät Identität von anonymen Nutzern