Deep Voice: Extrem realistische Sprache in Echtzeit generiert
Die KI-Ingenieure des chinesischen Suchmaschinenkonzerns Baidu haben ein System entwickelt, das extrem natürlich klingende Sprache in Echtzeit generieren können soll. Dieses soll dabei in allen Belangen besser arbeiten als das von Google-Experten entwickelte WaveNet.
Bei letzteren steht aktuell schon wieder in Frage, ob es je in den Praxiseinsatz geschickt wird. Denn es bedarf immer wieder eines gehörigen Fein-Tunings und bei der Sprachsynthese wird trotzdem immer wieder ein enormer Rechenaufwand benötigt. Und von den Sprach-Technologien, die man in der Praxis auf den Nutzer loslässt, braucht man hier gar nicht groß reden. Ob man es nun im Auto mit dem Navigationssystem zu tun hat, am Smartphone mit Siri oder im Wohnzimmer mit Alexa: Es reichen wenige Worte, um klar zu erkennen, dass da ein Roboter spricht.
Die Entwickler von Baidu wollen nun aber einen entscheidenden Durchbruch erzielt haben. Ihr Deep Voice-System verfügt über eine KI-Komponente, um selbstständig vorgegebene Daten analysieren und in eigene Problemlösungen umsetzen zu können. Binnen nur weniger Stunden soll sich das System selbstständig einen völlig neuen Sprech-Charakter antrainieren können, indem Samples ausgewertet werden. Ein Fein-Tuning durch die Entwickler soll im Grunde überhaupt nicht notwendig sein.
Um die Sprachsynthese schnell genug hinzubekommen, mussten die Forscher die Software vor allem hinsichtlich ihrer Größe und des Leistungsbedarfs anpassen. Denn wenn ein Mensch mit einem Computer spricht, fällt ihm schnell auch auf, dass die Maschine Bruchteile von Sekunden zu langsam reagiert. Die Entwickler konnten das aber ändern, indem sie schlicht nicht mehr auf den normalen Arbeitsspeicher zurückgriffen. Die Algorithmen zur Sprachsynthese und die Muster, die einen bestimmten Charakter ausmachen, passen nun komplett in den wesentlich kleineren Cache-Speicher des Prozessors, um wichtige Mikrosekunden einzusparen.
Dass die Ergebnisse von Deep Voice wirklich gut sind, sollen Tests mit unabhängigen Probanden gezeigt haben, die mit verschiedenen Samples konfrontiert wurden. Leider haben die Forscher bisher keine Demos öffentlich bereitgestellt.
Die Entwickler von Baidu wollen nun aber einen entscheidenden Durchbruch erzielt haben. Ihr Deep Voice-System verfügt über eine KI-Komponente, um selbstständig vorgegebene Daten analysieren und in eigene Problemlösungen umsetzen zu können. Binnen nur weniger Stunden soll sich das System selbstständig einen völlig neuen Sprech-Charakter antrainieren können, indem Samples ausgewertet werden. Ein Fein-Tuning durch die Entwickler soll im Grunde überhaupt nicht notwendig sein.
Arbeit im RAM ist zu langsam
Anschließend soll Deep Voice mit relativ überschaubarer Hardware in der Lage sein, in Echtzeit eine sehr natürlich klingende Sprache zu synthetisieren, in der nicht nur die Inhalte in einen vernünftigen Satzbau gepackt werden, sondern jedes Wort auch möglichst angemessen und abwechslungsreich betont wird. Gerade letzteres war bisher im Grunde kein Bestandteil von Sprachsystemen - so waren sie zwar durchaus verständlich, wirkten aber komplett seelenlos.Um die Sprachsynthese schnell genug hinzubekommen, mussten die Forscher die Software vor allem hinsichtlich ihrer Größe und des Leistungsbedarfs anpassen. Denn wenn ein Mensch mit einem Computer spricht, fällt ihm schnell auch auf, dass die Maschine Bruchteile von Sekunden zu langsam reagiert. Die Entwickler konnten das aber ändern, indem sie schlicht nicht mehr auf den normalen Arbeitsspeicher zurückgriffen. Die Algorithmen zur Sprachsynthese und die Muster, die einen bestimmten Charakter ausmachen, passen nun komplett in den wesentlich kleineren Cache-Speicher des Prozessors, um wichtige Mikrosekunden einzusparen.
Dass die Ergebnisse von Deep Voice wirklich gut sind, sollen Tests mit unabhängigen Probanden gezeigt haben, die mit verschiedenen Samples konfrontiert wurden. Leider haben die Forscher bisher keine Demos öffentlich bereitgestellt.
Thema:
Neue Downloads zum Thema
Videos zum Thema
- Microsoft stellt das neue Bing und vieles mehr für Windows 11 vor
- Bing mit ChatGPT: Microsoft stellt seinen "Kopilot fürs Netz" vor
- Google blickt auf 2021 zurück - Das Jahr in Suchanfragen
- Microsoft startet visuelle Suchfunktion und die klingt vielversprechend
- Google veröffentlicht die Suchbegriffe des Jahres 2017
Beiträge aus dem Forum
Weiterführende Links
Neue Nachrichten
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
- Neue Microsoft-Geräte: Surface Pro und Surface Laptop sind da
- Tesla Cybercab: Batteriegröße, Gewicht und Leistung bestätigt
- Apple iPhone 18: Zulieferer bestätigt die Verschiebung auf 2027
- Wahnsinns-Deal: Samsung Galaxy S26 Ultra mit 50 GB Telekom-Tarif
- Was Tesla nicht schafft, setzt Xiaomi um, und stellt Laderoboterarm vor
- Aktionäre klagen: Ist Microsofts KI- & Cloud-Boom auf Lügen gebaut?
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen