Microsoft erzielt Durchbruch bei Spracherkennung

Google, Google Maps, Sprachsteuerung Bildquelle: Google
Im Rahmen der Interspeech 2011, der 12. jährlichen Konferenz der International Speech Communication Association, die vom 28. bis 31. August im italienischen Florenz stattfindet, haben Forscher von Microsoft Research ihre jüngste Arbeit vorgestellt, die einen Durchbruch auf dem Gebiet der Spracherkennung darstellen soll.
Normalerweise muss eine Software zur Spracherkennung trainiert werden, um ihren Nutzer in allen Situationen gut verstehen zu können. In der Praxis ist dies oftmals nicht möglich, da ein System mit sehr vielen unterschiedlichen Menschen zu tun hat, beispielsweise bei einer Telefon-Hotline mit einem sprachgesteuerten Menü. Derartige Systeme besitzen nur einen sehr geringen Wortschatz ("Sagen Sie 'Rechnung', wenn Sie Fragen zu einer Abrechnung haben"), verstehen die Wörter dafür aber auch in schwierigen Situationen.

Die beiden Microsoft-Forscher Dong Yu aus Redmond und Frank Seide von Microsoft Research Asia haben sich zusammen mit ihren Teams auf den Heiligen Gral der Spracherkennung konzentriert. Sie erforschen Methoden, um eine Spracherkennung unabhängig vom Sprecher entwickeln zu können, die einen großen Wortschatz umfasst. Das System würde im Idealfall sämtliche Wörter verstehen, egal aus welchem Mund sie kommen - ohne vorheriges Training.

Dong Yu und Frank SeideDong Yu und Frank Seide "In der heutigen mobilen Welt besitzt dieses Ziel eine große Bedeutung", erklärt Yu in einem Blog-Beitrag. "Die Sprache stellt ein wichtiges Interface für Smartphones und andere mobile Endgeräte dar." Dabei würden sich Smartphones ideal eignen, um eine Spracherkennung zu trainieren, schließlich spricht der Nutzer ständig in sie hinein. Auch die Leistungsfähigkeit der Geräte ist gegeben. Allerdings wird die Spracherkennung vom Anwender laut Yu nur dann dauerhaft eingesetzt, wenn die anfängliche Erfahrung gut ist. Im Falle einer Spracherkennung, die zunächst trainiert werden muss, ist diese Voraussetzung nicht gegeben und die Spracherkennung ist zum Scheitern verurteilt.

Die Arbeit der Microsoft-Forscher basiert auf einem alt bekannten mathematischen Modell zur Abbildung der Nervenbahnen im menschlichen Gehirn, dem künstlichen neuronalen Netz (Artificial Neural Network, ANN). Es existiert bereits seit den 50er-Jahren - seit den 80er-Jahren wird es im Zusammenhang mit der Spracherkennung verwendet. Das so genannte ANN-Hidden Markov Model (ANN-HMM) bot vielversprechende Erfolge für eine Spracherkennung mit einem umfangreichen Wortschatz. Allerdings wurden in der Praxis "Context-dependent Gaussian Mixture Model HMMs" (CD-GMM-HMMs) eingesetzt, die sich das Training durch einen bestimmten Sprecher zu Nutze machen. Die Performance der künstlichen neuronalen Netze war schlechter, so dass die Idee nicht weiter verfolgt wurde.

Die Microsoft-Forscher griffen die damalige Arbeit wieder auf und erweiterten sie in diversen Bereichen, um eine verbesserte Performance erzielen zu können. Die künstlichen neuronalen Netze wurden komplexer. Es entstanden so genannte Deep Neural Networks (DNNs). Bislang arbeiteten die Forscher mit Phonemen, kleinsten sprachlichen Einheiten, die in der gesprochenen Sprache vorkommen. Rund 30 Stück gibt es davon. Yu und sein Team erzielten einen Durchbruch, als sie noch kleinere Laute verwendeten, die im Englischen als "senones" bezeichnet werden. Ihre Anzahl liegt im vierstelligen Bereich. Die Spracherkennung arbeitete in der Folge deutlich zuverlässiger.

Um die Verbesserungen des neuen Systems messen zu können, setzten die Microsoft-Forscher auf den anerkannten Switchboard-Benchmark. Man ermittelte eine Fehlerrate von nur 18,5 Prozent - eine Verbesserung um 33 Prozent verglichen mit konventionellen Spracherkennungen der aktuellsten Generation. Wenn man bedenkt, dass die Spracherkennung inzwischen seit 50 Jahren erforscht und verbessert wird, stellt die Verbesserung einen regelrechten Quantensprung dar, schließlich funktionieren heutige Spracherkennungen bereits "gut".

Yu, Seide und ihre Teams haben mit ihrer Arbeit einen wichtigen Beitrag zur Verbesserung der Spracherkennung geleistet, der in Zukunft für deutlich flüssigere Systeme sorgen wird. Ausführliche Informationen über die Hintergründe der Technik werden in einem Blog-Beitrag von Microsoft Research zusammengefasst. Dort werden auch die beiden wissenschaftlichen Arbeiten "Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition" und "Conversational Speech Transcription Using Context-Dependent Deep Neural Networks" erwähnt, die im Rahmen der Forschung entstanden sind und in Fachkreisen Bewunderung ausgelöst haben. Google, Google Maps, Sprachsteuerung Google, Google Maps, Sprachsteuerung Google
Mehr zum Thema: Microsoft Research
Diese Nachricht empfehlen
Kommentieren54
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!

Jetzt als Amazon Blitzangebot

Ab 19:30 Uhr4er Set LED Solar Glas Pflastersteine Wegeleuchten warm Lights4fun
4er Set LED Solar Glas Pflastersteine Wegeleuchten warm Lights4fun
Original Amazon-Preis
45,99
Im Preisvergleich ab
?
Blitzangebot-Preis
35,99
Ersparnis zu Amazon 0% oder 10

WinFuture Mobil

WinFuture.mbo QR-Code Auch Unterwegs bestens informiert!
Nachrichten und Kommentare auf
dem Smartphone lesen.

Folgt uns auf Twitter

WinFuture bei Twitter

Interessante Artikel & Testberichte

WinFuture wird gehostet von Artfiles

Tipp einsenden