Microsoft-KI schlägt Transkriptions-Profis bei der Spracherkennung

Sprache, Mund, Lächeln Bildquelle: Public Domain
Bei der Weiterentwicklung von Spracherkennungs-Systemen geht es bei Microsoft Schlag auf Schlag. Aus einem aktuellen Forschungspapier von Microsoft Research geht hervor, dass die Software inzwischen in der Lage ist, bessere Transkriptionen eines Gespräches anzufertigen als geübte Menschen.
Dies trifft zumindest auf Konversationen zu, bei denen sich zwei Personen unter relativ kontrollierten Bedingungen telefonisch miteinander unterhalten. Dies bedeutet, dass die Sprachübertragung nicht durch schlechte Mobilfunkverbindungen beeinträchtigt ist und auch wenig störende Hintergrundgeräusche auftreten. Aufzeichnungen solcher Gespräche zog man für aktuelle Tests heran.

Um ein möglichst objektives Ergebnis zu erhalten, wurde ein professioneller Transkriptions-Dienstleister engagiert. Einem von dessen Mitarbeitern wurde das Gespräch vorgespielt, damit eine schriftliche Fassung angefertigt werden konnte. Eine zweite Person der Firma führte dann noch einen Korrektur-Durchgang an. Die Transkription wurde also so angefertigt, wie es üblicherweise bei solchen Aufträgen der Fall ist. Das Ergebnis verglichen die Forscher dann mit einer Transkription, die quasi fehlerfrei war, weil man sich hier sehr viel Mühe gab, in Ruhe und mit mehreren Durchläufen ein möglichst perfektes Ergebnis zu bekommen.

Die professionellen menschlichen Dienstleister kamen hier auf Fehlerquoten zwischen 5,9 und 11,3 Prozent. Die Microsoft-Forscher setzten nun ihr KI-System auf die gleiche Aufgabe an. Hier wurden Fehlerquoten von 5,9 bis 11,1 Prozent erreicht. Die kleine Differenz beim Maximum kann den Angaben zufolge in einer Minute Sprechzeit immerhin rund ein Dutzend Fehler bedeuten.


Fallstricke für die Maschine

Bei einer genaueren Untersuchung der Ergebnisse zeigte sich, dass die Microsoft-KI, die man zuvor mit über 2.000 Stunden Gesprächsaufzeichnungen auf die Analyse menschlicher Sprache trainiert hatte, typischerweise an anderen Stellen Fehler produziert als der Mensch. Das liegt daran, dass das System weniger gut unterscheiden kann, ob bestimmte Laute lediglich den Gesprächsfluss füllen oder die verkürzte Form eines bestimmten Wortes darstellen.

Hinzu kommt, dass solche Laute auch dann unterschiedliche Bedeutungen haben können, wenn sie für den Gesprächsinhalt keine Bedeutung haben. Im Deutschen kennt man das klassische "Ähm", mit dem Pausen, in denen der Sprecher im Kopf die nächste Formulierung zusammenstellt, gefüllt werden. Für die Maschine ist dieses nur schwer von einem "Hm-Hm" zu unterscheiden, das dem Gegenüber Zustimmung signalisiert und ihn auffordert, weiterzusprechen. Menschen können solche Laute ohne nachzudenken weitgehend aus dem gehörten Text herausfiltern.

Die Forscher haben nach dem nun gezeigten Erfolg natürlich schon das nächste Ziel vor Augen. Das System soll jetzt besser darin werden, eine vergleichbare Qualität auch dann hinzubekommen, wenn Hintergrundgeräusche die Spracherkennung stören. Darin ist der Mensch noch wesentlich besser, da das Gehirn darauf konditioniert ist, unwichtige Töne automatisch herauszufiltern.

Spracherkennung:
Microsoft ist aktuell der Weltmeister
Sprache, Mund, Lächeln Sprache, Mund, Lächeln Public Domain
Diese Nachricht empfehlen
Kommentieren7
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Kommentar abgeben Netiquette beachten!

Jetzt als Amazon Blitzangebot

Ab 13:45 Uhr Thermaltake Core P5 Wand-Gehäuse
Thermaltake Core P5 Wand-Gehäuse
Original Amazon-Preis
137,88
Im Preisvergleich ab
125,38
Blitzangebot-Preis
99,92
Ersparnis zu Amazon 28% oder 37,96

Tipp einsenden