Microsoft-KI schlägt Transkriptions-Profis bei der Spracherkennung
Um ein möglichst objektives Ergebnis zu erhalten, wurde ein professioneller Transkriptions-Dienstleister engagiert. Einem von dessen Mitarbeitern wurde das Gespräch vorgespielt, damit eine schriftliche Fassung angefertigt werden konnte. Eine zweite Person der Firma führte dann noch einen Korrektur-Durchgang an. Die Transkription wurde also so angefertigt, wie es üblicherweise bei solchen Aufträgen der Fall ist. Das Ergebnis verglichen die Forscher dann mit einer Transkription, die quasi fehlerfrei war, weil man sich hier sehr viel Mühe gab, in Ruhe und mit mehreren Durchläufen ein möglichst perfektes Ergebnis zu bekommen.
Die professionellen menschlichen Dienstleister kamen hier auf Fehlerquoten zwischen 5,9 und 11,3 Prozent. Die Microsoft-Forscher setzten nun ihr KI-System auf die gleiche Aufgabe an. Hier wurden Fehlerquoten von 5,9 bis 11,1 Prozent erreicht. Die kleine Differenz beim Maximum kann den Angaben zufolge in einer Minute Sprechzeit immerhin rund ein Dutzend Fehler bedeuten.
Fallstricke für die Maschine
Bei einer genaueren Untersuchung der Ergebnisse zeigte sich, dass die Microsoft-KI, die man zuvor mit über 2.000 Stunden Gesprächsaufzeichnungen auf die Analyse menschlicher Sprache trainiert hatte, typischerweise an anderen Stellen Fehler produziert als der Mensch. Das liegt daran, dass das System weniger gut unterscheiden kann, ob bestimmte Laute lediglich den Gesprächsfluss füllen oder die verkürzte Form eines bestimmten Wortes darstellen.Hinzu kommt, dass solche Laute auch dann unterschiedliche Bedeutungen haben können, wenn sie für den Gesprächsinhalt keine Bedeutung haben. Im Deutschen kennt man das klassische "Ähm", mit dem Pausen, in denen der Sprecher im Kopf die nächste Formulierung zusammenstellt, gefüllt werden. Für die Maschine ist dieses nur schwer von einem "Hm-Hm" zu unterscheiden, das dem Gegenüber Zustimmung signalisiert und ihn auffordert, weiterzusprechen. Menschen können solche Laute ohne nachzudenken weitgehend aus dem gehörten Text herausfiltern.
Die Forscher haben nach dem nun gezeigten Erfolg natürlich schon das nächste Ziel vor Augen. Das System soll jetzt besser darin werden, eine vergleichbare Qualität auch dann hinzubekommen, wenn Hintergrundgeräusche die Spracherkennung stören. Darin ist der Mensch noch wesentlich besser, da das Gehirn darauf konditioniert ist, unwichtige Töne automatisch herauszufiltern.
Spracherkennung: Microsoft ist aktuell der Weltmeister
Thema:
Neue Microsoft-Research-Bilder
Microsoft-Research-Videos
- Microsoft Research zeigt innovatives Display mit "Kipp-Darstellung"
- Microsoft investiert massiv in KI-Forschung zu Medizin & Gesundheit
- Project Zanzibar: Microsoft-Entwickler schaffen neues Eingabe-Gerät
- Spannend: Microsoft-App beschreibt Blinden, was um sie passiert
- Microsoft zeigt, wie man Touch- und Pen-Eingabe kombinieren kann
- Es ist Zeit: Microsoft beginnt mit Bau eines Quantencomputers
- Lange vor Apple: Microsoft zeigt schon 2010 ein Touch-Bar-Keyboard
Beiträge aus dem Forum
Weiterführende Links
Jetzt als Amazon Blitzangebot
Ab 06:35 Uhr YV 520mb/s USB Sticks
Original Amazon-Preis
39,99 €
Blitzangebot-Preis
31,99 €
Ersparnis zu Amazon 20% oder 8 €
Neue Nachrichten
- Diese Mal wirklich?: Neuer Release-Termin für iPad Pro & Air
- China will fliegende Autos mit Elektroantrieb bis 2030 kommerzialisieren
- Kommt der Apple Ring? Gerüchte über neues Apple-Wearable entflammt
- Stark reduziert: Media Markt und Saturn starten tolle Oster-Deals
- Copilot "schlechter" als ChatGPT: Microsoft gibt Nutzern die Schuld
- Notebooksbilliger: Viele Technik-Produkte wieder stark reduziert
- Aktuelle Technik-Blitzangebote von Amazon im Überblick
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen