EP1723636A1

EP1723636A1 - Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen

Info

Publication number: EP1723636A1
Application number: EP05707860A
Authority: EP
Inventors: Tobias Stranart; Andreas Schröer; Michael Wandinger
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-03-12
Filing date: 2005-01-27
Publication date: 2006-11-22
Also published as: US20070213978A1; US8874438B2; WO2005088607A1

Abstract

Für einen Erkennungsvorgang einer Spracherkennung ist ein Soll-Erkennungsergebnis ableitbar oder bereits gegeben. Darüber hinaus wird der Erkennungsvorgang durchgeführt und ein Konfidenzmass des Soll-Erkennungsergebnisses bestimmt.

Description

Beschreibung

Benutzer- und vokabularadaptive Bestimmung von Konfidenz- und Rückweisungsschwellen

Die Erkennung menschlicher Sprache wird heutzutage auf einer Vielzahl von mobilen Geräten wie z.B. Mobiltelefonen, Personal Digitial Assistants (PDAs) und earables (MP3-Player, Uhren-Handy etc.) eingesetzt. Ein sehr wichtiges Kriterium für die Akzeptanz eines SpracherkennungsSystems durch den Benutzer ist dabei die Rückweisung von Worten, die nicht im Erkennerwortschatz enthalten sind (Out—Of—Vocabulary rejection, OOV rejection) .

Das hierfür zugrunde liegende technische Verfahren für sprecherunabhängige Spracherkennung besteht in der Klassifikation von Erkennungsergebnissen in Kategorien für die Sicherheit der Erkennung, z.B. [sicher erkannt, unsicher erkannt, nicht im Wortschatz] . Typischerweise variiert die Zahl und Benen- nung dieser Kategorien je nach verwendeter Spracherkennungs- technologie, ebenso wie ihre Behandlung in der Sprachanwendung. So ist es z.B. denkbar, dass eine Sprachanwendung für unsicher erkannte Worte eine Rückfrage beim Benutzer durchführt. Für ein SpracherkennungsSystem besteht somit das Prob- lern, für jedes Erkennungsergebnis eine möglichst präzise und fehlerfreie Einteilung in eine der oben erwähnten Kategorien zu liefern.

In aller Regel ist die Grundlage der Einteilung in Kategorien bei der Klassifikation von Erkennungsergebnissen ein so genanntes Konfidenzmaß, das vom SpracherkennungsSystem für jedes Erkennungsergebnis berechnet wird. Für die Berechnung dieser Maßzahl bietet die Literatur eine Vielzahl von Algorithmen. Maßgeblich für diese Erfindung ist der Rahmen in dem geeignete Konfidenzmaß-Schwellwerte bestimmt werden. Diese definieren die oben genannten Kategorien für die Sicherheit der Erkennung. Zu beachten ist, dass eine gut gewählte Schwelle neben der Sprache und der verwendeten Modellierung (z.B.Hidden Markov Model) auch vom Sprecher und vom Ξrkenner- vokabular abhängt .

Bisherige Lösungsansätze beruhen auf der aufwendigen, kritischen und nicht immer passenden, a-priori Bestimmung von Kon- fidenzschwellen an Hand von Datenbanken im Labor. Im Folgenden werden diese für drei Typen der Spracherkennung erläutert :

a) Sprecherunabhängige (speaker-independent, SI) Spracherkennung

Die sprecherunabhängige Erkennung basiert z.B. auf Hidden Markov Modellierung. Sie bietet Komfort für den Benutzer, da kein spezielles Training (Vorsprechen, Enrollment) der zu erkennenden Worte erforderlich ist. Allerdings muss der zu erkennende Wortschatz a priori bekannt sein. Typischerweise sind dies bei phonembasierten SpracherkennungsSystemen phone- tische oder graphemische Informationen über die zu erkennenden Wörter. Es existieren Standard-Verfahren um die Graphemik eines Wortes, d.h. seine geschriebene Form, in seine phonetische Form zu überführen, welches die Form ist, die vom SpracherkennungsSystem benötigt wird. Hier existieren ver— schiedene Verfahren um Konfidenzschwellwerte zu bestimmen, entweder auf Vokabular-Ebene oder auf Wort-Ebene. Diese Verfahren basieren auf Auswertung, der in diesem Fall bekannten, Informationen über die (phonetische) Wortmodellierung.

b) Sprecherabhängige (Speaker—dependent, SD) Spracherkennung

Ein Beispiel für sprecherabhängige Erkennung ist die Telefonbuch-Namenswahl eines Handys . Die Namen aus dem Telefonbuch sind typischerweise zuvor sprecherabhängig trainiert worden (SD-Enrollment)-, es wird anhand der gesprochenen Form eines Wortes ein akustisches Modell für die Erkennung generiert. Die Standardverfahren der sprecherunabhängigen Erkennung greifen hier nicht, die Schwellen der si-Erkennung sind nicht übertragbar. Zudem besteht eine starke Abhängigkeit vom gewählten Verfahren der sprecherspezifischen Wortmodellierung. Vorgegebene Konfidenzmaß-Schwellwerte für sprecherabhängige Vokabulare sind typischerweise nicht auf einen Sprecher oder ein Vokabular angepasst und somit per se suboptimal. Es kann sogar so weit gehen, dass diese überhaupt nicht verwendbar sind.

Zu den bekannten Lösungsansätzen gehört auch die - wenig wünschenswerte - direkte Einflussnahme des Benutzers auf die Schwellen, d.h., er wird gezwungen die ^%Schärfe^x der Rückwei— sung des Erkennungssystems selbst zu beeinflussen.

c) Sprecheradaptive (speaker-adaptive, SA) Spracherkennung

Dies ist eine Mischform aus sprecherunabhängiger Erkennung und sprecherabhängiger Erkennung: Die sprecherunabhängige Mo- dellierung eines Wortes oder Vokabulars wird durch adaptives Training an einen Sprecher angepasst. Ziel ist die Verbesserung der Erkennungsrate durch Erfassung sprecherspezifischer Eigenarten. Die Anpassung an einen Sprecher kann je nach verwendeter Erkenner-Technologie auf Phonem—Ebene oder auf Wort- Ebene erfolgen. Ähnlich wie im SD-Fall sind keine Lösungen zur Berücksichtigung der Auswirkung des zusätzlichen Trai- nings/Adapations-Vorgangs auf die Konfidenzschwelle bekannt.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, ei- ne sinnvolle Bestimmung von Konfidenzmaßen und Konfidenz— schwellen insbesondere bei der sprecherabhängigen und spre— cheradaptiven Spracherkennung zu ermöglichen.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Ansprüchen. Dementsprechend ist in einem Verfahren zur Bestimmung von Konfidenzmaßen in der Spracherkennung für einen Erkennungsvorgang ein Soll-Erkennungsergebnis gegeben. Der Erkennungsvorgang wird durchgeführt und das Konfidenzmaß des Soll- Erkennungsergebnisses wird aufgrund von Informationen bestimmt, die gewonnen werden, wenn der Erkennungsvorgang durchgeführt wird.

Vorzugsweise wird unter Berücksichtigung des Konfidenzmaßes eine Konfidenzschwelle definiert. Diese Vorgehensweise kommt insbesondere bei der sprecherabhängigen oder sprecheradapti- ven Spracherkennung zur Anwendung.

Insbesondere wenn die Spracherkennung eine sprecherunabhängi- ge oder eine sprecheradaptive Spracherkennung ist, dann kann eine Konfidenzschwelle bereits gegeben sein und die Konfi- denzschwelle wird unter Berücksichtigung des Konfidenzmaßes angepasst .

Die Konfidenzschwelle ist vorteilhaft eine Konfidenzschwelle zur Klassifikation von Erkennungsergebnissen in Kategorien. Dabei enthalten die Kategorien beispielsweise eine Kategorie, in der eine zu erkennende Äußerung als sicher erkannt gilt, eine Kategorie, in der eine zu erkennende Äußerung als unsi— eher erkannt gilt, und/oder eine Kategorie, der Äußerungen zugeordnet werden, die nicht zum zu erkennenden Vokabular gehören.

Falls das Verfahren ein Verfahren zur sprecherunabhängigen oder sprecheradaptiven Spracherkennung ist, ist das Soll—

Erkennungsergebnis vorgegeben, weil im Erkennungsvorgang eine dem Benutzer vorgegebene Äußerung erkannt wird.

Ist das Verfahren dagegen ein Verfahren zur sprecherabhängi— gen Spracherkennung, so wird der Benutzer vorteilhaft aufgefordert, eine zu erkennende Äußerung mindestens zweimal zu sprechen, wobei beim einen Mal das Erkennungsergebnis das Soll-Erkennungsergebnis liefert, während beim anderen Mal unter anderem auch das Konfidenzmaß des Soll- Erkennungsergebnisses bestimmt wird.

Eine Anordnung, die eingerichtet ist, eines der geschilderten Verfahren auszuführen, lässt sich zum Beispiel durch Programmieren und Einrichten einer Datenverarbeitungsanlage mit zu den genannten Verfahrensschritten gehörigen Mitteln realisieren.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfah- rens in einer Programmiersprache und Übersetzung in von der

Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.

Weitere Vorteile und Merkmale ergeben sich aus der Beschreibung von Ausführungsbeispielen. Dabei zeigt

Figur 1 Ein Ablaufdiagramm eines sprecheradaptiven Trainingsvorgangs mit Anpassung von Konfidenzschwellen;

Figur 2 ein Ablaufdiagramm eines sprecherabhängigen Trai— ningsvorgangs mit Anpassung von Konfidenzschwellen;

Figur 3 einen Erkennungsvorgang mit Anpassung von Konfidenzschwellen.

Das hier vorgestellte Verfahren basiert darauf, Informationen zu nutzen, die gewonnen werden, wenn ein Erkennungsvorgang durchgeführt wird, bei dem das Soll-Erkennungsergebnis bekannt ist .

Beim sprecheradaptiven Training wird dem Benutzer das zu sprechende Wort angezeigt, somit ist das Soll bekannt. Das gilt auch für das sprecherspezifische Training, da der Benutzer das Wort spricht, das zum Vokabular der sprecherabhängigen Spracherkennung hinzugefügt werden soll. Bei diesem Fall der sprecherabhängigen Spracherkennung ist allerdings vonnö- ten, dass das hinzuzufügende Wort zweimal gesprochen wird, da ansonsten kein Wortmodell existiert, das als Soll—Erkennungs- eregbnis dienen könnte. Diese Bedingung ist aber in sehr vielen Fällen erfüllt, da die meisten aktuellen Spracherken— nungssysteme aus vielfältigen Gründen ein doppeltes Training der sprecherabhängigen Spracherkennung verlangen.

Schließlich ist das Verfahren zusätzlich generell dann bei einem Erkennungsvorgang anwendbar, wenn Wissen darüber vorliegt, ob das Erkennungsergebnis korrekt ist bzw. dieses Wis- sen - etwa aus der Reaktion des Benutzers - abgeleitet werden kann. Dies betrifft alle obigen Fälle der sprecherunabhängigen, sprecherabhängigen und sprecheradaptiven Spracherkennung.

In jedem dieser Anwendungs älle für das Verfahren sind die zur Kon idenzschwellen-Bestimmung oder -Adaption/Verbesserung benutzten Äußerungen spezifisch für den Sprecher und das zu erkennende Vokabular. Dies ist genau die Schwachstelle der unter zum Stand der Technik beschriebenen Verfahren.

Das hier beschriebene Verfahren ist bestens geeignet, um optimale Konfidenzschwellwerte für den jeweiligen Sprecher zu bestimmen (für obige Falle der sprecherabhängigen und sprecheradaptiven Spracherkennung) oder um die Konfidenzschwell- werte anzupassen (für obige Fälle sprecherunabhängigen und sprecheradaptiven Spracherkennung) . In Figur 1 ist ein sprecheradaptiver Trainingsvorgang mit Anpassung der Konfidenzschwellen dargestellt. Der Benutzer führt einen Adaptionsvorgang durch, indem er die vom SpracherkennungsSystem vorgegebenen Worte spricht. Für jede Äuße- rung des Benutzers wird ein Erkennungsvorgang durchgeführt und das Konfidenzmaß des Soll-Erkennungsergebnisses bestimmt. Damit werden die Konfidenzschwellen zur Kategorie-Einteilung entweder definiert oder, falls bereits ein Iterationswert existiert, entsprechend angepasst. Diese Konfidenzschwellen sind im Gegensatz zu bisherigen Verfahren optimal an den Benutzer angepasst. Je nach Art der verwendeten Adaptionstechnik sind sie auch spezifisch für den Erkennungswortschatz und ermöglichen für diesen damit z.B. eine verbesserte Rückwei— sung.

In Figur 2 ist ein sprecherabhängiger Trainingsvorgang mit Anpassung der Konfidenzschwellen dargestellt. Der Benutzer spricht zuerst einmal das dem Wortschatz hinzuzufügende Wort. Aus diesen Daten erzeugt das Erkennungssystem ein sprecherab- hängiges Referenz-Wortmodell, das provisorisch in das Vokabular übernommen wird. Dann wird das Wort ein weiteres Mal vom Benutzer gesprochen. Dieser zweite Durchlauf wird von dem meisten im Markt befindlichen Spracherkennungssystem aus Gründen der Absicherung, Verifikation und Steigerung der Er- kennungsleistung ohnehin gefordert. Mit dieser zweiten Äußerung wird ein Erkennungsvorgang durchgeführt, und das Konfidenzmaß für das Wortmodell des ersten Durchlaufs bestimmt, wobei dieses das Soll—Erkennungsergebnis darstellt. Damit werden die Konfidenzschwellen zur Kategorie—Einteilung entwe— der definiert oder, falls bereits ein Iterationswert existiert, entsprechend angepasst. Diese Konfidenzschwellen sind optimal an Benutzer und Vokabular angepasst.

In Figur 3 kann man den Ablauf bei einem Erkennungsvorgang mit Anpassung der Konfidenzschwellen erkennen. Der Benutzer führt einen ErkennungsVorgang durch. Gemäß obiger Voraussetzung ist das Soll-Ergebnis bekannt oder kann hergeleitet wer- den. Für dieses Soll-Ξrkennungsergebnis wird das Konfidenzmaß für die Äußerung bestimmt, und die Konfidenzschwellen zur Kategorie-Einteilung werden entsprechend angepasst. Im Gegensatz zu dem bisherigen dem Stand der Technik sind diese Kon- fidenzschwellen optimal an Benutzer und Vokabular angepasst.

Das beschriebene Verfahren besitzt den Vorteil, dass das Rückfrage— und Rückweisungsverhalten eines Spracherkennungs- systems und damit die Benutzerakzeptanz wesentlich verbessert werden, da

- Konfidenzschwellen auto-adaptiv und optimal für den jeweiligen Benutzer bestimmt und daraufhin angepasst werden,

— Konfidenzschwellen auto-adaptiv und optimal für das jeweiligen Vokabular bestimmt und daraufhin angepasst werden, - Die aufwendige und kritische a—priori Bestimmung von Konfidenzschwellen nicht länger notwendig ist oder zumindest sehr an Bedeutung verliert, da das Verfahren die Möglichkeit bietet, Konfidenzschwellen iterativ gegen optimale Werte auszutauschen.

Ein besonderes Merkmal ist dabei die Ausnutzung von Erkennungsvorgängen mit bekanntem Soll-Erkennungsergebnis . Das Verfahren erlaubt deren Auswertung zur Bestimmung eines spezifischen Kon idenzmaßes . Somit wird erstmals eine realisti- sehe Ergebnis-Klassi ikation für sprecherabhängige und sprecheradaptive Spracherkennung möglich.

Das Verfahren kann mit unterschiedlichen, in der Literatur beschriebenen Algorithmen zur Berechnung eines Konfidenzmaßes angewendet werden.

Claims

Patentansprüche

1. Verfahren,

- bei dem für einen Erkennungsvorgang einer Spracherkennung ein Soll-Erkennungsergebnis ableitbar und/oder gegeben ist,

- bei dem der Erkennungsvorgang durchgeführt wird und ein Konfidenzmaß des Soll-Erkennungsergebnisses bestimmt wird.

2. Verfahren nach Anspruch 1, bei dem unter Berücksichtigung des Konfidenzmaßes eine Konfi- denzschwelle definiert wird.

3. Verfahren nach Anspruch 1, bei dem eine Konfidenzschwelle gegeben ist und die Konfi- denzschwelle unter Berücksichtigung des Konfidenzmaßes angepasst wird.

4. Anordnung nach einem der Ansprüche 2 oder 3, bei dem die Konfidenzschwelle eine Konfidenzschwelle zur

Klassifikation von Erkennungsergebnissen in Kategorien ist.

5. Verfahren nach Anspruch 4, bei dem die Kategorien eine Kategorie enthalten, in der eine zu erkennende Äußerung sicher erkannt ist, eine Kategorie, in der eine zu erkennende Äußerung unsicher erkannt ist, und/oder eine Kategorie, in der erkannt wird, dass eine Äußerung nicht zu einem zu erkennenden Vokabular gehört.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Verfahren ein Verfahren zur sprecherunabhängigen oder sprecheradaptiven Spracherkennung ist und im Erkennungsvorgang eine dem Benutzer vorgegebene Äußerung erkannt wird.

7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Verfahren ein Verfahren zur sprecherabhängigen Spracherkennung ist und ein Benutzer eine zu erkennende Äuße- rung mindestens zweimal spricht, wobei beim einen Mal das Erkennungsergebnis das Soll-Erkennungsergebnis liefert, während beim anderen Mal das Konfidenzmaß des Soll- Erkennungsergebnisses bestimmt wird.

8. Anordnung, die eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche auszuführen.

9. Programmprodukt für eine Datenverarbeitungsanlage, das Co- deabschnitte enthält, mit denen ein Verfahren nach einem der

Ansprüche 1 bis 7 auf der Datenverarbeitungsanlage ausführbar ist .