DE10006930A1

DE10006930A1 - System und Verfahren zur Spracherkennung

Info

Publication number: DE10006930A1
Application number: DE10006930A
Authority: DE
Inventors: David Erik Chevalier; Henry L Kazecki
Original assignee: Motorola Inc
Current assignee: Google Technology Holdings LLC
Priority date: 1999-02-23
Filing date: 2000-02-16
Publication date: 2000-09-28
Anticipated expiration: 2020-02-17
Also published as: BRPI0001268B8; US6275800B1; CN1264892A; JP4354072B2; KR100321565B1; MXPA00001875A; DE10006930B4; CN1171201C; KR20000071367A; GB2347252A; GB0003269D0; GB2347252B; BRPI0001268B1; BR0001268A; JP2000242294A

Abstract

Ein Spracherkennungssystem (204, 206, 207, 208) erzeugt eine variable Genauigkeitsvorgabe für die Zurückweisung, die von wenigstens einem Hintergrundrauschpegel, der während des Trainings gemessen wird, und von Rauschsignalen abhängt, die während einer eingegebenen Äußerung im Verlauf der Erkennungsphase gemessen wurden. Eine Worteintrittsstrafe wird in Abhängigkeit von der variablen Genauigkeitsvorgabe für die Zurückweisung zugewiesen.

Description

Die Erfindung betrifft Spracherkennungssysteme.

Sprecherspezifische Spracherkennungssysteme verwenden einen Merkmalsextraktionsalgorithmus, um Signalverarbeitung an einem Rahmen der Eingangssprache vornehmen und Merkmalsvektoren für jeden Rahmen ausgeben zu können. Die Rahmenrate liegt i. a. zwi schen 10 und 30 ms und wird hier als Beispiel auf 20 ms Dauer festgelegt. Bekanntermaßen wird eine große Anzahl unterschied licher Merkmale bei Spracherkennungssystemen verwendet.

Allgemein ausgedrückt werden bei einem Trainingsalgorithmus die Merkmale verwendet, die aus der abgetasteten Sprache einer oder mehrerer Äußerungen eines Wortes oder eines Satzes extra hiert wurden, um Parameter für ein Modell dieses Wortes oder Satzes zu erzeugen. Dieses Model wird dann in einem Modellabla gespeicher gespeichert. Diese Modelle werden später bei der Spracherkennung verwendet. Das Erkennungssystem vergleicht die Merkmale einer unbekannten Äußerung mit abgespeicherten Modell parametern, um eine beste Übereinstimmung zu finden. Das am besten übereinstimmende Modell wird dann von dem Erkennungssys tem als Ergebnis ausgegeben.

Es ist bekannt, verborgene Markow-Modelle (Hidden Markov Model = HMM) als Basis für Erkennungssysteme zu verwenden. HMM- Erkennungssysteme ordnen Rahmen der Äußerung Zuständen des HMM zu. Die Rahmenzustandszuordnung, bei der die größte Wahrschein lichkeit oder Wertung vorliegt, wird als beste Übereinstimmung ausgewählt.

Viele Spracherkennungssysteme unterscheiden nicht zwischen gültigen und ungültigen Äußerungen. Statt dessen wählen diese Systeme eines unter den abgespeicherten Modellen, das die größ te Übereinstimmung ergibt. Einige Systeme verwenden einen Voka bularabgrenzungsalgorithmus, der ungültige Äußerungen zu erfas sen und zurückzuweisen versucht. Dies ist ein schwieriges Prob lem bei sprecherabhängigen Spracherkennungssystemen mit einem kleinen Vokabular aufgrund der dynamischen Größe und der unbe kannten Zusammensetzung des Vokabulars. Diese Algorithmen wer den in verrauschten Verhältnissen schlechter, so dass die An zahl der falschen Zurückweisungen unter verrauschten Verhält nissen zunimmt.

In der Praxis müssen Vokabularabgrenzungsalgorithmen bei der Leistung die Balance zwischen korrekten Zurückweisungen un gültiger Äußerungen und falschen Zurückweisungen gültiger Äuße rungen finden. Die Rate falscher Zurückweisungen kann eine kri tische Rolle bei dem Grad der Zufriedenheit der Kunden spielen, ebenso wie häufige falsche Zurückweisungen oder fehlerhafte Ü bereinstimmungen zu Frustrationen führen. Damit ist die Zurück weisung aufgrund des Vokabularabgrenzungsalgorithmus eine Ba lance in Bezug auf die Erfüllung der Erwartungen der Anwender an die Erkennung.

Dementsprechend wird bekanntermaßen ein Zurückweisungs schwellenwert auf der Grundlage des Rauschpegels berechnet. Beispielsweise ist es bekannt, den Rauschpegel zu messen, bevor der erste Sprachrahmen erkannt wird. Ein Schwellenwert wird aus der Messung berechnet. Ein Eingangswert wird zurückgewiesen, wenn die Differenz zwischen dem Wortreferenzmuster und dem Ein gangssprachmuster größer als der Zurückweisungsschwellenwert ist. Solch ein System ist daher abhängig von dem zufälligen Rauscheingangspegel. Solche Messungen sind nicht zuverlässig genug, um darauf basierend eine wirkliche Zurückweisungsent scheidung zu fällen.

Dementsprechend besteht ein Bedarf an einem verbesserten Verfahren zum Bereitstellen einer Basis für das Zurückweisen von Äußerungen in einem Spracherkennungssystem.

Fig. 1 zeigt ein schematisches Schaltbild als Blockdiagramm zur Darstellung einer drahtlosen Kommunikationseinrichtung.

Fig. 2 zeigt ein schematisches Schaltbild als Blockdiagramm zur Darstellung eines Spracherkennungssystems in der Einrich tung nach Fig. 1.

Fig. 3 zeigt ein Grammatiknetz mit zwei Knoten.

Fig. 4 ist ein Flussdiagramm des Trainingsvorgangs.

Fig. 5 zeigt ein Fenster und entsprechende Rahmen.

Fig. 6 ist ein grobes Flussdiagramm der Erkennungsvorgangs.

Fig. 7 ist ein Flussdiagramm des Trainingsvorgangs während der Erkennung.

Fig. 8 zeigt eine Straffunktion.

Die vorliegende Erfindung hat eine variable Genauigkeits vorgabe für die Zurückweisung, die von den Hintergrundrauschpe geln während des Trainings und der Erkennung abhängt. Beim Training werden Rauschmerkmale durch Trainingsäußerungen er zeugt. Eine Zunahme des Referenzrauschmittelwertes wird auf grund der Rauschmerkmale aktualisiert. Die Statistiken werden in einem Speicher abgelegt, um sie dem Erkennungsalgorithmus zur Verfügung zu stellen. Rauschstatistiken werden im Training im freihändigen Modus nicht aktualisiert, da das Hintergrund rauschen dann größer ist. Wenn keine Rauschstatistik vorliegt, geht der Erkennungsalgorithmus als Default-Einstellung zu der geringsten Genauigkeitsvorgabe über.

Bei der Erkennung wird das Eingangsrauschenergiemerkmal mit den Referenzrauschstatistiken verglichen, und es wird ein Rauschverhältnis berechnet. Die Genauigkeitsvorgabe des Vokabu larabgrenzungsalgorithmus wird dann auf der Grundlage des Rauschverhältnisses eingestellt. Durch die vorliegende Erfin dung wird es möglich, falschen Zurückweisungen gültiger Äuße rungen bei Rauschen vorzubeugen.

Der Genauigkeitsvorgabeparameter ist eine Worteintritts strafe in dem zweistufigen Algorithmus der Anpassungserken nungssuche. Das Vertrauensmaß des besten Pfades wird als ein Einzelzustandsaussonderungsmodell mit Nullmittelwert parallel zu den Sprachidentifizierungsmodellen implementiert.

In Fig. 1 ist eine Vorrichtung 100 dargestellt, bei der die Erfindung vorteilhaft eingesetzt werden kann. Die Vorrichtung 100 wird hier zur Erläuterung als tragbares Mobiltelefon be schrieben, aber es könnte sich dabei ebensogut um einen Compu ter, einen digitalen Assistenten oder eine andere Vorrichtung handeln, bei der Spracherkennung vorteilhaft eingesetzt werden kann, und insbesondere kann es sich dabei um eine Vorrichtung handeln, bei der ein speichereffizientes Spracherkennungssystem von Vorteil ist. Das dargestellte Mobiltelefon umfasst einen Sender 102 und einen Empfänger 104, verbunden mit einer Antenne 106. Der Sender 102 und der Empfänger 104 sind mit einem Ruf prozessor 108 verbunden, der die Rufverarbeitungsfunktionen ausführt. Der Rufprozessor 108 kann unter Verwendung eines di gitalen Signalprozessors (DSP), eines Mikroprozessors, eines Mikrocontrollers, einer programmierbaren Logikeinheit, einer Kombination aus zwei oder mehr der genannten Einheiten oder ir gendeiner anderen digitalen Schaltung implementiert werden.

Der Rufprozessor 108 ist mit einem Speicher 110 verbunden. Der Speicher 110 enthält RAM-Speicher, elektronisch lösch- und programmierbare Festwertspeicher (EEPROM), flash-ROM oder der gleichen bzw. eine Kombination aus zwei oder mehreren der ge nannten Speichertypen. Der Speicher 110 unterstützt den Betrieb des Rufprozessors 108, einschließlich der Spracherkennung, und muss einen elektronisch veränderbaren Speicher umfassen, um den Zustandsübergangspfadspeicher zu unterstützen. Der ROM kann da für ausgelegt sein, das Betriebssystem der Vorrichtung aufzu nehmen.

Ein Audioschaltkreis 112 stellt dem Rufprozessor 108 digi talisierte Signale von einem Mikrophon 114 zur Verfügung. Der Audioschaltkreis 112 treibt Lautsprecher 116 in Abhängigkeit von digitalen Signalen von dem Rufprozessor 108.

Der Rufprozessor 108 ist mit einem Anzeigeprozessor 120 verbunden. Der Anzeigeprozessor ist optional, wenn zusätzliche Prozessorunterstützung für die Vorrichtung 100 gewünscht wird. Insbesondere versorgt der Anzeigeprozessor 120 die Anzeige 126 mit Anzeigesteuerungssignalen und empfängt Eingangssignale von den Tasten 124. Der Anzeigeprozessor 120 kann unter Verwendung eines Mikroprozessors, eines Mikrocontrollers, eines digitalen Signalprozessors, einer programmierbaren Logikeinheit, einer Kombination der genannten Einheiten oder dergleichen implemen tiert sein. Ein Speicher 122 ist mit dem Anzeigeprozessor ver bunden, um die digitale Logik darin zu unterstützen. Der Spei cher 122 kann unter Verwendung eines RAM, eines EEPROM, eines ROM, eines flash-ROM oder dergleichen sowie einer Kombination von zwei oder mehreren dieser Speicherarten implementiert sein.

Wie in Fig. 2 gezeigt werden die Audiosignale, die durch das Mikrophon 114 aufgenommen werden, in einem Digital-Analog- Wandler 202 des Audioschaltkreises 112 in digitale Signale ge wandelt. Der Fachmann erkennt, dass der Audioschaltkreis 112 zusätzliche Signalverarbeitung wie Filtern durchführt, das der Kürze halber hier nicht beschrieben wird. Der Rufprozessor 108 führt eine Merkmalsextraktion 204 bei der verarbeiteten digita len Signaldarstellung des analogen Signals von dem Mikrophon 114 durch und erzeugt einen Satz von Merkmalsvektoren, die die Äußerung des Anwenders wiedergeben. Ein Merkmalsvektor wird für jedes Kurzzeitanalysefenster erzeugt. Das Kurzzeitanalysefens ter ist bei dem hier dargestellten Beispiel ein Rahmen mit ei ner Länge von 20 ms. Damit gibt es einen Merkmalsvektor pro Rahmen. Der Prozessor 108 verwendet die Merkmale für die Spracherkennung 206 oder das Training 207.

Beim Training werden die Merkmalsvektoren der Äußerung ver wendet, um Vorlagen in der Form von HMMen zu erzeugen, die in einem Speicher 208 abgelegt werden. Bei der Spracherkennung werden die Merkmalsvektoren, die die eingegebene Äußerung dar stellen, mit Vorlagen der im Speicher 208 abgespeicherten Worte des Vokabulars verglichen, um festzustellen, was der Anwender gesagt hat. Das System kann die beste Übereinstimmung, einen Satz von besten Übereinstimmungen oder, optional, keine Über einstimmung ausgeben. Der Speicher 208 ist vorzugsweise ein nicht-flüchtiger Speicherabschnitt des Speichers 110 (Fig. 1) und kann z. B. ein EEPROM oder ein flash-ROM sein. Hierbei sind mit "Wort" mehrere Worte gemeint, so wie "John Doe", oder ein Wort, wie "call".

Im allgemeinen führt der Merkmalsextraktor 204 die Signal verarbeitung bei einem Rahmen der eingegebenen Sprache durch und gibt Merkmalsvektoren aus, die jeden Rahmen mit der Rate der Rahmen darstellen. Die Rate der Rahmen liegt im allgemeinen zwischen 10 und 30 ms und kann z. B. eine Dauer von 20 ms haben. Die Trainingsvorrichtung 207 verwendet die Merkmale, die aus der abgetasteten Sprache einer oder mehrerer Äußerungen eines Wortes oder eines Satzes extrahiert wurden, um Parameter für ein Modell für das Wort oder den Satz zu finden. Dieses Modell wird dann in einem nicht-flüchtigen Modellablagespeicher 208 gespeichert. Die Modellgröße hängt direkt von der Länge des Merkmalsvektors ab, so dass der benötigte Speicher um so größer wird, je länger der Merkmalsvektor ist.

Die in dem Speicher 208 abgelegten Modelle werden dann wäh rend der Erkennung 206 verwendet. Das Erkennungssystem führt einen Vergleich der Merkmale einer unbekannten Äußerung mit ab gespeicherten Modellparametern durch, um die beste Übereinstim mung herauszufinden. Das Modell mit der besten Übereinstimmung wird dann von dem Erkennungssystem als Ergebnis ausgegeben.

In Fig. 3 ist ein Grammatiknetz gezeigt, das die Spracher kennung darstellt. Die Knoten N₁ und N₂ sind durch HMMe verbun den, die durch Bögen A₁ bis A_N dargestellt sind, und außerdem durch einen Aussonderungsmodellbogen A_GM. Die Bögen A₁ bis A_N stellen alle die individuellen HMMe dar, die in den Spracher kennungssystemen trainiert und in dem Speicher 208 gespeichert wurden. Der Aussonderungsmodellbogen stellt eine Modellreferenz einer Einzelzustandsaussonderung dar.

Der Knoten N₁ beinhaltet ein Einzelzustandsrauschmodell A₁ ^Rauschen. Das Erkennungssystem verwendet einen Erkennungsalgo rithmus für die Auswahl eines der Bögen A₁ bis A_N und A_GM als beste Übereinstimmung, oder es identifiziert keine Übereinstim mung (d. h. wenn keine Sprache erfasst wird). Wenn A_GM der beste Bogen ist, wird die Eingabe als ungültig verworfen.

Der Trainingsprozess wird mit Bezug auf Fig. 4 beschrieben. Anfänglich wird ein Haupttraining durchgeführt, um jede Äuße rung oder Zustandsmodell A₁ bis A_N abzuleiten und in dem Spei cher 208 abzuspeichern, wie dies in Schritt 402 angedeutet ist. Eine Anzahl von unterschiedlichen Verfahren sind für das Erzeu gen der HMMe bekannt. In Fig. 4 verläuft jeder Bogen von links nach rechts, HMMe ohne Zustand werden übersprungen, so dass nur Selbstschleifen und Einzelschrittübergänge zugelassen sind. Im folgenden wird die Ableitung eines solchen Modells kurz be schrieben. Der Fachmann erkennt, dass die Bögen von anderen be kannten Modellen stammen können und mit anderen bekannten Ver fahren erzeugt werden können.

Am Anfang werden die Merkmale in dem Merkmalsextraktor 204 extrahiert. Dabei soll der Merkmalsextraktor Cepstrum- und Del ta-Cepstrum-Koeffizienten für jeden Rahmen einer Äußerung er zeugen. Der Fachmann erkennt, dass es viele Arten der Berech nung von Cepstrum-Merkmalen und der Abschätzung ihrer Ableitun gen gibt und dass irgendeine geeignete Technik zum Ableiten dieser Koeffizienten eingesetzt werden kann. Die Rahmen F₁ bis F_N (Fig. 5) werden während des Fensters erzeugt, wobei jeder Rahmen Merkmale enthält. Einige der Rahmen enthalten Rauschen, aus dem von dem Merkmalsextraktor Rauschenergiemerkmale erzeugt werden. Andere Rahmen stellen einen Abschnitt des Sprachsignals dar.

In Fig. 4 berechnet der Prozessor 108 in Schritt 604 beim Training 207 ein Rauschmerkmal für jedes Bogenmodell, wie es in Schritt 604 gezeigt ist. Die Messung des Rauschens erfolgt über die Merkmalsvektoren, die beim Anfang und Ende des Aufnahme fensters erzeugt werden. Insbesondere ist es wünschenswert, das Mittel der Merkmalsvektoren zu verwenden, die in einer Anfangs periode und einer Endperiode der Äußerung gemessen werden. Zum Beispiel können die ersten 160 ms von Savge und die letzten 160 ms von Eavge des Aufnahmefensters verwendet werden. Das Aufnah mefenster ist in Fig. 5 dargestellt und umfasst die Anfangspe riode und die Endperiode, während der Rauschmerkmalsvektoren gespeichert werden. Das Aufnahmefenster kann z. B. 2 Sekunden lang sein, was der maximalen Länge eines Wortes entspricht. Dieses Aufnahmefenster kann eine feste oder eine variable Länge haben, abhängig von der erwarteten Länge der eingegebenen Äuße rungen und den Beschränkungen in Bezug auf Speicherplatz.

Der Prozessor 108 bestimmt in Schritt 404, nachdem das Rauschmerkmal in Schritt 404 abgeleitet wurde, ob die Vorrich tung im freihändigen Modus betrieben wird. Die Vorrichtung kann ein Zustands-Flag aufweisen, das anzeigt, dass sich die Vor richtung im Freihandmodus befindet, welches von dem Anwender über ein Tastenfeldmenü aktiviert wird, oder sie kann eine me chanische Verbindung aufweisen, die einen Schalter betätigt, wenn die Vorrichtung 100 mit einer Freisprecheinrichtung ver bunden wird.

Wenn die Vorrichtung sich nicht im Freihandmodus befindet, berechnet der Prozessor beim Training (was unabhängig für jede Äußerung erfolgt) ein Rauschmerkmal Xnz, was dem Minimum von Savge und Eavge (d. h. min (Savg, Eavg)) entspricht, wie in Schritt 410 gezeigt ist. Für jeden Rahmen eines eingegebenen Sprachsegments kann ein Energiewert aus dessen Abtastwerten be rechnet werden. Savge und Eavge sind Mittelwerte dieser Ener giewerte aus den angezeigten Rahmen. Das Minimum wird für jede der Trainingsäußerungen verwendet, um einen laufenden Rausch mittelwert zu aktualisieren. Dieser Rauschmittelwert wird ite rativ nach der folgenden Gleichung aktualisiert:

X_ref(k) = ((k - 2) . X_ref(k - 2) + (Xnz1 + Xnz2))/k

wobei X_ref(k) der Referenzwert für das k-te Rauschmerkmal ist, Xnz1 das Rauschmerkmal anzeigt, das aus dem Minimum von Savge und Eavge der ersten Trainingsäußerung abgeleitet wurde, und Xnz2 das Rauschmerkmal anzeigt, das aus dem Minimum von Savge und Eavge der zweiten Trainingsäußerung abgeleitet wurde.

Der aktualisierte Rauschmittelwert und die Anzahl der Trai ningsäußerungen für die Aktualisierung des Rauschmittelwertes werden in dem Speicher 110 abgelegt, wie dies in Schritt 412 gezeigt ist.

In Schritt 406 wurde festgestellt, dass die Vorrichtung in dem freihändigen Modus betrieben wurde. Ein Freihand-Flag HF wird wie in Schritt 408 dargestellt gesetzt. Das HF-Flag wird gesetzt, so dass Freihandwortmodelle verwendet werden anstatt das Rauschmodell zu aktualisieren, wenn das Training im Frei handmodus abläuft.

Es wird angenommen, dass die Trainingsumgebung relativ ru hig ist. Dies kann durch eine Signalqualitätsüberprüfung ver bessert werden, wobei es erforderlich ist, dass alle Trainings äußerungen ein Signalrauschverhältnis von wenigstens 18 dB ha ben. Es können auch Überprüfungen vorgesehen werden, um sicher zustellen, dass der Anwender nicht während der Savge- und Eavge-Messzeit spricht.

Der allgemeine Vorgang der Erkennung durch den Prozessor 108 wird allgemein mit Bezug auf Fig. 6 beschrieben. Am Anfang wird das Rauschmerkmal für die Testäußerung berechnet, welche die eingegebene Äußerung ist, die das System zu erkennen ver sucht, wie es in Schritt 602 angedeutet ist. Bei dem Erken nungsmodus wird eine Hintergrundrauschmessung während derselben anfänglichen 160 ms von Savge und 160 ms am Ende von Eavge des Aufnahmefensters vorgenommen. Die Rauschmessung während der Er kennung ist Xrecog und ist gleich dem Mittelwert von Savge und Eavge. Dieser Wert wird mit dem Referenzrauschwert verglichen, der in dem Trainingsmodus berechnet wurde. Ein Vergleich wird durchgeführt, um das Verhältnis zwischen der Erkennungshinter grundrauschabschätzung und der Trainingshintergrundrauschab schätzung zu bestimmen. Der Fachmann erkennt, dass andere rela tive Vergleiche dieser Werte durchgeführt werden können.

Der Prozessor 108 berechnet als nächstes die Wortstrafe in Schritt 606. Das Verhältnis wird verwendet, um eine Wortein trittsstrafe zu berechnen. Die Worteintrittsstrafe steuert die Genauigkeitsvorgabe der Zurückweisung wegen Vokabularabgren zung. Allgemein ist bei höherem Rauschen in der Umgebung der Genauigkeitsvorgabewert niedriger. Die Worteintrittsstrafe wird berechnet unter Verwendung einer Vergleichstabelle, wobei das Rauschindexverhältnis die Adresse für die Speichertabelle dar stellt und die Strafe der Ausgangswert ist. Eine vorteilhafte Verteilung von zehn Strafen, wie sie in Fig. 8 gezeigt ist, kann verwendet werden, wobei wesentlich verrauschtere Umgebun gen bei dem Erkennungsmodus (Verhältnisse 6-9) eine wesent lich kleinere Strafe als Verhältnisse haben, die Erkennungsmo den darstellen, die näher an der Trainingsmodusrauschreferenz (Verhältnisse 0-4) liegen. Beispielsweise kann die Kurve wie folgt dargestellt werden:

x = Xref(k)/Xrecog

f(x) = 1/(1 + 2^1,5(x-5)).

Als Default werden Verhältnisse außerhalb des Bereiches auf die minimale Worteintrittsstrafe gesetzt, die Null ist. Die tatsächlich angewendete Strafe kann zum Beispiel -220 . f(x) betragen, obgleich der tatsächliche Skalar irgendeinen Wert an nehmen kann, der dazu führt, dass einer Strafe einen gewünsch ten Anteil an den Wertungen hat, mit denen er zusammenhängt. Die Verwendung einer nicht-linearen Beziehung bewirkt eine sig nifikante Verbesserung der Erkennung innerhalb und außerhalb des Vokabulars, indem eine große Strafe verhängt wird, wenn Rauschbedingungen gut sind, und eine kleine Strafe verhängt wird, wenn die Rauschbedingungen schlecht sind. Der Fachmann erkennt, dass die Berechnung der Worteintrittsstrafe direkt er folgen kann, anstatt über die Verwendung einer Vergleichstabel le.

Die Erkennung wird mit der Hauptsuche und parallelen Aus sonderungsmodellen fortgesetzt, wie es in Schritt 608 gezeigt ist. Das Ziel des Erkennungssystems ist es, den wahrschein lichsten Pfad vom Knoten N₁ und N₂ in Fig. 3 zu finden. Die Knoten N₁ und N₂ sind durch Pfade A₁ bis A_N verbunden, die die verborgenen Markow-Modelle für das Vokabular mit N Worten dar stellen, optional mit einem Aussonderungsmodell ACM. Zusätzlich stellen A₁ ^Rauschen und A₂ ^Rauschen die Rauschmodelle dar und sind mit den Knoten N₁ und N₂ verbunden. Das Aussonderungsmodell ver sucht alle Geräusche, die nicht aus dem Vokabular stammen, oder Worte in der eingegebenen Äußerung zu fangen. Es ist ein null wertiges Einzelzustandsmodell, das nur von dem Vokabularabgren zungsalgorithmus zur Zurückweisung verwendet wird. Um es daran zu hindern, das Rauschen besser als das Rauschmodell zu model lieren, wird eine Strafe gegen Wahrscheinlichkeitswertungen des Aussonderungsmodells verhängt, die als Rauschen eingestuft wer den.

Die Suche durch das Grammatiknetz, dargestellt in Fig. 3, wird durch einen zweistufigen Anpassungsalgorithmus wie dem Vi terbi-Algorithmus durchgeführt. Auf der niedrigsten Stufe die ser Suche wird die beste Anpassung und Pfadwertung zwischen den Rahmen der eingegebenen Äußerung und den Zuständen eines gege benen Bogens gefunden. Ein Beispiel für die Techniken, um Rah men einer Äußerung auf Zustände eines individuellen Modells an zuwenden, ist in der ebenfalls anhängigen Patentanmeldung mit dem internen Zeichen CS10103, "Method of traceback matrix sto rage in speech recognition system", von den Erfindern Jeffrey Arthur Meunier et al. gegeben, die am selben Tag eingereicht wurde wie diese Anmeldung, sowie in der ebenfalls anhängigen Patentanmeldung von dem Erfinder Daniel Poppert mit demselben Anmeldetag wie bei dieser und mit dem internen Zeichen CS10104, "Method of selectively assigning a penalty to a probability as sociated with a voice recognition system", auf deren Offenba rung hiermit Bezug genommen wird. Der Anpassungsalgorithmus der ersten Stufe erzeugt eine Wertung für den besten Pfad der ein gegebenen Äußerung durch den gegebenen HMM-Bogen.

Zusätzlich zu dem Anpassungsalgorithmus der ersten Stufe, bei dem die Wertungen für jeden Bogen, oder HMM, über kumulati ve Wahrscheinlichkeiten c_i ⁿ(m) verfolgt werden, wobei dies die kumulative Wahrscheinlichkeit des Zustandes i eines Bogens A_n beim Rahmen m ist, müssen die Knoten N₁ und N₂ außerdem ihre eigene kumulativen Wahrscheinlichkeiten verfolgen. Die knoten spezifische kumulative Wahrscheinlichkeit C_j(m) ist die kumula tive Wahrscheinlichkeit des Knoten N_j beim Rahmen m. Diese Wahrscheinlichkeit wird sehr ähnlich zu der kumulativen Wahr scheinlichkeit für jedes HMM berechnet, indem die höchste Wer tung bei dem Knoten gehalten wird. Die kumulative Wahrschein lichkeit kann wie folgt ausgedrückt werden:

C_j(m + 1) = Max_n _∈ _Aj{Cⁿ _In(m) + Po_In(d_In)},

wobei Aj die Menge der Bögen {A₁, A₂, . . ., A_n} ist, die bei dem Knoten j enden, In die Anzahl der Zustände auf dem Bogen n ist, d_In die Dauer des letzten Zustandes des Bogens n ist und Po_In(d_In) die Strafe für einen Übergang außerhalb des Zustandes bei wenigstens dem letzten Zustand des Bogens n ist. Die kumu lative Wahrscheinlichkeit ist das Maximum der Summe der letzten kumulativen Zustandswahrscheinlichkeit C_In ⁿ(m) mit der Wahr scheinlichkeit Po_In(d_In) für außerhalb des Zustandes über alle Bögen, die beim Knoten Nj enden.

Während die kumulativen Wahrscheinlichkeiten für die Knoten verfolgt werden, muss die Berechnung der kumulativen Wahr scheinlichkeit für den Anfangszustand jedes Bogens c₁ ⁿ(m) modi fiziert werden, um Übergänge von einem Knoten Nj in seinen An fangszustand zu berücksichtigen. Es gibt eine einmalige Über gangsstrafe, die dem Übergang von dem Knoten Nj in den Anfangs zustand des Bogens An zugeordnet wird, was Worteintrittsstrafe genannt wird. Dies gilt nicht für das Rauschmodell oder das Aussonderungsmodell, so dass bei Aktivierung die Wirkung wie bei einer Steuerung der Zurückweisung wegen Vokabularabgrenzung durch die Genauigkeitsvorgabe eintritt. Die kumulative Wahr scheinlichkeit kann geschrieben werden als

wobei W(n) die Worteintrittsstrafe ist, A_GM der Aussonde rungsbogen ist, A₁ ^Rauschen der Rauschbogen für den Knoten 1 ist, o_i ⁿ(f_m) die Beobachtungswahrscheinlichkeit des Merkmalsvektors fm im Zustand i des Bogens n ist und Ps₁(d₁) die Übergangsstra fe für denselben Zustand beim Zustand 1 des Bogens n ist. Diese Gleichung hält das Maximum von dem Übergang in denselben Zu stand und dem Übergang von dem ursprünglichen Knoten und ad diert die Beobachtungswahrscheinlichkeit. Die am Ende des Er kennungsprozesse erhaltene Information besteht darin, dass der Bogen überquert wurde, um zu Knoten N₂ zu gelangen. Dies er folgt durch Information über den Ausbreitungspfad zusammen mit den kumulativen Wahrscheinlichkeiten C_i ⁿ(m) und C_j ⁿ(m).

Bei gültigen Äußerungen muss der beste Pfad des Wortmodells durch den Anpassungsalgorithmus eine um einen Wert, der größer als die Worteintrittsstrafe ist, bessere Wertung erzielen als das Aussonderungsmodell, oder die gültige Äußerung wird fälsch lich zurückgewiesen. Bei ungültigen Äußerungen muss das Ausson derungsmodell größer als der Pfad durch jedes der auswählbaren Wortmodelle sein, so dass die Äußerung zurecht zurückgewiesen wird.

Der Zurückweisungsalgorithmus verwendet das gesamte Fenster von gesammelten Merkmalsvektoren, die beispielsweise einen Da tenumfang von 2 Sekunden haben. Zusätzlich verwendet er ein Sprach-Rausch-Klassifizierungsbit für jeden Rahmen, um das Ein zelzustandsrauschmodell zu aktualisieren, das in A₁ ^Rauschen und A₂ ^Rauschen nach Fig. 3 verwendet wird.

In dem Erkennungsmodus initialisert der Prozessor 108 die Erkennung durch Setzen des Rauschaktualisierungsbits auf 1 und des Rahmenzählers auf Null, wie es in Schritt 702 dargestellt ist. Der Rahmenzähler wird in Schritt 704 inkrementiert. Der Prozessor stellt dann fest, ob das Rausch-Flag in Schritt 706 gesetzt wurde. Wenn dies nicht der Fall ist, fährt der Prozes sor mit der Entscheidung in Schritt 716 fort. Wenn das Flag ge setzt ist, bestimmt der Prozessor 108, ob das Rauschmodell in Schritt 708 aktiviert werden soll. Wenn dies nicht der Fall ist, wird das Rauschaktualisierungs-Flag in Schritt 714 auf 0 gesetzt. Die Rauschmodellierung wird abgeschaltet, nachdem eine bestimmte Anzahl von Aktualisierungen durchgeführt wurden.

Wenn Rauschaktualisierung weiter durchgeführt werden soll, bestimmt der Prozessor, ob das Rauschmodell in Schritt 710 ak tualisiert werden soll. Wenn der Prozessor das Rauschmodell für den Rahmen aktualisieren soll, wird das Modell in Schritt 712 aktualisiert. Das Rauschmodell A₁ ^Rauschen und A₂ ^Rauschen werden dyna misch unter Verwendung der Sprach-Rausch-Klassifizierungsbits durch das System berechnet, die durch den Merkmalsextraktions algorithmus eingegeben werden. Die Einzelheiten der Entschei dung, ob das Rauschmodell für den momentanen Rahmen aktuali siert werden soll, erfolgt durch Betrachten der Sprachklassifi zierung durch die Merkmalsextraktionsalgorithmen. Wenn einmal eine vorgegebene Anzahl von aufeinanderfolgenden Sprachrahmen für die Äußerung betrachtet worden sind, so erfolgt keine wei tere Aktualisierung. Beispielsweise kann die Grenze bei 3 Rah men liegen. Das Rauschmodell wird bei einem speziellen Rahmen nur aktualisiert, wenn bei diesem Rahmen die Klassifizierung nach Sprache und Rauschen anzeigt, dass es sich um einen Rauschrahmen handelt.

Der Prozessor bestimmt dann in Schritt 716, ob der Rahmen zähler kleiner als ein Schwellenwert für die Anzahl der Rahmen ist. Eine Wahrscheinlichkeitsabschätzung erfolgt nicht, solange nicht eine bestimmte Anzahl von Rahmen verarbeitet worden ist. Das dient dazu, dass das Rauschmodell in gewisser Weise genau werden kann, bevor Wahrscheinlichkeiten auf der Grundlage von dem Rauschmodell berechnet werden. Wenn der Schwellenwert für die Anzahl der Rahmen noch nicht erreicht wurde, kehrt der Pro zessor zu Schritt 704 zurück, bei dem der Rahmenzähler um Eins inkrementiert wird.

Wenn der Rahmenzähler den Schwellenwert überschreitet, be rechnet der Prozessor 108 in Schritt 718 die kumulativen Wahr scheinlichkeiten für die Knoten und Bögen für den Rahmen. Die Wahrscheinlichkeitswertungen werden in Schritt 720 normali siert. Die Normalisierung kann erfolgen, indem die größte kumu lative Wahrscheinlichkeit von allen anderen kumulativen Wahr scheinlichkeiten abgezogen wird. Der kumulative Normalisie rungsfaktor wird auch verfolgt, so dass die nicht-normierte Wertung am Ende des Erkennungsprozesses zurückgegeben werden kann.

Der Prozessor bestimmt dann, ob der letzte Rahmen in Schritt 722 verarbeitet wurde. Wenn dies nicht der Fall ist, kehrt der Prozessor zu Schritt 704 zurück und inkrementiert den Rahmenzähler. Andererseits wird das Erkennungsergebnis mit der normalisierten Wertung wie in Schritt 724 angedeutet ausgege ben.

Das Rauschmodell ist eine Einzelzustandsmodell. Der Vektor mittelwert dieses Zustandes ist µ₁ ^Rauschen(m), also eine Funktion von m, da die Berechnung dynamisch erfolgt und eine Aktualisie rung mit einem neuen Merkmalsvektor f_m+i beim Rahmen m + 1 auf folgende Art durchgeführt wird:

µ₁ ^Rauschen(m) = ((M_Rauschen(m) . µ₁) + f_m+1)/(M_Rauschen(m) + 1),

wobei M_Rauschen(m) die Anzahl der Rauschrahmen ist, die bei der Berechnung von µ₁ ^Rauschen(m) verwendet wurden, die sich von dem Wert m unterscheiden kann, da nicht alle Rahmen bei der Rausch aktualisierung verwendet werden. Zusätzlich wird die Aktuali sierungsgleichung nur für Cepstrum-Elemente des Rauschmodells verwendet. Die Delta-Cepstrum- und die Delta-Energie werden auf Null fixiert.

Dementsprechend erkennt man, dass ein verbessertes System vorliegt, das eine variable Genauigkeitsvorgabe für die Zurück weisung zeigt, die von den Hintergrundrauschpegeln beim Trai ning und bei der Erkennung abhängt. Das System trägt dazu bei, ungültige Äußerungen mit gespeicherten Sprachmodellen zu asso ziieren, und es trägt dazu bei, die genaue Erfassung von gülti gen Äußerungen zu verbessern.

Obwohl die Erfindung in obiger Beschreibung und den Zeich nungen beschrieben und erläutert wurde, stellt diese Beschrei bung lediglich ein Beispiel dar, und vielerlei Änderungen und Modifikationen sind für den Fachmann möglich, ohne dass Sinn und Umfang der Erfindung geändert werden. Obgleich die vorlie gende Erfindung insbesondere Anwendung bei tragbaren schnurlo sen Vorrichtungen wie zellularen Mobiltelefonen findet, kann die Erfindung auch bei irgendeiner Vorrichtung eingesetzt wer den, bei der Spracherkennung eine Rolle spielt, einschließlich Funkrufgeräten, elektronischen Kalendern, Computern und Tele foneinrichtungen. Der Umfang der Erfindung wird nur durch die nachfolgenden Ansprüche bestimmt.

Claims

1. Verfahren zum Betreben eines Spracherkennungssystems (204, 206, 207, 208), gekennzeichnet durch die Schritte:
Erzeugen einer variablen Genauigkeitsvorgabe für die Zu rückweisung, die von wenigstens einem Hintergrundrauschpegel, der während des Trainings gemessen wird, und von Rauschsignalen abhängt, die während einer eingegebenen Äußerung im Verlauf der Erkennungsphase gemessen wurden, und
Ableiten einer Worteintrittsstrafe in Abhängigkeit von der variablen Genauigkeitsvorgabe für die Zurückweisung.

2. Verfahren nach Anspruch 1, bei dem der Schritt des Erzeugens einer variablen Genauig keitsvorgabe für die Zurückweisung den Schritt des Messens von Rauschen während wenigstens eines Abschnitts der Trainingsäuße rung für in Modell umfasst.

3. Verfahren nach Anspruch 1, das außerdem einen Schritt des selektiven Aktualisierens (404, 406, 410) der Rauschmerkma le aus den Trainingsäußerungen umfasst.

4. Verfahren nach Anspruch 1, das außerdem den Schritt des Abspeicherns (412) von Rauschstatistiken beim Trainieren mit einem Modell umfasst, so dass sie dem Erkennungsalgorithmus zur Verfügung stehen.

5. Verfahren nach Anspruch 3, bei dem die Rauschstatistiken nicht aktualisiert werden, wenn das Trainieren in einem Frei handmodus erfolgt (408).

6. Verfahren nach Anspruch 3, das außerdem den Schritt des Erzeugens eine Signal-Rausch-Verhältnisses umfasst und bei dem das Training unterbunden wird, wenn das Signal-Rausch- Verhältnis unter einem vorgegebenen Pegel liegt.

7. Verfahren nach Anspruch 1, bei dem während der Erkennung der Erkennungsalgorithmus als Default-Einstellung eine minimale Genauigkeitsvorgabeanforderung einnimmt, wenn der Anpassungsal gorithmus auf die Äußerung angewendet wird, falls Rauschstatis tiken für die Äußerung nicht verfügbar sind.

8. Verfahren nach Anspruch 1, bei dem während der Erkennung das Eingangsrauschenergiemerkmal mit den Referenzrauschstatis tiken verglichen wird und ein Rauschverhältnis berechnet wird.

9. Verfahren nach Anspruch 8, bei dem die Genauigkeitsvor gabe für den Zurückweisungsalgorithmus wegen Vokabularabgren zung dann auf der Grundlage des Rauschverhältnisses ausgewählt wird.

10. Verfahren nach Anspruch 1, bei dem die Vertrauensmes sung des besten Pfades unter Verwendung eines Einzelzu standsaussonderungsmodells mit Nullmittelwert parallel zu den Sprachidentifizierungsmodellen.