DE69726526T2

DE69726526T2 - Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert

Info

Publication number: DE69726526T2
Application number: DE69726526T
Authority: DE
Inventors: Yoshikazu Yokosuka-shi Yamaguchi; Shigeki Hoya-shi Sagayama; Jun-ichi Sagamihara-shi Takahashi; Satoshi Yokosuka-shi Takahashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-20
Filing date: 1997-09-16
Publication date: 2004-10-14
Anticipated expiration: 2017-09-17
Also published as: EP0831461B1; DE69726526D1; EP0831461A2; EP0831461A3; US6026359A

Description

HINTERGRUND DER ERFINDUNG
GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft die Mustererkennung, die das Hidden-Markov-Modell zum Ausdrücken von Erkennungszielen wie etwa Sprache, ein Zeichen, eine Zeichnung etc. verwendet, und insbesondere ein Schema zur Modellanpassung, das auf ein Korrigieren einer Fehlanpassung eines Modells aufgrund eines Unterschieds zwischen einem Zustand zu einer Zeit einer Modellerzeugung und einen Zustand zu einer Zeit einer Modellverwendung in der Form einer Erkennungsausführung abzielt, und dadurch das Erkennungs-Betriebsverhalten verbessert. Es sei darauf hingewiesen, dass die vorliegende Erfindung allgemein auf eine unterschiedliche Mustererkennung anwendbar ist, die das Hidden-Markov-Modell (HMM) verwendet, aber die folgende Beschreibung wird für einen beispielhaften Fall einer Spracherkennung zur Verdeutlichung gegeben werden.
BESCHREIBUNG DES STANDES DER TECHNIK
In der Spracherkennung werden Eingangssprachdaten mit dem akustischen Modell (phonemisches Modell, syllabisches Modell, Wortmodell, etc.), das von Trainingssprachdaten erhalten wird, angepasst, und die Wahrscheinlichkeit wird bestimmt, um so das Erkennungsergebnis zu erhalten. Hier hängt ein Parameter des Modells in hohem Maße von Bedingungen (Hintergrundrauschen, Kanalstörung, Lautsprecher, Vokaltraktlänge, etc.) ab, unter welchen die Trainingsdaten aufgezeichnet werden. Folglich tritt, wenn die Sprachaufzeichnungsbedingung unterschiedlich von der Bedingung zu einer Zeit einer tatsächlichen Erkennung ist, eine Fehlanpassung zwischen dem Eingangssprachmuster und dem Modell auf, was wiederum ein Absenken der Erkennungsrate herbeiführt.
Ein derartiges Absenken der Erkennungsrate aufgrund einer Fehlanpassung zwischen den Eingangssprachdaten und dem akustischen Modell kann durch ein Wiedererzeugen des Modells unter Verwendung der Sprachdaten, verhindert werden, die unter der gleichen Bedingung aufgezeichnet sind wie jener zu einer Zeit einer tatsächlichen Erkennung. Jedoch erfordert das Modell, dass auf dem statistischen Verfahren wie etwa dem HMM beruht, eine gewaltige Menge an Trainingssprachdaten, so dass die Verarbeitung eine beträchtliche Zeit erfordert (etwa 100 Stunden beispielsweise). Aus diesem Grund besteht ein Bedarf nach einer Anpassungstechnik, die ein Fehlanpassungsmodell an ein Modell anpassen kann, dass die Bedingung zu einer Zeit einer tatsächlichen Erkennung vollständig anpasst, indem eine geringere Menge von Trainingsdaten und weniger Verarbeitungszeit verwendet wird.
Als ein Beispiel einer Zustandsänderung ist eine Änderung des Hintergrundrauschens zu der Zeit einer Äußerung vorhanden. Die Erkennungsrate wird abgesenkt, wenn das Hintergrundrauschen zu der Zeit eines Aufzeichnens von Modelltrainingssprachdaten unterschiedlich von dem Hintergrundrauschen zu einer Zeit einer tatsächlichen Erkennung ist.
Die üblicherweise bekannten Techniken zur Anpassung des Modells bezüglich des Hintergrundrauschens schließen die HMM-Zusammensetzungsschemata wie etwa PMC (siehe beispielsweise M. J. F. Gales et al.: "An Improved Approach zu the Hidden Markov Model Decomposition of Speech and noise", Proc. of ICASSP92, Seiten 233–236, 1992) und NOVO (siehe beispielsweise F. Martin et al.: "Recognition of Noisy Speech by using the Composition of Hidden Markov Models", Proc. Of Acoustic Society of Japan, Herbst 1992, Seiten 65–66). Das HMM-Zusammensetzungsschema ist eine Anpassungstechnik, in welcher das HMM, das unter Verwendung reiner Sprache ohne Rauschen trainiert ist, die in einem schalldichten Raum aufgezeichnet wurde (die als ein Reinsprach-HMM nachstehend bezeichnet werden wird) mit dem HMM, das unter Verwendung von Nur-Hintergrundrauschen zu der Zeit einer Erkennung (was nachstehend als ein Rausch-HMM bezeichnet werden wird) kombiniert wird, um so das HMM zu erhalten, das sich an die Eingangssprache anpassen kann, indem es das Hintergrundrauschen zu einer Zeit einer Erkennung darauf überlagert aufweist. Die Verwendung des HMM-Zusammensetzungsschemas erfordert nur das Trainieren des Rausch-HMMs und die Verarbeitungszeit für die Modellzusammensetzung, so dass es möglich ist, das Modell mit relativ geringer Zeit verglichen mit einem Fall eines erneuten Erzeugens des Modells unter Verwendung einer gewaltigen Menge von Sprachdaten anzupassen.
Jedoch geht die herkömmliche Spracherkennung mit dem Ableben einher, dass es schwierig ist, das Modell in Echtzeit gemäß einem sich kontinuierlich ändernden Zustand anzupassen, weil eine ziemlich lange Rauschaufzeichnungszeit (beispielsweise 15 Sekunden) für die Zwecke eines Erhaltens der Trainingsdaten für das Rausch-HMM erforderlich ist, und eine ziemlich lange Verarbeitungszeit (ungefähr 10 Sekunden) als die Verarbeitungszeit für die Modellzusammensetzung erforderlich ist.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist deswegen eine Aufgabe der vorliegenden Erfindung, gemäß der angehängten Ansprüche, ein Schema für eine Modellanpassung in der Mustererkennung bereitzustellen, das in der Lage ist, eine schnelle, Echtzeit-Modellanpassung zu verwirklichen und das Erkennungs-Betriebsverhalten zu verbessern, indem Daten verwendet werden, die den Zustand ausdrücken, der nach einer Zustandsänderung beobachtet wird, während ein Anfangsmodell als ein Referenzmodell verwendet wird, um so das Anfangsmodell vor der Zustandsänderung an ein Modell anzupassen, das mit dem Umgebungszustand nach der Zustandsänderung übereinstimmt.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung offensichtlich werden, die in Verbindung mit den zugehörigen Zeichnungen genommen wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen zeigen:
1 ein Diagramm zum Erklären einer Approximation durch die Taylor-Reihe zwischen kleinen Änderungen von Vektoren, die in zwei Domänen in einer nichtlinearen Beziehung enthalten sind, die in dem Modellanpassungsschema der vorliegenden Erfindung verwendet wird;
2 ein Diagramm zum Erklären eines nicht-linearen Transformationsprozesses von einem Rausch-Cepstrum in ein Sprach-Cepstrum gemäß dem Modellanpassungsschema der vorliegenden Erfindung;
3 ein Blockdiagramm einer Modellanpassungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung;
4 ein Flussdiagramm für den Betrieb der Modellanpassungsvorrichtung der 3;
5 ein Blockdiagramm einer Modellanpassungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung;
6 ein Flussdiagramm für den Betrieb der Modellanpassungsvorrichtung der 5;
7 ein Flussdiagramm für die Verarbeitungsprozedur gemäß dem herkömmlichen Modellanpassungsschema, das als NOVO bezeichnet wird; und
8 einen Graphen, der Worterkennungsraten-Ergebnisse zeigt, die durch Experimente mit der akustischen Modellanpassung unter Verwendung des Modellanpassungsschemas der vorliegenden Erfindung und der herkömmlichen Schemata erhalten worden sind.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Unter Bezugnahme nun auf 1 bis 8 werden verschiedene Ausführungsformen eines Schemas für eine Modellanpassung in der Mustererkennung gemäß der vorliegenden Erfindung beschrieben werden.
Das Modellanpassungsschema der vorliegenden Erfindung ist allgemein anwendbar auf einen Typ einer Mustererkennungsverarbeitung, in welcher eine Wahrscheinlichkeit eines Eingangsvektors bezüglich jedes Probabilistik-Modells, das Merkmale jeder Erkennungskategorie ausdrückt, berechnet wird, und eine Kategorie, die durch das Modell mit der höchsten Wahrscheinlichkeit ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird. Das Modellanpassungsschema der vorliegenden Erfindung verhindert das Absenken der Erkennungsrate in einer derartigen Mustererkennung in einem Fall, wo ein Zustand (wie etwa beispielsweise Hintergrundrauschen) zu einer Zeit einer tatsächlichen Erkennung unterschiedlich von dem Anfangszustand zu einer Zeit eines anfänglichen Modelltrainierens ist. Kurz gesagt wird dies in dem Modellanpassungsmodell der vorliegenden Erfindung durch ein Berechnen einer Änderung der Modellparameter von einer Änderung (einem Unterschied) zwischen diesen beiden Zuständen in einer Approximation unter Verwendung der Taylor-Reihe erreicht, indem ein Parameter eines Referenzmodells entsprechend aktualisiert wird, ein Modell erzeugt wird, das mit dem Zustand zu einer Zeit einer tatsächlichen Erkennung tatsächlich übereinstimmt, und die Erkennung unter Verwendung dieses übereinstimmenden Modells ausgeführt wird.
Zuerst wird unter Bezugnahme auf 1 und 2 das grundlegende Prinzip der vorliegenden Erfindung beschrieben werden.
Es seien Vektoren x und y betrachtet, die in zwei Domänen in einer nicht-linearen Beziehung enthalten sind. y = f(x) (1)
Mit anderen Worten wird y durch eine lineare oder nichtlineare Funktion f(x) von x ausgedrückt. Nun sei eine Änderung in y entsprechend einer kleinen Änderung in x betrachtet. y + Δy = f(x + Δx) (2)
Durch ein Anwenden der Taylor-Reihe in x auf die Funktion f (x) gilt die folgende Beziehung.
Folglich gilt, indem nur der Differentialterm der ersten Ordnung in der obigen Taylor-Reihe (3) verwendet wird, die folgende Beziehung zwischen der kleinen Änderung Δx und Δy dieser Vektoren. Diese Beziehung ist auch in 1 veranschaulicht.
Unter Verwendung der Beziehung (4) kann Δy in einer Approximation durch eine Multiplikation von Δx und der Jacobi-Matrix erhalten werden, ohne dass eine Transformation von x in y erforderlich ist.
Nun ist es notwendig, einen Modellparameter zum Ausdrücken eines Erkennungsziels gemäß einer Zustandsänderung zu aktualisieren. Aus diesem Grund für eine Prozedur zum Erhalten einer Änderung in dem Modellparameter aus einer Änderung in einem Parameter, der den Zustand ausdrückt, betrachtet werden. Hier sei angenommen, dass Δy eine Änderung in dem Modellparameter ist, und Δx eine Änderung in dem Parameter ist, der den Zustand ausdrückt. Gemäß der obigen Beziehung (4) kann eine Änderung Δy in dem Modellparameter in einer Approximation durch einen kleinen Betrag einer Berechnung bei hoher Geschwindigkeit erhalten wird, indem einfach eine Änderung Δx in dem Parameter, der den Zustand ausdrückt, beobachtet wird, ohne dass eine komplizierte Berechnung für eine nicht-lineare Abbildung von x auf y erforderlich ist, ungeachtet dessen, ob eine Änderung in dem Parameter, der den Zustand ausdrückt, und eine Änderung in dem Modellparameter in einer linearen Beziehung oder in einer nicht-linearen Beziehung stehen.
Es sei darauf hingewiesen, dass angenommen wird, dass eine Änderung in dem Vektor hier sehr klein ist, so dass es ausreicht, nur den Differentialterm erster Ordnung in der obigen Taylor-Reihe (3) zu nehmen, aber es ist auch möglich, Differentialterme der zweiten und höherer Ordnungen zu nehmen, falls gewünscht.
Nun wird, indem ein Fall eines Änderns von Hintergrundrauschen in der Spracherkennung als ein Beispiel einer Zustandsänderung betrachtet wird, die Rauschanpassung zum Korrigieren einer Fehlanpassung des Modells, das durch eine Änderung zwischen dem Hintergrundrauschen zu der Zeit eines anfänglichen Modelltrainierens und dem Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung verursacht ist, beschrieben werden.
Zuerst wird eine Prozedur zum Erhalten der Jacobi-Matrix für einen beispielhaften Fall eines Verwendens des Cepstrums als ein Parameter beschrieben werden. Das akustische Modell verwendet oft den Cepstrum als seinen Merkmalsparameter.
Das Energiespektrum S_R (als ein Vektor ausgedrückt) der Sprache, welcher das Hintergrundrauschen überlagert wird (die nachstehend als die Rausch-Sprache bezeichnet werden wird) kann als eine Summe eines reinen Sprachenergiespektrums S_S und eines Hintergrundrausch-Energiespektrums S_N ausgedrückt werden. SR = SS + SN (5)
Wenn diese Beziehung in die Cepstrum-Domäne transformiert wird, weisen ein Rauschspektrum-Cepstrum C_R, ein Reinsprach-Cepstrum R_S und ein Rausch-Cepstrum C_N die folgende Beziehung auf, die in 2 veranschaulicht ist. CR = IDFT(log(exp(DFT(CS)) + exp(DFT(CN)))) (6)
wobei DFT(·), IDFT (·), log(·) und exp(·) die diskrete Fourier-Transformation, die inverse diskrete Fourier-Transformation, eine Logarithmustransformation bzw. eine exponentielle Transformation bezeichnen. Die diskrete Fourier-Transformation ist eine lineare Transformation, aber die Logarithmustransformation und die exponentielle Transformation sind nicht-lineare Transformationen, so dass das Rauschsprach-Cepstrum C_R und das Rausch-Cepstrum C_N eine nicht-lineare Beziehung aufweisen.
Wenn ein Hintergrundrauschen zu einer Zeit eines Aufzeichnens der Anfangsmodell-Trainingssprachdaten unterschiedlich von dem Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung ist, wenn das Rauschsprach-Cepstrum unter Verwendung der obigen Beziehung (6) aus dem Rausch-Cepstrum des Hintergrundrauschens, das zu der Zeit einer tatsächlichen Erkennung beobachtet wird, zu erhalten ist, wäre es notwendig, viele komplizierte Berechnungen wie etwa die diskrete Fourier-Transformation zweifach, die Logarithmustransformation einfach und die exponentielle Transformation einfach auszuführen.
Andererseits kann, wenn die Taylor-Reihe verwendet wird, eine Änderung ΔC_R in dem Rauschsprach-Cepstrum aus einer Änderung ΔC_N in dem Rausch-Cepstrum und der Jacobi-Matrix erhalten werden, so dass keine Erfordernis besteht, eine Änderung ΔC_N in dem Rausch-Cepstrum unter Verwendung der komplizierten Beziehung (6), die oben beschrieben ist, zu transformieren.
Als nächstes wird ein Verfahren zum Berechnen der Jacobi-Matrix J_N = ∂C_R/∂C_N in der obigen Gleichung (7) beschrieben werden. Die Jacobi-Matrix kann wie folgt erweitert werden.
Dann können die partiellen Differentialterme, die in der obigen Gleichung (8) enthalten sind, unter Verwendung der Beziehungen zwischen Domänen, wie sie in 4 angezeigt sind, wie folgt berechnet werden.
wobei F die Kosinus-Transformationsmatrix ist, während F^–1 die inverse Kosinus-Transformationsmatrix ist, und p der Grad (einschließlich der Energieterme) in dem Cepstrum ist, was auch der Grad des Spektrums ist.
Dann können die Elemente der Jacobi-Matrix wie folgt ausgedrückt werden.
wobei [J_N]_ij, F_ij und F_ij ^–1 Elemente einer i-ten Zeile, j– ten Spalte der Matrizen J_N, F bzw. F^–1 sind, und S_Nk und S_Rk k-te Elemente der Vektoren SN bzw. SR sind.
Mit anderen Worten kann jedes Element der Jacobi-Matrix aus dem Rausch-Spektrum S_N, dem Rausch-Sprach-Spektrum S_R und den Transformationsmatrizen F und F^–1 erhalten werden, die Konstanten sind. Das Rauschspektrum S_N und das Rauschsprach-Spektrum S_R können durch ein Transformieren des Rausch-Cepstrums C_N und des Rauschsprach-Cepstrums C_R jeweils in lineare Spektren erhalten werden. Folglich kann die Jacobi-Matrix im Voraus berechnet werden, wenn das Hintergrundrauschen zu einer Zeit eines Modelltrainierens aufgezeichnet wird.
Als nächstes wird eine Prozedur zum Aktualisieren der Anfangsrauschsprach-HMMs, bevor sich das Hintergrundrauschen in die Rauschsprach-HMMs ändert, die mit dem Hintergrundrauschen nach der Hintergrundrausch-Änderung übereinstimmen (zu einer Zeit einer tatsächlichen Erkennung) (die als angepasste Rauschsprach-HMMs nachstehend bezeichnet werden) unter Verwendung der oben beschriebenen Taylor-Reihe beschrieben werden.
Hier wird die Anpassung eines Cepstrum-Durchschnittsvektors einer Ausgangsprobabilitätsverteilung, die in jedem Zustand des HMM existiert, betrachtet werden. Gemäß der obigen Gleichung (7) kann ein Durchschnittsvektor C_R' der angepassten Rauschsprach-HMMs wie folgt berechnet werden. CR' = CR + JN(CN' – CN) (10) wobei C_R ein Durchschnittsvektor der Anfangsrauschsprach-HMMs ist, C_N ein Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des HMM ist, das aus den Hintergrundrauschdaten vor der Rauschänderung erhalten wird (das als ein Anfangsrausch-HMM nachstehend bezeichnet werden wird), und C_N' ein Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des HMM ist, das aus dem Hintergrundrauschen nach der Rauschänderung (zu einer Zeit einer tatsächlichen Erkennung) erhalten wird (das als ein Anpassungszielrausch-HMM nachstehend bezeichnet werden wird).
Hier kann C_R durch einen Durchschnittsvektor der Rauschsprach-HMMs gegeben werden, die durch die Sprachdaten trainiert werden, welchen Hintergrundrauschen vor der Rauschänderung überlagert wird. Es ist auch möglich, die Rauschsprach-HMMe, die durch die HMM-Zusammensetzung von dem Anfangsrausch-HMM und den Reinsprach-HMMn ohne jedwedes Hintergrundrauschen erhalten werden, statt dessen zu verwenden.
Um die Jacobi-Matrix J_N in der obigen Gleichung (10) zu erhalten, ist es notwendig, C_N und C_R zu haben, wie bereits oben in Bezug auf das Verfahren zum Berechnen der Jacobi-Matrix erwähnt. Diese C_N und C_R sind Parameter vor der Hintergrundrausch-Änderung, so dass sie im Voraus als eine Vorbereitung für die Rauschänderung berechnet werden können.
Gemäß der obigen Gleichung (10) kann, wenn C_N, C_R, J_N und C_N' bestimmt werden, das Rauschsprach-Cepstrum C_R', das mit dem Zustand zu einer Zeit einer tatsächlichen Erkennung übereinstimmt, unmittelbar erhalten werden.
Das Modellanpassungsschema der vorliegenden Erfindung, wie sie oben beschrieben ist, kann in eine vorbereitende Verarbeitung, die im Voraus vor der Rauschänderung (eine Zeit einer tatsächlichen Erkennung) ausgeführt werden kann, und eine Anpassungsverarbeitung geteilt werden. Die Verarbeitung zum Erhalten des Anfangsrausch-HMM, der Anfangsrauschsprach-HMMe und der Jacobi-Matrizen kann nämlich als die vorbereitende Verarbeitung verwirklicht werden. Folglich kann zu einer Zeit einer tatsächlichen Erkennung die Anpassung des akustischen Modells durch eine kleine Menge von Berechnungen zum Erhalten des Anpassungszielrausch-HMM und ein Ausführen der Matrixberechnung der obigen Gleichung (10) vervollständigt werden.
Unter Bezugnahme nun auf 3 und 4 wird die erste Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden.
3 zeigt eine Konfiguration einer Modellanpassungsvorrichtung in dieser ersten Ausführungsform, während 4 ein Flussdiagramm für den Betrieb dieser Modellanpassungsvorrichtung der 3 zeigt.
In der Modellanpassungsvorrichtung der 3 wird zuerst zu einer Zeit eines Modelltrainierens das Anfangsrausch-HMM aus dem Hintergrundrauschen erhalten, das bei einer Spracheingabeeinheit 1 eingegeben wird und bei einer Rauschextraktionseinheit 2 extrahiert wird (Schritt S1), und in einer Anfangsrausch-(HMM-)Speichereinheit 3 gespeichert. Auch ist das Anfangsrausch-HMM mit Reinsprach-HMMn, die in einer Reinsprach-HMM-Speichereinheit 4 gespeichert sind, durch die HMM-Zusammensetzung in einer HMM-Zusammensetzungseinheit 5 versehen, um so die Anfangsrauschsprach-HMMs zu berechnen (Schritt S2), und die berechneten Anfangsrauschsprach-HMMe werden in einer Anfangsrauschsprach-HMM-Speichereinheit 6 gespeichert. Dann werden die Jacobi-Matrizen aus dem Anfangsrauschsprach-HMM und den Anfangsrauschsprach-HMMe in einer Jacobi-Matrixberechnungseinheit 7 berechnet und in einer Jacobi-Matrixspeichereinheit 8 gespeichert (Schritt S3).
Als nächstes werden zu einer Zeit einer tatsächlichen Erkennung Rauschdaten in der Rauschextraktionseinheit 2 von Eingangrauschsprache (einer Erkennungszielsprache), die in die Spracheingabeeinheit 1 als das Anpassungs-Zielrausch-HMM eingegeben wird, extrahiert, und wenn eine Fehlanpassung zwischen der Eingangsrauschsprache und den Anfangsrauschsprach-HMMe vorhanden wird, wird ein Unterschied zwischen dem Anpassungs-Zielrausch-HMM und dem Anfangsrausch-HMM bei einer Differenzberechnungseinheit 9 erhalten (Schritt S4). Dann wird eine Verarbeitung zum Aktualisieren der Anfangsrauschsprach-HMMe auf der Grundlage der Taylor-Reihe unter Verwendung der erhaltenen Differenz und der Jacobi-Matrizen von einer Rauschsprach-HMM-Aktualisierungseinheit 10 ausgeführt, um so die angepassten Rauschsprach-HMMe in einer Approximation zu berechnen (Schritt S5), und die erhaltenen angepassten Rauschsprach-HMMe werden in einer Anpassungsrauschsprach-HMM-Speichereinheit 11 gespeichert. Dann wird die Erkennungsverarbeitung der Eingangsrauschsprache in einer Spracherkennungseinheit 12 unter Verwendung der ersten Rauschsprach-HMMe ausgeführt (Schritt S6), und ein erhaltenes Erkennungsergebnis wird bei einer Erkennungsergebnis-Ausgabeeinheit ausgegeben.
Es sei darauf hingewiesen, dass in dem Betrieb der 4 die vorbereitende Verarbeitung der Schritte S1, S2 und S3, das heißt die Berechnung und Speicherung des Rauschsprach-HMM, der Anfangsrauschsprach-HMMe und der Jacobi-Matrizen nur anfangs einmal auszuführen ist, auch wenn sich das Hintergrundrauschen bei jeder Gelegenheit der Erkennung ändert, und die berechneten Werte in jeweiligen Speichereinheiten für eine nachfolgende Verwendung zu speichern sind. Dann werden zu der Zeit einer tatsächlichen Erkennung die nachfolgende Anpassungsverarbeitung und Erkennungsverarbeitung der Schritte S4, S5 und S6, die diese gespeicherte Information allein benutzen, wiederholt ausgeführt.
Alternativ ist es auch möglich, die Verarbeitung der Schritte S3 bis 56 bei jeder Gelegenheit der Erkennung durch Verwendung des Anpassungszielrausch-HMM und der angepassten Rauschsprach-HMMe, die aus der unmittelbar vorangehenden Äußerung erhalten werden, als ein neues Anfangsmodell auszuführen.
Unter Bezugnahme nun auf 5 und 6 wird die zweite Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden. Diese zweite Ausführungsform ist auf einen Fall der Rauschanpassung gerichtet, die mit der spektralen Subtraktion (nachstehend als SS abgekürzt; siehe beispielsweise S. F. Boll: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. on ASSP, Bd. ASSP-27, Nr. 2, Seiten 113–120, 1979) kombiniert ist. Es sei hier darauf hingewiesen, dass die SS ein Rauschentfernungsverfahren ist, in welchem ein Durchschnittsspektrum unter Verwendung eines teilweise oder gesamten Abschnitts des aufgezeichneten Hintergrundrauschens berechnet wird, und das S/N-Verhältnis der Eingangsdaten durch ein Subtrahieren des berechneten Durchschnittsspektrums von dem Eingangsdatenspektrum verbessert wird. Diese SS erfordert einen kleinen Umfang an Berechnungen, weil sie nur die Spektrum-Durchschnittsberechnung und die Spektrumsubtraktion auf ruft.
5 zeigt eine Konfiguration einer Modellanpassungsvorrichtung dieser zweiten Ausführungsform, während 6 ein Flussdiagramm für den Betrieb dieser Modellanpassungsvorrichtung der 5 zeigt.
Diese Modellanpassungsvorrichtung der 5 unterscheidet sich von jener der 3 dahingehend, dass eine Rausch-SS-Einheit 14 und eine Rauschsprach-SS-Einheit 15 zusätzlich an den Ausgangsseiten der Rauschextraktionseinheit 2 bereitgestellt sind. Die anderen Elemente dieser Modellanpassungsvorrichtung der 5 sind im wesentlichen die gleichen wie die entsprechenden Elemente der 3, die oben beschrieben ist.
In dieser Modellanpassungsvorrichtung der 5 wird in Verbindung mit dem Schritt S1 der vorbereitenden Verarbeitung und dem Schritt S4 der Anpassungsverarbeitung die SS in der Rausch-SS-Einheit 14 unter Verwendung eines teilweisen oder gesamten Abschnitts des aufgezeichneten Hintergrundrauschens ausgeführt (das Hintergrundrauschen, das zu der Zeit eines Modelltrainierens aufgezeichnet ist, und das Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung), indem das Durchschnittsspektrum berechnet wird und dieses Durchschnittsspektrum von dem Spektrum des gesamten Abschnitts der aufgezeichneten Rauschdaten subtrahiert wird, um so Schätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens zu erhalten (S7 und S8). Dann werden das Anfangsrausch-HMM und das Anpassungszielrausch-HMM unter Verwendung der erhaltenen Überschätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens als Trainingsdaten in den Schritten S1 bzw. S4 erzeugt.
Zusätzlich wird die SS auch in der Rauschsprach-SS-Einheit 15 in Verbindung mit dem Schritt S6 der Erkennungsverarbeitung ausgeführt (Schritt S9), so dass die Spracherkennungseinheit 12 die Erkennung der Sprachdaten ausführt, die durch die Subtraktion der erhaltenen Überschätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens von der Eingangsrauschsprache erhalten werden.
Die anderen Schritte dieses Betriebs der 6 sind im wesentlichen die gleichen wie die entsprechenden Schritte der 4, die oben beschrieben ist.
Als nächstes wird die dritte Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden.
Diese dritte Ausführungsform ist auf einen Fall der Rauschanpassung gerichtet, die eine Mehrzahl von Jacobi-Matrizen verwendet, die aus einer Mehrzahl von Anfangsrauschkomponenten erhalten werden.
In der vorliegenden Erfindung hängt die Erkennungsrate, die in der Anpassung an das Anpassungszielrauschen herrührt, von einer Wahl des Anfangsrauschens ab. Beispielsweise sein ein Fall der Anpassung betrachtet, in welchem das Anpassungs-Zielrauschen ein Klimaanlagenrauschen ist. In diesem Fall ist das Klimaanlagenrauschen ein relativ stabiles Rauschen, so dass die Wirkung der Anpassung gemäß der vorliegenden Erfindung durch ein Wählen eines stabilen Rauschens wie etwa eines Rauschens verbessert werden kann, das zum großen Teil durch das Geräusch eines Gebläses eines Computers als das Anfangsrauschen dominiert wird, anstelle das ein nichtstabiles Rauschen ein Rauschen gewählt wird, das die Geräusche von vorbeifahrenden Fahrzeugen und menschlichen Stimmen an einer Straßenecke enthält.
Jedoch ist das Anpassungszielrauschen im Voraus nicht notwendiger Weise bekannt, so dass es schwierig ist, das beste Anfangsrauschen aufzubereiten, das den vollen Nutzen aus der vorliegenden Erfindung ziehen kann. Aus diesem Grund ist in dieser dritten Ausführungsform eine Mehrzahl von Anfangsrauschkomponenten unterschiedlicher Typen aufbereitet, und das beste Anfangsrauschen unter dieser Mehrzahl von Rauschkomponenten wird zu einer Zeit der Rauschanpassung gewählt, um so die Rauschanpassung konstant mit einer hohen Erkennungsrate ungeachtet eines Typs des Anpassungszielrauschens zu verwirklichen.
In dieser dritten Ausführungsform weist die Modellanpassungsvorrichtung eine Konfiguration ähnlich zu jener der 3, die oben beschrieben ist, auf, außer dass die Anfangsrausch-(HMM-)Speichereinheit 3 eine Mehrzahl von Anfangsrausch-HMMn für eine Mehrzahl von Anfangsrauschkomponenten speichert, und die Anfangsrausch-Sprach-HMM-Speichereinheit 6 eine Mehrzahl von Sätzen von Anfangsrausch-Sprach-HMMn speichert, die einer Mehrzahl von Anfangsrauschkomponenten entsprechen, während die Jacobi-Matrixspeichereinheit 8 eine Mehrzahl von Sätzen von Jacobi-Matrizen speichert, die einer Mehrzahl von Anfangsrauschkomponenten entsprechen, und die Rauschsprach-HMM-Aktualisierungseinheit 10 weist eine Funktion zum Wählen des besten Anfangsrauschens auf.
Die Auswahl des besten Anfangsrauschens kann wie folgt verwirklicht werden.
Zuerst werden eine Mehrzahl von Anfangsrauschkomponenten unterschiedlicher Typen aufbereitet, und das Anfangsrausch-HMM und die Jacobi-Matrix, die jedem Anfangsrauschen entspricht, werden berechnet und im Voraus gespeichert.
Dann wird die Ähnlichkeit des Anpassungszielrauschens, das zu einer Zeit einer tatsächlichen Erkennung beobachtet wird, und jedes gespeicherte Anfangsrauschen berechnet. Hier kann die Berechnung der Ähnlichkeit beispielsweise durch ein Verwenden des euklidischen Abstands zwischen einem Durchschnittsvektor und einer Ausgangsprobabilitätsverteilung des Anfangsrausch-HMMs und einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs verwirklicht werden. Spezifischer kann der euklidische Abstand D(i) zwischen einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anfangsrausch-HMM und einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs wie folgt berechnet werden.
wobei Cⁱ _Nk das k-te Element des Durchschnittsvektors Cⁱ _N einer n-Ausgangsprobabilitätsverteilung des i-ten Anfangsrausch-HMMs ist, und C'Nk das k-te Element des Durchschnittsvektors C'N einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs ist.
Unter Verwendung der obigen Gleichung (11) werden die euklidischen Abstände des Anpassungszielrausch-HMMs bezüglich sämtlicher Anfangsrausch-HMMe berechnet, und das Anfangsrausch-HMM im i_min,für welches der berechnete euklidische Abstand am kleinsten ist, wird wie folgt gewählt.
Dann wird die Aktualisierung der Rauschsprach-HMMe gemäß der vorliegenden Erfindung wie oben beschrieben ausgeführt, indem das Anfangsrausch-HMM, das auf diese Weise gewählt ist, und die entsprechenden Jacobi-Matrizen verwendet werden, und dann wird die Erkennung unter Verwendung der angepassten Rauschsprach-HMMe wie oben beschrieben ausgeführt. Auf diese Weise wird es, indem eine Mehrzahl von Anfangsrausch-HMMn und eine Mehrzahl von Jacobi-Matrizen vorbereitet wird, indem ein Anfangsrausch-HMM gewählt wird, das dem beobachteten Anpassungszielrausch-HMM weitestgehend ähnelt, und die Parameteraktualisierung gemäß der vorliegenden Erfindung unter Verwendung des gewählten Anfangsrausch-HMMs und der entsprechenden Jacobi-Matrizen ausgeführt wird, möglich, die Rauschanpassung mit einer hohen Erkennungsrate konstant zu verwirklichen.
In den obigen Ausführungsformen ist die Modellanpassung gemäß der vorliegenden Erfindung für einen Fall eines Handhabens einer Änderung von Hintergrundrauschen beschrieben worden, aber das Modellanpassungsschema der vorliegenden Erfindung ist gleichermaßen anwendbar auf verschiedene andere Fälle.
Beispielsweise ist es möglich, die Modellanpassung gemäß der vorliegenden Erfindung auf einen Fall eines Handhabens einer Änderung einer Kanalstörung anzuwenden. In diesem Fall ist ein Parameter zum Ausdrücken der Kanalstörung der gleiche Cepstrum, der auch als der Modellparameter dient. Folglich wird der Differentialquotient in der Taylor-Reihe der obigen Gleichung (7) 1, so dass die Berechnung sehr einfach ausgeführt werden kann. Es ist auch möglich, die Modellanpassung gemäß der vorliegenden Erfindung auf einen Fall eines Handhabens einer Änderung einer Vokaltraktlänge anzuwenden. In diesem Fall kann der Modellparameter gemäß einer Änderung des Vokaltraktlängenparameters gemäß der vorliegenden Erfindung, wie oben beschrieben, angepasst werden.
Als nächstes werden die Ergebnisse von Experimenten bezüglich der akustischen Modellanpassung in einem Fall eines Handhabens einer Änderung von Hintergrundrauschen, die von den betreffenden Erfindern zum Zweck eines Aufzeigens der Wirkung der vorliegenden Erfindung durchgeführt wurden, beschrieben werden. Hier wurden die Experimente unter der Annahme durchgeführt, dass das Hintergrundrauschen in dem Anfangszustand das Straßeneckenrauschen war, aber das Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung auf das Ausstellungshallenrauschen geändert ist. In dem Ergebnis, das unten beschrieben ist, wird das Modellanpassungsschema gemäß der vorliegenden Erfindung kurz auch als die Jacobi-Anpassung bezeichnet.
Für Vergleichszwecke wurden ein Experiment bezüglich der Modellanpassung gemäß des typischen herkömmlichen Rauschanpassungsschemas NOVO auch durchgeführt. Hier ist die Verarbeitungsprozedur des NOVO wie in 7 gezeigt, die umfasst: Die Konversion der Reinsprach-HMMe in lineare Spektren unter Verwendung von Reinsprach-HMM-Eingaben (Schritt S11); das Trainieren des Anpassungszielrausch-HMMs unter Verwendung eines Rauschens, das zu einer Zeit einer tatsächlichen Erkennung beobachtet wird (Schritt S12); die Konversion des Anpassungszielrausch-HMMs in ein lineares Spektrum (Schritt S13); die Berechnung linearer Spektren für die Rauschsprach-HMMe durch die lineare Spektrumzusammensetzung (Schritt S14); die Konversion der Rauschsprach-HMMs in Cepstrums (Schritt S15); und die Spracherkennungsverarbeitung unter Verwendung einer Erkennungszielsprache (Schritt S16).
Zusätzlich wurde ein Experiment für einen Fall ohne Anpassung, in welchem das Anfangsrauschsprachmodell, das durch das NOVO von dem Hintergrundrauschen in den Anfangszustand (dem Straßeneckenrauschen) erhalten wird, direkt für die Spracherkennung nach der Rauschänderung verwendet wird, auch durchgeführt. Überdies wurde ein Experiment für einen Fall, in welchem die Modelle, die aus den Rein-HMMen erhalten werden, direkt für die Spracherkennung verwendet werden, auch durchgeführt.
In diesen Experimenten waren die Evaluationsdaten Namen von 100 Städten, die von 13 unterschiedlichen Sprechern ausgesprochen wurden, welchen das Ausstellungshallenrauschen durch die Computerverarbeitung überlagert ist. Die Anpassung wurde durch ein Trainieren des Anpassungszielrausch-HMMs unter Verwendung der Ausstellungshallen-Rauschdaten in einem Abschnitt unmittelbar vor den Evaluationsdaten ausgeführt. Das S/N-Verhältnis bezüglich der Evaluationsdaten betrug 10 dB für sowohl das Straßeneckenrauschen als auch das Ausstellungshallenrauschen. Das Erkennungsvokabular enthielt 400 Worte.
8 zeigt die Worterkennungs-Ratenergebnisse, die von dem Modellanpassungsschema der vorliegenden Erfindung erhalten werden, und drei andere herkömmliche Schemata, die oben unter Bezugnahme auf verschiedene Ausstellungshallen-Rauschdatenlängen beschrieben sind (das heißt, verschiedene Rauschbeobachtungszeiten), die für die Anpassung verwendet werden. Auch zeigt die Tabelle 1 unten einen Vergleich der Verarbeitungsmengen (CPU-Zeit), die für die Anpassungsverarbeitung in dem Modellanpassungsschema der vorliegenden Erfindung und des NOVO erforderlich sind. Es sei hier darauf hingewiesen, dass die Menge an Berechnungen, die für die akustische Verarbeitung und das Rauschtrainieren in der Anpassungsverarbeitung erforderlich ist, von der Anpassungsrausch-Datenlänge abhängt, so dass die CPU-Zeit, die für sie erforderlich ist, nicht in der CPU-Zeit, die in der Tabelle 1 gezeigt ist, für sowohl das Modellanpassungsschema der vorliegenden Erfindung als auch das NOVO eingeschlossen ist.
[TABELLE 1]
Wie aus 8 ersehen werden kann, zeigt das NOVO das gute Betriebsverhalten, wenn die Anpassungsdaten ausreichend lang sind (900 ms oder länger in 8), aber sein Betriebsverhalten wurde dramatisch abgesenkt, wenn die Anpassungsdaten nicht ausreichend lang sind. Andererseits wurde in der Modellanpassung gemäß der vorliegenden Erfindung das bessere Betriebsverhalten als das NOVO für kurze Anpassungsdaten (800 ms oder kürzer in 8) erhalten. Auch betrug, wie aus der Tabelle 1 ersehen werden kann, die Verarbeitungszeit, die für die Anpassung durch die vorliegende Erfindung erforderlich ist, nur 1/34 jener, die für das NOVO erforderlich ist.
Somit wurde bestätigt, dass das Modellanpassungsschema der vorliegenden Erfindung in der Lage ist, die Anpassung unter Verwendung kürzerer Anpassungsdaten zu verwirklichen, und dass seine Anpassungsverarbeitung viel schneller ist. Dieses Merkmal impliziert, dass das Modellanpassungsschema der vorliegenden Erfindung für die Echtzeitanpassung des akustischen Modells an das sich ändernde Hintergrundrauschen geeignet ist. Als nächstes wird das Ergebnis des Experiments bezüglich der Spracherkennung in einem Fall eines Einführens der SS in das Modellanpassungsschema der vorliegenden Erfindung, wie in der zweiten Ausführungsform oben beschrieben, beschrieben werden. Hier sind die Zustände des Experiments die gleichen wie jene, die oben beschrieben sind. Die Rauschdatenlänge, die bei einem Berechnen des Durchschnittsspektrums des Rauschens verwendet wird, betrug 160 ms.
Eine Tabelle 2 zeigt die Worterkennungs-Ratenergebnisse, die durch das Modellanpassungsschema der vorliegenden Erfindung ohne Verwendung der SS (Jacobi-Anpassung) und das Modellanpassungsschema der vorliegenden Erfindung unter Verwendung der SS (SS-Jacobi-Anpassung) in einem Fall eines Verwendens der Ausstellungshallen-Rauschdatenlänge von 50 ms für die Anpassung erhalten werden.
[TABELLE 2]
Wie aus der Tabelle 2 ersehen werden kann, war es möglich, die Worterkennungsrate durch ein Einführen der SS in das Modellanpassungsschema der vorliegenden Erfindung zu verbessern. Somit wurde bestätigt, dass es möglich war, das Betriebsverhalten der Modellanpassung durch ein Einführen der SS, die nur eine kleine Menge an Berechnungen erfordert, in die vorliegende Erfindung zu verbessern, ohne die schnelle Natur ihrer Anpassungsverarbeitung zu opfern.
Wie beschrieben, wird gemäß der vorliegenden Erfindung die Jacobi-Matrix im Voraus aus dem Anfangszustands-Probabilistikmodell und dem Anfangszustands-auferlegten Probabilistikmodell berechnet, das Anpassungszielzustands-Probabilistikmodell wird durch ein Messen des Zustands zu der Zeit einer tatsächlichen Erkennung erhalten, und das Anpassungszustands-auferlegte Probabilistikmodell wird in einer Approximation durch ein Aktualisieren des Anfangszustands-auferlegten Probabilistikmodells unter Verwendung der Taylor-Reihe auf der Grundlage der Jacobi-Matrix und eines Unterschieds zwischen dem Anpassungszielzustands-Probabilistikmodell und dem Anfangszustands-Probabilistikmodell berechnet, so dass es möglich ist, das Erkennungs-Betriebsverhalten der Mustererkennung durch ein Ausführen der Anpassungsverarbeitung durch nur eine kleine Menge von Berechnungen bei hoher Geschwindigkeit zu verbessern.
Es sei darauf hingewiesen, dass in den obigen Ausführungsformen auf verschiedene Weisen beurteilt werden kann, ob eine Fehlanpassung zwischen den Eingangsrauschsprach- und den Anfangsrauschsprach-HMMen vorhanden ist. Beispielsweise ist es möglich, zu beurteilen, dass eine Fehlanpassung zwischen den Eingangsrauschsprachund den Anfangsrauschsprach-HMMen vorhanden ist, wenn die Rauschsprach-HMM-Aktualisierungseinheit beurteilt, dass ein Unterschied zwischen dem Anpassungszielrausch-HMM und dem Anfangsrausch-HMM, wie er durch die Differenzberechnungseinheit 9 erhalten wird, signifikant ist. Es ist auch möglich, Spracherkennung zuerst unter Verwendung der Anfangsrauschsprach-HMMe auszuführen, und zu beurteilen, ob eine Fehlanpassung zwischen den Eingangsrauschsprach- und den Anfangsrauschsprach-HMMen in der Spracherkennungseinheit 12 vorhanden ist oder nicht, in Abhängigkeit davon, wie niedrig die resultierende Erkennungsrate ist.
Es sei auch darauf hingewiesen, dass die obigen Ausführungsformen hauptsächlich für einen Fall der Spracheingabe beschrieben worden sind, aber die vorliegende Erfindung ist nicht auf diesen bestimmten Fall beschränkt und bereit, auf andere Typen einer Mustererkennung wie etwa einer Erkennung von Figuren, Zeichen, etc. anwendbar.
Es sei auch darauf hingewiesen, dass die oben beschriebenen Ausführungsformen gemäß der vorliegenden Erfindung bequem unter Verwendung eines herkömmlichen Mehrzweckcomputers implementiert werden können, der gemäß den Lehren der vorliegenden Spezifikation programmiert ist, wie Durchschnittsfachleute in der Computertechnik erkennen werden. Eine geeignete Softwarecodierung kann auf einfache weise von Programmierern auf der Grundlage der Lehren der vorliegenden Offenbarung hergestellt werden, wie Durchschnittsfachleute in der Softwaretechnik erkennen werden.
Insbesondere kann die vorbereitende Verarbeitung und die Anpassungsverarbeitung in den obigen Ausführungsformen, wie sie in 4 und 6 gezeigt ist, bequem in einer Form eines Softwarepakets implementiert werden. Es ist auch möglich, die gesamte vorbereitende Verarbeitung, die Anpassungsverarbeitung und die Erkennungsverarbeitung der obigen Ausführungsform in einer Form eines Software-Pakets zu implementieren.
Ein derartiges Softwarepaket kann ein Computerprogrammprodukt sein, dass ein Speichermedium einsetzt, das einen gespeicherten Computercode einschließt, der verwendet wird, um einen Computer zu programmieren, um die offenbarte Funktion und den Prozess der vorliegenden Erfindung durchzuführen. Das Speichermedium kann jedweden Typ herkömmlicher Disketten, optischer Platten, CD-ROMs, magnetooptischer Platten, ROMs, RAMs, EPROMSs, EEPROMs, magnetischer oder optischer Karten oder jedwede andere geeignete Medien zum Speichern elektronischer Instruktionen einschließen, ist aber darauf nicht beschränkt.
Es sei auch darauf hingewiesen, dass neben den bereits oben erwähnten viele Modifikationen und Variationen der obigen Ausführungsformen ausgeführt werden können, ohne von den neuen und vorteilhaften Merkmalen der vorliegenden Erfindung abzuweichen.

Claims

Mustererkennungsvorrichtung, umfassend: eine Eingabeeinheit (1) zum Eingeben von Eingangsvektoren; eine Parameterextraktionseinheit (2) zum Extrahieren eines Parameters, der einen Zustand einer Mustererkennung ausdrückt, und zum Probabilistikmodell-Trainieren aus jedem Eingangsvektor; eine Anfangszustand-Probabilistikmodell-Erzeugungs- und -Speichereinheit (3, 5, 6) zum Erzeugen und Speichern eines Anfangszustand-Probabilistikmodells aus dem Parameter, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert ist, der in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben wird; eine Jacobi-Matrix-Berechnungs- und -Speichereinheit (7, 8) zum Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustandauferlegten Probabilistikmodellen; eine Differenzberechnungseinheit (9) zum Berechnen einer Differenz zwischen dem Anfangszustand-Probabilistikmodell und einem Anpassungszielzustand-Probabilistikmodell, das aus dem Parameter erhalten wird, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert ist, der in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben wird; eine Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit (10, 11) zum Berechnen und Speichern von Anpassungszustand-auferlegten Probabilistikmodellen aus der Differenz, den Anfangszustand-auferlegten Probabilistikmodellen und den Jacobi-Matrizen; und eine Mustererkennungseinheit (12) zum Ausführen einer Mustererkennung, indem eine Wahrscheinlichkeit berechnet wird, dass jedes Anpassungszustand-auferlegte Probabilistikmodell Merkmale jeder Erkennungskategorie bezüglich des Eingangsvektors ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungszustandauferlegtes Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungszustandauferlegten Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
Mustererkennungsvorrichtung nach Anspruch 1, weiter umfassend: eine Referenz-Probabilistikmodell-Speichereinheit zum Speichern vorgegebener Referenz-Probabilistikmodelle, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt; und eine Anfangszustand-auferlegte Probabilistikmodell-Erzeugungs- und -Speichereinheit zum Erzeugen und Speichern der Anfangszustand-auferlegten Probabilistikmodelle aus einem Anfangszustand-Probabilistikmodell und den Referenz-Probabilistikmodellen.
Mustererkennungsvorrichtung nach Anspruch 2, wobei die Eingabeeinheit eine Spracheingabeeinheit (1) zum Eingeben von Eingangs-Rauschsprachdaten umfasst; die Parameterextraktionseinheit eine Rauschextraktionseinheit (2) zum Extrahieren von Rauschdaten aus sämtlichen Eingangs-Rauschsprachdaten und eine Rausch-Spektral-Subtraktionseinheit 9 zum Erhalten von Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten und durch ein Subtrahieren des mittleren Spektrums von einem Spektrum eines gesamten Abschnitts der Rauschdaten, umfasst; die Anfangszustand-Probabilistikmodell-Erzeugungs- und – Speichereinheit eine Anfangsrauschmodell-Erzeugungs- und -Speichereinheit (3) zum Erzeugen und Speichern eines Anfangsrauschmodells aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben werden, umfasst; die Referenz-Probabilistikmodell-Speichereinheit eine Rein-Sprachmodell-Speichereinheit (4) zum Speichern vorgegebener Rein-Sprachmodelle umfasst; die Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit eine Anfangs-Rauschsprachmodell-Erzeugungs- und -Speichereinheit (5, 6) zum Erzeugen und Speichern von Anfangs-Rauschsprachmodellen aus dem Anfangs-Rauschmodell und den Rein-Sprachmodellen umfasst; die Jacobi-Matrix-Berechnungs- und -Speichereinheit (7, 8) Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in den Rauschdaten ausdrückt, aus dem Anfangs-Rauschmodell und den Anfangs-Rauschsprachmodellen berechnet und speichert; die Differenz-Berechnungseinheit (9) eine Differenz zwischen dem Anfangs-Rauschmodell und einem Anpassungs-Zielrauschmodell, das aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten erhalten wird, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, berechnet; die Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit eine Anpassungs-Rauschsprachmodell-Berechnungs- und -Speichereinheit (10, 11) zum Berechnen und Speichern von Anpassungs-Rauschsprachmodellen aus der Differenz, den Anfangs-Rauschsprachmodellen und den Jacobi-Matrizen und eine Rausch-Sprachspektral-Subtraktionseinheit (9) zum Erhalten von Rausch-subtrahierten Sprachdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu der Zeit einer tatsächlichen Erkennung eingegeben werden, und zum Subtrahieren des mittleren Spektrums von einem Spektrum eines gesamten Abschnitts der Eingangs-Rauschsprachdaten, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, umfasst; und die Mustererkennungseinheit eine Spracherkennungseinheit (12) zum Ausführen einer Spracherkennung umfasst, indem eine Wahrscheinlichkeit berechnet wird, dass jedes Anpassungs-Rauschsprachmodell Merkmale jeder Erkennungskategorie bezüglich der Rausch-subtrahierten Sprachdaten ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungs-Rauschsprachmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungs-Rauschsprachmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
Mustererkennungsverfahren, umfassend die Schritte: (a) Eingeben von Eingangsvektoren; (b) Extrahieren eines Parameters, der einen Zustand einer Mustererkennung ausdrückt, und zum Probabilistikmodell-Trainieren aus jedem Eingangsvektor; (c) Erzeugen und Speichern eines Anfangszustand-Probabilistikmodells von dem Parameter, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert wird, der in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben wird; (d) Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und den Anfangszustand-auferlegten Probabilistikmodellen; (e) Berechnen einer Differenz zwischen dem Anfangszustand-Probabilistikmodell und einem Anpassungszielzustand-Probabilistikmodell, das von dem Parameter erhalten wird, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert wird, der in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben wird; (f) Berechnen und Speichern von Anpassungszustandauferlegten Probabilistikmodellen aus der Differenz, den Anfangszustand-auferlegten Probabilistikmodellen und den Jacobi-Matrizen; und (g) Ausführen einer Mustererkennung durch ein Berechnen einer Wahrscheinlichkeit, dass jedes Anpassungszustand-auferlegte Probabilistikmodell Merkmale jeder Erkennungskategorie bezüglich des Eingangsvektors ausdrückt, und durch ein Ausgeben einer Erkennungskategorie, die durch ein Anpassungszustand-auferlegtes Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungszustand-auferlegten Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis.
Mustererkennungsverfahren nach Anspruch 4, weiter umfassend die Schritte: (h) Speichern vorgegebener Referenz-Probabilistikmodelle, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt; und (i) Erzeugen und Speichern von Anfangszustandauferlegten Probabilistikmodellen aus einem Anfangszustand-Probabilistikmodell und den Referenz-Probabilistikmodellen.
Mustererkennungsverfahren nach Anspruch 5, wobei der Schritt (a) zum Eingeben von Eingangs-Rauschsprachdaten bereitgestellt ist; der Schritt (b) zum Extrahieren von Rauschdaten von sämtlichen Eingangs-Rauschsprachdaten und zum Erhalten von Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten und ein Subtrahieren des mittleren Spektrums von einem Spektrum eines Gesamtabschnitts der Rauschdaten bereitgestellt ist; der Schritt (c) zum Erzeugen und Speichern eines Anfangsrauschmodells aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten bereitgestellt ist, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten erhalten werden; der Schritt (h) zum Speichern vorgegebener Referenz-Probabilistikmodelle bereitgestellt ist; der Schritt (i) zum Erzeugen und Speichern von Anfangs-Rauschsprachmodellen aus dem Anfangs-Rauschsprachmodell aus dem Anfangsrauschmodell und den Rein-Sprachmodellen bereitgestellt ist; der Schritt (d) zum Berechnen und Speichern von Jacobi-Matrizen und einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in den Rauschdaten ausrückt, aus dem Anfangsrauschmodell und den Anfangs-Rauschsprachmodellen bereitgestellt ist; der Schritt (e) zum Berechnen einer Differenz zwischen dem Anfangs-Rauschmodell und einen Anpassungsziel-Rauschmodell erhalten wird, das aus den Überschätzungsund Unterschätzungs-Fehlerkomponenten der Rauschdaten erhalten wird, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden; der Schritt (f) zum Berechnen und Speichern von Anpassungs-Rauschsprachmodellen aus der Differenz, den Anfangs-Rauschsprachmodellen und den Jacobi-Matrizen, und zum Erhalten von Rausch-subtrahierten Sprachdaten durch ein Berechnen eines mittleren Spektrums von einem Teil- oder Gesamtabschnitt der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, und durch ein Subtrahieren des mittleren Spektrums von einem Spektrum eines Gesamtabschnitts der Eingangs-Rauschsprachdaten, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, bereitgestellt ist; und der Schritt (g) zum Ausführen einer Spracherkennung bereitgestellt ist, indem eine Wahrscheinlichkeit berechnet wird, das jedes Anpassungs-Rauschsprachmodell, das Merkmale jeder Erkennungskategorie bezüglich der Rausch-subtrahierten Sprachdaten ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungs-Rauschsprachmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungs-Rauschsprachmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
Verfahren zur Modellanpassung in einer Mustererkennung, in welcher eine Wahrscheinlichkeit eines Eingangsvektors bezüglich eines jeweiligen Probabilistikmodells, das Merkmale jeder Erkennungskategorie ausdrückt, berechnet wird, und eine Erkennungskategorie durch ein Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter einer Vielzahl vorgegebener Probabilistikmodelle als ein Erkennungsergebnis ausgegeben wird, wobei das Verfahren die Schritte umfasst: (a) Trainieren eines Anfangszustand-Probabilistikmodells aus einem Parameter, der einen Zustand einer Mustererkennung ausdrückt, und einem Probabilistikmodell-Trainieren, das zu einer Zeit eines Modelltrainierens aufgezeichnet wird; (b) Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustand-auferlegten Probabilistikmodellen; (c) Trainieren eines Anpassungszielzustand-Probabilistikmodells unter Verwendung des Parameters, der den Zustand ausdrückt, der zu einer Zeit einer tatsächlichen Erkennung beobachtet wird; und (d) Erhalten eines Anpassungszustand-auferlegten Probabilistikmodells durch ein Aktualisieren der Anfangszustand-auferlegten Probabilistikmodelle gemäß der Taylor-Entwicklung unter Verwendung der Jacobi-Matrizen, wenn das Anfangszustand-Probabilistikmodell und das Anpassungszielzustand-Probabilistikmodell nicht zusammenpassen.
Verfahren nach Anspruch 7, weiter umfassend den Schritt: (e) Erhalten von Anfangszustand-auferlegten Probabilistikmodellen aus dem Anfangszustand-Probabilistikmodell und vorgegebenen Referenz-Probabilistikmodellen, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt.
Verfahren nach Anspruch 7, weiter umfassend den Schritt eines Speicherns von mehr als einem Satz von Probabilistikmodellen in Übereinstimmung mit verschiedenen Typen des Zustands; wobei, wenn sich der gegenwärtige Zustand mit der Zeit ändert, der Schritt (d) einen Satz eines Probabilistikmodells, das einem Typ des Zustands entspricht, der dem gegenwärtigen Zustand am meisten ähnelt, aus dem mehr als einen Satz von Probabilistikmodellen wählt und die Probabilistikmodelle an den gegenwärtigen Zustand unter Verwendung der Taylor-Entwicklung anpasst, während der eine Satz von Probabilistikmodellen als Anfangs-Probabilistikmodelle gesetzt wird.
Verfahren nach Anspruch 9, weiter umfassend den Schritt eines Berechnens und Speicherns von mehr als einen Satz von Jacobi-Matrizen der Taylor-Entwicklung in Übereinstimmung mit dem mehr als einen Satz von Probabilistikmodellen im Voraus, so dass der Schritt (d) den Modellparameter nach einer Zustandsänderung unter Verwendung eines Satzes von Jacobi-Matrizen erhält, wie sie im Voraus berechnet und gespeichert sind, welcher dem einen Satz von Probabilistikmodellen entspricht.
Verfahren nach Anspruch 7, wobei die Probabilistikmodelle Hidden-Markov-Modelle sind.
Verfahren nach Anspruch 7, wobei der Eingangsvektor ein Sprachmerkmalsparameter einer Eingangsprache ist, und der Zustand ein Hintergrundrauschen zu einer Zeit eines Aufzeichnens der Eingangsprache oder eine Vokaltraktlänge eines Sprechers ist, der die Eingangssprache äußerte.
Verfahren nach Anspruch 12, wobei der Zustand das Hintergrundrauschen ist, und das Verfahren weiter die Schritte eines Erhaltens eines jeweiligen Probabilistikmodells vor einer Zustandsänderung durch eine Zusammensetzung eines Probabilistikmodells einer Rein-Sprache ohne Rauschen und eines Probabilistikmodells, das von dem Hintergrundrauschen vor einer Zustandsänderung erhalten wird, umfasst.
Verfahren nach Anspruch 12, wobei der Zustand das Hintergrundrauschen ist, der Parameter, der den Zustand ausdrückt, ein Cepstrum-Parameter eines Spektrums ist, das durch ein Subtrahieren eines mittleren Rauschspektrums von einem Rauschspektrum erhalten wird, das der Eingangssprache entspricht, und der Eingangsvektor ein Cepstrum-Parameter eines Sprachsignals ist, das durch ein Subtrahieren des mittleren Rauschspektrums von der Eingangssprache erhalten wird.
Computer-basierte Vorrichtung zur Modellanpassung in einer Mustererkennung, in welcher eine Wahrscheinlichkeit, dass ein Eingangsvektor bezüglich eines jeweiligen Probabilistikmodells Merkmale einer jeweiligen Erkennungskategorie ausdrückt, berechnet wird, und eine Erkennungskategorie, die durch ein Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter einer Vielzahl von vorgegebenen Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird, wobei die Vorrichtung umfasst: (a) eine Einheit (3, 5, 6) zum Trainieren eines Anfangszustand-Probabilistikmodells aus einem Parameter, der einen Zustand einer Mustererkennung ausdrückt, und einem Probabilistikmodell-Trainieren, das zu einer Zeit eines Modelltrainierens aufgezeichnet wird; (b) eine Einheit (7, 8) zum Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustand-auferlegten Probabilistikmodellen; (c) eine Einheit zum Trainieren eines Anpassungszielzustand-Probabilistikmodells unter Verwendung des Parameters, der den Zustand ausdrückt, der zu einer Zeit einer tatsächlichen Erkennung beobacht wird; und (d) eine Einheit (10, 11) zum Erhalten von Anpassungszustand-auferlegten Probabilistikmodellen durch ein Aktualisieren der Anfangszustandauferlegten Probabilistikmodelle gemäß der Taylor-Entwicklung unter Verwendung der Jacobi-Matrizen, wenn das Anfangszustand-Probabilistikmodell und das Anpassungszielzustand-Probabilistikmodell nicht zusammenpassen.
Computer-basierte Vorrichtung nach Anspruch 15, weiter umfassend: (e) eine Einheit zum Erhalten von Anfangszustandauferlegten Probabilistikmodellen aus dem Anfangszustand-Probabilistikmodell und vorgegebenen Referenz-Probabilistikmodellen, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt.
Computer-basierte Vorrichtung nach Anspruch 15, weiter umfassend eine Probabilistikmodell-Speichereinheit zum Speichern von mehr als einem Satz von Probabilistikmodellen in Übereinstimmung mit verschiedenen Typen des Zustands; wobei, wenn sich der gegenwärtige Zustand mit der Zeit ändert, die Einheit (d) einen Satz eines Probabilistikmodells, das einem Typ des Zustands entspricht, der dem gegenwärtigen Zustand am meisten ähnelt, von dem mehr als einen Satz von Probabilistikmodellen auswählt, und die Probabilistikmodelle an den gegenwärtigen Zustand unter Verwendung der Taylor-Entwicklung anpasst, während ein Satz von Probabilistikmodellen als Anfangs-Probabilistikmodelle gesetzt wird.
Computer-basierte Vorrichtung nach Anspruch 17, wobei die Einheit (b) mehr als einen Satz von Jacobi-Matrizen der Taylor-Entwicklung in Übereinstimmung mit dem mehr als einen Satz von Probabilistikmodellen im Voraus berechnet und speichert, so dass die Einheit (d) den Modellparameter nach einer Zustandsänderung unter Verwendung eines Satzes von Jacobi-Matrizen erhält, wie sie im Voraus berechnet und gespeichert sind, welcher dem einen Satz von Probabilistikmodellen entspricht.