DE69726526T2 - Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert - Google Patents

Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert Download PDF

Info

Publication number
DE69726526T2
DE69726526T2 DE69726526T DE69726526T DE69726526T2 DE 69726526 T2 DE69726526 T2 DE 69726526T2 DE 69726526 T DE69726526 T DE 69726526T DE 69726526 T DE69726526 T DE 69726526T DE 69726526 T2 DE69726526 T2 DE 69726526T2
Authority
DE
Germany
Prior art keywords
noise
model
state
probabilistic
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69726526T
Other languages
English (en)
Other versions
DE69726526D1 (de
Inventor
Yoshikazu Yokosuka-shi Yamaguchi
Shigeki Hoya-shi Sagayama
Jun-ichi Sagamihara-shi Takahashi
Satoshi Yokosuka-shi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of DE69726526D1 publication Critical patent/DE69726526D1/de
Publication of DE69726526T2 publication Critical patent/DE69726526T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft die Mustererkennung, die das Hidden-Markov-Modell zum Ausdrücken von Erkennungszielen wie etwa Sprache, ein Zeichen, eine Zeichnung etc. verwendet, und insbesondere ein Schema zur Modellanpassung, das auf ein Korrigieren einer Fehlanpassung eines Modells aufgrund eines Unterschieds zwischen einem Zustand zu einer Zeit einer Modellerzeugung und einen Zustand zu einer Zeit einer Modellverwendung in der Form einer Erkennungsausführung abzielt, und dadurch das Erkennungs-Betriebsverhalten verbessert. Es sei darauf hingewiesen, dass die vorliegende Erfindung allgemein auf eine unterschiedliche Mustererkennung anwendbar ist, die das Hidden-Markov-Modell (HMM) verwendet, aber die folgende Beschreibung wird für einen beispielhaften Fall einer Spracherkennung zur Verdeutlichung gegeben werden.
  • BESCHREIBUNG DES STANDES DER TECHNIK
  • In der Spracherkennung werden Eingangssprachdaten mit dem akustischen Modell (phonemisches Modell, syllabisches Modell, Wortmodell, etc.), das von Trainingssprachdaten erhalten wird, angepasst, und die Wahrscheinlichkeit wird bestimmt, um so das Erkennungsergebnis zu erhalten. Hier hängt ein Parameter des Modells in hohem Maße von Bedingungen (Hintergrundrauschen, Kanalstörung, Lautsprecher, Vokaltraktlänge, etc.) ab, unter welchen die Trainingsdaten aufgezeichnet werden. Folglich tritt, wenn die Sprachaufzeichnungsbedingung unterschiedlich von der Bedingung zu einer Zeit einer tatsächlichen Erkennung ist, eine Fehlanpassung zwischen dem Eingangssprachmuster und dem Modell auf, was wiederum ein Absenken der Erkennungsrate herbeiführt.
  • Ein derartiges Absenken der Erkennungsrate aufgrund einer Fehlanpassung zwischen den Eingangssprachdaten und dem akustischen Modell kann durch ein Wiedererzeugen des Modells unter Verwendung der Sprachdaten, verhindert werden, die unter der gleichen Bedingung aufgezeichnet sind wie jener zu einer Zeit einer tatsächlichen Erkennung. Jedoch erfordert das Modell, dass auf dem statistischen Verfahren wie etwa dem HMM beruht, eine gewaltige Menge an Trainingssprachdaten, so dass die Verarbeitung eine beträchtliche Zeit erfordert (etwa 100 Stunden beispielsweise). Aus diesem Grund besteht ein Bedarf nach einer Anpassungstechnik, die ein Fehlanpassungsmodell an ein Modell anpassen kann, dass die Bedingung zu einer Zeit einer tatsächlichen Erkennung vollständig anpasst, indem eine geringere Menge von Trainingsdaten und weniger Verarbeitungszeit verwendet wird.
  • Als ein Beispiel einer Zustandsänderung ist eine Änderung des Hintergrundrauschens zu der Zeit einer Äußerung vorhanden. Die Erkennungsrate wird abgesenkt, wenn das Hintergrundrauschen zu der Zeit eines Aufzeichnens von Modelltrainingssprachdaten unterschiedlich von dem Hintergrundrauschen zu einer Zeit einer tatsächlichen Erkennung ist.
  • Die üblicherweise bekannten Techniken zur Anpassung des Modells bezüglich des Hintergrundrauschens schließen die HMM-Zusammensetzungsschemata wie etwa PMC (siehe beispielsweise M. J. F. Gales et al.: "An Improved Approach zu the Hidden Markov Model Decomposition of Speech and noise", Proc. of ICASSP92, Seiten 233–236, 1992) und NOVO (siehe beispielsweise F. Martin et al.: "Recognition of Noisy Speech by using the Composition of Hidden Markov Models", Proc. Of Acoustic Society of Japan, Herbst 1992, Seiten 65–66). Das HMM-Zusammensetzungsschema ist eine Anpassungstechnik, in welcher das HMM, das unter Verwendung reiner Sprache ohne Rauschen trainiert ist, die in einem schalldichten Raum aufgezeichnet wurde (die als ein Reinsprach-HMM nachstehend bezeichnet werden wird) mit dem HMM, das unter Verwendung von Nur-Hintergrundrauschen zu der Zeit einer Erkennung (was nachstehend als ein Rausch-HMM bezeichnet werden wird) kombiniert wird, um so das HMM zu erhalten, das sich an die Eingangssprache anpassen kann, indem es das Hintergrundrauschen zu einer Zeit einer Erkennung darauf überlagert aufweist. Die Verwendung des HMM-Zusammensetzungsschemas erfordert nur das Trainieren des Rausch-HMMs und die Verarbeitungszeit für die Modellzusammensetzung, so dass es möglich ist, das Modell mit relativ geringer Zeit verglichen mit einem Fall eines erneuten Erzeugens des Modells unter Verwendung einer gewaltigen Menge von Sprachdaten anzupassen.
  • Jedoch geht die herkömmliche Spracherkennung mit dem Ableben einher, dass es schwierig ist, das Modell in Echtzeit gemäß einem sich kontinuierlich ändernden Zustand anzupassen, weil eine ziemlich lange Rauschaufzeichnungszeit (beispielsweise 15 Sekunden) für die Zwecke eines Erhaltens der Trainingsdaten für das Rausch-HMM erforderlich ist, und eine ziemlich lange Verarbeitungszeit (ungefähr 10 Sekunden) als die Verarbeitungszeit für die Modellzusammensetzung erforderlich ist.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist deswegen eine Aufgabe der vorliegenden Erfindung, gemäß der angehängten Ansprüche, ein Schema für eine Modellanpassung in der Mustererkennung bereitzustellen, das in der Lage ist, eine schnelle, Echtzeit-Modellanpassung zu verwirklichen und das Erkennungs-Betriebsverhalten zu verbessern, indem Daten verwendet werden, die den Zustand ausdrücken, der nach einer Zustandsänderung beobachtet wird, während ein Anfangsmodell als ein Referenzmodell verwendet wird, um so das Anfangsmodell vor der Zustandsänderung an ein Modell anzupassen, das mit dem Umgebungszustand nach der Zustandsänderung übereinstimmt.
  • Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung offensichtlich werden, die in Verbindung mit den zugehörigen Zeichnungen genommen wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • In den Zeichnungen zeigen:
  • 1 ein Diagramm zum Erklären einer Approximation durch die Taylor-Reihe zwischen kleinen Änderungen von Vektoren, die in zwei Domänen in einer nichtlinearen Beziehung enthalten sind, die in dem Modellanpassungsschema der vorliegenden Erfindung verwendet wird;
  • 2 ein Diagramm zum Erklären eines nicht-linearen Transformationsprozesses von einem Rausch-Cepstrum in ein Sprach-Cepstrum gemäß dem Modellanpassungsschema der vorliegenden Erfindung;
  • 3 ein Blockdiagramm einer Modellanpassungsvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung;
  • 4 ein Flussdiagramm für den Betrieb der Modellanpassungsvorrichtung der 3;
  • 5 ein Blockdiagramm einer Modellanpassungsvorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung;
  • 6 ein Flussdiagramm für den Betrieb der Modellanpassungsvorrichtung der 5;
  • 7 ein Flussdiagramm für die Verarbeitungsprozedur gemäß dem herkömmlichen Modellanpassungsschema, das als NOVO bezeichnet wird; und
  • 8 einen Graphen, der Worterkennungsraten-Ergebnisse zeigt, die durch Experimente mit der akustischen Modellanpassung unter Verwendung des Modellanpassungsschemas der vorliegenden Erfindung und der herkömmlichen Schemata erhalten worden sind.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Unter Bezugnahme nun auf 1 bis 8 werden verschiedene Ausführungsformen eines Schemas für eine Modellanpassung in der Mustererkennung gemäß der vorliegenden Erfindung beschrieben werden.
  • Das Modellanpassungsschema der vorliegenden Erfindung ist allgemein anwendbar auf einen Typ einer Mustererkennungsverarbeitung, in welcher eine Wahrscheinlichkeit eines Eingangsvektors bezüglich jedes Probabilistik-Modells, das Merkmale jeder Erkennungskategorie ausdrückt, berechnet wird, und eine Kategorie, die durch das Modell mit der höchsten Wahrscheinlichkeit ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird. Das Modellanpassungsschema der vorliegenden Erfindung verhindert das Absenken der Erkennungsrate in einer derartigen Mustererkennung in einem Fall, wo ein Zustand (wie etwa beispielsweise Hintergrundrauschen) zu einer Zeit einer tatsächlichen Erkennung unterschiedlich von dem Anfangszustand zu einer Zeit eines anfänglichen Modelltrainierens ist. Kurz gesagt wird dies in dem Modellanpassungsmodell der vorliegenden Erfindung durch ein Berechnen einer Änderung der Modellparameter von einer Änderung (einem Unterschied) zwischen diesen beiden Zuständen in einer Approximation unter Verwendung der Taylor-Reihe erreicht, indem ein Parameter eines Referenzmodells entsprechend aktualisiert wird, ein Modell erzeugt wird, das mit dem Zustand zu einer Zeit einer tatsächlichen Erkennung tatsächlich übereinstimmt, und die Erkennung unter Verwendung dieses übereinstimmenden Modells ausgeführt wird.
  • Zuerst wird unter Bezugnahme auf 1 und 2 das grundlegende Prinzip der vorliegenden Erfindung beschrieben werden.
  • Es seien Vektoren x und y betrachtet, die in zwei Domänen in einer nicht-linearen Beziehung enthalten sind. y = f(x) (1)
  • Mit anderen Worten wird y durch eine lineare oder nichtlineare Funktion f(x) von x ausgedrückt. Nun sei eine Änderung in y entsprechend einer kleinen Änderung in x betrachtet. y + Δy = f(x + Δx) (2)
  • Durch ein Anwenden der Taylor-Reihe in x auf die Funktion f (x) gilt die folgende Beziehung.
  • Figure 00060001
  • Folglich gilt, indem nur der Differentialterm der ersten Ordnung in der obigen Taylor-Reihe (3) verwendet wird, die folgende Beziehung zwischen der kleinen Änderung Δx und Δy dieser Vektoren. Diese Beziehung ist auch in 1 veranschaulicht.
  • Figure 00070001
  • Unter Verwendung der Beziehung (4) kann Δy in einer Approximation durch eine Multiplikation von Δx und der Jacobi-Matrix erhalten werden, ohne dass eine Transformation von x in y erforderlich ist.
  • Nun ist es notwendig, einen Modellparameter zum Ausdrücken eines Erkennungsziels gemäß einer Zustandsänderung zu aktualisieren. Aus diesem Grund für eine Prozedur zum Erhalten einer Änderung in dem Modellparameter aus einer Änderung in einem Parameter, der den Zustand ausdrückt, betrachtet werden. Hier sei angenommen, dass Δy eine Änderung in dem Modellparameter ist, und Δx eine Änderung in dem Parameter ist, der den Zustand ausdrückt. Gemäß der obigen Beziehung (4) kann eine Änderung Δy in dem Modellparameter in einer Approximation durch einen kleinen Betrag einer Berechnung bei hoher Geschwindigkeit erhalten wird, indem einfach eine Änderung Δx in dem Parameter, der den Zustand ausdrückt, beobachtet wird, ohne dass eine komplizierte Berechnung für eine nicht-lineare Abbildung von x auf y erforderlich ist, ungeachtet dessen, ob eine Änderung in dem Parameter, der den Zustand ausdrückt, und eine Änderung in dem Modellparameter in einer linearen Beziehung oder in einer nicht-linearen Beziehung stehen.
  • Es sei darauf hingewiesen, dass angenommen wird, dass eine Änderung in dem Vektor hier sehr klein ist, so dass es ausreicht, nur den Differentialterm erster Ordnung in der obigen Taylor-Reihe (3) zu nehmen, aber es ist auch möglich, Differentialterme der zweiten und höherer Ordnungen zu nehmen, falls gewünscht.
  • Nun wird, indem ein Fall eines Änderns von Hintergrundrauschen in der Spracherkennung als ein Beispiel einer Zustandsänderung betrachtet wird, die Rauschanpassung zum Korrigieren einer Fehlanpassung des Modells, das durch eine Änderung zwischen dem Hintergrundrauschen zu der Zeit eines anfänglichen Modelltrainierens und dem Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung verursacht ist, beschrieben werden.
  • Zuerst wird eine Prozedur zum Erhalten der Jacobi-Matrix für einen beispielhaften Fall eines Verwendens des Cepstrums als ein Parameter beschrieben werden. Das akustische Modell verwendet oft den Cepstrum als seinen Merkmalsparameter.
  • Das Energiespektrum SR (als ein Vektor ausgedrückt) der Sprache, welcher das Hintergrundrauschen überlagert wird (die nachstehend als die Rausch-Sprache bezeichnet werden wird) kann als eine Summe eines reinen Sprachenergiespektrums SS und eines Hintergrundrausch-Energiespektrums SN ausgedrückt werden. SR = SS + SN (5)
  • Wenn diese Beziehung in die Cepstrum-Domäne transformiert wird, weisen ein Rauschspektrum-Cepstrum CR, ein Reinsprach-Cepstrum RS und ein Rausch-Cepstrum CN die folgende Beziehung auf, die in 2 veranschaulicht ist. CR = IDFT(log(exp(DFT(CS)) + exp(DFT(CN)))) (6)
  • wobei DFT(·), IDFT (·), log(·) und exp(·) die diskrete Fourier-Transformation, die inverse diskrete Fourier-Transformation, eine Logarithmustransformation bzw. eine exponentielle Transformation bezeichnen. Die diskrete Fourier-Transformation ist eine lineare Transformation, aber die Logarithmustransformation und die exponentielle Transformation sind nicht-lineare Transformationen, so dass das Rauschsprach-Cepstrum CR und das Rausch-Cepstrum CN eine nicht-lineare Beziehung aufweisen.
  • Wenn ein Hintergrundrauschen zu einer Zeit eines Aufzeichnens der Anfangsmodell-Trainingssprachdaten unterschiedlich von dem Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung ist, wenn das Rauschsprach-Cepstrum unter Verwendung der obigen Beziehung (6) aus dem Rausch-Cepstrum des Hintergrundrauschens, das zu der Zeit einer tatsächlichen Erkennung beobachtet wird, zu erhalten ist, wäre es notwendig, viele komplizierte Berechnungen wie etwa die diskrete Fourier-Transformation zweifach, die Logarithmustransformation einfach und die exponentielle Transformation einfach auszuführen.
  • Andererseits kann, wenn die Taylor-Reihe verwendet wird, eine Änderung ΔCR in dem Rauschsprach-Cepstrum aus einer Änderung ΔCN in dem Rausch-Cepstrum und der Jacobi-Matrix erhalten werden, so dass keine Erfordernis besteht, eine Änderung ΔCN in dem Rausch-Cepstrum unter Verwendung der komplizierten Beziehung (6), die oben beschrieben ist, zu transformieren.
  • Figure 00090001
  • Als nächstes wird ein Verfahren zum Berechnen der Jacobi-Matrix JN = ∂CR/∂CN in der obigen Gleichung (7) beschrieben werden. Die Jacobi-Matrix kann wie folgt erweitert werden.
  • Figure 00090002
  • Dann können die partiellen Differentialterme, die in der obigen Gleichung (8) enthalten sind, unter Verwendung der Beziehungen zwischen Domänen, wie sie in 4 angezeigt sind, wie folgt berechnet werden.
    Figure 00100001
    wobei F die Kosinus-Transformationsmatrix ist, während F–1 die inverse Kosinus-Transformationsmatrix ist, und p der Grad (einschließlich der Energieterme) in dem Cepstrum ist, was auch der Grad des Spektrums ist.
  • Dann können die Elemente der Jacobi-Matrix wie folgt ausgedrückt werden.
    Figure 00110001
    wobei [JN]ij, Fij und Fij –1 Elemente einer i-ten Zeile, j– ten Spalte der Matrizen JN, F bzw. F–1 sind, und SNk und SRk k-te Elemente der Vektoren SN bzw. SR sind.
  • Mit anderen Worten kann jedes Element der Jacobi-Matrix aus dem Rausch-Spektrum SN, dem Rausch-Sprach-Spektrum SR und den Transformationsmatrizen F und F–1 erhalten werden, die Konstanten sind. Das Rauschspektrum SN und das Rauschsprach-Spektrum SR können durch ein Transformieren des Rausch-Cepstrums CN und des Rauschsprach-Cepstrums CR jeweils in lineare Spektren erhalten werden. Folglich kann die Jacobi-Matrix im Voraus berechnet werden, wenn das Hintergrundrauschen zu einer Zeit eines Modelltrainierens aufgezeichnet wird.
  • Als nächstes wird eine Prozedur zum Aktualisieren der Anfangsrauschsprach-HMMs, bevor sich das Hintergrundrauschen in die Rauschsprach-HMMs ändert, die mit dem Hintergrundrauschen nach der Hintergrundrausch-Änderung übereinstimmen (zu einer Zeit einer tatsächlichen Erkennung) (die als angepasste Rauschsprach-HMMs nachstehend bezeichnet werden) unter Verwendung der oben beschriebenen Taylor-Reihe beschrieben werden.
  • Hier wird die Anpassung eines Cepstrum-Durchschnittsvektors einer Ausgangsprobabilitätsverteilung, die in jedem Zustand des HMM existiert, betrachtet werden. Gemäß der obigen Gleichung (7) kann ein Durchschnittsvektor CR' der angepassten Rauschsprach-HMMs wie folgt berechnet werden. CR' = CR + JN(CN' – CN) (10) wobei CR ein Durchschnittsvektor der Anfangsrauschsprach-HMMs ist, CN ein Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des HMM ist, das aus den Hintergrundrauschdaten vor der Rauschänderung erhalten wird (das als ein Anfangsrausch-HMM nachstehend bezeichnet werden wird), und CN' ein Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des HMM ist, das aus dem Hintergrundrauschen nach der Rauschänderung (zu einer Zeit einer tatsächlichen Erkennung) erhalten wird (das als ein Anpassungszielrausch-HMM nachstehend bezeichnet werden wird).
  • Hier kann CR durch einen Durchschnittsvektor der Rauschsprach-HMMs gegeben werden, die durch die Sprachdaten trainiert werden, welchen Hintergrundrauschen vor der Rauschänderung überlagert wird. Es ist auch möglich, die Rauschsprach-HMMe, die durch die HMM-Zusammensetzung von dem Anfangsrausch-HMM und den Reinsprach-HMMn ohne jedwedes Hintergrundrauschen erhalten werden, statt dessen zu verwenden.
  • Um die Jacobi-Matrix JN in der obigen Gleichung (10) zu erhalten, ist es notwendig, CN und CR zu haben, wie bereits oben in Bezug auf das Verfahren zum Berechnen der Jacobi-Matrix erwähnt. Diese CN und CR sind Parameter vor der Hintergrundrausch-Änderung, so dass sie im Voraus als eine Vorbereitung für die Rauschänderung berechnet werden können.
  • Gemäß der obigen Gleichung (10) kann, wenn CN, CR, JN und CN' bestimmt werden, das Rauschsprach-Cepstrum CR', das mit dem Zustand zu einer Zeit einer tatsächlichen Erkennung übereinstimmt, unmittelbar erhalten werden.
  • Das Modellanpassungsschema der vorliegenden Erfindung, wie sie oben beschrieben ist, kann in eine vorbereitende Verarbeitung, die im Voraus vor der Rauschänderung (eine Zeit einer tatsächlichen Erkennung) ausgeführt werden kann, und eine Anpassungsverarbeitung geteilt werden. Die Verarbeitung zum Erhalten des Anfangsrausch-HMM, der Anfangsrauschsprach-HMMe und der Jacobi-Matrizen kann nämlich als die vorbereitende Verarbeitung verwirklicht werden. Folglich kann zu einer Zeit einer tatsächlichen Erkennung die Anpassung des akustischen Modells durch eine kleine Menge von Berechnungen zum Erhalten des Anpassungszielrausch-HMM und ein Ausführen der Matrixberechnung der obigen Gleichung (10) vervollständigt werden.
  • Unter Bezugnahme nun auf 3 und 4 wird die erste Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden.
  • 3 zeigt eine Konfiguration einer Modellanpassungsvorrichtung in dieser ersten Ausführungsform, während 4 ein Flussdiagramm für den Betrieb dieser Modellanpassungsvorrichtung der 3 zeigt.
  • In der Modellanpassungsvorrichtung der 3 wird zuerst zu einer Zeit eines Modelltrainierens das Anfangsrausch-HMM aus dem Hintergrundrauschen erhalten, das bei einer Spracheingabeeinheit 1 eingegeben wird und bei einer Rauschextraktionseinheit 2 extrahiert wird (Schritt S1), und in einer Anfangsrausch-(HMM-)Speichereinheit 3 gespeichert. Auch ist das Anfangsrausch-HMM mit Reinsprach-HMMn, die in einer Reinsprach-HMM-Speichereinheit 4 gespeichert sind, durch die HMM-Zusammensetzung in einer HMM-Zusammensetzungseinheit 5 versehen, um so die Anfangsrauschsprach-HMMs zu berechnen (Schritt S2), und die berechneten Anfangsrauschsprach-HMMe werden in einer Anfangsrauschsprach-HMM-Speichereinheit 6 gespeichert. Dann werden die Jacobi-Matrizen aus dem Anfangsrauschsprach-HMM und den Anfangsrauschsprach-HMMe in einer Jacobi-Matrixberechnungseinheit 7 berechnet und in einer Jacobi-Matrixspeichereinheit 8 gespeichert (Schritt S3).
  • Als nächstes werden zu einer Zeit einer tatsächlichen Erkennung Rauschdaten in der Rauschextraktionseinheit 2 von Eingangrauschsprache (einer Erkennungszielsprache), die in die Spracheingabeeinheit 1 als das Anpassungs-Zielrausch-HMM eingegeben wird, extrahiert, und wenn eine Fehlanpassung zwischen der Eingangsrauschsprache und den Anfangsrauschsprach-HMMe vorhanden wird, wird ein Unterschied zwischen dem Anpassungs-Zielrausch-HMM und dem Anfangsrausch-HMM bei einer Differenzberechnungseinheit 9 erhalten (Schritt S4). Dann wird eine Verarbeitung zum Aktualisieren der Anfangsrauschsprach-HMMe auf der Grundlage der Taylor-Reihe unter Verwendung der erhaltenen Differenz und der Jacobi-Matrizen von einer Rauschsprach-HMM-Aktualisierungseinheit 10 ausgeführt, um so die angepassten Rauschsprach-HMMe in einer Approximation zu berechnen (Schritt S5), und die erhaltenen angepassten Rauschsprach-HMMe werden in einer Anpassungsrauschsprach-HMM-Speichereinheit 11 gespeichert. Dann wird die Erkennungsverarbeitung der Eingangsrauschsprache in einer Spracherkennungseinheit 12 unter Verwendung der ersten Rauschsprach-HMMe ausgeführt (Schritt S6), und ein erhaltenes Erkennungsergebnis wird bei einer Erkennungsergebnis-Ausgabeeinheit ausgegeben.
  • Es sei darauf hingewiesen, dass in dem Betrieb der 4 die vorbereitende Verarbeitung der Schritte S1, S2 und S3, das heißt die Berechnung und Speicherung des Rauschsprach-HMM, der Anfangsrauschsprach-HMMe und der Jacobi-Matrizen nur anfangs einmal auszuführen ist, auch wenn sich das Hintergrundrauschen bei jeder Gelegenheit der Erkennung ändert, und die berechneten Werte in jeweiligen Speichereinheiten für eine nachfolgende Verwendung zu speichern sind. Dann werden zu der Zeit einer tatsächlichen Erkennung die nachfolgende Anpassungsverarbeitung und Erkennungsverarbeitung der Schritte S4, S5 und S6, die diese gespeicherte Information allein benutzen, wiederholt ausgeführt.
  • Alternativ ist es auch möglich, die Verarbeitung der Schritte S3 bis 56 bei jeder Gelegenheit der Erkennung durch Verwendung des Anpassungszielrausch-HMM und der angepassten Rauschsprach-HMMe, die aus der unmittelbar vorangehenden Äußerung erhalten werden, als ein neues Anfangsmodell auszuführen.
  • Unter Bezugnahme nun auf 5 und 6 wird die zweite Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden. Diese zweite Ausführungsform ist auf einen Fall der Rauschanpassung gerichtet, die mit der spektralen Subtraktion (nachstehend als SS abgekürzt; siehe beispielsweise S. F. Boll: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. on ASSP, Bd. ASSP-27, Nr. 2, Seiten 113–120, 1979) kombiniert ist. Es sei hier darauf hingewiesen, dass die SS ein Rauschentfernungsverfahren ist, in welchem ein Durchschnittsspektrum unter Verwendung eines teilweise oder gesamten Abschnitts des aufgezeichneten Hintergrundrauschens berechnet wird, und das S/N-Verhältnis der Eingangsdaten durch ein Subtrahieren des berechneten Durchschnittsspektrums von dem Eingangsdatenspektrum verbessert wird. Diese SS erfordert einen kleinen Umfang an Berechnungen, weil sie nur die Spektrum-Durchschnittsberechnung und die Spektrumsubtraktion auf ruft.
  • 5 zeigt eine Konfiguration einer Modellanpassungsvorrichtung dieser zweiten Ausführungsform, während 6 ein Flussdiagramm für den Betrieb dieser Modellanpassungsvorrichtung der 5 zeigt.
  • Diese Modellanpassungsvorrichtung der 5 unterscheidet sich von jener der 3 dahingehend, dass eine Rausch-SS-Einheit 14 und eine Rauschsprach-SS-Einheit 15 zusätzlich an den Ausgangsseiten der Rauschextraktionseinheit 2 bereitgestellt sind. Die anderen Elemente dieser Modellanpassungsvorrichtung der 5 sind im wesentlichen die gleichen wie die entsprechenden Elemente der 3, die oben beschrieben ist.
  • In dieser Modellanpassungsvorrichtung der 5 wird in Verbindung mit dem Schritt S1 der vorbereitenden Verarbeitung und dem Schritt S4 der Anpassungsverarbeitung die SS in der Rausch-SS-Einheit 14 unter Verwendung eines teilweisen oder gesamten Abschnitts des aufgezeichneten Hintergrundrauschens ausgeführt (das Hintergrundrauschen, das zu der Zeit eines Modelltrainierens aufgezeichnet ist, und das Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung), indem das Durchschnittsspektrum berechnet wird und dieses Durchschnittsspektrum von dem Spektrum des gesamten Abschnitts der aufgezeichneten Rauschdaten subtrahiert wird, um so Schätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens zu erhalten (S7 und S8). Dann werden das Anfangsrausch-HMM und das Anpassungszielrausch-HMM unter Verwendung der erhaltenen Überschätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens als Trainingsdaten in den Schritten S1 bzw. S4 erzeugt.
  • Zusätzlich wird die SS auch in der Rauschsprach-SS-Einheit 15 in Verbindung mit dem Schritt S6 der Erkennungsverarbeitung ausgeführt (Schritt S9), so dass die Spracherkennungseinheit 12 die Erkennung der Sprachdaten ausführt, die durch die Subtraktion der erhaltenen Überschätzungs- und Unterschätzungs-Fehlerkomponenten des Rauschens von der Eingangsrauschsprache erhalten werden.
  • Die anderen Schritte dieses Betriebs der 6 sind im wesentlichen die gleichen wie die entsprechenden Schritte der 4, die oben beschrieben ist.
  • Als nächstes wird die dritte Ausführungsform des Modellanpassungsschemas gemäß der vorliegenden Erfindung im Detail beschrieben werden.
  • Diese dritte Ausführungsform ist auf einen Fall der Rauschanpassung gerichtet, die eine Mehrzahl von Jacobi-Matrizen verwendet, die aus einer Mehrzahl von Anfangsrauschkomponenten erhalten werden.
  • In der vorliegenden Erfindung hängt die Erkennungsrate, die in der Anpassung an das Anpassungszielrauschen herrührt, von einer Wahl des Anfangsrauschens ab. Beispielsweise sein ein Fall der Anpassung betrachtet, in welchem das Anpassungs-Zielrauschen ein Klimaanlagenrauschen ist. In diesem Fall ist das Klimaanlagenrauschen ein relativ stabiles Rauschen, so dass die Wirkung der Anpassung gemäß der vorliegenden Erfindung durch ein Wählen eines stabilen Rauschens wie etwa eines Rauschens verbessert werden kann, das zum großen Teil durch das Geräusch eines Gebläses eines Computers als das Anfangsrauschen dominiert wird, anstelle das ein nichtstabiles Rauschen ein Rauschen gewählt wird, das die Geräusche von vorbeifahrenden Fahrzeugen und menschlichen Stimmen an einer Straßenecke enthält.
  • Jedoch ist das Anpassungszielrauschen im Voraus nicht notwendiger Weise bekannt, so dass es schwierig ist, das beste Anfangsrauschen aufzubereiten, das den vollen Nutzen aus der vorliegenden Erfindung ziehen kann. Aus diesem Grund ist in dieser dritten Ausführungsform eine Mehrzahl von Anfangsrauschkomponenten unterschiedlicher Typen aufbereitet, und das beste Anfangsrauschen unter dieser Mehrzahl von Rauschkomponenten wird zu einer Zeit der Rauschanpassung gewählt, um so die Rauschanpassung konstant mit einer hohen Erkennungsrate ungeachtet eines Typs des Anpassungszielrauschens zu verwirklichen.
  • In dieser dritten Ausführungsform weist die Modellanpassungsvorrichtung eine Konfiguration ähnlich zu jener der 3, die oben beschrieben ist, auf, außer dass die Anfangsrausch-(HMM-)Speichereinheit 3 eine Mehrzahl von Anfangsrausch-HMMn für eine Mehrzahl von Anfangsrauschkomponenten speichert, und die Anfangsrausch-Sprach-HMM-Speichereinheit 6 eine Mehrzahl von Sätzen von Anfangsrausch-Sprach-HMMn speichert, die einer Mehrzahl von Anfangsrauschkomponenten entsprechen, während die Jacobi-Matrixspeichereinheit 8 eine Mehrzahl von Sätzen von Jacobi-Matrizen speichert, die einer Mehrzahl von Anfangsrauschkomponenten entsprechen, und die Rauschsprach-HMM-Aktualisierungseinheit 10 weist eine Funktion zum Wählen des besten Anfangsrauschens auf.
  • Die Auswahl des besten Anfangsrauschens kann wie folgt verwirklicht werden.
  • Zuerst werden eine Mehrzahl von Anfangsrauschkomponenten unterschiedlicher Typen aufbereitet, und das Anfangsrausch-HMM und die Jacobi-Matrix, die jedem Anfangsrauschen entspricht, werden berechnet und im Voraus gespeichert.
  • Dann wird die Ähnlichkeit des Anpassungszielrauschens, das zu einer Zeit einer tatsächlichen Erkennung beobachtet wird, und jedes gespeicherte Anfangsrauschen berechnet. Hier kann die Berechnung der Ähnlichkeit beispielsweise durch ein Verwenden des euklidischen Abstands zwischen einem Durchschnittsvektor und einer Ausgangsprobabilitätsverteilung des Anfangsrausch-HMMs und einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs verwirklicht werden. Spezifischer kann der euklidische Abstand D(i) zwischen einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anfangsrausch-HMM und einem Durchschnittsvektor einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs wie folgt berechnet werden.
    Figure 00180001
    wobei Ci Nk das k-te Element des Durchschnittsvektors Ci N einer n-Ausgangsprobabilitätsverteilung des i-ten Anfangsrausch-HMMs ist, und C'Nk das k-te Element des Durchschnittsvektors C'N einer Ausgangsprobabilitätsverteilung des Anpassungszielrausch-HMMs ist.
  • Unter Verwendung der obigen Gleichung (11) werden die euklidischen Abstände des Anpassungszielrausch-HMMs bezüglich sämtlicher Anfangsrausch-HMMe berechnet, und das Anfangsrausch-HMM im imin, für welches der berechnete euklidische Abstand am kleinsten ist, wird wie folgt gewählt.
  • Figure 00190001
  • Dann wird die Aktualisierung der Rauschsprach-HMMe gemäß der vorliegenden Erfindung wie oben beschrieben ausgeführt, indem das Anfangsrausch-HMM, das auf diese Weise gewählt ist, und die entsprechenden Jacobi-Matrizen verwendet werden, und dann wird die Erkennung unter Verwendung der angepassten Rauschsprach-HMMe wie oben beschrieben ausgeführt. Auf diese Weise wird es, indem eine Mehrzahl von Anfangsrausch-HMMn und eine Mehrzahl von Jacobi-Matrizen vorbereitet wird, indem ein Anfangsrausch-HMM gewählt wird, das dem beobachteten Anpassungszielrausch-HMM weitestgehend ähnelt, und die Parameteraktualisierung gemäß der vorliegenden Erfindung unter Verwendung des gewählten Anfangsrausch-HMMs und der entsprechenden Jacobi-Matrizen ausgeführt wird, möglich, die Rauschanpassung mit einer hohen Erkennungsrate konstant zu verwirklichen.
  • In den obigen Ausführungsformen ist die Modellanpassung gemäß der vorliegenden Erfindung für einen Fall eines Handhabens einer Änderung von Hintergrundrauschen beschrieben worden, aber das Modellanpassungsschema der vorliegenden Erfindung ist gleichermaßen anwendbar auf verschiedene andere Fälle.
  • Beispielsweise ist es möglich, die Modellanpassung gemäß der vorliegenden Erfindung auf einen Fall eines Handhabens einer Änderung einer Kanalstörung anzuwenden. In diesem Fall ist ein Parameter zum Ausdrücken der Kanalstörung der gleiche Cepstrum, der auch als der Modellparameter dient. Folglich wird der Differentialquotient in der Taylor-Reihe der obigen Gleichung (7) 1, so dass die Berechnung sehr einfach ausgeführt werden kann. Es ist auch möglich, die Modellanpassung gemäß der vorliegenden Erfindung auf einen Fall eines Handhabens einer Änderung einer Vokaltraktlänge anzuwenden. In diesem Fall kann der Modellparameter gemäß einer Änderung des Vokaltraktlängenparameters gemäß der vorliegenden Erfindung, wie oben beschrieben, angepasst werden.
  • Als nächstes werden die Ergebnisse von Experimenten bezüglich der akustischen Modellanpassung in einem Fall eines Handhabens einer Änderung von Hintergrundrauschen, die von den betreffenden Erfindern zum Zweck eines Aufzeigens der Wirkung der vorliegenden Erfindung durchgeführt wurden, beschrieben werden. Hier wurden die Experimente unter der Annahme durchgeführt, dass das Hintergrundrauschen in dem Anfangszustand das Straßeneckenrauschen war, aber das Hintergrundrauschen zu der Zeit einer tatsächlichen Erkennung auf das Ausstellungshallenrauschen geändert ist. In dem Ergebnis, das unten beschrieben ist, wird das Modellanpassungsschema gemäß der vorliegenden Erfindung kurz auch als die Jacobi-Anpassung bezeichnet.
  • Für Vergleichszwecke wurden ein Experiment bezüglich der Modellanpassung gemäß des typischen herkömmlichen Rauschanpassungsschemas NOVO auch durchgeführt. Hier ist die Verarbeitungsprozedur des NOVO wie in 7 gezeigt, die umfasst: Die Konversion der Reinsprach-HMMe in lineare Spektren unter Verwendung von Reinsprach-HMM-Eingaben (Schritt S11); das Trainieren des Anpassungszielrausch-HMMs unter Verwendung eines Rauschens, das zu einer Zeit einer tatsächlichen Erkennung beobachtet wird (Schritt S12); die Konversion des Anpassungszielrausch-HMMs in ein lineares Spektrum (Schritt S13); die Berechnung linearer Spektren für die Rauschsprach-HMMe durch die lineare Spektrumzusammensetzung (Schritt S14); die Konversion der Rauschsprach-HMMs in Cepstrums (Schritt S15); und die Spracherkennungsverarbeitung unter Verwendung einer Erkennungszielsprache (Schritt S16).
  • Zusätzlich wurde ein Experiment für einen Fall ohne Anpassung, in welchem das Anfangsrauschsprachmodell, das durch das NOVO von dem Hintergrundrauschen in den Anfangszustand (dem Straßeneckenrauschen) erhalten wird, direkt für die Spracherkennung nach der Rauschänderung verwendet wird, auch durchgeführt. Überdies wurde ein Experiment für einen Fall, in welchem die Modelle, die aus den Rein-HMMen erhalten werden, direkt für die Spracherkennung verwendet werden, auch durchgeführt.
  • In diesen Experimenten waren die Evaluationsdaten Namen von 100 Städten, die von 13 unterschiedlichen Sprechern ausgesprochen wurden, welchen das Ausstellungshallenrauschen durch die Computerverarbeitung überlagert ist. Die Anpassung wurde durch ein Trainieren des Anpassungszielrausch-HMMs unter Verwendung der Ausstellungshallen-Rauschdaten in einem Abschnitt unmittelbar vor den Evaluationsdaten ausgeführt. Das S/N-Verhältnis bezüglich der Evaluationsdaten betrug 10 dB für sowohl das Straßeneckenrauschen als auch das Ausstellungshallenrauschen. Das Erkennungsvokabular enthielt 400 Worte.
  • 8 zeigt die Worterkennungs-Ratenergebnisse, die von dem Modellanpassungsschema der vorliegenden Erfindung erhalten werden, und drei andere herkömmliche Schemata, die oben unter Bezugnahme auf verschiedene Ausstellungshallen-Rauschdatenlängen beschrieben sind (das heißt, verschiedene Rauschbeobachtungszeiten), die für die Anpassung verwendet werden. Auch zeigt die Tabelle 1 unten einen Vergleich der Verarbeitungsmengen (CPU-Zeit), die für die Anpassungsverarbeitung in dem Modellanpassungsschema der vorliegenden Erfindung und des NOVO erforderlich sind. Es sei hier darauf hingewiesen, dass die Menge an Berechnungen, die für die akustische Verarbeitung und das Rauschtrainieren in der Anpassungsverarbeitung erforderlich ist, von der Anpassungsrausch-Datenlänge abhängt, so dass die CPU-Zeit, die für sie erforderlich ist, nicht in der CPU-Zeit, die in der Tabelle 1 gezeigt ist, für sowohl das Modellanpassungsschema der vorliegenden Erfindung als auch das NOVO eingeschlossen ist.
  • [TABELLE 1]
    Figure 00220001
  • Wie aus 8 ersehen werden kann, zeigt das NOVO das gute Betriebsverhalten, wenn die Anpassungsdaten ausreichend lang sind (900 ms oder länger in 8), aber sein Betriebsverhalten wurde dramatisch abgesenkt, wenn die Anpassungsdaten nicht ausreichend lang sind. Andererseits wurde in der Modellanpassung gemäß der vorliegenden Erfindung das bessere Betriebsverhalten als das NOVO für kurze Anpassungsdaten (800 ms oder kürzer in 8) erhalten. Auch betrug, wie aus der Tabelle 1 ersehen werden kann, die Verarbeitungszeit, die für die Anpassung durch die vorliegende Erfindung erforderlich ist, nur 1/34 jener, die für das NOVO erforderlich ist.
  • Somit wurde bestätigt, dass das Modellanpassungsschema der vorliegenden Erfindung in der Lage ist, die Anpassung unter Verwendung kürzerer Anpassungsdaten zu verwirklichen, und dass seine Anpassungsverarbeitung viel schneller ist. Dieses Merkmal impliziert, dass das Modellanpassungsschema der vorliegenden Erfindung für die Echtzeitanpassung des akustischen Modells an das sich ändernde Hintergrundrauschen geeignet ist. Als nächstes wird das Ergebnis des Experiments bezüglich der Spracherkennung in einem Fall eines Einführens der SS in das Modellanpassungsschema der vorliegenden Erfindung, wie in der zweiten Ausführungsform oben beschrieben, beschrieben werden. Hier sind die Zustände des Experiments die gleichen wie jene, die oben beschrieben sind. Die Rauschdatenlänge, die bei einem Berechnen des Durchschnittsspektrums des Rauschens verwendet wird, betrug 160 ms.
  • Eine Tabelle 2 zeigt die Worterkennungs-Ratenergebnisse, die durch das Modellanpassungsschema der vorliegenden Erfindung ohne Verwendung der SS (Jacobi-Anpassung) und das Modellanpassungsschema der vorliegenden Erfindung unter Verwendung der SS (SS-Jacobi-Anpassung) in einem Fall eines Verwendens der Ausstellungshallen-Rauschdatenlänge von 50 ms für die Anpassung erhalten werden.
  • [TABELLE 2]
    Figure 00230001
  • Wie aus der Tabelle 2 ersehen werden kann, war es möglich, die Worterkennungsrate durch ein Einführen der SS in das Modellanpassungsschema der vorliegenden Erfindung zu verbessern. Somit wurde bestätigt, dass es möglich war, das Betriebsverhalten der Modellanpassung durch ein Einführen der SS, die nur eine kleine Menge an Berechnungen erfordert, in die vorliegende Erfindung zu verbessern, ohne die schnelle Natur ihrer Anpassungsverarbeitung zu opfern.
  • Wie beschrieben, wird gemäß der vorliegenden Erfindung die Jacobi-Matrix im Voraus aus dem Anfangszustands-Probabilistikmodell und dem Anfangszustands-auferlegten Probabilistikmodell berechnet, das Anpassungszielzustands-Probabilistikmodell wird durch ein Messen des Zustands zu der Zeit einer tatsächlichen Erkennung erhalten, und das Anpassungszustands-auferlegte Probabilistikmodell wird in einer Approximation durch ein Aktualisieren des Anfangszustands-auferlegten Probabilistikmodells unter Verwendung der Taylor-Reihe auf der Grundlage der Jacobi-Matrix und eines Unterschieds zwischen dem Anpassungszielzustands-Probabilistikmodell und dem Anfangszustands-Probabilistikmodell berechnet, so dass es möglich ist, das Erkennungs-Betriebsverhalten der Mustererkennung durch ein Ausführen der Anpassungsverarbeitung durch nur eine kleine Menge von Berechnungen bei hoher Geschwindigkeit zu verbessern.
  • Es sei darauf hingewiesen, dass in den obigen Ausführungsformen auf verschiedene Weisen beurteilt werden kann, ob eine Fehlanpassung zwischen den Eingangsrauschsprach- und den Anfangsrauschsprach-HMMen vorhanden ist. Beispielsweise ist es möglich, zu beurteilen, dass eine Fehlanpassung zwischen den Eingangsrauschsprachund den Anfangsrauschsprach-HMMen vorhanden ist, wenn die Rauschsprach-HMM-Aktualisierungseinheit beurteilt, dass ein Unterschied zwischen dem Anpassungszielrausch-HMM und dem Anfangsrausch-HMM, wie er durch die Differenzberechnungseinheit 9 erhalten wird, signifikant ist. Es ist auch möglich, Spracherkennung zuerst unter Verwendung der Anfangsrauschsprach-HMMe auszuführen, und zu beurteilen, ob eine Fehlanpassung zwischen den Eingangsrauschsprach- und den Anfangsrauschsprach-HMMen in der Spracherkennungseinheit 12 vorhanden ist oder nicht, in Abhängigkeit davon, wie niedrig die resultierende Erkennungsrate ist.
  • Es sei auch darauf hingewiesen, dass die obigen Ausführungsformen hauptsächlich für einen Fall der Spracheingabe beschrieben worden sind, aber die vorliegende Erfindung ist nicht auf diesen bestimmten Fall beschränkt und bereit, auf andere Typen einer Mustererkennung wie etwa einer Erkennung von Figuren, Zeichen, etc. anwendbar.
  • Es sei auch darauf hingewiesen, dass die oben beschriebenen Ausführungsformen gemäß der vorliegenden Erfindung bequem unter Verwendung eines herkömmlichen Mehrzweckcomputers implementiert werden können, der gemäß den Lehren der vorliegenden Spezifikation programmiert ist, wie Durchschnittsfachleute in der Computertechnik erkennen werden. Eine geeignete Softwarecodierung kann auf einfache weise von Programmierern auf der Grundlage der Lehren der vorliegenden Offenbarung hergestellt werden, wie Durchschnittsfachleute in der Softwaretechnik erkennen werden.
  • Insbesondere kann die vorbereitende Verarbeitung und die Anpassungsverarbeitung in den obigen Ausführungsformen, wie sie in 4 und 6 gezeigt ist, bequem in einer Form eines Softwarepakets implementiert werden. Es ist auch möglich, die gesamte vorbereitende Verarbeitung, die Anpassungsverarbeitung und die Erkennungsverarbeitung der obigen Ausführungsform in einer Form eines Software-Pakets zu implementieren.
  • Ein derartiges Softwarepaket kann ein Computerprogrammprodukt sein, dass ein Speichermedium einsetzt, das einen gespeicherten Computercode einschließt, der verwendet wird, um einen Computer zu programmieren, um die offenbarte Funktion und den Prozess der vorliegenden Erfindung durchzuführen. Das Speichermedium kann jedweden Typ herkömmlicher Disketten, optischer Platten, CD-ROMs, magnetooptischer Platten, ROMs, RAMs, EPROMSs, EEPROMs, magnetischer oder optischer Karten oder jedwede andere geeignete Medien zum Speichern elektronischer Instruktionen einschließen, ist aber darauf nicht beschränkt.
  • Es sei auch darauf hingewiesen, dass neben den bereits oben erwähnten viele Modifikationen und Variationen der obigen Ausführungsformen ausgeführt werden können, ohne von den neuen und vorteilhaften Merkmalen der vorliegenden Erfindung abzuweichen.

Claims (18)

  1. Mustererkennungsvorrichtung, umfassend: eine Eingabeeinheit (1) zum Eingeben von Eingangsvektoren; eine Parameterextraktionseinheit (2) zum Extrahieren eines Parameters, der einen Zustand einer Mustererkennung ausdrückt, und zum Probabilistikmodell-Trainieren aus jedem Eingangsvektor; eine Anfangszustand-Probabilistikmodell-Erzeugungs- und -Speichereinheit (3, 5, 6) zum Erzeugen und Speichern eines Anfangszustand-Probabilistikmodells aus dem Parameter, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert ist, der in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben wird; eine Jacobi-Matrix-Berechnungs- und -Speichereinheit (7, 8) zum Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustandauferlegten Probabilistikmodellen; eine Differenzberechnungseinheit (9) zum Berechnen einer Differenz zwischen dem Anfangszustand-Probabilistikmodell und einem Anpassungszielzustand-Probabilistikmodell, das aus dem Parameter erhalten wird, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert ist, der in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben wird; eine Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit (10, 11) zum Berechnen und Speichern von Anpassungszustand-auferlegten Probabilistikmodellen aus der Differenz, den Anfangszustand-auferlegten Probabilistikmodellen und den Jacobi-Matrizen; und eine Mustererkennungseinheit (12) zum Ausführen einer Mustererkennung, indem eine Wahrscheinlichkeit berechnet wird, dass jedes Anpassungszustand-auferlegte Probabilistikmodell Merkmale jeder Erkennungskategorie bezüglich des Eingangsvektors ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungszustandauferlegtes Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungszustandauferlegten Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
  2. Mustererkennungsvorrichtung nach Anspruch 1, weiter umfassend: eine Referenz-Probabilistikmodell-Speichereinheit zum Speichern vorgegebener Referenz-Probabilistikmodelle, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt; und eine Anfangszustand-auferlegte Probabilistikmodell-Erzeugungs- und -Speichereinheit zum Erzeugen und Speichern der Anfangszustand-auferlegten Probabilistikmodelle aus einem Anfangszustand-Probabilistikmodell und den Referenz-Probabilistikmodellen.
  3. Mustererkennungsvorrichtung nach Anspruch 2, wobei die Eingabeeinheit eine Spracheingabeeinheit (1) zum Eingeben von Eingangs-Rauschsprachdaten umfasst; die Parameterextraktionseinheit eine Rauschextraktionseinheit (2) zum Extrahieren von Rauschdaten aus sämtlichen Eingangs-Rauschsprachdaten und eine Rausch-Spektral-Subtraktionseinheit 9 zum Erhalten von Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten und durch ein Subtrahieren des mittleren Spektrums von einem Spektrum eines gesamten Abschnitts der Rauschdaten, umfasst; die Anfangszustand-Probabilistikmodell-Erzeugungs- und – Speichereinheit eine Anfangsrauschmodell-Erzeugungs- und -Speichereinheit (3) zum Erzeugen und Speichern eines Anfangsrauschmodells aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben werden, umfasst; die Referenz-Probabilistikmodell-Speichereinheit eine Rein-Sprachmodell-Speichereinheit (4) zum Speichern vorgegebener Rein-Sprachmodelle umfasst; die Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit eine Anfangs-Rauschsprachmodell-Erzeugungs- und -Speichereinheit (5, 6) zum Erzeugen und Speichern von Anfangs-Rauschsprachmodellen aus dem Anfangs-Rauschmodell und den Rein-Sprachmodellen umfasst; die Jacobi-Matrix-Berechnungs- und -Speichereinheit (7, 8) Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in den Rauschdaten ausdrückt, aus dem Anfangs-Rauschmodell und den Anfangs-Rauschsprachmodellen berechnet und speichert; die Differenz-Berechnungseinheit (9) eine Differenz zwischen dem Anfangs-Rauschmodell und einem Anpassungs-Zielrauschmodell, das aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten erhalten wird, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, berechnet; die Anpassungszustand-auferlegte Probabilistikmodell-Berechnungs- und -Speichereinheit eine Anpassungs-Rauschsprachmodell-Berechnungs- und -Speichereinheit (10, 11) zum Berechnen und Speichern von Anpassungs-Rauschsprachmodellen aus der Differenz, den Anfangs-Rauschsprachmodellen und den Jacobi-Matrizen und eine Rausch-Sprachspektral-Subtraktionseinheit (9) zum Erhalten von Rausch-subtrahierten Sprachdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu der Zeit einer tatsächlichen Erkennung eingegeben werden, und zum Subtrahieren des mittleren Spektrums von einem Spektrum eines gesamten Abschnitts der Eingangs-Rauschsprachdaten, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, umfasst; und die Mustererkennungseinheit eine Spracherkennungseinheit (12) zum Ausführen einer Spracherkennung umfasst, indem eine Wahrscheinlichkeit berechnet wird, dass jedes Anpassungs-Rauschsprachmodell Merkmale jeder Erkennungskategorie bezüglich der Rausch-subtrahierten Sprachdaten ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungs-Rauschsprachmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungs-Rauschsprachmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
  4. Mustererkennungsverfahren, umfassend die Schritte: (a) Eingeben von Eingangsvektoren; (b) Extrahieren eines Parameters, der einen Zustand einer Mustererkennung ausdrückt, und zum Probabilistikmodell-Trainieren aus jedem Eingangsvektor; (c) Erzeugen und Speichern eines Anfangszustand-Probabilistikmodells von dem Parameter, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert wird, der in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten eingegeben wird; (d) Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und den Anfangszustand-auferlegten Probabilistikmodellen; (e) Berechnen einer Differenz zwischen dem Anfangszustand-Probabilistikmodell und einem Anpassungszielzustand-Probabilistikmodell, das von dem Parameter erhalten wird, der den Zustand ausdrückt, der aus dem Eingangsvektor extrahiert wird, der in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben wird; (f) Berechnen und Speichern von Anpassungszustandauferlegten Probabilistikmodellen aus der Differenz, den Anfangszustand-auferlegten Probabilistikmodellen und den Jacobi-Matrizen; und (g) Ausführen einer Mustererkennung durch ein Berechnen einer Wahrscheinlichkeit, dass jedes Anpassungszustand-auferlegte Probabilistikmodell Merkmale jeder Erkennungskategorie bezüglich des Eingangsvektors ausdrückt, und durch ein Ausgeben einer Erkennungskategorie, die durch ein Anpassungszustand-auferlegtes Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungszustand-auferlegten Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis.
  5. Mustererkennungsverfahren nach Anspruch 4, weiter umfassend die Schritte: (h) Speichern vorgegebener Referenz-Probabilistikmodelle, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt; und (i) Erzeugen und Speichern von Anfangszustandauferlegten Probabilistikmodellen aus einem Anfangszustand-Probabilistikmodell und den Referenz-Probabilistikmodellen.
  6. Mustererkennungsverfahren nach Anspruch 5, wobei der Schritt (a) zum Eingeben von Eingangs-Rauschsprachdaten bereitgestellt ist; der Schritt (b) zum Extrahieren von Rauschdaten von sämtlichen Eingangs-Rauschsprachdaten und zum Erhalten von Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten durch ein Berechnen eines mittleren Spektrums aus einem Teil- oder Gesamtabschnitt der Rauschdaten und ein Subtrahieren des mittleren Spektrums von einem Spektrum eines Gesamtabschnitts der Rauschdaten bereitgestellt ist; der Schritt (c) zum Erzeugen und Speichern eines Anfangsrauschmodells aus den Überschätzungs- und Unterschätzungs-Fehlerkomponenten der Rauschdaten bereitgestellt ist, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem Anfangszustand zu einer Zeit eines Erlangens von Trainingsdaten erhalten werden; der Schritt (h) zum Speichern vorgegebener Referenz-Probabilistikmodelle bereitgestellt ist; der Schritt (i) zum Erzeugen und Speichern von Anfangs-Rauschsprachmodellen aus dem Anfangs-Rauschsprachmodell aus dem Anfangsrauschmodell und den Rein-Sprachmodellen bereitgestellt ist; der Schritt (d) zum Berechnen und Speichern von Jacobi-Matrizen und einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in den Rauschdaten ausrückt, aus dem Anfangsrauschmodell und den Anfangs-Rauschsprachmodellen bereitgestellt ist; der Schritt (e) zum Berechnen einer Differenz zwischen dem Anfangs-Rauschmodell und einen Anpassungsziel-Rauschmodell erhalten wird, das aus den Überschätzungsund Unterschätzungs-Fehlerkomponenten der Rauschdaten erhalten wird, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden; der Schritt (f) zum Berechnen und Speichern von Anpassungs-Rauschsprachmodellen aus der Differenz, den Anfangs-Rauschsprachmodellen und den Jacobi-Matrizen, und zum Erhalten von Rausch-subtrahierten Sprachdaten durch ein Berechnen eines mittleren Spektrums von einem Teil- oder Gesamtabschnitt der Rauschdaten, die aus den Eingangs-Rauschsprachdaten erhalten werden, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, und durch ein Subtrahieren des mittleren Spektrums von einem Spektrum eines Gesamtabschnitts der Eingangs-Rauschsprachdaten, die in einem gegenwärtigen Zustand zu einer Zeit einer tatsächlichen Erkennung eingegeben werden, bereitgestellt ist; und der Schritt (g) zum Ausführen einer Spracherkennung bereitgestellt ist, indem eine Wahrscheinlichkeit berechnet wird, das jedes Anpassungs-Rauschsprachmodell, das Merkmale jeder Erkennungskategorie bezüglich der Rausch-subtrahierten Sprachdaten ausdrückt, und eine Erkennungskategorie, die durch ein Anpassungs-Rauschsprachmodell mit einer höchsten Wahrscheinlichkeit unter den Anpassungs-Rauschsprachmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird.
  7. Verfahren zur Modellanpassung in einer Mustererkennung, in welcher eine Wahrscheinlichkeit eines Eingangsvektors bezüglich eines jeweiligen Probabilistikmodells, das Merkmale jeder Erkennungskategorie ausdrückt, berechnet wird, und eine Erkennungskategorie durch ein Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter einer Vielzahl vorgegebener Probabilistikmodelle als ein Erkennungsergebnis ausgegeben wird, wobei das Verfahren die Schritte umfasst: (a) Trainieren eines Anfangszustand-Probabilistikmodells aus einem Parameter, der einen Zustand einer Mustererkennung ausdrückt, und einem Probabilistikmodell-Trainieren, das zu einer Zeit eines Modelltrainierens aufgezeichnet wird; (b) Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustand-auferlegten Probabilistikmodellen; (c) Trainieren eines Anpassungszielzustand-Probabilistikmodells unter Verwendung des Parameters, der den Zustand ausdrückt, der zu einer Zeit einer tatsächlichen Erkennung beobachtet wird; und (d) Erhalten eines Anpassungszustand-auferlegten Probabilistikmodells durch ein Aktualisieren der Anfangszustand-auferlegten Probabilistikmodelle gemäß der Taylor-Entwicklung unter Verwendung der Jacobi-Matrizen, wenn das Anfangszustand-Probabilistikmodell und das Anpassungszielzustand-Probabilistikmodell nicht zusammenpassen.
  8. Verfahren nach Anspruch 7, weiter umfassend den Schritt: (e) Erhalten von Anfangszustand-auferlegten Probabilistikmodellen aus dem Anfangszustand-Probabilistikmodell und vorgegebenen Referenz-Probabilistikmodellen, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt.
  9. Verfahren nach Anspruch 7, weiter umfassend den Schritt eines Speicherns von mehr als einem Satz von Probabilistikmodellen in Übereinstimmung mit verschiedenen Typen des Zustands; wobei, wenn sich der gegenwärtige Zustand mit der Zeit ändert, der Schritt (d) einen Satz eines Probabilistikmodells, das einem Typ des Zustands entspricht, der dem gegenwärtigen Zustand am meisten ähnelt, aus dem mehr als einen Satz von Probabilistikmodellen wählt und die Probabilistikmodelle an den gegenwärtigen Zustand unter Verwendung der Taylor-Entwicklung anpasst, während der eine Satz von Probabilistikmodellen als Anfangs-Probabilistikmodelle gesetzt wird.
  10. Verfahren nach Anspruch 9, weiter umfassend den Schritt eines Berechnens und Speicherns von mehr als einen Satz von Jacobi-Matrizen der Taylor-Entwicklung in Übereinstimmung mit dem mehr als einen Satz von Probabilistikmodellen im Voraus, so dass der Schritt (d) den Modellparameter nach einer Zustandsänderung unter Verwendung eines Satzes von Jacobi-Matrizen erhält, wie sie im Voraus berechnet und gespeichert sind, welcher dem einen Satz von Probabilistikmodellen entspricht.
  11. Verfahren nach Anspruch 7, wobei die Probabilistikmodelle Hidden-Markov-Modelle sind.
  12. Verfahren nach Anspruch 7, wobei der Eingangsvektor ein Sprachmerkmalsparameter einer Eingangsprache ist, und der Zustand ein Hintergrundrauschen zu einer Zeit eines Aufzeichnens der Eingangsprache oder eine Vokaltraktlänge eines Sprechers ist, der die Eingangssprache äußerte.
  13. Verfahren nach Anspruch 12, wobei der Zustand das Hintergrundrauschen ist, und das Verfahren weiter die Schritte eines Erhaltens eines jeweiligen Probabilistikmodells vor einer Zustandsänderung durch eine Zusammensetzung eines Probabilistikmodells einer Rein-Sprache ohne Rauschen und eines Probabilistikmodells, das von dem Hintergrundrauschen vor einer Zustandsänderung erhalten wird, umfasst.
  14. Verfahren nach Anspruch 12, wobei der Zustand das Hintergrundrauschen ist, der Parameter, der den Zustand ausdrückt, ein Cepstrum-Parameter eines Spektrums ist, das durch ein Subtrahieren eines mittleren Rauschspektrums von einem Rauschspektrum erhalten wird, das der Eingangssprache entspricht, und der Eingangsvektor ein Cepstrum-Parameter eines Sprachsignals ist, das durch ein Subtrahieren des mittleren Rauschspektrums von der Eingangssprache erhalten wird.
  15. Computer-basierte Vorrichtung zur Modellanpassung in einer Mustererkennung, in welcher eine Wahrscheinlichkeit, dass ein Eingangsvektor bezüglich eines jeweiligen Probabilistikmodells Merkmale einer jeweiligen Erkennungskategorie ausdrückt, berechnet wird, und eine Erkennungskategorie, die durch ein Probabilistikmodell mit einer höchsten Wahrscheinlichkeit unter einer Vielzahl von vorgegebenen Probabilistikmodellen ausgedrückt wird, als ein Erkennungsergebnis ausgegeben wird, wobei die Vorrichtung umfasst: (a) eine Einheit (3, 5, 6) zum Trainieren eines Anfangszustand-Probabilistikmodells aus einem Parameter, der einen Zustand einer Mustererkennung ausdrückt, und einem Probabilistikmodell-Trainieren, das zu einer Zeit eines Modelltrainierens aufgezeichnet wird; (b) eine Einheit (7, 8) zum Berechnen und Speichern von Jacobi-Matrizen einer Taylor-Entwicklung, die eine Änderung in einem Modellparameter hinsichtlich einer Änderung in dem Parameter ausdrückt, der den Zustand ausdrückt, aus dem Anfangszustand-Probabilistikmodell und Anfangszustand-auferlegten Probabilistikmodellen; (c) eine Einheit zum Trainieren eines Anpassungszielzustand-Probabilistikmodells unter Verwendung des Parameters, der den Zustand ausdrückt, der zu einer Zeit einer tatsächlichen Erkennung beobacht wird; und (d) eine Einheit (10, 11) zum Erhalten von Anpassungszustand-auferlegten Probabilistikmodellen durch ein Aktualisieren der Anfangszustandauferlegten Probabilistikmodelle gemäß der Taylor-Entwicklung unter Verwendung der Jacobi-Matrizen, wenn das Anfangszustand-Probabilistikmodell und das Anpassungszielzustand-Probabilistikmodell nicht zusammenpassen.
  16. Computer-basierte Vorrichtung nach Anspruch 15, weiter umfassend: (e) eine Einheit zum Erhalten von Anfangszustandauferlegten Probabilistikmodellen aus dem Anfangszustand-Probabilistikmodell und vorgegebenen Referenz-Probabilistikmodellen, die einem vorgegebenen Wert des Parameters entsprechen, der den Zustand ausdrückt.
  17. Computer-basierte Vorrichtung nach Anspruch 15, weiter umfassend eine Probabilistikmodell-Speichereinheit zum Speichern von mehr als einem Satz von Probabilistikmodellen in Übereinstimmung mit verschiedenen Typen des Zustands; wobei, wenn sich der gegenwärtige Zustand mit der Zeit ändert, die Einheit (d) einen Satz eines Probabilistikmodells, das einem Typ des Zustands entspricht, der dem gegenwärtigen Zustand am meisten ähnelt, von dem mehr als einen Satz von Probabilistikmodellen auswählt, und die Probabilistikmodelle an den gegenwärtigen Zustand unter Verwendung der Taylor-Entwicklung anpasst, während ein Satz von Probabilistikmodellen als Anfangs-Probabilistikmodelle gesetzt wird.
  18. Computer-basierte Vorrichtung nach Anspruch 17, wobei die Einheit (b) mehr als einen Satz von Jacobi-Matrizen der Taylor-Entwicklung in Übereinstimmung mit dem mehr als einen Satz von Probabilistikmodellen im Voraus berechnet und speichert, so dass die Einheit (d) den Modellparameter nach einer Zustandsänderung unter Verwendung eines Satzes von Jacobi-Matrizen erhält, wie sie im Voraus berechnet und gespeichert sind, welcher dem einen Satz von Probabilistikmodellen entspricht.
DE69726526T 1996-09-20 1997-09-16 Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert Expired - Lifetime DE69726526T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP25054096 1996-09-20
JP25054096 1996-09-20

Publications (2)

Publication Number Publication Date
DE69726526D1 DE69726526D1 (de) 2004-01-15
DE69726526T2 true DE69726526T2 (de) 2004-10-14

Family

ID=17209436

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69726526T Expired - Lifetime DE69726526T2 (de) 1996-09-20 1997-09-16 Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert

Country Status (3)

Country Link
US (1) US6026359A (de)
EP (1) EP0831461B1 (de)
DE (1) DE69726526T2 (de)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169723B1 (en) * 1997-07-02 2001-01-02 Telefonaktiebolaget Lm Ericsson Computationally efficient analysis and synthesis of real signals using discrete fourier transforms and inverse discrete fourier transforms
US6889185B1 (en) * 1997-08-28 2005-05-03 Texas Instruments Incorporated Quantization of linear prediction coefficients using perceptual weighting
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
US6377921B1 (en) * 1998-06-26 2002-04-23 International Business Machines Corporation Identifying mismatches between assumed and actual pronunciations of words
US7016539B1 (en) 1998-07-13 2006-03-21 Cognex Corporation Method for fast, robust, multi-dimensional pattern recognition
US6513004B1 (en) 1999-11-24 2003-01-28 Matsushita Electric Industrial Co., Ltd. Optimized local feature extraction for automatic speech recognition
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
US6470314B1 (en) * 2000-04-06 2002-10-22 International Business Machines Corporation Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech
US6529872B1 (en) 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP2002091478A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP4297602B2 (ja) * 2000-09-18 2009-07-15 パイオニア株式会社 音声認識システム
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7003455B1 (en) 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
EP1229516A1 (de) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US7065524B1 (en) * 2001-03-30 2006-06-20 Pharsight Corporation Identification and correction of confounders in a statistical analysis
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
AUPR579301A0 (en) * 2001-06-19 2001-07-12 Syrinx Speech Systems Pty Limited Neural network post-processor
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US20030055645A1 (en) * 2001-09-18 2003-03-20 Meir Griniasty Apparatus with speech recognition and method therefor
ES2245418T3 (es) * 2001-10-11 2006-01-01 Siemens Aktiengesellschaft Procedimiento para la creacion de segmentos de referencia que describen modulos de voz y procedimiento para la modelizacion de unidades de voz de un modelo de prueba de voz.
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US8081820B2 (en) 2003-07-22 2011-12-20 Cognex Technology And Investment Corporation Method for partitioning a pattern into optimized sub-patterns
US7190834B2 (en) * 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
JP4548646B2 (ja) * 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7596494B2 (en) * 2003-11-26 2009-09-29 Microsoft Corporation Method and apparatus for high resolution speech reconstruction
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US8437502B1 (en) 2004-09-25 2013-05-07 Cognex Technology And Investment Corporation General pose refinement and tracking tool
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US20070129941A1 (en) * 2005-12-01 2007-06-07 Hitachi, Ltd. Preprocessing system and method for reducing FRR in speaking recognition
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US20090263010A1 (en) * 2008-04-18 2009-10-22 Microsoft Corporation Adapting a parameterized classifier to an environment
US8214215B2 (en) * 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
US9009039B2 (en) * 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN104732972B (zh) * 2015-03-12 2018-02-27 广东外语外贸大学 一种基于分组统计的hmm声纹识别签到方法及***
CN113066486B (zh) * 2021-03-25 2023-06-09 北京金山云网络技术有限公司 数据识别方法、装置、电子设备和计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4905177A (en) * 1988-01-19 1990-02-27 Qualcomm, Inc. High resolution phase to sine amplitude conversion
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5487133A (en) * 1993-07-01 1996-01-23 Intel Corporation Distance calculating neural network classifier chip and system
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
WO1996008787A1 (en) * 1994-09-14 1996-03-21 Apple Computer, Inc. System and method for automatic subcharacter unit and lexicon generation for handwriting recognition
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals

Also Published As

Publication number Publication date
EP0831461B1 (de) 2003-12-03
DE69726526D1 (de) 2004-01-15
EP0831461A2 (de) 1998-03-25
EP0831461A3 (de) 1998-11-18
US6026359A (en) 2000-02-15

Similar Documents

Publication Publication Date Title
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE60207784T9 (de) Sprecheranpassung für die Spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10030105A1 (de) Spracherkennungseinrichtung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69824063T2 (de) Normalisierung von Sprachsignalen
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache

Legal Events

Date Code Title Description
8364 No opposition during term of opposition