DE69823954T2 - Quellen-normalisierendes Training zur Sprachmodellierung - Google Patents

Quellen-normalisierendes Training zur Sprachmodellierung Download PDF

Info

Publication number
DE69823954T2
DE69823954T2 DE69823954T DE69823954T DE69823954T2 DE 69823954 T2 DE69823954 T2 DE 69823954T2 DE 69823954 T DE69823954 T DE 69823954T DE 69823954 T DE69823954 T DE 69823954T DE 69823954 T2 DE69823954 T2 DE 69823954T2
Authority
DE
Germany
Prior art keywords
state
environment
probability
given
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69823954T
Other languages
English (en)
Other versions
DE69823954D1 (de
Inventor
Yifan Gong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Application granted granted Critical
Publication of DE69823954D1 publication Critical patent/DE69823954D1/de
Publication of DE69823954T2 publication Critical patent/DE69823954T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Complex Calculations (AREA)

Description

  • Diese Erfindung bezieht sich auf das Training für eine Modellierung eines Hidden-Markov-Modells (HMM-Modellierung) von Sprache und insbesondere auf das Beseitigen von Umgebungsfaktoren aus dem Sprachsignal während der Trainingsprozedur.
  • In der vorliegenden Anmeldung wird auf den Sprecher, den Handapparat oder das Mikrophon, den Übertragungskanal, die Rauschhintergrundbedingungen oder eine Kombination aus diesen als die Umgebung Bezug genommen. Ein Sprachsignal kann nur in einer speziellen Umgebung gemessen werden. Die Spracherkennungseinrichtungen leiden unter der Veränderlichkeit der Umgebung, weil die trainierten Modellverteilungen von den Testsignalverteilungen abweichen können, weil die Fehlanpassung der Umgebung und die trainierten Modellverteilungen flach sind, weil sie über verschiedene Umgebungen gemittelt sind.
  • Das erste Problem, die Fehlanpassung der Umgebung, kann durch Modellanpassung verringert werden, basierend auf einigen in der Testumgebung gesammelten Äußerungen. Um das zweite Problem zu lösen, sollten die Umgebungsfaktoren während der Trainingsprozedur aus dem Sprachsignal beseitigt werden, hauptsächlich durch Quellennormierung.
  • In der Richtung der Quellennormierung verwendet das sprecheradaptive Training Lösungen durch lineare Regression (LR-Lösungen), um die Veränderlichkeit zwischen den Sprechern zu verringern. Siehe z. B. T. Anastasakos u. a. mit dem Titel "A compact model for speaker-adaptive training", International Conference on Spoken Language Processing, Bd. 2, Oktober 1996. Eine weitere Technik modelliert die Mittelwertvektoren als die Summe aus einer sprecherunabhängigen Erwartungswertabweichung und aus einem sprecherabhängigen Vektor. Dies ist in A. Acero u. a. mit dem Titel "Speaker and Gender Normalization for Continuous-Density Hidden Markov Models" in Proc. Of IEEE International Conference on Acoustics, Speech and Signal Processing, Seiten 342–345. Atlanta, 1996, zu finden. Diese beiden Techniken erfordern die explizite Bezeichnung der Klassen, z. B. den Sprecher oder das Geschlecht der Äußerung während des Trainings.
  • Deshalb können sie nicht verwendet werden, um Cluster von Klassen zu trainieren, die akustisch nahe Sprecher, Handapparate oder Mikrophone oder Hintergrundrauschen repräsentieren. Eine derartige Unfähigkeit, Cluster zu entdecken, kann in einer Anwendung ein Nachteil sein.
  • Eine veranschaulichende Ausführungsform der vorliegenden Erfindung, die durch die beigefügten unabhängigen Ansprüche definiert ist, versucht, ein Verfahren für das Quellennormierungstraining für die HMM-Modellierung der Sprache zu schaffen, das die obenerwähnten Probleme vermeidet oder minimiert.
  • Die Aspekte der Erfindung sind in den Ansprüchen spezifiziert. Beim Ausführen der Prinzipien der vorliegenden Erfindung schafft ein Verfahren eine Lösung mit maximaler Wahrscheinlichkeit (ML) durch lineare Regression (LR) für das Problem der Umgebungsnormierung, wobei die Umgebung als eine (nicht beobachtbare) verborgene Variable modelliert wird. Ein EM-gestützter Trainingsalgorithmus kann optimale Cluster der Umgebungen erzeugen, wobei es deshalb nicht notwendig ist, eine Datenbank hinsichtlich der Umgebung zu bezeichnen. Für Spezialfälle wird die Technik mit der äußerungsweisen Cepstralmittelwertnormierungs-Technik (CMN-Technik) verglichen, wobei sie eine Leistungsverbesserung bei einer Telephondatenbank mit rauschbehafteter Sprache zeigt.
  • Gemäß einem weiteren Merkmal der vorliegenden Erfindung unter dem Kriterium der maximalen Wahrscheinlichkeit (ML) wird durch die Anwendung eines EM-Algorithmus und die Erweiterung der Baum-Welch-Vorwärts- und Rückwärts-Variable eine gemeinsame Lösung für die Parameter für die Quellennormierung erhalten, d. h. die kanonischen Verteilungen, die Transformationen und die Erwartungswertabweichungen.
  • Für ein besseres Verständnis der vorliegenden Erfindung wird nun beispielhaft auf die beigefügte Zeichnung Bezug genommen, worin:
  • 1 ein Blockschaltplan eines Systems ist, das die Aspekte der vorliegenden Erfindung enthält;
  • 2 ein Sprachmodell veranschaulicht;
  • 3 eine Gaußsche Verteilung veranschaulicht;
  • 4 die durch verschiedene Umgebungen verursachten Verzerrungen in der Verteilung veranschaulicht;
  • 5 ein ausführlicherer Ablaufplan des Prozesses gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
  • 6 eine Erkennungseinrichtung gemäß einer Ausführungsform der vorliegenden Erfindung ist, die ein Quellennormierungsmodell verwendet.
  • Das Training wird an einem Computer-Arbeitsplatzrechner ausgeführt, der einen Monitor 11, einen Computer-Arbeitsplatzrechner 13, eine Tastatur 15 und eine Maus oder eine andere interaktive Vorrichtung 15a besitzt, wie in 1 gezeigt ist. Das System kann mit einer separaten Datenbank verbunden sein, die durch die Datenbank 17 in 1 dargestellt ist, um Modelle zu speichern und wiederzugewinnen.
  • Mit dem Begriff "Training" ist hierin gemeint, die Parameter des Sprachmodells gemäß einem Optimalkriterium zu fixieren. In diesem speziellen Fall werden HMM-Modelle (Hidden-Markov-Modelle) verwendet. Diese Modelle sind, wie in 2 dargestellt ist, wobei sie die Zustände A, B und C und die Übergänge E, F, G, H, I und J zwischen den Zuständen besitzen. Jeder dieser Zustände besitzt eine Mischung aus Gaußschen Verteilungen 18, die durch 3 dargestellt sind. Diese Modelle werden trainiert, um verschiedene Umgebungen zu betrachten. Durch Umgebung sind verschiedene Sprecher-, Handapparat-, Übertragungskanal- und Rauschhintergrundbedingungen gemeint. Die Spracherkennungseinrichtungen leiden unter der Veränderlichkeit der Umgebung, weil die trainierten Modellverteilungen infolge der Fehlanpassung der Umgebung von den Testsignalverteilungen abweichen können, wobei die trainierten Modellverteilungen flach sind, weil sie über verschiedene Umgebungen gemittelt sind. Für das erste Problem kann die Fehlanpassung der Umgebung durch eine Modellanpassung basierend auf den in der Testumgebung gesammelten Äußerungen verringert werden. Die Lehre des Anmelders hierin besteht darin, das zweite Problem durch das Beseitigen der Umgebungsfaktoren während der Trainingsprozedur aus dem Sprachsignal zu lösen. Dies ist das Quellennormierungstraining gemäß der vorliegenden Erfindung. Für das Umgebungsproblem wird hierin eine Lösung mit maximaler Wahrscheinlichkeit (ML) durch lineare Regression (LR) geschaffen, wobei die Umgebung als eine (nicht beobachtbare) verborgene Variable modelliert wird.
  • Eine reine Sprachmusterverteilung 40 erlebt bei verschiedenen Umgebungen eine komplexe Verzerrung, wie in 4 gezeigt ist. Die zwei Achsen stellen zwei Parameter dar, die z. B. die Frequenz-, die Energie-, die Formant-, die Spektral- oder die Cepstralkomponenten sein können. 4 veranschaulicht eine Änderung in der Verteilung bei 41, die auf Hintergrundrauschen oder eine Änderung der Sprecher zurückzuführen ist. Es ist eine Aufgabe der Anmeldung, die Verzerrung zu modellieren.
  • Das vorliegende Modell nimmt das Folgende an: 1) das Sprachsignal x wird durch ein Hidden-Markov-Modell mit kontinuierlicher Dichte (CDHMM), genannt Quellverteilungen, erzeugt; 2) das Signal hat, bevor es beobachtet wird, eine Umgebungstransformation erlebt, die aus einer Menge von Transformationen entnommen wird, wobei Wje die Transformationen im HMM-Zustand j der Umgebung e ist; 3) eine derartige Transformation ist linear und von den Mischungskomponenten der Quelle unabhängig; und 4) es gibt einen Erwartungswertabweichungsvektor bke bei der k-ten Mischungskomponente, der auf die Umgebung e zurückzuführen ist.
  • Zum Zeitpunkt t wird beobachtet: ot = Wjext + bke (1)
  • Das Problem ist, im Sinne einer maximalen Wahrscheinlichkeit (ML) die Menge der optimalen Quellverteilungen, der Transformationen und der Erwartungswertabweichungen zu finden.
  • Im Stand der Technik (A. Acero u. a., oben zitiert, und T. Anastasakos u. a., oben zitiert), muss die Umgebung e explizit sein, z. B.: Kennung des Sprechers, männlich/weiblich. Ein Aspekt der vorliegenden Erfindung überwindet diese Ein schränkung, indem er eine beliebige Anzahl von Umgebungen erlaubt, die optimal trainiert werden.
  • Sei N die Anzahl der HMM-Zustände, M die Mischungsanzahl, L die Anzahl der Umgebungen, Ωs Δ {1, 2, ..., N} die Menge der Zustände, Ωm Δ {1, 2, ..., M} die Menge der Mischungsindikatoren und Ωe Δ {1, 2, ..., L} die Menge der Umgebungsindikatoren.
  • Für eine beobachtete Sprachfolge der T Vektoren: OΔo T / 1Δ (o1, o2, ..., oT) wird die Zustandsfolge ΘΔ0, ..., θT}, wobei θt ∊ Ωs gilt, die Mischungsindikatorfolge ΞΔ1, ..., ξT), wobei ξt ∊ Ωm gilt, und die Umgebungsindikatorfolge ΦΔ1, ..., φT), wobei φt ∊ Ωe gilt, eingeführt. Sie sind alle nicht beobachtbar. Unter bestimmten zusätzlichen Annahmen kann die gemeinsame Wahrscheinlichkeit von O, Θ, Ξ und Φ bei gegebenem Modell λ als:
    Figure 00050001
    geschrieben werden, wobei bjke(ot)Δp(ott = j, ξt = k, φ = e, λ) (3) = N(ot; Wjeμjk + bke, Σjk), (4) μi Δp(θt = i), aij Δp(θt+1 = j|θt = i) (5) cjk Δp(ξt = k|θt = j, λ), le Δp(φ = e|λ) (6)gilt.
  • In 1 enthält der Arbeitsplatzrechner 13, der einen Prozessor enthält, ein Programm, wie es veranschaulicht ist, das mit einem anfänglichen Standard-HMM-Modell 21 beginnt, das durch die Schätzprozeduren unter Verwendung der Baum-Welch- oder Schätzungsmaximierungs-Prozeduren 23 zu verfeinern ist, um die neuen Modelle 25 zu erhalten. Das Programm erhält die Trainingsdaten in einer Datenbank 19 unter verschiedenen Umgebungen, wobei diese in einem iterativen Prozess verwendet werden, um die optimalen Parameter zu erhalten. Aus diesen wird ein weiteres Modell 25 erhalten, das die Umgebungsänderungen berücksichtigt. Die Größen sind durch die Wahrscheinlichkeiten des Beobachtens eines speziellen Eingangsvektors in irgendeinem speziellen Zustand für eine in dem Modell gegebene spezielle Umgebung definiert.
  • Die Modellparameter können durch das Anwenden einer verallgemeinerten EM-Prozedur mit drei Typen verborgener Variable bestimmt werden: die Zustandsfolge, die Mischungskomponentenindikatoren und die Umgebungsindikatoren. (A. P. Dempster, N. M. Laird und D. B. Rubin mit dem Titel "Maximum Likelihood from Incomplete Data via the EM Algorithm", Journal of the Royal Statistical Society, 39 (1): 1–38, 1977). Für diesen Zweck lehrt der Anmelder, daß die CDHHM-Formulierung von B. Juang, "Maximum-Likelihood Estimation for Mixture Multivariate Stochastic Observation of Markov Chains" (The Bell System Technical Journal), Seiten 1235–1248, Juli-August 1985), auf das Ergebnis der folgenden Abschnitte zu erweitern ist: Es wird bezeichnet: αt(j, e)Δp(ot1 , θt = 1, Φ = e|λ) (7) βt(j, e)Δp(oTt+1 t = j, φ = e, λ) (8) γt(j, k, e)Δp(θt = j, ξt = k, φ = e|O, λ) (9)
  • Die Sprache wird als eine Folge von Rahmen (ein Vektor) beobachtet. Die Gleichungen 7, 8 und 9 sind Schätzungen der Zwischengrößen. Gleichung 7 ist z. B. die gemeinsame Wahrscheinlichkeit für die Beobachtung der Rahmen von den Zeitpunkten 1 bis t im Zustand j zum Zeitpunkt t und für die Umgebung von e unter der Voraussetzung des Modells λ.
  • Die folgenden Gleichungen für eine neue Schätzung können aus den Gleichungen 2, 7, 8 und 9 abgeleitet werden. Gleichung 8 ist die Wahrscheinlichkeit für die Beobachtung der Rahmen vom Zeitpunkt t + 1 zum letzten Zeitpunkt T unter der Voraussetzung, daß der Zustand zum Zeitpunkt t der Zustand j ist, daß es eine Umgebung von e und das Modell λ gibt. Gleichung 9 ist die gemeinsame Wahrscheinlichkeit, daß der Zustand zum Zeitpunkt t der Zustand j ist, daß die Mischung zum Zeitpunkt t die Mischung k ist, und daß es eine Umgebung von e gibt, unter der Voraussetzung der beobachteten Rahmenfolge 0 und des Modells λ.
  • Für die EM-Prozedur 23 sind die Gleichungen 10–21 die Lösungen für die Größen in dem Modell.
  • Die Wahrscheinlichkeit des Anfangszustands:
    Figure 00070001
    wobei R die Anzahl der Trainingsmerkmale ist.
  • Die Übergangswahrscheinlichkeit:
  • Figure 00070002
  • Die Mischungskomponentenwahrscheinlichkeit: (Die Mischungswahrscheinlichkeit befindet sich dort, wo es eine Mischung aus Gaußschen Verteilungen gibt)
  • Figure 00070003
  • Die Umgebungswahrscheinlichkeit:
  • Figure 00070004
  • Der Mittelwertvektor und der Erwartungswertabweichungsvektor: Es wird eingeführt:
  • Figure 00080001
  • Unter der Vorraussetzung
    Figure 00080002
    für ein gegebenes k gibt es N + L Gleichungen:
  • Figure 00080003
  • Diese Gleichungen 21 und 22 werden für die Mittelwertvektoren und die Erwartungswertabweichungsvektoren gemeinsam gelöst.
  • Deshalb können μjk und bke durch das Lösen des linearen Systems aus N + L Variable gleichzeitig erhalten werden.
  • Die Kovarianz:
    Figure 00090001
    wobei δ r / t(j, k, e)Δo r / t – Wje – bke gilt.
  • Die Transformation: Es wird angenommen, daß die Kovarianzmatrix diagonal ist: Σ –1(m,n) / jk = 0, falls n ≠ m. Für die Linie m der Transformation Wje kann abgeleitet werden (siehe z. B. C. J. Leggetter u. a. mit dem Titel "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuos Density HMMs", Computer, Speech and Language, 9(2), 171–185, 1995): Z(m)je = Wje (m)Rje(m) (24)was ein lineares System aus D Gleichungen ist, wobei:
    Figure 00090002
    gilt. Wird angenommen, daß die Mittelwerte der Quellverteilungen (μjk) konstant sind, dann kann die obige Menge der Quellennormierungsformeln außerdem für die Modellanpassung verwendet werden.
  • Das Modell ist durch die Parameter spezifiziert. Das neue Modell ist durch die neuen Parameter spezifiziert.
  • Wie in den 1 und 5 veranschaulicht ist, wird mit einem Anfangsmodell als Standardmodell 21 begonnen, wie z. B. dem CDHMM-Modell mit den Anfangswerten. Dieser nächste Schritt ist die Schätzwertmaximierungs-Prozedur 23, die mit den Gleichungen 7–9 (Schritt 23a) und den Neuschätzungs-Gleichungen 10–13 (Schritt 23b) für die Wahrscheinlichkeit des Anfangszustands, die Übergangs wahrscheinlichkeit, die Mischungskomponentenwahrscheinlichkeit und die Umgebungswahrscheinlichkeit beginnt.
  • Der nächste Schritt (23c) besteht darin, einen Mittelwertvektor und einen Erwartungswertabweichungsvektor durch das Einführen von zwei zusätzlichen Gleichungen 14 und 15 und der Gleichungen 16–20 abzuleiten. Der nächste Schritt 23d besteht darin, die linearen Gleichungen 21 und 22 anzuwenden und 21 und 22 für die Mittelwertvektoren und die Erwartungswertabweichungsvektoren gemeinsam zu lösen und gleichzeitig die Varianz unter Verwendung der Gleichung 23 zu berechnen. Unter Verwendung von Gleichung 24, die ein System linear Gleichungen ist, wird nach den Transformationsparametern unter Verwendung der durch die Gleichungen 25 und 26 gegebenen Größen aufgelöst. Dann ist nach allen Modellparametern aufgelöst worden. Dann werden die alten Modellparameter durch die neu berechneten Modellparameter ersetzt (Schritt 24). Dann wird der Prozess für alle Rahmen wiederholt. Wenn dies für alle Rahmen der Datenbank ausgeführt worden ist, wird ein neues Modell gebildet, wobei dann die neuen Modelle unter Verwendung derselben Gleichung erneut bewertet werden, bis es keine Änderung über einen vorgegebenen Schwellenwert gibt (Schritt 27).
  • Nachdem ein Quellennormierungstrainingsmodell gebildet worden ist, wird dieses Modell in einer Erkennungseinrichtung verwendet, wie in 6 gezeigt ist, wobei die Eingangssprache in eine Erkennungseinrichtung 60 eingegeben wird, die das quellennormierte HMM-Modell 61, das durch das obige Training erzeugt worden ist, verwendet, um die Reaktion zu erreichen.
  • Die Erkennungsaufgabe besitzt 53 Befehle aus 1–4 Wörtern. ("call return", "cancel call return", "selective call forwarding" usw.). Die Äußerungen werden durch Telephonleitungen mit einer Vielfalt von Mikrophonen, einschließlich Kohle-, Elektred- und schnurlose Mikrophone und Telephone mit Freisprecheinrichtung, aufgezeichnet. Einige der Trainingsäußerungen entsprechen nicht ihren Transkriptionen. Zum Beispiel: "call screen" (cancel call screen), "matic call back" (automatic call back), "call tra" (call tracking).
  • Die Sprache wird mit 8 kHz mit einer 20-ms-Rahmenrate abgetastet. Die Beobachtungsvektoren bestehen aus den LPCC (Koeffizienten der linearen Vorhersagecodierung), den abgeleiteten 13 MFCC (den Cepstalkoeffizienten der Mel-Skala) plus den regressionsgestützten Delta-MFCC. Die CMN wird auf der Ebene der Äußerungen ausgeführt. Es gibt 3505 Äußerungen für das Training und 720 für das sprecherunabhängige Testen. Die Anzahl der Äußerungen pro Anruf variiert zwischen 5–30.
  • Infolge der Spärlichkeit der Daten müssen, abgesehen von der gemeinsamen Nutzung der Transformation zwischen den Zuständen und Mischungen, die Transformationen durch eine Gruppe von phonetisch ähnlichen Lauten gemeinsam genutzt werden. Die Gruppierung basierend auf einer hierarchischen Clusterbildung der Laute ist von der Menge des Trainings (SN) oder der Anpassung (AD) der Daten abhängig, d. h., je größer die Anzahl der Merkmale ist, desto größer ist die Anzahl der Transformationen. Die Erkennungsexperimente werden auf verschiedenen Systemkonfigurationen ausgeführt:
    • • BASELINE wendet die CMN äußerungsweise an. Diese einfache Technik beseitigt Kanalbesonderheiten, und einige langfristige Sprecherbesonderheiten, falls die Dauer der Äußerung lang genug ist, kann aber nicht mit additivem Rauschen im Zeitbereich umgehen.
    • • SN führt das quellennormierte HMM-Training aus, wobei angenommen wird, daß die Äußerungen eines Telephonanrufes von einer anrufabhängigen akustischen Quelle erzeugt worden sind. Der Sprecher, der Kanal und das Hintergrundrauschen, die für den Anruf spezifisch sind, werden dann durch MLLR beseitigt. Eine HMM-Erkennungseinrichtung wird dann unter Verwendung der Quellparameter angewendet. Es ist ein spezieller Fall bewertet worden, in dem jeder Anruf durch eine Umgebung modelliert wird.
    • • AD passt die traditionellen HMM-Parameter an einen nicht überwachten MLLR an. 1. Verwenden der momentanen HMMs und der Aufga bengrammatik, um die Testäußerungen phonetisch zu erkennen, 2. Abbilden der Lautbezeichnungen auf eine kleine Anzahl (N) von Klassen, die von der Menge der Daten in den Testäußerungen abhängt, 3. Schätzen der LR unter Verwendung der N Klassen und der zugeordneten Testdaten, 4. Erkennen der Testäußerungen mit einem transformierten HMM. Eine ähnliche Prozedur ist in C. J. Legetter und P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density HMMs", Computer, Speech and Language, 9(2): 171–185, 1995, eingeführt worden.
    • • SN + AD bezieht sich auf AD mit durch die SN-Technik trainierten Anfangsmodellen.
  • Basierend auf den in der Tabelle 1 zusammengefassten Ergebnissen wird auf Folgendes hingewiesen:
    • • Für eine Anzahl der Mischungskomponenten pro Zustand, die kleiner als 16 ist, ergeben SN, AD und SN + AD alle eine konsistente Verbesserung über die Baseline-Konfiguration.
    • • Für eine Anzahl der Mischungskomponenten pro Zustand, die kleiner als 16 ist, ergibt SN etwa 10% Fehlerverringerung gegenüber Baseline. Da SN eine Trainingsprozedur ist, die keine Änderung an der Erkennungseinrichtung erfordert, nutzt dieser Fehlerverringerungsmechanismus die Anwendungen unmittelbar.
    • • Für alle getesteten Konfigurationen ergibt AD unter Verwendung mit der SN-Prozedur trainierter akustischer Modelle immer eine zusätzliche Fehlerverringerung.
    • • Der effizienteste Fall von SN + AD liegt bei 32 Komponenten pro Zustand vor, was die Fehlerrate um 23% verringert, was zu einer Wortfehlerrate (WER) von 4,64% in der Aufgabe führt.
  • Figure 00130001
    Tabelle 1: Die Wortfehlerrate (%) als Funktion der Testkonfiguration und die Anzahl der Mischungskomponenten pro Zustand
  • Obwohl die vorliegende Erfindung und ihre Vorteile ausführlich beschrieben worden sind, sollte es selbst verständlich sein, daß verschiedene Änderungen, Ersetzungen und Veränderungen hierin ausgeführt werden können, ohne vom Umfang der Erfindung abzuweichen, der durch die beigefügten Ansprüche definiert ist.

Claims (6)

  1. Verfahren zum Quellennormierungstraining für eine Modellierung eines Hidden-Markov-Modells (HMM-Modellierung) von Sprache (2), das die folgenden Schritte umfasst: (a) Bereitstellen eines anfänglichen HMM-Modells (21); (b) an dem anfänglichen Modell oder in der Folge eines neuen Modells Ausführen der folgenden Schritte an nicht markierten Multiumgebungs-Trainingsdaten, um ein neues Modell (25) zu erhalten: b1) Ausführen (23a) einer Erwartungswertmaximierung mit verborgenen Variablen einer Zustandsfolge, von Mischungskomponenten-Indikatoren und von Umgebungsindikatoren durch Schätzen von Zwischengrößen durch Bestimmen der Wahrscheinlichkeit der Beobachtung von Eingangssprache in einem Rahmen in einem gegebenen Zustand und in einer gegebenen Umgebung bei einer gegebenen momentanen Modellparameter-Menge; und b2) Ausführen (23b) einer neuen Erwartungswertberechnung, um die Wahrscheinlichkeit in einem gegebenen HMM-Zustand, die Wahrscheinlichkeit, in einem gegebenen Zustand zu sein, die Wahrscheinlichkeit einer gegebenen Mischungskomponente, die eine Gaußsche Komponente einer Mischung ist, und die Wahrscheinlichkeit einer gegebenen Umgebung zu bestimmen; b3) Ableiten (23c) von Mittelwertvektor- und Erwartungswertabweichungsvektor-Gleichungen; b4) gemeinsames Lösen (23d) der Mittelwertvektor- und Erwartungswertabweichungsvektor-Gleichungen unter Verwendung linearer Gleichungen sowie durch Bestimmen der Varianzen, der Mischungskomponenten und der linearen Transformationen für Umgebungen, Auflösen nach dem Mittelwertvektor für den gegebenen Zustand und die Mischungskomponente, und Auflösen nach dem Erwartungswertabweichungsvektor für die gegebene Umgebung und die Mischungskomponente; b5) Ersetzen (24) alter Modellparameter durch die berechneten Parameter; und c) wenn ein neues Modell gebildet worden ist, Bestimmen (27), ob es sich von dem vorhergehenden Modell signifikant unterscheidet, und wenn ja, Wiederholen der Schritte b1 bis b5.
  2. Verfahren nach Anspruch 1, bei dem im Schritt b1 der Erwartungswert von Zwischengrößen bestimmt wird durch: αt(j, e)Δp(ot1 , θt = j, φ = e|λ),die gemeinsame Wahrscheinlichkeit der Beobachtung von Eingangssprache-Rahmen im Bereich der Zeitpunkte 1 bis t im Zustand j und in der Umgebung e bei einer gegebenen momentanen Modellparameter-Menge λ; βt(j, e)Δp(oTt+1 t = j, φ = e, λ),die Wahrscheinlichkeit der Beobachtung von Eingangssprache-Rahmen von dem Zeitpunkt t + 1 bis zum letzten Zeitpunkt T im Zustand j und in der Umgebung e, bei einer gegebenen momentanen Modellparameter-Menge λ; und γt(j, k, e)Δp(θt = j, ξt = k, φ = e|O, λ),die Wahrscheinlichkeit, daß zu einem Zeitpunkt t der Zustand durch j gegeben ist und die Mischung durch k gegeben ist in einer Umgebung e für die beobachtete Rahmenfolge O und die momentane Modellparameter-Menge λ.
  3. Verfahren nach Anspruch 2, bei dem im Schritt b2 die Wahrscheinlichkeit des Anfangszustandes bestimmt wird durch
    Figure 00160001
    die Übergangswahrscheinlichkeit bestimmt wird durch
    Figure 00160002
    die Mischungskomponenten-Wahrscheinlichkeit bestimmt wird durch
    Figure 00160003
    und die Umgebungswahrscheinlichkeit bestimmt wird durch
    Figure 00160004
    wobei R die Anzahl der Trainingsmerkmale oder Äußerungen, die für die Erzeugung des neuen Modells bereitgestellt werden, ist, Tr die Gesamtzahl von Rahmen in der Äußerung r ist, o r / t der beobachtete Rahmen t der Äußerung r ist und p(or|λ) die Wahrscheinlichkeit der Äußerung r bei einem gegebenem Modell λ ist.
  4. Verfahren nach einem der Ansprüche 2 bis 3, bei dem im Schritt b3 die Ableitung des Mittelwertvektors und des Erwartungswertabweichungsvektors erfolgt durch
    Figure 00170001
    der Durchschnitt beobachteter Vektoren im Zustand j, mit der Mischungskomponente k und in der Umgebung e;
    Figure 00170002
    die gemeinsame Wahrscheinlichkeit, im Zustand j zu sein, mit der Mischungskomponente k und in einer Umgebung e, gemittelt über alle Äußerungen;
    Figure 00170003
    die gewichtete inverse Kovarianzmatrix für die Mischungskomponente k in der Umgebung e; Ejke = g(j, k, e)Wje–1jk ,die durch Wje' transformierte und gewichtete inverse Kovarianzmatrix im Zustand j für die Mischungskomponente k und in der Umgebung e;
    Figure 00170004
    die durch Wje transformierte und durch g(j, k, e) gewichtete invertierte Kovarianzmatrix im Zustand j für die Mischungskomponente k;
    Figure 00170005
    der durch Σ –1 / jk skalierte und durch Wje transformierte Durchschnitt von beobachteten Vektoren im Zustand j und für die Mischungskomponente k; und
    Figure 00170006
    der durch Σ –1 / jk skalierte Durchschnitt von beobachteten Vektoren für die Mischungskomponente k und die Umgebung e, wobei Wje die lineare Transformation des Zustandes j in der Umgebung e ist, Σjk die Kovarianzmatrix des Zustands j für die Mischungskomponente k ist und Σ –1 / jk die Inverse von Σjk ist.
  5. Verfahren nach einem der Ansprüche 2 bis 4, bei dem die Gleichungen des Schrittes b4
    Figure 00180001
    verwendet werden, um die Gaußschen Mittelwertvektoren μjk für einen Zustand j und eine Mischungskomponente k und die Erwartungswertabweichungsvektoren bke der Mischungskomponente k und der Umgebung e gemeinsam zu lösen; und die Gleichung
    Figure 00180002
    verwendet wird, um die Varianz zu bestimmen; und für eine diagonale Kovarianz die Gleichungen
    Figure 00180003
    verwendet werden, um die Transformation Wje (m), die Linie m von Wje, zu bestimmen, wobei d r / t(j, k, e) der Erwartungswertabweichungsvektor im Zustand j für die Mischungskomponente k und die Umgebung e für den Rahmen t der Äußerung r ist; Z (m,n) / je, das n-te Element des Vektors Z (m) / je, eine durch Σ –1(m,n) / jk skalierte und durch γ gewichtete Kreuzkorrelation zwischen dem Gaußschen Mittelwert und dem Fehlerterm ist; und R (p,n) / je(m), das Element bei der Linie p in der Zeile n der Matrix Rje(m) eine durch Σ –1(m,n) / jk skalierte und durch γ gewichtete Autokorrelation des Gaußschen Mittelwertes ist.
  6. Spracherkennungssystem, das umfasst: eine Spracherkennungseinrichtung; und ein Quellennormierungsmodell, das durch Anwenden eines Erwartungswertmaximierungsalgorithmus abgeleitet wird, um mit der Spracherkennungseinrichtung verwendet zu werden, und so konfiguriert, daß es eines der Verfahren der Ansprüche 1 bis 5 ausführt.
DE69823954T 1997-09-17 1998-08-26 Quellen-normalisierendes Training zur Sprachmodellierung Expired - Lifetime DE69823954T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5918097P 1997-09-17 1997-09-17
US59180P 1997-09-17

Publications (2)

Publication Number Publication Date
DE69823954D1 DE69823954D1 (de) 2004-06-24
DE69823954T2 true DE69823954T2 (de) 2005-07-14

Family

ID=22021325

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69823954T Expired - Lifetime DE69823954T2 (de) 1997-09-17 1998-08-26 Quellen-normalisierendes Training zur Sprachmodellierung

Country Status (3)

Country Link
US (1) US6151573A (de)
EP (1) EP0913809B1 (de)
DE (1) DE69823954T2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7469237B2 (en) * 1996-05-02 2008-12-23 Cooper David L Method and apparatus for fractal computation
US6381571B1 (en) * 1998-05-01 2002-04-30 Texas Instruments Incorporated Sequential determination of utterance log-spectral mean by maximum a posteriori probability estimation
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US6377924B1 (en) * 1999-03-12 2002-04-23 Texas Instruments Incorporated Method of enrolling phone-based speaker specific commands
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
US7089183B2 (en) * 2000-08-02 2006-08-08 Texas Instruments Incorporated Accumulating transformations for hierarchical linear regression HMM adaptation
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US6778957B2 (en) * 2001-08-21 2004-08-17 International Business Machines Corporation Method and apparatus for handset detection
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching

Also Published As

Publication number Publication date
EP0913809A3 (de) 2000-01-12
EP0913809B1 (de) 2004-05-19
DE69823954D1 (de) 2004-06-24
US6151573A (en) 2000-11-21
EP0913809A2 (de) 1999-05-06

Similar Documents

Publication Publication Date Title
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60207784T2 (de) Sprecheranpassung für die Spracherkennung
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69127961T2 (de) Verfahren zur Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE60004331T2 (de) Sprecher-erkennung
DE60212477T2 (de) Spracherkennung mit Kompensation konvolutiver Verzerrung und additiven Rauschens
US6980952B1 (en) Source normalization training for HMM modeling of speech
DE69819438T2 (de) Verfahren zur Spracherkennung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition