DE69826292T2 - Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren - Google Patents

Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren Download PDF

Info

Publication number
DE69826292T2
DE69826292T2 DE1998626292 DE69826292T DE69826292T2 DE 69826292 T2 DE69826292 T2 DE 69826292T2 DE 1998626292 DE1998626292 DE 1998626292 DE 69826292 T DE69826292 T DE 69826292T DE 69826292 T2 DE69826292 T2 DE 69826292T2
Authority
DE
Germany
Prior art keywords
parameters
adaptation
weighting factor
likelihood
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1998626292
Other languages
English (en)
Other versions
DE69826292D1 (de
Inventor
Silke Goronzy
Ralf Kompe
Peter Buchner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Application granted granted Critical
Publication of DE69826292D1 publication Critical patent/DE69826292D1/de
Publication of DE69826292T2 publication Critical patent/DE69826292T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Durchführung einer nicht überwachten Sprecheranpassung für Spracherkennungssysteme, die Hidden-Markov-Modelle (HMMs) mit kontinuierlicher Dichte und mit Maximum-Likelihood-Linear-Regressionsadaption (MLLR) verwenden.
  • Spracherkenner gemäß dem Stand der Technik bestehen aus einer Menge von statistischen Verteilungen, die die akustischen Eigenschaften (codiert in Featurevektoren) von bestimmten Sprachsegmenten modellieren. Als ein einfaches Beispiel wird eine Gaußsche Verteilung für jedes Phonem verwendet. Diese Verteilungen werden Zuständen zugeordnet. Ein stochastisches Modell, im Allgemeinen Hidden-Markov-Modelle mit kontinuierlicher Dichte, definiert die Wahrscheinlichkeiten für Folgen von Zuständen und für akustische Eigenschaften bei einem gegebenen Zustand. Das Durchlaufen eines Zustandes verbraucht einen akustischen Featurevektor, der einen Rahmen bzw. Frame von zum Beispiel 10 ms des Sprachsignals abdeckt. Die stochastischen Parameter eines solchen Erkenners werden unter Verwendung einer großen Menge von Sprachdaten trainiert, entweder von einem einzigen Sprecher, wodurch ein sprecherabhängiges (SD) System gebildet wird oder von vielen Sprechern, wodurch ein sprecherunabhängiges (SI) System gebildet wird.
  • Heutzutage sind die meisten Spracherkennungssysteme, die Hidden-Markov-Modelle zur Darstellung der verschiedenen Phoneme einer Sprache verwenden, sprecherunabhängig. Jedoch erreichen sprecherabhängige Systeme gemäß dem Stand der Technik normalerweise wesentlich höhere Erkennungsraten als sprecherunabhängige Systeme. Aus diesem Grund ist die Sprecheranpassung ein weithin verwendetes Verfahren, um die Erkennungsraten von sprecherunabhängigen Systemen zu erhöhen. Für viele Anwendungen ist es jedoch nicht möglich, genügend Daten eines Sprechers zu sammeln, um das System zu trainieren. Im Falle eines Endverbrauchergeräts bzw. Konsumergeräts wird dies sogar unter Umständen nicht gewollt, da das Gerät von unterschiedlichen Benutzern verwendet wird. Um diese Ungleichheit der Er kennungsraten zu bewältigen, werden weithin Sprecheradaptionsalgorithmen verwendet, um Erkennungsraten zu erhalten, die denen von sprecherabhängigen Systemen nahe kommen, wobei jedoch nur ein Teil von sprecherabhängigen Daten verwendet wird im Vergleich zu sprecherabhängigen Systemen. Diese Systeme verwenden zu Beginn sprecherunabhängige Modelle und adaptieren diese, so dass sie besser an die Akustik neuer Sprecher angepasst sind durch Verwendung von Sprache, die von dem Sprecher empfangen wird (Anpassungsdaten).
  • Das grundlegende Prinzip von vielen Sprecheradaptionstechniken ist es, Parameter der Hidden-Markov-Modelle zu verändern, zum Beispiele diese der Gaußschen Dichte, die die akustischen Features bzw. Merkmale modellieren. Bei der Maximum-Likelihood-Linear-Regressionsadaption wird eine Transformationsmatrix aus den Anpassungsdaten berechnet und Gruppen von Modellparametern, zum Beispiel die Mittelwertvektoren oder die Varianzvektoren, etc., werden mit dieser Transformationsmatrix multipliziert (oder mit n Transformationsmatrizen), um die Likelihood der Anpassungsdaten zu maximieren.
  • Normalerweise können nur die Parameter von denjenigen Gaußschen Dichten aktualisiert werden, zu denen entsprechende Phoneme in den Anpassungsdaten beobachtet wurden. Bei MLLR-Adaption werden alle Gaußschen Dichten in Cluster zusammengefasst, um sogenannte Regressionsklassen zu bilden. Für jede Regressionsklasse wird eine separate Transformationsmatrix berechnet. Jedes Mal, wenn ein oder mehrere Phoneme einer bestimmten Regressionsklasse in den Anpassungsdaten beobachtet wird/werden, wird eine Transformationsmatrix für diese Klasse berechnet und alle zu dieser zugehörigen Gaußschen Dichten werden angepasst. Somit können sogar diejenigen Gaußschen Dichten aktualisiert werden, für welche die Phoneme nicht in den Adaptionsdaten beobachtet wurden, wodurch dieser Ansatz schneller als vergleichbare Ansätze wird, wobei die nächste gesprochene Äußerung mit den aktualisierten. Modellparametern analysiert wird und die Anpassung in dem nächsten Anfassungsschritt durchgeführt werden kann.
  • Wie oben erwähnt, werden bei MLLR Lineartransformationen für Gruppen von Modellparametern geschätzt, um die Likelihood der Anpassungsdaten zu maximieren. Bisher wurde MLLR auf Mittelwertparameter und Gaußsche Varianzen in Mixture-Gauß-HMM-Systemen angewendet. Ein Beispiel einer MLLR-Anpassung ist in M. J. F. Goles et al. "Mean and variance adaptation within the MLLR framework", Computer Speech and Language, Vol. 10, 1996, S. 249–261 offenbart.
  • Das oben beschriebene Verfahren gemäß dem Stand der Technik erreicht gute Ergebnisse mit relativ großen Mengen von Anpassungsdaten. Falls nur sehr geringe Mengen von Anpassungsdaten bei jedem Anpassungsschritt erhältlich sind, das heißt, häufig nur eine Äußerung, was zum Beispiel nur ein einzelnes Wort sein kann, ist die Berechnung der Transformationsmatrizen möglicherweise teilweise fehlerhaft, da die Anpassungsstatistiken anhand von nicht repräsentativen Daten geschätzt werden. D. B. Paul, "New developments in the Lincoln Stack-Decoder based on large Vocabulary CSR System", Proceedings of ICASSP 1995, diskutiert das Problem von ungenügenden Trainingsdaten und Parameter Smoothing, jedoch nicht in Zusammenhang mit der MLLR-Adaption. Es ist daher eine der Erfindung zugrundeliegende Aufgabe, ein verbessertes Verfahren anzubieten zur Durchführung einer nicht überwachten Sprecheranpassung für Hidden-Markov-Modelle mit kontinuierlicher Dichte, woher die Maximum-Likelihood-Linear-Regressionsadaption verwendet wird.
  • Die Aufgabe wird gelöst gemäß unabhängigem Anspruch 1, bevorzugte Ausführungsformen werden in den abhängigen Unteransprüchen 2 bis 9 angegeben.
  • Gemäß dem erfindungsgemäßen Verfahren kann eine sehr schnelle Anpassung erreicht werden, da es erlaubt wird, die Transformationsmatrix für jede Regressionsklasse zuverlässig nach einer einzelnen (oder einiger weniger) Äußerungen) zu berechnen, was nur einigen wenigen Sekunden von Sprache entspricht. Demgemäß ist auch eine Online- oder Echtzeitanpassung möglich. Nach der Berechnung der entsprechenden Transformationsmatrix wird die Gruppe von zu dieser Regressionsklasse gehörenden Parametern angepasst und die nächsten wenigen Sekunden werden anschließend erkannt, wobei die HMMs verwendet werden, die im vorhergehenden Schritt modifiziert wurden, usw. Demgemäß kann eine sehr schnelle Anpassung an einen neuen Sprecher erreicht werden.
  • Die vorliegende Erfindung wird anhand der folgenden detaillierten Beschreibung einer beispielhaften Ausführungsform besser verstanden, in Verbindung mit der 1, die eine Erkennungs- und Anpassungsprozedur zeigt und das dynamische Gewichtungsmodell und die Formeln (1) bis (5) umfasst.
  • Die beispielhafte Ausführungsform der vorliegenden Erfindung verwendet die Mittelwertparameter der Mixture-Gauß-HMM-Systeme als Gruppe von Modellparametern, die die Likelihood der Adaptionsdaten maximiert. Wie oben erwähnt, ist die vorliegende Erfindung jedoch nicht darauf beschränkt, sondern es können auch Gaußsche Varianzen oder eine andere Gruppe von Modellparametern verwendet werden.
  • 1 zeigt die Erkennungs- und Anpassungsprozedur, die das dynamische Gewichtungsmodell gemäß der vorliegenden Erfindung umfasst.
  • In einem Initialisierungsschritt werden alle Mittelwertvektoren μ1 der Gaußschen Dichten einer Regressionsklasse r zugewiesen, so dass die Mittelwerte μir als Gruppe von Modellparametern zur Maximierung der Likelihood der Anpassungsdaten vorhanden bzw. verfügbar sind. Die Regressionsklassen könnten so ausgestaltet sein, dass sie einen Standardvektor-Quantisierungsalgorithmus verwenden, das heißt, Cluster-Featurevektoren bzw. Gruppen-Featurevektoren gemäß einem beliebigen numerischen Distanzmaß, jedoch auch die Verwendung von Regressionsklassenbäumen (Regression Class Trees) oder eines beliebigen anderen Verfahrens ist möglich. Das Design und die Zuordnung der Regressionsklassen r vor der Erkennung kann auch dynamisch durchgeführt werden in Abhängigkeit der Menge erhältlicher Anpassungsdaten während des Erkennungsprozesses.
  • Nachdem die ankommende Sprache im Schritt S1 erkannt wurde, wird sie im Schritt S2 mit den Modellzuständen ausgerichtet. Anschließend werden die relevanten Statistiken extrahiert und zur Verwendung einer Transformationsmatrix W für jede der betroffenen Regressionsklassen im Schritt S3 verwendet. Neue Mittelwertvektoren ì ^ir werden unter Verwendung einer entsprechenden Transformationsmatrix Wr berechnet, wobei die folgende Gleichung (1) angewendet wird: μ ^kir = Wrk–1ir
  • Im Schritt S4, um die geschützten Mittelwertparameter ì ^ k / ir zu berechnen, wobei k der aktuelle Anpassungsschritt ist und (k – 1) der vorhergehende. Dieser Aktualisierungsvorgang der Mittelwertparameter ì ^ k / ir, insbesondere die Berechnung von Wr, wird gemäß aus dem Stand der Technik bekannten Ansätzen durchgeführt.
  • Gemäß dem Stand der Technik sind diese geschätzten Mittelwertparameter ì ^ k / ir gleich den angepassten Mittelwertparametern ì k / ir, die in den veränderten HMM-Modellen verwendet werden, wie dies in Gleichung (1a) gezeigt wird. Wr und damit alle ì ^ k / ir von dieser Regressionsklasse werden geschätzt aus den für diese Regressionsklasse beobachteten Anpassungsdaten, Schritte S6 und S7, bei dem aktuellen Anpassungsschritt k. Anschließend, gemäß dem Stand der Technik, werden die Schritte S6 und S7 direkt durchgeführt, wobei die HMM-Modelle, die in einem ersten Anpassungsschritt ohne Anpassung verwendet werden, gemäß der folgenden Gleichung (1a) angepasst werden μkir = μ ^kir (1a)
  • Wie bereits erwähnt, erfolgt die bisher beschriebene Prozedur gemäß der bereits aus dem Stand der Technik bekannten Prozedur. Jedoch, wie ebenso oben erwähnt, arbeitet dieses Verfahren nur mit einer relativ großen Menge von Anpassungsdaten zuverlässig.
  • Andererseits wird der gemäß Gleichung (1) im Schritt S4 berechnete angepasste Mittelwert gemäß der Erfindung nicht direkt zur Veränderung der HMMs verwendet, sondern die angepassten Mittelwertparameter werden im Schritt S5 verändert. Demgemäß wird eine gewichtete Summe des "alten" und "neuen" Mittelwerts zur Veränderung der HMM-Modelle verwendet.
  • Im Schritt S5 wird daher der aktualisierte Mittelwert ì k / ir nicht nur berechnet, wie in Gleichung (1a) oben, wo er direkt ì ^ k / ir entspricht, sondern wird grundsätzlich wie folgt gemäß Gleichung (2) berechnet:
    M1: Achtung: Oben Mittelwertparameter = Mittelwert, d. h. Einzahl! μkir = αrμ ^kir + (1 – αrk–1ir (2)wobei αr ein erster Gewichtsfaktor für eine entsprechende Regressionsklasse r ist. Der Index k beginnt mit 1, ì 0 / ir sind die Mittelwertvektoren des sprecherunabhängigen Systems.
  • Die neuen Äußerungen, dargestellten durch ì ^ k / ir, werden mit einem ersten festen Gewichtsfaktor αr ~ 0,001 ... 0,9 gewichtet, so dass die Daten unter Verwendung einer kurzzeitigen Vergangenheit angepasst werden, mit einer α-abhängigen Länge. Demgemäß weisen die Transformationsmatrizen, die in Abhängigkeit einer kleinen Menge von Anpassungsdaten, die möglicherweise teilweise fehlerhaft sind, erhalten werden, einen geringeren Einfluss auf die Mittelwerte auf, die zur Veränderung der HMMs verwendet werden, wobei jedoch eine schnelle Anpassung sichergestellt wird. Die Verwendung dieser gewichteten Summe erlaubt eine schnelle Anpassung mit nur einer geringen Menge von Anpassungsdaten (z. B. eine Äußerung), so dass eine Online- oder Echtzeitanpassung möglich ist.
  • In einer bevorzugten Ausführungsform wird der erste Gewichtsfaktor αr dynamisch verändert, während der neue Sprecher das System verwendet. Eine bessere Leistung kann erhalten werden, falls große Änderungen an den HMMs durchgeführt werden, falls ein neuer Sprecher beginnt, das System zu verwenden, so dass die HMMs besser mit seiner Akustik übereinstimmen, um so sehr schnell eine geringe Fehlerrate zu erhalten. Später sollten die Änderungen kleiner und kleiner werden, so dass neue Äußerungen eines Sprechers geringer gewichtet werden als alle vorhergehenden Äußerungen des bestimmten Sprechers, so dass die Summe von älteren Äußerungen von diesem bestimmten Sprecher einen wesentlich größeren Einfluss hat als die neu gesprochenen Äußerungen. Es werden daher die Anzahl von Rahmen bzw. Frames berücksichtigt, die bisher beobachtet wurden, um den ersten Gewichtungsfaktor αr gemäß der folgenden Gleichung (3) dynamisch zu verändern:
  • Figure 00060001
  • Demgemäß ist (1 – á k / r) von Gleichung (2) oben, wie in Gleichung (4) folgt, definiert
    Figure 00060002
    wobei n k / r die Anzahl von Rahmen ist, die bisher während des Anpassungsschritts k beobachtet wurden, 0 < k ≤ ∞, in der Regressionsklasse r und ô k / r ein zweiter Gewichtungsfaktor ist, der den anfänglichen Einfluss der sprecher unabhängigen Modelle bestimmt, welcher heuristisch bestimmt wird. ô k / r kann auch eine Konstante sein.
  • Gemäß einer weiteren bevorzugten Ausführungsform ist es möglich, mit jeder zusätzlichen Äußerung nach einer ersten Anpassungsprozedur nur eine Feinanpassung durchzuführen. Daher wird die Anpassung gemäß den Gleichungen (3) und (4) mit der Anzahl von Sprachrahmen gewichtet, die bereits von einem bestimmten Sprecher beobachtet wurden, so dass die Anpassung, die bereits in der Vergangenheit durchgeführt wurde, verwendet wird mit einem größeren Gewicht als für neue Äußerungen. Um dies durchzuführen, erhöht sich ô k / r um n k / r nach jedem Anpassungsschritt, so dass ô k / r = ô k–1 / r + n k / r gilt. ô 0 / r ist ein Anfangswert, der heuristisch bestimmt wird und zwischen einigen hundert und einigen tausend (z. B. 100–10.000) variieren kann.
  • Unter Berücksichtigung aller bevorzugter Ausführungsformen kann Gleichung (2) von oben wie folgt geschrieben werden:
  • Figure 00070001
  • Unter Verwendung dieses Gewichtsmodells nimmt der Einfluss von á k / r und damit der Einfluss der am nächsten zurückliegenden beobachteten Mittelwerte mit der Zeit ab und die Parameter streben dem Optimum für diesen Sprecher zu, nachdem große Änderungen an den HMM-Modellen vorgenommen wurden, falls ein neuer Sprecher beginnt, das System zu verwenden.

Claims (9)

  1. Verfahren zur Durchführung einer nicht-überwachten Sprecheranpassung für Hidden-Markov-Modelle mit kontinuierlicher Dichte, wobei die Maximum Likelihood-Linear-Regressionsadaption verwendet wird, dadurch gekennzeichnet, dass für eine Online-Anpassung eine angepasste Gruppe von Parametern (ak) zur Maximierung der Likelihood der Anpassungsdaten eine gewichtete Summe der vorhergehend angepassten Gruppe von Parametern (ak–1) und der geschätzten Gruppe von Parametern (âk) gemäß der Maximum-Likelihood-Regression ist.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die gewichtete Summe wie folgt berechnet wird: ak = α·âk + (1 – α)·ak–1,wobei k der momentane Anpassungsschritt, ak die angepasste Gruppe von Parametern, die die Likelihood oder Anpassungsdaten maximiert, ak–1 die angepasste Gruppe von Parametern, die vorhergehend die Likelihood der Anpassungsdaten maximiert hat, âk die geschätzte Gruppe von Parametern, die mittels der Maximum-Likelihood-Linear-Regression berechnet wird und α ein erster Gewichtsfaktor ist.
  3. Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass sich der erste Gewichtsfaktor (α) dynamisch verändert in Abhängigkeit der Zeit, in welcher ein neuer bestimmter Sprecher das System verwendet.
  4. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass der erste Gewichtsfaktor (α) in der Zeit, in welcher der bestimmte Sprecher das System verwendet, abnimmt.
  5. Verfahren gemäß Anspruch 4, dadurch gekennzeichnet, dass der erste Gewichtsfaktor (α) wie folgt berechnet wird:
    Figure 00080001
    wobei nk die Anzahl von Rahmen ist, die bisher während des Anpassungsschritts k beobachtet wurden, und τk–1 ein zweiter Gewichtsfaktor (τ), der heuristisch bestimmt wird, ist.
  6. Verfahren gemäß Anspruch 5, dadurch gekennzeichnet, dass der zweite Gewichtsfaktor (τ) von der Anzahl der Sprachrahmen abhängt, die bereits von dem bestimmten Sprecher beobachtet wurden, so dass die bereits durchgeführte Anpassung ein größeres Gewicht hat, als neu gesprochene Äußerungen.
  7. Verfahren gemäß Anspruch 5 oder 6, dadurch gekennzeichnet, dass sich der zweite Gewichtsfaktor (τ) nach jedem Anpassungsschritt um nk erhöht.
  8. Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Gruppe von Parametern (ak) zur Maximierung der Likelihood der Anpassungsdaten, die Mittelwertparameter (μ k / ir, i: Anzahl der entsprechenden Gauss-Klasse, r: Anzahl der entsprechenden Regressionsklasse innerhalb der entsprechenden Gauss-Klasse) in Mixture-Gauss-HMM-Systemen sind.
  9. Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Gruppe von Parametern (ak) zur Maximierung der Likelihood der Anpassungsdaten die Gauss-Varianzparameter (Σ) in Mixture-Gauss-HMM-Systemen sind.
DE1998626292 1998-12-01 1998-12-01 Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren Expired - Lifetime DE69826292T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP19980122791 EP1008983B1 (de) 1998-12-01 1998-12-01 Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren

Publications (2)

Publication Number Publication Date
DE69826292D1 DE69826292D1 (de) 2004-10-21
DE69826292T2 true DE69826292T2 (de) 2005-11-17

Family

ID=8233064

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998626292 Expired - Lifetime DE69826292T2 (de) 1998-12-01 1998-12-01 Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren

Country Status (2)

Country Link
EP (1) EP1008983B1 (de)
DE (1) DE69826292T2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089183B2 (en) * 2000-08-02 2006-08-08 Texas Instruments Incorporated Accumulating transformations for hierarchical linear regression HMM adaptation
DE60007637T2 (de) 2000-10-10 2004-11-18 Sony International (Europe) Gmbh Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung

Also Published As

Publication number Publication date
EP1008983B1 (de) 2004-09-15
EP1008983A1 (de) 2000-06-14
DE69826292D1 (de) 2004-10-21

Similar Documents

Publication Publication Date Title
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69833987T2 (de) Halbüberwachte Sprecheradaptation
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69705830T2 (de) Sprachverarbeitung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69615667T2 (de) Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69318447T2 (de) Erkennungssystem
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60004331T2 (de) Sprecher-erkennung
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
EP1084490A1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE