DE60009583T2

DE60009583T2 - Sprecheradaptation auf der Basis von Stimm-Eigenvektoren

Info

Publication number: DE60009583T2
Application number: DE60009583T
Authority: DE
Inventors: Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-01-22
Filing date: 2000-01-17
Publication date: 2005-05-25
Anticipated expiration: 2020-01-18
Also published as: JP2000214882A; EP1022722B1; EP1022722A3; EP1022722A2; US6253181B1; DE60009583D1

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich im Allgemeinen auf Spracherkennungssysteme und Sprachtrainingssysteme. Insbesondere bezieht sich die Erfindung auf ein Spracherkennungsgerät mit einem Adaptationssystem, das Eigenstimmen-Basisvektoren einsetzt, um das anfängliche Sprachmodell schnell auf jenes des Benutzers zu adaptieren. Das System verwendet weiter eine Vertrauensmesstechnik, wodurch das System seine Adaptation automatisch auf sprachliche Äußerungen basiert, die mit hohem Vertrauen erkannt werden, während es mit niedrigem Vertrauen erkannte sprachliche Äußerungen ignoriert. Auf diese Weise passt sich das System ziemlich schnell automatisch dem Benutzer an und erhöht die Chance des Spracherkenners gute Erkennungsleistung aufzuweisen, ohne sich inkorrekten Aussprachen anzupassen. Das System erweist sich daher bei schwierigen Sprechern, wie beispielsweise Kindern oder ausländischen Sprechern nützlich.
Jene, die heutige kontinuierliche Spracherkennungssysteme benutzt haben, werden mit dem zeitraubenden und rigorosen Prozess vertraut sein, durch den das Sprachmodell des Spracherkenners der Sprache des individuellen Benutzers angepasst wird. Für die meisten erwachsenen Benutzer, die die Sprache bereits fließend sprechen, involviert der Adaptationsprozess einfach die Disziplin genügend Proben der Sprache jenes Benutzers bereitzustellen, damit das anfänglich gelieferte sprecherunabhängige Sprachmodell einem sprecherabhängigen Modell für jenen Sprecher angepasst werden kann. Der Adaptationsprozess kann beaufsichtigt sein, wobei der Benutzer Wörter, Phrasen oder Sätze spricht, die dem Erkennungssystem im Voraus bekannt sind. Als Alternative kann der Adaptationsprozess unbeaufsichtigt sein, wobei der Benutzer in das System spricht, ohne dass das System a priori Wissen vom Sprachinhalt hat. Ein Beispiel einer bekannten Sprecheradaptation ist in der US-A-5787394 offenbart.
Adaptieren des Spracherkennungssystems auf Sprache, die von Kindern oder ausländischen Sprechern bereitgestellt wird, die die Sprache nicht fließend sprechen, ist erheblich schwieriger. Spracherkennungssysteme haben große Schwierigkeit die Sprache von Kindern und ausländischen Sprechern zu verarbeiten und zu erkennen, teilweise weil die Sprachmodelle heutiger Spracherkenner zum Großteil auf erwachsene Muttersprachler trainiert sind. Für Kinder und ausländische Sprecher sind einfach sehr wenige Daten verfügbar.
Zusätzlich zu schlechter Erkennung haben Spracherkenner Schwierigkeit mit Kindern und ausländischen Sprechern, weil Dialog mit dieser Art von Benutzern sehr schwierig ist. Kinder im Alter von vier bis sieben Jahren finden es im Allgemeinen schwierig sich auf die Aufgabe zu konzentrieren den Spracherkenner zu trainieren. Kinder lassen sich leicht ablenken und man kann ihnen nicht zutrauen, dass sie den Adaptationsprozeduren korrekt Folge leisten. Tatsächlich ist diese Schwierigkeit, Sprachdaten von Kindern zu erhalten, ein Grund warum der Großteil von Sprachdaten seitens Kinder so klein ist.
Ausländische Sprecher stellen ein ähnliches Problem dar. Obwohl erwachsene ausländische Sprecher in der Lage sind sich auf die Adaptationsaufgabe zu konzentrieren, können sie vielleicht, wie Kinder, unfähig sein zur Adaption benutzte Trainingstexte zu lesen, und sie können vielleicht so viele Wörter falsch aussprechen, dass es dem adaptierten Sprachmodell misslingen wird nachfolgende Sprache richtig zu erkennen.
Wie in den angehängten Ansprüchen beansprucht, geht die vorliegende Erfindung die vorgenannten Probleme an, indem sie ein Spracherkennungsgerät bereitstellt, welches das anfängliche Sprachmodell, unter Verwendung eines hoch wirksamen und schnellen Adaptationssystems adaptieren wird, das die Qualität oder die Genauigkeit der Aussprache des Benutzers automatisch bewerten wird, indem es nur sprachliche Äußerungen hohen Vertrauens zur Adaptation heranzieht. Das Adaptationssystem verwendet a priori Wissen über die Klasse von Sprechern, für welche die Anwendung auf die Stimme des Benutzers, mit einer nur sehr begrenzten Menge Adaptationsdaten, adaptiert werden soll.
Insbesondere beruht das Adaptationssystem auf einer Sprecherraumrepräsentation der Klasse von Sprechern. Eine Vielheit von Trainingssprechern ist gewöhnt Sprachmodelle zu generieren, die dann dimensional reduziert werden, um einen Satz von Basisvektoren zu generieren, die einen Eigenraum definieren. Beim Adaptationsprozess werden vom Benutzer ausgesprochene Spracheinheiten dazu benutzt das adaptierte Sprachmodell zu trainieren, während der von den Basisvektoren überspannte Raum dazu verwendet wird das adaptierte Sprachmodell zu zwingen innerhalb des Eigenraums zu liegen. Wie nachstehend ausführlicher beschrieben ist, haben wir festgestellt, dass diese Eigenstimmentechnik der Codierung von a priori Wissen über den Zielbenutzerbestand bemerkenswert schnelle Adaptation erzielt, selbst wenn sehr wenig Adaptationsdaten bereitgestellt werden. Das System ist fähig zu beginnen Adaptation fast so schnell durchzuführen wie der Benutzer zu sprechen beginnt. Sobald der Sprecher eine sprachliche Äußerung bereitgestellt hat, die das Vertrauensmesssystem als zuverlässig zulässt, kann das mit jener sprachlichen Äußerung assoziierte Sprachmodell in den Eigenraum platziert bzw. projiziert werden, wodurch ein adaptiertes Sprachmodell erstellt wird, das auf die Klasse von Sprechern beschränkt ist, für welche die Anwendung beabsichtigt ist.
Das Spracherkennungsgerät eignet sich für viele Verwendungen und macht eine Reihe interessanter Anwendungen möglich, die bisher schwer zu erzielen gewesen sind. Ein Beispiel ist das computergestützte Lehrsystem, das Kinder oder ausländische Sprecher in die korrekte Aussprache neuer Wörter in der Sprache einweist. In einem für Kinder geeigneten System, kann eine einfache beaufsichtigte Sitzung damit beginnen das Kind dazu zu bewegen einfach seinen Namen zu nennen. Das System kann a priori Wissen vom Namen des Kinds durch buchstabierte Eingabe mittels Tastatur haben.
In einem Sprachlehrsystem lässt sich die Vertrauensmessung außerdem dazu verwenden den Benutzer über Wörter zu befragen, die nicht zuversichtlich erkannt werden. Das Lehrsystem kann ein Sprachwiedergabesystem einschließen, das Sprachdaten enthält, die vorher aufgezeichnete Sprache repräsentieren. Diese Daten können richtige Aussprache von Wörtern als Teil der Rückfrage liefern, wobei um Benutzerverifizierung eines möglicherweise missverstandenen Worts gesucht wird, während das Wort gleichzeitig korrekt ausgesprochen wird, damit es der Benutzer hören kann.
Während das Spracherkennungsgerät der Erfindung höchst nützlich in Sprachlehrsystemen ist, macht das Schnelladaptationssystem gekoppelt mit der Vertrauensmessung den Spracherkenner in anderen Anwendungen ziemlich nützlich wo Adaptation schwierig ist. Diese Anwendungen schließen Fernsprechleitweglenkung und sprachaktivierte Marketingsysteme ein, wo schnelle und zuverlässige Sprecheradaptation fast vom Augenblick an erforderlich ist, an dem der Sprecher zu sprechen beginnt.
Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm des Spracherkennungsgeräts;
2 ist ein Blockdiagramm, das illustriert wie die Vertrauensmessung unter Einsatz eines Likelihood-Punktverhältnisses generiert wird;
3 ist ein Datenflussdiagramm, das illustriert wie man einen Eigenraum aus einer Vielheit von Trainingssprechern konstruiert; und
4 ist ein Datenflussdiagramm, das illustriert wie ein adaptiertes Modell unter Verwendung der Eigenstimmen in Übereinstimmung mit der Erfindung konstruiert wird.
BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
Das Spracherkennungsgerät der Erfindung ist in seiner gegenwärtig bevorzugten Form in der 1 illustriert. Das System passt sich schnell an sowie ein neuer Sprecher 10 mit dem Erkennungsgerät einen Dialog durch das Dialogsystem 12 führt. Das Dialogsystem 12 kann eine einfache Schnittstelle zum Spracherkenner 14 sein, oder es kann die interaktive Fähigkeit einschließen den neuen Sprecher zu Eingabe zu veranlassen oder dem Sprecher Anweisungen darüber zu geben wie Wörter in der Sprache richtig auszusprechen sind.
Der Spracherkenner 14 arbeitet im Zusammenhang mit einem oder mehreren Sprachmodellen, die alle vom System erkannten Klangeinheiten repräsentieren. Im illustrierten Ausführungsbeispiel ist ein anfängliches Sprachmodell 16 mit einem Spracherkenner 14 assoziiert, um das sprecherunabhängige Modell zu definieren, mit dem der neue Sprecher während der Adaptation einen Dialog führen wird. Das Spracherkennungsgerät schließt ein Adaptationssystem 18 ein, das das anfängliche Sprachmodell 16, auf der Basis selektierter sprachlicher Äußerungen hohen Vertrauens seitens des neuen Sprechers, adaptiert. Das Adaptationssystem adaptiert somit das anfängliche Sprachmodell, um ein adaptiertes Sprachmodell 20 zu schaffen, das mit dem Spracherkenner 14 assoziiert ist. Das adaptierte Sprachmodell kann abseits vom anfänglichen Sprachmodell gespeichert werden, was das anfängliche Sprachmodell zur nachfolgenden Benutzung durch verschiedene neue Sprecher intakt lässt. Als Alternative können, wenn erwünscht, das anfängliche Sprachmodell und das adaptierte Sprachmodell zu einem einzigen Modell vermischt werden.
Das Adaptationssystem 18 führt, dank seines a priori Wissens über die Klasse der neuen Sprecher, Adaptation mit hoher Geschwindigkeit durch. Dieses Wissen wird als ein Satz Eigenraum-Basisvektoren repräsentiert, die wir Eigenstimmen nennen. Die Eigenstimmen werden von einer Vielheit von Trainingssprechern 22 abgeleitet und repräsentieren Sprecherraum. Das bevorzugte Ausführungsbeispiel repräsentiert Sprecherraum als Eigenstimmendaten 24. Das Adaptationssystem schließt somit einen Eigenstimmen-Datenspeicher 24 ein, der eine Eigenraum-Datenstruktur enthält, die die Vielheit von Trainingssprechern als einen Satz dimensional reduzierter Modelle repräsentiert. Wie nachstehend ausführlicher beschrieben werden wird, stellen die Trainingssprecher 22 Sprache bereit, nach der Modelle trainiert werden, und jene Modelle werden dann dimensional reduziert, um einen Satz Basisvektoren zu generieren, die den Eigenraum definieren. Im Wesentlichen repräsentiert der Eigenstimmen-Datenspeicher die ganze Sammlung von Trainingssprechern. Das Adaptationssystem verwendet die im Datenspeicher 24 gespeicherten Basisvektoren, um das adaptierte Sprachmodell 20 einzuschränken, so dass es innerhalb des festgelegten Eigenraums liegt.
Ein wichtiger Vorteil des Eigenstimmen-Adaptationssystems ist Geschwindigkeit. Der Adaptationsprozess kann auf der Basis einer einzigen sprachlichen Äußerung beginnen. Der neue Sprecher braucht keine Beispiele jeder Klangeinheit im Sprachmodell bereitstellen, bevor Adaptation beginnen kann. Dieser Vorteil ergibt sich aus der Eigenstimmenrepräsentation, weil eine einzige sprachliche Äußerung dafür verwendet werden kann einen Satz von Vektoren zu generieren, die dann auf den Eigenraum platziert bzw. projiziert werden können. Obwohl das adaptierte Sprachmodell 20 typisch dazu neigt sich über Zeit zu verbessern, sowie das System benutzt wird, tendiert das allererste adaptierte Sprachmodell, das vom System generiert wurde, dazu nichtsdestoweniger erstaunlich genau zu sein.
Beim Adaptieren der Sprache schwieriger Sprecher, wie beispielsweise Kindern oder ausländischen Sprechern, können sprachliche Äußerungen so weit vom Erwarteten entfernt sein, dass sie verworfen werden müssen. Wenn, beispielsweise, das Dialogsystem 12 den neuen Sprecher auffordert das Wort „Katze" zu sagen, aber der Sprecher das Wort „Elefant" sagt, sollte jene sprachliche Äußerung nicht dafür benutzt werden das mit dem Wort „Katze" assoziierte Sprachmodell zu trainieren. Während dieses extreme Beispiel bereitgestellt wurde den Punkt zu illustrieren, haben wir festgestellt, dass kleine Kinder große Schwierigkeit haben sich auf langwierige Aufforderungs-Antwort-Sitzungen zu konzentrieren und häufig falsche sprachliche Äußerungen in das System eingeben können. Kleine Kinder neigen außerdem dazu weniger gewahr zu sein die Mikrofonplatzierungsanweisungen zu befolgen. Sie sprechen nicht immer ab einer vorbestimmten Distanz ins Mikrofon. Hintergrundgeräusch, das vom Fernseher oder durch andere Kinder generiert wird, kann vom Mikrofon aufgenommen werden und gewisse sprachlichen Äußerungen unerkennbar machen.
Um dieses Problem anzugehen, verwendet das Spracherkennungsgerät ein Vertrauensmesssystem 26, das an den Spracherkenner 14 gekoppelt ist und eine quantitative Messung davon bereitstellt wie zuverlässig jede sprachliche Äußerung ist. Das Vertrauensmesssystem führt den Adaptationsprozess herbei, und siebt sprachliche Äußerungen aus, die zur Verwendung durch das Adaptationssystem 18 nicht zuverlässig genug sind. Obwohl es eine Reihe verschiedener Techniken zum Messen von Vertrauen und zum Einsatz dieser Messungen im Adaptationssystem gibt, verwendet das gegenwärtig bevorzugte Ausführungsbeispiel ein Likelihood-Punktverhältnis, das das mit der korrekten Erkennung assoziierte Likelihood-Punktergebnis mit den mittleren oder durchschnittlichen Likelihood-Punktergebnissen vergleicht, die mit inkorrekter Erkennung assoziiert sind. Weitere Details dieses Likelihood-Verhältnisses werden in Verbindung mit der 2 bereitgestellt, die als Nächstes erörtert wird.
Wenn erwünscht, kann das Vertrauensmesssystem mit dem Dialogsystem als ein Mechanismus zum Herbeiführen des Adaptationsprozesses gekoppelt werden. Sowie der neue Sprecher dem Dialogsystem sprachliche Äußerungen liefert, führt der Spracherkenner 14 Spracherkennung durch, und das Vertrauensmesssystem 26 ordnet den Ergebnissen jener Erkennung eine Vertrauensmessung zu. Erkannte sprachliche Äußerungen mit einer ausreichend hohen Vertrauensmessung (jene über einem vorbestimmten Vertrauensmessungsschwellwert) werden vom Dialogsystem 12 ans Adaptationssystem 18 weitergeleitet. Sprachliche Äußerungen mit einer niedrigen Vertrauensmessung werden nicht ans Adaptationssystem weitergeleitet.
Obwohl sprachliche Äußerungen niedrigen Vertrauens einfach verworfen werden können, kann das Dialogsystem 12 die Vertrauensmessung ausnutzen den neuen Sprecher auf eine Art und Weise aufzufordern, die: (a) den neuen Sprecher auffordert die sprachliche Äußerung zu wiederholen und (b) dem neuen Sprecher die richtige Aussprache für das Wort lehrt, das laut Spracherkenner vom Sprecher geäußert worden ist. Betrachten sie das folgende Beispiel:
System: „Was für eine Farbe hat die Giraffe?"
Kind: (Antwort unverständlich – niedriges Vertrauen, klingt wie „braun")
System: „Hast du ,braun' gesagt?"
Kind: „Ja"
System: Sag, „die Giraffe ist braun." Kind: „Die Giraffe ist braun."
In der vorhergehenden Sequenz wurde, die anfänglich unverständliche Antwort des Kinds – als das Wort „braun" interpretiert – in einer nachfolgenden Reihe von Aufforderungen verwendet, die konzipiert ist dem Kind die richtige Aussprache zu lehren.
Das Vertrauensmesssystem 26 kann viele Formen annehmen. Das gegenwärtig bevorzugte Ausführungsbeispiel verwendet die vom Spracherkenner generierten Likelihood-Punktergebnisse auf eine Weise, die die Punktergebnisse normalisiert, um ein Messsystem hervorzubringen, das vom Vokabular unabhängig ist. Die 2 illustriert ein gegenwärtig bevorzugtes Ausführungsbeispiel eines solchen Normalisiersystems. Eingabesprache 40 wird dem Spracherkenner 14 bereitgestellt, mit dem eine Vielheit von Sprachmodellen, in diesem Fall Hidden Markov Modelle 42 (HMMs), assoziiert ist. Jedes HMM ist trainiert worden eine verschiedene Klangeinheit zu repräsentieren. Für Illustrationszwecke entsprechen die in der 2 gezeigten HMMs jeweils verschiedenen Wörtern, die das System erkennen wird. Die hier illustrierten Techniken sind nicht auf Modelle auf Wortbasis beschränkt, da sie im Allgemeinen auf Erkenner anwendbar sind, die auf anderen Klangeinheiten beruhen (z.B. volle Namen, Silben, Wörter, Phrasen, usw.).
Als Reaktion auf eine sprachliche Äußerung 40, beurteilt der Erkenner was die Likelihood bzw. Wahrscheinlichkeit ist, dass jedes seiner Modelle die Eingabeäußerung generieren würde. Der Erkenner ordnet jedem Modell ein Erkennungsergebnis zu bzw. verbindet ein solches damit. Wenn, daher die Eingabesprache das Wort „Bob" umfasst, wird das „bob" Modell ein höheres Erkennungsergebnis als die anderen Modelle, „cob", „dog", und so weiter, generieren. Bei 44 sind die Erkennungsergebnisse illustriert, die dem Fall entsprechen wo die sprachliche Äußerung (Bob) korrekt erkannt ist. Beachten Sie, dass das vom HMM-Modell für Bob generierte Erkennungsergebnis (0,9) höher als die von den anderen Modellen generierten Erkennungsergebnisse sind.
Andererseits kann die Eingabesprache inkorrekt erkannt werden, weil die sprachliche Äußerung falsch ausgesprochen ist. Die Likelihood-Ergebnisse identifizieren die Eingabeäußerung nicht länger, wie bei 46 illustriert, als die Wahrscheinlichste. Im Allgemeinen, kann es vielleicht zahlreiche Beispiele inkorrekter Erkennung, jedes mit einem anderen Satz von Likelihood-Ergebnissen, geben. Dies wurde bei 46 als eine Vielheit von „Seiten" illustriert, wobei jede eine andere Likelihood-Verteilung enthält.
Die bei 44 und 46 illustrierten Likelihood-Daten repräsentieren somit zwei verschiedene Klassen. Die erste Klasse entspricht dem Fall der korrekten Erkennung (44) und die zweite Klasse entspricht dem Fall inkorrekter Erkennung (46). Ein Verhältnis dieser zwei Klassen kann, wie bei 48 dargestellt, konstruiert werden. Das Verhältnis umfasst das Likelihood-Ergebnis für korrekte Erkennung (als Zähler) und das Mittel der Likelihood-Ergebnisse für inkorrekte Erkennung (als Nenner).
Das in der 2 beschriebene Verhältnis lässt sich als ein Logarithmus berechnen, in welchem Fall der Log-Likelihood-Unterschied zu einer Repräsentation wird, ob die sprachliche Äußerung ein hohes Vertrauensmaß oder ein niedriges Vertrauensmaß hat.
Wo:
O_j eine mit Modell s_j assoziierte Sprachobservation ist;
s_j ein HMM-Modell ist;
L(O_j|s_j) die Likelihood der Observation O _j des gegebenen HMM-Modells s_j ist;
γ ein Abstimmungsfaktor ist.
Die obige Gleichung demonstriert, dass, wenn der erste Ausdruck dominiert (wenn die Log-Likelihood-Differenz positiv ist), das Ergebnis ein hohes Vertrauensmaß ist. Wenn der zweite Ausdruck dominiert (die Log-Likelihood-Differenz ist negativ), ergibt sich ein niedriges Vertrauensmaß. Somit kann das Vertrauensmesssystem 26 (1) leicht bestimmen, ob eine gegebene sprachliche Äußerung vom Adaptationssystem verwendet werden soll oder nicht, indem es einfach die Log-Likelihood-Differenz in Übereinstimmung mit der obigen Gleichung berechnet und prüft ob jene Differenz positiv oder negativ ist oder indem es sie mit einem vorbestimmten Schwellwert vergleicht.
Das auf der Log-Likelihood-Differenz beruhende Vertrauensmaß lässt sich durch Einstellen des Werts der Konstante γ fein abstimmen. Ist der Wert sehr groß eingestellt, wird die Summe im zweiten Ausdruck durch den großen Likelihood-Wert dominiert. Dies deutet darauf hin, dass nur der Beitrag des ersten konkurrierenden Wortmodells zu jenem des korrekten Erkennungsfalls in Betracht gezogen wird. Da γ kleiner gemacht wird, wird der Beitrag der anderen Likelihoods signifikanter. In der Praxis sollte γ auf einen Wert eingestellt werden, der zu einer gesamten guten Verifizierungsleistung für alle Wörter führt.
Konstruieren des Eigenstimmenraums
Der Prozess für das Konstruieren eines Eigenraums, um eine Vielheit von Trainingssprechern zu repräsentieren, ist in der 3 illustriert. Die Illustration nimmt an, dass eine Zahl T von Trainingssprechern 120 einen Bestand von Trainingsdaten 122 bereitstellt, nach denen der Eigenraum konstruiert werden wird. Vorzugsweise werden die Trainingsdaten von einer großen Anzahl von Sprechern (um die 100 bis 200) bereitgestellt. Diese Trainingsdaten werden dann dazu verwendet ein sprecherabhängiges Modell (SD), wie bei 124 illustriert, zu trainieren.
Bei Schritt 124 wird ein Modell pro Sprecher konstruiert, wobei jedes Modell das ganze Lexikon repräsentiert, das vom Erkennungssystem verstanden werden soll. Jedes Modell kann ein Satz von HMMs sein, d.h. ein HMM für jede Klangeinheit. Dies ist in der 3 bei 126 illustriert.
Nach dem alle Trainingsdaten von T-Sprechern verwendet worden sind, um die jeweiligen sprecherabhängigen Modelle zu trainieren, wird ein Satz von T-Supervektoren bei 128 konstruiert. Daher wird es einen Supervektor 130 für jeden der T-Sprecher geben. Der Supervektor für jeden Sprecher umfasst eine geordnete Liste von Parametern (typische Gleitkommazahlen) die wenigstens einem Teil der Parameter der Hidden Markov Modelle für jenen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter sind für einen gegebenen Sprecher im Supervektor inbegriffen. Die Parameter lassen sich in jeder praktischen Reihenfolge organisieren. Die Reihenfolge ist nicht kritisch; sie muss jedoch, sobald eine Reihenfolge adoptiert ist, diese für alle T-Sprecher befolgen.
Die geordneten Parameter für das Hidden Markov Modell werden dann verkettet, um den Supervektor zu formen. Die Wahl, welche HMM-Parameter in den Supervektor eingeschlossen werden sollen, kann von der verfügbaren Verarbeitungsleistung abhängen. Wir haben festgestellt, dass das Konstruieren von Supervektoren aus Gaußschen Mitteln gute Ergebnisse bringt. Wenn größere Verarbeitungsleistung zur Verfügung steht, können die Supervektoren außerdem andere HMM-Parameter, wie beispielsweise die Übergangswahrscheinlichkeiten oder die Kovarianz-Matrixparameter einschließen. Natürlich, wenn die Hidden Markov Modelle diskrete Ausgaben (im Gegensatz zu Wahrscheinlichkeitsdichten) generieren, dann können diese Ausgabewerte dazu verwendet werden den Supervektor zu umfassen.
Nach dem Supervektoren für jeden der Trainingssprecher konstruiert worden sind, wird bei Schritt 132 Dimensionsreduzierung ausgeführt. Im Allgemeinen involviert Eigenstimmenadaptation eine vorteilhafte Dimensionsreduktion, welche die Geschwindigkeit und Effizienz stark verbessern kann, mit der Sprecher- und Umweltadaptation ausgeführt wird. Dimensionsreduzierung bezieht sich auf ein Mapping von hochdimensionalem Raum auf einen niedrigdimensionalen Raum. Es lässt sich eine Reihe verschiedener Techniken benutzen, um Dimensionsreduzierung zu bewirken. Diese schließen Hauptkomponentenanalyse (PCA), Lineare Diskriminanzanalyse (LDA), Faktoranalyse (FA), Singuläre Wertzerlegung (SVD) und andere Transformationen ein, die auf Varianz beruhende Reduktionskriterien anwenden. Im gegenwärtigen, hier illustrierten Beispiel, wurde Hauptkomponentenanalyse benutzt.
Hauptkomponentenanalyse auf T-Supervektoren ergibt T-Eigenvektoren, wie bei 134. Wenn, daher 120 Trainingssprecher verwendet wurden, wird das System 120 Eigenvektoren generieren. Diese Eigenvektoren definieren was wir Eigenstimmenraum bzw. Eigenraum nennen.
Die Eigenvektoren, die den Eigenstimmenraum ausmachen, sind unkorreliert; sie repräsentieren jeweils eine verschiedene Dimension über die verschiedene Sprecher differenziert werden können. Jeder Supervektor im originalen Trainingssatz kann als eine lineare Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren sind nach ihrer Wichtigkeit beim Modellieren der Daten geordnet: Der erste Eigenvektor ist wichtiger als der Zweite, der wichtiger ist als der Dritte, und so weiter. Unsere bisherigen Experimente mit dieser Technik zeigen, dass der erste Eigenvektor einer männlich-weiblichen Dimension zu entsprechen scheint.
Obwohl ein Maximum von T-Eigenvektoren bei Schritt 132 produziert wird, ist es, in der Praxis, möglich mehrere dieser Eigenvektoren zu verwerfen und nur die ersten N-Eigenvektoren zu behalten. Daher entnehmen wir bei Schritt 136 optional N der T-Eigenvektoren, um bei 138 einen reduzierten Parameter-Eigenraum zu umfassen. Die Eigenvektoren höherer Ordnung können verworfen werden, weil sie typisch weniger wichtige Information enthalten, mit der unter Sprechern zu diskriminieren ist. Reduzieren des Eigenstimmenraums auf weniger als die Gesamtzahl von Trainingssprechern stellt eine innewohnende Datenkomprimierung bereit, die beim Konstruieren praktischer Systeme mit begrenzten Speicher- und Prozessorressourcen hilfreich sein kann.
Durchführen der Adaptation
Sobald der Eigenstimmenraum konstruiert worden ist, lassen sich Sprecheradaptation oder Umweltadaptation leicht erzielen. Während das Konstruieren des Eigenraums etwas rechenbetont intensiv ist, und typisch „offline" durchgeführt wird, ist Adaptation eine verhältnismäßig einfache rechenbetonte Funktion, die ausgeführt werden kann während der neue Sprecher das System benutzt. Mit Bezugnahme auf die 4, wird Sprache vom neuen Sprecher 140 bei Schritt 142 dazu verwendet ein sprecherabhängiges Modell zu trainieren, um einen Satz von HMMs 144 zu konstruieren (eins für jede Klangeinheit). Das sprecherabhängige Modell kann entweder in einem beaufsichtigten Modus, wo das Trainingssystem den Inhalt der Trainingssprache im Voraus kennt, oder in einem unbeaufsichtigten Modus, wo das Spracherkennungssystem ein sprecherunabhängiges Modell verwendet, trainiert werden, um den Inhalt der Adaptationssprache zu bestimmen.
Das auf diesen neuen Sprecher trainierte sprecherabhängige Modell wird, wenigstens zuerst, gewöhnlich für Spracherkennung sehr unzureichend sein. Jedoch kann das Modell nichtsdestoweniger zum Konstruieren eines Supervektors verwendet werden. Der Supervektor wird bei Schritt 146 so konstruiert, dass der Supervektor (Supervektor 148) beschränkt wird innerhalb des Eigenstimmenraums 138 zu fallen, der vorher von den Trainingssprechern geschaffen wurde. Der Supervektor 148 wird mit der auferlegten Beschränkung konstruiert, dass das zur Erkennung verwendete HMM-Modell eine lineare Kombination der Eigenstimmen sein muss, die den Eigenstimmenraum 138 umfasst.
Das sprecherabhängige Modell 144 dient dazu die lineare Kombination von Koeffizienten zu schätzen, die das adaptierte Modell für jenen neuen Sprecher umfassen werden. Daher wird bei Schritt 150 ein neuer Satz von HMMs auf der Basis des Supervektors 148 konstruiert, um das adaptierte Modell 152 zu generieren. Wenn erwünscht, kann bei 154 ein optionaler iterativer Prozess ausgeführt werden, um einen neuen Supervektor ab dem adaptierten Modell 152 zu konstruieren und danach noch einen Satz von HMMs zu konstruieren, aus denen ein weiteres adaptiertes Modell konstruiert werden kann.
Das Konstruieren des Supervektors 148 kann durch eine rechenbetont einfache Projektionsfunktion oder dergleichen erzielt werden, wodurch die Parameter ab dem sprecherabhängigen Modell 144 projiziert oder anderweitig in den Eigenstimmenraum 138 transformiert bzw. „platziert" werden. Die genaue Technik für das Platzieren der Parameter in den Eigenraum kann vielleicht von den verfügbaren Computerressourcen abhängen. Wenn Ressourcen knapp sind, lässt sich eine einfache Projektionsfunktion verwenden; wenn größere Ressourcen verfügbar sind, kann eine optimierende Funktion benutzt werden, um den Punkt im Eigenraum zu finden, der die höchste Wahrscheinlichkeit bzw. die beste Anpassung an die Adaptationsdaten repräsentiert. Auf diese Weise wird das sprecherabhängige Modell 144, das mit Adaptationsdaten trainiert ist, mit den Eigenstimmen-Vektoren kombiniert, um eine angemessene Schätzung des sprecherabhängigen Modells für den neuen Sprecher (das adaptierte Modell 152) durch eine rechenbetont billige Funktion zu erhalten.
Wenn der neue Satz von HMMs bei Schritt 150 konstruiert wird, können jegliche Parameter, die beim Konstruieren des Supervektors 148 nicht verwendet wurden (falls, beispielsweise, nur Gaußsche Mittelvektoren benutzt wurden) vielleicht von einem vorher konstruierten, sprecherunabhängigen Modell erhalten werden.
In einigen Fällen können die Adaptationsdaten fehlende Klangeinheiten haben (gewisse Klangeinheiten wurden vom neuen Sprecher nicht gesprochen). Daher könnte das sprecherabhängige Modell 144 nicht komplett sein.
Die Eigenstimmen-Adaptionstechnik wird jedoch selbst mit fehlenden Klangeinheiten funktionieren. Auf den ersten Blick kann dies erstaunlich erscheinen, erinnern Sie sich jedoch daran, dass die Eigenvektoren unkorrelierte Vektoren sind, wobei der erste Eigenvektor wichtiger als der Zweite ist, und so weiter. Demzufolge ist es möglich eine signifikante Menge nützlicher Information aus den Adaptationsdaten abzuleiten, selbst wenn einige davon fehlen.
Ein Weg fehlende Klangeinheiten handzuhaben, ist die fehlenden HMM-Parameter der Klangeinheit mit entsprechenden Werten zu ersetzen, die man ab einem sprecherunabhängigen Modell erhält. Dies ist eine rechenbetont billige Vorgehensweise, hat aber den Nachteil, dass das adaptierte Modell dem sprecherunabhängigen Modell ziemlich ähnlich sein kann, wenn nur kleine Mengen von Adaptationsdaten verfügbar sind.
Eine weitere Vorgehensweise ist den Punkt Y im Eigenraum zu finden, der die Likelihood der Adaptationsdaten maximiert, wenn man voraussetzt, dass das adaptierte Modell von Y abgeleitet wurde. Diese Maximum-Likelihood- Schätzfunktion erfordert, dass wir einen anderen Satz linearer Gleichungen während der Durchlaufzeit lösen.
Aus dem Vorgenannten wird man erkennen, dass die vom illustrierten Adaptationssystem verwendeten Techniken in einer Reihe von verschiedenen Spracherkennungssystemen und Sprachlehrsystemen zum Einsatz kommen können. Überdies, während die hierin beschriebenen Eigenstimmentechniken gegenwärtig bevorzugt werden, können andere Techniken benutzt werden, um Sprecherraum im Adaptationssystem zu repräsentieren.
Folglich, obwohl die Erfindung in ihren gegenwärtig bevorzugten Ausführungsbeispielen beschrieben worden ist, wird man zum Schluss gelangen sein, dass die Erfindung zu Modifikation und Änderung fähig ist, ohne vom Umfang der Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.

Claims

Ein Spracherkennungsgerät (10, 12, 14, 16, 18, 20), das ein anfängliches Sprachmodell (16) adaptiert, das auf Eingabesprache (40) seitens eines Benutzers beruht und umfasst: Ein Sprachmodell (16), das Sprache als eine Vielheit von Spracheinheitsmodellen repräsentiert; ein Adaptationssystem (18) mit einem Datenspeicher, der Information enthält, die a priori Wissen über einen Sprecherraum (24) reflektiert, wobei besagtes Adaptationssystem (18) maßgeblich dafür ist geäußerte Spracheinheiten zu selektieren, die ein vorbestimmtes Vertrauensmaß überschreiten und besagte selektierten geäußerten Spracheinheiten und besagte Information, die a priori Wissen reflektiert, dafür zu verwenden besagtes Sprachmodell zu adaptieren; einen Spracherkenner (14); und ein Vertrauensmesssystem (26), das mit besagtem Spracherkenner assoziiert ist; worin: besagter Spracherkenner (14) Eingabesprache seitens des Benutzers verarbeitet, der besagtes Sprachmodell (16) verwendet, um geäußerte Spracheinheiten in besagter Eingabesprache durch Auswerten einer Vielheit besagter Spracheinheitsmodelle zu erkennen und das wahrscheinlichste Spracheinheitsmodell (42) für eine geäußerte Spracheinheit zu identifizieren; und besagtes Vertrauensmesssystem (26), das mit besagtem Spracherkenner (14) assoziiert ist, ein Vertrauensmaß mit jeder der besagten geäußerten Spracheinheiten assoziiert, das auf einem Vergleich eines Erkennungsergebnisses des wahrscheinlichsten Spracheinheits-Erkennungsmodells (42) mit wenigstens einem anderen Erkennungsergebnis eines weiteren ausgewerteten Spracheinheitsmodells beruht.
Das Spracherkennungsgerät des Anspruchs 1, worin besagtes Adaptationssystem (18) einen Datenspeicher einschließt, der einen Satz Eigenraum-Basisvektoren enthält, die eine Vielheit von Trainingssprechern repräsentieren und worin besagtes Adaptationssystem besagte selektierten, geäußerten Einheiten dazu verwendet ein adaptiertes Sprachmodell zu trainieren während es besagte Basisvektoren dazu verwendet besagtes adaptierte Modell so zu beschränken, dass besagtes adaptierte Sprachmodell innerhalb des besagten Eigenraums liegt.
Der Spracherkennungsapparat des Anspruchs 1 worin besagtes Adaptationssystem (18) einen Datenspeicher einschließt, der eine Eigenraum-Datenstruktur enthält, die eine Vielheit von Trainingssprechern als einen Satz von Modellen für besagte Trainingssprecher repräsentiert, die dimensional reduziert worden ist, um einen Satz Basisvektoren zu generieren, die besagten Eigenraum definieren; und worin besagtes Adaptationssystem besagte selektierte, geäußerte Spracheinheiten verwendet, um ein adaptiertes Sprachmodell zu trainieren, während es besagte Basisvektoren dazu verwendet besagtes adaptiertes Sprachmodell so zu beschränken, dass besagtes adaptiertes Sprachmodell innerhalb des besagten Eigenraums liegt.
Das Spracherkennungsgerät des Anspruchs 1, das weiter ein an besagtes Vertrauensmesssystem (26) gekoppeltes Dialogsystem (12), zum Selektieren von wenigstens einem Teil der besagten geäußerten Spracheinheiten und zum Führen des besagten Benutzer auf der Basis des besagten selektierten Teils der besagten geäußerten Spracheinheiten, umfasst.
Das Spracherkennungsgerät des Anspruchs 4, das weiter ein Sprachwiedergabesystem umfasst, das Sprachdaten enthält, die aufgezeichnete Sprache repräsentieren, wobei besagtes Wiedergabesystem mit besagtem Dialogsystem gekoppelt ist, um dem besagten Benutzer besagten Teil der besagten geäußerten Spracheinheiten, unter Verwendung besagter Sprachdaten, zu bestätigen, um eine hörbare Widergabe bereitzustellen, die dem besagten Teil der besagten geäußerten Spracheinheiten entspricht.
Das Spracherkennungsgerät des Anspruchs 1, worin besagter Vergleich eines Erkennungsergebnisses vom wahrscheinlichsten Spracheinheits-Erkennungsmodell mit dem Mittel bzw. dem Durchschnitt der Likelihood-Ergebnisse mit inkorrekter Erkennung assoziiert ist.
Das Spracherkennungsgerät des Anspruchs 1 oder des Anspruchs 6, worin besagter Vergleich die Kalkulation eines Verhältnisses eines Likelihood-Ergebnisses für korrekte Erkennung (als Zähler) und der mittleren Ergebnisse für inkorrekte Erkennung (als Nenner) umfasst.
Ein Verfahren der Spracherkennung, wobei besagtes Verfahren ein anfängliches Sprachmodell (16) adaptiert, das auf Eingabesprache (40) seitens eines Benutzers beruht, wobei besagtes Verfahren folgende Schritte umfasst: Bereitstellen eines Sprachmodells (16), das Sprache als eine Vielheit von Spracheinheitsmodellen repräsentiert; Bereitstellen eines Adaptationssystem (18) mit einem Datenspeicher, der Information enthält, die a priori Wissen über einen Sprecherraum (24) reflektiert, wobei besagtes Adaptationssystem (18) geäußerte Spracheinheiten selektiert, die ein vorbestimmtes Vertrauensmaß überschreiten und besagte selektierten geäußerten Spracheinheiten und besagte Information, die a priori Wissen reflektiert, dafür verwendet besagtes Sprachmodell zu adaptieren; Bereitstellen eines Spracherkenners (14); und Bereitstellen eines Vertrauensmesssystems (26), das mit besagtem Spracherkenner (14) assoziiert ist; Verwenden des besagten Spracherkenners (14), um Eingabesprache seitens des Benutzers zu verarbeiten, wobei besagtes Sprachmodell (16) dazu verwendet wird geäußerte Spracheinheiten innerhalb besagter Eingabesprache durch Auswerten einer Vielheit besagter Spracheinheitsmodelle zu erkennen und das wahrscheinlichste Spracheinheitsmodell (42) für eine geäußerte Spracheinheit zu identifizieren; und Verwenden des besagten Vertrauensmesssystems (26), um ein Vertrauensmaß mit jeder der besagten geäußerten Spracheinheiten zu assoziieren, wobei das besagte Vertrauensmaß auf einem Vergleich eines Erkennungsergebnisses des wahrscheinlichsten Spracheinheits-Erkennungsmodells (42) mit wenigstens einem anderen Erkennungsergebnis eines weiteren ausgewerteten Spracheinheitsmodells beruht.