-
Hintergrund
und Zusammenfassung der Erfindung
-
Die
vorliegende Erfindung bezieht sich im Allgemeinen auf Spracherkennungssysteme
und Sprachtrainingssysteme. Insbesondere bezieht sich die Erfindung
auf ein Spracherkennungsgerät
mit einem Adaptationssystem, das Eigenstimmen-Basisvektoren einsetzt,
um das anfängliche
Sprachmodell schnell auf jenes des Benutzers zu adaptieren. Das
System verwendet weiter eine Vertrauensmesstechnik, wodurch das
System seine Adaptation automatisch auf sprachliche Äußerungen
basiert, die mit hohem Vertrauen erkannt werden, während es
mit niedrigem Vertrauen erkannte sprachliche Äußerungen ignoriert. Auf diese
Weise passt sich das System ziemlich schnell automatisch dem Benutzer
an und erhöht
die Chance des Spracherkenners gute Erkennungsleistung aufzuweisen,
ohne sich inkorrekten Aussprachen anzupassen. Das System erweist sich
daher bei schwierigen Sprechern, wie beispielsweise Kindern oder
ausländischen
Sprechern nützlich.
-
Jene,
die heutige kontinuierliche Spracherkennungssysteme benutzt haben,
werden mit dem zeitraubenden und rigorosen Prozess vertraut sein,
durch den das Sprachmodell des Spracherkenners der Sprache des individuellen
Benutzers angepasst wird. Für
die meisten erwachsenen Benutzer, die die Sprache bereits fließend sprechen,
involviert der Adaptationsprozess einfach die Disziplin genügend Proben
der Sprache jenes Benutzers bereitzustellen, damit das anfänglich gelieferte
sprecherunabhängige
Sprachmodell einem sprecherabhängigen
Modell für
jenen Sprecher angepasst werden kann. Der Adaptationsprozess kann
beaufsichtigt sein, wobei der Benutzer Wörter, Phrasen oder Sätze spricht,
die dem Erkennungssystem im Voraus bekannt sind. Als Alternative
kann der Adaptationsprozess unbeaufsichtigt sein, wobei der Benutzer
in das System spricht, ohne dass das System a priori Wissen vom
Sprachinhalt hat. Ein Beispiel einer bekannten Sprecheradaptation
ist in der US-A-5787394 offenbart.
-
Adaptieren
des Spracherkennungssystems auf Sprache, die von Kindern oder ausländischen
Sprechern bereitgestellt wird, die die Sprache nicht fließend sprechen,
ist erheblich schwieriger. Spracherkennungssysteme haben große Schwierigkeit
die Sprache von Kindern und ausländischen
Sprechern zu verarbeiten und zu erkennen, teilweise weil die Sprachmodelle
heutiger Spracherkenner zum Großteil
auf erwachsene Muttersprachler trainiert sind. Für Kinder und ausländische
Sprecher sind einfach sehr wenige Daten verfügbar.
-
Zusätzlich zu
schlechter Erkennung haben Spracherkenner Schwierigkeit mit Kindern
und ausländischen
Sprechern, weil Dialog mit dieser Art von Benutzern sehr schwierig
ist. Kinder im Alter von vier bis sieben Jahren finden es im Allgemeinen
schwierig sich auf die Aufgabe zu konzentrieren den Spracherkenner
zu trainieren. Kinder lassen sich leicht ablenken und man kann ihnen
nicht zutrauen, dass sie den Adaptationsprozeduren korrekt Folge
leisten. Tatsächlich
ist diese Schwierigkeit, Sprachdaten von Kindern zu erhalten, ein Grund
warum der Großteil
von Sprachdaten seitens Kinder so klein ist.
-
Ausländische
Sprecher stellen ein ähnliches
Problem dar. Obwohl erwachsene ausländische Sprecher in der Lage
sind sich auf die Adaptationsaufgabe zu konzentrieren, können sie
vielleicht, wie Kinder, unfähig sein
zur Adaption benutzte Trainingstexte zu lesen, und sie können vielleicht
so viele Wörter
falsch aussprechen, dass es dem adaptierten Sprachmodell misslingen
wird nachfolgende Sprache richtig zu erkennen.
-
Wie
in den angehängten
Ansprüchen
beansprucht, geht die vorliegende Erfindung die vorgenannten Probleme
an, indem sie ein Spracherkennungsgerät bereitstellt, welches das
anfängliche
Sprachmodell, unter Verwendung eines hoch wirksamen und schnellen
Adaptationssystems adaptieren wird, das die Qualität oder die
Genauigkeit der Aussprache des Benutzers automatisch bewerten wird,
indem es nur sprachliche Äußerungen
hohen Vertrauens zur Adaptation heranzieht. Das Adaptationssystem
verwendet a priori Wissen über die
Klasse von Sprechern, für
welche die Anwendung auf die Stimme des Benutzers, mit einer nur
sehr begrenzten Menge Adaptationsdaten, adaptiert werden soll.
-
Insbesondere
beruht das Adaptationssystem auf einer Sprecherraumrepräsentation
der Klasse von Sprechern. Eine Vielheit von Trainingssprechern ist
gewöhnt
Sprachmodelle zu generieren, die dann dimensional reduziert werden,
um einen Satz von Basisvektoren zu generieren, die einen Eigenraum
definieren. Beim Adaptationsprozess werden vom Benutzer ausgesprochene
Spracheinheiten dazu benutzt das adaptierte Sprachmodell zu trainieren,
während
der von den Basisvektoren überspannte
Raum dazu verwendet wird das adaptierte Sprachmodell zu zwingen
innerhalb des Eigenraums zu liegen. Wie nachstehend ausführlicher
beschrieben ist, haben wir festgestellt, dass diese Eigenstimmentechnik
der Codierung von a priori Wissen über den Zielbenutzerbestand
bemerkenswert schnelle Adaptation erzielt, selbst wenn sehr wenig
Adaptationsdaten bereitgestellt werden. Das System ist fähig zu beginnen
Adaptation fast so schnell durchzuführen wie der Benutzer zu sprechen
beginnt. Sobald der Sprecher eine sprachliche Äußerung bereitgestellt hat,
die das Vertrauensmesssystem als zuverlässig zulässt, kann das mit jener sprachlichen Äußerung assoziierte
Sprachmodell in den Eigenraum platziert bzw. projiziert werden,
wodurch ein adaptiertes Sprachmodell erstellt wird, das auf die
Klasse von Sprechern beschränkt
ist, für
welche die Anwendung beabsichtigt ist.
-
Das
Spracherkennungsgerät
eignet sich für
viele Verwendungen und macht eine Reihe interessanter Anwendungen
möglich,
die bisher schwer zu erzielen gewesen sind. Ein Beispiel ist das
computergestützte Lehrsystem,
das Kinder oder ausländische
Sprecher in die korrekte Aussprache neuer Wörter in der Sprache einweist.
In einem für
Kinder geeigneten System, kann eine einfache beaufsichtigte Sitzung
damit beginnen das Kind dazu zu bewegen einfach seinen Namen zu
nennen. Das System kann a priori Wissen vom Namen des Kinds durch
buchstabierte Eingabe mittels Tastatur haben.
-
In
einem Sprachlehrsystem lässt
sich die Vertrauensmessung außerdem
dazu verwenden den Benutzer über
Wörter
zu befragen, die nicht zuversichtlich erkannt werden. Das Lehrsystem
kann ein Sprachwiedergabesystem einschließen, das Sprachdaten enthält, die
vorher aufgezeichnete Sprache repräsentieren. Diese Daten können richtige
Aussprache von Wörtern
als Teil der Rückfrage
liefern, wobei um Benutzerverifizierung eines möglicherweise missverstandenen
Worts gesucht wird, während
das Wort gleichzeitig korrekt ausgesprochen wird, damit es der Benutzer
hören kann.
-
Während das
Spracherkennungsgerät
der Erfindung höchst
nützlich
in Sprachlehrsystemen ist, macht das Schnelladaptationssystem gekoppelt
mit der Vertrauensmessung den Spracherkenner in anderen Anwendungen
ziemlich nützlich
wo Adaptation schwierig ist. Diese Anwendungen schließen Fernsprechleitweglenkung
und sprachaktivierte Marketingsysteme ein, wo schnelle und zuverlässige Sprecheradaptation
fast vom Augenblick an erforderlich ist, an dem der Sprecher zu
sprechen beginnt.
-
Um
die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen,
beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockdiagramm des Spracherkennungsgeräts;
-
2 ist
ein Blockdiagramm, das illustriert wie die Vertrauensmessung unter
Einsatz eines Likelihood-Punktverhältnisses generiert wird;
-
3 ist
ein Datenflussdiagramm, das illustriert wie man einen Eigenraum
aus einer Vielheit von Trainingssprechern konstruiert; und
-
4 ist
ein Datenflussdiagramm, das illustriert wie ein adaptiertes Modell
unter Verwendung der Eigenstimmen in Übereinstimmung mit der Erfindung
konstruiert wird.
-
BESCHREIBUNG
DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
-
Das
Spracherkennungsgerät
der Erfindung ist in seiner gegenwärtig bevorzugten Form in der 1 illustriert.
Das System passt sich schnell an sowie ein neuer Sprecher 10 mit
dem Erkennungsgerät
einen Dialog durch das Dialogsystem 12 führt. Das
Dialogsystem 12 kann eine einfache Schnittstelle zum Spracherkenner 14 sein,
oder es kann die interaktive Fähigkeit
einschließen
den neuen Sprecher zu Eingabe zu veranlassen oder dem Sprecher Anweisungen
darüber
zu geben wie Wörter
in der Sprache richtig auszusprechen sind.
-
Der
Spracherkenner 14 arbeitet im Zusammenhang mit einem oder
mehreren Sprachmodellen, die alle vom System erkannten Klangeinheiten
repräsentieren.
Im illustrierten Ausführungsbeispiel
ist ein anfängliches
Sprachmodell 16 mit einem Spracherkenner 14 assoziiert,
um das sprecherunabhängige
Modell zu definieren, mit dem der neue Sprecher während der
Adaptation einen Dialog führen
wird. Das Spracherkennungsgerät
schließt
ein Adaptationssystem 18 ein, das das anfängliche
Sprachmodell 16, auf der Basis selektierter sprachlicher Äußerungen
hohen Vertrauens seitens des neuen Sprechers, adaptiert. Das Adaptationssystem
adaptiert somit das anfängliche
Sprachmodell, um ein adaptiertes Sprachmodell 20 zu schaffen,
das mit dem Spracherkenner 14 assoziiert ist. Das adaptierte
Sprachmodell kann abseits vom anfänglichen Sprachmodell gespeichert
werden, was das anfängliche
Sprachmodell zur nachfolgenden Benutzung durch verschiedene neue
Sprecher intakt lässt.
Als Alternative können,
wenn erwünscht,
das anfängliche
Sprachmodell und das adaptierte Sprachmodell zu einem einzigen Modell
vermischt werden.
-
Das
Adaptationssystem 18 führt,
dank seines a priori Wissens über
die Klasse der neuen Sprecher, Adaptation mit hoher Geschwindigkeit
durch. Dieses Wissen wird als ein Satz Eigenraum-Basisvektoren repräsentiert,
die wir Eigenstimmen nennen. Die Eigenstimmen werden von einer Vielheit
von Trainingssprechern 22 abgeleitet und repräsentieren
Sprecherraum. Das bevorzugte Ausführungsbeispiel repräsentiert Sprecherraum
als Eigenstimmendaten 24. Das Adaptationssystem schließt somit
einen Eigenstimmen-Datenspeicher 24 ein, der eine Eigenraum-Datenstruktur
enthält,
die die Vielheit von Trainingssprechern als einen Satz dimensional
reduzierter Modelle repräsentiert.
Wie nachstehend ausführlicher
beschrieben werden wird, stellen die Trainingssprecher 22 Sprache
bereit, nach der Modelle trainiert werden, und jene Modelle werden dann
dimensional reduziert, um einen Satz Basisvektoren zu generieren,
die den Eigenraum definieren. Im Wesentlichen repräsentiert
der Eigenstimmen-Datenspeicher die ganze Sammlung von Trainingssprechern. Das
Adaptationssystem verwendet die im Datenspeicher 24 gespeicherten
Basisvektoren, um das adaptierte Sprachmodell 20 einzuschränken, so
dass es innerhalb des festgelegten Eigenraums liegt.
-
Ein
wichtiger Vorteil des Eigenstimmen-Adaptationssystems ist Geschwindigkeit.
Der Adaptationsprozess kann auf der Basis einer einzigen sprachlichen Äußerung beginnen.
Der neue Sprecher braucht keine Beispiele jeder Klangeinheit im
Sprachmodell bereitstellen, bevor Adaptation beginnen kann. Dieser
Vorteil ergibt sich aus der Eigenstimmenrepräsentation, weil eine einzige
sprachliche Äußerung dafür verwendet
werden kann einen Satz von Vektoren zu generieren, die dann auf
den Eigenraum platziert bzw. projiziert werden können. Obwohl das adaptierte
Sprachmodell 20 typisch dazu neigt sich über Zeit
zu verbessern, sowie das System benutzt wird, tendiert das allererste
adaptierte Sprachmodell, das vom System generiert wurde, dazu nichtsdestoweniger
erstaunlich genau zu sein.
-
Beim
Adaptieren der Sprache schwieriger Sprecher, wie beispielsweise
Kindern oder ausländischen Sprechern,
können
sprachliche Äußerungen
so weit vom Erwarteten entfernt sein, dass sie verworfen werden müssen. Wenn,
beispielsweise, das Dialogsystem 12 den neuen Sprecher
auffordert das Wort „Katze" zu sagen, aber der
Sprecher das Wort „Elefant" sagt, sollte jene
sprachliche Äußerung nicht
dafür benutzt
werden das mit dem Wort „Katze" assoziierte Sprachmodell
zu trainieren. Während
dieses extreme Beispiel bereitgestellt wurde den Punkt zu illustrieren,
haben wir festgestellt, dass kleine Kinder große Schwierigkeit haben sich auf
langwierige Aufforderungs-Antwort-Sitzungen zu konzentrieren und häufig falsche
sprachliche Äußerungen
in das System eingeben können.
Kleine Kinder neigen außerdem
dazu weniger gewahr zu sein die Mikrofonplatzierungsanweisungen
zu befolgen. Sie sprechen nicht immer ab einer vorbestimmten Distanz
ins Mikrofon. Hintergrundgeräusch,
das vom Fernseher oder durch andere Kinder generiert wird, kann
vom Mikrofon aufgenommen werden und gewisse sprachlichen Äußerungen
unerkennbar machen.
-
Um
dieses Problem anzugehen, verwendet das Spracherkennungsgerät ein Vertrauensmesssystem 26,
das an den Spracherkenner 14 gekoppelt ist und eine quantitative
Messung davon bereitstellt wie zuverlässig jede sprachliche Äußerung ist.
Das Vertrauensmesssystem führt
den Adaptationsprozess herbei, und siebt sprachliche Äußerungen
aus, die zur Verwendung durch das Adaptationssystem 18 nicht
zuverlässig
genug sind. Obwohl es eine Reihe verschiedener Techniken zum Messen
von Vertrauen und zum Einsatz dieser Messungen im Adaptationssystem
gibt, verwendet das gegenwärtig
bevorzugte Ausführungsbeispiel
ein Likelihood-Punktverhältnis,
das das mit der korrekten Erkennung assoziierte Likelihood-Punktergebnis
mit den mittleren oder durchschnittlichen Likelihood-Punktergebnissen
vergleicht, die mit inkorrekter Erkennung assoziiert sind. Weitere
Details dieses Likelihood-Verhältnisses
werden in Verbindung mit der 2 bereitgestellt, die
als Nächstes
erörtert
wird.
-
Wenn
erwünscht,
kann das Vertrauensmesssystem mit dem Dialogsystem als ein Mechanismus
zum Herbeiführen
des Adaptationsprozesses gekoppelt werden. Sowie der neue Sprecher
dem Dialogsystem sprachliche Äußerungen
liefert, führt
der Spracherkenner 14 Spracherkennung durch, und das Vertrauensmesssystem 26 ordnet
den Ergebnissen jener Erkennung eine Vertrauensmessung zu. Erkannte
sprachliche Äußerungen
mit einer ausreichend hohen Vertrauensmessung (jene über einem
vorbestimmten Vertrauensmessungsschwellwert) werden vom Dialogsystem 12 ans
Adaptationssystem 18 weitergeleitet. Sprachliche Äußerungen
mit einer niedrigen Vertrauensmessung werden nicht ans Adaptationssystem
weitergeleitet.
-
Obwohl
sprachliche Äußerungen
niedrigen Vertrauens einfach verworfen werden können, kann das Dialogsystem 12 die
Vertrauensmessung ausnutzen den neuen Sprecher auf eine Art und
Weise aufzufordern, die: (a) den neuen Sprecher auffordert die sprachliche Äußerung zu
wiederholen und (b) dem neuen Sprecher die richtige Aussprache für das Wort
lehrt, das laut Spracherkenner vom Sprecher geäußert worden ist. Betrachten
sie das folgende Beispiel:
System: „Was für eine Farbe hat die Giraffe?"
Kind: (Antwort
unverständlich – niedriges
Vertrauen, klingt wie „braun")
System: „Hast du
,braun' gesagt?"
Kind: „Ja"
System: Sag, „die Giraffe
ist braun." Kind: „Die Giraffe
ist braun."
-
In
der vorhergehenden Sequenz wurde, die anfänglich unverständliche
Antwort des Kinds – als
das Wort „braun" interpretiert – in einer
nachfolgenden Reihe von Aufforderungen verwendet, die konzipiert
ist dem Kind die richtige Aussprache zu lehren.
-
Das
Vertrauensmesssystem 26 kann viele Formen annehmen. Das
gegenwärtig
bevorzugte Ausführungsbeispiel
verwendet die vom Spracherkenner generierten Likelihood-Punktergebnisse
auf eine Weise, die die Punktergebnisse normalisiert, um ein Messsystem
hervorzubringen, das vom Vokabular unabhängig ist. Die 2 illustriert
ein gegenwärtig
bevorzugtes Ausführungsbeispiel
eines solchen Normalisiersystems. Eingabesprache 40 wird
dem Spracherkenner 14 bereitgestellt, mit dem eine Vielheit
von Sprachmodellen, in diesem Fall Hidden Markov Modelle 42 (HMMs),
assoziiert ist. Jedes HMM ist trainiert worden eine verschiedene Klangeinheit
zu repräsentieren.
Für Illustrationszwecke
entsprechen die in der 2 gezeigten HMMs jeweils verschiedenen
Wörtern,
die das System erkennen wird. Die hier illustrierten Techniken sind
nicht auf Modelle auf Wortbasis beschränkt, da sie im Allgemeinen
auf Erkenner anwendbar sind, die auf anderen Klangeinheiten beruhen
(z.B. volle Namen, Silben, Wörter,
Phrasen, usw.).
-
Als
Reaktion auf eine sprachliche Äußerung 40,
beurteilt der Erkenner was die Likelihood bzw. Wahrscheinlichkeit
ist, dass jedes seiner Modelle die Eingabeäußerung generieren würde. Der
Erkenner ordnet jedem Modell ein Erkennungsergebnis zu bzw. verbindet
ein solches damit. Wenn, daher die Eingabesprache das Wort „Bob" umfasst, wird das „bob" Modell ein höheres Erkennungsergebnis
als die anderen Modelle, „cob", „dog", und so weiter,
generieren. Bei 44 sind die Erkennungsergebnisse illustriert,
die dem Fall entsprechen wo die sprachliche Äußerung (Bob) korrekt erkannt
ist. Beachten Sie, dass das vom HMM-Modell für Bob generierte Erkennungsergebnis
(0,9) höher
als die von den anderen Modellen generierten Erkennungsergebnisse
sind.
-
Andererseits
kann die Eingabesprache inkorrekt erkannt werden, weil die sprachliche Äußerung falsch ausgesprochen
ist. Die Likelihood-Ergebnisse identifizieren die Eingabeäußerung nicht
länger,
wie bei 46 illustriert, als die Wahrscheinlichste. Im Allgemeinen,
kann es vielleicht zahlreiche Beispiele inkorrekter Erkennung, jedes
mit einem anderen Satz von Likelihood-Ergebnissen, geben. Dies wurde bei 46 als
eine Vielheit von „Seiten" illustriert, wobei
jede eine andere Likelihood-Verteilung enthält.
-
Die
bei 44 und 46 illustrierten Likelihood-Daten repräsentieren
somit zwei verschiedene Klassen. Die erste Klasse entspricht dem
Fall der korrekten Erkennung (44) und die zweite Klasse
entspricht dem Fall inkorrekter Erkennung (46). Ein Verhältnis dieser
zwei Klassen kann, wie bei 48 dargestellt, konstruiert
werden. Das Verhältnis
umfasst das Likelihood-Ergebnis für korrekte Erkennung (als Zähler) und
das Mittel der Likelihood-Ergebnisse für inkorrekte Erkennung (als
Nenner).
-
Das
in der
2 beschriebene Verhältnis lässt sich als ein Logarithmus
berechnen, in welchem Fall der Log-Likelihood-Unterschied zu einer
Repräsentation
wird, ob die sprachliche Äußerung ein
hohes Vertrauensmaß oder
ein niedriges Vertrauensmaß hat.
Wo:
O
j eine mit Modell s
j assoziierte
Sprachobservation ist;
s
j ein HMM-Modell
ist;
L(O
j|s
j)
die Likelihood der Observation O
j des
gegebenen HMM-Modells
s
j ist;
γ ein Abstimmungsfaktor ist.
-
Die
obige Gleichung demonstriert, dass, wenn der erste Ausdruck dominiert
(wenn die Log-Likelihood-Differenz positiv ist), das Ergebnis ein
hohes Vertrauensmaß ist.
Wenn der zweite Ausdruck dominiert (die Log-Likelihood-Differenz ist negativ),
ergibt sich ein niedriges Vertrauensmaß. Somit kann das Vertrauensmesssystem 26 (1)
leicht bestimmen, ob eine gegebene sprachliche Äußerung vom Adaptationssystem verwendet
werden soll oder nicht, indem es einfach die Log-Likelihood-Differenz
in Übereinstimmung
mit der obigen Gleichung berechnet und prüft ob jene Differenz positiv
oder negativ ist oder indem es sie mit einem vorbestimmten Schwellwert
vergleicht.
-
Das
auf der Log-Likelihood-Differenz beruhende Vertrauensmaß lässt sich
durch Einstellen des Werts der Konstante γ fein abstimmen. Ist der Wert
sehr groß eingestellt,
wird die Summe im zweiten Ausdruck durch den großen Likelihood-Wert dominiert.
Dies deutet darauf hin, dass nur der Beitrag des ersten konkurrierenden Wortmodells
zu jenem des korrekten Erkennungsfalls in Betracht gezogen wird.
Da γ kleiner
gemacht wird, wird der Beitrag der anderen Likelihoods signifikanter.
In der Praxis sollte γ auf
einen Wert eingestellt werden, der zu einer gesamten guten Verifizierungsleistung
für alle
Wörter
führt.
-
Konstruieren
des Eigenstimmenraums
-
Der
Prozess für
das Konstruieren eines Eigenraums, um eine Vielheit von Trainingssprechern
zu repräsentieren,
ist in der 3 illustriert. Die Illustration
nimmt an, dass eine Zahl T von Trainingssprechern 120 einen
Bestand von Trainingsdaten 122 bereitstellt, nach denen
der Eigenraum konstruiert werden wird. Vorzugsweise werden die Trainingsdaten
von einer großen
Anzahl von Sprechern (um die 100 bis 200) bereitgestellt. Diese
Trainingsdaten werden dann dazu verwendet ein sprecherabhängiges Modell
(SD), wie bei 124 illustriert, zu trainieren.
-
Bei
Schritt 124 wird ein Modell pro Sprecher konstruiert, wobei
jedes Modell das ganze Lexikon repräsentiert, das vom Erkennungssystem
verstanden werden soll. Jedes Modell kann ein Satz von HMMs sein,
d.h. ein HMM für
jede Klangeinheit. Dies ist in der 3 bei 126 illustriert.
-
Nach
dem alle Trainingsdaten von T-Sprechern verwendet worden sind, um
die jeweiligen sprecherabhängigen
Modelle zu trainieren, wird ein Satz von T-Supervektoren bei 128 konstruiert.
Daher wird es einen Supervektor 130 für jeden der T-Sprecher geben.
Der Supervektor für
jeden Sprecher umfasst eine geordnete Liste von Parametern (typische
Gleitkommazahlen) die wenigstens einem Teil der Parameter der Hidden
Markov Modelle für
jenen Sprecher entsprechen. Jeder Klangeinheit entsprechende Parameter
sind für
einen gegebenen Sprecher im Supervektor inbegriffen. Die Parameter
lassen sich in jeder praktischen Reihenfolge organisieren. Die Reihenfolge
ist nicht kritisch; sie muss jedoch, sobald eine Reihenfolge adoptiert
ist, diese für alle
T-Sprecher befolgen.
-
Die
geordneten Parameter für
das Hidden Markov Modell werden dann verkettet, um den Supervektor zu
formen. Die Wahl, welche HMM-Parameter in den Supervektor eingeschlossen
werden sollen, kann von der verfügbaren
Verarbeitungsleistung abhängen.
Wir haben festgestellt, dass das Konstruieren von Supervektoren
aus Gaußschen
Mitteln gute Ergebnisse bringt. Wenn größere Verarbeitungsleistung
zur Verfügung
steht, können
die Supervektoren außerdem
andere HMM-Parameter, wie beispielsweise die Übergangswahrscheinlichkeiten
oder die Kovarianz-Matrixparameter einschließen. Natürlich, wenn die Hidden Markov
Modelle diskrete Ausgaben (im Gegensatz zu Wahrscheinlichkeitsdichten)
generieren, dann können
diese Ausgabewerte dazu verwendet werden den Supervektor zu umfassen.
-
Nach
dem Supervektoren für
jeden der Trainingssprecher konstruiert worden sind, wird bei Schritt 132 Dimensionsreduzierung
ausgeführt.
Im Allgemeinen involviert Eigenstimmenadaptation eine vorteilhafte
Dimensionsreduktion, welche die Geschwindigkeit und Effizienz stark
verbessern kann, mit der Sprecher- und Umweltadaptation ausgeführt wird.
Dimensionsreduzierung bezieht sich auf ein Mapping von hochdimensionalem
Raum auf einen niedrigdimensionalen Raum. Es lässt sich eine Reihe verschiedener
Techniken benutzen, um Dimensionsreduzierung zu bewirken. Diese
schließen
Hauptkomponentenanalyse (PCA), Lineare Diskriminanzanalyse (LDA),
Faktoranalyse (FA), Singuläre
Wertzerlegung (SVD) und andere Transformationen ein, die auf Varianz
beruhende Reduktionskriterien anwenden. Im gegenwärtigen,
hier illustrierten Beispiel, wurde Hauptkomponentenanalyse benutzt.
-
Hauptkomponentenanalyse
auf T-Supervektoren ergibt T-Eigenvektoren,
wie bei 134. Wenn, daher 120 Trainingssprecher
verwendet wurden, wird das System 120 Eigenvektoren generieren.
Diese Eigenvektoren definieren was wir Eigenstimmenraum bzw. Eigenraum
nennen.
-
Die
Eigenvektoren, die den Eigenstimmenraum ausmachen, sind unkorreliert;
sie repräsentieren
jeweils eine verschiedene Dimension über die verschiedene Sprecher
differenziert werden können.
Jeder Supervektor im originalen Trainingssatz kann als eine lineare
Kombination dieser Eigenvektoren repräsentiert werden. Die Eigenvektoren
sind nach ihrer Wichtigkeit beim Modellieren der Daten geordnet:
Der erste Eigenvektor ist wichtiger als der Zweite, der wichtiger
ist als der Dritte, und so weiter. Unsere bisherigen Experimente mit
dieser Technik zeigen, dass der erste Eigenvektor einer männlich-weiblichen
Dimension zu entsprechen scheint.
-
Obwohl
ein Maximum von T-Eigenvektoren bei Schritt 132 produziert
wird, ist es, in der Praxis, möglich mehrere
dieser Eigenvektoren zu verwerfen und nur die ersten N-Eigenvektoren
zu behalten. Daher entnehmen wir bei Schritt 136 optional
N der T-Eigenvektoren, um bei 138 einen reduzierten Parameter-Eigenraum zu umfassen.
Die Eigenvektoren höherer
Ordnung können
verworfen werden, weil sie typisch weniger wichtige Information
enthalten, mit der unter Sprechern zu diskriminieren ist. Reduzieren
des Eigenstimmenraums auf weniger als die Gesamtzahl von Trainingssprechern
stellt eine innewohnende Datenkomprimierung bereit, die beim Konstruieren
praktischer Systeme mit begrenzten Speicher- und Prozessorressourcen
hilfreich sein kann.
-
Durchführen der
Adaptation
-
Sobald
der Eigenstimmenraum konstruiert worden ist, lassen sich Sprecheradaptation
oder Umweltadaptation leicht erzielen. Während das Konstruieren des
Eigenraums etwas rechenbetont intensiv ist, und typisch „offline" durchgeführt wird,
ist Adaptation eine verhältnismäßig einfache
rechenbetonte Funktion, die ausgeführt werden kann während der
neue Sprecher das System benutzt. Mit Bezugnahme auf die 4,
wird Sprache vom neuen Sprecher 140 bei Schritt 142 dazu
verwendet ein sprecherabhängiges
Modell zu trainieren, um einen Satz von HMMs 144 zu konstruieren
(eins für
jede Klangeinheit). Das sprecherabhängige Modell kann entweder
in einem beaufsichtigten Modus, wo das Trainingssystem den Inhalt
der Trainingssprache im Voraus kennt, oder in einem unbeaufsichtigten
Modus, wo das Spracherkennungssystem ein sprecherunabhängiges Modell
verwendet, trainiert werden, um den Inhalt der Adaptationssprache
zu bestimmen.
-
Das
auf diesen neuen Sprecher trainierte sprecherabhängige Modell wird, wenigstens
zuerst, gewöhnlich
für Spracherkennung
sehr unzureichend sein. Jedoch kann das Modell nichtsdestoweniger
zum Konstruieren eines Supervektors verwendet werden. Der Supervektor
wird bei Schritt 146 so konstruiert, dass der Supervektor
(Supervektor 148) beschränkt wird innerhalb des Eigenstimmenraums 138 zu
fallen, der vorher von den Trainingssprechern geschaffen wurde.
Der Supervektor 148 wird mit der auferlegten Beschränkung konstruiert,
dass das zur Erkennung verwendete HMM-Modell eine lineare Kombination
der Eigenstimmen sein muss, die den Eigenstimmenraum 138 umfasst.
-
Das
sprecherabhängige
Modell 144 dient dazu die lineare Kombination von Koeffizienten
zu schätzen, die
das adaptierte Modell für
jenen neuen Sprecher umfassen werden. Daher wird bei Schritt 150 ein
neuer Satz von HMMs auf der Basis des Supervektors 148 konstruiert,
um das adaptierte Modell 152 zu generieren. Wenn erwünscht, kann
bei 154 ein optionaler iterativer Prozess ausgeführt werden,
um einen neuen Supervektor ab dem adaptierten Modell 152 zu
konstruieren und danach noch einen Satz von HMMs zu konstruieren, aus
denen ein weiteres adaptiertes Modell konstruiert werden kann.
-
Das
Konstruieren des Supervektors 148 kann durch eine rechenbetont
einfache Projektionsfunktion oder dergleichen erzielt werden, wodurch
die Parameter ab dem sprecherabhängigen
Modell 144 projiziert oder anderweitig in den Eigenstimmenraum 138 transformiert
bzw. „platziert" werden. Die genaue
Technik für das
Platzieren der Parameter in den Eigenraum kann vielleicht von den
verfügbaren
Computerressourcen abhängen.
Wenn Ressourcen knapp sind, lässt
sich eine einfache Projektionsfunktion verwenden; wenn größere Ressourcen
verfügbar
sind, kann eine optimierende Funktion benutzt werden, um den Punkt
im Eigenraum zu finden, der die höchste Wahrscheinlichkeit bzw.
die beste Anpassung an die Adaptationsdaten repräsentiert. Auf diese Weise wird
das sprecherabhängige
Modell 144, das mit Adaptationsdaten trainiert ist, mit
den Eigenstimmen-Vektoren kombiniert, um eine angemessene Schätzung des
sprecherabhängigen
Modells für
den neuen Sprecher (das adaptierte Modell 152) durch eine
rechenbetont billige Funktion zu erhalten.
-
Wenn
der neue Satz von HMMs bei Schritt 150 konstruiert wird,
können
jegliche Parameter, die beim Konstruieren des Supervektors 148 nicht
verwendet wurden (falls, beispielsweise, nur Gaußsche Mittelvektoren benutzt
wurden) vielleicht von einem vorher konstruierten, sprecherunabhängigen Modell
erhalten werden.
-
In
einigen Fällen
können
die Adaptationsdaten fehlende Klangeinheiten haben (gewisse Klangeinheiten
wurden vom neuen Sprecher nicht gesprochen). Daher könnte das
sprecherabhängige
Modell 144 nicht komplett sein.
-
Die
Eigenstimmen-Adaptionstechnik wird jedoch selbst mit fehlenden Klangeinheiten
funktionieren. Auf den ersten Blick kann dies erstaunlich erscheinen,
erinnern Sie sich jedoch daran, dass die Eigenvektoren unkorrelierte
Vektoren sind, wobei der erste Eigenvektor wichtiger als der Zweite
ist, und so weiter. Demzufolge ist es möglich eine signifikante Menge
nützlicher
Information aus den Adaptationsdaten abzuleiten, selbst wenn einige
davon fehlen.
-
Ein
Weg fehlende Klangeinheiten handzuhaben, ist die fehlenden HMM-Parameter
der Klangeinheit mit entsprechenden Werten zu ersetzen, die man
ab einem sprecherunabhängigen
Modell erhält.
Dies ist eine rechenbetont billige Vorgehensweise, hat aber den
Nachteil, dass das adaptierte Modell dem sprecherunabhängigen Modell
ziemlich ähnlich
sein kann, wenn nur kleine Mengen von Adaptationsdaten verfügbar sind.
-
Eine
weitere Vorgehensweise ist den Punkt Y im Eigenraum zu finden, der
die Likelihood der Adaptationsdaten maximiert, wenn man voraussetzt,
dass das adaptierte Modell von Y abgeleitet wurde. Diese Maximum-Likelihood- Schätzfunktion
erfordert, dass wir einen anderen Satz linearer Gleichungen während der Durchlaufzeit
lösen.
-
Aus
dem Vorgenannten wird man erkennen, dass die vom illustrierten Adaptationssystem
verwendeten Techniken in einer Reihe von verschiedenen Spracherkennungssystemen
und Sprachlehrsystemen zum Einsatz kommen können. Überdies, während die hierin beschriebenen
Eigenstimmentechniken gegenwärtig bevorzugt
werden, können
andere Techniken benutzt werden, um Sprecherraum im Adaptationssystem
zu repräsentieren.
-
Folglich,
obwohl die Erfindung in ihren gegenwärtig bevorzugten Ausführungsbeispielen
beschrieben worden ist, wird man zum Schluss gelangen sein, dass
die Erfindung zu Modifikation und Änderung fähig ist, ohne vom Umfang der
Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.