DE69220825T2

DE69220825T2 - Verfahren und System zur Spracherkennung

Info

Publication number: DE69220825T2
Application number: DE69220825T
Authority: DE
Inventors: Tsuneo Nitta
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-03-22
Filing date: 1992-03-20
Publication date: 1998-02-19
Anticipated expiration: 2012-03-21
Also published as: EP0504927A2; JPH04293096A; DE69220825D1; JP3050934B2; EP0504927B1; EP0504927A3; US5649056A

Description

Die vorliegende Erfindung bezieht sich auf ein System zur Spracherkennung und Verfahren zur Spracherkennung, die erlauben, daß Worte bzw. sprachliche Äußerungen (engl. utterances) mit hoher Genauigkeit erkannt werden.
Kürzlich erzielte ein Spracherkennungssystem einen Erfolg, welches das HMM (verhülltes Markov-Modell) (engl. Hidden Markov Model) verwendet, das eine Äußerung in eine Sequenz gewisser Symbole transformiert (auf diese Transformation wird als Vektorquantisierung verwiesen) und dann die Äußerung als den Übergang der Symbolsequenz modelliert. Eine Tabelle, auf die beim Transformieren der Äußerung in Symbole Bezug genommen wird, wird phonetische Segment(PS)-Tabelle genannt. Das HMM wird durch ein Übergangsnetzwerk mit mehr als einem Zustand repräsentiert, in das für jeden Zustand die Wahrscheinlichkeit eines Auftretens jedes Symbols und die Zwischenzustand-Übergangswahrscheinlichkeit eingebettet sind.
Wenn das PS-Wörterbuch stabile bzw. gleichbleibende Koeffizienten verwendet (z.B. Spektrum-Koeffizienten oder Cepstrum-Koeffizienten), hängen Sprachereignisse nur von der in dem HMM eingebetteten Zustandsinformation ab (es gibt keine Zeitrelation in einem Zustand). Aus diesem Grund wird eine differentielle Information eingeführt, wie z.B. ein Δ- Cepstrum. Das heißt, ein Verfahren wird übernommen, das eine Äußerung durch eine Symbolsequenz ersetzt, wobei nicht nur ihr Spektrum, sondern auch ihre Zeitvariationen berücksichtigt werden. Hat das PS-Wörterbuch eine große Zahl von Dimensionen, wird jedoch eine durch eine Quantisierung eingeführte Verzerrung unvermeidlich sehr groß. Aus diesem Grund wird von zwei oder mehr PS-Wörterbüchern Gebrauch gemacht, deren Dimensionszahlen durch Teilen eines Parameterraumes verringert wurden (im obigen Beispiel durch Trennen des Spektrums und der Zeitvariationsinformation).
Neben diesen Verfahren gibt es ein Verfahren, das eine Sequenz von Spektren (oder ein Cepstrum), d.h. zweidimensionale Muster, direkt quantisiert, welches Verfahren Matrixquantisierung genannt wird. Die Matrixquantisierung hat einerseits einen Vorteil, daß Sprachmuster ohne Näherung direkt behandelt werden können, und andererseits einen Nachteil, daß eine Quantisierungsverzerrung zunimmt. Somit ist ein Verfahren zum Verringern der Verzerrung durch Verwenden eines statistischen Verfahrens zur Zeit einer Quantisierung vorgeschlagen worden.
Selbst wenn diese Verfahren verwendet werden, bleibt jedoch eine durch Quantisieren einer Äußerung eingeführte Verzerrung noch groß. Somit ist eine Einrichtung zum weiteren Verringern der Verzerrung erwünscht. Um Verzerrungsprobleme zu lösen, ist es nur notwendig, daß ein Sprachspektrum (oder Cepstrum) innerhalb des HMM direkt ausgedrückt wird, ohne es durch Symbole zu ersetzen (d.h. ohne Quantisieren). Solch ein Verfahren nennt man im Gegensatz zu einer eine Quantisierung beinhaltenden "diskreten HMM" "kontinuierliches bzw. stetiges HMM" (engl. continuous HMM). Im allgemeinen erfordert das stetige HMM einen enormen Berechnungsaufwand. Der Grund dafür ist, daß eine Kovarianzmatrix entsprechend jedem Zustand aus einer Eingabevektorsequenz in das HMM erhalten werden muß und dann die Produkte von Eingabevektoren und Kovarianzmatrizen zum Zeitpunkt der Spracherkennung berechnet werden müssen.
Wenn eine Äußerung durch das HMM ausgedrückt wird, werden ein Phonem, eine Silbe, ein Wort, ein Satzteil oder ein Satz als ihre Einheit betrachtet. Was immer die Einheit ist, es ist wichtig, daß eine eingegebene Äußerung und ihr Modell zur Zeit einer Erkennung gut miteinander übereinstimmen, mit anderen Worten die Verzerrung so gering wie möglich ist. Wie oben beschrieben wurde, ist das beste das stetige HMM, welches zweidimensionale Muster, die Variationen der Sprachspektren in der Zeit enthalten, direkt in das HMM eingibt. Ein Problem mit dem stetigen HMM besteht darin, daß Schwierigkeiten damit verbunden sind, es praktisch zu nutzen, weil ein enormer Berechnungsaufwand erforderlich ist.
In dem Artikel "Information theory principles for the design of self-organising maps in combination with Hidden Markov Modeling for continuous speech recognition", Regoll G., International Jomt Conference on Neural Networks, 17. Juni 1990, San Diego, USA, Seiten 569-574, wird ein Entwurf von selbstorganisierenden Karten bzw. Abbildungen (engl. selforganising maps) von Kohonen unter Verwendung von Grundlagen der Informationstheorie eingeführt. Ein darin beschriebener besonderer Gesichtspunkt ist die Kombination selbstorganisierender Abbildungen mit Algorithmen der Informationstheorie, insbesondere mit einem verhüllten Markov-Modell (HMM) für eine kontinuierliche bzw. stetige Spracherkennung. Aus dieser Kombination ergibt sich der Gesichtspunkt eines Konstruierens der Abbildung unter Verwendung verschiedener Regeln zum Modifizieren der Umgebung und der Adaptions- bzw. Anpassungsverstärkung während eines Lernens.
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein Spracherkennungssystem und -verfahren zu schaffen, die gestatten, daß eine Äußerung eines Sprechers mit hoher Genauigkeit erkannt wird, und die Notwendigkeit eines enormen Berechnungsaufwands beseitigen.
Gemäß der vorliegenden Erfindung wird ein Spracherkennungssystem und ein Spracherkennungsverfahren, wie in den Ansprüchen 1 bzw. 7 definiert, geschaffen. Weitere vorteilhafte Ausführungsformen sind durch die Unteransprüche definiert.
Die vorliegende Erfindung führt eine Tonanalyse eines Eingangssprachsignals aus, um Merkmalparameter zu erhalten, führt eine Matrixquantisierungsverarbeitung zwischen den Merkmalparametern und einem phonetischen Segmentwörterbuch vorbestimmter phonetischer Segmenteinheiten durch, um eine phonetische Segmentähnlichkeitssequenz zu erhalten, integriert die phonetische Segmentähnlichkeitssequenz in einen phonemischen Merkmalvektor und prüft den phonemischen Merkmalvektor, der durch die Integration erhalten wurde, mittels eines in gewissen bzw. bestimmten Einheiten vorbereiteten verhüllten Markov-Modells (HMM), wodurch ein Erkennungsprozeß mit hoher Genauigkeit durchgeführt wird.
Diese Erfindung kann vollständiger aus der folgenden ausführlichen Beschreibung verstanden werden, wenn sie in Verbindung mit den beigefügten Zeichnungen vorgenommen wird, in welchen:
Fig. 1 ein schematisches Blockdiagramm einer Spracherkennungsvorrichtung ist, für die ein Spracherkennungssystem der vorliegenden Erfindung verwendet wird;
Fig. 2 ein Beispiel eines phonemischen Merkmalvektors entsprechend einem Wortteil veranschaulicht;
Fig. 3 ein typisches Beispiel einer HMM-Struktur veranschaulicht;
Fig. 4 ein Blockdiagramm des PS-Phonem-Integrierteils von Fig. 1 ist, der aus Maximalwertfiltern aufgebaut ist; und
Fig. 5 ein Diagramm ist, das den PS-Phonem-Integrierteil von Fig. 1 veranschaulicht, der aus neuronalen Netzen aufgebaut ist.
Mit Bezugnahme auf die Zeichnungen wird die bevorzugte Ausführungsform der vorliegenden Erfindung im folgenden ausführlich beschrieben.
In der vorliegenden Erfindung wird ein phonetisches Segment (im folgenden mit PS abgekürzt), das phonetisch signifikant ist, als eine Quantisierungseinheit verwendet, und nachdem eine Sequenz von PS-Ähnlichkeiten (Distanzen) einmal in ein Phonem integriert ist, wird eine phonemische Merkmalvektorsequenz in einen HMM-Wortvergleichsteil eingespeist.
In Fig. 1 wird ein kontinuierliches Eingangssprachsignal in einen Analog-Digital(A/D)-Wandler 11 eingespeist und bei einer Abtastfrequenz von z.B. 12 kHz quantisiert, um ein digitales Signal mit 12 Bits zu erhalten. Die digitalen Sprachsignale von dem A/D-Wandler 11 werden in einen Leistungsberechnungsteil 12a und einen ein lineares Vorhersage-Codieren (LPC) (engl. linear predictive coding) verwendenden Mel- Cepstrum-Analyseteil 12b in einem digitalen Signalprozessor 12 eingespeist. Der Leistungsberechnungsteil 12a berechnet die Leistung einer eingegebenen Sprache mit jedem Rahmenzyklus, d.h. alle 8 ms, und gibt die Berechnungsergebnisse an einen ein PS-Phonem integrierenden und umwandelnden Teil 14 aus.
Der LPC-Analyseteil 12b ist ein Analyseteil, der ein LPC- Mel-Cepstrum mit 16 Niveaus bzw. Stufen als Analyseparameter bei z.B. 16 ms für eine Fensterlänge und 8 ms fur einen Rahmenzyklus verwendet.
Die Symbolsequenz für jeden Rahmen, die so mit der Zuordnung von acht Stufen zu 16 Kanälen erhalten wird, wird als Merkmalparameter für die eingegebene Sprache zu einem Stumm-, Summ- bzw. Murmeln-, Stimmlos-Extraktionsteil und Matrixquantisierer 13a eines digitalen Signalprozessors 13 übertragen. PS ist hierin ein Akroynm fur ein phonetisches Segment, um eine Einheit zur Spracherkennung anzugeben, die eine Bedeutung phonetisch kennzeichnet, wie im folgenden dargestellt ist.
Phonetische Segmente (im folgenden PS genannt), die für Spracheingaben in Ausdrücken von vier arithmetischen Operationen verwendet werden, werden in die folgenden 79 Typen klassifiziert.
(1) Im Matrixquantisierer 13 wird der stetige bzw. kontinuierliche Vergleichsprozeß mittels PS unter Verwendung von Ähnlichkeitsmaßen durchgeführt, gestützt auf ein Teilraumverfahren, das durch
repräsentiert wird, worin C(PS) das LPC-Mel-Cepstrum bezeichnet (C = {C1, C2, ..., CN}), φ den Eigenvektor von PS bezeichnet, (.) das innere Produkt bezeichnet und die Norm bezeichnet. Das heißt, ein PS-Wörterbuch 13b wird durch M orthogonale Eigenvektoren für jedes PS ausgedrückt.
Hier wird das in der vorliegenden Erfindung verwendete PS beschrieben. Zum Beispiel weist das PS auf:
(1) Ein Dauerlautsegment;
(1-1) einen stetigen bzw. gleichbleibenden Teil eines Vokals,
(1-2) einen Dauerlautkonsonant.
(2) Ein Konsonantensegment; eine Halbsilbe, einschließlich eines Übergangsteils zu einem Vokal.

(3) Ein Grenzsegment;

(3-1) einen Grenzteil zwischen einem Vokal und einem Halbvokal,
(3-2) einen Grenzteil zwischen einem Vokal und einem Konsonanten, und
(3-3) einen Grenzteil zwischen einem Vokal und einem stummen Teil.
(4) Andere phonetische Segmente; stimmlose bzw. stimmbandlose (engl. devoiced) Vokale, VCV (V: Vokal, C: Konsonant), etc.
Als Beispiel sind im folgenden 191 Typen phonetischer Segmente angegeben, die für einen Satz von Äußerungen von 100 Worten ausgewählt wurden. Dauerlautsegmente: Konsonantensegmente:

Grenzsegmente:

Grenzteile zwischen Vokalen und Halbvokalen
Grenzteile zwischen Vokalen und Konsonanten
Grenzen zwischen Vokalen und stummmen Teilen Andere Segmente:
Stimmbandlose Vokale und andere
AA1, AA2 in den Dauerlautsegmenten geben an, daß das letztgenannte aus einem Vokal [a] mit einer hellen Betonung herausgeschnitten wurde. II3, UU3 sind unausgesprochene bzw. stimmiose (engl. unvoiced) Segmente. NN1 bis NN5 entsprechen verschiedenen phonemischen Umgebungen. BZ1 bis ZZ1 entsprechen Stimmbandtönen bzw. stimmhaften Tönen und anderen Phänomenen. HHA bis HHO entsprechen einem stimmlosen [h], und HVA bis HVE entsprechen einem stimmhaften [h].
Als nächstes gibt QA1 in den Konsonantensegmenten einen Vokal am Beginn eines Wortes an, und KA1, KA2 geben an, daß das letztgenannte im Prinzip aus einem Wort herausgeschnitten wurde. Zum Beispiel wird [t a], was einer von kontrahierten bzw. zusammengezogenen Tönen ist, mit einem Grenzsegment gebildet, das als CA1 T YA1 T AA1 dazwischen angeordnet ist (bei einer wirklichen Sprache kann der übergang von CA1 nach AA1 oder AA2 auftreten).
Alsgrenzsegmente werden die Grenzteile zwischen Vokalen und Halbvokalen (AI1), die Grenzteile zwischen Vokalen und Konsonanten (AS1) und die Grenzteile zwischen Vokalen und stummen Teilen (AQ1) eingegeben. Man beachte, daß in den die Grenzteile zwischen Vokalen und Halbvokalen repräsentierenden Segmenten der Silbennasallaut durch NN (ANN) bezeichnet ist.
Die anderen Segmente schließen VCV-Segmente (ANA) ein, in denen Konsonanten gerade stimmbandlos ausgesprochen werden, und Segmente, in denen Vokale gerade stimmbandlos ausgesprochen werden, was man beobachtet, wenn die Äußerung schnell gemacht wird. Im PS-Wörterbuch 13b ist eine solche Information über 191 Typen von Sprachsegmenten als ein Orthogonalisierungswörterbuch gespeichert.
Der Betrieb des Tonanalysierers und des Matrixquantisierers ist ausführlich in der Beschreibung des US-Patents Nr. 4 888 823 beschrieben, das dem gleichen Rechtsnachfolger wie diese Anmeldung übertragen wurde.
Wenn ein solches PS als ein Segment zur Zeit der Quantisierung verwendet wird, stellen die Zahl von Dimensionen von Merkmalparametern eines Segments (hierin die Ordnungen eines LPC-Mel-Cepstrums) und die Zeitdauer (die Zahl von Rahmen) Probleme dar. Das heißt, für den stabilen bzw. gleichbleibenden Teil eines Vokals ist es erforderlich, daß die Zahl von Dimensionen seiner Merkmalparameter groß ist, aber die Zahl seiner Rahmen kann klein sein. Außerdem muß ein Verschlußkonsonant bis zu einem gewissen Maß eine große Zahl von Dimen sionen seiner Merkmalparameter und eine große Zahl seiner Rahmen aufweisen. Ferner kann ein Reibekonsonant eine geringe Zahl von Dimensionen seiner Merkmalparameter aufweisen, benötigt aber eine große Zahl von Rahmen. Somit sind in der vorliegenden Erfindung die Merkmalparameter und die Zahl von Rahmen jedes PS folgendermaßen festgelegt:
(Merkmalparameter, die Zahl der Rahmen);
A = (16, 4)
B = (14, 6)
C = (12, 8)
D = (10, 10)
E = ( 8, 12)
Unter diesen Kombinationen wird eine Auswahl getroffen. Von den oben beschriebenen vier einen PS-Typ bezeichnenden Zeichen gibt das letzte Zeichen diese Festlegung an. Folglich kann ein Vokal, wie z.B. AA1A, so festgelegt sein, daß die Zahl von Dimensionen seiner Merkmalparameter 16 beträgt, und ein Reibekonsonant, wie z.B. ZE1E, kann so festgelegt sein, daß die Zahl seiner Rahmen 12 beträgt. Dadurch wird die Gesamtzahl von Dimensionen des gesamten PS in einen relativ schmalen Bereich von 64 bis 100 gebracht. Dies ermöglicht einen statistischen Vergleichsprozeß (z.B. ein Teilraumverfahren), um eine Quantisierungsverzerrung zu reduzieren.
Um die Genauigkeit einer durch den Matrixquantisierer 13 erhaltenen PS-Ähnlichkeitssequenz zu erkennen, wurde ein Auswertungsexperiment an einem gesprochenen Wort vorgenommen, indem eine PS-Sequenz des ersten Ranges erhalten und seine Symbolsequenz in das diskrete HMM eingegeben wurde. Das Experiment wurde an Wortäußerungen nicht spezifizierter Sprecher durchgeführt. Als Ergebnis dieses Experiments wurde eine Erkennungsrate von 98,4 % für 32 Worte erhalten, was im wesent lichen die gleiche wie die gemäß einem herkömmlichen Mustervergleichsverfahren ist, das auf einer Wort-für-Wort-Basis durchgeführt wurde. Für 32 Worte, die aus Paaren ähnlicher Worte bestanden, wurde jedoch nur 91,0 % erhalten. Das Experiment zeigte, daß mit dem eine Symbolsequenz des ersten Ranges verwendenden diskreten HMM der Quantisierungsfehler noch groß bleibt, und das HMM muß wie eine stetige Verteilung behandelt werden.
Die direkte Anwendung des HMM mit stetiger Verteilung auf einen aus n Arten von PS-Ähnlichkeiten bestehenden Vektor S = (S1, S2, ..., Sn) ist ungeeignet, weil ein enormer Berechnungsaufwand erforderlich ist. Somit wurde ein Verfahren übernommen, das das HMM mit stetiger Verteilung verwendet, nachdem ein Ähnlichkeitsraum Rn phonetischer Segmente effizient in einen phonemischen Merkmalraum Rm (m « n) integriert wurde.
Viele phonetische Segmente PS sind so konstruiert, daß sie Phoneme unter verschiedenen Umgebungen repräsentieren, die in einer Äußerung wie oben beschrieben erscheinen. Aus diesem Grund ist eine Entsprechung zwischen phonetischen Segmenten und Phonemen relativ einfach einzurichten. Zum Beispiel schließen phonetische Segmente entsprechend dem /r/- Phonem die folgenden 44 Typen ein:
Von den an die Segmentnamen angefügten Ziffern gibt hier "1" an, daß das Segment am Kopf eines Wortes ist, und "2" gibt an, daß das Segment innerhalb eines Wortes ist. Wie ARA sind die Segmente, die zwischen Vokalen eingeschoben sind, vom VCV-Typ.
Es gibt verschiedene Verfahren zum Integrieren phonetischer Segmente in ein Phonem. Eine allgemeine Form wird durch die Gleichung (1)
S Phonem = f{S PS(i)} ... (1)
repräsentiert, worin f { } eine Funktion zum Integrieren von Ahnlichkeitswerten S ps(i) (oder Distanzwerten) von Ähnlichkeitswerten S ps(i) phonetischer Segmente PS(i) bezeichnet, die zu einem Phonem (z.B. In) gehören. Als ein Beispiel für f { } gibt es den folgenden Maximalwertfilter.
f = max {S ps(i)} ... (2)
Gleichung (2) gibt den Maximalwert der Ähnlichkeitswerte S ps(i) phonetischer Segmente an, die zu einem Phonem (z.B. /f/) gehören, was als das Treffer- bzw. Ergebnis-S-Phonem (engl. score S phoneme) des Phonems genommen wird. Fig. 4 veranschaulicht den Fall, in dem Maximalwertfilter parallel vorgesehen sind, um einen PS-Ähnlichkeitsvektor S in einen phonetischen Ergebnisvektor Sph mit einer kleinen Zahl von Dimensionen zu integrieren.
Als nächstes veranschaulicht Fig. 5 ein Beispiel einer Integration unter Verwendung neuronaler Netze. In Fig. 5 ist ein neuronales Netz mit drei Schichten für alle m Phoneme vorgesehen, und Ähnlichkeitswerte Sps(i) eines phonetischen Segments PS(i) werden durch das neuronale Netz für jedes Phonem durchgelassen, wodurch sie als das phonetische Ergebnis-S-Phonem integriert werden. Die Pfeile in Fig. 5 bezeichnen Gewichtskoeffizienten der neuronalen Netze. Die Gewichtskoeffizienten können durch einen wohlbekannten Lerndaten verwendenden Rückwärtsausbreitungsalgorithmus erhalten werden. Das Vorsehen unabhängiger paralleler neuronaler Netze gestattet, daß PS-Ahnlichkeitsvektoren S in phonemische Ergebnisvektoren Sph mit einer geringen Zahl von Dimensionen integriert werden.
Allgemein verwendete Phoneme schließen 19 Typen von Phonemen {o, a, e, i, u, h, j, w, r, n, m, z, s, g, k, d, t, b, p} ein. In der vorliegenden Ausführungsform werden zusätzlich zu den 19 Phonemtypen ein unabhängiger japanischer Nasallaut N , ein Vokal am Beginn eines Wortes, ein Dauerlautkonsonant C, ein übergangsteil von einem Vokal zu einem Konsonanten und ein übergangsteil X von einem Vokal zu einem stummen Teil als phonemische Merkmale verwendet. Das heißt, die vorliegende Ausführungsform verwendet 24 Typen phonemischer Merkmale. Dadurch wird die PS-Ähnlichkeitssequenz in eine Sequenz phonemischer Merkmalvektoren mit 24 Dimensionen durch einen PS- Phonem-Integrierteil 14 transformiert, der den durch Gleichung (1) angegebenen Prozeß ausführt, und dann an eine HMM- Erkennungseinrichtung 15 gesendet. Fig. 2 veranschaulicht ein Beispiel eines phonemischen Merkmalvektors, der einer Wortäußerung "KENGO" (robust) entspricht.
Als nächstes wird der Wortvergleich der vorliegenden Erfindung unter Verwendung von HMM beschrieben. Es wird angenommen, daß das HMM N Zustände S1, S2, ... Sn aufweist und der Anfangszustand in statistischer Weise auf die N Zustände verteilt ist. Bei der Sprache wird ein Modell verwendet, welches einen Zustandsübergang mit einer bestimmten Wahrscheinlichkeit (übergangswahrscheinlichkeit) mit jedem Rahmenzyklus durchführt. Beim Auftreten eines übergangs wird ein Etikett (engl. label) mit einer bestimmten Wahrscheinlichkeit ausgegeben (Ausgabewahrscheinlichkeit). Ein Nullübergang, der kein Etikett ausgibt, könnte jedoch eingeführt sein. Selbst wenn eine ausgegebene Etikettsequenz gegeben ist, ist eine Zustandsübergangssequenz nicht eindeutig bestimmt, weil es mehrere Wege gibt, auf denen ein Zustandsübergang gemacht bzw. vorgenommen wird. Weil nur eine Etikettsequenz beobachtet werden kann, wird das Modell das verborgene bzw. verhüllte Markov-Modell genannt. Das HMM-Modell M ist durch die folgenden sechs Parameter definiert.
N: Die Zahl von Zuständen (die Zustände S1, S2, ..., SN, N = 10 im Experiment)
K: Die Zahl von Etiketten (Etikett L = 1, 2, ..., K, K = 191 im Experiment)
pij: Die übergangswahrscheinlichkeit (die Wahrscheinlichkeit eines übergangs von Si nach Sj)
gij (k): Die Wahrscheinlichkeit eines Ausgebens des Etiketts k beim übergang von Si nacch Sj
mi: Die Anfangszustandswahrscheinlichkeit (im Experiment ist der Anfangszustand auf S1 beschränkt)
F: Der Satz von Endzuständen (im Experiment ist der Endzustand auf Sb beschränkt)
Als nächstes werden Sprachmerkmale widerspiegelnde übergangsbeschränkungen an dem Modell vorgenommen. Bei einer Spracherkennung ist eine solche Schleife, die von einem Zustand Si zu einem vorherigen Zustand (Si-1, Si-2, ...) zurückkehrt, im allgemeinen nicht erlaubt, weil die Zeitsequenz durcheinander gebracht wird. Fig. 3 veranschaulicht ein typisches Beispiel der oben beschriebenen HMM-Struktur.
Das Lernen des HMM erfordert, eine Etikettsequenz 0 auf einen HMM-Lernteil 16 anzuwenden und die Parameter eines Modells M zu schätzen, worin Pr (O/M) maximal ist. Als ein für die Schätzung verwendeter Algorithmus ist der Vorwärts-Rückwärtsalgorithmus bekannt.
Die Auswertung (Erkennung) des HMM erfordert, die Wahrscheinlichkeit Pr (O/M) zu erhalten, daß das Modell die Etikettsequenz O = O1, O2, ... OT ausgeben wird. Das heißt, die HMM-Erkennungseinrichtung 15 nimmt Modelle für jedes Wort an und gewinnt ein solches Modell (Wort) wieder, dessen Pr (O/M) maximal ist, wobei der Viterbi-Algorithmus verwendet wird.
Die obige Beschreibung hängt hauptsächlich von dem dis kreten HMM ab. Bei dem HMM mit stetiger Ausgabewahrscheinlichkeitsverteilung (worauf im folgenden als das stetige HMM verwiesen wird) ist die Eingabe keine Etikettsequenz, sondern ein Vektor (in der vorliegenden Erfindung ein phonemischer Merkmalvektor). Dies erlaubt, daß die Verteilung des Auftretens eines Vektors anstelle der obigen Ausgabewahrscheinlichkeit qij(k) (die Wahrscheinlichkeit eines Ausgebens des Etiketts k zu der Zeit, zu der der übergang von Si nach Sj vorgenommen wird) vorgesehen wird. Gewöhnlich wird die Verteilung (die Verteilung der Elemente eines Vektors) als eine Normalverteilung oder eine Mischung von Normalverteilungen behandelt. Das stetige HMM-Modell ist durch die folgenden sechs Parameter definiert.
N: Die Zahl von Zuständen (Zustand S1, S2, ..., SN; im Experiment gilt N 10)
pij: Die übergangswahrscheinlichkeit (die Wahrscheinlichkeit eines übergangs von Si nach Sj)
µij: Der mittlere Vektor, der zu der Zeit eines übergangs von Si nach Sj auftritt
Σij: Die Kovarianz eines Vektors, der zu der Zeit des Ubergangs von Si nach Sj auftritt
mi: Die Anfangszustandswahrscheinlichkeit (im Experiment ist der Anfangszustand auf Si beschränkt)
F: Der Satz von Endzuständen (im Experiment ist der Endzustand auf Sb beschränkt)
In der gemischten Verteilung sind mehr als ein mittlerer Vektor und mehr als eine Vektorkovarianz gegeben. Das Lernen und die Auswertung (Erkennung) des stetigen HMM werden durch Verwenden des Vorwärts-Rückwärtsalgorithmus bzw. des Viterbi- Algorithmus wie in dem diskreten HMM durchgeführt.
In dem Experiment wurden viele Stücke von Lerndaten (phonemische Merkmalvektoren) für den HMM-Lernteil 16 verwendet, und die Parameter jedes Modells M entsprechend 32 Worten wurden so abgeschätzt, um die Wahrscheinlichkeit Pr (O/M) zu maximieren (beim stetigen HMM ist O eine Vektorsequenz). Die so erhaltenen Modeliparameter (µij und Σij für jedes Wort) werden in einem HMM-Wort-Modell-Puffer 17 gespeichert.
Als nächstes erhält bei der Erkennungsphase die HMM- Erkennungseinrichtung 15 für jedes im HMM-Wort-Modell-Puffer 17 gespeicherte Modell die Wahrscheinlichkeit Pr (O/M) eines phonemischen Merkmalvektors für eine eingegebene Sprache und findet solch ein Modell, dessen Wahrscheinlichkeit maximal ist. Das dem Modell entsprechende Wort ist das Erkennungsergebnis. Das Auswertungsexperiment der vorliegenden Erfindung wurde an den gleichen Daten (32 ähnliche Worte) wie in dem oben erwähnten, das diskrete HMM verwendenden Experiment durchgeführt. Das Experiment wurde für den Fall durchgeführt, bei dem eine einzige Normalverteilung als die Vektorauftrittsverteilung verwendet wurde, und für den Fall, bei dem zwei Normalverteilungen (eine gemischte Verteilung) verwendet wurden. Aufgrund einer ungenügenden Menge von Lerndaten verwendet jedoch die Kovarianz nur Diagonalelemente. Die Ergebnisse betrugen im Fall der einzigen Verteilung 91,3 % und im Fall der gemischten Verteilung 92,4 %, was das Ergebnis (91,4 %) des das diskrete HMM verwendenden Experiments übersteigt. Das Experiment hat gezeigt, daß die vorliegende Erfindung ausgezeichnet ist.
Gemäß der Ausführungsform, wie sie oben beschrieben wurde, wird mit einem phonetisch signifikanten phonemischen Segment (PS), das als eine Einheit verwendet wird, ein statistischer Matrixquantisierungsprozeß durchgeführt, und unter Verwendung eines HMM wird ein Erkennungsprozeß durchgeführt, nachdem eine PS-Ähnlichkeitssequenz in einen phonemischen Merkmalvektor integriert wurde, was gestattet, daß verschiedene bei kontinuierlicher Sprache auftretende Verzerrungen wirksam absorbiert werden, wodurch eine Spracherkennung mit hoher Genauigkeit realisiert wird. Die Ausführungsform hat außerdem insofern einen großen Vorteil, als kein enormer Berechnungsaufwand erforderlich ist.
Obwohl in der obigen Ausführungsform eine Matrixquantisierungsverarbeitung an durch Tonanalyse erhaltenen Merkmalvektoren durchgeführt wird, kann statt dessen eine gewöhnliche Vektorquantisierung verwendet werden. Außerdem wäre eine solche Modifizierung möglich, wie z.B. Merkmalparameter durch eine Erkennungseinrichtung, wie z.B. ein neuronales Netz, festgelegt in Einheiten eines phonemischen Segments, durchzulassen, die Ausgabe der Erkennungseinrichtung in einen phone mischen Merkmalvektor zu integrieren und dann den phonemischen Merkmalvektor durch ein HMM mit einer stetigen Ausgabewahrscheinlichkeitsverteilung durchzulassen. Obgleich in der obigen Ausführungsform Maximalwertfilter für eine Integration in einen phonemischen Merkmalvektor verwendet werden, wäre außerdem eine Eingabe einer phonemischen Segmentähnlichkeitssequenz in ein neuronales Netz für eine Integration in einen phonemischen Merkmalvektor auch möglich.

Claims

1. Spracherkennungssystem mit:

einer Tonanalysiereinrichtung (12) zum Tonanalysieren eines Eingangssprachsignales, um einen Satz von Merkmalparametern für jeden Rahmen des Sprachsignales zu erhalten,

einem phonetischen Segmentwörterbuch (13b), um zuvor eine Vielzahl von Typen von phonetischen Segmenten zu speichern, wobei jedes phonetische Segment durch einen Satz von Merkmalparametern und eine Anzahl von Rahmen identifiziert ist, und

einer Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten aus den Sätzen der Merkmalparameter, die durch die Tonanalysiereinrichtung und aus dem phonetischen Segmentwörterbuch erhalten sind,

gekennzeichnet durch

eine Integriereinrichtung (14) zum Integrieren der Sequenz der phonetischen Sequenzähnlichkeitswerte, die durch die phonetische Segmentähnlichkeitssequenzgewinnungseinrichtung (13a) erhalten sind, in eine Sequenz von phonemischen Merkmalvektoren, und

eine Einrichtung (15, 17) zum Prüfen der Sequenz der phonemischen Merkmalvektoren, die durch die Inte griereinrichtung erhalten sind, mittels eines in gewissen Einheiten vorbereiteten verhüllten Markov- Modelles (HMM), um so einen Erkennungsprozeß durchzuführen.

2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten eine Matrixquantisiereinrichtung zum Durchführen einer Matrixquantisierverarbeitung zwischen den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, und dem phonetischen Segmentwörterbuch umfaßt.

3. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung (13a) zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten eine Vektorquantisiereinrichtung zum Durchführen einer Vektorquantisierverarbeitung zwischen den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, und dem phonetischen Segmentwörterbuch umfaßt.

4. System nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zum Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten ein neurales Netzwerk zum Gewinnen der Sequenz der phonetischen Segmentähnlichkeitswerte aus den Sätzen von Merkmalparametern, die durch die Tonanalysiereinrichtung erhalten sind, umfaßt.

5. System nach Anspruch 1, dadurch gekennzeichnet, daß die Integriereinrichtung Maximalwertfilter zum Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte in eine Sequenz von phonemischen Merkmalvektoren umfaßt.

6. System nach Anspruch 1, dadurch gekennzeichnet, daß die Integriereinrichtung neurale Netzwerke zum Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte in eine Sequenz von phonemischen Merkmalvektoren umfaßt.

7. Spracherkennungsverfahren mit den folgenden Schritten:

a) Analysieren eines Eingangssprachsignales, um einen Satz von Merkmalparametern für jeden Rahmen des Sprachsignales zu erhalten, und

b) Gewinnen einer Sequenz von phonetischen Segmentähnlichkeitswerten aus den Sätzen der Merkmalparameter, die durch den Schritt a) erhalten sind, und aus einem phonetischen Segmentwörterbuch (13b), um zuvor eine Vielzahl von Typen von phonetischen Segmenten zu speichern, wobei jedes phonetische Segment durch einen Satz von Merkmalparametern und eine Anzahl von Rahmen identifiziert ist,

gekennzeichnet durch

c) Integrieren der Sequenz der phonetischen Segmentähnlichkeitswerte, die durch den Schritt b) erhalten sind, in eine Sequenz von phonemischen Merkmalvektoren und

d) Prüfen der Sequenz der phonemischen Merkmalvek toren, die durch den Schritt c) erhalten sind, mittels eines verhüllten Markov-Modelles (HMM), das in gewissen Einheiten vorbereitet ist, um so einen Erkennungsprozeß durchzuführen.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) einen Matrixquantisierungsschritt zum Durchführen einer Matrixquantisierungsverarbeitung zwischen den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, und dem phonetischen Segmentwärterbuch umfaßt.

9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) einen Vektorquantisierungsschritt zum Durchführen einer Vektorquantisierungsverarbeitung zwischen den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, und dem phonetischen Segmentwärterbuch erfaßt.

10. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt b) ein neurales Netzwerk verwendet, um die Sequenz von phonetischen Segmentahnlichkeitswerten aus den Sätzen von Merkmalparametern, die durch den Tonanalysierschritt a) erhalten sind, umfaßt.

11. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt c) Maximalwertfilter verwendet, um die Sequenz von phonetischen Segmentähnlichkeitswerten in eine Sequenz von phonemischen Merkmalvektoren zu integrieren.

12. verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt c) neurale Netzwerke verwendet, um die Sequenz von phonetischen Segmentähnlichkeitswerten in eine Sequenz von phonemischen Merkmalvektoren zu integrieren.