DE69628603T2

DE69628603T2 - System zur Musteranpassung mittels einer Baumstruktur

Info

Publication number: DE69628603T2
Application number: DE69628603T
Authority: DE
Inventors: Koichi Shinoda
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-02-03
Filing date: 1996-02-02
Publication date: 2004-05-19
Anticipated expiration: 2016-02-03
Also published as: US6173076B1; EP0725383B1; EP0725383A3; JP2751856B2; JPH08211889A; DE69628603D1; EP0725383A2

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Mustererkennungssystem und insbesondere auf ein Musteranpassungssystem zum Anpassen "eines Referenzmusters", das von mehreren verschiedenen Kategorien gebildet wird, unter Verwendung eines "Eingangsmusters" als eines Aggregats von Eingangsabtastwerten. Das beste Anwendungsgebiet der vorliegenden Erfindung ist das Sprecheranpassungssystem in einem Spracherkennungssystem, das auf einem HMM (Hidden-Markov-Modell) vom Typ eines gemischten kontinuierlichen Verteilungsmodells oder dergleichen basiert, in dem die Referenzmuster-Ausgangswahrscheinlichkeitsverteilung eine gemischte Gauß-Verteilung ist.
In letzter Zeit werden Forschungen und Untersuchungen durchgeführt, die die mechanische Erkennung von Sprachmustern betreffen, wobei verschiedene Verfahren (Spracherkennungsverfahren) vorgeschlagen worden sind. Ein typisches dieser Verfahren, das umfassend angewendet wird, basiert auf einem Verfahren, das DP-Angleichung (Angleichung durch dynamische Programmierung) oder HMM genannt wird.
Insbesondere werden auf dem Gebiet des Spracherkennungssystem unter Verwendung des HMM in letzter Zeit umfassend sprecherunabhängige Spracherkennungssysteme untersucht und entwickelt, die zur Erkennung der Sprache irgendeiner Person fähig sind.
Das sprecherunabhängige Erkennungssystem besitzt gegenüber dem sprecherabhängigen Erkennungssystem, das von einem bestimmten Anwender verwendet wird, einen Vorteil dadurch, daß der Anwender keine Sprache im voraus zu registrieren braucht. Allerdings wird auf die vorliegenden Probleme in dem sprecherunabhängigen Erkennungssystem hingewiesen. Ein erstes Problem besteht darin, daß das System für fast alle Sprecher dem sprecherabhängigen Erkennungssystem unterlegen ist. Ein zweites Problem besteht darin, daß die Erkennungsleistung für besondere Sprecher (einzigartige Sprecher) stark verschlechtert ist.
Um diese Probleme zu lösen, wurden kürzlich Forschungen und Untersuchungen begonnen, die die Anwendung der Sprecheranpassungstechniken, die hauptsächlich in sprecherabhängigen Erkennungssystemen verwendet werden, auch auf sprecherunabhängige Erkennungssysteme betreffen. Die Sprecheranpassungstechniken besitzen ein Konzept, ein Spracherkennungssystem an neue Anwender (d. h. unbekannte Sprecher) dadurch anzupassen, daß sie kleinere Mengen an Anpassungsdaten verwenden, als für das Training verwendet werden. Die Sprecheranpassungstechniken sind ausführlich geschildert in Sadaoki Furui, "Speaker Adaptation Techniques in Speech Recognition", Television Study Association, Bd. 43, Nr. 9, 1989, S. 929–934.
Die Sprecheranpassung kann in zwei Verfahren klassifiziert werden. Eines ist die "beaufsichtigte Sprecheranpassung", während das andere die "unbeaufsichtigte Sprecheranpassung" ist. Das beaufsichtigte Signal bedeutet eine Sprachklang-Ausdrucksreihe, die Sprachinhalte einer Eingangssprache darstellt. Somit bezieht sich die "beaufsichtigte Sprecheranpassung" auf ein Anpassungsverfahren in einem Fall, in dem die Sprachklang-Ausdrucksreihe für die Eingangssprache unbekannt ist und für die Anpassung die vorherige Anweisung von Sprachvokabularen für den unbekannten Sprecher erfordert. Andererseits ist die "unbeaufsichtigte Anpassung" ein Anpassungsverfahren, welches verwendet wird, wenn die Sprachklang-Ausdrucksreihe für die Eingangssprache bekannt ist, wobei sie keine Grenze an die Sprachinhalte der Eingangssprache für den unbekannten Sprecher erfordert; für den unbekannten Sprecher kein Sprachvokabular angewiesen zu werden braucht. Tatsächlich ist die Anpassung unter Verwendung der Eingangssprache als der Gegenstand der Spracherkennung zulässig, ohne daß der unbekannte Sprecher wahrnimmt, daß die Anpassung erfolgt. Allgemein ist die Erkennungsrate, die auf der "unbeaufsichtigten Anpassung" basiert, nach der Anpassung niedrig im Vergleich zu der, die auf der "beaufsichtigten Anpassung" basiert. Aus diesem Grund wird derzeit häufig die "beaufsichtigte Anpassung" verwendet.
Das Dokument Kosaka u. a., "Tree structured speaker clustering for speakerindepedent continuous speech recognition", Proceedings of International Conference on Spoken Language Processing (ICLSP '94), Bd. 3, 18–22, September 1994, Yokohama, JP, S. 1375–1378, XP002049795, offenbart ein unbeaufsichtigtes Sprecheranpassungsverfahren für die sprecherunabhängige Spracherkennung, das auf der baumstrukturierten Sprechergruppierung basiert.
Unter dem obigen Gesichtspunkt steigt in dem Spracherkennungssystem der Bedarf an dem Sprecheranpassungssystem. Die wie beschriebenen "Anpassungs"-Techniken sind nicht nur in Spracherkennungssystemen, sondern auch in Mustererkennungssystemen, deren Konzept das Spracherkennungssystem umfaßt, wichtig. Das "Sprecheranpassungssystem" in dem Spracherkennungssystem kann als das "Musteranpassungssystem" in dem Mustererkennungssystem verallgemeinert werden.
In den Musteranpassungssystemen des Standes der Technik vom beschriebenen Typ wird die Anpassung unabhängig davon, ob die Eingangsabtastwert-Anzahl für die Anpassung groß oder klein ist, in der gleichen Betriebsart ausgeführt. Somit kann die ungenügende Datenmenge die Genauigkeit der Parameterschätzung für die Mustererkennung verschlechtern, wenn die Eingangsabtastwert-Anzahl kleiner ist.
Es wird nun das Verfahren des Spracherkennungssystems, welches die umfangsreichsten Anwendungen der vorliegenden Erfindung sind, beschrieben, indem ein Spracherkennungssystem unter Verwendung des HMM als Beispiel gewählt wird, wobei die Sprecheranpassungstechniken in einem solchen Spracherkennungssystem ebenfalls anhand von 4 erwähnt werden.
Die Sprache des Sprechers (d. h. die Eingangssprache) wird einer Eingangsmuster-Erzeugungseinrichtung 42 zugeführt, um sie über solche Verfahren wie die Analog-Digital-Umsetzung und die Sprachanalyse für jede Rahmen genannte Einheit mit einer bestimmten Zeitlänge in eine Merkmalsvektor-Zeitreihe umzusetzen. Die "Merkmalsvektor-Zeitreihe" wird als Eingangsmuster bezeichnet. Die Zeitlänge des Rahmens beträgt üblicherweise 10 bis 100 ms. Die Merkmalsvektoren werden dadurch erhalten, daß die Merkmalsquantität des Sprachspektrums zu entsprechenden Zeitpunkten, üblicherweise 10- bis 100-dimensional, entnommen wird.
Das HMM wird als Referenzmuster in einer Referenzmuster-Speichereinrichtung 41 gespeichert. Das HMM ist eines der Sprachinformations-Quellmodelle (Klanginformations-Quellmodelle), wobei seine Parameter unter Verwendung von Eingangssprache trainiert werden können. Das HMM wird in der im folgenden gegebenen Beschreibung einer Erkennungseinrichtung 43 erwähnt. Üblicherweise wird das HMM für jede Erkennungseinheit vorbereitet. Als ein Beispiel wird hier ein Fall verwendet, in dem die Erkennungseinheit ein Klangelement ist. In dem sprecherunabhängigen Erkennungssystem wird das durch das Training der Sprachen vieler Sprecher zuvor für unbekannte Sprecher erhaltene HMM in der Erkennungsmuster-Speichereinheit 41 gespeichert.
Es wird nun ein Fall angenommen, in dem 1.000 Wörter der Erkennung unterliegen, d. h. ein Fall, in dem eine richtige Antwort eines Wortes unter den Erkennungskandidaten von 1.000 Wörtern erhalten wird. Für die Worterkennung werden die HMMs einzelner Klangelemente miteinander gekoppelt, um ein HMM eines Erkennungskandidatenworts (Wort-HMM) zu erzeugen. Wenn 1.000 Wörter erkannt werden, werden die Wort-HMMs für 1.000 Wörter erzeugt.
Die Erkennungseinrichtung 43 erkennt unter Verwendung der Wort-HMMs das Eingangsmuster. Es wird nun die "Musterkennung" beschrieben. Um die verschiedenen Schwankungen des Sprachmusters zu bewältigen, wird in dem HMM ein statistisches Konzept in die Beschreibung des Referenzmusters eingeführt. Das HMM ist ausführlich geschildert in Seiichi Nakagawa, "Speech Recognition with Probability Models", the Electronic Information Communication Engineer's Association, 1987 (im folgenden als Literatur 1 bezeichnet), S. 40–44, 55–60 und 69–74.
Das HMM jedes Klangelements umfaßt üblicherweise 1 bis 10 Zustände und Zustandübergänge. Üblicherweise werden der Start- und der letzte Zustand definiert, wobei für Zustandsübergänge für jede Zeiteinheit aus jedem Zustand ein Zeichen entnommen wird. Die Sprache jedes Klangelements wird als Zeitreihe von Zeichen ausgedrückt, die während des Zustandsübergangsintervalls von dem Startzustand zu dem letzten Zustand aus den einzelnen Zuständen erzeugt werden. Für jeden Zustand wird die Zeichenerscheinungswahrscheinlichkeit (Ausgangswahrscheinlichkeit) definiert, während für jeden Zustandsübergang die Übergangswahrscheinlichkeit definiert wird. Somit besitzt das HMM einen Ausgangswahrscheinlichkeitsparameter und einen Übergangswahrscheinlichkeitsparameter. Der Ausgangswahrscheinlichkeitsparameter stellt eine Klangfarbenschwankung des Sprachmusters dar. Der Übergangswahrscheinlichkeitsparameter stellt eine Zeitschwankung des Sprachmusters dar. Die Erzeugungswahrscheinlichkeit von Sprache aus ihrem (d. h. aus dem HMM-)Modell kann dadurch erhalten werden, daß die Startzustandswahrscheinlichkeit auf einen bestimmten Wert eingestellt wird und der Wert für jeden Zustandsübergang mit der Ausgangswahrscheinlichkeit und außerdem mit der Übergangswahrscheinlichkeit multipliziert wird.
Umgekehrt kann, wenn eine Sprache beobachtet wird, ihre Erzeugungswahrscheinlichkeit dadurch berechnet werden, daß angenommen wird, daß sie aus einem bestimmten HMM erzeugt wird.
In der HMM-Spracherkennung wird ein HMM für jeden Erkennungskandidaten vorbereitet und bei der Eingabe der Sprache dessen Erzeugungswahrscheinlichkeit in jedem HMM erhalten. Es wird bestimmt, daß das HMM mit der maximalen Erzeugungswahrscheinlichkeit eine Quelle der Erzeugung ist, wobei der Erkennungskandidat, der diesem HMM entspricht, zum Ergebnis der Erkennung gemacht wird.
Der Ausgangswahrscheinlichkeitsparameter wird durch einen diskreten Wahrscheinlichkeitsverteilungsausdruck und durch einen kontinuierlichen Wahrscheinlichkeitsverteilungsausdruck ausgedrückt. Als Beispiel wird hier ein Fall gewählt, in dem der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck angewendet wird. Der kontinuierliche Wahrscheinlichkeitsverteilungsausdruck verwendet eine gemischte kontinuierliche Wahrscheinlichkeit, d. h. eine Wahrscheinlichkeit, die dadurch erhalten wird, daß mehrere Gauß-Verteilungen mit einer Wichtung miteinander addiert werden.
Der Ausgangswahrscheinlichkeitsparameter, der Übergangswahrscheinlichkeitsparameter und solche Parameter wie die Wichtung mehrerer Gauß-Verteilungen sind ausgehend von einer Trainingssprache in bezug auf das Modell, die mit einem Baum-Welch-Algorithmus genannten Algorithmus trainiert worden ist, vorläufig. Der Baum-Welch-Algorithmus ist ausführlich in der Literatur 1 geschildert.
Das Verfahren der Worterkennung des Eingangsmusters wird nun mathematisch beschrieben. Das Eingangsmuster X, das als Zeitreihe aus Merkmalsvektoren ausgedrückt wird, ist gegeben als X = x1, x2, ..., xt, ..., xT, (1)wobei T eine Gesamtzahl von Eingangsmustern x darstellt.
Die Erkennungskandidatenwörter werden durch W₁, W₂, ..., W_N bezeichnet. Die Erkennungskandidatenwörter-Anzahl wird durch N bezeichnet. Die Angleichung zwischen dem Wort-HMM jedes Wortes W_n und dem Eingangsmuster X erfolgt wie folgt. Indizes werden weggelassen, wenn sie nicht benötigt werden. In dem Wort-HMM werden die Übergangswahrscheinlichkeit aus dem Zustand j in den Zustand i durch α_ji, das gemischte Gewicht der Ausgangswahrscheinlichkeitsverteilung mit λ_im, der Gauß-Verteilungs-Mittelwertvektor jedes Elements in der Ausgangswahrscheinlichkeitsverteilung mit μ_im und die Kovarianzmatrix der Ausgangswahrscheinlichkeitsverteilung mit Σ_im bezeichnet. t bezeichnet den Zeitpunkt der Eingabe, i und j bezeichnen die Zustände des HMM und m bezeichnet die laufende Nummer des gemischten Elements.
Es wird die folgende Rekursionsformelberechnung, die die Vorwärtswahrscheinlichkeit α(i, t) betrifft, ausgedrückt. α(i, 0) = πi (2)i = 1, ..., I α(i, t) = Σα(j, t – 1)αjibi(xt) (3)i = 1, ..., I; t = 1, ..., T,
wobei π_i eine Wahrscheinlichkeit mit dem Anfangszustand i darstellt und b_i(x_t) und N(x_t; μ_im, Σ_im) durch die folgenden Formeln dargestellt sind. bi(xt) = ΣmλimN(xt; μim, Σim) (4) N(xt; μim, Σim) = (2π)–n/x|Σim|–1/2 exp(–(μim – xt)Σim –1(μim – xt)/2) (5)
Die Wahrscheinlichkeit Pⁿ(X) für das Eingangsmuster W_n kann erhalten werden als: Pn(X) = α(I, T), (6)wobei I einen Endzustand darstellt. Durch die Ausführung dieser Verarbeitung für das Wort-HMM jedes Wortes ist das erkannte Wort W_n gegeben als: n ^ = argmaxn Pn(X). (7)
Diese Erkennungsergebniswörter werden von der Erkennungseinrichtung 43 der Erkennungsergebnis-Ausgabeeinrichtung 44 zugeführt.
Eine Erkennungsergebnis-Ausgabeeinrichtung 44 führt diese Verfahren in der Weise aus, daß sie Erkennungsergebniswörter an eine Ausgabe ausgibt und Steuerwörter, die den Erkennungsergebniswörtern entsprechen, an entsprechende Systeme oder Vorrichtungen sendet.
In der Sprecheranpassung durch eine Sprecheranpassungseinrichtung 45 (siehe den Strichlinienpfeil in 4) wird das Referenzmuster in der Referenzmuster-Speichereinrichtung 41 korrigiert, um eine Verbesserung der Leistung in bezug auf unbekannte Sprecher zu schaffen. Genauer ist für die Anpassung des Referenzmusters an den Sprecher das Training unter Verwendung der Sprache des Sprechers zulässig, wenn das Spracherkennungssystem verwendet wird, was somit eine hohe Erkennungsrate schafft. In diesem Fall wird das Anpassungsverfahren nicht je nachdem geändert, ob die Datenmenge der Eingangssprache (d. h. die Eingangsabtastwert-Anzahl) groß oder klein ist, wobei für eine angemessene Sprecheranpassung eine bestimmte Anzahl von Eingangsabtastwerten erforderlich ist.
In dem obenbeschriebenen Musteranpassungssystem des Standes der Technik verschlechtert sich die Genauigkeit der Parameterschätzung für die Musteranpassung bei weniger Eingangsabtastwerten wegen der ungenügenden Datenmenge, was zu unzureichender Wirkung der Referenzmusteranpassung führt.
Beispielsweise wird in dem Sprecheranpassungssystem in dem Spracherkennungssystem im Fall einer sehr kleinen Eingangssprach-Datenmenge die Genauigkeit der Parameterschätzung wegen der unzureichenden Datenmenge verschlechtert, so daß keine angemessene Wirkung der Sprecheranpassung des Referenzmusters erhalten werden kann, d. h., die Erkennungsleistung nicht verbessert wird.
ZUSAMMENFASSUNG DER ERFINDUNG
Im Licht der obigen Umstände besteht eine Aufgabe der vorliegenden Erfindung in der Schaffung eines Musteranpassungssystems mit einem Baumschema, in dem das Konzept des Referenzmuster-Baumschemas eingeführt wird, um eine Baumschema-Hierarchieschicht als das Objekt der Anpassung in Übereinstimmung mit der Datenmenge (d. h. der Eingangsabtastwert-Anzahl) zu bestimmen und somit die Verschlechterung der Genauigkeit der Parameterschätzung im Fall einer unzureichenden Datenmenge zu verhindern und eine feine Referenzmusteraktualisierung (Erzeugung eines angepaßten Referenzmusters) in Übereinstimmung mit der Datenmenge zu ermöglichen.
In dem Musteranpassungssystem mit einem Baumschema gemäß der vorliegenden Erfindung erzeugt die Eingangsmuster-Erzeugungseinrichtung das Eingangsmuster, um ein Referenzmuster, das von mehreren verschiedenen Kategorien gebildet wird, anhand eines Eingangsmusters, das ein Aggregat von Eingangsabtastwerten ist, anzupassen. Die Referenzmuster-Speichereinrichtung speichert das Referenzmuster. Die Musterangleichungseinrichtung gleicht die Kategorien des Referenzmusters, das in der Referenzmuster-Speichereinrichtung gespeichert ist, und der Eingangsabtastwerte des Eingangsmusters, das durch die Eingangsmuster-Erzeugungseinrichtung erzeugt wird, an. Die Baumschemareferenzmuster-Speichereinrichtung speichert vorher das Baumschemareferenzmuster als ein durch ein Baumschema gegebenes Referenzmuster. Die Datenmengen-Schätzeinrichtung berechnet die Anzahl von Eingangsabtastwerten in jedem Knoten des Baumschemareferenzmusters in der Baumschemareferenzmuster-Speichereinrichtung. Die Knotenauswahleinrichtung wählt den Knoten aus, der für die Anpassung in Übereinstimmung mit der durch die Datenmengen-Schätzeinrichtung berechneten Anzahl von Eingangsabtastwerten verwendet wird. Die Anpassungsparameter-Erzeugungseinrichtung berechnet (d. h. erzeugt) einen Anpassungsparameter in dem durch die Knotenauswahleinrichtung ausgewählten Knoten. Die Referenzmustererzeugungseinrichtung erzeugt unter Verwendung des durch die Anpassungsparameter-Erzeugungseinrichtung erzeugten Anpassungsparameters ein angepaßtes Referenzmuster und aktualisiert das Referenzmuster.
Ferner schafft die Erfindung ein Musteranpassungsverfahren gemäß Anspruch 10.
Weitere Aufgaben und Merkmale werden aus der folgenden Beschreibung mit Bezug auf die beigefügte Zeichnung näher erläutert.
KURZBESCHREIBUNG DER ZEICHNUNG
1 ist ein Blockschaltplan, der eine Ausführungsform der vorliegenden Erfindung zeigt, die auf ein Musteranpassungssystem, das das Baumschema verwendet, angewendet wird;
2 ist ein Ablaufplan, der das Verfahren der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, zeigt;
3 ist eine Ansicht, die ein Beispiel eines Baumschemareferenzmusters zeigt, das in der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, verwendet wird; und
4 ist ein Blockschaltplan eines Musteranpassungssystems, das ein Baumschema verwendet.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung wird nun in Verbindung mit einer Ausführungsform davon mit Bezug auf die Zeichnung ausführlich beschrieben.
1 ist ein Blockschaltplan, der eine Ausführungsform der vorliegenden Erfindung zeigt, die auf ein Musteranpassungssystem, das ein Baumschema verwendet, angewendet wird. Diese Ausführungsform des Musteranpassungssystems, das ein Baumschema verwendet, entspricht dem "Sprecheranpassungssystem" in dem Spracherkennungssystem.
Das Sprecheranpassungssystem, das das Baumschema verwendet, das die vorliegende Erfindung verkörpert, umfaßt eine Eingangsmuster-Erzeugungseinrichtung 1, eine Referenzmuster-Speichereinrichtung 2, eine Musterangleichungseinrichtung 3, eine Baumschemareferenzmuster-Speichereinrichtung 4, eine Datenmengen-Schätzeinrichtung 5, eine Knotenauswahleinrichtung 6, eine Anpassungsparameter-Erzeugungseinrichtung und eine Referenzmustererzeugungseinrichtung 8.
2 ist ein Ablaufplan, der das Verfahren der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet (d. h. das Verfahren bei der Anpassung), zeigt. Das Verfahren umfaßt einen Eingangsmuster-Erzeugungsschritt 201, einen Musterangleichungsschritt 202, einen Pufferwert-Akkumulationsschritt 203, einen Differenzvektor-Berechnungsschritt 204, einen Knotenauswahlschritt 205, einen Anpassungsvektor-Berechnungsschritt 206 und einen Re ferenzmuster-Aktualisierungsschritt 207.
3 ist eine Ansicht, die ein Beispiel eines Baumschemareferenzmusters (d. h. ein Referenzmuster, das in der Baumschemareferenzmuster-Speichereinrichtung 4 als ein Baumschema ausgedrückt ist) zeigt, das in der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, verwendet wird.
Es wird nun der Betrieb des Musteranpassungssystems, das das Baumschema verwendet, beschrieben.
In dieser Ausführungsform und allgemein gemäß der vorliegenden Erfindung werden die für die Sprecheranpassung zu sprechenden Wörter oder Sätze vorher für den Anwender angewiesen, wobei die HMM-Parameter unter Verwendung des Wortausdrucks und der Eingangssprache aktualisiert (angepaßt) werden. Diese Anpassung gehört in dem Sinn, daß die richtigen Wörter der Sprache zuvor bekannt sind, zu der obenerwähnten Kategorie der "beaufsichtigten" Anpassung).
Um die Belastung des Sprechers zu mildern, sollte die Datenmenge (d. h. die Eingangsabtastwert-Anzahl) so klein wie möglich gemacht werden. Allerdings ist die HMM-Parameter-Anzahl allgemein groß, wobei die Datenmenge unzureichend sein kann, was die Genauigkeit der Parameterschätzung und die Erkennungsleistung verschlechtert, wenn alle Parameter mit einer kleinen Menge der Eingangssprache zur Anpassung angepaßt werden sollen. In dieser Ausführungsform werden unter den HMM-Parametern die Ausgangswahrscheinlichkeitsverteilungs-Mittelwertvektoren als anzupassende Parameter ausgewählt Die Mittelwertvektoren werden als die Anpassungsobjektparameter ausgewählt, da angenommen wird, daß sie unter den HMM-Parametern den größten Einfluß auf die Erkennungsleistung haben.
Es wird nun der Betrieb der Ausführungsform des Musteranpassungssystems, das das Baumschema verwendet, beschrieben. Der Betrieb wird aufeinanderfolgend als (1) Einleitungsoperation zur Anpassung und (2) Anpassungsoperation beschrieben.
(1) Einleitungsoperation zur Anpassung:
Es wird zunächst ein Referenzmuster beschrieben, das in der Referenzmuster- Speichereinrichtung 2 gespeichert wird. Als das Referenzmuster wird ein Anfangs-HMM vorbereitet. Das Anfangs-HMM kann beispielsweise ein Sprachelement-HMM eines unbestimmten Sprechers sein, das aus den Sprachen vieler Sprecher vorher vorbereitet worden ist. Dieses Anfangs-HMM wird in der Referenzmuster-Speichereinrichtung 2 gespeichert.
Zweitens wird ein Baumschemareferenzmuster beschrieben, das in der Baumschemamuster-Speichereinrichtung 4 gespeichert wird. Aus dem Referenzmuster, das in der Referenzmuster-Speichereinrichtung 2 gespeichert ist, wird im voraus ein Baumschema des Referenzmusters (Baumschemareferenzmusters) erzeugt. Es werden hier die Aggregate aller Zustände der Mittelwertvektoren in dem Anfangs-HMM betrachtet, wobei ein N-Schicht-Baumschema der Mittelwertvektorgruppe erzeugt wird. Genauer wird der Abstand zwischen den Mittelwertvektoren definiert, wobei die Mittelwertvektoren, die den Einzelzuständen entsprechen, in Übereinstimmung mit der Definition gruppiert werden. In dieser Operation werden Knoten, die die Mittelwertvektoren darstellen, die den einzelnen Zuständen entsprechen (die den Astknoten entsprechen), und Knoten der oberen Schicht, die auf der Gruppierung basieren, erzeugt. Somit wird ein Baumschema mit diesen Knoten erzeugt (siehe 3).
Ein Verfahren zum Erzeugen eines Baumschemas, das die Gauß-Verteilung betrifft, ist ausführlich geschildert in der oftengelegten japanischen Patentveröffentlichung Nr. Heisei 6-348292 mit dem Titel "Speech Recognition System" (im folgenden als Literatur 2 bezeichnet).
3 zeigt ein Beispiel eines solchem Baumschemareferenzmusters. In diesem Baumschemareferenzmuster beträgt die Gesamtzahl der verteilten Objekte 1.500, wobei N gleich 5 ist. Die durch die Knoten (Astknoten) in der untersten Schicht (d. h. in der N-ten, hier in der 5-ten Schicht) gezeigten Mittelwertvektoren entsprechen den jeweiligen Zuständen des HMM, wobei auf sie als Astknotenvektoren Bezug genommen wird. Die durch die Knoten in den dazwischenliegenden Baumschemaschichten (d. h. in der 1-ten bis (N – 1)-ten, hier 1-ten bis 4-ten, Baumschemaschicht) gezeigten Vektoren werden als Knotenvektoren bezeichnet. Dieses Baumschemareferenzmuster wird in der Baumschemareferenzmuster-Speichereinrichtung 4 gespeichert.
Drittens werden Puffer, die für das Verfahren in der Datenstatistik-Schätzeinrich tung 4 vorbereitet werden, (d. h. Puffer, die zum Schätzen der Datenmenge der Eingangsabtastwert-Anzahl verwendet werden) beschrieben.
Es werden ein Puffer A(n, m) mit den Dimensionen der Merkmalsvektoren und ein eindimensionaler Puffer B(n, m) zum Addieren der Merkmalsvektoren vorbereitet. n stellt hier die Hierarchieschicht-Ordnungszahl (d. h. die n-te Ordnung) in dem Baumschema dar, während m die Ordnungszahl des Knotens in der n-ten Schicht darstellt. Die Puffer A und B akkumulieren Daten, die für jeden Eingangsklang (d. h. für jeden Eingangsklang der Eingangssprache) für den Aktualisierensmittelwertvektor erforderlich sind. Diese Puffer A und B werden durch die Datenmengen-Schätzeinrichtung 5 gesteuert.
Wie später beschrieben wird, werden die Inhalte in den Puffern A und B für jede Eingangssprache aktualisiert. Wenn eine Reihe von Eingangssprachen (d. h. Eingangsabtastwerten) für die Anpassung eingegeben worden sind, wird das in der Referenzmuster-Speichereinrichtung 2 gespeicherte Referenzmuster unter Verwendung der Inhalte in den Puffern A und B aktualisiert (d. h. angepaßt).
(2) Anpassungsoperation:
Bei der Anpassung des Referenzmusterparameters (d. h. in dieser Ausführungsform der HMM-Zustandsmittelwertvektoren) wird für jeden Eingangsklang das folgende Verfahren ausgeführt (siehe 2).
Wie beim Erkennungsverfahren, für das auf eine Beschreibung in Verbindung mit 4 Bezug genommen wird, erzeugt zunächst die Eingangsmuster-Erzeugungseinrichtung 1 aus den Eingangssprachen jeder Eingangssprache ein Eingangsmuster (Schritt 201).
Zweitens führt die Musterangleichungseinrichtung 3 über die folgenden Verfahren (1) bis (3) die Musterangleichung (d. h. die Ableitung der Korrespondenzbeziehung zwischen den Kategorien des Referenzmusters und den Eingangsabtastwerten des Eingangsmusters) aus und erhält somit in jedem Zeitpunkt die Astknotenvektoren, die den Merkmalsvektoren entsprechen (Schritt 202).

(1) Unter Verwendung der richtigen Wortausdrücke werden dadurch, daß die Anfangs-HMMs der einzelnen Klangelemente miteinander gekoppelt werden, Wort-HMMs erzeugt, die dem Eingangsmuster entsprechen. Daraufhin wird eine Musteranpassung zwischen dem Eingangsmuster und den Wort-HMMs ausgeführt. In dieser Operation werden die Astknotenvektoren in dem Baumschemareferenzmuster als die einzelnen Zustandsmittelwertvektoren verwendet.

In dieser Musterangleichung werden in den zuvor erwähnten Rekursionsformeln der Gleichungen 2 bis 7 anstelle der Gleichungen 2, 3 und 6 Rekursionsformeln verwendet, die auf den folgenden Gleichungen 8 bis 11 beruhen. Φ(i, 0) = πi i = 1, ..., I (8) Φ(i, t) = maxjΦ(j, t – 1)ajibi(xt) (9)i = 1, ..., I; t = 1, ..., T bi(xt) = maxmλimbim(xt) (10)i = 1, ..., I; t = 1, ..., T; m = 1, ..., M Pn(X) = Φ(I, T) (11)
Das Verfahren unter Verwendung dieser Formeln wird Vitarbi-Algorithmus genannt. Hierbei ist M die Anzahl der verteilten Objekte in jedem Zustand und bim(xt) die Erscheinungswahrscheinlichkeit N(x_t; μ_im, Σ_im) der Verteilung, die dem m-ten Astknotenvektor im Zustand i entspricht. Die Verteilungsordnungszahlen sind so beschaffen, daß sie sich in allen Zuständen nicht überschneiden.

(2) Gleichzeitig mit der obenerwähnten Berechnung in Gleichung 9 zur Ableitung von Φ(i, t) wird die Berechnung an Ψ1(i, t) = argmaxjΦ(j, t – 1)ajibi(xt) (12)i = 1, ..., I; t = 1, ..., T Ψ2(i, t) = argmaxmλimbim(xt) (13)i = 1, ..., I; t = 1, ..., Tausgeführt, wobei die Zustände in dem Zeitpunkt, die jedem Zeitpunkt vorausgehen, in einem Feld Ψ₁ gespeichert werden, während die Verteilungsordnungzahlen, die die maximalen Erscheinungswahrscheinlichkeiten ergeben, in einem Feld Ψ₂ gespeichert werden.
(3) Nach Abschluß der obenerwähnten Berechnung an Gleichung 11 für den letzten Rahmen T werden unter Verwendung der Felder Ψ₁ und Ψ₂ aufeinanderfolgend vom letzten bis zum ersten Rahmen die den einzelnen Rahmen entsprechenden Mittelwertvektoren erhalten. Genauer werden die Zustandsnummer S(t), die dem Rahmen t entspricht, und die Astknotenvektornummer R(t) aus den folgenden Gleichungen erhalten. S(T) = I (14) S(t) = Ψ1(S(t + 1), t + 1) (15)t = 1, ..., T – 1 R(t) = Ψ2(R(t), t) (16)t = 1, ..., T – 1.

Auf dieses Verfahren wird als Rückvertolgung Bezug genommen. Über dieses Verfahren werden die Astknotenvektoren, die den Merkmalsvektoren zu einzelnen Zeitpunkten entsprechen, erhalten.
Drittens schätzt (d. h. berechnet) die Datenmengen-Schätzeinrichtung 5 durch Akkumulieren der Inhalte in den Puffern A und B, die den einzelnen Knoten entsprechen, die Eingangsabtastwert-Anzahl (d. h. die Datenmenge der Eingangssprache) ab (Schritt 204).
Genauer führt die Einrichtung 5 ein Verfahren aus, in dem für jeden Merkmalsvektor x_t zu jedem Zeitpunkt A(N, R(t)) = A(N, R(t)) + (xt – μm N) (17) B(N, R(t)) = B(N, R(t)) + 1 (18)erhalten wird, wobei sie die Inhalte in den Puffern A und B, die den Astknoten entsprechen, miteinander addiert. In Gleichung 17 stellt μ_m ⁿ den Mittelwertvektor des m-ten Knotens in der n-ten Schicht dar. Ähnlich werden für die Knoten, die die Astknotenvektoren R(t) als Unterknoten haben, die Inhalte in den Puffern A und B als A(n, m) = A(n, m) + δ(m, jn(R(t))(Xt – μm n) n = 1, ..., N – 1 (19) B(n, m) = B(n, m) + δ(m, jn(R(t)) 1 n = 1, ..., N – 1 (20)miteinander addiert, wobei j_n(m) die laufenden Nummern der Knoten der n-ten Schicht, die den Astknoten m (d. h. den m-ten Astknoten) als Unterknoten haben, darstellen und δ(i, j) als δ(i, j) = 1 für i = j (21) = 0 für i ≠ j (22)gegeben ist.
Dieses Verfahren wird entsprechend der Anzahl der Sprachwörter, die anzupassen sind, mehrmals wiederholt ausgeführt. Auf diese Weise wird die Eingangsabtastwert-Anzahl (d. h. die Datenmenge der Eingangssprache) berechnet.
In einem vierten Verfahren nach dem Verfahren an den anzupassenden Eingangssprachen erhält die Anpassungsparameter-Erzeugungseinrichtung 7 für alle Baumschemareferenzmuster-Knoten die Differenzvektoren D als (Schritt 204) D(n, m) = A(n, m)/B(n, m). (23)
Wenn die Datenmenge der Eingangssprache (d. h. die Eingangsabtastwert-Anzahl) klein ist, ist die Anzahl der Eingangsrahmen, die den einzelnen Astknoten entsprechen, sehr klein. In diesem Fall kann die Parameterschätzung mit einer kleinen Anzahl von Eingangsabtastwerten die Erkennungsleistung eher verschlechtern. Dementsprechend kann geeignet ein Schwellenwert T für den Inhalt in dem Puffer B, der die Eingangsabtastwert-Anzahl darstellt, vorgesehen werden, wobei anstelle der Anpassungsvektoren Δ(m) der Astknotenvektoren in den Astknoten m die Anpassungsvektoren Δ(m) angewendet werden können, die dem durch die folgende Gleichung entsprechenden n'-ten Knoten entsprechen. Mit anderen Worten, als Anpassungsvektor Δ(m) wird der Differenzvektor in dem n'-ten Knoten verwendet, in dem wie während der Operation, die für die nachfolgenden Knoten ausgeführt wird, eine Beziehung B(n', m) > TBvon den unteren zu den oberen Schichten erstmals erfüllt ist. n' = argmaxnB(n,(jn(m))(B(n,(j(m) < TB)n = 1, ..., N (24) Δ(m) = D(n', jn'(m)). (25)
In einem fünften Verfahren berechnet die Knotenauswahleinrichtung 6 n' in Gleichung 24 und wählt den anzupassenden (d. h. für die Anpassung zu verwendenden) Knoten (Knoten der n'-ten Schicht) aus.
In einem sechsten Verfahren erhält die Anpassungsparameter-Erzeugungseinrichtung 7 unter Verwendung von Gleichung 25 in Übereinstimmung mit der Knotenauswahl durch die Knotenauswahleinrichtung 6 die Anpassungsvektoren Δ(m) (Schritt 206).
Über das obige fünfte und sechste Verfahren ist es möglich, die Anpassungsvektoren in einer Situation mit einer Verteilung von weniger Daten aus einer bestimmten Datenmenge abzuschätzen. Der Differenzvektor der Knoten der oberen Schicht wird durch Mitteln der Differenzvektoren der Knoten der unteren Schicht erhalten, wobei daran gedacht wird, daß er breitere Ansichtsänderungen in dem Vektorraum darstellt. Somit werden zur angemessenen Anpassung in einer Situation mit weniger Daten oder in einer Verteilungssituation ohne entsprechende Daten Differenzvektoren verwendet, die breitere Ansichtsänderungen darstellen.
Die Datenmengenerhöhung der Eingangssprache erhöht die Datenmenge in jedem Knoten. In diesem Fall werden die Differenzvektoren der Knoten der unteren Schicht verwendet, um eine breitere Ansicht sowie eine feinere Anpassung in dem Vektorraum zu erhalten.
Als das Verfahren zur Anpassungsvektorerzeugung sind außer dem obigen Verfahren des "Auswählens eines Knotens und Bildens des Differenzvektors dieses Knotens zu einem Anpassungsvektor" die folgenden Verfahren (1) und (2) vorstellbar.

(1) Verfahren, in dem die Anpassungsvektoren mehrerer Knoten der oberen und der unteren Schicht zur Verwendung gewichtet werden.

In diesem Verfahren ist der Anpassungsvektor Δ(m) wie folgt gegeben. Δ(m) = Σn=1 Nw(n)D(n, jn(n)), (26)wobei W(n) ein angemessenes Gewicht für die Knoten der n-ten Schicht ist. Es ist möglich, daß die Informationen der Datenstatistik der einzelnen Schichten an den Anpassungsvektoren wie folgt sind.

(2) Verfahren, in dem die Hierarchieschicht mit den zu verwendenden Anpassungsvektoren für alle Mittelwertvektoren in Übereinstimmung mit der Eingangsdatenmenge ausgewählt wird.

In diesem Verfahren wird der Anpassungsvektor Δ(m) wie folgt erhalten. n' = argmaxnΣiB(n, j)(ΣB(n, j) > TB') (28)n = 1, ..., N Δ(m) = D(n',jn·(m)) (29)wobei TB einen Schwellenwert der Datenmenge für alle Knoten in der gleichen Schicht darstellt.
In einem siebenten Verfahren berechnet die Referenzmustererzeugungseinrichtung 8 die Astknoten-Mittelwertvektoren (Astknotenvektoren) unter Verwendung der auf die obige Weise erzeugten Anpassungsvektoren wie folgt, wobei sie das in der Referenzmuster-Speichereinrichtung 2 gespeicherte Referenzmuster unter Verwendung der auf diese Weise erhaltenen Astknotenvektoren aktualisiert (d. h. ein angepaßtes Referenzmuster erzeugt, das in der Referenzmuster-Speichereinrichtung 2 gespeichert wird) (Schritt 207). ^m =μm + Δ(m) (30)
Schließlich werden Abwandlungen der Ausführungsform des Musteranpassungs systems, das das Baumschema verwendet, beschrieben. Die vorliegende Erfindung kann dadurch realisiert werden, daß die Konstruktion und der Betrieb der Ausführungsform wie unten gezeigt abgewandelt werden.
Die Musteranpassungseinrichtung 3 verwendet in der Ausführungsform einen Vitarbi-Algorithmus als Verfahren der Musteranpassung. Statt dessen kann ein Verfahren verwendet werden, das ein Vorwärts-Rückwärts-Algorithmus genannt wird. In diesem Fall sind die Anzahlen der Datenstücke wahrscheinlichkeitsbasierte Werte, wobei in dem Puffer B reelle Zahlen gespeichert werden. In diesem Fall ist wieder die Anpassung durch ein Verfahren wie das obenbeschriebene möglich.
Die Musteranpassungseinrichtung 3 führt in diesem Fall wieder die wahrscheinlichkeitsbasierte Anpassung aus, während die Datenmengen-Schätzeinrichtung 5 eine erwartete Eingangsabtastwert-Anzahl berechnet, die statt des Eingangsabtastwerts verwendet werden.
In einer weiteren Abwandlung werden als der Anpassungsparameter Gauß-Verteilungs-Mittelwertvektor-Differenzvektoren (d. h. angepaßte Vektoren, die auf den Differenzvektoren basieren) verwendet. Ferner ist die Anpassung in einem System wie dem obenbeschriebenen unter Verwendung anderer Anpassungsparameter wie etwa von Gauß-Verteilungs-Mittelwertvektoren, Koeffizienten der Wichtung in dem verteilten Zustand, Differenzen dieser Parameter usw. möglich. Nochmals weiter ist es möglich, die Anpassung der obigen Parameter gleichzeitig gemeinsam zu erhalten.
In einer weiteren Abwandlung wird das in der Literatur 2 beschriebene Verfahren verwendet, um das Baumschema zu organisieren, welches das Baumschemareferenzmuster betrifft. Dieses Baumschema-Organisationsverfahren ist aber keineswegs begrenzend. Beispielsweise ist es möglich, Sprachklangähnlichkeiten in der Sprachklangtheorie zu verwenden. Außerdem ist es möglich, ein wahrscheinlichkeitsbasiertes Baumschema zu verwenden, in dem die Grade, in denen Unterknoten zu Hauptknoten gehören, durch reelle Zahlen von 0 bis 1 gezeigt sind, und die Summe der Grade, in denen ein Unterknoten zu mehreren Hauptknoten gehört, 1 ist.
Die Literatur 2 beschreibt die Erkennung unter Verwendung des Baumschemas.
Bei Verwendung des in der Literatur 2 beschriebenen Verfahrens als Erkennungsmittel kann eine Verbesserung der Erkennungsleistung unter Verwendung des Baumschemas erhalten werden, indem das Baumschema, das verwendet wird, zu dem gleichen Baumschema gemacht wird, das für die Anpassung verwendet wird.
Eine nochmals weitere Abwandlung verwendet ein Verfahren, in dem die Referenzmusteraktualisierung vorgenommen wird, nachdem die Operation, die die gesamte eingegeben Sprache betrifft (d. h. die Eingabe der Eingangssprache), abgeschlossen ist. Allerdings ist es leicht möglich, das Referenzmuster dadurch zu aktualisieren, daß das obenbeschriebene Verfahren für jeden Klang, d. h. für jede Eingabe der Eingangssprache, ausgeführt wird (fortlaufende Anpassung).
Wie im Vorstehenden beschrieben worden ist, wird die Hierarchieschicht in dem Referenzmuster-Baumschema für den Anpassungsparameter (wie etwa für die Anpassungsvektoren) gemäß der vorliegenden Erfindung in Übereinstimmung mit der Datenmenge ((d. h. der Eingangsabtastwertzahl) bestimmt, womit die Verschlechterung der Genauigkeit der Parameterschätzung im Fall einer kleineren Datenmenge verhindert wird und außerdem eine feine Referenzmusteraktualisierung (angepaßte Referenzmustererzeugung) in Übereinstimmung mit der Datenmenge ermöglicht wird. Wenn die vorliegende Erfindung beispielsweise auf ein Sprecheranpassungssystem in einem Spracherkennungssystem angewendet wird, wird die Genauigkeit der Parameterschätzung im HMM oder dergleichen im Fall einer kleineren Sprachmenge des Sprechers (Eingangssprachdatenstatistik) nicht verschlechtert, wobei angemessene Sprecheranpassungswirkungen erhalten werden können.
Dem Fachmann auf dem Gebiet fallen konstruktive Änderungen ein, wobei verschiedene offensichtlich unterschiedliche Abwandlungen und Ausführungsformen hergestellt werden können, ohne von dem wie durch die beigefügten Ansprüche definierten Umfang der Erfindung abzuweichen. Der in der vorstehenden Beschreibung und in der beigefügten Zeichnung dargestellte Gegenstand soll lediglich zur Erläuterung dienen. Somit soll die vorstehende Beschreibung nicht als beschränkend, sondern als erläuternd betrachtet werden.

Claims

Musteranpassungssystem, das ein Baumschema verwendet, um ein Referenzmuster, das durch mehrere verschiedene Kategorien gebildet ist, anhand eines Eingangsmusters, das ein Aggregat von Eingangsabtastwerten ist, anzupassen, umfassend: eine Eingangsmuster-Erzeugungseinrichtung (1) zum Erzeugen des Eingangsmusters; eine Referenzmuster-Speichereinrichtung (2) zum Speichern des Referenzmusters; eine Musterangleichungseinrichtung (3) zum Angleichen der Kategorien des Referenzmusters, das in der Referenzmuster-Speichereinrichtung gespeichert ist, und der Eingangsabtastwerte des Eingangsmusters, das durch die Eingangsmuster-Erzeugungseinrichtung erzeugt wird; eine Baumschemareferenzmuster-Speichereinrichtung (4) zum vorherigen Speichern eines Baumschemareferenzmusters als ein durch ein Baumschema gegebenes Referenzmuster; eine Datenmengen-Schätzeinrichtung (5) zum Berechnen der Anzahl von Eingangsabtastwerten in jedem Knoten des in der Baumschemareferenzmuster-Speichereinrichtung gespeicherten Baumschemareferenzmusters unter Verwendung der Entsprechung, die durch die Musterangleichung mittels der Musterangleichungseinrichtung erhalten wird; eine Knotenauswahleinrichtung (6) zum Auswählen eines Knotens für die Anpassung in Übereinstimmung mit der durch die Datenmengen-Schätzeinrichtung berechneten Anzahl von Eingangsabtastwerten; eine Anpassungsparameter-Erzeugungseinrichtung (7) zum Berechnen eines Anpassungsparameters in einem durch die Knotenauswahleinrichtung ausgewählten Knoten; und eine Referenzmustererzeugungseinrichtung (8) zum Erzeugen eines angepaßten Referenzmusters unter Verwendung des durch die Anpassungsparameter-Erzeugungseinrichtung erzeugten Anpassungsparameters und durch Aktualisieren des Referenzmusters.
Musteranpassungssystem, das ein Baumschema verwendet, nach Anspruch 1, bei dem die Musterangleichungseinrichtung eine wahrscheinlichkeitsbasierte Angleichung ausführt und die Datenstatistik-Schätzeinrichtung eine erwartete Eingangsabtastwert-Anzahl berechnet, wobei statt der Eingangsabtastwert-Anzahl die erwartete Eingangsabtastwert-Anzahl verwendet wird.
Musteranpassungssystem, das ein Baumschema verwendet, nach einem der Ansprüche 1 oder 2, bei der als das verwendete Eingangsmuster eine Zeitreihe aus Merkmalsvektoren verwendet wird, die durch Analyse der Eingangssprache erhalten werden.
Musteranpassungssystem, das ein Baumschema verwendet, nach Anspruch 3, bei dem ein Hidden-Markow-Modell, in dem die Ausgangswahrscheinlichkeitsverteilung eine gemischte Gauß-Verteilung ist, als das Referenzmuster verwendet wird.
Musteranpassungssystem mit einem Baumschema nach Anspruch 4, bei dem das Baumschemareferenzmuster ein Baumschemareferenzmuster ist, das durch Berücksichtigung von Ausgangswahrscheinlichkeitsverteilungs-Mittelwertvektoren in einzelnen Stufen des Hidden-Marckow-Modells erzeugt wird.
Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Baumschema auf Sprachklangähnlichkeiten in der Sprachklangtheorie basiert.
Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Baumschema auf einem wahrscheinlichkeitsbasierten Baumschema basiert, indem die Grade, in denen Unterknoten zu Elternknoten gehören, durch reelle Zahlen von 0 bis 1 dargestellt sind, und die Summe der Grade, in denen ein Unterknoten zu mehreren Hauptknoten gehört, gleich 1 ist.
Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Referenzmuster aktualisiert wird, nachdem eine die gesamte eingegebene Sprache betreffende Operation beendet worden ist.
Musteranpassungssystem mit einem Baumschema nach Anspruch 1, bei dem das Referenzmuster bei jeder Eingabe von Eingangssprache aktualisiert wird.
Musteranpassungsverfahren, das ein Baumschema verwendet, um ein Referenzmuster, das durch mehrere verschiedene Kategorien gebildet ist, auf der Grundlage eines Eingangsmusters, das ein Aggregat aus Eingangsabtastwerten ist, anzupassen, wobei das Verfahren die folgenden Schritte umfaßt: Angleichen der Kategorien eines gespeicherten Referenzmusters und eines Eingangsmusters, Berechnen der Anzahl von Eingangsabtastwerten in jedem Knoten eines Baumschemareferenzmusters, das im voraus als ein Referenzmuster gespeichert worden ist, das in einem Baumschema unter Verwendung der durch den Anpassungsschritt erhaltenen Entsprechung gegeben ist, Auswählen eines Knotens, der für die Anpassung verwendet wird, in Übereinstimmung mit der berechneten Anzahl von Eingangsabtastwerten, Berechnen eines Anpassungsparameters in dem ausgewählten Knoten und Erzeugen eines angepaßten Referenzmusters unter Verwendung des berechneten Anpassungsparameters.