DE19755191A1

DE19755191A1 - Determining model-specific factors for assigning classes to test data in speech recognition

Info

Publication number: DE19755191A1
Application number: DE1997155191
Authority: DE
Inventors: Peter Beyerlein
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1997-12-12
Filing date: 1997-12-12
Publication date: 1999-06-17

Abstract

The method uses a probability model to evaluate test data and assign them in different classes. Probability values of different models for the same class assignment are evaluated with model-specific factors and combined to form a total probability value. The model-specific factors are determined such that the total probability of assigning the training data to particular classes is a minimum compared to other classes, and erroneous classification of the training data is minimized.

Description

Die Erfindung betrifft ein Verfahren zum Bestimmen modellspezifischer Faktoren zur Kombination verschiedener Modelle bei der Mustererkennung, insbesondere bei der Spracherkennung.The invention relates to a method for determining model-specific factors for the combination different models in pattern recognition, especially in speech recognition.

Die statistische Spracherkennungsmethode bedient sich der Bayesschen Entscheidungstheorie, um Erkenner mit minimaler Fehlerrate zu konstruieren [1]. Entsprechend dieser Theorie muß eine Beobachtung x in die Klasse k eingeordnet werden (kurz x ∈ k,) wenn bei gegebener a-posteriori Verteilung π(k|x) gilt:
The statistical speech recognition method uses Bayesian decision theory to construct recognizers with a minimal error rate [1]. According to this theory, an observation x must be classified in the class k (short x ∈ k,) if π (k | x) applies for a given posterior distribution:

Der Term log(π(k|x)/π(k'|x)) wird in der Literatur [1] als Diskriminantenfunktion bezeichnet.The term log (π (k | x) / π (k '| x)) is referred to in the literature [1] as a discriminant function.

Im folgenden wird dafür g(x,k,k') verwendet.In the following, g (x, k, k ') is used for this.

Projiziert man die Entscheidungsregel (1) auf die Erkennung ganzer Sätze, so werden beobachtete Äußerungen x T|1 = (x¹, . . ., x^T) der zeitlichen Länge T in gesprochenen Wortfolgen w S|1 = (w¹, . . ., w^S) der Länge S klassifiziert. Die a-posteriori Verteilung π(w S|1|x T|1) ist jedoch unbekannt, denn sie beschreibt den komplexen natürlichen Sprachkommunikationsprozeß des Menschen. Die muß folglich durch eine Verteilung p(w S|1|x T|1) approximiert werden. Als leistungsfähigste Approximationsmethode hat sich bisher die akustisch-phonetische und grammatikalische Modellierung der Sprache in Form von parametrischen Wahrscheinlichkeitsverteilungen erwiesen. Dabei ist die Form der Verteilung p(w S|1|x T|1) vorgegeben, die unbekannten Parameter der Verteilung werden auf Trainingsdaten geschätzt. Die gewonnene Verteilung p(w S|1|x T|1) wird anschließend in die Bayessche Entscheidungsregel eingesetzt. Die Äußerung x T|1 wird dann derjenigen Wortfolge w S|1 zugeordnet, für die gilt:
If the decision rule (1) is projected onto the recognition of entire sentences, observed utterances x T | 1 = (x 1,..., X ^T ) of the length of time T in spoken word sequences w S | 1 = (w 1,... , w ^S ) of length S classified. However, the a-posteriori distribution π (w S | 1 | x T | 1) is unknown, because it describes the complex natural speech communication process of humans. It must therefore be approximated by a distribution p (w S | 1 | x T | 1). So far, acoustic, phonetic and grammatical modeling of language in the form of parametric probability distributions has proven to be the most powerful approximation method. The form of the distribution p (w S | 1 | x T | 1) is predetermined, the unknown parameters of the distribution are estimated on training data. The distribution p (w S | 1 | x T | 1) obtained is then used in the Bayesian decision rule. The utterance x T | 1 is then assigned to the word sequence w S | 1 for which the following applies:

Durch Umformen der Diskriminantenfunktion
By reshaping the discriminant function

erhält man in natürlicher Weise die Trennung zwischen dem grammatischen Modell (p(w S|1) und dem akustisch-phonetischen Modell p(x T|1w S|1). Das grammatische Modell p(w S|1) beschreibt dabei die Wahrscheinlichkeit für das Auftreten der Wortfolge w S|1 an sich, das akustisch-phonetische Modell p(x T|1|w S|1) bewertet die Wahrscheinlichkeit, daß beim Sprechen der Wortfolge w S|1 das akustische Signal x T|1 entsteht. Beide Modelle können nun separat geschätzt werden, wodurch die begrenzte Trainingsdatenmenge optimal ausgenutzt werden kann. Durch eine Abweichung der Form der Verteilung p von der unbekannten Verteilung π kann die Entscheidungsregel (3) suboptimal sein, obwohl die Verteilung p optimal geschäzt wurde. Dieser Umstand motiviert die Verwendung diskriminativer Verfahren. Diskriminative Verfahren optimieren die Verteilung p direkt bezüglich der empirischen auf Trainingsdaten gemessenen Fehlerrate der Entscheidungsregel. Das einfachste Beispiel für eine solche diskriminative Optimierung ist die Verwendung des sogenannten Sprachmodellfaktors λ. Dabei wird (3) wie folgt modifiziert:
the separation between the grammatical model (p (w S | 1) and the acoustic-phonetic model p (x T | 1w S | 1) is obtained in a natural way. The grammatical model p (w S | 1) describes the probability for the occurrence of the word sequence w S | 1 per se, the acoustic-phonetic model p (x T | 1 | w S | 1) evaluates the probability that the acoustic signal x T | 1 arises when the word sequence w S | 1 is said Both models can now be estimated separately, so that the limited amount of training data can be used optimally. By deviating the shape of the distribution p from the unknown distribution π, the decision rule (3) can be suboptimal, although the distribution p was estimated optimally motivates the use of discriminative methods. Discriminative methods optimize the distribution p directly with respect to the empirical error rate of the decision rule measured on training data. The simplest example of such a discriminatory tive optimization is the use of the so-called language model factor λ. (3) is modified as follows:

Experimentelle Erfahrungen zeigen, daß die Fehlerrate der Entscheidungsregel (4) sinkt, wenn λ < 1 gewählt wird. Die Ursache für diese Abweichung von der Theorie (d. h. λ = 1) liegt offensichtlich in der unvollständigen oder fehlerhaften Modellierung der Wahrscheinlichkeit des Verbundereignisses (w S|1, x T|1). Letzteres ist unvermeidbar, da das Wissen über den generierenden Prozeß des Ereignisses (w S|1, x T|1) zu unvollständig ist.Experimental experience shows that the error rate of decision rule (4) decreases if λ <1 is chosen. The reason for this deviation from theory (i.e. λ = 1) obviously lies in the incomplete or incorrect modeling of the probability of the compound event (w S | 1, x T | 1). The latter is inevitable because knowledge about the generating process of the event (w S | 1, x T | 1) increases is incomplete.

Vielfältige akustisch-phonetische und grammatische Modellierungen der Sprache wurden bisher analysiert. Ziel dieser Analysen war es, die "beste" Modellierung für die jeweilige Erkennungsaufgabe zu finden. Alle so ermittelten Modelle geben jedoch die reale Wahrscheinlichkeitsverteilung nur unvollkommen wieder, so daß bei der Anwendung dieser Modelle in der Mustererkennung, insbesondere in der Spracherkennung, fehlerhafte Erkennungen im Sinne fehlerhafter Zuordnungen zu Klassen auftreten.A variety of acoustic-phonetic and grammatical models of the language have been analyzed so far. The aim of these analyzes was to find the "best" model for the respective recognition task. However, all models determined in this way only give an incomplete representation of the real probability distribution, so that when using these models in pattern recognition, especially in speech recognition, erroneous detections in the sense of incorrect assignments to classes occur.

Aufgabe der Erfindung ist es, eine Modellierung insbesondere der Sprache anzugeben, die der realen Wahrscheinlichkeitsverteilung möglichst nahe kommt und dennoch mit begrenztem Verarbeitungsaufwand anwendbar ist.The object of the invention is to provide a modeling, in particular of the language, that of the real one Probability distribution comes as close as possible and yet with limited processing effort is applicable.

Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1 angegebenen Merkmale gelöst.This object is achieved by the features specified in claim 1.

Das Neue an diesem Ansatz ist, daß nicht versucht wird, die bekannten Eigenschaften der Sprache in ein einziges akustisch-phonetisches Verteilungsmodell und ein einziges grammatisches Verteilungsmodell zu integrieren, die dann komplex und schwer trainierbar werden. Die verschiedenen akustisch-phonetischen und grammatischen Eigenschaften werden nun in Form der Verteilungen p_j(w S|1|x T|1), j = 1, . . ., M) separat modelliert, trainiert und anschließend in eine Verteilung
What is new about this approach is that no attempt is made to integrate the known properties of language into a single acoustic-phonetic distribution model and a single grammatical distribution model, which then become complex and difficult to train. The various acoustic-phonetic and grammatical properties are now in the form of the distributions p _j (w S | 1 | x T | 1), j = 1,. . ., M) modeled separately, trained and then in a distribution

integriert. Der Einfluß des Modells p_j auf die Verteilung p^Π _{Λ} wird durch den Koeffizienten λ_j bestimmt.integrated. The influence of the model p _j on the distribution p ^Π _{Λ} is determined by the coefficient λ _j .

Der Faktor C(Λ) garantiert dabei die Erfüllung der Normierungsbedingung für Wahrscheinlichkeiten. Die freien Koeffizienten Λ = (λ₁, . . ., λ_M)^tr müssen dabei so eingestellt werden, daß die resultierende Diskriminantenfunktion
The factor C (Λ) guarantees the fulfillment of the normalization condition for probabilities. The free coefficients Λ = (λ₁,..., Λ _M ) ^tr must be set so that the resulting discriminant function

eine möglichst geringe Fehlerrate besitzt.has the lowest possible error rate.

Dies ist der Kerngedanke der vorliegenden Erfindung.This is the essence of the present invention.

Für die Verwirklichung dieses Kerngedankens bestehen verschiedene Möglichkeiten, von denen nachfolgend einige näher erläutert werden.There are various options for realizing this core idea, of which the following some are explained in more detail.

Zunächst werden einige Begriffe, von denen einige bereits verwendet wurden, zusammenfassend eindeutig definiert.
First, some terms, some of which have already been used, are clearly defined in summary.

⚫ Jede Wortfolge w S|1 ist eine Klasse k, die Länge S kann dabei von Klasse zu Klasse variieren.⚫ Each word sequence w S | 1 is a class k, the length S can vary from class to class.
⚫ Die Äußerung x T|1 wird als Beobachtung x aufgefaßt, die Länge T kann dabei von Beobachtung zu Beobachtung verschieden sein.⚫ The expression x T | 1 is interpreted as observation x, the length T can vary from observation Observation may be different.
⚫ Trainingsdaten werden mit (x_n, k_nr), n = 1, . . ., N, r = 0, . . ., K bezeichnet, dabei ist N die Anzahl der akustischen Trainingsbeobachtungen x_n, k_n0 ist die zur Beobachtung x_n zugehörige korrekte Klasse, und k_nr, r = 1, . . ., K seien die K verschiedenen zu k_n0 rivalisierenden fehlerhaften Klassen.⚫ Training data are with (x _n , k _nr ), n = 1,. . ., N, r = 0,. . ., K, where N is the number of training acoustic observations x _n, k _n0 is the observation x _n corresponding correct class, and k _nr, r = 1,. . ., K are the K different faulty classes to _be rivaled.

Es wird die Klassifikation der Beobachtung x in die Klasse k entsprechend der Bayesschen Entscheidungsregel (1) betrachtet. Die Beobachtung x ist dabei eine akustische Realisierung der Klasse k. Die nachfolgende Erläuterung bezieht sich im wesentlichen auf die Spracherkennung, so daß die Klasse k immer eine Wortfolge symbolisiert. It classifies the observation x into the class k according to the Bayesian decision rule (1) considered. The observation x is an acoustic realization of the class k. The following Explanation essentially refers to speech recognition, so that class k is always a word sequence symbolizes.

Da die Klasse k_n0, die die Trainingsbeobachtung x_n emittiert hat, bekannt ist, kann auf den Trainingsdaten (x_n, k_nr), n = 1, . . ., N, r = 0, . . ., K eine ideale empirische Verteilung (k|x) konstruiert werden. Von dieser Verteilung wird gefordert, daß die aus ihr gebildete Entscheidungsregel auf den Trainingsdaten eine minimale Fehlerrate besitzt. Bei der Klassifikation von ganzen Wortfolgen k, kann ein Klassifikationsfehler (Wahl der falschen Wortfolge k' ≠ k) zu mehreren Wortfehlern führen. Die Anzahl der Wortfehler zwischen der inkorrekten Klasse k' und der korrekten Klasse k wird dabei als Levenshtein-Distanz L (k', k) bezeichnet. Die aus der Verteilung (k|x) gebildete Entscheidungsregel besitzt eine minimale Wortfehlerrate, wenn folgende Monotonieeigenschaft erfüllt ist:
Since the class k _n0 , which the training _observation x _n emitted, is known, the training _data (x _n , k _nr ), n = 1 _,. . ., N, r = 0,. . ., K an ideal empirical distribution (k | x) can be constructed. This distribution requires that the decision rule formed from it have a minimal error rate on the training data. When classifying whole word sequences k, one classification error (choice of the wrong word sequence k '≠ k) can lead to several word errors. The number of word errors between the incorrect class k 'and the correct class k is referred to as the Levenshtein distance L (k', k). The decision rule formed from the distribution (k | x) has a minimum word error rate if the following monotony property is fulfilled:

(k_nr|x_n) < (k_nr'|x_n) ⇔ L(k_nr, k_n0) < L(k_nr', k_n0). (7)(k _nr | x _n ) <(k _{nr '} | x _n ) ⇔ L (k _nr , k _n0 ) <L (k _nr' , k _n0 ). (7)

Unter allen möglichen Verteilungen mit dieser Eigenschaft wird für die nachfolgende Erläuterung die folgende gewählt:
From all possible distributions with this property, the following is chosen for the following explanation:

Wird der Wert µ in (8) sehr groß gewählt, dann geht die Verteilung (k_nr|x_n) in die Indikatorfunktion δ(k_nr, k_n0) ∈ {0, 1} über. Letztere wird in den klassischen diskriminativen Trainingsverfahren [8], [7] als ideale empirische Verteilung für die Optimierung verwendet. Die Indikatorfunktion hat jedoch den Nachteil, daß sie bei der Bildung einer Entscheidungsregel der Form (1) zu nicht definierten logarithmischen Werten führen würde.If the value µ in (8) is chosen to be very large, then the distribution (k _nr | x _n ) changes into the indicator function δ (k _nr , k _n0 ) ∈ {0, 1}. The latter is used in the classic discriminative training methods [8], [7] as an ideal empirical distribution for optimization. However, the indicator function has the disadvantage that it would lead to undefined logarithmic values if a decision rule of the form (1) were formed.

Die ideale empirische Verteilung liefert zwar einen optimalen Klassifikator auf den vorgegebenen Trainingsdaten, ist jedoch auf unbekannten Testdaten nicht definiert, da hier die korrekte Klassenzuordnung nicht gegeben ist. Deswegen wird mit ihrer Hilfe eine Verteilung
The ideal empirical distribution provides an optimal classifier on the given training data, but is not defined on unknown test data, since the correct class assignment is not given here. Therefore, with their help, it becomes a distribution

gesucht, die auf beliebigen unabhängigen Testdaten definiert ist, und die eine möglichst geringe empirische Fehlerrate auf den Trainingsdaten besitzt. Sind die M vorgegebenen Verteilungsmodelle p₁ (k|x), . . ., p_M (k|z) auf beliebigen Testdaten definiert, so gilt das auch für die Verteilung p^Π _{Λ}(k|x). Werden die frei wählbaren Koeffizienten Λ = (λ₁, . . ., λ_M)^tr so bestimmt, daß p^Π _{Λ} (k|x) auf den Trainingsdaten eine minimale Fehlerrate besitzt, und sind die Trainingsdaten repräsentativ, so sollte p^Π _{Λ}(k|x) auch auf unabhängigen Testdaten eine optimale Entscheidungsregel liefern.sought, which is defined on any independent test data and which has the lowest possible empirical error rate on the training data. Are the M given distribution models p ₁ (k | x),. . ., p _M (k | z) defined on any test data, this also applies to the distribution p ^Π _{Λ} (k | x). If the freely selectable coefficients Λ = (λ₁,..., Λ _M ) ^tr are determined such that p ^Π _{Λ} (k | x) has a minimal error rate on the training data, and if the training data are representative, then p ^Π _{Λ} (k | x) also provide an optimal decision rule on independent test data.

Um die empirische Fehlerrate dieser Verteilung auf den Trainingsdaten tatsächlich zu minimieren, werden zwei diskriminative Methoden betrachtet:
In order to actually minimize the empirical error rate of this distribution on the training data, two discriminative methods are considered:

⚫ die bekannte GPD-Methode ("Generalized Probabilistic Descent" [8] zur direkten Minimierung der geglätteten empirischen Fehlerrate der Verteilung p^Π _{Λ}(k|x) auf den Trainingsdaten. Diese Methode optimiert iterativ die freien Parameter einer Verteilung bezüglich eines differenzierbaren Fehlerratenmaßes. Bekannte the well-known GPD method ("Generalized Probabilistic Descent" [8] for direct minimization of the smoothed empirical error rate of the distribution p ^Π _{Λ} (k | x) on the training data. This method iteratively optimizes the free parameters of a distribution with respect to a differentiable one Error rate measure.
⚫ eine neue Quadratmittelmethode (Minimierung des mittleren quadratischen Abstandes der Diskriminantenfunktionen der Verteilungen p^Π _{Λ}(k|x) und (k|x)). Da (k|x) per Definition eine minimale empirische Fehlerrate besitzt und da die Diskriminantenfunktion über die Klassenzuordnung entscheidet, muß durch diese Methode die empirische Fehlerrate von p^Π _{Λ}(k|x) auf den Trainingsdaten sinken.⚫ a new square mean method (minimization of the mean square distance of the discriminant functions of the distributions p ^Π _{Λ} (k | x) and (k | x)). Since (k | x) by definition has a minimal empirical error rate and since the discriminant function decides on the class assignment, the empirical error rate of p ^Π _{Λ} (k | x) on the training data must decrease by this method.

Sowohl die GPD-Methode als auch die Quadratmittelmethode optimieren ein Kriterium, welches die mittlere Fehlerrate des Klassifikators approximiert. Die Quadratmittelmethode hat jedoch gegenüber der GPD-Methode den Vorteil, daß sie zu einer geschlossenen Lösung für die optimalen Koeffizienten Λ führt. Both the GPD method and the square mean method optimize a criterion that the average error rate of the classifier approximated. However, the square mean method has over the GPD method has the advantage that it leads to a closed solution for the optimal coefficients Λ.

Zunächst wird die Quadratmittelmethode betrachtet.First, the square mean method is considered.

Da die Diskriminantenfunktion (1) die Güte des Klassifikators bestimmt, sollen die Koeffizienten Λ die mittlere quadratische Abweichung
Since the discriminant function (1) determines the quality of the classifier, the coefficients Λ are the mean square deviation

der Diskriminantenfunktionen der Verteilungen p^Π _{Λ}(k|x) und der empirischen idealen Verteilung (k|x) minimieren.¹ Die Summation über r bezieht dabei alle rivalisierenden Klassen in das Kriterium ein. D. h. die Verteilung p^Π _{Λ} wird so bestimmt, daß sie auf den Trainingsdaten (x_n, k_nr) ein möglichst gleiches log-likelihood Verhältnis zwischen korrekter und fehlerhafter Hypothese besitzt, wie die Verteilung . Die Minimierung von D(Λ) führt zu folgender geschlossenen Lösung für den optimalen Koeffizientenvektor Λ.
minimize the discriminant functions of the distributions p ^Π _{Λ} (k | x) and the empirical ideal distribution (k | x) .¹ The summation over r includes all rival classes in the criterion. That is, The distribution p ^Π _{Λ} is determined in such a way that on the training data (x _n , k _nr ) it has the same log-likelihood ratio between correct and incorrect hypothesis as the distribution. The minimization of D (Λ) leads to the following closed solution for the optimal coefficient vector Λ.

Λ = Q^-1P, (11)
Λ = Q ^-1 P, (11)

mit
With

und
and

Man beachte, daß Q die Autokorrelationsmatrix der Diskriminantenfunktionen der vorgegebenen Verteilungsmodelle ist. Der Vektor P beinhaltet den Zusammenhang zwischen den Diskriminantenfunktionen der vorgegebenen Modelle und der Diskriminantenfunktion der Verteilung .Note that Q is the autocorrelation matrix of the discriminant functions of the given distribution models is. The vector P contains the relationship between the discriminant functions the predefined models and the discriminant function of the distribution.

Einsetzen von (8) liefert letztendlich auf den Trainingsdaten:
Inserting (8) ultimately yields on the training data:

Damit geht die Wortfehlerrate L(k_nr, k_n0) der Hypothesen k_nr, r = 1, . . ., K linear in die Koeffizienten λ₁, . . ., λ_M ein. Umgekehrt geht auch die Diskriminationsfähigkeit des Verteilungsmodelles p_i über die Diskriminatenfunktion
The word error rate L (k _nr , k _n0 ) of the hypotheses k _nr , r = 1 _,. . ., K linear in the coefficients λ ₁ ,. . ., λ _M a. Conversely, the ability of the distribution model p _i to discriminate goes beyond the discriminate function

linear in die Koeffizienten λ₁, . . ., λ_M ein.linear in the coefficients λ ₁ ,. . ., λ _M a.

Auf diese Weise können die Koeffizienten direkt bestimmt werden.In this way, the coefficients can be determined directly.

Eine andere Möglichkeit, diese Koeffizienten zu bestimmen, besteht in der Verwendung der GPD-Methode. Mit der GPD-Methode [8] kann man die geglättete empirische Fehlerrate L(Λ):
Another way to determine these coefficients is to use the GPD method. With the GPD method [8], the smoothed empirical error rate L (Λ) can be:

auf den Trainingsdaten direkt minimieren. ℓ(x_n, k_n0, Λ) ist dabei ein geglättetes Maß für das Fehlklassifikationsrisiko der Beobachtung x_n. Die Werte A < 0, B < 0, η < 0 bestimmen die Art der Glättung des Fehlklassifikationsrisikos und müssen geeignet vorgegeben werden.minimize directly on the training data. ℓ (x _n , k _n0 , Λ) is a smoothed measure for the misclassification risk of observation x _n . The values A <0, B <0, η <0 determine the type of smoothing of the misclassification risk and must be specified appropriately.

Wird L(Λ) bezüglich der Koeffizienten Λ der log-linearen Kombination minimiert, so ergibt sich für die Koeffizienten λ_j, j = 1, . . ., M folgende Iterationsgleichung mit der Schrittweite ε:
If L (Λ) is minimized with respect to the coefficients Λ of the log-linear combination, then the coefficients λ _j , j = 1,. . ., M the following iteration equation with the step size ε:

Man beachte, daß der Koeffizientenvektor Λ mittels der Diskriminantenfunktion
Note that the coefficient vector Λ by means of the discriminant function

in das Kriterium L(Λ) eingeht. Sinkt L(Λ), so muß die Diskriminantenfunktion (17) wegen (14) und (15) im Mittel wachsen. Das führt zu einer optimaleren Entscheidungsregel (vgl. (1)).enters criterion L (Λ). If L (Λ) drops, then the discriminant function (17) due to (14) and (15) grow on average. This leads to a more optimal decision rule (cf. (1)).

Eine weitere Möglichkeit zur Ermittlung der Koeffizienten besteht in der Anwendung der GIS-Methode. Bei den vorher beschriebenen Verfahren wurden die optimalen Koeffizienten Λ der a-posteriorie Verteilung p^Π _{Λ}(k|x) gesucht. Die analoge log-lineare Verbundverteilung ist dann
Another way to determine the coefficients is to use the GIS method. In the previously described methods, the optimal coefficients Λ of the a-posterior distribution p ^Π _{Λ} (k | x) were sought. The analog log-linear distribution is then

Man beachte, daß mit (9) und (18) immer gilt:
Note that with (9) and (18) the following always applies:

Im kontinuierlichen aber beschränkten Raum der Beobachtungen x wird nun eine Vektorquantisierung durchgeführt. Dabei wird jeder Trainingsbeobachtung x_n eine sie umgebende Punktmenge B_n mit dem Volumen V_n zugewiesen. Durch die Vektorquantisierung können die Koeffizienten der kontinuierlichen Verteilung p^Π _{Λ}(k, x) durch die Koeffizienten Λ der diskreten Verteilung p^Π _{Λ} (k_nr, x_n) mit
In the continuous but limited space of the observations x, vector quantization is now carried out. Each training observation x _{n is assigned} a surrounding point set B _n with the volume V _n . The vector quantization enables the coefficients of the continuous distribution p ^Π _{Λ} (k, x) to be replaced by the coefficients Λ of the discrete distribution p ^Π _{Λ} (k _nr , x _n )

approximiert werden. Mit Hilfe der GIS-Methode werden nun die Koeffizienten Λ der diskreten Verteilung p^Π _{Λ} (k_nr, x_n) auf den Trainingsdaten (x_n, k_nr), n = 1, . . ., N, r = 0, . . ., K optimiert. Dabei soll durch das GIS-Verfahren die folgende Nebenbedingung erfüllt werden:
be approximated. Using the GIS method, the coefficients Λ of the discrete distribution p ^Π _{Λ} (k _nr , x _n ) on the training data (x _n , k _nr ), n = 1 _,. . ., N, r = 0,. . ., K optimized. The GIS procedure is intended to meet the following constraint:

wobei h(k_nr, x_n) die relative Häufigkeit des Ereignisses (k_nr, x_n) auf den Trainingsdaten ist. Da es auf den Trainingsdaten zu jedem Merkmal x_n nur eine korrekte Wortfolge k_n0 geben kann, gilt für die relative Häufigkeit h(k_nr, x_n):
where h (k _nr , x _n ) is the relative frequency of the event (k _nr , x _n ) on the training data. Since there can only be one correct word sequence k _n0 on the training _data for each characteristic x _n , the following applies to the relative frequency h (k _nr , x _n ):

Um die Funktion h(k_nr, x_n) zu glätten, kann man auch
To smooth the function h (k _nr , x _n ), you can also

mit (k_nr|x_n) aus (8) ansetzen.start with (k _nr | x _n ) from (8).

Die Iterationsgleichungen für die Wahrscheinlichkeit p^Π _{Λ} (k_nr, x_n) lauten:
The iteration equations for the probability p ^Π _{Λ} (k _nr , x _n ) are:

mit
With

Im Ergebnis der Iterationen entstehen die Verbundwahrscheinlichkeiten p^Π _{Λ} (k_nr, x_n) ^(*). Mit diesen Wahrscheinlichkeiten und (20) ergibt sich folgendes lineares Gleichungssystem für die Koeffizienten λ_j:
The result of the iterations results in the union probabilities p ^Π _{Λ} (k _nr , x _n ) ^(*) . With these probabilities and (20), the following linear system of equations results for the coefficients λ _j :

Dieses Gleichungssystem besitzt nur M unabhängige Gleichungen, da laut dem GIS-Theorem [5] alle Verbundwahrscheinlichkeiten p^Π _{Λ} (k_nr, x_n)^(*), n = 1, . . ., N, r = 0, . . ., K der Verteilungsform (20) genügen. Damit erhält man eine eindeutige Lösung für die M Koeffizienten λ_j, j = 1, . . ., M.This system of equations has only M independent equations, since according to the GIS theorem [5] all association probabilities p ^Π _{Λ} (k _nr , x _n ) ^(*) , n = 1,. . ., N, r = 0,. . ., K of the distribution form (20) are sufficient. This gives a clear solution for the M coefficients λ _j , j = 1,. . ., M.

Claims

1. Verfahren zum Bestimmen modellspezifischer Faktoren für die Zuordnung zugeführter Testdaten zu aus einer Trainingsdatenfolge bestimmten Klassen unter Verwendung mehrerer ebenfalls aus der Trainingsdatenfolge ermittelten Wahrscheinlichkeitsmodelle, mit denen die Testdaten bewertet werden, um Wahrscheinlichkeitswerte für die Zuordnung derselben Testdaten zu verschiedenen Klassen zu bestimmen, und die Wahrscheinlichkeitswerte verschiedener Modelle für dieselbe Klassenzuordnung mit den modellspezifischen Faktoren bewertet zu einem Gesamt-Wahrscheinlichkeitswert kombiniert werden, wobei die modellspezifischen Faktoren so bestimmt werden, daß die Gesamt-Wahrscheinlichkeit der Zuordnung der Trainingsdaten zu bestimmten Klassen ein Minimum gegenüber der Zuordnung der gleichen Trainingsdaten zu anderen Klassen erreicht und die Fehlklassifikation der Trainingsdaten minimiert ist.1. Procedure for determining model-specific factors for the assignment of supplied test data to a training data sequence certain classes using several also from the Training data sequence determined probability models with which the test data are evaluated in order Determine probability values for assigning the same test data to different classes, and the probability values of different models for the same class assignment with the model-specific factors are combined to form an overall probability value, where the model-specific factors are determined so that the overall probability of the assignment of Training data for certain classes is a minimum compared to the assignment of the same training data to other classes and the misclassification of training data is minimized.

2. Verfahren nach Anspruch 1, wobei iterativ Zwischenschritt-Faktoren gebildet werden und bei jedem Iterationsschritt die Zwischenschritt-Faktoren für alle Modelle um einen vom Verhältnis des Wahrscheinlichkeitswertes jedes Trainingsdatums für die Zuordnung zur korrekten Klasse zu den Wahrscheinlichkeitswerten für die Zuordnung zu allen anderen Klassen abhängigen Wert, getrennt für jedes Modell, verändert wird.2. The method according to claim 1, wherein iterative intermediate step factors are formed and for each Iteration step the intermediate step factors for all models by one from the ratio of Probability value of each training date for the assignment to the correct class to the Probability values for the assignment to all other classes dependent value, separated for each Model being changed.

3. Verfahren nach Anspruch 1, wobei für jeden modellspezifischen Faktor die normierte Summe über alle Klassen und alle Trainingsdaten des Verhältnisses der Wahrscheinlichkeit der Zuordnung jedes Trainingsdatums zu der korrekten Klasse zur Wahrscheinlichkeit der Zuordnung dieses Trainingsdatums zu allen anderen Klassen, multipliziert mit einer die Wortfehlerrate angebenden Funktion, gebildet wird.3. The method of claim 1, wherein for each model-specific factor, the normalized sum over all Classes and all training data of the ratio of the probability of assigning each Training date to the correct class for the probability of assigning this training date all other classes multiplied by a function indicating the word error rate.