WO1998034177A2

WO1998034177A2 - Method for combining output signals of several estimators, in particular of at least one neural network, into a results signal determined by a global estimator

Info

Publication number: WO1998034177A2
Application number: PCT/DE1998/000267
Authority: WO
Inventors: Michiaki Taniguchi; Volker Tresp
Original assignee: Siemens Aktiengesellschaft
Priority date: 1997-01-31
Filing date: 1998-01-29
Publication date: 1998-08-06
Also published as: WO1998034177A3

Abstract

Output signals of individual, computer-assisted statistical estimators (neural networks) are combined into a results signal in a global estimator. To this end, the individual estimators are trained selectively by means of bootstrap data and the weightings of the individual estimators effected in a regularized manner as a contribution to the results signals. Weighting is carried out selectively with '1' or according to the variance of the individual estimator concerned. As a result, significantly better results are achieved for the prediction of numerical values, especially if the amount of training data available is small. Said method can be used for modelling, prognosis and classification by means of neural networks.

Description

Beschreibungdescription

Verfahren zur Kombination von Ausgangssignalen mehrerer Schätzer, insbesondere von mindestens einem neuronalen Netz, zu einem von einem Gesamtschätzer ermittelten ErgebnissignalMethod for combining output signals of several estimators, in particular of at least one neural network, to form a result signal determined by an overall estimator

Die Erfindung betrifft ein Verfahren zur Kombination von Ausgangssignalen mehrerer Schätzer, insbesondere von mindestens einem neuronalen Netz, zu einem von einem Gesamtschätzer ermittelten Ergebnissignal.The invention relates to a method for combining output signals from several estimators, in particular from at least one neural network, to form a result signal determined by an overall estimator.

Bei neuronalen Netzen und anderen rechnergestützten Schätzern, die auf statistischen Verfahren beruhen, ist es zweckmäßig, wenn ein Problem einer Zuordnung von Eingangssignalen zu Ausgangssignalen in eine reduzierte Menge von Zuordnungen aufgeteilt wird.In neural networks and other computer-aided estimators, which are based on statistical methods, it is expedient if a problem of assigning input signals to output signals is divided into a reduced set of assignments.

Es ist bekannt, einen rechnergestützten statistischen Schätzer, also beispielsweise ein neuronales Netz, in mehrere kleinere rechnergestützte statistische Schätzer aufzuteilen und Ausgangssignale dieser vereinfachten Schätzer zu gewichten und in einem Gesamtschätzer zu einem Ergebnissignal zu akkumulieren [1].It is known to divide a computer-aided statistical estimator, for example a neural network, into several smaller computer-aided statistical estimators and to weight the output signals of these simplified estimators and to accumulate them into a result signal in a total estimator [1].

Um die Ergebnisse bei der Akkumulierung zu verbessern ist aus [2] bekannt, die Ausgangssignale aller Module, also aller einzelnen Schätzer, zu mittein, und somit das von einem Gesamtschätzer ermittelte Ergebnissignal zu verbessern.In order to improve the results of the accumulation, it is known from [2] to center the output signals of all modules, that is to say all the individual estimators, and thus to improve the result signal determined by an overall estimator.

Hierbei sei angemerkt, daß sich der Begriff des statistischen Schätzers nicht ausschließlich auf künstliche neuronale Netze beschränkt, sondern jedwede Art rechnergestützter Schätzer umfaßt, die auf statistischen Verfahren basieren. Eine Übersicht über rechnergestützte Schätzer, die auf statistischen Verfahren basieren ist in [3] gegeben. Eine Regularisation ist aus [6] bekannt. Insbesondere wird darunter das Hinzufügen eines Terms zu einer Fehlerfunktion verstanden. Ein Regularisationsparameter bestimmt dabei das Gewicht des Terms zur Regularisation.It should be noted here that the term statistical estimator is not limited exclusively to artificial neural networks, but rather encompasses any type of computer-aided estimator based on statistical methods. An overview of computer-based estimators based on statistical methods is given in [3]. A regularization is known from [6]. In particular, this means adding a term to an error function. A regularization parameter determines the weight of the term for regularization.

Aus [7] ist ein Verfahren zur rechnergestützten Kombination einer Vielzahl von Schätzern, die auf statistischen Verfahren beruhen, insbesondere von neuronalen Netzen, zu einem Gesamtschätzer bekannt.A method for the computer-aided combination of a large number of estimators based on statistical methods, in particular of neural networks, to form an overall estimator is known from [7].

Dem erfindungsgemäßen Verfahren liegt die Aufgabe zugrunde, bei einer kleinen Menge von Trainingsdaten ein Überlernen der statistischen Schätzer zu verhindern und somit ein von dem Gesamtschätzer ermitteltes Ergebnissignal zu verbessern.The object of the method according to the invention is to prevent the statistical estimators from being over-learned in the case of a small amount of training data and thus to improve a result signal determined by the overall estimator.

Die Aufgabe wird gemäß der Merkmale des unabhängigen Patentanspruchs gelöst.The object is achieved according to the features of the independent claim.

Insbesondere ist für die Erfindung von Bedeutung, daß bei dem Training des einzelnen Schätzers, insbesondere des neuronalen Netzes, eine Regularisation vorgenommen wird. Weiterhin werden die Ausgangssignale der einzelnen Schätzer mit je einer Gewichtsfunktion bewertet. Dabei hängt jede Gewichtsfunktion von den Daten, mit denen der jeweilige Schätzer trainiert wird, ab. Der Gesamtschätzer mittelt die Ausgangssignale aller einzelnen Schätzer zu einem Ergebnissignal. Es ist vorteilhaft, daß bei dem Training jedes einzelnen Schätzers die Kostenfunktion minimiert wird, wobei ein vorgebbarer Regularisationsparameter angibt, inwieweit die Varianz des einzelnen Schätzers verringert wird zu Lasten eines zunehmenden Einflusses von Rauschen. Werden die einzelnen Schätzer mit Bootstrapdaten trainiert, erhält man trotz großer Werte des Regularisationsparameters noch große Varianzen. Unter Bootstrapdaten versteht man Daten, die aus der Menge der Originaldaten durch ziehen mit Zurücklegen gewonnen werden. Für eine nähere Betrachtung der Bootstraptechniken kann auf [4] verwiesen werden. Eine Weiterbildung des erfindungsgemäßen Verfahrens besteht darin, die Gewichtsfunktion für alle Schätzer zu ' 1' zu setzen. Weiterhin können die einzelnen Schätzer zusätzlich mit Bootstrapdaten trainiert werden.Of particular importance for the invention is that a regularization is carried out when training the individual estimator, in particular the neural network. Furthermore, the output signals of the individual estimators are each evaluated with a weight function. Each weight function depends on the data with which the respective estimator is trained. The total estimator averages the output signals of all individual estimators to form a result signal. It is advantageous that the cost function is minimized during the training of each individual estimator, with a predeterminable regularization parameter indicating to what extent the variance of the individual estimator is reduced at the expense of an increasing influence of noise. If the individual estimators are trained with bootstrap data, large variances are obtained despite the large values of the regularization parameter. Bootstrap data is data that is obtained from the set of original data by dragging and dropping. For a closer look at bootstrap techniques, reference can be made to [4]. A further development of the method according to the invention consists in setting the weight function to '1' for all estimators. The individual estimators can also be trained with bootstrap data.

Auch kann es vorteilhaft sein, in der Gewichtsfunktion die Varianz zu berücksichtigen. Darüber hinaus können auch in diesem Fall die jeweiligen Schätzer mit Bootstrapdaten trainiert werden.It can also be advantageous to take the variance into account in the weight function. In addition, the respective estimators can also be trained with bootstrap data in this case.

Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den abhängigen Ansprüchen.Further developments of the method according to the invention result from the dependent claims.

Die Erfindung wird anhand der folgenden Figuren näher dargestellt.The invention is illustrated by the following figures.

Es zeigenShow it

Fig.l ein Blockdiagramm, das schematisch eine Anordnung darstellt, die zeigt, wie die Ausgangssignale mehrerer einzelner Schätzer zu einem Ergebnissignal in einem Gesamtschätzer zusammengeführt werden, Fig.2 ein Ablaufdiagramm, das die einzelnen Schritte des erfindungsgemäßen Verfahrens darstellt.1 shows a block diagram which schematically shows an arrangement which shows how the output signals of a plurality of individual estimators are combined to form a result signal in an overall estimator, FIG. 2 shows a flow diagram which represents the individual steps of the method according to the invention.

In Fig.l ist dargestellt, wie die Ausgangssignale der einzelnen Schätzer zu einem Ergebnissignal im Gesamtschätzer zusammengeführt werden. Im Folgenden werde angenommen, daß i=l,2,...,k eine Zellvariable für die einzelnen Schätzer ES darstellt. Jeder einzelne Schätzer ES wird durch eine vorgebbare Auswahl von Trainingsdaten x trainiert.FIG. 1 shows how the output signals of the individual estimators are combined to form a result signal in the overall estimator. In the following it is assumed that i = 1, 2, ..., k represents a cell variable for the individual estimators ES. Each individual estimator ES is trained by a predeterminable selection of training data x.

Unter einzelnen Schätzern ES werden in diesem Zusammenhang rechnergestützte statistische Schätzer verstanden, wie beispielsweise neuronale Netze oder jedwede Art anderer Schätzer, die auf statistischen Verfahren beruhen. Algorithmen zum Trainieren statistischer Schätzer sind dem Fachmann bekannt. Eine Übersicht betreffend eine Auswahl von Trainingsalgorithmen ist in [5] gegeben.In this context, individual estimators ES are understood to be computer-aided statistical estimators, such as, for example, neural networks or any type of other estimators which are based on statistical methods. Algorithms for training statistical estimators are known to the person skilled in the art. An overview of a selection of training algorithms is given in [5].

Es ist vorgesehen, daß die einzelnen Schätzer ES nicht alle mit denselben Trainingsdaten x trainiert werden, sondern sie können auch jeweils nur mit einem Teil der Trainingsdaten x trainiert werden, wie das beispielsweise bei Bootstrapdaten der Fall ist.It is provided that the individual estimators ES are not all trained with the same training data x, but they can also be trained with only part of the training data x, as is the case, for example, with bootstrap data.

Durch Gewichtsfunktionen h_ werden Ausgangssignale A_ der einzelnen Schätzer ES gewichtet, wobei die jeweilige Gewichtsfunktion a_ von den Daten, mit denen der jeweilige einzelne Schätzer ES trainiert wird, abhängt.Output signals A_ of the individual estimators ES are weighted by weight functions h_, the respective weight function a_ depending on the data with which the respective individual estimator ES is trained.

Das vom Gesamtschätzer GS ermittelte Ergebnissignale ERS liegt am Ausgang des Gesamtschätzer GS an und wird wie folgt berechnet:The result signal ERS determined by the total estimator GS is present at the output of the total estimator GS and is calculated as follows:

1 ^M ERS(x) = "TΓ-Γ Xh_i(x)f_i(x) (1), n(x)1 ^M ERS (x) = "TΓ-Γ Xh _i (x) f _i (x) (1), n (x)

M mit n(x) = ∑ h_j(x) und hi(x) > 0, Vi = 1,2, M j= lM with n (x) = ∑ h _j (x) and hi (x)> 0, Vi = 1.2, M j = l

wobei h_ (x) . eine Gewichtsfunktion für den jeweiligen Schätzer und n(x) einen Normalisierungsfaktor bezeichnen.where h_ (x). denote a weight function for the respective estimator and n (x) a normalization factor.

Jeder einzelne Schätzer ES wird regularisiert trainiert, um die KostenfunktionEvery single estimator ES is trained regularly to perform the cost function

zu minimieren, wobei i=l, 2, .. ,M den jeweiligen Schätzer,

to minimize, where i = 1, 2, .., M the respective estimator,

K ςz L eine Menge von K Trainingsdaten aus einer Menge von L Gesamttrainingsdaten, einen Ausgabewert des jeweiligen Schätzers, f ; i ( ^χ ) eine Antwort des i-ten Schätzers auf die EingabeK ςz L is a set of K training data from a set of L total training data, an output value of the respective estimator, f; i ( ^χ ) a response of the ith estimator to the input

λ > 0 einen Regularisationsparameter, J J eine Anzahl von Gewichten in dem jeweiligenλ> 0 a regularization parameter, J J a number of weights in the respective

Schätzer undEstimator and

JJ

{ Gewichte des i-ten Schätzers,{Weights of the i-th estimator,

«- . ) = 1 b< ezei .chnen«-. ) = 1 b <ezei .chnen

Die Gewichtsfunktion h-_j_ für jeweils alle Schätzer kann gesetzt werden zuThe weight function h- _j _ for all estimators can be set to

hi(x) = 1 (3)hi (x) = 1 (3)

oder zuor to

wobei var(fi(x)) die Varianz des Schätzers i für eine Eingabe x bezeichnet.where var (fi (x)) denotes the variance of the estimator i for an input x.

Es ist vorteilhaft, sowohl die nach Gleichung (3) also auch nach Gleichung (4) gewichteten einzelnen Schätzer jeweils mit Bootstrapdaten zu trainieren.It is advantageous to train both the individual estimators weighted according to equation (3) and also according to equation (4) with bootstrap data.

Anwendung des erfindungsgemäßen Verfahrens ist die Prädiktion von Zahlenfolgen. Eine Menge von vergangenen bekannten Zahlenwerten wird benutzt um einen Schätzer zu trainieren, der entsprechend dem erfindungsgemäßen Verfahren unterteilt ist in einzelne Schätzer und einen Gesamtschätzer . Das somit trainierte System aus mindestens einem rechnergestützten statistischen Schätzer ist in der Lage, mit einer bestimmten Vorhersagewahrscheinlichkeit den nächsten Wert einer Zahlenfolge vorherzusagen.Application of the method according to the invention is the prediction of sequences of numbers. A set of past known numerical values is used to train an estimator, which is divided into individual estimators and an overall estimator in accordance with the method according to the invention. So that trained system from at least one computer-aided statistical estimator is able to predict the next value of a sequence of numbers with a certain prediction probability.

Fig.2 zeigt die einzelnen Schritte des erfindungsgemäßen Verfahrens. In Schritt 2a wird ein regularisiertes Training vorgenommen, wobei die Kostenfunktion (2) minimiert werden soll. Dazu muß der Regularisationsparameter λ entsprechend der jeweiligen Anwendung eingestellt werden. Im Schritt 2b wird die Gewichtsfunktion für jeden Schätzer berechnet. Als Gewichtsfunktion wird entweder Formel (3) oder Formel (4) verwendet .2 shows the individual steps of the method according to the invention. In step 2a, regular training is carried out, with the cost function (2) being minimized. To do this, the regularization parameter λ must be set according to the respective application. In step 2b, the weight function is calculated for each estimator. Either formula (3) or formula (4) is used as the weight function.

Schließlich wird das Ergebnissignal im Schritt 2c gemäß Formel (1) berechnet. Finally, the result signal is calculated in step 2c according to formula (1).

Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert :The following publications have been cited in this document:

[1] R. Jacobs et al . : Adaptive Mixtures of Local Experts, Neural Computation, Vol.3, Massachusetts Institute of Technology, 1991, S.79-87.[1] R. Jacobs et al. : Adaptive Mixtures of Local Experts, Neural Computation, Vol.3, Massachusetts Institute of Technology, 1991, pp.79-87.

[2] M. Perrone: Improving Regression Estimates: Averaging Methods for Variance Reduction with Extensions to General Convex Measure Optimization, PhD thesis, Brown University, USA, 1993, S.10-21.[2] M. Perrone: Improving Regression Estimates: Averaging Methods for Variance Reduction with Extensions to General Convex Measure Optimization, PhD thesis, Brown University, USA, 1993, pp. 10-21.

[3] J. Härtung et al . : Statistik, Oldenbourg Verlag,[3] J. Hardening et al. : Statistics, Oldenbourg Verlag,

9.Auflage, München 1993, ISBN 3-486-22055-1, S.123-142.9th edition, Munich 1993, ISBN 3-486-22055-1, p.123-142.

[4] Efron B. and Tibshirani R. : An Introduction to the Bootstrap, Chapman and Hall 1993, S.45-49.[4] Efron B. and Tibshirani R.: An Introduction to the Bootstrap, Chapman and Hall 1993, pp.45-49.

[5] J. Hertz et al.: Introduction to the Theory of Neural Computation, Addison-Wesley Publishing Company 1991, ISBN 0-201-51560-1, S.89-156.[5] J. Hertz et al .: Introduction to the Theory of Neural Computation, Addison-Wesley Publishing Company 1991, ISBN 0-201-51560-1, p.89-156.

[6] C M. Bishop: Neural Networks for Pattern Recognition, Clarendon Press, Oxford 1995, ISBN 0-19 853849 9, Kapitel 5.4, Seiten 171-175.[6] C M. Bishop: Neural Networks for Pattern Recognition, Clarendon Press, Oxford 1995, ISBN 0-19 853849 9, chapter 5.4, pages 171-175.

[7] DE 195 26 954 Cl [7] DE 195 26 954 Cl

Claims

Patentansprüche claims

1. Verfahren zur Kombination von Ausgangssignalen mehrerer Schätzer, insbesondere von mindestens einem neuronalen Netz, zu einem von einem Gesamtschätzer ermittelten Ergebnissignal, a) bei dem die einzelnen Schätzer als neuronale Netze ausgeführt sind und mit vorgebbaren Daten trainiert werden, b) bei dem das Training der Schätzer regularisiert vorgenommen wird, c) bei dem das Ausgangssignal jedes einzelnen Schätzers mit einer Gewichtsfunktion bewertet wird, d) bei dem jede Gewichtsfunktion von den Daten, mit denen der jeweilige Schätzer trainiert wird, abhängt, e) bei dem das Ergebnissignal vom Gesamtschätzer ermittelt wird, indem die Ausgangssignale unter Berücksichtigung der jeweiligen Gewichts funktionen gemittelt werden.1. Method for combining output signals from a plurality of estimators, in particular from at least one neural network, into a result signal determined by an overall estimator, a) in which the individual estimators are designed as neural networks and are trained with predefinable data, b) in which the training the estimator is carried out regularly, c) in which the output signal of each individual estimator is evaluated with a weight function, d) in which each weight function depends on the data with which the respective estimator is trained, e) in which the result signal is determined by the total estimator is by averaging the output signals taking into account the respective weight functions.

2. Verfahren nach Anspruch 1, bei dem jeder Schätzer regularisiert trainiert wird, um die Kostenfunktion C2. The method according to claim 1, in which each estimator is trained in a regularized manner to perform the cost function C

ci = ∑(y^k - fi(χ^k)) + λ • ∑w? k=l j=lci = ∑ (y ^k - fi (χ ^k )) + λ • ∑w? k = lj = l

zu minimieren, wobeiminimize, being

i=l,2,..,M den jeweiligen Schätzer, K L eine Menge von K Trainingsdaten aus eineri = 1, 2, .., M the respective estimator, K L is a set of K training data from a

Menge von L Gesamttrainingsdaten, y einen Ausgabewert des jeweiligenAmount of L total training data, y an output value of each

Schätzers, fi (x) eine Antwort des i-ten Schätzers auf die Eingabe x, λ > 0 einen Regularisationsparameter, j eine Anzahl von Gewichten in dem jeweiligen Schätzer,Estimator, fi (x) a response of the i-th estimator to the input x, λ> 0 a regularization parameter, j a number of weights in the respective estimator,

Iw?--;} Gewichte des i-ten Schätzers, l ^1JJj= l bezeichnen.Iw? -;} Weights of the i-th estimator, denote l ^1y yy = l.

3. Verfahren nach Anspruch 2, bei dem sich das Ergebnissignal (ERS) des Gesamtschätzers ergibt aus3. The method according to claim 2, wherein the result signal (ERS) of the total estimator results from

M mit n(x) = Σ∑ h-_j(x) und h_(x) > 0, Vi = 1,2, M j=lM with n (x) = Σ∑ h- _j (x) and h_ (x)> 0, Vi = 1.2, M j = l

wobei h_ (x) eine Gewichtsfunktion für den jeweiligenwhere h_ (x) is a weight function for each

Schätzer und n(x) einen Normalisierungsfaktor, bezeichnen.Estimators and n (x) denote a normalization factor.

4. Verfahren nach Anspruch 3, bei dem die Gewichtsfunktion (h) für alle Schätzer gesetzt wird zu4. The method according to claim 3, wherein the weight function (h) is set for all estimators

hi(x) = 1, Vi = 1,2, ... , M .hi (x) = 1, Vi = 1,2, ..., M.

5. Verfahren nach Anspruch 4, bei dem die jeweiligen Schätzer mit Bootstrap-Daten trainiert werden.5. The method of claim 4, wherein the respective estimators are trained with bootstrap data.

6. Verfahren nach Anspruch 3, bei dem die Gewichtsfunktion (h) für alle Schätzer gesetzt wird zu ^hi(^χ) ¹'^{2, • • •} ' ^M '

6. The method of claim 3, wherein the weight function (h) is set for all estimators ^h i ( ^χ ) ¹ ' ^{2, • • •} ' ^M '

7. Verfahren nach Anspruch 6, bei dem die jeweiligen Schätzer mit Bootstrap-Daten trainiert werden. 7. The method according to claim 6, in which the respective estimators are trained with bootstrap data.