DE60217663T2

DE60217663T2 - Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern

Info

Publication number: DE60217663T2
Application number: DE60217663T
Authority: DE
Inventors: Dattatray Bhaskar Pune KULKARNI; Shrikrishna Sanjeev Pune TAMBE; Budhaji Jayaram Pune LONARI; Reliance Industries Ltd. Neelamkumar VALECHA; Vasantrao Sanjay DHESHMUKH; Reliance Industries Ltd. Bhavanishankar SHENOY; Reliance Industries Ltd. Sivaraman RAVICHANDRAN
Original assignee: Council of Scientific and Industrial Research CSIR
Current assignee: Council of Scientific and Industrial Research CSIR
Priority date: 2002-03-26
Filing date: 2002-03-26
Publication date: 2007-11-22
Anticipated expiration: 2022-03-27
Also published as: JP2005521167A; EP1382012A1; JP4157477B2; WO2003081527A1; CN100520817C; EP1382012B1; KR100869516B1; CN1571982A; AU2002247918A1; DE60217663D1; KR20040099092A

Description

GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung künstlicher neuronaler Netzmodelle in Gegenwart von Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler umfassen.
ALLGEMEINER STAND DER TECHNIK
Künstliche neuronale Netze (KNNs) eignen sich zur Modellierung komplexer multipler Eingaben und multipler Ausgaben nichtlinearer Prozesse aufgrund ihrer Fähigkeit zur Approximation nichtlinearer Beziehungen bis zu einem willkürlichen Genauigkeitsgrad (T. Poggio und F. Girosi, Regularization algorithms for learning that are equivalent to multilayer networks. Science, 274, 978, 1990). Demzufolge wurden künstliche neuronale Netze umfangreich in der Industrie zur Erstellung von Online- und Offline- Vorhersagen von Prozessvariablen benutzt. Zu den industriellen Anwendungsmöglichkeiten von KNNs zählt die Prozessidentifikation, stationäre und dynamische Prozessmodellierung, Fehlererkennung und -diagnose, Softsensorentwicklung und nichtlineare Prozesssteuerung und -überwachung. Diese Anwendungen künstlicher neuronaler Netze wurden von Tambe und Mitautoren (S.S. Tambe, B.D. Kukami, P.P. Deshpande, Elements of Artificial Neural Networks with Selected Applications in Chemical Engineering, und Chemical & Biological Sciences, Simulation & Advanced Controls Inc., Louisville, USA 1996) umfassend nachgeprüft. Während jedes Prozessvorgangs werden riesige Mengen von Prozesseingabe- und Ausgabedaten erzeugt, die zur Entwicklung von KNN-Modellen, welche die Werte von Prozessausgabevariablen vorhersagen können, benutzt werden. Gewünschte Kenngrößen eines KNN-Modells sind Folgende: (i) Es sollte die im Eingabe-Ausgabe-Datensatzbeispiel enthaltenen Ausgaben, die für seinen Aufbau benutzt werden, genau vorhersagen können, und (ii) es besitzt eine gute Generalisierungsfähigkeit. Herkömmliche KNN-Modelle werden anhand eines Gewichtsanpassungsalgorithmus trainiert, der eine vorbestimmte Kosten(Fehler)-Funktion minimiert. Es kann festgestellt werden, dass die Form der Kostenfunktion vollständig die stochastischen Eigenschaften (Geräuschempfindlichkeit) des resultierenden KNN-Modells bestimmt. Zum Beispiel erzielt der meistverwendete Fehler-Rückpropagierungsalgorithmus (D. Rumelhart, G. Hinton, R. Willimans, Learning representations by backpropagating errors, Nature, 323, 533, 1986) eine Minimierung der mittleren quadratischen Abweichung (RMSE). In jedem großen Satz von Prozessdaten ist die Gegenwart instrumentellen Rauschens und/oder von Messfehlern unmittelbar bevorstehend. Die Gegenwart von Rauschen und/oder Fehlern in den Eingabe/Ausgabedaten, die für das Netztraining benutzt werden, schafft eine Schwellenwertgrenze für die Genauigkeit von Modellvorhersagen und die durch das Modell dargestellte Generalisierungsleistung. Dies geschieht vor allem deshalb, weil das Netz versucht, die durchschnittliche Beziehung, die zwischen den Eingabe- und Ausgabedaten, die das Rauschen und/oder Fehler enthalten, besteht, zu approximieren (lernen). Da das Netz das Rauschen und Fehler in den Daten ignoriert, ist die durchschnittliche Beziehung, die es erfasst, mit Ungenauigkeiten behaftet. Bedeutende Ungenauigkeiten in der Vorhersage können nicht toleriert werden, da eine signifikante Anzahl von Steuerungs- und Strategieentscheidungen zum Prozessvorgang auf vom Modell hergestellten Vorhersagen basieren. Beispielsweise sind in Polymerisationsreaktoren die Vorhersage von Qualitätsvariablen wie der Schmelz-Index, der Stressexponent (S_ex), usw. bei der Entscheidung des erzeugten Polymergrads wichtig. Ein KNN-Modell, das die Fähigkeit zur Generalisierung aufweist, sagt nicht nur die Ausgaben in den für seine Entwicklung benutzten Daten (Beispielsatz) voraus, sondern auch diejenigen, die einer neuen Eingabe oder neuen Eingabedaten entsprechen. Es ist folglich ausschlaggebend, dass ein KNN-Modell nicht nur eine ausgezeichnete Vorhersagegenauigkeit, aber auch eine gute Generalisierungseigenschaft besitzt.
Gorp und seine Berufskollegen (J.V. Gorp, J. Schoukens, R. Pintelon, Learning neural networks with noisy inputs using the errors-in-variable approach, Transactions on Neural Networks A. 180, 1-14, 1999) haben beobachtet, dass in gewerblicher Software die meisten KNN-Modelle anhand einer einfachen Ausgabefehler-Kostenfunktion trainiert werden, und dies kann zu schwerwiegenden Bias-Fehlern in der vorausgesagten Ausgabe des Netzes im Fall rauschender Eingabedaten führen. Die Autoren zeigen, dass die Gegenwart von Rauschen sogar die Ableitungen höherer Ordnung der Transferfunktion des KNN-Modells unterdrückt, und ein Bias-Fehler wird eingeführt, wenn die herkömmlichen Kleinstquadrat-Kostenfunktionen verwendet werden. Dementsprechend empfiehlt ein Verfahren zur Verbesserung der KNN-Generalisierungsleistung, die Kostenfunktion der mittleren quadratischen Abweichung (RMSE) durch eine neue Kostenfunktion, zum Beispiel die Fehler-in-Variablen-Funktion zu ersetzen (J.V. Gorp, J. Schoukens, R. Pintelon, Learning neural networks with noisy inputs using the errors-in-variables approach, Transactions on Neural Networks A. 180, 1-14, 1999). Der Nachteil des Fehler-in-Variablen-Verfahrens besteht darin, dass zu seiner Implementierung die Kenntnis von Varianzen, die die Eingaben und Ausgaben betreffen, erforderlich sind. Bei vielen praktischen Einstellungen ist diese Information nicht verfügbar, so dass der Nutzen des Fehler-in-Variablen-Verfahrens stark eingeschränkt ist. Obschon die Methodik besser bei Rauschmessungen wirkt, erfordert sie ferner einen großen Speicher und kann in einem lokalen Minimum erreicht werden. Alternative Verfahren wie (i) das Verwenden von Fehler-in-Variablen-Verfahren als Nachbearbeitungstool nach der Anwendung der Ausgabefehlermethode, (ii) der Gebrauch gemessener ingabe- und Ausgabewerte anstatt der geschätzten Werte und (iii) modifizierte Lern- und Optimierungssysteme werden verschiedenartig vorgeschlagen und dargestellt (J.V. Gorp, J. Schoukens, R. Pintelon, The errors in variables cost function for learning neural networks with noisy inputs, Intelligent Engineering Systems Through Artificial Neural Networks, 8, 141-146, 1988.
Literatur, die über die Effekte des Hinzufügens von Rauschen auf die Leistung eines KNN-Modells berichtet, ist relativ selten, und bislang wurden nur ein paar systematische Untersuchungen durchgeführt. Es ist im Allgemeinen bekannt, dass das Hinzufügen von Rauschen zu den Trainingdaten die Erzielung eines Modells unterstützt, das eine bessere Generalisierungsleistung besitzt. Sietsma und Dow (J. Sietsma, R.J. Dow, Creating artificial neural networks that generalize, Neural Networks 4, 67-79, 1991) haben über die günstigen Auswirkungen von Rauschen und hinzugefügtem Pseudo-Gauß-verteiltem Rauschen zu jedem Element des Trainingsmusters (Vektor) berichtet. Sie zeigten, dass das Training mit dem Hinzufügen von Rauschdaten die Klassifikationsfähigkeit der mehrschichtigen Perceptron-Netze verbessert. Die Untersuchung gab auch zu erkennen, dass jetzt eine größere Anzahl von Netzknoten erforderlich ist und dass jeder Knoten auf unabhängige Weise zur Lösung beiträgt; es ist auch möglich, dass einige Einheiten ohne signifikanten Beitrag zur Netzausgabe über eine geeignete Netz-Ausastungsstechnik entfernt werden können. Diesen Gesichtspunkt teilen auch Minai und Willimans (A.A. Minai, R.D. Willimans, Perturbation response in feedforward networks, Neural Networks, 7(5), 783-796, 1994) mit ihrem Vorschlag, größere Netze zu generieren, wo jeder Knoten in einem kleineren Ausmaß in Richtung der Globalberechnung mitwirkt. In einer anderen vollständigen Untersuchung, untersuchte An (G. An, The effects of adding noise during backpropagation training on a generalization performance, Neural Comput., 8, 643-674, 1996) die Effekte des Hinzufügens von Rauschen auf die Generalisierungsleistung eines Fehler-Rückpropagierungs-basierten Netztrainings. Somit führte An in seiner Untersuchung eine getrennte Analyse der Effekte von Rauschen in den Eingaben, Gewichten und den Ausgaben auf die Vorhersageleistung des Netzes aus. Die Untersuchung gab ferner zu erkennen, dass Rauschen in den Ausgaben nicht die Generalisierung verbessert, während Rauschen in den Eingaben und Gewichten hilfreich ist. Außerdem wurde beobachtet, dass das Netztraining anhand von Langevin-Rauschen zur globalen Minimierung führt, die jener, die anhand des Ansatzes des Simulierten Annealing (Simuliertes Abkühlen) erhalten wird, ähnlich ist. In einer theoretischen Untersuchung beansprucht Bishop (C.M. Bishop, Training with noise is equivalent to Tikhonov regularization, Neural Comput., 7, 108-116, 1995), dass der durch das Rauschen induzierte Störterm einer Klasse generalisierter Regularisierer entspricht. Die Regularisierung (T. Poggio, F. Girosi, Regularization algorithms for learning that are equivalent to multilayer networks. Science, 247, 978, 1990) modifiziert die Störfunktion durch das Hinzufügen eines Bestrafungsterms und steuert die vom Netz erzeugte Varianz. Im Wesentlichen sorgt das Hinzufügen von Rauschen in den Trainingdaten für eine Art Glättung, und das Verfahren wirkt, weil die durch die KNN zu lernenden Funktionen im Allgemeinen glatt sind oder mindestens stückweise kontinuierlich in einer endlichen Anzahl von Bereichen sind. Die Feststellung drückt die untergeordnete Vermutung aus, dass für ein gut gestelltes Problem eine einzige Lösung besteht und dass kleine Störungen in den Daten nur kleine Schwankungen in der Lösung erzeugen sollten. In anderen Worten werden für zwei ähnliche Eingaben zwei ähnliche Ausgaben erwartet.
Für einen gegebenen Beispieldatensatz können folglich zusätzliche Netztrainingmuster durch Überlagerung kleiner Rauschstärken erzeugt werden. Die Rauschgröße muss klein sein, da eine große Rauschstärke eindeutig die eigentliche Beziehung zwischen den Eingaben und Ausgaben verzerrt, während zu kleine Rauschstärken zu unwesentlichen Änderungen ohne Auswirkung führen. Die sofortige Folge ist, dass die 'kleine' Rauschstärke, die auf den Eingabe/Ausgabebeispieldaten überlagert werden soll, genau quantifiziert werden muss. Es kann festgestellt werden, dass in nichtlinearen Systemen, die in der Herstellungs- und Verarbeitungsindustrie in Hülle und Fülle existieren, die Empfindlichkeit, mit welcher Änderungen in einer Eingabevariablen die Ausgabevariable beeinflussen, signifikant abweichen können. Es ist folglich erforderlich, dass variierende Größen von Rauschen jeder Eingabe- und Ausgabevariablen hinzugefügt werden. Die Bestimmung der genauen Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, ist eine komplizierte Angelegenheit, und die vorliegende Erfindung stellt einen genetischen Algorithmus auf der Basis einer effektiven Lösung zur Behandlung dieses Problems bereit.
Genetische Algorithmen (D.E. Goldberg, Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley, New York, 1989, J. Holland, Adaptation in Natural and Artificial Systems, University of Michigan Press, Ann Arbor, MI, USA) sind Elemente einer Klasse von Formalismen zur Minimierung/Maximierung von Funktionen, die als 'stochastische Optimierungsalgorithmen' bekannt sind. Sie basieren auf Mechanismen der natürlichen Auslese und Genetik, die eine entscheidende Rolle in der Darwinschen Evolution biologischer Organismen spielen. Die genetischen Algorithmen (GAs) sind beim Suchen rauschender, diskontinuierlicher, multimodaler und nicht konvexer Lösungsräume als effizient bekannt, und ihre kennzeichnenden Merkmals sind Folgende: (i) Sie sind Suchtechniken 'nullter' Ordnung, die bedeuten, dass die GAs nur die Skalarwerte und nicht die Ableitungen von der zu optimierenden objektiven Funktion benötigen, (ii) GAs führen eine globale Suche durch und konvergieren infolgedessen meistens zum globalen Optimum auf der Zielfunktionsfläche, (iii) das von den GAs verwendete Suchverfahren ist stochastisch, und sie können infolgedessen ohne Berufung auf Ad-hoc-Annahmen, wie beispielsweise Glätte, Differenzierbarkeit und Kontinuität, die sich auf die Form der Zielfunktion beziehen, verwendet werden (aufgrund dieses Merkmals lassen sich GAs zur Lösung von Optimierungsproblemen, die nicht anhand üblicher gradientenbasierter Algorithmen gelöst werden können, benutzen, welche die Zielfunktion erfordern, um gleichzeitig die zuvor erwähnten Kriterien zu erfüllen) und (iv) die GA-Prozedur kann in wirksamer Weise parallelisiert werden, was ein effizientes und schnelles Suchen eines großen mehrdimensionalen Lösungsraums unterstützt. Die vorliegende Erfindung offenbart ein Verfahren auf der Basis eines genetischen Algorithmusses, um den optimalen Rauschpegel zu erreichen, der jeder Eingabe/Ausgabevariablen des Beispielsatzes hinzugefügt werden soll, wodurch ein erweiterter rauschüberlagerter Musterdatensatz für die Verwendung beim KNN-Training derart erstellt wird, dass das trainierte Netz eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt.
Bei der GA-Prozedur beginnt die Suche nach einem optimalen Lösungsvektor (auch Entscheidungsvektor genannt), der den Toleranzwert des auf die Eingabe/Ausgabevariablen im Beispielsatz zu überlagernden Rauschens darstellt, ab einer zufällig initialisierten Population wahrscheinlicher (Kandidaten)-Lösungen. Die Lösungen, die üblicherweise in Form von Binär-Strings (Chromosomen) codiert sind, werden dann getestet, um ihre Tauglichkeit bei der Erfüllung des Optimierungsziels zu messen, das heißt die Funktionsminimierung oder -maximierung. Danach werden die Kandidatenlösungen in absteigender Reihenfolge ihrer Tauglichkeitsauswertung eingeordnet, und eine Hauptschleife von GA-Operationen mit Selektion, Crossover und Mutation wird auf der eingeordneten Population ausgeführt. Die Implementierung der Schleife erzeugt eine neue Population von Kandidatenlösungen, der es im Vergleich zur laufenden Population üblicherweise bei der Erfüllung des Optimierungsziels besser ergeht. Der beste String, der nach mehrmaliger Wiederholung der zuvor beschriebenen Schleife entsteht, bildet die Lösung des Optimierungsproblems. Während der Schätzung der Tauglichkeit eines Lösungsvektors werden die darin enthaltenen spezifischen Rauschtoleranzwerte der Eingabe/Ausgabevariablen zur Erzeugung einer großen Anzahl rauschüberlagerter Eingabe-Ausgabe-Musterdatensätze verwendet, die jedem Muster im Beispielsatz entsprechen; der resultierende vergrößerte Datensatz wird dann zum Training des neuronalen Netzes mit dem Ziel einer minimierten Kleinstquadrat-Kostenfunktion wie die mittlere quadratische Abweichung bzw. RMSE benutzt. Das Training des KNN wird anhand eines gradientenbasierten oder sonstigen geeigneten gewichtsaktualisierenden Formalismus durchgeführt. Die Größenordnung der dabei erhaltenen mittleren quadratischen Abweichung bzw. RMSE wird zur Berechnung des Tauglichkeitswerts der Kandidatenvektorlösung, die Rauschtoleranzen umfasst, benutzt. Das Netz, das über die erzeugten Daten anhand der GA-optimierten Rauschtoleranzwerte trainiert wird, approximiert die wahre Eingabe/Ausgabe-Beziehung besser in Gegenwart von instrumentellem Rauschen und/oder Messfehlern und besitzt infolgedessen eine gute Vorhersagegenauigkeit und Generalisierungsleistung.
Der vorliegenden Erfindung liegt die Berücksichtung von zwei Beispielen zugrunde, nämlich (i) das KNN-basierte Modellieren eines industriellen Polymerisationsreaktors und (ii) das KNN-basierten Modellieren von im kontinuierlichen Betrieb durchmischten Kesselreaktoren CSTR (Continuous Stirred Tank Reactor), wobei eine exothermische konsekutive A → B → C-Reaktion stattfindet. Die erhaltenen Vorhersagegenauigkeiten anhand des erfundenen Verfahrens werden mit jenen verglichen, die anhand einer üblicherweise verwendeten Netztrainingprozedur erhalten werden.
Die US-Patentschrift 5,412, 256 offenbart ein Verfahren zum Lernen eines künstlichen neuronalen Netzes anhand einer simulierten Abkühlungstechnik (Simulated Annealing). Die simulierte Abkühlungstechnik bedingt das Stören der Schwellenwertsignale aller Neuronen in einer zufälligen Weise, während Klemmsignale an alle Neuronen in einem oder beiden der Eingabe- und Ausgabeschichten des Netzes angelegt werden. Das störende Zufallssignal kann von einem elektrischen Rauschgenerator erhalten werden, der mit dem Neuron verbunden ist. Indem Rauschen eingeführt wird, wird in das neuronale Netz eine der Wärmeenergie entsprechende Menge in ein physikalisches System eingeführt. Die "Hitze" wird ans Netz angelegt, um das Netz zu veranlassen alle möglichen Zustände zu inspizieren. Dann, in dem Maße wie die Temperatur (d.h. der Rauschpegel) auf ein ungefähres Minimum reduziert wird, besteht eine hohe Wahrscheinlichkeit, dass sich das Netz auf seinem niedrigsten Energiezustand, d.h. dem globalen Minimum, festlegt.
AUFGABEN DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung besteht in der Schaffung eines Verfahrens zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung eines künstlichen neuronalen Netzmodells in Gegenwart von Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler enthalten. Insbesondere wurde eine Methodik zum Erstellen eines Gaußschen rauschüberlagerten erweiterten Musterdatensatzes zur Eingabe/Ausgabe anhand von Computern für den Einsatz im Netztraining erfunden, wobei die jeder Eingabe/Ausgabevariablen hinzuzufügende Rauschstärke anhand einer Strategie auf Basis eines genetischen Algorithmusses (GA) optimiert ist. Der GA-basierte Ansatz legt den optimalen Rauschpegel fest, der den Eingabe/Ausgabevariablen der Beispieldaten nach dem Diktum, dass zwei ähnliche Eingaben zwei ähnliche Ausgaben ergeben sollten, hinzugefügt werden soll.
KURZDARSTELLUNG DER ERFINDUNG
Die vorliegende Erfindung verwendet künstlich erstellte rauschüberlagerte Eingabe/Ausgabedatenmuster zum Aufbau von KNN-Modellen, die eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzen. Im Wesentlichen zwingt das in dieser Erfindung vorgestellte Verfahren ein KNN, die rauschenden Beziehungen, die zwischen seinen Eingaben und Ausgaben bestehen, zu lernen. Die erfundene Methodik benutzt Rauschtoleranzwerte, die für jede Eingabe/Ausgabevariable spezifisch sind, um einen rauschüberlagerten erweiterten Musterdatensatz für das Netztraining zu erstellen. Insbesondere wird das Gaußsche Rauschen bekannter Toleranz jeder Eingabe- und Ausgabevariablen des Beispielsatzes hinzugefügt, und auf diese Weise werden multiple rauschüberlagerte Modelle erzeugt, die jedem Modell im Beispielsatz entsprechen. In der vorliegenden Erfindung werden spezifische Toleranzwerte für jede Eingabe/Ausgabevariablen anhand eines neuen evolutionären stochastischen Optimierungsformalismus, der als 'Genetischer Algorithmus' bekannt ist, optimiert. Es hat sich herausgestellt, dass die über die rauschüberlagerten erweiterten Musterdaten trainierten KNN-Modelle eine verbesserte Vorhersagegenauigkeit und Generalisierungsfähigkeit besitzen.
NÄHERE BESCHREIBUNG DER ERFINDUNG
Dementsprechend stellt die vorliegende Erfindung ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung nichtlinearer künstlicher neuronaler Netzmodelle bereit, wenn die als Beispielsatz bekannten Eingabe/Ausgabedaten, die zum Aufbau des Netzmodells verfügbar sind, instrumentelles Rauschen und/oder Messfehler, so wie in Anspruch 1 dargelegt, umfassen.
Die Gaußsche Rauschstärke, die jeder Eingabe-Ausgabevariablen des Beispielsatzes hinzugefügt werden soll, kann optimiert werden, um global optimal zu sein. Der Beispielsatz kann als 'Testsatz' zur Überwachung der Generalisierungsleistung des künstlichen neuronalen Netzmodells verwendet werden. Die künstliche neuronale Netzarchitektur kann 'vorwärtsgerichtet' sein, das heißt, dass der Informationsfluss im Netz in einer Richtung von der Eingabeschicht zur Ausgabeschicht fließt. In diesem Fall kann die vorwärtsgerichtete neuronale Netzarchitektur Multilayer-Perceptron-Netze, Funktionsnetzwerke auf Radialbasis und neuronale Counterpropagation-Netze umfassen. Die stochastische Suche und Optimierungstechnik, die zur Optimierung der Rauschtoleranzen verwendet wird, betrifft genetische Algorithmen und verwandte Verfahren, insbesondere Simulated Annealing (Simuliertes Abkühlen), simultane stoachastische Perturbationsapproximation, evolutionäre Algorithmen (EA) und Memetik-Algorithmen (MA). Ein erweiterter rauschüberlagerter Eingabe-Ausgabe-Musterdatensatz kann anhand von Computersimulationen ab dem kleinen Eingabe-Ausgabesatz erstellt werden. Die Erfindung wird ferner beispielhaft in den folgenden Ausführungen dargestellt. Betrachten wir P als Anzahl der Eingabe-Ausgabenmusterpaare [(x₁, y₁), (x₂, y₂), ..., (x_p, y_p), ..., (x_p, y_p)], die einen Beispielsatz darstellen. Der Zusammenhang zwischen dem N-dimensionalen Eingabevektor x_p und dem entsprechenden K-dimensionalen Ausgabevektor y_p wird durch einen K-dimensionalen nichtlinearen Funktionsvektor f, der als y_p = f(x_p) bezeichnet ist, beeinflusst. Die x_p- und y_p-Vektoren werden auch jeweils als Eingabemodell bzw. -pattern und entsprechendes Ausgabe(Ziel)modell bzw. -pattern bezeichnet. Der _pte N-dimensionale Eingabevektor x_p ist als [x_p1, x_p2, ..., x_pN]^r definiert und der entsprechende K-dimensionale Zielausgabevektor y_p als [y_p1, y_p2, ..., y_pK]^T. Ein vorwärtsgerichtetes neuronales Netz wie MPL (siehe 1) approximiert die nichtlineare Beziehung zwischen x_p und y_p' so wie gegeben durch yp = f(xp, WH, WO) (1)wobei die Matrizen W^H und W^O die Gewichte auf Verbindungen zwischen jeweils der Eingabe des MLP und den verborgenen Schichtknoten und den verborgenen und Ausgabeschichtknoten ist. Das allgemeine Ziel des Trainings eines MLP-Netzes besteht darin, geeignete Kleinstquadrate zu minimieren.
Die Störfunktion, beispielsweise die mittlere quadratische Abweichung (RMSE), die bezeichnet wird als (S. Nandi, S. Ghosh, S.S. Tambe, B.D. Kulkarni, Artificial neural-network-assisted stochastic process optimization strategies. AIChE J., 47, 126, 2001):
wobei i den Index des Eingabemodells bzw. -pattern (i = 1, 2, ..., N_pat) bezeichnet; K bezieht sich auf Anzahl der Ausgabeknoten und E_i stellt die Summe der Fehlerquadrate (SSE = sum-squared-error) dar, die definiert ist als
wobei y k / i die effektive Ausgabe des k-ten Ausgabeknoten betrifft, wenn das i-te Eingabemuster für die Eingabeschicht des Netzes angewandt wird und o k / i bezeichnet die entsprechende Zielausgabe. Die Aufgabe der RMSE-Minimierung wird durch Verwendung einer geeigneten Gradientenabstiegstechnik erfüllt, wie beispielsweise die generalisierte Deltaregel (GDR) auf Basis von Fehler-Rückpropagierung, konjugierten Gradienten oder fortgeschritteneren Methodiken, nämlich Quickprop (S.E. Fahlman, Faster-learning variations on back-propagation: Proceedings of the 1988 Connectionist Models Sommer School, D.S. Touretzky, G.E. Hinton und T.J. Sejnowski, Eds., Seiten 38-51, Morgan Kaufmann, San Mateo, CA, 1988) und Resilient Back-Propagation (RPROP) (M. Riedmiller, H. Braun, A direct adaptative method for faster backpropagation learning: The RPROP algorithm. Proc. of IEEE Int. Conf. On Neural Net, Sans Francisco, CA, 28. März bis 1. April 1993). Netztraining ist eine iterative Prozedur, die mit der Initialisierung der Gewichtsmatrizen W^H und W^O auf zufällige Weise beginnt. Eine Trainingiteration besteht aus zwei Arten von Verarbeitungsschritten, insbesondere vorwärts und rückwärts, durch die Netzschichten. Beim Vorwärts-Verarbeitungsschritt werden ein Eingabemuster von dem Trainingdatensatz an den Eingabeknoten und Ausgaben der verborgenen Knoten geschätzt. Zur Berechnung der spezifizierten Ausgabe wird zunächst die gewichtete Summe der Eingabe zu einem verborgenen Knoten ermittelt, der dann anhand einer nichtlinearen Aktivierungsfunktion wie Logistic Sigmoid verändert wird. Die Ausgaben der verborgenen Knoten bilden Eingaben zu den Ausgabenschichtknoten, deren Ausgaben auf ähnliche Weise geschätzt werden wie jene der verborgenen Knoten. Die Ausgabe der Ausgabenschichtknoten, die auch als Netzausgabe bezeichnet werden, wird mit der Zielausgabe verglichen, und im Rückwärts-Verarbeitungsschritt wird die Differenz zwischen dem Netz und Zielausgaben (Vorhersagefehler) für die Aktualisierung der Gewichtsmatrizen W^H und W^O verwendet. Die Gewichtsaktualisierungsprozedur beendet, wenn sie für alle Modelle im Trainingsatz wiederholt wird, eine Trainingiteration. Es kann festgestellt werden, dass die Gewichtsmatrizen W^H und W^O anhand verschiedener Verfahren wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP aktualisiert werden können. Bei der gemäß der vorliegenden Erfindung vorgeschlagenen Methodik wird ein rauschüberlagerter erweiterter Eingabe-Ausgabe-Musterdatensatz von dem Beispielsatz erstellt, um als Trainingdaten zu dienen und wobei die optimale Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, anhand eines genetischen Algorithmusses bestimmt wird, so dass das resultierende KNN-Modell eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt. Die erfundene Methodik zur Optimierung der jeder Eingabe/Ausgabevariablen des Beispielsatzes hinzuzufügenden Rauschstärke ist nachstehend dargelegt.
Gegeben sei die P die Anzahl der N-dimensionalen Eingabevektoren im Beispielsatz als [PxN]-Eingabematrix X und die gleichwertige Anzahl entsprechender K-dimensionaler Ausgabevektoren als [PxK]-Ausgabematrix Y. Die vorliegende Erfindung erstellt rauschüberlagerte Matrixversionen X ^ und Y ^ von den entsprechenden Matrizen X und Y, die als Trainingeingabe- und -ausgabesätze für das KNN-Training verwendet werden. Die hinzuzufügende (normalerweise verteilte) Gaußsche Rauschstärke ist spezifisch für eine Eingabe/Ausgabevariable und im Sinne eines Toleranzprozensatzes gekennzeichnet. Die Rauschtoleranzvektoren, die zum Einführen von Rauschen in die Eingabematrix X und die Ausgabematrix Y verwendet werden sollen, sind jeweils als
ε¹ und ε⁰ definiert. Der N-dimensionale Rauschtoleranzvektor, der das jedem Element des N-dimensionalen Eingabevektors hinzuzufügende Rauschen kennzeichnet, ist definiert als: ε1 = [ε11 , ε12 , ..., ε1n , ..., ε1N ] (4)und sein n-tes Element ε 1 / n wird zum Einführen des Gaußschen Rauschens in die n-ten Säulenelemente {x_pn}; p = 1, 2, ..., P der Eingabematrix X verwendet. Der Rauschtoleranzwert ε 1 / n wird definiert als ε1n = (3.09 × 100) × (δlpn /xpn); n = 1, 2, ..., N (5),wobei x_pn und δ l / pn die mittlere und Standardabweichung der Gaußschen Verteilung bezeichnet.
Durch Umgestaltung der Gleichung 5 lässt sich die Standardabweichung berechnen als σlpn = (εln × xpn)/(3.09 × 100) (6).
Durch Verwendung von x_pn (n = 1, 2, ..., N) als mittlere Abweichung und σ l / pn (n = 1, 2, ..., N) als Standardabweichung der Gaußschen Verteilung wird eine Anzahl M rauschüberlagerter Mustereingabemodelle erzeugt (anhand von Computersimulationen), die (p = 1, 2, ..., P) Eingabemodellen im Beispielsatz entsprechen. Die resultierende rauschüberlagerte induzierte Eingabematrix (X ^) weist Dimensionen [(MP) × N] auf.
Ähnlich wie beim Rauschtoleranzvektor ε¹ für die Eingaben definieren wir den K-dimensionalen Ausgaberauschtoleranzvektor ε⁰ als ε0 = [ε01 , ε02 , ..., ε0k , ..., ε0k ]T (7)
Das k-te Element ε 0 / k dieses Toleranzvektors wird zum Einführen des Gaußschen Rauschens in den k-ten Säulenelementen {y_Pk}, p = 1, 2, ..., P der Zielausgabematrix Y benutzt. Das Toleranzvektorelement ε 0 / k ist definiert als ε0k = (3.09 × 100) × (σ0pk /ypk) (8),wobei y_pk und σ 0 / pk jeweils die mittlere Abweichung und Standardabweichung der Gaußschen Verteilung betreffen. Durch Umgestaltung der Gleichung 8, kann die Standardabweichung geschätzt werden als σ0pk = (ε0k × ypk)/3.09 × 100) (9)
Die rauschüberlagerte Musterausgabematrix Y ^ wird auf ähnliche Weise wie die Matrix X ^ anhand von Computersimulationen erzeugt; hier werden y_pk (k = 1, 2, ..., K) und σ 0 / pk (k = 1, 2, ..., K) jeweils als mittlere Abweichung und Standardabweichung der Gaußschen Verteilung benutzt, und eine Anzahl M rauschüberlagerter Musterausgabemodelle (p = 1, 2, ..., P) wird gebildet, die dem p-ten (p = 1, 2, ..., P) Zielausgabemodell im Beispielsatz entsprechen. Die resultierende rauschüberlagerte Musterausgabematrix Y ^ weist Dimensionen [(MP) × K] auf. Während des KNN-Trainings werden die Matrizen X ^ und Y ^ als Trainingsdaten zur Eingabe/Ausgabe benutzt, während die Matrizen X und Y als Testdaten zur Eingabe/Ausgabe verwendet werden, um die Generalisierungsleistung des Netzes zu überwachen.
In einem System, wo die Beziehungen zwischen seinen Eingaben und Ausgaben nichtlinear sind, weisen die abhängigen (Ausgabe)variablen ein variierendes Ausmaß von Empfindlichkeit auf die Änderungen in den zufälligen (Eingabe)variablen auf. Somit wird die Bestimmung der genauen Rauschstärke, die jeder Eingabe/Ausgabevariable im Beispielsatz hinzugefügt werden soll (so wie durch die Toleranzvektorelemente ε¹ and ε⁰ definiert) zu einem kritischen Problem. Die vorliegende Erfindung führt eine GA-basierte Methodik ein, um die genaue Rauschstärke, die den Eingabe/Ausgabeelementen des Beispieldatensatzes hinzugefügt werden soll, zu optimieren. Wenn die rauschüberlagerten Daten zum Training des Netzes benutzt werden, führen sie zu einem Netzmodell, das eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt. Im Folgenden wird der GA-basierte Ansatz zur Optimierung der genauen Rauschstärke, die jedem Eingabe/Ausgebelement des Beispielsatzes hinzugefügt werden soll, beschrieben.
Die Aufgabe der GA-basierten Optimierung ist beschrieben als: Finden der optimalen Werte der spezifischen Rauschtoleranzen der Eingabe/Ausgabevariablen in einer Weise, dass der rauschüberlagerte erweiterte Trainingsatz, der anhand der Rauschtoleranzwerte erstellt wird, zu einem Netzmodell führt, das eine verbesserte Vorhersagegenauigkeit und Generalisierungsfähigkeit besitzt. Im Wesentlichen besteht die Aufgabe des GA darin, die optimalen Eingabe- und Ausgaberauschtoleranzvektoren ε^1* = [ε 1* / 1, ε 1* / 2, ..., ε 1* / n, ..., ε 1* / N]^T, und ε^0*, = [ε 0* / 1, ε 0* / 2, ..., ε 0* / k, ..., ε 1* / K]^T in einer Weise zu finden, dass, wenn sie zur Generierung des rauschüberlagerten erweiterten Eingabe/Ausgabe- Trainingdatensatzes benutzt werden, der RMSE-Fehler bezogen auf den Testsatz minimiert ist. Dementsprechend ist die durch den GA zu minimierende Zielfunktion der Testsatz RMSE, der definiert ist als:
wobei i den Index des Testeingabemodells (i = 1, 2, ..., N_tst) bezeichnet; K bezieht sich auf die Anzahl der Ausgabeknoten in der MLP-Architektur, N_tst stellt die Anzahl der Modelle im Testsatz dar und E_i stellt die Summe der Fehlerquadrate (SSE = sum-squared-error) dar, die dem i-ten Testmodell entspricht. Die Schritte des genetischen Algorithmus, die mit der RMSE_tst-Minimierung einhergehen, sind:

(1) Initialisieren einer Population von Kandidatenlösungen: Setze den Generierungsindex (N_gen) auf Null und erzeuge eines Population von N_pop Binärstrings (Chromosomen) auf zufällige Weise; jeder String, der eine Gesamtmenge von l_chr Bits besitzt, wird in so viele Segmente aufgeteilt wie die Anzahl der Entscheidungsvariablen (N+K) optimiert werden kann. Beachte, dass die Dezimaläquivalente der (N+K) Binärsegmente eines Strings einen Kandidatenlösungsvektor darstellen, dessen erste N Elemente die Rauschtoleranzen, die den N Eingabevariablen entsprechen, beschreiben, und die nächsten K Elemente stellen die Rauschtoleranzen, die so vielen Ausgabevariablen entsprechen, dar. Somit kann die Population von N_pop Kandidatenlösungen als kombinierter Satz von Eingabe/Ausgabe-Rauschtoleranzen beschrieben werden: {e0ln , e0lk }; l = 1, 2, ..., Npop; n = 1, 2, ..., N; k = 1, 2, ..., K (11)
(2) Tauglichkeitseignung: Verwende die l-te (l = 1, 2, ..., N_pop) Kandidatenlösung in der laufenden Population, die ein Vektorpaar von Eingabe/Ausgabe-Rauschtoleranzen umfasst, um den Tauglichkeitswert dieser Lösung zu berechnen. Insbesondere kommen die Eingabe/Ausgabe-Rauschtoleranzwerte zum Erstellen des mit Gaußschen Rauschen überlagerten erweiterten Trainingsatzes {X ^, Y ^} gemäß der zuvor kurz dargestellten Prozedur (siehe ebenfalls die Gleichungen 6 und 9) zum Einsatz. Der auf diese Weise erstellte Trainingsatz wird zur Anpassung der Netzgewichtsmatrizen W^H und W^O im Rahmen eines geeigneten Lernalgorithmusses, wie beispielsweise die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP, verwendet. Während des Trainings dient der Beispielsatz der Eingänge/Ausgänge als Testsatz und der entsprechende Wert der mittleren quadratischen Abweichung (RMSE_tst (1)) dient zur Berechnung der Tauglichkeit (ξ_l) der l-ten Kandidatenlösung anhand von ξl = 1/(1 + RMSEtst (l)); l = 1, 2, ..., Npop (12.)Beachte, dass die Art der in der Gleichung 12 definierten Tauglichkeitsfunktion eine von mehreren ist, die zum Schätzen des Tauglichkeitswerts ξ_l verwendet werden können. Außerdem ist es möglich, Tauglichkeitsfunktionen, die Bestrafungsterms einbeziehen (K. Deb, Optimization for Engineering Design, Algorithms and Examples, Prentice-Hall, New Delhi, 1995) zu verwenden. Bei der folgenden Tauglichkeitsschätzung sind die Kandidatenstrings in absteigender Reihenfolge ihres Tauglichkeitswerts eingeordnet.
(3) Selektion von Eltern: Wähle die Anzahl N_pop der Elternchromosomen aus der laufenden Population, um den sogenannten Mating-Pool zu bilden. Mitglieder dieses Pools werden so gewählt, dass sie relativ hohe Tauglichkeitsauswertungen besitzen, und sie kommen zur Erzeugung von Nachkommenstrings zum Einsatz. Die üblicherweise zur Anwendung kommenden Elternauswahltechniken sind das Rouletterad-Verfahren und die stabilere Variante des Rouletterad-Verfahrens, die als stochastische Restauswahl bekannt ist (D.E. Goldberg, Genetic Algorithms in Search, Optimization, and Machine Learning, Addision-Wesley, New York, 1989.
(4) Crossover: Wähle auf zufällige Weise aus dem Mating-Pool die Anzahl N_pop/2 der Elternpaare und führe die Crossover-Operation auf jedem Paar mit einer Crossover- Wahrscheinlichkeit von gleich P_cr (0 < P_c ≤ 1.0) durch. Beim Crossover ist jedes Mitglied eines Elternpaars am selben zufällig gewählten Crossover-Punkt abgetrennt. Als Ergebnis werden aus jedem Elternstring zwei Unterstrings gebildet; die Unterstrings werden gegenseitig zwischen Eltern ausgetauscht und kombiniert, um zwei Nachkommenchromosomen zu erhalten. Wenn die Crossover-Operation mit der Bezeichnung 'Ein-Punkt-Crossover' auf allen Elternpaaren durchgeführt wird, führt sie zu einer Population, die N_pop Nachkommenstrings umfasst.
(5) Mutation: Führe die Mutationsoperation (Umfallen von Bits) auf den Nachkommenstrings, wo die Wahrscheinlichkeit, dass ein Bit umfällt (Null auf Eins oder umgekehrt) gleich P_mut ist; der empfohlene Bereich von P_mut ist [0,01-0,05].
(6) Inkrementiere den Generationsindex um Eins (N_gen = N_gen + 1) und wiederhole die Schritte 2-5 auf den neu erzeugten Nachkommenstrings, bis die Konvergenz erreicht ist. Das Kriterium für die GA-Konvergenz könnte sein: N_gen überschreitet seine maximale Grenze (N max / gen) oder die Tauglichkeitsauswertung des besten Strings in der mutierten Nachkommenpopulation unterliegt einer sehr kleinen oder keiner Änderung über sukzessive Generierungen. Nachdem die GA-Konvergenz erreicht ist, wird der String, der den höchsten Tauglichkeitswert besitzt, decodiert, um die optimierte Lösung zu erhalten. Normalerweise ist eine große Anzahl von Generierungen erforderlich, um die optimalen Lösungsvektoren [ε^/*, ε^0*], die zur kleinsten RMSE_tst-Größenordnung führen, zu erhalten.

Neben den nachstehend beschrieben bevorzugten Ausführungsformen der Erfindung, kann die vorliegende Erfindung variiert und abgewandelt werden. Der Rahmen der vorliegenden Erfindung ist folglich nicht auf die präzisen Details der ihre Wirksamkeit nachweisenden Beispiele beschränkt.
In einer Ausführungsform der vorliegenden Erfindung werden die künstlichen neuronalen Netze, die zur Durchführung nichtlinearer Modellierung und Klassifikation dienen, anhand des rauschüberlagerten erweiterten Eingabe-Ausgabe-Datensatzes trainiert, wobei die optimale Rauschstärke, die jeder Eingabe/Ausgabevariable im Beispielsatz hinzugefügt werden soll, anhand stochastischer Optimierungsformalismen bestimmt wird, die als genetische Algorithmen bekannt sind, dank welcher die Netze eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzen können.
In einer noch anderen Ausführungsform der vorliegenden Erfindung wird gezeigt, dass das Verfahren anzuwenden ist, wenn die als 'Beispielsatz' bezeichneten Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler enthalten, offline oder online erfasst wurden.
In einer noch anderen Ausführungsform der vorliegenden Erfindung benötigt die Methodik für Ihre Implementierung keine Kenntnis des Prozessüberwachungssystems, der Art des Prozesses und der Sensor-Hardware, usw.
In einer immer noch anderen Ausführungsform der vorliegenden Erfindung kann das optimale Rauschen, das den Beispieldaten hinzugefügt werden soll, anhand stochastischer Optimierungstechniken wie simultane stochastische Perturbationsapproximation, Simulated Annealing (Simuliertes Abkühlen), Ameisenkoloniemethoden und Memetik-Algorithmen bestimmt werden.
In einer weiteren Ausführungsform der vorliegenden Erfindung kann die Methodik verwendet werden, um künstliche neuronale Netzmodelle in Situationen, wo die Beziehung zwischen den Eingabe/Ausgabe-Beispieldaten nichtlinear sind, benutzt werden.
In einer noch weiteren Ausführungsform der vorliegenden Erfindung ist der erfundene Formalismus auf verschiedene deterministische und stochastische künstliche neuronale Netztrainingsysteme anwendbar wie Rückpropagierung der Fehler, konjugierte Gradienten, Quickprop und RPROP.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung künstlicher Netzmodelle in Gegenwart von Daten, die instrumentelles Rauschen und/oder Messfehler enthalten, bereitgestellt, das die Schritte umfasst (siehe 2):

(a) Kompiliere Prozessdaten (Beispielsatz) in Form einer [PxN]-Matrix (X) zufälliger (Eingabe)-Variablen und der entsprechenden [PxK]-Matrix (Y) abhängiger (Ausgabe)variablen.
(b) Vorverarbeitete den Beispieldatensatz, das heißt entferne die offensichtlichen und nicht offensichtlichen Ausreißer und verwerfe Modelle, die Fehldaten, fehlerhafte Sensorablesungen, usw. enthalten.
(c) Beginne die GA-Such- und Optimierungsprozedur (Anzahl Generierungen N_gen = 0) durch zufälliges Generieren einer Kandidatenlösungspopulation der Größe von N_pop Strings, wobei jede Lösung ein [N+K]-dimensionaler Entscheidungsvariablenvektor ist, der N Eingaberauschtoleranzen (ε^/) und K Ausgaberauschtoleranzen (ε⁰) beschreibt.
(d) Führe anhand der l-ten (l = 1, 2, ..., N_pop) Kandidatenlösung folgende Schritte aus: (i) Erzeuge entsprechend des p-ten (p = 1, 2, ..., P) Eingabe/Ausgabemodells im Beispielsatz die Anzahl M Gaußscher rauschüberlagerter Musterein- und -ausgabemodelle anhand einer Computersimulation. Die Standardabweichungswerte (σ¹, σ⁰) zur Generierung der Ein- und -ausgabemustermodelle werden jeweils anhand der Gleichungen 6 und 9 berechnet. Die resultierende Mustereingabematrix X ^ und die Ausgabematrix Y ^ weisen jeweils die Dimensionen [(MP), N] und [(MP), K] auf. (ii) Trainiere ein vorwärtsgerichtetes KNN wie das MLP, das die Anzahl N der Eingabeknoten, die Anzahl N_H verborgener Knoten, einen Knoten mit Bias-Fehler jeweils in den Eingabeschichten und verborgenen Schichten und eine Anzahl K von Ausgabeknoten beherbergt, anhand eines geeigneten Trainingalgorithmusses wie beispielsweise Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP. Während des Tainings werden die Netzgewichtsmatrizen W^H und W^o jeweils anhand der rauschüberlagerten Musterein- und ausgabematrizen X ^ und Y ^ angepasst, und die Beispielein- und -ausgabematrizen X und Y dienen als Testdaten, um die Generalisierungsfähigkeit des Netzes zu beurteilen. Ziel des Netztrainings ist eine Minimierung des RMSE in Bezug auf den Testsatz (RMSE_tst). Um dieses Ziel zu erreichen, müssen die Anzahl der verborgenen Schichten, die Anzahl der Knoten in jeder verborgenen Schicht und die spezifischen Parameter des Trainingsalgorithmusses, zum Beispiel die Lernrate und der Momentkoeffizient im Fehler-Rückpropagierungsalgorithmus, optimiert werden. Der minimierte RMSE-Wert des Testsatzes, der der l-Kandidatenlösung entspricht, wird als RMSE_tst(1) definiert.
(e) Berechne die Tauglichkeitswerte ξ_l; l = 1, 2, ..., N_pop von Kandidatenlösungen anhand der minimierten RMSE_tst(l)-Werte, die im vorausgehenden Schritt erhalten wurden. Zur Berechnung der Tauglichkeitswerte kann eine geeignete Tauglichkeitsfunktion, wie nachstehend angegeben, verwendet werden: ξl = 1/(1 + RMSEtst (l)); l = 1, 2, ..., Npop (13),wobei ξ_l die Tauglichkeitsnote der l-ten Kandidatenlösung betrifft, und RMSE_tst (l) bezeichnet den minimierten Testsatz-RMSE-Wert, wenn die l-te Lösung zur Erzeugung der rauschüberlagerten erweiterten Trainingdaten verwendet wird. Nach der Schätzung ihrer Tauglichkeitswerte, werden die Kandidatenlösungen in absteigender Reihenfolge der Tauglichkeitsauswertungen eingeordnet.
(f) Führe Selektions-, Crossover- und Mutationsoperationen, so wie zuvor näher erläutert, auf der laufenden eingeordneten Population von Kandidatenlösungen aus, um neu erzeugte Lösungen (N_gen = N_gen + 1) zu erhalten.
(g) Führe die Schritte (d) bis (f) auf den neu erzeugten Kandidatenlösungen aus, bis die Konvergenz erreicht ist. Das Kriterium erfolgreicher Konvergenz ist entweder, dass der GR über eine große Anzahl von Generierungen (N_gen ≥ N max / gen) evolvierte oder dass der Tauglichkeitswert der besten Lösung unbedeutende oder keine Veränderungen bei sukzessiven Generierungen aufweist. Die Kandidatenlösung, die den höchsten Tauglichkeitswert in der konvergierten Population besitzt, stellt die GA-optimierte Lösung (ε^/*, ε^0*) dar, und die Gewichtsmatrizen (W^H and W^O), die dieser Lösung entsprechen

KURZE BESCHREIBUNG DER BEGLEITENDEN ZEICHNUNGEN
1 stellt ein Schema eines typische vorwärtsgerichteten neuronalen Netzes wie das Multilayer Perceptron (MLP) dar.
2 stellt das Flussdiagramm mit den genau beschriebenen Schritten der Erfindung dar.
Die folgenden Schritte, die die vorliegende Erfindung nutzen, dienen dem Zwecke der Veranschaulichung und sollten deshalb nicht als den Rahmen der Erfindungsidee einschränkend gedeutet werden.
BEISPIEL 1
Die in der ersten Veranschaulichung der erfundenen Methodik benutzten Daten stammen von einem funktionierenden industriellen Polymerisationsprozess. Die Prozessdaten bestehen aus neun Eingaben und einer Ausgabe: die Eingaben beschreiben Prozessbedingungen, und die Ausgabe stellt einen Polymerqualitätsparameter dar. Insgesamt waren 28 Eingabe- und Ausgabedatenmodelle (Beispielsatz) für die KNN-Modellierung verfügbar. Diese Daten enthielten instrumentelles Rauschen und Messfehler. Anhand des MLP als KNN-Vorbild wurden zunächst mehrere Netzmodelle entwickelt, um den Polymerqualitätsparameter mittels verschiedener Trainingalgorithmen, wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP, vorherzusagen. Während der Entwicklung der MLP-basierten Modelle wurden die Effekte verschiedener netzstruktureller Parameter, wie die Anzahl verborgener Schichten, die Anzahl der Knoten in jeder verborgenen Schicht, die Lernrate, der Momentkoeffizient, usw. entscheidend untersucht. Außerdem wurden die Effekte verschiedener Initialisierungen von Netzgewichten und die Größe des Training- und Testsatzes vollständig untersucht. Die Architektur des trainierten MLP-Netzes anhand der zuvor angegebenen Verfahren, die zu den kleinsten RMSE-Werten bezogen auf die Training- und Testsätze führten, enthielten neun Knoten in der Eingabeschicht, sechs Knoten in der verborgenen Schicht 1, sieben Knoten in der verborgenen Schicht 2 und einen Knoten in der Ausgabeschicht. Die Größenordnungen der RMSE-Fehler bezogen auf die Training- und Testsätze betrugen jeweils 0,00590 (RMSE_trn) und 0, 03436 (RMSE_tst). Aus den RMSE-Werten lässt sich erkennen, dass der (RMSE_tst) viel größer als der RMSE_trn ist, und es kann daher gefolgert werden, dass die Generalisierungsfähigkeit des Netzmodells nicht zufriedenstellend ist. Um sowohl in der Vorhersagegenauigkeit als auch in der Generalisierungsleistung des Netzmodells Verbesserungen zu bewirken, wurde die in der vorliegenden Erfindung veranschaulichte Methodik benutzt. Insbesondere wurden 25 (M = 25) rauschüberlagerte Mustereingabe- und -ausgabemodelle für jedes Modell im Beispielsatz erzeugt. Die optimalen Eingabe/Ausgabe-Rauschtoleranzwerte (ε^/*, ε^0*), die zur Erzeugung der rauschüberlagerten Daten, die insgesamt 700 Eingabe/Ausgabemodelle umfassen, verwendet wurden, wurden anhand der auf dem genetischen Algorithmus basierenden Strategie, der in der vorliegenden Erfindung eingeführt ist (siehe ebenfalls 2), erhalten. Die durch den GA gegebenen optimalen Toleranzwerte sind in der Tabelle 1 aufgelistet. Diese Werte wurden anhand folgender GA-spezifischer Parameterwerte erhalten: (i) der Länge jedes Populationsstrings (l_chr) = 10 Bits, (ii) der Populationsgröße (N_pop) = 16, (iii) der Crossover-Wahrscheinlichkeit (P_cr) = 0,9 und (iv) der Mutationswahrscheinlichkeit (P_mut)= 0,05. Das auf den rauschüberlagerten Daten trainierte MLP-Netz führt zu den in der Tabelle 2 angegebenen RMSE-Werten; für Vergleichszwecke sind auch die kleinsten RMSE-Werte, so wie sie anhand der nicht rauschüberlagerten Daten als Trainingsatz erhalten wurden, in der Tabelle aufgelistet. Aus den in der Tabelle 2 aufgelisteten Werten werden geht eindeutig hervor, dass das auf den rauschüberlagerten Daten trainierte Netz sowohl für die Training- als auch für die Testdaten zu kleineren RMSE-Werten führte. Noch wesentlicher wurde der RMSEt_st signifikant von 0,03436 auf 0,00172 reduziert. Um den Vergleich zu erleichtern, wurden der durchschnittliche Prozentsatzfehler und Korrelationskoeffizient zwischen dem vorhergesagten Netz und den Zielausgabewerten berechnet und sind ebenfalls in der Tabelle 2 aufgelistet. Man kann feststellen, dass die Korrelationskoeffizientwerte zunahmen, wenn rauschüberlagerte Daten für das Netztraining verwendet werden. Die kleineren RMSE-Werte des Training- und Testsatzes deuten jeweils auf eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung des auf den rauschüberlagerten Daten trainierten Netzmodells hin.
Der durchschnittliche Prozentsatzfehler zwischen den vorhergesagten Ausgaben des Netzes und ihren gewünschten Größenordnungen ist signifikant reduziert. Es kann somit gefolgert werden, dass der vorliegende Erfindung die Verbesserung der Vorhersagegenauigkeit und auch der Generalisierungsleistung des Netzmodells gelungen ist.
Tabelle 1: Optimale Rauschtoleranzwerte für die Eingabe/Ausgabevariablen, so wie sie anhand der GA-basierten Strategie für den industriellen Polymerisierungsprozess erhalten werden.
Tabelle 2: Vergleich von RMSE-Werten, Korrelationskoeffizienten und durchschnittliche Vorhersagefehler, die anhand nicht rauschüberlagerter und rauschüberlagerter Training-Datensätze erhalten werden.
Beispiel 2:
Bei diesem Beispiel wird ein Prozess betrachtet, der doppelwandige nicht isotherme Rührkesselreaktoren (CSTR) im kontinuierlichen Betrieb einbindet, wobei zwei Reaktionen erster Ordnung in Reihe, A →B →C, stattfinden. Die Prozessdaten umfassen stationäre Werte von sechs CSTR-Betriebsvariablen(eingaben), und die einzige Ausgabe dabei beschreibt den entsprechenden stationären Wert einer Produktqualitätsvariablen. Insgesamt 50 Eingabe- und Ausgabedatenmodelle (Beispielsatz) waren für die KNN-basierte Modellierung verfügbar; die Daten enthielten instrumentelles Rauschen und/oder Messfehler. Ein MLP-Modell wurde zunächst durch Verwendung des Beispielsatzes als Trainingdaten zur Vorhersage des Werts der Ausgabevariablen entwickelt, für welche verschiedene Trainingalgorithmen wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP zur Anwendung kamen. Während der Entwicklung der MLP-basierten Modelle wurden die Effekte verschiedener struktureller Parameter, wie die Anzahl verborgener Schichten, die Anzahl der Knoten in jeder verborgenen Schicht, die Lernrate, der Momentkoeffizient, usw. untersucht. Außerdem wurden die Effekte verschiedener Initialisierungen von Netzgewichten und die Größe des Training- und Testsatzes entscheidend untersucht. Die Architektur des trainierten MLP-Netzes anhand der zuvor angegebenen Verfahren und jenes, dass die kleinsten RMSE-Werte in Bezug auf die Training- und Testsätze ergab, enthielten sechs Knoten in der Eingabeschicht, vier Knoten in der verborgenen Schicht 1, vier Knoten in der verborgenen Schicht 2 und einen Knoten in der Ausgabeschicht. Die RMSE-Fehler bezogen auf die Training- und Testsätze betrugen jeweils 0,00909 (RMSE_trn) und 0,01405 (RMSE_tst). Aus den RMSE-Werten lässt sich erkennen, dass immer noch ein beachtlicher Spielraum hinsichtlich der Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung des Netzmodells besteht. In Richtung auf dieses Ziel wurde die in der vorliegenden Erfindung veranschaulichte Methodik benutzt. Insbesondere wurden 25(M = 25) rauschüberlagerte Mustereingabe- und ausgabemodelle für jedes Modell im Beispielsatz für jedes Modell im Beispielsatz erzeugt. Die optimalen Toleranzwerte (ε^/*, ε^0*), die zur Erzeugung der rauschüberlagerten Daten, die insgesamt 1250 Mustereingabe- und -ausgabemodelle umfassen, verwendet wurden, wurden anhand der in der vorliegenden Erfindung eingeführten Strategie, die auf dem genetischen Algorithmus basiert (siehe 2) erhalten. Die durch den GA gegebenen optimalen Toleranzwerte sind in der Tabelle 3 aufgelistet. Diese Werte wurden anhand folgender GA-spezifischer Parameterwerte erhalten: (i) der Länge jedes Populationsstrings (l_chr) = 10 Bits, (ii) der Kandidatenpopulationsgröße (N_pop) = 14, (iii) der Crossover-Wahrscheinlichkeit (P_cr) = 0,9 und (iv) der Mutationswahrscheinlichkeit (P_mut) = 0,05. Die kleinsten RMSE-Werte des Training- und Testsatzes, die anhand der rauschüberlagerten Daten erhalten wurden, sind in der Tabelle 4 aufgelistet; für Vergleichszwecke sind auch die kleinsten RMSE-Werte, so wie sie anhand der nicht rauschüberlagerten Daten erhalten wurden, in der Tabelle aufgelistet. Aus den in der Tabelle 4 aufgelisteten Werten geht eindeutig hervor, dass das auf den rauschüberlagerten Daten trainierte Netz sowohl für die Training- als auch für die Testdaten zu kleineren RMSE-Werten führte. Noch wesentlicher wurde der RMSE_tst signifikant von 0,01405 auf 0,00183 reduziert. Die sehr kleinen RMSE-Werte der Training- und Testsätze sind bezeichnend für verbesserte Vorhersagegenauigkeit und Generalisierungsleistung des auf den rauschüberlagerten Daten trainierten Netzmodells.
Diese Beeinflussung wird auch durch die entsprechenden höheren Werte (≈1) des Korrelationskoeffizienten und kleineren Werte des durchschnittlichen Vorhersagefehlers (%) unterstützt. Es kann somit gefolgert werden, dass der vorliegenden Erfindung die Verbesserung der Vorhersagegenauigkeit und auch der Generalisierungsleistung des KNN-Modells für den CSTR gelungen ist.
Tabelle 3: Optimale Rauschtoleranzwerte für die Eingabe- und Ausgabevariablen, so wie die anhand der GA-basierten Strategie für den CSTR-Prozess erhalten werden.
Tabelle 4: Vergleich der RMSE-Werte, Korrelationskoeffizienten und durchschnittlichen Vorhersagefehler, die anhand von nicht rauschüberlagerten und rauschüberlagerten Trainingdatensätzen für den CSTR-Prozess erhalten werden.
VORTEILE:

(1) Einfacher Implementierungsformalismus zum Aufbau nichtlinearer künstlicher neuronaler Netzmodelle in Gegenwart von Daten, die instrumentelles Rauschen und/oder Messfehler umfassen.
(2) Kosteneffektive Methodik, da sie einen erweiterten Trainingdatensatz ausschließlich durch Computersimulation erzeugt und dabei die Erfassung zusätzlicher Prozessdaten zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsfähigkeit künstlicher neuronaler Netzmodelle vermeidet.
(3) Die erfundene Methodik erzeugt rauschüberlagerte Trainingdaten zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsfähigkeit künstlicher neuronaler Netzmodelle, wobei die Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, nicht willkürlich, sondern anhand einer neuen und leistungsfähigen stochastischen Optimierungstechnik, insbesondere von genetischen Algorithmen, selektiert wird.
(4) Durch den Gebrauch genetischer Algorithmen kann die global (und nicht lokal) optimale Rauschstärke, die jeder Eingabe/Ausgabevariablen der Beispieldaten hinzugefügt werden soll, erhalten werden.
(5) Die erfundene Methodik funktioniert sogar, wenn die Beispieldaten nicht zur Führung des KNN-Training geeignet sind, das sie zusätzliche Trainingdaten anhand der rauschüberlagerten Technik erstellt.
(6) Die Methodik ist genügend generell, um ihre Anwendung zur Modellierung und Klassifikation von nichtlinearen Systemen multipler Eingabe und multipler Ausgabe zu gewährleisten.
(7) Die erfundene Methodik kann für Echtzeitanwendungen benutzt werden, die auf einer Modellierung und Klassifikation auf Basis künstlicher neuronaler Netze beruhen.
(9) Der erfundene Formalismus kann in wirksamer Weise für die Implementierung anhand paralleler Computer parallelisiert werden.
(10) Die Implementierung der vorliegenden Erfindung ist vollautomatisch und erfordert nur ein minimales oder kein Eingreifen des Benutzers.

Claims

Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung nichtlinearer künstlicher neuronaler Netzmodelle, wenn, als Beispielsatz bekannte Eingabe/Ausgabedaten, die zum Aufbau des Netzmodells verfügbar sind, instrumentelles Rauschen und/oder Messfehler umfassen, wobei das Verfahren einen genetischen Algorithmus verwendet, um eine optimale Verbesserung der Vorhersagegenauigkeit zu finden, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: (a) Zufälliges Generieren einer Ausgangspopulation von Kandidatenlösungen, wobei jede Lösung eine mögliche Gaußsche Rauschstärke beschreibt, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, wobei die Rauschstärke für jede Variable spezifisch ist; (b) für jede Kandidatenlösung der Population: (i) Erstellen eines Musterdatensatzes durch Überlagern der Rauschwerte der laufenden Kandidatenlösung auf dem Beispielsatz und (ii) Berechnen der Tauglichkeit des rauschüberlagerten Musterdatensatzes, indem der Musterdatensatz als Trainingsatz verwendet wird, um das künstliche neuronale Netzmodell zu trainieren und die mittlere quadratische Abweichung des Ausgangs des auf diese Weise trainierten künstlichen neuronalen Netzmodells in Bezug auf den Beispielsatz zu messen, wobei die Lösung zum Erzeugen des kleinsten Fehlers als die tauglichste Lösung betrachtet wird; (c) Erstellen der nächsten Generation von Kandidatenlösungen der Population anhand einer bekannten Algorithmusmethodik; (d) Wiederholen der Schritte (b) und (c) für eine vordefinierte Anzahl von Generierungen und (e) Auswählen der Kandidatenlösung mit dem höchsten Tauglichkeitswert und dem künstlichen neuronalen Netzmodell, das mit dem rauschüberlagerten Musterdatensatz trainiert wird, welcher der Lösung als jener, der eine optimale Verbesserung der Vorhersagegenauigkeit bereitstellt, entspricht.
Verfahren nach Anspruch 1, wobei die optimale Verbesserung global optimal ist.
Verfahren nach Anspruch 1, wobei der Beispielsatz als "Testsatz" zu Überwachung der Generalisierungsleistung des künstlichen neuronalen Netzmodells dient.
Verfahren nach Anspruch 1, wobei die künstliche neuronale Netzarchitektur "vorwärtsgerichtet" ist, das heißt, dass der Informationsfluss im Netz in einer Richtung von der Eingabeschicht zur Ausgabeschicht fließt.
Verfahren nach Anspruch 4, wobei die vorwärtsgerichete künstliche neuronale Netzarchitektur Multilayer-Perceptron-Netze, Funktionsnetzwerke auf Radialbasis und neuronale Counterpropagation-Netze umfasst.
Verfahren nach Anspruch 1, wobei der für den Aufbau oder das Training des künstlichen neuronalen Netzmodells Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP umfasst.
Verfahren nach Anspruch 1, wobei die genetische Algorithmus-Methodik einen oder mehrere Algorithmen für Simulated Annealing (Simuliertes Abkühlen), simul tane stochastische Perturbationsapproximation, evolutionäre Algorithmen und Memetik-Algorithmen umfasst.
Verfahren nach Anspruch 1, wobei das zufällige Generieren den Einsatz von Computersimulationen ab dem kleinen Eingabe-Ausgabe-Datensatzbeispiel umfasst.
Verfahren nach Anspruch 1, wobei das Generieren die Generierung rauschüberlagerter Musterein- und ausgabemodelle umfasst.