DE60217663T2 - Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern - Google Patents

Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern Download PDF

Info

Publication number
DE60217663T2
DE60217663T2 DE60217663T DE60217663T DE60217663T2 DE 60217663 T2 DE60217663 T2 DE 60217663T2 DE 60217663 T DE60217663 T DE 60217663T DE 60217663 T DE60217663 T DE 60217663T DE 60217663 T2 DE60217663 T2 DE 60217663T2
Authority
DE
Germany
Prior art keywords
noise
output
input
artificial neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60217663T
Other languages
English (en)
Other versions
DE60217663D1 (de
Inventor
Dattatray Bhaskar Pune KULKARNI
Shrikrishna Sanjeev Pune TAMBE
Budhaji Jayaram Pune LONARI
Reliance Industries Ltd. Neelamkumar VALECHA
Vasantrao Sanjay DHESHMUKH
Reliance Industries Ltd. Bhavanishankar SHENOY
Reliance Industries Ltd. Sivaraman RAVICHANDRAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Council of Scientific and Industrial Research CSIR
Original Assignee
Council of Scientific and Industrial Research CSIR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Council of Scientific and Industrial Research CSIR filed Critical Council of Scientific and Industrial Research CSIR
Application granted granted Critical
Publication of DE60217663D1 publication Critical patent/DE60217663D1/de
Publication of DE60217663T2 publication Critical patent/DE60217663T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung bezieht sich auf ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung künstlicher neuronaler Netzmodelle in Gegenwart von Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler umfassen.
  • ALLGEMEINER STAND DER TECHNIK
  • Künstliche neuronale Netze (KNNs) eignen sich zur Modellierung komplexer multipler Eingaben und multipler Ausgaben nichtlinearer Prozesse aufgrund ihrer Fähigkeit zur Approximation nichtlinearer Beziehungen bis zu einem willkürlichen Genauigkeitsgrad (T. Poggio und F. Girosi, Regularization algorithms for learning that are equivalent to multilayer networks. Science, 274, 978, 1990). Demzufolge wurden künstliche neuronale Netze umfangreich in der Industrie zur Erstellung von Online- und Offline- Vorhersagen von Prozessvariablen benutzt. Zu den industriellen Anwendungsmöglichkeiten von KNNs zählt die Prozessidentifikation, stationäre und dynamische Prozessmodellierung, Fehlererkennung und -diagnose, Softsensorentwicklung und nichtlineare Prozesssteuerung und -überwachung. Diese Anwendungen künstlicher neuronaler Netze wurden von Tambe und Mitautoren (S.S. Tambe, B.D. Kukami, P.P. Deshpande, Elements of Artificial Neural Networks with Selected Applications in Chemical Engineering, und Chemical & Biological Sciences, Simulation & Advanced Controls Inc., Louisville, USA 1996) umfassend nachgeprüft. Während jedes Prozessvorgangs werden riesige Mengen von Prozesseingabe- und Ausgabedaten erzeugt, die zur Entwicklung von KNN-Modellen, welche die Werte von Prozessausgabevariablen vorhersagen können, benutzt werden. Gewünschte Kenngrößen eines KNN-Modells sind Folgende: (i) Es sollte die im Eingabe-Ausgabe-Datensatzbeispiel enthaltenen Ausgaben, die für seinen Aufbau benutzt werden, genau vorhersagen können, und (ii) es besitzt eine gute Generalisierungsfähigkeit. Herkömmliche KNN-Modelle werden anhand eines Gewichtsanpassungsalgorithmus trainiert, der eine vorbestimmte Kosten(Fehler)-Funktion minimiert. Es kann festgestellt werden, dass die Form der Kostenfunktion vollständig die stochastischen Eigenschaften (Geräuschempfindlichkeit) des resultierenden KNN-Modells bestimmt. Zum Beispiel erzielt der meistverwendete Fehler-Rückpropagierungsalgorithmus (D. Rumelhart, G. Hinton, R. Willimans, Learning representations by backpropagating errors, Nature, 323, 533, 1986) eine Minimierung der mittleren quadratischen Abweichung (RMSE). In jedem großen Satz von Prozessdaten ist die Gegenwart instrumentellen Rauschens und/oder von Messfehlern unmittelbar bevorstehend. Die Gegenwart von Rauschen und/oder Fehlern in den Eingabe/Ausgabedaten, die für das Netztraining benutzt werden, schafft eine Schwellenwertgrenze für die Genauigkeit von Modellvorhersagen und die durch das Modell dargestellte Generalisierungsleistung. Dies geschieht vor allem deshalb, weil das Netz versucht, die durchschnittliche Beziehung, die zwischen den Eingabe- und Ausgabedaten, die das Rauschen und/oder Fehler enthalten, besteht, zu approximieren (lernen). Da das Netz das Rauschen und Fehler in den Daten ignoriert, ist die durchschnittliche Beziehung, die es erfasst, mit Ungenauigkeiten behaftet. Bedeutende Ungenauigkeiten in der Vorhersage können nicht toleriert werden, da eine signifikante Anzahl von Steuerungs- und Strategieentscheidungen zum Prozessvorgang auf vom Modell hergestellten Vorhersagen basieren. Beispielsweise sind in Polymerisationsreaktoren die Vorhersage von Qualitätsvariablen wie der Schmelz-Index, der Stressexponent (Sex), usw. bei der Entscheidung des erzeugten Polymergrads wichtig. Ein KNN-Modell, das die Fähigkeit zur Generalisierung aufweist, sagt nicht nur die Ausgaben in den für seine Entwicklung benutzten Daten (Beispielsatz) voraus, sondern auch diejenigen, die einer neuen Eingabe oder neuen Eingabedaten entsprechen. Es ist folglich ausschlaggebend, dass ein KNN-Modell nicht nur eine ausgezeichnete Vorhersagegenauigkeit, aber auch eine gute Generalisierungseigenschaft besitzt.
  • Gorp und seine Berufskollegen (J.V. Gorp, J. Schoukens, R. Pintelon, Learning neural networks with noisy inputs using the errors-in-variable approach, Transactions on Neural Networks A. 180, 1-14, 1999) haben beobachtet, dass in gewerblicher Software die meisten KNN-Modelle anhand einer einfachen Ausgabefehler-Kostenfunktion trainiert werden, und dies kann zu schwerwiegenden Bias-Fehlern in der vorausgesagten Ausgabe des Netzes im Fall rauschender Eingabedaten führen. Die Autoren zeigen, dass die Gegenwart von Rauschen sogar die Ableitungen höherer Ordnung der Transferfunktion des KNN-Modells unterdrückt, und ein Bias-Fehler wird eingeführt, wenn die herkömmlichen Kleinstquadrat-Kostenfunktionen verwendet werden. Dementsprechend empfiehlt ein Verfahren zur Verbesserung der KNN-Generalisierungsleistung, die Kostenfunktion der mittleren quadratischen Abweichung (RMSE) durch eine neue Kostenfunktion, zum Beispiel die Fehler-in-Variablen-Funktion zu ersetzen (J.V. Gorp, J. Schoukens, R. Pintelon, Learning neural networks with noisy inputs using the errors-in-variables approach, Transactions on Neural Networks A. 180, 1-14, 1999). Der Nachteil des Fehler-in-Variablen-Verfahrens besteht darin, dass zu seiner Implementierung die Kenntnis von Varianzen, die die Eingaben und Ausgaben betreffen, erforderlich sind. Bei vielen praktischen Einstellungen ist diese Information nicht verfügbar, so dass der Nutzen des Fehler-in-Variablen-Verfahrens stark eingeschränkt ist. Obschon die Methodik besser bei Rauschmessungen wirkt, erfordert sie ferner einen großen Speicher und kann in einem lokalen Minimum erreicht werden. Alternative Verfahren wie (i) das Verwenden von Fehler-in-Variablen-Verfahren als Nachbearbeitungstool nach der Anwendung der Ausgabefehlermethode, (ii) der Gebrauch gemessener ingabe- und Ausgabewerte anstatt der geschätzten Werte und (iii) modifizierte Lern- und Optimierungssysteme werden verschiedenartig vorgeschlagen und dargestellt (J.V. Gorp, J. Schoukens, R. Pintelon, The errors in variables cost function for learning neural networks with noisy inputs, Intelligent Engineering Systems Through Artificial Neural Networks, 8, 141-146, 1988.
  • Literatur, die über die Effekte des Hinzufügens von Rauschen auf die Leistung eines KNN-Modells berichtet, ist relativ selten, und bislang wurden nur ein paar systematische Untersuchungen durchgeführt. Es ist im Allgemeinen bekannt, dass das Hinzufügen von Rauschen zu den Trainingdaten die Erzielung eines Modells unterstützt, das eine bessere Generalisierungsleistung besitzt. Sietsma und Dow (J. Sietsma, R.J. Dow, Creating artificial neural networks that generalize, Neural Networks 4, 67-79, 1991) haben über die günstigen Auswirkungen von Rauschen und hinzugefügtem Pseudo-Gauß-verteiltem Rauschen zu jedem Element des Trainingsmusters (Vektor) berichtet. Sie zeigten, dass das Training mit dem Hinzufügen von Rauschdaten die Klassifikationsfähigkeit der mehrschichtigen Perceptron-Netze verbessert. Die Untersuchung gab auch zu erkennen, dass jetzt eine größere Anzahl von Netzknoten erforderlich ist und dass jeder Knoten auf unabhängige Weise zur Lösung beiträgt; es ist auch möglich, dass einige Einheiten ohne signifikanten Beitrag zur Netzausgabe über eine geeignete Netz-Ausastungsstechnik entfernt werden können. Diesen Gesichtspunkt teilen auch Minai und Willimans (A.A. Minai, R.D. Willimans, Perturbation response in feedforward networks, Neural Networks, 7(5), 783-796, 1994) mit ihrem Vorschlag, größere Netze zu generieren, wo jeder Knoten in einem kleineren Ausmaß in Richtung der Globalberechnung mitwirkt. In einer anderen vollständigen Untersuchung, untersuchte An (G. An, The effects of adding noise during backpropagation training on a generalization performance, Neural Comput., 8, 643-674, 1996) die Effekte des Hinzufügens von Rauschen auf die Generalisierungsleistung eines Fehler-Rückpropagierungs-basierten Netztrainings. Somit führte An in seiner Untersuchung eine getrennte Analyse der Effekte von Rauschen in den Eingaben, Gewichten und den Ausgaben auf die Vorhersageleistung des Netzes aus. Die Untersuchung gab ferner zu erkennen, dass Rauschen in den Ausgaben nicht die Generalisierung verbessert, während Rauschen in den Eingaben und Gewichten hilfreich ist. Außerdem wurde beobachtet, dass das Netztraining anhand von Langevin-Rauschen zur globalen Minimierung führt, die jener, die anhand des Ansatzes des Simulierten Annealing (Simuliertes Abkühlen) erhalten wird, ähnlich ist. In einer theoretischen Untersuchung beansprucht Bishop (C.M. Bishop, Training with noise is equivalent to Tikhonov regularization, Neural Comput., 7, 108-116, 1995), dass der durch das Rauschen induzierte Störterm einer Klasse generalisierter Regularisierer entspricht. Die Regularisierung (T. Poggio, F. Girosi, Regularization algorithms for learning that are equivalent to multilayer networks. Science, 247, 978, 1990) modifiziert die Störfunktion durch das Hinzufügen eines Bestrafungsterms und steuert die vom Netz erzeugte Varianz. Im Wesentlichen sorgt das Hinzufügen von Rauschen in den Trainingdaten für eine Art Glättung, und das Verfahren wirkt, weil die durch die KNN zu lernenden Funktionen im Allgemeinen glatt sind oder mindestens stückweise kontinuierlich in einer endlichen Anzahl von Bereichen sind. Die Feststellung drückt die untergeordnete Vermutung aus, dass für ein gut gestelltes Problem eine einzige Lösung besteht und dass kleine Störungen in den Daten nur kleine Schwankungen in der Lösung erzeugen sollten. In anderen Worten werden für zwei ähnliche Eingaben zwei ähnliche Ausgaben erwartet.
  • Für einen gegebenen Beispieldatensatz können folglich zusätzliche Netztrainingmuster durch Überlagerung kleiner Rauschstärken erzeugt werden. Die Rauschgröße muss klein sein, da eine große Rauschstärke eindeutig die eigentliche Beziehung zwischen den Eingaben und Ausgaben verzerrt, während zu kleine Rauschstärken zu unwesentlichen Änderungen ohne Auswirkung führen. Die sofortige Folge ist, dass die 'kleine' Rauschstärke, die auf den Eingabe/Ausgabebeispieldaten überlagert werden soll, genau quantifiziert werden muss. Es kann festgestellt werden, dass in nichtlinearen Systemen, die in der Herstellungs- und Verarbeitungsindustrie in Hülle und Fülle existieren, die Empfindlichkeit, mit welcher Änderungen in einer Eingabevariablen die Ausgabevariable beeinflussen, signifikant abweichen können. Es ist folglich erforderlich, dass variierende Größen von Rauschen jeder Eingabe- und Ausgabevariablen hinzugefügt werden. Die Bestimmung der genauen Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, ist eine komplizierte Angelegenheit, und die vorliegende Erfindung stellt einen genetischen Algorithmus auf der Basis einer effektiven Lösung zur Behandlung dieses Problems bereit.
  • Genetische Algorithmen (D.E. Goldberg, Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley, New York, 1989, J. Holland, Adaptation in Natural and Artificial Systems, University of Michigan Press, Ann Arbor, MI, USA) sind Elemente einer Klasse von Formalismen zur Minimierung/Maximierung von Funktionen, die als 'stochastische Optimierungsalgorithmen' bekannt sind. Sie basieren auf Mechanismen der natürlichen Auslese und Genetik, die eine entscheidende Rolle in der Darwinschen Evolution biologischer Organismen spielen. Die genetischen Algorithmen (GAs) sind beim Suchen rauschender, diskontinuierlicher, multimodaler und nicht konvexer Lösungsräume als effizient bekannt, und ihre kennzeichnenden Merkmals sind Folgende: (i) Sie sind Suchtechniken 'nullter' Ordnung, die bedeuten, dass die GAs nur die Skalarwerte und nicht die Ableitungen von der zu optimierenden objektiven Funktion benötigen, (ii) GAs führen eine globale Suche durch und konvergieren infolgedessen meistens zum globalen Optimum auf der Zielfunktionsfläche, (iii) das von den GAs verwendete Suchverfahren ist stochastisch, und sie können infolgedessen ohne Berufung auf Ad-hoc-Annahmen, wie beispielsweise Glätte, Differenzierbarkeit und Kontinuität, die sich auf die Form der Zielfunktion beziehen, verwendet werden (aufgrund dieses Merkmals lassen sich GAs zur Lösung von Optimierungsproblemen, die nicht anhand üblicher gradientenbasierter Algorithmen gelöst werden können, benutzen, welche die Zielfunktion erfordern, um gleichzeitig die zuvor erwähnten Kriterien zu erfüllen) und (iv) die GA-Prozedur kann in wirksamer Weise parallelisiert werden, was ein effizientes und schnelles Suchen eines großen mehrdimensionalen Lösungsraums unterstützt. Die vorliegende Erfindung offenbart ein Verfahren auf der Basis eines genetischen Algorithmusses, um den optimalen Rauschpegel zu erreichen, der jeder Eingabe/Ausgabevariablen des Beispielsatzes hinzugefügt werden soll, wodurch ein erweiterter rauschüberlagerter Musterdatensatz für die Verwendung beim KNN-Training derart erstellt wird, dass das trainierte Netz eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt.
  • Bei der GA-Prozedur beginnt die Suche nach einem optimalen Lösungsvektor (auch Entscheidungsvektor genannt), der den Toleranzwert des auf die Eingabe/Ausgabevariablen im Beispielsatz zu überlagernden Rauschens darstellt, ab einer zufällig initialisierten Population wahrscheinlicher (Kandidaten)-Lösungen. Die Lösungen, die üblicherweise in Form von Binär-Strings (Chromosomen) codiert sind, werden dann getestet, um ihre Tauglichkeit bei der Erfüllung des Optimierungsziels zu messen, das heißt die Funktionsminimierung oder -maximierung. Danach werden die Kandidatenlösungen in absteigender Reihenfolge ihrer Tauglichkeitsauswertung eingeordnet, und eine Hauptschleife von GA-Operationen mit Selektion, Crossover und Mutation wird auf der eingeordneten Population ausgeführt. Die Implementierung der Schleife erzeugt eine neue Population von Kandidatenlösungen, der es im Vergleich zur laufenden Population üblicherweise bei der Erfüllung des Optimierungsziels besser ergeht. Der beste String, der nach mehrmaliger Wiederholung der zuvor beschriebenen Schleife entsteht, bildet die Lösung des Optimierungsproblems. Während der Schätzung der Tauglichkeit eines Lösungsvektors werden die darin enthaltenen spezifischen Rauschtoleranzwerte der Eingabe/Ausgabevariablen zur Erzeugung einer großen Anzahl rauschüberlagerter Eingabe-Ausgabe-Musterdatensätze verwendet, die jedem Muster im Beispielsatz entsprechen; der resultierende vergrößerte Datensatz wird dann zum Training des neuronalen Netzes mit dem Ziel einer minimierten Kleinstquadrat-Kostenfunktion wie die mittlere quadratische Abweichung bzw. RMSE benutzt. Das Training des KNN wird anhand eines gradientenbasierten oder sonstigen geeigneten gewichtsaktualisierenden Formalismus durchgeführt. Die Größenordnung der dabei erhaltenen mittleren quadratischen Abweichung bzw. RMSE wird zur Berechnung des Tauglichkeitswerts der Kandidatenvektorlösung, die Rauschtoleranzen umfasst, benutzt. Das Netz, das über die erzeugten Daten anhand der GA-optimierten Rauschtoleranzwerte trainiert wird, approximiert die wahre Eingabe/Ausgabe-Beziehung besser in Gegenwart von instrumentellem Rauschen und/oder Messfehlern und besitzt infolgedessen eine gute Vorhersagegenauigkeit und Generalisierungsleistung.
  • Der vorliegenden Erfindung liegt die Berücksichtung von zwei Beispielen zugrunde, nämlich (i) das KNN-basierte Modellieren eines industriellen Polymerisationsreaktors und (ii) das KNN-basierten Modellieren von im kontinuierlichen Betrieb durchmischten Kesselreaktoren CSTR (Continuous Stirred Tank Reactor), wobei eine exothermische konsekutive A → B → C-Reaktion stattfindet. Die erhaltenen Vorhersagegenauigkeiten anhand des erfundenen Verfahrens werden mit jenen verglichen, die anhand einer üblicherweise verwendeten Netztrainingprozedur erhalten werden.
  • Die US-Patentschrift 5,412, 256 offenbart ein Verfahren zum Lernen eines künstlichen neuronalen Netzes anhand einer simulierten Abkühlungstechnik (Simulated Annealing). Die simulierte Abkühlungstechnik bedingt das Stören der Schwellenwertsignale aller Neuronen in einer zufälligen Weise, während Klemmsignale an alle Neuronen in einem oder beiden der Eingabe- und Ausgabeschichten des Netzes angelegt werden. Das störende Zufallssignal kann von einem elektrischen Rauschgenerator erhalten werden, der mit dem Neuron verbunden ist. Indem Rauschen eingeführt wird, wird in das neuronale Netz eine der Wärmeenergie entsprechende Menge in ein physikalisches System eingeführt. Die "Hitze" wird ans Netz angelegt, um das Netz zu veranlassen alle möglichen Zustände zu inspizieren. Dann, in dem Maße wie die Temperatur (d.h. der Rauschpegel) auf ein ungefähres Minimum reduziert wird, besteht eine hohe Wahrscheinlichkeit, dass sich das Netz auf seinem niedrigsten Energiezustand, d.h. dem globalen Minimum, festlegt.
  • AUFGABEN DER ERFINDUNG
  • Eine Aufgabe der vorliegenden Erfindung besteht in der Schaffung eines Verfahrens zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung eines künstlichen neuronalen Netzmodells in Gegenwart von Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler enthalten. Insbesondere wurde eine Methodik zum Erstellen eines Gaußschen rauschüberlagerten erweiterten Musterdatensatzes zur Eingabe/Ausgabe anhand von Computern für den Einsatz im Netztraining erfunden, wobei die jeder Eingabe/Ausgabevariablen hinzuzufügende Rauschstärke anhand einer Strategie auf Basis eines genetischen Algorithmusses (GA) optimiert ist. Der GA-basierte Ansatz legt den optimalen Rauschpegel fest, der den Eingabe/Ausgabevariablen der Beispieldaten nach dem Diktum, dass zwei ähnliche Eingaben zwei ähnliche Ausgaben ergeben sollten, hinzugefügt werden soll.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Die vorliegende Erfindung verwendet künstlich erstellte rauschüberlagerte Eingabe/Ausgabedatenmuster zum Aufbau von KNN-Modellen, die eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzen. Im Wesentlichen zwingt das in dieser Erfindung vorgestellte Verfahren ein KNN, die rauschenden Beziehungen, die zwischen seinen Eingaben und Ausgaben bestehen, zu lernen. Die erfundene Methodik benutzt Rauschtoleranzwerte, die für jede Eingabe/Ausgabevariable spezifisch sind, um einen rauschüberlagerten erweiterten Musterdatensatz für das Netztraining zu erstellen. Insbesondere wird das Gaußsche Rauschen bekannter Toleranz jeder Eingabe- und Ausgabevariablen des Beispielsatzes hinzugefügt, und auf diese Weise werden multiple rauschüberlagerte Modelle erzeugt, die jedem Modell im Beispielsatz entsprechen. In der vorliegenden Erfindung werden spezifische Toleranzwerte für jede Eingabe/Ausgabevariablen anhand eines neuen evolutionären stochastischen Optimierungsformalismus, der als 'Genetischer Algorithmus' bekannt ist, optimiert. Es hat sich herausgestellt, dass die über die rauschüberlagerten erweiterten Musterdaten trainierten KNN-Modelle eine verbesserte Vorhersagegenauigkeit und Generalisierungsfähigkeit besitzen.
  • NÄHERE BESCHREIBUNG DER ERFINDUNG
  • Dementsprechend stellt die vorliegende Erfindung ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung nichtlinearer künstlicher neuronaler Netzmodelle bereit, wenn die als Beispielsatz bekannten Eingabe/Ausgabedaten, die zum Aufbau des Netzmodells verfügbar sind, instrumentelles Rauschen und/oder Messfehler, so wie in Anspruch 1 dargelegt, umfassen.
  • Die Gaußsche Rauschstärke, die jeder Eingabe-Ausgabevariablen des Beispielsatzes hinzugefügt werden soll, kann optimiert werden, um global optimal zu sein. Der Beispielsatz kann als 'Testsatz' zur Überwachung der Generalisierungsleistung des künstlichen neuronalen Netzmodells verwendet werden. Die künstliche neuronale Netzarchitektur kann 'vorwärtsgerichtet' sein, das heißt, dass der Informationsfluss im Netz in einer Richtung von der Eingabeschicht zur Ausgabeschicht fließt. In diesem Fall kann die vorwärtsgerichtete neuronale Netzarchitektur Multilayer-Perceptron-Netze, Funktionsnetzwerke auf Radialbasis und neuronale Counterpropagation-Netze umfassen. Die stochastische Suche und Optimierungstechnik, die zur Optimierung der Rauschtoleranzen verwendet wird, betrifft genetische Algorithmen und verwandte Verfahren, insbesondere Simulated Annealing (Simuliertes Abkühlen), simultane stoachastische Perturbationsapproximation, evolutionäre Algorithmen (EA) und Memetik-Algorithmen (MA). Ein erweiterter rauschüberlagerter Eingabe-Ausgabe-Musterdatensatz kann anhand von Computersimulationen ab dem kleinen Eingabe-Ausgabesatz erstellt werden. Die Erfindung wird ferner beispielhaft in den folgenden Ausführungen dargestellt. Betrachten wir P als Anzahl der Eingabe-Ausgabenmusterpaare [(x1, y1), (x2, y2), ..., (xp, yp), ..., (xp, yp)], die einen Beispielsatz darstellen. Der Zusammenhang zwischen dem N-dimensionalen Eingabevektor xp und dem entsprechenden K-dimensionalen Ausgabevektor yp wird durch einen K-dimensionalen nichtlinearen Funktionsvektor f, der als yp = f(xp) bezeichnet ist, beeinflusst. Die xp- und yp-Vektoren werden auch jeweils als Eingabemodell bzw. -pattern und entsprechendes Ausgabe(Ziel)modell bzw. -pattern bezeichnet. Der pte N-dimensionale Eingabevektor xp ist als [xp1, xp2, ..., xpN]r definiert und der entsprechende K-dimensionale Zielausgabevektor yp als [yp1, yp2, ..., ypK]T. Ein vorwärtsgerichtetes neuronales Netz wie MPL (siehe 1) approximiert die nichtlineare Beziehung zwischen xp und yp' so wie gegeben durch yp = f(xp, WH, WO) (1)wobei die Matrizen WH und WO die Gewichte auf Verbindungen zwischen jeweils der Eingabe des MLP und den verborgenen Schichtknoten und den verborgenen und Ausgabeschichtknoten ist. Das allgemeine Ziel des Trainings eines MLP-Netzes besteht darin, geeignete Kleinstquadrate zu minimieren.
  • Die Störfunktion, beispielsweise die mittlere quadratische Abweichung (RMSE), die bezeichnet wird als (S. Nandi, S. Ghosh, S.S. Tambe, B.D. Kulkarni, Artificial neural-network-assisted stochastic process optimization strategies. AIChE J., 47, 126, 2001):
    Figure 00120001
    wobei i den Index des Eingabemodells bzw. -pattern (i = 1, 2, ..., Npat) bezeichnet; K bezieht sich auf Anzahl der Ausgabeknoten und Ei stellt die Summe der Fehlerquadrate (SSE = sum-squared-error) dar, die definiert ist als
    Figure 00120002
    wobei y k / i die effektive Ausgabe des k-ten Ausgabeknoten betrifft, wenn das i-te Eingabemuster für die Eingabeschicht des Netzes angewandt wird und o k / i bezeichnet die entsprechende Zielausgabe. Die Aufgabe der RMSE-Minimierung wird durch Verwendung einer geeigneten Gradientenabstiegstechnik erfüllt, wie beispielsweise die generalisierte Deltaregel (GDR) auf Basis von Fehler-Rückpropagierung, konjugierten Gradienten oder fortgeschritteneren Methodiken, nämlich Quickprop (S.E. Fahlman, Faster-learning variations on back-propagation: Proceedings of the 1988 Connectionist Models Sommer School, D.S. Touretzky, G.E. Hinton und T.J. Sejnowski, Eds., Seiten 38-51, Morgan Kaufmann, San Mateo, CA, 1988) und Resilient Back-Propagation (RPROP) (M. Riedmiller, H. Braun, A direct adaptative method for faster backpropagation learning: The RPROP algorithm. Proc. of IEEE Int. Conf. On Neural Net, Sans Francisco, CA, 28. März bis 1. April 1993). Netztraining ist eine iterative Prozedur, die mit der Initialisierung der Gewichtsmatrizen WH und WO auf zufällige Weise beginnt. Eine Trainingiteration besteht aus zwei Arten von Verarbeitungsschritten, insbesondere vorwärts und rückwärts, durch die Netzschichten. Beim Vorwärts-Verarbeitungsschritt werden ein Eingabemuster von dem Trainingdatensatz an den Eingabeknoten und Ausgaben der verborgenen Knoten geschätzt. Zur Berechnung der spezifizierten Ausgabe wird zunächst die gewichtete Summe der Eingabe zu einem verborgenen Knoten ermittelt, der dann anhand einer nichtlinearen Aktivierungsfunktion wie Logistic Sigmoid verändert wird. Die Ausgaben der verborgenen Knoten bilden Eingaben zu den Ausgabenschichtknoten, deren Ausgaben auf ähnliche Weise geschätzt werden wie jene der verborgenen Knoten. Die Ausgabe der Ausgabenschichtknoten, die auch als Netzausgabe bezeichnet werden, wird mit der Zielausgabe verglichen, und im Rückwärts-Verarbeitungsschritt wird die Differenz zwischen dem Netz und Zielausgaben (Vorhersagefehler) für die Aktualisierung der Gewichtsmatrizen WH und WO verwendet. Die Gewichtsaktualisierungsprozedur beendet, wenn sie für alle Modelle im Trainingsatz wiederholt wird, eine Trainingiteration. Es kann festgestellt werden, dass die Gewichtsmatrizen WH und WO anhand verschiedener Verfahren wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP aktualisiert werden können. Bei der gemäß der vorliegenden Erfindung vorgeschlagenen Methodik wird ein rauschüberlagerter erweiterter Eingabe-Ausgabe-Musterdatensatz von dem Beispielsatz erstellt, um als Trainingdaten zu dienen und wobei die optimale Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, anhand eines genetischen Algorithmusses bestimmt wird, so dass das resultierende KNN-Modell eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt. Die erfundene Methodik zur Optimierung der jeder Eingabe/Ausgabevariablen des Beispielsatzes hinzuzufügenden Rauschstärke ist nachstehend dargelegt.
  • Gegeben sei die P die Anzahl der N-dimensionalen Eingabevektoren im Beispielsatz als [PxN]-Eingabematrix X und die gleichwertige Anzahl entsprechender K-dimensionaler Ausgabevektoren als [PxK]-Ausgabematrix Y. Die vorliegende Erfindung erstellt rauschüberlagerte Matrixversionen X ^ und Y ^ von den entsprechenden Matrizen X und Y, die als Trainingeingabe- und -ausgabesätze für das KNN-Training verwendet werden. Die hinzuzufügende (normalerweise verteilte) Gaußsche Rauschstärke ist spezifisch für eine Eingabe/Ausgabevariable und im Sinne eines Toleranzprozensatzes gekennzeichnet. Die Rauschtoleranzvektoren, die zum Einführen von Rauschen in die Eingabematrix X und die Ausgabematrix Y verwendet werden sollen, sind jeweils als
    ε1 und ε0 definiert. Der N-dimensionale Rauschtoleranzvektor, der das jedem Element des N-dimensionalen Eingabevektors hinzuzufügende Rauschen kennzeichnet, ist definiert als: ε1 = [ε11 , ε12 , ..., ε1n , ..., ε1N ] (4)und sein n-tes Element ε 1 / n wird zum Einführen des Gaußschen Rauschens in die n-ten Säulenelemente {xpn}; p = 1, 2, ..., P der Eingabematrix X verwendet. Der Rauschtoleranzwert ε 1 / n wird definiert als ε1n = (3.09 × 100) × (δlpn /xpn); n = 1, 2, ..., N (5),wobei xpn und δ l / pn die mittlere und Standardabweichung der Gaußschen Verteilung bezeichnet.
  • Durch Umgestaltung der Gleichung 5 lässt sich die Standardabweichung berechnen als σlpn = (εln × xpn)/(3.09 × 100) (6).
  • Durch Verwendung von xpn (n = 1, 2, ..., N) als mittlere Abweichung und σ l / pn (n = 1, 2, ..., N) als Standardabweichung der Gaußschen Verteilung wird eine Anzahl M rauschüberlagerter Mustereingabemodelle erzeugt (anhand von Computersimulationen), die (p = 1, 2, ..., P) Eingabemodellen im Beispielsatz entsprechen. Die resultierende rauschüberlagerte induzierte Eingabematrix (X ^) weist Dimensionen [(MP) × N] auf.
  • Ähnlich wie beim Rauschtoleranzvektor ε1 für die Eingaben definieren wir den K-dimensionalen Ausgaberauschtoleranzvektor ε0 als ε0 = [ε01 , ε02 , ..., ε0k , ..., ε0k ]T (7)
  • Das k-te Element ε 0 / k dieses Toleranzvektors wird zum Einführen des Gaußschen Rauschens in den k-ten Säulenelementen {yPk}, p = 1, 2, ..., P der Zielausgabematrix Y benutzt. Das Toleranzvektorelement ε 0 / k ist definiert als ε0k = (3.09 × 100) × (σ0pk /ypk) (8),wobei ypk und σ 0 / pk jeweils die mittlere Abweichung und Standardabweichung der Gaußschen Verteilung betreffen. Durch Umgestaltung der Gleichung 8, kann die Standardabweichung geschätzt werden als σ0pk = (ε0k × ypk)/3.09 × 100) (9)
  • Die rauschüberlagerte Musterausgabematrix Y ^ wird auf ähnliche Weise wie die Matrix X ^ anhand von Computersimulationen erzeugt; hier werden ypk (k = 1, 2, ..., K) und σ 0 / pk (k = 1, 2, ..., K) jeweils als mittlere Abweichung und Standardabweichung der Gaußschen Verteilung benutzt, und eine Anzahl M rauschüberlagerter Musterausgabemodelle (p = 1, 2, ..., P) wird gebildet, die dem p-ten (p = 1, 2, ..., P) Zielausgabemodell im Beispielsatz entsprechen. Die resultierende rauschüberlagerte Musterausgabematrix Y ^ weist Dimensionen [(MP) × K] auf. Während des KNN-Trainings werden die Matrizen X ^ und Y ^ als Trainingsdaten zur Eingabe/Ausgabe benutzt, während die Matrizen X und Y als Testdaten zur Eingabe/Ausgabe verwendet werden, um die Generalisierungsleistung des Netzes zu überwachen.
  • In einem System, wo die Beziehungen zwischen seinen Eingaben und Ausgaben nichtlinear sind, weisen die abhängigen (Ausgabe)variablen ein variierendes Ausmaß von Empfindlichkeit auf die Änderungen in den zufälligen (Eingabe)variablen auf. Somit wird die Bestimmung der genauen Rauschstärke, die jeder Eingabe/Ausgabevariable im Beispielsatz hinzugefügt werden soll (so wie durch die Toleranzvektorelemente ε1 and ε0 definiert) zu einem kritischen Problem. Die vorliegende Erfindung führt eine GA-basierte Methodik ein, um die genaue Rauschstärke, die den Eingabe/Ausgabeelementen des Beispieldatensatzes hinzugefügt werden soll, zu optimieren. Wenn die rauschüberlagerten Daten zum Training des Netzes benutzt werden, führen sie zu einem Netzmodell, das eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzt. Im Folgenden wird der GA-basierte Ansatz zur Optimierung der genauen Rauschstärke, die jedem Eingabe/Ausgebelement des Beispielsatzes hinzugefügt werden soll, beschrieben.
  • Die Aufgabe der GA-basierten Optimierung ist beschrieben als: Finden der optimalen Werte der spezifischen Rauschtoleranzen der Eingabe/Ausgabevariablen in einer Weise, dass der rauschüberlagerte erweiterte Trainingsatz, der anhand der Rauschtoleranzwerte erstellt wird, zu einem Netzmodell führt, das eine verbesserte Vorhersagegenauigkeit und Generalisierungsfähigkeit besitzt. Im Wesentlichen besteht die Aufgabe des GA darin, die optimalen Eingabe- und Ausgaberauschtoleranzvektoren ε1* = [ε 1* / 1, ε 1* / 2, ..., ε 1* / n, ..., ε 1* / N]T, und ε0*, = [ε 0* / 1, ε 0* / 2, ..., ε 0* / k, ..., ε 1* / K]T in einer Weise zu finden, dass, wenn sie zur Generierung des rauschüberlagerten erweiterten Eingabe/Ausgabe- Trainingdatensatzes benutzt werden, der RMSE-Fehler bezogen auf den Testsatz minimiert ist. Dementsprechend ist die durch den GA zu minimierende Zielfunktion der Testsatz RMSE, der definiert ist als:
    Figure 00170001
    wobei i den Index des Testeingabemodells (i = 1, 2, ..., Ntst) bezeichnet; K bezieht sich auf die Anzahl der Ausgabeknoten in der MLP-Architektur, Ntst stellt die Anzahl der Modelle im Testsatz dar und Ei stellt die Summe der Fehlerquadrate (SSE = sum-squared-error) dar, die dem i-ten Testmodell entspricht. Die Schritte des genetischen Algorithmus, die mit der RMSEtst-Minimierung einhergehen, sind:
    • (1) Initialisieren einer Population von Kandidatenlösungen: Setze den Generierungsindex (Ngen) auf Null und erzeuge eines Population von Npop Binärstrings (Chromosomen) auf zufällige Weise; jeder String, der eine Gesamtmenge von lchr Bits besitzt, wird in so viele Segmente aufgeteilt wie die Anzahl der Entscheidungsvariablen (N+K) optimiert werden kann. Beachte, dass die Dezimaläquivalente der (N+K) Binärsegmente eines Strings einen Kandidatenlösungsvektor darstellen, dessen erste N Elemente die Rauschtoleranzen, die den N Eingabevariablen entsprechen, beschreiben, und die nächsten K Elemente stellen die Rauschtoleranzen, die so vielen Ausgabevariablen entsprechen, dar. Somit kann die Population von Npop Kandidatenlösungen als kombinierter Satz von Eingabe/Ausgabe-Rauschtoleranzen beschrieben werden: {e0ln , e0lk }; l = 1, 2, ..., Npop; n = 1, 2, ..., N; k = 1, 2, ..., K (11)
    • (2) Tauglichkeitseignung: Verwende die l-te (l = 1, 2, ..., Npop) Kandidatenlösung in der laufenden Population, die ein Vektorpaar von Eingabe/Ausgabe-Rauschtoleranzen umfasst, um den Tauglichkeitswert dieser Lösung zu berechnen. Insbesondere kommen die Eingabe/Ausgabe-Rauschtoleranzwerte zum Erstellen des mit Gaußschen Rauschen überlagerten erweiterten Trainingsatzes {X ^, Y ^} gemäß der zuvor kurz dargestellten Prozedur (siehe ebenfalls die Gleichungen 6 und 9) zum Einsatz. Der auf diese Weise erstellte Trainingsatz wird zur Anpassung der Netzgewichtsmatrizen WH und WO im Rahmen eines geeigneten Lernalgorithmusses, wie beispielsweise die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP, verwendet. Während des Trainings dient der Beispielsatz der Eingänge/Ausgänge als Testsatz und der entsprechende Wert der mittleren quadratischen Abweichung (RMSEtst (1)) dient zur Berechnung der Tauglichkeit (ξl) der l-ten Kandidatenlösung anhand von ξl = 1/(1 + RMSEtst (l)); l = 1, 2, ..., Npop (12.)Beachte, dass die Art der in der Gleichung 12 definierten Tauglichkeitsfunktion eine von mehreren ist, die zum Schätzen des Tauglichkeitswerts ξl verwendet werden können. Außerdem ist es möglich, Tauglichkeitsfunktionen, die Bestrafungsterms einbeziehen (K. Deb, Optimization for Engineering Design, Algorithms and Examples, Prentice-Hall, New Delhi, 1995) zu verwenden. Bei der folgenden Tauglichkeitsschätzung sind die Kandidatenstrings in absteigender Reihenfolge ihres Tauglichkeitswerts eingeordnet.
    • (3) Selektion von Eltern: Wähle die Anzahl Npop der Elternchromosomen aus der laufenden Population, um den sogenannten Mating-Pool zu bilden. Mitglieder dieses Pools werden so gewählt, dass sie relativ hohe Tauglichkeitsauswertungen besitzen, und sie kommen zur Erzeugung von Nachkommenstrings zum Einsatz. Die üblicherweise zur Anwendung kommenden Elternauswahltechniken sind das Rouletterad-Verfahren und die stabilere Variante des Rouletterad-Verfahrens, die als stochastische Restauswahl bekannt ist (D.E. Goldberg, Genetic Algorithms in Search, Optimization, and Machine Learning, Addision-Wesley, New York, 1989.
    • (4) Crossover: Wähle auf zufällige Weise aus dem Mating-Pool die Anzahl Npop/2 der Elternpaare und führe die Crossover-Operation auf jedem Paar mit einer Crossover- Wahrscheinlichkeit von gleich Pcr (0 < Pc ≤ 1.0) durch. Beim Crossover ist jedes Mitglied eines Elternpaars am selben zufällig gewählten Crossover-Punkt abgetrennt. Als Ergebnis werden aus jedem Elternstring zwei Unterstrings gebildet; die Unterstrings werden gegenseitig zwischen Eltern ausgetauscht und kombiniert, um zwei Nachkommenchromosomen zu erhalten. Wenn die Crossover-Operation mit der Bezeichnung 'Ein-Punkt-Crossover' auf allen Elternpaaren durchgeführt wird, führt sie zu einer Population, die Npop Nachkommenstrings umfasst.
    • (5) Mutation: Führe die Mutationsoperation (Umfallen von Bits) auf den Nachkommenstrings, wo die Wahrscheinlichkeit, dass ein Bit umfällt (Null auf Eins oder umgekehrt) gleich Pmut ist; der empfohlene Bereich von Pmut ist [0,01-0,05].
    • (6) Inkrementiere den Generationsindex um Eins (Ngen = Ngen + 1) und wiederhole die Schritte 2-5 auf den neu erzeugten Nachkommenstrings, bis die Konvergenz erreicht ist. Das Kriterium für die GA-Konvergenz könnte sein: Ngen überschreitet seine maximale Grenze (N max / gen) oder die Tauglichkeitsauswertung des besten Strings in der mutierten Nachkommenpopulation unterliegt einer sehr kleinen oder keiner Änderung über sukzessive Generierungen. Nachdem die GA-Konvergenz erreicht ist, wird der String, der den höchsten Tauglichkeitswert besitzt, decodiert, um die optimierte Lösung zu erhalten. Normalerweise ist eine große Anzahl von Generierungen erforderlich, um die optimalen Lösungsvektoren [ε/*, ε0*], die zur kleinsten RMSEtst-Größenordnung führen, zu erhalten.
  • Neben den nachstehend beschrieben bevorzugten Ausführungsformen der Erfindung, kann die vorliegende Erfindung variiert und abgewandelt werden. Der Rahmen der vorliegenden Erfindung ist folglich nicht auf die präzisen Details der ihre Wirksamkeit nachweisenden Beispiele beschränkt.
  • In einer Ausführungsform der vorliegenden Erfindung werden die künstlichen neuronalen Netze, die zur Durchführung nichtlinearer Modellierung und Klassifikation dienen, anhand des rauschüberlagerten erweiterten Eingabe-Ausgabe-Datensatzes trainiert, wobei die optimale Rauschstärke, die jeder Eingabe/Ausgabevariable im Beispielsatz hinzugefügt werden soll, anhand stochastischer Optimierungsformalismen bestimmt wird, die als genetische Algorithmen bekannt sind, dank welcher die Netze eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung besitzen können.
  • In einer noch anderen Ausführungsform der vorliegenden Erfindung wird gezeigt, dass das Verfahren anzuwenden ist, wenn die als 'Beispielsatz' bezeichneten Eingabe/Ausgabedaten, die instrumentelles Rauschen und/oder Messfehler enthalten, offline oder online erfasst wurden.
  • In einer noch anderen Ausführungsform der vorliegenden Erfindung benötigt die Methodik für Ihre Implementierung keine Kenntnis des Prozessüberwachungssystems, der Art des Prozesses und der Sensor-Hardware, usw.
  • In einer immer noch anderen Ausführungsform der vorliegenden Erfindung kann das optimale Rauschen, das den Beispieldaten hinzugefügt werden soll, anhand stochastischer Optimierungstechniken wie simultane stochastische Perturbationsapproximation, Simulated Annealing (Simuliertes Abkühlen), Ameisenkoloniemethoden und Memetik-Algorithmen bestimmt werden.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung kann die Methodik verwendet werden, um künstliche neuronale Netzmodelle in Situationen, wo die Beziehung zwischen den Eingabe/Ausgabe-Beispieldaten nichtlinear sind, benutzt werden.
  • In einer noch weiteren Ausführungsform der vorliegenden Erfindung ist der erfundene Formalismus auf verschiedene deterministische und stochastische künstliche neuronale Netztrainingsysteme anwendbar wie Rückpropagierung der Fehler, konjugierte Gradienten, Quickprop und RPROP.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung künstlicher Netzmodelle in Gegenwart von Daten, die instrumentelles Rauschen und/oder Messfehler enthalten, bereitgestellt, das die Schritte umfasst (siehe 2):
    • (a) Kompiliere Prozessdaten (Beispielsatz) in Form einer [PxN]-Matrix (X) zufälliger (Eingabe)-Variablen und der entsprechenden [PxK]-Matrix (Y) abhängiger (Ausgabe)variablen.
    • (b) Vorverarbeitete den Beispieldatensatz, das heißt entferne die offensichtlichen und nicht offensichtlichen Ausreißer und verwerfe Modelle, die Fehldaten, fehlerhafte Sensorablesungen, usw. enthalten.
    • (c) Beginne die GA-Such- und Optimierungsprozedur (Anzahl Generierungen Ngen = 0) durch zufälliges Generieren einer Kandidatenlösungspopulation der Größe von Npop Strings, wobei jede Lösung ein [N+K]-dimensionaler Entscheidungsvariablenvektor ist, der N Eingaberauschtoleranzen (ε/) und K Ausgaberauschtoleranzen (ε0) beschreibt.
    • (d) Führe anhand der l-ten (l = 1, 2, ..., Npop) Kandidatenlösung folgende Schritte aus: (i) Erzeuge entsprechend des p-ten (p = 1, 2, ..., P) Eingabe/Ausgabemodells im Beispielsatz die Anzahl M Gaußscher rauschüberlagerter Musterein- und -ausgabemodelle anhand einer Computersimulation. Die Standardabweichungswerte (σ1, σ0) zur Generierung der Ein- und -ausgabemustermodelle werden jeweils anhand der Gleichungen 6 und 9 berechnet. Die resultierende Mustereingabematrix X ^ und die Ausgabematrix Y ^ weisen jeweils die Dimensionen [(MP), N] und [(MP), K] auf. (ii) Trainiere ein vorwärtsgerichtetes KNN wie das MLP, das die Anzahl N der Eingabeknoten, die Anzahl NH verborgener Knoten, einen Knoten mit Bias-Fehler jeweils in den Eingabeschichten und verborgenen Schichten und eine Anzahl K von Ausgabeknoten beherbergt, anhand eines geeigneten Trainingalgorithmusses wie beispielsweise Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP. Während des Tainings werden die Netzgewichtsmatrizen WH und Wo jeweils anhand der rauschüberlagerten Musterein- und ausgabematrizen X ^ und Y ^ angepasst, und die Beispielein- und -ausgabematrizen X und Y dienen als Testdaten, um die Generalisierungsfähigkeit des Netzes zu beurteilen. Ziel des Netztrainings ist eine Minimierung des RMSE in Bezug auf den Testsatz (RMSEtst). Um dieses Ziel zu erreichen, müssen die Anzahl der verborgenen Schichten, die Anzahl der Knoten in jeder verborgenen Schicht und die spezifischen Parameter des Trainingsalgorithmusses, zum Beispiel die Lernrate und der Momentkoeffizient im Fehler-Rückpropagierungsalgorithmus, optimiert werden. Der minimierte RMSE-Wert des Testsatzes, der der l-Kandidatenlösung entspricht, wird als RMSEtst(1) definiert.
    • (e) Berechne die Tauglichkeitswerte ξl; l = 1, 2, ..., Npop von Kandidatenlösungen anhand der minimierten RMSEtst(l)-Werte, die im vorausgehenden Schritt erhalten wurden. Zur Berechnung der Tauglichkeitswerte kann eine geeignete Tauglichkeitsfunktion, wie nachstehend angegeben, verwendet werden: ξl = 1/(1 + RMSEtst (l)); l = 1, 2, ..., Npop (13),wobei ξl die Tauglichkeitsnote der l-ten Kandidatenlösung betrifft, und RMSEtst (l) bezeichnet den minimierten Testsatz-RMSE-Wert, wenn die l-te Lösung zur Erzeugung der rauschüberlagerten erweiterten Trainingdaten verwendet wird. Nach der Schätzung ihrer Tauglichkeitswerte, werden die Kandidatenlösungen in absteigender Reihenfolge der Tauglichkeitsauswertungen eingeordnet.
    • (f) Führe Selektions-, Crossover- und Mutationsoperationen, so wie zuvor näher erläutert, auf der laufenden eingeordneten Population von Kandidatenlösungen aus, um neu erzeugte Lösungen (Ngen = Ngen + 1) zu erhalten.
    • (g) Führe die Schritte (d) bis (f) auf den neu erzeugten Kandidatenlösungen aus, bis die Konvergenz erreicht ist. Das Kriterium erfolgreicher Konvergenz ist entweder, dass der GR über eine große Anzahl von Generierungen (Ngen ≥ N max / gen) evolvierte oder dass der Tauglichkeitswert der besten Lösung unbedeutende oder keine Veränderungen bei sukzessiven Generierungen aufweist. Die Kandidatenlösung, die den höchsten Tauglichkeitswert in der konvergierten Population besitzt, stellt die GA-optimierte Lösung (ε/*, ε0*) dar, und die Gewichtsmatrizen (WH and WO), die dieser Lösung entsprechen
  • KURZE BESCHREIBUNG DER BEGLEITENDEN ZEICHNUNGEN
  • 1 stellt ein Schema eines typische vorwärtsgerichteten neuronalen Netzes wie das Multilayer Perceptron (MLP) dar.
  • 2 stellt das Flussdiagramm mit den genau beschriebenen Schritten der Erfindung dar.
  • Die folgenden Schritte, die die vorliegende Erfindung nutzen, dienen dem Zwecke der Veranschaulichung und sollten deshalb nicht als den Rahmen der Erfindungsidee einschränkend gedeutet werden.
  • BEISPIEL 1
  • Die in der ersten Veranschaulichung der erfundenen Methodik benutzten Daten stammen von einem funktionierenden industriellen Polymerisationsprozess. Die Prozessdaten bestehen aus neun Eingaben und einer Ausgabe: die Eingaben beschreiben Prozessbedingungen, und die Ausgabe stellt einen Polymerqualitätsparameter dar. Insgesamt waren 28 Eingabe- und Ausgabedatenmodelle (Beispielsatz) für die KNN-Modellierung verfügbar. Diese Daten enthielten instrumentelles Rauschen und Messfehler. Anhand des MLP als KNN-Vorbild wurden zunächst mehrere Netzmodelle entwickelt, um den Polymerqualitätsparameter mittels verschiedener Trainingalgorithmen, wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP, vorherzusagen. Während der Entwicklung der MLP-basierten Modelle wurden die Effekte verschiedener netzstruktureller Parameter, wie die Anzahl verborgener Schichten, die Anzahl der Knoten in jeder verborgenen Schicht, die Lernrate, der Momentkoeffizient, usw. entscheidend untersucht. Außerdem wurden die Effekte verschiedener Initialisierungen von Netzgewichten und die Größe des Training- und Testsatzes vollständig untersucht. Die Architektur des trainierten MLP-Netzes anhand der zuvor angegebenen Verfahren, die zu den kleinsten RMSE-Werten bezogen auf die Training- und Testsätze führten, enthielten neun Knoten in der Eingabeschicht, sechs Knoten in der verborgenen Schicht 1, sieben Knoten in der verborgenen Schicht 2 und einen Knoten in der Ausgabeschicht. Die Größenordnungen der RMSE-Fehler bezogen auf die Training- und Testsätze betrugen jeweils 0,00590 (RMSEtrn) und 0, 03436 (RMSEtst). Aus den RMSE-Werten lässt sich erkennen, dass der (RMSEtst) viel größer als der RMSEtrn ist, und es kann daher gefolgert werden, dass die Generalisierungsfähigkeit des Netzmodells nicht zufriedenstellend ist. Um sowohl in der Vorhersagegenauigkeit als auch in der Generalisierungsleistung des Netzmodells Verbesserungen zu bewirken, wurde die in der vorliegenden Erfindung veranschaulichte Methodik benutzt. Insbesondere wurden 25 (M = 25) rauschüberlagerte Mustereingabe- und -ausgabemodelle für jedes Modell im Beispielsatz erzeugt. Die optimalen Eingabe/Ausgabe-Rauschtoleranzwerte (ε/*, ε0*), die zur Erzeugung der rauschüberlagerten Daten, die insgesamt 700 Eingabe/Ausgabemodelle umfassen, verwendet wurden, wurden anhand der auf dem genetischen Algorithmus basierenden Strategie, der in der vorliegenden Erfindung eingeführt ist (siehe ebenfalls 2), erhalten. Die durch den GA gegebenen optimalen Toleranzwerte sind in der Tabelle 1 aufgelistet. Diese Werte wurden anhand folgender GA-spezifischer Parameterwerte erhalten: (i) der Länge jedes Populationsstrings (lchr) = 10 Bits, (ii) der Populationsgröße (Npop) = 16, (iii) der Crossover-Wahrscheinlichkeit (Pcr) = 0,9 und (iv) der Mutationswahrscheinlichkeit (Pmut)= 0,05. Das auf den rauschüberlagerten Daten trainierte MLP-Netz führt zu den in der Tabelle 2 angegebenen RMSE-Werten; für Vergleichszwecke sind auch die kleinsten RMSE-Werte, so wie sie anhand der nicht rauschüberlagerten Daten als Trainingsatz erhalten wurden, in der Tabelle aufgelistet. Aus den in der Tabelle 2 aufgelisteten Werten werden geht eindeutig hervor, dass das auf den rauschüberlagerten Daten trainierte Netz sowohl für die Training- als auch für die Testdaten zu kleineren RMSE-Werten führte. Noch wesentlicher wurde der RMSEtst signifikant von 0,03436 auf 0,00172 reduziert. Um den Vergleich zu erleichtern, wurden der durchschnittliche Prozentsatzfehler und Korrelationskoeffizient zwischen dem vorhergesagten Netz und den Zielausgabewerten berechnet und sind ebenfalls in der Tabelle 2 aufgelistet. Man kann feststellen, dass die Korrelationskoeffizientwerte zunahmen, wenn rauschüberlagerte Daten für das Netztraining verwendet werden. Die kleineren RMSE-Werte des Training- und Testsatzes deuten jeweils auf eine verbesserte Vorhersagegenauigkeit und Generalisierungsleistung des auf den rauschüberlagerten Daten trainierten Netzmodells hin.
  • Der durchschnittliche Prozentsatzfehler zwischen den vorhergesagten Ausgaben des Netzes und ihren gewünschten Größenordnungen ist signifikant reduziert. Es kann somit gefolgert werden, dass der vorliegende Erfindung die Verbesserung der Vorhersagegenauigkeit und auch der Generalisierungsleistung des Netzmodells gelungen ist.
  • Tabelle 1: Optimale Rauschtoleranzwerte für die Eingabe/Ausgabevariablen, so wie sie anhand der GA-basierten Strategie für den industriellen Polymerisierungsprozess erhalten werden.
    Figure 00260001
  • Tabelle 2: Vergleich von RMSE-Werten, Korrelationskoeffizienten und durchschnittliche Vorhersagefehler, die anhand nicht rauschüberlagerter und rauschüberlagerter Training-Datensätze erhalten werden.
    Figure 00260002
  • Figure 00270001
  • Beispiel 2:
  • Bei diesem Beispiel wird ein Prozess betrachtet, der doppelwandige nicht isotherme Rührkesselreaktoren (CSTR) im kontinuierlichen Betrieb einbindet, wobei zwei Reaktionen erster Ordnung in Reihe, A →B →C, stattfinden. Die Prozessdaten umfassen stationäre Werte von sechs CSTR-Betriebsvariablen(eingaben), und die einzige Ausgabe dabei beschreibt den entsprechenden stationären Wert einer Produktqualitätsvariablen. Insgesamt 50 Eingabe- und Ausgabedatenmodelle (Beispielsatz) waren für die KNN-basierte Modellierung verfügbar; die Daten enthielten instrumentelles Rauschen und/oder Messfehler. Ein MLP-Modell wurde zunächst durch Verwendung des Beispielsatzes als Trainingdaten zur Vorhersage des Werts der Ausgabevariablen entwickelt, für welche verschiedene Trainingalgorithmen wie die Fehler-Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP zur Anwendung kamen. Während der Entwicklung der MLP-basierten Modelle wurden die Effekte verschiedener struktureller Parameter, wie die Anzahl verborgener Schichten, die Anzahl der Knoten in jeder verborgenen Schicht, die Lernrate, der Momentkoeffizient, usw. untersucht. Außerdem wurden die Effekte verschiedener Initialisierungen von Netzgewichten und die Größe des Training- und Testsatzes entscheidend untersucht. Die Architektur des trainierten MLP-Netzes anhand der zuvor angegebenen Verfahren und jenes, dass die kleinsten RMSE-Werte in Bezug auf die Training- und Testsätze ergab, enthielten sechs Knoten in der Eingabeschicht, vier Knoten in der verborgenen Schicht 1, vier Knoten in der verborgenen Schicht 2 und einen Knoten in der Ausgabeschicht. Die RMSE-Fehler bezogen auf die Training- und Testsätze betrugen jeweils 0,00909 (RMSEtrn) und 0,01405 (RMSEtst). Aus den RMSE-Werten lässt sich erkennen, dass immer noch ein beachtlicher Spielraum hinsichtlich der Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung des Netzmodells besteht. In Richtung auf dieses Ziel wurde die in der vorliegenden Erfindung veranschaulichte Methodik benutzt. Insbesondere wurden 25(M = 25) rauschüberlagerte Mustereingabe- und ausgabemodelle für jedes Modell im Beispielsatz für jedes Modell im Beispielsatz erzeugt. Die optimalen Toleranzwerte (ε/*, ε0*), die zur Erzeugung der rauschüberlagerten Daten, die insgesamt 1250 Mustereingabe- und -ausgabemodelle umfassen, verwendet wurden, wurden anhand der in der vorliegenden Erfindung eingeführten Strategie, die auf dem genetischen Algorithmus basiert (siehe 2) erhalten. Die durch den GA gegebenen optimalen Toleranzwerte sind in der Tabelle 3 aufgelistet. Diese Werte wurden anhand folgender GA-spezifischer Parameterwerte erhalten: (i) der Länge jedes Populationsstrings (lchr) = 10 Bits, (ii) der Kandidatenpopulationsgröße (Npop) = 14, (iii) der Crossover-Wahrscheinlichkeit (Pcr) = 0,9 und (iv) der Mutationswahrscheinlichkeit (Pmut) = 0,05. Die kleinsten RMSE-Werte des Training- und Testsatzes, die anhand der rauschüberlagerten Daten erhalten wurden, sind in der Tabelle 4 aufgelistet; für Vergleichszwecke sind auch die kleinsten RMSE-Werte, so wie sie anhand der nicht rauschüberlagerten Daten erhalten wurden, in der Tabelle aufgelistet. Aus den in der Tabelle 4 aufgelisteten Werten geht eindeutig hervor, dass das auf den rauschüberlagerten Daten trainierte Netz sowohl für die Training- als auch für die Testdaten zu kleineren RMSE-Werten führte. Noch wesentlicher wurde der RMSEtst signifikant von 0,01405 auf 0,00183 reduziert. Die sehr kleinen RMSE-Werte der Training- und Testsätze sind bezeichnend für verbesserte Vorhersagegenauigkeit und Generalisierungsleistung des auf den rauschüberlagerten Daten trainierten Netzmodells.
  • Diese Beeinflussung wird auch durch die entsprechenden höheren Werte (≈1) des Korrelationskoeffizienten und kleineren Werte des durchschnittlichen Vorhersagefehlers (%) unterstützt. Es kann somit gefolgert werden, dass der vorliegenden Erfindung die Verbesserung der Vorhersagegenauigkeit und auch der Generalisierungsleistung des KNN-Modells für den CSTR gelungen ist.
  • Tabelle 3: Optimale Rauschtoleranzwerte für die Eingabe- und Ausgabevariablen, so wie die anhand der GA-basierten Strategie für den CSTR-Prozess erhalten werden.
    Figure 00290001
  • Tabelle 4: Vergleich der RMSE-Werte, Korrelationskoeffizienten und durchschnittlichen Vorhersagefehler, die anhand von nicht rauschüberlagerten und rauschüberlagerten Trainingdatensätzen für den CSTR-Prozess erhalten werden.
    Figure 00290002
  • Figure 00300001
  • VORTEILE:
    • (1) Einfacher Implementierungsformalismus zum Aufbau nichtlinearer künstlicher neuronaler Netzmodelle in Gegenwart von Daten, die instrumentelles Rauschen und/oder Messfehler umfassen.
    • (2) Kosteneffektive Methodik, da sie einen erweiterten Trainingdatensatz ausschließlich durch Computersimulation erzeugt und dabei die Erfassung zusätzlicher Prozessdaten zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsfähigkeit künstlicher neuronaler Netzmodelle vermeidet.
    • (3) Die erfundene Methodik erzeugt rauschüberlagerte Trainingdaten zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsfähigkeit künstlicher neuronaler Netzmodelle, wobei die Rauschstärke, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, nicht willkürlich, sondern anhand einer neuen und leistungsfähigen stochastischen Optimierungstechnik, insbesondere von genetischen Algorithmen, selektiert wird.
    • (4) Durch den Gebrauch genetischer Algorithmen kann die global (und nicht lokal) optimale Rauschstärke, die jeder Eingabe/Ausgabevariablen der Beispieldaten hinzugefügt werden soll, erhalten werden.
    • (5) Die erfundene Methodik funktioniert sogar, wenn die Beispieldaten nicht zur Führung des KNN-Training geeignet sind, das sie zusätzliche Trainingdaten anhand der rauschüberlagerten Technik erstellt.
    • (6) Die Methodik ist genügend generell, um ihre Anwendung zur Modellierung und Klassifikation von nichtlinearen Systemen multipler Eingabe und multipler Ausgabe zu gewährleisten.
    • (7) Die erfundene Methodik kann für Echtzeitanwendungen benutzt werden, die auf einer Modellierung und Klassifikation auf Basis künstlicher neuronaler Netze beruhen.
    • (9) Der erfundene Formalismus kann in wirksamer Weise für die Implementierung anhand paralleler Computer parallelisiert werden.
    • (10) Die Implementierung der vorliegenden Erfindung ist vollautomatisch und erfordert nur ein minimales oder kein Eingreifen des Benutzers.

Claims (9)

  1. Verfahren zur Verbesserung der Vorhersagegenauigkeit und Generalisierungsleistung nichtlinearer künstlicher neuronaler Netzmodelle, wenn, als Beispielsatz bekannte Eingabe/Ausgabedaten, die zum Aufbau des Netzmodells verfügbar sind, instrumentelles Rauschen und/oder Messfehler umfassen, wobei das Verfahren einen genetischen Algorithmus verwendet, um eine optimale Verbesserung der Vorhersagegenauigkeit zu finden, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: (a) Zufälliges Generieren einer Ausgangspopulation von Kandidatenlösungen, wobei jede Lösung eine mögliche Gaußsche Rauschstärke beschreibt, die jeder Eingabe/Ausgabevariablen hinzugefügt werden soll, wobei die Rauschstärke für jede Variable spezifisch ist; (b) für jede Kandidatenlösung der Population: (i) Erstellen eines Musterdatensatzes durch Überlagern der Rauschwerte der laufenden Kandidatenlösung auf dem Beispielsatz und (ii) Berechnen der Tauglichkeit des rauschüberlagerten Musterdatensatzes, indem der Musterdatensatz als Trainingsatz verwendet wird, um das künstliche neuronale Netzmodell zu trainieren und die mittlere quadratische Abweichung des Ausgangs des auf diese Weise trainierten künstlichen neuronalen Netzmodells in Bezug auf den Beispielsatz zu messen, wobei die Lösung zum Erzeugen des kleinsten Fehlers als die tauglichste Lösung betrachtet wird; (c) Erstellen der nächsten Generation von Kandidatenlösungen der Population anhand einer bekannten Algorithmusmethodik; (d) Wiederholen der Schritte (b) und (c) für eine vordefinierte Anzahl von Generierungen und (e) Auswählen der Kandidatenlösung mit dem höchsten Tauglichkeitswert und dem künstlichen neuronalen Netzmodell, das mit dem rauschüberlagerten Musterdatensatz trainiert wird, welcher der Lösung als jener, der eine optimale Verbesserung der Vorhersagegenauigkeit bereitstellt, entspricht.
  2. Verfahren nach Anspruch 1, wobei die optimale Verbesserung global optimal ist.
  3. Verfahren nach Anspruch 1, wobei der Beispielsatz als "Testsatz" zu Überwachung der Generalisierungsleistung des künstlichen neuronalen Netzmodells dient.
  4. Verfahren nach Anspruch 1, wobei die künstliche neuronale Netzarchitektur "vorwärtsgerichtet" ist, das heißt, dass der Informationsfluss im Netz in einer Richtung von der Eingabeschicht zur Ausgabeschicht fließt.
  5. Verfahren nach Anspruch 4, wobei die vorwärtsgerichete künstliche neuronale Netzarchitektur Multilayer-Perceptron-Netze, Funktionsnetzwerke auf Radialbasis und neuronale Counterpropagation-Netze umfasst.
  6. Verfahren nach Anspruch 1, wobei der für den Aufbau oder das Training des künstlichen neuronalen Netzmodells Rückpropagierung, konjugierte Gradienten, Quickprop und RPROP umfasst.
  7. Verfahren nach Anspruch 1, wobei die genetische Algorithmus-Methodik einen oder mehrere Algorithmen für Simulated Annealing (Simuliertes Abkühlen), simul tane stochastische Perturbationsapproximation, evolutionäre Algorithmen und Memetik-Algorithmen umfasst.
  8. Verfahren nach Anspruch 1, wobei das zufällige Generieren den Einsatz von Computersimulationen ab dem kleinen Eingabe-Ausgabe-Datensatzbeispiel umfasst.
  9. Verfahren nach Anspruch 1, wobei das Generieren die Generierung rauschüberlagerter Musterein- und ausgabemodelle umfasst.
DE60217663T 2002-03-26 2002-03-26 Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern Expired - Lifetime DE60217663T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/001147 WO2003081527A1 (en) 2002-03-26 2002-03-26 Improved performance of artificial neural network models in the presence of instrumental noise and measurement errors

Publications (2)

Publication Number Publication Date
DE60217663D1 DE60217663D1 (de) 2007-03-08
DE60217663T2 true DE60217663T2 (de) 2007-11-22

Family

ID=28053165

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60217663T Expired - Lifetime DE60217663T2 (de) 2002-03-26 2002-03-26 Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern

Country Status (7)

Country Link
EP (1) EP1382012B1 (de)
JP (1) JP4157477B2 (de)
KR (1) KR100869516B1 (de)
CN (1) CN100520817C (de)
AU (1) AU2002247918A1 (de)
DE (1) DE60217663T2 (de)
WO (1) WO2003081527A1 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7840287B2 (en) * 2006-04-13 2010-11-23 Fisher-Rosemount Systems, Inc. Robust process model identification in model based control techniques
CN103324085B (zh) * 2013-06-09 2016-03-02 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN104347066B (zh) * 2013-08-09 2019-11-12 上海掌门科技有限公司 基于深层神经网络的婴儿啼哭声识别方法及***
US10466266B2 (en) * 2014-08-14 2019-11-05 University Of North Dakota Flight parameter prediction using neural networks
CN106019359A (zh) * 2016-05-17 2016-10-12 浪潮集团有限公司 一种基于神经网络的地震预测***
US10558204B2 (en) * 2016-09-19 2020-02-11 Palo Alto Research Center Incorporated System and method for scalable real-time micro-object position control with the aid of a digital computer
CN108108506B (zh) * 2016-11-24 2021-05-14 南方电网科学研究院有限责任公司 一种多端直流工程主回路参数的优化方法
KR101877161B1 (ko) * 2017-01-09 2018-07-10 포항공과대학교 산학협력단 문서 문맥정보를 고려하는 상황기반 추천 방법 및 장치
US10997492B2 (en) 2017-01-20 2021-05-04 Nvidia Corporation Automated methods for conversions to a lower precision data format
US10832135B2 (en) * 2017-02-10 2020-11-10 Samsung Electronics Co., Ltd. Automatic thresholds for neural network pruning and retraining
CN107007279B (zh) * 2017-03-17 2019-11-05 浙江大学 一种基于堆栈式自编码器的无创心内异常激动点定位方法
CN107389732B (zh) * 2017-07-14 2019-08-27 中国计量大学 一种激光扫描热成像裂纹检测方法
CN108104807A (zh) * 2017-12-16 2018-06-01 中国石油大学(华东) 一种海洋油气资源勘探***及其使用方法
CN110162807B (zh) * 2018-02-12 2023-09-12 沈阳理工大学 基于改进蚁群优化bp神经网络弹药贮存可靠性评估方法
CN110222834B (zh) * 2018-12-27 2023-12-19 杭州环形智能科技有限公司 一种基于噪声遮蔽的发散式人工智能记忆模型***
SG10201900755WA (en) * 2019-01-28 2020-08-28 Wilmar International Ltd Methods and system for processing lipid contents of at least one oil sample and simulating at least one training sample, and for predicting a blending formula, amongst others
CN110006664A (zh) * 2019-04-03 2019-07-12 上海好耐电子科技有限公司 基于神经网络的汽车制动噪声专家检测方法
CN110942144B (zh) * 2019-12-05 2023-05-02 深圳牛图科技有限公司 集自动化训练、校验、重构于一体的神经网络构建方法
CN111062442B (zh) * 2019-12-20 2022-04-12 支付宝(杭州)信息技术有限公司 解释业务处理模型的业务处理结果的方法和装置
CN111030180B (zh) * 2019-12-26 2023-08-25 河南牧业经济学院 基于无线传感器网络的双馈风电机组风能集成控制方法
CN111160667B (zh) * 2020-01-02 2023-05-30 北京工商大学 一种提高食品安全预测模型鲁棒性的方法及装置
KR102648937B1 (ko) * 2020-09-14 2024-03-20 한국전력공사 전력망 상태예측 모델 성능 관리 장치 및 방법
US11893327B2 (en) 2020-12-14 2024-02-06 Xerox Corporation System and method for machine-learning enabled micro-assembly control with the aid of a digital computer
US11921488B2 (en) 2020-12-15 2024-03-05 Xerox Corporation System and method for machine-learning-enabled micro-object density distribution control with the aid of a digital computer
CN113221436A (zh) * 2021-03-13 2021-08-06 宁波大学科学技术学院 一种基于改进型rbf神经网络的污水悬浮物浓度软测量方法
CN113243915A (zh) * 2021-05-10 2021-08-13 西北工业大学 一种基于音频注入的烦恼感抑制定量评价方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992007325A1 (en) * 1990-10-15 1992-04-30 E.I. Du Pont De Nemours And Company Apparatus and method for on-line prediction of unmeasurable process information
JPH04262453A (ja) * 1991-02-15 1992-09-17 Hitachi Ltd ニュ−ロ学習制御方法及び装置
US5412256A (en) * 1994-01-06 1995-05-02 Bell Communications Research, Inc. Neuron for use in self-learning neural network

Also Published As

Publication number Publication date
JP2005521167A (ja) 2005-07-14
EP1382012A1 (de) 2004-01-21
JP4157477B2 (ja) 2008-10-01
WO2003081527A1 (en) 2003-10-02
CN100520817C (zh) 2009-07-29
EP1382012B1 (de) 2007-01-17
KR100869516B1 (ko) 2008-11-19
CN1571982A (zh) 2005-01-26
AU2002247918A1 (en) 2003-10-08
DE60217663D1 (de) 2007-03-08
KR20040099092A (ko) 2004-11-26

Similar Documents

Publication Publication Date Title
DE60217663T2 (de) Verbesserte künstliche neuronalnetzmodelle in der anwesenheit von instrumentengeräuschen und messfehlern
White Learning in artificial neural networks: A statistical perspective
Uhrig Introduction to artificial neural networks
Derks et al. Robustness analysis of radial base function and multi-layered feed-forward neural network models
Chiroma et al. Neural networks optimization through genetic algorithm searches: a review
DE102007001025B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
Nowlan Maximum likelihood competitive learning
De Veaux et al. A comparison of two nonparametric estimation schemes: MARS and neural networks
Rajasekaran et al. Neural networks, fuzzy logic and genetic algorithm: synthesis and applications (with cd)
Schittenkopf et al. Two strategies to avoid overfitting in feedforward networks
Lek et al. Application of neural networks to modelling nonlinear relationships in ecology
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
Kasabov On-line learning, reasoning, rule extraction and aggregation in locally optimized evolving fuzzy neural networks
Chao et al. Forecasting exchange rate with deep belief networks
DE102012009502A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes
DE102020201133A1 (de) Verfahren und Vorrichtung zur Modellwertbildung, insbesondere zur Sensordatenfusion
Şen Artificial Neural Networks
Lemke et al. Self-organizing data mining for a portfolio trading system
Watts et al. Simple evolving connectionist systems and experiments on isolated phoneme recognition
De Veaux et al. A brief introduction to neural networks
Uluyol et al. Local output gamma feedback neural network
Kaveh et al. A new approach for morphodynamic modeling using integrating ensembles of artificial neural networks
CN113113776B (zh) 一种太赫兹复合超材料多带吸收器及双向设计方法
Vlad On the prediction methods using neural networks
DE202023104383U1 (de) Ein rechnerisch effizientes Klassifizierungssystem zur Klassifizierung nichtlinearer zeitlicher Muster ohne versteckte Schicht

Legal Events

Date Code Title Description
8364 No opposition during term of opposition