DE112021007838T5 - Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung - Google Patents

Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung Download PDF

Info

Publication number
DE112021007838T5
DE112021007838T5 DE112021007838.0T DE112021007838T DE112021007838T5 DE 112021007838 T5 DE112021007838 T5 DE 112021007838T5 DE 112021007838 T DE112021007838 T DE 112021007838T DE 112021007838 T5 DE112021007838 T5 DE 112021007838T5
Authority
DE
Germany
Prior art keywords
neural network
network controller
weight matrix
matrix
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021007838.0T
Other languages
English (en)
Inventor
Ryoichi Takase
Nobuyuki Yoshikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112021007838T5 publication Critical patent/DE112021007838T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

Eine neuronale Netzwerksteuerung (100) gemäß der vorliegend offenbarten Technologie ist eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix. Die Gewichtungsmatrix der neuronalen Netzwerksteuerung (100) wird auf der Grundlage einer Verlustfunktion aktualisiert, die durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt ist und die in einem Modus des Vorhandenseins oder nicht Vorhandenseins des Strafterms geschaltet wird.

Description

  • TECHNISCHES GEBIET
  • Die vorliegend offenbarte Technologie bezieht sich auf eine neuronale Netzwerksteuerung und ein Lernverfahren für die neuronale Netzwerksteuerung.
  • STAND DER TECHNIK
  • Ein neuronales Netzwerk ist ein mathematisches Modell oder eine Software zur Umsetzung von Funktionen und Eigenschaften eines Gehirns mit einem Computer. Da ein neuronales Netzwerk nicht unbedingt die Funktionsweise einer neuronalen Schaltung eines echten Organismus nachbildet, kann es als künstliches neuronales Netz bezeichnet werden. Ein neuronales Netzwerk etz ist ein Aspekt einer Lernvorrichtung und wurde in verschiedenen industriellen Bereichen eingesetzt. Die künstliche Intelligenz, einschließlich des künstlichen neuronalen Netzwerkes, wird auch als künstliche Intelligenz (KI) bezeichnet.
  • In den letzten Jahren haben Lernvorrichtungen und Kl, die durch neuronale Netzwerke repräsentiert werden, aufgrund von Berichten über Ergebnisse von Deep Learning, Verstärkendes Lernen und ähnlichem mehr Aufmerksamkeit erregt. Bei Go zum Beispiel gewinnt die KI gegen einen Profispieler auf Weltniveau. Ob die oben beschriebene Lernvorrichtung und die Kl, die Aufmerksamkeit erregt, auf die Steuerung des wie zum Beispiel automatischen Betriebs eines Ziels wie eines Roboters, einer Anlage oder eines unbemannten Flugzeugs angewandt werden können, ist noch nicht geklärt.
  • In der Patentliteratur findet sich auch ein Beispiel, in dem ein maschineller Lerner für eine Steuerungseinrichtung eines automatisch betriebenen Roboters verwendet wird (z. B. Patentliteratur 1). Die Steuerungseinrichtung gemäß Patentliteratur 1 leitet einen Betriebsinhalt oder ähnliches aus einem mathematischen Modell ab, das durch Verstärkendes Lernen mit einem maschinellen Lerner erzeugt wird.
  • REFERENZLISTE
  • PATENTLITERATUR
  • Patentliteratur 1: Japanisches Patent Nr. 6908144 (es gibt keine offengelegte Veröffentlichung der Anmeldung)
  • KURZFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • Die Lernvorrichtung und die KI enthalten einen Mechanismus zur Bewertung von Versuchen, der als Evaluierungsfunktion, Verlustfunktion, Kostenfunktion oder ähnliches bezeichnet wird. Eine Steuerungseinrichtung nach Patentschrift 1 verwendet beispielsweise einen negativen Wert eines Aktionswertes als Verlustfunktion und veranlasst ein neuronales Netzwerk dazu, so zu lernen, dass die Verlustfunktion minimiert wird. Das heißt, die Steuerungseinrichtung nach Patentschrift 1 veranlasst das neuronale Netzwerk, so zu lernen, dass der Aktionswert erhöht wird. Nach der Beschreibung in Patentliteratur 1 gibt der Aktionswert an, wie angemessen die vom Lernmodell abgeleitete Operation war. Gemäß der Beschreibung der Patentliteratur 1 ist das System so entworfen, dass eine höhere Belohnung erzielt wird, wenn der Absolutwert eines Fehlers zwischen einem Sollwert (einer Soll-Fahrzeuggeschwindigkeit in der Beschreibung) und einem tatsächlichen Wert (einer Erfassungs-Fahrzeuggeschwindigkeit in der Beschreibung) näher bei Null liegt.
  • Um es mit einem Beispiel zu umschreiben: Ein Hauptziel der in der Patentschrift 1 dargestellten Lernvorrichtung nach dem Stand der Technik ist es, die Technik eines erfahrenen Piloten als Lehrer zu imitieren. Hier sind die Imitation eines Lehrers und die Stabilität einer geschlossenen Schleife, wenn die Lernvorrichtung als Steuerungseinrichtung verwendet wird, unterschiedliche Konzepte.
  • Wie oben beschrieben, wird bei der herkömmlichen Lernvorrichtung die Stabilität der geschlossenen Schleife, die eine wichtige Eigenschaft der Steuerungseinrichtung ist, nicht unbedingt berücksichtigt. Die vorliegende Technologie bietet eine neuronalen Netzwerksteuerung unter Berücksichtigung der Stabilität der geschlossenen Schleife und ein Lernverfahren für die neuronale Netzwerksteuerung.
  • LÖSUNG DES PROBLEMS
  • Die neuronale Netzwerksteuerung nach der vorliegenden Technologie ist eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix. Die Gewichtungsmatrix der neuronalen Netzwerksteuerung wird auf der Grundlage einer Verlustfunktion aktualisiert, die durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins des Strafterms umgeschaltet wird.
  • VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
  • Da die neuronale Netzwerksteuerung gemäß der vorliegenden Technologie die oben beschriebene Konfiguration aufweist, wird die Stabilität der geschlossenen Schleife aufrechterhalten.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
    • 1 ist eine schematische Darstellung, die eine geschlossene Schleife unter Verwendung einer neuronalen Netzwerksteuerung gemäß einer ersten Ausführungsform zeigt.
    • 2A ist eine erste Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung gemäß der ersten Ausführungsform. 2B ist eine zweite Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung gemäß der ersten Ausführungsform.
    • 3 ist ein Flussdiagramm, das die Verarbeitungsschritte eines Lernverfahrens für eine neuronale Netzwerksteuerung gemäß einer zweiten Ausführungsform darstellt.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Mit der vorliegenden Anmeldung wird die Anwendung der Ausnahmeregelung für den Verlust der Neuheit der Erfindung auf den folgenden Aufsatz des Erfinders beansprucht.
  • „Stability - Certified Reinforcement Learning via Spectral Normalization“, Ryoichi Takase, Nobuyuki Yoshikawa, et al., Dezember 2020, https://arxiv.org/pdf/2012.13744.pdf
  • Daher wird ein akademischer Aspekt, wie z. B. ein Prinzip, das die Grundlage der vorliegenden Technologie bildet, durch Verweis auf den Aufsatz (im Folgenden als „Aufsatz des Erfinders“ bezeichnet) verdeutlicht. In der vorliegenden Beschreibung wird auf die Beschreibung von Machbarkeitsbeweisen und dergleichen verzichtet, und die Beschreibung akademischer Aspekte wird auf ein Minimum reduziert.
  • Erstes Ausführungsbeispiel.
  • 1 ist eine schematische Darstellung, die eine geschlossene Schleife unter Verwendung einer neuronalen Netzwerksteuerung 100 gemäß einer ersten Ausführungsform zeigt. Wie in 1 dargestellt, bildet die neuronale Netzwerksteuerung 100 eine geschlossene Schleife, um ein Steuerziel 200 zu steuern.
  • Es wird angenommen, dass das in 1 dargestellte Steuerziel 200 ein System ist, das die folgende zeitdiskrete Zustandsgleichung erfüllt, wenn es in einem bestimmten Gleichgewichtspunkt linearisiert wird. x ( k + 1 ) = A H x ( k ) + B H u ( k )
    Figure DE112021007838T5_0001
  • Dabei stellt ein Vertikalvektor x(k) den Zustand des Steuerziels 200 bei der k-ten Abtastung dar. Ein Vertikalvektor u(k) stellt eine Eingabe für das Steuerziel 200 bei der k-ten Abtastung dar. Die Matrizen AH und BH sind die A-Matrix und die B-Matrix der zeitdiskreten Zustandsgleichung des am Gleichgewichtspunkt linearisierten Steuerziels 200.
  • Um zwischen kontinuierlicher Zeit und diskreter Zeit im Allgemeinen zu unterscheiden, gibt auch ein Verfahren zur Verwendung von Klammern, wenn es sich um kontinuierliche Zeit handelt, und ein tiefgestelltes Zeichen, wenn es sich um diskrete Zeit handelt (z. B. xk+1 o. ä.). In der vorliegenden Beschreibung wird zur Vermeidung des Missbrauchs einer Tiefstellung auch für die diskrete Zeit ein Verfahren mit Klammern verwendet, wie in Formel (1) dargestellt.
  • 2A ist eine erste Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform.
  • Wie in 2A dargestellt, kann die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform durch spezielle Hardware implementiert werden. Im Falle der Konfiguration durch dedizierte Hardware umfasst die neuronale Netzwerksteuerung 100 eine Empfangsvorrichtung 10, eine Verarbeitungsschaltung 20 und eine Anzeige 30. Es ist denkbar, dass die Verarbeitungsschaltung 20 z.B. eine einzelne Schaltung, eine zusammengesetzte Schaltung, ein programmierter Prozessor, ein parallel programmierter Prozessor, ein ASIC, ein FPGA oder eine Kombination davon ist. Jeder Verarbeitungsinhalt der neuronalen Netzwerksteuerung 100 kann durch separate Hardware implementiert werden oder gemeinsam durch ein einzelnes Stück Hardware implementiert werden.
  • 2B ist eine zweite Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform.
  • Wie in 2B dargestellt, kann die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform durch Software implementiert werden. Mit anderen Worten: Die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform kann durch einen Prozessor 22 implementiert werden, der ein in einem Arbeitsspeicher 24 gespeichertes Programm ausführt. Die in 2B dargestellte neuronale Netzwerksteuerung 100 umfasst eine Empfangsvorrichtung 10, einen Prozessor 22, einen Arbeitsspeicher 24 und eine Anzeige 30. Der Prozessor 22 kann durch eine CPU (auch als zentrale Verarbeitungseinheit, Verarbeitungseinheit, arithmetische Einheit, Mikroprozessor, Mikrocomputer, Prozessor oder DSP bezeichnet) implementiert werden.
  • Der Arbeitsspeicher 24 kann beispielsweise ein nichtflüchtiger oder flüchtiger Halbleiterspeicher wie ein RAM, ein ROM, ein Flash-Speicher, ein EPROM oder ein EEPROM sein. Darüber hinaus kann der Arbeitsspeicher 24 durch eine Magnetplatte, eine flexible Platte, eine optische Platte, eine Compact Disk, eine Mini-Disk, eine DVD oder Ähnliches implementiert werden.
  • Ein Teil der neuronalen Netzwerksteuerung 100 kann durch spezielle Hardware implementiert werden, der andere Teil kann durch Software oder Firmware implementiert werden. Wie oben beschrieben, wird jede Funktion der neuronalen Netzwerksteuerung 100 durch Hardware, Software, Firmware oder eine Kombination davon implementiert.
  • Die in 1 und 2 dargestellte neuronale Netzwerksteuerung 100 ist ein mehrschichtiges neuronales Netzwerk und wird durch die folgende Formel definiert. Das heißt, u(k), das eine Eingabe für das durch Formel (1) ausgedrückte Steuerziel 200 ist, wird durch die folgenden Formeln entworfen. w 0 k = x ( k ) ;
    Figure DE112021007838T5_0002
    w i ( k ) = ϕ ' ( W i w i 1 ( k ) + b i ) ,   i = 1,2, , l ;
    Figure DE112021007838T5_0003
    u ( k ) = W l + 1 w i ( k ) + b l + 1 ;
    Figure DE112021007838T5_0004
  • Hier stellt wi(k), ein Vertikalvektor, eine Ausgabe der i-ten Schicht des neuronalen Netzwerks dar. Wi(k) ist eine Gewichtungsmatrix, die in der i-ten Schicht des neuronalen Netzwerks verwendet wird, und gewichtet die Ausgabe der (i-1)-ten Schicht. Darüber hinaus stellt bi(k) eine Vorspannung der i-ten Schicht im neuronalen Netzwerk dar. Das durch Formel (2) dargestellte neuronale Netzwerk ist ein mehrschichtiges neuronales Netzwerk mit insgesamt I (L) Schichten.
  • Φi() in Formel (2b) ist ein Vertikalvektor, der eine Aktivierungsfunktion enthält und durch die folgende Formel gegeben ist. ϕ i ( v ) : = [ φ ( v 1 ) , φ ( v 2 ) , , φ ( v n i ) ] T
    Figure DE112021007838T5_0005
  • Hier steht T der oberen Tiefstellung auf der rechten Seite der Formel (3) für eine Transpositionsoperation. Darüber hinaus ist jedes Element auf der rechten Seite von Formel (3) eine Aktivierungsfunktion.
  • Die Situation, dass die in 1 dargestellte geschlossene Schleife in einem Gleichgewichtszustand stabil ist, wird durch die folgenden Formeln x = A H x + B H u
    Figure DE112021007838T5_0006
    u = π ( x )
    Figure DE112021007838T5_0007
    ausgedrückt.
  • Dabei ist π() auf der rechten Seite von Formel (4b) eine Funktion, die die Eingabe-/Ausgabebeziehung der in den Formeln (2a) bis (2c) dargestellten neuronalen Netzwerksteuerung 100 darstellt.
  • Wenn ein Argument von ϕ() auf der rechten Seite von Formel (2b) auf v* gesetzt wird, können die Formeln (4a) bis (4b) als erweitertes System x = A H x + B H u
    Figure DE112021007838T5_0008
    [ u v ] = N [ x w 1 ]
    Figure DE112021007838T5_0009
    w = ϕ ( v )
    Figure DE112021007838T5_0010
    wie folgt ausgedrückt werden.
  • Es ist zu beachten, dass N der Matrix in Formel (5b) durch die folgende Formel definiert ist.
  • Die vorliegende Technologie basiert auf einer Strategie zur Aktualisierung der Gewichtungen eines neuronalen Netzwerks unter Verwendung einer Lösungsmatrix einer linearen Matrixungleichung (Linear Matrix Inequality, im Folgenden als „LMI“ bezeichnet), die im Folgenden dargestellt wird. Es wer-
    Figure DE112021007838T5_0011
    R V : = [ I 0 N u x N u w ]
    Figure DE112021007838T5_0012
    R ϕ : = [ N v x N v w 0 I ]
    Figure DE112021007838T5_0013
    Ψ ϕ : = [ diag ( β ϕ ) I diag ( α ϕ ) I ]
    Figure DE112021007838T5_0014
    Μ ϕ ( λ ) : = [ 0 diag ( λ ) diag ( λ ) 0 ]
    Figure DE112021007838T5_0015
    den mehrere Matrizen definiert, um die zu lösenden LMls anzugeben.
  • Es ist zu beachten, dass λ in Formel (10) λ ≥ 0 ist.
  • Die zu lösende LMI, die für die Aktualisierung der Gewichtungsmatrix erforderlich ist, wird durch die folgenden Formeln gegeben. R V T [ A H T P A H P A H T P B B T P A H B T P B ] R v + R ϕ T ψ ϕ T M ϕ ( λ ) ψ ϕ R ϕ 0
    Figure DE112021007838T5_0016
    [ ( v ¯ i 1 v , i 1 ) 2 W i 1 W i 1 T P ] _ 0,   i = 1, , n 1
    Figure DE112021007838T5_0017
  • Dabei ist W1 in Formel (12) eine Gewichtungsmatrix, die die Gewichtungsparameter der ersten Schicht der verborgenen Schichten enthält. Darüber hinaus ist v1 durch v1 = W1x gegeben. Außerdem zeigt ein Balken über v1 eine obere Grenze von v1 an. Zu beachaten ist, dass sich bei den Ungleichheitszeichen in den Formeln (11) und (12) um Matrixungleichungen handelt, werden gekrümmte Zeichen verwendet, die sich von den normalen Ungleichungen für den Vergleich von Skalargrößen unterscheiden.
  • Wenn es eine positive festgelegte symmetrische Matrix P gibt, die die Formeln (11) und (12) erfüllt, dann ist die in 1 dargestellte geschlossene Schleife im Gleichgewichtszustand (x *) lokal stabil. Die in den Formeln (11) und (12) dargestellten Bedingungen der LMls können als Lyapunov-Bedingung bezeichnet werden.
  • Wenn P, die Lösungsmatrix der in den Formeln (11) und (12) dargestellten LMls, gefunden werden kann, ist es möglich, einen Anziehungsbereich (ROA) der in 1 dargestellten geschlossenen Schleife zu erhalten, d. h. Informationen über einen stabilisierbaren Bereich. Es wurde bewiesen, dass die folgenden n-dimensionalen Ellipsen, die speziell durch P der Lösungsmatrix ε ( P , x ) : = { x n : ( x x ) T P ( x x ) < 1 }
    Figure DE112021007838T5_0018
    definiert werden können, notwendigerweise im ROA enthalten sind.
  • Die in Formel (13) gezeigte Form wird als quadratische Form bezeichnet. Es ist zu beachten, dass Formel (13) eine Ellipse darstellt, wenn der Zustand (x) zweidimensional ist, und ein Ellipsoid, wenn der Zustand (x) dreidimensional ist. Da der Zustand (x) n-dimensional ist, ist der durch Formel (13) definierte Bereich im Allgemeinen nicht unbedingt nur eine Ellipse. Der durch Formel (13) definierte Bereich wird hier als „n-dimensionale Ellipse“ bezeichnet.
  • Im Allgemeinen ist das Small-Gain-Theorem als Theorem über die Stabilität der geschlossenen Schleife bekannt. Aus dem Small-Gain-Theorem wird abgeleitet, dass die Verstärkung der neuronalen Netzwerksteuerung 100 unterdrückt wird, damit die positive festgelegte symmetrische Matrix P die Formeln (11) und (12) erfüllt. Daher wird bei der vorliegenden Technologie zunächst versucht, die Gewichtungsmatrix der verborgenen Schicht der neuronalen Netzwerksteuerung 100 mit einem bestimmten Wert zu normalisieren. Dieses Verfahren wird in dem Aufsatz des Erfinders als Pre-Guaranteed (dt. vorgarantiert) RL (dt. Verstärkendes Lernen) bezeichnet.
  • Im Pre-Guaranteed RLwird die normalisierte Gewichtungsmatrix nach folgender Formel berechnet. W ^ i = δ i σ m a x ( W i ) + W i ,   δ i > 0,  i = 1,2, , l
    Figure DE112021007838T5_0019
  • Es ist zu beachten, dass Wi mit einem Dach auf der linken Seite von Formel (14) eine normalisierte Gewichtungsmatrix in der i-ten Schicht darstellt. Darüber hinaus ist δi ein für die i-te Schicht definierter Tuningparameter, der eine positive Konstante ist. Außerdem stellt σmax() der Funktion im Nenner auf der rechten Seite von Formel (14) den maximalen Singulärwert dar. Es ist zu beachten, dass der maximale Singulärwert einer induzierten Norm entspricht, σ m a x ( W ) = sup h 0 W h 2 h 2
    Figure DE112021007838T5_0020
    wie unten gezeigt.
  • Das heißt, Pre-Guaranteed RL normalisiert die Gewichtungsmatrix mit ihrem maximalen Singulärwert, wie in Formel (14) dargestellt. Eine solche Normalisierung wird auch als Spektralnormalisierung bezeichnet.
  • Die Umformung von Formel (14) zeigt, dass der obige Tuningparameter gleich der Spektrumsnorm der normalisierten Gewichtungsmatrix ist. σ m a x ( W ^ i ) = δ i σ m a x ( W i ) σ m a x ( W i ) = δ i
    Figure DE112021007838T5_0021
  • Formel (15) hat die gleiche Form wie die H-Unendlichkeitsnorm im li- γ H : = H L 2 w h e r e i n = sup x y L 2 x L 2 x L 2 = 0 | x ( t ) | 2 d t y L 2 = 0 | y ( t ) | 2 d t
    Figure DE112021007838T5_0022
    nearen System oder die L2-Verstärkung im nichtlinearen System, da sie durch die induzierte Norm definiert ist. Die L2-Verstärkung des nichtlinearen Systems (H), das ein Mapping von einem Eingabesignal x auf ein Ausgabesignal y vornimmt, ist durch die folgende Formel gegeben.
  • Obwohl Einzelheiten in dem Aufsatz des Erfinders beschrieben sind, wird die Beziehung zwischen der L2-Verstärkung und der Spektrumsnorm, die für die neuronale Netzwerksteuerung 100 definiert werden kann, durch die folgende Formel ausgedrückt.
  • Es ist zu beachten, dass die Tiefstellung von π auf der linken Seite der Formel (18) für die neuronale Netzwerksteuerung 100 steht, die das in 1 dargestellte nichtlineare System ist.
  • Daher wird die Bedingung, dass die in 1 dargestellte geschlossenen Schleife mit der endlichen Verstärkung L2 stabil ist, auf der Grundlage des σ π ¯ γ H < 1
    Figure DE112021007838T5_0023
    Small-Gain-Theorem wie folgt ausgedrückt.
  • Es ist zu beachten, dass die Tiefstellung von π auf der rechten Seite von Formel (19) für die neuronale Netzwerksteuerung 100 und der Index H für das Steuerziel 200 steht.
  • In Anbetracht der Unterteilung der neuronalen Netzwerksteuerung 100 in L verborgene Schichten und eine letzte Schicht hinter den verborgenen Schichten kann Formel (19) wie folgt geändert werden. { σ max ( W L + 1 ) i = 1 l δ i } γ H < 1
    Figure DE112021007838T5_0024
    Formel (20) kann wie folgt weiter modifiziert werden, indem man sich auf die σ max ( W L + 1 ) < 1 { i = 1 l δ i } γ H ,  wherein { i = 1 l δ i } γ H > 0,
    Figure DE112021007838T5_0025
    letzte Schicht konzentriert.
  • Das heißt, Formel (21) legt nahe, dass die geschlossene Schleife mit der endlichen Verstärkung L2 stabilisiert werden kann, wenn der maximale Singulärwert der Gewichtungsmatrix der letzten Schicht so unterdrückt wird, dass er kleiner ist als die rechte Seite der Ungleichung.
  • Wie oben beschrieben, führt das in der ersten Ausführungsform beschriebene Pre-Guaranteed RL eine Spektralnormalisierung durch, um die Gewichtungsmatrix mit ihrem maximalen Singulärwert zu normalisieren, und hält die geschlossene Schleife mit der endlichen Verstärkung L2 stabil. Die Normalisierung der Gewichtungsmatrix mit dem maximalen Singulärwert kann durch einen Strafterm in der Verlustfunktion beim Lernen erreicht werden. Die beim maschinellen Lernen verwendete Verlustfunktion kann als Evaluierungsfunktion, Kostenfunktion oder Zielfunktion bezeichnet werden. Kurz gesagt, die Verlustfunktion ist ein Index, der angibt, wie gut das Lernen im V ( W ) = { V main ( W ) if  σ π ¯ γ H < 1 V main ( W ) + V P ( γ W ) if  σ π ¯ γ H 1
    Figure DE112021007838T5_0026
    Hinblick auf den Zweck funktioniert. Wie bei anderen Optimierungsproblemen stellt sich auch beim Lernen das Problem, einen Parameter zu finden, der diese Verlustfunktion minimiert. Es wird angenommen, dass eine Hauptverlustfunktion, die einen der neuronalen Netzwerksteuerung 100 vorgegebenen Lernzweck repräsentiert, durch Vmain() dargestellt wird. Bei dem in der ersten Ausführungsform beschriebenen Pre-Guaranteed RL ist es denkbar, dass V(W) einer der unten beschriebenen Funktionen eine Verlustfunktion ist.
  • Hier ist VP() ein Strafterm. Formel (22) zeigt an, dass die vorliegende Technologie die Verlustfunktion durch die L2-Verstärkung der geschlossenen Schleife in Fälle unterteilt und die Verlustfunktion in einen Modus des Vorhandenseins oder Nichtvorhandenseins des Strafterms schaltet. Der Strafterm kann eine Funktion sein, die die L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
  • Im technischen Bereich des Lernens wird der Hauptverlustfunktion auch ein Regularisierungsterm hinzugefügt, um das „Over-Learning“ zu unterdrücken. Diese Technik wird bei der Ridge-Regression angewendet. Dies geschieht zum Zweck der Unterdrückung des „Over-Learning“ und unterscheidet sich vom Zweck der stabilen Aufrechterhaltung der geschlossenen Schleife der hier vorgestellten Technologie. Wie oben beschrieben, wird die Verlustfunktion gemäß der ersten Ausführungsform, ausgedrückt durch Formel (22), durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt. Die Technik der Hinzufügung eines Regularisierungsterms zur Hauptverlustfunktion in der Ridge-Regression hat kein technisches Merkmal in Bezug auf die Verlustfunktion der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform, dass „die Verlustfunktion durch die Verstärkung der geschlossenen Schleife geschaltet wird“.
  • Eine Lernvorrichtung nach dem Stand der Technik, die einen L2-Regularisierungsterm zu einer Hauptverlustfunktion zu einem anderen Zweck als der Unterdrückung des „Over-Learning“ ebenfalls offenbart. Zum Beispiel offenbart die japanische Patentanmeldung Laid-Open No. 2020-8993 eine Technik, bei der ein L2-Regularisierungsterm zu einer Verlustfunktion hinzugefügt wird, um die Größe eines neuronalen Netzwerkwerks für den Zweck der Reduzierung und gleichzeitiger Abnahme der Genauigkeit zu unterdrücken. Der Stand der Technik, der in dieser Patentliteratur beispielhaft dargestellt ist, weist auch kein technisches Merkmal in Bezug auf die Verlustfunktion der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform auf, nämlich „Schalten der Verlustfunktion durch die Verstärkung der geschlossenen Schleife“.
  • Wie oben beschrieben, wird die geschlossene Schleife mit der endlichen Verstärkung L2 stabil gehalten, da die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform die oben beschriebene Konfiguration aufweist.
  • Zweites Ausführungsbeispiel.
  • Die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform hat zur Folge, dass die geschlossene Schleife mit der endlichen Verstärkung L2 stabil bleibt, indem sie die Aktualisierung der Gewichtungsmatrix verarbeitet. Eien neuronale Netzwerksteuerung 100 gemäß einer zweiten Ausführungsform hat zur Folge, dass sie in der Lage ist, einen ROA der geschlossenen Schleife, d.h. einen stabilisierbaren Bereich, zu entwerfen.
  • In der zweiten Ausführungsform werden die gleichen Bezugsziffern wie in der ersten Ausführungsform verwendet, sofern nicht anders angegeben. Außerdem wird bei der zweiten Ausführungsform die Beschreibung, die sich mit der ersten Ausführungsform überschneidet, gegebenenfalls weggelassen.
  • Wenn in der neuronalen Netzwerksteuerung 100 die positive festgelegte symmetrische Matrix P gefunden wird, die die in den Formeln (11) und (12) dargestellten LMls erfüllt, ist die in 1 dargestellte geschlossenen Schleife im Gleichgewichtszustand (x *) lokal stabil. Darüber hinaus umfasst der ROA der geschlossenen Schleife zu diesem Zeitpunkt eine n-dimensionale Ellipse, die durch Formel (13) unter Verwendung von P definiert ist.
  • Daher verwendet die neuronale Netzwerksteuerung 100 gemäß der zweiten Ausführungsform ein Verfahren zur Bestimmung einer n-dimensionalen Ellipse, die in dem zu entwerfenden ROA enthalten ist, als erstes. Die Kandidaten für die positive festgelegte symmetrische Matrix (P), die die n-dimensionale Ellipse definiert, werden wie folgt bestimmt. P : = Q T Q
    Figure DE112021007838T5_0027
  • Hier steht das T der oberen Tiefstellung auf der rechten Seite der Formel (23) für eine Transpositionsoperation. Q auf der rechten Seite von Formel (23) kann z. B. eine Primärtransformationsmatrix sein.
  • Die Eigenwerte und die Eigenvektoren der Primärtransformationsmatrix (Q) erfüllen die folgenden Formeln. λ 1 x 1 = Q x 1 , x 1 0 λ 2 x 2 = Q x 2 , x 2 0 λ n x n = Q x n , x n 0
    Figure DE112021007838T5_0028
  • Dabei steht λ, das die Formel (24) erfüllt, für einen Eigenwert und x für einen Eigenvektor. Obwohl es so viele Kombinationen von Eigenwerten und Eigenvektoren wie Zustandsgrade gibt, ist die Auswahl der Eigenvektoren unendlich groß. Wenn zum Beispiel ein Eigenvektor, der λ1 entspricht, x1 ist, ist kx1, das ein mit k multiplizierter Vektor ist, ebenfalls ein Eigenvektor. Formel (24) kann in die folgende Matrixdarstellung umgewandelt werden. [ x 1 x 2 x n ] T [ λ 1 0 0 0 λ 2     0 0 0 λ n ] = Q [ x 1 x 2 x n ] T   Q = T  diag ( λ 1 , λ 2 , , λ n ) T 1
    Figure DE112021007838T5_0029
  • Wenn es eine inverse Matrix (T-1) einer Matrix (T) mit Eigenvektoren gibt, kann die Primärtransformationsmatrix (Q) in eine Matrix mit Eigenwerten als Diagonalkomponenten diagonalisiert werden.
  • Wenn der Zustand an der Grenzlinie der n-dimensionalen Ellipse, ausgedrückt durch Formel (13), mit der Richtung des Eigenvektors der Primärtransformationsmatrix (Q) übereinstimmt, kann eine Formel, die die Grenzlinie der n-dimensionalen Ellipse darstellt, wie folgt transformiert werden. ( x i 1 x i 2 ) x i T P ( x i 1 x i 2 ) x i = 1,  for  i = 1,2, , n x i 1 2 + x i 2 2 = 1 λ i 2 ,  for  i = 1,2, , n
    Figure DE112021007838T5_0030
  • In Formel (26) wird der Zustand (x) der Einfachheit halber als zweidimensional festgelegt. Außerdem wird der Gleichgewichtszustand (x *) als Ursprung festgelegt. Wenn der Zustand mit der Richtung des Eigenvektors der Primärtransformationsmatrix (Q) übereinstimmt, zeigt Formel (26), dass es eine Grenzlinie einer n-dimensionalen Ellipse auf einem Kreis gibt, dessen Radius der Kehrwert des Absolutwerts des Eigenwertes ist. Mit anderen Worten: Der Eigenvektor der Primärtransformationsmatrix (Q) bezieht sich auf die Richtung der Achse der n-dimensionalen Ellipse, und der Eigenwert bezieht sich auf die Länge der Achse der n-dimensionalen Ellipse.
  • Wie oben beschrieben, bestimmt die neuronalen Netzwerksteuerung 100 gemäß der zweiten Ausführungsform die Primärtransformationsmatrix (Q), die die n-dimensionale Ellipse bestimmt, die in dem zuerst zu entwerfenden ROA enthalten ist. Anschließend wird aus der erhaltenen Primärtransformationsmatrix (Q) eine positive festgelegte symmetrische Matrix (P) nach Formel (23) berechnet. Anschließend wird geprüft, ob die positive festgelegte symmetrische Matrix (P) die durch die Formeln (11) und (12) ausgedrückten LMls erfüllt oder nicht.
  • Im Allgemeinen besteht die Tendenz, dass der ROA durch eine Verringerung der Verstärkung der geschlossenen Schleife erhöht werden kann. V 2 ( W ) = { V main ( W ) if  σ π ¯ γ H < γ 2 V main ( W ) + V P ( γ w ) if  σ π ¯ γ H γ 2
    Figure DE112021007838T5_0031
    Daher ist es beispielsweise denkbar, die Verlustfunktion wie folgt zu ändern, wobei die in der ersten Ausführungsform erhaltene Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 als Anfangswert verwendet wird.
  • Hier ist γ2 in der Bedingung von Formel (27) eine positive Zahl kleiner als eins. Es ist zu beachten, dass der Anfangswert der Gewichtungsmatrix nicht auf den in der ersten Ausführungsform erhaltenen Wert beschränkt ist, und dass eine Gewichtungsmatrix mit einer geringen Verstärkung als Anfangswert verwendet werden kann. Bei einem Verfahren zur wiederholten Lösung des Optimierungsproblems durch angemessene Änderung von γ2 in der Bedingung von Formel (27) wird die Gamma-Iteration in der H-Unendlichkeits-Kontrolltheorie als Referenz verwendet.
  • In den letzten Jahren ist es möglich, eine numerische Lösung der LMI durch numerische Analysesoftware zu erhalten. Daher ist es auch denkbar, die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 zu aktualisieren, indem man die erhaltene Lösungsmatrix der LMI mit der positiven festgelegten symmetrischen Matrix (P) vergleicht, die aus dem zuerst zu entwerfenden ROA abgeleitet wurde. Wenn zum Beispiel die Lösungsmatrix der LMI, die sich ergibt, wenn die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 leicht in eine bestimmte Richtung verändert wird und sich der entworfenen positiven festgelegten symmetrischen Matrix (P) nähert, kann die Gewichtungsmatrix in diese Richtung aktualisiert werden. Mit anderen Worten: Dieses Verfahren führt numerisch ein Gradientenverfahren durch. Wie oben beschrieben, kann die neuronale Netzwerksteuerung 100 gemäß der vorliegenden Technologie das Gradientenverfahren numerisch durchführen, um die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 zu aktualisieren.
  • 3 ist ein Flussdiagramm, das die Verarbeitungsschritte gemäß dem Lernverfahren für die neuronale Netzwerksteuerung 100 gemäß der oben beschriebenen zweiten Ausführungsform zeigt. Wie in 3 dargestellt, umfassen die Verarbeitungsschritte den Schritt ST10 der Bereitstellung einer positiven festgelegten Ziel-Symmetriematrix (P), den Schritt ST20 der Bestimmung, ob die durch die Formeln (11) und (12) ausgedrückten LMls erfüllt sind oder nicht, und den Schritt ST30 der Aktualisierung der Gewichtungsmatrix in einem Fall, in dem die LMls nicht erfüllt sind.
  • Da die neuronale Netzwerksteuerung 100 gemäß der zweiten Ausführungsform die oben beschriebene Konfiguration aufweist, wird, wie oben beschrieben, zusätzlich zu den in der ersten Ausführungsform beschriebenen Effekten eine Wirkung erzielt, die in der Lage ist, einen ROA der geschlossenen Schleife zu entwerfen, d. h. einen stabilisierbaren Bereich.
  • INDUSTRIELLE ANWENDBARKEIT
  • Die neuronale Netzwerksteuerung 100 gemäß der vorliegenden Technologie kann zur Steuerung des wie zum Beispiel automatischen Betriebs eines Ziels wie eines Roboters, einer Anlage oder eines unbemannten Flugzeugs eingesetzt werden und ist industriell anwendbar.
  • BEZUGSZEICHENLISTE
  • 10: Empfangsvorrichtung, 20: Verarbeitungsschaltung, 22: Prozessor, 24: Arbeitsspeicher, 30: Anzeige, 100: neuronale Netzwerksteuerung, 200: Steuerziel
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 6908144 [0005]
    • JP 2020008993 [0054]

Claims (8)

  1. Neuronale Netzwerksteuerung, die eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix ist, wobei die Gewichtungsmatrix auf der Grundlage einer Verlustfunktion aktualisiert wird, die durch eine Verstärkung einer geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins eines Strafterms geschaltet wird.
  2. Neuronale Netzwerksteuerung nach Anspruch 1, wobei der Strafterm eine Funktion ist, die eine L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
  3. Lernverfahren für eine neuronale Netzwerksteuerung, die eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix ist, wobei die Gewichtungsmatrix auf der Grundlage einer Verlustfunktion aktualisiert wird, die durch eine Verstärkung einer geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins eines Strafterms geschaltet wird.
  4. Lernverfahren für eine neuronale Netzwerksteuerung nach Anspruch 3, wobei der Strafterm eine Funktion ist, die eine L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
  5. Lernverfahren für eine neuronale Netzwerksteuerung, wobei das Lernverfahren die folgenden Schritte umfasst: Bereitstellen einer positiven festgelegten Ziel-Symmetriematrix (P); Bestimmen, ob eine LMI in Bezug auf die lokale Stabilitätsbedingung für eine geschlossene Schleife erfüllt ist; und Aktualisieren einer Gewichtungsmatrix in einem Fall, in dem die LMI nicht erfüllt ist.
  6. Neuronale Netzwerksteuerung, die durch das Lernverfahren nach Anspruch 5 erlernt wird.
  7. Neuronale Netzwerksteuerung nach Anspruch 1, wobei das Steuerziel ein beliebiger Roboter, eine Anlage oder ein unbemanntes Flugzeug ist.
  8. Neuronale Netzwerksteuerung nach Anspruch 6, wobei das Steuerziel ein beliebiger Roboter, eine Anlage oder ein unbemanntes Flugzeug ist.
DE112021007838.0T 2021-08-23 2021-08-23 Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung Pending DE112021007838T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/030712 WO2023026314A1 (ja) 2021-08-23 2021-08-23 ニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法

Publications (1)

Publication Number Publication Date
DE112021007838T5 true DE112021007838T5 (de) 2024-04-18

Family

ID=85321656

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021007838.0T Pending DE112021007838T5 (de) 2021-08-23 2021-08-23 Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung

Country Status (5)

Country Link
US (1) US20240152727A1 (de)
JP (1) JP7395063B2 (de)
CN (1) CN118020078A (de)
DE (1) DE112021007838T5 (de)
WO (1) WO2023026314A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020008993A (ja) 2018-07-04 2020-01-16 株式会社東芝 学習方法、学習装置および画像認識システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908144B1 (ja) * 2020-02-06 2021-07-21 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020008993A (ja) 2018-07-04 2020-01-16 株式会社東芝 学習方法、学習装置および画像認識システム

Also Published As

Publication number Publication date
JPWO2023026314A1 (de) 2023-03-02
WO2023026314A1 (ja) 2023-03-02
US20240152727A1 (en) 2024-05-09
CN118020078A (zh) 2024-05-10
JP7395063B2 (ja) 2023-12-08

Similar Documents

Publication Publication Date Title
DE69225723T2 (de) Zweistufige Systemidentifikationsvorrichtung mit Optimierung
DE69701878T2 (de) Auf nichtlinearer annäherungsmethode basierende automatische vorrichtung
DE69413812T2 (de) Auf Fuzzylogik beruhendes Steuerungs-Verfahren für Stromversorgungen und Gerät zur dessen Durchführung
EP2135140B1 (de) Verfahren zur rechnergestützten steuerung und/oder regelung eines technischen systems
EP2108139B1 (de) Verfahren zur rechnergestützten regelung und/oder steuerung eines technischen systems, insbesondere einer gasturbine
DE10341764B4 (de) Integrierte Modell-Vorhersagesteuerung und -Optimierung innerhalb eines Prozesssteuerungssystems
DE68928612T2 (de) Verfahren zur bestimmung der inferenzregel sowie inferenzmotor
DE69803606T2 (de) Verfahren zum vorhersagen der ueberschwingung in einem steuerungssystem
DE69706986T2 (de) Zugehörigkeitsfunktionen ändernder adaptiver fuzzy-regler
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102021200012A1 (de) Optimierte quantisierung für neuronale netze mit verringerter auflösung
EP3646122B1 (de) Verfahren und vorrichtung zum einstellen mindestens eines parameters eines aktorregelungssystems und aktorregelungssystem
Gao et al. Observer-based adaptive fuzzy output constrained control for MIMO nonlinear systems with unknown control directions
DE102016011526A1 (de) Maschinenlernsystem und Motorsteuersystem mit Funktion des automatischen Justierens eines Parameters
DE202018102632U1 (de) Vorrichtung zum Erstellen einer Modellfunktion für ein physikalisches System
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE112021007838T5 (de) Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung
DE202020104238U1 (de) Vorrichtung zum Lernen einer Strategie und Betreiben der Strategie
DE102021200042A1 (de) Vorrichtung und Verfahren zum Verfahren zum Trainieren des neuronalen Driftnetzwerks und des neuronalen Diffusionsnetzwerks einer neuronalen stochastischen Differentialgleichung
DE102018003244A1 (de) Numerische Steuerung
DE102020211648A1 (de) Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE202023100506U1 (de) Vorrichtung zum optimierten Trainieren eines bestärkenden Lernalgorithmus zur Erzeugung eines Steuerbefehls
Ernst et al. Maschinelles Lernen: Deep Learning mit neuronalen Netzen
EP0777881B1 (de) Verfahren zur festlegung des gültigkeitsbereichs für ein künstliches neuronales netzwerk
DE69328596T2 (de) Optimierung eines Neuralnetzwerks mit Vorwärtskopplung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R081 Change of applicant/patentee

Owner name: MITSUBISHI ELECTRIC CORPORATION, JP

Free format text: FORMER OWNER: MITSUBISHI ELECTRIC CORPORATION, TOKYO, JP