DE112021007838T5

DE112021007838T5 - Neuronale netzwerksteuerung und lernverfahren für neuronale netzwerksteuerung

Info

Publication number: DE112021007838T5
Application number: DE112021007838.0T
Authority: DE
Inventors: Ryoichi Takase; Nobuyuki Yoshikawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2024-04-18
Also published as: JPWO2023026314A1; WO2023026314A1; US20240152727A1; CN118020078A; JP7395063B2

Abstract

Eine neuronale Netzwerksteuerung (100) gemäß der vorliegend offenbarten Technologie ist eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix. Die Gewichtungsmatrix der neuronalen Netzwerksteuerung (100) wird auf der Grundlage einer Verlustfunktion aktualisiert, die durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt ist und die in einem Modus des Vorhandenseins oder nicht Vorhandenseins des Strafterms geschaltet wird.

Description

TECHNISCHES GEBIET
Die vorliegend offenbarte Technologie bezieht sich auf eine neuronale Netzwerksteuerung und ein Lernverfahren für die neuronale Netzwerksteuerung.
STAND DER TECHNIK
Ein neuronales Netzwerk ist ein mathematisches Modell oder eine Software zur Umsetzung von Funktionen und Eigenschaften eines Gehirns mit einem Computer. Da ein neuronales Netzwerk nicht unbedingt die Funktionsweise einer neuronalen Schaltung eines echten Organismus nachbildet, kann es als künstliches neuronales Netz bezeichnet werden. Ein neuronales Netzwerk etz ist ein Aspekt einer Lernvorrichtung und wurde in verschiedenen industriellen Bereichen eingesetzt. Die künstliche Intelligenz, einschließlich des künstlichen neuronalen Netzwerkes, wird auch als künstliche Intelligenz (KI) bezeichnet.
In den letzten Jahren haben Lernvorrichtungen und Kl, die durch neuronale Netzwerke repräsentiert werden, aufgrund von Berichten über Ergebnisse von Deep Learning, Verstärkendes Lernen und ähnlichem mehr Aufmerksamkeit erregt. Bei Go zum Beispiel gewinnt die KI gegen einen Profispieler auf Weltniveau. Ob die oben beschriebene Lernvorrichtung und die Kl, die Aufmerksamkeit erregt, auf die Steuerung des wie zum Beispiel automatischen Betriebs eines Ziels wie eines Roboters, einer Anlage oder eines unbemannten Flugzeugs angewandt werden können, ist noch nicht geklärt.
In der Patentliteratur findet sich auch ein Beispiel, in dem ein maschineller Lerner für eine Steuerungseinrichtung eines automatisch betriebenen Roboters verwendet wird (z. B. Patentliteratur 1). Die Steuerungseinrichtung gemäß Patentliteratur 1 leitet einen Betriebsinhalt oder ähnliches aus einem mathematischen Modell ab, das durch Verstärkendes Lernen mit einem maschinellen Lerner erzeugt wird.
REFERENZLISTE
PATENTLITERATUR
Patentliteratur 1: Japanisches Patent Nr. 6908144 (es gibt keine offengelegte Veröffentlichung der Anmeldung)
KURZFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Die Lernvorrichtung und die KI enthalten einen Mechanismus zur Bewertung von Versuchen, der als Evaluierungsfunktion, Verlustfunktion, Kostenfunktion oder ähnliches bezeichnet wird. Eine Steuerungseinrichtung nach Patentschrift 1 verwendet beispielsweise einen negativen Wert eines Aktionswertes als Verlustfunktion und veranlasst ein neuronales Netzwerk dazu, so zu lernen, dass die Verlustfunktion minimiert wird. Das heißt, die Steuerungseinrichtung nach Patentschrift 1 veranlasst das neuronale Netzwerk, so zu lernen, dass der Aktionswert erhöht wird. Nach der Beschreibung in Patentliteratur 1 gibt der Aktionswert an, wie angemessen die vom Lernmodell abgeleitete Operation war. Gemäß der Beschreibung der Patentliteratur 1 ist das System so entworfen, dass eine höhere Belohnung erzielt wird, wenn der Absolutwert eines Fehlers zwischen einem Sollwert (einer Soll-Fahrzeuggeschwindigkeit in der Beschreibung) und einem tatsächlichen Wert (einer Erfassungs-Fahrzeuggeschwindigkeit in der Beschreibung) näher bei Null liegt.
Um es mit einem Beispiel zu umschreiben: Ein Hauptziel der in der Patentschrift 1 dargestellten Lernvorrichtung nach dem Stand der Technik ist es, die Technik eines erfahrenen Piloten als Lehrer zu imitieren. Hier sind die Imitation eines Lehrers und die Stabilität einer geschlossenen Schleife, wenn die Lernvorrichtung als Steuerungseinrichtung verwendet wird, unterschiedliche Konzepte.
Wie oben beschrieben, wird bei der herkömmlichen Lernvorrichtung die Stabilität der geschlossenen Schleife, die eine wichtige Eigenschaft der Steuerungseinrichtung ist, nicht unbedingt berücksichtigt. Die vorliegende Technologie bietet eine neuronalen Netzwerksteuerung unter Berücksichtigung der Stabilität der geschlossenen Schleife und ein Lernverfahren für die neuronale Netzwerksteuerung.
LÖSUNG DES PROBLEMS
Die neuronale Netzwerksteuerung nach der vorliegenden Technologie ist eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix. Die Gewichtungsmatrix der neuronalen Netzwerksteuerung wird auf der Grundlage einer Verlustfunktion aktualisiert, die durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins des Strafterms umgeschaltet wird.
VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
Da die neuronale Netzwerksteuerung gemäß der vorliegenden Technologie die oben beschriebene Konfiguration aufweist, wird die Stabilität der geschlossenen Schleife aufrechterhalten.
KURZBESCHREIBUNG DER ZEICHNUNGEN

1 ist eine schematische Darstellung, die eine geschlossene Schleife unter Verwendung einer neuronalen Netzwerksteuerung gemäß einer ersten Ausführungsform zeigt.
2A ist eine erste Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung gemäß der ersten Ausführungsform. 2B ist eine zweite Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung gemäß der ersten Ausführungsform.
3 ist ein Flussdiagramm, das die Verarbeitungsschritte eines Lernverfahrens für eine neuronale Netzwerksteuerung gemäß einer zweiten Ausführungsform darstellt.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Mit der vorliegenden Anmeldung wird die Anwendung der Ausnahmeregelung für den Verlust der Neuheit der Erfindung auf den folgenden Aufsatz des Erfinders beansprucht.
„Stability - Certified Reinforcement Learning via Spectral Normalization“, Ryoichi Takase, Nobuyuki Yoshikawa, et al., Dezember 2020, https://arxiv.org/pdf/2012.13744.pdf
Daher wird ein akademischer Aspekt, wie z. B. ein Prinzip, das die Grundlage der vorliegenden Technologie bildet, durch Verweis auf den Aufsatz (im Folgenden als „Aufsatz des Erfinders“ bezeichnet) verdeutlicht. In der vorliegenden Beschreibung wird auf die Beschreibung von Machbarkeitsbeweisen und dergleichen verzichtet, und die Beschreibung akademischer Aspekte wird auf ein Minimum reduziert.
Erstes Ausführungsbeispiel.
1 ist eine schematische Darstellung, die eine geschlossene Schleife unter Verwendung einer neuronalen Netzwerksteuerung 100 gemäß einer ersten Ausführungsform zeigt. Wie in 1 dargestellt, bildet die neuronale Netzwerksteuerung 100 eine geschlossene Schleife, um ein Steuerziel 200 zu steuern.
Es wird angenommen, dass das in 1 dargestellte Steuerziel 200 ein System ist, das die folgende zeitdiskrete Zustandsgleichung erfüllt, wenn es in einem bestimmten Gleichgewichtspunkt linearisiert wird. $x (k + 1) = A_{H} x (k) + B_{H} u (k)$
Dabei stellt ein Vertikalvektor x(k) den Zustand des Steuerziels 200 bei der k-ten Abtastung dar. Ein Vertikalvektor u(k) stellt eine Eingabe für das Steuerziel 200 bei der k-ten Abtastung dar. Die Matrizen A_H und B_H sind die A-Matrix und die B-Matrix der zeitdiskreten Zustandsgleichung des am Gleichgewichtspunkt linearisierten Steuerziels 200.
Um zwischen kontinuierlicher Zeit und diskreter Zeit im Allgemeinen zu unterscheiden, gibt auch ein Verfahren zur Verwendung von Klammern, wenn es sich um kontinuierliche Zeit handelt, und ein tiefgestelltes Zeichen, wenn es sich um diskrete Zeit handelt (z. B. x_k+1 o. ä.). In der vorliegenden Beschreibung wird zur Vermeidung des Missbrauchs einer Tiefstellung auch für die diskrete Zeit ein Verfahren mit Klammern verwendet, wie in Formel (1) dargestellt.
2A ist eine erste Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform.
Wie in 2A dargestellt, kann die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform durch spezielle Hardware implementiert werden. Im Falle der Konfiguration durch dedizierte Hardware umfasst die neuronale Netzwerksteuerung 100 eine Empfangsvorrichtung 10, eine Verarbeitungsschaltung 20 und eine Anzeige 30. Es ist denkbar, dass die Verarbeitungsschaltung 20 z.B. eine einzelne Schaltung, eine zusammengesetzte Schaltung, ein programmierter Prozessor, ein parallel programmierter Prozessor, ein ASIC, ein FPGA oder eine Kombination davon ist. Jeder Verarbeitungsinhalt der neuronalen Netzwerksteuerung 100 kann durch separate Hardware implementiert werden oder gemeinsam durch ein einzelnes Stück Hardware implementiert werden.
2B ist eine zweite Hardware-Konfigurationsdarstellung der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform.
Wie in 2B dargestellt, kann die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform durch Software implementiert werden. Mit anderen Worten: Die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform kann durch einen Prozessor 22 implementiert werden, der ein in einem Arbeitsspeicher 24 gespeichertes Programm ausführt. Die in 2B dargestellte neuronale Netzwerksteuerung 100 umfasst eine Empfangsvorrichtung 10, einen Prozessor 22, einen Arbeitsspeicher 24 und eine Anzeige 30. Der Prozessor 22 kann durch eine CPU (auch als zentrale Verarbeitungseinheit, Verarbeitungseinheit, arithmetische Einheit, Mikroprozessor, Mikrocomputer, Prozessor oder DSP bezeichnet) implementiert werden.
Der Arbeitsspeicher 24 kann beispielsweise ein nichtflüchtiger oder flüchtiger Halbleiterspeicher wie ein RAM, ein ROM, ein Flash-Speicher, ein EPROM oder ein EEPROM sein. Darüber hinaus kann der Arbeitsspeicher 24 durch eine Magnetplatte, eine flexible Platte, eine optische Platte, eine Compact Disk, eine Mini-Disk, eine DVD oder Ähnliches implementiert werden.
Ein Teil der neuronalen Netzwerksteuerung 100 kann durch spezielle Hardware implementiert werden, der andere Teil kann durch Software oder Firmware implementiert werden. Wie oben beschrieben, wird jede Funktion der neuronalen Netzwerksteuerung 100 durch Hardware, Software, Firmware oder eine Kombination davon implementiert.
Die in 1 und 2 dargestellte neuronale Netzwerksteuerung 100 ist ein mehrschichtiges neuronales Netzwerk und wird durch die folgende Formel definiert. Das heißt, u(k), das eine Eingabe für das durch Formel (1) ausgedrückte Steuerziel 200 ist, wird durch die folgenden Formeln entworfen. $w^{0} k = x (k);$
$w^{i} (k) = ϕ' (W^{i} w^{i - 1} (k) + b^{i}), i = 1,2, \dots, l;$
$u (k) = W^{l + 1} w^{i} (k) + b^{l + 1};$
Hier stellt wⁱ(k), ein Vertikalvektor, eine Ausgabe der i-ten Schicht des neuronalen Netzwerks dar. Wⁱ(k) ist eine Gewichtungsmatrix, die in der i-ten Schicht des neuronalen Netzwerks verwendet wird, und gewichtet die Ausgabe der (i-1)-ten Schicht. Darüber hinaus stellt bⁱ(k) eine Vorspannung der i-ten Schicht im neuronalen Netzwerk dar. Das durch Formel (2) dargestellte neuronale Netzwerk ist ein mehrschichtiges neuronales Netzwerk mit insgesamt I (L) Schichten.
Φⁱ() in Formel (2b) ist ein Vertikalvektor, der eine Aktivierungsfunktion enthält und durch die folgende Formel gegeben ist. $ϕ^{i} (v) : = {[\begin{matrix} φ (v_{1}), & φ (v_{2}), & \dots, & φ (v_{n_{i}}) \end{matrix}]}^{T}$
Hier steht T der oberen Tiefstellung auf der rechten Seite der Formel (3) für eine Transpositionsoperation. Darüber hinaus ist jedes Element auf der rechten Seite von Formel (3) eine Aktivierungsfunktion.
Die Situation, dass die in 1 dargestellte geschlossene Schleife in einem Gleichgewichtszustand stabil ist, wird durch die folgenden Formeln $x_{*} = A_{H} x_{*} + B_{H} u_{*}$
$u_{*} = π (x_{*})$
ausgedrückt.
Dabei ist π() auf der rechten Seite von Formel (4b) eine Funktion, die die Eingabe-/Ausgabebeziehung der in den Formeln (2a) bis (2c) dargestellten neuronalen Netzwerksteuerung 100 darstellt.
Wenn ein Argument von ϕ() auf der rechten Seite von Formel (2b) auf v* gesetzt wird, können die Formeln (4a) bis (4b) als erweitertes System $x_{*} = A_{H} x_{*} + B_{H} u_{*}$
$[\begin{matrix} u_{*} \\ v_{*} \end{matrix}] = N [\begin{matrix} x_{*} \\ w_{*} \\ 1 \end{matrix}]$
$w_{*} = ϕ (v_{*})$
wie folgt ausgedrückt werden.
Es ist zu beachten, dass N der Matrix in Formel (5b) durch die folgende Formel definiert ist.
Die vorliegende Technologie basiert auf einer Strategie zur Aktualisierung der Gewichtungen eines neuronalen Netzwerks unter Verwendung einer Lösungsmatrix einer linearen Matrixungleichung (Linear Matrix Inequality, im Folgenden als „LMI“ bezeichnet), die im Folgenden dargestellt wird. Es wer-
$R_{V} : = [\begin{matrix} I & 0 \\ N_{u x} & N_{u w} \end{matrix}]$
$R_{ϕ} : = [\begin{matrix} N_{v x} & N_{v w} \\ 0 & I \end{matrix}]$
$Ψ_{ϕ} : = [\begin{matrix} diag (β_{ϕ}) & - I \\ - diag (α_{ϕ}) & I \end{matrix}]$
$Μ_{ϕ} (λ) : = [\begin{matrix} 0 & diag (λ) \\ diag (λ) & 0 \end{matrix}]$
den mehrere Matrizen definiert, um die zu lösenden LMls anzugeben.
Es ist zu beachten, dass λ in Formel (10) λ ≥ 0 ist.
Die zu lösende LMI, die für die Aktualisierung der Gewichtungsmatrix erforderlich ist, wird durch die folgenden Formeln gegeben. $R_{V}^{T} [\begin{matrix} A_{H}^{T} P A_{H} - P & A_{H}^{T} P B \\ B^{T} P A_{H} & B^{T} P B \end{matrix}] R_{v} + R_{ϕ}^{T} ψ_{ϕ}^{T} M_{ϕ} (λ) ψ_{ϕ} R_{ϕ} ≺ 0$
$[\begin{matrix} {({\bar{v}}_{i}^{1} - v_{*, i}^{1})}^{2} & W_{i}^{1} \\ W_{i}^{1 T} & P \end{matrix}] \underline{≻} 0, i = 1, \dots, n_{1}$
Dabei ist W¹ in Formel (12) eine Gewichtungsmatrix, die die Gewichtungsparameter der ersten Schicht der verborgenen Schichten enthält. Darüber hinaus ist v¹ durch v¹ = W¹x gegeben. Außerdem zeigt ein Balken über v¹ eine obere Grenze von v¹ an. Zu beachaten ist, dass sich bei den Ungleichheitszeichen in den Formeln (11) und (12) um Matrixungleichungen handelt, werden gekrümmte Zeichen verwendet, die sich von den normalen Ungleichungen für den Vergleich von Skalargrößen unterscheiden.
Wenn es eine positive festgelegte symmetrische Matrix P gibt, die die Formeln (11) und (12) erfüllt, dann ist die in 1 dargestellte geschlossene Schleife im Gleichgewichtszustand (x *) lokal stabil. Die in den Formeln (11) und (12) dargestellten Bedingungen der LMls können als Lyapunov-Bedingung bezeichnet werden.
Wenn P, die Lösungsmatrix der in den Formeln (11) und (12) dargestellten LMls, gefunden werden kann, ist es möglich, einen Anziehungsbereich (ROA) der in 1 dargestellten geschlossenen Schleife zu erhalten, d. h. Informationen über einen stabilisierbaren Bereich. Es wurde bewiesen, dass die folgenden n-dimensionalen Ellipsen, die speziell durch P der Lösungsmatrix $ε (P, x_{*}) : = {x \in ℜ^{n} : {(x - x_{*})}^{T} P (x - x_{*}) < 1}$
definiert werden können, notwendigerweise im ROA enthalten sind.
Die in Formel (13) gezeigte Form wird als quadratische Form bezeichnet. Es ist zu beachten, dass Formel (13) eine Ellipse darstellt, wenn der Zustand (x) zweidimensional ist, und ein Ellipsoid, wenn der Zustand (x) dreidimensional ist. Da der Zustand (x) n-dimensional ist, ist der durch Formel (13) definierte Bereich im Allgemeinen nicht unbedingt nur eine Ellipse. Der durch Formel (13) definierte Bereich wird hier als „n-dimensionale Ellipse“ bezeichnet.
Im Allgemeinen ist das Small-Gain-Theorem als Theorem über die Stabilität der geschlossenen Schleife bekannt. Aus dem Small-Gain-Theorem wird abgeleitet, dass die Verstärkung der neuronalen Netzwerksteuerung 100 unterdrückt wird, damit die positive festgelegte symmetrische Matrix P die Formeln (11) und (12) erfüllt. Daher wird bei der vorliegenden Technologie zunächst versucht, die Gewichtungsmatrix der verborgenen Schicht der neuronalen Netzwerksteuerung 100 mit einem bestimmten Wert zu normalisieren. Dieses Verfahren wird in dem Aufsatz des Erfinders als Pre-Guaranteed (dt. vorgarantiert) RL (dt. Verstärkendes Lernen) bezeichnet.
Im Pre-Guaranteed RLwird die normalisierte Gewichtungsmatrix nach folgender Formel berechnet. ${\hat{W}}^{i} = \frac{δ^{i}}{σ_{m a x} (W^{i})} + W^{i}, δ^{i} > 0, i = 1,2, \dots, l$
Es ist zu beachten, dass Wⁱ mit einem Dach auf der linken Seite von Formel (14) eine normalisierte Gewichtungsmatrix in der i-ten Schicht darstellt. Darüber hinaus ist δⁱ ein für die i-te Schicht definierter Tuningparameter, der eine positive Konstante ist. Außerdem stellt σ_max() der Funktion im Nenner auf der rechten Seite von Formel (14) den maximalen Singulärwert dar. Es ist zu beachten, dass der maximale Singulärwert einer induzierten Norm entspricht, $σ_{m a x} (W) = sup_{h \neq 0} \frac{{‖ W h ‖}_{2}}{{‖ h ‖}_{2}}$
wie unten gezeigt.
Das heißt, Pre-Guaranteed RL normalisiert die Gewichtungsmatrix mit ihrem maximalen Singulärwert, wie in Formel (14) dargestellt. Eine solche Normalisierung wird auch als Spektralnormalisierung bezeichnet.
Die Umformung von Formel (14) zeigt, dass der obige Tuningparameter gleich der Spektrumsnorm der normalisierten Gewichtungsmatrix ist. $\begin{matrix} σ_{m a x} ({\hat{W}}^{i}) = \frac{δ^{i}}{σ_{m a x} (W^{i})} σ_{m a x} (W^{i}) \\ = δ^{i} \end{matrix}$
Formel (15) hat die gleiche Form wie die H-Unendlichkeitsnorm im li- $\begin{matrix} γ_{H} \underset{w h e r e i n}{: = {‖ H ‖}_{L 2}} = sup_{x} \frac{{‖ y ‖}_{L 2}}{{‖ x ‖}_{L 2}} \\ {‖ x ‖}_{L 2} = \sqrt{\int_{0}^{\infty} {| x (t) |}^{2} d t} \\ {‖ y ‖}_{L 2} = \sqrt{\int_{0}^{\infty} {| y (t) |}^{2} d t} \end{matrix}$
nearen System oder die L2-Verstärkung im nichtlinearen System, da sie durch die induzierte Norm definiert ist. Die L2-Verstärkung des nichtlinearen Systems (H), das ein Mapping von einem Eingabesignal x auf ein Ausgabesignal y vornimmt, ist durch die folgende Formel gegeben.
Obwohl Einzelheiten in dem Aufsatz des Erfinders beschrieben sind, wird die Beziehung zwischen der L2-Verstärkung und der Spektrumsnorm, die für die neuronale Netzwerksteuerung 100 definiert werden kann, durch die folgende Formel ausgedrückt.
Es ist zu beachten, dass die Tiefstellung von π auf der linken Seite der Formel (18) für die neuronale Netzwerksteuerung 100 steht, die das in 1 dargestellte nichtlineare System ist.
Daher wird die Bedingung, dass die in 1 dargestellte geschlossenen Schleife mit der endlichen Verstärkung L2 stabil ist, auf der Grundlage des $\bar{σ_{π}} γ_{H} < 1$
Small-Gain-Theorem wie folgt ausgedrückt.
Es ist zu beachten, dass die Tiefstellung von π auf der rechten Seite von Formel (19) für die neuronale Netzwerksteuerung 100 und der Index H für das Steuerziel 200 steht.
In Anbetracht der Unterteilung der neuronalen Netzwerksteuerung 100 in L verborgene Schichten und eine letzte Schicht hinter den verborgenen Schichten kann Formel (19) wie folgt geändert werden. ${σ_{max} (W^{L + 1}) \prod_{i = 1}^{l} δ_{i}} γ_{H} < 1$
Formel (20) kann wie folgt weiter modifiziert werden, indem man sich auf die $σ_{max} (W^{L + 1}) < \frac{1}{{\prod_{i = 1}^{l} δ_{i}} γ_{H}}, wherein {\prod_{i = 1}^{l} δ_{i}} γ_{H} > 0,$
letzte Schicht konzentriert.
Das heißt, Formel (21) legt nahe, dass die geschlossene Schleife mit der endlichen Verstärkung L2 stabilisiert werden kann, wenn der maximale Singulärwert der Gewichtungsmatrix der letzten Schicht so unterdrückt wird, dass er kleiner ist als die rechte Seite der Ungleichung.
Wie oben beschrieben, führt das in der ersten Ausführungsform beschriebene Pre-Guaranteed RL eine Spektralnormalisierung durch, um die Gewichtungsmatrix mit ihrem maximalen Singulärwert zu normalisieren, und hält die geschlossene Schleife mit der endlichen Verstärkung L2 stabil. Die Normalisierung der Gewichtungsmatrix mit dem maximalen Singulärwert kann durch einen Strafterm in der Verlustfunktion beim Lernen erreicht werden. Die beim maschinellen Lernen verwendete Verlustfunktion kann als Evaluierungsfunktion, Kostenfunktion oder Zielfunktion bezeichnet werden. Kurz gesagt, die Verlustfunktion ist ein Index, der angibt, wie gut das Lernen im $V (W) = {\begin{matrix} V_{main} (W) & if \bar{σ_{π}} γ_{H} < 1 \\ V_{main} (W) + V_{P} (γ_{W}) & if \bar{σ_{π}} γ_{H} \geq 1 \end{matrix}$
Hinblick auf den Zweck funktioniert. Wie bei anderen Optimierungsproblemen stellt sich auch beim Lernen das Problem, einen Parameter zu finden, der diese Verlustfunktion minimiert. Es wird angenommen, dass eine Hauptverlustfunktion, die einen der neuronalen Netzwerksteuerung 100 vorgegebenen Lernzweck repräsentiert, durch V_main() dargestellt wird. Bei dem in der ersten Ausführungsform beschriebenen Pre-Guaranteed RL ist es denkbar, dass V(W) einer der unten beschriebenen Funktionen eine Verlustfunktion ist.
Hier ist V_P() ein Strafterm. Formel (22) zeigt an, dass die vorliegende Technologie die Verlustfunktion durch die L2-Verstärkung der geschlossenen Schleife in Fälle unterteilt und die Verlustfunktion in einen Modus des Vorhandenseins oder Nichtvorhandenseins des Strafterms schaltet. Der Strafterm kann eine Funktion sein, die die L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
Im technischen Bereich des Lernens wird der Hauptverlustfunktion auch ein Regularisierungsterm hinzugefügt, um das „Over-Learning“ zu unterdrücken. Diese Technik wird bei der Ridge-Regression angewendet. Dies geschieht zum Zweck der Unterdrückung des „Over-Learning“ und unterscheidet sich vom Zweck der stabilen Aufrechterhaltung der geschlossenen Schleife der hier vorgestellten Technologie. Wie oben beschrieben, wird die Verlustfunktion gemäß der ersten Ausführungsform, ausgedrückt durch Formel (22), durch die Verstärkung der geschlossenen Schleife in Fälle unterteilt. Die Technik der Hinzufügung eines Regularisierungsterms zur Hauptverlustfunktion in der Ridge-Regression hat kein technisches Merkmal in Bezug auf die Verlustfunktion der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform, dass „die Verlustfunktion durch die Verstärkung der geschlossenen Schleife geschaltet wird“.
Eine Lernvorrichtung nach dem Stand der Technik, die einen L2-Regularisierungsterm zu einer Hauptverlustfunktion zu einem anderen Zweck als der Unterdrückung des „Over-Learning“ ebenfalls offenbart. Zum Beispiel offenbart die japanische Patentanmeldung Laid-Open No. 2020-8993 eine Technik, bei der ein L2-Regularisierungsterm zu einer Verlustfunktion hinzugefügt wird, um die Größe eines neuronalen Netzwerkwerks für den Zweck der Reduzierung und gleichzeitiger Abnahme der Genauigkeit zu unterdrücken. Der Stand der Technik, der in dieser Patentliteratur beispielhaft dargestellt ist, weist auch kein technisches Merkmal in Bezug auf die Verlustfunktion der neuronalen Netzwerksteuerung 100 gemäß der ersten Ausführungsform auf, nämlich „Schalten der Verlustfunktion durch die Verstärkung der geschlossenen Schleife“.
Wie oben beschrieben, wird die geschlossene Schleife mit der endlichen Verstärkung L2 stabil gehalten, da die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform die oben beschriebene Konfiguration aufweist.
Zweites Ausführungsbeispiel.
Die neuronale Netzwerksteuerung 100 gemäß der ersten Ausführungsform hat zur Folge, dass die geschlossene Schleife mit der endlichen Verstärkung L2 stabil bleibt, indem sie die Aktualisierung der Gewichtungsmatrix verarbeitet. Eien neuronale Netzwerksteuerung 100 gemäß einer zweiten Ausführungsform hat zur Folge, dass sie in der Lage ist, einen ROA der geschlossenen Schleife, d.h. einen stabilisierbaren Bereich, zu entwerfen.
In der zweiten Ausführungsform werden die gleichen Bezugsziffern wie in der ersten Ausführungsform verwendet, sofern nicht anders angegeben. Außerdem wird bei der zweiten Ausführungsform die Beschreibung, die sich mit der ersten Ausführungsform überschneidet, gegebenenfalls weggelassen.
Wenn in der neuronalen Netzwerksteuerung 100 die positive festgelegte symmetrische Matrix P gefunden wird, die die in den Formeln (11) und (12) dargestellten LMls erfüllt, ist die in 1 dargestellte geschlossenen Schleife im Gleichgewichtszustand (x *) lokal stabil. Darüber hinaus umfasst der ROA der geschlossenen Schleife zu diesem Zeitpunkt eine n-dimensionale Ellipse, die durch Formel (13) unter Verwendung von P definiert ist.
Daher verwendet die neuronale Netzwerksteuerung 100 gemäß der zweiten Ausführungsform ein Verfahren zur Bestimmung einer n-dimensionalen Ellipse, die in dem zu entwerfenden ROA enthalten ist, als erstes. Die Kandidaten für die positive festgelegte symmetrische Matrix (P), die die n-dimensionale Ellipse definiert, werden wie folgt bestimmt. $P : = Q^{T} Q$
Hier steht das T der oberen Tiefstellung auf der rechten Seite der Formel (23) für eine Transpositionsoperation. Q auf der rechten Seite von Formel (23) kann z. B. eine Primärtransformationsmatrix sein.
Die Eigenwerte und die Eigenvektoren der Primärtransformationsmatrix (Q) erfüllen die folgenden Formeln. $\begin{matrix} λ_{1} x_{1} = Q x_{1}, & x_{1} \neq 0 \\ λ_{2} x_{2} = Q x_{2}, & x_{2} \neq 0 \\ ⋮ & ⋮ \\ λ_{n} x_{n} = Q x_{n}, & x_{n} \neq 0 \end{matrix}$
Dabei steht λ, das die Formel (24) erfüllt, für einen Eigenwert und x für einen Eigenvektor. Obwohl es so viele Kombinationen von Eigenwerten und Eigenvektoren wie Zustandsgrade gibt, ist die Auswahl der Eigenvektoren unendlich groß. Wenn zum Beispiel ein Eigenvektor, der λ₁ entspricht, x₁ ist, ist kx₁, das ein mit k multiplizierter Vektor ist, ebenfalls ein Eigenvektor. Formel (24) kann in die folgende Matrixdarstellung umgewandelt werden. $\begin{array}{l} \overset{T}{\overset{︷}{[\begin{matrix} x_{1} & x_{2} & \dots & x_{n} \end{matrix}]}} [\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 & λ_{2} & ⋮ \\ ⋮ & ⋱ & 0 \\ 0 & \dots & 0 & λ_{n} \end{matrix}] = Q \overset{T}{\overset{︷}{[\begin{matrix} x_{1} & x_{2} & \dots & x_{n} \end{matrix}]}} \\ Q \overset{↓}{=} T diag (λ_{1}, λ_{2}, \dots, λ_{n}) T^{- 1} \end{array}$
Wenn es eine inverse Matrix (T^-1) einer Matrix (T) mit Eigenvektoren gibt, kann die Primärtransformationsmatrix (Q) in eine Matrix mit Eigenwerten als Diagonalkomponenten diagonalisiert werden.
Wenn der Zustand an der Grenzlinie der n-dimensionalen Ellipse, ausgedrückt durch Formel (13), mit der Richtung des Eigenvektors der Primärtransformationsmatrix (Q) übereinstimmt, kann eine Formel, die die Grenzlinie der n-dimensionalen Ellipse darstellt, wie folgt transformiert werden. $\begin{matrix} \overset{x_{i}^{T}}{\overset{︷}{(\begin{matrix} x_{i_{1}} & x_{i_{2}} \end{matrix})}} P \overset{x_{i}}{\overset{︷}{(\begin{matrix} x_{i_{1}} \\ x_{i_{2}} \end{matrix})}} = 1, for i = 1,2, \dots, n \\ ↓ \\ x_{i_{1}}^{2} + x_{i_{2}}^{2} = \frac{1}{λ_{i}^{2}}, for i = 1,2, \dots, n \end{matrix}$
In Formel (26) wird der Zustand (x) der Einfachheit halber als zweidimensional festgelegt. Außerdem wird der Gleichgewichtszustand (x *) als Ursprung festgelegt. Wenn der Zustand mit der Richtung des Eigenvektors der Primärtransformationsmatrix (Q) übereinstimmt, zeigt Formel (26), dass es eine Grenzlinie einer n-dimensionalen Ellipse auf einem Kreis gibt, dessen Radius der Kehrwert des Absolutwerts des Eigenwertes ist. Mit anderen Worten: Der Eigenvektor der Primärtransformationsmatrix (Q) bezieht sich auf die Richtung der Achse der n-dimensionalen Ellipse, und der Eigenwert bezieht sich auf die Länge der Achse der n-dimensionalen Ellipse.
Wie oben beschrieben, bestimmt die neuronalen Netzwerksteuerung 100 gemäß der zweiten Ausführungsform die Primärtransformationsmatrix (Q), die die n-dimensionale Ellipse bestimmt, die in dem zuerst zu entwerfenden ROA enthalten ist. Anschließend wird aus der erhaltenen Primärtransformationsmatrix (Q) eine positive festgelegte symmetrische Matrix (P) nach Formel (23) berechnet. Anschließend wird geprüft, ob die positive festgelegte symmetrische Matrix (P) die durch die Formeln (11) und (12) ausgedrückten LMls erfüllt oder nicht.
Im Allgemeinen besteht die Tendenz, dass der ROA durch eine Verringerung der Verstärkung der geschlossenen Schleife erhöht werden kann. $V_{2} (W) = {\begin{matrix} V_{main} (W) & if \bar{σ_{π}} γ_{H} < γ_{2} \\ V_{main} (W) + V_{P} (γ_{w}) & if \bar{σ_{π}} γ_{H} \geq γ_{2} \end{matrix}$
Daher ist es beispielsweise denkbar, die Verlustfunktion wie folgt zu ändern, wobei die in der ersten Ausführungsform erhaltene Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 als Anfangswert verwendet wird.
Hier ist γ₂ in der Bedingung von Formel (27) eine positive Zahl kleiner als eins. Es ist zu beachten, dass der Anfangswert der Gewichtungsmatrix nicht auf den in der ersten Ausführungsform erhaltenen Wert beschränkt ist, und dass eine Gewichtungsmatrix mit einer geringen Verstärkung als Anfangswert verwendet werden kann. Bei einem Verfahren zur wiederholten Lösung des Optimierungsproblems durch angemessene Änderung von γ₂ in der Bedingung von Formel (27) wird die Gamma-Iteration in der H-Unendlichkeits-Kontrolltheorie als Referenz verwendet.
In den letzten Jahren ist es möglich, eine numerische Lösung der LMI durch numerische Analysesoftware zu erhalten. Daher ist es auch denkbar, die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 zu aktualisieren, indem man die erhaltene Lösungsmatrix der LMI mit der positiven festgelegten symmetrischen Matrix (P) vergleicht, die aus dem zuerst zu entwerfenden ROA abgeleitet wurde. Wenn zum Beispiel die Lösungsmatrix der LMI, die sich ergibt, wenn die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 leicht in eine bestimmte Richtung verändert wird und sich der entworfenen positiven festgelegten symmetrischen Matrix (P) nähert, kann die Gewichtungsmatrix in diese Richtung aktualisiert werden. Mit anderen Worten: Dieses Verfahren führt numerisch ein Gradientenverfahren durch. Wie oben beschrieben, kann die neuronale Netzwerksteuerung 100 gemäß der vorliegenden Technologie das Gradientenverfahren numerisch durchführen, um die Gewichtungsmatrix der neuronalen Netzwerksteuerung 100 zu aktualisieren.
3 ist ein Flussdiagramm, das die Verarbeitungsschritte gemäß dem Lernverfahren für die neuronale Netzwerksteuerung 100 gemäß der oben beschriebenen zweiten Ausführungsform zeigt. Wie in 3 dargestellt, umfassen die Verarbeitungsschritte den Schritt ST10 der Bereitstellung einer positiven festgelegten Ziel-Symmetriematrix (P), den Schritt ST20 der Bestimmung, ob die durch die Formeln (11) und (12) ausgedrückten LMls erfüllt sind oder nicht, und den Schritt ST30 der Aktualisierung der Gewichtungsmatrix in einem Fall, in dem die LMls nicht erfüllt sind.
Da die neuronale Netzwerksteuerung 100 gemäß der zweiten Ausführungsform die oben beschriebene Konfiguration aufweist, wird, wie oben beschrieben, zusätzlich zu den in der ersten Ausführungsform beschriebenen Effekten eine Wirkung erzielt, die in der Lage ist, einen ROA der geschlossenen Schleife zu entwerfen, d. h. einen stabilisierbaren Bereich.
INDUSTRIELLE ANWENDBARKEIT
Die neuronale Netzwerksteuerung 100 gemäß der vorliegenden Technologie kann zur Steuerung des wie zum Beispiel automatischen Betriebs eines Ziels wie eines Roboters, einer Anlage oder eines unbemannten Flugzeugs eingesetzt werden und ist industriell anwendbar.
BEZUGSZEICHENLISTE
10: Empfangsvorrichtung, 20: Verarbeitungsschaltung, 22: Prozessor, 24: Arbeitsspeicher, 30: Anzeige, 100: neuronale Netzwerksteuerung, 200: Steuerziel
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 6908144 [0005]
JP 2020008993 [0054]

Claims

Neuronale Netzwerksteuerung, die eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix ist, wobei die Gewichtungsmatrix auf der Grundlage einer Verlustfunktion aktualisiert wird, die durch eine Verstärkung einer geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins eines Strafterms geschaltet wird.
Neuronale Netzwerksteuerung nach Anspruch 1, wobei der Strafterm eine Funktion ist, die eine L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
Lernverfahren für eine neuronale Netzwerksteuerung, die eine mehrschichtige neuronale Netzwerksteuerung mit einer Gewichtungsmatrix ist, wobei die Gewichtungsmatrix auf der Grundlage einer Verlustfunktion aktualisiert wird, die durch eine Verstärkung einer geschlossenen Schleife in Fälle unterteilt ist und die in einen Modus des Vorhandenseins oder Nichtvorhandenseins eines Strafterms geschaltet wird.
Lernverfahren für eine neuronale Netzwerksteuerung nach Anspruch 3, wobei der Strafterm eine Funktion ist, die eine L2-Verstärkung der Gewichtungsmatrix als Argument verwendet.
Lernverfahren für eine neuronale Netzwerksteuerung, wobei das Lernverfahren die folgenden Schritte umfasst: Bereitstellen einer positiven festgelegten Ziel-Symmetriematrix (P); Bestimmen, ob eine LMI in Bezug auf die lokale Stabilitätsbedingung für eine geschlossene Schleife erfüllt ist; und Aktualisieren einer Gewichtungsmatrix in einem Fall, in dem die LMI nicht erfüllt ist.
Neuronale Netzwerksteuerung, die durch das Lernverfahren nach Anspruch 5 erlernt wird.
Neuronale Netzwerksteuerung nach Anspruch 1, wobei das Steuerziel ein beliebiger Roboter, eine Anlage oder ein unbemanntes Flugzeug ist.
Neuronale Netzwerksteuerung nach Anspruch 6, wobei das Steuerziel ein beliebiger Roboter, eine Anlage oder ein unbemanntes Flugzeug ist.