JP7395063B2 - ニューラルネットワーク制御器 - Google Patents
ニューラルネットワーク制御器 Download PDFInfo
- Publication number
- JP7395063B2 JP7395063B2 JP2023521700A JP2023521700A JP7395063B2 JP 7395063 B2 JP7395063 B2 JP 7395063B2 JP 2023521700 A JP2023521700 A JP 2023521700A JP 2023521700 A JP2023521700 A JP 2023521700A JP 7395063 B2 JP7395063 B2 JP 7395063B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- network controller
- equation
- matrix
- weight matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 71
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000006870 function Effects 0.000 description 32
- 238000000034 method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 241001189642 Theroa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Description
このように、従来の学習装置は、制御装置として重要な特性である閉ループの安定性が必ずしも考慮されていない。本開示技術は、閉ループ安定性を考慮したニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法、を提供する。
“Stability-Certified Reinforcement Learning via Spectral Normalization”, Ryoichi Takase, Nobuyuki Yoshikawaら著、December 2020、https://arxiv.org/pdf/2012.13744.pdf
したがって、本開示技術の基礎をなす原理等の学術的側面は、当該論文(以降、「発明者論文」と称する)を参照することにより明らかになる。本明細書では、原理の証明等の記載は省略され、学術的側面の記載が必要最小限に留められる。
図1は、実施の形態1に係るニューラルネットワーク制御器100を用いた閉ループを示す模式図である。図1に示されるとおりニューラルネットワーク制御器100は、制御対象200を制御するよう、閉ループを構成する。
ここで縦ベクトルのx(k)は、k番目のサンプリングにおける制御対象200の状態を表す。縦ベクトルのu(k)は、k番目のサンプリングにおける制御対象200への入力を表す。また行列であるAHとBHとは、平衡点で線形化された制御対象200の離散時間状態方程式のA行列とB行列である。
一般に連続時間と離散時間とを区別するため、連続時間を表すときに小カッコを用い、離散時間を表すときに下添え字を用いるという流儀(例えば、xk+1等)も存在する。本明細書では下添え字の乱用をさけるため、式(1)に示されるように離散時間であっても小カッコを用いる流儀が用いられる。
図2Aに示されるとおり実施の形態1に係るニューラルネットワーク制御器100は、専用のハードウエアにより実現されてよい。専用のハードウエアで構成される場合、ニューラルネットワーク制御器100は、受信装置10と、処理回路20と、ディスプレイ30と、を含む。処理回路20は、例えば、単一回路、複合回路、プログラム化したプロセッサー、並列プログラム化したプロセッサー、ASIC、FPGA、又はこれらを組み合わせたものが考えられる。ニューラルネットワーク制御器100の処理内容のそれぞれは、別々のハードウエアで実現されてもよいし、まとめて1つのハードウエアで実現されてもよい。
図2Bに示されるとおり実施の形態1に係るニューラルネットワーク制御器100は、ソフトウエアにより実現されてもよい。言い換えれば実施の形態1に係るニューラルネットワーク制御器100は、メモリ24に格納されるプログラムを実行するプロセッサ22により実現されてもよい。図2Bに示されるニューラルネットワーク制御器100は、受信装置10と、プロセッサ22と、メモリ24と、ディスプレイ30と、を含む。プロセッサ22は、CPU(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサー、マイクロコンピュータ、プロセッサー、DSPとも称される)で実現されてよい。
ここで縦ベクトルであるwi(k)は、ニューラルネットワークにおけるi番目の層からの出力を表す。Wi(k)は、ニューラルネットワークにおけるi番目の層において用いる重み行列であり、i-1番目の層の出力に対して重みづけをするものである。またbi(k)は、ニューラルネットワークにおけるi番目の層のバイアスを表す。式(2)に示されるニューラルネットワークは、全部でl(エル)個の層からなる多層のニューラルネットワークである。
式(2b)に示されるφi()は、活性化関数からなる縦ベクトルであり、以下の式により与えられる。
ここで式(3)の右辺の上添え字のTは、転置の操作を表す。また式(3)の右辺における各要素は、活性化関数である。
ここで式(4b)の右辺のπ()は、式(2a)から(2c)に示されるニューラルネットワーク制御器100の入出力関係を表した関数である。
ただし、式(10)におけるλはλ≧0とする。
重み行列の更新に必要な解くべきLMIは、以下の式で与えられる。
ここで式(12)におけるW1は、隠れ層の第1層の重みパラメータからなる重み行列である。またv1は、v1=W1xで与えられる。さらにv1の上にバーを施したものは、v1の上界を示す。なお、式(11)及び式(12)における不等号は、行列の不等号であることを強調するため、スカラーの大小を比較する通常の不等号とは異なるカーブのついたものが用いられている。
式(11)及び式(12)を満たす正定対称行列のPが存在すれば、図1に示される閉ループは、平衡状態(x*)で局所安定である。式(11)及び式(12)に示されるLMIの条件は、Lyapunov Conditionと称されることもある。
式(13)に示されるような形式は、二次形式と称される。なお式(13)は、状態(x)が2次元であれば楕円を表し、状態(x)が3次元であれば楕円体を表す。一般に状態(x)はn次元であるため、式(13)で定義される領域は厳密には楕円だけではない。式(13)で定義される領域は、「n次元楕円」とここでは称することにする。
ただし、式(14)の左辺のハット付きのWiは、i番目の層における正規化された重み行列を表す。また、δiは、i番目の層に対して定義されるチューニングパラメータであり、正の定数である。また式(14)の右辺の分母にある関数のσmax()は、最大特異値を表す。なお、最大特異値は、以下に示す誘導ノルムと等価である。
すなわちPre-Guaranteed RLは、式(14)に示されるように、重み行列をその最大特異値で正規化する。このような正規化は、Spectral Normalizationとも称される。
式(14)を変形することは、上記のチューニングパラメータが、正規化された重み行列のスペクトラムノルムと等しいことを示す。
ただし、式(18)の左辺の下添え字のπは、図1に示される非線形システムであるニューラルネットワーク制御器100を示す。
ただし、式(19)の左辺の下添え字のπはニューラルネットワーク制御器100を表し、下添え字のHは制御対象200を表す。
式(20)は、最終層に着目すれば、さらに以下のように変形できる。
すなわち式(21)は、最終層の重み行列を、その最大特異値が不等号の右辺よりも小さく抑えられれば、閉ループを有限ゲインL2安定にできることを示唆している。
ここでVP()は、ペナルティ項である。式(22)は、本開示技術が閉ループのL2ゲインにより場合分けをし、ペナルティ項の有り無しの態様で損失関数を切り替えることを示している。ペナルティ項は、重み行列のL2ゲインを引数とする関数であってよい。
実施の形態1に係るニューラルネットワーク制御器100は、重み行列の更新の仕方を工夫し、閉ループが有限ゲインL2安定に保たれる、といった効果を奏する。実施の形態2に係るニューラルネットワーク制御器100は、閉ループのROAすなわち安定化可能領域を設計することができる、といった効果を奏する。
実施の形態2では、特に区別をする場合を除き実施の形態1と同じ符号が用いられる。また実施の形態2では、実施の形態1と重複する説明が適宜省略される。
そこで実施の形態2に係るニューラルネットワーク制御器100は、最初に設計するROAが包含するn次元楕円を決める手順を採用する。n次元楕円を定義する正定対称行列(P)の候補は、以下のように定める。
ここで式(23)の右辺の上添え字のTは、転置の操作を示す。式(23)の右辺のQは、例えば一次変換行列であってよい。
ここで式(24)を満たすλは固有値を、xは固有ベクトルを、それぞれ表す。固有値と固有ベクトルとの組合せは、原則的には状態の次数だけ存在するが、固有ベクトルの選び方は無限通り存在する。例えばλ1に対応する固有ベクトルをx1とすると、k倍したベクトルであるkx1も固有ベクトルである。式(24)は、さらに以下の行列表現に変形することができる。
一次変換行列(Q)は、固有ベクトルからなる行列(T)の逆行列(T-1)が存在すれば、固有値を対角成分に持つ行列に対角化できる。
ここで式(26)は、簡単のため、状態(x)を2次元としている。また、平衡状態(x*)は原点としている。式(26)は、状態が一次変換行列(Q)の固有ベクトルと方向が一致するとき、半径を固有値の絶対値の逆数とする円の上にn次元楕円の境界があることを示している。換言すれば一次変換行列(Q)の固有ベクトルはn次元楕円の軸の方向に関連しており、固有値はn次元楕円の軸の長さに関連している、と言える。
ここで式(27)の条件に現れるγ2は、1よりも小さい正の数である。なお、重み行列の初期値は実施の形態1で求めたものに限定するものではなく、ゲインが小さい重み行列を初期値としてもよい。式(27)の条件に現れるγ2を適宜変化させて繰り返し最適化問題を解く手法は、H∞制御理論におけるガンマイタレーション(Gamma Iteration)が参考となる。
Claims (3)
- 重み行列を有する多層のニューラルネットワーク制御器であって、
前記重み行列は、閉ループのゲインにより場合分けされペナルティ項の有り無しの態様で切り替わる損失関数に基づいて更新される、
ニューラルネットワーク制御器。 - 前記ペナルティ項は、前記重み行列のL2ゲインを引数とする関数である、
請求項1に記載のニューラルネットワーク制御器。 - 制御対象が、ロボット、プラント、無人航空機のいずれかである、
請求項1に記載のニューラルネットワーク制御器。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/030712 WO2023026314A1 (ja) | 2021-08-23 | 2021-08-23 | ニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2023026314A1 JPWO2023026314A1 (ja) | 2023-03-02 |
JPWO2023026314A5 JPWO2023026314A5 (ja) | 2023-08-02 |
JP7395063B2 true JP7395063B2 (ja) | 2023-12-08 |
Family
ID=85321656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023521700A Active JP7395063B2 (ja) | 2021-08-23 | 2021-08-23 | ニューラルネットワーク制御器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240152727A1 (ja) |
JP (1) | JP7395063B2 (ja) |
CN (1) | CN118020078A (ja) |
DE (1) | DE112021007838T5 (ja) |
WO (1) | WO2023026314A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6908144B1 (ja) | 2020-02-06 | 2021-07-21 | 株式会社明電舎 | 自動操縦ロボットの制御装置及び制御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6951295B2 (ja) | 2018-07-04 | 2021-10-20 | 株式会社東芝 | 学習方法、学習装置および画像認識システム |
-
2021
- 2021-08-23 JP JP2023521700A patent/JP7395063B2/ja active Active
- 2021-08-23 DE DE112021007838.0T patent/DE112021007838T5/de active Pending
- 2021-08-23 CN CN202180101415.6A patent/CN118020078A/zh active Pending
- 2021-08-23 WO PCT/JP2021/030712 patent/WO2023026314A1/ja active Application Filing
-
2024
- 2024-01-10 US US18/408,668 patent/US20240152727A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6908144B1 (ja) | 2020-02-06 | 2021-07-21 | 株式会社明電舎 | 自動操縦ロボットの制御装置及び制御方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023026314A1 (ja) | 2023-03-02 |
DE112021007838T5 (de) | 2024-04-18 |
WO2023026314A1 (ja) | 2023-03-02 |
US20240152727A1 (en) | 2024-05-09 |
CN118020078A (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102644947B1 (ko) | 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들 | |
Sokolov et al. | Complete stability analysis of a heuristic approximate dynamic programming control design | |
CN110134165B (zh) | 一种用于环境监测与控制的强化学习方法及*** | |
EP3424650A1 (en) | A method and apparatus for performing control of a movement of a robot arm | |
Radac et al. | Three-level hierarchical model-free learning approach to trajectory tracking control | |
Mosavi et al. | Neural network trained by biogeography-based optimizer with chaos for sonar data set classification | |
US20200285999A1 (en) | Tunable bias reduction pipeline | |
Lin | H∞ reinforcement learning control of robot manipulators using fuzzy wavelet networks | |
CN110084357A (zh) | 经由选择性修剪来加速长短期记忆网络 | |
CN116661307A (zh) | 非线性***执行器故障ppb-siadp容错控制方法 | |
US20220335298A1 (en) | Robust learning device, robust learning method, program, and storage device | |
JP7395063B2 (ja) | ニューラルネットワーク制御器 | |
WO2021186500A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
Shukor et al. | Data-driven PID tuning based on safe experimentation dynamics for control of double-pendulum-type overhead crane | |
Abdul-Rashid et al. | Robustness evaluation of the butterfly optimization algorithm on a control system | |
Potapov et al. | Genetic algorithms with DNN-based trainable crossover as an example of partial specialization of general search | |
Ma et al. | Identification of Wiener model using least squares support vector machine optimized by adaptive particle swarm optimization | |
Wang et al. | Modeling cell migration with convolutional neural network and deep reinforcement learning | |
Brasch et al. | Lateral control of a vehicle using reinforcement learning | |
Fedorenko et al. | The analysis of regularization in deep neural networks using metagraph approach | |
Andropov et al. | Synthesis of artificial network based flight controller using genetic algorithms | |
Zhang et al. | Cuckoo optimization algorithm visual positioning system based on particle swarm algorithm | |
Nguyen et al. | Function approximation and adaptive control with unstructured uncertainty | |
Albarakati | Fast neural network algorithm for solving classification tasks | |
CN117970782B (zh) | 一种基于鱼鳞进化gsom改进的模糊pid控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230410 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230410 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20230410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7395063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |