JP7395063B2 - ニューラルネットワーク制御器 - Google Patents

ニューラルネットワーク制御器 Download PDF

Info

Publication number
JP7395063B2
JP7395063B2 JP2023521700A JP2023521700A JP7395063B2 JP 7395063 B2 JP7395063 B2 JP 7395063B2 JP 2023521700 A JP2023521700 A JP 2023521700A JP 2023521700 A JP2023521700 A JP 2023521700A JP 7395063 B2 JP7395063 B2 JP 7395063B2
Authority
JP
Japan
Prior art keywords
neural network
network controller
equation
matrix
weight matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023521700A
Other languages
English (en)
Other versions
JPWO2023026314A1 (ja
JPWO2023026314A5 (ja
Inventor
諒一 高瀬
昇之 芳川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023026314A1 publication Critical patent/JPWO2023026314A1/ja
Publication of JPWO2023026314A5 publication Critical patent/JPWO2023026314A5/ja
Application granted granted Critical
Publication of JP7395063B2 publication Critical patent/JP7395063B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Description

特許法第30条第2項適用 令和2年12月にarXivで公表された論文“Stability-Certified Reinforcement Learning via Spectral Normalization”
本開示技術は、ニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法に関する。
ニューラルネットワークは、脳の機能と特性をコンピュータで実現するための数理モデル又はソフトウエアを意味する。ニューラルネットワークは、実際の生物の神経回路の働き方を必ずしも忠実に再現しているものとは限らないため、人工ニューラルネットワークと称されることもある。ニューラルネットワークは学習装置の一つの態様であり、さまざまな産業上の分野への応用がなされている。人工ニューラルネットワークを含む人工知能は、AI(Artificial Intelligence)とも称される。
近年、ニューラルネットワークに代表される学習装置及びAIは、深層学習、強化学習、等による成果が報告されたこともあり、ますます注目を集めている。例えば囲碁においてAIは、世界レベルのプロ棋士を相手に勝利している。このように注目を集めている学習装置及びAIは、例えばロボット、プラント、無人航空機といった対象の自動運転等の制御に応用できないかが検討されはじめている。
特許文献においても、自動操縦ロボットの制御装置に機械学習器が用いられているものが存在する(例えば、特許文献1)。特許文献1に係る制御装置は、機械学習器を強化学習して生成された数理モデルを用いて、操作内容等を推論する。
特許第6908144号公報(公開公報は無い)
学習装置及びAIは、評価関数、損失関数、又はコスト関数、等と称される試行を点数化する仕組みを備える。例えば特許文献1に係る制御装置は、行動価値の負値を損失関数とし、これをできるだけ小さくするようにニューラルネットワークを学習させている。すなわち特許文献1に係る制御装置は、行動価値が大きくなるようにニューラルネットワークを学習させている。特許文献1の明細書によれば行動価値とは、学習モデルが推論した操作がどの程度適切であったかを示すものである。また特許文献1の明細書によれば、指令値(明細書においては指令車速)と実際の値(明細書においては検出車速)との誤差の絶対値が0に近いほど、高い報酬となるように設計されている。
特許文献1に例示される先行技術に係る学習装置は、例を挙げて換言すれば、ベテランの操縦者を教師として当該教師のテクニックを模倣すること、が主たる目的となる。ここで教師を模倣することと、当該学習装置を制御装置としたときの閉ループが安定であることとは、異なる概念である。
このように、従来の学習装置は、制御装置として重要な特性である閉ループの安定性が必ずしも考慮されていない。本開示技術は、閉ループ安定性を考慮したニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法、を提供する。
本開示技術に係るニューラルネットワーク制御器は、重み行列を有する多層のニューラルネットワーク制御器である。ニューラルネットワーク制御器の重み行列は、閉ループのゲインにより場合分けされペナルティ項の有り無しの態様で切り替わる損失関数に基づいて更新される。
本開示技術に係るニューラルネットワーク制御器は上記構成を備えるため、閉ループ安定性が保たれる。
図1は、実施の形態1に係るニューラルネットワーク制御器を用いた閉ループを示す模式図である。 図2Aは、実施の形態1に係るニューラルネットワーク制御器のハードウエア構成図その1である。図2Bは、実施の形態1に係るニューラルネットワーク制御器のハードウエア構成図その2である。 図3は、実施の形態2に係るニューラルネットワーク制御器の学習方法に係る処理ステップを示すフローチャートである。
本願は、発明者を著者とした以下の論文に対して、発明の新規性喪失の例外規定の適用を申請して行うものである。
“Stability-Certified Reinforcement Learning via Spectral Normalization”, Ryoichi Takase, Nobuyuki Yoshikawaら著、December 2020、https://arxiv.org/pdf/2012.13744.pdf
したがって、本開示技術の基礎をなす原理等の学術的側面は、当該論文(以降、「発明者論文」と称する)を参照することにより明らかになる。本明細書では、原理の証明等の記載は省略され、学術的側面の記載が必要最小限に留められる。
実施の形態1.
図1は、実施の形態1に係るニューラルネットワーク制御器100を用いた閉ループを示す模式図である。図1に示されるとおりニューラルネットワーク制御器100は、制御対象200を制御するよう、閉ループを構成する。
図1に示される制御対象200は、ある平衡点で線形化されたときに、以下の離散時間状態方程式を満たすシステムであると仮定する。

Figure 0007395063000001

ここで縦ベクトルのx(k)は、k番目のサンプリングにおける制御対象200の状態を表す。縦ベクトルのu(k)は、k番目のサンプリングにおける制御対象200への入力を表す。また行列であるAとBとは、平衡点で線形化された制御対象200の離散時間状態方程式のA行列とB行列である。
一般に連続時間と離散時間とを区別するため、連続時間を表すときに小カッコを用い、離散時間を表すときに下添え字を用いるという流儀(例えば、xk+1等)も存在する。本明細書では下添え字の乱用をさけるため、式(1)に示されるように離散時間であっても小カッコを用いる流儀が用いられる。
図2Aは、実施の形態1に係るニューラルネットワーク制御器100のハードウエア構成図その1である。
図2Aに示されるとおり実施の形態1に係るニューラルネットワーク制御器100は、専用のハードウエアにより実現されてよい。専用のハードウエアで構成される場合、ニューラルネットワーク制御器100は、受信装置10と、処理回路20と、ディスプレイ30と、を含む。処理回路20は、例えば、単一回路、複合回路、プログラム化したプロセッサー、並列プログラム化したプロセッサー、ASIC、FPGA、又はこれらを組み合わせたものが考えられる。ニューラルネットワーク制御器100の処理内容のそれぞれは、別々のハードウエアで実現されてもよいし、まとめて1つのハードウエアで実現されてもよい。
図2Bは、実施の形態1に係るニューラルネットワーク制御器100のハードウエア構成図その2である。
図2Bに示されるとおり実施の形態1に係るニューラルネットワーク制御器100は、ソフトウエアにより実現されてもよい。言い換えれば実施の形態1に係るニューラルネットワーク制御器100は、メモリ24に格納されるプログラムを実行するプロセッサ22により実現されてもよい。図2Bに示されるニューラルネットワーク制御器100は、受信装置10と、プロセッサ22と、メモリ24と、ディスプレイ30と、を含む。プロセッサ22は、CPU(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサー、マイクロコンピュータ、プロセッサー、DSPとも称される)で実現されてよい。
メモリ24は、例えばRAM、ROM、フラッシュメモリ、EPROM,EEPROM(登録商標)、等の、不揮発性又は揮発性の半導体メモリであってよい。またメモリ24は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等によって実現されてもよい。
ニューラルネットワーク制御器100は、一部分を専用のハードウエアで実現し、他の部分をソフトウエア又はファームウエアで実現してもよい。このようにニューラルネットワーク制御器100は、ハードウエア、ソフトウエア、ファームウエア、又はこれらの組合せによって、各機能が実現される。
図1及び図2に示されるニューラルネットワーク制御器100は、多層のニューラルネットワークであり、以下の式により定義される。すなわち式(1)で示される制御対象200への入力であるu(k)は、以下の式により設計される。

Figure 0007395063000002

ここで縦ベクトルであるw(k)は、ニューラルネットワークにおけるi番目の層からの出力を表す。W(k)は、ニューラルネットワークにおけるi番目の層において用いる重み行列であり、i-1番目の層の出力に対して重みづけをするものである。またb(k)は、ニューラルネットワークにおけるi番目の層のバイアスを表す。式(2)に示されるニューラルネットワークは、全部でl(エル)個の層からなる多層のニューラルネットワークである。
式(2b)に示されるφ()は、活性化関数からなる縦ベクトルであり、以下の式により与えられる。

Figure 0007395063000003

ここで式(3)の右辺の上添え字のTは、転置の操作を表す。また式(3)の右辺における各要素は、活性化関数である。
図1に示される閉ループが平衡状態で安定している、という状況は、以下の式で表される。

Figure 0007395063000004

ここで式(4b)の右辺のπ()は、式(2a)から(2c)に示されるニューラルネットワーク制御器100の入出力関係を表した関数である。
式(2b)の右辺のφ()の引数をvとおくと、式(4a)~(4b)は以下のように拡大系として表現できる。

Figure 0007395063000005

ただし、式(5b)における行列のNは、以下の式で定義される。

Figure 0007395063000006
本開示技術は、以下に示す線形行列不等式(Linear Matrix Inequality、以降は「LMI」と称する)の解行列を用いてニューラルネットワークの重みを更新する、という戦略に基づく。解くべきLMIを示すため、いくつか行列が定義される。

Figure 0007395063000007

ただし、式(10)におけるλはλ≧0とする。
重み行列の更新に必要な解くべきLMIは、以下の式で与えられる。

Figure 0007395063000008

ここで式(12)におけるWは、隠れ層の第1層の重みパラメータからなる重み行列である。またvは、v=Wxで与えられる。さらにvの上にバーを施したものは、vの上界を示す。なお、式(11)及び式(12)における不等号は、行列の不等号であることを強調するため、スカラーの大小を比較する通常の不等号とは異なるカーブのついたものが用いられている。
式(11)及び式(12)を満たす正定対称行列のPが存在すれば、図1に示される閉ループは、平衡状態(x)で局所安定である。式(11)及び式(12)に示されるLMIの条件は、Lyapunov Conditionと称されることもある。
式(11)及び式(12)に示されるLMIの解行列であるPを見つけることができれば、図1に示される閉ループのROA(Region of Attraction)、すなわち安定化可能領域についての情報を得ることができる。具体的に解行列のPにより定義できる以下のn次元楕円は必ずROAに包含される、と証明されている。

Figure 0007395063000009

式(13)に示されるような形式は、二次形式と称される。なお式(13)は、状態(x)が2次元であれば楕円を表し、状態(x)が3次元であれば楕円体を表す。一般に状態(x)はn次元であるため、式(13)で定義される領域は厳密には楕円だけではない。式(13)で定義される領域は、「n次元楕円」とここでは称することにする。
一般に、閉ループの安定性に関する定理に、Small Gain 定理が知られている。式(11)及び式(12)を満たす正定対称行列のPが存在するためには、簡単に言えばニューラルネットワーク制御器100のゲインを抑える、ということがSmall Gain 定理から導かれる。そこで本開示技術は、まずはニューラルネットワーク制御器100の隠れ層の重み行列を、或る値で正規化することを試みる。この手法は、Pre-Guaranteed RL(Reinforcement Learning)として発明者論文に記載されているものである。
Pre-Guaranteed RLにおいて、正規化された重み行列は、以下の式で与えられる。

Figure 0007395063000010

ただし、式(14)の左辺のハット付きのWは、i番目の層における正規化された重み行列を表す。また、δは、i番目の層に対して定義されるチューニングパラメータであり、正の定数である。また式(14)の右辺の分母にある関数のσmax()は、最大特異値を表す。なお、最大特異値は、以下に示す誘導ノルムと等価である。

Figure 0007395063000011

すなわちPre-Guaranteed RLは、式(14)に示されるように、重み行列をその最大特異値で正規化する。このような正規化は、Spectral Normalizationとも称される。
式(14)を変形することは、上記のチューニングパラメータが、正規化された重み行列のスペクトラムノルムと等しいことを示す。

Figure 0007395063000012
式(15)は、誘導ノルムで定義されるという観点において、線形システムにおけるH無限大ノルム又は非線形システムにおけるL2ゲインと同じ形をしている。入力信号xから出力信号yへの写像を行う非線形システム(H)のL2ゲインは、以下の式で与えられる。

Figure 0007395063000013
詳細は発明者論文に記載されているが、ニューラルネットワーク制御器100について定義できるL2ゲインとスペクトルノルムとの関係は、以下の式で表される。

Figure 0007395063000014

ただし、式(18)の左辺の下添え字のπは、図1に示される非線形システムであるニューラルネットワーク制御器100を示す。
したがって、図1に示される閉ループが有限ゲインL2安定である条件は、Small Gain 定理に基づいて、以下ように示される。

Figure 0007395063000015

ただし、式(19)の左辺の下添え字のπはニューラルネットワーク制御器100を表し、下添え字のHは制御対象200を表す。

ニューラルネットワーク制御器100をL個の隠れ層とその後ろにある最終層とに分けて考えれば、式(19)は以下のように変形できる。

Figure 0007395063000016

式(20)は、最終層に着目すれば、さらに以下のように変形できる。

Figure 0007395063000017

すなわち式(21)は、最終層の重み行列を、その最大特異値が不等号の右辺よりも小さく抑えられれば、閉ループを有限ゲインL2安定にできることを示唆している。
このように実施の形態1に示すPre-Guaranteed RLは、重み行列をその最大特異値で正規化するSpectral Normalizationを行い、閉ループを有限ゲインL2安定に保つ。この重み行列の最大特異値での正規化は、学習における損失関数にペナルティ項を設けることにより実現できる。機械学習で使われる損失関数は、評価関数、コスト関数、目的関数、と称されることがある。損失関数は、簡単に言えば目的に向かってどの程度うまく学習ができたかを表す指標である。学習は、他の最適化問題と同様、この損失関数を最小化するパラメータを求める問題に帰着する。ニューラルネットワーク制御器100に与えられた学習の目的を表す主損失関数がVmain()で表されたとする。実施の形態1に示すPre-Guaranteed RLは、以下に示す関数のV(W)を損失関数とすることが考えられる。

Figure 0007395063000018

ここでV()は、ペナルティ項である。式(22)は、本開示技術が閉ループのL2ゲインにより場合分けをし、ペナルティ項の有り無しの態様で損失関数を切り替えることを示している。ペナルティ項は、重み行列のL2ゲインを引数とする関数であってよい。
ところで、学習の技術分野において、過学習を抑える目的で、主損失関数に正則化項(Regularization Term)を加えることも行われる。この技術は、リッジ回帰において行われる。これは過学習を抑える目的で行われるものであり、本開示技術の目的である閉ループを安定に保つというものと一線を画す。前述のとおり式(22)に示される実施の形態1に係る損失関数は、閉ループのゲインにより場合分けされる。リッジ回帰における主損失関数に正則化項を加える技術は、「閉ループのゲインにより損失関数を切り替える」という実施の形態1に係るニューラルネットワーク制御器100の損失関数についての技術的特徴は有さない。
先行技術に係る学習装置には、過学習を抑えること以外の目的で主損失関数にL2正則化項を加えるものも開示されている。例えば特開2020-8993号公報には、精度低下を抑制しながらニューラルネットワークのサイズを小さくする目的で、損失関数にL2正則化項を加える技術が開示されている。この特許文献に例示される先行技術も、「閉ループのゲインにより損失関数を切り替える」という実施の形態1に係るニューラルネットワーク制御器100の損失関数についての技術的特徴は有さない。
以上のとおり実施の形態1に係るニューラルネットワーク制御器100は上記構成を備えるため、閉ループが有限ゲインL2安定に保たれる。
実施の形態2.
実施の形態1に係るニューラルネットワーク制御器100は、重み行列の更新の仕方を工夫し、閉ループが有限ゲインL2安定に保たれる、といった効果を奏する。実施の形態2に係るニューラルネットワーク制御器100は、閉ループのROAすなわち安定化可能領域を設計することができる、といった効果を奏する。
実施の形態2では、特に区別をする場合を除き実施の形態1と同じ符号が用いられる。また実施の形態2では、実施の形態1と重複する説明が適宜省略される。
ニューラルネットワーク制御器100は、式(11)及び式(12)に示されるLMIを満たす正定対称行列のPが見つかれば、図1に示される閉ループが平衡状態(x)で局所安定である。またそのときの閉ループのROAは、Pを用いた式(13)で定義されたn次元楕円を包含する。
そこで実施の形態2に係るニューラルネットワーク制御器100は、最初に設計するROAが包含するn次元楕円を決める手順を採用する。n次元楕円を定義する正定対称行列(P)の候補は、以下のように定める。

Figure 0007395063000019

ここで式(23)の右辺の上添え字のTは、転置の操作を示す。式(23)の右辺のQは、例えば一次変換行列であってよい。
一次変換行列(Q)の固有値と固有ベクトルは、以下の式を満たす。

Figure 0007395063000020

ここで式(24)を満たすλは固有値を、xは固有ベクトルを、それぞれ表す。固有値と固有ベクトルとの組合せは、原則的には状態の次数だけ存在するが、固有ベクトルの選び方は無限通り存在する。例えばλに対応する固有ベクトルをxとすると、k倍したベクトルであるkxも固有ベクトルである。式(24)は、さらに以下の行列表現に変形することができる。

Figure 0007395063000021

一次変換行列(Q)は、固有ベクトルからなる行列(T)の逆行列(T-1)が存在すれば、固有値を対角成分に持つ行列に対角化できる。
式(13)で表されるn次元楕円の境界における状態が、一次変換行列(Q)の固有ベクトルと方向が一致するとき、n次元楕円の境界を表す式は以下のように変形できる。

Figure 0007395063000022

ここで式(26)は、簡単のため、状態(x)を2次元としている。また、平衡状態(x)は原点としている。式(26)は、状態が一次変換行列(Q)の固有ベクトルと方向が一致するとき、半径を固有値の絶対値の逆数とする円の上にn次元楕円の境界があることを示している。換言すれば一次変換行列(Q)の固有ベクトルはn次元楕円の軸の方向に関連しており、固有値はn次元楕円の軸の長さに関連している、と言える。
このように実施の形態2に係るニューラルネットワーク制御器100は、最初に設計するROAが包含するn次元楕円を決める一次変換行列(Q)を決定する。次に、求めた一次変換行列(Q)から、式(23)を用いて正定対称行列(P)が算出される。その次に、正定対称行列(P)が式(11)及び式(12)に示すLMIを満たすか否か、が確かめられる。
一般に、閉ループのゲインを小さくする方がROAを大きくできる、という傾向がある。したがって、例えば実施の形態1で求めたニューラルネットワーク制御器100の重み行列を初期値として、損失関数を以下のように変えていくことが考えられる。

Figure 0007395063000023

ここで式(27)の条件に現れるγは、1よりも小さい正の数である。なお、重み行列の初期値は実施の形態1で求めたものに限定するものではなく、ゲインが小さい重み行列を初期値としてもよい。式(27)の条件に現れるγを適宜変化させて繰り返し最適化問題を解く手法は、H∞制御理論におけるガンマイタレーション(Gamma Iteration)が参考となる。
近年、LMIは数値解析ソフトウエアにより簡単に数値解を求めることが可能である。したがって、求めたLMIの解行列と、最初に設計するROAから導いた正定対称行列(P)を比較して、ニューラルネットワーク制御器100の重み行列の更新を行うことも考えられる。例えばニューラルネットワーク制御器100の重み行列をある方向に少しだけ変化させたときに求めたLMIの解行列が設計した正定対称行列(P)に近づいたのであれば、その方向に重み行列の更新を進める、といった方法が考えられる。換言すればこの方法は、勾配法を数値的に行うものである。このように本開示技術に係るニューラルネットワーク制御器100は、勾配法を数値的に行って、ニューラルネットワーク制御器100の重み行列を更新してもよい。
図3は、以上に示した実施の形態2に係るニューラルネットワーク制御器100の学習方法に係る処理ステップを示すフローチャートである。図3に示されるとおり処理ステップは、目標の正定対称行列(P)を与えるステップST10と、式(11)及び式(12)に示されるLMIを満たすか否かを判断するステップST20と、LMIを満たさない場合に重み行列を更新するステップST30と、を含む。
以上のとおり実施の形態2に係るニューラルネットワーク制御器100は上記構成を備えるため、実施の形態1で示した効果のほか、閉ループのROAすなわち安定化可能領域を設計することができる、といった効果を奏する。
本開示技術に係るニューラルネットワーク制御器100は、例えばロボット、プラント、無人航空機といった対象の自動運転等の制御に応用でき、産業上の利用可能性を有する。
受信装置10、処理回路20、プロセッサ22、メモリ24、ディスプレイ30、ニューラルネットワーク制御器100、制御対象200。

Claims (3)

  1. 重み行列を有する多層のニューラルネットワーク制御器であって、
    前記重み行列は、閉ループのゲインにより場合分けされペナルティ項の有り無しの態様で切り替わる損失関数に基づいて更新される、
    ニューラルネットワーク制御器。
  2. 前記ペナルティ項は、前記重み行列のL2ゲインを引数とする関数である、
    請求項1に記載のニューラルネットワーク制御器。
  3. 制御対象が、ロボット、プラント、無人航空機のいずれかである、
    請求項1に記載のニューラルネットワーク制御器。
JP2023521700A 2021-08-23 2021-08-23 ニューラルネットワーク制御器 Active JP7395063B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/030712 WO2023026314A1 (ja) 2021-08-23 2021-08-23 ニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法

Publications (3)

Publication Number Publication Date
JPWO2023026314A1 JPWO2023026314A1 (ja) 2023-03-02
JPWO2023026314A5 JPWO2023026314A5 (ja) 2023-08-02
JP7395063B2 true JP7395063B2 (ja) 2023-12-08

Family

ID=85321656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023521700A Active JP7395063B2 (ja) 2021-08-23 2021-08-23 ニューラルネットワーク制御器

Country Status (5)

Country Link
US (1) US20240152727A1 (ja)
JP (1) JP7395063B2 (ja)
CN (1) CN118020078A (ja)
DE (1) DE112021007838T5 (ja)
WO (1) WO2023026314A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908144B1 (ja) 2020-02-06 2021-07-21 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6951295B2 (ja) 2018-07-04 2021-10-20 株式会社東芝 学習方法、学習装置および画像認識システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908144B1 (ja) 2020-02-06 2021-07-21 株式会社明電舎 自動操縦ロボットの制御装置及び制御方法

Also Published As

Publication number Publication date
JPWO2023026314A1 (ja) 2023-03-02
DE112021007838T5 (de) 2024-04-18
WO2023026314A1 (ja) 2023-03-02
US20240152727A1 (en) 2024-05-09
CN118020078A (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
KR102644947B1 (ko) 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
Sokolov et al. Complete stability analysis of a heuristic approximate dynamic programming control design
CN110134165B (zh) 一种用于环境监测与控制的强化学习方法及***
EP3424650A1 (en) A method and apparatus for performing control of a movement of a robot arm
Radac et al. Three-level hierarchical model-free learning approach to trajectory tracking control
Mosavi et al. Neural network trained by biogeography-based optimizer with chaos for sonar data set classification
US20200285999A1 (en) Tunable bias reduction pipeline
Lin H∞ reinforcement learning control of robot manipulators using fuzzy wavelet networks
CN110084357A (zh) 经由选择性修剪来加速长短期记忆网络
CN116661307A (zh) 非线性***执行器故障ppb-siadp容错控制方法
US20220335298A1 (en) Robust learning device, robust learning method, program, and storage device
JP7395063B2 (ja) ニューラルネットワーク制御器
WO2021186500A1 (ja) 学習装置、学習方法、及び、記録媒体
Shukor et al. Data-driven PID tuning based on safe experimentation dynamics for control of double-pendulum-type overhead crane
Abdul-Rashid et al. Robustness evaluation of the butterfly optimization algorithm on a control system
Potapov et al. Genetic algorithms with DNN-based trainable crossover as an example of partial specialization of general search
Ma et al. Identification of Wiener model using least squares support vector machine optimized by adaptive particle swarm optimization
Wang et al. Modeling cell migration with convolutional neural network and deep reinforcement learning
Brasch et al. Lateral control of a vehicle using reinforcement learning
Fedorenko et al. The analysis of regularization in deep neural networks using metagraph approach
Andropov et al. Synthesis of artificial network based flight controller using genetic algorithms
Zhang et al. Cuckoo optimization algorithm visual positioning system based on particle swarm algorithm
Nguyen et al. Function approximation and adaptive control with unstructured uncertainty
Albarakati Fast neural network algorithm for solving classification tasks
CN117970782B (zh) 一种基于鱼鳞进化gsom改进的模糊pid控制方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230410

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230410

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20230410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231128

R150 Certificate of patent or registration of utility model

Ref document number: 7395063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150