JP7395063B2

JP7395063B2 - ニューラルネットワーク制御器

Info

Publication number: JP7395063B2
Application number: JP2023521700A
Authority: JP
Inventors: 諒一高瀬; 昇之芳川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-12-08
Anticipated expiration: 2041-08-23
Also published as: JPWO2023026314A1; DE112021007838T5; WO2023026314A1; US20240152727A1; CN118020078A

Description

特許法第３０条第２項適用令和２年１２月にａｒＸｉｖで公表された論文“Ｓｔａｂｉｌｉｔｙ－ＣｅｒｔｉｆｉｅｄＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｖｉａＳｐｅｃｔｒａｌＮｏｒｍａｌｉｚａｔｉｏｎ”

本開示技術は、ニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法に関する。

ニューラルネットワークは、脳の機能と特性をコンピュータで実現するための数理モデル又はソフトウエアを意味する。ニューラルネットワークは、実際の生物の神経回路の働き方を必ずしも忠実に再現しているものとは限らないため、人工ニューラルネットワークと称されることもある。ニューラルネットワークは学習装置の一つの態様であり、さまざまな産業上の分野への応用がなされている。人工ニューラルネットワークを含む人工知能は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）とも称される。

近年、ニューラルネットワークに代表される学習装置及びＡＩは、深層学習、強化学習、等による成果が報告されたこともあり、ますます注目を集めている。例えば囲碁においてＡＩは、世界レベルのプロ棋士を相手に勝利している。このように注目を集めている学習装置及びＡＩは、例えばロボット、プラント、無人航空機といった対象の自動運転等の制御に応用できないかが検討されはじめている。

特許文献においても、自動操縦ロボットの制御装置に機械学習器が用いられているものが存在する（例えば、特許文献１）。特許文献１に係る制御装置は、機械学習器を強化学習して生成された数理モデルを用いて、操作内容等を推論する。

特許第６９０８１４４号公報（公開公報は無い）

学習装置及びＡＩは、評価関数、損失関数、又はコスト関数、等と称される試行を点数化する仕組みを備える。例えば特許文献１に係る制御装置は、行動価値の負値を損失関数とし、これをできるだけ小さくするようにニューラルネットワークを学習させている。すなわち特許文献１に係る制御装置は、行動価値が大きくなるようにニューラルネットワークを学習させている。特許文献１の明細書によれば行動価値とは、学習モデルが推論した操作がどの程度適切であったかを示すものである。また特許文献１の明細書によれば、指令値（明細書においては指令車速）と実際の値（明細書においては検出車速）との誤差の絶対値が０に近いほど、高い報酬となるように設計されている。

特許文献１に例示される先行技術に係る学習装置は、例を挙げて換言すれば、ベテランの操縦者を教師として当該教師のテクニックを模倣すること、が主たる目的となる。ここで教師を模倣することと、当該学習装置を制御装置としたときの閉ループが安定であることとは、異なる概念である。
このように、従来の学習装置は、制御装置として重要な特性である閉ループの安定性が必ずしも考慮されていない。本開示技術は、閉ループ安定性を考慮したニューラルネットワーク制御器、及びニューラルネットワーク制御器の学習方法、を提供する。

本開示技術に係るニューラルネットワーク制御器は、重み行列を有する多層のニューラルネットワーク制御器である。ニューラルネットワーク制御器の重み行列は、閉ループのゲインにより場合分けされペナルティ項の有り無しの態様で切り替わる損失関数に基づいて更新される。

本開示技術に係るニューラルネットワーク制御器は上記構成を備えるため、閉ループ安定性が保たれる。

図１は、実施の形態１に係るニューラルネットワーク制御器を用いた閉ループを示す模式図である。図２Ａは、実施の形態１に係るニューラルネットワーク制御器のハードウエア構成図その１である。図２Ｂは、実施の形態１に係るニューラルネットワーク制御器のハードウエア構成図その２である。図３は、実施の形態２に係るニューラルネットワーク制御器の学習方法に係る処理ステップを示すフローチャートである。

本願は、発明者を著者とした以下の論文に対して、発明の新規性喪失の例外規定の適用を申請して行うものである。
“Ｓｔａｂｉｌｉｔｙ－ＣｅｒｔｉｆｉｅｄＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｖｉａＳｐｅｃｔｒａｌＮｏｒｍａｌｉｚａｔｉｏｎ”，ＲｙｏｉｃｈｉＴａｋａｓｅ，ＮｏｂｕｙｕｋｉＹｏｓｈｉｋａｗａら著、Ｄｅｃｅｍｂｅｒ２０２０、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２０１２．１３７４４．ｐｄｆ
したがって、本開示技術の基礎をなす原理等の学術的側面は、当該論文（以降、「発明者論文」と称する）を参照することにより明らかになる。本明細書では、原理の証明等の記載は省略され、学術的側面の記載が必要最小限に留められる。

実施の形態１．
図１は、実施の形態１に係るニューラルネットワーク制御器１００を用いた閉ループを示す模式図である。図１に示されるとおりニューラルネットワーク制御器１００は、制御対象２００を制御するよう、閉ループを構成する。

図１に示される制御対象２００は、ある平衡点で線形化されたときに、以下の離散時間状態方程式を満たすシステムであると仮定する。

ここで縦ベクトルのｘ（ｋ）は、ｋ番目のサンプリングにおける制御対象２００の状態を表す。縦ベクトルのｕ（ｋ）は、ｋ番目のサンプリングにおける制御対象２００への入力を表す。また行列であるＡ_ＨとＢ_Ｈとは、平衡点で線形化された制御対象２００の離散時間状態方程式のＡ行列とＢ行列である。
一般に連続時間と離散時間とを区別するため、連続時間を表すときに小カッコを用い、離散時間を表すときに下添え字を用いるという流儀（例えば、ｘ_ｋ＋１等）も存在する。本明細書では下添え字の乱用をさけるため、式（１）に示されるように離散時間であっても小カッコを用いる流儀が用いられる。

図２Ａは、実施の形態１に係るニューラルネットワーク制御器１００のハードウエア構成図その１である。
図２Ａに示されるとおり実施の形態１に係るニューラルネットワーク制御器１００は、専用のハードウエアにより実現されてよい。専用のハードウエアで構成される場合、ニューラルネットワーク制御器１００は、受信装置１０と、処理回路２０と、ディスプレイ３０と、を含む。処理回路２０は、例えば、単一回路、複合回路、プログラム化したプロセッサー、並列プログラム化したプロセッサー、ＡＳＩＣ、ＦＰＧＡ、又はこれらを組み合わせたものが考えられる。ニューラルネットワーク制御器１００の処理内容のそれぞれは、別々のハードウエアで実現されてもよいし、まとめて１つのハードウエアで実現されてもよい。

図２Ｂは、実施の形態１に係るニューラルネットワーク制御器１００のハードウエア構成図その２である。
図２Ｂに示されるとおり実施の形態１に係るニューラルネットワーク制御器１００は、ソフトウエアにより実現されてもよい。言い換えれば実施の形態１に係るニューラルネットワーク制御器１００は、メモリ２４に格納されるプログラムを実行するプロセッサ２２により実現されてもよい。図２Ｂに示されるニューラルネットワーク制御器１００は、受信装置１０と、プロセッサ２２と、メモリ２４と、ディスプレイ３０と、を含む。プロセッサ２２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサー、マイクロコンピュータ、プロセッサー、ＤＳＰとも称される）で実現されてよい。

メモリ２４は、例えばＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ，ＥＥＰＲＯＭ（登録商標）、等の、不揮発性又は揮発性の半導体メモリであってよい。またメモリ２４は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等によって実現されてもよい。

ニューラルネットワーク制御器１００は、一部分を専用のハードウエアで実現し、他の部分をソフトウエア又はファームウエアで実現してもよい。このようにニューラルネットワーク制御器１００は、ハードウエア、ソフトウエア、ファームウエア、又はこれらの組合せによって、各機能が実現される。

図１及び図２に示されるニューラルネットワーク制御器１００は、多層のニューラルネットワークであり、以下の式により定義される。すなわち式（１）で示される制御対象２００への入力であるｕ（ｋ）は、以下の式により設計される。

ここで縦ベクトルであるｗ^ｉ（ｋ）は、ニューラルネットワークにおけるｉ番目の層からの出力を表す。Ｗ^ｉ（ｋ）は、ニューラルネットワークにおけるｉ番目の層において用いる重み行列であり、ｉ－１番目の層の出力に対して重みづけをするものである。またｂ^ｉ（ｋ）は、ニューラルネットワークにおけるｉ番目の層のバイアスを表す。式（２）に示されるニューラルネットワークは、全部でｌ（エル）個の層からなる多層のニューラルネットワークである。
式（２ｂ）に示されるφ^ｉ（）は、活性化関数からなる縦ベクトルであり、以下の式により与えられる。

ここで式（３）の右辺の上添え字のＴは、転置の操作を表す。また式（３）の右辺における各要素は、活性化関数である。

図１に示される閉ループが平衡状態で安定している、という状況は、以下の式で表される。

ここで式（４ｂ）の右辺のπ（）は、式（２ａ）から（２ｃ）に示されるニューラルネットワーク制御器１００の入出力関係を表した関数である。

式（２ｂ）の右辺のφ（）の引数をｖ_＊とおくと、式（４ａ）～（４ｂ）は以下のように拡大系として表現できる。

ただし、式（５ｂ）における行列のＮは、以下の式で定義される。

本開示技術は、以下に示す線形行列不等式（ＬｉｎｅａｒＭａｔｒｉｘＩｎｅｑｕａｌｉｔｙ、以降は「ＬＭＩ」と称する）の解行列を用いてニューラルネットワークの重みを更新する、という戦略に基づく。解くべきＬＭＩを示すため、いくつか行列が定義される。

ただし、式（１０）におけるλはλ≧０とする。
重み行列の更新に必要な解くべきＬＭＩは、以下の式で与えられる。

ここで式（１２）におけるＷ^１は、隠れ層の第１層の重みパラメータからなる重み行列である。またｖ^１は、ｖ^１＝Ｗ^１ｘで与えられる。さらにｖ^１の上にバーを施したものは、ｖ^１の上界を示す。なお、式（１１）及び式（１２）における不等号は、行列の不等号であることを強調するため、スカラーの大小を比較する通常の不等号とは異なるカーブのついたものが用いられている。
式（１１）及び式（１２）を満たす正定対称行列のＰが存在すれば、図１に示される閉ループは、平衡状態（ｘ_＊）で局所安定である。式（１１）及び式（１２）に示されるＬＭＩの条件は、ＬｙａｐｕｎｏｖＣｏｎｄｉｔｉｏｎと称されることもある。

式（１１）及び式（１２）に示されるＬＭＩの解行列であるＰを見つけることができれば、図１に示される閉ループのＲＯＡ（ＲｅｇｉｏｎｏｆＡｔｔｒａｃｔｉｏｎ）、すなわち安定化可能領域についての情報を得ることができる。具体的に解行列のＰにより定義できる以下のｎ次元楕円は必ずＲＯＡに包含される、と証明されている。

式（１３）に示されるような形式は、二次形式と称される。なお式（１３）は、状態（ｘ）が２次元であれば楕円を表し、状態（ｘ）が３次元であれば楕円体を表す。一般に状態（ｘ）はｎ次元であるため、式（１３）で定義される領域は厳密には楕円だけではない。式（１３）で定義される領域は、「ｎ次元楕円」とここでは称することにする。

一般に、閉ループの安定性に関する定理に、ＳｍａｌｌＧａｉｎ定理が知られている。式（１１）及び式（１２）を満たす正定対称行列のＰが存在するためには、簡単に言えばニューラルネットワーク制御器１００のゲインを抑える、ということがＳｍａｌｌＧａｉｎ定理から導かれる。そこで本開示技術は、まずはニューラルネットワーク制御器１００の隠れ層の重み行列を、或る値で正規化することを試みる。この手法は、Ｐｒｅ－ＧｕａｒａｎｔｅｅｄＲＬ（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）として発明者論文に記載されているものである。

Ｐｒｅ－ＧｕａｒａｎｔｅｅｄＲＬにおいて、正規化された重み行列は、以下の式で与えられる。

ただし、式（１４）の左辺のハット付きのＷ^ｉは、ｉ番目の層における正規化された重み行列を表す。また、δ^ｉは、ｉ番目の層に対して定義されるチューニングパラメータであり、正の定数である。また式（１４）の右辺の分母にある関数のσ_ｍａｘ（）は、最大特異値を表す。なお、最大特異値は、以下に示す誘導ノルムと等価である。

すなわちＰｒｅ－ＧｕａｒａｎｔｅｅｄＲＬは、式（１４）に示されるように、重み行列をその最大特異値で正規化する。このような正規化は、ＳｐｅｃｔｒａｌＮｏｒｍａｌｉｚａｔｉｏｎとも称される。
式（１４）を変形することは、上記のチューニングパラメータが、正規化された重み行列のスペクトラムノルムと等しいことを示す。

式（１５）は、誘導ノルムで定義されるという観点において、線形システムにおけるＨ無限大ノルム又は非線形システムにおけるＬ２ゲインと同じ形をしている。入力信号ｘから出力信号ｙへの写像を行う非線形システム（Ｈ）のＬ２ゲインは、以下の式で与えられる。

詳細は発明者論文に記載されているが、ニューラルネットワーク制御器１００について定義できるＬ２ゲインとスペクトルノルムとの関係は、以下の式で表される。

ただし、式（１８）の左辺の下添え字のπは、図１に示される非線形システムであるニューラルネットワーク制御器１００を示す。

したがって、図１に示される閉ループが有限ゲインＬ２安定である条件は、ＳｍａｌｌＧａｉｎ定理に基づいて、以下ように示される。

ただし、式（１９）の左辺の下添え字のπはニューラルネットワーク制御器１００を表し、下添え字のＨは制御対象２００を表す。

ニューラルネットワーク制御器１００をＬ個の隠れ層とその後ろにある最終層とに分けて考えれば、式（１９）は以下のように変形できる。

式（２０）は、最終層に着目すれば、さらに以下のように変形できる。

すなわち式（２１）は、最終層の重み行列を、その最大特異値が不等号の右辺よりも小さく抑えられれば、閉ループを有限ゲインＬ２安定にできることを示唆している。

このように実施の形態１に示すＰｒｅ－ＧｕａｒａｎｔｅｅｄＲＬは、重み行列をその最大特異値で正規化するＳｐｅｃｔｒａｌＮｏｒｍａｌｉｚａｔｉｏｎを行い、閉ループを有限ゲインＬ２安定に保つ。この重み行列の最大特異値での正規化は、学習における損失関数にペナルティ項を設けることにより実現できる。機械学習で使われる損失関数は、評価関数、コスト関数、目的関数、と称されることがある。損失関数は、簡単に言えば目的に向かってどの程度うまく学習ができたかを表す指標である。学習は、他の最適化問題と同様、この損失関数を最小化するパラメータを求める問題に帰着する。ニューラルネットワーク制御器１００に与えられた学習の目的を表す主損失関数がＶ_ｍａｉｎ（）で表されたとする。実施の形態１に示すＰｒｅ－ＧｕａｒａｎｔｅｅｄＲＬは、以下に示す関数のＶ（Ｗ）を損失関数とすることが考えられる。

ここでＶ_Ｐ（）は、ペナルティ項である。式（２２）は、本開示技術が閉ループのＬ２ゲインにより場合分けをし、ペナルティ項の有り無しの態様で損失関数を切り替えることを示している。ペナルティ項は、重み行列のＬ２ゲインを引数とする関数であってよい。

ところで、学習の技術分野において、過学習を抑える目的で、主損失関数に正則化項（ＲｅｇｕｌａｒｉｚａｔｉｏｎＴｅｒｍ）を加えることも行われる。この技術は、リッジ回帰において行われる。これは過学習を抑える目的で行われるものであり、本開示技術の目的である閉ループを安定に保つというものと一線を画す。前述のとおり式（２２）に示される実施の形態１に係る損失関数は、閉ループのゲインにより場合分けされる。リッジ回帰における主損失関数に正則化項を加える技術は、「閉ループのゲインにより損失関数を切り替える」という実施の形態１に係るニューラルネットワーク制御器１００の損失関数についての技術的特徴は有さない。

先行技術に係る学習装置には、過学習を抑えること以外の目的で主損失関数にＬ２正則化項を加えるものも開示されている。例えば特開２０２０－８９９３号公報には、精度低下を抑制しながらニューラルネットワークのサイズを小さくする目的で、損失関数にＬ２正則化項を加える技術が開示されている。この特許文献に例示される先行技術も、「閉ループのゲインにより損失関数を切り替える」という実施の形態１に係るニューラルネットワーク制御器１００の損失関数についての技術的特徴は有さない。

以上のとおり実施の形態１に係るニューラルネットワーク制御器１００は上記構成を備えるため、閉ループが有限ゲインＬ２安定に保たれる。

実施の形態２．
実施の形態１に係るニューラルネットワーク制御器１００は、重み行列の更新の仕方を工夫し、閉ループが有限ゲインＬ２安定に保たれる、といった効果を奏する。実施の形態２に係るニューラルネットワーク制御器１００は、閉ループのＲＯＡすなわち安定化可能領域を設計することができる、といった効果を奏する。
実施の形態２では、特に区別をする場合を除き実施の形態１と同じ符号が用いられる。また実施の形態２では、実施の形態１と重複する説明が適宜省略される。

ニューラルネットワーク制御器１００は、式（１１）及び式（１２）に示されるＬＭＩを満たす正定対称行列のＰが見つかれば、図１に示される閉ループが平衡状態（ｘ_＊）で局所安定である。またそのときの閉ループのＲＯＡは、Ｐを用いた式（１３）で定義されたｎ次元楕円を包含する。
そこで実施の形態２に係るニューラルネットワーク制御器１００は、最初に設計するＲＯＡが包含するｎ次元楕円を決める手順を採用する。ｎ次元楕円を定義する正定対称行列（Ｐ）の候補は、以下のように定める。

ここで式（２３）の右辺の上添え字のＴは、転置の操作を示す。式（２３）の右辺のＱは、例えば一次変換行列であってよい。

一次変換行列（Ｑ）の固有値と固有ベクトルは、以下の式を満たす。

ここで式（２４）を満たすλは固有値を、ｘは固有ベクトルを、それぞれ表す。固有値と固有ベクトルとの組合せは、原則的には状態の次数だけ存在するが、固有ベクトルの選び方は無限通り存在する。例えばλ_１に対応する固有ベクトルをｘ_１とすると、ｋ倍したベクトルであるｋｘ_１も固有ベクトルである。式（２４）は、さらに以下の行列表現に変形することができる。

一次変換行列（Ｑ）は、固有ベクトルからなる行列（Ｔ）の逆行列（Ｔ^－１）が存在すれば、固有値を対角成分に持つ行列に対角化できる。

式（１３）で表されるｎ次元楕円の境界における状態が、一次変換行列（Ｑ）の固有ベクトルと方向が一致するとき、ｎ次元楕円の境界を表す式は以下のように変形できる。

ここで式（２６）は、簡単のため、状態（ｘ）を２次元としている。また、平衡状態（ｘ_＊）は原点としている。式（２６）は、状態が一次変換行列（Ｑ）の固有ベクトルと方向が一致するとき、半径を固有値の絶対値の逆数とする円の上にｎ次元楕円の境界があることを示している。換言すれば一次変換行列（Ｑ）の固有ベクトルはｎ次元楕円の軸の方向に関連しており、固有値はｎ次元楕円の軸の長さに関連している、と言える。

このように実施の形態２に係るニューラルネットワーク制御器１００は、最初に設計するＲＯＡが包含するｎ次元楕円を決める一次変換行列（Ｑ）を決定する。次に、求めた一次変換行列（Ｑ）から、式（２３）を用いて正定対称行列（Ｐ）が算出される。その次に、正定対称行列（Ｐ）が式（１１）及び式（１２）に示すＬＭＩを満たすか否か、が確かめられる。

一般に、閉ループのゲインを小さくする方がＲＯＡを大きくできる、という傾向がある。したがって、例えば実施の形態１で求めたニューラルネットワーク制御器１００の重み行列を初期値として、損失関数を以下のように変えていくことが考えられる。

ここで式（２７）の条件に現れるγ_２は、１よりも小さい正の数である。なお、重み行列の初期値は実施の形態１で求めたものに限定するものではなく、ゲインが小さい重み行列を初期値としてもよい。式（２７）の条件に現れるγ_２を適宜変化させて繰り返し最適化問題を解く手法は、Ｈ∞制御理論におけるガンマイタレーション（ＧａｍｍａＩｔｅｒａｔｉｏｎ）が参考となる。

近年、ＬＭＩは数値解析ソフトウエアにより簡単に数値解を求めることが可能である。したがって、求めたＬＭＩの解行列と、最初に設計するＲＯＡから導いた正定対称行列（Ｐ）を比較して、ニューラルネットワーク制御器１００の重み行列の更新を行うことも考えられる。例えばニューラルネットワーク制御器１００の重み行列をある方向に少しだけ変化させたときに求めたＬＭＩの解行列が設計した正定対称行列（Ｐ）に近づいたのであれば、その方向に重み行列の更新を進める、といった方法が考えられる。換言すればこの方法は、勾配法を数値的に行うものである。このように本開示技術に係るニューラルネットワーク制御器１００は、勾配法を数値的に行って、ニューラルネットワーク制御器１００の重み行列を更新してもよい。

図３は、以上に示した実施の形態２に係るニューラルネットワーク制御器１００の学習方法に係る処理ステップを示すフローチャートである。図３に示されるとおり処理ステップは、目標の正定対称行列（Ｐ）を与えるステップＳＴ１０と、式（１１）及び式（１２）に示されるＬＭＩを満たすか否かを判断するステップＳＴ２０と、ＬＭＩを満たさない場合に重み行列を更新するステップＳＴ３０と、を含む。

以上のとおり実施の形態２に係るニューラルネットワーク制御器１００は上記構成を備えるため、実施の形態１で示した効果のほか、閉ループのＲＯＡすなわち安定化可能領域を設計することができる、といった効果を奏する。

本開示技術に係るニューラルネットワーク制御器１００は、例えばロボット、プラント、無人航空機といった対象の自動運転等の制御に応用でき、産業上の利用可能性を有する。

受信装置１０、処理回路２０、プロセッサ２２、メモリ２４、ディスプレイ３０、ニューラルネットワーク制御器１００、制御対象２００。

Claims

重み行列を有する多層のニューラルネットワーク制御器であって、
前記重み行列は、閉ループのゲインにより場合分けされペナルティ項の有り無しの態様で切り替わる損失関数に基づいて更新される、
ニューラルネットワーク制御器。
前記ペナルティ項は、前記重み行列のＬ２ゲインを引数とする関数である、
請求項１に記載のニューラルネットワーク制御器。
制御対象が、ロボット、プラント、無人航空機のいずれかである、
請求項１に記載のニューラルネットワーク制御器。