JP2021501433A

JP2021501433A - ターゲットシステム用制御システムの生成

Info

Publication number: JP2021501433A
Application number: JP2020544157A
Authority: JP
Inventors: ヴァルポラ、ハッリ; コッパリ、エヴァ
Original assignee: キュリオスアーイーオーイー
Priority date: 2017-11-01
Filing date: 2018-10-31
Publication date: 2021-01-14
Also published as: CN111433689A; FI20175970A1; KR102577188B1; US20210341884A1; EP3704550A1; CN111433689B; EP3704550B1; US11669056B2; WO2019086760A1; KR20200084010A

Abstract

本発明は、ターゲットシステム（１１０）に対する制御システム（１２０）を生成する方法に関する。動作データを受信し（２１０）、第１のニューラルモデル成分が受信した動作データに基づいて訓練されて、受信した動作データに基づくターゲットシステム（１１０）の状態の予測を生成し（３１０）、第２のニューラルモデル成分が動作データで訓練されて、第１のニューラルモデル成分の反転に使用する正則化器を生成し（３２０）、最適化及び第２のニューラルモデル成分で生成される正則化器を最適化において適用されるように構成することによって、第１のニューラルモデル成分を反転して、制御システム（１２０）が生成される（３３０）。本発明は、システム及びコンピュータプログラム製品にも関する。【選択図】図２

Description

本発明は一般に、制御システムの技術分野に関する。より具体的には、本発明は制御システムの生成法に関する。

機械学習法及び特に最近のニューラルネットワークやいわゆる「ディープラーニング」法は、現代のテクノロジー、たとえばマシンビジョン、パターン認識、ロボット工学、制御システム、オートメーションなどで広く利用されている。そのようなアプリケーションでは、入力データを処理するシステムまたは装置のコンピュータ実装部分に機械学習が使用される。事実この領域は、異なる自律動作システム及び装置が開発されているためにますます重要になってきている。

モデル予測制御（ＭＰＣ）法は、ロボット工学、制御システム、オートメーションの数多くの制御アプリケーションに使用されている。ＭＰＣ法では、制御されるシステムのモデルを使用して、システム状態及びシステムに対する制御信号の効果を予測し、次にそのモデルに基づいて制御信号の生成を可能とする。ただし、ＭＰＣ法はターゲットシステムの十分に正確なモデルを必要とする。そのようなモデルは、例えばシステムが大きいか複雑な場合には、必ずしも入手できないし、構築も不可能である。モデルはまた、例えば物理的な部品が摩耗したり、動作条件が変わるなどでシステムが変化する場合に、随時調整を必要とすることがある。

機械学習法、例えば人工ニューラルネットワークは、観測されたシステムの入出力信号に基づくシステムモデルの生成、すなわち構築に使用可能である。これは、多数のシステムをそのようにしてモデル化可能であり、かつシステムが変化する場合にモデルの最新化を図るために、全体的又は漸増的にモデルの自動再構築も可能であるという利点を有する。

ただし、この方法論を使用してシステムモデルを生成できるとしても、こうして構築されたモデルがＭＰＣ用途には適さないことが多い。それは、モデルは自動生成されるが、非常に複雑かつ内部ノイズの多い、入力信号から出力信号への非線形マッピングであって、すべての入力に対して感度のある出力の生成が保証されないからである。具体的な問題の１つは、モデルによって予測される結果を最適化して制御動作を計画する場合に、モデルが非常に良好な結果を予測する複数のポイントを数学的な最適化法では入力空間内に見いだすことが可能であるが、それは実際にはモデル上の人工物に過ぎず、実世界システムの動力学には対応しないことが多いことである。

したがって、制御解の生成における課題を少なくとも部分的に軽減可能なメカニズムを開発する必要がある。

以下において、本発明の様々な実施形態のいくつかの態様の基本的な理解を提供するための簡単な概要を提示する。この概要は本発明の広範な概説ではない。また、本発明の主要または重要な要点を特定することでも、本発明の範囲を叙述することを意図するものでもない。以下の要約は、本発明の例示的実施形態のより詳細な説明の導入として、本発明のいくつかの概念を簡略化して単に提示するものである。

本発明の目的は、制御システムの生成方法及び制御システム、並びにコンピュータプログラム製品を提示することである。

本発明の目的は、それぞれの独立請求項によって規定される方法、システム及びコンピュータプログラム製品によって達成される。

第１の態様によれば、ターゲットシステムに対する制御システムを生成する方法が提供される。この方法は、少なくとも１つのソースシステムの動作データを受信するステップと、受信した動作データでニューラルネットワークの第１のニューラルモデル成分を訓練するステップであって、第１のニューラルモデル成分は訓練されて、受信した動作データに基づいてターゲットシステムの状態の予測を生成するステップと、動作データでニューラルネットワークの第２のニューラルモデル成分を訓練するステップであって、第２のニューラルモデル成分は訓練されて、第１のニューラルモデル成分の反転に使用する正則化器を生成するステップと、最適化及び第２のニューラルモデル成分で生成された正則化器を最適化において適用するように構成することによって第１のニューラルモデル成分を反転して、ターゲットシステムに対する制御システムを生成するステップと、を含む。

第２のニューラルモデル成分は、ノイズ除去ニューラルネットワーク、敵対的生成ネットワーク、変分オートエンコーダ、ラダーネットワークの内の１つであってよい。

制御システムは、少なくとも１つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつそのポリシーモデル成分のパラメータを最適化することによる最適化によって生成されてよい。ポリシーモデルは、訓練された第３のニューラルモデル成分を用いるか、制御システムに属する制御成分のパラメータの最適化によるか、のいずれかによって実装されてよい。

さらに、第２のニューラルモデル成分により正則化器として生成される正則化項は、第２のニューラルモデル成分の近似的密度勾配であってよい。正則化項は、第３、第２のニューラルモデル成分の重みの更新における項として適用されてよい。

第２の態様によれば、ターゲットシステムに対する制御システムが提供される。制御システムは少なくとも１つのニューラルネットワークを備え、制御システムは、少なくとも１つのソースシステムの動作データを受信するステップと、受信した動作データでニューラルネットワークの第１のニューラルモデル成分を訓練するステップであって、第１のニューラルモデル成分は訓練されて、入力信号に応答して受信した動作データに基づいてターゲットシステムの状態の予測を生成するステップと、動作データでニューラルネットワークの第２のニューラルモデル成分を訓練するステップであって、第２のニューラルモデル成分は訓練されて、第１のニューラルモデル成分の反転に使用する正則化器を生成するステップと、最適化及び第２のニューラルモデル成分で生成された正則化器を最適化において適用するように構成することによって第１のニューラルモデル成分を反転して、ターゲットシステムに対する制御システムを生成するステップと、によって生成されるように構成される。

制御システムは、少なくとも１つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつそのポリシーモデル成分のパラメータを最適化することによる最適化によって生成されるように構成されてもよい。ポリシーモデルは、訓練された第３のニューラルモデル成分を用いるか、制御システムに属する制御コンポーネントのパラメータの最適化によるか、の内の１つによって実装される。

さらに、第２のニューラルモデル成分により正則化器として生成される正則化項は、第２のニューラルモデル成分の近似的密度勾配であるように構成される。正則化項は、第３、第２のニューラルモデル成分の重みの更新における項として適用されるように構成されてよい。

第３の態様によれば、中に格納されたコンピュータ実行可能プログラムコード命令を有する少なくとも１つのコンピュータ可読媒体を備えるコンピュータプログラム製品が、コンピュータプログラム製品がコンピュータ上で実行されると上記の方法を遂行するように提供される。

構成及び動作方法の両方に関する、本発明の様々な例示的かつ非限定的な実施形態が、添付の図面に関連して読むことによって、その更なる目的及びその利点と共に、以下の特定の例示的かつ非限定的な実施形態の説明から最もよく理解されるであろう。

動詞の「備える」及び「含む」は、本明細書においては、引用されていない特徴の存在の除外も要求もしない、開かれた制限として使用される。従属請求項に引用される特徴は、特に明記されない限り相互に自由に組み合わせ可能である。さらに、本明細書中の単数形は、複数を除外しないことも理解されたい。

発明の実施形態が、添付の図面において、限定ではなく例示として示される。

本発明が適用可能な環境の概略図である。本発明の一実施形態による方法の概略図である。本発明の一実施形態による方法のいくつかの更なる態様の概略図である。ターゲットシステムを制御するための、本発明の一実施形態による制御システムの適用例の概略図である。本発明の一実施形態による制御システムの概略図である。

以下の説明で提供される特定の例は、添付の特許請求の範囲及び／又は適用可能性を制限するものとみなされるべきではない。以下の説明において提供される例のリスト及びグループは、特に記載のない限り網羅的ではない。

本発明は、ターゲットシステムに対する制御システムの生成を少なくとも部分的に改善する。そこでは、制御システムは、いわゆる正則化がニューラルネットワークの学習段階に適用されてターゲットシステムに対する制御信号の生成に使用される、機械学習法に少なくとも部分的に基づく。

図１は、本発明が適用可能な環境を概略的に示す。図に示すように、制御システム１２０の制御により動作するターゲットシステム１１０がある。制御システム１２０は、一般的には、ターゲットシステム１１０からフィードバックループとして取得される、システム動作を表す情報に応答して、ターゲットシステム１１０への制御信号を生成する。制御されるターゲットシステム１１０の非限定的ないくつかの例は、例えば化学プラント又はロボットである。本発明によれば、制御システム１２０は、少なくとも部分的にニューラルネットワークで実装された制御機能を実装する。制御機能におけるニューラルネットワークは、ターゲットシステム１１０を制御するために、以下で述べるように訓練される。

図２は、本発明の一実施形態による方法の一例を概略的に示す。図２による例では、ターゲットシステム１１０を制御する制御システムが生成され、この制御システムの機能が、少なくとも１つのソースシステムから取得される動作データに基づいて生成される。少なくとも１つのソースシステムはターゲットシステムと同一であってよい。あるいはソースシステムは、ターゲットシステム１１０に対応するシステムであるか、又はターゲットシステムに対応するシステムを模擬し、動作データがシミュレーションを通して受信されるコンピュータ実装されたモデルであってもよい。言い換えると、その動作データが制御機能の生成に使用されるシステムは、ターゲットシステムと同一であるか、別の機械又はロボットなどの機能的に類似のシステムであるか、又はターゲットシステム１１０に似せて構築されたシミュレータモデルであってよい。本明細書での説明では、制御規則の生成に使用する動作データが取得されるシステムを、ソースシステムと呼ぶ。動作データは、ソースシステムの少なくともいくつかの動作態様を表す任意のデータであってよく、これはターゲットシステム１１０を制御する１つ以上の制御信号を生成するために、直接的又は間接的に使用されてもよい。いくつかの実施形態では、動作データはソースシステムの履歴データであってもよいし、ソースシステムの状態を表してもよい。動作データのいくつかの非限定的な例は、温度、圧力、流速、ｐＨ測定値などのソースシステムのセンサ、化学処理システムの化学濃度測定センサ又は重量センサなどからの例えばデジタル化されたセンサ値であってよい。動作データには、例えばＰＩＤコントローラの設定値、パラメータ及び出力などのシステム制御に含まれる他のコントローラの入出力信号値などが含まれてもよい。動作データには、例えば値の設定、ボタンを押す動作、バルブの開放、キーボード又はマウスの動作、音声命令、運転ハンドル操作、足ペダル動作などの人間のオペレータが入力する制御動作も含まれてよい。

ステップ２２０では、少なくとも部分的にニューラルネットワークで実装された制御システム１２０が訓練される。そこでは、少なくとも１つのソースシステムから受信した動作データが訓練に使用される。ニューラルネットワークのニューラルモデルは、訓練に利用される複数のニューラルモデル成分を含んでもよい。ニューラルモデル成分は、個別のニューラルネットワークで実現された実装を指すか、又は複数のニューラルモデル成分が複数の出力を持つ１つのネットワークによって実装され、時間の異なる瞬間において異なるタスクを実行するように訓練される実装を指す。

ニューラルネットワークの訓練に応答して、ターゲットシステム１１０が訓練されたニューラルネットワークによって制御され得る。

次に、ニューラルネットワークの訓練動作を図３を参照してより詳細に説明する。図３は、ターゲットシステム１１０を制御する少なくとも１つのタスクを実行するように構成されたニューラルネットワーク２２０の訓練に関する少なくともいくつかの態様を概略的に示す。ニューラルネットワークで実装された制御システム１２０の訓練では、受信したシステムの動作データに基づいて、ターゲットシステムの状態の予測が生成３１０される。これは、ニューラルネットワークに実装された第１のニューラルモデル成分に対して、動作データが入力信号として与えられ、かつ受信したソースシステムの動作データに基づいて、第１のニューラルモデル成分がターゲットシステムの状態の予測を生成するように訓練されるステップ３１０を指す。さらに訓練の段階２２０は、第２のニューラルモデル成分が、第１のニューラルモデル成分の反転に使用するための正則化器を生成するように訓練されるステップ３２０を含む。第１のニューラルモデル成分の反転とは、ターゲットシステムの所望の出力や状態をもたらす、ターゲットシステムへの入力又は制御動作が決定される手順を指す。これは、第１のニューラルモデル成分を、動作の期待される効果を評価するための「順モデル」として使用して、結果を最適化することにより行われる。すなわち、

であって、ここで、
・ａは計画された制御信号
・ｘはシステムの状態
・argmax[]は、関数（ここではＶ）の値を最大化する引数（ここではａ）を求めることを指す。
・Ｖは、制御が最適化を図っている値を表す、価値（「報酬」）関数である。
・Ｆは、順モデル、すなわち第１のニューラルモデル成分である。
・ｒは、第２のニューラルモデル成分で実装される正則化器により生成される正則化項である。

価値関数Ｖの最適化（上記ではargmaxで表す）問題を解くことは、グリッド検索、確率的検索、勾配降下、逆伝播、又は他のそのような数学的最適化方法などの一般に知られている、任意の適切な数学的最適化方法を用いて実行可能である。変数ａ及びｘは、数値若しくはカテゴリ変数、又は値の多次元ベクトルであってよい。ａ及びｘは、値のシーケンスであってもよい。例えば、過去、現在、及び／又は予定される未来の動作及びシステム状態の時間シーケンスであってもよい。Ｖは、結果の価値の評価に使用される関数である。Ｖは、長期的価値よりも短期的価値に重みづけをする、ある乗数で割引いた予測未来価値を含んでもよい。

正則化項ｒは、第２のニューラルモデル成分Ｇによって実装される正則化器によって生成される。第２のニューラルモデル成分がノイズ除去ネットワーク、例えばノイズ除去オートエンコーダであれば、正則化項は第２のニューラルモデル成分を訓練して動作データ（ｘ，ａ）のサンプルからノイズ除去することで生成可能である。ノイズ除去のためのネットワークの訓練とは、損傷した入力の、ノイズ除去したすなわち「クリーン化」したバージョン：

を生成するためにネットワークを訓練する方法を指す。
ここで、
・ｘ~とａ~は、ノイズ、例えばガウスノイズを付加して損傷したｘとａのサンプルのバージョンである
・ｘ^とａ^は、ネットワークＧによって生成されたノイズ除去された出力であり、少なくとも元の入力（ｘ，ａ）を近似する。
・Ｇは、ｘとａのサンプルのノイズを除去するように訓練されるネットワークである。

正則化器の使用は、以下の式で表示可能である。

正則化器を使用して正則化項ｒを生成することは、上記のモデル反転による問題を軽減する。最適化での付加的な「報酬」として導入される正則化項は、動作ａの検索を、訓練データ内の一般的かつ通常のサンプルに対応する値に指向させる。

第２のニューラル成分がノイズ除去ネットワークを使用して実装されるとき、ニューラルモデルを訓練してデータのノイズ除去をすることで、データ多様体の構造を暗黙的にモデル化するモデル内の内部表示を導く。すなわち、最適なノイズ除去関数が、データ分布のスコア（入力に関する確率の対数の導関数）に対応する。上記の表記を使うと、これは次式で表される。

ここで、σ_ｎは破損ノイズ、logｐは確率の対数、∇は（ｘ~，ａ~）に関する導関数である。重要なのはｐ（ｘ~，ａ~）の部分であり、サンプル（ｘ~，ａ~）がターゲットシステムに対する「典型的な」動作状態であれば、高い値を有し、そうでなければ低い値となって、反転を正常な、よりよい可能性のある解に向かわせる。

あるいは、生成器又は「ポリシーモデル」が、動作を直接見つける代わりに制御動作を生成するように構成されてもよい。

ここで、
・Ｐは「ポリシーモデル」であって、制御動作（これもまた計画された一連の制御動作であってよい）を生成するように構成された成分である。
・φはポリシーモデルＰのパラメータ（例えばポリシーモデルがニューラルネットワークモデルで実装される場合にはニューラルネットワークの重み）である。

次に最適化、すなわち訓練が、制御動作に代わってポリシーモデルのパラメータに対して行われてよい。ここでも任意の適切な最適化法、例えば逆伝播や別の最適化法が使用可能である。訓練されたポリシーモデルは次に評価されて、ターゲットシステムを制御する制御動作：

が生成される。
ポリシーモデルＰは、例えば第３のニューラルモデルとして実装されてもよい。

正則化器Ｇもまた、第３のニューラルモデルの重みを更新するための「近似的密度勾配」の形の正則化項を生成するように構成されてもよい。例えば、Ｇがノイズ除去ネットワークで実装されていると、Ｇ（ｘ，ａ）が近似的密度勾配項∇（ｘ~，ａ~）logｐ（ｘ~，ａ~）をもたらす。これをモデルの学習において、任意選択で所定の学習率Ｌを掛けて、第３のニューラルモデルの重みに追加することができる。例えば、近似的密度勾配項は前の式：

から求めることができる。近似的密度勾配項が第３のニューラルモデルの重みに追加して使用される場合には、それを明示的に評価する必要がない。その場合には、ポリシーモデルパラメータの最適化は次式で表すことができる。

ここで、近似的密度勾配項は数学的最適化（argmax）の実装に含まれ、ポリシーモデルの訓練を、訓練データ内の典型的かつ通常のサンプルに対する動作ａを生成するように方向づける。したがって、既述のような形で正則化器を使用して正則化項を生成することで、正則化項ｒが明示的に評価されないとしても、上記のモデル反転の問題を軽減する。

説明したステップを反復実行して、第１の予測ターゲットシステム状態と動作を生成し、次いで、その第１の予測及び生成された動作を入力として、更なる時間ステップに対する予測と動作を生成することが可能である。これは所望数のステップに対して反復可能である。最適化、例えば逆伝播をすべてのステップに実行可能である。

第２のニューラルモデルは、ノイズ除去ニューラルネットワーク、変分オートエンコーダ、敵対的生成ネットワーク（ＧＡＮ）、ラダーネットワーク又はデータ多様体の構造をモデル化する他の任意のモデルの種類を使用して任意選択的に実装されてもよい。

ステップ３３０において、制御システムが生成されて、ステップ３２０で生成された正則化器が、第１のニューラルモデル成分と共に適用される。このことは、制御信号などのそのような動作が決定される実装を指し、正則化項が最適化に使用される場合には、第１のニューラルモデル成分からの予測を最適化する。制御システムの生成はまた、例えば既存のコントローラ成分のパラメータの数学的最適化により制御システムのタスクを実行するため、又は第３のニューラルモデル成分を制御システムのタスク用に訓練するために、ポリシーモデル成分が構成される実装を指す。そのような状況においては、制御システムの生成は、第２のニューラルモデル成分で生成された正則化器を訓練において第３のニューラルモデルに適用させるようにすることで実行されてもよい。すなわち、制御システムは、入力信号に応答してターゲットシステムへの制御動作を生成できるように生成される。したがって、訓練されたニューラルネットワークは、ターゲットシステムの制御に使用され得る。

既に述べたように、第１のニューラルモデル成分と第２のニューラルモデル成分は、第３のニューラルモデル成分がある場合にはそれと共に、個別のニューラルネットワークとして実装されるか、あるいは図３に示すような専用タスクを一度に１つ実装するように構成された１つのニューラルネットワーク内に実装されてもよい。

図３及び対応する説明に開示の動作は、ステップ３１０と３２０が少なくとも部分的に同時に実行されるように説明されていることに留意されたい。ただし、任意の順序で互いに順番に実行されてもよい。

次に、ニューラルネットワークの第２のニューラルモデル成分のいくつかの態様を説明する。既に述べたように、第２のニューラルモデル成分の訓練の目的は、第１のニューラルモデル成分の反転に使用するための正則化器を生成することである。第２のニューラルモデル成分の訓練は、教師なし学習のタスクとして、適用可能な訓練アルゴリズムで有利に実行される。第２のニューラルモデル成分を訓練する有利な方法は、モデルへの動作データ入力をノイズ除去して訓練することである。第２のニューラルモデル成分は、いわゆるラダーネットワークであってよい。別の手法は、正則化器の生成タスクにおいて、オートエンコーダ、変分オートエンコーダ又は敵対的生成ネットワークを使用することである。後者の例では、ニューラルモデル成分がデータ構造を学習して、正則化タスクに適用できるようにする。

ターゲットシステムに対する制御システム３３０の生成に関し、一実施形態によれば、第１のニューラルモデル成分が、そこにある正則化項の適用による最適化によって、反転させられてもよい。別の実施形態では、制御システムは、第１のニューラルモデル成分を確率的検索によって反転させることにより生成されてよい。前述したように、制御システムの生成３３０は、制御システムの少なくとも一部を実行するために第３のニューラルネットワーク成分を生成することを指す。

さらに、ステップ３３０において、第２のニューラルモデル成分で生成された正則化器を適用することは、例えば第３のニューラルモデルの重みが、第２のニューラルモデル成分で生成された正則化項を表す項で更新される実装を指し、これは第２のニューラルモデル成分の近似的密度勾配であってよい。

いくつかの実施形態において、元の制御システムを更新した後、新しい制御システムがターゲットシステムの制御への使用に取り込まれるように構成されてよい。ターゲットシステムの動作中に、新しいデータが生成されて記録され、学習プロセスが反復されてもよい。こうして、制御システムは、報酬ｒが最大化するようにシステムの制御を学習し、制御結果が改善され得る。

既に議論したように、第２のニューラルモデル成分は、いくつかの実施形態ではノイズ除去に使用される、いわゆるラダーネットワークであってよい。ラダーネットワークを使用する利点は、より大きなニューラルモデルと制御信号のより大きな変化を可能とすることである。これにより潜在的な問題、特に、順モデルのサイズの増大と共により難しくなる正則化に関する問題が軽減される。別の問題は、低位の動作の正則化は非常に小さい変化に限定されて、局所的な最小になってしまうことである。より高位においても正則化することが望ましい。

さらに、正則化モデルがノイズ除去ネットワーク、例えば既に議論したラダーネットワークである場合に、ノイズ除去ネットワークは、付加されたノイズで損傷した入力データのサンプルを取り込んで、クリーン化され、ノイズ除去された形のデータを生成するように訓練されてもよい。このようにして、ノイズ除去ネットワークはデータを内部表示することを学習し、データ内の構造を学習する。

次に、既に議論したようにポリシーモデルが訓練されてよい。ポリシーモデルが訓練されると、ポリシーネットワークの重みが更新されるときに正則化モデルが計算内の追加項として使用されてよい。正則化項は、ノイズ除去タスクにおいて正則化モデルによって学習された内部表示にある意味で一致する動作と状態を重みづけすることによってポリシーモデルの学習に寄与し、ポリシーモデルが「よく知られた」状態及び制御を支援するようにさせる。

上での議論において、ノイズ除去ネットワークとポリシーモデルは、別々に訓練される別々のネットワークであることが示唆されている。しかしながら、本発明はそれのみに限定されるものではなく、正則化ネットワークとポリシーモデルが１つのニューラルネットワークに結合されて、ノイズ除去タスクとポリシー生成タスクの両方で訓練されてもよい。例えば、２つの異なるコスト関数が定義されて、このネットワークがノイズ除去コスト関数を用いてまず訓練されて、次いでポリシーコスト関数を用いて訓練されてもよい。さらに、既に述べたように、少なくとも部分的に制御システムの機能を実装するポリシーモデルは、制御システムに属する少なくとも１つの制御成分のパラメータが、既に述べた方法によってポリシーモデルによって最適化されるように実装されてもよい。

次に、本発明の特定の適用領域のいくつかの例を議論する。例えば、入力データ、すなわち動作データは、例えば、温度、圧力、流速、ｐＨ測定値などの処理プラント内のセンサ、例えば蒸留塔などの化学処理システムの化学組成測定センサ又は重量センサ、からのデジタル化されたセンサ値であってよい。入力データには、ＰＩＤ制御の設定点、パラメータ、出力などの、システムの制御に含まれるその他のコントローラの入出力信号値なども含まれてよい。入力データには、例えば値の設定、ボタンを押す動作、バルブの開放、キーボード又はマウスの動作、音声命令、操作ハンドル動作、足ペダル動作などの、プラントのオペレータなどの人間作業者により入力される、動作及び制御信号も含まれ得る。

本発明による制御システムの生成は、上で述べたもの以外の領域にも適用可能である。例えば、いくつかの他の適用領域においては、入力データすなわち動作データは、例えば元の物体をデジタル形式で表すための、離散値を有する所定量のピクセルで構成されるデジタル画像であってもよい。あるいは、入力データは、例えばコード化されたデジタルデータ形式の動く視覚画像を示す連続的な画像フレームから成るデジタル映像であってもよい。当然ながら、映像は格納されたデジタル映像でも、リアルタイム事象の映像ストリームであってもよい。

入力データは、例えばデジタル音響信号であってもよい。

更なる例では、入力データは、歪ゲージ、圧電素子、圧力センサ、又は、測定されて、例えばアナログ・デジタルコンバータによりデジタル化されたフィードバック信号を生成する他のハードウェア素子などの、力のフィードバック信号であってもよい。

更なる例では、入力データは例えば、デジタルテキスト文書などのデジタルテキストデータであってもよい。

また更なる例において、ターゲットシステムが例えばロボットである場合には、動作データには、モータ制御信号、電圧、電流、位置測定値、空気圧若しくは油圧指示値、又はデジタルカメラ画像などが含まれてもよい。

更に別の例では、ターゲットシステムが例えば材料処理プラントである場合には、動作データには、生産統計、コンベヤベルトの速度や位置、材料の高さ、又は質量の測定値などが含まれてもよい。

上記の適用領域の非限定的な例において、制御システムは、入力データに基づいて制御信号が生成可能な任意のシステムへ制御信号を生成するように構成される。

本発明の目的は、これまで議論したものの１つのようなターゲットシステムの制御に使用される制御システムを生成することであり、この制御システムがターゲットシステムに対する改良された制御を生成する。図４には、ターゲットシステムを制御するための、生成された制御システムの使用例が模式的に示されている。ステップ４１０で新しいシステム状態と所望の新しい状態に関する情報が、動作データとして受信可能である。受信した情報は上記のものとは異なってもよい。ステップ４２０で、システムは、入力データすなわち動作データの受信に応答して、動作中の制御システム（図４ではポリシーモデルと呼ぶ）により、１つ以上の動作を生成するように構成されてもよい。システムは制御信号を生成し（４３０）、これが生成された動作に対応し、そのようにしてターゲットシステムが制御され得る。

既に述べたように、制御機能は制御システム１２０に実装可能である。制御システムそのものは、上記のようにして生成されるニューラルネットワークを用いて、少なくとも部分的にターゲットシステム１１０を制御するように実装可能である。制御システム１２０の非限定的な例が図５に模式的に表示されている。制御システム１２０は、制御システムの動作を制御するように構成された処理ユニット５１０を備えることができる。処理ユニット５１０は１つ以上のプロセッサ又は類似のもので実装されてよい。制御システム１２０はまた、１つ以上のメモリ５２０と１つ以上の通信インタフェース５３０とを備えてもよい。１つ以上のメモリは、コンピュータプログラムコード５２５と任意の他のデータを格納するように構成可能であって、これが処理ユニット５１０によって実行されると、制御システムを前述したように動作させる。これらのエンティティは、例えばデータバスによって相互に通信可能に結合されてよい。次に通信インタフェース５３０は、制御システム１２０との信号の送受信のために、外部エンティティへのインタフェース提供に必要なハードウェアとソフトウェアを備える。図５の制御システム１２０の例示的実装形態には、ニューラルネットワーク５４０が備えられ、それによって前述したような制御機能が生成可能となる。図５の例では、制御システムは処理ユニット５１０の制御の下で動作させられる。本発明の他のいくつかの実施形態では、制御機能を生成するニューラルネットワーク５４０は、制御システム１２０以外の別のエンティティに少なくとも部分的に常駐してもよい。さらに、他のいくつかの実施形態では処理ユニット５１０がニューラルネットワークの機能を実装するように構成され、ニューラルネットワークとして個別のエンティティが必ずしも配置される必要はない。既に述べたように、第１のニューラルモデル成分、第２のニューラルモデル成分、第３のニューラルモデル成分は、同一のニューラルネットワーク５４０に実装されてもよいし、あるいは相互に通信するように構成された別々のニューラルネットワークに実装されてもよい。

さらに、本発明のいくつかの態様は、少なくとも１つのコンピュータ可読媒体を含むコンピュータプログラム製品に関係し得る。これはコンピュータ実行可能プログラムコード命令を格納して、コンピュータプログラム製品がコンピュータで実行されると、既述の方法に従って制御システムを生成させる。

一般的に制御システム１２０は、上記のようなデータ処理が実行され得る、分散型コンピュータシステム、コンピュータ、回路又はプロセッサを指す。図５は、前述したように、本発明の一実施実施形態による制御システム１２０の一例である。

以上の説明で提供される特定の例は、添付の特許請求の範囲の適用可能性及び／又は解釈を限定するものとみなされるべきではない。上記の説明において提供される例のリスト及びグループは、特に明記されない限り網羅的ではない。

Claims

ターゲットシステム（１１０）に対する制御システム（１２０）の生成方法であって、
少なくとも１つのソースシステムの動作データを受信するステップ（２１０）と、
前記受信した動作データでニューラルネットワークの第１のニューラルモデル成分を訓練するステップであって、前記第１のニューラルモデル成分を訓練することで前記受信した動作データに基づいて前記ターゲットシステム（１１０）の状態の予測を生成するステップ（３１０）と、
前記動作データで前記ニューラルネットワークの第２のニューラルモデル成分を訓練するステップであって、前記第２のニューラルモデル成分を訓練することで前記第１のニューラルモデル成分の反転に使用する正則化器を生成するステップ（３２０）と、
最適化及び前記第２のニューラルモデル成分で生成された前記正則化器を前記最適化において適用するように構成することにより前記第１のニューラルモデル成分を反転して、前記ターゲットシステム（１１０）に対する前記制御システム（１２０）を生成するステップ（３３０）と、
を含む、方法。
前記第２のニューラルモデル成分は、ノイズ除去ニューラルネットワーク、敵対的生成ネットワーク、変分オートエンコーダ、ラダーネットワークの内の１つである、請求項１に記載の方法。
前記制御システム（１２０）は、少なくとも１つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつ前記ポリシーモデル成分のパラメータを最適化することによる最適化法によって生成される、請求項１〜請求項２のいずれか１項に記載の方法。
前記ポリシーモデルは、訓練された第３のニューラルモデル成分を用いるか、前記制御システムに属する制御成分のパラメータの最適化によるか、のいずれかによって実装される、請求項３に記載の方法。
前記第２のニューラルモデル成分により前記正則化器として生成される正則化項は、前記第２のニューラルモデル成分の近似的密度勾配である、請求項１〜請求項４のいずれか１項に記載の方法。
前記正則化項は、前記第３のニューラルモデル成分の重みの更新における項として適用される、請求項５に記載の方法。
ターゲットシステム（１１０）に対する制御システム（１２０）であって、前記制御システムは少なくとも１つのニューラルネットワークを備え、前記制御システム（１２０）は、
少なくとも１つのソースシステムの動作データを受信するステップ（２１０）と、
前記受信した動作データで前記ニューラルネットワークの第１のニューラルモデル成分を訓練するステップであって、前記第１のニューラルモデル成分を訓練することで入力信号に応答して前記受信した動作データに基づいて前記ターゲットシステム（１２０）の状態の予測を生成するステップ（３１０）と、
前記動作データで前記ニューラルネットワークの第２のニューラルモデル成分を訓練するステップであって、前記第２のニューラルモデル成分を訓練することで前記第１のニューラルモデル成分の反転に使用する正則化器を生成するステップ（３２０）と、
最適化及び前記第２のニューラルモデル成分で生成された前記正則化器を前記最適化において適用するように構成することによって前記第１のニューラルモデル成分を反転して、前記ターゲットシステム（１１０）に対する前記制御システム（１２０）を生成するステップ（３２０）と、
によって生成されるように構成される、システム。
前記第２のニューラルモデル成分は、ノイズ除去ニューラルネットワーク、敵対的生成ネットワーク、変分オートエンコーダ、ラダーネットワークの内の１つである、請求項７に記載のシステム。
前記制御システム（１２０）は、少なくとも１つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつ前記ポリシーモデル成分のパラメータを最適化することによる最適化法によって生成されるように構成される、請求項７又は請求項８のいずれかに記載のシステム。
前記ポリシーモデルは、訓練された第３のニューラルモデル成分を用いるか、前記制御システムに属する制御成分のパラメータの最適化によるか、のいずれかによって実装される、請求項９に記載のシステム。
前記第２のニューラルモデル成分により前記正則化器として生成される正則化項は、前記第２のニューラルモデル成分の近似的密度勾配であるように構成される、請求項７〜請求項１０のいずれか１項に記載のシステム。
前記正則化項は、前記第３のニューラルモデル成分の重みの更新における項として適用されるように構成される、請求項１１に記載のシステム。
コンピュータプログラム製品であって、その中に格納されたコンピュータ実行可能プログラムコード命令を有する少なくとも１つのコンピュータ可読媒体を備え、前記コンピュータプログラム製品がコンピュータ上で実行されると、請求項１〜請求項６のいずれか一項に記載の方法を遂行する、コンピュータプログラム製品。