JP2021501433A - ターゲットシステム用制御システムの生成 - Google Patents
ターゲットシステム用制御システムの生成 Download PDFInfo
- Publication number
- JP2021501433A JP2021501433A JP2020544157A JP2020544157A JP2021501433A JP 2021501433 A JP2021501433 A JP 2021501433A JP 2020544157 A JP2020544157 A JP 2020544157A JP 2020544157 A JP2020544157 A JP 2020544157A JP 2021501433 A JP2021501433 A JP 2021501433A
- Authority
- JP
- Japan
- Prior art keywords
- model component
- neural
- neural model
- control system
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/029—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/25—Pc structure of the system
- G05B2219/25255—Neural network
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33041—Structure optimization and learning of artificial neural network by genetic algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
Abstract
Description
であって、ここで、
・aは計画された制御信号
・xはシステムの状態
・argmax[]は、関数(ここではV)の値を最大化する引数(ここではa)を求めることを指す。
・Vは、制御が最適化を図っている値を表す、価値(「報酬」)関数である。
・Fは、順モデル、すなわち第1のニューラルモデル成分である。
・rは、第2のニューラルモデル成分で実装される正則化器により生成される正則化項である。
を生成するためにネットワークを訓練する方法を指す。
ここで、
・x~とa~は、ノイズ、例えばガウスノイズを付加して損傷したxとaのサンプルのバージョンである
・x^とa^は、ネットワークGによって生成されたノイズ除去された出力であり、少なくとも元の入力(x,a)を近似する。
・Gは、xとaのサンプルのノイズを除去するように訓練されるネットワークである。
正則化器を使用して正則化項rを生成することは、上記のモデル反転による問題を軽減する。最適化での付加的な「報酬」として導入される正則化項は、動作aの検索を、訓練データ内の一般的かつ通常のサンプルに対応する値に指向させる。
ここで、σnは破損ノイズ、logpは確率の対数、∇は(x~,a~)に関する導関数である。重要なのはp(x~,a~)の部分であり、サンプル(x~,a~)がターゲットシステムに対する「典型的な」動作状態であれば、高い値を有し、そうでなければ低い値となって、反転を正常な、よりよい可能性のある解に向かわせる。
ここで、
・Pは「ポリシーモデル」であって、制御動作(これもまた計画された一連の制御動作であってよい)を生成するように構成された成分である。
・φはポリシーモデルPのパラメータ(例えばポリシーモデルがニューラルネットワークモデルで実装される場合にはニューラルネットワークの重み)である。
が生成される。
ポリシーモデルPは、例えば第3のニューラルモデルとして実装されてもよい。
から求めることができる。近似的密度勾配項が第3のニューラルモデルの重みに追加して使用される場合には、それを明示的に評価する必要がない。その場合には、ポリシーモデルパラメータの最適化は次式で表すことができる。
ここで、近似的密度勾配項は数学的最適化(argmax)の実装に含まれ、ポリシーモデルの訓練を、訓練データ内の典型的かつ通常のサンプルに対する動作aを生成するように方向づける。したがって、既述のような形で正則化器を使用して正則化項を生成することで、正則化項rが明示的に評価されないとしても、上記のモデル反転の問題を軽減する。
Claims (13)
- ターゲットシステム(110)に対する制御システム(120)の生成方法であって、
少なくとも1つのソースシステムの動作データを受信するステップ(210)と、
前記受信した動作データでニューラルネットワークの第1のニューラルモデル成分を訓練するステップであって、前記第1のニューラルモデル成分を訓練することで前記受信した動作データに基づいて前記ターゲットシステム(110)の状態の予測を生成するステップ(310)と、
前記動作データで前記ニューラルネットワークの第2のニューラルモデル成分を訓練するステップであって、前記第2のニューラルモデル成分を訓練することで前記第1のニューラルモデル成分の反転に使用する正則化器を生成するステップ(320)と、
最適化及び前記第2のニューラルモデル成分で生成された前記正則化器を前記最適化において適用するように構成することにより前記第1のニューラルモデル成分を反転して、前記ターゲットシステム(110)に対する前記制御システム(120)を生成するステップ(330)と、
を含む、方法。 - 前記第2のニューラルモデル成分は、ノイズ除去ニューラルネットワーク、敵対的生成ネットワーク、変分オートエンコーダ、ラダーネットワークの内の1つである、請求項1に記載の方法。
- 前記制御システム(120)は、少なくとも1つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつ前記ポリシーモデル成分のパラメータを最適化することによる最適化法によって生成される、請求項1〜請求項2のいずれか1項に記載の方法。
- 前記ポリシーモデルは、訓練された第3のニューラルモデル成分を用いるか、前記制御システムに属する制御成分のパラメータの最適化によるか、のいずれかによって実装される、請求項3に記載の方法。
- 前記第2のニューラルモデル成分により前記正則化器として生成される正則化項は、前記第2のニューラルモデル成分の近似的密度勾配である、請求項1〜請求項4のいずれか1項に記載の方法。
- 前記正則化項は、前記第3のニューラルモデル成分の重みの更新における項として適用される、請求項5に記載の方法。
- ターゲットシステム(110)に対する制御システム(120)であって、前記制御システムは少なくとも1つのニューラルネットワークを備え、前記制御システム(120)は、
少なくとも1つのソースシステムの動作データを受信するステップ(210)と、
前記受信した動作データで前記ニューラルネットワークの第1のニューラルモデル成分を訓練するステップであって、前記第1のニューラルモデル成分を訓練することで入力信号に応答して前記受信した動作データに基づいて前記ターゲットシステム(120)の状態の予測を生成するステップ(310)と、
前記動作データで前記ニューラルネットワークの第2のニューラルモデル成分を訓練するステップであって、前記第2のニューラルモデル成分を訓練することで前記第1のニューラルモデル成分の反転に使用する正則化器を生成するステップ(320)と、
最適化及び前記第2のニューラルモデル成分で生成された前記正則化器を前記最適化において適用するように構成することによって前記第1のニューラルモデル成分を反転して、前記ターゲットシステム(110)に対する前記制御システム(120)を生成するステップ(320)と、
によって生成されるように構成される、システム。 - 前記第2のニューラルモデル成分は、ノイズ除去ニューラルネットワーク、敵対的生成ネットワーク、変分オートエンコーダ、ラダーネットワークの内の1つである、請求項7に記載のシステム。
- 前記制御システム(120)は、少なくとも1つの制御信号を生成するように構成されたポリシーモデル成分を生成し、かつ前記ポリシーモデル成分のパラメータを最適化することによる最適化法によって生成されるように構成される、請求項7又は請求項8のいずれかに記載のシステム。
- 前記ポリシーモデルは、訓練された第3のニューラルモデル成分を用いるか、前記制御システムに属する制御成分のパラメータの最適化によるか、のいずれかによって実装される、請求項9に記載のシステム。
- 前記第2のニューラルモデル成分により前記正則化器として生成される正則化項は、前記第2のニューラルモデル成分の近似的密度勾配であるように構成される、請求項7〜請求項10のいずれか1項に記載のシステム。
- 前記正則化項は、前記第3のニューラルモデル成分の重みの更新における項として適用されるように構成される、請求項11に記載のシステム。
- コンピュータプログラム製品であって、その中に格納されたコンピュータ実行可能プログラムコード命令を有する少なくとも1つのコンピュータ可読媒体を備え、前記コンピュータプログラム製品がコンピュータ上で実行されると、請求項1〜請求項6のいずれか一項に記載の方法を遂行する、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20175970A FI20175970A1 (en) | 2017-11-01 | 2017-11-01 | Setting up a control system for the target system |
FI20175970 | 2017-11-01 | ||
PCT/FI2018/050791 WO2019086760A1 (en) | 2017-11-01 | 2018-10-31 | Generation of a control system for a target system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021501433A true JP2021501433A (ja) | 2021-01-14 |
Family
ID=64316581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020544157A Ceased JP2021501433A (ja) | 2017-11-01 | 2018-10-31 | ターゲットシステム用制御システムの生成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11669056B2 (ja) |
EP (1) | EP3704550B1 (ja) |
JP (1) | JP2021501433A (ja) |
KR (1) | KR102577188B1 (ja) |
CN (1) | CN111433689B (ja) |
FI (1) | FI20175970A1 (ja) |
WO (1) | WO2019086760A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11934159B2 (en) | 2018-10-30 | 2024-03-19 | Aspentech Corporation | Apparatus and methods for non-invasive closed loop step testing with controllable optimization relaxation |
WO2020227383A1 (en) | 2019-05-09 | 2020-11-12 | Aspen Technology, Inc. | Combining machine learning with domain knowledge and first principles for modeling in the process industries |
US11782401B2 (en) | 2019-08-02 | 2023-10-10 | Aspentech Corporation | Apparatus and methods to build deep learning controller using non-invasive closed loop exploration |
WO2021076760A1 (en) | 2019-10-18 | 2021-04-22 | Aspen Technology, Inc. | System and methods for automated model development from plant historical data for advanced process control |
US11630446B2 (en) | 2021-02-16 | 2023-04-18 | Aspentech Corporation | Reluctant first principles models |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010515182A (ja) * | 2007-01-02 | 2010-05-06 | シーメンス アクチエンゲゼルシヤフト | コンピュータ支援によって技術システムを制御および/または調整する方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
CN103676649A (zh) * | 2013-10-09 | 2014-03-26 | 江苏师范大学 | 局部自适应小波神经网络训练***、设备及方法 |
US20150301510A1 (en) * | 2014-04-22 | 2015-10-22 | Siegmund Düll | Controlling a Target System |
US20170038750A1 (en) * | 2014-04-22 | 2017-02-09 | Siemens Aktiengesellschaft | Method, controller, and computer program product for controlling a target system |
DE102014212747A1 (de) * | 2014-07-01 | 2016-01-07 | Siemens Aktiengesellschaft | Interaktives Assistenzsystem und Verfahren zur rechnergestützten Steuerungsoptimierung für ein technisches System |
US9953425B2 (en) | 2014-07-30 | 2018-04-24 | Adobe Systems Incorporated | Learning image categorization using related attributes |
US9747543B1 (en) * | 2014-09-30 | 2017-08-29 | Hrl Laboratories, Llc | System and method for controller adaptation |
US10628733B2 (en) * | 2015-04-06 | 2020-04-21 | Deepmind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
EP3371749A1 (en) | 2015-11-06 | 2018-09-12 | Google LLC | Regularizing machine learning models |
US10757519B2 (en) * | 2016-02-23 | 2020-08-25 | Harman International Industries, Incorporated | Neural network-based parameter estimation of loudspeakers |
US11093818B2 (en) * | 2016-04-11 | 2021-08-17 | International Business Machines Corporation | Customer profile learning based on semi-supervised recurrent neural network using partially labeled sequence data |
-
2017
- 2017-11-01 FI FI20175970A patent/FI20175970A1/en not_active IP Right Cessation
-
2018
- 2018-10-31 WO PCT/FI2018/050791 patent/WO2019086760A1/en unknown
- 2018-10-31 CN CN201880071015.3A patent/CN111433689B/zh active Active
- 2018-10-31 EP EP18803728.7A patent/EP3704550B1/en active Active
- 2018-10-31 JP JP2020544157A patent/JP2021501433A/ja not_active Ceased
- 2018-10-31 US US16/760,591 patent/US11669056B2/en active Active
- 2018-10-31 KR KR1020207015656A patent/KR102577188B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010515182A (ja) * | 2007-01-02 | 2010-05-06 | シーメンス アクチエンゲゼルシヤフト | コンピュータ支援によって技術システムを制御および/または調整する方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111433689A (zh) | 2020-07-17 |
FI20175970A1 (en) | 2019-05-02 |
KR102577188B1 (ko) | 2023-09-08 |
US20210341884A1 (en) | 2021-11-04 |
EP3704550A1 (en) | 2020-09-09 |
CN111433689B (zh) | 2023-08-01 |
EP3704550B1 (en) | 2023-04-05 |
US11669056B2 (en) | 2023-06-06 |
WO2019086760A1 (en) | 2019-05-09 |
KR20200084010A (ko) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021501433A (ja) | ターゲットシステム用制御システムの生成 | |
Liu et al. | Gaussian processes for learning and control: A tutorial with examples | |
US11714996B2 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
EP3788549B1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN112135717B (zh) | 基于像素的模型预测控制的***和方法 | |
EP3424650B1 (en) | A method and apparatus for performing control of a movement of a robot arm | |
CN111144580B (zh) | 一种基于模仿学习的层级强化学习训练方法和装置 | |
US20180032868A1 (en) | Early prediction of an intention of a user's actions | |
US20240095495A1 (en) | Attention neural networks with short-term memory units | |
CN115812180A (zh) | 使用奖励预测模型的机器人控制的离线学习 | |
CN113614743A (zh) | 用于操控机器人的方法和设备 | |
CN114529010A (zh) | 一种机器人自主学习方法、装置、设备及存储介质 | |
US20200134498A1 (en) | Dynamic boltzmann machine for predicting general distributions of time series datasets | |
Rottmann et al. | Adaptive autonomous control using online value iteration with gaussian processes | |
JPH06332506A (ja) | 非線形制御装置 | |
Yuwono et al. | Model-based learning on state-based potential games for distributed self-optimization of manufacturing systems | |
JP6829271B2 (ja) | 測定動作パラメータ調整装置、機械学習装置及びシステム | |
Bonsignorio et al. | An imitation learning approach for the control of a low-cost low-accuracy robotic arm for unstructured environments | |
JP2021084188A (ja) | 制御システム | |
US20230095351A1 (en) | Offline meta reinforcement learning for online adaptation for robotic control tasks | |
US11410042B2 (en) | Dynamic Boltzmann machine for estimating time-varying second moment | |
Berdica et al. | Reinforcement Learning Controllers for Soft Robots Using Learned Environments | |
Havens | Model-based approaches for learning control from multi-modal data | |
CN115922696A (zh) | 机器人力控方法、装置、电子设备及可读存储介质 | |
Mohammad et al. | Learning from Demonstration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221226 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20230424 |