JP7462905B2 - 制御装置、方法、プログラム及びシステム - Google Patents

制御装置、方法、プログラム及びシステム Download PDF

Info

Publication number
JP7462905B2
JP7462905B2 JP2020203983A JP2020203983A JP7462905B2 JP 7462905 B2 JP7462905 B2 JP 7462905B2 JP 2020203983 A JP2020203983 A JP 2020203983A JP 2020203983 A JP2020203983 A JP 2020203983A JP 7462905 B2 JP7462905 B2 JP 7462905B2
Authority
JP
Japan
Prior art keywords
operation amount
control
output
manipulated variable
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020203983A
Other languages
English (en)
Other versions
JP2021068458A5 (ja
JP2021068458A (ja
Inventor
純一 出澤
志門 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AISing Ltd
Original Assignee
AISing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020517407A external-priority patent/JP6813231B1/ja
Application filed by AISing Ltd filed Critical AISing Ltd
Priority to JP2020203983A priority Critical patent/JP7462905B2/ja
Publication of JP2021068458A publication Critical patent/JP2021068458A/ja
Publication of JP2021068458A5 publication Critical patent/JP2021068458A5/ja
Application granted granted Critical
Publication of JP7462905B2 publication Critical patent/JP7462905B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Description

この発明は、フィードバック制御を行う制御装置に関する。
様々な装置の制御には、フィードバック制御、例えば、PID制御が広く使用されている。フィードバック制御は、古典制御に属するものの、その過去の実績に基づく信頼や、技術者の経験則による調整の容易さから、現在に至っても未だ産業界の主力の制御手法である。
図11は、従前のフィードバック制御の基本的構成、すなわち従前のフィードバックシステム200について示す図である。同図から明らかな通り、制御機構202の検出子(例えば、センサ等)から得られた出力yは同図左側の入力側へとフィードバックされ、目標値rとの偏差が算出される。この算出された偏差はさらにコントローラ201へと入力されて操作量uが算出される。この操作量uに応じて制御機構202の操作子(例えば、アクチュエータ等)は動作し、図示しない制御対象を制御する。このとき、外乱wが乗ることがある。この一連のプロセスが繰り返されることで、偏差が小さくなるような制御、すなわち、出力yを目標値rへと近付ける制御が行われる。
一方、近年、機械学習の分野が高い注目を集めている。このような背景の中、本願の発明者らは、木構造を有する新たな機械学習の枠組み(学習木)を提唱している(特許文献1)。
図12は、上述の新たな機械学習の枠組みについて示す説明図、すなわち、学習木の構造について示す説明図である。図12(a)には、当該学習手法における学習木の構造が示されており、図12(b)には、当該構造に対応する状態空間のイメージが示されている。同図から明らかな通り、学習木構造は、階層的に分割された各状態空間に対応する各ノードを、最上位ノード(始端ノード又は根ノード)から最下端ノード(末端ノード又は葉ノード)まで、樹形状乃至格子状に分岐して配置することにより構成されている。なお、同図は、N階層d次元n分割の学習木においてdが2、nが2の場合の例を示しており、図12(a)に記載の学習木の1階層目の4つの末端ノードに付された1~4の番号は、それぞれ、図12(b)に記載の4つの状態空間に対応している。
上記学習木を用いて学習処理を行う際には、入力されるデータが、逐次、分割された各状態空間に対応付けられ、それらが各状態空間に蓄積されていくこととなる。このとき、それまでデータが存在しなかった状態空間に新たにデータが入力された場合には、新たなノードが順次生成されていく。予測出力は、学習後に各状態空間に内包される各データに対応する出力値又は出力ベクトルの相加平均をとることで算出されることとなる。
このような機械学習技術によれば、省メモリかつ高速の機械学習を実現することができる。
特開2016-173686号公報
ところで、PID制御をはじめとする従前のフィードバック制御では、ゲインを制御開始前に調整・設定し、制御開始後は当該ゲインを固定的に使用することが一般的であった。そのため、例えば、経年劣化等により制御対象や操作子の特性が変化したような場合には適応的な対応ができず、従って、制御の精度が低下するおそれがあった。
本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、長年利用されている信頼性の高いフィードバック制御を利用しつつも、制御中に得られたデータに基づいて適応的な制御を行うことにある。
本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。
上述の技術的課題は、以下の構成を有する制御装置、方法、プログラム及びシステム等により解決することができる。
すなわち、本発明に係る制御装置は、所定の装置に対してフィードバック制御を行うための制御装置であって、前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、前記予測出力と前記目標値に基づいて、前記装置に対する第2の操作量を生成する、第2のコントローラと、前記第1の操作量と前記第2の操作量とに基づいて、前記装置に対する操作量である統合操作量を生成する、統合操作量生成部と、前記第2の操作量が無効化処理される場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶部と、を備えている。
このような構成によれば、フィードバック制御という長年利用されている信頼性の高い制御技術を利用しつつも、機械学習技術により、制御中に得られたデータに基づいて適応的な制御を行うことができる。
前記制御装置は、さらに、前記機械学習用データに基づいて学習処理を行い前記学習済モデルを更新する、学習処理部を備えてもよい。
このような構成によれば、装置の制御を行いつつも学習処理を行い、制御を最適化することができる。
前記制御装置は、さらに、前記第2の操作量が無効化条件を満たすか否かを判定する、判定部と、前記判定部において無効化条件を満たすと判定された場合に、前記第2の操作量を無効化処理する、無効化処理部と、を備える、ものであってもよい。
このような構成によれば、第2の操作量が予め定めた条件を満たす場合には第2の操作量を無効化して第1の操作量に基づく制御のみが行われるので、より信頼性の高い制御を行うことができる。また、当該期間のデータは機械学習用データとして供されるので将来に向けて制御精度の向上を見込むことができる。
前記無効化条件は、前記第2の操作量が第1の閾値よりも大きいか、又は前記第1の閾値よりも小さい第2の閾値よりも小さいことであってもよい。
このような構成によれば、操作量が想定を超える場合に第2の操作量を無効化するので、より信頼性の高い制御を行うことができる。また、当該期間のデータは機械学習用データとして供されるので将来に向けて制御精度の向上を見込むことができる。
前記記憶部は、さらに、前記第2の操作量が0又はその近傍値となる場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、ものであってもよい。
このような構成によれば、第2の操作量が0又はその近傍値となる場合も利用して学習を進めることができるので、さらなる制御精度の向上を期待することができる。
前記記憶部は、さらに、前記第2の操作量が無効化処理される場合の参照時間ステップに係る前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力に加えて、さらに、前記参照時間より時間的に前の1又は複数の時間ステップに係る前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、ものであってもよい。
このような構成によれば、参照時間ステップの前の1又は複数の時間ステップに係るデータも併せて学習するので、より汎化させやすくなり、学習速度の向上を期待することができる。
前記第1のコントローラ及び/又は前記第2のコントローラは、それぞれ、P制御、PI制御、PD制御又はPID制御のいずれかを行うものであってもよい。
このような構成によれば、長年利用されている信頼性の高い制御技術を利用しつつも、機械学習技術により、装置運転中に得られたデータに基づいて制御精度をさらに向上させることができる。
前記学習済モデルは、階層的に分割された状態空間へとそれぞれ対応付けられた複数のノードを階層的に配置することにより構成された木構造を有する学習モデルを用いて機械学習を行うことにより得られるものであってもよい。
このような構成によれば、人工ニューラルネットワーク等に対する学習に比べて省メモリで高速学習を行うことが可能となるので、装置を動作させつつ同時学習(オンライン学習)を行う場合に特に有利となる。
本発明は、方法としても観念することができる。すなわち、本発明に係る制御方法は、所定の装置に対してフィードバック制御を行うための制御装置における制御方法であって、前記制御装置は、前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、前記予測出力と前記目標値に基づいて、前記装置に対する第2の操作量を生成する、第2のコントローラと、を備え、前記第1の操作量と前記第2の操作量とに基づいて、前記装置に対する操作量である統合操作量を生成する、統合操作量生成ステップと、前記第2の操作量が無効化処理される場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶ステップと、を備えている。
本発明は、プログラムとしても観念することができる。すなわち、本発明に係る制御プログラムは、所定の装置に対してフィードバック制御を行うための制御装置の制御プログラムであって、前記制御装置は、前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、前記予測出力と前記目標値に基づいて、前記装置に対する第2の操作量を生成する、第2のコントローラと、を備え、前記第1の操作量と前記第2の操作量とに基づいて、前記装置に対する操作量である統合操作量を生成する、統合操作量生成ステップと、前記第2の操作量が無効化処理される場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶ステップと、を備えている。
本発明は、システムとしても観念することができる。すなわち、本発明に係る制御システムは、所定の装置に対してフィードバック制御を行うための制御システムであって、前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、前記予測出力と前記目標値に基づいて、前記装置に対する第2の操作量を生成する、第2のコントローラと、前記第1の操作量と前記第2の操作量とに基づいて、前記装置に対する操作量である統合操作量を生成する、統合操作量生成部と、前記第2の操作量が無効化処理される場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶部と、を備えている。
本発明によれば、信頼性の高いフィードバック制御を利用しつつも、制御中に得られたデータに基づいて適応的な制御を行うことができる。
図1は、制御システムのハードウェア構成図である。 図2は、システムの動作に関するゼネラルフローチャートである。 図3は、基本システムに関するブロック図である。 図4は、基本システムの動作に関する詳細フローチャートである。 図5は、初期学習に関する詳細フローチャートである。 図6は、拡張システムの動作に関する詳細フローチャートである。 図7は、拡張システムに関するブロック図である。 図8は、拡張システムにおける制御処理に関する詳細フローチャート(その1)である。 図9は、拡張システムにおける制御処理に関する詳細フローチャート(その2)である。 図10は、第2の操作量の条件に関する説明図である。 図11は、フィードバックシステムの基本的構成に関するブロック図である。 図12は、学習木に関する説明図である。
以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。
<1.第1の実施形態>
<1.1 構成>
図1は、制御装置100と制御機構12とから成る制御システムのハードウェア構成図である。
同図から明らかな通り、制御装置100は、制御部1、記憶部2、I/O部3、入力部4、表示部5及び通信部6を備え、それらは互いにバスを介して接続されている。また、制御装置100は、制御機構12を構成する操作部121及び検出部122と接続され、図示しない制御対象を制御可能に構成されている。
制御部1は、CPU等の情報処理部であり、記憶部2に記憶されている各種のプログラムを読み出して実行する。記憶部2は、ROM、RAM、ハードディスク、フラッシュメモリ等の揮発性又は不揮発性の記憶装置であり、機械学習対象となるデータを含む後述の各種のデータを記憶する。I/O部3は、外部装置との入出力を行うインタフェースである。入力部4は、キーボード、タッチパネル、ボタン等を介して入力された信号を処理する。表示部5は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにGUIを提供する。通信部6は、有線又は無線にて外部機器と通信を行う通信ユニットである。
操作部121は、所定の操作量に基づいて制御対象に影響を与えるものであり、例えば、アクチュエータ等で構成される。検出部122は、制御対象の状態等を検出するものであり、例えば、センサ等で構成される。
なお、ハードウェア構成は、本実施形態に係る構成に限定されるものではなく、構成や機能を分散又は統合してもよい。例えば、複数台の制御装置100を用いて分散的に処理を行っても良いし、大容量記憶装置をさらに外部に設けて制御装置100と接続する等してもよい。また、インターネット等を介してコンピュータネットワークを形成して処理を行ってもよい。
さらに、本実施形態に係る処理は、FPGA等の半導体回路(IC等)を用いて、所謂ハードウェアとして実装してもよい。
<1.2 動作>
次に、図2~図10を参照しつつ、制御装置100の動作に関して説明する。
図2は、制御装置100の動作に関するゼネラルフローチャートである。
同図から明らかな通り、処理が開始すると、後述の基本システム10の第1のPIDコントローラ11に設定される各ゲイン(すなわち、P(比例)ゲイン、I(積分)ゲイン、D(微分)ゲイン)の設定処理が行われる(S1)。
図3は、基本システム10に関するブロック図である。同図から明らかな通り、基本システム10は、第1のPIDコントローラ11と、第1のPIDコントローラ11の後段に設けられ、操作部121と検出部122を備えた制御機構12と、第1のPIDコントローラから出力される操作量uと制御機構12の検出部122から出力される出力値yを記録するデータロガー13とから構成されている。なお、その動作は、図11に示したフィードバックシステム200と略同一であるが、データロガー13が、第1のPIDコントローラから出力される操作量uと制御機構12の検出部122から出力される出力値yを記録する点において相違する。
ユーザは、基本システム10を動作させ又はシミュレーションを行う等して、公知の手法で第1のPIDコントローラ11の各ゲインを調整し、入力部4等を介して最終的なゲインを入力して設定する。この入力された各ゲインは記憶部2へと記憶される。
図2に戻り、ゲインの設定処理(S1)が完了すると、当該ゲインを利用して実際に基本システム10を動作させる処理、すなわち、機械学習用のデータを取得し記憶する処理が行われる(S3)。
図4は、基本システム10の動作に関する詳細フローチャートである。同図から明らかな通り、処理が開始すると、時間ステップに相当する所定の整数値tを初期化する(例えば、1とする)処理が行われる(S31)。初期化が完了すると、所定の目標値r(t)と、1つ前の時間ステップ(t-1)の出力値y(t-1)を読み出し、その偏差(r(t)-y(t-1))を算出し、同偏差を第1のコントローラ11へと入力する処理が行われる(S32)。
第1のコントローラ11は、偏差が入力されると、設定されたゲインに基づいて操作量u(t)を算出する(S33)。この操作量u(t)は、制御機構12の操作部121へと提供され、これにより制御対象に対して所定の制御行為が行われる。その後、制御機構12の検出部122を介して、現在(t)の出力値y(t)が検出される(S34)。
以上一連の処理が終了すると、1つ前の時間ステップの出力値y(t-1)、操作量u(t)及び現在時間(t)の出力値y(t)を、データロガー13を介して記憶部2へと記憶する処理が行われる(S36)。その後、tの値を1だけインクリメントして(S38)、再度一連の処理(S32~S38)が行われる。
すなわち、制御対象を制御しつつ、1つ前の時間ステップの出力値y(t-1)、操作量u(t)及び現在時間の出力値y(t)を、データロガー13を介して記憶部2へと記憶する処理が継続的に行われる。これにより、後述する予測処理部35で用いられる学習済モデルを生成するための機械学習用データが所望量蓄積されていくことになる。
図2に戻り、基本システム10の動作に基づいてデータの取得と記憶処理が完了すると(S3)、得られたデータに基づいて初期学習を行う処理が行われる(S5)。
図5は、初期学習に関する詳細フローチャートである。本実施形態においては、機械学習技術として図12を用いて示した上述の木構造を利用した機械学習技術を用いる。
同図から明らかな通り、処理が開始すると、学習木の構造(階層数、次元数、分割数など)や種々の初期パラメータを含む、学習に関するパラメータファイルを記憶部2から読み出す処理が行われる。その後、所定の整数値tを初期化する(例えば1とする)処理が行われる(S52)。
この初期化の後、t番目の入力データ、すなわち、1つ前の時間ステップの出力値y(t-1)と操作量u(t)を読み出して学習木への入力とする処理が行われる(S53)。その後、当該入力は、所定の分岐条件に応じて分類されて根ノードから葉ノードへと至る複数のノードが特定され、各ノードと対応付けて記憶される(S54)。
その後、各ノードにおいて、出力値yに基づくそれまでの相加平均値を更新するように、新たな出力値y(t)も加えた相加平均値を算出し、ノードと対応付けて記憶する処理が行われる(S56)。
その後、tの値が所定の最大値(t_max)と一致するかを判定し、未だtの値が最大値ではない場合(S57NO)、tの値を1だけインクリメントして、再度上述の学習処理(S53~S56)を繰り返す。一方、tの値が所定の最大値となる場合(S57YES)、処理は終了する。
すなわち、これにより、1つ前の時間ステップの出力値y(t-1)と現在時間の操作量u(t)とに基づいて、出力値y(t)を予測する学習済モデルが生成されることとなる。
図2に戻り、初期学習処理が完了すると、次に、基本システム10を拡張した後述の拡張システム30を動作させる(S7)。
図6は、拡張システム30の動作に関する詳細フローチャートである。同図から明らかな通り、処理が開始すると、拡張システム30に基づく制御処理が行われる(S71)。
図7は、拡張システム30のブロック図である。同図から明らかな通り、拡張システム30は、第1のフィードバックループを備える基本システム10の構成に加えて、さらに、第2のフィードバックループと学習処理部34とを備えている。第2のフィードバックループは、学習済モデルを備える予測処理部35、その後段に設けられた第2のコントローラ37、さらにその後段に設けられた無効化処理部38及び判定部39とから成る。
予測処理部35は、1つ前の時間ステップの出力値y(t-1)と現在時間の第1の操作量u(t)とに基づいて、予測出力値yhat(t)を生成する学習済モデルを備えている。また、第2のコントローラ37は、目標値r(t)と予測出力値yhat(t)との偏差(r(t)-yhat(t))に基づいて、第2の操作量u(t)を生成する。判定部39は、第2の操作量u(t)に関して所定の条件判定を行い、無効化処理部38に対して判定結果を提供する。無効化処理部38は、判定部39から提供される判定結果に応じて、第2の操作量u(t)を無効化して(例えば、第2の操作量u(t)を0として)又はそのまま提供する。
また、学習処理部34は、データロガー53を通じて記憶部2に記憶されたデータを読み出して、所定の条件下、学習処理を行い、更新された学習済モデルを予測処理部35へと提供する。
図8及び図9は、拡張システム30における制御処理に関する詳細フローチャートである。
図8において、処理が開始すると、後述の処理において使用されるフラグを初期化する処理が行われる(S711)。次に、1つ前の時間ステップの出力値y(t-1)と目標値r(t)の偏差(r(t)-y(t-1))を第1のコントローラ31へと入力する処理が行われる(S712)。第1のコントローラ31は、当該入力と設定されたゲインに基づき、第1の操作量u(t)を算出する処理が行われる(S713)。
その後、第1の操作量u(t)及び1つ前の時間ステップの出力値y(t-1)を予測処理部35へと入力する処理が行われる(S714)。予測処理部35は、学習済モデルへと第1の操作量u(t)及び1つ前の時間ステップの出力値y(t-1)を入力することにより、予測出力yhat(t)を算出する(S715)。この算出の後、予測出力yhat(t)と目標値r(t)との偏差(r(t)-yhat(t))を第2のコントローラ37へと入力する処理が行われる(S716)。第2のコントローラ37は、予測出力yhat(t)と目標値r(t)との偏差に基づいて第2の操作量u(t)を算出する(S717)。
図9へと続き、第2の操作量u(t)が算出されると、判定部39により、当該第2の操作量u(t)が所定の条件を満たすか否かを判定する処理が行われる(S719)。
図10は、第2の操作量u(t)の所定条件の概要に関する説明図である。同図から明らかな通り、所定条件は、第2の操作量u(t)が所定の閾値U以上かつ所定の閾値U以下の範囲(同図Rで示した範囲)にあるか否かである。
この範囲(R)に無い場合(S719NO)、すなわち、第2の操作量u(t)が所定の閾値Uより小さいか又は所定の閾値Uより大きい場合、判定部39は、無効化処理部38へと所定の範囲内に第2の操作量u(t)が無いことを表す判定信号を提供し、無効化処理部38は、第2の操作量u(t)を無効化する処理を行う(S720)。この無効化処理を行った後、無効化を行ったことを意味するフラグをONとする処理が行われる(S721)。
一方、第2の操作量u(t)が上記範囲(R)内に存在する場合(S719YES)、判定部39は、無効化処理部38へと所定の範囲内に第2の操作量u(t)が存在することを表す判定信号を提供し、無効化処理部38は、第2の操作量u(t)をそのまま第1のフィードバックループの第1のコントローラ13の出力後段へと提供する(S722)。
その後、第1のフィードバックループの第1のコントローラ13の出力後段において、第1の操作量u(t)と第2の操作量u(t)を加算して、操作量u(t)を算出する処理が行われる(S723)。この操作量u(t)は、制御機構32の操作部121へと入力され、検出部122を通じてその結果としての出力値y(t)が検出される(S724)。
この検出処理の後、1つ前の時間ステップの出力値y(t-1)、操作量u(t)、出力値y(t)及びフラグ信号を記憶する処理が行われ(S725)、拡張システム30における制御処理の一周期に相当する処理は終了する。
図6に戻り、拡張システム30における制御処理の一周期相当が終了すると、記憶されたフラグの状態を判定する処理が行われる(S73)。フラグがOFF状態であると判定された場合(S73NO)、拡張システム30の次の時間ステップにおける処理が再度行われる(S71)。一方、フラグがON状態にあると判定された場合(S73YES)、すなわち、第2の操作量u(t)の無効化処理が行われていた場合、学習処理が行われる(S75)。
学習処理(S75)の内容は図5に示したものと略同一であるので、ここでは説明を省略する。この学習処理の後、拡張システム30の次の時間ステップにおける処理が再度行われる(S71)。
このような構成によれば、フィードバック制御という長年利用されている信頼性の高い制御技術を利用しつつも、機械学習技術により、制御中に得られたデータに基づいて適応的な制御を行うことができる。
また、このような構成によれば、第2の操作量u(t)が予め定めた条件を満たす場合には第2の操作量u(t)を無効化して第1の操作量u(t)に基づく制御のみを行うので、信頼性の高い制御を行うことができる。また、当該期間のデータは機械学習用データとして供されるので将来に向けて制御精度の向上を見込むことができる。
<2.変形例>
上記実施形態は例示的な実施形態であり、本発明は様々な変形が可能である。
上述の実施形態においては、コントローラとして、PIDコントローラを例示したが、本発明はこのような構成に限定されない。従って、同種の機能を有する他のコントローラであってもよく、又、例えば、P制御、PI、PD制御など、その一部のゲインのみを利用した制御を利用してもよい。
上述の実施形態においては、各時間ステップ毎にフラグの状態を確認して、都度リアルタイムに学習処理を行う構成(オンライン学習)としたが、本発明はこのような構成に限定されない。従って、例えば、ある程度学習対象となるデータが蓄積されるのを待って、バッチ的に学習(バッチ学習、ミニバッチ学習)を行ってもよい。
上述の実施形態においては、フラグがONとなった場合に(S721)、前1ステップに係るデータを学習する構成としたが、本発明はこのような構成に限定されない。従って、例えば、当該1ステップへと至る1又は複数のステップのデータも利用して学習(S75)を行ってもよい。このような学習は、特に、学習対象に連続性がある場合に有効となり得る。
上述の実施形態においては、第2の操作量u(t)が所定の範囲(図10の「R」で示される領域)から外れる場合に(S719NO)、無効化処理(S720)が行われることから、当該領域(R)から外れる場合にフラグをONとして学習(S75)する構成とした。しかしながら、本発明はこのような構成に限定されない。従って、例えば、第2の操作量u(t)が所定の範囲(R)内にあるか否かを問わず、第2の操作量u(t)が0又はその近傍(0±εの範囲)(εは微小な値)となる場合に学習(S75)を行ってもよい。なお、このとき、この微小な値εをユーザが任意に設定可能なように構成してもよい。
上述の実施形態においては、木構造モデルを基本とした機械学習モデルを利用したが、本発明はこのような構成に限定されない。従って、例えば、ニューラルネットワークやサポート・ベクター・マシーン等の他の機械学習モデルを利用してもよい。
本発明は、制御装置を利用する種々の産業等にて利用可能である。
1 制御部
2 記憶部
3 I/O部
4 入力部
5 表示部
6 通信部
10 基本システム
11 第1のPIDコントローラ
12 制御機構
100 制御装置
121 操作部
122 検出部
13 データロガー
30 拡張システム
31 第1のコントローラ
32 制御機構
33 データロガー
34 学習処理部
35 予測処理部
37 第2のコントローラ
38 無効化処理部
39 判定部
200 フィードバックシステム
201 コントローラ
202 制御機構

Claims (8)

  1. 所定の装置に対してフィードバック制御を行うための制御装置であって、
    前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、
    前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、
    前記予測出力と前記目標値の偏差を入力として、前記装置に対する第2の操作量を生成する、第2のコントローラと、
    前記第1の操作量と前記第2の操作量を加算して、前記装置に対する操作量である統合操作量を生成する、統合操作量生成部と、
    前記第2の操作量が所定の値域にあるか否かを判定する、判定部と、
    前記判定部において前記第2の操作量が前記値域にないと判定された場合、前記統合操作量生成部へと前記第2の操作量を提供せず、それにより、前記第1の操作量を前記統合操作量とする、無効化処理部と、
    前記第2の操作量が前記値域にないと判定された場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶部と、を備え、
    前記第1のコントローラ及び前記第2のコントローラは、それぞれ、P制御、PI制御、PD制御又はPID制御のいずれかを行うものである、制御装置。
  2. 前記制御装置は、さらに、
    前記機械学習用データに基づいて学習処理を行い前記学習済モデルを更新する、学習処理部を備える、請求項1に記載の制御装置。
  3. 前記記憶部は、さらに、
    前記第2の操作量が0となる場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、請求項1に記載の制御装置。
  4. 前記記憶部は、さらに、
    前記第2の操作量が前記値域にないと判定された場合の参照時間ステップに係る前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力に加えて、さらに、前記参照時間ステップより時間的に前の1又は複数の時間ステップに係る前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、請求項1に記載の制御装置。
  5. 前記学習済モデルは、階層的に分割された状態空間へとそれぞれ対応付けられた複数のノードを階層的に配置することにより構成された木構造を有する学習モデルを用いて機械学習を行うことにより得られるものである、請求項1に記載の制御装置。
  6. 所定の装置に対してフィードバック制御を行うための制御装置における制御方法であって、
    前記制御装置は、
    前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、
    前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、
    前記予測出力と前記目標値の偏差を入力として、前記装置に対する第2の操作量を生成する、第2のコントローラと、を備え、
    前記第1の操作量と前記第2の操作量を加算して、前記装置に対する操作量である統合操作量を生成する、統合操作量生成ステップと、
    前記第2の操作量が所定の値域にあるか否かを判定する、判定ステップと、
    前記判定ステップにおいて前記第2の操作量が前記値域にないと判定された場合、前記統合操作量生成ステップにおいて前記第2の操作量を前記第1の操作量と加算せず、それにより、前記第1の操作量を前記統合操作量とする、無効化処理ステップと、
    前記第2の操作量が前記値域にないと判定された場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶ステップと、を備え、
    前記第1のコントローラ及び前記第2のコントローラは、それぞれ、P制御、PI制御、PD制御又はPID制御のいずれかを行うものである、制御方法。
  7. 所定の装置に対してフィードバック制御を行うための制御装置の制御プログラムであって、
    前記制御装置は、
    前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、
    前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、
    前記予測出力と前記目標値の偏差を入力として、前記装置に対する第2の操作量を生成する、第2のコントローラと、を備え、
    前記第1の操作量と前記第2の操作量を加算して、前記装置に対する操作量である統合操作量を生成する、統合操作量生成ステップと、
    前記第2の操作量が所定の値域にあるか否かを判定する、判定ステップと、
    前記判定ステップにおいて前記第2の操作量が前記値域にないと判定された場合、前記統合操作量生成ステップにおいて前記第2の操作量を前記第1の操作量と加算せず、それにより、前記第1の操作量を前記統合操作量とする、無効化処理ステップと、
    前記第2の操作量が前記値域にないと判定された場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶ステップと、を備え、
    前記第1のコントローラ及び前記第2のコントローラは、それぞれ、P制御、PI制御、PD制御又はPID制御のいずれかを行うものである、制御プログラム。
  8. 所定の装置に対してフィードバック制御を行うための制御システムであって、
    前記装置からフィードバックされる出力と目標値に基づいて、前記装置に対する第1の操作量を生成する、第1のコントローラと、
    前記装置からフィードバックされる出力と前記第1の操作量に基づいて前記装置からの予測出力を生成するよう機械学習された学習済モデルを備えた、予測出力生成部と、
    前記予測出力と前記目標値の偏差を入力として、前記装置に対する第2の操作量を生成する、第2のコントローラと、
    前記第1の操作量と前記第2の操作量を加算して、前記装置に対する操作量である統合操作量を生成する、統合操作量生成部と、
    前記第2の操作量が所定の値域にあるか否かを判定する、判定部と、
    前記判定部において前記第2の操作量が前記値域にないと判定された場合、前記統合操作量生成部へと前記第2の操作量を提供せず、それにより、前記第1の操作量を前記統合操作量とする、無効化処理部と、
    前記第2の操作量が前記値域にないと判定された場合に、前記第1の操作量、前記装置からフィードバックされた前記出力及び前記統合操作量に対応する前記装置からの出力を機械学習用データとして記憶する、記憶部と、を備え、
    前記第1のコントローラ及び前記第2のコントローラは、それぞれ、P制御、PI制御、PD制御又はPID制御のいずれかを行うものである、制御システム。
JP2020203983A 2019-10-21 2020-12-09 制御装置、方法、プログラム及びシステム Active JP7462905B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020203983A JP7462905B2 (ja) 2019-10-21 2020-12-09 制御装置、方法、プログラム及びシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020517407A JP6813231B1 (ja) 2019-10-21 2019-10-21 制御装置、方法、プログラム及びシステム
JP2020203983A JP7462905B2 (ja) 2019-10-21 2020-12-09 制御装置、方法、プログラム及びシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020517407A Division JP6813231B1 (ja) 2019-10-21 2019-10-21 制御装置、方法、プログラム及びシステム

Publications (3)

Publication Number Publication Date
JP2021068458A JP2021068458A (ja) 2021-04-30
JP2021068458A5 JP2021068458A5 (ja) 2022-10-25
JP7462905B2 true JP7462905B2 (ja) 2024-04-08

Family

ID=75637383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020203983A Active JP7462905B2 (ja) 2019-10-21 2020-12-09 制御装置、方法、プログラム及びシステム

Country Status (1)

Country Link
JP (1) JP7462905B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187505A (ja) 1998-12-22 2000-07-04 Kanemoto Terauchi 分散学習機能を有するコンピュータシステム
US20170326726A1 (en) 2014-10-02 2017-11-16 Brain Corporation Apparatus and methods for training path navigation by robots
JP6332501B2 (ja) 2017-03-02 2018-05-30 株式会社リコー シート処理装置及び画像形成システム
JP2019071405A (ja) 2017-10-06 2019-05-09 キヤノン株式会社 制御装置、リソグラフィ装置、測定装置、加工装置、平坦化装置及び物品製造方法
JP2019166603A (ja) 2018-03-23 2019-10-03 ファナック株式会社 熱変位補正システム及び計算機
JP7152404B2 (ja) 2017-01-02 2022-10-12 ザ ボード オブ リージェンツ オブ ザ ユニバーシティー オブ テキサス システム 抗lair1抗体およびその使用
JP7210209B2 (ja) 2018-09-28 2023-01-23 太平洋セメント株式会社 セメント組成物

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332501A (ja) * 1993-05-24 1994-12-02 Ishikawajima Harima Heavy Ind Co Ltd フィードバック制御装置および該制御装置を用いた焼却炉
JP3186380B2 (ja) * 1993-11-26 2001-07-11 株式会社日立製作所 制御装置
JPH10275002A (ja) * 1997-03-31 1998-10-13 Rika Kogyo Kk 制御装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187505A (ja) 1998-12-22 2000-07-04 Kanemoto Terauchi 分散学習機能を有するコンピュータシステム
US20170326726A1 (en) 2014-10-02 2017-11-16 Brain Corporation Apparatus and methods for training path navigation by robots
JP7152404B2 (ja) 2017-01-02 2022-10-12 ザ ボード オブ リージェンツ オブ ザ ユニバーシティー オブ テキサス システム 抗lair1抗体およびその使用
JP6332501B2 (ja) 2017-03-02 2018-05-30 株式会社リコー シート処理装置及び画像形成システム
JP2019071405A (ja) 2017-10-06 2019-05-09 キヤノン株式会社 制御装置、リソグラフィ装置、測定装置、加工装置、平坦化装置及び物品製造方法
JP2019166603A (ja) 2018-03-23 2019-10-03 ファナック株式会社 熱変位補正システム及び計算機
JP7210209B2 (ja) 2018-09-28 2023-01-23 太平洋セメント株式会社 セメント組成物

Also Published As

Publication number Publication date
JP2021068458A (ja) 2021-04-30

Similar Documents

Publication Publication Date Title
He et al. Reinforcement learning-based output feedback control of nonlinear systems with input constraints
CN108008627B (zh) 一种并行优化的强化学习自适应pid控制方法
JP4952025B2 (ja) 運転制御方法,運転制御装置及び運転制御システム
JP2016100009A (ja) 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム
JP2017528848A (ja) 機械の動作を制御するための方法およびシステム
CN116610025B (zh) 一种基于改进元启发式算法的pid控制器优化方法
JP2010524104A (ja) 技術システムをコンピュータ支援により制御および/または調整するための方法
US20230266721A1 (en) Method for configuring a control agent for a technical system, and control device
JP2019159876A (ja) 将来状態推定装置および将来状態推定方法
CN111860789A (zh) 模型训练方法、终端及存储介质
JP2021517700A (ja) 制御システム、制御方法及び記憶媒体
WO2021192279A1 (ja) 空調制御の学習装置および推論装置
JP6813231B1 (ja) 制御装置、方法、プログラム及びシステム
JP7462905B2 (ja) 制御装置、方法、プログラム及びシステム
CN112394640B (zh) 参数整定方法、装置、存储介质及参数整定单元
JP7196935B2 (ja) 演算装置、アクション決定方法、及び制御プログラム
CN112381591A (zh) 基于lstm深度学习模型的销售预测优化方法
CN117217374A (zh) 基于dbo-elm的短期风电功率预测方法
Abdul-Rashid et al. Robustness evaluation of the butterfly optimization algorithm on a control system
JP7179672B2 (ja) 計算機システム及び機械学習方法
CN111356959B (zh) 用于计算机辅助地控制技术***的方法
CN117970782B (zh) 一种基于鱼鳞进化gsom改进的模糊pid控制方法
JP7176656B1 (ja) 予測モデル再学習装置、予測モデル再学習方法及びプログラム
WO2022050426A1 (ja) 推定装置、推定方法及びプログラム
JP2023165464A (ja) 機械学習モデル更新装置、機械学習モデル更新方法及び機械学習モデル更新プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7462905

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150