JP2004178492A - 強化学習法を用いたプラントシミュレーション方法 - Google Patents
強化学習法を用いたプラントシミュレーション方法 Download PDFInfo
- Publication number
- JP2004178492A JP2004178492A JP2002346993A JP2002346993A JP2004178492A JP 2004178492 A JP2004178492 A JP 2004178492A JP 2002346993 A JP2002346993 A JP 2002346993A JP 2002346993 A JP2002346993 A JP 2002346993A JP 2004178492 A JP2004178492 A JP 2004178492A
- Authority
- JP
- Japan
- Prior art keywords
- plant
- state
- learning
- amount
- actual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000004088 simulation Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000012821 model calculation Methods 0.000 claims abstract description 12
- 230000002787 reinforcement Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 23
- 230000007774 longterm Effects 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 13
- 238000005259 measurement Methods 0.000 description 11
- 239000002699 waste material Substances 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000032683 aging Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000007789 gas Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000010791 domestic waste Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Incineration Of Waste (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
【課題】ゴミ焼却プラント等は複雑な挙動を示し、同じプラントであっても、異なる挙動を示し、プラントの経年変化によっても挙動が変化する。
【解決手段】価値関数を初期状態にし(S1)予め準備されたプラント実機運転データを用いて(S2)入力されたデータ操作量に対して予め作製されたプロセスモデルによりモデル計算を実行して状態量を得て(S3)、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算し(S4)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を学習し(S5)所与の状態においてある行動に対して将来期待できる収益を価値関数として求め、これを用いて得られる学習されたパラメータに基づいてシミュレーションを行なう。
【選択図】 図2
【解決手段】価値関数を初期状態にし(S1)予め準備されたプラント実機運転データを用いて(S2)入力されたデータ操作量に対して予め作製されたプロセスモデルによりモデル計算を実行して状態量を得て(S3)、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算し(S4)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を学習し(S5)所与の状態においてある行動に対して将来期待できる収益を価値関数として求め、これを用いて得られる学習されたパラメータに基づいてシミュレーションを行なう。
【選択図】 図2
Description
【0001】
【発明が属する技術分野】
本発明は、プラントのシミュレータ、動作方法、及びそのプログラムに関する。特に、ごみ焼却プラント等といったオペレータの運転に熟練を要するプラントや、長期間の操業により状態が変化するプラントの動作をシミュレート(模擬)するシミュレーション方法に関する。
【0002】
【従来の技術】
ごみ焼却炉においては、燃焼されるごみ(廃棄物)がその性状に応じて、様々な割合で構成されている。このようなゴミの成分のばらつきは、特に家庭ごみなどの一般廃棄物である場合に顕著である。このため、ごみ焼却炉自体の挙動が複雑な動きを示す。また、そのゴミ成分のばらつきの影響や運転員の操作についての癖の影響を受けるために、ごみ焼却炉は、プラントが変わっても、あるいは、同じプラント内の焼却炉毎に、挙動に癖があることが多い。従って、このようなごみ焼却炉の運転を確実に行なうためには相当な熟練を要する。ごみ焼却炉以外の従来の他のプラントであっても運転操作に熟練を要するものがある。
【0003】
つまり、このようなプラントにおいては、多くの制御操作量を操作することによって、多数の制御された状態量の関係を読み取って運転しなければならないため、オペレータは高度の熟練を要する。
【0004】
このようなプラントの運転訓練を行なうために訓練シミュレータを用いることが考えられるが、実用性のある訓練用のシミュレータを構築するためには、プラントの複雑な挙動をシミュレートするための基礎となるプラントモデルが必要である。例えば、特許文献1には、伝達関数とPID制御を用いたプラントシミュレーションモデルの生成方法が記載されている。また、例えば、特許文献2には、誤差を用いて実際のプラントの動作とプラントシミュレータとをあわせこむ方法が記載されている。
【0005】
また、このようなプラントにおいては、プロセスの状態量(温度や圧力等)が測定しにくいものや、実際に起きている複雑なプロセスが把握しきれないものもあり、上記の運転の熟練のみならず、そのプラントに必要なメンテナンスの種類や時期、あるいは、耐用期限までの期間がどの程度残されているかといった点が把握しにくいものがある。これらの不確定要素があるために、安全のために大幅に余裕を見込んで運転期間を設定したり、メンテナンス等を行なう必要があった。
【0006】
また、学習アルゴリズムの分野において、強化学習法という手法が知られている。強化学習法は、教師無し学習(unsupervised learning)の手法の一つであり、ある環境(environment)において、学習主体となる自律的なエージェントがその環境から得られる報酬(reward)や罰(penalty)を手掛りに、方策または政策(policy)を決定して、方策の与える期待収益(報酬の期待値)である価値(value)を極大化するような学習法であり、環境が複雑かつ不確定であってもエージェントの学習が可能であるという特徴を有する(例えば、非特許文献1)。この強化学習法を用いる例として、特許文献3に浚渫船の経路の最適化を行なう方法が開示されているが、プラント等のプロセスモデルに用いる例は開示されていない。
【0007】
【特許文献1】
特開平7−64610号公報
【特許文献2】
特開平10−207507号公報
【特許文献3】
特開平10−253602号公報
【非特許文献1】
電気学会 GA・ニューロを用いた学習法とその応用調査専門委員会編、「学習とそのアルゴリズム」、森北出版、2002年8月28日、p.155−164
【0008】
【発明が解決しようとする課題】
実際のゴミ焼却プラントでは、ゴミの性状により複雑な挙動を示すことに加えて、プラントが異なると、同じように建設されたプラント同士であっても、また、同じプラント内の焼却炉であっても異なる挙動(即ち、プラントの癖、焼却炉の癖に運転員の操作の癖が相乗した挙動)を示し、プラントの経年変化によっても挙動が変化する。このように挙動が複雑である場合には、単純なモデルによってその複雑さが十分に表現されることはない。また、シミュレーション実施時点でのプラント、焼却炉の実機の経年変化等を受けた状態での挙動の模擬も行われていない。そのような実機の状態のプロセスモデルへの反映ため、プラントの不確定要素を減らすためにプラントの動作解析を逐次行う必要がある。
【0009】
【課題を解決するための手段】
かかる課題を解決するため、本発明は、プラントの動作をシミュレートする装置等において、強化学習アルゴリズムを用いる。本発明では、プラントの操作量と状態量に対応した空間を強化学習の環境とする。
【0010】
つまり、本発明は、(a)価値関数を初期状態にするステップと、(b)次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、(c)前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、(d)ステップ(b)とステップ(c)を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、(e)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、(f)得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップとを含んでなるプラント動作のシミュレーション方法を提供する。
【0011】
ここで、価値関数とは、学習の指標に用いる関数であり、強化学習法において用いられる評価関数の一種である。プラント実機運転データとは、実際のプラントが稼動している状態における操作量と状態量を含むデータである。操作量とは、プラントを運転する際に調整されたり変更される各種の操作対象となる量をいう。例えば、ごみ焼却炉では、詳細は後述するが、ゴミの投入量などである。モデル計算とは、操作量に応じて計算によって状態量を求める計算であり、物理的な理論計算モデル式、数値のフィッティングによる経験式、作業仮説に基づく理論式等に基づくものである。何らかのパラメータによってその値を調整することができる。状態量とは、プラントを運転している際の監視項目となる数値をいう。例えば、炉のある位置での温度などである。コンピュータ内部で学習をする主体を具体的に考慮する場合には、「エージェント」という主体を考える。これは、強化学習法の分野で一般に用いられる意味での学習主体としてのエージェントをコンピュータ内に実現したものであるが、後にシミュレーションを行なう主体としても動作するものである。これは、演算手段や記憶手段からなるハードウエア単体としての機能ではなく、コンピュータの主記憶装置に少なくとも一部が保持されている仮想空間に実現される機能であり、ソフトウエアとハードウエアの協働するものとして動作するものである。報酬とは、学習の指標に用いる価値関数を状態の更新に伴って書き換える際に加算され、その状態に対して割り付けられ、学習するエージェントに与えるインセンティブを表わす量である。パラメータ空間とは、パラメータの値のとりうる数学的な空間である。このパラメータは、計測データを近似する式のパラメータである。本願の発明は、一般に、計測データに対応するこのパラメータ空間を強化学習法における「環境」としてエージェント機能に学習をさせる。ここで、コンピュータは、少なくとも演算手段と、記憶手段と、入力手段と、出力手段とを有している。即ち本発明は、演算手段と記憶手段と入力手段と出力手段を備えるコンピュータにおいて、上記(a)〜(f)のステップを実行する。
【0012】
このシミュレーション方法によれば、コンピュータ(エージェント)にこのプラントの操作量と状態量に見られる振舞いをさせることができ、コンピュータを用いて実際のプラントをシミュレートすることが可能となる。
【0013】
また、本発明では、(g)仮想操作量を受付けるステップと、(h)前記学習されたパラメータに基づき、該仮想操作量に応じて前記モデル計算を行なうステップと、(i)モデル計算で得られた状態量を出力するステップとをさらに含むプラント動作のシミュレーション方法とすることができる。
【0014】
仮想操作量とは、シミュレーションにおいて、例えばユーザーが実際のプラントへの入力であるかのように入力値として用いる値や、他のコンピュータが本方法を実行するコンピュータをプラントと見立てて操作量として送信してくる値である。ユーザーによる入力であれば、キーボード、マウスなどの入力装置から入力する。モデル計算は、その時点での学習の結果を反映させており、強化学習によってプラントの実機をシミュレートするようなモデル計算である。その結果得られた状態量は、プラント実機を実際に運転する代わりに本シミュレーション方法を用いて出力される。この出力は、ユーザーに対して表示装置に出力されるものや、他のコンピュータに出力される。これにより、本発明のシミュレータを、オペレータによるプラントの運転の訓練に用いることが可能となる。
【0015】
本発明では、前記予め準備されたプラント実機運転データが経時的データであり、(j)異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力するステップをさらに含むプラント動作のシミュレーション方法とすることができる。
【0016】
経時的データとは、複数の時刻における操作量と状態量のデータである。学習後の方策は、その時点での最適なパラメータを与えるものであるため、異なる時刻でのプラントのモデルのパラメータについての最適値が得られている。これらを比較することにより、プラントモデルのパラメータについての時間的な比較をすれば、プラントの時間的な状態量の変化をシミュレートすることができる。しかも、このパラメータについての最適値の異なる時刻でのデータは、プラントの現実の現象を反映するものとなる。これによりモデルのパラメータを用いてプラントの状態の解析を行なうことができる。
【0017】
本発明においては、前記価値関数は、所与の状態においてある行動に対して将来期待できる収益を価値として、その状態sにおいて行動aを採用する価値を状態sと行動aの関数である行動価値関数であり、これにより、前記強化学習をQ−Learning法によって行なうものとすることができる。強化学習法における評価関数となる価値関数を、状態sと行動aに基づく行動価値関数Q(s,a)とすれば、Q−Learning法を行なうことができる。
【0018】
また、本願において仮想操作量入力手段とは、例えば適当なコンピュータ端末に備えられた入力手段であり、訓練を受けるオペレータなどからの入力を受け付ける入力手段である。また、シミュレーテッド状態量出力手段とは、適当なデータ出力手段や表示手段であり、例えば上記仮想操作量入力手段を用いている訓練を受けているオペレータにプラントの運転状態であるかのように表示する表示手段である。
【0019】
【発明の実施の形態】
以下図面を参照して本発明の実施の形態について説明する。
【0020】
[実施の形態1]
本実施の形態では、プラントの動作をシミュレートするシミュレータについて説明する。
【0021】
(実際のプラントの概要)
図1に、本発明のシミュレータを使用する状況について説明する。ごみ焼却炉1は、運転に相当の訓練を要する実際のプラントの一例である。このようなプラントは、オペレータ(運転員)21が様々な操作を行なうことによって運転される。通常、オペレータ21が操作するのは、ごみ焼却炉1に接続されたプラント運転装置2に接続されているオペレータコンソール22である。プラント運転装置2は、ごみ焼却炉1の運転に必要な様々な状態量を、オペレータコンソール22を通じてオペレータに提示し、オペレータはごみ焼却炉1の状態を把握してごみ焼却炉1の状態に応じて何らかの操作量の設定を変更して適切にごみ焼却炉1を運転する。
【0022】
監視センタ4は、専用回線等のネットワーク3でプラント運転装置2に接続されてごみ焼却炉1の状態をモニターしており、プラントの運転管理を支援するサービスを行なうために設置されている。このため、監視センタ4は、ごみ焼却炉1の様々な操作量、状態量を収集できる。監視センタ4は、ごみ焼却炉1の運転管理を支援するために、リスク予測5、運転診断6、異常故障診断7、余寿命予測8、運転訓練9といった機能を備えている。
【0023】
(シミュレータの概要)
図2に、運転訓練9を行なう運転訓練装置の場合に即してシミュレータの構成を説明する。オペレータコンソール22は、プロセスシミュレータ92となるコンピュータにネットワーク3を通じて接続されている。プロセスシミュレータ92は、例えば監視センタ4に配置されるが、ネットワーク3により接続可能であれば、その場所は問わない。プロセスシミュレータ92にはプラント実機運転データファイル94が備えられている。このプラント実機運転データファイル94はプロセスシミュレータ92からアクセス可能ないずれの場所にあっても構わない。このプラント実機運転データファイル94にはごみ焼却炉1の操作量と状態量の測定データがネットワーク3を通じて時系列に従って蓄えられている。
【0024】
(実測データの内容)
操作量と状態量の実測データは、実際のごみ焼却炉では、様々な数値である。操作量の例としては、ゴミの投入量に関係するフィーダー速度、送風ファンのダンパー開度、一次空気温度、一次空気圧力、排煙ダンパー開度などであり、人為的に操作される量である。また状態量は、例えば、炉内温度、炉内圧力、排ガス温度、排ガス量、排ガス圧力、排ガス成分(酸素量や一酸化炭素量など)等であり、プラントの状態を表わす量である。その他にも、天候によって定まる周囲環境の状態を表わす量(例えば、気温、湿度)等も状態量や操作量となりうる。これらは直接プラントの状態を表わしているものではなく、また積極的に操作するものではないので、ここではあえて考慮しないが、これらをシミュレーションに加えることも可能である。実際のゴミ焼却炉では、これらの数値データが時々刻々変化しながら運転が行なわれ、その実測データをプラント実機運転データファイル94に蓄える。
【0025】
ここで、実際のごみ焼却炉では、これらの操作量と状態量の関係は、関数的な関係はあるものの、状態量がその時点での操作量にのみ依存するものではない。例えば、ある時刻の状態量は、その後の状態量に対しての初期値として作用してその後の時刻の状態量に影響する。また、ある時刻の操作量は、例えば一次遅れ要素に対する入力量のように、一定の遅れを伴ってその後の状態量に影響する。さらに、操作量と状態量の間には、必ずしも決定論的な関係があるものでもない。なぜなら、操作量として操作されるものが、必ずしもその操作量に完全に対応するものではなく、一定の幅をもって操作されるものであるためである(例えば、ゴミ投入量に関係するフィーダー速度を一定としても、それによる実際のゴミの投入量は常に一定量とはならない)。また、状態量には、気候条件(空気中の温度、湿度)や、ゴミの性状(ゴミの種類や成分、含まれる水分量等)も影響するためでもある。さらには、工学的には確率的な現象として扱わざるを得ない現象(例えば、燃焼のプロセス)も影響することも理由の一つである。
【0026】
(エージェントの動作)
図2エージェント96は、強化学習機能962を有し、強化学習法に従って環境に応じてエージェント96自身の状態を変化させてゆく。エージェント96の実体は、コンピュータ上に存在する仮想のものであり、エージェント96自身の状態は何らかのパラメータによって変更される。このエージェント96は、この強化学習をプラント実機運転データに基づいて行なう。本実施の形態では、エージェント96の状態をプラントの動作を数値の入出力関係によって表現しうるような数式を含むモデルによって定める。本発明全体には、これ以外にも、数式を含むモデルのほか、数式を含まない数値のみのモデル(例えば操作量データのベクトルと状態量データのベクトルとの対応関係を示す単なる行列)等も含む。本実施の形態ではこの数式モデルを、プロセスモデル964と呼ぶ。プロセスモデル964が何らかの調整可能なパラメータを含んでいることにより、プロセスモデル964を実際のプラントに合わせて調整することができる。プロセスモデル964の変更は、プラントモデルデータファイル98にあるプラントモデルを特徴付ける数値(パラメータ)を変更することによって行なうことができる。この調整動作は、エージェント96自体の状態を変更することにあたり、プロセスモデル964を調整するパラメータ空間が本実施の形態においてエージェント96が強化学習法に従って学習を行なう環境となる。
【0027】
(シミュレータの構築方法)
図3に強化学習法を用いて行なう本実施の形態のシミュレータの構築方法について説明する。シミュレータの構築は、エージェント96に強化学習をさせることによってコンピュータを用いて行なう。
【0028】
まず、学習の最初には、プロセスモデルの作成と、初期化とを実行する(ステップS1)。プロセスモデルは、様々な物理現象を考慮して、その特徴を端的に表わすモデル式によって行なうことができる。図3には一次遅れ要素の伝達関数が記載されているが、他にも、自己回帰モデルによる近似式、燃焼の乱流の効果を確率密度関数で表現したモデルなど、何らかの理論的考察や、作業仮説に基づいて作成したモデルを任意に用いることができ、複数の物理現象の結合として表現したモデルであっても良い。また、モデルが単純で実際にプラントで起きている複雑さを再現できないときには、適当な確率項を加えることによって実際のプラントに見られる不可避な変動を再現することも可能であるが、このような確率項は、学習段階においては特に考慮する必要はない。操作量と状態量の関係が表現可能なモデルを本実施の形態では用いるが、本発明全体としては、モデル化できないものであっても、数値表現可能な入出力関係として記述できる関係さえあればよい。
【0029】
初期化とは、エージェント96を初期状態にすることと、後に使用する行動価値関数Qを初期状態にすることである。エージェント96の状態は、エージェント96の動作を決めるパラメータによって定まる。例えば、ゴミの処理量を操作量とし、炉内温度を状態量とするような図3の一次遅れ要素をモデルとして用いるのであれば、時定数TとゲインGの値の組でエージェント96の状態は定まる。この段階で、使用するモデルについて考慮するパラメータの範囲やその値の刻み幅もこの段階で定めておく。
【0030】
次いで、エージェント96に学習をさせるためのデータをプラント実機運転データファイル96から適宜サンプリングする(ステップS2)。サンプリングするのは、強化学習させる環境として十分な精度のデータがあれば十分だからである。
【0031】
次に、その時点のプロセスモデルによってモデル計算を実行する(ステップS3)。通常、サンプリングしたプラントの操作量に応じて実測の状態量が得られていることから、実測と同じ操作量に対して、その時点でのプロセスモデルに基づいて、計算によって状態量を算出する。
【0032】
次に、報酬を計算する(ステップS4)。このためには、実際のプラントで得られた操作量と状態量の組に対し、その操作量と上記計算による状態量を考え、その操作量と計算の状態量との組を考える。実際のプラントの状態量とエージェント96の出力する状態量とには、同じ操作量に対するものであっても、一般に差が生じる。この差は、モデルが不完全であること(単純すぎること、あるいはパラメータ設定が最適化されていないこと)のほかにも、実際のプラントでの操作量の精度限界や、プラントの動作の確率的な要素や揺らぎ的な要素、あるいは、状態量の測定の誤差等を含んだものである。報酬は、例えば実測と計算の状態量の間にあるの差(残差)に応じて定めることができる。例えば、サンプリングされた実測データの全てに対して上記残差の絶対値を取り、
式1
r=C―|計算の状態量―実際の状態量|
(C:正の定数)
によって各サンプリングデータごとにそれぞれ報酬要素rを定めることができる。その後の学習に必要な報酬のデータは、パラメータ空間におけるパラメータのある範囲(本例では、時定数TとゲインGの値のとりうる範囲)についての報酬であるので、この範囲に含まれるパラメータの値の組についての報酬を求める必要がある。各パラメータの値においては、例えば、上記報酬要素rを、そのパラメータの値の組に含まれるものについて和を取り、データ数が多いパラメータの報酬が見かけ上大きい数値となることを防ぐために、データ数で除して正規化する。この例以外でも報酬を適宜定めることは可能であり、エージェント96に対して計算と実際との差を表わすような適当な数値とすることができる。
【0033】
そして、パラメータ空間の各パラメータに対して計算された報酬に基づいて、強化学習法の一種であるQ−Learningを行なう(ステップS5)。ここで、Q−Learningを採用する理由は、エージェントの状態に加えて、エージェントがとる行動についても学習の対象となるためである。行動も学習の対象となることにより、例えば、最適化計算に対して相対的に早く変化するプラントの実データに対しても追随が良好となり、時間的な遅れが少なくシミュレータを構築することができる。このため、本実施の形態では、Q−Learningを用いているが、本発明では、TD学習法など、他の強化学習法を用いても良い。例えば、TD学習法を用いれば、その時刻でのエージェントの状態に基づいて次の時刻の状態を定めるために、行動が評価されず、プラントの実データが早い場合には時間差によって誤差を生じる場合があるが、行動の数が多い場合(例えば、高次の多項式でモデル式を作る場合などパラメータ数が多い場合)については、計算量が削減できて学習の繰り返しを増やすことができるために、誤差が小さくなる場合もある。また、強化学習の他の例であるActor−Critic法によれば、TD学習法と同様に、計算量の削減が可能となるほか、確率的な行動選択が可能となる利点がある。
【0034】
Q−Learningにおいては、ある状態sと、そのsにごとに定まる行動aに対して行動価値関数Q(s,a)を考える。この行動価値関数Q(s,a)とは、状態sと行動aを用いて評価値を得るQ−Learning法における評価値(価値)である。本例についていえば、状態sとは、時定数TとゲインKの2次元空間においてエージェント96がその時点で取っている状態である。Q(s,a)は初期値は例えば0とするが、一般には任意の値とすることができる(ステップS0)。
【0035】
(Q−Learningについて)
Q−Learningを開始すると(ステップS50)、まず、その時点での方策πに基づき、状態sにおいて確率的に行動aを決定する(ステップS52)。これにより次の状態s´が定まる。ここで、方策πは状態sと行動aの関数であり、この方策πが複数の行動を許す場合には、適当な乱数を用いて確率的にそれらの複数の行動から一つを選ぶ。状態sからの行動aの行動評価関数Q(s,a)は、その後の状態s´において取りうる行動a´のうちの最大のQの値によって再計算される。
【0036】
次に、Qを式2にしたがって更新する(ステップS54)。このとき、状態sにおける報酬rと、割引率γ(予めステップS0で定める0以上1未満の値)、学習率a(予めステップS0で定める0より大きく1以下の値)を用いる。
式2
Q(s,a)←(1−α)Q(s,a)+α[r+γmaxQ(s´,a´)]
【0037】
行動aの例は、時定数T、ゲインGにおいて、現在の状態の点から上下左右斜めの8方向に移動可能とすると、その8方向のいずれかの新たな状態に移るという行動である。また最大値(max)は、状態s´についてとりうる行動a´のうちの最大値である。
【0038】
上記行動aに従って遷移した結果新たに状態がs´になると(ステップS56)、状態sの行動aに付いて行動評価関数Qが式2に従って強化されるので、これを繰り返すことにより(ここでの繰り返しについては、図示していない)、与えられた実測データのもとで最適な状態が求まる。割引率γは0以上1未満に選べば、繰り返してもQの値が発散することはない。これにより、繰り返しを用いて、最適なパラメータが求まることとなる。
【0039】
ここで、最適化が実際に行なわれて強化学習が完了しているかどうかは、状態が遷移しなくなったことで判定する。行動aには、「状態を遷移させない」という行動も含まれるため、状態を遷移させない行動が最適であれば、その時点での最適な行動となる。このような状態sのパラメータの組(本例では時定数T,ゲインK)は、適宜プラントモデルデータファイル98(図2)に格納される。エージェントは、常に、このプラントモデルデータファイル98からパラメータを呼び出すことにより、そのパラメータが作製された時点でのプラントの動作を再現し得る。これにより、最適な状態(パラメータの値の組)がもとまり(S56)、Q−Learningのステップが終了する(S58)。
【0040】
以上のようにしてモデルに用いる最適なパラメータが求まるが、この最適化を行なった後に、プラント実機運転データが更新されると、新たにサンプリングを行い、再び上記プロセスを実行する。
【0041】
本実施の形態では、新たにプラント実機運転データが更新される場合についても、その更新されたデータを用いてモデルのパラメータを随時学習させることができる。これは、強化学習法自体が、経験的に学習を行なっていく学習法であり、逐次的にデータが更新等されても対応し得るからである。本実施の形態では例示のため2つのパラメータのみによる最適化を示したが、上記のごみ焼却炉の実測データの例に示したように、実際のプラントでは非常に多くの操作量および状態量がある。より複雑でパラメータの多い式で最適化計算する必要がある実際のプラントをシミュレートしようとすると、本発明の上記利点は極めて有効である。
【0042】
また、このような利点をもたらす強化学習法のうち、Q−Learningを採用すると、パラメータ空間における行動自体が評価対象となるために、強化学習の繰り返しステップにおいて、実機データに対し、プロセスモデルの挙動が実機に近い挙動を示すように調整され、より実際に近いシミュレータの構築が可能となる。
【0043】
[実施例1]
本実施例では、本発明のシミュレータによって実際のプラントをシミュレートすることにより、プラントの運転訓練装置を構成する形態について説明する。訓練を受けるオペレータは、図2のオペレータコンソール22(仮想操作量入力手段、シミュレーテッド状態量出力手段)から、プロセスシミュレータ92中のエージェント96に対して、ごみ焼却炉1を操作するのと同様の信号を送信する。エージェント96は、プラントモデルデータファイル98から呼び出したパラメータに応じて動作が設定されており、オペレータコンソール22からの信号に対して、ごみ焼却炉1の振舞いをシミュレートする信号を出力する。
【0044】
オペレータコンソール22には、あたかも実際のごみ焼却炉1の運転結果であるかのように、プロセスシミュレータ92のエージェント96からの出力が表示される。これにより、実際のごみ焼却炉1を運転することなく、オペレータを訓練することが可能となる。
【0045】
ここで、実際のプラントの状態が揺らぎを有している場合について説明する。揺らぎは、確率的な振舞いは、操作量の実際の値が実際に把握しきれないもの、現象そのものが変動してしまうものがあるが、その揺らぎの分布と時間的な性質(時間的な変動の性質)によって特徴付けられるものがほとんどである。例えば、1/f揺らぎ等のスペクトル特性を示す現象に対して、長時間での累積データを確率密度関数(例えば正規分布など)で表現することが可能である。これ以外にも、ある時点で性質がステップ的に変動する事象として、その変動のステップの幅に正規分布を仮定し、変動事象の生起確率にポアソン分布を仮定することも可能である。このように適当に数学的に確率事象としてモデリングされる性質を、プラントの操作量(例えば、ゴミの性状)に与えたり、プラントのモデルパラメータに与えたり、あるいは、プラントの状態量に与えることができる。
【0046】
このように適宜実際のプラントの揺らぎまでの加えてシミュレーションすると、より実際のプラントに近く、オペレータに適切な訓練を行なうことができる。なお、訓練を目的として、この確率を実際の確率とは異なる確率に設定し、訓練の効果を高めるように用いることもできる。
【0047】
[実施例2]
本実施例では、本発明のシミュレータと組み合わせて異常診断装置を構成する形態を説明する。実際のプラントをシミュレートすることにより得られた時定数T、ゲインG等のパラメータは、エージェント96の学習後の状態を定めるのみならず、実際のプラントの状態を反映している。このデータは、プラントモデルデータファイル98に格納されているため、この値の変動をモニターすることで、プラントの運転状態についての情報が得られる。通常の運転では表面化しにくいようなプラント内部の状況を、間接的にではあるものの、監視することができる。これにより、測定可能な状態量以外を用いて、プラントの操業中であってもプラントの異常を診断することができる。
【0048】
[実施例3]
本実施例では、本発明のシミュレータと組み合わせて運転診断装置を構成する例を説明する。運転診断装置とは今後の運転を検討する装置である。つまり、ある時点で得られているプラントの実測データと、それに基づく上記実施例2の異常診断装置から得られるプラント内部の状態とに合わせて、それ以降のプラントの運転について、運転計画を立てることに役立つ。
【0049】
プラントの時定数TやゲインGの変化と、操作量や状態量との関係を明らかにすることにより、プラント内部の状況と外部から操作したり測定できる状態量との関係が明らかになる。この関係から、そのプラントにとって最も適した運転方法を与えるような操作量の条件を割り出せば、運転方法の良否を状態量によってのみ管理する場合に比べてより実際を良く反映した運転方法の判定、つまり運転診断が可能となる。これを行なうには、プラントのモデルパラメータの最適値を、予め数値計算などにより求めておくステップと、本発明の装置で実際の運転状況におけるモデルパラメータの値を得るステップと、さらにモデルパラメータの最適値とモデルパラメータの値とを比較するステップを用いる。
【0050】
[実施例4]
本実施例では、ごみ焼却炉において時間的に磨耗等により炉の厚みが減少する場合に、その炉の内部と外部の温度差を状態量として計測する。さらに、その状態量時間に対して補間式で表現しておいてそのカーブ上の値の空間を可変パラメータ空間とする。本発明のシミュレータによって随時データを更新しながら実際のプラントをシミュレートすることにより、その傾きの経時変化が強化学習の結果として求まる。そのカーブ上での傾きは、実際のプラントにおける過去の運転履歴における炉の厚みの減少速度を表わしているので、同様の運転を続けた場合の炉の寿命に関しても予測することができる。つまり、プラントの炉の寿命が解析できることになる。また、シミュレータが適切に動作する範囲において、仮想操作量を様々に変更してその傾きの変化を見ることにより、炉の寿命がどのように運転状況に依存するかを解析して、寿命にあわせた運転方法の選択をすることが可能となる。
【0051】
このように、本発明の状態量と操作量の測定データを経時的なものとし、プラントの状態量に式を用いれば、プラント経年変化や残りの耐用年数についての解析が可能となる。
【0052】
【発明の効果】
プラントにおけるプロセスシミュレーションに強化学習法を用いることにより、逐次的に運転データを反映させることができる。これにより、長期的な燃料の性状変化や経年変化も考慮した実際のプラントの挙動を学習するシミュレータを作製できる。また、各プラント、各焼却炉毎にプロセスモデルを持ち、それぞれに対し強化学習法により学習を行うことにより、各プラント、各焼却炉毎の癖を考慮したその時点での挙動を忠実に模擬できる。その結果、ごみ焼却炉の複雑な挙動をシミューレトした運転の訓練を行なうことが可能となる。また、このシミューレタを用いれば、最適な運転方法の検討や、リスクを最小化した最適化された運転方法を事前に検討し、プラントの挙動をシミュレートすることができる。また、随時実測データを反映させることができてプラントの挙動を解析することができる解析ツールを得ることができる。
【図面の簡単な説明】
【図1】本発明のシミュレータを使用する状況を説明する構成図である。
【図2】本発明の実施の形態における運転訓練を行なう場合における、シミュレータの構成を表わす構成図である。
【図3】強化学習法を用いて行なう本実施の形態のシミュレータの構築方法を説明するフローチャートである。
【図4】強化学習法の一例であるQ−Learning法の学習方法を説明するフローチャートである。
【符号の説明】
1 ごみ焼却炉
21 オペレータ
22 オペレータコンソール
2 プラント運転装置
3 ネットワーク
4 監視センタ
92 プロセスシミュレータ
94 プラント実機運転データファイル
96 エージェント
98 プラントモデルデータファイル
962 強化学習機能
964 プロセスモデル
【発明が属する技術分野】
本発明は、プラントのシミュレータ、動作方法、及びそのプログラムに関する。特に、ごみ焼却プラント等といったオペレータの運転に熟練を要するプラントや、長期間の操業により状態が変化するプラントの動作をシミュレート(模擬)するシミュレーション方法に関する。
【0002】
【従来の技術】
ごみ焼却炉においては、燃焼されるごみ(廃棄物)がその性状に応じて、様々な割合で構成されている。このようなゴミの成分のばらつきは、特に家庭ごみなどの一般廃棄物である場合に顕著である。このため、ごみ焼却炉自体の挙動が複雑な動きを示す。また、そのゴミ成分のばらつきの影響や運転員の操作についての癖の影響を受けるために、ごみ焼却炉は、プラントが変わっても、あるいは、同じプラント内の焼却炉毎に、挙動に癖があることが多い。従って、このようなごみ焼却炉の運転を確実に行なうためには相当な熟練を要する。ごみ焼却炉以外の従来の他のプラントであっても運転操作に熟練を要するものがある。
【0003】
つまり、このようなプラントにおいては、多くの制御操作量を操作することによって、多数の制御された状態量の関係を読み取って運転しなければならないため、オペレータは高度の熟練を要する。
【0004】
このようなプラントの運転訓練を行なうために訓練シミュレータを用いることが考えられるが、実用性のある訓練用のシミュレータを構築するためには、プラントの複雑な挙動をシミュレートするための基礎となるプラントモデルが必要である。例えば、特許文献1には、伝達関数とPID制御を用いたプラントシミュレーションモデルの生成方法が記載されている。また、例えば、特許文献2には、誤差を用いて実際のプラントの動作とプラントシミュレータとをあわせこむ方法が記載されている。
【0005】
また、このようなプラントにおいては、プロセスの状態量(温度や圧力等)が測定しにくいものや、実際に起きている複雑なプロセスが把握しきれないものもあり、上記の運転の熟練のみならず、そのプラントに必要なメンテナンスの種類や時期、あるいは、耐用期限までの期間がどの程度残されているかといった点が把握しにくいものがある。これらの不確定要素があるために、安全のために大幅に余裕を見込んで運転期間を設定したり、メンテナンス等を行なう必要があった。
【0006】
また、学習アルゴリズムの分野において、強化学習法という手法が知られている。強化学習法は、教師無し学習(unsupervised learning)の手法の一つであり、ある環境(environment)において、学習主体となる自律的なエージェントがその環境から得られる報酬(reward)や罰(penalty)を手掛りに、方策または政策(policy)を決定して、方策の与える期待収益(報酬の期待値)である価値(value)を極大化するような学習法であり、環境が複雑かつ不確定であってもエージェントの学習が可能であるという特徴を有する(例えば、非特許文献1)。この強化学習法を用いる例として、特許文献3に浚渫船の経路の最適化を行なう方法が開示されているが、プラント等のプロセスモデルに用いる例は開示されていない。
【0007】
【特許文献1】
特開平7−64610号公報
【特許文献2】
特開平10−207507号公報
【特許文献3】
特開平10−253602号公報
【非特許文献1】
電気学会 GA・ニューロを用いた学習法とその応用調査専門委員会編、「学習とそのアルゴリズム」、森北出版、2002年8月28日、p.155−164
【0008】
【発明が解決しようとする課題】
実際のゴミ焼却プラントでは、ゴミの性状により複雑な挙動を示すことに加えて、プラントが異なると、同じように建設されたプラント同士であっても、また、同じプラント内の焼却炉であっても異なる挙動(即ち、プラントの癖、焼却炉の癖に運転員の操作の癖が相乗した挙動)を示し、プラントの経年変化によっても挙動が変化する。このように挙動が複雑である場合には、単純なモデルによってその複雑さが十分に表現されることはない。また、シミュレーション実施時点でのプラント、焼却炉の実機の経年変化等を受けた状態での挙動の模擬も行われていない。そのような実機の状態のプロセスモデルへの反映ため、プラントの不確定要素を減らすためにプラントの動作解析を逐次行う必要がある。
【0009】
【課題を解決するための手段】
かかる課題を解決するため、本発明は、プラントの動作をシミュレートする装置等において、強化学習アルゴリズムを用いる。本発明では、プラントの操作量と状態量に対応した空間を強化学習の環境とする。
【0010】
つまり、本発明は、(a)価値関数を初期状態にするステップと、(b)次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、(c)前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、(d)ステップ(b)とステップ(c)を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、(e)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、(f)得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップとを含んでなるプラント動作のシミュレーション方法を提供する。
【0011】
ここで、価値関数とは、学習の指標に用いる関数であり、強化学習法において用いられる評価関数の一種である。プラント実機運転データとは、実際のプラントが稼動している状態における操作量と状態量を含むデータである。操作量とは、プラントを運転する際に調整されたり変更される各種の操作対象となる量をいう。例えば、ごみ焼却炉では、詳細は後述するが、ゴミの投入量などである。モデル計算とは、操作量に応じて計算によって状態量を求める計算であり、物理的な理論計算モデル式、数値のフィッティングによる経験式、作業仮説に基づく理論式等に基づくものである。何らかのパラメータによってその値を調整することができる。状態量とは、プラントを運転している際の監視項目となる数値をいう。例えば、炉のある位置での温度などである。コンピュータ内部で学習をする主体を具体的に考慮する場合には、「エージェント」という主体を考える。これは、強化学習法の分野で一般に用いられる意味での学習主体としてのエージェントをコンピュータ内に実現したものであるが、後にシミュレーションを行なう主体としても動作するものである。これは、演算手段や記憶手段からなるハードウエア単体としての機能ではなく、コンピュータの主記憶装置に少なくとも一部が保持されている仮想空間に実現される機能であり、ソフトウエアとハードウエアの協働するものとして動作するものである。報酬とは、学習の指標に用いる価値関数を状態の更新に伴って書き換える際に加算され、その状態に対して割り付けられ、学習するエージェントに与えるインセンティブを表わす量である。パラメータ空間とは、パラメータの値のとりうる数学的な空間である。このパラメータは、計測データを近似する式のパラメータである。本願の発明は、一般に、計測データに対応するこのパラメータ空間を強化学習法における「環境」としてエージェント機能に学習をさせる。ここで、コンピュータは、少なくとも演算手段と、記憶手段と、入力手段と、出力手段とを有している。即ち本発明は、演算手段と記憶手段と入力手段と出力手段を備えるコンピュータにおいて、上記(a)〜(f)のステップを実行する。
【0012】
このシミュレーション方法によれば、コンピュータ(エージェント)にこのプラントの操作量と状態量に見られる振舞いをさせることができ、コンピュータを用いて実際のプラントをシミュレートすることが可能となる。
【0013】
また、本発明では、(g)仮想操作量を受付けるステップと、(h)前記学習されたパラメータに基づき、該仮想操作量に応じて前記モデル計算を行なうステップと、(i)モデル計算で得られた状態量を出力するステップとをさらに含むプラント動作のシミュレーション方法とすることができる。
【0014】
仮想操作量とは、シミュレーションにおいて、例えばユーザーが実際のプラントへの入力であるかのように入力値として用いる値や、他のコンピュータが本方法を実行するコンピュータをプラントと見立てて操作量として送信してくる値である。ユーザーによる入力であれば、キーボード、マウスなどの入力装置から入力する。モデル計算は、その時点での学習の結果を反映させており、強化学習によってプラントの実機をシミュレートするようなモデル計算である。その結果得られた状態量は、プラント実機を実際に運転する代わりに本シミュレーション方法を用いて出力される。この出力は、ユーザーに対して表示装置に出力されるものや、他のコンピュータに出力される。これにより、本発明のシミュレータを、オペレータによるプラントの運転の訓練に用いることが可能となる。
【0015】
本発明では、前記予め準備されたプラント実機運転データが経時的データであり、(j)異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力するステップをさらに含むプラント動作のシミュレーション方法とすることができる。
【0016】
経時的データとは、複数の時刻における操作量と状態量のデータである。学習後の方策は、その時点での最適なパラメータを与えるものであるため、異なる時刻でのプラントのモデルのパラメータについての最適値が得られている。これらを比較することにより、プラントモデルのパラメータについての時間的な比較をすれば、プラントの時間的な状態量の変化をシミュレートすることができる。しかも、このパラメータについての最適値の異なる時刻でのデータは、プラントの現実の現象を反映するものとなる。これによりモデルのパラメータを用いてプラントの状態の解析を行なうことができる。
【0017】
本発明においては、前記価値関数は、所与の状態においてある行動に対して将来期待できる収益を価値として、その状態sにおいて行動aを採用する価値を状態sと行動aの関数である行動価値関数であり、これにより、前記強化学習をQ−Learning法によって行なうものとすることができる。強化学習法における評価関数となる価値関数を、状態sと行動aに基づく行動価値関数Q(s,a)とすれば、Q−Learning法を行なうことができる。
【0018】
また、本願において仮想操作量入力手段とは、例えば適当なコンピュータ端末に備えられた入力手段であり、訓練を受けるオペレータなどからの入力を受け付ける入力手段である。また、シミュレーテッド状態量出力手段とは、適当なデータ出力手段や表示手段であり、例えば上記仮想操作量入力手段を用いている訓練を受けているオペレータにプラントの運転状態であるかのように表示する表示手段である。
【0019】
【発明の実施の形態】
以下図面を参照して本発明の実施の形態について説明する。
【0020】
[実施の形態1]
本実施の形態では、プラントの動作をシミュレートするシミュレータについて説明する。
【0021】
(実際のプラントの概要)
図1に、本発明のシミュレータを使用する状況について説明する。ごみ焼却炉1は、運転に相当の訓練を要する実際のプラントの一例である。このようなプラントは、オペレータ(運転員)21が様々な操作を行なうことによって運転される。通常、オペレータ21が操作するのは、ごみ焼却炉1に接続されたプラント運転装置2に接続されているオペレータコンソール22である。プラント運転装置2は、ごみ焼却炉1の運転に必要な様々な状態量を、オペレータコンソール22を通じてオペレータに提示し、オペレータはごみ焼却炉1の状態を把握してごみ焼却炉1の状態に応じて何らかの操作量の設定を変更して適切にごみ焼却炉1を運転する。
【0022】
監視センタ4は、専用回線等のネットワーク3でプラント運転装置2に接続されてごみ焼却炉1の状態をモニターしており、プラントの運転管理を支援するサービスを行なうために設置されている。このため、監視センタ4は、ごみ焼却炉1の様々な操作量、状態量を収集できる。監視センタ4は、ごみ焼却炉1の運転管理を支援するために、リスク予測5、運転診断6、異常故障診断7、余寿命予測8、運転訓練9といった機能を備えている。
【0023】
(シミュレータの概要)
図2に、運転訓練9を行なう運転訓練装置の場合に即してシミュレータの構成を説明する。オペレータコンソール22は、プロセスシミュレータ92となるコンピュータにネットワーク3を通じて接続されている。プロセスシミュレータ92は、例えば監視センタ4に配置されるが、ネットワーク3により接続可能であれば、その場所は問わない。プロセスシミュレータ92にはプラント実機運転データファイル94が備えられている。このプラント実機運転データファイル94はプロセスシミュレータ92からアクセス可能ないずれの場所にあっても構わない。このプラント実機運転データファイル94にはごみ焼却炉1の操作量と状態量の測定データがネットワーク3を通じて時系列に従って蓄えられている。
【0024】
(実測データの内容)
操作量と状態量の実測データは、実際のごみ焼却炉では、様々な数値である。操作量の例としては、ゴミの投入量に関係するフィーダー速度、送風ファンのダンパー開度、一次空気温度、一次空気圧力、排煙ダンパー開度などであり、人為的に操作される量である。また状態量は、例えば、炉内温度、炉内圧力、排ガス温度、排ガス量、排ガス圧力、排ガス成分(酸素量や一酸化炭素量など)等であり、プラントの状態を表わす量である。その他にも、天候によって定まる周囲環境の状態を表わす量(例えば、気温、湿度)等も状態量や操作量となりうる。これらは直接プラントの状態を表わしているものではなく、また積極的に操作するものではないので、ここではあえて考慮しないが、これらをシミュレーションに加えることも可能である。実際のゴミ焼却炉では、これらの数値データが時々刻々変化しながら運転が行なわれ、その実測データをプラント実機運転データファイル94に蓄える。
【0025】
ここで、実際のごみ焼却炉では、これらの操作量と状態量の関係は、関数的な関係はあるものの、状態量がその時点での操作量にのみ依存するものではない。例えば、ある時刻の状態量は、その後の状態量に対しての初期値として作用してその後の時刻の状態量に影響する。また、ある時刻の操作量は、例えば一次遅れ要素に対する入力量のように、一定の遅れを伴ってその後の状態量に影響する。さらに、操作量と状態量の間には、必ずしも決定論的な関係があるものでもない。なぜなら、操作量として操作されるものが、必ずしもその操作量に完全に対応するものではなく、一定の幅をもって操作されるものであるためである(例えば、ゴミ投入量に関係するフィーダー速度を一定としても、それによる実際のゴミの投入量は常に一定量とはならない)。また、状態量には、気候条件(空気中の温度、湿度)や、ゴミの性状(ゴミの種類や成分、含まれる水分量等)も影響するためでもある。さらには、工学的には確率的な現象として扱わざるを得ない現象(例えば、燃焼のプロセス)も影響することも理由の一つである。
【0026】
(エージェントの動作)
図2エージェント96は、強化学習機能962を有し、強化学習法に従って環境に応じてエージェント96自身の状態を変化させてゆく。エージェント96の実体は、コンピュータ上に存在する仮想のものであり、エージェント96自身の状態は何らかのパラメータによって変更される。このエージェント96は、この強化学習をプラント実機運転データに基づいて行なう。本実施の形態では、エージェント96の状態をプラントの動作を数値の入出力関係によって表現しうるような数式を含むモデルによって定める。本発明全体には、これ以外にも、数式を含むモデルのほか、数式を含まない数値のみのモデル(例えば操作量データのベクトルと状態量データのベクトルとの対応関係を示す単なる行列)等も含む。本実施の形態ではこの数式モデルを、プロセスモデル964と呼ぶ。プロセスモデル964が何らかの調整可能なパラメータを含んでいることにより、プロセスモデル964を実際のプラントに合わせて調整することができる。プロセスモデル964の変更は、プラントモデルデータファイル98にあるプラントモデルを特徴付ける数値(パラメータ)を変更することによって行なうことができる。この調整動作は、エージェント96自体の状態を変更することにあたり、プロセスモデル964を調整するパラメータ空間が本実施の形態においてエージェント96が強化学習法に従って学習を行なう環境となる。
【0027】
(シミュレータの構築方法)
図3に強化学習法を用いて行なう本実施の形態のシミュレータの構築方法について説明する。シミュレータの構築は、エージェント96に強化学習をさせることによってコンピュータを用いて行なう。
【0028】
まず、学習の最初には、プロセスモデルの作成と、初期化とを実行する(ステップS1)。プロセスモデルは、様々な物理現象を考慮して、その特徴を端的に表わすモデル式によって行なうことができる。図3には一次遅れ要素の伝達関数が記載されているが、他にも、自己回帰モデルによる近似式、燃焼の乱流の効果を確率密度関数で表現したモデルなど、何らかの理論的考察や、作業仮説に基づいて作成したモデルを任意に用いることができ、複数の物理現象の結合として表現したモデルであっても良い。また、モデルが単純で実際にプラントで起きている複雑さを再現できないときには、適当な確率項を加えることによって実際のプラントに見られる不可避な変動を再現することも可能であるが、このような確率項は、学習段階においては特に考慮する必要はない。操作量と状態量の関係が表現可能なモデルを本実施の形態では用いるが、本発明全体としては、モデル化できないものであっても、数値表現可能な入出力関係として記述できる関係さえあればよい。
【0029】
初期化とは、エージェント96を初期状態にすることと、後に使用する行動価値関数Qを初期状態にすることである。エージェント96の状態は、エージェント96の動作を決めるパラメータによって定まる。例えば、ゴミの処理量を操作量とし、炉内温度を状態量とするような図3の一次遅れ要素をモデルとして用いるのであれば、時定数TとゲインGの値の組でエージェント96の状態は定まる。この段階で、使用するモデルについて考慮するパラメータの範囲やその値の刻み幅もこの段階で定めておく。
【0030】
次いで、エージェント96に学習をさせるためのデータをプラント実機運転データファイル96から適宜サンプリングする(ステップS2)。サンプリングするのは、強化学習させる環境として十分な精度のデータがあれば十分だからである。
【0031】
次に、その時点のプロセスモデルによってモデル計算を実行する(ステップS3)。通常、サンプリングしたプラントの操作量に応じて実測の状態量が得られていることから、実測と同じ操作量に対して、その時点でのプロセスモデルに基づいて、計算によって状態量を算出する。
【0032】
次に、報酬を計算する(ステップS4)。このためには、実際のプラントで得られた操作量と状態量の組に対し、その操作量と上記計算による状態量を考え、その操作量と計算の状態量との組を考える。実際のプラントの状態量とエージェント96の出力する状態量とには、同じ操作量に対するものであっても、一般に差が生じる。この差は、モデルが不完全であること(単純すぎること、あるいはパラメータ設定が最適化されていないこと)のほかにも、実際のプラントでの操作量の精度限界や、プラントの動作の確率的な要素や揺らぎ的な要素、あるいは、状態量の測定の誤差等を含んだものである。報酬は、例えば実測と計算の状態量の間にあるの差(残差)に応じて定めることができる。例えば、サンプリングされた実測データの全てに対して上記残差の絶対値を取り、
式1
r=C―|計算の状態量―実際の状態量|
(C:正の定数)
によって各サンプリングデータごとにそれぞれ報酬要素rを定めることができる。その後の学習に必要な報酬のデータは、パラメータ空間におけるパラメータのある範囲(本例では、時定数TとゲインGの値のとりうる範囲)についての報酬であるので、この範囲に含まれるパラメータの値の組についての報酬を求める必要がある。各パラメータの値においては、例えば、上記報酬要素rを、そのパラメータの値の組に含まれるものについて和を取り、データ数が多いパラメータの報酬が見かけ上大きい数値となることを防ぐために、データ数で除して正規化する。この例以外でも報酬を適宜定めることは可能であり、エージェント96に対して計算と実際との差を表わすような適当な数値とすることができる。
【0033】
そして、パラメータ空間の各パラメータに対して計算された報酬に基づいて、強化学習法の一種であるQ−Learningを行なう(ステップS5)。ここで、Q−Learningを採用する理由は、エージェントの状態に加えて、エージェントがとる行動についても学習の対象となるためである。行動も学習の対象となることにより、例えば、最適化計算に対して相対的に早く変化するプラントの実データに対しても追随が良好となり、時間的な遅れが少なくシミュレータを構築することができる。このため、本実施の形態では、Q−Learningを用いているが、本発明では、TD学習法など、他の強化学習法を用いても良い。例えば、TD学習法を用いれば、その時刻でのエージェントの状態に基づいて次の時刻の状態を定めるために、行動が評価されず、プラントの実データが早い場合には時間差によって誤差を生じる場合があるが、行動の数が多い場合(例えば、高次の多項式でモデル式を作る場合などパラメータ数が多い場合)については、計算量が削減できて学習の繰り返しを増やすことができるために、誤差が小さくなる場合もある。また、強化学習の他の例であるActor−Critic法によれば、TD学習法と同様に、計算量の削減が可能となるほか、確率的な行動選択が可能となる利点がある。
【0034】
Q−Learningにおいては、ある状態sと、そのsにごとに定まる行動aに対して行動価値関数Q(s,a)を考える。この行動価値関数Q(s,a)とは、状態sと行動aを用いて評価値を得るQ−Learning法における評価値(価値)である。本例についていえば、状態sとは、時定数TとゲインKの2次元空間においてエージェント96がその時点で取っている状態である。Q(s,a)は初期値は例えば0とするが、一般には任意の値とすることができる(ステップS0)。
【0035】
(Q−Learningについて)
Q−Learningを開始すると(ステップS50)、まず、その時点での方策πに基づき、状態sにおいて確率的に行動aを決定する(ステップS52)。これにより次の状態s´が定まる。ここで、方策πは状態sと行動aの関数であり、この方策πが複数の行動を許す場合には、適当な乱数を用いて確率的にそれらの複数の行動から一つを選ぶ。状態sからの行動aの行動評価関数Q(s,a)は、その後の状態s´において取りうる行動a´のうちの最大のQの値によって再計算される。
【0036】
次に、Qを式2にしたがって更新する(ステップS54)。このとき、状態sにおける報酬rと、割引率γ(予めステップS0で定める0以上1未満の値)、学習率a(予めステップS0で定める0より大きく1以下の値)を用いる。
式2
Q(s,a)←(1−α)Q(s,a)+α[r+γmaxQ(s´,a´)]
【0037】
行動aの例は、時定数T、ゲインGにおいて、現在の状態の点から上下左右斜めの8方向に移動可能とすると、その8方向のいずれかの新たな状態に移るという行動である。また最大値(max)は、状態s´についてとりうる行動a´のうちの最大値である。
【0038】
上記行動aに従って遷移した結果新たに状態がs´になると(ステップS56)、状態sの行動aに付いて行動評価関数Qが式2に従って強化されるので、これを繰り返すことにより(ここでの繰り返しについては、図示していない)、与えられた実測データのもとで最適な状態が求まる。割引率γは0以上1未満に選べば、繰り返してもQの値が発散することはない。これにより、繰り返しを用いて、最適なパラメータが求まることとなる。
【0039】
ここで、最適化が実際に行なわれて強化学習が完了しているかどうかは、状態が遷移しなくなったことで判定する。行動aには、「状態を遷移させない」という行動も含まれるため、状態を遷移させない行動が最適であれば、その時点での最適な行動となる。このような状態sのパラメータの組(本例では時定数T,ゲインK)は、適宜プラントモデルデータファイル98(図2)に格納される。エージェントは、常に、このプラントモデルデータファイル98からパラメータを呼び出すことにより、そのパラメータが作製された時点でのプラントの動作を再現し得る。これにより、最適な状態(パラメータの値の組)がもとまり(S56)、Q−Learningのステップが終了する(S58)。
【0040】
以上のようにしてモデルに用いる最適なパラメータが求まるが、この最適化を行なった後に、プラント実機運転データが更新されると、新たにサンプリングを行い、再び上記プロセスを実行する。
【0041】
本実施の形態では、新たにプラント実機運転データが更新される場合についても、その更新されたデータを用いてモデルのパラメータを随時学習させることができる。これは、強化学習法自体が、経験的に学習を行なっていく学習法であり、逐次的にデータが更新等されても対応し得るからである。本実施の形態では例示のため2つのパラメータのみによる最適化を示したが、上記のごみ焼却炉の実測データの例に示したように、実際のプラントでは非常に多くの操作量および状態量がある。より複雑でパラメータの多い式で最適化計算する必要がある実際のプラントをシミュレートしようとすると、本発明の上記利点は極めて有効である。
【0042】
また、このような利点をもたらす強化学習法のうち、Q−Learningを採用すると、パラメータ空間における行動自体が評価対象となるために、強化学習の繰り返しステップにおいて、実機データに対し、プロセスモデルの挙動が実機に近い挙動を示すように調整され、より実際に近いシミュレータの構築が可能となる。
【0043】
[実施例1]
本実施例では、本発明のシミュレータによって実際のプラントをシミュレートすることにより、プラントの運転訓練装置を構成する形態について説明する。訓練を受けるオペレータは、図2のオペレータコンソール22(仮想操作量入力手段、シミュレーテッド状態量出力手段)から、プロセスシミュレータ92中のエージェント96に対して、ごみ焼却炉1を操作するのと同様の信号を送信する。エージェント96は、プラントモデルデータファイル98から呼び出したパラメータに応じて動作が設定されており、オペレータコンソール22からの信号に対して、ごみ焼却炉1の振舞いをシミュレートする信号を出力する。
【0044】
オペレータコンソール22には、あたかも実際のごみ焼却炉1の運転結果であるかのように、プロセスシミュレータ92のエージェント96からの出力が表示される。これにより、実際のごみ焼却炉1を運転することなく、オペレータを訓練することが可能となる。
【0045】
ここで、実際のプラントの状態が揺らぎを有している場合について説明する。揺らぎは、確率的な振舞いは、操作量の実際の値が実際に把握しきれないもの、現象そのものが変動してしまうものがあるが、その揺らぎの分布と時間的な性質(時間的な変動の性質)によって特徴付けられるものがほとんどである。例えば、1/f揺らぎ等のスペクトル特性を示す現象に対して、長時間での累積データを確率密度関数(例えば正規分布など)で表現することが可能である。これ以外にも、ある時点で性質がステップ的に変動する事象として、その変動のステップの幅に正規分布を仮定し、変動事象の生起確率にポアソン分布を仮定することも可能である。このように適当に数学的に確率事象としてモデリングされる性質を、プラントの操作量(例えば、ゴミの性状)に与えたり、プラントのモデルパラメータに与えたり、あるいは、プラントの状態量に与えることができる。
【0046】
このように適宜実際のプラントの揺らぎまでの加えてシミュレーションすると、より実際のプラントに近く、オペレータに適切な訓練を行なうことができる。なお、訓練を目的として、この確率を実際の確率とは異なる確率に設定し、訓練の効果を高めるように用いることもできる。
【0047】
[実施例2]
本実施例では、本発明のシミュレータと組み合わせて異常診断装置を構成する形態を説明する。実際のプラントをシミュレートすることにより得られた時定数T、ゲインG等のパラメータは、エージェント96の学習後の状態を定めるのみならず、実際のプラントの状態を反映している。このデータは、プラントモデルデータファイル98に格納されているため、この値の変動をモニターすることで、プラントの運転状態についての情報が得られる。通常の運転では表面化しにくいようなプラント内部の状況を、間接的にではあるものの、監視することができる。これにより、測定可能な状態量以外を用いて、プラントの操業中であってもプラントの異常を診断することができる。
【0048】
[実施例3]
本実施例では、本発明のシミュレータと組み合わせて運転診断装置を構成する例を説明する。運転診断装置とは今後の運転を検討する装置である。つまり、ある時点で得られているプラントの実測データと、それに基づく上記実施例2の異常診断装置から得られるプラント内部の状態とに合わせて、それ以降のプラントの運転について、運転計画を立てることに役立つ。
【0049】
プラントの時定数TやゲインGの変化と、操作量や状態量との関係を明らかにすることにより、プラント内部の状況と外部から操作したり測定できる状態量との関係が明らかになる。この関係から、そのプラントにとって最も適した運転方法を与えるような操作量の条件を割り出せば、運転方法の良否を状態量によってのみ管理する場合に比べてより実際を良く反映した運転方法の判定、つまり運転診断が可能となる。これを行なうには、プラントのモデルパラメータの最適値を、予め数値計算などにより求めておくステップと、本発明の装置で実際の運転状況におけるモデルパラメータの値を得るステップと、さらにモデルパラメータの最適値とモデルパラメータの値とを比較するステップを用いる。
【0050】
[実施例4]
本実施例では、ごみ焼却炉において時間的に磨耗等により炉の厚みが減少する場合に、その炉の内部と外部の温度差を状態量として計測する。さらに、その状態量時間に対して補間式で表現しておいてそのカーブ上の値の空間を可変パラメータ空間とする。本発明のシミュレータによって随時データを更新しながら実際のプラントをシミュレートすることにより、その傾きの経時変化が強化学習の結果として求まる。そのカーブ上での傾きは、実際のプラントにおける過去の運転履歴における炉の厚みの減少速度を表わしているので、同様の運転を続けた場合の炉の寿命に関しても予測することができる。つまり、プラントの炉の寿命が解析できることになる。また、シミュレータが適切に動作する範囲において、仮想操作量を様々に変更してその傾きの変化を見ることにより、炉の寿命がどのように運転状況に依存するかを解析して、寿命にあわせた運転方法の選択をすることが可能となる。
【0051】
このように、本発明の状態量と操作量の測定データを経時的なものとし、プラントの状態量に式を用いれば、プラント経年変化や残りの耐用年数についての解析が可能となる。
【0052】
【発明の効果】
プラントにおけるプロセスシミュレーションに強化学習法を用いることにより、逐次的に運転データを反映させることができる。これにより、長期的な燃料の性状変化や経年変化も考慮した実際のプラントの挙動を学習するシミュレータを作製できる。また、各プラント、各焼却炉毎にプロセスモデルを持ち、それぞれに対し強化学習法により学習を行うことにより、各プラント、各焼却炉毎の癖を考慮したその時点での挙動を忠実に模擬できる。その結果、ごみ焼却炉の複雑な挙動をシミューレトした運転の訓練を行なうことが可能となる。また、このシミューレタを用いれば、最適な運転方法の検討や、リスクを最小化した最適化された運転方法を事前に検討し、プラントの挙動をシミュレートすることができる。また、随時実測データを反映させることができてプラントの挙動を解析することができる解析ツールを得ることができる。
【図面の簡単な説明】
【図1】本発明のシミュレータを使用する状況を説明する構成図である。
【図2】本発明の実施の形態における運転訓練を行なう場合における、シミュレータの構成を表わす構成図である。
【図3】強化学習法を用いて行なう本実施の形態のシミュレータの構築方法を説明するフローチャートである。
【図4】強化学習法の一例であるQ−Learning法の学習方法を説明するフローチャートである。
【符号の説明】
1 ごみ焼却炉
21 オペレータ
22 オペレータコンソール
2 プラント運転装置
3 ネットワーク
4 監視センタ
92 プロセスシミュレータ
94 プラント実機運転データファイル
96 エージェント
98 プラントモデルデータファイル
962 強化学習機能
964 プロセスモデル
Claims (8)
- (a)価値関数を初期状態にするステップと、
(b)次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、
(c)前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、
(d)ステップ(b)とステップ(c)を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、
(e)複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、
(f)得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップと
を含んでなるプラント動作のシミュレーション方法。 - (g)仮想操作量を受付けるステップと、
(h)前記学習されたパラメータに基づき、該仮想操作量に応じて前記モデル計算を行なうステップと、
(i)モデル計算で得られた状態量を出力するステップと
をさらに含む請求項1に記載のプラント動作のシミュレーション方法。 - 前記予め準備されたプラント実機運転データが経時的データであり、
(j)異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力するステップ
をさらに含む請求項1に記載のプラント動作のシミュレーション方法。 - 前記価値関数は、所与の状態においてある行動に対して将来期待できる収益を価値として、その状態sにおいて行動aを採用する価値を状態sと行動aの関数である行動価値関数であり、これにより、前記強化学習をQ−Learning法によって行なう、請求項1〜3のいずれかに記載のシミュレーション方法。
- 請求項1〜4のいずれかに記載の各ステップをコンピュータに実行させるためのプログラム。
- 演算手段、記憶手段、入力手段、出力手段を備えたコンピュータを含んでなるシミュレータであって、
予め準備されたプラント実機運転データを該記憶手段に格納し、
演算手段は、
該実機運転データを用いて、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得ることと、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算することとを繰り返し、複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習して、その学習した方策を該記憶手段に格納するものであり、
該学習された方策から定まるパラメータとに基づいて、該入力手段により受付けた入力量に応じて該モデル計算を実行してシミュレーションを行なうプラント動作のシミュレータ。 - 仮想操作量入力手段と、
シミュレーテッド状態量出力手段と
をさらに備え、
前記コンピュータは、前記学習した方策を呼び出して、該学習された方策から定まるパラメータとに基づいて、該仮想操作量入力手段からの該仮想操作量に応じて該モデル計算を実行し、
該仮想操作量に対応するシミュレーテッド状態量を前記シミュレーテッド状態量出力手段に出力することにより、前記プラントのオペレータの訓練を行なう請求項6に記載のプラント動作シミュレータ。 - 前記予め準備されたプラント実機運転データが経時的データであり、異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力することにより、プラントの状態を解析する請求項6に記載のプラント動作シミュレータ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002346993A JP2004178492A (ja) | 2002-11-29 | 2002-11-29 | 強化学習法を用いたプラントシミュレーション方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002346993A JP2004178492A (ja) | 2002-11-29 | 2002-11-29 | 強化学習法を用いたプラントシミュレーション方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004178492A true JP2004178492A (ja) | 2004-06-24 |
Family
ID=32707723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002346993A Withdrawn JP2004178492A (ja) | 2002-11-29 | 2002-11-29 | 強化学習法を用いたプラントシミュレーション方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004178492A (ja) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006344004A (ja) * | 2005-06-09 | 2006-12-21 | Hitachi Ltd | 運転支援装置および運転支援方法 |
JP2007264796A (ja) * | 2006-03-27 | 2007-10-11 | Hitachi Ltd | プラント制御方法及びプラント制御装置 |
JP2007272646A (ja) * | 2006-03-31 | 2007-10-18 | Hitachi Ltd | プラントの制御装置 |
JP2008076023A (ja) * | 2006-09-25 | 2008-04-03 | Hitachi Ltd | プラント制御装置 |
JP2010127475A (ja) * | 2008-11-25 | 2010-06-10 | Takuma Co Ltd | 燃焼炉の燃焼制御システムおよびその燃焼制御方法 |
JP2017034830A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | アース線又はシールド線の接続箇所を学習する機械学習方法及び機械学習装置並びに該機械学習装置を備えた電動機制御装置及び電動機装置 |
JP6088613B1 (ja) * | 2015-09-30 | 2017-03-01 | ファナック株式会社 | ロータにおける磁石の配置位置を学習する機械学習装置および方法ならびに該機械学習装置を備えたロータ設計装置 |
JP2017046487A (ja) * | 2015-08-27 | 2017-03-02 | ファナック株式会社 | 磁束制御部を有する電動機制御装置、ならびに機械学習装置およびその方法 |
JP2017130094A (ja) * | 2016-01-21 | 2017-07-27 | ファナック株式会社 | セル制御装置、及び製造セルにおける複数の製造機械の稼働状況を管理する生産システム |
JP2018128999A (ja) * | 2017-02-10 | 2018-08-16 | 三菱日立パワーシステムズ株式会社 | シミュレーション結果の評価装置及び方法 |
JP2018140471A (ja) * | 2017-02-28 | 2018-09-13 | ファナック株式会社 | 制御装置及び機械学習装置 |
WO2019098158A1 (ja) | 2017-11-14 | 2019-05-23 | 千代田化工建設株式会社 | プラント管理システム及び管理装置 |
WO2019216143A1 (ja) * | 2018-05-08 | 2019-11-14 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
JP2019219981A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社日立製作所 | 施策探索装置、方法、およびプログラム |
WO2020009139A1 (ja) * | 2018-07-04 | 2020-01-09 | 株式会社Preferred Networks | 学習方法、学習装置、学習システム及びプログラム |
JP2020009448A (ja) * | 2018-07-09 | 2020-01-16 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | ハイブリッド学習技法を生成するための方法およびシステム |
JP2020027556A (ja) * | 2018-08-17 | 2020-02-20 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
JP2020112921A (ja) * | 2019-01-09 | 2020-07-27 | 株式会社明電舎 | プラント制御調節装置 |
WO2021181913A1 (ja) * | 2020-03-10 | 2021-09-16 | 株式会社日立製作所 | 制御システム及び制御方法 |
WO2021205542A1 (ja) * | 2020-04-07 | 2021-10-14 | 日本電信電話株式会社 | 災害復旧計画生成装置、災害復旧計画生成方法、及びプログラム |
WO2022030041A1 (ja) * | 2020-08-03 | 2022-02-10 | オムロン株式会社 | 予測システム、情報処理装置および情報処理プログラム |
RU2780340C2 (ru) * | 2018-05-08 | 2022-09-21 | Тийода Корпорейшн | Система помощи в настройке режима работы установки, обучающее устройство и устройство помощи в настройке режима работы |
WO2022224364A1 (ja) * | 2021-04-20 | 2022-10-27 | 日本電気株式会社 | 設定装置、設定方法および記録媒体 |
JP7505328B2 (ja) | 2020-08-24 | 2024-06-25 | 富士電機株式会社 | 運転支援装置、運転支援方法及びプログラム |
-
2002
- 2002-11-29 JP JP2002346993A patent/JP2004178492A/ja not_active Withdrawn
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006344004A (ja) * | 2005-06-09 | 2006-12-21 | Hitachi Ltd | 運転支援装置および運転支援方法 |
JP4546332B2 (ja) * | 2005-06-09 | 2010-09-15 | 株式会社日立製作所 | 運転支援装置および運転支援方法 |
JP2007264796A (ja) * | 2006-03-27 | 2007-10-11 | Hitachi Ltd | プラント制御方法及びプラント制御装置 |
JP4585983B2 (ja) * | 2006-03-27 | 2010-11-24 | 株式会社日立製作所 | プラント制御方法及びプラント制御装置 |
JP2007272646A (ja) * | 2006-03-31 | 2007-10-18 | Hitachi Ltd | プラントの制御装置 |
JP4665815B2 (ja) * | 2006-03-31 | 2011-04-06 | 株式会社日立製作所 | プラントの制御装置 |
JP2008076023A (ja) * | 2006-09-25 | 2008-04-03 | Hitachi Ltd | プラント制御装置 |
JP4592665B2 (ja) * | 2006-09-25 | 2010-12-01 | 株式会社日立製作所 | プラント制御装置 |
JP2010127475A (ja) * | 2008-11-25 | 2010-06-10 | Takuma Co Ltd | 燃焼炉の燃焼制御システムおよびその燃焼制御方法 |
CN106411216B (zh) * | 2015-07-31 | 2018-10-23 | 发那科株式会社 | 机械学习方法及其装置、电动机控制装置以及电动机装置 |
JP2017034830A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | アース線又はシールド線の接続箇所を学習する機械学習方法及び機械学習装置並びに該機械学習装置を備えた電動機制御装置及び電動機装置 |
CN106411216A (zh) * | 2015-07-31 | 2017-02-15 | 发那科株式会社 | 机械学习方法及其装置、电动机控制装置以及电动机装置 |
CN106487298B (zh) * | 2015-08-27 | 2018-02-23 | 发那科株式会社 | 电动机控制装置、机械学习装置及其方法 |
JP2017046487A (ja) * | 2015-08-27 | 2017-03-02 | ファナック株式会社 | 磁束制御部を有する電動機制御装置、ならびに機械学習装置およびその方法 |
CN106487298A (zh) * | 2015-08-27 | 2017-03-08 | 发那科株式会社 | 电动机控制装置、机械学习装置及其方法 |
US9768716B2 (en) | 2015-08-27 | 2017-09-19 | Fanuc Corporation | Motor control apparatus provided with magnetic flux control unit, and machine learning apparatus and method thereof |
US10103611B2 (en) | 2015-09-30 | 2018-10-16 | Fanuc Corporation | Machine learning apparatus and method for learning arrangement position of magnet in rotor and rotor design apparatus including machine learning apparatus |
JP6088613B1 (ja) * | 2015-09-30 | 2017-03-01 | ファナック株式会社 | ロータにおける磁石の配置位置を学習する機械学習装置および方法ならびに該機械学習装置を備えたロータ設計装置 |
JP2017130094A (ja) * | 2016-01-21 | 2017-07-27 | ファナック株式会社 | セル制御装置、及び製造セルにおける複数の製造機械の稼働状況を管理する生産システム |
US10345796B2 (en) | 2016-01-21 | 2019-07-09 | Fanuc Corporation | Cell controller and production system for managing working situation of a plurality of manufacturing machines in manufacturing cell |
JP2018128999A (ja) * | 2017-02-10 | 2018-08-16 | 三菱日立パワーシステムズ株式会社 | シミュレーション結果の評価装置及び方法 |
WO2018147240A1 (ja) * | 2017-02-10 | 2018-08-16 | 三菱日立パワーシステムズ株式会社 | シミュレーション結果の評価装置及び方法 |
JP2018140471A (ja) * | 2017-02-28 | 2018-09-13 | ファナック株式会社 | 制御装置及び機械学習装置 |
WO2019098158A1 (ja) | 2017-11-14 | 2019-05-23 | 千代田化工建設株式会社 | プラント管理システム及び管理装置 |
US11531326B2 (en) | 2017-11-14 | 2022-12-20 | Chiyoda Corporation | Plant management system and management device |
JP7090243B2 (ja) | 2018-05-08 | 2022-06-24 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
WO2019216143A1 (ja) * | 2018-05-08 | 2019-11-14 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
JP2019197315A (ja) * | 2018-05-08 | 2019-11-14 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
US11914348B2 (en) | 2018-05-08 | 2024-02-27 | Chiyoda Corporation | Plant operation condition setting assistance system, learning device, and operation condition setting assistance device |
RU2780340C2 (ru) * | 2018-05-08 | 2022-09-21 | Тийода Корпорейшн | Система помощи в настройке режима работы установки, обучающее устройство и устройство помощи в настройке режима работы |
JP2019219981A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社日立製作所 | 施策探索装置、方法、およびプログラム |
JP7160574B2 (ja) | 2018-06-21 | 2022-10-25 | 株式会社日立製作所 | 処理装置、方法、およびプログラム |
JPWO2020009139A1 (ja) * | 2018-07-04 | 2021-07-08 | 株式会社Preferred Networks | ロボット制御装置、システム、ロボット制御方法、方策更新方法、及びニューラルネットワーク |
WO2020009139A1 (ja) * | 2018-07-04 | 2020-01-09 | 株式会社Preferred Networks | 学習方法、学習装置、学習システム及びプログラム |
JP7398373B2 (ja) | 2018-07-04 | 2023-12-14 | 株式会社Preferred Networks | 制御装置、システム、制御方法、及びプログラム |
JP7304223B2 (ja) | 2018-07-09 | 2023-07-06 | タタ コンサルタンシー サービシズ リミテッド | ハイブリッド学習技法を生成するための方法およびシステム |
JP2020009448A (ja) * | 2018-07-09 | 2020-01-16 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | ハイブリッド学習技法を生成するための方法およびシステム |
JP2020027556A (ja) * | 2018-08-17 | 2020-02-20 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
US11119451B2 (en) | 2018-08-17 | 2021-09-14 | Yokogawa Electric Corporation | Apparatus, method, program, and recording medium |
JP7011239B2 (ja) | 2018-08-17 | 2022-01-26 | 横河電機株式会社 | 装置、方法、プログラム、および、記録媒体 |
JP2020112921A (ja) * | 2019-01-09 | 2020-07-27 | 株式会社明電舎 | プラント制御調節装置 |
JP7103238B2 (ja) | 2019-01-09 | 2022-07-20 | 株式会社明電舎 | プラント制御調節装置 |
WO2021181913A1 (ja) * | 2020-03-10 | 2021-09-16 | 株式会社日立製作所 | 制御システム及び制御方法 |
JP7264845B2 (ja) | 2020-03-10 | 2023-04-25 | 株式会社日立製作所 | 制御システム及び制御方法 |
JP2021144287A (ja) * | 2020-03-10 | 2021-09-24 | 株式会社日立製作所 | 制御システム及び制御方法 |
WO2021205542A1 (ja) * | 2020-04-07 | 2021-10-14 | 日本電信電話株式会社 | 災害復旧計画生成装置、災害復旧計画生成方法、及びプログラム |
JPWO2021205542A1 (ja) * | 2020-04-07 | 2021-10-14 | ||
JP7456497B2 (ja) | 2020-04-07 | 2024-03-27 | 日本電信電話株式会社 | 災害復旧計画生成装置、災害復旧計画生成方法、及びプログラム |
WO2022030041A1 (ja) * | 2020-08-03 | 2022-02-10 | オムロン株式会社 | 予測システム、情報処理装置および情報処理プログラム |
JP7505328B2 (ja) | 2020-08-24 | 2024-06-25 | 富士電機株式会社 | 運転支援装置、運転支援方法及びプログラム |
JP7523337B2 (ja) | 2020-12-10 | 2024-07-26 | 株式会社神鋼環境ソリューション | 学習済モデル生成装置、学習済モデル生成プログラム、炉内温度予測装置、炉内温度予測プログラム、学習済モデル、および焼却システム |
WO2022224364A1 (ja) * | 2021-04-20 | 2022-10-27 | 日本電気株式会社 | 設定装置、設定方法および記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004178492A (ja) | 強化学習法を用いたプラントシミュレーション方法 | |
US12039446B2 (en) | Controller training based on historical data | |
JP5768834B2 (ja) | プラントモデル管理装置及び方法 | |
US20170003667A1 (en) | Equipment maintenance management system and equipment maintenance management method | |
AU2006201792A1 (en) | Method and system for performing multi-objective predictive modeling, monitoring, and update for an asset | |
JP2005523534A (ja) | 自動的ニューラルネットモデル発生及びメインテナンス | |
US20200218244A1 (en) | Plant management system and management device | |
JP2010522376A (ja) | 3次元パレートフロント遺伝的プログラミングを使用して作成した推論センサ | |
US20220382233A1 (en) | Information processing device, prediction method, and computer-readable recording medium | |
JP2011253275A (ja) | プラントシミュレータ | |
JP5125875B2 (ja) | Pidコントローラのチューニング装置、pidコントローラのチューニング用プログラムおよびpidコントローラのチューニング方法 | |
JPWO2016203757A1 (ja) | 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラム | |
JP5582487B2 (ja) | プロセスの状態予測方法 | |
JP5077831B2 (ja) | プラント制御システムおよびプラント制御方法 | |
JP7262554B2 (ja) | プロセス管理支援装置および方法 | |
JP2011123187A (ja) | 運転模擬装置 | |
JP7510238B2 (ja) | 燃焼制御システム、燃焼制御方法、情報処理装置、プログラムおよび記録媒体 | |
WO2009055967A1 (en) | Real-time model validation | |
JP5561519B2 (ja) | プラントシミュレータ | |
JP2021082367A (ja) | シミュレーション装置、シミュレーション方法およびシミュレーションプログラム | |
JP2005078545A (ja) | プロセスモデルの調整方法及び調整装置 | |
JP7384311B1 (ja) | 運転支援装置、運転支援方法及びプログラム | |
JP7525032B1 (ja) | 性能評価装置、性能評価方法、及びプログラム | |
US11893869B2 (en) | Information processing device, alarm prediction method, and computer-readable recording medium | |
CN110914776A (zh) | 用于识别关于基于模型的控制器性能的可变性或控制偏差的影响和原因的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060207 |