JP2004178492A

JP2004178492A - 強化学習法を用いたプラントシミュレーション方法

Info

Publication number: JP2004178492A
Application number: JP2002346993A
Authority: JP
Inventors: Toshihiro Yamashita; 利博山下; Shigeaki Nakamura; 成章中村; Masataka Abe; 正孝安部; Yoshinori Terasawa; 良則寺澤
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2002-11-29
Filing date: 2002-11-29
Publication date: 2004-06-24

Abstract

【課題】ゴミ焼却プラント等は複雑な挙動を示し、同じプラントであっても、異なる挙動を示し、プラントの経年変化によっても挙動が変化する。
【解決手段】価値関数を初期状態にし（Ｓ１）予め準備されたプラント実機運転データを用いて（Ｓ２）入力されたデータ操作量に対して予め作製されたプロセスモデルによりモデル計算を実行して状態量を得て（Ｓ３）、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算し（Ｓ４）複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を学習し（Ｓ５）所与の状態においてある行動に対して将来期待できる収益を価値関数として求め、これを用いて得られる学習されたパラメータに基づいてシミュレーションを行なう。
【選択図】図２

Description

【０００１】
【発明が属する技術分野】
本発明は、プラントのシミュレータ、動作方法、及びそのプログラムに関する。特に、ごみ焼却プラント等といったオペレータの運転に熟練を要するプラントや、長期間の操業により状態が変化するプラントの動作をシミュレート（模擬）するシミュレーション方法に関する。
【０００２】
【従来の技術】
ごみ焼却炉においては、燃焼されるごみ（廃棄物）がその性状に応じて、様々な割合で構成されている。このようなゴミの成分のばらつきは、特に家庭ごみなどの一般廃棄物である場合に顕著である。このため、ごみ焼却炉自体の挙動が複雑な動きを示す。また、そのゴミ成分のばらつきの影響や運転員の操作についての癖の影響を受けるために、ごみ焼却炉は、プラントが変わっても、あるいは、同じプラント内の焼却炉毎に、挙動に癖があることが多い。従って、このようなごみ焼却炉の運転を確実に行なうためには相当な熟練を要する。ごみ焼却炉以外の従来の他のプラントであっても運転操作に熟練を要するものがある。
【０００３】
つまり、このようなプラントにおいては、多くの制御操作量を操作することによって、多数の制御された状態量の関係を読み取って運転しなければならないため、オペレータは高度の熟練を要する。
【０００４】
このようなプラントの運転訓練を行なうために訓練シミュレータを用いることが考えられるが、実用性のある訓練用のシミュレータを構築するためには、プラントの複雑な挙動をシミュレートするための基礎となるプラントモデルが必要である。例えば、特許文献１には、伝達関数とＰＩＤ制御を用いたプラントシミュレーションモデルの生成方法が記載されている。また、例えば、特許文献２には、誤差を用いて実際のプラントの動作とプラントシミュレータとをあわせこむ方法が記載されている。
【０００５】
また、このようなプラントにおいては、プロセスの状態量（温度や圧力等）が測定しにくいものや、実際に起きている複雑なプロセスが把握しきれないものもあり、上記の運転の熟練のみならず、そのプラントに必要なメンテナンスの種類や時期、あるいは、耐用期限までの期間がどの程度残されているかといった点が把握しにくいものがある。これらの不確定要素があるために、安全のために大幅に余裕を見込んで運転期間を設定したり、メンテナンス等を行なう必要があった。
【０００６】
また、学習アルゴリズムの分野において、強化学習法という手法が知られている。強化学習法は、教師無し学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）の手法の一つであり、ある環境（ｅｎｖｉｒｏｎｍｅｎｔ）において、学習主体となる自律的なエージェントがその環境から得られる報酬（ｒｅｗａｒｄ）や罰（ｐｅｎａｌｔｙ）を手掛りに、方策または政策（ｐｏｌｉｃｙ）を決定して、方策の与える期待収益（報酬の期待値）である価値（ｖａｌｕｅ）を極大化するような学習法であり、環境が複雑かつ不確定であってもエージェントの学習が可能であるという特徴を有する（例えば、非特許文献１）。この強化学習法を用いる例として、特許文献３に浚渫船の経路の最適化を行なう方法が開示されているが、プラント等のプロセスモデルに用いる例は開示されていない。
【０００７】
【特許文献１】
特開平７−６４６１０号公報
【特許文献２】
特開平１０−２０７５０７号公報
【特許文献３】
特開平１０−２５３６０２号公報
【非特許文献１】
電気学会ＧＡ・ニューロを用いた学習法とその応用調査専門委員会編、「学習とそのアルゴリズム」、森北出版、２００２年８月２８日、ｐ．１５５−１６４
【０００８】
【発明が解決しようとする課題】
実際のゴミ焼却プラントでは、ゴミの性状により複雑な挙動を示すことに加えて、プラントが異なると、同じように建設されたプラント同士であっても、また、同じプラント内の焼却炉であっても異なる挙動（即ち、プラントの癖、焼却炉の癖に運転員の操作の癖が相乗した挙動）を示し、プラントの経年変化によっても挙動が変化する。このように挙動が複雑である場合には、単純なモデルによってその複雑さが十分に表現されることはない。また、シミュレーション実施時点でのプラント、焼却炉の実機の経年変化等を受けた状態での挙動の模擬も行われていない。そのような実機の状態のプロセスモデルへの反映ため、プラントの不確定要素を減らすためにプラントの動作解析を逐次行う必要がある。
【０００９】
【課題を解決するための手段】
かかる課題を解決するため、本発明は、プラントの動作をシミュレートする装置等において、強化学習アルゴリズムを用いる。本発明では、プラントの操作量と状態量に対応した空間を強化学習の環境とする。
【００１０】
つまり、本発明は、（ａ）価値関数を初期状態にするステップと、（ｂ）次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、（ｃ）前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、（ｄ）ステップ（ｂ）とステップ（ｃ）を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、（ｅ）複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、（ｆ）得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップとを含んでなるプラント動作のシミュレーション方法を提供する。
【００１１】
ここで、価値関数とは、学習の指標に用いる関数であり、強化学習法において用いられる評価関数の一種である。プラント実機運転データとは、実際のプラントが稼動している状態における操作量と状態量を含むデータである。操作量とは、プラントを運転する際に調整されたり変更される各種の操作対象となる量をいう。例えば、ごみ焼却炉では、詳細は後述するが、ゴミの投入量などである。モデル計算とは、操作量に応じて計算によって状態量を求める計算であり、物理的な理論計算モデル式、数値のフィッティングによる経験式、作業仮説に基づく理論式等に基づくものである。何らかのパラメータによってその値を調整することができる。状態量とは、プラントを運転している際の監視項目となる数値をいう。例えば、炉のある位置での温度などである。コンピュータ内部で学習をする主体を具体的に考慮する場合には、「エージェント」という主体を考える。これは、強化学習法の分野で一般に用いられる意味での学習主体としてのエージェントをコンピュータ内に実現したものであるが、後にシミュレーションを行なう主体としても動作するものである。これは、演算手段や記憶手段からなるハードウエア単体としての機能ではなく、コンピュータの主記憶装置に少なくとも一部が保持されている仮想空間に実現される機能であり、ソフトウエアとハードウエアの協働するものとして動作するものである。報酬とは、学習の指標に用いる価値関数を状態の更新に伴って書き換える際に加算され、その状態に対して割り付けられ、学習するエージェントに与えるインセンティブを表わす量である。パラメータ空間とは、パラメータの値のとりうる数学的な空間である。このパラメータは、計測データを近似する式のパラメータである。本願の発明は、一般に、計測データに対応するこのパラメータ空間を強化学習法における「環境」としてエージェント機能に学習をさせる。ここで、コンピュータは、少なくとも演算手段と、記憶手段と、入力手段と、出力手段とを有している。即ち本発明は、演算手段と記憶手段と入力手段と出力手段を備えるコンピュータにおいて、上記（ａ）〜（ｆ）のステップを実行する。
【００１２】
このシミュレーション方法によれば、コンピュータ（エージェント）にこのプラントの操作量と状態量に見られる振舞いをさせることができ、コンピュータを用いて実際のプラントをシミュレートすることが可能となる。
【００１３】
また、本発明では、（ｇ）仮想操作量を受付けるステップと、（ｈ）前記学習されたパラメータに基づき、該仮想操作量に応じて前記モデル計算を行なうステップと、（ｉ）モデル計算で得られた状態量を出力するステップとをさらに含むプラント動作のシミュレーション方法とすることができる。
【００１４】
仮想操作量とは、シミュレーションにおいて、例えばユーザーが実際のプラントへの入力であるかのように入力値として用いる値や、他のコンピュータが本方法を実行するコンピュータをプラントと見立てて操作量として送信してくる値である。ユーザーによる入力であれば、キーボード、マウスなどの入力装置から入力する。モデル計算は、その時点での学習の結果を反映させており、強化学習によってプラントの実機をシミュレートするようなモデル計算である。その結果得られた状態量は、プラント実機を実際に運転する代わりに本シミュレーション方法を用いて出力される。この出力は、ユーザーに対して表示装置に出力されるものや、他のコンピュータに出力される。これにより、本発明のシミュレータを、オペレータによるプラントの運転の訓練に用いることが可能となる。
【００１５】
本発明では、前記予め準備されたプラント実機運転データが経時的データであり、（ｊ）異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力するステップをさらに含むプラント動作のシミュレーション方法とすることができる。
【００１６】
経時的データとは、複数の時刻における操作量と状態量のデータである。学習後の方策は、その時点での最適なパラメータを与えるものであるため、異なる時刻でのプラントのモデルのパラメータについての最適値が得られている。これらを比較することにより、プラントモデルのパラメータについての時間的な比較をすれば、プラントの時間的な状態量の変化をシミュレートすることができる。しかも、このパラメータについての最適値の異なる時刻でのデータは、プラントの現実の現象を反映するものとなる。これによりモデルのパラメータを用いてプラントの状態の解析を行なうことができる。
【００１７】
本発明においては、前記価値関数は、所与の状態においてある行動に対して将来期待できる収益を価値として、その状態ｓにおいて行動ａを採用する価値を状態ｓと行動ａの関数である行動価値関数であり、これにより、前記強化学習をＱ−Ｌｅａｒｎｉｎｇ法によって行なうものとすることができる。強化学習法における評価関数となる価値関数を、状態ｓと行動ａに基づく行動価値関数Ｑ（ｓ，ａ）とすれば、Ｑ−Ｌｅａｒｎｉｎｇ法を行なうことができる。
【００１８】
また、本願において仮想操作量入力手段とは、例えば適当なコンピュータ端末に備えられた入力手段であり、訓練を受けるオペレータなどからの入力を受け付ける入力手段である。また、シミュレーテッド状態量出力手段とは、適当なデータ出力手段や表示手段であり、例えば上記仮想操作量入力手段を用いている訓練を受けているオペレータにプラントの運転状態であるかのように表示する表示手段である。
【００１９】
【発明の実施の形態】
以下図面を参照して本発明の実施の形態について説明する。
【００２０】
［実施の形態１］
本実施の形態では、プラントの動作をシミュレートするシミュレータについて説明する。
【００２１】
（実際のプラントの概要）
図１に、本発明のシミュレータを使用する状況について説明する。ごみ焼却炉１は、運転に相当の訓練を要する実際のプラントの一例である。このようなプラントは、オペレータ（運転員）２１が様々な操作を行なうことによって運転される。通常、オペレータ２１が操作するのは、ごみ焼却炉１に接続されたプラント運転装置２に接続されているオペレータコンソール２２である。プラント運転装置２は、ごみ焼却炉１の運転に必要な様々な状態量を、オペレータコンソール２２を通じてオペレータに提示し、オペレータはごみ焼却炉１の状態を把握してごみ焼却炉１の状態に応じて何らかの操作量の設定を変更して適切にごみ焼却炉１を運転する。
【００２２】
監視センタ４は、専用回線等のネットワーク３でプラント運転装置２に接続されてごみ焼却炉１の状態をモニターしており、プラントの運転管理を支援するサービスを行なうために設置されている。このため、監視センタ４は、ごみ焼却炉１の様々な操作量、状態量を収集できる。監視センタ４は、ごみ焼却炉１の運転管理を支援するために、リスク予測５、運転診断６、異常故障診断７、余寿命予測８、運転訓練９といった機能を備えている。
【００２３】
（シミュレータの概要）
図２に、運転訓練９を行なう運転訓練装置の場合に即してシミュレータの構成を説明する。オペレータコンソール２２は、プロセスシミュレータ９２となるコンピュータにネットワーク３を通じて接続されている。プロセスシミュレータ９２は、例えば監視センタ４に配置されるが、ネットワーク３により接続可能であれば、その場所は問わない。プロセスシミュレータ９２にはプラント実機運転データファイル９４が備えられている。このプラント実機運転データファイル９４はプロセスシミュレータ９２からアクセス可能ないずれの場所にあっても構わない。このプラント実機運転データファイル９４にはごみ焼却炉１の操作量と状態量の測定データがネットワーク３を通じて時系列に従って蓄えられている。
【００２４】
（実測データの内容）
操作量と状態量の実測データは、実際のごみ焼却炉では、様々な数値である。操作量の例としては、ゴミの投入量に関係するフィーダー速度、送風ファンのダンパー開度、一次空気温度、一次空気圧力、排煙ダンパー開度などであり、人為的に操作される量である。また状態量は、例えば、炉内温度、炉内圧力、排ガス温度、排ガス量、排ガス圧力、排ガス成分（酸素量や一酸化炭素量など）等であり、プラントの状態を表わす量である。その他にも、天候によって定まる周囲環境の状態を表わす量（例えば、気温、湿度）等も状態量や操作量となりうる。これらは直接プラントの状態を表わしているものではなく、また積極的に操作するものではないので、ここではあえて考慮しないが、これらをシミュレーションに加えることも可能である。実際のゴミ焼却炉では、これらの数値データが時々刻々変化しながら運転が行なわれ、その実測データをプラント実機運転データファイル９４に蓄える。
【００２５】
ここで、実際のごみ焼却炉では、これらの操作量と状態量の関係は、関数的な関係はあるものの、状態量がその時点での操作量にのみ依存するものではない。例えば、ある時刻の状態量は、その後の状態量に対しての初期値として作用してその後の時刻の状態量に影響する。また、ある時刻の操作量は、例えば一次遅れ要素に対する入力量のように、一定の遅れを伴ってその後の状態量に影響する。さらに、操作量と状態量の間には、必ずしも決定論的な関係があるものでもない。なぜなら、操作量として操作されるものが、必ずしもその操作量に完全に対応するものではなく、一定の幅をもって操作されるものであるためである（例えば、ゴミ投入量に関係するフィーダー速度を一定としても、それによる実際のゴミの投入量は常に一定量とはならない）。また、状態量には、気候条件（空気中の温度、湿度）や、ゴミの性状（ゴミの種類や成分、含まれる水分量等）も影響するためでもある。さらには、工学的には確率的な現象として扱わざるを得ない現象（例えば、燃焼のプロセス）も影響することも理由の一つである。
【００２６】
（エージェントの動作）
図２エージェント９６は、強化学習機能９６２を有し、強化学習法に従って環境に応じてエージェント９６自身の状態を変化させてゆく。エージェント９６の実体は、コンピュータ上に存在する仮想のものであり、エージェント９６自身の状態は何らかのパラメータによって変更される。このエージェント９６は、この強化学習をプラント実機運転データに基づいて行なう。本実施の形態では、エージェント９６の状態をプラントの動作を数値の入出力関係によって表現しうるような数式を含むモデルによって定める。本発明全体には、これ以外にも、数式を含むモデルのほか、数式を含まない数値のみのモデル（例えば操作量データのベクトルと状態量データのベクトルとの対応関係を示す単なる行列）等も含む。本実施の形態ではこの数式モデルを、プロセスモデル９６４と呼ぶ。プロセスモデル９６４が何らかの調整可能なパラメータを含んでいることにより、プロセスモデル９６４を実際のプラントに合わせて調整することができる。プロセスモデル９６４の変更は、プラントモデルデータファイル９８にあるプラントモデルを特徴付ける数値（パラメータ）を変更することによって行なうことができる。この調整動作は、エージェント９６自体の状態を変更することにあたり、プロセスモデル９６４を調整するパラメータ空間が本実施の形態においてエージェント９６が強化学習法に従って学習を行なう環境となる。
【００２７】
（シミュレータの構築方法）
図３に強化学習法を用いて行なう本実施の形態のシミュレータの構築方法について説明する。シミュレータの構築は、エージェント９６に強化学習をさせることによってコンピュータを用いて行なう。
【００２８】
まず、学習の最初には、プロセスモデルの作成と、初期化とを実行する（ステップＳ１）。プロセスモデルは、様々な物理現象を考慮して、その特徴を端的に表わすモデル式によって行なうことができる。図３には一次遅れ要素の伝達関数が記載されているが、他にも、自己回帰モデルによる近似式、燃焼の乱流の効果を確率密度関数で表現したモデルなど、何らかの理論的考察や、作業仮説に基づいて作成したモデルを任意に用いることができ、複数の物理現象の結合として表現したモデルであっても良い。また、モデルが単純で実際にプラントで起きている複雑さを再現できないときには、適当な確率項を加えることによって実際のプラントに見られる不可避な変動を再現することも可能であるが、このような確率項は、学習段階においては特に考慮する必要はない。操作量と状態量の関係が表現可能なモデルを本実施の形態では用いるが、本発明全体としては、モデル化できないものであっても、数値表現可能な入出力関係として記述できる関係さえあればよい。
【００２９】
初期化とは、エージェント９６を初期状態にすることと、後に使用する行動価値関数Ｑを初期状態にすることである。エージェント９６の状態は、エージェント９６の動作を決めるパラメータによって定まる。例えば、ゴミの処理量を操作量とし、炉内温度を状態量とするような図３の一次遅れ要素をモデルとして用いるのであれば、時定数ＴとゲインＧの値の組でエージェント９６の状態は定まる。この段階で、使用するモデルについて考慮するパラメータの範囲やその値の刻み幅もこの段階で定めておく。
【００３０】
次いで、エージェント９６に学習をさせるためのデータをプラント実機運転データファイル９６から適宜サンプリングする（ステップＳ２）。サンプリングするのは、強化学習させる環境として十分な精度のデータがあれば十分だからである。
【００３１】
次に、その時点のプロセスモデルによってモデル計算を実行する（ステップＳ３）。通常、サンプリングしたプラントの操作量に応じて実測の状態量が得られていることから、実測と同じ操作量に対して、その時点でのプロセスモデルに基づいて、計算によって状態量を算出する。
【００３２】
次に、報酬を計算する（ステップＳ４）。このためには、実際のプラントで得られた操作量と状態量の組に対し、その操作量と上記計算による状態量を考え、その操作量と計算の状態量との組を考える。実際のプラントの状態量とエージェント９６の出力する状態量とには、同じ操作量に対するものであっても、一般に差が生じる。この差は、モデルが不完全であること（単純すぎること、あるいはパラメータ設定が最適化されていないこと）のほかにも、実際のプラントでの操作量の精度限界や、プラントの動作の確率的な要素や揺らぎ的な要素、あるいは、状態量の測定の誤差等を含んだものである。報酬は、例えば実測と計算の状態量の間にあるの差（残差）に応じて定めることができる。例えば、サンプリングされた実測データの全てに対して上記残差の絶対値を取り、
式１
ｒ＝Ｃ―｜計算の状態量―実際の状態量｜
（Ｃ：正の定数）
によって各サンプリングデータごとにそれぞれ報酬要素ｒを定めることができる。その後の学習に必要な報酬のデータは、パラメータ空間におけるパラメータのある範囲（本例では、時定数ＴとゲインＧの値のとりうる範囲）についての報酬であるので、この範囲に含まれるパラメータの値の組についての報酬を求める必要がある。各パラメータの値においては、例えば、上記報酬要素ｒを、そのパラメータの値の組に含まれるものについて和を取り、データ数が多いパラメータの報酬が見かけ上大きい数値となることを防ぐために、データ数で除して正規化する。この例以外でも報酬を適宜定めることは可能であり、エージェント９６に対して計算と実際との差を表わすような適当な数値とすることができる。
【００３３】
そして、パラメータ空間の各パラメータに対して計算された報酬に基づいて、強化学習法の一種であるＱ−Ｌｅａｒｎｉｎｇを行なう（ステップＳ５）。ここで、Ｑ−Ｌｅａｒｎｉｎｇを採用する理由は、エージェントの状態に加えて、エージェントがとる行動についても学習の対象となるためである。行動も学習の対象となることにより、例えば、最適化計算に対して相対的に早く変化するプラントの実データに対しても追随が良好となり、時間的な遅れが少なくシミュレータを構築することができる。このため、本実施の形態では、Ｑ−Ｌｅａｒｎｉｎｇを用いているが、本発明では、ＴＤ学習法など、他の強化学習法を用いても良い。例えば、ＴＤ学習法を用いれば、その時刻でのエージェントの状態に基づいて次の時刻の状態を定めるために、行動が評価されず、プラントの実データが早い場合には時間差によって誤差を生じる場合があるが、行動の数が多い場合（例えば、高次の多項式でモデル式を作る場合などパラメータ数が多い場合）については、計算量が削減できて学習の繰り返しを増やすことができるために、誤差が小さくなる場合もある。また、強化学習の他の例であるＡｃｔｏｒ−Ｃｒｉｔｉｃ法によれば、ＴＤ学習法と同様に、計算量の削減が可能となるほか、確率的な行動選択が可能となる利点がある。
【００３４】
Ｑ−Ｌｅａｒｎｉｎｇにおいては、ある状態ｓと、そのｓにごとに定まる行動ａに対して行動価値関数Ｑ（ｓ，ａ）を考える。この行動価値関数Ｑ（ｓ，ａ）とは、状態ｓと行動ａを用いて評価値を得るＱ−Ｌｅａｒｎｉｎｇ法における評価値（価値）である。本例についていえば、状態ｓとは、時定数ＴとゲインＫの２次元空間においてエージェント９６がその時点で取っている状態である。Ｑ（ｓ，ａ）は初期値は例えば０とするが、一般には任意の値とすることができる（ステップＳ０）。
【００３５】
（Ｑ−Ｌｅａｒｎｉｎｇについて）
Ｑ−Ｌｅａｒｎｉｎｇを開始すると（ステップＳ５０）、まず、その時点での方策πに基づき、状態ｓにおいて確率的に行動ａを決定する（ステップＳ５２）。これにより次の状態ｓ´が定まる。ここで、方策πは状態ｓと行動ａの関数であり、この方策πが複数の行動を許す場合には、適当な乱数を用いて確率的にそれらの複数の行動から一つを選ぶ。状態ｓからの行動ａの行動評価関数Ｑ（ｓ，ａ）は、その後の状態ｓ´において取りうる行動ａ´のうちの最大のＱの値によって再計算される。
【００３６】
次に、Ｑを式２にしたがって更新する（ステップＳ５４）。このとき、状態ｓにおける報酬ｒと、割引率γ（予めステップＳ０で定める０以上１未満の値）、学習率ａ（予めステップＳ０で定める０より大きく１以下の値）を用いる。
式２
Ｑ（ｓ，ａ）←（１−α）Ｑ（ｓ，ａ）＋α［ｒ＋γｍａｘＱ（ｓ´，ａ´）］
【００３７】
行動ａの例は、時定数Ｔ、ゲインＧにおいて、現在の状態の点から上下左右斜めの８方向に移動可能とすると、その８方向のいずれかの新たな状態に移るという行動である。また最大値（ｍａｘ）は、状態ｓ´についてとりうる行動ａ´のうちの最大値である。
【００３８】
上記行動ａに従って遷移した結果新たに状態がｓ´になると（ステップＳ５６）、状態ｓの行動ａに付いて行動評価関数Ｑが式２に従って強化されるので、これを繰り返すことにより（ここでの繰り返しについては、図示していない）、与えられた実測データのもとで最適な状態が求まる。割引率γは０以上１未満に選べば、繰り返してもＱの値が発散することはない。これにより、繰り返しを用いて、最適なパラメータが求まることとなる。
【００３９】
ここで、最適化が実際に行なわれて強化学習が完了しているかどうかは、状態が遷移しなくなったことで判定する。行動ａには、「状態を遷移させない」という行動も含まれるため、状態を遷移させない行動が最適であれば、その時点での最適な行動となる。このような状態ｓのパラメータの組（本例では時定数Ｔ，ゲインＫ）は、適宜プラントモデルデータファイル９８（図２）に格納される。エージェントは、常に、このプラントモデルデータファイル９８からパラメータを呼び出すことにより、そのパラメータが作製された時点でのプラントの動作を再現し得る。これにより、最適な状態（パラメータの値の組）がもとまり（Ｓ５６）、Ｑ−Ｌｅａｒｎｉｎｇのステップが終了する（Ｓ５８）。
【００４０】
以上のようにしてモデルに用いる最適なパラメータが求まるが、この最適化を行なった後に、プラント実機運転データが更新されると、新たにサンプリングを行い、再び上記プロセスを実行する。
【００４１】
本実施の形態では、新たにプラント実機運転データが更新される場合についても、その更新されたデータを用いてモデルのパラメータを随時学習させることができる。これは、強化学習法自体が、経験的に学習を行なっていく学習法であり、逐次的にデータが更新等されても対応し得るからである。本実施の形態では例示のため２つのパラメータのみによる最適化を示したが、上記のごみ焼却炉の実測データの例に示したように、実際のプラントでは非常に多くの操作量および状態量がある。より複雑でパラメータの多い式で最適化計算する必要がある実際のプラントをシミュレートしようとすると、本発明の上記利点は極めて有効である。
【００４２】
また、このような利点をもたらす強化学習法のうち、Ｑ−Ｌｅａｒｎｉｎｇを採用すると、パラメータ空間における行動自体が評価対象となるために、強化学習の繰り返しステップにおいて、実機データに対し、プロセスモデルの挙動が実機に近い挙動を示すように調整され、より実際に近いシミュレータの構築が可能となる。
【００４３】
［実施例１］
本実施例では、本発明のシミュレータによって実際のプラントをシミュレートすることにより、プラントの運転訓練装置を構成する形態について説明する。訓練を受けるオペレータは、図２のオペレータコンソール２２（仮想操作量入力手段、シミュレーテッド状態量出力手段）から、プロセスシミュレータ９２中のエージェント９６に対して、ごみ焼却炉１を操作するのと同様の信号を送信する。エージェント９６は、プラントモデルデータファイル９８から呼び出したパラメータに応じて動作が設定されており、オペレータコンソール２２からの信号に対して、ごみ焼却炉１の振舞いをシミュレートする信号を出力する。
【００４４】
オペレータコンソール２２には、あたかも実際のごみ焼却炉１の運転結果であるかのように、プロセスシミュレータ９２のエージェント９６からの出力が表示される。これにより、実際のごみ焼却炉１を運転することなく、オペレータを訓練することが可能となる。
【００４５】
ここで、実際のプラントの状態が揺らぎを有している場合について説明する。揺らぎは、確率的な振舞いは、操作量の実際の値が実際に把握しきれないもの、現象そのものが変動してしまうものがあるが、その揺らぎの分布と時間的な性質（時間的な変動の性質）によって特徴付けられるものがほとんどである。例えば、１／ｆ揺らぎ等のスペクトル特性を示す現象に対して、長時間での累積データを確率密度関数（例えば正規分布など）で表現することが可能である。これ以外にも、ある時点で性質がステップ的に変動する事象として、その変動のステップの幅に正規分布を仮定し、変動事象の生起確率にポアソン分布を仮定することも可能である。このように適当に数学的に確率事象としてモデリングされる性質を、プラントの操作量（例えば、ゴミの性状）に与えたり、プラントのモデルパラメータに与えたり、あるいは、プラントの状態量に与えることができる。
【００４６】
このように適宜実際のプラントの揺らぎまでの加えてシミュレーションすると、より実際のプラントに近く、オペレータに適切な訓練を行なうことができる。なお、訓練を目的として、この確率を実際の確率とは異なる確率に設定し、訓練の効果を高めるように用いることもできる。
【００４７】
［実施例２］
本実施例では、本発明のシミュレータと組み合わせて異常診断装置を構成する形態を説明する。実際のプラントをシミュレートすることにより得られた時定数Ｔ、ゲインＧ等のパラメータは、エージェント９６の学習後の状態を定めるのみならず、実際のプラントの状態を反映している。このデータは、プラントモデルデータファイル９８に格納されているため、この値の変動をモニターすることで、プラントの運転状態についての情報が得られる。通常の運転では表面化しにくいようなプラント内部の状況を、間接的にではあるものの、監視することができる。これにより、測定可能な状態量以外を用いて、プラントの操業中であってもプラントの異常を診断することができる。
【００４８】
［実施例３］
本実施例では、本発明のシミュレータと組み合わせて運転診断装置を構成する例を説明する。運転診断装置とは今後の運転を検討する装置である。つまり、ある時点で得られているプラントの実測データと、それに基づく上記実施例２の異常診断装置から得られるプラント内部の状態とに合わせて、それ以降のプラントの運転について、運転計画を立てることに役立つ。
【００４９】
プラントの時定数ＴやゲインＧの変化と、操作量や状態量との関係を明らかにすることにより、プラント内部の状況と外部から操作したり測定できる状態量との関係が明らかになる。この関係から、そのプラントにとって最も適した運転方法を与えるような操作量の条件を割り出せば、運転方法の良否を状態量によってのみ管理する場合に比べてより実際を良く反映した運転方法の判定、つまり運転診断が可能となる。これを行なうには、プラントのモデルパラメータの最適値を、予め数値計算などにより求めておくステップと、本発明の装置で実際の運転状況におけるモデルパラメータの値を得るステップと、さらにモデルパラメータの最適値とモデルパラメータの値とを比較するステップを用いる。
【００５０】
［実施例４］
本実施例では、ごみ焼却炉において時間的に磨耗等により炉の厚みが減少する場合に、その炉の内部と外部の温度差を状態量として計測する。さらに、その状態量時間に対して補間式で表現しておいてそのカーブ上の値の空間を可変パラメータ空間とする。本発明のシミュレータによって随時データを更新しながら実際のプラントをシミュレートすることにより、その傾きの経時変化が強化学習の結果として求まる。そのカーブ上での傾きは、実際のプラントにおける過去の運転履歴における炉の厚みの減少速度を表わしているので、同様の運転を続けた場合の炉の寿命に関しても予測することができる。つまり、プラントの炉の寿命が解析できることになる。また、シミュレータが適切に動作する範囲において、仮想操作量を様々に変更してその傾きの変化を見ることにより、炉の寿命がどのように運転状況に依存するかを解析して、寿命にあわせた運転方法の選択をすることが可能となる。
【００５１】
このように、本発明の状態量と操作量の測定データを経時的なものとし、プラントの状態量に式を用いれば、プラント経年変化や残りの耐用年数についての解析が可能となる。
【００５２】
【発明の効果】
プラントにおけるプロセスシミュレーションに強化学習法を用いることにより、逐次的に運転データを反映させることができる。これにより、長期的な燃料の性状変化や経年変化も考慮した実際のプラントの挙動を学習するシミュレータを作製できる。また、各プラント、各焼却炉毎にプロセスモデルを持ち、それぞれに対し強化学習法により学習を行うことにより、各プラント、各焼却炉毎の癖を考慮したその時点での挙動を忠実に模擬できる。その結果、ごみ焼却炉の複雑な挙動をシミューレトした運転の訓練を行なうことが可能となる。また、このシミューレタを用いれば、最適な運転方法の検討や、リスクを最小化した最適化された運転方法を事前に検討し、プラントの挙動をシミュレートすることができる。また、随時実測データを反映させることができてプラントの挙動を解析することができる解析ツールを得ることができる。
【図面の簡単な説明】
【図１】本発明のシミュレータを使用する状況を説明する構成図である。
【図２】本発明の実施の形態における運転訓練を行なう場合における、シミュレータの構成を表わす構成図である。
【図３】強化学習法を用いて行なう本実施の形態のシミュレータの構築方法を説明するフローチャートである。
【図４】強化学習法の一例であるＱ−Ｌｅａｒｎｉｎｇ法の学習方法を説明するフローチャートである。
【符号の説明】
１ごみ焼却炉
２１オペレータ
２２オペレータコンソール
２プラント運転装置
３ネットワーク
４監視センタ
９２プロセスシミュレータ
９４プラント実機運転データファイル
９６エージェント
９８プラントモデルデータファイル
９６２強化学習機能
９６４プロセスモデル

Claims

（ａ）価値関数を初期状態にするステップと、
（ｂ）次いで、予め準備されたプラント実機運転データを用いて、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得るステップと、
（ｃ）前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算するステップと、
（ｄ）ステップ（ｂ）とステップ（ｃ）を、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について繰り返すステップと、
（ｅ）複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習するステップと、
（ｆ）得られた価値関数を用いて得られる学習されたパラメータに基づきシミュレーションを行なうステップと
を含んでなるプラント動作のシミュレーション方法。
（ｇ）仮想操作量を受付けるステップと、
（ｈ）前記学習されたパラメータに基づき、該仮想操作量に応じて前記モデル計算を行なうステップと、
（ｉ）モデル計算で得られた状態量を出力するステップと
をさらに含む請求項１に記載のプラント動作のシミュレーション方法。
前記予め準備されたプラント実機運転データが経時的データであり、
（ｊ）異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力するステップ
をさらに含む請求項１に記載のプラント動作のシミュレーション方法。
前記価値関数は、所与の状態においてある行動に対して将来期待できる収益を価値として、その状態ｓにおいて行動ａを採用する価値を状態ｓと行動ａの関数である行動価値関数であり、これにより、前記強化学習をＱ−Ｌｅａｒｎｉｎｇ法によって行なう、請求項１〜３のいずれかに記載のシミュレーション方法。
請求項１〜４のいずれかに記載の各ステップをコンピュータに実行させるためのプログラム。
演算手段、記憶手段、入力手段、出力手段を備えたコンピュータを含んでなるシミュレータであって、
予め準備されたプラント実機運転データを該記憶手段に格納し、
演算手段は、
該実機運転データを用いて、プラント実機運転データにおける操作量と状態量との関係を定めるパラメータ空間にある複数のパラメータの各々について、ある操作量に対して予め作成されたプロセスモデルによりモデル計算を実行して状態量を得ることと、前記操作量と計算された状態量とプラント実機運転データを用いて報酬を計算することとを繰り返し、複数のパラメータに対して計算された報酬に基づいて強化学習を行なうことにより報酬の合計である収益を最大化するような方策を、前記価値関数を用いて学習して、その学習した方策を該記憶手段に格納するものであり、
該学習された方策から定まるパラメータとに基づいて、該入力手段により受付けた入力量に応じて該モデル計算を実行してシミュレーションを行なうプラント動作のシミュレータ。
仮想操作量入力手段と、
シミュレーテッド状態量出力手段と
をさらに備え、
前記コンピュータは、前記学習した方策を呼び出して、該学習された方策から定まるパラメータとに基づいて、該仮想操作量入力手段からの該仮想操作量に応じて該モデル計算を実行し、
該仮想操作量に対応するシミュレーテッド状態量を前記シミュレーテッド状態量出力手段に出力することにより、前記プラントのオペレータの訓練を行なう請求項６に記載のプラント動作シミュレータ。
前記予め準備されたプラント実機運転データが経時的データであり、異なる時刻における学習後の前記方策に基づくパラメータの値を比較して、該比較した結果を出力することにより、プラントの状態を解析する請求項６に記載のプラント動作シミュレータ。