JP3960286B2 - 適応型制御器、適応型制御方法および適応型制御プログラム - Google Patents

適応型制御器、適応型制御方法および適応型制御プログラム Download PDF

Info

Publication number
JP3960286B2
JP3960286B2 JP2003314621A JP2003314621A JP3960286B2 JP 3960286 B2 JP3960286 B2 JP 3960286B2 JP 2003314621 A JP2003314621 A JP 2003314621A JP 2003314621 A JP2003314621 A JP 2003314621A JP 3960286 B2 JP3960286 B2 JP 3960286B2
Authority
JP
Japan
Prior art keywords
control signal
state
sampling
probability distribution
initial state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003314621A
Other languages
English (en)
Other versions
JP2005084834A (ja
Inventor
潤一郎 吉本
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003314621A priority Critical patent/JP3960286B2/ja
Publication of JP2005084834A publication Critical patent/JP2005084834A/ja
Application granted granted Critical
Publication of JP3960286B2 publication Critical patent/JP3960286B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Description

本発明は、マルコフ決定過程として定式化される制御問題に対する適応型制御器、適応型制御方法および適応型制御プログラムの構成に関する。
「マルコフ決定過程」として定式化される制御問題は、ロボット、プラント、移動機械(電車、自動車)などの自律的制御問題として、幅広い応用を持つ重要な技術である。
ここで、「マルコフ決定過程」とは、対象とする物理システムの時間発展がマルコフ過程として記述される際に、物理システムの理想的な状態からの距離(以下、「コスト」と呼ぶ)を手がかりにして行う制御問題のことである。なお、この明細書では、対象の時間発展が近似的にマルコフ過程にしたがう場合、履歴を用いると履歴までを含めた状態についてマルコフ過程にしたがう場合、あるいは決定論的である場合などを全て含んで、「マルコフ決定過程」と呼ぶことにする。
マルコフ決定過程に対する最適制御に関する重要な従来技術には多くあるが、本発明との関連では、以下に特に重要であるものを2種説明する。
1つは、コストの累積和(以下、「期待累積コストJと呼ぶ)を獲得し、その期待累積コストを最小化するとして制御規則(以下、「方策」と呼ぶ)を決める手法である。この手法には、動的計画法によるもの(たとえば、非特許文献1、非特許文献2を参照)、TD学習法(たとえば、非特許文献3、非特許文献4を参照)によるものの2種がある。これらに関しては莫大な技術蓄積がある。
しかし、動的計画法では、状態数の3乗のオーダーで計算量および記憶が必要であり、状態数が多いような実問題、あるいはロボットなどの状態が連続的であるような制御問題に応用することは困難である。また、古典的最適制御(リカッチ方程式によるもの)では、連続システムの制御を行うことができるが、対象システムが線形システムでないとならない。一方で、TD学習法は、適当な関数近似器を用いて逐次的に期待累積コストを近似することができるため連続システムに応用することができ、また確率近似法を用いて未知システムに応用することが出来る一方で、制御器の構成が本来関係の少ないはずの期待累積コストの近似に大きく依存するため、応用できる対象が限られ、かつそのクラスが不明確な場合が多い。また関数近似器を適切に選ぶことは設計者の経験に委ねられているため、特に対象システムが複雑になる(例えばヒューマノイドロボットなど)場合に適応が困難であったという問題があった。
もう一つの従来技術は、直接最適な制御方式を探索する手法であり、例えば網羅的探索法(たとえば、非特許文献5を参照)がこれに属するが、さらに多くの計算量を必要とする。また、関数近似器を用いて方策を近似し、期待累積コストの勾配に基づき逐次的に方策を更新する方策勾配法(たとえば、非特許文献6、非特許文献7を参照)があり、強化学習法の構成法に比べて安定性が高い一方で、方策の最適性の判定が困難であるため、手続きの停止条件が明確でなく、また関数近似器に大きく依存しているという問題点がある。
Bellman, R. E.: Dynamic Programming, Princeton University Press, Princeton, NJ (1957)。 Howard, R. : Dynamic Programming and Markov Processes, MIT Press, Cambridge, MA(1960)。 Barto, A. G., Sutton, R. S. and Anderson, C. W.: Neuron-like elements that can solve difficult learning control problems, IEEE Transaction on Systems, Man, and Cybernetics, Vol. 13, pp.835- 846 (1983)。 Doya, K.: Reinforcement learning in continuous time and space, Neural Computation, Vol. 12, pp. 243-269 (2000)。 Gosavi、 A∴ Simulation-Based Optimization: Parametric Optimization Techniques and Reinforcement Learning, Kluwer Academic Publishers (2003)。 Kimura, H., Yamamura, M. and Kobayashi, S.: Reinforcement Learning by Stochastic Hill Climbing on Discounted Reward, Proceedings of the 12th International Conference on Machine Learning pp. 295-303 (1995)。 Williams, R. J.: Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning, Machine Learning, Vol. 8, pp. 229-256 (1992)。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、対象システムの時間発展が複雑な場合で、古典的制御法の適用が困難な問題に対しても、計算量を抑制して制御することが可能な適応型制御器、適応型制御方法および適応型制御プログラムを提供することである。
このような目的を達成するために、本発明の適応型制御器は、対象とする物理システムの時間発展がマルコフ過程として記述される際に、物理システムの状態に対する制御量を決定する適応的制御器であって、物理システムの目標とすべき状態量を検知する状態量検知手段と、状態量を目標値に制御するための制御信号を、適応的に生成する制御信号生成手段とを備え、制御信号生成手段は、状態量検知手段により検知された物理システムの状態量の時系列である物理システム状態情報系列と各状態量に基づいて確率的方策の確率分布にしたがって時系列として算出された制御信号からなる制御信号系列との出現確率分布に基づき、物理システムの状態量が目標値に近づくことに応じて最大となるコスト関数の時系列の時刻ごとの和の出現確率分布に対する期待値と、出現確率分布の対数の出現確率に対する期待値で定義されるエントロピーの差である自由エネルギーを最小とする自由エネルギー最小化確率分布を算出する確率分布算出手段と、算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、確率的方策を算出して決定する確率的方策算出手段とを含み、
決定された確率的方策により制御信号を生成する。
好ましくは、適応型制御器は、記憶手段をさらに備え、制御信号生成手段は、状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングする初期状態サンプリング手段と、制御信号の可変範囲内から制御信号を一様に第1の所定数だけサンプリングする制御信号サンプリング手段と、初期状態のサンプリング結果と、制御信号のサンプル結果とを記憶手段に時系列として格納するためのスタック手段と、各サンプリングされた初期状態および制御信号に対する重みを、サンプリングされた初期状態および制御信号に対するコスト関数Cと所定の定数βとにより算出される値のexp[−βC]とサンプリングされた初期状態への状態遷移確率との比として算出するための重み算出手段と、重みにしたがって、記憶手段から、初期状態のサンプリング結果と制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び格納するための再サンプリング手段と、再サンプリングされた初期状態と制御信号との時系列に基づいて、状態遷移確率分布にしたがって、次のタイミングの状態を第1の所定数だけサンプリングする手段とを含み、確率分布算出手段は、サンプリングされた時系列に基づいて、出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出する。
好ましくは、制御信号生成手段は、確率的方策の確率分布による制御信号の平均に基づいて、決定論的方策を算出する手段をさらに備える。
この発明の他の局面にしたがうと、対象とする物理システムの時間発展がマルコフ過程として記述される際に、物理システムの状態に対する制御量を決定する適応的制御方法であって、物理システムの状態量を獲得するステップと、状態量を目標値に制御するための制御信号を、適応的に生成するステップとを備え、適応的に生成するステップは、状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングするステップと、制御信号の可変範囲内から制御信号を一様に第1の所定数だけサンプリングするステップと、初期状態のサンプリング結果と、制御信号のサンプル結果とを記憶手段に時系列として格納するステップと、各サンプリングされた初期状態および制御信号に対する重みを、サンプリングされた初期状態および制御信号に対するコスト関数Cと所定の定数βとにより算出される値のexp[−βC]とサンプリングされた初期状態への状態遷移確率との比として算出するステップと、重みにしたがって、記憶手段から、初期状態のサンプリング結果と制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び格納するステップと、再サンプリングされた初期状態と制御信号との時系列に基づいて、状態遷移確率分布にしたがって、次のタイミングの状態を第1の所定数だけサンプリングするステップと、サンプリングされた時系列に基づいて、出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出するステップと、算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、確率的方策を算出するステップとを含む。
この発明のさらに他の局面に従うと、対象とする物理システムの時間発展がマルコフ過程として記述される際に、物理システムの状態に対する制御量を決定する適応的制御方法を演算手段と記憶手段とを備えるコンピュータに実行させるためのプログラムであって、演算手段が、物理システムの状態量を獲得するステップと、演算手段が、状態量を目標値に制御するための制御信号を、適応的に生成するステップとを備え、適応的に生成するステップは、演算手段が、状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングするステップと、演算手段が、制御信号の可変範囲内から制御信号を一様に第1の所定数だけサンプリングするステップと、演算手段が、初期状態のサンプリング結果と、制御信号のサンプル結果とを記憶手段に時系列として格納するステップと、演算手段が、各サンプリングされた初期状態および制御信号に対する重みを、サンプリングされた初期状態および制御信号に対するコスト関数Cと所定の定数βとにより算出される値のexp[−βC]とサンプリングされた初期状態への状態遷移確率との比として算出するステップと、演算手段が、重みにしたがって、記憶手段から、初期状態のサンプリング結果と制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び記憶手段に格納するステップと、演算手段が、再サンプリングされた初期状態と制御信号との時系列に基づいて、状態遷移確率分布にしたがって、次のタイミングの状態を第1の所定数だけサンプリングするステップと、演算手段が、サンプリングされた時系列に基づいて、出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出するステップと、演算手段が、算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、確率的方策を算出するステップとを含む。
本発明の適応型制御器、適応型制御方法および適応型制御プログラムでは、制御器を確率的制御器とすることで、期待累積コストを計算する動的計画法や直接方策を探索する網羅的探索法における計算量の削減を行うことが可能である。
本発明によれば、また、逐次重点サンプリング法を用いて直接方策を探索することで、価値または方策に関数近似器を用いる必要はない。さらに、期待累積コストを直接最大化することを行うため、その近似を行う必要がない。そのため、設計者の負荷を極力抑えることができる一方で、期待累積コストの推定に伴う安定性の欠如から逃れることが可能となる。
以下、図面を参照して本発明の実施の形態について説明する。
以下の説明で明らかとなるとおり、本発明は、ロボット、プラント、移動機械(電車、自動車)などの自律的制御問題として、幅広い応用を持つ。
ただし、以下では、本発明の具体的な適用例として、特に簡単なロボットの自動制御問題を対象として説明を行う。しかしながら、本発明は、このような応用に限定されるものではなく、より一般的に、対象システムの時間発展が複雑な場合の対象システムの制御に適用することができる。そのようなものの例としては、巨大プラント(溶鉱炉、原子力プラント)、マルチリンクロボット(ヒューマノイドロボット)、ノンホロノームシステム(宇宙ステーション)、地下鉄ホームでの人の流れなどがある。これらは、いずれも古典的制御法での制御が困難であり、かつ重要な制御対象である。
(1.本発明のシステム構成)
図1は、本発明の適応型制御方法および適応型制御プログラムが適用される適応型制御器を用いたシステム1000の一例を示す概念図である。
図1を参照して、システム1000は、制御対象となる被制御装置200と、この被制御装置200に対して制御信号を与えるためのコンピュータ100とを備える。
図1を参照してこのコンピュータ100は、CD−ROM(Compact Disc Read-Only Memory )上の情報を読込むためのCD−ROMドライブ108およびフレキシブルディスク(Flexible Disk、以下FD)116に情報を読み書きするためのFDドライブ106を備えたコンピュータ本体102と、コンピュータ本体102に接続された表示装置としてのディスプレイ104と、同じくコンピュータ本体102に接続された入力装置としてのキーボード110およびマウス112とを含む。
図2は、このコンピュータ100の構成をブロック図形式で示す図である。
図2に示されるように、このコンピュータ100を構成するコンピュータ本体102は、CD−ROMドライブ108およびFDドライブ106に加えて、それぞれバスBSに接続されたCPU(Central Processing Unit )120と、ROM(Read Only Memory) およびRAM (Random Access Memory)を含むメモリ122と、直接アクセスメモリ装置、たとえば、ハードディスク124と、被制御装置200とデータの授受を行うための通信インタフェース128とを含んでいる。CD−ROMドライブ108にはCD−ROM118が装着される。FDドライブ106にはFD116が装着される。
被制御装置200からは、コンピュータ100に対して被制御装置200の状態を示すパラメータ(状態量)の情報、たとえば、被制御装置200の可動部分の位置、速度、加速度、角度、角速度等の情報が与えられる。一方、コンピュータ100からは、被制御装置200に対して、これら状態量を制御するための制御情報が制御信号として与えられる。
なお、CD−ROM118は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)やメモリカードなどでもよく、その場合は、コンピュータ本体102には、これらの媒体を読取ることが可能なドライブ装置が設けられる。
本発明の適応型制御器の主要部は、コンピュータハードウェアと、CPU120により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはCD−ROM118、FD116等の記憶媒体に格納されて流通し、CD−ROMドライブ108またはFDドライブ106等により記憶媒体から読取られてハードディスク124に一旦格納される。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク124にコピーされる。そうしてさらにハードディスク124からメモリ122中のRAMに読出されてCPU120により実行される。なお、ネットワーク接続されている場合には、ハードディスク124に格納することなくRAMに直接ロードして実行するようにしてもよい。
図1および図2に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、FD116、CD−ROM118、ハードディスク124等の記憶媒体に記憶されたソフトウェアである。
なお、一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該適応型制御器を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて適応型制御器が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体(およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号)が実施の形態を構成すると考えることができる。
(適応型制御方法)
本発明の構成について、概説すると、制御器を確率的制御器とすることで、期待累積コストを計算する動的計画法や直接方策を探索する網羅的探索法における計算量の削減を行う。また、逐次重点サンプリング法を用いて直接方策を探索することで、価値または方策に関数近似器を用いる必要はない。さらに、期待累積コストを直接最大化することを行うため、その近似を行う必要がない。そのため、設計者の負荷を極力抑えることができる一方で、期待累積コストの推定に伴う安定性の欠如から逃れることができる。
(適応型制御器の構成)
(2.マルコフ決定過程)
本節では、本発明の適用対象となるマルコフ決定過程を数学的に定義し、その具体的な問題例を示す。
2.1 定義
図3は、マルコフ決定過程の概念を簡潔に示した概念図である。
マルコフ決定過程では、確率分布P1にしたがって、制御対象の初期状態x1が選択される。すなわち、x1〜P1(x1)である。各時刻kにおいて状態xを観測すると、制御器は確率的方策と呼ばれる確率分布πk(u|x)にしたがって制御信号u∈Uを出力することができる。ここで、Uは制御対象に入力可能な制御信号の集合である。(x,u)が決定されると、制御器にはコストC(x,u)が与えられ制御対象の状態xkは状態遷移確率分布T(xk+1|x,u)にしたがって状態xk+1へ遷移する。
マルコフ決定過程の重要な性質は、いったんK(K≫0)時刻目までの確率的方策系列π≡{π1,…,πK}が決定されると状態系列X1:K≡{x1,…,xK}と、制御信号系列U1:K≡{u1,…,uK}の出現確率分布に関して以下のマルコフ性が成り立つことである。
Figure 0003960286
ここで、T(x1|x0,u0)≡P1(x1)である。この確率分布を用いて、方策πの良し悪しは以下で定義される期待コストの時間累積和を用いて評価することができる。
Figure 0003960286
ここで、式(2)において、右辺の関数は、以下のように定義される。
Figure 0003960286
この評価基準を用いて最適な方策π*は以下で定義される。
Figure 0003960286
ここで、Πはあらゆる可能な確率的方策の集合である。
2.2 被制御装置200の具体例
図4は、上述したとおり、本発明の適応型制御器の構成および動作を説明すための具体例の単振り子を示す図であり、図4(a)は、単振り子の外観を示し、図4(b)は、単振り子のモデルを示す概念図である。
図4で示される単振子の制御問題はマルコフ決定過程で定式化される制御問題の典型的な例である。この間題において各時刻kにおける状態xは、以下の式で表されるとおり、振り子の角度および角速度を用いて、定義することができる。
Figure 0003960286
ここで、プライム記号(′)は転置を表している。初期状態x1は振子が垂れ下がりで静止していることに相当する以下の条件の下で、決定論的に与えられる。
Figure 0003960286
すなわち、P1(x1)は、以下の式で表される。
Figure 0003960286
ここで、δ(・)はディラック(Dirac)のデルタ関数である。物理法則より、現在の状態xと振子に対するトルクuが与えられると状態xは以下の微分方程式にしたがって時間発展する。
Figure 0003960286
ここで、Mは振子の質量、Lは振子の長さ、μは摩擦係数、gは重量加速度である。離散時刻kからk+1までの物理的時間間隔を△tとし、△tが十分に小さな値であるとすると状態変数の時間発展式は以下で近似的に与えることができる。
Figure 0003960286
また、実世界ではシステムや観測装置に外乱が入る。△tが十分に小さい場合、その外乱が分散σ2の白色ガウスノイズとみなすことができるので、状態遷移確率分布T(xk+1|x,u)は以下で与えられる。
Figure 0003960286
ここで、‖・‖はユークリッドノルムである。
単振子の制御問題の目的は、適切なトルクuk∈[Umin,Umax]を出力することによって、倒立位置(図中の目標状態)で振子を静止させる、すなわち、以下の条件が満たされるような制御器を設計することである。
Figure 0003960286
ここで、Umax(Umin)は制御器が出力できる最大(最小)トルク量である。したがって、制御信号は制御トルク量ukと同一視でき、U∈[Umin,Umax]である。また、この制御の目的に対応したコスト関数は以下で与えられることができる。
Figure 0003960286
ここで、νi∈(0,∞)(i=1,2,3)は、所定の定数である。
なお、コスト関数の関数形は、必ずしも上記のような形状に限定されず、制御される物理システムの状態量が目標値に近づくことに応じて最大となるなるような関数形とすることができる。
以上の初期状態分布P1、状態遷移確率T、コスト関数cによって定式化されるマルコフ決定過程において最適方策を求めることができれば、倒立位置で振子を静止させるような制御器を実現することができる。
なお、以下の説明で明らかとなるように、本発明は、必ずしも、倒立位置で振子を静止させるような制御器への適用に限定されるものではなく、一般的に、「マルコフ決定過程」とみなせるような物理システムの制御に適用可能なものである。
(3.本発明の原理とコンピュータ100への実装法)
本節では、本発明の設計原理を数理工学的な観点から述べ、具体的な実装法について説明する。
3.1 設計原理
確率分布pπ(以下、本文中では、pに下付添え字πがつけられているものを「pπ」で表す)に関する自由エネルギーを以下で定義し、その最小化問題を考える。
Figure 0003960286
ここで、β∈(0,∞)は逆温度と呼ばれる定数であり、H[π]は確率分布pπのエントロピーと呼ばれている。
β→0の極限では、自由エネルギーはエントロピーH[π]のみに依存するので、自由エネルギーを最小にする確率分布は、以下の式を満たす一様分布となる。
Figure 0003960286
一方、βが大きくなるにつれて自由エネルギー対するJ[π]の影響が大きくなる。特に、β→∞の極限では、(自由エネルギー)→J[π]となり、自由エネルギーの最小化問題は期待累積コストJの最小化問題と等価になる。したがって、自由エネルギーをβ≫0の条件の下で、最小化する確率分布を「自由エネルギー最小化確率分布」と呼び、以下の記号で表す。
Figure 0003960286
この「自由エネルギー最小化確率分布」は、最適方策に対応するマルコフ連鎖の近似を与えることになる。以下では、最適方策に対応するマルコフ連鎖を「最適方策マルコフ連鎖」と呼び、以下の記号で表す。
Figure 0003960286
変分原理に基づけば、自由エネルギー(8)式を最小にする確率分布(自由エネルギー最小化確率分布)は以下で与えられることが分かる。
Figure 0003960286
ここで、Zは、自由エネルギー最小化確率分布が確率条件を満たすための正規化項であり、以下で与えられる。
Figure 0003960286
いったん自由エネルギー最小化確率分布が求められると、それに対応する確率的方策は以下で求めることができる。
Figure 0003960286
ただし、X- ≡{x1,…,xK-1,xk+1,…,xK}およびU- ≡{u1,…,uK-1,uk+1,…,uK}である。
また、実際に制御を行う場合には、確率的方策よりも決定論的な制御方策を用いた方が便利な場合がある。その場合には、決定論的方策μkは確率的方策πkの期待値を用いて以下で与えることができる。
Figure 0003960286
確率分布(9)式を解析的に求めることは困難であるが、本発明では、マルコフ連鎖モンテカルロ法の一種である逐次重点サンプリング法を用いて近似的にその分布を獲得する。なお、このような「逐次重点サンプリング法」については、文献:” Andrieu, C,. de Freitas, N., Doucet, A. and Jordan, M. I.: An Introduction to MCMC for Machine Learning, Machine Learning, Vol. 50, No. 1-2, pp. 5-43 (2003)”に詳しく開示されている。
3.2 コンピュータ100への実装
以上の発明原理に基づいて、本発明は以下の手続きによってコンピュータソフトウェアとして実装できる。
以下、その手続きについてまとめる。
図5および図6は、このようなコンピュータプログラムの処理の流れを説明するためのフローチャートである。
1.まず、CPU120により、たとえば、メモリ122中に格納されているパラメータである、逆温度β、サンプリング数I、制御時間ステップ数Kを制御問題に適合するように設定する(ステップS100)。
2.続いて、CPU120は、初期状態分布P1にしたがって、初期状態xkをI個サンプリングする(ステップS102)。
ここで、状態xKに関するi番目のサンプル値を以下の式で表すことにする。
Figure 0003960286
このとき、以下の関係が成り立つ。
Figure 0003960286
3.さらに、CPU120は、ソフトウェアにしたがって、各k=1,…,Kに対して以下の手続き(ステップS104〜S120)を行う。
まず、変数kの値を1に初期設定する(ステップS104)。
(a)集合Uから制御信号ukを一様にサンプリングする(ステップS106)。制御信号ukに関するi番目のサンプル値を以下の式で表す。
Figure 0003960286
このとき、以下の関係が成り立つ。
Figure 0003960286
ここで、c0は所定の定数である。
(b)サンプリング結果を以下のようにメモリ上にスタックする(ステップS108)。
Figure 0003960286
(c)各サンプルi=1,…,Iに対して、サンプリング重みを以下で計算する(ステップS110)。
Figure 0003960286
(d)各サンプルi=1,…,Iに対するサンプリング重みを以下で正規化する(ステップS112)。
Figure 0003960286
(e)各i=1,…,Iに対して以下の手続きを行う。
i)メモリインデクスj={1,…,I}からサンプリング重みw(j) kの確率にしたがって、1つをサンプリングする(ステップS114)。ここで、サンプリングされたインデクスをj(i)と表す。
ii)新たなメモリ領域に以下のように保存する(ステップS116)。
Figure 0003960286
(f)状態遷移確率分布Tにしたがって、状態xk+1をI個サンプリングする(ステップS118)。すなわち、以下の関係が成り立つ。
Figure 0003960286
k=Kならばループを抜けて(ステップS120)処理をステップS124へ移行させる。一方、k≠Kならば、kの値を1だけインクリメントして、処理をステップS106に復帰させる。
4.CPU120は、サンプリング軌道{(x(i) 1:K,u(i) 1:K)|i=1,…,I}を用いて自由エネルギー最小化確率分布を以下で表現する(ステップS124)。
Figure 0003960286
ここで、以下のことが言える。
Figure 0003960286
5.確率分布(11)に対応する確率的方策を以下で求める(ステップS126)。
Figure 0003960286
ここで、以下のことが言える。
Figure 0003960286
6.確率的方策に対応する決定論的方策μkを以下で求める(ステップS128)。
Figure 0003960286
ここで、決定論的方策μkについて、以下のことが言える。
Figure 0003960286
以上の手続きで、最適な制御信号uを求めることができる。
(4.適用例:倒立振子の制御問題)
本発明の適用例として、2.2節で述べた単振子の制御問題へ適用した計算機シミュレーションの結果を示す。物理システムのパラメータは、M=L=1、μ=0.01、g=9.8に設定し、外乱として分散σ2=0.0001の白色ガウス雑音を与えた。
振子の状態を観測し、制御トルクを入力する時間間隔は△t=0.02に設定し、制御過程の全時間ステップはK=700とした。コスト関数のパラメータはν1=1.0,ν2=0.01,ν3=0.0とした。逆温度パラメータはβ=1000に設定した。
また、制御器が出力できる制御トルクの最大(最小)値をUmax=5(Umin=−5)に制約した。この制約のため、倒立位置まで振り上げるためには垂れ下がりの位置付近では何度か振って勢いをつける必要がある。したがって、線形制御理論ではこの最適制御器を設計することはできない。
図7〜図9は、3.2節のステップS124によって求められた状態および制御信号軌道のサンプリング結果を示している。図7は、角度qの時間変化を、図8は角速度の時間変化を、図9は制御トルクの時間変化をそれぞれ示す。
結果的に、振子を振り上げて静止するための制御トルク系列U1:Kとそれによって実現される状態の軌道X1:Kほど多くのサンプル値が集中していることが分かる。
また、図10は、3.2節のステップS128によって求められた決定論的制御方策によって実現された制御の様子を示している。
図10(a)は制御対象である単振子の動きをストロボ的に表示したものである。図10(b)は、制御時に観測された状態および出力されたトルクの時系列を表している。
ここで、実線、破線、点線は、それぞれ 出力トルク量、振子の角度、および、角速度に対応している。図10より、目標としていた制御が実現されていることが分かる。
以上説明したとおり、本発明では、マルコフ決定過程として定式化される制御問題に対する制御設計法を実現している。制御器を確率的制御器とすることで、期待累積コストを計算する動的計画法や直接方策を探索する網羅的探索法における計算量の削減を行う。また、逐次重点サンプリング法を用いて直接方策を探索することで、価値または方策に関数近似器を用いる必要はない。さらに、期待累積コストを直接最大化することを行うため、その近似を行う必要がない。そのため、設計者の負荷を極力抑えることができる一方で、期待累積コストの推定に伴う安定性の欠如から逃れることができるといった特徴を有する。
以上の説明では、マルコフ決定過程の性質(初期状態分布、状態遷移確率、コスト関数)が既知であることを仮定しているが、既存の関数近似法や確率分布推定法と組み合わせれば、上記の性質が未知の場合にも応用することができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の適応型制御方法および適応型制御プログラムが適用される適応型制御器を用いたシステム1000の一例を示す概念図である。 コンピュータ100の構成をブロック図形式で示す図である。 マルコフ決定過程の概念を簡潔に示した概念図である。 本発明の適応型制御器の構成および動作を説明すための具体例の単振り子を示す図であり、(a)は、単振り子の外観を示し、(b)は、単振り子のモデルを示す概念図である。 コンピュータプログラムの処理の流れを説明するための第1のフローチャートである。 コンピュータプログラムの処理の流れを説明するための第2のフローチャートである。 求められた状態(角度q)のサンプリング結果を示す図である。 求められた状態(角速度)のサンプリング結果を示す図である。 制御信号軌道(トルク)のサンプリング結果を示す図である。 決定論的制御方策によって実現された制御の様子を示す図であり、(a)は制御対象である単振子の動きをストロボ的に表示し、(b)は、制御時に観測された状態および出力されたトルクの時系列を表す。
符号の説明
100 コンピュータ、102 コンピュータ本体、104 ディスプレイ、106 FDドライブ、108 CD−ROMドライブ、110 キーボード110、112 マウス、114 無線通信装置、118 CD−ROM、120 CPU、122 メモリ、124 ハードディスク、128 通信インタフェース、200 被制御装置、1000 システム。

Claims (5)

  1. 対象とする物理システムの時間発展がマルコフ過程として記述される際に、前記物理システムの状態に対する制御量を決定する適応的制御器であって、
    前記物理システムの目標とすべき状態量を検知する状態量検知手段と、
    前記状態量を目標値に制御するための制御信号を、適応的に生成する制御信号生成手段とを備え、
    前記制御信号生成手段は、
    前記状態量検知手段により検知された前記物理システムの前記状態量の時系列である物理システム状態情報系列と各前記状態量に基づいて確率的方策の確率分布にしたがって時系列として算出された制御信号からなる前記制御信号系列との出現確率分布に基づき、前記物理システムの前記状態量が前記目標値に近づくことに応じて最大となるコスト関数の前記時系列の時刻ごとの和の前記出現確率分布に対する期待値と、前記出現確率分布の対数の前記出現確率に対する期待値で定義されるエントロピーの差である自由エネルギーを最小とする自由エネルギー最小化確率分布を算出する確率分布算出手段と、
    前記算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、前記確率的方策を算出して決定する確率的方策算出手段とを含み、
    決定された前記確率的方策により前記制御信号を生成する、適応型制御器。
  2. 記憶手段をさらに備え、
    前記制御信号生成手段は、
    前記状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングする初期状態サンプリング手段と、
    制御信号の可変範囲内から制御信号を一様に前記第1の所定数だけサンプリングする制御信号サンプリング手段と、
    前記初期状態のサンプリング結果と、前記制御信号のサンプル結果とを前記記憶手段に時系列として格納するためのスタック手段と、
    各前記サンプリングされた初期状態および制御信号に対する重みを、前記サンプリングされた初期状態および制御信号に対する前記コスト関数Cと所定の定数βとにより算出される値のexp[−βC]と前記サンプリングされた初期状態への状態遷移確率との比として算出するための重み算出手段と、
    前記重みにしたがって、前記記憶手段から、前記初期状態のサンプリング結果と前記制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び格納するための再サンプリング手段と、
    前記再サンプリングされた前記初期状態と前記制御信号との時系列に基づいて、前記状態遷移確率分布にしたがって、次のタイミングの状態を前記第1の所定数だけサンプリングする手段とを含み、
    前記確率分布算出手段は、サンプリングされた時系列に基づいて、前記出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出する、請求項1記載の適応型制御器。
  3. 前記制御信号生成手段は、前記確率的方策の確率分布による前記制御信号の平均に基づいて、決定論的方策を算出する手段をさらに備える、請求項2記載の適応型制御器。
  4. 対象とする物理システムの時間発展がマルコフ過程として記述される際に、前記物理システムの状態に対する制御量を決定する適応的制御方法であって、
    前記物理システムの状態量を獲得するステップと、
    前記状態量を目標値に制御するための制御信号を、適応的に生成するステップとを備え、
    前記適応的に生成するステップは、
    前記状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングするステップと、
    制御信号の可変範囲内から制御信号を一様に前記第1の所定数だけサンプリングするステップと、
    前記初期状態のサンプリング結果と、前記制御信号のサンプル結果とを前記記憶手段に時系列として格納するステップと、
    各前記サンプリングされた初期状態および制御信号に対する重みを、前記サンプリングされた初期状態および制御信号に対するコスト関数Cと所定の定数βとにより算出される値のexp[−βC]と前記サンプリングされた初期状態への状態遷移確率との比として算出するステップと、
    前記重みにしたがって、前記記憶手段から、前記初期状態のサンプリング結果と前記制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び格納するステップと、
    前記再サンプリングされた前記初期状態と前記制御信号との時系列に基づいて、状態遷移確率分布にしたがって、次のタイミングの状態を前記第1の所定数だけサンプリングするステップと、
    サンプリングされた時系列に基づいて、前記出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出するステップと、
    前記算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、前記確率的方策を算出するステップとを含む、適応型制御方法。
  5. 対象とする物理システムの時間発展がマルコフ過程として記述される際に、前記物理システムの状態に対する制御量を決定する適応的制御方法を演算手段と記憶手段とを備えるコンピュータに実行させるためのプログラムであって、
    前記演算手段が、前記物理システムの状態量を獲得するステップと、
    前記演算手段が、前記状態量を目標値に制御するための制御信号を、適応的に生成するステップとを備え、
    前記適応的に生成するステップは、
    前記演算手段が、前記状態量の初期値として検知される値をゼロ点とするデルタ関数で表現される初期状態分布にしたがって、初期状態を第1の所定数だけサンプリングするステップと、
    前記演算手段が、制御信号の可変範囲内から制御信号を一様に前記第1の所定数だけサンプリングするステップと、
    前記演算手段が、前記初期状態のサンプリング結果と、前記制御信号のサンプル結果とを前記記憶手段に時系列として格納するステップと、
    前記演算手段が、各前記サンプリングされた初期状態および制御信号に対する重みを、前記サンプリングされた初期状態および制御信号に対するコスト関数Cと所定の定数βとにより算出される値のexp[−βC]と前記サンプリングされた初期状態への状態遷移確率との比として算出するステップと、
    前記演算手段が、前記重みにしたがって、前記記憶手段から、前記初期状態のサンプリング結果と前記制御信号のサンプル結果とを再サンプリングし、再サンプリングの結果を時系列として再び前記記憶手段に格納するステップと、
    前記演算手段が、前記再サンプリングされた前記初期状態と前記制御信号との時系列に基づいて、状態遷移確率分布にしたがって、次のタイミングの状態を前記第1の所定数だけサンプリングするステップと、
    前記演算手段が、サンプリングされた時系列に基づいて、前記出現確率分布に対応する自由エネルギーを最小とする自由エネルギー最小化確率分布を算出するステップと、
    前記演算手段が、前記算出された自由エネルギー最小化確率分布から、各時刻の状態量が与えられたときの各時刻の制御信号を生成する条件付き確率へと変換することによって、前記確率的方策を算出するステップとを含む、
    適応型制御方法をコンピュータに実行させるための適応型制御プログラム。
JP2003314621A 2003-09-05 2003-09-05 適応型制御器、適応型制御方法および適応型制御プログラム Expired - Fee Related JP3960286B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003314621A JP3960286B2 (ja) 2003-09-05 2003-09-05 適応型制御器、適応型制御方法および適応型制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003314621A JP3960286B2 (ja) 2003-09-05 2003-09-05 適応型制御器、適応型制御方法および適応型制御プログラム

Publications (2)

Publication Number Publication Date
JP2005084834A JP2005084834A (ja) 2005-03-31
JP3960286B2 true JP3960286B2 (ja) 2007-08-15

Family

ID=34415158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003314621A Expired - Fee Related JP3960286B2 (ja) 2003-09-05 2003-09-05 適応型制御器、適応型制御方法および適応型制御プログラム

Country Status (1)

Country Link
JP (1) JP3960286B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5046149B2 (ja) * 2006-08-01 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 報酬を得るための最適な施策を決定する技術
JP4586129B2 (ja) * 2008-03-25 2010-11-24 独立行政法人沖縄科学技術研究基盤整備機構 制御器、制御方法および制御プログラム
JP5150371B2 (ja) * 2008-05-30 2013-02-20 学校法人沖縄科学技術大学院大学学園 制御器、制御方法および制御プログラム
JP5391164B2 (ja) * 2010-08-23 2014-01-15 日本電信電話株式会社 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
JP5868104B2 (ja) 2011-09-30 2016-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2005084834A (ja) 2005-03-31

Similar Documents

Publication Publication Date Title
CN112247992B (zh) 一种机器人前馈力矩补偿方法
Kala et al. Robotic path planning in static environment using hierarchical multi-neuron heuristic search and probability based fitness
US8653968B2 (en) Systems and methods for predictive building energy monitoring
US8346711B2 (en) Method for identifying multi-input multi-output Hammerstein models
JP2013205170A (ja) 情報処理装置、情報処理方法、およびプログラム
Doherty et al. Bayesian generalized kernel inference for occupancy map prediction
JP2007065929A (ja) 制御器、制御方法および制御プログラム
CN111260124A (zh) 一种基于注意力机制深度学习的混沌时间序列预测方法
CN111324993A (zh) 一种湍流场更新方法、装置及其相关设备
Yuan et al. Efficient procedure for failure probability function estimation in augmented space
US11543789B2 (en) Reinforcement learning method, recording medium, and reinforcement learning system
Tatari et al. Optimal distributed learning for disturbance rejection in networked non‐linear games under unknown dynamics
JP5220542B2 (ja) 制御器、制御方法及び制御プログラム
JP3960286B2 (ja) 適応型制御器、適応型制御方法および適応型制御プログラム
US20160246277A1 (en) Model Predictive Control with Uncertainties
JP2009289199A (ja) 制御器、制御方法および制御プログラム
EP2400440A1 (en) Systems and methods for predictive building energy monitoring
CN116861256A (zh) 一种固废焚烧过程的炉温预测方法、***、设备及介质
CN111240318A (zh) 一种机器人的人员发现算法
CN113910221B (zh) 一种机械臂自主运动规划方法、装置、设备及存储介质
Tan et al. Edge-Enabled Adaptive Shape Estimation of 3-D Printed Soft Actuators With Gaussian Processes and Unscented Kalman Filters
JP2009230645A (ja) 制御器、制御方法および制御プログラム
US7013244B2 (en) Method and system for estimation of quantities corrupted by noise and use of estimates in decision making
US20210341904A1 (en) Device and method for controlling a robot
Hung et al. Predicting dynamic responses of frame structures subjected to stochastic wind loads using temporal surrogate model

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070507

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees