JP5330138B2

JP5330138B2 - 強化学習システム

Info

Publication number: JP5330138B2
Application number: JP2009174585A
Authority: JP
Inventors: 雄悟上田; 忠明長谷川; 総司射場; 浩二赤塚; 徳和杉本
Original assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Current assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Priority date: 2008-11-04
Filing date: 2009-07-27
Publication date: 2013-10-30
Anticipated expiration: 2029-07-27
Also published as: JP2010134907A; US8392346B2; US20100114807A1

Description

本発明はエージェントがタスクを実行するための行動方策を学習するための強化学習システムに関する。

タスクに適した構造を獲得するまでの学習時間の短縮を図るため、外界の状態に基づいた複数の学習器のそれぞれによる学習結果からエージェントの行動方策を決定し、複数の行動方策の中から各学習器の学習性能に基づいて一の行動方策を選択する技術が提案されている（特許文献１参照）。

特開２００５−０７８５１６号公報

しかし、前記先行技術によれば一の学習器による学習結果が活かされるだけなので、他の学習器による学習結果をも活かすことにより達成されうるような複雑な動作を伴うタスクをエージェントに実行させることは困難である。

そこで、本発明は、エージェントが複雑な動作を伴うタスクを実行するための行動方策を学習することができる強化学習システムを提供することを解決課題とする。

第１発明の強化学習システムは、エージェントがタスクを実行するための行動方策を学習するための強化学習システムであって、環境を表わす第１〜第ｎ状態変数（ｎ≧２）を認識する環境認識器と、前記環境認識器により認識された第ｊ状態変数（ｊ＝１，２，‥ｎ）に基づいて第ｊ報酬を算出し、当該第ｊ状態変数に基づき、第ｊ価値関数にしたがって第ｊ価値を算出し、前記第ｊ価値および前記第ｊ報酬に基づいて第ｊ誤差を算出し、前記第ｊ誤差に基づいて前記第ｊ価値関数を適宜変更するｎ個の第ｊ学習器と、前記ｎ個の第ｊ学習器により算出された前記第ｊ報酬のうち一部または全部に基づいて前記エージェントが採るべき行動方策を決定する行動方策決定器とを備え、第ｉ＋１学習器（ｉ＝１，２，‥ｎ−１）が第ｉ状態変数に応じた第ｉ報酬関数の値と、第ｉ価値関数の時間微分である第ｉ価値勾配関数の値とに基づいて第ｉ＋１報酬を算出することを特徴とする。

第１発明の強化学習システムによれば、環境から得られる第ｉ報酬に応じて定まる、第ｉ学習器による学習結果としての第ｉ価値関数の時間微分である第ｉ価値勾配関数の値が、第ｉ＋１学習器による学習に際して活用されうる（ｉ＝１，２，‥，ｎ−１）。なお、第ｉ状態変数とはスカラーのほかベクトルをも包含する概念である。これにより、第ｎ学習器による学習に際して直接的には第ｎ−１学習器による学習結果が活用され、第ｎ−２学習器以前の学習器による学習結果が間接的に活用されうる。すなわち、第ｎ学習器による学習結果としての第ｎ価値関数には、第１〜第ｎ学習器のそれぞれの第１〜第ｎ報酬関数により記述される学習方針のすべてが反映されうる。そして、第１〜第ｎ報酬のうち一部または全部に基づいてエージェントが採るべき行動方策が決定される。したがって、複数の状態変数の変化態様により定義される複雑な動作を伴うタスクをエージェントに実行させるための行動方策が学習されうる。

第２発明の強化学習システムは、第１発明の強化学習システムにおいて、前記第ｉ＋１学習器が、前記第ｉ価値勾配関数が大きい負値であるほど前記第ｉ＋１報酬を低く評価することを特徴とする。

第２発明の強化学習システムによれば、第ｉ価値関数の値が時系列的に減少している場合、すなわち、エージェントの行動方策により定義される環境が第ｉ学習器の学習方針に反している場合、第ｉ＋１学習器により第ｉ＋１報酬が低く評価される。これにより、環境が第ｉ＋１学習器の学習方針に合致している一方、第ｉ学習器の学習方針に反している行動方策がエージェントの行動方策として採用される事態が回避されうる。すなわち、一部の状態変数の変化態様に鑑みて適当な行動方策であっても、残りの状態変数の変化態様に鑑みて著しく不適当な行動方策である場合、当該行動方策がエージェントの行動方策として採用される事態が回避されうる。したがって、複数の状態変数の変化態様により定義される複雑な動作を伴うタスクをエージェントに実行させるための行動方策が学習されうる。

第３発明の強化学習システムは、第２発明の強化学習システムにおいて、前記第ｉ＋１学習器が、前記第ｉ価値勾配関数が正値である場合、例外的に前記第ｉ価値勾配関数の値とは無関係に前記第ｉ＋１報酬を評価することを特徴とする。

第３発明の強化学習システムによれば、第ｉ価値関数の値が時系列的に増加している場合、すなわち、エージェントの行動方策により定義される環境が第ｉ学習器の学習方針に合致している場合、第ｉ＋１学習器により例外的に第ｉ価値勾配関数の値とは無関係に第ｉ＋１報酬が評価される。これにより、環境が第ｉ学習器の学習方針に合致しているという理由で第ｉ＋１報酬が過剰に高く評価され、第ｉ＋１学習器の学習方針に反している行動方策が図らずもエージェントの行動方策として採用される事態が回避されうる。すなわち、前の学習器による学習結果が後の学習器による学習に際して過剰に重視された結果、当該後の学習器の学習方針に反する行動方策が採用される事態が回避される。したがって、複数の状態変数の変化態様により定義される複雑な動作を伴うタスクをエージェントに実行させるための行動方策が学習されうる。

本発明の強化学習システムの構成説明図エージェントとしてのロボットの構成説明図強化学習システムによる行動方策決定方法を示すフローチャートエージェントの実行対象となるタスクに関する説明図異なる報酬関数に関する説明図価値関数およびその時間微分である価値勾配関数に関する説明図決定された行動方策にしたがったタスクの実行に関する説明図

本発明の強化学習システムの実施形態について図面を用いて説明する。まず、強化学習システムの構成について説明する。図１に示されている強化学習システム１は、図２に示されているエージェントとしてのロボットＲに搭載されている電子制御ユニット（ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ回路等により構成されている。）またはコンピュータにより構成されている。強化学習システム１を構成するコンピュータのＣＰＵがメモリから強化学習プログラム（ソフトウェア）を読み出し、読み出した強化学習プログラムにしたがって後述する学習処理等、さまざまな処理を実行する。強化学習プログラムはＣＤやＤＶＤ等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボットＲからサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。

強化学習システム１は環境認識器１１と、第１学習器１２１と、第２学習器１２２と、行動方策決定器１３とを備えている。

環境認識器１１はロボットＲに搭載されている内部状態センサ群Ｓ１および外部状態センサ群Ｓ２からの出力信号に基づいて環境を表わす第１状態変数および第２状態変数を認識する。

第１学習器１２１は環境認識器１１により認識された第１状態変数（詳細は後述する。）に基づき、第１報酬関数ｒ₁にしたがって第１報酬ｒ₁(ｔ)を算出する。第１学習器１２１は第１状態変数に基づき、第１価値関数Ｖ₁にしたがって第１価値Ｖ₁(ｔ)を算出する。第１学習器１２１は第１価値Ｖ₁(ｔ)および第１報酬ｒ₁(ｔ)に基づいて第１ＴＤ誤差（第１誤差）δ₁(ｔ)を算出する。第１学習器１２１は第１誤差δ₁(ｔ)に基づいて第１価値関数Ｖ₁を適宜変更する。第１報酬関数ｒ₁は、手部Ｂ４の位置ｐをその運動エネルギーＥを低く抑えながら目標位置ｐ₀に一致させるという学習方針にしたがって定義されている。

第２学習器１２２は環境認識器１１により認識された第２状態変数（詳細は後述する。）に応じた第２報酬関数ｒ₂の値と、第１価値関数Ｖ₁の時間微分である第１価値勾配関数ｄＶ₁／ｄｔの値とに基づいて第２報酬ｒ₂(ｔ)を算出する。第２学習器１２２は第２状態変数に基づき、第２価値関数Ｖ₂にしたがって第２価値Ｖ₂(ｔ)を算出する。第２学習器１２２は第２価値Ｖ₂(ｔ)および第２報酬ｒ₂(ｔ)に基づいて第２ＴＤ誤差（第２誤差）δ₂(ｔ)を算出する。第２学習器１２２は第２誤差δ₂(ｔ)に基づいて第２価値関数Ｖ₂を適宜変更する。第２報酬関数ｒ₂は、手部Ｂ４の姿勢ｑを目標姿勢ｑ₀に一致させるという学習方針にしたがって定義されている。

行動方策決定器１３は環境認識器１１による環境認識結果に基づき、第１出力関数にしたがって第１出力（詳細は後述する。）をロボット（エージェント）Ｒが採るべき行動方策の一部として決定する。第１出力関数は第１価値関数Ｖ₁と同様に第１誤差δ₁(ｔ)に基づいて適宜変更される。行動方策決定器１３は環境認識器１１による環境認識結果に基づき、第２出力関数にしたがって第２出力（詳細は後述する。）をロボットＲが採るべき行動方策の一部として決定する。第２出力関数は第２価値関数Ｖ₂と同様に第２誤差δ₂(ｔ)に基づいて適宜変更される。第１出力および第２出力の合計がロボットＲに与えられる。

強化学習システム１は行動方策決定器１３により決定された行動方策にしたがってアクチュエータ１００の動作を制御することにより、ロボットＲの行動を制御する。

本発明の構成要素が情報を「認識する」とは、当該構成要素が情報をデータベースから検索すること、メモリ等の記憶装置から情報を読み取ること、センサ等の出力信号に基づき情報を測定、算定、推定、判定すること、測定等された情報をメモリに格納すること等、当該情報をさらなる情報処理のために準備または用意するために必要なあらゆる情報処理を実行することを意味する。

ロボットＲは脚式移動ロボットであり、人間と同様に基体Ｂ０と、基体Ｂ０の上部に設けられた頭部Ｂ１と、基体Ｂ０の上部左右両側から延設された左右の腕部Ｂ２と、腕部Ｂ２の先端部に設けられた手部Ｂ４と、基体Ｂ０の下部から下方に延設された左右の脚部Ｂ３と、脚部Ｂ３の先端部に取り付けられている足部Ｂ５とを備えている。

ロボットＲは、再表０３／０９０９７８号公報や、再表０３／０９０９７９号公報に開示されているように、アクチュエータから伝達される力によって、人間の肩関節、肘関節、手首関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部Ｂ２や脚部Ｂ３を屈伸運動させることができる。腕部Ｂ２は肩関節機構を介して基体Ｂ０に連結された第１腕リンクと、一端が第１腕リンクの端部に肘関節機構を介して連結され、他端が手首関節を介して手部Ｂ４の付根部に連結されている第２腕リンクとを備えている。脚部Ｂ３は股関節機構を介して基体Ｂ０に連結された第１脚リンクと、一端が第１脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部Ｂ５に連結されている第２脚リンクとを備えている。ロボットＲは、左右の脚部Ｂ３のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。

ロボットＲには内部状態センサ群Ｓ１および外部状態センサ群Ｓ２が搭載されている。内部状態センサ群Ｓ１にはロボットＲの位置（重心位置）を測定するためのＧＰＳ測定装置または加速度センサのほか、基体Ｂ０の姿勢を測定するためのジャイロセンサ、各関節機構の屈曲角度等を測定するロータリーエンコーダ等が含まれている。外部状態センサ群Ｓ２にはロボットＲの把持対象となるコップ等の物体を測定するための、頭部Ｂ１に搭載されているステレオイメージセンサや、基体Ｂ０に搭載されている赤外光を用いたアクティブ型距離センサ等が含まれる。

前記構成の強化学習システム１の機能について説明する。強化学習システム１は、たとえば片方の腕部Ｂ２を動かして手部Ｂ４によりコップ等の対象物を把持するというタスクをロボットＲに実行させるための最適な行動方策を学習するために用いられる。説明の簡単のため、図４に示されているように肩関節位置を原点ＯとするＸ−Ｙ平面に腕部Ｂ２および手部Ｂ４の動きが束縛されるという束縛条件下で行動方策が学習されると仮定する。なお、ロボットＲが採るべき行動方策は、シミュレーションまたはロボット（実機）Ｒを用いた実験により決定される。

まず環境認識器１１により環境が認識される（図３／ＳＴＥＰ００２）。具体的には、手部Ｂ４の２次元位置ｐ(ｔ)＝（ｘ(ｔ)，ｙ(ｔ)）が第１状態変数として認識され、手部Ｂ４の姿勢ｑ(ｔ)が第２状態変数として認識される。

手部Ｂ４の位置ｐ(ｔ)は、第１腕リンクの長さＬ１、第２腕リンクの長さＬ２および手部Ｂ４の長さＬ３と、肩関節角度ｑ₁(ｔ)、肘関節角度ｑ₂(ｔ)および手首関節角度ｑ₃(ｔ)とに基づき、幾何学的関係にしたがって測定される（図４参照）。長さＬ１、Ｌ２およびＬ３を表わすデータはメモリにあらかじめ保存されている。肩関節角度ｑ₁(ｔ)はロボットＲを上方から見たときの前額面（ｘ軸）に対する第１腕リンクがなす角度を意味する。肘関節角度ｑ₂(ｔ)はロボットＲを上方から見たときの第１腕リンクに対する第２腕リンクの屈曲角度を意味する。手首関節角度ｑ₃(ｔ)はロボットＲを上方から見たときの第２腕リンクに対する手部Ｂ４の屈曲角度を意味する。

手部Ｂ４の姿勢ｑ(ｔ)は肩関節角度ｑ₁(ｔ)、肘関節角度ｑ₂(ｔ)および手首関節角度ｑ₃(ｔ)が合計されることにより測定される（図４参照）。関節角度ｑ₁(ｔ)、ｑ₂(ｔ)およびｑ₃(ｔ)のそれぞれはロボットＲの肩関節、肘関節および手首関節のそれぞれの部分に配置されているロータリーエンコーダ（内部状態センサ群Ｓ１を構成する。）のそれぞれの出力信号により測定されうる。

手部Ｂ４の位置（先端部位置）ｐ(ｔ)は、頭部Ｂ１に搭載されているステレオイメージセンサ（外部状態センサ群Ｓ２を構成する。）により測定されてもよい。手部Ｂ４を変移させるための消費電力Ｅ(ｔ)は関節角度ｑ₁(ｔ)、ｑ₂(ｔ)およびｑ₃(ｔ)の変化量に基づき、各関節用のアクチュエータの回転量および消費電力の関係を表わすデータテーブルまたは演算式にしたがって測定されうる。

第１状態変数ｐ(ｔ)および第２状態変数ｑ(ｔ)は、第１学習器１２１および第２学習器１２２のそれぞれに入力される。共通の情報が入力されることにより、第１学習器１２１および第２学習器１２２の間での情報の照合が可能となる。第２状態変数ｑ（ｔ）は行動方策決定器１３に入力される。

続いて第１学習器１２１により第１状態変数ｐ(ｔ)に基づき、関係式(１)で表わされる第１報酬関数ｒ₁にしたがって第１報酬ｒ₁(ｔ)が評価される（図３／ＳＴＥＰ１０２）。

ｒ₁(ｔ)＝ｅｘｐ(−α_p｜ｐ(ｔ)−ｐ₀｜²)−βＥ(ｔ) ‥(１)

ここで「ｐ₀」は手部Ｂ４の目標位置であり、「α_p」および「β」は正の係数である。第１報酬関数ｒ₁(ｔ)は図５(ａ)に示されているように手部Ｂ４の目標位置ｐ₀を頂点とし、手部Ｂ４の位置ｐがその目標位置ｐ₀から遠ざかるにつれて低くなる山のような形状である。関係式(１)右辺第１項から明らかなように手部Ｂ４の現在位置ｐ(ｔ)が目標位置ｐ₀に近いほど第１報酬ｒ₁(ｔ)が高く評価される。関係式(１)右辺第２項から明らかなように運動エネルギーＥ(ｔ)が小さいほど第１報酬ｒ₁(ｔ)が高く評価される。運動エネルギーＥ(ｔ)は、肩関節角度ｑ₁(ｔ)、肘関節角度ｑ₂(ｔ)および手首関節角度ｑ₃(ｔ)の変化量に基づき、各関節用のアクチュエータの回転量および運動エネルギーの関係を表わすデータテーブルまたは演算式にしたがって算定されうる。

また、第１学習器１２１により、第１状態変数ｐ(ｔ)に基づき、第１価値関数Ｖ₁にしたがって第１価値Ｖ₁(ｔ)が算出される（図３／ＳＴＥＰ１０４）。第１価値関数Ｖ₁は第１報酬関数ｒ₁に基づき、データの出現頻度に重みを掛けるという考え方が現実に適っているＮＧＮｅｔにしたがって決定される（たとえば“Reinforcement Learning in Continuous Time and Space”Kenji Doya, Neural Computation, 12(1), 219-245(2000)参照）。なお、ＲＢＦ、ニューラルネットまたはＣＭＡＣ等、ＮＧＮｅｔとは異なる公知手法にしたがって第１価値関数Ｖ₁(ｔ)が決定されてもよい。

さらに、第１報酬ｒ₁(ｔ)および第１価値Ｖ₁(ｔ)に基づき、関係式(２)にしたがって第１ＴＤ誤差δ₁(ｔ)が算出される（図３／ＳＴＥＰ１０６）。

δ₁(ｔ)＝ｒ₁(ｔ)＋γ₁Ｖ₁(ｔ＋１)−Ｖ₁(ｔ)‥(２)

ここで「γ₁」は第１学習器１２１において採用されているＢｅｌｌｍａｎ方程式における割引率を表わしている。第１ＴＤ誤差δ₁(ｔ)の大小によりエージェントＲが先にとった行動方策の妥当性が評価される。前記のように第１ＴＤ誤差δ₁(ｔ)に基づき、第１価値関数Ｖ₁および第１出力関数が適宜修正される。ロボットＲが先にとった行動方策が予想通りであった場合には修正量は小さくなる一方、ロボットＲが先にとった行動が予想通りではなかった場合には修正量は大きくなる傾向がある。

さらに、行動方策決定器１３により、環境認識器１１による認識結果としての手部Ｂ４の姿勢（第２状態変数）ｑ(ｔ)に基づき、第１出力関数にしたがって第１出力がロボットＲの行動方策として決定される（図３／ＳＴＥＰ１０８）。具体的には、第１報酬ｒ₁(ｔ)の積分値が最高になるようなロボットＲの肩関節回りのトルクＴ１および肘関節回りのトルクＴ２が第１出力として決定される。

次に第２学習器１２２により第２状態変数ｑ(ｔ)に応じた第２報酬関数の値と、第１価値勾配関数（第１価値関数Ｖ₁の時間微分）ｄＶ₁／ｄｔの値とに基づき、関係式(３)にしたがって第２報酬ｒ₂が評価される（図３／ＳＴＥＰ２０２）。

ｒ₂(ｔ)＝ｅｘｐ(−α_q｜ｑ(ｔ)−ｑ₀｜²)＋ηｘ・Ｙ(−ｘ)，
ｘ＝ｄＶ₁／ｄｔ，
Ｙ(ｘ)≡１(ｘ≧０)または０(ｘ＜０) ‥(３)

ここで「ｑ₀」は手部Ｂ４の目標姿勢ｑ₀であり、「α_q」および「η」は正の係数である。

関係式(３)右辺第１項は図５(ｂ)に示されているように手部Ｂ４の目標姿勢ｑ₀を頂点とし、手部Ｂ４の姿勢ｑがその目標姿勢ｑ₀から遠ざかるにつれて低くなる山（単峰）の形状である。関係式(３)右辺第１項（第２学習器１２２に固有の第２報酬関数に相当する。）から明らかなように手部Ｂ４の現在姿勢ｑ(ｔ)が目標姿勢ｑ₀に近いほど第２報酬ｒ₂は高く評価される。

関係式(３)右辺第２項の意義を考察するため、図６(ａ)に概念的に示されているように第１価値関数Ｖ₁が定義されている状況について考える。手部Ｂ４の位置ｐがｐ₁からｐ₂まで図６(ｂ)右矢印で表わされるように遷移した場合、図６(ｂ)に示されているように第１価値勾配関数ｄＶ₁／ｄｔは目標位置ｐ₀の左側で正値を示し、目標位置ｐ₀の右側で負値を示すように定義される。

一方、手部Ｂ４の位置ｐがｐ₂からｐ₁まで図６(ｃ)左矢印で表わされるように遷移した場合、図６(ｃ)に示されているように第１価値勾配関数ｄＶ₁／ｄｔは目標位置ｐ₀の左側で負値を示し、目標位置ｐ₀の右側で正値を示すように定義される。関係式(３)右辺第２項から明らかなように第１価値勾配関数ｄＶ₁／ｄｔの値が負側に大きくなるほど第２報酬ｒ₂(ｔ)は低く評価される。

さらに、関係式(３)右辺第２項にはステップ関数Ｙ(−ｘ)が含まれているので第１勾配関数(ｄＶ₁／ｄｔ)の値が正である場合は「０」になる。これにより、たとえば、ロボットＲの手部Ｂ４の位置ｐ(ｔ)が図６(ｂ)右矢印で表わされているように遷移した場合、当該位置ｐ(ｔ)が第１価値勾配関数ｄＶ₁／ｄｔが正値を示す目標位置ｐ₀の左側にある状態では関係式(３)右辺第２項は第２報酬ｒ₂(ｔ)の評価には寄与しない一方、当該位置ｐ(ｔ)が第１価値勾配関数ｄＶ₁／ｄｔが負値を示す目標位置ｐ₀の右側にある状態では関係式(３)右辺第２項は第２報酬ｒ₂(ｔ)の評価を下げるのに寄与する。その寄与度は第１価値勾配関数ｄＶ₁／ｄｔが負側にどれだけ大きいかに依存している（図６(ｂ)(ｃ)下向き矢印の長さ参照）。

また、ロボットＲの手部Ｂ４の位置ｐが図６(ｃ)左矢印で表わされているように遷移した場合、当該位置ｐ(ｔ)が第１価値勾配関数ｄＶ₁／ｄｔが正値を示す目標位置ｐ₀の右側にある状態では関係式(３)右辺第２項は第２報酬ｒ₂(ｔ)の評価には寄与しない一方、当該位置ｐ(ｔ)が第１価値勾配関数ｄＶ₁／ｄｔが負値を示す目標位置ｐ₀の左側にある状態では関係式(３)右辺第２項は第２報酬ｒ₂(ｔ)の評価を下げるのに寄与する。

また、第２学習器１２２により、第２状態変数ｑ(ｔ)に基づき、第２価値関数Ｖ₂にしたがって第２価値Ｖ₂(ｔ)が算出される（図３／ＳＴＥＰ２０４）。第２価値関数Ｖ₂は第２報酬関数ｒ₂に基づき、第１価値関数Ｖ₁と同様にデータの出現頻度に重みを掛けるという考え方が現実に適っているＮＧＮｅｔにしたがって決定される。なお、ＲＢＦ、ニューラルネットまたはＣＭＡＣ等、ＮＧＮｅｔとは異なる公知手法にしたがって第２価値関数Ｖ₂(ｔ)が決定されてもよい。

さらに、第２報酬ｒ₂(ｔ)および第２価値Ｖ₂(ｔ)に基づき、関係式(４)にしたがって第２ＴＤ誤差δ₂(ｔ)が算出される（図３／ＳＴＥＰ２０６）。

δ₂(ｔ)＝ｒ₂(ｔ)＋γ₂Ｖ₂(ｔ＋１)−Ｖ₂(ｔ)‥(４)

ここで「γ₂」は第２学習器１２２において採用されているＢｅｌｌｍａｎ方程式における割引率を表わしている。第２ＴＤ誤差δ₂(ｔ)の大小によりエージェントＲが先にとった行動方策の妥当性が評価される。前記のように第２ＴＤ誤差δ₂(ｔ)に基づき、第２価値関数Ｖ₂および第２出力関数が適宜修正される。ロボットＲが先にとった行動方策が適当であった場合には修正量は小さくなる一方、ロボットＲが先にとった行動が不適当であった場合には修正量は大きくなる傾向がある。

さらに、行動方策決定器１３により、環境認識器１１による認識結果としての手部Ｂ４の姿勢（第２状態変数）ｑ(ｔ)に基づき、第２出力関数にしたがって第２出力がロボットＲの行動方策として決定される（図３／ＳＴＥＰ２０８）。具体的には、第２報酬ｒ₂(ｔ)の積分値が最高になるようなロボットＲの手首関節回りのトルクＴ３が第２出力として決定される。

そして、行動方策決定器１３により決定された行動方策にしたがってアクチュエータ１００の動作が制御されることにより、ロボットＲの行動、すなわち、腕部Ｂ２および手部Ｂ４の動作が制御される。具体的には、第１出力にしたがって肩関節回りのトルクＴ１および肘関節回りのトルクＴ２が制御され、第２出力にしたがって手首関節回りのトルクＴ３が制御される。これにより、たとえば、図７に矢印で示すように手部Ｂ４の位置ｐ(ｔ)が変化し、かつ、手部Ｂ４の姿勢ｑ(ｔ)が変化するようにロボットＲの行動が制御される。

前記機能を発揮する強化学習システム１によれば、環境から得られる第１報酬ｒ₁(ｔ)に応じて定まる、第１学習器１２１による学習結果としての第１価値関数Ｖ₁の時間微分である第１価値勾配関数ｄＶ₁／ｄｔの値が、第２学習器１２２による学習、すなわち、第２報酬ｒ₂(ｔ)の評価に際して活用され（図３／ＳＴＥＰ１２２，式（２）参照）、第２報酬ｒ₂(ｔ)の積分値が最高になるような環境の変化態様がロボットＲがタスクを実行するために採るべき行動方策として決定される（図３／ＳＴＥＰ１３０，図７参照）。

具体的には、第１価値関数Ｖ₁(ｔ)が時系列的に減少している場合（ｄＶ₁(ｔ)／ｄｔ＜０の場合）、すなわち、ロボットＲの行動方策により定義される環境が第１学習器１２１の学習方針に反している場合、第２学習器１２２により第２報酬ｒ₂(ｔ)が低く評価される（関係式(３)右辺第２項参照）。これにより、環境が第２学習器１２２の学習方針（＝手部Ｂ４の姿勢ｑを目標姿勢ｑ₀に一致させる）に合致している一方、第１学習器１２１の学習方針（＝手部Ｂ４の位置ｐをその運動エネルギーＥを低く抑えながら目標位置ｐ₀に一致させる）に反している行動方策がロボットＲの行動方策として採用される事態が回避されうる。すなわち、手部Ｂ４の姿勢ｑを目標姿勢ｑ₀に一致させるためには適当な行動方策であっても、手部Ｂ４の位置ｐをその運動エネルギーＥを低く抑えながら目標位置ｐ₀に一致させるためには著しく不適当な行動方策である場合、当該行動方策がロボットＲの行動方策として採用される事態が回避されうる。

さらに、第１価値関数Ｖ₁(ｔ)が時系列的に増加している場合（ｄＶ₁(ｔ)／ｄｔ＞０の場合）、すなわち、ロボットＲの行動方策（手部Ｂ４の位置ｐ(ｔ)）により定義される環境が第１学習器１２１の学習方針に合致している場合、第２学習器１２２により例外的に第１価値勾配関数ｄＶ₁(ｔ)／ｄｔの値とは無関係に第２報酬ｒ₂(ｔ)が評価される（関係式(３)右辺第２項のステップ関数Ｙ参照）。これにより、環境が第１学習器１２１の学習方針に合致しているという理由で第２報酬ｒ₂（ｔ）が過剰に高く評価され、第２学習器１２２の学習方針に反している行動方策が図らずもロボットＲの行動方策として採用される事態が回避されうる。すなわち、手部Ｂ４の位置ｐをその運動エネルギーＥを低く抑えながら目標位置ｐ₀に一致させるためには適当な行動方策であっても、手部Ｂ４の姿勢ｑを目標姿勢ｑ₀に一致させるためには著しく不適当な行動方策である場合、当該行動方策がロボットＲの行動方策として採用される事態が回避されうる。

よって、複数の状態変数の変化態様により定義される、腕部Ｂ２および手部Ｂ４の複雑な動作を伴う対象物の把持というタスクをロボットＲに実行させるために最適な行動方策が学習されうる。

なお、前記実施形態とは逆に第１学習器１２１が手部Ｂ４の姿勢ｑを目標姿勢ｑ₀に一致させるという学習方針にしたがう学習器として定義され、第２学習器１２２が手部Ｂ４の位置ｐをその運動エネルギーＥを低く抑えながら目標位置ｐ₀に一致させるという学習方針にしたがう学習器として定義されていてもよい。この場合、第１報酬ｒ₁(ｔ)が関係式(５)にしたがって算出され、第２報酬ｒ₂(ｔ)が関係式(６)にしたがって算出されることにより、前記実施形態と同様に複数の状態変数の変化態様により定義される腕部Ｂ２および手部Ｂ４の複雑な動作を伴う対象物の把持というタスクをロボットＲに実行させるために最適な行動方策が学習されうる。

ｒ₁(ｔ)＝ｅｘｐ(−α_q｜ｑ(ｔ)−ｑ₀｜²) ‥(５)
ｒ₂(ｔ)＝ｅｘｐ(−α_p｜ｐ(ｔ)−ｐ₀｜²)−βＥ(ｔ)＋ηｘ・Ｙ(−ｘ)，
ｘ＝ｄＶ₁(ｔ)／ｄｔ ‥(６)

さらに、強化学習システム１が３つ以上の学習器を備えていてもよい。たとえば、第１学習器１２１および第２学習器１２２に加えて、第２学習器１２２の第２価値関数Ｖ₂の時間微分である第２価値勾配関数ｄＶ₂／ｄｔに基づいて第３報酬ｒ₃(ｔ)を評価する第３学習器を備え、第３学習器の出力に基づいて行動方策の一部または全部が決定されてもよい。これにより、第３学習器による学習に際して直接的には第２学習器１２２による学習結果が活用され、第１学習器１２１による学習結果が間接的に活用されうる。すなわち、第３学習器による学習結果としての第３報酬には、第１学習器１２１および第２学習器１２２のそれぞれの第１報酬関数ｒ₁および第２報酬関数ｒ₂により記述される学習方針のすべてが反映されうる。したがって、複数の状態変数の変化態様により定義される複雑な動作を伴うタスクをロボットＲに実行させるための行動方策が学習されうる。なお、第ｉ＋１価値関数Ｖ_i+1（ｉ＝１，２，‥）も第１価値関数Ｖ₁と同様にＮＧＮｅｔ、ＲＢＦ、ニューラルネットまたはＣＭＡＣ等、公知手法にしたがって決定されうる。

また、ロボットＲにタスクを実行させるための行動方策が学習されたが、そのほか、エージェントとしての人間に物品の製作、目的位置への移動または着衣等のタスクを実行させるために行動方策が学習されてもよい。

前記実施形態では第１出力関数にしたがって第１出力（肩関節回りのトルクＴ１および肘関節回りのトルクＴ２）がロボットＲの行動方策の一部として決定され、第２出力関数にしたがって第２出力（手首関節回りのトルクＴ３）がロボットＲの行動方策の残り部分として決定された。そのほか、環境認識器１１による認識結果に加えて、第１出力関数にしたがって決定された第１出力に基づき、第２出力関数にしたがって各関節回りのトルクＴ１、Ｔ２およびＴ３がロボットＲの行動方策として決定されてもよい。

１‥強化学習システム、１１‥環境状態認識器、１２１・・第１学習器、１２２‥第２学習器、１３‥行動方策決定器、Ｒ‥ロボット（エージェント）

Claims

エージェントがタスクを実行するための行動方策を学習するための強化学習システムであって、
環境を表わす第１〜第ｎ状態変数（ｎ≧２）を認識する環境認識器と、
前記環境認識器により認識された第ｊ状態変数（ｊ＝１，２，‥ｎ）に基づいて第ｊ報酬を算出し、当該第ｊ状態変数に基づき、第ｊ価値関数にしたがって第ｊ価値を算出し、前記第ｊ価値および前記第ｊ報酬に基づいて第ｊ誤差を算出し、前記第ｊ誤差に基づいて前記第ｊ価値関数を適宜変更するｎ個の第ｊ学習器と、
前記ｎ個の第ｊ学習器により算出された前記第ｊ報酬のうち一部または全部に基づいて前記エージェントが採るべき行動方策を決定する行動方策決定器とを備え、
第ｉ＋１学習器（ｉ＝１，２，‥ｎ−１）が第ｉ状態変数に応じた第ｉ報酬関数の値と、第ｉ価値関数の時間微分である第ｉ価値勾配関数の値とに基づいて第ｉ＋１報酬を算出することを特徴とする強化学習システム。
請求項１記載の強化学習システムにおいて、
前記第ｉ＋１学習器が、前記第ｉ価値勾配関数が大きい負値であるほど前記第ｉ＋１報酬を低く評価することを特徴とする強化学習システム。
請求項２記載の強化学習システムにおいて、
前記第ｉ＋１学習器が、前記第ｉ価値勾配関数が正値である場合、例外的に前記第ｉ価値勾配関数の値とは無関係に前記第ｉ＋１報酬を評価することを特徴とする強化学習システム。