JP5079602B2 - 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 - Google Patents

自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 Download PDF

Info

Publication number
JP5079602B2
JP5079602B2 JP2008150729A JP2008150729A JP5079602B2 JP 5079602 B2 JP5079602 B2 JP 5079602B2 JP 2008150729 A JP2008150729 A JP 2008150729A JP 2008150729 A JP2008150729 A JP 2008150729A JP 5079602 B2 JP5079602 B2 JP 5079602B2
Authority
JP
Japan
Prior art keywords
state
mobile robot
autonomous mobile
reward
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008150729A
Other languages
English (en)
Other versions
JP2009295103A (ja
Inventor
洋 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008150729A priority Critical patent/JP5079602B2/ja
Publication of JP2009295103A publication Critical patent/JP2009295103A/ja
Application granted granted Critical
Publication of JP5079602B2 publication Critical patent/JP5079602B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

この発明は、自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法に関する。
イナーシャ(慣性)が高く劣駆動型の自律移動ロボットの動作計画を行う技術として、マルコフ決定過程における動作計画法を利用した技術が知られている(例えば、特許文献1及び非特許文献1参照。)。
この技術においては、想定される流速の下、各状態s∈{s,…,s}にある自律移動ロボットが各行動a∈{a,…,a}を取った場合に各状態s’∈{s,…,s}に遷移する状態遷移確率P ss’と、そのときに得られる報酬R ss’とをまず求める。例えば、到達点を含む状態s’に遷移するときに与えられる報酬を1、障害物を含む状態s’に遷移するときに与えられる報酬を−1、障害物を含まない状態s’に遷移するときに与えられる報酬R ss’を一律0とする。
そして、状態遷移確率P ss’と、そのときに得られる報酬R ss’とを用いて、マルコフ決定過程における動的計画法に基づき、状態価値関数Vπ(s)を求める。そして、想定される流速と実際の流速の流速差を考慮しつつ、状態価値関数Vπ(s)を最大にする行動aを選択し、その選択された行動aに従って自律移動ロボットを制御する。
特開2007−317165号公報 H.Kawano, "Three Dimensional Obstacle Avoidance of Autonomous Blimp Flying in Unknown Disturbance", Proceeding of 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.123-130, October, 2006
非特許文献1及び特許文献1においては、障害物を含まない状態s’に遷移するときに与えられる報酬R ss’を一律0としており、障害物を含まない遷移先の状態s’における障害物へのぶつかりやすさを考慮していない。このため、想定よりも流速が速い場合に、動作計画が破綻しやすいという問題があった。
この発明は、上記問題に鑑みて、より動作計画が破綻しづらい自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法を提供することを目的とする。
不定の流速の流れがある流体の中で出発点に位置する自律移動ロボットを到達点に到達させるための動作計画を行うために、想定される流速よりも速い流速の下で、各状態にある自律移動ロボットが各行動を取った場合に各状態に遷移する第一状態遷移確率を計算する。各状態にある自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第一報酬を、障害物を含む状態に遷移する場合に得られる第一報酬が障害物を含まない状態に遷移する場合に得られる第一報酬よりも低く又は高くなるように定める。第一状態遷移確率及び第一報酬を用いて、マルコフ決定過程における動的計画法に基づき、自律移動ロボットの障害物へのぶつかりやすさを表す第一指標を状態ごとに求める。想定される流速の下で、各状態にある自律移動ロボットが各行動を取った場合に各状態に遷移する第二状態遷移確率を計算する。各状態にある上記自律移動ロボットが各行動を取り上記到達点を含む状態に遷移する場合に得られる第二報酬が最も高くなるように定めると共に、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも高くなるように定められている場合には、各状態にある自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第二報酬を、遷移先の状態についての第一指標の値の大小を反転した値に応じて定め、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも低くなるように定められている場合には、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる上記第二報酬を、遷移先の状態についての上記第一指標の値の大小に応じて定める。第二状態遷移確率及び第二報酬を用いて、マルコフ決定過程における動的計画法に基づき、自律移動ロボットの到達点への到達しやすさを表す第二指標を状態ごとに求める。
動作計画に基づき、不定の流速の下で出発点に位置する自律移動ロボットを到達点に到達するように制御するために、想定される流速と、流速の実測値との差である流速差を求める。自律移動ロボットが各行動を取った場合の遷移先の状態を、自律移動ロボットの位置を流速差の分だけ移動させることにより求める。遷移先予測部が求めた遷移先の状態についての第二指標を互いに比較して、到達点に最も到達しやすい行動を決定する。自律移動ロボットが決定された行動に従って移動するように、自律移動ロボットを制御する。
障害物を含まない遷移先の状態s’における障害物へのぶつかりやすさを考慮して報酬を決定し、その際、想定される流速よりも速い流速を想定している。このため、動作計画がより破綻しづらくなる。
[マルコフ決定過程]
まず、この発明の技術的意義を把握するための基礎知識である強化学習(Reinforcement Learning)におけるマルコフ決定過程(Markov decision Process)の概略を説明する。
環境を構成する離散的な状態の集合をS={s,s,…,s}、行動主体が取り得る行動の集合をA={a,a,…a}と表す。環境中のある状態s∈Sにおいて、行動主体がある行動a∈Aを実行すると、環境は確率的に状態s’∈Sへ遷移する。その遷移確率を
ss’=Pr{st+1=s’|s=s,a=a}
により表す。このとき環境から行動主体へ報酬rが確率的に与えられるが、その期待値を
ss’=E{r|s=s,a=a,st+1=s’}
とする。
なお、状態s’に附されている記号’は、状態sとの識別を図るための記号である。時間微分を表す記号として記号’を用いることがあるが、記号’が附された対象がマルコフ状態遷移モデルの状態であるか否かで記号’の意味を容易に識別できるので、以降の説明でもこの記法に従うとする。
ある時間ステップtで行った行動が、その後の報酬獲得にどの程度貢献したのかを評価するため、その後得られる報酬の時系列を考える。報酬の時系列評価は価値と呼ばれる。行動主体の目標は、価値を最大化すること、又は、価値を最大にする方策π(s,a)を求めることである。方策π(s,a)は、状態sにおいて行動aを取ることを意味し、状態sと行動aの各組み合わせについて定義される。価値は、時間の経過とともに報酬を割引率γ(0≦γ<1)で割引いて合計される。すなわち、ある方策πの下での状態sの価値である状態価値関数Vπ(s)は、以下のように定義される。Eπは期待値を求める関数である。
Figure 0005079602
ここでは価値関数として方策πの下での状態sの価値である状態価値関数Vπ(s)を採用したが、方策πの下で状態sにおいて行動aを採ることの価値である行動価値関数Qπ(s,a)を採用することもできる。
Figure 0005079602
行動主体の目標は、最適な方策πを求めること、つまり任意の状態sについて価値関数(上記の例では状態価値関数Vπ(s)である。)が他の方策πを採った場合よりも劣るものではない方策πを求めることである。この方策πの探求は、Bellman方程式で表され、状態sと行動aと遷移先の状態s’との各組み合わせについてのP ss’とR ss’の値が定まっていれば、動的計画法(ダイナミックプログラミング法)により、最適な、状態価値関数Vπ(s)、行動価値関数Qπ(s)及び方策πを計算することができる(例えば、三上 貞芳、皆川 雅章 共訳、R.S.Sutton、A.G.Barto 原著「強化学習」森北出版、1998、pp.94-118参照。)。動的計画法の処理は、周知技術であるため説明は省略する。
[自律移動ロボットの動作計画装置及び方法]
自律移動ロボットの動作計画装置及び方法の実施形態について説明する。
この発明は、動的計画法による計算を2回行うことを特徴とする。1回目の動的計画法による計算により、障害物を含まない状態における将来の障害物へのぶつかりやすさを計算する(ステップS1からステップS3)。そして、そのぶつかりやすさをその状態に遷移するときに与えられる報酬として2回目の動的計画法に用いる(ステップS5)。これにより、障害物を含まない遷移先の状態s’における障害物へのぶつかりやすさを考慮することができ、より動作計画が破綻しづらい動作計画を行うことができる。
この実施形態では、行動主体は、図4に例示される飛行船形の自律移動ロボットである。自律移動ロボットは、舵2、主推進器3、上下方向推進器4、ゴンドラ5、流速差取得部21、位置計測部25を有する。この自律移動ロボットは、真横方向に直接移動することができない。搭載アクチュエータである舵2、主推進器3、上下方向推進器4が制御可能な運動自由度よりも自律移動ロボットの運動自由度は高いので、この自律移動ロボットは劣駆動ロボットである。この実施形態では、自律移動ロボットとして飛行船タイプのものを採用しているが、水中無人探索機のような水中ロボットを採用してもよい。
自律移動ロボットは、不定の流速の流れがある流体で満たされた空間を航行する。その空間は、マルコフ遷移状態モデルにより離散的にモデル化されており、自律移動ロボットの水平方向の位置のX座標、Y座標、方位角ψ及び旋回速度ψ’の4つ次元から構成される。各次元は、その次元の物理量を測定するセンサの分解能に応じて離散化されている。
予め定められた出発点を含む状態に位置する自律移動ロボットは、予め定められた行動の集合の中から1つの行動を選択する。そして、予め定められた行動単位時間Tだけその行動に従って移動して、遷移先の状態に移動する。この遷移先の状態において、再び、予め定められた行動の集合の中から1つの行動を選択して、行動単位時間Tだけその行動に従って移動して、遷移先の状態に移動する。この行動の選択と状態の遷移を繰り返すことにより、初めは出発点を含む状態に位置している自律移動ロボットは、予め定められた到達点を含む状態に移動しようとする。自律移動ロボットの動作計画装置は、そのための動作計画を行う。
<ステップS1(図8)>
第一状態遷移確率計算部10(図1)は、想定される流速よりも速い流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第一状態遷移確率を計算する(ステップS1)。すなわち、状態s、行動a及び遷移先の状態s’の各組合せについての第一状態遷移確率P ss’を計算する。計算された第一状態遷移確率P ss’は、第一動的計算部12に送られる。
第一状態遷移確率P ss’の計算方法の例について説明する。この例では、第一状態遷移確率計算部10は、図2に例示するように、目標速度計算部101、変位量計算部102及び確率計算部103を含む。
≪ステップS11≫
第一状態遷移確率計算部10の目標速度計算部101は、自律移動ロボットが各状態sにおいてある各行動aを取ったときの目標速度を決定する(ステップS11)。目標速度は、変位量計算部102に送られる。例えば、各行動aについて、下記の式に従って自律移動ロボットの旋回速度ψ τ(t)と前後方向の速度vxwτ(t)を自律移動ロボットの目標速度として定める。(b,b)はマルコフ状態遷移モデルの各状態sにおける行動aに対応する二次元ベクトル、αは予め定められた旋回加速度αであり、βは予め定められた前後方向の加速度であり、tは各行動aの開始時からの経過時間、ψ’τ0は行動aの開始時における自律移動ロボットの旋回速度、vx0は行動aの開始時における自律移動ロボットの旋回速度である。
Figure 0005079602
ここで、旋回加速度α及び前後方向の加速度βは、自律移動ロボットの性能の限界を超えないように設定される。また、前後方向の速度vzwτ(t)及び前後方向の加速度βは、それぞれ対流体機体速度及び対流体機体加速度として記述される。
動作計画を行うために、想定される流速及び想定される流速よりも速い流速が予め設定されて、記憶部19に格納されている。[自律移動ロボットの動作制御方法]の欄で後述するように想定される流速と流速の実測値とが異なる場合には適宜補正されるため、想定される流速は厳密な流速である必要はなく、おおよその流速でよい。もっとも、想定される流速が流速の実測値と近いほど、この動作計画及びこれに基づく動作制御の精度が増す。
≪ステップS12≫
変位量計算部102は、各状態sにある自律移動ロボットが、想定される流速よりも速い流速の下において、各行動aに従って移動した場合の、自律移動ロボットの世界座標系における水平面内位置のX座標,Y座標,方位角ψ及び旋回速度ψ’がそれぞれどれくらい変位するのか計算する(ステップS12)。計算された変位量は確率計算部103に送られる。
想定される流速よりも速い流速の下で計算を行うことにより、より安全な動作計画を行うことができる。想定される流速よりも速い流速は、例えば、想定される流速の中で最も速い流速とする。最も速い流速を用いることにより、最も安全な動作計画を行うことができる。
自律移動ロボットの水平面内位置のX座標の変位量をD(ψ,a)、Y座標の変位量をD(ψ,a)、方位角ψの変位量をDψ(ψ,a)、旋回速度ψ’の変位量をDψ’(ψ,a)とすると、それぞれの変位量は、次式にように与えられる(図5を参照のこと)。
Figure 0005079602
ここで、ψは各状態sの開始時の方位角、Tは状態sから次の状態s’に遷移するまでの時間(以下、行動単位時間とする)、fmxは想定される流速よりも速い流速のX座標の成分、fmyは想定される流速よりも速い流速のY座標の成分である。なお、方位角ψの変位量Dψ(ψ,a)と、旋回速度ψ’の変位量Dψ’(ψ,a)については、旋回速度ψ’の制御を行うことになるため、風の影響による補正は行わない。行動単位時間は例えば15秒とすることができる。
≪ステップS13≫
確率計算部103は、自律移動ロボットの水平面内位置のX座標の変位量D(ψ,a)、Y座標の変位量D(ψ,a)、方位角ψの変位量Dψ(ψ,a)及び旋回速度ψ’の変位量Dψ’(ψ,a)に基づいて、第一状態遷移確率P ss’を計算する(ステップS13)。
まず、状態sが、自律移動ロボットの水平面内位置のX座標、Y座標、方位角ψ及び旋回速度ψ’の4つの次元で構成される格子で示されるとし、その格子をR(s)と定義する(図6を参照のこと)。そして、その格子R(s)を、上記各変位量から構成される変位量ベクトル(D(ψ,a),D(ψ,a),Dψ(ψ,a),Dψ’(ψ,a))で、平行移動したものをR(s)と定義する。
ここで、自律移動ロボットが状態sにあるときは、自律移動ロボットは、その状態sを表わす4次元の格子R(s)の各点の何れかに、等しい確率で存在するものと仮定する。この仮定の下では、第一状態遷移確率P ss’は、R(s)と各R(s’)の重なった部分の体積に比例してそれぞれ求めることができる。ここで、R(s’)は、R(s)と重なった格子である。すなわち、R(s’)は、状態sにおいてある行動aを取ったときの遷移先の候補の状態s’に対応した4次元の格子である。R(s)は最大で8つのR(s’)と重なる可能性がある。
第一状態遷移確率P ss’は、R(s)とあるR(s’)の重なった部分の体積をV(s,s’,a)、R(s)とすべてのR(s’)との重なった部分の体積をΣs’(s,s’,a)とすると、次式により求めることができる。
Figure 0005079602
ステップS11からステップS13の処理を適宜繰り返すことにより、状態s、行動a及び遷移先の状態s’の各組合せについての第一状態遷移確率P ss’を求める。
<ステップS2>
第一報酬決定部11(図1)は、各状態sにある自律移動ロボットが各行動aを取り各状態s’に遷移する場合に得られる第一報酬R ss’を、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’が障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’よりも高くなるように定める(ステップS2)。定められた第一報酬R ss’は、第一動的計画部12に送られる。
例えば、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’を1として、障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’を0とする。
状態s(遷移先の状態s’も状態sであることに変わりはない。)が障害物を含むかどうかは例えば下記の2つの方法によって判断される。
〔第一の方法〕
地形モデル保存部13には、各状態sが障害物を含むかどうかの情報を含む地形モデルが記憶されている。第一報酬決定部11は、地形モデル保存部13に記憶された地形モデルを参照して、遷移先の状態s’が障害物を含むかどうかを判断する。
〔第二の方法〕
この方法では、図3に例示するように、第一報酬決定部11は、傾斜角差計算部111、登坂角度計算部112及び障害物判断部113を含む。また、地形モデル保存部13には、位置(X,Y)と方位角ψの各組合せについての傾斜角データが記憶されている。
図3の傾斜角差計算部111が、状態sにおける地形の傾斜角θsteep(s)と、遷移先の状態s’の傾斜角θsteep(s’)との差の絶対値dθsteep(s’,s)を計算する。傾斜角の差の絶対値dθsteep(s’,s)は下式により定義される(図7を参照のこと)。計算された傾斜角の差の絶対値dθsteep(s’,s)は、障害物判断部113に送られる。
Figure 0005079602
登坂角度計算部112が、状態sから遷移先の状態s’に遷移するときの自律移動ロボットの最大登坂角度dθmax(s’,s)を計算する。計算された最大登坂角度dθmax(s’,s)は、障害物判断部113に送られる。
(s)を状態sにおけるピッチ角の変化速度、aを自律移動ロボットのピッチ角変化の加速度の最大値、fxbを風の前後方向の対機体速度とし、登坂角度は十分に小さく、上下方向には風は吹かないものとすると、最大登坂角度dθmax(s’,s)は、以下のように定義される。最大登坂角度dθmax(s’,s)は、自律移動ロボットが一回の行動で、どれだけ登坂角度を変化させることができるかということを表す。
Figure 0005079602
障害物判断部113は、傾斜角の差の絶対値dθsteep(s’,s)と、最大登坂角度dθmax(s’,s)とを比較して、上記傾斜角の差の絶対値dθsteep(s’,s)が大きければ、その遷移先の状態s’は障害物を含むと判断する。
第一報酬決定部11は、障害物判断部113が出力した遷移先の状態s’が障害物を含むかどうかの判断に基づいて、第一報酬を決定する。
<ステップS3>
第一動的計画部12は、第一状態遷移確率P ss’及び第一報酬R ss’を用いて、マルコフ決定過程における動的計画法に基づき、自律移動ロボットの障害物へのぶつかりやすさを表す第一指標を状態ごとに求める(ステップS3)。求まった第一指標は、第二報酬決定部15に送られる。この例では、第一指標として、状態価値関数Vπ(s)を用いる。
上述の通り、状態s、行動a及び遷移先の状態s’の各組合せについての第一状態遷移確率P ss’及び第一報酬R ss’が計算されていれば、動的計画法に基づいて、状態価値関数Vπ(s)を計算することができる。
<ステップS4>
第二状態遷移確率計算部14は、想定される流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第二状態遷移確率P ss’を計算する。すなわち、状態s、行動a及び遷移先の状態s’の各組合せについての第二状態遷移確率P ss’を計算する。計算された第二状態遷移確率P ss’は、第二動的計算部16に送られる。
第一状態遷移確率計算部10は、想定される流速よりも速い流速の下で第一状態遷移確率P ss’を計算するのに対して、第二状態遷移確率計算部14は、想定される流速の下で第二状態遷移確率P ss’を計算する。この2回目の動作計画においては、自律移動ロボットを高精度で到達点に誘導するために、発生確率が高い流速を想定することが望ましいのである。この相違点を除き、第二状態遷移確率計算部14における第二状態遷移確率P ss’の計算方法は、第一状態遷移確率計算部10における第一状態遷移確率P ss’の計算方法と同様である。
すなわち、例えば、第二状態遷移確率計算部14は、第一状態遷移確率計算部10と同様に(図2参照)、目標速度計算部101、変位量計算部102及び確率計算部103を有しており、これらの各部が想定される流速の下で第二状態遷移確率P ss’を計算する。この場合、目標速度、方位角ψの変位量Dψ(ψ,a)、旋回速度ψ’の変位量Dψ’(ψ,a)及び旋回速度ψ’の変位量Dψ’(ψ,a)は流速に依存しないため、第一状態遷移確率計算部10におけるこれらの計算結果を、第二状態遷移確率計算部14において再利用することにより、計算の重複を省いてもよい。
<ステップS5>
第二報酬決定部15は、各状態sにある上記自律移動ロボットが各行動aを取り各状態s’に遷移する場合に得られる第二報酬R ss’を、遷移先の状態s’についての第一指標に応じて定めると共に、到達点を含む状態に遷移する場合に得られる第二報酬が最も高くなるように定める(ステップS5)。定められた報酬は、第二動的計画部16に送られる。
この例では、ステップS2において、第一報酬決定部11は、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’が障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’よりも高くなるように定めている。このため、したがって、第一指標であるVπ(s)の値が大きければ大きい程、その状態sおいて自律移動ロボットは障害物へぶつかりやすくなる。
したがって、例えば、第一指標である状態価値関数Vπ(s’)の符号を反転させたものを、第二報酬R ss’とする。
ss’=−Vπ(s’) …(1)
また、到達点を含む状態s’に遷移する場合に得られる第二報酬R ss’を1とする。
<ステップS6>
第二動的計画部16は、第二状態遷移確率P ss’及び第二報酬R ss’を用いて、マルコフ決定過程における動的計画法に基づき、自律移動ロボットの到達点への到達しやすさを表す第二指標を計算する(ステップS6)。求まった第二指標は、第二指標記憶部17に格納される。この例では、第二指標として、状態価値関数Vπ(s)を用いる。
上述の通り、状態s、行動a及び遷移先の状態s’の各組合せについての第二状態遷移確率P ss’及び第一報酬R ss’が計算されていれば、動的計画法に基づいて、状態価値関数Vπ(s)を計算することができる。
このように、1回目の動的計画法による計算により、障害物を含まない状態における将来の障害物へのぶつかりやすさを計算し(ステップS1からステップS3)、そのぶつかりやすさをその状態に遷移するときに与えられる報酬として2回目の動的計画法に用いる(ステップS5)。これにより、障害物を含まない遷移先の状態s’における障害物へのぶつかりやすさを考慮することができ、より動作計画が破綻しづらい動作計画を行うことができる。
以上が、自律移動ロボットの動作計画装置及び方法の実施形態について説明である。
[自律移動ロボットの動作制御装置及び方法]
以下、図9及び図10を参照して、自律移動ロボットの動作制御装置及び方法の実施形態について説明する。
<ステップS21(図10)>
流速差取得部21(図9)は、動作計画時に予想した流速である想定される流速と、流速の実測値との差である流速差を求める(ステップS21)。求まった流速差は、遷移先予測部22に送られる。想定される流速のX成分をf、Y成分をfとし、実際の流速のX成分をfxa、Y成分をfyaとすると、流速差dfx,dfyは、それぞれ下記のように表される。
fx=f−fxa
fy=f−fya
<ステップS22>
遷移先予測部22は、自律移動ロボットが各行動を取った場合の遷移先の状態s’を、自律移動ロボットの位置を流速差dfx,dfyの分だけ移動させることにより求める(ステップS22)。求まった遷移先の状態s’は、行動決定部23に送られる。
遷移先の状態s’の求め方の例を述べる。
流速差dfxを考慮したときの自律移動ロボットのX軸方向の位置の変位量DXa(ψ,a)と、流速差dfyを考慮したときの自律移動ロボットのY軸方向の位置の変位量DYa(ψ,a)とは、それぞれ以下のように示される。
Figure 0005079602
遷移先予測部22は、まず、上記式により、すなわち自律移動ロボットの位置を流速差dfx,dfyの分だけ移動させることにより、実際のX軸方向の位置の変位量DXa(ψ,a)及び実際のY軸方向の位置の変位量DYa(ψ,a)を求める。
遷移先予測部22は、次に、下記式により、行動aを取った場合の遷移先の状態s’を求める。具体的には、行動aの開始時における、X軸方向の位置X(s)に、Y軸方向の位置Y(s)、方位角ψ(s)及び旋回速度ψ(s)に、それぞれ実際のX軸方向の位置の変位量DXa(ψ,a)、実際のY軸方向の位置の変位量DYa(ψ,a)、方位角の変位量Dψ(ψ,a)及び旋回速度ψ’の変位量Dψ’(ψ,a)を加算することにより遷移先の状態s’を求める。
Figure 0005079602
X軸方向の位置X(s)に、Y軸方向の位置Y(s)、方位角ψ(s)及び旋回速度ψ(s)については、位置計測部25が測定したものを用いる。D(ψ,a)及びD(ψ,a)については、動作計画時に計算したD(ψ,a)及びD(ψ,a)を再利用してもよい。この場合、図示していない記憶部にD(ψ,a)及びD(ψ,a)が記憶され、遷移先予測部22が適宜これらを読み込む。もちろん、遷移先予測部22がこれらを再度計算してもよい。
<ステップS23>
行動決定部23は、遷移先予測部22が求めた、状態sにおいて取り得る各行動aに従って移動した場合の遷移先の状態s’についての第二指標を比較して、到達点に最も到達しやすい行動aを決定する(ステップS23)。決定された行動aは、制御部2に送られる。
この例では、第二指標として状態価値関数Vπ(s)を用いており、かつ、到達点を含む状態に遷移する場合に得られる報酬が最も高くなるように第二報酬が決定されているため、状態価値関数Vπ(s)の値を最も大きくする行動aが、到達点に最も到達しやすい行動となる。
したがって、行動決定部23は、第二指標記憶部17を参照して、状態sにおいて取り得る各行動aに従って移動した場合の遷移先の状態s’における状態価値関数Vπ(s’)をそれぞれ求め、比較することにより、状態価値関数Vπ(s’)の値を最も大きくする行動aを決定する。
<ステップS24>
制御部24は、決定された行動aに従って移動するように、自律移動ロボットを制御する(ステップS24)。具体的には、行動aに対応する目標速度を維持することができるように、自律移動ロボットの主推進器3及び舵2を制御する。
[変形例等]
出発点と到達点との間に障害物があり、出発点から到達点に向かう方向における流速が想定される流速よりも速い場合には、障害物との衝突が起こりやすい。想定される流速と流速の実測値との流速差の分だけ、自律ロボットが障害物に近づいてしまうためである。一方、出発点から到達点に向かう方向とは反対側の方向(到達点から出発点に向かう方向)における流速が速い場合には、障害物との衝突が起こりづらい。想定される流速と流速の実測値との流速差の分だけ、自律ロボットは障害物から遠ざかるためである。
したがって、想定される流速よりも速い流速として、出発点から到達点に向かう方向において、想定される流速よりも速い流速を選択してもよい。これにより、より安全な動作計画を行うことができる。
ここで、出発点から到達点に向かう方向において流速が速いとは、その流速のベクトルと出発点から到達点に向かうベクトルとの内積が0より大ということに等しい。
上記の実施形態では、第一報酬決定部11(図1)のステップS2(図8)の処理において、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’を1として、障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’を0としたが、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’>障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’となるように、第一報酬R ss’を定めてもよい。
また、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’<障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’となるように、第一報酬R ss’を定めてもよい。例えば、障害物を含む状態s’に遷移する場合に得られる第一報酬R ss’=0、障害物を含まない状態s’に遷移する場合に得られる第一報酬R ss’=1とする。この場合、第一動的計画部12が求める第一指標であるVπ(s)は、その値が小さければ小さい程、その状態sにおいて自律移動ロボットは障害物へぶつかりやすくなることを表す。したがって、第二報酬R ss’を定める際に、状態価値関数Vπ(s)の符号を反転させる必要はない。例えば、下記式のように、状態価値関数Vπ(s’)の値をそのまま第二報酬R ss’として用いる。
ss’=Vπ(s’) …(2)
単調増加関数fを用いて、第二報酬を第一指標に応じて定めてもよい。上記(1)式に代えて、下記式を用いる。
ss’=−f(Vπ(s’))
また、上記(2)式に代えて、下記式を用いる。
ss’=f(Vπ(s’))
上記実施形態では、第二報酬決定部15(図1)のステップS5(図8)の処理において、到達点を含む状態に遷移する場合に得られる第二報酬R ss’が最も高くなるように第二報酬R ss’を定めるたが、到達点を含む状態に遷移する場合に得られる第二報酬R ss’が最も低くなるように第二報酬R ss’を定めてもよい。この場合、第二動的計画部16が求める第二指標は、その値が小さければ小さい程、その状態に位置する自律移動ロボットは到達点へ到達しやすいことを意味する。したがって、行動決定部23(図9)はステップS24(図10)の処理において、第二指標を最も小さくする行動を選択すればよい。
第二指標として、行動価値関数Qπ(s,a)を用いてもよい。この場合、第二動的計画部16(図1)はステップS6の処理において、状態s、行動a及び遷移先の状態s’の各組合せについての第二状態遷移確率P ss’及び第一報酬R ss’を用いて、動的計画法に基づいて、行動価値関数Qπ(s,a)を計算する。そして、行動決定部23(図9)はステップS23の処理において、第二指標である行動価値関数Qπ(s,a)を比較して、到達点に最も到達しやすい行動を決定する。具体的には、行動価値関数Qπ(s,a)がその値が大きい程到達点に到達しやすいことを表すように定められている場合には、遷移前の状態sにおいて取り得る行動を行動a、遷移先の状態s’において取り得る行動を行動a’として、maxa’π(s’,a’)を比較して、maxa’π(s’,a’)を最大にする行動aを選択する。
上記自律移動ロボットの動作計画装置及び上記自律移動ロボットの動作制御装置における処理機能は、コンピュータによって実現することができる。この場合、これらの装置がそれぞれ有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これらの装置における各処理機能が、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
自律移動ロボットの動作計画装置の例の機能ブロック図。 第一状態遷移確率計算部の例のブロック図。 第一報酬決定部の例のブロック図。 自律移動ロボットの模式図。 水平方向の位置の変位量を説明するための図。 状態sと遷移先の状態s’の傾斜角差を表した図。 状態遷移確率の計算を説明するための図。 自律移動ロボットの動作計画方法の例を示す流れ図。 自律移動ロボットの動作制御装置の例の機能ブロック図。 自律移動ロボットの動作制御方法の例を示す流れ図。
符号の説明
10 第一状態遷移確率計算部
11 第一報酬決定部
12 第一動的計画部
13 地形モデル保存部
14 第二状態遷移確率計算部
15 第二報酬決定部
16 第二動的計画部
17 第二指標記憶部
21 流速差取得部
22 遷移先予測部
23 行動決定部
24 制御部
25 位置計測部
111 傾斜角差計算部
112 登坂角度計算部
113 障害物判断部

Claims (10)

  1. 不定の流速の流れがある流体の中で出発点に位置する自律移動ロボットを到達点に到達させるための動作計画を行う自律移動ロボットの動作計画装置において、
    想定される流速よりも速い流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第一状態遷移確率を計算する第一状態遷移確率計算部と、
    各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第一報酬を、障害物を含む状態に遷移する場合に得られる第一報酬が障害物を含まない状態に遷移する場合に得られる第一報酬よりも低く又は高くなるように定める第一報酬決定部と、
    上記第一状態遷移確率及び上記第一報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの障害物へのぶつかりやすさを表す第一指標を状態ごとに求める第一動的計画部と、
    上記想定される流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第二状態遷移確率を計算する第二状態遷移確率計算部と、
    各状態にある上記自律移動ロボットが各行動を取り上記到達点を含む状態に遷移する場合に得られる第二報酬が最も高くなるように定めると共に、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも高くなるように定められている場合には、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第二報酬を、遷移先の状態についての上記第一指標の値の大小を反転した値に応じて定め、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも低くなるように定められている場合には、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる上記第二報酬を、遷移先の状態についての上記第一指標の値の大小に応じて定める第二報酬決定部と、
    上記第二状態遷移確率及び上記第二報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの上記到達点への到達しやすさを表す第二指標を状態ごとに求める第二動的計画部と、
    を含む自律移動ロボットの動作計画装置。
  2. 請求項1に記載の自律移動ロボットの動作計画装置において、
    地形モデルを参照して、ある状態における地形の傾斜角と、その状態においてある行動を選択した後の遷移先の状態における地形の傾斜角との差の絶対値を計算する傾斜角差計算部と、
    想定される流速よりも速い流速の下で、上記ある状態から上記遷移先の状態に遷移するときの、上記自律移動ロボットの最大登坂角度を計算する登坂角度計算部と、
    上記傾斜角の差の絶対値と上記最大登坂角度とを比較して、上記傾斜角の差の絶対値が大きければ、その遷移先の状態は障害物を含むと判断する障害物判断部と、
    を更に含むことを特徴とする自律移動ロボットの動作計画装置。
  3. 請求項1又は2に記載の自律移動ロボットの動作計画装置において、
    上記想定される流速よりも速い流速は、上記想定される流速の中で最も速い流速である、ことを特徴とする自律移動ロボットの動作計画装置。
  4. 請求項1から3の何れかに記載の自律移動ロボットの動作計画装置において、
    上記想定される流速よりも速い流速は、上記出発点から上記到達点に向かう方向において、上記想定される流速よりも速い、
    ことを特徴とする自律移動ロボットの動作計画装置。
  5. 請求項1から4の何れかに記載の自律移動ロボットの動作計画装置で決まった動作計画に基づき、不定の流速の下で上記出発点に位置する上記自律移動ロボットを上記到達点に到達するように制御する自律移動ロボットの動作制御装置において、
    上記想定される流速と、流速の実測値との差である流速差を求める流速差取得部と、
    上記自律移動ロボットが各行動を取った場合の遷移先の状態を、上記自律移動ロボットの位置を上記流速差の分だけ移動させることにより求める遷移先予測部と、
    上記遷移先予測部が求めた遷移先の状態についての上記第二指標を互いに比較して、上記到達点に最も到達しやすい行動を決定する行動決定部と、
    上記自律移動ロボットが上記決定された行動に従って移動するように、上記自律移動ロボットを制御する制御部と、
    を含む自律移動ロボットの動作制御装置。
  6. 不定の流速の流れがある流体の中で出発点に位置する自律移動ロボットを到達点に到達させるための動作計画を行う自律移動ロボットの動作計画方法において、
    第一状態遷移確率計算部が、想定される流速よりも速い流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第一状態遷移確率を計算する第一状態遷移確率計算ステップと、
    第一報酬決定部が、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第一報酬を、障害物を含む状態に遷移する場合に得られる第一報酬が障害物を含まない状態に遷移する場合に得られる第一報酬よりも低く又は高くなるように定める第一報酬決定ステップと、
    第一動的計画部が、上記第一状態遷移確率及び上記第一報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの障害物へのぶつかりやすさを表す第一指標を状態ごとに求める第一動的計画ステップと、
    第二状態遷移確率計算部が、上記想定される流速の下で、各状態にある上記自律移動ロボットが各行動を取った場合に各状態に遷移する第二状態遷移確率を計算する第二状態遷移確率計算ステップと、
    第二報酬決定部が、各状態にある上記自律移動ロボットが各行動を取り上記到達点を含む状態に遷移する場合に得られる第二報酬が最も高くなるように定めると共に、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも高くなるように定められている場合には、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる第二報酬を、遷移先の状態についての上記第一指標の値の大小を反転した値に応じて定め、障害物を含む状態に遷移する場合に得られる上記第一報酬が、障害物を含まない状態に遷移する場合に得られる上記第一報酬よりも低くなるように定められている場合には、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる上記第二報酬を、遷移先の状態についての上記第一指標の値の大小に応じて定める第二報酬決定ステップと、
    第二動的計画部が、上記第二状態遷移確率及び上記第二報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの上記到達点への到達しやすさを表す第二指標を状態ごとに求める第二動的計画ステップと、
    を含む自律移動ロボットの動作計画方法。
  7. 請求項6に記載の自律移動ロボットの動作計画方法において、
    傾斜角差計算部が、地形モデルを参照して、ある状態における地形の傾斜角と、その状態においてある行動を選択した後の遷移先の状態における地形の傾斜角との差の絶対値を計算する傾斜角差計算ステップと、
    登坂角度計算部が、想定される流速よりも速い流速の下で、上記ある状態から上記遷移先の状態に遷移するときの、上記自律移動ロボットの最大登坂角度を計算する登坂角度計算ステップと、
    障害物判断部が、上記傾斜角の差の絶対値と上記最大登坂角度とを比較して、上記傾斜角の差の絶対値が大きければ、その遷移先の状態は障害物を含むと判断する障害物判断ステップと、
    を更に含むことを特徴とする自律移動ロボットの動作計画方法。
  8. 請求項6又は7に記載の自律移動ロボットの動作計画方法で決まった動作計画に基づき、不定の流速の下で上記出発点に位置する上記自律移動ロボットを上記到達点に到達するように制御する自律移動ロボットの動作制御方法において、
    流速差取得部が、上記想定される流速と、流速の実測値との差である流速差を求める流速差取得ステップと、
    遷移先予測部が、上記自律移動ロボットが各行動を取った場合の遷移先の状態を、上記自律移動ロボットの位置を上記流速差の分だけ移動させることにより求める遷移先予測ステップと、
    行動決定部が、上記遷移先予測部が求めた遷移先の状態についての上記第二指標を互いに比較して、上記到達点に最も到達しやすい行動を決定する行動決定ステップと、
    制御部が、上記自律移動ロボットが上記決定された行動に従って移動するように、上記自律移動ロボットを制御する制御ステップと、
    を含む自律移動ロボットの動作制御方法。
  9. 請求項1から5の何れかに記載の自律移動ロボットの動作計画装置の各部をコンピュータに実行させるための自律移動ロボットの動作計画プログラム。
  10. 請求項9記載の自律移動ロボットの動作計画プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008150729A 2008-06-09 2008-06-09 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 Expired - Fee Related JP5079602B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008150729A JP5079602B2 (ja) 2008-06-09 2008-06-09 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008150729A JP5079602B2 (ja) 2008-06-09 2008-06-09 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Publications (2)

Publication Number Publication Date
JP2009295103A JP2009295103A (ja) 2009-12-17
JP5079602B2 true JP5079602B2 (ja) 2012-11-21

Family

ID=41543202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008150729A Expired - Fee Related JP5079602B2 (ja) 2008-06-09 2008-06-09 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Country Status (1)

Country Link
JP (1) JP5079602B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5528214B2 (ja) * 2010-05-28 2014-06-25 本田技研工業株式会社 学習制御システム及び学習制御方法
CN102681540A (zh) * 2011-03-10 2012-09-19 上海益道机电设备有限公司 一种机器人六自由度的运动控制方法
JP5997092B2 (ja) * 2013-04-17 2016-09-28 日本電信電話株式会社 ロボット協調搬送計画装置、方法及びプログラム
WO2019216427A1 (ja) * 2018-05-11 2019-11-14 株式会社 Preferred Networks リスク指標評価装置、リスク指標評価方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836691A (ja) * 1994-07-22 1996-02-06 Toyota Motor Corp 自動走行車の管制制御装置
JP4406436B2 (ja) * 2006-04-26 2010-01-27 日本電信電話株式会社 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
JP4495703B2 (ja) * 2006-08-24 2010-07-07 日本電信電話株式会社 水中ロボットの動作制御方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2009295103A (ja) 2009-12-17

Similar Documents

Publication Publication Date Title
JP4495703B2 (ja) 水中ロボットの動作制御方法、装置及びプログラム
Cesari et al. Scenario model predictive control for lane change assistance and autonomous driving on highways
JP4406436B2 (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
US10994729B2 (en) System and method for controlling lateral motion of vehicle
JP6494872B2 (ja) 車両の運動を制御する方法、及び車両の制御システム
Petrich et al. Map-based long term motion prediction for vehicles in traffic environments
US10012984B2 (en) System and method for controlling autonomous vehicles
Zeng et al. Efficient path re-planning for AUVs operating in spatiotemporal currents
JP4746349B2 (ja) ロボット行動選択装置及びロボット行動選択方法
Grigorescu et al. Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles
KR101196374B1 (ko) 이동 로봇의 경로 생성 시스템
JP6939513B2 (ja) モデル予測制御装置
JP5391164B2 (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
US20200174482A1 (en) Online bidirectional trajectory planning method in state-time space, recording medium storing program for executing same, and computer program stored in recording medium for executing same
CN109901598A (zh) 基于随机模型预测控制技术的自主水下机器人路径跟踪方法
CN111123923B (zh) 一种无人船舶局部路径动态优化方法
CN114237256B (zh) 一种适用于欠驱动机器人的三维路径规划与导航方法
JP2020160603A (ja) 経路決定装置、ロボット及び経路決定方法
CN109556609B (zh) 一种基于人工智能的避碰方法及装置
JP5079602B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
Liang et al. Economic MPC-based planning for marine vehicles: Tuning safety and energy efficiency
CN116448134B (zh) 基于风险场与不确定分析的车辆路径规划方法及装置
JP4964255B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Ferguson et al. A Markov decision process model for strategic decision making in sailboat racing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5079602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees