JP4964255B2 - 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 - Google Patents

自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 Download PDF

Info

Publication number
JP4964255B2
JP4964255B2 JP2009004996A JP2009004996A JP4964255B2 JP 4964255 B2 JP4964255 B2 JP 4964255B2 JP 2009004996 A JP2009004996 A JP 2009004996A JP 2009004996 A JP2009004996 A JP 2009004996A JP 4964255 B2 JP4964255 B2 JP 4964255B2
Authority
JP
Japan
Prior art keywords
mobile robot
autonomous mobile
state
flow
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009004996A
Other languages
English (en)
Other versions
JP2010165050A (ja
Inventor
洋 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009004996A priority Critical patent/JP4964255B2/ja
Publication of JP2010165050A publication Critical patent/JP2010165050A/ja
Application granted granted Critical
Publication of JP4964255B2 publication Critical patent/JP4964255B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

この発明は、例えば飛行船、潜水艦等の自律移動ロボットの動作計画を行う技術に関する。特に自律移動ロボットに障害物を回避させる動作計画を行う技術に関する。
イナーシャ(慣性)が高い劣駆動型の自律移動ロボットの動作計画を行う技術として、マルコフ決定過程における動作計画法を利用した技術が知られている(例えば、特許文献1及び非特許文献1参照。)。
この技術においては、想定される流速の下、各状態s∈{s,…,s}にある自律移動ロボットが各行動a∈{a,…,a}を取った場合に各状態s’∈{s,…,s}に遷移する状態遷移確率P ss’と、そのときに得られる報酬R ss’とをまず求める。報酬R ss’については、例えば到達点を含む状態s’に遷移するときに与えられる報酬R ss’を1、障害物を含む状態s’に遷移するときに与えられる報酬R ss’を−1、障害物を含まない状態s’に遷移するときに与えられる報酬R ss’を0とする。
そして、状態遷移確率P ss’及び報酬R ss’を用いて、マルコフ決定過程における動的計画法に基づき、状態価値関数Vπ(s)を求める。そして、想定される流速と実際の流速の流速差を考慮しつつ、状態価値関数Vπ(s)を最大にする行動aを選択し、その選択された行動aに従って自律移動ロボットを制御する。
特開2007−317165号公報
H.Kawano, "Three Dimensional Obstacle Avoidance of Autonomous Blimp Flying in Unknown Disturbance", Proceeding of 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.123-130, October, 2006
しかしながら、非特許文献1及び特許文献1に記載された技術おいては、自律移動ロボットが行動する環境で生じ得る想定外の一時的な流れを考慮して報酬を定めてはいない。
したがって、自律移動ロボットが行動する環境で想定外の一時的な流れが生じた場合に、動作計画が破綻しやすいという課題がある。
上記の課題を解決するために、互いに異なる複数の一時的な流れが生じた場合に、各状態にある上記自律移動ロボットが各行動に基づいて移動した場合に障害物に衝突するかどうかを判定し、衝突すると判定された一時的な流れが生じる確率の総和である衝突確率を計算し、衝突確率を考慮して報酬を決定し、その報酬に基づいて動的計画を行う。
この発明は、想定外の一時的な流れを考慮して報酬を決定するため、動作計画はより破綻しづらくなるという効果を奏する。
自律移動ロボットの動作計画装置の例の機能ブロック図。 状態遷移確率計算部の例のブロック図。 自律移動ロボットの動作制御装置の例の機能ブロック図。 自律移動ロボットの模式図であり、(a)は正面図、(b)は側面図。 水平方向の位置の変位量を説明するための図。 状態遷移確率の計算を説明するための図。 衝突の判定及びその省略を説明するための概念図。 衝突が起こる一時的な流れの集合Sの連続的な概念図。 衝突が起こる一時的な流れの集合Sの離散的な概念図。 自律移動ロボットの動作制御方法の例を示す流れ図。 衝突判定部の処理を説明するための図。 自律移動ロボットの動作制御方法の例を示す流れ図。
[マルコフ決定過程]
まず、この発明を把握するための基礎知識である強化学習(Reinforcement Learning)におけるマルコフ決定過程(Markov decision Process)の概略を説明する。
環境を構成する離散的な状態の集合をS={s,s,…,s}、行動主体が取り得る行動の集合をA={a,a,…,a}と表す。環境中のある状態s∈Sにおいて、行動主体がある行動a∈Aを実行すると、環境は確率的に状態s’∈Sへ遷移する。その遷移確率(状態遷移確率とも呼ぶ)を
ss’=Pr{st+1=s’|s=s,a=a}
により表す。このとき環境から行動主体へ報酬rが確率的に与えられるが、その期待値を
ss’=E{r|s=s,a=a,st+1=s’}
とする。
なお、状態s’に附されている記号’は、状態sとの識別を図るための記号である。時間微分を表す記号として記号’を用いることがあるが、記号’が附された対象がマルコフ状態遷移モデルの状態であるか否かで記号’の意味を容易に識別できるので、以降の説明でもこの記法に従うとする。
ある時間ステップtで行った行動が、その後の報酬獲得にどの程度貢献したのかを評価するため、その後得られる報酬の時系列を考える。報酬の時系列評価は価値と呼ばれる。行動主体の目標は、価値を最大化すること、又は、価値を最大にする方策π(s,a)を求めることである。方策π(s,a)は、状態sにおいて行動aを取ることを意味し、状態s及び行動aの複数の組のそれぞれについて定義される。価値は、時間の経過とともに報酬を割引率γ(0≦γ<1)で割引いて合計される。すなわち、ある方策πの下での状態sの価値である状態価値関数Vπ(s)は、以下のように定義される。Eπは期待値を求める関数である。
Figure 0004964255
ここでは価値関数として方策πの下での状態sの価値である状態価値関数Vπ(s)を採用したが、方策πの下で状態sにおいて行動aを採ることの価値である行動価値関数Qπ(s,a)を採用することもできる。
Figure 0004964255
行動主体の目標は、最適な方策πを求めること、つまり任意の状態sについて価値関数(上記の例では状態価値関数Vπ(s)である。)が他の方策πを採った場合よりも劣るものではない方策πを求めることである。この方策πの探求は、Bellman方程式で表され、状態sと行動aと遷移先の状態s’との各組み合わせについての状態遷移確率P ss’及び報酬R ss’の値が定まっていれば、動的計画法(ダイナミックプログラミング法)により、最適な、状態価値関数Vπ(s)、行動価値関数Qπ(s,a)及び方策πを計算することができる(例えば、三上 貞芳、皆川 雅章 共訳、R.S.Sutton、A.G.Barto 原著「強化学習」森北出版、1998、pp.94-118参照。)。動的計画法の処理は、周知技術であるため説明は省略する。
[自律移動ロボットの動作計画装置及び方法]
自律移動ロボットの動作計画装置及び方法の実施形態について説明する。
行動主体である自律移動ロボットの例を、図4(a)(b)を参照して説明する。自律移動ロボットは、主推進器101、上下方向推進器102、舵103、ゴンドラ104、流速差取得部21、位置計測部25を有する。この自律移動ロボットは、真横方向に直接移動することができない。搭載アクチュエータである主推進器101、上下方向推進器102、舵103が制御可能な運動自由度よりも自律移動ロボットの運動自由度は高いので、この自律移動ロボットは劣駆動ロボットである。この実施形態では、自律移動ロボットとして飛行船タイプのものを採用しているが、水中無人探索機のような水中ロボット等の任意の自律移動ロボットを採用してもよい。自律移動ロボットには、搭載アクチュエータに応じて、行動単位時間Tごとに取り得る行動が定められる。
自律移動ロボットは、不定の流速の流れがある流体で満たされた空間を航行する。その空間はマルコフ遷移状態モデルにより離散的にモデル化されており、自律移動ロボットの二次元座標(x,y)、方位角ψ及び旋回速度ψ’の4つ次元から構成される。各次元は、その次元の物理量を測定するセンサの分解能に応じて離散化されている。この空間には、自律移動ロボットの出発位置及び到着位置が予め定められ、また障害物が配置される。
出発位置を含む状態sに位置する自律移動ロボットは、予め定められた行動の集合の中から1つの行動aを選択する。そして、予め定められた行動単位時間Tだけその行動aに従って移動して、遷移先の状態s’に移動する。この遷移先の状態s’において、再び、予め定められた行動の集合の中から1つの行動aを選択して、行動単位時間Tだけその行動に従って移動して、遷移先の状態s’’に移動する。この行動の選択と状態の遷移を繰り返すことにより、初めは出発地点を含む状態にある自律移動ロボットは、空間に配置された予め定められた到達地点を含む状態に移動しようとする。自律移動ロボットの動作計画装置は、そのための動作計画を行う。
<ステップS1(図10)>
状態遷移確率計算部1(図1)は、予め定められた流れの下で、各状態sにある自律移動ロボットが各行動aを取った場合に各状態sに遷移する状態遷移確率P ss’を計算する(ステップS1)。すなわち、状態s、行動a及び遷移先の状態s’の各組合せについての状態遷移確率P ss’を計算する。計算された状態遷移確率P ss’は、動的計画部2に送られる。
状態遷移確率P ss’の計算方法の例について説明する。この例では、状態遷移確率計算部1は、図2に例示するように、目標速度計算部11、変位量計算部12及び確率計算部13を含む。
≪ステップS11≫
状態遷移確率計算部1の目標速度計算部11(図2)は、自律移動ロボットが各状態sにおいてある各行動aを取ったときの目標速度を決定する(ステップS11)。目標速度は、変位量計算部12に送られる。例えば、各行動aについて、下記の式に従って自律移動ロボットの旋回速度ψ τ(t)と前後方向の速度vxwτ(t)を自律移動ロボットの目標速度として定める。(b,b)はマルコフ状態遷移モデルの各状態sにおける行動aに対応する二次元ベクトル、αは予め定められた旋回加速度であり、βは予め定められた前後方向の加速度であり、τは各行動aの開始時からの経過時間、ψ’τ0は行動aの開始時における自律移動ロボットの旋回速度、vx0は行動aの開始時における自律移動ロボットの前後方向の速度である。
Figure 0004964255
ここで、旋回加速度α及び前後方向の加速度βは、自律移動ロボットの性能の限界を超えないように設定される。また、前後方向の速度vx0(t)及び前後方向の加速度βは、それぞれ対流体機体速度及び対流体機体加速度として記述される。
≪ステップS12≫
変位量計算部12は、各状態sにある自律移動ロボットが、予め定められた流れの下において、各行動aに従って移動した場合の、自律移動ロボットの世界座標系における水平面内位置のX座標,Y座標,方位角ψ及び旋回速度ψ’がそれぞれどれくらい変位するのか計算する(ステップS12)。計算された変位量は確率計算部13に送られる。
予め定められた流れとは、例えば、想定される流れ、想定される流れよりも速い流れである。[自律移動ロボットの動作制御装置及び方法]の欄で後述するように予め定められた流れと流速の実測値とが異なる場合には適宜補正されるため、おおよその流れでよい。予め定められた流れを0としてもよい。もっとも、想定される流れが流速の実測値と近いほど、この動作計画及びこれに基づく動作制御の精度が増す。したがって、予め定められた流れを想定される流れとすることにより、この動作計画及びこれに基づく動作制御の精度が増す。また、自律移動ロボットの出発位置から到達位置に向かう方向と同じ向きで想定される流れよりも速い流れの下で計算を行う場合、後ろから流れを受けるロボットは旋回半径が大きくなるので、現実よりも厳しい条件で動作計画をしていることになるから、より安全な動作計画を行うことができる。
自律移動ロボットの水平面内位置のX座標の変位量をD(ψ,a)、Y座標の変位量をD(ψ,a)、方位角ψの変位量をDψ(ψ,a)、旋回速度ψ’の変位量をDψ’(ψ,a)とすると、それぞれの変位量は、次式にように与えられる(図5を参照のこと)。
Figure 0004964255
ここで、ψは各状態sの開始時の方位角、Tは状態sから次の状態s’に遷移するまでの行動単位時間、fmxは予め定められた流れのX座標の成分、fmyは予め定められた流れのY座標の成分である。なお、方位角ψの変位量Dψ(ψ,a)と、旋回速度ψ’の変位量Dψ’(ψ,a)については、旋回速度ψ’の制御を行うことになるため、風の影響による補正は行わない。行動単位時間は例えば15秒とすることができる。
≪ステップS13≫
確率計算部13は、自律移動ロボットの水平面内位置のX座標の変位量D(ψ,a)、Y座標の変位量D(ψ,a)、方位角ψの変位量Dψ(ψ,a)及び旋回速度ψ’の変位量Dψ’(ψ,a)に基づいて、状態遷移確率P ss’を計算する(ステップS13)。
まず、状態sが、自律移動ロボットの水平面内位置のX座標、Y座標、方位角ψ及び旋回速度ψ’の4つの次元で構成される格子で示されるとし、その格子をR(s)と定義する(図6を参照のこと)。そして、その格子R(s)を、上記各変位量から構成される変位量ベクトル(D(ψ,a),D(ψ,a),Dψ(ψ,a),Dψ’(ψ,a))で、平行移動したものをR(s)と定義する。
ここで、自律移動ロボットが状態sにあるときは、自律移動ロボットは、その状態sを表わす4次元の格子R(s)の各点の何れかに、等しい確率で存在するものと仮定する。この仮定の下では、状態遷移確率P ss’は、R(s)と各R(s’)の重なった部分の体積に比例してそれぞれ求めることができる。ここで、R(s’)は、R(s)と重なった格子である。すなわち、R(s’)は、状態sにおいてある行動aを取ったときの遷移先の候補の状態s’に対応した4次元の格子である。R(s)は最大で8つのR(s’)と重なる可能性がある。
状態遷移確率P ss’は、R(s)とあるR(s’)の重なった部分の体積をV(s,s’,a)、R(s)とすべてのR(s’)との重なった部分の体積をΣs’(s,s’,a)とすると、次式により求めることができる。
Figure 0004964255
ステップS11からステップS13の処理を適宜繰り返すことにより、状態s、行動a及び遷移先の状態s’の各組合せについての状態遷移確率P ss’を求める(ステップS1の説明は以上)。
次に流れ発生確率記憶部3に格納されるデータについて説明をする。流れ発生確率記憶部3(図1)には、互いに異なる複数の一時的な流れ(f,ψ)と、各一時的な流れ(f,ψ)が生じる確率とが記憶される。一時的な流れは、極座標系、直交座標系、斜光座標系の何れの座標系で記述してもよいが、この例では極座標系で一時的な流れを記述することにする。fは一時的な流れの速さ、ψは一時的な流れの方向を意味する。一時的な流れは、速さf及び方向ψの組で特定される。速さf及び方向ψの一時的な流れを(f,ψ)とも表記する。起こり得る一時的な流れの範囲は、f−ψ平面の集合Sで定義される。
例えば、自律移動ロボットの行動環境で過去に起こった最大流速をfgmaxとして、集合Sを次のように定義する。
S={(f,ψ)|0≦f≦fgmax,0≦ψ≦360°}
(f,ψ)は一時的な流れの確率分布であり、計算機で扱う場合には離散的な確率となるが、p(f,ψ)を概念的な説明のために確率密度関数と呼ぶこともある。一時的な流れを連続的に考えた場合には、一時的な流れの確率分布は確率密度関数p(f,ψ)で表現することができる。定義により確率密度関数p(f,ψ)を集合Sで積分すると1となる。
1=∫p(f,ψ)dfdψ
実際に発生し得る一時的な流れの方向ψは予想することができないので、確率密度関数p(f,ψ)は、速さfについてのみ正規分布に従うとして、例えば下記式のように定義される。σは分散、μは平均値である。
Figure 0004964255
μ=0として、速さfの定義域をf>0としてもよい。この場合、1=∫p(f,ψ)dfdψとするために、確率密度関数p(f,ψ)を次のように定義する。
Figure 0004964255
自律移動ロボットの行動環境で過去に測定された流速についての統計データを用いて、確率密度関数p(f,ψ)を定義してもよい。
流れ発生確率記憶部3には、これらの確率密度関数p(f,ψ)を表現するためのデータが格納される。例えば、f−ψ平面をΔf,Δψの幅の格子で分割することにより離散的に表現し、各格子の代表点(例えば格子の中心点)の値f,ψごとに、一時的な流れの確率p(f,ψ)の値を定義する。このとき、p(f)の総和は1となる。すなわち、Σ(f)=1である。
<ステップS2>
衝突判定部4は、予め定められた流れ(f,f)、及び、各一時的な流れ(f,ψ)の下で、各状態sにある自律移動ロボットが各行動aに基づいて移動した場合に、障害物に衝突するか判定する(ステップS1)。障害物に衝突すると判定された一時的な流れ(f,ψ)についての情報は、衝突流れ記憶部5に格納される。例えば、後述するように、障害物に衝突すると判定された一時的な流れ(f,ψ)の格子の集合Sについての情報が、衝突流れ記憶部5に格納される。
Figure 0004964255
ステップS1の処理の具体例を、図11を参照して説明する。まず、衝突判定部4は、f−ψ空間の集合Sから、速さf及び方向ψともに最小値となる格子を選択する(ステップS21)。τ=0とする(ステップS22)。上記式により定義されるDXg(s,a,f,ψ)、DYg(s,a,f,ψ)の値を計算して、状態sにおけるX,Yの値をそれぞれ加算する(ステップS23)。すなわち、DXg(s,a,f,ψ)+X、DYg(s,a,f,ψ)+Yの値を計算する。DXg(s,a,f,ψ)+X、DYg(s,a,f,ψ)+Yで示す位置が障害物であるかどうかを判定する(ステップS24)。障害物でないと判定された場合には、τ<Tであるかを判定する(ステップS25)。τ<Tである場合には、τを予め定められた値だけインクリメントし(ステップS26)、その後ステップS23に進む。τ<Tでない場合には、速さfが速さfの最大値fgmaxであるかどうか、すなわちf<fgmaxであるかを判定する(ステップS27)。f<fgmaxである場合には、速さfをインクリメントして(ステップS28)、ステップS22に進む。f<fgmaxでない場合には、ステップS210に進む。
ステップS24において、障害物であると判定された場合には、自律移動ロボットの行動環境で想定される流れ(f,f)、及び、現在選択されている格子の一時的な流れ(f,ψ)の下で、現在選択されている状態sにある自律移動ロボットが現在選択されている行動aに基づいて移動した場合に、障害物に衝突すると判定して、現在選択されている一時的な流れ(f,ψ)の格子を、衝突が起こる一時的な流れの集合Sgに加える(ステップS29)。また、必要に応じて、現在選択されている一時的な流れ(f,ψ)の格子だけではなく、現在選択されている一時的な流れ(f,ψ)と方向ψが同じでよりも速さが速い一時的な流れの格子を、衝突が起こる一時的な流れの集合Sに加えてもよい(ステップS29’)。
例えば、図7の速さfg2の一時的な流れにおいて衝突が起こると判定された場合には、速さfg2と方向が同じで速さがfg2よりも速い速さfg4の一時的な流れにおいても衝突が起こることは計算をしなくてもわかる。したがって、fg4の一時的な流れについての衝突が起こるかどうかの計算を省略することができるのである。このようにして、一時的な流れについて衝突するかどうかの判定を省略することにより、計算量を削減することができる。図7の状況における、衝突が起こる一時的な流れの集合Sの連続的な概念図を図8に、衝突が起こる一時的な流れの集合Sの離散的な概念図を図9に示す。
ステップS210において、方向ψ>360°であるか判定する(ステップS210)。方向ψ>360°でないと判定された場合には、方向ψを予め定められた値だけインクリメントし、速さfを0とし(ステップS211)、ステップS22に進む。方向ψ>360度であると判定された場合には、処理を終える。この処理を状態sと行動aの各組について行う。
<ステップS3>
衝突確率計算部6は、障害物に衝突すると判定された一時的な流れが生じる確率を流れ発生確率記憶部3から読み込んで加算することにより、各状態にある上記自律移動ロボットが各行動に基づいて移動した場合に障害物に衝突する衝突確率P(s,a)を計算する(ステップS3)。例えば、集合Sに含まれる衝突が起こる一時的な流れ(f,ψ)のそれぞれが生じる確率p(f,ψ)の総和を計算することにより、衝突確率P(s,a)を計算する。
Figure 0004964255
障害物に衝突すると判定された一時的な流れについての情報(例えば、集合Sについての情報)は、衝突流れ記憶部5から読み出す。計算された衝突確率P(s,a)は、報酬決定部7に送られる。
<ステップS4>
報酬決定部7は、遷移先の状態s’が到達位置を含む場合の報酬が最も高く、遷移先の状態s’が到達位置を含まない場合には衝突確率P(s,a)が小さいほど報酬が高くなるように、各状態sにある自律移動ロボットが各行動aを取り各状態s’に遷移する場合に得られる報酬r(s,a)を決定する(ステップS4)。決定された報酬r(s,a)は、動的計画部2に送られる。
関数Fを、単調減少関数とする。単調減少関数とは、任意のx,x(ただし、x<x)に対して、f(x)≧f(x)となる関数fのことを意味する。P(s,a)の定義によりP(s,a)の最小値は0であり最大値は1であるから、関数Fの最大値はF(0)最小値はF(1)である。また、任意の定数Rmaxを、Rmax>F(0)とする。例えば、F(x)=−xとし、Rmax=1とする。このとき、報酬R ss’を例えば次のように決定する。
遷移先の状態s’が到達位置を含む場合⇒R ss’=Rmax
それ以外の場合⇒R ss’=F(P(s,a))
<ステップS5>
動的計画部2は、状態遷移確率及び報酬を用いて、マルコフ決定過程における動的計画法に基づき、自律移動ロボットの上記到達位置への到達しやすさを表す指標を状態ごとに求める(ステップS5)。到達しやすさを表す指標としては、状態価値関数Vπ(s)、行動価値関数Qπ(s,a)及び方策πの何れかを例えば用いることができる。計算された指標は、指標記憶部17に格納される。
[マルコフ決定過程]の欄で説明をしたように、状態s、行動a及び遷移先の状態s’の各組合せについての状態遷移確率P ss’及び報酬R ss’が計算されていれば、動的計画法に基づいて、状態価値関数Vπ(s)、行動価値関数Qπ(s,a)及び方策πを計算することができる。
このように想定外の一時的な流れ(f,ψ)を考慮して報酬R ss’を決定し、この報酬R ss’に基づいて動的計画を行うことにより、生成された動的計画はより破綻しづらくなる。
以上が、自律移動ロボットの動作計画装置及び方法の実施形態について説明である。
[自律移動ロボットの動作制御装置及び方法]
以下、図3及び図12を参照して、生成された動的計画(=指標)を用いて自律移動ロボットの動作を制御する自律移動ロボットの動作制御装置及び方法の実施形態について説明する。
<ステップA1(図12)>
流速差取得部21(図3)は、動作計画時に予想した予め定められた流れと、流速の実測値との差である流速差を求める(ステップA1)。求まった流速差は、遷移先予測部22に送られる。予め定められた流れのX成分をf、Y成分をfとし、実際の流速のX成分をfxa、Y成分をfyaとすると、流速差dfx,dfyは、それぞれ下記のように表される。
fx=f−fxa
fy=f−fya
動作計画時に予想した予め定められた流れを0とした場合には、流速差取得部21は現在の流速の実測値を流速差として求めることができる。
<ステップA2>
遷移先予測部22は、自律移動ロボットが各行動を取った場合の遷移先の状態s’を、自律移動ロボットの位置を流速差dfx,dfyの分だけ移動させることにより求める(ステップA2)。求まった遷移先の状態s’は、行動決定部23に送られる。
遷移先の状態s’の求め方の例を述べる。
流速差dfxを考慮したときの自律移動ロボットのX軸方向の位置の変位量DXa(ψ,a)と、流速差dfyを考慮したときの自律移動ロボットのY軸方向の位置の変位量DYa(ψ,a)とは、それぞれ以下のように示される。
Figure 0004964255
遷移先予測部22は、まず、上記式により、すなわち自律移動ロボットの位置を流速差dfx,dfyの分だけ移動させることにより、実際のX軸方向の位置の変位量DXa(ψ,a)及び実際のY軸方向の位置の変位量DYa(ψ,a)を求める。
遷移先予測部22は、次に、下記式により、行動aを取った場合の遷移先の状態s’を求める。具体的には、行動aの開始時における、X軸方向の位置X(s)に、Y軸方向の位置Y(s)、方位角ψ(s)及び旋回速度ψ’(s)に、それぞれ実際のX軸方向の位置の変位量DXa(ψ,a)、実際のY軸方向の位置の変位量DYa(ψ,a)、方位角の変位量Dψ(ψ,a)及び旋回速度ψ’の変位量Dψ’(ψ,a)を加算することにより遷移先の状態s’を求める。
Figure 0004964255
X軸方向の位置X(s)に、Y軸方向の位置Y(s)、方位角ψ(s)及び旋回速度ψ’(s)については、位置計測部25が測定したものを用いる。D(ψ,a)及びD(ψ,a)については、動作計画時に計算したD(ψ,a)及びD(ψ,a)を再利用してもよい。この場合、図示していない記憶部にD(ψ,a)及びD(ψ,a)が記憶され、遷移先予測部22が適宜これらを読み込む。もちろん、遷移先予測部22がこれらを再度計算してもよい。
<ステップA3>
行動決定部23は、遷移先予測部22が求めた、状態sにおいて取り得る各行動aに従って移動した場合の遷移先の状態s’についての指標を比較して、到達点に最も到達しやすい行動aを決定する(ステップA3)。決定された行動aは、制御部24に送られる。
指標として状態価値関数Vπ(s)を用いた場合には、到達点を含む状態に遷移する場合に得られる報酬が最も高くなるように報酬が決定されているため、状態価値関数Vπ(s)の値を最も大きくする行動aが、到達点に最も到達しやすい行動となる。
したがって、行動決定部23は、指標記憶部17を参照して、状態sにおいて取り得る各行動aに従って移動した場合の遷移先の状態s’における状態価値関数Vπ(s’)をそれぞれ求め、比較することにより、状態価値関数Vπ(s’)の値を最も大きくする行動aを決定する。
<ステップA4>
制御部24は、決定された行動aに従って移動するように、自律移動ロボットを制御する(ステップA4)。具体的には、行動aに対応する目標速度を維持することができるように、自律移動ロボットの主推進器101及び舵103を制御する。
[変形例等]
指標として、上記したように行動価値関数Qπ(s,a)又は方策πを用いてもよい。例えば、行動価値関数Qπ(s,a)を指標として用いた場合、動的計画部2は、状態s、行動a及び遷移先の状態s’の各組合せについての状態遷移確率P ss’及び第一報酬R ss’を用いて、動的計画法に基づいて、行動価値関数Qπ(s,a)を計算する。そして、行動決定部23(図3)は指標である行動価値関数Qπ(s,a)を比較して、到達点に最も到達しやすい行動を決定する。具体的には、行動価値関数Qπ(s,a)がその値が大きい程到達点に到達しやすいことを表すように定められている場合には、遷移前の状態sにおいて取り得る行動を行動a、遷移先の状態s’において取り得る行動を行動a’として、maxa’π(s’,a’)を比較して、maxa’π(s’,a’)を最大にする行動aを選択する。
上記自律移動ロボットの動作計画装置及び上記自律移動ロボットの動作制御装置における処理機能は、コンピュータによって実現することができる。この場合、これらの装置がそれぞれ有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これらの装置における各処理機能が、コンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1 状態遷移確率計算部
11 目標速度計算部
12 変位量計算部
13 確率計算部
2 動的計画部
3 発生確率記憶部
4 衝突判定部
5 記憶部
6 衝突確率計算部
7 報酬決定部
17 指標記憶部
21 流速差取得部
22 遷移先予測部
23 行動決定部
24 制御部
25 位置計測部

Claims (8)

  1. 不定の流速の流れがある流体で満たされ障害物が配置された空間の中で行動単位時間ごとに行動を決定してその行動に基づいて上記行動単位時間だけ移動する動作を繰り返す自律移動ロボットを出発位置から到達位置へ到達させるための動作計画を行う自律移動ロボットの動作計画装置において、
    上記空間は、自律移動ロボットの二次元座標(x,y)、方位角ψ及び旋回速度ψ’の4つ次元で構成されるマルコフ遷移状態モデルにより離散的にモデル化されるとして、
    予め定められた流れの中で、各状態にある上記自律移動ロボットが各行動を取り上記行動単位時間だけ移動した場合に各状態に遷移する確率である状態遷移確率を計算する状態遷移確率計算部と、
    互いに異なる複数の一時的な流れが生じる確率が記憶される流れ発生確率記憶部と、
    上記予め定められた流れ、及び、各上記一時的な流れの下で、上記各状態にある上記自律移動ロボットが上記各行動に基づいて移動した場合に、障害物に衝突するか判定する衝突判定部と、
    障害物に衝突すると判定された一時的な流れが生じる確率を上記流れ発生確率記憶部から読み込んで加算することにより、上記各状態にある上記自律移動ロボットが上記各行動に基づいて移動した場合に障害物に衝突する衝突確率を計算する衝突確率計算部と、
    遷移先の状態が上記到達位置を含む場合の報酬が最も高く、遷移先の状態が上記到達位置を含まない場合には上記衝突確率が小さいほど報酬が高くなるように、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる報酬を決定する報酬決定部と、
    上記状態遷移確率及び上記報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの上記到達位置への到達しやすさを表す指標を状態ごとに求める動的計画部と、
    を含む自律移動ロボットの動作計画装置。
  2. 請求項1に記載の自律移動ロボットの動作計画装置において、
    上記衝突判定部は、ある一時的な流れについて障害物に衝突すると判定された場合に、その一時的な流れと方向が同じで速さが速い一時的な流れについても障害物に衝突する一時的な流れであると判定することを特徴とすることを特徴とする自律移動ロボットの動作計画装置。
  3. 請求項1又は2に記載の自律移動ロボットの動作計画装置で決まった動作計画に基づき、
    不定の流速の流れがある流体で満たされ障害物が配置された空間の中で行動単位時間ごとに行動を決定してその行動に基づいて上記行動単位時間だけ移動する動作を繰り返す自律移動ロボットを出発位置から到達位置へ到達させるように制御する自律移動ロボットの動作制御装置において、
    上記予め定められた流れと、流速の実測値との差である流速差を求める流速差取得部と、
    上記自律移動ロボットが各行動を取った場合の遷移先の状態を、上記自律移動ロボットの位置を上記流速差の分だけ移動させることにより求める遷移先予測部と、
    上記遷移先予測部が求めた遷移先の状態についての上記指標を互いに比較して、上記到達位置に最も到達しやすい行動を決定する行動決定部と、
    上記自律移動ロボットが上記決定された行動に従って移動するように、上記自律移動ロボットを制御する制御部と、
    を含む自律移動ロボットの動作制御装置。
  4. 不定の流速の流れがある流体で満たされ障害物が配置された空間の中で行動単位時間ごとに行動を決定してその行動に基づいて上記行動単位時間だけ移動する動作を繰り返す自律移動ロボットを出発位置から到達位置へ到達させるための動作計画を行う自律移動ロボットの動作計画方法において、
    上記空間は、自律移動ロボットの二次元座標(x,y)、方位角ψ及び旋回速度ψ’の4つ次元で構成されるマルコフ遷移状態モデルにより離散的にモデル化されており、
    流れ発生確率記憶部には、互いに異なる複数の一時的な流れが生じる確率が記憶されており、
    状態遷移確率計算部が、予め定められた流れの中で、各状態にある上記自律移動ロボットが各行動を取り上記行動単位時間だけ移動した場合に各状態に遷移する確率である状態遷移確率を計算する状態遷移確率計算ステップと、
    衝突判定部が、上記予め定められた流れ、及び、各上記一時的な流れの下で、上記各状態にある上記自律移動ロボットが上記各行動に基づいて移動した場合に、障害物に衝突するか判定する衝突判定ステップと、
    衝突確率計算部が、障害物に衝突すると判定された一時的な流れが生じる確率を上記流れ発生確率記憶部から読み込んで加算することにより、上記各状態にある上記自律移動ロボットが上記各行動に基づいて移動した場合に障害物に衝突する衝突確率を計算する衝突確率計算ステップと、
    報酬決定部が、遷移先の状態が上記到達位置を含む場合の報酬が最も高く、遷移先の状態が上記到達位置を含まない場合には上記衝突確率が小さいほど報酬が高くなるように、各状態にある上記自律移動ロボットが各行動を取り各状態に遷移する場合に得られる報酬を決定する報酬決定ステップと、
    動的計画部が、上記状態遷移確率及び上記報酬を用いて、マルコフ決定過程における動的計画法に基づき、上記自律移動ロボットの上記到達位置への到達しやすさを表す指標を状態ごとに求める動的計画ステップと、
    を含む自律移動ロボットの動作計画方法。
  5. 請求項4に記載の自律移動ロボットの動作計画方法において、
    上記衝突判定ステップは、ある一時的な流れについて障害物に衝突すると判定された場合に、その一時的な流れと方向が同じで速さが速い一時的な流れについても障害物に衝突する一時的な流れであると判定することを特徴とすることを特徴とする自律移動ロボットの動作計画方法。
  6. 請求項4又は5に記載の自律移動ロボットの動作計画方法で決まった動作計画に基づき、不定の流速の流れがある流体で満たされ障害物が配置された空間の中で行動単位時間ごとに行動を決定してその行動に基づいて上記行動単位時間だけ移動する動作を繰り返す自律移動ロボットを出発位置から到達位置へ到達させるように制御する自律移動ロボットの動作制御方法において、
    流速差取得部が、上記予め定められた流れと、流速の実測値との差である流速差を求める流速差取得ステップと、
    遷移先予測部が、上記自律移動ロボットが各行動を取った場合の遷移先の状態を、上記自律移動ロボットの位置を上記流速差の分だけ移動させることにより求める遷移先予測ステップと、
    行動決定部が、上記遷移先予測部が求めた遷移先の状態についての上記指標を互いに比較して、上記到達位置に最も到達しやすい行動を決定する行動決定ステップと、
    制御部が、上記自律移動ロボットが上記決定された行動に従って移動するように、上記自律移動ロボットを制御する制御ステップと、
    を含む自律移動ロボットの動作制御方法。
  7. 請求項1又は2に記載の自律移動ロボットの動作計画装置をコンピュータに実行させるための自律移動ロボットの動作計画プログラム。
  8. 請求項7に記載の自律移動ロボットの動作計画プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009004996A 2009-01-13 2009-01-13 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 Expired - Fee Related JP4964255B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009004996A JP4964255B2 (ja) 2009-01-13 2009-01-13 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009004996A JP4964255B2 (ja) 2009-01-13 2009-01-13 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Publications (2)

Publication Number Publication Date
JP2010165050A JP2010165050A (ja) 2010-07-29
JP4964255B2 true JP4964255B2 (ja) 2012-06-27

Family

ID=42581177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009004996A Expired - Fee Related JP4964255B2 (ja) 2009-01-13 2009-01-13 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法

Country Status (1)

Country Link
JP (1) JP4964255B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6189784B2 (ja) * 2014-04-09 2017-08-30 日本電信電話株式会社 行動制御装置、方法及びプログラム
US11077555B1 (en) * 2015-12-07 2021-08-03 AI Incorporated Method to minimize collisions of mobile robotic device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05178294A (ja) * 1992-01-08 1993-07-20 Mitsubishi Heavy Ind Ltd 宇宙機器制御装置
JP2952397B2 (ja) * 1994-08-23 1999-09-27 科学技術庁航空宇宙技術研究所長 対気飛行速度ベクトル計測装置を用いた対気能動制御航空機
JP4932269B2 (ja) * 2006-02-07 2012-05-16 三菱電機株式会社 移動模擬装置
JP4406436B2 (ja) * 2006-04-26 2010-01-27 日本電信電話株式会社 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
JP4690239B2 (ja) * 2006-04-27 2011-06-01 ヤマハ発動機株式会社 無人ヘリコプタ
JP2007290647A (ja) * 2006-04-27 2007-11-08 Yamaha Motor Co Ltd 無人ヘリコプタおよび外部環境推定装置
JP4495703B2 (ja) * 2006-08-24 2010-07-07 日本電信電話株式会社 水中ロボットの動作制御方法、装置及びプログラム
JP5082433B2 (ja) * 2006-12-26 2012-11-28 トヨタ自動車株式会社 移動体周囲危険度判定方法、装置、およびプログラム

Also Published As

Publication number Publication date
JP2010165050A (ja) 2010-07-29

Similar Documents

Publication Publication Date Title
Cesari et al. Scenario model predictive control for lane change assistance and autonomous driving on highways
JP6494872B2 (ja) 車両の運動を制御する方法、及び車両の制御システム
US10994729B2 (en) System and method for controlling lateral motion of vehicle
JP4406436B2 (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム
JP6917878B2 (ja) 移動体挙動予測装置
JP4495703B2 (ja) 水中ロボットの動作制御方法、装置及びプログラム
Petrich et al. Map-based long term motion prediction for vehicles in traffic environments
JP6939513B2 (ja) モデル予測制御装置
KR101048098B1 (ko) 로봇의 경로계획 장치 및 방법
JP4746349B2 (ja) ロボット行動選択装置及びロボット行動選択方法
JP2005339241A (ja) モデル予測制御装置および車両用推奨操作量生成装置
CN112639849A (zh) 路径选择方法和路径选择装置
US20200174482A1 (en) Online bidirectional trajectory planning method in state-time space, recording medium storing program for executing same, and computer program stored in recording medium for executing same
Berntorp et al. Positive invariant sets for safe integrated vehicle motion planning and control
JP2012041004A (ja) 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作制御装置、自律移動ロボットの動作計画プログラム、自律移動ロボットの制御プログラム
KR102176483B1 (ko) 차선 정보를 래스터화하여 활용하는 딥러닝 기반 차량 경로 예측 방법 및 장치
JP2020160603A (ja) 経路決定装置、ロボット及び経路決定方法
JP7125286B2 (ja) 行動予測装置及び自動運転装置
WO2021095464A1 (ja) ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット
Ferrari et al. A potential field approach to finding minimum-exposure paths in wireless sensor networks
JP5079602B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
US11383704B2 (en) Enhanced vehicle operation
JP4964255B2 (ja) 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法
Li et al. Safe autonomous navigation for systems with learned SE (3) Hamiltonian dynamics
Guirguis et al. ROS-based Model Predictive Trajectory Tracking Control Architecture using LiDAR-Based Mapping and Hybrid A Planning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110105

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120327

R150 Certificate of patent or registration of utility model

Ref document number: 4964255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees