JP7069456B2 - マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置 - Google Patents

マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置 Download PDF

Info

Publication number
JP7069456B2
JP7069456B2 JP2019550667A JP2019550667A JP7069456B2 JP 7069456 B2 JP7069456 B2 JP 7069456B2 JP 2019550667 A JP2019550667 A JP 2019550667A JP 2019550667 A JP2019550667 A JP 2019550667A JP 7069456 B2 JP7069456 B2 JP 7069456B2
Authority
JP
Japan
Prior art keywords
controlled object
state
policy
seed
policies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019550667A
Other languages
English (en)
Other versions
JP2020511721A (ja
Inventor
オルソン、エドウィン
エイチ. メータ、ダーンヴィン
フェレール、ゴンザロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Michigan
Original Assignee
University of Michigan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Michigan filed Critical University of Michigan
Publication of JP2020511721A publication Critical patent/JP2020511721A/ja
Priority to JP2022063511A priority Critical patent/JP7262858B2/ja
Application granted granted Critical
Publication of JP7069456B2 publication Critical patent/JP7069456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Robotics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Complex Calculations (AREA)

Description

政府条項
本発明は、米国国防総省高等研究計画局によって授与された助成金第D13AP00059号による政府の支援を受けてなされた。政府は本発明において一定の権利を有する。
関連出願の相互参照
本出願は、2017年3月17日に出願された米国仮特許出願第62/472,734号の利益を主張する。上記出願の全開示は参照により本明細書に組み込まれる。
本開示は、環境を通って移動する対象物のマルチポリシー意思決定のための方法に関する。
ロボットや車両などの自律制御された対象物は、どちらの方向に進むかについて決定するために、その周囲の環境を考慮する必要がある。これを行うために、制御対象物はそれ自体とそれらの周りの対象物についてすべての可能なシナリオ、方向、および結果を考慮する。しかしながら、各可能なシナリオをランダムに考慮することは、計算上不経済であるだけでなく、制御対象物が衝突または他の高コストの発生を経験する可能性があるシナリオを識別する方法を定義しないので非効率的でもある。
本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本背景技術の欄に記載されている限りにおいて、出願時に先行技術として適格ではない可能性がある説明の態様と同様に、本発明者らの研究は、明示的にも暗示的にも本開示に対する先行技術として認められない。
このセクションは本開示の一般的な概要を提供するものであり、その全範囲またはそのすべての特徴の包括的な開示ではない。
環境内の制御対象物にコマンドを発行するための、コンピュータにより実装される方法が提示される。一組のポリシーの各ポリシーについて決定が行われ、ポリシーが制御対象物が実装するコマンドを指定し、コマンドが制御対象物の動きに直接影響を及ぼす。開始点として、制御対象物および1つまたは複数の監視対象物の各々について状態推定値が受け取られ、各状態推定値は状態要素を含み、状態要素はそれぞれの対象物の位置およびそれぞれの対象物の速度を示す。
シード状態は、制御対象物および1つまたは複数の監視対象物の各々について生成される。次いで、制御対象物および1つまたは複数の監視対象物の動きがシード状態を使用してシミュレートされ、シミュレーションはそれぞれのポリシーを実行する制御対象物を含む。シード状態を用いたシミュレーションの結果にコストを割り当て、シード状態に関連した確率を決定することによって、シード状態を用いたシミュレーションの結果が定量化される。
シード状態が(例えば、バックプロパゲーションを使用して)揺動され、1つまたは複数の監視対象物および制御対象物の動きが、揺動された入力を使用してシミュレートされる。1つまたは複数の監視対象物および異なる揺動された入力を有する制御対象物の動きのシミュレーションは、所定の条件が満たされるまで繰り返され、それによって複数の揺動された結果が生成される。
各ポリシーについて、それぞれのポリシーについてポリシースコアが決定され、ポリシースコアは、それぞれのポリシーについての複数の揺動された結果の中で最も高い値を有する揺動された結果に相関する。次いで、所与のポリシーが一組のポリシーから選択され、所与のポリシーは、一組のポリシー内のポリシーの中で最も良性の結果を有する。最後に、所与のポリシーに従って制御対象物にコマンドが発行される。
1つまたは複数の監視対象物の動きをシミュレートするステップは、微分可能関数を使用して対象物の軌跡を表すステップを含む。一実施形態では、対象物の軌跡は、一連の時間ステップにわたって遷移関数を再帰的に適用することによって提示され、遷移関数は、ソーシャルフォースモデルに従って対象物が他のエージェントによってはじかれ、かつ目標に向かって引き寄せられるように定義される。さらに、揺動されたシード状態は、揺動されたシード状態に関して一連の時間ステップ内の時間ステップごとに勾配を反復計算することによって決定される。
いくつかの実施形態では、所与のポリシーは、一組の望ましくない結果を回避し、一組の望ましくない結果は、(i)制御対象物と1つまたは複数の監視対象物のうちの1つとの間の衝突、ならびに(ii)制御対象物が1つまたは複数の監視対象物から所定の距離内にあること、の少なくとも一方を含む。
コストは非難メトリック(blame metric)を用いて決定され、非難メトリックは制御対象物と1つまたは複数の監視対象物のうちの1つとの間の距離ならびに制御対象物の速度の関数である。コストはまた、制御対象物の目標に向けての進行を説明する。
いくつかの実施形態では、一組のポリシーは、制御対象物が、(i)1つまたは複数の監視対象物のうちの1つに追従するように軌跡を変更する、(ii)同じ位置を維持する、(iii)前進する、(iv)減速する、および(v)加速する、ためのコマンドのうちの少なくとも1つを含む。
適用可能性のさらなる分野は、本明細書に提供される説明から明らかになるであろう。この概要における説明および特定の例は、例示目的のみを意図しており、本開示の範囲を限定することを意図していない。
本開示は、詳細な説明および添付の図面からより完全に理解されるようになるであろう。
マルチポリシー意思決定(MPDM)装置の一実施形態のブロック図である。 制御対象物がMPDMを設定するであろう環境の図である。 MPDM装置の一実施形態のフローチャートである。 コスト関数のためのディープネットワーク表現の図である。初期構成x0はいくつかの層を通って伝播し、各層は遷移関数Tを表す。層tの出力はコストを決定する。コスト関数は、フォワードシミュレーション軌跡に沿って各時間ステップで計算されたコストを累積する。 例示的な遷移関数のブロック図である。遷移関数のブロック図。各時間ステップにおいて、ソーシャルフォースモデル(SFM)に従ってエージェントi(この場合、ロボット)は他のエージェント
Figure 0007069456000001

によってはじかれ、その副目標gsubに向かって引き寄せられる。歩行者は、ソーシャルフォースがヒューマンロコモーションモデルの制御入力として機能するHSFMモデルを使用してモデル化される。ロボットは一輪車のようにモデル化され、ソーシャルフォース
Figure 0007069456000002

は、より低いレベルの速度コントローラのための準拠基準信号(vref,wref)に変換される。
バックプロパゲーションを説明する図である。 バックプロパゲーションを説明する図である。図6Aでは、サンプリングされた初期構成の前方伝播された結果は、エージェントにとっても不都合ではないので、ロボットにとって落胆することではない。エージェントi={1,2}の場合は、計算された勾配
Figure 0007069456000003

(青)は、ロボットが現在のポリシーの下でそれらを不便にするであろう構成にエージェントを駆動するが、一方、
Figure 0007069456000004

(緑)はそれらをよりありそうな構成に駆動する。エージェントは同時に更新することができ、図6Bに見られるように、より影響力のある構成をもたらす。
混雑したシナリオにおける確率的勾配上昇の低下を示すグラフである。各アルゴリズムについて、ロボットの周辺にあるエージェントの数、したがって検索空間の次元を変化させる影響力のある結果を見つけるために行われる反復回数(フォワードシミュレーション)の平均と標準誤差を推定する。勾配が小さいほど、高次元の検索空間を持つ複雑なシナリオに対して、アルゴリズムはより優れた、より堅牢なものになる。ランダムサンプリングは、予想通り、単純な構成でも多くのサンプルを必要とする。SGAは、複数のエージェントを含む複雑なシナリオでは影響力のある結果を効率的に見つけることができず、スケーリングが不十分なため、6を超えるエージェントではランダムサンプリングよりも性能が悪くなる。BPは、8人の混雑したシナリオでもこれらの悪い結果を見つけることができる。 提案された方法の実験結果を確率的勾配上昇手法と比較するグラフである。SGAでは不可能であるが、BPはリアルタイムで10個のポリシーを確実に評価することができる。シミュレート環境での6時間のナビゲーションにおける様々なアルゴリズムの性能を比較する。到達したすべての目標の停止時間と、ロボットが移動した1メートルあたりの非難を測定する。各アルゴリズムに対して、ブートストラップサンプリングを使用して、楕円の軸で表されるこれらのメトリックの平均と標準誤差を推定する。非難または停止時間が小さいほど良好である。計画時間t=0.3sを考慮してシミュレータをリアルタイムで実行する。SGAは小さい方のポリシーセットをリアルタイムで確実に評価することができるが、選択肢がないと頻繁に停止する。残念ながら、SGAは10個のポリシーからなる大規模なポリシーセットを確実に評価することはできず、大きな非難を累積させる。BPはSGAよりも迅速かつ確実に大きなポリシーセットを評価できるため、ロボットは不必要に停止することなくリアルタイムで安全に(低い非難で)ナビゲートする。t=1sの非現実的な計画時間を可能にするためにシミュレータを遅くすると(リアルタイムより3倍遅く)、10個のポリシーを有するSGAが劇的に非難を減らすことができることが分かる。ただし、それでもBPはSGAよりも優れている。 3つの反復可能な実験からの実データを示すグラフである。実世界のデータは、異なる記号で表される3つの再現可能な実験、1)歩行者がロボットの軌跡と直交して横切る(+)、2)歩行者が斜め45度でロボットの経路を横切る(Δ)、および3)歩行者がロボットの前をゆっくり歩く(星)から収集された。到達したすべての目標の停止時間と、歩行者の不便によって累積された、ロボットが移動した1メートルあたりの非難を測定する。停止時間および非難が小さいほど、良好である。提案されている手法(緑)は、以前よりも多くのポリシーをリアルタイムで評価することができる。より多くの候補ポリシーがあれば、ロボットは適切なポリシーを見つけ、不必要に停止することなく安全にナビゲートすることができる。
対応する符号は、図面のいくつかの図を通して対応する部分を示す。
MPDMフレームワークでは、制御対象物のポリシーは、現在の状態の分布からサンプリングし、フォワードシミュレーションによって将来の結果を予測し、最も好ましい結果の母集団を持つポリシーを選択することによって選択される。最良のポリシーを選択することは、影響のある結果を伴う初期条件をサンプリングすることに依存する。
制御対象物には、環境内から選択するための個別の数のポリシーがある。制御対象物は、車両、ロボット、または環境を通って移動するように構成されている他の任意の自律的対象物であってもよい。特定の軌跡を選択する代わりに、制御対象物は、制御対象物が従うべき規則集を提供する一組のポリシーから選択することができる。例えば、ポリシーの1つは、環境内の監視対象物に追従することである。制御対象物が特定の監視対象物に追従するように指示されている場合、制御対象物の軌跡は事前に決定されているのではなく、特定の監視対象物に依存している。
環境のモデルは、静止している障害物(例えば、壁またはドア)と、人とみなされる一組の自由に動く動的なエージェントと、からなる。
ロボットは観測可能なエージェントの状態の推定値を維持する。エージェントi(ロボットを含む)のxi∈Xiは、その位置p、速度v、および目標地点gからなる。
Figure 0007069456000005

ここで、p,v,gの各々は二次元ベクトルである。エージェントの動きは単純な動的モデルに従ってモデル化される。このモデルでは、時間の経過と共に積分された加速度によって速度が得られる。力、ひいては加速度は、障害物の影響と目標地点を組み込んだポテンシャルフィールド法を使用して計算される。
ロボットを含むエージェントの数をNとする。システムの結合状態空間は、X=X×X×…×Xである。集合状態x(t)∈Xは、ロボット状態と、時刻tでロボットに見えるすべてのエージェントと、を含む。
我々の観測モデルP(z│x)はマルコフ行列であると仮定され、結合観測zは歩行者の位置である。各歩行者にとって、目標gはzを通して直接観測することはできない。これは、顕著な点の小さい組のうちの1つであると想定され、単純ベイズ分類器を使用して推定される。ロボットにとって、目標gは、より高いレベルのプランナーによって提供される。
エージェントのダイナミクスは、次の微分制約によって定義される。
Figure 0007069456000006

アクションa∈Aは、システムダイナミクスを支配する加速度に対応し、エージェントが従うポリシー
Figure 0007069456000007

によって決定される。
遷移関数は所与の状態aを新しい状態
Figure 0007069456000008

に写像する。したがって、対応する遷移方程式は次のように表される。
Figure 0007069456000009
例示的な実施形態では、高レベル閉ループポリシーの個別の組が提示されている。
Figure 0007069456000010

ここで、Followは、次のエージェントjのポリシーを指す。観測可能なエージェントが10個ある環境内のロボットには、合計12個の候補ポリシーがある。各ポリシーは、システムの結合状態をポテンシャルフィールド
Figure 0007069456000011

を介したアクションにマッピングする。
単独走行ポリシーを実行するエージェントは、他のすべてのエージェントを障害物として扱い、その目標に向かってそれを導くためにソーシャルフォースモデル(SFM)に基づくポテンシャルフィールドを使用する。epi→gをエージェントiから目標へ向かう単位ベクトルとする。エージェントに作用する引力は次の式で与えられる。
Figure 0007069456000012

シーン内の他のエージェントとの相互作用は、SFMに基づいてモデル化されている。
Figure 0007069456000013

ここで、{p1,b}は人々のためのSFMパラメータであり、ej→iはjからiへの単位ベクトルであり、di、jは異方性因子でスケーリングされたそれらの間の距離である。
同様に、エージェントの近くにある各障害物o∈Oは、異なるSFMパラメータ{a,b}に従ってエージェントiに反発力
Figure 0007069456000014

を及ぼす。
Figure 0007069456000015
合成力は、上記のすべての力の合計である。
Figure 0007069456000016
システムプロパゲーションを支配するアクション(2)は、a=fとして計算される(一般性を失うことなく、単位質量を仮定する)。一例では、ロボット以外のすべてのエージェントが常にこの単独走行ポリシーを使用すると想定されている。他の例では、エージェントのポリシーはロボットによって推定される。
単独走行ポリシーに加えて、ロボットは追従ポリシーを使用して特定の状況に対処することができる。直感的に言うと、群衆の中では、ロボットはスピードを犠牲にしながら人間への経路を見つけるという任務を委任して他の人に追従することを選択するかもしれない。他のエージェントを邪魔することなく(低いフォース)、ロボットが目標に向かって進むことを可能にするため、追従することは雑然としたシナリオで人を追い越すよりも適している可能性がある。リアクティブ追従ポリシーが提案され、単独走行ポリシーに小さな変更が加えられている。
追従ポリシーに従って、ロボットrはlと示される別のエージェント(リーダー)に追従することを選択する。この場合、ロボットは目標ではなくリーダーに引き寄せられる。
Figure 0007069456000017

をロボットの位置からリーダーの位置への単位ベクトルとする。引力
Figure 0007069456000018

は、ロボットの軌跡をリーダーに向けて操縦する。他のエージェントや障害物は、(8)で説明したようにロボットをはじき続ける。
ロボットが利用できる最後のポリシーはStopポリシーである。このポリシーでは、ロボットは、次の力に従って、ロボットが完全に停止するまで減速する。
Figure 0007069456000019

ここで、
Figure 0007069456000020

は、ロボットの速度方向の単位ベクトルである。他の種類のポリシーが本開示の範囲内にあることが理解される。
制御対象物が環境の混乱を引き起こさないようにするために、各ポリシーが実装されているときに発生する可能性のある衝突などの壊滅的な結果を発見する必要がある。従来から、ランダムサンプリングが可能性のある結果を予測するために使用されている。制御対象物と監視対象物の位置に基づいてランダムサンプリングを行う。しかし、ランダムサンプリングによる壊滅的な結果の可能性の発見は、環境内でのそのような構成の欠如のために、たとえそれらが合理的に起こり得るとしても、高コストの事象を見逃す可能性があるので計算コストがかかる。つまり、壊滅的な事象や高コストの事象は個別に高い確率密度を持つ可能性があるが、これらの高コストの事象のすべての発生を評価する場合、総確率質量は低くなる。
したがって、ランダムサンプリングの代わりに、影響を受ける結果は、制御対象物および監視対象物の構成をそれらの影響を与える結果に向かって反復して揺動することによって識別することができる。影響力のある結果を特定することで、制御対象物はより高コストの事象または最悪のシナリオを識別する。次に、制御対象物は、発見された可能性が高い高コストの結果の母集団がより良性または望ましいポリシーを選択することができる。つまり、制御対象物は、利用可能な各決定の質を評価し、悪い結果が最も少ない決定を選択している。
図1を参照すると、制御対象物100上のMPDM装置の一実施形態のブロック図が示されている。制御対象物100は、コントローラ104とデータストア108とを含む。コントローラ104は一般に、知覚モジュール112、シード状態生成器116、シミュレータ120、揺動モジュール124、および結果定量化器128を含み、データストア108は確率分布132およびポリシー136を含む。以下の定義を含む本出願では、「モジュール」という用語または「コントローラ」という用語は、「回路」という用語と置き換えられてもよい。「モジュール」という用語は、次のものを指すか、その一部であるか、またはそれらを含むことができる。すなわち、特定用途向け集積回路(ASIC)、デジタル、アナログ、またはアナログ/デジタル混合ディスクリート回路、デジタル、アナログ、またはアナログ/デジタル混合集積回路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ(FPGA)、コードを実行するプロセッサ回路(共有、専用、またはグループ)、プロセッサ回路によって実行されるコードを格納するメモリ回路(共有、専用、またはグループ)、記載された機能を提供する他の適切なハードウェア構成要素、あるいは、システムオンチップなどにおける上記のいくつかまたはすべての組み合わせである。
コントローラ104は、制御対象物100にコマンドを発行するように構成されている。コマンドは、制御対象物100の現在の状態および環境内に存在する複数の監視対象物の状態に基づいて、制御対象物100が最良のポリシーであると決定したポリシー136によって決定される。例えば、環境は、廊下、広い部屋、または静止している障害物を伴う他の任意の領域であってもよい。環境はまた、監視対象物として知られている自由に動く動的エージェントからなることもある。監視対象物は、自由に移動し、制御対象物100から独立している対象物、エージェント、車両、人間などを含む。監視対象物を追跡し、それらの状態を推定することが可能である。知覚モジュール112は、制御対象物100のある近傍内の各監視対象物の状態にわたる分布を推定する。監視対象物の将来の動きを正確に予測することは不可能である。シード状態生成器116または揺動モジュール124を介して監視対象物の状態が与えられると、シミュレータ120が結果を予測する。MPDM装置によって監視される対象物は静止しているおよび/または移動する対象物を説明することができると考えられる。
知覚モジュール112は、環境内の監視対象物を探し出し、監視対象物の各々について状態の推定値を維持する。各監視対象物の状態には、位置、速度、および推定された目標(またはポリシー)の値が含まれる。各監視対象物の状態情報は、制御対象物100に対して定義されてもよい。例えば、一旦識別されると、1つの監視対象物は、制御対象物100から一定の距離にあり、制御対象物100に対して一定の速度で移動してもよい。監視対象物の動きは単純な動的モデルに従ってモデル化される。このモデルでは、時間の経過と共に積分された加速度によって速度が得られる。力、ひいては加速度は、障害物の影響と推定される目標地点とを組み込んだポテンシャルフィールド法を使用して計算される。他の種類の運動モデルもまた本開示によって企図される。
制御対象物100は、知覚モジュール112を介して監視対象物の知覚された位置および速度の推定値を維持する。知覚モジュール112は、フォワードシミュレーション中に使用するために各監視対象物について状態値の配列を識別し評価する。知覚状態値は、時間の関数として環境の構成を提供する。どのポリシー136が破滅的または高コストの事象を回避するのが最良であるかを制御対象物100が決定するために、制御対象物100は、初期構成に基づいてすべての可能な軌跡反復から、どのポリシー136が衝突などの高コストの事象をもたらす可能性が最も低いかをリアルタイムで決定する。環境の初期構成を決定することに関するさらなる詳細は、2015年7月31日に出願された米国特許出願第14/814,766号、第14/814,856号、および第14/814,630号に説明されており、各々は全体が参照により組み込まれる。
各監視対象物について、推定された目標は監視対象物の位置を通して直接観測することはできない。これは、顕著な点の小さい組のうちの1つであると想定され、単純ベイズ分類器を使用して推定される。制御対象物100の場合、目標はより高いレベルのプランナーによって提供される。
シード状態生成器116は、知覚モジュール112から各監視対象物の状態を受け取る。シード状態生成器116は初期サンプリング状態を決定する。例えば、知覚モジュール112によって推定された初期構成に基づいて、シード状態生成器116は、知覚されたすべての監視対象物の推定された位置に基づいてフォワードシミュレーションを開始する状態値を決定する。シード状態生成器116は、各対象物の状態に基づいて環境から初期構成をサンプリングする。
別の用途では、すべての対象物の状態の事後分布からのモンテカルロサンプリングを使用してシミュレーションの予想コストを概算した。ランダムサンプリング中に高コストの事象が認識され、見逃されないようにするために、シード状態生成器116は影響のある結果を識別する。言い換えれば、影響力のあるまたは高コストの結果は、高コストの結果が制御対象物100の意思決定により強く影響するため、明示的に検索され、シミュレートされる。例えば、以下により詳細に説明するように、各対象物の現在の状態の状態要素(例えば、位置、速度など)は、高い値の結果(すなわち、確率とコストの積)を見つけるためにサンプリング中に揺動することができる。事後分布からのランダムサンプリングの代わりに、悪い結果を構成するために最適化プロセスが開始される。一実施形態では、影響を受ける構成を最適化し発見するためにエニータイムアルゴリズムが使用される。別の実施形態では、以下でさらに説明するように、バックプロパゲーションを使用して影響力のある結果を発見することができる。影響力のある結果を発見して最適化すると、必要なサンプリング数が減り、悪い結果を発見する可能性が高まる。影響力のある結果は、シード状態の状態要素をどのように揺動するかを示す。一旦揺動されると、揺動された入力はシミュレータ120を通過する。シード状態と同様に、揺動された入力は結果定量化器128に入れられて、揺動された結果を揺動された確率と揺動されたコストとの積として決定する。揺動されたコストはコスト関数を使用して決定され、揺動された確率は確率分布132から決定される。
MPDMシステムの例示的な実施形態についてのさらなる詳細が説明される。この実施形態では、非ホロノミック運動モデルが、観測された各エージェントiおよびロボットに対して使用される。ロボットは、観測された各エージェントの状態、すなわちその位置、速度、角速度および推定されたポリシーの確率的推定値を維持する。エージェントのポリシーπ=(vdes,gsub)は、所望の速度vdesで副目標gsubに向かって移動するという意図を表す。集合状態x∈Xは、時刻tにおけるロボットおよびすべての観測されたエージェントの状態からなる。本開示を通して、xはすべてのエージェントの集合状態および現在のロボットの状態を指す。確率推定値P(x)は、歩行者の位置の過去の観測に基づいている。過去のエージェントの軌跡に基づいて、いくつかの方法をP(x)に対して使用することができる。例示的な実施形態では、カルマンフィルタを使用して位置および速度を推定し、一方、ナイーブベイズ分類器はエージェントのポリシーを推測するために使用される。ロボットのポリシーπは、一組の閉ループポリシーπの中から選択される。
初期サンプリングされた構成xは、遷移関数T:X→Xを再帰的に適用することにより、(t=1、...、Hによる)H個の時間ステップでフォワードシミュレーションして、軌跡を生成する。
Figure 0007069456000021

ここで、x∈Xは、フォワードシミュレーションの時刻tにおけるロボット状態とすべてのエージェントからなる集合状態である。遷移関数T()は、他のすべてのエージェントとの相互作用を考慮しながら各エージェントが実行している軌跡を捉える。
コスト関数C(X(x))はシミュレーションの結果にスカラー値を割り当てる。例示的な実施形態では、予測された軌跡に沿ってロボットが環境内の他のエージェントにもたらす不都合(非難)を不利にし、その目標に向かうロボットの進行に報いる(進行)コスト関数が使用される。非難のために、最も近いエージェントまでの距離をロボットによって環境に引き起こされる潜在的な擾乱の代用として使うことができる。
Figure 0007069456000022

ここで、dr,j(k)はロボットとエージェントjとの間の距離であり、||v(k)||は時間ステップkにおけるロボットの速度である。uはステップ関数であり、引数が≧0のとき1であり、それ以外のとき0となる。
進行のために、ロボットは計画期間中の遠距離について励まされる。
Figure 0007069456000023

ここで、p(k)は時間ステップにおけるロボットの位置kであり、
Figure 0007069456000024

はロボットの現在位置から目標までの単位ベクトルgである。結果として得られるコスト関数は、両方の線形結合である。
Figure 0007069456000025

ここで、aは重み係数である。他のコスト関数もこの開示によって企図されている。
リスクを意識したMPDMでは、発生する可能性がある最も影響力のある(おそらく高コストの)結果に基づいてロボットのポリシーが評価される。そのような結果は、サンプリングによって近似されたコスト関数の期待値の代わりに、確率的コスト表面最大値{P(x)C(X(π,x))}を最適化することによって発見される。
以下のアルゴリズム1は、リスクを意識したMPDMのポリシー選択について説明している。初期構成の確率分布、P(x)、一組の候補ポリシーπ、およびフォワードシミュレーションバジェットNπが与えられると、各候補ポリシーは、計算バジェット内で発見された最も影響力のある(最悪の場合)結果に従って評価(スコア付け)される。
目的関数P(x)C(X)は、エージェントの数および初期構成の複雑さに応じて複数の極小値を持つことができる。徹底的な探索を通して大域的最大値を見つけることは、大きな状態空間のために計算上不可能である。目的は、たとえ最高値の構成でなくても、その値が大域的最適値に匹敵する影響力のある構成を素早く見つけることである。
次のアルゴリズム1は、リスクを意識したMPDMのポリシー選択を説明している。つまり、アルゴリズム1は、影響力のある、またはより悪い場合の結果を識別する。
アルゴリズム1 リスクを意識したMPDMのためのポリシー選択
1:functionポリシー選択ループ(P(x),Π,Nπ
2:for π=Π do
3:初期化Uπ,n←0
4:while n<Nπ do
5:サンプルx~P(x)
6:U,nopt←Optimize(x,π)
7:n←n+nopt
8:Uπ←max{U,Uπ}
9:end while
10:end for
11:π←argminππ
12:end function
アルゴリズムは、5行目に示すように、初期設定をP(x)からサンプリングし、それを最適化し、6行目に示すように目的関数値がUである局所最適値に収束するまで、サンプリングされた構成を反復的に影響の大きい結果に向けて揺動する。最適化手順によって使用されるフォワードシミュレーションの数noptは、その収束速度に対応する。収束時に、新しい初期構成がサンプリングされ、このプロセスは、フォワードシミュレーションバジェットNπが消費されるまで繰り返される。ポリシーUπの有用性は、最も影響力のある(最も価値の高い)設定である。リスクが最も少ないポリシーが選択される。
図1を続けて参照すると、初期構成の確率分布P(x)が提供されている。ここで、xは、現時点でのすべての対象物の状態要素、候補ポリシーのセットΠ136、およびフォワードシミュレーションバジェットNπを表す。各候補ポリシー136は、計算バジェット内で発見された最も影響力のあるまたは最悪の場合の結果に従って評価およびスコア付けされる。結果(例えば、確率とコストの積)は、対象物の数および初期構成の複雑さに応じて、複数の極小値を有する。徹底的な探索を通して大域的最大値を見つけることは、大きな状態空間のために計算上不可能である。衝突は非常に不利になるので、その値が大域的最適値に匹敵する構成は衝突である可能性があり、したがって意思決定に影響を与えるはずである。
以下でさらに説明するように、シミュレータ120はシード状態生成器116からシード状態を提供される。シード状態に基づいて、シミュレータ120は、ある計画期間まで結合状態のフォワードシミュレーションを行う。結合状態は、すべての監視対象物および制御対象物100の状態値である。シミュレータ120は、制御対象物100を誘導する可能性のある各ポリシー136について、環境内の各対象の前方移動をシミュレートする。フォワードシミュレーションは、制御対象物100が可能なポリシー136のそれぞれを実行し、制御対象物100によって知覚可能な各監視対象物について可能なシナリオのすべてを通して反復することを可能にする。すなわち、シミュレータ120は、制御対象物100が異なるポリシー136を実行している間に、監視対象物の各々について動きのあり得るバリエーションの各々をフォワードシミュレーションする。各シミュレーションでは、ポリシー136の各々についてコストおよび確率を決定することができる。確率は、データストア108に含まれる確率分布132から決定することができる。確率は生成されたシード状態に基づく。
各シード状態および各ポリシー136に対するコストは、コスト関数を用いて計算される。コスト関数は、2つの異なる構成要素、すなわち(i)ロボットが環境内で引き起こす潜在的な擾乱を捕捉する非難、および(ii)制御対象物100の目標に向かってなされた進行を示す進行からなる。制御対象物100と最も近い監視対象物との間の距離は、制御対象物100によって環境に引き起こされる潜在的な擾乱の代用として使用される。計画期間中の制御対象物100もまた、遠距離について励まされる。サンプリングされた初期構成に対して、予測される軌跡はコスト関数を用いて評価される。高い価値の結果は、制御対象物100が監視対象物をそれらに接近しすぎるように動かすことによって不都合を生じさせ、したがって高い非難を蓄積するということに対応する。制御対象物100はまた、それが目標に向かって成し遂げる進行に従って報酬を与えられる。
計画期間は、シミュレータ120が動きを予測またはシミュレートする未来までの時間、例えば3秒である。コスト関数は、非難と進行の両方の線形結合として計算される。さらに、予想コストを概算するために、サンプリング技法が使用される。サンプリング技法は、結合状態のフォワードプロパゲーションをシードし、それが一組の異なる将来の軌跡をもたらす。したがって、制御対象物の100の動作は、監視対象物の平均状態推定値だけでなく、平均状態推定値に関連する不確実性も反映している。
結果定量化器128は、生成されたシード状態について確率とコストとの積として結果を計算する。結果は、ポリシー136およびシード状態に基づくスコアを示す。スコアは、それぞれのポリシー136を選択することがシード状態条件の下でどれほど良いか悪いかを決定する。このフォワードシミュレーションは、提示された条件または構成の下でどのポリシー136が最も理想的であるかを決定するために、各ポリシー136および多くのシード状態について反復して行われる。
揺動モジュール124はまた、シード状態生成器116からシード状態を受け取り、これらの状態を揺動(perturb)する。揺動モジュール124は、ますます影響力のある結果に向かってシード状態を反復的に揺動することによってシード状態を最適化する。最適化手順は、可能な限り少ないフォワードシミュレーション(または反復)でその最も近い局所最適条件に収束するべきである。
バックプロパゲーションは、ますます影響力のある結果に向かってシード状態を反復的に揺動するために使用することができる。ディープニューラルネットワークは、比較的単純な関数を構成(連鎖)することによって複雑な関数をモデル化する。同様に、フォワードシミュレーションは単純なワンステップ遷移関数を使用してシステムの複雑なダイナミクスを捉える。コスト関数は軌跡に沿って計算されたコストの線形結合であるので、フォワードシミュレーションは入力初期構成に基づいて軌跡コストC(X(x))を出力するディープネットワークとして概念化することができる。関数は、最終時刻から遡って初期時刻までの軌跡のコストを累積することができる。このバックプロパゲーションは、最終時刻から開始して初期構成に遡る軌跡を見つけることによって、最も影響力のある結果を識別することができる。
(x)を状態xについて時間ステップtで発生したコストとする。最終時刻Hから遡って初期時刻t=0までの軌跡のコストを累積する関数Φ(t,X)を次のように定義する。
Figure 0007069456000026

目的コストは(X)=Φ(0,X)と表すことができる。Φを次のように再帰的に定式化することができる。
Figure 0007069456000027

Figure 0007069456000028

を計算したい。時間ステップHでのコストの勾配は、
Figure 0007069456000029

式(12)を適用し項を展開することにより、時間ステップHからt=0まで遡る勾配を繰り返し計算することができる。
Figure 0007069456000030

遷移関数の勾配を効果的に計算することができる限り、式14を用いて∇xC(X)を効率的に計算することができる。
この開示は、エージェントに使用される運動学的モデルが勾配の質に影響を与えることを認識している。代替的手法では、より現実的なシミュレーションのために横方向の動きを制限するために、ヒューリスティックを持つすべてのエージェントに対して単純な二重積分器モデルを使用することができる。単純なモデルは速いフォワードシミュレーションには有用であったが、ヒューリスティックには行列
Figure 0007069456000031

の中でゼロとして現れる硬いしきい値が含まれている。結果として、(式14のボックスによって強調されているように有用な勾配は切り捨てられ、効果的なバックプロパゲーションを妨げる。したがって、横方向の力の影響を捉えるために、エージェントの状態を角速度で増大させる非ホロノミック運動学モデルの使用が好ましい。このモデルは、フォワードシミュレーションにおいて現実的な人間の動きを維持しながらTの微分可能性を保証する。
具体的には、以下に説明するように、ヘッドソーシャルフォース(HSFM)がすべての歩行者に使用され、一輪車のようなモデルがロボットに使用される。ロボットの場合、正味の力はSFM
Figure 0007069456000032

を使用して計算されるが、車輪付きプラットフォームには固有の制約があるため、
Figure 0007069456000033

を低レベル速度コントローラのための準拠基準信号(Vref,Wref)に変換する。
Figure 0007069456000034

先読み距離lは、横方向力を補償するためにロボットが回転する傾向を決定する。次いで、ロボットの状態は、独立した車輪速度コントローラの各々についての一次モデルと一輪車のプラントモデルとを使用して基準信号に向かってプロパゲートされる。
図5を参照すると、提案された遷移関数層T(x)は遷移関数の正確な勾配を計算することを可能にする。式14はバックプロパゲーションによって効率的に実装することができ、ここで、
Figure 0007069456000035

はフォワードプロパゲーション中に計算され、キャッシュされる。
図6Aおよび図6Bは、2つのエージェントからなる単純な初期構成x、およびその目標gに向かって単独走行ポリシーを実行するロボットによるバックプロパゲーションを用いた勾配降下の1回の反復を示す図である。ヒューリスティックに基づく確率論的勾配法(SGA)は、各エージェントについておおよその勾配を計算し、発散を避けるために一度に1つのエージェントを揺動した。対照的に、正確な勾配を計算することによって、発散することなくすべてのエージェントを同時に揺動することができる。この勾配は、エージェント間の相互作用や静止している障害物も説明する。
バックプロパゲーション、または影響のある結果を識別するための当技術分野で知られている他の任意の方法を使用して、シード状態を揺動し、揺動されたシード状態を使用してシミュレートすることができる。揺動されたシード状態のフォワードシミュレーションは、揺動された結果をもたらす。可能なポリシー136の各々についての複数の結果(確率とコストの積)は、どのポリシー136が最良の最悪シナリオを有するかを識別するために使用される。すなわち、最良の最悪シナリオは、各ポリシー136に対するすべてのフォワードシミュレーションのうち、ニアミスを含む、最良または最も良性の高コストのシナリオを有するポリシーである。最良のポリシーが識別されると、コントローラ104は選択されたポリシーに基づいてコマンドを発行する。
データストア108に含まれる任意の数のポリシー136があってもよい。例示的な実施形態では、ポリシー136は単独走行し、監視対象物のうちの1つに追従し、停止する。単独走行ポリシーを実行する制御対象物100は、監視対象物をすべて障害物として扱い、それを制御対象物100の目標に向かって導くためにソーシャルフォースモデル(SFM)に基づくポテンシャルフィールドを使用する。SFMは、“Social-aware robot navigation in urban environments,”in European Conference on Mobile Robotics,by G.Ferrer,A.Garrell,and A.Sanfeliu,2013,pp.331-336に記載されており、これは参照により組み込まれる。この実施形態では、他の実施形態では監視対象物のポリシーが推論されてもよいが、すべての監視対象物が単独走行ポリシーに従うと仮定する。
制御対象物100は、特定の状況に対処するためにフォローポリシーを使用することもできる。群衆の中では、制御対象物100は、速度を犠牲にするが別の対象物への経路を見つけるというタスクを委任する監視対象物のうちの1つに追従することを選択することができる。追従は、他のエージェントを邪魔することなく制御対象物100がその目標に向かって進むことを可能にし、結果として非難を少なくするので、雑然としたシナリオで監視対象物を追い越すよりもより適切であり得る。
フォローポリシーに従って、制御対象物100は、リーダーとみなされる監視対象物のうちの1つを追従することを選択する。フォローポリシーは、制御対象物100が目標ではなくリーダーに引き付けられることを指示している。停止ポリシーは、制御対象物100に静止するように単に指示する。どのポリシー136が最も良性の高コストシナリオをもたらすかを制御対象物100がリアルタイムで判断しているので、制御対象物100のポリシー136は絶えず変化し、再評価されている。一組のポリシー136を評価するという低い計算要件のために、制御対象物100は頻繁に再計画することができる。頻繁な再計画は、不確実性の影響を減らすのに役立つ。
次に図2を参照すると、制御対象物100がMPDMを設定するであろう環境の図が示されている。環境は、制御対象物100、壁204または任意の種類の静止対象物、第1の監視対象物208、第2の監視対象物212、および制御対象物100が到達するための標的216または目標を含む。図1に関して説明したように、制御対象物100はデータストア108に結合されたコントローラ104を含む。この環境では、制御対象物100は、知覚モジュール112を用いて壁204、第1の監視対象物208、および第2の監視対象物212を識別する。
知覚モジュール112は、監視対象物208、212の両方について位置、速度、および推定される目標を示す値を決定する。決定された値は監視対象物208、212に対する状態である。監視対象物208、212は環境内を自由に移動するので、各監視対象物208、212の目標は知覚されることはできず、予測されるだけである。さらに、各監視対象物208、212は、無限の数の軌跡選択肢を有し、いくつかの選択肢が図2に示されている。第1の監視対象物208は、制御対象物100が評価しなければならない軌跡220、224の複数の選択肢を有し、第2の監視対象物212は、制御対象物100が同様に評価しなければならない複数の軌跡228、232を有する。
位置、速度、および推定された目標に基づいて、シード状態生成器116は、各ポリシー136のシミュレーション中に使用するために監視対象物208、212の初期構成またはシード状態をサンプリングする。シミュレータ120は、可能性のあるポリシー136の各々についてサンプリングされた初期構成を使用してシナリオの結果を決定する。次に揺動モジュール124は、初期構成を揺動して、より悪い結果またはより高コストの事象を生成する。揺動は、当技術分野で知られているいくつかの方法を使用して実施することができ、そのうちの1つは、上述のようにバックプロパゲーションである。初期構成を揺動した後に、シミュレータ120は揺動された状態に対してシミュレーションを実行し、次に結果定量化器128を用いて揺動されたシナリオの結果を決定する。初期構成は揺動され、所定の期間についてシミュレートされる。
所定の期間は、制御対象物100がポリシーを選択しなければならない時間量、またはポリシーを選択する前に一定の反復回数であってもよい。所定期間についてシミュレーションを実行した後に、制御対象物100は、発見された可能性が高い高コストの結果の母集団がより良性またはより望ましいポリシーを選択する。つまり、選択されたポリシーには、最も良性の最悪の場合の、高コストの事象が含まれている。ポリシーのうちの1つを選択することは、複数の軌跡236、240のうちの1つに従う制御対象物100をもたらす。標的216に向かって進むために、制御対象物100は、単独走行が最も良性の高コストの事象を伴うポリシーであり得ることを決定することができ、それによって標的236への直接的な軌跡が得られる。あるいは、制御対象物100は、第1の監視対象物208または第2の監視対象物212のいずれかに追従することが最も良性の高コストの事象をもたらすことになると決定することができる。第1の監視対象物208に追従すると、符号240などの軌跡となり、制御対象物100は、第1の監視対象物208の後ろに追いつくように加速し、同様の速度で第1の監視対象物の後ろに留まる。他の選択肢として、制御対象物100は、異なるポリシーが最も良性の高コストの事象をもたらすまで停止して所定の位置に留まることができる。
ポリシーが選択されると、1つまたは複数の監視対象物のうちの1つに追従するように軌跡を変更し、同じ位置に留まり、前進し、減速し、加速し、またはポリシーに従うその他の指示などの、コマンドが制御対象物100に発行される。制御対象物100はリアルタイムでポリシーを選択しているので、制御対象物100は常にどのポリシーが最も良性の高コストの事象をもたらすかを計算し、計算に従ってどのポリシーを順守するかを更新している。
次に図3を参照すると、MPDM装置の一実施形態のフローチャートが示されている。制御対象物100は、環境内のすべての監視対象物の状態(例えば、位置、速度など)を常に認識しており、初期構成による可能性のある結果に基づいて軌跡を決定している。軌跡を決定するために、制御対象物100は各ポリシー136を評価する。第1の制御は、すべての可能性のあるポリシー136から評価すべきポリシーを選択する(ステップ300)。次に、ステップ304で、制御は、監視対象物208、212の各々について状態データを受け取る。状態データは、知覚モジュール112によって取得される。ステップ308で、シード状態生成器116を使用して、監視対象物208、212各々のシード状態が生成される。シード状態は、シミュレーションが入力として使用する初期構成に対応している。次いで、ステップ312で、シミュレータ120は、選択されたポリシーおよびシード状態を使用してシミュレートする。ステップ316で、結果が、結果定量化器128を使用してコストに確率を乗じたものとして定量化される。上述したように、コスト関数は、環境内の邪魔な対象物に対する非難、ならびに標的216に向かう進行の組み合わせとして計算される。確率は確率分布132から決定される。
ステップ320で、制御は条件が満たされたかどうかを判定する。条件は、時間量、揺動数もしくは反復数、制御対象物100によってどのポリシーが現在実装されているかに応じたポリシー固有の条件、または予め決められている他の任意の条件など、様々な所定の条件であってもよい。言い換えれば、ステップ320は、どのポリシーが最も良性の高コスト事象をもたらすかを決定するためにシード状態が揺動されシミュレートされる回数を制御する。
条件が満たされていない場合、制御はステップ324に進み、そこでシード状態が揺動される。すなわち、シード状態の要素(すなわち、位置、速度など)は、バックプロパゲーションなどの方法を使用して、ますます影響力のある結果に向かって反復的に揺動される。この揺動は、揺動されたシード状態の構成を高コストの事象をもたらす結果に向かって導く。次に、ステップ328で、シミュレータ120は、選択されたポリシーと揺動されたシード状態を使用してシミュレートする。結果定量化器128は次に、ステップ332で、揺動されたコストと揺動された確率との積として揺動された結果を定量化する。揺動されたコストおよび揺動された確率は、揺動されたシード状態に基づいて決定される。シード状態は、条件が満たされるまで、ますます影響力のある結果に向かって反復的に揺動される。その時点で、制御は、各ポリシー136がシミュレートされたか否かを判定する(ステップ336)。そうでなければ、制御は始めに戻って、ステップ200で異なるポリシーを選択する。
ステップ336で各ポリシーがシミュレートされたと制御が判断すると、ステップ340で各ポリシーについてスコアが決定される。ステップ344で最良のスコアを有するポリシーが選択される。最良のスコアは、最も良性の高コスト事象の数が最も少ないことを示すスコアとして説明することができる。これにより、制御対象物100に対して最良の可能なシナリオが保証される。すなわち、制御対象物100は、発見された可能性が高い高コストの結果の母集団がより良性またはより望ましいポリシーを選択する。例えば、より望ましいポリシーは、選択されたポリシーが衝突またはニアミスなどをもたらす機会がより低いことを含む。ポリシーが選択されると、ステップ348で、制御は、ポリシーに関連するコマンドを制御対象物100に発行する。前述のように、コマンドは加速、減速などのコマンドであってもよい。制御は、フローチャートに示されているMPDMをリアルタイムで実行して、どの時点においても、どのポリシー136が、制御対象物100が追従するのに最良であるかを判断する。
概念実証として、シミュレーションが行われた。シミュレートされた環境は、ロボットが目標に到達しようとしている間に速度や方向をランダムに変更できる15のエージェントが自由に移動できるオープンスペースからなる。MPDMは、突然の予期せぬ環境の変化に対応するために、迅速な意思決定と再プランニング(300nmsごと)に依存している。
歩行者が突然停止したり、速度が遅くなったり速度が上がったりすることがある。これは、2つの接頭のガウス分布の混合である各エージェントの優先速度にわたる分布としてモデル化することができ、それはスピードアップまたはスピードダウンを考慮したσ=0.4m/sを有する推定される最も可能性の高い現在の速度、ならびに突然停止することを考慮した0とσ=0.2m/sにピークを持つ接頭のハーフガウス分布を中心としたものである。
歩行者も信号なしで突然方向を変えることができる。各エージェントの方向の不確実性を説明するために、ロボットはエージェントの推定される最も可能性の高い方向を中心としたガウス分布とエージェントのウェイポイントを決定するσ=30°を仮定する。すべての接頭のガウス分布はμ±1.5σに制限されている。歩行者の副目標は、ナイーブベイズ分類器を使用して一組の顕著なポイントから推測される。
サンプリングされた初期構成に対して、予測される軌跡はコスト関数を用いて評価される。高コストの結果は、ロボットが他のエージェントに近づきすぎて他のエージェントに迷惑をかけ、その結果、高い非難を累積するという結果に相当する。ロボットはまた目標に向かって進む進行に従って報酬を与えられる。これらのメトリックについてのさらなる説明は、“Fast discovery of influential outcomes for risk-aware MPDM”in Proceedings of the IEEE International Conference on Robotics and Automation,2017に見出すことができ、これは参照により全体が組み込まれる。
ロボットから5m以内に少なくとも1人のエージェントが存在する、16,000のランダムに選択されたシミュレーションシナリオからなるデータセットが生成される。次に、ロボットの近隣にいるエージェントの数に基づいてそれらを並べ替える。目的関数P(x)C(X)は、考慮されるエージェントの数と共に線形的に増減する高次元連続空間に属する無数の可能な初期構成にわたって定義される。各シナリオについて、2,000のランダムサンプルを最適化し、最悪の場合の結果を使用して大域的最適条件を近似した。
次に、ロボットの近くにいるエージェントの数を変えて、シナリオの複雑さと状態空間の次元を増加させる。信頼できるリアルタイムのポリシー評価のためには、影響力のある結果を迅速に検出しなければならない。データセット内の最悪の結果の一定の割合(50%)を達成するために各アルゴリズムで必要な反復回数を見積もる(影響力のある結果を見つける)。各アルゴリズムについて、実験は各シナリオで1,000回実行される。データセットに対してブートストラップサンプリングを(置換と併せて)使用して、それらの性能の平均と標準誤差を推定する。
確率的勾配上昇は、単純化されたコスト関数のエージェント固有の近似的な勾配を計算する。これらの近似によって生じる発散を制限するために、確率的勾配はヒューリスティック関数を用いてランク付けされ、最も有望なエージェントのみが一度に揺動される。エージェントの数が少ないシナリオではうまく機能するが、この方法は、より困難な混雑した設定には適さない。図7は、環境の複雑さが増すにつれてすべてのアルゴリズムが影響力のある結果を見つけるのに時間がかかるが、SGAの性能は4つ以上のエージェントで急激に悪化することを示している。6つのエージェントを超えると、サンプリングされた初期設定から局所最適値に収束するのに長い時間がかかるため、ランダムサンプリングと同じぐらい劣った性能を発揮する。他方、バックプロパゲーションは正確な勾配を計算するのでこれらの制限を克服し、すべてのエージェントは同時に発散することなく更新することができる。
シミュレートされた環境での6時間のナビゲーションを通して、提案された手法はSGAとは異なり、大規模なポリシーセットを確実に評価できることが実証された。各シミュレーションの「エポック」は、エージェント状態のランダムな初期化とそれに続く粒度Δt=0.15sでの5分間のシミュレーション実行からなる。シミュレータでは、観測値zは、エージェントの位置、速度、および向きの相関関係のない変数を含む定常ガウス分布を使用してモデル化される。スケールファクタ
Figure 0007069456000036

でこの不確実性をパラメータ化する。対応する対角共分散行列はdiag
Figure 0007069456000037

により表される。目標を揺動せず、角速度を仮定しない(不確定性を無視する)。これらの不確実性は事後状態推定P(x│z)においてプロパゲートされる。
シミュレーション実験は、ロボットの計算能力を模倣するために、Intel i7プロセッサと8GBのRAMで実行される。突然の変化に対応するために、MPDMは迅速な再計画に頼っている。ロボットは、効果的なリアルタイムナビゲーションのために300msごとに再計画しなければならない。リスク認識MPDMの性能は、2つのポリシー候補セット(10個のポリシーを含む大規模候補セットと2個のポリシーを含む小規模候補セット)を使用して評価される。
1)2つのポリシー-{単独走行、停止}-ロボットは最大速度(1.5m/s)で目標に向かってまっすぐ進むことを評価し、危険を感じると停止する。
2)10個のポリシー-{(高速、中速、低速)x(まっすぐ、左、右)、停止}-最大速度で目標に向かってまっすぐ進むのではなく、MPDMはまた中速(0.9m/s)または低速(0.2m/s)で進むことを選択してもよい。同時に、ロボットは単独走行のように目標にまっすぐ進むのではなく、目標の左または右に副目標を生成することも選択することができる。
到達した目標ごとの停止時間、および目標までの距離で正規化された非難(移動距離あたりの非難)を記録する。停止時間は、プランナーが安全なポリシーを見つけられなかったことを示す。より大きなポリシーセットでは、ロボットは安全なポリシーを見つける可能性が高くなり、停止する頻度は少なくなる。しかし、ロボットは、そのポリシーセットを十分に迅速に評価できない場合には、環境の突然の変化に対応できず、非難が蓄積される。理想的には、最小限の停止と進行の動作で、ロボットが安全(低い非難)に移動できるようにする。
図8は、SGAの非効率性が性能のボトルネックになる様子を示している。SGAは小さいポリシーセットで安全(低い非難)に移動できるが、しばしば安全なポリシーを見つけることができずに停止する。10個のポリシーでは、SGAは影響力のある結果を十分な速さで見つけることができず、結果として高い非難をもたらす。提案された方法、BPはリアルタイムで信頼できる大規模なポリシーセットを評価することができ、それはナビゲーション性能を著しく改善する。
例示的な実施形態では、システムは、追跡および位置特定に使用されるVelodyne VLP-16レーザスキャナを装備した差動駆動プラットフォームであるMAGICロボット上で実装される。LCMはプロセス間通信に使用される。300msごとに、MPDMは一組のポリシーを評価し、最もリスクの低いものを選択する。ポリシーの選択は遅いが、ポリシー自体が50Hzで実行されているのでロボットは反応する。
7人のボランティアに、45分間、オープンスペースの周囲の印を付けた点に向かって移動するように依頼した。図9は、ロボットが目標に向かって進んでいる間に、ボランティアが3つの固定シナリオを繰り返すように依頼された90分間の実世界実験のデータを示している。我々の提案した手法とSGAの両方について、各シナリオが15分間繰り返された。シミュレーションで観測されたように、SGAはより大きなポリシーセットを確実に評価するには遅すぎ、我々のロボットに展開するには安全ではなかった。2つのポリシー(紫)でSGAを使用すると、ロボットは安全なポリシーを見つけられずに頻繁に停止する。私たちの提案した方法(緑)はリアルタイムで10個のポリシーを確実に評価することができ(2つのポリシーしかないSGAと比較して非難に似ている)、その結果、安全なポリシーを見つける可能性が高くなる(短い停止時間)。
前述の説明は、本質的に例示的なものにすぎず、本開示、その適用、または使用を限定することを決して意図するものではない。本開示の広範な教示は様々な形態で実装することができる。したがって、本開示は特定の例を含むが、図面、明細書、および添付の特許請求の範囲を検討すれば他の修正が明らかになるので、開示の真の範囲はそのように限定されるべきではない。本開示の原理を変更することなく、方法内の1つまたは複数のステップを異なる順序で(または同時に)実行することができることを理解されたい。さらに、各実施形態は特定の特徴を有するものとして上記に説明されているが、本開示の任意の実施形態に関して説明されたこれらの特徴のうちの任意の1つまたは複数は、他の実施形態のいずれかの特徴において実装、および/またはその組み合わせが明示的に記述されていなくても組み合わせることができる。言い換えれば、記載された実施形態は相互に排他的ではなく、1つまたは複数の実施形態の互いの置換は、本開示の範囲内に留まる。
要素間(例えば、モジュール間、回路要素間、半導体層間など)の空間的および機能的関係は、「接続される」、「係合される」、「結合される」、「隣接して」、「隣に」、「上部に」「上方に」「下方に」「配置される」などの様々な用語を用いて記述される。第1の要素と第2の要素との間の関係が上記開示において説明されている場合に、「直接的」であると明示的に記載されていない限り、その関係は第1の要素と第2の要素との間に他の介在要素が存在しない直接関係であり得るが、しかし、第1の要素と第2の要素との間に1つまたは複数の介在要素が(空間的にまたは機能的に)存在する間接的な関係もあり得る。本明細書で使用される、A、B、およびCのうちの少なくとも1つというフレーズは、非排他的論理ORを使用して、論理(A OR B OR C)を意味すると解釈されるべきであり、「Aの少なくとも1つ、Bの少なくとも1つ、およびCの少なくとも1つ」を意味すると解釈されるべきではない。
図面において、矢尻で示すように、矢印の方向は、概して、図にとって重要な情報(データまたは命令など)の流れを示す。例えば、要素Aと要素Bが様々な情報を交換するが、要素Aから要素Bに送信された情報が図に関連する場合、矢印は要素Aから要素Bを指すことができる。この一方向の矢印は、他の情報が要素Bから要素Aに送信されないことを示唆しない。さらに、要素Aから要素Bに送信された情報に対して、要素Bは、その情報に対する要求またはその受信確認を要素Aに送信することができる。
以下の定義を含む本出願では、「モジュール」という用語または「コントローラ」という用語は、「回路」という用語と置き換えられてもよい。「モジュール」という用語は、次のものを指すか、その一部であるか、またはそれらを含むことができる。すなわち、特定用途向け集積回路(ASIC)、デジタル、アナログ、またはアナログ/デジタル混合ディスクリート回路、デジタル、アナログ、またはアナログ/デジタル混合集積回路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ(FPGA)、コードを実行するプロセッサ回路(共有、専用、またはグループ)、プロセッサ回路によって実行されるコードを格納するメモリ回路(共有、専用、またはグループ)、記載された機能を提供する他の適切なハードウェア構成要素、あるいは、システムオンチップなどにおける上記のいくつかまたはすべての組み合わせである。
モジュールは、1つまたは複数のインターフェース回路を含んでもよい。いくつかの例では、インターフェース回路は、ローカルエリアネットワーク(LAN)、インターネット、ワイドエリアネットワーク(WAN)、またはそれらの組み合わせに接続されている有線または無線インターフェースを含んでもよい。本開示の任意の所与のモジュールの機能は、インターフェース回路を介して接続されている複数のモジュール間で分散されてもよい。例えば、複数のモジュールが負荷バランスを可能にしてもよい。さらなる例では、サーバ(リモート、またはクラウドとしても知られる)モジュールは、クライアントモジュールに代わっていくつかの機能を達成することができる。
モジュールの一部または全部のハードウェア機能は、IEEE規格1364-2005(一般に「Verilog」と呼ばれる)およびIEEE規格1076-2008(一般に「VHDL」と呼ばれる)などのハードウェア記述用言語を使用して定義することができる。ハードウェア記述言語は、ハードウェア回路を製造および/またはプログラムするために使用することができる。いくつかの実装態様では、モジュールのいくつかのまたはすべての機能は、IEEE 1666-2005(一般に「SystemC」と呼ばれる)などの、後述のコードとハードウェアの記述の両方を含む言語によって定義することができる。
コードという用語は、上記で使用されているように、ソフトウェア、ファームウェア、および/またはマイクロコードを含むことができ、プログラム、ルーチン、機能、クラス、データ構造、および/またはオブジェクトを指すことができる。共有プロセッサ回路という用語は、複数のモジュールからのコードの一部または全部を実行する単一のプロセッサ回路を包含する。グループプロセッサ回路という用語は、追加のプロセッサ回路と組み合わせて、1つまたは複数のモジュールからのいくつかまたはすべてのコードを実行するプロセッサ回路を包含する。複数のプロセッサ回路への言及は、個別のダイ上の複数のプロセッサ回路、単一のダイ上の複数のプロセッサ回路、単一のプロセッサ回路の複数のコア、単一のプロセッサ回路の複数のスレッド、またはこれらの組み合わせを包含する。共有メモリ回路という用語は、複数のモジュールからのコードの一部または全部を格納する単一のメモリ回路を包含する。グループメモリ回路という用語は、追加のメモリと組み合わせて、1つまたは複数のモジュールからの一部または全部のコードを格納するメモリ回路を包含する。
メモリ回路という用語は、コンピュータ可読媒体という用語のサブセットである。本明細書で使用されるコンピュータ可読媒体という用語は、(搬送波上などの)媒体を通って伝播する一時的な電気信号または電磁信号を含まない。したがって、コンピュータ可読媒体という用語は、有形の非一時的なものとみなすことができる。非一時的コンピュータ可読媒体の非限定的な例は、不揮発性メモリ回路(フラッシュメモリ回路、消去可能プログラマブル読み出し専用メモリ回路、またはマスク読み出し専用メモリ回路など)、揮発性メモリ回路(スタティックランダムアクセスメモリ回路またはダイナミックランダムアクセスメモリ回路など)、磁気記憶媒体(アナログまたはデジタルの磁気テープ、ハードディスクドライブなど)、ならびに光学記憶媒体(CD、DVD、またはブルーレイディスクなど)である。
本願に記載されている装置および方法は、コンピュータプログラムで具現化された1つまたは複数の特定の機能を実行するように汎用コンピュータを構成することによって作製された特殊目的コンピュータによって部分的または完全に実装することができる。上記の機能ブロックおよびフローチャート要素はソフトウェアの仕様として役立ち、熟練した技術者またはプログラマーの日常業務によってコンピュータプログラムに変換することができる。
コンピュータプログラムは、少なくとも1つの非一時的コンピュータ可読媒体に格納されたプロセッサ実行可能命令を含む。コンピュータプログラムはまた、格納されたデータを含むかまたはそれに依存してもよい。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本入出力システム(BIOS)、特殊目的コンピュータの特定のデバイスと相互作用するデバイスドライバ、1つまたは複数のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含んでもよい。

Claims (17)

  1. 環境内の制御対象物にコマンドを発行するための、コンピュータにより実装される方法であって、
    一組のポリシーの各ポリシーであって、前記ポリシーが前記制御対象物が実装する前記コマンドを指定し、前記コマンドが前記制御対象物の動きに直接影響を与える各ポリシーについて、
    前記制御対象物および1つまたは複数の監視対象物の各々について状態推定値を受け取るステップであって、各状態推定値は状態要素を含み、前記状態要素は前記それぞれの対象物の位置および前記それぞれの対象物の速度を示す、ステップと、
    前記制御対象物および前記1つまたは複数の監視対象物の各々についてシード状態を生成するステップと、
    前記制御対象物および前記シード状態を使用して前記1つまたは複数の監視対象物の動きをシミュレートするステップであって、前記シミュレーションは、前記それぞれのポリシーを実行する前記制御対象物を含む、ステップと、
    前記シード状態を用いて前記シミュレーションの結果にコストを割り当てるステップと、
    前記シード状態に関連する確率を決定するステップと、
    前記コストおよび前記確率に基づいて前記シード状態を用いて前記シミュレーションの結果を定量化するステップと、
    揺動された入力を使用して前記1つまたは複数の監視対象物および前記制御対象物の動きをシミュレートするステップであって、
    揺動されたシード状態を決定するために、前記シード状態のうちの少なくとも1つの状態要素を揺動し、前記揺動されたシード状態を使用して、前記制御対象物および前記1つまたは複数の監視対象物の動きをシミュレートし、
    前記揺動されたシード状態を用いて前記シミュレーションの結果に揺動されたコストを割り当て、
    前記揺動されたシード状態に関連する揺動された確率を決定し、
    前記揺動されたコストおよび前記揺動された確率に基づいて、前記揺動されたシード状態を用いて前記シミュレーションの揺動された結果を定量化し、
    所定の条件が満たされるまで、揺動された入力を用いて前記制御対象物および前記1つまたは複数の監視対象物の動きの前記シミュレーションを繰り返し、それによって複数の揺動された結果を生成するステップと、
    前記それぞれのポリシーについてポリシースコアを決定するステップであって、前記ポリシースコアは、前記それぞれのポリシーについての前記複数の揺動された結果の中で最も高い値を有する前記揺動された結果に相関する、ステップと、
    前記一組のポリシーから所与のポリシーを選択するステップであって、前記の所与のポリシーは、前記一組のポリシー内の前記ポリシーの中で最も良性の結果を有する、ステップと、
    前記所与のポリシーに従って、前記制御対象物に前記コマンドを発行するステップと、
    を含む方法。
  2. 前記シード状態のうちの少なくとも1つの状態要素を揺動する前記ステップは、前記揺動されたコストと前記揺動された確率との積を最大にする、請求項1に記載の方法。
  3. バックプロパゲーションを使用して少なくとも1つの状態要素を揺動するステップをさらに含む、請求項1に記載の方法。
  4. 前記1つまたは複数の監視対象物の動きをシミュレートするステップは、微分可能関数を使用して対象物の軌跡を表すステップをさらに含む、請求項1に記載の方法。
  5. 一連の時間ステップにわたって遷移関数を再帰的に適用することによって対象物の軌跡を表すステップをさらに含み、前記遷移関数は、ソーシャルフォースモデルに従って対象物が他のエージェントによってはじかれ、かつ目標に向かって引き寄せられるように定義される、請求項4に記載の方法。
  6. 前記1つまたは複数の監視対象物の動きをシミュレートするステップは、前記揺動されたシード状態に関して前記一連の時間ステップ内の時間ステップごとに勾配を反復計算することによって揺動されたシード状態を決定するステップを含む、請求項4に記載の方法。
  7. 前記所与のポリシーは、一組の望ましくない結果を回避し、前記一組の望ましくない結果は、(i)前記制御対象物と前記1つまたは複数の監視対象物のうちの1つとの間の衝突、ならびに(ii)前記制御対象物が前記1つまたは複数の監視対象物から所定の距離内にあること、の少なくとも一方を含む、請求項5に記載の方法。
  8. 前記状態要素は確率分布によって表される、請求項1に記載の方法。
  9. 前記状態要素のうちの1つは、前記制御対象物の目標を示す、請求項8に記載の方法。
  10. 前記コストは非難メトリックを用いて決定され、前記非難メトリックは前記制御対象物と前記1つまたは複数の監視対象物のうちの1つとの間の距離ならびに前記制御対象物の前記速度の関数である、請求項9に記載の方法。
  11. 前記コストは、前記制御対象物の前記目標への進行を用いて決定される、請求項10に記載の方法。
  12. 前記1つまたは複数の監視対象物の各々についての前記受け取った状態推定値は、知覚モジュールに基づく前記1つまたは複数の監視対象物の確率的推定値である、請求項1に記載の方法。
  13. 前記一組のポリシーは、前記制御対象物が、(i)前記1つまたは複数の監視対象物のうちの1つに追従するように軌跡を変更する、(ii)同じ位置を維持する、(iii)前進する、(iv)減速する、および(v)加速する、ためのコマンドのうちの少なくとも1つを含む、請求項1に記載の方法。
  14. 環境内の制御対象物であって、
    一組のポリシーの各ポリシーについて、最良のポリシーを決定するように構成されたコントローラであって、前記ポリシーは、前記制御対象物が実装するコマンドを指定し、前記コマンドは前記制御対象物の方向を示す、コントローラと、
    命令を格納する非一時的コンピュータ可読媒体と、を含み、前記命令は、プロセッサによって実行された場合に、前記プロセッサに対して、
    知覚モジュールから、前記制御対象物および1つまたは複数の監視対象物の各々について状態推定値を受け取らせ、各状態推定値は状態要素を含み、前記状態要素は前記それぞれの対象物の位置および前記それぞれの対象物の速度を示し、
    シード状態生成器を介して、前記制御対象物および前記1つまたは複数の監視対象物の各々についてシード状態を生成させ、
    シミュレータを介して、前記シード状態を使用して、前記制御対象物および前記1つまたは複数の監視対象物の動きをシミュレートさせ、前記シミュレーションは、前記それぞれのポリシーを実行する前記制御対象物を含み、
    結果定量化器を介して、前記結果にコストを割り当てることによって前記シード状態の結果を定量化して、前記シード状態に関連する確率を決定させ、
    前記シミュレータを介して、揺動された入力を使用して前記制御対象物および前記1つまたは複数の監視対象物の動きをシミュレートさせ、
    揺動モジュールを介して、揺動されたシード状態を決定するためにバックプロパゲーションを使用して前記シード状態のうちの少なくとも1つの状態要素を揺動し、前記揺動は、揺動されたコストと揺動された確率の積を最大にし、
    前記揺動されたシード状態に関連する前記揺動されたコストを計算するために、前記揺動されたシード状態を使用して、前記シミュレータを介して、前記制御対象物および前記1つまたは複数の監視対象物の動きをシミュレートさせ、
    前記結果定量化器を介して、前記揺動されたシード状態の揺動された結果を前記揺動されたコストと前記揺動されたシード状態に関連する前記揺動された確率との揺動された積として定量化させ、
    前記コントローラを介して、所定の条件が満たされるまで、揺動された入力を用いて前記制御対象物および前記1つまたは複数の監視対象物の動きの前記シミュレーションを繰り返させ、それによって複数の揺動された積を生成することによって、前記動きをシミュレートさせ、
    前記コントローラを介して、前記それぞれのポリシーについてポリシースコアを決定させ、前記ポリシースコアは、前記一連のポリシー内の前記ポリシーの中で最も高い値を有する前記揺動された結果に相関し、
    前記コントローラを介して、前記一組のポリシーから所与のポリシーを選択させ、前記の所与のポリシーは、前記一組のポリシー内の前記ポリシーの中で最も良性の結果を有し、
    前記コントローラを介して、前記所与のポリシーに従って、前記制御対象物に前記コマンドを発行させる、制御対象物。
  15. 微分可能関数を使用して対象物の軌跡を表すことによって前記1つまたは複数の監視対象物の動きをシミュレートすることをさらに含む、請求項14に記載の制御対象物。
  16. 一連の時間ステップにわたって遷移関数を再帰的に適用することによって対象物の軌跡を表すことをさらに含み、前記遷移関数は、ソーシャルフォースモデルに従って対象物が他のエージェントによってはじかれ、かつ目標に向かって引き寄せられるように定義される、請求項15に記載の制御対象物。
  17. 前記1つまたは複数の監視対象物の動きをシミュレートするステップは、前記揺動されたシード状態に関して前記一連の時間ステップ内の時間ステップごとに勾配を反復計算することによって揺動されたシード状態を決定することを含む、請求項15に記載の制御対象物。
JP2019550667A 2017-03-17 2018-03-16 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置 Active JP7069456B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022063511A JP7262858B2 (ja) 2017-03-17 2022-04-06 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762472734P 2017-03-17 2017-03-17
US62/472,734 2017-03-17
PCT/US2018/022956 WO2018170444A1 (en) 2017-03-17 2018-03-16 Method and apparatus for constructing informative outcomes to guide multi-policy decision making

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022063511A Division JP7262858B2 (ja) 2017-03-17 2022-04-06 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置

Publications (2)

Publication Number Publication Date
JP2020511721A JP2020511721A (ja) 2020-04-16
JP7069456B2 true JP7069456B2 (ja) 2022-05-18

Family

ID=63519520

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019550667A Active JP7069456B2 (ja) 2017-03-17 2018-03-16 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置
JP2022063511A Active JP7262858B2 (ja) 2017-03-17 2022-04-06 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022063511A Active JP7262858B2 (ja) 2017-03-17 2022-04-06 マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置

Country Status (3)

Country Link
US (3) US11087200B2 (ja)
JP (2) JP7069456B2 (ja)
WO (1) WO2018170444A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7069456B2 (ja) 2017-03-17 2022-05-18 ザ・リージェンツ・オブ・ザ・ユニバーシティ・オブ・ミシガン マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置
EP3824404A4 (en) 2018-07-20 2022-04-27 May Mobility, Inc. MULTI-PERSPECTIVE SYSTEM AND BEHAVIORAL POLICY SELECTION PROCESS BY AN AUTONOMOUS AGENT
KR102634443B1 (ko) * 2019-03-07 2024-02-05 에스케이텔레콤 주식회사 차량용 센서의 보정 정보 획득 장치 및 방법
US11345342B2 (en) * 2019-09-27 2022-05-31 Intel Corporation Potential collision warning system based on road user intent prediction
EP4165476A4 (en) 2020-07-01 2024-07-03 May Mobility Inc METHOD AND SYSTEM FOR DYNAMIC MANAGEMENT OF AUTONOMOUS VEHICLE INTERVENTIONS
US11396302B2 (en) 2020-12-14 2022-07-26 May Mobility, Inc. Autonomous vehicle safety platform system and method
US11472444B2 (en) 2020-12-17 2022-10-18 May Mobility, Inc. Method and system for dynamically updating an environmental representation of an autonomous agent
CN112529110B (zh) * 2020-12-29 2023-04-07 中国科学院自动化研究所 对手策略反演方法、***、装置
US11807267B2 (en) 2020-12-31 2023-11-07 Toyota Research Institute, Inc. Systems and methods for risk-sensitive sequential action control for robotic devices
EP4314708A1 (en) 2021-04-02 2024-02-07 May Mobility, Inc. Method and system for operating an autonomous agent with incomplete environmental information
WO2022256249A1 (en) 2021-06-02 2022-12-08 May Mobility, Inc. Method and system for remote assistance of an autonomous agent
WO2023102098A1 (en) 2021-12-01 2023-06-08 May Mobility, Inc. Method and system for impact-based operation of an autonomous agent
US20230174103A1 (en) * 2021-12-02 2023-06-08 May Mobility, Inc. Method and system for feasibility-based operation of an autonomous agent
CN114313882A (zh) * 2022-01-11 2022-04-12 浙江柯工智能***有限公司 一种化纤生产自动化运输***及方法
WO2023154568A1 (en) 2022-02-14 2023-08-17 May Mobility, Inc. Method and system for conditional operation of an autonomous agent
CN114967680B (zh) * 2022-05-06 2024-04-12 安徽理工大学 基于蚁群算法和卷积神经网络的移动机器人路径规划方法
WO2024129832A1 (en) 2022-12-13 2024-06-20 May Mobility, Inc. Method and system for assessing and mitigating risks encounterable by an autonomous vehicle
CN117129000B (zh) * 2023-09-21 2024-03-26 安徽大学 一种基于种子优化算法的多目标货运车辆路径规划方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045265A (ja) 2011-08-24 2013-03-04 Toyota Central R&D Labs Inc 自律移動体
US20170031361A1 (en) 2015-07-31 2017-02-02 Ford Global Technologies, Llc Vehicle trajectory determination

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544282A (en) * 1991-04-05 1996-08-06 Chen; Pang C. Method and apparatus for planning motions of robot manipulators
US6199013B1 (en) 1997-07-15 2001-03-06 Navigation Technologies Corp. Maneuver generation program and method
US6950788B2 (en) 2000-09-27 2005-09-27 Ardeshir Faghri Computer-implemented system and method for simulating motor vehicle and bicycle traffic
US20040100563A1 (en) 2002-11-27 2004-05-27 Sezai Sablak Video tracking system and method
AU2003221083A1 (en) * 2003-03-25 2004-10-18 Rorze Corporation Robot simulation device, and robot simulation program
US20060200333A1 (en) 2003-04-10 2006-09-07 Mukesh Dalal Optimizing active decision making using simulated decision making
US7343232B2 (en) 2003-06-20 2008-03-11 Geneva Aerospace Vehicle control system including related methods and components
WO2007048029A2 (en) 2005-10-21 2007-04-26 Deere & Company Systems and methods for obstacle avoidance
US20070276600A1 (en) 2006-03-06 2007-11-29 King Timothy I Intersection collision warning system
US7813888B2 (en) * 2006-07-24 2010-10-12 The Boeing Company Autonomous vehicle rapid development testbed systems and methods
JP4698656B2 (ja) 2007-11-12 2011-06-08 三菱電機株式会社 制御システムおよび制御支援装置
US20100100324A1 (en) 2008-10-22 2010-04-22 Toyota Motor Engineering & Manufacturing North America, Inc. Communication based vehicle-pedestrian collision warning system
US8346516B2 (en) 2008-11-05 2013-01-01 Accenture Global Services Limited Predictive modeling
WO2012045230A1 (en) * 2010-10-07 2012-04-12 Yu-Chien Huang Simulation transmitter for remote operated vehicles
US9472097B2 (en) 2010-11-15 2016-10-18 Image Sensing Systems, Inc. Roadway sensing systems
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US9495874B1 (en) 2012-04-13 2016-11-15 Google Inc. Automated system and method for modeling the behavior of vehicles and other agents
US9129519B2 (en) 2012-07-30 2015-09-08 Massachussetts Institute Of Technology System and method for providing driver behavior classification at intersections and validation on large naturalistic data sets
US9720412B1 (en) 2012-09-27 2017-08-01 Waymo Llc Modifying the behavior of an autonomous vehicle using context based parameter switching
US9274525B1 (en) 2012-09-28 2016-03-01 Google Inc. Detecting sensor degradation by actively controlling an autonomous vehicle
DE102012022472A1 (de) * 2012-11-16 2014-05-22 Grenzebach Maschinenbau Gmbh Verfahren und Vorrichtung zum kombinierten Simulieren und Steuern ferngesteuerter Fahrzeuge
DE102012023925A1 (de) * 2012-12-06 2014-06-12 Grenzebach Maschinenbau Gmbh Verfahren und Vorrichtung zum kombinierten Simulieren und Steuern ferngesteuerter Fahrzeuge mit einem benutzerfreundlichen Projektionssystem
EP2762877A1 (en) 2013-01-31 2014-08-06 Sensirion AG Calibration of a chemical sensor in a portable electronic device
JP2016526707A (ja) * 2013-07-02 2016-09-05 ナオーリ、イグダル リアルタイム自動車運転シミュレータ
WO2015160900A1 (en) 2014-04-15 2015-10-22 Maris, Ltd Assessing asynchronous authenticated data sources for use in driver risk management
US9821465B2 (en) * 2014-05-06 2017-11-21 Kenneth Dean Stephens, Jr. Enhanced environment simulator for proxy robot handlers
US20210133871A1 (en) 2014-05-20 2021-05-06 State Farm Mutual Automobile Insurance Company Autonomous vehicle operation feature usage recommendations
US9804594B2 (en) 2014-11-07 2017-10-31 Clearpath Robotics, Inc. Self-calibrating sensors and actuators for unmanned vehicles
KR101659034B1 (ko) 2015-01-20 2016-09-23 엘지전자 주식회사 차량의 주행 모드 전환 장치 및 그 방법
US20160314224A1 (en) * 2015-04-24 2016-10-27 Northrop Grumman Systems Corporation Autonomous vehicle simulation system
CN113093808A (zh) 2015-05-23 2021-07-09 深圳市大疆创新科技有限公司 使用惯性传感器和图像传感器的传感器融合
US9618938B2 (en) 2015-07-31 2017-04-11 Ford Global Technologies, Llc Field-based torque steering control
US9811760B2 (en) 2015-07-31 2017-11-07 Ford Global Technologies, Llc Online per-feature descriptor customization
JP6361618B2 (ja) 2015-09-15 2018-07-25 トヨタ自動車株式会社 運転支援装置
US9903733B2 (en) 2016-03-17 2018-02-27 Honda Motor Co., Ltd. Vehicular communications network and methods of use and manufacture thereof
EP3433692B1 (en) 2016-03-24 2023-12-20 Teledyne FLIR Detection, Inc. Persistent aerial reconnaissance and communication system
US12030629B2 (en) 2016-03-24 2024-07-09 Teledyne Flir Detection, Inc. Cellular communication devices and methods
KR102372219B1 (ko) 2016-04-25 2022-03-08 콘비다 와이어리스, 엘엘씨 서비스 레이어에서의 데이터 스트림 애널리틱스
US20170356748A1 (en) 2016-06-14 2017-12-14 nuTonomy Inc. Route Planning for an Autonomous Vehicle
US10656640B2 (en) 2016-07-07 2020-05-19 Applied Minds, Llc Systems and methods for centralized control of autonomous vehicles
WO2018014282A1 (en) 2016-07-21 2018-01-25 Baidu.Com Times Technology (Beijing) Co., Ltd. Efficient communications amongst computing nodes for operating autonomous vehicles
US20180053102A1 (en) 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Individualized Adaptation of Driver Action Prediction Models
US10248120B1 (en) 2016-09-16 2019-04-02 Amazon Technologies, Inc. Navigable path networks for autonomous vehicles
US10762794B2 (en) 2016-09-19 2020-09-01 Honeywell International Inc. Methods and systems for automation guidance
EP3485337B1 (en) 2016-09-23 2020-10-21 Apple Inc. Decision making for autonomous vehicle motion control
US10699305B2 (en) 2016-11-21 2020-06-30 Nio Usa, Inc. Smart refill assistant for electric vehicles
US10993165B2 (en) 2016-12-27 2021-04-27 Veniam, Inc. Flexible support of multi-homing in networks of moving things including autonomous vehicles based networks
US10966070B2 (en) 2017-01-30 2021-03-30 Veniam, Inc. Systems and methods for managing data with heterogeneous multi-paths and multi-networks in an internet of moving things
EP3580104B1 (en) 2017-02-10 2020-11-11 Nissan North America, Inc. Autonomous vehicle operational management blocking monitoring
JP7069456B2 (ja) 2017-03-17 2022-05-18 ザ・リージェンツ・オブ・ザ・ユニバーシティ・オブ・ミシガン マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置
WO2018177339A1 (en) 2017-03-28 2018-10-04 Kwok Ching Kwong A kiosk cluster
IL252769B (en) 2017-06-08 2021-10-31 Israel Aerospace Ind Ltd Method and system for autonomous vehicle navigation
US20170274908A1 (en) 2017-06-12 2017-09-28 Xiaoning Huai Personalize self-driving cars
US10824454B2 (en) 2017-06-15 2020-11-03 At&T Intellectual Property I, L.P. 5G dynamic slice and network identity instantiation, termination, and access management system and method
US10740988B2 (en) 2017-06-16 2020-08-11 nuTonomy Inc. Intervention in operation of a vehicle having autonomous driving capabilities
US10317899B2 (en) 2017-06-16 2019-06-11 nuTonomy Inc. Intervention in operation of a vehicle having autonomous driving capabilities
US10386856B2 (en) 2017-06-29 2019-08-20 Uber Technologies, Inc. Autonomous vehicle collision mitigation systems and methods
US10518729B2 (en) 2017-08-02 2019-12-31 Allstate Insurance Company Event-based connected vehicle control and response systems
US10558224B1 (en) 2017-08-10 2020-02-11 Zoox, Inc. Shared vehicle obstacle data
US10424127B2 (en) 2017-08-28 2019-09-24 GM Global Technology Operations LLC Controller architecture for monitoring health of an autonomous vehicle
US10710602B2 (en) 2017-10-06 2020-07-14 Uatc, Llc Systems and methods for a vehicle controller safety monitor
US10540892B1 (en) 2017-10-26 2020-01-21 State Farm Mutual Automobile Insurance Company Technology for real-time detection and mitigation of remote vehicle anomalous behavior
US11027751B2 (en) 2017-10-31 2021-06-08 Nissan North America, Inc. Reinforcement and model learning for vehicle operation
US10503165B2 (en) 2017-12-22 2019-12-10 Toyota Research Institute, Inc. Input from a plurality of teleoperators for decision making regarding a predetermined driving situation
CN108182817A (zh) 2018-01-11 2018-06-19 北京图森未来科技有限公司 自动驾驶辅助***、路侧端辅助***和车载端辅助***
US11022971B2 (en) 2018-01-16 2021-06-01 Nio Usa, Inc. Event data recordation to identify and resolve anomalies associated with control of driverless vehicles
US20190265059A1 (en) 2018-02-26 2019-08-29 Jonathan Warnick System and Method for Real-time Transit Prioritization
US20210116907A1 (en) 2018-03-18 2021-04-22 Driveu Tech Ltd. Device, System, and Method of Autonomous Driving and Tele-Operated Vehicles
US10235882B1 (en) 2018-03-19 2019-03-19 Derq Inc. Early warning and collision avoidance
US11227486B2 (en) 2018-07-16 2022-01-18 Here Global B.V. Method, apparatus, and system for estimating vulnerable road users
US11454525B2 (en) 2018-10-19 2022-09-27 Robert Bosch Gmbh Vehicle sensor field calibration utilizing other vehicles
US20200233060A1 (en) 2019-01-17 2020-07-23 Denso International America, Inc. Sensor data anomaly detection system and method for a vehicle
US10969470B2 (en) 2019-02-15 2021-04-06 May Mobility, Inc. Systems and methods for intelligently calibrating infrastructure devices using onboard sensors of an autonomous agent

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045265A (ja) 2011-08-24 2013-03-04 Toyota Central R&D Labs Inc 自律移動体
US20170031361A1 (en) 2015-07-31 2017-02-02 Ford Global Technologies, Llc Vehicle trajectory determination

Also Published As

Publication number Publication date
US11681896B2 (en) 2023-06-20
US12001934B2 (en) 2024-06-04
US11087200B2 (en) 2021-08-10
WO2018170444A1 (en) 2018-09-20
US20210342667A1 (en) 2021-11-04
US20230289557A1 (en) 2023-09-14
JP7262858B2 (ja) 2023-04-24
US20180268281A1 (en) 2018-09-20
JP2022105001A (ja) 2022-07-12
JP2020511721A (ja) 2020-04-16

Similar Documents

Publication Publication Date Title
JP7069456B2 (ja) マルチポリシー意思決定を導くための有益な結果を構築するための方法および装置
Bouton et al. Cooperation-aware reinforcement learning for merging in dense traffic
US20210124353A1 (en) Combined prediction and path planning for autonomous objects using neural networks
US11900797B2 (en) Autonomous vehicle planning
Li et al. An improved DQN path planning algorithm
US20180292830A1 (en) Automatic Tuning of Autonomous Vehicle Cost Functions Based on Human Driving Data
Zhu et al. Multi-agent broad reinforcement learning for intelligent traffic light control
González et al. High-speed highway scene prediction based on driver models learned from demonstrations
Herman et al. Inverse reinforcement learning of behavioral models for online-adapting navigation strategies
Alighanbari et al. Deep reinforcement learning with nmpc assistance nash switching for urban autonomous driving
Mehta et al. Backprop-mpdm: Faster risk-aware policy evaluation through efficient gradient optimization
Zhu et al. Flexible multi-unmanned ground vehicles (MUGVs) in intersection coordination based on ε-constraint probability collectives algorithm
Wheeler et al. A probabilistic framework for microscopic traffic propagation
Zhu et al. A gaussian process model for opponent prediction in autonomous racing
US20210350231A1 (en) Predicting a state of a computer-controlled entity
Zhu et al. A decentralized multi-criteria optimization algorithm for multi-unmanned ground vehicles (mugvs) navigation at signal-free intersection
US20240202393A1 (en) Motion planning
Lam et al. An efficient algorithm for discrete-time hidden mode stochastic hybrid systems
Keong et al. Reinforcement learning for autonomous aircraft avoidance
Zarei et al. Experimental study on optimal motion planning of wheeled mobile robot using convex optimization and receding horizon concept
Huang Safe intention-aware maneuvering of autonomous vehicles
Elfahim et al. Drone path optimization in complex environment based on Q-learning algorithm
Jiachen et al. Robot path planning based on improved dung beetle optimizer algorithm
Yu et al. An intelligent robot motion planning method and application via lppo in unknown environment
Richardson et al. Reinforcement Learning with Communication Latency with Application to Stop-and-Go Wave Dissipation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220406

R150 Certificate of patent or registration of utility model

Ref document number: 7069456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150