JP2024025637A

JP2024025637A - タスクを実行するための装置および方法

Info

Publication number: JP2024025637A
Application number: JP2023028306A
Authority: JP
Inventors: パンディアハリット; Pandya Harit; パウデルルドラ; Poudel Rudra; リウィッキステファン; Liwicki Stephan
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-08-12
Filing date: 2023-02-27
Publication date: 2024-02-26
Also published as: US20240054008A1

Abstract

【課題】ゴールに達するために実行されるアクションのシーケンスを実行するための装置を提供する。【解決手段】装置の観測値を取得するためのセンサと、装置を移動させるための制御信号を受信するコントローラと、プロセッサとを備え、プロセッサは、ゴールに関する情報を受信し、ゴールに到達するためのアクションのシーケンスを決定し、アクションのシーケンスにおける次のアクションのための制御信号をコントローラに提供することと、を行うように構成される。プロセッサは、少なくとも１つの制約に関する情報を取得するようにセンサによって受信された観測値を処理し、アクションのシーケンスを決定するために確率的最適化を実行することとによってアクションのシーケンスを決定するように構成される。少なくとも１つの制約は、該確率的最適化においてコストとして表現され、確率的最適化は、次のアクションの初期推定値を受信する。【選択図】図２

Description

特許法第３０条第２項適用申請有り１．２０２２年５月２８日ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍ？ｉｄ＝ｕｃｕＲ４ｑ－ｊａｏ３ｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｐｄｆ？ｉｄ＝ｕｃｕＲ４ｑ－ｊａｏ３にて発表

本明細書で説明する実施形態は、タスク実行装置および方法、ならびにそれをトレーニングする方法およびシステムに関する。

多くの機械学習問題がタスクとしてモデリングされ得る。そのようなタスクにおいて、エージェントは様々な制約を考慮してゴールを満たそうと試みる。そのようなタスクの一例には、車両が、障害物とさらに車両の許容された移動アクションとによって提供される制約を考慮してロケーション（ゴール）に到達しようと試みるナビゲーションがある。

例示的な実施形態に係る自律車両がナビゲートすることができる例示的な環境の例示である。例示的な実施形態に係る自律走行車両の例示である。例示的な実施形態に係る自律航空機の例示である。図１Ａの自律走行車両および図１Ｂの自律航空機に適用される制御システムの概略図である。一実施形態に係るタスクを実行するための方法を示すフローチャートである。一実施形態に係るタスクを実行するための方法を示すフローチャートである。ＬｉＤＡＲセンサからの入力の表現である。一実施形態に係るタスクを実行するためのシステムの概略図である。車両／ロボット動的モデルをより詳細に示す概略図である。確率的最適化モデル内でコストが制約としてどのようにモデリングされるかを示す図である。一実施形態に係る方法を使用して複雑な動的シーンにおいてナビゲートするロボットの例を示し、上の５つの図は、現在の環境のオンライン再構築であり、対応する下の５つの図は、真値（ground truth）マップである。一実施形態に係る方法を使用してロボットがナビゲートする４つの環境を示し、実線は、ロボットの運動を示し、点線は、動的障害物の運動を示す。

第１の実施形態では、タスクを実行するための装置が提供され、タスクは、ゴールに達するために実行されるアクションのシーケンスであり、本装置は、
装置の観測値を取得するための少なくとも１つのセンサと、
該装置を移動させるための制御信号を受信するように構成されたコントローラと、
プロセッサと、
を備え、
該プロセッサは、
ゴールに関する情報を受信することと、
該ゴールに到達するためのアクションのシーケンスを決定することと、アクションのシーケンスは、少なくとも１つの制約を受け、
該アクションのシーケンスにおける次のアクションのための制御信号を該コントローラに提供することと、
を行うように構成され、
該プロセッサは、少なくとも１つの制約に関する情報を取得するように該センサによって受信された観測値を処理することと、アクションのシーケンスを決定するために確率的最適化を実行することとによってアクションのシーケンスを決定するように構成され、少なくとも１つの制約は、該確率的最適化においてコストとして表現され、確率的最適化は、次のアクションの初期推定値を受信する。

開示されたシステムは、コンピュータによってこれまで実行されていない機能をコンピュータが実行することを可能にすることによって、コンピュータの機能性を向上させる。具体的には、開示されたシステムは、環境に関するデータが多次元であるときでも動的環境においてタスクを実行するようにエージェント（車両等）の高速更新を提供する。これは、制約がコストとしてモデリングされる確率的最適化問題としてタスクをモデリングすることによって提供される。これにより、コストの各々を独立してモデリングし、次いで確率的モデルにおいて組み合わせることが可能になる。確率的モデルの収束が、次のアクションの推定値を使用することにより向上する。

一実施形態では、入力推定値が強化学習ポリシーから取得される。強化学習ポリシーまたはモジュールは、適切なアルゴリズムを使用してよく、一実施形態では、ＰＰＯ（proximal policy optimisation algorithm）が使用される。

上記配置構成を使用すると、プロセッサが、複数の並列処理分岐を各分岐が異なる制約に割り振られるように使用して、制約に関する観測値を処理することが可能である。これにより、メインタスクとは独立して制約をモデリングおよびトレーニングすることが可能になる。

上記は、多くの異なるタイプのタスクで、例えば、制約を伴うロボットナビゲーション、制約を伴うピッキングアーム操作、実環境における再構築のための視点プランニング等で使用することができる。一実施形態では、タスクは、ゴールに達するように装置の少なくとも一部分を移動させることを備え、アクションのシーケンスは、移動のシーケンスである。

１つの実施形態では、装置は車両またはロボットであり、タスクはナビゲーションタスクであり、ゴールはロケーションである。ロケーションは、座標によって記述されるロケーションまたはピックアップすべきオブジェクトのロケーション等であり得る。ロケーションは、車両／ロボット全体を移動させるべきロケーションまたは車両／ロボットの一部分のみを移動させるべきロケーションであってよく、例えば、車両／ロボットの一部分は、ロボットのアームであってよい。

そのようなタスクでは、制約のうちの少なくとも１つは、動的障害物を避けるようにナビゲートすることを備え得る。一実施形態では、これは、動的障害物の回避に関連する制約が、動的障害物の占有マップを生成するように処理され得ることで達成され得る。占有マップは、ある位置が時間ｔのときに占有される尤度の確率分布を提供する。一実施形態では、例えば、時間ホライズンＨまでの異なる時間のときの複数の占有マップが生成される。

一実施形態では、プロセッサは、ニューラルネットワークを使用して動的障害物の１つまたは複数の占有マップを生成するように構成され、ここにおいて、ニューラルネットワークに対する入力は、動的障害物の前の観測値の時間シリーズである。

上記フレームワークにより、制約を異なる処理分岐で処理することが可能になり、したがって、異なる制約を異なるように処理することができる。例えば、制約のうちの少なくとも１つは、静的障害物を避けるようにナビゲートすることを備え得る。

一実施形態では、制約のうちの少なくとも１つは、装置がゴールに到達するために最短距離を移動することを必要とする。

複数の制約があるとき、プロセッサは、制約から導出されたコストに可変重みが適用されるように、各コストに重みを適用するように構成され得る。これにより、例えば、静的障害物を避けるためのコストに、動的障害物を避けるためのコストよりも大きい重みを与えることが可能になる。

一実施形態では、強化学習モジュールへの入力は、再帰型ニューラルネットワーク「ＲＮＮ」の隠れ状態であり、ＲＮＮは、少なくとも１つの未来の観測値の予測値を生成するために使用される。ＲＮＮへの入力は、観測値の潜在表現であり得る。またＲＮＮは、装置の現在のアクションも入力として受信し得る。これは、オドメトリ測定値から決定され得る。

さらなる実施形態では、ＲＮＮへのさらなる入力はゴールである。しかしながら、ゴールがこの段階でＲＮＮに提供されず、ゴールとは独立して予測を行うことも可能である。

一実施形態では、プロセッサは、ＲＮＮからの未来の観測値の予測に関連する確率分布を確率的オプティマイザに提供するように構成される。

確率的オプティマイザに初期推定値を入力することにより、確率的オプティマイザがより迅速に収束することが可能になる。初期推定値は、次のアクションのみであってもよいし、またはゴールまでのアクションのシーケンスであってもよい。

一実施形態では、観測値はＬｉＤＡＲデータである。

ゴールは、最終ゴールであってもよいし、または最終ゴールまでの途中の「サブゴール」を形成するウェイポイントであってもよい。

さらなる実施形態では、ゴールまでのナビゲーションを実行するための装置が提供され、本装置は、
装置の観測値を取得するための少なくとも１つのセンサと、
該装置を移動させるための制御信号を受信するように構成されたコントローラと、
プロセッサと、
を備え、
該プロセッサは、
ゴールに関する情報を受信することと、
少なくとも１つの制約を受ける該ゴールまでの経路を決定することと、経路は、アクションのシーケンスであり、
該装置を該ゴールに移動させるための次のアクションのための制御信号を該コントローラに提供することと、
を行うように構成され、
該プロセッサは、少なくとも１つの制約に関する情報を決定するように該センサによって受信された観測値を処理することと、次のアクションの推定値を決定することと、経路を決定するために確率的最適化を実行することとによって、少なくとも１つの制約を受ける該ゴールまでの経路を決定し、少なくとも１つの制約は、該確率的最適化においてコストとして表現され、次のアクションの推定値は、入力として提供される。

さらなる実施形態では、タスクを実行するための装置が提供され、該タスクは、ゴールおよび複数の制約を備え、
本装置は、
観測値に関連する画像データを受信するための入力と、
プロセッサと、
制御信号を出力するための出力と、
を備え、
プロセッサは、
装置のゴールを示す情報を受信することと、
該画像データを受信し、該画像データから制約に関する情報および該ゴールに向かう該装置の現在の進行を決定することと、
装置がゴールに向かって進行するための次のアクションを予測することと、
を行うように構成され、
次のアクションを予測することは、最適化中に制約をコストとして使用して最適化を実行することを備え、最適化は、次のアクションの入力推定値を受信する。

上記は、深層および分析的の両方である複数の制約を組み合わせることができる新規なプランニングフレームワークを提供し、モデルを再トレーニングすることなくオンザフライで確率的最適化を合同で使用して連続空間において制約を解消する。また、実施形態は、ＬｉＤＡＲ測定値およびオドメトリを使用して動的障害物が存在するときの複雑環境を通してロボットをステアリングすることができる安全な屋内ナビゲーション手法を提供する。

本明細書で説明する実施形態は、レンジ測定値を符号化するために深層ネットワークを使用し、よって、他の障害物のグラウンドポーズ（ground poses）は必要ない。また、環境が再構築されるので、アプリオリなオブジェクトロケーションのマップが必要ない。上記実施形態は、障害物の軌跡を予測するために深層再帰型ネットワークを使用するので、本明細書で説明する手法が、より長いホライズンにわたる、より正確な軌跡（またはアクションのシーケンス）を予測することができるようになる。また、深層強化学習の解を初期推測として使用して最適化プロセスをウォームスタートすることは、最適化プロセスが未来の報酬を最大にする助けとなる。

上記実施形態により、タスクをゴール到達（メインタスク）および動的衝突回避（制約）という２つ（またはそれ以上）のサブタスクにディスエンタングルすることが可能になり、その結果、手法は、「端から端まで（end-to-end）」ではないのでより良好に一般化する。また、深層強化ポリシーの再トレーニングまたは修正なしにオンザフライでサブタスクを合同で最適化することができる、モジュールによるオンラインプランニング手法が提示される。

一実施形態では、ナビゲーションタスクは、（Ｉ）ゴール到達と（ｉｉ）動的衝突回避という２つのサブタスクにディスエンタングルされる。再帰型ニューラルネットワーク（ＲＮＮ）は、ロボットおよび障害物の動的モデルをデータから学習するようにトレーニングされる。各タスクを制約として考慮するので、手法は、深層学習ベースの動的システムにおける複数制約プランニングのために提示される。手法は、プランニングホライズンにわたる平均期待コストを最小にする最適なアクションを算出することによって、分析的または学習ベースである必要制約を合同で解消する。遠いホライズンタスクを解くために、一実施形態では、ウェイポイントベースのプランニング戦略が使用される。さらに、部分的な占有マップが維持されてよく、これは、ナビゲート中にオンラインで再構築される。このことから、衝突のないウェイポイントが選択され、ゴールとして提供され得る。

本明細書で説明する実施形態は、再トレーニングすることなくロボット構成（および他の制約）をオンザフライで変更することができるようにモジュール方式で制約モデルに取り組む。

さらに、最適化は、深層ネットワークと分析的キノダイナミックモデルの両方を扱うことができる。また、解がすべての制約を通して検証され、解が実現可能かつ安全であることを確実にする。

上述の問題の複数タスクプランニング定式化には利点がいくつかある。第１に、例えば、ロボットのダイナミクス、滑らかさ等の追加の制約をオンザフライで追加することが可能である。第２に、フレームワークは、分析的制約および深層ネットワークベースの動的制約を扱うことができ、例えば、ロボットの軌跡の進展は、分析的制約であるそのダイナミクスに依存する。これに対して、動的障害物の軌跡は、深層ニューラルネットワークによってより良好に予測され、閉形式で表わすのが困難である。

エージェントシステムおよび方法は、実在し得る（例えば物理的である）またはシミュレートされたものであり得るエンティティを、それらのコンテキストの観測値に基づいて、例えば、エンティティの環境および／またはエンティティの状態の観測値に基づいて制御する。そのようなエージェントは、指定タスクを実行するために一連のアクションを実行するようにエンティティを制御し得る。雑然とした現実的な屋内環境内をナビゲートすることが１つのタスクである。特に、エージェントは、静的障害物および動的（すなわち移動する）障害物の両方が存在するときに衝突を回避しながら、ゴールオブジェクトまでナビゲートするようにエンティティを何とか制御しようとする。衝突を回避しながらナビゲートできることは、道路の自律走行および航空機の自立運転、賑やかな通りにある宛先への重い箱の送達、レストランのテーブルの片付け、および病院の手術室への注射器の送達など、人間および車両などの動的障害物が移動している可能性が高いすべてのシナリオのタスクをロボットが実行するのを容易にする上で重要である。

本明細書で説明する実施形態の理解の助けとなるために、具体的な例が最初に提示される。この具体的な例はこれらの実施形態の理解を助けるために提供され、下記の特許請求の範囲または明細書の範囲を限定するものとみなされるべきではないことを理解されたい。

図１Ａは、例示的な実施形態に係るエージェントを使用してナビゲートすることができる例示的な環境１０の平面図の例示である。

例示的な環境１０は、自律車両１１と、自律車両がその現在位置からナビゲートしていくターゲットオブジェクト１２、例えばボールまたは花瓶とを含む。例示するように、自律車両１１とターゲットオブジェクト１２との間に障害物が存在する。自律車両１１および障害物への損傷を回避し、障害物で先に進めなくなることを回避するために、自律車両１１は、ターゲットオブジェクト１２までナビゲートするときに障害物との衝突を回避する。

例示的な環境１０は、雑然とした屋内環境、例えば、オフィスまたは自宅であり得、テーブル、椅子、棚、本棚、収納具、箱、電子デバイス、および電力ケーブルなどの障害物を含み得る。

図１Ｂは、例示的な実施形態に係る自律走行車両１、例えば、自動搬送車の例示である。

自律走行車両１は、本体２と、車輪３と、センサ４とを含む。自律走行車両１は、例えば、自動走行車両を自動掃除機として使用することができるようにする真空吸引要素、および／または、自律走行車両がオブジェクトを収集および／または送達することができるようにするフォークおよび／または荷台など、図示されたもの以外の追加の要素を含んでよい。

本体２は、車輪３を回転させるために使用され得る１つまたは複数のモータと、ステアリングシステム、例えばラックアンドピニオンとを含み、それによって、車輪３のうちの少なくともいくつかを所望の方向に移動するように転向させることができる。本体２はまた、制御システム、例えば、移動を実行させるために使用され得る１つまたは複数のコンピューティングデバイスを含む。例えば、制御システムは、車輪をモータによって回転させて自動走行車両を前方に移動させ（そして、サポートされている場合には、車輪を反対方向に回転させて自律車両を後方に移動させ）、ステアリングシステムに車輪を回転させて自律車両を方向転換させ得る。制御システムは、例えば図１Ｄに関連して説明される方法を使用して、実行されるべき移動をそれ自体で決定し得るか、またはネットワークハードウェア、例えばワイヤレストランシーバを使用して外部コンピュータシステムから、実行されるべきアクションを示す指示を受信し得る。本体２はまた、１つまたは複数のモータ、ステアリングシステム、および制御システムにエネルギーを供給することができるように、電源（例えば、バッテリおよび／またはソーラーパネル）または電源への接続部（例えば、電源接続部）を含む。

車輪３は、車輪３ａ、３ｂと、これらに対向する、例えば、本体２の車輪３ａ、３ｂとは反対側（図示せず）に対して配置された２つの車輪（図示せず）との４つの車輪を含み得る。４つの車輪のうちの各２つの車輪、例えば、車輪３ａおよび反対側の車輪と、車輪３ｂおよび反対側の車輪とは、本体２を通して延在する車軸によって接続され得る。車軸のうちの少なくとも１つは、モータに接続されていてよく、それにより、車軸に接続されたそれぞれの２つの車輪がモータによって回転され得る。車軸のうちの少なくとも１つは、ステアリングシステムに接続されていてよく、それにより、それぞれの２つの車輪がステアリングシステムを使用して転向され得る。

センサ４は、画像データをキャプチャすることが可能である。一実施形態では、センサは、ＬｉＤＡＲ（light detecting and ranging）センサである。センサ４は、本体２内の制御システムに結合される。センサ４は、例えば制御システムから受け取った要求に応答して、画像データをキャプチャし、画像データを制御システムに送るように構成される。制御システムは、実行されるべき１つまたは複数の移動を画像データに基づいて決定するためにそれ自体で画像データを処理し得るか、または、ワイヤレストランシーバなどのネットワークハードウェアを使用して外部コンピュータシステムに画像データを送信して、それにより、外部コンピュータシステムが、実行されるべき１つまたは複数の移動を画像データに基づいて決定することができるようにし得る。

図１Ｃは、例示的な実施形態に係る自律航空機５、例えば、無人航空機またはドローンの例示である。

自律航空機５は、本体６と、プロペラ７と、センサ８とを含む。自律航空機５は、図示されたもの以外の追加の要素を含み得る。例えば、オブジェクトを収集および／または送達するために自律航空機を使用することができるようにするペイロード保持または取付け要素がある。

本体６は、それぞれのプロペラを回転させるために使用され得る、プロペラ７の各々のためのそれぞれのモータを含む。本体６はまた、制御システム、例えば、移動を実行させるために使用され得る１つまたは複数のコンピューティングデバイスを含む。例えば、制御システムは、モータにプロペラを回転させ、モータがプロペラを回転させる速度を制御し得、それにより、自律航空機は、上昇および下降、前方および／または後方への移動、ならびに方向転換を行うことができる。制御システムは、例えば図１Ｄに関連して説明される方法を使用して、実行されるべき移動をそれ自体で決定し得るか、またはネットワークハードウェア、例えばワイヤレストランシーバを使用して外部コンピュータシステムから、実行されるべきアクションを示す指示を受信し得る。決定および／または受信された移動は、自律航空機が実行可能な動作よりも抽象度が高い場合があり、制御システムは、これらのより抽象的な移動を、航空機が実行可能な動作に変換し得る。例えば、より抽象的な移動は、前方への移動、左への方向転換、および右への方向転換であり得、制御システムは、これらを、モータがプロペラ７を回転させる速度の差に変換し得る。本体６はまた、１つまたは複数のモータおよび制御システムにエネルギーを供給することができるように、電源（例えば、バッテリおよび／またはソーラーパネル）または電源への接続部（例えば、電源接続部）を含む。

プロペラ７は、４つのプロペラ７ａ、７ｂ、７ｃ、および７ｄを含み得る。説明したように、プロペラ７ａ～７ｄの各々は、本体６に位置するそれぞれのモータによって回転され得、プロペラ７ａ～７ｄのうちの１つまたは複数は、自律航空機５が左または右に方向転換したり前方に移動したりするように、プロペラ７ａ～７ｄのうちの別の１つまたは複数とは異なる速度で回転され得る。

センサ８は、画像データをキャプチャすることが可能である。一実施形態では、センサは、ＬｉＤＡＲ（light detecting and ranging）センサである。センサは、本体６内の制御システムに結合される。センサは、例えば、制御システムから受け取った要求に応答して、画像データをキャプチャし、画像データを制御システムに送るように構成される。制御システムは、実行されるべき１つまたは複数の移動を画像データに基づいて決定するためにそれ自体で画像データを処理し得るか、またはワイヤレストランシーバなどのネットワークハードウェアを使用して画像データを外部コンピュータシステムに送信して、それにより、外部コンピュータシステムが、実行されるべき１つまたは複数の移動を画像データに基づいて決定することができるようにし得る。

図１Ｄは、車両の内部構成要素の概略図である。車両は、プロセッサ１１２およびメモリ１１４を有するコンピュータシステム１１０を備える。コンピュータシステム１１０は、ＬｉＤＡＲセンサ１４１およびロボットオドメトリセンサ１４２からの入力を受信する。コンピュータシステムの機能については図２～図７を参照して説明する。次のアクションが決定されると、ステアリングデバイス１４０を制御するコントローラ１３０に命令が送られる。

図２は、タスクを実行するようにエージェントを制御する方法を示すフローチャートである。ステップＳ１０１において、ゴールに関するデータがプロセッサによって受信される。本方法をコンテキストで捉えられるように、本方法について図１Ａのナビゲーションタスクに関連付けて説明し、ここでは、装置は車両であり、ゴールはロボットが到達するべきロケーションである。しかしながら、他のオプションが可能であり、例えば、装置がロボットアームであってよく、ゴールはオブジェクトにアームを伸ばすことである。実際上では、本明細書で説明する方法およびシステムは、任意のモデル予測制御（ＭＰＣ）プロセスに適用することができる。例えば、（ｉ）作業空間の制約を考慮しながらオブジェクトにアームを伸ばして掴む（例として棚にあるオブジェクト）、（ｉｉ）操作：パターンに切断／溶接する、（ｉｉｉ）農業ロボットの果実摘み取り、または（ｉｖ）ドローンによる作業空間の目視検査がある。ゴールは、最終的なゴールであってもよいし、またはゴールに向かう過程を定義するサブゴールであってもよい。

Ｓ１０３において、画像データが受信される。画像データは、車両の物理的な周囲環境に関する情報に関連するいずれのタイプのデータであってよく、そのデータから障害物のマップを生成することができる。１つの実施形態では、画像データは１つまたは複数のＬｉＤＡＲセンサからの出力である。

次いで、Ｓ１０３で収集された画像データは、並列分岐で処理される。第１の分岐において、画像データは、ステップＳ１０５においてプロセスに対する制約についての情報を決定するように処理される。次いで、制約は、最適化モデルＳ１０７においてコストとして提供される。最適化モデルでは、最低コストを有する、ゴールに向かう一連のアクションが決定される。この簡易化したチャートでは、コストを決定するために単一の分岐しか示されていない。しかしながら、実際上では、多くの並列分岐が存在してよい。また、最適化モデルＳ１０７に提供される追加のコストが、ステップＳ１０３で取得された画像データから導出されない場合がある。ナビゲーションタスクにおいて、制約とは、障害物（静的および／または動的）、経路の長さなどの経路の制限、車両によって提供される制限等であり得る。

最適化モデルＳ１０７において、多次元コストランドスケープが生成され、最低コストの経路が見つけられる。これは、既知の最適化技法を使用して行うことができる。最適化モデルが良い解に効率的に収束する助けとなるために、ステップＳ１０９において次のアクションの最初の推定値が最適化モデルに提供される。次のアクションが、Ｓ１１１において最適化モデルから出力される。

図３は、静的障害物および動的障害物が存在するときに２Ｄナビゲーションタスクを実行する車両またはロボットのための、図２のフローチャートの実施のフローチャートである。図３のチャートは、図２のフローチャートを改良したものである。そのため、不要な繰り返しを避けるために、同様の参照番号を使用して同様の特徴を示す。

一実施形態では、２Ｄでのポイントゴールナビゲーションの問題が、車両（またはロボット）の現在位置
と、ゴール
と、現在の時間インスタンスｔのときの現在のＬｉＤＡＲセンサ測定値
とから設定される。目的は、ロボットを一連のアクション制御コマンド
により、ｎ個の協働しない動的障害物および静的障害物を避けながらゴールまでナビゲートすることである。一実施形態では、アクション制御コマンドは、速度制御コマンドである。

この問題は、モデル予測制御（ＭＰＣ）として以下の通りに定式化することができる。
ここで、π^＊は、時間ホライズン（Ｈ）にわたるゴールまでの未来の距離を最小にする最適なアクションシーケンスである。ここで、ｐ_ｔは、ロボットの位置を示し、ｐ_ｔ ^ｉは、ｉ番目の動的障害物の位置を示し、ｓ^ｊは、ｊ番目の静的障害物の位置を示す。ロボットのダイナミクスが関数ｆによって展開し、他の動的エージェントがロボットから独立したｆ^ｉにより展開すると想定する。

一実施形態では、問題は、マルチタスクプランニング手法としてモデリングされる。特定の実施形態では、合同のフレームワークですべてのサブタスクを解くために潜在空間において確率的最適化が用いられる。式（１）のＭＰＣ定式化は、制約なし最適化問題として、以下の通りに書き直すことができる。
ここで、
Ｃ_ｔ ^ｇは、ゴール到達コストを表現し、
として表現され得、これは、マップの現在の再構築に基づく現在位置とゴールとの間の測地線距離である。
Ｃ_ｔ ^０は、動的障害物回避コストを表現し、
として表現することができる。
Ｃ_ｔ ^ｓは、静的障害物回避コストを表現し、
として表現することができる。

α、β、γは、必要に応じて設定することができる重みである。いくつかの実施形態では、α、β、γはすべて１に設定される。しかしながら、コストのうちの１つまたは複数の重要度を増加および／または減少させる必要がある場合には異なる値を設定することができる。Ｍ_ｔ ^Ｏ（ｐ_ｔ）は、位置ｐ_ｔが時間インスタンスｔのときに動的障害物によって占有される確率を表現する動的占有マップであり、Ｍ_ｔ ^ｓ（ｐ_ｔ）は、位置ｐ_ｔが時間インスタンスｔのときに静的障害物によって占有される確率を表現する静的占有マップである。

一実施形態では、ロボットの次の位置は、非線形関数φ（再帰型ニューラルネットワークなどのニューラルネットワークにより実装され得る）によって、またはｆがわかる場合にはロボットの真のダイナミクスによって予測することができる。同様に、非線形関数ψ（ニューラルネットワークにより実装され得る）が、ＬｉＤＡＲ測定値から動的障害物についての衝突確率マップＭ_ｔ ^Ｏを予測するために使用され得、一方、静的占有マップＭ_ｔ ^ｓは、ＬｉＤＡＲ測定値から再構築または予測され得る。

この実施形態では、部分的に再構築された静的占有マップ（Ｍ_ｔ ^ｓ）表現が、古典的なグリッドマッピングにより生成される。一実施形態では、静的マップは、ＳＬＡＭ（simultaneous localization and mapping）を使用して算出される
。静的占有マップを構築するときに、一実施形態では、位置が占有される確率の対数オッズの平均が使用される。よって、オブジェクトが移動する場合、位置が占有される確率は経時的に減少する。

部分的占有再構築にわたる世界の符号付き距離フィールド（ＳＤＦ）表現も使用され、これは、ＳＤＦの算出の計算コストが高いので、数ステップごとに更新される。次いで、数ステップごとに部分的ＳＤＦからウェイポイントを生成するためにグローバルプランナ（例えば、高速マーチング法）が使用される。さらに、静的衝突コストＣ_ｔ ^ｓも、占有マップ（Ｍ_ｔ ^ｓ）から、位置ｐ_ｔが閾値εよりも大きい確率をクエリすることによって算出することができる。要約すると、占有マップは符号付き距離フィールド（ＳＤＦ）に変換され、次いで、高速マーチング法（ＦＭＭ）などのグローバルプランナがＳＤＦに対して実行され、ＦＭＭ経路上の設定数のステップ離れた、例えば１５ステップ離れたウェイポイントが選択される。

未来の状態および対応するコストがＲＮＮによって予測されると、一実施形態では、勾配法によらない（gradient free）サンプリングベースの確率的最適化フレームワークが、式２からのコストを最適化するために使用される。

上記がどのようにして導出されるかについて図３を参照して説明する。ステップＳ１０１において、ゴールに関するデータが提供される。この実施形態では、ゴールに関するデータは、車両が到達すべき２Ｄロケーションにより提供される。しかしながら、他のオプションが可能であり、例えば、掃除機の場合、指定されたエリアをカバーするルートに沿う中間ゴール（ウェイポイント）が与えられ得る。また、別の例は、ある特定の関心点をカバーする必要があるときの自律検査である。

次いで、ステップＳ１０３において画像データが受信される。上述のように、画像データはＬｉＤＡＲセンサからのデータであり得る。図４は、ＬｉＤＡＲセンサからの典型的な「画像」を示しており、この画像は、センサ自体が画像の中心に位置するポーラー画像であり、ＬｉＤＡＲセンサによって送られた光信号の反射が障害物の存在を示す。処理のために、ＬｉＤＡＲ画像データは、占有確率の行列に、または距離の１Ｄベクトルとして変換され得る。行列は、６４ｘ６４のサイズを有してよく、１Ｄベクトルは、１０８０単位のサイズを有してよく、したがって、ニューラルネットワークへの入力は大きい。障害物は、予測可能または予測不可能な様式で移動する動的障害物であってよいし、または障害物は静的障害物であってよい。

ステップＳ１０５において、制約についての情報が取得される。簡易化のために単一の分岐が示されているが、実際上では、複数の分岐があってよく、その各々が異なるタイプの制約をモデリングして、制約が最適化ステップにおいてコストとしてモデリングされることを可能にする。

次に、動的障害物を制約としてモデリングすることについて説明する。動的障害物の軌跡がＬｉＤＡＲ測定値により学習される。これは、図５により明確に示されている。図５の下の分岐２０１は、ＬｉＤＡＲ測定値のユークリッドグリッドマップ表現２０３の集合を示し、これらは、時間ステップｔが漸増される時間期間Ｈにわたって得られることにより時間ｔ－Ｈからｔまでに別個の表現が得られるものである。一実施形態では、時間ステップｔは、シミュレーションの場合はタイムスタンプであり、実際の実験の場合はフレームレートであり、例えば、５Ｈｚのフレームレートが使用され得る。次いで、これらの表現２０３は積み重ねられ、動的占有マップ２０５を予測するために使用され、動的占有マップ２０５から、動的障害物によって提供される制約のコストが決定される。動的占有マップは、位置が動的オブジェクトによって占有される確率を表現する。

一実施形態では、これは、時空間畳み込みニューラルネットワークをトレーニングすることによって達成され、該時空間畳み込みニューラルネットワークは、先のＬｉＤＡＲ測定値（すなわち、ｔ－Ｈからｔまで）のユークリッドグリッドマップ表現２０３を積み重ねて、ｔ－Ｈからｔ＋Ｈまでの時間間隔にわたる動的占有マップ２０５を予測し、これは
として表現される。

このことから、動的衝突コスト
を動的占有マップから取得することができる。動的マップは、マップ上の選択された位置におけるクエリが、選択された位置が占有される確率を出力する関数である。所与の位置
が占有される確率は、閾値δよりも低いはずである。一実施形態では、Ｕ－Ｎｅｔスタイルアーキテクチャ［J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov “Proximal policy optimization algorithms,” arXiv preprint arXiv:1707.06347, 2017］がモデリングψのために使用される。一実施形態では、チャネルは、時間的に積み重ねられたフレームを表現し、よって、畳み込み演算子は、入力データの時空間スライスにわたって学習する。したがって、時空間ネットワークと呼ばれる。さらなる実施形態では、非線形関数ψを提供するために再帰型ニューラルネットワークが使用されてもよい。

一実施形態では、静的障害物に起因するコストをモデリングするために、さらなる分岐２０１が提供される。ここで、ＬｉＤＡＲ入力２０３（動的分岐において説明された）が使用されて、ＳＬＡＭシステム（図示せず）によって維持される占有マップが生成される。この分岐は、
を出力し、ここで、
は、ＳＬＡＭシステムによって維持される衝突（占有）マップである。これは、位置／ロボット状態を与えられると衝突確率をリターンする関数またはメモリであると考えることができる。

ここで、この実施形態ではＬｉＤＡＲデータである画像データを受信することに加えて、Ｓ１１３においてオドメトリ測定値２０９が取得される。オドメトリ測定値２０９は、車両のセンサ、例えば加速度計等からの車両位置の変化を示す。

オドメトリ測定値、ゴール、および画像データが使用されて、車両がゴールに到達するために実行する必要がある移動のシーケンスの推定値が予測される。次いで、この推定値は、確率的モデルへの入力として使用される。画像データおよびオドメトリデータは、車両の状態を提供する。一実施形態では、シーケンス（ホライズンにわたるプラン
）が推定されるが、第１のアクションのみを実行するとき、
が使用される。

一実施形態では、車両の動的モデルを符号化するために、図５に示す畳み込み変分オートエンコーダ（ＶＡＥ）および再帰型ニューラルネットワーク（ＲＮＮ）２１１を備える状態空間モデルが用いられる。

状態空間モデルへの入力は、以下の通りである。
まず、ＬｉＤＡＲ測定値からの潜在表現が提供される。
１．Ｚ_ｔ＝ＶＡＥ（Ｘ_ｔ）
これは次いで、ＲＮＮに前回のアクションおよび相対ゴールと共に連結される。
次いで、デコーダを使用して位置および次の測定値を予測する。

図６を参照して、配置構成および動作について詳述する。ここで、ＶＡＥは、エンコーダ２５１およびデコーダ２５３として表現される。ＶＡＥの目的は、ＬｉＤＡＲセンサから画像データ
を得て、潜在表現
へと圧縮し、それにより、ＬｉＤＡＲ観測値の入力された時間的シーケンスに対応する潜在表現の時間的シーケンスができるようにすることである。さらに、ゴールもエンコーダ２５１を使用して符号化されてゴールの潜在表現が生成される。

潜在表現
およびゴール
は、次いで、ＲＮＮ２５５の入力に提供される。ＲＮＮ２５５は、エンコーダが生成すると予想される未来の
ベクトルの予測モデルとしての役割をする。一実施形態では、ＲＮＮは、ｚの決定論的予測ではなく確率密度関数
を出力するようにトレーニングされる。
をパラメータ化するために多くのオプションが利用可能である。一実施形態では、
は、複数のガウス分布の和であるガウス混合モデルとして表わされる。よって、ＲＮＮは、条件付き確率Ｐ（ｚ_ｔ＋１│ａ_ｔ，ｚ_ｔ，ｈ_ｔ）をモデリングし、ここで、ａ_ｔは、時間ｔのときのアクションであり、ｈ_ｔは、時間ｔのときのＲＮＮの隠れ状態である。この実施形態におけるアクションａ_ｔは、ａ＝［ｖ_ｘ，ｖ_ｙ，ω］として表現することができる速度であり、ここで、ｖ_ｘ，ｖ_ｙ，ω ∈ ［－１，１］である。アクション
は、オドメトリ測定値から取得される。ＲＮＮは、時間ホライズンＨまでの
、すなわち、
を予測する。

時間ｔのときの観測値の潜在表現
、および時間ｔのときのＲＮＮの隠れ状態
は、次いで、積み重ねられ、強化学習モジュール２５７に提供される。時間ｔのときのＲＮＮの隠れ状態
から
というＲＮＮ２５５の予測値が生成されるので、
は、ＲＬモジュール２５７に特徴ベクトルのための良い候補を提供する。
と
とを組み合わせると、ＲＬモジュール２５７に、現在の観測値および未来の期待するものの良い表現が与えられる。一実施形態では、次のアクション
が強化学習モジュールによって予測され、これは最適化のための初期推測を取得するためにＨ回繰り返される。さらなる実施形態では、強化学習モジュールは、
を回帰的に予測するために使用される。

一実施形態では、ＲＬモジュール２１５／２５７の出力は、車両の次のアクションの予測値
である。しかしながら、他の実施形態では、ＲＬモジュール２５７は、アクションのシーケンス
を予測するようにトレーニングされてもよい。

一実施形態では、ＲＬポリシーによって提供される初期解
としての平均値と予め定められた分散
とを有する正規分布がフィッティングされる。ＲＬが
のみを予測する実施形態では、軌跡が予測され、すなわち、
等である。

さらに、デコーダ２５３を使用して、予測された観測値
の確率分布を出力し、車両の予測された位置
の対応する確率分布が、確率的オプティマイザに提供される。これは次いで、確率的オプティマイザ２１７への入力として使用される。

上記
の推定値もまた、クロスエントロピー法（ＣＥＭ）を使用して確率的オプティマイザへの入力に使用される。次いで、分布は、この先の分布Ｎｔとして得られるｊ番目のサンプルによりサンプリングされてＮ個のサンプル軌跡が取得される。ｊ番目のサンプルは以下で与えられる。
ＲＬが
のみを予測する実施形態では、軌跡が予測され、すなわち、
等である。ＲＬが
の推定値を出力する場合、予測された出力の値ごとに正規分布がフィッティングされる。

これらのサンプルは、制約のすべての状態空間モデルから伝播されて、次の状態
と、すべての時間ホライズンにわたるサンプルｊ、すなわち、
についての平均期待コストＣ^ｊとが取得される。コストは式（２）を使用して計算される。

次いで、Ｎ個のサンプルが報酬（報酬＝－コスト）の降順でソートされ、最小Ｃに対応するＫエリート（K-elite）サンプルが選択される。ＣＥＭ最適化プロセスに続いて、正規分布が、Ｋエリートサンプルの各々について、分散および平均値により再度フィッティングされる。プロセスは、平均期待コストが閾値だけ減少しなくなるまで繰り返される。最後に、最良のアクションが選択され、これは後退ホライズン方式で車両に提供される。後退ホライズンプランニング手法では、固定ホライズンＨにわたりプランが作成されるが、次のアクション
のみが使用される。次いで、新たなセットの観測が行われ、Ｈ個の時間ステップにわたり次のプランが作成される。

一例では、時間ステップごとに１つの分布がある（合計でＨ個の分布）。このことからＮ個のサンプルが各時間ステップにおける分布から選択される。各アクションが２次元で表現されるので、これによりＨ個の時間ステップについてＮｘＨｘ２行列が与えられる。

次に、これらの時間ステップごとのＮ個のサンプルがすべての制約に渡される。この実施形態では、２つの制約と１つのゴール到達コストとがあるので、ＮｘＨｘ３行列のコストが得られる。

次に、時間ステップごとのサンプル当たりの平均コストが決定され、結果としてＮｘＨ行列が得られる。

次いで、時間ステップごとに、最小コストを有するｋエリートサンプルが選択される。これにより、（各アクションが２Ｄであるので）ｋｘＨｘ２行列が与えられる。次いで、正規分布がこれらのｋサンプルにフィッティングされる。この結果、各々が２Ｄ平均値と２Ｄ（対角）分散とを有するＨ個の正規分布が得られる。

ＮｘＨｘ２の行列を与えるこれらのＨ分布からＮ個のサンプルが再度選択され、収束までプロセスを繰り返す。一実施形態では、プロセスは、プロセスにおける遅延を回避するために８～１０回反復したら完了する。

一実施形態では、車両は、前回のセンサ測定値をバッファ／メモリから連続して得て、アクションコマンドを車両／ロボットのバッファ／メモリに書き込む。この実施は、すべてのセンサが異なるレートでリフレッシュするので、センサと比較してプランナを異なるレートで更新させるのに役立つ。

上記では、シミュレーションの場合、位置
はロボットのオドメトリから取得され得る。現実のシナリオでは、
はＳＬＡＭ（ＬｉＤＡＲ＋ＩＭＵ＋オドメトリ）から得られる。慣性測定ユニット（ＩＭＵ）は、加速度計、ジャイロスコープ、および磁力計を備えるセンサである。ＩＭＵは、加速度計、ジャイロスコープ、および磁力計を使用し、加速度および角速度を出力する。ＳＬＡＭは、別個のスレッドであり、バッファ内の
およびマップを連続して更新する。一実施形態では、現在の
は、
がＶＡＥエンコーダのためにクエリされたときにバッファから使用される。
、マップ、および
が確率的最適化ステップ中同じままであると想定することに留意されたい。

図７は、上記最適化の概要を示す。

一実施形態では、以下の擬似コードを使用するアルゴリズムを使用することができる。

これは、図５の図において確率的最適化２１７内に示されている。

次に、図５に戻り、システムのトレーニングについて説明する。コストは確率的オプティマイザ２１７において組み合わされるので、コストを決定するニューラルネットワークを互いに別個にトレーニングすることができる。

一実施形態では、動的占有マップを生成するために使用されるニューラルネットワークψは、システムの残りの部分とは別個にトレーニングされる。一実施形態では、ニューラルネットワークψは、障害物、例えば、０～１５個の障害物を有する真値マップを使用して教師あり様式でトレーニングされる。

一実施形態では、φを形成するＶＡＥおよびＲＮＮ（ＬＳＴＭ）の両方が合同でトレーニングされる。例えば、ランダムにエージェントを移動させ、データを収集することによって、トレーニングデータが取得され得る。

一実施形態では、ＲＬモジュールは別個にトレーニングされる。

上記により、制約をモデリングするために使用されるニューラルネットワークが互いに別個にトレーニングされることが可能になる。よって、他の制約またはロボットの動的モデルを再トレーニングする必要なく制約を追加／または除去することができる。

一実施形態では、以下の構造を使用することができる。
ロボットの動的モデル（φ）のためのＶＡＥについては、Ｎａｖｒｅｐに類似したアーキテクチャを使用してよい。この例では、ＶＡＥは、４層の畳み込みニューラルネットワーク（ＣＮＮ）エンコーダを備え、これには次いで、２層の密層（dense layer）と４層のＣＮＮ復号ブロックとが続く。潜在特徴ｚはサイズ３２であり、ＲＮＮ（ＬＳＴＭ）の隠れ特徴はサイズ６４である。ＲＬポリシーのバリューネットワークは、２層の密なネットワークから構成される。

動的障害物分岐については、Ｕ－Ｎｅｔスタイルアーキテクチャ［O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention, pp. 234-241, Springer, 2015.］が使用され得る。

ＬｉＤＡＲ測定値は、サイズ（１４０ｘ１４０）のグリッドマップに変換され、（ｔ＝ｔ－４：ｔ＝ｔ）からの４グリッドマップが、（１４０ｘ１４０ｘ４）テンソルの形態で積み重ねられ、これはＵ－Ｎｅｔに入力される。Ｕ－Ｎｅｔ出力は、（１４０ｘ１４０ｘ８）テンソルから構成され、これは、（ｔ－４：ｔ＋４）からの動的障害物の確率分布を有する８グリッドマップを表現する。

特定の例では、動的モデルは、１０～１５個の可変数の静的および動的障害物のためにＯＲＣＡポリシーを使用してロボットを制御することによって抽出された、各々が長さ２００である１０００個の軌跡を用いてトレーニングされる。さらに、一実施形態では、生成されたＬｉＤＡＲデータにおいて動く脚として動的エージェントをレンダリングするために脚の動きを使用し、０．２ｓの時間ステップを、エージェントの位置を更新するために使用した。

一実施形態では、Ｄｕｇａｓらによって提供された事前トレーニング済みモデル［D. Dugas, J. Nieto, R. Siegwart, and J. J. Chung, “Navrep: Unsupervised representations for reinforcement learning of robot navigation in dynamic human environments,” in 2021 IEEE International Conference on Robotics and Automation (ICRA), pp. 7829-7835, IEEE, 2021.］が、ロボットのダイナミクスおよびＲＬポリシーのために使用される。ＲＬポリシーは、方策勾配法を伴うＲＬポリシーであり得る。さらなる実施形態では、ＲＬポリシーはＰＰＯポリシーである（例えば、Proximal Policy Optimisation Algorithms J. Shulman et al arXiv:1707.06347 を参照）。

動的障害物の状態空間モデルを、学習率１^ｅ－４で一般的なアダムオプティマイザを使用してエポック数２００でトレーニングした。また、ランダムクロッピングおよびランダム回転を、Ｕ－Ｎｅｔをトレーニングするためのデータ拡大として使用した。ＣＥＭ最適化のために、ホライズン長Ｈ＝４、初期分散０．８、サンプル数＝２５６、およびＫエリートサンプル数＝３２、を使用した。これを６回反復して最適化した。これらのＣＥＭのハイパーパラメータを、Ｎａｖｒｅｐトレーニングシミュレーション環境に基づいて経験的に選択した。
表Ｉ

この手法を任意の複数制約付き推論問題に適用することができるが、ここで提供される特定の例は動的障害物回避であり、ここでは、エージェントが、障害物のない空間内を移動することによってポイントゴールに到達する（ナビゲーションタスク）とともに、移動する障害物を避ける（動的障害物タスク）ことが必要である。

この手法は、平均して１００個以上の軌跡がある小空間に５つの移動する障害物と５つのオブジェクトとを有する環境で評価された。評価結果を表Ｉに示す。図８は、手法の例示的な軌跡を示し、ここで、ロボットは、狭い空間の制約に起因して他のエージェントと協調する必要がある。図８は、ロボットがＮａｖｒｅｐシミュレーション環境における検証セットからの複雑な動的シーン内をナビゲートする例を示す。上５つの例は現在の環境のオンライン再構築であり、ここで、ロボット３０１は、ゴール３０３まで、動的障害物予測ネットワーク３０５によって検出された動的障害物を避けながらナビゲートする（動的障害物の回りに点線が示されている）。下の５つの図は、真値マップである。

上記システムもまた、再トレーニングも微調整も行わずにＮａｖｒｅｐの公表されているシミュレーションベンチマークで評価され、ここで、モデルは、初見の１８個のシナリオ（「ａｓｌ」と「ｕｎｉｔｙ」の２つのマップに各々９つのシナリオ）で、シナリオごとに５０回テストされた。シナリオの定義および選択は、偏りを回避するために、テストが行われる前に固定した。

結果を表ＩＩに示す。
表ＩＩ：１８個の既定のシナリオに対するｎａｖｒｅｐベンチマークの定量的結果

優れた結果が示され、マップの有無が、ポリシーオンラインを最適化することができる上記システムの強みが示す。

これらのシーンのいくつかの例を図９に示す。図９において、実線はロボットの運動を示し、点線は動的障害物の運動を示す。動的障害物の挙動には変動があり、静止したままの障害物さえもいくつかある。これにより、ＬｉＤＡＲ測定値のみからトレーニングされるＤＲＬポリシーはこれらの障害物が移動することを予想しているので、このポリシーは困難を伴う。本明細書で説明する実施形態は、上述のこの問題に対処するために異なる手法を使用する。

上記について、１２８ＧＢのＲＡＭを有するＩｎｔｅｌ－ｘｅｏｎ－Ｅ５プロセッサとＮｖｉｄｉａ－Ｔｉｔａｎ－ｘＧＰＵとを使用して評価し、評価後、ホライズン長が４で６つの最適化ステップを有する２５６個のサンプルおよび３２個のｋエリートサンプルの場合、Ｎａｖｒｅｐプランナではポリシー評価時間が０．０２秒であるのに対し、図５の配置構成の非並列シングルコア実装では０．２秒かかることがわかった。確率的最適化においてＣＥＭを使用する利点は、サンプリングのプロセスを高度に並列にすることができることである。上記の並列実装は約０．０８秒かかることが観測された。よって、上記は実際のロボットシステムで実装することができる。

上記実施形態は、深層および分析的の両方である複数の制約を組み合わせることができる新規なプランニングフレームワークを提供し、モデルを再トレーニングすることなくオンザフライで確率的最適化を合同で使用して連続空間において制約を解消する。実施形態は、ＬｉＤＡＲ測定値およびオドメトリを使用して動的障害物が存在するときの複雑環境を通してロボットをステアリングすることができる安全な屋内ナビゲーション手法を提供する。

特定の実施形態を説明したが、これらの実施形態は例としてのみ提示したものであり、発明の範囲を限定することを意図していない。むしろ、本明細書で説明する新規のデバイスおよび方法は、その他の様々な形態で具現化されてよく、さらに、本発明の要旨から逸脱することなく、本明細書で説明するデバイス、方法、および製品の形態に様々な省略、置き換え、および変更を行うことができる。添付の特許請求の範囲およびそれらの均等物は、本発明の要旨および範囲内に含まれる形態または修正を網羅することを意図している。

Claims

タスクを実行するための装置であって、前記タスクは、ゴールに達するために実行されるアクションのシーケンスであり、
前記装置の観測値を取得するための少なくとも１つのセンサと、
前記装置を移動させるための制御信号を受信するように構成されたコントローラと、
プロセッサと、
を備え、
前記プロセッサは、
前記ゴールに関する情報を受信することと、
前記ゴールに到達するための前記アクションのシーケンスを決定することと、前記アクションのシーケンスは、少なくとも１つの制約を受け、
前記アクションのシーケンスにおける次のアクションのための制御信号を前記コントローラに提供することと、
を行うように構成され、
前記プロセッサは、前記少なくとも１つの制約に関する情報を取得するように前記少なくとも１つのセンサによって受信された観測値を処理することと、前記アクションのシーケンスを決定するために確率的最適化を実行することとによって前記アクションのシーケンスを決定するように構成され、前記少なくとも１つの制約は、前記確率的最適化においてコストとして表現され、前記確率的最適化は、前記次のアクションの初期推定値を受信する、装置。
前記初期推定値は、強化学習ポリシーから取得される、請求項１に記載の装置。
前記プロセッサは、複数の並列処理分岐を各分岐が異なる制約に割り振られるように使用して、前記制約に関する観測値を処理するように構成される、請求項１に記載の装置。
前記タスクは、ゴールに達するように装置の少なくとも一部分を移動させることを備え、前記アクションのシーケンスは、移動のシーケンスである、請求項１に記載の装置。
前記装置は車両であり、前記タスクはナビゲーションタスクであり、前記ゴールはロケーションである、請求項４に記載の装置。
前記少なくとも１つの制約は、動的障害物を避けるようにナビゲートすることを備える、請求項５に記載の装置。
前記プロセッサは、動的障害物の回避に関連する制約を、前記動的障害物の占有マップを生成することによって処理するように構成される、請求項６に記載の装置。
前記プロセッサは、ニューラルネットワークを使用して前記動的障害物の占有マップを生成するように構成され、前記ニューラルネットワークに対する入力は、前記動的障害物の前の観測値の時系列である、請求項７に記載の装置。
前記少なくとも１つの制約は、静的障害物を避けるようにナビゲートすることを備える、請求項５に記載の装置。
前記少なくとも１つの制約は、前記装置が前記ゴールに到達するために最短距離を移動することを必要とする、請求項５に記載の装置。
複数の制約があり、前記プロセッサは、制約から導出されたコストに可変重みが適用されるように、各コストに重みを適用するように構成される、請求項１に記載の装置。
前記強化学習ポリシーへの入力は、再帰型ニューラルネットワーク（ＲＮＮ）の隠れ状態であり、前記ＲＮＮは、少なくとも１つの未来の観測値の予測値を生成するために使用される、請求項２に記載の装置。
前記ＲＮＮへの入力は、前記観測値の潜在表現である、請求項１２に記載の装置。
前記ＲＮＮへのさらなる入力は、前記ゴールである、請求項１３に記載の装置。
前記プロセッサは、前記ＲＮＮからの未来の観測値の予測に関連する確率を確率的オプティマイザに提供するように構成される、請求項１３に記載の装置。
前記プロセッサは、前記ゴールに到達するための推定されたアクションのシーケンスを入力推定値として確率的オプティマイザに入力するように構成される、請求項１に記載の装置。
前記観測値はＬｉＤＡＲデータである、請求項１に記載の装置。
前記強化学習ポリシーは、ＰＰＯ（proximal policy optimisation algorithm）である、請求項２に記載の装置。
タスクを実行するための方法であって、前記タスクは、ゴールに達するために実行されるアクションのシーケンスであり、前記方法は、
プロセッサにおいて前記ゴールに関する情報を受信することと、
前記ゴールに到達するための前記アクションのシーケンスを決定することと、前記アクションのシーケンスは、少なくとも１つの制約を受け、
前記アクションのシーケンスにおける次のアクションのための制御信号をコントローラに提供することと、
を備え、
前記アクションのシーケンスは、前記少なくとも１つの制約に関する情報を取得するようにセンサによって受信された観測値を処理することと、前記アクションのシーケンスを決定するために確率的最適化を実行することとによって決定され、前記少なくとも１つの制約は、前記確率的最適化においてコストとして表現され、前記確率的最適化は、前記次のアクションの初期推定値を受信する、方法。
コンピュータによって実行されると、前記コンピュータに、請求項１９に記載の方法を行わせる命令を備える非一時的コンピュータ可読媒体。