JP7014264B2

JP7014264B2 - 自律運転車両、および、その操作方法

Info

Publication number: JP7014264B2
Application number: JP2020114413A
Authority: JP
Inventors: クーマーシーバークーマープラサナー
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2019-07-03
Filing date: 2020-07-01
Publication date: 2022-02-01
Anticipated expiration: 2040-07-01
Also published as: JP2021012694A; US20210004014A1; US11467588B2

Description

この明細書で説明する主題は、一般に人工知能システム（ＡＩシステム）を用いた方法および装置に関し、より詳細には、自律運転車両、その操作方法、および、目標指向型の人工知能システムに関する。

提供された背景技術の説明は、開示のおおよその概要を示している。この背景技術の項で説明される範囲における発明者の活動、および、出願時において先行技術と見なされない説明の側面は、この技術に対する先行技術として、明示的にも、または、黙示的にも、自認されたものではない。

ＡＩとも呼ばれる人工知能は、電子処理能力のアプローチにおける大幅な進歩を示している。たとえば、環境またはデータの側面を認識し、そこから知的な決定を行うコンピューティングシステムの機能は、多くの異なるアプリケーションにおいて潜在的に強力なツールである。これらのアプリケーションの一部は、自律運転制御車両または半自律運転制御車両における車両ナビゲーション、ゲームプレイ、ロボット工学、および、金融取引が含まれる。

車両ナビゲーションに関して、現在のいくつかの車両ナビゲーションシステムは、対象物の検出、対象物の追跡、および、空き空間の検出などの予め設定された処理を実行する個別のサブシステムに分割されている。次に、サブシステムによって生成された結果はナビゲーションシステムに提供される。ナビゲーションシステムは、すべてのサブシステムの結果を、車両の動きを制御する車両コントローラサブシステムへの入力として結びつける。このタイプのシステムの問題は、サブシステムのひとつに障害が発生した場合、最終的な出力が誤ったものとなることである。より多くの場合、各サブシステムは他のサブシステムとは独立して開発されており、全体的に目標（以下の説明においてターゲットとも呼ばれる）に到達するというゴールを目指していない。また、そのようなシステムは、道路上の２台の車両間の距離とその特性について仮定を立て、一連のルールを使用する傾向がある。これは、高い誤り率につながる可能性がある。

他のタイプのナビゲーションシステムは、機械学習モデルを使用して、センサ情報から直接にひとつ以上の操作指令（加速、ステアリング角度、ブレーキ）を予測しようとする。これらのタイプのシステムは、一般にエンドツーエンド（Ｅｎｄ－Ｔｏ－Ｅｎｄ）のナビゲーションシステム、または、自律運転システムと呼ばれる。これらのシステムは問題を複数のサブシステムに分解しないが、特に複雑な自律運転環境では、実際の値を予測するときに機械学習モデルが十分に正確ではないために、システムの出力は依然として誤っている可能性がある。また、これらの機械学習モデルが監視された方法でトレーニングされている場合、ナビゲーションは非常に確定的である可能性があり、それは、突然の風の吹き出し、滑りやすい道路など、道路上の突然の予期しない変化にモデルが適応しないことを意味する。

このセクションは一般的に開示を要約したものであり、その全範囲またはそのすべての機能を包括的に説明するものではない。
自律運転車両は、ひとつ以上のプロセッサと、
ひとつ以上のプロセッサと通信するメモリとを備えており、
メモリは、入力状態配列生成モジュールと、アクション値配列生成モジュールと、指示モジュールとを格納しており、
入力状態配列生成モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、（１）タイムスタンプをもつセンサデータであって、車両のひとつ以上のセンサからセンサデータを受け取り、（２）センサデータのタイムスタンプの間における比較に基づいてセンサデータを同期化することにより、センサデータを同期化させて同期化されたセンサデータを生成し、（３）センサデータを共通のデータ形式をもつ変換されたセンサデータに変換することにより、同期化されたセンサデータを前処理し、および、（４）入力状態配列であるＫ次元配列であって、Ｋ次元配列に、変換されたセンサデータを連結するように機能させ、
アクション値配列生成モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、複数のセルを含むアクション値配列を推定するために、ナビゲーションポリシーを入力状態配列に適用するように機能させ、ナビゲーションポリシーは、所望のナビゲーションアクションを提供するために事前に定義されたナビゲーション制約を考慮するように強化学習によって訓練されており、アクション値配列は車両の前方の平面を表す配列であって、アクション値配列の複数のセルは、対応するセルに向かって車両を運転することによる長期的な報酬の期待値を含み、アクション値配列の複数のセルの値は、車両と車両が到達しようとしている目標との間の距離と、車両と車両が回避しようとするひとつ以上の物体との距離とを表しているものであり、
指示モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、最高の報酬値を有するアクション値配列内のセルを表す場所に車両を誘導するように車両制御システムに指示するように機能させるものであり、
ひとつ以上のプロセッサと通信するメモリは、人工知能ポテンシャルフィールド撮像モジュールと、入力状態配列生成モジュールとを格納しており、
人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上のプロセッサにより実行されるとき、ひとつ以上のプロセッサに、（１）現在の位置を表す起点値と目標位置を表す到達点値とを受け取り、（２）現在位置周辺の複数のセルを有するＮ次元空間を離散化し、（３）目標位置からの現在位置の近接度の関数として、複数のセルにおけるセルのポテンシャル値を計算し、および、（４）タイムスタンプを与えられているＮ次元ポテンシャルフィールド配列であって、Ｎ次元空間から対応するセルのポテンシャル値に基づいているＮ次元ポテンシャルフィールド配列のセルの値であるＮ次元ポテンシャルフィールド配列を計算するように機能させ、
入力状態配列生成モジュールは、ひとつ以上のプロセッサにより実行されるとき、ひとつ以上のプロセッサに、（１）センサデータとＮ次元ポテンシャルフィールド配列とは、センサデータとＮ次元ポテンシャルフィールド配列との間のタイムスタンプの比較に基づいて同期化することにより、センサデータとＮ次元ポテンシャルフィールド配列とを同期化させ、（２）センサデータとＮ次元ポテンシャルフィールド配列を共通のデータ形式に変換することにより、同期化されたセンサデータとＮ次元ポテンシャルフィールド配列を前処理し、（３）入力状態配列であるＫ次元配列であって、Ｋ次元配列に、変換されたセンサデータとＮ次元ポテンシャルフィールド配列とを連結するように機能させる。
自律運転車両の操作方法は、タイムスタンプを有するセンサデータであって、自律運転車両のひとつ以上のセンサからセンサデータを受信し、
センサデータのタイムスタンプ間の比較に基づいてセンサデータを同期化することによって、センサデータを同期化し、
センサデータを共通のデータフォーマットを有する変換されたセンサデータに変換することにより、同期化されたセンサデータを前処理し、
入力状態配列であるＫ次元配列であって、変換されたセンサデータをＫ次元配列に連結し、
望ましいナビゲーションアクションを提供するために事前定義されたナビゲーション制約を考慮する強化学習を通じて訓練されたナビゲーションポリシーであって、ナビゲーションポリシーを入力状態配列に適用することにより複数のセルを含むアクション値配列を推定し、
アクション値配列は、車両の前方の平面を表す配列であって、アクション値配列の複数のセルは、対応するセルに向かって車両を運転することによる長期的な報酬の期待値を含み、アクション値配列の複数のセルの値は、車両と車両が到達しようとする目標との間の距離、および、車両と車両が回避しようとするひとつ以上の物体との間の距離を表すものであり、
最高の報酬値を持つアクション値配列のセルを表す場所に自律運転車両を誘導するように車両制御システムに指示するものであり、
現在位置を表す起点値と目標位置を表す到達点値とを受け取り、
現在位置の周りに複数のセルを有するＮ次元空間を離散化し、
複数のセルにおけるそれぞれのセルのポテンシャル値を、目標位置からの現在位置の近接度の関数として計算し、
タイムスタンプから提供されるＮ次元ポテンシャルフィールド配列であって、Ｎ次元ポテンシャルフィールド配列のセルの値は、Ｎ次元空間からの対応するセルのポテンシャル値に基づいている、Ｎ次元ポテンシャルフィールド配列を計算し、
センサデータとＮ次元ポテンシャルフィールド配列のタイムスタンプ間の比較に基づいて、センサデータとＮ次元ポテンシャルフィールド配列とを同期化することにより、センサデータとＮ次元ポテンシャルフィールド配列とを同期化させ、
センサデータとＮ次元ポテンシャルフィールド配列とを共通のデータ形式に変換することにより、同期化されたセンサデータとＮ次元ポテンシャルフィールド配列とを前処理し、
Ｋ次元配列は入力状態配列であって、Ｋ次元配列に、変換されたセンサデータとＮ次元ポテンシャルフィールド配列とを連結する。

ひとつの実施形態では、自律運転車両の人工知能システムは、ひとつ以上のプロセッサと、ひとつ以上のプロセッサと通信するメモリとを含む。メモリは、入力状態配列生成モジュール、アクション値配列生成モジュール、および、指示モジュールを格納する。入力状態配列生成モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、（１）タイムスタンプをもつセンサデータであって、車両のひとつ以上のセンサからセンサデータを受け取り、（２）センサデータのタイムスタンプの間における比較に基づいてセンサデータを同期化することにより、センサデータを同期化させて同期されたセンサデータを生成し、（３）センサデータを共通のデータ形式をもつ変換されたセンサデータに変換することにより、同期されたセンサデータを前処理し、および、（４）入力状態配列であるＫ次元配列であって、Ｋ次元配列に、変換されたセンサデータを連結するように機能させる。

アクション値配列生成モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、ナビゲーションポリシーを入力状態配列に適用することにより複数のセルを有するアクション値配列を推定するように機能させる。ナビゲーションポリシーは、所望のナビゲーションアクションを提供するために、事前定義されたナビゲーション制約を説明する強化学習を通じて訓練されてもよい。アクション値配列は、車両の前方の平面を表す配列であってもよく、アクション値配列の複数のセルは、対応するセルに向かって車両を運転することによる長期的な報酬の期待値を含み、アクション値配列の複数のセルの値は、車両と車両が到達しようとする目標との間の距離、および車両と車両が回避しようとするひとつ以上の物体との間の距離を表すものである。

指示モジュールは、ひとつ以上のプロセッサによって実行されるとき、ひとつ以上のプロセッサに、最高の報酬値を有するアクション値配列内のセルを表す場所に車両を誘導するように車両制御システムに指示するように機能させる。

別の実施形態では、自律運転車両を操作するための方法は、車両のひとつ以上のセンサからタイムスタンプを有するセンサデータを受信するステップと、センサデータのタイムスタンプ間の比較に基づいてセンサデータを同期化するステップと、センサデータを共通のデータフォーマットに変換することによって同期化されたセンサデータを前処理するステップと、変換されたセンサデータを入力状態配列に連結し、入力状態配列にナビゲーションポリシーを適用してアクション値配列を推定し、最も望ましい報酬値を有するアクション値配列のセルを代表する位置に車両を誘導するように車両制御システムに指示する。

ナビゲーションポリシーは、所望のナビゲーションアクションを提供するために、事前定義されたナビゲーション制約を説明する強化学習を通じて訓練されてもよい。アクション値配列は、車両の前方の平面を表す場合がある。アクション値配列のセルには、対応するセルに向かって車両を運転することで予想される長期的な報酬値が含まれている。アクション値配列の値は、車両と車両が到達しようとしている目標との間の距離、および、車両と車両が回避したいひとつ以上の物体との間の距離を表す。

別の実施形態では、目標指向型人工知能システムは、ひとつ以上のプロセッサと、ひとつ以上のプロセッサと通信するメモリとを有する。メモリは、人工知能ポテンシャルフィールド撮像モジュールを格納している。人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上のプロセッサにより実行されるとき、ひとつ以上のプロセッサに、（１）現在位置を表す起点値と目標位置を表す到達点値とを受け取り、（２）現在位置周辺の複数のセルを有するＮ次元ポテンシャルフィールド配列を離散化し、（３）目標位置からの現在位置の近接度の関数として、Ｎ次元ポテンシャルフィールド配列の複数のセルにおけるセルのポテンシャル値を計算し、および、（４）Ｎ次元ポテンシャルフィールド配列のセルに対応するピクセルを有するＮ次元ポテンシャルフィールド画像であって、Ｎ次元ポテンシャルフィールド配列に基づいて、Ｎ次元ポテンシャルフィールド画像を生成するように機能させる。

適用可能なさらなる領域、および、開示される技術を拡張するさまざまな方法が、提供されている説明から明らかにされる。この概要における説明および特定の実施形態は、図示のためだけを意図されており、この開示の範囲を限定するものではない。

この明細書に組み込まれ、その一部を構成する添付図面は、この開示の様々なシステム、方法、および他の実施形態を示している。図中の図示された要素境界（例えば、ボックス、ボックスのグループ、または他の形状）は、境界の一実施形態を表すものとして理解されるべきである。いくつかの実施形態では、ひとつの要素が複数の要素として設計されてもよく、または複数の要素がひとつの要素として設計されてもよい。いくつかの実施形態では、別の要素の内部コンポーネントとして示される要素は、外部コンポーネントとして実装されてもよく、その逆もあり得る。さらに、要素は縮尺どおりに描画されない場合がある。

図１は、車両を制御するための人工知能システムを有する車両を示す多面的な外観図である。図２は、図１の車両を制御するための人工知能システムのより詳細なブロック図である。図３は、ポテンシャルフィールド画像を生成する方法を示すフローチャートである。図４は、目標に近づくポテンシャルフィールド画像を例示する斜視図である。図５は、車両が目標に近づくポテンシャルフィールド画像を例示する平面図である。図６Ａは、得点を利用するビデオゲームの画面を例示する平面図である。図６Ｂは、目標としてハイスコアを利用するゲームのためのポテンシャルフィールド画像を示す３次元透視斜視図である。図６Ｃは、目標としてハイスコアを利用するゲームのためのポテンシャルフィールド画像を示す３次元透視斜視図である。図７Ａは、目標としてゴールによる得点を利用するスポーツ型のビデオゲームの画面を例示する平面図である。図７Ｂは、目標としてゴールによる得点を利用するスポーツ型のビデオゲームにおけるポテンシャルフィールド画像を示す２次元平面図である。図８Ａは、目標として予算を利用する金融システムにおけるポテンシャルフィールド画像を示す３次元透視斜視図である。図８Ｂは、目標として予算を利用する金融システムにおけるポテンシャルフィールド画像を示す３次元透視斜視図である。図９は、ポテンシャルフィールド画像を利用する自律運転車両のＡＩシステムのフローチャートである。図１０は、入力状態配列を利用するＡＩシステムのフローチャートである。図１１Ａは、強化学習を用いる図９の自律運転車両のためのＡＩシステムのナビゲーションポリシーを訓練するためのシステムを示すブロック図である。図１１Ｂは、環境における自車と、物体と、目標位置とを示す平面図である。図１２Ａは、目標に到達するための方法と、目標へ到達するためのＡＩシステムを利用する自律運転車両とを示す一例であって、入力状態配列（Ｓｔ）とナビゲーションポリシー１７２とアクション値配列（Ｑｔ）１７６とを示すブロック図である。図１２Ｂは、アクション値配列（Ｑｔ）１７６の処理を示すフローチャートである。図１２Ｃは、車両１８０の前方におけるアクション値配列１７６の一例を示す斜視図である。図１３Ａは、ひとつ以上の中間目標を利用することによって最終的な目標に到達するためのＡＩシステム、および、方法を利用する自律運転車両の一例であって、複数の中間目標と、最終的な目標とを示す平面図である。図１３Ｂは、複数の中間目標を利用するシステムのフローチャートである。

複数の実施形態が、図面を参照しながら説明される。複数の実施形態において、機能的におよび／または構造的に対応する部分および／または関連付けられる部分には同一の参照符号、または百以上の位が異なる参照符号が付される場合がある。対応する部分および／または関連付けられる部分については、他の実施形態の説明を参照することができる。

この明細書の開示は、人工ポテンシャルフィールドを生成するためのシステム、および、方法、および、目標指向型の人工知能ナビゲーションシステムを含む。人工ポテンシャルフィールドの生成に関して、人工ポテンシャルフィールドは、目標を囲むフィールドの画像である場合がある。目標（ターゲット）は、車両の目標到達地点、ビデオゲームのハイスコア、ビジネスの予算要件、または、任意のタイプの目標に設定することができる。人工ポテンシャルフィールドは、目標にどれだけ近いかを視覚化したものである。目標に近づくと、おそらくより強い色で表される人工ポテンシャルフィールドの値が増加する可能性がある。

目標指向型の人工知能ナビゲーションシステムに関して、このタイプのナビゲーションシステムは、被制御車両を目標に向けて操縦する制御車両内に組み込むことができる。被制御車両は、制御車両と同一である場合がある。車両を目標まで操縦するために、システムは、車両の前方の平面を表すアクション値配列を生成することができる。入力状態配列のセルには、報酬関数に基づく値が含まれている。値が高い（場合によっては低い）ほど、そのセルに向かって車を操縦することがより望ましい。セルの値は、望ましいナビゲーションアクションを提供するために、事前定義されたナビゲーション制約を考慮した強化学習を通じて訓練することができるナビゲーションによって生成される。

図１および図２において、自律運転車両１２を制御するためのシステム１０が示されている。ここでは、自律運転車両１２は自動車として示されている。しかしながら、自律運転車両１２は、人または物をある場所から別の場所に輸送することができる任意のタイプの車両であってよい。したがって、自律運転車両１２は、図示のように自動車であり得るが、トラック、大型トラック、トラクタートレーラー、トラクター、鉱山車両、軍用車両、建設車両などであってもよい。さらに、自律運転車両１２は、必ずしも陸上の車両である必要はなく、航空機、または、航海船であってもよい。さらに、自律運転車両１２は、半自律モードで動作することもでき、車両１２の運転者は、車両１２の動作をある程度制御することができる。したがって、自律運転車両という用語は、自律モードでのみ動作できる車両であることを必ずしも意味するのではなく、他のモードでも動作する車両も含む。自律運転車両１２は、ひとつ以上のカメラ１４Ａ～１４Ｇ（図２に要素１４として示されている）を備える場合がある。一例では、カメラ１４Ａ～１４Ｇは、単一の光学カメラ（単眼カメラ）であってよい。しかしながら、任意のタイプの視覚システムが利用されてもよいことが理解されるべきである。例えば、単一の光学カメラ１４Ａ、および、１４Ｂは、車両１２の前方端１６の近くに配置されて、車両１２の前方の画像を取り込むことができる。単一の光学カメラ１４Ｃ、および、単一の光学カメラ１４Ｄは、それぞれ車両１２の左側、および、右側からの画像を取り込むことができるように、車両１２の反対側に配置されてもよい。さらに、単一の光学カメラ１４Ｅ～１４Ｇは、車両１２の後方端部１８に配置されて、車両１２の後方の画像を取り込むことができる。

自律運転車両１２は、また、前方に指向された立体カメラ２０を備えることができる。しかしながら、任意のタイプの視覚システムが利用されてもよいことが理解されるべきである。前方立体カメラ２０は、車両１２の前方の画像を取り込むことができる。カメラ２０の立体視能力は、人間の両眼視をシミュレートし、したがって、立体視カメラ２０は、適切な処理で３次元画像を取り込むことができる。

自律運転車両１２は、また、車両１２の外部の物体の存在、および／または、動きを検出することができる他のセンサを備えていてもよい。例えば、複数のセンサは、ソナーセンサ２２、レーダーセンサ２４、および／または、光検出、および、ＬＩＤＥＲシステム２６を含む場合がある。ＬｉＤＡＲシステムは、ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇｓｙｓｔｅｍと呼ばれるレーザー光などを使ったセンサである。もちろん、これらは、車両１２によって利用され得る異なるタイプのセンサの単なる例である。車両１２は、考えられる任意の構成において、いくつかの異なるタイプのセンサのうちの任意のひとつを含み得る。

車両１２は、全地球的航法衛星システム（ＧＮＳＳ）システム２８を備えることもできる。ＧＮＳＳシステム２８は、ＧＰＳ、ＧＬＯＮＡＳＳ、ガリレオ、および／または、ベイドゥーを含むいくつかの異なるシステムのうちのいずれかひとつであり得る。よく知られているように、ＧＮＳＳシステム２８は、ひとつ以上のＧＮＳＳ衛星３４Ａ～３４Ｄからひとつ以上の信号３２Ａ～３２Ｄを受信することができるアンテナ３０を含む。ＧＮＳＳシステム２８は、ひとつ以上のＧＮＳＳ衛星３４Ａ～３４Ｄからのひとつ以上の信号３２Ａ～３２Ｄを解釈して、経緯度形式の座標系の形で車両１２の位置を提供することができる。この経緯度形式の座標系は、車両１２の緯度、経度、および、高度に関する情報を含み得る。

車両１２は、ひとつ以上（ひとつ、または、複数）のプロセッサ４０を備える場合がある。ひとつ以上のプロセッサ４０は、メモリデバイス４２と通信することができる。メモリデバイス４２は、この開示で言及される方法のいずれかを実行するための命令を含む。メモリデバイス４２は、ひとつ以上のプロセッサ４０から分離されていてもよく、あるいは、ひとつ以上のプロセッサ４０内に組み込まれてもよい。

ひとつ以上のプロセッサ４０は、いくつかのアクチュエータを使用して車両１２を制御することができる。これらのアクチュエータは、スロットルアクチュエータ４４、ステアリング角度アクチュエータ４６、および／または、ブレーキアクチュエータ４８を含む場合がある。スロットルアクチュエータ４４は、車両１２の前方、および／または、後方への動きを制御する。ステアリング角アクチュエータ４６は、車両１２の操舵角を制御する。ブレーキアクチュエータ４８は、車両１２のブレーキを制御する。ひとつ以上のプロセッサ４０は、アクチュエータ４４、４６、および／または、４８の挙動を変調することによって、車両１２の動きを制御することができる。

この実施形態では、スロットルアクチュエータ４４、ステアリング角アクチュエータ４６、および、ブレーキアクチュエータ４８を含む３つのタイプのアクチュエータについて説明したが、車両の推進駆動方式（例えば、完全な電気駆動、エンジンと電気とのハイブリッド駆動、エンジンのみ、水素燃料駆動など）に応じて、異なるタイプのアクチュエータが必要な場合や、取り除かれる場合があることが理解されるべきである。したがって、車両１２を制御するために使用されるアクチュエータの数、および、異なるタイプのアクチュエータは単なる例であり、車両１２の要件に応じて変化する可能性がある。

以下の段落で説明するように、メモリデバイス４２は、ポテンシャルフィールド撮像モジュール５０Ａを格納している。ひとつ以上のプロセッサ４０によって実行されるとき、ひとつ以上のプロセッサ４０は、人工的なポテンシャルフィールド画像を生成することができる。人工ポテンシャルフィールド画像（ポテンシャルフィールド画像とも呼ばれる）は、「目標状態」によって放出される仮想のポテンシャルフィールドである。目標状態は、システムが到達しようとしている目標である。たとえば、自律運転ナビゲーションの場合、目標は、車両が到達しようとしている目的地である場合がある。ポテンシャルフィールド画像は、物体が電位源に近いほど、物体がより強く電位の影響を受けるという点で、電位場と概念が似ている。ポテンシャルフィールド画像の場合、システムが目標状態に近づくほど、システムによってポテンシャルが強くなる。直感的に、システムにより実験的に経験されるポテンシャルは、システムが目標の場所に図的にどれだけ近いかを表す。

システムが目標にどれだけ近いかを画像的に表現することは、特に計算能力の向上に関連して、いくつかの利点がある。画像プロセッシングユニット（ＧＰＵ）の最近の進歩により、ＧＰＵは一定時間内に大量の画像データを処理できる。この大量のデータを処理できるフレームワークとＡＩライブラリとのその後の開発により、驚くほど正確な結果を得ることができる。このように、この開示は、コンピュータ技術の革新、つまり、システムがゴール位置にどれだけ近いかを示す画像的な形式のデジタル画像処理を可能とし、この場合、コンピュータの機能の改善と、目標指向型のナビゲーションの技術の改善との両方が反映される。

図３において、システム１０のひとつ以上のプロセッサ４０によって実行することができる方法７０が示されている。方法７０は、ポテンシャルフィールド画像を生成するだけでなく、ポテンシャルフィールド画像を利用して目標状態に移動するステップも含む。ポテンシャルフィールド画像を利用して目標状態に移動するステップを説明する前に、この説明では、最初に、ポテンシャルフィールド画像を生成するために必要なステップについて説明される。前述のように、ポテンシャルフィールド撮像モジュール５０Ａは、システム１０のメモリデバイス４２に格納されてもよい。ひとつ以上のプロセッサ４０によって実行されるとき、ポテンシャルフィールド撮像モジュール５０Ａは、Ｎ次元ポテンシャルフィールド画像とも呼ばれるポテンシャルフィールド画像を生成するようにプロセッサを構成する。

ポテンシャルフィールド画像を生成するために、ポテンシャルフィールド撮像モジュール５０Ａは、ステップ５２を開始する。ステップ５２において、ひとつ以上のプロセッサ４０は、現在の位置を表す起点値、および、目標位置を表す到達点値を受け取る。起点値は、図１の車両１２の現在位置を表すＧＮＳＳシステム２８によって生成された値である場合がある。到達点値は、車両１２が移動したいと望む位置である場合がある。これは、目標位置とも呼ばれる。

起点値、および／または、到達点値は、数値で表すことができる。起点値、および／または、到達点値の数値表現は、座標系の形式にすることができる。この座標系は、現在位置、および／または、目標位置を表す緯度、経度、および、高度を含む場合がある。

ステップ５４に進むと、このステップでは、ひとつ以上のプロセッサ４０は、現在の位置の周りに複数のセルを有するＮ次元ポテンシャルフィールド配列を離散化することができる。また、現在位置周辺のＮ次元空間をＮ次元ポテンシャルフィールド配列に離散化する。一例として、起点値が、４３．７２３５６（度）、－８２．１６９５８（度）、２３９．５（ｍ）である場合を考える。（ｍ）は、以下の説明においてメートルを意味する。現在の位置の周りのＮ次元ポテンシャルフィールド配列は、緯度が０．１度（２０の離散値）ずつ増加して４２．７２３５６から４４．７２３５６に広がる範囲（スパン）、経度が０．１度（２０の離散値）ずつ増加して－８１．１６９５８から－８３．１６９５８に広がる範囲、および、高度が０．５（ｍ）（２０の離散値）ずつ増加して２３４．５（ｍ）から２４４．５（ｍ）にわたる範囲である。そのため、現在の状態の周囲の３Ｄ空間には、２０×２０×２０＝８０００セルが存在する。

ステップ５６において、ひとつ以上のプロセッサ４０は、Ｎ次元ポテンシャルフィールド配列の複数のセルにおける、セルのポテンシャル値を、目標位置からの現在位置の近接度の関数として計算することができる。さらに、現在の位置の周りのＮ次元ポテンシャルフィールド配列内のセルについて、ひとつ以上のプロセッサ４０は、目標状態に関するセルの数値（Ｖｃ）を計算する。関数（ｆ）は事前定義されており、現在位置と目標位置とを入力として受け取り、各セルの数値を計算する。この関数ｆは、アプリケーションによって異なる場合がある。一例では、セルの数値（Ｖｃ）は、目的地の場所までのセルの場所の緯度、経度、高度（Ｓｃ）で表される距離である場合がある。関数ｆは距離計算関数として、Ｖｃ＝ｆ（Ｓｃ、Ｓｔ）として定義できる。

一例では、ひとつ以上のプロセッサ４０は、Ｎ次元ポテンシャルフィールド行列の複数のセルのそれぞれにおける、目標位置に関する複数の数値を計算する。Ｎ次元ポテンシャルフィールド行列は、行インデックス番号ｉ、および、列インデックス番号ｊによって表される。計算は、現在位置の周囲のＫ×Ｋ（ｍ２）の領域を、軸に沿って、セルの数と同じ格子に分割することによって与えられている。（ｍ２）は、以下の説明において平方メートルを意味する。セルの寸法は、ｋ×ｋ（ｍ２）である。よって、ｋ＝Ｋ／Ｍである。ここで、現在位置に対するセルの距離は、ｄＥＬｉｊとして下記（１）式により表わされる。

ここで、座標に基づく目標位置と現在位置の間の距離ｄＴＥ、セルと目標位置との間の目標位置ｄＴＬｉｊに関する複数のセルにおけるセルの数値は下記（２）式により表わされる。

ここで、θは、現在位置と目標位置とを結ぶ線と、現在位置と対象のセルとを結ぶ線とがなす角である。

Ｎ次元ポテンシャルフィールド行列の複数のセルにおけるセルのポテンシャル値（φｉｊ）は、予め定められた標準偏差値σを用いて、下記（３）式により表される。

ステップ５８において、ひとつ以上のプロセッサ４０は、Ｎ次元ポテンシャルフィールド配列のセルのポテンシャルフィールド値を計算することができる。現在位置の周りのＮ次元ポテンシャルフィールド配列の各セルについて、ひとつ以上のプロセッサ４０は、例えば、Ｎ（Ｖｃ｜０，σ）によって与えられる０平均、正規分布を使用して、セルによって経験されるポテンシャル値（φｃ）を計算する。ここで、σはポテンシャルフィールド画像の標準偏差である。標準偏差（σ）は、ポテンシャルフィールド画像の半径（ｒ）を決定するスケーリング係数である。一例では、それは、それ自体が所定の定数値であるか、または、ポテンシャルフィールド画像の所定の半径から逆算されてもよい。たとえば、σ＝ｒ／３；ｒ＝３＊σである。一例では、目的地のポテンシャルフィールド画像の所定の半径が３０ｍである場合、σは１０である。

ステップ６０において、ひとつ以上のプロセッサ４０は、Ｎ次元ポテンシャルフィールド配列に基づいてＮ次元ポテンシャルフィールド画像を計算し、および、生成することができる。Ｎ次元ポテンシャルフィールド画像は、Ｎ次元ポテンシャルフィールド配列の複数のセルに対応する複数の画素（ピクセル）を有することができる。これは、Ｎ次元ポテンシャルフィールド画像の画素に色強度値を割り当てることによって達成することができる。色強度値は、Ｎ次元ポテンシャルフィールド配列、および、参照用テーブルの対応する値に基づくことができる。

一例では、ひとつ以上のプロセッサ４０は、グリッドサイズと同じ解像度を有する空白の画像であるＮ次元画像を作成することができる。ひとつ以上のプロセッサ４０は、ポテンシャル値を色強度にマッピングする事前定義されたマッピング関数Ｍを使用して、対応するセルのポテンシャル値（φｃ）を使用して色値（ｇｃ）を計算することができる。カラーマップは、ポテンシャル値が０～２５５の値にマッピングされるグレースケールであるか、または、ポテンシャル値が３つの異なる強度にマッピングされるＲＧＢ（赤、緑、青）、または、ＨＳＶ（色相、彩度、値）であるかの場合がある。

引き続き図３において、現在位置から目標位置に移動する方法７０を詳細に示す図３の他のステップを説明する。方法７０はステップ７２で始まる。ステップ７４において、目標状態が達成されたかどうかの決定がひとつ以上のプロセッサ４０によって行われる。現在位置と目標位置が一致すると目標状態が達成される。この決定は、ひとつ以上のセンサ７６からの情報、および、メモリ７８からの格納された目標位置を利用することによって行うことができる。センサ７６は、図２におけるセンサ１４、２０、２２、２４、および／または、２６を含むことができ、さらに、および／または、図２のＧＮＳＳシステム２８を含むことができる。メモリ７８は、図２のメモリデバイス４２であってもよい。

目標状態が達成された場合、ステップ８０に示されるように、方法は終了する。そうでない場合、方法は、ポテンシャルフィールド撮像モジュール５０Ａを継続し、ステップ５２、５４、５６、５８、および６０は、前の段落で以前に説明されたように実行される。これらのステップが実行されると、方法はステップ８２へと続き、そこで、新しい状態に移動するための決定がひとつ以上のプロセッサ４０によって行われる。新しい状態に移動するかどうかの決定は、Ｎ次元ポテンシャルフィールド画像のより高い、または、より価値のあるカラー値を持っていることによって表わされた場所に移動することに基づいている。ステップ８２が実行された後、方法はステップ７４に戻る。

「より高い」、「より大きい」、「より望ましい」、「より価値のある」などの用語について簡単に述べる。この開示全体を通して、これらの用語は、例えば、「Ｎ次元ポテンシャルフィールド画像のより高い、または、より価値のある値を有する場所」などの比較用語として利用することができる。値に関して「より高い」、または、「より大きい」、または、「より強い」、および、類似の用語は、より好ましい値を意味する場合がある。場合によっては、値が高いほど、より好ましい値を示すことがある。他の例では、より低い値はより好ましい値を示している場合がある。「より大きい」、または、「より激しい」などの場合も同様である。

図２の方法７０のより良い視覚的効果を提供するために、図４が参照される。これらの図は、Ｎ次元ポテンシャルフィールド画像８４の例を示す。Ｎ次元ポテンシャルフィールド画像８４は、また、現在位置値８６、および、到達位置値８８を示す。図４における例ＦＩＧ．４Ａ－ＦＩＧ．４Ｄに見られるように、Ｎ次元ポテンシャルフィールド画像８４の色の強度は、到達位置値８８に近づくにつれて変化する。

例えば、例ＦＩＧ．４Ａにおいて、現在位置値８６は、到達位置値８８から比較的離れている。対象物（オブジェクト）が到達地点に近づくと、ＦＩＧ．４Ａ、ＦＩＧ．４Ｂ、ＦＩＧ．４Ｃ、ＦＩＧ．４Ｄの順で例示されるように、現在位置値８６は、Ｎ次元ポテンシャルフィールド画像８４におけるより強い色の範囲に進入し、配置される。したがって、方法７０は、より強い色を有するＮ次元ポテンシャルフィールド画像８４上の位置に移動することがより望ましいと考える。

図５に例示される他の例において、現在位置を示す車両９０は、目標９２に行きたいと望んでいる。例ＦＩＧ．５Ａ（０秒）、例ＦＩＧ．５Ｂ（５秒後）、例ＦＩＧ．５Ｃ（１０秒後）、および、例ＦＩＧ．５Ｄ（１５秒後）の順で車両の進行、および、時刻ｔ（秒）の進行が示されている。各例の上段は時刻ｔを示し、中段は道路を示し、下段はＮ次元ポテンシャルフィールド画像９４を示す。各例におけるＮ次元ポテンシャルフィールド画像９４は、車両９０が目標９２に近づく経過における色強度を示している。車両９０は、図２のシステム１０と同様のシステムを装備することができる。システム１０は、Ｎ次元ポテンシャルフィールド画像９４を決定し、Ｎ次元ポテンシャルフィールド画像９４を利用することにより、車両９０が目標９２に向けて運転されるように車両９０を制御するように構成されている。システムは、車両９０を操縦することにより、車両９０がＮ次元ポテンシャルフィールド画像９４に示されるより強い色に移動することを求める。最終的に、このより強い色への車両９２の動きは、最終的に、例ＦＩＧ．５Ｄに最もよく示されるように、車両がその目標９２に到達することになる。

Ｎ次元ポテンシャルフィールドの生成と使用は、前の段落において自律車両のナビゲートに適用可能であると説明されている。ただし、Ｎ次元ポテンシャルフィールドの生成と使用は、他のターゲット指向型システムでも利用可能であると理解されるべきである。なお、ターゲットは、到達点である必要はなく、考えられる結果でもよい。

例えば、図６Ａ、図６Ｂ、図６Ｃにおいて、Ｎ次元ポテンシャルフィールドは、ビデオゲームにおいて高得点を達成しようとするＡＩシステムによって使用される。図６Ａは、ゲームの例として、パックマンと呼ばれるビデオゲームの画面を示している。パックマンにおいては、画像要素９８で示されているペレット（ＰＥＬＬＥＴ）の大きさや、ゴーストの取得や移動に基づいて、ハイスコア（ＨＩＧＨＳＣＯＲＥ）画像９６で示されているポイントが付与される。図６Ｂは、大きいペレット（ＢｉｇＰｅｌｌｅｔｓ）、小さいペレット（ＳｍａｌｌＰｅｌｌｅｔｓ）、および、ゴースト（Ｇｈｏｓｔｓ）を消去することにより付与されるポイントを示す３次元ポテンシャルフィールド画像を示している。図６Ｃは、大きいペレット、および、小さいペレットを消去することに対して付与されるポイントを示す２次元ポテンシャルフィールド画像を示している。このタイプのポテンシャルフィールド画像は、ＡＩシステムを利用することにより、最高のスコアを目標として達成するパックマンゲームをプレイすることを可能とする。

別の例として、図７Ａは、目標１００が画面１０２上の特定の位置であるサッカービデオゲームを示す。現在の位置はサッカーボール１０４によって表される。図７Ｂは、目標１００に向かってボールをキックすることに関して、サッカーボールのキック力（ＰｏｗｅｒｏｆＫｉｃｋ）、および、キック方向の角度（Ａｎｇｌｅ）を考慮した２次元ポテンシャルフィールド１０６を示す。ＡＩシステムは、このポテンシャルフィールド画像を利用して、最高の色強度値を有するキック力、および、角度でサッカーボール１０４を蹴る。

前述のように、ポテンシャルフィールド画像の使用は、さまざまなアプリケーションで使用することができる。これらのアプリケーションは、自律運転車両の制御や、ビデオゲームのプレイに限定されることなく、財務目標にも適用することができる。例えば、図８Ａは、アマゾンウェブサービス（ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ）などのクラウドコンピューティングサービスプロバイダーにおける利用例を示す。ここでは、目標は、１か月の予算に設定することができる。ポテンシャルフィールド画像において利用される指標は、記憶領域（ｓｔｏｒａｇｅ）、計算要件（ｃｏｍｐｕｔａｔｉｏｎａｌｒｅｑｕｉｒｅｍｅｎｔｓ）、エラスティックＩＰアドレス（ｅｌａｓｔｉｃＩＰａｄｄｒｅｓｓｅｓ）に関連するコストになる場合がある。図示の例では、３次元ポテンシャルフィールド画像は、記憶容量（ＳｔｏｒａｇｅｏｎＳ３（ＧＢ））、時間（ＣｏｍｐｌｅｔｅＨｏｕｒｓｏｎＥＣ２）、および、アドレス数（ＥｌａｓｔｉｃＩＰｓ）によって示されている。図８Ａのポテンシャルフィールド画像の色強度は、３つの変数すべてを考慮して、最適な組み合わせを明らかにする。図８Ｂは、必要なエラスティックＩＰの数を３つに固定したときの異なる結果１１０を示す。どちらの方法においても、ＡＩシステムはＡＦＰイメージを利用して、リソースを最大限に活用し、目標予算を満たすことができる。この例、または、その他の場合において、ポテンシャルフィールド画像は、視覚化の理由で使用することができ、必ずしも人工知能エンジンに提供する必要はないことが理解されるべきである。

図９は、ポテンシャルフィールド画像を利用することができる自律運転車両のための人工知能システム１２０のフローチャートを示している。人工知能システム１２０、および、任意の関連する方法は、図２の目標指向型のナビゲーションシステムモジュール５１としてメモリデバイス４２に格納される場合がある。人工知能システム１２０、および／または、方法は、ポテンシャルフィールド画像を使用せずに動作することができる。ここで、人工知能システム１２０は、画像データの形で、ひとつ以上の撮像センサからデータ１２２を受け取ることができる。撮像センサは、図２に示され説明されているセンサ１４、２０、２２、２４、および／または、２６を含む場合がある。人工知能システム１２０は、また、ポテンシャルフィールド撮像システムからデータ１２４を受け取ることができる。ポテンシャルフィールド撮像システムは、上記の段落で説明したように、ポテンシャルフィールド画像を生成するように構成されている。前述のように、人工知能システム１２０は、撮像センサからのデータ１２２のみを使用することができ、ポテンシャルフィールド撮像システムからのデータ１２４を使用しない場合がある。ステップ１２６、１２８、および／または、１３０は、図２におけるひとつ以上のプロセッサによって実行される入力状態配列生成モジュール５０Ｂとしての命令として格納される場合がある。

ブロック１２６において、撮像センサからのデータ１２２、および／または、ポテンシャルフィールド撮像システムからのデータ１２４が同期化される。データ１２２、および／または、データ１２４は、タイムスタンプ情報を含む。データは、データ１２２のタイムスタンプと、データ１２４のタイムスタンプとの間の比較に基づいて同期化される。データが撮像された時刻に基づいてデータを編成するために、データ１２２、および／または、１２４は、タイムスタンプ情報に基づいて結合および同期化される。例えば、異なる撮像センサは異なる速度で生画像を生成し、ポテンシャルフィールド撮像システムは異なる速度でポテンシャルフィールド画像を生成する。同期化は、ポテンシャルフィールド画像が作成されるタイムスタンプに対して行われる。これにより、それぞれの撮像センサから、最新のポテンシャルフィールド画像に最も近い作成された画像のみが保持され、残りは破棄される。この手順により、Ｎ回の同期化画像が生成される。

ブロック１２８において、画像の集合である場合がある同期化されたデータは、共通のデータフォーマットに前処理される。さらに、異なるソースによって生成された同期化されたＮ個の画像は、異なるサイズであり、異なる数のカラーチャネルを持つ場合がある。このステップの間に、同期化されたＮ個の画像は、幅×高さ（Ｗ×Ｈ）の共通の画像解像度に再形成され、Ｃチャネルを生成する共通の色空間に変換される。Ｗ、Ｈ、Ｃは任意のハイパーパラメータであり、必要に応じて変更できる。このステップにより、Ｗ×Ｈ×Ｃの共通画像次元をもつＮ回同期化画像が生成される。

ブロック１３０において、前処理されたデータは、データをＫ次元配列に連結され、ここで、Ｋ次元配列は入力状態配列（Ｓｔ）１３２である。Ｎ個の同期化画像および前処理された画像は、次元（Ｎ＊Ｃ）×Ｗ×Ｈの入力状態配列（Ｓｔ）１３２に連結される。この連結された入力状態配列（Ｓｔ）１３２は、ナビゲーションポリシー（π）（この明細書で後述する）が、副目標点（ｓｕｂ－ｔａｒｇｅｔｐｏｉｎｔ）（ｔｔ’）を計算するために使用することになる。入力状態配列１３２は、Ｓｈａｐｅ：（Ｎ＊Ｃ）×Ｗ×Ｈとして図示されている。

図１０を参照すると、入力状態配列（Ｓｔ）１３２を利用する方法１３４が示されている。方法１３４は、図２の目標指向型ナビゲーションシステムモジュール５１の一部としてメモリデバイス４２に格納されてもよい。この方法はステップ１３６で始まる。この方法１３４は、情報にアクセスする。この情報は、図２のメモリ装置４２であってもよいメモリ１３８からの情報とともに、センサ１４、２０、２２、２４、および／または、２６であってもよい位置センサ１４０からの情報、および／または、同じく図２のＧＮＳＳシステム２８からの情報を含む。

ステップ１４２において、目標が達成されたかどうかの決定が行われる。この決定は、メモリ１３８からの目標位置を、位置センサ１４０からの車両位置と比較することによって行うことができる。目標位置は、座標系に基づいて特定される。目標位置は、例えば、Ｔｌａｔ、Ｔｌｏｎｇによって表される。車両位置は、座標系に基づいて特定される。車両位置は、例えは、時々刻々と変化する新しい新車両位置として与えられ、Ｅｔｌａｔ、Ｅｔｌｏｎｇによって表される。目標位置と車両位置が類似している場合、ステップ１４３に示されているように、目標に到達したと判定され、方法が終了する。

目標にまだ達していない場合、方法はステップ１４８に進む。ステップ１４８は、上記の段落で以前に説明され、図９に示された入力状態配列（Ｓｔ）を生成する。前述のように、入力状態配列（Ｓｔ）は、前述のようにセンサ１４、２０、２２、２４、および／または、２６を含むポテンシャルフィールド撮像システム１４４、および／または、撮像センサ１４６からの情報を利用して生成できる。

入力状態配列（Ｓｔ）が一旦生成されると、ステップ１５０に示されるように、ナビゲーションポリシー（π）が入力状態配列（Ｓｔ）に適用される。後でさらに詳しく説明するように、ナビゲーションポリシー（π）は、入力状態配列（Ｓｔ）を利用して、車両の前方の平面を表すアクション値配列（ｑｔ）を生成する。アクション値配列（ｑｔ）のセルには、対応するセルに向かって車両を運転することで予想される長期的な報酬値が含まれている。アクション値配列（ｑｔ）の値は、車両と車両が到達しようとしている目標との間の距離、および車両と車両が衝突したくないひとつ以上の物体との間の距離を表す。

ステップ１５２において、入力状態配列（Ｓｔ）に応答するナビゲーションポリシーの出力に基づいて、方法１３４は、直後の目標位置（ｔｔ’）を計算する。直後の目標位置は、ときに副目標点（ｓｕｂ－ｔａｒｇｅｔｐｏｉｎｔ）と呼ばれる。直後の目標位置（ｔｔ’）は、車両が近い将来に移動することを希望する位置の代表である。ナビゲーションポリシー（π）は、事前に訓練されたナビゲーションポリシー（π）を使用して、車両の前方の入力状態配列（Ｓｔ）を直後の目標位置（ｔｔ’）にマップする。

π：ｓｔ→ｔｔ’

副目標点の計算を推進するナビゲーションポリシー（π）は、強化学習（ＲＬ）と呼ばれる機械学習アプローチを使用して生成される。

ステップ１５４において、車両が移動したい場所に基づいて車両運動制御装置への指令が生成され、ステップ１５６において、アクチュエータシステムが車両を所望の場所に向けて操縦する。アクチュエータシステムは、図２のアクチュエータ４４、４６、および／または、４８を含むことができる。

モジュール（しばしば「エージェント」と呼ばれる）の訓練中のＲＬフレームワークの目的は、環境（ξ）での現在の観測（Ｓｔ）を、実行可能な最善のアクション（ａｔ）にマッピングすることである。アクションは、個別の選択（例：１：「左に移動」または２：「右に移動」）、または、連続的な値（例：加速度とステアリング角度）のいずれかである。状態からアクションへのマッピングは、ナビゲーションポリシー（π）に基づいて行われる。アクション（ａｔ）を実行するために、モジュールは、実数値の報酬信号（ｒｔ∈Ｒ）を受け取る。報酬信号は、モジュールの目的に基づいて設計できる。たとえば、報酬信号は、目標位置までの距離に基づいて設計できる。たとえば、アクションが車両を目標位置に近づけると報酬が増加する。実行されたアクションに基づいて、環境は新しい状態Ｓｔ＋１に移行し、次のマルコフシーケンスを生成する。

Ｓｔ＝０，ａｔ＝０，ｒｔ＝０，Ｓｔ＝１，ａｔ＝１，…Ｓｔ＝ｎ

訓練シーケンスは、目的の目標が達成されたとき、または、アクションが終了（たとえば、範囲外に追い出された場合）したときに終了し、その時点で学習は新しい開始状態Ｓｔ＝０から再開される。このような最初から最後までのひとつのシーケンスは、「エピソード」と呼ばれることがある。

状態に対するアクションの選択は、値関数（Ｖπ）によって通知される。値関数は、ナビゲーションポリシーπを用いて、状態Ｓｔにおけるアクションａｔを実行するための「有限長期割引報酬（Ｒｔ）」の「期待値（Ｅ）」を表している。

Ｖπ＝Ｅ[Ｒｔ｜Ｓｔ，ａｔ，π]
Ｒｔ＝Σ_{ｔ’＝０→ｈ}（γ^ｔ’＊ｒ_ｔ＋ｈ），γ－割引係数＆ｈ－有限範囲
ａｔ＝ｍａｘ_ａ’∈ＡＶπ（Ｓｔ，ａ’）

ＲＬのモジュールのゴールは、Ｓｔからａｔへの最も正確なマッピングを考え出すこと、すなわち、最大値を持つアクションを実行し、その結果として高い報酬を受け取ることができるように、すべての可能なアクションの値を正確に予測することである。これは、常に更新されるナビゲーションポリシー（πｔ→πｔ＋１）によって実現される。複数のエピソードにわたって訓練することにより、最適なナビゲーションポリシー（π＊）が達成される。このフレームワーク内でモジュールを訓練するために使用できるＲＬアルゴリズムがいくつかある。

図１１Ａにおいて、車両ナビゲーションモジュールのためのＲＬの一般的な枠組みに関する一例が示されている。ここで、この図は、入力状態配列（Ｓｔ）が、ひとつ以上の撮像源１６２を使用することによって、および、状態形成ブロック１６４によって生成されることを示している。ひとつ以上の撮像源１６２は、図２に示されているひとつ以上のセンサ１４、２０、２２、２４、および／または、２６とすることができる。画像源１６２は、環境１６０から画像を取り込むことができる。そこから、前述のように、現在の観測値（Ｓｔ）が状態形成ブロック１６４で生成される。

次に、現在の観測値（Ｓｔ）は、ナビゲーションポリシー（π）を含むナビゲーションシステム１６５に提供される。そこから、ブロック１６６によって示されるように、車両運動コントローラは、ナビゲーションシステム１６５から受信された出力に基づいて作動させられる。その後、車両は指示されたように環境１６０内を移動する。

図１１Ｂに最もよく示されているように、ブロック１６８の報酬関数は、目標位置までの距離（ｄｇ）と、自車両１６３を取り巻く物体１６７、１６９、１７１までの距離（ｄｏ１、ｄｏ２、ｄｏ３）との組み合わせによって定義することができる。これにより、報酬が高くなるほど、目標位置１７３に近づき、近くの物体から遠ざかる。

ｒｔ＝ｆ（ｄｔ，ｄｏ）

上述のフレームワークを使用して、あらゆるタイプのＲＬアルゴリズム（通常のＲＬ変数と、ＤｅｅｐＲＬ変数との両方）を使用して、最適なナビゲーションポリシーを訓練することができる。

一実施形態では、モデルベースの強化アルゴリズムを使用して、ナビゲーションポリシー（π）を訓練することができる。安定的な機械的構造をもち、事前に計画された整備された道路上で動作する特定の自律運転車両（ＡＤ車両）においては、車両と、運動力学とに関して両方を学習することが容易であるため、アクションを実行するための遷移確率を研究することができる。そのような場合、モデルベースの値拡張法（ＭＢＶＥ：Ｍｏｄｅｌ－ＢａｓｅｄＶａｌｕｅＥｘｐａｎｓｉｏｎ）などのモデルベースのＲＬアルゴリズムを使用できる。

事前に計画されていないルートで動作する自律運転車両など、確定性の低い他の一般的なケースでは、現在の戦略に準拠した実装（ｏｎ－ｐｏｌｉｃｙ）と、現在の戦略に関係ない（準拠していない）実装（ｏｆｆ－ｐｏｌｉｃｙ）とをもつモデルフリーＲＬアルゴリズムを使用できる。さらに、アクション値（Ｖπ）予測は、値の反復法とポリシーの反復法の両方で訓練することができる。このようなアルゴリズムの例は、Ｑラーニング、ＰＰＯ、Ａ３Ｃ、および、ＤＤＰＧである。この例は、モデルフリー、現戦略に準拠していない（ｏｆｆ－ｐｏｌｉｃｙ）、値反復によって訓練されたＤｅｅｐＲＬアルゴリズムを使用している。このアルゴリズムは、ＤｅｅｐＱＮｅｔｗｏｒｋｓ（ＤＱＮ）と呼ばれる。

この例のＤＱＮの実装は、完全畳み込みディープニューラルネットワーク（ＦＣ－ＤＮＮ）を使用して、状態Ｓｔを行動空間Ａにマッピングする。ＦＣ－ＤＮＮは、多くのエピソードにわたって訓練することにより、車両の前方Ｋメートル（ｍ）におけるＭ×Ｍ格子内のすべてのセルの正確なＱ値を予測するように訓練されている。Ｑ値は、以前はＶπと呼ばれていた。すべての反復においてＱ値が最も高い格子が目標格子（ｌｔ）であり、副目標点（Ｔｔ’）は事前計算された変換行列を使用して計算される。

ナビゲーションポリシー（π）は、できるだけ近い形で現実をエミュレートする仮想シミュレーションの世界において完全にトレーニングでき、または、シミュレーションと実際のデータとの組み合わせによって完全にトレーニングできる。ＤＱＮで使用されるディープニューラルネットワーク（ＤＮＮ）のアーキテクチャは任意である。単純なＤＮＮ、または、たたみ込みニューラルネットワーク（ＣＮＮ）は、このモデルで使用されるＦＣ－ＤＮＮを置き換えることができる。特定の実施形態では、よりスムーズなナビゲーションを得るために、前のタイムステップの格子選択が現在のタイムステップの入力としてフィードバックされるような、ＦＣＤＮＮ－ＬＳＴＭの組み合わせを使用することができる。別の実施形態では、現在の時間ステップを訓練するためのアクションの代わりに、貴重な状態を実現するＴｅｍｐｏｒａｌＣＮＮ（ｔＣＮＮＮ）を使用することができる。

また、ＤＮＮの入力層と出力層の形状は、状態のサイズ（（Ｎ＊Ｃ）×Ｗ×Ｈと、格子Ｍ×Ｍ）に依存する。この例では、（２＊３）×２２４×２２４を入力形状とし、４１×４１を格子形状とする。

図１２Ａにおいて、ナビゲーションポリシー（π）１７２の入力機能、および、出力機能の一般的な概要１７０が示されている。これらの関数は、図２におけるアクション値配列生成モジュール５０Ｃの一部を形成することができる。これは、ひとつ以上のプロセッサ４０によって実行されて、ひとつ以上のプロセッサ４０に説明されたアクションを実行させる。

前の段落で説明したように、ナビゲーションポリシー（π）１７２は、強化学習を通じて、事前定義されたナビゲーション制約を考慮して、望ましいナビゲーションアクションを提供するように訓練することができる。ナビゲーションポリシー（π）１７２への入力は、入力状態配列（Ｓｔ）１７４である。前に述べたように、入力状態配列（Ｓｔ）１７４は、連結され、変換されたセンサデータから構成されている場合がある。追加的に、または、代替的に、入力状態配列（Ｓｔ）１７４は、この詳細な説明のセクションで前述したポテンシャルフィールド画像を含む場合がある。

ナビゲーションポリシー（π）１７２は、前の段落で説明したように、いくつかの深層学習アルゴリズムを入力状態配列（Ｓｔ）１７４に適用する。出力は、アクション値配列（ｑｔ）１７６の形式である。

図１２Ｂおよび１２Ｃに最もよく示されているように、アクション値配列（ｑｔ）１７６は、車両１８０の前方の２次元平面である場合がある。アクション値配列（ｑｔ）１７６のセルには、対応するセルに向かって車両１８０を運転することで予想される長期的な報酬値が含まれている。アクション値配列（ｑｔ）１７６の値は、車両１８０と車両が到達しようとしている目標との間の距離、および、車両と車両が回避したいひとつ以上の物体との間の距離を表す。

図１２Ｂによく示されるように、ブロック１８１において、図２のひとつ以上のプロセッサ４０は、アクション値配列（ｑｔ）１７６内のどのセルが、より好ましい報酬関数を表すより望ましい値を有するかを決定する。場合によっては、値が高いほど、より好ましい値を示すことがある。他の例では、より低い値はより好ましい値を示している場合がある。

ブロック１８２において、図２のひとつ以上のプロセッサ４０は、車両が移動したいアクション値配列（ｑｔ）１７６のセルを、車両１８０のすぐに前方の途中点である３次元ポイントｔｔ’に変換することができる。そこから、図２のひとつ以上のプロセッサ４０は、３次元ポイントに向けて車両を操縦するように、適切な車両アクチュエータ４４、４６、および／または、４８に、指示することができる。これらのステップ１８１および１８２は、図２の指示モジュール５０Ｄの一部を形成することができ、ひとつ以上のプロセッサ４０によって実行されることによって、ひとつ以上のプロセッサ４０に、説明されたアクションを実行させることができる。

図１３Ａおよび１３Ｂを参照すると、最終目標２０４に到達するために人工知能システムを組み込んだ車両２０２、および、関連する方法２２０の一例が示されている。これらの機能は、図２の目標指向型のナビゲーションシステムモジュール５１の一部を形成することができ、ひとつ以上のプロセッサ４０によって実行することができる。

一般的な概要として、車両２０２は、最終的な目標２０４に到達するために道路２０６を走行することを望んでいる。道路２０６には、他の車両の形態のひとつ以上の物体２０８が存在する。最終的に、車両２０２は、道路２０６上にある物体２０８と衝突することなく、最終目標２０４に到達することを望む。最終目標２０４に到達するために、車両２０２は、車両２０２が最終目標２０４に到達する前に最初に到達しなければならない一連の中間目標２０３Ａ～２０３Ｅに向けられる。

中間目標２０３Ａ～２０３Ｅによって最終目標２０４に到達するための方法論は、方法２２０に示されている。これらの方法２２０は、図２の目標指向型ナビゲーションシステムモジュール５１の一部を形成することができ、ひとつ以上のプロセッサ４０によって実行することができる。

方法２２０は、ブロック２２２で始まる。ステップ２２４において、車両２０２が最終目標２０４に接近したかどうかの判定が行われる。ステップ２２４での決定は、車両２０２のメモリ２２６内の情報を検討することによって行われる。このメモリは、車両２０２の現在の位置に関する情報を格納している。車両２０２の現在位置が最終目標２０４と一致する場合、最終目標に到達しており、方法はステップ２２８に示すように終了する。

しかしながら、最終目標に到達していない場合、方法２２０は、ステップ２３０に示されるように次の目標を計算する。次の目標は、図２で前述した車両ナビゲーションシステム上にある地図データベース２３２を使用することによって計算することができる。ブロック２３３において、方法２２０は、次の中間目標の情報を取得する。そこから、中間目標に到達したかどうかがステップ２３４で決定される。中間目標に到達した場合、方法２２０はステップ２２４に戻り、最終目標に到達したかどうかが判定される。

中間目標に達していない場合、方法２２０は、ステップ２３６に示されるように、ポテンシャルフィールド撮像システムからポテンシャルフィールド画像を受け取ることができる。ステップ２３８において、ナビゲーションシステムは、ステップ２４２に示されるように、どの車両運動制御装置が作動されるべきかを決定するために、撮像センサ２４０、および／または、ステップ２３６からのポテンシャルフィールド画像システムからの情報を利用することができる。ステップ２４４において、アクチュエータシステムは、適切な車両コントローラを作動させることによって、車両を中間目標に向かって移動させる。

次に、方法はステップ２３４に戻り、中間目標に達したかどうかの判定が行われる。到達している場合、方法２２０は次にステップ２２４に進み、最終目標に到達したかどうかの判定が行われる。この例では、最終目標２０４に到達する前に到達すべき５つの中間目標があるため、方法論は、方法２２０のステップ２２４を満たすように最終目標として考慮される中間目標に最後に到達する前に、車両が５つの個別の中間目標に到達したかどうかを判断する必要がある。

この明細書で説明されるシステムのいずれも、別個の集積回路、および／または、チップを用いて様々な構成によって構成できることが理解されるべきである。回路は接続パスを介して接続され、個別の回路間で信号を通信する。もちろん、別個の集積回路が論じられているが、様々な実施形態では、回路は、共通の集積回路基板に統合されてもよい。さらに、集積回路は、より少ない集積回路に組み合わせるか、またはより多くの集積回路に分割することができる。

別の実施形態では、説明された方法、および／または、それらの等価物は、コンピュータ実行可能命令で実装されてもよい。したがって、一実施形態では、非遷移的コンピュータ可読媒体は、格納されたコンピュータ実行可能命令とともに構成されている。格納されたコンピュータ実行可能命令は、機械（例えば、プロセッサ、コンピュータなど）によって実行されると、機械、および／または、関連するコンポーネントに方法を実行させる。

説明を簡単にするために、図に示されている方法論は一連のブロックとして示され説明されているが、いくつかのブロックは異なる順序で実行されることがあり、および／または、図示および説明から他のブロックと同時に実行されることがあり、方法論はブロックの順序によって制限されないことが理解されるべきである。さらに、例示されたブロックのすべてが、例示的な方法論を実装するために使用されてもよい。ブロックは、複数のコンポーネントに結合、または、分離されることがある。さらに、追加の、および／または、代替の方法論は、図示されていない追加のブロックを使用することができる。

この明細書では詳細な実施形態が開示されている。しかしながら、開示された実施形態は、例としてのみ意図されていることが理解されるべきである。したがって、この明細書に開示される特定の構造的および機能的詳細は、限定事項として解釈されるべきではなく、単に請求項の基礎として、および、実質的に任意の適切な詳細な構造でこの明細書の態様をさまざまに使用することを当業者に教示するための代表的な基礎としてのみ解釈されるべきである。さらに、この明細書で使用される用語および語句は、限定することを意図するものではなく、可能な実装の理解可能な説明を提供することを意図している。

図中のフローチャート、および、ブロック図は、様々な実施形態による、システム、方法、および、コンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および、動作を示している。これに関して、フローチャート、または、ブロック図の各ブロックは、指定された論理機能を実装するためのひとつ以上の実行可能な命令を含むコードのモジュール、セグメント、または、部分を表すことができる。また、一部の代替実装では、ブロックに記載されている機能が、図に記載されている順序とは異なる順序で発生する場合があることにも注意されるべきである。例えば、連続して示されたふたつのブロックは、実際には実質的に同時実行されてもよいし、関係する機能に応じて、ブロックが逆の順序で実行されることもある。

上記のシステム、コンポーネント、および／または、プロセスは、ハードウェア、または、ハードウェアとソフトウェアの組み合わせで実現でき、ひとつの処理システムで集中方式によって、または、複数の相互接続された処理システムに異なる要素が分散している分散方式によって実現することができる。この明細書に記載の方法を実行するように適合されたあらゆる種類の処理システム、または、別の装置が適している。ハードウェアとソフトウェアの組み合わせは、コンピュータで使用可能なプログラムコードを備えた処理システムであり、読み込まれて実行されると、ここで説明する方法を実行するように処理システムを制御する。システム、コンポーネント、および／または、処理は、例えば、機械によって読み取り可能であって、ここに記述された処理、および、方法を実行するために機械によって実行可能な指令のプログラムに実体的に実装された、コンピュータプログラム製品の記憶装置、または、他のデータプログラムの記憶装置として、コンピュータによって読み取り可能な記憶装置に埋め込むことができる。これらの要素は、この明細書に記載の方法の実施を可能にし、処理システムにロードされたときにこれらの方法を実行できるすべての機能を含むアプリケーション製品に組み込むこともできる。

さらに、この明細書で説明された構成は、たとえば記憶された、たとえば格納されたコンピュータ読み取り可能プログラムコードを有するひとつ以上のコンピュータ読み取り可能媒体で実施されるコンピュータプログラム製品の形をとることができる。ひとつ以上のコンピュータ読み取り可能媒体の任意の組み合わせを利用することができる。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能な信号媒体、または、コンピュータ読み取り可能な格納媒体である場合がある。コンピュータ読み取り可能な媒体という語句は、非遷移的な記憶媒体を意味する。コンピュータ読み取り可能な媒体は、不揮発性媒体、および、揮発性媒体を含むが、これらに限定されない形態をとることができる。不揮発性媒体は、例えば、光ディスク、磁気ディスクなどを含み得る。揮発性媒体は、例えば、半導体メモリ、動的メモリなどを含み得る。そのようなコンピュータ読み取り可能な媒体の限定的ではない例には、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、および、その他の磁気媒体、または、ＡＳＩＣ、または、グラフィックスプロセッシングユニット（ＧＰＵ）、または、ＣＤ、および、その他の光学媒体、または、ＲＡＭ、または、ＲＯＭ、または、メモリチップ、または、メモリカード、または、メモリスティック、または、他の媒体を含むことができ、これらは、コンピュータ、プロセッサ、または、他の電子デバイスが読み取り可能である。この文書の文脈において、コンピュータ読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって、または、それに関連して使用するためのプログラムを含むか、または、記憶することができる任意の有形の媒体であり得る。

以下の説明は、この明細書で使用される選択された用語の定義を含んでいる。定義には、用語の範囲に含まれ、さまざまな実装に使用できるコンポーネントのさまざまな例や形式が含まれている。例は、制限することを意図したものではない。用語の単数形と複数形の両方が定義内にある場合がある。

「ひとつの実施形態」、「一実施形態」、「ひとつの例」、「一例」などへの言及は、そのように説明された実施形態、または、例が、特定の特徴、構造、特性、内部特性、要素、または、制限を含み得ることを示すが、それらの実施形態、または、例が、必須のものとして、特定の特徴、構造、特性、内部特性、要素、または、制限を含むことを示すものではない。さらに、「一実施形態では」という語句の繰り返しの使用は、同じ実施形態を指す場合があるが、必ずしもそうであるとは限らない。

この明細書で使用される「モジュール」は、コンピュータ、または、電気ハードウェアコンポーネント、ファームウェア、命令を格納する非遷移的なコンピュータ可読媒体、および／または、これらのコンポーネントの組み合わせを含み、これらは、機能、または、アクションを実行するか、および／または、別のロジック、方法、および／または、システムに、機能、または、アクションを発揮させるように構成されている。モジュールは、アルゴリズムによって制御されるマイクロプロセッサ、多数の電気素子を含む論理回路（例えば、ＡＳＩＣ）、アナログ回路、デジタル回路、プログラムされた論理デバイス、実行時にアルゴリズムを実行する命令を含むメモリデバイスなどを含むことができる。モジュールは、ひとつ以上の実施形態では、ひとつ以上のＣＭＯＳゲート、ゲートの組み合わせ、または他の回路構成要素を含む。複数のモジュールが説明される場合、ひとつ以上の実施形態は、複数のモジュールをひとつの物理モジュール構成要素に組み込むことを含む。同様に、単一のモジュールが説明される場合、ひとつ以上の実施形態は、複数の物理的構成要素に、単一のモジュールを分配することを含む。

さらに、この明細書で使用されるモジュールには、タスクを実行したりデータ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。さらなる態様では、メモリは一般に、言及されたモジュールを格納する。モジュールに関連付けられたメモリは、プロセッサ、ＲＡＭ、ＲＯＭ、フラッシュメモリ、または、別の適切な電子記憶媒体内に埋め込まれたバッファ、または、キャッシュである場合がある。さらに別の態様では、この開示によって想定されるモジュールは、特定用途向け集積回路（ＡＳＩＣ）、システムオンチップ（ＳｏＣ）のハードウェアコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、グラフィックス処理装置（ＧＰＵ）、または開示された機能を実行するための定義された構成セット（例えば、命令）が組み込まれた別の適切なハードウェアコンポーネントとして実装される。

ひとつ以上の構成では、この明細書で説明されるひとつ以上のモジュールは、人工知能要素、または、計算知能要素、例えば、ニューラルネットワーク、ファジーロジック、または、他の機械学習アルゴリズムを含むことができる。さらに、ひとつ以上の構成では、ひとつ以上のモジュールを、この明細書で説明する複数のモジュール間で分散させることができる。ひとつ以上の構成では、この明細書で説明されているふたつ以上のモジュールを組み合わせて単一のモジュールにすることができる。

コンピュータ読み取り可能な媒体上で実施されるプログラムコードは、無線、有線、光ファイバ、ケーブル、ＲＦなど、または、前述要素の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体を使用して送信することができる。この構成の態様の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および、Ｃプログラミング言語、同様のプログラミング言語などを含む従来の手続き型プログラミング言語を含むひとつ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、完全にユーザのコンピュータにおいて、一部はユーザのコンピュータにおいて、スタンドアロンソフトウェアパッケージとして、一部はユーザのコンピュータにおいて、残る一部はリモートコンピュータにおいて、または、完全にリモートコンピュータ、または、サーバーで実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は、外部コンピュータ（例えば、インターネットサービスプロバイダを使用してインターネットを介して）に接続されてもよい。

この明細書で使用される要素の数は、ひとつ、または、ふたつ以上として定義される。この明細書で使用される「複数」という用語は、ふたつ、または、ふたつ以上として定義される。この明細書で使用される「別の」という用語は、少なくとも第２、または、それ以上として定義される。この明細書で使用される「含む」、および／または、「有する」という用語は、「備える」を意味し、すなわち、他の要素の存在を許容する用語として定義される。「・・・と・・・との少なくともひとつ」という表現は、関連付けて列挙された項目のひとつ、または、複数のありとあらゆる可能な組み合わせを指し、それらを包含するものとして解釈されるべきである。一例として、「Ａ、Ｂ、および、Ｃのうちの少なくともひとつ」という語句は、Ａのみ、Ｂのみ、Ｃのみ、またはそれらの任意の組み合わせ（例えば、ＡＢ、ＡＣ、ＢＣ、または、ＡＢＣ）を含む。

この明細書の態様は、その精神、または、本質的な属性から逸脱することなく、他の形態で具体化することができる。したがって、この明細書の範囲を示すために、前述の明細書ではなく、以下の特許請求の範囲を参照する必要がある。

この明細書には、上記実施形態によって、以下に列挙する複数の技術的思想が開示されていることが当業者に理解される。＜技術的思想１＞ひとつ以上のプロセッサと、ひとつ以上の前記プロセッサと通信するメモリとを備えており、前記メモリは、入力状態配列生成モジュールと、アクション値配列生成モジュールと、指示モジュールとを格納しており、前記入力状態配列生成モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、（１）タイムスタンプをもつセンサデータであって、車両のひとつ以上のセンサから前記センサデータを受け取り、（２）前記センサデータの前記タイムスタンプの間における比較に基づいて前記センサデータを同期化することにより、前記センサデータを同期化させて同期化された前記センサデータを生成し、（３）前記センサデータを共通のデータ形式をもつ変換された前記センサデータに変換することにより、同期化された前記センサデータを前処理し、および、（４）入力状態配列であるＫ次元配列であって、前記Ｋ次元配列に、変換された前記センサデータを連結するように機能させ、前記アクション値配列生成モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、複数のセルを含むアクション値配列を推定するために、ナビゲーションポリシーを前記入力状態配列に適用するように機能させ、前記ナビゲーションポリシーは、所望のナビゲーションアクションを提供するために事前に定義されたナビゲーション制約を考慮するように強化学習によって訓練されており、前記アクション値配列は車両の前方の平面を表す配列であって、前記アクション値配列の複数の前記セルは、対応する前記セルに向かって前記車両を運転することによる長期的な報酬の期待値を含み、前記アクション値配列の複数の前記セルの値は、前記車両と前記車両が到達しようとしている目標との間の距離と、前記車両と前記車両が回避しようとするひとつ以上の物体との距離とを表しているものであり、前記指示モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、最高の報酬値を有する前記アクション値配列内のセルを表す場所に前記車両を誘導するように車両制御システムに指示するように機能させる自律運転車両。

＜技術的思想２＞前記アクション値配列は、ディープニューラルネットワークを使用して推定されている技術的思想１に記載の自律運転車両。＜技術的思想３＞前記目標は、最終目標と、ひとつ以上の中間目標とを含み、前記中間目標は前記最終目標と前記車両の間に配置されている技術的思想１に記載の自律運転車両。＜技術的思想４＞ひとつ以上の前記センサは、単眼カメラ、ステレオカメラ、レーダーシステム、超音波レーダーシステム、および、ＬｉＤＡＲシステムのうちの少なくともひとつを含む技術的思想１に記載の自律運転車両。

＜技術的思想５＞ひとつ以上の前記プロセッサと通信する前記メモリは、人工知能ポテンシャルフィールド撮像モジュールと、入力状態配列生成モジュールとを格納しており、前記人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上の前記プロセッサにより実行されるとき、ひとつ以上の前記プロセッサに、（１）現在の位置を表す起点値と目標位置を表す到達点値とを受け取り、（２）現在位置周辺の複数のセルを有するＮ次元空間を離散化し、（３）目標位置からの現在位置の近接度の関数として、複数の前記セルにおける前記セルのポテンシャル値を計算し、および、（４）タイムスタンプを与えられているＮ次元ポテンシャルフィールド配列であって、Ｎ次元空間から対応するセルの前記ポテンシャル値に基づいているＮ次元ポテンシャルフィールド配列の前記セルの値であるＮ次元ポテンシャルフィールド配列を計算するように機能させ、前記入力状態配列生成モジュールは、ひとつ以上の前記プロセッサにより実行されるとき、ひとつ以上の前記プロセッサに、（１）前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とは、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列との間のタイムスタンプの比較に基づいて同期化することにより、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化させ、（２）前記センサデータと前記Ｎ次元ポテンシャルフィールド配列を共通のデータ形式に変換することにより、同期化された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列を前処理し、（３）入力状態配列であるＫ次元配列であって、前記Ｋ次元配列に、変換された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを連結するように機能させる技術的思想１に記載の自律運転車両。

＜技術的思想６＞前記起点値、および、前記到達点値が全地球航法衛星システムからの座標として表されている技術的思想５に記載の自律運転車両。＜技術的思想７＞前記起点値は車両の現在の車両位置を表し、前記到達点値は前記車両の意図された車両到達位置を表している技術的思想５に記載の自律運転車両。

＜技術的思想８＞タイムスタンプを有するセンサデータであって、自律運転車両のひとつ以上のセンサから前記センサデータを受信し、前記センサデータの前記タイムスタンプ間の比較に基づいて前記センサデータを同期化することによって、前記センサデータを同期化し、前記センサデータを共通のデータフォーマットを有する変換された前記センサデータに変換することにより、同期化された前記センサデータを前処理し、入力状態配列であるＫ次元配列であって、変換された前記センサデータを前記Ｋ次元配列に連結し、望ましいナビゲーションアクションを提供するために事前定義されたナビゲーション制約を考慮する強化学習を通じて訓練されたナビゲーションポリシーであって、前記ナビゲーションポリシーを前記入力状態配列に適用することにより複数のセルを含むアクション値配列を推定し、前記アクション値配列は、車両の前方の平面を表す配列であって、前記アクション値配列の複数の前記セルは、対応するセルに向かって車両を運転することによる長期的な報酬の期待値を含み、前記アクション値配列の複数の前記セルの値は、車両と車両が到達しようとする目標との間の距離、および、車両と車両が回避しようとするひとつ以上の物体との間の距離を表すものであり、最高の報酬値を持つアクション値配列の前記セルを表す場所に自律運転車両を誘導するように車両制御システムに指示する自律運転車両の操作方法。

＜技術的思想９＞ディープニューラルネットワークを使用して前記アクション値配列を推定するステップをさらに含む技術的思想８に記載の自律運転車両の操作方法。＜技術的思想１０＞前記目標は、最終目標と、ひとつ以上の中間目標とを含み、前記中間目標は前記最終目標と前記車両の間に配置されている技術的思想８に記載の自律運転車両の操作方法。＜技術的思想１１＞ひとつ以上の前記センサは、単眼カメラ、ステレオカメラ、レーダーシステム、超音波レーダーシステム、および、ＬｉＤＡＲシステムのうちの少なくともひとつを含む技術的思想８に記載の自律運転車両の操作方法。

＜技術的思想１２＞現在位置を表す起点値と目標位置を表す到達点値とを受け取り、現在位置の周りに複数のセルを有するＮ次元空間を離散化し、複数の前記セルにおけるそれぞれの前記セルのポテンシャル値を、前記目標位置からの前記現在位置の近接度の関数として計算し、タイムスタンプから提供されるＮ次元ポテンシャルフィールド配列であって、前記Ｎ次元ポテンシャルフィールド配列のセルの値は、前記Ｎ次元空間からの対応するセルのポテンシャル値に基づいている、前記Ｎ次元ポテンシャルフィールド配列を計算し、センサデータと前記Ｎ次元ポテンシャルフィールド配列のタイムスタンプ間の比較に基づいて、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化することにより、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化させ、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを共通のデータ形式に変換することにより、同期化された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを前処理し、Ｋ次元配列は入力状態配列であって、前記Ｋ次元配列に、変換された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを連結する技術的思想８に記載の自律運転車両の操作方法。＜技術的思想１３＞前記起点値、および、前記到達点値が全地球航法衛星システムからの座標として表されている技術的思想１２に記載の自律運転車両の操作方法。＜技術的思想１４＞前記起点値は車両の現在の車両位置を表し、前記到達点値は前記車両の意図された車両到達位置を表している技術的思想１２に記載の自律運転車両の操作方法。

＜技術的思想１５＞ひとつ以上のプロセッサと、ひとつ以上の前記プロセッサと通信し、人工知能ポテンシャルフィールド撮像モジュールを格納しているメモリとを備え、前記人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上の前記プロセッサにより実行されるとき、ひとつ以上の前記プロセッサに、（１）現在位置を表す起点値と目標位置を表す到達点値とを受け取り、（２）現在位置周辺の複数のセルを有するＮ次元ポテンシャルフィールド配列を離散化し、（３）目標位置からの現在位置の近接度の関数として、前記Ｎ次元ポテンシャルフィールド配列の複数のセルにおけるセルのポテンシャル値を計算し、および、（４）Ｎ次元ポテンシャルフィールド配列の前記セルに対応するピクセルを有するＮ次元ポテンシャルフィールド画像であって、前記Ｎ次元ポテンシャルフィールド配列に基づいて、前記Ｎ次元ポテンシャルフィールド画像を生成するように機能させる目標指向型の人工知能システム。＜技術的思想１６＞前記人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、前記Ｎ次元ポテンシャルフィールド配列と参照テーブルとに基づいている色強度値であって、前記Ｎ次元ポテンシャルフィールド画像の前記ピクセルに前記色強度値を割り当てるように機能させる技術的思想１５に記載の目標指向型の人工知能システム。＜技術的思想１７＞前記起点値は車両の現在の車両位置を表し、前記到達点値は前記車両の意図された車両到達位置を表している技術的思想１５に記載の目標指向型の人工知能システム。

＜技術的思想１８＞前記人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、前記目標位置に関する複数の前記セルにおける、行インデックス番号ｉおよび列インデックス番号ｊによって表される前記セルの数値を計算するように機能させ、現在の位置の周りのＫ×Ｋ（ｍ２）の領域を、軸に沿って同じ数の前記セル（Ｍ）の格子に分割し、ひとつのセルの寸法をｋ×ｋ（ｍ２）、ｋ＝Ｋ／Ｍとして、現在の位置と複数の前記セルとの距離（ｄＥＬｉｊ）は、上記（１）式により表わされ、ここで、座標に基づく目標位置と現在位置の間の距離ｄＴＥ、セルと目標位置との間の目標位置ｄＴＬｉｊに関する複数のセルにおけるセルの数値は上記（２）式により表わされ、ここで、θは、現在位置と目標位置とを結ぶ線と、現在位置と対象のセルとを結ぶ線とがなす角である技術的思想１５に記載の目標指向型の人工知能システム。＜技術的思想１９＞複数の前記セルにおける前記セルの前記ポテンシャル値は、上記（３）式により表され、ここで、σは事前定義された標準偏差値である技術的思想１８に記載の目標指向型の人工知能システム。＜技術的思想２０＞前記起点値、および、前記到達点値が全地球航法衛星システムからの座標として表されている技術的思想１５に記載の目標指向型の人工知能システム。

Claims

ひとつ以上のプロセッサと、
ひとつ以上の前記プロセッサと通信するメモリとを備えており、
前記メモリは、入力状態配列生成モジュールと、アクション値配列生成モジュールと、指示モジュールとを格納しており、
前記入力状態配列生成モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、（１）タイムスタンプをもつセンサデータであって、車両のひとつ以上のセンサから前記センサデータを受け取り、（２）前記センサデータの前記タイムスタンプの間における比較に基づいて前記センサデータを同期化することにより、前記センサデータを同期化させて同期化された前記センサデータを生成し、（３）前記センサデータを共通のデータ形式をもつ変換された前記センサデータに変換することにより、同期化された前記センサデータを前処理し、および、（４）入力状態配列であるＫ次元配列であって、前記Ｋ次元配列に、変換された前記センサデータを連結するように機能させ、
前記アクション値配列生成モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、複数のセルを含むアクション値配列を推定するために、ナビゲーションポリシーを前記入力状態配列に適用するように機能させ、前記ナビゲーションポリシーは、所望のナビゲーションアクションを提供するために事前に定義されたナビゲーション制約を考慮するように強化学習によって訓練されており、前記アクション値配列は車両の前方の平面を表す配列であって、前記アクション値配列の複数の前記セルは、対応する前記セルに向かって前記車両を運転することによる長期的な報酬の期待値を含み、前記アクション値配列の複数の前記セルの値は、前記車両と前記車両が到達しようとしている目標との間の距離と、前記車両と前記車両が回避しようとするひとつ以上の物体との距離とを表しているものであり、
前記指示モジュールは、ひとつ以上の前記プロセッサによって実行されるとき、ひとつ以上の前記プロセッサに、最高の報酬値を有する前記アクション値配列内のセルを表す場所に前記車両を誘導するように車両制御システムに指示するように機能させるものであり、
ひとつ以上の前記プロセッサと通信する前記メモリは、人工知能ポテンシャルフィールド撮像モジュールと、入力状態配列生成モジュールとを格納しており、
前記人工知能ポテンシャルフィールド撮像モジュールは、ひとつ以上の前記プロセッサにより実行されるとき、ひとつ以上の前記プロセッサに、（１）現在の位置を表す起点値と目標位置を表す到達点値とを受け取り、（２）現在位置周辺の複数のセルを有するＮ次元空間を離散化し、（３）目標位置からの現在位置の近接度の関数として、複数の前記セルにおける前記セルのポテンシャル値を計算し、および、（４）タイムスタンプを与えられているＮ次元ポテンシャルフィールド配列であって、Ｎ次元空間から対応するセルの前記ポテンシャル値に基づいているＮ次元ポテンシャルフィールド配列の前記セルの値であるＮ次元ポテンシャルフィールド配列を計算するように機能させ、
前記入力状態配列生成モジュールは、ひとつ以上の前記プロセッサにより実行されるとき、ひとつ以上の前記プロセッサに、（１）前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とは、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列との間のタイムスタンプの比較に基づいて同期化することにより、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化させ、（２）前記センサデータと前記Ｎ次元ポテンシャルフィールド配列を共通のデータ形式に変換することにより、同期化された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列を前処理し、（３）入力状態配列であるＫ次元配列であって、前記Ｋ次元配列に、変換された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを連結するように機能させる自律運転車両。
前記起点値、および、前記到達点値が全地球航法衛星システムからの座標として表されている請求項１に記載の自律運転車両。
前記起点値は車両の現在の車両位置を表し、前記到達点値は前記車両の意図された車両到達位置を表している請求項１に記載の自律運転車両。
前記アクション値配列は、ディープニューラルネットワークを使用して推定されている請求項１から請求項３のいずれかひとつに記載の自律運転車両。
前記目標は、最終目標と、ひとつ以上の中間目標とを含み、前記中間目標は前記最終目標と前記車両の間に配置されている請求項１から請求項４のいずれかひとつに記載の自律運転車両。
ひとつ以上の前記センサは、単眼カメラ、ステレオカメラ、レーダーシステム、超音波レーダーシステム、および、ＬｉＤＡＲシステムのうちの少なくともひとつを含む請求項１から請求項５のいずれかひとつに記載の自律運転車両。
タイムスタンプを有するセンサデータであって、自律運転車両のひとつ以上のセンサから前記センサデータを受信し、
前記センサデータの前記タイムスタンプ間の比較に基づいて前記センサデータを同期化することによって、前記センサデータを同期化し、
前記センサデータを共通のデータフォーマットを有する変換された前記センサデータに変換することにより、同期化された前記センサデータを前処理し、
入力状態配列であるＫ次元配列であって、変換された前記センサデータを前記Ｋ次元配列に連結し、
望ましいナビゲーションアクションを提供するために事前定義されたナビゲーション制約を考慮する強化学習を通じて訓練されたナビゲーションポリシーであって、前記ナビゲーションポリシーを前記入力状態配列に適用することにより複数のセルを含むアクション値配列を推定し、
前記アクション値配列は、車両の前方の平面を表す配列であって、前記アクション値配列の複数の前記セルは、対応するセルに向かって車両を運転することによる長期的な報酬の期待値を含み、前記アクション値配列の複数の前記セルの値は、車両と車両が到達しようとする目標との間の距離、および、車両と車両が回避しようとするひとつ以上の物体との間の距離を表すものであり、
最高の報酬値を持つアクション値配列の前記セルを表す場所に自律運転車両を誘導するように車両制御システムに指示するものであり、
現在位置を表す起点値と目標位置を表す到達点値とを受け取り、
現在位置の周りに複数のセルを有するＮ次元空間を離散化し、
複数の前記セルにおけるそれぞれの前記セルのポテンシャル値を、前記目標位置からの前記現在位置の近接度の関数として計算し、
タイムスタンプから提供されるＮ次元ポテンシャルフィールド配列であって、前記Ｎ次元ポテンシャルフィールド配列のセルの値は、前記Ｎ次元空間からの対応するセルのポテンシャル値に基づいている、前記Ｎ次元ポテンシャルフィールド配列を計算し、
センサデータと前記Ｎ次元ポテンシャルフィールド配列のタイムスタンプ間の比較に基づいて、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化することにより、前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを同期化させ、
前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを共通のデータ形式に変換することにより、同期化された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを前処理し、
Ｋ次元配列は入力状態配列であって、前記Ｋ次元配列に、変換された前記センサデータと前記Ｎ次元ポテンシャルフィールド配列とを連結する自律運転車両の操作方法。
前記起点値、および、前記到達点値が全地球航法衛星システムからの座標として表されている請求項７に記載の自律運転車両の操作方法。
前記起点値は車両の現在の車両位置を表し、前記到達点値は前記車両の意図された車両到達位置を表している請求項７に記載の自律運転車両の操作方法。
ディープニューラルネットワークを使用して前記アクション値配列を推定するステップをさらに含む請求項７から請求項９のいずれかひとつに記載の自律運転車両の操作方法。
前記目標は、最終目標と、ひとつ以上の中間目標とを含み、前記中間目標は前記最終目標と前記車両の間に配置されている請求項７から請求項１０のいずれかひとつに記載の自律運転車両の操作方法。
ひとつ以上の前記センサは、単眼カメラ、ステレオカメラ、レーダーシステム、超音波レーダーシステム、および、ＬｉＤＡＲシステムのうちの少なくともひとつを含む請求項７から請求項１１のいずれかひとつに記載の自律運転車両の操作方法。