JP7105305B2

JP7105305B2 - 多段画像ベースの物体検出および認識

Info

Publication number: JP7105305B2
Application number: JP2020530478A
Authority: JP
Inventors: カルロスヴァレスピ－ゴンザレス，; ジョセフローレンスアマト，; ジョージジュニアトトロス，
Original assignee: ユーエーティーシー，エルエルシー
Priority date: 2017-12-05
Filing date: 2018-12-04
Publication date: 2022-07-22
Anticipated expiration: 2038-12-04
Also published as: US10762396B2; EP3704627A1; US20200394474A1; US11922708B2; JP2021506000A; WO2019113063A1; US20230004762A1; US11443148B2; US20190171912A1

Description

（関連出願）
本願は、両方とも参照することによって本明細書に組み込まれる、２０１７年１２月５日の出願日を有する米国仮特許出願第６２／５９４，６３１号、および２０１８年５月７日の出願日を有する米国非仮特許出願第１５／９７２，５６６号に基づき、その利益を主張する。

本開示は、概して、多段分類を使用する、物体の１つ以上の特性の検出および認識を含む、自律走行車両の動作に関する。

自律走行車両を含む車両は、環境内の物体の状態を含む車両の周囲の環境の状態に基づいて、データを受信することができる。本データは、環境を通したこれらの物体の移動に関連する種々の機能を果たすために、自律走行車両によって使用されることができる。さらに、車両が環境を通して進行すると、環境内の物体のセットおよびこれらの物体の状態もまた、変化し得る。したがって、環境内の自律走行車両の安全な動作は、環境の状態の正確な決定に依拠する。故に、環境内の物体の状態をより効果的に決定する、コンピューティングシステムの必要性が存在している。

本開示の実施形態の側面および利点は、以下の説明で部分的に記載されるであろう、または説明から学習され得る、または実施形態の実践を通して学習され得る。

本開示の例示的側面は、自律走行車両動作のコンピュータ実装方法を対象とする。自律走行車両動作のコンピュータ実装方法は、１つ以上のコンピューティングデバイスを備える、コンピューティングシステムによって、センサデータの１つ以上の部分を含む、物体データを受信することを含むことができる。本方法は、コンピューティングシステムによって、１つ以上のハードウェアコンポーネントを使用する多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することを含むことができる。さらに、本方法は、コンピューティングシステムによって、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することを含むことができる。本方法は、コンピューティングシステムによって、１つ以上の第１段階特性および１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することを含むことができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを含むことができる。

本開示の別の例示的側面は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作を実施させる、コンピュータ可読命令を記憶する、１つ以上の有形の非一過性コンピュータ可読媒体を対象とする。動作は、センサデータの１つ以上の部分を含む、物体データを受信することを含むことができる。動作は、１つ以上のハードウェアコンポーネントを使用する多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することを含むことができる。さらに、動作は、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することを含むことができる。動作は、１つ以上の第１段階特性および１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することを含むことができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを含むことができる。

本開示の別の例示的側面は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作を実施させる命令を記憶する、１つ以上の有形の非一過性コンピュータ可読媒体とを備える、自律走行車両を対象とする。動作は、センサデータの１つ以上の部分を含む、物体データを受信することを含むことができる。動作は、１つ以上のハードウェアコンポーネントを使用する多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することを含むことができる。さらに、動作は、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することを含むことができる。動作は、１つ以上の第１段階特性および１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することを含むことができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを含むことができる。

本開示の他の例示的側面は、多段分類を使用する、物体の１つ以上の特性の検出および認識を含む、自律走行車両動作のための他のシステム、方法、車両、装置、有形の非一過性コンピュータ可読媒体、およびデバイスを対象とする。

種々の実施形態のこれらおよび他の特徴、側面、および利点は、以下の説明および添付の請求項を参照して、さらに理解されるであろう。本明細書に組み込まれ、その一部を構成する、付随する図面は、本開示の実施形態を図示し、説明とともに、関連原理を解説する役割を果たす。

当業者を対象とする実施形態の詳細な議論が、添付図を参照する、本明細書に記載される。

図１は、本開示の例示的実施形態による、例示的システムの略図を描写する。

図２は、本開示の例示的実施形態による、例示的多段分類システムの略図を描写する。

図３は、本開示の例示的実施形態による、多段分類子を使用するオーバーヘッドビューからの物体検出の実施例を描写する。

図４は、本開示の例示的実施形態による、多段分類子による物体検出および決定木の使用の実施例を描写する。

図５は、本開示の例示的実施形態による、多段分類子による物体検出および決定木の使用の第２の実施例を描写する。

図６は、本開示の例示的実施形態による、物体検出および認識の例示的方法のフロー図を描写する。

図７は、本開示の例示的実施形態による、物体検出および認識の例示的方法の第２のフロー図を描写する。

図８は、本開示の例示的実施形態による、物体検出および認識の例示的方法の第３のフロー図を描写する。

図９は、本開示の例示的実施形態による、例示的システムの第２の略図を描写する。

本開示の例示的側面は、車両技術（例えば、自律走行車両、手動動作型車両、および／または半自律走行車両）に適用され得る多段分類を使用する、画像分類または物体検出（例えば、１つ以上の画像内に表される物体を検出、識別、および／または認識すること）を対象とする。特に、本開示の側面は、１つ以上の画像と関連付けられる物体データ（例えば、１つ以上のカメラによって捕捉される画像に基づく物体データ）を受信することと、多段分類の第１の段階で、第１の機械学習モデルを使用して、物体データの１つ以上の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルを使用して、物体データの１つ以上の第２の段階特性を決定することと、１つ以上の画像内の１つ以上の物体の検出と関連付けられるインジケーションを生成することとを含む。

一例として、開示される技術は、環境（例えば、車両および歩行者を伴う都市街路）の画像を含み得る、センサデータに部分的に基づく物体データを受信することができる。画像は、１つ以上の光検出および測距デバイス（ライダ）を含む、１つ以上のセンサからの出力に部分的に基づくことができる。物体データは、第１の機械学習モデル（例えば、第１の決定木モデルまたは第１のニューラルネットワークモデル）を使用し、背景である１つ以上の画像の部分（例えば、着目物体を含む可能性が低い、１つ以上の画像の部分）と、前景である１つ以上の画像の部分（例えば、着目物体を含む可能性が高い、１つ以上の画像の部分）とを含む、１つ以上の第１段階特性を決定する、多段分類プロセスの第１の段階で処理されることができる。例えば、第１の機械学習モデルは、１つ以上のプログラマブル論理デバイス（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイスまたは特定用途向け集積回路（ＡＳＩＣ）デバイス）を含む、ハードウェアシステム内に記憶され、それによって実装されることができる。

多段分類プロセスの第２の段階では、開示される技術は、第２の機械学習モデル（例えば、第２の決定木モデルまたは第２のニューラルネットワークモデル）を使用し、さらなる信頼のレベルで、物体（例えば、車両および／または歩行者）の識別および場所を含む、１つ以上の第２段階特性を決定することができる。いくつかの実装では、第２の機械学習モデルは、１つ以上の処理ユニット、プロセッサコア、マイクロプロセッサ、および／または中央処理ユニット（ＣＰＵ）を含む、ソフトウェアシステム内に記憶され、それによって実装されることができる。開示される技術は、次いで、物体を検出および／または追跡すること、検出された物体の検出に基づいて車両システムをアクティブ化すること（例えば、車両通知システム）、および／または車両の経路を修正し、検出された物体を回避すること（例えば、車両運動計画および／または自律システム）を含む、アクションを実施するために、例えば、自律走行車両によって、種々の方法で使用され得る、１つ以上のインジケーションを生成することができる。

したがって、開示される技術は、センサデータの１つ以上の部分の中の１つ以上の物体をより効果的に（例えば、より迅速かつ正確に）検出および／または識別することができる。特に、開示される技術は、プロセスの第１の段階で特別に構成されるハードウェア、およびプロセスの第２の段階で特別に適合されたソフトウェアを使用する、よりソフトウェア駆動型のアプローチを使用することを含む、分類プロセスの異なる段階において、異なるタイプのハードウェアの能力を活用することによって、優れた結果を達成することができる。

開示される技術は、１つ以上の物体を検出または識別し得る、物体検出システム（例えば、１つ以上のプロセッサおよびメモリを伴う１つ以上のコンピューティングデバイスを含む、コンピューティングシステム）、および／または種々の車両システムを制御し、物体検出システムと通信し得る、車両コンピューティングシステムを含むことができる。物体検出システムは、車両コンピューティングシステム、車両システム（例えば、車両エンジン、車両モータ、車両電気システム、および／または車両通知システム）、および／または遠隔コンピューティングシステム（例えば、遠隔場所におけるコンピューティングデバイス）を含む、種々のコンピューティングシステムと交信される信号またはデータを含む、信号またはデータを処理、生成、または交信する（例えば、送信または受信する）ことができる。

例えば、物体検出システムは、センサシステム（例えば、ライダ、カメラ、マイクロホン、レーダ、またはソナーを含む、センサの範囲内の物理的環境の状態に基づいて出力を生成するセンサ）、通信システム（例えば、信号またはデータを他のデバイスと交信し得る、有線または無線通信システム）、ナビゲーションシステム（例えば、車両の地理的場所を決定するために使用されるＧＰＳ、ＧＬＯＮＡＳＳ、または他のシステムから信号を受信し得るデバイス）、通知システム（例えば、電子通信デバイス、ディスプレイデバイス、ステータスインジケータライト、および／またはオーディオ出力システムを含む、通知を歩行者、自転車乗車者、および車両に提供するために使用されるデバイス）、制動システム（例えば、機械および／または電気ブレーキを含む、車両のブレーキ）、推進システム（例えば、電気エンジンまたは内燃エンジンを含む、モータまたはエンジン）、および／または車両の経路、進路、または進行方向を変更するために使用される操向システムを含む、車両コンポーネントまたは車両コンピューティングシステムと、信号（例えば、電子信号）またはデータを交信することができる。

物体検出システムは、センサデータ（例えば、１つ以上のライダデバイス、１つ以上のカメラ、１つ以上のレーダデバイス、１つ以上のソナーデバイス、および／または１つ以上の熱画像デバイスを含む、１つ以上のセンサから出力されるデータ）の１つ以上の部分と関連付けられる物体データを受信することができる。例えば、センサデータは、１つ以上のカメラによって捕捉される画像を含む２次元画像および／またはライダデバイスによって捕捉される３次元点群を含むことができる。センサデータの１つ以上の部分は、１人以上の歩行者（例えば、横になっている、座っている、しゃがんでいる、立っている、歩いている、または走っている、１人以上の個人）、１つ以上の他の車両（例えば、自動車、トラック、バス、トロリー、バイク、原動機付き自転車、航空機、ボート、水陸両用車両、および／または列車）、１人以上の自転車乗車者（例えば、自転車に座っている、および／または乗っている個人）、および／または１つ以上の建物（例えば、家および／またはアパートの建物）を含む、１つ以上の物体を検出するように分析されることができる。さらに、物体データは、１つ以上の画像内の１つ以上の物体の１つ以上の物理的寸法（例えば、長さ、幅、および／または高さ）と関連付けられる、３次元点のセット（例えば、ｘ、ｙ、およびｚ座標）を含むことができる。センサデータおよび／または関連付けられる物体データの部分は、形状、テクスチャ、明度、飽和、および／または物理的寸法（例えば、長さ、幅、および／または高さ）を含む、１つ以上の物体の物理的性質または特性（例えば、視覚性質または特性）を決定するために、使用されることができる。

いくつかの実施形態では、物体データを含む他のデータと関連付けられ得る、センサデータの１つ以上の部分は、１つ以上のライダデバイス、１つ以上のカメラ、１つ以上のレーダデバイス、１つ以上のソナーデバイス、または１つ以上の熱画像デバイスを含む、１つ以上のセンサからのセンサ出力に部分的に基づくことができる。

物体検出システムは、多段分類の第１の段階で、第１の機械学習モデル（例えば、物体データを含み得るデータと関連付けられる第１の機械学習モデル）の第１の決定木のトラバーサルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することができる。いくつかの実施形態では、物体検出システムによって使用される第１の機械学習モデルは、ランダムフォレスト分類子、勾配ブースティング、サポートベクタマシン、ロジスティック回帰分類子、および／またはブーステッドフォレスト分類子を含む、１つ以上の分類技法に部分的に基づくことができる。

いくつかの実施形態では、多段分類の第１の段階は、複数の分類子標識と関連付けられる第１の複数のノードを含む、第１の決定木のトラバーサルを含むことができる。第１の決定木内の第１の複数のノードはそれぞれ、センサデータの１つ以上の部分の１つ以上の第１段階特性を分類、カテゴリ化、および／または決定するために使用される、分類子標識と関連付けられることができる。例えば、多段分類の第１の段階は、背景であるセンサデータの１つ以上の部分のうちの部分と、前景であるセンサデータの１つ以上の部分のうちの部分とを含む、１つ以上の第１段階特性の決定を含むことができる。したがって、物体検出システムは、物体検出の目的で焦点を当てるためのセンサデータの１つ以上の部分のエリアを事前に決定することによって、多段分類の第２の段階がセンサデータの１つ以上の部分をより効率的に処理することを可能にする、第１の段階出力（すなわち、１つ以上の第１段階特性）を提供することができる。

いくつかの実施形態では、多段分類の第１の段階は、ＦＰＧＡ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、またはグラフィックス処理ユニット（ＧＰＵ）を含む、１つ以上のコンピューティングデバイスの１つ以上のハードウェアコンポーネントによって実施されることができる。一例として、ＦＰＧＡを使用することは、並行して１つ以上の画像の処理を通して処理有効性の改良を可能にすることができ、これは、並行して画像を処理しない他の技法（例えば、１つ以上の画像の連続処理）の速度を超える画像処理をもたらし得る。

物体検出システムは、多段分類の第２の段階で、第２の機械学習モデル（例えば、物体データを含み得るデータと関連付けられる第２の機械学習モデル）の第２の決定木のトラバーサルに部分的に基づいて、１つ以上の物体の１つ以上の第２段階特性を決定することができる。いくつかの実施形態では、第２の機械学習モデルは、第１の機械学習モデルを含む、またはそれと同一であり得る。

多段分類の第２の段階は、第２の複数の分類子標識と関連付けられる第２の複数のノードを含む、第２の決定木のトラバーサルを含むことができる。例えば、第２の決定木内の複数のノードはそれぞれ、１つ以上の画像の１つ以上の第１段階特性を分類、カテゴリ化、および／または決定するために使用される、分類子標識と関連付けられることができる。例えば、多段分類の第２の段階は、１つ以上の物体の場所および識別（例えば、１つ以上の画像内の歩行者の場所）を含む、１つ以上の画像の１つ以上の第２段階特性の決定を含むことができる。

多段分類の第２の段階は、第１の段階の出力に部分的に基づく、１つ以上の画像の１つ以上の第２段階特性を決定することを含むことができる。１つ以上の第２段階特性は、１つ以上の第１段階特性を含むことができる（例えば、背景特性が、第１の段階で決定される場合、背景特性が、第２の段階でさらなる信頼のレベルまでさらに決定されることができる）。さらに、１つ以上の第２段階特性は、第１の段階で決定されなかった特性を含むことができる。例えば、１つ以上の物体（例えば、歩行者、車両、および／または自転車乗車者）が第１の段階で決定されなかった場合、１つ以上の物体は、第２の段階で決定されることができる。

いくつかの実施形態では、第２の決定木は、第１の複数のノードと等しい、またはそれよりも多数のノードを含むことができる。例えば、第１の決定木は、１，０００個のノードを含むことができ、第２の決定木は、より多くの分類子標識を含み得、１つ以上の画像内の１つ以上の物体を検出および／または識別する際にさらなる正確度のためにトラバースされ得る、より深い決定木を可能にし得る、５，０００個のノードを含むことができる。

いくつかの実施形態では、多段分類の第２の段階の一部は、１つ以上の中央処理ユニット上で動作する、またはその上で実行される、１つ以上のソフトウェアコンポーネントを含む、１つ以上のコンピューティングデバイスの１つ以上のソフトウェアコンポーネントによって実施されることができる。ソフトウェアコンポーネントの使用は、第２の機械学習モデルのより柔軟な調節およびカスタマイズを可能にすることができる。

物体検出システムは、物体データおよび第１の機械学習モデルまたは第２の機械学習モデルであり得る機械学習モデルに部分的に基づいて、発生した１つ以上の物体の１つ以上の第１段階特性（第１の機械学習モデルが使用されるとき）または１つ以上の第２段階特性（第２の機械学習モデルが使用されるとき）の誤検出決定の量（例えば、発生数）を決定することができる。例えば、１つ以上の第１段階特性の誤検出決定は、背景の一部（例えば、空の太陽）が前景の一部であるという決定を含むことができる。さらに、物体検出システムは、誤検出決定の量が所定の閾値レベルを超えるときに、第１の決定木または第２の決定木を含む決定木のトラバーサルを終了することができる。

いくつかの実施形態では、決定木のトラバーサルを終了するための所定の閾値レベルの決定は、決定木の種々の深度における既知のデータセット（例えば、物体の全てが正しく識別された訓練データ）上の第１の機械学習モデルまたは第２の機械学習モデルの性能（例えば、誤検出率）に基づくことができる。例えば、決定木のトラバーサルを終了するための所定の閾値レベルは、誤検出の量が識別された物体の所定の割合（例えば、識別された物体の１０パーセント）または画像あたりの物体の所定の数（例えば、画像あたり２つの物体）を超えるときに、第１の決定木の深度に部分的に基づくことができる。

物体検出システムは、物体データに部分的に基づいて、１つ以上の画像と関連付けられる視覚記述子出力を生成することを含むことができる。センサデータの１つ以上の部分が画像を含むとき、視覚記述子出力は、色調情報、色飽和情報、明度情報、または配向勾配情報のヒストグラムを含む、１つ以上の画像の種々の性質または特性を含むことができる。いくつかの実施形態では、１つ以上の第１段階特性は、視覚記述子出力に部分的に基づくことができる。

物体検出システムは、視覚記述子出力に部分的に基づいて、１つ以上の画像と関連付けられるヒートマップを生成することができる。ヒートマップは、１つ以上の物体のうちの少なくとも１つが複数のエリアのうちの個別のものの内側にある確率と関連付けられる複数のエリアを含むことができる。例えば、物体検出システムは、複数のエリア内の１つ以上の画像をセグメント化し、複数のエリア毎に、物体がそのエリア内にある確率を決定することができる。いくつかの実施形態では、１つ以上の第２段階特性は、ヒートマップに部分的に基づくことができる。

物体検出システムは、視覚記述子出力またはヒートマップに部分的に基づいて、１つ以上の背景画像と関連付けられる、１つ以上の画像の１つ以上の部分（すなわち、１つ以上の物体を含有する１つ以上の画像の前景と対照的に、背景である１つ以上の画像の部分）を決定することができる。いくつかの実施形態では、多段分類の第２の段階は、１つ以上の背景画像と関連付けられる、１つ以上の画像の１つ以上の部分を排除することができる。このように、多段分類の第２の段階は、物体データのより小さい部分（例えば、１つ以上の画像の前景画像）により多くのリソースを集中させ、背景の一部である１つ以上の画像の部分を分析しないことによって、リソースを節約することができる。

いくつかの実施形態では、第２の決定木内の第２の複数のノードのうちの少なくとも１つのノードは、第１の決定木内の第１の複数のノードのうちの端末ノード（例えば、決定木の最後のノード／リーフ）である。例えば、第２の決定木内の第１のノードは、第１の決定木内の端末ノードであり得る。このように、第２の決定木は、第１の決定木の継続であり、第１の決定木の出力に部分的に基づいて第１の決定木を基礎とするという利益を活用することができる。

いくつかの実施形態では、第２の機械学習モデルの第２の決定木は、第１の複数のノードと等しい数のノード、または第１の複数のノードよりも多数のノードを含むことができる。いくつかの実施形態では、多段分類の第１の段階は、並行して動作するカスタマイズされたデバイス（例えば、ＦＰＧＡ）上で実施されることができ、センサデータの一部（例えば、画像の一部）が前景または背景であるかどうかを含む、センサデータの１つ以上の部分の１つ以上の第１段階特性を迅速に決定することができる。１つ以上の第１段階特性を決定した後、多段分類の第２の段階は、より深い（すなわち、ルートノードから端末ノードまでの経路に沿ってより多くのノードを有する）決定木を使用し、より高い信頼のレベルで、車両、歩行者、および／または自転車乗車者を含む、１つ以上の物体を決定または識別し得る、１つ以上の第２段階特性を決定することができる。

物体検出システムは、１つ以上の第１段階特性および／または１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる、１つ以上のインジケーションを含むことができる。例えば、物体出力は、車両システムまたは遠隔コンピューティングデバイスと交信されることができ、物体が検出されたかどうか、検出された物体のタイプ、検出される物体の場所、検出される物体の物理的特性、検出される物体の速度および／または加速度、および／または物体検出の推定正確度と関連付けられる確率の１つ以上のインジケーションを含むことができる。

いくつかの実施形態では、物体出力は、１つ以上の物体の検出に基づいて車両システムをアクティブ化すること（例えば、物体が夜間に検出されるときにヘッドライトをアクティブ化すること）、（例えば、物体の周囲で車両を操縦するために）車両の経路を修正すること、および／または物体出力を１つ以上の車両システムまたは遠隔コンピューティングシステムと交信することを含む、１つ以上のアクションを実施するために、１つ以上の車両システムによって使用されることができる。

物体検出システムは、物体出力に部分的に基づいて、センサデータの１つ以上の部分の中の１つ以上の物体と関連付けられる１つ以上の境界形状（例えば、２次元または３次元境界ボックスおよび／または境界多角形）のための場所を決定することができる。物体検出システムは、第１の機械学習モデルおよび／または第２の機械学習モデルを使用し、物体またはあるタイプの物体を含有する可能性が高い（例えば、歩行者が画像の空部分よりも画像の地面部分内にいる可能性が高い）センサデータの１つ以上の場所またはエリアを決定することができる。

物体検出システムは、１つ以上の境界形状のための場所のセットを選択することができる。画像処理技法（例えば、非最大抑制を含むフィルタ）が、次いで、１つ以上の境界形状のための場所のセットから、最適な場所を含む場所を選択するために使用されることができる。例えば、画像勾配方向を分析することによって、場所のセットのそれぞれに対応するセンサデータの一部に関する極大値の一部ではないピクセルが、抑制されることができる。物体検出システムは、１つ以上の境界形状のための場所のセットに基づいて、選択された場所で１つ以上の境界形状を生成することができる。

開示される技術におけるシステム、方法、デバイス、および有形の非一過性コンピュータ可読媒体は、物体の検出のために機械学習モデルを使用する車両コンピューティングシステムを含む、自律走行車両の全体的動作に、種々の技術的効果および利益を提供することができる。特に、開示される技術は、多段階分類子の利点を活用し、物体検出および識別に対して高いレベルの正確度を維持しながら、出力を作成するための時間を短縮する。例えば、ハードウェアコンポーネントを使用する分類の第１の段階は、並行して入力（例えば、ライダおよび／またはカメラを含む、１つ以上のセンサからのセンサ出力に基づく物体データ）を処理することができ、後続の段階でさらなる処理のために画像の部分を迅速に識別することができる。次いで、分類の第２の段階では、開示される技術は、より深い決定木を使用して、１つ以上の画像を徹底的に処理することができる。結果として、開示される技術は、より少ない時間で極めて正確な結果を出力することができる。加えて、ＦＰＧＡを含む、ハードウェアコンポーネントの使用は、汎用プロセッサと比較して、より少ない待ち時間およびより優れたエネルギー効率をもたらし得る。

さらに、開示される技術は、分類プロセスの複数の段階のうちのいずれかにおいて決定木をトラバースすることの早期終了を適用することができる。早期終了は、決定木の出力（例えば、物体の検出）が正しいという推定確率が所定の閾値レベルに到達したときに、決定木をトラバースし続けないことによって、開示される技術が計算リソースを節約することを可能にする。例えば、決定木の１，０００個のノードの長さの経路に沿って５００個のノードをトラバースした後、正しい物体検出の確率が９９．９パーセントである場合、計算リソースは、早期に終了し、決定木の残りの５００個のノードをトラバースしないことによって、節約され得る。

開示される技術は、物体の形状、物理的寸法、色、および／またはテクスチャを含む、１つ以上の画像の１つ以上の特性が、より迅速に、さらなる精度、速度、および正確度で決定されることを可能にする、１つ以上の機械学習モデルの使用を通して、そのような物体特性を含む、１つ以上の画像の１つ以上の特性をより効果的に決定することができる。

センサデータの１つ以上の特性（例えば、背景特性、前景特性、物体形状、および／または物体の物理的寸法）のより効果的な決定の結果として、開示される技術は、より早期かつ正確な物体検出を通して、安全性の改良を可能にすることができる。さらに、操向、推進、制動、または通知システムを含む、車両システムと対合されたとき、開示される技術は、それぞれ、進路を変更する、速度を増加させる、速度を低減させる、または通知を他の車両、歩行者、および／または自転車乗車者に提供することができる。

故に、開示される技術は、多段分類子の動作利益を活用することによって、１つ以上の画像内の物体のより効果的な検出または識別を提供する。このように、自律走行車両を含む、種々の技術は、改良された物体検出から利益を得ることができる。

ここで図１－９を参照すると、本開示の例示的実施形態が、さらに詳細に議論されるであろう。図１は、本開示の例示的実施形態による、例示的システムの略図を描写する。図示されるように、システム１００は、複数の車両１０２と、車両１０４と、１つ以上のコンピューティングデバイス１１０を含む、車両コンピューティングシステム１０８と、１つ以上のデータ入手システム１１２と、自律システム１１４と、１つ以上の制御システム１１６と、１つ以上のヒューマンマシンインターフェースシステム１１８と、他の車両システム１２０と、通信システム１２２と、ネットワーク１２４と、１つ以上の画像捕捉デバイス１２６と、１つ以上のセンサ１２８と、１つ以上の遠隔コンピューティングデバイス１３０と、通信ネットワーク１４０と、動作コンピューティングシステム１５０とを含むことができる。

動作コンピューティングシステム１５０は、例えば、車両１０４を含む、車両隊を介して、１つ以上の車両サービスを複数のユーザに提供する、サービスプロバイダと関連付けられることができる。車両サービスは、輸送サービス（例えば、相乗りサービス）、宅配サービス、配達サービス、および／または他のタイプのサービスを含むことができる。動作コンピューティングシステム１５０は、種々の動作および機能を実施するための複数のコンポーネントを含むことができる。例えば、動作コンピューティングシステム１５０は、車両１０４から遠隔にある１つ以上の遠隔コンピューティングデバイスを含む、および／または別様にそれと関連付けられることができる。１つ以上の遠隔コンピューティングデバイスは、１つ以上のプロセッサと、１つ以上のメモリデバイスとを含むことができる。１つ以上のメモリデバイスは、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、車両の動作と関連付けられる動作および機能を実施させる、命令を記憶することができる。

例えば、動作コンピューティングシステム１５０は、車両１０４および／またはそのユーザを監視し、それと通信して、車両１０４によって提供される車両サービスを調整するように構成されることができる。そうするために、動作コンピューティングシステム１５０は、車両１０４を含む車両のステータスと関連付けられる車両ステータスデータを含む、データを含むデータベースを管理することができる。車両ステータスデータは、複数の車両１０２の場所（例えば、車両の緯度および経度）、車両の可用性（例えば、車両が乗車者または貨物を取り上げる、または降ろすために利用可能であるかどうか）、または車両の外部の物体の状態（例えば、車両の外部の物体の物理的寸法、速度、加速度、および／または配向）を含むことができる。

１つ以上の物体の状態（例えば、物理的寸法、速度、加速度、色、場所、および／または配向）を含む、１つ以上の物体の状態を示す、インジケーション、記録、および／または他のデータは、車両１０４の１つ以上のメモリデバイス内にローカルで記憶されることができる。さらに、車両１０４は、動作コンピューティングシステム１５０と関連付けられる１つ以上のメモリデバイス内に、車両１０４の所定の距離内の１つ以上の物体の状態を示す、インジケーション、記録、および／または他のデータを記憶し得る、動作コンピューティングシステム１５０までの車両１０４の所定の距離内の１つ以上の物体（例えば、車両の外部の物体）の状態を示すデータを提供することができる。

動作コンピューティングシステム１５０は、通信ネットワーク１４０を含む、１つ以上の通信ネットワークを介して、車両１０４と通信することができる。通信ネットワーク１４０は、信号（例えば、電子信号）またはデータ（例えば、コンピューティングデバイスからのデータ）を交信（送信または受信）し、種々の有線（例えば、ツイストペアケーブル）および／または無線通信機構（例えば、セルラー、無線、衛星、マイクロ波、および無線周波数）、および／または任意の所望のネットワークトポロジ（または複数のトポロジ）の任意の組み合わせを含むことができる。例えば、通信ネットワーク１４０は、ローカルエリアネットワーク（例えば、イントラネット）、広域ネットワーク（例えば、インターネット）、無線ＬＡＮネットワーク（例えば、Ｗｉ－Ｆｉを介した）、セルラーネットワーク、ＳＡＴＣＯＭネットワーク、ＶＨＦネットワーク、ＨＦネットワーク、ＷｉＭＡＸベースのネットワーク、および／またはデータを車両１０４に、および／またはそこから伝送するための任意の他の好適な通信ネットワーク（またはそれらの組み合わせ）を含むことができる。

車両１０４は、地上ベースの車両（例えば、自動車および／またはトラック）、航空機、船、および／または別のタイプの車両であり得る。車両１０４は、人間の運転者からの相互作用を最小限に伴って、および／または全く伴わずに、運転すること、ナビゲートすること、および／または動作することを含む、種々のアクションを実施し得る、自律走行車両であり得る。自律走行車両１０４は、例えば、完全自律動作モード、半自律動作モード、駐車モード、および／またはスリープモードを含む、１つ以上のモードで動作するように構成されることができる。完全自律（例えば、自己運転）動作モードは、車両１０４が、車両内に存在する人間の運転者からの相互作用を最小限に伴って、および／または全く伴わずに、運転およびナビゲーション動作を提供し得るものであり得る。半自律動作モードは、車両１０４が、車両内に存在する人間の運転者からのある程度の相互作用を伴って動作し得るものであり得る。駐車および／またはスリープモードは、車両１０４が、後続の車両サービスを提供することを待機すること、および／または動作モードの間に再充電することを含む、種々のアクションを実施している間に、動作モードの間に使用されることができる。車両１０４は、車両コンピューティングシステム１０８を含む、またはそれと関連付けられることができる。車両コンピューティングシステム１０８は、種々の動作および機能を実施するための種々のコンポーネントを含むことができる。例えば、車両コンピューティングシステム１０８は、車両１０４に内蔵された１つ以上のコンピューティングデバイス１１０を含むことができる。１つ以上のコンピューティングデバイス１１０は、それぞれ、車両１０４に内蔵される、１つ以上のプロセッサと、１つ以上のメモリデバイスとを含むことができる。１つ以上のメモリデバイスは、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、車両１０４を非稼働中にすること、車両１０４の運動を停止させること、車両１０４の所定の距離内の１つ以上の物体の状態を決定すること、または本明細書に説明されるような車両１０４の所定の距離内の１つ以上の物体の状態と関連付けられるインジケーションを生成することを含む、動作および機能を実施させる、命令を記憶することができる。さらに、車両コンピューティングシステム１０８は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、１つ以上の動作を実施することができる。

１つ以上のコンピューティングデバイス１１０は、車両１０４に内蔵された種々の他のシステムを実装する、含む、および／または別様にそれと関連付けられることができる。１つ以上のコンピューティングデバイス１１０は、車両１０４のこれらの他の内蔵システムと通信するように構成されることができる。例えば、１つ以上のコンピューティングデバイス１１０は、１つ以上のデータ入手システム１１２、自律システム１１４（例えば、ナビゲーションシステムを含む）、１つ以上の制御システム１１６、１つ以上のヒューマンマシンインターフェースシステム１１８、他の車両システム１２０、および／または通信システム１２２と通信するように構成されることができる。１つ以上のコンピューティングデバイス１１０は、ネットワーク１２４を介して、これらのシステムと通信するように構成されることができる。ネットワーク１２４は、１つ以上のデータバス（例えば、コントローラエリアネットワーク（ＣＡＮ））、内蔵診断コネクタ（例えば、ＯＢＤ－ＩＩ）、および／または有線および／または無線通信リンクの組み合わせを含むことができる。１つ以上のコンピューティングデバイス１１０および／または他の内蔵システムは、ネットワーク１２４を介して、相互の間でデータ、メッセージ、および／または信号を送信および／または受信することができる。

１つ以上のデータ入手システム１１２は、車両１０４と関連付けられるデータを入手するように構成される種々のデバイスを含むことができる。これは、車両のシステム（例えば、健全性データ）、車両の内部、車両の外部、車両の周辺、および／または車両ユーザのうちの１つ以上のものを含む、車両と関連付けられるデータを含むことができる。１つ以上のデータ入手システム１１２は、例えば、１つ以上の画像捕捉デバイス１２６を含むことができる。１つ以上の画像捕捉デバイス１２６は、１つ以上のカメラ、ライダシステム、２次元画像捕捉デバイス、３次元画像捕捉デバイス、静止画像捕捉デバイス、動的（例えば、回転）画像捕捉デバイス、ビデオ捕捉デバイス（例えば、ビデオレコーダ）、車線検出器、スキャナ、光学リーダ、エレクトリックアイ、および／または他の好適なタイプの画像捕捉デバイスを含むことができる。１つ以上の画像捕捉デバイス１２６は、車両１０４の内部内および／または外部上に位置することができる。１つ以上の画像捕捉デバイス１２６は、自律モードで車両１０４の動作に使用されるべき画像データを入手するように構成されることができる。例えば、１つ以上の画像捕捉デバイス１２６は、画像データを入手し、車両１０４が１つ以上の機械視覚技法を実装すること（例えば、周辺環境内の物体を検出すること）を可能にすることができる。

加えて、または代替として、１つ以上のデータ入手システム１１２は、１つ以上のセンサ１２８を含むことができる。１つ以上のセンサ１２８は、衝撃センサ、運動センサ、圧力センサ、質量センサ、重量センサ、体積センサ（例えば、リットル単位で物体の体積を決定し得るセンサ）、温度センサ、湿度センサ、レーダ、ソナー、無線、（例えば、車両の周辺と関連付けられる情報を取得するための）中距離または長距離センサ、全地球測位システム（ＧＰＳ）機器、近接性センサ、および／または車両１０４と関連付けられる、および／または車両１０４の動作に関連性があるパラメータを示すデータを取得するための任意の他のタイプのセンサを含むことができる。１つ以上のデータ入手システム１１２は、車両の燃料タンク、エンジン、オイルコンパートメント、および／またはワイパを含む、車両１０４の特定の側面と関連付けられるデータを取得することに専念する、１つ以上のセンサ１２８を含むことができる。１つ以上のセンサ１２８はまた、または代替として、車両１０４の１つ以上の機械および／または電気コンポーネントと関連付けられるセンサを含むことができる。例えば、１つ以上のセンサ１２８は、車両ドア、トランク、および／またはガスキャップが、開放または閉鎖位置にあるかどうかを検出するように構成されることができる。いくつかの実装では、１つ以上のセンサ１２８によって入手されるデータは、他の車両および／または物体、道路条件（例えば、カーブ、深い穴、くぼみ、***、および／または勾配の変化）を検出し、車両１０４と他の車両および／または物体との間の距離を測定することに役立ち得る。

車両コンピューティングシステム１０８はまた、マップデータを取得するように構成されることもできる。例えば、（例えば、自律システム１１４内の）車両のコンピューティングデバイスは、動作コンピューティングシステム１５０または１つ以上の遠隔コンピューティングデバイス１３０（例えば、地理マッピングサービスプロバイダと関連付けられる）を含む、１つ以上の遠隔コンピューティングデバイスから、マップデータを受信するように構成されることができる。マップデータは、車両が現在進行している、以前に進行した、または将来進行するであろうエリアを含む、車両が進行し得るエリアと関連付けられる２次元または３次元地理マップデータの任意の組み合わせを含むことができる。

１つ以上のデータ入手システム１１２から入手されるデータ、マップデータ、および／または他のデータは、車両１０４に内蔵された１つ以上のメモリデバイス内に記憶されることができる。内蔵メモリデバイスは、限定された記憶容量を有することができる。したがって、１つ以上のメモリデバイス内に記憶されたデータは、周期的に除去される、削除される、および／または別のメモリデバイス（例えば、サービスプロバイダのデータベース）にダウンロードされる必要があり得る。１つ以上のコンピューティングデバイス１１０は、メモリデバイスを監視し、および／または別様に関連付けられるプロセッサと通信し、１つ以上のメモリデバイス内でデータ記憶が利用可能である量を決定するように構成されることができる。さらに、他の内蔵システム（例えば、自律システム１１４）のうちの１つ以上のものは、１つ以上のメモリデバイス内に記憶されたデータにアクセスするように構成されることができる。

自律システム１１４は、車両１０４が自律モードで動作することを可能にするように構成されることができる。例えば、自律システム１１４は、車両１０４と関連付けられる（例えば、１つ以上のデータ入手システム１１２によって入手される）データを取得することができる。自律システム１１４はまた、マップデータを取得することもできる。自律システム１１４は、車両１０４および／またはマップデータと関連付けられる入手されたデータに少なくとも部分的に基づいて、車両１０４の種々の機能を制御し、自律モードを実装することができる。例えば、自律システム１１４は、１つ以上のデータ入手システム１１２によって入手されるデータ、マップデータ、および／または他のデータに基づいて、道路特徴、シグネチャ、および／または物体、人、動物を知覚するための種々のモデルを含むことができる。いくつかの実装では、自律システム１１４は、１つ以上のデータ入手システム１１２によって入手されるデータ、マップデータ、および／または他のデータを使用し、自律走行車両を動作させることに役立つ、機械学習モデルを含むことができる。また、入手されたデータは、他の車両および／または物体、道路条件（例えば、カーブ、深い穴、くぼみ、***、勾配の変化、または同等物）を検出し、車両１０４と他の車両および／または物体との間の距離を測定することに役立ち得る。自律システム１１４は、（例えば、１つ以上の走行距離計測技法を使用して）そのような要素の位置および／または移動（またはその欠如）を予測するように構成されることができる。自律システム１１４は、そのような予測に少なくとも部分的に基づいて、車両１０４の運動を計画するように構成されることができる。自律システム１１４は、計画された運動を実装し、人間の介入を最小限に伴って、または全く伴わずに、車両１０４を適切にナビゲートすることができる。例えば、自律システム１１４は、車両１０４を目的地の場所に指向するように構成されるナビゲーションシステムを含むことができる。自律システム１１４は、車両速度、加速度、減速度、操向、および／または他のコンポーネントの動作を調整し、自律モードで動作し、そのような目的地の場所まで進行することができる。

自律システム１１４は、リアルタイムおよび／または近リアルタイムで車両１０４のための位置および／またはルートを決定することができる。例えば、入手されたデータを使用して、自律システム１１４は、（例えば、一瞬毎に）１つ以上の異なる潜在的ルートを計算することができる。自律システム１１４は、次いで、とるべきルートを選択し、それに応じて車両１０４をナビゲートさせることができる。一例として、自律システム１１４は、１つ以上の異なる直線経路（例えば、現在の車線の異なる部分の中のいくつかを含む）、１つ以上の車線変更経路、１つ以上の旋回経路、および／または１つ以上の停止経路を計算することができる。車両１０４は、入手されたデータ、現在の交通要因、車両１０４と関連付けられる進行条件に少なくとも部分的に基づいて、経路を選択することができる。いくつかの実装では、異なる加重が、経路を選択するときに異なる基準に印加されることができる。いったん選択されると、自律システム１１４は、車両１０４を選択された経路に従って進行させることができる。

車両１０４の１つ以上の制御システム１１６は、車両１０４の１つ以上の側面を制御するように構成されることができる。例えば、１つ以上の制御システム１１６は、車両１０４の１つ以上のアクセスポイントを制御することができる。１つ以上のアクセスポイントは、車両のドアロック、トランクロック、ボンネットロック、燃料タンクアクセス、ラッチ、および／または１つ以上の状態、位置、および／または場所の間で調節され得る、他の機械的アクセス特徴を含む、特徴を含むことができる。例えば、１つ以上の制御システム１１６は、アクセスポイント（例えば、ドアロック）を制御し、第１の状態（例えば、ロック位置）と第２の状態（例えば、ロック解除位置）との間でアクセスポイントを調節するように構成されることができる。加えて、または代替として、１つ以上の制御システム１１６は、１つ以上の状態の間で調節され得る、車両１０４の１つ以上の他の電気特徴を制御するように構成されることができる。例えば、１つ以上の制御システム１１６は、１つ以上の電気特徴（例えば、ハザードライト、マイクロホン）を制御し、第１の状態（例えば、オフ）と第２の状態（例えば、オン）との間で特徴を調節するように構成されることができる。

１つ以上のヒューマンマシンインターフェースシステム１１８は、ユーザ（例えば、人間）、車両１０４（例えば、車両コンピューティングシステム１０８）、および／または第三者（例えば、サービスプロバイダと関連付けられるオペレータ）の間の相互作用を可能にするように構成されることができる。１つ以上のヒューマンマシンインターフェースシステム１１８は、ユーザが車両コンピューティングシステム１０８から情報を入力および／または受信するための種々のインターフェースを含むことができる。例えば、１つ以上のヒューマンマシンインターフェースシステム１１８は、グラフィカルユーザインターフェース、直接操作インターフェース、ウェブベースのユーザインターフェース、タッチユーザインターフェース、アテンティブユーザインターフェース、会話および／または音声インターフェース（例えば、テキストメッセージ、チャッタロボットを介した）、会話インターフェースエージェント、双方向音声応答（ＩＶＲ）システム、ジェスチャインターフェース、および／または他のタイプのインターフェースを含むことができる。１つ以上のヒューマンマシンインターフェースシステム１１８は、ユーザ入力を受信するように構成される、１つ以上の入力デバイス（例えば、タッチスクリーン、キーパッド、タッチパッド、ノブ、ボタン、スライダ、スイッチ、マウス、ジャイロスコープ、マイクロホン、他のハードウェアインターフェース）を含むことができる。１つ以上のヒューマンマシンインターフェース１１８はまた、インターフェースと関連付けられるデータを受信および出力するための１つ以上の出力デバイス（例えば、ディスプレイデバイス、スピーカ、ライト）を含むこともできる。

他の車両システム１２０は、車両１０４の他の側面を制御および／または監視するように構成されることができる。例えば、他の車両システム１２０は、ソフトウェア更新モニタ、エンジン制御ユニット、伝送制御ユニット、および／または内蔵メモリデバイスを含むことができる。１つ以上のコンピューティングデバイス１１０は、他の車両システム１２０と通信し、データを受信する、および／または１つ以上の信号を送信するように構成されることができる。一例として、ソフトウェア更新モニタは、１つ以上のコンピューティングデバイス１１０に、内蔵システムのうちの１つ以上のものの上で起動するソフトウェアの現在のステータス、および／または個別のシステムがソフトウェア更新を要求するかどうかを示す、データを提供することができる。

通信システム１２２は、車両コンピューティングシステム１０８（およびその１つ以上のコンピューティングデバイス１１０）が他のコンピューティングデバイスと通信することを可能にするように構成されることができる。いくつかの実装では、車両コンピューティングシステム１０８は、通信システム１２２を使用し、ネットワークを経由して１つ以上のユーザデバイスと通信することができる。いくつかの実装では、通信システム１２２は、１つ以上のコンピューティングデバイス１１０が、車両１０４に内蔵されたシステムのうちの１つ以上のものと通信することを可能にすることができる。車両コンピューティングシステム１０８は、通信システム１２２を使用し、ネットワークを経由して（例えば、１つ以上の無線信号接続を介して）、動作コンピューティングシステム１５０および／または１つ以上の遠隔コンピューティングデバイス１３０と通信することができる。通信システム１２２は、例えば、伝送機、受信機、ポート、コントローラ、アンテナ、または車両１０４から遠隔にある１つ以上の遠隔コンピューティングデバイスとの通信を促進することに役立ち得る他の好適なコンポーネントを含む、１つ以上のネットワークとインターフェースをとるための任意の好適なコンポーネントを含むことができる。

いくつかの実装では、車両１０４に内蔵された１つ以上のコンピューティングデバイス１１０は、車両１０４と関連付けられる１つ以上のパラメータを示す車両データを取得することができる。１つ以上のパラメータは、車両１０４、車両コンピューティングシステム１０８、および／または内蔵システムのうちの１つ以上のものと関連付けられる、健全性および保守情報を含む、情報を含むことができる。例えば、１つ以上のパラメータは、燃料レベル、エンジン条件、タイヤ圧力、車両の内部と関連付けられる条件、車両の外部と関連付けられる条件、走行可能距離、次の保守までの時間、最後の保守以降の時間、内蔵メモリデバイス内の利用可能なデータ記憶、車両１０４内のエネルギー貯蔵デバイスの充電レベル、現在のソフトウェアステータス、必要とされるソフトウェア更新、および／または車両１０４の他の健全性および保守データを含むことができる。

パラメータを示す車両データの少なくとも一部が、車両１０４に内蔵されたシステムのうちの１つ以上のものを介して、提供されることができる。１つ以上のコンピューティングデバイス１１０は、スケジュールされた、および／または必要に応じた基準で、内蔵システムから車両データを要求するように構成されることができる。いくつかの実装では、内蔵システムのうちの１つ以上のものは、１つ以上のパラメータを示す車両データを１つ以上のコンピューティングデバイス１１０に（例えば、周期的に、連続的に、必要に応じて、要求に応じて）提供するように構成されることができる。一例として、１つ以上のデータ入手システム１１２は、車両の燃料レベルおよび／または車両エネルギー貯蔵デバイス内の充電レベルを示すパラメータを提供することができる。いくつかの実装では、パラメータのうちの１つ以上のものは、ユーザ入力を示し得る。例えば、１つ以上のヒューマンマシンインターフェース１１８は、（例えば、車両の内部内のディスプレイデバイス上に表示されるユーザインターフェースを介して）ユーザ入力を受信することができる。１つ以上のヒューマンマシンインターフェース１１８は、ユーザ入力を示すデータを１つ以上のコンピューティングデバイス１１０に提供することができる。いくつかの実装では、１つ以上の遠隔コンピューティングデバイス１３０は、入力を受信することができ、ユーザ入力を示すデータを１つ以上のコンピューティングデバイス１１０に提供することができる。１つ以上のコンピューティングデバイス１１０は、（例えば、無線通信を介して）１つ以上の遠隔コンピューティングデバイス１３０から、ユーザ入力を示すデータを取得することができる。

１つ以上のコンピューティングデバイス１１０は、歩行者、自転車乗車者、モータ車両（例えば、トラックおよび／または自動車）、道路、水路、および／または建物を含む、車両の外部の１つ以上の物体の状態を含む、車両１０４および車両１０４の周囲の環境の状態を決定するように構成されることができる。さらに、１つ以上のコンピューティングデバイス１１０は、１つ以上の物体の物理的寸法（例えば、１つ以上の物体の形状、長さ、幅、および／または高さ）を含む、１つ以上の物体の１つ以上の物理的特性を決定するように構成されることができる。１つ以上のコンピューティングデバイス１１０は、１つ以上の機械学習モデルの使用を通して、１つ以上のセンサ１２８によって検出されない１つ以上の物体の部分を含む、１つ以上の物体の物理的寸法および／または配向の推定されるセットを決定することができる。さらに、１つ以上のコンピューティングデバイス１１０は、１つ以上の機械学習モデルの使用に部分的に基づいて、物体の多段検出および／または認識を実施することができる。図２は、本開示の例示的実施形態による、例示的多段分類子システムの略図を描写する。図示されるように、多段分類子システム２００は、１つ以上のセンサデバイス２０２と、相互接続２０４／２０６／２０８と、第１段階コンピューティングシステム２１０と、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）２１２と、１つ以上のプログラマブル論理ブロックおよび相互接続２１４と、メモリ２１６と、データ２１８と、命令２２０と、通信インターフェース２２２と、第２段階コンピューティングシステム２３０と、中央処理ユニット（ＣＰＵ）２３２と、メモリ２３６と、データ２３８と、命令２４０と、通信インターフェース２４２と、１つ以上の出力デバイス２５０とを含むことができる。さらに、多段分類子システム２００は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、１つ以上の機能を果たすことができる。

本実施例では、多段分類子システム２００は、２つのコンピューティングシステム、すなわち、第１段階コンピューティングシステム２１０および第２段階コンピューティングシステム２３０を含む。しかしながら、他の実施形態では、多段分類子システム２００は、第１段階コンピューティングシステム２１０および第２段階コンピューティングシステム２３０内に含まれる特徴、コンポーネント、および／またはデバイスのうちのいずれかを含み得る、３つ以上のコンピューティングシステムを含むことができる。

多段分類子システム２００は、１つ以上のセンサデバイス２０２を含むことができる。１つ以上のセンサデバイス２０２は、１つ以上の物体を含む環境の検出に部分的に基づいて、１つ以上のセンサ出力（例えば、センサデータ）を生成し得る、１つ以上の物理センサを含むことができる。１つ以上の物理センサは、１つ以上のライダデバイス、１つ以上のカメラ、１つ以上のレーダデバイス、１つ以上のソナーデバイス、１つ以上の画像センサ、および／または１つ以上の熱画像デバイスを含むことができる。さらに、１つ以上のセンサデバイス２０２は、１つ以上のシミュレートされた物体（例えば、車両コンピューティングシステム１０８、１つ以上の遠隔コンピューティングデバイス１３０、および／または動作コンピューティングシステム１５０を含む、コンピューティングデバイスによって生成されるデータ構造に部分的に基づくシミュレートされた物体）に部分的に基づいて、１つ以上のシミュレートされたセンサ出力（例えば、シミュレートされたセンサデータ）を生成し得る、１つ以上のシミュレートされたセンサを含むことができる。

１つ以上のセンサデバイス２０２によって出力される物体データは、１人以上の歩行者（例えば、立っている、横になっている、座っている、屈んでいる、しゃがんでいる、登っている、走っている、および／または歩いている、１人以上の個人）、１つ以上の他の車両（例えば、自動車、トラック、バス、トロリー、トラム、バイク、原動機付き自転車、航空機、ヘリコプタ、ボート、水陸両用車両、および／または列車を含む、動力車）、１人以上の自転車乗車者（例えば、自転車に座っている、および／または乗っている１人以上の個人）、輸送インフラストラクチャ（例えば、道路、街路、線路、歩道、幹線道路、駐車場、および／または舗装道路）、および／または１つ以上の建物（例えば、家、オフィスビル、スタジアム、および／またはアパートの建物）を含む、１つ以上の物体の検出および／または認識で使用されることができる。

さらに、１つ以上のセンサデバイス２０２によって出力される物体データは、１つ以上の画像内の１つ以上の物体の１つ以上の物理的寸法（例えば、長さ、幅、および／または高さ）と関連付けられる、３次元点のセット（例えば、ｘ、ｙ、およびｚ座標）を含むことができる。センサデータおよび／または関連付けられる物体データの１つ以上の部分は、１つ以上の物体の形状、テクスチャ、明度、飽和、および／または物理的寸法（例えば、長さ、幅、および／または高さ）を含む、１つ以上の物体の物理的性質、属性、および／または特性（例えば、視覚性質および／または特性）を決定するために、使用されることができる。

１つ以上のセンサデバイス２０２によって生成される物体データは、センサデータの１つ以上の部分および／またはシミュレートされたセンサデータの１つ以上の部分を含む、物体データとして出力されることができる。１つ以上のセンサデバイス２０２は、１つ以上の２次元画像（例えば、１つ以上のカメラによって捕捉される２次元画像）および／または３次元画像（例えば、ライダデバイスによって捕捉される３次元点群）を含む、物体データを生成することができる。物体データの１つ以上の部分は、１つ以上のセンサデバイス２０２、第１段階コンピューティングシステム２１０、および／または第２段階コンピューティングシステム２３０の間の信号および／またはデータを含む、１つ以上の信号および／またはデータを交信する（例えば、送信および／または受信する）ために使用され得る、相互接続２０４を含む、１つ以上の通信ネットワークおよび／または相互接続を介して、１つ以上のコンピューティングデバイスおよび／またはコンピューティングシステムに送信されることができる。

第１段階コンピューティングシステム２１０は、物体データを含む、１つ以上の信号および／またはデータを送信、受信、分析、検出、認識、および／または処理することを含む、種々の動作および／または機能を実施することができる。例えば、第１段階コンピューティングシステム２１０は、１つ以上のセンサデバイス２０２から物体データを受信し（例えば、相互接続２０４を介して受信し）、物体データに基づいて１つ以上の動作を実施し（例えば、１つ以上の物体を検出および／または認識し）、物体データを第２段階コンピューティングデバイス２３０に送信する（例えば、相互接続２０６を介して送信する）ことができる。

第１段階コンピューティングシステム２１０は、１つ以上のＦＰＧＡ２１２と、メモリ２１６とを含む、１つ以上のコンピューティングデバイスを含むことができる。１つ以上のＦＰＧＡ２１２は、任意の好適な処理デバイス（例えば、プロセッサコア、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡ、グラフィックス処理ユニット、デジタル信号プロセッサ、コントローラ、および／またはマイクロコントローラ）を含むことができ、１つのプロセッサ、または動作可能に接続される複数のプロセッサを含むことができる。本実施例では、１つ以上のＦＰＧＡ２１２は、１つ以上のＦＰＧＡ２１２によって実施されるべき動作のタイプ（例えば、物体の検出および／または認識を含む、データを処理すること）に従って構成され得る、１つ以上のプログラマブル論理ブロックおよび相互接続２１４を含むことができる。他の実施形態では、１つ以上のプロセッサ２１２は、１つ以上のプログラマブル論理ブロックおよび相互接続２１４を含まないように、または使用しないように構成されることができる。

メモリ２１６は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、ＮＶＲＡＭ、１つ以上のメモリデバイス、フラッシュメモリデバイス、および／またはそれらの組み合わせを含む、１つ以上の非一過性のコンピュータ可読記憶媒体を含むことができる。メモリ２１６は、１つ以上のＦＰＧＡ２１２によってアクセスされ得る、情報を記憶することができる。例えば、メモリ２１６（例えば、１つ以上の非一過性のコンピュータ可読記憶媒体、メモリデバイス）は、取得される、受信される、アクセスされる、書き込まれる、操作される、作成される、および／または記憶され得る、データ２１８を記憶することができる。データ２１８は、本明細書に説明されるように、１つ以上のセンサデバイス２０２からの物体データ、現在の物体の状態および予測される物体の場所および／または軌道を含む、検出および／または分類された物体を識別するデータ、運動計画、分類モデル、および／または規則を含むことができる。いくつかの実装では、第１段階コンピューティングシステム２１０は、例えば、１つ以上のセンサデバイス２０２および／または第２段階コンピューティングシステム２３０を含む、第１段階コンピューティングシステム２１０から遠隔にある１つ以上のメモリデバイスから、データを取得することができる。

メモリ２１６はまた、１つ以上のプロセッサ２１２によって実行され得る、コンピュータ可読命令２２０を記憶することもできる。命令２２０は、任意の好適なプログラミング言語で書かれたソフトウェアであり得る、またはハードウェアで実装されることができる。加えて、または代替として、命令２２０は、１つ以上のプロセッサ２１２上の論理上および／または事実上別個のスレッド内で実行されることができる。

さらに、メモリ２１６内に記憶されたデータ２１８および／または命令２２０は、物体データに基づいて分類された物体標識を生成するために使用され得る、１つ以上の機械学習モデルを含む、１つ以上の機械学習モデルを含むことができる。いくつかの実施形態では、１つ以上の物体と関連付けられる、分類された物体標識は、機械学習モデルによって生成される、分類された物体標識と同一のフォーマットで生成されることができる。

例えば、第１段階コンピューティングシステム２１０は、メモリ２１６内に記憶された機械学習物体検出および認識モデルを含む、使用する、および／または動作させることができる。機械学習物体検出および認識モデルは、ニューラルネットワーク（例えば、ディープニューラルネットワーク）または他の多層非線形モデルを含む、１つ以上のモデルを含むことができる。

ニューラルネットワークは、コンボリューショナルニューラルネットワーク、リカレントニューラルネットワーク（例えば、長短期メモリリカレントニューラルネットワーク）、フィードフォワードニューラルネットワーク、および／または他の形態のニューラルネットワークを含むことができる。監視下訓練技法が、機械学習物体検出および認識モデルを訓練し、物体データ内の１つ以上の物体を検出、認識、および／または分類するように実施されることができる。いくつかの実装では、機械学習物体検出および認識モデルのための訓練データは、機械学習物体検出および認識モデルを訓練し、物体データと関連付けられる１つ以上の物体を検出、認識、および／または分類するために使用され得る、規則ベースのモデルを使用して決定される、予測検出結果に少なくとも部分的に基づくことができる。さらに、訓練データは、オフラインで機械学習物体検出および認識モデルを訓練するために使用されることができる。

いくつかの実施形態では、第１段階コンピューティングシステム２１０は、機械学習物体検出および認識モデルの中にデータを入力し、出力を受信することができる。例えば、第１段階コンピューティングシステム２１０は、種々の機械学習物体検出および認識モデルを記憶する１つ以上の遠隔コンピューティングデバイスから、機械学習物体検出および認識モデルを示すデータを取得することができる。入力データは、１つ以上の物体（例えば、道路、水域、山、丘、および／または群葉）と関連付けられる、１つ以上の車両、歩行者、自転車乗車者、建物、および／または環境を含む、１つ以上の物体と関連付けられるデータを含むことができる。いくつかの実施形態では、入力データは、１つ以上の物体と関連付けられる色、明度、および／または飽和情報を含む、視覚記述子と関連付けられるデータを含むことができる。

さらに、入力データは、１つ以上の物体と関連付けられる、物体データ、予測データ（例えば、１つ以上の物体の状態および／または場所を予測するデータ）、運動計画（例えば、車両が１つ以上の物体に対してナビゲートするための運動計画）、および／またはマップデータを含むことができる。

機械学習物体検出および認識モデルは、入力データを処理し、１つ以上の物体を検出、認識、および／または分類することができる。また、機械学習物体検出および認識モデルは、１つ以上の物体のための１つ以上の相互作用を予測することができる。さらに、第１段階コンピューティングシステム２１０は、機械学習物体検出および認識モデルから出力を取得することができる。機械学習物体検出および認識モデルからの出力は、１つ以上の物体の１つ以上の予測される検出、認識、および／または分類を示し得る。いくつかの実装では、出力はまた、各個別の検出、認識、および／または分類と関連付けられる確率も示し得る。さらに、機械学習物体検出および認識モデルは、入力データを処理し、背景（例えば、１つ以上の着目物体を含まない、入力データ内に含まれる入力画像内のエリア）または前景（例えば、着目される１つ以上の物体を含む、入力データ内に含まれる入力画像内のエリア）である、入力データ内の入力画像の１つ以上の部分のうちのいずれかを決定することができる。例えば、機械学習物体検出および認識モデルは、第１段階コンピューティングシステム２１０によって実施される入力データを処理することの第１の段階では、入力画像のエリアが背景（例えば、空または地面である物体を含む、入力画像の一部）であるように決定されることを決定することができ、機械学習物体検出および認識モデルは、第２段階コンピューティングシステム２３０によって実施される入力データを処理することの第２の段階では、入力画像のエリアが前景（例えば、車両または歩行者である物体を含む、入力画像の一部）であるように決定されることを決定することができる。第１段階コンピューティングシステム２１０はまた、第１段階コンピューティングシステム２１０から遠隔にあるシステムまたはデバイスを含む、１つ以上のシステムまたはデバイスと通信するために使用され得る、通信インターフェース２２２を含むこともできる。通信インターフェース２２２は、１つ以上のネットワークと通信するための任意の回路、コンポーネント、および／またはソフトウェアを含むことができる。いくつかの実装では、通信インターフェース２２２は、例えば、データを通信するための通信コントローラ、受信機、送受信機、伝送機、ポート、導体、ソフトウェア、および／またはハードウェアのうちの１つ以上のものを含むことができる。さらに、第１段階コンピューティングシステム２１０は、１つ以上の信号および／またはデータ（例えば、物体データと関連付けられる１つ以上の信号）を、第２段階コンピューティングシステム２３０および／または１つ以上の出力デバイス２５０を含む、１つ以上のコンピューティングシステムに送信することができる。

第２段階コンピューティングシステム２３０は、物体データを含む、１つ以上の信号および／またはデータを送信、受信、分析、検出、認識、および／または処理することを含む、種々の動作および／または機能を実施することができる。例えば、第２段階コンピューティングシステム２３０は、第１段階コンピューティングシステム２１０から物体データを受信し（例えば、相互接続２０４を介して受信し）、物体データに基づいて１つ以上の動作を実施し（例えば、１つ以上の物体を検出および／または認識し）、物体データと関連付けられる１つ以上の信号を１つ以上の出力デバイス２５０に送信する（例えば、相互接続２０８を介して送信する）ことができる。

第２段階コンピューティングシステム２３０は、１つ以上のプロセッサ２３２と、メモリ２３６とを含む、１つ以上のコンピューティングデバイスを含むことができる。１つ以上のプロセッサ２３２は、任意の好適な処理デバイス（例えば、プロセッサコア、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡ、グラフィックス処理ユニット、デジタル信号プロセッサ、コントローラ、および／またはマイクロコントローラ）を含むことができ、１つのプロセッサ、または動作可能に接続される複数のプロセッサを含むことができる。いくつかの実施形態では、１つ以上のプロセッサ２３２は、１つ以上のプロセッサ２３２によって実施されるべき動作のタイプ（例えば、物体の検出および／または認識を含む、データを処理すること）に従って構成され得る、１つ以上のプログラマブル論理ブロックおよび相互接続（図示せず）を含むことができる。

メモリ２３６は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、ＮＶＲＡＭ、１つ以上のメモリデバイス、フラッシュメモリデバイス、および／またはそれらの組み合わせを含む、１つ以上の非一過性のコンピュータ可読記憶媒体を含むことができる。メモリ２３６は、１つ以上のプロセッサ２３２によってアクセスされ得る、情報を記憶することができる。例えば、メモリ２３６（例えば、１つ以上の非一過性のコンピュータ可読記憶媒体、メモリデバイス）は、取得される、受信される、アクセスされる、書き込まれる、操作される、作成される、および／または記憶され得る、データ２３８を記憶することができる。データ２３８は、本明細書に説明されるように、１つ以上のセンサデバイス２０２、第１段階コンピューティングシステム２１０からの物体データ、現在の物体の状態および予測される物体の場所および／または軌道を含む、検出および／または分類された物体を識別するデータ、運動計画、分類モデル、規則を含むことができる。いくつかの実装では、第２段階コンピューティングシステム２３０は、例えば、１つ以上のセンサデバイス２０２および／または第１段階コンピューティングシステム２１０を含む、第２段階コンピューティングシステム２３０から遠隔にある１つ以上のメモリデバイスから、データを取得することができる。

メモリ２３６はまた、１つ以上のプロセッサ２３２によって実行され得る、コンピュータ可読命令２４０を記憶することもできる。命令２４０は、任意の好適なプログラミング言語で書かれたソフトウェアであり得る、またはハードウェアで実装されることができる。加えて、または代替として、命令２４０は、１つ以上のプロセッサ２３２上の論理上および／または事実上別個のスレッド内で実行されることができる。

さらに、メモリ２３６内に記憶されたデータ２３８および／または命令２４０は、物体データおよび／または物体データと関連付けられるデータ（例えば、第１段階コンピューティングシステム２１０から受信されるデータを受信）に基づいて分類された物体標識を生成するために使用され得る、１つ以上の機械学習モデルを含む、１つ以上の機械学習モデルを含むことができる。いくつかの実施形態では、１つ以上の物体と関連付けられる、分類された物体標識は、機械学習モデルによって生成される、分類された物体標識と同一のフォーマットで生成されることができる。

例えば、第２段階コンピューティングシステム２３０は、メモリ２３６内に記憶された機械学習物体検出および認識モデルを含む、使用する、および／または動作させることができる。機械学習物体検出および認識モデルは、ニューラルネットワーク（例えば、ディープニューラルネットワーク）または他の多層非線形モデルを含む、１つ以上のモデルを含むことができる。

いくつかの実施形態では、第２段階コンピューティングシステム２３０は、機械学習物体検出および認識モデルの中にデータを入力し、出力を受信することができる。例えば、第２段階コンピューティングシステム２３０は、種々の機械学習物体検出および認識モデルを記憶する１つ以上の遠隔コンピューティングデバイスから、機械学習物体検出および認識モデルを示すデータを取得することができる。入力データは、１つ以上の物体（例えば、道路、水域、山、丘、および／または群葉）と関連付けられる、１つ以上の車両、歩行者、自転車乗車者、建物、および／または環境を含む、１つ以上の物体と関連付けられるデータを含むことができる。さらに、入力データは、１つ以上の物体と関連付けられる、物体データ、予測データ（例えば、１つ以上の物体の状態および／または場所を予測するデータ）、運動計画（例えば、１つ以上の物体のための運動計画）、および／またはマップデータを含むことができる。

機械学習物体検出および認識モデルは、入力データを処理し、１つ以上の物体を検出、認識、および／または分類することができる。また、機械学習物体検出および認識モデルは、１つ以上の物体のための１つ以上の相互作用を予測することができる。さらに、第２段階コンピューティングシステム２３０は、機械学習物体検出および認識モデルから出力を取得することができる。機械学習物体検出および認識モデルからの出力は、１つ以上の物体の１つ以上の予測される検出、認識、および／または分類を示し得る。いくつかの実装では、出力はまた、各個別の検出、認識、および／または分類と関連付けられる確率も示し得る。

第２段階コンピューティングシステム２３０はまた、第２段階コンピューティングシステム２３０から遠隔にあるシステムまたはデバイスを含む、１つ以上のシステムまたはデバイスと通信するために使用され得る、通信インターフェース２４２を含むこともできる。通信インターフェース２４２は、１つ以上のネットワークと通信するための任意の回路、コンポーネント、および／またはソフトウェアを含むことができる。いくつかの実装では、通信インターフェース２４２は、例えば、データを通信するための通信コントローラ、受信機、送受信機、伝送機、ポート、導体、ソフトウェア、および／またはハードウェアのうちの１つ以上のものを含むことができる。さらに、第２段階コンピューティングシステム２３０は、１つ以上の信号および／またはデータ（例えば、物体データと関連付けられる１つ以上の信号）を、第１段階コンピューティングシステム２１０および／または１つ以上の出力デバイス２５０を含む、１つ以上のコンピューティングシステムに送信することができる。

１つ以上の出力デバイス２５０は、第１段階コンピューティングシステム２１０および／または第２段階コンピューティングシステム２３０を含む、１つ以上のコンピューティングデバイスまたはコンピューティングシステムから、１つ以上の信号またはデータを受信することができる。１つ以上の出力デバイス２５０は、物体データと関連付けられる１つ以上の視覚画像および／または出力データと関連付けられる出力（例えば、第１段階コンピューティングシステム２１０および／または第２段階コンピューティングシステム２３０による物体データの処理の結果）を生成するために使用される、１つ以上の信号を含む、物体データと関連付けられる１つ以上の信号を受信する（例えば、相互接続２０８を介して第２段階コンピューティングシステム２３０から１つ以上の信号を受信する）ことができる。例えば、１つ以上の出力デバイス２５０は、第２段階コンピューティングシステム２３０からの１つ以上の信号に基づいて、画像および１つ以上の物体を含む画像の部分のインジケーションを含む、視覚出力を生成することができる。

１つ以上の出力デバイス２５０は、１つ以上の出力デバイス２５０によって受信される、１つ以上の信号および／またはデータと関連付けられる表現を生成するために使用される、１つ以上のデバイスを含むことができる。例えば、１つ以上の出力デバイス２５０は、１つ以上のディスプレイデバイス（例えば、有機発光ダイオードディスプレイデバイス、液晶ディスプレイデバイス、陰極線管ディスプレイデバイス、および／またはプラズマディスプレイデバイス）、１つ以上のオーディオ出力デバイス（例えば、ラウドスピーカ）、および／または１つ以上の触覚出力デバイス（例えば、１つ以上の振動を生成し得る圧電デバイス）を含むことができる。図３は、本開示の例示的実施形態による、多段分類子を使用するオーバーヘッドビューからの物体検出の実施例を描写する。出力は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによる、環境の１つ以上の部分の検出、認識、および／または処理に部分的に基づくことができる。また、環境の１つ以上の部分の検出、認識、および／または処理は、１つ以上のデバイスまたはシステム（例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、および／または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００）のハードウェアコンポーネント上でアルゴリズムとして実装されることができる。さらに、図３の多段分類子は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、１つ以上の動作を実施することができる。図示されるように、図３は、出力画像３００、物体３１０、境界形状３１２、物体３１４（例えば、歩行者）、物体３２０（例えば、道路）、物体３２２（例えば、歩道）、およびセグメント３２４を示す。

出力画像３００は、物体データ（例えば、多段分類子システム２００からの物体データ）に基づく、またはそれと関連付けられ得る、画像を描写する。例えば、出力画像３００は、１つ以上のセンサデバイス２０２を含む、１つ以上の画像センサ（例えば、１つ以上のカメラ）からのセンサ出力に部分的に基づくことができる。示されるように、出力画像３００は、物体３１０（例えば、自律走行車両）、境界形状３１２（例えば、物体３１０の周囲の境界形状）、物体３１４（例えば、歩行者）、物体３２０（例えば、道路）、および物体３２２（例えば、歩道）を含む。

図３に示されるように、出力画像３００は、セグメント３２４を含む、複数のセグメントに分割されることができるが、他の実施形態では、出力画像３００は、より多くのセグメント、より少ないセグメントを含むことができる、またはセグメントを全く含まない。いくつかの実施形態では、出力画像３００内の異なるセグメントが、所定のセグメントサイズを有するスライドウィンドウを使用して、取得されることができる。いくつかの実施形態では、出力画像は、異なるスケールを有するデータの複数の表現にサイズ変更されることができる。固定サイズのスライドウィンドウを使用する複数のデータ表現を分析することによって、いくつかの画像表現内のスライドウィンドウによって部分的に捕捉される物体が、１つ以上の他の画像表現内のスライドウィンドウによって完全に捕捉されることができる。

複数のセグメントはそれぞれ、分析される（例えば、多段分類子システム２００によって使用される機械学習物体検出および認識モデルを含む、機械学習分類モデルを使用することによって処理される）ことができる。例えば、多段分類子システム２００内の第１段階コンピューティングシステム２１０は、出力画像３００内の複数のセグメントのそれぞれを処理し、各セグメントが背景（例えば、１つ以上の着目物体を含まないセグメント）または前景（例えば、着目される１つ以上の物体を含むセグメント）の一部に対応するかどうかを決定することができる。本実施例では、セグメント３２４は、セグメント３２４が背景部分を含有することを示すように空である。他の実施形態では、前景および／または背景であるセグメントは、異なるパターン、形状、または色によって示されることができる。さらに、いくつかの実施形態では、複数のセグメントのそれぞれが前景または背景であるかどうかの決定は、例えば、街路、建物、および背景として分類され得る他のエリアを含む、エリアと関連付けられるマップの部分を示し得る、マップデータに部分的に基づくことができる。

依然として図３を参照すると、第１段階コンピューティングシステム（例えば、図２の第１段階コンピューティングシステム２１０）によって前景部分に対応するように決定される出力画像３００のセグメントに関して、そのようなセグメントは、さらなる処理のために、第２段階コンピューティングシステム（例えば、図２の第２段階コンピューティングシステム２３０）に提供されることができる。多段分類子システム２００内の第２段階コンピューティングシステム２３０は、前景部分に対応するように決定される複数のセグメントのそれぞれを処理し、特定の着目物体（例えば、物体３１０（例えば、自律走行車両）、物体３１４（例えば、歩行者））をより具体的に検出および分類することができる。

図４は、本開示の例示的実施形態による、多段分類子による物体検出および決定木の使用の実施例を描写する。出力は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、および／または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによる、環境の１つ以上の部分の検出および／または処理に部分的に基づくことができる。また、環境の１つ以上の部分の検出および処理は、例えば、物体の物理的寸法、位置、形状および／または配向を決定するように、１つ以上のデバイスまたはシステム（例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、および／または動作コンピューティングシステム１５０）のハードウェアコンポーネント上でアルゴリズムとして実装されることができる。さらに、図４の多段分類子は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、１つ以上の動作を実施することができる。図示されるように、図４は、出力画像４００、物体４１０、境界エリア４１２、分類モデル４１４、物体４２０、境界エリア４２２、分類モデル４２４、および歩道エリア４３０を示す。

出力画像４００は、物体データ（例えば、多段分類子システム２００からの物体データ）に基づく、またはそれと関連付けられ得る、画像を描写する。示されるように、出力画像は、物体４１０（例えば、車両）、境界エリア４１２（例えば、物体４１０を囲繞するエリア）、分類モデル４１４（例えば、多段分類子システム２００の第１段階コンピューティングシステム２１０によって使用される機械学習物体検出および認識モデルのうちの１つ以上のものを含む、分類モデル）、物体４２０（例えば、車両ではない物体）、境界エリア４２２（例えば、物体４２０を囲繞するエリア）、および分類モデル４２４（例えば、多段分類子システム２００の第２段階コンピューティングシステムによって使用される機械学習物体検出および認識モデルのうちの１つ以上のものを含む、分類モデル）を含む。

境界エリア４１２内の出力画像４００の一部が、分類モデル４１４への入力として提供されるとき、分類モデル４１４は、境界エリア４１２内で検出される物体が背景ではない（例えば、境界エリア４１２内で検出される物体が着目される）ことを示す、出力を生成することができる。境界エリア４１２内の出力画像４００の一部が、分類モデル４２４への入力として提供されるとき、分類モデル４２４は、境界エリア４１２内で検出される物体が車両であることを示す、出力を生成することができる。

本実施例では、物体４２０（例えば、車両）は、出力画像４００と関連付けられるヒートマップによると、車両によって占有される可能性が低い出力画像４００の一部である、歩道エリア４３０の上に位置する。境界エリア４２２内の出力画像４００の一部が、分類モデル４１４への入力として提供されるとき、分類モデル４１４は、境界エリア４２２内で検出される物体が背景ではない（例えば、境界エリア４２２内で検出される物体が着目される）ことを示す、出力を生成することができる。境界エリア４２２内の出力画像４００の一部が、分類モデル４２４への入力として提供されるとき、分類モデル４２４は、境界エリア４２２内で検出される物体が車両であることを示す、出力を生成することができる。本実施例では、ヒートマップは、車両が境界エリア４２２内にある確率を減少させたが、しかしながら、多段分類子システム２００によって決定される物体４２０の他の特性は、物体４２０が車両であるという決定をもたらし得る。

図５は、本開示の例示的実施形態による、多段分類子による物体検出および決定木の使用の第２の実施例を描写する。出力は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、および／または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによる、環境の１つ以上の部分の検出および／または処理に部分的に基づくことができる。また、環境の１つ以上の部分の検出および処理は、例えば、物体の物理的寸法、位置、形状および／または配向を決定するように、１つ以上のデバイスまたはシステム（例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、および／または動作コンピューティングシステム１５０）のハードウェアコンポーネント上でアルゴリズムとして実装されることができる。さらに、図５の多段分類子は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、こととを含む、１つ以上の動作を実施することができる。図示されるように、図５は、出力画像５００、物体５１０、境界エリア５１２、分類モデル５１４、物体５２０、境界エリア５２２、および分類モデル５２４を示す。

出力画像５００は、物体データ（例えば、多段分類子システム２００からの物体データ）に基づく、またはそれと関連付けられ得る、画像を描写する。示されるように、出力画像は、物体５１０（例えば、歩行者）、境界エリア５１２（例えば、物体５１０を囲繞するエリア）、分類モデル５１４（例えば、多段分類子システム２００の第１段階コンピューティングシステム２１０によって使用される、機械学習物体検出および認識モデルのうちの１つ以上のものを含む、分類モデル）、物体５２０（例えば、歩行者）、境界エリア５２２（例えば、物体５２０を囲繞するエリア）、および分類モデル５２４（例えば、多段分類子システム２００の第２段階コンピューティングシステム２３０によって使用される機械学習物体検出および認識モデルのうちの１つ以上のものを含む、分類モデル）を含む。

境界エリア５１２内の出力画像５００の一部が分類モデル５１４への入力として提供されるとき、分類モデル５１４は、境界エリア５１２内で検出される物体が前景であることを示す、出力を生成することができる。さらに、境界エリア５１２内の出力画像５００の一部が、分類モデル５２４への入力として提供されるとき、分類モデル５２４は、境界エリア５１２内で検出される物体が歩行者であることを示す、出力を生成することができる。

さらに、本実施例では、物体５２０は、マップ（例えば、出力画像５００と関連付けられる地理的地域のマップ）によると、歩行者によって占有される可能性が高い出力画像５００の一部（例えば、歩道部分）である、出力画像の一部の上に位置する。境界エリア５２２内の出力画像５００の一部が、分類モデル５１４への入力として提供されるとき、分類モデル５１４は、境界エリア５２２内で検出される物体が前景であることを示す、出力を生成することができる。さらに、境界エリア５２２内の出力画像５００の一部が、分類モデル５２４への入力として提供されるとき、分類モデル５２４は、境界エリア５２２内で検出される物体が歩行者であることを示す、出力を生成することができる。本実施例では、出力画像５００と関連付けられるマップは、歩行者が境界エリア５２２内にいる確率を増加させ、多段分類子システム２００によって決定される物体５２０の他の特性と併せて、分類モデル５１４は、物体５２０が前景であるという結果を出力し、分類モデル５２４は、物体５２０が歩行者であるという結果を出力した。

図６は、本開示の例示的実施形態による、物体検出および認識の例示的方法のフロー図を描写する。図６に図示される、方法６００の１つ以上の部分は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによって、実装されることができる。また、方法６００の１つ以上の部分は、例えば、物体データを受信すること、１つ以上の物体の特性を決定すること、および１つ以上の物体の検出と関連付けられる物体出力を生成することを含む、物体の多段検出および／または認識を実施するように、（例えば、図１のように）本明細書に説明されるデバイスのハードウェアコンポーネント上のアルゴリズムとして実装されることができる。図６は、例証および議論の目的のために特定の順序で実施される要素を描写する。本明細書で提供される開示を使用する当業者は、本明細書に議論される方法のうちのいずれかの要素が、本開示の範囲から逸脱することなく、種々の方法で適合される、再配列される、拡張される、省略される、組み合わせられる、および／または修正され得ることを理解するであろう。

６０２では、方法６００は、センサデータの１つ以上の部分を備える、物体データを受信することを含むことができる。例えば、多段分類子システム２００の第１段階コンピューティングシステム２１０は、１つ以上のコンピューティングデバイス、および／または１つ以上のセンサデバイス２０２を含む、１つ以上のセンサデバイスから、物体データを受信することができる。

いくつかの実施形態では、センサデータの１つ以上の部分（例えば、センサデータと関連付けられる１つ以上の画像の１つ以上の部分またはセグメント）は、１つ以上のセンサ（例えば、実際の物体および／または現象を検出する物理センサ）および／または１つ以上のシミュレートされたセンサ（例えば、１つ以上のコンピューティングデバイスによって生成される、シミュレートされたセンサ出力）からのセンサ出力に部分的に基づくことができる。１つ以上のセンサは、１つ以上の光検出および測距デバイス（ライダ）、１つ以上のカメラ、１つ以上のレーダデバイス、１つ以上のソナーデバイス、および／または１つ以上の熱画像デバイスを含むことができる。

例えば、センサデータおよび／または物体データの１つ以上の部分は、１つ以上のカメラによって捕捉される画像を含む２次元画像、および／またはライダデバイスによって捕捉される３次元点群を含むことができる。センサデータの１つ以上の部分は、１人以上の歩行者、１つ以上の他の車両、輸送インフラストラクチャ、１人以上の自転車乗車者、および／または１つ以上の建物を含む、１つ以上の物体を検出および／または認識するように分析されることができる。さらに、物体データは、１つ以上の画像内の１つ以上の物体の１つ以上の物理的寸法（例えば、長さ、幅、および／または高さ）と関連付けられる、３次元点のセット（例えば、ｘ、ｙ、およびｚ座標）を含むことができる。

６０４では、方法６００は、センサデータの１つ以上の部分（例えば、６０２におけるセンサデータの１つ以上の部分）の１つ以上の特性を決定することを含むことができる。特に、方法６００は、１つ以上のハードウェアコンポーネント（例えば、ＦＰＧＡを含み得る、構成可能なハードウェアコンポーネント）の使用を含み得る、多段分類（例えば、２つ以上の段階を含む分類）の第１の段階で、第１の機械学習モデル（例えば、第１段階コンピューティングシステム２１０によって使用される機械学習物体検出および認識モデル）に部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することを含むことができる。例えば、第１段階コンピューティングシステム２１０は、１つ以上のセンサデバイス２０２から受信されるセンサデータの１つ以上の部分の１つ以上の特性を決定することができ、街路、建物、空、車両、歩行者、および／または自転車乗車者を含む、１つ以上の物体を検出および／または認識するように訓練された機械学習物体検出および認識モデルを使用して、決定を実施することができる。

いくつかの実施形態では、物体検出システムは、多段分類の第１の段階で、第１の機械学習モデル（例えば、物体データを含み得るデータと関連付けられる第１の機械学習モデルデータ）の第１の部分のトラバーサルに部分的に基づいて、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することができる。いくつかの実施形態では、物体検出システムによって使用される第１の機械学習モデルは、ランダムフォレスト分類子、ニューラルネットワーク、勾配ブースティング、サポートベクタマシン、ロジスティック回帰分類子、および／またはブーステッドフォレスト分類子を含む、１つ以上の分類技法に部分的に基づくことができる。

いくつかの実施形態では、多段分類の第１の段階は、複数の分類子標識（例えば、機械学習モデル分類子標識）と関連付けられる第１の複数のノードを含む、第１の部分のトラバーサルを含むことができる。第１の部分内の第１の複数のノードはそれぞれ、センサデータの１つ以上の部分の１つ以上の第１段階特性を分類、カテゴリ化、および／または決定するために使用される、分類子標識と関連付けられることができる。例えば、多段分類の第１の段階は、背景であるセンサデータの１つ以上の部分（例えば、街路表面および／または空を含む、着目されない物体と関連付けられるセンサデータの１つ以上の部分）の一部、および前景であるセンサデータの１つ以上の部分（例えば、車両、歩行者、および／または自転車乗車者を含む、着目される物体と関連付けられるセンサデータの１つ以上の部分）の一部を含む、１つ以上の第１段階特性の決定を含むことができる。故に、物体検出システムは、物体検出および／または認識の目的のために焦点を当てるべきセンサデータの１つ以上の部分のエリアを事前に（例えば、多段分類の第１または早期段階で）決定することによって、多段分類の第２の段階がセンサデータの１つ以上の部分をより効率的に処理することを可能にする、第１の段階出力（すなわち、１つ以上の第１段階特性と関連付けられるデータ）を提供することができる。

いくつかの実施形態では、多段分類の第１の段階は、ＦＰＧＡ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、またはグラフィックス処理ユニット（ＧＰＵ）を含む、１つ以上のコンピューティングデバイスの１つ以上のハードウェアコンポーネントによって実施されることができる。一例として、ＧＰＵを使用することは、ＧＰＵの並列処理能力を活用することができ、これは、処理有効性を改良し、並行して画像を処理しない他の技法（例えば、１つ以上の画像の連続処理）の速度を超える物体検出、認識、および／または画像処理をもたらし得る。

６０６では、方法６００は、センサデータの１つ以上の部分の特性を決定することを含むことができる。いくつかの実施形態では、方法６００は、多段分類の第２の段階で、センサデータの１つ以上の部分（例えば、６０２および／または６０４におけるセンサデータの１つ以上の部分）の特性、第２の機械学習モデルに部分的に基づく、センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することを含むことができる。例えば、第２段階コンピューティングシステム２３０は、１つ以上のセンサデバイス２０２および／または第１段階コンピューティングシステム２１０から受信されるセンサデータの１つ以上の部分の１つ以上の特性を決定することができ、街路、建物、空、車両、歩行者、および／または自転車乗車者を含む、１つ以上の物体を検出および／または認識するように訓練された機械学習物体検出および認識モデルを使用して、決定を実施することができる。

いくつかの実施形態では、１つ以上の第１段階特性および／または１つ以上の第２段階特性は、それぞれ、第１の機械学習モデルおよび第２の機械学習モデルを使用して決定されることができる。第１の機械学習モデルは、第１の複数の分類子標識と関連付けられる第１の複数のノードを含むことができ、第２の機械学習モデルは、第２の複数の分類子標識と関連付けられる第２の複数のノードを含むことができる。いくつかの実施形態では、第１の機械学習モデル（６０４における機械学習物体検出および認識モデル）および／または第２の機械学習モデル（６０６における機械学習物体検出および認識モデル）は、ニューラルネットワーク、ランダムフォレスト分類子、勾配ブースティング、サポートベクタマシン、ロジスティック回帰分類子、またはブーステッドフォレスト分類子を含む、１つ以上の分類技法に部分的に基づくことができる。

いくつかの実施形態では、６０４において決定される１つ以上の第１段階特性は、センサデータの１つ以上の部分の一部が前景または背景であるとき、または前景または背景であるかどうかのインジケーションを含むことができ、６０６において決定される１つ以上の第２段階特性は、センサデータの１つ以上の部分の前景部分の物体分類を含むことができる。例えば、第１段階コンピューティングシステム２１０は、背景（例えば、空および／または街路表面）を含む、センサデータの１つ以上の部分を決定することができる。これらの背景部分は、第２段階コンピューティングシステムによる後続の分析から除外されることができる。第１段階コンピューティングシステムが、前景を含むセンサデータの１つ以上の部分を決定するとき、次いで、第２段階コンピューティングシステム２３０は、センサデータの１つ以上の前景部分をさらに分析し、その中の物体（例えば、車両および／または歩行者または他の着目物体）を検出および／または分類することができる。

多段分類の第２の段階は、第２の複数の分類子標識と関連付けられる第２の複数のノードを含む、第２の機械学習モデルの実装を含むことができる。例えば、第２の機械学習モデル内の複数のノードはそれぞれ、１つ以上の画像の１つ以上の第１段階特性を分類、カテゴリ化、および／または決定するために使用される、分類子標識と関連付けられることができる。例えば、多段分類の第２の段階は、１つ以上の物体の場所および識別（例えば、１つ以上の画像内の歩行者の場所）を含む、１つ以上の画像の１つ以上の第２段階特性の決定を含むことができる。

多段分類の第２の段階は、第１の段階の出力に部分的に基づく、１つ以上の画像の１つ以上の第２段階特性を決定することを含むことができる。１つ以上の第２段階特性は、１つ以上の第１段階特性を含むことができる（例えば、背景特性が、第１の段階で決定される場合、背景特性が、第２の段階でさらなる信頼のレベルまでさらに決定されることができる）。さらに、１つ以上の第２段階特性は、第１の段階で決定されなかった特性を含むことができる。例えば、１つ以上の物体（例えば、歩行者、車両、および／または自転車乗車者）が、第１の段階で決定されなかった場合、１つ以上の物体は、第２の段階で決定されることができる。

いくつかの実施形態では、第２の機械学習モデルは、第１の機械学習モデル内の第１の複数のノードと等しい、またはそれよりも多数である、第２の複数のノードを含むことができる。例えば、第１の機械学習モデルが、５００個のノードを含むことができる一方で、第２の機械学習モデルは、１，５００個のノードを含むことができる。６０２において受信される物体データのサブセットが、第１の機械学習モデルおよび第２の機械学習モデルの両方によって分析される（例えば、６０６において決定される第２段階特性が、物体データの前景部分に関して決定されることができる）ため、次いで、別個の第１のおよび第２のモデルを使用するデータ処理は、類似性質の２，０００個のノードを含む単一のモデルと比較して、有意により高速であり得る。加えて、第２の機械学習モデルは、より多くの分類子標識を含み得、第１のモデル分析後に１つ以上の物体を検出および／または識別することのさらなる正確度のためにトラバースされ得る、より深い第２のモデル分析を可能にすることができる。

いくつかの実施形態では、多段分類の第２の段階の一部は、１つ以上の中央処理ユニット上で動作する、または実行される、１つ以上のソフトウェアコンポーネントを含む、１つ以上のコンピューティングデバイスの１つ以上のソフトウェアコンポーネント（例えば、１つ以上のプログラム命令を実行するソフトウェアアプリケーション）によって実施されることができる。

６０８では、方法６００は、１つ以上の第１段階特性および１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することを含むことができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを含むことができる。

例えば、多段分類子システム２００は、１つ以上の第１段階特性と関連付けられるデータ（例えば、第１段階コンピューティングシステム２１０によって生成されるデータ）および／または１つ以上の第２段階特性と関連付けられるデータ（例えば、第２段階コンピューティングシステム２３０によって生成されるデータ）に部分的に基づいて、物体出力を生成することができる。物体出力は、センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる、１つ以上のインジケーションまたはサインを含むことができる。いくつかの実施形態では、物体出力は、１つ以上の物体毎に、物体が検出されたかどうか、検出された物体のタイプ、検出される物体の場所、検出される物体の物理的特性、検出される物体の速度および／または加速度、および／または物体検出の推定正確度と関連付けられる確率の１つ以上のインジケーションを含むことができる。

いくつかの実施形態では、６０８において生成される物体出力は、１つ以上の物体の検出に基づいて車両システムをアクティブ化すること（例えば、物体が車両の所定の近接内にあるときにブレーキをアクティブ化すること）、車両の経路を修正すること（例えば、建物、車両、および／または歩行者を含む、物体の周囲で車両を操作する）、および／または物体出力を１つ以上の車両システムまたは遠隔コンピューティングシステムと交信すること（例えば、物体出力が、低減されたセンサーカバレッジまたは容量を有し得る、他の車両による物体検出を改良するように、他の車両に送信されることができる）を含む、１つ以上のアクションを実施するために、１つ以上の車両システム（例えば、自律走行車両を含む車両の動作を制御するために使用される車両システム）によって使用されることができる。

６１０では、方法６００は、６０８において生成される物体出力に部分的に基づいて、１つ以上の画像内の１つ以上の物体と関連付けられる１つ以上の境界形状のための場所を決定することを含むことができる。例えば、多段分類子システム２００は、物体出力に部分的に基づいて、センサデータの１つ以上の部分の中の１つ以上の物体と関連付けられる１つ以上の境界形状（例えば、２次元または３次元境界多角形および／または境界楕円）のための場所を決定することができる。物体検出システムは、第１の機械学習モデルおよび／または第２の機械学習モデルを使用し、物体またはあるタイプの物体を含有する可能性が高い（例えば、地面が画像の下半分の一部であり、空が画像の上半分の一部である画像内で、動力車または自転車乗車者が、画像の上半分よりも画像の下半分内にある可能性が高い）、センサデータの１つ以上の場所またはエリアを決定することができる。

６１２では、方法６００は、非最大抑制を含む画像処理技法に部分的に基づいて、１つ以上の境界形状のための場所のセットを選択することを含むことができる。例えば、多段分類子システム２００は、１つ以上の境界形状を生成する場所のセットを選択することができる。例えば、画像勾配方向を分析することによって、場所のセットのそれぞれに対応するセンサデータの一部に関する極大値の一部ではないピクセルが、抑制されることができる。

６１４では、方法６００は、１つ以上の境界形状のための場所のセットの中で１つ以上の境界形状を生成することを含むことができる。例えば、多段分類子システム２００は、１つ以上の境界形状のための場所のセットに基づいて、選択された場所で１つ以上の境界形状を生成することができる。いくつかの実施形態では、１つ以上の境界形状は、物体が検出されるディスプレイ出力の一部を完全に封入する、または部分的に被覆するように生成される、多角形（例えば、１つ以上の正方形および／または長方形）および／または楕円（例えば、１つ以上の円および／または卵形）として、ディスプレイデバイス（例えば、ＬＣＤディスプレイ）上に表現されることができる。

図７は、本開示の例示的実施形態による、物体検出および認識の例示的方法の第２のフロー図を描写する。図７に図示される方法７００の１つ以上の部分は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによって、実装されることができる。また、方法７００の１つ以上の部分は、例えば、物体データを受信すること、１つ以上の物体の特性を決定すること、および１つ以上の物体の検出と関連付けられる物体出力を生成することを含む、物体の多段検出および／または認識を実施するように、（例えば、図１のように）本明細書に説明されるデバイスのハードウェアコンポーネント上のアルゴリズムとして実装されることができる。図７は、例証および議論の目的のために特定の順序で実施される要素を描写する。本明細書で提供される開示を使用する当業者は、本明細書に議論される方法のうちのいずれかの要素が、本開示の範囲から逸脱することなく、種々の方法で適合される、再配列される、拡張される、省略される、組み合わせられる、および／または修正され得ることを理解するであろう。

７０２では、方法７００は、多段分類の第１の段階（例えば、方法６００における多段分類の第１の段階）で、物体データ（例えば、方法６００における物体データ）に部分的に基づいて、１つ以上の画像（例えば、方法６００における１つ以上の画像）と関連付けられる視覚記述子出力を生成することを含むことができ、視覚記述子出力は、色調情報、色飽和情報、明度情報、および／または配向勾配情報のヒストグラムを含むことができる。いくつかの実施形態では、１つ以上の第１段階特性（例えば、方法６００の１つ以上の第１段階特性）は、視覚記述子出力に部分的に基づいて決定されることができる。例えば、多段分類子システム２００の第１段階コンピューティングシステム２１０は、多段分類の第１の段階で、物体データに部分的に基づいて、１つ以上の画像（例えば、視覚画像）と関連付けられる視覚記述子出力を含む、データを生成することができる。いくつかの実施形態では、１つ以上の第１段階特性は、視覚記述子出力に部分的に基づくことができる（例えば、多段分類子システム２００は、視覚記述子出力を使用し、センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することができる）。例えば、多段分類子システム２００は、明度情報を使用し、空と関連付けられる１つ以上の第１段階特性を決定することができる（例えば、空は、地面よりも明るい傾向があろう）。

７０４では、方法７００は、多段分類の第２の段階（例えば、方法６００における多段分類の第２の段階）で、第１の段階からの視覚記述子出力に部分的に基づいて、１つ以上の画像（例えば、方法６００における１つ以上の画像）と関連付けられるヒートマップを生成することを含むことができる。ヒートマップは、１つ以上の物体のうちの少なくとも１つが複数のエリアのうちの個別のものの内側にある確率と関連付けられる複数のエリアを含むことができる。例えば、多段分類子システム２００は、車両物体が空中にある確率が非常に低い確率であることを示す、ヒートマップを生成することができる。さらに、多段分類子システム２００は、１つ以上の画像を複数のエリアにセグメント化し、複数のエリア毎に、物体がそのエリア内にある確率を決定することができる。いくつかの実施形態では、１つ以上の第２段階特性（例えば、方法６００における１つ以上の第２段階特性）は、ヒートマップに部分的に基づいて決定されることができる。

７０６では、方法７００は、第１の段階からの視覚記述子出力に部分的に基づいて、背景部分と関連付けられる１つ以上の画像の１つ以上の部分を決定することを含むことができる。いくつかの実施形態では、第２の段階で１つ以上の第２段階特性を決定することは、第２の段階で１つ以上の第２段階特性を決定することと、１つ以上の背景画像と関連付けられる１つ以上の画像の１つ以上の部分（例えば、着目されないことが決定される、１つ以上の画像の１つ以上の部分）を除外する（例えば、使用しない）こととを含むことができる。故に、多段分類の第２の段階は、物体データのより小さいサブセット（例えば、１つ以上の画像のうちの前景画像）に計算リソースを集中させ、背景の一部である１つ以上の画像の分析および／または処理に起因するリソースの無駄を回避することによって、より迅速に物体検出および認識を実施することができる。

図８は、本開示の例示的実施形態による、物体検出および認識の例示的方法の第３のフロー図を描写する。図８に図示される方法８００の１つ以上の部分は、例えば、図１に示される車両１０４、車両コンピューティングシステム１０８、または動作コンピューティングシステム１５０、または図２に示される多段分類子システム２００を含む、１つ以上のデバイス（例えば、１つ以上のコンピューティングデバイス）またはシステムによって、実装されることができる。また、方法８００の１つ以上の部分は、例えば、物体データを受信すること、１つ以上の物体の特性を決定すること、および／または１つ以上の物体の検出と関連付けられる物体出力を生成することを含む、物体の多段検出および／または認識を実施するように、（例えば、図１のように）本明細書に説明されるデバイスのハードウェアコンポーネント上のアルゴリズムとして実装されることができる。図８は、例証および議論の目的のために特定の順序で実施される要素を描写する。本明細書で提供される開示を使用する当業者は、本明細書に議論される方法のうちのいずれかの要素が、本開示の範囲から逸脱することなく、種々の方法で適合される、再配列される、拡張される、省略される、組み合わせられる、および／または修正され得ることを理解するであろう。

８０２では、方法８００は、物体データ（例えば、方法６００における物体データ）および第２の機械学習モデル（例えば、方法６００における第２の機械学習モデル）に部分的に基づいて、発生した１つ以上の物体（例えば、方法６００における１つ以上の物体）の１つ以上の第２段階特性（例えば、方法６００における１つ以上の第２段階特性）の誤検出決定の量（例えば、発生数）を決定することを含むことができる。例えば、第２段階コンピューティングシステム２３０は、第１段階コンピューティングシステム２１０から受信される物体データに部分的に基づいて、発生した１つ以上の物体の１つ以上の第２段階特性の誤検出決定の量（例えば、検出されたが、実際には存在しなかった１つ以上の第２段階特性の数の決定）を決定することができる。

いくつかの実施形態では、物体検出システムは、物体データおよび第１の機械学習モデルの後続の第２の機械学習モデルに部分的に基づいて、発生した１つ以上の物体の（第２の機械学習モデルが使用されるときの）１つ以上の第２段階特性の誤検出決定の量を決定することができる。例えば、１つ以上の第２段階特性の誤検出決定は、前景（例えば、横になっている歩行者）である物体データの一部が背景の一部であるという誤決定を含むことができる。多段分類の第２の段階は、続いて、物体データの一部が、背景ではなくて実際には前景であることを正しく決定することができる。故に、誤決定が発生する回数が、決定されることができる（例えば、多段分類子システム２００によって決定される）。

８０４では、方法８００は、発生したと決定される誤検出の量が、所定の閾値レベルを超えるときに、第２の機械学習モデルの一部のトラバーサルを終了すること（例えば、方法６００における第２の分類モデル内の第２の複数のノードのトラバーサルを終了することを含む、第２の決定木のトラバーサルを終了すること）を含むことができる。例えば、第２段階コンピューティングシステム２３０は、第２の機械学習モデルの一部（例えば、第２の決定木）を使用することができる。さらに、多段分類子システム２００は、第２段階コンピューティングシステム２３０による誤検出決定の量が、所定の量（例えば、１つ以上の第２段階特性の総数に対する１つ以上の第２段階特性の誤検出決定の数および／または誤検出決定の割合）を超えるときに、第２段階コンピューティングシステム２３０による第２の機械学習モデルの一部（例えば、第２の決定木）のトラバーサルを終了することができる。

いくつかの実施形態では、第２の分類モデル内の第２の複数のノードのうちの少なくとも１つのノードは、第１の分類モデル（例えば、方法６００における第１の機械学習モデル）内の第１の複数のノード（例えば、方法６００における第１の複数のノード）のうちの端末ノードであり、第２の分類モデルは、第１の複数のノードと等しい数のノードを含むことができ、および／または第２の分類モデルは、第１の複数のノードよりも多数のノードを含む。例えば、第２の分類モデル内の第１のノードは、第１の分類モデル内の端末ノードであり得る。したがって、第２の分類モデルは、第１の分類モデルの継続であり、分類分析を新たに開始することなく、第１の分類モデルを基礎とすることができる。

いくつかの実施形態では、機械学習モデルのトラバーサルを終了するための所定の閾値レベルの決定は、第２の機械学習モデルの一部（例えば、決定木）の種々の深度における前もって確立されたデータセット（例えば、物体の全てが正しく識別された訓練データセット）上の第１の機械学習モデルまたは第２の機械学習モデルの性能（例えば、誤検出率）に基づくことができる。例えば、第２の機械学習モデルの一部（例えば、決定木）のトラバーサルを終了するための所定の閾値レベルは、誤検出の量が、検出された物体の所定の割合（例えば、検出された物体の１パーセント）または画像あたりの物体の所定の数（例えば、画像あたり４つの物体）を超えるときに、第１の機械学習モデルの一部（例えば、第１の決定木）の深度に部分的に基づくことができる。

いくつかの実施形態では、多段分類の第１の段階は、並行して動作するカスタマイズされたデバイス（例えば、カスタマイズされたＦＰＧＡ）上で実施されることができ、センサデータの一部（例えば、画像の一部）が前景または背景であるかどうかを含む、センサデータの１つ以上の部分の１つ以上の第１段階特性を迅速に決定することができる。１つ以上の第１段階特性を決定した後、多段分類の第２の段階は、さらなる深度を伴う（すなわち、ルートノードから端末ノードまでの経路に沿ってより多くのノードを有する）分類モデルを使用し、より高い信頼のレベルで、車両、歩行者、街路、建物、空、および／または自転車乗車者を含む、１つ以上の物体を検出、認識、および／または識別し得る、１つ以上の第２段階特性を決定することができる。

図９は、本開示の例示的実施形態による、第２の例示的システムの略図を描写する。図示されるように、例示的システム９００は、１つ以上のネットワーク９８０を経由して通信可能に結合される（例えば、信号および／またはデータを送信および／または受信するように構成される）、コンピューティングシステム９０２と、機械学習コンピューティングシステム９３０とを含む。さらに、例示的システム９００は、センサデータの部分を含む、物体データを受信することと、多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、センサデータの部分の第１段階特性を決定することと、多段分類の第２の段階で、第２の機械学習モデルに部分的に基づいて、センサデータの部分の第２段階特性を決定することと、第１段階特性および第２段階特性に部分的に基づいて、物体出力を生成することであって、物体出力は、センサデータの部分の中の物体の検出と関連付けられるインジケーションを含む、ことと含む、１つ以上の動作を実施することができる。

いくつかの実装では、コンピューティングシステム９０２は、物体の多段検出および／または認識を含む、種々の動作を実施することができる。いくつかの実装では、コンピューティングシステム９０２は、自律走行車両内に含まれることができる。例えば、コンピューティングシステム９０２は、自律走行車両に内蔵され得る。他の実装では、コンピューティングシステム９０２は、自律走行車両に内蔵されて位置しない。例えば、コンピューティングシステム９０２は、オフラインで動作し、物体の多段検出および／または認識を実施することができる。コンピューティングシステム９０２は、１つ以上の明確に異なる物理的コンピューティングデバイスを含むことができる。

コンピューティングシステム９０２は、１つ以上のプロセッサ９１２と、メモリ９１４とを含む。１つ以上のプロセッサ９１２は、任意の好適な処理デバイス（例えば、プロセッサコア、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡ、コントローラ、および／またはマイクロコントローラ）であり得、１つのプロセッサ、または動作可能に接続される複数のプロセッサであり得る。メモリ９１４は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、１つ以上のメモリデバイス、および／またはフラッシュメモリデバイスを含む、１つ以上の非一過性のコンピュータ可読記憶媒体を含むことができる。

メモリ９１４は、１つ以上のプロセッサ９１２によってアクセスされ得る、情報を記憶することができる。例えば、メモリ９１４（例えば、１つ以上の非一過性のコンピュータ可読記憶媒体および／またはメモリデバイス）は、取得される、受信される、アクセスされる、書き込まれる、操作される、作成される、および／または記憶され得る、データ９１６を記憶することができる。データ９１６は、例えば、本明細書に説明されるような実施例を含むことができる。いくつかの実装では、コンピューティングシステム９０２は、コンピューティングシステム９０２から遠隔にある１つ以上のメモリデバイスから、データを取得することができる。

メモリ９１４はまた、１つ以上のプロセッサ９１２によって実行され得る、コンピュータ可読命令９１８を記憶することもできる。命令９１８は、任意の好適なプログラミング言語で書かれたソフトウェアであり得る、またはハードウェアで実装されることができる。加えて、または代替として、命令９１８は、１つ以上のプロセッサ９１２上の論理上および／または事実上別個のスレッド内で実行されることができる。

例えば、メモリ９１４は、１つ以上のプロセッサ９１２によって実行されると、１つ以上のプロセッサ９１２に、例えば、物体の多段検出および／または認識を実施することを含む、本明細書に説明される動作および／または機能のうちのいずれかを実施させる、命令９１８を記憶することができる。

本開示の側面によると、コンピューティングシステム９０２は、１つ以上の機械学習モデル９１０を記憶する、または含むことができる。実施例として、１つ以上の機械学習モデル９１０は、例えば、ニューラルネットワーク（例えば、ディープニューラルネットワーク）、サポートベクタマシン、決定木、アンサンブルモデル、ｋ－近傍モデル、ベイジアンネットワーク、ロジスティック回帰分類、ブーステッドフォレスト分類、または線形モデルおよび／または非線形モデルを含む他のタイプのモデルを含む、種々の機械学習モデルを含むことができる。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク（例えば、長短期メモリリカレントニューラルネットワーク）、または他の形態のニューラルネットワークを含む。１つ以上の機械学習モデル９１０は、例えば、図２の多段分類子システム２００内の第１段階コンピューティングシステム２１０と関連付けられる第１の機械学習モデルおよび／または第２段階コンピューティングシステム２３０と関連付けられる第２の機械学習モデルを含むことができる。

いくつかの実装では、コンピューティングシステム９０２は、１つ以上のネットワーク９８０を経由して、機械学習コンピューティングシステム９３０から１つ以上の機械学習モデル９１０を受信することができ、メモリ９１４内に１つ以上の機械学習モデル９１０を記憶することができる。コンピューティングシステム９０２は、次いで、（例えば、１つ以上のプロセッサ９１２によって）１つ以上の機械学習モデル９１０を使用する、または別様に実装することができる。特に、コンピューティングシステム９０２は、１つ以上の機械学習モデル９１０を実装し、物体の多段検出および／または認識を実施することができる。

機械学習コンピューティングシステム９３０は、１つ以上のプロセッサ９３２と、メモリ９３４とを含む。１つ以上のプロセッサ９３２は、任意の好適な処理デバイス（例えば、プロセッサコア、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡ、コントローラ、および／またはマイクロコントローラ）であり得、１つのプロセッサ、または動作可能に接続される複数のプロセッサであり得る。メモリ９３４は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、１つ以上のメモリデバイス、および／またはフラッシュメモリデバイスを含む、１つ以上の非一過性のコンピュータ可読記憶媒体を含むことができる。

メモリ９３４は、１つ以上のプロセッサ９３２によってアクセスされ得る、情報を記憶することができる。例えば、メモリ９３４（例えば、１つ以上の非一過性のコンピュータ可読記憶媒体、メモリデバイス）は、取得される、受信される、アクセスされる、書き込まれる、操作される、作成される、および／または記憶され得る、データ９３６を記憶することができる。データ９３６は、例えば、本明細書に説明されるような実施例を含むことができる。いくつかの実装では、機械学習コンピューティングシステム９３０は、機械学習コンピューティングシステム９３０から遠隔にある１つ以上のメモリデバイスから、データを取得することができる。

メモリ９３４はまた、１つ以上のプロセッサ９３２によって実行され得る、コンピュータ可読命令９３８を記憶することもできる。命令９３８は、任意の好適なプログラミング言語で書かれたソフトウェアであり得る、またはハードウェアで実装されることができる。加えて、または代替として、命令９３８は、１つ以上のプロセッサ９３２上の論理上および／または事実上別個のスレッド内で実行されることができる。

例えば、メモリ９３４は、１つ以上のプロセッサ９３２によって実行されると、１つ以上のプロセッサ９３２に、例えば、物体の多段検出および／または認識を実施することを含む、本明細書に説明される動作および／または機能のうちのいずれかを実施させる、命令９３８を記憶することができる。

いくつかの実装では、機械学習コンピューティングシステム９３０は、１つ以上のサーバコンピューティングデバイスを含む。機械学習コンピューティングシステム９３０が、複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、例えば、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらのある組み合わせを含む、種々のコンピューティングアーキテクチャに従って動作することができる。

コンピューティングシステム９０２における１つ以上の機械学習モデル９１０に加えて、または代替として、機械学習コンピューティングシステム９３０は、１つ以上の機械学習モデル９４０を含むことができる。実施例として、１つ以上の機械学習モデル９４０は、例えば、ニューラルネットワーク（例えば、ディープニューラルネットワーク）、サポートベクタマシン、決定木、アンサンブルモデル、ｋ－近傍モデル、ベイジアンネットワーク、ロジスティック回帰分類、ブーステッドフォレスト分類、または線形モデルおよび／または非線形モデルを含む他のタイプのモデルを含む、種々の機械学習モデルを含むことができる。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク（例えば、長短期メモリリカレントニューラルネットワーク、または他の形態のニューラルネットワーク）を含む。

実施例として、機械学習コンピューティングシステム９３０は、クライアント－サーバ関係に従って、コンピューティングシステム９０２と通信することができる。例えば、機械学習コンピューティングシステム９３０は、１つ以上の機械学習モデル９４０を実装し、ウェブサービスをコンピューティングシステム９０２に提供することができる。例えば、ウェブサービスは、検出および／または認識された物体のタイプ、識別、および／またはクラスを含む、結果を提供することができる。

したがって、１つ以上の機械学習モデル９１０は、コンピューティングシステム９０２において位置し、使用されることができ、および／または１つ以上の機械学習モデル９４０は、機械学習コンピューティングシステム９３０において位置し、使用されることができる。

いくつかの実装では、機械学習コンピューティングシステム９３０および／またはコンピューティングシステム９０２は、モデルトレーナ９６０の使用を通して、１つ以上の機械学習モデル９１０および／または１つ以上の機械学習モデル９４０を訓練することができる。モデルトレーナ９６０は、１つ以上の訓練または学習アルゴリズムを使用して、１つ以上の機械学習モデル９１０および／または１つ以上の機械学習モデル９４０を訓練することができる。１つの例示的訓練技法は、誤差の後方伝搬である。いくつかの実装では、モデルトレーナ９６０は、標識訓練データのセットを使用して、監視下訓練技法を実施することができる。他の実装では、モデルトレーナ９６０は、非標識訓練データのセットを使用して、無監視訓練技法を実施することができる。モデルトレーナ９６０は、いくつかの一般化技法を実施し、訓練されているモデルの一般化能力を改良することができる。一般化技法は、加重減衰、ドロップアウト、または他の技法を含む。

特に、モデルトレーナ９６０は、訓練データ９６２のセットに基づいて、１つ以上の機械学習モデル９１０および／または１つ以上の機械学習モデル９４０を訓練することができる。訓練データ９６２は、例えば、１つ以上の物体の種々の特徴を含むことができる。モデルトレーナ９６０は、１つ以上のプロセッサを制御する、ハードウェア、ファームウェア、および／またはソフトウェアで実装されることができる。

コンピューティングシステム９０２はまた、コンピューティングシステム９０２から遠隔に位置するシステムまたはデバイスを含む、１つ以上のシステムまたはデバイスと通信するために使用される、ネットワークインターフェース９２４を含むこともできる。ネットワークインターフェース９２４は、１つ以上のネットワーク（例えば、１つ以上のネットワーク９８０）と通信するための任意の回路、コンポーネント、ソフトウェアを含むことができる。いくつかの実装では、ネットワークインターフェース９２４は、例えば、データを通信するための通信コントローラ、受信機、送受信機、伝送機、ポート、導体、ソフトウェア、および／またはハードウェアのうちの１つ以上のものを含むことができる。さらに、機械学習コンピューティングシステム９３０は、ネットワークインターフェース９６４を含むことができる。

１つ以上のネットワーク９８０は、デバイスの間の通信を可能にする、任意のタイプのネットワークまたはネットワークの組み合わせを含むことができる。いくつかの実施形態では、１つ以上のネットワーク９８０は、ローカルエリアネットワーク、広域エリアネットワーク、インターネット、セキュアネットワーク、セルラーネットワーク、メッシュネットワーク、ピアツーピア通信リンク、および／またはそれらのある組み合わせのうちの１つ以上のものを含むことができ、任意の数の有線または無線リンクを含むことができる。１つ以上のネットワーク９８０を経由した通信は、例えば、任意のタイプのプロトコル、保護スキーム、エンコーディング、フォーマット、および／またはパッケージングを使用する、ネットワークインターフェースを介して、遂行されることができる。

図９は、本開示を実装するために使用され得る、１つの例示的コンピューティングシステム９００を図示する。他のコンピューティングシステムも、使用されることができる。例えば、いくつかの実装では、コンピューティングシステム９０２は、モデルトレーナ９６０と、訓練データ９６２とを含むことができる。そのような実装では、１つ以上の機械学習モデル９１０は、コンピューティングシステム９０２においてローカルで訓練および使用の両方を行われることができる。別の実施例として、いくつかの実装では、コンピューティングシステム９０２は、他のコンピューティングシステムに接続されない。

加えて、コンピューティングシステム９０２または９３０のうちの１つの中に含まれるものとして図示および／または議論されるコンポーネントが、代わりに、コンピューティングシステム９０２または９３０のうちの別のものの中に含まれることができる。そのような構成は、本開示の範囲から逸脱することなく実装されることができる。コンピュータベースのシステムの使用は、コンポーネントの間で、かつその中から、タスクおよび機能性の多種多様な可能性として考えられる構成、組み合わせ、および分割を可能にする。コンピュータ実装動作は、単一のコンポーネント上で、または複数のコンポーネントを横断して、実施されることができる。コンピュータ実装タスクおよび／または動作は、連続的に、または並行して実施されることができる。データおよび命令は、単一のメモリデバイス内に、または複数のメモリデバイスを横断して、記憶されることができる。

本主題は、その具体的な例示的実施形態および方法に関して詳細に説明されたが、当業者が、前述の理解を獲得することに応じて、そのような実施形態の改変、変形例、または均等物を容易に生成し得ることを理解されたい。故に、本開示の範囲は、限定ではなく、一例としてのものであり、本開示は、当業者に容易に明白となるであろうような本主題の修正、変形例、および／または追加の包含を除外しない。

Claims

自律走行車両動作のコンピュータ実装方法であって、前記コンピュータ実装方法は、
１つ以上のコンピューティングデバイスを備えるコンピューティングシステムによって、センサデータの１つ以上の部分を備える物体データを受信することと、
前記コンピューティングシステムによって、１つ以上のハードウェアコンポーネントを使用する多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することと、
ここで、前記１つ以上の第１段階特性は、前記センサデータの１つ以上の部分の一部が、前景または背景であるときのインジケーションを備え、
ここで、前記センサデータの１つ以上の部分が前景または背景であるという決定は、自律走行車両の進行するエリアに関連するマップデータに基づき、
前記コンピューティングシステムによって、前記多段分類の第２の段階で、前記第１の段階で決定された前記１つ以上の第１段階特性に基づいて、および、第２の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することと、
前記コンピューティングシステムによって、前記１つ以上の第１段階特性および前記１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することであって、前記物体出力は、前記センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを備え、
ここで、前記１つ以上の第２段階特性は、前記センサデータの１つ以上の部分の前景部分の物体分類を備える、ことと、
を含む、コンピュータ実装方法。
前記１つ以上のハードウェアコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、またはグラフィックス処理ユニット（ＧＰＵ）を備える、請求項１に記載のコンピュータ実装方法。
前記センサデータの１つ以上の部分は、１つ以上の画像を備え、
前記コンピューティングシステムによって、前記第１の段階で、前記物体データに部分的に基づいて、前記１つ以上の画像と関連付けられる視覚記述子出力を生成することであって、前記視覚記述子出力は、色調情報、色飽和情報、明度情報、または配向勾配情報のヒストグラムを備え、前記１つ以上の第１段階特性は、前記視覚記述子出力に部分的に基づいて決定される、こと
をさらに含む、請求項１または請求項２に記載のコンピュータ実装方法。
前記コンピューティングシステムによって、前記第２の段階で、前記第１の段階からの前記視覚記述子出力に部分的に基づいて、前記１つ以上の画像と関連付けられるヒートマップを生成することであって、前記ヒートマップは、前記１つ以上の物体のうちの少なくとも１つが複数のエリアのうちの個別のものの内側にある確率と関連付けられる複数のエリアを備え、前記１つ以上の第２段階特性は、前記ヒートマップに部分的に基づいて決定される、こと
をさらに含む、請求項３に記載のコンピュータ実装方法。
前記多段分類の前記第２の段階で、前記第１の段階で決定された前記１つ以上の第１段階特性に基づいて、および、前記第２の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の前記１つ以上の第２段階特性を決定することは、
前記コンピューティングシステムによって、前記１つ以上の背景部分と関連付けられる前記１つ以上の画像の１つ以上の部分を除外することとを含む、請求項３または請求項４に記載のコンピュータ実装方法。
前記１つ以上の第１段階特性および前記１つ以上の第２段階特性は、それぞれ、前記第１の機械学習モデルおよび前記第２の機械学習モデルのトラバーサルに部分的に基づいており、前記第１の機械学習モデルは、第１の複数の分類子標識と関連付けられる第１の複数のノードを備え、前記第２の機械学習モデルは、第２の複数の分類子標識と関連付けられる第２の複数のノードを備える、請求項１－請求項５のいずれかに記載のコンピュータ実装方法。
前記コンピューティングシステムによって、前記物体データおよび前記第２の機械学習モデルに部分的に基づいて、発生した前記１つ以上の物体の１つ以上の第２段階特性の誤検出決定の量を決定することと、
前記コンピューティングシステムによって、発生したと決定される前記誤検出の量が所定の閾値レベルを超えるときに、第２の決定木のトラバーサルを終了することと、
をさらに含む、請求項６に記載のコンピュータ実装方法。
前記第２の機械学習モデル内の前記第２の複数のノードのうちの少なくとも１つのノードは、前記第１の機械学習モデル内の前記第１の複数のノードのうちの端末ノードであり、前記第２の機械学習モデルは、前記第１の複数のノードと等しい数のノードを備える、または、前記第２の機械学習モデルは、前記第１の複数のノードよりも多数のノードを備える、請求項６または請求項７に記載のコンピュータ実装方法。
前記コンピューティングシステムによって、前記物体出力に部分的に基づいて、前記センサデータの１つ以上の部分の中の前記１つ以上の物体と関連付けられる１つ以上の境界形状のための場所を決定することと、
前記コンピューティングシステムによって、非最大抑制を含む画像処理技法に部分的に基づいて、前記１つ以上の境界形状のための場所のセットを選択することと
前記コンピューティングシステムによって、前記１つ以上の境界形状のための前記場所のセットの中で前記１つ以上の境界形状を生成することと、
をさらに含む、請求項１－請求項８のいずれかに記載のコンピュータ実装方法。
前記センサデータの１つ以上の部分は、１つ以上のセンサからのセンサ出力に部分的に基づいており、前記１つ以上のセンサは、１つ以上の光検出および測距デバイス（ライダ）、１つ以上のカメラ、１つ以上のレーダデバイス、１つ以上のソナーデバイス、または１つ以上の熱画像デバイスを備える、請求項１－請求項９のいずれかに記載のコンピュータ実装方法。
前記第１の機械学習モデルまたは前記第２の機械学習モデルは、１つ以上の分類技法に部分的に基づいており、前記１つ以上の分類技法は、ニューラルネットワーク、ランダムフォレスト分類子、勾配ブースティング、サポートベクタマシン、ロジスティック回帰分類子、またはブーステッドフォレスト分類子を含む、請求項１－請求項１０のいずれかに記載のコンピュータ実装方法。
１つ以上の有形の非一過性コンピュータ可読媒体であって、前記１つ以上の有形の非一過性コンピュータ可読媒体は、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令は、１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに動作を実施させ、前記動作は、
センサデータの１つ以上の部分を備える物体データを受信することと、
多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することと、
ここで、前記１つ以上の第１段階特性は、前記センサデータの１つ以上の部分の一部が、前景または背景であるときのインジケーションを備え、
ここで、前記センサデータの１つ以上の部分が前景または背景であるという決定は、自律走行車両の進行するエリアに関連するマップデータに基づき、
前記多段分類の第２の段階で、前記第１の段階の１つ以上の第１段階特性基づいて、および、第２の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することと、
前記１つ以上の第１段階特性および前記１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することであって、前記物体出力は、前記センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを備え、
ここで、前記１つ以上の第２段階特性は、前記センサデータの１つ以上の部分の前景部分の物体分類を備える、ことと、
を含む、１つ以上の有形の非一過性コンピュータ可読媒体。
前記センサデータの１つ以上の部分は、１つ以上の画像を備え、
前記第１の段階で、前記物体データに部分的に基づいて、前記１つ以上の画像と関連付けられる視覚記述子出力を生成することであって、前記視覚記述子出力は、色調情報、色飽和情報、明度情報、または配向勾配情報のヒストグラムを備え、前記１つ以上の第１段階特性は、前記視覚記述子出力に部分的に基づいて決定される、こと、
をさらに含む、請求項１２に記載の１つ以上の有形の非一過性コンピュータ可読媒体。
前記物体出力に部分的に基づいて、前記センサデータの１つ以上の部分の中の前記１つ以上の物体と関連付けられる１つ以上の境界形状のための場所を決定することと、
非最大抑制を含む画像処理技法に部分的に基づいて、前記１つ以上の境界形状のための場所のセットを選択することと、
前記１つ以上の境界形状のための前記場所のセットの中で前記１つ以上の境界形状を生成することと、
をさらに含む、請求項１２または請求項１３に記載の１つ以上の有形の非一過性コンピュータ可読媒体。
コンピューティングシステムであって、
１つ以上のプロセッサと、
１つ以上のコンピュータ可読媒体を備えるメモリであって、前記メモリは、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
センサデータの１つ以上の部分を備える物体データを受信することと、
１つ以上のハードウェアコンポーネントを使用する多段分類の第１の段階で、第１の機械学習モデルに部分的に基づいて、前記センサデータの１つ以上の部分の１つ以上の第１段階特性を決定することと、
ここで、前記１つ以上の第１段階特性は、前記センサデータの１つ以上の部分の一部が、前景または背景であるときのインジケーションを備え、
ここで、前記センサデータの１つ以上の部分が前景または背景であるという決定は、自律走行車両の進行するエリアに関連するマップデータに基づき、
前記多段分類の第２の段階で、前記第１の段階の１つ以上の第１段階特性基づいて、および、第２の機械学習モデルに部分的に基づいて前記センサデータの１つ以上の部分の１つ以上の第２段階特性を決定することと、
前記１つ以上の第１段階特性および前記１つ以上の第２段階特性に部分的に基づいて、物体出力を生成することであって、前記物体出力は、前記センサデータの１つ以上の部分の中の１つ以上の物体の検出と関連付けられる１つ以上のインジケーションを備え、
ここで、前記１つ以上の第２段階特性は、前記センサデータの１つ以上の部分の前景部分の物体分類を備える、ことと、
を含む動作を実施させる、メモリと、
を備える、コンピューティングシステム。
前記１つ以上のハードウェアコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、またはグラフィックス処理ユニット（ＧＰＵ）を備える、請求項１５に記載のコンピューティングシステム。
前記センサデータの１つ以上の部分は、１つ以上の画像を備え、
前記第１の段階で、前記物体データに部分的に基づいて、前記１つ以上の画像と関連付けられる視覚記述子出力を生成することであって、前記視覚記述子出力は、色調情報、色飽和情報、明度情報、または配向勾配情報のヒストグラムを備え、前記１つ以上の第１段階特性は、前記視覚記述子出力に部分的に基づいて決定される、こと、
をさらに含む、請求項１５または請求項１６に記載のコンピューティングシステム。
前記１つ以上の第１段階特性および前記１つ以上の第２段階特性は、それぞれ、前記第１の機械学習モデルの第１の決定木および前記第２の機械学習モデルの第２の決定木のトラバーサルに部分的に基づいており、前記第１の決定木は、第１の複数の分類子標識と関連付けられる第１の複数のノードを備え、前記第２の決定木は、前記第１の決定木に部分的に基づいており、第２の複数の分類子標識と関連付けられる第２の複数のノードを備える、請求項１５－請求項１７のいずれかに記載のコンピューティングシステム。
前記物体出力に部分的に基づいて、前記センサデータの１つ以上の部分の中の前記１つ以上の物体と関連付けられる１つ以上の境界形状のための場所を決定することと、
非最大抑制を含む画像処理技法に部分的に基づいて、前記１つ以上の境界形状のための場所のセットを選択することと、
前記１つ以上の境界形状のための前記場所のセットの中で前記１つ以上の境界形状を生成することと、
をさらに含む、請求項１５－請求項１８のいずれかに記載のコンピューティングシステム。