JP2020047267A

JP2020047267A - シーン分類

Info

Publication number: JP2020047267A
Application number: JP2019157101A
Authority: JP
Inventors: ナラヤナンアスマナラヤン・ラクシュミー; Lakshmi Narayanan Athmanarayanan; イシュ・ドゥヴィヴェーディー; Dwivedi Isht; ベザド・ダーリウーシュ; Dariush Behzad
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-09-14
Filing date: 2019-08-29
Publication date: 2020-03-26
Anticipated expiration: 2039-08-29
Also published as: CN110909587A; US20200089969A1; US11195030B2; CN110909587B; JP6935467B2

Abstract

【課題】自動化した人間レベルの動的シーン認識を達成できるシーン分類方法を提供する。【解決手段】画像キャプチャデバイスにおいてシーン分類のための方法は、移動車両から環境の一連の画像フレームをキャプチャする。時間的分類子は、画像フレームを時間的予測に分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた一連の画像フレームを生成する。時間的分類子は、畳み込みニューラルネットワーク（ＣＮＮ）、長短期メモリ（ＬＳＴＭ）ネットワーク及び完全に接続された層に基づいて、画像フレームの分類を実行する。シーン分類子は、ＣＮＮ、グローバル平均プーリング及び完全に接続された層に基づいて、画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する。【選択図】図２

Description

運転シナリオでは、人間によるシーンの理解は、場所、環境条件、及び交通参加者行動に関する質問に答えることを含む。興味深いことに、人間は、シーン内のオブジェクトにほとんど注意を払うことなく、動的シーン認識を迅速かつ正確に実行することができる。人間のドライバは、複雑な交通シーンを分類し、それらの環境に基づいてそれらの運転行動を適応させる顕著な能力を有する。この点に関して、自動化した人間レベルの動的シーン認識は、したがって、達成するための魅力的な目標であり得る。

一態様によれば、シーン分類のためのシステムは、画像キャプチャデバイスと、画像セグメンテーションモジュールと、画像マスカーと、時間的分類子と、シーン分類子と、を含み得る。画像キャプチャデバイスは、移動車両から環境の第１の一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュールは、第１の畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）に基づいて、環境内の１人以上の交通参加者を識別することができる。画像マスカーは、環境から交通参加者のうちの１人以上をマスキングすることによって、第２の一連の画像フレームを生成することができる。時間的分類子は、第２の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第３の一連の画像フレームを生成することができる。時間的分類子は、第２のＣＮＮ、長短期メモリ（long short-term memory、ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、第３の一連の画像フレームの１つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。

２つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。第１のＣＮＮ、第２のＣＮＮ、又は第３のＣＮＮは、ディープネットＣＮＮ又はＲｅｓＮｅｔ５０ＣＮＮであってもよい。シーン分類のためのシステムは、車両に実装されてもよく、車両は、シーン予測に基づいて、車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化するコントローラを含んでもよい。

シーン分類子は、第３の一連の画像フレームの１つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類することができ、コントローラは、天候分類に基づいて、車両のセンサのうちの１つ以上、又は車両システムのうちの１つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第３の一連の画像フレームの１つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類することができ、コントローラは、路面分類に基づいて、車両のセンサのうちの１つ以上、又は車両システムのうちの１つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第３の一連の画像フレームの１つ以上の画像フレームを、都市、ランプ、高速道路、又はローカルを含む環境分類に分類することができ、コントローラは、環境分類に基づいて、車両のセンサのうちの１つ以上、又は車両システムのうちの１つ以上をアクティブ化又は非アクティブ化することができる。

車両システムのうちの１つ以上は、ＬＩＤＡＲシステム又はレーダーシステムであってもよい。コントローラは、シーン予測がトンネルであることに基づいて、ＬＩＤＡＲシステム又はレーダーシステムを非アクティブ化することができる。コントローラは、シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索を優先順位付けすることができる。

一態様によれば、シーン分類のためのシステムを装備した車両は、画像キャプチャデバイスと、画像セグメンテーションモジュールと、画像マスカーと、時間的分類子と、シーン分類子と、コントローラと、を含み得る。画像キャプチャデバイスは、移動車両から環境の第１の一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュールは、第１の畳み込みニューラルネットワーク（ＣＮＮ）に基づいて、環境内の１人以上の交通参加者を識別することができる。画像マスカーは、環境から交通参加者のうちの１人以上をマスキングすることによって、第２の一連の画像フレームを生成することができる。時間的分類子は、第２の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第３の一連の画像フレームを生成することができる。時間的分類子は、第２のＣＮＮ、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、第３の一連の画像フレームの１つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。コントローラは、シーン予測に基づいて、車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化することができる。

２つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。第１のＣＮＮ、第２のＣＮＮ、又は第３のＣＮＮは、ディープネットＣＮＮ又はＲｅｓＮｅｔ５０ＣＮＮであってもよい。車両システムのうちの１つ以上は、ＬＩＤＡＲシステム又はレーダーシステムであってもよく、コントローラは、シーン予測がトンネルであることに基づいて、ＬＩＤＡＲシステム又はレーダーシステムを非アクティブすることができる。

一態様によれば、シーン分類のためのシステムは、画像キャプチャデバイスと、時間的分類子と、シーン分類子と、を含み得る。画像キャプチャデバイスは、移動車両から環境の第１の一連の画像フレームをキャプチャすることができる。時間的分類子は、第１の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第２の一連の画像フレームを生成することができる。時間的分類子は、畳み込みニューラルネットワーク（ＣＮＮ）、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第２のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、第２の一連の画像フレームの１つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。

２つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。ＣＮＮ又は第２のＣＮＮは、ＲｅｓＮｅｔ５０ＣＮＮであり得る。シーン分類のためのシステムは、車両に実装されてもよく、車両は、シーン予測に基づいて、車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化するコントローラを含んでもよい。

シーン分類子は、第３の一連の画像フレームの１つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類することができる。コントローラは、天候分類に基づいて、車両のセンサのうちの１つ以上又は車両システムのうちの１つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第３の一連の画像フレームの１つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類することができる。コントローラは、路面分類に基づいて、車両のセンサのうちの１つ以上又は車両システムのうちの１つ以上をアクティブ化又は非アクティブ化することができる。

一態様による、シーン分類のためのシステムの構成要素図である。

一態様による、シーン分類のための方法のフロー図である。

一態様による、シーン分類と関連付けられた時間的予測又は予測の例示的な図である。

一態様による、様々なシーン分類と関連付けられた時間的予測又は予測の例示的な図である。一態様による、様々なシーン分類と関連付けられた時間的予測又は予測の例示的な図である。

図１のシーン分類のためのシステムを訓練することと関連付けられたアーキテクチャの例示的な図である。

一態様による、本明細書に記載される提供のうちの１つ以上を具現化するように構成されたプロセッサ実行可能命令を含む、例示的なコンピュータ可読媒体又はコンピュータ可読デバイスの図である。

一態様による、本明細書に記載される提供のうちの１つ以上が実装される、例示的なコンピューティング環境の図である。

以下の用語は、本開示全体を通して使用され、その定義は、本開示の１つ以上の態様の理解を支援するために本明細書で提供される。

本明細書で使用される場合、「プロセッサ」という用語は、信号を処理し、一般的なコンピューティング及び演算機能を実行する。プロセッサによって処理された信号は、デジタル信号、データ信号、コンピュータ命令、プロセッサ命令、メッセージ、ビット、ビットストリーム、又は受信、送信、及び／若しくは検出され得る他の手段を含んでもよい。一般に、プロセッサは、複数の単一及びマルチコアプロセッサ及びコプロセッサ並びに他の複数の単一及びマルチコアプロセッサ及びコプロセッサアーキテクチャを含む、多種の様々なプロセッサであってもよい。プロセッサは、様々な機能を実行するための様々なモジュールを含んでもよい。

本明細書で使用される場合、「メモリ」という用語は、揮発性メモリ及び／又は不揮発性メモリを含み得る。不揮発性メモリには、例えば、ＲＯＭ（read only memory、読取り専用メモリ）、ＰＲＯＭ（programmable read only memory、プログラマブル読取り専用メモリ）、ＥＰＲＯＭ（erasable PROM、消去可能なＰＲＯＭ）、及びＥＥＰＲＯＭ（electrically erasable PROM、電気的消去可能なＰＲＯＭ）が含まれ得る。揮発性メモリは、例えば、ＲＡＭ（random access memory、ランダムアクセスメモリ）、同期ＲＡＭ（synchronous RAM、ＳＲＡＭ）、ダイナミックＲＡＭ（dynamic RAM、ＤＲＡＭ）、シンクロナスＤＲＡＭ（synchronous DRAM、ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（double data rate SDRAM、ＤＤＲＳＤＲＡＭ）、及びダイレクトＲＡＭバスＲＡＭ（direct RAM bus RAM、ＤＲＲＡＭ）を含み得る。メモリは、コンピューティングデバイスのリソースを制御する又は割り振る、オペレーティングシステムを記憶することができる。

本明細書で使用される場合、「ディスク」又は「ドライブ」という用語は、磁気ディスクドライブ、ソリッドステートディスクドライブ、フロッピーディスクドライブ、テープドライブ、Ｚｉｐドライブ、フラッシュメモリカード、及び／又はメモリスティックであってもよい。更に、ディスクは、ＣＤ−ＲＯＭ（compact disk ROM、コンパクトディスクＲＯＭ）、ＣＤ記録可能ドライブ（CD recordable drive、ＣＤ−Ｒドライブ）、ＣＤ書き換え可能ドライブ（CD rewritable drive、ＣＤ−ＲＷドライブ）、及び／又はデジタルビデオＲＯＭドライブ（digital video ROM、ＤＶＤ−ＲＯＭ）であってもよい。ディスクは、コンピューティングデバイスのリソースを制御する又は割り振る、オペレーティングシステムを記憶することができる。

本明細書で使用される場合、「バス」という用語は、コンピュータ内部又はコンピュータ間の他のコンピュータ構成要素に動作可能に接続された、相互接続されたアーキテクチャを指す。バスは、コンピュータ構成要素間でデータを転送することができる。バスは、とりわけ、メモリバス、メモリコントローラ、周辺バス、外部バス、クロスバースイッチ、及び／又はローカルバスとすることができる。バスはまた、とりわけ、媒体配向システム輸送（Media Oriented Systems Transport、ＭＯＳＴ）、コントローラエリアネットワーク（Controller Area network、ＣＡＮ）、ローカル相互接続ネットワーク（Local Interconnect Network、ＬＩＮ）などのプロトコルを使用して、車両内部の構成要素を相互接続する、車両バスであってもよい。

本明細書で使用される場合、「データベース」という用語は、テーブル、１セットのテーブル、及び１セットのデータストア（例えば、ディスク）、並びに／又はそれらのデータストアにアクセス及び／又は操作するための方法を指し得る。

「動作可能な接続」、又はエンティティが「動作可能に接続される」ことによる接続は、信号、物理的通信、及び／又は論理的通信が、送信及び／又は受信され得るものである。動作可能な接続は、無線インターフェース、物理的インターフェース、データインターフェース、及び／又は電気インターフェースを含んでもよい。

本明細書で使用される場合、「コンピュータ通信」という用語は、２つ以上のコンピューティングデバイス（例えば、コンピュータ、パーソナルデジタルアシスタント、セルラー電話、ネットワークデバイス）間の通信を指し、例えば、ネットワーク転送、ファイル転送、アプレット転送、電子メール、ハイパーテキスト転送プロトコル（hypertext transfer protocol、ＨＴＴＰ）転送などであってもよい。コンピュータ通信は、例えば、とりわけ、無線システム（例えば、ＩＥＥＥ８０２．１１）、イーサネットシステム（例えば、ＩＥＥＥ８０２．３）、トークンリングシステム（例えば、ＩＥＥＥ８０２．５）、ローカルエリアネットワーク（local area network、ＬＡＮ）、広域ネットワーク（wide area network、ＷＡＮ）、ポイントツーポイントシステム、回路スイッチングシステム、パケットスイッチングシステムを介して発生し得る。

本明細書で使用される場合、「車両」という用語は、１人以上の人間の乗員を運搬することができ、任意の形態のエネルギーによって電力供給される、任意の移動車両を指す。「車両」という用語には、自動車、トラック、バン、ミニバン、ＳＵＶ、オートバイ、スクーター、ボート、パーソナルウォータークラフト、及び航空機が含まれる。いくつかのシナリオでは、モータ車両は、１つ以上のエンジンを含む。更に、「車両」という用語は、電気電池によって電力供給される１つ以上の電気モータによって、完全に又は部分的に電力供給される、電気自動車（electric vehicle、ＥＶ）を指し得る。ＥＶは、電池電気自動車（battery electric vehicle、ＢＥＶ）及びプラグインハイブリッド電気自動車（plug-in hybrid electric vehicle、ＰＨＥＶ）を含んでもよい。追加的に、「車両」という用語は、任意の形態のエネルギーによって動力を供給される、自律型車両及び／又は自動運転型車両を指し得る。自律型車両は、１人以上の人間の乗員を運んでもよく、又は運ばなくてもよい。

本明細書で使用される場合、「車両システム」という用語は、車両、運転、及び／又は安全性を向上させるために使用され得る、任意の自動又は手動システムであってもよい。例示的な車両システムには、とりわけ、自律型運転システム、電子安定制御システム、アンチロックブレーキシステム、ブレーキアシストシステム、自動ブレーキプレフィルシステム、低速追従システム、クルーズ制御システム、衝突警告システム、衝突軽減ブレーキシステム、自動クルーズ制御システム、車線逸脱警告システム、死角表示システム、車線維持支援システム、ナビゲーションシステム、伝送システム、ブレーキペダルシステム、電子式パワーステアリングシステム、視覚デバイス（例えば、カメラシステム、近接センサシステム）、空調システム、電子プレテンショニングシステム、監視システム、乗客検出システム、車両サスペンションシステム、車両シート構成システム、車室内照明システム、オーディオシステム、感覚システムが含まれる。

本明細書で説明される態様は、コンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体のコンテキストにおいて、説明及び実施されてもよい。非一時的コンピュータ可読記憶媒体は、コンピュータ記憶媒体及び通信媒体を含む。例えば、フラッシュメモリドライブ、デジタル多用途ディスク（digital versatile disc、ＤＶＤ）、コンパクトディスク（compact disc、ＣＤ）、フロッピーディスク、及びテープカセットである。非一時的コンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、モジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含んでもよい。

図１は、一態様による、シーン分類のためのシステム１００の構成要素図である。車両１０は、シーン分類のためのシステム１００を装備していてもよい。シーン分類のためのシステム１００は、画像キャプチャデバイス１０２と、プロセッサ１０４と、メモリ１０６と、記憶ドライブ１０８と、通信インターフェース１１０と、画像セグメンテーションモジュール１１２と、画像マスカー１１４と、畳み込み器１１６と、時間的分類子１１８と、シーン分類子１２０と、を含んでもよい。車両１０は、コントローラと、１つ以上の車両センサと、１つ以上の車両システム１９０と、を含んでもよい。通信インターフェース１１０は、サーバ１３０と通信してもよい。サーバ１３０は、グラウンドトルス画像シーケンス１３２と、シーン分類モデル１３４又はシーン分類ポリシーネットワークとを含み得る、シーン分類データベースを含んでもよい。一態様によれば、画像セグメンテーションモジュール１１２、画像マスカー１１４、畳み込み器１１６、時間的分類子１１８、及び／又はシーン分類子１２０のうちの１つ以上は、プロセッサ１０４、メモリ１０６、記憶ドライブ１０８などを介して実装され得る。

グラウンドトルス

一態様によれば、グラウンドトルス画像シーケンス１３２は、移動車両と関連付けられ、訓練段階中に収集され得る、一連の１つ以上の画像フレームを含んでもよい。いくつかのシーンは静的であってもよく、他のシーン又は場所は動的であってもよいことが理解されるであろう。例えば、交差点は静的なシーン又は場所であり得る一方で、建設ゾーンは、建設ゾーンが交通コーンによって画定され、建設ゾーンの間及び異なる日又は時間の間で、サイズ、形状、外観、及び／又は位置を変更できるという点で動的であり得る。

グラウンドトルス画像シーケンス１３２の１つ以上の画像フレームのうちのそれぞれ１つは、時間的分類ラベル、天候分類ラベル、路面分類ラベル、環境分類ラベル、及びシーン分類ラベルなどの１つ以上のラベルで注釈付け（例えば、手動で注釈付けされ、グラウンドトルスを示す）されてもよい。時間的分類ラベルの実施例としては、背景、接近、進入、通過などを含むことができる。換言すれば、画像フレームは、関心のある場所又はシーンの位置に対する訓練車両の観点及び／又は位置に応じて、接近（Ａ）、進入（Ｅ）、通過（Ｐ）などのきめの細かいラベルで一時的に注釈付けされる。分類ラベルは、階層的かつ因果的な様式で編成されてもよい。例えば、上部では、環境に注釈が付けられてもよく、続いて中間レベルでは、シーン分類、更に下部レベルでは、接近、進入、通過などのきめの細かい注釈が付けられてもよい。

天候分類ラベルの実施例には、快晴、晴れ、雪、雨、曇り、曇空、霧、明、暗などが含まれ得る。路面分類ラベルの実施例には、乾燥、湿潤、雪、不明瞭なもの（例えば、視認できないいくつかの交通標識）、ぬかるみなどが含まれ得る。環境分類ラベルの実施例には、都市、国、郊外、ランプ、高速道路、ローカル（例えば、近隣、住宅、学校）などの環境タイプが含まれ得る。例えば、ランプは、２つの高速道路間、又は高速道路と別の道路タイプ間のコネクタであり得る。シーン分類ラベルの実施例としては、道路の場所、建設ゾーン、交差点（例えば、３方向、４方向、５方向などのｘ方向の交差点）、橋、高架橋、踏切、トンネル、車線合流、車線分岐、横断歩道などが含まれ得る。一部のシーン分類は、接近及び通過の一時的な分類ラベルのみと関連付けられている場合があるが、その他のシーン分類は、接近、進入、及び通過のラベルと関連付けられていてもよい。路面分類と天候分類は、互いに相互排他的であってもよい。換言すれば、例えば、道路が濡れている場合があるが、天候は晴れていてもよい。

この注釈付きグラウンドトルス画像シーケンス１３２は、例えば、シーン分類モデル１３４又はシーン分類ポリシーネットワークとしてシーン分類データベースに記憶され得る、モデルを訓練するために利用され得る。グラウンドトルス画像シーケンス１３２は、所望に応じて注釈付けされている（例えば、これは手動で人間によって実行され得る）ため、シーン分類モデル１３４は、機械学習、深層学習、又は他のタイプの人工知能技術を介して、訓練され得る。この点に関して、シーン分類のためのシステム１００は、損失を最小限に抑え、逆伝播によって、グラウンドトルス画像シーケンス１３２からの結果を模倣するように、（例えば、プロセッサ１０４を介して）訓練され得る。

画像キャプチャ

画像キャプチャデバイス１０２は、移動車両の視点から、環境（例えば、動作環境）の第１の一連の画像フレーム（例えば、ビデオ）をキャプチャすることができる。一態様によれば、この環境の第１の一連の画像フレーム又はビデオは、シーン分類のためのシステム１００への入力として取得されてもよい。

セグメンテーション

画像セグメンテーションモジュール１１２は、第１の畳み込みニューラルネットワーク（ＣＮＮ）及び第１の一連の画像フレームに基づいて、画像フレームから環境内の１人以上の交通参加者を識別することができる。一態様によれば、画像セグメンテーションモジュール１１２は、ｄｅｅｐｌａｂＣＮＮを実装してもよい。実装形態にかかわらず、画像セグメンテーションモジュール１１２は、一連の画像フレームの入力が提供されるときに、出力としての意味的セグメンテーションを提供することができる。画像セグメンテーションモジュール１１２は、第１の一連の画像フレームの各画像フレーム内のオブジェクトを分類することができる。例えば、画像セグメンテーションモジュール１１２は、１人以上の歩行者、（例えば、交通時の）１つ以上の車両、１人以上の運転者、１人以上の傍観者、１人以上の自転車乗用者、１つ以上の移動オブジェクトなどを識別することができる。

マスキング

画像マスカー１１４は、環境から交通参加者のうちの１人以上をマスキングすることによって、第２の一連の画像フレームを生成することができる。交通参加者は一般に、シーンがどのように定義されているか（例えば、環境が交差点、高速道路などであるかどうか）に関係がないため、画像マスカー１１４は、第２の一連の画像フレームから環境からの全ての交通参加者をマスクすることができる。一態様によれば、画像マスカー１１４は、画像フレームシーケンスから交通参加者のうちの１人以上をマスクするために、意味的セグメンテーションを利用することができる。一態様によれば、画像マスカー１１４はまた、環境から、空の鳥などの他の不要なオブジェクトをマスクしてもよい。このようにして、画像マスカー１１４は、シーン分類のためのシステム１００のニューラルネットワークが画像フレームのマスクされていない部分に焦点を合わせることにより、より多くの空間的注意をシーン分類のためのシステム１００に提供し、それにより分類中の精度を高めることができる。したがって、画像マスカー１１４及び画像セグメンテーションモジュール１１２を介して、意味的コンテキストが提供され得る。

時間的分類

時間的分類子１１８は、第２の一連の画像フレームの１つ以上の画像フレーム（例えば、又は画像キャプチャデバイス１０２によりキャプチャされた画像フレームの元のセットからの画像フレーム）を、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデル１３４に基づいて、それぞれの時間的予測と関連付けられた第３の一連の画像フレームを生成することができる。時間的予測の実施例としては、シーン又は場所の背景、接近、進入、通過などを含むことができる。時間的分類子１１８は、接近が一般的に進入し、次いで通過することということを学習することができる。

一態様によれば、時間的分類子１１８は、第２のＣＮＮ、長短期メモリ（ＬＳＴＭ）ネットワーク、及び元の入力画像フレーム（ＲＧＢ）、意味的セグメンテーションで連結された画像フレーム（ＲＧＢＳ）、意味的セグメンテーションを使用してマスクされた交通参加者を有する画像フレーム（ＲＧＢマスク）、又は単に１つのチャネルの意味的セグメンテーション画像を使用した画像フレーム（Ｓ）であり得る、画像フレームの入力セット上の第１の完全に接続された層に基づいて、分類を実行し得る。このようにして、時間的分類子１１８を利用して、シーン内のどこに車両１０が（例えば、フレームベースで）位置するかを決定することができる。一態様によれば、第２のＣＮＮは、例えば、ＲｅｓＮｅｔ５０として実装されてもよい。時間的分類子１１８は、シーン又は場所のタイプに関するシーン分類子１２０による任意の決定の前に、第１の一連の画像フレームの１つ以上の対応する画像フレーム又は第２の一連の画像フレームの１つ以上の対応する画像フレームへの時間的予測のうちの１つ以上を決定し、割り当てることができる。

時間的分類子１１８は、任意のＣＮＮに基づいて分類を実行する場合、畳み込み器１１６を実装し、ＣＮＮ、深度ＣＮＮ、ポーズＣＮＮなどの畳み込み器のＣＮＮのうちの１つ以上を介して入力を通過させて、出力を生成することができる。

換言すれば、時間的分類子１１８は、シーンが実際にどのタイプのシーンであるかを決定する前、又はシーンについて関連付けられたシーン予測を決定する前に、シーンの開始、中間、及び／又は終了を決定することができる。更に別の言い方をすれば、時間的分類子１１８により、シーン分類のためのシステム１００は、車両１０が交差点又は建設ゾーンを通過するときなどのイベントの異なる段階を区別することができる。具体的には、時間的分類子１１８は、１セットの一時的予測からの時間的予測を用いて、一連の画像のうちの１つ以上の１つ以上の画像フレームをラベル付けし、割り当て、又は注釈付けることができる。前述したように、これらの時間的予測の実施例としては、シーン又は場所の背景、接近、進入、又は通過を含むことができる。このようにして、微細な粒度の又はきめの細かい時間的分類は、（例えば、特定の未知のシーン又は場所内に、車両１０を局所化するために）時間的分類子１１８によって提供され得る。他の態様に従って、他の時間的予測が利用され得ることが理解されるであろう。例えば、時間的予測は、数値であり、（例えば、シーン分類子１２０によってまだ定義されていない可能性がある）シーンの進行を示すことができる。いずれにしても、グラウンドトルス画像シーケンス１３２を利用して、シーンのタイプが既知であるかどうかにかかわらず、車両１０がシーンに接近、進入、又は通過するときを検出するために、時間的分類子１１８などの分類子を訓練することができる。

天候分類

シーン分類子１２０は、ＲｅｓＮｅｔ５０又はディープネットＣＮＮなどのＣＮＮで訓練され得るシーン分類モデル１３４を利用して、車両１０についての天候分類を決定することができる。シーン分類と同様に、天候、路面、及び環境は、交通参加者がマスクされている入力を使用して（例えば、環境から交通参加者のうちの１人以上をマスクする、一連の画像フレームを生成する画像マスカー１１４を使用して）、分類され得る。しかしながら、元の入力画像フレーム（ＲＧＢ）、意味的セグメンテーションで連結された画像フレーム（ＲＧＢＳ）、意味的セグメンテーションを使用してマスクされた交通参加者を有する画像フレーム（ＲＧＢマスク）、又は単に１つのチャネルの意味的セグメンテーション画像を使用した画像フレーム（Ｓ）などの、他の入力が提供されてもよい。シーン分類モデル１３４は、注釈付きグラウンドトルス画像シーケンス１３２に基づいて、訓練されてもよい。天候分類ラベルの実施例としては、快晴、晴れ、雪、雨、曇り、曇空、霧、明、暗などの照明条件、可視条件を含むことができる。

路面分類

シーン分類子１２０は、ＲｅｓＮｅｔ５０などのＣＮＮで訓練された可能性のあるシーン分類モデル１３４を利用して、車両１０についての路面分類を決定することができる。シーン分類モデル１３４は、上述のように、関連付けられた画像フレームのそれぞれについての１つ以上のラベルで注釈付けされ得る、グラウンドトルス画像シーケンス１３２に基づいて訓練されてもよい。路面分類ラベルの実施例としては、乾燥、湿潤、雪、不明瞭なもの（例えば、視認できないいくつかの交通標識）、ぬかるみなどを含むことができる。

環境分類

シーン分類子１２０は、他のタイプの分類と同様に動作してもよい。環境分類ラベルの実施例としては、都市、国、郊外、ランプ、高速道路、ローカル（例えば、近隣、住宅、学校）などの環境タイプを含むことができる。

シーン又は場所分類

シーン分類子１２０は、第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、第３の一連の画像フレームの１つ以上の画像フレームを分類し、シーン分類モデル１３４及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。シーン分類子１２０は、シーン分類モデル１３４及びそれぞれの時間的予測に基づいて、それぞれの時間的予測と関連付けられた第４の一連の画像フレームを生成することができる。このようにして、時間的分類子１１８を利用して、ビデオから又は画像シーケンスから画像フレームをトリミングし、それにより、効率的なシーン分類が発生することを可能にし得る。別の言い方をすれば、シーン分類子１２０は、背景として注釈付けされた画像フレームを無視しながら、所与の環境場所の接近、進入、及び通過としてマークされた画像フレームを単に考慮し、したがって、例えば、道路シーンの動的分類を提供することができる。このようにして、この２段階アーキテクチャは、背景画像フレームを調べること及び／又はシーン分類から除外することによって、処理電力の不必要な使用を軽減する。したがって、時間的分類子１１８は、シーンを分類するために利用される処理電力及びリソースの量を軽減し、予測ネットワークへのイベントウィンドウとしてシーン分類子１２０に接近、進入、又は通過する候補フレームだけを送信する、シーン分類子１２０の粗いセパレータとして機能する。

シーン分類子１２０は、時間的分類子１１８と同様に、任意のＣＮＮに基づいて分類を実行する場合、畳み込み器１１６を実装し、ＣＮＮ、深度ＣＮＮ、ポーズＣＮＮ、ＲｅｓＮｅｔ５０ＣＮＮなどの畳み込み器のＣＮＮのうちの１つ以上を介して入力を通過させて、出力を生成することができる。

一態様によれば、第３のＣＮＮは、例えば、ＲｅｓＮｅｔ５０として実装されてもよい。したがって、シーン分類子１２０は、対応する画像フレームのうちの１つ以上からの時間予測のうちの１つ以上を利用して、どのタイプのシーン又は場所が、シーンの接近、進入、及び通過と関連付けられるかの決定を容易にし得る。例えば、時間的分類子１１８は、時間的予測を伴う一連の画像フレームの１つ以上の画像フレームを分類することができる。これらの時間的予測を使用して、シーン分類子１２０は、例えば、一連の画像フレームからのシーンの接近、進入、及び通過と関連付けられた１セットの画像フレームが建設ゾーンであると決定することができる。したがって、時間的分類子１１８は、未知のタイプのシーンの開始、中間、及び終了を介して、車両１０が移動していると決定してもよく、シーン分類子１２０は、時間的分類子１１８が画像フレームの時間的予測を作成又は決定した後に、シーンがどのタイプのシーンであるかを決定してもよい。

シーン又は場所分類の実施例としては、例えば、建設ゾーン、交差点（例えば、３方向、４方向、５方向などのｘ方向の交差点）、橋、高架橋、踏切、トンネル、車線合流、車線分岐、横断歩道などの道路の場所が含まれ得る。このようにして、シーン予測は、例えば、車両１０が接近、進入、又は通過する位置のタイプを示すシーン分類であってもよい。

一態様によれば、シーン分類子１２０は、リアルタイムで、第１の一連の画像フレームの入力に基づいて、シーン予測を生成することができ、そのためシーン予測を生成するために、背景、接近、進入、通過から時間的に注釈付けされた完全な一連の画像フレームは、必ずしも必要ではない。換言すれば、シーン分類子１２０が、ＣＮＮ、グローバル平均プーリング、及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する前に、単に部分的な一連の画像フレームに時間的予測（例えば、背景、接近、．．．など）を割り当てることができる。したがって、グラウンドトルスデータセットの意味的コンテキスト及び時間的性質を利用する機械学習の開発は、シーン分類のためのシステム１００の分類結果を向上することができる。

車両アプリケーション

コントローラは、シーン予測及び／又は例えば、天候分類、路面分類、環境分類などの分類のうちの１つ以上に基づいて、車両１０の１つ以上のセンサ又は１つ以上の車両システム１９０をアクティブ化又は非アクティブ化してもよい。例えば、シーンコンテキスト特徴は、オブジェクトの認識、挙動、動作、意図、ナビゲーション、位置特定などの他のダウンストリームタスクのための優先順位として機能し得るため、車両１０のコントローラは、シーン分類子１２０、並びに天候分類、路面分類、及び環境分類を含む他の分類によって決定されたシーン予測に基づいて反応し得る。

例えば、シーン分類子１２０がシーン予測を横断歩道であると決定した場合、車両１０のコントローラは、歩行者を検出するために追加のセンサを作動させることができる。車両１０が高速道路上にあるときなど、他の時点では、歩行者センサの優先順位を低くすることができる。別の実施例として、シーン分類子１２０がシーン予測を交差点であると決定した場合、車両１０のコントローラは、追加のセンサを作動させるか、又は特定のモジュールを実行して、信号機、一時停止標識、一時停止線、又は他の交差点関連情報を検出することができる。換言すれば、コントローラは、シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索の優先順位を変更したり、優先順位を高くしたりすることができる。逆に言えば、コントローラは、シーン予測がトンネルであることに基づいて、ＬＩＤＡＲシステム又はレーダーシステムを非アクティブ化することができる。

一態様によれば、シーン分類子１２０は、シーン予測が建設ゾーンであると決定し、車両のコントローラ（例えば、プロセッサ１０４を介して実装される）は、自律型車両が道路の事前構築された高精細化マップを利用し得るため、建設ゾーンであるシーン予測に基づいて、警告若しくは通知を提供し、及び／又は自律運転を無効にすることができる。シーン分類子１２０が、霧又は雨が降っていると決定した場合、プロセッサ１０４は、車両システム１９０のうちの１つ以上からのＬＩＤＡＲを無効にして、ゴースト効果を軽減することができる。シーン分類子１２０が、車両シーン予測がトンネル内にある、又は高架橋が存在すると決定したとき、ＧＰＳがトンネル又は高架橋から追跡を失う可能性があるため、車両システム１９０のＧＰＳは優先順位を下げられ得る。更に、カメラは、トンネル又は高架橋領域を出るときに、極端な露出のために事前に準備されてもよい。同様に、車線逸脱警告システムは、例えば、シーン分類子１２０がシーン予測を分岐領域又は出口ランプの近くにあると決定したときに、より広い許容範囲で実装されるか、又は無効にされ得る。したがって、シーン分類子１２０を利用して、例えば、それぞれの車両システム１９０のうちの１つ以上をアクティブ化すること、非アクティブ化すること、優先順位付けすること、優先順位を下げることなどによって、車両システム１９０のうちの１つ以上の使用を強化することができる。このようにして、シーン分類子１２０は、車両１０の他の車両システム１９０が効率的に動作するための文脈上の合図を提供し得る。

図２は、一態様による、シーン分類のための方法２００のフロー図である。シーン分類のための方法２００は、移動車両から環境の第１の一連の画像フレームをキャプチャすること２０２と、第１のＣＮＮに基づいて、環境内の交通参加者を識別すること２０４と、環境から交通参加者をマスキングすることによって、第２の一連の画像フレームを生成すること２０６と、第２のＣＮＮ、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づいて、第２の一連の画像フレームの画像フレームを、時間的予測に分類すること２０８と、第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、画像フレームを分類すること２１０と、シーン分類モデル１３４及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成すること２１２と、を含み得る。

図３は、一態様による、シーン分類と関連付けられた時間的予測の例示的な図である。図３では、画像キャプチャデバイス１０２によってキャプチャされた異なる画像フレームは、グラウンドトルス画像シーケンス１３２と関連付けてラベル付けされてもよい。例えば、第１の画像フレーム３１０は、接近する画像フレームとしてラベル付けされてもよく、第２の画像フレーム３２０は、進入する画像フレームとしてラベル付けされてもよく、第３の画像フレーム３３０は、通過する画像フレームとしてラベル付けされてもよい。この接近、進入、及び通過は、図３に見られるように、車両１０が接近すること３１２、進入すること３２２、及び通過すること３３２に対応し得る。

図３は、交差点シーンのタイプについて接近する、進入する、及び通過することを描写しているが、他のタイプのシーンにも同様の様式（例えば、接近、進入、及び通過の時間的予測を含み、交差点、橋、トンネルなどのシーンタイプの注釈などの他の注釈も含む）で注釈付けすることができる。画像キャプチャデバイス１０２からのグラウンドトルス画像シーケンス１３２及びキャプチャされた一連の画像フレームは、移動車両の視点からであり得、したがって、画像フレームは、静的又は静止カメラの視点からではないことが理解されるであろう。換言すれば、グラウンドトルス画像シーケンス１３２及びキャプチャされた一連の画像フレームは、観点及び／又はシーンの外観における時空間変動を含み得る。図３に見られるように、車両１０が対象シーン（すなわち、通過３３２での交差点）に近づくにつれて、交差点までの距離が変化することにより、ビューの変動が引き起こされ得る。

図４Ａ及び図４Ｂは、一態様による、様々なシーン分類と関連付けられた時間的予測の例示的な図である。図４Ａ及び図４Ｂでは、様々な注釈の異なる実施例が提供される。一態様によれば、図４Ａ及び図４Ｂのアーキテクチャを介して供給されるパラメータを、取扱いやすくするために、１つ以上のＣＮＮ又は他のネットワークを実装することができる。

図５は、図１のシーン分類のためのシステム１００を訓練することと関連付けられたアーキテクチャの例示的な図である。グラウンドトルス画像シーケンス１３２は、「建設」のシーン分類ラベルを含むように注釈付けされてもよく、建設環境の入力された一連の画像フレームの画像フレームのうちのそれぞれ１つは、移動車両が建設ゾーン内のどこにあるかを示す時間的予測で注釈付けされてもよい。換言すれば、グラウンドトルス画像シーケンス１３２の時間的予測は、例えば、接近、進入、又は通過としてマークされ得る。

画像キャプチャデバイス１０２は、入力された一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュール１１２は、例えば、ＣＮＮ５１０（例えば、ｄｅｅｐｌａｂＣＮＮ）を介して、意味的セグメンテーションを使用して、１人以上の交通参加者をセグメント化又は識別することができる。画像マスカー１１４は、画像フレームから交通参加者のうちの１人以上をマスクすることができ、それにより、シーン分類のためのシステム１００が、単に周囲環境に焦点を当て、それに応じてより正確なシーン分類を提供することができる。

図５に見られるように、時間的分類子１１８を利用して、トリミングされていないビデオをトリミングし、特徴を集約して、トリミングされたセグメント全体を分類することができる。例えば、フレーム基準ではなく、セグメント全体を探す、又は調べること（例えば、接近、進入、及び通過）によって、クラスを４方向の交差点として分析又は決定することが有益な場合がある。ここで、時間的分類子１１８は、マスクされた交通参加者（例えば、ＲＧＢマスクされた画像フレーム）を有する、一連の画像フレームを供給され得る。他の態様又はアーキテクチャによれば、時間的分類子１１８は、ＲＧＢ、ＲＧＢＳ、又はＳ画像フレームなどの他の一連の画像フレームを受信してもよい。いずれにしても、時間的分類子１１８は、入力された画像フレームのセットを受信し、これを、ＲｅｓＮｅｔ５０ＣＮＮなどのＣＮＮ５２０を介して供給し、１セットの特徴５２２を抽出し、この特徴のセットを、ＬＳＴＭ５２６及び完全に接続された層５２８を介して供給し、それによって、それぞれが時間的予測で注釈付けされた一連の画像フレームを生成することができる。

時間的予測で注釈付けされた一連の画像フレームは、ＲｅｓＮｅｔ５０ＣＮＮなどの１つ以上のＣＮＮ５３０を含み得るシーン分類子１２０に供給され、１セットの特徴５３２を抽出し、グローバル平均プーリング５３６を実行し、完全に接続された層５３８を介して結果を供給して、接近、進入、及び通過として注釈付けされた画像フレームを含むシーン（例えば、この時点までは未知であり得る）についてのシーン予測を生成することができる。このモデルは、グラウンドトルス画像シーケンス１３２に基づいて、訓練されてもよい。換言すれば、時間的分類子１１８及びシーン分類子１２０は、同様の注釈付けされていない一連の画像フレームがシーン分類のためのシステム１００に提供される場合などに、機械学習又は深層学習を使用して訓練されて、グラウンドトルス画像シーケンス１３２の注釈を複製又は模倣することができ、それによって、サーバ１３０上のシーン分類データベース内に格納されたシーン分類モデル１３４又はシーン分類ポリシーネットワークを構築する。

シーン分類子１２０は、グローバル平均プーリングを通じて、このウィンドウ内のフレームを集計し、イベント、場所、又はシーン全体の単一のクラスラベルを生成することができる。一態様によれば、本明細書に記載されるＣＮＮのうちの１つ以上は、グラウンドトルス画像シーケンス１３２又はシーン分類データベースからの別のデータベースで事前に訓練されてもよい。過学習を低減するために、データ増大を実行することができる。ランダムなフリップ、ランダムなサイズ変更、及びランダムなクロップが用いられてもよい。示されるように、プロセッサ１０４又は車両１０のコントローラは、生成されたシーン予測に基づいて、１つ以上の車両システム１９０の調整を行うことができる。

更に別の態様は、本明細書に提示される技術の一態様を実施するように構成されたプロセッサ実行可能命令を含む、コンピュータ可読媒体を含む。これらの方法で考案されたコンピュータ可読媒体又はコンピュータ可読デバイスの一態様が図６に示されており、実装形態６００は、例えば、ＣＤ−Ｒ、ＤＶＤ−Ｒ、フラッシュドライブ、ハードディスクドライブのプラッタなどのコンピュータ可読媒体６０８を含み、その上にコンピュータ可読データ６０６が符号化されている。次に、６０６に示されるような複数の０及び１を含むバイナリデータなどのこの符号化されたコンピュータ可読データ６０６は、本明細書に記載の原理のうちの１つ以上に従って動作するように構成されている、１セットのプロセッサ実行可能コンピュータ命令６０４を含む。この実装形態６００では、プロセッサ実行可能コンピュータ命令６０４は、図２の方法２００などの方法６０２を実行するように構成され得る。別の態様では、プロセッサ実行可能コンピュータ命令６０４は、図１のシーン分類のためのシステム１００などのシステムを実装するように構成され得る。本明細書に提示される技術に従って動作するように構成されている、多くのそのようなコンピュータ可読媒体は、当業者によって考案され得る。

本出願で使用するとき、用語「構成要素」、「モジュール」、「システム」、「インターフェース」などは、一般に、コンピュータ関連のエンティティ、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェアのいずれか、又は実行中のソフトウェアを指すことを意図している。例えば、構成要素は、それだけには限定されないが、プロセッサ上で実行されるプロセス、処理ユニット、オブジェクト、実行可能ファイル、実行スレッド、プログラム、又はコンピュータとすることができる。例示として、コントローラ上で実行されているアプリケーション及びコントローラの両方が、構成要素であってもよい。プロセス又は実行スレッド及び構成要素内に存在する１つ以上の構成要素は、１つのコンピュータ上に局在化されてもよく、又は２つ以上のコンピュータ間に分散されてもよい。

更に、特許請求される主題は、開示された主題を実施するためにコンピュータを制御するためのソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための、標準プログラミング又はエンジニアリング技術を使用する方法、装置又は製品として実装される。本明細書で使用するとき、用語「製品」は、任意のコンピュータ可読デバイス、キャリア、又は媒体からアクセス可能なコンピュータプログラムを包含することを意図する。当然ながら、特許請求される主題の範囲又は趣旨から逸脱することなく、この構成に対する多くの修正がなされてもよい。

図７及び以下の説明は、本明細書に記載される提供のうちの１つ以上の態様を実施するための好適なコンピューティング環境の説明を提供する。図７の動作環境は、好適な動作環境の単なる一実施例であり、動作環境の使用又は機能の範囲に関していかなる制限を示唆することを意図するものではない。例示的なコンピューティングデバイスとしては、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド又はラップトップデバイス、例えば、携帯電話、携帯情報端末（Personal Digital Assistant、ＰＤＡ）、メディアプレーヤなどのモバイルデバイス、マルチプロセッサシステム、家電製品、ミニコンピュータ、メインフレームコンピュータ、上記のシステム又はデバイスのいずれかを含む分散コンピューティング環境などを含むが、これらに限定されない。

一般に、態様は、１つ以上のコンピューティングデバイスによって実行される「コンピュータ可読命令」の一般的な文脈で説明される。コンピュータ可読命令は、以下に説明するように、コンピュータ可読媒体を介して分散されてもよい。コンピュータ可読命令は、１つ以上のタスクを実行する、又は１つ以上の抽象データタイプを実装する、機能、オブジェクト、アプリケーションプログラミングインターフェース（Application Programming Interface、ＡＰＩ）、データ構造などのプログラムモジュールとして実装されてもよい。典型的には、コンピュータ可読命令の機能性は、様々な環境において所望に応じて組み合わされるか、又は分散される。

図７は、本明細書で提供される一態様を実装するように構成されている、コンピューティングデバイス７１２を含むシステム７００を示す。１つの構成では、コンピューティングデバイス７１２は、少なくとも１つの処理ユニット７１６及びメモリ７１８を含む。コンピューティングデバイスの正確な構成及びタイプに応じて、メモリ７１８は、ＲＡＭなどの揮発性、ＲＯＭ、フラッシュメモリなどの不揮発性、又はこれら２つの組み合わせとすることができる。この構成は、破線７１４によって図７に示されている。

他の態様では、コンピューティングデバイス７１２は、追加の特徴又は機能性を含む。例えば、コンピューティングデバイス７１２は、磁気記憶装置、光学記憶装置などを含むがこれらに限定されない、取り外し可能な記憶装置又は取り外し不可能な記憶装置などの追加の記憶装置を含むことができる。このような追加の記憶装置は、記憶装置７２０で図７に示される。一態様では、本明細書で提供される一態様を実施するためのコンピュータ可読命令は、記憶装置７２０内にある。記憶装置７２０は、オペレーティングシステム、アプリケーションプログラムなどを実装するための他のコンピュータ可読命令を記憶してもよい。コンピュータ可読命令は、例えば、処理ユニット７１６による実行のために、メモリ７１８にロードされてもよい。

本明細書で使用するとき、用語「コンピュータ可読媒体」は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、コンピュータ可読命令又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含んでもよい。メモリ７１８及び記憶装置７２０は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体としては、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（Digital Versatile Disk、ＤＶＤ）若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用され得、かつコンピューティングデバイス７１２によってアクセスされ得る任意の他の媒体を含むが、これらに限定されない。任意のこのようなコンピュータ記憶媒体は、コンピューティングデバイス７１２の一部である。

用語「コンピュータ可読媒体」は、通信媒体を含む。通信媒体は、典型的には、搬送波又は他のトランスポート機構などの「変調データ信号」内のコンピュータ可読命令又は他のデータを具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、信号内の情報を符号化するような様式で設定又は変更されたその特性のうちの１つ以上を有する信号を含む。

コンピューティングデバイス７１２は、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイス、赤外線カメラ、ビデオ入力デバイス、又は任意の他の入力デバイスなどの入力デバイス（複数可）７２４を含む。１つ以上のディスプレイ、スピーカ、プリンタ、又は任意の他の出力デバイスなどの出力デバイス（複数可）７２２は、コンピューティングデバイス７１２とともに含まれてもよい。入力デバイス（複数可）７２４及び出力デバイス（複数可）７２２は、有線接続、無線接続、又はこれらの任意の組み合わせを介して、コンピューティングデバイス７１２に接続されてもよい。一態様では、別のコンピューティングデバイスからの入力デバイス又は出力デバイスは、コンピューティングデバイス７１２のための入力デバイス（複数可）７２４又は出力デバイス（複数可）７２２として使用されてもよい。コンピューティングデバイス７１２は、例えば、ネットワーク７２８を介するなどして、１つ以上の他のデバイス７３０との通信を容易にするために、通信接続（複数可）７２６を含んでもよい。

本主題は、構造的特徴又は方法論的行為に特有の言語で記載されているが、添付の特許請求の範囲の主題は、必ずしも上記の特定の特徴又は行為に限定されないことを理解されたい。むしろ、上述の特定の特徴及び行為は、例示的な態様として開示される。

様々な態様の操作が本明細書に提供される。操作の１つ以上又は全てが記載される順序は、これらの操作が必ずしも順序に依存することを意味するものとして解釈されるべきではない。この説明に基づいて、代替の順序が理解されるであろう。更に、全ての操作は、本明細書で提供される各態様において必ずしも存在しなくてもよい。

本出願で使用するとき、「又は」は、排他的な「又は」ではなく包括的な「又は」を意味することを意図する。更に、包括的な「又は」は、それらの任意の組み合わせ（例えば、Ａ、Ｂ、又はこれらの任意の組み合わせ）を含んでもよい。加えて、本出願で使用される「ａ」及び「ａｎ」は、特に指定されない限り、又は文脈から単数形を対象とすることが明らかでない限り、一般に「１つ以上」を意味すると解釈される。加えて、Ａ及びＢ及び／又は同様のもののうちの少なくとも１つは、一般に、Ａ若しくはＢ、又はＡ及びＢの両方を意味する。更に、「含む（include）」、「有する（having）」、「有する（has）」、「有する（with）」、又はその変形が、詳細な説明又は特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「備える（comprising）」と同様の様式において包括的であることが意図される。

更に、特に明記しない限り、「第１の」、「第２の」などは、時間的態様、空間的態様、順序付けなどを暗示することを意図するものではない。むしろ、そのような用語は、特徴、要素、項目などのための識別子、名前などとして単に使用されている。例えば、第１のチャネル及び第２のチャネルは、一般に、チャネルＡ及びチャネルＢ、又は２つの異なる若しくは２つの同一のチャネル、若しくは同じチャネルに対応する。更に、「備える（comprising）」、「備える（comprise）」、「含む（including）」、「含む（include）」などは、一般に、限定するものではないが、備える、又は含むことを意味する。

上記で開示された及び他の特徴及び機能、又はそれらの代替例若しくは変形例の多くは、多くの他の異なるシステム又はアプリケーションに望ましく組み合わされ得ることが理解されるであろう。また、当業者であれば、添付の特許請求の範囲によって包含されることも意図される、現在予測されていない、又は予期されていない様々な代替、修正、変形、又は改良を連続的に行うことができる。

Claims

シーン分類のためのシステムであって、
移動車両から、環境の第１の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
第１の畳み込みニューラルネットワーク（ＣＮＮ）に基づいて、前記環境内の１人以上の交通参加者を識別する、画像セグメンテーションモジュールと、
前記環境から、前記交通参加者のうちの１人以上をマスキングすることによって、第２の一連の画像フレームを生成する、画像マスカーと、
前記第２の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第３の一連の画像フレームを生成する、時間的分類子であって、前記分類が、第２のＣＮＮ、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づく、時間的分類子と、
第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、前記第３の一連の画像フレームの１つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、を含む、シーン分類のためのシステム。
前記２つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項１に記載のシーン分類のためのシステム。
前記第１のＣＮＮ、前記第２のＣＮＮ、又は前記第３のＣＮＮが、ディープネットＣＮＮ又はＲｅｓＮｅｔ５０ＣＮＮである、請求項１に記載のシーン分類のためのシステム。
前記シーン分類のためのシステムが、車両に実装され、前記車両が、前記シーン予測に基づいて、前記車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラを含む、請求項１に記載のシーン分類のためのシステム。
前記シーン分類子が、前記第３の一連の画像フレームの１つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類し、
前記コントローラが、前記天候分類に基づいて、前記車両の前記センサのうちの１つ以上又は前記車両システムのうちの１つ以上をアクティブ化又は非アクティブ化する、請求項４に記載のシーン分類のためのシステム。
前記シーン分類子が、前記第３の一連の画像フレームの１つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類し、
前記コントローラが、前記路面分類に基づいて、前記車両の前記センサのうちの１つ以上又は前記車両システムのうちの１つ以上をアクティブ化又は非アクティブ化する、請求項４に記載のシーン分類のためのシステム。
前記シーン分類子が、前記第３の一連の画像フレームの１つ以上の画像フレームを、都市、ランプ、高速道路、又はローカルを含む環境分類に分類し、
前記コントローラが、前記環境分類に基づいて、前記車両の前記センサのうちの１つ以上又は前記車両システムのうちの１つ以上をアクティブ化又は非アクティブ化する、請求項４に記載のシーン分類のためのシステム。
前記車両システムのうちの１つ以上が、ＬＩＤＡＲシステム又はレーダーシステムである、請求項４に記載のシーン分類のためのシステム。
前記コントローラは、前記シーン予測がトンネルであることに基づいて、前記ＬＩＤＡＲシステム又はレーダーシステムを非アクティブ化する、請求項８に記載のシーン分類のためのシステム。
前記コントローラは、前記シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索を優先順位付けする、請求項４に記載のシーン分類のためのシステム。
シーン分類のためのシステムを装備した車両であって、
移動車両から、環境の第１の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
第１の畳み込みニューラルネットワーク（ＣＮＮ）に基づいて、前記環境内の１人以上の交通参加者を識別する、画像セグメンテーションモジュールと、
前記環境から、前記交通参加者のうちの１人以上をマスキングすることによって、第２の一連の画像フレームを生成する、画像マスカーと、
前記第２の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第３の一連の画像フレームを生成する、時間的分類子であって、前記分類が、第２のＣＮＮ、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づく、時間的分類子と、
第３のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、前記第３の一連の画像フレームの１つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、
前記シーン予測に基づいて、前記車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラと、を含む、車両。
前記２つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項１１に記載の車両。
前記第１のＣＮＮ、前記第２のＣＮＮ、又は前記第３のＣＮＮが、ディープネットＣＮＮ又はＲｅｓＮｅｔ５０ＣＮＮである、請求項１１に記載の車両。
前記車両システムのうちの１つ以上が、ＬＩＤＡＲシステム又はレーダーシステムであり、前記コントローラは、前記シーン予測がトンネルであることに基づいて、前記ＬＩＤＡＲシステム又はレーダーシステムを非アクティブ化する、請求項１１に記載の車両。
シーン分類のためのシステムであって、
移動車両から、環境の第１の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
前記第１の一連の画像フレームの１つ以上の画像フレームを、２つ以上の時間的予測のうちの１つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第２の一連の画像フレームを生成する、時間的分類子であって、前記分類が、畳み込みニューラルネットワーク（ＣＮＮ）、長短期メモリ（ＬＳＴＭ）ネットワーク、及び第１の完全に接続された層に基づく、時間的分類子と、
第２のＣＮＮ、グローバル平均プーリング、及び第２の完全に接続された層に基づいて、前記第２の一連の画像フレームの１つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、を含む、シーン分類のためのシステム。
前記２つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項１５に記載のシーン分類のためのシステム。
前記ＣＮＮ又は前記第２のＣＮＮが、ＲｅｓＮｅｔ５０ＣＮＮである、請求項１５に記載のシーン分類のためのシステム。
前記シーン分類のためのシステムが、車両に実装され、前記車両が、前記シーン予測に基づいて、前記車両の１つ以上のセンサ又は１つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラを含む、請求項１５に記載のシーン分類のためのシステム。
前記シーン分類子が、前記第３の一連の画像フレームの１つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類し、
前記コントローラが、前記天候分類に基づいて、前記車両の前記センサのうちの１つ以上又は前記車両システムのうちの１つ以上をアクティブ化又は非アクティブ化する、請求項１８に記載のシーン分類のためのシステム。
前記シーン分類子が、前記第３の一連の画像フレームの１つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類し、
前記コントローラが、前記路面分類に基づいて、前記車両の前記センサのうちの１つ以上又は前記車両システムのうちの１つ以上をアクティブ化又は非アクティブ化する、請求項１８に記載のシーン分類のためのシステム。