JP2020047267A - シーン分類 - Google Patents

シーン分類 Download PDF

Info

Publication number
JP2020047267A
JP2020047267A JP2019157101A JP2019157101A JP2020047267A JP 2020047267 A JP2020047267 A JP 2020047267A JP 2019157101 A JP2019157101 A JP 2019157101A JP 2019157101 A JP2019157101 A JP 2019157101A JP 2020047267 A JP2020047267 A JP 2020047267A
Authority
JP
Japan
Prior art keywords
scene
image frames
classification
vehicle
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019157101A
Other languages
English (en)
Other versions
JP6935467B2 (ja
Inventor
ナラヤナン アスマナラヤン・ラクシュミー
Lakshmi Narayanan Athmanarayanan
ナラヤナン アスマナラヤン・ラクシュミー
イシュ・ドゥヴィヴェーディー
Dwivedi Isht
ベザド・ダーリウーシュ
Dariush Behzad
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2020047267A publication Critical patent/JP2020047267A/ja
Application granted granted Critical
Publication of JP6935467B2 publication Critical patent/JP6935467B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30192Weather; Meteorology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】自動化した人間レベルの動的シーン認識を達成できるシーン分類方法を提供する。【解決手段】画像キャプチャデバイスにおいてシーン分類のための方法は、移動車両から環境の一連の画像フレームをキャプチャする。時間的分類子は、画像フレームを時間的予測に分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた一連の画像フレームを生成する。時間的分類子は、畳み込みニューラルネットワーク(CNN)、長短期メモリ(LSTM)ネットワーク及び完全に接続された層に基づいて、画像フレームの分類を実行する。シーン分類子は、CNN、グローバル平均プーリング及び完全に接続された層に基づいて、画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する。【選択図】図2

Description

運転シナリオでは、人間によるシーンの理解は、場所、環境条件、及び交通参加者行動に関する質問に答えることを含む。興味深いことに、人間は、シーン内のオブジェクトにほとんど注意を払うことなく、動的シーン認識を迅速かつ正確に実行することができる。人間のドライバは、複雑な交通シーンを分類し、それらの環境に基づいてそれらの運転行動を適応させる顕著な能力を有する。この点に関して、自動化した人間レベルの動的シーン認識は、したがって、達成するための魅力的な目標であり得る。
一態様によれば、シーン分類のためのシステムは、画像キャプチャデバイスと、画像セグメンテーションモジュールと、画像マスカーと、時間的分類子と、シーン分類子と、を含み得る。画像キャプチャデバイスは、移動車両から環境の第1の一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュールは、第1の畳み込みニューラルネットワーク(convolutional neural network、CNN)に基づいて、環境内の1人以上の交通参加者を識別することができる。画像マスカーは、環境から交通参加者のうちの1人以上をマスキングすることによって、第2の一連の画像フレームを生成することができる。時間的分類子は、第2の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第3の一連の画像フレームを生成することができる。時間的分類子は、第2のCNN、長短期メモリ(long short-term memory、LSTM)ネットワーク、及び第1の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、第3の一連の画像フレームの1つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。
2つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。第1のCNN、第2のCNN、又は第3のCNNは、ディープネットCNN又はResNet 50CNNであってもよい。シーン分類のためのシステムは、車両に実装されてもよく、車両は、シーン予測に基づいて、車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化するコントローラを含んでもよい。
シーン分類子は、第3の一連の画像フレームの1つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類することができ、コントローラは、天候分類に基づいて、車両のセンサのうちの1つ以上、又は車両システムのうちの1つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第3の一連の画像フレームの1つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類することができ、コントローラは、路面分類に基づいて、車両のセンサのうちの1つ以上、又は車両システムのうちの1つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第3の一連の画像フレームの1つ以上の画像フレームを、都市、ランプ、高速道路、又はローカルを含む環境分類に分類することができ、コントローラは、環境分類に基づいて、車両のセンサのうちの1つ以上、又は車両システムのうちの1つ以上をアクティブ化又は非アクティブ化することができる。
車両システムのうちの1つ以上は、LIDARシステム又はレーダーシステムであってもよい。コントローラは、シーン予測がトンネルであることに基づいて、LIDARシステム又はレーダーシステムを非アクティブ化することができる。コントローラは、シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索を優先順位付けすることができる。
一態様によれば、シーン分類のためのシステムを装備した車両は、画像キャプチャデバイスと、画像セグメンテーションモジュールと、画像マスカーと、時間的分類子と、シーン分類子と、コントローラと、を含み得る。画像キャプチャデバイスは、移動車両から環境の第1の一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュールは、第1の畳み込みニューラルネットワーク(CNN)に基づいて、環境内の1人以上の交通参加者を識別することができる。画像マスカーは、環境から交通参加者のうちの1人以上をマスキングすることによって、第2の一連の画像フレームを生成することができる。時間的分類子は、第2の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第3の一連の画像フレームを生成することができる。時間的分類子は、第2のCNN、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、第3の一連の画像フレームの1つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。コントローラは、シーン予測に基づいて、車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化することができる。
2つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。第1のCNN、第2のCNN、又は第3のCNNは、ディープネットCNN又はResNet 50CNNであってもよい。車両システムのうちの1つ以上は、LIDARシステム又はレーダーシステムであってもよく、コントローラは、シーン予測がトンネルであることに基づいて、LIDARシステム又はレーダーシステムを非アクティブすることができる。
一態様によれば、シーン分類のためのシステムは、画像キャプチャデバイスと、時間的分類子と、シーン分類子と、を含み得る。画像キャプチャデバイスは、移動車両から環境の第1の一連の画像フレームをキャプチャすることができる。時間的分類子は、第1の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第2の一連の画像フレームを生成することができる。時間的分類子は、畳み込みニューラルネットワーク(CNN)、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づいて、分類を実行してもよい。シーン分類子は、第2のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、第2の一連の画像フレームの1つ以上の画像フレームを分類し、シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。
2つ以上の時間的予測は、接近注釈、進入注釈、及び通過注釈を含んでもよい。CNN又は第2のCNNは、ResNet 50CNNであり得る。シーン分類のためのシステムは、車両に実装されてもよく、車両は、シーン予測に基づいて、車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化するコントローラを含んでもよい。
シーン分類子は、第3の一連の画像フレームの1つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類することができる。コントローラは、天候分類に基づいて、車両のセンサのうちの1つ以上又は車両システムのうちの1つ以上をアクティブ化又は非アクティブ化することができる。シーン分類子は、第3の一連の画像フレームの1つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類することができる。コントローラは、路面分類に基づいて、車両のセンサのうちの1つ以上又は車両システムのうちの1つ以上をアクティブ化又は非アクティブ化することができる。
一態様による、シーン分類のためのシステムの構成要素図である。
一態様による、シーン分類のための方法のフロー図である。
一態様による、シーン分類と関連付けられた時間的予測又は予測の例示的な図である。
一態様による、様々なシーン分類と関連付けられた時間的予測又は予測の例示的な図である。 一態様による、様々なシーン分類と関連付けられた時間的予測又は予測の例示的な図である。
図1のシーン分類のためのシステムを訓練することと関連付けられたアーキテクチャの例示的な図である。
一態様による、本明細書に記載される提供のうちの1つ以上を具現化するように構成されたプロセッサ実行可能命令を含む、例示的なコンピュータ可読媒体又はコンピュータ可読デバイスの図である。
一態様による、本明細書に記載される提供のうちの1つ以上が実装される、例示的なコンピューティング環境の図である。
以下の用語は、本開示全体を通して使用され、その定義は、本開示の1つ以上の態様の理解を支援するために本明細書で提供される。
本明細書で使用される場合、「プロセッサ」という用語は、信号を処理し、一般的なコンピューティング及び演算機能を実行する。プロセッサによって処理された信号は、デジタル信号、データ信号、コンピュータ命令、プロセッサ命令、メッセージ、ビット、ビットストリーム、又は受信、送信、及び/若しくは検出され得る他の手段を含んでもよい。一般に、プロセッサは、複数の単一及びマルチコアプロセッサ及びコプロセッサ並びに他の複数の単一及びマルチコアプロセッサ及びコプロセッサアーキテクチャを含む、多種の様々なプロセッサであってもよい。プロセッサは、様々な機能を実行するための様々なモジュールを含んでもよい。
本明細書で使用される場合、「メモリ」という用語は、揮発性メモリ及び/又は不揮発性メモリを含み得る。不揮発性メモリには、例えば、ROM(read only memory、読取り専用メモリ)、PROM(programmable read only memory、プログラマブル読取り専用メモリ)、EPROM(erasable PROM、消去可能なPROM)、及びEEPROM(electrically erasable PROM、電気的消去可能なPROM)が含まれ得る。揮発性メモリは、例えば、RAM(random access memory、ランダムアクセスメモリ)、同期RAM(synchronous RAM、SRAM)、ダイナミックRAM(dynamic RAM、DRAM)、シンクロナスDRAM(synchronous DRAM、SDRAM)、ダブルデータレートSDRAM(double data rate SDRAM、DDRSDRAM)、及びダイレクトRAMバスRAM(direct RAM bus RAM、DRRAM)を含み得る。メモリは、コンピューティングデバイスのリソースを制御する又は割り振る、オペレーティングシステムを記憶することができる。
本明細書で使用される場合、「ディスク」又は「ドライブ」という用語は、磁気ディスクドライブ、ソリッドステートディスクドライブ、フロッピーディスクドライブ、テープドライブ、Zipドライブ、フラッシュメモリカード、及び/又はメモリスティックであってもよい。更に、ディスクは、CD−ROM(compact disk ROM、コンパクトディスクROM)、CD記録可能ドライブ(CD recordable drive、CD−Rドライブ)、CD書き換え可能ドライブ(CD rewritable drive、CD−RWドライブ)、及び/又はデジタルビデオROMドライブ(digital video ROM、DVD−ROM)であってもよい。ディスクは、コンピューティングデバイスのリソースを制御する又は割り振る、オペレーティングシステムを記憶することができる。
本明細書で使用される場合、「バス」という用語は、コンピュータ内部又はコンピュータ間の他のコンピュータ構成要素に動作可能に接続された、相互接続されたアーキテクチャを指す。バスは、コンピュータ構成要素間でデータを転送することができる。バスは、とりわけ、メモリバス、メモリコントローラ、周辺バス、外部バス、クロスバースイッチ、及び/又はローカルバスとすることができる。バスはまた、とりわけ、媒体配向システム輸送(Media Oriented Systems Transport、MOST)、コントローラエリアネットワーク(Controller Area network、CAN)、ローカル相互接続ネットワーク(Local Interconnect Network、LIN)などのプロトコルを使用して、車両内部の構成要素を相互接続する、車両バスであってもよい。
本明細書で使用される場合、「データベース」という用語は、テーブル、1セットのテーブル、及び1セットのデータストア(例えば、ディスク)、並びに/又はそれらのデータストアにアクセス及び/又は操作するための方法を指し得る。
「動作可能な接続」、又はエンティティが「動作可能に接続される」ことによる接続は、信号、物理的通信、及び/又は論理的通信が、送信及び/又は受信され得るものである。動作可能な接続は、無線インターフェース、物理的インターフェース、データインターフェース、及び/又は電気インターフェースを含んでもよい。
本明細書で使用される場合、「コンピュータ通信」という用語は、2つ以上のコンピューティングデバイス(例えば、コンピュータ、パーソナルデジタルアシスタント、セルラー電話、ネットワークデバイス)間の通信を指し、例えば、ネットワーク転送、ファイル転送、アプレット転送、電子メール、ハイパーテキスト転送プロトコル(hypertext transfer protocol、HTTP)転送などであってもよい。コンピュータ通信は、例えば、とりわけ、無線システム(例えば、IEEE802.11)、イーサネットシステム(例えば、IEEE802.3)、トークンリングシステム(例えば、IEEE802.5)、ローカルエリアネットワーク(local area network、LAN)、広域ネットワーク(wide area network、WAN)、ポイントツーポイントシステム、回路スイッチングシステム、パケットスイッチングシステムを介して発生し得る。
本明細書で使用される場合、「車両」という用語は、1人以上の人間の乗員を運搬することができ、任意の形態のエネルギーによって電力供給される、任意の移動車両を指す。「車両」という用語には、自動車、トラック、バン、ミニバン、SUV、オートバイ、スクーター、ボート、パーソナルウォータークラフト、及び航空機が含まれる。いくつかのシナリオでは、モータ車両は、1つ以上のエンジンを含む。更に、「車両」という用語は、電気電池によって電力供給される1つ以上の電気モータによって、完全に又は部分的に電力供給される、電気自動車(electric vehicle、EV)を指し得る。EVは、電池電気自動車(battery electric vehicle、BEV)及びプラグインハイブリッド電気自動車(plug-in hybrid electric vehicle、PHEV)を含んでもよい。追加的に、「車両」という用語は、任意の形態のエネルギーによって動力を供給される、自律型車両及び/又は自動運転型車両を指し得る。自律型車両は、1人以上の人間の乗員を運んでもよく、又は運ばなくてもよい。
本明細書で使用される場合、「車両システム」という用語は、車両、運転、及び/又は安全性を向上させるために使用され得る、任意の自動又は手動システムであってもよい。例示的な車両システムには、とりわけ、自律型運転システム、電子安定制御システム、アンチロックブレーキシステム、ブレーキアシストシステム、自動ブレーキプレフィルシステム、低速追従システム、クルーズ制御システム、衝突警告システム、衝突軽減ブレーキシステム、自動クルーズ制御システム、車線逸脱警告システム、死角表示システム、車線維持支援システム、ナビゲーションシステム、伝送システム、ブレーキペダルシステム、電子式パワーステアリングシステム、視覚デバイス(例えば、カメラシステム、近接センサシステム)、空調システム、電子プレテンショニングシステム、監視システム、乗客検出システム、車両サスペンションシステム、車両シート構成システム、車室内照明システム、オーディオシステム、感覚システムが含まれる。
本明細書で説明される態様は、コンピュータ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体のコンテキストにおいて、説明及び実施されてもよい。非一時的コンピュータ可読記憶媒体は、コンピュータ記憶媒体及び通信媒体を含む。例えば、フラッシュメモリドライブ、デジタル多用途ディスク(digital versatile disc、DVD)、コンパクトディスク(compact disc、CD)、フロッピーディスク、及びテープカセットである。非一時的コンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、モジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含んでもよい。
図1は、一態様による、シーン分類のためのシステム100の構成要素図である。車両10は、シーン分類のためのシステム100を装備していてもよい。シーン分類のためのシステム100は、画像キャプチャデバイス102と、プロセッサ104と、メモリ106と、記憶ドライブ108と、通信インターフェース110と、画像セグメンテーションモジュール112と、画像マスカー114と、畳み込み器116と、時間的分類子118と、シーン分類子120と、を含んでもよい。車両10は、コントローラと、1つ以上の車両センサと、1つ以上の車両システム190と、を含んでもよい。通信インターフェース110は、サーバ130と通信してもよい。サーバ130は、グラウンドトルス画像シーケンス132と、シーン分類モデル134又はシーン分類ポリシーネットワークとを含み得る、シーン分類データベースを含んでもよい。一態様によれば、画像セグメンテーションモジュール112、画像マスカー114、畳み込み器116、時間的分類子118、及び/又はシーン分類子120のうちの1つ以上は、プロセッサ104、メモリ106、記憶ドライブ108などを介して実装され得る。
グラウンドトルス
一態様によれば、グラウンドトルス画像シーケンス132は、移動車両と関連付けられ、訓練段階中に収集され得る、一連の1つ以上の画像フレームを含んでもよい。いくつかのシーンは静的であってもよく、他のシーン又は場所は動的であってもよいことが理解されるであろう。例えば、交差点は静的なシーン又は場所であり得る一方で、建設ゾーンは、建設ゾーンが交通コーンによって画定され、建設ゾーンの間及び異なる日又は時間の間で、サイズ、形状、外観、及び/又は位置を変更できるという点で動的であり得る。
グラウンドトルス画像シーケンス132の1つ以上の画像フレームのうちのそれぞれ1つは、時間的分類ラベル、天候分類ラベル、路面分類ラベル、環境分類ラベル、及びシーン分類ラベルなどの1つ以上のラベルで注釈付け(例えば、手動で注釈付けされ、グラウンドトルスを示す)されてもよい。時間的分類ラベルの実施例としては、背景、接近、進入、通過などを含むことができる。換言すれば、画像フレームは、関心のある場所又はシーンの位置に対する訓練車両の観点及び/又は位置に応じて、接近(A)、進入(E)、通過(P)などのきめの細かいラベルで一時的に注釈付けされる。分類ラベルは、階層的かつ因果的な様式で編成されてもよい。例えば、上部では、環境に注釈が付けられてもよく、続いて中間レベルでは、シーン分類、更に下部レベルでは、接近、進入、通過などのきめの細かい注釈が付けられてもよい。
天候分類ラベルの実施例には、快晴、晴れ、雪、雨、曇り、曇空、霧、明、暗などが含まれ得る。路面分類ラベルの実施例には、乾燥、湿潤、雪、不明瞭なもの(例えば、視認できないいくつかの交通標識)、ぬかるみなどが含まれ得る。環境分類ラベルの実施例には、都市、国、郊外、ランプ、高速道路、ローカル(例えば、近隣、住宅、学校)などの環境タイプが含まれ得る。例えば、ランプは、2つの高速道路間、又は高速道路と別の道路タイプ間のコネクタであり得る。シーン分類ラベルの実施例としては、道路の場所、建設ゾーン、交差点(例えば、3方向、4方向、5方向などのx方向の交差点)、橋、高架橋、踏切、トンネル、車線合流、車線分岐、横断歩道などが含まれ得る。一部のシーン分類は、接近及び通過の一時的な分類ラベルのみと関連付けられている場合があるが、その他のシーン分類は、接近、進入、及び通過のラベルと関連付けられていてもよい。路面分類と天候分類は、互いに相互排他的であってもよい。換言すれば、例えば、道路が濡れている場合があるが、天候は晴れていてもよい。
この注釈付きグラウンドトルス画像シーケンス132は、例えば、シーン分類モデル134又はシーン分類ポリシーネットワークとしてシーン分類データベースに記憶され得る、モデルを訓練するために利用され得る。グラウンドトルス画像シーケンス132は、所望に応じて注釈付けされている(例えば、これは手動で人間によって実行され得る)ため、シーン分類モデル134は、機械学習、深層学習、又は他のタイプの人工知能技術を介して、訓練され得る。この点に関して、シーン分類のためのシステム100は、損失を最小限に抑え、逆伝播によって、グラウンドトルス画像シーケンス132からの結果を模倣するように、(例えば、プロセッサ104を介して)訓練され得る。
画像キャプチャ
画像キャプチャデバイス102は、移動車両の視点から、環境(例えば、動作環境)の第1の一連の画像フレーム(例えば、ビデオ)をキャプチャすることができる。一態様によれば、この環境の第1の一連の画像フレーム又はビデオは、シーン分類のためのシステム100への入力として取得されてもよい。
セグメンテーション
画像セグメンテーションモジュール112は、第1の畳み込みニューラルネットワーク(CNN)及び第1の一連の画像フレームに基づいて、画像フレームから環境内の1人以上の交通参加者を識別することができる。一態様によれば、画像セグメンテーションモジュール112は、deeplab CNNを実装してもよい。実装形態にかかわらず、画像セグメンテーションモジュール112は、一連の画像フレームの入力が提供されるときに、出力としての意味的セグメンテーションを提供することができる。画像セグメンテーションモジュール112は、第1の一連の画像フレームの各画像フレーム内のオブジェクトを分類することができる。例えば、画像セグメンテーションモジュール112は、1人以上の歩行者、(例えば、交通時の)1つ以上の車両、1人以上の運転者、1人以上の傍観者、1人以上の自転車乗用者、1つ以上の移動オブジェクトなどを識別することができる。
マスキング
画像マスカー114は、環境から交通参加者のうちの1人以上をマスキングすることによって、第2の一連の画像フレームを生成することができる。交通参加者は一般に、シーンがどのように定義されているか(例えば、環境が交差点、高速道路などであるかどうか)に関係がないため、画像マスカー114は、第2の一連の画像フレームから環境からの全ての交通参加者をマスクすることができる。一態様によれば、画像マスカー114は、画像フレームシーケンスから交通参加者のうちの1人以上をマスクするために、意味的セグメンテーションを利用することができる。一態様によれば、画像マスカー114はまた、環境から、空の鳥などの他の不要なオブジェクトをマスクしてもよい。このようにして、画像マスカー114は、シーン分類のためのシステム100のニューラルネットワークが画像フレームのマスクされていない部分に焦点を合わせることにより、より多くの空間的注意をシーン分類のためのシステム100に提供し、それにより分類中の精度を高めることができる。したがって、画像マスカー114及び画像セグメンテーションモジュール112を介して、意味的コンテキストが提供され得る。
時間的分類
時間的分類子118は、第2の一連の画像フレームの1つ以上の画像フレーム(例えば、又は画像キャプチャデバイス102によりキャプチャされた画像フレームの元のセットからの画像フレーム)を、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデル134に基づいて、それぞれの時間的予測と関連付けられた第3の一連の画像フレームを生成することができる。時間的予測の実施例としては、シーン又は場所の背景、接近、進入、通過などを含むことができる。時間的分類子118は、接近が一般的に進入し、次いで通過することということを学習することができる。
一態様によれば、時間的分類子118は、第2のCNN、長短期メモリ(LSTM)ネットワーク、及び元の入力画像フレーム(RGB)、意味的セグメンテーションで連結された画像フレーム(RGBS)、意味的セグメンテーションを使用してマスクされた交通参加者を有する画像フレーム(RGBマスク)、又は単に1つのチャネルの意味的セグメンテーション画像を使用した画像フレーム(S)であり得る、画像フレームの入力セット上の第1の完全に接続された層に基づいて、分類を実行し得る。このようにして、時間的分類子118を利用して、シーン内のどこに車両10が(例えば、フレームベースで)位置するかを決定することができる。一態様によれば、第2のCNNは、例えば、ResNet 50として実装されてもよい。時間的分類子118は、シーン又は場所のタイプに関するシーン分類子120による任意の決定の前に、第1の一連の画像フレームの1つ以上の対応する画像フレーム又は第2の一連の画像フレームの1つ以上の対応する画像フレームへの時間的予測のうちの1つ以上を決定し、割り当てることができる。
時間的分類子118は、任意のCNNに基づいて分類を実行する場合、畳み込み器116を実装し、CNN、深度CNN、ポーズCNNなどの畳み込み器のCNNのうちの1つ以上を介して入力を通過させて、出力を生成することができる。
換言すれば、時間的分類子118は、シーンが実際にどのタイプのシーンであるかを決定する前、又はシーンについて関連付けられたシーン予測を決定する前に、シーンの開始、中間、及び/又は終了を決定することができる。更に別の言い方をすれば、時間的分類子118により、シーン分類のためのシステム100は、車両10が交差点又は建設ゾーンを通過するときなどのイベントの異なる段階を区別することができる。具体的には、時間的分類子118は、1セットの一時的予測からの時間的予測を用いて、一連の画像のうちの1つ以上の1つ以上の画像フレームをラベル付けし、割り当て、又は注釈付けることができる。前述したように、これらの時間的予測の実施例としては、シーン又は場所の背景、接近、進入、又は通過を含むことができる。このようにして、微細な粒度の又はきめの細かい時間的分類は、(例えば、特定の未知のシーン又は場所内に、車両10を局所化するために)時間的分類子118によって提供され得る。他の態様に従って、他の時間的予測が利用され得ることが理解されるであろう。例えば、時間的予測は、数値であり、(例えば、シーン分類子120によってまだ定義されていない可能性がある)シーンの進行を示すことができる。いずれにしても、グラウンドトルス画像シーケンス132を利用して、シーンのタイプが既知であるかどうかにかかわらず、車両10がシーンに接近、進入、又は通過するときを検出するために、時間的分類子118などの分類子を訓練することができる。
天候分類
シーン分類子120は、ResNet 50又はディープネットCNNなどのCNNで訓練され得るシーン分類モデル134を利用して、車両10についての天候分類を決定することができる。シーン分類と同様に、天候、路面、及び環境は、交通参加者がマスクされている入力を使用して(例えば、環境から交通参加者のうちの1人以上をマスクする、一連の画像フレームを生成する画像マスカー114を使用して)、分類され得る。しかしながら、元の入力画像フレーム(RGB)、意味的セグメンテーションで連結された画像フレーム(RGBS)、意味的セグメンテーションを使用してマスクされた交通参加者を有する画像フレーム(RGBマスク)、又は単に1つのチャネルの意味的セグメンテーション画像を使用した画像フレーム(S)などの、他の入力が提供されてもよい。シーン分類モデル134は、注釈付きグラウンドトルス画像シーケンス132に基づいて、訓練されてもよい。天候分類ラベルの実施例としては、快晴、晴れ、雪、雨、曇り、曇空、霧、明、暗などの照明条件、可視条件を含むことができる。
路面分類
シーン分類子120は、ResNet 50などのCNNで訓練された可能性のあるシーン分類モデル134を利用して、車両10についての路面分類を決定することができる。シーン分類モデル134は、上述のように、関連付けられた画像フレームのそれぞれについての1つ以上のラベルで注釈付けされ得る、グラウンドトルス画像シーケンス132に基づいて訓練されてもよい。路面分類ラベルの実施例としては、乾燥、湿潤、雪、不明瞭なもの(例えば、視認できないいくつかの交通標識)、ぬかるみなどを含むことができる。
環境分類
シーン分類子120は、他のタイプの分類と同様に動作してもよい。環境分類ラベルの実施例としては、都市、国、郊外、ランプ、高速道路、ローカル(例えば、近隣、住宅、学校)などの環境タイプを含むことができる。
シーン又は場所分類
シーン分類子120は、第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、第3の一連の画像フレームの1つ以上の画像フレームを分類し、シーン分類モデル134及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成することができる。シーン分類子120は、シーン分類モデル134及びそれぞれの時間的予測に基づいて、それぞれの時間的予測と関連付けられた第4の一連の画像フレームを生成することができる。このようにして、時間的分類子118を利用して、ビデオから又は画像シーケンスから画像フレームをトリミングし、それにより、効率的なシーン分類が発生することを可能にし得る。別の言い方をすれば、シーン分類子120は、背景として注釈付けされた画像フレームを無視しながら、所与の環境場所の接近、進入、及び通過としてマークされた画像フレームを単に考慮し、したがって、例えば、道路シーンの動的分類を提供することができる。このようにして、この2段階アーキテクチャは、背景画像フレームを調べること及び/又はシーン分類から除外することによって、処理電力の不必要な使用を軽減する。したがって、時間的分類子118は、シーンを分類するために利用される処理電力及びリソースの量を軽減し、予測ネットワークへのイベントウィンドウとしてシーン分類子120に接近、進入、又は通過する候補フレームだけを送信する、シーン分類子120の粗いセパレータとして機能する。
シーン分類子120は、時間的分類子118と同様に、任意のCNNに基づいて分類を実行する場合、畳み込み器116を実装し、CNN、深度CNN、ポーズCNN、ResNet 50CNNなどの畳み込み器のCNNのうちの1つ以上を介して入力を通過させて、出力を生成することができる。
一態様によれば、第3のCNNは、例えば、ResNet 50として実装されてもよい。したがって、シーン分類子120は、対応する画像フレームのうちの1つ以上からの時間予測のうちの1つ以上を利用して、どのタイプのシーン又は場所が、シーンの接近、進入、及び通過と関連付けられるかの決定を容易にし得る。例えば、時間的分類子118は、時間的予測を伴う一連の画像フレームの1つ以上の画像フレームを分類することができる。これらの時間的予測を使用して、シーン分類子120は、例えば、一連の画像フレームからのシーンの接近、進入、及び通過と関連付けられた1セットの画像フレームが建設ゾーンであると決定することができる。したがって、時間的分類子118は、未知のタイプのシーンの開始、中間、及び終了を介して、車両10が移動していると決定してもよく、シーン分類子120は、時間的分類子118が画像フレームの時間的予測を作成又は決定した後に、シーンがどのタイプのシーンであるかを決定してもよい。
シーン又は場所分類の実施例としては、例えば、建設ゾーン、交差点(例えば、3方向、4方向、5方向などのx方向の交差点)、橋、高架橋、踏切、トンネル、車線合流、車線分岐、横断歩道などの道路の場所が含まれ得る。このようにして、シーン予測は、例えば、車両10が接近、進入、又は通過する位置のタイプを示すシーン分類であってもよい。
一態様によれば、シーン分類子120は、リアルタイムで、第1の一連の画像フレームの入力に基づいて、シーン予測を生成することができ、そのためシーン予測を生成するために、背景、接近、進入、通過から時間的に注釈付けされた完全な一連の画像フレームは、必ずしも必要ではない。換言すれば、シーン分類子120が、CNN、グローバル平均プーリング、及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する前に、単に部分的な一連の画像フレームに時間的予測(例えば、背景、接近、...など)を割り当てることができる。したがって、グラウンドトルスデータセットの意味的コンテキスト及び時間的性質を利用する機械学習の開発は、シーン分類のためのシステム100の分類結果を向上することができる。
車両アプリケーション
コントローラは、シーン予測及び/又は例えば、天候分類、路面分類、環境分類などの分類のうちの1つ以上に基づいて、車両10の1つ以上のセンサ又は1つ以上の車両システム190をアクティブ化又は非アクティブ化してもよい。例えば、シーンコンテキスト特徴は、オブジェクトの認識、挙動、動作、意図、ナビゲーション、位置特定などの他のダウンストリームタスクのための優先順位として機能し得るため、車両10のコントローラは、シーン分類子120、並びに天候分類、路面分類、及び環境分類を含む他の分類によって決定されたシーン予測に基づいて反応し得る。
例えば、シーン分類子120がシーン予測を横断歩道であると決定した場合、車両10のコントローラは、歩行者を検出するために追加のセンサを作動させることができる。車両10が高速道路上にあるときなど、他の時点では、歩行者センサの優先順位を低くすることができる。別の実施例として、シーン分類子120がシーン予測を交差点であると決定した場合、車両10のコントローラは、追加のセンサを作動させるか、又は特定のモジュールを実行して、信号機、一時停止標識、一時停止線、又は他の交差点関連情報を検出することができる。換言すれば、コントローラは、シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索の優先順位を変更したり、優先順位を高くしたりすることができる。逆に言えば、コントローラは、シーン予測がトンネルであることに基づいて、LIDARシステム又はレーダーシステムを非アクティブ化することができる。
一態様によれば、シーン分類子120は、シーン予測が建設ゾーンであると決定し、車両のコントローラ(例えば、プロセッサ104を介して実装される)は、自律型車両が道路の事前構築された高精細化マップを利用し得るため、建設ゾーンであるシーン予測に基づいて、警告若しくは通知を提供し、及び/又は自律運転を無効にすることができる。シーン分類子120が、霧又は雨が降っていると決定した場合、プロセッサ104は、車両システム190のうちの1つ以上からのLIDARを無効にして、ゴースト効果を軽減することができる。シーン分類子120が、車両シーン予測がトンネル内にある、又は高架橋が存在すると決定したとき、GPSがトンネル又は高架橋から追跡を失う可能性があるため、車両システム190のGPSは優先順位を下げられ得る。更に、カメラは、トンネル又は高架橋領域を出るときに、極端な露出のために事前に準備されてもよい。同様に、車線逸脱警告システムは、例えば、シーン分類子120がシーン予測を分岐領域又は出口ランプの近くにあると決定したときに、より広い許容範囲で実装されるか、又は無効にされ得る。したがって、シーン分類子120を利用して、例えば、それぞれの車両システム190のうちの1つ以上をアクティブ化すること、非アクティブ化すること、優先順位付けすること、優先順位を下げることなどによって、車両システム190のうちの1つ以上の使用を強化することができる。このようにして、シーン分類子120は、車両10の他の車両システム190が効率的に動作するための文脈上の合図を提供し得る。
図2は、一態様による、シーン分類のための方法200のフロー図である。シーン分類のための方法200は、移動車両から環境の第1の一連の画像フレームをキャプチャすること202と、第1のCNNに基づいて、環境内の交通参加者を識別すること204と、環境から交通参加者をマスキングすることによって、第2の一連の画像フレームを生成すること206と、第2のCNN、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づいて、第2の一連の画像フレームの画像フレームを、時間的予測に分類すること208と、第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、画像フレームを分類すること210と、シーン分類モデル134及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成すること212と、を含み得る。
図3は、一態様による、シーン分類と関連付けられた時間的予測の例示的な図である。図3では、画像キャプチャデバイス102によってキャプチャされた異なる画像フレームは、グラウンドトルス画像シーケンス132と関連付けてラベル付けされてもよい。例えば、第1の画像フレーム310は、接近する画像フレームとしてラベル付けされてもよく、第2の画像フレーム320は、進入する画像フレームとしてラベル付けされてもよく、第3の画像フレーム330は、通過する画像フレームとしてラベル付けされてもよい。この接近、進入、及び通過は、図3に見られるように、車両10が接近すること312、進入すること322、及び通過すること332に対応し得る。
図3は、交差点シーンのタイプについて接近する、進入する、及び通過することを描写しているが、他のタイプのシーンにも同様の様式(例えば、接近、進入、及び通過の時間的予測を含み、交差点、橋、トンネルなどのシーンタイプの注釈などの他の注釈も含む)で注釈付けすることができる。画像キャプチャデバイス102からのグラウンドトルス画像シーケンス132及びキャプチャされた一連の画像フレームは、移動車両の視点からであり得、したがって、画像フレームは、静的又は静止カメラの視点からではないことが理解されるであろう。換言すれば、グラウンドトルス画像シーケンス132及びキャプチャされた一連の画像フレームは、観点及び/又はシーンの外観における時空間変動を含み得る。図3に見られるように、車両10が対象シーン(すなわち、通過332での交差点)に近づくにつれて、交差点までの距離が変化することにより、ビューの変動が引き起こされ得る。
図4A及び図4Bは、一態様による、様々なシーン分類と関連付けられた時間的予測の例示的な図である。図4A及び図4Bでは、様々な注釈の異なる実施例が提供される。一態様によれば、図4A及び図4Bのアーキテクチャを介して供給されるパラメータを、取扱いやすくするために、1つ以上のCNN又は他のネットワークを実装することができる。
図5は、図1のシーン分類のためのシステム100を訓練することと関連付けられたアーキテクチャの例示的な図である。グラウンドトルス画像シーケンス132は、「建設」のシーン分類ラベルを含むように注釈付けされてもよく、建設環境の入力された一連の画像フレームの画像フレームのうちのそれぞれ1つは、移動車両が建設ゾーン内のどこにあるかを示す時間的予測で注釈付けされてもよい。換言すれば、グラウンドトルス画像シーケンス132の時間的予測は、例えば、接近、進入、又は通過としてマークされ得る。
画像キャプチャデバイス102は、入力された一連の画像フレームをキャプチャすることができる。画像セグメンテーションモジュール112は、例えば、CNN510(例えば、deeplab CNN)を介して、意味的セグメンテーションを使用して、1人以上の交通参加者をセグメント化又は識別することができる。画像マスカー114は、画像フレームから交通参加者のうちの1人以上をマスクすることができ、それにより、シーン分類のためのシステム100が、単に周囲環境に焦点を当て、それに応じてより正確なシーン分類を提供することができる。
図5に見られるように、時間的分類子118を利用して、トリミングされていないビデオをトリミングし、特徴を集約して、トリミングされたセグメント全体を分類することができる。例えば、フレーム基準ではなく、セグメント全体を探す、又は調べること(例えば、接近、進入、及び通過)によって、クラスを4方向の交差点として分析又は決定することが有益な場合がある。ここで、時間的分類子118は、マスクされた交通参加者(例えば、RGBマスクされた画像フレーム)を有する、一連の画像フレームを供給され得る。他の態様又はアーキテクチャによれば、時間的分類子118は、RGB、RGBS、又はS画像フレームなどの他の一連の画像フレームを受信してもよい。いずれにしても、時間的分類子118は、入力された画像フレームのセットを受信し、これを、ResNet 50CNNなどのCNN520を介して供給し、1セットの特徴522を抽出し、この特徴のセットを、LSTM526及び完全に接続された層528を介して供給し、それによって、それぞれが時間的予測で注釈付けされた一連の画像フレームを生成することができる。
時間的予測で注釈付けされた一連の画像フレームは、ResNet 50CNNなどの1つ以上のCNN530を含み得るシーン分類子120に供給され、1セットの特徴532を抽出し、グローバル平均プーリング536を実行し、完全に接続された層538を介して結果を供給して、接近、進入、及び通過として注釈付けされた画像フレームを含むシーン(例えば、この時点までは未知であり得る)についてのシーン予測を生成することができる。このモデルは、グラウンドトルス画像シーケンス132に基づいて、訓練されてもよい。換言すれば、時間的分類子118及びシーン分類子120は、同様の注釈付けされていない一連の画像フレームがシーン分類のためのシステム100に提供される場合などに、機械学習又は深層学習を使用して訓練されて、グラウンドトルス画像シーケンス132の注釈を複製又は模倣することができ、それによって、サーバ130上のシーン分類データベース内に格納されたシーン分類モデル134又はシーン分類ポリシーネットワークを構築する。
シーン分類子120は、グローバル平均プーリングを通じて、このウィンドウ内のフレームを集計し、イベント、場所、又はシーン全体の単一のクラスラベルを生成することができる。一態様によれば、本明細書に記載されるCNNのうちの1つ以上は、グラウンドトルス画像シーケンス132又はシーン分類データベースからの別のデータベースで事前に訓練されてもよい。過学習を低減するために、データ増大を実行することができる。ランダムなフリップ、ランダムなサイズ変更、及びランダムなクロップが用いられてもよい。示されるように、プロセッサ104又は車両10のコントローラは、生成されたシーン予測に基づいて、1つ以上の車両システム190の調整を行うことができる。
更に別の態様は、本明細書に提示される技術の一態様を実施するように構成されたプロセッサ実行可能命令を含む、コンピュータ可読媒体を含む。これらの方法で考案されたコンピュータ可読媒体又はコンピュータ可読デバイスの一態様が図6に示されており、実装形態600は、例えば、CD−R、DVD−R、フラッシュドライブ、ハードディスクドライブのプラッタなどのコンピュータ可読媒体608を含み、その上にコンピュータ可読データ606が符号化されている。次に、606に示されるような複数の0及び1を含むバイナリデータなどのこの符号化されたコンピュータ可読データ606は、本明細書に記載の原理のうちの1つ以上に従って動作するように構成されている、1セットのプロセッサ実行可能コンピュータ命令604を含む。この実装形態600では、プロセッサ実行可能コンピュータ命令604は、図2の方法200などの方法602を実行するように構成され得る。別の態様では、プロセッサ実行可能コンピュータ命令604は、図1のシーン分類のためのシステム100などのシステムを実装するように構成され得る。本明細書に提示される技術に従って動作するように構成されている、多くのそのようなコンピュータ可読媒体は、当業者によって考案され得る。
本出願で使用するとき、用語「構成要素」、「モジュール」、「システム」、「インターフェース」などは、一般に、コンピュータ関連のエンティティ、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェアのいずれか、又は実行中のソフトウェアを指すことを意図している。例えば、構成要素は、それだけには限定されないが、プロセッサ上で実行されるプロセス、処理ユニット、オブジェクト、実行可能ファイル、実行スレッド、プログラム、又はコンピュータとすることができる。例示として、コントローラ上で実行されているアプリケーション及びコントローラの両方が、構成要素であってもよい。プロセス又は実行スレッド及び構成要素内に存在する1つ以上の構成要素は、1つのコンピュータ上に局在化されてもよく、又は2つ以上のコンピュータ間に分散されてもよい。
更に、特許請求される主題は、開示された主題を実施するためにコンピュータを制御するためのソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するための、標準プログラミング又はエンジニアリング技術を使用する方法、装置又は製品として実装される。本明細書で使用するとき、用語「製品」は、任意のコンピュータ可読デバイス、キャリア、又は媒体からアクセス可能なコンピュータプログラムを包含することを意図する。当然ながら、特許請求される主題の範囲又は趣旨から逸脱することなく、この構成に対する多くの修正がなされてもよい。
図7及び以下の説明は、本明細書に記載される提供のうちの1つ以上の態様を実施するための好適なコンピューティング環境の説明を提供する。図7の動作環境は、好適な動作環境の単なる一実施例であり、動作環境の使用又は機能の範囲に関していかなる制限を示唆することを意図するものではない。例示的なコンピューティングデバイスとしては、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド又はラップトップデバイス、例えば、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、メディアプレーヤなどのモバイルデバイス、マルチプロセッサシステム、家電製品、ミニコンピュータ、メインフレームコンピュータ、上記のシステム又はデバイスのいずれかを含む分散コンピューティング環境などを含むが、これらに限定されない。
一般に、態様は、1つ以上のコンピューティングデバイスによって実行される「コンピュータ可読命令」の一般的な文脈で説明される。コンピュータ可読命令は、以下に説明するように、コンピュータ可読媒体を介して分散されてもよい。コンピュータ可読命令は、1つ以上のタスクを実行する、又は1つ以上の抽象データタイプを実装する、機能、オブジェクト、アプリケーションプログラミングインターフェース(Application Programming Interface、API)、データ構造などのプログラムモジュールとして実装されてもよい。典型的には、コンピュータ可読命令の機能性は、様々な環境において所望に応じて組み合わされるか、又は分散される。
図7は、本明細書で提供される一態様を実装するように構成されている、コンピューティングデバイス712を含むシステム700を示す。1つの構成では、コンピューティングデバイス712は、少なくとも1つの処理ユニット716及びメモリ718を含む。コンピューティングデバイスの正確な構成及びタイプに応じて、メモリ718は、RAMなどの揮発性、ROM、フラッシュメモリなどの不揮発性、又はこれら2つの組み合わせとすることができる。この構成は、破線714によって図7に示されている。
他の態様では、コンピューティングデバイス712は、追加の特徴又は機能性を含む。例えば、コンピューティングデバイス712は、磁気記憶装置、光学記憶装置などを含むがこれらに限定されない、取り外し可能な記憶装置又は取り外し不可能な記憶装置などの追加の記憶装置を含むことができる。このような追加の記憶装置は、記憶装置720で図7に示される。一態様では、本明細書で提供される一態様を実施するためのコンピュータ可読命令は、記憶装置720内にある。記憶装置720は、オペレーティングシステム、アプリケーションプログラムなどを実装するための他のコンピュータ可読命令を記憶してもよい。コンピュータ可読命令は、例えば、処理ユニット716による実行のために、メモリ718にロードされてもよい。
本明細書で使用するとき、用語「コンピュータ可読媒体」は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、コンピュータ可読命令又は他のデータなどの情報を記憶するための任意の方法又は技術で実装される、揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含んでもよい。メモリ718及び記憶装置720は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体としては、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(Digital Versatile Disk、DVD)若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用され得、かつコンピューティングデバイス712によってアクセスされ得る任意の他の媒体を含むが、これらに限定されない。任意のこのようなコンピュータ記憶媒体は、コンピューティングデバイス712の一部である。
用語「コンピュータ可読媒体」は、通信媒体を含む。通信媒体は、典型的には、搬送波又は他のトランスポート機構などの「変調データ信号」内のコンピュータ可読命令又は他のデータを具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、信号内の情報を符号化するような様式で設定又は変更されたその特性のうちの1つ以上を有する信号を含む。
コンピューティングデバイス712は、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイス、赤外線カメラ、ビデオ入力デバイス、又は任意の他の入力デバイスなどの入力デバイス(複数可)724を含む。1つ以上のディスプレイ、スピーカ、プリンタ、又は任意の他の出力デバイスなどの出力デバイス(複数可)722は、コンピューティングデバイス712とともに含まれてもよい。入力デバイス(複数可)724及び出力デバイス(複数可)722は、有線接続、無線接続、又はこれらの任意の組み合わせを介して、コンピューティングデバイス712に接続されてもよい。一態様では、別のコンピューティングデバイスからの入力デバイス又は出力デバイスは、コンピューティングデバイス712のための入力デバイス(複数可)724又は出力デバイス(複数可)722として使用されてもよい。コンピューティングデバイス712は、例えば、ネットワーク728を介するなどして、1つ以上の他のデバイス730との通信を容易にするために、通信接続(複数可)726を含んでもよい。
本主題は、構造的特徴又は方法論的行為に特有の言語で記載されているが、添付の特許請求の範囲の主題は、必ずしも上記の特定の特徴又は行為に限定されないことを理解されたい。むしろ、上述の特定の特徴及び行為は、例示的な態様として開示される。
様々な態様の操作が本明細書に提供される。操作の1つ以上又は全てが記載される順序は、これらの操作が必ずしも順序に依存することを意味するものとして解釈されるべきではない。この説明に基づいて、代替の順序が理解されるであろう。更に、全ての操作は、本明細書で提供される各態様において必ずしも存在しなくてもよい。
本出願で使用するとき、「又は」は、排他的な「又は」ではなく包括的な「又は」を意味することを意図する。更に、包括的な「又は」は、それらの任意の組み合わせ(例えば、A、B、又はこれらの任意の組み合わせ)を含んでもよい。加えて、本出願で使用される「a」及び「an」は、特に指定されない限り、又は文脈から単数形を対象とすることが明らかでない限り、一般に「1つ以上」を意味すると解釈される。加えて、A及びB及び/又は同様のもののうちの少なくとも1つは、一般に、A若しくはB、又はA及びBの両方を意味する。更に、「含む(include)」、「有する(having)」、「有する(has)」、「有する(with)」、又はその変形が、詳細な説明又は特許請求の範囲のいずれかにおいて使用される限りにおいて、そのような用語は、用語「備える(comprising)」と同様の様式において包括的であることが意図される。
更に、特に明記しない限り、「第1の」、「第2の」などは、時間的態様、空間的態様、順序付けなどを暗示することを意図するものではない。むしろ、そのような用語は、特徴、要素、項目などのための識別子、名前などとして単に使用されている。例えば、第1のチャネル及び第2のチャネルは、一般に、チャネルA及びチャネルB、又は2つの異なる若しくは2つの同一のチャネル、若しくは同じチャネルに対応する。更に、「備える(comprising)」、「備える(comprise)」、「含む(including)」、「含む(include)」などは、一般に、限定するものではないが、備える、又は含むことを意味する。
上記で開示された及び他の特徴及び機能、又はそれらの代替例若しくは変形例の多くは、多くの他の異なるシステム又はアプリケーションに望ましく組み合わされ得ることが理解されるであろう。また、当業者であれば、添付の特許請求の範囲によって包含されることも意図される、現在予測されていない、又は予期されていない様々な代替、修正、変形、又は改良を連続的に行うことができる。

Claims (20)

  1. シーン分類のためのシステムであって、
    移動車両から、環境の第1の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
    第1の畳み込みニューラルネットワーク(CNN)に基づいて、前記環境内の1人以上の交通参加者を識別する、画像セグメンテーションモジュールと、
    前記環境から、前記交通参加者のうちの1人以上をマスキングすることによって、第2の一連の画像フレームを生成する、画像マスカーと、
    前記第2の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第3の一連の画像フレームを生成する、時間的分類子であって、前記分類が、第2のCNN、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づく、時間的分類子と、
    第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、前記第3の一連の画像フレームの1つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、を含む、シーン分類のためのシステム。
  2. 前記2つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項1に記載のシーン分類のためのシステム。
  3. 前記第1のCNN、前記第2のCNN、又は前記第3のCNNが、ディープネットCNN又はResNet 50CNNである、請求項1に記載のシーン分類のためのシステム。
  4. 前記シーン分類のためのシステムが、車両に実装され、前記車両が、前記シーン予測に基づいて、前記車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラを含む、請求項1に記載のシーン分類のためのシステム。
  5. 前記シーン分類子が、前記第3の一連の画像フレームの1つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類し、
    前記コントローラが、前記天候分類に基づいて、前記車両の前記センサのうちの1つ以上又は前記車両システムのうちの1つ以上をアクティブ化又は非アクティブ化する、請求項4に記載のシーン分類のためのシステム。
  6. 前記シーン分類子が、前記第3の一連の画像フレームの1つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類し、
    前記コントローラが、前記路面分類に基づいて、前記車両の前記センサのうちの1つ以上又は前記車両システムのうちの1つ以上をアクティブ化又は非アクティブ化する、請求項4に記載のシーン分類のためのシステム。
  7. 前記シーン分類子が、前記第3の一連の画像フレームの1つ以上の画像フレームを、都市、ランプ、高速道路、又はローカルを含む環境分類に分類し、
    前記コントローラが、前記環境分類に基づいて、前記車両の前記センサのうちの1つ以上又は前記車両システムのうちの1つ以上をアクティブ化又は非アクティブ化する、請求項4に記載のシーン分類のためのシステム。
  8. 前記車両システムのうちの1つ以上が、LIDARシステム又はレーダーシステムである、請求項4に記載のシーン分類のためのシステム。
  9. 前記コントローラは、前記シーン予測がトンネルであることに基づいて、前記LIDARシステム又はレーダーシステムを非アクティブ化する、請求項8に記載のシーン分類のためのシステム。
  10. 前記コントローラは、前記シーン予測が交差点であることに基づいて、信号機、一時停止標識、一時停止線の検索を優先順位付けする、請求項4に記載のシーン分類のためのシステム。
  11. シーン分類のためのシステムを装備した車両であって、
    移動車両から、環境の第1の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
    第1の畳み込みニューラルネットワーク(CNN)に基づいて、前記環境内の1人以上の交通参加者を識別する、画像セグメンテーションモジュールと、
    前記環境から、前記交通参加者のうちの1人以上をマスキングすることによって、第2の一連の画像フレームを生成する、画像マスカーと、
    前記第2の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第3の一連の画像フレームを生成する、時間的分類子であって、前記分類が、第2のCNN、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づく、時間的分類子と、
    第3のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、前記第3の一連の画像フレームの1つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、
    前記シーン予測に基づいて、前記車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラと、を含む、車両。
  12. 前記2つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項11に記載の車両。
  13. 前記第1のCNN、前記第2のCNN、又は前記第3のCNNが、ディープネットCNN又はResNet 50CNNである、請求項11に記載の車両。
  14. 前記車両システムのうちの1つ以上が、LIDARシステム又はレーダーシステムであり、前記コントローラは、前記シーン予測がトンネルであることに基づいて、前記LIDARシステム又はレーダーシステムを非アクティブ化する、請求項11に記載の車両。
  15. シーン分類のためのシステムであって、
    移動車両から、環境の第1の一連の画像フレームをキャプチャする、画像キャプチャデバイスと、
    前記第1の一連の画像フレームの1つ以上の画像フレームを、2つ以上の時間的予測のうちの1つに分類し、シーン分類モデルに基づいて、それぞれの時間的予測と関連付けられた第2の一連の画像フレームを生成する、時間的分類子であって、前記分類が、畳み込みニューラルネットワーク(CNN)、長短期メモリ(LSTM)ネットワーク、及び第1の完全に接続された層に基づく、時間的分類子と、
    第2のCNN、グローバル平均プーリング、及び第2の完全に接続された層に基づいて、前記第2の一連の画像フレームの1つ以上の画像フレームを分類し、前記シーン分類モデル及びそれぞれの時間的予測に基づいて、関連付けられたシーン予測を生成する、シーン分類子と、を含む、シーン分類のためのシステム。
  16. 前記2つ以上の時間的予測が、接近注釈、進入注釈、及び通過注釈を含む、請求項15に記載のシーン分類のためのシステム。
  17. 前記CNN又は前記第2のCNNが、ResNet 50CNNである、請求項15に記載のシーン分類のためのシステム。
  18. 前記シーン分類のためのシステムが、車両に実装され、前記車両が、前記シーン予測に基づいて、前記車両の1つ以上のセンサ又は1つ以上の車両システムをアクティブ化又は非アクティブ化する、コントローラを含む、請求項15に記載のシーン分類のためのシステム。
  19. 前記シーン分類子が、前記第3の一連の画像フレームの1つ以上の画像フレームを、快晴、晴れ、雪、雨、曇り、又は霧を含む天候分類に分類し、
    前記コントローラが、前記天候分類に基づいて、前記車両の前記センサのうちの1つ以上又は前記車両システムのうちの1つ以上をアクティブ化又は非アクティブ化する、請求項18に記載のシーン分類のためのシステム。
  20. 前記シーン分類子が、前記第3の一連の画像フレームの1つ以上の画像フレームを、乾燥、湿潤、又は雪を含む路面分類に分類し、
    前記コントローラが、前記路面分類に基づいて、前記車両の前記センサのうちの1つ以上又は前記車両システムのうちの1つ以上をアクティブ化又は非アクティブ化する、請求項18に記載のシーン分類のためのシステム。
JP2019157101A 2018-09-14 2019-08-29 シーン分類 Active JP6935467B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862731158P 2018-09-14 2018-09-14
US62/731158 2018-09-14
US16/374205 2019-04-03
US16/374,205 US11195030B2 (en) 2018-09-14 2019-04-03 Scene classification

Publications (2)

Publication Number Publication Date
JP2020047267A true JP2020047267A (ja) 2020-03-26
JP6935467B2 JP6935467B2 (ja) 2021-09-15

Family

ID=69772156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019157101A Active JP6935467B2 (ja) 2018-09-14 2019-08-29 シーン分類

Country Status (3)

Country Link
US (1) US11195030B2 (ja)
JP (1) JP6935467B2 (ja)
CN (1) CN110909587B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113566834A (zh) * 2021-07-20 2021-10-29 广州小鹏汽车科技有限公司 定位方法、定位装置、车辆和存储介质
JP2021190128A (ja) * 2020-06-02 2021-12-13 ネイバー コーポレーションNAVER Corporation 全身ポーズを生成するためのシステム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US10839220B2 (en) * 2018-10-15 2020-11-17 Kepler Vision Technologies B.V. Method for categorizing a scene comprising a sub-scene with machine learning
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
JP2020170408A (ja) * 2019-04-04 2020-10-15 キヤノン株式会社 画像処理装置、画像処理方法、プログラム
CN111639525A (zh) * 2020-04-22 2020-09-08 上海擎感智能科技有限公司 一种感知算法的训练方法、装置及计算机存储介质
CN112070044B (zh) * 2020-09-15 2021-05-11 北京深睿博联科技有限责任公司 一种视频物体分类方法及装置
WO2022133939A1 (zh) * 2020-12-24 2022-06-30 深圳市大疆创新科技有限公司 驾驶控制方法、装置、汽车及计算机可读存储介质
CN113252058B (zh) * 2021-05-24 2024-06-28 北京航迹科技有限公司 一种imu数据处理方法、***、装置及存储介质
BE1029668B1 (nl) * 2021-12-03 2023-03-02 Ivex Methoden, systemen, opslagmedia en apparatuur voor end-to-end scenario-extractie uit 3d input puntenwolken, scenario-indeling en het genereren van sequentiële rij-eigenschappen voor de identificatie van veiligheidskritieke scenario-categorieën
CN115092177B (zh) * 2022-06-22 2024-06-25 重庆长安汽车股份有限公司 一种无人驾驶车辆匝道目标场景的id分配方法及存储介质
US20240089736A1 (en) * 2022-09-09 2024-03-14 Qualcomm Incorporated Sensor misbehavior detection system utilizing communications

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329762A (ja) * 2006-06-08 2007-12-20 Fujitsu Ten Ltd 物体候補領域検出装置、物体候補領域検出方法、歩行者認識装置、および車両制御装置
JP2014235605A (ja) * 2013-06-03 2014-12-15 株式会社デンソー 運転シーンラベル推定装置
JP2018022234A (ja) * 2016-08-01 2018-02-08 クラリオン株式会社 画像処理装置、外界認識装置
WO2018066712A1 (ja) * 2016-10-07 2018-04-12 アイシン・エィ・ダブリュ株式会社 走行支援装置及びコンピュータプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8644624B2 (en) * 2009-07-28 2014-02-04 Samsung Electronics Co., Ltd. System and method for indoor-outdoor scene classification
US20160267335A1 (en) 2015-03-13 2016-09-15 Harman International Industries, Incorporated Driver distraction detection system
DE102016216364A1 (de) 2016-08-31 2018-03-01 Osram Gmbh Beleuchtungssystem, fahrzeugscheinwerfer und verfahren zum steuern eines beleuchtungssystems
JP6869002B2 (ja) 2016-10-21 2021-05-12 キヤノン株式会社 計測装置
EP3319041B1 (en) 2016-11-02 2022-06-22 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20180211403A1 (en) * 2017-01-20 2018-07-26 Ford Global Technologies, Llc Recurrent Deep Convolutional Neural Network For Object Detection
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10402687B2 (en) 2017-07-05 2019-09-03 Perceptive Automata, Inc. System and method of predicting human interaction with vehicles
JP2019040465A (ja) 2017-08-25 2019-03-14 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム
CN109591794B (zh) 2017-09-30 2021-03-02 惠州市德赛西威汽车电子股份有限公司 一种智能启停方法及***
US10909368B2 (en) * 2018-01-23 2021-02-02 X Development Llc Crop type classification in images
US10679069B2 (en) 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
US10922589B2 (en) * 2018-10-10 2021-02-16 Ordnance Survey Limited Object-based convolutional neural network for land use classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007329762A (ja) * 2006-06-08 2007-12-20 Fujitsu Ten Ltd 物体候補領域検出装置、物体候補領域検出方法、歩行者認識装置、および車両制御装置
JP2014235605A (ja) * 2013-06-03 2014-12-15 株式会社デンソー 運転シーンラベル推定装置
JP2018022234A (ja) * 2016-08-01 2018-02-08 クラリオン株式会社 画像処理装置、外界認識装置
WO2018066712A1 (ja) * 2016-10-07 2018-04-12 アイシン・エィ・ダブリュ株式会社 走行支援装置及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021190128A (ja) * 2020-06-02 2021-12-13 ネイバー コーポレーションNAVER Corporation 全身ポーズを生成するためのシステム
JP7213916B2 (ja) 2020-06-02 2023-01-27 ネイバー コーポレーション 全身ポーズを生成するためのシステム
CN113566834A (zh) * 2021-07-20 2021-10-29 广州小鹏汽车科技有限公司 定位方法、定位装置、车辆和存储介质

Also Published As

Publication number Publication date
CN110909587A (zh) 2020-03-24
US20200089969A1 (en) 2020-03-19
US11195030B2 (en) 2021-12-07
CN110909587B (zh) 2024-02-13
JP6935467B2 (ja) 2021-09-15

Similar Documents

Publication Publication Date Title
JP6935467B2 (ja) シーン分類
US11034357B2 (en) Scene classification prediction
US10482334B1 (en) Driver behavior recognition
CN108388834B (zh) 利用循环神经网络和级联特征映射的对象检测
US10627823B1 (en) Method and device for performing multiple agent sensor fusion in cooperative driving based on reinforcement learning
Devi et al. A comprehensive survey on autonomous driving cars: A perspective view
US11886506B2 (en) System and method for providing object-level driver attention reasoning with a graph convolution network
US11845464B2 (en) Driver behavior risk assessment and pedestrian awareness
Deepika et al. Obstacle classification and detection for vision based navigation for autonomous driving
JP2021136020A (ja) 因果推論を用いた危険物体識別のためのシステム及びその方法
US11150656B2 (en) Autonomous vehicle decision making
JP2021136021A (ja) 運転者中心危険評価:意図認識運転モデルを用いた因果推論を介する危険物体識別
JP2021070471A (ja) アクション事前分布を使用して将来予測するためのシステム及び方法
US20220144260A1 (en) System and method for completing risk object identification
US11294386B2 (en) Device and method for determining U-turn strategy of autonomous vehicle
US11328433B2 (en) Composite field based single shot prediction
Barbosa et al. IoT based real-time traffic monitoring system using images sensors by sparse deep learning algorithm
WO2020067070A1 (ja) 情報処理システム及び情報処理方法
DE102019124419A1 (de) Szenenklassifizierung
Babu Naik et al. Convolutional neural network based on self-driving autonomous vehicle (cnn)
Juyal et al. Object Classification Using A rtificial I ntelligence Technique sin Autonomous Vehicles
US20210004016A1 (en) U-turn control system for autonomous vehicle and method therefor
Prajwal et al. Object detection in self driving cars using deep learning
Sheri et al. Object detection and classification for self-driving cars
Arvind et al. Vision based driver assistance for near range obstacle sensing under unstructured traffic environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190829

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191008

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210825

R150 Certificate of patent or registration of utility model

Ref document number: 6935467

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150