JP2014235737A - シーン推定方法およびシーン推定装置 - Google Patents
シーン推定方法およびシーン推定装置 Download PDFInfo
- Publication number
- JP2014235737A JP2014235737A JP2014107335A JP2014107335A JP2014235737A JP 2014235737 A JP2014235737 A JP 2014235737A JP 2014107335 A JP2014107335 A JP 2014107335A JP 2014107335 A JP2014107335 A JP 2014107335A JP 2014235737 A JP2014235737 A JP 2014235737A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- image
- pixel
- divided
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
本出願は、"Driver Assistance by a Lightweight Scene Classification System"と題され、2013年5月31日に出願された、米国仮特許出願第61/829,980号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。
また、本出願は、2014年2月3日に出願された、米国特許出願第14/171,677号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。
これらの既存の技術では、オブジェクト認識において、画像をどのようにセグメンテーションするかを決定するために、画像に含まれる画素データを分析する。この処理は長い処理時間を必要とするため、ユーザに対する待ち時間や遅延をもたらす。
すなわち、モバイルコンピューティングにおいて、リアルタイムでビデオストリームを取得して分析することは非実用的であると言える。
また、あるシステムは、画像を圧縮ないし縮小し、保存したり他の車両と共有したりするが、同様に、画像を解析したり解釈したりする機能は通常有していない。
また、他の車両用ビデオシステムは、画像中から、例えば歩道や横断歩道といったような、運転に関連した特徴物を識別する機能を有するが、画像全体が表すシーンを解析する機能は有していない。
コンピュータが行うシーン推定方法であって、画像を取得する画像取得ステップと、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、を含むことを特徴とする。
画像を取得する画像取得手段と、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、を有することを特徴とする。
例えば、前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定してもよい。
また、前記一つ以上の要素は、移動プラットフォームの動きを含み、前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定してもよい。
また、前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムであってもよい。
また、少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置されてもよい。
また、前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定されてもよい。
また、前記中心点は、エピ極を予測するものであってもよい。
また、前記各分割領域は、前記中心点から画像の端に向けて延出するものであってもよい。
また、前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得してもよい。
また、前記画像に対応する前記分割領域は5つ以上であることを特徴としてもよい。
また、前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類してもよい。
また、前記シーン分類ステップは、各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含んでもよい。
例えば、本発明に係るシーン分類技術は、移動プラットフォームからの画像ストリームを分析することによって、複数かつ同時にシーンタイプを分類することができる。
本シーン分類は、複数の(例えば、二つ以上)範囲について、現在の景色の要旨を取得しうる。
本シーン分類技術はまた、場面の特徴を予測する新しいシステムと方法を含む。
以下に詳細に説明するように、分類されたシーンの出力には、ドライバーへのアドバイスやアシストにおいて、多数の有益な用途がある。
ための軽量な計算手法の実行可能性を示すことができる。本技術は、一連の経験的な機械学習タスクの問題を軽減することにより、対象物認識方法の複雑性の多くを避けるという利点を提供する。
また、本発明に係る技術は、少なくとも二つのカスケード状の分類器を含むシステムであってもよい。当該分類器は、原画像を画素タイプのセットに変換する第一の画素レベル分類器と、画素タイプの統計情報を入力データとして使用し、各種シーン変数と関連付けられたラベルのセットを推定し出力する第二の分類器を含む。
例えば、第二の分類器は、分類された画素タイプを分割領域に割り当てることによって第一の分類器の出力を受信および要約し、その後、各分割領域から取得したその画素タイプコンテンツの統計情報を、確率モデルへの入力データとして使用することができる。
この手法によるシーン分類技術では、100万画素のオーダーから少数の別個のシーン変数を好都合に類推することができる。さらに、第一の分類器によって画像の複雑性を軽減することにより、以降のステップのデータ処理負荷が大幅に低減される。また、第一の分類器の効率により、画像のサイクルタイムのほぼ全体が判断され得る。
このシステムは、ビデオシーケンスを分析する際に、ラベルのリスト(各シーン変数カテゴリに属する一ラベルなど)を出力として生成する。例えば、第二の分類器は、ラベルと関連付けられたシーン変数ノードのセットを出力ノードとして指定できる、確率モデルとして実装してもよい。また、ラベルのリストは、画像に添付されたラベルの確実性または信頼性を表す値であってもよい。
図1は、ある実施形態において、画像に基づいてシーンを推定するシステム100のブロック図を例示したものである。
システム100は、サーバ101、クライアント装置115および移動プラットフォーム135を含む。システム100の構成要素は、ネットワーク105によって通信可能に結合している。
他の実施形態において、システム100は、例えば、地図情報を提供するための地図サーバ、交通情報を提供するための交通情報サーバなど、図1に示されない他の構成要素を含んでいてもよい。
ある実施形態では、ネットワーク105は、Bluetooth(登録商標)通信ネットワークや携帯電話通信ネットワークを含み、SMS(ショートメッセージサービス)、
MMS(マルチメディアメッセージサービス)、HTTP(ハイパーテキスト転送プロトコル)、直接データ接続、WAP、電子メールなどのデータを送受信する。
なお、図1では1つのネットワーク105のみが、クライアント装置115および移動プラットフォーム135に接続されているが、複数のネットワーク105がこれらの構成要素に接続されていてもよい。
サーバ101は、プロセッサおよびメモリを備え、ネットワークによる通信を行うことができる、ハードウェアサーバや仮想サーバ等のサーバである。一実施形態において、サーバ101は、クライアント装置115や移動プラットフォーム135に対してデータを送受信することができる。また、一実施形態において、サーバ101は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
なお、図1では、1台のサーバ101、移動プラットフォーム135、クライアント装置115を例示するが、システム100は直接的に、またはネットワーク105によって相互接続される多くの構成要素を含むことができる。
一実施形態において、クライアント装置115は、サーバ101や移動プラットフォーム135に対してデータを送受信することができる。
クライアント装置115は、メモリとプロセッサを含む、情報処理とネットワーク105へのアクセスが可能なコンピュータであり、例えば、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、携帯電話、個人情報端末(PDA)、モバイル電子メール装置、および、その他の電子機器などである。
一実施形態において、クライアント装置115は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
ユーザ125は、クライアント装置115を利用する利用者である。
なお、図1では、1台のクライアント装置115を例示するが、システム100は、複数のクライアント装置115を含んでいてもよい。
一実施形態において、移動プラットフォーム135は、サーバ101やクライアント装置115に対してデータを送受信することができる。
移動プラットフォーム135は、メモリとプロセッサを有するコンピュータを含んでもよい。一実施形態において、移動プラットフォーム135は、道路上を移動可能なコンピュータである。例えば、移動プラットフォーム135は、車両、自動車、バス、生体に埋
め込まれた装置、非一時的(non-transitory)なコンピュータ機器(例えば、プロセッサ、メモリ、あるいは非一時的なコンピュータ機器の組み合わせ)を有する他のモバイルシステムなどであってもよい。
ユーザ125は、移動プラットフォーム135の操作者であり、移動プラットフォーム135を利用する人間である。例えば、ユーザ125は、車両を運転するドライバーであってもよい。
一実施形態において、移動プラットフォーム135は、カメラ107と、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
なお、図1では、1台の移動プラットフォーム135を例示するが、システム100は、複数の移動プラットフォーム135を含んでいてもよい。
いくつかの実施例において、推定アプリケーション109は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、推定アプリケーション109は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
推定アプリケーション109については、図2〜図4Bを参照しながら後ほど詳しく説明する。
一実施形態において、カメラ107は、周辺環境を画像で記録することができる。
例えば、移動プラットフォームの場合、カメラ107は、道路、空、山、他の車両、オブジェクト(例えば、道路脇の構造物、建物、樹木など)を含んだ、移動プラットフォーム135の周囲の環境を取り込むことができる。
一実施形態において、カメラ107は、移動プラットフォーム135の前面に、前方を向いてマウントされていてもよい。別の実施形態において、カメラ107は、移動プラットフォーム135の他の部分にマウントされていてもよい。
例えば、クライアント装置の場合、カメラ107は、フロントあるいはリアカメラであってもよく、セットトップカメラ等であってもよい。
カメラ107は、取得した画像を含む画像データを、推定アプリケーション109に送信することができる。
例えば、カメラ107は、道路上を移動している移動プラットフォーム135(例えば車両)から、道路を含んだシーンを表す画像データを取得することができる。
また、カメラ107は、画像データ(例えばリアルタイムビデオストリーム)を、本明細書の他の箇所で更に説明するような処理およびクラス分類を行う推定アプリケーション109に送信することができる。
例えば、シーン利用アプリケーション117は、推定アプリケーション109によって推定されたシーンを活用して、ユーザに高品質なナビゲーション機能を提供する地図アプリケーションであってもよい。
いくつかの実施形態において、シーン利用アプリケーション117は、FPGA(Fiel
d Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、シーン利用アプリケーション117は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
シーン利用アプリケーション117については、図2および図5を参照しながら後ほど詳しく説明する。
一実施形態において、位置決定システム120は、信号を受信するように構成された電子装置(例えばクライアント装置115や移動プラットフォーム135)に、位置信号を供給する。
位置決定システム120は、信号線122で示したように無線送信機と受信機を介して、または、信号線124で示したようにネットワーク105を介して、あるいは他の適当な伝達手段を介して位置信号を供給してもよい。
クライアント装置115および移動プラットフォーム135は、位置決定システム120から位置信号を受信する受信機(例えばGPS受信機、ネットワークインタフェース等)を含んでいてもよい。また、クライアント装置115および移動プラットフォーム135は、位置信号を処理することで、自装置(自端末)の地理的な位置を決定してもよい。
一実施形態において、位置決定システム120は、GPS、ディファレンシャルGPS(DGPS)、補助GPS(A−GPS)、多辺測量あるいは三角測量エンジンを含んだ電気通信システム、ネットワーク105におけるクライアント装置115や移動プラットフォーム135のIPアドレスを取得し、他の情報ソース(例えばインターネットプロバイダのデータベースやインターネットレジストリ)とIPアドレスをクロスリファレンスすることで、当該クライアント装置115や移動プラットフォーム135の大まかな位置を推定するジオロケーションシステム、あるいは他の位置情報システムや装置などを含んでいてもよい。
また、位置決定システム120は、単体の要素として示されているが、サーバ101、ネットワーク105、クライアント装置115、移動プラットフォーム135を含むシステムの他の要素と組み合わせてもよい。
推定アプリケーション109やシーン利用アプリケーション117は、位置決定システム120と接続され、位置信号や位置データを受信するように構成されてもよい。例えば、APIを介してこれらの情報にアクセスできるようにしてもよい。
図2を参照して、推定アプリケーション109とシーン利用アプリケーション117を有するコンピュータの例について、詳細に説明する。
図2は、一実施形態における、推定アプリケーション109、プロセッサ235、メモリ237、通信部241、入出力部243、記憶装置245、シーン利用アプリケーション117、およびカメラ107を含むコンピュータ200のブロック図である。コンピュータ200の構成要素は、バス220によって通信可能に接続される。
バス220は、コンピュータが有する構成要素間、または、コンピュータ間でデータを送受信することができれば、どのような種類の既知の通信バスであってもよい。
一実施形態において、コンピュータ200は、サーバ101、クライアント装置115、または移動プラットフォーム135のうちのいずれかである。
プロセッサ235は、データ信号を処理し、そのアーキテクチャは、CISC(Complex Instruction Set Computer)、RISC(Reduced Instruction Set Computer)、これら両方の命令セットの組合せとして実装されたアーキテクチャなど様々なアーキテクチャでありうる。なお、図2には一つのプロセッサ235だけが示されているが、複数のプロセッサ235が含まれていてもよい。上記以外のプロセッサ、オペレーティングシステム、センサ、表示装置、あるいは物理的構成も採用可能である。
メモリ237は、DRAM、SRAM、組み込み型メモリ、フラッシュメモリやその他の既存のメモリ装置を含んでもよい。ある実施形態においては、メモリ237は、ハードディスクドライブ、フロッピーディスク(登録商標)ドライブ、CD−ROM装置、DVD−ROM装置、DVD−RAM装置、DVD−RW装置、フラッシュメモリ装置や情報記憶の分野において既知のその他の大容量記憶装置などの、非一時的(non-volatile)メモリや永久記憶装置を含んでも良い。
通信部241は、ネットワーク105を形成する他の要素と通信を行うため、ネットワーク105に有線または無線等によって接続される。
いくつかの実施形態において、通信部241は、ネットワーク105や他の通信チャネルへの直接的な物理的接続のためのポートやネットワークインタフェースを含む。例えば、通信部241は、USB、SD、CAT−5など、クライアント装置115と有線通信するためのポートを含む。
ある実施形態では、通信部241は、IEEE 802.11、IEEE 802.16、BlueTooth(登録商標)、DSRC(Dedicated Short-Range Communication)または他の適当な無線通信方式を含む一つまたは複数の無線通信方式を用いて、クラ
イアント装置115や他の通信チャネルとデータを交換するための無線送受信部を含む。
一実施形態において、無線送受信部は、GPS信号を含む位置データや、コンピュータ200の位置を表す他の位置データを受信するように構成された受信機を含んでもよい。
なお、図2では、単体の通信部241を例示したが、通信部241は、実際には、一つ以上の異なる通信装置であってもよいし、統合通信装置であってもよい。
また、記憶装置245は、半導体素子メモリ(例:フラッシュメモリやRAM等)、ハードディスクドライブ、磁気テープ装置、フロッピーディスク(登録商標)ドライブ、CD−ROM装置、DVD−ROM装置、DVD−RAM装置、DVD−RW装置や、情報記憶の分野において既知のその他の大容量記憶装置を含んでも良い。
また、記憶装置245は、カメラ107によって取得された画像(動画または静止画等)、画素タイプ、分割領域における画素タイプの分布(例えば画素タイプのヒストグラム)、分割領域に対応する画素特徴データ(例えば分割領域に対応する尤度ベクトル)、画像からシーンを推測するために用いられる確率モデル247、確率モデルの学習における学習データセット、シーン変数、一つ以上のシーン変数に関連付いた分布、および、シーン分類結果(例えばシーンラベルのセット)等を格納することができる。
これらの、記憶装置245に格納されるデータについては、後ほど詳しく説明する。
一実施形態において、記憶装置245は、本明細書に記載される構造、処理、または機能を提供するための他のデータを格納してもよい。
画像プロセッサ202は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
画像プロセッサ202は、画素分類モジュール206や、推定アプリケーション109内の他の構成要素によって処理されるデータの量を減らすために、画像を前処理する手段である。これにより、画像の分類における速度や効率を改善することができる。
いくつかの実施形態において、画像プロセッサ202は、画像を粗いパッチ配列にダウンコンバートすることができる。例えば、画像プロセッサ202は、画像内の画素を変換して、低解像度のパッチ配列を生成する。これにより、カメラ107によってキャプチャされた生の画像内のすべての画素を分類する必要性をなくすことができる。
本実施形態では、例えば、画像プロセッサ202が、所定のグリッドに対応する画素を選択することにより、ダウンサンプリング画像を生成する。このダウンサンプリング画像は、図10に示すとおり、近隣画素が互いに類似する傾向があることから、場合によっては、原画像に対してカラー漫画調になることもある。
また、元の画素セットを低解像度の画素アレイ(パッチとも呼ばれる)に変換するため、他のダウンサンプリング、平均化、または圧縮技術を利用してもよい。
画像プロセッサ202は、分割モジュール204が画像を分割する前に、あるいは後に、画像を処理することができる。また、画像プロセッサ202は、処理後の画像を、分割モジュール204や画素分類モジュール206に送信してもよい。
一実施形態において、分割モジュール204は、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、分割モジュール204は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
分割モジュール204は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
シーンは、走行している移動プラットフォーム135に近づいてくる道路環境が反映される。一実施形態において、カメラ107は、移動プラットフォーム135に取り付けることができ、移動プラットフォーム135の動きに従って前方のシーンを取り込むように前を向いて取り付けられる。
分割レイアウトは、分割レイアウトの向き、分割レイアウトの寸法、分割レイアウトに含まれる分割領域の数、対応する分割領域のセットの数、分割領域のジオメトリ(例えば
分割領域のサイズと形状、分割領域の向きなど)等によって定義される。
例えば、サイズ、形状、分割レイアウトにおける各分割領域の向きは、本明細書の他の箇所で説明するように、デフォルト値として事前に定義され、分割モジュール204によって、一つ以上のコンテキスト属性に基づいて実行時に調整されてもよい。
また、分割レイアウトに含まれる分割領域は、互いに均一、不均一、類似、非類似、対象、非対称などであってもよいし、これらの組み合わせであってもよい。
各分割領域は、所定の分割レイアウトの中で同心状に配置されてもよい。また、分割領域として、異なる形状の組み合わせが用いられてもよいし、同一または類似の形状が用いられてもよい。また、分割領域の一部または全部の寸法は、調整されていてもよいし、調整されていなくてもよい。また、各分割領域は、互いに異なる寸法であってもよいし、分割領域の一部または全部の寸法が同じであってもよい。
図示した通り、これらのレイアウトに含まれる分割領域は、三角形、台形、半円形であってもよいし、他の形状であってもよい。
各分割領域は線で囲まれ、中心点626で交差ないし収束する。
各分割領域は可変サイズであってもよく、直線以外で囲まれてもよい。また、図6Dのように、中心点626を囲うように配置されてもよい。
一実施形態において、コンテキストデータは、例えば、対応する画像が取得された(または前後の)時刻に対応する、移動プラットフォーム135の移動に関するデータ、車道と移動プラットフォーム135との地理的な位置関係を表す位置データ、地理的な位置の景観を表す周辺環境データ、移動プラットフォーム135の地理的な位置に対応する運転状況データ、移動プラットフォーム135の地理的な位置に対応するイベントデータ、現在の日時などのうちの一つ以上である。
コンテキスト属性は、カメラ107が取得した画像とは独立したデータである。
この場合、分割モジュール204は、一つ以上のコンテキスト属性に基づいて、画像に対応するシーンが農村における道路シーンであると推定し、画像を分割領域のセットによって分割するための分割レイアウトを選択する。
例えば、図6Oに示したように、分割レイアウト675は、12個のくさび型の形状を持つ分割領域を含んでおり、各分割領域は、中心点(収束点)から伸びる線によって囲まれている。この例に示されるように、道路シーン内のオブジェクトは、これらを囲むくさび型の分割領域に大略沿う傾向がある。例えば、地平線は一つ以上の分割領域に収まるかもしれないし、路面は一つ以上の分割領域に収まるかもしれない。
このような方法は、推定アプリケーション109が、CPUに負荷をかけ、待ち時間を発生させうる画像の分析を行うことなく、画像を関連したパーツ(すなわち分割領域)に分割することができるため、有利である。
また、分類の品質を向上させることができ、マルチコアまたは並列プロセッサであるプ
ロセッサ235のより効率的な使用を可能にすることができる。
図6Pおよび図6Qは、シーンを表した、分割レイアウト680および685を、対応する画像にオーバーレイ表示させた、さらなる例である。
移動プラットフォーム135の移動に関するデータとは、例えば、加速度、速度、ブレーキ力、加わった力、運転プロファイル、温度、湿度、振動、圧力、音量、燃費、日時、端末から外部にあるオブジェクト(例えば、道路脇の構造物、信号機、他の車両、歩行者、自転車等)までの距離、システム安全上のパラメータ(例えばエアバッグ、ABS等)、走行方向、燃料残量、バッテリーレベル、または他の物理的または動的な状況を表すデータなどである。
位置データは、移動プラットフォーム135の位置(例えばGPS座標)、移動履歴、現在の日時を表すタイムスタンプ、移動プラットフォーム135の速度を表すデータを含んでいてもよい。
運転状況データは、移動プラットフォーム135の位置に関連付いた交通情報やそのアップデート、事故情報、予測遅延時間などを含んでいてもよい。
また、分割モジュール204は、コンピュータ200のオペレーティングシステムや、ネットワーク105に接続された時計サーバ(不図示)、あるいは他の類似するシステム100内の構成要素から受信したタイムスタンプに基づいて、現在の日時を決定してもよい。
周辺環境データとは、地理的に異なる場所に関連付いた土地の特徴(例えば、山、丘、水辺、草木、建物、構造物など)を表すデータである。
一実施形態において、周辺環境データは、指定された場所の特徴を示す地図(例えば衛星地図)から、推定アプリケーション109によって抽出されてもよい。
例えば、カレンダリング、スケジューリング、ソーシャルネットワーキングサービス、電子メール、現在のイベント、エンドユーザに対する他のソフトウェアサービス等を提供する、不図示のサーバシステムがネットワーク105に接続されており、分割モジュール204が、当該システムからネットワーク105経由でイベントデータを取得するようにしてもよい。
イベントデータは、現在の場所、または車両のルート(例えば位置データに基づいて決定されたルート)に沿って接近中の場所にて発生するイベント、発生中のイベント、または発生するであろうイベントを表すものであってもよい。
コンテキスト属性は、「平日のラッシュ帯」のような時間帯を含んでいてもよく、分割モジュール204は、渋滞に対応する分割レイアウト(例えば、隣接車線、出口、合流車線、路肩、バリア、信号機などに対応するレイアウト)を決定するようにしてもよい。
また、コンテキスト属性は、交通量を含んでいてもよく、分割モジュール204は、交通量に対応した分割領域のセットを含む分割レイアウトを決定してもよい。
例えば、画像に含まれる交通量が少ない場合、分割レイアウトは、交通量が多い場合と比較して簡素なものであり、より少ない分割領域を含むものであってもよい。なぜならば、このような場合、交通量が多い場合と比較して、道路におけるオブジェクト、状況、関心エリア等が少ないためである。
また、コンテキスト属性は、(例えば車両のGPS装置によって受信される)事故情報を含んでいてもよく、分割モジュール204は、当該事故情報の一つ以上の属性に適合する分割レイアウト(例えば路肩で起きた事故に対応する領域を一つ以上含むようなレイアウト)を選択してもよい。
また、コンテキスト属性は、車両が走行している道路の種類を表すものであってもよく、分割モジュール204は、当該道路の種類(例えば、二車線の高速道路、四車線の高速道路、橋梁、トンネル、都市の通り、一方通行、未舗装道路など)に対応する分割レイアウト(例えば一致する領域を持つもの)を選択してもよい。
また、コンテキスト属性は、都市、田園地域、郊外地域、商業地域など、車両が走行しているエリアを含んでもよく、分割モジュール204は、当該エリアの共通属性(例えば地平線、平原、太陽、建物、歩道、駐車区画など)に適した領域を含む分割レイアウトを選択してもよい。
また、コンテキスト属性は、運転者の年齢や性別など、運転者の属性を含んでもよく、分割モジュール204は、若い運転者用の分割レイアウト、老年運転者用の分割レイアウトなど、当該運転者の属性に対応する分割レイアウトを選択してもよい。
また、コンテキスト属性は、場所(例えば、多くの車両と人が想定されるコンサート会場)にて発生するイベントタイプを含んでいてもよく、分割モジュール204は、当該シーンの種類に対応する分割レイアウトを選択してもよい。
当該他の車両は、以前、対応する道路に沿って走行したことがあり、当該車両の学習モジュール210は、シーンを分類するための最も効果的な分割レイアウトを学習していたものであってもよい。
これは、分割レイアウト、特に、これらの車両の学習モジュール210によって学習され、改善された分割レイアウトを、システム100内の車両に共有させることができるという点において有利である。
さらなる例として、システム100内の移動プラットフォーム135に含まれる推定アプリケーション109は、分割レイアウトを互いに送信することで、互いに共有する構成であってもよい。送信は、例えば、直接行ってもよいし、サーバ101と、当該サーバで使用可能な推定アプリケーション109のインスタンスを経由して行ってもよい。
例えば、通信可能な車両が、他の車両および、当該車両に含まれる推定アプリケーション109のインスタンスによって道路画像を分類するための中央サーバ(例えば、サーバ101)と、好ましい分割レイアウトデータと使用基準を共有してもよい。
一実施形態において、サーバ101は、移動プラットフォーム135に含まれる推定ア
プリケーション109のインスタンスによって決定された、より好ましく、新しく、改善されるように連続的にアップデートされる分割レイアウトを保持する、動的な集中リポジトリを含んでもよい。
また、移動プラットフォーム135の推定アプリケーション109のインスタンスは、集中リポジトリに対して、より好ましく、新しく、改善された分割レイアウトを取得するために問い合わせ、同期してもよく、分割モジュール204は、分割レイアウトを決定する際にこれらを利用してもよい。
これは、任意のタイプの道路シーンについての適切な分割レイアウトを、当該画像に含まれる画素を解析することなく決定できるため、推定アプリケーション109の処理速度と効率を向上できるという点において有利である。
また、道路シーンを一つのコンテキスト属性から識別することが困難である場合であっても、分割モジュール204は、道路シーンに対応するより正確な分割レイアウトを推定することができる。
なお、コンテキスト属性は走行中に変化するため、一実施形態において、選択された分割レイアウトも変更され、あるいは異なる分割レイアウトに選択されなおしてもよい。
例えば、分割レイアウトの決定(再決定)は、タイマによってトリガされてもよいし、カメラ107のフレームレートと同期していてもよいし、他の規則的、または不規則的なトリガイベントなどに基づいて行われてもよい。
一実施形態において、本明細書の他の箇所で説明したように、分割モジュール204は、一つ以上のコンテキスト属性に基づいて、記憶装置から分割レイアウトを選択することで、画像によって表されたシーンに対応する分割レイアウトを少なくとも部分的に決定できる。また、いくつかのケースにおいては、一つ以上のコンテキスト属性に基づいて分割レイアウトを変更することができる。
一実施形態において、分割レイアウトを構成するデータ(例えば変数、データ構造、オブジェクト等)は、当該分割レイアウトを構成する分割領域の形と数を特徴づけることができる。
これは、画素分類モジュール206やシーン分類モジュール212によって決定される所望の分類パラメータを最大化できるという点において有利である。
いくつかのケースでは、学習のために、分割レイアウトを、少なくとも部分的に手動で構成し、テスト画像に関連付けてもよい。
学習結果を反映した学習データは、記憶装置245内の学習モジュール210によって保持されてもよく、分割モジュール204は、分割レイアウトを決定する際に、当該決定を最適化するために、当該データに対して照会を行ってもよい。
また、各セットに含まれる分割領域は、当該レイアウト内のエリアにある特定の点に収
束してもよい。
当該特定の点は、分割領域のセットにおける収束点または中心点とも呼ばれる。
最終的に、分割レイアウトが画像に適用されるとき、分割レイアウトに含まれる中心点は、対応する画像の画像領域の中のどこに位置してもよい。
中心点は、シーンの分類時に使用された一つ以上の態様を判断する期待値を設定できる基準点となり得る。期待値とは、分析用の画像を分割するのに最適な方法に関する予想値や推定値のことである。場合によっては、特定の対象や関心領域が画像中に現れると予測される場合があり、このような場合、分割モジュール204は、当該画像に適用された当該画像領域に対応する箇所に中心点を配置することができる。
例えば、車両が交差点に接近していると判定された場合、交通信号機が表示される場所の近傍に中心点を置く分割レイアウトを選択または適応させることができる。この例では、車両が交差点に接近しているため、「交通信号機を含むシーンが現れる」という予測を行うことができる。
別の例では、分割モジュール204は、画像におけるいくつかのシーンの特徴が、例えば大きく開けた空のように情報が少ないものであり、一つの領域に空が大きく含まれるように中心点を調整可能(例えば分割レイアウトを適応させたり、対応する分割レイアウトを選択したり、あるいはその組み合わせにより)であることを、例えば位置データに基づいて知っていてもよい。
分割レイアウト690は、画像右側のターゲットを分類するために適応されたレイアウトであり、分割レイアウト695は、画像左側のターゲットを分類するために適応されたレイアウトである。(分類は、例えば画素分類モジュール206によって行われる)
分割モジュール204は、一つの画像(例えばビデオフレーム)に対して、各々が異なる中心点を有する複数の分割レイアウトをオーバーレイしてもよい。
これは、画素分類モジュール206が、一つの画像に対して複数の画像分類セット(例えば左側に重点を置いたもの、右側に重点を置いたもの)を確立してもよいことを意味する。
図示したように、中心点は、車道の消失点に対応するように構成されてもよい。また、分割領域は、当該道路の消失点から放射状に二つ以上の分割領域に画像を分割するものであってもよい。
いくつかの実施形態において、分割モジュール204は、移動プラットフォーム135
の方位、運動、動き(例えば加速、速度、コーナリング、減速、位置の変動、上昇、下降、方向等)、移動プラットフォームの位置(例えば地理的なロケーション、経路予想、範囲データ等)などの一つ以上のコンテキスト属性に基づいて、中心点の位置を調整してもよい。
例えば、中心点に関連付いた二つ以上のパーティションが、車両の動きにあわせて移動してもよい。
ここで、一つ以上のコンテキスト属性から決定される分割レイアウトが、通常の状態において図6Aのようなものであったとする。
ここで、右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Fのように、中心点631を左方向に移動させることで形成されなおされてもよい。
また、左方向を向いた場合、分割レイアウト204が有する分割領域は、車両が左を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Gのように、中心点631を右方向に移動させることで形成されなおしてもよい。
また、坂を上りながら右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が上りながら右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Hのように、中心点631を左上方向に移動させることで形成されなおしてもよい。
また、坂を下りながら右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が下りながら右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Iのように、中心点631を左下方向に移動させることで形成されなおしてもよい。
これらの図では、シーンの態様を曖昧にしないように、分割領域が省略されている。
図6Lは、シーン内の道路の消失点に中心点661を持つ直線道路を示している。また、図6Mは、右方向へのカーブに基づいて、中心点661を左方向に移動させた例である。また、図6Nは、左方向へのカーブに基づいて、中心点661を右方向に移動させた例である。
一実施形態において、画素分類モジュール206は、画像に含まれる画素を分類するために、以下に示す構造、処理、または機能を提供するための、プロセッサ235で実行可能な命令の集合を含む。
また、一実施形態において、画素分類モジュール206は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
また、画素分類モジュール206は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
画素分類モジュール206は、画像を分割領域によって分割するために、一つ以上の分割レイアウトを当該画像に適用(例えば、オーバーレイ、マッチ等)することができる。
一実施形態において、画像内の画素は、各画素をある領域、すなわちrm={Pij}m(m=1,2・・・M)に割り当てて、連続する画素群を形成することにより、分割領域によって(例えばM個の分割領域に)分割できる。
一実施形態において、複数の画素タイプは、画素分類モジュール206によって予め定められる。
画素タイプの例として、「空」、「樹木」、「建築構造物」、「路面」、「車線」、「バリアつきの歩道」、「車両」、「歩行者」等が挙げられるが、これらに限定されるものではない。
また、画素に含まれる画素レベルの特徴とは、画素の色やテクスチャなどであるが、これらに限定されるものではない。
例えば、画素分類モジュール206は、画素の色とテクスチャを判定し、当該色とテクスチャに基づいて、当該画素のタイプを決定することができる。
更なる例として、画素の色が緑であるならば、画素分類モジュール206は、当該画素のタイプを「樹木」と決定することができる。
一実施形態において、画素は、カメラ107で取得され、または処理されたオリジナルの画像に含まれるオリジナルの画素であり、そして、当該画素の特徴は、当該オリジナルの画素のサイズ、テクスチャ、色であってもよい。
一実施形態において、カメラ107で取得されたオリジナルの画像は、他のフォーマットに(例えばRawデータをJPEGやPNG等に)に変換されてもよく、当該画素は、他のフォーマットに変換された画素であってもよい。画素の特徴は、当該変換された画素のサイズ、テクスチャ、色を含む。
さらに別の実施形態において、カメラ107で取得されたオリジナルの画像は、画像プロセッサ202でダウンサンプリングされたものであってもよく、画素は、ダウンサンプリングされた画像に含まれる、ダウンサンプリング後の画素であってもよい。画素の特徴は、当該ダウンサンプリングされた画素のサイズ、テクスチャ、色を含む。
一例において、二つ以上の画素は、所定の画素タイプのセットから、同じ画素タイプに分類される場合がある。さらなる例において、二つ以上の画素は、所定の画素タイプのセ
ットから、異なる画素タイプに分類される場合がある。
一実施形態において、画素分類モジュール206は、画像プロセッサ202、メモリ237、記憶装置245またはシステム100の他の構成要素から、ダウンサンプリングされた画像を取得することができる。
画素分類モジュール206は、前述したものと同一または類似の処理を実行することによって、ダウンサンプリングされた画像の画素を一つ以上の画素タイプに分類することができる。
ダウンサンプリング画像では、局所的な依存関係が無視され得るものの、ダウンサンプリング画像の画素レベルの分類結果は、近隣画素が同じ画素タイプに分類される傾向があることから、画素レベルの分類結果は、イラスト調になることがある。
画素レベルの分類結果の例を、図10に示す。
他の実施形態において、画素分類モジュール206は、画像中の分割領域ごとの画素レベルの分類結果を、記憶装置245またはメモリ237に格納することができる。
一実施形態において、エビデンス生成モジュール208は、画像の分割領域に関連付いた画素特徴データを生成するために、以下に記す構造、処理、または機能を提供するための、プロセッサ235で実行可能な命令の集合を含む。
また、一実施形態において、エビデンス生成モジュール208は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
エビデンス生成モジュール208は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
また、エビデンス生成モジュール208は、分割領域ごとに、当該分割領域に関連付いた画素レベルの分類結果に基づいて、画素特徴データのセットを決定することができる。
例えば、エビデンス生成モジュール208は、分割領域の画素の画素タイプに基づいて、当該分割領域における、画素特徴データのセットを決定することができる。
例えば、画像の所定の分割領域において、画素特徴データのセットは、当該分割領域に
あるオブジェクトの一つ以上の特徴を特徴づける。
一例において、画素特徴データのセットは、分割領域の画素の内容を示す統計的なデータである。例えば、画素特徴データのセットは、画像の分割領域内の画素タイプの分布を表す尤度ベクトルである。
例えば、尤度ベクトルは、分割領域における画素タイプの57%が路面であり、23%がバリアであり、15%が樹木であり、5%が建築構造物であることを示す。もちろん、他の尤度ベクトルの例も採用可能である。
例えば、各領域は、当該領域内の画素タイプのヒストグラム(Hm=[|c1|m,・・・|cn|m])によって表すことができる。なお、|ci|mは、領域mにおける各画素タイプを表し、i=1,2・・・nである。
エビデンス生成モジュール208は、分割領域の画素特徴データのセットを、ヒストグラムを基とした尤度ベクトルとして生成することができる。
例えば、エビデンス生成モジュール208は、分割領域に対して、「当該分割領域の画素の80%が「空」という画素タイプに分類され、15%が「樹木」という画素タイプに分類され、5%が「路面」という画素タイプに分類された」という情報を持つ尤度ベクトルを生成する。
例えば、各分割領域における画素特徴データは、確率モデルへの入力データとすることができ、画像のシーンを決定するための確率モデルへのエビデンスとして用いることができる。確率モデルについては、以下に詳述する。
他の実施形態において、エビデンス生成モジュール208は、各分割領域に対応する画素特徴データを、記憶装置245またはメモリ237に格納することができる。
学習モジュール210は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
一実施形態において、確率モデルは、ベイズネットワークのような、確率的グラフィカルモデルである。確率モデルの例を、図8Aおよび図8Bに示す。
一実施形態において、学習モジュール210は、画像の分割領域に関連付いた画素特徴データ(例えば仮想的なエビデンスデータ)を含む学習データセットを取得する。学習データセットにおける画像のシーンは、予め分類され、複数のラベルによってラベリングされたものである。学習モジュール210は、下記に示すように、学習データセットを用いた確率モデルの学習を実行することができる。
例えば、学習モジュール210は、学習データセットを用いて、確率モデルの構造、入力ノード、出力ノードを学習することができる。
例えば、アプリケーションは、ユーザによって導入され、ベイズネットワークに存在しないシーンカテゴリを考慮し、シーンに対応する詳細を入力するようにユーザに促してもよい。
ベイズネットワークは、これらの例を用いて、新しい場面カテゴリを取り込むために再学習することができる。異なるエビデンスのタイプを入力とし、あるいは、異なる種類として定義されたノードを出力としてテストするためのモデルを簡単に変更できることは、本明細書に記載のシーン識別技術の利点である。
このモデルの構造は、ドメインの特性を表すモデル変数間の依存関係を発見することができる。
(1)入力変数および出力変数の構造を学習する
(2)可変的な条件付き確率テーブルのパラメータを学習する
という二つの態様を含む。構造とパラメータの学習は、同時に行われてもよい。また、入次数およびノード順を制限するために制約を用いることができる。
また、ベイズネットワークの学習は、インタラクティブに実行されることができる。
ベイズネットワークの入力ノードは、仮想エビデンスノードと呼ばれる場合がある。仮想エビデンスノードは、出力を生成するためのエビデンスをベイズネットワークに提供することができる。各々の入力ノードは、画像に含まれる分割領域の一つに対応し、当該分割領域に関連付いた画素特徴データを取得し、確率モデルへの入力データとすることができる。例えば、一つの入力ノードが一つの分割領域に対応してもよい。この場合、ベイズネットワークの入力ノードの数は、画像の分割領域の数と同一となる。
が用いられてもよい。例えば、エビデンスノードの入次数は、二つに限定することができる。
一実施形態において、ノードの順序は、構造上の制約として課すことができ、その結果、条件付けアークが低次から高次へと移動できなくなる。
なお、シーン変数の間で課される更なる因果制約があってもよい。例えば、「周辺環境」というシーン変数は車道のタイプに影響するが、逆は成り立たない。別の例では、「周辺環境」というシーン変数は、「運転状況」という変数に影響するが、逆は成り立たない。
結果的に、確率モデルは、ほぼ純粋なベイズ構造に従うが、学習時に行われたモデル選択の結果である追加アークを伴う。学習過程で作成されたアークは、入力変数と出力変数との間で発見された依存関係を表し得る。
一例において、仮想的なエビデンスを含むサンプルからベイズネットワークの近似学習を行うための、少なくとも三つの方法が存在する。
複数の仮想エビデンスノードが存在する場合、仮想エビデンスノード間の依存関係を捕捉する操作により、行セットの組合せ爆発を引き起こしうる。すなわち、仮想エビデンスノード状態の組合せごとの倍数が、状態組合せの尤度に比例して多重化しうる。その複雑度は、すべての仮想エビデンスノードを結合してサンプリング用の一ノードにすることに匹敵する。
ができる。結果は、行数に、ヒストグラムデータセット内の行ごとのサンプルサイズを掛け合わせた拡張データセットとなる。
結果として生成される学習データセットの詳細は、例えば以下のようになる。
1)5つのシーンラベルによってラベル付けされた、画像の12の領域ヒストグラムの122の行が、元のデータセットとして存在する
2)各領域ヒストグラムが10回サンプリングされ、1220行が生成される
3)1220行によって、5つのラベルと12個の特徴が表された最終データセットが得られる
学習データセットを用いて評価した結果の例を、図7Bに示す。
一実施形態において、シーン分類モジュール212、画像で表現されたシーンを分類するために、以下に記す構造、処理、または機能を提供する、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、シーン分類モジュール212は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
シーン分類モジュール212は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
また、シーン分類モジュール212は、記憶装置245や学習モジュール210から、確率モデルを表すデータを取得することができる。
シーン分類モジュール212は、以下に詳述するように、複数の画素特徴データと確率モデルのセットに基づいて、画像のシーンを分類することができる。
シーン分類モジュール212は、複数の尤度ベクトルと確率モデルに基づいて、一つ以上のシーン変数に関連づいた分布を決定することができる。
例えば、シーン分類モジュール212は、確率モデルへの入力データとして複数の尤度ベクトルを用いることができ、一つ以上のシーン変数に関連付いた分布を表す確率モデルの出力を生成することができる。
一つ以上のシーン変数に関連付いた分布は、一つ以上のシーン変数の同時分布、一つ以上のシーン変数の条件付き分布、シーン変数ごとの個別分布、またはこれらの組合せを含む。
一実施形態において各シーン変数の分布は、これらが画素タイプの分布に依存するように、他のシーン変数に依存する。これは、同時分布(例えば全てのシーン変数の分布)を形成するシーン変数による。
シーン変数の例として、例えば、周辺環境、道路のタイプ、運転状況、動的環境、道路障害物状況などが挙げられるが、これに限られない。また、各シーン変数は、ラベルのセットを有していてもよい。シーン変数のラベルは、シーン変数に対する確率値を表す値である。
例えば、「道路」というシーン変数は、「カーブと勾配」「自動車専用道」「狭隘」「路肩なし」「駐車車両あり」等といったラベルを持つ。
また、「周辺環境」というシーン変数は、「ゾーニング」「開発区域」「商業地区」「
山岳」「田園」「住宅地」「都市部」等といったラベルを持つ。
また、「運転状況」というシーン変数は、「自転車と歩行者」「交通と混雑度」「障害物なし」等といったラベルを持つ。
また、「動的環境」というシーン変数は、照明や天候といった視程に関するラベル(例えば、逆光による視界不良」「曇り」「晴れ」「天候による視界不良」など)等といったラベルを持つ。
また、「道路障害物状況」というシーン変数は、「障害物なし」、「工事中」、「合流または交差点」、「木の幹や柱」等といったラベルを持つ。
例えば、シーン分類モジュール212は、一つ以上のシーン変数に関連付いた分布に基づいて、各シーン変数の一つのラベルを、画像に割り当てる。
更なる例として、シーン変数に関連する分布が、シーン変数の同時確率分布であると仮定する。当該同時確率分布は、以下のような場合に、高い確率値を有する。
(1)シーン変数「道路」が、第一のラベル「カーブと勾配」であり、
(2)シーン変数「環境」が、第二のラベル「山岳」であり、
(3)シーン変数「運転状況」が、第三のラベル「障害物なし」であり、
(4)シーン変数「動的環境」が、第四のラベル「曇り」であり、
(5)シーン変数「障害物」が、第五のラベル「合流または交差点」であった場合。
この結果、シーン分類モジュール212は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。
(1)シーン変数「道路」の確率分布は、当該シーン変数の第一のラベルが「カーブおよび勾配」である場合に高い確率値を有する。
(2)シーン変数「環境」の確率分布は、当該シーン変数の第二のラベルが「山岳」である場合に高い確率値を有する。
(3)シーン変数「運転状況」の確率分布は、当該シーン変数の第三のラベルが「山岳」である場合に高い確率値を有する。
(4)シーン変数「動的環境」の確率分布は、当該シーン変数の第四のラベルが「曇り」である場合に高い確率値を有する。
(5)シーン変数「障害物」の確率分布は、当該シーン変数の第五のラベルが「合流または交差点」である場合に高い確率値を有する。
この結果、シーン分類モジュール212は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。
シーン分類は、
(1)P(S|λ1・・・λm)、すなわちM個の分割領域からのλmメッセージが適用
された場合のSの同時分布
(2)Sに関する最大事後確率(MAP)構成による同時分布の特徴、または
(3)Sの事後周辺分布
によって表すことができる。
例えば、シーン分類モジュール212は、画像によって示されるコンテンツの全体の全体的な印象を決定し、画像を一つ以上のシーンカテゴリのラベルに分類するため、全体的な印象を使用することができる。
ここに記載された、この全体的なシーン分類は、シーンの一部のみに適用したり、シーンの一部のオブジェクトなどの、シーンを構成する一部のみを識別した結果に依存する他の分類とは異なる。
評価結果の例を、図7Bに示す。
例えば、シーン利用アプリケーション117は、アプリケーションマーケットからクライアント装置115や移動プラットフォーム135にダウンロードされた「アプリ」であってもよく、車両における、インフォマティックス・ソフトウェアシステムであってもよい。
また、クライアント装置115等で動作するネイティブアプリケーションであってもよい。
また、ブラウザからアクセスされるウェブベースのアプリケーション等であってもよい。
シーン利用アプリケーション117は、ナビゲーション、マッピング、ソーシャルネットワーク、コミュニケーション、おすすめ、メディアなどを含む、様々な異なるアプリケーションを含み、または、表したものであってもよい。
一実施形態において、シーン利用アプリケーション117は、ユーザに対してアドバイスまたはアシストするための様々なアプリケーションにおいて、シーンを利用するため、以下に記す構造、処理、または機能を提供する、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、シーン利用アプリケーション117は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
シーン利用アプリケーション117は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
シーン利用アプリケーション117は、クライアント装置115や移動プラットフォーム135にグラフィックデータを送信し、ユーザインタフェースをユーザに提供させることができる。
また、シーン利用アプリケーション117は、他のユーザインタフェースをユーザに提供するためのグラフィックデータを生成してもよい。
例えば、シーン分類は、「あなたが見ているものに基づいて、場所をどのように説明しますか?」といった質問に対する答えを提供することができる。
一実施形態では、シーン利用アプリケーション117は、シーンに特有なおすすめをユーザに提供することができる。
例えば、分類されたシーンは、環境におけるコンテキストを提供することができ、シーン利用アプリケーション117は、ユーザに対する適切なおすすめを決定するために分類されたシーンを利用することができる。
例えば、個別化されたおすすめを作成する際に、分類されたシーンにおけるコンテキストを用いて、「ブリトーを食べたくありませんか?」や「ここは、それを見つけられる場所ではありません」などのリクエストの実際性を判断することができる。
例えば、シーン利用アプリケーション117は、「市街地でワイナリーを見つける」「僻地でレストランを見つける」「行ったことのない住宅地にある、混んでいない公園を見つける」等といったような、ローカルな環境の特徴を用いて検索を補足することができる。
経路を選択する際にドライバーは、しばしば当該経路における快適さを考慮に入れる。
例えば、ドライバーは、「この場所からの眺めはどうか?」「この地域の日当たりや日陰はどの程度か?」「環境における自然と人造物の割合はどの程度か?」等を考慮する場合がある。
好ましい場所についての個々のドライバーの評価があれば、シーン利用アプリケーション117は、他の望ましい経路をドライバーに提案してもよい。当該望ましい経路は、最も短い、または、最も速いルートとは異なる場合がある。
シーン利用アプリケーション117は、近隣箇所に関するクラウドソーシングされた情報を収集して、ある地域の全体像を形成することができる。
本例は、上述した例の拡張である。
クラウドソースのデータを用いることで、ドライバーは、例えば「道路上の人の群れがどこまで延びていますか?(例えばロードレースやパレードなどの場合)」という質問に対する回答といったような、集約された状況についての情報を近隣の車両から得ることができる。
オブジェクト認識技術と比較して、シーン分類技術は、画像を全体的に処理することによって、計算コストの削減を達成することができる。
例えば、シーン分類技術は、あらかじめ定義されたカテゴリのセットから、画像を「屋内」、「屋外」、「都市部」、「地方部」などの種類に割り当てることができる。
シーン分類は、「カテゴリのラベルに終端部を割り当てること」とみなすことができる。カテゴリでは、画像に複数のラベル群にわたる値を割り当てることができ、終端部はいくつかのシーン変数にわたる同時分布となり得る。
図3は、画像からシーンを推定する方法300のフローチャートである。
まず、画素分類モジュール206が、カメラ107、記憶装置245、画像プロセッサ202またはシステム100のもう一つの構成要素から、画像を表すデータを取得する(ステップ302)。
また、分割モジュール204が、シーンに対応する分割領域を決定する(ステップ304)。分割領域の形状は、前述したように、一つ以上のコンテキスト属性に基づいて決定される。分割レイアウトは複数の分割領域から構成され、各分割領域は、シーンごとに対応するものが用いられる。
画像はシーンを表すものであり、その取得タイミングは、分割領域を決定する前であってもよいし、決定中、または決定後であってもよい。
例えば、画素分類モジュール206は、予め定められた8つの画素タイプから、分割領域の各画素を、一つの画素タイプに分類することができる。
次に、シーン識別モジュール212が、分割領域に対応する各々の画素特徴データのセットに基づいて、画像のシーンを分類する(ステップ310)。
例えば、シーン識別モジュール212は、複数の分割領域に関連付いた画素特徴データの複数のセットを、確率モデルへの入力として使用し、当該確率モデルの出力に基づいて画像のシーンを分類することができる。
図4Aを参照して説明する。
まず、学習モジュール210が、学習データセットに基づいて、入力ノードおよび出力ノードを含む確率モデルの学習を行う(ステップ402)。
入力ノードは、画素特徴データを確率モデルに入力するための仮想エビデンスノードである。また、出力ノードは、シーン変数に関連付いた分布を出力するシーン変数ノードである。
次に、カメラ107が、移動プラットフォーム135の周辺環境(例えばシーン)を表す画像(例えばビデオフレームや静止画像)を取得する(ステップ404)。
次に、画像プロセッサ202が、カメラ107、記憶装置245やシステム100の他の構成要素から、画像を表すデータを取得する(ステップ405)。
なお、画像プロセッサ202が、画像を処理する前に、画像に含まれる画素を減らしてもよい(ステップ406)。例えば、画像プロセッサ202は、取得した画像をダウンサンプルして、ダウンサンプル画像を生成することができる。
次に、分割モジュール204が、画像に対応する分割レイアウトを、移動プラットフォーム135(例えば車両)の一つ以上のコンテキスト属性や、移動プラットフォーム135の移動環境に基づいて決定する(ステップ408)。
次に、画素分類モジュール206が、画像の各分割領域に含まれる各画素を、画素タイプのセットの中からいずれかの画素タイプに分類する(ステップ410)。
次に、エビデンス生成モジュール208が、分割領域ごとに、生成したヒストグラムに基づいて尤度ベクトルを生成する(ステップ414)。
次に、シーン分類モジュール212が、分割領域に関連付いた尤度ベクトルと、確率モデルに基づいて、一つ以上の、シーン変数に関連付いた分布を決定する(ステップ416)。
次に、シーン分類モジュール212が、当該分布を用いて、画像のシーンを決定する(ステップ418)。
また、シーン利用アプリケーション117が、様々なシーンアプリケーションにおいて、分類されたシーンを適用する(ステップ420)。
図5は、様々なアプリケーションにおいて、分類されたシーンを利用する方法420のフローチャートである。
まず、シーン利用アプリケーション117が、記憶装置245やシーン分類モジュール212から、分類されたシーンを表すデータを取得する(ステップ502)。
次に、シーン利用アプリケーション117が、ユーザにおすすめを提供するか否かを決定する(ステップ504)。ここで、おすすめをユーザに提供する場合、方法420はステップ506に遷移し、それ以外の場合、方法420はステップ508に遷移する。
ステップ506では、シーン利用アプリケーション117が、ユーザに対するおすすめを行うためのコンテキストを提供するために、分類されたシーンを適用する。その後、処理はステップ508に遷移する。
ステップ510では、シーン利用アプリケーション117が、ローカル環境を用いた検索を補完するために、分類されたシーンを利用する。その後、方法420はステップ512へ遷移する。
ステップ514では、シーン利用アプリケーション117が、分類されたシーンに関連した場所における、現在の状況を評価する。その後、方法420はステップ516へ遷移する。例えば、シーン利用アプリケーション117は、シーンにおける環境の快適さを評価することができる。
ステップ518では、シーン利用アプリケーション117が、地域の全体像を形成するために、クラウドソースの情報を適用する。その後、方法420は終了、または、上述の処理を繰り返す。
図6Jは、画像における画素レベルの分類を例示するグラフィック表現600である。本例では、画像中の画素1と画素2が、「空」という画素タイプに分類され、画素3と画素5は、「樹木」という画素タイプに分類され、画素4と画素6は、「建物」という画素タイプに分類される。
図6Kは、分割レイアウト655を例示するグラフィック表現である。例示されたように、分割レイアウトは、中心点656で収束する12個の領域を含む。12個の領域の各々は、中心点656から、画像の端に対応する端辺に向かって延びている。
図6Jから図6Kにおける、画素番号1〜6は、いくつかの例において一致する。
確率モデルは、複数の入力ノード822と、複数の出力ノード824a…824nを含む。各々の入力ノード822は、画像における分割領域にそれぞれ対応しており、確率モデルへの入力データとして、当該分割領域に関連した画素特徴データのセットを用いる。
各々の出力ノード824は、シーン変数を表し、確率モデルは、シーン変数と関連した一つ以上の分布を出力することができる。
出力される分布は、シーン変数の同時分布、各シーン変数の個々の分布、シーン変数の条件つき分布、またはその組合せなどである。
2つのノードをつないでいるラインまたはアーク(例えば、ノード824aとノード824nを繋ぐライン826、ノード824aとノード829を繋ぐライン828)は、二つのノード間の依存または関連を示す。
ここに示した確率モデルの構造は一例である。
さらなる実施形態において、確率モデルは、異なる入力ノード、異なる出力ノード、および、ノード間を繋ぐ異なるラインを持っていてもよい。
確率モデルの学習過程において、シーン分類モジュール212は、シーン変数ごとに混同行列を生成し、全てのシーン変数に対応する混同行列を、シーン分類のパフォーマンスを評価するために使用することができる。
図7Aに示したように、シーン変数に関連付いた混同行列は、予測されたラベル702と真のラベル704の数を表す行列である。
混同行列の行は、真のラベル704であり、混同行列の列は、予測されたラベル702である。
予測されたラベルは、画像における、推定されたラベルである。また、真のラベルは、画像における、実際のラベルである。
予測されたラベルが真のラベルと同一であれば、シーン変数についての画像の分類は正しいことになる。さもなければ、シーン変数についての画像の分類は誤っているということになる。
例えば、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」と同じものであった場合、「カーブと勾配」を予測した画像の分類は正しいことになる。これに対し、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」とは異なる「狭隘」というラベルであった場合、「狭隘」を予測した画像の分類は誤っていることになる。
例えば、「50」という値を有する第一の対角要素は、シーン分類モジュール212が、ラベルを「1」と予測し、実際のラベルが「1」であったことが50回あったことを表す。
非対角要素は、分類エラーを表す。例えば、「2」という値を有する非対角要素は、シーン分類モジュール212が、ラベルを「2」と予測し、実際のラベルが「1」であった
ことが2回あったことを表す。
また、「4」という値を有する非対角要素は、シーン分類モジュール212が、ラベルを「1」と予測し、実際のラベルが「2」であったことが4回あったことを表す。
例えば、列708は、ラベル1として予測された回数が59回あり、そのうち、真のラベルがラベル1であった回数が50回あり、ラベル2であった回数が4回あり、ラベル3であった回数が5回あったことを表す。
各行の合計は、対応するラベルが、画像の真のラベルであった総カウント数を表す。
例えば、行706は、真のラベルがラベル1であった回数が55回あり、そのうち、予測されたラベルがラベル1であった回数が50回あり、ラベル2であった回数が2回あり、ラベル3であった回数が3回あったことを表す。
ラベルに対応する再現率は、以下の比率として計算できる。
(1)ラベルに関連付いた対角要素
(2)ラベルに関連付いた行の合計
例えば、ラベル1に対応する再現率は、ラベル1に関連した対角エントリ「50」と、例えば行706の合計との間の比率(例えば、50/(50+2+3)=0.91)として計算できる。
ラベルに対応する再現率が高い値であることは、ラベルの分類がより正確なことを示す。
(1)ラベルに関連付いた対角要素
(2)ラベルに関連付いた列の合計
例えば、ラベル1に対応する適合率は、ラベル1に関連した対角要素「50」と、例えば列708の合計の間の比率(例えば、50/(50+4+5)=0.85)として計算できる。
ラベルに対応する適合率が高い値であることは、ラベルの分類がより正確なことを示す。
表1は、「周辺環境」というシーン変数に関連付いた異なるラベル(例えば、山岳、田園、住宅地、都市部)に対応する再現率と適合率を例示する。
表2は、「道路」というシーン変数に関連付いた異なるラベル(例えばカーブと勾配、自動車専用道、狭隘、路肩なし、駐車車両あり)に対応する再現率と適合率を例示する。
表3は、「運転状況」というシーン変数に関連付いた異なるラベル(例えば自転車と歩行者、交通と混雑、障害物なし)に対応する再現率と適合率を例示する。
表4は、「道路障害物状況」というシーン変数に関連付いた異なるラベル(例えば障害物なし、工事中、合流と交差点、分岐)に対応する再現率と適合率を例示する。
シーン分類モジュール212は、周辺予測の精度を評価することに加え、図8Aに描かれているベイズネットワークによって学習された構造について観察することもできる。
図中の入力ノードは、画像中の対応する分割領域のおおよその位置に配置されている。
また、シンボルS_1〜S_8は、例えば、木、建物、空、葉、建築物、路面、車線、歩道、車両、歩行者などの異なる画素タイプを表す。
各々のブロックは、それぞれの分割領域における画素タイプの割合を表す値を含む。例えば、ブロック802では、画素タイプ「S_1」は3.4%という値を持ち、画素タイプ「S_2」は2.8%という値を持つ。
各々のブロックのタイトルにある数値は、中心点からの分割線の角度を表す。
例えば、「N_BL_60_80」は、左側の60度から80度の間にある分割領域を表す。また、「N_BR_60_80」は、右側の60度と80度の間にある分割領域を表す。
各々のシーン変数は、ラベルのセットと、当該ラベルに対応する値を持つ。
例えば、ブロック804のシーン変数「動的環境」は、「逆光による視界不良」が3.7%という確率値を持ち、「曇り空」が77.8%という確率値を持ち、「晴れ」が17.3%という確率値を持ち、「天候による視界不良」が1.2%の確率値を持つことを表す。
学習モジュール210で選択されるアークは、分割領域の位置と、異なるシーン変数との間に強い関連を示す。例えば、「運転状況」シーン変数が、画像の基部にある分割領域に繋がっており、「環境」シーン変数が、画像の周辺部にある分割領域に繋がっている場合、強い関連が示される。
図の下部にある二つの分割領域(ブロック806、808など)は、各領域の入来アークが他の分割領域のものであることから、その関連性は限られており、各領域のエビデンスは完全に隣接領域によってサポートされていることを示している。これらのアークまたはラインに沿って進んでいくと、区画依存という点から、分割領域から学習されるアークは一つだけであり、そのシーンに寄与したエビデンスは、この事例を除くすべての事例において、条件付きで独立していることを表している。
シーン変数の下位ネットワークはさらに接続されており、シーン変数間の強い依存関係を表している。例えば、「道路」というシーン変数における「カーブと勾配」は、「周辺環境」というシーン変数における「山」に対して強い相関を示す。
画像によってどのようなシーンが表されているか不明な状態で、分割モジュール204は、一つ以上のコンテキスト属性(例えば、車両、車両の移動環境など)に基づいて、画像の分割領域を形成する分割レイアウト902を決定する。
画素分類モジュール206は、画像に分割領域を適用したうえで、ブロック904に示すように、一つ以上の画素タイプに各分割領域内の画素を分類する。
また、エビデンス生成モジュール208は、ブロック906に示すように、分割領域ごとに異なる、画素タイプのヒストグラムを生成する。
また、シーン分類モジュール212は、ブロック908に示すように、各々の分割領域のヒストグラムに基づいてシーン分類を実行する。例えば、シーン分類モジュール212は、所定のシーンのタイプのヒストグラムとの比較に基づいてシーン分類を行い、「山と乾燥地形」というシーンを決定する。
画像プロセッサ202は、オリジナル画像1002を、96ピクセル×54ピクセルの解像度にダウンサンプルすることができる。
画像内の車線に隣接するバリア1006aおよび1006bは、システムを学習させるための重要な特徴である。
画像1004は、ダウンサンプルされた画像に関連付いた画素タイプを示す。画像1004の中心から発散している線は、画像に適用されるくさび形の分割領域を表す。
また、画像1004の色(濃度)は、画素タイプを示す。例えば、領域1008は葉を表し、領域1010aおよび1010bはバリアを表す。
る目的のために特別に製造されるものであっても良いし、汎用コンピュータを用いて構成しコンピュータ内に格納されるプログラムによって選択的に実行されたり再構成されたりするものであっても良い。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な、例えばフロッピー(登録商標)ディスク・光ディスク・CD−ROM・MOディスク・磁気ディスクなど任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体などの、非一時的なコンピュータ可読記憶媒体に記憶される。
れることなくその他の種々の形態で実現できることを理解できるであろう。同様に、モジュール・処理・特徴・属性・方法およびその他の本発明の態様に関する名前付けや分割方法は必須なものでものないし重要でもない。また、本発明やその特徴を実装する機構は異なる名前や分割方法や構成を備えていても構わない。さらに、当業者であれば、モジュール・処理・特徴・属性・方法およびその他の本発明の態様は、ソフトウェア、ハードウェア、ファームウェアもしくはこれらの組合せとして実装できることを理解できるであろう。また、本発明をソフトウェアとして実装する場合には、モジュールなどの各要素は、どのような様式で実装されても良い。例えば、スタンドアローンのプログラム、大きなプログラムの一部、異なる複数のプログラム、静的あるいは動的なリンクライブラリー、カーネルローダブルモジュール、デバイスドライバー、その他コンピュータプログラミングの当業者にとって既知な方式として実装することができる。さらに、本発明の実装は特定のプログラミング言語に限定されるものではないし、特定のオペレーティングシステムや環境に限定されるものでもない。以上のように、上記の本発明の説明は限定的なものではなく例示的なものであり、本発明の範囲は添付の特許請求の範囲にしたがって定められる。
107 カメラ
109 推定アプリケーション
115 クライアント装置
117 シーン利用アプリケーション
135 移動プラットフォーム
202 画像プロセッサ
204 分割モジュール
206 画素分類モジュール
208 エビデンス生成モジュール
210 学習モジュール
212 シーン分類モジュール
Claims (25)
- コンピュータが行うシーン推定方法であって、
画像を取得する画像取得ステップと、
前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、
前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、
前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、
前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、
を含む、シーン推定方法。 - 前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
請求項1に記載のシーン推定方法。 - 前記一つ以上の要素は、移動プラットフォームの動きを含み、
前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
請求項2に記載のシーン推定方法。 - 前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
請求項1から3のいずれかに記載のシーン推定方法。 - 少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
請求項1から4のいずれかに記載のシーン推定方法。 - 前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
請求項5に記載のシーン推定方法。 - 前記中心点は、予測されたエピ極である、
請求項6に記載のシーン推定方法。 - 前記各分割領域は、前記中心点から画像の端に向けて延出する、
請求項5から7のいずれかに記載のシーン推定方法。 - 前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
請求項1から8のいずれかに記載のシーン推定方法。 - 前記画像に対応する前記分割領域は5つ以上である、
請求項1から9のいずれかに記載のシーン推定方法。 - 前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類
する、
請求項1から10のいずれかに記載のシーン推定方法。 - 前記シーン分類ステップは、
各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、
前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含む、
請求項1から11のいずれかに記載のシーン推定方法。 - 請求項1から12のいずれかに記載のシーン推定方法の各ステップをコンピュータに実行させるためのプログラム。
- 画像を取得する画像取得手段と、
前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、
前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、
前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、
前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、
を有する、シーン推定装置。 - 前記分割手段は、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
請求項14に記載のシーン推定装置。 - 前記一つ以上の要素は、移動プラットフォームの動きを含み、
前記分割手段は、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
請求項15に記載のシーン推定装置。 - 前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
請求項14から16のいずれかに記載のシーン推定装置。 - 少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
請求項14から17のいずれかに記載のシーン推定装置。 - 前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
請求項18に記載のシーン推定装置。 - 前記中心点は、予測されたエピ極である、
請求項19に記載のシーン推定装置。 - 前記各分割領域は、前記中心点から画像の端に向けて延出する、
請求項18から20のいずれかに記載のシーン推定装置。 - 前記画像取得手段は、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
請求項14から21のいずれかに記載のシーン推定装置。 - 前記画像に対応する前記分割領域は5つ以上である、
請求項14から22のいずれかに記載のシーン推定装置。 - 前記シーン分類手段は、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類する、
請求項14から23のいずれかに記載のシーン推定装置。 - 前記シーン分類手段は、
各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定し、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定する、
請求項14から24のいずれかに記載のシーン推定装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361829980P | 2013-05-31 | 2013-05-31 | |
US61/829,980 | 2013-05-31 | ||
US14/171,677 | 2014-02-03 | ||
US14/171,677 US9129161B2 (en) | 2013-05-31 | 2014-02-03 | Computationally efficient scene classification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014235737A true JP2014235737A (ja) | 2014-12-15 |
JP6299427B2 JP6299427B2 (ja) | 2018-03-28 |
Family
ID=51985177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014107335A Active JP6299427B2 (ja) | 2013-05-31 | 2014-05-23 | シーン推定方法およびシーン推定装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9129161B2 (ja) |
JP (1) | JP6299427B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157201A (ja) * | 2016-02-29 | 2017-09-07 | トヨタ自動車株式会社 | 人間を中心とした場所認識方法 |
JP2019095956A (ja) * | 2017-11-21 | 2019-06-20 | 株式会社デンソー | 勾配変化検出装置、方法及びプログラム、並びに、車両 |
WO2019235116A1 (ja) * | 2018-06-04 | 2019-12-12 | 日本電信電話株式会社 | 移動状況解析装置、移動状況解析方法及びプログラム |
JP2021532512A (ja) * | 2018-07-17 | 2021-11-25 | エヌビディア コーポレーション | 自律運転マシンのための回帰ベースの線分検出 |
JP2022504457A (ja) * | 2018-10-24 | 2022-01-13 | ウェイモ エルエルシー | 自律車両の信号機検知および車線状態認識 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013280203A1 (en) * | 2013-12-24 | 2015-07-09 | Canon Kabushiki Kaisha | Method of classifying objects in scenes |
US20150262198A1 (en) * | 2014-03-13 | 2015-09-17 | GM Global Technology Operations LLC | Method and apparatus of tracking and predicting usage trend of in-vehicle apps |
KR102267871B1 (ko) * | 2014-09-03 | 2021-06-23 | 삼성전자주식회사 | 디스플레이 장치 및 그 제어 방법 |
EP3238015A4 (en) * | 2014-12-22 | 2019-01-23 | Robert Bosch GmbH | VISUAL CONTEXT SENSITIVE SYSTEM BASED ON A FIRST PERSON CAMERA |
CN104834912B (zh) * | 2015-05-14 | 2017-12-22 | 北京邮电大学 | 一种基于图像信息检测的天气识别方法及装置 |
WO2016179830A1 (en) * | 2015-05-14 | 2016-11-17 | Intel Corporation | Fast mrf energy optimization for solving scene labeling problems |
US9430840B1 (en) * | 2015-07-23 | 2016-08-30 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for segmenting an image based on motion vanishing points |
CN105261018B (zh) * | 2015-10-14 | 2017-11-28 | 山东交通学院 | 基于光学模型和暗原色先验理论的能见度检测方法 |
CN106651748B (zh) * | 2015-10-30 | 2019-10-22 | 华为技术有限公司 | 一种图像处理方法与图像处理装置 |
JP6815743B2 (ja) * | 2016-04-15 | 2021-01-20 | キヤノン株式会社 | 画像処理装置及びその方法、プログラム |
US9928434B1 (en) * | 2016-06-14 | 2018-03-27 | State Farm Mutual Automobile Insurance Company | Appartuses, systems, and methods for determining when a vehicle occupant is using a mobile telephone |
US9928433B1 (en) * | 2016-06-14 | 2018-03-27 | State Farm Mutual Automobile Insurance Company | Apparatuses, systems, and methods for determining when a vehicle operator is texting while driving |
US10721473B2 (en) * | 2016-07-25 | 2020-07-21 | Honeywell International Inc. | Systems and methods for adjusting the frame rate of transmitted video based on the level of motion in the video |
DE102016124074A1 (de) * | 2016-12-12 | 2018-06-14 | Connaught Electronics Ltd. | Ermitteln einer Befahrbarkeit eines Fahrbahnabschnitts anhand eines Bildes |
US20180260759A1 (en) * | 2017-03-07 | 2018-09-13 | Mighty AI, Inc. | Segmentation of Images |
US10209089B2 (en) | 2017-04-03 | 2019-02-19 | Robert Bosch Gmbh | Automated image labeling for vehicles based on maps |
US10319225B2 (en) * | 2017-05-24 | 2019-06-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | System, method, and computer-readable storage medium for determining road type |
JP2019079381A (ja) * | 2017-10-26 | 2019-05-23 | トヨタ自動車株式会社 | 機械学習システム及び交通情報提供システム |
US11650059B2 (en) * | 2018-06-06 | 2023-05-16 | Toyota Research Institute, Inc. | Systems and methods for localizing a vehicle using an accuracy specification |
WO2020014683A1 (en) * | 2018-07-13 | 2020-01-16 | Kache.AI | Systems and methods for autonomous object detection and vehicle following |
JP6542445B1 (ja) | 2018-07-31 | 2019-07-10 | 株式会社 情報システムエンジニアリング | 情報提供システム及び情報提供方法 |
CN110858405A (zh) * | 2018-08-24 | 2020-03-03 | 北京市商汤科技开发有限公司 | 车载摄像头的姿态估计方法、装置和***及电子设备 |
US11238628B2 (en) * | 2018-08-27 | 2022-02-01 | Adobe Inc. | Intelligent context-based image recommendations |
TWI691930B (zh) * | 2018-09-19 | 2020-04-21 | 財團法人工業技術研究院 | 基於神經網路的分類方法及其分類裝置 |
TWI709188B (zh) * | 2018-09-27 | 2020-11-01 | 財團法人工業技術研究院 | 基於機率融合的分類器、分類方法及分類系統 |
EP3867136A4 (en) * | 2018-10-19 | 2022-08-03 | Neutron Holdings, Inc. | RECOGNITION OF TYPES OF DRIVING CORRIDORS WHICH PERSONAL MOBILITY VEHICLES TRAVEL |
JP7114082B2 (ja) * | 2019-03-20 | 2022-08-08 | 株式会社アクセルスペース | 情報処理装置、情報処理方法及びプログラム |
JP6651189B1 (ja) | 2019-03-29 | 2020-02-19 | 株式会社 情報システムエンジニアリング | 機械学習用のデータ構造、学習方法及び情報提供システム |
JP6607589B1 (ja) | 2019-03-29 | 2019-11-20 | 株式会社 情報システムエンジニアリング | 情報提供システム及び情報提供方法 |
JP6607590B1 (ja) | 2019-03-29 | 2019-11-20 | 株式会社 情報システムエンジニアリング | 情報提供システム及び情報提供方法 |
US11797089B2 (en) * | 2019-07-29 | 2023-10-24 | Lyft, Inc. | Systems and methods for sidewalk detection for personal mobility vehicles |
US11430240B2 (en) * | 2020-05-06 | 2022-08-30 | Volvo Car Corporation | Methods and systems for the automated quality assurance of annotated images |
US11755939B2 (en) * | 2020-06-24 | 2023-09-12 | Microsoft Technology Licensing, Llc | Self-supervised self supervision by combining probabilistic logic with deep learning |
US20220019920A1 (en) * | 2020-07-16 | 2022-01-20 | Raytheon Company | Evidence decay in probabilistic trees via pseudo virtual evidence |
CN112152739B (zh) * | 2020-09-24 | 2021-05-28 | 清华大学 | 卫星星座的干扰概率分布计算方法及装置 |
TW202232437A (zh) * | 2021-02-09 | 2022-08-16 | 阿物科技股份有限公司 | 圖像分類與標示方法及系統 |
US11688156B2 (en) | 2021-06-23 | 2023-06-27 | Black Sesame Technologies Inc. | Scene recognition based on labeled feature vectors of an image |
CN116309641B (zh) * | 2023-03-23 | 2023-09-22 | 北京鹰之眼智能健康科技有限公司 | 图像区域获取*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072987A (ja) * | 2005-09-09 | 2007-03-22 | Denso Corp | 環境認識装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8670592B2 (en) * | 2008-04-24 | 2014-03-11 | GM Global Technology Operations LLC | Clear path detection using segmentation-based method |
US8260050B2 (en) * | 2008-12-05 | 2012-09-04 | Tandent Vision Science, Inc. | Test bed for optimizing an image segregation |
JP4979840B2 (ja) * | 2010-07-27 | 2012-07-18 | パナソニック株式会社 | 移動体検出装置および移動体検出方法 |
KR101240469B1 (ko) * | 2010-11-23 | 2013-03-11 | 현대모비스 주식회사 | 객체 인식 시스템, 차량용 장애물 인식 시스템 및 차량용 장애물 인식 방법 |
-
2014
- 2014-02-03 US US14/171,677 patent/US9129161B2/en not_active Expired - Fee Related
- 2014-05-23 JP JP2014107335A patent/JP6299427B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072987A (ja) * | 2005-09-09 | 2007-03-22 | Denso Corp | 環境認識装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157201A (ja) * | 2016-02-29 | 2017-09-07 | トヨタ自動車株式会社 | 人間を中心とした場所認識方法 |
JP2019095956A (ja) * | 2017-11-21 | 2019-06-20 | 株式会社デンソー | 勾配変化検出装置、方法及びプログラム、並びに、車両 |
JP7167431B2 (ja) | 2017-11-21 | 2022-11-09 | 株式会社デンソー | 勾配変化検出装置、方法及びプログラム、並びに、車両 |
WO2019235116A1 (ja) * | 2018-06-04 | 2019-12-12 | 日本電信電話株式会社 | 移動状況解析装置、移動状況解析方法及びプログラム |
JPWO2019235116A1 (ja) * | 2018-06-04 | 2021-06-17 | 日本電信電話株式会社 | 移動状況解析装置、移動状況解析方法及びプログラム |
JP2021532512A (ja) * | 2018-07-17 | 2021-11-25 | エヌビディア コーポレーション | 自律運転マシンのための回帰ベースの線分検出 |
JP7295234B2 (ja) | 2018-07-17 | 2023-06-20 | エヌビディア コーポレーション | 自律運転マシンのための回帰ベースの線分検出 |
JP2022504457A (ja) * | 2018-10-24 | 2022-01-13 | ウェイモ エルエルシー | 自律車両の信号機検知および車線状態認識 |
JP7150159B2 (ja) | 2018-10-24 | 2022-10-07 | ウェイモ エルエルシー | 自律車両の信号機検知および車線状態認識 |
US11645852B2 (en) | 2018-10-24 | 2023-05-09 | Waymo Llc | Traffic light detection and lane state recognition for autonomous vehicles |
Also Published As
Publication number | Publication date |
---|---|
JP6299427B2 (ja) | 2018-03-28 |
US9129161B2 (en) | 2015-09-08 |
US20140355879A1 (en) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6299427B2 (ja) | シーン推定方法およびシーン推定装置 | |
US11600006B2 (en) | Deep neural network architecture for image segmentation | |
US10331957B2 (en) | Method, apparatus, and system for vanishing point/horizon estimation using lane models | |
US20210049412A1 (en) | Machine learning a feature detector using synthetic training data | |
US11521487B2 (en) | System and method to generate traffic congestion estimation data for calculation of traffic condition in a region | |
KR102652023B1 (ko) | 실시간 교통 정보 제공 방법 및 장치 | |
US20180173969A1 (en) | Detecting roadway objects in real-time images | |
US11263726B2 (en) | Method, apparatus, and system for task driven approaches to super resolution | |
US11232582B2 (en) | Visual localization using a three-dimensional model and image segmentation | |
WO2018230492A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20220276618A1 (en) | Method, apparatus, and system for model parameter switching for dynamic object detection | |
US11798225B2 (en) | 3D building generation using topology | |
US11343636B2 (en) | Automatic building detection and classification using elevator/escalator stairs modeling—smart cities | |
US10949707B2 (en) | Method, apparatus, and system for generating feature correspondence from camera geometry | |
KR20230012953A (ko) | 운전 가능 표면 주석 달기를 위한 머신 러닝 기반 프레임워크 | |
US20210406709A1 (en) | Automatic building detection and classification using elevator/escalator/stairs modeling-mobility prediction | |
JP7399891B2 (ja) | ナビゲーション中に難しい操縦についての追加の命令を提供すること | |
US20210156696A1 (en) | Method and system to validate road signs | |
US11521023B2 (en) | Automatic building detection and classification using elevator/escalator stairs modeling—building classification | |
US11128982B1 (en) | Automatic building detection and classification using elevator/escalator stairs modeling | |
US11494673B2 (en) | Automatic building detection and classification using elevator/escalator/stairs modeling-user profiling | |
US20220122316A1 (en) | Point cloud creation | |
US20240212486A1 (en) | Method and apparatus for determining an intersection condition | |
CN118038397B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US20230023255A1 (en) | Controlled ingestion of map update data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180212 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6299427 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |