JP2014235737A - シーン推定方法およびシーン推定装置 - Google Patents

シーン推定方法およびシーン推定装置 Download PDF

Info

Publication number
JP2014235737A
JP2014235737A JP2014107335A JP2014107335A JP2014235737A JP 2014235737 A JP2014235737 A JP 2014235737A JP 2014107335 A JP2014107335 A JP 2014107335A JP 2014107335 A JP2014107335 A JP 2014107335A JP 2014235737 A JP2014235737 A JP 2014235737A
Authority
JP
Japan
Prior art keywords
scene
image
pixel
divided
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014107335A
Other languages
English (en)
Other versions
JP6299427B2 (ja
Inventor
ジョン マーク アゴスタ
Mark Agosta John
ジョン マーク アゴスタ
プリーティ ピライ
Pillai Preeti
プリーティ ピライ
尾口 健太郎
Kentaro Oguchi
健太郎 尾口
ガネッシュ ヤラ
Yalla Ganesh
ガネッシュ ヤラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2014235737A publication Critical patent/JP2014235737A/ja
Application granted granted Critical
Publication of JP6299427B2 publication Critical patent/JP6299427B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】画像に含まれるシーンを低い計算コストで分類する方法を提供する。【解決手段】コンピュータが行うシーン推定方法であって、画像を取得する画像取得ステップと、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、を含む。【選択図】図1

Description

本発明は画像処理に関し、特に、画像からシーンを推定する技術に関する。
(関連出願への相互参照)
本出願は、"Driver Assistance by a Lightweight Scene Classification System"と題され、2013年5月31日に出願された、米国仮特許出願第61/829,980号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。
また、本出願は、2014年2月3日に出願された、米国特許出願第14/171,677号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。
画像解析のために用いられる既存の技術は、例えば、オブジェクト認識方法、画素レベルでのセグメンテーション、探索窓のスキャニングなど、計算コストが高い方法をしばしば用いている。
これらの既存の技術では、オブジェクト認識において、画像をどのようにセグメンテーションするかを決定するために、画像に含まれる画素データを分析する。この処理は長い処理時間を必要とするため、ユーザに対する待ち時間や遅延をもたらす。
すなわち、モバイルコンピューティングにおいて、リアルタイムでビデオストリームを取得して分析することは非実用的であると言える。
また、現状、車両のリアビューカメラのような、多くの既存の車両用ビデオシステムは、取得したイメージについての分析はほとんど行っていない。これらのシステムは、様々な情報(例えば、駐車する際の車両位置)をハイライトするため、道路に図形をオーバーレイ表示することはあっても、画像が示すシーンを解釈することはない。
また、あるシステムは、画像を圧縮ないし縮小し、保存したり他の車両と共有したりするが、同様に、画像を解析したり解釈したりする機能は通常有していない。
また、他の車両用ビデオシステムは、画像中から、例えば歩道や横断歩道といったような、運転に関連した特徴物を識別する機能を有するが、画像全体が表すシーンを解析する機能は有していない。
本発明は、上記の問題点を考慮してなされたものであり、画像に含まれるシーンを低い計算コストで分類する方法を提供することを目的とする。
上記課題を解決するための、本発明の一形態に係る方法は、
コンピュータが行うシーン推定方法であって、画像を取得する画像取得ステップと、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、を含むことを特徴とする。
また、本発明に係るシーン推定装置は、
画像を取得する画像取得手段と、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、を有することを特徴とする。
また、これらの形態の一つ以上の他の実装として、方法、システム、装置、コンピュータプログラム、コンピュータ記憶装置上に符号化された方法の実行などが含まれる。
これらの実装例は、以下の特徴のうち一つ以上を任意に含んでいてもよい。
例えば、前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定してもよい。
また、前記一つ以上の要素は、移動プラットフォームの動きを含み、前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定してもよい。
また、前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムであってもよい。
また、少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置されてもよい。
また、前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定されてもよい。
また、前記中心点は、エピ極を予測するものであってもよい。
また、前記各分割領域は、前記中心点から画像の端に向けて延出するものであってもよい。
また、前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得してもよい。
また、前記画像に対応する前記分割領域は5つ以上であることを特徴としてもよい。
また、前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類してもよい。
また、前記シーン分類ステップは、各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含んでもよい。
本明細書によって開示される発明は、特にいくつかの面において有利である。
例えば、本発明に係るシーン分類技術は、移動プラットフォームからの画像ストリームを分析することによって、複数かつ同時にシーンタイプを分類することができる。
本シーン分類は、複数の(例えば、二つ以上)範囲について、現在の景色の要旨を取得しうる。
本シーン分類技術はまた、場面の特徴を予測する新しいシステムと方法を含む。
以下に詳細に説明するように、分類されたシーンの出力には、ドライバーへのアドバイスやアシストにおいて、多数の有益な用途がある。
本発明に係るシーン分類技術は、現在の視覚状態の分析に基づいて視像を既定のカテゴリ群(予測されたシーン特性など)と関連付けることにより、視像からシーンを分類する
ための軽量な計算手法の実行可能性を示すことができる。本技術は、一連の経験的な機械学習タスクの問題を軽減することにより、対象物認識方法の複雑性の多くを避けるという利点を提供する。
本明細書に記載の技術は、計算コストの高い画像処理ステップを避けるために、全体画像から情報を好都合に抽出できる、新規なシーン分類アルゴリズムを含む。
また、本発明に係る技術は、少なくとも二つのカスケード状の分類器を含むシステムであってもよい。当該分類器は、原画像を画素タイプのセットに変換する第一の画素レベル分類器と、画素タイプの統計情報を入力データとして使用し、各種シーン変数と関連付けられたラベルのセットを推定し出力する第二の分類器を含む。
例えば、第二の分類器は、分類された画素タイプを分割領域に割り当てることによって第一の分類器の出力を受信および要約し、その後、各分割領域から取得したその画素タイプコンテンツの統計情報を、確率モデルへの入力データとして使用することができる。
この手法によるシーン分類技術では、100万画素のオーダーから少数の別個のシーン変数を好都合に類推することができる。さらに、第一の分類器によって画像の複雑性を軽減することにより、以降のステップのデータ処理負荷が大幅に低減される。また、第一の分類器の効率により、画像のサイクルタイムのほぼ全体が判断され得る。
各分類器は、例えば、画素タイプおよびシーン特性を手作業でラベル付けした画像のセットによって学習することができる。第一の分類器は、この画像を、第二の分類器への入力となる豊富な特徴を持つ、扱いやすい少量のデータへと変換する。また、第二の分類器は、シーン変数と関連付けられたラベルの最有力の組合せを用いてシーンを特徴付けることにより、シーン変数群に対応するいくつかの従属次元でシーンを分類することができる。
このシステムは、ビデオシーケンスを分析する際に、ラベルのリスト(各シーン変数カテゴリに属する一ラベルなど)を出力として生成する。例えば、第二の分類器は、ラベルと関連付けられたシーン変数ノードのセットを出力ノードとして指定できる、確率モデルとして実装してもよい。また、ラベルのリストは、画像に添付されたラベルの確実性または信頼性を表す値であってもよい。
なお、上記の利点はあくまで例であり、システムは、他の多数の利点および利益を有し得ることが理解されるべきである。
本発明によると、画像に含まれるシーンを低い計算コストで分類する方法を提供することができる。
画像からシーンを推定するシステムを例示するブロック図である。 推定アプリケーションとシーン利用アプリケーションを備えるコンピュータを例示するブロック図である。 画像からシーンを推定する方法のフローチャート例である。 画像からシーンを推定する更なる方法のフローチャート例である。 画像からシーンを推定する更なる方法のフローチャート例である。 さまざまなアプリケーションにおいて分類されたシーンを利用する方法のフローチャート例である。 分割レイアウトを例示する図である。 分割レイアウトを例示する図である。 分割レイアウトを例示する図である。 分割レイアウトを例示する図である。 分割レイアウトを例示する図である。 車両データにおける中心点の配置を例示する図である。 車両データにおける中心点の配置を例示する図である。 車両データにおける中心点の配置を例示する図である。 車両データにおける中心点の配置を例示する図である。 画素レベルの分類の例を示す図である。 分割レイアウトを例示する図である。 車両データにおける中心点の配置を例示する図である。 車両データにおける中心点の配置を例示する図である。 車両データにおける中心点の配置を例示する図である。 異なる道路シーンにおける分割レイアウトの例を示す図である。 異なる道路シーンにおける分割レイアウトの例を示す図である。 異なる道路シーンにおける分割レイアウトの例を示す図である。 所定のイメージに適用できる2つの分割レイアウトを全体的に表す図である。 所定のイメージに適用できる2つの分割レイアウトを全体的に表す図である。 混同行列の例を示す図である。 シーン分類における評価の結果を例示する図である。 確率モデルを例示する図である。 確率モデルを例示する図である。 画像からシーンを推定するためのプロセスを例示する図である。 画素レベル分類の更なる例を例示する図である。
シーン推定を行うシステムおよび方法について以下に記載する。なお、本開示は、例として示され、何らかの限定をするためのものではない。また、添付の図面においては、参照符号が同様の要素を参照するために使用されている。
(システム概要)
図1は、ある実施形態において、画像に基づいてシーンを推定するシステム100のブロック図を例示したものである。
システム100は、サーバ101、クライアント装置115および移動プラットフォーム135を含む。システム100の構成要素は、ネットワーク105によって通信可能に結合している。
他の実施形態において、システム100は、例えば、地図情報を提供するための地図サーバ、交通情報を提供するための交通情報サーバなど、図1に示されない他の構成要素を含んでいてもよい。
ネットワーク105は、既知の有線ネットワークであっても無線ネットワークであってよい。また、その構成は、スター型、トークンリング型やその他の構成を取ることができる。さらにまた、ネットワーク105は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)(例えばインターネット)、公衆ネットワーク、プライベートネットワーク、仮想ネットワーク、または、複数の装置が通信に用いる相互接続されたその他の任意のデータパスであってもよい。さらに別の形態では、ネットワーク105はピアツーピアネットワークであってもよい。ネットワーク105は、複数の異なる通信プロトコルでデータ送信するための通信ネットワークと接続されたり、このような通信ネットワークを含んだりしても良い。
ある実施形態では、ネットワーク105は、Bluetooth(登録商標)通信ネットワークや携帯電話通信ネットワークを含み、SMS(ショートメッセージサービス)、
MMS(マルチメディアメッセージサービス)、HTTP(ハイパーテキスト転送プロトコル)、直接データ接続、WAP、電子メールなどのデータを送受信する。
なお、図1では1つのネットワーク105のみが、クライアント装置115および移動プラットフォーム135に接続されているが、複数のネットワーク105がこれらの構成要素に接続されていてもよい。
一実施形態において、推定アプリケーション109がサーバ101において利用できる。推定アプリケーション109は、信号線104を介してネットワーク105に接続される。
サーバ101は、プロセッサおよびメモリを備え、ネットワークによる通信を行うことができる、ハードウェアサーバや仮想サーバ等のサーバである。一実施形態において、サーバ101は、クライアント装置115や移動プラットフォーム135に対してデータを送受信することができる。また、一実施形態において、サーバ101は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
なお、図1では、1台のサーバ101、移動プラットフォーム135、クライアント装置115を例示するが、システム100は直接的に、またはネットワーク105によって相互接続される多くの構成要素を含むことができる。
一実施形態において、推定アプリケーション109は、クライアント装置115で実行されてもよい。クライアント装置115は、信号線108を介してネットワーク105に接続している。
一実施形態において、クライアント装置115は、サーバ101や移動プラットフォーム135に対してデータを送受信することができる。
クライアント装置115は、メモリとプロセッサを含む、情報処理とネットワーク105へのアクセスが可能なコンピュータであり、例えば、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、携帯電話、個人情報端末(PDA)、モバイル電子メール装置、および、その他の電子機器などである。
一実施形態において、クライアント装置115は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
ユーザ125は、クライアント装置115を利用する利用者である。
なお、図1では、1台のクライアント装置115を例示するが、システム100は、複数のクライアント装置115を含んでいてもよい。
一実施形態において、推定アプリケーション109は、シーン利用アプリケーション117に対して、画像に対応するシーンと、シーンの分類結果を表すデータを送信することができる。また、シーン利用アプリケーション117は、分類されたシーンを表すユーザインタフェースを提供するためのグラフィックを生成することができる。また、シーン利用アプリケーション117は、生成したグラフィックを、クライアント装置115に接続された表示装置(図示せず)を用いて提示してもよい。
一実施形態において、推定アプリケーション109は、移動プラットフォーム135上で実行されてもよい。移動プラットフォーム135は、信号線134を通してネットワーク105に接続している。
一実施形態において、移動プラットフォーム135は、サーバ101やクライアント装置115に対してデータを送受信することができる。
移動プラットフォーム135は、メモリとプロセッサを有するコンピュータを含んでもよい。一実施形態において、移動プラットフォーム135は、道路上を移動可能なコンピュータである。例えば、移動プラットフォーム135は、車両、自動車、バス、生体に埋
め込まれた装置、非一時的(non-transitory)なコンピュータ機器(例えば、プロセッサ、メモリ、あるいは非一時的なコンピュータ機器の組み合わせ)を有する他のモバイルシステムなどであってもよい。
ユーザ125は、移動プラットフォーム135の操作者であり、移動プラットフォーム135を利用する人間である。例えば、ユーザ125は、車両を運転するドライバーであってもよい。
一実施形態において、移動プラットフォーム135は、カメラ107と、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション117を含んでいてもよい。
なお、図1では、1台の移動プラットフォーム135を例示するが、システム100は、複数の移動プラットフォーム135を含んでいてもよい。
推定アプリケーション109は、画像からシーンを推定するためのロジックを含んだアプリケーションである。
いくつかの実施例において、推定アプリケーション109は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、推定アプリケーション109は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
推定アプリケーション109については、図2〜図4Bを参照しながら後ほど詳しく説明する。
カメラ107は、画像(ビデオ画像および静止画像を含む)を記録する光学的装置である。カメラ107は、任意のフレームレートを使用して、ビデオストリームのフレームを取り込むことができ、また、任意の方法を用いて撮影した画像を符号化することができる。
一実施形態において、カメラ107は、周辺環境を画像で記録することができる。
例えば、移動プラットフォームの場合、カメラ107は、道路、空、山、他の車両、オブジェクト(例えば、道路脇の構造物、建物、樹木など)を含んだ、移動プラットフォーム135の周囲の環境を取り込むことができる。
一実施形態において、カメラ107は、移動プラットフォーム135の前面に、前方を向いてマウントされていてもよい。別の実施形態において、カメラ107は、移動プラットフォーム135の他の部分にマウントされていてもよい。
例えば、クライアント装置の場合、カメラ107は、フロントあるいはリアカメラであってもよく、セットトップカメラ等であってもよい。
カメラ107は、取得した画像を含む画像データを、推定アプリケーション109に送信することができる。
例えば、カメラ107は、道路上を移動している移動プラットフォーム135(例えば車両)から、道路を含んだシーンを表す画像データを取得することができる。
また、カメラ107は、画像データ(例えばリアルタイムビデオストリーム)を、本明細書の他の箇所で更に説明するような処理およびクラス分類を行う推定アプリケーション109に送信することができる。
シーン利用アプリケーション117は、様々なアプリケーションにおいてシーンを利用するためのロジックを含む。
例えば、シーン利用アプリケーション117は、推定アプリケーション109によって推定されたシーンを活用して、ユーザに高品質なナビゲーション機能を提供する地図アプリケーションであってもよい。
いくつかの実施形態において、シーン利用アプリケーション117は、FPGA(Fiel
d Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、シーン利用アプリケーション117は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
シーン利用アプリケーション117については、図2および図5を参照しながら後ほど詳しく説明する。
位置決定システム120は、クライアント装置115や移動プラットフォーム135の地理的な位置を決定するためのシステムである。
一実施形態において、位置決定システム120は、信号を受信するように構成された電子装置(例えばクライアント装置115や移動プラットフォーム135)に、位置信号を供給する。
位置決定システム120は、信号線122で示したように無線送信機と受信機を介して、または、信号線124で示したようにネットワーク105を介して、あるいは他の適当な伝達手段を介して位置信号を供給してもよい。
クライアント装置115および移動プラットフォーム135は、位置決定システム120から位置信号を受信する受信機(例えばGPS受信機、ネットワークインタフェース等)を含んでいてもよい。また、クライアント装置115および移動プラットフォーム135は、位置信号を処理することで、自装置(自端末)の地理的な位置を決定してもよい。
一実施形態において、位置決定システム120は、GPS、ディファレンシャルGPS(DGPS)、補助GPS(A−GPS)、多辺測量あるいは三角測量エンジンを含んだ電気通信システム、ネットワーク105におけるクライアント装置115や移動プラットフォーム135のIPアドレスを取得し、他の情報ソース(例えばインターネットプロバイダのデータベースやインターネットレジストリ)とIPアドレスをクロスリファレンスすることで、当該クライアント装置115や移動プラットフォーム135の大まかな位置を推定するジオロケーションシステム、あるいは他の位置情報システムや装置などを含んでいてもよい。
様々な実施形態において、"hiball"のようなコンステレーションシステム、磁気追跡システム、光学追跡システム、慣性追跡システムなど、どのような位置追跡システムが用いられてもよいことを理解すべきである。
また、位置決定システム120は、単体の要素として示されているが、サーバ101、ネットワーク105、クライアント装置115、移動プラットフォーム135を含むシステムの他の要素と組み合わせてもよい。
推定アプリケーション109やシーン利用アプリケーション117は、位置決定システム120と接続され、位置信号や位置データを受信するように構成されてもよい。例えば、APIを介してこれらの情報にアクセスできるようにしてもよい。
(推定アプリケーション109の例)
図2を参照して、推定アプリケーション109とシーン利用アプリケーション117を有するコンピュータの例について、詳細に説明する。
図2は、一実施形態における、推定アプリケーション109、プロセッサ235、メモリ237、通信部241、入出力部243、記憶装置245、シーン利用アプリケーション117、およびカメラ107を含むコンピュータ200のブロック図である。コンピュータ200の構成要素は、バス220によって通信可能に接続される。
バス220は、コンピュータが有する構成要素間、または、コンピュータ間でデータを送受信することができれば、どのような種類の既知の通信バスであってもよい。
一実施形態において、コンピュータ200は、サーバ101、クライアント装置115、または移動プラットフォーム135のうちのいずれかである。
プロセッサ235は、算術論理ユニット、マイクロプロセッサ、汎用コントローラ、または、計算を実行して表示装置に表示信号を提供する他のプロセッサアレイのような、一つ以上の処理ユニットを含む。
プロセッサ235は、データ信号を処理し、そのアーキテクチャは、CISC(Complex Instruction Set Computer)、RISC(Reduced Instruction Set Computer)、これら両方の命令セットの組合せとして実装されたアーキテクチャなど様々なアーキテクチャでありうる。なお、図2には一つのプロセッサ235だけが示されているが、複数のプロセッサ235が含まれていてもよい。上記以外のプロセッサ、オペレーティングシステム、センサ、表示装置、あるいは物理的構成も採用可能である。
メモリ237は、プロセッサ235が実行可能な命令やデータを格納する手段であり、一つ以上のコンピュータによって読み取り可能な非一時的記憶媒体を含む。メモリ237に格納される命令やデータは、本明細書に示す技術を実行するためのコードを含んでもよい。一実施形態において、メモリ237は、推定アプリケーション109やシーン利用アプリケーション117を格納する。
メモリ237は、DRAM、SRAM、組み込み型メモリ、フラッシュメモリやその他の既存のメモリ装置を含んでもよい。ある実施形態においては、メモリ237は、ハードディスクドライブ、フロッピーディスク(登録商標)ドライブ、CD−ROM装置、DVD−ROM装置、DVD−RAM装置、DVD−RW装置、フラッシュメモリ装置や情報記憶の分野において既知のその他の大容量記憶装置などの、非一時的(non-volatile)メモリや永久記憶装置を含んでも良い。
通信部241は、サーバ101、移動プラットフォーム135、クライアント装置115のうちの一つ以上と通信を行う手段である。その通信先は、推定アプリケーション109が格納されている場所によって異なる。
通信部241は、ネットワーク105を形成する他の要素と通信を行うため、ネットワーク105に有線または無線等によって接続される。
いくつかの実施形態において、通信部241は、ネットワーク105や他の通信チャネルへの直接的な物理的接続のためのポートやネットワークインタフェースを含む。例えば、通信部241は、USB、SD、CAT−5など、クライアント装置115と有線通信するためのポートを含む。
ある実施形態では、通信部241は、IEEE 802.11、IEEE 802.16、BlueTooth(登録商標)、DSRC(Dedicated Short-Range Communication)または他の適当な無線通信方式を含む一つまたは複数の無線通信方式を用いて、クラ
イアント装置115や他の通信チャネルとデータを交換するための無線送受信部を含む。
一実施形態において、無線送受信部は、GPS信号を含む位置データや、コンピュータ200の位置を表す他の位置データを受信するように構成された受信機を含んでもよい。
なお、図2では、単体の通信部241を例示したが、通信部241は、実際には、一つ以上の異なる通信装置であってもよいし、統合通信装置であってもよい。
ある実施形態では、通信部241は、SMS(ショートメッセージサービス)、MMS(マルチメディアメッセージサービス)、HTTP(ハイパーテキスト転送プロトコル)、直接データ接続、WAP、電子メールやその他の適切な電子通信方式により、携帯電話通信網上でデータを送受信するためのセルラ通信トランシーバを含む。ある実施形態では、通信部241は、有線ポートと無線送受信機を含む。通信部241は、TCP/IP、HTTP、HTTPS、SMTPなどの標準的なネットワークプロトコルを用いてファイルやメディアオブジェクトを配布するために、ネットワーク105への従来型の接続を提供する。
記憶装置245は、本明細書に記載される構造、処理、または機能を提供するためのデータを格納する非一時的(non-transitory)な記憶媒体である。一実施形態において、記憶装置245は、データを格納し、データへのアクセスを提供するデータベース管理システム(DBMS)を含んでいてもよい。
また、記憶装置245は、半導体素子メモリ(例:フラッシュメモリやRAM等)、ハードディスクドライブ、磁気テープ装置、フロッピーディスク(登録商標)ドライブ、CD−ROM装置、DVD−ROM装置、DVD−RAM装置、DVD−RW装置や、情報記憶の分野において既知のその他の大容量記憶装置を含んでも良い。
記憶装置245は、本明細書で後ほど詳細に説明するように、推定アプリケーション109が、カメラ107が撮像した画像を一つ以上の分割領域に分割するために用いる、所定の分割レイアウトのセットを格納することができる。
また、記憶装置245は、カメラ107によって取得された画像(動画または静止画等)、画素タイプ、分割領域における画素タイプの分布(例えば画素タイプのヒストグラム)、分割領域に対応する画素特徴データ(例えば分割領域に対応する尤度ベクトル)、画像からシーンを推測するために用いられる確率モデル247、確率モデルの学習における学習データセット、シーン変数、一つ以上のシーン変数に関連付いた分布、および、シーン分類結果(例えばシーンラベルのセット)等を格納することができる。
これらの、記憶装置245に格納されるデータについては、後ほど詳しく説明する。
一実施形態において、記憶装置245は、本明細書に記載される構造、処理、または機能を提供するための他のデータを格納してもよい。
移動プラットフォーム135が、コンピュータ200を含むという実施形態においては、コンピュータが、外部コンポーネント250と接続される他のコンピュータを含んでもよい。外部コンポーネント250は、プラットフォームバス(例:CAN等)、一つ以上のセンサ(例えば、ECU,ECM,PCM等の制御ユニット、車両センサ、音響センサ、化学的センサ、生体センサ、位置センサ(例:GPS,コンパス,加速度計,ジャイロ等)、スイッチ、コントローラ、カメラ等)、エンジン、駆動手段、サスペンション手段、計装、温度制御、または、他の電気的、機械的、構造的コンポーネント等であるが、これに限られない。
図2に示したように、推定アプリケーション109は、画像プロセッサ202、分割モジュール204、画素分類モジュール206、エビデンス生成モジュール208、学習モジュール210、シーン分類モジュール212を含むことができる。各構成要素は、バス220を介して、プロセッサ235やコンピュータ200の他の構成要素と通信可能に接続される。
画像プロセッサ202は、分類対象の画像のデータ量を減らすため、画像の前処理を行うルーチンを含むソフトウェアである。一実施形態において、画像プロセッサ202は、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、画像プロセッサ202は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
画像プロセッサ202は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
画像プロセッサ202は、カメラ107、記憶装置245、推定アプリケーション109のいずれかから、画像を取得することができる。
画像プロセッサ202は、画素分類モジュール206や、推定アプリケーション109内の他の構成要素によって処理されるデータの量を減らすために、画像を前処理する手段である。これにより、画像の分類における速度や効率を改善することができる。
いくつかの実施形態において、画像プロセッサ202は、画像を粗いパッチ配列にダウンコンバートすることができる。例えば、画像プロセッサ202は、画像内の画素を変換して、低解像度のパッチ配列を生成する。これにより、カメラ107によってキャプチャされた生の画像内のすべての画素を分類する必要性をなくすことができる。
本実施形態では、例えば、画像プロセッサ202が、所定のグリッドに対応する画素を選択することにより、ダウンサンプリング画像を生成する。このダウンサンプリング画像は、図10に示すとおり、近隣画素が互いに類似する傾向があることから、場合によっては、原画像に対してカラー漫画調になることもある。
また、元の画素セットを低解像度の画素アレイ(パッチとも呼ばれる)に変換するため、他のダウンサンプリング、平均化、または圧縮技術を利用してもよい。
画像プロセッサ202は、分割モジュール204が画像を分割する前に、あるいは後に、画像を処理することができる。また、画像プロセッサ202は、処理後の画像を、分割モジュール204や画素分類モジュール206に送信してもよい。
分割モジュール204は、画像を分割するレイアウトを決定するためのルーチンを含むソフトウェアである。
一実施形態において、分割モジュール204は、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、分割モジュール204は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
分割モジュール204は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
分割レイアウトを決定するために、分割モジュール204は、移動プラットフォーム135のカメラ107によって撮影された画像が示すであろうシーンを、画像を参照せずに予測し、当該予測に基づいて、対応する分割レイアウトを選択する。
シーンは、走行している移動プラットフォーム135に近づいてくる道路環境が反映される。一実施形態において、カメラ107は、移動プラットフォーム135に取り付けることができ、移動プラットフォーム135の動きに従って前方のシーンを取り込むように前を向いて取り付けられる。
分割モジュール204は、画像データとは無関係に、分割レイアウトを決定することができる。例えば、分割モジュール204は、画像データを解析することなく、画像によって示されるシーンに対応する分割レイアウトを特定することができる。従って、カメラ107は、分割レイアウトが決定される前、後、決定中のいずれのタイミングであっても、画像を取得することができる。
分割レイアウトは、一つ以上の分割領域を含む。この領域は、所定のタイプのシーンにおける、視覚的に区別可能な、または別個の要素に対応した領域として構成される。いくつかの実施形態では、シーンが、ルート(道路など)、物理的な周辺環境、運転状況(道路など)、動的環境(天候など)、障害物などの要素を含み得るが、これらに限定されない。いくつかの実施形態において、分割モジュール204によって予測的に判断された分割レイアウトは、シーンに含まれる主要素に概ね対応する形状を有する分割領域を含んでいてもよい。
分割レイアウトは、事前に定義されたものを使用してもよいし、処理を行いながら定義してもよい。また、実行時に分割モジュール204によって調整されてもよい。また、これらの組み合わせを用いてもよい。
分割レイアウトは、分割レイアウトの向き、分割レイアウトの寸法、分割レイアウトに含まれる分割領域の数、対応する分割領域のセットの数、分割領域のジオメトリ(例えば
分割領域のサイズと形状、分割領域の向きなど)等によって定義される。
例えば、サイズ、形状、分割レイアウトにおける各分割領域の向きは、本明細書の他の箇所で説明するように、デフォルト値として事前に定義され、分割モジュール204によって、一つ以上のコンテキスト属性に基づいて実行時に調整されてもよい。
分割領域は、様々な形状やサイズをとることができる。例えば、分割領域は、くさび形、三角形、円形、扇形、または任意の他の幾何学的形状であってもよい。
また、分割レイアウトに含まれる分割領域は、互いに均一、不均一、類似、非類似、対象、非対称などであってもよいし、これらの組み合わせであってもよい。
各分割領域は、所定の分割レイアウトの中で同心状に配置されてもよい。また、分割領域として、異なる形状の組み合わせが用いられてもよいし、同一または類似の形状が用いられてもよい。また、分割領域の一部または全部の寸法は、調整されていてもよいし、調整されていなくてもよい。また、各分割領域は、互いに異なる寸法であってもよいし、分割領域の一部または全部の寸法が同じであってもよい。
分割レイアウトの例を図6A〜図6Eに示す。分割レイアウト600,605,610,620,625はそれぞれ例示であるが、これに限定されない。
図示した通り、これらのレイアウトに含まれる分割領域は、三角形、台形、半円形であってもよいし、他の形状であってもよい。
各分割領域は線で囲まれ、中心点626で交差ないし収束する。
各分割領域は可変サイズであってもよく、直線以外で囲まれてもよい。また、図6Dのように、中心点626を囲うように配置されてもよい。
一実施形態において、分割モジュール204は、一つ以上のコンテキスト属性に基づいて分割レイアウトを決定する。コンテキスト属性とは、移動プラットフォーム135の状況や、その移動環境を表すデータである。コンテキスト属性は、コンテキストデータに基づいて推定、または決定されてもよい。
一実施形態において、コンテキストデータは、例えば、対応する画像が取得された(または前後の)時刻に対応する、移動プラットフォーム135の移動に関するデータ、車道と移動プラットフォーム135との地理的な位置関係を表す位置データ、地理的な位置の景観を表す周辺環境データ、移動プラットフォーム135の地理的な位置に対応する運転状況データ、移動プラットフォーム135の地理的な位置に対応するイベントデータ、現在の日時などのうちの一つ以上である。
コンテキスト属性は、カメラ107が取得した画像とは独立したデータである。
例えば、図6Oに示したシーンのように、推定アプリケーション109によって分類されるシーンが、空が上にあり、道路が下にあり、特徴物が左側と右側にある、屋外の道路シーンであると仮定する。
この場合、分割モジュール204は、一つ以上のコンテキスト属性に基づいて、画像に対応するシーンが農村における道路シーンであると推定し、画像を分割領域のセットによって分割するための分割レイアウトを選択する。
例えば、図6Oに示したように、分割レイアウト675は、12個のくさび型の形状を持つ分割領域を含んでおり、各分割領域は、中心点(収束点)から伸びる線によって囲まれている。この例に示されるように、道路シーン内のオブジェクトは、これらを囲むくさび型の分割領域に大略沿う傾向がある。例えば、地平線は一つ以上の分割領域に収まるかもしれないし、路面は一つ以上の分割領域に収まるかもしれない。
このような方法は、推定アプリケーション109が、CPUに負荷をかけ、待ち時間を発生させうる画像の分析を行うことなく、画像を関連したパーツ(すなわち分割領域)に分割することができるため、有利である。
また、分類の品質を向上させることができ、マルチコアまたは並列プロセッサであるプ
ロセッサ235のより効率的な使用を可能にすることができる。
図6Pおよび図6Qは、シーンを表した、分割レイアウト680および685を、対応する画像にオーバーレイ表示させた、さらなる例である。
分割モジュール204は、外部コンポーネント250、記憶装置245のようなデータストレージ、または他の適切なコンポーネントの一つ以上から、移動プラットフォーム135の移動に関するデータを受信してもよい。
移動プラットフォーム135の移動に関するデータとは、例えば、加速度、速度、ブレーキ力、加わった力、運転プロファイル、温度、湿度、振動、圧力、音量、燃費、日時、端末から外部にあるオブジェクト(例えば、道路脇の構造物、信号機、他の車両、歩行者、自転車等)までの距離、システム安全上のパラメータ(例えばエアバッグ、ABS等)、走行方向、燃料残量、バッテリーレベル、または他の物理的または動的な状況を表すデータなどである。
分割モジュール204は、通信部241、一つ以上のセンサ250、記憶装置245のようなデータストレージ、ナビゲーションユニット(例えばGPS)を含むシーン利用アプリケーション117、ネットワーク105経由で(例えばAPIやプッシュ、プル等によって)情報を提供する地図・交通・天気サーバ、または他の適切なコンポーネントの一つ以上から、位置データや運転状況データを取得してもよい。
位置データは、移動プラットフォーム135の位置(例えばGPS座標)、移動履歴、現在の日時を表すタイムスタンプ、移動プラットフォーム135の速度を表すデータを含んでいてもよい。
運転状況データは、移動プラットフォーム135の位置に関連付いた交通情報やそのアップデート、事故情報、予測遅延時間などを含んでいてもよい。
また、分割モジュール204は、コンピュータ200のオペレーティングシステムや、ネットワーク105に接続された時計サーバ(不図示)、あるいは他の類似するシステム100内の構成要素から受信したタイムスタンプに基づいて、現在の日時を決定してもよい。
分割モジュール204は、不図示のイベントエンジンや、記憶装置245のようなデータストレージ、または他の適切なコンポーネントから、システム100(例えば、マッピング、検索、あるいは情報サーバ)内のコンピュータ200によって処理可能な周辺環境データを受信してもよい。
周辺環境データとは、地理的に異なる場所に関連付いた土地の特徴(例えば、山、丘、水辺、草木、建物、構造物など)を表すデータである。
一実施形態において、周辺環境データは、指定された場所の特徴を示す地図(例えば衛星地図)から、推定アプリケーション109によって抽出されてもよい。
分割モジュール204は、システム100内のコンピュータによって処理可能な不図示のイベントエンジンや、記憶装置245のようなデータストレージ、または他の適切なコンポーネントからイベントデータを受信してもよい。
例えば、カレンダリング、スケジューリング、ソーシャルネットワーキングサービス、電子メール、現在のイベント、エンドユーザに対する他のソフトウェアサービス等を提供する、不図示のサーバシステムがネットワーク105に接続されており、分割モジュール204が、当該システムからネットワーク105経由でイベントデータを取得するようにしてもよい。
イベントデータは、現在の場所、または車両のルート(例えば位置データに基づいて決定されたルート)に沿って接近中の場所にて発生するイベント、発生中のイベント、または発生するであろうイベントを表すものであってもよい。
下記は、一つ以上のコンテキスト属性に基づいて、分割レイアウトを決定する非限定的な追加例である。
コンテキスト属性は、「平日のラッシュ帯」のような時間帯を含んでいてもよく、分割モジュール204は、渋滞に対応する分割レイアウト(例えば、隣接車線、出口、合流車線、路肩、バリア、信号機などに対応するレイアウト)を決定するようにしてもよい。
また、コンテキスト属性は、交通量を含んでいてもよく、分割モジュール204は、交通量に対応した分割領域のセットを含む分割レイアウトを決定してもよい。
例えば、画像に含まれる交通量が少ない場合、分割レイアウトは、交通量が多い場合と比較して簡素なものであり、より少ない分割領域を含むものであってもよい。なぜならば、このような場合、交通量が多い場合と比較して、道路におけるオブジェクト、状況、関心エリア等が少ないためである。
また、コンテキスト属性は、(例えば車両のGPS装置によって受信される)事故情報を含んでいてもよく、分割モジュール204は、当該事故情報の一つ以上の属性に適合する分割レイアウト(例えば路肩で起きた事故に対応する領域を一つ以上含むようなレイアウト)を選択してもよい。
また、コンテキスト属性は、運転中の車両の車種を表すデータであってもよく、分割モジュール204は、当該車種(例えばサイズや積載量等)に適した分割レイアウトを選択してもよい。
また、コンテキスト属性は、車両が走行している道路の種類を表すものであってもよく、分割モジュール204は、当該道路の種類(例えば、二車線の高速道路、四車線の高速道路、橋梁、トンネル、都市の通り、一方通行、未舗装道路など)に対応する分割レイアウト(例えば一致する領域を持つもの)を選択してもよい。
また、コンテキスト属性は、都市、田園地域、郊外地域、商業地域など、車両が走行しているエリアを含んでもよく、分割モジュール204は、当該エリアの共通属性(例えば地平線、平原、太陽、建物、歩道、駐車区画など)に適した領域を含む分割レイアウトを選択してもよい。
また、コンテキスト属性は、運転者の年齢や性別など、運転者の属性を含んでもよく、分割モジュール204は、若い運転者用の分割レイアウト、老年運転者用の分割レイアウトなど、当該運転者の属性に対応する分割レイアウトを選択してもよい。
また、コンテキスト属性は、場所(例えば、多くの車両と人が想定されるコンサート会場)にて発生するイベントタイプを含んでいてもよく、分割モジュール204は、当該シーンの種類に対応する分割レイアウトを選択してもよい。
また、コンテキスト属性は、他の車両で利用された分割レイアウトを表すデータを含んでいてもよく、分割モジュール204は、対応する分割レイアウトを選択してもよい。
当該他の車両は、以前、対応する道路に沿って走行したことがあり、当該車両の学習モジュール210は、シーンを分類するための最も効果的な分割レイアウトを学習していたものであってもよい。
これは、分割レイアウト、特に、これらの車両の学習モジュール210によって学習され、改善された分割レイアウトを、システム100内の車両に共有させることができるという点において有利である。
さらなる例として、システム100内の移動プラットフォーム135に含まれる推定アプリケーション109は、分割レイアウトを互いに送信することで、互いに共有する構成であってもよい。送信は、例えば、直接行ってもよいし、サーバ101と、当該サーバで使用可能な推定アプリケーション109のインスタンスを経由して行ってもよい。
例えば、通信可能な車両が、他の車両および、当該車両に含まれる推定アプリケーション109のインスタンスによって道路画像を分類するための中央サーバ(例えば、サーバ101)と、好ましい分割レイアウトデータと使用基準を共有してもよい。
一実施形態において、サーバ101は、移動プラットフォーム135に含まれる推定ア
プリケーション109のインスタンスによって決定された、より好ましく、新しく、改善されるように連続的にアップデートされる分割レイアウトを保持する、動的な集中リポジトリを含んでもよい。
また、移動プラットフォーム135の推定アプリケーション109のインスタンスは、集中リポジトリに対して、より好ましく、新しく、改善された分割レイアウトを取得するために問い合わせ、同期してもよく、分割モジュール204は、分割レイアウトを決定する際にこれらを利用してもよい。
このように、分割モジュール204は、分割レイアウトを決定するために任意のコンテキスト属性を利用することができる。
これは、任意のタイプの道路シーンについての適切な分割レイアウトを、当該画像に含まれる画素を解析することなく決定できるため、推定アプリケーション109の処理速度と効率を向上できるという点において有利である。
また、道路シーンを一つのコンテキスト属性から識別することが困難である場合であっても、分割モジュール204は、道路シーンに対応するより正確な分割レイアウトを推定することができる。
なお、コンテキスト属性は走行中に変化するため、一実施形態において、選択された分割レイアウトも変更され、あるいは異なる分割レイアウトに選択されなおしてもよい。
例えば、分割レイアウトの決定(再決定)は、タイマによってトリガされてもよいし、カメラ107のフレームレートと同期していてもよいし、他の規則的、または不規則的なトリガイベントなどに基づいて行われてもよい。
一実施形態において、分割レイアウトの集合は予め定義されたもの(例えば、機械学習や手動設定により、またはこれらの組み合わせにより)であってもよく、当該予め定義された分割レイアウトを表すレイアウトデータは、メモリ237、記憶装置245、システム100における他の記憶装置などのストレージデバイスに格納されていてもよい。
一実施形態において、本明細書の他の箇所で説明したように、分割モジュール204は、一つ以上のコンテキスト属性に基づいて、記憶装置から分割レイアウトを選択することで、画像によって表されたシーンに対応する分割レイアウトを少なくとも部分的に決定できる。また、いくつかのケースにおいては、一つ以上のコンテキスト属性に基づいて分割レイアウトを変更することができる。
一実施形態において、分割レイアウトを構成するデータ(例えば変数、データ構造、オブジェクト等)は、当該分割レイアウトを構成する分割領域の形と数を特徴づけることができる。
また、学習モジュール210は、分割モジュール204による分割レイアウトの選択を最適化するために、対応するコンテキスト属性(例えば車両の方向や位置データ)を持つテスト用画像のセットを用いて、特定のシーンタイプ(例えば道路環境)ごとに分割モジュール204がどのような分割レイアウトを選択すべきかについて学習を行うようにしてもよい。
これは、画素分類モジュール206やシーン分類モジュール212によって決定される所望の分類パラメータを最大化できるという点において有利である。
いくつかのケースでは、学習のために、分割レイアウトを、少なくとも部分的に手動で構成し、テスト画像に関連付けてもよい。
学習結果を反映した学習データは、記憶装置245内の学習モジュール210によって保持されてもよく、分割モジュール204は、分割レイアウトを決定する際に、当該決定を最適化するために、当該データに対して照会を行ってもよい。
分割レイアウトは、一つ以上の分割領域のセットを含んでいてもよい。
また、各セットに含まれる分割領域は、当該レイアウト内のエリアにある特定の点に収
束してもよい。
当該特定の点は、分割領域のセットにおける収束点または中心点とも呼ばれる。
最終的に、分割レイアウトが画像に適用されるとき、分割レイアウトに含まれる中心点は、対応する画像の画像領域の中のどこに位置してもよい。
中心点は、シーンの分類時に使用された一つ以上の態様を判断する期待値を設定できる基準点となり得る。期待値とは、分析用の画像を分割するのに最適な方法に関する予想値や推定値のことである。場合によっては、特定の対象や関心領域が画像中に現れると予測される場合があり、このような場合、分割モジュール204は、当該画像に適用された当該画像領域に対応する箇所に中心点を配置することができる。
例えば、車両が交差点に接近していると判定された場合、交通信号機が表示される場所の近傍に中心点を置く分割レイアウトを選択または適応させることができる。この例では、車両が交差点に接近しているため、「交通信号機を含むシーンが現れる」という予測を行うことができる。
別の例では、分割モジュール204は、画像におけるいくつかのシーンの特徴が、例えば大きく開けた空のように情報が少ないものであり、一つの領域に空が大きく含まれるように中心点を調整可能(例えば分割レイアウトを適応させたり、対応する分割レイアウトを選択したり、あるいはその組み合わせにより)であることを、例えば位置データに基づいて知っていてもよい。
いくつかの実施形態において、中心点および当該中心点に関連付けられた分割領域は、重要な分類可能な運転状況、道路上の障害物、道路の特性、周辺環境など、重要なデータ分類目標と関連付けられ得た、予想画像領域に対応するものであってもよい。一実施形態において、中心点は、画像の中心、すなわち、画像内の各種要素が収束するように見える予測された場所(視覚的重心)、予測消失点あるいはエピ極、その画像内の各種特徴の予測連結点あるいは収束点などに位置するように定義または適合されてもよい。エピ極は、画像内の他の点の起点になり得る点である。
図6Rおよび図6Sは、一つの画像(例えばビデオ画像フレーム)に対する二種類の分割レイアウトの決定法を全体的に示した図である。
分割レイアウト690は、画像右側のターゲットを分類するために適応されたレイアウトであり、分割レイアウト695は、画像左側のターゲットを分類するために適応されたレイアウトである。(分類は、例えば画素分類モジュール206によって行われる)
分割モジュール204は、一つの画像(例えばビデオフレーム)に対して、各々が異なる中心点を有する複数の分割レイアウトをオーバーレイしてもよい。
これは、画素分類モジュール206が、一つの画像に対して複数の画像分類セット(例えば左側に重点を置いたもの、右側に重点を置いたもの)を確立してもよいことを意味する。
一実施形態において、中心点は、分割レイアウト内の対応する分割領域の組の中心を表すことができる。例えば、分割モジュール204によって決定された分割レイアウトが、対応する画像に適用されたとき、分割領域は、図6Oおよび6Qに示したように、中心点から画像の端辺に対応する辺まで外方へ延びる形状となる。
図示したように、中心点は、車道の消失点に対応するように構成されてもよい。また、分割領域は、当該道路の消失点から放射状に二つ以上の分割領域に画像を分割するものであってもよい。
予め定義された分割レイアウトは、当該分割レイアウトに対応するデフォルトの中心点の位置を含んでいてもよく、当該中心点は、実行時に、一つ以上の学習データやコンテキストデータに基づいて、分割モジュール204によって変更されてもよい。
いくつかの実施形態において、分割モジュール204は、移動プラットフォーム135
の方位、運動、動き(例えば加速、速度、コーナリング、減速、位置の変動、上昇、下降、方向等)、移動プラットフォームの位置(例えば地理的なロケーション、経路予想、範囲データ等)などの一つ以上のコンテキスト属性に基づいて、中心点の位置を調整してもよい。
例えば、中心点に関連付いた二つ以上のパーティションが、車両の動きにあわせて移動してもよい。
図6Aおよび図6F〜図6Iは、移動プラットフォーム135の動的な動きや場所といったような、一つ以上のコンテキスト属性に基づいて、分割モジュール204が、異なる時点における車両コンテキストを用いて、中心点631を動的に調整する例を説明する図である。
ここで、一つ以上のコンテキスト属性から決定される分割レイアウトが、通常の状態において図6Aのようなものであったとする。
ここで、右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Fのように、中心点631を左方向に移動させることで形成されなおされてもよい。
また、左方向を向いた場合、分割レイアウト204が有する分割領域は、車両が左を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Gのように、中心点631を右方向に移動させることで形成されなおしてもよい。
また、坂を上りながら右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が上りながら右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Hのように、中心点631を左上方向に移動させることで形成されなおしてもよい。
また、坂を下りながら右方向を向いた場合、分割レイアウト204が有する分割領域は、車両が下りながら右を向いたことを示す一つ以上のコンテキスト属性(例えばセンサデータ、地図データ等)に基づいて、図6Iのように、中心点631を左下方向に移動させることで形成されなおしてもよい。
図6L〜図6Mは、車両コンテキストによって中心点を動的に調整するさらなる例を示す図である。
これらの図では、シーンの態様を曖昧にしないように、分割領域が省略されている。
図6Lは、シーン内の道路の消失点に中心点661を持つ直線道路を示している。また、図6Mは、右方向へのカーブに基づいて、中心点661を左方向に移動させた例である。また、図6Nは、左方向へのカーブに基づいて、中心点661を右方向に移動させた例である。
いくつかの実施形態において、中心点は、一つ以上のコンテキスト属性(例えば車両の方角、速度、予測経路、地図データ)に応じて、画像の予想領域に対する分割領域の形状のどこをどのように修正するかを計算するために、分割モジュール204によって使用される基準点であってもよい。
分割モジュール204は、決定または処理された分割レイアウトを表すデータを、画素分類モジュール206、エビデンス生成モジュール208のうちの一つ以上に送信してもよく、当該分割レイアウトを表すデータを、記憶装置245やメモリ237に記憶させてもよい。
画素分類モジュール206は、画像に含まれる画素を一つ以上の画素タイプに分類するためのルーチンを含むソフトウェアである。
一実施形態において、画素分類モジュール206は、画像に含まれる画素を分類するために、以下に示す構造、処理、または機能を提供するための、プロセッサ235で実行可能な命令の集合を含む。
また、一実施形態において、画素分類モジュール206は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
また、画素分類モジュール206は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
画素分類モジュール206は、分割モジュール204が決定した一つ以上の分割レイアウトを表すデータを、分割モジュール204や記憶装置245から取得することができる。
画素分類モジュール206は、画像を分割領域によって分割するために、一つ以上の分割レイアウトを当該画像に適用(例えば、オーバーレイ、マッチ等)することができる。
一実施形態において、画像内の画素は、各画素をある領域、すなわちr={Pij(m=1,2・・・M)に割り当てて、連続する画素群を形成することにより、分割領域によって(例えばM個の分割領域に)分割できる。
画素分類モジュール206は、画素レベルの特徴に基づいて、各分割領域内の画素を、複数の画素タイプのうちの一つの画素タイプに分類することができる。
一実施形態において、複数の画素タイプは、画素分類モジュール206によって予め定められる。
画素タイプは、画素の特徴を表すデータであり、当該画素を生成する面のタイプを表す。
画素タイプの例として、「空」、「樹木」、「建築構造物」、「路面」、「車線」、「バリアつきの歩道」、「車両」、「歩行者」等が挙げられるが、これらに限定されるものではない。
また、画素に含まれる画素レベルの特徴とは、画素の色やテクスチャなどであるが、これらに限定されるものではない。
例えば、画素分類モジュール206は、画素の色とテクスチャを判定し、当該色とテクスチャに基づいて、当該画素のタイプを決定することができる。
更なる例として、画素の色が緑であるならば、画素分類モジュール206は、当該画素のタイプを「樹木」と決定することができる。
一実施形態において、画素は、カメラ107で取得され、または処理されたオリジナルの画像に含まれるオリジナルの画素であり、そして、当該画素の特徴は、当該オリジナルの画素のサイズ、テクスチャ、色であってもよい。
一実施形態において、カメラ107で取得されたオリジナルの画像は、他のフォーマットに(例えばRawデータをJPEGやPNG等に)に変換されてもよく、当該画素は、他のフォーマットに変換された画素であってもよい。画素の特徴は、当該変換された画素のサイズ、テクスチャ、色を含む。
さらに別の実施形態において、カメラ107で取得されたオリジナルの画像は、画像プロセッサ202でダウンサンプリングされたものであってもよく、画素は、ダウンサンプリングされた画像に含まれる、ダウンサンプリング後の画素であってもよい。画素の特徴は、当該ダウンサンプリングされた画素のサイズ、テクスチャ、色を含む。
画素分類モジュール206は、分割領域ごとに、画素レベルの分類結果を得ることができ、画素レベルの分類結果によって、分割領域内の各画素(例えば、ダウンサンプリング後の画素やパッチなど)を一つ以上の画素タイプに分類することができる。
一例において、二つ以上の画素は、所定の画素タイプのセットから、同じ画素タイプに分類される場合がある。さらなる例において、二つ以上の画素は、所定の画素タイプのセ
ットから、異なる画素タイプに分類される場合がある。
例えば、各画素が特徴ベクトルfijによって表される、i×j個の画素Pijからなる画像を考える。当該特徴は、座標(i,j)を中心とする色およびテクスチャのフィルタ群によって導出することができる。画素レベルの分類器は、ドメインfから、n個の別個の画素タイプ群のうちの一つまでの関数、すなわちC:f→{c,c・・・c}である。また、画素レベルの分類結果は、分類された画素タイプの配列である。
画素分類モジュール206は、カメラ107やそのコントローラ、メモリ237、記憶装置245、画像プロセッサ202またはシステム100の他の構成要素から、画像(例えば、ビデオフレーム、写真など)を取得することができる。
一実施形態において、画素分類モジュール206は、画像プロセッサ202、メモリ237、記憶装置245またはシステム100の他の構成要素から、ダウンサンプリングされた画像を取得することができる。
画素分類モジュール206は、前述したものと同一または類似の処理を実行することによって、ダウンサンプリングされた画像の画素を一つ以上の画素タイプに分類することができる。
ダウンサンプリング画像では、局所的な依存関係が無視され得るものの、ダウンサンプリング画像の画素レベルの分類結果は、近隣画素が同じ画素タイプに分類される傾向があることから、画素レベルの分類結果は、イラスト調になることがある。
画素レベルの分類結果の例を、図10に示す。
一実施形態において、画素分類モジュール206は、画像中の分割領域ごとの画素レベルの分類結果を、エビデンス生成モジュール208に送信することができる。
他の実施形態において、画素分類モジュール206は、画像中の分割領域ごとの画素レベルの分類結果を、記憶装置245またはメモリ237に格納することができる。
エビデンス生成モジュール208は、画素分類モジュール206が生成した画素分類データに基づいて、画像の分割領域と関連した画素特徴データを生成するためのルーチンを含むソフトウェアである。
一実施形態において、エビデンス生成モジュール208は、画像の分割領域に関連付いた画素特徴データを生成するために、以下に記す構造、処理、または機能を提供するための、プロセッサ235で実行可能な命令の集合を含む。
また、一実施形態において、エビデンス生成モジュール208は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
エビデンス生成モジュール208は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
エビデンス生成モジュール208は、画素分類モジュール206や記憶装置245から、画像の分割領域ごとに、画素レベルの分類結果を取得することができる。画素レベルの分類結果は、当該分割領域における各画素に対応する画素タイプを含む。
また、エビデンス生成モジュール208は、分割領域ごとに、当該分割領域に関連付いた画素レベルの分類結果に基づいて、画素特徴データのセットを決定することができる。
例えば、エビデンス生成モジュール208は、分割領域の画素の画素タイプに基づいて、当該分割領域における、画素特徴データのセットを決定することができる。
画像の分割領域に関連付いた画素特徴データは、当該分割領域に含まれる一部の画像を表す。
例えば、画像の所定の分割領域において、画素特徴データのセットは、当該分割領域に
あるオブジェクトの一つ以上の特徴を特徴づける。
一例において、画素特徴データのセットは、分割領域の画素の内容を示す統計的なデータである。例えば、画素特徴データのセットは、画像の分割領域内の画素タイプの分布を表す尤度ベクトルである。
例えば、尤度ベクトルは、分割領域における画素タイプの57%が路面であり、23%がバリアであり、15%が樹木であり、5%が建築構造物であることを示す。もちろん、他の尤度ベクトルの例も採用可能である。
一実施形態において、分割領域に関連付いた画素特徴データは、当該分割領域の画素を形容したもの、またはサマリである。例えば、画素特徴データは、当該分割領域における画素の統計のセットや、ヒストグラムであってもよい。
さらなる例として、エビデンス生成モジュール208は、分割領域に含まれる画素タイプの集合に対応するヒストグラムを生成することで、画素タイプの集合に関連付いた、画素タイプの分布を決定することができる。当該画素タイプの分布は、分割領域に含まれる部分画像の画素タイプのセットの確率分布であってもよい。
例えば、各領域は、当該領域内の画素タイプのヒストグラム(H=[|c,・・・|c])によって表すことができる。なお、|cは、領域mにおける各画素タイプを表し、i=1,2・・・nである。
エビデンス生成モジュール208は、分割領域の画素特徴データのセットを、ヒストグラムを基とした尤度ベクトルとして生成することができる。
例えば、エビデンス生成モジュール208は、分割領域に対して、「当該分割領域の画素の80%が「空」という画素タイプに分類され、15%が「樹木」という画素タイプに分類され、5%が「路面」という画素タイプに分類された」という情報を持つ尤度ベクトルを生成する。
画素特徴データのセットは、分割領域に対応するエビデンスデータのセットとして位置付けることができ、シーン分類モジュール212は、以下に説明するように、全分割領域における全画素特徴データを、画像をシーンに分類するためのエビデンスとして用いることができる。
例えば、各分割領域における画素特徴データは、確率モデルへの入力データとすることができ、画像のシーンを決定するための確率モデルへのエビデンスとして用いることができる。確率モデルについては、以下に詳述する。
一実施形態において、エビデンス生成モジュール208は、シーン分類モジュール212に、画像の各分割領域に対応する画素特徴データを送信することができる。
他の実施形態において、エビデンス生成モジュール208は、各分割領域に対応する画素特徴データを、記憶装置245またはメモリ237に格納することができる。
学習モジュール210は、確率モデルを学習するためのルーチンを含むソフトウェアである。一実施形態において、学習モジュール210は、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、学習モジュール210は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
学習モジュール210は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
実施形態における確率モデルとは、画像のシーンを分類するためのモデルである。
一実施形態において、確率モデルは、ベイズネットワークのような、確率的グラフィカルモデルである。確率モデルの例を、図8Aおよび図8Bに示す。
一実施形態において、学習モジュール210は、画像の分割領域に関連付いた画素特徴データ(例えば仮想的なエビデンスデータ)を含む学習データセットを取得する。学習データセットにおける画像のシーンは、予め分類され、複数のラベルによってラベリングされたものである。学習モジュール210は、下記に示すように、学習データセットを用いた確率モデルの学習を実行することができる。
例えば、学習モジュール210は、学習データセットを用いて、確率モデルの構造、入力ノード、出力ノードを学習することができる。
ベイズネットワークは、同時確率分布を局所確率モデルに因数分解したものである。各々が、ネットワーク内の一つのノードに対応しており、ノード間の有向アークは、別のノードの確率モデルにおける、あるノードの確率モデルの条件を表す。推論(分類など)は、当該アークの因果方向に対向する方向に働く。推論は、ネットワーク内の低次のエビデンスから、ベイズネットワークの最上位に位置するクラスノード(シーン変数ノード)へと流れる。クラスノードでは、ベイズネットワークが、クラス変数(ここではシーン変数)に関する事後分布を生成することができる。
ベイズネットワークは、異なる分割入力、異なる出力カテゴリ、異なる構造制約の下で、簡単に再学習することができる。これらの出力カテゴリは、ユーザによって提供されてもよく、場合によっては、現在のベイズネットワークにないカテゴリを含むことができる。
例えば、アプリケーションは、ユーザによって導入され、ベイズネットワークに存在しないシーンカテゴリを考慮し、シーンに対応する詳細を入力するようにユーザに促してもよい。
ベイズネットワークは、これらの例を用いて、新しい場面カテゴリを取り込むために再学習することができる。異なるエビデンスのタイプを入力とし、あるいは、異なる種類として定義されたノードを出力としてテストするためのモデルを簡単に変更できることは、本明細書に記載のシーン識別技術の利点である。
このモデルの構造は、ドメインの特性を表すモデル変数間の依存関係を発見することができる。
ベイズネットワークのような確率モデルの学習は、
(1)入力変数および出力変数の構造を学習する
(2)可変的な条件付き確率テーブルのパラメータを学習する
という二つの態様を含む。構造とパラメータの学習は、同時に行われてもよい。また、入次数およびノード順を制限するために制約を用いることができる。
また、ベイズネットワークの学習は、インタラクティブに実行されることができる。
図8Bに示したように、ベイズネットワークのような確率モデルは、複数のレベル(例えば最上位レベルと下部のレベル)で構築されることができる。図8Bの例では、出力が最上位レベル、入力が下部レベルである。この複数のレベル構造は、ベイズネットワークを使用して分類を行うための標準的な構造を提供することができる。本例の場合、確率モデルは複数の出力ノードを持っていてもよい。
ベイズネットワークの入力ノードは、仮想エビデンスノードと呼ばれる場合がある。仮想エビデンスノードは、出力を生成するためのエビデンスをベイズネットワークに提供することができる。各々の入力ノードは、画像に含まれる分割領域の一つに対応し、当該分割領域に関連付いた画素特徴データを取得し、確率モデルへの入力データとすることができる。例えば、一つの入力ノードが一つの分割領域に対応してもよい。この場合、ベイズネットワークの入力ノードの数は、画像の分割領域の数と同一となる。
また、ベイズネットワークにおいて、入次数とノード順を制限するために、更なる制約
が用いられてもよい。例えば、エビデンスノードの入次数は、二つに限定することができる。
一実施形態において、ノードの順序は、構造上の制約として課すことができ、その結果、条件付けアークが低次から高次へと移動できなくなる。
なお、シーン変数の間で課される更なる因果制約があってもよい。例えば、「周辺環境」というシーン変数は車道のタイプに影響するが、逆は成り立たない。別の例では、「周辺環境」というシーン変数は、「運転状況」という変数に影響するが、逆は成り立たない。
結果的に、確率モデルは、ほぼ純粋なベイズ構造に従うが、学習時に行われたモデル選択の結果である追加アークを伴う。学習過程で作成されたアークは、入力変数と出力変数との間で発見された依存関係を表し得る。
一実施形態において、学習モジュール210は、ベイズネットワークを学習させるための仮想的なエビデンスとして、分割領域の画素特徴データを用いることができる。
一例において、仮想的なエビデンスを含むサンプルからベイズネットワークの近似学習を行うための、少なくとも三つの方法が存在する。
第一の方法は、仮想エビデンスの状態ごとの尤度比に準じて各エビデンス行の倍数を生成することにより、ほぼ同等の観察エビデンスデータセットに変換する方法である。
複数の仮想エビデンスノードが存在する場合、仮想エビデンスノード間の依存関係を捕捉する操作により、行セットの組合せ爆発を引き起こしうる。すなわち、仮想エビデンスノード状態の組合せごとの倍数が、状態組合せの尤度に比例して多重化しうる。その複雑度は、すべての仮想エビデンスノードを結合してサンプリング用の一ノードにすることに匹敵する。
同様に、学習モジュール210は、すべての仮想エビデンスノードの組合せからサンプリングを行い、サンプル内の項目に基づいてサンプル行を生成することができる。これは、仮想状態をサンプリングするロジックのようなものである。両手法とも、学習重みを等しくするための方法として、学習セットに複数の行コピーを作成する。あるいは、学習モジュール210が、その尤度に応じて、サンプリングされたトレーニングセットの各行に重みを付けても良い。
第二の方法は、学習された決定論的エビデンスモデルの混合である「マルチネット」を考慮した方法である。これらのモデルは、同じ構造を有し得るため、結果は、尤度によって重み付けされた条件付確率表(CPT)の混合となる。この手法は、混合構成要素の組合せ爆発を被ることがあり、サンプリングによってセットが減少しやすい場合がある。
第三の方法は、仮想エビデンスノードの子として追加された仮想ノードによる、仮想エビデンスを考慮する方法である。当該仮想エビデンスノードは、その親に同等の尤度ベクトルを送るようにインスタンスが生成される。多くの場合、各ケースにおいて、ネットワークに追加された仮想ノード群が生じ、管理できない可能性のある方法を再び生成する。一実施形態において、学習モジュール210は、一つのノード群を有するネットワークを構築し、一つの学習ステップを実行し、その後ノードを次の群で置き換え、学習ステップを繰り返すことができる。なお、その他の方法も採用可能でもある。
本明細書に記載の確率モデルを学習するためのサンプルデータセットが、上記第一の方法におけるさらなる推定となり得る。そこでは、各仮想エビデンスノードを独立してサンプリングすることにより、この問題を、サンプリングされたデータを有する同等の問題に変換することができる。そのため、各ヒストグラムは、当該分布を用いてサンプリングすることにより、そのヒストグラムを推定した従来のエビデンスサンプル群を生成すること
ができる。結果は、行数に、ヒストグラムデータセット内の行ごとのサンプルサイズを掛け合わせた拡張データセットとなる。
結果として生成される学習データセットの詳細は、例えば以下のようになる。
1)5つのシーンラベルによってラベル付けされた、画像の12の領域ヒストグラムの122の行が、元のデータセットとして存在する
2)各領域ヒストグラムが10回サンプリングされ、1220行が生成される
3)1220行によって、5つのラベルと12個の特徴が表された最終データセットが得られる
学習データセットを用いて評価した結果の例を、図7Bに示す。
シーン分類モジュール212は、画像で表現されたシーンを分類するためのルーチンを含むソフトウェアである。
一実施形態において、シーン分類モジュール212、画像で表現されたシーンを分類するために、以下に記す構造、処理、または機能を提供する、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、シーン分類モジュール212は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
シーン分類モジュール212は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
シーン分類モジュール212は、エビデンス生成モジュール208や記憶装置245から、画像内の複数の分割領域に関連する画素特徴データの複数のセットを取得することができる。
また、シーン分類モジュール212は、記憶装置245や学習モジュール210から、確率モデルを表すデータを取得することができる。
シーン分類モジュール212は、以下に詳述するように、複数の画素特徴データと確率モデルのセットに基づいて、画像のシーンを分類することができる。
一実施形態において、複数の画素特徴データのセットは、それぞれが分割領域に対応する複数の尤度ベクトルである。
シーン分類モジュール212は、複数の尤度ベクトルと確率モデルに基づいて、一つ以上のシーン変数に関連づいた分布を決定することができる。
例えば、シーン分類モジュール212は、確率モデルへの入力データとして複数の尤度ベクトルを用いることができ、一つ以上のシーン変数に関連付いた分布を表す確率モデルの出力を生成することができる。
一つ以上のシーン変数に関連付いた分布は、一つ以上のシーン変数の同時分布、一つ以上のシーン変数の条件付き分布、シーン変数ごとの個別分布、またはこれらの組合せを含む。
一実施形態において各シーン変数の分布は、これらが画素タイプの分布に依存するように、他のシーン変数に依存する。これは、同時分布(例えば全てのシーン変数の分布)を形成するシーン変数による。
シーン変数は、シーンのカテゴリを表す変数である。
シーン変数の例として、例えば、周辺環境、道路のタイプ、運転状況、動的環境、道路障害物状況などが挙げられるが、これに限られない。また、各シーン変数は、ラベルのセットを有していてもよい。シーン変数のラベルは、シーン変数に対する確率値を表す値である。
例えば、「道路」というシーン変数は、「カーブと勾配」「自動車専用道」「狭隘」「路肩なし」「駐車車両あり」等といったラベルを持つ。
また、「周辺環境」というシーン変数は、「ゾーニング」「開発区域」「商業地区」「
山岳」「田園」「住宅地」「都市部」等といったラベルを持つ。
また、「運転状況」というシーン変数は、「自転車と歩行者」「交通と混雑度」「障害物なし」等といったラベルを持つ。
また、「動的環境」というシーン変数は、照明や天候といった視程に関するラベル(例えば、逆光による視界不良」「曇り」「晴れ」「天候による視界不良」など)等といったラベルを持つ。
また、「道路障害物状況」というシーン変数は、「障害物なし」、「工事中」、「合流または交差点」、「木の幹や柱」等といったラベルを持つ。
シーン分類モジュール212は、画像におけるシーンの分類を、一つ以上のシーン変数に関連付いた分布に基づいて決定する。
例えば、シーン分類モジュール212は、一つ以上のシーン変数に関連付いた分布に基づいて、各シーン変数の一つのラベルを、画像に割り当てる。
更なる例として、シーン変数に関連する分布が、シーン変数の同時確率分布であると仮定する。当該同時確率分布は、以下のような場合に、高い確率値を有する。
(1)シーン変数「道路」が、第一のラベル「カーブと勾配」であり、
(2)シーン変数「環境」が、第二のラベル「山岳」であり、
(3)シーン変数「運転状況」が、第三のラベル「障害物なし」であり、
(4)シーン変数「動的環境」が、第四のラベル「曇り」であり、
(5)シーン変数「障害物」が、第五のラベル「合流または交差点」であった場合。
この結果、シーン分類モジュール212は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。
別の例において、シーン変数に関連する分布が、各シーン変数の個々の確率分布を含むと仮定する。この場合、
(1)シーン変数「道路」の確率分布は、当該シーン変数の第一のラベルが「カーブおよび勾配」である場合に高い確率値を有する。
(2)シーン変数「環境」の確率分布は、当該シーン変数の第二のラベルが「山岳」である場合に高い確率値を有する。
(3)シーン変数「運転状況」の確率分布は、当該シーン変数の第三のラベルが「山岳」である場合に高い確率値を有する。
(4)シーン変数「動的環境」の確率分布は、当該シーン変数の第四のラベルが「曇り」である場合に高い確率値を有する。
(5)シーン変数「障害物」の確率分布は、当該シーン変数の第五のラベルが「合流または交差点」である場合に高い確率値を有する。
この結果、シーン分類モジュール212は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。
さらなる例として、画像のM個の領域に対応する仮想エビデンスノードを有する確率モデルを用いてシーン分類を行ってもよい。各エビデンスノードは、画素特徴データ(仮想エビデンスなど)を、ラムダメッセージλという形態で受け取ることができ、状態尤度は、Hが提供する比で表される。確率モデルは、ノードのサブセットS={S,・・・S}を有する。このサブセットは、シーン変数ノード群を表し、各シーン変数ノードは別個の状態空間を有する(例えば、各シーン変数は別個のラベル群を有する)。
シーン分類は、
(1)P(S|λ・・・λ)、すなわちM個の分割領域からのλメッセージが適用
された場合のSの同時分布
(2)Sに関する最大事後確率(MAP)構成による同時分布の特徴、または
(3)Sの事後周辺分布
によって表すことができる。
一実施形態において、シーン分類モジュール212は、画像全体のシーンを分類することができる。
例えば、シーン分類モジュール212は、画像によって示されるコンテンツの全体の全体的な印象を決定し、画像を一つ以上のシーンカテゴリのラベルに分類するため、全体的な印象を使用することができる。
ここに記載された、この全体的なシーン分類は、シーンの一部のみに適用したり、シーンの一部のオブジェクトなどの、シーンを構成する一部のみを識別した結果に依存する他の分類とは異なる。
一実施形態において、シーン分類モジュール212は、シーン分類の性能を評価することができる。例えば、仮のデータセットについてのテストは、シーン変数の分類のうち、良好な正確度(Accuracy)(例えば70%を超える正確度)を示す。
評価結果の例を、図7Bに示す。
シーン利用アプリケーション117は、ユーザに対してアドバイスまたはアシストするための様々なアプリケーションにおいて、シーンを利用するためのルーチンを含むソフトウェアである。
例えば、シーン利用アプリケーション117は、アプリケーションマーケットからクライアント装置115や移動プラットフォーム135にダウンロードされた「アプリ」であってもよく、車両における、インフォマティックス・ソフトウェアシステムであってもよい。
また、クライアント装置115等で動作するネイティブアプリケーションであってもよい。
また、ブラウザからアクセスされるウェブベースのアプリケーション等であってもよい。
シーン利用アプリケーション117は、ナビゲーション、マッピング、ソーシャルネットワーク、コミュニケーション、おすすめ、メディアなどを含む、様々な異なるアプリケーションを含み、または、表したものであってもよい。
一実施形態において、シーン利用アプリケーション117は、ユーザに対してアドバイスまたはアシストするための様々なアプリケーションにおいて、シーンを利用するため、以下に記す構造、処理、または機能を提供する、プロセッサ235で実行可能な命令の集合を含む。また、一実施形態において、シーン利用アプリケーション117は、コンピュータ200のメモリ237に格納され、プロセッサ235によってアクセスされ、実行されてもよい。
シーン利用アプリケーション117は、プロセッサ235およびコンピュータ200の他の構成要素と協働して通信するように最適化されてもよい。
一実施形態において、シーン利用アプリケーション117は、シーン分類モジュール212や記憶装置245から分類された画像のシーンを取得し、ユーザにシーン分類結果を提示するユーザインタフェースを提供するために、グラフィックデータを生成することができる。シーン分類結果は、画像の分類されたシーンを表す。
シーン利用アプリケーション117は、クライアント装置115や移動プラットフォーム135にグラフィックデータを送信し、ユーザインタフェースをユーザに提供させることができる。
また、シーン利用アプリケーション117は、他のユーザインタフェースをユーザに提供するためのグラフィックデータを生成してもよい。
シーン分類の目的のひとつに、シーン変数に割り当てられたラベルから、現在のビューの概略を取得することがある。
例えば、シーン分類は、「あなたが見ているものに基づいて、場所をどのように説明しますか?」といった質問に対する答えを提供することができる。
一実施形態では、シーン利用アプリケーション117は、シーンに特有なおすすめをユーザに提供することができる。
例えば、分類されたシーンは、環境におけるコンテキストを提供することができ、シーン利用アプリケーション117は、ユーザに対する適切なおすすめを決定するために分類されたシーンを利用することができる。
例えば、個別化されたおすすめを作成する際に、分類されたシーンにおけるコンテキストを用いて、「ブリトーを食べたくありませんか?」や「ここは、それを見つけられる場所ではありません」などのリクエストの実際性を判断することができる。
一実施形態において、シーン利用アプリケーション117は、「シーン拡張検索」をユーザに提供することができる。
例えば、シーン利用アプリケーション117は、「市街地でワイナリーを見つける」「僻地でレストランを見つける」「行ったことのない住宅地にある、混んでいない公園を見つける」等といったような、ローカルな環境の特徴を用いて検索を補足することができる。
一実施形態において、シーン利用アプリケーション117は、現在の環境における好ましさについてのスコアを決定することができる。
経路を選択する際にドライバーは、しばしば当該経路における快適さを考慮に入れる。
例えば、ドライバーは、「この場所からの眺めはどうか?」「この地域の日当たりや日陰はどの程度か?」「環境における自然と人造物の割合はどの程度か?」等を考慮する場合がある。
好ましい場所についての個々のドライバーの評価があれば、シーン利用アプリケーション117は、他の望ましい経路をドライバーに提案してもよい。当該望ましい経路は、最も短い、または、最も速いルートとは異なる場合がある。
一実施形態において、シーン利用アプリケーション117は、クラウドをソースとしたシーン特徴の集約結果をユーザに提供することができる。
シーン利用アプリケーション117は、近隣箇所に関するクラウドソーシングされた情報を収集して、ある地域の全体像を形成することができる。
本例は、上述した例の拡張である。
クラウドソースのデータを用いることで、ドライバーは、例えば「道路上の人の群れがどこまで延びていますか?(例えばロードレースやパレードなどの場合)」という質問に対する回答といったような、集約された状況についての情報を近隣の車両から得ることができる。
ここに記述されるシーン分類技術は、オブジェクト認識とは多くの点において異なる。オブジェクト認識技術は、画像内の物体の存在、識別情報、姿勢などを取得するタスクであるが、本明細書に記載のシーン分類は、画像全体に対して推論を行うタスクである。一方、オブジェクト認識技術は、オブジェクトと、オブジェクト以外(背景)を区別することにフォーカスを置いている。
オブジェクト認識技術と比較して、シーン分類技術は、画像を全体的に処理することによって、計算コストの削減を達成することができる。
例えば、シーン分類技術は、あらかじめ定義されたカテゴリのセットから、画像を「屋内」、「屋外」、「都市部」、「地方部」などの種類に割り当てることができる。
シーン分類は、「カテゴリのラベルに終端部を割り当てること」とみなすことができる。カテゴリでは、画像に複数のラベル群にわたる値を割り当てることができ、終端部はいくつかのシーン変数にわたる同時分布となり得る。
(処理フローチャート)
図3は、画像からシーンを推定する方法300のフローチャートである。
まず、画素分類モジュール206が、カメラ107、記憶装置245、画像プロセッサ202またはシステム100のもう一つの構成要素から、画像を表すデータを取得する(ステップ302)。
また、分割モジュール204が、シーンに対応する分割領域を決定する(ステップ304)。分割領域の形状は、前述したように、一つ以上のコンテキスト属性に基づいて決定される。分割レイアウトは複数の分割領域から構成され、各分割領域は、シーンごとに対応するものが用いられる。
画像はシーンを表すものであり、その取得タイミングは、分割領域を決定する前であってもよいし、決定中、または決定後であってもよい。
次に、画素分類モジュール206が、各分割領域の画素を一つ以上の画素タイプに分類する(ステップ306)。例えば、画素分類モジュール206は、分割領域を画像に適用し(例えば整列させる)、どの画素がどの分割領域に属するか決定したうえで、画像の各分割領域に含まれる画素を、一つ以上の画素タイプに分類する。
例えば、画素分類モジュール206は、予め定められた8つの画素タイプから、分割領域の各画素を、一つの画素タイプに分類することができる。
次に、各分割領域について、エビデンス生成モジュール208が、当該分割領域内の画素の画素タイプに基づいて、分割領域に含まれる画像の一部分に対応する画素特徴データのセットを決定する(ステップ308)。
次に、シーン識別モジュール212が、分割領域に対応する各々の画素特徴データのセットに基づいて、画像のシーンを分類する(ステップ310)。
例えば、シーン識別モジュール212は、複数の分割領域に関連付いた画素特徴データの複数のセットを、確率モデルへの入力として使用し、当該確率モデルの出力に基づいて画像のシーンを分類することができる。
図4Aおよび図4Bは、画像からシーンを推定するもう一つの方法400のフローチャートである。
図4Aを参照して説明する。
まず、学習モジュール210が、学習データセットに基づいて、入力ノードおよび出力ノードを含む確率モデルの学習を行う(ステップ402)。
入力ノードは、画素特徴データを確率モデルに入力するための仮想エビデンスノードである。また、出力ノードは、シーン変数に関連付いた分布を出力するシーン変数ノードである。
次に、カメラ107が、移動プラットフォーム135の周辺環境(例えばシーン)を表す画像(例えばビデオフレームや静止画像)を取得する(ステップ404)。
次に、画像プロセッサ202が、カメラ107、記憶装置245やシステム100の他の構成要素から、画像を表すデータを取得する(ステップ405)。
なお、画像プロセッサ202が、画像を処理する前に、画像に含まれる画素を減らしてもよい(ステップ406)。例えば、画像プロセッサ202は、取得した画像をダウンサンプルして、ダウンサンプル画像を生成することができる。
次に、分割モジュール204が、画像に対応する分割レイアウトを、移動プラットフォーム135(例えば車両)の一つ以上のコンテキスト属性や、移動プラットフォーム135の移動環境に基づいて決定する(ステップ408)。
次に、画素分類モジュール206が、画像の各分割領域に含まれる各画素を、画素タイプのセットの中からいずれかの画素タイプに分類する(ステップ410)。
次に、エビデンス生成モジュール208が、分割領域ごとに、分割領域で分割された画像の一部を特徴付けるデータである、画素タイプのヒストグラムを生成することにより、画素タイプのセットと関連付いた画素タイプの分布を生成する(ステップ412)。
図4Bを参照して説明する。
次に、エビデンス生成モジュール208が、分割領域ごとに、生成したヒストグラムに基づいて尤度ベクトルを生成する(ステップ414)。
次に、シーン分類モジュール212が、分割領域に関連付いた尤度ベクトルと、確率モデルに基づいて、一つ以上の、シーン変数に関連付いた分布を決定する(ステップ416)。
次に、シーン分類モジュール212が、当該分布を用いて、画像のシーンを決定する(ステップ418)。
また、シーン利用アプリケーション117が、様々なシーンアプリケーションにおいて、分類されたシーンを適用する(ステップ420)。
図5を参照して、ステップ420についてより詳しく説明する。
図5は、様々なアプリケーションにおいて、分類されたシーンを利用する方法420のフローチャートである。
まず、シーン利用アプリケーション117が、記憶装置245やシーン分類モジュール212から、分類されたシーンを表すデータを取得する(ステップ502)。
次に、シーン利用アプリケーション117が、ユーザにおすすめを提供するか否かを決定する(ステップ504)。ここで、おすすめをユーザに提供する場合、方法420はステップ506に遷移し、それ以外の場合、方法420はステップ508に遷移する。
ステップ506では、シーン利用アプリケーション117が、ユーザに対するおすすめを行うためのコンテキストを提供するために、分類されたシーンを適用する。その後、処理はステップ508に遷移する。
次に、ステップ508で、シーン利用アプリケーション117が、ユーザのために検索を実行するか否かを決定する。ここで、ユーザのために検索を実行する場合、方法420はステップ510へ遷移し、それ以外の場合、方法420はステップ512へ遷移する。
ステップ510では、シーン利用アプリケーション117が、ローカル環境を用いた検索を補完するために、分類されたシーンを利用する。その後、方法420はステップ512へ遷移する。
次に、ステップ512で、シーン利用アプリケーション117が、シーンを評価するか否かを決定する。ここで、シーンを評価する場合、方法420はステップ514へ遷移する。それ以外の場合、方法420はステップ516へ遷移する。
ステップ514では、シーン利用アプリケーション117が、分類されたシーンに関連した場所における、現在の状況を評価する。その後、方法420はステップ516へ遷移する。例えば、シーン利用アプリケーション117は、シーンにおける環境の快適さを評価することができる。
次に、ステップ516では、シーン利用アプリケーション117は、他のユーザから得たクラウドソースの情報の有無を判断する。ここで、クラウドソースの情報を利用する場合、方法420はステップ518へ遷移する。それ以外の場合、方法420は終了、または、上述の処理を繰り返す。
ステップ518では、シーン利用アプリケーション117が、地域の全体像を形成するために、クラウドソースの情報を適用する。その後、方法420は終了、または、上述の処理を繰り返す。
(グラフィック表現)
図6Jは、画像における画素レベルの分類を例示するグラフィック表現600である。本例では、画像中の画素1と画素2が、「空」という画素タイプに分類され、画素3と画素5は、「樹木」という画素タイプに分類され、画素4と画素6は、「建物」という画素タイプに分類される。
図6Kは、分割レイアウト655を例示するグラフィック表現である。例示されたように、分割レイアウトは、中心点656で収束する12個の領域を含む。12個の領域の各々は、中心点656から、画像の端に対応する端辺に向かって延びている。
図6Jから図6Kにおける、画素番号1〜6は、いくつかの例において一致する。
図8Bは、確率モデルを例示するグラフィック表現820である。
確率モデルは、複数の入力ノード822と、複数の出力ノード824a…824nを含む。各々の入力ノード822は、画像における分割領域にそれぞれ対応しており、確率モデルへの入力データとして、当該分割領域に関連した画素特徴データのセットを用いる。
各々の出力ノード824は、シーン変数を表し、確率モデルは、シーン変数と関連した一つ以上の分布を出力することができる。
出力される分布は、シーン変数の同時分布、各シーン変数の個々の分布、シーン変数の条件つき分布、またはその組合せなどである。
2つのノードをつないでいるラインまたはアーク(例えば、ノード824aとノード824nを繋ぐライン826、ノード824aとノード829を繋ぐライン828)は、二つのノード間の依存または関連を示す。
ここに示した確率モデルの構造は一例である。
さらなる実施形態において、確率モデルは、異なる入力ノード、異なる出力ノード、および、ノード間を繋ぐ異なるラインを持っていてもよい。
図7Aは、混同行列を例示するグラフィック表現700である。
確率モデルの学習過程において、シーン分類モジュール212は、シーン変数ごとに混同行列を生成し、全てのシーン変数に対応する混同行列を、シーン分類のパフォーマンスを評価するために使用することができる。
図7Aに示したように、シーン変数に関連付いた混同行列は、予測されたラベル702と真のラベル704の数を表す行列である。
混同行列の行は、真のラベル704であり、混同行列の列は、予測されたラベル702である。
予測されたラベルは、画像における、推定されたラベルである。また、真のラベルは、画像における、実際のラベルである。
予測されたラベルが真のラベルと同一であれば、シーン変数についての画像の分類は正しいことになる。さもなければ、シーン変数についての画像の分類は誤っているということになる。
例えば、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」と同じものであった場合、「カーブと勾配」を予測した画像の分類は正しいことになる。これに対し、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」とは異なる「狭隘」というラベルであった場合、「狭隘」を予測した画像の分類は誤っていることになる。
混同行列の対角要素は、予測したラベルが正しかった数を意味する。
例えば、「50」という値を有する第一の対角要素は、シーン分類モジュール212が、ラベルを「1」と予測し、実際のラベルが「1」であったことが50回あったことを表す。
非対角要素は、分類エラーを表す。例えば、「2」という値を有する非対角要素は、シーン分類モジュール212が、ラベルを「2」と予測し、実際のラベルが「1」であった
ことが2回あったことを表す。
また、「4」という値を有する非対角要素は、シーン分類モジュール212が、ラベルを「1」と予測し、実際のラベルが「2」であったことが4回あったことを表す。
各列の合計は、対応するラベルが、画像に対応するラベルとして予測されたカウント数を表す。
例えば、列708は、ラベル1として予測された回数が59回あり、そのうち、真のラベルがラベル1であった回数が50回あり、ラベル2であった回数が4回あり、ラベル3であった回数が5回あったことを表す。
各行の合計は、対応するラベルが、画像の真のラベルであった総カウント数を表す。
例えば、行706は、真のラベルがラベル1であった回数が55回あり、そのうち、予測されたラベルがラベル1であった回数が50回あり、ラベル2であった回数が2回あり、ラベル3であった回数が3回あったことを表す。
ラベルの再現率(Recall)やカバレッジは、正しいラベルに分類されたケースと、全ラベルの分類ケースとの比率である。
ラベルに対応する再現率は、以下の比率として計算できる。
(1)ラベルに関連付いた対角要素
(2)ラベルに関連付いた行の合計
例えば、ラベル1に対応する再現率は、ラベル1に関連した対角エントリ「50」と、例えば行706の合計との間の比率(例えば、50/(50+2+3)=0.91)として計算できる。
ラベルに対応する再現率が高い値であることは、ラベルの分類がより正確なことを示す。
ラベルに対応する適合率(Precision)は、以下の比率として計算できる。
(1)ラベルに関連付いた対角要素
(2)ラベルに関連付いた列の合計
例えば、ラベル1に対応する適合率は、ラベル1に関連した対角要素「50」と、例えば列708の合計の間の比率(例えば、50/(50+4+5)=0.85)として計算できる。
ラベルに対応する適合率が高い値であることは、ラベルの分類がより正確なことを示す。
図7Bは、シーン分類の評価結果を例示するグラフィック表現750である。
表1は、「周辺環境」というシーン変数に関連付いた異なるラベル(例えば、山岳、田園、住宅地、都市部)に対応する再現率と適合率を例示する。
表2は、「道路」というシーン変数に関連付いた異なるラベル(例えばカーブと勾配、自動車専用道、狭隘、路肩なし、駐車車両あり)に対応する再現率と適合率を例示する。
表3は、「運転状況」というシーン変数に関連付いた異なるラベル(例えば自転車と歩行者、交通と混雑、障害物なし)に対応する再現率と適合率を例示する。
表4は、「道路障害物状況」というシーン変数に関連付いた異なるラベル(例えば障害物なし、工事中、合流と交差点、分岐)に対応する再現率と適合率を例示する。
表1と表4と比較すると、「周辺環境」というシーン変数のラベルの再現率と適合率の平均が、「道路障害物状況」というシーン変数のラベルの再現率と適合率の平均よりも優れていることがわかる。これは、シーン変数「道路障害物状況」の分類が、単に走行車線における細部を考慮するだけなのに対し、シーン変数「周辺環境」の分類は、画像全体を考慮するためである。表3において、自転車と歩行者は、画像中の小さな領域に現れるだけであるため、ラベル「自転車と歩行者」に対応する再現率は低い。
シーン分類モジュール212は、周辺予測の精度を評価することに加え、図8Aに描かれているベイズネットワークによって学習された構造について観察することもできる。
図8Aは、ベイズネットワークのような確率モデルを例示するグラフィック表現800である。この例では、シンボルS_1〜S_8を含む、802,806,808といった各ブロックが、確率モデルの入力ノードを表し、分割領域ごとに割り当てられた画素特徴データ(例えば仮想的なエビデンス)である。
図中の入力ノードは、画像中の対応する分割領域のおおよその位置に配置されている。
また、シンボルS_1〜S_8は、例えば、木、建物、空、葉、建築物、路面、車線、歩道、車両、歩行者などの異なる画素タイプを表す。
各々のブロックは、それぞれの分割領域における画素タイプの割合を表す値を含む。例えば、ブロック802では、画素タイプ「S_1」は3.4%という値を持ち、画素タイプ「S_2」は2.8%という値を持つ。
各々のブロックのタイトルにある数値は、中心点からの分割線の角度を表す。
例えば、「N_BL_60_80」は、左側の60度から80度の間にある分割領域を表す。また、「N_BR_60_80」は、右側の60度と80度の間にある分割領域を表す。
灰色で塗られた、ブロック804のようなブロックは、確率モデルの出力ノードであり、「道路」「周辺環境」「運転状況」「動的環境」「道路障害物状況」のようなシーン変数に対応している。
各々のシーン変数は、ラベルのセットと、当該ラベルに対応する値を持つ。
例えば、ブロック804のシーン変数「動的環境」は、「逆光による視界不良」が3.7%という確率値を持ち、「曇り空」が77.8%という確率値を持ち、「晴れ」が17.3%という確率値を持ち、「天候による視界不良」が1.2%の確率値を持つことを表す。
確率モデルを連結するアークまたはラインは、どの入力ノードがどのシーン変数に関連するかを示す。これらのアークは、エビデンスノードの入次数が2つに制限されているため、比較的疎である。
学習モジュール210で選択されるアークは、分割領域の位置と、異なるシーン変数との間に強い関連を示す。例えば、「運転状況」シーン変数が、画像の基部にある分割領域に繋がっており、「環境」シーン変数が、画像の周辺部にある分割領域に繋がっている場合、強い関連が示される。
図の下部にある二つの分割領域(ブロック806、808など)は、各領域の入来アークが他の分割領域のものであることから、その関連性は限られており、各領域のエビデンスは完全に隣接領域によってサポートされていることを示している。これらのアークまたはラインに沿って進んでいくと、区画依存という点から、分割領域から学習されるアークは一つだけであり、そのシーンに寄与したエビデンスは、この事例を除くすべての事例において、条件付きで独立していることを表している。
シーン変数の下位ネットワークはさらに接続されており、シーン変数間の強い依存関係を表している。例えば、「道路」というシーン変数における「カーブと勾配」は、「周辺環境」というシーン変数における「山」に対して強い相関を示す。
図9は、画像からシーンを推定する処理を例示するグラフィック表現900である。
画像によってどのようなシーンが表されているか不明な状態で、分割モジュール204は、一つ以上のコンテキスト属性(例えば、車両、車両の移動環境など)に基づいて、画像の分割領域を形成する分割レイアウト902を決定する。
画素分類モジュール206は、画像に分割領域を適用したうえで、ブロック904に示すように、一つ以上の画素タイプに各分割領域内の画素を分類する。
また、エビデンス生成モジュール208は、ブロック906に示すように、分割領域ごとに異なる、画素タイプのヒストグラムを生成する。
また、シーン分類モジュール212は、ブロック908に示すように、各々の分割領域のヒストグラムに基づいてシーン分類を実行する。例えば、シーン分類モジュール212は、所定のシーンのタイプのヒストグラムとの比較に基づいてシーン分類を行い、「山と乾燥地形」というシーンを決定する。
図10は、画素レベルの分類のもう一つの例を示すグラフィック表現1000である。
画像プロセッサ202は、オリジナル画像1002を、96ピクセル×54ピクセルの解像度にダウンサンプルすることができる。
画像内の車線に隣接するバリア1006aおよび1006bは、システムを学習させるための重要な特徴である。
画像1004は、ダウンサンプルされた画像に関連付いた画素タイプを示す。画像1004の中心から発散している線は、画像に適用されるくさび形の分割領域を表す。
また、画像1004の色(濃度)は、画素タイプを示す。例えば、領域1008は葉を表し、領域1010aおよび1010bはバリアを表す。
以上の説明では、本発明を十分に理解できるように、多くの詳細について説明した。しかしながら、各実施形態はこれらの具体的な詳細無しでも良いことは当業者にとって明らかであろう。また、説明が不明瞭になることを避けるために、構造や装置をブロック図の形式で表すこともある。例えば、実施形態は、ユーザインタフェースおよび特定のハードウェアとともに説明される。しかし、ここでの説明は、データおよびコマンドを受信する任意のタイプの計算装置および任意の周辺機器について適用できる。
本明細書における「1つの実施形態」または「別の実施形態」等という用語は、その実施形態と関連づけて説明される特定の特徴・構造・性質が少なくとも本発明の一つの実施形態に含まれることを意味する。「1つの実施形態における」等という用語は本明細書内で複数用いられるが、これらは必ずしも同一の実施形態を示すものとは限らない。
本明細書の詳細な説明の一部は、非一時的(non-transitory)なコンピュータ可読記憶媒体に記憶されたデータビットに対する動作のアルゴリズムおよび記号的表現として提供される。これらのアルゴリズム的な説明および表現は、データ処理技術分野の当業者によって、他の当業者に対して自らの成果の本質を最も効果的に説明するために用いられるものである。なお、本明細書において(また一般に)アルゴリズムとは、所望の結果を得るための論理的な手順を意味する。処理のステップは、物理量を物理的に操作するものである。必ずしも必須ではないが、通常は、これらの量は記憶・伝送・結合・比較およびその他の処理が可能な電気的または磁気的信号の形式を取る。通例にしたがって、これらの信号をビット・値・要素・エレメント・シンボル・キャラクタ・項・数値などとして称することが簡便である。
なお、これらの用語および類似する用語はいずれも、適切な物理量と関連付いているものであり、これら物理量に対する簡易的なラベルに過ぎないということに留意する必要がある。以下の説明から明らかなように、特に断らない限りは、本明細書において「処理」「計算」「コンピュータ計算(処理)」「判断」「表示」等の用語を用いた説明は、コンピュータシステムや類似の電子的計算装置の動作および処理であって、コンピュータシステムのレジスタやメモリ内の物理的(電子的)量を、他のメモリやレジスタまたは同様の情報ストレージや通信装置、表示装置内の物理量として表される他のデータへ操作および変形する動作および処理を意味する。
本発明は、本明細書で説明される動作を実行する装置にも関する。この装置は要求され
る目的のために特別に製造されるものであっても良いし、汎用コンピュータを用いて構成しコンピュータ内に格納されるプログラムによって選択的に実行されたり再構成されたりするものであっても良い。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な、例えばフロッピー(登録商標)ディスク・光ディスク・CD−ROM・MOディスク・磁気ディスクなど任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体などの、非一時的なコンピュータ可読記憶媒体に記憶される。
発明の具体的な実施形態は、完全にハードウェアによって実現されるものでも良いし、完全にソフトウェアによって実現されるものでも良いし、ハードウェアとソフトウェアの両方によって実現されるものでも良い。好ましい実施形態は、ソフトウェアによって実現される。ここでソフトウェアとは、ファームウェア、常駐ソフトウェア、マイクロコードやその他のソフトウェアを含むものである。
さらに、ある実施形態は、コンピュータが利用あるいは読み込み可能な記憶媒体からアクセス可能なコンピュータプログラムプロダクトの形態を取る。この記憶媒体は、コンピュータや任意の命令実行システムによってあるいはそれらと共に利用されるプログラムコードを提供する。コンピュータが利用あるいは読み込み可能な記憶媒体とは、命令実行システムや装置によってあるいはそれらと共に利用されるプログラムを、保持、格納、通信、伝搬および転送可能な任意の装置を指す。
プログラムコードを格納・実行するために適したデータ処理システムは、システムバスを介して記憶素子に直接または間接的に接続された少なくとも1つのプロセッサを有する。記憶素子は、プログラムコードの実際の実行に際して使われるローカルメモリや、大容量記憶装置や、実行中に大容量記憶装置からデータを取得する回数を減らすためにいくつかのプログラムコードを一時的に記憶するキャッシュメモリなどを含む。
入力/出力(I/O)装置は、例えばキーボード、ディスプレイ、ポインティング装置などであるが、これらはI/Oコントローラを介して直接あるいは間接的にシステムに接続される。
システムにはネットワークアダプタも接続されており、これにより、私的ネットワークや公共ネットワークを介して他のデータ処理システムやリモートにあるプリンタや記憶装置に接続される。モデム、ケーブルモデム、イーサネット(登録商標)は、現在利用可能なネットワークアダプタのほんの一例である。
最後に、本明細書において提示されるアルゴリズムおよび表示は特定のコンピュータや他の装置と本来的に関連するものではない。本明細書における説明にしたがったプログラムを有する種々の汎用システムを用いることができるし、また要求された処理ステップを実行するための特定用途の装置を製作することが適した場合もある。これら種々のシステムに要求される構成は、以下の説明において明らかにされる。さらに、本発明は、特定のプログラミング言語と関連づけられるものではない。本明細書で説明される本発明の内容を実装するために種々のプログラミング言語を利用できることは明らかであろう。
実施形態の前述の説明は、例示と説明を目的として行われたものである。したがって、開示された実施形態が本発明の全てではないし、本発明を上記の実施形態に限定するものでもない。本発明は、上記の開示にしたがって、種々の変形が可能である。本発明の範囲は上述の実施形態に限定解釈されるべきではなく、特許請求の範囲にしたがって解釈されるべきである。本発明の技術に詳しい者であれば、本発明はその思想や本質的特徴から離
れることなくその他の種々の形態で実現できることを理解できるであろう。同様に、モジュール・処理・特徴・属性・方法およびその他の本発明の態様に関する名前付けや分割方法は必須なものでものないし重要でもない。また、本発明やその特徴を実装する機構は異なる名前や分割方法や構成を備えていても構わない。さらに、当業者であれば、モジュール・処理・特徴・属性・方法およびその他の本発明の態様は、ソフトウェア、ハードウェア、ファームウェアもしくはこれらの組合せとして実装できることを理解できるであろう。また、本発明をソフトウェアとして実装する場合には、モジュールなどの各要素は、どのような様式で実装されても良い。例えば、スタンドアローンのプログラム、大きなプログラムの一部、異なる複数のプログラム、静的あるいは動的なリンクライブラリー、カーネルローダブルモジュール、デバイスドライバー、その他コンピュータプログラミングの当業者にとって既知な方式として実装することができる。さらに、本発明の実装は特定のプログラミング言語に限定されるものではないし、特定のオペレーティングシステムや環境に限定されるものでもない。以上のように、上記の本発明の説明は限定的なものではなく例示的なものであり、本発明の範囲は添付の特許請求の範囲にしたがって定められる。
101 サーバ
107 カメラ
109 推定アプリケーション
115 クライアント装置
117 シーン利用アプリケーション
135 移動プラットフォーム
202 画像プロセッサ
204 分割モジュール
206 画素分類モジュール
208 エビデンス生成モジュール
210 学習モジュール
212 シーン分類モジュール

Claims (25)

  1. コンピュータが行うシーン推定方法であって、
    画像を取得する画像取得ステップと、
    前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、
    前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、
    前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、
    前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、
    を含む、シーン推定方法。
  2. 前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
    請求項1に記載のシーン推定方法。
  3. 前記一つ以上の要素は、移動プラットフォームの動きを含み、
    前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
    請求項2に記載のシーン推定方法。
  4. 前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
    請求項1から3のいずれかに記載のシーン推定方法。
  5. 少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
    請求項1から4のいずれかに記載のシーン推定方法。
  6. 前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
    請求項5に記載のシーン推定方法。
  7. 前記中心点は、予測されたエピ極である、
    請求項6に記載のシーン推定方法。
  8. 前記各分割領域は、前記中心点から画像の端に向けて延出する、
    請求項5から7のいずれかに記載のシーン推定方法。
  9. 前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
    請求項1から8のいずれかに記載のシーン推定方法。
  10. 前記画像に対応する前記分割領域は5つ以上である、
    請求項1から9のいずれかに記載のシーン推定方法。
  11. 前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類
    する、
    請求項1から10のいずれかに記載のシーン推定方法。
  12. 前記シーン分類ステップは、
    各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、
    前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含む、
    請求項1から11のいずれかに記載のシーン推定方法。
  13. 請求項1から12のいずれかに記載のシーン推定方法の各ステップをコンピュータに実行させるためのプログラム。
  14. 画像を取得する画像取得手段と、
    前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、
    前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、
    前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、
    前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、
    を有する、シーン推定装置。
  15. 前記分割手段は、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
    請求項14に記載のシーン推定装置。
  16. 前記一つ以上の要素は、移動プラットフォームの動きを含み、
    前記分割手段は、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
    請求項15に記載のシーン推定装置。
  17. 前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
    請求項14から16のいずれかに記載のシーン推定装置。
  18. 少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
    請求項14から17のいずれかに記載のシーン推定装置。
  19. 前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
    請求項18に記載のシーン推定装置。
  20. 前記中心点は、予測されたエピ極である、
    請求項19に記載のシーン推定装置。
  21. 前記各分割領域は、前記中心点から画像の端に向けて延出する、
    請求項18から20のいずれかに記載のシーン推定装置。
  22. 前記画像取得手段は、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
    請求項14から21のいずれかに記載のシーン推定装置。
  23. 前記画像に対応する前記分割領域は5つ以上である、
    請求項14から22のいずれかに記載のシーン推定装置。
  24. 前記シーン分類手段は、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類する、
    請求項14から23のいずれかに記載のシーン推定装置。
  25. 前記シーン分類手段は、
    各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定し、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定する、
    請求項14から24のいずれかに記載のシーン推定装置。
JP2014107335A 2013-05-31 2014-05-23 シーン推定方法およびシーン推定装置 Active JP6299427B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361829980P 2013-05-31 2013-05-31
US61/829,980 2013-05-31
US14/171,677 2014-02-03
US14/171,677 US9129161B2 (en) 2013-05-31 2014-02-03 Computationally efficient scene classification

Publications (2)

Publication Number Publication Date
JP2014235737A true JP2014235737A (ja) 2014-12-15
JP6299427B2 JP6299427B2 (ja) 2018-03-28

Family

ID=51985177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014107335A Active JP6299427B2 (ja) 2013-05-31 2014-05-23 シーン推定方法およびシーン推定装置

Country Status (2)

Country Link
US (1) US9129161B2 (ja)
JP (1) JP6299427B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157201A (ja) * 2016-02-29 2017-09-07 トヨタ自動車株式会社 人間を中心とした場所認識方法
JP2019095956A (ja) * 2017-11-21 2019-06-20 株式会社デンソー 勾配変化検出装置、方法及びプログラム、並びに、車両
WO2019235116A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
JP2021532512A (ja) * 2018-07-17 2021-11-25 エヌビディア コーポレーション 自律運転マシンのための回帰ベースの線分検出
JP2022504457A (ja) * 2018-10-24 2022-01-13 ウェイモ エルエルシー 自律車両の信号機検知および車線状態認識

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013280203A1 (en) * 2013-12-24 2015-07-09 Canon Kabushiki Kaisha Method of classifying objects in scenes
US20150262198A1 (en) * 2014-03-13 2015-09-17 GM Global Technology Operations LLC Method and apparatus of tracking and predicting usage trend of in-vehicle apps
KR102267871B1 (ko) * 2014-09-03 2021-06-23 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
EP3238015A4 (en) * 2014-12-22 2019-01-23 Robert Bosch GmbH VISUAL CONTEXT SENSITIVE SYSTEM BASED ON A FIRST PERSON CAMERA
CN104834912B (zh) * 2015-05-14 2017-12-22 北京邮电大学 一种基于图像信息检测的天气识别方法及装置
WO2016179830A1 (en) * 2015-05-14 2016-11-17 Intel Corporation Fast mrf energy optimization for solving scene labeling problems
US9430840B1 (en) * 2015-07-23 2016-08-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting an image based on motion vanishing points
CN105261018B (zh) * 2015-10-14 2017-11-28 山东交通学院 基于光学模型和暗原色先验理论的能见度检测方法
CN106651748B (zh) * 2015-10-30 2019-10-22 华为技术有限公司 一种图像处理方法与图像处理装置
JP6815743B2 (ja) * 2016-04-15 2021-01-20 キヤノン株式会社 画像処理装置及びその方法、プログラム
US9928434B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Appartuses, systems, and methods for determining when a vehicle occupant is using a mobile telephone
US9928433B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for determining when a vehicle operator is texting while driving
US10721473B2 (en) * 2016-07-25 2020-07-21 Honeywell International Inc. Systems and methods for adjusting the frame rate of transmitted video based on the level of motion in the video
DE102016124074A1 (de) * 2016-12-12 2018-06-14 Connaught Electronics Ltd. Ermitteln einer Befahrbarkeit eines Fahrbahnabschnitts anhand eines Bildes
US20180260759A1 (en) * 2017-03-07 2018-09-13 Mighty AI, Inc. Segmentation of Images
US10209089B2 (en) 2017-04-03 2019-02-19 Robert Bosch Gmbh Automated image labeling for vehicles based on maps
US10319225B2 (en) * 2017-05-24 2019-06-11 Toyota Motor Engineering & Manufacturing North America, Inc. System, method, and computer-readable storage medium for determining road type
JP2019079381A (ja) * 2017-10-26 2019-05-23 トヨタ自動車株式会社 機械学習システム及び交通情報提供システム
US11650059B2 (en) * 2018-06-06 2023-05-16 Toyota Research Institute, Inc. Systems and methods for localizing a vehicle using an accuracy specification
WO2020014683A1 (en) * 2018-07-13 2020-01-16 Kache.AI Systems and methods for autonomous object detection and vehicle following
JP6542445B1 (ja) 2018-07-31 2019-07-10 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
CN110858405A (zh) * 2018-08-24 2020-03-03 北京市商汤科技开发有限公司 车载摄像头的姿态估计方法、装置和***及电子设备
US11238628B2 (en) * 2018-08-27 2022-02-01 Adobe Inc. Intelligent context-based image recommendations
TWI691930B (zh) * 2018-09-19 2020-04-21 財團法人工業技術研究院 基於神經網路的分類方法及其分類裝置
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
EP3867136A4 (en) * 2018-10-19 2022-08-03 Neutron Holdings, Inc. RECOGNITION OF TYPES OF DRIVING CORRIDORS WHICH PERSONAL MOBILITY VEHICLES TRAVEL
JP7114082B2 (ja) * 2019-03-20 2022-08-08 株式会社アクセルスペース 情報処理装置、情報処理方法及びプログラム
JP6651189B1 (ja) 2019-03-29 2020-02-19 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
JP6607589B1 (ja) 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP6607590B1 (ja) 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
US11797089B2 (en) * 2019-07-29 2023-10-24 Lyft, Inc. Systems and methods for sidewalk detection for personal mobility vehicles
US11430240B2 (en) * 2020-05-06 2022-08-30 Volvo Car Corporation Methods and systems for the automated quality assurance of annotated images
US11755939B2 (en) * 2020-06-24 2023-09-12 Microsoft Technology Licensing, Llc Self-supervised self supervision by combining probabilistic logic with deep learning
US20220019920A1 (en) * 2020-07-16 2022-01-20 Raytheon Company Evidence decay in probabilistic trees via pseudo virtual evidence
CN112152739B (zh) * 2020-09-24 2021-05-28 清华大学 卫星星座的干扰概率分布计算方法及装置
TW202232437A (zh) * 2021-02-09 2022-08-16 阿物科技股份有限公司 圖像分類與標示方法及系統
US11688156B2 (en) 2021-06-23 2023-06-27 Black Sesame Technologies Inc. Scene recognition based on labeled feature vectors of an image
CN116309641B (zh) * 2023-03-23 2023-09-22 北京鹰之眼智能健康科技有限公司 图像区域获取***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072987A (ja) * 2005-09-09 2007-03-22 Denso Corp 環境認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8670592B2 (en) * 2008-04-24 2014-03-11 GM Global Technology Operations LLC Clear path detection using segmentation-based method
US8260050B2 (en) * 2008-12-05 2012-09-04 Tandent Vision Science, Inc. Test bed for optimizing an image segregation
JP4979840B2 (ja) * 2010-07-27 2012-07-18 パナソニック株式会社 移動体検出装置および移動体検出方法
KR101240469B1 (ko) * 2010-11-23 2013-03-11 현대모비스 주식회사 객체 인식 시스템, 차량용 장애물 인식 시스템 및 차량용 장애물 인식 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072987A (ja) * 2005-09-09 2007-03-22 Denso Corp 環境認識装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157201A (ja) * 2016-02-29 2017-09-07 トヨタ自動車株式会社 人間を中心とした場所認識方法
JP2019095956A (ja) * 2017-11-21 2019-06-20 株式会社デンソー 勾配変化検出装置、方法及びプログラム、並びに、車両
JP7167431B2 (ja) 2017-11-21 2022-11-09 株式会社デンソー 勾配変化検出装置、方法及びプログラム、並びに、車両
WO2019235116A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
JPWO2019235116A1 (ja) * 2018-06-04 2021-06-17 日本電信電話株式会社 移動状況解析装置、移動状況解析方法及びプログラム
JP2021532512A (ja) * 2018-07-17 2021-11-25 エヌビディア コーポレーション 自律運転マシンのための回帰ベースの線分検出
JP7295234B2 (ja) 2018-07-17 2023-06-20 エヌビディア コーポレーション 自律運転マシンのための回帰ベースの線分検出
JP2022504457A (ja) * 2018-10-24 2022-01-13 ウェイモ エルエルシー 自律車両の信号機検知および車線状態認識
JP7150159B2 (ja) 2018-10-24 2022-10-07 ウェイモ エルエルシー 自律車両の信号機検知および車線状態認識
US11645852B2 (en) 2018-10-24 2023-05-09 Waymo Llc Traffic light detection and lane state recognition for autonomous vehicles

Also Published As

Publication number Publication date
JP6299427B2 (ja) 2018-03-28
US9129161B2 (en) 2015-09-08
US20140355879A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
JP6299427B2 (ja) シーン推定方法およびシーン推定装置
US11600006B2 (en) Deep neural network architecture for image segmentation
US10331957B2 (en) Method, apparatus, and system for vanishing point/horizon estimation using lane models
US20210049412A1 (en) Machine learning a feature detector using synthetic training data
US11521487B2 (en) System and method to generate traffic congestion estimation data for calculation of traffic condition in a region
KR102652023B1 (ko) 실시간 교통 정보 제공 방법 및 장치
US20180173969A1 (en) Detecting roadway objects in real-time images
US11263726B2 (en) Method, apparatus, and system for task driven approaches to super resolution
US11232582B2 (en) Visual localization using a three-dimensional model and image segmentation
WO2018230492A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20220276618A1 (en) Method, apparatus, and system for model parameter switching for dynamic object detection
US11798225B2 (en) 3D building generation using topology
US11343636B2 (en) Automatic building detection and classification using elevator/escalator stairs modeling—smart cities
US10949707B2 (en) Method, apparatus, and system for generating feature correspondence from camera geometry
KR20230012953A (ko) 운전 가능 표면 주석 달기를 위한 머신 러닝 기반 프레임워크
US20210406709A1 (en) Automatic building detection and classification using elevator/escalator/stairs modeling-mobility prediction
JP7399891B2 (ja) ナビゲーション中に難しい操縦についての追加の命令を提供すること
US20210156696A1 (en) Method and system to validate road signs
US11521023B2 (en) Automatic building detection and classification using elevator/escalator stairs modeling—building classification
US11128982B1 (en) Automatic building detection and classification using elevator/escalator stairs modeling
US11494673B2 (en) Automatic building detection and classification using elevator/escalator/stairs modeling-user profiling
US20220122316A1 (en) Point cloud creation
US20240212486A1 (en) Method and apparatus for determining an intersection condition
CN118038397B (zh) 图像处理方法、装置、电子设备及存储介质
US20230023255A1 (en) Controlled ingestion of map update data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180212

R151 Written notification of patent or utility model registration

Ref document number: 6299427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151