JP2014235737A

JP2014235737A - シーン推定方法およびシーン推定装置

Info

Publication number: JP2014235737A
Application number: JP2014107335A
Authority: JP
Inventors: ジョンマークアゴスタ; Mark Agosta John; プリーティピライ; Pillai Preeti; 尾口　健太郎; Kentaro Oguchi; 健太郎尾口; ガネッシュヤラ; Yalla Ganesh
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2013-05-31
Filing date: 2014-05-23
Publication date: 2014-12-15
Anticipated expiration: 2034-05-23
Also published as: JP6299427B2; US9129161B2; US20140355879A1

Abstract

【課題】画像に含まれるシーンを低い計算コストで分類する方法を提供する。【解決手段】コンピュータが行うシーン推定方法であって、画像を取得する画像取得ステップと、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、を含む。【選択図】図１

Description

本発明は画像処理に関し、特に、画像からシーンを推定する技術に関する。

（関連出願への相互参照）
本出願は、"Driver Assistance by a Lightweight Scene Classification System"と題され、２０１３年５月３１日に出願された、米国仮特許出願第６１／８２９，９８０号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。
また、本出願は、２０１４年２月３日に出願された、米国特許出願第１４／１７１，６７７号の優先権を主張する。該出願は、その全体が本明細書中に参照として組み込まれる。

画像解析のために用いられる既存の技術は、例えば、オブジェクト認識方法、画素レベルでのセグメンテーション、探索窓のスキャニングなど、計算コストが高い方法をしばしば用いている。
これらの既存の技術では、オブジェクト認識において、画像をどのようにセグメンテーションするかを決定するために、画像に含まれる画素データを分析する。この処理は長い処理時間を必要とするため、ユーザに対する待ち時間や遅延をもたらす。
すなわち、モバイルコンピューティングにおいて、リアルタイムでビデオストリームを取得して分析することは非実用的であると言える。

また、現状、車両のリアビューカメラのような、多くの既存の車両用ビデオシステムは、取得したイメージについての分析はほとんど行っていない。これらのシステムは、様々な情報（例えば、駐車する際の車両位置）をハイライトするため、道路に図形をオーバーレイ表示することはあっても、画像が示すシーンを解釈することはない。
また、あるシステムは、画像を圧縮ないし縮小し、保存したり他の車両と共有したりするが、同様に、画像を解析したり解釈したりする機能は通常有していない。
また、他の車両用ビデオシステムは、画像中から、例えば歩道や横断歩道といったような、運転に関連した特徴物を識別する機能を有するが、画像全体が表すシーンを解析する機能は有していない。

本発明は、上記の問題点を考慮してなされたものであり、画像に含まれるシーンを低い計算コストで分類する方法を提供することを目的とする。

上記課題を解決するための、本発明の一形態に係る方法は、
コンピュータが行うシーン推定方法であって、画像を取得する画像取得ステップと、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、を含むことを特徴とする。

また、本発明に係るシーン推定装置は、
画像を取得する画像取得手段と、前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、を有することを特徴とする。

また、これらの形態の一つ以上の他の実装として、方法、システム、装置、コンピュータプログラム、コンピュータ記憶装置上に符号化された方法の実行などが含まれる。

これらの実装例は、以下の特徴のうち一つ以上を任意に含んでいてもよい。
例えば、前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定してもよい。
また、前記一つ以上の要素は、移動プラットフォームの動きを含み、前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定してもよい。
また、前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムであってもよい。
また、少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置されてもよい。
また、前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定されてもよい。
また、前記中心点は、エピ極を予測するものであってもよい。
また、前記各分割領域は、前記中心点から画像の端に向けて延出するものであってもよい。
また、前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得してもよい。
また、前記画像に対応する前記分割領域は５つ以上であることを特徴としてもよい。
また、前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類してもよい。
また、前記シーン分類ステップは、各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含んでもよい。

本明細書によって開示される発明は、特にいくつかの面において有利である。
例えば、本発明に係るシーン分類技術は、移動プラットフォームからの画像ストリームを分析することによって、複数かつ同時にシーンタイプを分類することができる。
本シーン分類は、複数の（例えば、二つ以上）範囲について、現在の景色の要旨を取得しうる。
本シーン分類技術はまた、場面の特徴を予測する新しいシステムと方法を含む。
以下に詳細に説明するように、分類されたシーンの出力には、ドライバーへのアドバイスやアシストにおいて、多数の有益な用途がある。

本発明に係るシーン分類技術は、現在の視覚状態の分析に基づいて視像を既定のカテゴリ群（予測されたシーン特性など）と関連付けることにより、視像からシーンを分類する
ための軽量な計算手法の実行可能性を示すことができる。本技術は、一連の経験的な機械学習タスクの問題を軽減することにより、対象物認識方法の複雑性の多くを避けるという利点を提供する。

本明細書に記載の技術は、計算コストの高い画像処理ステップを避けるために、全体画像から情報を好都合に抽出できる、新規なシーン分類アルゴリズムを含む。
また、本発明に係る技術は、少なくとも二つのカスケード状の分類器を含むシステムであってもよい。当該分類器は、原画像を画素タイプのセットに変換する第一の画素レベル分類器と、画素タイプの統計情報を入力データとして使用し、各種シーン変数と関連付けられたラベルのセットを推定し出力する第二の分類器を含む。
例えば、第二の分類器は、分類された画素タイプを分割領域に割り当てることによって第一の分類器の出力を受信および要約し、その後、各分割領域から取得したその画素タイプコンテンツの統計情報を、確率モデルへの入力データとして使用することができる。
この手法によるシーン分類技術では、１００万画素のオーダーから少数の別個のシーン変数を好都合に類推することができる。さらに、第一の分類器によって画像の複雑性を軽減することにより、以降のステップのデータ処理負荷が大幅に低減される。また、第一の分類器の効率により、画像のサイクルタイムのほぼ全体が判断され得る。

各分類器は、例えば、画素タイプおよびシーン特性を手作業でラベル付けした画像のセットによって学習することができる。第一の分類器は、この画像を、第二の分類器への入力となる豊富な特徴を持つ、扱いやすい少量のデータへと変換する。また、第二の分類器は、シーン変数と関連付けられたラベルの最有力の組合せを用いてシーンを特徴付けることにより、シーン変数群に対応するいくつかの従属次元でシーンを分類することができる。
このシステムは、ビデオシーケンスを分析する際に、ラベルのリスト（各シーン変数カテゴリに属する一ラベルなど）を出力として生成する。例えば、第二の分類器は、ラベルと関連付けられたシーン変数ノードのセットを出力ノードとして指定できる、確率モデルとして実装してもよい。また、ラベルのリストは、画像に添付されたラベルの確実性または信頼性を表す値であってもよい。

なお、上記の利点はあくまで例であり、システムは、他の多数の利点および利益を有し得ることが理解されるべきである。

本発明によると、画像に含まれるシーンを低い計算コストで分類する方法を提供することができる。

画像からシーンを推定するシステムを例示するブロック図である。推定アプリケーションとシーン利用アプリケーションを備えるコンピュータを例示するブロック図である。画像からシーンを推定する方法のフローチャート例である。画像からシーンを推定する更なる方法のフローチャート例である。画像からシーンを推定する更なる方法のフローチャート例である。さまざまなアプリケーションにおいて分類されたシーンを利用する方法のフローチャート例である。分割レイアウトを例示する図である。分割レイアウトを例示する図である。分割レイアウトを例示する図である。分割レイアウトを例示する図である。分割レイアウトを例示する図である。車両データにおける中心点の配置を例示する図である。車両データにおける中心点の配置を例示する図である。車両データにおける中心点の配置を例示する図である。車両データにおける中心点の配置を例示する図である。画素レベルの分類の例を示す図である。分割レイアウトを例示する図である。車両データにおける中心点の配置を例示する図である。車両データにおける中心点の配置を例示する図である。車両データにおける中心点の配置を例示する図である。異なる道路シーンにおける分割レイアウトの例を示す図である。異なる道路シーンにおける分割レイアウトの例を示す図である。異なる道路シーンにおける分割レイアウトの例を示す図である。所定のイメージに適用できる２つの分割レイアウトを全体的に表す図である。所定のイメージに適用できる２つの分割レイアウトを全体的に表す図である。混同行列の例を示す図である。シーン分類における評価の結果を例示する図である。確率モデルを例示する図である。確率モデルを例示する図である。画像からシーンを推定するためのプロセスを例示する図である。画素レベル分類の更なる例を例示する図である。

シーン推定を行うシステムおよび方法について以下に記載する。なお、本開示は、例として示され、何らかの限定をするためのものではない。また、添付の図面においては、参照符号が同様の要素を参照するために使用されている。

（システム概要）
図１は、ある実施形態において、画像に基づいてシーンを推定するシステム１００のブロック図を例示したものである。
システム１００は、サーバ１０１、クライアント装置１１５および移動プラットフォーム１３５を含む。システム１００の構成要素は、ネットワーク１０５によって通信可能に結合している。
他の実施形態において、システム１００は、例えば、地図情報を提供するための地図サーバ、交通情報を提供するための交通情報サーバなど、図１に示されない他の構成要素を含んでいてもよい。

ネットワーク１０５は、既知の有線ネットワークであっても無線ネットワークであってよい。また、その構成は、スター型、トークンリング型やその他の構成を取ることができる。さらにまた、ネットワーク１０５は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）（例えばインターネット）、公衆ネットワーク、プライベートネットワーク、仮想ネットワーク、または、複数の装置が通信に用いる相互接続されたその他の任意のデータパスであってもよい。さらに別の形態では、ネットワーク１０５はピアツーピアネットワークであってもよい。ネットワーク１０５は、複数の異なる通信プロトコルでデータ送信するための通信ネットワークと接続されたり、このような通信ネットワークを含んだりしても良い。
ある実施形態では、ネットワーク１０５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信ネットワークや携帯電話通信ネットワークを含み、ＳＭＳ（ショートメッセージサービス）、
ＭＭＳ（マルチメディアメッセージサービス）、ＨＴＴＰ（ハイパーテキスト転送プロトコル）、直接データ接続、ＷＡＰ、電子メールなどのデータを送受信する。
なお、図１では１つのネットワーク１０５のみが、クライアント装置１１５および移動プラットフォーム１３５に接続されているが、複数のネットワーク１０５がこれらの構成要素に接続されていてもよい。

一実施形態において、推定アプリケーション１０９がサーバ１０１において利用できる。推定アプリケーション１０９は、信号線１０４を介してネットワーク１０５に接続される。
サーバ１０１は、プロセッサおよびメモリを備え、ネットワークによる通信を行うことができる、ハードウェアサーバや仮想サーバ等のサーバである。一実施形態において、サーバ１０１は、クライアント装置１１５や移動プラットフォーム１３５に対してデータを送受信することができる。また、一実施形態において、サーバ１０１は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション１１７を含んでいてもよい。
なお、図１では、１台のサーバ１０１、移動プラットフォーム１３５、クライアント装置１１５を例示するが、システム１００は直接的に、またはネットワーク１０５によって相互接続される多くの構成要素を含むことができる。

一実施形態において、推定アプリケーション１０９は、クライアント装置１１５で実行されてもよい。クライアント装置１１５は、信号線１０８を介してネットワーク１０５に接続している。
一実施形態において、クライアント装置１１５は、サーバ１０１や移動プラットフォーム１３５に対してデータを送受信することができる。
クライアント装置１１５は、メモリとプロセッサを含む、情報処理とネットワーク１０５へのアクセスが可能なコンピュータであり、例えば、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、携帯電話、個人情報端末（ＰＤＡ）、モバイル電子メール装置、および、その他の電子機器などである。
一実施形態において、クライアント装置１１５は、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション１１７を含んでいてもよい。
ユーザ１２５は、クライアント装置１１５を利用する利用者である。
なお、図１では、１台のクライアント装置１１５を例示するが、システム１００は、複数のクライアント装置１１５を含んでいてもよい。

一実施形態において、推定アプリケーション１０９は、シーン利用アプリケーション１１７に対して、画像に対応するシーンと、シーンの分類結果を表すデータを送信することができる。また、シーン利用アプリケーション１１７は、分類されたシーンを表すユーザインタフェースを提供するためのグラフィックを生成することができる。また、シーン利用アプリケーション１１７は、生成したグラフィックを、クライアント装置１１５に接続された表示装置（図示せず）を用いて提示してもよい。

一実施形態において、推定アプリケーション１０９は、移動プラットフォーム１３５上で実行されてもよい。移動プラットフォーム１３５は、信号線１３４を通してネットワーク１０５に接続している。
一実施形態において、移動プラットフォーム１３５は、サーバ１０１やクライアント装置１１５に対してデータを送受信することができる。
移動プラットフォーム１３５は、メモリとプロセッサを有するコンピュータを含んでもよい。一実施形態において、移動プラットフォーム１３５は、道路上を移動可能なコンピュータである。例えば、移動プラットフォーム１３５は、車両、自動車、バス、生体に埋
め込まれた装置、非一時的（non-transitory）なコンピュータ機器（例えば、プロセッサ、メモリ、あるいは非一時的なコンピュータ機器の組み合わせ）を有する他のモバイルシステムなどであってもよい。
ユーザ１２５は、移動プラットフォーム１３５の操作者であり、移動プラットフォーム１３５を利用する人間である。例えば、ユーザ１２５は、車両を運転するドライバーであってもよい。
一実施形態において、移動プラットフォーム１３５は、カメラ１０７と、画像に基づいて分類されたシーンを利用するアプリケーションである、シーン利用アプリケーション１１７を含んでいてもよい。
なお、図１では、１台の移動プラットフォーム１３５を例示するが、システム１００は、複数の移動プラットフォーム１３５を含んでいてもよい。

推定アプリケーション１０９は、画像からシーンを推定するためのロジックを含んだアプリケーションである。
いくつかの実施例において、推定アプリケーション１０９は、ＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、推定アプリケーション１０９は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
推定アプリケーション１０９については、図２〜図４Ｂを参照しながら後ほど詳しく説明する。

カメラ１０７は、画像（ビデオ画像および静止画像を含む）を記録する光学的装置である。カメラ１０７は、任意のフレームレートを使用して、ビデオストリームのフレームを取り込むことができ、また、任意の方法を用いて撮影した画像を符号化することができる。
一実施形態において、カメラ１０７は、周辺環境を画像で記録することができる。
例えば、移動プラットフォームの場合、カメラ１０７は、道路、空、山、他の車両、オブジェクト（例えば、道路脇の構造物、建物、樹木など）を含んだ、移動プラットフォーム１３５の周囲の環境を取り込むことができる。
一実施形態において、カメラ１０７は、移動プラットフォーム１３５の前面に、前方を向いてマウントされていてもよい。別の実施形態において、カメラ１０７は、移動プラットフォーム１３５の他の部分にマウントされていてもよい。
例えば、クライアント装置の場合、カメラ１０７は、フロントあるいはリアカメラであってもよく、セットトップカメラ等であってもよい。
カメラ１０７は、取得した画像を含む画像データを、推定アプリケーション１０９に送信することができる。
例えば、カメラ１０７は、道路上を移動している移動プラットフォーム１３５（例えば車両）から、道路を含んだシーンを表す画像データを取得することができる。
また、カメラ１０７は、画像データ（例えばリアルタイムビデオストリーム）を、本明細書の他の箇所で更に説明するような処理およびクラス分類を行う推定アプリケーション１０９に送信することができる。

シーン利用アプリケーション１１７は、様々なアプリケーションにおいてシーンを利用するためのロジックを含む。
例えば、シーン利用アプリケーション１１７は、推定アプリケーション１０９によって推定されたシーンを活用して、ユーザに高品質なナビゲーション機能を提供する地図アプリケーションであってもよい。
いくつかの実施形態において、シーン利用アプリケーション１１７は、ＦＰＧＡ（Fiel
d Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）などのハードウェア、コンピュータのプロセッサで実行可能なソフトウェア、または、それらの組み合わせを用いて実装される。
ある実施形態では、シーン利用アプリケーション１１７は、装置とサーバの両方に分散して格納されてもよいし、装置とサーバのいずれかのみに格納されてもよい。
シーン利用アプリケーション１１７については、図２および図５を参照しながら後ほど詳しく説明する。

位置決定システム１２０は、クライアント装置１１５や移動プラットフォーム１３５の地理的な位置を決定するためのシステムである。
一実施形態において、位置決定システム１２０は、信号を受信するように構成された電子装置（例えばクライアント装置１１５や移動プラットフォーム１３５）に、位置信号を供給する。
位置決定システム１２０は、信号線１２２で示したように無線送信機と受信機を介して、または、信号線１２４で示したようにネットワーク１０５を介して、あるいは他の適当な伝達手段を介して位置信号を供給してもよい。
クライアント装置１１５および移動プラットフォーム１３５は、位置決定システム１２０から位置信号を受信する受信機（例えばＧＰＳ受信機、ネットワークインタフェース等）を含んでいてもよい。また、クライアント装置１１５および移動プラットフォーム１３５は、位置信号を処理することで、自装置（自端末）の地理的な位置を決定してもよい。
一実施形態において、位置決定システム１２０は、ＧＰＳ、ディファレンシャルＧＰＳ（ＤＧＰＳ）、補助ＧＰＳ（Ａ−ＧＰＳ）、多辺測量あるいは三角測量エンジンを含んだ電気通信システム、ネットワーク１０５におけるクライアント装置１１５や移動プラットフォーム１３５のＩＰアドレスを取得し、他の情報ソース（例えばインターネットプロバイダのデータベースやインターネットレジストリ）とＩＰアドレスをクロスリファレンスすることで、当該クライアント装置１１５や移動プラットフォーム１３５の大まかな位置を推定するジオロケーションシステム、あるいは他の位置情報システムや装置などを含んでいてもよい。

様々な実施形態において、"hiball"のようなコンステレーションシステム、磁気追跡システム、光学追跡システム、慣性追跡システムなど、どのような位置追跡システムが用いられてもよいことを理解すべきである。
また、位置決定システム１２０は、単体の要素として示されているが、サーバ１０１、ネットワーク１０５、クライアント装置１１５、移動プラットフォーム１３５を含むシステムの他の要素と組み合わせてもよい。
推定アプリケーション１０９やシーン利用アプリケーション１１７は、位置決定システム１２０と接続され、位置信号や位置データを受信するように構成されてもよい。例えば、ＡＰＩを介してこれらの情報にアクセスできるようにしてもよい。

（推定アプリケーション１０９の例）
図２を参照して、推定アプリケーション１０９とシーン利用アプリケーション１１７を有するコンピュータの例について、詳細に説明する。
図２は、一実施形態における、推定アプリケーション１０９、プロセッサ２３５、メモリ２３７、通信部２４１、入出力部２４３、記憶装置２４５、シーン利用アプリケーション１１７、およびカメラ１０７を含むコンピュータ２００のブロック図である。コンピュータ２００の構成要素は、バス２２０によって通信可能に接続される。
バス２２０は、コンピュータが有する構成要素間、または、コンピュータ間でデータを送受信することができれば、どのような種類の既知の通信バスであってもよい。
一実施形態において、コンピュータ２００は、サーバ１０１、クライアント装置１１５、または移動プラットフォーム１３５のうちのいずれかである。

プロセッサ２３５は、算術論理ユニット、マイクロプロセッサ、汎用コントローラ、または、計算を実行して表示装置に表示信号を提供する他のプロセッサアレイのような、一つ以上の処理ユニットを含む。
プロセッサ２３５は、データ信号を処理し、そのアーキテクチャは、ＣＩＳＣ（Complex Instruction Set Computer）、ＲＩＳＣ（Reduced Instruction Set Computer）、これら両方の命令セットの組合せとして実装されたアーキテクチャなど様々なアーキテクチャでありうる。なお、図２には一つのプロセッサ２３５だけが示されているが、複数のプロセッサ２３５が含まれていてもよい。上記以外のプロセッサ、オペレーティングシステム、センサ、表示装置、あるいは物理的構成も採用可能である。

メモリ２３７は、プロセッサ２３５が実行可能な命令やデータを格納する手段であり、一つ以上のコンピュータによって読み取り可能な非一時的記憶媒体を含む。メモリ２３７に格納される命令やデータは、本明細書に示す技術を実行するためのコードを含んでもよい。一実施形態において、メモリ２３７は、推定アプリケーション１０９やシーン利用アプリケーション１１７を格納する。
メモリ２３７は、ＤＲＡＭ、ＳＲＡＭ、組み込み型メモリ、フラッシュメモリやその他の既存のメモリ装置を含んでもよい。ある実施形態においては、メモリ２３７は、ハードディスクドライブ、フロッピーディスク（登録商標）ドライブ、ＣＤ−ＲＯＭ装置、ＤＶＤ−ＲＯＭ装置、ＤＶＤ−ＲＡＭ装置、ＤＶＤ−ＲＷ装置、フラッシュメモリ装置や情報記憶の分野において既知のその他の大容量記憶装置などの、非一時的（non-volatile）メモリや永久記憶装置を含んでも良い。

通信部２４１は、サーバ１０１、移動プラットフォーム１３５、クライアント装置１１５のうちの一つ以上と通信を行う手段である。その通信先は、推定アプリケーション１０９が格納されている場所によって異なる。
通信部２４１は、ネットワーク１０５を形成する他の要素と通信を行うため、ネットワーク１０５に有線または無線等によって接続される。
いくつかの実施形態において、通信部２４１は、ネットワーク１０５や他の通信チャネルへの直接的な物理的接続のためのポートやネットワークインタフェースを含む。例えば、通信部２４１は、ＵＳＢ、ＳＤ、ＣＡＴ−５など、クライアント装置１１５と有線通信するためのポートを含む。
ある実施形態では、通信部２４１は、ＩＥＥＥ８０２．１１、ＩＥＥＥ８０２．１６、ＢｌｕｅＴｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short-Range Communication）または他の適当な無線通信方式を含む一つまたは複数の無線通信方式を用いて、クラ
イアント装置１１５や他の通信チャネルとデータを交換するための無線送受信部を含む。
一実施形態において、無線送受信部は、ＧＰＳ信号を含む位置データや、コンピュータ２００の位置を表す他の位置データを受信するように構成された受信機を含んでもよい。
なお、図２では、単体の通信部２４１を例示したが、通信部２４１は、実際には、一つ以上の異なる通信装置であってもよいし、統合通信装置であってもよい。

ある実施形態では、通信部２４１は、ＳＭＳ（ショートメッセージサービス）、ＭＭＳ（マルチメディアメッセージサービス）、ＨＴＴＰ（ハイパーテキスト転送プロトコル）、直接データ接続、ＷＡＰ、電子メールやその他の適切な電子通信方式により、携帯電話通信網上でデータを送受信するためのセルラ通信トランシーバを含む。ある実施形態では、通信部２４１は、有線ポートと無線送受信機を含む。通信部２４１は、ＴＣＰ／ＩＰ、ＨＴＴＰ、ＨＴＴＰＳ、ＳＭＴＰなどの標準的なネットワークプロトコルを用いてファイルやメディアオブジェクトを配布するために、ネットワーク１０５への従来型の接続を提供する。

記憶装置２４５は、本明細書に記載される構造、処理、または機能を提供するためのデータを格納する非一時的（non-transitory）な記憶媒体である。一実施形態において、記憶装置２４５は、データを格納し、データへのアクセスを提供するデータベース管理システム（ＤＢＭＳ）を含んでいてもよい。
また、記憶装置２４５は、半導体素子メモリ（例：フラッシュメモリやＲＡＭ等）、ハードディスクドライブ、磁気テープ装置、フロッピーディスク（登録商標）ドライブ、ＣＤ−ＲＯＭ装置、ＤＶＤ−ＲＯＭ装置、ＤＶＤ−ＲＡＭ装置、ＤＶＤ−ＲＷ装置や、情報記憶の分野において既知のその他の大容量記憶装置を含んでも良い。

記憶装置２４５は、本明細書で後ほど詳細に説明するように、推定アプリケーション１０９が、カメラ１０７が撮像した画像を一つ以上の分割領域に分割するために用いる、所定の分割レイアウトのセットを格納することができる。
また、記憶装置２４５は、カメラ１０７によって取得された画像（動画または静止画等）、画素タイプ、分割領域における画素タイプの分布（例えば画素タイプのヒストグラム）、分割領域に対応する画素特徴データ（例えば分割領域に対応する尤度ベクトル）、画像からシーンを推測するために用いられる確率モデル２４７、確率モデルの学習における学習データセット、シーン変数、一つ以上のシーン変数に関連付いた分布、および、シーン分類結果（例えばシーンラベルのセット）等を格納することができる。
これらの、記憶装置２４５に格納されるデータについては、後ほど詳しく説明する。
一実施形態において、記憶装置２４５は、本明細書に記載される構造、処理、または機能を提供するための他のデータを格納してもよい。

移動プラットフォーム１３５が、コンピュータ２００を含むという実施形態においては、コンピュータが、外部コンポーネント２５０と接続される他のコンピュータを含んでもよい。外部コンポーネント２５０は、プラットフォームバス（例：ＣＡＮ等）、一つ以上のセンサ（例えば、ＥＣＵ，ＥＣＭ，ＰＣＭ等の制御ユニット、車両センサ、音響センサ、化学的センサ、生体センサ、位置センサ（例：ＧＰＳ，コンパス，加速度計，ジャイロ等）、スイッチ、コントローラ、カメラ等）、エンジン、駆動手段、サスペンション手段、計装、温度制御、または、他の電気的、機械的、構造的コンポーネント等であるが、これに限られない。

図２に示したように、推定アプリケーション１０９は、画像プロセッサ２０２、分割モジュール２０４、画素分類モジュール２０６、エビデンス生成モジュール２０８、学習モジュール２１０、シーン分類モジュール２１２を含むことができる。各構成要素は、バス２２０を介して、プロセッサ２３５やコンピュータ２００の他の構成要素と通信可能に接続される。

画像プロセッサ２０２は、分類対象の画像のデータ量を減らすため、画像の前処理を行うルーチンを含むソフトウェアである。一実施形態において、画像プロセッサ２０２は、プロセッサ２３５で実行可能な命令の集合を含む。また、一実施形態において、画像プロセッサ２０２は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
画像プロセッサ２０２は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

画像プロセッサ２０２は、カメラ１０７、記憶装置２４５、推定アプリケーション１０９のいずれかから、画像を取得することができる。
画像プロセッサ２０２は、画素分類モジュール２０６や、推定アプリケーション１０９内の他の構成要素によって処理されるデータの量を減らすために、画像を前処理する手段である。これにより、画像の分類における速度や効率を改善することができる。
いくつかの実施形態において、画像プロセッサ２０２は、画像を粗いパッチ配列にダウンコンバートすることができる。例えば、画像プロセッサ２０２は、画像内の画素を変換して、低解像度のパッチ配列を生成する。これにより、カメラ１０７によってキャプチャされた生の画像内のすべての画素を分類する必要性をなくすことができる。
本実施形態では、例えば、画像プロセッサ２０２が、所定のグリッドに対応する画素を選択することにより、ダウンサンプリング画像を生成する。このダウンサンプリング画像は、図１０に示すとおり、近隣画素が互いに類似する傾向があることから、場合によっては、原画像に対してカラー漫画調になることもある。
また、元の画素セットを低解像度の画素アレイ（パッチとも呼ばれる）に変換するため、他のダウンサンプリング、平均化、または圧縮技術を利用してもよい。
画像プロセッサ２０２は、分割モジュール２０４が画像を分割する前に、あるいは後に、画像を処理することができる。また、画像プロセッサ２０２は、処理後の画像を、分割モジュール２０４や画素分類モジュール２０６に送信してもよい。

分割モジュール２０４は、画像を分割するレイアウトを決定するためのルーチンを含むソフトウェアである。
一実施形態において、分割モジュール２０４は、プロセッサ２３５で実行可能な命令の集合を含む。また、一実施形態において、分割モジュール２０４は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
分割モジュール２０４は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

分割レイアウトを決定するために、分割モジュール２０４は、移動プラットフォーム１３５のカメラ１０７によって撮影された画像が示すであろうシーンを、画像を参照せずに予測し、当該予測に基づいて、対応する分割レイアウトを選択する。
シーンは、走行している移動プラットフォーム１３５に近づいてくる道路環境が反映される。一実施形態において、カメラ１０７は、移動プラットフォーム１３５に取り付けることができ、移動プラットフォーム１３５の動きに従って前方のシーンを取り込むように前を向いて取り付けられる。

分割モジュール２０４は、画像データとは無関係に、分割レイアウトを決定することができる。例えば、分割モジュール２０４は、画像データを解析することなく、画像によって示されるシーンに対応する分割レイアウトを特定することができる。従って、カメラ１０７は、分割レイアウトが決定される前、後、決定中のいずれのタイミングであっても、画像を取得することができる。

分割レイアウトは、一つ以上の分割領域を含む。この領域は、所定のタイプのシーンにおける、視覚的に区別可能な、または別個の要素に対応した領域として構成される。いくつかの実施形態では、シーンが、ルート（道路など）、物理的な周辺環境、運転状況（道路など）、動的環境（天候など）、障害物などの要素を含み得るが、これらに限定されない。いくつかの実施形態において、分割モジュール２０４によって予測的に判断された分割レイアウトは、シーンに含まれる主要素に概ね対応する形状を有する分割領域を含んでいてもよい。

分割レイアウトは、事前に定義されたものを使用してもよいし、処理を行いながら定義してもよい。また、実行時に分割モジュール２０４によって調整されてもよい。また、これらの組み合わせを用いてもよい。
分割レイアウトは、分割レイアウトの向き、分割レイアウトの寸法、分割レイアウトに含まれる分割領域の数、対応する分割領域のセットの数、分割領域のジオメトリ（例えば
分割領域のサイズと形状、分割領域の向きなど）等によって定義される。
例えば、サイズ、形状、分割レイアウトにおける各分割領域の向きは、本明細書の他の箇所で説明するように、デフォルト値として事前に定義され、分割モジュール２０４によって、一つ以上のコンテキスト属性に基づいて実行時に調整されてもよい。

分割領域は、様々な形状やサイズをとることができる。例えば、分割領域は、くさび形、三角形、円形、扇形、または任意の他の幾何学的形状であってもよい。
また、分割レイアウトに含まれる分割領域は、互いに均一、不均一、類似、非類似、対象、非対称などであってもよいし、これらの組み合わせであってもよい。
各分割領域は、所定の分割レイアウトの中で同心状に配置されてもよい。また、分割領域として、異なる形状の組み合わせが用いられてもよいし、同一または類似の形状が用いられてもよい。また、分割領域の一部または全部の寸法は、調整されていてもよいし、調整されていなくてもよい。また、各分割領域は、互いに異なる寸法であってもよいし、分割領域の一部または全部の寸法が同じであってもよい。

分割レイアウトの例を図６Ａ〜図６Ｅに示す。分割レイアウト６００，６０５，６１０，６２０，６２５はそれぞれ例示であるが、これに限定されない。
図示した通り、これらのレイアウトに含まれる分割領域は、三角形、台形、半円形であってもよいし、他の形状であってもよい。
各分割領域は線で囲まれ、中心点６２６で交差ないし収束する。
各分割領域は可変サイズであってもよく、直線以外で囲まれてもよい。また、図６Ｄのように、中心点６２６を囲うように配置されてもよい。

一実施形態において、分割モジュール２０４は、一つ以上のコンテキスト属性に基づいて分割レイアウトを決定する。コンテキスト属性とは、移動プラットフォーム１３５の状況や、その移動環境を表すデータである。コンテキスト属性は、コンテキストデータに基づいて推定、または決定されてもよい。
一実施形態において、コンテキストデータは、例えば、対応する画像が取得された（または前後の）時刻に対応する、移動プラットフォーム１３５の移動に関するデータ、車道と移動プラットフォーム１３５との地理的な位置関係を表す位置データ、地理的な位置の景観を表す周辺環境データ、移動プラットフォーム１３５の地理的な位置に対応する運転状況データ、移動プラットフォーム１３５の地理的な位置に対応するイベントデータ、現在の日時などのうちの一つ以上である。
コンテキスト属性は、カメラ１０７が取得した画像とは独立したデータである。

例えば、図６Ｏに示したシーンのように、推定アプリケーション１０９によって分類されるシーンが、空が上にあり、道路が下にあり、特徴物が左側と右側にある、屋外の道路シーンであると仮定する。
この場合、分割モジュール２０４は、一つ以上のコンテキスト属性に基づいて、画像に対応するシーンが農村における道路シーンであると推定し、画像を分割領域のセットによって分割するための分割レイアウトを選択する。
例えば、図６Ｏに示したように、分割レイアウト６７５は、１２個のくさび型の形状を持つ分割領域を含んでおり、各分割領域は、中心点（収束点）から伸びる線によって囲まれている。この例に示されるように、道路シーン内のオブジェクトは、これらを囲むくさび型の分割領域に大略沿う傾向がある。例えば、地平線は一つ以上の分割領域に収まるかもしれないし、路面は一つ以上の分割領域に収まるかもしれない。
このような方法は、推定アプリケーション１０９が、ＣＰＵに負荷をかけ、待ち時間を発生させうる画像の分析を行うことなく、画像を関連したパーツ（すなわち分割領域）に分割することができるため、有利である。
また、分類の品質を向上させることができ、マルチコアまたは並列プロセッサであるプ
ロセッサ２３５のより効率的な使用を可能にすることができる。
図６Ｐおよび図６Ｑは、シーンを表した、分割レイアウト６８０および６８５を、対応する画像にオーバーレイ表示させた、さらなる例である。

分割モジュール２０４は、外部コンポーネント２５０、記憶装置２４５のようなデータストレージ、または他の適切なコンポーネントの一つ以上から、移動プラットフォーム１３５の移動に関するデータを受信してもよい。
移動プラットフォーム１３５の移動に関するデータとは、例えば、加速度、速度、ブレーキ力、加わった力、運転プロファイル、温度、湿度、振動、圧力、音量、燃費、日時、端末から外部にあるオブジェクト（例えば、道路脇の構造物、信号機、他の車両、歩行者、自転車等）までの距離、システム安全上のパラメータ（例えばエアバッグ、ＡＢＳ等）、走行方向、燃料残量、バッテリーレベル、または他の物理的または動的な状況を表すデータなどである。

分割モジュール２０４は、通信部２４１、一つ以上のセンサ２５０、記憶装置２４５のようなデータストレージ、ナビゲーションユニット（例えばＧＰＳ）を含むシーン利用アプリケーション１１７、ネットワーク１０５経由で（例えばＡＰＩやプッシュ、プル等によって）情報を提供する地図・交通・天気サーバ、または他の適切なコンポーネントの一つ以上から、位置データや運転状況データを取得してもよい。
位置データは、移動プラットフォーム１３５の位置（例えばＧＰＳ座標）、移動履歴、現在の日時を表すタイムスタンプ、移動プラットフォーム１３５の速度を表すデータを含んでいてもよい。
運転状況データは、移動プラットフォーム１３５の位置に関連付いた交通情報やそのアップデート、事故情報、予測遅延時間などを含んでいてもよい。
また、分割モジュール２０４は、コンピュータ２００のオペレーティングシステムや、ネットワーク１０５に接続された時計サーバ（不図示）、あるいは他の類似するシステム１００内の構成要素から受信したタイムスタンプに基づいて、現在の日時を決定してもよい。

分割モジュール２０４は、不図示のイベントエンジンや、記憶装置２４５のようなデータストレージ、または他の適切なコンポーネントから、システム１００（例えば、マッピング、検索、あるいは情報サーバ）内のコンピュータ２００によって処理可能な周辺環境データを受信してもよい。
周辺環境データとは、地理的に異なる場所に関連付いた土地の特徴（例えば、山、丘、水辺、草木、建物、構造物など）を表すデータである。
一実施形態において、周辺環境データは、指定された場所の特徴を示す地図（例えば衛星地図）から、推定アプリケーション１０９によって抽出されてもよい。

分割モジュール２０４は、システム１００内のコンピュータによって処理可能な不図示のイベントエンジンや、記憶装置２４５のようなデータストレージ、または他の適切なコンポーネントからイベントデータを受信してもよい。
例えば、カレンダリング、スケジューリング、ソーシャルネットワーキングサービス、電子メール、現在のイベント、エンドユーザに対する他のソフトウェアサービス等を提供する、不図示のサーバシステムがネットワーク１０５に接続されており、分割モジュール２０４が、当該システムからネットワーク１０５経由でイベントデータを取得するようにしてもよい。
イベントデータは、現在の場所、または車両のルート（例えば位置データに基づいて決定されたルート）に沿って接近中の場所にて発生するイベント、発生中のイベント、または発生するであろうイベントを表すものであってもよい。

下記は、一つ以上のコンテキスト属性に基づいて、分割レイアウトを決定する非限定的な追加例である。
コンテキスト属性は、「平日のラッシュ帯」のような時間帯を含んでいてもよく、分割モジュール２０４は、渋滞に対応する分割レイアウト（例えば、隣接車線、出口、合流車線、路肩、バリア、信号機などに対応するレイアウト）を決定するようにしてもよい。
また、コンテキスト属性は、交通量を含んでいてもよく、分割モジュール２０４は、交通量に対応した分割領域のセットを含む分割レイアウトを決定してもよい。
例えば、画像に含まれる交通量が少ない場合、分割レイアウトは、交通量が多い場合と比較して簡素なものであり、より少ない分割領域を含むものであってもよい。なぜならば、このような場合、交通量が多い場合と比較して、道路におけるオブジェクト、状況、関心エリア等が少ないためである。
また、コンテキスト属性は、（例えば車両のＧＰＳ装置によって受信される）事故情報を含んでいてもよく、分割モジュール２０４は、当該事故情報の一つ以上の属性に適合する分割レイアウト（例えば路肩で起きた事故に対応する領域を一つ以上含むようなレイアウト）を選択してもよい。

また、コンテキスト属性は、運転中の車両の車種を表すデータであってもよく、分割モジュール２０４は、当該車種（例えばサイズや積載量等）に適した分割レイアウトを選択してもよい。
また、コンテキスト属性は、車両が走行している道路の種類を表すものであってもよく、分割モジュール２０４は、当該道路の種類（例えば、二車線の高速道路、四車線の高速道路、橋梁、トンネル、都市の通り、一方通行、未舗装道路など）に対応する分割レイアウト（例えば一致する領域を持つもの）を選択してもよい。
また、コンテキスト属性は、都市、田園地域、郊外地域、商業地域など、車両が走行しているエリアを含んでもよく、分割モジュール２０４は、当該エリアの共通属性（例えば地平線、平原、太陽、建物、歩道、駐車区画など）に適した領域を含む分割レイアウトを選択してもよい。
また、コンテキスト属性は、運転者の年齢や性別など、運転者の属性を含んでもよく、分割モジュール２０４は、若い運転者用の分割レイアウト、老年運転者用の分割レイアウトなど、当該運転者の属性に対応する分割レイアウトを選択してもよい。
また、コンテキスト属性は、場所（例えば、多くの車両と人が想定されるコンサート会場）にて発生するイベントタイプを含んでいてもよく、分割モジュール２０４は、当該シーンの種類に対応する分割レイアウトを選択してもよい。

また、コンテキスト属性は、他の車両で利用された分割レイアウトを表すデータを含んでいてもよく、分割モジュール２０４は、対応する分割レイアウトを選択してもよい。
当該他の車両は、以前、対応する道路に沿って走行したことがあり、当該車両の学習モジュール２１０は、シーンを分類するための最も効果的な分割レイアウトを学習していたものであってもよい。
これは、分割レイアウト、特に、これらの車両の学習モジュール２１０によって学習され、改善された分割レイアウトを、システム１００内の車両に共有させることができるという点において有利である。
さらなる例として、システム１００内の移動プラットフォーム１３５に含まれる推定アプリケーション１０９は、分割レイアウトを互いに送信することで、互いに共有する構成であってもよい。送信は、例えば、直接行ってもよいし、サーバ１０１と、当該サーバで使用可能な推定アプリケーション１０９のインスタンスを経由して行ってもよい。
例えば、通信可能な車両が、他の車両および、当該車両に含まれる推定アプリケーション１０９のインスタンスによって道路画像を分類するための中央サーバ（例えば、サーバ１０１）と、好ましい分割レイアウトデータと使用基準を共有してもよい。
一実施形態において、サーバ１０１は、移動プラットフォーム１３５に含まれる推定ア
プリケーション１０９のインスタンスによって決定された、より好ましく、新しく、改善されるように連続的にアップデートされる分割レイアウトを保持する、動的な集中リポジトリを含んでもよい。
また、移動プラットフォーム１３５の推定アプリケーション１０９のインスタンスは、集中リポジトリに対して、より好ましく、新しく、改善された分割レイアウトを取得するために問い合わせ、同期してもよく、分割モジュール２０４は、分割レイアウトを決定する際にこれらを利用してもよい。

このように、分割モジュール２０４は、分割レイアウトを決定するために任意のコンテキスト属性を利用することができる。
これは、任意のタイプの道路シーンについての適切な分割レイアウトを、当該画像に含まれる画素を解析することなく決定できるため、推定アプリケーション１０９の処理速度と効率を向上できるという点において有利である。
また、道路シーンを一つのコンテキスト属性から識別することが困難である場合であっても、分割モジュール２０４は、道路シーンに対応するより正確な分割レイアウトを推定することができる。
なお、コンテキスト属性は走行中に変化するため、一実施形態において、選択された分割レイアウトも変更され、あるいは異なる分割レイアウトに選択されなおしてもよい。
例えば、分割レイアウトの決定（再決定）は、タイマによってトリガされてもよいし、カメラ１０７のフレームレートと同期していてもよいし、他の規則的、または不規則的なトリガイベントなどに基づいて行われてもよい。

一実施形態において、分割レイアウトの集合は予め定義されたもの（例えば、機械学習や手動設定により、またはこれらの組み合わせにより）であってもよく、当該予め定義された分割レイアウトを表すレイアウトデータは、メモリ２３７、記憶装置２４５、システム１００における他の記憶装置などのストレージデバイスに格納されていてもよい。
一実施形態において、本明細書の他の箇所で説明したように、分割モジュール２０４は、一つ以上のコンテキスト属性に基づいて、記憶装置から分割レイアウトを選択することで、画像によって表されたシーンに対応する分割レイアウトを少なくとも部分的に決定できる。また、いくつかのケースにおいては、一つ以上のコンテキスト属性に基づいて分割レイアウトを変更することができる。
一実施形態において、分割レイアウトを構成するデータ（例えば変数、データ構造、オブジェクト等）は、当該分割レイアウトを構成する分割領域の形と数を特徴づけることができる。

また、学習モジュール２１０は、分割モジュール２０４による分割レイアウトの選択を最適化するために、対応するコンテキスト属性（例えば車両の方向や位置データ）を持つテスト用画像のセットを用いて、特定のシーンタイプ（例えば道路環境）ごとに分割モジュール２０４がどのような分割レイアウトを選択すべきかについて学習を行うようにしてもよい。
これは、画素分類モジュール２０６やシーン分類モジュール２１２によって決定される所望の分類パラメータを最大化できるという点において有利である。
いくつかのケースでは、学習のために、分割レイアウトを、少なくとも部分的に手動で構成し、テスト画像に関連付けてもよい。
学習結果を反映した学習データは、記憶装置２４５内の学習モジュール２１０によって保持されてもよく、分割モジュール２０４は、分割レイアウトを決定する際に、当該決定を最適化するために、当該データに対して照会を行ってもよい。

分割レイアウトは、一つ以上の分割領域のセットを含んでいてもよい。
また、各セットに含まれる分割領域は、当該レイアウト内のエリアにある特定の点に収
束してもよい。
当該特定の点は、分割領域のセットにおける収束点または中心点とも呼ばれる。
最終的に、分割レイアウトが画像に適用されるとき、分割レイアウトに含まれる中心点は、対応する画像の画像領域の中のどこに位置してもよい。
中心点は、シーンの分類時に使用された一つ以上の態様を判断する期待値を設定できる基準点となり得る。期待値とは、分析用の画像を分割するのに最適な方法に関する予想値や推定値のことである。場合によっては、特定の対象や関心領域が画像中に現れると予測される場合があり、このような場合、分割モジュール２０４は、当該画像に適用された当該画像領域に対応する箇所に中心点を配置することができる。
例えば、車両が交差点に接近していると判定された場合、交通信号機が表示される場所の近傍に中心点を置く分割レイアウトを選択または適応させることができる。この例では、車両が交差点に接近しているため、「交通信号機を含むシーンが現れる」という予測を行うことができる。
別の例では、分割モジュール２０４は、画像におけるいくつかのシーンの特徴が、例えば大きく開けた空のように情報が少ないものであり、一つの領域に空が大きく含まれるように中心点を調整可能（例えば分割レイアウトを適応させたり、対応する分割レイアウトを選択したり、あるいはその組み合わせにより）であることを、例えば位置データに基づいて知っていてもよい。

いくつかの実施形態において、中心点および当該中心点に関連付けられた分割領域は、重要な分類可能な運転状況、道路上の障害物、道路の特性、周辺環境など、重要なデータ分類目標と関連付けられ得た、予想画像領域に対応するものであってもよい。一実施形態において、中心点は、画像の中心、すなわち、画像内の各種要素が収束するように見える予測された場所（視覚的重心）、予測消失点あるいはエピ極、その画像内の各種特徴の予測連結点あるいは収束点などに位置するように定義または適合されてもよい。エピ極は、画像内の他の点の起点になり得る点である。

図６Ｒおよび図６Ｓは、一つの画像（例えばビデオ画像フレーム）に対する二種類の分割レイアウトの決定法を全体的に示した図である。
分割レイアウト６９０は、画像右側のターゲットを分類するために適応されたレイアウトであり、分割レイアウト６９５は、画像左側のターゲットを分類するために適応されたレイアウトである。（分類は、例えば画素分類モジュール２０６によって行われる）
分割モジュール２０４は、一つの画像（例えばビデオフレーム）に対して、各々が異なる中心点を有する複数の分割レイアウトをオーバーレイしてもよい。
これは、画素分類モジュール２０６が、一つの画像に対して複数の画像分類セット（例えば左側に重点を置いたもの、右側に重点を置いたもの）を確立してもよいことを意味する。

一実施形態において、中心点は、分割レイアウト内の対応する分割領域の組の中心を表すことができる。例えば、分割モジュール２０４によって決定された分割レイアウトが、対応する画像に適用されたとき、分割領域は、図６Ｏおよび６Ｑに示したように、中心点から画像の端辺に対応する辺まで外方へ延びる形状となる。
図示したように、中心点は、車道の消失点に対応するように構成されてもよい。また、分割領域は、当該道路の消失点から放射状に二つ以上の分割領域に画像を分割するものであってもよい。

予め定義された分割レイアウトは、当該分割レイアウトに対応するデフォルトの中心点の位置を含んでいてもよく、当該中心点は、実行時に、一つ以上の学習データやコンテキストデータに基づいて、分割モジュール２０４によって変更されてもよい。
いくつかの実施形態において、分割モジュール２０４は、移動プラットフォーム１３５
の方位、運動、動き（例えば加速、速度、コーナリング、減速、位置の変動、上昇、下降、方向等）、移動プラットフォームの位置（例えば地理的なロケーション、経路予想、範囲データ等）などの一つ以上のコンテキスト属性に基づいて、中心点の位置を調整してもよい。
例えば、中心点に関連付いた二つ以上のパーティションが、車両の動きにあわせて移動してもよい。

図６Ａおよび図６Ｆ〜図６Ｉは、移動プラットフォーム１３５の動的な動きや場所といったような、一つ以上のコンテキスト属性に基づいて、分割モジュール２０４が、異なる時点における車両コンテキストを用いて、中心点６３１を動的に調整する例を説明する図である。
ここで、一つ以上のコンテキスト属性から決定される分割レイアウトが、通常の状態において図６Ａのようなものであったとする。
ここで、右方向を向いた場合、分割レイアウト２０４が有する分割領域は、車両が右を向いたことを示す一つ以上のコンテキスト属性（例えばセンサデータ、地図データ等）に基づいて、図６Ｆのように、中心点６３１を左方向に移動させることで形成されなおされてもよい。
また、左方向を向いた場合、分割レイアウト２０４が有する分割領域は、車両が左を向いたことを示す一つ以上のコンテキスト属性（例えばセンサデータ、地図データ等）に基づいて、図６Ｇのように、中心点６３１を右方向に移動させることで形成されなおしてもよい。
また、坂を上りながら右方向を向いた場合、分割レイアウト２０４が有する分割領域は、車両が上りながら右を向いたことを示す一つ以上のコンテキスト属性（例えばセンサデータ、地図データ等）に基づいて、図６Ｈのように、中心点６３１を左上方向に移動させることで形成されなおしてもよい。
また、坂を下りながら右方向を向いた場合、分割レイアウト２０４が有する分割領域は、車両が下りながら右を向いたことを示す一つ以上のコンテキスト属性（例えばセンサデータ、地図データ等）に基づいて、図６Ｉのように、中心点６３１を左下方向に移動させることで形成されなおしてもよい。

図６Ｌ〜図６Ｍは、車両コンテキストによって中心点を動的に調整するさらなる例を示す図である。
これらの図では、シーンの態様を曖昧にしないように、分割領域が省略されている。
図６Ｌは、シーン内の道路の消失点に中心点６６１を持つ直線道路を示している。また、図６Ｍは、右方向へのカーブに基づいて、中心点６６１を左方向に移動させた例である。また、図６Ｎは、左方向へのカーブに基づいて、中心点６６１を右方向に移動させた例である。

いくつかの実施形態において、中心点は、一つ以上のコンテキスト属性（例えば車両の方角、速度、予測経路、地図データ）に応じて、画像の予想領域に対する分割領域の形状のどこをどのように修正するかを計算するために、分割モジュール２０４によって使用される基準点であってもよい。

分割モジュール２０４は、決定または処理された分割レイアウトを表すデータを、画素分類モジュール２０６、エビデンス生成モジュール２０８のうちの一つ以上に送信してもよく、当該分割レイアウトを表すデータを、記憶装置２４５やメモリ２３７に記憶させてもよい。

画素分類モジュール２０６は、画像に含まれる画素を一つ以上の画素タイプに分類するためのルーチンを含むソフトウェアである。
一実施形態において、画素分類モジュール２０６は、画像に含まれる画素を分類するために、以下に示す構造、処理、または機能を提供するための、プロセッサ２３５で実行可能な命令の集合を含む。
また、一実施形態において、画素分類モジュール２０６は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
また、画素分類モジュール２０６は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

画素分類モジュール２０６は、分割モジュール２０４が決定した一つ以上の分割レイアウトを表すデータを、分割モジュール２０４や記憶装置２４５から取得することができる。
画素分類モジュール２０６は、画像を分割領域によって分割するために、一つ以上の分割レイアウトを当該画像に適用（例えば、オーバーレイ、マッチ等）することができる。
一実施形態において、画像内の画素は、各画素をある領域、すなわちｒ_ｍ＝｛Ｐ_ｉｊ｝_ｍ（ｍ＝１，２・・・Ｍ）に割り当てて、連続する画素群を形成することにより、分割領域によって（例えばＭ個の分割領域に）分割できる。

画素分類モジュール２０６は、画素レベルの特徴に基づいて、各分割領域内の画素を、複数の画素タイプのうちの一つの画素タイプに分類することができる。
一実施形態において、複数の画素タイプは、画素分類モジュール２０６によって予め定められる。

画素タイプは、画素の特徴を表すデータであり、当該画素を生成する面のタイプを表す。
画素タイプの例として、「空」、「樹木」、「建築構造物」、「路面」、「車線」、「バリアつきの歩道」、「車両」、「歩行者」等が挙げられるが、これらに限定されるものではない。
また、画素に含まれる画素レベルの特徴とは、画素の色やテクスチャなどであるが、これらに限定されるものではない。
例えば、画素分類モジュール２０６は、画素の色とテクスチャを判定し、当該色とテクスチャに基づいて、当該画素のタイプを決定することができる。
更なる例として、画素の色が緑であるならば、画素分類モジュール２０６は、当該画素のタイプを「樹木」と決定することができる。
一実施形態において、画素は、カメラ１０７で取得され、または処理されたオリジナルの画像に含まれるオリジナルの画素であり、そして、当該画素の特徴は、当該オリジナルの画素のサイズ、テクスチャ、色であってもよい。
一実施形態において、カメラ１０７で取得されたオリジナルの画像は、他のフォーマットに（例えばＲａｗデータをＪＰＥＧやＰＮＧ等に）に変換されてもよく、当該画素は、他のフォーマットに変換された画素であってもよい。画素の特徴は、当該変換された画素のサイズ、テクスチャ、色を含む。
さらに別の実施形態において、カメラ１０７で取得されたオリジナルの画像は、画像プロセッサ２０２でダウンサンプリングされたものであってもよく、画素は、ダウンサンプリングされた画像に含まれる、ダウンサンプリング後の画素であってもよい。画素の特徴は、当該ダウンサンプリングされた画素のサイズ、テクスチャ、色を含む。

画素分類モジュール２０６は、分割領域ごとに、画素レベルの分類結果を得ることができ、画素レベルの分類結果によって、分割領域内の各画素（例えば、ダウンサンプリング後の画素やパッチなど）を一つ以上の画素タイプに分類することができる。
一例において、二つ以上の画素は、所定の画素タイプのセットから、同じ画素タイプに分類される場合がある。さらなる例において、二つ以上の画素は、所定の画素タイプのセ
ットから、異なる画素タイプに分類される場合がある。

例えば、各画素が特徴ベクトルｆ_ｉｊによって表される、ｉ×ｊ個の画素Ｐ_ｉｊからなる画像を考える。当該特徴は、座標（ｉ，ｊ）を中心とする色およびテクスチャのフィルタ群によって導出することができる。画素レベルの分類器は、ドメインｆから、ｎ個の別個の画素タイプ群のうちの一つまでの関数、すなわちＣ：ｆ→｛ｃ_１，ｃ_２・・・ｃ_ｎ｝である。また、画素レベルの分類結果は、分類された画素タイプの配列である。

画素分類モジュール２０６は、カメラ１０７やそのコントローラ、メモリ２３７、記憶装置２４５、画像プロセッサ２０２またはシステム１００の他の構成要素から、画像（例えば、ビデオフレーム、写真など）を取得することができる。
一実施形態において、画素分類モジュール２０６は、画像プロセッサ２０２、メモリ２３７、記憶装置２４５またはシステム１００の他の構成要素から、ダウンサンプリングされた画像を取得することができる。
画素分類モジュール２０６は、前述したものと同一または類似の処理を実行することによって、ダウンサンプリングされた画像の画素を一つ以上の画素タイプに分類することができる。
ダウンサンプリング画像では、局所的な依存関係が無視され得るものの、ダウンサンプリング画像の画素レベルの分類結果は、近隣画素が同じ画素タイプに分類される傾向があることから、画素レベルの分類結果は、イラスト調になることがある。
画素レベルの分類結果の例を、図１０に示す。

一実施形態において、画素分類モジュール２０６は、画像中の分割領域ごとの画素レベルの分類結果を、エビデンス生成モジュール２０８に送信することができる。
他の実施形態において、画素分類モジュール２０６は、画像中の分割領域ごとの画素レベルの分類結果を、記憶装置２４５またはメモリ２３７に格納することができる。

エビデンス生成モジュール２０８は、画素分類モジュール２０６が生成した画素分類データに基づいて、画像の分割領域と関連した画素特徴データを生成するためのルーチンを含むソフトウェアである。
一実施形態において、エビデンス生成モジュール２０８は、画像の分割領域に関連付いた画素特徴データを生成するために、以下に記す構造、処理、または機能を提供するための、プロセッサ２３５で実行可能な命令の集合を含む。
また、一実施形態において、エビデンス生成モジュール２０８は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
エビデンス生成モジュール２０８は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

エビデンス生成モジュール２０８は、画素分類モジュール２０６や記憶装置２４５から、画像の分割領域ごとに、画素レベルの分類結果を取得することができる。画素レベルの分類結果は、当該分割領域における各画素に対応する画素タイプを含む。
また、エビデンス生成モジュール２０８は、分割領域ごとに、当該分割領域に関連付いた画素レベルの分類結果に基づいて、画素特徴データのセットを決定することができる。
例えば、エビデンス生成モジュール２０８は、分割領域の画素の画素タイプに基づいて、当該分割領域における、画素特徴データのセットを決定することができる。

画像の分割領域に関連付いた画素特徴データは、当該分割領域に含まれる一部の画像を表す。
例えば、画像の所定の分割領域において、画素特徴データのセットは、当該分割領域に
あるオブジェクトの一つ以上の特徴を特徴づける。
一例において、画素特徴データのセットは、分割領域の画素の内容を示す統計的なデータである。例えば、画素特徴データのセットは、画像の分割領域内の画素タイプの分布を表す尤度ベクトルである。
例えば、尤度ベクトルは、分割領域における画素タイプの５７％が路面であり、２３％がバリアであり、１５％が樹木であり、５％が建築構造物であることを示す。もちろん、他の尤度ベクトルの例も採用可能である。

一実施形態において、分割領域に関連付いた画素特徴データは、当該分割領域の画素を形容したもの、またはサマリである。例えば、画素特徴データは、当該分割領域における画素の統計のセットや、ヒストグラムであってもよい。

さらなる例として、エビデンス生成モジュール２０８は、分割領域に含まれる画素タイプの集合に対応するヒストグラムを生成することで、画素タイプの集合に関連付いた、画素タイプの分布を決定することができる。当該画素タイプの分布は、分割領域に含まれる部分画像の画素タイプのセットの確率分布であってもよい。
例えば、各領域は、当該領域内の画素タイプのヒストグラム（Ｈ_ｍ＝［｜ｃ_１｜_ｍ，・・・｜ｃ_ｎ｜_ｍ］）によって表すことができる。なお、｜ｃ_ｉ｜_ｍは、領域ｍにおける各画素タイプを表し、ｉ＝１，２・・・ｎである。
エビデンス生成モジュール２０８は、分割領域の画素特徴データのセットを、ヒストグラムを基とした尤度ベクトルとして生成することができる。
例えば、エビデンス生成モジュール２０８は、分割領域に対して、「当該分割領域の画素の８０％が「空」という画素タイプに分類され、１５％が「樹木」という画素タイプに分類され、５％が「路面」という画素タイプに分類された」という情報を持つ尤度ベクトルを生成する。

画素特徴データのセットは、分割領域に対応するエビデンスデータのセットとして位置付けることができ、シーン分類モジュール２１２は、以下に説明するように、全分割領域における全画素特徴データを、画像をシーンに分類するためのエビデンスとして用いることができる。
例えば、各分割領域における画素特徴データは、確率モデルへの入力データとすることができ、画像のシーンを決定するための確率モデルへのエビデンスとして用いることができる。確率モデルについては、以下に詳述する。

一実施形態において、エビデンス生成モジュール２０８は、シーン分類モジュール２１２に、画像の各分割領域に対応する画素特徴データを送信することができる。
他の実施形態において、エビデンス生成モジュール２０８は、各分割領域に対応する画素特徴データを、記憶装置２４５またはメモリ２３７に格納することができる。

学習モジュール２１０は、確率モデルを学習するためのルーチンを含むソフトウェアである。一実施形態において、学習モジュール２１０は、プロセッサ２３５で実行可能な命令の集合を含む。また、一実施形態において、学習モジュール２１０は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
学習モジュール２１０は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

実施形態における確率モデルとは、画像のシーンを分類するためのモデルである。
一実施形態において、確率モデルは、ベイズネットワークのような、確率的グラフィカルモデルである。確率モデルの例を、図８Ａおよび図８Ｂに示す。
一実施形態において、学習モジュール２１０は、画像の分割領域に関連付いた画素特徴データ（例えば仮想的なエビデンスデータ）を含む学習データセットを取得する。学習データセットにおける画像のシーンは、予め分類され、複数のラベルによってラベリングされたものである。学習モジュール２１０は、下記に示すように、学習データセットを用いた確率モデルの学習を実行することができる。
例えば、学習モジュール２１０は、学習データセットを用いて、確率モデルの構造、入力ノード、出力ノードを学習することができる。

ベイズネットワークは、同時確率分布を局所確率モデルに因数分解したものである。各々が、ネットワーク内の一つのノードに対応しており、ノード間の有向アークは、別のノードの確率モデルにおける、あるノードの確率モデルの条件を表す。推論（分類など）は、当該アークの因果方向に対向する方向に働く。推論は、ネットワーク内の低次のエビデンスから、ベイズネットワークの最上位に位置するクラスノード（シーン変数ノード）へと流れる。クラスノードでは、ベイズネットワークが、クラス変数（ここではシーン変数）に関する事後分布を生成することができる。

ベイズネットワークは、異なる分割入力、異なる出力カテゴリ、異なる構造制約の下で、簡単に再学習することができる。これらの出力カテゴリは、ユーザによって提供されてもよく、場合によっては、現在のベイズネットワークにないカテゴリを含むことができる。
例えば、アプリケーションは、ユーザによって導入され、ベイズネットワークに存在しないシーンカテゴリを考慮し、シーンに対応する詳細を入力するようにユーザに促してもよい。
ベイズネットワークは、これらの例を用いて、新しい場面カテゴリを取り込むために再学習することができる。異なるエビデンスのタイプを入力とし、あるいは、異なる種類として定義されたノードを出力としてテストするためのモデルを簡単に変更できることは、本明細書に記載のシーン識別技術の利点である。
このモデルの構造は、ドメインの特性を表すモデル変数間の依存関係を発見することができる。

ベイズネットワークのような確率モデルの学習は、
（１）入力変数および出力変数の構造を学習する
（２）可変的な条件付き確率テーブルのパラメータを学習する
という二つの態様を含む。構造とパラメータの学習は、同時に行われてもよい。また、入次数およびノード順を制限するために制約を用いることができる。
また、ベイズネットワークの学習は、インタラクティブに実行されることができる。

図８Ｂに示したように、ベイズネットワークのような確率モデルは、複数のレベル（例えば最上位レベルと下部のレベル）で構築されることができる。図８Ｂの例では、出力が最上位レベル、入力が下部レベルである。この複数のレベル構造は、ベイズネットワークを使用して分類を行うための標準的な構造を提供することができる。本例の場合、確率モデルは複数の出力ノードを持っていてもよい。
ベイズネットワークの入力ノードは、仮想エビデンスノードと呼ばれる場合がある。仮想エビデンスノードは、出力を生成するためのエビデンスをベイズネットワークに提供することができる。各々の入力ノードは、画像に含まれる分割領域の一つに対応し、当該分割領域に関連付いた画素特徴データを取得し、確率モデルへの入力データとすることができる。例えば、一つの入力ノードが一つの分割領域に対応してもよい。この場合、ベイズネットワークの入力ノードの数は、画像の分割領域の数と同一となる。

また、ベイズネットワークにおいて、入次数とノード順を制限するために、更なる制約
が用いられてもよい。例えば、エビデンスノードの入次数は、二つに限定することができる。
一実施形態において、ノードの順序は、構造上の制約として課すことができ、その結果、条件付けアークが低次から高次へと移動できなくなる。
なお、シーン変数の間で課される更なる因果制約があってもよい。例えば、「周辺環境」というシーン変数は車道のタイプに影響するが、逆は成り立たない。別の例では、「周辺環境」というシーン変数は、「運転状況」という変数に影響するが、逆は成り立たない。
結果的に、確率モデルは、ほぼ純粋なベイズ構造に従うが、学習時に行われたモデル選択の結果である追加アークを伴う。学習過程で作成されたアークは、入力変数と出力変数との間で発見された依存関係を表し得る。

一実施形態において、学習モジュール２１０は、ベイズネットワークを学習させるための仮想的なエビデンスとして、分割領域の画素特徴データを用いることができる。
一例において、仮想的なエビデンスを含むサンプルからベイズネットワークの近似学習を行うための、少なくとも三つの方法が存在する。

第一の方法は、仮想エビデンスの状態ごとの尤度比に準じて各エビデンス行の倍数を生成することにより、ほぼ同等の観察エビデンスデータセットに変換する方法である。
複数の仮想エビデンスノードが存在する場合、仮想エビデンスノード間の依存関係を捕捉する操作により、行セットの組合せ爆発を引き起こしうる。すなわち、仮想エビデンスノード状態の組合せごとの倍数が、状態組合せの尤度に比例して多重化しうる。その複雑度は、すべての仮想エビデンスノードを結合してサンプリング用の一ノードにすることに匹敵する。

同様に、学習モジュール２１０は、すべての仮想エビデンスノードの組合せからサンプリングを行い、サンプル内の項目に基づいてサンプル行を生成することができる。これは、仮想状態をサンプリングするロジックのようなものである。両手法とも、学習重みを等しくするための方法として、学習セットに複数の行コピーを作成する。あるいは、学習モジュール２１０が、その尤度に応じて、サンプリングされたトレーニングセットの各行に重みを付けても良い。

第二の方法は、学習された決定論的エビデンスモデルの混合である「マルチネット」を考慮した方法である。これらのモデルは、同じ構造を有し得るため、結果は、尤度によって重み付けされた条件付確率表（ＣＰＴ）の混合となる。この手法は、混合構成要素の組合せ爆発を被ることがあり、サンプリングによってセットが減少しやすい場合がある。

第三の方法は、仮想エビデンスノードの子として追加された仮想ノードによる、仮想エビデンスを考慮する方法である。当該仮想エビデンスノードは、その親に同等の尤度ベクトルを送るようにインスタンスが生成される。多くの場合、各ケースにおいて、ネットワークに追加された仮想ノード群が生じ、管理できない可能性のある方法を再び生成する。一実施形態において、学習モジュール２１０は、一つのノード群を有するネットワークを構築し、一つの学習ステップを実行し、その後ノードを次の群で置き換え、学習ステップを繰り返すことができる。なお、その他の方法も採用可能でもある。

本明細書に記載の確率モデルを学習するためのサンプルデータセットが、上記第一の方法におけるさらなる推定となり得る。そこでは、各仮想エビデンスノードを独立してサンプリングすることにより、この問題を、サンプリングされたデータを有する同等の問題に変換することができる。そのため、各ヒストグラムは、当該分布を用いてサンプリングすることにより、そのヒストグラムを推定した従来のエビデンスサンプル群を生成すること
ができる。結果は、行数に、ヒストグラムデータセット内の行ごとのサンプルサイズを掛け合わせた拡張データセットとなる。
結果として生成される学習データセットの詳細は、例えば以下のようになる。
１）５つのシーンラベルによってラベル付けされた、画像の１２の領域ヒストグラムの１２２の行が、元のデータセットとして存在する
２）各領域ヒストグラムが１０回サンプリングされ、１２２０行が生成される
３）１２２０行によって、５つのラベルと１２個の特徴が表された最終データセットが得られる
学習データセットを用いて評価した結果の例を、図７Ｂに示す。

シーン分類モジュール２１２は、画像で表現されたシーンを分類するためのルーチンを含むソフトウェアである。
一実施形態において、シーン分類モジュール２１２、画像で表現されたシーンを分類するために、以下に記す構造、処理、または機能を提供する、プロセッサ２３５で実行可能な命令の集合を含む。また、一実施形態において、シーン分類モジュール２１２は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
シーン分類モジュール２１２は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

シーン分類モジュール２１２は、エビデンス生成モジュール２０８や記憶装置２４５から、画像内の複数の分割領域に関連する画素特徴データの複数のセットを取得することができる。
また、シーン分類モジュール２１２は、記憶装置２４５や学習モジュール２１０から、確率モデルを表すデータを取得することができる。
シーン分類モジュール２１２は、以下に詳述するように、複数の画素特徴データと確率モデルのセットに基づいて、画像のシーンを分類することができる。

一実施形態において、複数の画素特徴データのセットは、それぞれが分割領域に対応する複数の尤度ベクトルである。
シーン分類モジュール２１２は、複数の尤度ベクトルと確率モデルに基づいて、一つ以上のシーン変数に関連づいた分布を決定することができる。
例えば、シーン分類モジュール２１２は、確率モデルへの入力データとして複数の尤度ベクトルを用いることができ、一つ以上のシーン変数に関連付いた分布を表す確率モデルの出力を生成することができる。
一つ以上のシーン変数に関連付いた分布は、一つ以上のシーン変数の同時分布、一つ以上のシーン変数の条件付き分布、シーン変数ごとの個別分布、またはこれらの組合せを含む。
一実施形態において各シーン変数の分布は、これらが画素タイプの分布に依存するように、他のシーン変数に依存する。これは、同時分布（例えば全てのシーン変数の分布）を形成するシーン変数による。

シーン変数は、シーンのカテゴリを表す変数である。
シーン変数の例として、例えば、周辺環境、道路のタイプ、運転状況、動的環境、道路障害物状況などが挙げられるが、これに限られない。また、各シーン変数は、ラベルのセットを有していてもよい。シーン変数のラベルは、シーン変数に対する確率値を表す値である。
例えば、「道路」というシーン変数は、「カーブと勾配」「自動車専用道」「狭隘」「路肩なし」「駐車車両あり」等といったラベルを持つ。
また、「周辺環境」というシーン変数は、「ゾーニング」「開発区域」「商業地区」「
山岳」「田園」「住宅地」「都市部」等といったラベルを持つ。
また、「運転状況」というシーン変数は、「自転車と歩行者」「交通と混雑度」「障害物なし」等といったラベルを持つ。
また、「動的環境」というシーン変数は、照明や天候といった視程に関するラベル（例えば、逆光による視界不良」「曇り」「晴れ」「天候による視界不良」など）等といったラベルを持つ。
また、「道路障害物状況」というシーン変数は、「障害物なし」、「工事中」、「合流または交差点」、「木の幹や柱」等といったラベルを持つ。

シーン分類モジュール２１２は、画像におけるシーンの分類を、一つ以上のシーン変数に関連付いた分布に基づいて決定する。
例えば、シーン分類モジュール２１２は、一つ以上のシーン変数に関連付いた分布に基づいて、各シーン変数の一つのラベルを、画像に割り当てる。
更なる例として、シーン変数に関連する分布が、シーン変数の同時確率分布であると仮定する。当該同時確率分布は、以下のような場合に、高い確率値を有する。
（１）シーン変数「道路」が、第一のラベル「カーブと勾配」であり、
（２）シーン変数「環境」が、第二のラベル「山岳」であり、
（３）シーン変数「運転状況」が、第三のラベル「障害物なし」であり、
（４）シーン変数「動的環境」が、第四のラベル「曇り」であり、
（５）シーン変数「障害物」が、第五のラベル「合流または交差点」であった場合。
この結果、シーン分類モジュール２１２は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。

別の例において、シーン変数に関連する分布が、各シーン変数の個々の確率分布を含むと仮定する。この場合、
（１）シーン変数「道路」の確率分布は、当該シーン変数の第一のラベルが「カーブおよび勾配」である場合に高い確率値を有する。
（２）シーン変数「環境」の確率分布は、当該シーン変数の第二のラベルが「山岳」である場合に高い確率値を有する。
（３）シーン変数「運転状況」の確率分布は、当該シーン変数の第三のラベルが「山岳」である場合に高い確率値を有する。
（４）シーン変数「動的環境」の確率分布は、当該シーン変数の第四のラベルが「曇り」である場合に高い確率値を有する。
（５）シーン変数「障害物」の確率分布は、当該シーン変数の第五のラベルが「合流または交差点」である場合に高い確率値を有する。
この結果、シーン分類モジュール２１２は、第一〜第五のラベルを画像に割り当て、分類された画像のシーンは、前記第一〜第五のラベルによって表されたものとなる。

さらなる例として、画像のＭ個の領域に対応する仮想エビデンスノードを有する確率モデルを用いてシーン分類を行ってもよい。各エビデンスノードは、画素特徴データ（仮想エビデンスなど）を、ラムダメッセージλ_ｍという形態で受け取ることができ、状態尤度は、Ｈ_ｍが提供する比で表される。確率モデルは、ノードのサブセットＳ＝｛Ｓ_１，・・・Ｓ_Ｖ｝を有する。このサブセットは、シーン変数ノード群を表し、各シーン変数ノードは別個の状態空間を有する（例えば、各シーン変数は別個のラベル群を有する）。
シーン分類は、
（１）Ｐ（Ｓ｜λ_１・・・λ_ｍ)、すなわちＭ個の分割領域からのλ_ｍメッセージが適用
された場合のＳの同時分布
（２）Ｓに関する最大事後確率（ＭＡＰ）構成による同時分布の特徴、または
（３）Ｓの事後周辺分布
によって表すことができる。

一実施形態において、シーン分類モジュール２１２は、画像全体のシーンを分類することができる。
例えば、シーン分類モジュール２１２は、画像によって示されるコンテンツの全体の全体的な印象を決定し、画像を一つ以上のシーンカテゴリのラベルに分類するため、全体的な印象を使用することができる。
ここに記載された、この全体的なシーン分類は、シーンの一部のみに適用したり、シーンの一部のオブジェクトなどの、シーンを構成する一部のみを識別した結果に依存する他の分類とは異なる。

一実施形態において、シーン分類モジュール２１２は、シーン分類の性能を評価することができる。例えば、仮のデータセットについてのテストは、シーン変数の分類のうち、良好な正確度（Accuracy）（例えば７０％を超える正確度）を示す。
評価結果の例を、図７Ｂに示す。

シーン利用アプリケーション１１７は、ユーザに対してアドバイスまたはアシストするための様々なアプリケーションにおいて、シーンを利用するためのルーチンを含むソフトウェアである。
例えば、シーン利用アプリケーション１１７は、アプリケーションマーケットからクライアント装置１１５や移動プラットフォーム１３５にダウンロードされた「アプリ」であってもよく、車両における、インフォマティックス・ソフトウェアシステムであってもよい。
また、クライアント装置１１５等で動作するネイティブアプリケーションであってもよい。
また、ブラウザからアクセスされるウェブベースのアプリケーション等であってもよい。
シーン利用アプリケーション１１７は、ナビゲーション、マッピング、ソーシャルネットワーク、コミュニケーション、おすすめ、メディアなどを含む、様々な異なるアプリケーションを含み、または、表したものであってもよい。
一実施形態において、シーン利用アプリケーション１１７は、ユーザに対してアドバイスまたはアシストするための様々なアプリケーションにおいて、シーンを利用するため、以下に記す構造、処理、または機能を提供する、プロセッサ２３５で実行可能な命令の集合を含む。また、一実施形態において、シーン利用アプリケーション１１７は、コンピュータ２００のメモリ２３７に格納され、プロセッサ２３５によってアクセスされ、実行されてもよい。
シーン利用アプリケーション１１７は、プロセッサ２３５およびコンピュータ２００の他の構成要素と協働して通信するように最適化されてもよい。

一実施形態において、シーン利用アプリケーション１１７は、シーン分類モジュール２１２や記憶装置２４５から分類された画像のシーンを取得し、ユーザにシーン分類結果を提示するユーザインタフェースを提供するために、グラフィックデータを生成することができる。シーン分類結果は、画像の分類されたシーンを表す。
シーン利用アプリケーション１１７は、クライアント装置１１５や移動プラットフォーム１３５にグラフィックデータを送信し、ユーザインタフェースをユーザに提供させることができる。
また、シーン利用アプリケーション１１７は、他のユーザインタフェースをユーザに提供するためのグラフィックデータを生成してもよい。

シーン分類の目的のひとつに、シーン変数に割り当てられたラベルから、現在のビューの概略を取得することがある。
例えば、シーン分類は、「あなたが見ているものに基づいて、場所をどのように説明しますか？」といった質問に対する答えを提供することができる。
一実施形態では、シーン利用アプリケーション１１７は、シーンに特有なおすすめをユーザに提供することができる。
例えば、分類されたシーンは、環境におけるコンテキストを提供することができ、シーン利用アプリケーション１１７は、ユーザに対する適切なおすすめを決定するために分類されたシーンを利用することができる。
例えば、個別化されたおすすめを作成する際に、分類されたシーンにおけるコンテキストを用いて、「ブリトーを食べたくありませんか？」や「ここは、それを見つけられる場所ではありません」などのリクエストの実際性を判断することができる。

一実施形態において、シーン利用アプリケーション１１７は、「シーン拡張検索」をユーザに提供することができる。
例えば、シーン利用アプリケーション１１７は、「市街地でワイナリーを見つける」「僻地でレストランを見つける」「行ったことのない住宅地にある、混んでいない公園を見つける」等といったような、ローカルな環境の特徴を用いて検索を補足することができる。

一実施形態において、シーン利用アプリケーション１１７は、現在の環境における好ましさについてのスコアを決定することができる。
経路を選択する際にドライバーは、しばしば当該経路における快適さを考慮に入れる。
例えば、ドライバーは、「この場所からの眺めはどうか？」「この地域の日当たりや日陰はどの程度か？」「環境における自然と人造物の割合はどの程度か？」等を考慮する場合がある。
好ましい場所についての個々のドライバーの評価があれば、シーン利用アプリケーション１１７は、他の望ましい経路をドライバーに提案してもよい。当該望ましい経路は、最も短い、または、最も速いルートとは異なる場合がある。

一実施形態において、シーン利用アプリケーション１１７は、クラウドをソースとしたシーン特徴の集約結果をユーザに提供することができる。
シーン利用アプリケーション１１７は、近隣箇所に関するクラウドソーシングされた情報を収集して、ある地域の全体像を形成することができる。
本例は、上述した例の拡張である。
クラウドソースのデータを用いることで、ドライバーは、例えば「道路上の人の群れがどこまで延びていますか？（例えばロードレースやパレードなどの場合）」という質問に対する回答といったような、集約された状況についての情報を近隣の車両から得ることができる。

ここに記述されるシーン分類技術は、オブジェクト認識とは多くの点において異なる。オブジェクト認識技術は、画像内の物体の存在、識別情報、姿勢などを取得するタスクであるが、本明細書に記載のシーン分類は、画像全体に対して推論を行うタスクである。一方、オブジェクト認識技術は、オブジェクトと、オブジェクト以外（背景）を区別することにフォーカスを置いている。
オブジェクト認識技術と比較して、シーン分類技術は、画像を全体的に処理することによって、計算コストの削減を達成することができる。
例えば、シーン分類技術は、あらかじめ定義されたカテゴリのセットから、画像を「屋内」、「屋外」、「都市部」、「地方部」などの種類に割り当てることができる。
シーン分類は、「カテゴリのラベルに終端部を割り当てること」とみなすことができる。カテゴリでは、画像に複数のラベル群にわたる値を割り当てることができ、終端部はいくつかのシーン変数にわたる同時分布となり得る。

（処理フローチャート）
図３は、画像からシーンを推定する方法３００のフローチャートである。
まず、画素分類モジュール２０６が、カメラ１０７、記憶装置２４５、画像プロセッサ２０２またはシステム１００のもう一つの構成要素から、画像を表すデータを取得する（ステップ３０２）。
また、分割モジュール２０４が、シーンに対応する分割領域を決定する（ステップ３０４）。分割領域の形状は、前述したように、一つ以上のコンテキスト属性に基づいて決定される。分割レイアウトは複数の分割領域から構成され、各分割領域は、シーンごとに対応するものが用いられる。
画像はシーンを表すものであり、その取得タイミングは、分割領域を決定する前であってもよいし、決定中、または決定後であってもよい。

次に、画素分類モジュール２０６が、各分割領域の画素を一つ以上の画素タイプに分類する（ステップ３０６）。例えば、画素分類モジュール２０６は、分割領域を画像に適用し（例えば整列させる）、どの画素がどの分割領域に属するか決定したうえで、画像の各分割領域に含まれる画素を、一つ以上の画素タイプに分類する。
例えば、画素分類モジュール２０６は、予め定められた８つの画素タイプから、分割領域の各画素を、一つの画素タイプに分類することができる。

次に、各分割領域について、エビデンス生成モジュール２０８が、当該分割領域内の画素の画素タイプに基づいて、分割領域に含まれる画像の一部分に対応する画素特徴データのセットを決定する（ステップ３０８）。
次に、シーン識別モジュール２１２が、分割領域に対応する各々の画素特徴データのセットに基づいて、画像のシーンを分類する（ステップ３１０）。
例えば、シーン識別モジュール２１２は、複数の分割領域に関連付いた画素特徴データの複数のセットを、確率モデルへの入力として使用し、当該確率モデルの出力に基づいて画像のシーンを分類することができる。

図４Ａおよび図４Ｂは、画像からシーンを推定するもう一つの方法４００のフローチャートである。
図４Ａを参照して説明する。
まず、学習モジュール２１０が、学習データセットに基づいて、入力ノードおよび出力ノードを含む確率モデルの学習を行う（ステップ４０２）。
入力ノードは、画素特徴データを確率モデルに入力するための仮想エビデンスノードである。また、出力ノードは、シーン変数に関連付いた分布を出力するシーン変数ノードである。
次に、カメラ１０７が、移動プラットフォーム１３５の周辺環境（例えばシーン）を表す画像（例えばビデオフレームや静止画像）を取得する（ステップ４０４）。
次に、画像プロセッサ２０２が、カメラ１０７、記憶装置２４５やシステム１００の他の構成要素から、画像を表すデータを取得する（ステップ４０５）。
なお、画像プロセッサ２０２が、画像を処理する前に、画像に含まれる画素を減らしてもよい（ステップ４０６）。例えば、画像プロセッサ２０２は、取得した画像をダウンサンプルして、ダウンサンプル画像を生成することができる。
次に、分割モジュール２０４が、画像に対応する分割レイアウトを、移動プラットフォーム１３５（例えば車両）の一つ以上のコンテキスト属性や、移動プラットフォーム１３５の移動環境に基づいて決定する（ステップ４０８）。
次に、画素分類モジュール２０６が、画像の各分割領域に含まれる各画素を、画素タイプのセットの中からいずれかの画素タイプに分類する（ステップ４１０）。

次に、エビデンス生成モジュール２０８が、分割領域ごとに、分割領域で分割された画像の一部を特徴付けるデータである、画素タイプのヒストグラムを生成することにより、画素タイプのセットと関連付いた画素タイプの分布を生成する（ステップ４１２）。

図４Ｂを参照して説明する。
次に、エビデンス生成モジュール２０８が、分割領域ごとに、生成したヒストグラムに基づいて尤度ベクトルを生成する（ステップ４１４）。
次に、シーン分類モジュール２１２が、分割領域に関連付いた尤度ベクトルと、確率モデルに基づいて、一つ以上の、シーン変数に関連付いた分布を決定する（ステップ４１６）。
次に、シーン分類モジュール２１２が、当該分布を用いて、画像のシーンを決定する（ステップ４１８）。
また、シーン利用アプリケーション１１７が、様々なシーンアプリケーションにおいて、分類されたシーンを適用する（ステップ４２０）。

図５を参照して、ステップ４２０についてより詳しく説明する。
図５は、様々なアプリケーションにおいて、分類されたシーンを利用する方法４２０のフローチャートである。
まず、シーン利用アプリケーション１１７が、記憶装置２４５やシーン分類モジュール２１２から、分類されたシーンを表すデータを取得する（ステップ５０２）。
次に、シーン利用アプリケーション１１７が、ユーザにおすすめを提供するか否かを決定する（ステップ５０４）。ここで、おすすめをユーザに提供する場合、方法４２０はステップ５０６に遷移し、それ以外の場合、方法４２０はステップ５０８に遷移する。
ステップ５０６では、シーン利用アプリケーション１１７が、ユーザに対するおすすめを行うためのコンテキストを提供するために、分類されたシーンを適用する。その後、処理はステップ５０８に遷移する。

次に、ステップ５０８で、シーン利用アプリケーション１１７が、ユーザのために検索を実行するか否かを決定する。ここで、ユーザのために検索を実行する場合、方法４２０はステップ５１０へ遷移し、それ以外の場合、方法４２０はステップ５１２へ遷移する。
ステップ５１０では、シーン利用アプリケーション１１７が、ローカル環境を用いた検索を補完するために、分類されたシーンを利用する。その後、方法４２０はステップ５１２へ遷移する。

次に、ステップ５１２で、シーン利用アプリケーション１１７が、シーンを評価するか否かを決定する。ここで、シーンを評価する場合、方法４２０はステップ５１４へ遷移する。それ以外の場合、方法４２０はステップ５１６へ遷移する。
ステップ５１４では、シーン利用アプリケーション１１７が、分類されたシーンに関連した場所における、現在の状況を評価する。その後、方法４２０はステップ５１６へ遷移する。例えば、シーン利用アプリケーション１１７は、シーンにおける環境の快適さを評価することができる。

次に、ステップ５１６では、シーン利用アプリケーション１１７は、他のユーザから得たクラウドソースの情報の有無を判断する。ここで、クラウドソースの情報を利用する場合、方法４２０はステップ５１８へ遷移する。それ以外の場合、方法４２０は終了、または、上述の処理を繰り返す。
ステップ５１８では、シーン利用アプリケーション１１７が、地域の全体像を形成するために、クラウドソースの情報を適用する。その後、方法４２０は終了、または、上述の処理を繰り返す。

（グラフィック表現）
図６Ｊは、画像における画素レベルの分類を例示するグラフィック表現６００である。本例では、画像中の画素１と画素２が、「空」という画素タイプに分類され、画素３と画素５は、「樹木」という画素タイプに分類され、画素４と画素６は、「建物」という画素タイプに分類される。
図６Ｋは、分割レイアウト６５５を例示するグラフィック表現である。例示されたように、分割レイアウトは、中心点６５６で収束する１２個の領域を含む。１２個の領域の各々は、中心点６５６から、画像の端に対応する端辺に向かって延びている。
図６Ｊから図６Ｋにおける、画素番号１〜６は、いくつかの例において一致する。

図８Ｂは、確率モデルを例示するグラフィック表現８２０である。
確率モデルは、複数の入力ノード８２２と、複数の出力ノード８２４ａ…８２４ｎを含む。各々の入力ノード８２２は、画像における分割領域にそれぞれ対応しており、確率モデルへの入力データとして、当該分割領域に関連した画素特徴データのセットを用いる。
各々の出力ノード８２４は、シーン変数を表し、確率モデルは、シーン変数と関連した一つ以上の分布を出力することができる。
出力される分布は、シーン変数の同時分布、各シーン変数の個々の分布、シーン変数の条件つき分布、またはその組合せなどである。
２つのノードをつないでいるラインまたはアーク（例えば、ノード８２４ａとノード８２４ｎを繋ぐライン８２６、ノード８２４ａとノード８２９を繋ぐライン８２８）は、二つのノード間の依存または関連を示す。
ここに示した確率モデルの構造は一例である。
さらなる実施形態において、確率モデルは、異なる入力ノード、異なる出力ノード、および、ノード間を繋ぐ異なるラインを持っていてもよい。

図７Ａは、混同行列を例示するグラフィック表現７００である。
確率モデルの学習過程において、シーン分類モジュール２１２は、シーン変数ごとに混同行列を生成し、全てのシーン変数に対応する混同行列を、シーン分類のパフォーマンスを評価するために使用することができる。
図７Ａに示したように、シーン変数に関連付いた混同行列は、予測されたラベル７０２と真のラベル７０４の数を表す行列である。
混同行列の行は、真のラベル７０４であり、混同行列の列は、予測されたラベル７０２である。
予測されたラベルは、画像における、推定されたラベルである。また、真のラベルは、画像における、実際のラベルである。
予測されたラベルが真のラベルと同一であれば、シーン変数についての画像の分類は正しいことになる。さもなければ、シーン変数についての画像の分類は誤っているということになる。
例えば、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」と同じものであった場合、「カーブと勾配」を予測した画像の分類は正しいことになる。これに対し、もし、「車道」というシーン変数についての、予測されたラベルが、真のラベル「カーブと勾配」とは異なる「狭隘」というラベルであった場合、「狭隘」を予測した画像の分類は誤っていることになる。

混同行列の対角要素は、予測したラベルが正しかった数を意味する。
例えば、「５０」という値を有する第一の対角要素は、シーン分類モジュール２１２が、ラベルを「１」と予測し、実際のラベルが「１」であったことが５０回あったことを表す。
非対角要素は、分類エラーを表す。例えば、「２」という値を有する非対角要素は、シーン分類モジュール２１２が、ラベルを「２」と予測し、実際のラベルが「１」であった
ことが２回あったことを表す。
また、「４」という値を有する非対角要素は、シーン分類モジュール２１２が、ラベルを「１」と予測し、実際のラベルが「２」であったことが４回あったことを表す。

各列の合計は、対応するラベルが、画像に対応するラベルとして予測されたカウント数を表す。
例えば、列７０８は、ラベル１として予測された回数が５９回あり、そのうち、真のラベルがラベル１であった回数が５０回あり、ラベル２であった回数が４回あり、ラベル３であった回数が５回あったことを表す。
各行の合計は、対応するラベルが、画像の真のラベルであった総カウント数を表す。
例えば、行７０６は、真のラベルがラベル１であった回数が５５回あり、そのうち、予測されたラベルがラベル１であった回数が５０回あり、ラベル２であった回数が２回あり、ラベル３であった回数が３回あったことを表す。

ラベルの再現率（Recall）やカバレッジは、正しいラベルに分類されたケースと、全ラベルの分類ケースとの比率である。
ラベルに対応する再現率は、以下の比率として計算できる。
（１）ラベルに関連付いた対角要素
（２）ラベルに関連付いた行の合計
例えば、ラベル１に対応する再現率は、ラベル１に関連した対角エントリ「５０」と、例えば行７０６の合計との間の比率（例えば、５０／（５０＋２＋３）＝０．９１）として計算できる。
ラベルに対応する再現率が高い値であることは、ラベルの分類がより正確なことを示す。

ラベルに対応する適合率（Precision）は、以下の比率として計算できる。
（１）ラベルに関連付いた対角要素
（２）ラベルに関連付いた列の合計
例えば、ラベル１に対応する適合率は、ラベル１に関連した対角要素「５０」と、例えば列７０８の合計の間の比率（例えば、５０／（５０＋４＋５）＝０．８５）として計算できる。
ラベルに対応する適合率が高い値であることは、ラベルの分類がより正確なことを示す。

図７Ｂは、シーン分類の評価結果を例示するグラフィック表現７５０である。
表１は、「周辺環境」というシーン変数に関連付いた異なるラベル（例えば、山岳、田園、住宅地、都市部）に対応する再現率と適合率を例示する。
表２は、「道路」というシーン変数に関連付いた異なるラベル（例えばカーブと勾配、自動車専用道、狭隘、路肩なし、駐車車両あり）に対応する再現率と適合率を例示する。
表３は、「運転状況」というシーン変数に関連付いた異なるラベル（例えば自転車と歩行者、交通と混雑、障害物なし）に対応する再現率と適合率を例示する。
表４は、「道路障害物状況」というシーン変数に関連付いた異なるラベル（例えば障害物なし、工事中、合流と交差点、分岐）に対応する再現率と適合率を例示する。

表１と表４と比較すると、「周辺環境」というシーン変数のラベルの再現率と適合率の平均が、「道路障害物状況」というシーン変数のラベルの再現率と適合率の平均よりも優れていることがわかる。これは、シーン変数「道路障害物状況」の分類が、単に走行車線における細部を考慮するだけなのに対し、シーン変数「周辺環境」の分類は、画像全体を考慮するためである。表３において、自転車と歩行者は、画像中の小さな領域に現れるだけであるため、ラベル「自転車と歩行者」に対応する再現率は低い。
シーン分類モジュール２１２は、周辺予測の精度を評価することに加え、図８Ａに描かれているベイズネットワークによって学習された構造について観察することもできる。

図８Ａは、ベイズネットワークのような確率モデルを例示するグラフィック表現８００である。この例では、シンボルＳ＿１〜Ｓ＿８を含む、８０２，８０６，８０８といった各ブロックが、確率モデルの入力ノードを表し、分割領域ごとに割り当てられた画素特徴データ（例えば仮想的なエビデンス）である。
図中の入力ノードは、画像中の対応する分割領域のおおよその位置に配置されている。
また、シンボルＳ＿１〜Ｓ＿８は、例えば、木、建物、空、葉、建築物、路面、車線、歩道、車両、歩行者などの異なる画素タイプを表す。
各々のブロックは、それぞれの分割領域における画素タイプの割合を表す値を含む。例えば、ブロック８０２では、画素タイプ「Ｓ＿１」は３．４％という値を持ち、画素タイプ「Ｓ＿２」は２．８％という値を持つ。
各々のブロックのタイトルにある数値は、中心点からの分割線の角度を表す。
例えば、「Ｎ＿ＢＬ＿６０＿８０」は、左側の６０度から８０度の間にある分割領域を表す。また、「Ｎ＿ＢＲ＿６０＿８０」は、右側の６０度と８０度の間にある分割領域を表す。

灰色で塗られた、ブロック８０４のようなブロックは、確率モデルの出力ノードであり、「道路」「周辺環境」「運転状況」「動的環境」「道路障害物状況」のようなシーン変数に対応している。
各々のシーン変数は、ラベルのセットと、当該ラベルに対応する値を持つ。
例えば、ブロック８０４のシーン変数「動的環境」は、「逆光による視界不良」が３．７％という確率値を持ち、「曇り空」が７７．８％という確率値を持ち、「晴れ」が１７．３％という確率値を持ち、「天候による視界不良」が１．２％の確率値を持つことを表す。

確率モデルを連結するアークまたはラインは、どの入力ノードがどのシーン変数に関連するかを示す。これらのアークは、エビデンスノードの入次数が２つに制限されているため、比較的疎である。
学習モジュール２１０で選択されるアークは、分割領域の位置と、異なるシーン変数との間に強い関連を示す。例えば、「運転状況」シーン変数が、画像の基部にある分割領域に繋がっており、「環境」シーン変数が、画像の周辺部にある分割領域に繋がっている場合、強い関連が示される。
図の下部にある二つの分割領域（ブロック８０６、８０８など）は、各領域の入来アークが他の分割領域のものであることから、その関連性は限られており、各領域のエビデンスは完全に隣接領域によってサポートされていることを示している。これらのアークまたはラインに沿って進んでいくと、区画依存という点から、分割領域から学習されるアークは一つだけであり、そのシーンに寄与したエビデンスは、この事例を除くすべての事例において、条件付きで独立していることを表している。
シーン変数の下位ネットワークはさらに接続されており、シーン変数間の強い依存関係を表している。例えば、「道路」というシーン変数における「カーブと勾配」は、「周辺環境」というシーン変数における「山」に対して強い相関を示す。

図９は、画像からシーンを推定する処理を例示するグラフィック表現９００である。
画像によってどのようなシーンが表されているか不明な状態で、分割モジュール２０４は、一つ以上のコンテキスト属性（例えば、車両、車両の移動環境など）に基づいて、画像の分割領域を形成する分割レイアウト９０２を決定する。
画素分類モジュール２０６は、画像に分割領域を適用したうえで、ブロック９０４に示すように、一つ以上の画素タイプに各分割領域内の画素を分類する。
また、エビデンス生成モジュール２０８は、ブロック９０６に示すように、分割領域ごとに異なる、画素タイプのヒストグラムを生成する。
また、シーン分類モジュール２１２は、ブロック９０８に示すように、各々の分割領域のヒストグラムに基づいてシーン分類を実行する。例えば、シーン分類モジュール２１２は、所定のシーンのタイプのヒストグラムとの比較に基づいてシーン分類を行い、「山と乾燥地形」というシーンを決定する。

図１０は、画素レベルの分類のもう一つの例を示すグラフィック表現１０００である。
画像プロセッサ２０２は、オリジナル画像１００２を、９６ピクセル×５４ピクセルの解像度にダウンサンプルすることができる。
画像内の車線に隣接するバリア１００６ａおよび１００６ｂは、システムを学習させるための重要な特徴である。
画像１００４は、ダウンサンプルされた画像に関連付いた画素タイプを示す。画像１００４の中心から発散している線は、画像に適用されるくさび形の分割領域を表す。
また、画像１００４の色（濃度）は、画素タイプを示す。例えば、領域１００８は葉を表し、領域１０１０ａおよび１０１０ｂはバリアを表す。

以上の説明では、本発明を十分に理解できるように、多くの詳細について説明した。しかしながら、各実施形態はこれらの具体的な詳細無しでも良いことは当業者にとって明らかであろう。また、説明が不明瞭になることを避けるために、構造や装置をブロック図の形式で表すこともある。例えば、実施形態は、ユーザインタフェースおよび特定のハードウェアとともに説明される。しかし、ここでの説明は、データおよびコマンドを受信する任意のタイプの計算装置および任意の周辺機器について適用できる。

本明細書における「１つの実施形態」または「別の実施形態」等という用語は、その実施形態と関連づけて説明される特定の特徴・構造・性質が少なくとも本発明の一つの実施形態に含まれることを意味する。「１つの実施形態における」等という用語は本明細書内で複数用いられるが、これらは必ずしも同一の実施形態を示すものとは限らない。

本明細書の詳細な説明の一部は、非一時的（non-transitory）なコンピュータ可読記憶媒体に記憶されたデータビットに対する動作のアルゴリズムおよび記号的表現として提供される。これらのアルゴリズム的な説明および表現は、データ処理技術分野の当業者によって、他の当業者に対して自らの成果の本質を最も効果的に説明するために用いられるものである。なお、本明細書において（また一般に）アルゴリズムとは、所望の結果を得るための論理的な手順を意味する。処理のステップは、物理量を物理的に操作するものである。必ずしも必須ではないが、通常は、これらの量は記憶・伝送・結合・比較およびその他の処理が可能な電気的または磁気的信号の形式を取る。通例にしたがって、これらの信号をビット・値・要素・エレメント・シンボル・キャラクタ・項・数値などとして称することが簡便である。

なお、これらの用語および類似する用語はいずれも、適切な物理量と関連付いているものであり、これら物理量に対する簡易的なラベルに過ぎないということに留意する必要がある。以下の説明から明らかなように、特に断らない限りは、本明細書において「処理」「計算」「コンピュータ計算（処理）」「判断」「表示」等の用語を用いた説明は、コンピュータシステムや類似の電子的計算装置の動作および処理であって、コンピュータシステムのレジスタやメモリ内の物理的（電子的）量を、他のメモリやレジスタまたは同様の情報ストレージや通信装置、表示装置内の物理量として表される他のデータへ操作および変形する動作および処理を意味する。

本発明は、本明細書で説明される動作を実行する装置にも関する。この装置は要求され
る目的のために特別に製造されるものであっても良いし、汎用コンピュータを用いて構成しコンピュータ内に格納されるプログラムによって選択的に実行されたり再構成されたりするものであっても良い。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な、例えばフロッピー（登録商標）ディスク・光ディスク・ＣＤ−ＲＯＭ・ＭＯディスク・磁気ディスクなど任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体などの、非一時的なコンピュータ可読記憶媒体に記憶される。

発明の具体的な実施形態は、完全にハードウェアによって実現されるものでも良いし、完全にソフトウェアによって実現されるものでも良いし、ハードウェアとソフトウェアの両方によって実現されるものでも良い。好ましい実施形態は、ソフトウェアによって実現される。ここでソフトウェアとは、ファームウェア、常駐ソフトウェア、マイクロコードやその他のソフトウェアを含むものである。

さらに、ある実施形態は、コンピュータが利用あるいは読み込み可能な記憶媒体からアクセス可能なコンピュータプログラムプロダクトの形態を取る。この記憶媒体は、コンピュータや任意の命令実行システムによってあるいはそれらと共に利用されるプログラムコードを提供する。コンピュータが利用あるいは読み込み可能な記憶媒体とは、命令実行システムや装置によってあるいはそれらと共に利用されるプログラムを、保持、格納、通信、伝搬および転送可能な任意の装置を指す。

プログラムコードを格納・実行するために適したデータ処理システムは、システムバスを介して記憶素子に直接または間接的に接続された少なくとも１つのプロセッサを有する。記憶素子は、プログラムコードの実際の実行に際して使われるローカルメモリや、大容量記憶装置や、実行中に大容量記憶装置からデータを取得する回数を減らすためにいくつかのプログラムコードを一時的に記憶するキャッシュメモリなどを含む。

入力／出力（Ｉ／Ｏ）装置は、例えばキーボード、ディスプレイ、ポインティング装置などであるが、これらはＩ／Ｏコントローラを介して直接あるいは間接的にシステムに接続される。

システムにはネットワークアダプタも接続されており、これにより、私的ネットワークや公共ネットワークを介して他のデータ処理システムやリモートにあるプリンタや記憶装置に接続される。モデム、ケーブルモデム、イーサネット（登録商標）は、現在利用可能なネットワークアダプタのほんの一例である。

最後に、本明細書において提示されるアルゴリズムおよび表示は特定のコンピュータや他の装置と本来的に関連するものではない。本明細書における説明にしたがったプログラムを有する種々の汎用システムを用いることができるし、また要求された処理ステップを実行するための特定用途の装置を製作することが適した場合もある。これら種々のシステムに要求される構成は、以下の説明において明らかにされる。さらに、本発明は、特定のプログラミング言語と関連づけられるものではない。本明細書で説明される本発明の内容を実装するために種々のプログラミング言語を利用できることは明らかであろう。

実施形態の前述の説明は、例示と説明を目的として行われたものである。したがって、開示された実施形態が本発明の全てではないし、本発明を上記の実施形態に限定するものでもない。本発明は、上記の開示にしたがって、種々の変形が可能である。本発明の範囲は上述の実施形態に限定解釈されるべきではなく、特許請求の範囲にしたがって解釈されるべきである。本発明の技術に詳しい者であれば、本発明はその思想や本質的特徴から離
れることなくその他の種々の形態で実現できることを理解できるであろう。同様に、モジュール・処理・特徴・属性・方法およびその他の本発明の態様に関する名前付けや分割方法は必須なものでものないし重要でもない。また、本発明やその特徴を実装する機構は異なる名前や分割方法や構成を備えていても構わない。さらに、当業者であれば、モジュール・処理・特徴・属性・方法およびその他の本発明の態様は、ソフトウェア、ハードウェア、ファームウェアもしくはこれらの組合せとして実装できることを理解できるであろう。また、本発明をソフトウェアとして実装する場合には、モジュールなどの各要素は、どのような様式で実装されても良い。例えば、スタンドアローンのプログラム、大きなプログラムの一部、異なる複数のプログラム、静的あるいは動的なリンクライブラリー、カーネルローダブルモジュール、デバイスドライバー、その他コンピュータプログラミングの当業者にとって既知な方式として実装することができる。さらに、本発明の実装は特定のプログラミング言語に限定されるものではないし、特定のオペレーティングシステムや環境に限定されるものでもない。以上のように、上記の本発明の説明は限定的なものではなく例示的なものであり、本発明の範囲は添付の特許請求の範囲にしたがって定められる。

１０１サーバ
１０７カメラ
１０９推定アプリケーション
１１５クライアント装置
１１７シーン利用アプリケーション
１３５移動プラットフォーム
２０２画像プロセッサ
２０４分割モジュール
２０６画素分類モジュール
２０８エビデンス生成モジュール
２１０学習モジュール
２１２シーン分類モジュール

Claims

コンピュータが行うシーン推定方法であって、
画像を取得する画像取得ステップと、
前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割ステップと、
前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類ステップと、
前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定ステップと、
前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類ステップと、
を含む、シーン推定方法。
前記分割ステップでは、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
請求項１に記載のシーン推定方法。
前記一つ以上の要素は、移動プラットフォームの動きを含み、
前記分割ステップでは、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
請求項２に記載のシーン推定方法。
前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
請求項１から３のいずれかに記載のシーン推定方法。
少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
請求項１から４のいずれかに記載のシーン推定方法。
前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
請求項５に記載のシーン推定方法。
前記中心点は、予測されたエピ極である、
請求項６に記載のシーン推定方法。
前記各分割領域は、前記中心点から画像の端に向けて延出する、
請求項５から７のいずれかに記載のシーン推定方法。
前記画像取得ステップでは、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
請求項１から８のいずれかに記載のシーン推定方法。
前記画像に対応する前記分割領域は５つ以上である、
請求項１から９のいずれかに記載のシーン推定方法。
前記シーン分類ステップでは、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類
する、
請求項１から１０のいずれかに記載のシーン推定方法。
前記シーン分類ステップは、
各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定するステップと、
前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定するステップと、を含む、
請求項１から１１のいずれかに記載のシーン推定方法。
請求項１から１２のいずれかに記載のシーン推定方法の各ステップをコンピュータに実行させるためのプログラム。
画像を取得する画像取得手段と、
前記画像を分割するための領域である分割領域を決定し、前記画像を分割する分割手段と、
前記画像に含まれる画素を、一つ以上の画素レベルの特徴に基づいて、一つ以上の画素タイプに分類する画素タイプ分類手段と、
前記分割領域に含まれる画素の画素タイプに基づいて、前記分割領域ごとに、前記画素タイプの分布を表すデータである画素特徴データの集合を決定する特徴決定手段と、
前記各分割領域に含まれる画素特徴データの集合に基づいて、画像のシーンを分類するシーン分類手段と、
を有する、シーン推定装置。
前記分割手段は、前記画像から独立した一つ以上の要素に基づいて前記分割領域の形状を決定する、
請求項１４に記載のシーン推定装置。
前記一つ以上の要素は、移動プラットフォームの動きを含み、
前記分割手段は、前記各分割領域の形状を、前記移動プラットフォームの動きに少なくとも基づいて決定する、
請求項１５に記載のシーン推定装置。
前記分割領域における画素タイプの分布は、各分割領域における画素タイプのヒストグラムである、
請求項１４から１６のいずれかに記載のシーン推定装置。
少なくとも二つ以上の前記分割領域が、画像内に設定された中心点に向かって収束するように配置される、
請求項１４から１７のいずれかに記載のシーン推定装置。
前記中心点は、シーンの分類の際に使用される一つまたは複数の態様を判断する期待値を設定する基準点であり、前記各分割領域の形状は、前記中心点に基づいて決定される、
請求項１８に記載のシーン推定装置。
前記中心点は、予測されたエピ極である、
請求項１９に記載のシーン推定装置。
前記各分割領域は、前記中心点から画像の端に向けて延出する、
請求項１８から２０のいずれかに記載のシーン推定装置。
前記画像取得手段は、道路上を移動する移動プラットフォームから、前記道路を含んだ画像データを取得する、
請求項１４から２１のいずれかに記載のシーン推定装置。
前記画像に対応する前記分割領域は５つ以上である、
請求項１４から２２のいずれかに記載のシーン推定装置。
前記シーン分類手段は、画像によって示されたコンテンツ全体の印象を決定し、前記コンテンツ全体の印象をさらに用いて、前記画像を一つ以上のシーンカテゴリに分類する、
請求項１４から２３のいずれかに記載のシーン推定装置。
前記シーン分類手段は、
各分割領域に含まれる画素特徴データの集合に基づいて、一つ以上のシーン変数に関連付いた分布を決定し、前記一つ以上のシーン変数に関連付いた分布に基づいて、分類先シーンを決定する、
請求項１４から２４のいずれかに記載のシーン推定装置。