JP2019117547A

JP2019117547A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2019117547A
Application number: JP2017251718A
Authority: JP
Inventors: 希名板倉; Kina Itakura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-18
Also published as: US11049256B2; US20190197695A1

Abstract

【課題】時間的に連続する複数の画像を用いて適切な背景画像を生成すること。【解決手段】画像処理装置は、時間的に連続する複数の画像データを取得する取得手段と、取得手段により取得された複数の画像データに応じた複数の画像のそれぞれにおける第一の領域に対応する値の出現頻度を導出する導出手段と、導出手段により最も高い出現頻度が導出された値と、最も高い出現頻度よりも低い出現頻度が導出された値とを含む複数の値から、複数の画像データに対応する背景を示す背景画像データにおける前記第一の領域の値を決定する決定手段とを備える。【選択図】図３

Description

本発明は、撮像時刻が異なる複数の画像データを用いて、背景画像データを生成する技術に関する。

画像から前景のオブジェクト（以下、前景オブジェクトともいう）を抽出する手法として、背景差分処理技術がある。背景差分処理技術では、背景を示す背景画像と、前景オブジェクトを抽出する対象の画像との差分により、前景オブジェクトを含む前景画像が取得される。前景オブジェクトとは、撮像画像に含まれる所定のオブジェクトのことである。例えば、サッカーまたはラグビーの試合などを想定すると、所定のオブジェクトとは、例えば人物である。一般的に人物は、所定の時間に渡って撮像された撮像画像において、概ね動きが生じている。

特許文献１には、撮像時刻が異なる複数の画像を蓄積していき、蓄積した画像群を用いて背景画像を作成する技術が記載されている。具体的には、画素毎に出現頻度ヒストグラムを作成し、各出現頻度ヒストグラムのうちの中央度数の値を背景画像の各画素の値として用いることが記載されている。

特開２００５−７８１９５号公報

しかしながら、特許文献１に記載の技術では、前景オブジェクトが一定時間動かないで停止している場合、この前景オブジェクトを背景であると誤って判定してしまう。このため、適切な背景画像が生成できない。この結果、前景オブジェクトの抽出精度が低下してしまう。

本発明は、時間的に連続する複数の画像を用いて適切な背景画像を生成することを目的とする。

本発明の一態様にかかる画像処理装置は、時間的に連続する複数の画像データを取得する取得手段と、前記取得手段により取得された前記複数の画像データに応じた複数の画像のそれぞれにおける第一の領域に対応する値の出現頻度を導出する導出手段と、前記導出手段により最も高い出現頻度が導出された値と、前記最も高い出現頻度よりも低い出現頻度が導出された値とを含む複数の値から、前記複数の画像データに対応する背景を示す背景画像データにおける前記第一の領域の値を決定する決定手段と、を備えることを特徴とする。

本発明によれば、時間的に連続する複数の画像を用いて適切な背景画像を生成することができる。

背景画像の生成と前景抽出の概要を説明する図。画像処理装置のハードウェア構成を示すブロック図。画像処理装置の機能構成を示すブロック図。処理の流れを示すフローチャート。データの概要を示す図。有力度合いを決定する処理の概要を示す図。背景画像データの画素値を決定する概要を説明する図。実施形態の効果を説明する図。背景画像の生成と前景抽出の概要を説明する図。画像処理装置の機能構成を示すブロック図。処理の流れを示すフローチャート。画像の視点位置の変換方法を説明する図。有力度合いを決定する処理の概要を示す図。実施形態の効果を説明する図。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜実施形態１＞＞
＜概要＞
まず、実施形態１の概要を説明する。本実施形態においては、画像処理装置によって処理が行われる。画像処理装置の構成の説明については後述する。本実施形態において画像処理装置は、撮像時刻が異なる複数の画像データから、各画素の画素値の統計的な出現頻度をカウントした分布データを生成する。例えば、所定の位置の画素に着目した場合（以下、着目画素という）、複数の画像データにおける着目画素（同一の画素位置）の画素値の統計的な出現頻度をカウントし、着目画素の分布データを求める。画像処理装置は、分布データに基づいて背景画像データの着目画素に対応する画素値の候補データを複数生成する。画像処理装置は、複数の候補データの中から適切な候補データを選択し、選択した候補データに基づいて、背景画像データにおける着目画素の画素値を決定する。このような処理を各画素に対して行うことで背景画像データが生成される。

その後、画像処理装置は、生成した背景画像データを用いて、前景オブジェクトの抽出処理の対象である画像データから、前景オブジェクトを抽出する。以下では、撮像時刻が異なる複数の画像データを、時系列画像データと呼ぶ。本実施形態では、時系列画像データの各画像データにおいて、各画像データを構成する画素の数（画像のサイズ）は、共通であるものとする。

図１は、本実施形態の処理の概要を説明する図である。図１に示すように、時系列画像データ１０１は、時間的に連続する複数の画像データ１０１ａ、１０１ｂ、１０１ｃ・・・１０１ｚによって構成されている。なお、本明細書において、同種のデータをまとめて説明する場合、符号の枝番のアルファベットを省略して記載することがある。本実施形態では、まず、前景オブジェクトを抽出する対象の画像データである時系列画像データ１０１から、画素値の分布の傾向を画素毎に抽出する。画素値の分布の傾向は、例えば時系列画像データ１０１の所定の画素位置における画素値の出現頻度をカウントして得られる分布データ１０２によって表される。分布データ１０２は、画素毎に生成されるデータである。図１では、画素１０４の分布データ１０２ａと、画素１０５の分布データ１０２ｂとを例示的に示している。なお、分布データ１０２は画素ごとでなく所定のブロックごとに生成しても良い。また、すべての画素について分布データ１０２を生成しなければならないわけではない。例えば、背景画像の生成に用いない領域の画素については、分布データ１０２を生成しなくても良い。

図１において分布データ１０２は、画素値を変換して得られた輝度値と頻度とを軸にもつ２次元空間で表されている。しかしながら、分布データ１０２の表現方法はこれに限らない。画素値をＨＳＶやＬａｂなどの異なる色空間に変換した後の色味と頻度との２次元空間で表されてもよい。あるいは、ＲＧＢ３チャンネルの画素値と頻度とを用いた４次元以上の多次元空間として表されてもよい。本実施形態では、画素値を広い幅で量子化して頻度を積算した分布データ１０２が用いられる。例えば、量子化の幅を１０とした場合、画素値０の頻度として画素値０〜９となる画素数をカウントし、画素値５０の頻度として画素値５０〜５９となる画素数をカウントする。これにより、画素値の微小な揺らぎに対するロバスト性が向上する。以下では、積算する画素値の区間を階級と呼ぶ。図１に示す分布データ１０２は、階級ごとの頻度を表すデータである。

時系列画像データ１０１において、一般に、前景オブジェクトは、概ね動きが生じているオブジェクトである一方、背景は概ね動きが生じていない。そのため、時系列画像データ１０１の画素１０４に対応する分布データ１０２ａにおいて、その画素１０４の地点における背景とすべき画素値に対応する階級の出現頻度１０６は、分布データ１０２ａの全階級の頻度の中で最大となる。一方、画素１０５のように前景オブジェクト（図の例では、人物）が一時的に停止している場合がある。この画素１０５に対応する分布データ１０２ｂにおいて、背景とすべき画素値に対応する階級の出現頻度１０７は、他の階級の頻度に比べて高いが、前景オブジェクトの画素値に対応する階級の出現頻度１０８と比べて同等以下となっている。つまり、出現頻度の最頻値を基準に階級（画素値）を決定してしまうと、背景とすべき画素値ではなく、前景オブジェクトの画素値の方が選ばれてしまう可能性が生じる。

そこで、本実施形態において画像処理装置は、背景画像データを構成する各画素の画素値に対応する階級の候補として、出現頻度が高い複数の階級を選出する。次に、選出した階級の候補それぞれに対して、背景となり得る有力度合いを決定する。時系列画像データが人を撮像したデータである場合、前景オブジェクトである人は、完全に静止せずに微動することが多い。つまり、時系列画像データの各画像データの同一の画素位置の画素において、前景オブジェクトの画素値のばらつきは、背景の画素値のばらつきに比べて大きくなる。そのため、本実施形態において画像処理装置は、階級の候補それぞれにおいて、同一階級に含まれる画素値のばらつきを導出し、ばらつきが少ないほど背景の画素値となりうる有力度合いが高い決定とする。逆に、ばらつきが大きい場合、有力度合いは低いと決定する。例えば、画素位置Ｐｘの画素の画素値の階級の候補として階級Ｃ１、階級Ｃ２、階級Ｃ３の３つの候補が選出された場合を想定する。このとき、画像処理装置は、時系列画像データの各画像データにおける画素位置Ｐｘの画素値が、例えば階級Ｃ１に含まれる画素値（例えば、画素値５０〜５９など）であるものを抽出し、抽出した画素値のばらつきを導出する。同様に、他の階級Ｃ２、Ｃ３についても、階級に含まれる画素値を抽出し、抽出した画素値のばらつきを導出する。そして、導出したばらつきが少ないほど、背景の画素値となり得る有力度合いが高くなるように、有力度合いを決定する。

画像処理装置は、このように階級の候補ごとに決定した有力度合いに基づき、有力度合いが最大となる階級の候補を決定し、決定した階級に含まれる画素値を用いて背景画像データにおける着目画素の画素値を決定する。画像処理装置は、時系列画像データ１０１に含まれる全ての画素に対してこのような処理を画素毎に行い、背景画像データを生成する。その後、画像処理装置は、生成した背景画像データと時系列画像データ１０１とを比較することで前景オブジェクトを抽出する。以上が、本実施形態で行われる処理の概要である。

＜画像処理装置の構成＞
図２は、本実施形態の画像処理装置のハードウェア構成の一例を示す図である。本実施形態の画像処理装置２００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、二次記憶装置２０４、入力インターフェース２０５、出力インターフェース２０６を含む。画像処理装置２００の各構成部は、システムバス２０７によって相互に接続されている。また、画像処理装置２００は、入力インターフェース２０５を介して外部記憶装置２０８に接続されており、出力インターフェース２０６を介して外部記憶装置２０８および表示装置２０９に接続されている。

ＣＰＵ２０１は、ＲＡＭ２０２をワークメモリとして、ＲＯＭ２０３に格納されたプログラムを実行し、システムバス２０７を介して画像処理装置２００の各構成部を統括的に制御するプロセッサーである。これにより、後述する様々な処理が実行される。

二次記憶装置２０４は、画像処理装置２００で取り扱われる種々のデータを記憶する記憶装置であり、本実施形態ではＨＤＤが用いられる。ＣＰＵ２０１は、システムバス２０７を介して二次記憶装置２０４へのデータの書き込みおよび二次記憶装置２０４に記憶されたデータの読出しを行うことができる。なお、二次記憶装置２０４にはＨＤＤの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶デバイスを用いることが可能である。

入力インターフェース２０５は、例えばＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースである。外部装置から画像処理装置２００へのデータや命令等の入力は、入力インターフェース２０５を介して行われる。画像処理装置２００は、入力インターフェース２０５を介して、外部記憶装置２０８（例えば、ハードディスク、メモリーカード、ＣＦカード、ＳＤカード、およびＵＳＢメモリなどの記憶媒体）からデータを取得する。なお、入力インターフェース２０５には、不図示のマウスやボタンなどの入力デバイスも接続可能である。出力インターフェース２０６は、入力インターフェース２０５と同様にＵＳＢやＩＥＥＥ１３９４等のシリアルバスインターフェースを備える。その他に、例えばＤＶＩおよびＨＤＭＩ等の映像出力端子を用いることも可能である。画像処理装置２００から外部装置へのデータ等の出力は、出力インターフェース２０６を介して行われる。画像処理装置２００は、出力インターフェース２０６を介して表示装置２０９（液晶ディスプレイなどの各種画像表示デバイス）に、処理された画像などを出力することで、画像の表示を行う。なお、画像処理装置２００の構成要素は上記以外にも存在し得るが、ここでは説明を省略する。

＜機能ブロック図＞
図３は、画像処理装置２００の機能構成を示すブロック図である。画像処理装置２００は、ＲＯＭ２０３に格納されたプログラムを、ＣＰＵ２０１が、ＲＡＭ２０２をワークメモリとして実行することで、図３に示す各構成部として機能する。

画像処理装置２００は、画像データ取得部３０１、分布生成部３０２、候補データ生成部３０３、背景有力度決定部３０４、背景生成部３０５、および前景抽出部３０６を含む。

画像データ取得部３０１は、前景のオブジェクトを抽出する処理対象となる時系列画像データを取得する。すなわち、画像データ取得部３０１は、同一シーンを複数の異なる時刻に撮像することで得られた複数の画像データを取得する。画像データ取得部３０１は、入力インターフェース２０５を介して、または二次記憶装置２０４から、時系列画像データを取得する。時系列画像データは、分布生成部３０２、背景有力度決定部３０４、背景生成部３０５、および前景抽出部３０６に出力される。

分布生成部３０２は、時系列画像データから分布データおよび時系列階級データを生成する。分布データは、時系列画像データの各画像データを構成する各画素における統計的な画素値の分布を示すデータである。時系列階級データは、画像データ取得部３０１が取得した時系列画像データの各画像データにおける着目画素の階級を表すデータであり、時系列画像データの数だけ設けられる。分布データおよび時系列階級データの詳細については後述する。時系列階級データは、背景有力度決定部３０４および背景生成部３０５に送られる。分布データは、候補データ生成部３０３に出力される。

候補データ生成部３０３は、分布データに基づいて候補データを生成する。候補データは、背景画像データの画素値を決定するための候補となり得るデータである。本実施形態において候補データ生成部３０３は、複数の候補データを生成する。詳細については後述する。候補データは、背景有力度決定部３０４および背景生成部３０５に出力される。

背景有力度決定部３０４は、時系列階級データおよび候補データに基づいて、背景らしさを示す有力度合いを決定する。詳細については後述する。有力度合いは、背景生成部３０５に出力される。

背景生成部３０５は、時系列画像データ、時系列階級データ、および有力度合いに基づいて、背景画像データを生成する。生成された背景画像データは、前景抽出部３０６に出力される。詳細については後述する。

前景抽出部３０６は、時系列画像データおよび背景画像データに基づいて、前景オブジェクトを抽出する。すなわち、背景画像データと時系列画像データの各画像データとを比較して、時系列画像データの各画像データに対応する前景画像データを生成する。前景抽出部３０６は、前景画像データを二次記憶装置２０４や外部記憶装置２０８や表示装置２０９に出力する。前景抽出部３０６は、背景画像データも出力してもよい。

＜フローチャートの説明＞
図４は、本実施形態における処理の一例を示すフローチャートである。画像処理装置２００においては、ＲＯＭ２０３に格納されたプログラムを、ＣＰＵ２０１が、ＲＡＭ２０２をワークメモリとして実行することで、図４のフローチャートに示す一連の処理を実行する。なお、以下に示す処理の全てがＣＰＵ２０１によって実行される必要はなく、処理の一部または全部が、ＣＰＵ２０１以外の一つ又は複数の処理回路によって行われるように画像処理装置２００が構成されてもよい。

ステップＳ４０１において画像データ取得部３０１は、時系列画像データを取得する。本実施形態においては、取得される時系列画像データを撮像したカメラの位置姿勢は、時系列画像データに含まれる全ての画像において変化しない場合を例に説明するものとする。しかしながら、時系列画像データに含まれる複数の画像間でカメラの位置姿勢が微小に変化した場合についても、本実施形態は適用可能である。具体的な処理方法については後述する。また、本実施形態において、取得される時系列画像データは、ＲＧＢ３チャンネルのカラー画像の場合を例に説明する。しかしながら、時系列画像データが１チャンネルのグレー画像の場合についても、同様に適用することが可能である。本実施形態では、画像データ取得部３０１は、時系列画像データの各画像データを区別するため、各画像データを、撮像時刻を区別する番号（以下、撮像時刻の番号）と対応付ける。画像データ取得部３０１は、取得した時系列画像データを、分布生成部３０２と背景有力度決定部３０４と背景生成部３０５と前景抽出部３０６とに出力する。

ステップＳ４０２において背景生成部３０５は、背景画像データの画素値を決定する処理の対象である画素である着目画素を決定する。背景画像データは、時系列画像データにおける背景の画像を示す画像データであり、時系列画像データの各画像データの画像サイズと同等の画像サイズとなる。本実施形態では、時系列画像データの複数の画像データ（全部の画像データまたは一部の複数の画像データ）に対して１枚の背景画像データを生成する。しかしながら、時系列画像データの画像データごとに背景画像データをそれぞれ生成する場合においても、同様に適用することが可能である。具体的な処理方法については後述する。本実施形態では、まず背景画像データにおいて最も左上の画素が着目画素として選択される。その後、背景画像データの画素値の決定が完了する毎に、それまでに着目画素として選択されない画素が新たな着目画素として選択される。なお、着目画素の選択順番はこれに限られず、どのような順番で着目画素を決定してもよい。

ステップＳ４０３において分布生成部３０２は、分布データと時系列階級データとを初期化する。図５は、本実施形態における各データの概要を模した図である。図５を参照しながら分布データと時系列階級データとを説明する。

分布データは、時系列画像データにおける画素値の出現頻度を階級ごとにカウントしたものである。つまり、分布データは、時系列画像データのうちの所定の位置の画素（着目画素）の画素値の出現頻度を表すデータであり、画素数分のデータが作成されることになる。本実施形態で分布生成部３０２は、事前に定めた幅によって量子化した画素値に基づいて分布データの作成を行う。前述したように、例えば、量子化の幅を１０とした場合、階級値０の頻度として画素値０〜９となる画素数をカウントし、階級値５０の頻度として画素値５０〜５９となる画素数をカウントする。また、本実施形態において時系列画像データは、ＲＧＢ３チャンネルのカラー画像であるものとする。このため、分布データは、Ｒの階級の軸と、Ｇの階級の軸と、Ｂの階級の軸と、頻度の軸との４次元空間となる。分布生成部３０２は、分布データのすべての頻度に０を代入することで初期化する。

時系列階級データは、画像データ取得部３０１が取得した時系列画像データの各画像データにおける着目画素の階級を表すデータである。そのため、時系列階級データに含まれるデータ数は、時系列画像データに含まれる画像データの数と同等である。時系列階級データは、後述するステップＳ４０８における背景の候補データに対する有力度合いの決定処理と、ステップＳ４０９における候補データから最終的な背景の画素値を決定する処理とに用いられる。本実施形態では、分布データは、３つの階級の軸と頻度との４次元空間であるので、時系列階級データは、データ毎に３つの階級値をセットとして保持される。また、時系列階級データは、画像データ取得部３０１が取得した時系列画像データの各画像データの撮像時刻の番号と対応付けて記憶される。分布生成部３０２は、時系列階級データを初期化する。つまり、時系列階級データの全ての値を０とする。

図４に戻り説明を続ける。ステップＳ４０４において、分布生成部３０２は、画像データ取得部３０１から取得した時系列画像データの中で分布データの更新に用いる画像データ（以下、「着目画像データ」という）を決定する。本実施形態では、時系列画像データにおいて最も早い時刻に撮像された画像データが着目画像データとして選択される。その後、分布データと時系列階級データとの更新が完了する毎に、最も遅い時刻に撮像された画像データ向かって、それまでに着目画像データとして選択されない画像データが新たな着目画像データとして選択される。なお、着目画像データの選択順番はこれに限らず、どのような順番で着目画像データを決定してもよい。

ステップＳ４０５において分布生成部３０２は、ステップＳ４０４で決定した着目画像データにおける、ステップＳ４０２で決定した着目画素の画素値を用いて、分布データと時系列階級データとを更新する。以下に、分布データと時系列階級データの更新方法を具体的に説明する。

まず分布生成部３０２は、時系列画像データから、着目画像データにおける着目画素（ｘ０，ｙ０）の画素値Ｉ^t _k（ｘ０，ｙ０）を取り出す。ｔは、着目画像データが保持する撮像時刻の番号を識別するための添え字である。ｋは、ＲＧＢ３チャンネルのチャンネルを識別するための添え字である。

次に、画素値Ｉ^t _k（ｘ０，ｙ０）が属する階級を下記の式（１）によりチャンネル毎に導出する。

ここで、ｗは量子化の際に用いる画素値の幅を示しており、取り出した画素値を幅ｗで乗算した際の商により階級値が決定される。式（１）により、着目画素（ｘ０，ｙ０）に関して、Ｒチャンネルの階級値、Ｇチャンネルの階級値、およびＢチャンネルの階級値が導出される。なお、階級の導出方法は上記の式（１）に限られない。事前に定めた幅に基づき階級を決定可能な他の方法を用いてもよい。

最後に、分布生成部３０２は、導出した３つの階級に対応する点における頻度の値に１を加算することで分布データを更新する。また、分布生成部３０２は、時系列階級データにおいて、撮像時刻の番号ｔが保持する３つの階級の値のセットを、導出した３つ（３チャンネル）の階級値で置き換えることで時系列階級データを更新する。

ステップＳ４０６において分布生成部３０２は、時系列画像データの全画像データについて処理を終了したかを判定する。処理が終了している場合は、ステップＳ４０７へ進む。ステップＳ４０７に進むとき、分布生成部３０２は、更新した分布データを候補データ生成部３０３に出力し、時系列階級データを背景有力度決定部３０４と背景生成部３０５とに出力する。処理が終了していない場合は、ステップＳ４０４に戻る。このように、ステップ４０４からＳ４０６の処理では、着目画素を固定し、着目画像データを変えながら、着目画素の分布データを生成するとともに、着目画素に対応する時系列階級データを生成する。

ステップＳ４０７において候補データ生成部３０３は、分布生成部３０２から取得した分布データを用いて、背景画像データの画素値となりうる候補データを、事前に定めた数だけ所定の条件に従って選出する。以下では、選出する候補データの数をｎ個として説明する。本実施形態では、各候補データは、分布データを作成する際に用いた３つの階級の値をセットとして保持する。以下に、候補データの選出方法について具体的に説明する。

まず、候補データ生成部３０３は、分布データにおいて頻度が最大となる点を検出し、その点における３つの階級の値のセットを候補データの一つ目として選出する。次に、分布データにおいて、先ほど選出した点の次に頻度が大きい点を検出し、その点における３つの階級の値のセットを候補データの二つ目として選出する。このような処理をｎ回繰り返すことで、すべての候補データを選出する（図５も参照）。候補データ生成部３０３は、選出した候補データを背景有力度決定部３０４と背景生成部３０５とに出力する。なお、候補データは、事前に定めた数だけ必ずしも選出しなくてもよい。例えば、所定の閾値よりも出現頻度の割合が低い頻度については候補データとして選出しなくてもよい。あるいは、出願頻度の上位ｎ個を選出するのではなく、出現頻度の割合が所定の閾値以上の頻度を候補データとして選出してもよい。

ステップＳ４０８において背景有力度決定部３０４は、候補データ生成部３０３から取得した候補データのそれぞれに対して、背景となり得る有力度合いを決定する。有力度合いは、候補データ生成部３０３から取得した候補データと、分布生成部３０２から取得した時系列階級データと、画像データ取得部３０１から取得した時系列画像データとを用いて決定される。

図６は、有力度合いを決定する処理の概要を説明する図である。図６を参照しながら、以下に、有力度合いの決定方法を具体的に説明する。なお、有力度合いの決定処理は、候補データに含まれるデータ毎に以下の処理を行う。

まず、背景有力度決定部３０４は、候補データにおける３つの階級値のセット（ｃｌａｓｓ_r，ｃｌａｓｓ_g，ｃｌａｓｓ_b）と時系列階級データにおける３つの階級値のセットとが同一となる、時系列階級データの撮像時刻の番号をすべて選出する。図６における（ｒ、ｇ、ｂ）は、３つの階級値のセットを示している。なお、選出される撮像時刻の番号の数は、分布データの性質上、分布データにおける３つの階級（ｃｌａｓｓ_r，ｃｌａｓｓ_g，ｃｌａｓｓ_b）の点の頻度と同等となる。

次に、背景有力度決定部３０４は、選出した撮像時刻の番号に対応する、時系列画像データの着目画素の画素値Ｉｄ^j _k（ｘ０，ｙ０）を、時系列画像データからすべて抽出する。ここで、ｊは、取り出した画素値を識別するための添え字である。ｋは、ＲＧＢの３チャンネルを識別するための添え字である。

最後に、背景有力度決定部３０４は、抽出した画素値から下記の式（２）により有力度合いを決定する。

ここで、ｍは、画素値が抽出された時系列画像データの総数を表す。Ｄｉは、着目画素（ｘ０，ｙ０）における有力度合いを表す。ｉは、候補データの各データを識別するための添え字を表す。式（２）により決定される有力度合いＤｉは、抽出された画素値のばらつきが少ないほど大きくなる。すなわち、有力度合いＤｉは、処理対象の候補データが示す階級に対応する画素値であって、かつ、時系列画像データの着目画素の画素値のばらつきが少ないほど大きくなる。なお、用いる有力度合いはこれに限られず、画素値のばらつきを示す任意の値を用いてよい。

背景有力度決定部３０４は、候補データに含まれるデータ毎に上記処理を行った後、決定したデータ毎の有力度合いを背景生成部３０５に出力する。

例えば、時系列画像データが撮像された時間帯において、着目画素を含む領域Ｓに、所定時間、人物が静止している場面を場面Ａとする。当該領域Ｓに人物が含まれていない場面（すなわち、人物が領域Ｓから移動済みの場面）を場面Ｂとする。場面Ａと場面Ｂとでは、領域Ｓには別のオブジェクトが撮像されているので、候補データとしても、各場面に対応した別々の候補データが生成されていることになる。ここで、人物は、静止している場合においても、完全に静止はせず微動することが多い。つまり、場面Ａに対応する候補データにおいては、画素値のばらつきが多くなるので、場面Ａの候補データの有力度合いＤｉは、小さくなる。一方、背景の場合には、微動することは少ない。つまり、場面Ｂに対応する候補データにおいては、画素値のばらつきは小さくなるので、場面Ｂの候補データの有力度合いＤｉは、大きくなる。

ステップＳ４０９において背景生成部３０５は、候補データと、有力度合いと、時系列画像データとに基づいて、背景画像データの画素値を決定する。

図７は、背景画像データの画素値を決定する処理の概要を説明する図である。まず、背景生成部３０５は、候補データの中から有力度合いが最大となる候補データを選択し、選択した候補データが保持する３つの階級の値のセットを抽出する。

次に、背景生成部３０５は、抽出した３つの階級の値のセットと分布生成部３０２から取得した時系列階級データにおける３つの階級の値のセットとが同一となる、時系列階級データの撮像視点の番号をすべて選出する。

次に、背景生成部３０５は、選出した撮像時刻の番号に対応する、時系列画像データの着目画素の画素値Ｉｄ^j _k（ｘ０，ｙ０）を抽出する。そして、抽出した画素値Ｉｄ^j _k（ｘ０，ｙ０）を用いて、下記の式（３）により、背景画像データにおける着目画素の画素値Ｉｂ_k（ｘ０，ｙ０）を導出する。ここで、ｊは、抽出した画素値を識別するための添え字である。ｋは、ＲＧＢの３チャンネルを識別するための添え字である。

ここで、ｍは取り出した撮像時刻の番号の数、ｊは画素値データを識別するための添え字を表す。式（３）に示すように、本実施形態では、背景画像データの画素値として複数の画素値の平均値を用いる例を説明した。しかし、背景画像データの画素値の決定方法はこれに限られず、複数の画素値の中間値などの方法を用いても良い。

なお、背景生成部３０５で抽出した時系列画像データの着目画素の画素値データＩｄ^j _k（ｘ０，ｙ０）は、有力度合いが最大となる候補データの階級値が示す階級に含まれる画素値となる。また、有力度合いが最大ということは、この抽出される各画素値のばらつきは少ないということになる。

ステップＳ４１０において背景生成部３０５は、背景画像データの全画素についてステップＳ４０２からステップＳ４０９の処理を行ったかを判定する。ステップＳ４１０の判定の結果が真の場合、背景生成部３０５は、生成した背景画像データを前景抽出部３０６に出力し、ステップＳ４１１に進む。一方、ステップＳ４１０の判定の結果が偽の場合、ステップＳ４０２に戻る。

ステップＳ４１１において、前景抽出部３０６は、画像データ取得部３０１から取得した時系列画像データと背景生成部３０５から取得した背景画像データとから、前景オブジェクトの領域を抽出する。具体的には、前景抽出部３０６は、下記式（４）に示すように、背景画像データＩｂと時系列画像データＩとの間で画素毎に差分二乗和を導出する。そして、差分二乗和が閾値以上である画素を前景オブジェクトの画像領域の画素とみなすことで、前景オブジェクトの領域を抽出した画像データＩｆを生成する。このように生成される画像データＩｆは、２値画像であり、前景オブジェクトの画像領域の画素に対応する画素値に１が代入され、背景の画像領域の画素に対応する画素値に０が代入される。この処理は、時系列画像データに含まれる画像データ毎に行われ、画像データ毎に前景オブジェクトの領域を抽出した画像データが生成される。

ここで、Ｔｈは閾値を表し、ｋはＲＧＢ３チャンネルを識別するための添え字を表し、ｔは時系列画像データに含まれる画像を識別するための添え字を表す。ここで用いる閾値Ｔｈは、画素値の最大値などに基づいて決定される。画素値の最大値の２０％より小さい値、例えば、最大値の５％の値を閾値として用いて良い。このように、前景抽出部３０６は、前景画像データ生成手段として機能する。前景抽出部３０６は、生成した画像データＩｆを二次記憶装置２０４や外部記憶装置２０８や表示装置２０９に出力して、一連の処理は完了する。

＜効果＞
図８は、本実施形態の効果を説明する図である。背景画像データ８０１は、時系列に沿って連続で撮像した複数の画像データに基づき生成される背景画像データを示している。ただし、背景画像データ８０１は、本実施形態の方法と異なり、最頻度の度数の画素値（階級値）を用いる方法に従って生成された背景画像データである。背景画像データ８０１には、前景オブジェクト８０２が含まれている。この理由は、背景画像データを生成するための連続画像データ（時系列画像データ）を撮像する際に、前景オブジェクト８０２である人物が、動かずに同一位置に一定時間存在し続けたからである。すなわち、前景オブジェクト８０２である人物が、同一位置に一定時間存在し動かなかった結果、前景のオブジェクトとして抽出すべき前景オブジェクト８０２が、誤って背景であると識別されてしまっている。この背景画像データ８０１を用いて、時系列画像データ８０３から前景オブジェクトの領域を抽出した場合、前景画像データ８０４が取得される。前景画像データ８０４では、前景オブジェクト８０２以外の概ね動いている前景オブジェクトによる領域を抽出できている。しかしながら、前景画像データ８０４ａおよび８０４ｂに示すように、停止している前景オブジェクト８０２による領域が抽出できていない。あるいは、時系列画像データ８０３ｃに示すように、前景オブジェクト８０２に対応する人物が、停止している状態から動いてしまうと、前景画像データ８０４ｃに示すような前景が抽出される。すなわち、本来人物が存在しない領域が、前景オブジェクト８０２の領域として誤って抽出されてしまう。

これに対し、本実施形態においては、時系列画像データから背景画像データの候補データを複数生成し、複数の候補データそれぞれに関して背景となりうる有力度合いを決定する処理が行われる。そして、有力度合いを用いて、背景画像データ８０５が生成される。この背景画像データ８０５は、前景オブジェクト８０２の領域に関しても、背景であると識別されている。背景画像データ８０５を用いて、時系列画像データ８０３から前景オブジェクトの領域を抽出した場合、前景画像データ８０６が取得されることになる。前景画像データ８０６では、一定時間停止している前景オブジェクト８０２による領域を高精度に抽出できている。このように、本実施形態によれば、時間の経過に伴うオブジェクトの変化（移動など）の有無などのオブジェクトの状態によらず、時間的に連続する複数の画像を用いて適切な背景画像を生成することができる。この結果、前景オブジェクトの領域を高精度に抽出することができる。

＜＜実施形態２＞＞
＜概要＞
実施形態１では、時系列画像データから生成した分布データから、背景の画素値となり得る候補データを複数選出し、各候補データに対して決定された有力度合いに基づき背景画像データが生成される形態を説明した。そして、有力度合いは、各候補データが保持する階級に含まれる、時系列画像データの画素値のばらつきに基づいて決定される例を説明した。本実施形態は、候補データを選出する処理までは、実施形態１と同様である。本実施形態では、背景の有力度合い決定する処理が、実施形態１と異なる。本実施形態では、複数の異なる視点から撮像した複数の画像データを用いて、背景の有力度合いが決定される。詳細には、オブジェクトの高さ情報に基づいて背景の有力度合いが決定される。

図９は、本実施形態においる有力度合いを決定する処理の概念を説明する図である。実施形態２では、複数の異なる視点から撮像した複数の画像データ９０２を取得する。以下では、複数の異なる視点から撮像した画像を複数視点画像データと呼ぶ。ここで取得する複数視点画像データは、前景を抽出する処理対象である時系列画像データに対応するシーンを撮像することで得られた画像データである。例えば、時系列画像データを撮像した時刻に対応する時刻に撮像された画像データである。また、複数視点画像データ９０２の中に、時系列画像データを撮像した視点９０１と同一の視点における画像が含まれているとする。以下では、時系列画像データを撮像した視点を着目視点と呼ぶ。

次に、複数視点画像データ９０２のそれぞれを、視点毎に、地上面を基準として着目視点９０１から撮像した画像データへと変換する。すなわち、複数視点画像データ９０２の各視点における各オブジェクトを地上面に投影し、投影された地上面の画像を着目視点で撮像した画像データに、複数視点画像データ９０２のそれぞれが変換される。このようにして、複数視点の画像データを変換した複数の画像である変換画像データ９０３が生成される。

変換画像データ９０３は、地上面を基準面として着目視点９０１へと複数視点画像データ９０２を変換して得られた画像データである。従って、高さをもたず地上面に存在するオブジェクト９０４に対応する、各複数視点画像データ９０２に含まれる画素（例えば画素９０５から９０７など）は、着目視点に変換した変換画像データ９０３の同一の画素位置９０８へと変換される。一方、高さが存在するオブジェクト９０９に対応する、各複数視点画像データ９０２に含まれる画素（例えば画素９１０から９１２など）は、視点毎に異なる画素位置（画素９１３から９１５など）へと変換される。

このように、変換画像データ９０３においては、地上面に存在するオブジェクトに関しては、複数の変換画像データ９０３の間で画素位置が同じとなる。このため、複数の変換画像データ９０３の間で当該画素位置の画素値は、略同じ画素値となる。一方、高さがあるオブジェクトに関しては、複数の変換画像データ９０３の間で画素位置がばらつくことになり、特定の画素位置の画素値がばらつくことになる。そこで、本実施形態では、生成した複数の変換画像データ９０３を用いて、画素毎に画素値の中間値（中央値）を導出し、導出した中間値によって各画素が構成されている画像データ９１６が生成される。このように画素毎の中間値により生成した画像データ９１６は、地上面に存在するオブジェクト（オブジェクト９０４など）を含み、地上面に存在しないオブジェクトを含まない画像となる。

前述のように、前景オブジェクトは、撮像画像に含まれる所定のオブジェクトのことである。例えば、サッカーおよびラグビーの試合を想定すると、所定のオブジェクトとは、例えば人物である。このように、前景オブジェクトは、概ね地上面からの高さを持つオブジェクトである。一方で、芝や土で構成されるグラウンドなどが背景となる。そのため、本実施形態では、変換画像データ９０３から生成された画像データ９１６を用いて、地上面に存在する高さを持たない領域ほど背景らしさが高いとして、有力度合いを決定する処理を行う。具体的には、実施形態１で説明した候補データに対応する画素値と画像データ９１６との類似度合いに基づき、類似度が高いほど有力度合いが高いと決定し、類似度が低いほど有力度合いが低いと決定する処理が行われる。比較に用いるこの画像データ９１６のことを、本実施形態では基準データという。

実施形態１では、時系列画像データを用いて背景画像データの生成を行う形態を説明した。実施形態１の処理では、時系列画像データに対応する時刻において、一時的に停止している人物などが存在する場合においても、適切な背景画像データが生成される形態を説明した。しかしながら、時系列画像データに対応する全ての時刻の画像データにおいて、同一位置に前景オブジェクトが存在している場合、その前景オブジェクトは、背景として識別される。その結果、該当する領域の前景オブジェクトを抽出する精度が低下する。本実施形態では、複数視点画像データを取得し、背景となりうる有力度合いを決定する処理において複数視点画像データを用いる。そして、オブジェクトの高さ情報に基づいて有力度合いを決定する。このため、前景オブジェクトの動きや状況によらない判定が可能となる。その結果、前景オブジェクトを含まない適切な背景画像データが生成されることになり、前景オブジェクトの高精度な抽出が可能となる。なお、時系列画像データは上記の例に限られず、監視カメラで撮像したデータなど様々なデータが適用可能である。また、上記では、複数視点画像データに着目視点の画像が含まれるとしたが、含まれない場合にも同様に適用可能である。

＜ブロック図＞
図１０は、本実施形態における画像処理装置２００の機能構成を示すブロック図である。図３で示す実施形態１と構成と同様の構成については同じ符号を付し、説明を省略する。本実施形態においては、複数視点画像データ取得部１００２と基準データ生成部１００３とが追加されている。また、画像データ取得部１００１および背景有力度決定部１００４の処理が、実施形態１と異なる。

画像データ取得部１００１は、実施形態１と同様に、前景オブジェクトを抽出する処理対象となる時系列画像データを取得する。本実施形態の画像データ取得部１００１は、時系列画像データを撮像したカメラのカメラパラメータ（すなわち、着目視点のカメラパラメータ）をさらに取得する。カメラパラメータとは、カメラの位置・姿勢を表す外部パラメータ、焦点距離・光学中心を表す内部パラメータなどのパラメータである。このカメラのパラメータは、３次元空間中の点をカメラで撮像される画像上に射影する計算を可能とする情報ならばどのような形態でも構わない。カメラパラメータはあらかじめ計測値や設計値などをメモリ上に記憶されている情報を取得することができる。画像データ取得部１００１は、カメラパラメータを基準データ生成部１００３に出力する。

複数視点画像データ取得部１００２は、複数視点画像データと複数視点画像データを撮像したカメラのカメラパラメータとを取得する。複数視点画像データは、時系列画像データが撮像した時系列画像データに対応するシーンの画像データである。なお、複数視点画像データには、時系列画像データを撮像したカメラの視点の画像データが含まれていても良いし、含まれていなくても良い。時系列画像データを撮像したカメラの視点の画像データが含まれていない場合であっても、カメラパラメータを用いることで、後述するように着目視点の画像データに変換することができるからである。複数視点画像データおよびカメラパラメータは、基準データ生成部１００３に出力される。

基準データ生成部１００３は、複数視点画像データと着目視点のカメラパラメータとに基づいて、基準データを生成する。基準データは、高さ情報が０のオブジェクト（すなわち、地上面に存在するオブジェクト）を含む画像データである。基準データは、背景有力度決定部１００４に出力される。

背景有力度決定部１００４は、分布データと時系列画像データと基準データとに基づいて、背景の有力度合いを決定する。詳細については後述する。

＜フローチャート＞
図１１は、本実施形態におけるフローチャートの一例を示す図である。図４で示す実施形態１と同様の処理については、同じ符号を付し、説明を省略する。

ステップＳ１１０１において、画像データ取得部１００１は、実施形態１と同様に時系列画像データを取得する。また、画像データ取得部１００１は、時系列画像データを撮像したカメラのカメラパラメータを取得する。

ステップＳ１１０２において複数視点画像データ取得部１００２は、入力インターフェース２０５を介して、または二次記憶装置２０４から、複数の異なる視点から同一時刻に取得した複数の画像を示す複数視点画像データを取得する。なお、同一時刻には、制御信号の伝達遅延、各カメラの制御特性などに起因する誤差を含んで良い。複数視点画像データ取得部１００２はまた、複数視点画像データに含まれる画像に対応するカメラパラメータを取得する。なお、本実施形態では、時系列画像データの複数（全部または一部）の画像に対して１つの複数視点画像データを取得する。しかしながら、時系列画像データの複数の画像毎に複数視点画像データを取得した場合においても、同様に適用することが可能である。複数視点画像データ取得部１００２は、取得した複数視点画像データと対応するカメラパラメータとを基準データ生成部１００３に出力する。

次に、ステップＳ１１０３において基準データ生成部１００３は、複数視点画像データ取得部１００２から取得した複数視点画像データおよびカメラパラメータと、画像データ取得部１００１から取得したカメラパラメータとを用いて、基準データを生成する。基準データは、背景となり得る有力度合いを決定する際に基準となるデータである。以下に、基準データの生成方法を具体的に説明する。

基準データ生成部１００３は、画像データ取得部１００１から取得したカメラパラメータを用いて、複数視点画像データを着目視点から撮像した画像データへと変換する。変換する際は、地上面を基準として画像毎に行う。以下、図１２を用いて変換方法を説明する。以下では、着目視点から撮像した画像へ変換した画像データを変換画像データと呼ぶ。

図１２に示すように、３次元空間中のある点１２０１がカメラ１２０２の画像面１２０３に投影されているとする。ここで、点１２０１とカメラ１２０２とを結ぶ直線と、画像面１２０３とが交差する点１２０４が、３次元空間中の点１２０１の画像面１２０３への投影像となる。同様に、別視点のカメラ１２０５では、点１２０１とカメラ１２０５とを結ぶ直線と、画像面１２０６とが交差する点１２０７が、点１２０１の画像面１２０６への投影像となる。ここで、点１２０１を含む、画像面１２０３と画像面１２０６とに投影されている全ての３次元空間中の点が、地上面である同一平面上に存在するとする。その場合、カメラ１２０２とカメラ１２０５とのカメラパラメータによって導出される、３×３のホモグラフィ行列Ｈ₀₁を用いて、以下の式（５）により、画素の変換が行われる。すなわち、画像面１２０３上の画素（ｕ０、ｖ０）は、画像面１２０６上の画素（ｕ１、ｖ１）へと変換される。ここで、ホモグラフィ行列Ｈ₀₁には地上面を基準とする変換の係数が含まれているものとする。

また、画像面１２０３上にある他の画素に関しても同様の式により変換可能である。

図１２の例を用いると、画像データ取得部１００１で時系列画像データを撮像したカメラ（着目視点のカメラ）をカメラ１２０５に、複数視点画像データ取得部１００２から取得した複数視点画像データを撮像したカメラをカメラ１２０２とする。そして、基準データ生成部１００３は、視点毎に画像データを変換する。そのため、変換画像データの数は、複数視点画像データ取得部１００２から取得した複数視点画像データの数と同一となる。

次に、基準データ生成部１００３は、複数の変換画像データを用いて基準データを生成する。ここで、基準データは、背景画像データの各画素に対して、背景となりうる有力度合いを決定するための基準値を保持しているデータである。本実施形態では、基準値として、時系列画像データの画像と同一チャンネルの画素値を用いる。そのため、基準データは、時系列画像データの画像サイズと同等のサイズの画像データとなる。基準データは、変換画像データの複数の画像から中間値フィルタを用いて、画素毎に導出した中間値（中央値）により生成することができる。例えば変換画像データの第一の画素位置における第一のチャンネルの画素値が、複数の変換画像データの数だけ抽出される。そして、抽出された画素値に中間値フィルタを適用することで第一の画素位置の画素に対応する中間値が導出される。基準データは、各画素がこのように導出された中間値によって構成されているデータである。しかしながら、基準データを構成する各画素の導出方法、すなわち、基準データの生成方法は上記に限らず、平均値フィルタなどの他のフィルタやクラスタリング処理などの、公知の様々な方法を用いても良い。基準データ生成部１００３は、生成した基準データを背景有力度決定部１００４に出力する。

その後、図４で示した処理と同様の処理が行われ、複数の候補データが生成される。なお、図１１の処理では、基準データが生成された後に複数の候補データが生成される形態を例に挙げて説明したが、複数の候補データが生成された後に基準データが生成される形態でもよい。

ステップＳ１１０４において背景有力度決定部１００４は、基準データ生成部１００３から取得した基準データに基づき、候補データ生成部３０３から取得した候補データのそれぞれに対して、背景となりうる有力度合いを決定する。以下に、有力度合いの決定方法を具体的に説明する。なお、有力度合いの決定は、候補データに含まれるデータ毎に以下の処理を行う。

図１３は、本実施形態における有力度合いを決定する処理の概要を示す図である。図１３も参照しながら説明する。まず、背景有力度決定部１００４は、候補データにおける３つの階級の値のセット（ｃｌａｓｓ_r，ｃｌａｓｓ_g，ｃｌａｓｓ_b）と時系列階級データにおける３つの階級の値のセットとが同一となる、時系列階級データの撮像時刻の番号をすべて選出する。ここで、選出される撮像時刻の番号の数は、分布データにおける３つの階級（ｃｌａｓｓ_r，ｃｌａｓｓ_g，ｃｌａｓｓ_b）の点の頻度と同等となる。

次に、背景有力度決定部１００４は、選出した撮像時刻の番号に対応する、時系列画像データの着目画素の画素値Ｉｄ^j _k（ｘ０，ｙ０）をすべて抽出する。ここで、ｊは取り出した画素値を識別するための添え字であり、ｋはＲＧＢの３チャンネルを識別するための添え字である。

最後に、背景有力度決定部１００４は、抽出した画素値から下記式（６）により有力度合いを導出する。

ここで、ｍは抽出した画素値の数、Ｄｉは着目視点（ｘ０，ｙ０）における有力度合い、Ｒｅｆは基準データ、ｉは候補データの各データを識別するための添え字を表す。式（６）により導出する有力度合いＤｉは、候補データの階級に含まれる時系列画像データの画素値と基準データの画素値が類似しているほど大きくなる。なお、用いる有力度合いはこれに限られず、基準データとの類似度合いを表す任意の値を用いて良く、画素値をＨＳＶやＬａｂなどの異なる色空間に変換した値を用いても良い。また、基準データと比較する画素値、つまり画素値Ｉｄとして、階級に含まれる画素値の代表値や中間値、平均値などを用いても良い。背景有力度決定部１００４は、候補データに含まれるデータ毎に上記処理を行った後、決定したデータ毎の有力度合いを背景生成部３０５に出力する。

＜効果＞
図１４は、本実施形態の処理による効果の概念を示す図である。参考までに、特定の状況下における実施形態１で生成される背景画像データの例も併せて説明する。図１４において、画像データ１４０１は、前景を抽出する処理対象となる時系列画像データである。背景画像データ１４０２は、実施形態１に従って生成された背景画像データの例である。背景画像データ１４０２には、前景オブジェクト１４０６が含まれていない一方で、前景オブジェクト１４０７が写っている。この理由は、前景オブジェクト１４０６は一定時間停止して後に動き出したが、前景オブジェクト１４０７は時系列画像データが撮像された時刻を通じて同一位置に存在し動かなかったからである。つまり、時系列画像データの各画像上において動きが生じないオブジェクトは、有力度合いを決定する際に背景度合いが低く決定される。このため、前景オブジェクト１４０７の背景らしさは高いと誤って判定された結果、背景画像データ１４０２に前景オブジェクト１４０７が含まれている。この背景画像データ１４０２を用いて、時系列画像データ１４０１から前景オブジェクトを抽出した場合、前景画像データ１４０３が取得される。前景画像データ１４０３ａおよび１４０３ｂでは、オブジェクト１４０７以外の概ね動いている前景オブジェクトによる領域を抽出できている。しかし、完全に停止している前景オブジェクト１４０７による領域を、前景オブジェクト１４０７として抽出できていない。

これに対し、本実施形態では、複数の異なる視点から撮像した複数視点画像データを用いて、オブジェクトの高さ情報を基に有力度合いを決定する処理が行われる。そして、この有力度合いを用いて背景画像データ１４０４が生成される。前景オブジェクト１４０７は、人物であり、高さ情報を有するオブジェクトである。このため、前景オブジェクト１４０７に対応する領域の有力度合いは低くなり、背景として抽出されなくなる。この背景画像データ１４０４を用いて、時系列画像データ１４０１から前景領域を抽出した場合、前景画像データ１４０５が取得される。前景画像データ１４０５では、完全に停止している前景のオブジェクト１４０７による領域を高精度に抽出できている。このように、実施形態２によれば、オブジェクトの動き方などの状態によらず、前景のオブジェクトによる領域を高精度に抽出することができる。また、時系列画像データを撮像した時刻を通じて動きが生じない前景オブジェクトについても背景と誤認識せずに済む。

＜＜その他の実施形態＞＞
本発明の実施形態は、上記の実施形態に限られるものではなく、様々な実施形態をとることが可能である。例えば、上記実施形態では、前景を抽出する処理において、画素値を用いたが、各処理に用いる値は上記に限られない。例えば、ＨＳＶやＬａｂなどの異なる色空間に画素値を変換した値を用いて、前景を抽出する処理を行うようにしてもよい。

また、上記実施形態では、取得される時系列画像データを撮像したカメラの位置姿勢は、時系列画像データに含まれる全ての画像において変化しないとしていたが、微小なカメラの位置変動が存在してもよい。その場合、時系列画像データの複数の画像の中の１枚の画像を撮像したカメラを基準として、基準としたカメラから撮像した画像へと他の画像を変換した後の時系列画像データを用いればよい。

また、上記実施形態では、時系列画像データの複数の画像に対して１枚の背景画像データを作成するとしたが、背景生成部が背景画像データを生成する際に、時系列画像データの画像データ毎に対して背景画像データを生成しても良い。なお、上記実施形態では、有力度合いが最大となる候補データに基づき背景画像データの画素値が決定される際に、同一の階級に含まれる画素値の平均値などの統計的な値を用いる例を説明した。これに対し、時系列画像データの画像データ毎に対して背景画像データを生成する場合には、生成する背景画像データの時刻に対応する時系列画像データの画素値を優先的に用いれば良い。これにより、時系列画像データの各画像データに適した背景画像データの生成が可能となり、前景を抽出する精度が向上する。

また、上記実施形態では、背景画像データの全ての画素に対して、候補データの生成及び有力度合いの決定の処理を行ったが、画素によって処理を省略しても良い。例えば、生成した分布データにおける最大の頻度の数と時系列画像データに含まれる画像の数との差が、ほぼ０若しくは事前に定めた閾値以下である場合は、頻度が最大となった点が背景であると判定する。その場合、頻度が最大となった点を用いて、背景生成部が背景画像データの画素値を決定してよい。

また、上記実施形態では、取得した前景画像データの表現方法として０と１との２値の値を用いたが、表現方法は上記に限られない。０から１までの実数を用いて、前景オブジェクトである可能性が高いほど大きな値をもつような表現方法にしてもよい。

また、上記実施形態では、画素値を量子化した階級を用いて分布データが生成される形態を例に挙げて説明した。この量子化の度合いは、任意に決定してよい。また、量子化をしない形態でもよい。すなわち、画素値を用いて分布データが生成される形態でもよい。

実施形態１では、時系列画像データを撮像した時刻を通じて動きが生じない前景オブジェクトについても背景と誤認識する可能性があり、実施形態２では、このような誤認識が生じる可能性が少ない点を説明した。このように実施形態２の方が背景画像データを適切に生成できる場合がある。ただし、実施形態１の方が適切な背景画像データを生成できる場合もある。例えば、複数視点画像データ取得部１００２から取得した複数視点画像データの複数の画像データ毎で、被写体の色が大きく異なる場合、または、取得するカメラパラメータに大きな誤差が含まれる場合などである。被写体の色が大きく異なる場合とは、例えば複数視点画像データを取得する際に用いた撮像装置間の色の違いや、被写体自体が見る方向によって色が異なることなどにより生じる。このような場合、実施形態１で求めた有力度合いの信頼性が、実施形態２で求めた有力度合いの信頼性よりも高くなる。

また、実施形態１で説明した処理と実施形態２で説明した処理とを併用してもよい。例えば実施形態１によって決定された有力度合いα（式（２）により導出）と、実施形態２によって決定された有力度合いβ（式（６）により導出）との積（α×β）を有力度合いとして用いてよい。また、積以外にも和（α＋β）を用いても良い。また、いずれの形態を重要視するかについての有力度合いを、重みによって調整することも可能である。例えば重みをλとした場合、積の場合はα×β^λ、和の場合はα＋λ×βとすることで有力度合いを調整することができる。

また、上述の実施形態においては、各画素の画素値の分布に基づいて候補データを生成する形態を例に挙げて説明したが、これに限られるものではない。所定の単位領域に対応する値の分布に基づいて候補データを生成する形態でもよい。所定の単位領域は、上述した実施形態で説明したように、画素単位の領域でもよいし、複数の画素によって構成される単位領域でもよい。複数の画素によって構成される単位領域の場合、所定の単位領域に対応する値は、複数の画素を用いて任意の方法で求められる値（例えば平均値または中央値など）を用いればよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

３０１画像データ取得部
３０２分布生成部
３０３候補データ生成部
３０４背景有力度決定部
３０５背景生成部

Claims

時間的に連続する複数の画像データを取得する取得手段と、
前記取得手段により取得された前記複数の画像データに応じた複数の画像のそれぞれにおける第一の領域に対応する値の出現頻度を導出する導出手段と、
前記導出手段により最も高い出現頻度が導出された値と、前記最も高い出現頻度よりも低い出現頻度が導出された値とを含む複数の値から、前記複数の画像データに対応する背景を示す背景画像データにおける前記第一の領域の値を決定する決定手段と、
を備えることを特徴とする画像処理装置。
前記決定手段は、前記出現頻度が所定の条件に該当する候補データを複数選出し、選出した複数の候補データのうち、特定の候補データを用いて前記第一の領域の値を決定することを特徴とする請求項１に記載の画像処理装置。
前記所定の条件は、前記出現頻度が最も高い値から順に予め定めた数だけ前記候補データを選出する条件を含むことを特徴とする請求項２に記載の画像処理装置。
前記所定の条件は、前記出現頻度が所定の閾値を超える前記候補データを選出する条件を含むことを特徴とする請求項２または３に記載の画像処理装置。
前記決定手段は、前記取得手段が取得した前記複数の画像データのうち、第一の候補データが示す値が出現した画像データにおけるそれぞれの前記第一の領域の値のばらつきが、前記第一の候補データとは異なる第二の候補データが示す値が出現した画像データにおけるそれぞれの前記第一の領域の値のばらつきよりも小さい場合、前記第一の候補データを前記特定の候補データとして決定することを特徴とする請求項２から４のいずれか一項に記載の画像処理装置。
前記取得手段で取得された前記複数の画像データに対応する時刻において前記複数の画像データと同一のシーンを複数の視点で撮像して得られた複数視点の画像データを取得する第二の取得手段と、
前記複数視点の画像データから高さ情報に基づく基準データを生成する生成手段と、
をさらに備え、
前記決定手段は、前記取得手段が取得した前記複数の画像データのうち、第一の候補データが示す値が出現した画像データにおけるそれぞれの前記第一の領域の値と、前記基準データにおける前記第一の領域の値との類似度が、前記第一の候補データとは異なる第二の候補データが示す値が出現した画像データにおけるそれぞれの前記第一の領域の値と、前記基準データにおける前記第一の領域の値との類似度よりも高い場合、前記第一の候補データを前記特定の候補データとして決定することを特徴とする請求項２から４のいずれか一項に記載の画像処理装置。
前記生成手段は、
前記複数視点の画像データのそれぞれの視点の画像データを、地上面を基準として、前記取得手段で取得された前記複数の画像データを撮像した視点で撮像した画像データに変換し、
前記変換されたそれぞれの画像データにおける前記第一の領域の統計的な値で前記基準データにおける前記第一の領域の値を決定することを特徴とする請求項６に記載の画像処理装置。
前記統計的な値は、中央値、最頻値、および平均値を含むことを特徴とする請求項７に記載の画像処理装置。
前記決定手段は、前記背景画像データにおける各領域の値を決定し、決定した値によって構成されている前記背景画像データを出力し、
前記画像処理装置は、
前記出力された背景画像データを用いて、前記取得手段で取得された前記複数の画像データのそれぞれから前景オブジェクトを抽出する抽出手段をさらに備えることを特徴とする請求項１から８のいずれか一項に記載の画像処理装置。
前記第一の領域は、１つの画素を単位とする領域であることを特徴とする請求項１から９のいずれか一項に記載の画像処理装置。
前記出現頻度は、前記画素の画素値を量子化した階級ごとの出現頻度であることを特徴とする請求項１０に記載の画像処理装置。
前記画素値の量子化は、色ごとに行われることを特徴とする請求項１１に記載の画像処理装置。
時間的に連続する複数の画像データを取得する取得手段と、
前記複数の画像データにおける着目画素の画素値に対応する階級の出現頻度を導出する導出手段と、
前記出現頻度が所定の条件に該当する複数の候補データを選択する選択手段と、
前記複数の候補データのうち、背景の有力度合いが最も高い候補データを用いて、前記複数の画像データに対応する背景を示す背景画像データにおける前記着目画素の画素値を決定する決定手段と、
を備えることを特徴とする画像処理装置。
前記有力度合いは、前記取得手段が取得した前記複数の画像データのうち、前記候補データが示す階級が出現した画像データにおけるそれぞれの着目画素の画素値のばらつきが小さいほど、高くなることを特徴とする請求項１３に記載の画像処理装置。
前記取得手段で取得された前記複数の画像データに対応する時刻において前記複数の画像データと同一のシーンを複数の視点で撮像して得られた複数視点の画像データを取得する第二の取得手段と、
前記複数視点の画像データから高さ情報に基づく基準データを生成する生成手段と
をさらに備え、
前記有力度合いは、前記取得手段が取得した前記複数の画像データのうち、前記候補データが示す階級が出現した画像データにおけるそれぞれの前記着目画素の画素値と、前記基準データにおける前記着目画素の値との類似度が高いほど、高くなることを特徴とする請求項１３に記載の画像処理装置。
前記決定手段は、
前記類似度に対応する第一の有力度合いと、
前記取得手段が取得した前記複数の画像データのうち、前記候補データが示す階級が出現した画像データにおけるそれぞれの着目画素の画素値のばらつきが小さいほど、高くなる第二の有力度合いと、に基づいて前記有力度合いを決定し、
前記画像処理装置は、
前記第一の有力度合いと、前記第二の有力度合いとの重みを調整する調整手段をさらに備えることを特徴とする請求項１５に記載の画像処理装置。
時間的に連続する複数の画像データを取得するステップと、
取得した前記複数の画像データに応じた複数の画像のそれぞれにおける第一の領域に対応する値の出現頻度を導出するステップと、
前記導出するステップにおいて最も高い出現頻度が導出された値と、前記最も高い出現頻度よりも低い出現頻度が導出された値とを含む複数の値から、前記複数の画像データに対応する背景を示す背景画像データにおける前記第一の領域の値を決定するステップと、
を備えることを特徴とする画像処理方法。
時間的に連続する複数の画像データを取得するステップと、
前記複数の画像データにおける着目画素の画素値に対応する階級の出現頻度を導出するステップと、
前記出現頻度が所定の条件に該当する複数の候補データを選択するステップと、
前記複数の候補データのうち、背景の有力度合いが最も高い候補データを用いて、前記複数の画像データに対応する背景を示す背景画像データにおける前記着目画素の画素値を決定するステップと、
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１から１６のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。