JP4670303B2

JP4670303B2 - 画像処理方法及び画像処理装置

Info

Publication number: JP4670303B2
Application number: JP2004294241A
Authority: JP
Inventors: 嘉昭岩井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-10-06
Filing date: 2004-10-06
Publication date: 2011-04-13
Anticipated expiration: 2024-10-06
Also published as: CN100364319C; JP2006109172A; US7965885B2; CN1758720A; US20060072022A1

Description

本発明は、画像の背景領域を分離する画像処理方法及び画像処理装置に関する。

近年、カメラを備えたビジュアルコミュニケーション装置が普及し始めている。例えば、ビジネスの分野では、複数人で行うテレビ会議システムがあり、またパーソナルの分野ではWebカメラを利用したコミュニケーションシステムがある。このようなシステムでは、相手の表示像をディスプレイ上に表示するとともに、当該ディスプレイを視認するユーザを撮影対象として撮像し、得られた画像信号を公衆回線、専用回線等のネットワークを介して相手側の画像処理装置へ送信することにより、双方のユーザに対し臨場感を持たせることが可能となる。

しかし、これらのシステムでの共通の問題として、人物以外の領域を相手に送信したくはないという点がある。カメラで撮像される全ての情報が相手側に送信される現在のシステムでは、相手に見せてもよい場所にシステムを設置するという限定が入ることになる。

そこで，人物(前景)と背景を分離し、背景部になんらかの加工を施すなどの方法が考えられる。

すなわち、カメラシステムにおいて撮像された動画像からユーザを始めとした動物体を含む前景領域を切り出し、かかる切り出した動物体に所定の処理を施すことにより、背景の特徴に左右されにくいロバストな画像処理が可能となる。また、背景を相手へ送りたくない場合には、前景と背景を分離し、前景のみを配信することで実現させる。

ここで、背景と前景を分離する方法としては、例えば、熱センサを利用し、人物領域を特定し、背景領域に加工処理を施す方法（例えば、特許文献１参照）、また、背景差分、フレーム間差分、ステレオ法により、移動領域を検出し、これを前景とする方法（例えば、特許文献２参照）、あるいは、距離範囲を指定し、その範囲内に収まる映像を出力する方法（例えば、特許文献３参照）などがある。

特開平９−２００７１４号公報特開２０００−２０７２２号公報特開２０００−２００３５９号公報

しかしながら、熱センサを利用し、人物領域を特定し、背景領域に加工処理を施す特許文献１の方法では、熱センサは一般に高価であり、ビジュアルコミュニケーション装置に必要なカメラ以外のセンサをつける必要がある。また、背景差分、フレーム間差分、ステレオ法により、移動領域を検出し、これを前景とする特許文献２の方法では、背景差分のために予め人物が写っていない状態の画像を取得する必要があり、利便性の点で問題がある。また、距離範囲を指定し、その範囲内に収まる映像を出力する特許文献３の方法では、ステレオ法により距離計測を行う場合、入力シーンに繰り返しパターンやオクリュージョンが多い場合に、精度の良い距離計測を行うことが難しい。さらに、その他の技術として、撮像画像を領域分割する方法や、人物を認識する方法などがあるがロバスト性、精度の面で確立されていないのが現状である。

そこで、本発明の目的は、上述の如き従来の問題点に鑑み、複数台のカメラ映像を用いて、ステレオ法と背景を推定する方法を合わせ、画像の背景領域を分離する画像処理方法及び画像処理装置を提供することにある。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施の形態の説明から一層明らかにされる。

本発明に係る画像処理方法は、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像して、互いに同期した入力画像を得て記憶手段に記憶する撮像ステップと、上記撮像ステップで上記記憶手段に記憶された互いに同期した入力画像について、上記記憶手段に記憶された互いに同期した入力画像について、背景領域は遠方にあり、平面であると仮定して、ある距離以降の領域を背景とし、解像度を低下させた状態で、画像全体の輝度誤差が最小となるようなシフト量を求める大局的シフト量算出処理により、大局的な画像合わせ込みを行ってから、上記記憶手段に記憶された互いに同期した入力画像について局所的なマッチングにより背景領域を推定する局所的類似度算出処理を行う背景領域推定ステップと、上記背景領域推定ステップで推定した背景領域以外の点について、ステレオ法により距離計測を行って距離画像を作成する距離画像作成ステップと、上記距離画像作成ステップで作成した距離画像を参照して、所定の距離以上の領域の画像を入力画像から除去して背景分離画像を作成する背景分離画像作成ステップとを有することを特徴とする。

本発明に係る画像処理方法において、上記背景領域推定ステップでは、例えば、局所的類似度算出処理による背景領域の推定に用いる背景テンプレートを随時更新・追加する。

本発明に係る画像処理装置は、少なくとも２台のカメラにより互いに異なる視点から被写体を撮像して得られた互いに同期した入力画像を記憶する記憶手段と、上記記憶手段に記憶された互いに同期した入力画像について、背景領域は遠方にあり、平面であると仮定して、大局的な画像合わせ込みを行ってから、局所的類似度による背景領域を推定する背景領域推定処理部と、上記記憶手段に記憶された互いに同期した入力画像について、背景領域は遠方にあり、平面であると仮定して、ある距離以降の領域を背景とし、解像度を低下させた状態で、画像全体の輝度誤差が最小となるようなシフト量を求める大局的シフト量算出処理により、大局的な画像合わせ込みを行ってから、上記記憶手段に記憶された互いに同期した入力画像について局所的なマッチングにより背景領域を推定する局所的類似度算出処理を行う背景領域推定処理部と、上記背景領域推定処理部で推定した背景領域以外の点について、ステレオ法により距離計測を行って距離画像を作成する距離画像作成処理部と、上記距離画像作成処理部で作成した距離画像を参照して、所定の距離以上の領域の画像を入力画像から除去して背景分離画像を作成する背景分離画像作成処理部とを備えることを特徴とする。

本発明に係る画像処理装置において、上記背景領域推定処理部では、例えば、局所的類似度算出処理による背景領域の推定に用いる背景テンプレートを随時更新・追加する。

本発明では、入力画像に対し、大局的、及び局所的な背景推定を行うことで、より高精度な距離画像の生成が可能となり、前景・背景分離が可能となる。画像全体の合わせこみを使用し、大まかな背景領域を推定することにより、繰り返しパターンやオクルージョンの多いシーンに対しても、ロバストな結果を得ることができる。また、背景テンプレートスタックを随時、更新・追加することで時間経過による環境変化にロバストとなる。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明は以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、任意に変更可能であることは言うまでもない。

本発明は、例えば図１に示すような構成のビジュアルコミュニケーション装置１０に適用される。

このビジュアルコミュニケーション装置１０は、複数台のカメラを用い、得られた複数枚の画像を用い、背景領域を推定し、またステレオ法による距離計測を利用することで、背景と前景を分離する機能を有するものであって、基準カメラ１、検出カメラ２、フレームメモリ３、背景領域推定処理部４、距離画像作成処理部５及び背景分離画像作成処理部６を備えている。

このビジュアルコミュニケーション装置１０で用いる複数台のカメラは予めキャリブレーションが行なわれているものとする。カメラ台数は２台以上であればよいが、ここでは２台のカメラ（基準カメラ１及び検出カメラ２）として以下の説明を行なう。キャリブレーションとは、基準カメラ１の点ｍとそれに対応する検出カメラ２の点ｍ’を求め、距離計測を行うためのカメラ間の拘束条件を算出するものである。

このビジュアルコミュニケーション装置１０では、基準カメラ１と検出カメラ２で同時に撮像されたカラー画像はフレームメモリ３に蓄積され、背景領域推定処理部４で背景領域を推定する。続いて距離画像作成処理部５において、背景領域推定処理部４で推定した背景領域以外の点について、後述するステレオ法により距離計測を行い、背景分離画像作成処理部６で最終的な背景領域を決定し、必要に応じて加工し、背景分離画像を出力する。

ここで、一般的なカメラキャリブレーション及び距離計測方法について説明する。

ここでは、画像上の点ｍ＝［ｕ，ｖ］^Ｔ、空間中の点Ｍ＝［ｘ，ｙ，ｚ］^Ｔをとし，各点の斎次座標系での記述をｍ^〜＝［ｕ，ｖ，１］^Ｔ，Ｍ^〜＝［ｘ，ｙ，ｚ，１］^Ｔとする。空間中の点Ｍと画像上の点ｍの関係は次の式（１）で与えられる。

ｓｍ^〜＝Ａ・［Ｒｔ］・Ｍ^〜
＝Ｐ・Ｍ^〜・・・（１）
ここで、sはスケール因子であり、行列［Ｒｔ］は外部パラメータと呼ばれるもので、カメラの空間内での位置を表し、Ｒ，ｔはそれぞれ回転、並進行列を表す。行列Ａはカメラの内部パラメータと呼ばれるもので、次の式（２）で与えられる。

ここで（ｕ０，ｖ０）は画像中心を表し、α＝−ｆ／ｋｕ，β＝−ｆ・ｋｖ／sinθは、それぞれ、ｕ軸，ｖ軸のスケール因子、γ＝ｆ・ｋｕ・cosθは２つの軸のねじれをあらわす。また、行列Ｐ＝Ａ・［Ｒｔ］は空間内の点を画像面に投影する３×４の投影行列とする。以上の説明では、レンズ歪みによる影響を考慮せず、理想的な条件のもとでの変換を示してきたが、実際には歪みによる影響を無視することはできないため、カメラパラメータとしてレンズ歪みも加えるものとする。歪み座標の点ｍ_ｄ＝［ｕｄ，ｖｄ］^Ｔと点ｍ＝［ｕ，ｖ］^Ｔの関係は次の式（３）で表すことができる。

ｕ＝ｕｄ＋（ｕｄ−ｃｕ）・ｋ・ｒｄ^２
ｖ＝ｖｄ＋（ｖｄ−ｃｖ）・ｋ・ｒｄ^２・・・（３）
但し、ｒｄ^２＝（ｕｄ−ｃｕ）^２＋（ｖｄ−ｃｖ）^２ｓｖ^２であり、（ｃｕ，ｃｖ）は歪み中心を表し、ｓｖはアスペクト比を表す。

続いて、ステレオ法における距離計測方法について説明する。

図２に示すように基準カメラ１、検出カメラ２への投影行列をそれぞれＰ，Ｐ’とし、それぞれの画像上の点をｍ，ｍ’とする。但し、それぞれの画像上の点は、式（３）によりひずみの影響は除去されているものとする。点Ｍまでの距離を測定する場合、基準画像上の点ｍに対応する検出画像上の点ｍ’を検出する必要がある。点ｍ’は図２に示すようにエピポーララインと呼ばれる直線ｌ上に位置するため、点ｍに対応する検出画像上の点を検出するためには、この直線上の探索を行えばよいことになる。エピポーララインはカメラ中心と点ｍを結ぶ直線上の点を検出カメラ２上へ投影した点の集合となっている。例えば、空間内Ｚ方向の計測範囲をＺ０−Ｚｎとした場合、エピポーララインは、各距離に対応した点Ｍ_０，Ｍ_ｎを投影した点ｍ_０’，ｍ_ｎ’を結ぶ直線となる。実際の探索では、距離Ｚｉに位置する点を検出画像上に投影し、基準画像上の点との類似度を測り、画像間の点の対応を決定する。

基準カメラ１上の点ｍへ投影される距離Ｚｉの点Ｍｉを検出画像上の点ｍ_ｉ’へ投影する手順を以下に示す。

式（１）から点ｍを通る視線上の点は，次の式（４）でかける。

Ｍ^〜＝ｓＰ^＋・ｍ^〜＋Ｐ^⊥ ・・・（４）
ここでＰ^＋はＰの擬似逆行列であり、次の式（５）で定義される。
Ｐ^＋＝Ｐ^Ｔ（ＰＰ^Ｔ）^−１・・・（５）
また、Ｐ^⊥は次の式（６）を満たすベクトルとなり、常に原点に射影されるため実際には光学中心を示し、次の（６）式により計算できる。但し、ωは任意の４次元ベクトルである。
Ｐ・ｐ^⊥＝０
Ｐ^⊥＝（Ｉ−ＰＰ^＋）ω ・・・（６）
式（４）は，光学中心及び基準画像上の点ｍを通る全ての点を表しているが、距離をＺｉとすることでスケール因子を決定することができ，空間内の点Ｍｉを決定することができる。この点を投影行列Ｐ’により投影すれば，検出画像上の点ｍｉ’を算出することが可能となる。

以上のことから、空間内の点の距離を求めるためには、各カメラのカメラパラメータＡ，Ｒ，ｔ，Ａ’，Ｒ’，ｔ’をそれぞれ個々に求めるか、または投影行列Ｐ，Ｐ’を直接算出し、さらに各カメラの歪みパラメータκ１，ｃｕ１，ｃｖ１，ｓｖ１，κ２，ｃｕ２，ｃｖ２，ｓｖ２を算出すればよいことになり、これらのパラメータを算出することがカメラキャリブレーションとなる。

このビジュアルコミュニケーション装置１０における背景，前景分離処理の流れを図３に示す。

すなわち、このビジュアルコミュニケーション装置１０では、まず、基準カメラ１と検出カメラ２で互いに異なる視点から被写体を撮像して互いに同期した入力カラー画像を取得する（ステップＳ１）。取得した入力画像は、フレームメモリ３に記憶する。

続いて、フレームメモリ３に記憶した各入力画像について、背景領域推定処理部４において、前述したキャリブレーションパラメータにより、レンズ歪みの影響を除去し、さらに画像正規化を行う（ステップＳ２）。

すなわち、入力画像は、レンズの歪みの影響を受けているため、式（３）を用い、歪みの影響を除去する。また、画像正規化とは図４に示すように２台のカメラ１，２により互いに異なる視点ｃ１，ｃ２から被写体を撮像して得られた画像Ｉ_Ｌ，Ｉ_Ｒをあたかも平行カメラ（左右カメラの光軸が平行なカメラ）で撮像した画像Ｉ_Ｌ’，Ｉ_Ｒ’に変換するものである。これにより、もともと平行でないエピポーララインは平行化され、かつ各光学中心（視点ｃ１，ｃ２）を結ぶ直線と平行となる。キャリブレーションパラメータとして、投影行列Ｐ，Ｐ’が求まっている場合、例えば次の参考文献に開示されている方法で、図４に示す変換行列ＴＨ１，ＴＨ２を求めることができる。算出したＴＨ１，ＴＨ２を用いて、入力画像を変換し、基準カメラ画像Ｉｂ，検出カメラ画像Ｉｄを作成する。
〔参考文献：Andrea Fusiello, Emanuele Trucco and Alessandro Verri:尿 compact algorithm for rectification of stereo pairs Machine Vision and Applications(2000) 12 : pp.16-22〕
すなわち、左右のカメラの投影行列Ｐ，Ｐ’から変換行列の算出を行う。

実際には、Ｐを求めた際に使用した左カメラのＸＹＺ座標系のＸ軸を各カメラの光学中心ｃ１，ｃ２を結ぶ直線と平行となるようにし、かつＹ’軸をｃ１，ｃ２を結ぶ直線（Ｘ’軸）とＺ軸とからなる平面に垂直なものとなるようにＰ，Ｐ’を修正し、修正した投影行列Ｐ_ｎ，Ｐ_ｎ’から変換行列を算出する。

以下にＰ_ｎ，Ｐ_ｎ’を算出する手順について説明し、更に得られたＰ_ｎ，Ｐ_ｎ’及びＰ，Ｐ’から変換行列ＴＨ１，ＴＨ２を算出する手順について説明する。
（ｉ）光学中心の算出
投影行列Ｐ，Ｐ’を次の式（７）で記述すると、各光学中心ｃ１＝［ｘｃ１，ｙｃ１，ｚｃ１］^Ｔ，ｃ２＝［ｘｃ２，ｙｃ２，ｚｃ２］^Ｔは、次の式（８）で得られる。

ｃ１＝−Ｑ^−１ｑ
ｃ２＝−Ｑ’^−１ｑ’ ・・・（８）
（ｉｉ）Ｘ’，Ｙ’，Ｚ’軸の算出
先述したようにＸ’軸は光学中心を結ぶベクトルであることから、Ｘ’軸のベクトルをｖ１＝［ｘ１，ｙ１，ｚ１］^Ｔとすると、Ｘ’軸のベクトルｖ１は、次の式（９）で得られる。

ｖ１＝（ｃ１−ｃ２）・・・（９）
また、Ｙ’軸のベクトルｖ２＝［ｘ２，ｙ２，ｚ２］^Ｔは、先述したようにＸ’軸とＺ軸に垂直なベクトルであることから、投影行列Ｐを次の式（１０）で表すと、ｖ２＝ｒ_３∧ｖ１とかける。

さらに、Ｚ’軸のベクトルｖ３＝［ｘ３，ｙ３，ｚ３］^Ｔは、Ｘ’軸，Ｙ’軸に垂直なベクトルとして、次の式（１１）で表される。

ｖ３＝ｖ１∧ｖ２・・・（１１）
（ｉｉｉ）投影行列Ｐ_ｎ，Ｐ_ｎ’の算出
投影行列Ｐ_ｎ，Ｐ_ｎ’は、次の式（１２）で記述する。

Ｐ_ｎ＝Ａ_ｎ・［Ｒ_ｎｔ_ｎ］
Ｐ_ｎ’＝Ａ_ｎ・［Ｒ_ｎｔ_ｎ’］・・・（１２）
新規投影行列では、内部パラメータ及び外部パラメータの回転成分は同一のものとなるため、投影行列Ｐ_ｎ，Ｐ_ｎ’を算出するためには、Ａ_ｎ，Ｒ_ｎ，ｔ_ｎ，ｔ_ｎ’を算出すればよいことになる。内部パラメータＡ_ｎは投影行列Ｐ，Ｐ’の内部パラメータを用いて次の式（１３）で算出する。

また、外部パラメータＲ_ｎは上述の如き手順で算出したＸ’Ｙ’Ｚ’軸のベクトルをｖ１，ｖ２，ｖ３を用いて次の式（１４）で算出する。

また、外部パラメータｔ_ｎ，ｔ_ｎ’は，式（７）からＲ_ｎと光学中心ｃ１，ｃ２を用いて次の式（１５）で算出する。

ｔ_ｎ＝−Ｒ_ｎｃ１
ｔ_ｎ’＝−Ｒ_ｎｃ２・・・（１５）
以上のＡ_ｎ，Ｒ_ｎ，ｔ_ｎ，ｔ_ｎ’の算出により，式（１２）から投影行列Ｐ_ｎ，Ｐ_ｎ’が算出可能となる。
（ｉｖ）変換行列ＴＨ１，ＴＨ２の算出
ここでは、投影行列Ｐ，Ｐ’，Ｐ_ｎ，Ｐ_ｎ’を用いて変換行列ＴＨ１，ＴＨ２を算出する方法について述べる。

撮像画像の点ｍ^〜＝［ｕ，ｖ，１］^Ｔを正規化された画像上の点ｍ^〜 _ｎ［ｕ，ｖ，１］^Ｔとすると、空間内の点ｍ^〜＝［ｘ，ｙ，ｚ，１］^Ｔと点ｍ^〜と点ｍ^〜 _ｎの関係は次の式（１６）で記述できる。

ｍ^〜＝ＰＭ^〜＝［Ｑ｜−Ｑｃ１］Ｍ^〜
ｍ^〜 _ｎ＝Ｐ_ｎＭ^〜＝［Ｑ_ｎ｜−Ｑ_ｎｃ１］Ｍ^〜・・・（１６）
これから点ｍ^〜と点ｍ^〜 _ｎを通る直線は、次の式（１７）で表される。

Ｍ^〜＝ｓＱ^−１ｍ^〜＋ｃ１
Ｍ^〜＝ｓ_ｎＱ_ｎ ^−１ｍ^〜 _ｎ＋ｃ１・・・（１７）
したがって、点ｍ^〜と点ｍ^〜 _ｎの関係は、次の式（１８）で記述できる。

ｍ^〜 _ｎ＝λＱ_ｎＱ^−１ｍ^〜・・・（１８）
変換行列は撮像画像上の点ｍを正規化された画像上の点ｍ_ｎに射影する行列であるため、Ｑ_ｎＱ^−１が変換行列となる。つまり、変換行列ＴＨ１，ＴＨ２は次の式（１９）により算出される。

ＴＨ１＝Ｑ_ｎＱ^−１
ＴＨ２＝Ｑ’_ｎＱ’^−１・・・（１９）
続いて、背景領域推定処理部４において、背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）を算出する（ステップＳ３）。

ここでは、背景領域は、遠方でありかつ、平面に近いと仮定する。実際の背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）の算出処理の流れを図５に示す。背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）では、背景部を「１」、その他を「０」とする。

例えば図６のような入力画像Ｉｂ（ｕ，ｖ）Ｉｄ（ｕ，ｖ）の場合、背景領域に繰り返しパターンなどが多く、またオクルージョン領域も大きいため、通常の局所的なエリアベースのマッチング方法では、精度のよい対応点決めを行うことができない。そこで、まず大局的な画像合わせこみ手法を用い、背景領域の推定を行う。

ここで、上記背景領域処理部は、図７に機能構成図を示すように、大局的シフト量算出部４１、背景画素推定部４２及び更新処理部４３からなる。

そして、ステップＳ３の処理では、図５に示すように、先ず最初のステップＳ３−１の処理において、フレームメモリＦＭ１に格納されている左右の入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）に対し、次の式（２０）に示すように画像全体の輝度誤差が最小となるようなシフト量ｂｇ＿ｓｈｉｆｔを求める大局的シフト量算出処理を大局的シフト量算出部４１で行い、求めたシフト量ｂｇ＿ｓｈｉｆｔをメモリＭ１に格納する。

但し、ここでは背景領域は遠方にあるとし、０≦ｂｇ＿ｓｈｉｆｔ＜ＳＨＩＦＴ＿ＴＨＲＥＳＨとする。ＳＨＩＦＴ＿ＴＨＲＥＳＨは、前景と背景の分離境界に応じて適応的に決定される閾値であり、これはある距離以降の領域を見せたくない、すなわち、背景とすることにより決まる。また、背景を平面と仮定して行うため、入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）の解像度を低下させ、式（２０）によりシフト量ｂｇ＿ｓｈｉｆｔを算出する。ステップＳ２の処理により入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）は正規化されているため、ここで求めるのはｕ軸方向のシフト量のみでよいことになる。

画像合わせこみの例を図８に示し、ステップＳ３−１の大局的シフト量算出処理の具体的な流れを図９に示す。

すなわち、ステップＳ３−１の大局的シフト量算出処理では、先ず、ｓｈｉｆｔ＝０，Ｅ＿ｍｉｎ＝ＭＡＸとする初期設定を行い（ステップＳ３−１Ａ）、さらに、Ｅ＿ｇ＝０，ｉ＝０、すなわち、変数Ｅ＿ｇ，ｉを「０」にリセットする（ステップＳ３−１Ｂ）。

つぎに、Ｅ＿ｇ＋＝｜Ｉｂ（ｕｉ，ｖｉ）−Ｉｄ（ｕｉ−ｓｈｉｆｔ，ｖｉ）｜すなわち、入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）について、Ｉｂ（ｕｉ，ｖｉ）とＩｄ（ｕｉ−ｓｈｉｆｔ，ｖｉ）の差分の絶対値和を求め（ステップＳ３−１Ｃ）、変数ｉをインクリメントして（ステップＳ３−１Ｄ）、インクリメントした変数ｉが画像サイズよりも大きくなったか否かを判定する（ステップＳ３−１Ｅ）。

このステップＳ３−１Ｅにおける判定結果がＮＯである場合には、上記ステップＳ３−１Ｂに戻って、ステップＳ３−１ＢからステップＳ３−１Ｅの処理を繰り返し行い、このステップＳ３−１Ｅにおける判定結果がＹＥＳになると、Ｉｂ（ｕｉ，ｖｉ）とＩｄ（ｕｉ−ｓｈｉｆｔ，ｖｉ）の差分の絶対値和を示す変数Ｅ＿ｇが変数Ｅ＿ｍｉｎよりも小さいか否かを判定する（ステップＳ３−１Ｆ）。

このステップＳ３−１Ｆにおける判定結果がＹＥＳである場合には、変数Ｅ＿ｍｉｎを上記絶対値和を示す変数Ｅ＿ｇの値とするとともに、シフト量ｂｇ＿ｓｈｉｆｔを変数ｓｈｉｆｔの値として（ステップＳ３−１Ｇ）から、変数ｓｈｉｆｔをインクリメントする（ステップＳ３−１Ｈ）。また、このステップＳ３−１Ｆにおける判定結果がＮＯである場合には、直ちに変数ｓｈｉｆｔをインクリメントする（ステップＳ３−１Ｈ）。

そして、ステップＳ３−１Ｈにおいてインクリメントした変数ｓｈｉｆｔが閾値ＳＨＩＦＴ＿ＴＨＲＥＳＨよりも大きいか否かを判定する（ステップＳ３−１Ｉ）。

このステップＳ３−１Ｉにおける判定結果がＮＯである場合には、上記ステップＳ３−１Ｂに戻って、インクリメントした変数ｓｈｉｆｔが閾値ＳＨＩＦＴ＿ＴＨＲＥＳＨよりも大きくなるまで、ステップＳ３−１ＢからステップＳ３−１Ｉの処理を繰り返し行い、このステップＳ３−１Ｉにおける判定結果がＹＥＳになると、大局的シフト量算出処理を終了する。

次に、処理ステップＳ３−２の処理では、ステップＳ３−１の大局的シフト量算出処理において求めたシフト量ｂｇ＿ｓｈｉｆｔを用いて、フレームメモリＦＭ１に格納されている左右の入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）について背景画素推定部４２で局所的なマッチングを行う。具体的には図１０に示すようにＮｘＭのＷｉｎｄｏｗサイズ内の輝度誤差Ｅ＿ｌを算出し、Ｅ＿ｌ＜ＴＨＲＥＳＨ＿Ｌの場合に画像Ｉｂ，Ｉｄの点（ｕｉ，ｖｉ），（ｕｉ−ｂｇ＿ｓｈｉｆｔ，ｖｉ）を背景領域とする。つまり、Ｒｂ_ｂｇ（ｕｉ，ｖｉ）＝１，Ｒｄ_ｂｇ（ｕｉ−ｂｇ＿ｓｈｉｆｔ，ｖｉ）＝１とする。そして、局所的なマッチングにより推定した背景領域を背景領域マスクＲｂ_ｂｇ，Ｒｄ_ｂｇとしてフレームメモリＦＭ２及びメモリＭ２に格納する。このステップＳ３−２の処理の具体的な流れを図１１に示す。

すなわち、処理ステップＳ３−２の処理では、まず、ｉ＝０，Ｒｂ_ｂｇ≦all０，Ｒｄ_ｂｇ≦all０に初期設定して（ステップＳ３−２Ａ）、ｊ＝０，Ｅ＿ｌ＝０すなわち、変数ｊ，Ｅ＿ｌを「０」にリセットする（ステップＳ３−２Ｂ）。

つぎに、Ｅ＿ｌ＋＝｜Ｉｂ（ｕｉｊ，ｖｉｊ）−Ｉｄ（ｕｉｊ−ｂｇ＿ｓｈｉｆｔ，ｖｉｊ）｜、すなわち、入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）について、輝度誤差Ｅ＿ｌとしてＩｂ（ｕｉｊ，ｖｉｊ）−Ｉｄ（ｕｉｊ−ｂｇ＿ｓｈｉｆｔ，ｖｉｊ）の差分の絶対値和を求め（ステップＳ３−２Ｃ）、変数ｊをインクリメントして（ステップＳ３−２Ｄ）、インクリメントした変数ｊがＮｘＭのＷｉｎｄｏｗサイズよりも大きくなったか否かを判定する（ステップＳ３−２Ｅ）。

このステップＳ３−２Ｅにおける判定結果がＮＯである場合には、上記ステップＳ３−２Ｂに戻って、ステップＳ３−２ＢからステップＳ３−２Ｅの処理を繰り返し行い、このステップＳ３−２Ｅにおける判定結果がＹＥＳになると、求めたＮｘＭのＷｉｎｄｏｗサイズ内の輝度誤差Ｅ＿ｌが閾値ＴＨＲＥＳＨ＿Ｌよりも小さいか否かを判定する（ステップＳ３−２Ｆ）。

このステップＳ３−２Ｆにおける判定結果がＹＥＳである場合には、Ｒｂ_ｂｇ（ｕｉ，ｖｉ）＝１，Ｒｄ_ｂｇ（ｕｉ−ｂｇ＿ｓｈｉｆｔ，ｖｉ）＝１すなわち画像Ｉｂ，Ｉｄの点（ｕｉ，ｖｉ），（ｕｉ−ｂｇ＿ｓｈｉｆｔ，ｖｉ）を背景領域としてから（ステップＳ３−２Ｇ）、変数ｉをインクリメントする（ステップＳ３−２Ｈ）。また、このステップＳ３−２Ｆにおける判定結果がＮＯである場合には、直ちに変数ｉをインクリメントする（ステップＳ３−２Ｈ）。

そして、ステップＳ３−２Ｈにおいてインクリメントした変数ｉが画像サイズよりも大きいか否かを判定する（ステップＳ３−２Ｉ）。

このステップＳ３−２Ｉにおける判定結果がＮＯである場合には、上記ステップＳ３−２Ｂに戻って、インクリメントした変数ｉが画像サイズよりも大きくなるまで、ステップＳ３−２ＢからステップＳ３−２Ｉの処理を繰り返し行い、このステップＳ３−２Ｉにおける判定結果がＹＥＳになると、局所的類似度算出処理を終了する。

次に、ステップＳ３−３の処理では、背景テンプレートスタックｂｇＢｕｆｂ，ｂｇＢｕｆｄとの比較を行う。背景テンプレートスタックｂｇＢｕｆｂ，ｂｇＢｕｆｄは、時刻Ｔ−１までにフレームで背景とされた点の周辺領域（ＭｘＮ）を切り出した局所画像のスタックであり、ＭｘＮサイズの輝度情報及びその中心座標（ｕｉ，ｖｉ）を持つ。ｂｇＢｕｆｂにスタックされた各テンプレートと基準カメラ１の画像Ｉｂ（ｕｉ，ｖｉ）とのマッチングを行い、輝度誤差Ｅ＿Ｔを算出し、Ｅ＿Ｔ＜ＴＨＲＥＳＨ＿Ｔの場合、点（ｕｉ，ｖｉ）は背景領域として、Ｒｂ_ｂｇ（ｕｉ，ｖｉ）＝１とする。検出カメラ２の画像Ｉｄに対しても背景テンプレートスタックｂｇＢｕｆｄを用い、同様の処理を行い、背景領域マスクＲｄ_ｂｇ（ｕ，ｖ）を作成する。基準カメラ１に対するステップＳ３−３の処理の概要図を図１２に示し、処理の具体的な流れを図１３に示す。

すなわち、処理ステップＳ３−３の処理では、まず、ｉ＝０に初期設定して（ステップＳ３−３Ａ）、ｊ＝０すなわち変数ｊを「０」にリセットする（ステップＳ３−３Ｂ）。

つぎに、Ｅ＿Ｔ＝Σ｜Ｉｂｊ−ｂｇＢｕｆｂ［ｉ］｜、すなわち、入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）について、輝度誤差Ｅ＿ＴとしてＩｂｊ−ｂｇＢｕｆｂ［ｉ］の差分の絶対値和を求め（ステップＳ３−３Ｃ）、求めた輝度誤差Ｅ＿Ｔが閾値Ｅ＿Ｔ＜ＴＨＲＥＳＨ＿Ｔ縒りも小さいか否かを判定する（ステップＳ３−３Ｄ）。

このステップＳ３−３Ｄにおける判定結果がＹＥＳの場合はＲｂ_ｂｇ（ｕｉ，ｖｉ）すなわち点（ｕｉ，ｖｉ）を背景領域としてから（ステップＳ３−３Ｅ）、変数ｊをインクリメントして（ステップＳ３−３Ｆ）、インクリメントした変数ｊが画像サイズよりも大きくなったか否かを判定する（ステップＳ３−３Ｇ）。

このステップＳ３−３Ｇにおける判定結果がＮＯである場合には、上記ステップＳ３−３Ｃに戻って、ステップＳ３−３ＢからステップＳ３−３Ｇの処理を繰り返し行い、このステップＳ３−３Ｇにおける判定結果がＹＥＳになると、変数ｉをインクリメントする（ステップＳ３−３Ｈ）。また、上記ステップＳ３−３Ｄにおける判定結果がＮＯである場合には、直ちに変数ｉをインクリメントする（ステップＳ３−３Ｈ）。

そして、ステップＳ３−３Ｈにおいてインクリメントした変数ｉがスタックサイズよりも大きいか否かを判定する（ステップＳ３−３Ｉ）。

このステップＳ３−３Ｉにおける判定結果がＮＯである場合には、上記ステップＳ３−３Ｂに戻って、インクリメントした変数ｉがスタックサイズよりも大きくなるまで、ステップＳ３−３ＢからステップＳ３−３Ｉの処理を繰り返し行い、このステップＳ３−３Ｉにおける判定結果がＹＥＳになると、テンプレートとの比較処理を終了する。

続いて、ステップＳ３−４の処理において、上述した処理で作成した背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）を用い、更新処理部４３で背景テンプレートスタックの更新を行う。具体的には、背景領域マスクの値が１、つまり背景と推定された点（ｕｉ，ｖｉ）の周辺ＭｘＮ画素の領域Ｒｎを切り取り、背景テンプレートスタックを参照する。既に、点（ｕｉ，ｖｉ）の背景テンプレートが存在する場合は、既存のテンプレートと新規テンプレートＲｎの平均をとる。逆に存在しない場合は、新規テンプレートをスタックする。図１４に基準カメラ１に対する更新処理の具体的な流れを示す。

すなわち、処理ステップＳ３−４の処理では、まず、ｉ＝０，ｊ＝０に初期設定する（ステップＳ３−４Ａ）。

次に、ｖａｌ＝Ｒｂ_ｂｇ（ｕｉ，ｖｉ）すなわち変数ｖａｌをＲｂ_ｂｇ（ｕｉ，ｖｉ）の値として（ステップＳ３−４Ｂ）、変数ｖａｌの値が「１」であるか否かを判定する（ステップＳ３−４Ｃ）。

このステップＳ３−４Ｃにおける判定結果がＹＥＳである場合にはｂｇＢｕｆｂ［ｊ］の座標（ｂｆｕｊ，ｂｆｖｊ）を参照して（ステップＳ３−４Ｄ）、座標（ｂｆｕｊ，ｂｆｖｊ）が点（ｕｊ，ｖｊ）に一致するか否かを判定する（ステップＳ３−４Ｅ）。

このステップＳ３−４Ｅにおける判定結果がＹＥＳである場合にはｂｇＢｕｆｂ［ｊ］のテンプレートを更新してから（ステップＳ３−４Ｆ）、変数ｊをインクリメントする（ステップＳ３−４Ｇ）。また、上記ステップＳ３−４Ｅにおける判定結果がＮＯである場合には、直ちに変数ｉをインクリメントする（ステップＳ３−４Ｇ）。

次に、上記ステップＳ３−４Ｇにおいてインクリメントした変数ｊがスタックサイズよりも大きくなったか否かを判定する（ステップＳ３−４Ｈ）。

このステップＳ３−３Ｈにおける判定結果がＮＯである場合には、上記ステップＳ３−３Ｄに戻って、ステップＳ３−４ＤからステップＳ３−２Ｈの処理を繰り返し行い、このステップＳ３−４Ｈにおける判定結果がＹＥＳになると、ｂｇＢｕｆｂに点（ｕｊ，ｖｊ）のテンプレートを追加して（ステップＳ３−４Ｉ）、変数ｉをインクリメントする（ステップＳ３−４Ｊ）。また、上記ステップＳ３−４Ｃにおける判定結果がＮＯである場合には、直ちに変数ｉをインクリメントする（ステップＳ３−４Ｊ）。

そして、ステップＳ３−４Ｊにおいてインクリメントした変数ｉが画像サイズよりも大きいか否かを判定する（ステップＳ３−４Ｋ）。

このステップＳ３−４Ｋにおける判定結果がＮＯである場合には、上記ステップＳ３−４Ｂに戻って、インクリメントした変数ｉが画像サイズよりも大きくなるまで、ステップＳ３−４ＢからステップＳ３−４Ｋの処理を繰り返し行い、このステップＳ３−４Ｋにおける判定結果がＹＥＳになると、背景テンプレートの更新処理を終了する。

次に、以上のステップＳ３の処理により作成した背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）を用い、距離画像作成処理部５において距離情報の算出を行う（ステップＳ４）。

ここで、ステップＳ４の処理では、ステップＳ３の処理で作成した背景領域マスクＲｂ_ｂｇ（ｕ，ｖ），Ｒｄ_ｂｇ（ｕ，ｖ）の情報を基に距離画像Ｄｂ（ｕ，ｖ），Ｄｄ（ｕ，ｖ）を作成する。ここでの距離画像の値は、上記ステップＳ２の処理で入力画像Ｉｂ（ｕ，ｖ）Ｉｄ（ｕ，ｖ）が正規化されていることから、ｕ方向のシフト量とする。つまり、基準カメラ画像Ｉｂ（ｕ，ｖ）上の点Ｉｂ（ｕｉ，ｖｉ）に対応する点が検出画像Ｉｄ（ｕ，ｖ）上の点Ｉｄ（ｕｉ−ｓｈｉｆｔ，ｖｉ）とした場合、Ｄｂ（ｕｉ，ｖｉ）＝ｓｈｉｆｔとする。対応点の探索方法は様々な方法があるが、基準画像Ｉｂ（ｕ，ｖ）上の各点（ｕｉ，ｖｉ）に対し、その周辺領域ＭｘＮと検出画像Ｉｄ（ｕ，ｖ）上の点（ｕｉ−ｓｈｉｆｔ，ｖｉ）の周辺領域ＭｘＮの輝度誤差が最小となる点を探索することで行う。この時、図１５に示すように、背景領域マスク情報を利用し、背景領域（背景領域マスクが１）とされる点を探索時に除外することで、通常の入力画像全体に対するエリアベースのマッチングよりも、精度のよいマッチングが行えることとなる。
そして、背景分離画像作成処理部６において、上記ステップＳ４の処理で作成した距離画像Ｄｂ（ｕ，ｖ），Ｄｄ（ｕ，ｖ）を参照し、閾値以下の距離を持つ点（ｕｉ，ｖｉ）を入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）から除去し、背景分離画像Ｉｂ’（ｕ，ｖ），Ｉｄ’（ｕ，ｖ）を作成し（ステップＳ５）、作成した背景分離画像Ｉｂ’（ｕ，ｖ），Ｉｄ’（ｕ，ｖ）を出力する（ステップＳ６）。ここでの閾値処理は、ある距離以上のものを背景とするものである。

以上の処理で作成された背景分離画像Ｉｂ’（ｕ，ｖ），Ｉｄ’（ｕ，ｖ）は、入力画像Ｉｂ（ｕ，ｖ），Ｉｄ（ｕ，ｖ）に対し、大局的及び局所的な背景推定を行い、その後距離画像を生成し、分離することで、入力画像（ｕ，ｖ）Ｉｄ（ｕ，ｖ）全体に対し距離画像を生成し、分離する方法よりも高精度な背景分離が可能となる。また、背景テンプレートスタックを随時、更新，追加することで時間経過による環境変化にロバストとなる。さらに、画像全体の合わせこみを使用し、大まかな背景領域を推定することにより、繰り返しパターンやオクルージョンの多いシーンに対しても、ロバストな結果を得ることができる。

本発明を適用したビジュアルコミュニケーション装置の構成を示すブロック図である。ステレオ法における距離計測方法の説明に供する図である。上記ビジュアルコミュニケーション装置における背景，前景分離処理の流れを示すフローチャートである。上記背景，前景分離処理におけるステップＳ２の処理で実行される画像正規化の処理の説明に供する図である。上記背景，前景分離処理におけるステップＳ３の処理で実行される背景領域マスクの算出処理の流れを示すフローチャートである。入力画像の例を示す図である。上記ビジュアルコミュニケーション装置における背景推定処理部の機能構成図である。画像合わせこみの例を示す図である。上記背景領域マスクの算出処理におけるステップＳ３−１の大局的シフト量算出処理の流れをフローチャートである。上記背景領域マスクの算出処理におけるステップＳ３−２の局所的類似度算出処理の概要を示す図である。上記背景領域マスクの算出処理におけるステップＳ３−２の局所的類似度算出処理の流れを示すフローチャートである。上記背景領域マスクの算出処理におけるステップＳ３−３の背景テンプレートスタックとの比較処理の概要を示す図である。上記背景領域マスクの算出処理におけるステップＳ３−３の背景テンプレートスタックとの比較処理の流れを示すフローチャートである。上記背景領域マスクの算出処理におけるステップＳ３−４の背景テンプレート更新処理の流れを示すフローチャートである。入力画像と背景領域マスクと示す図である。

符号の説明

１基準カメラ、２検出カメラ、３フレームメモリ、４背景領域推定処理部、５距離画像作成処理部、６背景分離画像作成処理部、１０ビジュアルコミュニケーション装置、４１大局的シフト量算出部、４２背景画素推定部、４３更新処理部、ＦＭ１，ＦＭ２フレームメモリ、Ｍ１，Ｍ２メモリ

Claims

少なくとも２台のカメラにより互いに異なる視点から被写体を撮像して、互いに同期した入力画像を得て記憶手段に記憶する撮像ステップと、
上記撮像ステップで上記記憶手段に記憶された互いに同期した入力画像について、上記記憶手段に記憶された互いに同期した入力画像について、背景領域は遠方にあり、平面であると仮定して、ある距離以降の領域を背景とし、解像度を低下させた状態で、画像全体の輝度誤差が最小となるようなシフト量を求める大局的シフト量算出処理により、大局的な画像合わせ込みを行ってから、上記記憶手段に記憶された互いに同期した入力画像について局所的なマッチングにより背景領域を推定する局所的類似度算出処理を行う背景領域推定ステップと、
上記背景領域推定ステップで推定した背景領域以外の点について、ステレオ法により距離計測を行って距離画像を作成する距離画像作成ステップと、
上記距離画像作成ステップで作成した距離画像を参照して、所定の距離以上の領域の画像を入力画像から除去して背景分離画像を作成する背景分離画像作成ステップと
を有することを特徴とする画像処理方法。
上記背景領域推定ステップにおいて、局所的類似度算出処理による背景領域の推定に用いる背景テンプレートを随時更新・追加することを特徴とする請求項１記載の画像処理方法。
少なくとも２台のカメラにより互いに異なる視点から被写体を撮像して得られた互いに同期した入力画像を記憶する記憶手段と、
上記記憶手段に記憶された互いに同期した入力画像について、背景領域は遠方にあり、平面であると仮定して、ある距離以降の領域を背景とし、解像度を低下させた状態で、画像全体の輝度誤差が最小となるようなシフト量を求める大局的シフト量算出処理により、大局的な画像合わせ込みを行ってから、上記記憶手段に記憶された互いに同期した入力画像について局所的なマッチングにより背景領域を推定する局所的類似度算出処理を行う背景領域推定処理部と、
上記背景領域推定処理部で推定した背景領域以外の点について、ステレオ法により距離計測を行って距離画像を作成する距離画像作成処理部と、
上記距離画像作成処理部で作成した距離画像を参照して、所定の距離以上の領域の画像を入力画像から除去して背景分離画像を作成する背景分離画像作成処理部と
を備えることを特徴とする画像処理装置。
上記背景領域推定処理部では、局所的類似度算出処理による背景領域の推定に用いる背景テンプレートを随時更新・追加することを特徴とする請求項３記載の画像処理装置。