JP6811679B2

JP6811679B2 - シルエット抽出装置、方法およびプログラム

Info

Publication number: JP6811679B2
Application number: JP2017097953A
Authority: JP
Inventors: 強要; 浩嗣三功; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2021-01-13
Anticipated expiration: 2037-05-17
Also published as: JP2018195047A

Description

本発明は、カメラ画像からオブジェクトのシルエットを抽出する装置、方法およびプログラムに係り、特に、カメラ画像からオブジェクトのシルエットを正確に抽出できるシルエット抽出装置、方法およびプログラムに関する。

特許文献１には、カメラごとに単眼背景差分法を採用し、ローカルの色差ヒストグラムを計算して、抽出したシルエットをさらに細かく洗練する技術が開示されている。しかしながら、グローバル閾値が画素レベルのセグメンテーションを制御するのに十分ではないため、満足できる品質のシルエットマスクを確実に得ることはできない。

特許文献２には、Visual Hullを構築するために3D Multiviewを利用する手法が採用されている。しかしながら、3D空間における各ボクセルの存在は、全ての視点に基づいて決定論的である。換言すれば、3D空間内の各ボクセルは、いずれか1つのカメラで可視でない場合、他の全てのカメラでは可視であっても非存在とみなされる。したがって、特許文献２では、自由視点合成における重要な技術課題である、3Dボクセルモデルの部分的な欠落を解消できない。

特開2016-177586号公報米国特許第8,363,941号明細書

自由視点映像合成におけるオブジェクトの視覚品質は、各カメラ画像のシルエットマスクの精度に大きく依存する。しかしながら、シーンの照度変動、背景変動およびオブジェクトと背景との間の色類似性の影響のため、背景差分法のみでオブジェクトのシルエットを完全に抽出することは難しい。

また、背景差分法の結果に基づいてボクセルの占有率を簡単に計算すると、抽出されたオブジェクトにおける欠落領域と不要領域とのトレードオフの問題があるため、ボクセル占有の可能性の閾値を制御して設定することは困難である。たとえば、不要な領域の削除を優先させるためには尤度の閾値を高く設定すれば良いが、欠落した領域の復元を優先させるためには尤度の閾値を低くしなければならない。

さらに、3Dボクセル投影に基づくセグメンテーションのみでは、各ピクセルが個別に処理されるため、実際には滑らかなオブジェクト境界が滑らではなくなる。GrabCutによる画像セグメンテーションでは、対象オブジェクトの全体が取り込まれ、背景との類似性のためにセグメント化でオブジェクトが部分的に欠落する可能性がある。

本発明の目的は、上記の技術課題を解決し、カメラ等の画像からオブジェクトのシルエットを正確に抽出できるシルエット抽出装置、方法およびプログラムを提供することにある。

上記の目的を達成するために、本発明は、カメラ等の画像からオブジェクトのシルエットを抽出するシルエット抽出装置において、以下の構成を具備した点に特徴がある。

(1) 画像ごとに各画素の特徴量に基づいてグローバル統計値を計算する手段と、画像を複数の局所領域R_iに分割する手段と、局所領域R_iごとに各画素の特徴量に基づいてローカル統計値を計算する手段と、グローバル統計値と各局所領域R_iのローカル統計値とに基づいて局所領域R_iごとに閾値th_iを設定する手段と、局所領域R_iごとに画像の各画素の特徴量と背景画像の対応する各画素の特徴量との差分を当該局所領域R_iに固有の閾値th_iと比較してシルエットを抽出する手段とを具備した。

(2) 画像を複数の局所領域R_iに分割する際の各局所領域R_iのサイズを前記グローバル統計値に基づいて決定する領域サイズ決定手段を更に具備した。

(3) 前記グローバル統計値が画像における各画素の特徴量の分散であり、領域サイズ決定手段は、分散が大きいほど局所領域R_iのサイズを小さくするようにした。

本発明によれば、以下のような効果が達成される。

(1) 単眼の背景差分法により、画像と背景画像との対応する画素値の差分を求めて各画素がシルエット内の画素であるか否かを判断するにあたり、画像を複数の局所領域R_iに分割し、局所領域R_iごとに差分閾値th_iを設定するようにした。したがって、局所領域R_iごとに各画素の特徴量の傾向が大きく異なるような場合でもオブジェクトのシルエットを正確に抽出できるようになる。

(2) 各局所領域R_iの大きさを、画像における各画素のピクセル強度の分散（グローバル分散）に応じて可変とし、グローバル分散σ_globが大きいほど各局所領域R_iのサイズを小さくするようにした。したがって、画像を適正数の局所領域R_iに分割することが可能となり、局所領域R_iの増加による処理負荷の上昇を抑えながらシルエット抽出の精度を向上させることが可能になる。

本発明の一実施形態に係るシルエット抽出装置の主要部の構成を示した機能ブロック図である。カメラ画像の一例を示した図である。カメラ画像を複数の局所領域R_iに分割する方法を示した図である。カメラｊごとにシルエット画像S(j)を生成する方法を示したフローチャートである。適応的閾値th_iを採用して生成したシルエット画像S(j)とグローバル閾値th_globを採用して生成したシルエット画像S(j)とを比較した図である。 3Dモデルのボクセルデータを各シルエット画像S(j)に投影して対応画素のデータを取得する方法を示した図である。スーパーピクセルの分割例を示した図である。シルエット画像S(j)の見直し手順を示したフローチャートである。 3Dモデル修正部(40)の他の実施形態の構成を示したブロック図である。勾配情報反映部(43)の機能を説明するための図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の一実施形態に係るシルエット抽出装置の主要部の構成を示した機能ブロック図である。このような装置は、汎用のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装して構成しても良いし、あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機として構成しても良い。

多視点画像入力部１０は、オブジェクトObjを異なる視点で撮影する複数台のカメラCaj（Ca1，Ca2…）から、図２に一例を示したカメラ画像I(t)を視点ごとに所定の周期で取得する。シルエット画像生成部２０は、各カメラ画像I(t)に基づいてオブジェクトのシルエットを含むシルエット画像S(j)を視点ごとに生成する。

前記シルエット画像生成部２０において、背景画像取得部２１は、オブジェクトObjが存在しない空舞台のカメラ画像I(t)から背景画像を取得する。グローバル統計値取得部２２は、カメラ画像I(t)ごとに各画素の特徴量に基づいてカメラ画像全体の統計値（グローバル統計値）を計算する。本実施形態では、カメラ画像I(t)の全画素のピクセル強度の分散すなわちグローバル分散σ_globが計算される。なお、カラー画像の場合は3原色のそれぞれについてμ_globが計算される。

領域分割部２３は、図３に一例を示したように、各視点のカメラ画像I(t)を複数の矩形の局所領域R_iに分割する。本実施形態では、カメラ画像I(t)がk個の局所領域R_iに分割されているが、各局所領域R_iのサイズすなわち分割数kはグローバル分散σ_globに依存し、グローバル分散σ_globが大きくなるほど局所領域R_iのサイズは小さくされる。

ローカル統計値取得部２４は、各カメラ画像I(t)の局所領域R_iごとに各画素の特徴量に基づいて各局所領域R_iに固有の統計値（ローカル統計値）を計算する。本実施形態では、各局所領域R_i内の全画素のピクセル強度に基づいて各局所領域R_iに固有のローカル分散σ_iが計算される。

ローカル閾値設定部２５は、前記局所領域R_iごとに、カメラ画像I(t)の各画素のピクセル強度と前記背景画像の対応する画素のピクセル強度との差分に基づいて当該局所領域R_i内の各画素がシルエット領域および背景領域のいずれであるかを判別するためのローカル閾値th_iを設定する。

本実施形態では、予め用意されている標準的なグローバル閾値th_globを、次式(1)に示したように、グローバル分散σ_globとローカル分散σ_iとの比に基づいて局所領域R_iごとに増減補正することで各ローカル閾値th_iが適応的に求められる。

ここで、２つのパラメータA，Bは、グローバル分散σ_globとローカル分散σ_iとの比α（α∈(0,1)）に応じて局所閾値th_iを適合させるためのオフセット値であり、一般的にA，Bはいずれも正の値をとるが、一方は「０」であっても良い。

判別部２６は、局所領域R_iごとに各画素のピクセル強度と前記背景画像の対応する画素のピクセル強度との差分を当該局所領域R_iに固有のローカル閾値th_iと比較する。そして、差分が前記ローカル閾値th_iよりも大きい画素にはシルエット内である旨のラベル「１」を付し、差分値が前記ローカル閾値th_iよりも小さい画素には背景である旨のラベル「０」を付する。

シルエット画像生成部２７は、全ての画素にラベル「０」またはラベル「１」の付されたシルエット画像S(j)を視点（カメラ）ごとに生成する。本実施形態ではm個のシルエット画像S(1)〜S(m)が生成される。

図４は、前記シルエット画像生成部２０によるシルエット画像S(j)の生成方法を示したフローチャートであり、時刻tにおいてカメラ画像I(t)ごとに同様の処理が繰り返されてm個のシルエット画像S(1)〜S(m)が生成される。

ステップＳ１では、オブジェクトが映っていない背景画像が、前記背景画像取得部２１により取得される。ステップＳ２では、各カメラCaからカメラ映像I(t)が取り込まれる。ステップＳ３では、カメラ画像I(t)の各画素のピクセル強度に基づいて、カメラ画像全体でのピクセル強度のグローバル分散σ_globが、前記グローバル統計値取得部２２により計算、取得される。

ステップＳ４では、前記図２に示したように、カメラ画像I(t)が前記領域分割部２３によりk個の局所領域R₁，R₂…R_i…R_kに分割される。したがって、各カメラ画像I(t)は次式(2)で表される。

ステップＳ５では、局所領域R_iの一つが選択される。ステップＳ６では、当該局所領域R_iの各画素のピクセル強度に基づいて、その統計値であるピクセル強度のローカル分散σ_iが前記ローカル統計値取得部２４により計算、取得される。

ステップＳ７では、前記ローカル分散σ_iに基づいて当該局所領域R_iに固有の閾値th_iが、前記ローカル閾値設定部２５により上式(1)に基づいて計算される。ステップＳ８では、前記判別部２６が局所領域R_iごとに、各画素のピクセル強度と背景画像の対応する画素のピクセル強度との差分を前記適応的閾値th_iと比較し、差分が閾値th_iよりも大きければシルエットの画素、小さければ背景の画素と判別する。

ステップＳ９では、全ての局所領域R_iに関して上記の識別が完了したか否が判断される。完了していなければステップＳ５へ戻り、次の局所領域R_iに対して同様の処理が繰り返される。全ての局所領域R_iの各画素について前記判別が完了するとステップＳ１０へ進み、前記シルエット画像生成部２７によりシルエット画像S(j)が生成される。

図５は、本発明に係る適応的閾値th_iを採用して生成したシルエット画像S(j)[同図(a)]と、従来技術のグローバル閾値th_globを採用して生成したシルエット画像S(j)[同図(b)]とを比較した図であり、適応的閾値th_iを採用することでシルエットを正確に抽出できることが判る。

本実施形態によれば、単眼の背景差分法によりカメラ画像と背景画像とを対応する画素値の差分に基づいて各画素がシルエット内の画素であるか否かを判断するにあたり、カメラ画像を複数の局所領域R_iに分割し、局所領域R_iごとに差分閾値th_iを設定するようにした。したがって、局所領域R_iごとに各画素の特徴量の傾向が大きく異なるような場合でもオブジェクトのシルエットを正確に抽出できるようになる。

また、各局所領域R_iの大きさを、カメラ画像における各画素のピクセル強度の分散（グローバル分散）に応じて可変とし、グローバル分散σ_globが大きいほど各局所領域R_iのサイズを小さくするようにした。したがって、カメラ画像を適正数の局所領域R_iに分割することが可能となり、局所領域R_iの増加による処理負荷の上昇を抑えながらシルエット抽出の精度を向上させることが可能になる。

図1へ戻り、三次元形状モデル生成部３０は、異なる視点ごとに生成されたシルエット画像S(j)を実空間に投影した視体積の中にオブジェクトが含まれるという制約に基づいて、視体積交差法により、各シルエット画像S(1)〜S(m)に対応する視体積の共通部分をオブジェクトの三次元形状（ボクセルデータの集合）と推定し、３次元ボクセル空間におけるオブジェクトの存在領域を示すVisual Hullを復元する。

3Dモデル修正部４０は、ボクセルデータ投影部４１を備え、Visual Hull内の各ボクセルデータを各視点のシルエット画像S(j)に投影する。そして、投影先がシルエット内である確率を確率計算部４２により計算し、確率の低いボクセルデータを排除することで前記Visual Hullの形状を修正する。

ここで、各シルエット画像S(j)の各座標(x,y)に位置する画素をa⁽ⁱ⁾(x,y)と表記し（以下、a⁽ⁱ⁾と簡略化する）、3D空間内の各座標(x,y,z)に位置するボクセルをv(x,y,z)と表記する（以下、vと簡略化する）と、図６に示したように、各カメラが3次元空間に対してカメラパラメータC⁽ⁱ⁾により完全に較正されていれば次式(3)が成立する。

そこで、本実施形態では3Dモデル内の全てのボクセルを上式(3)に基づいて各シルエット画像S(j)にそれぞれ投影する。a⁽ⁱ⁾の値を得る演算子をΩ(a⁽ⁱ⁾)と定義すれば、各ボクセルvの投影先a⁽ⁱ⁾がシルエットである確率P2d(v)は次式(4)で求められる。

そして、各ボクセルvの正当性を評価するための閾値γ∈(0,1)を、隣接する接続や勾配などの局所的なピクセル情報に基づいて定義し、次式(5)に基づいて各ボクセルvに有効ラベル「１」または無効ラベル「０」を付する。そして、無効ラベル「０」を付されたボクセルをVisual Hullから排除することで3Dモデルが修正される。

シルエット画像見直し部５０は、ボクセルデータ投影部５１を備え、前記修正後のVisual Hull内の各ボクセルデータを各視点に投影することで修正されたシルエット画像S(j)を生成する。

シルエット画像再見直し部６０は、カメラ画像I(t)を多数のスーパーピクセルに分割し、その境界情報に基づいて前記見直し後シルエット画像S(j)_rev1を更に見直し、再見直し後シルエット画像S(j)_rev2を構築する。

前記シルエット画像再見直し部６０において、スーパーピクセル分割部６１は、図７(a)に模式的に示したように、カメラ画像I(t)を多数のスーパーピクセルU_kに分割する。ここで、スーパーピクセルとは輝度や色等の性質が比較的似ているピクセルを複数まとめた小領域であり、スーパーピクセルを算出するための手法としては、Graph-based手法、Mean Shift手法あるいはNormalized Cut手法などが知られている。各スーパーピクセルU_kはオブジェクトのシルエットを定義するために有益な境界情報を有している。

判別部６２は、各スーパーピクセルU_k内の全画素を、前記見直し後シルエット画像S(j)_rev1の対応画素に付されたラベルに基づいてシルエット／背景のいずれかに判別する。占有率計算部６３は、前記判別結果に基づいて、スーパーピクセルU_kごとに全画素に占めるシルエットの占有率を計算する。

ラベリング部６４は、次式(6)に示したように、スーパーピクセルU_kごとに、当該スーパーピクセルU_kにおけるシルエットの占有率を、総画素数Tとシルエットの画素数との比（ｈ/T）として求め、占有率と所定の閾値βとの関係に基づいて各スーパーピクセルU_kをラベル付けする。すなわち、占有率（ｈ/T）が閾値βを超えるスーパーピクセルU_kにラベル「１」が付される。

修正部６５は、ラベル「１」を付されたスーパーピクセルU_kの各画素に対応する前記見直し後マスクS(j)_rev1の各画素値を「１」とする再見直し後マスクS(j)_rev2を獲得する。

図７(a)，(b)は、前記シルエット画像再見直し部６０の機能を模式的に表現した図であり、ここでは３つのスーパーピクセルU_a，U_b，U_cに着目して説明する。

前記閾値β=0.6と仮定すると、スーパーピクセルU_aではh/T＞βが成立するので当該スーパーピクセルU_aにはラベル「１」が付される。その結果、見直し後マスクS(j)_rev1において当該スーパーピクセルU_a内の各画素の画素値が全て「１」に書き換えられる。

これに対して、スーパーピクセルU_b，U_cではh/T＞βが成立しないので当該各スーパーピクセルU_b，U_cにはラベル「０」が付される。その結果、見直し後マスクS(j)_rev1において当該スーパーピクセルU_b，U_c内の各画素の画素値が全て「０」に書き換えられる。

図８は、本実施形態におけるシルエット画像S(j)の見直し手順を示したフローチャートであり、ステップＳ２１では、複数の視点ごとに生成された複数のシルエット画像S(j)が取得される。ステップＳ２２では、前記三次元形状モデル生成部３０において、複数のシルエット画像S(j)に基づいてオブジェクトの3Dモデル（Visual Hull）が初期化される。

ステップＳ２３では、前記3Dモデル修正部４０において、3Dモデル内の各ボクセルが各シルエット画像S(j)に投影され、ボクセルごとに投影先がシルエット内である確率P2d(v)が、前記確率計算部４２により上式(4)に基づいて計算される。ステップＳ２４では、確率P2d(v)の低いボクセルを排除することで3Dモデルの形状が修正される。

ステップＳ２５では、前記シルエット画像見直し部５０において、前記更新後の3Dモデルの各ボクセルデータを各シルエット画像S(j)に投影し、投影先の各画素にシルエットである旨のラベル「１」を付することで見直し後シルエット画像S(j)_rev1を構築する。

ステップＳ２６では、前記シルエット画像再見直し部６０において、カメラ画像I(t)が複数のスーパーピクセルU_kに分割される。ステップＳ２７では、スーパーピクセルU_kごとに、見直し後シルエット画像S(j)_rev1においてシルエット内である画素に相当する画素（シルエット相当画素）の占有確率が計算される。

ステップＳ２８では、シルエット相当画素の占有確率が所定の閾値を超えるスーパーピクセルU_k内の全ての画素に対応する前記見直し後シルエット画像S(j)_rev1の各画素のラベルをシルエット「１」に書く替えることで再見直し後シルエット画像S(j)_rev2が構築される。ステップＳ２９では、いくつかの後処理後（例えば、形態学的操作、およびフィルタリングなど）が実施されて各シルエット画像が完成する。

本実施形態によれば、シルエットに基づいて構築した3Dモデルの各ボクセルデータを各視点のシルエット画像に投影し、投影先がシルエット内の画素である確率の低いボクセルデータを排除することで前記3Dモデルを修正するようにした。したがって、見直し後の3Dモデルの各ボクセルデータを各視点のシルエット画像に投影することで各シルエットを見直す際の精度が向上し、シルエットから不要な領域を正確に排除できるようになる。

また、本実施形態によれば、カメラ画像を多数のスーパーピクセルに分割し、各スーパーピクセルの境界情報を用いて各シルエット画像の境界を見直すようにしたので、シルエットの境界を精度良く修正できるようになる。

図９は、前記3Dモデル修正部４０の他の実施形態の構成を示したブロック図であり、勾配情報反映部４３を更に具備した点に特徴がある。

上記の実施形態では、前記3Dモデル修正部４０が3Dモデルの各ボクセルデータを各シルエット画像S(j)へ投影し、ボクセルデータの投影先がシルエット内である確率P2dに基づいて各ボクセルデータを取捨するものとして説明した。これに対して、本実施形態では投影先のみならず、その近隣画素も考慮して当該投影先がシルエット内であるか否かを判断するようにした点に特徴がある。

本実施形態では、各ボクセルの投影先画素の上方向，下方向、右方向および左方向に距離τだけ離れた各画素に付されたラベルを、それぞれ(x，y+τ)，(x，y−τ)，(x+τ，y)，(x−τ，y)としたとき、次式(7)に基づいて勾配情報∇を求め、これを次式(8)に適用することで最終的の当該投影先がシルエット内であるか否かを判断するようにしている。ここで、τは勾配計算におけるステップであり、∇∈[0,4]である。

図１０は、本実施形態における投影先の判別方法を、τ=１の場合を例にして模式的に示した図であり、同図(a)では、投影先がシルエット内（〇：=１）であり、その上下左右の各方向に隣接する4つの画素の全てが背景（●：=0）である。したがって、∇=４となるので投影先はシルエット内と認識されない。

同図(b)では、投影先の画素がシルエット内であり、その上下左右の各方向に隣接する4つの画素のうち、１つのみがシルエット内で他の３つは背景である。したがって、∇=３となるので投影先はシルエット内と認識されない。同様に、同図(c)の例でも∇=２となるので投影先はシルエット内と認識されない。

これに対して、同図(d)では投影先がシルエット内であり、その上下左右の各方向に隣接する4つの画素のうち３つがシルエット内なので∇=１となり、同図(e)でも、４つの隣接画素全てがシルエット内なので∇=０となる。したがって、いずれの場合も投影先はシルエット内と認識される。

本実施形態によれば、ボクセルデータの投影先がシルエット内の画素として予めラベル付けされていても、その周辺画素の大部分が背景の画素としてラベル付けされている場合のように、投影先がシルエット内である旨のラベル付が妥当ではないと推定される場合にはシルエット内と認識しないようにしたので、外乱等の影響による誤ったラベル付けの影響を排除できるようになる。

１０…多視点画像入力部，２０…シルエット画像生成部，２１…背景画像取得部，２２…グローバル統計値取得部，２３…領域分割部，２４…ローカル統計値取得部，２５…ローカル閾値設定部，２６…判別部，２７…シルエット画像生成部，３０…三次元形状モデル生成部，４０…3Dモデル修正部，４１…ボクセルデータ投影部，４２…確率計算部，４３…勾配情報反映部，５０…シルエット画像見直し部，５１…ボクセルデータ投影部，６０…シルエット画像再見直し部，６１…スーパーピクセル分割部，６２…判別部，６３…占有率計算部，６４…ラベリング部，６５…修正部

Claims

画像からオブジェクトのシルエットを抽出するシルエット抽出装置において、
画像ごとに各画素の特徴量に基づいて当該画像全体のグローバル統計値を計算する手段と、
前記画像を複数の局所領域に分割する際の各局所領域のサイズを前記グローバル統計値に基づいて決定する手段と、
前記画像を前記決定したサイズで複数の局所領域に分割する手段と、
前記局所領域ごとに各画素の特徴量に基づいて当該各局所領域に固有のローカル統計値を計算する手段と、
前記グローバル統計値と各局所領域のローカル統計値とに基づいて局所領域ごとに閾値を設定する手段と、
局所領域ごとに、画像の各画素の特徴量と背景画像の対応する各画素の特徴量との差分を当該局所領域に固有の閾値と比較してシルエットを抽出する手段とを具備したことを特徴とするシルエット抽出装置。
前記グローバル統計値が、画像における各画素の特徴量の分散であることを特徴とする請求項１に記載のシルエット抽出装置。
前記各画素の特徴量がピクセル強度であることを特徴とする請求項１または２に記載のシルエット抽出装置。
前記グローバル統計値が、画像における各画素の特徴量の分散であり、前記グローバル統計値に基づいて決定する手段は、分散が大きいほど局所領域のサイズを小さくすることを特徴とする請求項１ないし３のいずれかに記載のシルエット抽出装置。
コンピュータが画像からオブジェクトのシルエットを抽出するシルエット抽出方法において、
画像ごとに各画素の特徴量に基づいて当該画像全体のグローバル統計値を計算し、
前記画像を複数の局所領域に分割する際の各局所領域のサイズを前記グローバル統計値に基づいて決定し、
前記画像を前記決定したサイズで複数の局所領域に分割し、
前記局所領域ごとに各画素の特徴量に基づいて当該各局所領域に固有のローカル統計値を計算し、
前記グローバル統計値と各局所領域のローカル統計値とに基づいて局所領域ごとに閾値を設定し、
局所領域ごとに、画像の各画素の特徴量と背景画像の対応する各画素の特徴量との差分を当該局所領域に固有の閾値と比較してシルエットを抽出することを特徴とするシルエット抽出方法。
前記グローバル統計値が、画像における各画素の特徴量の分散であることを特徴とする請求項５に記載のシルエット抽出方法。
前記各画素の特徴量がピクセル強度であることを特徴とする請求項５または６に記載のシルエット抽出方法。
前記グローバル統計値が、画像における各画素の特徴量の分散であり、分散が大きいほど局所領域のサイズを小さくすることを特徴とする請求項５ないし７のいずれかに記載のシルエット抽出方法。
画像からオブジェクトのシルエットを抽出するシルエット抽出プログラムにおいて、
画像ごとに各画素の特徴量に基づいて当該画像全体のグローバル統計値を計算する手順と、
前記画像を複数の局所領域に分割する際の各局所領域のサイズを前記グローバル統計値に基づいて決定する手順と、
前記画像を前記決定したサイズで複数の局所領域に分割する手順と、
前記局所領域ごとに各画素の特徴量に基づいて当該各局所領域に固有のローカル統計値を計算する手順と、
前記グローバル統計値と各局所領域のローカル統計値とに基づいて局所領域ごとに閾値を設定する手順と、
局所領域ごとに、画像の各画素の特徴量と背景画像の対応する各画素の特徴量との差分を当該局所領域に固有の閾値と比較してシルエットを抽出する手順とを、コンピュータに実行させるシルエット抽出プログラム。
前記グローバル統計値が、画像における各画素の特徴量の分散であることを特徴とする請求項９に記載のシルエット抽出プログラム。
前記各画素の特徴量がピクセル強度であることを特徴とする請求項９または１０に記載のシルエット抽出プログラム。
前記グローバル統計値が、画像における各画素の特徴量の分散であり、分散が大きいほど局所領域のサイズを小さくすることを特徴とする請求項９ないし１１のいずれかに記載のシルエット抽出プログラム。