JP7509509B2

JP7509509B2 - 被写体シルエット抽出装置、方法及びプログラム

Info

Publication number: JP7509509B2
Application number: JP2021008631A
Authority: JP
Inventors: 良亮渡邊
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2024-07-02
Anticipated expiration: 2041-01-22
Also published as: JP2022112724A

Description

本発明は、カメラで撮影した動画像から被写体部分のみを前景としたシルエットを抽出する被写体シルエット抽出装置、方法及びプログラムに関する。

自由視点映像技術は、複数カメラの映像を入力してカメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献1が開示する視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が知られている。

視体積交差法は、図16に示すように異なるカメラ位置で撮影したN個の被写体シルエットを3次元ワールド座標に投影した際の視錐体の共通部分を次式(1)に基づいて視体積（Visual Hull）VH(K)として獲得する技術である。

ここで、集合Kは各カメラのシルエットの集合であり、Vkはk番目のカメラから得られるシルエットに基づいて計算される視錐体である。また、通常はN個全てのカメラの共通部分となる部分がモデル化されるが、N-1個が共通する場合にモデル化するなど、モデル化が成されるカメラ台数に関しては変更してもよい。

このとき、例えばマーチングキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換する機能を具備し、ポリゴンモデルとして3Dモデルを出力する機能を有していてもよい。

このような視体積交差法は、非特許文献2が開示するフルモデル方式自由視点(= 3Dモデルの形状を忠実に表現する方式の自由視点)を実現する上での基礎技術として利用されている。

視体積交差法で利用する積集合を得るためのシルエット抽出手法として、非特許文献3に代表される背景差分法ベースの手法が知られている。背景差分法は、背景モデルと呼ばれる被写体が存在しない状態のモデルと入力画像の差分を基に被写体を抽出する手法である。また、近年は非特許文献4が開示するDeep Learningベースの被写体シルエット抽出手法も登場し、高精度でシルエットを抽出可能な手法が次々と提案されている。

特願2020-012676号

Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994). J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), Montreal, QC, 2007, pp. 177-184. C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252, Vol. 2, (1999). Lim, Long Ang, and Hacer Yalim Keles. "Foreground Segmentation Using Convolutional Neural Networks for Multiscale Feature Encoding." Pattern Recognition Letters, (2018). J. Chen, et al, "Sports Camera Calibration via Synthetic Data," CVPR Workshop, 2019. O. Barnich and M. Van Droogenbroeck, "ViBe: A Universal Background Subtraction Algorithm for Video Sequences," in IEEE Transactions on Image Processing, vol. 20, no. 6, pp. 1709-1724, June 2011. J. Chen, K. Nonaka, H. Sankoh, R. Watanabe, H. Sabirin and S. Naito, "Efficient Parallel Connected Component Labeling With a Coarse-to-Fine Strategy," in IEEE Access, vol. 6, pp. 55731-55740, 2018.

視体積交差法に利用するシルエット抽出では、非特許文献3，4のシルエット抽出技術により得られるシルエットが完璧（ここでの完璧とは、非特許文献3，4の中で評価に用いられているF-Measureが100%を示すことと定義する）であったとしても、視体積交差法によって生成される3Dモデルに欠損が生じ得る。これはカメラの内部パラメータや外部パラメータの推定誤差が一つの要因となっている。

視体積交差法を用いた3Dモデルの生成では、事前にカメラの位置や向きを正しく推定し、加えて画像中に含まれるレンズによる歪を除去するなど、カメラパラメータの推定誤差を小さくする必要がある。これらの研究は、非特許文献5などで改善が進められているものの研究途上であり、正確にカメラの位置や向きを自動推定することは困難である。

そして、図17に一例を示すように、カメラパラメータの推定結果（ここでは、カメラの位置）が誤差を含んだ状態で自由視点制作を行うと視体積が小さく計算されることがあり、その結果、図18に一例を示すように合成後の3Dモデルに欠損が発生し、視聴時に違和感が発生するという課題があった。

本発明の目的は、上記の技術課題を解決し、カメラパラメータの推定誤差を考慮して、動画像から3Dモデル生成に適した被写体シルエットを抽出できる被写体シルエット抽出装置、方法及びプログラムを提供することにある。

上記の目的を達成するために、本発明は、カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出装置において、以下の構成を具備した点に特徴がある。

(1) シルエットの前景部分を3次元ワールド座標に投影した際の形状がカメラパラメータ誤差に依存する視錐体に基づいて、カメラパラメータ誤差が形状に反映された誤差推定用3Dモデルを生成する手段と、前記誤差推定用3Dモデルの形状に依存する情報に基づいてカメラパラメータ誤差を推定する手段とを具備し、カメラごとに前記カメラパラメータ誤差の推定結果に基づいてシルエットを計算するようにした。

(2) N台のカメラから抽出したシルエットに基づいて全カメラ3Dモデルを生成する手段と、誤差推定対象カメラを切り換えながら当該誤差推定対象カメラを除く残りN-1台のカメラから抽出したシルエットに基づいて計N個の一部カメラ3Dモデルを生成する手段とを具備し、全カメラ3Dモデルと各一部カメラ3Dモデルとの生成量差に基づいて、各一部カメラ3Dモデルの生成に用いなかった誤差推定対象カメラのカメラパラメータ誤差を推定するようにした。

(3) 誤差推定対象カメラを切り換えながら誤差推定用3Dモデルを各誤差推定対象カメラのカメラ平面へ投影してシェイプマスクを生成する手段と、誤差推定対象カメラごとに、そのシルエットと前記シェイプマスクとの一致率に基づいて、当該一致率が低いほどカメラパラメータ誤差を高い値に計算する手段とを具備した。

(4) カメラパラメータ誤差が大きいほど被写体シルエットの輪郭を膨張するようにした。

(5) 被写体シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返すようにした。

(6) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値を計算するようにした。

(7) カメラパラメータ誤差が大きいほど背景モデルの更新率を低い値に計算するようにした。

(8) カメラパラメータ誤差が大きいほど、各画素が前景領域に識別され易くなるように背景差分閾値を計算し、背景モデルの更新率を低い値に計算するようにした。

本発明によれば、以下のような効果が達成される。

(1) 各カメラのパラメータ誤差を3Dモデルの形状に現れる変化として把握し、当該変化を低減できるシルエット抽出パラメータを用いてシルエットを再計算するので、各カメラの被写体シルエットを用いて3Dモデルを生成する際にカメラパラメータ誤差が原因で3Dモデルに生じ得る欠けなどの品質劣化を抑制できるようになる。

(2) 全カメラ3Dモデルと一部カメラ3Dモデルとのモデル生成量の差に基づいてカメラパラメータ誤差を推定し、当該カメラパラメータ誤差に基づいてシルエットを計算するので、各カメラのシルエットから3Dモデルに欠けを生じさせ得るカメラパラメータ誤差の影響を低減できるようになる。また、生成量の差を各3Dモデルのボクセル数差で代表すれば、単なるボクセル数の数え上げでカメラパラメータ誤差を推定できるので処理を軽量化できる。

(3) カメラごとにシルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を推定し、当該カメラパラメータ誤差に基づいてシルエットを計算するので、カメラパラメータ誤差が視錐体形状への影響を通して、さらに3Dモデルの形状に与える影響を低減できるようになる。また、カメラパラメータに誤差が発生している場合に現れるカメラの位置や方向のずれを直接検知できるので、正確なカメラパラメータ誤差推定が可能になる。

(4) カメラパラメータ誤差が大きいほどシルエットの輪郭を膨張させるので、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できるようになる。

(5) シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返すので、カメラパラメータ誤差が原因で3Dモデルに生じ得る欠けやノイズなどの品質劣化を抑制できるようになる。

(6) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値が計算されるので被写体シルエットを拡張できる。したがって、カメラパラメータ誤差が原因で3Dモデルに生じ得る欠けなどの品質劣化を抑制できるようになる。

(7) カメラパラメータ誤差が大きいほど背景モデルの更新率が低い値に計算されるので、各画素が前景領域に識別され易くなる。したがって、カメラパラメータ誤差が原因で3Dモデルに生じ得る欠けなどの品質劣化を抑制できるようになる。

(8) カメラパラメータ誤差が大きいほど各画素が前景領域に識別され易くなるように背景差分閾値が計算され、背景モデルの更新率が低い値に計算されるので、カメラパラメータ誤差が原因で3Dモデルに生じ得る欠けなどの品質劣化を抑制できるようになる。

本発明を適用した被写体シルエット抽出装置を含む3Dモデル生成システムの機能ブロック図である。本発明の第1実施形態に係る被写体シルエット抽出装置の機能ブロック図である。シルエットの輪郭膨張により欠損の少ない3Dモデルが形成される例を示した図である。本発明の第2実施形態に係る被写体シルエット抽出装置の機能ブロック図である。本発明の第3実施形態に係る被写体シルエット抽出装置の機能ブロック図である。カメラの入力シルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を推定する方法（その1）を示した図である。 3Dボクセルモデルを被写体ごとに分割する例を示した図である。カメラの入力シルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を推定する方法（その2）を示した図である。カメラの入力シルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を推定する方法（その3）を示した図である。本発明の第4実施形態に係る被写体シルエット抽出装置の機能ブロック図である。背景モデルを用いた背景差分法によりシルエットを抽出する方法を模式的に示した図である。本発明の第5実施形態に係る被写体シルエット抽出装置の機能ブロック図である。本発明の第6実施形態に係る被写体シルエット抽出装置の機能ブロック図である。全カメラ3Dモデルと一部カメラ3Dモデルとの生成量差に基づいてカメラパラメータ誤差を段階的、逐次的に推定する第7実施形態の手順を示したフローチャートである。カメラの入力シルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を段階的、逐次的に推定する第8実施形態の手順を示したフローチャートである。視体積交差法による3Dモデルの生成方法を示した図である。カメラパラメータの推定誤差が原因で視体積が小さく計算される例を示した図である。カメラパラメータの推定誤差が原因で3Dモデルに欠損が生じる例を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明を適用した被写体シルエット抽出装置1を含む3Dモデル生成システム100の主要部の構成を示した機能ブロック図である。

被写体シルエット抽出装置1は、動画像取得部10、誤差推定用3Dモデル生成部20、カメラパラメータ誤差推定部30、シルエット抽出パラメータ計算部40およびシルエット計算部50を主要な構成とする。3Dモデル生成システム100は前記被写体シルエット抽出装置1に加えて、抽出したシルエット画像を用いて視体積交差法により3Dモデルを生成する3Dモデル生成部2を含む。

このような3Dモデル生成システム100またはその被写体シルエット抽出装置1は、CPU，ROM，RAM，バス，インタフェース等を備えた少なくとも一台の汎用のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。

動画像取得部10は、少なくとも一台のカメラから動画像を取得する。動画像を複数のカメラから取得する場合、各カメラは被写体を異なる視点から撮影するように配置される。動画像はカメラから直接取得しても良いし、あるいは動画像データベース（DB）3などに保蔵されている動画像ファイルを読み出すことで取得しても良い。

誤差推定用3Dモデル生成部20は、各カメラから抽出した被写体シルエットの前景部分を3次元ワールド座標に投影した際に、その形状がカメラパラメータ誤差に依存する視錐体の積集合として、各カメラのパラメータ誤差が形状に反映された誤差推定用3Dモデルを生成する。カメラパラメータ誤差推定部30は、カメラごとに（更には画素位置ごとに）前記誤差推定用3Dモデルの形状に依存する情報に基づいて、各カメラの状態を示すカメラパラメータの誤差を推定する。

シルエット抽出パラメータ計算部40は、カメラパラメータ誤差の推定結果に基づいて、各カメラの動画像からシルエットを抽出する際のパラメータ（シルエット抽出パラメータ）を計算する。シルエット計算部50は、各カメラの動画像からフレームごとに前記シルエット抽出パラメータを用いたシルエット計算によりシルエットを抽出する。

3Dモデル生成部2は、前記図16を参照して説明したように、各カメラから抽出したシルエット画像を用いた視体積交差法により被写体の3Dモデルを生成する。

図2は、前記被写体シルエット抽出装置1の第1実施形態の構成を示した機能ブロック図であり、ここでは本発明の説明に不要な構成は図示を省略している。

本実施形態は、全N台のカメラcを備えたシステムにおいて、全てのカメラから抽出したN個のシルエット画像を用いて生成した3Dボクセルモデル（以下、全カメラ3Dモデルと表現する）と、注目する1台のカメラ（以下、誤差推定対象カメラと表現する場合もある）を除いた残りN-1台のカメラから抽出したN-1個のシルエット画像を用いて生成した3Dボクセルモデル（以下、一部カメラ3Dモデルと表現する）とを比較し、各3Dボクセルモデルの生成量の差に基づいて誤差推定対象カメラcのカメラパラメータ誤差を推定するようにした点に特徴がある。

さらに、本実施形態は各カメラの動画像から被写体のシルエットを、前記カメラパラメータ誤差の推定結果を用いて計算したシルエット抽出パラメータに基づいて膨張させるようにした点に特徴がある。

誤差推定用3Dモデル生成部20は、全カメラ3Dモデル生成部21および一部カメラ3Dモデル生成部22を含む。全カメラ3Dモデル生成部21は、全N台のカメラから抽出したN個のシルエット画像に基づいて全カメラ3Dモデルを生成する。一部カメラ3Dモデル生成部22は、誤差推定対象カメラcを除く残りN-1台のカメラから抽出したN-1個のシルエット画像に基づいて一部カメラ3Dモデルを生成する。前記一部カメラ3Dモデル生成部22は、誤差推定対象カメラcを切り替えながらN個の一部カメラ3Dモデルを生成する。

ここで、全カメラ3Dモデルの生成に用いるN個のシルエットの前景部分を3次元ワールド座標に投影した際に生成される視錐体は、それぞれ各カメラのカメラパラメータ誤差に依存する形状を有するので、全カメラ3Dモデルの形状にもN台のカメラのパラメータ誤差が反映されている。同様に、各一部カメラ3Dモデルの生成に用いる各N-1個のシルエットに基づいて生成される視錐体は、それぞれ各カメラのカメラパラメータ誤差に依存する形状を有するので、N個の各一部カメラ3Dモデルの形状にも各N-1台のカメラのパラメータ誤差が反映されている。

カメラパラメータ誤差推定部30は、全カメラ3DモデルとN個の各一部カメラ3Dモデルとの生成量差を、各3Dモデルの形状に依存する情報の差分として計算する生成量差計算部31を含む。本実施形態では、各モデルの生成量差としてボクセル数差ΔBを採用する。

本実施形態では、全カメラ3Dモデルの形状にN台のカメラの各カメラパラメータ誤差が反映され、一部カメラ3Dモデルの形状には誤差推定対象カメラcを除くN-1台のカメラの各カメラパラメータ誤差が反映されている。したがって、全カメラ3Dモデルのボクセル数と各一部カメラ3Dモデルのボクセル数との差ΔBは誤差推定対象カメラcのカメラパラメータ誤差Ecに依存する。

シルエット抽出パラメータ計算部40は膨張量計算部41を含み、前記カメラパラメータ誤差推定部30によるカメラパラメータ誤差Ecの推定結果に基づいて、動画像から抽出したシルエットを膨張させる際の膨張量を計算する。

本実施例では、非特許文献3や非特許文献4が開示する代表的な手法で動画像から抽出したシルエットの前景領域（シルエットが白の領域）の輪郭を膨張する。これにより、図3に示すように3Dモデル形成時に欠損が少ないモデル形成が可能になる。

なお、シルエットの輪郭を膨張させることにより、当該シルエットを用いて生成される3Dモデルの輪郭も膨張されてしまうという懸念はある。しかしながら、被写体の一部が欠損しているよりは被写体の3Dモデルが膨張されている方が視聴時の違和感が目立ちにくくなる。加えて、被写体の膨張に関しては、本発明の発明者等が発明し、特許文献1に開示したように、違和感を軽減する手法が既に提案されている。

前記膨張量計算部41は、前記カメラパラメータ誤差Ecの推定結果に基づいて膨張量dを計算する。本実施形態では、カメラパラメータ誤差Ecが大きいカメラから抽出したシルエットほど膨張量dがより大きな値に設定され、シルエットがより大きく膨張される。これにより、カメラパラメータの影響で被写体3Dモデルに欠損が生じてしまうことを抑止できる。なお、パラメータ誤差をカメラ単位（Ec）ではなくカメラごとに画素単位Ec(u, v)で計算できていれば、膨張量dも画素(u, v)ごとに決定してもよい。

シルエット計算部50はシルエット抽出部51およびシルエット輪郭膨張処理部52を備える。シルエット抽出部51は、フレーム画像に非特許文献3や非特許文献4が開示する任意の手法を適用して被写体のシルエットを抽出する。シルエット輪郭膨張処理部52は、シルエット抽出部51が抽出したシルエットに対する後処理として、前記膨張量dに応じた輪郭膨張の処理を施す。

前記シルエット輪郭膨張処理部52における膨張は、抽出したシルエットの前景領域の各画素を、その周辺(2d+1)×(2d+1)画素まで拡張することで行われる。dはシルエットの輪郭の膨張量を表すパラメータであり、0以上の整数となる必要がある（d=0は膨張処理が実施されないことを意味する）。なお、シルエットの輪郭膨張は周辺(2d+1)×(2d+1)画素に拡張する方法に限定されず、上下左右4方向の各画素への膨張を繰り返すなどの他の膨張方法を採用しても良い。

本実施形態によれば、各カメラのパラメータ誤差を、当該誤差が被写体のシルエット形状への影響を介して3Dモデルの形状に与える影響を定量化することで推定し、当該影響を低減できるシルエット抽出パラメータを用いてシルエットを再計算するので、各カメラの被写体シルエットを用いて3Dモデルを生成する際にカメラパラメータ誤差が原因で3Dモデルに生じ得る欠けなどの品質劣化を抑制できるようになる。

また、本実施形態によれば全カメラ3Dモデルと一部カメラ3Dモデルとのモデル生成量の差に基づいてカメラパラメータ誤差を推定し、当該カメラパラメータ誤差に基づいてシルエットを計算するので、各カメラのシルエットから3Dモデルに欠けを生じさせ得るカメラパラメータ誤差の影響を低減できるようになる。

さらに、本実施形態によれば3Dモデルの生成量の差を各3Dモデルのボクセル数差で代表できるので、単なるボクセル数の数え上げのみでカメラパラメータ誤差を推定することができ、処理の軽量化が可能になる。

なお、図4に示した第2実施形態のように、シルエット計算部50がシルエットの輪郭を縮退させるシルエット輪郭縮退処理部53を更に備える場合には、シルエット抽出パラメータ計算部40が縮退量計算部42を更に備えても良い。

シルエット抽出では、小さいサイズの縮退処理を施した後に大きいサイズの膨張処理を施すことでシルエットの前景領域は膨張させつつ縮退処理時に微細なノイズを消去できることが知られている。

縮退処理は、シルエットの前景画素の周辺(2e+1)×(2e+1)画素内に前景ではない画素が1画素でも含まれている場合に、当該画素は前景領域の輪郭付近にあるものとしてシルエットの状態を前景から背景に変更することで行われる。eはシルエットの縮退量であり、0以上の整数である（ただしe=0は縮退処理が実施されないことを意味する）。

前記縮退量計算部42は、膨張量dの計算結果に所定の係数を乗じるか、あるいは膨張量dを変数とする所定の関数計算によりd>eの縮退量eを計算できる。このとき、縮退量eはノイズ除去の観点ではd>eに設定されることが望ましい。しかしながら、縮退量eが大き過ぎると本来前景となるべき領域がノイズとして背景にされてしまう懸念もある。そこで、本実施形態では固定的に縮退量e=2とし、前記膨張量計算部41が前記カメラパラメータ誤差Ecおよび縮退量e=2を次式(2)に適用して膨張量dを計算する。

ここで、roundは小数点以下を四捨五入する関数である。Econstは膨張量dを調節するための定数であり手動で設定される。上式(2)によれば、各カメラの画素ごとにカメラパラメータ誤差Ec(u, v)の大きさによって膨張量dが画素ごとに調節される。

なお、本実施形態では縮退量eを定数としたが、膨張量dを定数とし縮退量eを変数としてもよい。この場合、上式(2)ではEconstの設定によっては膨張量dが負の値となる可能性があるが、膨張量dが負の値になる場合にはd=0として処理を行えばよい。

また、本実施形態ではノイズ除去の観点からd>eとなるように膨張量dおよび縮退量eが計算されるものとして説明したが、本発明はこれのみに限定されるものではなく、d<eやd=eであって良い。本実施形態では、縮退処理および膨張処理が当該順序で少なくとも一回繰り返される。

図5は、被写体シルエット抽出装置1の第3実施形態の構成を示した機能ブロック図である。

本実施形態は、図6に示すように誤差推定対象カメラcの動画像に基づいて生成した入力シルエットScと誤差推定用3Dモデル生成部20が生成した3Dモデルを当該誤差推定対象カメラcのカメラ平面（入力シルエットScの位置）に投影したシェイプマスクMcとを比較し、両者の一致率に基づいて誤差推定対象カメラcのカメラパラメータ誤差Ecを推定するようにした点に特徴がある。

カメラパラメータ誤差推定部30において、シルエットマスク生成部32は、誤差推定対象カメラcが撮影した動画像に基づいて入力シルエットScを生成する。シェイプマスク生成部33は、誤差推定用3Dモデルを前記入力シルエットScの位置に投影したシェイプマスクMcを生成する。マスク比較部34は、入力シルエットScとシェイプマスクMcとの一致率に基づいて誤差推定対象カメラcのカメラパラメータ誤差Ecを推定する。

このとき、シェイプマスクMcの投影位置は投影先の各カメラのカメラパラメータに依存するので、投影先カメラのカメラパラメータが誤差を含んでいなければ入力シルエットScとシェイプマスクMcとの一致率は高くなる。本実施形態では、この一致率を前記マスク比較部34が物体検出における評価指標であるIoU（Intersection over Union）に基づいて算出し、一致率が高いほどカメラパラメータ誤差Ecとして小さな値を算出する。なお、この評価に関してはIoUに限らず、Precision値やRecall値、F-Measure値などの異なる評価指標を用いてもよい。

シェイプマスクMcの生成に用いる誤差推定用3Dモデルは、全カメラ3Dモデルおよび一部カメラ3Dモデルのいずれであっても良い。全カメラ3Dモデルを用いると、誤差推定対象カメラcが大きなパラメータ誤差を含む場合に誤差推定用3Dモデルにもその誤差が反映されてしまうために誤差推定の精度低下が懸念される一方、誤差推定用3Dモデルの生成が一回で済むので計算負荷が軽減されて処理時間を短縮できる。

これに対して、誤差推定用3Dモデルとして一部カメラ3Dモデルを用いると、N台全てのカメラについて誤差推定を行うためには誤差推定用3Dモデルの生成をN回行わなければならないので計算負荷が増大する一方、誤差推定精度の向上が期待できる。

本実施形態でも前記第1、第2実施形態と同様に、形状に各カメラのカメラパラメータ誤差が反映された3Dモデルを用いてシルエット抽出パラメータを計算できるので、カメラパラメータ誤差が原因で生じ得る欠けなどの品質劣化を抑制できるようになる。

なお、本実施形態によれば3Dモデルをカメラ平面に投影してシェイプマスクMcを得る処理が必要となるので前記第1、第2実施形態との比較で処理負荷が大きくなりがちになる一方、精度の高いシルエット抽出パラメータ推定が可能になる。

これは、本実施形態ではシェイプマスクMcと入力シルエットScとの重なり方や重心位置の誤差を検知してカメラパラメータの誤差を算出するため、本来カメラパラメータに誤差が発生している場合に現れるカメラの位置や方向のずれを重なり方や重心位置の誤差という形で検知できることに基づく。

なお、上記の第3実施形態ではカメラパラメータ誤差Ecをカメラ単位で推定するものとして説明したが、本発明はこれのみに限定されるものではなく、カメラごとに画素位置(u,v)単位で推定してもよい。

カメラパラメータ誤差をカメラごとに画素位置単位で推定するためには、全ての被写体に関して一括計算される3Dボクセルモデルを、例えば前記誤差推定用3Dモデル生成部20において、図7に示すように被写体ごとに分割する。このような分割は、非特許文献7に開示される手法により3Dボクセルモデルの連結領域を一つの塊（インスタンス）と定義し、インスタンスごとに3Dバウンディングボックスを生成することで実現できる。

そして、各3Dバウンディングボックスが内包する3Dモデルを各カメラのカメラ平面に投影して得られるシェイプマスクMcをそれぞれ計算し、各シェイプマスクMcにその投影元の各3Dバウンディングボックスを一意に識別可能なインデックスを付与する。

さらに、各インスタンスまたはその3Dモデルの重心位置を各カメラ平面に投影して得られる2D画像上の重心位置を計算する。そして、図8に示すように各入力シルエットScの周辺領域内に属する画素位置ごとに各インスタンスの重心位置との距離を比較し、距離が最も近いインスタンスが内包する3DモデルのシェイプマスクMcと前記入力シルエットScとの一致率に応じたパラメータ誤差を当該画素位置(u,v)に適用する。

これにより、あるカメラcの入力シルエットScの周辺領域における画素位置(u,v)とインスタンス１の重心位置との距離が、インスタンス２の重心位置との距離よりも短ければ、当該画素位置(u,v)に対して、インスタンス１が内包する3DモデルのシェイプマスクMcと前記入力シルエットScとの一致率に対応したパラメータ誤差が採用されることになる。

なお、図9に示すように各インスタンスのシェイプマスクMcと入力シルエットScとの2D画像上での重心位置を比較し、上記の一致率に代えて重心位置の差（距離）を求め、例えば重心位置の距離が短いほどカメラパラメータ誤差として小さな値を算出するようにしても良い。

図10は、被写体シルエット抽出装置1の第4実施形態の構成を示した機能ブロック図であり、シルエット計算部50は背景モデルを用いた背景差分法によりシルエット計算を行う。シルエット抽出パラメータ計算部40は背景差分法によるシルエット計算で用いるパラメータをパラメータ誤差の推定結果に基づいて計算する。

本実施形態では、シルエット抽出パラメータ計算部40に背景差分閾値計算部43および背景モデル更新率計算部44を設け、シルエット抽出パラメータとして前景/背景の判定に用いる閾値T(u, v)および背景モデルの更新率U(u, v)を採用した点に特徴がある。

背景差分閾値計算部43は、例えば次式(3)に基づいて閾値T(u, v)を計算する。ここで、Tmin，Tmaxは、それぞれ閾値決定を行う際に最小となる閾値と最大となる閾値である。Emaxはカメラパラメータ誤差Ec(u, v)によるパラメータの変化量をコントロールするための定数である。これらの値は対象とするシーンなどを鑑みて手動で決定される。

背景モデル更新率計算部44は、例えば次式(4)に基づいて更新率U(u, v)を計算する。ここで、Umin，Umaxはそれぞれ更新率を変化させる際の最小更新率と最大更新率であり、これらの値は対象とするシーンなどを鑑みて手動で決定される。

本実施形態によれば、上式(3)により、カメラパラメータ誤差Ec(u, v)が大きくなるほど背景差分閾値T(u, v)が小さく設定されるため各画素を前景と判定されやすくできる。その結果、多くの画素が前景と判定されるようになるので第1，第2実施形態の輪郭膨張に近しい効果を奏することができる。

さらに、上式(4)により、カメラパラメータ誤差Ec(u, v)が大きくなるほど背景モデルの更新率U(u,v)が小さく設定されるため背景モデルを更新されにくくできる。その結果、背景モデルの更新が進んで輪郭が削られていく効果を抑止することができる。

シルエット計算部50において、前景抽出処理部54は動画像から背景モデルを用いた背景差分法により前景を抽出する。背景を単一のガウス分布でモデル化する場合、図11に模式的に示したように、ある画素の背景モデルを構築するためのFフレーム目までのガウス分布の平均がμ_F (u, v)、標準偏差がσ_F (u, v)で与えられるとき、背景差分の計算式は次式(5)となる。

本実施形態では、上記の条件式(5)を満たす画素(u, v)は背景と判断される。I_F (u, v)は取得した動画像の各画素の輝度値、zは標準偏差の何倍までを背景と判断するかを調節するパラメータであり、閾値T(u, v)は上式(3)で計算される。

なお、背景差分の判定に使う画像の色空間に関してはグレースケールでも良いし、RGBやYUV等の色空間でも実施可能であるが、複数の色チャネルを持つ場合には全てのチャネルを独立に処理し、全ての色で背景になる条件を満たす場合に背景となると判定するものとする。

背景モデルの構築方法は単純ガウス分布を用いた方法に限定されず、非特許文献3が開示する混合ガウス分布を用いて背景モデルを構築する手法や、非特許文献6が開示する各画素位置の過去の画素サンプルを特定数保持し続けることで背景モデルを構築する手法を採用しても良い。

画素サンプルを特定数保持する手法では、保持しているサンプル内に入力画素との類似画素が何画素あるかに基づいて前景/背景の判定を行うため、この判定基準となる画素数の閾値を上下させることで、本発明の機構を実現可能である。また更新率という観点でも、特定数保持される画素サンプルを一定の確率で現在フレームの画素で置き換える処理が実施されるため、この確率（＝更新率）を上下することで実現できる。

背景モデル更新部55は、背景モデルのガウス分布平均μF (u, v)および標準偏差σF (u, v)を次式(6)，(7)，(8)により各フレームで更新する。

このように、本実施形態ではフレームごとに背景モデルを徐々に更新することで、日照変化等に応じて少しずつ背景の色が変わる場面等に対して、動的に背景を更新し、精度面で優れたシルエット抽出を実現することができる。

本実施形態によれば、カメラごとにシルエットと3Dモデルのシェイプマスクとの一致率に基づいてカメラパラメータ誤差を推定するので、カメラパラメータ誤差がシルエット形状を介して3Dモデルの形状に与える影響を低減できるようになる。

なお、上記の実施形態ではカメラパラメータ誤差Ec(u, v)がカメラごとに画素単位で推定されるものとして説明したが、本発明はこれのみに限定されるものではなく、カメラ単位で推定されても良い。この場合、判定閾値および背景モデルの更新率もカメラ単位で計算される。

また、上記の第4実施形態ではカメラパラメータの推定誤差に基づいて計算するシルエット抽出パラメータが背景差分閾値T(u, v)および背景モデル更新率U(u, v)であるものとして説明した。しかしながら本発明はこれのみに限定されるものではなく、図12に示した第5実施形態のように背景差分閾値T(u, v)のみであっても良いし、あるいは図13に示した第6実施形態のように背景モデル更新率U(u, v)のみであっても良い。

さらに、上記の第4ないし第6実施形態ではカメラパラメータ誤差推定部30がボクセル数差でカメラパラメータ誤差を代表する場合を例にして説明したが、本発明はこれのみに限定されるものではなく、前記第3実施形態と同様に、入力シルエットScとシェイプマスクMcとの一致率でカメラパラメータ誤差を代表する場合にも同様に適用できる。

さらに、第1ないし第3実施形態と第4ないし第6実施形態とを適宜に組み合わせ、カメラパラメータの推定誤差に基づいてシルエットの膨張量dを計算し、さらにシルエットを背景差分法で抽出する際の背景差分閾値T(u, v)や背景モデル更新率U(u, v)を計算するようにしても良い。

さらに、上記の各実施形態では各カメラのパラメータ誤差を一括して推定するものとして説明したが、本発明はこれのみに限定されるものではなく、カメラごとに順次に推定するようにしても良い。

図14は、全カメラ3Dモデルと一部カメラ3Dモデルとの生成量差に基づいてカメラパラメータ誤差を段階的、逐次的に推定する第7実施形態の手順を示したフローチャートである。

ステップS1では、前記全カメラ3Dモデル生成部21により全カメラ3Dボクセルモデルが生成される。ステップS2では、前記一部カメラ3Dモデル生成部22により、今回の誤差推定対象カメラcを除く残りN-1台のカメラから抽出したN-1個のシルエットを用いて一部カメラ3Dボクセルモデルが生成される。

ステップS3では、前記生成量差計算部31において、全カメラ3Dモデルと一部カメラ3Dモデルとのボクセル数差ΔBが計算される。ステップS4では、全てのカメラについて、当該カメラを誤差推定対象カメラcとしたときのボクセル数差ΔBを計算が完了したか否かが判断される。完了していなければステップS2へ戻り、誤差推定対象カメラcを切り替えながら一部カメラ3Dボクセルモデルの生成およびボクセル数差ΔBの計算が繰り返される。

その後、全てのカメラについてボクセル数差ΔBの計算が完了するとステップS5へ進み、ボクセル数差ΔBの最大値Bmaxが判別される。ステップS6では、最大値Bmaxが基準値Brefと比較される。基準値Brefは十分な品質の3Dモデルを生成できるボクセル数差に予め設定されており、Bmax>BrefであればステップS7へ進む。

ステップS7では、前記シルエット抽出パラメータ計算部40がボクセル数差ΔBの最大値Bmaxに基づいてシルエット抽出パラメータを計算する。ステップS8では、シルエット計算部50が前記シルエット抽出パラメータの計算結果に基づいて、前記ボクセル数差が最大値Bmaxを示したカメラ（誤差最大カメラ）の動画像に基づいてシルエットを計算し、その後、ステップS1へ戻る。

ステップS１では、誤差推定対象カメラのシルエットを更新して全カメラ3Dボクセルモデルが改めて生成される。ステップS2，S3では、誤差推定対象カメラのシルエットを更新してN個の一部カメラ3Dボクセルモデルが再生成される。上記の各処理は、前記ステップS6でBmax≦基準値Brefと判断されるまで繰り返される。
なお、基準値Brefの設定が小さすぎる場合などには、繰り返しを重ねてもボクセル数差ΔBが基準値Bref以下に収束しない可能性もあるので、繰り返し回数が所定の上限値に達した時点で処理を打ち切るようにしてもよい。

その後、Bmax≦Brefと判断されるとステップS9へ進み、前記シルエット抽出パラメータ計算部40が当該ボクセル数差の最大値Bmaxに基づいてシルエット抽出パラメータを計算する。ステップS10では、シルエット計算部50が前記シルエット抽出パラメータの計算結果に基づいて、前記ボクセル数差が最大値Bmaxを示した誤差推定対象カメラのシルエットを計算する。前記3Dモデル生成部2は、最後にボクセル数差が最大値Bmaxを示したカメラについては直前のステップS10で計算したシルエット、他のカメラについては現在の（最新の）のシルエットを用いて被写体3Dモデルを生成する。

図15は、前記入力シルエットScとシェイプマスクMcとの一致率に基づいてカメラパラメータ誤差を段階的、逐次的に推定する第8実施形態の手順を示したフローチャートである。

ステップS31では、全N台のカメラのうち今回の誤差推定対象カメラcを除く残りN-1台のカメラから抽出したN-1個のシルエットを用いて一部カメラ3Dモデルが生成される。ステップS32では、誤差推定対象カメラcの位置に前記一部カメラ3Dモデルを投影することでシェイプマスクMcが生成される。

ステップS33では、誤差推定対象カメラｃの入力シルエットScと前記シェイプマスクMcとの一致率に基づいて当該誤差推定対象カメラcのカメラパラメータ誤差Ecが計算される。ステップS34では、全てのカメラについてカメラパラメータ誤差Ecを計算済であるか否かが判定される。計算済でなければステップS31へ戻り、誤差推定対象カメラcを切り替えながら上記の各処理が繰り返される。

その後、全てのカメラについてカメラパラメータ誤差Ecの計算が完了するとステップS35ヘ進み、カメラパラメータ誤差Ecの最大値Emaxが判別される。ステップS36では、最大値Emaxが基準値Erefと比較される。基準値Erefは十分な品質の3Dモデルを生成できるカメラパラメータ誤差の上限値に予め設定されており、Emax>ErefであればステップS37へ進む。

ステップS37では、前記シルエット抽出パラメータ計算部40が前記Emaxに基づいてシルエット抽出パラメータを計算する。ステップS38では、シルエット計算部50が前記シルエット抽出パラメータの計算結果に基づいて、前記カメラパラメータ誤差が最大値Emaxを示したカメラ（誤差最大カメラ）のシルエットを再計算し、前記ステップS31へ戻る。

ステップS31では、誤差推定対象カメラを切り替えて一部カメラ3Dモデルが生成される。このとき、前回の誤差推定対象カメラについては前記ステップS38で再計算されたシルエットが用いられる。ステップS32では、今回の誤差推定対象カメラの位置に前記一部カメラ3Dモデルを投影することでシェイプマスクMcが生成される。

その後は上記の各処理が、前記ステップS36でEmax≦基準値Erefと判断されるまで繰り返される。Emax≦Erefと判断されるとステップS39へ進み、カメラごとに現在の（最新の）カメラパラメータ誤差Ecに基づいてシルエット抽出パラメータが計算される。ステップS40では、シルエット計算部50が前記シルエット抽出パラメータの計算結果に基づいて、カメラごとにシルエットを計算する。

上記の第7、第8実施形態のように、カメラパラメータ誤差をカメラごとに段階的、逐次的に推定すれば、誤差推定対象カメラのパラメータ誤差よりも、基準となる誤差推定用3Dモデルの生成に関与した他のカメラのパラメータ誤差の方が大きい場合も含めて、パラメータ誤差が大きいカメラから順にシルエットが再計算される。そして、シルエットの再計算結果がフィードバックされた3Dモデルが再生成されてパラメータ誤差を収束させる処理が繰り返されるので、処理に要する時間の若干の増大と引き換えに、欠けの無い3Dモデル生成に適したシルエット抽出が可能になる。

そして、上記の各実施形態によれば高品質な被写体3Dモデルを通信インフラ経由で安価に提供することが可能となるので、地理的あるいは経済的な格差を超えて多くの人々に多様なエンターテインメントを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。

1…被写体シルエット抽出装置，2…3Dモデル生成部，3…動画像DB，10…動画像取得部，20…誤差推定用3Dモデル生成部，21…全カメラ3Dモデル生成部，22…一部カメラ3Dモデル生成部，30…カメラパラメータ誤差推定部，31…生成量計算部，32…シルエットマスク生成部，33…シェイプマスク生成部，34…マスク比較部，40…シルエット抽出パラメータ計算部，41…膨張量計算部，42…縮退量計算部，43…背景差分閾値計算部，44…背景モデル更新率計算部，50…シルエット計算部，51…シルエット抽出部，52…シルエット輪郭膨張処理部，53…シルエット輪郭縮退処理部，54…前景抽出処理部，55…背景モデル更新部，100…3Dモデル生成システム

Claims

カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出装置において、
動画像からカメラごとに被写体のシルエットを取得する手段と、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成する手段と、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算する手段と、
前記膨張量の計算結果に基づいて、カメラごとにシルエットの輪郭を膨張させる手段とを具備し、
前記誤差推定用3Dモデルを生成する手段が、
N台のカメラから抽出したシルエットに基づいて全カメラ3Dモデルを生成する手段と、
誤差推定対象カメラを切り換えながら当該誤差推定対象カメラを除く残りN-1台のカメラから抽出したシルエットに基づいて計N個の一部カメラ3Dモデルを生成する手段とを具備し、
前記膨張量を計算する手段は、全カメラ3Dモデルと各一部カメラ3Dモデルとの生成量差が大きいほど、各一部カメラ3Dモデルの生成に用いなかった誤差推定対象カメラの前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出装置。
前記膨張量を計算する手段は、前記カメラパラメータの推定誤差が最大値を示した誤差最大カメラの膨張量を計算し、
前記シルエットの輪郭を膨張させる手段は、前記誤差最大カメラの膨張量に基づいて当該誤差最大カメラのシルエットの輪郭を膨張させ、
前記全カメラ3Dモデルを生成する手段および一部カメラ3Dモデルを生成する手段は、前記誤差最大カメラのシルエットを、前記輪郭を膨張させたシルエットに更新して各3Dモデルを再生成し、
前記カメラパラメータの推定誤差の最大値が所定の基準値を下回るまで、前記誤差最大カメラのシルエット更新を繰り返すことを特徴とする請求項１に記載の被写体シルエット抽出装置。
カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出装置において、
動画像からカメラごとに被写体のシルエットを取得する手段と、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成する手段と、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算する手段と、
前記膨張量の計算結果に基づいてカメラごとにシルエットの輪郭を膨張させる手段とを具備し、
前記膨張量を計算する手段は、誤差推定対象カメラを切り換えながら前記誤差推定用3Dモデルを各誤差推定対象カメラのカメラ平面へ投影してシェイプマスクを生成し、誤差推定対象カメラごとに、シルエットと前記シェイプマスクとの一致率が低いほど前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出装置。
前記膨張量を計算する手段は、カメラパラメータの推定誤差が最大値を示した誤差最大カメラの膨張量を計算し、
前記シルエットの輪郭を膨張させる手段は、前記誤差最大カメラの膨張量に基づいて当該誤差最大カメラのシルエットの輪郭を膨張させ、
前記誤差推定用3Dモデルを生成する手段は、前記誤差最大カメラのシルエットを、前記輪郭を膨張させたシルエットに更新して誤差推定用3Dモデルを再生成し、
前記カメラパラメータの推定誤差の最大値が所定の基準値を下回るまで、前記誤差最大カメラのシルエット更新を繰り返すことを特徴とする請求項３に記載の被写体シルエット抽出装置。
前記誤差推定用3Dモデルを生成する手段は、誤差推定対象カメラを含むN台のカメラから抽出したシルエットに基づいて全カメラ3Dモデルを生成することを特徴とする請求項３または４に記載の被写体シルエット抽出装置。
前記誤差推定用3Dモデルを生成する手段は、誤差推定対象カメラを除くN-1台のカメラから抽出したシルエットに基づいて計N個の一部カメラ3Dモデルを生成し、
前記膨張量を計算する手段は、誤差推定対象カメラから抽出したシルエットと当該誤差推定対象カメラから抽出したシルエットを用いずに生成した一部カメラ3Dモデルのシェイプマスクとの一致率が低いほど当該誤差推定対象カメラのカメラパラメータの推定誤差が大きいとすることを特徴とする請求項３または４に記載の被写体シルエット抽出装置。
前記誤差推定用3Dモデルを被写体ごとに分割する手段を更に具備し、
各被写体の3Dモデルを各カメラのカメラ平面に投影して各誤差推定用3Dモデルのシェイプマスクを生成し、
前記各3Dモデルを内包するバウンディングボックスの重心位置を前記各カメラ平面に投影し、
カメラごとに各シルエットの周辺領域内に属する各画素位置に、当該画素位置との距離が最も近い重心位置を有するバウンディングボックスとの関係に応じたカメラパラメータの推定誤差を採用することを特徴とする請求項３ないし６のいずれかに記載の被写体シルエット抽出装置。
前記各シルエットの周辺領域内に属する各画素位置に、当該画素位置との距離が最も近い重心位置を有するバウンディングボックスの3Dモデルに関するシェイプマスクと前記シルエットとの一致率に応じたカメラパラメータの推定誤差を採用することを特徴とする請求項７に記載の被写体シルエット抽出装置。
前記各シルエットの周辺領域内に属する各画素位置に、当該画素位置との距離が最も近い重心位置との当該距離に応じたカメラパラメータの推定誤差を採用することを特徴とする請求項７に記載の被写体シルエット抽出装置。
前記シルエットの輪郭を膨張させる手段が更に、被写体シルエットの輪郭を所定量だけ縮退させる輪郭縮退処理手段を具備し、
被写体シルエットの輪郭に対して縮退および膨張の各処理を当該順序で少なくとも一回繰り返すことを特徴とする請求項１ないし９のいずれかに記載の被写体シルエット抽出装置。
カメラで撮影した動画像から被写体のシルエットをコンピュータが抽出する被写体シルエット抽出方法において、
動画像からカメラごとに被写体のシルエットを取得し、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成し、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算し、
前記膨張量の計算結果に基づいて、カメラごとにシルエットの輪郭を膨張させ、
前記誤差推定用3Dモデルの生成では、
N台のカメラから抽出したシルエットに基づいて全カメラ3Dモデルを生成し、
誤差推定対象カメラを切り換えながら当該誤差推定対象カメラを除く残りN-1台のカメラから抽出したシルエットに基づいて計N個の一部カメラ3Dモデルを生成し、
前記膨張量の計算では、全カメラ3Dモデルと各一部カメラ3Dモデルとの生成量差が大きいほど、各一部カメラ3Dモデルの生成に用いなかった誤差推定対象カメラの前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出方法。
カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出プログラムにおいて、
動画像からカメラごとに被写体のシルエットを取得する手順と、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成する手順と、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算する手順と、
前記膨張量の計算結果に基づいて、カメラごとにシルエットの輪郭を膨張させる手順と、をコンピュータに実行させ、
前記誤差推定用3Dモデルを生成する手順が、
N台のカメラから抽出したシルエットに基づいて全カメラ3Dモデルを生成する手順と、
誤差推定対象カメラを切り換えながら当該誤差推定対象カメラを除く残りN-1台のカメラから抽出したシルエットに基づいて計N個の一部カメラ3Dモデルを生成する手順とを含み、
前記膨張量を計算する手順は、全カメラ3Dモデルと各一部カメラ3Dモデルとの生成量差が大きいほど、各一部カメラ3Dモデルの生成に用いなかった誤差推定対象カメラの前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出プログラム。
カメラで撮影した動画像から被写体のシルエットをコンピュータが抽出する被写体シルエット抽出方法において、
動画像からカメラごとに被写体のシルエットを取得し、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成し、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算し、
前記膨張量の計算結果に基づいてカメラごとにシルエットの輪郭を膨張させ、
前記膨張量の計算では、誤差推定対象カメラを切り換えながら前記誤差推定用3Dモデルを各誤差推定対象カメラのカメラ平面へ投影してシェイプマスクを生成し、誤差推定対象カメラごとに、シルエットと前記シェイプマスクとの一致率が低いほど前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出方法。
カメラで撮影した動画像から被写体のシルエットを抽出する被写体シルエット抽出プログラムにおいて、
動画像からカメラごとに被写体のシルエットを取得する手順と、
各シルエットの前景部分を、カメラごとに推定したカメラパラメータを用いて3次元ワールド座標に投影して生成した視錐体に基づいて誤差推定用3Dモデルを生成する手順と、
前記誤差推定用3Dモデルの形状に基づいて、カメラごとにシルエットの輪郭を膨張させる際の膨張量を計算する手順と、
前記膨張量の計算結果に基づいてカメラごとにシルエットの輪郭を膨張させる手順と、をコンピュータに実行させ、
前記膨張量を計算する手順は、誤差推定対象カメラを切り換えながら前記誤差推定用3Dモデルを各誤差推定対象カメラのカメラ平面へ投影してシェイプマスクを生成し、誤差推定対象カメラごとに、シルエットと前記シェイプマスクとの一致率が低いほど前記カメラパラメータの推定誤差が大きいものとして、当該推定誤差が大きいほど膨張量が多くなるように計算することを特徴とする被写体シルエット抽出プログラム。