JP4695275B2

JP4695275B2 - 動画像生成システム

Info

Publication number: JP4695275B2
Application number: JP2001063854A
Authority: JP
Inventors: 准一星野
Original assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency; National Institute of Japan Science and Technology Agency
Priority date: 2001-03-07
Filing date: 2001-03-07
Publication date: 2011-06-08
Anticipated expiration: 2021-03-07
Also published as: JP2002269580A

Description

【０００１】
【発明の属する技術分野】
本発明は、２次元のビデオ映像から、リアルな人物３次元ＣＧを容易に生成することができるシステムであり、特にビデオ映像から生成した人物の３次元モデルを用いて、リアルな動画像を生成できる人物動画像生成システムに関する。
【０００２】
【背景技術】
今日、映画の特殊効果の生成や、ビデオゲームの開発では、リアルな人物ＣＧの生成が重要な課題である。ところが、人物のように複雑な被写体のＣＧを生成する作業は、ほとんどがアニメーターの手作業で行われていて、非常にコストが高いという問題がある。
近年では、実際に存在する俳優のＣＧが必要とされることも多い。例えば、映画の制作現場では、危険なスタント・シーンを撮影するときに、代役で撮影した映像を加工して、主演している俳優が演技をしているように見せることが必要となる。また、コマーシャル・フィルム（ＣＭ）では、過去の有名な人物を登場させて、他の俳優と競演する場面が増えている。ところが、従来手法では、既に撮影したフィルムから手作業で映像を切り出してつなぎ合わせる程度しかできないため、制約が大きいだけでなく、作業に必要な労力も膨大である。
また、ビデオ編集においても、より自由度の高い人物画像の編集が望まれている。例えば、既に撮影した映像中の人物を、異なるカメラ・アングルから見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができれば、ポスト・プロダクションの作業をより効果的に行うことができる。
【０００３】
これらのようにリアルな映像を容易に生成する手法としては、ＣＧの分野でイメージ・ベース・レンダリング手法が提案されている。この手法では、実写画像に３次元モデルを当てはめることで、自由な視点位置から見た映像を生成する。ところが、従来手法では、屋外の建築物などの単純な形状を持つ物体や、顔のように単一の物体を対象としている。そのため、人物のような複雑な動作を行う被写体へ適用することができないという問題がある。
自由な視点位置から画像を生成する手法については、コンピュータ・ビジョンの分野でも、Virtualized Reality（仮想化された現実）とも呼ばれて盛んに研究が行われている。これらの手法では、撮影環境内に多数のカメラを設置して、ステレオ法などの手段により３次元モデルを生成する。ところが、正確な３次元モデルを推定するためには、多数のカメラが必要となり、コストが高くなるという問題がある。また、オクルージョンによって見えない部分については、３次元形状を復元することができないという問題がある。
【０００４】
【発明が解決しようとする課題】
本発明の目的は、ビデオ画像より復元した人体の３次元モデルを利用した動画像生成処理の適用により、リアルな人物ＣＧを容易に生成することである。
【０００５】
【課題を解決するための手段】
上記の目的を達成するために、本発明は、動画像生成システムであって、人体の３次元モデルのシルエット画像と、該シルエット画像と対応して人体の３次元モデルの姿勢パラメータとを複数記憶している記憶手段と、２次元動画像を取得する２次元動画像取得手段と、該２次元動画像取得手段からの２次元動画像内の人物と該記憶手段に記憶しているシルエット画像とのマッチングを行い、姿勢が類似しているシルエット画像を選択し、該シルエット画像に対応する３次元モデルの姿勢パラメータから各パーツの中心線を推定することにより、３次元人体モデルの初期姿勢の姿勢パラメータを推定する初期姿勢推定手段と、前記取得した２次元動画像内の人物から、人体の３次元モデルを構成する各パーツ（オブジェクト）の動作パラメータを得る動作推定手段と、前記２次元動画像内の人物より３次元モデルの各パーツに対応するテクスチャ・データを抽出するテクスチャ抽出手段と、前記３次元モデルの各パーツの動作パラメータを用いて、初期姿勢から３次元モデルを生成する３次元モデル生成手段と、前記生成した３次元モデルから、視点を設定して２次元の動画像を生成し、前記生成した新たな３次元モデルにおいて、前記抽出したテクスチャ・データでは不足する２次元動画像部分は、前記抽出したテクスチャ・データより補間して得る動画像生成手段とを備える。これにより、生成した人体モデルとテクスチャを利用して、新たな視点位置を設定することにより別の視点位置から見た人物画像も生成することができる。
【０００６】
前記３次元モデル生成手段は、前記動作推定手段で得た動作パラメータを変更する動作変更手段をさらに備え、取得した２次元動画像の人物とは異なる動きの動画像を生成することもできる。
前記３次元モデル生成手段は、前記生成した３次元モデルに他のオブジェクトを合成することができる。
例えば、前記３次元モデル生成手段の前記他のオブジェクトは、衣装モデルから前記３次元モデルの動作パラメータを用いてフィッテングされた衣装であり、前記動画像生成手段は、前記３次元モデルと前記衣装とを同時にレンダリングして合成画像を得ることができる。
本動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラムおよびコンピュータ・プログラムを記録した記録媒体も本発明である。
【０００７】
【発明の実施の形態】
＜本発明の概要＞
本発明は人体の３次元モデルを利用した動画像処理の適用により、リアルな人物ＣＧを容易に生成する人物画像生成システムである。
図１は本発明を用いた実施形態の一例である、モデルに基づく人物動画像生成システムの機能構成図を示す。図１に示すように、本システムは、テレビカメラにより人物の動画像を連続的に取得する画像取得部１０、人物の各関節のパラメータを推定したり、顔や衣服などの人物テクスチャを抽出する動作推定部２０、後述する人体モデルを利用した隠蔽箇所の復元や、異なる視点位置から見た画像の生成を行なったり、衣服ＣＧや髪型ＣＧの合成や、姿勢の変更などを行う画像生成部４０、そして生成した結果を表示する画像表示部５０で構成している。
【０００８】
このような構成の本システムでは、画像取得部１０で取得した人物動画像に、あらかじめシステムに用意してある人体の３次元モデルを当てはめて、動作推定部２０において、各関節の３次元動作を推定すると共に、顔や衣服などの輝度情報を人体モデルのテクスチャとして蓄積する。また、画像生成部４０において、撮影した視点位置から見たときに隠蔽されている箇所を、人体モデルを利用したＣＧの生成で補うことで、全身像を復元する。このようにして得た画像を画像表示部５０から表示している。
図２〜図４は、本発明における処理の概要を分かりやすく説明するために、ビデオ映像に上述の処理を適用した例を示している。図２（ａ）は画像取得部１０で取得した入力画像の例である。図２（ｂ）は動作推定部２０で人体モデルの姿勢を推定した例である。図３（ｃ）は、画像生成部４０で人体の３次元モデルにテクスチャ・マッピングをした人体画像を、自由な視点位置から見た例である。そしてこのとき、画像生成部４０は撮影した視点位置から見たときに隠蔽されている箇所を、人体モデルを利用したＣＧの生成で補っている。図３（ｄ）は前述のＣＧの生成で補った画像の例を示す図である。
【０００９】
このように、本システムにおいては、生成した人体モデルとテクスチャを利用して、自由な視点位置から見た人物画像を生成したり、入力画像とは異なる動作の人物画像を生成したり、人物のような複雑な被写体に、ＣＧによる別の衣服や髪型の合成を行うことができる。図４（ｅ）は衣服のＣＧを合成した例、図４（ｆ）は異なる姿勢へ変更した例である。
また、多様な姿勢を持つ人物画像を、関節角の変更データを用いて生成できるため、動画像圧縮の手段としても利用することができる。
以上のような処理を行うシステムを以下に詳細に説明する。
【００１０】
＜モデルに基づく人物動作の推定＞
動作推定部２０におけるモデルに基づく人物動作を、動画像を構成する連続した画像（フレーム）間から推定する処理を以下に詳細に説明する。
（移動量の推定）
動作推定部２０においては、人体の３次元モデルを当てはめて、各関節の３次元動作を推定している。図５に、動作推定部２０で用いている人体モデル３００を示す。図５のように、人体モデル３００は、各パーツをオブジェクトで表し、それらを接続することで全体を表している。この人体モデル３００は、頭部３１０、胴体３１５、右上腕３２２、左上腕３２４、右前腕３３２、左前腕３３４、右腿３４２、左腿３４４、右膝下３５２、左膝下３５４の各パーツ（各オブジェクト）で構成している。動作推定部２０では、このような人体モデル３００を利用してフレーム間の人物動作を推定する。人体モデル３００の各パーツ（各オブジェクト）の接続関係は、胴体３１５を頂点として、腕や頭部といった末端のパーツに向かって親子関係の接続として定めることができる。親パーツが動くと、その子に当たるパーツは親パーツの座標系で規定される接続関係で一緒に動くことになる。この人体モデル３００を用いて、以下で動作について説明を行う。
なお、この人体モデルは標準形をシステムで用意して、ユーザが対象となる人物に会わせて調整することで得ることができる。
図６は、カメラ座標系およびワールド座標系と人体モデルの関係を示す図である。この図において、動画像はカメラ座標系で記述される画像面４１０に表示される。人体モデル３００上の任意の点を、ワールド座標系を用いて、
【数１】
ｐ＝（ｘ，ｙ，ｚ）^Ｔ
とする（上式で括弧の肩に付けられているＴは転置行列を表す）と、カメラ座標系に投影した画像面４１０上の点（Ｘ，Ｙ）は、
【数２】
Ｘ＝ｆｘ／ｚ
Ｙ＝ｆｙ／ｚ（ｆは画像面４１０を生成するカメラの焦点距離）
となる。同様に、人体モデル３００上にある任意の点ｐに関する３次元速度ベクトルを、
【数３】

とすると、このベクトルはフレーム間での点ｐの移動速度を表している。画像面４１０上の速度ベクトル（Ｕ，Ｖ）とすると、両者の関係は、
【数４】
Ｕ＝（ｆｕ−Ｘｗ）／ｚ
Ｖ＝（ｆｖ−Ｙｗ）／ｚ
となる。
【００１１】
また、画像面４１０上の点（Ｘ，Ｙ）における時刻ｔでの輝度をＥ（Ｘ，Ｙ，ｔ）とする。そして、（Ｅｘ，Ｅｙ）を輝度微分、Ｅ_ｔを時間微分とすると、画像面４１０上の速度ベクトル（Ｕ，Ｖ）は、次の時空間勾配の拘束条件式を満たす。
【数５】
Ｅ_ＸＵ＋Ｅ_ＹＶ＋Ｅ_ｔ＝０
この式に上述のＵ，Ｖを代入すると、次式のように人体モデル３００上の任意の点ｐと、画像面４１０上の点（Ｘ，Ｙ）および輝度値Ｅ_ｔの関係を示すことができる。
【数６】

【００１２】
次に、人体モデル３００の全関節角の位置と姿勢を表すベクトルｓを
【数７】
ｓ＝（ｓ_１，ｓ_２，……，ｓ_ｎ）
として、ｓとｐの関係を便宜的に非線形関数ｇを用いて
【数８】
ｐ＝ｇ（ｓ）
で表す。関数ｇは非線形であるが、ｓの時間変化率と速度ベクトルの関係は、ヤコビ行列Ｊ（ｓ）＝∂ｇ／∂ｓにより、線形式で関係付けることができる。
【数９】

よって、人体モデル３００の全関節ｓの時間変化率と、画像面４１０上の点の輝度値の関係式を導くことができる。
【数１０】

上述では姿勢パラメータｓと人体モデル上の任意の点ｐの関係をｐ＝ｇ（ｓ）で表した。この関係は人体の幾何学構造から導出することができる。以下では、人体モデルの幾何学的な関係を記述する際に、同次座標系を利用する。同次座標系では、（ｘ，ｙ，ｚ，ｗ）の３次元空間内の座標値は（ｘ／ｗ，ｙ／ｗ，ｚ／ｗ）となる。
【００１３】
（胴体のヤコビ行列の導出）
人体モデルの運動は、物体座標系における剛体変換ε_ｉで表すことができる。３×３の回転行列をＣ、３次元の並行移動ベクトルをＤとすると、剛体変換ε_ｉは、次式のように表すことができる。
【数１１】

ただし、０^ｔはゼロの転置行列を表す。また、物体座標の点
【数１２】
ρ_ｏｉ＝（ｘ_ｏｉ，ｙ_ｏｉ，ｚ_ｏｉ，１）^Ｔ
に剛体変換ε_ｉを施す場合は、次式で表すことができる。
【数１３】
ρ_ｏｉ’＝ε_ｉρ_ｏｉ
【００１４】
ヤコビ行列を求めるためには、人体の各パーツが運動したときに、カメラ座標系で見た人体モデル上の点ρ_ｓが、どのように変化するかを求めることが必要となる。この関係式は、次の３つのステップで求める。
１）まず、カメラ座標系で見た胴体モデル上の点ρ_ｓを、ワールド座標系に変換する操作を、剛体変換ε_ｓで表す。
【数１４】
ρ_ｗ＝ε_ｓρ_ｓ
２）次に、胴体の運動を適用すると、胴体モデル上の点ρ_ｗがρ_ｗ’に移動する。ρ_ｗ’を求めるためには、ワールド座標系の点ρ_ｗを物体座標系に変換して、胴体の運動ε_ｉを適用した後に、ワールド座標系に戻す操作を行う。この変換規則を
【数１５】
Ｆ_ｉ＝ε_ｏｉε_ｉε_ｏｉ ^−１
とおくと、胴体モデル上の点ρ_ｗ’は次式で求めることができる。
【数１６】
ρ_ｗ’＝Ｆ_ｉρ_ｗ＝Ｆ_ｉε_ｓρ_ｓ
３）最後に、ワールド座標系の点ρ_ｗ’をカメラ座標系に変換する。
【数１７】
ρ_ｓ’＝ε_ｓ ^−１ρ_ｗ’＝ε_ｓ ^−１Ｆ_ｉε_ｓρ_ｓ
上記のＰ_ｓ’を時間微分することで、下記のヤコビ行列が得られる。
【数１８】

【００１５】
（その他の関節のヤコビ行列の導出）
上記では胴体の運動を表すヤコビ行列を導出したが、他の人体パーツの場合は胴体を親としているため、運動に依存関係が生じる。以下では、依存関係が１段階の場合（上脚，上腕，頭）と、依存関係が２段階の場合（下脚，下腕）の場合について、関係式を導出する。
１）上脚，上腕，頭の運動
胴体だけを親とする、左右上脚、左右上腕、頭の５つの物体に関して定式化を行う。まず、ρ_ｓをワールド座標系に変換する。
【数１９】
ρ_ｗ＝ε_ｓｊρ_ｓ
この場合は、子の移動に伴う剛体変換と座標変換Ｆ_ｉを適用する。そして、親（この場合は胴体（ｉ＝０））の移動による変換Ｆ_ｉ＝［ε_ｏｉε_ｉε_ｏｉ ^−１］を適用する。
【数２０】
ρ_ｓｊ''＝ε_ｓｊ ^−１Ｆ_１Ｆ_ｉε_ｓｊρ_ｓ
そして胴体のヤコビ行列の導出と同様にρ_ｓ’を時間微分することで、ヤコビ行列を求める。
【００１６】
２）下脚，下腕の運動
右左下脚、右左下腕の場合は、上脚、上腕を親に持ち、更に胴体を親として持っている。この場合も、胴体だけを親とする、依存関係が１段階の場合（上脚，上腕，頭）と同様な変換規則を適用することで次式が得られる。
【数２１】
ρ_ｓｊ'''＝ε_ｓｊ ^−１Ｆ_１Ｆ_ｉ１Ｆ_ｉε_ｓｊρ_ｓ
そしてこれまでのヤコビ行列の導出と同様にρ_ｓ’を時間微分することで、ヤコビ行列を求める。
【００１７】
３）Ｎ個の物体が接続された場合
物体の数が増加した場合も，２）と同様の規則で求めることができる。
【数２２】

以上のヤコビ行列を利用して、上述の画像面４１０上の点の輝度値の関係式を人体モデル３００上の複数の点から求めて、最小２乗法で解くことにより、人体の動作パラメータｓを求める。そして以下で説明する初期姿勢に、上記で求めた動作パラメータを加算することで、各フレームの人体モデル３００の姿勢を得る。
【００１８】
＜初期姿勢の推定＞
上述の動作推定法ではフレーム間の動きしか推定することができないため、人体モデル３００の初期姿勢を推定することが必要となる。以下では、拡張カルマン・フィルタにより、シルエット画像から抽出した中心線と、人体モデルの体軸を一致させる手法を述べる。
ワールド座標系での人体モデル３００の各パーツの姿勢ａを表した式を以下に示す。
【数２３】
ａ＝［ｒ，ｄ］^Ｔ
ｄはワールド座標の原点からの移動成分を表すベクトルである。また、ｒはワールド座標の各座標軸である回転軸に沿ったベクトルであり、ベクトルの大きさは回転角に等しい。
【００１９】
図７は、画面上の線分の関係と、それに対応する人体モデル３００中のパーツとの関係を示した図である。３次元（３Ｄ）線分Ｐの投影された画像面４１０上の２次元（２Ｄ）予測線分がＱである。図７における２次元（２Ｄ）観測線分Ｑ’と２Ｄ予測線分Ｑを、２次元画面上４１０での始点および終点を表わすワールド座標系のベクトルｑ_１’，ｑ_２’，ｑ_１およびｑ_２で表わした式を以下に示す。
【数２４】
Ｑ’＝（ｑ_１’，ｑ_２’）
Ｑ＝（ｑ_１，ｑ_２）
また、３Ｄ線分Ｐをワールド座標系での線分の始点および終点を表わすベクトルｐ_１およびｐ_２で表わした式を以下に示す。
【数２５】
Ｐ＝（ｐ_１，ｐ_２）
そして、初期位置で観測された２Ｄ観測線分Ｑ’と３Ｄ線分Ｐの組をｌとして、以下の式に示す。
【数２６】
ｌ＝（Ｐ，Ｑ’）
この３Ｄ線分Ｐと、それに対応する画像面４１０上での２Ｄ観測線分Ｑ’の組ｌを求める手法を以下に説明する。図８は入力した動画像より人体モデルの初期位置を推定するまでの処理の過程を示す図である。この図８を参照しながら以下に説明をする。
【００２０】
（中心線の推定）
画像取得部１０より取得した画像のシルエット画像から中心線を推定する際には、手や足などの部位が胴体に隠れた場合、姿勢を推定できない。ところが、本発明のシステムでは、フレーム間の移動量を推定する手法と組み合わせて利用するため、処理に適したフレームだけを選択できれば良い。以下の手順で中心線の推定を行う。
【００２１】
１）中心線が抽出しやすい姿勢のシルエット画像を予め選択してシステムに記憶しておく。このときに、シルエット画像に対応した人体モデルの姿勢パラメータも与えておく。姿勢パラメータは後述する手法により姿勢を微調整することができるので、大まかな値で構わない。
２）図８（ａ）（ｉ）および（ii）のような、画像取得部１０より取得した低解像度の入力画像系列で、あらかじめシステムに記憶してあるシルエット画像とのマッチングを行い、姿勢が類似しているフレームを選択する。
３）選択したシルエット画像では、人体モデルの大まかな姿勢が分かっているため、画像面４１０上に各パーツの領域を投影することができる。それぞれの領域内のシルエットを切り出して、主軸を求めて中心線とする。図８（ｂ）（ｉ）および（ii）は入力画像に人体モデルを当てはめ、各パーツの中心線を抽出し、表示した画像を示す。
【００２２】
上記の手法より、抽出した中心線を利用して、３Ｄ線分Ｐと、それに対応する画像面４１０上での２Ｄ観測線分Ｑ’の組ｌを求めることができ、後述する手法により人体モデルの正確な初期位置の推定を行うことができる。
【００２３】
（初期姿勢の調整）
各パーツの姿勢ａが正確な場合は、観測画像から得られた画像面４１０上の２Ｄ観測線分Ｑ’とカメラの原点Ｏとが作る平面Ｍの上に３Ｄ線分Ｐが含まれる。ところが各パーツの姿勢ａに誤差がある場合は、図７（ａ）のように、画像面４１０上に表示される線分Ｑ’とカメラの原点Ｏとが作る平面Ｍと３Ｄ線分Ｐの間に距離が生じる。この距離の最短距離を、予測誤差ｈ（ａ，ｌ）とし、以下の式のように表す。
【数２７】

ｈ（ａ，ｌ）は２×１のベクトルである。Ｒはｒから導出される３×３の回転行列である。また、ｎは面Ｍの単位法線ベクトル
【数２８】

である。ａに誤差がない場合は、ｈ（ａ，ｌ）＝０となり、図７（ｂ）のように画像面４１０上の２Ｄ予測線分Ｑが２Ｄ観測線分Ｑ’と重なる。そして２Ｄ観測線分Ｑ’とカメラの原点が作る平面の上に３Ｄ線分Ｐが含まれるようになる。このときの３Ｄ線分Ｐの姿勢ａが画像面４１０上に表示されている２Ｄ観測線分Ｑ’に対応しているということになる。ｈ（ａ，ｌ）は非線形なので、観測値ｌ＝＾ｌ_ｉと推定値ａ＝＾ａ_ｉ−１のまわりに１次テーラー展開をして線形近似する。
【数２９】

ただし∂ｈ／∂ａ，∂ｈ／∂ｌは偏微分を表す。これらの偏微分係数は、以下のカルマン・フィルタを適用して人体モデルの各パーツの姿勢ａ＝［ｒ，ｄ］^Ｔの最適値を求める際に利用する。
【００２４】
対応付けがついた２Ｄ観測線分Ｑ’と３Ｄ線分Ｐの誤差ｈ（ａ，ｌ）が最小になるように、人体姿勢ａを補正し、位置の誤差分布σ_ｘｉを減少させる。直前に示したｈ（ａ，ｌ_ｉ）の線形近似式をゼロとおいて書き直すと、次のような観測方程式が得られる。
【数３０】
ｚ_ｉ＝Ｈ_ｉａ＋ν_ｉ
ただし、
【数３１】

である。ここでν_ｉの分散Ｂ_ｉは次のように求める。
【数３２】

【００２５】
以上の観測方程式より、人体パーツの姿勢ｘ_ｉの２乗誤差を最小にする推定値は、カルマン・フィルタで与えられる。
【数３３】

人体姿勢ａ_ｉと誤差分布σ_ｉは、新しい線分の対応付けが行われるたびに更新される。以上の姿勢推定を人体の各部位に適用することで、人体モデルの初期姿勢を推定する。本発明のシステムでは、胴体の姿勢を最初に求めて、上腕、上脚、下腕、下脚と胴体に近い順番に中心線とのマッチングを行い、姿勢の推定を行う。
このようにして、図８（ａ）（ｉ）および（ii）の入力画像に初期姿勢を推定し、図８（ｃ）（ｉ）および（ii）のように人体モデルを重ね合わせた画像を得ることができる。
【００２６】
（２Ｄ、３Ｄ線分の対応付け）
上述の手法では、シルエット画像のマッチングにより、抽出した中心線を利用して、３Ｄ線分Ｐと対応する２Ｄ観測線分Ｑ’の組ｌが求まったとして説明した。しかし、撮影環境内に中心線として抽出可能な複数の線分がある場合、１つの３Ｄ線分に対して複数の２Ｄ線分の候補があることとなる。そこで以下に示す２つの手法を併用して対応付けを行う。
まず２Ｄ画像面４１０上で見たときに、２Ｄ観測線分Ｑ’に射影したときに射影像が２Ｄ観測線分Ｑ’と重なる線分を候補として選択する。次に、推定値の誤差分布と、２Ｄ、３Ｄ線分の誤差分布を考慮に入れて、統計的に一致すると判定できる線分を選択する。
【００２７】
１）２次元画面上での対応付け
図７を用いて２次元画像面４１０上で対応付けを行う手法を示す。まず、図７（ａ）のように、３Ｄ線分Ｐを画面上に投影して、２Ｄ予測線分Ｑ＝（ｑ_１，ｑ_２）を求める。また、観測画像から２Ｄ観測線分Ｑ’＝（ｑ_１’，ｑ_２’）を得る。２Ｄ観測線分Ｑ’に対して射影した２Ｄ予測線分Ｑの射影像が重複領域をもつ場合は、対応の候補として選択する。重複領域の判定方法としては、２Ｄ予測線分Ｑを２Ｄ観測線分Ｑ’に射影したときに、ｑ_１あるいはｑ_２のどちらかの点がＱ’の内部にあれば、２Ｄ予測線分Ｑの射影像が２Ｄ観測線分Ｑ’に重なっていると考えることができる。まず、ｑ_１をＱ’に射影した場合の座標ｃは、Ｑ’に沿う単位方向ベクトルを
【数３４】
ｍ＝Ｎ［ｑ_２’−ｑ_１’］（Ｎ［］はベクトルの正規化を表わす）
とすると、
【数３５】
ｃ＝ｑ_１’＋ｍ・（ｑ_１−ｑ_１’）ｍ
である。そして、ｃがＱ’の内部に含まれる条件は、
【数３６】
（ｃ−ｑ_１’）・（ｃ−ｑ_２’）＜０
となる。この操作をｑ_１，ｑ_２，ｑ_１’，ｑ_２’に関して行い、上記の条件を満たさない線分は棄却する。
【００２８】
２）誤差分布を考慮に入れた対応付け
人体姿勢の誤差分布σ_ｘｉと、２Ｄ，３Ｄ線分の誤差分布σ_ｌｉを使ってχ^２検定を行い、統計的に一致しないと考えられる線分を棄却する。ここでは、２Ｄ−３Ｄ線分が一致していると仮定して、仮説検定を行う。人体姿勢ａ＝［ｒ，ｄ］^Ｔと観測値ｌ＝（Ｐ，Ｑ’）の誤差分布を、正規分布σ_ａｉ〜Ｎ（０，Ｐ_０），σ_ｌｉ〜Ｎ（０，Ｌ_０）と仮定する。ｈ（＾ａ_ｉ−ｌ，＾ｌ_ｉ）の１次、２次統計量は、
【数３７】

【数３８】

となる。これよりマハラノビス距離ｋを次のように求めることができる。
【数３９】

ｈ（＾ａ_ｉ−１，＾ｌ_ｉ）の誤差分布はｈ（＾ａ_ｉ−１，＾ｌ_ｉ）〜Ｎ（０，Ｚ_ｉ）であるため、ｋ（＾ａ_ｉ−１，＾ｌ_ｉ）〜χ^２（ζ）となる（ただしζ＝Ｒａｎｋ（Ｚ_ｉ））。χ^２（ζ）分布から、確率に基づくしきい値を設置することができる。例えばｋ（＾ａ_ｉ−１，＾ｌ_ｉ）＜９．２１は、Ｚ_ｉがランク２（ζ＝２）のときに９９％の線分が受け付けられることを意味している。しきい値以上の線分は、統計的に一致すると考えられないため、棄却することができる。複数の線分が候補として残った場合は、ｋ（＾ａ_ｉ−１，＾ｌ_ｉ）の距離値が最小のものを選択する。
以上の２つの手法を併用して、２Ｄ予測線分Ｑが２Ｄ観測線分Ｑ’に一番近い３Ｄ線分Ｐと画像面４１０上で対応する２Ｄ観測線分Ｑ’の組ｌ＝（Ｐ，Ｑ’）を求めることができる。
なお、上述の人体モデルの初期姿勢は、ユーザーが人体モデルの姿勢を推定して画像面に投影し、入力画像に重ね合わせて当てはめることによりで求めてもよい。
【００２９】
＜隠蔽箇所の復元＞
画像生成部４０で行っている隠蔽箇所の復元処理を、以下に詳細に説明する。
図９は上述の手法で、人体モデルにテクスチャ・マッピングを行い、撮影位置とは異なる視点位置から見た例を示す図である。図９（ａ）の２次元の画像より、人物の姿勢を推定することができると、この姿勢における人体パーツの３次元モデル上の輝度分布を求めることができる。顔、皮膚、衣服等の輝度情報を、３次元モデル上のテクスチャとして蓄積する。このように人物テクスチャをマッピングした３次元モデルから、従来のＣＧモデルをレンダリングするのと同じ手法で、自由な視点位置から見た画像を生成することができる。
【００３０】
しかし、図９（ｂ）からも分かるように、１台のテレビカメラで撮影した画像からでは、人物の全身像の輝度情報を得ることができないという問題が起こる。例えば、図９（ａ）のようにカメラに対して前に向いている人物を撮影した場合は、人物の背後が隠蔽されていて撮影できない。そのため、図９（ｂ）のように異なる方向から見た場合に、全身像を表示することができない。
この問題を解決するため、画像生成部４０では、人体モデルを利用した復元手法を用いている。隠蔽部分を復元する手法としてはいくつかあるが、例として２つの手法を説明する。
【００３１】
▲１▼入力画像から得られた輝度情報の利用による復元
入力画像から得られた輝度情報を利用する方法としては、様々なものがあるが、ここでは腕や足などの人体パーツの対称性を利用した方法を述べる。
図１０は、入力された画像中の人体パーツの対称性から輝度情報を補間する手法を説明するための図である。図１０に示すように、体軸を垂直に切ってみたとき（図１０（ａ）参照）に、画像から得られた輝度値で点対称の位置にある隠蔽部分の輝度値を埋める（図１０（ｂ）参照）ことで補間して全体の輝度値を得る（図１０（ｃ）参照）。
このときに、点対称の補間では求まらず、隙間になっている箇所や、部分的に空白になっているところは、近傍の輝度値を参照して、スプライン補間などの手法で輝度値を補間する。
なお、より高度な手法として、入力画像から洋服の模様（テクスチャ）を分析して、隠蔽部分に張り付ける等の補間とすることもできる。
【００３２】
▲２▼ＣＧの生成による復元
頭髪のように形状が予測できるものに関してはＣＧで補間することができる。頭髪の色は、画像中の輝度値を参照して決定する。図１１はＣＧで頭髪を生成した例を示す図である。図１１（ａ）は、人体モデルに頭髪を張り付けたところである。この頭髪に重力をかけるという計算をすることで、図１１（ｂ）のように頭髪を頭部にフィッティングすることができる。図１１（ｃ）は人物が歩いた場合の頭髪の動的な変化をシミュレートした例を示したものである。
【００３３】
＜人物画像とＣＧ画像の合成＞
画像生成部４０で行っている、人物とＣＧ画像の合成処理について、以下に詳細に説明する。画像生成部４０では、推定した人物の３次元姿勢を利用してＣＧ画像を生成することができるため、入力画像とは異なる衣服ＣＧや頭髪ＣＧを人物と合成することも可能である。
図１２はＣＧによる衣服の例を示す図である。以下に、図１２に示すような衣服ＣＧを人物と合成する例で説明する。
図１２（ａ）は衣服を生成したところである。この衣服を人体の３次元モデルに衣服モデルを着せる（重ね合わせる）。まず、モデルと衣服画像の衝突計算を行うことで、図１２（ａ）で示すような生成した衣服画像から、人体モデルの形状に合わせた衣服画像を生成する。衣服と人体モデルの衝突計算は、従来から提案されている手法を利用する。その結果、図１２（ｂ）のように衣服画像が人物の３次元形状にフィッティングする。次にフレーム間の人体の動作に合わせて、衣服のダイナミックな動きをシミュレートする。人体の動作情報は、上述の手法で推定した値を利用する。また、衣服画像のシミュレーション手法は、従来から提案されている手法を利用する。図１２（ｃ）は、歩行動作に合わせて衣服シミュレーションを行った例である。
このようにして得られた衣服モデルと人体モデルを同時にレンダリングすることで、合成した映像が得られる。図１３は衣服ＣＧを合成した例を示す図である。図１３（ｂ）は、上記の処理を行って図１３（ａ）のような入力画像の人物に衣服ＣＧを合成した画像を示す図である。
【００３４】
＜モデルに基づく人物動画像の編集＞
これまで説明したように、画像生成部４０では、人物の動作推定と隠蔽箇所の復元をする手法により、人体の３次元モデルと、顔、衣服などの人物テクスチャを得ることができる。
その上、画像生成部４０では、人体モデルの各関節の角度を変更するだけで、様々な姿勢を持った人物画像を生成することができる。これについて、以下に詳しく説明する。
【００３５】
（異なる姿勢の生成）
図１４は人体モデルを動かして異なる姿勢に変更した例を示す図である。図１４（ａ）は、立っている人物画像から得られる人体モデルである。このような入力画像から得られる人体モデルの各関節の角度を変更することにより、例えば、左手を前に突き出したようにした図１４（ｂ）や、左手をあげて膝をついているようにした図１４（ｃ）の画像を生成することができる。図１５は入力画像から得られた人物の人体モデルの姿勢を変形したものを示す図である。図１５（ａ）のような人物画像を入力し、この画像から得た人体モデルの関節の角度を変える。関節の角度を変えた人体モデルにテクスチャをマッピングし、最終的に図１５（ｂ）のように異なる姿勢の人物画像に変更できる。
【００３６】
（動作の物理特性の変更）
人体モデルに物理特性を変更した動きを与えることで、入力画像とは異なる動きをしている人物動画像を生成することができる。動作の物理特性の変更は、人体モデルの質量や慣性モーメントを変更して、物理シミュレーションを行うことで得られる。例えば、映像中の人物が歩行動作をしている場合、歩いている速さを変えたり、重い荷物を持っているような動作に変更することに利用する。
【００３７】
（異なる動き情報の当てはめ）
人体モデルの関節角を動かすときに、異なる人物の動きを計測した結果を当てはめることもできる。例えば、あらかじめマリリン・モンローの歩き方を映画の中から計測しておく。そして、その計測した歩き方を図１５に示すような入力した女性の映像に対して適用することにより、例えばマリリン・モンローの歩き方で動かすことができる。
【００３８】
（部分的な人物テクスチャの張り替え）
本手法では、顔、衣服などの人物テクスチャとの対応が取れているため、顔だけを異なる人物に差し替えるなどの、画像の構造を利用したビデオ編集を行うことができる。
以上のように本システムでは、ビデオ映像から人物画像を生成するため、人物ＣＧを生成するときに一般的に必要となる複雑な作業を省略して、リアルな人物動画像を容易に生成することができる。そして、実在する俳優のビデオ映像から人物ＣＧを生成できるため、例えば、映画の制作現場において、危険なスタントシーンを撮影するときに、主演している俳優が演技をしているように見せることができる。また、コマーシャルフィルム（ＣＭ）の撮影において、過去の有名な人物を登場させて、他の俳優と競演させることができる。
【００３９】
＜その他の実施形態＞
（動画像データベース）
図１６は本発明を動画像データベースに応用した場合の機能構成を示す図である。図１の構成と同様であるが、動作推定部２０で人物動画像を人体の姿勢角と人物テクスチャに分解したデータを格納しておく蓄積部３６と、蓄積部３６より与えられた条件に一致するデータを検索して取出し、画像生成部４０にデータを渡す検索部３８を備えている。
ビデオ編集においては、より自由度の高い人物画像の編集が望まれている。例えば、既に撮影した映像中の人物を、異なるカメラアングルから見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができれば、ポスト・プロダクションの作業をより効果的に行うことができる。そこで本発明を応用して、動画像データベースに映像素材を蓄積しておき、簡便に検索することで映像素材を再利用することができる。
【００４０】
具体的な実現手段として、本システムの画像取得部１０からとりこんだ映像を動作推定部２０によって動作パラメータと人物テクスチャを求め、それらを蓄積部３６に蓄積する。一方、検索部３８は「人物が歩いているシーン」「座っているシーン」等の人物の動作を利用した検索条件を与え、検索を行い、検索条件に該当する動作パラメータを取出すことができる。また、本システムでは、人物テクスチャを分離して蓄積しているため、「赤い洋服を着た人物が写っているシーン」のように、画像の構造を検索条件として利用した検索も可能である。もちろん検索条件に該当する人物テクスチャも取出すことができる。
動画像データベースである蓄積部３６から検索部３８が取出した動作パラメータと人物テクスチャは、画像生成部４０において、カメラアングルを変更したり、衣服や髪型の変更、姿勢の変更を行うことができる。
【００４１】
上述のようにビデオ編集において、既に撮影した映像中の人物を、異なる視点から見た場合に変更したり、衣服や髪型の変更、姿勢の変更を行うことができる。そのため、ポスト・プロダクションの作業をより効果的に行うことができる。
なお、これまでに述べたシステムを実施するためのコンピュータ・プログラムを格納した記録媒体から読み取ることにより、パソコンやワークステーション、複数のコンピュータ・システム上に本発明のシステムを実装することができる。また、プログラムをインターネットのような通信回線を介して、取得することにより、本システムをコンピュータ・システムに実装することもできる。
【００４２】
【発明の効果】
人体の３次元モデルを利用した動画像処理の適用により、リアルな人物ＣＧを容易に生成することができ、ビデオ映像から人物の動作情報と輝度情報を取得することで、リアルな人物ＣＧを容易に生成することができる。
そのため、ビデオ映像中の人物画像に対して、自由な視点位置から見たり、異なる動作に変更するなどの高度な操作を行うことが可能になる。また、人物のような複雑な被写体に対して、衣服や髪型などＣＧを合成することができる。
さらに、多様な姿勢を持つ人物画像を、関節角の変更で生成できるため、動画像圧縮の手段としても利用することができる。
【図面の簡単な説明】
【図１】モデルに基づく人物動画像生成システムの機能構成を示す図である。
【図２】ビデオ映像に本発明の処理を適用した例を示す図である。
【図３】ビデオ映像に本発明の処理を適用した例を示す図である。
【図４】ビデオ映像に本発明の処理を適用した例を示す図である。
【図５】人体モデルを示す図である。
【図６】カメラ座標系およびワールド座標系と人体モデルの関係を示す図である。
【図７】画面上の線分の関係と人体パーツとの関係を示した図である。
【図８】人体モデルの初期位置を推定するまでの処理の過程を示す図である。
【図９】撮影位置とは異なる視点位置から画像を見た例を示す図である。
【図１０】入力された画像中の人体パーツから輝度情報を補間する手法を示す図である。
【図１１】ＣＧで頭髪を生成した例を示す図である。
【図１２】ＣＧの衣服シミュレーションの例を示す図である。
【図１３】衣服ＣＧを合成した実験例を示す図である。
【図１４】人体モデルを動かして異なる姿勢に変更した例を示す図である。
【図１５】入力画像から得られた人物の人体モデルの姿勢を変形したものを示す図である。
【図１６】本発明を動画像データベースに応用した場合の機能構成を示す図である。
【符号の説明】
１０画像取得部
２０動作推定部
３６蓄積部
３８検索部
４０画像生成部
５０画像表示部
３００人体モデル
３１０頭部
３１５胴体
３２２右上腕
３２４左上腕
３３２右前腕
３３４左前腕
３４２右腿
３４４左腿
３５２右膝下
３５４左膝下
４１０画像面

Claims

動画像生成システムであって、
人体の３次元モデルのシルエット画像と、該シルエット画像と対応して人体の３次元モデルの姿勢パラメータとを複数記憶している記憶手段と、
２次元動画像を取得する２次元動画像取得手段と、
該２次元動画像取得手段からの２次元動画像内の人物と該記憶手段に記憶しているシルエット画像とのマッチングを行い、姿勢が類似しているシルエット画像を選択し、該シルエット画像に対応する３次元モデルの姿勢パラメータから各パーツの中心線を推定することにより、３次元人体モデルの初期姿勢の姿勢パラメータを推定する初期姿勢推定手段と、
前記取得した２次元動画像内の人物から、人体の３次元モデルを構成する各パーツ（オブジェクト）の動作パラメータを得る動作推定手段と、
前記２次元動画像内の人物より３次元モデルの各パーツと対応するテクスチャ・データを抽出するテクスチャ抽出手段と、
前記３次元モデルの各パーツの動作パラメータを用いて、初期姿勢から３次元モデルを生成する３次元モデル生成手段と、
前記生成した３次元モデルから、視点を設定して２次元の動画像を生成し、前記生成した新たな３次元モデルにおいて、前記抽出したテクスチャ・データでは不足する２次元動画像部分は、前記抽出したテクスチャ・データより補間して得る動画像生成手段と
を備えることを特徴とする動画像生成システム。
請求項１に記載の動画像生成システムにおいて、
前記３次元モデル生成手段は、前記動作推定手段で得た動作パラメータを変更する動作変更手段をさらに備え、取得した２次元動画像の人物とは異なる動きの動画像を生成することを特徴とする動画像生成システム。
請求項１又は２に記載の動画像生成システムにおいて、
前記３次元モデル生成手段は、さらに、前記生成した３次元モデルに、他のオブジェクトを合成することを特徴とする動画像生成システム。
請求項３に記載の動画像生成システムにおいて、
前記３次元モデル生成手段の前記他のオブジェクトは、衣装モデルから前記３次元モデルの動作パラメータを用いてフィッテングされた衣装であり、
前記動画像生成手段は、前記３次元モデルと前記衣装とを同時にレンダリングして合成画像を得る
ことを特徴とする動画像生成システム。
請求項１〜４のいずれかに記載の動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラム。
請求項１〜４のいずれかに記載の動画像生成システムをコンピュータ・システムに構成させるコンピュータ・プログラムを記録した記録媒体。