JP7405702B2

JP7405702B2 - 仮想視点レンダリング装置、方法及びプログラム

Info

Publication number: JP7405702B2
Application number: JP2020102989A
Authority: JP
Inventors: 良亮渡邊
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2023-12-26
Anticipated expiration: 2040-06-15
Also published as: JP2021196870A

Description

本発明は、仮想視点レンダリング装置、方法及びプログラムに係り、特に、被写体の3Dモデルへマッピングするテクスチャを対応位置の背景モデルと比較することで被写体ではないテクスチャ部分を透過領域に決定し、レンダリングの際に透過領域を透過処理することで仮想視点画像の品質を高める仮想視点レンダリング装置、方法及びプログラムに関する。

自由視点映像技術は、視点の異なる複数のカメラ映像に基づいて、カメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献１に示される視体積交差法に基づく3Dモデルベースの自由視点画像生成手法が存在する。

視体積交差法は、図８に示したように各カメラ映像から被写体の部分だけを抽出した２値のシルエット画像を入力として、各カメラのシルエット画像を3D空間に投影し、その積集合となる部分のみを残すことで3Dモデルを生成する手法である。シルエット画像の取得には、非特許文献２に代表される背景差分法がよく用いられる。

視体積交差法をベースとした自由視点制作方式としては、非特許文献３に開示されるフルモデル方式自由視点（＝3Dモデルの形状を忠実に表現する方式）がある。この方式は視体積交差法を用いて被写体の３Dモデルを再構成する。

3Dモデルが計算された状態で自由視点映像を視聴する際、ユーザは任意の視点を選択できる。このときに選択される視点は、カメラのない視点も含めた任意の視点であり、このようなカメラがない視点は仮想視点と呼ばれる。

仮想視点からの映像を生成するために、3Dモデルに対して単一または複数のカメラから色付けを行い（この色付けは、テクスチャマッピングと呼ばれる）、仮想視点から見た2D画像（仮想視点画像）を合成する処理はレンダリングと呼ばれる。

レンダリングには、仮想視点の位置によらず、3Dモデルの各ポリゴンに対して決められた色を決定していく静的なテクスチャマッピング手法と、仮想視点の位置が決定された後に視点位置情報を基にテクスチャマッピングを適用する視点依存のテクスチャマッピング手法がある。非特許文献３には視点依存のテクスチャマッピングが開示されている。

特願2019-136729号

Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994). C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999). J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019). Qiang Yao, Hiroshi Sankoh, Nonaka Keisuke, Sei Naito. "Automatic camera self-calibration for immersive navigation of free viewpoint sports video," 2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP), 1-6, 2016. H. Sankoh, S. Naito, K. Nonaka, H. Sabirin, J. Chen, "Robust Billboard-based, Free-viewpoint Video Synthesis Algorithm to Overcome Occlusions under Challenging Outdoor Sport Scenes", Proceedings of the 26th ACM international conference on Multimedia, pp. 1724-1732, (2018)

視体積交差法を用いて3Dモデルを再構成する場合、正確な3Dモデルを計算することは難しかった。まず、カメラの台数が不十分の場合にモデルが不正確に生成されがちであるという原理的な問題に加え、そもそも離散化された位置のボクセルグリッドに対してボクセルモデルの形成がされるか否かを判定するため正確なモデル形状を取得することが困難である。ボクセルグリッドを細かくすれば、この位置の量子化誤差は減らせるものの計算量が増大する。

さらに、視体積交差法でモデル生成を行うためには、使用する各カメラの位置や向きを正確に知る必要がある。このようなカメラの位置や向きを正確に特定する技術は「カメラキャリブレーション技術」と呼ばれ、例えば非特許文献４にはカメラキャリブレーションを自動で行う技術が開示されている。しかしながら、カメラキャリブレーションによりカメラの位置や向きを完璧に特定することは困難であり、特定された位置や向きに誤差が混入するという技術課題がある。

さらに、仮想視点画像生成技術を実現するにあたっては複数台のカメラが必須となるが、各カメラのシャッタータイミングの同期にズレが発生していると、特に被写体の移動速度が速い場合などに、視体積交差法で生成した3Dモデルに欠損が生じ得る。

3Dモデルに欠損が生じる技術課題は、視体積交差法に用いるシルエット画像自体の輪郭を膨張させたり、3Dモデルの形状を膨張させたりすることで回避できるが、結果的に本来モデル化されるべきではなかった箇所がモデル化されるなどにより、3Dモデルの正確な形成が妨げられることがある。

また、このような不正確な3Dモデルが形成されることによって、図９に示したように仮想視点画像の主観品質に大きな影響が生じ得る。図９では、本来モデル化されるべきではなかった箇所がモデル化されていることによって、その箇所に対応するフィールド部分がマッピングされてしまっている。

このように、シルエット抽出の精度が高まり、完璧なシルエット抽出が可能であったとしても、シルエット抽出技術以外の様々な誤差に影響され、モデル形状の復元を完璧に行うことは困難である。

本発明の目的は、上記の技術課題を解決し、被写体の3Dモデルへマッピングするテクスチャを背景モデルと比較することで被写体ではないテクスチャ部分を透過領域に決定し、レンダリングの際に透過領域を透過処理する（換言すれば、レンダリングの際に背景差分処理を再度行う）ことで仮想視点画像の品質を高めることにある。

上記の目的を達成するために、本発明は、被写体の3Dモデルを2D平面へレンダリングして仮想視点画像を生成する仮想視点レンダリング装置において、以下の構成を具備した点に特徴がある。

(1) 被写体のカメラ画像およびその背景統計情報を取得する手段と、レンダリング時にテクスチャをマッピングするカメラおよびそのカメラ画像上の参照画素位置を計算する手段と、各参照画素位置におけるテクスチャおよび背景統計情報の各画素値の比較結果に基づいてレンダリング時の透過領域を決定する手段と、3Dモデルを2D平面へレンダリングする際に前記透過領域に透過処理を適用するレンダリング手段とを具備した。

(2) 透過領域を仮想視点画像の前景領域縁部から所定幅の範囲内に限定する手段を更に具備し、レンダリング手段は、前記所定幅の範囲内の透過領域に対してのみ透過処理を適用するようにした。

本発明によれば以下のような効果が達成される。

(1) テクスチャマッピングされた3Dモデルを2D平面へレンダリングして仮想視点画像を合成する際に、テクスチャの画素値と背景統計情報の対応する画素値との差分に基づいて背景と推定できる透過領域を決定し、レンダリングの際に透過領域には透過処理を適用するので、背景のテクスチャが前景に表示されることによる仮想視点画像の品質低下を防止できるようになる。

(2) 品質改善が、3Dモデルを生成した後の2D平面へのレンダリング時における透過処理により実現されるので、キャリブレーションの誤差などの影響を受けることがない。

(3) テクスチャおよび背景統計情報（例えば、空舞台）の対応画素の画素値を比較するという簡便な処理で透過領域を決定できるので、リアルタイム性を損なわずに大きな品質向上を期待できる。

(4) 透過処理の適用範囲を仮想視点画像の前景領域縁部から所定幅の範囲内に限定したので、テクスチャの画素値と背景統計情報の対応する画素値との差分が偶然に小さくなっても、不要な透過処理が適用されてしまうことによる品質低下を防止できるようになる。

本発明を適用した仮想視点レンダリングシステムの第１実施形態の構成を示した機能ブロック図である。本発明の概要を説明するための図である。仮想視点画像の品質改善例を示した図（その１）である。仮想視点画像の品質改善例を示した図（その２）である。カメラパラメータの例を示した図である。本発明を適用した仮想視点レンダリングシステムの第２実施形態の構成を示した機能ブロック図である。 3Dモデルを被写体ごとに分割する例を示した図である。視体積交差法による3Dモデルの形成方法を示した図である。仮想視点画像の主観品質が損なわれる例を示した図である。画素単位での透過処理を説明するための図である。

以下、図面を参照して本発明の実施の形態について説明する。ここでは初めに本発明の概要について説明し、次いで具体的な実施の形態について詳細に説明する。

図２は、本発明の概要を説明するための図である。被写体の3Dモデルに対してカメラ画像の対応する画素から色付け（テクスチャマッピング）を実施する際、被写体が存在しない同時刻の画像（空舞台）を得られれば、カメラ画像と空舞台とを比較することで、マッピングに用いるテクスチャが実際には被写体の一部ではなく背景の一部であることを認識できる。このような空舞台は、非特許文献２のような背景差分法の中で常に更新されて保持される。また、試合前に人がいないシーンを撮影し、それを空舞台として使用してもよい。

図示の例では、仮想視点から見込んだ2D画像（仮想視点画像）の中で、レンダリングされた仮想視点画像の前景領域縁部の外側にフィールド（芝生）の色がマッピングされた結果、レンダリング品質が低下している。

しかしながら、このような現象は空舞台が理想的に生成できていれば、3Dモデルの各位置（X_j,Y_j,Z_j：jは位置のインデックス）に対応したカメラ画像のテクスチャおよび空舞台の各参照画素位置(U_j,k,V_j,k：kはカメラインデックス)の差分値が小さくなっていることから予め認識できる。

本発明では、以上のような考察に基づき、3Dモデルへマッピングするテクスチャおよび空舞台の対応する各参照画素値の差が所定の閾値を下回っていると、3Dモデルを2D平面へレンダリングして仮想視点画像を合成する際に、その部分を透過処理する。これにより、背景のテクスチャが誤って前景にマッピングされることによる仮想視点画像の品質低下が防止される。

図３，４は本発明により仮想視点画像の品質が改善される例を示した図である。各図(a)では、色の濃いユニフォームを着た前景領域の選手の縁部近傍に背景であるフィールドのテクスチャが誤ってマッピングされることで、色の明るいユニフォームを着た奥の選手の一部に欠損が生じて品質が損なわれている。これに対して、本発明を適用すると各図(b)に示したように、フィールドのテクスチャが誤ってマッピングされていた前景領域の縁部近傍が透過となって背景の選手の欠損が解消され、品質が改善されていることがわかる。

このような品質改善方式は、3Dモデルを生成した後の2D平面へのレンダリング時における透過処理により実現されるので、キャリブレーションの誤差などの影響を受けることがない。加えて、仮想視点から見込んだ際にマッピングに使う画素と対応する空舞台の画素とを比較するという簡便な処理で実装できることから、リアルタイム性の高い処理で大きな品質向上を期待できる。

図１は、本発明を適用した仮想視点レンダリングシステムの第１実施形態の主要部の構成を示した機能ブロック図であり、本発明に固有の仮想視点レンダリング装置１に加えて、背景差分計算部２および被写体3Dモデル生成部３を主要な構成としている。

このような仮想視点レンダリング装置１は、CPU、メモリ、インタフェースおよびこれらを接続するバス等を備えた汎用のコンピュータやモバイル端末に、後述する各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはプログラム化した専用機や単能機としても構成できる。

本実施形態では、スポーツシーンとしてサッカーに注目し、サッカーの競技シーンを視点の異なる複数のカメラ（Cam）で同期撮影した映像に基づいて、例えば非特許文献３に開示されるフルモデル仮想視点画像を生成する場合を例にして説明する。

なお、本実施形態では全てのカメラが固定されており、試合中に各カメラの画角が変化することは想定しない。また、本実施形態では基本的にレンダリングのアルゴリズムが各フレームで独立した処理を行うことから、以下では特定の１フレームに限定して説明を行う。

背景差分計算部２は、競技フィールドを撮影する複数のカメラから視点の異なるカメラ映像を取得し、カメラ画像ごとに各画素を前景または背景に識別する。識別結果は単純な空舞台画像であってもよいし、シルエットマスクのように二値化された情報であってもよいし、あるいは許容できる時間的な揺らぎの分散値を統計化した情報であってもよい。

更に具体的に説明すれば、前記背景差分計算部２は、各カメラ画像のテクスチャを入力として非特許文献２に開示された方式で被写体のシルエット抽出を行う。背景差分法は、被写体が存在しない背景を表現する背景モデルと入力画像とを比較し、差分が大きい部分を被写体が存在する前景部分として抽出する手法である。このシルエット画像は、非特許文献１に開示された視体積交差法を用いて3Dモデルを制作する用途に使われる。背景差分法の計算方法としては、例えば次式(1)の単一ガウス分布に基づく計算法がよく知られている。

上式(1)を満たす場合には、iフレーム目の当該画素(x,y)は背景であると判断される。ここでI_i(x,y)は画像の輝度値であり、u_i(x,y)は後述の式(2)で計算される，毎フレーム一定の更新率で更新されるガウス分布の平均、σ_i(x,y)は後述の式(3)で計算される，毎フレーム一定の更新率で更新されるガウス分布の標準偏差、T_i(x,y)は(1)式の判定を調整する閾値である。zは標準偏差の何倍までを背景と判断するかを調節するパラメータである。

背景統計情報とは、上(1)式で示すところのガウス分布の平均値u_i(x,y)や標準偏差σ_i(x,y)の総称であり、iフレーム目における各画素の背景モデルを構成するガウス分布の平均値u_i(x,y)は、本実施形態では次式(2)で計算される。

ここで、rは平均値の更新率である。また、各画素の背景モデルを構成するガウス分布の標準偏差σ_i(x,y)は次式(3)，(4)で計算される。ただし、tは標準偏差の更新率である。

本実施形態では、これらの前景／背景の識別結果を背景統計情報で総称する場合もある。

前記被写体3Dモデル出力部３は、3Dモデル形状取得部３ａおよびオクルージョン情報生成部３ｂを含む。3Dモデル形状取得部３ａは、背景差分計算部２から取得したシルエット画像等を利用した視体積交差法により被写体の3Dモデルを生成する。本実施例では、3Dモデルが三角形パッチの集合であるポリゴンモデルとして生成される。

このような3Dモデルは、各頂点の３次元位置と各三角形パッチがいずれのポリゴンのいずれの頂点で構成されるかというインデックス情報とで定義される。本実施形態では、各頂点の３次元位置およびインデックス情報を3Dモデル形状で総称する場合もある。

オクルージョン情報生成部３ｂは、3Dモデルの各頂点を可視のカメラと不可視のカメラとに分別するオクルージョン情報を生成する。本実施形態のようにN台のカメラが存在する環境では、3Dモデルの頂点ごとにN個のオクルージョン情報が計算され、可視のカメラには「1」、不可視のカメラには「0」などの情報が記録される。

サッカーの競技シーンで選手が二人重なり、あるカメラ画像において選手Aが選手Bを覆い隠す場合、選手Bの3Dモデルに選手Aのテクスチャが映り込まないようにテクスチャをマッピングする必要がある。このような場合、選手Bの3Dモデルの遮蔽される部分の頂点に関しては、当該カメラに関するオクルージョン情報が「不可視」として記録されている。このオクルージョン情報は、例えば特許文献１のようなデプスマップを用いた手法等を用いて計算される。

仮想視点レンダリング装置１は、仮想視点識別部１０１、テクスチャ参照画素位置計算部１０２、前景透過領域決定部１０３および仮想視点画像レンダリング部１０４を主要な構成としている。

仮想視点識別部１０１は、視聴ユーザがコントローラなどの入力手段を操作することで任意に選択した仮想視点p_vの位置を3D座標で識別する。

テクスチャ参照画素位置計算部１０２はカメラ選択部１０２ａを含み、被写体3Dモデル生成部３から取得した3Dモデル形状およびオクルージョン情報、ならびに仮想視点p_vに基づいて、３Dモデルの各頂点位置（X_j,Y_j,Z_j）にテクスチャをマッピングできるカメラ選択する。

前記テクスチャ参照画素位置計算部１０２は更に、3Dモデルの各頂点位置（X_j,Y_j,Z_j）を、カメラ選択部１０２ａが選択した各カメラのカメラ画像平面上に投影することでテクスチャの各参照画素位置(U_j,k,V_j,k)を計算する。ここで、jは3Dモデルの頂点を識別するインデックス、kはカメラ番号を示すインデックスである。

テクスチャマッピングは単一のカメラから行われてもよいし、複数のカメラから行われてもよい。複数のカメラからテクスチャマッピングを行う場合には、マッピングに使用できる全てのカメラを対象にテクスチャの参照画素位置(U_j,k,V_j,k)を計算する必要がある。前記カメラ選択部１０２ａは、仮想視点近傍のカメラを対象に、3Dモデルのポリゴンgごとに、その３つの頂点のオクルージョン情報に基づいて当該ポリゴンのカメラからの可視判定を行うことでテクスチャマッピングに使用するカメラを選択する。

テクスチャマッピングを単一のカメラから行う場合、当該カメラcに対するポリゴンgの可視判定フラグをgcと表現すると、ポリゴンgの可視判定フラグgcは、当該ポリゴンを構成する３頂点の全てが可視であれば可視、３頂点のうちいずれかで一つでも不可視であれば不可視とされる。

テクスチャマッピングを複数（例えば、２台）のカメラc1,c2から行う場合、不可視のカメラに代えて第３のカメラc3について可視判定を行い、これを２つのカメラが可視となるまで繰り返すようにしてもよい。ただし、可視となる第３のカメラc3が存在しなければ可視のカメラのみを選択するようにしてもよい。

以上のようにして、テクスチャマッピングに使用できるカメラが選択されると、3Dモデルの各頂点位置（X_j,Y_j,Z_j）を、選択したカメラのカメラ画像平面上に投影することでテクスチャの参照画素位置(U_j,k,V_j,k)が計算される。

3Dモデルの各頂点位置（X_j,Y_j,Z_j）からk番目のカメラ画像上の画素位置(U_j,k,V_j,k)を計算するためには、各カメラの位置や向き、焦点距離を知る必要がある。これらのカメラに関する必要な情報を集約したデータは「カメラパラメータ」と呼ばれ、その計算方法は例えば非特許文献４に開示されている。入力されるカメラパラメータの例を図５に示す。

前景透過領域決定部１０３は、カメラ映像および背景統計情報に基づいて、3Dモデルの頂点位置(X_j,Y_j,Z_j)毎に、後述するレンダリング時の透過率を決定する。

本実施形態では、テクスチャ参照画素位置決定部１０２が3Dモデルの頂点位置(X_j,Y_j,Z_j)に基づいて決定した各カメラ画像上の参照画素位置(U_j,k,V_j,k)において、テクスチャおよび背景統計情報の各画素値を比較し、その差分が閾値以下の場合には前記参照画素位置(U_j,k,V_j,k)を背景とみなし、対応する3Dモデルの頂点位置(X_j,Y_j,Z_j)を透過領域に決定する。以下、１台のカメラからテクスチャマッピングする場合と複数台のカメラからテクスチャマッピングする場合とに分けて透過領域の決定方法を詳細に説明する。

A：１台のカメラからテクスチャマッピングする場合
テクスチャマッピングに使用するカメラ画像上の参照画素位置(U_j,V_j)について、テクスチャの画素値がC(U_j,V_j)、背景統計情報の画素値がS(U_j,V_j)であるとき、次式(5)を満たせば透過領域に決定する。

ここで、Tは判定の閾値であり、手動で決定される。本実施例ではS(U_j,V_j)＝u_i(x,y)として平均値との差分を計算し、その値が閾値Tを下回れば頂点位置(X_j,Y_j,Z_j)の頂点jに対してレンダリング時に透過処理が施される。S(U_j,V_j)は平均値に限らず、試合前に人がいない瞬間を狙って撮影した被写体が存在しない時刻の画像が用いられてもよい。なお、本実施例では透過率を100%または0%の二択としたが、本発明はこれのみに限定されず、上式(5)の左辺の絶対値に応じて、例えば絶対値が小さくなるほど透過率が100%に近くなるように透過率を適応的に変化させても良い。

また、YUVのような３つの色空間を持つ場合には、上式(5)は一つの色空間で条件を満たせば透過処理を適用するものとしてもよいし、全ての色空間で上式(5)を満たした場合に初めて透過されるものとしてもよい。

さらに、この判定に用いられるC(U_j，V_j)やS(U_j,V_j)に関しては事前に色変換を施してもよい。例えばカメラから取得される映像はYUV色空間で入力されることが多いが、これをHSV色空間やRGB色空間に変換して(5)の閾値処理を行ってもよい。あるいはH空間のみを取り出して判定を行ってもよい。加えて、上式(3)で計算される標準偏差σ_i(x,y)などを用いて、次式(6)で表される判定式を計算してもよい。

なお、上式(5)，(6)を満たす場合に透過処理を適用すると判定するわけではなく、上式(5)，(6)を満たす場合において、２番目に近い（参照すべき）カメラ上でも上式(5)，(6)の判定を実施することで判定の精度を高めてもよい。これは、１台のカメラの判定結果のみで透過処理することの信頼性が疑わしいケースなどに、信頼性をより高めるために有効である。

B：複数台のカメラからテクスチャマッピングする場合
複数台のカメラを使って複数のカメラ画像のテクスチャの色をブレンディングすることでテクスチャマッピングを施すのであれば、次式(7)の計算がマッピングに使用する全てのカメラkに対して行われる。

その結果、複数台のカメラkのうち１台が上式(7)を満たせば透過領域に決定してもよいし、全てのカメラkが上式(7)式を満たす場合のみ透過領域に決定するようにしてもよい。また、ブレンディング比率が最も高いカメラの(7)式の判定結果を採用してもよい。

さらに、例えば２台のカメラ（k=1，k=2）からブレンディングを行う際に、k=1のカメラとk=2のカメラとのブレンディング比率がβ：１－βであったときに、次式(8)でまずテクスチャ同士をブレンドし、

次に、背景統計情報同士を次式(9)により同じ比率でブレンドし、

最後に、ブレンドしたもの同士を次式(10)のように比較することで判定を行ってもよい。なお、カメラの台数を3台以上とするのであれば、上式(8)，(9)において３台以上のカメラの重みの和が１となるように比率を設定し、３台以上のカメラで判定を行っても良い。

なお、複数台のカメラからテクスチャをマッピングする際に、オクルージョンが発生するカメラ（カメラP）が選択されていたために当該カメラPに代えて次のカメラ（代替カメラQ）を参照する場合、当該代替カメラQは先に選択されていたカメラPに比べて仮想視点p_vからの距離が遠くなるなどの理由でテクスチャの信頼度が低下する傾向にある。そこで、代替カメラQを用いて透過判定を行う際は、上式(8)，(9)におけるブレンディング比率βを0ないしは低い値にすることで代替カメラQの結果を優先しないような機構を持たせてもよい。

仮想視点画像レンダリング部１０４は、透過処理部１０４ａおよびテクスチャマッピング部１０４ｂを備え、3Dモデルに各カメラ画像から取得したテクスチャをマッピングし、さらに2D平面上にレンダリングすることで仮想視点p_vから見込んだ仮想視点画像を合成する。

テクスチャマッピング部１０４ｂは、3Dモデルの各ポリゴンに対してテクスチャマッピングを行う。ここでは、3Dモデルの各頂点位置（X_j, Y_j,Z_j）が、仮想視点p_vから見た画像上のどの画素に該当するかが前記テクスチャ参照画素位置計算部１０２により計算済みであるものとし、２台のカメラc₁,c₂からポリゴンgにテクスチャマッピングする場合を例にして説明する。

ケース１：ポリゴンgに関するカメラc₁，c₂の可視判定フラグg_c1，g_c2がいずれも「可視」の場合
次式(11)に基づいてアルファブレンドによるマッピングを行う。

ここで、texture_c1(g)，texture_c2(g)はポリゴンgがカメラc₁，c₂において対応するカメラ画像領域を示し、texture(g)は当該ポリゴンにマッピングされるテクスチャを示す。アルファブレンドの比率aは仮想視点p_vと各カメラ位置p_(c_1 ), p_(c_2 )との距離（アングル）の比に応じて算出される。

ケース２：可視判定フラグg_c1，g_c2の一方のみが可視の場合
ポリゴンgを可視であるカメラのテクスチャのみを用いてレンダリングを行う。すなわち上式(11)において、可視であるカメラのtexture_(c_i )に対応する比率aの値を１とする。あるいは仮想視点p_vからみて次に近い第3のカメラc_3を不可視である一方のカメラの代わりに参照し、ケース１の場合と同様に上式(11)に基づくアルファブレンドによりマッピングを行う。

ケース３：可視判定フラグg_c1，g_c2のいずれもが不可視の場合
仮想視点p_v近傍（一般には、アングルが近いもの）の他のカメラを選択することを、少なくとも一方の可視判定フラグが可視となるまで繰り返し、各カメラ画像の参照画素位置のテクスチャを、ケース１の場合と同様に上式(11)に基づくアルファブレンドによりポリゴンgにマッピングする。

なお、上記の実施形態では初期参照する近傍カメラ台数を２台としているが、ユーザ設定により変更してもよい。その際は、初期参照カメラ台数ｂに応じて、上式(1)はｂ台のカメラの線形和（重みの総和が１）とする拡張が行われる。また、すべてのカメラにおいて不可視となったポリゴンについてはテクスチャをマッピングしない。

透過処理部１０４ａは、テクスチャマッピングされた3Dモデルを用いて仮想視点画像を2D平面上にレンダリングする。このとき、前景透過領域決定部１０３により透過領域に決定されたポリゴンについては、以下の詳述するように、ポリゴン単位または画素単位で透過処理を適用する。

A．ポリゴン単位の透過処理
三角形ポリゴンPoを仮想視点画像上の対応する各画素に描画するのであれば、当該ポリゴンPoを構成する３つの頂点V1，V2，V3に関して前景透過領域決定部１０３が上式(5)，(6)，(7)，(10)に基づいて透過率（例えば、透過または非透過）を決定する。透過処理部１０４ａは、頂点V1～V3のいずれか一つ，または全てが透過に決定されていると、当該ポリゴンを透過にして2D画像上に描画する。

B．画素単位透過処理
図１０に示したように、三角形ポリゴンPoが描画される仮想視点レンダリング画像上の各画素の座標(s,t)を当該ポリゴンの3つの頂点V1，V2，V3に基づく線形補完等により計算し、各画素に対応する実カメラおよび背景統計情報の各画素値を上式(5)，(6)，(7)，(10)に適用することで透過率を画素ごとに決定する。

なお、透過処理が部分的に施されることで被写体と分離した細かいノイズが残ってしまう可能性がある。このようなノイズは主観品質の劣化を招くことから、透過されなかった領域に対して、Erosion-Dilationなどの縮退、膨張処理を行うことでノイズを除去するようにしてもよい。

また、透過処理後に残った領域のうち、特に前景領域縁部の近傍を対象に、縁部に近付くほど透過の割合を滑らかに強くする透過処理を適用することでエッジをぼかす加工を追加してもよい。このようなぼかしの加工を加えることで、被写体が背景に馴染みやすくなる効果が期待できる。

さらに、一般に仮想視点画像では、ゴールポストのような静止構造物は事前に汎用3Dモデルとして用意されることが考えられる。このような品質の高い汎用3Dモデルに対して本発明の処理を施してしまうと逆に品質の劣化に繋がる懸念がある。そこで、静止構造物の汎用3Dモデルに対しては本発明の透過処理を施さないようにレンダリングを実施してもよい。

さらに、本実施形態ではフルモデル仮想視点を例にして説明したが、本発明はこれのみに限定されるものではなく、レンダリング時に参照するテクスチャの画素値と対応する空舞台の画素値とを比較するというアルゴリズムは他の仮想視点画像生成方式にも適用することが可能である。例えば非特許文献５のようなビルボード仮想視点でも、ビルボードのテクスチャマッピングを行う際に同様の手順で透過処理を適用することが可能である。

図６は、本発明の第２実施形態の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表しているので、その説明は省略する。本実施形態は、仮想視点レンダリング装置１が前景透過幅決定部１０５を具備し、レンダリング時の透過処理を仮想視点画像における前景領域の縁部から所定幅Lの範囲内に限定するようにした点に特徴がある。

第１実施形態では、参照画素位置ごとにテクスチャおよび背景統計情報の各画素値の差分を計算することで、レンダリング時に透過処理を適用する3Dモデルの領域を決定するものとして説明した。

しかしながら、背景（本実施形態では、フィールド部分の緑色）の映り込みは、図９に示したように仮想視点画像の前景領域縁部の近傍で多く発生し、また前景領域の縁部以外に透過処理を施してしまうと、たまたま背景に被写体と近い色のオブジェクトがあった場合などに大幅な欠損が発生することが経験的に認められる。このため、透過処理は仮想視点画像における前景領域縁部の近傍のみに限定することが望ましい

前景透過幅決定部１０５は、仮想視点画像レンダリング部１０４が3Dモデルをレンダリングする際に透過処理を適用するにあたり、透過処理の範囲を仮想視点画像の前景領域縁部から所定幅Lの範囲内のみに限定する。前記所定幅Lは縁部からのピクセル数として手動で設定することができる。

ところで、一般にレンダリングはある仮想視点を選択した後に、その仮想視点から見た2D画像上に対して処理を行う。本実施例でも、仮想視点画像レンダリング部１０４は仮想視点p_vから見た2D画像に対して処理を行っている。

このとき、前記所定幅Lをピクセルで定義する場合、仮想視点p_vが被写体から遠くなればなるほど相対的に被写体の大きさ（画素数）は小さくなる。したがって、前記所定幅Lは被写体との距離に応じて適応的に調整されるようにすることが望ましい。

例えば、仮想視点から視聴する際は特定の注視点を基に視点を回転させることが多いが、この注視点との距離と反比例するように前記所定幅Lを調整する音ができる。あるいは図７に示したように、3Dモデルを各モデルの連結領域などに基づいて複数の塊に分離し、各塊の重心位置との距離に基づいて前記所定幅Lが動的に調整されるようにしてもよい。

１…仮想視点レンダリング装置，２…背景差分計算部，３…被写体3Dモデル生成部，３ａ…3Dモデル形状取得部，３ｂ…オクルージョン情報生成部，１０１…仮想視点識別部，１０２…テクスチャ参照画素位置計算部，１０３…前景透過領域決定部，１０４…仮想視点画像レンダリング部，１０４ａ…透過処理部，１０４ｂ…テクスチャマッピング部，１０５…前景透過幅決定部

Claims

被写体の3Dモデルを2D平面へレンダリングして仮想視点画像を生成する仮想視点レンダリング装置において、
被写体のカメラ画像およびその背景のカメラ画像の背景統計情報を取得する手段と、
レンダリング時にテクスチャをマッピングするカメラおよびそのカメラ画像上の参照画素位置を計算する手段と、
各参照画素位置におけるテクスチャおよび背景統計情報の各画素値の差分が所定の閾値以下である領域をレンダリング時の透過領域に決定する手段と、
3Dモデルを2D平面へレンダリングする際に前記透過領域に透過処理を適用するレンダリング手段とを具備したことを特徴とする仮想視点レンダリング装置。
前記透過領域を仮想視点画像の前景領域縁部から所定幅の範囲内に限定する手段を更に具備し、
前記レンダリング手段は、前記所定幅の範囲内の透過領域に対してのみ透過処理を適用することを特徴とする請求項１に記載の仮想視点レンダリング装置。
前記所定幅が仮想視点と被写体との距離に応じて適応的に変化することを特徴とする請求項２に記載の仮想視点レンダリング装置。
前記所定幅が仮想視点と被写体との距離が大きくなるほど狭くなることを特徴とする請求項３に記載の仮想視点レンダリング装置。
前記仮想視点画像の前記透過領域以外の領域に対してノイズを除去する処理を行うことを特徴とする請求項１ないし４のいずれかに記載の仮想視点レンダリング装置。
前記仮想視点画像の前記透過領域以外の前景領域縁部の近傍において、縁部に近付くほど高い透過率で第２の透過処理を適用することを特徴とする請求項１ないし５のいずれかに記載の仮想視点レンダリング装置。
前記背景のカメラ画像の背景統計情報が、各画素値の時間平均および標準偏差の関数であることを特徴とする請求項１ないし６のいずれかに記載の仮想視点レンダリング装置。
前記仮想視点レンダリング装置は、視点の異なる複数のカメラ画像のテクスチャをブレンディングして3Dモデルにマッピングし、
前記参照画素位置を計算する手段は、3Dモデルへテクスチャをマッピングする参照画素位置をカメラ画像ごとに計算することを特徴とする請求項１ないし７のいずれかに記載の仮想視点レンダリング装置。
前記透過領域を決定する手段は、参照画素位置ごとにブレンディングされたテクスチャおよびブレンディングされた背景統計情報の各画素値の比較結果に基づいてレンダリング時の透過領域を決定することを特徴とする請求項８に記載の仮想視点レンダリング装置。
コンピュータが被写体の3Dモデルを2D平面へレンダリングして仮想視点画像を生成する仮想視点レンダリング方法において、
被写体のカメラ画像およびその背景のカメラ画像の背景統計情報を取得し、
レンダリング時にテクスチャをマッピングするカメラおよびそのカメラ画像上の参照画素位置を計算し、
各参照画素位置におけるテクスチャおよび背景統計情報の各画素値の差分が所定の閾値以下である領域をレンダリング時の透過領域に決定し、
3Dモデルを2D平面へレンダリングする際に前記透過領域に透過処理を適用することを特徴とする仮想視点レンダリング方法。
前記透過領域を仮想視点画像の前景領域縁部から所定幅の範囲内に限定し、当該所定幅の範囲内の透過領域に対してのみ透過処理を適用することを特徴とする請求項１０に記載の仮想視点レンダリング方法。
被写体の3Dモデルを2D平面へレンダリングして仮想視点画像を生成する仮想視点レンダリングプログラムにおいて、
被写体のカメラ画像およびその背景のカメラ画像の背景統計情報を取得する手順と、
レンダリング時にテクスチャをマッピングするカメラおよびそのカメラ画像上の参照画素位置を計算する手順と、
各参照画素位置におけるテクスチャおよび背景統計情報の各画素値の差分が所定の閾値以下である領域をレンダリング時の透過領域に決定する手順と、
3Dモデルを2D平面へレンダリングする際に前記透過領域に透過処理を適用する手順と、をコンピュータに実行させる仮想視点レンダリングプログラム。
前記透過領域を仮想視点画像の前景領域縁部から所定幅の範囲内に限定する手順を更に含み、
前記所定幅の範囲内の透過領域に対してのみ透過処理を適用することを特徴とする請求項１２に記載の仮想視点レンダリングプログラム。