JP7504614B2

JP7504614B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP7504614B2
Application number: JP2020024190A
Authority: JP
Inventors: 知頼岩尾
Original assignee: Canon Inc
Current assignee: Canon Inc
Filing date: 2020-02-17
Publication date: 2024-06-24
Anticipated expiration: 2040-02-17

Description

本開示の技術は、オブジェクトの三次元形状データを取得する技術に関する。

ＶＲ、ＡＲ、ストリートビューイングなどの分野において、オブジェクト（被写体）の高精度な三次元コンピュータグラフィックスモデル（以下、「三次元モデル」と呼ぶ。）を生成する需要がある。一般に、オブジェクトの三次元モデルは、クリエータの手作業によって作成されており、作り込みのために多大な時間を要する。この作業時間を削減するために、現実世界のオブジェクトを撮像した画像から、当該オブジェクトの形状を大まかに推定した後、得られた推定形状を基により精巧な形状に変形・編集するフォトグラメトリという技術が発達してきている。このフォトグラメトリを応用した技術の一つとして、自由視点映像技術があり、スポーツシーンの観戦などの用途に期待されている。この自由視点映像技術では、まず、異なる複数の視点から撮像して得た画像（以下、「複数視点画像」と呼ぶ。）を基に、現実世界のオブジェクトを三次元モデル化する。次に、生成した三次元モデルを上述のフォトグラメトリにより整形・編集する。最後に、整形・編集された三次元モデルに対して、仮想的なカメラの視点位置と視線方向を設定することで、任意の視点から見た映像を得ることができる。

特開２０１８－６３６９３号公報

上記特許文献１では推定によって得られたオブジェクトの三次元モデルの形状の一部を、円柱や直方体といった基本的な形状（以下、「基本形状」と呼ぶ。）で置換する方法を提案している。しかしながら、その形状が既知の構造物オブジェクトである場合（例えば、サッカーで使用されるゴールポストや、スタジアム内の看板など）は、その形状が既知ではないオブジェクトに比べてより高精度な三次元モデルの生成が要求される。この点、上記特許文献１の方法では、十分な精度の三次元モデルを得ることが困難であった。

本開示の技術は上述の課題に鑑みてなされたものであり、オブジェクトの三次元モデルをより高精度に生成することを目的とする。

本開示に係る画像処理装置は、オブジェクトの三次元形状データを生成する画像処理装置であって、前記オブジェクトの三次元形状を表す初期形状を取得する取得手段と、取得した前記初期形状の少なくとも一部である部位毎の確からしさを算出する算出手段と、算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティング手段と、を備えたことを特徴とする。

本開示の技術によれば、オブジェクトの三次元モデルをより高精度に生成することができる。

仮想視点映像システムの構成の一例を示す図三次元モデル生成方法の概要を説明する図画像処理装置のソフトウェア構成を示す図三次元モデル生成処理の流れを示すフローチャート実施形態１に係る形状フィッティングの結果を従来手法と比較して示した図初期形状の確からしさを算出する方法を説明する図反射率が異なるオブジェクトに関する初期形状の確からしさを示す図

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

［実施形態１］
本実施形態では、円柱や直方体といった基本形状の組み合わせによってオブジェクト（被写体）の三次元モデルを生成する一例として、サッカーゴールの三次元モデルを生成する場合について説明する。当然のことながら本実施形態はサッカーゴール以外のオブジェクトにも適用可能であり、基本形状の組み合わせで表現できる他の構造物の他、建築物や乗り物など様々なオブジェクトの三次元モデルの生成に適用できる。

（システム構成）
図１は、本実施形態における、仮想視点映像システムの構成の一例を示す図である。なお、仮想視点映像とは、エンドユーザ及び／又は選任のオペレータ等が自由に仮想視点（現実には存在しない仮想カメラ）の位置及び姿勢を操作することによって生成される映像であり、自由視点映像や任意視点映像などとも呼ばれる。図１に示す仮想視点映像システムは、画像処理装置１００、カメラ群１１０、仮想視点映像生成装置１２０を有する。

画像処理装置１００は、カメラ群１１０から映像データを受信する。この映像データは、複数の異なる視点で撮影された映像（以下、「複数視点映像」と呼ぶ）データである。そして、受信した複数視点映像データから、オブジェクトの三次元モデル（三次元形状を表すデータであり、「三次元形状データ」と同義）を生成する。生成された三次元モデルは、仮想視点映像生成装置１２０に送られる。

カメラ群１１０は、撮像装置としての複数のデジタルビデオカメラ（以下、単に「カメラ」と表記）で構成される。各カメラは、シリアルデジタルインタフェース（ＳＤＩ）に代表される映像信号インタフェースを備えており、映像信号インタフェースを介して、各カメラで撮影した映像データを画像処理装置１００に出力する。

仮想視点映像生成装置１２０は、画像処理装置１００から受け取った三次元モデルを用いてレンダリング処理を行って、ユーザが指定した仮想視点からの見えを表す仮想視点映像を生成する。本実施形態の三次元モデルは、仮想視点映像空間としての三次元空間上に、オブジェクトの三次元形状を表す要素群としてのボクセル群が配置された状態で、仮想視点映像生成装置１２０に入力されるものとする。そして、レンダリング処理では、別途入力された仮想視点情報に従って、三次元モデルが表すオブジェクトの三次元形状の表面にテクスチャを貼り付ける処理を行うことで、仮想視点映像を得るものとする。生成された仮想視点映像データは、液晶ディスプレイ等に代表される不図示の表示装置に出力・表示され、ユーザの視聴に供される。

なお、仮想視点情報には、少なくとも仮想視点の位置及び方向に関する情報が含まれる。また、仮想視点の指定には、少なくとも仮想視点の位置及び方向に関する指定が含まれる。また、仮想視点の指定は、ユーザによる指定でなくてもよい。例えば、装置が、自動で指定するような構成であってもよい。システム構成については、上記以外にも、様々な構成要素が存在するが、本発明の主眼ではないので、その説明は省略する。

（画像処理装置のハードウェア構成）
次に、図１を参照して、画像処理装置１００のハードウェア構成を説明する。画像処理装置１００は、ＣＰＵ１０１、メインメモリ１０２、ＨＤＤ１０３、入力部１０４、表示部１０５、外部Ｉ／Ｆ１０６を備え、各部がバス１０７を介して接続されている。まず、ＣＰＵ１０１は、画像処理装置１００を統括的に制御する演算処理装置であり、ＨＤＤ１０３等に格納された各種プログラムを実行して、カメラ群１１０を制御して複数視点映像データを取得したり、後述する様々な画像処理を行う。メインメモリ１０２は、各種処理で用いるデータやパラメータなどを一時的に格納するほか、ＣＰＵ１０１に作業領域を提供する。ＨＤＤ１０３は、各種プログラムや入力された映像データなどを記憶する不揮発性の大容量記憶装置であり、例えばＳＳＤ等でもよい。入力部１０４は、キーボードやマウス、電子ペン、タッチパネル等の装置であり、様々なユーザ指示を受け付ける。表示部１０５は、液晶パネルなどで構成され、ＵＩ（ユーザインタフェース）画面の表示などを行う。外部Ｉ／Ｆ部１０６は、カメラ群１１０を構成する各カメラ及び仮想視点映像装置１２０とネットワーク（ここではＬＡＮ１０８）を介して、複数視点映像データや三次元モデルといった各種データの送受信を行う通信インタフェースである。バス１０７は上述の各部を接続し、データ転送を行う。なお、仮想視点映像装置１２０も、画像処理装置１００と同様の構成を備え、ＣＰＵやメインメモリを用いて上述のレンダリング処理などを行う。

（本実施形態の概要）
図２は、本実施形態に係る、三次元モデル生成方法の概要を説明する図である。本実施形態の手法は、ＳＴＥＰ．１～ＳＴＥＰ．５の５段階に分けられる。以下、図２を参照しつつ説明する。

＜ＳＴＥＰ．１＞
まず、オブジェクトであるプレーヤー２００とサッカーゴール２０１を取り囲むように複数のカメラを配置して、異なる複数の視点から撮影し、複数視点映像データを取得する。サッカーゴール２０１は、２本のゴールポストと、1本のクロスバーとからなる。カメラ群１１０を構成する個々のカメラは、サッカーゴール２０１とプレーヤー２００がその画角内に収まるように、適切なカメラの向き、焦点距離、露出制御パラメータ等が設定されている。

＜ＳＴＥＰ．２＞
次に、複数視点映像データから各オブジェクト（ここでは、プレーヤー２００とサッカーゴール２０１）の大まかな形状を、視体積交差法（ビジュアル・ハルともいう。以下「ＶＨ法」と表記）などの手法によって推定する。ここでの推定によって得られた大まかな形状を「初期形状」と呼ぶこととする。

＜ＳＴＥＰ．３＞
次に、推定された各オブジェクトの初期形状について、基本形状の組み合わせで表現できるかどうか（基本形状によるフィッティングの可否）を判定する。ここで基本形状とは、オブジェクトの形状形成に最低限必要となる基本的な形状であって、直方体、球、三角柱、円柱、三角錐、円錐などの単純な形状を指す。図２の例では、プレーヤー２００の初期形状については、基本形状によるフィッティングはできないと判定され、サッカーゴール２０１の初期形状については基本形状によるフィッティングができると判定されることになる。

＜ＳＴＥＰ．４＞
次に、基本形状で表現可能と判定されたオブジェクトの初期形状について、その部位毎の確からしさを算出する。図２の例では、サッカーゴール２０１の初期形状について算出した部位毎の確からしさを色分けで示しており、クロスバーに相当する横長部分の半分ほどの確からしさが低いことを示す黒色になっている。

＜ＳＴＥＰ．５＞
最後に、オブジェクトの初期形状に対して基本形状をフィッティングする。そして、このフィッティングの際に、確からしさが高い部位を優先して（＝確からしさが低い部位の重みを下げて）基本形状を変形することで、オブジェクトの高精度な三次元モデルを得る。

以上が本実施形態に係る、三次元モデル生成方法の大まかな内容である。

（画像処理装置のソフトウェア構成）
図３は、本実施形態における画像処理装置１００のソフトウェア構成を示す機能ブロック図である。画像処理装置１００は、７つの機能部、すなわち、映像取得部３０１、カメラ校正部３０２、シルエット画像生成部３０３、初期形状推定部３０４、基本形状決定部３０５、形状精度算出部３０６、フィッティング部３０７を有する。以下、各部の機能について説明する。

映像取得部３０１は、カメラ群１１０を制御して、各カメラがそれぞれ撮影を行って得られた複数視点映像データを取得する。

カメラ校正部３０２は、カメラキャリブレーションを行って、カメラ群１１０を構成する各カメラについてカメラパラメータを算出する。カメラパラメータには、外部パラメータ、内部パラメータ、歪曲パラメータが含まれる。カメラキャリブレーションは、例えば撮影シーンがサッカーの試合であれば試合開始の直前など、プレーヤーなどのいわゆる動的オブジェクトが存在しないときに実行される。ここでカメラキャリブレーションの手順の一例を簡単に説明しておく。

＜カメラキャリブレーションの手順＞
・第一に、スクエアグリッド等の平面パターンを各カメラに対応する複数の視点から撮影する。

・第二に、上記撮影によって得られた画像から特徴点を検出し、画像座標系において特徴点の座標を求める。ここで、スクエアグリッドの場合の特徴点は、直線の交点である。

・第三に、求めた特徴点の座標を用いて、各カメラの内部パラメータの初期値を算出する。ここで、内部パラメータとは、焦点距離や、主点と呼ばれる光学的中心を表すパラメータを指す。なお、内部パラメータの初期値は必ずしも画像中の特徴点から算出する必要はなく、カメラの設計値を用いてもよい。

・第四に、バンドル調整と呼ばれる非線形最適化処理によって、内部パラメータ、外部パラメータ、歪曲パラメータを算出する。ここで、外部パラメータとは、カメラの位置・視線方向、視線方向を軸とする回転角を表すパラメータである。また、歪曲パラメータとは、レンズの屈折率の違いによって生じる半径方向の画像の歪みや、レンズとイメージプレーンが平行にならないことによって生じる円周方向の歪みを表す係数である。なお、カメラキャリブレーションの手法は他にも多く存在するが、本発明の主眼でないため詳細は省略する。

シルエット画像生成部３０３は、入力された複数視点映像のフレーム単位で、各カメラ視点に対応する撮影画像それぞれからオブジェクトのシルエットを抽出し、当該シルエットの領域と非シルエットの領域を２値で表現した画像を生成する。以下、シルエットを２値で表現した画像を「シルエット画像」と呼ぶ。シルエットを抽出する方法としては、背景差分法やフレーム間差分法などがある。例えば背景差分法の場合、オブジェクトが存在しない背景のみの画像を予め撮影しておき、オブジェクトが存在する撮影画像との差分を求め、当該差分の領域をオブジェクトのシルエットとする。なお、シルエット画像は、撮影画像中で形状推定の対象となるオブジェクトの領域だけをマスクしたものであり、「マスク画像」とも呼ばれる。

初期形状推定部３０４は、上述のシルエット画像とカメラパラメータとに基づいて、オブジェクトの大まかな三次元形状である初期形状を推定する。三次元形状を推定する手法には様々あるが、本実施形態ではＶＨ法を用いるものとする。なお、本実施形態ではＶＨ法を用いて初期形状を生成する例について述べるが、例えばカメラ間の視差を用いてオブジェクトの形状推定を行うステレオマッチング法などを用いてもよい。また、形状を推定する際に必ずしもカメラの撮影画像を用いる必要はない。例えば、レーザを射出してから戻ってくるまでの時間とレーザの速度の関係からオブジェクトまでの距離を求めることで、形状推定を行う方法も存在する。形状推定の方法については他にも多くの方法が存在するが、本発明の主眼ではないため省略する。

基本形状決定部３０５は、初期形状推定部３０４が推定した初期形状に対して形状フィッティングが可能かどうかを判定し、さらには、可能と判定された場合に使用する基本形状を決定する。また、初期形状に対して形状フィッティングができないと判定された場合は、推定結果である初期形状を当該オブジェクトについての最終的な処理結果（三次元モデル）として出力する。

形状精度算出部３０６は、初期形状推定部３０４が推定した初期形状の確からしさをその部位毎に算出する。初期形状の確からしさは、その部位毎に異なるためである。例えばＶＨ法を用いる場合、シルエット画像が表すシルエット領域のうち抽出精度が悪かった領域が、確からしさが低くなる。

フィッティング部３０７は、形状精度算出部３０６が算出した部位毎の確からしさに基づき、初期形状推定部３０４が推定した初期形状に対して、基本形状決定部３０５が決定した基本形状をフィッティングする。初期形状の部位毎の確からしさを反映した形状フィッティングの詳細については後述する。

（三次元モデル生成処理の詳細）
次に、画像処理装置１００における三次元モデル生成処理の詳細について、図４に示すフローチャートを参照して説明する。図４のフローチャートが示す一連の処理は、ＣＰＵ１０１が、所定のプログラムをＨＤＤ１０３から読み込んでメインメモリ１０２に展開し、これをCＰＵ１０１が実行することで実現される。

まず、Ｓ４０１では、映像取得部３０１がＬＡＮ１０８経由でカメラ群１１０に撮影指示を送る。カメラ群１１０の各カメラが撮影して得られた複数視点映像データは、外部Ｉ／Ｆ部１０６とバス１０７を介して取得される。ここでは、図２に示すような、プレーヤー２００とサッカーゴール２０１を被写体とした複数視点映像データが取得されるものとする。

Ｓ４０２では、カメラ校正部３０２が予めカメラキャリブレーションを行って算出したカメラ群１１０を構成する各カメラのカメラパラメータが取得される。

Ｓ４０３では、シルエット画像生成部３０３が、Ｓ４０１にて取得した複数視点映像に映っている各オブジェクトのシルエットを抽出し、オブジェクト単位のシルエット画像を生成する。

Ｓ４０４では、初期形状推定部３０４が、Ｓ４０３にて生成されたシルエット画像とＳ４０２にて取得されたカメラパラメータとに基づき、上述のＶＨ法を用いて各オブジェクトの初期形状としての三次元形状を推定する。

Ｓ４０５では、基本形状決定部４０５が、Ｓ４０４にて推定された初期形状に対して、形状フィッティングを行うか否かを判定し、行う場合には当該初期形状に対して適用する基本形状を決定する。基本形状を決定する方法は複数存在する。

まず一つ目は、撮像画像について機械学習を用いたオブジェクト認識を行い、認識結果（具体的には、認識されたオブジェクトのラベル）に応じて、形状フィッティングの可否及び適用する基本形状を決定する方法である。例えば、プレーヤー２００とサッカーゴール２０１の場合には、それぞれ以下のように判定される。まず、プレーヤー２００については、オブジェクト認識によって“人間”のラベルが付いたオブジェクトに分類される。そして、“人間”のラベルに分類されたオブジェクトについては、基本形状を用いたフィッティングを行わないと決定する。この場合、後述のＳ４０６及びＳ４０７をスキップし、Ｓ４０４にて得られた初期形状のデータを最終的な三次元モデルとして出力する。一方、サッカーゴール２０１については、オブジェクト認識によって“サッカーゴール”のラベルが付いたオブジェクトに分類される。この場合、当該ラベルと紐づけて予め設定した“円柱”をフィッティングに適用する基本形状として決定する。

二つ目の方法として、撮影環境の情報を利用する方法がある。スポーツ競技では、ゴールやフラッグといった構造物についてはその配置がルール上決まっている。そこで、これら構造物が存在すると予め規定されている領域から検出されたオブジェクトに対しては、当該構造物に対応する円柱や四角柱などの形状をフィッティングに適用する基本形状として決定する。

三つ目の方法として、推定された初期形状の断面から基本形状を決定する方法がある。形状フィッティングに適用し得る基本形状の断面は、円形や長方形などで近似できる。そこで、推定された初期形状の断面と基本形状の断面とを比較し、断面の形が一致する形状を、形状フィッティングに適用する基本形状として決定する。ここで挙げた３つの方法は一例でありこれら以外にも方法は存在するが、本発明の主眼ではないため、省略する。本ステップにて形状フィッティング可能と判定され、適用する基本形状が決定したオブジェクトについては、その初期形状の重心などに合わせて、三次元空間上に初期形状が配置される。

Ｓ４０６では、形状精度算出部３０６が、Ｓ４０５にて形状フィッティング可能と判定されたオブジェクトの初期形状について、その部位毎の確からしさを算出する。ここで、初期形状の部位とは、当該形状を構成する点、辺、面などの要素或いは複数の要素同士の集合を指す。本実施形態では、頂点単位で確からしさを算出する例について述べるが、辺や面単位で算出してもよいし、近傍に位置する複数の要素同士をグループ化した要素群単位で形状の確からしさを求めてもよい。初期形状の部位毎にその確からしさを求める処理の詳細については後述する。

そして、Ｓ４０７では、Ｓ４０４にて推定した初期形状に対し、Ｓ４０５にて決定した基本形状を、Ｓ４０６にて算出した部位毎の確からしさに応じて変形させてフィッティングする処理を行って、各オブジェクトの最終的な三次元モデルを生成・出力する。初期形状の部位毎の確からしさに応じて基本形状を変形させてフィッティングする処理の詳細については後述する。

図５は、本実施形態に係る形状フィッティングの結果を、従来手法と比較して示した図である。図５の例では、サッカーゴール２０１について推定された初期形状において、クロスバーに相当する部位の推定精度が悪く、形状が歪んでしまっている。従来手法では、推定された初期形状に沿って、クロスバーに相当する部位の基本形状として決定された円柱がそのまま形状フィッティングされ、結果的に不正確な形状の三次元モデルとなってしまっている。これに対して本手法の場合は、クロスバーに相当する部位の基本形状として円柱が決定されても、当該部位の確からしさに応じて円柱を変形させることで、形状精度の低い初期形状の影響を小さくして形状フィッティングができるため、結果的に高精度な三次元モデルが得られることになる。

以上が、本実施形態に係る、三次元モデル生成処理の大まかな流れである。

（初期形状の確からしさの算出）
推定された初期形状の確からしさを算出する方法はいくつか存在する。以下、第一の方法～第三の方法について、具体例を交えて説明することとする。

≪第一の方法≫
第一の方法として、シルエット画像が示すシルエットの精度に基づき初期形状の確からしさを評価する方法がある。一般にＶＨ法においては、シルエットの精度が高い方が、そこから推定される三次元形状の精度は高くなる。また、シルエット画像を生成する際、元になる撮影画像において鮮明な領域についてはくっきりとしたシルエットが抽出され、ボケている領域に関してはシルエットの抽出精度が低くなる傾向にある。したがって、ｎ×ｎのラプラシアンフィルタを用いて得られる撮影画像のピクセル単位の鮮鋭度を利用して、推定された三次元形状の確からしさを求めることができる。

まず、以下の式（１）を用いて、カメラｋで撮影された撮影画像の位置（ｘ,ｙ）のピクセルにおける鮮鋭度Ｂ（ｋ,ｘ,ｙ）の確からしさＡＣ（ｋ,ｘ,ｙ）を求める。

上記式（１）において、Ｂmin_kは、カメラ番号ｋのカメラによる撮影画像中で最も鮮鋭でない領域の鮮鋭度を表す。ラプラシアンフィルタを用いた場合、鮮鋭度Ｂは、ボケが大きいほど小さな値となり、ボケが小さいほど大きな値となる。したがって、例えば８bitのグレースケール画像に３×３のラプラシアンフィルタを用いた場合、ＡＣ（ｋ,ｘ,ｙ）はボケが大きい領域で“１”に近い値となり、ボケが小さい領域で“１００”を超える大きな値となる。

次に、各撮影画像のピクセル単位で算出された形状の確からしさＡＣ（ｋ,ｘ,ｙ）を、初期形状の各頂点に割り当てる。頂点単位で形状の確からしさを割り当てるために、まず頂点を各カメラの視点に投影し、対応する撮影画像におけるピクセル位置を特定する。以下、詳しく説明する。

まず、前述の内部パラメータと歪みパラメータとに基づき撮影画像の歪み補正を行う。次に、頂点の三次元座標と画像座標との変換行列を求める。変換行列を求める際には、初めに、頂点が存在するワールド座標系をカメラ座標系への変換行列Ｖを定義する。ここで、カメラ座標系は、座標系の原点を始点とし、ｘ軸を画像の水平方向、ｙ軸を画像の垂直方向とし、視線方向をｚ軸の負の方向になるように設定する。さらに、カメラ座標系からスクリーン座標系への変換行列Ｐを定義する。これはカメラ座標系に対して存在する三次元オブジェクトを二次元平面上に対して射影する変換である。三次元空間中の頂点Lの同次座標（ｘ1,ｙ1,ｚ1,ｗ1）の、画像上の点Ｕの同次座標（ｘ2,ｙ2,ｚ2,ｗ2）への射影は、以下の式（２）で表現される。なお、並進変換を加えるため、座標ｗ及びｗ’を追加し、四次元としている。

上記式（２）を用いて各頂点を各視点に投影する。これにより、各頂点に対応する各視点における撮影画像上のピクセル（ｘ,ｙ）を特定することができる。

次に、各頂点Ｌｉに、各撮影画像上のピクセル（ｘ,ｙ）における形状の確からしさＡＣ（ｋ,ｘ,ｙ,Li）を割り当てる。各頂点は複数のカメラそれぞれの画角内（撮像の範囲内）にある。そのため、各頂点には、形状の確からしさの値が複数割り当てられることになる。各頂点にどのような確からしさを設定するかについては、平均値、中間値、最小値、最大値などを用いることができる。例えば、平均値を用いる場合、頂点Ｌｉの確からしさＡＣ（Ｌｉ）は、以下の式（３）で表される。

上記式（３）において、ｍは頂点Ｌｉを撮影しているカメラ台数を表す。例えば(1)のように、鮮鋭度を基に形状の確からしさを算出した場合、上記式（３）によって、カメラ台数が３０台のとき、当該頂点Ｌｉの確からしさＡＣ（Ｌｉ）＝５０といった値が求まる。

このように、各撮影画像の各ピクセルに割り当てられた鮮鋭度の確からしさＡＣ（k,ｘ,ｙ）を、ＶＨ法によって得られた三次元形状の各頂点に割り当てることができる。ここでは、シルエットの確からしさを評価する際の指標として、撮影画像の鮮鋭度（ボケの大きさ）を用いたがこれに限定されず、他の画像特徴量を用いてもよい。例えば、フーリエ変換などを用いて、サッカーゴールのネットのような非常に高周波な成分を持つ領域を抽出し、当該高い周波数成分の領域の形状についてはその確からしさを低く評価するようにしてもよい。

≪第二の方法≫
第二の方法として、オブジェクトを撮影するカメラの数に基づき初期形状の確からしさを評価する方法がある。具体的には、以下の式（４）を用いて、推定された初期形状の各頂点（Ｌｉ）における確からしさＡＣ（Ｌｉ）を求める。

上記式（４）において、ｎは対象オブジェクトを撮影している最大のカメラ数、ｍは注目する頂点Ｌｉを撮影しているカメラ数を表す。この場合において、注目する頂点Ｌｉが何台のカメラで撮影されているかは、上述の式（２）を用いて、注目する頂点が各撮影画像のピクセル範囲内で射影されるかどうかを確認すればよい。例えばある頂点Ｌｉを撮影しているカメラの台数が３０台のとき、当該頂点Ｌｉの確からしさＡＣ（Ｌｉ）は、１/３０刻みの０～１の値となる。

≪第三の方法≫
第三の方法として、オブジェクトを撮影する各カメラの配置（位置情報）を利用する方法がある。例えば、設置されているカメラの仰角が小さい場合、推定される三次元形状は水平方向に伸びたものになる傾向がある。そうした三次元形状（初期形状）に対し決定された基本形状を、対応するフィッティングの位置（例えば、クロスバーの位置）に配置した際にどの程度形状が伸びるのかを求め、求めた値を形状の確からしさとすることができる。図６は、第三の方法を説明する図である。図６に示すように、第三の方法はＳＴＥＰ．１～ＳＴＥＰ．４の４段階に分けられる。以下、図６を参照して、対象オブジェクトがサッカーゴール２０１であるときのクロスバーの位置に対する形状フィッティングを例として詳しく説明する。

＜ＳＴＥＰ．１＞
まず、初期形状のうちクロスバーの位置について決定された基本形状（ここでは円柱）に相当する領域を、各視点に射影してそのシルエットを抽出し、シルエット画像を生成する。

＜ＳＴＥＰ．２＞
次に、ＳＴＥＰ．１で生成した視点毎のシルエット画像に対してＶＨ法を用いて、クロスバー部分の三次元形状を推定する。以下、この段階で得られる、対象オブジェクトの一部について推定した形状を「推定部分形状」と呼ぶこととする。

＜ＳＴＥＰ．３＞
次に、ＳＴＥＰ．２で得られた推定部分形状とそれに対応する基本形状（ここでは円柱）との差分を頂点単位で算出する。この時、推定部分形状の各頂点Ｌｉ_VHに対して、当該形状の確からしさＡＣＶＨ（Ｌｉ_VH）を設定する。このとき、推定部分形状の確からしさＡＣＶＨ（Ｌｉ_VH）は、以下の式（５）で表される。

上記式（５）において、Ｄmax_kは差分の最大値を表し、Ｄｉ_VHは頂点Ｌｉにおける差分を表す。例えばクロスバーの場合、カメラの俯角が比較的小さい場合には、Ｄmax_kは“２００”程度の値となり、カメラの配置状態に依存する推定部分形状の確からしさＡＣＶＨ（Ｌｉ_VH）は“０～１”の値となる。

＜ＳＴＥＰ．４＞
最後に、初期形状の各頂点と推定部分形状の各頂点とを対応付け、推定部分形状における各頂点Ｌｉの確からしさＡＣＶＨ（Ｌｉ_VH）を、初期形状の各頂点Ｌｉの確からしさＡＣ（Ｌｉ）とする。

≪その他≫
以上、画像特徴量やカメラ配置から初期形状の確からしさを算出する方法の例を説明した。上述した方法以外に、その形状推定が困難と予測されるオブジェクト（例えばサッカーゴールのネットなど）に対して、その形状の確からしさを予め低く設定しておく方法もある。例えば、まず、撮影画像中のオブジェクトを機械学習などで認識した後、認識したオブジェクトのラベルに基づき特定される画像領域に対して、予め設定しておいた確からしさＡＣ（ｋ,ｘ,ｙ）を割り当てる。その後、前述の式（２）及び式（３）を用いて、各頂点に対して確からしさＡＣ（Ｌｉ）を割り当てる。これにより、形状推定が困難なオブジェクトについても、その推定された三次元形状の全頂点に対して当該形状の確からしさを割り当てることができる。

また、頂点毎に確からしさを算出する際に、各例に挙げた複数の方法を組み合わせてもよい。

（形状フィッティング処理の詳細）
本実施形態の形状フィッティングでは、初期形状の部位毎の確からしさに応じて、基本形状を変形させてフィッティングする。例えば、基本形状を構成する全頂点Ｍに対して、スケール変換Ｓ、回転変換Ｒ、並進変換Ｔを加えた変換後の頂点Ｍ´は、以下の式（６）で表される。

そして、変換後の頂点Ｍi´と当該頂点Ｍi´の最近傍にある初期形状を構成する頂点Ｌｉnearとの位置の差分の二乗和について、全頂点数Ｑ分の総和を取り、最小にする。この時、初期形状の頂点単位の確からしさに関する重みωＡＣ（Ｌnear）を加え、以下の式（７）で示す値が最小となるように最適化計算を行う。最適化の方法については最急降下法、ガウス・ニュートン法などが存在するが、本発明の主眼ではないため省略する。

上記重みに関しては、形状の確からしさをそのまま用いてもよいし、例えば以下の式（８）に示すように閾値ｔｈを設定し、確からしさが閾値以下の頂点に関してはフィッティングをしないようにしてもよい。

この際の閾値は、形状の確からしさの算出に用いた方法に依って決まる。例えば、前述の第一の方法を用いて（すなわち、画像特徴量に基づいて）形状の確からしさを算出した場合には、ｔｈ＝５０といった閾値を設定すればよい。また、前述の第二の方法を用いて（すなわち、カメラ台数に基づいて）形状の確からしさを算出した場合には、ｔｈ＝１/３といった閾値を設定すればよい。また、前述の第三の方法を用いて（すなわち、カメラ配置に基づいて）形状の確からしさを算出した場合には、ｔｈ＝０．２といった閾値を設定すればよい。

＜変形例＞
上述した実施形態では、初期形状の確からしさを、カメラの配置や画像情報から算出したが、オブジェクトのテクスチャ情報などをさらに考慮してもよい。例えば、図７に示すように、オブジェクトによっては、その表面の一部が金属でできていて当該部分の反射特性が非常に高いことなどがある。こういった場合、その組成によって明らかに初期形状の精度が低くなると見込まれる部位については、予め確からしさを低く設定しておくなどしてもよい。

以上のとおり本実施形態では、まず、大まかに推定した三次元形状（初期形状）に合う基本形状を決定する。次に、初期形状の中でその確からしさが高い部位を抽出する。次に、形状の確からしさが高い部位に整合するように基本形状を変形する。これにより、高精度な三次元モデルを生成することが可能となる。

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像処理装置
３０１映像取得部
３０６形状精度算出部
３０７フィッティング部

Claims

オブジェクトの三次元形状データを生成する画像処理装置であって、
前記オブジェクトの三次元形状を表す初期形状を取得する取得手段と、
取得した前記初期形状の少なくとも一部である部位毎の確からしさを算出する算出手段と、
算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティング手段と、
を備えたことを特徴とする画像処理装置。
前記初期形状に対して適用する前記基本形状を決定する決定手段をさらに備え、
前記フィッティング手段は、前記決定手段が決定した前記基本形状を用いて前記フィッティングを行う、
ことを特徴とする請求項１に記載の画像処理装置。
前記基本形状とは、前記オブジェクトの形状を形成するための単純な形状であることを特徴とする請求項１又は２に記載の画像処理装置。
前記単純な形状は、直方体、球、三角柱、円柱、三角錐、円錐のいずれかを含むことを特徴とする請求項３に記載の画像処理装置。
前記決定手段は、前記オブジェクトが人物に相当する種類のオブジェクトである場合、その初期形状に対して前記基本形状の決定を行わず、
前記フィッティング手段は、前記基本形状が決定されなかった前記初期形状に対して前記フィッティングを行わない、
ことを特徴とする請求項２に記載の画像処理装置。
前記取得手段は、前記オブジェクトを複数の視点から撮影して得られた複数の撮影画像を用いて前記初期形状を取得することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
前記取得手段は、前記複数の撮影画像から前記オブジェクトのシルエットを抽出して得られたシルエット画像を用いる視体積交差法によって前記初期形状を取得することを特徴する請求項６に記載の画像処理装置。
前記算出手段は、前記初期形状を構成する点、辺、面のいずれか一つ以上の要素単位で、或いは、近傍に位置する複数の前記要素同士の集合である要素群単位で、前記部位毎の確からしさ算出する、
ことを特徴とする請求項７に記載の画像処理装置。
前記算出手段は、前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項７又は８に記載の画像処理装置。
前記算出手段は、前記撮影画像の鮮鋭度に基づき算出した前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項９に記載の画像処理装置。
前記算出手段は、前記撮影画像の周波数成分に基づき算出した前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項９に記載の画像処理装置。
前記算出手段は、前記点、辺、面のいずれか一つ以上の要素、或いは、近傍に位置する複数の前記要素同士の集合である要素群が、前記複数の撮影画像のそれぞれに対応する複数の撮像装置のうち何台の撮像装置によって撮像されているかに基づき、前記部位毎の確からしさを算出することを特徴とする請求項８に記載の画像処理装置。
前記算出手段は、前記複数の撮影画像のそれぞれに対応する複数の撮像装置の配置に基づき、前記部位毎の確からしさを算出することを特徴とする請求項８に記載の画像処理装置。
前記決定手段は、撮像画像について機械学習を用いたオブジェクト認識を行い、認識されたオブジェクトのラベルに応じて前記基本形状を決定し、
前記算出手段は、前記ラベルに基づき、前記部位毎の確からしさを算出する、
ことを特徴とする請求項２に記載の画像処理装置。
前記算出手段は、前記オブジェクトの反射特性に基づき、前記部位毎の確からしさを算出することを特徴とする請求項７に記載の画像処理装置。
前記フィッティング手段によって生成された三次元形状データを、仮想視点映像を生成する生成装置へ出力する出力手段をさらに有することを特徴とする請求項１乃至１５のいずれか１項に記載の画像処理装置。
前記フィッティング手段は、前記初期形状のうち前記確からしさが高いところほど前記基本形状を変形する際の重みを大きくし、前記確からしさが低いところほど前記基本形状を変形する際の重みを小さくして、前記フィッティングを行うことを特徴とする請求項１６に記載の画像処理装置。
前記フィッティング手段は、前記算出手段が算出した確からしさが所定の閾値に満たない場合、前記フィッティングを行わないことを特徴とする請求項１６又は１７に記載の画像処理装置。
オブジェクトの三次元形状データを生成する画像処理方法であって、
前記オブジェクトの大まかな三次元形状を表す初期形状を取得する取得ステップと、
取得した前記初期形状の確からしさを算出する算出ステップと、
算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティングステップと、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１８のいずれか１項に記載の画像処理装置として機能させるためのプログラム。