JP7504614B2 - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP7504614B2
JP7504614B2 JP2020024190A JP2020024190A JP7504614B2 JP 7504614 B2 JP7504614 B2 JP 7504614B2 JP 2020024190 A JP2020024190 A JP 2020024190A JP 2020024190 A JP2020024190 A JP 2020024190A JP 7504614 B2 JP7504614 B2 JP 7504614B2
Authority
JP
Japan
Prior art keywords
shape
image processing
likelihood
processing device
fitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020024190A
Other languages
English (en)
Other versions
JP2021128673A (ja
Inventor
知頼 岩尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020024190A priority Critical patent/JP7504614B2/ja
Publication of JP2021128673A publication Critical patent/JP2021128673A/ja
Application granted granted Critical
Publication of JP7504614B2 publication Critical patent/JP7504614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本開示の技術は、オブジェクトの三次元形状データを取得する技術に関する。
VR、AR、ストリートビューイングなどの分野において、オブジェクト(被写体)の高精度な三次元コンピュータグラフィックスモデル(以下、「三次元モデル」と呼ぶ。)を生成する需要がある。一般に、オブジェクトの三次元モデルは、クリエータの手作業によって作成されており、作り込みのために多大な時間を要する。この作業時間を削減するために、現実世界のオブジェクトを撮像した画像から、当該オブジェクトの形状を大まかに推定した後、得られた推定形状を基により精巧な形状に変形・編集するフォトグラメトリという技術が発達してきている。このフォトグラメトリを応用した技術の一つとして、自由視点映像技術があり、スポーツシーンの観戦などの用途に期待されている。この自由視点映像技術では、まず、異なる複数の視点から撮像して得た画像(以下、「複数視点画像」と呼ぶ。)を基に、現実世界のオブジェクトを三次元モデル化する。次に、生成した三次元モデルを上述のフォトグラメトリにより整形・編集する。最後に、整形・編集された三次元モデルに対して、仮想的なカメラの視点位置と視線方向を設定することで、任意の視点から見た映像を得ることができる。
特開2018-63693号公報
上記特許文献1では推定によって得られたオブジェクトの三次元モデルの形状の一部を、円柱や直方体といった基本的な形状(以下、「基本形状」と呼ぶ。)で置換する方法を提案している。しかしながら、その形状が既知の構造物オブジェクトである場合(例えば、サッカーで使用されるゴールポストや、スタジアム内の看板など)は、その形状が既知ではないオブジェクトに比べてより高精度な三次元モデルの生成が要求される。この点、上記特許文献1の方法では、十分な精度の三次元モデルを得ることが困難であった。
本開示の技術は上述の課題に鑑みてなされたものであり、オブジェクトの三次元モデルをより高精度に生成することを目的とする。
本開示に係る画像処理装置は、オブジェクトの三次元形状データを生成する画像処理装置であって、前記オブジェクトの三次元形状を表す初期形状を取得する取得手段と、取得した前記初期形状の少なくとも一部である部位毎の確からしさを算出する算出手段と、算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティング手段と、を備えたことを特徴とする。
本開示の技術によれば、オブジェクトの三次元モデルをより高精度に生成することができる。
仮想視点映像システムの構成の一例を示す図 三次元モデル生成方法の概要を説明する図 画像処理装置のソフトウェア構成を示す図 三次元モデル生成処理の流れを示すフローチャート 実施形態1に係る形状フィッティングの結果を従来手法と比較して示した図 初期形状の確からしさを算出する方法を説明する図 反射率が異なるオブジェクトに関する初期形状の確からしさを示す図
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
[実施形態1]
本実施形態では、円柱や直方体といった基本形状の組み合わせによってオブジェクト(被写体)の三次元モデルを生成する一例として、サッカーゴールの三次元モデルを生成する場合について説明する。当然のことながら本実施形態はサッカーゴール以外のオブジェクトにも適用可能であり、基本形状の組み合わせで表現できる他の構造物の他、建築物や乗り物など様々なオブジェクトの三次元モデルの生成に適用できる。
(システム構成)
図1は、本実施形態における、仮想視点映像システムの構成の一例を示す図である。なお、仮想視点映像とは、エンドユーザ及び/又は選任のオペレータ等が自由に仮想視点(現実には存在しない仮想カメラ)の位置及び姿勢を操作することによって生成される映像であり、自由視点映像や任意視点映像などとも呼ばれる。図1に示す仮想視点映像システムは、画像処理装置100、カメラ群110、仮想視点映像生成装置120を有する。
画像処理装置100は、カメラ群110から映像データを受信する。この映像データは、複数の異なる視点で撮影された映像(以下、「複数視点映像」と呼ぶ)データである。そして、受信した複数視点映像データから、オブジェクトの三次元モデル(三次元形状を表すデータであり、「三次元形状データ」と同義)を生成する。生成された三次元モデルは、仮想視点映像生成装置120に送られる。
カメラ群110は、撮像装置としての複数のデジタルビデオカメラ(以下、単に「カメラ」と表記)で構成される。各カメラは、シリアルデジタルインタフェース(SDI)に代表される映像信号インタフェースを備えており、映像信号インタフェースを介して、各カメラで撮影した映像データを画像処理装置100に出力する。
仮想視点映像生成装置120は、画像処理装置100から受け取った三次元モデルを用いてレンダリング処理を行って、ユーザが指定した仮想視点からの見えを表す仮想視点映像を生成する。本実施形態の三次元モデルは、仮想視点映像空間としての三次元空間上に、オブジェクトの三次元形状を表す要素群としてのボクセル群が配置された状態で、仮想視点映像生成装置120に入力されるものとする。そして、レンダリング処理では、別途入力された仮想視点情報に従って、三次元モデルが表すオブジェクトの三次元形状の表面にテクスチャを貼り付ける処理を行うことで、仮想視点映像を得るものとする。生成された仮想視点映像データは、液晶ディスプレイ等に代表される不図示の表示装置に出力・表示され、ユーザの視聴に供される。
なお、仮想視点情報には、少なくとも仮想視点の位置及び方向に関する情報が含まれる。また、仮想視点の指定には、少なくとも仮想視点の位置及び方向に関する指定が含まれる。また、仮想視点の指定は、ユーザによる指定でなくてもよい。例えば、装置が、自動で指定するような構成であってもよい。システム構成については、上記以外にも、様々な構成要素が存在するが、本発明の主眼ではないので、その説明は省略する。
(画像処理装置のハードウェア構成)
次に、図1を参照して、画像処理装置100のハードウェア構成を説明する。画像処理装置100は、CPU101、メインメモリ102、HDD103、入力部104、表示部105、外部I/F106を備え、各部がバス107を介して接続されている。まず、CPU101は、画像処理装置100を統括的に制御する演算処理装置であり、HDD103等に格納された各種プログラムを実行して、カメラ群110を制御して複数視点映像データを取得したり、後述する様々な画像処理を行う。メインメモリ102は、各種処理で用いるデータやパラメータなどを一時的に格納するほか、CPU101に作業領域を提供する。HDD103は、各種プログラムや入力された映像データなどを記憶する不揮発性の大容量記憶装置であり、例えばSSD等でもよい。入力部104は、キーボードやマウス、電子ペン、タッチパネル等の装置であり、様々なユーザ指示を受け付ける。表示部105は、液晶パネルなどで構成され、UI(ユーザインタフェース)画面の表示などを行う。外部I/F部106は、カメラ群110を構成する各カメラ及び仮想視点映像装置120とネットワーク(ここではLAN108)を介して、複数視点映像データや三次元モデルといった各種データの送受信を行う通信インタフェースである。バス107は上述の各部を接続し、データ転送を行う。なお、仮想視点映像装置120も、画像処理装置100と同様の構成を備え、CPUやメインメモリを用いて上述のレンダリング処理などを行う。
(本実施形態の概要)
図2は、本実施形態に係る、三次元モデル生成方法の概要を説明する図である。本実施形態の手法は、STEP.1~STEP.5の5段階に分けられる。以下、図2を参照しつつ説明する。
<STEP.1>
まず、オブジェクトであるプレーヤー200とサッカーゴール201を取り囲むように複数のカメラを配置して、異なる複数の視点から撮影し、複数視点映像データを取得する。サッカーゴール201は、2本のゴールポストと、1本のクロスバーとからなる。カメラ群110を構成する個々のカメラは、サッカーゴール201とプレーヤー200がその画角内に収まるように、適切なカメラの向き、焦点距離、露出制御パラメータ等が設定されている。
<STEP.2>
次に、複数視点映像データから各オブジェクト(ここでは、プレーヤー200とサッカーゴール201)の大まかな形状を、視体積交差法(ビジュアル・ハルともいう。以下「VH法」と表記)などの手法によって推定する。ここでの推定によって得られた大まかな形状を「初期形状」と呼ぶこととする。
<STEP.3>
次に、推定された各オブジェクトの初期形状について、基本形状の組み合わせで表現できるかどうか(基本形状によるフィッティングの可否)を判定する。ここで基本形状とは、オブジェクトの形状形成に最低限必要となる基本的な形状であって、直方体、球、三角柱、円柱、三角錐、円錐などの単純な形状を指す。図2の例では、プレーヤー200の初期形状については、基本形状によるフィッティングはできないと判定され、サッカーゴール201の初期形状については基本形状によるフィッティングができると判定されることになる。
<STEP.4>
次に、基本形状で表現可能と判定されたオブジェクトの初期形状について、その部位毎の確からしさを算出する。図2の例では、サッカーゴール201の初期形状について算出した部位毎の確からしさを色分けで示しており、クロスバーに相当する横長部分の半分ほどの確からしさが低いことを示す黒色になっている。
<STEP.5>
最後に、オブジェクトの初期形状に対して基本形状をフィッティングする。そして、このフィッティングの際に、確からしさが高い部位を優先して(=確からしさが低い部位の重みを下げて)基本形状を変形することで、オブジェクトの高精度な三次元モデルを得る。
以上が本実施形態に係る、三次元モデル生成方法の大まかな内容である。
(画像処理装置のソフトウェア構成)
図3は、本実施形態における画像処理装置100のソフトウェア構成を示す機能ブロック図である。画像処理装置100は、7つの機能部、すなわち、映像取得部301、カメラ校正部302、シルエット画像生成部303、初期形状推定部304、基本形状決定部305、形状精度算出部306、フィッティング部307を有する。以下、各部の機能について説明する。
映像取得部301は、カメラ群110を制御して、各カメラがそれぞれ撮影を行って得られた複数視点映像データを取得する。
カメラ校正部302は、カメラキャリブレーションを行って、カメラ群110を構成する各カメラについてカメラパラメータを算出する。カメラパラメータには、外部パラメータ、内部パラメータ、歪曲パラメータが含まれる。カメラキャリブレーションは、例えば撮影シーンがサッカーの試合であれば試合開始の直前など、プレーヤーなどのいわゆる動的オブジェクトが存在しないときに実行される。ここでカメラキャリブレーションの手順の一例を簡単に説明しておく。
<カメラキャリブレーションの手順>
・第一に、スクエアグリッド等の平面パターンを各カメラに対応する複数の視点から撮影する。
・第二に、上記撮影によって得られた画像から特徴点を検出し、画像座標系において特徴点の座標を求める。ここで、スクエアグリッドの場合の特徴点は、直線の交点である。
・第三に、求めた特徴点の座標を用いて、各カメラの内部パラメータの初期値を算出する。ここで、内部パラメータとは、焦点距離や、主点と呼ばれる光学的中心を表すパラメータを指す。なお、内部パラメータの初期値は必ずしも画像中の特徴点から算出する必要はなく、カメラの設計値を用いてもよい。
・第四に、バンドル調整と呼ばれる非線形最適化処理によって、内部パラメータ、外部パラメータ、歪曲パラメータを算出する。ここで、外部パラメータとは、カメラの位置・視線方向、視線方向を軸とする回転角を表すパラメータである。また、歪曲パラメータとは、レンズの屈折率の違いによって生じる半径方向の画像の歪みや、レンズとイメージプレーンが平行にならないことによって生じる円周方向の歪みを表す係数である。なお、カメラキャリブレーションの手法は他にも多く存在するが、本発明の主眼でないため詳細は省略する。
シルエット画像生成部303は、入力された複数視点映像のフレーム単位で、各カメラ視点に対応する撮影画像それぞれからオブジェクトのシルエットを抽出し、当該シルエットの領域と非シルエットの領域を2値で表現した画像を生成する。以下、シルエットを2値で表現した画像を「シルエット画像」と呼ぶ。シルエットを抽出する方法としては、背景差分法やフレーム間差分法などがある。例えば背景差分法の場合、オブジェクトが存在しない背景のみの画像を予め撮影しておき、オブジェクトが存在する撮影画像との差分を求め、当該差分の領域をオブジェクトのシルエットとする。なお、シルエット画像は、撮影画像中で形状推定の対象となるオブジェクトの領域だけをマスクしたものであり、「マスク画像」とも呼ばれる。
初期形状推定部304は、上述のシルエット画像とカメラパラメータとに基づいて、オブジェクトの大まかな三次元形状である初期形状を推定する。三次元形状を推定する手法には様々あるが、本実施形態ではVH法を用いるものとする。なお、本実施形態ではVH法を用いて初期形状を生成する例について述べるが、例えばカメラ間の視差を用いてオブジェクトの形状推定を行うステレオマッチング法などを用いてもよい。また、形状を推定する際に必ずしもカメラの撮影画像を用いる必要はない。例えば、レーザを射出してから戻ってくるまでの時間とレーザの速度の関係からオブジェクトまでの距離を求めることで、形状推定を行う方法も存在する。形状推定の方法については他にも多くの方法が存在するが、本発明の主眼ではないため省略する。
基本形状決定部305は、初期形状推定部304が推定した初期形状に対して形状フィッティングが可能かどうかを判定し、さらには、可能と判定された場合に使用する基本形状を決定する。また、初期形状に対して形状フィッティングができないと判定された場合は、推定結果である初期形状を当該オブジェクトについての最終的な処理結果(三次元モデル)として出力する。
形状精度算出部306は、初期形状推定部304が推定した初期形状の確からしさをその部位毎に算出する。初期形状の確からしさは、その部位毎に異なるためである。例えばVH法を用いる場合、シルエット画像が表すシルエット領域のうち抽出精度が悪かった領域が、確からしさが低くなる。
フィッティング部307は、形状精度算出部306が算出した部位毎の確からしさに基づき、初期形状推定部304が推定した初期形状に対して、基本形状決定部305が決定した基本形状をフィッティングする。初期形状の部位毎の確からしさを反映した形状フィッティングの詳細については後述する。
(三次元モデル生成処理の詳細)
次に、画像処理装置100における三次元モデル生成処理の詳細について、図4に示すフローチャートを参照して説明する。図4のフローチャートが示す一連の処理は、CPU101が、所定のプログラムをHDD103から読み込んでメインメモリ102に展開し、これをCPU101が実行することで実現される。
まず、S401では、映像取得部301がLAN108経由でカメラ群110に撮影指示を送る。カメラ群110の各カメラが撮影して得られた複数視点映像データは、外部I/F部106とバス107を介して取得される。ここでは、図2に示すような、プレーヤー200とサッカーゴール201を被写体とした複数視点映像データが取得されるものとする。
S402では、カメラ校正部302が予めカメラキャリブレーションを行って算出したカメラ群110を構成する各カメラのカメラパラメータが取得される。
S403では、シルエット画像生成部303が、S401にて取得した複数視点映像に映っている各オブジェクトのシルエットを抽出し、オブジェクト単位のシルエット画像を生成する。
S404では、初期形状推定部304が、S403にて生成されたシルエット画像とS402にて取得されたカメラパラメータとに基づき、上述のVH法を用いて各オブジェクトの初期形状としての三次元形状を推定する。
S405では、基本形状決定部405が、S404にて推定された初期形状に対して、形状フィッティングを行うか否かを判定し、行う場合には当該初期形状に対して適用する基本形状を決定する。基本形状を決定する方法は複数存在する。
まず一つ目は、撮像画像について機械学習を用いたオブジェクト認識を行い、認識結果(具体的には、認識されたオブジェクトのラベル)に応じて、形状フィッティングの可否及び適用する基本形状を決定する方法である。例えば、プレーヤー200とサッカーゴール201の場合には、それぞれ以下のように判定される。まず、プレーヤー200については、オブジェクト認識によって“人間”のラベルが付いたオブジェクトに分類される。そして、“人間”のラベルに分類されたオブジェクトについては、基本形状を用いたフィッティングを行わないと決定する。この場合、後述のS406及びS407をスキップし、S404にて得られた初期形状のデータを最終的な三次元モデルとして出力する。一方、サッカーゴール201については、オブジェクト認識によって“サッカーゴール”のラベルが付いたオブジェクトに分類される。この場合、当該ラベルと紐づけて予め設定した“円柱”をフィッティングに適用する基本形状として決定する。
二つ目の方法として、撮影環境の情報を利用する方法がある。スポーツ競技では、ゴールやフラッグといった構造物についてはその配置がルール上決まっている。そこで、これら構造物が存在すると予め規定されている領域から検出されたオブジェクトに対しては、当該構造物に対応する円柱や四角柱などの形状をフィッティングに適用する基本形状として決定する。
三つ目の方法として、推定された初期形状の断面から基本形状を決定する方法がある。形状フィッティングに適用し得る基本形状の断面は、円形や長方形などで近似できる。そこで、推定された初期形状の断面と基本形状の断面とを比較し、断面の形が一致する形状を、形状フィッティングに適用する基本形状として決定する。ここで挙げた3つの方法は一例でありこれら以外にも方法は存在するが、本発明の主眼ではないため、省略する。本ステップにて形状フィッティング可能と判定され、適用する基本形状が決定したオブジェクトについては、その初期形状の重心などに合わせて、三次元空間上に初期形状が配置される。
S406では、形状精度算出部306が、S405にて形状フィッティング可能と判定されたオブジェクトの初期形状について、その部位毎の確からしさを算出する。ここで、初期形状の部位とは、当該形状を構成する点、辺、面などの要素或いは複数の要素同士の集合を指す。本実施形態では、頂点単位で確からしさを算出する例について述べるが、辺や面単位で算出してもよいし、近傍に位置する複数の要素同士をグループ化した要素群単位で形状の確からしさを求めてもよい。初期形状の部位毎にその確からしさを求める処理の詳細については後述する。
そして、S407では、S404にて推定した初期形状に対し、S405にて決定した基本形状を、S406にて算出した部位毎の確からしさに応じて変形させてフィッティングする処理を行って、各オブジェクトの最終的な三次元モデルを生成・出力する。初期形状の部位毎の確からしさに応じて基本形状を変形させてフィッティングする処理の詳細については後述する。
図5は、本実施形態に係る形状フィッティングの結果を、従来手法と比較して示した図である。図5の例では、サッカーゴール201について推定された初期形状において、クロスバーに相当する部位の推定精度が悪く、形状が歪んでしまっている。従来手法では、推定された初期形状に沿って、クロスバーに相当する部位の基本形状として決定された円柱がそのまま形状フィッティングされ、結果的に不正確な形状の三次元モデルとなってしまっている。これに対して本手法の場合は、クロスバーに相当する部位の基本形状として円柱が決定されても、当該部位の確からしさに応じて円柱を変形させることで、形状精度の低い初期形状の影響を小さくして形状フィッティングができるため、結果的に高精度な三次元モデルが得られることになる。
以上が、本実施形態に係る、三次元モデル生成処理の大まかな流れである。
(初期形状の確からしさの算出)
推定された初期形状の確からしさを算出する方法はいくつか存在する。以下、第一の方法~第三の方法について、具体例を交えて説明することとする。
≪第一の方法≫
第一の方法として、シルエット画像が示すシルエットの精度に基づき初期形状の確からしさを評価する方法がある。一般にVH法においては、シルエットの精度が高い方が、そこから推定される三次元形状の精度は高くなる。また、シルエット画像を生成する際、元になる撮影画像において鮮明な領域についてはくっきりとしたシルエットが抽出され、ボケている領域に関してはシルエットの抽出精度が低くなる傾向にある。したがって、n×nのラプラシアンフィルタを用いて得られる撮影画像のピクセル単位の鮮鋭度を利用して、推定された三次元形状の確からしさを求めることができる。
まず、以下の式(1)を用いて、カメラkで撮影された撮影画像の位置(x,y)のピクセルにおける鮮鋭度B(k,x,y)の確からしさAC(k,x,y)を求める。
Figure 0007504614000001
上記式(1)において、Bmin_kは、カメラ番号kのカメラによる撮影画像中で最も鮮鋭でない領域の鮮鋭度を表す。ラプラシアンフィルタを用いた場合、鮮鋭度Bは、ボケが大きいほど小さな値となり、ボケが小さいほど大きな値となる。したがって、例えば8bitのグレースケール画像に3×3のラプラシアンフィルタを用いた場合、AC(k,x,y)はボケが大きい領域で“1”に近い値となり、ボケが小さい領域で“100”を超える大きな値となる。
次に、各撮影画像のピクセル単位で算出された形状の確からしさAC(k,x,y)を、初期形状の各頂点に割り当てる。頂点単位で形状の確からしさを割り当てるために、まず頂点を各カメラの視点に投影し、対応する撮影画像におけるピクセル位置を特定する。以下、詳しく説明する。
まず、前述の内部パラメータと歪みパラメータとに基づき撮影画像の歪み補正を行う。次に、頂点の三次元座標と画像座標との変換行列を求める。変換行列を求める際には、初めに、頂点が存在するワールド座標系をカメラ座標系への変換行列Vを定義する。ここで、カメラ座標系は、座標系の原点を始点とし、x軸を画像の水平方向、y軸を画像の垂直方向とし、視線方向をz軸の負の方向になるように設定する。さらに、カメラ座標系からスクリーン座標系への変換行列Pを定義する。これはカメラ座標系に対して存在する三次元オブジェクトを二次元平面上に対して射影する変換である。三次元空間中の頂点Lの同次座標(x1,y1,z1,w1)の、画像上の点Uの同次座標(x2,y2,z2,w2)への射影は、以下の式(2)で表現される。なお、並進変換を加えるため、座標w及びw’を追加し、四次元としている。
Figure 0007504614000002
上記式(2)を用いて各頂点を各視点に投影する。これにより、各頂点に対応する各視点における撮影画像上のピクセル(x,y)を特定することができる。
次に、各頂点Liに、各撮影画像上のピクセル(x,y)における形状の確からしさAC(k,x,y,Li)を割り当てる。各頂点は複数のカメラそれぞれの画角内(撮像の範囲内)にある。そのため、各頂点には、形状の確からしさの値が複数割り当てられることになる。各頂点にどのような確からしさを設定するかについては、平均値、中間値、最小値、最大値などを用いることができる。例えば、平均値を用いる場合、頂点Liの確からしさAC(Li)は、以下の式(3)で表される。
Figure 0007504614000003
上記式(3)において、mは頂点Liを撮影しているカメラ台数を表す。例えば(1)のように、鮮鋭度を基に形状の確からしさを算出した場合、上記式(3)によって、 カメラ台数が30台のとき、当該頂点Liの確からしさAC(Li)=50といった値が求まる。
このように、各撮影画像の各ピクセルに割り当てられた鮮鋭度の確からしさAC(k,x,y)を、VH法によって得られた三次元形状の各頂点に割り当てることができる。ここでは、シルエットの確からしさを評価する際の指標として、撮影画像の鮮鋭度(ボケの大きさ)を用いたがこれに限定されず、他の画像特徴量を用いてもよい。例えば、フーリエ変換などを用いて、サッカーゴールのネットのような非常に高周波な成分を持つ領域を抽出し、当該高い周波数成分の領域の形状についてはその確からしさを低く評価するようにしてもよい。
≪第二の方法≫
第二の方法として、オブジェクトを撮影するカメラの数に基づき初期形状の確からしさを評価する方法がある。具体的には、以下の式(4)を用いて、推定された初期形状の各頂点(Li)における確からしさAC(Li)を求める。
Figure 0007504614000004
上記式(4)において、nは対象オブジェクトを撮影している最大のカメラ数、mは注目する頂点Liを撮影しているカメラ数を表す。この場合において、注目する頂点Liが何台のカメラで撮影されているかは、上述の式(2)を用いて、注目する頂点が各撮影画像のピクセル範囲内で射影されるかどうかを確認すればよい。例えばある頂点Liを撮影しているカメラの台数が30台のとき、当該頂点Liの確からしさAC(Li)は、1/30刻みの0~1の値となる。
≪第三の方法≫
第三の方法として、オブジェクトを撮影する各カメラの配置(位置情報)を利用する方法がある。例えば、設置されているカメラの仰角が小さい場合、推定される三次元形状は水平方向に伸びたものになる傾向がある。そうした三次元形状(初期形状)に対し決定された基本形状を、対応するフィッティングの位置(例えば、クロスバーの位置)に配置した際にどの程度形状が伸びるのかを求め、求めた値を形状の確からしさとすることができる。図6は、第三の方法を説明する図である。図6に示すように、第三の方法はSTEP.1~STEP.4の4段階に分けられる。以下、図6を参照して、対象オブジェクトがサッカーゴール201であるときのクロスバーの位置に対する形状フィッティングを例として詳しく説明する。
<STEP.1>
まず、初期形状のうちクロスバーの位置について決定された基本形状(ここでは円柱)に相当する領域を、各視点に射影してそのシルエットを抽出し、シルエット画像を生成する。
<STEP.2>
次に、STEP.1で生成した視点毎のシルエット画像に対してVH法を用いて、クロスバー部分の三次元形状を推定する。以下、この段階で得られる、対象オブジェクトの一部について推定した形状を「推定部分形状」と呼ぶこととする。
<STEP.3>
次に、STEP.2で得られた推定部分形状とそれに対応する基本形状(ここでは円柱)との差分を頂点単位で算出する。この時、推定部分形状の各頂点LiVHに対して、当該形状の確からしさACVH(LiVH)を設定する。このとき、推定部分形状の確からしさACVH(LiVH)は、以下の式(5)で表される。
Figure 0007504614000005
上記式(5)において、Dmax_kは差分の最大値を表し、DiVHは頂点Liにおける差分を表す。例えばクロスバーの場合、カメラの俯角が比較的小さい場合には、Dmax_kは“200”程度の値となり、カメラの配置状態に依存する推定部分形状の確からしさACVH(LiVH)は“0~1”の値となる。
<STEP.4>
最後に、初期形状の各頂点と推定部分形状の各頂点とを対応付け、推定部分形状における各頂点Liの確からしさACVH(LiVH)を、初期形状の各頂点Liの確からしさAC(Li)とする。
≪その他≫
以上、画像特徴量やカメラ配置から初期形状の確からしさを算出する方法の例を説明した。上述した方法以外に、その形状推定が困難と予測されるオブジェクト(例えばサッカーゴールのネットなど)に対して、その形状の確からしさを予め低く設定しておく方法もある。例えば、まず、撮影画像中のオブジェクトを機械学習などで認識した後、認識したオブジェクトのラベルに基づき特定される画像領域に対して、予め設定しておいた確からしさAC(k,x,y)を割り当てる。その後、前述の式(2)及び式(3)を用いて、各頂点に対して確からしさAC(Li)を割り当てる。これにより、形状推定が困難なオブジェクトについても、その推定された三次元形状の全頂点に対して当該形状の確からしさを割り当てることができる。
また、頂点毎に確からしさを算出する際に、各例に挙げた複数の方法を組み合わせてもよい。
(形状フィッティング処理の詳細)
本実施形態の形状フィッティングでは、初期形状の部位毎の確からしさに応じて、基本形状を変形させてフィッティングする。例えば、基本形状を構成する全頂点Mに対して、スケール変換S、回転変換R、並進変換Tを加えた変換後の頂点M´は、以下の式(6)で表される。
Figure 0007504614000006
そして、変換後の頂点Mi´と当該頂点Mi´の最近傍にある初期形状を構成する頂点Linearとの位置の差分の二乗和について、全頂点数Q分の総和を取り、最小にする。この時、初期形状の頂点単位の確からしさに関する重みωAC(Lnear)を加え、以下の式(7)で示す値が最小となるように最適化計算を行う。最適化の方法については最急降下法、ガウス・ニュートン法などが存在するが、本発明の主眼ではないため省略する。
Figure 0007504614000007
上記重みに関しては、形状の確からしさをそのまま用いてもよいし、例えば以下の式(8)に示すように閾値thを設定し、確からしさが閾値以下の頂点に関してはフィッティングをしないようにしてもよい。
Figure 0007504614000008
この際の閾値は、形状の確からしさの算出に用いた方法に依って決まる。例えば、前述の第一の方法を用いて(すなわち、画像特徴量に基づいて)形状の確からしさを算出した場合には、th=50といった閾値を設定すればよい。また、前述の第二の方法を用いて(すなわち、カメラ台数に基づいて)形状の確からしさを算出した場合には、th=1/3といった閾値を設定すればよい。また、前述の第三の方法を用いて(すなわち、カメラ配置に基づいて)形状の確からしさを算出した場合には、th=0.2といった閾値を設定すればよい。
<変形例>
上述した実施形態では、初期形状の確からしさを、カメラの配置や画像情報から算出したが、オブジェクトのテクスチャ情報などをさらに考慮してもよい。例えば、図7に示すように、オブジェクトによっては、その表面の一部が金属でできていて当該部分の反射特性が非常に高いことなどがある。こういった場合、その組成によって明らかに初期形状の精度が低くなると見込まれる部位については、予め確からしさを低く設定しておくなどしてもよい。
以上のとおり本実施形態では、まず、大まかに推定した三次元形状(初期形状)に合う基本形状を決定する。次に、初期形状の中でその確からしさが高い部位を抽出する。次に、形状の確からしさが高い部位に整合するように基本形状を変形する。これにより、高精度な三次元モデルを生成することが可能となる。
(その他の実施形態)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 画像処理装置
301 映像取得部
306 形状精度算出部
307 フィッティング部

Claims (20)

  1. オブジェクトの三次元形状データを生成する画像処理装置であって、
    前記オブジェクトの三次元形状を表す初期形状を取得する取得手段と、
    取得した前記初期形状の少なくとも一部である部位毎の確からしさを算出する算出手段と、
    算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティング手段と、
    を備えたことを特徴とする画像処理装置。
  2. 前記初期形状に対して適用する前記基本形状を決定する決定手段をさらに備え、
    前記フィッティング手段は、前記決定手段が決定した前記基本形状を用いて前記フィッティングを行う、
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記基本形状とは、前記オブジェクトの形状を形成するための単純な形状であることを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記単純な形状は、直方体、球、三角柱、円柱、三角錐、円錐のいずれかを含むことを特徴とする請求項3に記載の画像処理装置。
  5. 前記決定手段は、前記オブジェクトが人物に相当する種類のオブジェクトである場合、その初期形状に対して前記基本形状の決定を行わず、
    前記フィッティング手段は、前記基本形状が決定されなかった前記初期形状に対して前記フィッティングを行わない、
    ことを特徴とする請求項に記載の画像処理装置。
  6. 前記取得手段は、前記オブジェクトを複数の視点から撮影して得られた複数の撮影画像を用いて前記初期形状を取得することを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
  7. 前記取得手段は、前記複数の撮影画像から前記オブジェクトのシルエットを抽出して得られたシルエット画像を用いる視体積交差法によって前記初期形状を取得することを特徴する請求項6に記載の画像処理装置。
  8. 前記算出手段は、前記初期形状を構成する点、辺、面のいずれか一つ以上の要素単位で、或いは、近傍に位置する複数の前記要素同士の集合である要素群単位で、前記部位毎の確からしさ算出する、
    ことを特徴とする請求項7に記載の画像処理装置。
  9. 前記算出手段は、前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項7又は8に記載の画像処理装置。
  10. 前記算出手段は、前記撮影画像の鮮鋭度に基づき算出した前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項9に記載の画像処理装置。
  11. 前記算出手段は、前記撮影画像の周波数成分に基づき算出した前記シルエットの精度に基づき、前記部位毎の確からしさを算出することを特徴とする請求項9に記載の画像処理装置。
  12. 前記算出手段は、前記点、辺、面のいずれか一つ以上の要素、或いは、近傍に位置する複数の前記要素同士の集合である要素群が、前記複数の撮影画像のそれぞれに対応する複数の撮像装置のうち何台の撮像装置によって撮像されているかに基づき、前記部位毎の確からしさを算出することを特徴とする請求項8に記載の画像処理装置。
  13. 前記算出手段は、前記複数の撮影画像のそれぞれに対応する複数の撮像装置の配置に基づき、前記部位毎の確からしさを算出することを特徴とする請求項8に記載の画像処理装置。
  14. 前記決定手段は、撮像画像について機械学習を用いたオブジェクト認識を行い、認識されたオブジェクトのラベルに応じて前記基本形状を決定し、
    前記算出手段は、前記ラベルに基づき、前記部位毎の確からしさを算出する、
    ことを特徴とする請求項に記載の画像処理装置。
  15. 前記算出手段は、前記オブジェクトの反射特性に基づき、前記部位毎の確からしさを算出することを特徴とする請求項7に記載の画像処理装置。
  16. 前記フィッティング手段によって生成された三次元形状データを、仮想視点映像を生成する生成装置へ出力する出力手段をさらに有することを特徴とする請求項1乃至15のいずれか1項に記載の画像処理装置。
  17. 前記フィッティング手段は、前記初期形状のうち前記確からしさが高いところほど前記基本形状を変形する際の重みを大きくし、前記確からしさが低いところほど前記基本形状を変形する際の重みを小さくして、前記フィッティングを行うことを特徴とする請求項16に記載の画像処理装置。
  18. 前記フィッティング手段は、前記算出手段が算出した確からしさが所定の閾値に満たない場合、前記フィッティングを行わないことを特徴とする請求項16又は17に記載の画像処理装置。
  19. オブジェクトの三次元形状データを生成する画像処理方法であって、
    前記オブジェクトの大まかな三次元形状を表す初期形状を取得する取得ステップと、
    取得した前記初期形状の確からしさを算出する算出ステップと、
    算出した確からしさに基づき、前記初期形状に対して基本形状を変形させてフィッティングするフィッティングステップと、
    を含むことを特徴とする画像処理方法。
  20. コンピュータを、請求項1乃至18のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2020024190A 2020-02-17 画像処理装置、画像処理方法及びプログラム Active JP7504614B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020024190A JP7504614B2 (ja) 2020-02-17 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020024190A JP7504614B2 (ja) 2020-02-17 画像処理装置、画像処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021128673A JP2021128673A (ja) 2021-09-02
JP7504614B2 true JP7504614B2 (ja) 2024-06-24

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259855A (ja) 1999-03-08 2000-09-22 Fujitsu Ltd 三次元cgモデル作成装置および処理プログラムを記録した記録媒体
JP2017191576A (ja) 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2020004219A (ja) 2018-06-29 2020-01-09 キヤノン株式会社 3次元形状データを生成する装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259855A (ja) 1999-03-08 2000-09-22 Fujitsu Ltd 三次元cgモデル作成装置および処理プログラムを記録した記録媒体
JP2017191576A (ja) 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2020004219A (ja) 2018-06-29 2020-01-09 キヤノン株式会社 3次元形状データを生成する装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP6425780B1 (ja) 画像処理システム、画像処理装置、画像処理方法及びプログラム
CN112444242B (zh) 一种位姿优化方法及装置
US6717586B2 (en) Apparatus, method, program code, and storage medium for image processing
WO2019035155A1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP6464938B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2006053694A (ja) 空間シミュレータ、空間シミュレート方法、空間シミュレートプログラム、記録媒体
JP6515039B2 (ja) 連続的な撮影画像に映り込む平面物体の法線ベクトルを算出するプログラム、装置及び方法
CN108629829A (zh) 一种球幕相机与深度相机结合的三维建模方法和***
JP7027049B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113686314B (zh) 船载摄像头的单目水面目标分割及单目测距方法
CN113689578A (zh) 一种人体数据集生成方法及装置
JP2001067463A (ja) 異なる視点からの複数のフェイシャル画像に基づき新たな視点からのフェイシャル画像を生成するフェイシャル画像生成装置及び方法並びにその応用装置及び記録媒体
CN110378995A (zh) 一种利用投射特征进行三维空间建模的方法
CN113643414A (zh) 一种三维图像生成方法、装置、电子设备及存储介质
CN113706373A (zh) 模型重建方法及相关装置、电子设备和存储介质
JP7013144B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6552256B2 (ja) 画像処理装置及び画像処理装置の制御方法
CN112465911A (zh) 图像处理方法及装置
CN112927251A (zh) 基于形态学的场景稠密深度图获取方法、***及装置
CN113763544A (zh) 图像确定方法、装置、电子设备和计算机可读存储介质
JP2022516298A (ja) 対象物を3d再構築するための方法
CN117058183A (zh) 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质
JP2021128592A (ja) 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
JP7504614B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113256811B (zh) 建筑物建模方法、设备和计算机可读存储介质