JP2024010527A - Feature map generation apparatus, feature map generation method, and program - Google Patents
Feature map generation apparatus, feature map generation method, and program Download PDFInfo
- Publication number
- JP2024010527A JP2024010527A JP2022111908A JP2022111908A JP2024010527A JP 2024010527 A JP2024010527 A JP 2024010527A JP 2022111908 A JP2022111908 A JP 2022111908A JP 2022111908 A JP2022111908 A JP 2022111908A JP 2024010527 A JP2024010527 A JP 2024010527A
- Authority
- JP
- Japan
- Prior art keywords
- kernel
- viewpoint image
- image
- feature map
- target viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 154
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 70
- 230000009466 transformation Effects 0.000 claims description 65
- 238000011426 transformation method Methods 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 21
- 230000001131 transforming effect Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 230000003287 optical effect Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- NEDVJZNVOSNSHF-ZNHDNBJUSA-N [(1r,5s)-8,8-dimethyl-8-azoniabicyclo[3.2.1]octan-3-yl] 3-hydroxy-2-phenylpropanoate;nitrate Chemical compound [O-][N+]([O-])=O.C([C@H]1CC[C@@H](C2)[N+]1(C)C)C2OC(=O)C(CO)C1=CC=CC=C1 NEDVJZNVOSNSHF-ZNHDNBJUSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、特徴マップ生成装置、特徴マップ生成方法、及びプログラムに関する。 The present invention relates to a feature map generation device, a feature map generation method, and a program.
対象物体が異なる視点から撮像された複数の視点画像(以下、「多視点画像」と称する場合がある)に基づき、対象物体の三次元形状モデルを生成する多視点ステレオ技術がある。多視点ステレオ技術は、コンピュータビジョンの研究コミュニティだけでなく、文化財のデジタルアーカイブやエンターテイメント産業など、幅広い分野で注目されている。 There is a multi-view stereo technique that generates a three-dimensional shape model of a target object based on a plurality of viewpoint images (hereinafter sometimes referred to as "multi-view images") of the target object taken from different viewpoints. Multi-view stereo technology is attracting attention not only in the computer vision research community but also in a wide range of fields such as digital archives of cultural assets and the entertainment industry.
例えば、非特許文献1には、深層学習に基づく多視点ステレオ技術が開示されている。深層学習に基づく多視点ステレオでは、特性の異なる様々な対象物体が撮影された多視点画像を含む多視点画像データセットを用いて深層学習ネットワークを学習させた学習済ネットワークを生成し、生成した学習済みネットワークを用いて新たな多視点画像から対象の三次元形状を復元する。このとき、学習用のデータセットに、多視点ステレオにて復元が難しいとされる、低テクスチャを有する対象物体や反射が強い対象物体の多視点画像を含めることによって、低テクスチャ領域や反射に対して高いロバスト性を発揮する学習済ネットワークを構築することが可能となる。
For example, Non-Patent
図9に示すように、一般に、深層学習に基づく多視点ステレオ技術に用いられる学習済ネットワークNWは、特徴マップ生成ネットワークNW1、コストボリューム構築ネットワークNW2、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4の4つのネットワークの組み合わせにより構築される。 As shown in FIG. 9, the trained networks NW used in multi-view stereo technology based on deep learning generally include a feature map generation network NW1, a cost volume construction network NW2, a cost volume regularization network NW3, and a depth map generation network. It is constructed by a combination of four networks of NW4.
ここでの学習済ネットワークNWの入力は、参照視点画像及び近傍視点画像群からなる多視点画像群と、各多視点画像におけるそれぞれのカメラパラメータである。学習済ネットワークNWの出力は、参照視点画像におけるデプスマップである。 The inputs of the trained network NW here are a multi-view image group consisting of a reference viewpoint image and a neighboring viewpoint image group, and respective camera parameters in each multi-view image. The output of the learned network NW is a depth map in the reference viewpoint image.
特徴マップ生成ネットワークNW1では、入力される多視点画像における画素ごとの特徴量を示す特徴マップが生成される。特徴マップを生成する過程においては、多視点画像に畳込演算を行うことによって画素ごとの特徴量が抽出される。このとき、多視点画像間の対応点では、特徴マップにおける特徴量が近い値となることが期待される。 The feature map generation network NW1 generates a feature map indicating the feature amount for each pixel in the input multi-view image. In the process of generating a feature map, a feature quantity for each pixel is extracted by performing a convolution operation on a multi-view image. At this time, it is expected that the feature amounts in the feature map will have similar values at corresponding points between the multi-view images.
コストボリューム構築ネットワークNW2では、多視点画像における各画像の特徴マップを用いて、離散的な奥行きを有する平面であって、参照視点画像に正対した複数の平面からなるコストボリュームが構築される。例えば、コストボリュームは、ボクセルで表現され、ボクセルの各値は、多視点の特徴マップの対応点における特徴量間の分散や相関である。 The cost volume construction network NW2 uses the feature map of each image in the multi-view image to construct a cost volume consisting of a plurality of planes having discrete depths and directly facing the reference viewpoint image. For example, the cost volume is expressed by voxels, and each voxel value is the variance or correlation between feature amounts at corresponding points in a multi-view feature map.
コストボリューム正則化ネットワークNW3では、三次元畳み込み層を通して、コストボリュームが正則化される。デプスマップ生成ネットワークNW4では、参照視点画像の各ピクセルについて、参照視点画像におけるコストボリュームに対応する奥行きの中から最適なコストの奥行きが選択されることによってデプスマップが生成される。例えば、特徴量間の分散に基づくコストを使用する場合、コスト、つまり分散が最小となる奥行きが最適なコストの奥行きとなる。一方、特徴量間の相関に基づくコストを使用する場合、コスト、つまり相関が最大となる奥行きが最適なコストの奥行きとなる。 In the cost volume regularization network NW3, the cost volume is regularized through a three-dimensional convolution layer. In the depth map generation network NW4, a depth map is generated for each pixel of the reference viewpoint image by selecting the optimal cost depth from among the depths corresponding to the cost volume in the reference viewpoint image. For example, when using a cost based on the variance between feature quantities, the depth at which the cost, that is, the variance is the minimum, is the optimal cost depth. On the other hand, when using a cost based on the correlation between feature quantities, the depth at which the cost, that is, the correlation is maximum, is the optimal cost depth.
しかしながら、深層学習に基づく多視点ステレオ技術を用いて、特徴マップを生成する場合、多視点画像間における画像変形の影響を強く受ける。これは、特徴マップを生成する過程において畳込演算が実行されるためである。畳込演算では、多視点画像における対象画素の画素値と、その周囲にある画素の画素値のそれぞれに、畳み込み係数を乗算した値を合成することによって演算が行われる。このため、画像に平行移動が生じた場合、対象画素とその周囲にある画素の組合せが、平行移動する前と変化しないことから、各画素における畳込演算の演算結果は変わらない。一方、画像に回転、拡大縮小、射影変換などの平行移動以外の画像変形が生じた場合、対象画素及びその周囲にある画素の組合せが、変形前とは異なる組合せとなることから各画素における畳込演算の演算結果が変化する。 However, when a feature map is generated using a multi-view stereo technique based on deep learning, it is strongly affected by image deformation between multi-view images. This is because a convolution operation is performed in the process of generating a feature map. In the convolution operation, the operation is performed by combining the pixel value of the target pixel in the multi-view image and the pixel values of the surrounding pixels, respectively, multiplied by a convolution coefficient. Therefore, when a parallel shift occurs in an image, the combination of the target pixel and its surrounding pixels remains unchanged from before the parallel shift, so the result of the convolution operation for each pixel remains unchanged. On the other hand, when an image is deformed other than parallel movement, such as rotation, scaling, or projective transformation, the combination of the target pixel and its surrounding pixels becomes a different combination than before the deformation. The calculation result of the inclusive operation changes.
多視点画像は、同じ対象物体が互いに異なる複数の視点から撮像された画像である。このため、多視点画像間には、多視点画像における各視点の位置や姿勢、および、対象の形状に依存した、複雑な画像変形が生じる。基線長が短い平行ステレオの場合、視点間の画像変形が比較的小さいため、視点が変わっても、特徴マップ生成で計算される特徴マップの対応点の特徴量は大きく変化しない。しかし、基線長が長いステレオペアや、視点間に回転が生じると、画像間の変形が平行移動のみで近似することができなくなるため、生成される特徴マップの対応点の特徴量が、視点ごとに変化する。 A multi-view image is an image in which the same target object is imaged from a plurality of different viewpoints. Therefore, complex image deformation occurs between multi-view images depending on the position and orientation of each viewpoint in the multi-view images and the shape of the object. In the case of parallel stereo with a short baseline length, image deformation between viewpoints is relatively small, so even if the viewpoint changes, the feature amounts of corresponding points in the feature map calculated in feature map generation do not change significantly. However, in the case of a stereo pair with a long baseline length or rotation between viewpoints, the deformation between images cannot be approximated only by parallel movement, so the feature values of corresponding points in the generated feature map are Changes to
一方、深層学習に基づく多視点ステレオでは、参照視点画像における各ピクセルについて、真の奥行きが仮定された場合に、多視点画像間における対応点の特徴量が近くなることを想定している。そのため、参照視点画像に対して、基線長が長い近傍視点画像や、視点間に回転が存在する近傍視点画像のように、参照視点画像に対して画像変形が大きい近傍視点画像が含まれる場合、三次元復元精度が著しく低下する。したがって、画像間における画像変形が大きい多視点画像を用いた場合、高精度な三次元復元が可能な特徴マップを生成することが困難であった。 On the other hand, multi-view stereo based on deep learning assumes that when the true depth of each pixel in a reference viewpoint image is assumed, the feature amounts of corresponding points between multi-view images become close. Therefore, when there are neighboring viewpoint images that have a large image deformation with respect to the reference viewpoint image, such as a neighboring viewpoint image with a long baseline length or a neighboring viewpoint image with rotation between viewpoints, Three-dimensional reconstruction accuracy is significantly reduced. Therefore, when using multi-view images with large image deformations between images, it is difficult to generate a feature map that allows highly accurate three-dimensional reconstruction.
本発明は、上記の課題に基づいてなされたものであり、画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる特徴マップ生成装置、特徴マップ生成方法、及びプログラムを提供することを目的とする。 The present invention has been made based on the above-mentioned problems, and has the feature that it is possible to generate a feature map that allows highly accurate three-dimensional reconstruction even when using multi-view images with large image deformations. The present invention aims to provide a map generation device, a feature map generation method, and a program.
本発明の特徴マップ生成装置は、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置であって、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、を備える。 A feature map generation device of the present invention is a feature map generation device that generates a feature map in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints, and the feature map generation device generates a feature map in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints, Using a three-dimensional coordinate, a normal direction, and a first camera parameter, which is a camera parameter corresponding to the first target viewpoint image, for the target viewpoint image, specific coordinates in the kernel are set in the first target viewpoint image. a kernel deformation method determination unit that determines a first deformation method that is a deformation method of the kernel corresponding to the first target viewpoint image, and a reference kernel that is a reference, so that the kernel is transformed into the coordinates of the corresponding point; a kernel transformation unit that generates a first transformed kernel, which is a kernel used in a convolution operation on the first target viewpoint image, by transforming it using a transformation method; A convolution operation that extracts feature amounts in the first target viewpoint image by performing a convolution operation on the target viewpoint image, and generates a first feature map corresponding to the first target viewpoint image using the extracted feature amounts. It is equipped with a section and a section.
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、前記多視点画像に含まれる第2対象視点画像であって、前記第1対象視点画像とは異なる第2対象視点画像に対応するカメラパラメータである第2カメラパラメータを取得し、前記三次元座標、前記法線方向、前記第1カメラパラメータ及び前記第2カメラパラメータを用いて、前記第2対象視点画像における対応点の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1変形方法を決定する。 In the feature map generation device of the present invention, the kernel deformation method determining unit is configured to select a second target viewpoint image that is included in the multi-view image and that corresponds to a second target viewpoint image that is different from the first target viewpoint image. Obtain a second camera parameter that is a camera parameter, and use the three-dimensional coordinates, the normal direction, the first camera parameter, and the second camera parameter to determine the coordinates of the corresponding point in the second target viewpoint image. The first transformation method is determined so that the coordinates of the corresponding points in the first target viewpoint image are transformed.
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定し、前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する。 In the feature map generation device of the present invention, the kernel deformation method determining unit determines a kernel deformation method for each combination of three-dimensional coordinates, normal direction, and camera parameters, and the kernel deformation unit The first transformed kernel corresponding to each of the combinations is generated by transforming the reference kernel using the transformation method determined for each of the combinations.
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、前記第1対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、前記第1対象視点画像のピクセル毎に前記第1変形方法を決定し、前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する。 In the feature map generation device of the present invention, the kernel deformation method determining unit uses at least one of the three-dimensional coordinates or the normal direction set for each pixel of the first target viewpoint image to transform the first target viewpoint image. The first deformation method is determined for each pixel, and the kernel deformation unit converts the reference kernel into the first deformation method determined for each pixel of the first target viewpoint image, and the first deformation method determined for each pixel of the first target viewpoint image. The first transformed kernel corresponding to each pixel of the first target viewpoint image is generated by transforming the first target viewpoint image using a transformation method, and the convolution calculation unit generates the first transformed kernel for each pixel of the first target viewpoint image. The first feature map is generated by performing a convolution operation on each pixel in the first target viewpoint image using the generated first transformed kernel.
本発明の特徴マップ生成装置では、前記カーネル変形部は、前記基準カーネルを、前記第1変形方法を用いて変形したカーネルを第1仮変形後カーネルとし、前記第1仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記第1変形後カーネルを生成する。 In the feature map generation device of the present invention, the kernel transformation unit defines a kernel obtained by transforming the reference kernel using the first transformation method as a first temporary transformation kernel, and sets the kernel as a first temporary transformation kernel. The first transformed kernel is generated by performing an interpolation process using coordinates arranged in a square grid.
本発明の特徴マップ生成装置では、前記カーネル変形方法決定部は、互いに異なる複数の法線方向の各々に対応する前記第1変形方法を決定し、前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する。 In the feature map generation device of the present invention, the kernel deformation method determining unit determines the first deformation method corresponding to each of a plurality of mutually different normal directions, and the kernel deformation unit converts the reference kernel into the first deformation method. The first deformed kernel corresponding to each of the normal directions is generated by deforming using the first deformation method determined for each of the normal directions, and the convolution calculation unit: The first feature corresponding to each of the normal directions is obtained by performing a convolution operation on the first target viewpoint image using the first transformed kernel generated for each of the normal directions. Generate a map.
本発明の特徴マップ生成装置では、複数の前記特徴マップにおける対応点からコスト値を計算するコスト値計算部を更に備え、前記コスト値計算部は、前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が類似する前記仮コスト値を、前記コスト値とする。 The feature map generation device of the present invention further includes a cost value calculation unit that calculates a cost value from corresponding points in the plurality of feature maps, and the cost value calculation unit includes the first A provisional cost value is calculated based on the degree to which the feature amounts of the corresponding points are similar, which is calculated from the feature amounts of each of the corresponding points in the feature map, and the temporary cost is calculated corresponding to each of the normal directions. Among the values, the provisional cost value having similar feature amounts of the corresponding points is set as the cost value.
本発明の特徴マップ生成方法は、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置が行う特徴マップ生成方法であって、カーネル変形方法決定部が、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定し、カーネル変形部が、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成し、畳込演算部が、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する。 The feature map generation method of the present invention is a feature map generation method performed by a feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints, and includes a kernel deformation method. The determining unit determines a kernel for a first target viewpoint image included in the multi-view image using three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. A first deformation method, which is a method of deforming a kernel corresponding to the first target viewpoint image, is determined so that specific coordinates in the first target viewpoint image are transformed into coordinates of a corresponding point in the first target viewpoint image, and a kernel transformation unit By transforming the reference kernel, which is a reference, using the first transformation method, a first transformed kernel, which is a kernel used in the convolution operation on the first target viewpoint image, is generated, and the convolution operation unit However, by performing a convolution operation on the first target viewpoint image using the first transformed kernel, a feature amount in the first target viewpoint image is extracted, and the extracted feature amount is used to perform a convolution operation on the first target viewpoint image. A first feature map corresponding to the image is generated.
本発明のプログラムは、対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置に、特徴マップを生成させるプログラムであって、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定させ、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成させ、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成させる、プログラムである。 The program of the present invention is a program that causes a feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints to generate a feature map, and the program causes a feature map to be generated in the multi-view images. For the first target viewpoint image included in the first target viewpoint image, specific coordinates in the kernel are determined by using three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. A first transformation method, which is a transformation method of the kernel corresponding to the first target viewpoint image, is determined so that the kernel is transformed into the coordinates of the corresponding point in the first target viewpoint image, and the reference kernel serving as a reference is transformed into the first transformation method. A first transformed kernel, which is a kernel used in a convolution operation on the first target viewpoint image, is generated by transforming the first target viewpoint image using a method, and the first transformed kernel is used to perform a convolution operation on the first target viewpoint image. The program extracts a feature amount in the first target viewpoint image by performing an inclusive calculation, and generates a first feature map corresponding to the first target viewpoint image using the extracted feature amount.
本発明によれば、画像間における画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる。 According to the present invention, even when using multi-view images with large image deformations between images, it is possible to generate a feature map that allows highly accurate three-dimensional restoration.
以下、実施形態の特徴マップ生成装置1を、図面を参照しながら説明する。
Hereinafter, a feature
図1は、本実施形態に係る特徴マップ生成装置1の構成の一例を示すブロック図である。図1に示すように、特徴マップ生成装置1は、例えば、カーネル変形方法決定部100、カーネル変形部101、畳込演算部102、コスト値計算部103、コストボリューム正則化部104、デプスマップ生成部105、三次元点群生成部106、多視点画像記憶部107、特徴マップ記憶部108、三次元情報記憶部109、基準カーネル記憶部110、変形後カーネル記憶部111、コストボリューム記憶部112、デプスマップ記憶部113、及び三次元点群記憶部114を備える。
FIG. 1 is a block diagram showing an example of the configuration of a feature
カーネル変形方法決定部100は、カーネルを変形させる変形方法を決定する。ここでのカーネルは、二次元画像座標に畳み込み係数を対応させた配列である(例えば、(5)式を参照)。カーネルは、画像における各画素と畳込演算を行う際に用いられる。
The kernel deformation
ここで、図2、図3を用いて、カーネル変形方法決定部100がカーネルの変形方法を決定する処理ついて説明する。図2及び図3は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
Here, the process by which the kernel transformation
図2には、対象物体(Target Object)が、互いに異なる視点(View1~View3)から撮像される例が模式的に示されている。視点View1におけるカメラパラメータを{K1、R1、t1}とする。視点View2のカメラパラメータを{K2、R2、t2}とする。視点View3のカメラパラメータを{K3、R3、t3}とする。なお、Kはカメラパラメータにおける内部パラメータを表す。Rはカメラパラメータにおける回転行列を表す。tはカメラパラメータにおける並進ベクトルを表す。
FIG. 2 schematically shows an example in which a target object is imaged from different viewpoints (
また、対象物体において、対象物体の表面にある三次元座標Mと法線方向nの組{M、n}を定義することができる。 Further, in the target object, a set {M, n} of three-dimensional coordinates M and normal direction n on the surface of the target object can be defined.
図2に示すように、多視点画像におけるカメラの撮像位置及び姿勢により、対象物体の見え方が変わる。例えば、視点View1にて対象物体を撮像した場合、対象物体を正面からみた画像が撮像される。視点View2にて対象物体を撮像した場合、視点View1に対し、上下左右が逆であり、且つ拡大された画像が撮像される。視点View3にて対象物体を撮像した場合、対象物体を斜めの方向から見た画像が撮像される。 As shown in FIG. 2, the appearance of the target object changes depending on the imaging position and orientation of the camera in the multi-view image. For example, when an image of a target object is captured at viewpoint View1, an image of the target object viewed from the front is captured. When an image of the target object is captured at the viewpoint View2, an image is captured that is upside down, horizontally and vertically reversed, and is enlarged with respect to the viewpoint View1. When the target object is imaged at the viewpoint View3, an image of the target object viewed from an oblique direction is captured.
このように、同じ対象物体を異なる視点から撮像した多視点画像において、画像間に回転、拡大縮小、射影変換などの平行移動以外の画像変形が生じることが多い。画像間に平行移動以外の画像変形が生じた場合、一般的な畳込演算を用いて各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点においてが異なる値となるため、三次元復元精度が著しく低下する。 As described above, in multi-view images of the same target object taken from different viewpoints, image deformations other than parallel movement such as rotation, scaling, and projective transformation often occur between images. When image deformation other than parallel movement occurs between images, the results (features) of the convolution operation extracted from each image using a general convolution operation may have different values at corresponding points in each image. As a result, three-dimensional reconstruction accuracy is significantly reduced.
これに対し、本実施形態では、画像変形に応じて、畳込演算に用いるカーネルを変形させ、変形させた後のカーネル(後述する変形後カーネル)を用いて、その画像について畳込演算を行うようにした。こうすることによって、画像間における画像変形画大きい場合であっても各画像から抽出した畳込演算の演算結果(特徴量)が、各画像の対応点において同じような値になるようにすることができ、三次元復元精度が低下してしまうことを抑制することが可能となる。 In contrast, in this embodiment, the kernel used for the convolution operation is transformed according to the image transformation, and the transformed kernel (the transformed kernel described later) is used to perform the convolution operation on the image. I did it like that. By doing this, even if the image deformation between images is large, the calculation results (features) of the convolution operation extracted from each image can be made to have similar values at corresponding points in each image. This makes it possible to suppress a decrease in three-dimensional reconstruction accuracy.
カーネル変形方法決定部100は、画像変形に応じてカーネルを変形させる方法を決定する。具体的には、カーネル変形方法決定部100は、画像における視点と、対象物体の表面にある三次元座標M及びその法線方向nの組{M、n}の関係に応じて、畳込演算に用いるカーネルを変形させる方法を決定する。以下では、カーネル変形方法決定部100が、畳込演算に用いるカーネルを変形させる方法を決定する処理について説明する。
The kernel deformation
図3には、カーネルを変形させた例が模式的に示されている。カーネル変形方法決定部100は、基準カーネル(Common Kernel)において、例えば正方格子などを用いて設定された二次元座標が、各画像における対応点の二次元座標となるように、基準カーネルを変形させる変形方法を決定する。
FIG. 3 schematically shows an example of deforming the kernel. The kernel transformation
例えば、カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View1における対応点、例えば、対象物体の右目、左目、右側の口角、左側の口角のそれぞれの位置に対応する二次元座標P01、P11、P21、P31に変換されるように、視点View1に対応する変形方法を決定する。
For example, the kernel deformation
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View2における対応点のそれぞれの二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。
The kernel transformation
カーネル変形方法決定部100は、基準カーネルにおける二次元座標P00、P10、P20、P30のそれぞれが、視点View3における対応点のそれぞれの二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
The kernel transformation
また、カーネル変形方法決定部100は、2つの画像間の画像変形に応じて、変形方法を決定するようにしてもよい。
Further, the kernel deformation
例えば、カーネル変形方法決定部100は、視点View1における座標が、視点View2における対応点がある座標に変換されるように、変形方法を決定する。具体的には、カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View2における対応点、つまり二次元座標P02、P12、P22、P32に変換されるように、視点View2に対応する変形方法を決定する。カーネル変形方法決定部100は、視点View1における二次元座標P01、P11、P21、P31が、視点View3における対応点、つまり二次元座標P03、P13、P23、P33に変換されるように、視点View3に対応する変形方法を決定する。
For example, the kernel transformation
図1に戻り、カーネル変形方法決定部100は、多視点画像記憶部107から、多視点画像における各視点に対応するカメラパラメータを取得する。カーネル変形方法決定部100は、三次元情報記憶部109から三次元点の座標(位置座標)と法線方向を取得する。カーネル変形方法決定部100は、各視点に対応するカメラパラメータと三次元点の座標と法線方向とから、畳込演算を行う対象視点におけるカーネルの変形方法を決定する。
Returning to FIG. 1, the kernel deformation
カーネルの変形方法として、例えば、射影変換を用いる場合、カーネル変形方法決定部100は、射影変換行列Hを算出する。射影変換行列Hは(1)式を用いて計算することができる。
For example, when projective transformation is used as the kernel transformation method, the kernel transformation
ここで、(1)式における三次元点の座標Mと法線方向nは、参照視点画像におけるカメラ座標系で与えられる。(1)式に示す射影変換行列Hは、三次元点の座標Mと法線方向nで定義される三次元平面を介して、参照視点画像における二次元画像座標を、対象視点画像における二次元画像座標に変換する座標変換行列に相当する。対象視点画像は、畳込演算を行う対象となる多視点画像である。 Here, the coordinates M and the normal direction n of the three-dimensional point in equation (1) are given by the camera coordinate system in the reference viewpoint image. The projective transformation matrix H shown in equation (1) converts the two-dimensional image coordinates in the reference viewpoint image into the two-dimensional image coordinates in the target viewpoint image via the three-dimensional plane defined by the coordinate M of the three-dimensional point and the normal direction n. Corresponds to a coordinate transformation matrix that transforms into image coordinates. The target viewpoint image is a multi-view image on which a convolution operation is performed.
このようにして決定されたカーネル変形方法で変形されたカーネルを用いた畳込演算を行うことにより、三次元点の座標と法線方向が実際の対象表面における三次元座標と法線方向と近い場合に、多視点画像間の画像変形による特徴量の変化が軽減され、画像変形が大きい多視点画像でも各視点の対応点において近い特徴量を抽出することができる。 By performing a convolution operation using the kernel deformed by the kernel deformation method determined in this way, the coordinates and normal direction of the three-dimensional point are close to the three-dimensional coordinates and normal direction on the actual target surface. In this case, changes in feature amounts due to image deformation between multi-view images are reduced, and even in multi-view images with large image deformations, similar feature amounts can be extracted at corresponding points of each viewpoint.
カーネル変形方法決定部100は、例えば、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二つの視点におけるカメラパラメータを用いてカーネル変形方法を決定する。或いは、カーネル変形方法決定部100は、対象視点画像のカメラパラメータのみ、つまりひとつの視点におけるカメラパラメータを用いてカーネル変形方法を決定しても良い。
The kernel deformation
対象視点画像におけるひとつの視点のカメラパラメータのみを用いる場合、カーネル変形方法決定部100は、対象視点画像におけるカメラ座標系で与えられた三次元点の座標と法線方向を用いる。
When using only the camera parameters of one viewpoint in the target viewpoint image, the kernel transformation
一視点のカメラパラメータのみを用いる場合、例えば、カーネル変形方法決定部100は、対象視点に設けられるカメラに正対した平面を、与えられた法線方向に回転させる射影変換行列を、カーネル変形方法として決定する。一視点のカメラパラメータのみを用いる場合、多視点画像における各視点画像を用いて、それぞれ独立に、つまり参照視点画像とは無関係に、特徴量を抽出する処理を行うことができるという利点がある。
When using only the camera parameters of one viewpoint, for example, the kernel deformation
一方、参照視点画像のカメラパラメータと、対象視点画像のカメラパラメータとの二視点のカメラパラメータを用いる場合、複数の視点での整合性がとれた特徴量を抽出することができるという利点がある。 On the other hand, when using camera parameters from two viewpoints, that is, the camera parameters of the reference viewpoint image and the camera parameters of the target viewpoint image, there is an advantage that it is possible to extract feature amounts that are consistent from a plurality of viewpoints.
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータと対象視点画像のカメラパラメータに対して、一組の三次元点の座標と法線方向を三次元情報記憶部109から読み込んで、ひとつの射影変換行列を決定する。
For example, the kernel deformation
或いは、カーネル変形方法決定部100は、対象視点画像におけるピクセルごとに異なる三次元点の座標と法線方向を三次元情報記憶部109から読み込んで、対象視点画像におけるピクセルごとに異なる射影変換行列を決定しても良い。
Alternatively, the kernel transformation
一般に、対象物体の対象表面における三次元座標と法線方向は、対象視点画像におけるピクセルごとに異なる。そのため、ピクセルごとに異なる三次元点の座標と法線方向を用いて、ピクセルごとに異なる射影変換行列を決定した方が、最終的な三次元復元誤差は小さくなる可能性が高い。一方で、ピクセルごとに異なる変形方法でカーネルを変形する場合、計算コストが大きくなる。このため、視点ごとにひとつの変形方法を用いたほうが処理時間を短くすることができる。 Generally, the three-dimensional coordinates and normal direction on the target surface of the target object differ for each pixel in the target viewpoint image. Therefore, the final three-dimensional reconstruction error is likely to be smaller if a different projective transformation matrix is determined for each pixel using the coordinates and normal direction of the three-dimensional point that are different for each pixel. On the other hand, when deforming the kernel using a different deformation method for each pixel, the calculation cost increases. Therefore, using one transformation method for each viewpoint can reduce processing time.
カーネル変形方法決定部100は、例えば、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、ひとつの法線方向を三次元情報記憶部109から読み込んで、ひとつの射影変換行列を決定する。
For example, the kernel deformation
或いは、カーネル変形方法決定部100は、一組の参照視点画像のカメラパラメータ、対象視点画像のカメラパラメータ、および三次元点の座標に対して、二つ以上からなる複数の法線方向を三次元情報記憶部109から読み込んで、それぞれの法線方向に対応して複数の射影変換行列を決定しても良い。
Alternatively, the kernel deformation
一般に、考慮する法線方向の数が多いほど、後述する畳込演算部102で演算される特徴量からなる特徴マップについて、複数の法線方向の各々に対応する特徴マップの中に多視点の特徴マップと整合性がとれる特徴マップが含まれる可能性が高くなる。一方、考慮する法線方向の数が少ないほど、計算コストが小さくなるという利点がある。
In general, the larger the number of normal directions to consider, the more multi-viewpoints are included in the feature map corresponding to each of a plurality of normal directions for a feature map made up of feature quantities calculated by the
カーネル変形部101は、変形後カーネルを生成する。カーネル変形部101は、例えば、基準カーネル記憶部110から基準カーネルを読み込むことによって基準カーネルを取得する。カーネル変形部101は、カーネル変形方法決定部100により決定されたカーネル変形方法に従い、基準カーネルを変形させることによって変形後カーネルを生成する。カーネル変形部101は、生成した変形後カーネルを変形後カーネル記憶部111に書き込む。
The
例えば、カーネル変形方法が射影変換行列Hで表現される射影変換であった場合、カーネル変形部101は、(2)式を用いて基準カーネルを変形することによって変形後カーネルを生成する。
For example, if the kernel transformation method is projective transformation expressed by a projection transformation matrix H, the
カーネル変形部101は、異なる複数のカーネル変形方法が与えられた際に、同一の基準カーネルをそれぞれ異なるカーネル変形方法で変形させ、それぞれ異なる複数の変形後カーネルを生成するようにしても良い。
When provided with a plurality of different kernel transformation methods, the
つまり、カーネル変形部101は、対象視点画像、三次元点の座標、及び法線方向の組合せに応じて、同じ基準カーネルに対して異なる変形後カーネルを生成する。また、カーネル変形部101は、異なる対象視点画像、異なる三次元点の座標、及び異なる法線方向に対して、共通する同じ基準カーネルを用いて、それぞれの対象視点画像、三次元点の座標、及び法線方向に合わせた変形後カーネルを生成する。
That is, the
基準カーネルが正方格子で配置された整数の二次元画像座標を持つ場合でも、変形方法によっては、変形後カーネルの二次元画像座標が実数を持つ可能性がある。これに対して、カーネル変形部101は、変形後カーネルが実数の座標を持つ場合、その実数の座標を持つ変形後カーネルに対して、正方格子で配置された整数の二次元画像座標で補間処理を行うことにより整数の二次元画像座標をもつ変形後カーネルを生成しても良い。ここで、実数の二次元画像座標を持つ変形後カーネルは、「仮変形後カーネル」の一例である。補間方法としては、例えば、双線形補間を用いることができる。
Even if the reference kernel has integer two-dimensional image coordinates arranged in a square lattice, the two-dimensional image coordinates of the transformed kernel may have real numbers depending on the transformation method. On the other hand, when the transformed kernel has real number coordinates, the
ここで、図4を用いて、カーネル変形部101が整数の二次元画像座標をもつ変形後カーネルを生成する例について説明する。図4は、実施形態の特徴マップ生成装置1が行う処理を説明するための図である。
Here, an example in which the
図4における各視点(View1~View3)の左から2番目には、各視点に対応させた変形後カーネルを、5×5の正方格子の上にマッピングさせた例が模式的に示されている。この図の例に示すように、変形後カーネルの二次元画像座標が実数を持つ場合、正方格子上の任意の点に変形後カーネルの二次元画像座標がマッピングされる。
The second from the left of each viewpoint (
図4における各視点(View1~View3)の左から3番目には、実数の座標を持つ変形後カーネルに双線形補間(Bilinear Interpolation)による補間処理を行うことにより、整数の二次元画像座標をもつ変形後カーネルを生成した例が模式的に示されている。
The third from the left of each viewpoint (
これにより、変形後カーネルが一般的な畳込演算で用いられるカーネルと同様に整数の二次元画像座標を持つものとすることができる。このため、一般的な畳込演算処理をそのまま利用して、変形後カーネルを用いた畳込演算を実行することができる。 This allows the transformed kernel to have integer two-dimensional image coordinates, similar to the kernel used in general convolution operations. Therefore, it is possible to perform a convolution operation using a transformed kernel by directly using general convolution operation processing.
変形後カーネルが実数の座標を持つ場合、後述する畳込演算部102において畳込演算を実行する際に、畳込演算を行う各ピクセルの演算において補間処理が必要となるため、計算コストが大きくなる。これに対して、変形後カーネルが整数の座標を持つようにすることによって、各ピクセルの演算において補間処理を行う必要がなくなる。このため、畳込演算部102が行う処理に要する時間を短くすることが可能である。
If the transformed kernel has real number coordinates, when the convolution operation unit 102 (described later) executes the convolution operation, interpolation processing is required for each pixel in which the convolution operation is performed, resulting in a large calculation cost. Become. On the other hand, by making the transformed kernel have integer coordinates, there is no need to perform interpolation processing in each pixel calculation. Therefore, it is possible to shorten the time required for the processing performed by the
畳込演算部102は、畳込演算を行う。畳込演算部102は、例えば、変形後カーネル記憶部111から変形後カーネルを読み込んで取得する。また、畳込演算部102は、多視点画像記憶部107から対象視点画像を読み込んで取得する。畳込演算部102は、変形後カーネルを用いて、対象視点画像に畳込演算を行う。畳込演算部102は、対象視点画像に、畳込演算の演算結果を特徴量として対応づけた特徴マップを生成する。畳込演算部102は、生成した特徴マップを特徴マップ記憶部108に記憶させる。
The
変形後カーネルを用いて畳込演算を行うことにより、多視点画像間の画像変形が大きい場合においても、画像変形によって特徴量(畳込演算の演算結果)が変化する度合が軽減され、各視点において抽出されるそれぞれの対応における特徴量が近い値となる。 By performing a convolution operation using the transformed kernel, even if the image deformation between multi-view images is large, the degree to which the feature amount (the result of the convolution operation) changes due to image deformation is reduced, and each viewpoint The feature amounts in each correspondence extracted in the above process have similar values.
深層学習に基づく多視点ステレオでは、各視点の画像のそれぞれから生成される特徴マップにおいて、真の三次元座標が与えられた際に、各視点における対応点の特徴量が等しくなるか、或いは極めて近い値となることが前提とされる。そのため、画像変形が大きい画像間であっても、その画像間における対応点の特徴量が近い値となるように特徴量を抽出することができれば、高精度な三次元形状の復元につなげることが可能である。 In multi-view stereo based on deep learning, in the feature map generated from each image of each viewpoint, when true three-dimensional coordinates are given, the feature values of corresponding points in each viewpoint are equal or extremely It is assumed that the values are close. Therefore, even if the image deformation is large, if features can be extracted so that the features of corresponding points between images have similar values, it is possible to restore a three-dimensional shape with high accuracy. It is possible.
変形後カーネルが正方格子で配置された整数の二次元画像座標を持つカーネルである場合、畳込演算部102は、一般的な畳込演算により対象視点画像に畳込演算を行う。一方、変形後カーネルが実数の二次元画像座標を持つカーネルである場合、畳込演算部102は、例えば、対象視点画像における実数の二次元画像座標の画素値を、その周囲にある整数の二次元画像座標の画素値を補間するとによって算出し、算出した実数の二次元画像座標の画素値に対し、実数の二次元画像座標を持つカーネルを用いた畳込演算を行う。
When the transformed kernel is a kernel having integer two-dimensional image coordinates arranged in a square grid, the
補間方法としては、例えば、双線形補間を用いる。ここで、畳込演算において、実数の二次元画像座標をもつカーネルを用いて、補間により求めた実数の二次元画像座標の画素値に畳込演算を行うことと、実数の二次元画像座標をもつカーネルを整数の座標系で補間し、補間後のカーネルを用いて整数の二次元画像座標の画素値に畳込演算を行うことは、同じ演算結果となる。 For example, bilinear interpolation is used as the interpolation method. Here, in the convolution operation, a kernel with real two-dimensional image coordinates is used to perform a convolution operation on the pixel value of the real two-dimensional image coordinates obtained by interpolation, and the real two-dimensional image coordinates are Interpolating a kernel with an integer coordinate system and performing a convolution operation on a pixel value of an integer two-dimensional image coordinate using the interpolated kernel yields the same operation result.
変形後カーネルが、ひとつの対象視点画像に対して決定されたひとつのカーネルである場合、畳込演算部102は、対象視点画像において共通する同一の変形後カーネルを用いて畳込演算を行う。
When the transformed kernel is one kernel determined for one target viewpoint image, the
一方、変形後カーネルが、対象視点画像におけるピクセルごとに決定された、ピクセルごとに異なる変形後カーネルである場合、畳込演算部102は、対象視点画像において、ピクセルごとに異なる変形後カーネルを用いて畳込演算を行う。
On the other hand, if the transformed kernel is a transformed kernel that is determined for each pixel in the target viewpoint image and is different for each pixel, the
畳込演算部102は、ひとつの対象視点画像に対して、複数の変形後カーネルを用いて畳込演算を行い、特徴マップを生成しても良い。例えば、畳込演算部102は、複数の変形後カーネルを変形後カーネル記憶部111から読み込み、ひとつの対象視点画像を多視点画像記憶部から読み込み、読み込んだ対象視点画像に対して、異なる複数の変形後カーネルを用いて順に畳込演算を行い、特徴マップを生成する。この場合、ひとつの対象視点画像に対して、複数の変形後カーネルのそれぞれに対応する複数の特徴マップが生成される。
The
コスト値計算部103は、複数の特徴マップからコスト値を計算する。コスト値は、特徴マップにおける対応点が類似する度合であって、例えば、対応点における特徴量間の分散や相関を示す値である。
The cost
ここで、ある三次元点の座標と法線方向の組{M1、n1}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像{I0、I1、…}のそれぞれに対して、カーネル変形方法決定部100、カーネル変形部101、及び畳込演算部102のそれぞれを連携させることによって、三次元点の座標と法線方向の組{M1、n1}を適用した場合おける、それぞれの対象視点画像の特徴マップ{f0,1、f1,1、…}が生成される。
Here, consider a case where a set {M 1 , n 1 } of the coordinates and normal direction of a certain three-dimensional point is given. In this case, each of the kernel transformation
このとき、コスト値を計算する対象である三次元座標M=[X、Y、Z]Tにおけるコスト値C1は、各対象視点画像の特徴マップ{f0,1、f1,1、…}における、三次元座標Mに対応する対応点の特徴量のそれぞれの分散を示す値である。 At this time, the cost value C 1 at the three-dimensional coordinates M=[X, Y, Z] T , which is the target for calculating the cost value, is the feature map of each target viewpoint image {f 0,1 , f 1,1 , . . . } is a value indicating the respective variance of the feature amount of the corresponding point corresponding to the three-dimensional coordinate M.
同様に、同じ三次元点の座標に対し別の法線方向の組{M1、n2}が与えられた場合を考える。この場合、多視点画像に含まれる複数の対象視点画像それぞれの特徴マップ{f0,2、f1,2、…}が生成される。コスト値計算部103は、各対象視点画像の特徴マップ{f0,2、f1,2、…}の対応点における特徴量の分散を示す値をコスト値C2として計算する。
Similarly, consider a case where another set of normal directions {M 1 , n 2 } is given to the coordinates of the same three-dimensional point. In this case, feature maps {f 0,2 , f 1,2 , . . . } of each of the plurality of target viewpoint images included in the multi-view image are generated. The cost
コスト値計算部103は、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対するコスト値の集合{C1、C2}を構成する要素のうちの最小値を、最終的なコスト値Cとする。
The cost
上記の説明では、同じ三次元点の座標に対する、二つの法線方向のそれぞれに対する最終的なコスト値Cを算出する場合を例示して説明したが、同じ三次元点の座標に対して三つ以上の法線方向の組が与えられた場合にも、同様な方法により、コスト値の集合{C1、C2、…}を生成することができる。コスト値計算部103は、コスト値の集合{C1、C2、…}を構成する要素のうちの最小値を、最終的なコスト値とする。
In the above explanation, the case where the final cost value C is calculated for each of the two normal directions for the coordinates of the same three-dimensional point has been explained as an example, but for the coordinates of the same three-dimensional point, Even when the above set of normal directions is given, a set of cost values {C 1 , C 2 , . . . } can be generated using a similar method. The cost
仮定された法線方向、つまり与えられた法線方向と、真の法線方向とが近い場合、特徴マップにおける対応点の特徴量が近い値となる。この場合、コスト値の集合、つまり各法線方向に対する特徴量間の分散は小さい値をとる。したがって、複数の法線方向のそれぞれについてコスト値を計算し、それらの最小値を、最終的なコスト値として採用することは、仮定した複数の法線方向のそれぞれから、真の法線方向と最も整合性が取れる法線方向で計算したコスト値を選択することと等しい。 When the assumed normal direction, that is, the given normal direction, and the true normal direction are close to each other, the feature amounts of corresponding points in the feature map have similar values. In this case, the set of cost values, that is, the variance between the feature amounts for each normal direction takes a small value. Therefore, calculating the cost value for each of multiple normal directions and adopting the minimum value as the final cost value is the same as the true normal direction from each of the assumed multiple normal directions. This is equivalent to selecting the cost value calculated in the normal direction that provides the most consistency.
上記では、コスト値計算部103は、コスト値として、複数の対象視点画像の特徴マップの対応点における特徴量の分散を計算しても良いし、複数の対象視点画像の特徴マップの対応点における特徴量の相関を計算しても良い。コスト値計算部103は、コスト値として、少なくとも複数の対象視点画像のそれぞれの特徴マップにおける対応点の特徴量が類似する度合を計算できればよい。すなわち、コスト値計算部103は、コスト値として、分散及び相関の何れを示す値を計算しても良い。
In the above, the cost
特徴量の相関をコスト値として計算する場合、コスト値計算部103は、法線方向に対応するコスト値の集合における各要素のうちの最大値を、最終的なコスト値とする。各対象視点画像における特徴マップの対応点の特徴量が近い値をとる場合、各法線方向に対する特徴量間の相関が大きい値をとる。このため、法線方向ごとのコスト値の最大値を、最終的なコスト値として採用することで、真の法線方向と最も整合性がとれる法線方向を用いて計算したコスト値を選択することができる。
When calculating the correlation between feature amounts as a cost value, the cost
なお、コスト値計算部103は、特徴マップに対応づけられる変数(三次元座標M、法線方向n)の何れを基準としてコスト値を計算しても良い。例えば、上述したように、同じ三次元座標を基準として、複数の法線方向nのそれぞれについてコスト値を計算しても良いし、三次元座標と法線方向nの組ごとにコスト値を計算しても良い。また、同じ法線方向を基準として、複数の三次元座標のそれぞれについてコスト値を計算しても良い。
Note that the cost
さらに、コスト値計算部103は、コストボリュームを生成する。コストボリュームは、参照視点画像に正対する複数の平面であって、離散的な奥行きを有する複数の平面にコスト値が反映されたものである。コスト値計算部103は、例えば、あらかじめ三次元空間上に設定された三次元ボクセルのすべてのボクセルに対して、各ボクセルに対応する三次元座標におけるコスト値を計算することで、コストボリュームを生成する。コスト値計算部103は、生成したコストボリュームを、コストボリューム記憶部112に記憶させる。
Furthermore, the cost
このとき、コスト値計算部103は、三次元ボクセルを、立方体で設定しても良いし、参照視点画像の面と底面が正対する四角スイ台で設定しても良い。
At this time, the cost
コストボリューム正則化部104は、コストボリュームを正則化する。コストボリューム正則化部104は、例えば、コストボリューム記憶部112からコストボリュームを読み込んで取得する。コストボリューム正則化部104は、取得したコストボリュームに対して三次元の畳込演算を行うことによりコストボリュームを正則化する。コストボリューム正則化部104は、正則化した後のコストボリュームを、コストボリューム記憶部112に記憶させる。このとき、コストボリューム正則化部104は、三次元の畳込演算において、異なるカーネルを複数回適用しても良い。
The cost
デプスマップ生成部105は、デプスマップを生成する。デプスマップ生成部105は、例えば、コストボリューム記憶部112から正則化後のコストボリュームを読み込んで取得する。デプスマップ生成部105は、取得したコストボリュームから参照視点画像におけるデプスマップを抽出する。デプスマップ生成部105は、抽出したデプスマップをデプスマップ記憶部113に記憶させる。
The depth
デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルに対応する視線上にあるコストボリュームのコスト値を抽出し、抽出したコスト値のうち最も整合性のとれるコスト値の奥行きを、デプスマップの奥行値として選択する。
For each pixel of the reference viewpoint image, the depth
例えば、コストボリュームにおける三次元ボクセルが、参照視点画像の面と底面が正対した四角スイ台で設定される場合、各ピクセルの視線は、コストボリューム上にある一列のボクセルと一致する。コスト値が特徴量の分散で示される場合、デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が小さくなる奥行きを、デプスマップの奥行値として選択する。一方、コスト値が特徴量の相関で示される場合、デプスマップ生成部105は、参照視点画像の各ピクセルについて、そのピクセルの視線上にある最もコスト値が大きくなる奥行きを、デプスマップの奥行値として選択する。
For example, if the three-dimensional voxels in the cost volume are set as a rectangular platform in which the surface of the reference viewpoint image and the bottom face directly, the line of sight of each pixel coincides with a row of voxels on the cost volume. When the cost value is represented by the variance of the feature amount, the depth
三次元点群生成部106は、三次元点群を生成する。三次元点群生成部106は、例えば、デプスマップ記憶部からデプスマップを読み込んで取得する。三次元点群生成部106は、取得したデプスマップを三次元点群に変換することにより三次元点群を生成する。三次元点群生成部106は、生成した三次元点群を、三次元点群記憶部114に記憶させる。
The three-dimensional point
例えば、一枚のデプスマップを読み込んだ場合、三次元点群生成部106は、読み込んだデプスマップと、そのカメラパラメータから、各ピクセルの三次元座標を計算した計算結果を三次元点群とする。一方、異なる視点に対応する複数のデプスマップを読み込んだ場合、三次元点群生成部106は、まず、視点ごとにデプスマップを三次元点群に変換し、次に、各視点の三次元点群をひとつの三次元点群に統合する。三次元点群生成部106は、例えば、三次元点群を統合する場合、各視点のカメラパラメータに従い、三次元点群の三次元座標をカメラ座標系から世界座標系に変換することによって、異なる視点の三次元点群を同一の座標系に合わせた表現に変換することによって、ひとつの三次元点群に統合する。
For example, when one depth map is read, the three-dimensional point
多視点画像記憶部107は、N枚からなる多視点画像と、その多視点画像の各視点に対応するカメラパラメータを記憶する。ここで、多視点画像を構成する視点のうち一つの視点は、参照視点画像の視点とする。ここでNは2以上の整数である。
The multi-view
特徴マップ記憶部108は、特徴マップを記憶する。ここで、特徴マップ記憶部108は、特徴マップに、その特徴マップを生成する元となる画像に対応する視点、および、その特徴マップを生成する際に用いた三次元点の座標と法線方向と紐づけて記憶しても良い。
The feature
三次元情報記憶部109は、カーネル変形方法を決定するための三次元点の座標および法線方向を記憶する。ここで、三次元情報記憶部109は、ひとつの三次元点の座標に対して複数の法線方向の組を紐づけて記憶しても良い。また、三次元情報記憶部109は、各視点に対して、一組の三次元点の座標と法線方向を記憶しても良いし、ピクセルごとに異なる三次元点の座標と法線方向を記憶しても良い。ピクセルごとに異なる三次元点の座標と法線方向を記憶する場合、三次元情報記憶部109は、三次元点の座標と法線方向を、三次元座標マップおよび法線方向マップとして記憶する。
The three-dimensional
三次元情報記憶部109は、あらかじめ用意される三次元点の座標群{M}、および法線群{n}を記憶し、三次元座標群および法線群の中から選択した三次元点の座標と法線方向の組を、カーネル変形方法を決めるための三次元点の座標および法線方向の組としてもよい。
The three-dimensional
ここで、あらかじめ用意される三次元点の座標群{M}は、例えば、(3)式で示される。 Here, the coordinate group {M} of three-dimensional points prepared in advance is expressed by, for example, equation (3).
また、あらかじめ用意される法線群{n}は、例えば、(4)式で示される。 Further, the group of normals {n} prepared in advance is expressed by, for example, equation (4).
基準カーネル記憶部110は、基準カーネルを記憶する。基準カーネルは、変形後カーネルを生成する基準となるカーネルであり、例えば、二次元画像座標と重み係数の組の集合で表現される。基準カーネルは、例えば、(5)式で示される。基準カーネル記憶部110は、互いに異なる基準カーネルを複数記憶しても良い。
The reference
変形後カーネル記憶部111は、変形後カーネルを記憶する。変形後カーネルは、カーネル変形部101によって、基準カーネルが、カーネル変形方法決定部100により決定された方法を用いて変形されることによって生成されたカーネルである。変形後カーネルは、基準カーネルと同様に、例えば、二次元画像座標と重み係数の組の集合で表現される。変形後カーネルは、例えば、(6)式で示される。
The transformed
(6)式に示す変形後カーネルの二次元画像座標は、例えば、正方格子で配置された整数の座標として構成しても良いし、実数の座標として構成しても良い。カーネル変形部101が基準カーネルを変形する際に、正方格子で配置された整数の座標で補間しながら基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’i)は、基準カーネルの要素数K及び重み係数(ai)と異なる値をとる。一方、カーネル変形部101が、補間せずに、基準カーネルを変形した場合、変形後カーネルの要素数K’及び重み係数(a’i)は、基準カーネルの要素数K及び重み係数(ai)と一致する。但し、iはカーネルを構成する要素に応じた変数であり、1≦i≦K’である。
The two-dimensional image coordinates of the transformed kernel shown in equation (6) may be configured, for example, as integer coordinates arranged in a square lattice, or as real number coordinates. When the
変形後カーネル記憶部111は、変形後カーネルに、その変形後カーネルを生成する元になった基準カーネルを紐づけて記憶しても良い。つまり、基準カーネルが複数用意される場合、変形後カーネル記憶部111は、変形後カーネルのそれぞれに、どの基準カーネルから生成されたかを示す情報が紐づけて記憶する。また、変形後カーネル記憶部111は、変形後カーネルに、その変形後カーネルを生成する際に用いた三次元点の座標と法線方向を紐づけて記憶しても良い。
The transformed
コストボリューム記憶部112は、コストボリュームを記憶する。コストボリュームは、三次元空間上に設定された三次元ボクセルの各ボクセルにコスト値が対応づけられた情報である。
The cost
デプスマップ記憶部113は、多視点画像の各視点におけるデプスマップを記憶する。ここで、デプスマップの大きさは、対応する視点(画像)の画像サイズと一致する。また、デプスマップの各ピクセルの奥行値は、対応する視点の各ピクセルの二次元座標における対象物体までの奥行きを示す値である。
The depth
三次元点群記憶部114は、対象物体を三次元復元した三次元復元点群を記憶する。ここで、三次元点群は、三次元座標の集合として定義される。つまり、三次元点群記憶部114は、三次元点群の各点の三次元座標を記憶する。また、三次元点群が色付きの三次元点群の場合、三次元点群記憶部114は、三次元点群の各点の三次元座標に加えて、三次元点群の各点の色(例えば、RGB値)を記憶する。
The three-dimensional point
ここで、図5を用いてデプスマップを生成する処理の流れを説明する。図5は、実施形態の特徴マップ生成装置1を用いてデプスマップを生成する処理を説明する図である。
Here, the flow of processing for generating a depth map will be explained using FIG. 5. FIG. 5 is a diagram illustrating a process of generating a depth map using the feature
図5に示すように、本実施形態の特徴マップ生成装置1は、一般の深層学習に基づく多視点ステレオ技術に用いられる4つの学習済ネットワークNWを基に、デプスマップを生成する。
As shown in FIG. 5, the feature
特徴マップ生成装置1は、画像間における画像変形に対応させた特徴マップ生成ネットワークNW1#を用いて特徴マップを生成する。具体的に、特徴マップ生成装置1では、カーネル変形方法決定部100、カーネル変形部101、及び畳込演算部102が連携して、各画像Iiにおける法線方向nkに対応する、特徴マップを生成する。ただし、iは多視点画像の枚数に対応する変数であり、1≦i≦NIである。また、kは法線方向の数に対応する変数であり、1≦k≦Nnである。
Feature
より具体的に、カーネル変形方法決定部100は、対象物体における三次元座標M、法線方向ni、及び各画像Iiのカメラパラメータに基づいて、各画像Iiにおける法線方向nkに対応する、基準カーネルの変形方法を決定する。カーネル変形部101は、カーネル変形方法決定部100によって決定された変形方法を用いて、基準カーネルを変形させた変形後カーネル{PIi、nk}を生成する。畳込演算部102は、各画像Iiに対し、各画像における法線方向nkに対応した変形後カーネル{PIi、nk}を用いて、畳込演算を行う。畳込演算部102は、畳込演算の演算結果を、各画像Iiにおける画素毎の特徴量として抽出し、抽出した特徴量を用いて特徴マップfnkを生成する。
More specifically, the kernel deformation
特徴マップ生成装置1は、コストボリューム構築ネットワークNW2#を用いてコストボリュームを構築する。具体的に、特徴マップ生成装置1では、コスト値計算部103が、特徴マップ生成ネットワークNW1#によって生成された、各画像Iiにおける法線方向nkに対応する特徴マップfnkのそれぞれを用いてコストボリュームを構築する。
Feature
より具体的に、コスト値計算部103は、対象物体における三次元座標Mに対し、法線方向nkごとに、特徴マップfnkにおける三次元座標Mの対応点のそれぞれの特徴量の分散を計算し、計算した分散値を、三次元座標Mにおける法線方向nkに対するコスト値Ckとする。コスト値計算部103は、三次元座標Mにおける法線方向nk毎のコスト値Ckのうち、分散が小さいもの、つまり似た特徴を有するものを最終的なコスト値Cとする。
More specifically, the cost
特徴マップ生成装置1は、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4を用いて、デプスマップを生成する。具体的に、特徴マップ生成装置1では、コストボリューム正則化部104、デプスマップ生成部105、及び三次元点群生成部106が連携することによって、従来技術(図7参照)と同様に、コストボリューム正則化ネットワークNW3、及びデプスマップ生成ネットワークNW4を用いることによってデプスマップを生成する。
The feature
ここで、図6を用いて特徴マップを生成する処理の流れを説明する。図6は、実施形態の特徴マップを生成する処理の流れを示すフローチャートである。 Here, the flow of processing for generating a feature map will be explained using FIG. 6. FIG. 6 is a flowchart showing the flow of processing for generating a feature map according to the embodiment.
ステップS10:特徴マップ生成装置1は、対象視点画像のカメラパラメータを取得する。特徴マップ生成装置1は、多視点画像記憶部107を参照することによって、対象視点画像のカメラパラメータを取得する。
ステップS11:特徴マップ生成装置1は、対象物体における三次元座標、及び法線方向の組を取得する。特徴マップ生成装置1は、三次元情報記憶部109を参照することによって、対象物体における三次元座標、及び法線方向を取得する。例えば、参照視点画像におけるカメラ座標系に基づいて、対象物体における三次元座標及び法線方向が設定され、設定された対象物体における三次元座標及び法線方向が、三次元情報記憶部109に記憶される。
ステップS12:特徴マップ生成装置1は、基準カーネルを取得する。特徴マップ生成装置1は、基準カーネル記憶部110を参照することによって、基準カーネルを取得する。
ステップS13:特徴マップ生成装置1は、カーネルの変形方法を決定する。特徴マップ生成装置1は、ステップS10で取得した対象視点画像のカメラパラメータと、ステップS11で取得した対象物体における三次元座標及び法線方向に基づいて、対象視点画像における、対象物体の三次元座標及び法線方向に対応する、カーネルの変形方法を決定する。
Step S10: The feature
Step S11: The feature
Step S12: The feature
Step S13: The feature
ステップS14:特徴マップ生成装置1は、変形後カーネルを生成する。特徴マップ生成装置1は、ステップS13で決定したカーネルの変形方法を用いて、基準カーネルを変形することによって、変形後カーネルを生成する。
ステップS15:特徴マップ生成装置1は、対象視点画像を取得する。特徴マップ生成装置1は、多視点画像記憶部107を参照することによって、対象視点画像を取得する。
ステップS16:特徴マップ生成装置1は、変形後カーネルを用いて畳込演算を実行する。特徴マップ生成装置1は、ステップS14で取得した対象視点画像に、ステップS13で生成した変形後カーネルを用いた畳込演算を行うことによって、畳込演算を実行する。
ステップS17:特徴マップ生成装置1は、特徴マップを生成する。特徴マップ生成装置1は、ステップS16で実行した畳込演算の演算結果を特徴量として抽出し、抽出した特徴量を対象視点画像の各画素に対応づけることによって特徴マップを生成する。
Step S14: The feature
Step S15: The feature
Step S16: The feature
Step S17: The feature
ステップS18:特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成したか否かを判定する。特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成していない場合、ステップS19に示す処理を実行する。特徴マップ生成装置1は、三次元座標及び法線方向の組の全てについて特徴マップを生成した場合、ステップS20に示す処理を実行する。
ステップS19:特徴マップ生成装置1は、三次元座標及び法線方向の少なくとも一方を変更する。特徴マップ生成装置1は、三次元情報記憶部109を参照し、すでに特徴マップを生成した三次元座標及び法線方向の組とは異なる組合せを持つ三次元座標及び法線方向の組を取得することによって、三次元座標及び法線方向の少なくとも一方を変更する。特徴マップ生成装置1は、ステップS11に示す処理を実行する。
ステップS20:特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成したか否かを判定する。特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成していない場合、ステップS21に示す処理を実行する。特徴マップ生成装置1は、対象視点画像の全てについて特徴マップを生成した場合、ステップS22に示す処理を実行する。
ステップS21:特徴マップ生成装置1は、特徴マップを生成する対象とする対象視点画像を変更する。特徴マップ生成装置1は、多視点画像記憶部107を参照し、すでに特徴マップを生成した対象視点画像とは異なる対象視点画像を取得することによって、対象視点画像を変更する。特徴マップ生成装置1は、ステップS10に示す処理を実行する。
Step S18: The feature
Step S19: The feature
Step S20: The feature
Step S21: The feature
ステップS22:特徴マップ生成装置1は、仮コスト値を計算する。特徴マップ生成装置1は、三次元座標に対し、法線方向ごとに、特徴マップにおける三次元座標の対応点の特徴量それぞれの分散を計算し、計算した分散値を、三次元座標における法線方向に対する仮コスト値とする。
ステップS23:特徴マップ生成装置1は、仮コスト値から最終的なコスト値を決定する。特徴マップ生成装置1は、三次元座標における各法線方向に対する仮コスト値のうち、分散が小さいもの、つまり似た特徴を有するものを最終的なコスト値とする。
Step S22: The feature
Step S23: The feature
ここで、本実施形態の効果を確認する方法について説明する。 Here, a method for confirming the effects of this embodiment will be explained.
まず、実験用データセットとして、画像変形の大きさや種類が異なるデータセットを用意する。多視点画像間の画像変形に影響する要因として、対象の三次元形状、視点間の距離(基線長)、視点間の回転、対象からカメラまでの距離、各視点の内部パラメータが挙げられる。これらを変化させながら、多視点画像を撮影することによって、様々な画像変形を含む多視点画像データセットを作成することができる。 First, datasets with different sizes and types of image deformation are prepared as experimental datasets. Factors that affect image deformation between multi-view images include the three-dimensional shape of the target, the distance between viewpoints (baseline length), the rotation between viewpoints, the distance from the target to the camera, and the internal parameters of each viewpoint. By photographing multi-view images while changing these, it is possible to create a multi-view image data set including various image transformations.
しかしながら、視点間の距離(基線長)等を変化させながら多視点画像を撮影しようとすると撮影の負荷が大きい。この対策として、既存の多視点画像データセットに対して、画像処理を施すことによって、疑似的に画像変形が異なる多視点画像データセットを作成することを検討した。 However, when trying to capture multi-view images while changing the distance between viewpoints (baseline length), etc., the burden of capturing is large. As a countermeasure to this problem, we considered creating a multi-view image dataset with pseudo-different image deformations by applying image processing to the existing multi-view image dataset.
例えば、既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する方法として、画像に対する二次元回転を加える方法がある。このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ回転角で回転を加えても、画像間における画像変形は変わらない。そこで、多視点画像の各画像について、互いに異なる回転角により回転を加える必要がある。 For example, as a method of creating a new multi-view image data set using an existing multi-view image data set, there is a method of adding two-dimensional rotation to the image. At this time, even if a series of multi-view images of a single target object are all rotated by the same rotation angle, the image deformation between the images will not change. Therefore, it is necessary to rotate each image of the multi-view image using different rotation angles.
具体的に、例えば、多視点画像に1番からN番(Nは多視点画像の画像枚数)の番号を与え、偶数番の画像のみを180度回転させ、奇数版の画像には画像変形を加えないとする方法がある。また、例えば、多視点画像の各画像について、すべて異なるランダムな回転角で回転を加える方法もある。
Specifically, for example, give the
機械学習用の多視点画像データセットには、多視点画像のほかに、各視点における真値のデプスマップと、各視点のカメラパラメータが含まれる。多視点画像における各視点の画像に画像変形を加えた場合、画像変形を加えた画像のデプスマップとカメラパラメータについても、整合性が取れるように、編集しなくてはならない。 A multi-view image dataset for machine learning includes, in addition to multi-view images, a true value depth map for each viewpoint and camera parameters for each viewpoint. When image deformation is applied to each viewpoint image in a multi-view image, the depth map and camera parameters of the image to which image deformation has been applied must also be edited to ensure consistency.
デプスマップについては、対応する視点の画像と全く同じ画像変形を加えればよい。例えば、多視点画像の各画像に二次元回転を加える場合、デプスマップも各画像と同じ回転角で同じ二次元回転を加える必要がある。 As for the depth map, it is sufficient to apply exactly the same image transformation as the image of the corresponding viewpoint. For example, when applying two-dimensional rotation to each image of a multi-view image, it is necessary to apply the same two-dimensional rotation to the depth map at the same rotation angle as each image.
また、各視点のカメラパラメータについても、視点画像における各視点の画像に加えた画像変形と整合性するように編集する必要がある。多視点画像の各画像に二次元回転を加えた場合、各視点のカメラパラメータについて、その視点に対応する回転角によるカメラの光軸回りの三次元回転行列を、外部パラメータの回転行列と並進ベクトルに加える必要がある。このとき、各画像の二次元回転の中心座標が画像中心である場合、カメラの内部パラメータを編集する必要はない。一方で、各画像の回転の中心座標が画像中心でない場合、画像中心から回転中心の座標のずれを、各視点の内部パラメータの画像中心に加算し、整合性をとる必要がある。 Furthermore, the camera parameters for each viewpoint also need to be edited to be consistent with the image deformation applied to the image for each viewpoint in the viewpoint image. When a two-dimensional rotation is applied to each image of a multi-view image, for the camera parameters of each viewpoint, the three-dimensional rotation matrix around the optical axis of the camera by the rotation angle corresponding to that viewpoint is calculated by the rotation matrix of the external parameter and the translation vector. need to be added to At this time, if the center coordinates of the two-dimensional rotation of each image are the image center, there is no need to edit the internal parameters of the camera. On the other hand, if the rotation center coordinates of each image are not the image center, it is necessary to add the deviation of the rotation center coordinates from the image center to the image center of the internal parameters of each viewpoint to ensure consistency.
既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する別の方法として、画像に対して拡大又は縮小(以下、拡大縮小という)を加える方法がある。このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ拡大縮小率で拡大縮小を加えても、画像間の画像変形は変わらない。そこで、多視点画像の各画像について、異なる拡大縮小率による拡大縮小を加える必要がある。例えば、多視点画像の各画像について、互いに異なるランダムな拡大縮小率によって、拡大縮小を加える方法がある。また、画像の垂直方向と水平方向で、拡大縮小率が異なっていてもよい。 Another method for creating a new multi-view image data set using an existing multi-view image data set is to apply enlargement or reduction (hereinafter referred to as scaling) to an image. At this time, even if a series of multi-view images of a single target object are all scaled at the same scaling ratio, the image deformation between the images will not change. Therefore, it is necessary to scale each image of the multi-view image using a different scaling ratio. For example, there is a method of scaling each image of a multi-view image using different random scaling ratios. Further, the scaling ratio may be different between the vertical direction and the horizontal direction of the image.
このとき、機械学習用の多視点画像データセットにおける、デプスマップとカメラパラメータについても、視点画像における各視点の画像に加えた拡大縮小に対して整合性が取れるように、編集しなくてはならない。 At this time, the depth map and camera parameters in the multi-view image dataset for machine learning must also be edited so that they are consistent with the scaling applied to each viewpoint image in the viewpoint image. .
デプスマップについては、対応する視点の画像と全く同じ拡大縮小率で拡大縮小をさせる必要がある。また、各視点のカメラパラメータについては、外部パラメータは変化させず、内部パラメータのうち、焦点距離を拡大縮小率で乗算する必要がある。垂直方向の拡大縮小率と水平方向の拡大縮小率が異なる場合、内部パラメータの垂直方向の焦点距離と水平方向の焦点距離は、それぞれ異なる倍率で乗算する。また、各画像の拡大縮小の中心座標が画像中心である場合、カメラの内部パラメータを編集する必要はない。一方で、各画像の拡大縮小の中心座標が画像中心でない場合、画像中心から拡大縮小中心の座標のずれを、各視点の内部パラメータの画像中心に加算し、整合性をとる必要がある。 As for the depth map, it is necessary to scale it at exactly the same scale ratio as the image of the corresponding viewpoint. Furthermore, regarding the camera parameters of each viewpoint, it is necessary to multiply the focal length among the internal parameters by the scaling factor without changing the external parameters. When the vertical scaling factor and the horizontal scaling factor are different, the vertical focal length and horizontal focal length of the internal parameters are multiplied by different scaling factors. Further, if the center coordinates of scaling each image are the center of the image, there is no need to edit the internal parameters of the camera. On the other hand, if the center coordinates of the enlargement/reduction of each image are not the image center, it is necessary to add the deviation of the coordinates of the enlargement/reduction center from the image center to the image center of the internal parameters of each viewpoint to ensure consistency.
既存の多視点画像データセットを用いて、新しい多視点画像データセットを作成する別の方法として、視点の三次元回転と内部パラメータの変化に伴う射影変換を加える方法がある。 Another method for creating a new multi-view image dataset using an existing multi-view image dataset is to add three-dimensional rotation of viewpoints and projective transformation in accordance with changes in internal parameters.
例えば、元のデータセット(既存の多視点画像データセット)の画像から、新しい多視点画像データセット(新しい多視点画像データセット)の画像への射影変換行列は(7)式を用いて計算することができる。 For example, the projective transformation matrix from the image of the original dataset (existing multi-view image dataset) to the image of the new multi-view image dataset (new multi-view image dataset) is calculated using equation (7). be able to.
このとき、あるひとつの対象物体を撮影した一連の多視点画像に対して、すべて同じ射影変換行列で射影変換を行っても、画像間の画像変形は変わらない。 At this time, even if a series of multi-view images of a single target object are all subjected to projective transformation using the same projective transformation matrix, the image deformation between the images will not change.
そこで、多視点画像の各画像について、異なる射影変換行列で射影変換を行う必要がある。例えば、多視点画像の各画像について、すべて異なるランダムな内部パラメータと視点の回転行列の組合せを用いる方法がある。 Therefore, it is necessary to perform projective transformation on each image of the multi-view image using a different projective transformation matrix. For example, there is a method of using a combination of random internal parameters and viewpoint rotation matrices that are all different for each image of a multi-view image.
ここで、回転行列の回転角によっては、元の画像と新しい画像の共通領域が非常に小さくなる場合があり得る。このため、例えば、元の画像と新しい画像の共通領域について、画像全体に対する共通領域の面積比に閾値を設け、共通領域の画像全体に対する割合が閾値を超えるような回転行列と内部パラメータを選ぶ方法がある。 Here, depending on the rotation angle of the rotation matrix, the common area between the original image and the new image may become very small. For this reason, for example, for the common area between the original image and the new image, a threshold is set for the area ratio of the common area to the entire image, and a rotation matrix and internal parameters are selected such that the ratio of the common area to the entire image exceeds the threshold. There is.
視点の三次元回転が加わる場合、機械学習用の多視点画像データセットについて、デプスマップに対して画像変形を加えるだけでは整合性が取れなくなる。そのため、元のデータセットのデプスマップから、隣接ピクセル間をつないだ三次元メッシュモデルを生成し、そのメッシュモデルを新しいカメラパラメータで投影してデプスマップを再度作り直す必要がある。 When three-dimensional rotation of viewpoints is added, consistency cannot be achieved simply by adding image deformation to the depth map for a multi-view image dataset for machine learning. Therefore, it is necessary to generate a three-dimensional mesh model that connects adjacent pixels from the depth map of the original data set, project the mesh model using new camera parameters, and recreate the depth map again.
新しいデータセットのカメラパラメータについては、内部パラメータは、新しいデータセットの内部パラメータであるKnを用いる。外部パラメータは、回転行列と並進ベクトルに新しいデータセットの回転行列であるRo→nを加える。 For the camera parameters of the new dataset, the intrinsic parameter uses K n , which is the intrinsic parameter of the new dataset. The external parameters add the rotation matrix of the new data set, Ro →n, to the rotation matrix and translation vector.
既存の多視点画像データセットから新しい多視点画像データセットを作成する方法について、上述した画像変形を組み合わせても良い。 Regarding the method of creating a new multi-view image data set from an existing multi-view image data set, the image transformations described above may be combined.
また、上述した画像変形による多視点画像データセットの作成について、異なる回転角や異なる拡大縮小率、および、これらの組み合わせに応じた画像変形を行うことによって、新しい多視点画像データセットを作成しても良い。例えば、二次元回転の回転角と拡大縮小率を、異なる乱数の組に応じて設定すれば、異なる画像変形を含む新しい多視点画像データセットを、多数生成することができる。 In addition, regarding the creation of a multi-view image dataset by image deformation as described above, a new multi-view image dataset can be created by performing image deformation according to different rotation angles, different scaling ratios, and combinations of these. Also good. For example, by setting the rotation angle and scaling ratio of two-dimensional rotation according to different sets of random numbers, it is possible to generate a large number of new multi-view image data sets including different image transformations.
ここで、多視点画像データセットにおいては、各参照視点画像に対する近傍視点画像群の選び方によって基線長が変化する。そのため、各参照視点画像に対する近傍視点画像群の選び方によって、視点間の画像変形の大きさも変化する。 Here, in a multi-view image data set, the baseline length changes depending on how a group of neighboring viewpoint images is selected for each reference viewpoint image. Therefore, the magnitude of image deformation between viewpoints also changes depending on how to select a group of neighboring viewpoint images for each reference viewpoint image.
例えば、参照視点画像に対する近傍視点画像群の選び方として、基線長に基づく方法がある。基線長に基づく手法では、参照視点画像と他の多視点画像との基線長を求め、基線長が短い順にN枚の多視点画像を選択し、選択した多視点画像を、参照視点画像に対する近傍視点画像群とする。 For example, as a method of selecting a group of neighboring viewpoint images with respect to a reference viewpoint image, there is a method based on the baseline length. In the method based on the baseline length, the baseline length between the reference viewpoint image and other multi-view images is determined, N multi-view images are selected in descending order of the baseline length, and the selected multi-view images are compared to the vicinity of the reference viewpoint image. A group of viewpoint images.
また、基線長に対する適正値をあらかじめ設定しておき、参照視点画像との基線長が適正値に近い順に近傍視点画像群を選択しても良い。また、基線長に対する下限と上限のどちらか一方、または両方をあらかじめ設定しておき、基線長がその範囲内に含まれる多視点画像から近傍視点画像群を選択しても良い。また、基線長に対する適正値や、基線長に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、基線長に対する適正値と、基線長に対する下限と上限とを乱数によって設定すれば、互いに異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。 Alternatively, an appropriate value for the baseline length may be set in advance, and a group of neighboring viewpoint images may be selected in the order in which the baseline length with respect to the reference viewpoint image is closest to the appropriate value. Alternatively, one or both of a lower limit and an upper limit for the baseline length may be set in advance, and a group of nearby viewpoint images may be selected from multi-view images whose baseline lengths are within the range. Further, a plurality of multi-view image data sets may be created while changing the appropriate value for the baseline length and the lower and upper limits for the baseline length. For example, by setting an appropriate value for the baseline length and a lower limit and an upper limit for the baseline length using random numbers, it is possible to generate a large number of multi-view image data sets having mutually different neighboring viewpoint image groups.
近傍視点画像群の選び方として、上述の基線長に基づく手法の代わりに、光軸のなす角で近傍視点画像群を選択しても良い。光軸のなす角に基づく手法では、参照視点画像の光軸と他の多視点画像の光軸がなす角を求め、光軸のなす角が小さい順にN枚の多視点画像を選択し、選択した多視点画像を近傍視点画像群とする。 As a method of selecting a group of nearby viewpoint images, instead of the method based on the base line length described above, a group of nearby viewpoint images may be selected based on the angle formed by the optical axis. In the method based on the angle formed by the optical axis, the angle formed by the optical axis of the reference viewpoint image and the optical axis of other multi-view images is determined, and N multi-view images are selected in descending order of the angle formed by the optical axes. The multi-view images obtained are defined as a group of nearby viewpoint images.
また、光軸のなす角に対する適正値をあらかじめ設定しておき、参照視点画像との光軸のなす角が、設定された適正値に近い順に近傍視点画像群を選択しても良い。また、光軸のなす角に対する下限と上限のどちらか一方または両方をあらかじめ設定しておき、光軸のなす角がその範囲内に含まれる多視点画像から、近傍視点画像群を選択しても良い。また、光軸のなす角に対する適正値や、光軸のなす角に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、光軸のなす角に対する適正値と、光軸のなす角に対する下限と上限とを乱数によって設定すれば、異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。 Alternatively, an appropriate value for the angle formed by the optical axis may be set in advance, and a group of neighboring viewpoint images may be selected in the order in which the angle formed by the optical axis with the reference viewpoint image is closest to the set appropriate value. Alternatively, you can set either or both of the lower limit and upper limit for the angle formed by the optical axis in advance, and select a group of nearby viewpoint images from among the multi-view images whose angles formed by the optical axis are within that range. good. Further, a plurality of multi-view image datasets may be created while changing the appropriate value for the angle formed by the optical axis and the lower and upper limits for the angle formed by the optical axis. For example, by setting an appropriate value for the angle formed by the optical axis and a lower limit and an upper limit for the angle formed by the optical axis using random numbers, it is possible to generate a large number of multi-view image data sets having different neighboring viewpoint image groups.
近傍視点群の選び方として、上述の基線長に基づく手法、及び光軸のなす角に基づく手法の代わりに、視差角に基づく手法を用いて近傍視点画像群を選択しても良い。 As for how to select a group of nearby viewpoints, instead of the method based on the base line length and the method based on the angle formed by the optical axis described above, a method based on a parallax angle may be used to select the group of nearby viewpoint images.
視差角に基づく手法では、1点以上の三次元点において参照視点画像と他の多視点画像との視差角を求め、視差角の平均値が小さい順にN枚の多視点画像を選択し、選択した多視点画像を近傍視点群とする。 In the method based on parallax angle, the parallax angle between the reference viewpoint image and other multi-view images is determined at one or more three-dimensional points, and N multi-view images are selected in descending order of the average value of the parallax angle. The multi-view images obtained are defined as a group of nearby viewpoints.
また、視差角の平均値に対する適正値をあらかじめ設定しておき、参照視点画像との視差角の平均値が適正値に近い順に近傍視点画像群を選択しても良い。また、視差角の平均値に対する下限と上限のどちらか一方または両方をあらかじめ設定しておき、視差角の平均値がその範囲内に含まれる多視点画像から近傍視点画像群を選択しても良い。また、視差角の平均値に対する適正値や、視差角の平均値に対する下限と上限を変えながら、複数の多視点画像データセットを作成しても良い。例えば、視差角の平均値に対する適正値と、視差角の平均値に対する下限と上限とを乱数によって設定すれば、異なる近傍視点画像群を有する多視点画像データセットを、多数生成することができる。 Alternatively, an appropriate value for the average value of the parallax angle may be set in advance, and a group of neighboring viewpoint images may be selected in the order in which the average value of the parallax angle with respect to the reference viewpoint image is closer to the appropriate value. Alternatively, one or both of a lower limit and an upper limit for the average value of the parallax angle may be set in advance, and a group of nearby viewpoint images may be selected from multi-view images whose average value of the parallax angle is within the range. . Further, a plurality of multi-view image datasets may be created while changing the appropriate value for the average value of the parallax angle and the lower and upper limits for the average value of the parallax angle. For example, by setting an appropriate value for the average value of the parallax angle and a lower limit and an upper limit for the average value of the parallax angle using random numbers, it is possible to generate a large number of multi-view image data sets having different neighboring viewpoint image groups.
上述した既存の多視点画像データセットから新しい多視点画像データセットを作成する方法について、機械学習に適用する場合、学習の事前に新しいデータセットを作成して準備しておいても良いし、学習における各繰り返しの中で新しいデータセットを作りながら学習させても良い。学習における各繰り返しの中で新しいデータセットを作りながら学習させる場合、事前に準備しておく場合に比べて、処理時間が長くなるが、メモリやハードディスクに記憶しておくデータ容量が小さくなるという利点がある。 When applying the above-mentioned method of creating a new multi-view image dataset from an existing multi-view image dataset to machine learning, you can prepare a new dataset by creating it in advance of learning, or Learning may be performed by creating a new data set during each iteration. If you train while creating a new data set during each iteration of learning, the processing time will be longer than if you prepare it in advance, but the advantage is that the amount of data stored in memory or hard disk will be smaller. There is.
上述した既存の多視点画像データセットから新しい多視点画像データセットを作成する方法は、多視点ステレオアルゴリズムの画像変形に対するロバスト性の評価に利用することもできると共に、機械学習における学習用のデータセットの拡充にも利用することができる。 The above method of creating a new multi-view image dataset from an existing multi-view image dataset can be used to evaluate the robustness of a multi-view stereo algorithm against image deformation, and can also be used as a learning dataset in machine learning. It can also be used to expand.
一般に、多視点画像においては、対象物体における三次元形状と、多視点画像における各視点の位置及び姿勢とに依存した様々な画像変形が含まれる。様々な対象物体や、様々な撮影状況に対応できるようにモデルを学習させるためには、多くの対象物体について、複数の撮影状況で撮像した多視点画像データセットを作成する必要がある。 Generally, a multi-view image includes various image deformations depending on the three-dimensional shape of the target object and the position and orientation of each viewpoint in the multi-view image. In order to train a model to handle various target objects and various shooting situations, it is necessary to create multi-view image data sets of many target objects captured under multiple shooting situations.
一方、多くの画像変形に対応させようとすると、必要なデータセットが膨大になり、作業負荷が増加する。これに対して、上述の多視点画像データセットを作成する方法を適用すれば、少数の多視点画像データセットから、より多様な画像変形を含む多視点画像データセットを、多数生成することができる。このようにして生成された、多様な画像変形を含む多視点画像データセットを用いて機械学習モデルを学習させることによって、多視点画像における画像変形に対するロバスト性が向上した学習済モデルを生成することが可能となる。 On the other hand, when attempting to accommodate many image transformations, the required data set becomes enormous and the workload increases. On the other hand, by applying the method for creating multi-view image datasets described above, it is possible to generate a large number of multi-view image datasets that include more diverse image transformations from a small number of multi-view image datasets. . By training a machine learning model using the thus generated multi-view image dataset containing various image deformations, a trained model with improved robustness against image deformations in multi-view images is generated. becomes possible.
ここで、実際の多視点画像データセットを使用して確認した本発明の効果について説明する。本実施形態の効果を確認するために用いる多視点画像データセットとして、多視点ステレオ評価用の公開データセットであるDTU-MVSデータセットを利用した。 Here, the effects of the present invention confirmed using an actual multi-view image data set will be described. As a multi-view image data set used to confirm the effects of this embodiment, the DTU-MVS data set, which is a public data set for multi-view stereo evaluation, was used.
図7(図7A及び図7B)は、本実施形態の効果を説明するための図である。本実施形態の効果を確認するために用いた多視点画像データセットの例が示されている。図7Aには、学習用データセットの例が示されている。図7Bには、評価用データセットの例が示されている。 FIG. 7 (FIGS. 7A and 7B) is a diagram for explaining the effects of this embodiment. An example of a multi-view image dataset used to confirm the effects of this embodiment is shown. FIG. 7A shows an example of a training data set. FIG. 7B shows an example of the evaluation data set.
図7Aに示すように、学習用データセットには、非特許文献1に示されるような、画像変形を加えない多視点画像であって、参照視点画像との基線長が比較的短い多視点画像を、その近傍視点画像に対する近傍視点画像群として選択した。
As shown in FIG. 7A, the training dataset includes multi-view images that are not subjected to image deformation and have a relatively short baseline length from the reference viewpoint image, as shown in
一方、図7Bに示すように、評価用データセットには、近傍視点画像群を選択する方法は、学習用データセットと同じであるが、多視点画像にランダムな二次元回転を加えたデータセットを利用した。 On the other hand, as shown in FIG. 7B, the evaluation dataset uses the same method of selecting neighboring viewpoint images as the training dataset, but is a dataset with random two-dimensional rotation added to the multi-view images. was used.
非特許文献1に示されるMVSNet(従来技術)と、本実施形態のそれぞれの方法を用いて、学習用データセットにて機械学習モデルを学習させたそれぞれの学習済モデルを用いて、評価用データセットに基づく三次元点群を生成する。
Using MVSNet (prior art) shown in
それぞれの学習済モデルが、評価用データセットに基づいて生成した三次元点群、及びDTU-MVSデータセットに含まれる真値の三次元点群を、図8に示す。 FIG. 8 shows the three-dimensional point cloud generated by each trained model based on the evaluation data set and the three-dimensional point cloud of true values included in the DTU-MVS dataset.
図8は、本実施形態の効果を説明するための図である。図8には、DTU-MVSデータセットに含まれる真値の三次元点群、及び従来技術と本実施形態のそれぞれの方法によって学習させ学習済モデルが評価用データセットに基づいて生成した三次元点群が示されている。図8ではモノクロ画像で示しているが、図8に示す各三次元点群は色付きの三次元点群である。 FIG. 8 is a diagram for explaining the effects of this embodiment. FIG. 8 shows a three-dimensional point cloud of true values included in the DTU-MVS dataset, and a three-dimensional point group generated by the trained model based on the evaluation dataset using the conventional technology and the method of this embodiment. A point cloud is shown. Although shown as a monochrome image in FIG. 8, each three-dimensional point group shown in FIG. 8 is a colored three-dimensional point group.
図8に示すように、MVSNet(従来技術)では、多くの未復元領域が発生している。これは、MVSNetでは、多視点画像間の画像変形として平行移動しか対応することができないため、画像間における二次元回転を含む評価用データセットでは、正確な三次元点が求められないためであると考えられる。 As shown in FIG. 8, in MVSNet (prior art), many unrestored areas occur. This is because MVSNet can only support parallel translation as an image deformation between multi-view images, and accurate three-dimensional points cannot be found in evaluation datasets that include two-dimensional rotation between images. it is conceivable that.
これに対して、本実施形態では、画像間における二次元回転を含む評価用データセットを用いた場合であっても、正確な三次元点を求めることが可能である。このように、本実施形態を用いることで、多視点画像間における画像変形に対するロバスト性が向上することが確認できる。 In contrast, in this embodiment, even when using an evaluation data set that includes two-dimensional rotation between images, it is possible to obtain accurate three-dimensional points. In this way, it can be confirmed that by using this embodiment, the robustness against image deformation between multi-view images is improved.
以上説明したように、実施形態の特徴マップ生成装置1は、多視点画像における特徴マップを生成する特徴マップ生成装置である。多視点画像は、対象物体を互いに異なる複数の視点から撮像した2枚以上の画像である。特徴マップ生成装置1は、カーネル変形方法決定部100と、カーネル変形部101と、畳込演算部102を備える。カーネル変形方法決定部100は、多視点画像に含まれる対象視点画像(第1対象視点画像)に対して、三次元座標、法線方向、及び、その対象視点画像に対応するカメラパラメータ(第1カメラパラメータ)を用いて、カーネルにおける特定の座標が、その対象視点画像における対応点の座標に変換されるように、その対象視点画像に対応するカーネルの変形方法(第1変形方法)を決定する。カーネル変形部101は、基準カーネルを、カーネル変形方法決定部100によって決定された変形方法を用いて変形することによって、その対象視点画像に対応する変形後カーネル(第1変形後カーネル)を生成する。畳込演算部102は、カーネル変形部101によって生成された変形後カーネルを用いて、その対象視点画像に対する畳込演算を行うことによって、その対象視点画像に対応する特徴マップ(第1特徴マップ)を生成する。
As described above, the feature
これにより、実施形態の特徴マップ生成装置1では、画像における画像変形に応じて基準カーネルを変形させた変形後カーネルを用いて、その画像における特徴量を抽出することができる。したがって、画像変形が大きい多視点画像を用いた場合であっても、高精度な三次元復元が可能な特徴マップを生成することができる。
Thereby, the feature
また、実施形態の特徴マップ生成装置1では、カーネル変形方法決定部100は、多視点画像に含まれる対象視点画像であって、互いに異なる2つの画像に対応するカメラパラメータ(第1カメラパラメータ、及び第2カメラパラメータ)を取得する。カーネル変形方法決定部100は、三次元座標、法線方向、及び、その2つの画像に対応するカメラパラメータ(第1カメラパラメータ、及び第2カメラパラメータ)を用いて、その2つの画像のうち、一方の画像における対応点の座標が、他方の画像における対応点の座標に変換されるように、他方の画像に対応するカーネルの変形方法を決定する。例えば、カーネル変形方法決定部100は、第1対象視点画像の第1カメラパラメータ、及び第2対象視点画像の第2カメラパラメータをもちいて、第2対象視点画像における対応点の座標が、第1対象視点画像における対応点の座標に変換されるように、第1対象視点画像に対応するカーネルの変形方法、すなわち第1変形方法を決定する。これにより、実施形態の特徴マップ生成装置1では、2つの画像間における画像変形を考慮して変形方法を決定することができ、上述した効果と同様の効果を奏する。
Further, in the feature
上述した実施形態において、特徴マップ生成装置1では、カーネル変形部101は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定する。カーネル変形部101は、共通する同一の基準カーネルを、カーネル変形方法決定部100によって決定された組合せの各々に対応する変形方法を用いて変形することによって、組合せの各々に対応する変形後カーネルを生成する。これにより、実施形態の特徴マップ生成装置1では、三次元座標、法線方向及びカメラパラメータの組合せ毎に変形方法を決定することができ、上述した効果と同様の効果を奏する。
In the embodiment described above, in the feature
上述した実施形態において、特徴マップ生成装置1では、カーネル変形方法決定部100は、対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、その対象視点画像のピクセル毎に、変形方法を決定する。カーネル変形部101は、基準カーネルを、その対象視点画像のピクセル毎に、その対象視点画像のピクセル毎に決定された変形方法を用いて変形することによって、その対象視点画像のピクセルの各々に対応する変形後カーネルをそれぞれ生成する。畳込演算部102は、その対象視点画像のピクセル毎に生成された変形後カーネルを用いて、その対象視点画像における各ピクセルにおける畳込演算を行うことによって、特徴マップを生成する。これにより、実施形態の特徴マップ生成装置1では、対象視点画像のピクセル毎に変形方法を決定することができ、上述した効果と同様の効果を奏する。
In the embodiment described above, in the feature
上述した実施形態において、特徴マップ生成装置1では、カーネル変形部101は、基準カーネルを、カーネル変形方法決定部100により決定された変形方法を用いて変形した、実数の二次元座標を持つカーネルを仮変形後カーネル(第1仮変形後カーネル)とする。カーネル変形部101は、その仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、整数の二次元座標を持つ変形後カーネル(第1変形後カーネル)を生成する。これにより、実施形態の特徴マップ生成装置1では、畳込演算の計算コストを増大させる実数の二次元座標を持つカーネルを、整数の二次元座標を持つ変形後カーネルに変換することができ、計算コストの増大を抑制することができる。
In the embodiment described above, in the feature
上述した実施形態において、特徴マップ生成装置1では、カーネル変形方法決定部100は、互いに異なる複数の法線方向の各々に対応する変形方法をそれぞれ決定する。カーネル変形部101は、基準カーネルを、法線方向の各々に対して決定された変形方法を用いて変形することによって、法線方向の各々に対応する変形後カーネルを生成する。畳込演算部102は、法線方向の各々に対して生成された変形後カーネルを用いて、対象視点画像に対する畳込演算を行うことによって、法線方向の各々に対応する特徴マップをそれぞれ生成する。これにより、実施形態の特徴マップ生成装置1では、対象物体における三次元点について複数の法線方向を仮定した場合における、それぞれの特徴マップを生成することができ、上述した効果と同様の効果を奏する。
In the embodiment described above, in the feature
上述した実施形態において、特徴マップ生成装置1は、コスト値計算部103を更に備える。コスト値計算部103は、複数の特徴マップにおける対応点からコスト値を計算する。コスト値計算部103は、法線方向の各々に対応する特徴マップにおける対応点のそれぞれの特徴量から算出される、対応点の特徴量が類似する度合に基づく仮のコスト値(仮コスト値)を計算する。コスト値計算部103は、法線方向の各々に対応して計算された仮コスト値のうち、対応点の特徴量が類似する仮コスト値を、最終的なコスト値とする。これにより、実施形態の特徴マップ生成装置1では、対象物体における三次元点について複数の法線方向を仮定した場合における、それぞれの対応点のコスト値が類似する度合から、特徴量が最も類似する法線方向を真の法線方向に近い法線方向として特定することができる。
In the embodiment described above, the feature
上述した実施形態における特徴マップ生成装置1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
All or part of the feature
上述したコンピュータは、量子コンピュータであってもよい。量子コンピュータは、例えば、量子力学的な重ね合わせの原理を用いた並列計算を行うコンピュータであり、従来型のコンピュータより指数関数的に高速な計算が可能なコンピュータである。量子コンピュータを用いることによって、畳込演算などを実行する際に高速な計算が可能となる。 The computer mentioned above may be a quantum computer. A quantum computer is, for example, a computer that performs parallel calculations using the quantum mechanical principle of superposition, and is a computer that can perform calculations exponentially faster than conventional computers. By using quantum computers, high-speed calculations such as convolution operations are possible.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計、装置構成等も含まれる。 Although the embodiments of this invention have been described above in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and includes designs, device configurations, etc. within the scope of the gist of this invention. It will be done.
なお、以下の各発明も本発明に含まれる。 Note that the following inventions are also included in the present invention.
(発明1)
対象物体が互いに異なる複数の視点から撮像された2以上の多視点画像における特徴マップを生成する特徴マップ生成装置であって、
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、
を備える特徴マップ生成装置。
(Invention 1)
A feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints,
For a first target viewpoint image included in the multi-view image, specific coordinates in the kernel are determined using three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. a kernel deformation method determination unit that determines a first deformation method that is a deformation method of the kernel corresponding to the first target viewpoint image so that
a kernel transformation unit that generates a first transformed kernel that is a kernel used in a convolution operation on the first target viewpoint image by transforming a reference kernel that is a reference using the first transformation method;
A feature amount in the first target viewpoint image is extracted by performing a convolution operation on the first target viewpoint image using the first transformed kernel, and a feature amount is extracted from the first target viewpoint image using the extracted feature amount. a convolution operation unit that generates a corresponding first feature map;
A feature map generation device comprising:
(発明2)
前記カーネル変形方法決定部は、前記多視点画像に含まれる第2対象視点画像であって、前記第1対象視点画像とは異なる第2対象視点画像に対応するカメラパラメータである第2カメラパラメータを取得し、前記三次元座標、前記法線方向、前記第1カメラパラメータ及び前記第2カメラパラメータを用いて、前記第2対象視点画像における対応点の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1変形方法を決定する、
発明1に記載の特徴マップ生成装置。
(Invention 2)
The kernel deformation method determining unit determines a second camera parameter that is a camera parameter corresponding to a second target viewpoint image that is included in the multi-view image and is different from the first target viewpoint image. and using the three-dimensional coordinates, the normal direction, the first camera parameter, and the second camera parameter, the coordinates of the corresponding point in the second target viewpoint image are determined as the corresponding point in the first target viewpoint image. determining the first transformation method so that the coordinates of
A feature map generation device according to
(発明3)
前記カーネル変形方法決定部は、三次元座標、法線方向及びカメラパラメータの組合せ毎にカーネルの変形方法を決定し、
前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する、
発明1または発明2に記載の特徴マップ生成装置。
(Invention 3)
The kernel deformation method determining unit determines a kernel deformation method for each combination of three-dimensional coordinates, normal direction, and camera parameters,
The kernel transformation unit generates the first transformed kernel corresponding to each of the combinations by transforming the same and common reference kernel using a transformation method determined for each of the combinations. do,
A feature map generation device according to
(発明4)
前記カーネル変形方法決定部は、前記第1対象視点画像のピクセル毎に設定した三次元座標又は法線方向の少なくとも一方を用いて、前記第1対象視点画像のピクセル毎に前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する、
発明1から発明3のいずれか1つに記載の特徴マップ生成装置。
(Invention 4)
The kernel deformation method determining unit applies the first deformation method to each pixel of the first target viewpoint image using at least one of three-dimensional coordinates or a normal direction set for each pixel of the first target viewpoint image. decided,
The kernel deformation unit deforms the reference kernel for each pixel of the first target viewpoint image using the first deformation method determined for each pixel of the first target viewpoint image. generating the first transformed kernel corresponding to each pixel of one target viewpoint image;
The convolution calculation unit performs a convolution calculation on each pixel in the first target viewpoint image using the first transformed kernel generated for each pixel in the first target viewpoint image, thereby 1 Generate a feature map,
The feature map generation device according to any one of
(発明5)
前記カーネル変形部は、前記基準カーネルを、前記第1変形方法を用いて変形したカーネルを第1仮変形後カーネルとし、前記第1仮変形後カーネルに対して正方格子で配置された座標を用いた補間処理を行うことにより、前記第1変形後カーネルを生成する、
発明1から発明4のいずれか1つに記載の特徴マップ生成装置。
(Invention 5)
The kernel deformation unit deforms the reference kernel using the first deformation method as a first temporary deformation kernel, and uses coordinates arranged in a square lattice for the first temporary deformation kernel. generating the first transformed kernel by performing interpolation processing,
The feature map generation device according to any one of
(発明6)
前記カーネル変形方法決定部は、互いに異なる複数の法線方向の各々に対応する前記第1変形方法を決定し、
前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する、
発明1から発明5のいずれか1つに記載の特徴マップ生成装置。
(Invention 6)
The kernel deformation method determining unit determines the first deformation method corresponding to each of a plurality of mutually different normal directions,
The kernel deformation unit deforms the reference kernel using the first deformation method determined for each of the normal directions, thereby deforming the reference kernel after the first deformation corresponding to each of the normal directions. generate the kernel,
The convolution operation unit performs a convolution operation on the first target viewpoint image using the first transformed kernel generated for each of the normal directions, thereby generating the first feature map corresponding to
The feature map generation device according to any one of
(発明7)
複数の前記特徴マップにおける対応点からコスト値を計算するコスト値計算部を更に備え、
前記コスト値計算部は、
前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、
前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が最も類似する前記仮コスト値を、前記コスト値とする、
発明6に記載の特徴マップ生成装置。
(Invention 7)
further comprising a cost value calculation unit that calculates a cost value from corresponding points in the plurality of feature maps,
The cost value calculation unit includes:
Calculating a provisional cost value based on the degree to which the feature amounts of the corresponding points are similar, calculated from the feature amounts of each of the corresponding points in the first feature map corresponding to each of the normal directions,
Among the provisional cost values calculated corresponding to each of the normal directions, the provisional cost value with the most similar feature amount of the corresponding point is set as the cost value;
The feature map generation device according to invention 6.
1…特徴マップ生成装置
100…カーネル変形方法決定部
101…カーネル変形部
102…畳込演算部
103…コスト値計算部
1...Feature
Claims (9)
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定するカーネル変形方法決定部と、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成するカーネル変形部と、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する畳込演算部と、
を備える特徴マップ生成装置。 A feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints,
For a first target viewpoint image included in the multi-view image, specific coordinates in the kernel are determined using three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. a kernel deformation method determination unit that determines a first deformation method that is a deformation method of the kernel corresponding to the first target viewpoint image so that
a kernel transformation unit that generates a first transformed kernel that is a kernel used in a convolution operation on the first target viewpoint image by transforming a reference kernel that is a reference using the first transformation method;
A feature amount in the first target viewpoint image is extracted by performing a convolution operation on the first target viewpoint image using the first transformed kernel, and a feature amount is extracted from the first target viewpoint image using the extracted feature amount. a convolution operation unit that generates a corresponding first feature map;
A feature map generation device comprising:
請求項1に記載の特徴マップ生成装置。 The kernel deformation method determining unit determines a second camera parameter that is a camera parameter corresponding to a second target viewpoint image included in the multi-view image and that is different from the first target viewpoint image. and using the three-dimensional coordinates, the normal direction, the first camera parameter, and the second camera parameter, the coordinates of the corresponding point in the second target viewpoint image are determined as the corresponding point in the first target viewpoint image. determining the first transformation method so that the coordinates of
The feature map generation device according to claim 1.
前記カーネル変形部は、共通する同一の前記基準カーネルを、前記組合せの各々に対して決定された変形方法を用いて変形することによって、前記組合せの各々に対応する前記第1変形後カーネルを生成する、
請求項1に記載の特徴マップ生成装置。 The kernel deformation method determining unit determines a kernel deformation method for each combination of three-dimensional coordinates, normal direction, and camera parameters,
The kernel transformation unit generates the first transformed kernel corresponding to each of the combinations by transforming the same and common reference kernel using a transformation method determined for each of the combinations. do,
The feature map generation device according to claim 1.
前記カーネル変形部は、前記基準カーネルを、前記第1対象視点画像のピクセル毎に、前記第1対象視点画像のピクセル毎に決定された前記第1変形方法を用いて変形することによって、前記第1対象視点画像のピクセルの各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記第1対象視点画像のピクセル毎に生成された前記第1変形後カーネルを用いて、前記第1対象視点画像における各ピクセルにおける畳込演算を行うことによって、前記第1特徴マップを生成する、
請求項1に記載の特徴マップ生成装置。 The kernel deformation method determining unit applies the first deformation method to each pixel of the first target viewpoint image using at least one of three-dimensional coordinates or a normal direction set for each pixel of the first target viewpoint image. decided,
The kernel deformation unit deforms the reference kernel for each pixel of the first target viewpoint image using the first deformation method determined for each pixel of the first target viewpoint image. generating the first deformed kernel corresponding to each pixel of one target viewpoint image;
The convolution operation unit performs a convolution operation on each pixel in the first target viewpoint image using the first transformed kernel generated for each pixel in the first target viewpoint image. 1 Generate a feature map,
The feature map generation device according to claim 1.
請求項1に記載の特徴マップ生成装置。 The kernel deformation unit deforms the reference kernel using the first deformation method as a first temporary deformation kernel, and uses coordinates arranged in a square lattice for the first temporary deformation kernel. generating the first transformed kernel by performing interpolation processing,
The feature map generation device according to claim 1.
前記カーネル変形部は、前記基準カーネルを、前記法線方向の各々に対して決定された前記第1変形方法を用いて変形することによって、前記法線方向の各々に対応する前記第1変形後カーネルを生成し、
前記畳込演算部は、前記法線方向の各々に対して生成された前記第1変形後カーネルを用いて、前記第1対象視点画像に対する畳込演算を行うことによって、前記法線方向の各々に対応する前記第1特徴マップを生成する、
請求項1に記載の特徴マップ生成装置。 The kernel deformation method determining unit determines the first deformation method corresponding to each of a plurality of mutually different normal directions,
The kernel deformation unit deforms the reference kernel using the first deformation method determined for each of the normal directions, thereby deforming the reference kernel after the first deformation corresponding to each of the normal directions. generate the kernel,
The convolution operation unit performs a convolution operation on the first target viewpoint image using the first transformed kernel generated for each of the normal directions, thereby generating the first feature map corresponding to
The feature map generation device according to claim 1.
前記コスト値計算部は、
前記法線方向の各々に対応する前記第1特徴マップにおける対応点のそれぞれの特徴量から算出される、前記対応点の特徴量が類似する度合に基づく仮コスト値を計算し、
前記法線方向の各々に対応して計算された前記仮コスト値のうち、前記対応点の特徴量が類似する前記仮コスト値を、前記コスト値とする、
請求項6に記載の特徴マップ生成装置。 further comprising a cost value calculation unit that calculates a cost value from corresponding points in the plurality of feature maps,
The cost value calculation unit includes:
Calculating a provisional cost value based on the degree to which the feature amounts of the corresponding points are similar, calculated from the feature amounts of each of the corresponding points in the first feature map corresponding to each of the normal directions,
Among the provisional cost values calculated corresponding to each of the normal directions, the provisional cost values having similar feature amounts at the corresponding points are set as the cost values;
The feature map generation device according to claim 6.
カーネル変形方法決定部が、前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定し、
カーネル変形部が、基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成し、
畳込演算部が、前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成する、
特徴マップ生成方法。 A feature map generation method performed by a feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints, the method comprising:
The kernel deformation method determining unit uses, for a first target viewpoint image included in the multi-view image, three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. determining a first deformation method, which is a method of deforming the kernel corresponding to the first target viewpoint image, so that specific coordinates in the kernel are converted to coordinates of a corresponding point in the first target viewpoint image;
a kernel transformation unit generates a first transformed kernel that is a kernel used in a convolution operation on the first target viewpoint image by transforming a reference kernel that is a reference using the first transformation method;
The convolution operation unit extracts a feature amount in the first target viewpoint image by performing a convolution operation on the first target viewpoint image using the first transformed kernel, and uses the extracted feature amount to perform a convolution operation on the first target viewpoint image. generating a first feature map corresponding to a first target viewpoint image;
Feature map generation method.
前記多視点画像に含まれる第1対象視点画像に対して、三次元座標、法線方向及び前記第1対象視点画像に対応するカメラパラメータである第1カメラパラメータを用いて、カーネルにおける特定の座標が、前記第1対象視点画像における対応点の座標に変換されるように、前記第1対象視点画像に対応するカーネルの変形方法である第1変形方法を決定させ、
基準となる基準カーネルを、前記第1変形方法を用いて変形することによって、前記第1対象視点画像に対する畳込演算に用いるカーネルである第1変形後カーネルを生成させ、
前記第1変形後カーネルを用いて前記第1対象視点画像に対する畳込演算を行うことによって前記第1対象視点画像における特徴量を抽出し、抽出した特徴量を用いて前記第1対象視点画像に対応する第1特徴マップを生成させる、
プログラム。 A program that causes a feature map generation device that generates feature maps in two or more multi-view images in which a target object is imaged from a plurality of different viewpoints to generate a feature map, the program comprising:
For a first target viewpoint image included in the multi-view image, specific coordinates in the kernel are determined using three-dimensional coordinates, a normal direction, and a first camera parameter that is a camera parameter corresponding to the first target viewpoint image. determines a first deformation method, which is a method of deforming a kernel corresponding to the first target viewpoint image, so that
Generating a first transformed kernel that is a kernel used in a convolution operation on the first target viewpoint image by transforming a reference kernel that is a reference using the first transformation method;
A feature amount in the first target viewpoint image is extracted by performing a convolution operation on the first target viewpoint image using the first transformed kernel, and a feature amount is extracted from the first target viewpoint image using the extracted feature amount. generating a corresponding first feature map;
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022111908A JP2024010527A (en) | 2022-07-12 | 2022-07-12 | Feature map generation apparatus, feature map generation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022111908A JP2024010527A (en) | 2022-07-12 | 2022-07-12 | Feature map generation apparatus, feature map generation method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024010527A true JP2024010527A (en) | 2024-01-24 |
Family
ID=89621072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022111908A Pending JP2024010527A (en) | 2022-07-12 | 2022-07-12 | Feature map generation apparatus, feature map generation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024010527A (en) |
-
2022
- 2022-07-12 JP JP2022111908A patent/JP2024010527A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154023B (en) | Based on the face super-resolution reconstruction method for generating confrontation network and sub-pix convolution | |
US7760932B2 (en) | Method for reconstructing three-dimensional structure using silhouette information in two-dimensional image | |
US8860712B2 (en) | System and method for processing video images | |
CN113706714A (en) | New visual angle synthesis method based on depth image and nerve radiation field | |
Stier et al. | Vortx: Volumetric 3d reconstruction with transformers for voxelwise view selection and fusion | |
EP1059611A1 (en) | Image processing apparatus | |
US20120032948A1 (en) | System and method for processing video images for camera recreation | |
KR20110116671A (en) | Apparatus and method for generating mesh, and apparatus and method for processing image | |
WO2023093824A1 (en) | Point cloud quality evaluation method, and device and storage medium | |
WO2015051624A1 (en) | Method and device for rebuilding three-dimensional object and terminal | |
KR102141319B1 (en) | Super-resolution method for multi-view 360-degree image and image processing apparatus | |
CN114463408A (en) | Free viewpoint image generation method, device, equipment and storage medium | |
Hornung et al. | Interactive pixel‐accurate free viewpoint rendering from images with silhouette aware sampling | |
CN114429531A (en) | Virtual viewpoint image generation method and device | |
CN116681839B (en) | Live three-dimensional target reconstruction and singulation method based on improved NeRF | |
JP2024010527A (en) | Feature map generation apparatus, feature map generation method, and program | |
JP2004302524A (en) | Three-dimensional modeling program, three-dimensional modeling control program, three-dimensional modeling data transmission program, recording medium and three-dimensional modeling method | |
CN116310228A (en) | Surface reconstruction and new view synthesis method for remote sensing scene | |
Madhusudana et al. | Revisiting dead leaves model: Training with synthetic data | |
Jäger et al. | A comparative Neural Radiance Field (NeRF) 3D analysis of camera poses from HoloLens trajectories and Structure from Motion | |
CN112116653B (en) | Object posture estimation method for multiple RGB pictures | |
Huang et al. | 360° stereo image composition with depth adaption | |
Srinivasan | Scene Representations for View Synthesis with Deep Learning | |
CN112907730B (en) | Three-dimensional point cloud reconstruction method and device and electronic equipment | |
Colom et al. | 3D shape reconstruction from non-realistic multiple-view depictions using NVDiffRec |