JP2018163467A - Method, device and program for generating and displaying free viewpoint image - Google Patents

Method, device and program for generating and displaying free viewpoint image Download PDF

Info

Publication number
JP2018163467A
JP2018163467A JP2017059554A JP2017059554A JP2018163467A JP 2018163467 A JP2018163467 A JP 2018163467A JP 2017059554 A JP2017059554 A JP 2017059554A JP 2017059554 A JP2017059554 A JP 2017059554A JP 2018163467 A JP2018163467 A JP 2018163467A
Authority
JP
Japan
Prior art keywords
image
camera
viewpoint
texture
projection image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017059554A
Other languages
Japanese (ja)
Other versions
JP6818606B2 (en
Inventor
浩嗣 三功
Hiroshi Sanko
浩嗣 三功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017059554A priority Critical patent/JP6818606B2/en
Publication of JP2018163467A publication Critical patent/JP2018163467A/en
Application granted granted Critical
Publication of JP6818606B2 publication Critical patent/JP6818606B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a method, device and program for generating and displaying a free viewpoint image, which can reproduce a 3D model of an object in a short period of time without damaging subjective quality even about an occlusion area.SOLUTION: When occlusion occurs between two objects Oj1, Oj2, the pixel value of a corresponding pixel of a camera image from which a rectangular projection image is extracted is acquired as texture about pixels other than an occlusion area. Since texture of a leg part of the object Oj1 cannot be acquired from a camera image of a viewpoint 2 being its extraction source camera image, a projection source voxel Bt is specified by ray search about pixels of the occlusion area (gray). Then, when the projection source voxel Bt is projected to other camera images to determine whether observation of the voxel is possible on the basis of a positional relation of three-dimensional shape models of the respective objects Oj1, Oj2, the pixel value of the corresponding pixel is acquired from an observable camera image.SELECTED DRAWING: Figure 4

Description

本発明は、自由視点画像の生成表示方法、装置およびプログラムに係り、特に、スポーツ競技等の比較的大きな空間で複数台のカメラを密に配置できない撮影条件に好適な自由視点画像の生成表示方法、装置およびプログラムに関する。   The present invention relates to a free viewpoint image generation and display method, apparatus, and program, and more particularly to a free viewpoint image generation and display method suitable for shooting conditions in which a plurality of cameras cannot be closely arranged in a relatively large space such as a sporting event. , Apparatus and program.

自由視点映像の生成手法は、大きくモデルベース型とイメージベース型とに分類される。モデルベース型の代表的な手法が非特許文献1に開示されている。非特許文献1では、被写体の3次元形状を3Dモデルとして復元し、3Dモデル表面を細かなポリゴンに分割した後、各ポリゴンのテクスチャを複数の撮影カメラ映像から取得して視点位置に応じて適切な割合でブレンドすることで、撮影カメラが存在しない視点からの映像を合成する。   Free viewpoint video generation methods are roughly classified into a model-based type and an image-based type. A typical model-based method is disclosed in Non-Patent Document 1. In Non-Patent Document 1, the 3D shape of a subject is restored as a 3D model, the surface of the 3D model is divided into fine polygons, and then the texture of each polygon is acquired from a plurality of shooting camera images and appropriate according to the viewpoint position. By blending at a proper ratio, the video from the viewpoint where there is no shooting camera is synthesized.

この手法は、理論的には任意視点での見え方を滑らかに再現することが可能であるが、最終的な合成画像が、ポリゴンの繋ぎ合わせとして表現される特性上、合成画像の品質が3Dモデルやカメラパラメータの精度に大きく依存するので、スポーツシーン等、カメラを密に配置できない場合の品質には限界がある。   Although this method can theoretically reproduce the appearance from an arbitrary viewpoint smoothly, the quality of the synthesized image is 3D due to the characteristic that the final synthesized image is represented as a combination of polygons. Since it greatly depends on the accuracy of the model and camera parameters, there is a limit to the quality when the cameras cannot be arranged closely, such as in a sports scene.

一方、イメージベース型の代表的な手法が非特許文献2に開示されている。非特許文献2では、各撮影カメラ映像から被写体の存在領域を抽出し、1枚の矩形型ポリゴンとして表現するビルボード方式が提案されている。   On the other hand, a typical image-based technique is disclosed in Non-Patent Document 2. Non-Patent Document 2 proposes a billboard method in which an existing area of a subject is extracted from each shooting camera video and expressed as a single rectangular polygon.

ビルボード方式では、被写体の3次元形状は復元しないが、対象とする3次元空間においてビルボードを設置する座標を算出し、撮影カメラ映像から取得される被写体領域のテクスチャをマッピングすることで、被写体同士や、被写体と背景との位置関係を任意視点において再現することが可能である。   In the billboard method, the 3D shape of the subject is not restored, but the subject is calculated by calculating the coordinates where the billboard is installed in the target 3D space and mapping the texture of the subject area obtained from the camera image. It is possible to reproduce the positional relationship between each other and the subject and the background at an arbitrary viewpoint.

ビルボード方式では、3Dモデル方式のような滑らかな見え方の変化を再現することはできないが、撮影カメラ映像のテクスチャを加工することなく、そのまま利用するため、3Dモデル方式に比べて高精細な見え方を実現できる。   The billboard method cannot reproduce the smooth changes in appearance as in the 3D model method, but it is used as it is without processing the texture of the shooting camera image, so it has higher definition than the 3D model method. You can see how it looks.

特開2015-191538号公報JP-A-2015-191538

T. Kanade, P. W. Rander, and P. J. Narayanan, "Virtualized Reality: Constructing Virtual Worlds from Real Scenes," IEEE Multimedia, vol. 4, no. 1, pp. 34-47, 1997.T. Kanade, P. W. Rander, and P. J. Narayanan, "Virtualized Reality: Constructing Virtual Worlds from Real Scenes," IEEE Multimedia, vol. 4, no. 1, pp. 34-47, 1997. Y. Ohta, I. Kitahara, Y. Kameda, H. Ishikawa, and T. Koyama, "Live 3D Video in Soccer Stadium," International Journal of Computer Vision (IJCV), vol. 75, no. 1, pp. 173-187, 2007.Y. Ohta, I. Kitahara, Y. Kameda, H. Ishikawa, and T. Koyama, "Live 3D Video in Soccer Stadium," International Journal of Computer Vision (IJCV), vol. 75, no. 1, pp. 173 -187, 2007. Hiroshi Sankoh and Sei Naito, "Free-viewpoint Video Rendering in Large Outdoor Space such as Soccer Stadium based on Object Extraction and Tracking Technology," The Journal of The Institute of Image Information and Television Engineers (ITE), Vol. 68, No. 3, pp. J125-J134, 2014.Hiroshi Sankoh and Sei Naito, "Free-viewpoint Video Rendering in Large Outdoor Space such as Soccer Stadium based on Object Extraction and Tracking Technology," The Journal of The Institute of Image Information and Television Engineers (ITE), Vol. 68, No. 3, pp. J125-J134, 2014.

モデルベース型およびイメージベース型に共通する最大の課題として、撮影カメラ映像における被写体同士の重なり等によって生じるオクルージョンがある。特にビルボード方式では、各カメラ映像における被写体領域から取得されるテクスチャを加工することなくそのまま利用するため、別の被写体との重なり等によって観測できない領域が生じる場合、当該領域の見え方を再現することは不可能である。   The biggest problem common to the model base type and the image base type is occlusion caused by overlapping of subjects in the captured camera video. In particular, in the billboard method, the texture acquired from the subject area in each camera image is used as it is without being processed. Therefore, when an area that cannot be observed due to an overlap with another subject occurs, the appearance of the area is reproduced. It is impossible.

オクルージョン領域において、カメラに対して手前側に存在する被写体であっても、重なりの境界を適切に分離することは困難であるため、適切な被写体領域の抽出は難易度の高い課題であると言える。   Even in the occlusion area, it is difficult to properly separate the boundary of overlap even if the object is on the near side of the camera, so it can be said that the extraction of the appropriate object area is a difficult task. .

このような技術課題に対して、各被写体に個別IDを与え、時間方向でIDが保持されるよう追跡を行うことで、オクルージョンの検出と、フレーム間での補間を行う手法が非特許文献3および特許文献1に開示されている。   In order to deal with such technical problems, a technique for detecting occlusion and interpolating between frames by assigning an individual ID to each subject and performing tracking so that the ID is held in the time direction is described in Non-Patent Document 3. And Patent Document 1.

これらの先行技術は、複数カメラの情報を用いることで、オクルージョン領域における各被写体のテクスチャと、ビルボードの設置座標の各々をフレーム間で補間する手法を提案する。しかしながら、オクルージョンの継続時間(フレーム数)が長い場合、補間性能に限界があるために主観品質を損なう問題がある。   These prior arts propose a method of interpolating between the texture of each subject in the occlusion area and the installation coordinates of the billboard between frames by using information from a plurality of cameras. However, when the occlusion duration (the number of frames) is long, there is a problem of impairing subjective quality due to the limited interpolation performance.

また、追跡処理に誤りが含まれる場合、異なる被写体間でテクスチャや位置を補正することとなり、合成映像の主観品質を著しく損なうという課題もある。追跡誤りに対する頑健性を高める目的から、特許文献1では、目視による追跡IDの確認・修正を可能とする手法が提案されているが、非常に多くの時間を要するという課題がある。   Further, when an error is included in the tracking process, the texture and position are corrected between different subjects, and there is a problem that the subjective quality of the synthesized video is significantly impaired. For the purpose of improving robustness against tracking errors, Patent Document 1 proposes a technique that enables confirmation / correction of a tracking ID by visual observation. However, there is a problem that much time is required.

本発明の目的は、上記の技術課題を解決し、ビルボード方式での合成過程において各カメラにおける各オブジェクトの存在領域を個別に抽出することにより、ビルボード方式の固有の高精細な見え方を維持しながら、特にオクルージョン領域についても主観品質を損なうことなくオブジェクトの3Dモデルを短時間で再現できる自由視点画像の生成表示方法、装置およびプログラムを提供することにある。   The object of the present invention is to solve the above technical problem and individually extract the existence area of each object in each camera in the composition process in the billboard system, thereby providing a unique high-definition appearance of the billboard system. An object of the present invention is to provide a free viewpoint image generation and display method, apparatus, and program capable of reproducing a 3D model of an object in a short time without sacrificing subjective quality, particularly in an occlusion area.

上記の目的を達成するために、本発明は、自由視点画像の生成表示方法、装置およびプログラムにおいて、以下のような構成を具備した点に特徴がある。   In order to achieve the above object, the present invention is characterized in that a free viewpoint image generation and display method, apparatus, and program have the following configurations.

(1) 本発明の自由視点画像を生成して表示する装置は、オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて生成した3次元形状モデルを各視点へ投影し、各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出する手段と、オブジェクトごとに各視点における矩形投影画像のテクスチャを取得する手段と、各矩形投影画像およびそのテクスチャに基づいてビルボードを生成する手段と、自由視点を特定する情報に基づいてビルボードを表示するカメラを選択して、そのカメラに関して生成した全てのビルボードを表示する手段とを具備した。   (1) An apparatus for generating and displaying a free viewpoint image according to the present invention projects a three-dimensional shape model generated based on a plurality of camera images obtained by photographing an object from different viewpoints to each viewpoint, and a projected image of each object. Means for extracting a rectangular projection image including a portion for each viewpoint, means for obtaining a texture of the rectangular projection image at each viewpoint for each object, means for generating a billboard based on each rectangular projection image and its texture, Means for selecting a camera that displays a billboard based on information identifying a free viewpoint and displaying all billboards generated for that camera.

(2) 本発明のコンピュータが自由視点画像を生成して表示する方法は、オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて生成した3次元形状モデルを各視点へ投影し、各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出し、オブジェクトごとに各視点における矩形投影画像のテクスチャを対応するカメラ画像から取得し、各矩形投影画像およびそのテクスチャに基づいてビルボードを生成し、自由視点を特定する情報に基づいてビルボードを表示するカメラを選択して、そのカメラに関して生成した全てのビルボードを表示するようにした。   (2) The computer according to the present invention generates and displays a free viewpoint image by projecting a three-dimensional shape model generated based on a plurality of camera images obtained by photographing an object from different viewpoints to each viewpoint. A rectangular projection image including a projected image portion is extracted for each viewpoint, and the texture of the rectangular projection image at each viewpoint is acquired from each camera for each object, and a billboard is generated based on each rectangular projection image and its texture. The camera that displays the billboard is selected based on the information for specifying the free viewpoint, and all the billboards generated for the camera are displayed.

(3) 本発明の自由視点画像を生成して表示するプログラムは、オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて生成した3次元形状モデルを各視点へ投影し、各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出する手順と、オブジェクトごとに各視点における矩形投影画像のテクスチャを対応するカメラ画像から取得する手順と、前記各矩形投影画像およびそのテクスチャに基づいてビルボードを生成する手順と、自由視点を特定する情報に基づいてビルボードを表示するカメラを選択し、そのカメラに関して生成した全てのビルボードを表示する手順とを、コンピュータが実行可能に記述した。   (3) A program for generating and displaying a free viewpoint image according to the present invention projects a three-dimensional shape model generated based on a plurality of camera images obtained by photographing an object from different viewpoints to each viewpoint, and projects each object. A procedure for extracting a rectangular projection image including a part for each viewpoint, a procedure for obtaining a texture of the rectangular projection image at each viewpoint from a corresponding camera image for each object, and a billboard based on each rectangular projection image and its texture And a procedure for selecting a camera that displays a billboard based on information for specifying a free viewpoint and displaying all billboards generated for the camera.

(1) 自由視点映像の最終的な表示およびレンダリングはビルボード方式により実施することを前提に、合成過程でオブジェクトの三次元形状モデルを復元し、当該モデルの各カメラへの投影像を利活用することで、各カメラにおけるオクルージョン領域を検出し、オブジェクトごとの存在領域およびテクスチャを抽出できるようになる。   (1) Assuming that the final display and rendering of the free viewpoint video will be carried out using the billboard method, the 3D shape model of the object is restored during the synthesis process, and the projected image of each model on each camera is used. By doing so, it becomes possible to detect the occlusion area in each camera and extract the existence area and texture for each object.

すなわち、ビルボードを作成する際、非オクルージョン領域に関しては投影像の抽出元カメラ画像から対応画素のテクスチャを取得する一方、オクルージョン領域に関しては、抽出元カメラ以外のカメラ画像の対応画素からテクスチャを取得することができる。   That is, when creating a billboard, the texture of the corresponding pixel is acquired from the source image of the projection image for the non-occlusion area, while the texture is acquired from the corresponding pixel of the camera image other than the source camera for the occlusion area. can do.

したがって、主観品質を損なうことなくオブジェクトの3Dモデルを短時間で再現できるようになり、オクルージョンが頻繁に発生するようなシーンにおいても、手作業を必要とすることなく高品質な自由視点画像を自動生成することが可能となる。   Therefore, 3D models of objects can be reproduced in a short time without impairing subjective quality, and high-quality free viewpoint images are automatically generated without requiring manual work even in scenes where frequent occlusion occurs. Can be generated.

(2) 特に大空間を対象とする場合、被写体の3次元形状の復元性能には限界があるが、本発明では、視体積交差法で復元されるVisual Hullの各カメラへの投影像に注目することで、各カメラにおける被写体の存在領域を個別に抽出できるようになる。   (2) Although there is a limit to the restoration performance of the three-dimensional shape of the subject, especially when targeting a large space, in the present invention, pay attention to the projected image on each camera of Visual Hull restored by the visual volume intersection method By doing so, it is possible to individually extract a subject existing area in each camera.

本発明の自由視点画像の生成表示方法、装置およびプログラムが適用されるシステムの一実施形態の構成を示した機能ブロック図である。1 is a functional block diagram showing a configuration of an embodiment of a system to which a method and apparatus for generating and displaying a free viewpoint image according to the present invention are applied. オブジェクトの三次元形状を推定する方法を示した図である。It is the figure which showed the method of estimating the three-dimensional shape of an object. オブジェクトごとに、その投影像を含む矩形投影画像を視点ごとに取得する方法を示した図である。It is the figure which showed the method of acquiring the rectangular projection image containing the projection image for every object for every viewpoint. 矩形投影画像の投影像部分に張り付けるテクスチャの取得方法を示した図である。It is the figure which showed the acquisition method of the texture stuck on the projection image part of a rectangular projection image. ビルボードの生成方法を示した図である。It is the figure which showed the production | generation method of a billboard. ビルボードの表示方法を示した図である。It is the figure which showed the display method of a billboard.

以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明に係る自由視点画像の生成表示方法、装置およびプログラムの一実施形態の構成を示した機能ブロック図である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a functional block diagram showing a configuration of an embodiment of a free viewpoint image generation and display method, apparatus and program according to the present invention.

このようなシステムは、汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装して構成しても良いし、あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機として構成しても良い。   Such a system may be configured by mounting an application (program) for realizing each function on a general-purpose computer or server, or a dedicated machine or a single unit in which a part of the application is implemented in hardware or ROM. You may comprise as a function.

多視点画像入力部10は、オブジェクトObjを異なる視点で撮影する複数台のカメラCa(Ca1,Ca2,Ca3…)からカメラ画像をフレーム単位で取得する。以下の説明では、各カメラCaまたはそのカメラ画像を「視点1」、「視点2」…と表現する場合もある。三次元形状モデル生成部20は、各カメラCaから取得したカメラ画像に基づいてフレーム単位でオブジェクトObjごとに三次元形状モデルを生成する。   The multi-viewpoint image input unit 10 acquires camera images in units of frames from a plurality of cameras Ca (Ca1, Ca2, Ca3...) That capture the object Obj from different viewpoints. In the following description, each camera Ca or its camera image may be expressed as “viewpoint 1”, “viewpoint 2”. The three-dimensional shape model generation unit 20 generates a three-dimensional shape model for each object Obj on a frame basis based on the camera image acquired from each camera Ca.

前記三次元形状モデル生成部20において、カメラパラメータ推定部21は、各カメラCaの中心射影行列(カメラパラメータ)を推定する。マスク画像抽出部22は、フレーム画像ごとに各オブジェクトの存在領域を示すマスク画像を抽出する。三次元形状推定部23は、図2に示したように、各視点において抽出したマスク画像を実空間に投影した視体積の中にオブジェクトが含まれるという制約に基づいて、視体積交差法により、複数のマスク画像に対応する視体積の共通部分をオブジェクトの三次元形状(3次元ボクセルデータ)と推定し、3次元ボクセル空間におけるオブジェクトの存在領域を示すVisual Hullを復元する。   In the three-dimensional shape model generation unit 20, the camera parameter estimation unit 21 estimates the center projection matrix (camera parameter) of each camera Ca. The mask image extraction unit 22 extracts a mask image indicating the existence area of each object for each frame image. As shown in FIG. 2, the three-dimensional shape estimation unit 23 uses a visual volume intersection method based on the constraint that an object is included in the visual volume obtained by projecting the mask image extracted at each viewpoint into the real space. A common part of the visual volume corresponding to a plurality of mask images is estimated as a three-dimensional shape (three-dimensional voxel data) of the object, and a Visual Hull indicating an object existing area in the three-dimensional voxel space is restored.

三次元形状モデル復元部24は、前記ボクセル空間の幾何連結性に基づいて前記Visual Hullをクラス分類し、前記クラス分類されたVisual Hullのうち、大きさ(ボクセル数)や高さ(y座標)が所定の条件を満たすVisual Hullのみを各オブジェクトの三次元形状モデルとして復元する。   The three-dimensional shape model restoration unit 24 classifies the Visual Hull based on the geometric connectivity of the voxel space, and the size (number of voxels) and height (y coordinate) of the classified Visual Hull. Only Visual Hull satisfying the predetermined condition is restored as the three-dimensional shape model of each object.

矩形投影画像抽出部30は、図3に示したように、復元されたオブジェクトの三次元形状モデルを各視点のカメラ画像へ投影し、各オブジェクトの投影像を含む矩形画像(以下、矩形投影画像と表現する場合もある)を視点ごとに取得する。   As shown in FIG. 3, the rectangular projection image extraction unit 30 projects the restored three-dimensional model of the object onto the camera image of each viewpoint, and includes a rectangular image including the projection image of each object (hereinafter, rectangular projection image). For each viewpoint.

前記矩形投影画像抽出部30において、オクルージョン領域特定部31は、各矩形投影画像の投影像部分の画素ごとに光線探索を行うことで、各視点のオブジェクトごとにオクルージョン領域(灰色)を特定する。   In the rectangular projection image extraction unit 30, the occlusion region specifying unit 31 performs a ray search for each pixel in the projection image portion of each rectangular projection image, thereby specifying an occlusion region (gray) for each object at each viewpoint.

テクスチャ取得部40は、各視点のカメラ画像からオブジェクトのテクスチャを取得して各矩形投影画像の投影像部分に張り付ける。図4は、前記テクスチャ取得部40によるテクスチャの取得方法を、視点2のカメラ画像から抽出した矩形投影画像に注目して説明するための図である。   The texture acquisition unit 40 acquires the texture of the object from each viewpoint camera image and pastes it on the projection image portion of each rectangular projection image. FIG. 4 is a diagram for explaining the texture acquisition method by the texture acquisition unit 40 by paying attention to the rectangular projection image extracted from the camera image of the viewpoint 2.

テクスチャ取得部40において、第1テクスチャ取得部41は、矩形投影画像の投影像部分のうち、オクルージョン領域以外(非オクルージョン領域)の画素ついて、当該矩形投影画像を抽出したカメラ画像(抽出元カメラ画像)の対応画素の画素値をテクスチャとして取得する。第2テクスチャ取得部42は、前記矩形投影画像の投影像部分のうち、オクルージョン領域の画素ついて、抽出元カメラ画像以外のカメラ画像の対応画素の画素値をテクスチャとして取得する。   In the texture acquisition unit 40, the first texture acquisition unit 41 extracts a camera image (extraction source camera image) obtained by extracting the rectangular projection image for pixels other than the occlusion region (non-occlusion region) in the projection image portion of the rectangular projection image. ) Is acquired as a texture. The second texture acquisition unit 42 acquires, as a texture, the pixel value of the corresponding pixel of the camera image other than the extraction source camera image for the pixel of the occlusion area in the projection image portion of the rectangular projection image.

図4の例では、2つのオブジェクトOj1,Oj2間にオクルージョンが発生しており、オブジェクトOj1の脚部のテクスチャを、その抽出元カメラ画像である視点2のカメラ画像からは取得できない。   In the example of FIG. 4, occlusion occurs between the two objects Oj1 and Oj2, and the texture of the leg of the object Oj1 cannot be acquired from the camera image of the viewpoint 2 that is the extraction source camera image.

前記第2テクスチャ取得部42は、矩形投影画像のオクルージョン領域(灰色)の画素について、光線探索により投影元ボクセルBtを特定する。そして、当該投影元ボクセルBtを他のカメラ画像に投影し、前記各オブジェクトOj1,Oj2の三次元形状モデルの位置関係に基づいて当該ボクセルの観測可否を判定すると、観測可能なカメラ画像から対応画素の画素値を取得する。   The second texture acquisition unit 42 specifies the projection source voxel Bt by ray search for the pixels in the occlusion area (gray) of the rectangular projection image. Then, by projecting the projection source voxel Bt onto another camera image and determining whether or not the voxel can be observed based on the positional relationship of the three-dimensional shape model of the objects Oj1 and Oj2, the corresponding pixels are obtained from the observable camera image. The pixel value of is acquired.

なお、観測可能なカメラが複数存在する場合には、抽出元のカメラに最寄りのカメラを特定し、当該最寄りのカメラから対応画素の画素値を優先的に取得する。図示の例では、視点2のカメラ映像からは取得できないオブジェクトOj1の脚部のテクスチャを、視点1および視点Nのいずれからも取得できるが、最寄りの視点1のカメラ画像から取得している。   When there are a plurality of cameras that can be observed, the camera nearest to the extraction source camera is specified, and the pixel value of the corresponding pixel is preferentially acquired from the nearest camera. In the illustrated example, the texture of the leg of the object Oj1 that cannot be acquired from the camera image of the viewpoint 2 can be acquired from either the viewpoint 1 or the viewpoint N, but is acquired from the camera image of the nearest viewpoint 1.

ビルボード生成部50は、視点ごとに全てのオブジェクトObjのビルボードを生成する。テクスチャ画像抽出部51は、各視点のオブジェクトごとにテクスチャを含む前記矩形投影画像を抽出する。   The billboard generation unit 50 generates billboards for all objects Obj for each viewpoint. The texture image extraction unit 51 extracts the rectangular projection image including the texture for each viewpoint object.

ビルボードサイズ決定部52は、図5に示したように、矩形投影画像の底辺に存在する画素の投影元ボクセルを特定し、当該投影元ボクセルと対象となるカメラとの距離および前記矩形投影画像の縦横比に基づいて各ビルボードのサイズを算出する。ビルボード設置部53は、前記各投影元ボクセルの3次元座標に前記生成したビルボードを前記算出したサイズで設置する。   As shown in FIG. 5, the billboard size determination unit 52 identifies the projection source voxel of the pixel existing on the bottom side of the rectangular projection image, the distance between the projection source voxel and the target camera, and the rectangular projection image The size of each billboard is calculated based on the aspect ratio. The billboard installation unit 53 installs the generated billboard in the calculated size on the three-dimensional coordinates of each projection source voxel.

ビルボード表示部60は、視点操作情報に基づいて仮想視点に最寄りのカメラを推定し、当該カメラに関して生成された全てのビルボードを選表示する。   The billboard display unit 60 estimates a camera nearest to the virtual viewpoint based on the viewpoint operation information, and selects and displays all billboards generated for the camera.

前記ビルボード表示部60において、仮想視点算出部61は、各カメラから取得した注視点の変更、撮影カメラ視点への移動、前進後退、左右回転、上下回転などの視点操作情報に基づいて仮想視点の位置および向きを算出する。   In the billboard display unit 60, the virtual viewpoint calculation unit 61 performs a virtual viewpoint based on viewpoint operation information such as change of the gazing point acquired from each camera, movement to the photographing camera viewpoint, forward / backward movement, left / right rotation, and vertical rotation. Calculate the position and orientation of.

ビルボード選択部62、図6に示したように、隣接するカメラペア(A,B)ごとにカメラ選択に関する境界面を予め設定しておき、前記算出された仮想視点が一方のカメラAに割り当てられた領域を指向していれば当該カメラAの画像を抽出元とする全てのビルボードを表示する。また、他方のカメラBに割り当てられた領域を指向していれば当該カメラBを抽出元とする全てのビルボードを表示する。   As shown in FIG. 6, the billboard selection unit 62 preliminarily sets a boundary for camera selection for each adjacent camera pair (A, B), and the calculated virtual viewpoint is assigned to one camera A. If it is directed to the designated area, all billboards from which the image of the camera A is extracted are displayed. If the area assigned to the other camera B is pointed, all billboards with the camera B as an extraction source are displayed.

10…多視点画像入力部,20…三次元形状モデル生成部,21…カメラパラメータ推定部,22…マスク画像抽出部,23…三次元形状推定部,24…三次元形状モデル復元部,30…矩形投影画像抽出部,31…オクルージョン領域特定部,40…テクスチャ取得部,41…第1テクスチャ取得部,42…第2テクスチャ取得部,50…ビルボード生成部,51…テクスチャ画像抽出部,52…ビルボードサイズ決定部,53…ビルボード設置部,60…ビルボード表示部,61…仮想視点算出部,62…ビルボード選択部   DESCRIPTION OF SYMBOLS 10 ... Multi viewpoint image input part, 20 ... Three-dimensional shape model production | generation part, 21 ... Camera parameter estimation part, 22 ... Mask image extraction part, 23 ... Three-dimensional shape estimation part, 24 ... Three-dimensional shape model restoration part, 30 ... Rectangular projection image extraction unit 31... Occlusion region specifying unit 40. Texture acquisition unit 41. First texture acquisition unit 42. Second texture acquisition unit 50. ... billboard size determination unit, 53 ... billboard installation unit, 60 ... billboard display unit, 61 ... virtual viewpoint calculation unit, 62 ... billboard selection unit

Claims (11)

多視点画像から自由視点画像を生成して表示する装置において、
オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて各オブジェクトの3次元形状モデルを個別に生成する手段と、
各3次元形状モデルを各視点へ投影して各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出する手段と、
オブジェクトごとに各視点における矩形投影画像のテクスチャを対応するカメラ画像から取得する手段と、
前記各矩形投影画像およびそのテクスチャに基づいてビルボードを生成する手段と、
自由視点を特定する情報に基づいてビルボードを表示するカメラを選択する手段と、
前記選択されたカメラに関して生成した全てのビルボードを表示する手段とを具備したことを特徴とする自由視点画像の生成表示装置。
In an apparatus for generating and displaying a free viewpoint image from a multi-viewpoint image,
Means for individually generating a three-dimensional shape model of each object based on a plurality of camera images taken from different viewpoints;
Means for projecting each three-dimensional shape model onto each viewpoint and extracting a rectangular projection image including a projection image portion of each object for each viewpoint;
Means for acquiring the texture of the rectangular projection image at each viewpoint for each object from the corresponding camera image;
Means for generating a billboard based on each rectangular projection image and its texture;
Means for selecting a camera to display a billboard based on information identifying a free viewpoint;
A free-viewpoint image generation / display apparatus comprising: means for displaying all billboards generated with respect to the selected camera.
前記オブジェクトの3次元形状モデルを生成する手段は、
各カメラのカメラパラメータを推定する手段と、
各カメラ画像におけるオブジェクトのマスク画像を抽出する手段と、
前記カメラパラメータおよびマスク画像に基づく視体積交差法により3次元ボクセル空間における各オブジェクトのVisual Hullを復元する手段とを具備し、
前記Visual Hullを三次元形状モデルとして採用することを特徴とする請求項1に記載の自由視点画像の生成表示装置。
The means for generating a three-dimensional shape model of the object includes:
Means for estimating the camera parameters of each camera;
Means for extracting a mask image of an object in each camera image;
Means for restoring Visual Hull of each object in a three-dimensional voxel space by a view volume intersection method based on the camera parameter and the mask image,
The free-viewpoint image generation and display device according to claim 1, wherein the Visual Hull is adopted as a three-dimensional shape model.
前記ボクセル空間における幾何連結性に基づいて、前記復元されたVisual Hullをクラス分類する手段と、
前記クラス分類されたVisual Hullのうち所定の条件を満たすものを三次元形状モデルとして採用することを特徴とする請求項2に記載の自由視点画像の生成表示装置。
Means for classifying the restored Visual Hull based on geometric connectivity in the voxel space;
3. The free viewpoint image generation and display device according to claim 2, wherein a class satisfying a predetermined condition among the classified Visual Hulls is adopted as a three-dimensional shape model.
前記矩形投影画像を視点ごとに抽出する手段が、各矩形投影画像の投影像部分の画素ごとに光線探索を行うことで、各視点のオブジェクトごとにオクルージョン領域を特定する手段を含むことを特徴とする請求項1ないし3のいずれかに記載の自由視点画像の生成表示装置。   The means for extracting the rectangular projection image for each viewpoint includes means for specifying an occlusion area for each object at each viewpoint by performing a ray search for each pixel of the projection image portion of each rectangular projection image. The free viewpoint image generation and display device according to any one of claims 1 to 3. 前記テクスチャを取得する手段は、
前記矩形投影画像の投影像部分のうち、オクルージョン領域以外の画素ついて、その抽出元カメラ画像の対応画素の画素値を取得する第1テクスチャ取得手段と、
前記矩形投影画像の投影像部分のうち、オクルージョン領域の画素について、その抽出元カメラ画像以外のカメラ画像の対応画素の画素値を取得する第2テクスチャ取得手段とを具備したことを特徴とする請求項1ないし4のいずれかに記載の自由視点画像の生成表示装置。
The means for obtaining the texture comprises:
First texture acquisition means for acquiring a pixel value of a corresponding pixel of an extraction source camera image for a pixel other than an occlusion area in a projection image portion of the rectangular projection image;
2. A second texture acquisition unit configured to acquire a pixel value of a corresponding pixel of a camera image other than an extraction source camera image for a pixel of an occlusion area in the projection image portion of the rectangular projection image. Item 5. The free viewpoint image generation and display device according to any one of Items 1 to 4.
前記第2テクスチャ取得手段は、
オクルージョン領域の画素について、三次元形状モデル上の投影元ボクセルを特定する手段と、
前記投影元ボクセルを抽出元カメラ画像とは異なるカメラ画像に投影して当該ボクセルの観測可否を判定する手段とを具備し、
観測可能なカメラの画像から対応画素の画素値を取得することを特徴とする請求項5に記載の自由視点画像の生成表示装置。
The second texture acquisition means
A means for specifying a projection source voxel on a three-dimensional shape model for pixels in an occlusion area;
Means for projecting the projection source voxel onto a camera image different from the extraction source camera image and determining whether or not the voxel can be observed;
6. The apparatus for generating and displaying a free viewpoint image according to claim 5, wherein a pixel value of a corresponding pixel is acquired from an observable camera image.
前記観測可能なカメラが複数台あると、当該複数台のカメラから抽出元カメラに最寄りのカメラを特定し、当該最寄りのカメラの画像の対応画素の画素値を取得することを特徴とする請求項6に記載の自由視点画像の生成表示装置。   When there are a plurality of observable cameras, a camera nearest to an extraction source camera is specified from the plurality of cameras, and a pixel value of a corresponding pixel of an image of the nearest camera is acquired. 7. The free viewpoint image generation and display device according to 6. 前記ビルボードを生成する手段は、
オブジェクトごとにテクスチャを含む矩形投影画像を抽出する手段と、
前記矩形投影画像の底辺に存在する画素の投影元ボクセルとカメラとの距離を算出する手段と、
前記距離および前記矩形投影画像の縦横比に基づいて各ビルボードのサイズを決定する手段と、
前記投影元ボクセルの3次元座標に前記決定されたサイズのビルボードを設置する手段とを具備したことを特徴とする請求項1ないし7のいずれかに記載の自由視点画像の生成表示装置。
The means for generating the billboard includes:
Means for extracting a rectangular projection image including a texture for each object;
Means for calculating a distance between a camera and a projection source voxel of a pixel existing on a bottom side of the rectangular projection image;
Means for determining the size of each billboard based on the distance and the aspect ratio of the rectangular projection image;
8. The apparatus for generating and displaying a free viewpoint image according to claim 1, further comprising means for setting the billboard of the determined size at a three-dimensional coordinate of the projection source voxel.
前記ビルボードを表示する手段は、
視点操作に関する入力情報に基づいて仮想視点を算出する手段と、
前記仮想視点に最寄りのカメラに関して生成された全てのビルボードを表示する手段とを含むことを特徴とする請求項1ないし8のいずれかに記載の自由視点画像の生成表示装置。
The means for displaying the billboard is:
Means for calculating a virtual viewpoint based on input information related to a viewpoint operation;
9. The apparatus for generating and displaying a free viewpoint image according to claim 1, further comprising means for displaying all billboards generated with respect to the camera nearest to the virtual viewpoint.
コンピュータが、多視点画像から自由視点画像を生成して表示する方法において、
オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて各オブジェクトの3次元形状モデルを個別に生成し、
各3次元形状モデルを各視点へ投影して各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出し、
オブジェクトごとに各視点における矩形投影画像のテクスチャを対応するカメラ画像から取得し、
前記各矩形投影画像およびそのテクスチャに基づいてビルボードを生成し、
自由視点を特定する情報に基づいてビルボードを表示するカメラを選択し、
前記選択されたカメラに関して生成した全てのビルボードを表示することを特徴とする自由視点画像の生成表示方法。
In a method in which a computer generates and displays a free viewpoint image from a multi-viewpoint image,
A 3D shape model of each object is generated individually based on multiple camera images taken from different viewpoints.
Projecting each 3D shape model to each viewpoint and extracting a rectangular projection image including the projected image portion of each object for each viewpoint,
For each object, obtain the texture of the rectangular projection image at each viewpoint from the corresponding camera image,
A billboard is generated based on each rectangular projection image and its texture,
Select the camera that displays the billboard based on the information that identifies the free viewpoint,
A method for generating and displaying a free viewpoint image, comprising displaying all billboards generated for the selected camera.
多視点画像から自由視点画像を生成して表示するプログラムにおいて、
オブジェクトを異なる視点で撮影した複数のカメラ画像に基づいて各オブジェクトの3次元形状モデルを個別に生成する手順と、
各3次元形状モデルを各視点へ投影して各オブジェクトの投影像部分を含む矩形投影画像を視点ごとに抽出する手順と、
オブジェクトごとに各視点における矩形投影画像のテクスチャを対応するカメラ画像から取得する手順と、
前記各矩形投影画像およびそのテクスチャに基づいてビルボードを生成する手順と、
自由視点を特定する情報に基づいてビルボードを表示するカメラを選択する手順と、
前記選択されたカメラに関して生成した全てのビルボードを表示する手順とを、コンピュータが実行可能に記述した自由視点画像の生成表示プログラム。
In a program that generates and displays a free viewpoint image from a multi-viewpoint image,
A procedure for individually generating a three-dimensional shape model of each object based on a plurality of camera images taken from different viewpoints;
A procedure for projecting each three-dimensional shape model onto each viewpoint and extracting a rectangular projection image including a projection image portion of each object for each viewpoint;
A procedure for acquiring the texture of the rectangular projection image at each viewpoint from the corresponding camera image for each object,
A procedure for generating a billboard based on each rectangular projection image and its texture;
A procedure for selecting a camera to display a billboard based on information identifying a free viewpoint;
A program for generating and displaying a free viewpoint image in which a procedure for displaying all billboards generated for the selected camera is described so as to be executable by a computer.
JP2017059554A 2017-03-24 2017-03-24 Free-viewpoint image generation and display methods, devices and programs Active JP6818606B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017059554A JP6818606B2 (en) 2017-03-24 2017-03-24 Free-viewpoint image generation and display methods, devices and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017059554A JP6818606B2 (en) 2017-03-24 2017-03-24 Free-viewpoint image generation and display methods, devices and programs

Publications (2)

Publication Number Publication Date
JP2018163467A true JP2018163467A (en) 2018-10-18
JP6818606B2 JP6818606B2 (en) 2021-01-20

Family

ID=63860100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017059554A Active JP6818606B2 (en) 2017-03-24 2017-03-24 Free-viewpoint image generation and display methods, devices and programs

Country Status (1)

Country Link
JP (1) JP6818606B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349246A (en) * 2019-07-17 2019-10-18 广西师范大学 A method of applied to the reconstruct distortion factor for reducing viewpoint in light field drafting
JP2020173726A (en) * 2019-04-12 2020-10-22 日本放送協会 Virtual viewpoint conversion device and program
JP2020178235A (en) * 2019-04-18 2020-10-29 日本放送協会 Video effect device and program
KR102242710B1 (en) * 2019-12-31 2021-04-22 서울과학기술대학교 산학협력단 Apparatus for providing half free-viewpoint video
JP2021071749A (en) * 2019-10-29 2021-05-06 Kddi株式会社 Three dimensional model generation apparatus and method
JP2021117876A (en) * 2020-01-29 2021-08-10 Kddi株式会社 Image processing device, method and program
JP2021152828A (en) * 2020-03-25 2021-09-30 Kddi株式会社 Free viewpoint video generation method, device, and program
WO2022091811A1 (en) * 2020-10-29 2022-05-05 ソニーグループ株式会社 Image processing device, image processing method, and image processing system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250692A (en) * 2004-03-02 2005-09-15 Softopia Japan Foundation Method for identifying object, method for identifying mobile object, program for identifying object, program for identifying mobile object, medium for recording program for identifying object, and medium for recording program for identifying traveling object
JP2015187797A (en) * 2014-03-27 2015-10-29 シャープ株式会社 Image data generation device and image data reproduction device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250692A (en) * 2004-03-02 2005-09-15 Softopia Japan Foundation Method for identifying object, method for identifying mobile object, program for identifying object, program for identifying mobile object, medium for recording program for identifying object, and medium for recording program for identifying traveling object
JP2015187797A (en) * 2014-03-27 2015-10-29 シャープ株式会社 Image data generation device and image data reproduction device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
末永諒,外4名: ""自由視点サッカー視聴システムの開発に向けた要素技術の検討"", IMAGE MEDIA PROCESSING SYMPOSIUM 2015, JPN6020017688, 18 November 2015 (2015-11-18), pages 70 - 71, ISSN: 0004274003 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173726A (en) * 2019-04-12 2020-10-22 日本放送協会 Virtual viewpoint conversion device and program
JP7352374B2 (en) 2019-04-12 2023-09-28 日本放送協会 Virtual viewpoint conversion device and program
JP2020178235A (en) * 2019-04-18 2020-10-29 日本放送協会 Video effect device and program
JP7332326B2 (en) 2019-04-18 2023-08-23 日本放送協会 Video effect device and program
CN110349246B (en) * 2019-07-17 2023-03-14 广西师范大学 Method for reducing reconstruction distortion degree of viewpoint in light field rendering
CN110349246A (en) * 2019-07-17 2019-10-18 广西师范大学 A method of applied to the reconstruct distortion factor for reducing viewpoint in light field drafting
JP2021071749A (en) * 2019-10-29 2021-05-06 Kddi株式会社 Three dimensional model generation apparatus and method
JP7290546B2 (en) 2019-10-29 2023-06-13 Kddi株式会社 3D model generation apparatus and method
KR102242710B1 (en) * 2019-12-31 2021-04-22 서울과학기술대학교 산학협력단 Apparatus for providing half free-viewpoint video
JP7197526B2 (en) 2020-01-29 2022-12-27 Kddi株式会社 Image processing device, method and program
JP2021117876A (en) * 2020-01-29 2021-08-10 Kddi株式会社 Image processing device, method and program
JP7319939B2 (en) 2020-03-25 2023-08-02 Kddi株式会社 Free-viewpoint video generation method, device, and program
JP2021152828A (en) * 2020-03-25 2021-09-30 Kddi株式会社 Free viewpoint video generation method, device, and program
WO2022091811A1 (en) * 2020-10-29 2022-05-05 ソニーグループ株式会社 Image processing device, image processing method, and image processing system

Also Published As

Publication number Publication date
JP6818606B2 (en) 2021-01-20

Similar Documents

Publication Publication Date Title
JP6818606B2 (en) Free-viewpoint image generation and display methods, devices and programs
KR100950169B1 (en) Method for multiple view synthesis
US11348267B2 (en) Method and apparatus for generating a three-dimensional model
US9361660B2 (en) Image processing device and method, supplement image generation device and method, program, and recording medium
EP1465115A2 (en) Method and apparatus for generating a desired view of a scene from a selected viewpoint
Eng et al. Gaze correction for 3D tele-immersive communication system
Kilner et al. Objective quality assessment in free-viewpoint video production
GB2477793A (en) A method of creating a stereoscopic image in a client device
Böhm Multi-image fusion for occlusion-free façade texturing
JP2004246667A (en) Method for generating free visual point moving image data and program for making computer perform the same processing
Sankoh et al. Robust billboard-based, free-viewpoint video synthesis algorithm to overcome occlusions under challenging outdoor sport scenes
TW202126033A (en) Apparatus and method for evaluating a quality of image capture of a scene
Inamoto et al. Immersive evaluation of virtualized soccer match at real stadium model
JP6555755B2 (en) Image processing apparatus, image processing method, and image processing program
Yaguchi et al. Arbitrary viewpoint video synthesis from multiple uncalibrated cameras
JP7480163B2 (en) Image depth map processing
Inamoto et al. Free viewpoint video synthesis and presentation from multiple sporting videos
Jorissen et al. Multi-camera epipolar plane image feature detection for robust view synthesis
JP5969376B2 (en) Virtual viewpoint video generation device, virtual viewpoint video generation method, and program
Inamoto et al. Free viewpoint video synthesis and presentation of sporting events for mixed reality entertainment
US20140002446A1 (en) System and method for match move quality control
JP2015033047A (en) Depth estimation device employing plural cameras
Calagari et al. Sports VR content generation from regular camera feeds
JP2021047468A (en) Image processing equipment, image processing method, and image processing program
Sankoh et al. Free-viewpoint video synthesis for sport scenes captured with a single moving camera

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R150 Certificate of patent or registration of utility model

Ref document number: 6818606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150