WO2023100704A1 - 画像制作システム、画像制作方法、プログラム - Google Patents
画像制作システム、画像制作方法、プログラム Download PDFInfo
- Publication number
- WO2023100704A1 WO2023100704A1 PCT/JP2022/043000 JP2022043000W WO2023100704A1 WO 2023100704 A1 WO2023100704 A1 WO 2023100704A1 JP 2022043000 W JP2022043000 W JP 2022043000W WO 2023100704 A1 WO2023100704 A1 WO 2023100704A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- generated
- viewpoint
- free
- generation unit
- Prior art date
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 72
- 238000003384 imaging method Methods 0.000 claims abstract description 88
- 238000000034 method Methods 0.000 claims description 91
- 230000008569 process Effects 0.000 claims description 64
- 230000010365 information processing Effects 0.000 claims description 26
- 230000002194 synthesizing effect Effects 0.000 claims description 22
- 238000003860 storage Methods 0.000 description 58
- 230000000694 effects Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 29
- 230000033001 locomotion Effects 0.000 description 19
- 230000036544 posture Effects 0.000 description 16
- 238000009877 rendering Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Definitions
- This technology relates to image production systems, image production methods, and programs, and particularly to technical fields that use free-viewpoint images and three-dimensional (3D) images.
- a technique for generating a free-viewpoint image (Volumetric Capturing) corresponding to an observation image from an arbitrary viewpoint in a three-dimensional space based on three-dimensional information representing an object imaged from multiple viewpoints in the three-dimensional space.
- This is a technique for generating free viewpoint images without positional restrictions from multi-viewpoint images.
- a free-viewpoint image is called "Free View” or "Volumetric”.
- a free viewpoint image is useful, for example, as a replay image of a sports broadcast.
- Japanese Laid-Open Patent Publication No. 2002-100001 discloses a technique for generating camerawork that can be said to be a moving trajectory of a viewpoint.
- Patent Document 2 discloses an image processing technique for conveying the content of table tennis play in an easy-to-understand manner.
- EPTS Electronic Performance and Tracking Systems
- the present disclosure proposes a technique that enables more diverse and high-quality image production using actual free-viewpoint images and CG images.
- An image production system includes an estimated information generation unit that generates estimated information about a subject based on at least one of a captured image or sensor information, and a plurality of captured image data obtained by simultaneously capturing images from a plurality of viewpoints.
- a free-viewpoint image generation unit that generates a three-dimensional model of a subject using the three-dimensional model and generates a free-viewpoint image that is an image of the subject at an arbitrary viewpoint; the estimation information; and the three-dimensional model of the subject.
- a three-dimensional image generating unit capable of generating a three-dimensional image based on the free viewpoint image generated by the free viewpoint image generating unit and the three-dimensional image generated by the three-dimensional image generating unit and an output image generator that generates an output image.
- An output image is generated based on a free-viewpoint image based on actual photography and a 3D image using a virtual 3D model. For example, an output image is generated by switching or fusing a free-viewpoint image and a three-dimensional image
- FIG. 1 is a block diagram of an image production system according to an embodiment of the present technology
- FIG. 1 is a block diagram of an image production system with an embodiment EPTS and a volumetric system
- FIG. 3 is an explanatory diagram of an example of arrangement of imaging devices according to an embodiment
- FIG. 10 is a block diagram of another configuration example of an image production system having the EPTS and volumetric system of the embodiment
- 1 is a block diagram of an information processing device that constitutes an image production system according to an embodiment
- FIG. FIG. 4 is an explanatory diagram of viewpoints in a free viewpoint image according to the embodiment
- FIG. 10 is an explanatory diagram of an output clip of a free viewpoint image according to the embodiment
- FIG. 10 is an explanatory diagram of an output clip including a still image FV clip of a free viewpoint image according to the embodiment;
- FIG. 10 is an explanatory diagram of an output clip including a moving image FV clip of a free viewpoint image according to the embodiment;
- FIG. 10 is an explanatory diagram of an example of an image of an output clip according to the embodiment;
- FIG. 10 is an explanatory diagram of a process of generating a free viewpoint image according to the embodiment;
- FIG. 4 is an explanatory diagram of 3D model generation by photographing according to the embodiment;
- FIG. 10 is an explanatory diagram of a 3D model by photographing the embodiment;
- FIG. 10 is an explanatory diagram of a 3D model by photographing the embodiment;
- FIG. 10 is an explanatory diagram of a 3D model by photographing the embodiment;
- FIG. 10 is an explanatory diagram of a 3D model by photographing the embodiment;
- FIG. 10 is an explanatory diagram of a 3D model by
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated in the embodiment;
- FIG. 4 is an explanatory diagram of an image example generated
- FIG. 4 is an explanatory diagram of selection of a photographed free-viewpoint image and a CG image according to the embodiment;
- FIG. 4 is an explanatory diagram of selection of a photographed free-viewpoint image and a CG image according to the embodiment;
- FIG. 10 is an explanatory diagram of an example of synthesis within a frame according to the embodiment;
- 6 is a flowchart of an example of image creation processing according to the embodiment;
- 6 is a flowchart of an example of image creation processing according to the embodiment;
- 6 is a flowchart of an example of image creation processing according to the embodiment;
- 6 is a flowchart of an example of image creation processing according to the embodiment;
- 6 is a flowchart of an example of image creation processing according to the embodiment;
- image refers to both moving images and still images.
- moving image content production will be mainly described as an example, images to be produced are not limited to moving images, and may be still images or a slideshow of a plurality of still images.
- An “image” refers to an image that is actually displayed on the screen, but the “image” in the signal processing process and transmission path until it is displayed on the screen refers to image data.
- FIG. 1 shows a configuration example of an image production system 300 (or image production system 301) according to an embodiment.
- the image production system 300 includes a free viewpoint image generation unit 3, an estimated information generation unit 4, and a 3D image generation unit 5.
- the free-viewpoint image generation unit 3 generates a three-dimensional model of a subject based on a plurality of captured image data obtained by simultaneously capturing images from a plurality of viewpoints, and uses the three-dimensional model to generate an image of the subject from an arbitrary viewpoint. Perform processing to generate a certain free-viewpoint image.
- a plurality of imaging devices 10 capture an area of a subject in a sports venue, for example, a stadium where a game is being played, from various positions.
- the free-viewpoint image generation unit 3 can input images captured by these imaging devices 10 and generate a photographed image including a free-viewpoint image.
- the actual image referred to in the present disclosure means an image captured by the imaging device 10 itself, an image (clip) in which a free viewpoint image is inserted into a part of a moving image of the captured image, or a clip composed only of the free viewpoint image. including.
- a "clip" refers to an image of a certain scene that is created by clipping or further processing a recorded image.
- the estimated information generator 4 generates estimated information about the subject based on the captured image.
- various types of information are generated from the captured image obtained by the imaging device 20 .
- the estimation information is, for example, information on the position, posture, and movement of a person (player, etc.) or an object (ball, etc.) as a subject.
- EPTS data which will be described later, corresponds to estimation information.
- a plurality of imaging devices 20 capture images of a sports venue or the like from various positions.
- the estimation information generation unit 4 can receive images captured by these imaging devices 20, analyze the images, and generate estimation information.
- one or more acceleration sensors and/or one or more GPS sensors may be attached to a ball used in sports, a uniform worn by a person performing sports, shoes worn by a person, a wristwatch, or the like. I do not care.
- the estimated information generation unit 4 receives acceleration information and position information obtained by these sensors 29, and can generate estimated information based on these information.
- the three-dimensional image generator 5 can generate a three-dimensional image based on the estimated information generated by the estimated information generator 4 and the three-dimensional model of the subject. For example, the three-dimensional image generation unit 5 uses a virtual 3D (three-dimensional) model of a subject (player, etc.) produced by CG, and uses the position, posture, movement, etc. of each player as estimated information to generate a CG can create a 3D image of the match. Note that the three-dimensional image generation unit 5 can also generate a 3D image using the 3D model generated by the free-viewpoint image generation unit 3 and based on the photographed image.
- the image production system 300 including the free-viewpoint image generation unit 3, the estimated information generation unit 4, and the 3D image generation unit 5 is a system capable of outputting actual images including free-viewpoint images and 3D images.
- the 3D image can be generated using a 3D model generated by CG or a 3D model generated based on actual photography.
- an image production system 301 includes an output image generation unit 6 in addition to the free viewpoint image generation unit 3 , estimated information generation unit 4 , and 3D image generation unit 5 .
- the output image generator 6 generates an output image based on the free viewpoint image generated by the free viewpoint image generator 3 and the 3D image generated by the 3D image generator 5 .
- the image production system 301 inputs a photographed image including a free-viewpoint image and a 3D image using a CG 3D model or a 3D model generated based on photographing, selects or synthesizes them, and generates an output image. It is a system that can output. For example, output images are distributed or broadcast as image content.
- the output image generation unit 6 can handle various images as output images by integrally handling actual images including free-viewpoint images and 3D images using CG or actual 3D models.
- FIG. 2 is an example system configuration including the volumetric system 100 and EPTS 200 .
- the volumetric system 100 corresponds to the free viewpoint image generator 3 in FIG. That is, the recording unit 11, the FV render 12, and the storages 15 and 16 are a specific configuration example of the free viewpoint image generation unit 3.
- FIG. 1 the recording unit 11, the FV render 12, and the storages 15 and 16 are a specific configuration example of the free viewpoint image generation unit 3.
- the EPTS 200 has the functions of the estimated information generator 4 and the 3D image generator 5 in FIG.
- the recording unit 21 , the EPTS data generation unit 22 and the storage 23 are specific configuration examples of the estimated information generation unit 4 .
- the 3D render 27 and the storages 24 , 25 , 28 are specific configuration examples of the 3D image generator 5 .
- FIG. 2 shows the 2D render 31, which is an example of the output image generator 6 in FIG.
- the FV render 12 or the 3D render 27 may perform the function as the output image generation unit 6 .
- camera refers to an imaging device.
- camera arrangement means the arrangement of a plurality of imaging devices.
- the plurality of imaging devices 10 are configured as digital camera devices having imaging elements such as CCD (Charge Coupled Devices) sensors and CMOS (Complementary Metal-Oxide-Semiconductor) sensors, and obtain captured images as digital data.
- imaging elements such as CCD (Charge Coupled Devices) sensors and CMOS (Complementary Metal-Oxide-Semiconductor) sensors, and obtain captured images as digital data.
- each imaging device 10 obtains a captured image as a moving image.
- each image capturing device 10 captures an image of a game such as basketball, soccer, golf, etc., and is arranged at a predetermined position and in a predetermined direction in a competition venue where the competition is held.
- the number of imaging devices 10 is not particularly defined, the number of imaging devices 10 should be at least two or more to enable generation of free-viewpoint images.
- FIG. 3 shows an example of arrangement of the imaging devices 10 around a basketball court.
- ⁇ is the imaging device 10 .
- this is an example of the camera arrangement when it is desired to focus on the vicinity of the goal on the left side of the drawing.
- the arrangement and number of cameras are only examples, and should be set according to the shooting environment, the content of the image content, the purpose, and the like.
- events for which free-viewpoint images are generated are not limited to sports competitions such as basketball competitions, but are diverse.
- the plurality of imaging devices 20 are also configured as digital camera devices having imaging elements such as CCD sensors and CMOS sensors, and obtain captured images as digital data.
- each imaging device 20 obtains captured images as moving images and supplies the captured images to the EPTS 200 .
- the plurality of imaging devices 20 are also arranged at various positions on a basketball court, for example, so that captured images from various viewpoints can be obtained.
- Each imaging device 10 and each imaging device 20 are synchronized by the synchronization unit 30 .
- each image pickup device 10 and each image pickup device 20 pick up each frame at the same timing. This is to match the timing relationship between each frame of the image obtained by the volumetric system 100 and the EPTS data obtained by the EPTS 200 .
- the recording unit 11 records images captured by a plurality of imaging devices 10 and supplies part or all of the captured images to the FV render 12 . That is, the recording unit 11 functions as a video server for generating free viewpoint images.
- the FV render 12 generates a free viewpoint image using the image captured by the imaging device 10 supplied from the recording unit 11 .
- “FV” indicates "Free View”, that is, the FV render 12 performs rendering as free viewpoint image generation.
- the FV render 12 generates a 3D model of a subject from multi-viewpoint captured images obtained by each imaging device 10 . This 3D model is used to generate an arbitrary viewpoint image of the subject.
- Camera path designation information CPD is input to the FV render 12 in response to a camera path being designated by an operator's operation or automatic control, for example.
- the camera path is information including at least information indicating the movement trajectory of the viewpoint in the free viewpoint image. For example, when creating a free-viewpoint image by changing the viewpoint position, line-of-sight direction, and angle of view (focal length) for a subject for which a 3D model has been generated, the trajectory of the viewpoint and the line-of-sight direction and the parameters necessary for determining the change mode of the angle of view are taken as camera path information.
- tagging and scene designation may be performed by an operator's operation or automatic control.
- the tag here is, for example, information indicating a specific point in time (frame) on a moving image, and is information attached at the timing of a specific scene such as a basketball shooting scene.
- the operator can perform tagging operations at necessary timings such as starting, finishing, shooting, fouling, and serving in various sports, and the tag information is managed by the tag management unit 35 .
- the timestamp of tagging is stored.
- the tag management unit 35 can set a specific section as a scene using the tag and output the scene designation information SC when the operator designates a scene.
- the scene designation information SC is information that designates the start timing and end timing of one scene.
- the FV render 12 is configured as an information processing device that performs processing for actually creating a free viewpoint image, for example, an FV (Free View) clip, which will be described later, according to scene designation information SC and camera path designation information CPD in that scene. be. Details of FV rendering by the FV render 12 will be described later.
- FV Free View
- Real images including free-viewpoint images such as FV clips generated by the FV render 12 are stored in the storage 16 .
- depth information of each subject such as a player and a ball and information of a camera path are also stored in the storage 16 in association with the FV clip.
- the depth information is information on the distance in the depth direction from the imaging device 10, that is, information indicating the front-back relationship of each subject from the viewpoint position (the position of the imaging device 10).
- the actual 3D model generated for free viewpoint image generation by the FV render 12 especially in this example, the 3D model based on the actual photograph of the player who is the subject person (referred to as the “actual player model” for explanation) is stored in the storage 15. remembered.
- FIG. 2 shows storage units 15, 16, 23, 24, 25, 28, and 32 as storage units for various types of information such as images and 3D models. Hard Disk Drive), etc., and a control unit that controls data recording and playback for the data recording unit.
- the recording unit 21 records images captured by the plurality of imaging devices 20 and supplies each captured image to the EPTS data generation unit 22 .
- the EPTS data generation unit 22 performs analysis processing on each captured image, generates EPTS data individually, and then integrates all the individual EPTS data to generate EPTS data as a whole.
- the EPTS data includes, for example, the positions of the players and the ball at each frame timing, the postures of the players, the number of rotations of the ball, the rotation direction, and the like.
- the EPTS data generation unit 22 generates EPTS data using not only the captured image but also information obtained by the sensor 29, such as information from an acceleration sensor embedded in the ball or a GPS sensor attached to the player's uniform. good too.
- the EPTS data generation unit 22 can generate, as EPTS data for the entire game, information that can determine, for example, the positions and postures of all players participating in the game at each point in time, and the position and situation of the ball at each point in time. can.
- the EPTS data generated by the EPTS data generator 22 is stored in the storage 23 so that it can be referenced.
- the 3D renderer 27 can refer to the EPTS data to generate CG images during the match.
- the FV renderer 12 performs FV rendering, it is possible to more accurately recognize the positions and postures of the athletes at each point in time by referring to the EPTS data, so that more accurate free-viewpoint images can be generated.
- the 3D renderer 27 performs rendering to generate a 3D image by CG using the 3D model.
- the storage 24 stores a 3D model of each player (referred to as "CG player model” for explanation), and the storage 25 stores a 3D model of the background (referred to as "CG background model” for explanation). ) is stored.
- the CG player models and CG background models may be created and stored in the storages 24 and 25 prior to the game to be recorded, for example.
- the 3D renderer 27 uses the CG player models and CG background models and obtains information on the positions and postures of each player by referring to the EPTS data, and renders the players, balls, etc. during the game as 3D images by CG.
- a representative image can be generated.
- a CG clip is generated as a moving image. Since the clip is generated by CG, it is also possible to generate a clip including free-viewpoint images that are not restricted by the arrangement of the imaging device 10 .
- the 3D renderer 27 can use the EPTS data to generate a clip as a match reproduction video using CG images, or a CG FV clip including free-viewpoint video.
- the 3D renderer 27 can also generate a 3D image using the live-action player model stored in the storage 15. For example, the 3D renderer 27 can switch the image of the player that has been generated using the CG player model to the image generated using the actual player model when a photographed player model is generated for a certain player. .
- 3D images such as clips generated by the 3D render 27 are stored in the storage 28 .
- Depth information and camera path information are also stored in association with the clip.
- the camera path information is virtual viewpoint position information when creating a CG clip.
- a 3D display unit 34 in the figure indicates a display device capable of 3D display.
- 3D video can be displayed by supplying the 3D image stored in the storage 28 to the 3D display unit 34 .
- a 2D render 31 when considering outputting 2D images for distribution or broadcasting, a 2D render 31 is provided.
- the 2D renderer 31 can input live-action images, such as FV clips, from the storage 16, and can input 3D images, such as CG match reproduction clips and CG FV clips, from the storage .
- the 2D renderer 31 then selects or synthesizes actual images and 3D images including the input free-viewpoint images to generate 2D images for distribution and broadcasting. In other words, the processing of the output image generation unit 6 in FIG. 1 is executed.
- the 2D renderer 31 can not only select and synthesize an actual image and a 3D image, but also synthesize an additional image based on the EPTS data and apply an image effect.
- the 2D renderer 31 reads depth information and camera path information together with the FV clip from the storage 16, and uses them as reference values during image processing for the FV clip.
- the 2D renderer 31 also reads depth information and camera path information from the storage 28 together with the CG clip, and uses them as reference values during image processing for the CG clip.
- the EPTS data stored in the storage 23 is supplied to the 2D render 31 via the coordinate transformation section 26 .
- the coordinate conversion unit 26 converts the EPTS data, which is information in the 3D space, into values on the two-dimensional plane coordinates.
- the 2D renderer 31 generates a two-dimensional image, and a two-dimensional image is a three-dimensional space that is projected onto a plane viewed from a certain viewpoint position. Therefore, it is necessary to transform the EPTS data shown in 3D space into 2D information from a certain viewpoint position. For this reason, camera path designation information CPD is supplied to the coordinate transformation unit 26 so that coordinate transformation is performed based on the viewpoint position defined by the camera path.
- the 2D renderer 31 can superimpose an additional image or apply an image effect on the position specified by the EPTS data on the 2D image.
- Effect designation information EF is input to the 2D renderer 31 in response to this operation.
- the 2D render 31 can accordingly apply image effects processing or additional image compositing processing to predetermined locations in the 2D image plane determined by the EPTS data.
- the effect specifying information EF may be supplied to the 3D render 27, and the 3D render 27 may perform image effects and additional image synthesis when generating a 3D image.
- the 2D image generated by the 2D render 31 through processing such as selection and composition of actual images and 3D images, and composition of additional images is stored in the storage 32 . Then, it is read out from the storage 32 and supplied to the 2D display section 33 to be displayed as a 2D image.
- the above-described processing functions of the 2D render 31 may be executed within the 3D render 27 or within the FV render 12.
- FIG. 4 shows an example of a system having an EPTS and a volumetric system as in FIG. 2, but has an integrated system 150 that integrates the EPTS 200 and volumetric system 100 in FIG.
- the same parts as those in FIG. 2 are denoted by the same reference numerals, and description thereof is omitted.
- captured images by the imaging devices 10 and 20 are recorded by the recording unit 11 and supplied to the EPTS data generation unit 22 .
- the drawing shows an example in which the imaging devices 10 and 20 are distinguished, the captured image of one imaging device may be used both for free-viewpoint image generation and for EPTS data generation. .
- the EPTS data generation unit 22 performs EPTS data generation processing, and in this case also functions as the FV render 12 .
- the information processing device as the EPTS data generator 22 in this example also executes processing as the FV render 12 .
- the EPTS data generated by the EPTS data generator 22 is stored in the storage 23 so that the 3D renderer 27 can refer to it.
- Real images including free-viewpoint images generated by the FV render 12 are stored in the storage 16 .
- the photographed player model generated by the FV render 12 is stored in the storage 15 so that the 3D render 27 can refer to it.
- FIG. 4 Other configurations are the same as in FIG. With the configuration of FIG. 4, a hardware configuration more efficient than the configuration of FIG. 2 can be realized.
- the configuration of the information processing device 70 used in the configuration of FIG. 2 or FIG. 4 will be described.
- the FV render 12, the EPTS data generator 22, the 3D render 27, the 2D render 31, etc. can be implemented by the information processing device 70 shown in FIG.
- the information processing device 70 can be configured as, for example, a dedicated workstation, a general-purpose personal computer, a mobile terminal device, or the like.
- the RAM 73 also appropriately stores data necessary for the CPU 71 to execute various processes.
- the image processing unit 85 is configured as a processor that performs various types of image processing.
- it is a processor that can perform any of 3D model generation processing, FV rendering, 3D rendering, 2D rendering, DB (Data Base) processing, image effect processing, image analysis processing, EPTS data generation processing, and the like.
- the image processing unit 85 can be implemented by, for example, a CPU separate from the CPU 71, a GPU (Graphics Processing Unit), a GPGPU (General-purpose computing on graphics processing units), an AI (artificial intelligence) processor, or the like. Note that the image processing unit 85 may be provided as a function within the CPU 71 .
- the CPU 71 , ROM 72 , RAM 73 , nonvolatile memory section 74 and image processing section 85 are interconnected via a bus 83 .
- An input/output interface 75 is also connected to this bus 83 .
- the input/output interface 75 is connected to an input section 76 including operators and operating devices.
- an input section 76 including operators and operating devices.
- various operators and operating devices such as a keyboard, mouse, key, dial, touch panel, touch pad, remote controller, etc. are assumed.
- a user's operation is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
- the input/output interface 75 is connected integrally or separately with a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an audio output unit 78 such as a speaker.
- a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel
- an audio output unit 78 such as a speaker.
- the display unit 77 performs various displays as a user interface.
- the display unit 77 is configured by, for example, a display device provided in the housing of the information processing device 70, a separate display device connected to the information processing device 70, or the like.
- the display unit 77 displays images for various types of image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 71 . Further, the display unit 77 displays various operation menus, icons, messages, etc., ie, as a GUI (Graphical User Interface), based on instructions from the CPU 71 .
- GUI Graphic User Interface
- an operator or the like of the image production systems 300 and 301 of the embodiment can check images and perform various operations using the display unit 77 and the input unit 76 .
- the input/output interface 75 may be connected to a storage unit 79 made up of a hard disk, a solid-state memory, etc., and a communication unit 80 made up of a modem or the like.
- the communication unit 80 performs communication processing via a transmission line such as the Internet, and communication by wired/wireless communication with various devices, bus communication, and the like.
- a drive 82 is also connected to the input/output interface 75 as required, and a removable recording medium 81 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately loaded.
- Data files such as image files and various computer programs can be read from the removable recording medium 81 by the drive 82 .
- the read data file is stored in the storage unit 79 , and the image and sound contained in the data file are output by the display unit 77 and the sound output unit 78 .
- Computer programs and the like read from the removable recording medium 81 are installed in the storage unit 79 as required.
- software can be installed via network communication by the communication unit 80 or via the removable recording medium 81.
- the software may be stored in advance in the ROM 72, the storage unit 79, or the like.
- FIGS. Note that the storages 15, 16, 23, 24, 25, 28, and 32 shown in FIGS. It may be realized by a storage device.
- FIG. 6A shows an image of a free viewpoint image in which a subject is captured from a desired viewpoint set on a three-dimensional space.
- the subject HS1 is viewed substantially from the front and the subject HS2 is viewed substantially from the rear.
- FIG. 6B shows an image of a free viewpoint image when the position of the viewpoint is changed in the direction of arrow C in FIG. 6A and the viewpoint is set such that the subject HS1 is viewed substantially from behind.
- the subject HS2 is viewed substantially from the front, and the subject HS3 and the basketball goal, which were not displayed in FIG. 6A, are displayed.
- the viewpoint is gradually moved in the direction of arrow C, and a free viewpoint image (FV clip) of about 1 to 2 seconds is generated to reach the state of FIG. 6B.
- FV clip free viewpoint image
- the time length of the FV clip as a free viewpoint image and the trajectory of viewpoint movement can be considered in various ways.
- FIG. 7 shows a state in which a front clip, an FV clip, and a rear clip are connected as an example of an output clip.
- the previous clip is an actual moving image in the section from time code Tc1 to Tc2 by one imaging device 10 out of the plurality of imaging devices 10 .
- the later clip is, for example, the actual moving image in the section from time code Tc5 to Tc6 in the other imaging device 10 . It is generally assumed that the image of the previous clip is the image data of the imaging device 10 at the start of the viewpoint movement by the FV clip, and the image of the subsequent clip is the image data of the imaging device 10 at the end of the viewpoint movement by the FV clip. .
- the front clip is a video of time length t1
- the FV clip is a free viewpoint image of time length t2
- the rear clip is a video of time length t3.
- the playback time length of the entire output clip is t1+t2+t3.
- a 5-second output clip may include a 1.5-second moving image, a 2-second free viewpoint image, a 1.5-second moving image, and the like.
- Fig. 8 shows the still image FV clip with reference to the frame of the moving image.
- the timecodes Tc1 and Tc2 of the previous clip are the timecodes of the frames F1 and F81
- the timecodes of the subsequent frame F82 are the timecodes Tc3 and Tc4 in FIG.
- the time codes Tc5 and Tc6 of the subsequent clips are the time codes of frames F83 and F166. In other words, this is the case of generating a free viewpoint image in which the viewpoint moves with respect to the one-frame still image of the frame F82.
- the moving image FV clip is as shown in FIG.
- the time codes Tc1 and Tc2 of the previous clip are the time codes of the frames F1 and F101
- the time codes of the frames F102 and F302 are the time codes Tc3 and Tc4 in FIG.
- the time codes Tc5 and Tc6 of the subsequent clips are the time codes of frames F303 and F503. That is, this is the case of generating a free viewpoint image in which the viewpoint moves for a moving image of a plurality of frames from frame F102 to frame F302.
- FIG. 10 shows an example of the image content of the output clip in the example of the still image FV clip of FIG.
- the previous clip is the actual moving image from frame F1 to frame F81.
- the FV clip is a virtual image in which the viewpoint is moved in the scene of frame F82.
- the post clip is the actual moving image from frame F83 to frame F166.
- an output clip containing the FV clip is generated in this way and used as the image to be broadcast.
- the FV render 12 can generate a free viewpoint image by VDP (View Dependent Player) method and VIDP (View InDependent Player) method.
- VDP View Dependent Player
- VIDP View InDependent Player
- the VDP method is a method of generating a free viewpoint image by pasting a texture image according to the viewpoint to 3D data generated by the visual volume intersection method (Visual Hull) from captured image data from multiple viewpoints.
- Visual Hull visual volume intersection method
- a 3D model of a subject is generated as polygon mesh data from captured image data from multiple viewpoints, and a texture image is generated as a UV map texture.
- Graphics is a method for generating free-viewpoint images.
- the UV map texture is two-dimensional data obtained by UV-expanding a 3D model based on polygon meshes, and means data indicating color information for each polygon (for example, triangle).
- the FV render 12 first inputs captured image data for each imaging device 10 arranged at each viewpoint.
- an imaging device 10 (hereinafter referred to as a “subject sensing camera”) for obtaining a captured image used for generating 3D data
- a texture camera for obtaining a texture image to be pasted on the 3D data.
- some may be subject sensing cameras, and others may be texture cameras.
- the subject sensing camera and the texture camera do not necessarily have to be separate imaging devices 10, and one imaging device 10 can be used both as the subject sensing camera and the texture camera. Furthermore, it is also possible to make all the imaging devices 10 into such a dual-use camera.
- foreground extraction processing P1 is performed using captured image data (hereinafter referred to as "captured image data for sensing") obtained by each imaging device 10 as a camera for subject sensing, and a silhouette is generated. Image data is generated.
- captured image data for sensing captured image data obtained by each imaging device 10 as a camera for subject sensing
- FIG. 12 is an explanatory diagram of silhouette image data.
- a background image as illustrated in the middle of FIG. 12 is generated for each subject sensing camera based on sensing image data as illustrated in the upper of FIG.
- the target subject is, for example, a moving subject such as a player. Therefore, the background image can be generated by, for example, extracting the difference between frames.
- a foreground image in which the image portion of the target subject is extracted can be obtained for each subject sensing camera.
- the silhouette image data shown can be obtained for each viewpoint of the subject sensing camera.
- 3D data of the subject is generated by the visual volume intersection method using the silhouette image data for each viewpoint and the parameter data of each camera.
- the parameter data is data including information on external parameters, internal parameters, and focal length of the camera (subject sensing camera).
- FIG. 13 illustrates an image of 3D data corresponding to the subject illustrated in FIG. 3D data can be rephrased as data indicating the area of a subject in a three-dimensional space.
- the 3D data is not generated individually for each target subject, such as each player.
- the silhouette image data is data representing the silhouettes of the plurality of subjects
- a three-dimensional image of the plurality of subjects is displayed according to the silhouette image data.
- One piece of 3D data is generated.
- 3D data is used for free viewpoint image generation by the VDP method as FV generation processing P5.
- FV generation processing P5 a free viewpoint image is generated by the VDP method based on the 3D data, the captured image data of the texture camera, and the parameter data of the texture camera.
- the 3D data is also used for 3D model generation to enable free viewpoint image generation by the VIDP method described above.
- polygon mesh data as a 3D model of a subject is generated from 3D data by 3D model generation processing P3 in the figure.
- polygon mesh data is generated for each subject.
- FIG. 14 shows an image of polygon mesh data for a subject.
- UV map texture is used for free viewpoint image generation by the VIDP method.
- This UV map texture is generated based on the captured image data of the texture camera by the texture generation process P4 shown in FIG.
- a UV map texture is generated for each subject in correspondence with the polygon mesh data generated for each subject by the 3D model generation process P3.
- a free viewpoint image is generated by the VIDP method based on the 3D model (polygon mesh data) of the subject obtained in the 3D model generation process P3 and the UV map texture obtained in the texture generation process P4. .
- the VDP method is a method of pasting a texture image prepared for each viewpoint, it has the advantage of being able to suppress image quality deterioration of the free viewpoint image even when the 3D data to be pasted is rough.
- the VIDP method has the advantage that it is not necessary to prepare a texture image for each viewpoint. becomes.
- actual FV may be an FV clip only, or may be an output clip consisting of the front clip, the actual FV, and the rear clip as shown in FIG.
- actual FV can be considered as a clip containing FV clips.
- CG 3D images do not require an actual imaging device in the first place, and the camera viewpoint is a virtual position. Therefore, all CG clips reproduced using EPTS data can be said to be free viewpoint images. Therefore, images generated by the 3D render 27 are included in "CGFV", whether they are clips in which the viewpoint position is changed in the middle of the video, such as the FV clips described above, or clips of videos in which the viewpoint is fixed. You should think that you can.
- An image G1 in FIG. 15 is an example of an image using EPTS data and a photographed FV, and is an example of generating an image by adding an image effect based on the EPTS data to the photographed FV generated by the FV render 12 .
- the 2D renderer 31 inputs a photographed FV of a predetermined scene from the storage 16 and applies image effects.
- the 2D renderer 31 determines the position and trajectory of the ball from the EPTS data, and synthesizes an image of the flame on the position and trajectory to create an image that looks like the shooting ball is in flames.
- the position information in the three-dimensional space based on the EPTS data is converted by the coordinate conversion unit 26 into position information in the two-dimensional plane from the viewpoint according to the camera path of the scene. It is possible to synthesize an effect image according to the position and trajectory of the ball.
- An image G2 in FIG. 16 is an example of an image using a photographed FV, and shows an image from an angle that would be impossible with a normal camera arrangement.
- This image G2 is an image from a low angle inside the court, which cannot be photographed, using a free viewpoint image.
- the 2D renderer 31 can output the image G2 by inputting the photographed FV by the camera path including such a viewpoint position from the storage 16 .
- an image such as that shown in FIG. 16 can also be realized as an image using EPTS data and CGFV as the image G3. That is, this is an example of generating an image viewed from a viewpoint position where the imaging device 10 is not arranged using EPTS data.
- the 3D render 27 can generate, as CGFV, from CG images of athletes and EPTS data, low-angle images of the court, which cannot normally be shot, in the same way as real-life FV. Therefore, the 2D renderer 31 can read such a 3D image from the storage 28, perform 2D rendering, and output it as a 2D image.
- Image G4 in FIG. 17 is an example using EPTS data and CGFV.
- This is an example of generating an image by synthesizing 3D images at multiple points in time based on EPTS data. For example, it shows an image that expresses the shot locations and ball trajectories of all three-point shots in one basketball game as afterimages.
- the 2D renderer 31 reads out the CGFV of each 3-point shot scene from the storage 16 and synthesizes them, and also judges the trajectory of the ball from the EPTS data and applies image processing to generate a 2D image as shown in the figure. can.
- An image G5 in FIG. 18 is an example of an image generated by image processing using EPTS data. That is, there is an example of generating an image presenting a subject's flow line based on EPTS data within a predetermined period. For example, it is an image that graphically expresses the trajectory of the ball during a predetermined period of time, such as during a game or during a play of interest, from a bird's-eye view from above a basketball court. For example, some 2D renderers 31 and 3D renderers 27 can generate such images using EPTS data.
- Image G6 in FIG. 19 and image G7 in FIG. 20 are examples of images using EPTS data and a photographed FV. This is an example of generating an image obtained by synthesizing the images to be obtained.
- the image G6 in FIG. 19 graphically expresses the trajectory of the ball, including the horizontal movement and the height direction, from the player's right-behind viewpoint.
- the image G7 in FIG. 20 is a representation on a vertically long screen, for example, representing the trajectory of the ball in the height direction as viewed from behind the player.
- These images G6 and G7 can be generated, for example, by the 2D renderer 31 reading out the necessary photographed FV from the storage 16 and performing drawing processing of the ball trajectory based on the EPTS data.
- the image G8 in FIG. 21 is an example of an image using the EPTS data and the photographed FV.
- This image is generated by synthesizing the photographed FV generated by the FV render 12 with an image presenting values based on the EPTS data.
- This is an example of For example, it is an image that numerically represents a high-level play performed by a player.
- Image G8 displays a value indicating the height when the ball is at the highest position.
- scales and numerical values are superimposed to represent the height when a player jumps to shoot.
- Such an image G8 can be generated, for example, by the 2D render 31 reading out the necessary photographed FV from the storage 16 and performing drawing processing of characters, numerical values, accompanying lines, scales, etc. based on the EPTS data.
- an image G9 (not shown).
- the locations of five players of the same team on the court can be dynamically connected with lines, resulting in colored zones, color changes, etc. along the 24 second shot clock run. This represents the movement of each player on the team and the ball as time progresses.
- Such an image G9 can be generated, for example, by the 2D render 31 reading necessary clips from the storage 16 or storage 28 and performing line drawing and coloring processing based on the EPTS data.
- FIG. 22 shows the image G10-1
- FIG. 23 shows the image G10-2.
- Image G10 is an example of an image using EPTS data, photographed FV, and CGFV. That is, this is an example of generating an image by synthesizing the photographed FV generated by the FV render 12 and the CGFV generated by the 3D render 27 based on the EPTS data.
- Image G10-1 is an image of each player as a viewpoint image from above the court, which cannot normally be placed. . In this case, for example, in an FV clip as a live action FV, some players are represented by CG and some players by live action.
- an additional image expressing the trajectory of the ball is also synthesized.
- Such an image G10 can be generated, for example, by the 2D renderer 31 reading out the necessary photographed FV and CGFV from the storage 16 or the storage 28 and synthesizing them based on the EPTS data.
- the above images G1 to G10 are output as 2D images, and an example has been described in which they are generated by the processing of the 2D render 31, for example. or the 3D render 27 can also be used.
- CGFVs are used for the images G3, G4, G9, and G10, it is conceivable to output them as 3D images without performing 2D rendering.
- FIG. 24 to 28 An example of processing for producing the image G10 from the image G1 will be described with reference to FIGS. 24 to 28.
- FIG. Each processing example described below can be considered as processing by one of the EPTS data generation unit 22, 2D render 31, FV render 12, and 3D render 27 in the system of FIG. can. Therefore, each process will be described as the process of the image processing unit 85 of the information processing device 70 of FIG. 24 to 28 may be considered as examples of processing executed by one information processing apparatus 70, or examples of processing executed by cooperation of a plurality of information processing apparatuses 70.
- FIG. The storages 15, 16, 23, 24, 25, 28, and 32 shown in FIGS. 2 and 4 will also be referred to below. It can be considered as a storage device separate from the storage unit 79 of the processing device 70 and the information processing device 70 .
- one or more information functioning as the estimated information generation unit 4, the free viewpoint image generation unit 3, the three-dimensional image generation unit 5, and the output image generation unit 6 It can be considered as the processing of the image processing unit 85 of the processing device 70 .
- FIG. 24 shows an example of processing for creating image content including contents such as image G1, image G6, image G7, image G8, and image G9.
- the image processing unit 85 obtains estimated information such as the positions and postures of the players and the ball. That is, the EPTS data is generated from the captured image of the imaging device 20 and stored in the storage 23 .
- step S102 the image processing unit 85 determines whether or not one play in the match is ongoing.
- One play here may be determined according to the type of competition/event. For example, in basketball and soccer, the break caused by the ball going out of the court, the break caused by a goal, the break caused by a foul, etc. ), etc., and determines that one play is completed.
- the break timing of the match does not necessarily have to be the break of one play. For example, the period from immediately before the shot to after the shot may be determined as one play even if the match continues as it is.
- the image processing unit 85 may automatically determine whether the continuation of one play has been interrupted by image analysis or the like, or the image processing unit 85 may determine in accordance with an operator's input or the like.
- step S103 the image processing unit 85 determines the end of processing. For example, if the end of the game is set as the end timing of the process, the image processing unit 85 determines the end of the game automatically or according to an operator's input or the like.
- the image processing unit 85 repeats the above steps S101, S102, and S103. That is, while acquiring the EPTS data at each time point in step S101, the discontinuity of one play, the end of the game, and the like are monitored.
- the image processing unit 85 in step S104 executes image content generation, that is, processing for generating clips such as images G1, G6, G7, G8, and G9. determine whether or not For example, it is conceivable to ask the operator whether or not to generate the image content each time one play is completed, and to detect the input of the answer to make a determination.
- the image processing unit 85 may analyze the contents of the captured image of one play so far, and may automatically determine, for example, to generate content when it is determined to be a specific scene.
- step S101 If image content generation is not to be executed, the image processing unit 85 returns to step S101.
- the image processing unit 85 proceeds to step S110 and acquires the EPTS data for the current one play. For example, EPTS data for one play period is read from the storage 23 .
- the image processing unit 85 performs processing for determining a player to be featured in the generated image content. For example, a player to be expressed as an FV clip from a free viewpoint or a player to be given an image effect is determined. In other words, this is the process of determining the player who will be the main subject in the image to be generated. This processing may be performed according to operator input, or may be performed automatically. When the operator designates a specific player in advance or performs an operation for designating the specific player for the current one play, the image processing part 85 determines the designated player as the main subject. Alternatively, a player who made a specific play, such as a player who made a shot, may be automatically determined from the image content of one play, and that player may be determined as the main subject. Further, the image processing unit 85 may present each player captured in the current play or a plurality of players who made a major move, and the operator may select one.
- a player to be expressed as an FV clip from a free viewpoint or a player to be given an image effect is determined
- step S312 the image processing section 85 selects an effect pattern.
- This is a process of selecting which type of rendering, for example, image G1, image G6, image G7, image G8, or image G9.
- an effect is applied as in image G1
- an image that presents the subject's flow line is synthesized as in images G6 and G7, or numerical values based on EPTS data are presented as in image G8. It is selected whether to generate an image or to generate an image in which images are combined with a clip as shown in image G9.
- This processing may also be performed according to the operator's input, or may be performed automatically.
- the image processing section 85 determines the effect pattern according to the specification.
- the image processing unit 85 can also automatically select an effect pattern according to, for example, a shot scene, a pass scene, a foul scene, the type of shot, etc., from the image content of one play.
- step S113 the image processing unit 85 selects a necessary image based on the EPTS data acquired in step S110 to be processed. At least in step S111, an image with an angle that is not hidden is selected. Since the position of the player can be confirmed by the EPTS data, the image of the imaging device 10 capturing the player can be determined. Therefore, the image processing unit 85 selects FV clips and 3D images capturing the players from the storages 16 and 28 and reads them out as processing targets, or at this time, reads them from the recording unit 11 for a required period and at a required angle. You can select images and generate FV clips.
- the image processing unit 85 processes the effect image to be added to the selected image. For example, a CG image for production effects is generated based on EPTS data.
- the image processing unit 85 smoothes the EPTS data in step S114, and converts the smoothed EPTS data into A CG image is generated based on the Smoothing of EPTS data is a process for smoothing changes in the positional information of a player or a ball at each point in time, for example.
- the position information of the player and the ball based on the actual EPTS data has many small fluctuations, and it is difficult to draw a smooth trajectory as it is.
- the image processing unit 85 determines the trajectory of the ball from the smoothed EPTS data, and generates a CG image as an effect superimposed on the trajectory.
- the image processing unit 85 determines the trajectory of the ball from the smoothed EPTS data and generates a CG image representing the trajectory.
- the image processing unit 85 determines the trajectory of each player based on the smoothed EPTS data, and determines the color of the line connecting the players and the color of the area according to the position of each player in each frame. Generate a CG image that expresses
- the image processing unit 85 performs processing to convert the values obtained from the EPTS data into display data in step S114. That is, the EPTS data is used to determine numerical values to be expressed, and a CG image is generated as the numerical values and an additional image.
- step S115 the image processing unit 85 superimposes the CG image of the rendering effect generated in step S114 on the image selected (or generated) in step S113. As a result, image contents such as those exemplified by the image G1, image G6, image G7, image G8, and image G9 are generated.
- step S116 the image processing unit 85 outputs the generated image content generation. Then, the process returns to step S101.
- image contents including scenes such as image G1, image G6, image G7, image G8, and image G9.
- the image processing unit 85 performs the processing from step S101 to step S125 after the match starts until it is determined in step S103 that the match has ended.
- step S ⁇ b>101 the image processing unit 85 generates EPTS data from the captured image of the imaging device 20 and stores it in the storage 23 .
- the image processing unit 85 acquires EPTS data and an avatar for the current frame.
- An avatar is a 3D model of a player, and in this processing example, refers to a CG player model in the storage 24 .
- step S123 the image processing unit 85 performs avatar processing based on the EPTS data.
- the positions and postures of the players represented in the current frame are determined from the EPTS data, and 3D images of each player are generated from the CG player models.
- step S124 the image processing unit 85 generates an image of the virtual viewpoint. That is, an image from an arbitrary viewpoint is generated using a 3D image of each player by CG. For example, like image G3, it is possible to generate an image at an angle that cannot normally be captured.
- step S125 the image processing unit 85 outputs the generated virtual viewpoint image content generation. Then, if it is not determined in step S103 that the process has ended, the process returns to step S101. Therefore, it is possible to generate and output image content that reproduces the game from various virtual viewpoints.
- the image processing unit 85 After the start of the game, the image processing unit 85 generates EPTS data in step S101, determines whether to continue one play in step S102, and performs processing from step S121 to step S125 until it is determined in step S103 that the match has ended.
- step S121 reproduction images of the game from various viewpoints are generated and output in the same manner as in FIG. 25 above.
- the avatar acquired by the image processing unit 85 in step S121 is the CG player model stored in the storage 24 in FIG. 25, but in the case of FIG. be.
- 3D images of all players are generated using CG player models, since live-action player models have not yet been created. After that, at the timing when one play is interrupted, a photographed player model may be created from the captured image.
- the image processing unit 85 proceeds from step S102 to step S131, and the image processing unit 85 determines whether or not a player was present in the specified area during the current one play.
- the designated area referred to here is an area in which images of the player can be obtained at various angles using as many imaging devices 10 as possible for convenience of camera arrangement.
- the specified area DA is set according to the camera arrangement.
- this designated area DA can be set in a state where each imaging device 10 is arranged, calibration is performed, and the visual field range of each imaging device 10 is determined.
- This designated area DA is set as an area in which a highly accurate photographed player model can be generated.
- the image processing unit 85 determines in step S131 whether or not the player is within the designated area DA. In this case, it may be determined whether or not a specific player was in the designated area DA, or it may be determined whether or not there is a player in the designated area DA without setting any restrictions on the players. .
- step S101 If there is no player (or specific player) within the specified area DA in the image of the current one play period, the image processing unit 85 returns to step S101. In other words, in that case, no live-action player model is generated.
- step S131 If it is determined in step S131 that the player is within the specified area DA, the image processing unit 85 proceeds to step S132 and acquires the EPTS data for the current one play. For example, EPTS data for one play period is read from the storage 23 .
- step S133 the image processing unit 85 determines whether or not there is a timing to meet the conditions for generating a live-action player model (a live-action avatar) for the player who was in the specified area DA during the current one play period. judge. For example, the following conditions are judged. ⁇ The number of captured images without occlusion is a predetermined number or more. ⁇ The posture of the player is appropriate. ⁇ The captured image is obtained without vigorous movement.
- Occlusion is when an object in the foreground obscures an object in the background.
- occlusion is a state in which the target player in the designated area DA is hidden from the viewpoint of the captured image by other players around the target player. If there are a predetermined number or more of images in which a target player is captured in a state without occlusion as captured images from each viewpoint by a plurality of imaging devices 10 at a certain timing during one play, it means that the player is highly accurate. This is one of the conditions for generating a live-action player model.
- the condition that the posture is appropriate is a condition that a posture suitable for 3D modeling, such as the so-called T-pose or A-pose, or a posture close to it is desirable.
- a posture suitable for 3D modeling such as the so-called T-pose or A-pose, or a posture close to it is desirable.
- One of the conditions for generating a high-precision photographed player model may be that the target player in the specified area DA has a pose suitable for 3D modeling.
- one of the conditions may be that a captured image is obtained in a state where the subject does not move violently.
- the image processing unit 85 determines whether or not there is a timing at which the conditions are satisfied within the current one play. If it is determined that there is no timing that satisfies the conditions in the images in the current one-play period, that is, there is no timing for obtaining an appropriate captured image for 3D modeling, the image processing unit 85 returns to step S101. In other words, in that case, no live-action player model is generated.
- step S134 the image processing unit 85 proceeds to step S134 and generates an avatar for the player. That is, 3D modeling is performed using captured images from a plurality of viewpoints at timings when conditions are met, and a photographed player model is generated.
- step S135 the image processing unit 85 branches the processing depending on the quality determination. Whether or not the quality of the generated live-action player model is sufficient is determined automatically, or displayed on the display unit 77 to determine whether or not the quality is sufficient according to the operator's operation. If the quality is considered insufficient, the image processing section 85 returns to step S101. In this case, the live-action player model created this time will be discarded.
- step S136 the image processing unit 85 proceeds to step S136 to update the avatar.
- a photographed player model is stored in the storage 16 so that it can be used in processing as the 3D render 27 . Then, the process proceeds to step S121.
- an image using the live-action player model instead of the CG player model is generated in subsequent steps S121 to S125. For this reason, for example, in the image content produced, as the game progresses, each player is gradually replaced from the CG image to the actual image.
- a specific player may generate an image using a live-action player model instead of the CG player model.
- a live-action player model instead of the CG player model.
- one or a plurality of athletes of interest are set in advance as specific athletes. Then, if it is determined in step S131 that the specific player is within the specified area DA, and if there is a timing that the specific player satisfies the condition in step S133, an avatar is generated in step S134. This enables efficient processing when generating image content featuring a specific player.
- the live-action player models are generated.
- setting may be made so as to generate an image using a photographed player model thereafter.
- CG player models were used for all players until live-action player models were generated for all participating players.
- An image may be generated.
- an additional image based on the EPTS data may be superimposed.
- image G10-1 and image G10-2 in FIG. 23 also include an additional image representing the trajectory of the ball.
- the image processing unit 85 can synthesize such additional images. In other words, this is an example of synthesizing an image of a player based on a photographed FV, an image of a player based on CGFV based on EPTS data, and an additional image based on EPTS data.
- Additional images may include images representing the trajectories of players and balls, images representing flow lines, characters, numbers, and the like.
- step S101 and S140 perform the processes of steps S101 and S140 until it is determined in step S103 that the game is finished.
- step S ⁇ b>101 the image processing unit 85 generates EPTS data from the captured image of the imaging device 20 and stores it in the storage 23 .
- step S140 the image processing unit 85 determines whether or not it is time to break the game.
- an interval between quarters of basketball, halftime, or the timing of the end of the game is determined as the timing of the break in the game.
- step S140 determines that it is time to break the game by analysis of the captured image or input by the operator
- the process proceeds from step S140 to step S141 to generate image content, that is, image G4. It is determined whether or not to execute processing for generating such clips. This determination can be made by the operator's input or automatic processing as in step S104 of FIG.
- step S101 If image content generation is not to be executed, the image processing unit 85 returns to step S101. If it is determined to execute image content generation, the image processing unit 85 proceeds to step S142 and acquires EPTS data for the necessary period. For example, at the timing of the interval at the end of the first quarter, the EPTS data for the period of the first quarter is read from the storage 23 .
- step S143 the image processing unit 85 generates a CG image based on the EPTS data of the target scene. For example, if an image is generated by collecting shooting scenes within a period, the positions of each player and the ball are determined based on the EPTS data of the shooting scenes, and a CG composite image is generated.
- step S144 the image processing unit 85 outputs the generated image content generation. Then, via step S103, the process returns to step S101 if it is not the time to end the game.
- step S101 the image processing unit 85 performs the processes of steps S101 and S140 until it is determined in step S103 that the game is finished.
- step S ⁇ b>101 the image processing unit 85 generates EPTS data from the captured image of the imaging device 20 and stores it in the storage 23 .
- step S140 the image processing unit 85 determines whether or not it is time to break the game. When it is determined that it is time to break the game, the image processing unit 85 proceeds from step S140 to step S141 to determine whether or not to generate image content, that is, to generate a clip as illustrated in image G5. judge.
- step S101 If image content generation is not to be executed, the image processing unit 85 returns to step S101. If it is determined to execute image content generation, the image processing unit 85 proceeds to step S142 and acquires EPTS data for the necessary period.
- step S151 the image processing unit 85 smoothes the EPTS data for the period acquired in step S142. This is for expressing a smooth trajectory by smoothing, as described as one of the processes in step S114 of FIG.
- step S152 the smoothed EPTS data is converted into display data and used as an image within the period.
- a CG image is generated that expresses the movement trajectory of the ball, player, etc. based on the EPTS data for the period acquired in step S142.
- a moving image in which the movement trajectory is gradually drawn using the movement trajectory at each point in time during the period as each frame, or a still image showing the trajectory by synthesizing the images of the movement positions within the period may be used.
- the image processing unit 85 outputs the generated image content generation. Then, via step S103, the process returns to step S101 if it is not the time to end the game.
- FIGS. 24 to 28 described above are examples of processing that can be executed by the system of this embodiment. Also, FIGS. 24 to 28 have been described as processing examples during the period after the start of the game, but similar processing can be performed during playback of images of the game. However, in that case, since the EPTS data is already stored in the storage 23, step S101 is unnecessary.
- FIG. 29 shows the flow of operator's operation, FV render 12 processing, 3D render 27 processing, and 2D render 31 processing.
- Camera path designation information CPD is supplied to the FV render 12 and the 3D render 27 at the time of generating the free viewpoint image according to the operator's operation.
- the FV render 12 can generate a free-viewpoint image, that is, a photographed FV by a designated camera path according to the camera path designation information CPD.
- the 3D renderer 27 can also generate a free-viewpoint image, that is, a CGFV, by a designated camera path according to the camera path designation information CPD.
- the 2D render 31 can acquire the photographed FV generated by the FV render 12, the depth information DPT, and the quality determination information CI.
- the depth information DPT is depth information of each subject (player or ball) viewed from the viewpoint position of each frame of the actual FV.
- the quality determination information CI is information used for quality determination, and includes time information of each frame and information on the area where the subject player is present.
- the 2D render 31 can also acquire the CGFV generated by the 3D render 27 and the depth information DPT.
- the 2D render 31 selects or synthesizes the actual FV and CGFV to generate an output image.
- Depth information DPT and quality determination information CI are used in the selection and synthesis.
- the generated output image will be distributed or broadcast, for example, in response to an operator's operation.
- the 2D renderer 31 selects or synthesizes two free-viewpoint images, the actual FV and the CGFV, to generate an output image.
- the image content for this output image the one obtained by selecting or synthesizing the photographed FV and CGFV is used.
- the actual FV or the CGFV is selected as an output image.
- the actual FV and CGFV are selected for each frame of the output image in the direction of the time axis.
- synthesizing a subject within an image of one frame of an output image is a subject within an image of one frame of an output image.
- the process of generating an output image by "selecting" a live-action FV and a CGFV includes an example of processing in which both the live-action FV and CGFV are generated and one of them is selected as the output image.
- the actual FV and CGFV are first selected based on the camera path or the like, and when the actual FV is selected, the FV render 12 generates the actual FV, and the 2D render 31 uses it to generate an output image.
- CGFV is selected, the 3D render 27 generates the CGFV, and the 2D render 31 uses it to generate an output image. Any of the above may be used.
- FIG. 30 shows an example in which the actual FV is used in the period from frame FR#1, the CGFV is used in the period from frame FR#x, and the actual FV is used in the period from frame FR#y.
- This is one example of the result when quality determination is performed using the quality determination information CI and the photographed FV and CGFV are selected for each frame. For example, when each frame in the period from frame FR#x to frame FR#(y ⁇ 1) (not shown) is degraded in the actual FV, each frame in this period selects CGFV, The output image is as shown in FIG.
- the quality judgment for selecting the actual FV and CGFV for the entire FV clip or for each frame is performed as follows.
- a 3D model for generating a free-viewpoint image becomes more accurate as images captured from a greater number of viewpoints can be obtained. Therefore, an area that can be imaged by a predetermined number or more of imaging devices 10, such as at least three, is specified. For example, it is the designated area DA in FIG. 3 described above.
- Determining whether or not the current camera pass targets an object in the specified area DA is one of the quality determinations. That is, if the target subject for the free viewpoint image in the current camera pass is within the specified area DA, it is a factor for determining that the quality is good. Conversely, if the target subject is not within the specified area DA, the quality of the photographed FV may be degraded.
- the zoom limit referred to here is set as the upper limit of the zoom magnification for maintaining the quality required by the actual FV.
- the maximum magnification of the optical zoom may be set as the zoom limit.
- the zoom limit may be set to a certain predetermined zoom magnification without being limited to the zoom method.
- Whether or not the camera path is within the zoom limit area is a factor for judging the quality of the live-action FV. In other words, if the camera path does not fall within the zoom limit area, it is a position determination factor indicating that the quality of the photographed FV is good. , the quality of the photographed FV may be degraded.
- 31A, 31B, 32A, and 32B illustrate the relationship between the camera paths CP1, CP2, CP3, and CP4 and the arrangement of each of the imaging devices 10.
- FIG. By determining the arrangement of the imaging device 10, the designated area DA and the zoom boundary ZB are specified as shown in each figure.
- the zoom boundary ZB is a line indicating the zoom limit, and indicates that the subject inside the elliptical shape of the zoom boundary ZB has a magnification exceeding the zoom limit.
- the target player 90 of the free viewpoint image is indicated by a black circle, and the other player 91 is indicated by a white circle.
- the target player 90 is within the designated area DA. If the current camera path CP1 designates the target player 90 as the player in the designated area DA, images of the target player 90 from a predetermined number or more of viewpoints can be obtained. Also, the camera path CP1 does not exceed the zoom boundary ZB. Therefore, from only these points of view, it is determined that the quality of the photographed FV by the camera path CP1 this time can be maintained. Therefore, it is conceivable to select the actual FV for all frames in the camera path CP1.
- the camera path CP1 is indicated by a double line, and the double line is a section for selecting the photographed FV.
- FIG. 31B shows a case where the target player 90 is within the designated area DA, but the camera path CP2 partially exceeds the zoom boundary ZB (the portion where the double line is shown as a thick line).
- the quality of the image in the thick line section may be degraded in the photographed FV by the camera path CP2. Therefore, it is conceivable that the CGFV is selected for the frames in the thick line section of the camera path CP2, and the actual FV is selected for the frames in the section indicated by the double line that does not cross the zoom boundary. In this case, there is also a way of thinking that the entire output image is made by CGFV in consideration of the quality of a part of the photographed FV.
- FIG. 32A shows a case where the camera path CP3 does not cross the zoom boundary ZB, but the target player 90 does not enter the designated area DA.
- FIG. 32B shows a case where the camera path CP3 partially exceeds the zoom boundary ZB and the target player 90 is not within the specified area DA. In these cases, it is conceivable that the quality of the free viewpoint image of the target player 90 cannot be maintained, so the frames of all sections of the camera paths CP3 and CP4 are based on CGFV.
- the examples of quality determination using the designated area DA and the zoom boundary ZB have been described.
- the degree of congestion around the target player 90 is determined. It is determined whether or not the distance between players is within a certain range. Also, it is determined whether or not the number of occlusions of the target player 90 by the other player 91 is equal to or greater than a predetermined number as seen from the imaging device 10 forming the viewpoint of the camera path.
- the accuracy of the 3D model for the target player 90 decreases when the distance between the players is within a certain range or when the number of occlusions is greater than or equal to a predetermined number. Therefore, in such a case, it is assumed that the quality of the actual FV may not be maintained, and the CGFV is selected.
- FIG. 33 shows a captured image of one frame in which players 92, 93, 94, and 95 are shown as the original scene.
- player images 92C, 93C, 94C, and 95C are individually rendered based on EPTS data, and player images 92, 93, 94, and 95 are individually rendered as live-action FV.
- Player images 92R, 93R, 94R, and 95R are shown.
- the specified area DA is shown in the frame for quality judgment. This is an area in which a high-quality photographed FV can be generated, which is calculated from the camera arrangement and selected arrangement in advance as described above.
- the specified area DA is shown three-dimensionally by broken lines. It is assumed that the player 92 is within the specified area DA, and the other players 93, 94, and 95 are outside the specified area DA.
- the output image of the frame is generated by synthesizing a player image 92R based on the actual FV and player images 93C, 94C, and 95C based on the CGFV, as shown in the figure.
- each of the following processing examples is the processing of the image processing unit 85 of the information processing device 70 as the 2D renderer 31 .
- it may be considered as the processing of the image processing unit 85 of the information processing device 70 as the FV render 12 or the 3D render 27 .
- this is the processing of the image processing unit 85 in the information processing device 70 functioning as the output image generation unit 6.
- FIG. 34 is an example of selecting either the actual FV or the CGFV when outputting the FV clip.
- the image processing unit 85 sets the camera path of the FV clip to be generated this time according to the camera path designation information CPD input by the operator.
- step S302 the image processing unit 85 performs quality determination processing for the photographed FV. For example, as described above, whether or not the target player 90 of the free-viewpoint image obtained by the current camera path is within the designated area DA, whether or not the camera path exceeds the zoom boundary ZB, and whether or not the distance between the players is determined as the player placement.
- quality determination elements are determined, such as whether or not the number of occlusions is within a certain range and whether or not the number of occlusions is a predetermined number or more.
- step S303 the image processing unit 85 proceeds from step S303 to step S304, generates a clip as the actual FV, and uses it as an output image in step S306.
- step S303 the image processing unit 85 proceeds from step S303 to step S305, generates an FV clip by CGFV, and uses it as an output image in step S306.
- an FV clip based on a live-action FV or an FV clip based on a CGFV is selected as an output image according to the quality determination.
- FIG. 35 shows an example of selecting either the actual FV or the CGFV for each frame when outputting the FV clip.
- the image processing unit 85 sets the camera path of the FV clip to be generated this time according to the camera path designation information CPD input by the operator.
- step S311 the image processing unit 85 performs quality determination processing of the photographed FV for each frame constituting the camera path. That is, determination elements such as the designated area DA, zoom boundary ZB, distance between players, and occlusion are determined for each frame.
- step S312 the image processing unit 85 sets the variable N to "1" and sets the total number of frames of the FV clip to be generated as the variable Nmax.
- step S313 the image processing unit 85 refers to the quality determination result of the Nth frame and branches the process. When it is determined that the photographed FV in the Nth frame satisfies the quality condition, the image processing unit 85 proceeds to step S314 to generate or select an image by the photographed FV as the Nth frame of the output image. If it is determined that the photographed FV in the N-th frame does not satisfy the quality condition, the image processing unit 85 proceeds to step S315 to generate or generate an image by CGFV as the N-th frame of the output image. select.
- step S316 the image processing unit 85 confirms whether or not the variable N has reached the variable Nmax, and if not, increments the variable N in step S317 and returns to step S313. Therefore, the photographed FV and CGFV are selected according to the quality determination result for each frame.
- step S316 When it is determined in step S316 that the variable N has reached the variable Nmax, the image processing unit 85 proceeds to step S318, generates a clip of the selected live-action FV and CGFV for each frame, and outputs in step S306.
- a live-action FV or CGFV is selected according to the quality determination for each frame, a clip is generated, and an output image is obtained.
- FIG. 36 shows an example of subject composition processing for each frame of an FV clip that is to be an output image.
- the image processing unit 85 sets one frame to be processed in step S320. Since the processing in FIG. 36 is performed with the first frame to the last frame of the FV clip being sequentially processed, this step S320 is processing for sequentially setting one frame as the current processing target.
- step S321 the image processing unit 85 acquires EPTS data for the frame to be processed this time.
- step S322 the image processing unit 85 extracts the subject within the frame. For example, extract images of players and balls.
- step S323 the image processing unit 85 sets the variable M to "1" and sets the total number of frames of the FV clip to be generated as the variable Mmax.
- step S324 the image processing unit 85 determines whether or not the photographed FV for the Mth subject satisfies the quality condition. For example, as described with reference to FIG. 33, it is determined whether or not the Mth subject exists within the specified area DA. For example, it is assumed that the quality condition is satisfied within the specified area DA. Further, a quality condition such as no occlusion by other objects or a quality condition such as a separation distance from other objects may be added to the Mth object.
- step S325 If it is determined that the photographed FV of the Mth subject satisfies the quality condition, the image processing unit 85 proceeds to step S325 to generate or select the image of the Mth subject with the photographed FV. If it is determined that the photographed FV of the Mth subject does not satisfy the quality condition, the image processing unit 85 proceeds to step S326 to generate or select an image of the Mth subject with CGFV.
- step S327 the image processing unit 85 confirms whether or not the variable M has reached the variable Mmax, and if not, increments the variable M in step S328 and returns to step S324. Therefore, the photographed FV and CGFV are selected according to the quality determination result for each subject.
- step S327 When it is determined in step S327 that the variable M has reached the variable Mmax, the image processing unit 85 proceeds to step S329, and synthesizes the actual FV or CGFV selected for each subject such as a player and the background image to generate a one-frame image. Generate.
- each frame of the clip becomes an image in which each subject generated by either the live-action FV or the CGFV is combined. Each such frame then produces an output image.
- FIG. 34 shows an example of selecting either the actual FV or CGFV for the entire FV clip
- FIG. 35 shows an example of selecting the actual FV or CGFV for each frame of the FV clip
- An example of synthesizing an FV subject and a CGFV subject has been described. These treatments can also be combined.
- step S304 of FIG. 34 and step S314 of FIG. 35 the process of FIG. 36 may also be performed to select and synthesize the actual FV and CGFV for each subject.
- the quality determination process is performed for the photographed FV
- the quality determination process for the CGFV may be performed.
- EPTS data may be insufficient or inaccurate for some reason. Therefore, it is also possible to determine whether the EPTS data is sufficient or not as the CGFV quality determination process, and based on this, select between the actual FV and CGFV for the entire FV clip, for each frame, or for each subject. Conceivable.
- the image production system 300 of the embodiment has an EPTS data generation unit 22 (estimation information generation unit 4) that generates EPTS data (estimation information) regarding a subject based on at least one of captured images and sensor information.
- the image production system 300 also generates a photographed player model (first three-dimensional model), which is a three-dimensional model of a subject, based on a plurality of pieces of captured image data obtained by simultaneously capturing images from a plurality of viewpoints.
- the image production system 300 also includes a 3D render 27 (three-dimensional image model) capable of generating a three-dimensional image based on EPTS data and a CG player model (second three-dimensional model), which is a virtual three-dimensional model of a subject.
- a generator 5 is provided.
- this image production system 300 a variety of image contents can be generated by switching or fusing free-viewpoint images based on actual photography and 3D images using a virtual 3D model using EPTS data. can be done. For example, depending on the FV render 12, it is possible to generate free viewpoint images without position restrictions from multi-viewpoint images captured by a plurality of imaging devices 10 as free viewpoint images.
- the 3D render 27 is capable of generating a 3D image using a live-action player model and a CG player model. That is, the 3D renderer 27 can input a live-action player model and a CG player model, and use these to generate a 3D image. For this reason, as in the example of processing in FIG. It is possible to generate 3D image data using a photographed player model.
- the 3D render 27 selectively uses a live-action player model and a CG player model for a specific subject to generate a 3D image.
- the 3D render 27 generates a 3D image using a CG player model until a photographed image of a specific player is obtained. , the image of the player can be switched to a 3D image generated using a photographed player model.
- a 2D renderer 31 (two-dimensional image generator) that selectively uses a photographed image including a free-viewpoint image generated by the FV render 12 and a 3D image generated by the 3D renderer 27 to generate a 2D image.
- the 2D render 31 receives free-viewpoint images and 3D images, and can selectively use them to generate 2D images.
- 3D images and free-viewpoint images obtained by the image production system 300 combining the volumetric system 100 and the EPTS 200 can be displayed in 2D. That is, image display using a general display device can be realized.
- EPTS data including position information of a person or an object as a subject in a captured image, or a person or an object that can be sensed by the sensor 29 is taken as an example of estimation information.
- the 3D render 27 can generate an image that reflects the actual position of the subject as a non-actual CG image.
- the estimation information is EPTS data including posture information of a person or object as a subject in the captured image, or a person or object that can be sensed by the sensor 29 .
- the 3D renderer 27 can generate an image that reflects the posture of the actual subject, such as a player, as a non-actual image using CG.
- the estimated information is not limited to EPTS data. For example, any information that can be detected from an image by image analysis may be used.
- the 2D renderer 31 can generate a 2D image by inputting from the storage 16 a photographed image including a free-viewpoint image generated by the FV render 12 and applying an image effect based on the effect designation information EF (see FIG. 24). ).
- the effect designation information EF see FIG. 24.
- the 3D render 27 can generate an image from an angle that cannot be actually captured, such as the image G3 in FIG. 16 (see FIG. 25).
- the FV render 12 can also generate images from angles that cannot be captured, such as image G2 in FIG. By using these images, it is possible to output image content including images of various viewpoints regardless of the actual camera arrangement.
- the 3D renderer 27 can generate an image that combines images of players and ball trajectories at a plurality of points in time, based on EPTS data during a game (see FIG. 27). As a result, it is possible to output image content including images summarizing, for example, highlight scenes of a game.
- the 3D renderer 27 can generate an image representing the trajectories of the movements of the players and the ball based on the EPTS data for a certain period of time, such as during the game (see FIG. 28).
- image content including an image in which the movement line of the subject can be seen, such as the movement of a player or ball.
- the movement line of the subject based on the EPTS data is presented for the actual image including the free-viewpoint image generated by the FV render 12.
- An example of generating an image by synthesizing images has been described.
- the 2D renderer 31 can synthesize a photographed image including a free-viewpoint image generated by the FV render 12 and an image showing the flow line of the subject generated by the 3D renderer 27 based on EPTS data (see FIG. 24).
- image content including an image showing the trajectory of the ball, such as the image G6 and the image G7.
- an image is generated by synthesizing an image presenting a value based on the EPTS data with a photographed image including a free-viewpoint image generated by the FV render 12.
- the 2D render 31 is an actual image including a free-viewpoint image generated by the FV render 12, and an image obtained by converting numerical values based on EPTS data into display data by the 3D render 27, such as an image showing characters, numbers, or scales. can be synthesized (see FIG. 24).
- image content including an image that expresses, for example, how great the play is by using numerical values or the like.
- an image based on the EPTS data is combined with a real image including a free-viewpoint image generated by the FV render 12 or a 3D image generated by the 3D render 27.
- the 2D render 31 adds additional images generated by the 3D render 27 based on the EPTS data to the live-action image including the free-viewpoint image generated by the FV render 12 or the 3D image generated by the 3D render 27 .
- Images can be synthesized (see FIG. 24). As a result, it is possible to output an image content including an additional image such as the image G9 that visualizes and expresses the play.
- the image G10 for example, images G10-1 and G10-2 in FIGS.
- An example of generating an image combined with a 3D image generated by V.27 has been described.
- the 2D renderer 31 can synthesize the real image including the free-viewpoint image generated by the FV render 12 and the 3D image generated by the 3D renderer 27 based on the EPTS data (see FIG. 24). As a result, it is possible to output image content including an image in which actual photography and CG are mixed.
- the additional image generated by the 3D render 27 based on the EPTS data may be synthesized.
- the image production system 301 of the embodiment has an EPTS data generation unit 22 (estimation information generation unit 4) that generates EPTS data (estimation information) regarding a subject based on at least one of captured images and sensor information.
- the image production system 301 generates a three-dimensional model of the subject based on a plurality of captured image data obtained by simultaneously capturing images from a plurality of viewpoints, and uses the three-dimensional model to create an image of the subject from an arbitrary viewpoint.
- An FV render 12 (free-viewpoint image generation unit 3) that generates a free-viewpoint image is provided.
- the image production system 301 also includes a 3D render 27 (3D image generator 5) capable of generating a 3D image based on EPTS data and a 3D model of a subject.
- the image production system 301 further includes a 2D render 31 (output image generation unit 6) that generates an output image based on the free viewpoint image generated by the FV render 12 and the three-dimensional image generated by the 3D render 27.
- FIG. The FV render 12 and 3D render 27 can also function as the output image generator 6 .
- this image production system 301 when generating an output image based on a free-viewpoint image based on a photographed image and a 3D image using a virtual 3D model, for example, the free-viewpoint image and the 3D image can be switched or merged. can be used to generate the output image.
- these FV render 12 and 3D render 27 images can be fused or selected based on EPTS data to generate new and diverse output images. become.
- the output image generation unit 6 selectively uses a photographed image including a free viewpoint image generated by the FV render 12 and a 3D image generated by the 3D render 27 to generate an output image.
- the 2D renderer 31 functions as the output image generator 6 in FIG.
- the FV render 12 and the 3D render 27 can function as the output image generator 6 in FIG.
- Such an output image generation unit 6 selectively uses a photographed image (for example, photographed FV) including a free viewpoint image generated by the FV render 12 and a 3D image (for example, CGFV) generated by the 3D render 27 and outputs the By generating images, it becomes possible to output image contents that combine live action and CG.
- the output image generation unit 6 selectively uses, for each period, the captured image including the free viewpoint image generated by the FV render 12 and the 3D image generated by the 3D render 27 to generate the output image. (see FIGS. 30, 34 and 35).
- the output image generator 6 selects the actual FV and the CGFV for each frame period to generate an FV clip as an output image.
- the output image generation unit 6 generates an output image by synthesizing a photographed image including a free viewpoint image generated by the FV render 12 and a 3D image generated by the 3D render 27 has been described (FIG. 33). , see FIG. 36).
- live action for example, live action FV
- CG for example, CGFV
- the output image generation unit 6 generates an output image by synthesizing a subject image of a photographed image including a free viewpoint image generated by the FV render 12 and a subject image of a 3D image generated by the 3D render 27. Examples have been described (see FIGS. 33 and 36). For example, the output image generation unit 6 selects whether to use an image generated by the FV render 12 or an image generated by the 3D render 27 for each subject such as a player, and synthesizes the images within one frame. As a result, it is possible to output an image content obtained by synthesizing the photographed image and the CG for each frame.
- the output image generation unit 6 selectively renders a real image including the free viewpoint image generated by the FV render 12 and a 3D image generated by the 3D render 27 based on the camera path of the free viewpoint image.
- An example of generating an output image using the above has been described (see FIGS. 30, 31, 32, 34 and 35).
- the output image generation unit 6 performs quality determination processing of the free viewpoint image, and according to the quality determination result, the captured image including the free viewpoint image generated by the FV render 12 and the 3D render 27 generated
- An example of selectively using a three-dimensional image to generate an output image has been described (see FIGS. 30, 31, 32, 34, and 35).
- quality determination processing it is possible to determine which of the actual FV generated by the FV render 12 and the CGFV generated by the 3D render 27 is appropriate. This makes it possible to improve the image quality of image content that selectively uses actual photography and CG.
- the target subject of the free viewpoint image exists in the designated area DA within the field of view of a predetermined number or more of the imaging devices 10.
- An example of determining whether or not has been described see FIGS. 31 and 32.
- Designated areas DA imaged by a larger number of imaging devices 10 are set, and it is determined whether or not the target player 90 is within the designated area DA in the free viewpoint image. This determines whether or not the photographed FV is suitable in terms of quality.
- the quality determination processing of the embodiment an example of determining the positional relationship in the image between the subject for which the free viewpoint image is to be generated and another subject at the viewpoint defined by the camera path has been described.
- the quality of the free-viewpoint image changes depending on the position of the player in the image. For this reason, at each viewpoint by the current camera path. It is preferable to determine whether the free-viewpoint image or the CG image is suitable from the positional relationship between the target player and the other players.
- determining the degree of congestion is suitable for determining which of the free-viewpoint image and the CG image by photographing is suitable.
- the degree of congestion may be determined by determining whether or not the distance between players is equal to or greater than a certain amount, or by determining the amount of occlusion.
- the program of the embodiment is a program that causes a CPU, DSP, AI processor, or an information processing apparatus including these to execute the processes shown in FIGS. 24 to 28 . That is, the program of the embodiment includes processing for generating estimated information about a subject based on at least one of a captured image or sensor information, A process of generating a first three-dimensional model, which is a three-dimensional model, and generating a free-viewpoint image, which is an image of an arbitrary viewpoint of a subject using the first three-dimensional model; and a process of generating a three-dimensional image based on a second three-dimensional model, which is an original model.
- the program of the embodiment includes processing for generating estimated information about a subject based on at least one of a captured image or sensor information, A process of generating a 3D model and generating a free viewpoint image, which is an image of an object from an arbitrary viewpoint using the 3D model, and generating a 3D image based on the estimation information and the 3D model of the object.
- the devices that constitute the image production system 300 or 301 of the embodiment can be implemented in, for example, computer devices, mobile terminal devices, and other devices capable of executing information processing.
- Such a program can be recorded in advance in an HDD as a recording medium built in equipment such as a computer device, or in a ROM or the like in a microcomputer having a CPU.
- a flexible disc a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a Blu-ray disc (Blu-ray Disc (registered trademark)), a magnetic disc, a semiconductor memory
- a removable recording medium such as a memory card.
- Such removable recording media can be provided as so-called package software.
- it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
- LAN Local Area Network
- Such a program is suitable for widely providing the information processing device 70 that constitutes the image production system 300 or 301 of the embodiment.
- a program for example, by downloading a program to a mobile terminal device such as a smartphone or tablet, an imaging device, a mobile phone, a personal computer, a game device, a video device, a PDA (Personal Digital Assistant), etc., the smartphone, etc. can be used to create the image of the present disclosure. It can function as the information processing device 70 that configures the system 300 or 301 .
- an estimated information generating unit that generates estimated information about a subject based on at least one of a captured image and sensor information; Freedom to generate a 3D model of the subject based on multiple image data obtained by simultaneously capturing images from multiple viewpoints, and to generate a free viewpoint image of the subject from any viewpoint using the 3D model.
- a viewpoint image generation unit a three-dimensional image generator capable of generating a three-dimensional image based on the estimated information and a three-dimensional model of a subject;
- An image production system comprising: an output image generation unit that generates an output image based on the free viewpoint image generated by the free viewpoint image generation unit and the 3D image generated by the 3D image generation unit.
- the output image generation unit The image according to (1) above, wherein an output image is generated by selectively using a photographed image including a free viewpoint image generated by the free viewpoint image generation unit and a 3D image generated by the 3D image generation unit. production system.
- (3) The output image generation unit Generating an output image by selectively using a photographed image including a free-viewpoint image generated by the free-viewpoint image generation unit and a three-dimensional image generated by the three-dimensional image generation unit for each period (1) Or the image production system according to (2).
- the output image generation unit generating an output image by synthesizing a photographed image including a free viewpoint image generated by the free viewpoint image generation unit and a three-dimensional image generated by the three-dimensional image generation unit; image production system according to (5) The output image generation unit generating an output image by synthesizing a subject image of a photographed image including the free viewpoint image generated by the free viewpoint image generating unit and a subject image of a three-dimensional image generated by the three-dimensional image generating unit; The image production system according to any one of (4) to (4).
- the output image generation unit Based on the camera path of the free-viewpoint image, Generating an output image selectively using a photographed image including the free viewpoint image generated by the free viewpoint image generation unit and a 3D image generated by the 3D image generation unit (1) to (3) above
- the image production system according to any one of .
- the output image generation unit performing quality judgment processing of the free-viewpoint image, and selecting a photographed image including the free-viewpoint image generated by the free-viewpoint image generation unit and a three-dimensional image generated by the three-dimensional image generation unit according to the quality judgment result;
- the image production system according to any one of (1), (2), (3), and (6) above.
- the quality judgment process The image production system according to (7) above, wherein the quality of the free-viewpoint image is determined based on the arrangement relationship of each of the plurality of imaging devices. (9) In the quality judgment process, Determining whether or not the subject targeted for the free-viewpoint image exists in the field of view of a predetermined number or more of the imaging devices, based on the arrangement relationship of each of the plurality of imaging devices. image production system. (10) In the quality judgment process, The image production system according to (8) or (9) above, wherein a section in which the zoom magnification of the imaging device is equal to or greater than a predetermined value is determined in the camera path.
- the free viewpoint image generation unit generating a first three-dimensional model, which is a three-dimensional model of a subject, based on a plurality of captured image data obtained by simultaneously capturing images from a plurality of viewpoints; A free viewpoint image, which is a viewpoint image, can be generated, The three-dimensional image generation unit A three-dimensional image can be generated based on the estimated information generated by the estimated information generation unit and a second three-dimensional model, which is a virtual three-dimensional model of the subject.
- the image production system according to any one of .
- image production method in which (15) a process of generating estimated information about the subject based on at least one of the captured image or sensor information; A process of generating a 3D model of a subject based on a plurality of captured image data obtained by simultaneously capturing images from multiple viewpoints, and using the 3D model to generate a free viewpoint image, which is an image of the subject at an arbitrary viewpoint.
- a process of generating a three-dimensional image based on the estimated information and a three-dimensional model of the subject; a process of generating an output image based on the free viewpoint image and the three-dimensional image; is executed by the information processing device in the image production system.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Description
例えば特許文献1には視点の移動軌跡といえるカメラワークの生成に関する技術が開示されている。
CG(computer graphics)を用いてEPTSデータに基づくプレイの再現画像を生成することもできる。
そこで本開示では、実写の自由視点画像とCG画像を用いて、より多様かつ高品質な画像制作を行うことができる技術を提案する。
実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像に基づいて出力画像を生成する。例えば自由視点画像と三次元画像を切り替えたり融合させたりして出力画像を生成する。
<1.画像制作システムの基本構成>
<2.EPTSとボリューメトリックシステムを有する画像制作システム>
<3.自由視点画像>
<4.制作される画像例>
<5.画像制作処理例>
<6.実写自由視点画像とCG画像の選択/合成>
<7.まとめ及び変形例>
また「画像」とは、実際に画面に表示される画像を指すが、画面に表示されるまでの信号処理過程や伝送路における「画像」とは画像データを指す。
図1に実施の形態の画像制作システム300(又は画像制作システム301)の構成例を示す。
例えば複数の撮像装置10が、スポーツ会場などにおける被写体の領域、例えば試合を行っている競技場を多様な位置から撮像している。自由視点画像生成部3は、これらの撮像装置10による撮像画像を入力し、自由視点画像を含む実写画像を生成することができる。
従って本開示でいう実写画像とは、撮像装置10による撮像画像そのものや、撮像画像の動画の一部に自由視点画像が挿入された画像(クリップ)、或いは自由視点画像のみで構成されるクリップなどを含む。なお「クリップ」とは、録画した画像の中から切り出したり、さらに加工したりして作成される或るシーンの画像のことを指す。
推定情報とは、例えば被写体としての人物(選手等)や物体(ボール等)の位置、姿勢、動きの情報などである。例えば後述するEPTSデータが、推定情報に相当する。
例えば複数の撮像装置20が、スポーツ会場などを多様な位置から撮像している。推定情報生成部4は、これらの撮像装置20による撮像画像を入力し、画像の解析処理を行って推定情報を生成することができる。
また、例えば、1以上の加速度センサおよび/または1以上のGPSセンサが、スポーツで用いられるボールや、スポーツを行う人物の着用するユニフォームや人物が身に着ける靴、腕時計などに取り付けられていても構わない。推定情報生成部4は、これらのセンサ29により得られる加速度情報や位置情報を入力し、これらの情報を基に推定情報を生成することができる。
例えば三次元画像生成部5が、CGにより制作された被写体(選手等)の仮想的な3D(三次元)モデルを用い、推定情報としての各選手の位置、姿勢、動きなどを用いて、CGによる試合の3D画像を作成することができる。
なお、三次元画像生成部5は、自由視点画像生成部3が生成した実写に基づく3Dモデルを用いて3D画像を生成することもできる。
出力画像生成部6は、自由視点画像生成部3により生成された自由視点画像及び三次元画像生成部5により生成された三次元画像に基づいて出力画像を生成する。
出力画像生成部6が、自由視点画像を含む実写画像やCGや実写による3Dモデルを用いた3D画像を統合的に扱うことで、出力画像として多様な画像を配信等することができる。
図1の構成の画像制作システム300又は301に相当する、より具体的な構成例を図2で説明する。図2は、ボリューメトリックシステム100とEPTS200を備えたシステム構成例である。
また、自由視点画像の生成対象とされるイベントはバスケットボール競技等のスポーツ競技に限定されるものではなく、多種多様なものである。
この複数の撮像装置20も、例えばバスケットボールコートなどにおける各種の位置に配置されて、多様な視点の撮像画像が得られるようにしている。
収録部11は、複数の撮像装置10による撮像画像をそれぞれ収録し、一部又は全部の撮像画像をFVレンダー12に供給する。即ちこの収録部11は、自由視点画像の生成のためのビデオサーバとして機能する。
FVレンダー12は、各撮像装置10によって得られる多視点の撮像画像から被写体の3Dモデルを生成する。この3Dモデルを用いて被写体についての任意の視点の画像を生成する。
ここで、カメラパスとは、自由視点画像における視点の移動軌跡を示す情報を少なくとも含んだ情報である。例えば、3Dモデルを生成した被写体に対して、視点の位置や視線方向、及び画角(焦点距離)を変化させていくような自由視点画像を作成する場合に、その視点の移動軌跡や視線方向の変化態様、画角の変化態様を定めるのに必要なパラメータ等が、カメラパスの情報とされる。
タグ管理部35は、タグを管理しておくことで、オペレータがシーンを指定したときに、タグを用いて特定の区間をシーンとし、そのシーン指定情報SCを出力できる。例えばシーン指定情報SCは、1つのシーンとしての開始タイミング、終了タイミングを指定する情報である。
FVレンダー12によるFVレンダリングについての詳細は後述する。
収録部21は、複数の撮像装置20による撮像画像をそれぞれ収録し、また各撮像画像をEPTSデータ生成部22に供給する。
またEPTSデータ生成部22は、撮像画像だけでなく、センサ29により得られる情報、例えばボールに埋め込んだ加速度センサや、選手のユニフォームに付けたGPSセンサからの情報を使ってEPTSデータを生成してもよい。
EPTSデータ生成部22は、試合全体のEPTSデータとして、例えば試合に出場している全選手の各時点の位置、姿勢や、各時点のボールの位置や状況などを判定できる情報を生成することができる。
例えば3Dレンダー27は、EPTSデータを参照して、CGによる試合中の画像を生成することができる。
またFVレンダー12がFVレンダリングを行う際に、EPTSデータを参照することで、選手等の各時点の位置や姿勢などをより正確に認識できるため、より精度の高い自由視点画像を生成できる。
3Dレンダー27が用いる3Dモデルとして、ストレージ24に各選手の3Dモデル(説明上「CG選手モデル」という)が記憶されており、またストレージ25に背景の3Dモデル(説明上「CG背景モデル」という)が記憶されている。
CG選手モデルやCG背景モデルは、例えば収録する試合に先立って、予め作成されてストレージ24,25に記憶されていればよい。
例えばCGによる動画としてのクリップを生成する。CGにより生成するクリップであるため、撮像装置10の配置に制限されない自由視点画像を含むクリップを生成することもできる。
つまり3Dレンダー27は、EPTSデータを用いてCG画像による試合再現動画としてのクリップや、自由視点映像を含むCGによるFVクリップを生成することができる。
2Dレンダー31は、ストレージ16からFVクリップとともにデプス情報やカメラパス情報も読み出して、FVクリップに対する画像処理時の参照値とする。
また2Dレンダー31は、ストレージ28からCGによるクリップとともにデプス情報やカメラパス情報も読み出して、CGによるクリップに対する画像処理時の参照値とする。
座標変換部26は3D空間内の情報であるEPTSデータを、2次元平面座標上の値に変換する。2Dレンダー31は二次元画像を生成するものであるが、二次元画像は、三次元空間を或る視点位置から見た平面に落とし込んだものである。従って三次元空間内で示されたEPTSデータを或る視点位置からの二次元情報に変換する必要がある。このため座標変換部26にはカメラパス指定情報CPDが供給され、カメラパスによって規定される視点位置に基づいて座標変換が行われるようにしている。
なお、エフェクト指定情報EFが3Dレンダー27に供給され、3Dレンダー27によって3D画像生成の際に画像エフェクトや付加的な画像の合成が行われるようにしてもよい。
なお図2と同一部分は同一符号を付し説明を省略する。
図では撮像装置10、20を区別した例を示しているが、これに限らず、1つの撮像装置の撮像画像が自由視点画像生成のためとEPTSデータ生成のための両方に用いられてもよい。
FVレンダー12で生成された自由視点画像を含む実写画像は、ストレージ16に記憶される。またFVレンダー12で生成された実写選手モデルは、ストレージ15に記憶され、3Dレンダー27が参照できるようにされる。
この図4の構成により、図2の構成より効率的なハードウエア構成を実現できる。
なお画像処理部85はCPU71内の機能として設けられてもよい。
例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
ドライブ82により、リムーバブル記録媒体81からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体81から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
FVレンダー12で生成される自由視点画像について説明する。
まず図6A、図6Bを参照して自由視点画像の視点について述べておく。
図6Aでは、三次元空間上に設定した所要の視点から被写体を捉えた自由視点画像のイメージを示している。この場合の自由視点画像では、被写体HS1が略正面視され、被写体HS2が略背面視されている。
図6Bでは、視点の位置を図6Aの矢印C方向に変化させ、被写体HS1を略背面視する視点が設定された場合の自由視点画像のイメージを示している。この図6Bの自由視点画像では、被写体HS2が略正面視され、また図6Aでは映し出されていなかった被写体HS3やバスケットゴールが映し出されている。
図7は、出力クリップの一例として、前クリップ、FVクリップ、後クリップを連結して構成されている状態を示している。
また後クリップは、例えば他の撮像装置10におけるタイムコードTc5からTc6の区間の実際の動画である。
前クリップの画像は、FVクリップによる視点移動開始時点の撮像装置10の画像データで、後クリップの画像は、FVクリップによる視点移動終了時点の撮像装置10の画像データであることが通常想定される。
説明上、動画の時刻を止めた状態で視点を移動させる場合(「タイムフリーズ」と呼ばれる)のFVクリップを「静止画FVクリップ」、動画の時刻を止めずに視点を移動させる場合(「フリーラン」と呼ばれる)のFVクリップを「動画FVクリップ」と呼ぶこととする。
つまり、フレームF82の1フレームの静止画に対して、視点が移動するような自由視点画像を生成する場合である。
つまり、フレームF102からフレームF302までの複数フレームの区間の動画に対して、視点が移動するような自由視点画像を生成する場合である。
図10において、前クリップはフレームF1からフレームF81までの実際の動画である。FVクリップではフレームF82の場面において視点を移動させた仮想的な画像となる。後クリップはフレームF83からフレームF166までの実際の動画である。
例えばこのようにFVクリップを含む出力クリップが生成され、放送する画像として使用される。
例えばFVレンダー12は、自由視点画像の生成として、VDP(View Dependent Player)法による生成とVIDP(View InDependent Player)法による生成とを行うことが可能とされる。
ここで、自由視点画像生成に用いる撮像装置10としては、3Dデータの生成に用いる撮像画像を得るための撮像装置10(以下「被写体センシング用カメラ」と表記する)と、自由視点画像生成の際に3Dデータに貼り付けられるテクスチャ画像を得るための撮像装置10(以下「テクスチャ用カメラ」と表記する)とが存在し得る。
例えば、自由視点画像生成に用いる全ての撮像装置10のうち、一部を被写体センシング用カメラ、他をテクスチャ用カメラとすることが考えられる。或いは、被写体センシング用カメラとテクスチャ用カメラは必ずしも別の撮像装置10とされる必要はなく、1台の撮像装置10を被写体センシング用カメラ、テクスチャ用カメラの両用とすることも可能である。さらには、全ての撮像装置10をそのような両用のカメラとすることも可能である。
図11における前景抽出処理P1では、図12の上段に例示するようなセンシング用撮像画像データに基づき、図12の中段に例示するような背景画像を被写体センシング用カメラごとに生成する。自由視点画像の生成において、対象とする被写体は例えば選手等の動く被写体であるため、例えばフレーム間の差分抽出等により背景画像を生成可能である。この背景画像と、センシング用撮像画像データとの差分をとることで、対象とする被写体の画像部分が抽出された前景画像を被写体センシング用カメラごとに得ることができる。
そして、これらの前景画像について、例えば被写体の画像領域を「1」、それ以外の領域を「0」とした画像データを生成することで、図12の下段に例示するような、被写体のシルエットを示すシルエット画像データを被写体センシング用カメラの視点ごとに得ることができる。
図13は、図12に例示した被写体に対応する3Dデータのイメージを例示している。3Dデータは、三次元空間上における被写体の領域を示すデータと換言できる。
具体的に、FV生成処理P5では、3Dデータと、テクスチャ用カメラの撮像画像データと、テクスチャ用カメラのパラメータデータとに基づいてVDP法による自由視点画像生成を行う。
具体的には、図中の3Dモデル生成処理P3により、3Dデータから被写体の3Dモデルとしてのポリゴンメッシュデータが生成される。本例では、ポリゴンメッシュデータは、被写体ごとに生成される。
参考として、図14に、或る被写体についてのポリゴンメッシュデータのイメージを例示しておく。
本例におけるテクスチャ生成処理P4では、3Dモデル生成処理P3が被写体ごとにポリゴンメッシュデータを生成することに対応して、UVマップテクスチャを被写体ごとに生成する。
これに対しVIDP法は、テクスチャ画像を視点ごとに用意しておく必要がないというメリットがある一方で、ポリゴンメッシュが粗い場合には、その粗さが自由視点画像の画質にそのまま反映されるものとなる。
続いて実施の形態の画像制作システムにより制作される画像の例を説明する。以下画像G1から画像G10までの例を挙げる。なお各画像G1から画像G10までの各画像の説明(図15から図23)においては、FVレンダー12により生成される実写に基づく自由視点画像であるFVクリップを含む画像について「実写FV」、3Dレンダー27により生成されるCGによる自由視点画像であるFVクリップを含む画像を「CGFV」と表記し、これらの「実写FV」「CGFV」を用いる例で説明する。但し、画像G1から画像G10で説明する特徴を有する各画像は、必ずしも自由視点画像を含まなくてもよい。つまり「実写FV」に代えて通常の実写でも適用できる場合もある。
例えば2Dレンダー31はストレージ16から所定のシーンの実写FVを入力し、画像エフェクトを施す。この場合に、2Dレンダー31はEPTSデータからボールの位置や軌跡を判定し、その位置や軌跡上に炎の画像を合成する処理を行うことで、シュートするボールが炎を上げているような画像とする。
この画像G2としては、自由視点画像による、撮影できないコート内でのローアングルからの画像とする。2Dレンダー31は、ストレージ16から、このような視点位置を含むカメラパスによる実写FVを入力することで画像G2を出力できる。
3Dレンダー27では、CGFVとして、選手等のCG画像とEPTSデータにより、実写FVと同様に、通常は撮影できないコート内でのローアングルからの画像などを生成することができる。そのため、2Dレンダー31は、このような3D画像をストレージ28から読み出して、2Dレンダリングを行い、2D画像として出力することができる。
例えばバスケットボールの1試合における全ての3ポイントシュートの、シュート場所やボールの軌跡を、残像で表現した画像を示している。
例えば2Dレンダー31は、各3ポイントシュートのシーンのCGFVをストレージ16から読み出して合成し、またEPTSデータからボールの軌跡を判定するなどして画像処理を加えることで図示のような2D画像を生成できる。
例えばバスケットボールのコートの上から俯瞰アングルで、試合中や注目プレイ中などの所定期間におけるボールの軌跡をグラフィックとして表現する画像としている。
例えば2Dレンダー31や3Dレンダー27によっては、EPTSデータを用いることでこのような画像を生成できる。
図19の画像G6は、選手の真横の視点により、ボールの横移動や高さ方向を含めた軌跡をグラフィックとして表現するものである。
図20の画像G7は、縦長の画面での表現として、例えば選手の後方からの視点でボールの高さ方向の軌跡をグラフィックとして表現するものである。
これらの画像G6,G7は、例えば2Dレンダー31がストレージ16から必要な実写FVを読み出し、EPTSデータに基づいてボール軌跡の描画処理を行って生成することができる。
画像G8は、ボールが一番高い位置にあるときの高さを示す値を表示したものである。
また、EPTSデータと実写FVを用いた画像例として、選手がシュートのためにジャンプしたときの高さを、目盛りや数値を重畳して表した画像もある。
このような画像G8は、例えば2Dレンダー31がストレージ16から必要な実写FVを読み出し、EPTSデータに基づいて文字、数値、及び付随する線や目盛りなどの描画処理を行って生成することができる。
例えばコート上の同じチームの5人の選手の場所を、動的に線でつなぎ、それによってできるゾーンを色付けし、24秒のショットクロックの進行に沿って変色等させる。これにより時間の進行に伴うチームの各選手及びボールの動きを表現する。
このような画像G9は、例えば2Dレンダー31がストレージ16又はストレージ28から必要なクリップを読み出し、EPTSデータに基づいてラインの描画や色付けの処理を行って生成することができる。
画像G10-1は、通常は配置できないコートの上方からの視点の画像として、また画像G10-2も通常は配置できないコート内の低い位置からの視点の画像として、各選手を映した画像である。この場合に、例えば実写FVとしてのFVクリップにおいて、一部の選手をCG、一部の選手を実写により表現する。またこれらの画像G10-1及び画像G10-2では、ボールの軌跡を表現する付加的な画像も合成している。
このような画像G10は、例えば2Dレンダー31がストレージ16又はストレージ28から必要な実写FV及びCGFVを読み出し、EPTSデータに基づいて合成を行うことなどで生成できる。
また画像G3、画像G4、画像G9、画像G10として、CGFVを用いる場合は、2Dレンダリングを行わずに、3D画像として出力するようにすることも考えられる。
以上の画像G1から画像G10を制作する場合の処理例を図24から図28で説明する。以下に述べる各処理例は、図2のシステムにおけるEPTSデータ生成部22、2Dレンダー31、FVレンダー12、3Dレンダー27のいずれかの処理、或いは、これらが協働して行う処理として考えることができる。そのため各処理は、EPTSデータ生成部22、2Dレンダー31、FVレンダー12、又は3Dレンダー27として構成される図5の情報処理装置70の画像処理部85の処理として説明する。つまり図24から図28の処理例は、1つの情報処理装置70で実行される処理例として考えても良いし、複数の情報処理装置70の連携により実行される処理例と考えることもできる。
そして以下では、図2,図4に示したストレージ15,16,23,24,25,28,32にも言及することがあるが、画像処理部85が情報を読み出すこれらのストレージとは、情報処理装置70の記憶部79や、情報処理装置70とは別体の記憶装置と考えれば良い。
また必ずしも試合のブレイクタイミングを1プレイの区切りとしなくてもよい。例えばシュートの直前からシュート後までの期間などを、そのまま試合が継続していたとしても、1プレイとして判定してもよい。
1プレイの継続が途切れたことの判定は、画像処理部85が画像解析等により自動的に判定してもよいし、画像処理部85がオペレータ入力等に応じて判定してもよい。
画像コンテンツ生成を実行すると判定した場合は、画像処理部85はステップS110に進み、今回の1プレイ分のEPTSデータを取得する。例えばストレージ23から1プレイの期間のEPTSデータを読み出す。
この処理は、オペレータ入力に従って行ってもよいし、自動的に行っても良い。オペレータが特定の選手を予め指定していた場合や、今回の1プレイについて特定の選手を指定する操作を行った場合は、画像処理部85は、その指定された選手を主たる被写体として決定する。また1プレイの画像内容から例えばシュートとした選手など、特定のプレイをした選手を自動的に判定し、その選手を主たる被写体として決定してもよい。また画像処理部85は、今回の1プレイにおいて撮像された各選手、或いは主だった動きをした選手を複数提示して、オペレータが選択するようにしてもよい。
例えば、画像G1のようなエフェクト付与を行うか、画像G6、画像G7のように被写体の動線を提示する画像の合成を行うか、画像G8のようにEPTSデータに基づいた数値等を提示する画像を生成するか、画像G9のうようにクリップに対して画像を合成した画像を生成するか、を選択する。
この処理も、オペレータ入力に従って行ってもよいし、自動的に行っても良い。オペレータが特定の演出を予め指定していた場合や、今回の1プレイについて特定の演出を指定する操作を行った場合は、画像処理部85は、その指定により演出パターンを決定する。また画像処理部85は、1プレイの画像内容から例えばシュートシーン、パスシーン、反則シーン、シュートの種別などに応じて演出パターンを自動的に選択することもできる。
従って画像処理部85は、選手をとらえているFVクリップや3D画像をストレージ16,28から選択して読み出して処理対象としたり、或いはこの時点で、収録部11から必要な期間、必要なアングルの画像を選択して、FVクリップを生成したりすることができる。
EPTSデータのスムージングとは、例えば選手やボールの各時点の位置情報の変化をなめらかな変化にする処理である。実際のEPTSデータによる選手やボールの位置情報は、細かい変動が多く、そのままだとスムーズな軌跡を描くことが難しいため、スムージングにより、なめらかな軌跡が把握されるようにしている。
画像G6,画像G7のような演出パターンの場合は、画像処理部85は、スムージングしたEPTSデータによりボールの軌跡を判定し、その軌跡を表現するCG画像を生成する。
画像G9のような演出パターンの場合は、画像処理部85は、スムージングしたEPTSデータにより各選手の軌跡を判定し、各フレームの各選手の位置に応じて、選手をつなぐラインやエリアの色などを表現するCG画像を生成する。
これにより、画像G1,画像G6,画像G7,画像G8,画像G9で例示したような内容の画像コンテンツが生成される。
ステップS116で画像処理部85は、生成した画像コンテンツ生成を出力する。そしてステップS101に戻る。
なお以降、記述の処理と同一の処理については、同一のステップ番号を付し、詳細な重複説明は避ける。
ステップS101で画像処理部85は、撮像装置20の撮像画像からEPTSデータを生成し、ストレージ23に格納していく。
従って、各種の仮想的な視点により試合を再現するような画像コンテンツを生成して出力できることになる。
但しステップS121で画像処理部85が取得するアバターは、図25ではストレージ24に格納されたCG選手モデルとしたが、図26の場合は、ストレージ15に格納された実写選手モデルとされる場合もある。例えば試合開始の時点では、まだ実写選手モデルが作成されていないことから、全ての選手はCG選手モデルを用いて3D画像が生成される。その後、1プレイが途切れたタイミングで、撮像画像から実写選手モデルが作成される場合がある。
ここでいう指定領域とは、カメラ配置の都合上、なるべく多数の撮像装置10により多様なアングルで選手の撮像画像を得られる領域である。例えば図3に示すように、カメラ配置に応じて指定領域DAが設定される。例えばこの指定領域DAは、各撮像装置10を配置してキャリブレーションを行い、各撮像装置10の視野範囲を決定した状態で設定可能である。この指定領域DAは、精度の高い実写選手モデルを生成できる領域として設定される。
例えば次のような条件を判定する。
・オクルージョンがない撮像画像が所定数以上である
・選手の姿勢が適切である
・激しく動いていない状態の撮像画像が得られている
1プレイ中の或るタイミングの複数の撮像装置10による各視点の撮像画像として、対象の選手が、オクルージョンがない状態で撮像されている画像が所定数以上あることが、その選手の高精度の実写選手モデルを生成する条件の1つとなる。
もし今回の1プレイの期間の画像において、条件を満たすタイミングが無い、つまり3Dモデリングのために適切な撮像画像が得られるタイミングが無いと判定したときは、画像処理部85はステップS101に戻る。つまりその場合は、実写選手モデルの生成を行わない。
もし品質が不十分とされる場合は、画像処理部85はステップS101に戻る。この場合は今回作成した実写選手モデルを破棄することになる。
このため例えば制作される画像コンテンツは、試合が進むに従って、各選手が徐々にCG画像から実写画像に代えられていくようなものとなる。
画像処理部85は、試合開始後、ステップS103で終了と判定するまで、ステップS101,S140の処理を行う。
ステップS101で画像処理部85は、撮像装置20の撮像画像からEPTSデータを生成し、ストレージ23に格納していく。
画像コンテンツ生成を実行すると判定した場合は、画像処理部85はステップS142に進み、必要な期間のEPTSデータを取得する。例えば第1クオーター終了時点のインターバルのタイミングであれば、第1クオーターの期間のEPTSデータをストレージ23から読み出す。
ステップS144で画像処理部85は、生成した画像コンテンツ生成を出力する。そしてステップS103を介して、試合の終了等のタイミングでなければステップS101に戻る。
画像処理部85は、試合開始後、ステップS103で終了と判定するまで、ステップS101,S140の処理を行う。
ステップS101で画像処理部85は、撮像装置20の撮像画像からEPTSデータを生成し、ストレージ23に格納していく。
ステップS140で画像処理部85は、試合の切れ目のタイミングであるか否かを判定する。
試合の切れ目のタイミングとなったことを判定した場合、画像処理部85はステップS140からステップS141に進み、画像コンテンツ生成、つまり画像G5で例示したようなクリップを生成する処理を実行するか否かを判定する。
画像コンテンツ生成を実行すると判定した場合は、画像処理部85はステップS142に進み、必要な期間のEPTSデータを取得する。
ステップS144で画像処理部85は、生成した画像コンテンツ生成を出力する。そしてステップS103を介して、試合の終了等のタイミングでなければステップS101に戻る。
また図24から図28は、試合の開始後の期間の処理例として説明したが、試合の画像をプレイバックしている際の処理としても、同等の処理が可能である。但しその場合は、すでにEPTSデータがストレージ23に格納されているため、ステップS101は不要である。
続いて、実施の形態のシステムにおいて、FVレンダー12による実写に基づく自由視点画像(実写FV)と、3Dレンダー27によるCGを用いた3D画像(CGFV)を、切り替えたり融合させたりして出力画像を生成する場合における、画像品質向上のための処理について説明する。
FVレンダー12は、カメラパス指定情報CPDに応じて、指定されたカメラパスによる自由視点画像、すなわち実写FVを生成することができる。
また3Dレンダー27は、カメラパス指定情報CPDに応じて、指定されたカメラパスによる自由視点画像、すなわちCGFVを生成することができる。
また2Dレンダー31は、3Dレンダー27が生成したCGFVと、デプス情報DPTを取得できる。
生成された出力画像は、例えばオペレータ操作に応じて、配信又は放送されることになる。
具体的には、実写FVとCGFVのいずれかを選択して出力画像とする例がある。また時間軸方向で出力画像のフレーム毎に実写FVとCGFVを選択する例もある。さらに出力画像の1フレームの画像内で被写体を合成する例もある。
出力する画像コンテンツを生成する場合において、まず、単純に実写FVとCGFVのどちらの品質が良いかを判定し、選択するという例がある。例えば品質判定情報CIを用いた品質判定を行って、実写FVが高品質で生成できている場合は実写FVをそのまま出力画像とし、一方、実写FVが高品質で生成できない場合はCGFVを出力画像とする。
図30に出力画像について、フレームFR#1からの期間は実写FVを用い、フレームFR#xからの期間はCGFVを用い、フレームFR#yからの期間は実写FVを用いている例を示している。これは品質判定情報CIを用いた品質判定を行い、フレーム毎に実写FVとCGFVを選択した場合の結果の例の一つである。
例えばフレームFR#xから不図示のフレームFR#(y-1)までの期間の各フレームが、実写FVでは品質が低下するような場合に、この期間の各フレームはCGFVを選択することで、出力画像が図30のようになる。
まず判定要素としてカメラパスと複数の撮像装置10の配置の関係を判定する要素がある。
事前にセッティングしたカメラ配置による各撮像装置10の視野から、例えばバスケットコート内で、3台以上など、所定数以上の撮像装置10の視野がオーバーラップする領域を特定することができる。
自由視点画像を生成するための3Dモデルは、より多数の視点による撮像画像が得られるほど、精度が上がる。そこで、少なくとも3台以上など、所定数以上の撮像装置10によって撮像され得る領域を特定しておく。例えば上述した図3の指定領域DAである。
つまり今回のカメラパスで自由視点画像の対象とするターゲットの被写体が指定領域DAに入っていれば、品質が良好であることの判定要素となる。逆にターゲットの被写体が、指定領域DAに入っていない場合は、実写FVは品質が低下する可能性があるということとなる。
ここでいうズーム限界とは、実写FVが求める品質を維持できるようにするためのズーム倍率の上限として設定するものである。例えば撮像装置10が光学ズームとデジタルズームを併用する場合に、光学ズームの最大倍率をズーム限界としてもよい。また、ズーム方式に限らず或る所定のズーム倍率をズーム限界としてもよい。
撮像装置10の配置が決定されることで、各図に示すように指定領域DA、ズーム境界ZBが特定される。ズーム境界ZBとは、ズーム限界を示すラインであり、ズーム境界ZBの楕円形の内方の被写体は、ズーム限界を越える倍率となることを示している。また自由視点画像のターゲット選手90を黒丸で示し、他選手91を白丸で示している。
従ってこれらの観点のみでいえば、今回のカメラパスCP1による実写FVは、品質を維持できるものと判定される。従ってカメラパスCP1における全フレームで実写FVを選択するということが考えられる。カメラパスCP1を二重線で示しているが、二重線は、実写FVを選択する区間としている。
この場合、カメラパスCP2による実写FVは、太線区間の画像において品質が低下する場合がある。そこで、カメラパスCP2の太線区間のフレームはCGFVを選択し、ズーム境界を越えていない二重線で示す区間のフレームは実写FVを選択するということが考えられる。
なお、この場合、実写FVの一部の品質を考慮して、出力画像全体をCGFVによるものとする考え方もある。
図32Bは、カメラパスCP3は、一部でズーム境界ZBを越えており、またターゲット選手90が指定領域DA内に入っていない場合を示している。
これらの場合は、ターゲット選手90の自由視点画像の品質が維持できないことが考えられるため、カメラパスCP3,CP4の全区間のフレームはCGFVによるものとする。
具体的には、ターゲット選手90の周囲における混雑度を判定する。
選手同士の距離が一定以内であるか否かを判定する。
またカメラパスの視点を構成する撮像装置10からみてターゲット選手90に対する他選手91によるオクルージョンが所定数以上であるか否かを判定する。
図33には、元シーンとして選手92,93,94,95が映っている1フレームの撮像画像を示している。
またCGFVとしてEPTSデータに基づいて選手92,93,94,95を個別にレンダリングした選手画像92C,93C,94C,95Cを示し、また実写FVとして選手92,93,94,95を個別にレンダリングした選手画像92R,93R,94R,95Rを示している。
そして、選手92は指定領域DA内であり、他の選手93,94,95は指定領域DAの外に居るとする。
このようにすることで、フレーム内の選手画像としては、なるべく実写FVを使用しつつ、品質判定に基づいて、CGFVを使用するような合成ができる。
画像処理部85はステップS301で、オペレータの入力によるカメラパス指定情報CPDに応じて、今回生成するFVクリップのカメラパスを設定する。
画像処理部85はステップS310で、オペレータの入力によるカメラパス指定情報CPDに応じて、今回生成するFVクリップのカメラパスを設定する。
また第Nフレームにおける実写FVが品質条件を満たさないと判定した場合は、画像処理部85はステップS315に進み、出力画像の第Nフレームとして、出力画像の第NフレームとしてCGFVによる画像を生成又は選択する。
従って、フレーム毎に品質判定結果に応じて実写FVとCGFVが選択されていく。
画像処理部85はステップS320で、処理対象の1フレームを設定する。FVクリップの先頭フレームから最終フレームまでを、順次処理対象として、この図36の処理を行うため、このステップS320は、順次、1つのフレームを今回の処理対象に設定する処理である。
ステップS322で画像処理部85は、フレーム内の被写体を抽出する。例えば選手やボールの画像を抽出する。
第Mの被写体の実写FVが品質条件を満たさないと判定した場合は、画像処理部85はステップS326に進み、CGFVで第Mの被写体の画像を生成又は選択する。
従って、被写体毎に品質判定結果に応じて実写FVとCGFVが選択されていく。
これらの処理を組み合わせることもできる。
例えば何らかの原因でEPTSデータが不十分又は不正確になるようなこともあり得る。そこでEPTSデータが十分であったか否かの判定を、CGFVの品質判定処理として行い、これに基づいてFVクリップ全体、フレーム毎、或いは被写体毎に、実写FVとCGFVの選択を行うようにすることも考えられる。
以上の実施の形態によれば次のような効果が得られる。
この画像制作システム300では、実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像について、EPTSデータを利用して切り替えたり融合させたりすることで、多様な画像コンテンツ生成を行うことができる。例えばFVレンダー12によっては、自由視点画像として、複数の撮像装置10による多視点映像からポジション制約が無い自由な視点の画像を生成することができる。また3Dレンダー27によっては、現実には撮影できないような視点や現実に存在しない被写体などを含めた画像を生成することができる。これらのFVレンダー12や3Dレンダー27による画像を、EPTSデータに基づいて融合させたり選択したりすることで新規かつ多様な画像コンテンツを制作することができるようになる。
すなわち3Dレンダー27は、実写選手モデルとCG選手モデルを入力でき、これらを使用して3D画像を生成できる。このため図26の処理例のように、例えば選手の実写画像が存在しないときはCG選手モデルを用いて3D画像を生成し、また実写画像に基づいて実写選手モデルが生成された選手については、実写選手モデルを用いて3D画像デー タを生成することが可能となる。
例えば図26の変型例として述べたように、3Dレンダー27は、特定の選手の実写画像が得られるまではCG選手モデルを用いて3D画像を生成し、また実写選手モデルが生成された時点で、その選手の画像を、実写選手モデルを用いて生成した3D画像に切り替えるといったことが可能になる。
2Dレンダー31は、自由視点画像や3D画像が入力され、これらを選択的に用いて2D画像を生成することができる。これによりボリューメトリックシステム100とEPTS200を融合した画像制作システム300によって得られる3D画像や自由視点画像を、2D表示させることができる。つまり一般的なディスプレイ装置を用いた画像表示を実現できる。
3Dレンダー27では、EPTSデータにおける位置情報を用いることで、CGを用いた非実写の画像として実際の被写体の位置を反映した画像の生成が可能になる。
なお推定情報はEPTSデータに限られない。例えば画像解析により画像から検出できる情報であればよい。
例えば2Dレンダー31はFVレンダー12により生成された自由視点画像を含む実写画像をストレージ16から入力するとともにエフェクト指定情報EFに基づいて画像エフェクトを加えた2D画像を生成することができる(図24参照)。
これにより、例えば現実には見ることのできないエフェクトによる画像と実写画像(特には自由視点画像)を融合した画像コンテンツを制作できる。
例えば3Dレンダー27では、図16の画像G3のように現実には撮影できないアングルからの画像を生成することができる(図25参照)。FVレンダー12も図16の画像G2のように撮影できないアングルからの画像を生成することができる。これらの画像を用いることで、現実のカメラ配置に関わらない多様な視点の画像を含む画像コンテンツを出力できる。
例えば3Dレンダー27では、例えば試合中の期間などにおけるEPTSデータに基づいて、複数の時点での選手やボールの軌跡などの画像を合成した画像を生成することができる(図27参照)。これにより例えば試合のハイライト場面などをまとめたような画像を含む画像コンテンツを出力できる。
例えば3Dレンダー27では、ある期間、例えば試合中の期間などにおけるEPTSデータに基づいて、選手やボールの動きの軌跡を表現する画像を生成することができる(図28参照)。これにより例えば選手やボールの動きなど、被写体の動線をみることのできる画像を含む画像コンテンツを出力できる。
例えば2Dレンダー31は、FVレンダー12により生成された自由視点画像を含む実写画像と、3Dレンダー27によりEPTSデータに基づいて生成された被写体の動線を示す画像を合成できる(図24参照)。これにより画像G6や画像G7のようなボール等の軌跡を示す画像を含む画像コンテンツを出力できる。
例えば2Dレンダー31は、FVレンダー12により生成された自由視点画像を含む実写画像と、3Dレンダー27によりEPTSデータによる数値を表示データに変換した画像、例えば文字や数字、或いは目盛りを示すような画像を合成できる(図24参照)。これによりプレイの凄さ等を数値等で表現する画像を含む画像コンテンツを出力できる。
例えば2Dレンダー31は、FVレンダー12により生成された自由視点画像を含む実写画像又は3Dレンダー27により生成された3D画像に対して、3Dレンダー27によりEPTSデータに基づいてさらに生成された付加的な画像を合成できる(図24参照)。これにより画像G9のようなプレイを可視化して表現するような付加画像を含む画像コンテンツを出力できる。
例えば2Dレンダー31は、FVレンダー12により生成された自由視点画像を含む実写画像と、EPTSデータに基づいて3Dレンダー27により生成された3D画像とを合成できる(図24参照)。これにより実写とCGを混在させた画像を含む画像コンテンツを出力できる。
この画像制作システム301では、実写に基づく自由視点画像と、仮想三次元モデルを用いた三次元画像に基づいて出力画像を生成する場合に、例えば自由視点画像と三次元画像を切り替えたり融合させたりして出力画像を生成することができる。例えば図29のシーケンスとして示したように、これらのFVレンダー12や3Dレンダー27による画像を、EPTSデータに基づいて融合させたり選択したりすることで新規かつ多様な出力画像を生成することができるようになる。
例えば2Dレンダー31は図1の出力画像生成部6として機能する。またFVレンダー12や3Dレンダー27が図1の出力画像生成部6として機能することもできる。
このような出力画像生成部6は、FVレンダー12が生成した自由視点画像を含む実写画像(例えば実写FV)と、3Dレンダー27が生成した3D画像(例えばCGFV)とを選択的に用いて出力画像を生成することで、実写とCGを融合させた画像コンテンツを出力できるようになる。
例えば出力画像生成部6は、実写FVとCGFVとをフレーム期間毎に選択して出力画像としてのFVクリップを生成する。これにより、動画におけるある期間は実写、ある期間はCGとしての画像コンテンツを出力できる。
これにより、動画におけるフレーム内で実写(例えば実写FV)とCG(例えばCGFV)を混在させた画像コンテンツを出力できる。
例えば出力画像生成部6は、選手等の被写体毎に、FVレンダー12が生成した画像を用いるか、3Dレンダー27が生成した画像を用いるかを選択して、1フレーム内で合成する。これにより、フレーム毎に実写とCGを合成した画像コンテンツを出力できる。
カメラパスに応じて、FVレンダー12が生成した実写画像と、3Dレンダー27が生成した3D画像のいずれが適切かを判定することができる。これにより実写とCGを選択的に用いる画像コンテンツの画像品質を向上させることができる。
例えば品質判定処理により、例えばFVレンダー12が生成した実写FVと3Dレンダー27が生成したCGFVのいずれが適切かを判定することができる。これにより実写とCGを選択的に用いる画像コンテンツの画像品質を向上させることができる。
より多数の撮像装置10によって撮像されていることで自由視点画像の品質が向上するため、各撮像装置10の配置関係から、実写による自由視点画像とCG画像のいずれが適しているかを判定することは、出力する画像の品質向上に適している。
より多数の撮像装置10によって撮像される指定領域DAを設定しておき、自由視点画像でターゲット選手90が指定領域DA内である否かを判定する。これは実写FVが品質的に適しているか否かを判定するものとなる。
撮像装置10の視野内でも、ズーム倍率が所定以上となる場合は、画像品質が劣化する場合がある。そこでカメラパス内でズーム倍率が所定以上となる区間を判定する。これは実写による自由視点画像が品質的に適していないフレーム区間を判定するものとなる。
例えばある選手の自由視点画像を生成する場合に、画像内でのその選手の配置状態によって自由視点画像の品質が変化する。このため、今回のカメラパスによる各視点における。対象の選手と他の選手の配置関係から、実写による自由視点画像とCG画像のいずれが適しているかを判定することは好適となる。
自由視点画像を生成する対象の選手の周囲が混雑している場合、対象の選手の3Dモデル生成精度が低下し、自由視点画像の品質も低下することがある。そのため混雑度を判定することは、実写による自由視点画像とCG画像のいずれが適しているかの判定に適切となる。
具体的には選手同士の距離が一定以上であるか否かであるとか、オクルージョンの多寡を判定することで、混雑度を判定すればよい。
即ち実施の形態のプログラムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第1の三次元モデルを生成し、第1の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、推定情報と被写体の仮想三次元モデルである第2の三次元モデルとに基づいて三次元画像を生成する処理と、を画像制作システムにおける情報処理装置に実行させるプログラムである。
即ち実施の形態のプログラムは、撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、推定情報と被写体の三次元モデルとに基づいて三次元画像を生成する処理と、自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、を画像制作システムにおける情報処理装置に実行させるプログラムである。
あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
(1)
撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する自由視点画像生成部と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる三次元画像生成部と、
前記自由視点画像生成部により生成された自由視点画像及び前記三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する出力画像生成部と、を備えた
画像制作システム。
(2)
前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
上記(1)に記載の画像制作システム。
(3)
前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを、期間ごとに選択的に用いて出力画像を生成する
上記(1)又は(2)に記載の画像制作システム。
(4)
前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを合成して出力画像を生成する
上記(1)から(3)のいずれかに記載の画像制作システム。
(5)
前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像による被写体画像と、前記三次元画像生成部が生成した三次元画像による被写体画像とを合成して出力画像を生成する
上記(1)から(4)のいずれかに記載の画像制作システム。
(6)
前記出力画像生成部は、
自由視点画像のカメラパスに基づいて、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いた出力画像を生成する
上記(1)から(3)のいずれかに記載の画像制作システム。
(7)
前記出力画像生成部は、
自由視点画像の品質判定処理を行い、品質判定結果に応じて、前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
上記(1)(2)(3)(6)のいずれかに記載の画像制作システム。
(8)
前記品質判定処理では、
複数の各撮像装置の配置の関係に基づいて自由視点画像の品質を判定する
上記(7)に記載の画像制作システム。
(9)
前記品質判定処理では、
複数の各撮像装置の配置の関係に基づいて、所定数以上の撮像装置の視野に入る領域に、自由視点画像のターゲットとする被写体が存在するか否かを判定する
上記(8)に記載の画像制作システム。
(10)
前記品質判定処理では、
カメラパス内で撮像装置のズーム倍率が所定以上となる区間を判定する
上記(8)又は(9)に記載の画像制作システム。
(11)
前記品質判定処理では、
カメラパスで規定される視点における、自由視点画像を生成する対象の被写体と他の被写体の画像内の配置関係を判定する
上記(7)から(10)のいずれかに記載の画像制作システム。
(12)
前記品質判定処理では、
自由視点画像を生成する対象の被写体の周囲の被写体の混雑度を判定する
上記(11)に記載の画像制作システム。
(13)
前記自由視点画像生成部は、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第1の三次元モデルを生成し、前記第1の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成することができ、
前記三次元画像生成部は、
前記推定情報生成部が生成した推定情報と、被写体の仮想三次元モデルである第2の三次元モデルに基づいて三次元画像を生成することができるものとされた
上記(1)から(12)のいずれかに記載の画像制作システム。
(14)
撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する手順と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する手順と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する手順と、
前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する手順と、
が行われる画像制作方法。
(15)
撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する処理と、
前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、
を画像制作システムにおける情報処理装置に実行させるプログラム。
4 推定情報生成部
5 三次元画像生成部
6 出力画像生成部
10,20 撮像装置
11,21 収録部
12 FVレンダー
15,16,23,24,25,28,32 ストレージ
22 EPTSデータ生成部
26 座標変換部
27 3Dレンダー
31 2Dレンダー
33 2D表示部
34 3D表示部
40 収録部
70 情報処理装置
71 CPU
85 画像処理部
100 ボリューメトリックシステム
200 EPTS
150 統合システム
300 画像制作システム
301 画像制作システム
Claims (15)
- 撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する推定情報生成部と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する自由視点画像生成部と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成することができる三次元画像生成部と、
前記自由視点画像生成部により生成された自由視点画像及び前記三次元画像生成部により生成された三次元画像に基づいて出力画像を生成する出力画像生成部と、を備えた
画像制作システム。 - 前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
請求項1に記載の画像制作システム。 - 前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを、期間ごとに選択的に用いて出力画像を生成する
請求項1に記載の画像制作システム。 - 前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを合成して出力画像を生成する
請求項1に記載の画像制作システム。 - 前記出力画像生成部は、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像による被写体画像と、前記三次元画像生成部が生成した三次元画像による被写体画像とを合成して出力画像を生成する
請求項1に記載の画像制作システム。 - 前記出力画像生成部は、
自由視点画像のカメラパスに基づいて、
前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いた出力画像を生成する
請求項1に記載の画像制作システム。 - 前記出力画像生成部は、
自由視点画像の品質判定処理を行い、品質判定結果に応じて、前記自由視点画像生成部が生成した自由視点画像を含む実写画像と、前記三次元画像生成部が生成した三次元画像とを選択的に用いて出力画像を生成する
請求項1に記載の画像制作システム。 - 前記品質判定処理では、
複数の各撮像装置の配置の関係に基づいて自由視点画像の品質を判定する
請求項7に記載の画像制作システム。 - 前記品質判定処理では、
複数の各撮像装置の配置の関係に基づいて、所定数以上の撮像装置の視野に入る領域に、自由視点画像のターゲットとする被写体が存在するか否かを判定する
請求項8に記載の画像制作システム。 - 前記品質判定処理では、
カメラパス内で撮像装置のズーム倍率が所定以上となる区間を判定する
請求項8に記載の画像制作システム。 - 前記品質判定処理では、
カメラパスで規定される視点における、自由視点画像を生成する対象の被写体と他の被写体の画像内の配置関係を判定する
請求項7に記載の画像制作システム。 - 前記品質判定処理では、
自由視点画像を生成する対象の被写体の周囲の被写体の混雑度を判定する
請求項11に記載の画像制作システム。 - 前記自由視点画像生成部は、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルである第1の三次元モデルを生成し、前記第1の三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成することができ、
前記三次元画像生成部は、
前記推定情報生成部が生成した推定情報と、被写体の仮想三次元モデルである第2の三次元モデルに基づいて三次元画像を生成することができるものとされた
請求項1に記載の画像制作システム。 - 撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する手順と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する手順と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する手順と、
前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する手順と、
が行われる画像制作方法。 - 撮像画像またはセンサ情報の少なくとも一つに基づいて被写体に関する推定情報を生成する処理と、
複数視点から同時に撮像して得られる複数の撮像画像データに基づいて、被写体の三次元モデルを生成し、三次元モデルを用いて被写体についての任意の視点の画像である自由視点画像を生成する処理と、
前記推定情報と、被写体の三次元モデルとに基づいて三次元画像を生成する処理と、
前記自由視点画像及び前記三次元画像に基づいて出力画像を生成する処理と、
を画像制作システムにおける情報処理装置に実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202280078266.0A CN118302796A (zh) | 2021-12-01 | 2022-11-21 | 图像制作***、图像制作方法和程序 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-195213 | 2021-12-01 | ||
JP2021195213 | 2021-12-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023100704A1 true WO2023100704A1 (ja) | 2023-06-08 |
Family
ID=86612034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/043000 WO2023100704A1 (ja) | 2021-12-01 | 2022-11-21 | 画像制作システム、画像制作方法、プログラム |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118302796A (ja) |
WO (1) | WO2023100704A1 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122315A (ja) * | 2003-10-14 | 2005-05-12 | Kazuo Iwane | 3dcg合成装置 |
JP2014041259A (ja) * | 2012-08-22 | 2014-03-06 | Yahoo Japan Corp | 広告配信装置、広告配信方法および広告配信プログラム |
WO2017042873A1 (ja) * | 2015-09-08 | 2017-03-16 | 株式会社日立製作所 | 遠隔操作システムおよび操作支援システム |
WO2018030206A1 (ja) | 2016-08-10 | 2018-02-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | カメラワーク生成方法及び映像処理装置 |
WO2020166376A1 (ja) * | 2019-02-15 | 2020-08-20 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
WO2020213426A1 (ja) * | 2019-04-18 | 2020-10-22 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
JP2021023401A (ja) | 2019-07-31 | 2021-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
WO2021149526A1 (ja) * | 2020-01-23 | 2021-07-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2022
- 2022-11-21 CN CN202280078266.0A patent/CN118302796A/zh active Pending
- 2022-11-21 WO PCT/JP2022/043000 patent/WO2023100704A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122315A (ja) * | 2003-10-14 | 2005-05-12 | Kazuo Iwane | 3dcg合成装置 |
JP2014041259A (ja) * | 2012-08-22 | 2014-03-06 | Yahoo Japan Corp | 広告配信装置、広告配信方法および広告配信プログラム |
WO2017042873A1 (ja) * | 2015-09-08 | 2017-03-16 | 株式会社日立製作所 | 遠隔操作システムおよび操作支援システム |
WO2018030206A1 (ja) | 2016-08-10 | 2018-02-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | カメラワーク生成方法及び映像処理装置 |
WO2020166376A1 (ja) * | 2019-02-15 | 2020-08-20 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
WO2020213426A1 (ja) * | 2019-04-18 | 2020-10-22 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
JP2021023401A (ja) | 2019-07-31 | 2021-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
WO2021149526A1 (ja) * | 2020-01-23 | 2021-07-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN118302796A (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10810791B2 (en) | Methods and systems for distinguishing objects in a natural setting to create an individually-manipulable volumetric model of an object | |
US10902676B2 (en) | System and method of controlling a virtual camera | |
US10771760B2 (en) | Information processing device, control method of information processing device, and storage medium | |
JP7013139B2 (ja) | 画像処理装置、画像生成方法及びプログラム | |
US9381429B2 (en) | Compositing multiple scene shots into a video game clip | |
JP6894962B2 (ja) | 自由視点映像用画像データのキャプチャ方法及び装置、プログラム | |
WO2016209167A1 (en) | Systems and methods for generating 360 degree mixed reality environments | |
US20120021828A1 (en) | Graphical user interface for modification of animation data using preset animation samples | |
US11057609B2 (en) | Information processing apparatus, information processing method, and computer readable storage medium for determining a moving path of virtual viewpoint | |
US11533438B2 (en) | Method to configure a virtual camera path | |
JP7170441B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2020086983A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7446754B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2022510658A (ja) | 仮想カメラパスを決定するシステム及び方法 | |
US20120021827A1 (en) | Multi-dimensional video game world data recorder | |
US20230353717A1 (en) | Image processing system, image processing method, and storage medium | |
TW201928761A (zh) | 影像擷取之設備及方法 | |
JP3929811B2 (ja) | 画像合成装置及び画像合成方法 | |
WO2023100704A1 (ja) | 画像制作システム、画像制作方法、プログラム | |
WO2023100703A1 (ja) | 画像制作システム、画像制作方法、プログラム | |
JP7406528B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6759375B2 (ja) | 仮想視点画像を生成するシステム、方法及びプログラム | |
WO2023127430A1 (ja) | 情報処理装置、画像処理方法、プログラム | |
JP2021179687A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20240037843A1 (en) | Image processing apparatus, image processing system, image processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22901137 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2023564893 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2022901137 Country of ref document: EP |
|
ENP | Entry into the national phase |
Ref document number: 2022901137 Country of ref document: EP Effective date: 20240611 |