WO2018047687A1 - 三次元モデル生成装置及び三次元モデル生成方法 - Google Patents

三次元モデル生成装置及び三次元モデル生成方法 Download PDF

Info

Publication number
WO2018047687A1
WO2018047687A1 PCT/JP2017/031098 JP2017031098W WO2018047687A1 WO 2018047687 A1 WO2018047687 A1 WO 2018047687A1 JP 2017031098 W JP2017031098 W JP 2017031098W WO 2018047687 A1 WO2018047687 A1 WO 2018047687A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional model
image
model generation
input
input images
Prior art date
Application number
PCT/JP2017/031098
Other languages
English (en)
French (fr)
Inventor
達也 小山
敏康 杉尾
徹 松延
哲史 吉川
ポンサック ラサン
チ ワン
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN201780055313.9A priority Critical patent/CN109690620B/zh
Priority to EP17848627.0A priority patent/EP3511903A4/en
Priority to JP2018538371A priority patent/JP7002056B2/ja
Publication of WO2018047687A1 publication Critical patent/WO2018047687A1/ja
Priority to US16/295,582 priority patent/US10893251B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Definitions

  • the present disclosure relates to a three-dimensional model generation apparatus and a three-dimensional model generation method that generate a three-dimensional model using video captured by one or more cameras.
  • Non-patent document 1 In recent years, techniques for measuring a three-dimensional shape of a subject using a multi-viewpoint image obtained by photographing a subject such as a person or a building from multiple viewpoints and generating a three-dimensional model of the subject have been studied (for example, Non-patent document 1).
  • This technology estimates the camera parameters after estimating the camera parameters (camera position, orientation, focal length in pixels, lens distortion, etc.) when each of the images constituting the multi-viewpoint image is taken.
  • a three-dimensional model of a subject is generated by projecting each pixel on each image onto a three-dimensional space using parameters.
  • a 3D model of the subject By generating a 3D model of the subject, services such as creating a figure with a 3D printer, recognizing the structure of a terrain or building, recognizing a person's behavior, and generating a free viewpoint video that allows the subject to be viewed from a personal viewpoint It becomes feasible.
  • a high-resolution three-dimensional model is indispensable. For this purpose, an image having a high resolution of 4K, 8K, or higher is necessary.
  • Patent Document 1 a method for measuring distance information of a subject on a certain image with a low storage capacity by storing and using a low-resolution image obtained by down-sampling the image has been proposed (for example, Patent Document 1). reference).
  • This disclosure is intended to provide a 3D model generation apparatus or a 3D model generation method that can reduce the amount of camera parameter estimation processing.
  • a three-dimensional model generation apparatus generates a converted image that generates a converted image having a smaller number of pixels than the input image from each of a plurality of input images having different viewpoints included in one or more video data And feature points of the plurality of converted images, and estimate camera parameters when the plurality of input images are captured based on feature point pairs in which the feature points are similar between the plurality of converted images.
  • a camera parameter estimation unit, and a three-dimensional model generation unit that generates a three-dimensional model using the plurality of input images and the camera parameters.
  • a 3D model generation apparatus includes a filter generation unit that determines a pixel to be searched when detecting a feature point from each of a plurality of input images having different viewpoints included in one or more video data And feature points of the plurality of input images are detected from the search pixels, and the plurality of input images are captured based on feature point pairs in which the feature points are similar between the plurality of input images.
  • a camera parameter estimating unit that estimates a camera parameter; and a three-dimensional model generating unit that generates a three-dimensional model using the plurality of input images and the camera parameter.
  • the present disclosure can provide a three-dimensional model generation apparatus or a three-dimensional model generation method that can reduce the amount of camera parameter estimation processing.
  • FIG. 1 is a diagram illustrating a configuration of a three-dimensional model generation system according to the first embodiment.
  • FIG. 2A is a diagram illustrating a binary image filter example according to the first embodiment.
  • FIG. 2B is a diagram illustrating an example of a binary image filter according to the first embodiment.
  • FIG. 2C is a diagram illustrating an example of a binary image filter according to the first embodiment.
  • FIG. 2D is a diagram illustrating an example of a binary image filter according to the first embodiment.
  • FIG. 2E is a diagram illustrating a binary image filter example according to the first embodiment.
  • FIG. 2F is a diagram illustrating an example of a binary image filter according to the first embodiment.
  • FIG. 2G is a diagram illustrating an example of a binary image filter according to the first embodiment.
  • FIG. 2H is a diagram illustrating a binary image filter example according to the first embodiment.
  • FIG. 3A is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3B is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3C is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3D is a diagram illustrating an example of a filter of a grayscale image according to the first embodiment.
  • FIG. 3E is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3F is a diagram illustrating a filter example of the grayscale image according to the first embodiment.
  • FIG. 3A is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3B is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3G is a diagram illustrating a filter example of a grayscale image according to Embodiment 1.
  • FIG. 3H is a diagram illustrating a filter example of a grayscale image according to the first embodiment.
  • FIG. 4 is a diagram showing 3D point cloud information and regions where processing can be skipped according to the first embodiment.
  • FIG. 5 is a flowchart showing processing of the three-dimensional model generation system according to Embodiment 1.
  • FIG. 6 is a diagram for explaining an example of determining a multi-viewpoint image based on the shooting time according to the first embodiment.
  • FIG. 7 is a diagram illustrating a configuration of the three-dimensional model generation system according to the second embodiment.
  • FIG. 8 is a flowchart showing processing of the 3D model generation system according to the second embodiment.
  • FIG. 9 is a diagram for explaining an example of determining a multi-viewpoint image based on a constant interval according to the second embodiment.
  • FIG. 10 is a diagram illustrating a configuration of a three-dimensional model generation system according to the third embodiment.
  • FIG. 11 is a flowchart showing processing of the three-dimensional model generation system in the third embodiment.
  • FIG. 12 is a diagram for explaining the three-dimensional model generation processing in the third embodiment.
  • FIG. 13 is a diagram illustrating a configuration of a three-dimensional model generation system according to the fourth embodiment.
  • FIG. 14 is a flowchart showing processing of the three-dimensional model generation system in the fourth embodiment.
  • the conventional method measures distance information of a subject on a single image taken from a certain viewpoint.
  • a partial three-dimensional model of the subject viewed from the viewpoint can be generated.
  • a three-dimensional model of the front portion of the subject can be generated.
  • the partial three-dimensional model is difficult to use for realizing the service described in the background art.
  • Another conventional method uses a plurality of images taken in time series with a single camera as a multi-viewpoint image, so that a subject whose distance information is measured is limited to a stationary object.
  • the present disclosure provides an apparatus that can generate a high-resolution three-dimensional model with low processing and low storage capacity.
  • the 3D model generation apparatus of one aspect of the present disclosure, by limiting the pixels used for camera parameter estimation and estimating the camera parameters, a high-resolution 3D model can be obtained with low processing and low storage capacity. Can be generated.
  • the three-dimensional model generation device can generate a multi-viewpoint image using a plurality of videos captured by a plurality of cameras, the subject is a stationary object, a moving object, or Even in both cases, a three-dimensional model of the subject can be generated.
  • a three-dimensional model generation device generates a converted image having a smaller number of pixels than the input image from each of a plurality of input images having different viewpoints included in one or more video data.
  • a generation unit detects feature points of the plurality of converted images, and based on feature point pairs in which the feature points are similar between the plurality of converted images, camera parameters when the plurality of input images are respectively captured
  • a camera parameter estimation unit for estimation and a three-dimensional model generation unit that generates a three-dimensional model using the plurality of input images and the camera parameters.
  • the processing amount of the camera parameter estimation process can be reduced.
  • the converted image generation unit may generate the converted image by extracting pixels at a plurality of predetermined pixel positions in the input image.
  • the converted image generation unit further sets a priority for each of the plurality of pixel positions, and the camera parameter estimation unit preferentially uses a pixel at a pixel position having a high priority, The parameter may be estimated.
  • the converted image generation unit may extract pixels at different pixel positions based on the content of the video or the shooting situation.
  • the camera parameter estimation process can be performed efficiently.
  • the plurality of pixel positions may be near the center of the input image.
  • the plurality of pixel positions may include four corner areas of the input image.
  • the distortion can be extracted from the image using a region where the influence of the distortion is large.
  • the converted image generation unit may generate the converted image by down-sampling the input image.
  • the camera parameter estimation unit corrects a camera parameter estimated using the converted image based on the reduction ratio in the downsampling
  • the three-dimensional model generation unit includes the corrected camera parameter and the plurality of The three-dimensional model may be generated using an input image.
  • the camera parameter of the original input image can be estimated appropriately.
  • the 3D model generation method generates a converted image having a smaller number of pixels than the input image from each of a plurality of input images having different viewpoints included in one or more video data.
  • a converted image generation step; and a camera when feature points of the plurality of converted images are detected and the plurality of input images are respectively photographed based on feature point pairs in which the feature points are similar between the plurality of converted images A camera parameter estimating step for estimating a parameter; and a three-dimensional model generating step for generating a three-dimensional model using the plurality of input images and the camera parameter.
  • the processing amount of the camera parameter estimation process can be reduced.
  • the 3D model generation device is a filter that determines a pixel to be searched when detecting a feature point from each of a plurality of input images having different viewpoints included in one or more video data.
  • the generation unit detects feature points of the plurality of input images from the search pixels, and the plurality of input images are respectively photographed based on feature point pairs in which the feature points are similar between the plurality of input images.
  • a camera parameter estimation unit that estimates a camera parameter at the time, and a three-dimensional model generation unit that generates a three-dimensional model using the plurality of input images and the camera parameters.
  • the processing amount of the camera parameter estimation process can be reduced.
  • the total number of pixels to be searched may be smaller than the number of pixels of the input image.
  • the filter generation unit may determine pixels at a plurality of predetermined pixel positions as the pixels to be searched.
  • the filter generation unit further sets a priority for each of the plurality of pixel positions, and the camera parameter estimation unit preferentially uses a pixel at a pixel position with a high priority, May be estimated.
  • the plurality of pixel positions may be near the center of the input image.
  • the plurality of pixel positions may include four corner areas of the input image.
  • the distortion can be extracted from the image using a region where the influence of the distortion is large.
  • the filter generation unit may determine the pixel to be searched based on the content of the video or the shooting situation.
  • the camera parameter estimation process can be performed efficiently.
  • the 3D model generation method determines a pixel to be searched when detecting a feature point from each of a plurality of input images having different viewpoints included in one or more video data.
  • the filter generation step detects feature points of the plurality of input images from the search pixels, and the plurality of input images are respectively photographed based on feature point pairs in which the feature points are similar between the plurality of input images.
  • a camera parameter estimation step for estimating a camera parameter at the time of generation
  • a three-dimensional model generation step for generating a three-dimensional model using the plurality of input images and the camera parameter.
  • the processing amount of the camera parameter estimation process can be reduced.
  • a program includes a converted image generation step of generating a converted image having a smaller number of pixels than the input image from each of a plurality of input images having different viewpoints included in one or more video data. And detecting feature points of the plurality of converted images, and estimating camera parameters when the plurality of input images are respectively captured based on feature point pairs in which the feature points are similar between the plurality of converted images.
  • FIG. 1 is a diagram illustrating a configuration of a three-dimensional model generation system according to the present embodiment.
  • the three-dimensional model generation system includes a plurality of cameras 101 that capture a subject 100 and a three-dimensional model generation device that receives video data 111 that is a plurality of images captured by the plurality of cameras 101. 200.
  • FIG. 1 also shows an end user 300 that is provided with a 3D model by the 3D model generation apparatus 200.
  • the subject 100 includes a stationary object, a moving object such as a person, or both. Examples of subjects including stationary objects and moving objects include sports matches such as basketball, or streets where people or cars exist.
  • Each camera 101 captures the subject 100 and outputs the captured video data 111 to the three-dimensional model generation apparatus 200. As a whole, two or more cameras 101 photograph the subject 100. That is, two or more cameras 101 capture the same scene (subject 100) from different viewpoints.
  • Each camera 101 is connected to the input unit 201 itself, or to a communication device or a server by wire or wireless so that the video data 111 captured by the camera 101 is input to the input unit 201 of the three-dimensional model generation device 200. Connected to a hub (not shown). Further, the video data 111 taken by the camera 101 may be output in real time, or after the video data 111 is once recorded in an external storage device such as a memory or a cloud server, the video data 111 is transferred from the external storage device. It may be output.
  • the camera 101 may be a fixed camera such as a surveillance camera, a mobile camera such as a video camera, a smartphone, or a wearable camera, or a mobile camera such as a drone with a photographing function. Good.
  • the 3D model generation apparatus 200 includes an input unit 201, a converted image generation unit 202, a camera parameter estimation unit 203, a 3D model generation unit 204, and an output unit 205.
  • the three-dimensional model generation apparatus 200 includes at least a computer system having a processing circuit such as a processor or a logic circuit and a recording device such as an internal memory or an accessible external memory.
  • the three-dimensional model generation apparatus 200 is implemented by hardware implementation by a processing circuit, by execution of a software program held in a memory by the processing circuit or distributed from an external server, or a combination of these hardware implementation and software implementation. It is realized by.
  • the input unit 201 When the input unit 201 receives the plurality of video data 111, the input unit 201 performs preprocessing on the plurality of video data 111.
  • the preprocessing is, for example, brightness adjustment, video size adjustment, white balance adjustment, noise removal, frame conversion for matching the frame rate, or a combination thereof.
  • the input unit 201 divides each of the plurality of video data 111 after the preprocessing is performed into input images 211 that are frames, extracts a plurality of input images 211 photographed at the same time, and extracts them at the same time.
  • a multi-viewpoint image group which is a set of a plurality of photographed input images 211, is output to the converted image generation unit 202 and the 3D model generation unit 204.
  • Extraction of a plurality of input images 211 photographed at the same time uses image information, time information or audio information recorded at the same time as video at the time of photographing with each camera 101, or a combination thereof.
  • a plurality of frames photographed at the same time may be extracted by connecting a plurality of cameras 101 by wire or wireless and starting photographing with the plurality of cameras 101 at the same time.
  • the input unit 201 sequentially outputs from the multi-viewpoint image group with the earliest shooting time.
  • the converted image generation unit 202 generates a converted image 212 having a smaller number of pixels than the input image 211 from each of a plurality of input images 211 having different viewpoints included in the one or more video data 111. Specifically, the converted image generation unit 202 determines, for each input image 211, a filter that restricts a region to be searched when detecting feature points on each input image 211 constituting the multi-viewpoint image group. The converted image 212 is generated from the input image 211 using the filtered filter, and the generated converted image 212 is output to the camera parameter estimation unit 203.
  • the filter has the same vertical and horizontal sizes as each input image 211, and each pixel value is a binary image of 0 (black) or 1 (white), or each pixel value is 0 (black) to 1 It is a grayscale image with a value between (white).
  • the feature point is a point having a large difference in luminance or color between a point, an edge, or a certain region such as an outline of an object included in an image, a corner of an object or space, or an intersection of objects, and its surroundings, Indicates a side or a certain area.
  • FIG. 2A to 2H are diagrams showing examples of binary image filters determined by the converted image generation unit 202.
  • FIG. When using the binary image filter, the pixel of the input image 211 at the same pixel position as the pixel having the filter pixel value of 1 is extracted to generate the converted image 212. That is, the converted image generation unit 202 A converted image 212 is generated by extracting pixels at a plurality of predetermined pixel positions in the input image 211.
  • 3A to 3H are diagrams illustrating examples of grayscale image filters determined by the converted image generation unit 202.
  • FIG. When using a filter of a grayscale image, the pixel of the input image 211 at the same pixel position as the pixel having a pixel value of the filter greater than 0 is extracted, and information indicating the pixel value of the filter is extracted to the extracted pixel.
  • the converted image 212 is generated by adding the image. That is, the converted image generation unit 202 further sets a priority for each pixel of the converted image 212, and the camera parameter estimation unit 203 preferentially uses a pixel with a high priority to estimate a camera parameter.
  • the filter to be used may be designated by the user in advance, or may be automatically determined according to image information or shooting conditions. That is, the converted image generation unit 202 may extract pixels at different pixel positions based on the content of the video or the shooting situation.
  • a filter that searches for a pixel at the center of the frame as shown in FIGS. 2A, 2B, 3A, or 3B. Selected.
  • the area of an object such as a person, character, or building on the frame may be automatically detected by a detector or given in advance.
  • an object such as a person, a character, or a building on a frame can be detected using face detection or pixel characteristics.
  • the position of the object where the feature point is easy to detect may be specified, and a plurality of pixels including the pixel position of the position of the object may be extracted.
  • the pixel position is near the center of the input image 211.
  • information such as a person being photographed may be input as a photographing situation, and a filter may be selected according to the photographing situation.
  • the converted image generation unit 202 selects a filter for searching a wide range of pixels on the frame, as shown in FIG. 2F, FIG. 2H, FIG. 3F, or FIG.
  • the converted image generation unit 202 searches for an area including the four corners of the frame as shown in FIG. 2F, FIG. 2G, FIG. 2H, FIG. 3F, FIG.
  • a filter to be selected may be selected. That is, pixels at pixel positions including the four corner regions of the input image 211 may be extracted.
  • camera information presence / absence of distortion
  • information may be input as the shooting state, or information indicating the presence / absence of distortion may be input by the user.
  • filters described in FIGS. 2A to 2H and FIGS. 3A to 3H are examples, and there are no limitations on the shape, area ratio, number, positional relationship, etc. of the white and black regions, and when detecting feature points All filters that limit the frame region to be searched can be used. One or more filters are used for one frame, and the search area may be limited using a plurality of filters.
  • the camera parameter estimation unit 203 detects feature points of the plurality of converted images 212, and a camera when each of the plurality of input images 211 is captured based on feature point pairs whose feature points are similar between the plurality of converted images 212. Estimate the parameters. Specifically, the camera parameter estimation unit 203 searches for pixels on the converted image 212 corresponding to all the input images 211 constituting the multi-viewpoint image group, detects feature points, and features indicating the detected feature points Store point information.
  • the feature point information is a vector representing the distribution of the color or luminance gradient for pixels in a specific range having the feature point substantially at the center or including the feature point.
  • the camera parameter estimation unit 203 performs feature point search and detection on the converted image 212. Perform for all pixels.
  • the filter used when generating the converted image 212 is a grayscale image as shown in FIGS. 3A to 3H
  • search and detection of feature points are performed for all the pixels on the converted image 212.
  • the number of detected feature points is larger than the predetermined number, the feature points at the pixel positions with low priority given to the pixels are deleted, and the number of feature points is made equal to or less than the predetermined number.
  • the search and detection of feature points is performed preferentially from the pixel positions with high priority of the pixels on the converted image 212, and all pixels having a pixel value other than 0 when a predetermined number of feature points are detected are searched. The search is terminated at that point.
  • the pixels to be searched can be limited, so that the processing amount and storage capacity required for feature point detection can be reduced. Is possible.
  • the number of feature points is reduced by limiting the search area for feature points. Thereby, it is possible to reduce the processing amount and the storage capacity necessary for calculating the feature point information.
  • the camera parameter estimation unit 203 may use all the pixels within a specific range including the feature point or the feature point as the approximate center, or the feature point as the approximate center. Alternatively, only pixels that are within a specific range including feature points and whose priority of the converted image 212 is a certain value or more may be used.
  • the camera parameter estimation unit 203 records the feature point information of all the converted images 212 constituting the multi-viewpoint image group, and is a feature point that is included in each of the two converted images 212 and has similar feature point information. A point is derived as a feature point pair. Furthermore, the camera parameter estimation unit 203 calculates each two-dimensional coordinate on the converted image 212 of the feature point pair, and records matching information including the calculated coordinate. Similar feature points are called matching points. For example, a square error or an absolute error of the feature point information is used to determine whether or not the feature point information is similar.
  • the camera parameter estimation unit 203 has captured all the input images 211 constituting the multi-viewpoint image group based on a geometrical constraint such as an epipolar constraint or a nonlinear optimization method such as bundle adjustment.
  • the camera parameters 213 of each camera 101 are estimated, and the estimated plurality of camera parameters 213 are output to the three-dimensional model generation unit 204.
  • the camera parameters 213 include the center coordinates, orientation, focal length in pixel units, lens distortion coefficient, etc. in the three-dimensional space of the camera.
  • the camera parameter estimation unit 203 may estimate all parameters such as the three-dimensional coordinates of the camera, the orientation, the focal length in pixel units, and the lens distortion coefficient, or may use some parameters that have been calibrated in advance.
  • the camera parameter estimation unit 203 uses the matching information and the estimated camera parameter 213 to calculate the coordinates of each matching point in the three-dimensional space based on the principle of triangulation, and the matching information and the three-dimensional coordinates of the matching point.
  • 3D point group information that is information including the above may be output to the 3D model generation unit 204.
  • the three-dimensional model generation unit 204 uses the multi-viewpoint image group (a plurality of input images 211) obtained from the input unit 201 and the camera parameters 213 obtained from the camera parameter estimation unit 203, and uses the three-dimensional model 214 of the subject 100. And the three-dimensional model 214 is output to the output unit 205.
  • the three-dimensional model 214 is (1) a point cloud model composed of points having three-dimensional position information, color information, gradient information, etc., and (2) in the point cloud in addition to the information possessed by the point cloud model.
  • a general three-dimensional model generation method such as a multi-stereo matching method or a visual volume intersection method can be used for generating a three-dimensional model.
  • the 3D model generation unit 204 detects a matching point for each pixel of each frame, and sets a matching point at a point where a straight line passing through each matching point and the center coordinates of the camera intersects. By projecting, a three-dimensional model of the subject is generated.
  • the 3D model generation unit 204 uses the matching information in the 3D point cloud information obtained from the camera parameter estimation unit 203 when detecting the matching points, thereby reducing the amount of processing required to detect the matching points. Also good.
  • the 3D model generation unit 204 calculates 3D points with sufficient density from the 3D coordinates of matching points in the 3D point cloud information obtained from the camera parameter estimation unit 203 as shown in FIG. Regions with high matching point density and regions with low density where sufficient density is not calculated for 3D points are detected. Matching point detection processing for pixels corresponding to regions with high matching point density Or you may skip the projection process of a matching point. Thereby, the three-dimensional model generation unit 204 can reduce the processing amount required for the matching point detection processing or the matching point projection processing.
  • the three-dimensional model generation unit 204 projects the silhouette of the subject in each input image 211 on the three-dimensional space, and sets the common part of the visual volume by each projection as a three-dimensional model.
  • the three-dimensional model generation unit 204 backprojects voxels in the three-dimensional space onto each input image 211, leaving only the voxels whose backprojected points are within the silhouette of the subject in each input image 211, Model.
  • the silhouette of the subject required by the view volume intersection method can be extracted by taking the difference between the background image captured in advance and the input image.
  • the 3D model generation unit 204 uses the object region information used when the filter is selected by the converted image generation unit 202 or the 3D point cloud information or object recognition information obtained from the camera parameter estimation unit 203. The silhouette of the subject may be extracted.
  • the three-dimensional model generation unit 204 generates the three-dimensional model 214 with high resolution by generating the three-dimensional model 214 using all the pixels of the input image 211 of the original resolution captured by the camera 101. it can.
  • the output unit 205 Upon receiving the three-dimensional model 214, the output unit 205 displays or stores the three-dimensional model 214 on a display or storage medium provided in the three-dimensional model generation apparatus 200, or a display or storage medium connected via wired or wireless. By doing so, the three-dimensional model 214 is distributed to the end user 300. Note that the output unit 205 may distribute the three-dimensional model 214 to a screen or a storage medium on the terminal of the end user 300 via a network. Further, when delivering the three-dimensional model 214, the output unit 205 may suppress the transmission capacity and the storage capacity by reversibly or irreversibly compressing the three-dimensional model 214.
  • the output unit 205 When the 3D model 214 is displayed on the display or the screen of the end user 300 terminal, the output unit 205 renders the 3D model and converts the 3D model into a 2D image viewed from an arbitrary viewpoint.
  • the two-dimensional image may be distributed and displayed.
  • the output unit 205 may display the three-dimensional model 214 on a hologram or a three-dimensional display.
  • the output unit 205 detects a region having insufficient resolution in the three-dimensional model 214 from the density information of the points of the three-dimensional model 214, and presents the viewpoint capable of photographing the region to the end user 300 as a missing viewpoint. May be.
  • the end user 300 When the end user 300 confirms the two-dimensional image rendered on the screen on the display or the terminal, the end user 300 can perform operations such as zooming in and out of the image or changing the direction of the viewpoint by a mouse operation or a touch operation. is there. Thereby, the end user 300 can confirm the three-dimensional model 214 from every viewpoint of 360 degrees. Even if the end user 300 presents the missing viewpoint by the output unit 205 or visually confirms the three-dimensional model, the end user 300 inputs the video from the insufficient viewpoint to the three-dimensional model generation apparatus 200, and the three-dimensional model is created again. Good.
  • the input unit 201 performs preprocessing on the videos V1, V2, and V3, and divides the videos V1, V2, and V3 into frames (input images 211), respectively (step S11).
  • the images V1, V2, and V3 are each divided into five frames V1_1 to V1_5, V2_1 to V2_5, and V3_1 to V3_5.
  • the input unit 201 extracts frames taken at the same time from each video as shown in FIG. 6, determines a plurality of extracted frames taken at the same time as one multi-viewpoint image group, Each multi-viewpoint image group is stored in a buffer (step S12).
  • the input unit 201 extracts a frame whose shooting time is given to each frame at the same time.
  • the input unit 201 extracts V1_1 and V2_1 as a multi-viewpoint image group.
  • the input unit 201 may include a frame with the closest shooting time in the multi-viewpoint image group, such as V1_1, V2_1, and V3_2 in FIG.
  • the converted image generation unit 202 takes out the multi-view image group having the earliest shooting time from the buffer (step S13).
  • the converted image generation unit 202 determines a filter for each frame (V1_1, V2_1, V3_2) constituting the multi-viewpoint image group (step S14).
  • the filter is determined by frame image information, shooting conditions, or prior user designation. For example, when a person whose feature points are likely to be extracted in the frame V1_1 is detected at the center of the frame and lens distortion information is added to the frame V1_1, the converted image generation unit 202 detects the feature points at the center of the frame.
  • the filter shown in FIG. 2A is selected.
  • the converted image generation unit 202 detects feature points in a wide range.
  • the filter shown in FIG. 2F is selected. Since the influence of lens distortion is large on pixels outside the frame, a filter that can detect feature points outside the frame is effective for estimating lens distortion.
  • the converted image generation unit 202 selects the filter in FIG. 2H that can detect feature points from a wide range on the frame.
  • the converted image generation unit 202 generates a converted image 212 of each frame using the determined filter (step S15).
  • the camera parameter estimation unit 203 detects feature points in the converted image 212 of each frame (V1_1, V2_1, V3_2) constituting the multi-viewpoint image group, and extracts feature point information (step S16).
  • the search and detection of the feature points in each frame are performed only on the white region of the filter determined in step S14. This makes it possible to detect feature points useful for camera parameters with low processing and low storage capacity.
  • the camera parameter estimation unit 203 detects the matching point by comparing the feature point information between the two frames, and generates matching information indicating the matching point (step S17).
  • the camera parameter estimation unit 203 estimates the camera parameters 213 of each frame constituting the multi-viewpoint image group based on geometric constraints such as epipolar constraints or nonlinear optimization methods such as bundle adjustment. (Step S18).
  • the three-dimensional model generation unit 204 generates a three-dimensional model 214 of the subject based on each frame (input image 211) constituting the multi-viewpoint image group and the camera parameter 213 corresponding to each frame.
  • the model 214 is stored in a storage medium or displayed on a display (step S19).
  • step S20 If the processing for all the multi-viewpoint image groups has not been completed (No in step S20), the next multi-viewpoint image group is taken out from the buffer (step S13), and the processing from step S14 onward for the multi-viewpoint image group. Is done. Further, when the processing for all the multi-viewpoint image groups is completed (Yes in step S20), the 3D model generation apparatus 200 ends the processing.
  • steps S14 to S18 are omitted for the input image 211 taken by the camera 101 for which the camera parameters of the cameras C1, C2, and C3 are determined not to have changed from the previous values after the second week. Also good. Whether the camera parameter has changed from the previous value can be determined by detecting the movement of the camera 101 using at least one of a vibration sensor, a GPS sensor, and an acceleration sensor mounted on the camera 101, for example. Alternatively, the presence or absence of a change in camera parameters may be determined by detecting a movement of the camera 101 or a change in zoom using image information. Alternatively, in the case of a fixed camera, it may be determined that the camera parameter does not change. As a result, when the camera 101 moves or when the focal length changes, the camera parameters are re-estimated, so that a three-dimensional model can be estimated efficiently.
  • the three-dimensional model 214 for each photographing time is generated by the above processing. It is also possible to display a three-dimensional model of a moving object as an image by displaying this on the display in order of time. Further, the end user 300 confirms the three-dimensional model 214 displayed after Yes in step S19 or step S20, and when the end user 300 determines that the resolution of the three-dimensional model 214 is insufficient, the three-dimensional model The generation apparatus 200 may acquire the video data 111 from the insufficient viewpoint and create the three-dimensional model 214 again.
  • all the pixels of each frame can be used, so that a high-resolution three-dimensional model can be generated.
  • the three-dimensional model of the subject 100 is selected even if the subject 100 is a stationary object, a moving object, or both. Can be generated.
  • the video data 111 in a certain section is input to the 3D model generation apparatus 200 has been described. However, the video data 111 may be input every time one frame is captured from the camera 101.
  • FIG. 7 is a diagram illustrating a configuration of the three-dimensional model generation system according to the present embodiment.
  • the subject 100A is a stationary object. Further, the subject 100A is photographed by one camera 101. The camera 101 captures the subject 100A while changing the position (viewpoint position). Note that a plurality of cameras 101 may be provided as in the first embodiment. Further, the processing content of the 3D model generation apparatus 200A is different from that of the first embodiment. In the following description, differences from the previous embodiment will be mainly described, and redundant description will be omitted.
  • the 3D model generation apparatus 200A is mainly different from the 3D model generation apparatus 200 according to Embodiment 1 in the operation of the input unit 201. Specifically, the method for extracting a multi-viewpoint image group is different.
  • the input unit 201 When the input unit 201 receives one or more pieces of video data 111, the input unit 201 performs preprocessing on the one or more pieces of video data 111 in the same manner as in the first embodiment. Next, after the preprocessing, the input unit 201 divides each of the one or more pieces of video data 111 into input images 211 that are frames, extracts a certain number of input images 211 therefrom, and extracts a plurality of extracted input images 211. Are output to the converted image generation unit 202 and the three-dimensional model generation unit 204.
  • the input unit 201 uses the image information to extract a certain number of input images 211, extracts the input images 211 from different viewpoints, extracts the input images 211 at regular intervals from each video, An input image 211 taken from a viewpoint separated by a certain distance or more is extracted using a GPS sensor or an acceleration sensor built in the apparatus 101. Note that the input unit 201 may extract all the input images 211 as a multi-viewpoint image group.
  • FIG. 8 is a diagram showing a processing flow of the three-dimensional model generation system according to the present embodiment.
  • a video V4 obtained by photographing a building that is a stationary object from multiple viewpoints with one camera C4 is input to the input unit 201 will be described.
  • the input unit 201 pre-processes the video V4 and divides the pre-processed video V4 into frames (input images 211) (step S11).
  • the video V4 is divided into ten frames V4_1 to V4_10.
  • the input unit 201 selects V4_1, V4_3, V4_5, V4_7, and V4_9 from the input image 211 divided as shown in FIG.
  • a viewpoint image group is determined (step S12A). Note that the input unit 201 may select the input image 211 based on the position or orientation of the camera when each input image 211 is captured.
  • the subsequent steps S14 to S19 are the same as those in the first embodiment.
  • the end user 300 confirms the three-dimensional model 214 displayed after step S19, and if the end user 300 determines that the resolution of the three-dimensional model 214 is insufficient, The three-dimensional model generation apparatus 200A may acquire the video data 111 from the insufficient viewpoint and create the three-dimensional model 214 again.
  • the three-dimensional model generation system in the present embodiment by limiting the subject 100A to a stationary object, a synchronous shooting system between the cameras 101, a process of extracting a frame shot at the same time, and the like. Since it is not necessary, a high-resolution three-dimensional model can be generated with a smaller processing amount and at a lower cost.
  • Embodiment 3 In Embodiment 1, the example which produces
  • FIG. 10 is a diagram showing a configuration of the three-dimensional model generation system according to the present embodiment.
  • the 3D model generation system shown in FIG. 10 differs from the 3D model generation system according to Embodiment 1 in the functions of a converted image generation unit 202B and a camera parameter estimation unit 203B included in the 3D model generation device 200B.
  • the converted image generation unit 202B When the converted image generation unit 202B receives the multi-viewpoint image group from the input unit 201, the converted image generation unit 202B generates the converted image 212B by down-sampling each input image 211 constituting the multi-viewpoint image group at a specific reduction ratio. Also, the converted image generation unit 202B outputs the generated converted image 212B and the reduction magnification used for downsampling to the camera parameter estimation unit 203.
  • the downsampling is a process of generating a converted image 212B having a resolution lower than that of the original input image 211. For example, the pixel is extracted using a process of thinning out pixels or a filter that calculates an average value of surrounding pixels. For example, processing to reduce the number.
  • the reduction ratio at the time of downsampling may be set in advance, or may be set so that the converted image 212B has a preset resolution.
  • the converted image generation unit 202B may set a reduction ratio based on the image information. For example, since the input image 211 in which a large number of objects are moving in or the input image 211 having a high spatial frequency can extract many feature points, the converted image generation unit 202B can reduce the scaling factor for such an input image 211. May be set higher. As a result, by increasing the reduction ratio for the input image 211 that easily matches feature points, the processing amount can be further reduced while suppressing a decrease in the accuracy of camera parameter estimation. Further, the converted image generation unit 202B may set the reduction ratio for each input image 211, or may use the same reduction ratio for all the input images 211.
  • the camera parameter estimation unit 203B Upon receiving the converted image 212B of the multi-viewpoint image group and the reduction magnification, the camera parameter estimation unit 203B extracts feature point information from each converted image 212B as in the first embodiment, and between the converted images 212B. Camera parameters for each converted image 212B are estimated based on the matching information. Note that since the focal length in units of pixels, which is one of the camera parameters, varies depending on the resolution of the image, the focal length in units of pixels estimated using the converted image 212B is calculated in units of pixels with respect to the input image 211 before reduction. It is necessary to correct the focal length. Therefore, the camera parameter estimation unit 203B corrects the camera parameter estimated using the converted image 212B based on the reduction magnification in downsampling. Specifically, the camera parameter estimation unit 203B corrects the focal length in pixel units according to (Equation 1) below.
  • f ′ is a corrected focal length in pixel units
  • f is a focal length in pixel units estimated using the converted image 212B
  • k is a reduction magnification.
  • the camera parameter estimation unit 203 ⁇ / b> B outputs the camera parameter 213 ⁇ / b> B after the focal length of the pixel unit is corrected to the three-dimensional model generation unit 204.
  • the three-dimensional model generation unit 204 generates a three-dimensional model 214 using the modified camera parameter 213B and the plurality of input images 211.
  • FIG. 11 differs from the process shown in FIG. 5 in that steps S14 and S15 are replaced with S15A and that step S21 is added.
  • steps S14 and S15 are replaced with S15A and that step S21 is added.
  • videos V5, V6, and V7 obtained by shooting a moving person with three cameras C5, C6, and C7 are input to the input unit 201 will be described.
  • Steps S11 to S13 are the same as in the first embodiment, and a multi-viewpoint image group including frames V5_1, V6_1, and V7_1 obtained from the videos V5, V6, and V7 is extracted in step S13.
  • the converted image generation unit 202B sets the respective reduction magnifications k5, k6, and k7 for each frame (V5_1, V6_1, V7_1) constituting the multi-viewpoint image group, and uses the set reduction magnifications to set each frame. Downsampling is performed (step S15A).
  • the converted images 212B which are frames obtained by down-sampling each frame (V5_1, V6_1, V7_1), are referred to as V5_1 ', V6_1', and V7_1 ', respectively.
  • the reduction ratio is determined by frame image information, shooting conditions, or prior user designation.
  • the reduction magnifications k5, k6, and k7 are set so that the resolution after downsampling is the same for all frames.
  • the camera parameter estimation unit 203B detects feature points for each frame (V5_1 ', V6_1', V7_1 ') constituting the multi-viewpoint image group, and extracts feature point information (step S16).
  • the feature point search and detection is performed on the frame down-sampled in step S15A, the feature point useful for the camera parameter can be detected with low processing and low storage capacity.
  • Steps S17 and S18 are the same as those in the first embodiment.
  • Step S21 the camera parameter estimation unit 203B calculates the focal length in units of pixels according to the above (Equation 1). Correction is made (step S21). Step S19 is the same as that in the first embodiment.
  • FIG. 12 is a diagram schematically showing the above process.
  • feature point search, detection, and feature point information using a converted image 212B obtained by down-sampling the input image 211. Is extracted.
  • the pixel data to be accessed and stored in these processes can be reduced, and the processing amount and storage capacity required for camera parameter estimation can be reduced.
  • Embodiment 4 In Embodiment 1, the example which produces
  • FIG. 13 is a diagram showing a configuration of the three-dimensional model generation system according to the present embodiment.
  • the 3D model generation system illustrated in FIG. 13 includes a filter generation unit 202C instead of the converted image generation unit 202, and the function of the camera parameter estimation unit 203C is different from the 3D model generation system according to Embodiment 1. .
  • the filter generation unit 202C determines a filter for limiting the search area for each input image 211.
  • the filter may be designated by the user in advance, or may be automatically determined according to image information or shooting conditions.
  • the filter generation unit 202C outputs the input image 211 and the filter determined for each input image 211 to the camera parameter estimation unit 203C. That is, the filter generation unit 202C determines a pixel to be searched when detecting a feature point from each of a plurality of input images 211 having different viewpoints included in one or more video data. In addition, the total number of pixels to be searched for is smaller than the number of pixels of the input image 211.
  • the camera parameter estimation unit 203C Upon receiving the input image 211 and the filter determined for each input image 211, the camera parameter estimation unit 203C extracts feature point information from each input image 211 based on the corresponding filter. Specifically, when the determined filter is a binary image as shown in FIGS. 2A to 2H, the camera parameter estimation unit 203C performs the search and detection of the feature point, and the pixel whose filter pixel value is 1 This is performed only for the pixels of the input image 211 at the same pixel position. When the filter is a grayscale image as shown in FIGS. 3A to 3H, the camera parameter estimation unit 203C performs the search and detection of the feature point in the same pixel as the pixel having a pixel value of the filter greater than 0.
  • the camera parameter estimation unit 203C preferentially searches for and detects feature points from the pixel of the input image 211 at the same pixel position as a pixel having a large filter pixel value, and detects a predetermined number of feature points. The search is terminated when all the pixels of the input image 211 at the same pixel position as the pixel other than the pixel whose filter pixel value is not 0 are searched.
  • the camera parameter estimation unit 203C estimates the camera parameter 213C for each input image 211 based on the matching information between the input images 211.
  • the camera parameter estimation unit 203C detects the feature points of the plurality of input images 211 from the pixels to be searched, which are determined by the filter generation unit 202C, and the feature points are similar among the plurality of input images 211. Based on the point pairs, the camera parameters 213C when the plurality of input images 211 are respectively photographed are estimated.
  • the filter generation unit 202C determines as pixels to search for pixels at a plurality of predetermined pixel positions.
  • the filter generation unit 202C further sets a priority for each of the plurality of pixel positions.
  • the camera parameter estimation unit 203C estimates the camera parameter 213C by preferentially using a pixel at a pixel position having a high priority.
  • the plurality of predetermined pixel positions are near the center of the input image 211.
  • the plurality of predetermined pixel positions include four corner areas of the input image 211.
  • the filter generation unit 202C determines a pixel to search based on the content of the video or the shooting situation.
  • step S15 is deleted and step S16 is replaced by S16A.
  • videos V8, V9, and V10 obtained by photographing a moving person with three cameras C8, C9, and C10 are input to the input unit 201 will be described.
  • Steps S11 to S14 are the same as in the first embodiment.
  • a multi-viewpoint image group including frames V8_1, V9_1, and V10_1 obtained from the videos V8, V9, and V10 is extracted (step S13), and the filter generation unit 202C A filter is determined for each frame (V8_1, V9_1, V10_1) constituting the multi-viewpoint image group (step S14).
  • the camera parameter estimation unit 203C detects a feature point based on a filter corresponding to each frame (V8_1, V9_1, V10_1) constituting the multi-viewpoint image group, and extracts feature point information (step S16A). .
  • Steps S17 to S20 are the same as in the first embodiment.
  • the pixels on the input image 211 that perform search and detection of feature points based on the filter determined for each input image 211 are limited.
  • the feature point information accessed and stored in these processes can be reduced.
  • the processing amount required for camera parameter estimation and the storage capacity can be reduced.
  • each processing unit included in the three-dimensional model generation apparatus is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • circuits are not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • division of functional blocks in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, a single functional block can be divided into a plurality of functions, or some functions can be transferred to other functional blocks. May be.
  • functions of a plurality of functional blocks having similar functions may be processed in parallel or time-division by a single hardware or software.
  • the three-dimensional model generation apparatus has been described based on the embodiment, but the present disclosure is not limited to this embodiment. Unless it deviates from the gist of the present disclosure, various modifications conceived by those skilled in the art have been made in this embodiment, and forms constructed by combining components in different embodiments are also within the scope of one or more aspects. May be included.
  • the present disclosure can be applied to a 3D model generation apparatus or a 3D model generation system, and can be applied to, for example, figure creation, terrain or building structure recognition, person action recognition, or free viewpoint video generation.
  • Video data 200, 200A, 200B Three-dimensional model generation device 201 Input unit 202, 202B Converted image generation unit 202C Filter generation unit 203, 203B, 203C Camera parameter estimation unit 204 Three-dimensional model generation unit 205 Output Section 211 Input image 212, 212B Converted image 213, 213B, 213C Camera parameter 214 Three-dimensional model 300 End user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

三次元モデル生成装置(200)は、1以上の映像データ(111)に含まれる、互いに視点の異なる複数の入力画像(211)の各々から、当該入力画像(211)より画素数の少ない変換画像(212)を生成する変換画像生成部(202)と、複数の変換画像(212)の特徴点を検出し、複数の変換画像(212)間で特徴点が類似する特徴点対に基づき、複数の入力画像(211)がそれぞれ撮影された際のカメラパラメータ(213)を推定するカメラパラメータ推定部(203)と、複数の入力画像(211)とカメラパラメータ(213)とを用いて三次元モデル(214)を生成する三次元モデル生成部(204)とを備える。

Description

三次元モデル生成装置及び三次元モデル生成方法
 本開示は、1以上のカメラで撮影された映像を用いて三次元モデルを生成する三次元モデル生成装置及び三次元モデル生成方法に関する。
 近年、人物又は建物などの被写体を多視点から撮影することにより得られる多視点画像を用いて被写体の三次元形状を計測し、被写体の三次元モデルを生成する技術が研究されている(例えば、非特許文献1参照)。この技術は多視点画像を構成するそれぞれの画像が撮影された際のカメラパラメータ(カメラの位置、向き、ピクセル単位の焦点距離、及びレンズ歪みなど)を幾何学的に推定した後、推定したカメラパラメータを用いて各画像上の各画素を三次元空間上に投影することにより被写体の三次元モデルを生成する。被写体の三次元モデルを生成することにより、3Dプリンタによるフィギュア作成、地形又は建物の構造認識、人物の行動認識、及び、個人の好みの視点で被写体を視聴できる自由視点映像の生成などのサービスが実現可能となる。これらサービスの実現には高解像度の三次元モデルが不可欠であり、そのために4K或いは8K又はそれ以上の高解像度を持つ画像が必要である。
 しかし、画像の解像度が高くなるほどカメラパラメータの推定に要する処理時間、及び記憶容量は指数関数的に増加するため、高解像度の三次元モデル生成には相応の処理能力及び記憶容量を持ったコンピュータが求められる。
 また、画像をダウンサンプリングして得られる低解像度画像を保存し、利用することにより、ある画像上での被写体の距離情報を低記憶容量で計測する方法が提示されている(例えば、特許文献1参照)。
特開2015-056142号公報
S. Agarwal, N. Snavely, I. Simon, S.M. Seitz and R. Szeliski, "Building Rome in a Day", proc. International Conference on Computer Vision, 2009, Kyoto, Japan.
 本開示は、カメラパラメータ推定処理の処理量を低減できる三次元モデル生成装置又は三次元モデル生成方法を提供することを目的とする。
 本開示の一態様の三次元モデル生成装置は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。
 本開示の一態様の三次元モデル生成装置は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。
 本開示は、カメラパラメータ推定処理の処理量を低減できる三次元モデル生成装置又は三次元モデル生成方法を提供できる。
図1は、実施の形態1に係る三次元モデル生成システムの構成を示す図である。 図2Aは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Bは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Cは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Dは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Eは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Fは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Gは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図2Hは、実施の形態1に係る二値画像のフィルタ例を示す図である。 図3Aは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Bは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Cは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Dは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Eは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Fは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Gは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図3Hは、実施の形態1に係るグレースケール画像のフィルタ例を示す図である。 図4は、実施の形態1に係る三次元点群情報及び処理スキップできる領域を示す図である。 図5は、実施の形態1に係る三次元モデル生成システムの処理を示すフローチャートである。 図6は、実施の形態1に係る撮影時刻に基づく多視点画像を決定する一例を説明するための図である。 図7は、実施の形態2に係る三次元モデル生成システムの構成を示す図である。 図8は、実施の形態2に係る三次元モデル生成システムの処理を示すフローチャートである。 図9は、実施の形態2に係る一定間隔に基づく多視点画像を決定する一例を説明するための図である。 図10は、実施の形態3に係る三次元モデル生成システムの構成を示す図である。 図11は、実施の形態3における三次元モデル生成システムの処理を示すフローチャートである。 図12は、実施の形態3における三次元モデル生成処理を説明するための図である。 図13は、実施の形態4に係る三次元モデル生成システムの構成を示す図である。 図14は、実施の形態4における三次元モデル生成システムの処理を示すフローチャートである。
 (発明に至った経緯)
 従来の方法は、ある視点から撮影された一枚の画像上での被写体の距離情報を計測するものである。上記距離情報が得られると、上記視点から見た被写体の部分的な三次元モデルを生成できる。例えば、被写体を正面から撮影した画像上での被写体の距離情報が得られると、被写体の正面部分の三次元モデルが生成できる。しかし、部分的な三次元モデルは、背景技術で述べたサービスの実現には利用し難い。また、別の従来の方法は、1つのカメラで時系列的に撮影した複数の画像を多視点画像としているため、距離情報を計測する被写体は静止物体に限定される。
 そこで、本開示では、低処理及び低記憶容量で高解像度の三次元モデルを生成できる装置を提供する。
 また、本開示の一態様の三次元モデル生成装置によれば、カメラパラメータの推定に利用する画素を限定しカメラパラメータを推定することにより、低処理及び低記憶容量で高解像度の三次元モデルを生成することができる。また、本開示の一態様の三次元モデル生成装置は複数のカメラで撮影した複数の映像を利用し、多視点画像を生成することも可能であるため、被写体が静止物体、動物体、又は、その両方であっても被写体の三次元モデルを生成することができる。
 本開示の一態様に係る三次元モデル生成装置は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。
 これによれば、入力画像より画素数の少ない変換画像を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。
 例えば、前記変換画像生成部は、前記入力画像内の予め定められた複数の画素位置の画素を抽出することで前記変換画像を生成してもよい。
 例えば、前記変換画像生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定してもよい。
 これによれば、カメラパラメータ推定処理を効率的に行える。
 例えば、前記変換画像生成部は、前記映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出してもよい。
 これによれば、映像の内容又は撮影状況に応じて適切な画素を使用できるのでカメラパラメータ推定処理を効率的に行える。
 例えば、前記複数の画素位置は、前記入力画像の中央付近であってもよい。
 これによれば、歪みの影響が少ない領域を用いることができるので、処理精度を向上できる。
 例えば、前記複数の画素位置は、前記入力画像の四隅の領域を含んでもよい。
 これによれば、歪みの影響が大きい領域を用いて、当該歪みを画像から抽出できる。
 例えば、前記変換画像生成部は、前記入力画像をダウンサンプリングすることにより前記変換画像を生成してもよい。
 これによれば、画像内の全ての領域の情報を用いてカメラパラメータを推定できる。
 例えば、前記カメラパラメータ推定部は、前記変換画像を用いて推定したカメラパラメータを、前記ダウンサンプリングにおける縮小倍率に基づき修正し、前記三次元モデル生成部は、修正された前記カメラパラメータと前記複数の入力画像とを用いて前記三次元モデルを生成してもよい。
 これによれば、ダウンサンプリングされた変換画像を用いる場合において、適切に、元の入力画像のカメラパラメータを推定できる。
 また、本開示の一態様に係る三次元モデル生成方法は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとを含む。
 これによれば、入力画像より画素数の少ない変換画像を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。
 また、本開示の一態様の三次元モデル生成装置は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える。
 これによれば、入力画像の一部の画素を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。
 例えば、前記探索する画素の総数は前記入力画像の画素数より少なくてもよい。
 例えば、前記フィルタ生成部は、予め定められた複数の画素位置の画素を前記探索する画素として決定してもよい。
 例えば、前記フィルタ生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定してもよい。
 これによれば、カメラパラメータ推定処理を効率的に行える。
 例えば、前記複数の画素位置は、前記入力画像の中央付近であってもよい。
 これによれば、歪みの影響が少ない領域を用いることができるので、処理精度を向上できる。
 例えば、前記複数の画素位置は、前記入力画像の四隅の領域を含んでもよい。
 これによれば、歪みの影響が大きい領域を用いて、当該歪みを画像から抽出できる。
 例えば、前記フィルタ生成部は、前記映像の内容又は撮影状況に基づき、前記探索する画素を決定してもよい。
 これによれば、映像の内容又は撮影状況に応じて適切な画素を使用できるのでカメラパラメータ推定処理を効率的に行える。
 また、本開示の一態様に係る三次元モデル生成方法は、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成ステップと、前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップと、を含む。
 これによれば、入力画像の一部の画素を用いてカメラパラメータ推定処理が行われるので、カメラパラメータ推定処理の処理量を低減できる。
 また、本開示の一態様に係るプログラムは、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとをコンピュータに実行させるためのプログラムである。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ、ステップの順序などは一例であり、本開示を限定する主旨はない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 まず、本実施の形態1に係る三次元モデル生成システムの構成を説明する。図1は、本実施形態に係る三次元モデル生成システムの構成を示す図である。
 本実施の形態1に係る三次元モデル生成システムは、被写体100を撮影する複数のカメラ101と、複数のカメラ101で撮影された複数の映像である映像データ111が入力される三次元モデル生成装置200とを備える。また、図1には、三次元モデル生成装置200によって三次元モデルを提供されるエンドユーザ300も図示している。被写体100は、静止している静止物体或いは人物などの動物体、又は、その両方を含む。静止物体と動物体とを含む被写体の例として、バスケットボールなどのスポーツの試合、又は、人物或いは車が存在する街中などがある。
 各カメラ101は被写体100を撮影し、撮影した映像データ111を三次元モデル生成装置200に出力する。全体として2台以上のカメラ101が被写体100を撮影する。つまり、2台以上のカメラ101は、互いに異なる視点から同一のシーン(被写体100)を撮影する。カメラ101によって撮影された映像データ111が三次元モデル生成装置200の入力部201に入力されるように、それぞれのカメラ101が、有線又は無線によって、入力部201自体に、又は通信機器或いはサーバなどのハブ(図示せず)に接続される。また、カメラ101で撮影した映像データ111はリアルタイムに出力されてもよいし、映像データ111が一度メモリ又はクラウドサーバなどの外部記憶装置に記録された後、それらの外部記憶装置から映像データ111が出力されてもよい。
 また、カメラ101はそれぞれ監視カメラなどの固定カメラであってもよいし、ビデオカメラ、スマートフォン、又はウェアラブルカメラなどのモバイルカメラであってもよいし、撮影機能付きドローンなどの移動カメラであってもよい。
 三次元モデル生成装置200は、入力部201、変換画像生成部202、カメラパラメータ推定部203、三次元モデル生成部204、及び出力部205を備える。三次元モデル生成装置200は、プロセッサ又は論理回路などの処理回路と、内部メモリ又はアクセス可能な外部メモリなどの記録装置とを有するコンピュータシステムを少なくとも備える。三次元モデル生成装置200は、処理回路によるハード実装によって、又は、処理回路によるメモリに保持される、或いは外部サーバから配信されるソフトウェアプログラムの実行によって、又は、これらハード実装とソフト実装との組み合わせによって実現される。
 入力部201は、複数の映像データ111を受け取ると、複数の映像データ111に対して前処理を行う。前処理は、例えば明るさ調整、映像サイズ調整、ホワイトバランス調整、ノイズ除去、或いはフレームレートを揃えるためのフレーム変換、又はこれらの組み合わせである。入力部201は、前処理が行われた後の複数の映像データ111それぞれをフレームである入力画像211に分割し、同時刻に撮影された複数の入力画像211を抽出し、抽出した同時刻に撮影された複数の入力画像211の組である多視点画像群を変換画像生成部202及び三次元モデル生成部204に出力する。同時刻に撮影された複数の入力画像211の抽出には、画像情報、各カメラ101での撮影時に映像と同時に記録される時間情報或いは音声情報、又はそれらの組み合わせが利用される。または、複数のカメラ101を有線又は無線で接続し、同時刻に複数のカメラ101で撮影開始することにより、同時刻に撮影された複数のフレームを抽出してもよい。また、入力部201は撮影時刻が早い多視点画像群から順々に出力する。
 変換画像生成部202は、1以上の映像データ111に含まれる、互いに視点の異なる複数の入力画像211の各々から、当該入力画像211より画素数の少ない変換画像212を生成する。具体的には、変換画像生成部202は、多視点画像群を構成する各入力画像211上の特徴点を検出する際に、探索する領域を制限するフィルタを入力画像211毎に決定し、決定したフィルタを用いて入力画像211から変換画像212を生成し、生成された変換画像212をカメラパラメータ推定部203に出力する。
 フィルタは、例えば、各入力画像211と縦横のサイズが同じであり、各画素の値は0(黒)か1(白)の二値画像、又は、各画素の値が0(黒)~1(白)の間の値を持つグレースケール画像である。また、特徴点は、画像に含まれる物体の輪郭、物体或いは空間の角、又は、物体同士の交差点のような、点、エッジ又は一定領域とその周囲との輝度或いは色合いの差が大きい点、辺、又は一定領域のことを示す。
 図2A~図2Hは、変換画像生成部202で決定する二値画像のフィルタ例を示す図である。二値画像のフィルタを利用する際は、フィルタの画素値が1である画素と同じ画素位置にある入力画像211の画素を抽出し、変換画像212を生成するつまり、変換画像生成部202は、入力画像211内の予め定められた複数の画素位置の画素を抽出することで変換画像212を生成する。
 図3A~図3Hは、変換画像生成部202で決定するグレースケール画像のフィルタ例を示す図である。グレースケール画像のフィルタを利用する際は、フィルタの画素値が0より大きい値を持つ画素と同じ画素位置にある入力画像211の画素を抽出し、抽出した画素にフィルタの画素値を示す情報を付与することで変換画像212を生成する。つまり、変換画像生成部202は、さらに、変換画像212の画素の各々に優先度を設定し、カメラパラメータ推定部203は、優先度が高い画素を優先的に用いて、カメラパラメータを推定する。
 なお、図2A~図2H又は図3A~図3Hに示されるフィルタを利用することにより画像中の必要領域を抽出する操作(トリミング)と同等の効果が得られる。
 また、使用されるフィルタは事前にユーザが指定してもよいし、画像情報又は撮影状況により自動的に決定されてもよい。つまり、変換画像生成部202は、映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出してもよい。
 例えば、人物、文字、又は建物などの特徴点が検出しやすい物体がフレーム中央にあるときは、図2A、図2B、図3A又は図3Bに示すように、フレーム中央の画素を探索するフィルタが選択される。なお、フレーム上の人物、文字、又は建物などの物体の領域は検出器によって自動的に検出されても、事前に与えられてもよい。例えば、顔検出又は画素の特徴を用いて、フレーム上の人物、文字、又は建物などの物体を検出できる。
 つまり、画像情報を用いて、特徴点が検出しやすい物体の位置が特定され、当該物体の位置の画素位置を含む複数の画素が抽出されてもよい。例えば、当該画素位置は、入力画像211の中央付近である。また、撮影状況として、例えば、人物が撮影されている等の情報が入力され、当該撮影状況に応じてフィルタが選択されてもよい。
 また、レンズ歪みを推定する場合には、変換画像生成部202は、図2F、図2H、図3F又は図3Hに示すように、フレーム上の広範囲の画素を探索するフィルタを選択する。また、魚眼レンズ等の歪みを推定する場合には、変換画像生成部202は、図2F、図2G、図2H、図3F、図3G又は図3Hに示すように、フレームの四隅を含む領域を探索するフィルタが選択されてもよい。つまり、入力画像211の四隅の領域を含む画素位置の画素が抽出されてもよい。この場合、撮影状況として、カメラの情報(歪みの有無)が入力されてもよいし、ユーザにより歪みの有無を示す情報が入力されてもよい。
 なお、図2A~図2H及び図3A~図3Hに記載したフィルタは一例であり、白領域及び黒領域の形、面積割合、数、位置関係などに限定はなく、特徴点を検出する際に探索するフレーム領域を制限するフィルタは全て利用可能である。1つのフレームに対して使用するフィルタは1種以上であり、複数のフィルタを用いて探索領域を制限してもよい。
 カメラパラメータ推定部203は、複数の変換画像212の特徴点を検出し、複数の変換画像212間で特徴点が類似する特徴点対に基づき、複数の入力画像211がそれぞれ撮影された際のカメラパラメータを推定する。具体的には、カメラパラメータ推定部203は、多視点画像群を構成する全ての入力画像211に対応する変換画像212上の画素を探索し、特徴点を検出し、検出した特徴点を示す特徴点情報を記憶する。特徴点情報は、特徴点を略中心とする又は特徴点を含む特定の範囲の画素に対する色又は輝度勾配の分布をベクトルで表現したものである。
 例えば、変換画像212を生成する際に利用したフィルタが図2A~図2Hに示すような二値画像である場合、カメラパラメータ推定部203は、特徴点の探索及び検出を、変換画像212上の全画素に対して行う。また、変換画像212を生成する際に利用したフィルタが図3A~図3Hに示すようなグレースケール画像である場合、特徴点の探索及び検出を、変換画像212上の全画素に対して行い、検出した特徴点の数が所定の数より多い際は画素に付与された優先度が低い画素位置にある特徴点を削除し特徴点の数を所定の数以下にする。或いは特徴点の探索及び検出を、変換画像212上の画素の優先度が高い画素位置から優先的に行い、所定の数の特徴点が検出された時点又は画素値が0以外の画素を全て探索した時点で探索を終了する。
 このように、フィルタを用いて生成した変換画像212を利用して特徴点を探索することにより、探索する画素を制限できるため、特徴点の検出に必要な処理量及び記憶容量を削減することが可能である。また、特徴点の探索領域が制限されることにより特徴点の数が少なくなる。これにより、特徴点情報算出に必要な処理量及び記憶容量も削減することが可能である。カメラパラメータ推定部203は、特徴点情報を算出する際に、特徴点を略中心とする又は特徴点を含む特定の範囲内の全画素を利用してもよいし、特徴点を略中心とする又は特徴点を含む特定の範囲内でかつ変換画像212の優先度が一定値以上の画素のみを利用してもよい。
 カメラパラメータ推定部203は、多視点画像群を構成する全ての変換画像212の特徴点情報を記録した後、2つの変換画像212にそれぞれ含まれる特徴点であって、特徴点情報が類似する特徴点を特徴点対として導出する。さらに、カメラパラメータ推定部203は、特徴点対の変換画像212上の各二次元座標を算出し、算出された座標含むマッチング情報を記録する。なお、類似する特徴点をマッチング点と呼ぶ。特徴点情報が類似するか否かの判定には、例えば、特徴点情報の二乗誤差又は絶対誤差が用いられる。
 マッチング情報が得られると、カメラパラメータ推定部203は、エピポーラ制約などの幾何学的制約又はバンドル調整などの非線形最適化手法に基づき、多視点画像群を構成する全ての入力画像211が撮影された際の各カメラ101のカメラパラメータ213を推定し、推定した複数のカメラパラメータ213を三次元モデル生成部204に出力する。ここで、カメラパラメータ213とはカメラの三次元空間における中心座標、向き、ピクセル単位の焦点距離、レンズ歪み係数などを含む。なお、カメラパラメータ推定部203は、カメラの三次元座標、向き、ピクセル単位の焦点距離、レンズ歪み係数などの全パラメータを推定してもよいし、事前に校正した一部のパラメータを利用し、残りのパラメータのみを推定してもよい。また、カメラパラメータ推定部203は、マッチング情報と推定したカメラパラメータ213とを利用し、三角測量の原理に基づき各マッチング点の三次元空間における座標を計算し、マッチング情報とマッチング点の三次元座標とを含む情報である三次元点群情報を三次元モデル生成部204に出力してもよい。
 三次元モデル生成部204は、入力部201より得られる多視点画像群(複数の入力画像211)と、カメラパラメータ推定部203より得られるカメラパラメータ213とを用いて、被写体100の三次元モデル214を生成し、出力部205に三次元モデル214を出力する。ここで、三次元モデル214とは、(1)三次元位置情報、色情報、及び勾配情報などをもつ点からなるポイントクラウドモデル、(2)上記ポイントクラウドモデルが持つ情報に加えてポイントクラウド内の各点間の接続関係情報をもつメッシュモデル、又は、(3)三次元空間を一定間隔で分割し、分割された小空間(ボクセル)内の色情報、勾配情報、点の有無情報などをもつボクセルモデルなどである。
 三次元モデル生成にはマルチステレオマッチング法又は視体積交差法など一般的な三次元モデル生成法を利用可能である。マルチステレオマッチング法を用いる場合、三次元モデル生成部204は、各フレームの各画素に対してマッチング点を検出し、各マッチング点とカメラの中心座標とを通る直線が交差する点にマッチング点を投影することにより、被写体の三次元モデルを生成する。なお、三次元モデル生成部204は、マッチング点を検出する際、カメラパラメータ推定部203から得られる三次元点群情報にあるマッチング情報を利用し、マッチング点の検出にかかる処理量を削減してもよい。
 また、三次元モデル生成部204は、図4のようにカメラパラメータ推定部203から得られる三次元点群情報にあるマッチング点の三次元座標から、十分な密度で三次元点が計算されているマッチング点の密度が高い領域と、十分な密度で三次元点が計算されていないマッチング点の密度が低い領域とを検出し、マッチング点の密度が高い領域に対応する画素ではマッチング点の検出処理又はマッチング点の投影処理をスキップしてもよい。これにより、三次元モデル生成部204は、マッチング点の検出処理又はマッチング点の投影処理に要する処理量を削減することが可能である。
 視体積交差法を用いる場合、三次元モデル生成部204は、各入力画像211内の被写体のシルエットを三次元空間に投影し、各投影による視体積の共通部分を三次元モデルとする。または、三次元モデル生成部204は、三次元空間のボクセルを各入力画像211に逆投影し、逆投影した点が各入力画像211内の被写体のシルエットの内部にあるボクセルだけを残し、三次元モデルとする。視体積交差法で必要とされる被写体のシルエットは、事前に撮影した背景画像と入力画像との差分をとることにより抽出できる。また、三次元モデル生成部204は、変換画像生成部202でフィルタを選択した際に利用する物体の領域情報又はカメラパラメータ推定部203から得られる三次元点群情報又は物体認識情報を利用して、被写体のシルエットを抽出してもよい。
 このように、三次元モデル生成部204は、カメラ101で撮影されるオリジナル解像度の入力画像211の全画素を利用して三次元モデル214を生成することで、解像度の高い三次元モデル214を生成できる。
 出力部205は、三次元モデル214を受け取ると、三次元モデル214を三次元モデル生成装置200が備えるディスプレイ或いは記憶媒体、又は、有線或いは無線を介して接続されるディスプレイ或いは記憶媒体に表示又は記憶することにより、三次元モデル214をエンドユーザ300に配信する。なお、出力部205は、三次元モデル214をネットワーク経由でエンドユーザ300の端末上の画面又は記憶媒体に配信してもよい。また、三次元モデル214を配信する際には、出力部205は、三次元モデル214を可逆又は非可逆圧縮することで、伝送容量及び記憶容量を抑制してもよい。また三次元モデル214をディスプレイ又はエンドユーザ300の端末上の画面に表示する際には、出力部205は、三次元モデルをレンダリングし、三次元モデルを任意の視点から見た二次元画像に変換し、当該二次元画像を配信し表示してもよい。また、出力部205は、三次元モデル214をホログラム又は三次元ディスプレイなどに表示してもよい。また出力部205は、三次元モデル214の点の密度情報などから三次元モデル214において解像度が足りない領域を検出し、その領域を撮影することができる視点を欠損視点としてエンドユーザ300に提示してもよい。
 エンドユーザ300は、ディスプレイ又は端末上の画面でレンダリングされた二次元画像を確認する際、マウス操作又はタッチ操作により画像のズームイン、ズームアウト、又は視点の方向変換等の操作をすることが可能である。これにより、エンドユーザ300は、三次元モデル214を360度あらゆる視点から確認できる。エンドユーザ300は出力部205による欠損視点の提示又は三次元モデルの目視による確認により、不足している視点からの映像を三次元モデル生成装置200に入力し、再度三次元モデルが作成されてもよい。
 次に、図5を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。以降では動く人物を3つのカメラC1、C2、C3で撮影し得られた映像V1、V2、V3が入力部201に入力される場合について説明する。
 まず、入力部201が映像V1、V2、V3に対して前処理を行い、映像V1、V2、V3をフレーム(入力画像211)にそれぞれ分割する(ステップS11)。ここでは例として映像V1、V2、V3はそれぞれ5枚のフレームV1_1~V1_5、V2_1~V2_5、V3_1~V3_5に分割される。
 その後、入力部201は、図6に示すようにそれぞれの映像から同時刻に撮影されたフレームを抽出し、抽出した同時刻に撮影された複数のフレームを一つの多視点画像群と決定し、それぞれの多視点画像群をバッファに格納する(ステップS12)。ここでは、入力部201は、各フレームに付与されている撮影時間が同時刻であるフレームを抽出する。例えば、入力部201は、多視点画像群としてV1_1、V2_1を抽出する。また、映像間で同時刻であるフレームがない場合、入力部201は、図6のV1_1とV2_1とV3_2とのように、撮影時刻が最も近いフレームを多視点画像群に含めてもよい。
 変換画像生成部202は、バッファに一以上の多視点画像群が格納されると、バッファから撮影時刻が最も早い多視点画像群を取り出す(ステップS13)。次に、変換画像生成部202は、多視点画像群を構成する各フレーム(V1_1、V2_1、V3_2)に対してフィルタを決定する(ステップS14)。フィルタはフレームの画像情報、撮影状況又は事前のユーザ指定により決定される。例えば、フレームV1_1において特徴点が多く抽出されそうな人物がフレーム中央に検出され、かつ、フレームV1_1にレンズ歪み情報が付与されている場合、変換画像生成部202は、フレーム中央で特徴点を検出する図2Aに示すフィルタを選択する。また、フレームV2_1では、フレームV1_1と同様に人物がフレーム中央に検出されるが、レンズ歪み情報が付与されておらず推定する必要がある場合、変換画像生成部202は広範囲で特徴点を検出する図2Fに示すフィルタなどを選択する。レンズ歪みの影響はフレームの外側の画素に大きくでるため、レンズ歪みの推定にはフレーム外側の特徴点が検出できるフィルタが有効である。またフレームV3_2は人物がフレーム全体に検出されており、変換画像生成部202はフレーム上の広範囲から特徴点を検出できる図2Hのフィルタを選択する。
 次に、変換画像生成部202は、決定したフィルタを用いて各フレームの変換画像212を生成する(ステップS15)。
 続いて、カメラパラメータ推定部203は、多視点画像群を構成する各フレーム(V1_1、V2_1、V3_2)の変換画像212に対して特徴点を検出し、特徴点情報を抽出する(ステップS16)。
 このように、それぞれのフレームでの特徴点の探索及び検出はそれぞれステップS14で決定したフィルタの白領域のみで実施される。これによりカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。
 その後、カメラパラメータ推定部203は、2フレーム間の特徴点情報を比較することでマッチング点を検出し、マッチング点を示すマッチング情報を生成する(ステップS17)。
 マッチング情報が得られると、カメラパラメータ推定部203は、エピポーラ制約などの幾何学的制約又はバンドル調整などの非線形最適化手法を基に、多視点画像群を構成する各フレームのカメラパラメータ213を推定する(ステップS18)。
 最後に、三次元モデル生成部204は、多視点画像群を構成する各フレーム(入力画像211)と各フレームに対応するカメラパラメータ213とに基づき被写体の三次元モデル214を生成し、当該三次元モデル214を記憶媒体に格納又はディスプレイに表示する(ステップS19)。
 全ての多視点画像群に対する処理が終了していない場合(ステップS20でNo)、次の多視点画像群がバッファから取り出され(ステップS13)、当該多視点画像群に対してステップS14以降の処理が行われる。また、全ての多視点画像群に対する処理が終了した場合(ステップS20でYes)、三次元モデル生成装置200は、処理を終了する。
 なお、2週目以降カメラC1、C2、C3についてカメラパラメータが前回の値から変化がないと判断されたカメラ101で撮影された入力画像211に対してはステップS14~S18の処理を省略してもよい。カメラパラメータが前回の値から変化しているかは、例えば、カメラ101に搭載されている振動センサー、GPSセンサー及び加速度センサーの少なくとも一つを利用してカメラ101の動きを検知することにより判断できる。または、画像情報を利用してカメラ101の動き又はズームの変化を検知することによりカメラパラメータの変化の有無を判断してもよい。または、固定カメラの場合には、カメラパラメータは変化しないと判断してもよい。これにより、カメラ101が動いたとき、又は焦点距離が変化したとき、カメラパラメータを推定し直すため、効率よく三次元モデルを推定できる。
 上記の処理により、撮影時刻毎の三次元モデル214が生成される。これを時刻の早い順にディスプレイに表示することにより動物体の三次元モデルを映像として表示することも可能である。また、エンドユーザ300は、ステップS19又はステップS20でYesの後に表示された三次元モデル214を確認し、エンドユーザ300により三次元モデル214の解像度が足りてないと判断された場合、三次元モデル生成装置200は、不足している視点からの映像データ111を取得し、再度三次元モデル214を作成してもよい。
 このように、本実施の形態における三次元モデル生成システムによれば、各フレーム上の特徴点の探索、検出、及び特徴点情報の抽出の際にフィルタを利用することで、アクセス及び記憶する画素データを削減することができ、カメラパラメータ推定に要する処理量及び記憶容量を削減することができる。一方、三次元モデルを生成する際は各フレームの全画素を利用することが可能であるため、高解像度の三次元モデルを生成することができる。また、撮影時刻が同一である複数のフレームを一つの多視点画像群とし三次元モデルを生成するため、被写体100が静止物体、動物体、又はその両方であっても被写体100の三次元モデルを生成することができる。上記では、一定区間の映像データ111が三次元モデル生成装置200に入力される例を説明したが、カメラ101から1フレーム撮影される度に映像データ111が入力されてもよい。
 (実施の形態2)
 次に、実施の形態2に係る三次元モデル生成システムの構成を説明する。図7は、本実施形態に係る三次元モデル生成システムの構成を示す図である。図7に示すように、本実施の形態では、被写体100Aは静止物体である。また、被写体100Aは1台のカメラ101により撮影される。また、カメラ101は、位置(視点位置)を変更しながら、被写体100Aを撮影する。なお、カメラ101は、実施の形態1と同様に複数台であってもよい。また、三次元モデル生成装置200Aの処理内容が実施の形態1と異なる。なお、以下では、先の実施の形態との相違点を主に説明し、重複する説明は省略する。
 三次元モデル生成装置200Aは、実施の形態1に係る三次元モデル生成装置200に対して、主に入力部201の動作が異なる。具体的には、多視点画像群の抽出方法が異なる。
 入力部201は、1以上の映像データ111を受け取ると、1以上の映像データ111に対して、実施の形態1と同様に前処理を行う。次に、入力部201は、前処理の後、1以上の映像データ111それぞれをフレームである入力画像211に分割し、そこから一定数の入力画像211を抽出し、抽出した複数の入力画像211の組である多視点画像群を変換画像生成部202及び三次元モデル生成部204に出力する。
 ここで、入力部201は、一定数の入力画像211の抽出に、画像情報を利用し異なる視点からの入力画像211を抽出したり、映像それぞれから一定間隔で入力画像211を抽出したり、カメラ101に内蔵されているGPSセンサー、又は加速度センサーなどを利用し一定以上距離が離れた視点から撮られた入力画像211を抽出する。なお、入力部201は、全ての入力画像211を多視点画像群として抽出してもよい。
 図8は、本実施の形態に係る三次元モデル生成システムの処理フローを示す図である。以降では静止物体である建物を1つのカメラC4により多視点から撮影し得られた映像V4が入力部201に入力される場合について説明する。
 まず、入力部201は、映像V4に対して前処理を行い、前処理後の映像V4をフレーム(入力画像211)分割する(ステップS11)。ここでは例として映像V4は10枚のフレームV4_1~V4_10に分割される。その後、入力部201は、図9に示すように分割された入力画像211から一定間隔の撮影時刻に基づき、V4_1、V4_3、V4_5、V4_7及びV4_9を選択し、選択した複数の入力画像211を多視点画像群に決定する(ステップS12A)。なお、入力部201は、各入力画像211が撮影された際のカメラの位置又は姿勢に基づき、入力画像211を選択してもよい。
 なお、以降のステップS14~S19は、実施の形態1と同様である。また、実施の形態1と同様に、エンドユーザ300は、ステップS19の後に表示された三次元モデル214を確認し、エンドユーザ300により三次元モデル214の解像度が足りてないと判断された場合、三次元モデル生成装置200Aは不足している視点からの映像データ111を取得し、再度三次元モデル214を作成してもよい。
 このように、本実施の形態における三次元モデル生成システムによれば、被写体100Aを静止物体に限定することにより、各カメラ101間の同期撮影システム及び同時刻に撮影されたフレームの抽出処理などが必要なくなるため、高解像度の三次元モデルをより少ない処理量、及びより安価に生成することができる。
 (実施の形態3)
 実施の形態1では、フィルタを用いて変換画像212を生成する例を述べた。本実施の形態では、ダウンサンプリングにより変換画像212Bを生成する場合について説明する。
 まず、実施の形態3に係る三次元モデル生成システムの構成を説明する。図10は、本実施の形態に係る三次元モデル生成システムの構成を示す図である。図10に示す三次元モデル生成システムは、実施の形態1に係る三次元モデル生成システムに対して、三次元モデル生成装置200Bが備える変換画像生成部202B及びカメラパラメータ推定部203Bの機能が異なる。
 変換画像生成部202Bは、入力部201から多視点画像群を受け取ると、多視点画像群を構成する各入力画像211を特定の縮小倍率でダウンサンプリングすることで変換画像212Bを生成する。また、変換画像生成部202Bは、生成された変換画像212Bと、ダウンサンプリングに利用した縮小倍率とをカメラパラメータ推定部203に出力する。ここで、ダウンサンプリングとは、元の入力画像211より解像度の低い変換画像212Bを生成する処理であり、例えば、画素を間引く処理、又は、周辺画素の平均値を算出するフィルタ等を用いて画素数を減らす処理等である。
 なお、ダウンサンプリングする際の縮小倍率は事前に設定されていてもよいし、変換画像212Bが事前に設定した解像度になるように設定されてもよい。または、変換画像生成部202Bは、画像情報に基づき縮小倍率を設定してもよい。例えば、物体が多く移りこんでいる入力画像211又は空間周波数が高い入力画像211などは特徴点を多く抽出可能であるため、変換画像生成部202Bは、このような入力画像211に対して縮小倍率を高く設定してもよい。これにより、特徴点のマッチングを行いやすい入力画像211に対しては縮小倍率を上げることで、カメラパラメータ推定の精度の低下を抑制しつつ、処理量をより低減できる。また、変換画像生成部202Bは、縮小倍率を入力画像211毎に設定してもよいし、全ての入力画像211に対して同じ縮小倍率を用いてもよい。
 カメラパラメータ推定部203Bは、多視点画像群の変換画像212Bと縮小倍率とを受け取ると、各変換画像212Bから、実施の形態1と同様に特徴点情報を抽出し、各変換画像212B間でのマッチング情報を基に各変換画像212Bに対するカメラパラメータを推定する。なお、カメラパラメータの一つである、ピクセル単位の焦点距離は画像の解像度によって変化するため、変換画像212Bを利用して推定したピクセル単位の焦点距離を、縮小前の入力画像211に対するピクセル単位の焦点距離に修正する必要がある。よって、カメラパラメータ推定部203Bは、変換画像212Bを用いて推定したカメラパラメータを、ダウンサンプリングにおける縮小倍率に基づき修正する。具体的には、カメラパラメータ推定部203Bは、ピクセル単位の焦点距離は下記の(式1)により修正する。
  f’=fk ・・・(式1)
 ここで、f’は修正されたピクセル単位の焦点距離であり、fは変換画像212Bを利用して推定されたピクセル単位の焦点距離であり、kは縮小倍率である。カメラパラメータ推定部203Bは、ピクセル単位の焦点距離が修正された後のカメラパラメータ213Bを三次元モデル生成部204に出力する。三次元モデル生成部204は、修正されたカメラパラメータ213Bと複数の入力画像211とを用いて三次元モデル214を生成する。
 次に、図11を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。なお、図11に示す処理は、図5に示す処理に対して、ステップS14及びS15がS15Aに置き換えられている点と、ステップS21が追加されている点とが異なる。また、以降では実施の形態1と同様に、動く人物を3つのカメラC5、C6、C7で撮影し得られた映像V5、V6、V7が入力部201に入力される場合について説明する。
 ステップS11~S13は実施の形態1と同様であり、映像V5、V6、V7から得られたフレームV5_1、V6_1、V7_1を含む多視点画像群がステップS13で取り出される。変換画像生成部202Bは、多視点画像群を構成する各フレーム(V5_1、V6_1、V7_1)それぞれに対してそれぞれの縮小倍率k5、k6、k7を設定し、設定した縮小倍率を用いて各フレームをダウンサンプリングする(ステップS15A)。各フレーム(V5_1、V6_1、V7_1)をダウンサンプリングしたフレームである変換画像212BをそれぞれV5_1’、V6_1’、V7_1’とする。縮小倍率はフレームの画像情報、撮影状況又は事前のユーザ指定により決定される。ここではダウンサンプリング後の解像度が全フレームで同じとなるように縮小倍率k5、k6、k7が設定される。
 続いて、カメラパラメータ推定部203Bは、多視点画像群を構成する各フレーム(V5_1’、V6_1’、V7_1’)に対して特徴点を検出し、特徴点情報を抽出する(ステップS16)。このように、特徴点の探索及び検出が、ステップS15Aでダウンサンプリングされたフレームに対して行われるためカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。ステップS17、S18は実施の形態1と同様である。
 次に、推定した各フレーム(V5_1’、V6_1’、V7_1’)に対するカメラパラメータにピクセル単位の焦点距離が含まれる場合、カメラパラメータ推定部203Bは、上記(式1)によりピクセル単位の焦点距離を修正する(ステップS21)。ステップS19は実施の形態1と同様である。
 図12は、上記処理を模式的に示す図である。図12に示すように、本実施の形態における三次元モデル生成システムによれば、入力画像211をダウンサンプリングすることにより得られた変換画像212Bを用いて特徴点の探索、検出、及び特徴点情報の抽出が行われる。これにより、これらの処理においてアクセス及び記憶する画素データを削減することができ、カメラパラメータ推定に要する処理量及び記憶容量を削減することができる。
 一方で、ダウンサンプリング前の入力画像211を用いて三次元モデルの生成処理が行われるので、高解像度の三次元モデルを生成することができる。
 (実施の形態4)
 実施の形態1では、フィルタを用いて変換画像212を生成する例を述べた。本実施の形態では、フィルタを用いた変換画像212を生成せず、多視点画像群を構成する各入力画像211上の特徴点を検出する際に、入力画像211に対して探索する画素をフィルタを用いて制限する場合について説明する。
 まず、実施の形態4に係る三次元モデル生成システムの構成を説明する。図13は、本実施の形態に係る三次元モデル生成システムの構成を示す図である。図13に示す三次元モデル生成システムは、実施の形態1に係る三次元モデル生成システムに対して、変換画像生成部202の代わりにフィルタ生成部202Cを備え、カメラパラメータ推定部203Cの機能が異なる。
 フィルタ生成部202Cは、入力部201から多視点画像群を受け取ると、探索する領域を制限するフィルタを入力画像211毎に決定する。実施の形態1と同様に、フィルタは事前にユーザが指定してもよいし、画像情報又は撮影状況により自動的に決定されてもよい。フィルタ生成部202Cは、入力画像211と、入力画像211毎に決定されたフィルタとをカメラパラメータ推定部203Cに出力する。つまり、フィルタ生成部202Cは、1以上の映像データに含まれる、互いに視点の異なる複数の入力画像211の各々から、特徴点を検出する際に探索する画素を決定する。また、決定される、探索する画素の総数は入力画像211の画素数より少ない。
 カメラパラメータ推定部203Cは、入力画像211と、入力画像211毎に決定されたフィルタとを受け取ると、対応するフィルタに基づき各入力画像211から特徴点情報を抽出する。具体的には、決定されたフィルタが図2A~図2Hに示すような二値画像である場合、カメラパラメータ推定部203Cは、特徴点の探索及び検出を、フィルタの画素値が1である画素と同じ画素位置にある入力画像211の画素のみに対して行う。また、フィルタが図3A~図3Hに示すようなグレースケール画像である場合、カメラパラメータ推定部203Cは、特徴点の探索及び検出を、フィルタの画素値が0より大きい値を持つ画素と同じ画素位置にある入力画像211の画素のみに対して行い、検出した特徴点の数が所定の数より多い際はフィルタの画素値が小さい画素位置にある特徴点を削除し特徴点の数を所定の数以下にする。或いは、カメラパラメータ推定部203Cは、特徴点の探索及び検出を、フィルタの画素値が大きい画素と同じ画素位置にある入力画像211の画素から優先的に行い、所定の数の特徴点が検出された時点又はフィルタの画素値が0以外の画素と同じ画素位置にある入力画像211の画素を全て探索した時点で探索を終了する。
 特徴点情報を抽出後、カメラパラメータ推定部203Cは、各入力画像211間でのマッチング情報を基に各入力画像211に対するカメラパラメータ213Cを推定する。
 このように、カメラパラメータ推定部203Cは、複数の入力画像211の特徴点を、フィルタ生成部202Cで決定された、探索する画素から検出し、複数の入力画像211間で特徴点が類似する特徴点対に基づき、複数の入力画像211がそれぞれ撮影された際のカメラパラメータ213Cを推定する。例えば、フィルタ生成部202Cは、予め定められた複数の画素位置の画素を探索する画素として決定する。例えば、フィルタ生成部202Cは、さらに、複数の画素位置の各々に優先度を設定する。カメラパラメータ推定部203Cは、優先度が高い画素位置の画素を優先的に用いて、カメラパラメータ213Cを推定する。例えば、上記予め定められた複数の画素位置は、入力画像211の中央付近である。または、上記予め定められた複数の画素位置は、入力画像211の四隅の領域を含む。また、フィルタ生成部202Cは、映像の内容又は撮影状況に基づき、探索する画素を決定する。
 次に、図14を用いて、本実施の形態における三次元モデル生成システムの処理フローの例を説明する。なお、図14に示す処理は、図5に示す処理に対して、ステップS15が削除されている点と、ステップS16がS16Aに置き換えられている点とが異なる。また、以降では実施の形態1と同様に、動く人物を3つのカメラC8、C9、C10で撮影し得られた映像V8、V9、V10が入力部201に入力される場合について説明する。
 ステップS11~S14は実施の形態1と同様であり、映像V8、V9、V10から得られたフレームV8_1、V9_1、V10_1を含む多視点画像群が取り出され(ステップS13)、フィルタ生成部202Cは、多視点画像群を構成する各フレーム(V8_1、V9_1、V10_1)に対してフィルタを決定する(ステップS14)。続いて、カメラパラメータ推定部203Cは、多視点画像群を構成する各フレーム(V8_1、V9_1、V10_1)に対して対応するフィルタに基づき特徴点を検出し、特徴点情報を抽出する(ステップS16A)。このように、特徴点の探索及び検出を行う画素が、ステップS14で決定されたフィルタに基づき制限されるためカメラパラメータに有用な特徴点の検出を低処理、及び低記憶容量で実施できる。ステップS17~S20は実施の形態1と同様である。
 本実施の形態における三次元モデル生成システムによれば、入力画像211毎に決定されたフィルタに基づき特徴点の探索及び検出を行う入力画像211上の画素が限定される。これにより、これらの処理においてアクセス、及び記憶する特徴点情報を削減することができる。その結果、カメラパラメータ推定に要する処理量、及び記憶容量を削減することができる。
 以上、実施の形態に係る三次元モデル生成システムについて説明したが、本開示は、この実施の形態に限定されるものではない。
 また、上記実施の形態に係る三次元モデル生成装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
 また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 つまり、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
 また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 以上、一つまたは複数の態様に係る・三次元モデル生成装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本開示は、三次元モデル生成装置又は三次元モデル生成システムに適用でき、例えば、フィギュア作成、地形或いは建物の構造認識、人物の行動認識、又は自由視点映像の生成などに適用できる。
 100、100A 被写体
 101 カメラ
 111 映像データ
 200、200A、200B 三次元モデル生成装置
 201 入力部
 202、202B 変換画像生成部
 202C フィルタ生成部
 203、203B、203C カメラパラメータ推定部
 204 三次元モデル生成部
 205 出力部
 211 入力画像
 212、212B 変換画像
 213、213B、213C カメラパラメータ
 214 三次元モデル
 300 エンドユーザ

Claims (17)

  1.  1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成部と、
     複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、
     前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える
     三次元モデル生成装置。
  2.  前記変換画像生成部は、前記入力画像内の予め定められた複数の画素位置の画素を抽出することで前記変換画像を生成する
     請求項1記載の三次元モデル生成装置。
  3.  前記変換画像生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、
     前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定する
     請求項2記載の三次元モデル生成装置。
  4.  前記変換画像生成部は、前記映像の内容又は撮影状況に基づき、異なる画素位置の画素を抽出する
     請求項2又は3記載の三次元モデル生成装置。
  5.  前記複数の画素位置は、前記入力画像の中央付近である
     請求項2又は3記載の三次元モデル生成装置。
  6.  前記複数の画素位置は、前記入力画像の四隅の領域を含む
     請求項2又は3記載の三次元モデル生成装置。
  7.  前記変換画像生成部は、前記入力画像をダウンサンプリングすることにより前記変換画像を生成する
     請求項1記載の三次元モデル生成装置。
  8.  前記カメラパラメータ推定部は、前記変換画像を用いて推定したカメラパラメータを、前記ダウンサンプリングにおける縮小倍率に基づき修正し、
     前記三次元モデル生成部は、修正された前記カメラパラメータと前記複数の入力画像とを用いて前記三次元モデルを生成する
     請求項7記載の三次元モデル生成装置。
  9.  1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、当該入力画像より画素数の少ない変換画像を生成する変換画像生成ステップと、
     複数の前記変換画像の特徴点を検出し、前記複数の変換画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、
     前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップとを含む
     三次元モデル生成方法。
  10.  1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成部と、
     前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定部と、
     前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成部と、を備える
     三次元モデル生成装置。
  11.  前記探索する画素の総数は前記入力画像の画素数より少ない
     請求項10記載の三次元モデル生成装置。
  12.  前記フィルタ生成部は、予め定められた複数の画素位置の画素を前記探索する画素として決定する
     請求項11記載の三次元モデル生成装置。
  13.  前記フィルタ生成部は、さらに、前記複数の画素位置の各々に優先度を設定し、
     前記カメラパラメータ推定部は、前記優先度が高い画素位置の画素を優先的に用いて、前記カメラパラメータを推定する
     請求項12記載の三次元モデル生成装置。
  14.  前記複数の画素位置は、前記入力画像の中央付近である
     請求項12又は13記載の三次元モデル生成装置。
  15.  前記複数の画素位置は、前記入力画像の四隅の領域を含む
     請求項12又は13記載の三次元モデル生成装置。
  16.  前記フィルタ生成部は、前記映像の内容又は撮影状況に基づき、前記探索する画素を決定する
     請求項11記載の三次元モデル生成装置。
  17.  1以上の映像データに含まれる、互いに視点の異なる複数の入力画像の各々から、特徴点を検出する際に探索する画素を決定するフィルタ生成ステップと、
     前記複数の入力画像の特徴点を前記探索する画素から検出し、前記複数の入力画像間で前記特徴点が類似する特徴点対に基づき、前記複数の入力画像がそれぞれ撮影された際のカメラパラメータを推定するカメラパラメータ推定ステップと、
     前記複数の入力画像と前記カメラパラメータとを用いて三次元モデルを生成する三次元モデル生成ステップと、を含む
     三次元モデル生成方法。
PCT/JP2017/031098 2016-09-12 2017-08-30 三次元モデル生成装置及び三次元モデル生成方法 WO2018047687A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780055313.9A CN109690620B (zh) 2016-09-12 2017-08-30 三维模型生成装置以及三维模型生成方法
EP17848627.0A EP3511903A4 (en) 2016-09-12 2017-08-30 DEVICE FOR PRODUCING A THREE-DIMENSIONAL MODEL AND METHOD FOR GENERATING A THREE-DIMENSIONAL MODEL
JP2018538371A JP7002056B2 (ja) 2016-09-12 2017-08-30 三次元モデル生成装置及び三次元モデル生成方法
US16/295,582 US10893251B2 (en) 2016-09-12 2019-03-07 Three-dimensional model generating device and three-dimensional model generating method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-177941 2016-09-12
JP2016177941 2016-09-12

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/295,582 Continuation US10893251B2 (en) 2016-09-12 2019-03-07 Three-dimensional model generating device and three-dimensional model generating method

Publications (1)

Publication Number Publication Date
WO2018047687A1 true WO2018047687A1 (ja) 2018-03-15

Family

ID=61561553

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/031098 WO2018047687A1 (ja) 2016-09-12 2017-08-30 三次元モデル生成装置及び三次元モデル生成方法

Country Status (5)

Country Link
US (1) US10893251B2 (ja)
EP (1) EP3511903A4 (ja)
JP (1) JP7002056B2 (ja)
CN (1) CN109690620B (ja)
WO (1) WO2018047687A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190060A (ja) * 2019-05-24 2020-11-26 国際航業株式会社 3次元頭部モデル作成システム、及び3次元頭部モデル作成方法
CN112488024A (zh) * 2020-12-08 2021-03-12 平安国际智慧城市科技股份有限公司 高空抛物溯源方法、装置、计算机设备及存储介质
CN113362467A (zh) * 2021-06-08 2021-09-07 武汉理工大学 一种基于点云预处理和ShuffleNet的移动端三维位姿估计方法
JP2021157773A (ja) * 2020-03-27 2021-10-07 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 3次元再構築方法、3次元再構築装置及び電子機器
WO2022190217A1 (ja) * 2021-03-09 2022-09-15 株式会社Zozo 情報処理装置、情報処理方法及び情報処理プログラム
US11733649B2 (en) 2020-02-25 2023-08-22 Kwangwoon University Industry-Academic Collaboration Foundation Method of generating volume hologram using point cloud and mesh
JP7462434B2 (ja) 2020-03-06 2024-04-05 国際航業株式会社 3次元モデル作成装置、及び3次元モデル作成方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3503030A1 (en) * 2017-12-22 2019-06-26 The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth, Method and apparatus for generating a three-dimensional model
GB2572755B (en) * 2018-04-05 2020-06-10 Imagination Tech Ltd Matching local image feature descriptors
US11315278B1 (en) * 2018-09-27 2022-04-26 Apple Inc. Object detection and orientation estimation
US11288842B2 (en) 2019-02-15 2022-03-29 Interaptix Inc. Method and system for re-projecting and combining sensor data for visualization
JP7407428B2 (ja) * 2019-07-09 2024-01-04 パナソニックIpマネジメント株式会社 三次元モデル生成方法及び三次元モデル生成装置
CN110796649B (zh) * 2019-10-29 2022-08-30 北京市商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质
JPWO2021100681A1 (ja) * 2019-11-20 2021-05-27
US11580692B2 (en) 2020-02-26 2023-02-14 Apple Inc. Single-pass object scanning
CN112150317A (zh) * 2020-08-21 2020-12-29 广州市标准化研究院 基于o2o信息云平台的旅游游客信息管理***及方法
US20230050535A1 (en) * 2021-01-11 2023-02-16 Tetavi Ltd. Volumetric video from an image source
US20220237316A1 (en) * 2021-01-28 2022-07-28 Capital One Services, Llc Methods and systems for image selection and push notification
US11908073B2 (en) * 2022-04-27 2024-02-20 Valence Digital Inc. Methods and systems for dynamically rendering three-dimensional models in real-time to generate a non-fungible token and a physical model thereof without provisioning or managing servers

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250273A (ja) * 1988-08-12 1990-02-20 Oki Electric Ind Co Ltd ステレオ画像対応付け装置
JP2006332900A (ja) * 2005-05-24 2006-12-07 Nikon Corp 電子カメラおよび画像処理プログラム
JP2011254128A (ja) * 2010-05-31 2011-12-15 Panasonic Corp 平面図生成装置及び平面図生成方法
JP2014032623A (ja) * 2012-08-06 2014-02-20 Kddi Corp 画像処理装置
JP2015056142A (ja) * 2013-09-13 2015-03-23 ソニー株式会社 情報処理装置及び情報処理方法
WO2016103621A1 (ja) * 2014-12-24 2016-06-30 パナソニックIpマネジメント株式会社 3次元情報復元装置、3次元情報復元システム、及び3次元情報復元方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3650578B2 (ja) * 2000-09-28 2005-05-18 株式会社立山アールアンドディ 画像の歪みを補正するためのニューラル・ネットワークを用いたパノラマ画像ナビゲーションシステム
CN1655620B (zh) * 2004-02-09 2010-09-22 三洋电机株式会社 图像显示装置
US7616807B2 (en) 2005-02-24 2009-11-10 Siemens Corporate Research, Inc. System and method for using texture landmarks for improved markerless tracking in augmented reality applications
EP2238742B1 (en) * 2007-12-25 2014-05-14 Medic Vision - Brain Technologies Ltd. Noise reduction of images
EP2380132B1 (en) * 2008-12-25 2018-02-07 Medic Vision - Imaging Solutions Ltd. Denoising medical images
JP5181350B2 (ja) * 2009-02-02 2013-04-10 セイコーインスツル株式会社 画像処理装置、及び画像処理プログラム
JP5491235B2 (ja) * 2010-03-02 2014-05-14 東芝アルパイン・オートモティブテクノロジー株式会社 カメラキャリブレーション装置
CN103069432A (zh) * 2010-06-30 2013-04-24 梅迪奇视觉成像解决方案有限公司 医学图像的非线性分辨率降低方法
CN103188988A (zh) * 2010-08-27 2013-07-03 索尼公司 图像处理装置及方法
JPWO2012060271A1 (ja) * 2010-11-04 2014-05-12 コニカミノルタ株式会社 画像処理方法、画像処理装置及び撮像装置
WO2012073722A1 (ja) * 2010-12-01 2012-06-07 コニカミノルタホールディングス株式会社 画像合成装置
JP5836109B2 (ja) * 2011-12-26 2015-12-24 オリンパス株式会社 画像処理装置、それを備えた撮像装置、画像処理方法、及び画像処理プログラム
KR102091136B1 (ko) * 2013-07-02 2020-03-19 삼성전자주식회사 영상 화질 개선 방법, 장치 및 기록 매체
CN103473797B (zh) * 2013-09-16 2016-04-20 电子科技大学 基于压缩感知采样数据修正的空域可缩小图像重构方法
CN103473744B (zh) * 2013-09-16 2016-03-30 电子科技大学 基于变权重式压缩感知采样的空域可缩小图像重构方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250273A (ja) * 1988-08-12 1990-02-20 Oki Electric Ind Co Ltd ステレオ画像対応付け装置
JP2006332900A (ja) * 2005-05-24 2006-12-07 Nikon Corp 電子カメラおよび画像処理プログラム
JP2011254128A (ja) * 2010-05-31 2011-12-15 Panasonic Corp 平面図生成装置及び平面図生成方法
JP2014032623A (ja) * 2012-08-06 2014-02-20 Kddi Corp 画像処理装置
JP2015056142A (ja) * 2013-09-13 2015-03-23 ソニー株式会社 情報処理装置及び情報処理方法
WO2016103621A1 (ja) * 2014-12-24 2016-06-30 パナソニックIpマネジメント株式会社 3次元情報復元装置、3次元情報復元システム、及び3次元情報復元方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HOSHIKAWA, YUMA ET AL.: "Measurement of pedestrian flow using subtraction stereo", THE 17TH SYMPOSIUM ON SENSING VIA IMAGE INFORMATION, vol. 2011, 8 June 2011 (2011-06-08), pages IS3 11-1 - IS3 11-5, XP009515726 *
See also references of EP3511903A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190060A (ja) * 2019-05-24 2020-11-26 国際航業株式会社 3次元頭部モデル作成システム、及び3次元頭部モデル作成方法
JP7333196B2 (ja) 2019-05-24 2023-08-24 国際航業株式会社 3次元頭部モデル作成システム、及び3次元頭部モデル作成方法
US11733649B2 (en) 2020-02-25 2023-08-22 Kwangwoon University Industry-Academic Collaboration Foundation Method of generating volume hologram using point cloud and mesh
JP7462434B2 (ja) 2020-03-06 2024-04-05 国際航業株式会社 3次元モデル作成装置、及び3次元モデル作成方法
JP2021157773A (ja) * 2020-03-27 2021-10-07 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 3次元再構築方法、3次元再構築装置及び電子機器
JP7366878B2 (ja) 2020-03-27 2023-10-23 アポロ インテリジェント ドライビング テクノロジー(ペキン)カンパニー リミテッド 3次元再構築方法、3次元再構築装置及び電子機器
CN112488024A (zh) * 2020-12-08 2021-03-12 平安国际智慧城市科技股份有限公司 高空抛物溯源方法、装置、计算机设备及存储介质
WO2022190217A1 (ja) * 2021-03-09 2022-09-15 株式会社Zozo 情報処理装置、情報処理方法及び情報処理プログラム
JP7169489B1 (ja) * 2021-03-09 2022-11-10 株式会社Zozo 情報処理装置、情報処理方法及び情報処理プログラム
CN113362467A (zh) * 2021-06-08 2021-09-07 武汉理工大学 一种基于点云预处理和ShuffleNet的移动端三维位姿估计方法
CN113362467B (zh) * 2021-06-08 2023-04-07 武汉理工大学 基于点云预处理和ShuffleNet的移动端三维位姿估计方法

Also Published As

Publication number Publication date
JPWO2018047687A1 (ja) 2019-06-24
EP3511903A1 (en) 2019-07-17
JP7002056B2 (ja) 2022-02-10
EP3511903A4 (en) 2019-10-02
US10893251B2 (en) 2021-01-12
CN109690620A (zh) 2019-04-26
US20190208177A1 (en) 2019-07-04
CN109690620B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
JP7002056B2 (ja) 三次元モデル生成装置及び三次元モデル生成方法
CN108898567B (zh) 图像降噪方法、装置及***
US10540806B2 (en) Systems and methods for depth-assisted perspective distortion correction
WO2021088473A1 (en) Image super-resolution reconstruction method, image super-resolution reconstruction apparatus, and computer-readable storage medium
KR101921672B1 (ko) 이미지 처리 방법 및 장치
US10958854B2 (en) Computer-implemented method for generating an output video from multiple video sources
US10789765B2 (en) Three-dimensional reconstruction method
KR101121034B1 (ko) 복수의 이미지들로부터 카메라 파라미터를 얻기 위한 시스템과 방법 및 이들의 컴퓨터 프로그램 제품
US8548227B2 (en) Image processing apparatus and computer program
JP7271099B2 (ja) ファイルの生成装置およびファイルに基づく映像の生成装置
KR20140108828A (ko) 카메라 트래킹 장치 및 방법
JP5886242B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2019065536A1 (ja) 再構成方法および再構成装置
US20140340486A1 (en) Image processing system, image processing method, and image processing program
WO2014002521A1 (ja) 画像処理装置及び画像処理方法
US20230394833A1 (en) Method, system and computer readable media for object detection coverage estimation
KR101868740B1 (ko) 파노라마 이미지 생성 방법 및 장치
US20130208984A1 (en) Content scene determination device
JP2014035597A (ja) 画像処理装置、コンピュータプログラム、記録媒体及び画像処理方法
US11790483B2 (en) Method, apparatus, and device for identifying human body and computer readable storage medium
WO2023042604A1 (ja) 寸法計測装置、寸法計測方法及びプログラム
CN111835968B (zh) 图像清晰度还原方法及装置、图像拍摄方法及装置
JP2016103807A (ja) 画像処理装置、画像処理方法、およびプログラム
CN110710202A (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17848627

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018538371

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017848627

Country of ref document: EP