WO2016129430A1 - 奥行推定装置、奥行推定方法及び奥行推定プログラム - Google Patents

奥行推定装置、奥行推定方法及び奥行推定プログラム Download PDF

Info

Publication number
WO2016129430A1
WO2016129430A1 PCT/JP2016/052857 JP2016052857W WO2016129430A1 WO 2016129430 A1 WO2016129430 A1 WO 2016129430A1 JP 2016052857 W JP2016052857 W JP 2016052857W WO 2016129430 A1 WO2016129430 A1 WO 2016129430A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
depth
pixel
estimated
evaluation value
Prior art date
Application number
PCT/JP2016/052857
Other languages
English (en)
French (fr)
Inventor
妹尾 孝憲
光喜 涌波
保之 市橋
久幸 佐々木
隆太朗 大井
健詞 山本
Original Assignee
国立研究開発法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人情報通信研究機構 filed Critical 国立研究開発法人情報通信研究機構
Publication of WO2016129430A1 publication Critical patent/WO2016129430A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • H04N23/843Demosaicing, e.g. interpolating colour pixel values
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • G01C3/02Details
    • G01C3/06Use of electric means to obtain final indication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof

Definitions

  • the present invention relates to a depth estimation device, a depth estimation method, and a depth estimation program for estimating a depth value of a subject for a multi-view video from camera images obtained by photographing the subject with a plurality of cameras.
  • the depth value of the subject is obtained by estimating the parallax amount of the camera video obtained by photographing the subject with a plurality of cameras (Patent Document 1). reference). By using this depth value, it is possible to reduce the number of viewpoint videos to be transmitted or to synthesize arbitrary viewpoint videos.
  • the invention described in Patent Document 1 obtains a plurality of corresponding pixel difference values from camera images (F LL to F RR ) different in the parallax direction taken by a plurality of cameras as shown in FIG. is there.
  • the invention described in Patent Document 1 selects an optimum difference value from these, smoothes the selected difference value, and determines a final depth value from the result.
  • Patent Document 1 since the invention described in Patent Document 1 applies the Graph-Cuts algorithm to the entire video, the processing speed is slow and it is difficult to apply to real-time processing (real-time processing).
  • an object of the present invention is to provide a depth estimation device, a depth estimation method, and a depth estimation program that have a high processing speed.
  • a depth estimation apparatus is a depth estimation apparatus that estimates a depth value indicating the depth of a subject from a plurality of camera images obtained by photographing the same subject with a plurality of cameras arranged in a predetermined position.
  • the image input unit, the corresponding pixel difference calculation unit, the depth value initialization unit, the minimum evaluation value calculation unit, the estimated evaluation value calculation unit, and the depth value determination unit are provided.
  • the depth estimation apparatus uses a reference image obtained by photographing the subject with a predetermined reference camera and an adjacent camera other than the reference camera in any of the plurality of cameras arranged by the image input unit.
  • An adjacent image obtained by photographing the subject is input.
  • This adjacent video is a video for measuring the parallax from the reference video.
  • the depth estimation device uses the corresponding pixel difference calculation means to estimate the pixel value of the target pixel and the estimated depth of the target pixel for each of the estimated depth value from the predetermined minimum value to the maximum value and the target pixel of the reference image.
  • a corresponding pixel difference value that is an absolute difference value with respect to the pixel value of the corresponding pixel of the adjacent video at the pixel position corresponding to the parallax of the value is calculated.
  • the estimated depth value is a value obtained by estimating the depth value of the subject corresponding to the pixel of the reference image, and is, for example, a value from the minimum parallax ('0') to the maximum parallax.
  • this corresponding pixel difference calculation means an absolute difference value between the pixel value of the target pixel of the reference image and the corresponding pixel value corresponding to the estimated depth value of the adjacent image is calculated. Note that the smaller the value of the absolute difference value (corresponding pixel difference value of adjacent video), the higher the possibility that the estimated depth value points to the same corresponding point in the actual subject.
  • the depth estimation apparatus determines the minimum value as an initial value of the depth value in all pixels of the reference image by depth value initialization means. Then, the depth estimation device uses a minimum evaluation value calculation unit to set, for each of the estimated depth value and the target pixel, a smoothing previously set to a sum of differences between the target pixel and the adjacent pixel adjacent to the target pixel. A minimum evaluation value obtained by adding the value multiplied by the coefficient to the corresponding pixel difference value of the target pixel at the determined depth value is calculated. Further, the depth estimation device is a value obtained by multiplying the sum of the difference between the estimated depth value and the depth value of the adjacent pixel by the smoothing coefficient for each of the estimated depth value and the target pixel by the estimated evaluation value calculation unit. Is added to the corresponding pixel difference value of the target pixel in the estimated depth value.
  • the depth estimation apparatus compares the minimum evaluation value and the estimated evaluation value for each of the estimated depth value and the target pixel by a depth value determining unit, and when the estimated evaluation value is smaller than the minimum evaluation value, The estimated depth value is determined as the depth value of the target pixel, and a depth map including the depth value for each target pixel is generated.
  • the depth estimation apparatus does not apply the Graph-Cuts algorithm to the entire video, but obtains an evaluation value with a simple arithmetic expression for the local area of the target pixel and adjacent pixels, so that the amount of calculation is reduced. .
  • the depth estimation device further comprises edge detection means for detecting an edge based on a difference in pixel value between the target pixel and a neighboring pixel of the target pixel, and the minimum evaluation value calculation means includes the edge Is detected, the second smoothing coefficient determined in advance with a value smaller than the smoothing coefficient is multiplied by the sum of the differences between the target pixel and the depth value of the adjacent pixel, and the estimated evaluation value calculating means includes: When the edge is detected, a value obtained by multiplying the sum of the difference between the estimated depth value and the depth value of the adjacent pixel by the second smoothing coefficient, and the smoothing coefficient and the second smoothing coefficient in advance The estimated evaluation value obtained by adding a value obtained by multiplying the difference between the determined depth value and the estimated depth value by the determined third smoothing coefficient to the corresponding pixel difference value of the target pixel in the estimated depth value. It is characterized by calculating
  • the second smoothing coefficient is used to lower the continuity weight of the depth value at the edge portion, and the third smoothing coefficient is used to suppress a large variation in the depth value.
  • An accurate depth map can be generated.
  • the depth estimation apparatus further includes a video reduction means for reducing the reference video and the adjacent video input to the video input means, and the corresponding pixel difference calculation means is reduced with the estimated depth value.
  • the corresponding pixel difference value is calculated for each target pixel of the reference image, and the depth value initializing unit initially sets the minimum value as the depth value of all pixels of the reduced reference image, and the minimum
  • the evaluation value calculating means calculates the minimum evaluation value for each pixel of interest of the estimated depth value and the reduced reference image, and the estimated evaluation value calculating means calculates the estimated depth value and the reduced reference image.
  • the estimated evaluation value is calculated for each target pixel, and the depth value determination unit generates a reduced depth map that is the depth map having the same size as the reduced reference image.
  • the depth estimation apparatus reduces the camera image, so that the number of target pixels to be processed is reduced, and a depth map can be generated at a higher speed.
  • the depth estimation apparatus is a depth map enlarging means for generating a reference depth map in which the reduced depth map is enlarged to the same size as the reference video input to the video input means, the estimated depth value, For each target pixel of the reference video input to the video input unit, a second correspondence that is a difference absolute value between the pixel value of the target pixel and the pixel value of the corresponding pixel of the adjacent video input to the video input unit Second corresponding pixel difference calculating means for calculating a pixel difference value; and second depth value initializing means for determining the depth values of all the pixels of the reference depth map as initial values of the depth values of all the pixels of the second depth map.
  • the second A second minimum evaluation value is calculated by adding a value obtained by multiplying the sum of the difference in depth value with the tangent pixel by the smoothing coefficient to the second corresponding pixel difference value of the second target pixel at the determined depth value.
  • the second minimum evaluation value calculating means and for each second target pixel, when the depth value of the second target pixel is smaller than the depth value of the second adjacent pixel adjacent to the second target pixel, the second Calculating an estimated evaluation value obtained by adding a value obtained by multiplying the depth value difference between adjacent pixels by the smoothing coefficient to the second corresponding pixel difference value of the second target pixel in the depth value of the second adjacent pixel;
  • the second estimated evaluation value is compared with the second minimum evaluation value for each second target pixel, and the second estimated evaluation value is smaller than the second minimum evaluation value.
  • the depth value of the second adjacent pixel is the depth value of the second pixel of interest. Determined, characterized in that it comprises a second depth value determining means for generating the second depth map comprising a depth value for each of the second target pixel.
  • the depth estimation device re-estimates the depth value of the pixel included in the edge portion with a simple arithmetic expression, so that a more accurate depth map can be generated.
  • the depth estimation device further includes depth map reduction means for generating a reduced depth map in which the depth map is reduced, and the depth value determination means includes the estimated depth value and the reduced depth map. For each third target pixel, a subtraction value obtained by subtracting a predetermined value from the depth value of the third adjacent pixel is calculated for all third adjacent pixels adjacent to the third target pixel, and the depth of the third target pixel is calculated.
  • the re-evaluation of the image area of the reference video corresponding to the third target pixel is instructed, and the minimum evaluation value calculation means
  • a sum of differences between the pixel of interest and the depth value of the adjacent pixel is set in advance to a value larger than the smoothing coefficient. Smoothing factor is multiplied
  • the estimated value is added to the corresponding pixel difference value of the target pixel in the determined depth value again, and the estimated evaluation value calculating means is configured to perform the estimation in response to the re-evaluation command.
  • a value obtained by multiplying the sum of the difference between the estimated depth value and the depth value of the adjacent pixel by the fourth smoothing coefficient is the value of the pixel of interest in the estimated depth value.
  • the estimated evaluation value added to the corresponding pixel difference value is calculated again, and the depth value determining unit calculates the minimum evaluation value and the estimated evaluation value calculated again for each pixel of interest in the estimated depth value and the image area.
  • the estimated depth value is determined as the depth value of the target pixel.
  • the depth estimation device more strongly smoothes the depth value of the pixel not included in the edge portion and does not smooth the depth value of the pixel included in the edge portion, so that the edge portion is not crushed. A more accurate depth map can be generated.
  • the minimum evaluation value calculating means moves the minimum evaluation while moving the pixel of interest from an origin side at any one of the four corners of the reference image to an end point opposite to the origin side. After the value is calculated, the minimum evaluation value is calculated again while moving the target pixel from the end point side to the start point side, and the estimated evaluation value calculation means calculates the target pixel from the start point side to the end point side. After calculating the estimated evaluation value while moving, the estimated evaluation value is calculated again while moving the target pixel from the end point side to the start point side, and the depth value determining means calculates the depth value of the target pixel. After the determination, the recalculated minimum evaluation value is compared with the estimated evaluation value. When the estimated evaluation value is smaller than the minimum evaluation value, the estimated depth value is determined again as the depth value of the target pixel. Characterized in that it.
  • the depth estimation apparatus calculates the depth value again from the end point side toward the start point side, so that a depth map with higher continuity can be generated.
  • the video input means includes the reference video and the left adjacent video and the right adjacent video that are the adjacent video captured by the adjacent cameras arranged on the left and right of the reference camera.
  • the corresponding pixel difference calculation means is configured to obtain a left corresponding pixel difference value that is the corresponding pixel difference value between the reference image and the left adjacent image, and between the reference image and the right adjacent image.
  • the minimum evaluation value calculating means calculates the minimum evaluation value using the minimum corresponding pixel difference value as the corresponding pixel difference value
  • the estimated evaluation value calculating means calculates the corresponding pixel difference value as in front Characterized by calculating the estimated evaluation value using the corresponding minimum pixel difference values.
  • the depth estimation device can accurately detect the corresponding pixel difference in any one of the left and right adjacent images even if the corresponding pixels are hidden by the subject due to occlusion.
  • the value can be determined.
  • the depth estimation apparatus further comprises video reduction means for reducing another camera video in accordance with the minimum size camera video among the camera videos input to the video input means. To do.
  • the depth estimation device can generate a more accurate depth map even when the size of the camera video is different.
  • the depth estimation apparatus can also be realized by a depth estimation program that causes hardware resources such as a CPU and a memory included in a computer to operate in cooperation with each other as described above (the ninth invention of the present application).
  • the depth estimation method is a depth estimation method for estimating a depth value indicating the depth of a subject from a plurality of camera images obtained by photographing the same subject with a plurality of cameras arranged at predetermined positions.
  • the video input step, the corresponding pixel difference calculation step, the depth value initialization step, the evaluation value calculation step, the evaluation value determination step, and the depth value determination step are sequentially executed.
  • the depth estimation method includes a reference image obtained by photographing the subject with a predetermined reference camera and an adjacent camera other than the reference camera in any of the plurality of cameras arranged in the image input step. An adjacent image obtained by photographing the subject is input.
  • the corresponding pixel difference calculation step for each estimated depth value from a predetermined minimum value to a maximum value and for each target pixel of the reference image, the pixel value of the target pixel and the estimated depth of the target pixel A corresponding pixel difference value that is an absolute difference value with respect to the pixel value of the corresponding pixel of the adjacent video at the pixel position corresponding to the parallax of the value is calculated.
  • the minimum value is determined as an initial value of the depth value in all pixels of the reference image.
  • the evaluation value calculation step for each of the estimated depth value and the target pixel, a sum of depth values between the target pixel and an adjacent pixel adjacent to the target pixel is multiplied by a preset smoothing coefficient. And calculating a minimum evaluation value obtained by adding the determined value to the corresponding pixel difference value of the target pixel in the determined depth value, and smoothing the sum to the difference between the estimated depth value and the depth value of the adjacent pixel. An estimated evaluation value obtained by adding the value multiplied by the coefficient to the corresponding pixel difference value of the target pixel in the estimated depth value is calculated.
  • the depth estimation method compares the minimum evaluation value with the estimated evaluation value for each of the estimated depth value and the target pixel in the evaluation value determination step, and determines whether the estimated evaluation value is smaller than the minimum evaluation value. Determine.
  • the estimated depth value is determined as a depth value of the target pixel, and a depth map including the depth value for each target pixel Is generated.
  • the depth estimation method does not apply the Graph-Cuts algorithm to the entire video, but obtains an evaluation value with a simple arithmetic expression for the local region of the target pixel and adjacent pixels, so that the amount of calculation is reduced. .
  • the present invention has the following excellent effects.
  • the evaluation value is obtained by a simple arithmetic expression for the target pixel and the local region of the adjacent pixel, the amount of calculation is reduced.
  • the processing speed is increased and can be easily applied to real-time processing.
  • the continuity weight of the depth value is lowered at the edge portion and a large variation in the depth value is suppressed, a more accurate depth map can be generated.
  • the camera image is reduced, the number of target pixels to be processed is reduced, and the depth map can be generated at a higher speed.
  • the depth value of the pixel included in the edge portion is re-estimated with a simple arithmetic expression, a more accurate depth map can be generated.
  • the depth value of the pixel not included in the edge portion is more smoothly smoothed, and the depth value of the pixel included in the edge portion is not smoothed, so that a more accurate depth map is generated. Can do.
  • the depth value is calculated again from the end point side toward the starting point side, a depth map with higher continuity can be generated.
  • the corresponding pixel difference value can be obtained even if occlusion occurs, a more accurate depth map can be generated.
  • a more accurate depth map can be generated even when the sizes of camera images are different.
  • 2nd Embodiment of this invention it is a block diagram which shows the structure of a depth value estimation means. It is explanatory drawing explaining the correspondence of 1 pixel of a reduction
  • the depth estimation system S generates a depth map D in which the depth value of the subject T is estimated from camera images (F L , F R ) obtained by photographing the subject T with a plurality of cameras CM arranged at predetermined positions.
  • the depth estimation system S shown in FIG. 1 includes a camera CM (C L , C R ) and a depth estimation device 1.
  • the camera CM is a general photographing device that photographs the subject T.
  • the subject T includes a background A and a foreground B, for example.
  • Video (F L , F R ) captured by the camera CM (C L , C R ) is input to the depth estimation device 1.
  • the distance L is arbitrary as long as the depth value and the amount of parallax can be accommodated. Further, when generating the depth value according to the parallax in the vertical direction, the camera CM may be arranged so as to be separated in the vertical direction.
  • the camera C R is for capturing a reference image F R as a reference of parallax.
  • the camera C L is a camera arranged on the left of the camera C R, it is intended to take a neighboring image F L for determining the disparity between the reference image F R.
  • the neighboring image F L it is assumed that the same size as the reference image F R.
  • the camera C R as a reference camera the camera C L has been the adjacent camera
  • the camera C R may be adjacent cameras.
  • the camera video (F L , F R ) captured by the camera CM may be a still image or a moving image.
  • the frame is synchronized and sequentially input to the depth estimation device 1 as a still image frame image.
  • a time code may be added for each frame image, and the depth estimation apparatus 1 may be synchronized.
  • the depth estimation apparatus 1 for describing a configuration of a depth estimation apparatus 1 according to a first embodiment of the present invention, a camera C L, a plurality of photographing the same subject T in C R in which a plurality arranged in a predetermined position
  • the depth value indicating the depth of the subject T is estimated from the camera video (F L , F R ).
  • the depth estimation device 1 includes a video input unit 10, a corresponding pixel difference calculation unit 20, a difference value storage unit 30, and a depth value estimation unit 100.
  • the video input means 10 inputs a plurality of camera videos (F L , F R ) taken by the camera CM.
  • the image input unit 10 inputs the reference image F R taken with reference camera C R, and a neighboring image F L taken by adjacent cameras C L.
  • the camera video (F L , F R ) input to the video input unit 10 is stored in a memory (not shown), and the corresponding pixel difference calculation unit 20 and the depth value estimation unit 100 (edge detection unit 110) described later are used. Shall be referenced.
  • the parallax amount and the depth value will be described.
  • the positions of the subject T (background A, foreground B) appearing in the camera video (F L , F R ) are shifted inward from each other.
  • the amount of deviation of the subject T is proportional to the reciprocal of the distance from the camera CM to the subject T.
  • This deviation amount is called the parallax amount of the subject T
  • the parallax amount normalized to a predetermined range with the maximum distance and the minimum distance of the subject T is called a depth value.
  • the maximum value of the depth value is the closest distance of the subject T in focus of the camera CM, and the minimum value is known in advance at infinity.
  • the maximum value and the minimum value of the depth value are determined from the nearest distance and the farthest distance. However, since the depth value of each part of the individual subject T is unknown, it is estimated by the method described below.
  • Corresponding pixel difference calculating unit 20 for each pixel of interest P R of the estimated depth value De and the reference image F R, and the pixel value of the pixel of interest P R, a pixel position corresponding to parallax of the estimated depth value De of the target pixel P R is intended for calculating a corresponding pixel difference value E difference is the absolute value of the pixel values of the corresponding pixels P L of neighboring image F L in.
  • the pixel of interest P R which is a pixel of interest to estimate the depth values in the reference image F R.
  • the corresponding pixel difference value E is illustrated as “difference value E”.
  • the absolute difference value of the pixel value is the absolute difference value of the luminance value of the pixel.
  • the difference absolute value of the color difference values are added and averaged.
  • the color component weight may be adjusted by multiplying the absolute difference value of the color difference value by an arbitrary coefficient.
  • the difference absolute value of the pixel value is the difference absolute value of the R value that is an element of the color signal and the absolute difference of the G value The value and the difference absolute value of the B value are added and averaged.
  • the estimated depth value De is a value for temporarily setting the depth value of the subject T, and takes a value from the minimum parallax amount to the depth value corresponding to the maximum parallax amount.
  • the estimated depth value De takes a value in the range of “0” (minimum parallax amount) to “255” (maximum parallax amount).
  • the unit of the depth value is the same as the unit of parallax between the pixels, and the parallax increases by one pixel by increasing the depth value by ‘1’.
  • the neighboring image F L taken by the left camera C L, as compared to the reference image F R taken by the right camera C R, foreground corresponding pixel (corresponding pixel) P L is shifted to the right side of B. Therefore, the neighboring image F L, the same pixel position as the pixel P R of the reference image F R (X, Y), and the same side (i.e., right side) and displacement direction of the foreground B is moved by the estimated depth value De to , closer to the corresponding pixel P L. At this time, the estimated depth value De is if appropriate, the pixel P R of the reference image F R overlaps the corresponding pixel P L.
  • the corresponding pixel difference calculating means 20 while changing the order of the estimated depth value De from a minimum value to a maximum value, for all the target pixel P R of the reference image F R, of the pixel of interest P R in the neighboring image F L
  • the coordinate position (X, Y) is moved to the right by the amount of parallax corresponding to the estimated depth value De, and the corresponding pixel P L of the adjacent video FL is obtained.
  • the corresponding pixel difference calculating unit 20 adds the pixel value Pr of target pixel P R, the difference between the pixel values Pl of the corresponding pixels P L
  • the corresponding pixel difference calculating unit 20 calculates the difference
  • represents an absolute value.
  • the corresponding pixel difference calculating unit 20 may determine the difference for each pixel, may sum the differences of a plurality of pixels around the pixel of interest P R. In the case of a color signal, the corresponding pixel difference calculation unit 20 may obtain an average value of the differences between the luminance component and the color difference component. Thereby, the corresponding pixel difference calculation means 20 can reduce the noise of the depth value Df.
  • the difference value storage means 30 is a general storage medium such as a magnetic memory or a semiconductor memory.
  • the corresponding pixel difference value E stored in the difference value storage unit 30 is referred to by the depth value estimation unit 100 described later.
  • the depth value estimation unit 100 is adapted to estimate the depth value of the pixel of interest P R, the edge detection means 110, a depth difference addition means 120, a depth value determination unit 130, the depth value storage Means 140.
  • Edge detection means 110 is the difference between the pixel values of the neighboring pixels of the target pixel P R pixel value Pf and the target pixel P R of the reference image F R is determined whether the threshold Th is less than or a predetermined . Specifically, the edge detection means 110, the difference between the pixel value Pf and the pixel value Pl of the left neighboring pixels of the target pixel P R
  • the left neighboring pixel is an adjacent pixel located near the left side of the target pixel.
  • the upper neighboring pixel is an adjacent pixel located near the upper side of the target pixel.
  • the edge detecting unit 110 a difference
  • the edge detection unit 110 does not output the flag G to the depth difference addition unit 120 when the difference
  • Depth difference addition means 120 is for adding the depth difference between the target pixel P R to the corresponding pixel difference value E with adjacent pixels, provided with a minimum evaluation value computing unit 122, the estimated evaluation value calculating means 124.
  • Minimum evaluation value computing means 122 for each estimated depth value De and the target pixel P R, the pixel of interest P R at the determined depth value Df to the corresponding pixel difference value E (Df), the target pixel and the pixel of interest P R
  • a minimum evaluation value Ff is calculated by adding a value obtained by multiplying the sum of the depth values of adjacent pixels by a smoothing coefficient ⁇ .
  • the minimum evaluation value computing means 122 via the depth value determination unit 130 reads the depth value Df of the pixel of interest P R from the depth value storing means 140, the corresponding pixel difference values corresponding to the depth value Df E (Df) is read from the difference value storage means 30.
  • the minimum evaluation value calculation unit 122 calculates the minimum evaluation value Ff by the following equation (1), and calculates the calculated minimum evaluation value Ff. Is output to the depth value determining means 130.
  • Ff E (Df) + ⁇ (
  • Dl represents the depth value of the left adjacent pixel
  • Du represents the depth value of the upper adjacent pixel. That is, in equation (1), when taking a depth value Df, the corresponding pixel difference value E (Df), the depth difference Df-Dl of the pixel of interest P R and the left neighboring pixel, the target pixel P R and upper adjacent pixels In consideration of the depth difference Df-Du, the matching error is evaluated (see FIG. 4).
  • the left adjacent pixel is a neighboring pixel positioned on the left side of the pixel of interest P R.
  • the upper neighboring pixel is a neighboring pixel positioned on the upper side of the pixel of interest P R.
  • the second term of the expression (1) represents the continuity weight of the depth value between pixels, and the depth map D becomes smoother as this value increases (the expressions (2) and (3) described later). And formula (4)). Further, when the value of the smoothing coefficient ⁇ is increased, the depth map D is smoothed while the details are crushed. Therefore, the smoothing coefficient ⁇ is set in advance to an appropriate value (for example, “1.0”).
  • the minimum evaluation value calculation unit 122 calculates the minimum evaluation value Ff by the following equation (2), and calculates the calculated minimum evaluation value Ff. It outputs to the depth value determination means 130.
  • the smoothing coefficient (second smoothing coefficient) ⁇ ′ is set in advance to a value (for example, “0.004”) smaller than the smoothing coefficient ⁇ .
  • Ff E (Df) + ⁇ ′ (
  • the minimum evaluation value calculating means 122 when the left or adjacent to the upper side of the target pixel P R is not, may without calculating the depth difference Df-Dl or Df-Du. In this case, the minimum evaluation value calculation means 122 calculates the minimum evaluation value Ff excluding the terms that could not be calculated. Further, the minimum evaluation value calculation unit 122 may substitute the depth value of the right adjacent pixel as D1 when there is no left adjacent pixel, and substitute the depth value of the lower adjacent pixel as Du when there is no upper adjacent pixel. May be.
  • the right adjacent pixel is an adjacent pixel located on the right side of the target pixel. Further, the lower adjacent pixel is an adjacent pixel located below the target pixel.
  • Estimated evaluation value calculation unit 124 for each estimated depth value De and the target pixel P R, the corresponding pixel difference value E of the pixel of interest P R in the estimated depth value De (De), the estimated depth value De and depth values of the adjacent pixels
  • the estimated evaluation value Fe is calculated by adding the value obtained by multiplying the sum of the differences by the smoothing coefficient.
  • Equation (3) in the case of taking the estimated depth value De, the corresponding pixel difference value E (De), a depth difference De-Dl of the pixel of interest P R and the left neighboring pixel, the target pixel P R and upper adjacent
  • the matching error is evaluated in consideration of the pixel depth difference De-Du (see FIG. 4).
  • the minimum evaluation value Ff and the estimated evaluation value Fe are abbreviated as “evaluation values Ff, Fe”.
  • the estimated evaluation value calculating unit 124 calculates the estimated evaluation value Fe by the following equation (4), and the calculated estimated evaluation value Fe is input to the depth value determining unit 130.
  • Output. Fe E (De) + ⁇ ′ (
  • the third term of the equation (4) is a weight that suppresses the fluctuation of the depth value that occurs when the continuity weight of the depth value is small.
  • the smoothing coefficient (third smoothing coefficient) ⁇ ′′ is set in advance to a value (for example, “0.04”) between the smoothing coefficient ⁇ and the smoothing coefficient ⁇ ′.
  • the estimated evaluation value computing unit 124 if adjacent to the left side or upper side of the target pixel P R pixel is not, may without calculating the depth difference De-Dl or De-Du. In this case, the estimated evaluation value calculation means 124 calculates the estimated evaluation value Fe except for the terms that could not be calculated. Further, the estimated evaluation value calculation means 124 may substitute the depth value of the right adjacent pixel as D1 when there is no left adjacent pixel, and substitute the depth value of the lower adjacent pixel as Du when there is no upper adjacent pixel. May be.
  • Depth value determination means 130 for each estimated depth value De and the target pixel P R, and the minimum evaluation value Ff input from the minimum evaluation value calculating unit 122, the estimated evaluation value Fe inputted from the estimated evaluation value calculating means 124 Are compared.
  • the depth value determination unit 130 determines the estimated depth value De as the depth value Df of the target pixel P R, determined depth value Df in depth value storing means 140 Update. In this way, the depth value determination unit 130 generates a depth map D consisting depth value Df for each pixel of interest P R. That is, the depth map D is a depth image in which each pixel represents a depth value Df.
  • the depth value determining unit 130 includes a depth value initializing unit 132.
  • Depth value initializing means 132 the minimum value of the estimated depth value De, determined as the initial value of the depth value Df in all pixels of the reference image F R, the initial value of the determined depth value Df the depth value storing means 140 Write.
  • the depth value initialization unit 132 determines the initial value of the depth value Df before the minimum evaluation value calculation unit 122 calculates the minimum evaluation value Ff.
  • Depth value memory means 140 is for storing a depth value Df for each estimated depth value De and the target pixel P R.
  • the depth value storage unit 140 is a general storage medium such as a magnetic memory or a semiconductor memory.
  • the depth value Df stored in the depth value storage unit 140 is output to the outside as a depth map D.
  • the depth estimation apparatus 1 inputs the camera video (F L , F R ) using the video input unit 10 (video input step S10).
  • the depth estimation apparatus 1 performs the process of step S20 below until the estimated depth value De changes from the minimum value to the maximum value, Y changes from “0” to the video height, and X changes from “0” to the video width. repeat.
  • the width and height of the reference image F R predetermined as picture size and video height.
  • the depth estimation apparatus 1 calculates the corresponding pixel difference value E of the target pixel P R (X, Y) by the corresponding pixel difference calculation unit 20 and stores the calculated corresponding pixel difference value E in the difference value storage unit 30 ( Corresponding pixel difference calculation step S20).
  • Depth estimation apparatus 1 the depth value initializing means 132, the minimum value of the estimated depth value De, determined as the initial value of the depth value Df in all pixels of the reference image F R, the initial value of the determined depth value Df Writing to the depth value storage means 140 (depth value initialization step S30).
  • the depth estimation apparatus 1 performs the following steps S40 to S60 until the estimated depth value De changes from the minimum value +1 to the maximum value, Y changes from “0” to the video height, and X changes from “0” to the video width. Repeat the process. That is, the depth estimation apparatus 1, the upper left side of the reference image F R from (origin side) to the lower right side (end side), the target pixel P R (X, Y) as zigzag scan while moving a step S40 Processes S60 to S60 are performed.
  • Depth estimation apparatus 1 uses the minimum evaluation value calculation unit 122 to calculate the minimum evaluation value Ff in the pixel of interest P R (X, Y) using Expression (1) or Expression (2) according to the flag G.
  • the depth estimation device 1 compares the minimum evaluation value Ff calculated in step S40 with the estimated evaluation value Fe by the depth value determination means 130 (evaluation value determination step S50).
  • step S50 If the estimated evaluation value Fe is the minimum evaluation value Ff smaller (Yes in step S50), the depth estimation apparatus 1, the depth value determination unit 130, a depth value Df of the estimated depth value De pixel of interest P R (X, Y) The depth value storage means 140 is updated with the determined depth value Df (depth value determination step S60). When the estimated evaluation value Fe is equal to or greater than the minimum evaluation value Ff (No in step S50), the depth estimation device 1 does not perform the process of step S60.
  • the depth estimation apparatus 1 After the end of step S60, the depth estimation apparatus 1 outputs the depth map D stored in the depth value storage means 140 (step S70). In steps S40 to S60, the depth estimation apparatus 1 may move the pixel of interest P R (X, Y) from the lower right side (start point side) to the upper left side (end point side).
  • the depth estimation apparatus 1 while increasing the estimated depth value De from the minimum to the maximum, with respect to the estimated depth value De, already noted pixel P R Since it is determined uniquely whether or not the determined depth value Df is changed to the estimated depth value De, the depth map D can be generated at high speed.
  • the depth estimation apparatus 1 as a target local area of the target pixel P R and the adjacent pixel, the evaluation value Ff from equation (1) by a simple arithmetic expression of Equation (4), for determining the Fe, processing speed Towards faster and easier to apply to real-time processing. Furthermore, since the depth estimation apparatus 1 lowers the continuity weight of the depth value at the edge portion and suppresses large fluctuations in the depth value, it is possible to generate a more accurate depth map D even when there is an edge.
  • the depth estimation apparatus 1 can obtain an accurate depth map D at high speed, and can be used as a means for recognizing a three-dimensional space by a computer such as a robot. Furthermore, since the corresponding pixel position in the other viewpoint video is obtained from the depth map D, the depth estimation apparatus 1 can synthesize another viewpoint video from a small number of viewpoint videos. Accordingly, the depth estimation apparatus 1 can store and transmit stereoscopic video data including a large number of viewpoint videos necessary for generating a stereoscopic video to a small number of viewpoint videos and a depth map D thereof. .
  • Modification 1 With reference to FIG. 6 and FIG. 7, the operation of the depth estimation apparatus 1 according to Modification 1 of the present invention will be described while referring to differences from the first embodiment.
  • Depth estimation apparatus 1 after determining the depth value Df while moving the pixel of interest P R to the lower right side from the upper left side of the reference image F R, as zigzag scanning from the lower right side of the reference image F R to the upper left side points again to determine the depth value Df while moving the pixel of interest P R in is different from the first embodiment.
  • the depth estimation apparatus 1 executes the processes of steps S10 to S30 in FIG. 5 (not shown in FIG. 6). As shown in FIG. 6, the depth estimation apparatus 1 performs the following process after the process of step S30 of FIG.
  • the depth estimation apparatus 1 repeats the processes of steps S40 to S60 and steps S80 to S100 until the estimated depth value De becomes the maximum value from the minimum value +1.
  • the depth estimation apparatus 1 repeats the processes of steps S40 to S60 until Y changes from “0” to the video height and X changes from “0” to the video width.
  • the depth estimation apparatus 1 repeats the processes of steps S80 to S100 until Y becomes “0” from the video height and X becomes “0” from the video width. That is, the depth estimation apparatus 1, from the lower right side of the reference image F R to the upper left side, the pixel of interest as zigzag scan P R (X, Y) while moving, and performs processing of steps S80 ⁇ S100.
  • the depth estimation device 1 outputs a flag G when the edge detection unit 110 determines that the difference between the pixel value Pf of the target pixel P R (X, Y) and the pixel value of the neighboring pixel is smaller than the threshold Th.
  • Equation (5) when taking a depth value Df, the corresponding pixel difference value E (Df), the depth difference Df-Dr between the target pixel P R and the right adjacent pixels, the target pixel P R and lower adjacent
  • the matching error is evaluated by taking into account the depth difference Df ⁇ Dd from the pixel (see FIG. 7).
  • the depth estimation device 1 calculates the estimated evaluation value Fe at the target pixel P R (X, Y) by the following equation (8). Calculation is performed (step S80).
  • Ff E (De) + ⁇ ′ (
  • the depth estimation apparatus 1 compares the minimum evaluation value Ff calculated in step S80 with the estimated evaluation value Fe by the depth value determination unit 130 (step S90). If the estimated evaluation value Fe is the minimum evaluation value Ff smaller (Yes in step S90), the depth estimation apparatus 1, the depth value determination unit 130, a depth value Df of the estimated depth value De pixel of interest P R (X, Y) The depth value storage unit 140 is updated with the determined depth value Df (step S100). When the estimated evaluation value Fe is equal to or greater than the minimum evaluation value Ff (No in step S90), the depth estimation device 1 does not perform the process of step S100.
  • the depth estimation apparatus 1 determines the depth value Df again in steps S80 to S100, the depth map D having higher continuity can be generated.
  • the depth estimation apparatus 1 may move the target pixel P R (X, Y) from the lower right side to the upper left side. In this case, the depth estimation apparatus 1 may move the target pixel P R (X, Y) from the upper left side to the lower right side in the processes of steps S80 to S100.
  • the configuration of the depth estimation apparatus 1 ⁇ / b> A according to the second embodiment of the present invention will be described with respect to differences from the first embodiment (see FIG. 3 as appropriate).
  • the depth estimation device 1A is different from the first embodiment in that the depth map D is reduced.
  • the depth estimation device 1 ⁇ / b> A includes a depth value estimation unit 100 ⁇ / b> A instead of the depth value estimation unit 100 of FIG. 3.
  • the depth value estimation unit 100A includes an edge detection unit 110, a depth difference addition unit 120A, a depth value determination unit 130A, a depth value storage unit 140, and a depth map reduction unit 150.
  • the depth difference adding unit 120A includes a minimum evaluation value calculating unit 122A and an estimated evaluation value calculating unit 124A.
  • N is a natural number taking a value from '0' to half of the maximum number of pixels in the horizontal direction in the depth map D.
  • D ′ (n) represents the depth value of the pixel n of the depth map D ′ reduced in the horizontal direction.
  • the depth map reducing means 150 calculates the depth values D ′ (2m) and D ′ (2m + 1) of two pixels continuous in the vertical direction in the depth map D reduced in the horizontal direction by Expression (9).
  • the following equation (10) is calculated. That is, in the depth map D, the number of pixels in the horizontal direction and the number of pixels in the vertical direction are halved and the total number of pixels is reduced to 1 ⁇ 4 by the calculations of Expressions (9) and (10).
  • D ′′ (m) ⁇ D ′ (2m) + D ′ (2m + 1) ⁇ / 2 Formula (10)
  • M is a natural number that takes a value from '0' to half of the maximum number of pixels in the vertical direction in the depth map D.
  • D ′′ (m) represents the depth value of the pixel m of the depth map D ′′ reduced in the horizontal direction and the vertical direction.
  • the depth map reduction means 150 may generate the reduced depth map Dm by repeating the calculations of Expressions (9) and (10) a predetermined number of times (for example, 4 times). In this case, the reduced depth map Dm is obtained by reducing the depth map Dm to 1/16. Thereafter, the depth map reduction unit 150 outputs the generated reduced depth map Dm to the depth value determination unit 130A. It should be noted that the depth map reduction means 150 may calculate equation (9) after calculating equation (10).
  • the minimum evaluation value calculation unit 122A has the same function as the minimum evaluation value calculation unit 122 of the first embodiment. Furthermore, the minimum evaluation value calculating unit 122A, in accordance with the instruction of the re-evaluation of the depth value determination unit 130A, for each estimated depth value De and the target pixel of the later-described image area A R P R (FIG. 9), the depth value and the corresponding pixel difference value E of the target pixel P R (df) in df, smoothing coefficient to the sum of the difference between the depth value of the pixel of interest P R and the adjacent pixel (fourth smoothing coefficient) Ramuda''' is multiplied values The minimum evaluation value Ff to which is added is calculated again.
  • the smoothing coefficient ⁇ ′′ ′′ is determined in advance as a value (for example, “8”) larger than the smoothing coefficient ⁇ .
  • the minimum evaluation value calculation unit 122A calculates the minimum evaluation value Ff again by the following equation (11), and outputs the calculated minimum evaluation value Ff to the depth value determination unit 130A.
  • the minimum evaluation value calculating unit 122A instead of the smoothing coefficient ⁇ of the formula (1) to the smoothing coefficient Ramuda''', again calculating the minimum evaluation value Ff of the whole target pixel P R included in the image area.
  • Ff E (Df) + ⁇ ′ ′′ (
  • the estimated evaluation value calculation unit 124A has the same function as the estimated evaluation value calculation unit 124 of the first embodiment. Furthermore, the estimated evaluation value calculation unit 124A, in accordance with the instruction of the re-evaluation of the depth value determination unit 130A, for each pixel of interest P R of the estimated depth value De and the image area A R, interest in the estimation depth value De pixel P
  • the estimated evaluation value Fe obtained by adding the value obtained by multiplying the corresponding pixel difference value E (De) of R and the difference between the estimated depth value De and the depth value of the adjacent pixel by the smoothing coefficient ⁇ ′′ ′ is calculated again. .
  • the estimated evaluation value calculating unit 124A calculates the estimated evaluation value Fe again by the following equation (12), and outputs the calculated estimated evaluation value Fe to the depth value determining unit 130A.
  • the estimated evaluation value calculation unit 124A instead of the smoothing coefficient ⁇ of formula (2) to the smoothing coefficient Ramuda''', again calculating the estimated evaluation value Fe total target pixel P R included in the image area.
  • Ff E (De) + ⁇ ′ ′′ (
  • the depth value determination unit 130A has the same function as the depth value determination unit 130 of the first embodiment. Further, the depth value determination unit 130A, for each pixel of interest (third pixel of interest) of the reduced depth map Dm input from the estimated depth value De and the depth map reduction unit 150, all adjacent pixels (first pixels) adjacent to the pixel of interest. (3 adjacent pixels), a subtraction value obtained by subtracting a predetermined value from the depth value of the adjacent pixel is calculated.
  • the depth value determining unit 130A sequentially changes the estimated depth value De from the minimum value to the maximum value, and moves the target pixel of the reduced depth map Dm so as to perform a zigzag scan from the upper left side to the lower right side.
  • the depth value determination unit 130A subtracts a predetermined value ⁇ from the left adjacent pixel Dm (l), a subtracted value by subtracting the predetermined value ⁇ from the upper adjacent pixel Dm (u), and the right adjacent pixel Dm.
  • a subtraction value obtained by subtracting the predetermined value ⁇ from (r) and a subtraction value obtained by subtracting the predetermined value ⁇ from the lower adjacent pixel Dm (d) are obtained.
  • the predetermined value ⁇ is determined in advance as 1/10 of the maximum value of the estimated depth value De.
  • the depth value determination unit 130A determines whether or not the depth value Dm of the target pixel of the reduced depth map Dm is equal to or greater than the subtraction value calculated from the upper, lower, left, and right adjacent pixels as in the following equation (13). To do. Dm (l) ⁇ ⁇ Dm and Dm (u) ⁇ ⁇ Dm and Dm (r) ⁇ ⁇ Dm and Dm (d) ⁇ ⁇ Dm (13)
  • the reduced depth map Dm is compared with the reference image F R, which is the size of 1/16.
  • the reference image F R which is the size of 1/16.
  • one pixel P Dm of the reduced depth map Dm is the reference image F R corresponding to the pixel region A R of 16 horizontal pixels ⁇ 16 vertical pixels (256 pixels). Therefore, if the depth value Dm of the pixel of interest satisfies the equation (13), the depth value determination unit 130A includes a re-evaluation of the image area A R corresponding to the pixel of interest P Dm, the minimum evaluation value computing means 122A and the estimated evaluation value Commands the arithmetic means 124A.
  • the depth value determination unit 130A receives the minimum evaluation value Ff calculated again by the minimum evaluation value calculation unit 122A and the estimated evaluation value Fe calculated again by the estimated evaluation value calculation unit 124A. Is done.
  • the depth value determination unit 130A for each pixel of interest P R of the estimated depth value De and the image area A R, comparing the computed minimum evaluation value Ff and the estimated evaluation value Fe again. Then, the depth value determination unit 130A, when the estimated evaluation value Fe is the minimum evaluation value Ff smaller, determines the estimated depth value Fe as the depth value Df of the target pixel P R, determined depth value Df in depth value storing means 140 Update.
  • the depth estimation apparatus 1A reduces the number of pixels in the horizontal direction of the depth map D by half by the depth map reduction unit 150 (step S200).
  • the depth estimation apparatus 1A reduces the number of vertical pixels of the depth map D reduced in the horizontal direction in step S200 by half by the depth map reduction unit 150 (step S210).
  • the depth estimation apparatus 1 may repeat the processes of steps S200 and S210 a predetermined number of times (for example, four times).
  • the depth estimation apparatus 1A causes the depth map reduction unit 150 to output the reduced depth map Dm generated in steps S200 and S210 to the depth value determination unit 130A (step S220).
  • the depth estimation apparatus 1A performs the following steps S230 to S230 until the estimated depth value De changes from the minimum value to the maximum value, Y changes from “0” to the reduced map height, and X changes from “0” to the reduced map width.
  • the process of S260 is repeated.
  • the coordinates of the target pixel of the reduced map Dm are (X, Y).
  • the width and height of the reduced map Dm are determined in advance as the reduced map width and the reduced map height.
  • the depth estimation apparatus 1A calculates the subtraction value for all adjacent pixels adjacent to the target pixel of the reduced depth map Dm by the depth value determination unit 130A, and determines whether or not Expression (13) is satisfied (step S230). .
  • the depth estimation apparatus 1A when satisfying (13) (Yes in step S230), the depth estimation apparatus 1A, the minimum evaluation value calculation unit 122A, calculating the minimum evaluation value Ff for each pixel of interest P R of the pixel region A R in the formula (11) To do.
  • the depth estimation apparatus 1A compares the minimum evaluation value Ff calculated in step S240 with the estimated evaluation value Fe by the depth value determination unit 130A (step S250). When Expression (13) is not satisfied (No in Step S230), the depth estimation device 1A does not perform the processes of Steps S240, S250, and S260.
  • step S250 If the estimated evaluation value Fe is the minimum evaluation value Ff smaller (Yes in step S250), the depth estimation apparatus 1A, the depth value determination unit 130A, the estimated depth value De of the target pixel P R of the pixel region A R depth value Df The depth value storage unit 140 is updated with the determined depth value Df (step S260). When the estimated evaluation value Fe is equal to or greater than the minimum evaluation value Ff (No in step S250), the depth estimation device 1A does not perform the process of step S260.
  • step 260 the depth estimation device 1A outputs the depth map D stored in the depth value storage means 140 (step S270).
  • 1 A of depth estimation apparatuses which concern on 2nd Embodiment of this invention detect parts other than an edge with the depth map D by Formula (13). Thereby, the depth estimation apparatus 1A increases the depth value of the portion not including the edge in the depth map D that cannot be completely smoothed by the expressions (1) and (2) using the expressions (11) and (12). It can be smoothed and the depth value of the edge portion is not crushed. As a result, the depth estimation apparatus 1A can generate a more accurate depth map D.
  • the depth estimation device 1B includes a video input unit 10, a corresponding pixel difference calculation unit 20, a difference value storage unit 30, a video reduction unit 40, a depth map expansion unit 50, and a depth value estimation unit. 100.
  • n'from '0' takes a value of up to half of the maximum number of pixels in the horizontal direction reference image F R is a natural number.
  • P ′ (n ′) represents the pixel value of the pixel n ′ of the reference image P ′ reduced in the horizontal direction.
  • m'from '0' takes a value of up to half of the maximum number of pixels in the vertical direction in the reference image F R is a natural number.
  • P ′′ (m ′) represents the pixel value of the pixel m ′ of the reference image P ′′ reduced in the horizontal direction and the vertical direction.
  • the video reduction unit 40 like the reference image F R, performing the calculation of Equation (14) and (15) also neighboring image F L. Thereafter, the video reduction means 40 outputs the reduced reference video P ′′ (reference video F R ′ in FIG. 11) and the adjacent video F L ′ to the corresponding pixel difference calculation means 20.
  • the reference image F R ' is different from the reference image F R, the total number of pixels is reduced to 1/4. For this reason, the total number of pixels of the depth map D is reduced to 1 ⁇ 4 compared to each image of the first embodiment.
  • the depth map expansion means 50 is to enlarge the depth map D input from the depth estimation apparatus 100 to the same size as the reference image F R that is input to the image input unit 10. Specifically, the depth map enlarging means 50 applies the following equation (3) to the depth values D (n ⁇ 1), D (n), D (n + 1) of three pixels that are continuous in the horizontal direction in the depth map D. 16) and the equation (17) are performed.
  • D ′ (2n) D (n) + [ ⁇ ⁇ D (n ⁇ 1) + D (n + 1) ⁇ / 4 + 1] / 2 Formula (16)
  • D ′ (2n + 1) D (n) + ⁇ D (n ⁇ 1) + D (n + 1) ⁇ / 4] / 2 Formula (17)
  • D (n ⁇ 1) and D (n + 1) When there are no depth values D (n ⁇ 1) and D (n + 1), the values may be set to “0”, and the depth values D (n ⁇ 1) and D (n + 1) of the pixels located on the opposite side are set. It may be used.
  • D ′ (2n) and D ′ (2n + 1) represent depth values of the pixels 2n and 2n + 1 of the depth map D expanded in the horizontal direction.
  • the depth map enlarging means 50 has a depth value D ′ (m ⁇ 1), D ′ of three consecutive pixels in the vertical direction in the depth map D expanded in the horizontal direction by the equations (16) and (17). The following equations (18) and (19) are calculated for (m) and D ′ (m + 1). Thereafter, the depth map enlarging means 50 outputs an enlarged depth map D ′.
  • D ′′ (2m) D ′ (m) + [ ⁇ ⁇ D ′ (m ⁇ 1) + D ′ (m + 1) ⁇ / 4 + 1] / 2 Formula (18)
  • D ′′ (2m + 1) D ′ (m) + ⁇ D ′ (m ⁇ 1) + D ′ (m + 1) ⁇ / 4] / 2 Formula (19)
  • D ′ (m ⁇ 1) and D ′ (m + 1) the values may be set to “0”, and the depth values D ′ (m ⁇ 1) and D ′ of the pixels located on the opposite side are acceptable.
  • M + 1) may be used.
  • D ′′ (2m) and D ′′ (2m + 1) represent depth values of the pixels 2m and 2m + 1 of the depth map D ′′ expanded in the horizontal direction and the vertical direction.
  • Depth estimation apparatus 1B the image reduction means 40 reduces the input camera image (reference image F R and the neighboring image F L) at step S10 (step S300).
  • Depth estimation apparatus 1B the depth by the map enlarging means 50 enlarges the depth map D to the same size as the reference image F R that is input to the image input unit 10 (step S310).
  • the depth estimation apparatus 1B outputs the enlarged depth map D ′ enlarged in step S310 by the depth map enlargement unit 50 (step S320).
  • the depth estimation apparatus 1B reduces the number of target pixels to be processed, and can generate a depth map at higher speed. Furthermore, the depth estimation apparatus 1B can further increase the speed by repeating the process in which the video reduction unit 40 reduces the camera video and the process in which the depth map expansion unit 50 enlarges the depth map D the same number of times. .
  • the depth estimation device 1C includes a video input unit 10C, a corresponding pixel difference calculation unit 20, a difference value storage unit 30, a video reduction unit 40C, a depth map enlargement unit 50C, and a depth value estimation unit. 100.
  • the video input unit 10C has the same function as the video input unit 10 of the third embodiment. Further, the video input unit 10C outputs the minimum camera video size of the input camera video as a reduction target size to the video reduction unit 40C. Further, the video input means 10C outputs the maximum camera video size of the input camera video as the enlargement target size to the depth map enlargement means 50C.
  • Image reduction means 40C among the camera images input to the image input unit 10C, is to reduce the other camera image (the neighboring image F L) in accordance with the minimum size of the camera image (reference image F R).
  • the image reduction unit 40C is in the same manner as the image reduction unit 40 of the third embodiment reduces the neighboring image F L to reduce the target size input from the image input unit 10C (size of the reference image F R) .
  • the video reduction unit 40C outputs the reduced adjacent video F L ′ to the corresponding pixel difference calculation unit 20.
  • the depth map enlargement means 50C enlarges the depth map D input from the depth estimation device 100 in accordance with the maximum camera image (adjacent image FL ) among the camera images input to the image input means 10C. is there.
  • the depth map expansion means 50C in a similar manner as depth map enlarging means 50 of the third embodiment, a larger depth map D to larger target size inputted from the image input unit 10C (size of the neighboring image F L) To do. Then, the depth map enlargement unit 50C outputs the enlarged depth map D ′.
  • the depth map enlarging means 50C may output the depth map D as it is without enlarging it.
  • the depth estimation apparatus 1C inputs the camera video (F L , F R ) through the video input unit 10C.
  • the depth estimation apparatus 1C outputs the reduction target size to the video reduction unit 40C and the enlargement target size to the depth map enlargement unit 50C by the video input unit 10C (step S400).
  • Depth estimation apparatus 1C is reduced by the image reduction means 40C, until reduced target size the input camera image (the neighboring image F L) in step S400 (step S410).
  • the depth estimation apparatus 1C enlarges the depth map D to the enlargement target size by the depth map enlargement means 50C (step S420).
  • the depth estimation apparatus 1D includes a video input unit 10, a corresponding pixel difference calculation unit 20, a corresponding pixel difference calculation unit (second corresponding pixel difference calculation unit) 20D, and difference value storage units 30 and 30D. And an image reduction means 40, a depth map enlargement means 50, and depth value estimation means 100, 100D.
  • Corresponding pixel difference calculation unit 20D as in the first embodiment, for each pixel of interest P R of the estimated depth value De and the reference image F R, intended to operate on corresponding pixel difference value (second correspondence pixel difference value) E is there. Then, the corresponding pixel difference calculation unit 20D stores the calculated corresponding pixel difference value E in the difference value storage unit 30D.
  • Differential value storage means 30D for each estimated depth value De and the target pixel P R, is for storing the corresponding pixel difference value E corresponding pixel difference calculating means 20D is calculated.
  • the difference value storage unit 30D is a general storage medium such as a magnetic memory or a semiconductor memory.
  • the depth value estimation unit 100D includes a depth difference addition unit 120D, a depth value determination unit (second depth value determination unit) 130D, and a depth value storage unit 140D.
  • the depth difference adding means 120D includes a minimum evaluation value calculating means (second minimum evaluation value calculating means) 1122D and an estimated evaluation value calculating means (second estimated evaluation value calculating means) 124D.
  • the minimum evaluation value calculation means 122D calculates the adjacent pixel (second adjacent pixel) whose depth value of the target pixel is adjacent to the target pixel. When it is smaller than the depth value, the minimum evaluation value (second minimum evaluation value) Ff is calculated. Details of the minimum evaluation value calculation means 122D will be described in the operation of the depth estimation device 1D.
  • the estimated evaluation value calculation unit 124D calculates a corresponding pixel difference value of the target pixel at the estimated depth value De. It is calculated as Fe. Details of the estimated evaluation value calculation means 124D will be described in the operation of the depth estimation device 1D.
  • the depth value determining unit 130D compares the minimum evaluation value Ff input from the minimum evaluation value calculating unit 122D with the estimated evaluation value Fe input from the estimated evaluation value calculating unit 124D for each target pixel of the depth map D ′′. In this embodiment, the depth value determining unit 130D compares the minimum evaluation value Ff and the estimated evaluation value Fe for adjacent pixels in the same direction, and the depth value determining unit 130D calculates the estimated evaluation value. When Fe is smaller than the minimum evaluation value Ff, the depth value Du of the adjacent pixel is determined as the depth value Df of the target pixel. Details of the depth value determination means 130D will be described in the operation of the depth estimation device 1D.
  • the depth value determining unit 130D includes a depth value initializing unit 132D.
  • the depth value initialization unit 132D determines the depth value of the reference depth map Dref as the initial value of the depth value Df for all the pixels of the depth map D ′′, and stores the determined initial value of the depth value Df in the depth value storage unit 140D. For example, the depth value initialization unit 132D determines the initial value of the depth value Df before the minimum evaluation value calculation unit 122D calculates the minimum evaluation value Ff.
  • the reference depth map Dref is a depth map D ′ that has been enlarged by the depth map enlargement means 50.
  • the depth value storage unit 140D stores a depth value Df for each target pixel of the depth map D ′′.
  • the depth value storage unit 140D is a general storage medium such as a magnetic memory or a semiconductor memory.
  • Depth estimation apparatus 1D includes the corresponding pixel difference calculating unit 20D, and calculates the corresponding pixel difference value E of the target pixel P R, and stores the computed corresponding pixel difference value E to the difference value storage means 30D (step S500).
  • the depth value initialization unit 132D determines the depth value of the reference depth map Dref as the initial value of the depth value Df in all the pixels of the depth map D ′′, and uses the determined initial value of the depth value Df. It writes in the depth value storage means 140 (step S510).
  • the depth estimation apparatus 1D performs depth value estimation processing described later by the depth value estimation unit 100D (step S520).
  • the depth estimation apparatus 1D repeats the processes of steps S600 to S670 below until Y changes from “0” to the map height and X changes from “0” to the map width. That is, the depth estimation apparatus 1D performs the processing of steps S600 to S670 while moving the pixel of interest from the upper left side (starting point side) to the lower right side (end point side) of the depth map D ′′ like a zigzag scan.
  • the coordinates of the pixel of interest in the depth map D ′′ are (X, Y).
  • the width and height of the depth map D ′′ are determined in advance as the map width and the map height.
  • the depth estimation apparatus 1D determines whether or not the depth value Df of the target pixel of the depth map D ′′ is smaller than the depth value Du of the upper adjacent pixel by the minimum evaluation value calculation unit 122D (step S600). When the depth value Df is greater than or equal to the depth value Du (No in step S600), the depth estimation device 1D does not perform the processes of steps S610 to S630.
  • This equation (20) is the difference between the corresponding pixel difference value E (Df) of the target pixel at the determined depth value Df, the depth value of the target pixel and the left adjacent pixel, and the depth of the target pixel and the upper adjacent pixel.
  • a value obtained by multiplying the sum of the difference between the values by a smoothing coefficient ⁇ is added to obtain a minimum evaluation value Ff.
  • the depth estimation apparatus 1D uses the estimated evaluation value calculation unit 124D to calculate the estimated evaluation value Fe for the upper adjacent pixel using the following equation (21) (step S610).
  • Fe E (Du) + ⁇
  • This equation (21) is obtained by regarding the corresponding pixel difference value E (Du) of the target pixel in the depth value Du of the upper adjacent pixel and the depth value Du of the upper adjacent pixel as the estimated depth value De, and the depth with the left adjacent pixel.
  • a value obtained by multiplying the sum of the difference between the values by a smoothing coefficient ⁇ is obtained as an estimated evaluation value Fe.
  • the depth estimation device 1D compares the minimum evaluation value Ff for the upper adjacent pixel calculated in step S610 with the estimated evaluation value Fe by the depth value determination unit 130D (step S620).
  • the depth estimation device 1D determines the depth value Du of the upper adjacent pixel as the depth value Df of the target pixel by the depth value determination unit 130D, The depth value storage unit 140D is updated with the determined depth value Df (step S630).
  • the depth estimation device 1D does not perform the process of step S630.
  • the depth estimation apparatus 1D determines whether or not the depth value Df of the target pixel of the depth map D ′′ is smaller than the depth value D1 of the left adjacent pixel by the minimum evaluation value calculation unit 122D (step S640). When the depth value Df is equal to or greater than the depth value Dl (No in step S640), the depth estimation device 1D does not perform the processes of steps S650 to S670.
  • the depth estimation device 1D uses the following formula (22) by the minimum evaluation value calculation unit 122D to calculate the minimum evaluation value Ff for the left adjacent pixel. Is calculated.
  • Ff E (Df) + ⁇ (
  • the depth estimation apparatus 1D uses the estimated evaluation value calculation unit 124D to calculate the estimated evaluation value Fe by regarding the depth value D1 of the left adjacent pixel as the estimated depth value De using the following equation (23) (step S650). .
  • Fe E (Dl) + ⁇
  • the depth estimation device 1D compares the minimum evaluation value Ff for the left adjacent pixel calculated in step S650 with the estimated evaluation value Fe by the depth value determination unit 130D (step S660).
  • the depth estimation device 1D determines the depth value D1 of the left adjacent pixel as the depth value Df of the target pixel by the depth value determination unit 130D.
  • the depth value storage unit 140D is updated with the determined depth value Df (step S670).
  • the depth estimation device 1D does not perform the process of step S670.
  • the depth estimation apparatus 1D repeats the processes of steps S680 to S750 described below until Y becomes “0” from the map height and X becomes “0” from the map width. That is, the depth estimation apparatus 1D performs the processing of steps S680 to S750 while moving the target pixel from the lower right side (end point side) to the upper left side (start point side) of the depth map like a zigzag scan.
  • the depth estimation apparatus 1D determines whether or not the depth value Df of the target pixel of the depth map D ′′ is smaller than the depth value Dd of the lower adjacent pixel by the minimum evaluation value calculation unit 122D (step S680). When the depth value Df is equal to or greater than the depth value Dd (No in step S680), the depth estimation device 1D does not perform the processes in steps S690 to S710.
  • the depth estimation apparatus 1D uses the estimated evaluation value calculation unit 124D to calculate the estimated evaluation value Fe for the lower adjacent pixel using the following equation (25) (step S690).
  • Fe E (Dd) + ⁇
  • the depth estimation device 1D compares the minimum evaluation value Ff for the lower adjacent pixel calculated in step S690 with the estimated evaluation value Fe by the depth value determination unit 130D (step S700).
  • step S700 If the estimated evaluation value Fe is smaller than the minimum evaluation value Ff (Yes in step S700), the depth estimation device 1D determines the depth value Dd of the lower adjacent pixel as the depth value Df of the target pixel by the depth value determination unit 130D. Then, the depth value storage unit 140D is updated with the determined depth value Df (step S710). When the estimated evaluation value Fe is equal to or greater than the minimum evaluation value Ff (No in step S700), the depth estimation device 1D does not perform the process of step S710.
  • the depth estimation apparatus 1D determines whether or not the depth value Df of the target pixel of the depth map D ′′ is smaller than the depth value Dr of the right adjacent pixel by the minimum evaluation value calculation unit 122D (step S720). When the depth value Df is greater than or equal to the depth value Dr (No in step S720), the depth estimation device 1D does not perform the processing of steps S730 to S750.
  • the depth estimation apparatus 1D uses the estimated evaluation value calculation unit 124D to calculate the estimated evaluation value Fe for the right adjacent pixel using the following equation (27) (step S730).
  • Fe E (Dr) + ⁇
  • the depth estimation apparatus 1D compares the minimum evaluation value Ff for the right adjacent pixel calculated in step S730 with the estimated evaluation value Fe by the depth value determination unit 130D (step S740).
  • the depth estimation device 1D determines the depth value Dr of the right adjacent pixel as the depth value Df of the target pixel by the depth value determination unit 130D.
  • the depth value storage unit 140D is updated with the determined depth value Df (step S750).
  • the depth estimation device 1D does not perform the process of step S750.
  • the depth estimation apparatus 1D As described above, the depth estimation apparatus 1D according to the fifth embodiment of the present invention generates the reference depth map Dref from the reduced camera image. Then, the depth estimation device 1D uses the generated reference depth map Dref to re-estimate only the depth value that may be incorrect at the edge portion with a simple arithmetic expression, so that the accurate depth map D can be obtained more quickly. ′′ Can be generated.
  • the depth estimation apparatus 1E is different from the first embodiment in that a depth map D is generated from camera images obtained by photographing the subject T with three cameras CM.
  • the reference camera C C is a camera CM located in the center. Further, the adjacent camera C L, C R, compared base camera C C, distance L apart equidistantly from each other, are disposed on the left and right of the base camera C C. Then, camera images (F C , F L , F R ) captured by the cameras CM (C C , C L , C R ) are input to the depth estimation device 1E.
  • the reference image F C is a camera image captured by the base camera C C.
  • the left neighboring image F L is a camera image captured by the adjacent cameras C L.
  • the right neighboring image F R is a camera image captured by the adjacent cameras C R.
  • the depth estimation apparatus 1E includes a video input unit 10E, a corresponding pixel difference calculation unit 20E, a difference value storage unit 30, a minimum value selection unit 60, and a depth value estimation unit 100.
  • Image input means 10E is input and the reference image F C taken by the base camera C C, and left neighboring image F L taken by adjacent cameras C L, and a right neighboring image F R taken by adjacent cameras C R To do.
  • the camera video (F C , F L , F R ) input by the video input unit 10E is stored in a memory (not shown) and referred to by a corresponding pixel difference calculation unit 20E described later.
  • Corresponding pixel difference calculation unit 20E for each pixel of interest of the estimated depth value De and the reference image F C, is for calculating the left corresponding pixel difference values El and right corresponding pixel difference value Er. Then, the corresponding pixel difference calculation unit 20E outputs the calculated left corresponding pixel difference value El and right corresponding pixel difference value Er to the minimum value selection unit 60.
  • the left corresponds pixel difference values El is that of the corresponding pixel difference value between the reference image F C and left neighboring image F L.
  • the right corresponding pixel difference value Er is that of the corresponding pixel difference value between the reference image F C and a right neighboring image F L.
  • the calculation method of the left corresponding pixel difference value El and the right corresponding pixel difference value Er is the same as the calculation method of the first embodiment, and a description thereof will be omitted.
  • the left corresponding pixel difference value El is abbreviated as “left difference value El”
  • the right corresponding pixel difference value Er is abbreviated as “right difference value Er”.
  • the minimum value selection unit 60 calculates the smaller of the left corresponding pixel difference value El or the right corresponding pixel difference value Er input from the corresponding pixel difference calculation unit 20E, as the minimum corresponding pixel difference. This is selected as the value Emin. Then, the minimum value selection unit 60 stores the minimum corresponding pixel difference value Emin in the difference value storage unit 30 for each estimated depth value De and the target pixel. That is, the minimum corresponding pixel difference value Emin stored in the difference value storage unit 30 is used as the corresponding pixel difference value E. In FIG. 20, the minimum corresponding pixel difference value Emin is abbreviated as “minimum difference value Emin”.
  • the depth estimation apparatus 1E inputs the camera video (F C , F L , F R ) using the video input unit 10E (step S800).
  • the depth estimation device 1E calculates the left corresponding pixel difference value El and the right corresponding pixel difference value Er for each of the estimated depth value De and the target pixel by the corresponding pixel difference calculating unit 20E (step S810).
  • the depth estimation device 1E uses the minimum value selection unit 60 to minimize the smaller one of the left corresponding pixel difference value El and the right corresponding pixel difference value Er calculated in step S810 for each estimated depth value De and the target pixel.
  • the pixel difference value Emin is selected (step S820).
  • the depth estimation device 1E can generate a more accurate depth map D because the corresponding pixel difference value can be obtained even if occlusion occurs.
  • the depth estimation apparatus has been described as an independent apparatus, but the present invention is not limited to this.
  • a general computer hardware resource can be realized by a depth estimation program that performs a cooperative operation as each unit of the depth estimation device.
  • the depth estimation program can also be distributed via a communication line, or can be recorded on a recording medium such as a CD-ROM for distribution.
  • the depth map in FIG. 22 is generated by a conventional method that does not take into account a difference in depth value (depth difference) between a pixel of interest and an adjacent pixel (comparative example).
  • depth difference a difference in depth value
  • an adjacent pixel comparative example
  • a large number of pseudo matching occurs due to a large influence on the texture for each location of the subject, resulting in a noisy depth map.
  • FIG. 23 since the depth difference between the pixel of interest and the adjacent pixel is taken into account in Expression (1), pseudo matching is reduced and a smooth depth map is obtained.
  • the present invention can be used for live broadcasting of events such as the Tokyo Olympics using 3D images, and services and devices through 3D TV broadcasting and 3D videophone networks.
  • the present invention can also be used for stereoscopic video recording / playback equipment, distribution services, and stereoscopic movies using optical disks and hard disks.
  • the present invention can generate a hologram that is a stereoscopic image from a multi-viewpoint image and a depth map, it can also be used for an electronic holography device and a distribution service using it.
  • the present invention can be used for recognition of a three-dimensional space in a robot or for image analysis by a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Measurement Of Optical Distance (AREA)

Abstract

 奥行推定装置(1)は、複数のカメラ映像(F,F)を入力する映像入力手段(10)と、対応画素差分値Eを演算する対応画素差分演算手段(20)と、対応画素差分値(E)を記憶する差分値記憶手段(30)と、簡易な演算式で最小評価値及び推定評価値を演算し、推定評価値が最小評価値より小さい場合、推定奥行値を奥行値として決定する奥行値推定手段(100)とを備える。

Description

奥行推定装置、奥行推定方法及び奥行推定プログラム
 本願発明は、複数のカメラで被写体を撮影したカメラ映像から、多視点映像用の被写体の奥行値を推定する奥行推定装置、奥行推定方法及び奥行推定プログラムに関する。
 近年、複数のカメラで同一の被写体を撮影した複数のカメラ映像(多視点映像)を用いて、立体映像や自由視点映像を生成、符号化、伝送する研究が進められている。これらの立体映像や自由視点映像を生成、符号化、伝送する技術では、複数のカメラで被写体を撮影したカメラ映像の視差量を推定することで、被写体の奥行値を求めている(特許文献1参照)。そして、この奥行値を用いることで、伝送すべき視点映像の数を減らしたり、任意の視点映像を合成することができる。
 例えば、特許文献1に記載の発明は、図24のように、複数のカメラで撮影された視差方向に異なるカメラ映像(FLL~FRR)から、対応する画素の差分値を複数求めるものである。そして、特許文献1に記載の発明は、この中から最適な差分値を選択し、選択した差分値に平滑化処理を施し、その結果から最終的な奥行値を決定する。
特開2012-73813号公報
 しかし、特許文献1に記載の発明は、Graph-Cutsアルゴリズムを映像全体に施しているため、処理速度が遅く、リアルタイム処理(実時間処理)に適用することが困難であった。
 そこで、本願発明は、処理速度が速い奥行推定装置、奥行推定方法及び奥行推定プログラムを提供することを課題とする。
 本願第1発明に係る奥行推定装置は、予め定めた位置に複数配列したカメラで同一の被写体を撮影した複数のカメラ映像から、前記被写体の奥行きを示す奥行値を推定する奥行推定装置であって、映像入力手段と、対応画素差分演算手段と、奥行値初期化手段と、最小評価値演算手段と、推定評価値演算手段と、奥行値決定手段と、を備える構成とした。
 かかる構成によれば、奥行推定装置は、映像入力手段によって、前記複数配列した前記カメラの何れかにおいて、予め定めた基準カメラで前記被写体を撮影した基準映像と、前記基準カメラ以外の隣接カメラで前記被写体を撮影した隣接映像とを入力する。この隣接映像は、基準映像からの視差を計測するための映像である。
 奥行推定装置は、対応画素差分演算手段によって、予め定めた最小値から最大値までの推定奥行値及び前記基準映像の注目画素ごとに、前記注目画素の画素値と、当該注目画素の前記推定奥行値の視差に対応する画素位置にある前記隣接映像の対応画素の画素値との差分絶対値である対応画素差分値を演算する。この推定奥行値は、基準映像の画素に対応する被写体の奥行値を推定した値であって、例えば、最小視差(‘0’)から最大視差までの値とする。この対応画素差分演算手段によって、基準映像の注目画素の画素値と、隣接映像の推定奥行値に対応した対応画素値との差分絶対値が演算される。なお、この差分絶対値(隣接映像の対応画素差分値)は、その値が小さい程、推定奥行値が実際の被写体において同一の対応点を指し示している可能性が高いと言える。
 奥行推定装置は、奥行値初期化手段によって、前記最小値を、前記基準映像の全画素における奥行値の初期値として決定する。そして、奥行推定装置は、最小評価値演算手段によって、前記推定奥行値及び前記注目画素ごとに、前記注目画素と前記注目画素に隣接する隣接画素との奥行値の差分の和に予め設定した平滑係数が乗算された値を、決定された前記奥行値における前記注目画素の対応画素差分値に加えた最小評価値を演算する。さらに、奥行推定装置は、推定評価値演算手段によって、前記推定奥行値及び前記注目画素ごとに、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記平滑係数が乗算された値を、前記推定奥行値における前記注目画素の対応画素差分値に加えた推定評価値を演算する。
 奥行推定装置は、奥行値決定手段によって、前記推定奥行値及び前記注目画素ごとに、前記最小評価値と前記推定評価値とを比較し、前記推定評価値が前記最小評価値より小さい場合、前記推定奥行値を前記注目画素の奥行値として決定し、前記注目画素ごとの奥行値からなる奥行マップを生成する。
 このように、奥行推定装置は、Graph-Cutsアルゴリズムを映像全体に施すのではなく、注目画素及び隣接画素の局所領域を対象として、簡易な演算式により評価値を求めるので、演算量が減少する。
 本願第2発明に係る奥行推定装置は、前記注目画素と前記注目画素の近傍画素との画素値の差分によりエッジを検出するエッジ検出手段、をさらに備え、前記最小評価値演算手段は、前記エッジが検出された場合、前記平滑係数よりも小さな値で予め定めた第2平滑係数を、前記注目画素と前記隣接画素の奥行値との差分の和に乗算し、前記推定評価値演算手段は、前記エッジが検出された場合、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記第2平滑係数が乗算された値と、前記平滑係数及び前記第2平滑係数の間で予め定めた第3平滑係数が前記決定された奥行値と前記推定奥行値との差分に乗算された値とを、前記推定奥行値における前記注目画素の対応画素差分値に加えた前記推定評価値を演算することを特徴とする。
 かかる構成によれば、第2平滑係数を用いて、エッジ部分で奥行値の連続性重みを下げると共に、第3平滑係数を用いて、奥行値の大きな変動を押さえるので、エッジがある場合でもより正確な奥行マップを生成することができる。
 本願第3発明に係る奥行推定装置は、前記映像入力手段に入力された基準映像及び隣接映像を縮小する映像縮小手段、をさらに備え、前記対応画素差分演算手段は、前記推定奥行値及び縮小された前記基準映像の注目画素ごとに、前記対応画素差分値を演算し、前記奥行値初期化手段は、前記最小値を前記縮小された基準映像の全画素の奥行値として初期設定し、前記最小評価値演算手段は、前記推定奥行値及び前記縮小された基準映像の注目画素ごとに、前記最小評価値を演算し、前記推定評価値演算手段は、前記推定奥行値及び前記縮小された基準映像の注目画素ごとに、前記推定評価値を演算し、前記奥行値決定手段は、前記縮小された基準映像と同一サイズの前記奥行マップである縮小奥行マップを生成することを特徴とする。
 かかる構成によれば、奥行推定装置は、カメラ映像を縮小するので、処理対象の注目画素数が少なくなり、さらに高速に奥行マップを生成することができる。
 本願第4発明に係る奥行推定装置は、前記映像入力手段に入力された基準映像と同一サイズまで前記縮小奥行マップが拡大された参照奥行マップを生成する奥行マップ拡大手段と、前記推定奥行値及び前記映像入力手段に入力された基準映像の注目画素ごとに、当該注目画素の画素値と、前記映像入力手段に入力された隣接映像の対応画素の画素値との差分絶対値である第2対応画素差分値を演算する第2対応画素差分演算手段と、前記参照奥行マップの全画素の奥行値を、第2奥行マップの全画素における奥行値の初期値として決定する第2奥行値初期化手段と、前記第2奥行マップの第2注目画素ごとに、前記第2注目画素の奥行値が前記第2注目画素に隣接する第2隣接画素の奥行値よりも小さい場合、前記第2注目画素と前記第2隣接画素との奥行値の差分の和に前記平滑係数が乗算された値を、決定された前記奥行値における前記第2注目画素の第2対応画素差分値に加えた第2最小評価値を演算する第2最小評価値演算手段と、前記第2注目画素ごとに、前記第2注目画素の奥行値が前記第2注目画素に隣接する第2隣接画素の奥行値よりも小さい場合、前記第2隣接画素同士の奥行値の差分に前記平滑係数が乗算された値を、前記第2隣接画素の奥行値における前記第2注目画素の第2対応画素差分値に加えた推定評価値を演算する第2推定評価値演算手段と、前記第2注目画素ごとに、前記第2最小評価値と前記第2推定評価値とを比較し、前記第2推定評価値が前記第2最小評価値より小さい場合、前記第2隣接画素の奥行値を前記第2注目画素の奥行値として決定し、前記第2注目画素ごとの奥行値からなる前記第2奥行マップを生成する第2奥行値決定手段と、を備えることを特徴とする。
 かかる構成によれば、奥行推定装置は、エッジ部分に含まれる画素の奥行値を簡易な演算式で推定し直すので、より正確な奥行マップを生成することができる。
 本願第5発明に係る奥行推定装置は、前記奥行マップが縮小された縮小奥行マップを生成する奥行マップ縮小手段、をさらに備え、前記奥行値決定手段は、前記推定奥行値及び前記縮小奥行マップの第3注目画素ごとに、前記第3注目画素に隣接する全ての第3隣接画素について、前記第3隣接画素の奥行値から所定値を減算した減算値を演算し、前記第3注目画素の奥行値が全ての前記第3隣接画素から演算した減算値以上となる場合、前記第3注目画素に対応する前記基準映像の画像領域の再評価を指令し、前記最小評価値演算手段は、前記再評価の指令に応じて、前記推定奥行値及び前記画像領域の注目画素ごとに、当該注目画素と前記隣接画素との奥行値の差分の和に前記平滑係数よりも大きな値で予め定めた第4平滑係数が乗算された値を、決定された前記奥行値における当該注目画素の対応画素差分値に加えた最小評価値を再び演算し、前記推定評価値演算手段は、前記再評価の指令に応じて、前記推定奥行値及び前記画像領域の注目画素ごとに、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記第4平滑係数が乗算された値を、前記推定奥行値における当該注目画素の対応画素差分値に加えた推定評価値を再び演算し、前記奥行値決定手段は、前記推定奥行値及び前記画像領域の注目画素ごとに、再び演算された前記最小評価値と前記推定評価値とを比較し、当該推定評価値が当該最小評価値より小さい場合、当該推定奥行値を当該注目画素の奥行値として決定することを特徴とする。
 かかる構成によれば、奥行推定装置は、エッジ部分に含まれない画素の奥行値をより強く平滑化すると共に、エッジ部分に含まれる画素の奥行値を平滑化しないので、エッジ部分が潰れずに、より正確な奥行マップを生成することができる。
 本願第6発明に係る奥行推定装置は、前記最小評価値演算手段が、前記基準映像の4隅何れかの起点側から前記起点側に対向する終点側まで前記注目画素を移動させながら前記最小評価値を演算した後、前記終点側から前記起点側まで前記注目画素を移動させながら前記最小評価値を再び演算し、前記推定評価値演算手段は、前記起点側から前記終点側まで前記注目画素を移動させながら前記推定評価値を演算した後、前記終点側から前記起点側まで前記注目画素を移動させながら前記推定評価値を再び演算し、前記奥行値決定手段は、前記注目画素の奥行値を決定した後、再び演算した前記最小評価値と前記推定評価値とを比較し、当該推定評価値が当該最小評価値より小さい場合、当該推定奥行値を当該注目画素の奥行値として再び決定することを特徴とする。
 かかる構成によれば、奥行推定装置は、終点側から起点側に向けて奥行値を再び演算するので、より連続性が高い奥行マップを生成することができる。
 本願第7発明に係る奥行推定装置は、前記映像入力手段が、前記基準映像と、前記基準カメラの左右に配置された前記隣接カメラで撮影された前記隣接映像である左隣接映像及び右隣接映像とを入力し、前記対応画素差分演算手段は、前記基準映像及び前記左隣接映像の間での前記対応画素差分値である左対応画素差分値と、前記基準映像及び前記右隣接映像の間での前記対応画素差分値である右対応画素差分値とを演算し、前記左対応画素差分値又は前記右対応画素差分値のうち小さい方を最小対応画素差分値として選択する最小値選択手段、をさらに備え、前記最小評価値演算手段は、前記対応画素差分値として、前記最小対応画素差分値を用いて前記最小評価値を演算し、前記推定評価値演算手段は、前記対応画素差分値として、前記最小対応画素差分値を用いて前記推定評価値を演算することを特徴とする。
 かかる構成によれば、奥行推定装置は、左右の隣接映像の何れか一方において、オクルージョンにより対応画素が被写体に隠れてしまう場合でも、残りの隣接映像で対応画素が見えるので、正確な対応画素差分値を求めることができる。
 本願第8発明に係る奥行推定装置は、前記映像入力手段に入力されたカメラ映像のうち、最小サイズのカメラ映像に合わせて他のカメラ映像を縮小する映像縮小手段、をさらに備えることを特徴とする。
 かかる構成によれば、奥行推定装置は、カメラ映像のサイズが異なる場合でも、より正確な奥行マップを生成することができる。
 ここで、本願発明に係る奥行推定装置は、コンピュータが備えるCPU、メモリ等のハードウェア資源を、前記した各手段として協調動作させる奥行推定プログラムで実現することもできる(本願第9発明)。
 本願第10発明に係る奥行推定方法は、予め定めた位置に複数配列したカメラで同一の被写体を撮影した複数のカメラ映像から、前記被写体の奥行きを示す奥行値を推定する奥行推定方法であって、映像入力ステップと、対応画素差分演算ステップと、奥行値初期化ステップと、評価値演算ステップと、評価値判定ステップと、奥行値決定ステップと、を順に実行する手順とした。
 かかる手順によれば、奥行推定方法は、映像入力ステップにおいて、前記複数配列した前記カメラの何れかにおいて、予め定めた基準カメラで前記被写体を撮影した基準映像と、前記基準カメラ以外の隣接カメラで前記被写体を撮影した隣接映像とを入力する。
 奥行推定方法は、対応画素差分演算ステップにおいて、予め定めた最小値から最大値までの推定奥行値及び前記基準映像の注目画素ごとに、前記注目画素の画素値と、当該注目画素の前記推定奥行値の視差に対応する画素位置にある前記隣接映像の対応画素の画素値との差分絶対値である対応画素差分値を演算する。
 奥行推定方法は、奥行値初期化ステップにおいて、前記最小値を、前記基準映像の全画素における奥行値の初期値として決定する。
 奥行推定方法は、評価値演算ステップにおいて、前記推定奥行値及び前記注目画素ごとに、前記注目画素と前記注目画素に隣接する隣接画素との奥行値の差分の和に予め設定した平滑係数が乗算された値を、決定された前記奥行値における前記注目画素の対応画素差分値に加えた最小評価値を演算すると共に、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記平滑係数が乗算された値を、前記推定奥行値における前記注目画素の対応画素差分値に加えた推定評価値を演算する。
 奥行推定方法は、評価値判定ステップにおいて、前記推定奥行値及び前記注目画素ごとに、前記最小評価値と前記推定評価値とを比較し、前記推定評価値が前記最小評価値より小さいか否かを判定する。
 奥行推定方法は、奥行値決定ステップにおいて、前記推定評価値が前記最小評価値より小さい場合、前記推定奥行値を前記注目画素の奥行値として決定し、前記注目画素ごとの奥行値からなる奥行マップを生成する。
 このように、奥行推定方法は、Graph-Cutsアルゴリズムを映像全体に施すのではなく、注目画素及び隣接画素の局所領域を対象として、簡易な演算式により評価値を求めるので、演算量が減少する。
 本願発明は、以下に示す優れた効果を奏するものである。
 本願第1,9,10発明によれば、注目画素及び隣接画素の局所領域を対象として、簡易な演算式により評価値を求めるため、演算量が減少する。これにより、本願第1,9,10発明よれば、処理速度が速くなり、リアルタイム処理に容易に適用することができる。
 本願第2発明によれば、エッジ部分で奥行値の連続性重みを下げると共に、奥行値の大きな変動を押さえるので、より正確な奥行マップを生成することができる。
 本願第3発明によれば、カメラ映像を縮小するので、処理対象の注目画素数が少なくなり、さらに高速に奥行マップを生成することができる。
 本願第4発明によれば、エッジ部分に含まれる画素の奥行値を簡易な演算式で推定し直すので、より正確な奥行マップを生成することができる。
 本願第5発明によれば、エッジ部分に含まれない画素の奥行値をより強く平滑化すると共に、エッジ部分に含まれる画素の奥行値を平滑化しないので、より正確な奥行マップを生成することができる。
 本願第6発明によれば、終点側から起点側に向けて奥行値を再び演算するので、より連続性が高い奥行マップを生成することができる。
 本願第7発明によれば、オクルージョンが発生しても対応画素差分値を求められるので、より正確な奥行マップを生成することができる。
 本願第8発明によれば、カメラ映像のサイズが異なる場合でも、より正確な奥行マップを生成することができる。
本願発明の第1実施形態に係る奥行推定装置の構成を示すブロック図である。 視差量及び奥行値を説明する説明図である。 図1の奥行値推定手段の構成を示すブロック図である。 注目画素と左隣接画素又は上隣接画素とのマッチング誤差を説明する説明図である。 図1の奥行推定装置の動作を示すフローチャートである。 本願発明の変形系1に係る奥行推定装置の動作を示すフローチャートである。 注目画素と右隣接画素又は下隣接画素とのマッチング誤差を説明する説明図である。 本願発明の第2実施形態において、奥行値推定手段の構成を示すブロック図である。 縮小奥行マップの1画素と、基準映像の画像領域との対応関係を説明する説明図である。 図8の奥行推定装置の動作を示すフローチャートである。 本願発明の第3実施形態に係る奥行推定装置の構成を示すブロック図である。 図11の奥行推定装置の動作を示すフローチャートである。 本願発明の第4実施形態に係る奥行推定装置の構成を示すブロック図である。 図13の奥行推定装置の動作を示すフローチャートである。 本願発明の第5実施形態に係る奥行推定装置の構成を示すブロック図である。 図15の奥行値推定手段の構成を示すブロック図である。 図15の奥行推定装置の動作を示すフローチャートである。 図17の奥行値推定処理を示すフローチャートである。 図17の奥行値推定処理を示すフローチャートである。 本願発明の第6実施形態に係る奥行推定装置の構成を示すブロック図である。 図20の奥行推定装置の動作を示すフローチャートである。 比較例を説明する画像である。 本願発明の実施例を説明する画像である。 従来の奥行推定手法を説明するための説明図である。
 以下、本願発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一手段及び同一処理には同一の符号を付し、説明を省略した。
(第1実施形態)
[奥行推定システムの概略]
 図1を参照して、本願発明の第1実施形態に係る奥行推定装置1が含まれる奥行推定システムSの概略について説明する。
 奥行推定システムSは、予め定めた位置に複数配列したカメラCMで被写体Tを撮影したカメラ映像(F,F)から、被写体Tの奥行値を推定した奥行マップDを生成するものである。図1に示した奥行推定システムSは、カメラCM(C,C)と、奥行推定装置1とを備えている。
 カメラCMは、被写体Tを撮影する一般的な撮影装置である。また、被写体Tは、例えば、背景A及び前景Bを含んでいる。
 ここでは、水平方向の視差に応じて奥行値を生成することとし、視差の基準となるカメラ(基準カメラ)Cに対し、水平方向に予め定めた距離Lだけ互いに離間して、カメラ(隣接カメラ)Cを平行に配置している。このカメラCM(C,C)で撮影された映像(F,F)は、奥行推定装置1に入力される。
 この距離Lは、奥行値と視差量とが対応可能な範囲であれば、その距離は任意である。
 また、垂直方向の視差に応じて奥行値を生成する場合、カメラCMは、垂直方向に離間させて配置すればよい。
 カメラCは、視差の基準となる基準映像Fを撮影するものである。また、カメラCは、カメラCの左に配置されたカメラであって、基準映像Fとの視差を求めるための隣接映像Fを撮影するものである。本実施形態では、隣接映像Fは、基準映像Fと同一サイズであることとする。
 なお、本実施形態では、カメラCを基準カメラとし、カメラCを隣接カメラとしたが、カメラCを基準カメラとし、カメラCを隣接カメラとしてもよい。
 カメラCMが撮影するカメラ映像(F,F)は、静止画であっても動画であっても構わない。カメラ映像が動画である場合、フレーム同期を行うことで、順次、静止画のフレーム画像として奥行推定装置1に入力されることとする。あるいは、フレーム画像ごとにタイムコードを付加し、奥行推定装置1で同期をとることとしてもよい。
[奥行推定装置の構成]
 以下、本願発明の第1実施形態に係る奥行推定装置1の構成について説明する
 奥行推定装置1は、予め定めた位置に複数配列したカメラC,Cで同一の被写体Tを撮影した複数のカメラ映像(F,F)から、被写体Tの奥行きを示す奥行値を推定するものである。図1のように、奥行推定装置1は、映像入力手段10と、対応画素差分演算手段20と、差分値記憶手段30と、奥行値推定手段100とを備える。
 映像入力手段10は、カメラCMで撮影された複数のカメラ映像(F,F)を入力するものである。ここでは、映像入力手段10は、基準カメラCで撮影した基準映像Fと、隣接カメラCで撮影した隣接映像Fとを入力する。
 この映像入力手段10に入力されたカメラ映像(F,F)は、図示を省略したメモリに記憶され、後記する対応画素差分演算手段20及び奥行値推定手段100(エッジ検出手段110)によって参照されるものとする。
 ここで、視差量及び奥行値について説明する。図2のように、カメラ映像(F,F)に写る被写体T(背景A,前景B)の位置は、互いに内側にずれる。被写体Tのズレ量は、カメラCMから被写体Tまでの距離の逆数に比例する。このズレ量を、被写体Tの視差量と呼び、この視差量を、被写体Tの最大距離と最小距離で所定の範囲に正規化したものを奥行値と呼ぶ。この奥行値の最大値は、カメラCMの焦点が合う被写体Tの最近距離となり、最小値は無限遠で予め分かる。また、被写体Tの存在する距離の範囲が予め分かる場合、その最近距離及び最遠距離から奥行値の最大値と最小値を決める。しかし、個々の被写体Tの各部の奥行値は未知のため、以下に述べる手法で推定する。
 対応画素差分演算手段20は、推定奥行値De及び基準映像Fの注目画素Pごとに、注目画素Pの画素値と、注目画素Pの推定奥行値Deの視差に対応する画素位置にある隣接映像Fの対応画素Pの画素値との差分絶対値である対応画素差分値Eを演算するものである。
 なお、注目画素Pとは、基準映像Fにおいて奥行値を推定する対象となっている画素である。
 また、図1では、対応画素差分値Eを‘差分値E’と図示した。
 画素値の差分絶対値は、カメラ映像(F,F)が、輝度(輝度値)と色差信号(色差値)との各要素で構成される場合、当該画素の輝度値の差分絶対値と、色差値の差分絶対値とを加算平均した値とする。このとき、色差値の差分絶対値に任意の係数を掛けて、色成分の重みを調整することとしてもよい。
 また、画素値の差分絶対値は、カメラ映像(F,F)が、RGBのカラー信号で構成される場合、カラー信号の要素であるR値の差分絶対値と、G値の差分絶対値と、B値の差分絶対値とを加算平均した値とする。
 また、推定奥行値Deは、被写体Tの奥行値を仮に設定する値であって、最小視差量から最大視差量までに対応する奥行値までの値をとる。例えば、奥行値を8ビットのデータで表す場合、推定奥行値Deは、‘0’(最小視差量)~‘255’(最大視差量)の範囲の値をとる。ここでは、奥行値の単位と画素間の視差の単位とを同一とし、奥行値が‘1’増加することで、1画素ずつ視差が増加することとする。
 カメラCMが平行に配置されている場合、図2のように、左側のカメラCで撮影された隣接映像Fでは、右側のカメラCで撮影された基準映像Fと比べて、前景Bの対応する画素(対応画素)Pが右側に寄っている。そこで、隣接映像Fにおいて、基準映像Fの画素Pと同じ画素位置(X,Y)を、前景Bのズレ方向と同じ側(つまり、右側)に推定奥行値Deだけ移動させれば、対応画素Pに近づく。このとき、推定奥行値Deが適切であれば、基準映像Fの画素Pが対応画素Pに重なる。
 以上より、対応画素差分演算手段20は、推定奥行値Deを最小値から最大値まで順に変えながら、基準映像Fの全ての注目画素Pについて、隣接映像F内で注目画素Pの座標位置(X,Y)を、推定奥行値Deに相当する視差量だけ右側に移動させて、隣接映像Fの対応画素Pを求める。そして、対応画素差分演算手段20は、注目画素Pの画素値Prと、対応画素Pの画素値Plの差分|Pl-Pr|を求める。その後、対応画素差分演算手段20は、求めた差分|Pl-Pr|を、推定奥行値Deに対する注目画素Pの対応画素差分値Eとして、差分値記憶手段30に記憶する。
 なお、‘|’は、絶対値を表す。
 ここで、対応画素差分演算手段20は、1画素ごとに差分を求めてもよく、注目画素Pを中心とする複数画素の差分を総和してもよい。また、対応画素差分演算手段20は、カラー信号の場合、輝度成分と色差成分とのそれぞれの差分の平均値を求めてもよい。これにより、対応画素差分演算手段20は、奥行値Dfのノイズを低減させることができる。
 差分値記憶手段30は、推定奥行値De及び注目画素Pごとに、対応画素差分演算手段20が演算した対応画素差分値Eを記憶するものである。例えば、差分値記憶手段30は、磁気メモリや半導体メモリ等の一般的な記憶媒体である。
 この差分値記憶手段30に記憶された対応画素差分値Eは、後記する奥行値推定手段100によって参照される。
 図3を参照し、奥行値推定手段100の構成について説明する。
 図3のように、奥行値推定手段100は、注目画素Pの奥行値を推定するものであり、エッジ検出手段110と、奥行差加算手段120と、奥行値決定手段130と、奥行値記憶手段140とを備える。
 エッジ検出手段110は、基準映像Fの注目画素Pの画素値Pfと注目画素Pの近傍画素の画素値との差分が予め定めた閾値Thより小さいか否かを判定するものである。
 具体的には、エッジ検出手段110は、注目画素Pの画素値Pfと左近傍画素の画素値Plとの差分|Pf-Pl|、及び、注目画素Pの画素値Pfと上近傍画素の画素値Puとの差分|Pf-Pu|が閾値Th(例えば、‘60’)より小さいか否かを判定する。
 なお、左近傍画素は、注目画素の左側近傍に位置する隣接画素である。また、上近傍画素は、注目画素の上側近傍に位置する隣接画素である。
 そして、エッジ検出手段110は、差分|Pf-Pl|及び差分|Pf-Pu|の両方が閾値Thより小さい場合、注目画素Pの位置にエッジが無いことを示すフラグGを奥行差加算手段120に出力する。
 一方、エッジ検出手段110は、差分|Pf-Pl|又は差分|Pf-Pu|が閾値Th以上の場合、フラグGを奥行差加算手段120に出力しない。
 奥行差加算手段120は、対応画素差分値Eに注目画素Pと隣接画素との奥行差を加算するものであり、最小評価値演算手段122と、推定評価値演算手段124とを備える。
 最小評価値演算手段122は、推定奥行値De及び注目画素Pごとに、決定された奥行値Dfにおける注目画素Pの対応画素差分値E(Df)に、注目画素Pと注目画素に隣接する隣接画素との奥行値の差分の和に平滑係数λを乗算した値を加えた最小評価値Ffを演算するものである。
 具体的には、最小評価値演算手段122は、奥行値決定手段130を介して、奥行値記憶手段140から注目画素Pの奥行値Dfを読み出し、この奥行値Dfに対応した対応画素差分値E(Df)を差分値記憶手段30から読み出す。
 そして、最小評価値演算手段122は、エッジ検出手段110からフラグGが入力された場合(エッジが無い場合)、下記の式(1)により最小評価値Ffを演算し、演算した最小評価値Ffを奥行値決定手段130に出力する。
Ff=E(Df)+λ(|Df-Dl|+|Df-Du|) …式(1)
 この式(1)では、Dlが左隣接画素の奥行値を表し、Duが上隣接画素の奥行値を表す。つまり、式(1)では、奥行値Dfをとる場合において、対応画素差分値E(Df)と、注目画素P及び左隣接画素の奥行差Df-Dlと、注目画素P及び上隣接画素の奥行差Df-Duとを加味し、マッチング誤差を評価している(図4参照)。
 なお、左隣接画素は、注目画素Pの左側に位置する隣接画素である。また、上隣接画素は、注目画素Pの上側に位置する隣接画素である。
 ここで、式(1)の第2項は、画素間の奥行値の連続性重みを表しており、この値が大きい程奥行マップDが滑らかになる(後記する式(2)、式(3)及び式(4)も同様)。
 また、平滑係数λは、その値を大きくすると、奥行マップDが滑らかになる一方、その細部が潰れてしまう。そこで、平滑係数λは、適切な値(例えば、‘1.0’)に予め定めておく。
 一方、最小評価値演算手段122は、エッジ検出手段110からフラグGが入力されない場合(エッジが有る場合)、下記の式(2)により最小評価値Ffを演算し、演算した最小評価値Ffを奥行値決定手段130に出力する。この平滑係数(第2平滑係数)λ´は、平滑係数λよりも小さな値(例えば、‘0.004’)に予め定めておく。
Ff=E(Df)+λ´(|Df-Dl|+|Df-Du|) …式(2)
 なお、最小評価値演算手段122は、注目画素Pの左側又は上側に隣接画素が無い場合、奥行差Df-Dl又はDf-Duを演算せずともよい。この場合、最小評価値演算手段122は、演算できなかった項を除いて最小評価値Ffを演算する。
 また、最小評価値演算手段122は、左隣接画素が無い場合、右隣接画素の奥行値をDlとして代用してもよく、上隣接画素が無い場合、下隣接画素の奥行値をDuとして代用してもよい。
 また、右隣接画素は、注目画素の右側に位置する隣接画素である。また、下隣接画素は、注目画素の下側に位置する隣接画素である。
 推定評価値演算手段124は、推定奥行値De及び注目画素Pごとに、推定奥行値Deにおける注目画素Pの対応画素差分値E(De)に、推定奥行値Deと隣接画素の奥行値との差分の和に平滑係数を乗算した値を加えた推定評価値Feを演算するものである。
 具体的には、推定評価値演算手段124は、推定奥行値Deに対応した対応画素差分値E(De)を差分値記憶手段30から読み出す。そして、推定評価値演算手段124は、エッジ検出手段110からフラグGが入力された場合、下記の式(3)により推定評価値Feを演算し、演算した推定評価値Feを奥行値決定手段130に出力する。
Fe=E(De)+λ(|De-Dl|+|De-Du|) …式(3)
 つまり、式(3)では、推定奥行値Deをとる場合において、対応画素差分値E(De)と、注目画素P及び左隣接画素の奥行差De-Dlと、注目画素P及び上隣接画素の奥行差De-Duとを加味して、マッチング誤差を評価している(図4参照)。
 なお、図3では、最小評価値Ff及び推定評価値Feを‘評価値Ff,Fe’と略記した。
 また、推定評価値演算手段124は、エッジ検出手段110からフラグGが入力されない場合、下記の式(4)により推定評価値Feを演算し、演算した推定評価値Feを奥行値決定手段130に出力する。
Fe=E(De)+λ´(|De-Dl|+|De-Du|)+λ´´|De-Df| …式(4)
 ここで、式(4)の第3項は、奥行値の連続性重みが小さいときに生じる奥行値の変動を抑える重みである。この平滑係数(第3平滑係数)λ´´は、平滑係数λと平滑係数λ´との間の値(例えば、‘0.04’)に予め定めておく。
 なお、推定評価値演算手段124は、注目画素Pの左側又は上側に隣接画素が無い場合、奥行差De-Dl又はDe-Duを演算せずともよい。この場合、推定評価値演算手段124は、演算できなかった項を除いて推定評価値Feを演算する。
 また、推定評価値演算手段124は、左隣接画素が無い場合、右隣接画素の奥行値をDlとして代用してもよく、上隣接画素が無い場合、下隣接画素の奥行値をDuとして代用してもよい。
 奥行値決定手段130は、推定奥行値De及び注目画素Pごとに、最小評価値演算手段122から入力された最小評価値Ffと、推定評価値演算手段124から入力された推定評価値Feとを比較するものである。
 そして、奥行値決定手段130は、推定評価値Feが最小評価値Ffより小さい場合、推定奥行値Deを注目画素Pの奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140を更新する。このようにして、奥行値決定手段130は、注目画素Pごとの奥行値Dfからなる奥行マップDを生成する。つまり、奥行マップDは、各画素が奥行値Dfを表した奥行映像のことである。
 また、奥行値決定手段130は、奥行値初期化手段132を備える。
 奥行値初期化手段132は、推定奥行値Deの最小値を、基準映像Fの全画素における奥行値Dfの初期値として決定し、決定した奥行値Dfの初期値を奥行値記憶手段140に書き込むものである。例えば、奥行値初期化手段132は、最小評価値演算手段122が最小評価値Ffを演算する前に、奥行値Dfの初期値を決定する。
 奥行値記憶手段140は、推定奥行値De及び注目画素Pごとの奥行値Dfを記憶するものである。例えば、奥行値記憶手段140は、磁気メモリや半導体メモリ等の一般的な記憶媒体である。
 この奥行値記憶手段140に記憶された奥行値Dfは、奥行マップDとして外部に出力される。
[奥行推定装置の動作]
 図5を参照して、図1の奥行推定装置1の動作について説明する。
 奥行推定装置1は、映像入力手段10によって、カメラ映像(F,F)を入力する(映像入力ステップS10)。
 奥行推定装置1は、推定奥行値Deが最小値から最大値になり、Yが‘0’から映像高さになり、Xが‘0’から映像幅になるまで、下記のステップS20の処理を繰り返す。ここで、注目画素Pの座標を(X,Y)とする。また、基準映像Fの幅及び高さを、映像幅及び映像高さとして予め定めておく。
 奥行推定装置1は、対応画素差分演算手段20によって、注目画素P(X,Y)の対応画素差分値Eを演算し、演算した対応画素差分値Eを差分値記憶手段30に記憶する(対応画素差分演算ステップS20)。
 奥行推定装置1は、奥行値初期化手段132によって、推定奥行値Deの最小値を、基準映像Fの全画素における奥行値Dfの初期値として決定し、決定した奥行値Dfの初期値を奥行値記憶手段140に書き込む(奥行値初期化ステップS30)。
 奥行推定装置1は、推定奥行値Deが最小値+1から最大値になり、Yが‘0’から映像高さになり、Xが‘0’から映像幅になるまで、下記のステップS40~S60の処理を繰り返す。つまり、奥行推定装置1は、基準映像Fの左上側(起点側)から右下側(終点側)まで、ジグザグスキャンのように注目画素P(X,Y)を移動させながら、ステップS40~S60の処理を行う。
 奥行推定装置1は、エッジ検出手段110によって、注目画素Pの画素値Pfと近傍画素の画素値との差分が閾値Thより小さい場合、フラグGを出力する。
 奥行推定装置1は、最小評価値演算手段122によって、フラグGに応じて式(1)又は式(2)を用いて、注目画素P(X,Y)における最小評価値Ffを演算する。
 奥行推定装置1は、推定評価値演算手段124によって、フラグGに応じて式(3)又は式(4)を用いて、注目画素P(X,Y)における推定評価値Feを演算する(評価値演算ステップS40)。
 奥行推定装置1は、奥行値決定手段130によって、ステップS40で演算された最小評価値Ffと推定評価値Feとを比較する(評価値判定ステップS50)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS50でYes)、奥行推定装置1は、奥行値決定手段130によって、推定奥行値Deを注目画素P(X,Y)の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140を更新する(奥行値決定ステップS60)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS50でNo)、奥行推定装置1は、ステップS60の処理を行わない。
 ステップS60の終了後、奥行推定装置1は、奥行値記憶手段140に記憶された奥行マップDを出力する(ステップS70)。
 なお、ステップS40~S60において、奥行推定装置1は、注目画素P(X,Y)を、右下側(始点側)から左上側(終点側)まで移動させてもよい。
[作用・効果]
 以上のように、本願発明の第1実施形態に係る奥行推定装置1は、推定奥行値Deを最小値から最大値まで増加させながら、その推定奥行値Deに対して、注目画素Pで既に決定された奥行値Dfを推定奥行値Deに変更するか否かを一意的に判定するので、奥行マップDを高速に生成することができる。
 さらに、奥行推定装置1は、注目画素P及び隣接画素の局所領域を対象として、式(1)から式(4)のような簡易な演算式により評価値Ff,Feを求めるため、処理速度が速くなり、リアルタイム処理への適用が容易となる。
 さらに、奥行推定装置1は、エッジ部分で奥行値の連続性重みを下げると共に、奥行値の大きな変動を押さえるので、エッジがある場合でもより正確な奥行マップDを生成することができる。
 その結果、奥行推定装置1は、高速に正確な奥行マップDが得られるので、ロボット等のコンピュータによる立体空間の認識手段として利用できる。
 さらに、奥行推定装置1は、奥行マップDから他の視点映像内での対応画素位置が得られるので、これを使って少数の視点映像から、他の視点映像を合成することができる。これにより、奥行推定装置1は、立体映像の生成に必要な多数の視点映像からなる立体映像データを、少数の視点映像とその奥行マップDに削減して蓄積や伝送をすることが可能になる。
(変形例1)
 図6,図7を参照し、本願発明の変形例1に係る奥行推定装置1の動作について、第1実施形態と異なる点を説明する。
 奥行推定装置1は、基準映像Fの左上側から右下側まで注目画素Pを移動させながら奥行値Dfを決定した後、基準映像Fの右下側から左上側までジグザグスキャンのように注目画素Pを移動させながら奥行値Dfを再び決定する点が、第1実施形態と異なる。
 奥行推定装置1は、図5のステップS10~S30の処理を実行する(図6不図示)。
 図6のように、奥行推定装置1は、図5のステップS30の処理後、以下の処理を行う。
 奥行推定装置1は、推定奥行値Deが最小値+1から最大値になるまで、ステップS40~S60及びステップS80~S100の処理を繰り返す。
 奥行推定装置1は、Yが‘0’から映像高さになり、Xが‘0’から映像幅になるまで、ステップS40~S60の処理を繰り返す。
 奥行推定装置1は、Yが映像高さから‘0’になり、Xが映像幅から‘0’になるまで、ステップS80~S100の処理を繰り返す。つまり、奥行推定装置1は、基準映像Fの右下側から左上側まで、ジグザグスキャンのように注目画素P(X,Y)を移動させながら、ステップS80~S100の処理を行う。
 奥行推定装置1は、エッジ検出手段110によって、注目画素P(X,Y)の画素値Pfと近傍画素の画素値との差分が閾値Thより小さい場合、フラグGを出力する。
 奥行推定装置1は、最小評価値演算手段122によって、エッジ検出手段110からフラグGが入力された場合、下記の式(5)で注目画素P(X,Y)における最小評価値Ffを演算する。
Ff=E(Df)+λ(|Df-Dr|+|Df-Dd|) …式(5)
 つまり、式(5)では、奥行値Dfをとる場合において、対応画素差分値E(Df)と、注目画素P及び右隣接画素との奥行差Df-Drと、注目画素P及び下隣接画素との奥行差Df-Ddとを加味し、マッチング誤差を評価している(図7参照)。
 また、奥行推定装置1は、最小評価値演算手段122によって、エッジ検出手段110からフラグGが入力されない場合、下記の式(6)で注目画素P(X,Y)における最小評価値Ffを演算する。
Ff=E(Df)+λ´(|Df-Dr|+|Df-Dd|) …式(6)
 奥行推定装置1は、推定評価値演算手段124によって、エッジ検出手段110からフラグGが入力された場合、下記の式(7)で注目画素P(X,Y)における推定評価値Feを演算する。
Ff=E(De)+λ(|De-Dr|+|De-Dd|) …式(7)
 つまり、式(7)では、推定奥行値Deをとる場合において、対応画素差分値E(De)と、注目画素P及び右隣接画素との奥行差De-Drと、注目画素P及び下隣接画素との奥行差De-Ddとを加味し、マッチング誤差を評価している(図7参照)。
 また、奥行推定装置1は、推定評価値演算手段124によって、エッジ検出手段110からフラグGが入力されない場合、下記の式(8)で注目画素P(X,Y)における推定評価値Feを演算する(ステップS80)。
Ff=E(De)+λ´(|De-Dr|+|De-Dd|)+λ´´|De-Df| …式(8)
 奥行推定装置1は、奥行値決定手段130によって、ステップS80で演算された最小評価値Ffと推定評価値Feとを比較する(ステップS90)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS90でYes)、奥行推定装置1は、奥行値決定手段130によって、推定奥行値Deを注目画素P(X,Y)の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140を更新する(ステップS100)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS90でNo)、奥行推定装置1は、ステップS100の処理を行わない。
 以上のように、本願発明の変形例1に係る奥行推定装置1は、ステップS80~S100で奥行値Dfを再び決定するため、さらに連続性が高い奥行マップDを生成することができる。
 なお、ステップS40~S60の処理において、奥行推定装置1は、注目画素P(X,Y)を右下側から左上側まで移動させてもよい。この場合、奥行推定装置1は、ステップS80~S100の処理において、注目画素P(X,Y)を左上側から右下側まで移動させてもよい。
(第2実施形態)
[奥行推定装置の構成]
 図8を参照し、本願発明の第2実施形態に係る奥行推定装置1Aの構成について、第1実施形態と異なる点を説明する(適宜図3参照)。
 奥行推定装置1Aは、奥行マップDを縮小する点が第1実施形態と異なる。図8のように、奥行推定装置1Aは、図3の奥行値推定手段100の代わりに、奥行値推定手段100Aを備える。
 奥行値推定手段100Aは、エッジ検出手段110と、奥行差加算手段120Aと、奥行値決定手段130Aと、奥行値記憶手段140と、奥行マップ縮小手段150とを備える。
 奥行差加算手段120Aは、最小評価値演算手段122Aと、推定評価値演算手段124Aとを備える。
 奥行マップ縮小手段150は、奥行値記憶手段140の奥行マップDが縮小された縮小奥行マップDmを生成するものである。
 具体的には、奥行マップ縮小手段150は、奥行マップDで水平方向に連続する2画素の奥行値D(2n),D(2n+1)に対して、下記の式(9)の演算を行う。
D´(n)={D(2n)+D(2n+1)}/2 …式(9)
 nは、‘0’から、奥行マップDで水平方向の最大画素数の半分までの値を取る自然数である。また、D´(n)は、水平方向に縮小された奥行マップD´の画素nの奥行値を表す。
 また、奥行マップ縮小手段150は、式(9)で水平方向に縮小された奥行マップDにおいて、垂直方向に連続する2画素の奥行値D´(2m),D´(2m+1)に対して、下記の式(10)の演算を行う。つまり、奥行マップDは、式(9)及び式(10)の演算により、水平方向画素数及び垂直方向画素数が半分になり、総画素数が1/4に縮小される。
D´´(m)={D´(2m)+D´(2m+1)}/2 …式(10)
 mは、‘0’から、奥行マップDで垂直方向の最大画素数の半分までの値を取る自然数である。また、D´´(m)は、水平方向及び垂直方向に縮小された奥行マップD´´の画素mの奥行値を表す。
 ここで、奥行マップ縮小手段150は、式(9)及び式(10)の演算を所定回数(例えば、4回)繰り返し、縮小奥行マップDmを生成してもよい。この場合、縮小奥行マップDmは、奥行マップDmを1/16に縮小したものとなる。その後、奥行マップ縮小手段150は、生成した縮小奥行マップDmを奥行値決定手段130Aに出力する。
 なお、奥行マップ縮小手段150は、式(10)を演算した後、式(9)を演算してもよい。
 最小評価値演算手段122Aは、第1実施形態の最小評価値演算手段122と同様の機能を備える。
 さらに、最小評価値演算手段122Aは、奥行値決定手段130Aからの再評価の指令に応じて、推定奥行値De及び後記する画像領域Aの注目画素P(図9)ごとに、奥行値Dfにおける注目画素Pの対応画素差分値E(Df)と、注目画素Pと隣接画素との奥行値の差分の和に平滑係数(第4平滑係数)λ´´´が乗算された値を加えた最小評価値Ffを再び演算する。この平滑係数λ´´´は、平滑係数λよりも大きな値(例えば、‘8’)と予め定めておく。
 具体的には、最小評価値演算手段122Aは、下記の式(11)により最小評価値Ffを再び演算し、演算した最小評価値Ffを奥行値決定手段130Aに出力する。つまり、最小評価値演算手段122Aは、式(1)の平滑係数λを平滑係数λ´´´に代えて、画像領域に含まれる全注目画素Pの最小評価値Ffを再び演算する。
Ff=E(Df)+λ´´´(|Df-Dl|+|Df-Du|) …式(11)
 推定評価値演算手段124Aは、第1実施形態の推定評価値演算手段124と同様の機能を備える。
 さらに、推定評価値演算手段124Aは、奥行値決定手段130Aからの再評価の指令に応じて、推定奥行値De及び画像領域Aの注目画素Pごとに、推定奥行値Deにおける注目画素Pの対応画素差分値E(De)と、推定奥行値Deと隣接画素の奥行値との差分の和に平滑係数λ´´´が乗算された値を加えた推定評価値Feを再び演算する。
 具体的には、推定評価値演算手段124Aは、下記の式(12)により推定評価値Feを再び演算し、演算した推定評価値Feを奥行値決定手段130Aに出力する。つまり、推定評価値演算手段124Aは、式(2)の平滑係数λを平滑係数λ´´´に代えて、画像領域に含まれる全注目画素Pの推定評価値Feを再び演算する。
Ff=E(De)+λ´´´(|De-Dl|+|De-Du|) …式(12)
 奥行値決定手段130Aは、第1実施形態の奥行値決定手段130と同様の機能を備える。
 さらに、奥行値決定手段130Aは、推定奥行値De及び奥行マップ縮小手段150から入力された縮小奥行マップDmの注目画素(第3注目画素)ごとに、注目画素に隣接する全ての隣接画素(第3隣接画素)について、隣接画素の奥行値から所定値を減算した減算値を演算する。
 具体的には、奥行値決定手段130Aは、推定奥行値Deを最小値から最大値まで順に変えて、縮小奥行マップDmの注目画素を左上側から右下側までジグザグスキャンするように移動させる。このとき、奥行値決定手段130Aは、左隣接画素Dm(l)から所定値Δを減算した減算値と、上隣接画素Dm(u)から所定値Δを減算した減算値と、右隣接画素Dm(r)から所定値Δを減算した減算値と、下隣接画素Dm(d)から所定値Δを減算した減算値とを求める。例えば、所定値Δは、推定奥行値Deの最大値の1/10で予め定めておく。
 そして、奥行値決定手段130Aは、下記の式(13)のように、縮小奥行マップDmの注目画素の奥行値Dmが、上下左右の隣接画素から演算した減算値以上となるか否かを判定する。
Dm(l)-Δ≦Dm、かつ、Dm(u)-Δ≦Dm、かつ、Dm(r)-Δ≦Dm、かつ、Dm(d)-Δ≦Dm …式(13)
 ここで、縮小奥行マップDmは、基準映像Fと比べて、1/16のサイズになっている。つまり、図9のように、縮小奥行マップDmの1画素PDmが、基準映像Fで横16画素×縦16画素(256画素)の画素領域Aに対応する。そこで、注目画素の奥行値Dmが式(13)を満たす場合、奥行値決定手段130Aは、注目画素PDmに対応する画像領域Aの再評価を、最小評価値演算手段122A及び推定評価値演算手段124Aに指令する。
 再評価の指令に応じて、奥行値決定手段130Aは、最小評価値演算手段122Aで再び演算された最小評価値Ffと、推定評価値演算手段124Aで再び演算された推定評価値Feとが入力される。
 続いて、奥行値決定手段130Aは、推定奥行値De及び画像領域Aの注目画素Pごとに、再び演算された最小評価値Ffと推定評価値Feとを比較する。そして、奥行値決定手段130Aは、推定評価値Feが最小評価値Ffより小さい場合、推定奥行値Feを注目画素Pの奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140を更新する。
[奥行推定装置の動作]
 図10を参照して、図8の奥行推定装置1Aの動作について説明する。
 奥行推定装置1Aは、奥行マップ縮小手段150によって、奥行マップDの水平方向画素数を半分に縮小する(ステップS200)。
 奥行推定装置1Aは、奥行マップ縮小手段150によって、ステップS200で水平方向に縮小された奥行マップDの垂直方向画素数を半分に縮小する(ステップS210)。
 なお、奥行推定装置1は、所定の回数(例えば、4回)、ステップS200,S210の処理を繰り返してもよい。
 奥行推定装置1Aは、奥行マップ縮小手段150によって、ステップS200,S210で生成した縮小奥行マップDmを奥行値決定手段130Aに出力する(ステップS220)。
 奥行推定装置1Aは、推定奥行値Deが最小値から最大値になり、Yが‘0’から縮小マップ高さになり、Xが‘0’から縮小マップ幅になるまで、下記のステップS230~S260の処理を繰り返す。ここで、縮小マップDmの注目画素の座標を(X,Y)とする。また、縮小マップDmの幅及び高さを、縮小マップ幅及び縮小マップ高さとして予め定めておく。
 奥行推定装置1Aは、奥行値決定手段130Aによって、縮小奥行マップDmの注目画素に隣接する全ての隣接画素について減算値を演算し、式(13)を満たすか否かを判定する(ステップS230)。
 式(13)を満たす場合(ステップS230でYes)、奥行推定装置1Aは、最小評価値演算手段122Aによって、式(11)で画素領域Aの注目画素Pごとに最小評価値Ffを演算する。
 奥行推定装置1Aは、推定評価値演算手段124Aによって、式(12)で画素領域Aの注目画素Pごとに推定評価値Feを演算する(ステップS240)。
 奥行推定装置1Aは、奥行値決定手段130Aによって、ステップS240で演算された最小評価値Ffと推定評価値Feとを比較する(ステップS250)。
 式(13)を満たさない場合(ステップS230でNo)、奥行推定装置1Aは、ステップS240,S250,S260の処理を行わない。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS250でYes)、奥行推定装置1Aは、奥行値決定手段130Aによって、推定奥行値Deを画素領域Aの注目画素Pの奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140を更新する(ステップS260)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS250でNo)、奥行推定装置1Aは、ステップS260の処理を行わない。
 ステップ260の終了後、奥行推定装置1Aは、奥行値記憶手段140に記憶された奥行マップDを出力する(ステップS270)。
[作用・効果]
 以上のように、本願発明の第2実施形態に係る奥行推定装置1Aは、式(13)により奥行マップDでエッジ以外の部分を検出する。これにより、奥行推定装置1Aは、式(1)及び式(2)で平滑しきれなかった奥行マップDでエッジを含まない部分の奥行値を、式(11)及び式(12)でより強く平滑化できると共に、エッジ部分の奥行値を潰すことがない。その結果、奥行推定装置1Aは、より正確な奥行マップDを生成することができる。
(第3実施形態)
[奥行推定装置の構成]
 図11を参照し、本願発明の第3実施形態に係る奥行推定装置1Bの構成について、第1実施形態と異なる点を説明する。
 奥行推定装置1Bは、カメラ映像を縮小してから奥行マップを生成した後、この奥行マップを拡大する点が第1実施形態と異なる。
 図11のように、奥行推定装置1Bは、映像入力手段10と、対応画素差分演算手段20と、差分値記憶手段30と、映像縮小手段40と、奥行マップ拡大手段50と、奥行値推定手段100とを備える。
 映像縮小手段40は、映像入力手段10から入力されたカメラ映像(基準映像F及び隣接映像F)を縮小するものである。
 具体的には、映像縮小手段40は、基準映像Fで水平方向に連続する2画素の画素値P(2n´),P(2n´+1)に対して、下記の式(14)の演算を行う。
P´(n´)={P(2n´)+P(2n´+1)}/2 …式(14)
 n´は、‘0’から、基準映像Fで水平方向の最大画素数の半分までの値を取る自然数である。また、P´(n´)は、水平方向に縮小された基準映像P´の画素n´の画素値を表す。
 また、映像縮小手段40は、式(14)で水平方向に縮小された基準映像Fにおいて、垂直方向に連続する2画素の画素値P´(2m´),P´(2m´+1)に対して、下記の式(15)の演算を行う。
P´´(m´)={P´(2m´)+P´(2m´+1)}/2 …式(15)
 m´は、‘0’から、基準映像Fで垂直方向の最大画素数の半分までの値を取る自然数である。また、P´´(m´)は、水平方向及び垂直方向に縮小された基準映像P´´の画素m´の画素値を表す。
 また、映像縮小手段40は、基準映像Fと同様、隣接映像Fについても式(14)及び式(15)の演算を行う。その後、映像縮小手段40は、縮小された基準映像P´´(図11の基準映像F´)及び隣接映像F´を対応画素差分演算手段20に出力する。
 ここで、基準映像F´は、基準映像Fと比べて、総画素数が1/4に縮小される。このため、奥行マップDも第1実施形態の各画像と比べて、総画素数が1/4に縮小されてしまう。
 そこで、奥行マップ拡大手段50は、奥行推定装置100から入力された奥行マップDを映像入力手段10に入力された基準映像Fと同一サイズまで拡大するものである。
 具体的には、奥行マップ拡大手段50は、奥行マップDで水平方向に連続する3画素の奥行値D(n-1),D(n),D(n+1)に対して、下記の式(16)及び式(17)の演算を行う。
D´(2n)=D(n)+[-{-D(n-1)+D(n+1)}/4+1]/2 …式(16)
D´(2n+1)=D(n)+{-D(n-1)+D(n+1)}/4]/2 …式(17)
 なお、奥行値D(n-1),D(n+1)が無い場合、その値を‘0’としてもよく、反対側に位置する画素の奥行値D(n-1),D(n+1)を用いてもよい。また、D´(2n),D´(2n+1)は、水平方向に拡大された奥行マップDの画素2n,2n+1の奥行値を表す。
 また、奥行マップ拡大手段50は、式(16)及び式(17)で水平方向に拡大された奥行マップDにおいて、垂直方向に連続する3画素の奥行値D´(m-1),D´(m),D´(m+1)に対して、下記の式(18)及び式(19)の演算を行う。その後、奥行マップ拡大手段50は、拡大奥行マップD´を出力する。
D´´(2m)=D´(m)+[-{-D´(m-1)+D´(m+1)}/4+1]/2 …式(18)
D´´(2m+1)=D´(m)+{-D´(m-1)+D´(m+1)}/4]/2 …式(19)
 なお、奥行値D´(m-1),D´(m+1)が無い場合、その値を‘0’としてもよく、反対側に位置する画素の奥行値D´(m-1),D´(m+1)を用いてもよい。また、D´´(2m),D´´(2m+1)は、水平方向及び垂直方向に拡大された奥行マップD´´の画素2m,2m+1の奥行値を表す。
[奥行推定装置の動作]
 図12を参照して、図11の奥行推定装置1Bの動作について説明する。
 なお、図12では、図面を見やすくするため、繰り返し条件の図示を省略した(図14,図17,図21も同様)。
 また、奥行値推定処理は、図5のステップS40~S60の処理に対応している。
 奥行推定装置1Bは、映像縮小手段40によって、ステップS10で入力されたカメラ映像(基準映像F及び隣接映像F)を縮小する(ステップS300)。
 奥行推定装置1Bは、奥行マップ拡大手段50によって、奥行マップDを映像入力手段10に入力された基準映像Fと同一サイズまで拡大する(ステップS310)。
 奥行推定装置1Bは、奥行マップ拡大手段50によって、ステップS310で拡大した拡大奥行マップD´を出力する(ステップS320)。
[作用・効果]
 本願発明の第3実施形態に係る奥行推定装置1Bは、処理対象の注目画素数が少なくなり、さらに高速に奥行マップを生成することができる。
 さらに、奥行推定装置1Bは、映像縮小手段40がカメラ映像を縮小する処理と、奥行マップ拡大手段50が奥行マップDを拡大する処理とを同一回数繰り返すことで、さらなる高速化を図ることもできる。
(第4実施形態)
[奥行推定装置の構成]
 図13を参照し、本願発明の第4実施形態に係る奥行推定装置1Cの構成について、第3実施形態と異なる点を説明する。
 奥行推定装置1Cは、隣接映像Fが基準映像Fよりも大きいため、基準映像Fに合わせて隣接映像Fを縮小する点が第3実施形態と異なる。
 図13のように、奥行推定装置1Cは、映像入力手段10Cと、対応画素差分演算手段20と、差分値記憶手段30と、映像縮小手段40Cと、奥行マップ拡大手段50Cと、奥行値推定手段100とを備える。
 映像入力手段10Cは、第3実施形態の映像入力手段10と同様の機能を備える。
 さらに、映像入力手段10Cは、入力されたカメラ映像のうち、最小のカメラ映像のサイズを縮小目標サイズとして、映像縮小手段40Cに出力する。さらに、映像入力手段10Cは、入力されたカメラ映像のうち、最大のカメラ映像のサイズを拡大目標サイズとして、奥行マップ拡大手段50Cに出力する。
 映像縮小手段40Cは、映像入力手段10Cに入力されたカメラ映像のうち、最小サイズのカメラ映像(基準映像F)に合わせて他のカメラ映像(隣接映像F)を縮小するものである。例えば、映像縮小手段40Cは、第3実施形態の映像縮小手段40と同様の手法で、映像入力手段10Cから入力された縮小目標サイズ(基準映像Fのサイズ)まで隣接映像Fを縮小する。そして、映像縮小手段40Cは、縮小した隣接映像F´を対応画素差分演算手段20に出力する。
 奥行マップ拡大手段50Cは、奥行推定装置100から入力された奥行マップDを、映像入力手段10Cに入力されたカメラ映像のうち、最大のカメラ映像(隣接映像F)に合わせて拡大するものである。例えば、奥行マップ拡大手段50Cは、第3実施形態の奥行マップ拡大手段50と同様の手法で、映像入力手段10Cから入力された拡大目標サイズ(隣接映像Fのサイズ)まで奥行マップDを拡大する。そして、奥行マップ拡大手段50Cは、拡大された奥行マップD´を出力する。
 なお、奥行マップ拡大手段50Cは、奥行マップDを拡大せずにそのまま出力してもよい。
[奥行推定装置の動作]
 図14を参照して、図13の奥行推定装置1Cの動作について説明する。
 奥行推定装置1Cは、映像入力手段10Cによって、カメラ映像(F,F)を入力する。
 奥行推定装置1Cは、映像入力手段10Cによって、縮小目標サイズを映像縮小手段40Cに出力し、拡大目標サイズを奥行マップ拡大手段50Cに出力する(ステップS400)。
 奥行推定装置1Cは、映像縮小手段40Cによって、ステップS400で入力されたカメラ映像(隣接映像F)を縮小目標サイズまで縮小する(ステップS410)。
 奥行推定装置1Cは、奥行マップ拡大手段50Cによって、奥行マップDを拡大目標サイズまで拡大する(ステップS420)。
[作用・効果]
 本願発明の第4実施形態に係る奥行推定装置1Cは、基準映像F及び隣接映像Fが異なるサイズの場合でも、高速に奥行マップを生成することができる。
(第5実施形態)
[奥行推定装置の構成]
 図15を参照し、本願発明の第5実施形態に係る奥行推定装置1Dの構成について、第3実施形態と異なる点を説明する。
 奥行推定装置1Dは、生成した奥行マップ(参照奥行マップDref)を利用して奥行値を推定し直す点が、第3実施形態と異なる。
 図15のように、奥行推定装置1Dは、映像入力手段10と、対応画素差分演算手段20と、対応画素差分演算手段(第2対応画素差分演算手段)20Dと、差分値記憶手段30,30Dと、映像縮小手段40と、奥行マップ拡大手段50と、奥行値推定手段100,100Dとを備える。
 対応画素差分演算手段20Dは、第1実施形態と同様、推定奥行値De及び基準映像Fの注目画素Pごとに、対応画素差分値(第2対応画素差分値)Eを演算するものである。そして、対応画素差分演算手段20Dは、演算した対応画素差分値Eを差分値記憶手段30Dに記憶する。
 差分値記憶手段30Dは、推定奥行値De及び注目画素Pごとに、対応画素差分演算手段20Dが演算した対応画素差分値Eを記憶するものである。例えば、差分値記憶手段30Dは、磁気メモリや半導体メモリ等の一般的な記憶媒体である。
 図16を参照し、奥行値推定手段100Dの構成について説明する。
 奥行値推定手段100Dは、奥行差加算手段120Dと、奥行値決定手段(第2奥行値決定手段)130Dと、奥行値記憶手段140Dとを備える。
 また、奥行差加算手段120Dは、最小評価値演算手段(第2最小評価値演算手段)1122Dと、推定評価値演算手段(第2推定評価値演算手段)124Dとを備える。
 最小評価値演算手段122Dは、奥行マップ(第2奥行マップ)D″の注目画素(第2注目画素)ごとに、注目画素の奥行値が注目画素に隣接する隣接画素(第2隣接画素)の奥行値よりも小さい場合、最小評価値(第2最小評価値)Ffを演算するものである。
 なお、最小評価値演算手段122Dの詳細は、奥行推定装置1Dの動作で説明する。
 推定評価値演算手段124Dは、奥行マップD″の注目画素ごとに、注目画素の奥行値が隣接画素の奥行値よりも小さい場合、推定奥行値Deにおける注目画素の対応画素差分値を推定評価値Feとして演算するものである。
 なお、推定評価値演算手段124Dの詳細は、奥行推定装置1Dの動作で説明する。
 奥行値決定手段130Dは、奥行マップD″の注目画素ごとに、最小評価値演算手段122Dから入力された最小評価値Ffと、推定評価値演算手段124Dから入力された推定評価値Feとを比較するものである。本実施形態では、奥行値決定手段130Dは、同一方向の隣接画素についての最小評価値Ffと推定評価値Feとを比較する。そして、奥行値決定手段130Dは、推定評価値Feが最小評価値Ffより小さい場合、隣接画素の奥行値Duを注目画素の奥行値Dfとして決定する。
 なお、奥行値決定手段130Dの詳細は、奥行推定装置1Dの動作で説明する。
 また、奥行値決定手段130Dは、奥行値初期化手段132Dを備える。
 奥行値初期化手段132Dは、参照奥行マップDrefの奥行値を、奥行マップD″の全画素における奥行値Dfの初期値として決定し、決定した奥行値Dfの初期値を奥行値記憶手段140Dに書き込むものである。例えば、奥行値初期化手段132Dは、最小評価値演算手段122Dが最小評価値Ffを演算する前に、奥行値Dfの初期値を決定する。
 なお、参照奥行マップDrefとは、奥行マップ拡大手段50で拡大された奥行マップD´のことである。
 奥行値記憶手段140Dは、奥行マップD″の注目画素ごとの奥行値Dfを記憶するものである。例えば、奥行値記憶手段140Dは、磁気メモリや半導体メモリ等の一般的な記憶媒体である。
[奥行推定装置の動作]
 図17を参照して、図16の奥行推定装置1Dの動作について説明する。
 奥行推定装置1Dは、対応画素差分演算手段20Dによって、注目画素Pの対応画素差分値Eを演算し、演算した対応画素差分値Eを差分値記憶手段30Dに記憶する(ステップS500)。
 奥行推定装置1Dは、奥行値初期化手段132Dによって、参照奥行マップDrefの奥行値を、奥行マップD″の全画素における奥行値Dfの初期値として決定し、決定した奥行値Dfの初期値を奥行値記憶手段140に書き込む(ステップS510)。
 奥行推定装置1Dは、奥行値推定手段100Dによって、後記する奥行値推定処理を行う(ステップS520)。
[奥行値推定処理]
 図18,図19を参照し、奥行値推定処理について説明する。
 図18のように、奥行推定装置1Dは、Yが‘0’からマップ高さになり、Xが‘0’からマップ幅になるまで、下記のステップS600~S670の処理を繰り返す。つまり、奥行推定装置1Dは、奥行マップD″の左上側(起点側)から右下側(終点側)まで、ジグザグスキャンのように注目画素を移動させながら、ステップS600~S670の処理を行う。ここで、奥行マップD″の注目画素の座標を(X,Y)とする。また、奥行マップD″の幅及び高さを、マップ幅及びマップ高さとして予め定めておく。
 奥行推定装置1Dは、最小評価値演算手段122Dによって、奥行マップD″の注目画素の奥行値Dfが、上隣接画素の奥行値Duよりも小さいか否かを判定する(ステップS600)。
 奥行値Dfが奥行値Du以上の場合(ステップS600でNo)、奥行推定装置1Dは、ステップS610~S630の処理を行わない。
 奥行値Dfが奥行値Duよりも小さい場合(ステップS600でYes)、奥行推定装置1Dは、最小評価値演算手段122Dによって、下記の式(20)を用いて、上隣接画素に対する最小評価値Ffを演算する。
Ff=E(Df)+λ(|Df-Dl|+|Df-Du|) …式(20)
 この式(20)は、決定された奥行値Dfにおける注目画素の対応画素差分値E(Df)と、注目画素と左隣接画素との奥行値の差分と、注目画素と上隣接画素との奥行値の差分との和に平滑係数λが乗算された値を加算し、最小評価値Ffを求めることを表す。
 奥行推定装置1Dは、推定評価値演算手段124Dによって、下記の式(21)を用いて、上隣接画素に対する推定評価値Feを演算する(ステップS610)。
Fe=E(Du)+λ|Du-Dl| …式(21)
 この式(21)は、上隣接画素の奥行値Duにおける注目画素の対応画素差分値E(Du)と、上隣接画素の奥行値Duを推定奥行値Deとみなして、左隣接画素との奥行値の差分との和に平滑係数λが乗算された値を加算し、推定評価値Feとして求めることを表す。
 奥行推定装置1Dは、奥行値決定手段130Dによって、ステップS610で演算された上隣接画素に対する最小評価値Ffと推定評価値Feとを比較する(ステップS620)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS620でYes)、奥行推定装置1Dは、奥行値決定手段130Dによって、上隣接画素の奥行値Duを注目画素の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140Dを更新する(ステップS630)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS620でNo)、奥行推定装置1Dは、ステップS630の処理を行わない。
 奥行推定装置1Dは、最小評価値演算手段122Dによって、奥行マップD″の注目画素の奥行値Dfが、左隣接画素の奥行値Dlよりも小さいか否かを判定する(ステップS640)。
 奥行値Dfが奥行値Dl以上の場合(ステップS640でNo)、奥行推定装置1Dは、ステップS650~S670の処理を行わない。
 奥行値Dfが奥行値Dlよりも小さい場合(ステップS640でYes)、奥行推定装置1Dは、最小評価値演算手段122Dによって、下記の式(22)を用いて、左隣接画素に対する最小評価値Ffを演算する。
Ff=E(Df)+λ(|Df-Dl|+|Df-Du|) …式(22)
 奥行推定装置1Dは、推定評価値演算手段124Dによって、下記の式(23)を用いて、左隣接画素の奥行値Dlを推定奥行値Deとみなして推定評価値Feを演算する(ステップS650)。
Fe=E(Dl)+λ|Dl-Du| …式(23)
 奥行推定装置1Dは、奥行値決定手段130Dによって、ステップS650で演算された左隣接画素に対する最小評価値Ffと推定評価値Feとを比較する(ステップS660)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS660でYes)、奥行推定装置1Dは、奥行値決定手段130Dによって、左隣接画素の奥行値Dlを注目画素の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140Dを更新する(ステップS670)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS660でNo)、奥行推定装置1Dは、ステップS670の処理を行わない。
 図19のように、奥行推定装置1Dは、Yがマップ高さから‘0’になり、Xがマップ幅から‘0’になるまで、下記のステップS680~S750の処理を繰り返す。つまり、奥行推定装置1Dは、奥行マップの右下側(終点側)から左上側(起点側)まで、ジグザグスキャンのように注目画素を移動させながら、ステップS680~S750の処理を行う。
 奥行推定装置1Dは、最小評価値演算手段122Dによって、奥行マップD″の注目画素の奥行値Dfが、下隣接画素の奥行値Ddよりも小さいか否かを判定する(ステップS680)。
 奥行値Dfが奥行値Dd以上の場合(ステップS680でNo)、奥行推定装置1Dは、ステップS690~S710の処理を行わない。
 奥行値Dfが奥行値Ddよりも小さい場合(ステップS680でYes)、奥行推定装置1Dは、最小評価値演算手段122Dによって、下記の式(24)を用いて、下隣接画素に対する最小評価値Ffを演算する。
Ff=E(Df)+λ(|Df-Dr|+|Df-Dd|) …式(24)
 奥行推定装置1Dは、推定評価値演算手段124Dによって、下記の式(25)を用いて、下隣接画素に対する推定評価値Feを演算する(ステップS690)。
Fe=E(Dd)+λ|Dd-Dr| …式(25)
 奥行推定装置1Dは、奥行値決定手段130Dによって、ステップS690で演算された下隣接画素に対する最小評価値Ffと推定評価値Feとを比較する(ステップS700)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS700でYes)、奥行推定装置1Dは、奥行値決定手段130Dによって、下側の隣接画素の奥行値Ddを注目画素の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140Dを更新する(ステップS710)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS700でNo)、奥行推定装置1Dは、ステップS710の処理を行わない。
 奥行推定装置1Dは、最小評価値演算手段122Dによって、奥行マップD″の注目画素の奥行値Dfが、右隣接画素の奥行値Drよりも小さいか否かを判定する(ステップS720)。
 奥行値Dfが奥行値Dr以上の場合(ステップS720でNo)、奥行推定装置1Dは、ステップS730~S750の処理を行わない。
 奥行値Dfが奥行値Drよりも小さい場合(ステップS720でYes)、奥行推定装置1Dは、最小評価値演算手段122Dによって、下記の式(26)を用いて、右隣接画素に対する最小評価値Ffを演算する。
Ff=E(Df)+λ(|Df-Dr|+|Df-Dd|)| …式(26)
 奥行推定装置1Dは、推定評価値演算手段124Dによって、下記の式(27)を用いて、右隣接画素に対する推定評価値Feを演算する(ステップS730)。
Fe=E(Dr)+λ|Dd-Dr| …式(27)
 奥行推定装置1Dは、奥行値決定手段130Dによって、ステップS730で演算された右隣接画素に対する最小評価値Ffと推定評価値Feとを比較する(ステップS740)。
 推定評価値Feが最小評価値Ffより小さい場合(ステップS740でYes)、奥行推定装置1Dは、奥行値決定手段130Dによって、右隣接画素の奥行値Drを注目画素の奥行値Dfとして決定し、決定した奥行値Dfで奥行値記憶手段140Dを更新する(ステップS750)。
 推定評価値Feが最小評価値Ff以上の場合(ステップS740でNo)、奥行推定装置1Dは、ステップS750の処理を行わない。
[作用・効果]
 以上のように、本願発明の第5実施形態に係る奥行推定装置1Dは、縮小されたカメラ映像から参照奥行マップDrefを生成する。そして、奥行推定装置1Dは、生成した参照奥行マップDrefを用いて、エッジ部分で正しくない可能性がある奥行値のみを、簡単な演算式で推定し直すので、より高速に正確な奥行マップD″を生成することができる。
(第6実施形態)
[奥行推定装置の構成]
 図20を参照し、本願発明の第6実施形態に係る奥行推定装置1Eの構成について、第1実施形態と異なる点を説明する。
 奥行推定装置1Eは、3台のカメラCMで被写体Tを撮影したカメラ映像から、奥行マップDを生成する点が第1実施形態と異なる。
 図20のように、基準カメラCは、中央に位置するカメラCMである。
 また、隣接カメラC,Cは、基準カメラCに対し、距離Lだけ互いに等間隔で離間して、基準カメラCの左右に配置されている。そして、各カメラCM(C,C,C)で撮影されたカメラ映像(F,F,F)は、奥行推定装置1Eに入力される。
 ここで、基準映像Fは、基準カメラCで撮影されたカメラ映像である。また、左隣接映像Fは、隣接カメラCで撮影されたカメラ映像である。また、右隣接映像Fは、隣接カメラCで撮影されたカメラ映像である。
 奥行推定装置1Eは、映像入力手段10Eと、対応画素差分演算手段20Eと、差分値記憶手段30と、最小値選択手段60と、奥行値推定手段100とを備える。
 映像入力手段10Eは、基準カメラCで撮影した基準映像Fと、隣接カメラCで撮影された左隣接映像Fと、隣接カメラCで撮影された右隣接映像Fとを入力する。
 この映像入力手段10Eで入力されたカメラ映像(F,F,F)は、図示を省略したメモリに記憶され、後記する対応画素差分演算手段20Eによって参照されるものとする。
 対応画素差分演算手段20Eは、推定奥行値De及び基準映像Fの注目画素ごとに、左対応画素差分値El及び右対応画素差分値Erを演算するものである。そして、対応画素差分演算手段20Eは、演算した左対応画素差分値El及び右対応画素差分値Erを最小値選択手段60に出力する。
 ここで、左対応画素差分値Elとは、基準映像F及び左隣接映像Fの間での対応画素差分値のことである。また、右対応画素差分値Erとは、基準映像F及び右隣接映像Fの間での対応画素差分値のことである。
 なお、左対応画素差分値El及び右対応画素差分値Erの演算手法は、第1実施形態の演算手法と同様のため、説明を省略する。
 また、図20では、左対応画素差分値Elを‘左差分値El’と略記し、右対応画素差分値Erを‘右差分値Er’と略記した。
 最小値選択手段60は、推定奥行値De及び注目画素ごとに、対応画素差分演算手段20Eから入力された左対応画素差分値El又は右対応画素差分値Erのうち小さい方を、最小対応画素差分値Eminとして選択するものである。そして、最小値選択手段60は、推定奥行値De及び注目画素ごとに、最小対応画素差分値Eminを差分値記憶手段30に記憶する。つまり、差分値記憶手段30に記憶された最小対応画素差分値Eminが、対応画素差分値Eとして利用される。
 なお、図20では、最小対応画素差分値Eminを‘最小差分値Emin’ と略記した。
[奥行推定装置の動作]
 図21を参照して、図20の奥行推定装置1Eの動作について説明する。
 奥行推定装置1Eは、映像入力手段10Eによって、カメラ映像(F,F,F)を入力する(ステップS800)。
 奥行推定装置1Eは、対応画素差分演算手段20Eによって、推定奥行値De及び注目画素ごとに、左対応画素差分値El及び右対応画素差分値Erを演算する(ステップS810)。
 奥行推定装置1Eは、最小値選択手段60によって、推定奥行値De及び注目画素ごとに、ステップS810で演算された左対応画素差分値El又は右対応画素差分値Erのうち小さい方を、最小対応画素差分値Eminとして選択する(ステップS820)。
[作用・効果]
 以上のように、本願発明の第6実施形態に係る奥行推定装置1Eは、オクルージョンが発生しても対応画素差分値を求められるので、より正確な奥行マップDを生成することができる。
 なお、各実施形態では、本願発明に係る奥行推定装置を独立した装置として説明したが、これに限定されない。例えば、本願発明では、一般的なコンピュータのハードウェア資源を、奥行推定装置の各手段として協調動作させる奥行推定プログラムによって実現することができる。また、この奥行推定プログラムは、通信回線を介して配布したり、CD-ROM等の記録媒体に記録して配布したりすることも可能である。
(実施例)
 図22,図23を参照し、本願発明の実施例として、本願発明の第1実施形態に係る奥行推定装置で生成した奥行マップについて説明する。
 図22の奥行マップは、注目画素と隣接画素との奥行値の差分(奥行差)を考慮しない従来手法で生成したものである(比較例)。この比較例では、被写体の場所ごとのテクスチャに大きく影響を受けて、擬似マッチングが多数発生し、ノイズが多い奥行マップとなる。
 一方、本願発明の実施例では、図23のように、式(1)で注目画素と隣接画素との奥行差が考慮されるため、擬似マッチングが減少し、滑らかな奥行マップとなる。
 本願発明は、立体映像による、東京オリンピック等のイベントの実況中継や、立体テレビ放送、立体テレビ電話等のネットワークを通じたサービスや機器に利用できる。また、本願発明は、光ディスクやハードディスクを用いた立体映像の記録再生機器や配信サービス、立体映画にも利用できる。さらに、本願発明は、多視点映像と奥行マップから、立体映像であるホログラムを生成出来るので、電子ホログラフィ機器やそれを用いた配信サービスにも利用できる。さらに、本願発明は、ロボットにおける立体空間の認識に用いたり、コンピュータによる映像解析に用いることもできる。
1,1A,1B,1C,1D,1E 奥行推定装置
10,10E 映像入力手段
20,20E 対応画素差分演算手段
20D 対応画素差分演算手段(第2対応画素差分演算手段)
30,30D 差分値記憶手段
40,40C 映像縮小手段
50,50C 奥行マップ拡大手段
60 最小値選択手段
100,100A,100D 奥行値推定手段
110 エッジ検出手段
120,120A、120D 奥行差加算手段
122,122A 最小評価値演算手段
122D 最小評価値演算手段(第2最小評価値演算手段)
124,124A 推定評価値演算手段
124D 推定評価値演算手段(第2推定評価値演算手段)
130,130A 奥行値決定手段
130D 奥行値決定手段(第2奥行値決定手段)
132,132A,132D 奥行値初期化手段
140,140D 奥行値記憶手段

Claims (10)

  1.  予め定めた位置に複数配列したカメラで同一の被写体を撮影した複数のカメラ映像から、前記被写体の奥行きを示す奥行値を推定する奥行推定装置であって、
     前記複数配列した前記カメラの何れかにおいて、予め定めた基準カメラで前記被写体を撮影した基準映像と、前記基準カメラ以外の隣接カメラで前記被写体を撮影した隣接映像とを入力する映像入力手段と、
     予め定めた最小値から最大値までの推定奥行値及び前記基準映像の注目画素ごとに、前記注目画素の画素値と、当該注目画素の前記推定奥行値の視差に対応する画素位置にある前記隣接映像の対応画素の画素値との差分絶対値である対応画素差分値を演算する対応画素差分演算手段と、
     前記最小値を、前記基準映像の全画素における奥行値の初期値として決定する奥行値初期化手段と、
     前記推定奥行値及び前記注目画素ごとに、前記注目画素と前記注目画素に隣接する隣接画素との奥行値の差分の和に予め設定した平滑係数が乗算された値を、決定された前記奥行値における前記注目画素の対応画素差分値に加えた最小評価値を演算する最小評価値演算手段と、
     前記推定奥行値及び前記注目画素ごとに、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記平滑係数が乗算された値を、前記推定奥行値における前記注目画素の対応画素差分値に加えた推定評価値を演算する推定評価値演算手段と、
     前記推定奥行値及び前記注目画素ごとに、前記最小評価値と前記推定評価値とを比較し、前記推定評価値が前記最小評価値より小さい場合、前記推定奥行値を前記注目画素の奥行値として決定し、前記注目画素ごとの奥行値からなる奥行マップを生成する奥行値決定手段と、
    を備えることを特徴とする奥行推定装置。
  2.  前記注目画素と前記注目画素の近傍画素との画素値の差分によりエッジを検出するエッジ検出手段、をさらに備え、
     前記最小評価値演算手段は、前記エッジが検出された場合、前記平滑係数よりも小さな値で予め定めた第2平滑係数を、前記注目画素と前記隣接画素の奥行値との差分の和に乗算し、
     前記推定評価値演算手段は、前記エッジが検出された場合、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記第2平滑係数が乗算された値と、前記平滑係数及び前記第2平滑係数の間で予め定めた第3平滑係数が前記決定された奥行値と前記推定奥行値との差分に乗算された値とを、前記推定奥行値における前記注目画素の対応画素差分値に加えた前記推定評価値を演算することを特徴とする請求項1に記載の奥行推定装置。
  3.  前記映像入力手段に入力された基準映像及び隣接映像を縮小する映像縮小手段、をさらに備え、
     前記対応画素差分演算手段は、前記推定奥行値及び縮小された前記基準映像の注目画素ごとに、前記対応画素差分値を演算し、
     前記奥行値初期化手段は、前記最小値を前記縮小された基準映像の全画素の奥行値として初期設定し、
     前記最小評価値演算手段は、前記推定奥行値及び前記縮小された基準映像の注目画素ごとに、前記最小評価値を演算し、
     前記推定評価値演算手段は、前記推定奥行値及び前記縮小された基準映像の注目画素ごとに、前記推定評価値を演算し、
     前記奥行値決定手段は、前記縮小された基準映像と同一サイズの前記奥行マップである縮小奥行マップを生成することを特徴とする請求項1又は請求項2に記載の奥行推定装置。
  4.  前記映像入力手段に入力された基準映像と同一サイズまで前記縮小奥行マップが拡大された参照奥行マップを生成する奥行マップ拡大手段と、
     前記推定奥行値及び前記映像入力手段に入力された基準映像の注目画素ごとに、当該注目画素の画素値と、前記映像入力手段に入力された隣接映像の対応画素の画素値との差分絶対値である第2対応画素差分値を演算する第2対応画素差分演算手段と、
     前記参照奥行マップの全画素の奥行値を、第2奥行マップの全画素における奥行値の初期値として決定する第2奥行値初期化手段と、
     前記第2奥行マップの第2注目画素ごとに、前記第2注目画素の奥行値が前記第2注目画素に隣接する第2隣接画素の奥行値よりも小さい場合、前記第2注目画素と前記第2隣接画素との奥行値の差分の和に前記平滑係数が乗算された値を、決定された前記奥行値における前記第2注目画素の第2対応画素差分値に加えた第2最小評価値を演算する第2最小評価値演算手段と、
     前記第2注目画素ごとに、前記第2注目画素の奥行値が前記第2注目画素に隣接する第2隣接画素の奥行値よりも小さい場合、前記第2隣接画素同士の奥行値の差分に前記平滑係数が乗算された値を、前記第2隣接画素の奥行値における前記第2注目画素の第2対応画素差分値に加えた推定評価値を演算する第2推定評価値演算手段と、
     前記第2注目画素ごとに、前記第2最小評価値と前記第2推定評価値とを比較し、前記第2推定評価値が前記第2最小評価値より小さい場合、前記第2隣接画素の奥行値を前記第2注目画素の奥行値として決定し、前記第2注目画素ごとの奥行値からなる前記第2奥行マップを生成する第2奥行値決定手段と、
    を備えることを特徴とする請求項3に記載の奥行推定装置。
  5.  前記奥行マップが縮小された縮小奥行マップを生成する奥行マップ縮小手段、をさらに備え、
     前記奥行値決定手段は、前記推定奥行値及び前記縮小奥行マップの第3注目画素ごとに、前記第3注目画素に隣接する全ての第3隣接画素について、前記第3隣接画素の奥行値から所定値を減算した減算値を演算し、前記第3注目画素の奥行値が全ての前記第3隣接画素から演算した減算値以上となる場合、前記第3注目画素に対応する前記基準映像の画像領域の再評価を指令し、
     前記最小評価値演算手段は、前記再評価の指令に応じて、前記推定奥行値及び前記画像領域の注目画素ごとに、当該注目画素と前記隣接画素との奥行値の差分の和に前記平滑係数よりも大きな値で予め定めた第4平滑係数が乗算された値を、決定された前記奥行値における当該注目画素の対応画素差分値に加えた最小評価値を再び演算し、
     前記推定評価値演算手段は、前記再評価の指令に応じて、前記推定奥行値及び前記画像領域の注目画素ごとに、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記第4平滑係数が乗算された値を、前記推定奥行値における当該注目画素の対応画素差分値に加えた推定評価値を再び演算し、
     前記奥行値決定手段は、前記推定奥行値及び前記画像領域の注目画素ごとに、再び演算された前記最小評価値と前記推定評価値とを比較し、当該推定評価値が当該最小評価値より小さい場合、当該推定奥行値を当該注目画素の奥行値として決定することを特徴とする請求項1又は請求項2に記載の奥行推定装置。
  6.  前記最小評価値演算手段は、前記基準映像の4隅何れかの起点側から前記起点側に対向する終点側まで前記注目画素を移動させながら前記最小評価値を演算した後、前記終点側から前記起点側まで前記注目画素を移動させながら前記最小評価値を再び演算し、
     前記推定評価値演算手段は、前記起点側から前記終点側まで前記注目画素を移動させながら前記推定評価値を演算した後、前記終点側から前記起点側まで前記注目画素を移動させながら前記推定評価値を再び演算し、
     前記奥行値決定手段は、前記注目画素の奥行値を決定した後、再び演算した前記最小評価値と前記推定評価値とを比較し、当該推定評価値が当該最小評価値より小さい場合、当該推定奥行値を当該注目画素の奥行値として再び決定することを特徴とする請求項1又は請求項2に記載の奥行推定装置。
  7.  前記映像入力手段は、前記基準映像と、前記基準カメラの左右に配置された前記隣接カメラで撮影された前記隣接映像である左隣接映像及び右隣接映像とを入力し、
     前記対応画素差分演算手段は、前記基準映像及び前記左隣接映像の間での前記対応画素差分値である左対応画素差分値と、前記基準映像及び前記右隣接映像の間での前記対応画素差分値である右対応画素差分値とを演算し、
     前記左対応画素差分値又は前記右対応画素差分値のうち小さい方を最小対応画素差分値として選択する最小値選択手段、をさらに備え、
     前記最小評価値演算手段は、前記対応画素差分値として、前記最小対応画素差分値を用いて前記最小評価値を演算し、
     前記推定評価値演算手段は、前記対応画素差分値として、前記最小対応画素差分値を用いて前記推定評価値を演算することを特徴とする請求項1又は請求項2に記載の奥行推定装置。
  8.  前記映像入力手段に入力されたカメラ映像のうち、最小サイズのカメラ映像に合わせて他のカメラ映像を縮小する映像縮小手段、
    をさらに備えることを特徴とする請求項1又は請求項2に記載の奥行推定装置。
  9.  コンピュータを、請求項1に記載の奥行推定装置として機能させるための奥行推定プログラム。
  10.  予め定めた位置に複数配列したカメラで同一の被写体を撮影した複数のカメラ映像から、前記被写体の奥行きを示す奥行値を推定する奥行推定方法であって、
     前記複数配列した前記カメラの何れかにおいて、予め定めた基準カメラで前記被写体を撮影した基準映像と、前記基準カメラ以外の隣接カメラで前記被写体を撮影した隣接映像とを入力する映像入力ステップと、
     予め定めた最小値から最大値までの推定奥行値及び前記基準映像の注目画素ごとに、前記注目画素の画素値と、当該注目画素の前記推定奥行値の視差に対応する画素位置にある前記隣接映像の対応画素の画素値との差分絶対値である対応画素差分値を演算する対応画素差分演算ステップと、
     前記最小値を、前記基準映像の全画素における奥行値の初期値として決定する奥行値初期化ステップと、
     前記推定奥行値及び前記注目画素ごとに、前記注目画素と前記注目画素に隣接する隣接画素との奥行値の差分の和に予め設定した平滑係数が乗算された値を、決定された前記奥行値における前記注目画素の対応画素差分値に加えた最小評価値を演算すると共に、前記推定奥行値と前記隣接画素の奥行値との差分の和に前記平滑係数が乗算された値を、前記推定奥行値における前記注目画素の対応画素差分値に加えた推定評価値を演算する評価値演算ステップと、
     前記推定奥行値及び前記注目画素ごとに、前記最小評価値と前記推定評価値とを比較し、前記推定評価値が前記最小評価値より小さいか否かを判定する評価値判定ステップと、
     前記推定評価値が前記最小評価値より小さい場合、前記推定奥行値を前記注目画素の奥行値として決定し、前記注目画素ごとの奥行値からなる奥行マップを生成する奥行値決定ステップと、
    を順に実行することを特徴とする奥行推定方法。
PCT/JP2016/052857 2015-02-09 2016-02-01 奥行推定装置、奥行推定方法及び奥行推定プログラム WO2016129430A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015022857A JP2016145753A (ja) 2015-02-09 2015-02-09 奥行推定装置、奥行推定方法及び奥行推定プログラム
JP2015-022857 2015-02-09

Publications (1)

Publication Number Publication Date
WO2016129430A1 true WO2016129430A1 (ja) 2016-08-18

Family

ID=56614312

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/052857 WO2016129430A1 (ja) 2015-02-09 2016-02-01 奥行推定装置、奥行推定方法及び奥行推定プログラム

Country Status (2)

Country Link
JP (1) JP2016145753A (ja)
WO (1) WO2016129430A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109564382A (zh) * 2016-08-29 2019-04-02 株式会社日立制作所 拍摄装置以及拍摄方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6838912B2 (ja) * 2016-09-29 2021-03-03 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP7233150B2 (ja) * 2018-04-04 2023-03-06 日本放送協会 奥行推定装置およびそのプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141710A (ja) * 2010-01-07 2011-07-21 National Institute Of Information & Communication Technology 奥行推定装置、奥行推定方法および奥行推定プログラム
JP2012073813A (ja) * 2010-09-29 2012-04-12 National Institute Of Information & Communication Technology 奥行推定装置、奥行推定方法および奥行推定プログラム
JP2012181142A (ja) * 2011-03-02 2012-09-20 National Institute Of Advanced Industrial & Technology ステレオ画像処理装置及びステレオ画像処理方法
JP2013076621A (ja) * 2011-09-30 2013-04-25 Nippon Hoso Kyokai <Nhk> 距離指標情報推定装置及びそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011141710A (ja) * 2010-01-07 2011-07-21 National Institute Of Information & Communication Technology 奥行推定装置、奥行推定方法および奥行推定プログラム
JP2012073813A (ja) * 2010-09-29 2012-04-12 National Institute Of Information & Communication Technology 奥行推定装置、奥行推定方法および奥行推定プログラム
JP2012181142A (ja) * 2011-03-02 2012-09-20 National Institute Of Advanced Industrial & Technology ステレオ画像処理装置及びステレオ画像処理方法
JP2013076621A (ja) * 2011-09-30 2013-04-25 Nippon Hoso Kyokai <Nhk> 距離指標情報推定装置及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109564382A (zh) * 2016-08-29 2019-04-02 株式会社日立制作所 拍摄装置以及拍摄方法
CN109564382B (zh) * 2016-08-29 2021-03-23 株式会社日立制作所 拍摄装置以及拍摄方法

Also Published As

Publication number Publication date
JP2016145753A (ja) 2016-08-12

Similar Documents

Publication Publication Date Title
JP5153940B2 (ja) 動き補償を用いた画像の奥行き抽出のためのシステムおよび方法
JP5561781B2 (ja) 2d画像データを立体画像データに変換する方法およびシステム
US9659382B2 (en) System and method for depth extraction of images with forward and backward depth prediction
KR101518531B1 (ko) 스테레오스코픽 모션 픽쳐들의 잠재적인 아이스트레인을 측정하기 위한 시스템 및 방법
JP5156837B2 (ja) 領域ベースのフィルタリングを使用する奥行マップ抽出のためのシステムおよび方法
KR101669840B1 (ko) 다시점 비디오로부터 일관성 있는 변이를 추정하는 변이 추정 시스템 및 방법
KR101502362B1 (ko) 영상처리 장치 및 방법
TWI493505B (zh) 影像處理方法以及影像處理裝置
US8803947B2 (en) Apparatus and method for generating extrapolated view
JP6173218B2 (ja) 背景ピクセル拡張及び背景優先パッチマッチングを用いるマルチビューレンダリング装置及び方法
US9661307B1 (en) Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D
JP4892113B2 (ja) 画像処理方法及び装置
JP2011081605A (ja) 画像処理装置、方法及びプログラム
JP2015146526A (ja) 画像処理装置および方法、並びにプログラム
WO2016129430A1 (ja) 奥行推定装置、奥行推定方法及び奥行推定プログラム
JP2000253422A (ja) 2次元映像からの立体映像生成方法
JP5627498B2 (ja) 立体画像生成装置及び方法
JP2014072809A (ja) 画像生成装置、画像生成方法、画像生成装置用プログラム
US20130229408A1 (en) Apparatus and method for efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereoscopic images
JP4775221B2 (ja) 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム
JP5431393B2 (ja) 立体画像生成装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16749074

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16749074

Country of ref document: EP

Kind code of ref document: A1