WO2012042895A1 - 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法 - Google Patents

立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法 Download PDF

Info

Publication number
WO2012042895A1
WO2012042895A1 PCT/JP2011/005530 JP2011005530W WO2012042895A1 WO 2012042895 A1 WO2012042895 A1 WO 2012042895A1 JP 2011005530 W JP2011005530 W JP 2011005530W WO 2012042895 A1 WO2012042895 A1 WO 2012042895A1
Authority
WO
WIPO (PCT)
Prior art keywords
video signal
reference picture
viewpoint
picture
encoding
Prior art date
Application number
PCT/JP2011/005530
Other languages
English (en)
French (fr)
Inventor
悠樹 丸山
秀之 大古瀬
裕樹 小林
荒川 博
安倍 清史
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2012502784A priority Critical patent/JP4964355B2/ja
Publication of WO2012042895A1 publication Critical patent/WO2012042895A1/ja
Priority to US13/796,779 priority patent/US20130258053A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Definitions

  • the present invention relates to a stereoscopic video encoding apparatus, a stereoscopic video imaging apparatus, and a stereoscopic video encoding method for compressing and encoding stereoscopic video and recording it on a storage medium such as an optical disk, a magnetic disk, or a flash memory.
  • the present invention relates to a stereoscopic video encoding apparatus, a stereoscopic video imaging apparatus, and a stereoscopic video encoding method that perform compression encoding using a .264 compression encoding method.
  • H.264 compression encoding is also used as a video compression method for Blu-ray, which is one of the standards for optical discs, and AVCHD (Advanced Video Codec High Definition), a standard for recording high-definition video with a video camera. It is expected to be used in a wide range of fields.
  • the amount of information is compressed by reducing redundancy in the time direction and the spatial direction.
  • the amount of motion (hereinafter referred to as motion vector) is detected in units of blocks with reference to the pictures ahead or behind the time axis, and the detected motion vectors are detected.
  • motion compensation By performing the prediction in consideration (hereinafter referred to as motion compensation), the prediction accuracy is improved and the coding efficiency is improved. For example, it is necessary for encoding by detecting the motion vector of the input image to be encoded and encoding the prediction residual between the prediction value shifted by the motion vector and the input image to be encoded Reducing the amount of information.
  • a picture that is referred to when a motion vector is detected is referred to as a reference picture.
  • a picture is a term representing a single screen.
  • the motion vector is detected in block units. Specifically, a block on the encoding target picture (encoding target block) that is a picture to be encoded is fixed, and a block on the reference picture side (reference) The motion vector is detected by moving the block) within the search range and finding the position of the reference block most similar to the encoding target block. This process of searching for a motion vector is called motion vector detection.
  • a comparison error between the encoding target block and the reference block is generally used, and in particular, an absolute value difference sum (SAD: Summed Absolute Difference) is often used.
  • SAD Summed Absolute Difference
  • a picture that does not perform inter prediction encoding and performs only intra prediction encoding for the purpose of reducing spatial redundancy is called an I picture.
  • a picture that performs inter-picture prediction coding from one reference picture is called a P picture.
  • a picture that performs inter-screen predictive coding from a maximum of two reference pictures is called a B picture.
  • a first viewpoint video signal (hereinafter referred to as a first viewpoint video signal) and a second viewpoint video signal different from the first viewpoint (hereinafter referred to as a second viewpoint video signal) are encoded.
  • a method for encoding stereoscopic video a method for compressing the amount of information by reducing redundancy between viewpoints has been proposed. More specifically, the first viewpoint video signal is encoded in the same manner as the encoding of a non-stereoscopic two-dimensional video signal, and the second viewpoint video signal is encoded with the first viewpoint video signal at the same time. Motion compensation is performed using a picture as a reference picture.
  • FIG. 13 is an example showing a coding structure of the proposed stereoscopic video coding.
  • Picture I0, picture B2, picture B4, and picture P6 represent pictures included in the first viewpoint video signal
  • picture P1, picture B3, picture B5, and picture P7 represent pictures included in the second viewpoint video signal.
  • Picture I0 is a picture to be coded as I picture
  • picture P1, picture P6, and picture P7 are pictures to be coded as P picture
  • picture B2, picture B3, picture B4, and picture B5 are coded as B picture. Each picture is shown and displayed in time order.
  • the arrows in the figure indicate that when the picture corresponding to the root (starting point) of the arrow is encoded, the picture corresponding to the tip (arrival point) of the arrow can be referred to.
  • the picture P1, the picture B3, the picture B5, and the picture P7 refer to the picture I0, the picture B2, the picture B4, and the picture P6 of the first viewpoint video signal at the same time.
  • FIG. 14 shows a coding sequence when coding with the coding structure shown in FIG. 13, a picture to be coded (hereinafter referred to as a picture to be coded) and each input picture. An example of the relationship with the reference picture to be used is shown.
  • encoding is performed in the order of picture I0, picture P1, picture P6, picture P7, picture B2, picture B3, picture B4, and picture B5. .
  • intra-view reference performing motion compensation using a picture included in a video signal of the same viewpoint as a reference picture
  • inter-view reference performing motion compensation using a picture included in a video signal of a different viewpoint as a reference picture. This is called an inter-reference.
  • a reference picture that performs intra-view reference is referred to as an intra-view reference picture
  • a reference picture that performs inter-view reference is referred to as an inter-view reference picture.
  • One of the first viewpoint video signal and the second viewpoint video signal is a video for the right eye and the other is a video for the left eye, and a picture included in the first viewpoint video signal at the same time,
  • the correlation with the picture included in the viewpoint video signal is high. For this reason, the amount of information can be efficiently reduced as compared with the conventional encoding that performs only intra-view reference by appropriately selecting whether to perform intra-view reference or inter-view reference in block units. be able to.
  • a reference picture is selected from a plurality of already encoded pictures.
  • a reference picture is selected regardless of variations in parallax, a reference picture that is not high in encoding efficiency may be selected, and encoding efficiency may be reduced.
  • a so-called occlusion area that is visible from one viewpoint but not from the other viewpoint is enlarged.
  • image data does not exist in the image of the other viewpoint, so the matching process cannot find a part corresponding to the part visible from one viewpoint, and the accuracy of obtaining the motion vector decreases. As a result, the encoding efficiency has been reduced.
  • the present invention has been made to solve such a problem, and image coding that can suppress a reduction in coding efficiency even when there is a variation in parallax, and thus can improve coding efficiency. It is an object of the present invention to provide a method apparatus and an image encoding method.
  • a stereoscopic video encoding apparatus includes a first viewpoint video signal that is a first viewpoint video signal and a second viewpoint video signal that is different from the first viewpoint.
  • a stereoscopic video encoding device that encodes a viewpoint video signal, and a parallax acquisition unit that acquires and calculates parallax information, which is information on parallax between the first viewpoint video signal and the second viewpoint video signal; Based on the reference picture setting unit for setting a reference picture used when the first signal video signal and the second viewpoint video signal are encoded, and the reference picture set in the reference picture setting unit, the first viewpoint video An encoding unit that encodes a signal and the second viewpoint video signal and generates an encoded stream, and the reference picture setting unit encodes the second viewpoint video signal when encoding the second viewpoint video signal.
  • a second setting mode for setting one picture as a reference picture, and the reference picture setting unit performs the first setting mode and the second setting according to a change in the disparity information acquired by the disparity acquisition unit. It is characterized by switching between the setting modes.
  • the reference picture setting unit encodes the second viewpoint video signal
  • the picture included in only the first viewpoint video signal in the first setting mode At least one picture is set as a reference picture.
  • the disparity information is preferably information indicating a disparity state of a disparity vector representing a disparity for each pixel block having a pixel or a plurality of pixels between the first viewpoint video signal and the second viewpoint video signal.
  • the picture setting unit is configured to switch to the second setting mode when the parallax information increases, and to switch to the first setting mode when the parallax information decreases.
  • the second setting mode is set.
  • the disparity information is preferably a dispersion value of the disparity vector, a sum of absolute values of the disparity vectors, and an absolute value of a difference between the maximum disparity and the minimum disparity in the disparity vector.
  • the dispersion state of the disparity vector can be determined relatively accurately and the reliability is improved.
  • the disparity information is the absolute value of the difference between the maximum disparity and the minimum disparity in the disparity vector
  • the magnitude of the disparity can be determined from only two values, so the determination process can be calculated very easily and the amount of calculation There is an advantage that processing time can be minimized.
  • the encoding efficiency can be improved.
  • the present invention is such that the reference picture setting unit is configured to be able to set at least two or more reference pictures, and to be able to switch a reference index of a reference picture by switching the disparity information.
  • the reference picture setting unit determines that the disparity is large from the disparity information, the reference picture setting unit assigns a reference index that is equal to or less than the value of the currently assigned reference index to the reference picture included in the first viewpoint video signal. It is configured to be changeable.
  • the encoding amount of the reference index can be minimized, and the encoding efficiency can be improved.
  • the stereoscopic video imaging apparatus of the present invention captures a subject from a first viewpoint and a second viewpoint different from the first viewpoint, and a first viewpoint video signal that is a video signal at the first viewpoint;
  • a stereoscopic video imaging apparatus that captures a second viewpoint video signal that is a video signal at the second viewpoint, an optical image of the subject is formed, the optical image is captured, and the first viewpoint video is captured as a digital signal.
  • a shooting unit that acquires a signal and the second viewpoint video signal, a parallax acquisition unit that calculates parallax information, which is information on parallax between the first viewpoint video signal and the second viewpoint video signal, and the first viewpoint video
  • a reference picture setting unit for setting a reference picture to be used when encoding a signal and the second viewpoint video signal, and the reference picture set in the reference picture setting unit,
  • An encoding unit that encodes a point video signal and the second viewpoint video signal and generates an encoded stream, a recording medium that records an output result from the encoding unit, and an imaging condition parameter in the imaging unit
  • a reference picture setting unit when encoding the second viewpoint video signal, the picture included in the first viewpoint video signal and the picture included in the second viewpoint video signal A first setting mode in which at least one picture is set as a reference picture, and a second setting mode in which at least one picture among pictures included only in the second viewpoint video signal is set as a reference picture.
  • the reference picture setting unit is configured to change the first setting
  • the shooting condition parameter is an angle between the shooting direction of the first viewpoint and the shooting direction of the second viewpoint.
  • the shooting condition parameter may be a distance from the first viewpoint or the second viewpoint to the subject.
  • the stereoscopic video imaging apparatus of the present invention includes a motion information determination unit that determines whether an image of the video signal is an image including a large motion, and the first setting mode according to the motion information.
  • the reference picture to be selected may be configured to be switchable. In this case, when the motion information determination unit determines that the motion is large, the picture included in the first viewpoint video signal may be set as a reference picture.
  • the stereoscopic video encoding method of the present invention includes: a first viewpoint video signal that is a first viewpoint video signal; and a second viewpoint video signal that is a second viewpoint video signal different from the first viewpoint.
  • a stereoscopic video encoding method for encoding wherein a reference picture used when encoding the second viewpoint video signal is included in a picture included in the first viewpoint video signal and the second viewpoint video signal When selecting from the selected picture, the reference picture is changed in accordance with the change of the calculated disparity information.
  • At least one of the pictures included in the first viewpoint video signal and the pictures included in the second viewpoint video signal is referred to as a reference picture according to the change in the parallax information acquired by the parallax acquisition unit.
  • Switching between the first setting mode set as, and the second setting mode in which at least one picture among pictures included only in the second viewpoint video signal is set as a reference picture Image quality and encoding efficiency can be improved.
  • FIG. 3 is a block diagram showing a configuration of a stereoscopic video encoding apparatus according to the first embodiment.
  • FIG. 3 is a block diagram showing a detailed configuration of an encoding unit in the stereoscopic video encoding apparatus according to the first embodiment.
  • the flowchart which shows an example of the process which the reference picture setting part performs in the stereo image coding apparatus which concerns on this Embodiment 1.
  • FIG. FIG. 1 shows an example of the process which the reference picture setting part performs in the stereo image coding apparatus which concerns on this Embodiment 1.
  • FIG. 9 shows an example of a reference picture selection method determined by a reference picture setting unit in the stereoscopic video encoding device according to Embodiment 1, and assigns a reference index when it is determined that the disparity is large
  • An example of a reference picture selection method determined by a reference picture setting unit in the stereoscopic video encoding device according to Embodiment 1 is shown, and a reference index allocation method when it is determined that the disparity is not large
  • the flowchart which shows the modification of the process which the reference picture setting part performs in the stereo image coding apparatus which concerns on this Embodiment 1.
  • FIG. The figure which shows an example of the encoding structure when encoding a stereo image.
  • FIG. 1 An example of the reference index allocation method determined by the reference picture setting unit in the stereoscopic video encoding device according to Embodiment 1 is shown, and the reference index allocation method when it is determined that the disparity is large
  • Block diagram showing a configuration of a stereoscopic video encoding apparatus according to the second embodiment The flowchart which shows the other modification of the setting operation
  • FIG. The flowchart which shows the further another modification of the setting operation
  • FIG. The figure which shows an example of the encoding structure when encoding a stereo image. The figure which showed the order of encoding at the time of encoding a stereo image, and the relationship between a encoding object picture and a reference picture
  • FIG. 1 is a block diagram showing a configuration of the stereoscopic video encoding apparatus according to Embodiment 1.
  • the first viewpoint video signal and the second viewpoint video signal are input and output as a stream encoded by the H.264 compression method.
  • the H.264 compression method one picture is divided into one slice or a plurality of slices, and the slice is used as a processing unit.
  • the stereoscopic video encoding device 100 includes a parallax acquisition unit 101, a reference picture setting unit 102, and an encoding unit 103.
  • the parallax acquisition unit 101 calculates parallax information between the first viewpoint video signal and the second viewpoint video signal using means such as parallax matching and outputs the parallax information to the reference picture setting unit 102.
  • the means such as parallax matching is specifically a method called stereo matching or block matching.
  • this parallax information may be acquired when the parallax information is given from the outside. For example, when the first viewpoint video signal and the second viewpoint video signal are broadcast on a broadcast wave, and the parallax information is broadcast at this time, the parallax information may be acquired.
  • the reference picture setting unit 102 sets, from the disparity information output from the disparity acquisition unit 101, a reference picture to be referred to when encoding the encoding target picture. Further, the reference picture setting unit 102 determines a reference method such as how to assign a reference index to the reference picture to be set based on the disparity information. Therefore, the reference picture setting unit 102 changes the reference picture along with the change of the calculated disparity information. More specifically, when encoding the second viewpoint video signal, the reference picture setting unit 102 selects at least one picture from among a picture included in the first viewpoint video signal and a picture included in the second viewpoint video signal.
  • the encoding unit 103 performs a series of encoding processes such as motion vector detection, motion compensation, in-plane prediction, orthogonal transform, quantization, and entropy encoding based on the reference picture setting information determined by the reference picture setting unit 102. Execute. In Embodiment 1, the encoding unit 103 compresses and encodes the image data of the encoding target picture by encoding using the H.264 compression method in accordance with the reference picture setting information output from the reference picture setting unit 102.
  • FIG. 2 is a block diagram showing a detailed configuration of encoding section 103 in stereoscopic video encoding apparatus 100 according to Embodiment 1.
  • the encoding unit 103 includes an input image data memory 201, a reference image data memory 202, a motion vector detection unit 203, a motion compensation unit 204, an in-plane prediction unit 205, a prediction mode determination unit 206, a difference calculation.
  • Unit 207 orthogonal transform unit 208, quantization unit 209, inverse quantization unit 210, inverse orthogonal transform unit 211, addition unit 212, and entropy coding unit 213.
  • the input image data memory 201 stores image data of the first viewpoint video signal and the second viewpoint video signal.
  • Information held in the input image data memory 201 is referred to by the in-plane prediction unit 205, the motion vector detection unit 203, the prediction mode determination unit 206, and the difference calculation unit 207.
  • the reference image data memory 202 stores local decoded images.
  • the motion vector detection unit 203 searches for a local decoded image stored in the reference image data memory 202 and detects an image region closest to the input image according to the reference picture setting information input from the reference picture setting unit 102. Then, a motion vector indicating the position is determined. Furthermore, the motion vector detection unit 203 determines the size of the encoding target block with the smallest error and the motion vector at the size, and transmits the determined information to the motion compensation unit 204 and the entropy encoding unit 213.
  • the motion compensator 204 is stored in the reference image data memory 202 according to the motion vector included in the information received from the motion vector detector 203 and the reference picture setting information input from the reference picture setting unit 102.
  • An optimal image region for the predicted image is extracted from the decoded image, a predicted image for inter-plane prediction is generated, and the generated predicted image is output to the prediction mode determination unit 206.
  • the in-plane prediction unit 205 performs in-plane prediction from the local decoded image stored in the reference image data memory 202 using the encoded pixels in the same screen, generates a prediction image for in-plane prediction, The predicted image is output to the prediction mode determination unit 206.
  • the prediction mode determination unit 206 determines the prediction mode, and based on the determination result, the prediction mode generated by the in-plane prediction from the in-plane prediction unit 205 and the inter-frame prediction from the motion compensation unit 204. Switch between predicted images and output.
  • a method of determining the prediction mode in the prediction mode determination unit 206 for example, for the inter-plane prediction and the in-plane prediction, a difference absolute value sum of each pixel between the input image and the prediction image is obtained, and the smaller one is determined. The prediction mode is determined.
  • the difference calculation unit 207 acquires image data to be encoded from the input image data memory 201, calculates a pixel difference value between the acquired input image and the prediction image output from the prediction mode determination unit 206, and calculates The pixel difference value is output to the orthogonal transform unit 208.
  • the orthogonal transform unit 208 converts the pixel difference value input from the difference calculation unit 207 into a frequency coefficient, and outputs the converted frequency coefficient to the quantization unit 209.
  • the quantization unit 209 quantizes the frequency coefficient input from the orthogonal transform unit 208, and outputs the quantized value, that is, the quantized value, as encoded data to the entropy encoding unit 213 and the inverse quantization unit 210.
  • the inverse quantization unit 210 inversely quantizes the quantized value input from the quantization unit 209 to restore the frequency coefficient, and outputs the restored frequency coefficient to the inverse orthogonal transform unit 211.
  • the inverse orthogonal transform unit 211 performs inverse frequency conversion on the frequency coefficient input from the inverse quantization unit 210 to a pixel difference value, and outputs the pixel difference value obtained by the inverse frequency conversion to the addition unit 212.
  • the adding unit 212 adds the pixel difference value input from the inverse orthogonal transform unit 211 and the prediction image output from the prediction mode determination unit 206 to obtain a local decoded image, and the local decoded image is stored in the reference image data memory 202. Output.
  • the local decoded image stored in the reference image data memory 202 is basically the same image as the input image stored in the input image data memory 201.
  • the orthogonal transform unit 208, the quantization unit 209, and the like are performed.
  • the inverse quantization and inverse orthogonal transform processing are performed by the inverse quantization unit 210 and the inverse orthogonal transform unit 211, and thus have distortion components such as quantization distortion. .
  • the reference image data memory 202 stores the local decoded image input from the adding unit 212.
  • the entropy encoding unit 213 entropy-encodes the quantization value input from the quantization unit 209 and the motion vector input from the motion vector detection unit 203, and outputs the encoded data as an output stream.
  • the first viewpoint video signal and the second viewpoint video signal are input to the parallax acquisition unit 101 and the encoding unit 103, respectively.
  • the first viewpoint video signal and the second viewpoint video signal are stored in the input image data memory 201 of the encoding unit 103, and each is configured by a signal of 1920 pixels ⁇ 1080 pixels, for example.
  • the parallax acquisition unit 101 calculates the parallax information between the first viewpoint video signal and the second viewpoint video signal using means such as parallax matching and outputs the parallax information to the reference picture setting unit 102.
  • the disparity information calculated in this case includes, for example, information on a disparity vector (hereinafter referred to as a depth map) representing disparity for each pixel or pixel block of the first viewpoint video signal and the second viewpoint video signal.
  • the reference picture setting unit 102 sets the reference picture when encoding the encoding target picture from the disparity information output from the disparity acquisition unit 101 in the encoding mode, and further, the reference picture A reference method, such as how to allocate a reference index, is determined and output to the encoding unit 103 as reference picture setting information.
  • a reference picture to be used is set from a first reference picture that is a picture included in the first viewpoint video signal.
  • the reference pictures to be used are the second viewpoint view reference picture that is a picture included in the first viewpoint video signal and the picture included in the second viewpoint video signal. Is set from the reference picture in the second viewpoint view. Then, when the second viewpoint video signal is encoded, in accordance with the change in the disparity information output from the disparity acquisition unit 101, the second viewpoint view reference picture that is a picture included in the first viewpoint video signal and the above-mentioned Of the reference pictures in the second viewpoint view that are pictures included in the second viewpoint video signal, a first setting mode in which at least one picture is set as a reference picture, and pictures included only in the second viewpoint video signal. The reference picture is set while switching to the second setting mode in which at least one picture is set as the reference picture. That is, the reference picture is changed with the change of the calculated disparity information.
  • FIG. 3 is a flowchart illustrating an operation performed by the reference picture setting unit 102 based on the disparity information.
  • the reference picture setting unit 102 uses the parallax information input from the parallax acquisition unit 101 to relate to the parallax between the first viewpoint video signal and the second viewpoint video signal. It is determined whether the parallax information is large (step S301). When it is determined in step S301 that the disparity information is large (Yes in step S301), the reference picture setting unit 102 selects a reference picture from among the reference pictures in the view included in the second viewpoint video signal ( Step S302: Second setting mode).
  • the reference picture setting unit 102 determines the inter-view reference picture and the second viewpoint video signal included in the first viewpoint video signal.
  • a reference picture is selected from among the reference pictures in the view included in (Step S303: first setting mode).
  • whether the disparity information is large is determined by, for example, determining whether each disparity vector for each pixel or pixel block of the first viewpoint video signal and the second viewpoint video signal varies.
  • a determination condition may be whether the variance value of the depth map is equal to or greater than a threshold value.
  • each disparity vector for each pixel or pixel block may be determined from the condition whether each disparity vector varies for each pixel or pixel block from the maximum disparity and the minimum disparity obtained from the depth map.
  • the maximum parallax and the minimum parallax are values including positive / negative distinction.
  • the absolute value of the difference between the maximum parallax and the minimum parallax in the parallax vector that is, the sum of the absolute value of the maximum parallax and the absolute value of the minimum parallax (when the maximum parallax is positive and the minimum parallax is negative) or
  • the absolute value of the difference between the maximum parallax and the minimum parallax (when the maximum parallax and the minimum parallax are both positive or negative) is used as a feature amount, and the feature amount is equal to or greater than a threshold value that is a difference absolute value for determination.
  • a threshold value that is a difference absolute value for determination.
  • the disparity information By determining the disparity information based on the dispersion value of the disparity vector and the sum of absolute values of the disparity vectors, it is possible to determine the disparity state of the disparity vector relatively accurately and to improve reliability.
  • the absolute value of the difference between the maximum parallax and the minimum parallax in the parallax vector is equal to or larger than a predetermined difference absolute value for determination, it is determined that the parallax is large, so that the magnitude of the parallax is determined based on only two values Therefore, as compared with the case of obtaining the variance value, there is an advantage that the determination process can be calculated very easily and the calculation amount and the processing time can be minimized.
  • FIGS. 4A and 4B show reference picture selection when the reference picture setting unit 102 determines that the disparity is large when encoding is performed by selecting one reference picture with the encoding target picture as a P picture.
  • the method (FIG. 4A) and the reference picture selection method (FIG. 4B) when it is determined that the parallax is not large are shown. Further, the meanings of the arrows in the figure are the same as those in FIG.
  • the encoding target picture is P7 and encoding is performed as a P picture will be described.
  • the picture P7 refers to the picture P1 that is the reference picture in the View included in the second viewpoint video signal. Select as picture (second setting mode).
  • the picture P7 is a picture P6 that is an inter-view reference picture included in the first viewpoint video signal.
  • the picture P1 that is the reference picture in the view included in the second viewpoint video signal is selected as the reference picture (first setting mode). Then, the reference picture is changed with the change of the calculated disparity information.
  • the circuit area can be reduced. That is, as described above, when the parallax information indicating the variation state of the parallax vector becomes large, the first viewpoint video which is the video signal of the first viewpoint in which the occlusion area is expanded by switching to the second setting mode. Since a signal is not selected as a reference picture, the accuracy of obtaining a motion vector is improved and coding efficiency is improved.
  • the inter-view reference picture included in the first viewpoint video signal and the intra-view reference picture included in the second viewpoint video signal The case where the reference picture is selected from the above (first setting mode) has been described, but the present invention is not limited to this. That is, as shown in step S304 in FIG. 5, when it is determined that the disparity information is not large in the first setting mode, the reference picture is selected from the reference pictures in the view included in the second viewpoint video signal. You may comprise so that can be selected. Also in this configuration, when it is determined that the parallax is large, in the second setting mode, the reference picture setting unit 102 selects a reference picture from among the inter-view reference pictures included in the first viewpoint video signal. Compared to the case where the reference picture can be selected from the intra-view reference picture included in the second viewpoint video signal and the inter-view reference picture included in the first viewpoint video signal. The calculation amount can be reduced to a small amount, which can contribute to the reduction of electric power.
  • a reference picture can be selected from a plurality of already encoded pictures. Each selected reference picture is managed by a variable called Reference Index (reference index).
  • Reference Index reference index
  • the reference index is encoded simultaneously as information indicating which picture the motion vector refers to. .
  • the reference index takes a value of 0 or more, and the smaller the value, the smaller the amount of information after encoding.
  • the assignment of the reference index to each reference picture can be freely set. For this reason, it is possible to improve the encoding efficiency by assigning a reference index having a small number to a reference picture having a large number of referenced motion vectors.
  • CABAC Context-based Adaptive Binary Arithmetic Coding
  • the reference index is also binarized and arithmetically encoded.
  • the binarized code length (binary signal length) when the reference index is “2” is 3 bits
  • the binary signal length when the reference index is “1” is 2 bits. Is a bit.
  • the binarized code length (binary signal length) is 1 bit.
  • the default allocation method determined by the H.264 standard is applied.
  • the default reference index allocation method a reference index having a smaller number is allocated to the intra-view reference picture, and the reference index allocated to the inter-view reference picture is larger than the reference index allocated to the intra-view reference picture.
  • the default reference index allocation method is desirable. This is because the intra-view reference picture has a higher correlation with the encoding target picture than the inter-view reference picture, and more motion vectors referencing the intra-view reference picture are detected.
  • the inter-view reference picture has a higher correlation with the encoding target picture than the intra-view reference picture, and the motion vector referring to the inter-view reference picture is Many are detected.
  • the reference index 1 (described as RefIdx1 in FIG. 6). ) Is selected more than the motion vector that refers to the in-view reference picture P1 to which the reference index 0 (referred to as RefIdx0 in FIG. 6) is assigned. For this reason, in the default reference index allocation method, the encoding efficiency decreases when the correlation between the encoding target picture and the inter-view reference picture is high.
  • FIG. 7 is a flowchart illustrating an example of a reference index assignment method performed by the reference picture setting unit 102 in the encoding mode.
  • the reference picture setting unit 102 determines whether or not the disparity information input from the disparity acquisition unit 101 is large (step S601). When it is determined in step S601 that the disparity information is large (Yes in step S601), the reference picture setting unit 102 allocates a small reference index to the second view view reference picture (hereinafter referred to as “view reference picture”). (Step S602). When it is determined in step S601 that the disparity information is not large (that is, the same or small) (in the case of No in step S601), the reference picture setting unit 102 determines a second inter-view reference picture (hereinafter referred to as an inter-view reference picture). A small reference index is assigned to (omitted) (step S603).
  • FIGS. 8A and 8B show the reference index allocation method (FIG. 8A) when it is determined that the disparity is large and the disparity is determined not to be large when the encoding target picture is encoded as a P picture. It is a figure which shows the allocation method (FIG. 8B) of this reference index. Further, the meanings of the arrows in the figure are the same as those in FIG.
  • the encoding target picture is P7 and encoding is performed as a P picture will be described.
  • a picture P7 selects a reference picture of a motion vector from the pictures P1 and P6, and the reference index 0 is assigned to the picture P1.
  • Reference index 1 is assigned to picture P6.
  • the picture P7 selects the reference picture of the motion vector from the pictures P1 and P6, and the picture P1 has the reference index. 1 and a reference index 0 is assigned to the picture P6.
  • a reference index having a smaller number is assigned to the reference picture in the view, and the first viewpoint video signal and the second viewpoint video signal
  • the reference picture is set so that a reference index having a smaller number is assigned to the inter-view reference picture.
  • the reference picture setting unit 102 is configured to be able to change a reference index allocation method according to disparity information in the encoding mode. Therefore, when it is determined that the disparity information is large, a reference index that is equal to or smaller than the value of the currently assigned reference index can be reassigned to the reference picture in the view (for example, the currently assigned reference index is 1). In this case, the reference index can be changed to 0, and when the currently assigned reference index is 0, the reference index remains 0).
  • a reference index that is equal to or larger than the value of the reference index currently assigned to the inter-view reference picture can be changed (for example, The reference index can be changed to 1 when the currently assigned reference index is 0, and the reference index remains 1 when the currently assigned reference index is 1. Has been. If it is determined that the disparity information is not large, a reference index that is equal to or less than the value of the currently assigned reference index can be reassigned to the inter-view reference picture (for example, the currently assigned reference index is 1). In this case, the reference index can be changed to 0, and when the currently assigned reference index is 0, the reference index remains 0).
  • a reference index that is equal to or greater than the value of the currently assigned reference index can be changed in the reference picture in the view (for example, The reference index can be changed to 1 when the currently assigned reference index is 0, and the reference index remains 1 when the currently assigned reference index is 1. Has been.
  • the reference index of a reference picture with many motion vectors to be referenced can be set to a small value, so that the encoding efficiency can be improved. Therefore, it is possible to improve image quality and encoding efficiency.
  • the present invention can also be realized as a photographing apparatus such as a stereoscopic video photographing camera.
  • a process executed by a stereoscopic video imaging apparatus equipped with a stereoscopic video encoding apparatus will be described.
  • FIG. 9 is a block diagram showing a configuration of the stereoscopic video imaging apparatus according to the second embodiment.
  • the stereoscopic image capturing apparatus A000 includes an optical system A110 (a) and A110 (b), a zoom motor A120, a camera shake correction actuator A130, a focus motor A140, a CCD image sensor A150 (a), A150 (b), pre-processing unit A160 (a), A160 (b), stereoscopic video encoding device A170, angle setting unit A200, controller A210, gyro sensor A220, card slot A230, memory card A240, operation member A250, zoom A lever A260, a liquid crystal monitor A270, an internal memory A280, a shooting mode setting button A290, and a distance measuring unit A300 are provided.
  • the optical system A110 (a) includes a zoom lens A111 (a), an optical camera shake correction mechanism A112 (a), and a focus lens A113 (a).
  • the optical system A110 (b) includes a zoom lens A111 (b), an optical camera shake correction mechanism A112 (b), and a focus lens A113 (b).
  • optical image stabilization mechanisms A112 (a) and A112 (b) an image stabilization mechanism known as OIS (Optical Image Stabilizer) can be used.
  • OIS Optical Image Stabilizer
  • an OIS actuator is used as the actuator A130.
  • the optical system A110 (a) forms a subject image at the first viewpoint.
  • the optical system A110 (b) forms a subject image at a second viewpoint different from the first viewpoint.
  • the zoom lenses A111 (a) and A111 (b) can enlarge or reduce the subject image by moving along the optical axis of the optical system.
  • the zoom lenses A111 (a) and A111 (b) are driven while being controlled by the zoom motor A120.
  • the optical image stabilization mechanisms A112 (a) and A112 (b) have a correction lens that can move in a plane perpendicular to the optical axis.
  • the optical camera shake correction mechanisms A112 (a) and A112 (b) reduce the blur of the subject image by driving the correction lens in a direction that cancels the blur of the stereoscopic video imaging apparatus A100.
  • the correction lens can move from the center by a maximum of L in the optical image stabilization mechanisms A112 (a) and A112 (b).
  • the optical image stabilization mechanisms A112 (a) and A112 (b) are driven while being controlled by the actuator A130.
  • the focus lenses A113 (a) and A113 (b) adjust the focus of the subject image by moving along the optical axis of the optical system.
  • the focus lenses A113 (a) and A113 (b) are driven while being controlled by the focus motor A140.
  • the zoom motor A120 drives and controls the zoom lenses A111 (a) and A111 (b).
  • the zoom motor A120 may be realized by a pulse motor, a DC motor, a linear motor, a servo motor, or the like.
  • the zoom motor A120 may drive the zoom lenses A111 (a) and A111 (b) via a mechanism such as a cam mechanism or a ball screw.
  • the zoom lens A111 (a) and the zoom lens A111 (b) may be controlled by the same operation.
  • Actuator A130 drives and controls the correction lens in optical camera shake correction mechanisms A112 (a) and A112 (b) in a plane perpendicular to the optical axis.
  • the actuator A130 can be realized by a planar coil or an ultrasonic motor.
  • the focus motor A140 drives and controls the focus lenses A113 (a) and A113 (b).
  • the focus motor A140 may be realized by a pulse motor, a DC motor, a linear motor, a servo motor, or the like.
  • the focus motor A140 may drive the focus lenses A113 (a) and A113 (b) via a mechanism such as a cam mechanism or a ball screw.
  • the CCD image sensors A150 (a) and A150 (b) capture the subject images formed by the optical systems A110 (a) and A110 (b), and generate a first viewpoint video signal and a second viewpoint video signal. To do.
  • the CCD image sensors A150 (a) and A150 (b) perform various operations such as exposure, transfer, and electronic shutter.
  • the preprocessing units A160 (a) and A160 (b) perform various processes on the first viewpoint video signal and the second viewpoint video signal generated by the CCD image sensors A150 (a) and A150 (b), respectively. Apply.
  • the video processing units A160 (a) and A160 (b) perform various video correction processes such as gamma correction, white balance correction, and flaw correction on the first viewpoint video signal and the second viewpoint video signal.
  • the stereoscopic video encoding device A170 compresses the first viewpoint video signal and the second viewpoint video signal subjected to the video correction processing in the preprocessing units A160 (a) and A160 (b) in accordance with the H.264 compression encoding method. Compress by format.
  • the encoded stream obtained by compression encoding is recorded on the memory card A240.
  • the angle setting unit A200 controls the optical system A110 (a) and the optical system A110 (b) in order to adjust the angle at which the optical axes of the optical system A110 (a) and the optical system A110 (b) intersect.
  • Controller A210 is a control means for controlling the whole.
  • the controller A210 can be realized by a semiconductor element or the like.
  • the controller A210 may be configured only by hardware, or may be realized by combining hardware and software.
  • the controller A210 can be realized by a microcomputer or the like.
  • the gyro sensor A220 is composed of a vibration material such as a piezoelectric element.
  • the gyro sensor A220 obtains angular velocity information by vibrating a vibrating material such as a piezoelectric element at a constant frequency and converting a force generated by the Coriolis force into a voltage.
  • a vibrating material such as a piezoelectric element at a constant frequency
  • converting a force generated by the Coriolis force into a voltage.
  • the memory card A240 can be attached and detached.
  • the card slot A230 can be mechanically and electrically connected to the memory card A240.
  • the memory card A240 includes a flash memory, a ferroelectric memory, and the like, and can store data.
  • the operation member A250 includes a release button.
  • the release button receives a user's pressing operation.
  • AF Auto-Focus
  • AE Auto-Exposure
  • the zoom lever A260 is a member that receives a zoom magnification change instruction from the user.
  • the liquid crystal monitor A270 is a first viewpoint video signal or a second viewpoint video signal generated by the CCD image sensors A150 (a) and A150 (b), and a first viewpoint video signal and a second viewpoint video signal read from the memory card A240. Is a display device capable of 2D display or 3D display. Further, the liquid crystal monitor A270 can display various setting information of the stereoscopic video imaging apparatus A000. For example, the liquid crystal monitor A 270 can display an EV value, an F value, a shutter speed, ISO sensitivity, and the like, which are shooting conditions at the time of shooting.
  • the internal memory A280 stores a control program and the like for controlling the entire stereoscopic video camera A000.
  • the internal memory A280 functions as a work memory for the stereoscopic video encoding device A170 and the controller A210.
  • the internal memory A280 temporarily stores shooting conditions of the optical systems A110 (a) and A110 (b) and the CCD image sensors A150 (a) and A150 (b) at the time of shooting.
  • the shooting conditions include subject distance, field angle information, ISO sensitivity, shutter speed, EV value, F value, distance between lenses, shooting time, OIS shift amount, optical system A110 (a) and optical system A110 (b). There are angles where the optical axes intersect.
  • the mode setting button A290 is a button for setting a shooting mode when shooting with the stereoscopic video shooting device A000.
  • the “shooting mode” indicates a shooting scene assumed by the user. For example, (1) portrait mode, (2) child mode, (3) pet mode, (4) macro mode, (5) landscape mode 2D shooting mode including (6) 3D shooting mode. Note that a 3D shooting mode may be provided for each of (1) to (5).
  • the stereoscopic video imaging apparatus A000 performs imaging by setting appropriate imaging parameters based on this imaging mode. In addition, you may make it include the camera automatic setting mode in which stereoscopic video imaging device A000 performs automatic setting.
  • the shooting mode setting button A290 is a button for setting a playback mode of a video signal recorded on the memory card A240.
  • the distance measuring unit A300 has a function of measuring the distance from the stereoscopic image capturing apparatus A000 to the subject to be imaged.
  • the distance measuring unit A300 performs distance measurement, for example, by irradiating an infrared signal and then measuring a reflected signal of the irradiated infrared signal. Note that the distance measuring method in the distance measuring unit A300 is not limited to the above method, and any method may be used as long as it is a generally used method.
  • the stereoscopic image shooting apparatus A000 acquires the shooting mode after the operation.
  • Controller A210 waits until the release button is fully pressed.
  • the CCD image sensors A150 (a) and A150 (b) When the release button is fully pressed, the CCD image sensors A150 (a) and A150 (b) perform a photographing operation based on the photographing conditions set from the photographing mode, and the first viewpoint video signal and the second viewpoint video signal. Is generated.
  • the preprocessors A160 (a) and A160 (b) perform various videos in accordance with the shooting mode on the generated two video signals. Process.
  • the stereoscopic video encoding device A170 compresses and encodes the first viewpoint video signal and the second viewpoint video signal to generate an encoded stream. To do.
  • the controller A210 When the encoded stream is generated, the controller A210 records the encoded stream in the memory card A240 connected to the card slot A230.
  • FIG. 10 is a block diagram showing a configuration of stereoscopic video coding apparatus A170 according to the second embodiment.
  • the stereoscopic video encoding device A170 includes a reference picture setting unit A102 and an encoding unit 103.
  • the reference picture setting unit A102 encodes the encoding target picture from the shooting condition parameters such as the subject distance held in the internal memory A280 and the angle at which the optical axes of the optical system A110 (a) and the optical system A110 (b) intersect.
  • a reference scheme is determined, such as how to set a reference picture at the time of conversion, and how to assign a reference index to the reference picture.
  • reference picture setting unit A102 outputs the determined information (hereinafter referred to as reference picture setting information) to encoding unit 103. Details regarding specific operations in the reference picture setting unit A102 will be described later.
  • the flowchart of the process executed by the reference picture setting unit A102 is the same as that in FIGS. 3 and 7 described in the first embodiment, but the method for determining whether the parallax is large is different.
  • a method for determining whether or not the parallax is large for example, (1) a third angle at which the optical axis of the optical system A110 (a) and the optical system A110 (b) intersect is determined in advance. Whether or not it is greater than or equal to a threshold, and (2) whether or not the subject distance is less than or equal to a predetermined fourth threshold. Any other method may be used as long as it is a method for determining whether or not there are many regions with large parallax between the first viewpoint video signal and the second viewpoint video signal.
  • the stereoscopic image capturing apparatus A000 sets the reference picture based on the distance information obtained in the distance measuring unit A300 or the angle at which the optical axes of the two optical systems intersect. For this reason, unlike Embodiment 1, it is possible to set a reference picture without detecting disparity information from the first viewpoint video signal and the second viewpoint video signal.
  • the stereoscopic video encoding apparatus according to Embodiments 1 and 2 according to the parallax information calculated by the parallax acquisition unit 101 or the shooting condition parameter, and the first viewpoint video signal and the second viewpoint video. Coding according to the characteristics of the input image data by judging whether the disparity information based on the disparity with the signal is large and changing the selection method of the reference picture or the method of assigning the reference index Process. For this reason, the encoding efficiency of input image data can be improved. Therefore, it is possible to improve the encoding efficiency of the stereoscopic video encoding device and the image quality of the encoded stream encoded using the stereoscopic video encoding device.
  • the first embodiment has described a method for determining whether or not a disparity is large using disparity information.
  • the method for determining whether the parallax is large using the imaging parameter has been described. However, it may be determined whether the parallax is large by combining both the parallax information and the imaging parameter.
  • the reference picture is set only by determining whether or not the parallax information such as the parallax variation is large. In addition to this, for example, whether the shooting scene is a scene with a large motion or not.
  • the reference picture may be determined by adding information such as whether or not.
  • FIG. 11 and FIG. 12 are flowcharts showing another modification example of the setting operation executed by the reference picture setting unit in the stereoscopic video imaging apparatus according to the first embodiment.
  • the parallax related to the parallax between the first viewpoint video signal and the second viewpoint video signal using the parallax information input from the parallax acquisition unit 101 as in the case illustrated in FIG. 3. It is determined whether or not information (disparity vector variation state or the like) is large (step S301).
  • the reference picture setting unit 102 determines the reference picture in the View included in the second viewpoint video signal. A reference picture is selected from among them (step S302: second setting mode).
  • step S301 determines whether the disparity information is large (No in step S301). If it is determined in step S301 that the disparity information is not large (No in step S301), the process proceeds from step S301 to step S305 to move the shooting scene (the first viewpoint video signal or the second viewpoint video signal). Determine if is large. If it is determined that the movement of the shooting scene is large, the process proceeds to step S306, and a reference picture is selected from the inter-view reference pictures included in the first viewpoint video signal. In step S305, when it is determined that the movement of the shooting scene is not large, the process proceeds to step S307, and the inter-view reference picture included in the first viewpoint video signal and the view included in the second viewpoint video signal. A reference picture is selected from the inner reference pictures (see FIG. 11). Also, as shown in FIG. 12, when it is determined in step S305 that the movement of the shooting scene is not large, the process proceeds to step S308, and from among the in-view reference pictures included in the second viewpoint video signal. A reference picture may be selected.
  • the motion vector is detected from the reduced image, and the average value is obtained and determined by, for example, calculating the motion vector result.
  • the present invention is not limited to this.
  • the first viewpoint video signal that is the first viewpoint video signal in which the occlusion area is expanded is not selected as the reference picture. Therefore, the accuracy for obtaining the motion vector is improved and the coding efficiency is improved. Also, according to these methods, when the motion is large, the disparity information indicating the disparity state of the disparity vector is not large without selecting the in-view reference picture included in the second viewpoint video signal, Since the inter-view reference picture included in the first viewpoint video signal that does not move much is selected, the encoding efficiency of the input image data can be further increased.
  • the encoding target picture is a P picture.
  • the coding efficiency can be improved by adaptively switching the B picture in the same manner.
  • the case where the encoding target picture is encoded with the frame structure has been described.
  • the frame structure and the field structure are adaptively switched, it is possible to improve the encoding efficiency by adaptively switching in the same manner.
  • the present invention may be applied to a compression coding method in which a reference picture can be set from a plurality of pictures, particularly a compression coding method having a function of assigning a reference index and managing a reference picture. .
  • the present invention can be provided not only as a stereoscopic video encoding device including the respective constituent elements in the first and second embodiments.
  • a stereoscopic video encoding method using each component included in the stereoscopic video encoding device as each step, a stereoscopic video encoding integrated circuit including each component included in the stereoscopic video encoding device, and stereoscopic video encoding It is also possible to use as a stereoscopic video encoding program capable of realizing the method.
  • the stereoscopic video encoding program can be distributed via a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • the stereoscopic video encoding integrated circuit can be realized as an LSI which is a typical integrated circuit.
  • the LSI may be composed of one chip or a plurality of chips.
  • the functional blocks other than the memory may be configured with a one-chip LSI.
  • LSI LSI here, it may be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, but may be realized by a dedicated circuit or a general-purpose processor, or an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, A reconfigurable processor that can reconfigure the connection and setting of circuit cells may be used.
  • FPGA Field Programmable Gate Array
  • the stereoscopic video encoding apparatus can realize video encoding by a compression encoding scheme such as H.264 with higher image quality or higher efficiency, a personal computer, HDD recorder, DVD recorder It can also be applied to mobile phones with cameras.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

左右の視差量に応じて参照ピクチャの設定方法を適応的に切り替えることにより、符号化効率を向上させることができる立体映像符号化装置を提供する。視差取得部101は、第1視点映像信号と第2視点映像信号の視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部102は、視差情報から、符号化対象ピクチャを符号化する際に参照ピクチャをどのように選択するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照ピクチャ設定情報を決定し、符号化部103は、参照ピクチャ選択情報に従って、符号化対象ピクチャの画像データを圧縮符号化する。

Description

立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法
 本発明は、立体映像を圧縮符号化して光ディスク、磁気ディスクあるいはフラッシュメモリ等の記憶メディア上に記録する立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法に関するものであり、特にH.264圧縮符号化方式により圧縮符号化を行う立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法に関する。
 デジタル映像技術の発展と共に、データ量の増大に対応してデジタル映像データを圧縮符号化する技術が発展しつつある。その発展は、映像データの特性を生かし、映像データに特化した圧縮符号化技術となって現れている。H.264圧縮符号化は、光ディスクの1つの規格であるBlu-ray、および、ハイビジョン映像をビデオカメラで記録するための規格であるAVCHD(Advanced Video Codec High Definition)の動画圧縮方式としても採用されており、幅広い分野での利用が期待されている。
 一般に、動画像の符号化では、時間方向および空間方向の冗長性を削減することによって情報量の圧縮を行う。時間的な冗長性の削減を目的とする画面間予測符号化では、時間軸の前方または後方のピクチャを参照してブロック単位で動き量(以下、動きベクトル)を検出し、検出した動きベクトルを考慮した予測(以下、動き補償)を行うことにより予測精度を上げ、符号化効率を向上させている。例えば、符号化対象となる入力画像の動きベクトルを検出し、その動きベクトルの分だけシフトした予測値と符号化対象となる入力画像との予測残差を符号化することにより、符号化に必要な情報量を削減している。
 なお、ここで、動きベクトルの検出時に参照されるピクチャを参照ピクチャと呼ぶ。また、ピクチャとは1枚の画面を表す用語である。動きベクトルはブロック単位で検出されており、具体的には、符号化対象となるピクチャである符号化対象ピクチャ側のブロック(符号化対象ブロック)を固定しておき、参照ピクチャ側のブロック(参照ブロック)を探索範囲内で移動させ、符号化対象ブロックと最も似通った参照ブロックの位置を見つけることにより、動きベクトルが検出される。この動きベクトルを探索する処理を、動きベクトル検出と呼ぶ。似通っているかどうかの判断としては、符号化対象ブロックと参照ブロックとの比較誤差を使用するのが一般的であり、特に絶対値差分和(SAD: Summed Absolute Difference)がよく用いられる。なお、参照ピクチャ全体の中で参照ブロックを探索すると演算量が膨大となるため、参照ピクチャの中で探索する範囲を制限することが一般的であり、制限した範囲を探索範囲と呼ぶ。
 画面間予測符号化を行わず、空間的な冗長性の削減を目的とした画面内予測符号化のみを行うピクチャをIピクチャと呼ぶ。また、1枚の参照ピクチャから画面間予測符号化を行うものをPピクチャと呼ぶ。また、最大2枚の参照ピクチャから画面間予測符号化を行うものをBピクチャと呼ぶ。
 ここで、第1視点の映像信号(以下、第1視点映像信号と称す)と、前記第1視点とは異なる第2視点の映像信号(以下、第2視点映像信号と称す)とを符号化する立体映像を符号化する方式として、視点間の冗長性を削減することによって情報量の圧縮を行う方式が提案されている。より具体的には、第1視点映像信号については、立体ではない2次元の映像信号の符号化と同様の方式で符号化し、第2視点映像信号については、同時刻の第1視点映像信号のピクチャを参照ピクチャとして動き補償を行う。
 図13は提案されている立体映像符号化の符号化構造を示した一例である。ピクチャI0、ピクチャB2、ピクチャB4、ピクチャP6は第1視点映像信号に含まれるピクチャを表しており、ピクチャP1、ピクチャB3、ピクチャB5、ピクチャP7は、第2視点映像信号に含まれるピクチャを表している。ピクチャI0はIピクチャとして符号化するピクチャであり、ピクチャP1、ピクチャP6、ピクチャP7はPピクチャとして符号化するピクチャであり、ピクチャB2、ピクチャB3、ピクチャB4、ピクチャB5はBピクチャとして符号化するピクチャであることをそれぞれ表しており、時間順序で表示されている。なお、図中の矢印は、矢印の根元(出発点)にあたるピクチャを符号化するときに、矢印の先(到達点)にあたるピクチャを参照し得ることを示している。また、ピクチャP1、ピクチャB3、ピクチャB5、ピクチャP7は同時刻の第1視点映像信号のピクチャI0、ピクチャB2、ピクチャB4、ピクチャP6を参照している。
 図14に、図13に示す符号化構造で符号化する場合の符号化順序と、符号化対象となっているピクチャ(以下、符号化対象ピクチャと称す)と各入力ピクチャを符号化する際に用いる参照ピクチャとの関係との一例を示す。図13に示す符号化構造で符号化する場合、図14に示すように、ピクチャI0、ピクチャP1、ピクチャP6、ピクチャP7、ピクチャB2、ピクチャB3、ピクチャB4、ピクチャB5の順で符号化される。
 なお、ここで、同一視点の映像信号に含まれるピクチャを参照ピクチャとして動き補償を行うことをView内参照と呼び、異なる視点の映像信号に含まれるピクチャを参照ピクチャとして動き補償を行うことをView間参照と呼ぶ。また、View内参照を行う参照ピクチャをView内参照ピクチャと呼び、View間参照を行う参照ピクチャをView間参照ピクチャと呼ぶ。
 第1視点映像信号と第2視点映像信号とは、いずれか一方が右目用の映像で、もう一方が左目用の映像であり、同時刻の第1視点映像信号に含まれるピクチャと、第2視点映像信号に含まれるピクチャとは相関が高い。このため、View内参照を行うか、それともView間参照を行うかを、ブロック単位で適切に選択することにより、View内参照のみを行う従来の符号化に比べて情報量を効率的に削減することができる。
 H.264圧縮符号化では、既に符号化した複数のピクチャから参照ピクチャを選択している。しかしながら、従来は、視差のばらつきなどに関係なく、参照ピクチャを選択しているので、符号化効率の高くない参照ピクチャを選択することがあり、符号化効率が低下することがあった。例えば、符号化対象となる入力画像において、視差が飛び出し側から奥側まで広く分布する場合、一方の視点から見えているが、他方の視点からは見えない、いわゆるオクルージョン領域が拡大する。このオクルージョン領域は、他方の視点の画像では画像データが存在しないため、マッチング処理により、一方の視点から見えている部分に対応する箇所を見つけることができなくなって、動きベクトルを求める精度が低下し、その結果、符号化効率が低下していた。
 本発明はかかる問題を解決するためになされたものであり、視差のばらつきなどがあった場合でも符号化効率の低減を抑えることができて、ひいては符号化効率を向上させることができる画像符号化方式装置および画像符号化方法を提供することを目的とする。
 上記目的を達成するために、本発明の立体映像符号化装置は、第1視点の映像信号である第1視点映像信号と、当該第1視点とは異なる第2視点の映像信号である第2視点映像信号と、を符号化する立体映像符号化装置であって、前記第1視点映像信号と前記第2視点映像信号との視差に関する情報である視差情報を取得算出する視差取得部と、前記第1信号映像信号および前記第2視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第1視点映像信号と前記第2視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、を備え、前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1視点映像信号に含まれるピクチャおよび前記第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを有し、前記参照ピクチャ設定部は、前記視差取得部で取得した視差情報の変更に応じて、前記第1の設定モードと前記第2の設定モードとを切り換えることを特徴とする。
 上記構成により、取得した前記視差情報の変更に伴って参照ピクチャを変更するので、符号化効率の高い参照ピクチャを選択できて、符号化効率を向上させることが可能となる。
 また、本発明は、上記構成において、さらに、前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1の設定モードにおいては、第1視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定することを特徴とする。
 前記視差情報は、前記第1視点映像信号と前記第2視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態を示す情報とすることが好ましく、前記参照ピクチャ設定部は、前記視差情報が大きくなると前記第2の設定モードに切り替え、前記視差情報が小さくなると前記第1の設定モードに切り替えるように構成する。このように、前記第1視点映像信号と前記第2視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態が大きくなった際に前記第2の設定モードに切り替えることで、オクルージョン領域が拡大する第1視点の映像信号である第1視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。
 さらには、前記視差情報としては、前記視差ベクトルの分散値、各視差ベクトルの絶対値の和、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値が好ましい。
 視差情報を、前記視差ベクトルの分散値や各視差ベクトルの絶対値の和とすることで、視差ベクトルのばらつき状態を比較的正確に判定できて、信頼性が向上する利点がある。
 また、視差情報を、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値とすることで、2つの値だけから視差の大小を判定できるため、判定処理が極めて簡単に計算できて計算量や処理時間を最小限に抑えることができる利点がある。
 また、上記構成によれば、より適した参照ピクチャに変更することができるので、符号化効率を向上することができる。
 また、本発明は、前記参照ピクチャ設定部は、少なくとも2つ以上の参照ピクチャを設定可能とされ、前記視差情報が切り換わることにより、参照ピクチャの参照インデックスを切り換え可能に構成されていることを特徴とする。そして、前記参照ピクチャ設定部は、前記視差情報から視差が大きいと判断した場合に、前記第1視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成されていることを特徴とする。
 この構成によれば、参照インデクスの符号化量を最小限に抑えることができて、符号化効率を向上することができる。
 また、本発明の立体映像撮影装置は、被写体を第1視点と、当該第1視点とは異なる第2視点と、から撮像し、当該第1視点における映像信号である第1視点映像信号と、当該第2視点における映像信号である第2視点映像信号と、を撮影する立体映像撮影装置において、前記被写体の光学像を形成するとともに、当該光学像を撮影し、デジタル信号として前記第1視点映像信号及び前記第2視点映像信号を取得する撮影部と、前記第1視点映像信号と前記第2視点映像信号との視差に関する情報である視差情報を算出する視差取得部と、前記第1視点映像信号および前記第2視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第1視点映像信号と前記第2視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、前記符号化部からの出力結果を記録する記録媒体と、前記撮影部における撮影条件パラメータを設定する設定部と、を備え、前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1視点映像信号に含まれるピクチャおよび前記第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを有し、前記参照ピクチャ設定部は、前記撮影条件パラメータ、または前記視差情報の変更に応じて、前記第1の設定モードと前記第2の設定モードとを切り換えることを特徴とする。
 この場合に、前記撮影条件パラメータは前記第1視点の撮影方向と前記第2視点の撮影方向との角度であることが好ましい。
 また、これに代えて、前記撮影条件パラメータは前記第1視点または前記第2視点から前記被写体までの距離であってもよい。
 また、本発明の立体映像撮影装置として、映像信号の画像が大きな動きを含む画像であるかどうかを判断する動き情報判断部を有し、前記動き情報に応じて前記第1の設定モードでの選択する参照ピクチャを切り換え可能に構成してもよい。この場合に、前記動き情報判断部により動きが大きいと判断した場合に、前記第1視点映像信号に含まれるピクチャを参照ピクチャとして設定するよう構成してもよい。
 また、本発明の立体映像符号化方法は、第1視点の映像信号である第1視点映像信号と、当該第1視点とは異なる第2視点の映像信号である第2視点映像信号と、を符号化する立体映像符号化方法であって、前記第2視点映像信号を符号化する際に使用する参照ピクチャを、前記第1視点映像信号に含まれるピクチャと、前記第2視点映像信号に含まれるピクチャと、から選択するに際し、算出した前記視差情報の変更に伴って参照ピクチャを変更することを特徴とする。
 本発明によれば、視差取得部で取得した視差情報の変更に応じて、前記第1視点映像信号に含まれるピクチャおよび前記第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する前記第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する前記第2の設定モードとを切り換えるので、符号化したストリームの画質および符号化効率を向上させることが可能となる。
本実施の形態1に係る立体映像符号化装置の構成を示すブロック図 本実施の形態1に係る立体映像符号化装置における符号化部の詳細な構成を示すブロック図 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の一例を示すフローチャート 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照ピクチャの選択方法の一例を示し、視差が大きいと判断された場合の参照インデクスの割当方法 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照ピクチャの選択方法の一例を示し、視差が大きくないと判断された場合の参照インデクスの割当方法 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の変形例を示すフローチャート 立体映像を符号化するときの符号化構造の一例を示す図 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が実行する処理の一例を示すフローチャート 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照インデクスの割当方法の一例を示し、視差が大きいと判断された場合の参照インデクスの割当方法 本実施の形態1に係る立体映像符号化装置における参照ピクチャ設定部が決定する参照インデクスの割当方法の一例を示し、視差が大きくないと判断された場合の参照インデクスの割当方法 本実施の形態2に係る立体映像撮影装置の構成を示すブロック図 本実施の形態2に係る立体映像符号化装置の構成を示すブロック図 本実施の形態1に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作の他の変形例を示すフローチャート 本実施の形態1に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作のさらに他の変形例を示すフローチャート 立体映像を符号化するときの符号化構造の一例を示す図 立体映像を符号化するときの符号化順序、ならびに符号化対象ピクチャと参照ピクチャの関係を示した図
 以下、本実施の形態について、図面を参照しながら説明する。
  (実施の形態1)
 図1は、本実施の形態1に係る立体映像符号化装置の構成を示すブロック図である。本実施の形態1に係る立体映像符号化装置においては、第1視点映像信号と第2視点映像信号とが入力され、H.264圧縮方式で符号化されたストリームとして出力される。H.264圧縮方式による符号化においては、1つのピクチャを、1つのスライス、または複数のスライスに分割し、そのスライスを処理単位としている。本実施の形態1におけるH.264圧縮方式による符号化では、1つのピクチャが1つのスライスであるとする。なお、このことは、後述する本実施の形態2および3においても同様である。
 図1に示すように、立体映像符号化装置100は、視差取得部101と、参照ピクチャ設定部102と、符号化部103とを備える。
 視差取得部101は、第1視点映像信号と第2視点映像信号との視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部102に対して出力する。前記視差マッチング等の手段とは、具体的には、ステレオマッチングまたはブロックマッチングと言われる方式である。また、別の視差情報取得方法としては、外部から視差情報が与えられる場合に、この視差情報を取得してもかまわない。例えば、放送波で第1視点映像信号と第2視点映像信号とが放送され、この際に、視差情報が付加されて放送されている場合に、前記視差情報を取得する構成としてもかまわない。
 参照ピクチャ設定部102は、視差取得部101が出力する視差情報から、符号化対象ピクチャを符号化する際に参照する参照ピクチャを設定する。さらに、参照ピクチャ設定部102は、前記視差情報に基づいて、設定する参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定する。したがって、参照ピクチャ設定部102は、算出した視差情報の変更に伴って参照ピクチャを変更する。より具体的には、参照ピクチャ設定部102は、第2視点映像信号を符号化する際、第1視点映像信号に含まれるピクチャおよび第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを有する。そして、視差取得部101で取得した視差情報の変更に応じて、前記第1の設定モードと前記第2の設定モードとを切り換える。そして、参照ピクチャ設定部102は、決定したそれらの情報(以下、参照ピクチャ設定情報と称す)を符号化部103に対して出力する。参照ピクチャ設定部102の具体的な動作については後述する。
 符号化部103は、参照ピクチャ設定部102で決定された参照ピクチャ設定情報に基づいて動きベクトル検出、動き補償、面内予測、直交変換、量子化およびエントロピー符号化等の一連の符号化処理を実行する。本実施の形態1においては、符号化部103は、参照ピクチャ設定部102が出力した参照ピクチャ設定情報に従って、符号化対象ピクチャの画像データをH.264圧縮方式による符号化により圧縮符号化する。
 次に、図2を用いて、符号化部103の詳細な構成について説明する。なお、図2は、本実施の形態1に係る立体映像符号化装置100における符号化部103の詳細な構成を示すブロック図である。
 図2に示すように、符号化部103は、入力画像データメモリ201、参照画像データメモリ202、動きベクトル検出部203、動き補償部204、面内予測部205、予測モード判定部206、差分演算部207、直交変換部208、量子化部209、逆量子化部210、逆直交変換部211、加算部212、およびエントロピー符号化部213を備えている。
 入力画像データメモリ201は、第1視点映像信号と第2視点映像信号との画像データを格納している。なお、入力画像データメモリ201が保持している情報は、面内予測部205、動きベクトル検出部203、予測モード判定部206、および差分演算部207により参照される。
 参照画像データメモリ202は、ローカルデコード画像を格納している。
 動きベクトル検出部203は、参照画像データメモリ202に格納されているローカルデコード画像を探索対象とし、参照ピクチャ設定部102から入力される参照ピクチャ設定情報にしたがって、最も入力画像に近い画像領域を検出してその位置を示す動きベクトルを決定する。さらに、動きベクトル検出部203は、最も誤差の小さい符号化対象ブロックのサイズおよびそのサイズでの動きベクトルを決定し、決定したそれらの情報を動き補償部204およびエントロピー符号化部213に送信する。
 動き補償部204は、動きベクトル検出部203から受信した情報に含まれる動きベクトルと、参照ピクチャ設定部102から入力される参照ピクチャ設定情報とにしたがって、参照画像データメモリ202に格納されているローカルデコード画像から予測画像に最適な画像領域を取り出し、面間予測の予測画像を生成し、生成した予測画像を予測モード判定部206に出力する。
 面内予測部205は、参照画像データメモリ202に格納されているローカルデコード画像から同一画面内の符号化後の画素を用いて面内予測を行い、面内予測の予測画像を生成し、生成した予測画像を予測モード判定部206に出力する。
 予測モード判定部206は、予測モードを判定してその判定結果に基づき、面内予測部205からの面内予測で生成された予測画像と、動き補償部204からの面間予測で生成された予測画像とを切り替えて出力する。予測モード判定部206において予測モードを判定する方法としては、例えば、面間予測と面内予測について、それぞれ入力画像と予測画像との各画素の差分絶対値和を求め、この値が小さい方を予測モードと判定する。
 差分演算部207は、入力画像データメモリ201から符号化対象となる画像データを取得し、取得した入力画像と予測モード判定部206から出力された予測画像との画素差分値を計算し、計算した画素差分値を直交変換部208に出力する。
 直交変換部208は、差分演算部207から入力された画素差分値を周波数係数に変換し、変換した周波数係数を量子化部209に出力する。
 量子化部209は、直交変換部208から入力された周波数係数を量子化し、量子化した値、すなわち量子化値を符号化データとしてエントロピー符号化部213および逆量子化部210に出力する。
 逆量子化部210は、量子化部209から入力された量子化値を逆量子化して周波数係数に復元し、復元した周波数係数を逆直交変換部211に出力する。
 逆直交変換部211は、逆量子化部210から入力された周波数係数を画素差分値に逆周波数変換し、逆周波数変換した画素差分値を加算部212に出力する。
 加算部212は、逆直交変換部211から入力される画素差分値と、予測モード判定部206から出力された予測画像を加算してローカルデコード画像とし、そのローカルデコード画像を参照画像データメモリ202に出力する。ここで、参照画像データメモリ202に記憶されるローカルデコード画像は、入力画像データメモリ201に記憶される入力画像と基本的には同じ画像であるが、直交変換部208および量子化部209などで一旦直交変換および量子化処理をされた後、逆量子化部210および逆直交変換部211などで逆量子化および逆直交変換処理をされるため、量子化歪みなどの歪み成分を有している。
 参照画像データメモリ202は、加算部212から入力されるローカルデコード画像を格納する。
 エントロピー符号化部213は、量子化部209から入力された量子化値および動きベクトル検出部203から入力された動きベクトル等をエントロピー符号化し、その符号化したデータを出力ストリームとして出力する。
 次に、以上のように構成された立体映像符号化装置100が実行する処理について説明する。
 まず、第1視点映像信号と第2視点映像信号とが視差取得部101と符号化部103とにそれぞれ入力される。第1視点映像信号と第2視点映像信号とは、符号化部103の入力画像データメモリ201に格納され、例えば、それぞれが1920画素×1080画素の信号によって構成されている。
 次に、視差取得部101が、第1視点映像信号と第2視点映像信号との視差情報を視差マッチング等の手段を用いて算出し、参照ピクチャ設定部102に対して出力する。この場合に算出する視差情報としては、例えば、第1視点映像信号と第2視点映像信号の画素または画素ブロックごとの視差を表す視差ベクトルの情報(以下、デプスマップと称す)などがある。
 次に、参照ピクチャ設定部102が、符号化モードにおいて、視差取得部101から出力した視差情報から、符号化対象ピクチャを符号化する際に参照ピクチャをどのように設定するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定し、参照ピクチャ設定情報として符号化部103に対して出力する。第1視点映像信号を符号化する際には、使用する参照ピクチャを、第1視点映像信号に含まれるピクチャである第1参照ピクチャから設定する。
 一方、第2視点映像信号を符号化する際には、使用する参照ピクチャを、第1視点映像信号に含まれるピクチャである第2視点View間参照ピクチャと、第2視点映像信号に含まれるピクチャである第2視点View内参照ピクチャとから設定する。そして、この第2視点映像信号を符号化する際に、視差取得部101から出力した視差情報の変更に応じて、第1視点映像信号に含まれるピクチャである第2視点View間参照ピクチャおよび前記第2視点映像信号に含まれるピクチャである第2視点View内参照ピクチャのうち、少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを切り替えながら、参照ピクチャを設定する。すなわち、算出した視差情報の変更に伴って参照ピクチャを変更する。
 ここで、第2視点映像信号を符号化する際に、視差取得部101で取得した視差情報に基づいて、参照ピクチャ設定部102が設定する符号化構造の決定方式について説明する。図3は、視差情報に基づいて参照ピクチャ設定部102が実行する動作を示すフローチャートである。
 図3において、参照ピクチャ設定部102は、第2視点映像信号を符号化するに際して、視差取得部101から入力された視差情報を用いて第1視点映像信号と第2視点映像信号との視差に関する視差情報が大きいかどうかを判断する(ステップS301)。ステップS301において視差情報が大きいと判断された場合(ステップS301においてYesの場合)、参照ピクチャ設定部102は第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択する(ステップS302:第2の設定モード)。ステップS801において視差情報が大きくないと判断された場合(すなわち、ステップS301においてNoの場合)、参照ピクチャ設定部102は第1視点映像信号に含まれているView間参照ピクチャおよび第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択する(ステップS303:第1の設定モード)。
 ここで、視差情報が大きいかどうかの判断は、例えば、第1視点映像信号と第2視点映像信号との画素または画素ブロックごとの各視差ベクトルがばらついているかどうかで判断する。具体的な判断の方法としては、例えば、デプスマップの分散値が閾値以上であるかどうかを判断の条件とするなどが考えられる。デプスマップの分散値を求めることにより、画素または画素ブロックごとの各視差ベクトルがばらついているかどうかで判断できるため、視差情報が大きいかどうかを判断することができる。また、例えば、デプスマップの各視差ベクトルの絶対値の和が閾値以上であるかどうか、という条件から画素または画素ブロック毎の各視差ベクトルがばらついているかどうかを判断してもよい。また、例えば、デプスマップのヒストグラムを用いた統計処理を行うなど、分散値以外の統計情報を用いて、画素または画素ブロックごとの各視差ベクトルがばらついているかどうかという条件から判断してもよい。さらには、例えば、またはデプスマップから得られた最大視差と最小視差とから、画素または画素ブロックごとの各視差ベクトルがばらついているかどうか、という条件から判断してもよい。なお、最大視差や最小視差は、正負の区別を含んだ値である。この場合、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値、すなわち、最大視差の絶対値と最小視差の絶対値との和(最大視差が正で、最小視差が負の場合)または、最大視差と最小視差の差の絶対値(最大視差および最小視差が何れも正の場合、または負の場合)などを特徴量とし、この特徴量が判定用差分絶対値である閾値以上であるかどうか、によって画素または画素ブロックごとの各視差ベクトルがばらついているかどうかを判断してもよい。前記視差情報を、前記視差ベクトルの分散値や各視差ベクトルの絶対値の和に基づいて判断することで、視差ベクトルのばらつき状態を比較的正確に判定できて、信頼性が向上する利点がある。また、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値が、予め定めた判定用差分絶対値以上である場合に、視差が大きいと判断することで、2つの値だけから視差の大小を判定できるため、分散値を求める場合と比較して、判定処理が極めて簡単に計算できて計算量や処理時間を最小限に抑えることができる利点がある。
 次に、図4A、図4Bを参照して、参照ピクチャ設定部102がどのように参照ピクチャの設定情報を決定するかについてより具体的に説明する。なお、図4A、図4Bは参照ピクチャ設定部102が、符号化対象ピクチャをPピクチャとして1つの参照ピクチャを選択して符号化する場合における、視差が大きいと判断された場合の参照ピクチャの選択方法と(図4A)、視差が大きくないと判断された場合の参照ピクチャの選択方法(図4B)とを示す。また、図中の矢印の意味は、図13における場合と同様である。
 ここでは符号化対象ピクチャをP7とし、Pピクチャとして符号化する場合を説明する。視差情報が大きいと判断された場合の参照ピクチャの選択方法では、例えば、図4Aに示すように、ピクチャP7は、第2視点映像信号に含まれているView内参照ピクチャであるピクチャP1を参照ピクチャとして選択する(第2の設定モード)。一方、視差が大きくないと判断された場合の参照ピクチャの選択方法では、例えば、図4Bに示すように、ピクチャP7は、第1視点映像信号に含まれているView間参照ピクチャであるピクチャP6、または第2視点映像信号に含まれているView内参照ピクチャであるピクチャP1を参照ピクチャとして選択する(第1の設定モード)。そして、算出した視差情報の変更に伴って参照ピクチャを変更する。
 この方法を用いることにより、動きベクトルの検出精度を保ちつつ、複数の参照ピクチャを用いて符号化する場合に比べて符号化に必要なデータ量を減らすことができるため、符号化効率を維持しつつ、回路面積を削減することが可能となる。つまり、このように、視差ベクトルのばらつき状態などを示す視差情報が大きくなった際に前記第2の設定モードに切り替えることで、オクルージョン領域が拡大する第1視点の映像信号である第1視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。
 なお、この実施の形態においては、視差情報が大きくないと判断されたときに、第1視点映像信号に含まれているView間参照ピクチャおよび第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択する場合(第1の設定モード)を述べたが、これに限るものではない。つまり、図5のステップS304に示すように、第1の設定モードにおいて、視差情報が大きくないと判断されたときに、第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択できるように構成してもよい。この構成によっても、視差が大きいと判断された場合には、第2の設定モードにおいては、参照ピクチャ設定部102は第1視点映像信号に含まれているView間参照ピクチャの中から参照ピクチャを選択することがないので、第2視点映像信号に含まれているView内参照ピクチャと第1視点映像信号に含まれているView間参照ピクチャとの中から参照ピクチャを選択できる場合と比較して、計算量を少なめに抑えることができて、電力の削減にも寄与できる。
 ところで、上記の方式で符号化方式を割り当てた場合、参照インデックスの割り当て方によっては符号化効率が悪くなる可能性がある。つまり、H.264圧縮符号化では、既に符号化した複数のピクチャから参照ピクチャを選択することができる。選択された各参照ピクチャはReference Index(参照インデクス)という変数で管理されており、動きベクトルを符号化する時は、動きベクトルがどのピクチャを参照するかという情報として、参照インデクスを同時に符号化する。参照インデクスは0以上の値を取り、値が小さいほど符号化後の情報量が少なくなる。各参照ピクチャへの参照インデクスの割り当ては自由に設定することができる。このため、参照される動きベクトルの本数が多い参照ピクチャに番号の小さい参照インデクスを割り当てることにより符号化効率を向上させることが可能である。
 例えば、H.264圧縮符号化方式で採用される算術符号化の一種であるCABAC(Context-based Adaptive Binary Arithmetic Coding)では、符号化対象のデータを2値化し、算術符号化する。従って、参照インデクスも2値化および算術符号化されることになる。ここで、参照インデクスが”2”である場合の2値化後の符号長(2値信号長)は、3ビットであり、参照インデクスが”1”である場合の2値信号長は、2ビットである。また。参照インデクスが”0”である場合、2値化後の符号長(2値信号長)は、1ビットである。このように、参照インデクスの値が小さいほど、2値信号長は短い。そのため、参照インデクスを符号化して得られる最終的な符号量も、参照インデクスの値が小さいほど、小さくなる傾向にある。
 ここで、符号化する時に参照インデクスの割り当て方を設定しない場合、H.264規格で決められたデフォルトの割り当て方が適用される。デフォルトの参照インデクスの割り当て方法では、番号の小さな参照インデクスをView内参照ピクチャに割り当てており、View間参照ピクチャに割り当てる参照インデクスは、View内参照ピクチャに割り当てる参照インデクスよりも大きくなる。
 符号化対象となっているピクチャとView間参照ピクチャとの相関が低い場合、デフォルトの参照インデクスの割り当て方法が望ましい。これは、View間参照ピクチャよりも、View内参照ピクチャの方が符号化対象ピクチャとの相関が高く、View内参照ピクチャを参照する動きベクトルが多く検出されるためである。
 一方、符号化対象ピクチャとView間参照ピクチャの相関が高い場合、View内参照ピクチャよりもView間参照ピクチャの方が符号化対象ピクチャとの相関が高く、View間参照ピクチャを参照する動きベクトルが多く検出される。
 例えば、図6に示すように符号化対象ピクチャP7をPピクチャとして符号化する場合に、符号化対象ピクチャP7とView間参照ピクチャP6の相関が高い場合、参照インデクス1(図6ではRefIdx1と記載)を割り当てたView間参照ピクチャP6を参照する動きベクトルが、参照インデクス0(図6ではRefIdx0と記載)を割り当てたView内参照ピクチャP1を参照する動きベクトルよりも多く選ばれる。このため、デフォルトの参照インデクスの割り当て方法では符号化対象ピクチャとView間参照ピクチャの相関が高い場合に符号化効率が低下する。
 したがって、以下のような方式を採用して、参照インデックスの割り当て方法を適切に設定する必要がある。図7、図8A、図8Bを用いて、参照ピクチャ設定部102が実行する参照インデックスの割り当て方法の動作について説明する。なお、図7は、参照ピクチャ設定部102が、符号化モードにおいて実行する参照インデックスの割り当て方法の一例を示すフローチャートである。
 図7において、参照ピクチャ設定部102は、視差取得部101から入力された視差情報が大きいかどうかを判断する(ステップS601)。ステップS601において視差情報が大きいと判断された場合(ステップS601においてYesの場合)、参照ピクチャ設定部102は第2視点View内参照ピクチャ(以下、View内参照ピクチャと略す)に小さい参照インデクスを割り当てる(ステップS602)。ステップS601において視差情報が大きくない(すなわち、同じか小さい)と判断された場合(ステップS601においてNoの場合)、参照ピクチャ設定部102は第2視点View間参照ピクチャ(以下、View間参照ピクチャと略す)に小さい参照インデクスを割り当てる(ステップS603)。
 図8A、図8Bを用いて、具体例を説明する。図8A、図8Bは、符号化対象ピクチャをPピクチャとして符号化する場合における、視差が大きいと判断された場合の参照インデクスの割当方法(図8A)と、視差が大きくないと判断された場合の参照インデクスの割当方法(図8B)とを示す図である。また、図中の矢印の意味は、図13における場合と同様である。
 ここでは符号化対象ピクチャをP7とし、Pピクチャとして符号化する場合を説明する。視差が大きいと判断された場合の参照インデクスの割当方法では、例えば、図8Aに示すように、ピクチャP7は動きベクトルの参照ピクチャをピクチャP1、ピクチャP6から選び、ピクチャP1に参照インデクス0を、ピクチャP6に参照インデクス1を割り当てる。一方、視差が大きくないと判断された場合の参照インデクスの割当方法では、例えば、図8Bに示すように、ピクチャP7は動きベクトルの参照ピクチャをピクチャP1、ピクチャP6から選び、ピクチャP1に参照インデクス1を、ピクチャP6に参照インデクス0を割り当てる。
 以上のように、第1視点映像信号と第2視点映像信号との視差情報が大きいと判断されたときに、View内参照ピクチャに番号の小さい参照インデクスを割り当て、第1視点映像信号と第2視点映像信号との視差情報が大きくないと判断されたときに、View間参照ピクチャに番号の小さい参照インデクスを割り当てるように参照ピクチャを設定する。
 すなわち、参照ピクチャ設定部102は、符号化モードにおいて、視差情報に応じて参照インデクスの割り当て方を変更可能に構成されている。したがって、前記視差情報が大きいと判断した場合には、View内参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能にする(例えば、現在割り当てている参照インデクスが1の場合には、参照インデクスを0に変更可能とし、現在割り当てている参照インデクスが0の場合には、参照インデクスを0のままとする)ことができるよう構成されている。また、このように、View内参照ピクチャでの参照インデクスが割り当て変更された際には、View間参照ピクチャに、現在割り当てている参照インデクスの値以上となる参照インデクスを割り当て変更可能にする(例えば、現在割り当てている参照インデクスが0の場合には、参照インデクスを1に変更可能にし、現在割り当てている参照インデクスが1の場合には、参照インデクスを1のままとする)ことができるよう構成されている。また、視差情報が大きくないと判断した場合には、View間参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能にする(例えば、現在割り当てている参照インデクスが1の場合には、参照インデクスを0に変更可能にし、現在割り当てている参照インデクスが0の場合には、参照インデクスを0のままとする)ことができるよう構成されている。また、このように、View間参照ピクチャでの参照インデクスが割り当て変更された際には、View内参照ピクチャに、現在割り当てている参照インデクスの値以上となる参照インデクスを割り当て変更可能にする(例えば、現在割り当てている参照インデクスが0の場合には、参照インデクスを1に変更可能にし、現在割り当てている参照インデクスが1の場合には、参照インデクスを1のままとする)ことができるよう構成されている。
 このようにすることにより、参照する動きベクトルの多い参照ピクチャの参照インデクスを小さい値に設定することができるため、符号化効率を高めることができる。したがって、画質および符号化効率を向上させることが可能となる。
  (実施の形態2)
 本発明は、例えば立体映像撮影カメラといった、撮影装置としても実現することができる。本実施の形態2では、立体映像符号化装置を搭載した立体映像撮影装置が実行する処理について説明する。
 図9は、本実施の形態2に係る立体映像撮影装置の構成を示すブロック図である。
 図9に示すように、立体映像撮影装置A000は、光学系A110(a)及び、A110(b)、ズームモータA120、手ぶれ補正用のアクチュエータA130、フォーカスモータA140、CCDイメージセンサA150(a)、A150(b)、前処理部A160(a)、A160(b)、立体映像符号化装置A170、角度設定部A200、コントローラA210、ジャイロセンサA220、カードスロットA230、メモリカードA240、操作部材A250、ズームレバーA260、液晶モニタA270、内部メモリA280、撮影モード設定ボタンA290、測距部A300を備える。
 光学系A110(a)は、ズームレンズA111(a)、光学式手ぶれ補正機構A112(a)、フォーカスレンズA113(a)を含む。また、光学系A110(b)は、ズームレンズA111(b)、光学式手ぶれ補正機構A112(b)、フォーカスレンズA113(b)を含む。
 具体的には、光学式手ぶれ補正機構A112(a),A112(b)としては、OIS(Optical Image Stabilizer)として知られている手ぶれ補正機構などを使用できる。この場合、アクチュエータA130には、OISアクチュエータを使用する。
 なお、光学系A110(a)は、第1視点における被写体像を形成する。また、光学系A110(b)は、第1視点とは異なる第2視点における被写体像を形成する。
 ズームレンズA111(a)、A111(b)は、光学系の光軸に沿って移動することにより、被写体像を拡大又は縮小することが可能である。ズームレンズA111(a)、A111(b)は、ズームモータA120によって制御されながら駆動される。
 光学式手ぶれ補正機構A112(a)、A112(b)は、内部に光軸に垂直な面内で移動可能な補正レンズを有する。光学式手ぶれ補正機構A112(a)、A112(b)は、立体映像撮影装置A100のブレを相殺する方向に補正レンズを駆動することにより、被写体像のブレを低減する。補正レンズは、光学式手ぶれ補正機構A112(a)、A112(b)内において最大Lだけ中心から移動することが出来る。光学式手ぶれ補正機構A112(a)、A112(b)は、アクチュエータA130によって制御されながら駆動される。
 フォーカスレンズA113(a)、A113(b)は、光学系の光軸に沿って移動することにより、被写体像のピントを調整する。フォーカスレンズA113(a)、A113(b)は、フォーカスモータA140によって制御されながら駆動される。
 ズームモータA120は、ズームレンズA111(a)、A111(b)を駆動制御する。ズームモータA120は、パルスモータやDCモータ、リニアモータ、サーボモータなどで実現してもよい。ズームモータA120は、カム機構やボールネジなどの機構を介してズームレンズA111(a)、A111(b)を駆動するようにしてもよい。また、ズームレンズA111(a)と、ズームレンズA111(b)と、を同じ動作で制御する構成にしても良い。
 アクチュエータA130は、光学式手ぶれ補正機構A112(a)、A112(b)内の補正レンズを光軸と垂直な面内で駆動制御する。アクチュエータA130は、平面コイルや超音波モータなどで実現できる。
 フォーカスモータA140は、フォーカスレンズA113(a)、A113(b)を駆動制御する。フォーカスモータA140は、パルスモータやDCモータ、リニアモータ、サーボモータなどで実現してもよい。フォーカスモータA140は、カム機構やボールネジなどの機構を介してフォーカスレンズA113(a)、A113(b)を駆動するようにしてもよい。
 CCDイメージセンサA150(a)、A150(b)は、光学系A110(a)、A110(b)で形成された被写体像を撮影して、第1視点映像信号及び、第2視点映像信号を生成する。CCDイメージセンサA150(a)、A150(b)は、露光、転送、電子シャッタなどの各種動作を行う。
 前処理部A160(a)、A160(b)は、それぞれ、CCDイメージセンサA150(a)、A150(b)で生成された第1視点映像信号及び第2視点映像信号に対して各種の処理を施す。例えば、映像処理部A160(a)、A160(b)は、第1視点映像信号及び第2視点映像信号に対してガンマ補正やホワイトバランス補正、傷補正などの各種映像補正処理を行う。
 立体映像符号化装置A170は、前処理部A160(a)、A160(b)で映像補正処理された第1視点映像信号及び第2視点映像信号を、H.264圧縮符号化方式に準拠した圧縮形式等により圧縮する。圧縮符号化して得られる符号化ストリームはメモリカードA240に記録される。
 角度設定部A200は、光学系A110(a)と光学系A110(b)との光軸の交わる角度を調整するため、光学系A110(a)と光学系A110(b)とを制御する。
 コントローラA210は、全体を制御する制御手段である。コントローラA210は、半導体素子などで実現可能である。コントローラA210は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。また、コントローラA210は、マイクロコンピュータなどで実現できる。
 ジャイロセンサA220は、圧電素子等の振動材等で構成される。ジャイロセンサA220は、圧電素子等の振動材を一定周波数で振動させコリオリ力による力を電圧に変換して角速度情報を得る。ジャイロセンサA220から角速度情報を得、この揺れを相殺する方向にOIS内の補正レンズを駆動させることにより、使用者によって立体映像撮影装置A000に与えられる手振れは補正される。
 カードスロットA230は、メモリカードA240を着脱可能である。カードスロットA230は、機械的及び電気的にメモリカードA240と接続可能である。
 メモリカードA240は、フラッシュメモリや強誘電体メモリなどを内部に含み、データを格納可能である。
 操作部材A250は、レリーズボタンを備える。レリーズボタンは、使用者の押圧操作を受け付ける。レリーズボタンを半押しした場合、コントローラA210を介してAF(Auto Focus)制御及び、AE(Auto Exposure)制御を開始する。また、レリーズボタンを全押しした場合、被写体の撮影を行う。
 ズームレバーA260は、使用者からズーム倍率の変更指示を受け付ける部材である。
 液晶モニタA270は、CCDイメージセンサA150(a)、A150(b)で生成した第1視点映像信号又は第2視点映像信号や、メモリカードA240から読み出した第1視点映像信号及び第2視点映像信号を、2D表示若しくは3D表示可能な表示デバイスである。また、液晶モニタA270は、立体映像撮影装置A000の各種の設定情報を表示可能である。例えば、液晶モニタA270は、撮影時における撮影条件である、EV値、F値、シャッタースピード、ISO感度等を表示可能である。
 内部メモリA280は、立体映像撮影装置A000全体を制御するための制御プログラム等を格納する。また、内部メモリA280は、立体映像符号化装置A170及びコントローラA210のワークメモリとして機能する。内部メモリA280は、撮影時における光学系A110(a)、A110(b)、CCDイメージセンサA150(a)、A150(b)の撮影条件を一時的に蓄積する。撮影条件とは、被写体距離、画角情報、ISO感度、シャッタースピード、EV値、F値、レンズ間距離、撮影時刻、OISシフト量、光学系A110(a)と光学系A110(b)との光軸の交わる角度などがある。
 モード設定ボタンA290は、立体映像撮影装置A000で撮影する際の撮影モードを設定するボタンである。「撮影モード」とは、ユーザが想定する撮影シーンを示すものであり、例えば、(1)人物モード、(2)子供モード、(3)ペットモード、(4)マクロモード、(5)風景モードを含む2D撮影モードと、(6)3D撮影モードなどがある。なお、(1)~(5)それぞれに対しての3D撮影モードを持ってもよい。立体映像撮影装置A000は、この撮影モードを基に、適切な撮影パラメータを設定して撮影を行う。なお、立体映像撮影装置A000が自動設定を行うカメラ自動設定モードを含めるようにしてもよい。また、撮影モード設定ボタンA290は、メモリカードA240に記録される映像信号の再生モードを設定するボタンである。
 測距部A300は、立体映像撮影装置A000から撮影を行う被写体までの距離を測定する機能を有する。測距部A300は、例えば、赤外線信号を照射した後、照射した赤外線信号の反射信号を測定することにより測距を行なう。なお、測距部A300における測距方法は、上記の方法に限定されるものではなく、一般的に用いられる方法であれば、どのような方法を使用しても構わない。
 次に、以上のように構成された立体映像撮影装置A000が実行する処理について説明する。
 まず、撮影モード設定ボタンA290が使用者により操作されると、立体映像撮影装置A000は操作後の撮影モードを取得する。
 コントローラA210は、レリーズボタンが全押しされるまで待機する。
 レリーズボタンが全押しされると、CCDイメージセンサA150(a)、A150(b)は、撮影モードから設定される撮影条件を基に撮影動作を行い、第1視点映像信号及び第2視点映像信号を生成する。
 第1視点映像信号と第2視点映像信号とが生成されると、前処理部A160(a)、A160(b)は、生成された2つ映像信号に対して、撮影モードに則した各種映像処理を行う。
 前処理部A160(a)、A160(b)で各種映像処理を実行した後、立体映像符号化装置A170は第1視点映像信号と第2視点映像信号とを圧縮符号化し、符号化ストリームを生成する。
 符号化ストリームが生成されると、コントローラA210は、符号化ストリームをカードスロットA230に接続されるメモリカードA240に記録する。
 次に、図10を用いて、立体映像符号化装置A170の構成について説明する。なお、図10は、本実施の形態2に係る立体映像符号化装置A170の構成を示すブロック図である。
 図10において、立体映像符号化装置A170は、参照ピクチャ設定部A102と、符号化部103とを備える。
 参照ピクチャ設定部A102は、内部メモリA280に保持されている被写体距離、光学系A110(a)と光学系A110(b)との光軸の交わる角度といった撮影条件パラメータから、符号化対象ピクチャを符号化する際に参照ピクチャをどのように設定するか、さらには参照ピクチャへどのように参照インデクスを割り当てるかといった参照方式を決定する。そして、参照ピクチャ設定部A102は、決定したそれらの情報(以下、参照ピクチャ設定情報と称す)を符号化部103に対して出力する。参照ピクチャ設定部A102における具体的な動作に関する詳細については後述する。
 符号化部103の動作は、実施の形態1と同様であるため、ここでの説明は省略する。   
 次に、参照ピクチャ設定部A102が実行する処理の一例について説明する。参照ピクチャ設定部A102が実行する処理のフローチャートは、実施の形態1で説明した図3、図7と同様であるが、視差が大きいかどうかを判断する方法が異なる。実施の形態2では、視差が大きいかどうかを判断する方法としては、例えば、(1)光学系A110(a)と光学系A110(b)との光軸の交わる角度が予め定めた第3の閾値以上であるかどうか、(2)被写体距離が予め定めた第4の閾値以下であるかどうか、などがある。なお、第1視点映像信号と第2視点映像信号とで視差が大きな領域が多いかどうかを判断する方法であれば、他の方法であってもよい。
 このように、本形態2における立体映像撮影装置A000は、測距部A300において得られた距離情報、または2つの光学系の光軸の交わる角度を基に、参照ピクチャを設定する。このため、実施の形態1とは異なり、第1視点映像信号及び第2視点映像信号から視差情報を検出することなく、参照ピクチャを設定することが可能となる。
 以上のように、本実施の形態1、2に係る立体映像符号化装置は、視差取得部101によって算出された視差情報、または撮影条件パラメータに応じて、第1視点映像信号と第2視点映像信号との間の視差に基づく視差情報が大きいかどうかを判断して、参照ピクチャの選択方法、もしくは参照インデクスの割り当て方の選択方法を変更することにより、入力画像データの特性にあわせた符号化処理を行う。このため、入力画像データの符号化効率を高めることができる。したがって、立体映像符号化装置の符号化効率、ならびに立体映像符号化装置を用いて符号化した符号化ストリームの画質向上させることが可能である。
 以上、本実施の形態1、2について説明したが、本発明はこれに限定されるものではない。
 例えば、入力画像データの符号化における参照インデクスの設定方法や割り当て方法を決定する方法として、本実施の形態1においては、視差情報を用いて視差が大きいかどうかを判断する方法を説明した。本実施の形態2においては、撮像パラメータを用いて視差が大きいかどうかを判断する方法を説明したが、視差情報と撮像パラメータとの両方を組み合わせて視差が大きいかどうかを判断してもよい。
 また、本実施の形態1においては、視差のばらつきなどの視差情報が大きいかどうかのみを判断して参照ピクチャを設定しているが、これに加えて、例えば、撮影シーンが動きの大きいシーンかどうかといった情報を加えて参照ピクチャを決定してもよい。
 図11、図12は、本実施の形態1に係る立体映像撮影装置における参照ピクチャ設定部が実行する設定動作の他の変形例を示すフローチャートである。第2視点映像信号を符号化する際に、図3に示す場合と同様に、視差取得部101から入力された視差情報を用いて第1視点映像信号と第2視点映像信号との視差に関する視差情報(視差ベクトルのばらつき状態など)が大きいかどうかを判断する(ステップS301)。また、図3に示す場合と同様に、視差情報が大きいと判断された場合(ステップS301においてYesの場合)、参照ピクチャ設定部102は第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択する(ステップS302:第2の設定モード)。
 一方、ステップS301において視差情報が大きくないと判断された場合(ステップS301においてNoの場合)、ステップS301からステップS305に進んで、撮影シーン(第1視点映像信号や第2視点映像信号)の動きが大きいかどうかを判断する。撮影シーンの動きが大きいと判断した場合には、ステップS306に進んで、第1視点映像信号に含まれているView間参照ピクチャの中から参照ピクチャを選択する。ステップS305において、撮影シーンの動きが大きくないと判断した場合には、ステップS307に進んで、第1視点映像信号に含まれているView間参照ピクチャおよび第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択する(図11参照)。また、図12に示すように、ステップS305において、撮影シーンの動きが大きくないと判断した場合には、ステップS308に進んで、第2視点映像信号に含まれているView内参照ピクチャの中から参照ピクチャを選択してもよい。
 なお、撮影シーンの動きが大きいかどうかを判断する方法としては、1フレーム前の画像の動きベクトルの結果から統計処理するなどして平均値を求めて判断するとよい。また、これに代えて、予め前処理で映像を縮小して情報量を縮小した上で、縮小画像から動きベクトルを検出し、動きベクトルの結果から統計するなどして平均値を求めて判断してもよいが、これに限るものではない。
 これらの方式によっても、視差ベクトルのばらつき状態などを示す視差情報が大きいと判断された場合には、オクルージョン領域が拡大する第1視点の映像信号である第1視点映像信号を参照ピクチャとして選択しないので、動きベクトルを求める精度が向上して符号化効率が向上する。また、これらの方式によれば、動きが大きい場合には、第2視点映像信号に含まれているView内参照ピクチャを選択せずに、視差ベクトルのばらつき状態などを示す視差情報が大きくなく、動きも大きくない第1視点映像信号に含まれているView間参照ピクチャを選択しているので、入力画像データの符号化効率をさらに高めることができる。
 また、本実施の形態1、2においては、符号化対象ピクチャが、Pピクチャである場合について説明した。しかし、Bピクチャの場合についても同様のやり方で適応的に切り替えることにより符号化効率を向上させることが可能である。
 また、本実施の形態1、2においては、符号化対象ピクチャが、フレーム構造で符号化するある場合について説明した。しかし、フィールド構造で符号化する場合、またはフレーム構造とフィールド構造とを適応的に切り替える場合についても、同様のやり方で適応的に切り替えることにより、符号化効率を向上させることが可能である。
 また、本実施の形態1、2においては、圧縮符号化方式としてH.264を用いた場合を例に挙げたが、これに限るものではない。例えば、参照ピクチャを複数のピクチャの中から設定することができる圧縮符号化方式、特に参照インデクスを割り当てて参照ピクチャを管理する機能を持つ圧縮符号化方式に対して本発明を適用してもよい。
 なお、本発明は、本実施の形態1、2における各構成要素を備える立体映像符号化装置として提供することができるばかりではない。例えば、立体映像符号化装置が具備する各構成要素を各ステップとする立体映像符号化方法や、立体映像符号化装置が具備する各構成要素を備える立体映像符号化集積回路、および立体映像符号化方法を実現することができる立体映像符号化プログラムとして用いることも可能である。
 そして、この立体映像符号化プログラムは、CD-ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができる。
 また、立体映像符号化集積回路は、典型的な集積回路であるLSIとして実現することができる。この場合、LSIは、1チップで構成しても良いし、複数チップで構成しても良い。例えば、メモリ以外の機能ブロックを1チップLSIで構成しても良い。なお、ここではLSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSIまたはウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよいし、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
 さらに、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。例えば、バイオ技術の適応等がその可能性として有り得ると考えられる。
 また、集積回路化に際し、各機能ブロックのうち、データを格納するユニットだけを1チップ化構成に取り込まず、別構成としても良い。
 本発明に係る立体映像符号化装置は、より高画質、またはより高効率にH.264などの圧縮符号化方式による映像の符号化を実現することができるため、パーソナルコンピュータ、HDDレコーダ、DVDレコーダおよびカメラ付き携帯電話機等に適用できる。

Claims (14)

  1.  第1視点の映像信号である第1視点映像信号と、当該第1視点とは異なる第2視点の映像信号である第2視点映像信号と、を符号化する立体映像符号化装置であって、
     前記第1視点映像信号と前記第2視点映像信号との視差に関する情報である視差情報を取得する視差取得部と、
     前記第1信号映像信号および前記第2視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、
     前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第1視点映像信号と前記第2視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、を備え、
     前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1視点映像信号に含まれるピクチャおよび前記第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを有し、
     前記参照ピクチャ設定部は、前記視差取得部で取得した視差情報の変更に応じて、前記第1の設定モードと前記第2の設定モードとを切り換える
    ことを特徴とする立体映像符号化装置。
  2.  前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1の設定モードにおいては、第1視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する
    ことを特徴とする請求項1記載の立体映像符号化装置。
  3.  前記視差情報は、前記第1視点映像信号と前記第2視点映像信号との画素または複数の画素を有する画素ブロック毎の視差を表す視差ベクトルのばらつき状態を示す情報であって、
     前記参照ピクチャ設定部は、前記視差情報が大きくなると前記第2の設定モードに切り替え、前記視差情報が小さくなると前記第1の設定モードに切り替える
    ことを特徴とする請求項1記載の立体映像符号化装置。
  4.  前記視差情報は、前記視差ベクトルの分散値である、
    ことを特徴とする請求項3に記載の立体映像符号化装置。
  5.  前記視差情報は、各視差ベクトルの絶対値の和である、
    ことを特徴とする請求項3に記載の立体映像符号化装置。
  6.  前記視差情報は、前記視差ベクトルにおける最大視差と最小視差との差分の絶対値である、
    ことを特徴とする請求項3に記載の立体映像符号化装置。
  7.  前記参照ピクチャ設定部は、少なくとも2つ以上の参照ピクチャを設定可能とされ、前記視差情報が切り換わることにより、参照ピクチャの参照インデックスを切り換え可能に構成されている
    ことを特徴とする請求項1に記載の立体映像符号化装置。
  8.  前記参照ピクチャ設定部は、
     前記視差情報が大きいと判断した場合に、前記前記第2視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成され、
     前記視差情報が大きくないと判断した場合に、前記第1視点映像信号に含まれる参照ピクチャに、現在割り当てている参照インデクスの値以下となる参照インデクスを割り当て変更可能に構成されている
    ことを特徴とする請求項7に記載の立体映像符号化装置。
  9.  被写体を第1視点と、当該第1視点とは異なる第2視点と、から撮像し、当該第1視点における映像信号である第1視点映像信号と、当該第2視点における映像信号である第2視点映像信号と、を撮影する立体映像撮影装置において、
     前記被写体の光学像を形成するとともに、当該光学像を撮影し、デジタル信号として前記第1視点映像信号及び前記第2視点映像信号を取得する撮影部と、
     前記第1視点映像信号と前記第2視点映像信号との視差に関する情報である視差情報を算出する視差取得部と、
     前記第1視点映像信号および前記第2視点映像信号を符号化する際に使用する参照ピクチャを設定する参照ピクチャ設定部と、
     前記参照ピクチャ設定部において設定した参照ピクチャを基に、前記第1視点映像信号と前記第2視点映像信号との符号化を行い、符号化ストリームを生成する符号化部と、
     前記符号化部からの出力結果を記録する記録媒体と、
     前記撮影部における撮影条件パラメータを設定する設定部と、を備え、
     前記参照ピクチャ設定部は、前記第2視点映像信号を符号化する際、前記第1視点映像信号に含まれるピクチャおよび前記第2視点映像信号に含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第1の設定モードと、前記第2視点映像信号のみに含まれるピクチャのうち少なくとも1つのピクチャを参照ピクチャとして設定する第2の設定モードとを有し、
     前記参照ピクチャ設定部は、前記撮影条件パラメータ、または前記視差情報の変更に応じて、前記第1の設定モードと前記第2の設定モードとを切り換える
    ことを特徴とする立体映像撮影装置。
  10.  前記撮影条件パラメータは前記第1視点の撮影方向と前記第2視点の撮影方向との角度
    である
    ことを特徴とする請求項9に記載の立体映像撮影装置。
  11.  前記撮影条件パラメータは前記第1視点または前記第2視点から前記被写体までの距離である
    ことを特徴とする請求項9に記載の立体映像撮影装置。
  12.  映像信号の画像が大きな動きを含む画像であるかどうかを判断する動き情報判断部を有し、前記動き情報に応じて前記第1の設定モードでの選択する参照ピクチャを切り換え可能に構成した
    ことを特徴とする請求項1に記載の立体映像撮影装置。
  13.  前記動き情報判断部により動きが大きいと判断した場合に、前記第1視点映像信号に含まれるピクチャを参照ピクチャとして設定する
    ことを特徴とする請求項12に記載の立体映像撮影装置。
  14.  第1視点の映像信号である第1視点映像信号と、当該第1視点とは異なる第2視点の映像信号である第2視点映像信号と、を符号化する立体映像符号化方法であって、
     前記第2視点映像信号を符号化する際に使用する参照ピクチャを、前記第1視点映像信号に含まれるピクチャと、前記第2視点映像信号に含まれるピクチャと、から選択するに際し、
     算出した前記視差情報の変更に伴って参照ピクチャを変更する
    ことを特徴とする立体映像符号化方法。
PCT/JP2011/005530 2010-09-30 2011-09-30 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法 WO2012042895A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012502784A JP4964355B2 (ja) 2010-09-30 2011-09-30 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法
US13/796,779 US20130258053A1 (en) 2010-09-30 2013-03-12 Three-dimensional video encoding apparatus, three-dimensional video capturing apparatus, and three-dimensional video encoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-220579 2010-09-30
JP2010220579 2010-09-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/796,779 Continuation US20130258053A1 (en) 2010-09-30 2013-03-12 Three-dimensional video encoding apparatus, three-dimensional video capturing apparatus, and three-dimensional video encoding method

Publications (1)

Publication Number Publication Date
WO2012042895A1 true WO2012042895A1 (ja) 2012-04-05

Family

ID=45892384

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/005530 WO2012042895A1 (ja) 2010-09-30 2011-09-30 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法

Country Status (3)

Country Link
US (1) US20130258053A1 (ja)
JP (1) JP4964355B2 (ja)
WO (1) WO2012042895A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169403A1 (ja) * 2011-06-07 2012-12-13 ソニー株式会社 画像処理装置および方法
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
JP2015046920A (ja) * 2014-10-15 2015-03-12 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム
JP2015526017A (ja) * 2012-07-06 2015-09-07 サムスン エレクトロニクス カンパニー リミテッド ランダムアクセスのためのマルチレイヤビデオ符号化方法及びその装置、並びにランダムアクセスのためのマルチレイヤビデオ復号化方法及びその装置
JP2017130953A (ja) * 2017-03-02 2017-07-27 キヤノン株式会社 符号化装置、撮像装置、符号化方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013046209A (ja) * 2011-08-24 2013-03-04 Sony Corp 画像処理装置、および、画像処理装置の制御方法ならびに当該方法をコンピュータに実行させるためのプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191394A (ja) * 1996-12-24 1998-07-21 Sharp Corp 多視点画像符号化装置
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2011130030A (ja) * 2009-12-15 2011-06-30 Panasonic Corp 画像符号化方法及び画像符号化装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476850B1 (en) * 1998-10-09 2002-11-05 Kenneth Erbey Apparatus for the generation of a stereoscopic display
KR100454194B1 (ko) * 2001-12-28 2004-10-26 한국전자통신연구원 다중 디스플레이 방식을 지원하는 양안식 동영상 부호화/복호화 장치 및 그 방법
JP4421940B2 (ja) * 2004-05-13 2010-02-24 株式会社エヌ・ティ・ティ・ドコモ 動画像符号化装置および方法、並びに動画像復号化装置および方法
US20070182812A1 (en) * 2004-05-19 2007-08-09 Ritchey Kurtis J Panoramic image-based virtual reality/telepresence audio-visual system and method
US20060023197A1 (en) * 2004-07-27 2006-02-02 Joel Andrew H Method and system for automated production of autostereoscopic and animated prints and transparencies from digital and non-digital media
US20070247477A1 (en) * 2006-04-21 2007-10-25 Lowry Gregory N Method and apparatus for processing, displaying and viewing stereoscopic 3D images
US20080228449A1 (en) * 2007-03-12 2008-09-18 Conversion Works, Inc. Systems and methods for 2-d to 3-d conversion using depth access segments to define an object
US20080226181A1 (en) * 2007-03-12 2008-09-18 Conversion Works, Inc. Systems and methods for depth peeling using stereoscopic variables during the rendering of 2-d to 3-d images
KR100918862B1 (ko) * 2007-10-19 2009-09-28 광주과학기술원 참조영상을 이용한 깊이영상 생성방법 및 그 장치, 생성된깊이영상을 부호화/복호화하는 방법 및 이를 위한인코더/디코더, 그리고 상기 방법에 따라 생성되는 영상을기록하는 기록매체
JP2009177531A (ja) * 2008-01-24 2009-08-06 Panasonic Corp 画像記録装置、画像再生装置、記録媒体、画像記録方法及びプログラム
JP4695664B2 (ja) * 2008-03-26 2011-06-08 富士フイルム株式会社 立体動画像処理装置および方法並びにプログラム
JP2009238117A (ja) * 2008-03-28 2009-10-15 Toshiba Corp 多視差画像生成装置および方法
JP4737228B2 (ja) * 2008-05-07 2011-07-27 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP5156704B2 (ja) * 2008-07-29 2013-03-06 パナソニック株式会社 画像符号化装置、画像符号化方法、集積回路及びカメラ
JP2010063092A (ja) * 2008-08-05 2010-03-18 Panasonic Corp 画像符号化装置、画像符号化方法、画像符号化集積回路およびカメラ
JP5627860B2 (ja) * 2009-04-27 2014-11-19 三菱電機株式会社 立体映像配信システム、立体映像配信方法、立体映像配信装置、立体映像視聴システム、立体映像視聴方法、立体映像視聴装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191394A (ja) * 1996-12-24 1998-07-21 Sharp Corp 多視点画像符号化装置
WO2009001791A1 (ja) * 2007-06-25 2008-12-31 Nippon Telegraph And Telephone Corporation 映像符号化方法及び復号方法、それらの装置、それらのプログラム並びにプログラムを記録した記録媒体
JP2011130030A (ja) * 2009-12-15 2011-06-30 Panasonic Corp 画像符号化方法及び画像符号化装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169403A1 (ja) * 2011-06-07 2012-12-13 ソニー株式会社 画像処理装置および方法
US10021386B2 (en) 2011-06-07 2018-07-10 Sony Corporation Image processing device which predicts an image by referring a reference image of an allocated index
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
US9509997B2 (en) 2012-06-13 2016-11-29 Canon Kabushiki Kaisha Imaging apparatus, imaging method and storage medium, image coding apparatus, image coding method and storage medium
JP2015526017A (ja) * 2012-07-06 2015-09-07 サムスン エレクトロニクス カンパニー リミテッド ランダムアクセスのためのマルチレイヤビデオ符号化方法及びその装置、並びにランダムアクセスのためのマルチレイヤビデオ復号化方法及びその装置
JP2015046920A (ja) * 2014-10-15 2015-03-12 富士通株式会社 動画像復号方法、動画像符号化方法、動画像復号装置及び動画像復号プログラム
JP2017130953A (ja) * 2017-03-02 2017-07-27 キヤノン株式会社 符号化装置、撮像装置、符号化方法及びプログラム

Also Published As

Publication number Publication date
JP4964355B2 (ja) 2012-06-27
JPWO2012042895A1 (ja) 2014-02-06
US20130258053A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
JP4964355B2 (ja) 立体映像符号化装置、立体映像撮影装置、および立体映像符号化方法
JP5400062B2 (ja) パラメトリックフィルタリングを使用したビデオ符号化及び復号化方法及び装置
EP3267688A1 (en) Image processing device and image processing method
JP5450643B2 (ja) 画像符号化装置、画像符号化方法、プログラムおよび集積回路
WO2015139605A1 (en) Method for low-latency illumination compensation process and depth lookup table based coding
CN106851239B (zh) 用于使用视差信息的3d媒体数据产生、编码、解码和显示的方法和装置
US9609192B2 (en) Image processing apparatus, image processing method and program, and imaging apparatus
JP2012257198A (ja) 立体画像符号化装置、その方法、および立体画像符号化装置を有する撮像装置
JP5156704B2 (ja) 画像符号化装置、画像符号化方法、集積回路及びカメラ
EP2868089A1 (en) Method and apparatus of disparity vector derivation in 3d video coding
WO2014168082A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
US8254451B2 (en) Image coding apparatus, image coding method, image coding integrated circuit, and camera
EP2941867A1 (en) Method and apparatus of spatial motion vector prediction derivation for direct and skip modes in three-dimensional video coding
JP5395911B2 (ja) ステレオ画像符号化装置、方法
WO2011074189A1 (ja) 画像符号化方法及び画像符号化装置
JP5869839B2 (ja) 画像処理装置およびその制御方法
JP2009111647A (ja) 動きベクトル検出装置および動きベクトル検出方法
JP2013258577A (ja) 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
CN108259910B (zh) 视频数据的压缩方法及装置、存储介质、计算设备
US20120194643A1 (en) Video coding device and video coding method
JP5322956B2 (ja) 画像符号化装置および画像符号化方法
JP6338724B2 (ja) 符号化装置、撮像装置、符号化方法及びプログラム
JP6232117B2 (ja) 画像符号化方法、画像復号方法、及び記録媒体
JP2012212952A (ja) 画像処理システム、画像処理装置、および画像処理方法
JP2012147073A (ja) 画像符号化装置、画像符号化方法、及び撮像システム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2012502784

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11828461

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11828461

Country of ref document: EP

Kind code of ref document: A1