WO2024053522A1 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
WO2024053522A1
WO2024053522A1 PCT/JP2023/031637 JP2023031637W WO2024053522A1 WO 2024053522 A1 WO2024053522 A1 WO 2024053522A1 JP 2023031637 W JP2023031637 W JP 2023031637W WO 2024053522 A1 WO2024053522 A1 WO 2024053522A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
data
image processing
encoding
texture information
Prior art date
Application number
PCT/JP2023/031637
Other languages
English (en)
French (fr)
Inventor
陽介 江口
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2024053522A1 publication Critical patent/WO2024053522A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • the present invention relates to an image processing device and an image processing method, and particularly relates to a technique for reducing the amount of data.
  • Patent Document 1 A photographing device capable of photographing two-dimensional (2D) videos and three-dimensional (3D) videos is known (Patent Document 1).
  • Patent Document 1 the amount of data is reduced by encoding a 3D video using a method compliant with the MPEG2 standard.
  • Patent Document 1 discloses that exposure control is executed at the timing of the I frame, but does not mention how to set the I frame.
  • the present invention provides an image processing device and an image processing method that can appropriately reduce the amount of data of a 3D video using correlation between frames.
  • An image processing device includes an acquisition unit that acquires 3D video data having 3D data and texture information for each frame, and a code that encodes the 3D video data using interframe prediction.
  • the encoding means separately encodes the three-dimensional data and the texture information, and includes a key frame for encoding the three-dimensional data and a key frame for encoding the texture information. is characterized in that it selects separately.
  • an image processing device and an image processing method that can appropriately reduce the amount of data of a 3D video using correlation between frames.
  • FIG. 1 A block diagram showing an example of a functional configuration of a digital camera as an example of an image processing device according to an embodiment.
  • the imaging function is not essential to the present invention, and the present invention can be implemented with any electronic device that can handle image data.
  • electronic devices include video cameras, computer devices (personal computers, tablet computers, media players, PDAs, etc.), mobile phones, smart phones, game consoles, robots, drones, and the like. These are just examples, and the present invention can be implemented with other electronic devices.
  • FIG. 1 is a block diagram showing an example of a functional configuration of a digital camera 100 as an image processing device according to an embodiment.
  • the imaging optical system 10 forms an optical image of a subject on the imaging surface of the imaging element 11.
  • the imaging optical system 10 has a plurality of lenses arranged along an optical axis 103.
  • the plurality of lenses include a focus lens 102 for adjusting the focusing distance of the imaging optical system 10.
  • Focus lens 102 is movable along the optical axis.
  • the focus lens 102 is driven by the control unit 12 according to the amount of defocus generated by the image processing unit 14.
  • the imaging optical system 10 also includes an aperture 104 whose aperture value (opening amount) can be adjusted.
  • the aperture value of the aperture 104 is controlled by the control unit 12 based on photographing conditions determined by automatic exposure control (AE), for example.
  • AE automatic exposure control
  • the aperture 104 may have the function of a mechanical shutter.
  • the exit pupil 101 is an image of the imaging optical system 10 viewed from the image sensor 11 side with an open aperture, and the position of the exit pupil 101 is shown in the figure.
  • the image sensor 11 may be, for example, a known CCD or CMOS color image sensor having a primary color Bayer array color filter.
  • the image sensor 11 includes a pixel array in which a plurality of pixels are two-dimensionally arranged, and a peripheral circuit for reading signals from each pixel. Each pixel accumulates charges according to the amount of incident light through photoelectric conversion. By reading out from each pixel a signal having a voltage corresponding to the amount of charge accumulated during the exposure period, a pixel signal group (analog image signal) representing the subject image formed on the imaging surface by the imaging optical system 10 is obtained.
  • the pixels included in the image sensor 11 have a plurality of photoelectric conversion regions or photoelectric conversion elements, and can generate a pair of parallax images in one shooting. Then, based on this pair of parallax images, it is possible to perform automatic focus detection using a phase difference detection method (phase difference AF) or to generate distance information. Details will be described later.
  • phase difference AF phase difference detection method
  • the control unit 12 has one or more processors (hereinafter referred to as CPUs) that can execute programs.
  • the control unit 12 reads, for example, a program stored in the ROM 21 into the RAM 20 and executes it on the CPU.
  • the control unit 12 realizes various functions of the digital camera 100 by controlling the operation of each functional block while executing a program.
  • the ROM 21 is, for example, a rewritable nonvolatile memory, and stores programs executable by the CPU of the control unit 12, setting values, GUI data, and the like.
  • the RAM 20 is used to read programs executed by the CPU of the control unit 12 and to store necessary values during program execution.
  • the RAM 20 is also used as a working memory for the image processing section 14, a buffer memory for temporarily storing images obtained by imaging, a video memory for the display section 17, and the like.
  • the image processing unit 14 applies predetermined image processing to the analog image signal read out from the image sensor 11, generates signals and image data according to the purpose, and acquires and/or acquires various information. or generate.
  • the image processing unit 14 may be, for example, a dedicated hardware circuit such as an ASIC (Application Specific Integrated Circuit) designed to implement a specific function.
  • the image processing unit 14 may have a configuration in which a processor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit) executes software to realize a specific function.
  • the image processing section 14 outputs the acquired or generated information and data to the control section 12, RAM 20, etc. depending on the purpose.
  • the image processing applied by the image processing unit 14 may include, for example, preprocessing, color interpolation processing, correction processing, detection processing, data processing processing, evaluation value calculation processing, special effect processing, and the like.
  • Preprocessing may include A/D conversion, signal amplification, reference level adjustment, defective pixel correction, and the like.
  • Color interpolation processing is performed when an image sensor is provided with a color filter, and is a process of interpolating the values of color components not included in individual pixel data constituting image data. Color interpolation processing is also called demosaic processing.
  • the correction processing includes white balance adjustment, gradation correction, correction of image deterioration caused by optical aberration of the imaging optical system 10 (image recovery), correction of the influence of peripheral dimming of the imaging optical system 10, color correction, etc.
  • the detection processing may include detection of characteristic regions (for example, facial regions and human body regions) and their movements, human recognition processing, and the like.
  • the evaluation value calculation processing may include processing such as generation of a signal and evaluation value used for automatic focus detection (AF), generation of an evaluation value used for automatic exposure control (AE), and the like.
  • AF automatic focus detection
  • AE automatic exposure control
  • FIG. 1 the function of the image processing unit 14 that generates the defocus amount, which is an evaluation value for AF, is shown as a functional block (defocus generation unit 141) for convenience.
  • Data processing processing may include processing such as region cutting out (trimming), compositing, scaling, encoding and decoding, and header information generation (data file generation). The generation of display image data and recording image data is also included in the data processing process.
  • Special effect processing may include processing such as adding a blur effect, changing color tone, and relighting. Note that these are examples of processing that can be applied by the image processing unit 14, and do not limit the processing that can be applied by the image processing unit 14.
  • the storage unit 15 is a recording medium for recording a data file storing image data obtained by imaging.
  • the storage unit 15 may be, for example, a combination of a memory card and its reader/writer.
  • the storage unit 15 may be able to handle a plurality of recording media.
  • the input unit 16 is a general term for input devices that are provided in the digital camera 100 and can be operated by the user, such as dials, buttons, switches, touch panels, etc., for example.
  • the control unit 12 monitors operations on the input unit 16 . When an operation on the input unit 16 is detected, the control unit 12 executes an operation according to the function and operation content assigned to the operated input device.
  • the display unit 17 is, for example, a display device such as a liquid crystal display or an organic EL display. By continuously capturing a moving image and displaying the captured moving image on the display unit 17, the display unit 17 can function as an electronic viewfinder (EVF).
  • EVF electronic viewfinder
  • the operation of causing the display unit 17 to function as an electronic viewfinder (EVF) is sometimes called live view display or through display.
  • an image displayed on the display unit 17 by live view display or through display may be referred to as a live view image or a through image.
  • the display unit 17 may be a touch display. If the display unit 17 is a touch display, software keys may be realized by a combination of GUI parts displayed on the display unit 17 and a touch panel.
  • the control unit 12 handles the software keys in the same way as the input device that the input unit 16 has.
  • the communication unit 18 is a communication interface with external devices.
  • the control unit 12 can communicate with an external device through the communication unit 18 in accordance with one or more wired or wireless communication standards.
  • the motion sensor 19 generates a signal according to the motion of the digital camera 100.
  • the motion sensor 19 may be a combination of, for example, an acceleration sensor that outputs a signal according to the movement in each axis direction of XYZ and a gyro sensor that outputs a signal according to the movement around each axis.
  • FIG. 2A is a plan view of the pixel array of the image sensor 11 viewed from the imaging surface side.
  • the pixel array is provided with color filters in a Bayer array of primary colors. Therefore, in each pixel, one color filter of red (R), green (G), or blue (B) is regularly arranged in a repeating unit of pixel group 210 of 2 rows x 2 columns. . Note that color filters having an arrangement other than the primary color Bayer arrangement may be provided.
  • FIG. 2B is a vertical cross-sectional view of one pixel. This corresponds to the configuration of the II' cross section in FIG. 2A.
  • Each pixel has a light guiding layer 213 and a light receiving layer 214.
  • the light guide layer 213 has one microlens 211 and a color filter 212.
  • the light-receiving layer 214 includes a first photoelectric conversion section 215 and a second photoelectric conversion section 216.
  • the microlens 211 is configured to efficiently guide the light beam incident on the pixel to the first photoelectric conversion section 215 and the second photoelectric conversion section 216.
  • the color filter 212 is any one of an R filter, a G filter, and a B filter.
  • the first photoelectric conversion unit 215 and the second photoelectric conversion unit 216 both generate charges according to the amount of incident light.
  • the image sensor 11 can selectively read signals from one or both of the first photoelectric conversion section 215 and the second photoelectric conversion section 216 from each pixel.
  • the signal obtained from the first photoelectric conversion unit 215 is referred to as an A signal
  • the signal obtained from the second photoelectric conversion unit 216 is referred to as a B signal
  • the signal obtained from the first photoelectric conversion unit 215 and the second photoelectric conversion unit 216 is referred to as a signal A.
  • a signal obtained from both is sometimes called an A+B signal.
  • the first photoelectric conversion unit 215 and the second photoelectric conversion unit 216 view the exit pupil 101 from different viewpoints. Therefore, an image consisting of the A signal and an image consisting of the B signal read out from the same pixel area form a parallax image pair. Therefore, by using the A signal and the B signal, the defocus amount can be determined according to the principle of phase difference AF. Therefore, the A signal and the B signal can each be said to be a focus detection signal.
  • the A+B signal corresponds to a signal obtained when a pixel has one photoelectric conversion section
  • an analog image signal can be obtained by obtaining the A+B signal from each pixel.
  • the A signal can also be obtained by subtracting the B signal from the A+B signal.
  • the B signal can also be obtained by subtracting the A signal from the A+B signal. Therefore, by reading the A+B signal and the A signal or B signal from each pixel, the A signal, B signal, and A+B signal can be obtained.
  • the control unit 12 controls the type of signal read out from the pixel.
  • FIG. 2 shows a configuration in which each pixel includes two photoelectric conversion units 215 and 216 arranged in the horizontal direction.
  • a configuration in which four photoelectric conversion units, two in the horizontal direction and two in the vertical direction, are lined up may be used.
  • a configuration may be adopted in which a plurality of pairs of pixels dedicated to generating the A signal and pixels dedicated to generating the B signal are distributed and arranged in the pixel array.
  • the image sensor 11 may have any known configuration compatible with imaging plane phase difference AF.
  • FIG. 3A is a schematic diagram showing the relationship between the exit pupil 101 of the imaging optical system 10 and the light flux incident on the first photoelectric conversion unit 215 of one pixel.
  • FIG. 3B is a schematic diagram showing the relationship between the light flux incident on the second photoelectric conversion unit 216 of the same pixel and the exit pupil 101.
  • the direction parallel to the optical axis of the imaging optical system is referred to as the z direction or the defocus direction, which is orthogonal to the optical axis
  • the direction parallel to the horizontal direction of the imaging surface is referred to as the x direction, which is orthogonal to the optical axis.
  • the direction parallel to the vertical direction of the imaging plane is defined as the y direction.
  • the microlens 211 is arranged so that the exit pupil 101 and the light-receiving layer 214 are in an optically conjugate relationship.
  • the light flux that has passed through the exit pupil 101 of the imaging optical system 10 is condensed by the microlens 211 and enters the first photoelectric conversion section 215 or the second photoelectric conversion section 216.
  • the light beams that have passed through different regions of the exit pupil 101 mainly enter the first photoelectric conversion section 215 and the second photoelectric conversion section 216, as shown in FIGS. 3A and 3B, respectively.
  • the light flux that has passed through the first pupil area 510 is incident on the first photoelectric conversion unit 215, and the light flux that has passed through the second pupil area 520 is incident on the second photoelectric conversion unit 216. .
  • An A signal and a B signal are acquired from each of a plurality of pixels lined up in the horizontal direction with the pixel of interest as the center.
  • the relative positional shift amount (phase difference or parallax amount) between the image signal based on the A signal sequence (A image) and the image signal based on the B signal sequence (B image) is the defocus amount of the pixel of interest. It has a size corresponding to
  • FIGS. 3C to 3E 511 indicates a first light flux passing through the first pupil region 510, and 521 indicates a second light flux passing through the second pupil region 520.
  • FIG. 3C shows a focused state, in which the first light beam 511 and the second light beam 521 are converged on the imaging surface. At this time, the phase difference or amount of parallax between the A image and the B image becomes 0.
  • FIG. 3D the first light flux 511 and the second light flux 521 converge on the object side (negative side of the z-axis) with respect to the imaging plane. At this time, the phase difference or amount of parallax between the A image and the B image has a negative value ( ⁇ 0).
  • ⁇ 0 negative value
  • the first light beam 511 and the second light beam 521 are converged at the back of the imaging plane (on the positive side of the z-axis) when viewed from the object side.
  • the phase difference or amount of parallax between the A image and the B image has a positive value (>0).
  • the phase difference or amount of parallax between the A image and the B image has a sign depending on the relationship between the position where the first light beam 511 and the second light beam 521 are converged and the imaging surface, and It has a size corresponding to the focus amount.
  • the correlation amount is calculated while relatively shifting the A image and the B image, and the phase difference or parallax amount between the A image and the B image can be obtained as the shift amount that maximizes the correlation amount.
  • a defocus map is two-dimensional data representing the amount of defocus at each pixel position of a captured image.
  • the defocus generation unit 141 corrects the light amounts of the A signal and the B signal. Particularly in pixels with a large image height, the difference in shape between the first pupil area 510 and the second pupil area 520 becomes large due to vignetting of the imaging optical system 10, resulting in a difference in magnitude between the A signal and the B signal.
  • the defocus generation unit 141 applies a correction value according to the pixel position to the A signal and the B signal to correct the difference in magnitude between the A signal and the B signal.
  • the correction value can be stored in the ROM 21 in advance, for example.
  • the defocus generation unit 141 applies noise reduction processing to the A signal and the B signal.
  • the higher the spatial frequency the relatively more noise components, so the defocus generation unit 141 applies to the A signal and the B signal a low-pass filter whose pass rate decreases as the spatial frequency increases. Note that, due to manufacturing errors in the imaging optical system 10, good results may not be obtained in the light amount correction in S1401. Therefore, in S1402, the defocus generation unit 141 can apply a bandpass filter that blocks DC components and has a low pass rate for high frequency components.
  • the defocus generation unit 141 detects the phase difference or the amount of parallax between the A signal and the B signal.
  • the defocus generation unit 141 generates an A signal sequence and a B signal sequence from, for example, a horizontally continuous pixel sequence including the pixel of interest. Then, the defocus generation unit 141 calculates the correlation amount while relatively shifting the A signal sequence and the B signal sequence.
  • the correlation amount may be, for example, NCC (Normalized Cross-Correlation), SSD (Sum of Squared Difference), or SAD (Sum of Absolute Difference).
  • the defocus generation unit 141 determines the amount of shift that maximizes the correlation between the A signal sequence and the B signal sequence in units of less than a pixel, and uses this as the phase difference or parallax amount at the pixel of interest.
  • the defocus generation unit 141 detects the phase difference or the amount of parallax at each pixel position while changing the position of the pixel of interest. Note that the phase difference or amount of parallax between the A signal and the B signal may be detected by any other known method.
  • the resolution for determining the phase difference or the amount of parallax may be lower than the resolution of the captured image.
  • the defocus generation unit 141 converts the detected phase difference or parallax amount into a defocus amount. Since the detected amount of phase difference or parallax has a magnitude corresponding to the amount of defocus, it can be converted into the amount of defocus by applying a predetermined conversion coefficient.
  • the defocus generation unit 141 generates two-dimensional information (defocus map) representing the defocus amount according to the pixel position by converting the detected phase difference or parallax amount into a defocus amount.
  • OBJ is the object plane
  • IMG is the image plane
  • H is the front principal point
  • H' is the back principal point
  • f is the focal length of the imaging optical system (lens)
  • S is the distance from the object plane to the front principal point.
  • the distance S' represents the distance from the rear principal point to the image plane.
  • ⁇ S' is a defocus amount
  • ⁇ S is a relative distance on the object side according to the defocus amount.
  • the dashed line is the optical axis
  • the dotted line is the imaging light flux
  • the broken line is the defocused light flux.
  • S and f at the time of focusing can be obtained from information on photographing conditions (photographing information). Therefore, S' can be obtained from equation (1). Further, the defocus amount ⁇ S' can be obtained by, for example, automatic focus detection (AF) using a phase difference detection method. Thereby, ⁇ S can be determined from equation (3), and the distance S to the object plane OBJ can be determined.
  • AF automatic focus detection
  • the image processing unit 14 can generate distance information of the subject using the generated defocus map and shooting information.
  • the distance information may be, for example, two-dimensional data representing the object distance corresponding to each pixel position, and is sometimes called a depth map, distance image, depth image, or the like.
  • the distance information is acquired using the defocus amount here, the distance information may be acquired using other known methods. For example, by determining the focus lens position where the contrast evaluation value is maximum for each pixel, it is possible to obtain the object distance for each pixel. In addition, distance information for each pixel is obtained based on the correlation between the amount of blur and distance from image data obtained by photographing the same scene multiple times with different focusing distances and the point spread function (PSF) of the optical system. You can also ask for These techniques are described in, for example, Japanese Patent Application Publication No. 2010-177741 and US Pat. No. 4,965,840. Furthermore, if a pair of parallax images can be obtained, the subject distance can be obtained for each pixel using a technique such as stereo matching.
  • a technique such as stereo matching.
  • 3D data is generated by converting distance information (depth map) into coordinate values in the world coordinate system using the focal length and focus position obtained from the photographing information.
  • the obtained 3D data is converted into polygons so that it can be easily handled as a 3D model.
  • Polygonization can be performed using any known method.
  • the 3D data can be converted into a polygon mesh by defining a surface using the coordinate information of any three adjacent points of the 3D data.
  • texture information of the polygon can be calculated from information on the photographed image corresponding to the three points used for polygonization.
  • filter processing may be applied to the depth map before being converted to coordinate values in the world coordinate system, or to 3D data before polygonization. For example, small changes in shape may be smoothed by applying a median filter or the like.
  • the image processing unit 14 converts the polygon data into two-dimensional structured data using any known method so that the amount of data can be reduced using two-dimensional image predictive coding technology.
  • polygonization is not essential, and 3D data may be handled in a point cloud format. Any method can be used to express the three-dimensional shape of the object as long as it has a data format to which known two-dimensional image predictive coding techniques can be applied.
  • FIGS. 6A to 6C Examples of 3D objects, their depth maps, and 3D data are shown in FIGS. 6A to 6C.
  • a depth map as shown in FIG. 6B is obtained.
  • the shading in the depth map of FIG. 6B indicates that the lighter the color, the greater (farther) the distance is. That is, in the captured image, the center of the cylinder exists closest to the center, and the distance increases as the distance from the center increases to the left and right.
  • FIG. 6C schematically shows a state in which 3D data obtained by converting the depth map is plotted on the world coordinate system. Since a depth map is not generated for the portion of the 3D object that is not photographed, only the portion corresponding to the depth map is generated as 3D data. Although not shown, texture information (RGB data) is mapped to the 3D data.
  • RGB data texture information
  • photographing conditions can affect the accuracy of the distance information. For example, when acquiring distance information based on a pair of parallax images taken using an image sensor that supports image plane phase difference detection AF, as the aperture value increases, the baseline length of the pair of parallax images becomes shorter, so the distance Resolution decreases.
  • the photographing sensitivity ISO sensitivity
  • noise in the image is amplified, and the detection accuracy of the defocus amount decreases, thereby decreasing the accuracy of the distance information.
  • the proportion of the object area in the image is small (imaging magnification is low), the surface area of the object to which one pixel corresponds becomes large, and the reproducibility of the object shape deteriorates.
  • the accuracy of the distance information can vary depending on the photographing conditions. For example, when using an image sensor compatible with imaging plane phase difference detection AF, the closer the aperture value is to the aperture value, the longer the baseline length of the parallax image pair becomes, so the accuracy of distance information becomes higher.
  • the image quality of the photographed image is generally higher when the aperture value is larger than the aperture value than when the aperture value is larger than the aperture value. This is because when the aperture value is the maximum aperture value, the effects of peripheral light reduction and optical aberrations on the image are greatest, and as the aperture value is increased, these effects are reduced.
  • the digital camera 100 generates 3D video data and stores it in the storage unit 15, for example, when a shooting mode for recording 3D video is set.
  • the control unit 12 shoots a moving image at a predetermined frame rate, and controls the operation of the image sensor 11 so as to read out the A+B signal and the A signal for each frame. It is also possible to read out the B signal instead of the A signal.
  • the control unit 12 executes the exposure conditions and focus adjustment for each frame, for example, based on the evaluation value generated by the image processing unit 14.
  • the image processing unit 14 generates frame image data for recording from the A+B signal for each frame.
  • the frame image data for recording may be the same as that generated during general video recording. Exposure conditions used during photography are also recorded in association with the frame image data.
  • frame image data of the 2D video for recording is used as texture information of the 3D data.
  • the image processing unit 14 also generates a B signal by subtracting the A signal from the A+B signal for each frame. Then, the image processing unit 14 (defocus generation unit 141) generates a defocus map from the A signal and the B signal, and further converts the defocus map into a depth map. When converting 3D data into polygon data, the image processing unit 14 converts the depth map into polygon data, and then further converts it into two-dimensional structured data.
  • the control unit 12 associates texture information (frame image data) generated for the same frame with 3D data (two-dimensional structured data or depth map) and temporarily stores them in the RAM 20 as frame data of a 3D video. Then, the control unit 12 applies a data amount reduction process (compression process) to be described later to the frame data of the 3D video, and then stores the frame data in the storage unit 15. Note that the frame data of the 3D video may be stored in the storage unit 15 without applying the compression process, and the compression process may be applied after the shooting of the 3D video is completed. Further, the frame data of the 3D video may be stored in an external device through the communication unit 18.
  • 3D video data reduction processing in this embodiment will be described using the flowchart shown in FIG. 7.
  • the image processing unit 14 of the digital camera 100 executes the process when shooting a 3D video.
  • it may also be executed by an external device connected through the communication unit 18.
  • the image processing unit 14 or an external device may execute the process after the 3D video has been shot.
  • the amount of 3D video data is reduced using an image encoding technique using interframe prediction, such as MPEG4.
  • the image processing unit 14 reads three-dimensional video data to be compressed from the storage unit 15 to the RAM 20.
  • at least one GOP Group Of Pictures
  • 3D video data already exists in the RAM 20, it is not necessary to read it from the storage unit 15.
  • the image processing unit 14 determines whether shooting information is recorded accompanying the 3D video data, and if it is determined that it is recorded, executes S103, and if not, executes S104.
  • the photographing information is recorded as, for example, metadata.
  • the image processing unit 14 reads out the shooting information of each frame read out in S101 and stores it in the RAM 20.
  • the photographic information read here may be, for example, the focal length, focusing distance, aperture value, ISO sensitivity, shutter speed, etc. of the imaging optical system 10.
  • the image processing unit 14 performs key frame evaluation processing.
  • the image processing unit 14 evaluates the 3D data and texture information for each frame of the frame image data of the 3D video read into the RAM 20, and determines whether or not it is appropriate as a key frame (I frame). .
  • the image processing unit 14 evaluates the texture information and 3D data based on separate conditions, thereby separately determining the optimal key frame for compressing texture information and the optimal key frame for compressing 3D data. judge.
  • FIG. 8 is a diagram schematically showing texture information and 3D data in corresponding frames.
  • the left column is frame N
  • the right column is frame N+ ⁇ ( ⁇ 1).
  • Frame N is photographed with aperture value a
  • frame N+ ⁇ is photographed with aperture value b (b>a). Since frame N is photographed with an aperture value that is closer to open, the image quality of the texture information (frame image data) is higher in frame N+ ⁇ .
  • the baseline length is larger in frame N, the distance resolution of the 3D data is higher in frame N.
  • the image processing unit 14 can make a determination based on, for example, the aperture value at the time of shooting of all frames included in the GOP. For example, the image processing unit 14 may determine that the frame with the largest aperture value at the time of photography is the optimal key frame for texture information, and determine the frame with the smallest aperture value at the time of photography as the optimal key frame for 3D data. Can be done.
  • an evaluation value based on one or more of a plurality of items of shooting conditions may be calculated for each frame, and the frame with the highest evaluation value may be determined to be the optimal key frame.
  • the relationship between the photographing condition items and the evaluation values can be, for example, as follows.
  • the aperture value As described above, as the aperture value becomes smaller, the distance resolution of 3D data increases, and the resolution of texture information decreases. Therefore, the smaller the aperture value, the higher the evaluation value regarding 3D data, and the lower the evaluation value regarding texture information. However, when the aperture value exceeds the threshold value, the contrast of the image decreases due to the influence of diffraction. Therefore, if the evaluation value regarding texture information is 1st aperture value ⁇ 2nd aperture value ⁇ 3rd aperture value (threshold value), the aperture value will change from the first aperture value until reaching the third aperture value. The value increases as the aperture value increases, and decreases when the third aperture value is exceeded. The evaluation value when the third aperture value is exceeded may be a fixed value or may be lowered stepwise.
  • the threshold value may be made shorter as the focal length becomes longer.
  • the imaging magnification can be set in advance, for example, depending on the combination of the focal length and focusing distance of the imaging optical system 10. Alternatively, the ratio of the main subject area to the screen may be associated with the shooting location ratio.
  • texture information may be evaluated separately for appropriately exposed areas and dark areas as key frames. Specifically, among a plurality of frames to be evaluated, the frame in which the exposure of the dark area is closest to the proper exposure is determined as the frame with the highest evaluation value for the dark area. Bright areas can also be evaluated separately.
  • the evaluation value may be binary, such as OK/NG (or 1/0), or may be three or more values. Alternatively, it may be a value depending on the rank in the frame to be evaluated.
  • the image processing unit 14 stores the evaluation value in the RAM 20 in association with the evaluated frame.
  • the image processing unit 14 selects a 3D data key frame and a texture information key frame based on the result of the evaluation process in S104.
  • the image processing unit 14 can select, for example, the frame with the highest evaluation value as the key frame. If a plurality of evaluation values exist for each frame, the frame with the highest total evaluation value can be selected as the key frame. Note that key frames may be selected based on other conditions. Furthermore, key frames may be selected from frames that do not have an NG evaluation value. The same holds true when selecting key frames of texture information for each region.
  • the image processing unit 14 separately encodes the 3D data and texture information in each GOP by MPEG encoding using the key frame selected in S105 as an I frame. Since the MPEG encoding method that allocates I frames, P frames, and B frames on a GOP basis and performs interframe predictive encoding on the P frames and B frames is well known, a detailed explanation thereof will be omitted. Note that MPEG encoding may be performed by allocating I frames and P frames without using B frames.
  • the image processing unit 14 encodes the 3D video data by repeatedly executing the processes from S101 to S106 as necessary.
  • the image processing unit 14 sequentially records, in the storage unit 15, 3D video data files storing 3D video data including encoded 3D data and texture information. Note that when 3D video data is read from the storage unit 15 in S101, it may be replaced with the encoded 3D video data, or the 3D video data before encoding may be left. Further, a 3D video data file containing encoded 3D video data may be transmitted to an external device through the communication unit 18.
  • the external device includes a decoder that supports the encoding method used to encode the 3D data and texture information in S106.
  • the decoder separately decodes the 3D data and texture information of the 3D video data stored in the 3D video data file by referring to key frames set for each. Then, the external device generates a combination of decoded 3D data and texture information for each frame, develops each frame in a memory, reads out the frames in chronological order, and displays and reproduces them. Thereby, a moving image can be played back and displayed while giving a three-dimensional effect to a 3D object included as a subject in an image. Note that after the 3D data and texture information are decoded, a combination of the 3D data and texture information may be generated for each frame and stored as a file in the storage device of the external device.
  • FIG. 9 is a flowchart regarding the compression process of 3D video data in this embodiment.
  • the same reference numerals as in FIG. 7 are attached to steps that perform the same processing as in the first embodiment.
  • This embodiment includes step S201 in which 3D data analysis processing is performed before the key frame evaluation processing in S104.
  • 3D data analysis processing is performed to more appropriately evaluate and select key frames.
  • 3D data with high distance resolution can be selected as a key frame for each region.
  • the 3D data may be divided in the distance direction, or in the distance and vertical direction.
  • the 3D data before division may be one continuous object or may be a plurality of objects.
  • FIG. 10 is a diagram schematically showing texture information and 3D data in corresponding frames.
  • the left column is frame N
  • the middle column is frame N+ ⁇ ( ⁇ 1)
  • the right column is frame N+ ⁇ ( ⁇ > ⁇ ).
  • Frames N and N+ ⁇ are photographed with aperture value a, and frame N+ ⁇ is photographed with aperture value b (b>a). Further, in frame N, the front side of the object is in focus, and in frame N+ ⁇ , the back side of the object is in focus. Furthermore, frame N+ ⁇ shows a state in which the entire texture information is in focus due to the aperture value being increased from the state of frame N+ ⁇ .
  • the 3D data shows parts with high distance resolution in a grid pattern.
  • frame N the distance resolution on the near side of the object is high
  • frame N+ ⁇ the distance resolution on the back side of the object is high.
  • frame N+ ⁇ as the aperture value increases, the distance resolution on the far side of the object decreases, and a portion with high distance resolution disappears.
  • the image processing unit 14 divides the 3D data into the front side and the back side, and increases the evaluation value of frame N for the front side and frame N+ ⁇ for the back side. Furthermore, regarding the texture information, the evaluation value of frame N+ ⁇ is increased.
  • the image processing unit 14 stores in the RAM 20 information on how the 3D data is divided, an evaluation value for each divided area of the 3D data, and an evaluation value for texture information. These information and evaluation values are taken into consideration in the key frame selection process in S105, together with the evaluation value determined in the key frame evaluation process in S104.
  • the image processing unit 14 selects key frames for the 3D data for each divided area. Key frames for texture information can be selected in the same way as in the first embodiment.
  • the image processing unit 14 performs the same processing as in the first embodiment, except that the 3D data is encoded for each divided region.
  • key frames can be selected more precisely for 3D data, and the amount of data can be effectively reduced while further suppressing deterioration in the quality of 3D data.
  • the encoded 3D video data generated in the first and second embodiments can be decoded using a known method.
  • the decoded 3D data is converted to a polygon mesh.
  • texture can be mapped to a 3D model based on a polygon mesh.
  • the present invention provides a system or device with a program that implements one or more of the functions of the embodiments described above via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. This can also be achieved by processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
  • a circuit for example, ASIC

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

フレーム間の相関を利用して3次元動画のデータ量を適切に削減可能な画像処理装置が開示される。画像処理装置は、フレームごとに3次元データとテクスチャ情報とを有する3次元動画データを取得する取得手段と、3次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有する。符号化手段は、3次元データとテクスチャ情報とを別個にフレーム間予測符号化し、各フレームのメタデータに基づき、3次元データをフレーム間予測符号化するためのキーフレームと、テクスチャ情報を符号化するためのキーフレームとを別個に選択する。

Description

画像処理装置および画像処理方法
 本発明は画像処理装置および画像処理方法に関し、特にはデータ量の削減技術に関する。
 2次元(2D)動画と3次元(3D)動画を撮影可能な撮影装置が知られている(特許文献1)。特許文献1では、3D動画をMPEG2規格に準拠した方法で符号化することにより、データ量を削減している。
特開2008-187385号公報
 MPEG規格のような、フレーム間の相関を利用した符号化を用いて3D動画のデータ量を効率よく削減しつつ、画質劣化を抑制するには、参照フレーム(キーフレーム)を適切に設定することが必要である。特許文献1では、露出制御をIフレームのタイミングで実行することの開示はあるが、Iフレームをどのように設定するかについては言及されていない。
 本発明はその一態様において、フレーム間の相関を利用して3D動画のデータ量を適切に削減可能な画像処理装置および画像処理方法を提供する。
 本発明の一態様による画像処理装置は、フレームごとに3次元データとテクスチャ情報とを有する3次元動画データを取得する取得手段と、3次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有し、符号化手段は、3次元データとテクスチャ情報とを別個に符号化し、3次元データを符号化するためのキーフレームと、テクスチャ情報を符号化するためのキーフレームとを別個に選択する、ことを特徴とする。
 本発明によれば、フレーム間の相関を利用して3D動画のデータ量を適切に削減可能な画像処理装置および画像処理方法を提供することができる。
 本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。
 添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る画像処理装置の一例としてのデジタルカメラの機能構成例を示すブロック図 撮像素子の構成例を示す図 撮像素子の構成例を示す図 撮像面位相差AFを説明するための図 撮像面位相差AFを説明するための図 撮像面位相差AFを説明するための図 撮像面位相差AFを説明するための図 撮像面位相差AFを説明するための図 実施形態におけるデフォーカスマップ生成処理に関するフローチャート デフォーカス量から距離情報を求める方法を説明するための図 実施形態において生成する、3次元物体に関するデータを説明するための図 実施形態において生成する、3次元物体に関するデータを説明するための図 実施形態において生成する、3次元物体に関するデータを説明するための図 第1実施形態における3次元動画データの圧縮処理に関するフローチャート 第1実施形態におけるキーフレーム評価方法を説明するための図 第2実施形態における3次元動画データの圧縮処理に関するフローチャート 第2実施形態におけるキーフレーム評価方法を説明するための図
●(第1実施形態)
 以下、添付図面を参照して本発明をその例示的な実施形態に基づいて詳細に説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定しない。また、実施形態には複数の特徴が記載されているが、その全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
 なお、以下の実施形態では、本発明をデジタルカメラで実施する場合に関して説明する。しかし、本発明に撮像機能は必須でなく、本発明は画像データを取り扱い可能な任意の電子機器で実施可能である。このような電子機器には、ビデオカメラ、コンピュータ機器(パーソナルコンピュータ、タブレットコンピュータ、メディアプレーヤ、PDAなど)、携帯電話機、スマートフォン、ゲーム機、ロボット、ドローンなど含まれる。これらは例示であり、本発明は他の電子機器でも実施可能である。
<撮影画像情報>
 図1は、実施形態に係る画像処理装置としてのデジタルカメラ100の機能構成例を示すブロック図である。
 撮像光学系10は、被写体の光学像を撮像素子11の撮像面に形成する。撮像光学系10は、光軸103に沿って配列された複数のレンズを有する。複数のレンズには、撮像光学系10の合焦距離を調整するためのフォーカスレンズ102が含まれる。フォーカスレンズ102は光軸に沿って移動可能である。フォーカスレンズ102は、画像処理部14が生成するデフォーカス量に従って制御部12が駆動する。
 撮像光学系10はまた、絞り値(開口量)を調整可能な絞り104を有する。絞り104の絞り値は制御部12が例えば自動露出制御(AE)によって決定された撮影条件に基づいて制御する。絞り104はメカニカルシャッタの機能を有してもよい。射出瞳101は撮像光学系10を撮像素子11側から見た開放絞りの像であり、図では射出瞳101の位置を示している。
 撮像素子11は例えば原色ベイヤ配列のカラーフィルタを有する公知のCCDもしくはCMOSカラーイメージセンサであってよい。撮像素子11は複数の画素が2次元配列された画素アレイと、各画素から信号を読み出すための周辺回路とを有する。各画素は光電変換によって入射光量に応じた電荷を蓄積する。露光期間に蓄積された電荷量に応じた電圧を有する信号を各画素から読み出すことにより、撮像光学系10が撮像面に形成した被写体像を表す画素信号群(アナログ画像信号)が得られる。
 後述するように、撮像素子11が有する画素は複数の光電変換領域または光電変換素子を有し、1回の撮影で視差画像対を生成可能である。そして、この視差画像対に基づいて位相差検出方式の自動焦点検出(位相差AF)を実行したり、距離情報を生成したりすることができる。詳細については後述する。
 制御部12は、プログラムを実行可能な1つ以上のプロセッサ(以下、CPUという)を有する。制御部12は、例えばROM21に記憶されたプログラムをRAM20に読み込んでCPUで実行する。制御部12は、プログラムを実行しながら各機能ブロックの動作を制御することにより、デジタルカメラ100の各種機能を実現する。
 ROM21は例えば書き換え可能な不揮発性メモリであり、制御部12のCPUが実行可能なプログラム、設定値、GUIデータなどを記憶する。RAM20は、制御部12のCPUが実行するプログラムを読み込んだり、プログラムの実行中に必要な値を保存したりするために用いられる。また、RAM20は画像処理部14の作業用メモリ、撮像によよって得られた画像を一時的に記憶するためのバッファメモリ、表示部17のビデオメモリなどとしても用いられる。
 画像処理部14は、撮像素子11から読み出されたアナログ画像信号に対して予め定められた画像処理を適用し、用途に応じた信号や画像データを生成したり、各種の情報を取得および/または生成したりする。画像処理部14は例えば特定の機能を実現するように設計されたASIC(Application Specific Integrated Circuit)のような専用のハードウェア回路であってよい。あるいは画像処理部14はDSP(Digital Signal Processor)やGPU(Graphics Processing Unit)のようなプロセッサがソフトウェアを実行することで特定の機能を実現する構成であってもよい。画像処理部14は、取得もしくは生成した情報やデータを、用途に応じて制御部12やRAM20などに出力する。
 画像処理部14が適用する画像処理には、例えば、前処理、色補間処理、補正処理、検出処理、データ加工処理、評価値算出処理、特殊効果処理などが含まれうる。
 前処理には、A/D変換、信号増幅、基準レベル調整、欠陥画素補正などが含まれうる。
 色補間処理は、撮像素子にカラーフィルタが設けられている場合に行われ、画像データを構成する個々の画素データに含まれていない色成分の値を補間する処理である。色補間処理はデモザイク処理とも呼ばれる。
 補正処理には、ホワイトバランス調整、階調補正、撮像光学系10の光学収差に起因する画像劣化の補正(画像回復)、撮像光学系10の周辺減光の影響の補正、色補正などの処理が含まれうる。
 検出処理には、特徴領域(たとえば顔領域や人体領域)やその動きの検出、人物の認識処理などが含まれうる。
 評価値算出処理には、自動焦点検出(AF)に用いる信号や評価値の生成、自動露出制御(AE)に用いる評価値の生成などの処理が含まれうる。図1では、AF用の評価値であるデフォーカス量を生成する画像処理部14の機能を、便宜上、機能ブロック(デフォーカス生成部141)として示している。
 データ加工処理には、領域の切り出し(トリミング)、合成、スケーリング、符号化および復号、ヘッダ情報生成(データファイル生成)などの処理が含まれうる。表示用画像データや記録用画像データの生成もデータ加工処理に含まれる。また、デフォーカス量に基づく距離情報の生成もデータ加工処理として実行される。
 特殊効果処理には、ボケ効果の付加、色調の変更、リライティングなどの処理などが含まれうる。
 なお、これらは画像処理部14が適用可能な処理の例示であり、画像処理部14が適用する処理を限定するものではない。
 記憶部15は撮像により得られた画像データを格納したデータファイルを記録するための記録媒体である。記憶部15は例えばメモリカードとそのリーダライタとの組み合わせであってよい。記憶部15は複数の記録媒体を取り扱い可能であってもよい。
 入力部16は、例えば、ダイヤル、ボタン、スイッチ、タッチパネルなど、デジタルカメラ100に設けられた、ユーザが操作可能な入力デバイスの総称である。入力部16に対する操作は制御部12が監視する。入力部16に対する操作が検出されると、制御部12は、操作された入力デバイスに割り当てられている機能および操作内容に応じた動作を実行する。
 表示部17は、例えば、液晶ディスプレイや有機EL等の表示装置である。動画の撮像と、撮像された動画の表示部17への表示とを継続的に実行することにより、表示部17を電子ビューファインダ(EVF)として機能させることができる。表示部17を電子ビューファインダ(EVF)として機能させる動作をライブビュー表示またはスルー表示と呼ぶことがある。また、ライブビュー表示またはスルー表示によって表示部17に表示される画像をライブビュー画像またはスルー画像と呼ぶことがある。
 表示部17はタッチディスプレイであってよい。表示部17がタッチディスプレイの場合、表示部17に表示するGUIパーツとタッチパネルとの組み合わせによってソフトウェアキーを実現してもよい。制御部12はソフトウェアキーを入力部16が有する入力デバイスと同様に取り扱う。
 通信部18は外部装置との通信インターフェースである。制御部12は、通信部18を通じて外部機器と1つ以上の有線または無線通信規格に準拠した通信を行うことができる。
 動きセンサ19は、デジタルカメラ100の動きに応じた信号を生成する。動きセンサ19は、例えばXYZの各軸方向の動きに応じた信号を出力する加速度センサと各軸周りの動きに応じた信号を出力するジャイロセンサとの組み合わせであってよい。
<撮像素子の構成例>
 撮像素子11の構成例について、図2を参照して説明する。図2Aは、撮像素子11の画素アレイを撮像面側から見た平面図である。画素アレイには原色ベイヤ配列のカラーフィルタが設けられている。したがって、各画素には、赤(R)、緑(G)、青(B)のいずれか1つのカラーフィルタが、2行×2列の画素群210を繰り返し単位として規則的に配置されている。なお、原色ベイヤ配列以外の配列のカラーフィルタが設けられてもよい。
 図2Bは、1つの画素の垂直断面図である。図2AのI-I’断面の構成に相当する。各画素は、導光層213と受光層214とを有する。導光層213は、1つのマイクロレンズ211とカラーフィルタ212とを有する。また、受光層214は第1の光電変換部215と第2の光電変換部216とを有する。
 マイクロレンズ211は、画素へ入射した光束を第1の光電変換部215および第2の光電変換部216に効率よく導くよう構成されている。またカラーフィルタ212は、Rフィルタ、Gフィルタ、Bフィルタのいずれかである。
 第1の光電変換部215および第2の光電変換部216はいずれも入射光量に応じた電荷を発生する。撮像素子11は、個々の画素から、第1の光電変換部215および第2の光電変換部216の1つまたは両方から選択的に信号を読み出すことができる。本明細書では、第1の光電変換部215から得られる信号をA信号、第2の光電変換部216得られる信号をB信号、第1の光電変換部215および第2の光電変換部216の両方から得られる信号をA+B信号と呼ぶことがある。
 第1の光電変換部215と第2の光電変換部216とは、射出瞳101を異なる視点から見ている。そのため、同一の画素領域から読み出された、A信号からなる画像とB信号からなる画像とは視差画像対を形成する。そのため、A信号とB信号を用いることにより、位相差AFの原理に従ってデフォーカス量を求めることができる。したがって、A信号およびB信号はそれぞれ焦点検出用信号と言える。
 一方、A+B信号は画素が1つの光電変換部を有する場合に得られる信号に相当するため、各画素からA+B信号を取得することにより、アナログ画像信号を取得することができる。
 なお、A信号はA+B信号からB信号を減算することでも得られる。同様に、B信号はA+B信号からA信号を減算することでも得られる。したがって、各画素からA+B信号と、A信号またはB信号とを読み出すことにより、A信号、B信号、A+B信号を得ることができる。画素から読み出す信号の種類は、制御部12が制御する。
 なお、図2では、各画素が水平方向に並んだ2つの光電変換部215および216を有する構成を示した。しかし、水平方向に2つ、垂直方向に2つの4つの光電変換部が並んだ構成であってもよい。また、A信号を生成する専用の画素と、B信号を生成する専用の画素とが画素アレイに分散して複数対配置された構成であってもよい。撮像素子11は、撮像面位相差AFに対応した公知の任意の構成を有しうる。
<撮像面位相差AFの原理>
 A信号とB信号とを用いてデフォーカス量が算出できる原理について、図3A~図3Eを参照して説明する。
 図3Aは、撮像光学系10の射出瞳101と、ある1つの画素の第1の光電変換部215に入射する光束との関係を示す模式図である。図3Bは、同じ画素の第2の光電変換部216に入射する光束と射出瞳101との関係を示す模式図である。
 なお、本明細書では、撮像光学系の光軸に平行な方向をz方向またはデフォーカス方向、光軸と直交し、撮像面の水平方向と平行な方向をx方向、光軸と直交し、撮像面の垂直方向と平行な方向をy方向とする。
 マイクロレンズ211は、射出瞳101と受光層214とが光学的に共役関係になるように配置されている。撮像光学系10の射出瞳101を通過した光束は、マイクロレンズ211により集光されて第1の光電変換部215または第2の光電変換部216に入射する。この際、第1の光電変換部215と第2の光電変換部216にはそれぞれ図3Aおよび図3Bに示すように、射出瞳101の異なる領域を通過した光束が主に入射する。具体的には、第1の光電変換部215には第1の瞳領域510を通過した光束が入射し、第2の光電変換部216には第2の瞳領域520を通過した光束が入射する。
 着目画素を中心として水平方向にならんだ複数の画素のそれぞれからA信号とB信号とを取得する。この場合、A信号列に基づく像信号(A像)と、B信号列に基づく像信号(B像)との相対的な位置ずれ量(位相差または視差量)は、着目画素のデフォーカス量に応じた大きさを有する。
 図3C~図3Eにおいて、511は第1の瞳領域510を通過する第1の光束を示し、521は第2の瞳領域520を通過する第2の光束を示している。
 図3Cは合焦状態を示しており、第1の光束511と第2の光束521が撮像面上で収束している。このとき、A像とB像との位相差または視差量は0となる。
 図3Dは第1の光束511と第2の光束521が撮像面よりも物体側(z軸の負方向側)で収束している。このとき、A像とB像との位相差または視差量は負の値(<0)を有する。
 図3Eは第1の光束511と第2の光束521が物体側から見て撮像面よりも奥(z軸の正方向側)で収束している。このとき、A像とB像との位相差または視差量は正の値(>0)を有する。
 このように、A像とB像との位相差または視差量は、第1の光束511と第2の光束521が収束している位置と撮像面との関係に応じた符号を有し、デフォーカス量の大きさに応じた大きさを有する。A像とB像とを相対的にずらしながら相関量を算出し、相関量が最大となるずらし量として、A像とB像との位相差または視差量を得ることができる。
<デフォーカス画像生成処理>
 次に、画像処理部14のデフォーカス生成部141がデフォーカスマップを生成する処理の一例について、図4に示すフローチャートを用いて説明する。デフォーカスマップとは、撮像画像の各画素位置におけるデフォーカス量を表す2次元データである。
 ここでは、撮像素子11の各画素についてのA信号とB信号とがRAM20に格納されているものとする。
 S1401で、デフォーカス生成部141は、A信号およびB信号の光量を補正する。特に像高の大きな画素では撮像光学系10の口径食によって第1の瞳領域510と第2の瞳領域520の形状の差が大きくなり、A信号とB信号との大きさに差が生じる。デフォーカス生成部141は、画素位置に応じた補正値をA信号およびB信号に適用して、A信号とB信号との大きさの違いを補正する。補正値は予め例えばROM21に保存しておくことができる。
 S1402で、デフォーカス生成部141は、A信号およびB信号にノイズ低減処理を適用する。一般に、空間周波数が高いほど相対的にノイズ成分が多くなるため、デフォーカス生成部141は、空間周波数が高いほど通過率が低減するローパスフィルタをA信号およびB信号に適用する。なお、撮像光学系10の製造誤差等によってS1401における光量補正で良好な結果が得られない場合がある。そのため、S1402でデフォーカス生成部141は、直流成分を遮断し、かつ、高周波成分の通過率が低いバンドパスフィルタを適用することができる。
 S1403で、デフォーカス生成部141は、A信号とB信号との位相差または視差量を検出する。デフォーカス生成部141は、例えば着目画素を含む水平方向に連続した画素列からA信号列およびB信号列を生成する。そして、デフォーカス生成部141はA信号列とB信号列とを相対的にずらしながら相関量を算出する。相関量は例えばNCC(Normalized Cross-Correlation)、SSD(Sum of Squared Difference)、またはSAD(Sum of Absolute Difference)であってよい。
 デフォーカス生成部141は、A信号列およびB信号列の相関が最大となるずらし量を画素未満の単位で求め、注目画素における位相差または視差量とする。デフォーカス生成部141は、注目画素の位置を変えながら個々の画素位置における位相差または視差量を検出する。なお、A信号とB信号との位相差または視差量は他の任意の公知の方法で検出してもよい。位相差または視差量を求める解像度は撮像画像の解像度より低くてもよい。
 S1404で、デフォーカス生成部141は、検出された位相差または視差量をデフォーカス量に変換する。検出された位相差または視差量はデフォーカス量に応じた大きさを有するため、所定の変換係数を適用することによりデフォーカス量に変換することができる。位相差または視差量をd、変換係数をKとすると、デフォーカス量ΔLは以下の式(1)によって得ることができる。
 ΔL = K × d   (1)
 デフォーカス生成部141は、検出した位相差または視差量をデフォーカス量に変換することにより、画素位置に応じたデフォーカス量を表す2次元情報(デフォーカスマップ)を生成する。
<距離情報の取得>
 次に、デフォーカス量に基づいて奥行き(距離)情報を取得する方法を、図5を用いて説明する。図5において、OBJは物体面、IMGは像面、Hは前側主点、H’は後側主点、fは撮像光学系(レンズ)の焦点距離、Sは物体面から前側主点までの距離、S’は後側主点から像面までの距離を表す。また、ΔS’はデフォーカス量、ΔSはデフォーカス量に応じた物体側の相対距離である。一点鎖線が光軸、点線が結像光束、破線がデフォーカス光束である。
 レンズの結像では、以下の式(2)が成り立つことが知られている。
 1/S + 1/S’ = 1/f   (2)
 また、デフォーカス時は式(2)を変形した式(3)が成り立つ。
 1/(S+ΔS) + 1/(S’+ΔS’) = 1/f   (3)
 合焦時のSとfは撮影条件の情報(撮影情報)から取得可能である。したがって、式(1)からS’を求めることができる。また、デフォーカス量ΔS’は例えば位相差検出方式の自動焦点検出(AF)などによって取得可能である。これにより、式(3)からΔSを求めることができ、物体面OBJまでの距離Sを求めることができる。
 画像処理部14は、生成したデフォーカスマップと撮影情報とを用いて被写体の距離情報を生成することができる。距離情報は例えば各画素位置に対応した被写体距離を表す2次元データであってよく、デプスマップ、距離画像、奥行き画像などと呼ばれることもある。
 なお、ここではデフォーカス量を用いて距離情報を取得したが、他の公知の方法を用いて距離情報を取得してもよい。例えばコントラスト評価値が極大となるフォーカスレンズ位置を画素ごとに求めることで、画素ごとに被写体距離を取得することができる。また、合焦距離を変えて同一シーンを複数回撮影して得られる画像データと光学系の点像分布関数(PSF)とから、ぼけ量と距離との相関関係に基づいて画素ごとの距離情報を求めることもできる。これらの技術に関しては例えば特開2010-177741号公報や米国特許第4,965,840号公報などに記載されている。また、視差画像対を取得可能な場合には、ステレオマッチング等の手法で画素ごとに被写体距離を取得することができる。
 <3次元データの生成>
 次に、距離情報を用いた3次元(3D)データの生成方法の例について説明する。
 まず、距離情報(デプスマップ)を、撮影情報から得られる焦点距離、フォーカス位置を用いて世界座標系の座標値へ変換することにより、3Dデータを生成する。得られた3Dデータは、3Dモデルとして扱いやすいようにポリゴン化する。ポリゴン化は任意の公知の方法を用いて実施することができる。
 例えば、3Dデータの隣接する任意の三点の座標情報を用いて面を規定することで、3Dデータをポリゴンメッシュに変換することができる。また、ポリゴン化に用いた三点に対応する撮影画像の情報から、そのポリゴンのテクスチャ情報を算出することができる。また、世界座標系の座標値に変換する前のデプスマップや、ポリゴン化前の3Dデータにフィルタ処理を適用してもよい。例えば、メディアンフィルタなどを適用するなどして小さな形状変化を平滑化してもよい。
 ポリゴン化を行った場合、2次元画像の予測符号化技術を用いてデータ量を削減できるよう、画像処理部14は公知の任意の方法によってポリゴンデータを2次元の構造化データに変換する。なお、ポリゴン化は必須ではなく、3Dデータを点群形式で取り扱ってもよい。公知の2次元画像の予測符号化技術を適用可能なデータ形式を有しさえすれば、物体の3次元形状を表現する方法は任意である。
 図6A~図6Cに3D物体とそのデプスマップおよび3Dデータの例を示す。
 図6Aに示すような3D物体として円柱を側面から撮影して距離情報を取得すると、図6Bに示すようなデプスマップが得られる。ここで、図6Bのデプスマップにおける濃淡は、色が淡くなるほど距離が大きい(遠い)ことを表している。つまり、撮影画像において円柱の中心部分が最も近くに存在し、中心から左右に離れるほど距離が増加している。図6Cはデプスマップを変換した3Dデータを世界座標系にプロットした状態を模式的に示している。3D物体の撮影されていない部分についてはデプスマップが生成されないため、3Dデータもデプスマップに対応した部分だけが生成される。図示していないが、3Dデータにはテクスチャ情報(RGBデータ)がマッピングされる。
<撮影条件と距離情報の精度およびテクスチャ情報の品質との関係>
 撮影画像から距離情報を取得する場合、撮影条件が距離情報の精度に影響を与えうる。例えば、撮像面位相差検出AFに対応した撮像素子を用いて撮影した視差画像対に基づいて距離情報を取得する場合、絞り値が大きくなると、視差画像対の基線長が短くなるため、距離の分解能が低下する。
 また、撮像素子の構成にかかわらず、撮影感度(ISO感度)が高くなると、画像のノイズが増幅されることにより、デフォーカス量の検出精度が低下することにより、距離情報の精度が低下する。また、画像に占める物体領域の割合が小さい(撮影倍率が低い)場合、1画素が対応する物体の表面積が大きくなるため、物体形状の再現性が低下する。
 このように、撮影画像から距離情報を取得する場合、距離情報の精度は撮影条件に応じて変化しうる。例えば撮像面位相差検出AFに対応した撮像素子を用いる場合、絞り値が開放値に近いほど視差画像対の基線長は長くなるため、距離情報の精度は高くなる。
 一方で、撮影画像の画質は、一般に絞り値が開放値より大きい場合の方が開放値の場合よりも高くなる。これは、絞り値が開放値のとき、周辺減光や光学収差が画像に与える影響が最も大きく、絞り値を増加させるとこれらの影響が低減するためである。撮影画像の画質がよいほど高品質のテクスチャ情報が得られるため、テクスチャ情報の品質の観点からは絞り値は開放値でない方がよい。このように、距離情報の精度および距離情報に基づく3Dデータの精度という観点と、テクスチャ情報の品質という観点とでは、最適な撮影条件が異なる。
 これは、フレームごとに生成される3Dデータとテクスチャ情報(フレーム画像データ)とのデータ量を、フレーム間予測を用いて削減しようとした場合、3Dデータに最適なキーフレームと、テクスチャ情報に最適なキーフレームとが異なることを意味する。したがって、同じタイミングのフレームをキーフレームとした場合、3Dデータとテクスチャ情報の少なくとも一方においては最適でないデータ量の削減が行われうる。
<3次元動画ファイルの生成>
 デジタルカメラ100は、例えば3D動画を記録する撮影モードが設定されている場合に、3D動画データを生成し、記憶部15に保存する。具体的には、制御部12は所定のフレームレートで動画撮影を行い、各フレームについてA+B信号と、A信号とを読み出すように撮像素子11の動作を制御する。A信号の代わりにB信号を読み出すこともできる。なお、露出条件や焦点調節は画像処理部14が生成する評価値に基づいて制御部12が例えばフレームごとに実行する。
 画像処理部14は、各フレームについて、A+B信号から記録用のフレーム画像データを生成する。記録用のフレーム画像データは一般的な動画記録時に生成するものと同じであってよい。撮影時に用いられた露出条件などもフレーム画像データと関連付けて記録される。3D動画を記録する場合、記録用の2次元動画のフレーム画像データは3Dデータのテクスチャ情報として用いられる。
 また、画像処理部14は、各フレームについて、A+B信号からA信号を減じてB信号を生成する。そして、画像処理部14(デフォーカス生成部141)は、A信号とB信号とからデフォーカスマップを生成し、さらに、デフォーカスマップをデプスマップに変換する。3Dデータをポリゴンデータとする場合、画像処理部14はデプスマップをポリゴンデータに変換したのち、2次元構造化データにさらに変換する。
 制御部12は、同じフレームについて生成されたテクスチャ情報(フレーム画像データ)と、3Dデータ(2次元構造化データまたはデプスマップ)とを関連付けて、3D動画のフレームデータとしてRAM20に一旦格納する。そして、制御部12は3D動画のフレームデータに後述するデータ量削減処理(圧縮処理)を適用したのち、記憶部15に保存する。なお、3D動画のフレームデータに圧縮処理を適用せずに記憶部15に保存し、3D動画の撮影が終了してから圧縮処理を適用してもよい。また、3D動画のフレームデータは通信部18を通じて外部装置に保存してもよい。
<3D動画のデータ削減処理>
 図7に示すフローチャートを用いて、本実施形態における3D動画のデータ削減(圧縮)処理について説明する。ここでは、3D動画の撮影時にデジタルカメラ100の画像処理部14が実行するものとする。しかし、通信部18を通じて接続された外部装置で実行されてもよい。また、3D動画の撮影が終了してから、画像処理部14あるいは外部装置で実行してもよい。ここでは3D動画データのデータ量を、MPEG4などの、フレーム間予測を用いた画像符号化技術を用いて削減するものとする。
 S101で画像処理部14は、圧縮する3次元動画データを記憶部15からRAM20に読み出す。ここでは少なくとも1GOP(Group Of Pictures)以上のフレームを読み出すものとする。すでにRAM20に3D動画データが存在する場合には記憶部15から読み出さなくてもよい。
 S102で画像処理部14は、3D動画データに付随して撮影情報が記録されているか判定し、記録されていると判定されればS103を実行し、判定されなければS104を実行する。デジタルカメラ100のような撮像装置によって撮影された場合、撮影情報が例えばメタデータとして記録されている。
 S103で画像処理部14は、S101で読み出した各フレームの撮影情報を読み出してRAM20に格納する。ここで読み出す撮影情報は例えば撮像光学系10の焦点距離、合焦距離、絞り値、ISO感度、シャッタースピードなどであってよい。
 S104で画像処理部14は、キーフレーム評価処理を行う。
 キーフレーム評価処理で画像処理部14は、RAM20に読み込んだ3D動画のフレーム画像データについて、1フレームごとに3Dデータとテクスチャ情報とを評価し、キーフレーム(Iフレーム)として適切か否か判定する。
 このとき画像処理部14は、テクスチャ情報と3Dデータとを別個の条件に基づいて評価することにより、テクスチャ情報の圧縮に最適なキーフレームと、3Dデータの圧縮に最適なキーフレームとを別個に判定する。
 図8は、対応するフレームにおけるテクスチャ情報と3Dデータを模式的に示した図である。左列がフレームN、右列がフレームN+α(α≧1)である。フレームNは絞り値aで撮影され、フレームN+αは絞り値b(b>a)で撮影されている。フレームNの方が開放に近い絞り値で撮影されているため、テクスチャ情報(フレーム画像データ)の画質はフレームN+αの方が高い。一方、基線長はフレームNの方が大きくなるため、3Dデータの距離分解能はフレームNの方が高い。
 キーフレーム評価処理において画像処理部14は、例えばGOPに含まれる全てのフレームの撮影時の絞り値に基づいて判定を行うことができる。画像処理部14は、例えば、撮影時の絞り値が最も大きいフレームをテクスチャ情報に最適なキーフレームと判定し、撮影時の絞り値が最も小さなフレームを3Dデータに最適なキーフレームと判定することができる。
 なお、撮影条件の複数の項目の1つ以上に基づく評価値をフレームごとに算出し、評価値が最も高いフレームを最適なキーフレームと判定してもよい。この場合、撮影条件の項目と評価値との関係は例えば以下のようにすることができる。
・絞り値
 上述の通り、絞り値が小さくなると3Dデータの距離分解能は高くなり、テクスチャ情報の解像度は低下する。そのため、絞り値が小さいほど3Dデータに関する評価値は高く、テクスチャ情報に関する評価値は低くすることができる。しかし、絞り値が閾値を超えると回折の影響で画像のコントラストが低下する。したがって、テクスチャ情報に関する評価値は、第1の絞り値<第2の絞り値<第3の絞り値(閾値)とすると、第1の絞り値から第3の絞り値に達するまでは絞り値の増加に応じて高くなり、第3の絞り値を超えると低くなる。第3の絞り値を超える場合の評価値は、固定値であっても、段階的に低くしてもよい。
・シャッタースピード
 シャッタースピードが遅いと手ブレや動体ブレが発生しやすくなる。そのため、シャッタースピードが閾値より遅い場合には、閾値より速い場合よりも3Dデータおよびテクスチャ情報に関する評価値をいずれも低くする。撮像光学系10の焦点距離が可変の場合、焦点距離が長くなるほど閾値を短くしてもよい。
・ISO感度
 ISO感度が高いと画像のノイズが多くなる。その結果、3Dデータの信頼性が低下する。そのため、ISO感度が閾値以上の場合には、閾値より速い場合よりも3Dデータおよびテクスチャ情報に関する評価値をいずれも低くする。
・撮影倍率(焦点距離と合焦距離との組み合わせ)
 撮影倍率が小さいと、3Dデータの距離分解能が低下する。またテクスチャ情報の解像度も低下する。そのため、撮影倍率が閾値以下の場合には、閾値より大きい場合よりも3Dデータおよびテクスチャ情報に関する評価値をいずれも低くする。撮影倍率は例えば撮像光学系10の焦点距離と合焦距離との組み合わせに応じて予め容易しておくことができる。あるいは、主被写体の領域が画面に占める割合と撮影場率とを対応付けてもよい。
 例えば主被写体がデジタルカメラ100に近づくシーン、もしくは遠ざかるシーンの3D動画の場合、撮影倍率が大きいほど、また合焦距離が短いほど、3Dデータおよびテクスチャ情報に関する評価値をいずれも高くする。
 なお、撮影情報以外の条件に基づいてキーフレームとして適切か否かの評価を行ってもよい。例えば、テクスチャ情報(フレーム画像データ)について、適正露出の領域と暗部とでキーフレームとしての評価を個別に行ってもよい。具体的には、評価の対象となる複数のフレームのうち、暗部の露出が最も適正露出に近いフレームを、暗部に対する評価値が最も高いフレームとする。明部についても同様に別個に評価することができる。
 評価値はOK/NG(または1/0)のように2値としてもよいし、3値以上であってもよい。あるいは、評価対象のフレームにおける順位に応じた値としてもよい。画像処理部14は、評価を行ったフレームに関連付けて、評価値をRAM20に保存する。
 S105で画像処理部14は、S104の評価処理の結果に基づいて、3Dデータのキーフレームと、テクスチャ情報のキーフレームとを選択する。画像処理部14は、例えば評価値が最も高いフレームをキーフレームとして選択することができる。フレームごとに複数の評価値が存在する場合には、評価値の合計が最も高いフレームをキーフレームとして選択することができる。なお、他の条件に基づいてキーフレームを選択してもよい。また、キーフレームはNGの評価値がないフレームから選択するようにしてもよい。テクスチャ情報のキーフレームを領域ごとに選択する場合も同様である。
 S106で画像処理部14は、S105で選択したキーフレームをIフレームとしたMPEG符号化により、GOP単位で3Dデータとテクスチャ情報とを別個に符号化する。GOP単位でIフレーム、Pフレーム、Bフレームを割り当て、PフレームおよびBフレームについてはフレーム間予測符号化するMPEG符号化方式は公知であるため、その詳細については説明を省略する。なお、Bフレームなしで、IフレームとPフレームを割り当ててMPEG符号化するようにしてもよい。
 画像処理部14は、S101からS106の処理を必要に応じて繰り返して実行することにより、3D動画データを符号化する。
 S107で画像処理部14は、符号化後の3Dデータおよびテクスチャ情報を含む3D動画データを格納した3D動画データファイルを記憶部15に順次記録する。
 なお、S101で記憶部15から3D動画データを読み出した場合、符号化後の3D動画データで置き換えてもよいし、符号化前の3D動画データを残しておいてもよい。また、符号化後の3D動画データを格納した3D動画データファイルを、通信部18を通じて外部装置に送信してもよい。
 ここで、外部装置は、S106において3Dデータとテクスチャ情報の符号化に用いられた符号化方式と対応する復号器を備える。復号器は、3D動画データファイルに格納された3D動画データの3Dデータとテクスチャ情報とを、それぞれに設定されたキーフレームを参照し、別個に復号する。そして、外部装置は、復号された3Dデータとテクスチャ情報の組み合わせをフレーム毎に生成し、各フレームをメモリに展開し、フレームの時系列に沿って読み出して表示再生を行う。これにより、画像に被写体として含まれる3D物体に立体感を与えながら動画を再生表示することができる。なお、3Dデータとテクスチャ情報が復号された後に、3Dデータとテクスチャ情報の組み合わせをフレーム毎に生成し、ファイルとして外部装置の記憶装置に記憶するようにしてもよい。
 本実施形態によれば、フレームごとに3Dデータとテクスチャ情報とを有する3D動画データを、フレーム間予測を用いて符号化する際、3Dデータ用のキーフレームとテクスチャ情報用のキーフレームとを別個に決定するようにした。これにより、3Dデータとテクスチャ情報とを最適なキーフレームを用いて符号化することができ、符号化による品質の低下を抑制しつつ、効率よくデータ量を削減することができる。
●(第2実施形態)
 次に、本発明の第2実施形態について説明する。本実施形態は3D動画データの圧縮処理以外は第1実施形態と同様であってよい。そのため、以下では圧縮処理について説明する。
 図9は、本実施形態における3D動画データの圧縮処理に関するフローチャートである。第1実施形態と同様の処理を行うステップには図7と同じ参照数字を付してある。本実施形態ではS104のキーフレーム評価処理の前に、3Dデータ分析処理を行うステップS201を有する。
 3Dデータ分析処理は、キーフレームの評価、選択をより適切に実行するために行う。3Dデータを視差画像から生成する場合、視差画像の全体が被写界深度に含まれることはまれであり、一般的にはボケた領域が含まれている。合焦度が高い領域は低い領域よりもコントラストが高いため、得られる3Dデータの距離分解能も高くなる。
 動画撮影中には合焦距離も経時的に変化しうるため、視差画像において合焦度が高い領域もまた経時的に変化しうる。そのため、3Dデータについても、領域ごとに距離分解能が高い3Dデータをキーフレームとして選択することができる。3Dデータは距離方向に分割してもよいし、距離および垂直方向に分割してもよい。分割前の3Dデータは1つの連続したオブジェクトでもよいし、複数のオブジェクトでもよい。
 図10は、対応するフレームにおけるテクスチャ情報と3Dデータを模式的に示した図である。左列がフレームN、中列がフレームN+α(α≧1)、右列がフレームN+β(β>α)である。
 フレームNおよびN+αは絞り値aで撮影され、フレームN+βは絞り値b(b>a)で撮影されている。また、フレームNでは物体の手前側に合焦しており、フレームN+αでは物体の奥側に合焦している。また、フレームN+βでは、フレームN+αの状態から絞り値が大きくなったことにより、テクスチャ情報全体が合焦するようになった状態を示している。
 3Dデータは距離分解能が高い部分を格子状のパターンで示している。フレームNでは物体の手前側の距離分解能が高く、フレームN+αでは物体の奥側の距離分解能が高い。フレームN+βでは絞り値が大きくなったことにより、物体の奥側の距離分解能が低下し、距離分解能の高い部分がなくなっている。
 3Dデータ分析処理において画像処理部14は、3Dデータを手前側と奥側に分割し、手前側についてはフレームN、奥側についてはフレームN+αの評価値を高くする。また、テクスチャ情報についてはフレームN+βの評価値を高くする。
 画像処理部14は、3Dデータをどのように分割したかの情報と、3Dデータの分割領域ごとの評価値と、テクスチャ情報についての評価値をRAM20に保存する。これらの情報および評価値は、S104におけるキーフレーム評価処理で決定された評価値とともに、S105のキーフレーム選択処理で考慮される。
 なお、S104でのキーフレーム評価処理において、3Dデータに対する評価値は求めなくてもよい。あるいは、3Dデータ分析処理で考慮されていない項目に関する評価値だけを求めるようにしてもよい。テクスチャ情報の評価値についても同様である。
 S105で画像処理部14は、3Dデータについてのキーフレームを、分割した領域ごとに選択する。テクスチャ情報についてのキーフレームは、第1実施形態と同様に選択することができる。
 S106において画像処理部14は、3Dデータを分割した領域ごとに符号化することをのぞき、第1実施形態と同様に処理する。
 本実施形態によれば、3Dデータに対してよりきめ細かくキーフレームを選択することができ、3Dデータの品質低下をさらに抑制しつつ、効果的にデータ量を削減することができる。
 なお、第1および第2実施形態で生成される符号化3D動画データは、公知の方法で復号することができる。復号された3Dデータはポリゴンメッシュに変換される。また、復号されたテクスチャ情報に基づいて、ポリゴンメッシュに基づく3Dモデルにテクスチャをマッピングすることができる。
(その他の実施形態)
 本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 本発明は上述した実施形態の内容に制限されず、発明の精神および範囲から離脱することなく様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。
 本願は、2022年9月6日提出の日本国特許出願特願2022-141517を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims (14)

  1.  フレームごとに3次元データとテクスチャ情報とを有する3次元動画データを取得する取得手段と、
     前記3次元動画データを、フレーム間予測を用いて符号化する符号化手段と、を有し、
     前記符号化手段は、
      前記3次元データと前記テクスチャ情報とを別個にフレーム間予測符号化し、
      各フレームのメタデータに基づき、前記3次元データをフレーム間予測符号化するためのキーフレームと、前記テクスチャ情報を符号化するためのキーフレームとを別個に選択する、
    ことを特徴とする画像処理装置。
  2.  前記フレームのメタデータは、フレームの撮影情報であり、
     前記符号化手段は、前記フレームの撮影情報に基づく、前記3次元データと前記テクスチャ情報とについての評価値に基づいて、前記キーフレームを選択することを特徴とする請求項1に記載の画像処理装置。
  3.  前記符号化手段は、フレームごとに、前記3次元データと前記テクスチャ情報とについての前記評価値を求め、前記評価値が最も高いフレームを前記キーフレームとして選択することを特徴とする請求項2に記載の画像処理装置。
  4.  前記撮影情報は撮影時のシャッタースピード、絞り値、ISO感度、合焦距離、撮像光学系の焦点距離の1つ以上を含むことを特徴とする請求項2または3に記載の画像処理装置。
  5.  前記撮影情報は撮影時の絞り値を含み、
     前記3次元データについての前記評価値は、前記撮影情報が第1の絞り値のとき、前記第1の絞り値より大きい第2の絞り値のときより高くなり、
     前記テクスチャ情報についての前記評価値は、前記撮影情報が前記第1の絞り値のときよりも、前記第2の絞り値のときに高くなる、
    ことを特徴とする請求項2から4のいずれか1項に記載の画像処理装置。
  6.  前記テクスチャ情報についての前記評価値は、前記撮影情報が前記第2の絞り値より大きな第3の絞り値を超えると低くなることを特徴とする請求項5に記載の画像処理装置。
  7.  前記テクスチャ情報は2次元動画のフレーム画像であり、
     前記符号化手段は、前記テクスチャ情報を符号化するためのキーフレームを、前記フレーム画像の領域ごとに選択する、
    ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。
  8.  前記符号化手段は、前記3次元データを複数の領域に分割し、前記3次元データを符号化するためのキーフレームを、前記3次元データの領域ごとに選択する、
    ことを特徴とする請求項1から7のいずれか1項に記載の画像処理装置。
  9.  前記符号化手段は、前記3次元データを、奥行き方向、水平方向、垂直方向の1つ以上に分割することを特徴とする請求項8に記載の画像処理装置。
  10.  前記3次元データはポリゴンデータであり、
     前記符号化手段は、前記ポリゴンデータを2次元構造化データに変換してから符号化する、
    ことを特徴とする請求項1から9のいずれか1項に記載の画像処理装置。
  11.  前記符号化手段は、前記キーフレームをIフレームとし、他のフレームをPフレームまたはBフレームとしてフレーム間予測符号化する
    ことを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。
  12.  1回の撮影で視差画像対を生成可能な撮像手段と、
     前記撮像手段で撮影された動画に基づいて、フレームごとに3次元データとテクスチャ情報とを有する3次元動画データを生成する生成手段と、
     前記生成手段が生成した前記3次元動画データを処理する、請求項1から10のいずれか1項に記載の画像処理装置と、
    を有することを特徴とする撮像装置。
  13.  画像処理装置が実行する画像処理方法であって、
     フレームごとに3次元データとテクスチャ情報とを有する3次元動画データを取得する取得工程と、
     前記3次元動画データを、フレーム間予測を用いて符号化する符号化工程と、を有し、
     前記符号化工程では、
      前記3次元データと前記テクスチャ情報とを別個にフレーム間予測符号化し、
      各フレームのメタデータに基づき、前記3次元データをフレーム間予測符号化するためのキーフレームと、前記テクスチャ情報を符号化するためのキーフレームとを別個に選択する、
    ことを特徴とする画像処理方法。
  14.  コンピュータを、請求項1から11のいずれか1項に記載の画像処理装置が有する各手段として機能させるためのプログラム。
PCT/JP2023/031637 2022-09-06 2023-08-30 画像処理装置および画像処理方法 WO2024053522A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-141517 2022-09-06
JP2022141517A JP2024036943A (ja) 2022-09-06 2022-09-06 画像処理装置および画像処理方法

Publications (1)

Publication Number Publication Date
WO2024053522A1 true WO2024053522A1 (ja) 2024-03-14

Family

ID=90191083

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/031637 WO2024053522A1 (ja) 2022-09-06 2023-08-30 画像処理装置および画像処理方法

Country Status (2)

Country Link
JP (1) JP2024036943A (ja)
WO (1) WO2024053522A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017103564A (ja) * 2015-11-30 2017-06-08 キヤノン株式会社 制御装置、制御方法、およびプログラム
WO2019107181A1 (ja) * 2017-12-01 2019-06-06 ソニー株式会社 送信装置、送信方法、および受信装置
US20200410752A1 (en) * 2019-06-25 2020-12-31 HypeVR Optimized volumetric video playback

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017103564A (ja) * 2015-11-30 2017-06-08 キヤノン株式会社 制御装置、制御方法、およびプログラム
WO2019107181A1 (ja) * 2017-12-01 2019-06-06 ソニー株式会社 送信装置、送信方法、および受信装置
US20200410752A1 (en) * 2019-06-25 2020-12-31 HypeVR Optimized volumetric video playback

Also Published As

Publication number Publication date
JP2024036943A (ja) 2024-03-18

Similar Documents

Publication Publication Date Title
JP5854984B2 (ja) 画像処理装置、撮像装置、制御方法、及びプログラム
JP6288952B2 (ja) 撮像装置およびその制御方法
JP6021541B2 (ja) 画像処理装置及び方法
JP5640143B2 (ja) 撮像装置及び撮像方法
JP5469258B2 (ja) 撮像装置および撮像方法
JP5517746B2 (ja) 画像処理装置およびその方法
US9282312B2 (en) Single-eye stereoscopic imaging device, correction method thereof, and recording medium thereof
JP5421829B2 (ja) 撮像装置
JP6800797B2 (ja) 撮像装置、画像処理装置、撮像装置の制御方法およびプログラム
US9369693B2 (en) Stereoscopic imaging device and shading correction method
JP5470458B2 (ja) 撮像装置、画像処理装置および画像処理方法
KR20170067634A (ko) 촬영 장치 및 촬영 장치를 이용한 초점 검출 방법
JP6095266B2 (ja) 画像処理装置及びその制御方法
CN107637067B (zh) 图像处理设备和图像处理方法
US20130083169A1 (en) Image capturing apparatus, image processing apparatus, image processing method and program
JP7142507B2 (ja) 画像処理装置および画像処理方法、ならびに撮像装置
JP2015171097A (ja) 画像処理装置及びその制御方法
JP5869839B2 (ja) 画像処理装置およびその制御方法
WO2024053522A1 (ja) 画像処理装置および画像処理方法
JP2023033355A (ja) 画像処理装置およびその制御方法
JP2013150071A (ja) 符号化装置、符号化方法、プログラム及び記憶媒体
JP2012124650A (ja) 撮像装置および撮像方法
JP7134601B2 (ja) 画像処理装置、画像処理方法、撮像装置及び撮像装置の制御方法
JP2013175805A (ja) 表示装置および撮像装置
JP6961423B2 (ja) 画像処理装置、撮像装置、画像処理装置の制御方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23863060

Country of ref document: EP

Kind code of ref document: A1