WO2019124248A1 - 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法 - Google Patents

画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法 Download PDF

Info

Publication number
WO2019124248A1
WO2019124248A1 PCT/JP2018/046100 JP2018046100W WO2019124248A1 WO 2019124248 A1 WO2019124248 A1 WO 2019124248A1 JP 2018046100 W JP2018046100 W JP 2018046100W WO 2019124248 A1 WO2019124248 A1 WO 2019124248A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
depth image
data
depth
unit
Prior art date
Application number
PCT/JP2018/046100
Other languages
English (en)
French (fr)
Inventor
征志 中田
松井 康範
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to EP18891483.2A priority Critical patent/EP3731528A4/en
Priority to US16/771,908 priority patent/US11503267B2/en
Publication of WO2019124248A1 publication Critical patent/WO2019124248A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture

Definitions

  • the present invention relates to an image processing apparatus that performs processing including compression of image data, a content processing apparatus that performs processing using image data, a content processing system including them, and an image processing method performed by them.
  • depth Information information on the distance from the imaging surface to the subject, so-called depth Information is becoming more important.
  • depth information it becomes possible to express a real object as a polygon, to display a stereoscopic image without discomfort even when the line of sight moves, and to realize a more realistic and immersive content.
  • the depth information is also important in realizing interaction with the user's action in the VR space and AR space, such as throwing a ball as a virtual object into a space represented as a video.
  • the immediacy is deteriorated or the image quality is deteriorated due to the limitation of the communication band It is possible to do.
  • it is attempted to transmit depth information using a communication band in which only color image data has conventionally been transmitted it is naturally necessary to take measures to reduce the resolution of the color image or to increase the compression rate. Is likely to deteriorate.
  • Such problems are likely to be manifested when using a large-scale network such as the Internet or when using wireless communication.
  • the present invention has been made in view of these problems, and an object thereof is to provide a technology capable of realizing highly accurate processing using measured depth information without increasing the size of data to be transmitted. .
  • the image processing apparatus includes a depth image acquisition unit for acquiring data of a depth image having pixel values of the distance measured by a camera for measuring the distance of the object, and a plurality of photographed images obtained by photographing the object from different viewpoints
  • a captured image acquisition unit for acquiring the data of the depth image
  • a depth image compression unit for compressing the data of the depth image using data of the plurality of captured images, data of the plurality of captured images, and data of the compressed depth image
  • an output unit for outputting.
  • the “image processing apparatus” refers to an information processing terminal, an information processing apparatus, a server that can perform image processing such as a server that can be connected to various apparatuses via a network, and integrated circuits that constitute a part of those apparatuses. Any one may be used.
  • the “image processing device” may be an imaging device or an integrated circuit that constitutes a part of it.
  • the content processing apparatus acquires data of a plurality of photographed images obtained by photographing the subject from different viewpoints, and data after compression of the depth image measured by the camera measuring the distance of the subject and having the distance as a pixel value.
  • a depth image expansion unit that expands data of the compressed depth image using data of a plurality of photographed images, and data of at least the expanded depth image
  • an output unit for outputting the signal.
  • the “content processing device” refers to a head mounted display, an information terminal, an information processing device, a server that can be connected to various devices via a network, an apparatus that processes content itself, and integrated circuits that form a part of those devices. It may be any of these.
  • the content processing system performs image processing for transmitting data of a depth image having a pixel value of the distance measured by a camera that measures the distance of the subject, and data of a plurality of photographed images obtained by photographing the subject from different viewpoints.
  • a content processing system that includes an apparatus and a content processing apparatus that performs information processing using data of depth images and data of captured images, and the image processing apparatus includes data of depth images as a plurality of captured images.
  • the content processing apparatus includes a depth image compression unit that compresses using data, an output unit that outputs data of a plurality of photographed images, and data of a depth image after compression, and the content processing apparatus calculates the data of the depth image after compression
  • a depth image expanding unit for expanding using data of a plurality of photographed images, and predetermined processing using data of the expanded depth image at least An output unit have to output the result, characterized by comprising a.
  • Yet another aspect of the present invention relates to an image processing method.
  • the image processing apparatus measures the distance of the subject, and the camera measures the distance to obtain depth image data with the pixel value, and a plurality of shootings obtained by shooting the subject from different viewpoints.
  • Another aspect of the present invention also relates to an image processing method.
  • the content processing apparatus performs compression on a plurality of photographed image data obtained by photographing a subject from different viewpoints, and a depth image measured by a camera that measures the distance of the subject and takes the distance as a pixel value.
  • the steps of acquiring data of the data, decompressing the data of the compressed depth image using the data of the plurality of photographed images, and performing predetermined processing using the data of the decompressed depth image at least And the step of outputting.
  • any combination of the above-described components, and one obtained by converting the expression of the present invention between a method, an apparatus, a system, a computer program, a recording medium recording a computer program, etc. are also effective as an embodiment of the present invention. .
  • FIG. 5 is a diagram showing the configuration and process flow of functional blocks of a depth image compression unit and a depth image expansion unit when adjusting the number of gradations of pixel values of the difference image shown in FIG. 4 as shown in FIG. 5 is there.
  • FIG. 1 shows a configuration example of a content processing system to which the present embodiment can be applied.
  • the content processing system 1 includes an imaging device 12 for capturing an image of an actual space, an image processing device 10 for converting a captured image into a form for processing and transmitting the image, and a content processing device 14 for performing predetermined information processing using the captured image transmitted , And a display device 16 that outputs the result of the information processing.
  • the image processing apparatus 10 and the content processing apparatus 14 establish communication via the network 8 as needed.
  • the image processing device 10 and the imaging device 12, and the content processing device 14 and the display device 16 may be connected by a wired cable, or may be wirelessly connected by a wireless local area network (LAN) or the like.
  • the image processing device 10 and the imaging device 12, and the content processing device 14 and the display device 16 may be integrated devices.
  • the image processing apparatus 10 and the imaging apparatus 12 may be combined to be an imaging apparatus having a transmission function to the network 8, or may be a server for distributing content data.
  • the content processing device 14 and the display device 16 may be combined to form a portable terminal or a head mounted display.
  • the network 8 connecting the image processing apparatus 10 and the content processing apparatus 14 may be a large scale network such as the Internet, or may be a local network such as a LAN established by wired or wireless.
  • the appearance shape and the connection form of the imaging device 12, the image processing device 10, the content processing device 14, and the display device 16 are not limited to those illustrated.
  • the imaging device 12 includes a stereo camera 18 that captures an object space at a predetermined frame rate, and a depth camera 19 that acquires information on the distance to an object in the same object space at a predetermined frame rate.
  • the stereo camera 18 is a video camera including an imaging device such as a complementary metal oxide semiconductor (CMOS) sensor and an image processing mechanism that performs demosaicing, lens distortion correction, color correction, etc. on output data thereof to generate data of a captured image.
  • CMOS complementary metal oxide semiconductor
  • the depth camera 19 is composed of a mechanism that irradiates reference light such as near infrared light to the subject space, and a CMOS sensor that detects the reflected light, and the subject due to the time from irradiation to detection, distortion of the reflected light distribution, etc. Deriving the distance to The former method is a technique generally known as a ToF (Time of Flight) method and the latter method is a pattern irradiation method.
  • the configuration of the depth camera and the method of deriving the distance are not limited to this.
  • the imaging device 12 supplies, to the image processing device 10, a stereo image consisting of a pair of color images taken from the left and right viewpoints and data of a corresponding depth image at a predetermined rate.
  • the depth image is an image representing a distance value as a pixel value of an image of a subject.
  • the imaging device 12 in the same figure arranges the sensor of the depth camera 19 in the middle of the sensors of the stereo camera 18, the arrangement and the number of each sensor are not limited to this.
  • the depth camera may be disposed close to the stereo camera for capturing a color image as a stereo camera for capturing from the left and right viewpoints, or the stereo camera for capturing a color image may be a camera for capturing a depth image It may double as well.
  • stereo image a pair of general captured images that are not depth images is referred to as "stereo image”.
  • the image processing apparatus 10 compresses the data of the image supplied from the imaging apparatus 12 into a transmission form, and transmits the data to the content processing apparatus 14 at a predetermined rate. Specifically, the data size of the depth image is reduced by using the redundancy of the stereo image and the depth image. For example, a depth image is obtained by calculation using a stereo image, and a difference image with the depth image which is a result of measurement by the depth camera is used as data of compressed depth information.
  • the content processing apparatus 14 restores the depth image by decompressing the compressed depth information among the data thus transmitted. That is, when the above-mentioned difference image is transmitted as depth information, a depth image is obtained by calculation using a stereo image, and the measured depth image is restored by adding to the difference image.
  • the content processing apparatus 14 performs information processing using the restored depth image and stereo image, and generates output data such as a display image and sound.
  • the content of the output data is not particularly limited, and may vary depending on the function requested by the user to the system, the content of the application activated, and the like.
  • the content processing apparatus 14 connects images so that stereo images are displayed in the left and right areas of the display device 16, and draws a virtual object that interacts with the subject based on the distance value represented by the depth image.
  • the motion of the subject in the real space may be acquired from the depth image, and the game may be progressed by converting it into a command input to generate the game screen.
  • the display device 16 includes a display such as liquid crystal, plasma, or organic EL that outputs an image, and a speaker that outputs an audio, and outputs the output data supplied from the content processing device 14 as an image or an audio.
  • the display device 16 may be a television receiver, various monitors, a display screen of a portable terminal, an electronic finder of a camera, or the like, or a head mounted display mounted on the head of a user and displaying an image in front of the eye.
  • corresponding points of the same image in a stereo image are obtained by block matching or the like, and a distance is derived from the amount of shift in the horizontal direction according to the principle of triangulation.
  • the resolution of the depth image is low because the correspondence between both images is a block unit.
  • the matching accuracy that is, the accuracy of the depth image largely fluctuates.
  • the accuracy of the information processing can be maintained high. Also, by realizing data compression using stereo images and the like that are simultaneously transmitted, it is possible to suppress the bandwidth required for transmission of depth images. As a result, many bands can be used for transmission of color stereo images, so that high-accuracy processing can be realized without degrading the image quality.
  • FIG. 2 shows the internal circuit configuration of the image processing apparatus 10.
  • the image processing apparatus 10 includes a central processing unit (CPU) 23, a graphics processing unit (GPU) 24, and a main memory 26. These units are connected to one another via a bus 30.
  • An input / output interface 28 is further connected to the bus 30.
  • the I / O interface 28 outputs data to a peripheral device interface such as USB or IEEE 1394, a communication unit 32 including a wired or wireless LAN network interface, a storage unit 34 such as a hard disk drive or nonvolatile memory, or an external device.
  • An output unit 36, an input unit 38 for inputting data from an imaging device 12 or an input device (not shown), and a recording medium drive unit 40 for driving a removable recording medium such as a magnetic disk, an optical disk or a semiconductor memory are connected.
  • the CPU 23 controls the entire image processing apparatus 10 by executing the operating system stored in the storage unit 34.
  • the CPU 23 also executes various programs read from the removable recording medium and loaded into the main memory 26 or downloaded via the communication unit 32.
  • the GPU 24 has a function of a geometry engine and a function of a rendering processor, performs drawing processing according to a drawing command from the CPU 23, and outputs the drawing processing to the output unit 36.
  • the main memory 26 is configured by a RAM (Random Access Memory), and stores programs and data necessary for processing.
  • the internal circuit configuration of the content processing apparatus 14 may be the same as this.
  • FIG. 3 shows the configuration of functional blocks of the image processing apparatus 10 and the content processing apparatus 14.
  • Each functional block shown in the figure can be realized by the various circuits shown in FIG. 2 in terms of hardware, and in terms of software, an image analysis function, an information processing function, an image loaded into the main memory from a recording medium It is realized by a program that exhibits various functions such as a drawing function and a data input / output function. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any of them.
  • the image processing apparatus 10 includes a stereo image acquisition unit 50 for acquiring stereo image data from the imaging device 12, a depth image acquisition unit 52 for acquiring depth image data, and a depth image for compressing depth image data using a stereo image A compression unit 54 and an output unit 56 for outputting data of a stereo image and a depth image after compression are included.
  • the stereo image acquisition unit 50 and the depth image acquisition unit 52 are all realized by the input unit 38, the CPU 23, the main memory 26 and the like of FIG. 2, and the former is stereo image data and the latter is depth image data. It acquires one by one at a predetermined frame rate from 12.
  • the stereo image acquiring unit 50 constitutes a photographed image acquiring unit that acquires data of a plurality of photographed images formed by photographing an object from different viewpoints.
  • the stereo image acquisition unit 50 and the depth image acquisition unit 52 may each acquire data in a stream format sequentially from the row in which exposure has been completed in the imaging device 12.
  • the depth image compression unit 54 is realized by the CPU 23, the GPU 24, the main memory 26 and the like of FIG. 2, and compresses the data size of the depth image. Specifically, as described above, the difference image between the depth image obtained by calculation using the stereo image and the depth image acquired by the depth image acquisition unit 52 is generated.
  • the depth image compression unit 54 may change the number of gradations per unit distance of data representing the distance value according to the distance to the subject, and may perform quantization.
  • the depth image compression unit 54 may extract the image of the subject in any of the stereo images, and assign an appropriate number of gradations according to the distance range for each subject.
  • the depth image compression unit 54 may adjust the number of gradations according to the distance on the difference image between the depth image obtained by calculation using the stereo image and the measured depth image.
  • the difference image, the image in which the number of gradations per unit distance has been adjusted, and the data accompanying the same are collectively referred to as “a compressed depth image”.
  • the output unit 56 is realized by the CPU 23, the main memory 26, the communication unit 32, and the like in FIG. 2, and the data of the stereo image acquired by the stereo image acquisition unit 50 and the compressed depth image generated by the depth image compression unit 54. Output data.
  • the output destination may be the content processing apparatus 14 or a recording medium readable by the content processing apparatus 14. Alternatively, it may be temporarily stored in the storage unit 34 of the image processing apparatus 10 and may be transmitted in response to a request from the content processing apparatus 14.
  • the output unit 56 may compress and encode data to be output according to a general method, or may packetize the data.
  • the content processing device 14 obtains an image data acquisition unit 60 that acquires stereo image data and compressed depth image data, a depth image expansion unit 62 that expands compressed depth image data, and predetermined data using stereo image and depth image data. And an output unit 66 for outputting data of a display image and sound generated as a result of the information processing.
  • the image data acquisition unit 60 is realized by the communication unit 32, the CPU 23, the main memory 26 and the like in FIG. 2, and sequentially acquires stereo image data and compressed depth image data from the image processing apparatus 10 at a predetermined frame rate.
  • the image data acquisition unit 60 sequentially reads those image data by the recording medium drive unit 40. Even when a recording medium is used, the data size stored in the present embodiment can be reduced.
  • the image data acquisition part 60 returns it to two-dimensional image data by decoding it.
  • the depth image expanding unit 62 is realized by the CPU 23, the GPU 24, the main memory 26, and the like in FIG. 2, and expands the compressed depth image to generate an original depth image.
  • the contents of the decompression processing are basically processing that follows the compression processing performed by the depth image compression unit 54 in the image processing apparatus 10 in reverse. A specific example will be described later.
  • the information processing unit 64 is realized by the CPU 23, the GPU 24, the main memory 26, and the like in FIG. 2, and performs predetermined information processing using a stereo image and a decompressed depth image to generate output data. As described above, the content of the process performed by the information processing unit 64 is not particularly limited.
  • the output unit 66 is realized by the CPU 23, the main memory 26, the output unit 36 and the like of FIG. 2, and outputs output data such as a display image generated in this manner to the display device 16.
  • the depth image expanding unit 62 of the content processing apparatus 14 may be an image data expanding apparatus independent of an apparatus that performs processing related to a game or display.
  • FIG. 4 shows a depth image compression unit 54 in the case of using a difference image between a depth image obtained by calculation using a stereo image and a depth image measured by a depth camera.
  • the configuration of the functional blocks of the depth image decompression unit 62 and the flow of processing are shown.
  • the depth image compression unit 54a in the image processing apparatus 10 in this case includes a depth image calculation unit 70 and a difference image acquisition unit 72.
  • the depth image calculation unit 70 uses the stereo image 80 as input data, and generates a depth image by calculation.
  • stereo matching determines corresponding points of both, and the distance to the subject is derived from the parallax of the two based on the principle of triangulation.
  • a reference block is set to one image of a stereo image, and a block having a high degree of similarity in the other image is searched in the horizontal direction.
  • a depth value at a corresponding viewpoint is generated by calculating a distance value based on the parallax obtained as a result and mapping the reference block to the set image.
  • the difference image acquisition unit 72 uses the depth image 82 captured by the depth camera and the depth image generated by the depth image calculation unit 70 as input data, and generates a difference image 84 representing the difference between the pixel values of the two.
  • the difference image acquisition unit 72 can be actually realized by a circuit similar to that for acquiring a difference between frames of a moving image, which is used in the conventional technique of differential pulse code modulation (DPCM). The same applies to the difference image acquisition unit 72 in the following figures.
  • the image processing apparatus 10 outputs the differential image 84 generated in this manner as a compressed depth image together with the data of the stereo image 80.
  • the depth image expanding unit 62 a of the content processing apparatus 14 includes a depth image calculating unit 74 and a difference image adding unit 76.
  • the depth image calculation unit 74 uses the stereo image 80 as input data, and generates a depth image by calculation. This process is the same as the process performed by the depth image computing unit 70 in the depth image compression unit 54 a of the image processing apparatus 10.
  • the difference image addition unit 76 takes the difference image 84, which is a compressed depth image, and the depth image generated by the depth image calculation unit 74 as input data, adds the pixel values of both, and the depth measured by the imaging device 12 A depth image 86 equivalent to the image 82 is generated.
  • the difference image addition unit 76 can be actually realized by a circuit similar to the circuit that decodes a moving image frame in the above-described difference pulse code modulation. The same applies to the difference image adding unit 76 in the following figures.
  • the depth images generated by the depth image calculation units 70 and 74 by the above-described method have a lower resolution than the stereo image used for the calculation, and the accuracy is likely to vary depending on the degree of the feature points on the object surface.
  • the difference image 84 with the depth image 82 measured by the depth camera compensates for such a reduction in resolution and accuracy.
  • the difference image 84 as a transmission target, it is possible to transmit information equivalent to the depth image 82 with a data size smaller than the actually measured depth image 82.
  • the size and resolution of the stereo image 80, depth image 82 and difference image 84 may be set independently. If the size (resolution) of the image used for the generation and addition of the difference image is different, the pixels at the same position may be calculated after enlargement and reduction appropriately by the existing interpolation technique. Further, in the imaging device 12, the depth camera 82 may be a stereo image from the left and right viewpoints by configuring the depth camera also as a stereo camera.
  • the difference image 84 may also be a stereo image from the left and right viewpoints by calculating the difference between one depth image generated by the depth image operation unit 70 by the calculation and each of the depth images of the left and right viewpoints. That is, the depth image compression unit 54a generates the difference image 84 for each of the plurality of depth images.
  • the depth image compression unit 54a By measuring the depth images of the left and right viewpoints, even if it is a blind spot from one viewpoint, the distance is found from the other viewpoint, and high-accuracy information processing is performed using a wider range of distance information in the real world. Can do Even in such a mode, it is possible to suppress an increase in the size of transmission data by compressing both depth images into a difference image.
  • the depth image compression unit 54a converts one depth image based on parallax into two depth images from the viewpoint when the depth image to be compressed is actually measured, and then the difference from the depth image to be compressed.
  • the difference stereo image can be generated by calculating the depth images of the corresponding viewpoints.
  • the method of shifting the image in the depth image obtained by the calculation so as to be viewed from the viewpoint of the depth camera is the number and position of the depth cameras if the positional relationship between the stereo camera and the depth camera is known. It is applicable regardless of.
  • a general computer graphics technique can be applied to a method of generating an image from different viewpoints based on distance information of an object.
  • FIG. 5 shows depth image compression unit 54 and depth image expansion unit 62 in the case of changing the number of gradations of the distance value which is the pixel value of the depth image according to the distance of the object. Shows the configuration of the functional blocks and the flow of processing.
  • the depth image compression unit 54b in the image processing apparatus 10 in this case includes a subject recognition unit 90 and a gradation assignment unit 92.
  • the subject recognition unit 90 uses at least one of the stereo images 100 to recognize a subject appearing as an image.
  • the subject recognition unit 90 specifies an area of the image of the subject by, for example, extracting an outline in the image 100 using an edge extraction filter.
  • a face, a tree, and other background areas are identified from the image 100.
  • segmentation techniques for separating an area of an image of a subject in an image, and any one of them may be adopted in the present embodiment.
  • face recognition technology may be introduced to the face area, or template matching may be introduced to a subject of known shape.
  • object tracking from the previous image frame may be performed using a technique such as optical flow.
  • both of the actually measured depth image 102 and stereo image may be used as appropriate.
  • the object recognition by the object recognition unit 90 aims to assign the number of gradations of the pixel value of the depth image according to the distance, so it is not necessary to strictly separate the images of all the objects. For example, when a plurality of subjects are in contact, it is not necessary to distinguish between the two.
  • the gradation assigning unit 92 is a unit distance of a distance value represented as a pixel value of the depth image based on the depth image 102 captured by the depth camera and the area of the image of each subject recognized by the subject recognition unit 90.
  • the number of tonality levels is determined for each subject.
  • the accuracy of the depth information is determined for objects closer to the imaging device. That is, even in the real world, the movement amount on the image becomes larger as it is closer to the imaging device, even if the movement amount is the same. In a general environment, a main object such as a user is likely to be closer to the imaging device than other objects.
  • the gradation assigning unit 92 assigns a greater number of tones to the closer subject, and quantizes the pixel value of the depth image 102. For example, with respect to the bit depth representing the pixel value of the depth image, the number of bits is 50% for the pixel value of the face image, 30% for the pixel value of the tree behind, and 20% for other parts. assign. Such assignment naturally changes also with the number of subjects with different distances.
  • the gradation assigning unit 92 assigns the appropriate number of gradations to each object and quantizes the depth image 104 and the correspondence information 106 of the pixel values before and after quantization as data of the compressed depth image.
  • the image processing apparatus 10 outputs the data of the compressed depth image and the data of the stereo image.
  • the depth image expanding unit 62 b of the content processing apparatus 14 includes a depth value acquiring unit 96.
  • the depth value acquisition unit 96 uses, as input data, the data of the compressed depth image, that is, the depth image 104 in which the number of gradations has been adjusted according to the distance, and the correspondence information 106 of pixel values before and after quantization.
  • the depth image 108 is restored. That is, data of pixel values having different resolutions depending on the distance, which are represented in the depth image 104 transmitted from the image processing apparatus 10, are converted into data in the uniform resolved brain. For conversion, correspondence information 106 of pixel values before and after quantization is used.
  • FIG. 6 is a diagram for explaining correspondence information of pixel values before and after quantization, which is used to expand a depth image.
  • the example shown in (a) shows a change in the distance after quantization with respect to the actually measured distance in the case of assigning the gradation number based on the distance of the subject recognized as described above.
  • the values after quantization are discrete, they are schematically shown as continuous values in FIG. Moreover, it is not the meaning which limits the format of corresponding information with the same graph. That is, as long as the content processing apparatus 14 can obtain the value before quantization from the value after quantization, the data format such as a function or a lookup table is not limited.
  • the distance after quantization is determined so as to be directly proportional to the value of the actual measurement distance, as indicated by a change 180 indicated by an alternate long and short dash line in (a).
  • a change 180 indicated by an alternate long and short dash line in (a) As indicated by a change 182 indicated by a solid line, more gradations are allocated to the distance range in which the subject is present, and more gradations are allocated as the distance from the imaging device 12 decreases.
  • the number of gradations A, B, and C are respectively set in the distance range of the face closest to the imaging device side, the distance range of the tree behind it, and the distance range such as the wall behind it. Assign C such that A> B> C.
  • a predetermined number of gradations smaller than the number of gradations C is assigned to the distance range between objects (distance range in which no object exists). This is because the importance of the division of the distance between the objects is low as compared with the unevenness of the object surface and the distance between the objects.
  • the “distance range” may be a range of distance actually appearing as a pixel value of an image of a subject in a depth image, or may be set in advance for each type of subject in consideration of thickness and the like.
  • the ratio of the gradation numbers A, B and C is determined, for example, by the reciprocal of the average distance for each subject.
  • the determination range of the distance range of the subject and the number of gradations to be assigned is not limited to this.
  • the gradation assigning unit 92 of the image processing apparatus 10 determines the number of gradations A, B, and C to be assigned according to the recognition result of the object and the distance range, the distance values before and after quantization are uniquely corresponded as illustrated. Information can be generated.
  • the depth value acquisition unit 96 of the content processing apparatus 14 refers to the information and acquires the measured distance from the distance after quantization represented by the transmitted depth image, thereby being equivalent to the original depth image. Can generate an image.
  • (B) of FIG. 6 shows an example of the change in the case where the change in the distance after the quantization to the measured distance is fixed regardless of the presence of the subject and the distance as a modification of (a). ing. Also in this case, qualitatively, as the distance is closer, more gradations are allocated, but by changing the distance after quantization in a curved shape with respect to the measured distance, it depends on the position and the number of objects. It is made to be applicable. In this way, even if there is no subject in the vicinity of the imaging device, many gradations may be uniformly assigned, but the processing of the subject recognition unit 90 can be omitted. Therefore, the processing speed can be increased while maintaining the accuracy depending on the shooting environment and the content of the information processing, such as a game where the user is often in front of the imaging apparatus.
  • FIG. 7 shows the depth image compression unit 54 and the depth in the case where the number of gradations of the pixel values of the difference image shown in FIG. 4 is adjusted as shown in FIG.
  • the configuration and processing flow of functional blocks of the image decompression unit 62 are shown.
  • the depth image compression unit 54c in the image processing apparatus 10 in this case includes a depth image calculation unit 70, a difference image acquisition unit 72, and a gradation assignment unit 92.
  • the depth image calculation unit 70 and the difference image acquisition unit 72 have the same functions as the depth image calculation unit 70 and the difference image acquisition unit 72 shown in FIG. 4.
  • the depth image calculation unit 70 calculates a depth image from the stereo image 112 by calculation
  • the difference image acquisition unit 72 generates a difference image between the actually measured depth image 114 and the depth image calculated by calculation.
  • the gradation allocation unit 92 has the same function as the gradation allocation unit 92 shown in FIG. 5, but sets the difference image generated by the difference image acquisition unit 72 as a processing target. Also in the difference between the measured depth image and the depth image obtained by calculation from the stereo image, the closer the distance from the imaging device 12 is to the subject, the more easily the accuracy affects the accuracy of the information processing.
  • the processing accuracy for the main object can be improved by assigning more gradation numbers to objects closer in distance, or the bit depth of pixel values can be reduced and the data size of the difference image can be further compressed.
  • the image processing apparatus 10 outputs the difference image 116 whose gradation has been adjusted and the correspondence information 118 of pixel values before and after quantization as data of the depth image after compression, together with the data of the stereo image 112.
  • the depth image expanding unit 62 c of the content processing apparatus 14 includes a depth image calculating unit 74, a difference value acquiring unit 110, and a difference image adding unit 76.
  • the depth image calculation unit 74 and the difference image addition unit 76 have the same functions as the depth image calculation unit 74 and the difference image addition unit 76 shown in FIG. 4. That is, the depth image calculation unit 74 calculates the depth image from the stereo image 112 by calculation, and the difference image addition unit 76 generates the original depth image 119 by adding the depth image and the difference image.
  • the difference value acquisition unit 110 has a function similar to that of the depth value acquisition unit 96 shown in FIG. 5, but sets a difference image whose number of gradations per unit difference is adjusted as a processing target. That is, referring to the correspondence information 118 of pixel values before and after quantization, an actual difference value is obtained for each pixel from the difference value after quantization represented by the difference image 116. By inputting the difference image restored by this to the difference image adding unit 76, the original depth image 119 can be generated as shown in FIG. In the example shown in FIG. 7, the correspondence information 118 of the pixel values before and after quantization is shown as (b) in FIG. 6, but of course it may be as shown in (a). In this case, the object recognition unit 90 may be provided in the depth image compression unit 54c.
  • FIG. 8 shows functional blocks in the case where the depth image compression unit 54 and the depth image expansion unit 62 use the data that can be acquired from the server to compress / expand the depth image.
  • the depth image providing server 120 is connected to the network 8.
  • the depth image providing server 120 has a function of generating and returning a corresponding depth image from the captured image transmitted via the network.
  • the depth image providing server 120 generates a depth image based on the photographed image transmitted from the image processing device 10 and the content processing device 14 and sends it back to the transmission source.
  • the imaging device 12 can also be configured of a monocular color image capturing camera and a depth camera in some cases. However, this is not the case when using stereo images for display.
  • the depth image compression unit 54 d of the image processing apparatus 10 includes a depth image acquisition unit 122 and a difference image acquisition unit 72.
  • the depth image acquisition unit 122 transmits the data of the captured image acquired from the imaging device 12 to the depth image providing server 120, and acquires the returned depth image in response thereto.
  • the difference image acquisition unit 72 has the same function as the difference image acquisition unit 72 shown in FIG. 4 and generates a difference image 128 between the actually measured depth image 126 and the depth image transmitted from the depth image providing server 120. Do. Also in this embodiment, the gradation assigning unit 92 shown in FIG. 7 may be introduced to adjust the number of gradations of the difference image according to the distance of the subject.
  • the image processing apparatus 10 outputs the data of the compressed depth image and the data of the color photographed image.
  • the depth image expanding unit 62 d of the content processing apparatus 14 includes a depth image acquiring unit 130 and a difference image adding unit 76.
  • the depth image acquisition unit 130 transmits data of a color captured image to the depth image providing server 120, and acquires the returned depth image in response thereto.
  • the difference image addition unit 76 has the same function as the difference image addition unit 76 shown in FIG. 4. That is, the difference image addition unit 76 generates the original depth image 132 by adding the depth image transmitted from the depth image providing server 120 and the difference image 128 transmitted from the image processing apparatus 10.
  • the function of the difference value acquisition unit 110 shown in FIG. 7 is introduced to the depth image expansion unit 62d.
  • FIG. 9 shows the configuration and processing flow of functional blocks of the depth image expanding unit 62 of the content processing apparatus 14 in a mode in which the frame rate of the depth image is made lower than that of the stereo image.
  • the image processing apparatus 10 transmits, to the content processing apparatus 14, data of stereo images at a predetermined frame rate, and transmits data of compressed depth images at a lower frame rate.
  • the difference image with the calculated depth image is assumed as the data of the compressed depth image in the same figure, it may be data in which the number of gradations of the depth image or the difference image is adjusted according to the distance of the subject.
  • the depth image expanding unit 62 e includes a depth image calculating unit 74, a difference image adding unit 76, a motion acquiring unit 140, and an interpolating unit 142.
  • the depth image calculation unit 74 and the difference image addition unit 76 have the same functions as the depth image calculation unit 74 and the difference image addition unit 76 shown in FIG. 4. That is, the depth image calculation unit 74 calculates the depth image from the stereo image 144 by calculation, and the difference image addition unit 76 generates the original depth image by adding the depth image and the difference image 146. However, the depth image calculation unit 74 may obtain the depth image only for the image frame of the time corresponding to the difference image 146. For example, in the case where the frame rate of the difference image 146 is 1 ⁇ 2 that of the stereo image, the depth image computing unit 74 obtains a depth image using stereo images at every other frame.
  • the difference image addition unit 76 adds the difference image 146 to the difference image 146, whereby the original depth image can be obtained at the same frame rate as the difference image 146.
  • the motion acquisition unit 140 acquires the motion vector of the subject by taking the inter-frame difference of one of the stereo images 144.
  • the method of acquiring the motion vector of the subject in the moving image is a general technique.
  • the interpolation unit 142 predicts the motion up to the next time step using the motion vector in the past, and applies the depth image at the low frame rate generated by the difference image addition unit 76 on the time axis. Interpolate the depth image with.
  • the frame rates of the stereo image and the depth image can be set independently, it is possible to select the optimum frame rate for each taking into consideration the difference between the imaging principles of the cameras that capture each image, and improve the image quality of both. it can.
  • the imaging timing of a stereo image and a depth image does not correspond by setting a frame rate independently, a difference image is produced using the stereo image imaged at the timing nearest to the imaging timing of a depth image, or a depth image You may restore it.
  • the depth image computing unit 74 may generate depth images for all image frames of the stereo image 144 in order to acquire motion vectors. That is, the motion acquisition unit 140 obtains a motion vector by taking the inter-frame difference of the depth image obtained by calculation instead of the stereo image. Also in this case, the processing of the interpolation unit 142 is the same as described above.
  • an image processing apparatus that sends out data uses the depth image obtained by calculation from the stereo image. And compress the data of the measured depth image.
  • the content processing apparatus that has acquired the compressed data restores the actually measured depth image using the depth image obtained by calculation from the stereo image. Since the depth image obtained by the calculation and the actually measured depth image have high similarity, the difference image can be represented by a significantly smaller number of gradations than the original pixel value.
  • the number of gradations representing the pixel value of the depth image or the difference image is adjusted according to the distance of the subject indicated by the measured depth image.
  • the size of transmission data can be further reduced by transmitting compressed depth images at a lower frame rate than stereo images and using interpolation for motion compensation using stereo images at the stage of information processing.
  • the imaging device 12 is configured to include a pair of stereo cameras and a depth camera, but the configuration of the imaging device is not limited as long as stereo images and depth images can be captured at the same time. Further, as long as the depth image can be generated by at least the calculation, the image photographed with the depth image is not limited to the stereo image and the color image.
  • FIG. 10 schematically shows an overhead view of an imaging device in a modification.
  • the imaging device 150 has a configuration in which a plurality of video cameras (for example, video cameras 152) are annularly connected so that the optical axis is radial in a horizontal plane parallel to the drawing. At the time of operation, the imaging device 150 is pivoted in a predetermined direction (for example, the direction of the arrow) on a horizontal plane around the center of the ring. In the drawing, the drive mechanism for turning is not shown. With such a configuration, it is possible to fit all the objects at 360 ° around each time within the field of view of any camera, and even for objects in areas where the fields of view do not overlap, slight time deviations Can be put into the field of view of the following camera.
  • a predetermined direction for example, the direction of the arrow
  • the depth image can be compressed as in the present embodiment. Images can be transmitted while suppressing the increase in data size.
  • the number of cameras constituting the imaging device can be reduced.
  • images from different viewpoints may be captured by moving one camera, and two images captured before and after in time may be used as a stereo image at an average time.
  • FIG. 11 shows the element structure of the imaging device in another modification.
  • the figure schematically shows the functional structure of the element cross section, and detailed structures such as interlayer insulating films and wirings are omitted. Further, in the drawing, the cross-sectional structure of two adjacent pixels is illustrated.
  • the pixel 210 includes a microlens layer 212, a color filter layer 214, a polarizer layer 216, and a photoelectric conversion layer 218.
  • the microlens layer 212 is provided for each pixel and condenses incident light.
  • the color filter layer 214 transmits light of a different color for each pixel.
  • the polarizer layer 216 includes a wire grid type polarizer in which a plurality of linear conductor members, for example, members (wires) such as tungsten and aluminum are arranged in stripes at intervals smaller than the wavelength of incident light.
  • Polarized luminance is obtained by converting the transmitted polarization component into charge in the photoelectric conversion layer 218.
  • An image acquisition technique using a wire grid type polarizer as illustrated is disclosed, for example, in Japanese Patent Application Laid-Open No. 2012-80065 and the like.
  • the polarizer is not limited to the wire grid type, and may be any practical one such as a linear dichroism polarizer.
  • a cross section of the wire extending in the depth direction of the drawing is shown as a polarizer, but the principal axis angle of the polarizer is four, and the direction of the wire is different accordingly.
  • the polarizer layer 216 may have regions with and without a polarizer depending on the pixel. In a region where a polarizer is not provided, light transmitted through the color filter layer 214 is incident on the photoelectric conversion layer 218 as it is.
  • the photoelectric conversion layer 218 includes a general photodiode and outputs incident light as a charge. By providing a plurality of photodiodes for one microlens as shown, light transmitted through different regions of the focusing lens is separately converted into charges.
  • a technique for performing focus detection based on the phase difference of light detected in this manner is put to practical use as a method of phase difference autofocus (see, for example, Japanese Patent Application Laid-Open No. 2013-106194).
  • the luminance of one pixel in a general imaging device can be obtained. That is, according to the element structure of the pixel shown in FIG. 11, it is possible to simultaneously obtain a general color image, polarization images of a plurality of azimuths, and a phase difference image.
  • the phase difference image is a pair of images in which only one of the detection values of two photodiodes provided for each pixel is a pixel.
  • the displacement amount of the position of the image in the phase difference image is 0 at the focal length, and becomes larger as the distance from the focal length is increased.
  • the direction of shift is reversed if it is farther or closer than the focal length.
  • the image processing apparatus can acquire the distance of the subject from the amount of image shift in the phase difference image using this relationship.
  • the shift amount can be specified, the distance can be obtained only to the portion where the feature point such as the outline of the object exists. Therefore, if the normal vector of the surface of the subject is acquired by the existing method using polarized images of a plurality of azimuths, and the distance value is interpolated based on the inclination of the surface obtained from the result, the distance value of the entire subject can be obtained.
  • a stereo camera is acquired by introducing a general camera separately from the camera having the element structure as shown and taking it from different viewpoints. May be Alternatively, stereo images may be acquired by a plurality of cameras having element structures as illustrated. In this case, the imaging device may have a structure as shown in FIG.
  • one camera having an element structure as illustrated is moved to acquire a stereo image, or a depth image is acquired from one color image using the depth image providing server 120 shown in FIG. May be In any case, the same effects can be obtained by applying the image processing apparatus and the content processing apparatus described in the present embodiment.
  • 1 content processing system 10 image processing devices, 12 imaging devices, 14 content processing devices, 16 display devices, 18 stereo cameras, 19 depth cameras, 23 CPUs, 24 GPUs, 26 main memory, 32 communication units, 34 storage units, 36 Output unit, 38 input unit, 40 recording medium drive unit, 50 stereo image acquisition unit, 52 depth image acquisition unit, 54 depth image compression unit, 56 output unit, 60 image data acquisition unit, 62 depth image decompression unit, 64 information processing Part, 66 output part.
  • the present invention is applicable to various devices such as an imaging device, a head mount display, a sensor, an image processing device, a content reproduction device, and a system including the same.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Studio Devices (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

画像処理装置のデプス画像圧縮部54aにおいて、デプス画像演算部70は撮影されたステレオ画像80を用いて演算によりデプス画像を生成する。差分画像取得部72は、実測されたデプス画像82と演算されたデプス画像との差分画像84を生成する。コンテンツ処理装置のデプス画像伸張部62aにおいて、デプス画像演算部74は送信されたステレオ画像80を用いて演算によりデプス画像を生成する。差分画像加算部76は、送信された差分画像84に演算されたデプス画像を加算してデプス画像86を復元する。

Description

画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
 本発明は、画像データの圧縮を含む処理を行う画像処理装置、画像データを利用した処理を行うコンテンツ処理装置、それらを含むコンテンツ処理システム、および、それらでなされる画像処理方法に関する。
 VR(Virtual Reality: 仮想現実)やAR(Augmented Reality: 拡張現実)の技術の発展に伴い、立体視を実現するステレオ画像などのカラー画像に加え、撮像面から被写体までの距離の情報、いわゆるデプス情報が重要視されるようになってきた。デプス情報により、実物体をポリゴンで表現したり、視線が動いても違和感のない立体映像を表示したりできるようになり、より臨場感、没入感のあるコンテンツを実現できる。またデプス情報は、映像として表された空間に仮想オブジェクトとしてのボールを投げ込むなど、VR空間、AR空間でのユーザの行動に対するインタラクションの実現においても重要である。
 精度の高いデプス情報を得るため、近赤外線などの参照光を照射し、その反射光を検出するまでの時間に基づきデプス情報を得る手法や、反射光の分布のひずみや強度に基づきデプス情報を得る手法など、様々な測定手法が提案されている。
 一方、そのような測距センサにより得たデプス情報を、表示などに用いるカラーの撮影画像のデータとともにホスト端末などに伝送するようにすると、通信帯域の制限により即時性が損なわれたり画質が劣化したりすることが考えられる。例えば従来、カラー画像のデータのみを伝送していた通信帯域を用いてデプス情報をも送信しようとすれば、当然、カラー画像の解像度を低下させたり圧縮率を高めたりする措置が必要となり、画質が劣化しやすくなる。このような問題は、インターネットなどの大規模ネットワークを利用したり、無線通信を利用したりする場合には顕在化しやすい。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、実測されたデプス情報を用いた高精度な処理を、伝送するデータサイズを増大させずに実現できる技術を提供することにある。
 本発明のある態様は画像処理装置に関する。この画像処理装置は、被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータを取得するデプス画像取得部と、被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得する撮影画像取得部と、デプス画像のデータを、複数の撮影画像のデータを用いて圧縮するデプス画像圧縮部と、複数の撮影画像のデータと、圧縮されたデプス画像のデータを出力する出力部と、を備えたことを特徴とする。
 ここで「画像処理装置」は、情報処理端末、情報処理装置、ネットワークで各種装置に接続可能なサーバなど、画像処理を実施する装置そのもの、およびそれらの装置の一部を構成する集積回路などのいずれでもよい。あるいは「画像処理装置」は、撮像装置であってもよいし、その一部を構成する集積回路でもよい。
 本発明の別の態様はコンテンツ処理装置に関する。このコンテンツ処理装置は、被写体を異なる視点から撮影してなる複数の撮影画像のデータと、被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像の圧縮後のデータを取得する画像データ取得部と、圧縮後のデプス画像のデータを、複数の撮影画像のデータを用いて伸張するデプス画像伸張部と、少なくとも伸張されたデプス画像のデータを用いて所定の処理を行い結果を出力する出力部と、を備えたことを特徴とする。
 ここで「コンテンツ処理装置」は、ヘッドマウントディスプレイ、情報端末、情報処理装置、ネットワークで各種装置に接続可能なサーバなど、コンテンツを処理する装置そのもの、およびそれらの装置の一部を構成する集積回路などのいずれでもよい。
 本発明のさらに別の態様はコンテンツ処理システムに関する。このコンテンツ処理システムは、被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータと、被写体を異なる視点から撮影してなる複数の撮影画像のデータを伝送する画像処理装置と、デプス画像のデータと撮影画像のデータを用いて情報処理を実施するコンテンツ処理装置と、を含むコンテンツ処理システムであって、画像処理装置は、デプス画像のデータを、複数の撮影画像のデータを用いて圧縮するデプス画像圧縮部と、複数の撮影画像のデータと、圧縮後のデプス画像のデータを出力する出力部と、を備え、コンテンツ処理装置は、圧縮後のデプス画像のデータを、複数の撮影画像のデータを用いて伸張するデプス画像伸張部と、少なくとも伸張された前記デプス画像のデータを用いて所定の処理を行い結果を出力する出力部と、を備えたことを特徴とする。
 本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は画像処理装置が、被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータを取得するステップと、被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得するステップと、デプス画像のデータを、複数の撮影画像のデータを用いて圧縮するステップと、複数の撮影画像のデータと、圧縮されたデプス画像のデータを出力するステップと、を含むことを特徴とする。
 本発明のさらに別の態様も画像処理方法に関する。この画像処理方法はコンテンツ処理装置が、被写体を異なる視点から撮影してなる複数の撮影画像のデータと、被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像の圧縮後のデータを取得するステップと、圧縮後のデプス画像のデータを、前記複数の撮影画像のデータを用いて伸張するステップと、少なくとも伸張されたデプス画像のデータを用いて所定の処理を行い結果を出力するステップと、を含むことを特徴とする。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
 本発明によると、伝送するデータサイズを増大させずに撮影画像を用いた高精度な情報処理を実現できる。
本実施の形態のコンテンツ処理システムの構成例を示す図である。 本実施の形態における画像処理装置の内部回路構成を示す図である。 本実施の形態における画像処理装置とコンテンツ処理装置の機能ブロックの構成を示す図である。 本実施の形態において、ステレオ画像を用いて演算より求めたデプス画像と、デプスカメラにより実測されたデプス画像との差分画像を利用する場合の、デプス画像圧縮部とデプス画像伸張部の機能ブロックの構成と処理の流れを示す図である。 本実施の形態において、被写体の距離に応じてデプス画像の画素値である距離値の階調数を変化させる場合の、デプス画像圧縮部とデプス画像伸張部の機能ブロックの構成と処理の流れを示す図である。 本実施の形態においてデプス画像の伸張に用いる、量子化前後の画素値の対応情報を説明するための図である。 図4で示した差分画像の画素値の階調数を、図5で示したように調整する場合の、デプス画像圧縮部とデプス画像伸張部の機能ブロックの構成と処理の流れを示す図である。 本実施の形態におけるデプス画像圧縮部およびデプス画像伸張部が、サーバから取得できるデータを利用してデプス画像を圧縮/伸張する場合の機能ブロックを示す図である。 本実施の形態においてデプス画像のフレームレートをステレオ画像より低くする態様における、コンテンツ処理装置のデプス画像伸張部の機能ブロックの構成と処理の流れを示す図である。 変形例における撮像装置の俯瞰図を模式的に示す図である。 変形例における撮像装置の素子構造を示す図である。
 図1は本実施の形態を適用できるコンテンツ処理システムの構成例を示す。コンテンツ処理システム1は、実空間を撮影する撮像装置12、撮影画像を処理し伝送する形態に変換する画像処理装置10、伝送された撮影画像を用いて所定の情報処理を実施するコンテンツ処理装置14、および情報処理の結果を出力する表示装置16を含む。画像処理装置10とコンテンツ処理装置14は必要に応じてネットワーク8を介し通信を確立する。
 画像処理装置10と撮像装置12、コンテンツ処理装置14と表示装置16はそれぞれ、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。あるいは画像処理装置10と撮像装置12、コンテンツ処理装置14と表示装置16はそれぞれ、一体的な装置であってもよい。例えば画像処理装置10と撮像装置12を合わせて、ネットワーク8への伝送機能を有する撮像装置としてもよいし、コンテンツデータを配信するサーバとしてもよい。またコンテンツ処理装置14と表示装置16を合わせて、携帯端末やヘッドマウントディスプレイとしてもよい。
 さらに画像処理装置10とコンテンツ処理装置14を接続するネットワーク8は、インターネットのように大規模ネットワークでもよいし、有線あるいは無線により確立されたLANなどのローカルなネットワークでもよい。このように撮像装置12、画像処理装置10、コンテンツ処理装置14、および表示装置16の外観形状や接続形態は図示するものに限らない。
 撮像装置12は、被写空間を所定のフレームレートで撮影するステレオカメラ18と、同じ被写空間における被写体までの距離の情報を所定のフレームレートで取得するデプスカメラ19を備える。ステレオカメラ18はCMOS(Complementary Metal Oxide Semiconductor)センサなどの撮像素子と、その出力データにデモザイク処理、レンズ歪み補正、色補正などを施し、撮影画像のデータを生成する画像処理機構を含むビデオカメラを、所定の間隔で左右に配置した構造を有する。
 デプスカメラ19は被写空間に近赤外線などの参照光を照射する機構と、その反射光を検出するCMOSセンサとで構成され、照射から検出までの時間や、反射光の分布のひずみなどにより被写体までの距離を導出する。前者の手法はToF(Time of Flight)方式、後者の手法はパターン照射方式として一般に知られる技術である。ただしデプスカメラの構成や距離の導出手法をこれに限る趣旨ではない。いずれにしろ撮像装置12は、左右の視点から撮影された一対のカラー画像からなるステレオ画像と、それに対応するデプス画像のデータを、所定のレートで画像処理装置10に供給する。
 なおデプス画像は、被写体の像の画素値として距離値を表した画像である。また同図の撮像装置12は、ステレオカメラ18のセンサの中間にデプスカメラ19のセンサを配置しているが、各センサの配置や数はこれに限定されない。例えばデプスカメラも左右の視点から撮影するステレオカメラとして、カラー画像を撮影するステレオカメラと上下に近接するように配置してもよいし、カラー画像を撮影するステレオカメラがデプス画像を撮影するカメラを兼ねていてもよい。なお以後の説明では、デプス画像でない一般的な撮影画像の対を「ステレオ画像」と呼ぶ。
 画像処理装置10は、撮像装置12から供給された画像のデータを圧縮して伝送形態としたうえ、所定のレートでコンテンツ処理装置14に送信する。具体的にはステレオ画像とデプス画像が有する冗長性を利用することで、デプス画像のデータサイズを軽減させる。例えばステレオ画像を用いて演算によりデプス画像を求め、デプスカメラにより実測された結果であるデプス画像との差分画像を圧縮後のデプス情報のデータとする。
 コンテンツ処理装置14は、そのように送信されたデータのうち圧縮されているデプス情報を伸張することによりデプス画像を復元する。すなわちデプス情報として上述の差分画像が送信された場合、ステレオ画像を用いて演算によりデプス画像を求め、差分画像に加算することで実測されたデプス画像を復元する。コンテンツ処理装置14は復元したデプス画像とステレオ画像を用いて情報処理を実施したり、表示画像や音声などの出力データを生成したりする。
 ここで出力データの内容は特に限定されず、ユーザがシステムに求める機能や起動させたアプリケーションの内容などによって様々であってよい。コンテンツ処理装置14は例えば、表示装置16の左右の領域にステレオ画像が表示されるように画像を接続したうえ、被写体とインタラクションする仮想オブジェクトを、デプス画像が表す距離値に基づき描画する。あるいは被写体の実空間での動きをデプス画像から取得し、それをコマンド入力に変換することでゲームを進捗させ、当該ゲーム画面を生成してもよい。
 表示装置16は、画像を出力する液晶、プラズマ、有機ELなどのディスプレイと、音声を出力するスピーカーを備え、コンテンツ処理装置14から供給された出力データを画像や音声として出力する。表示装置16は、テレビ受像器、各種モニター、携帯端末の表示画面、カメラの電子ファインダなどでもよいし、ユーザの頭に装着してその眼前に画像を表示するヘッドマウントディスプレイでもよい。
 一般的に、デプス画像をステレオ画像から生成する手法は広く知られている。具体的には、ステレオ画像における同じ像の対応点をブロックマッチングなどにより求め、その水平方向のずれ量から三角測量の原理により距離を導出する。しかしながらこの手法では、両画像の対応がブロックの単位となるため、デプス画像の解像度が低くなる。また被写体表面の特徴点の多少によって、マッチング精度、ひいてはデプス画像の精度が大きく変動する。
 本実施の形態では、実測されたデプス画像の利用を基本とするため、情報処理の精度を高く維持できる。また、同時に伝送されるステレオ画像などを利用してデータ圧縮を実現することにより、デプス画像の伝送に必要な帯域を抑えることができる。これにより、多くの帯域をカラーのステレオ画像の送信に利用できるため、画質を劣化させることなく高精度な処理を実現できる。
 図2は画像処理装置10の内部回路構成を示している。画像処理装置10は、CPU(Central Processing Unit)23、GPU(Graphics Processing Unit)24、メインメモリ26を含む。これらの各部は、バス30を介して相互に接続されている。バス30にはさらに入出力インターフェース28が接続されている。入出力インターフェース28には、USBやIEEE1394などの周辺機器インターフェースや、有線又は無線LANのネットワークインターフェースからなる通信部32、ハードディスクドライブや不揮発性メモリなどの記憶部34、外部の機器へデータを出力する出力部36、撮像装置12や図示しない入力装置からデータを入力する入力部38、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部40が接続される。
 CPU23は、記憶部34に記憶されているオペレーティングシステムを実行することにより画像処理装置10の全体を制御する。CPU23はまた、リムーバブル記録媒体から読み出されてメインメモリ26にロードされた、あるいは通信部32を介してダウンロードされた各種プログラムを実行する。GPU24は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、CPU23からの描画命令に従って描画処理を行い、出力部36に出力する。メインメモリ26はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。なおコンテンツ処理装置14の内部回路構成もこれと同様でよい。
 図3は画像処理装置10とコンテンツ処理装置14の機能ブロックの構成を示している。同図に示す各機能ブロックは、ハードウェア的には、図2で示した各種回路によりで実現でき、ソフトウェア的には、記録媒体からメインメモリにロードした、画像解析機能、情報処理機能、画像描画機能、データ入出力機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 画像処理装置10は、撮像装置12からステレオ画像のデータを取得するステレオ画像取得部50、デプス画像のデータを取得するデプス画像取得部52、ステレオ画像を用いてデプス画像のデータを圧縮するデプス画像圧縮部54、および、ステレオ画像と圧縮後のデプス画像のデータを出力する出力部56を含む。ステレオ画像取得部50、デプス画像取得部52はいずれも、図2の入力部38、CPU23、メインメモリ26などで実現され、前者はステレオ画像のデータを、後者はデプス画像のデータを、撮像装置12から所定のフレームレートで順次取得する。ここでステレオ画像取得部50は、被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得する撮影画像取得部を構成している。
 ステレオ画像取得部50、デプス画像取得部52はそれぞれ、撮像装置12において露光が完了した行から順に、ストリーム形式でデータを取得してもよい。デプス画像圧縮部54は、図2のCPU23、GPU24、メインメモリ26などで実現され、デプス画像のデータサイズを圧縮する。具体的には上述のように、ステレオ画像を用いて演算より求めたデプス画像と、デプス画像取得部52が取得したデプス画像との差分画像を生成する。あるいはデプス画像圧縮部54は、被写体までの距離に応じて距離値を表すデータの、単位距離当たりの階調数を変化させて量子化してもよい。
 この際、デプス画像圧縮部54は、ステレオ画像のいずれかにおける被写体の像を抽出し、被写体ごとにその距離範囲に応じた適切な階調数を割り当ててもよい。またデプス画像圧縮部54は、ステレオ画像を用いて演算により求めたデプス画像と実測されたデプス画像との差分画像に対し、距離に応じた階調数の調整を実施してもよい。以後、差分画像や、単位距離当たりの階調数の調整がなされた画像およびそれに付随するデータを「圧縮後のデプス画像」と総称する。
 出力部56は、図2のCPU23、メインメモリ26、通信部32などで実現され、ステレオ画像取得部50が取得したステレオ画像のデータと、デプス画像圧縮部54が生成した圧縮後のデプス画像のデータを出力する。出力先はコンテンツ処理装置14でもよいし、コンテンツ処理装置14が読み取り可能な記録媒体でもよい。あるいは画像処理装置10の記憶部34に一旦格納しておき、コンテンツ処理装置14からの要求に応じて送信するようにしてもよい。なお出力部56は、出力対象のデータを一般的な手法により圧縮符号化したり、パケット化したりしてもよい。
 コンテンツ処理装置14は、ステレオ画像と圧縮後のデプス画像のデータを取得する画像データ取得部60、圧縮後のデプス画像を伸張するデプス画像伸張部62、ステレオ画像とデプス画像のデータを用いて所定の情報処理を実施する情報処理部64、および、情報処理の結果生成された表示画像や音声のデータを出力する出力部66を含む。
 画像データ取得部60は、図2の通信部32、CPU23、メインメモリ26などで実現され、画像処理装置10からステレオ画像と圧縮後のデプス画像のデータを所定のフレームレートで順次取得する。記録媒体を介する場合は、画像データ取得部60は記録媒体駆動部40によりそれらの画像データを順次読み出す。記録媒体を用いる場合も、本実施の形態によって格納されるデータサイズを抑えることができる。なお画像データ取得部60は、取得した画像のデータが一般的な手法により圧縮符号化されている場合は、それを復号することにより2次元の画像データに戻しておく。
 デプス画像伸張部62は、図2のCPU23、GPU24、メインメモリ26などで実現され、圧縮後のデプス画像を伸張して元のデプス画像を生成する。伸張処理の内容は基本的に、画像処理装置10においてデプス画像圧縮部54が行う圧縮処理を逆に辿る処理である。具体例は後述する。
 情報処理部64は、図2のCPU23、GPU24、メインメモリ26などで実現され、ステレオ画像と伸張後のデプス画像を用いて所定の情報処理を実施し、出力データを生成する。上述のとおり情報処理部64が行う処理の内容は特に限定されない。出力部66は図2のCPU23、メインメモリ26、出力部36などで実現され、そのようにして生成された表示画像などの出力データを表示装置16に出力する。なおコンテンツ処理装置14のデプス画像伸張部62は、ゲームや表示に係る処理を実施する装置とは独立した、画像データ伸張装置としてもよい。
 次に本実施の形態におけるデプス画像の圧縮手法/伸張手法について詳述する。図4は、本実施の形態の一態様として、ステレオ画像を用いて演算より求めたデプス画像と、デプスカメラにより実測されたデプス画像との差分画像を利用する場合の、デプス画像圧縮部54とデプス画像伸張部62の機能ブロックの構成と処理の流れを示している。この場合の画像処理装置10におけるデプス画像圧縮部54aは、デプス画像演算部70と差分画像取得部72を含む。デプス画像演算部70はステレオ画像80を入力データとし、演算によりデプス画像を生成する。
 具体的には上述のとおり、ステレオマッチングにより両者の対応点を特定し、それらの視差から三角測量の原理により被写体までの距離を導出する。この際、一般的には、ステレオ画像の一方の画像に参照ブロックを設定し、他方の画像においてそれとの類似度が高いブロックを水平方向に探索する。その結果得られた視差に基づき距離値を算出し、参照ブロックを設定した方の画像にマッピングすることにより、対応する視点におけるデプス画像が生成される。
 差分画像取得部72は、デプスカメラにより撮影されたデプス画像82、およびデプス画像演算部70が生成したデプス画像を入力データとし、両者の画素値の差を表した差分画像84を生成する。差分画像取得部72は実際には、従来の差分パルス符号変調(DPCM:Differential Pulse-Code Modulation)の技術に用いられる、動画像のフレーム間の差分を取得するのと同様の回路で実現できる。以降の図における差分画像取得部72も同様である。画像処理装置10は、このようにして生成された差分画像84を圧縮後のデプス画像として、ステレオ画像80のデータとともに出力する。
 一方、コンテンツ処理装置14のデプス画像伸張部62aは、デプス画像演算部74と差分画像加算部76を含む。デプス画像演算部74はステレオ画像80を入力データとし、演算によりデプス画像を生成する。この処理は、画像処理装置10のデプス画像圧縮部54aにおけるデプス画像演算部70が行う処理と同様である。差分画像加算部76は、圧縮後のデプス画像である差分画像84、およびデプス画像演算部74が生成したデプス画像を入力データとし、両者の画素値を加算して、撮像装置12が実測したデプス画像82と同等のデプス画像86を生成する。差分画像加算部76は実際には、上述の差分パルス符号変調において動画像のフレームをデコードする回路と同様の回路で実現できる。以降の図における差分画像加算部76も同様である。
 デプス画像演算部70、74が上記の手法により生成するデプス画像は一般に、演算に用いたステレオ画像より解像度が低く、被写体表面における特徴点の多少によって精度がばらつきやすい。デプスカメラにより実測されたデプス画像82との差分画像84は、そのような解像度や精度の低下を補うものである。結果として差分画像84を送信対象とすることにより、実測されたデプス画像82より小さいデータサイズで、当該デプス画像82と同等の情報を伝送できることになる。
 なお図では全ての画像が同じサイズで示されているが、ステレオ画像80、デプス画像82、差分画像84のサイズや解像度は独立に設定してよい。差分画像の生成や加算に用いる画像のサイズ(解像度)が異なる場合は、既存の補間技術により適宜拡大、縮小した後、同じ位置の画素同士を演算すればよい。また撮像装置12において、デプスカメラもステレオカメラで構成することにより、実測するデプス画像82を左右視点からのステレオ画像としてもよい。
 この場合、デプス画像演算部70が演算により生成した1つのデプス画像と、左右視点のデプス画像のそれぞれとの差分を計算することにより、差分画像84も左右視点からのステレオ画像としてよい。すなわちデプス画像圧縮部54aは、差分画像84を、複数のデプス画像のそれぞれに対し生成する。左右視点のデプス画像を実測することにより、一方の視点からは死角になる部分であっても他方の視点から距離が判明し、実世界のより広い範囲の距離情報を用いて精度の高い情報処理を行える。このような態様でも、双方のデプス画像を差分画像に圧縮すれば、送信データのサイズの増大を抑えることができる。
 あるいは、デプス画像演算部70が演算により生成した1つのデプス画像における各被写体の像を、デプスカメラの左右の視点から見た状態となるようにずらすことで、実測された2つのデプス画像に対応する2つのデプス画像を生成してもよい。すなわちデプス画像圧縮部54aは、視差に基づく1つのデプス画像を、圧縮対象のデプス画像が実測された際の視点からの2つのデプス画像に変換したうえで、当該圧縮対象のデプス画像との差分を生成する。この場合、対応する視点のデプス画像同士を演算することで、差分ステレオ画像を生成できる。
 このように演算により求めたデプス画像における像を、デプスカメラの視点から見た状態となるようにずらす手法は、ステレオカメラとデプスカメラの位置関係が既知であれば、デプスカメラの数や位置によらず適用可能である。この処理により、実測したデプス画像と演算により求めたデプス画像の差分が小さくなり、データサイズをより抑えられる。被写体の距離情報に基づき、異なる視点からの画像を生成する手法には、一般的なコンピュータグラフィクスの技術を適用できる。
 図5は、本実施の形態の別の態様として、被写体の距離に応じてデプス画像の画素値である距離値の階調数を変化させる場合の、デプス画像圧縮部54とデプス画像伸張部62の機能ブロックの構成と処理の流れを示している。この場合の画像処理装置10におけるデプス画像圧縮部54bは、被写体認識部90と階調割り当て部92を含む。被写体認識部90は、ステレオ画像のうち少なくとも一方の画像100を用いて、画像として映る被写体を認識する。
 被写体認識部90は例えば、エッジ抽出フィルタを用いて画像100における輪郭線を抽出することで、被写体の像の領域を特定する。図示する例では、画像100から顔、木、その他の背景領域が特定される。画像において被写体の像の領域を分離するセグメンテーション技術には、その他にも様々な手法が提案されており、本実施の形態においてそのうちのいずれを採用してもよい。例えば顔の領域には顔認識技術を導入してもよいし、既知形状の被写体にはテンプレートマッチングを導入してもよい。あるいはオプティカルフローなどの手法を利用し前の画像フレームからの物体追跡を行ってもよい。
 採用する認識手法によっては、実測されたデプス画像102やステレオ画像の双方を適宜利用してよい。なお被写体認識部90による被写体認識は上述のとおり、距離に応じてデプス画像の画素値の階調数を割り当てることを目的としているため、厳密に全ての被写体の像を分離する必要はない。例えば複数の被写体が接している場合、両者を区別しなくても構わない。
 階調割り当て部92は、デプスカメラにより撮影されたデプス画像102、および被写体認識部90により認識された、各被写体の像の領域に基づき、デプス画像の画素値として表される距離値の単位距離当たりの階調数を、被写体ごとに決定する。デプス情報を利用した情報処理では、撮像装置から近くにある被写体ほどそのデプス情報に精度が求められる。つまり実世界では同じ移動量でも、画像上での移動量は撮像装置に近いほど大きくなる。また一般的な環境においては、ユーザなど主たる対象は他の被写体より撮像装置の近くに存在する可能性が高い。
 そのような実世界での状況を情報処理に正確に反映させるには、近くの被写体についての距離情報の分解能を高くすることが望ましい。換言すれば、遠い被写体であれば距離情報の分解能を抑えても情報処理の精度への影響が小さい。したがって階調割り当て部92は、近い被写体ほど多くの階調数を割り当ててデプス画像102の画素値を量子化する。例えばデプス画像の画素値を表すビット深度に対し、顔の像の画素値には5割、背後の木の画素値には3割、それ以外の部分には2割、といった割合でビット数を割り当てる。このような割り当ては当然、距離が異なる被写体の数によっても変化する。
 これにより、デプス画像全体のデータサイズを増大させることなく、後段の情報処理おいて重要となる近距離の被写体については高い分解能での距離情報を提供できる。階調割り当て部92は、オブジェクトごとに適切な階調数が割り当てられ量子化されたデプス画像104と、量子化前後の画素値の対応情報106とを、圧縮後のデプス画像のデータとする。画像処理装置10は、当該圧縮後のデプス画像のデータとステレオ画像のデータを出力する。
 一方、コンテンツ処理装置14のデプス画像伸張部62bはデプス値取得部96を含む。デプス値取得部96は、圧縮後のデプス画像のデータ、すなわち距離に応じて階調数が調整されたデプス画像104と、量子化前後の画素値の対応情報106とを入力データとして、元のデプス画像108を復元する。すなわち画像処理装置10から送信されたデプス画像104に表されている、距離によって分解能の異なる画素値のデータを、均等な分解脳でのデータに変換する。変換には、量子化前後の画素値の対応情報106を用いる。
 図6は、デプス画像の伸張に用いる、量子化前後の画素値の対応情報を説明するための図である。(a)に示す例は、上述のとおり認識した被写体の距離に基づき階調数を割り当てる場合の、実測された距離に対する量子化後の距離の変化を示している。なお厳密には、量子化後の値は離散的となるが、同図では連続した値として模式的に示している。また同グラフをもって対応情報の形式を限定する趣旨ではない。すなわちコンテンツ処理装置14において、量子化後の値から量子化前の値を取得できれば、関数やルックアップテーブルなどデータ形式は限定されない。
 一般的な技術においては、(a)において一点鎖線で示した変化180のように、実測距離の値に正比例するように量子化後の距離が決定する。一方、本実施の形態では実線で示した変化182のように、被写体の存在する距離範囲に多くの階調を割り当て、かつ撮像装置12からの距離が近いほど多くの階調を割り当てる。
 例えば図5で示した画像構成においては、最も撮像装置側にある顔の距離範囲、その背後にある木の距離範囲、最も背後にある壁などの距離範囲に、それぞれ階調数A、B、Cを、A>B>Cとなるように割り当てる。また被写体間の距離範囲(被写体の存在しない距離範囲)については階調数Cより小さい所定の階調数を割り当てる。これは被写体表面の凹凸や被写体同士の距離と比較し、被写体間の距離の刻みの重要性が低いことによる。
 なお「距離範囲」は、デプス画像において被写体の像の画素値として実際に表れる距離の範囲でもよいし、厚みなどを考慮して被写体の種類ごとにあらかじめ設定しておいてもよい。例えば被写体認識部90が顔認識をした場合、顔面の凹凸の深さや頭部の厚さに係る一般的なデータを用いて設定してもよい。あるいは距離が近いほど距離範囲を大きくすることにより、移動や誤差の発生を当該範囲内で吸収できるようにしてもよい。階調数A、B、Cの比率は例えば、被写体ごとの平均距離の逆数によって決定する。ただし被写体の距離範囲と、割り当てる階調数の決定規則はこれに限らない。
 いずれにしろデプス画像の画素値のビット深度を一般的な値DからD’に削減させたとしても、重要な被写体に与えられる階調数を増加させることができる。画像処理装置10の階調割り当て部92は、被写体の認識結果と距離範囲に応じて割り当てる階調数A、B、Cを決定すれば、図示するように量子化前後の距離値を一意に対応づける情報を生成できる。コンテンツ処理装置14のデプス値取得部96は、当該情報を参照して、送信されたデプス画像が表す量子化後の距離から、実測された距離を取得することにより、元のデプス画像と同等の画像を生成できる。
 図6の(b)は(a)の変形例として、被写体の存在やその距離にかかわらず、実測された距離に対する量子化後の距離の変化を固定とする場合の、当該変化の例を示している。この場合も定性的には、距離が近いほど多くの階調が割り当てられるようにしているが、実測距離に対し量子化後の距離を曲線状に変化させることにより、被写体の位置や数によらず適用できるようにしている。このようにすると、撮像装置の近傍に被写体がなくても一律に多くの階調が割り当てられてしまう可能性がある一方、被写体認識部90の処理を省略できる。したがって、ユーザが撮像装置のすぐ前にいることが多いゲームなど、撮影環境や情報処理の内容によっては精度を維持したまま処理の高速化を図れる。
 図7は、本実施の形態のさらに別の態様として、図4で示した差分画像の画素値の階調数を、図5で示したように調整する場合の、デプス画像圧縮部54とデプス画像伸張部62の機能ブロックの構成と処理の流れを示している。この場合の画像処理装置10におけるデプス画像圧縮部54cは、デプス画像演算部70、差分画像取得部72、および階調割り当て部92を含む。デプス画像演算部70と差分画像取得部72は、図4で示したデプス画像演算部70と差分画像取得部72と同じ機能を有する。
 すなわちデプス画像演算部70はステレオ画像112からデプス画像を演算により求め、差分画像取得部72は、実測されたデプス画像114と演算により求められたデプス画像との差分画像を生成する。階調割り当て部92は、図5で示した階調割り当て部92と同様の機能を有するが、差分画像取得部72が生成した差分画像を処理対象とする。実測されたデプス画像と、ステレオ画像から演算して得られたデプス画像との差分においても、撮像装置12からの距離が近い被写体ほど、その精度が情報処理の精度に影響を与えやすい。
 そのため差分画像についても、距離が近い被写体ほど多くの階調数を割り当てることで、主たる被写体に関する処理精度を向上させたり、画素値のビット深度を下げ差分画像のデータサイズをさらに圧縮したりすることができる。画像処理装置10は、階調の調整がなされた差分画像116と量子化前後の画素値の対応情報118とを、圧縮後のデプス画像のデータとして、ステレオ画像112のデータとともに出力する。
 一方、コンテンツ処理装置14のデプス画像伸張部62cは、デプス画像演算部74、差分値取得部110、および差分画像加算部76を含む。デプス画像演算部74と差分画像加算部76は、図4で示したデプス画像演算部74と差分画像加算部76と同じ機能を有する。すなわちデプス画像演算部74は、ステレオ画像112からデプス画像を演算により求め、差分画像加算部76は、当該デプス画像と差分画像を加算することにより、元のデプス画像119を生成する。
 差分値取得部110は図5で示したデプス値取得部96と同様の機能を有するが、単位差分当たりの階調数が調整された差分画像を処理対象とする。すなわち量子化前後の画素値の対応情報118を参照し、差分画像116が表す量子化後の差分値から実際の差分値を画素ごとに取得する。これにより復元された差分画像を差分画像加算部76に入力することにより、図4で示したのと同様に、元のデプス画像119を生成できる。なお図7に示す例では、量子化前後の画素値の対応情報118を図6の(b)に示した態様としたが、当然、(a)に示した態様としてもよい。この場合、デプス画像圧縮部54cには被写体認識部90を設ければよい。
 これまで例示したデプス画像圧縮部54とデプス画像伸張部62の機能の一部を、ネットワークを介して接続した別の装置が担うようにしてもよい。図8は、デプス画像圧縮部54およびデプス画像伸張部62が、サーバから取得できるデータを利用してデプス画像を圧縮/伸張する場合の機能ブロックを示している。この態様では、ネットワーク8にデプス画像提供サーバ120が接続されている。デプス画像提供サーバ120は、ネットワークを介して送信された撮影画像から、それに対応するデプス画像を生成し返信する機能を有する。
 近年、ニューラルネットワークを用いた機械学習としてディープラーニング(深層学習)の技術が実用化されつつある。当該技術を導入し、被写体の属性、色やその変化、像の形状、大きさ、画面構成などの撮影画像上の特性と、デプス情報との対応づけを、大量の撮影画像に基づき学習させておけば、1枚の撮影画像からデプス画像を推定することも可能である。デプス画像提供サーバ120はそのような機能により、画像処理装置10およびコンテンツ処理装置14から送信された撮影画像に基づきデプス画像を生成し、送信元に返信する。
 この場合、差分画像の生成やデプス画像の復元においては、ステレオ画像は必須でないため、撮像装置12は、場合によっては単眼のカラー画像撮影用カメラとデプスカメラで構成することもできる。ただし表示にステレオ画像を利用する場合はこの限りではない。画像処理装置10のデプス画像圧縮部54dはデプス画像取得部122と差分画像取得部72を含む。デプス画像取得部122は、撮像装置12から取得した撮影画像のデータをデプス画像提供サーバ120に送信し、それに応じて返信されたデプス画像を取得する。
 差分画像取得部72は、図4で示した差分画像取得部72と同じ機能を有し、実測されたデプス画像126と、デプス画像提供サーバ120から送信されたデプス画像との差分画像128を生成する。なおこの態様においても図7で示した階調割り当て部92を導入し、被写体の距離に応じて差分画像の階調数を調整してもよい。画像処理装置10は、圧縮後のデプス画像のデータとカラーの撮影画像のデータを出力する。
 コンテンツ処理装置14のデプス画像伸張部62dは、デプス画像取得部130と差分画像加算部76を含む。デプス画像取得部130は、カラーの撮影画像のデータをデプス画像提供サーバ120に送信し、それに応じて返信されたデプス画像を取得する。差分画像加算部76は、図4で示した差分画像加算部76と同じ機能を有する。すなわち差分画像加算部76は、デプス画像提供サーバ120から送信されたデプス画像と画像処理装置10から送信された差分画像128を加算することにより、元のデプス画像132を生成する。なお画像処理装置10において、被写体の距離に応じた階調数の調整を行う場合は、デプス画像伸張部62dに、図7で示した差分値取得部110の機能を導入する。
 これまで述べた態様は基本的に、ステレオ画像とデプス画像を同じフレームレートで取得、伝送していたが、デプス画像のフレームレートを低くすることにより、伝送データのサイズをさらに圧縮してもよい。図9は、デプス画像のフレームレートをステレオ画像より低くする態様における、コンテンツ処理装置14のデプス画像伸張部62の機能ブロックの構成と処理の流れを示している。
 この態様において画像処理装置10は、コンテンツ処理装置14に、ステレオ画像のデータを所定のフレームレートで送信するとともに、それより低いフレームレートで、圧縮されたデプス画像のデータを送信する。同図では圧縮されたデプス画像のデータとして、演算されたデプス画像との差分画像を想定しているが、被写体の距離に応じてデプス画像または差分画像の階調数が調整されたデータでもよい。デプス画像伸張部62eは、デプス画像演算部74、差分画像加算部76、動き取得部140、および補間部142を含む。
 デプス画像演算部74および差分画像加算部76は、図4で示したデプス画像演算部74および差分画像加算部76と同じ機能を有する。すなわちデプス画像演算部74は、ステレオ画像144からデプス画像を演算により求め、差分画像加算部76は、当該デプス画像と差分画像146を加算することにより、元のデプス画像を生成する。ただしデプス画像演算部74は、差分画像146と対応する時刻の画像フレームについてのみデプス画像を求めればよい。例えば差分画像146のフレームレートをステレオ画像の1/2倍とする場合、デプス画像演算部74は、1フレームおきのステレオ画像を用いてデプス画像を求める。
 そして差分画像加算部76が差分画像146と加算することにより、当該差分画像146と同じフレームレートで元のデプス画像を得ることができる。一方、動き取得部140は、ステレオ画像144のうち一方の画像のフレーム間差分をとることにより、被写体の動きベクトルを取得する。動画における被写体の動きベクトルを取得する手法は一般的な技術である。そして補間部142は、過去の動きベクトルを用いて次の時間ステップまでの動きを予測したうえ、差分画像加算部76が生成した、低いフレームレートでのデプス画像に適用することにより、時間軸上でデプス画像を補間する。
 例えば差分画像146のフレームレートをステレオ画像の1/2倍とする場合、差分画像加算部76により復元されたデプス画像の時間Δtのフレーム間に、時間Δt/2分の予測される動きを与えたデプス画像のフレームを1つ生成して挿入する。これにより、伝送するデータのサイズをさらに少なくしながら、ステレオ画像144と同じフレームレートで精度の高いデプス画像148を生成できる。
 またステレオ画像とデプス画像のフレームレートを独立して設定できることから、各画像を撮影するカメラの撮影原理の差も加味してそれぞれに最適なフレームレートを選択でき、両者の画質を向上させることができる。なおフレームレートを独立に設定することによりステレオ画像とデプス画像の撮影タイミングが一致しない場合、デプス画像の撮影タイミングに最も近いタイミングで撮影されたステレオ画像を用いて差分画像を生成したりデプス画像を復元したりしてよい。
 一方、デプス画像演算部74は、動きベクトルを取得する目的で、ステレオ画像144の全ての画像フレームについてデプス画像を生成してもよい。すなわち動き取得部140は、ステレオ画像の代わりに、演算により求められたデプス画像のフレーム間差分をとることにより動きベクトルを求める。この場合も補間部142の処理は上述と同様である。
 以上述べた本実施の形態によれば、撮影されたステレオ画像とデプス画像を用いて情報処理を行うシステムにおいて、データを送出する画像処理装置は、ステレオ画像から演算により求められるデプス画像を利用して、実測されたデプス画像のデータを圧縮する。圧縮データを取得したコンテンツ処理装置は、ステレオ画像から演算により求められるデプス画像を用いて、実測されたデプス画像を復元する。演算により求められるデプス画像と実測されたデプス画像は高い類似性を有するため、その差分画像は元の画素値より格段に少ない階調数で表すことができる。当該データを送信対象とすることにより、限られた伝送帯域を利用して、実測されたデプス画像に基づく高精度な情報処理を実現できる。
 また、実測されたデプス画像が示す被写体の距離に応じて、デプス画像あるいは差分画像の画素値を表す階調数を調整する。これによりビット深度を増大させることなく、情報処理において重要かつ精度に影響を与えやすい近距離の被写体について高い分解能での距離情報を伝送させることができる。さらに、圧縮されたデプス画像をステレオ画像より低いフレームレートで伝送させ、情報処理に用いる段階で、ステレオ画像を利用した動き補償により補間することで、伝送データのサイズをより小さくできる。
 以上のことから、表示に用いるカラー画像のデータや主たる被写体の距離情報など、重要なデータに優先して伝送帯域を割り当てることができ、高精度な情報処理や画像表示を、通信状況によらず安定的に実現できる。
 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば本実施の形態では、撮像装置12を一対のステレオカメラとデプスカメラからなる構成としたが、ステレオ画像とデプス画像を同時期に撮影できれば、撮像装置の構成は限定されない。また少なくとも演算によりデプス画像を生成できれば、デプス画像とともに撮影する画像はステレオ画像、カラー画像に限定されない。以下、撮像装置の変形例につい説明する。図10は、変形例における撮像装置の俯瞰図を模式的に示している。
 図示する例で撮像装置150は、図と平行な水平面において光軸が放射状となるように複数のビデオカメラ(例えばビデオカメラ152)を環状に接続した構成を有する。運用時には撮像装置150を、環の中心を軸として水平面上で所定方向(例えば矢印の方向)に回動させる。なお同図では回動のための駆動機構について図示を省略している。このような構成により、各時刻において周囲の360°にある全ての被写体をいずれかのカメラの視野内に収めることができるうえ、視野が重ならない領域の被写体であっても、僅かな時間のずれで後続のカメラの視野に入れることができる。
 結果として、全方位にある被写体に対し、異なる視点からの画像が撮影されることを保証できる。例えば、図示するような構成のカラービデオカメラとデプスカメラを図の奥行き方向に対応する垂直方向に重ねてなる撮像装置を導入すれば、本実施の形態と同様にデプス画像を圧縮でき、より広域での画像をデータサイズの増大を抑えつつ伝送できる。なお周囲360°の画像が必要ない場合、撮像装置を構成するカメラの台数を減らすことができる。場合によっては1つのカメラを移動させることにより異なる視点からの画像を撮影していき、時間的に前後して撮影された2つの画像を、平均時刻におけるステレオ画像としてもよい。
 図11は、別の変形例における撮像装置の素子構造を示している。なお同図は素子断面の機能的な構造を模式的に示しており、層間絶縁膜や配線などの詳細な構造は省略している。また同図では隣接した2画素分の断面構造を例示している。画素210はマイクロレンズ層212、カラーフィルタ層214、偏光子層216、および光電変換層218を含む。マイクロレンズ層212は画素ごとに設けられ入射した光を集光する。
 カラーフィルタ層214は、画素ごとに異なる色の光を透過する。偏光子層216は、複数の線状の導体部材、例えばタングステンやアルミなどの部材(ワイヤ)を入射光の波長より小さい間隔でストライプ状に配列させたワイヤグリッド型偏光子を含む。マイクロレンズ層212により集光されカラーフィルタ層214を透過した光が偏光子層216に入射すると、偏光子のラインと平行な方向の偏光成分は反射され、垂直な偏光成分のみが透過する。
 透過した偏光成分を光電変換層218で電荷に変換することにより偏光輝度が取得される。図示するようなワイヤグリッド型偏光子を用いた画像取得技術については、例えば特開2012-80065号公報などに開示されている。ただし偏光子はワイヤグリッド型に限らず、線二色性偏光子など実用化されているもののいずれでもよい。なお同図では偏光子として、図面の奥行き方向に伸張するワイヤの断面を表しているが、偏光子の主軸角度は4通りとし、それに応じてワイヤの向きも異なる。
 また図示するように偏光子層216には、画素によって偏光子を備える領域と備えない領域があってよい。偏光子を設けない領域では、カラーフィルタ層214を透過した光がそのまま光電変換層218に入射する。光電変換層218は一般的なフォトダイオードを含み、入射した光を電荷として出力する。図示するように1つのマイクロレンズに対しフォトダイオードを複数設けることにより、合焦レンズの異なる領域を透過した光を別々に電荷に変換する。そのようにして検出した光の位相差に基づき焦点検出を行う技術は位相差オートフォーカスの一手法として実用化されている(例えば特開2013-106194号公報参照)。
 また1画素に設けた複数のフォトダイオードによる検出値を合計すれば、一般的な撮像装置における1画素分の輝度が得られる。すなわち図11に示した画素の素子構造によれば、一般的なカラー画像、複数方位の偏光画像、位相差画像を同時に得ることができる。ここで位相差画像は、画素ごとに設けた2つのフォトダイオードのうち一方の検出値のみを画素とする画像の対である。位相差画像における像の位置のずれ量は、焦点距離においては0となり、焦点距離から離れるほど大きくなる。また焦点距離より遠いか近いかでずれる方向が逆転する。
 画像処理装置はこの関係を利用して、位相差画像における像のずれ量から被写体の距離を取得できる。ただしずれ量を特定できることが前提となるため、距離が得られるのは被写体の輪郭線など特徴点の存在する部分に限定される。そこで、複数方位の偏光画像を用いて既存の手法により被写体表面の法線ベクトルを取得し、その結果から得られる表面の傾きに基づき距離値を補間すれば、被写体全体の距離値が得られる。
 すなわち図示する素子構造によれば、参照光の照射機構などを設けずとも、カラー画像と同一視点のデプス画像を取得できる。差分画像の生成に用いる、演算によるデプス画像の生成のためには、図示するような素子構造のカメラとは別に、一般的なカメラを導入して異なる視点から撮影させることによりステレオ画像を取得してもよい。あるいは図示するような素子構造を有する複数のカメラによりステレオ画像を取得してもよい。この場合、図10で示したような構造の撮像装置としてもよい。
 また図示するような素子構造を有する1つのカメラを移動させてステレオ画像を取得したり、図8で示したデプス画像提供サーバ120を利用して、1つのカラー画像からデプス画像を取得したりしてもよい。いずれの場合も、本実施の形態で述べた画像処理装置およびコンテンツ処理装置を適用し同様の効果を得ることができる。
 1 コンテンツ処理システム、 10 画像処理装置、 12 撮像装置、 14 コンテンツ処理装置、 16 表示装置、 18 ステレオカメラ、 19 デプスカメラ、 23 CPU、 24 GPU、 26 メインメモリ、 32 通信部、 34 記憶部、 36 出力部、 38 入力部、40 記録媒体駆動部、 50 ステレオ画像取得部、 52 デプス画像取得部、 54 デプス画像圧縮部、 56 出力部、 60 画像データ取得部、 62 デプス画像伸張部、 64 情報処理部、 66 出力部。
 以上のように本発明は、撮像装置、ヘッドマウントディスプレイ、センサ、画像処理装置、コンテンツ再生装置など各種装置と、それを含むシステムなどに利用可能である。

Claims (21)

  1.  被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータを取得するデプス画像取得部と、
     前記被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得する撮影画像取得部と、
     前記デプス画像のデータを、前記複数の撮影画像のデータを用いて圧縮するデプス画像圧縮部と、
     前記複数の撮影画像のデータと、圧縮されたデプス画像のデータを出力する出力部と、
     を備えたことを特徴とする画像処理装置。
  2.  前記デプス画像圧縮部は、圧縮後のデータとして、圧縮対象のデプス画像と、2つの前記撮影画像における対応点の視差に基づき演算により求めたデプス画像との差分画像を生成することを特徴とする請求項1に記載の画像処理装置。
  3.  前記デプス画像圧縮部は、前記デプス画像における画素値が表す距離に応じて、単位距離当たりの階調数を異ならせて当該画素値を量子化することを特徴とする請求項1または2に記載の画像処理装置。
  4.  前記デプス画像圧縮部は、前記デプス画像における被写体の像の領域において、当該被写体の距離に応じた単位距離当たりの階調数を割り当てたうえ、その像の画素値を量子化することを特徴とする請求項1から3のいずれかに記載の画像処理装置。
  5.  前記デプス画像圧縮部は、被写体の存在しない距離範囲における単位距離当たりの階調数が、被写体の存在する距離範囲における単位距離当たりの階調数より小さくなるように、前記デプス画像における画素値を量子化することを特徴とする請求項4に記載の画像処理装置。
  6.  前記デプス画像圧縮部は、前記デプス画像における画素値が表す距離が小さいほど、単位距離当たりの階調数を大きくして、当該画素値を量子化することを特徴とする請求項3または4に記載の画像処理装置。
  7.  前記デプス画像圧縮部は、量子化前後の画素値の対応関係を表す情報をさらに生成することを特徴とする請求項3から6のいずれかに記載の画像処理装置。
  8.  前記デプス画像取得部は、前記カメラが異なる視点から実測した、複数のデプス画像のデータを取得し、
     前記デプス画像圧縮部は、前記差分画像を、前記複数のデプス画像のそれぞれに対し生成することを特徴とする請求項2に記載の画像処理装置。
  9.  前記デプス画像圧縮部は、前記視差に基づくデプス画像を、前記圧縮対象のデプス画像が実測された際の視点からのデプス画像に変換したうえで、当該圧縮対象のデプス画像との差分画像を生成することを特徴とする請求項2または8に記載の画像処理装置。
  10.  機械学習機能を備えることにより撮影画像のデータに基づき対応するデプス画像のデータを提供するサーバに接続する通信部をさらに備え、
     前記デプス画像圧縮部は、前記サーバに前記撮影画像のデータを送信することにより、対応するデプス画像のデータを取得し、当該デプス画像と圧縮対象のデプス画像との差分画像のデータを、圧縮後のデータとして生成することを特徴とする請求項1に記載の画像処理装置。
  11.  被写体を異なる視点から撮影してなる複数の撮影画像のデータと、前記被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像の圧縮後のデータを取得する画像データ取得部と、
     前記圧縮後のデプス画像のデータを、前記複数の撮影画像のデータを用いて伸張するデプス画像伸張部と、
     少なくとも伸張された前記デプス画像のデータを用いて所定の処理を行い結果を出力する出力部と、
     を備えたことを特徴とするコンテンツ処理装置。
  12.  前記デプス画像伸張部は、前記圧縮後のデプス画像に、2つの前記撮影画像における対応点の視差に基づき演算により求めたデプス画像を加算することにより、デプス画像を伸張することを特徴とする請求項11に記載のコンテンツ処理装置。
  13.  画像データ取得部は、画素値が量子化された前記デプス画像の圧縮後のデータとともに、量子化前後の画素値の対応関係を表す情報を取得し、
     前記デプス画像伸張部は、前記圧縮後のデプス画像の画素値を、前記対応関係を表す情報に基づき量子化前の画素値に戻すことを特徴とする請求項11または12に記載のコンテンツ処理装置。
  14.  機械学習機能を備えることにより撮影画像のデータに基づき対応するデプス画像のデータを提供するサーバに接続する通信部をさらに備え、
     前記デプス画像伸張部は、前記サーバに前記撮影画像のデータを送信することにより、対応するデプス画像のデータを取得し、当該デプス画像と前記圧縮後のデプス画像を加算することにより、デプス画像を伸張することを特徴とする請求項11に記載のコンテンツ処理装置。
  15.  前記画像データ取得部は、前記デプス画像のデータを前記撮影画像のデータより小さいフレームレートで取得し、
     前記デプス画像伸張部は、前記撮影画像から取得した動きベクトルに基づき、前記デプス画像を時間軸上で補間することを特徴とする請求項11から14のいずれかに記載のコンテンツ処理装置。
  16.  前記画像データ取得部は、前記デプス画像のデータを前記撮影画像のデータより小さいフレームレートで取得し、
     前記デプス画像伸張部は、前記複数の撮影画像のデータを用いて生成したデプス画像から取得した動きベクトルに基づき、前記デプス画像を時間軸上で補間することを特徴とする請求項11から14のいずれかに記載のコンテンツ処理装置。
  17.  被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータと、前記被写体を異なる視点から撮影してなる複数の撮影画像のデータを伝送する画像処理装置と、前記デプス画像のデータと撮影画像のデータを用いて情報処理を実施するコンテンツ処理装置と、を含むコンテンツ処理システムであって、
     前記画像処理装置は、
     前記デプス画像のデータを、前記複数の撮影画像のデータを用いて圧縮するデプス画像圧縮部と、
     前記複数の撮影画像のデータと、圧縮後のデプス画像のデータを出力する出力部と、
     を備え、
     前記コンテンツ処理装置は、
     前記圧縮後のデプス画像のデータを、前記複数の撮影画像のデータを用いて伸張するデプス画像伸張部と、
     少なくとも伸張された前記デプス画像のデータを用いて所定の処理を行い結果を出力する出力部と、
     を備えたことを特徴とするコンテンツ処理システム。
  18.  被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータを取得するステップと、
     前記被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得するステップと、
     前記デプス画像のデータを、前記複数の撮影画像のデータを用いて圧縮するステップと、
     前記複数の撮影画像のデータと、圧縮されたデプス画像のデータを出力するステップと、
     を含むことを特徴とする、画像処理装置による画像処理方法。
  19.  被写体を異なる視点から撮影してなる複数の撮影画像のデータと、前記被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像の圧縮後のデータを取得するステップと、
     前記圧縮後のデプス画像のデータを、前記複数の撮影画像のデータを用いて伸張するステップと、
     少なくとも伸張された前記デプス画像のデータを用いて所定の処理を行い結果を出力するステップと、
     を含むことを特徴とする、コンテンツ処理装置による画像処理方法。
  20.  被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像のデータを取得する機能と、
     前記被写体を異なる視点から撮影してなる複数の撮影画像のデータを取得する機能と、
     前記デプス画像のデータを、前記複数の撮影画像のデータを用いて圧縮する機能と、
     前記複数の撮影画像のデータと、圧縮されたデプス画像のデータを出力する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラム。
  21.  被写体を異なる視点から撮影してなる複数の撮影画像のデータと、前記被写体の距離を測定するカメラが実測した、当該距離を画素値とするデプス画像の圧縮後のデータを取得する機能と、
     前記圧縮後のデプス画像のデータを、前記複数の撮影画像のデータを用いて伸張する機能と、
     少なくとも伸張された前記デプス画像のデータを用いて所定の処理を行い結果を出力する機能と、
     をコンピュータに実現させることを特徴とするコンピュータプログラム。
PCT/JP2018/046100 2017-12-21 2018-12-14 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法 WO2019124248A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP18891483.2A EP3731528A4 (en) 2017-12-21 2018-12-14 IMAGE PROCESSING DEVICE, CONTENT PROCESSING DEVICE, CONTENT PROCESSING SYSTEM AND IMAGE PROCESSING METHOD
US16/771,908 US11503267B2 (en) 2017-12-21 2018-12-14 Image processing device, content processing device, content processing system, and image processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017244861A JP7105062B2 (ja) 2017-12-21 2017-12-21 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
JP2017-244861 2017-12-21

Publications (1)

Publication Number Publication Date
WO2019124248A1 true WO2019124248A1 (ja) 2019-06-27

Family

ID=66992666

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/046100 WO2019124248A1 (ja) 2017-12-21 2018-12-14 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法

Country Status (4)

Country Link
US (1) US11503267B2 (ja)
EP (1) EP3731528A4 (ja)
JP (1) JP7105062B2 (ja)
WO (1) WO2019124248A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164017A (zh) * 2020-09-27 2021-01-01 中国兵器工业集团第二一四研究所苏州研发中心 一种基于深度学习的偏振彩色化方法
WO2021166707A1 (ja) * 2020-02-21 2021-08-26 ソニーセミコンダクタソリューションズ株式会社 情報処理装置および方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11949848B2 (en) * 2019-04-01 2024-04-02 Google Llc Techniques to capture and edit dynamic depth images
TW202131671A (zh) 2019-10-07 2021-08-16 日商索尼半導體解決方案公司 電子機器
US20230029900A1 (en) * 2021-07-30 2023-02-02 Zoox, Inc. Three-dimensional object detection based on image data
WO2024057902A1 (ja) * 2022-09-12 2024-03-21 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163717A (ja) * 2007-12-10 2009-07-23 Fujifilm Corp 距離画像処理装置および方法、距離画像再生装置および方法並びにプログラム
JP2012080065A (ja) 2010-09-07 2012-04-19 Sony Corp 固体撮像素子、固体撮像装置、撮像機器、及び、偏光素子の製造方法
JP2013106194A (ja) 2011-11-14 2013-05-30 Canon Inc 撮像装置の駆動方法
US20140035905A1 (en) * 2012-07-31 2014-02-06 Samsung Electronics Co., Ltd. Method for converting 2-dimensional images into 3-dimensional images and display apparatus thereof
JP2015518338A (ja) * 2012-04-25 2015-06-25 ノキア コーポレイション ビデオコーディング方法および装置
JP2017208641A (ja) * 2016-05-17 2017-11-24 キヤノン株式会社 圧縮センシングを用いた撮像装置、撮像方法および撮像プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3159230B2 (ja) 1993-06-10 2001-04-23 日本電信電話株式会社 画像信号用可変レート符号化装置
US20090148038A1 (en) * 2007-12-10 2009-06-11 Youichi Sawachi Distance image processing apparatus and method
KR101367282B1 (ko) * 2007-12-21 2014-03-12 삼성전자주식회사 깊이 정보에 대한 적응적 정보 표현 방법 및 그 장치
KR101158491B1 (ko) * 2008-12-08 2012-06-20 한국전자통신연구원 다시점 영상 부호화, 복호화 방법 및 그 장치.
CN102348415A (zh) * 2009-01-19 2012-02-08 超声医疗设备公司 用于获取和处理部分三维超声数据的***和方法
US9191646B2 (en) 2011-08-29 2015-11-17 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
US9462164B2 (en) * 2013-02-21 2016-10-04 Pelican Imaging Corporation Systems and methods for generating compressed light field representation data using captured light fields, array geometry, and parallax information
WO2014165244A1 (en) * 2013-03-13 2014-10-09 Pelican Imaging Corporation Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
US10814965B2 (en) 2015-05-19 2020-10-27 Aeronext Inc. Rotary-wing aircraft
CN108389226A (zh) * 2018-02-12 2018-08-10 北京工业大学 一种基于卷积神经网络和双目视差的无监督深度预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163717A (ja) * 2007-12-10 2009-07-23 Fujifilm Corp 距離画像処理装置および方法、距離画像再生装置および方法並びにプログラム
JP2012080065A (ja) 2010-09-07 2012-04-19 Sony Corp 固体撮像素子、固体撮像装置、撮像機器、及び、偏光素子の製造方法
JP2013106194A (ja) 2011-11-14 2013-05-30 Canon Inc 撮像装置の駆動方法
JP2015518338A (ja) * 2012-04-25 2015-06-25 ノキア コーポレイション ビデオコーディング方法および装置
US20140035905A1 (en) * 2012-07-31 2014-02-06 Samsung Electronics Co., Ltd. Method for converting 2-dimensional images into 3-dimensional images and display apparatus thereof
JP2017208641A (ja) * 2016-05-17 2017-11-24 キヤノン株式会社 圧縮センシングを用いた撮像装置、撮像方法および撮像プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3731528A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021166707A1 (ja) * 2020-02-21 2021-08-26 ソニーセミコンダクタソリューションズ株式会社 情報処理装置および方法
CN112164017A (zh) * 2020-09-27 2021-01-01 中国兵器工业集团第二一四研究所苏州研发中心 一种基于深度学习的偏振彩色化方法
CN112164017B (zh) * 2020-09-27 2023-11-17 中国兵器工业集团第二一四研究所苏州研发中心 一种基于深度学习的偏振彩色化方法

Also Published As

Publication number Publication date
US20200404238A1 (en) 2020-12-24
EP3731528A1 (en) 2020-10-28
EP3731528A4 (en) 2021-08-11
JP2019114842A (ja) 2019-07-11
US11503267B2 (en) 2022-11-15
JP7105062B2 (ja) 2022-07-22

Similar Documents

Publication Publication Date Title
WO2019124248A1 (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
US10567464B2 (en) Video compression with adaptive view-dependent lighting removal
JP7277372B2 (ja) 三次元モデル符号化装置、三次元モデル復号装置、三次元モデル符号化方法、および、三次元モデル復号方法
US11902577B2 (en) Three-dimensional data encoding method, three-dimensional data decoding method, three-dimensional data encoding device, and three-dimensional data decoding device
US20200051269A1 (en) Hybrid depth sensing pipeline
JP5763184B2 (ja) 3次元画像に対する視差の算出
JP7058277B2 (ja) 再構成方法および再構成装置
WO2012132167A1 (ja) 情報処理システム、情報処理装置、撮像装置、および情報処理方法
JP2014056466A (ja) 画像処理装置及び方法
MX2013013313A (es) Dispositivo de captura de imagenes en movimiento, sistema de procesamiento de informacion, dispositivo de procesamiento de unformacion y metodo de procesamiento de datos de imagenes.
US20210233303A1 (en) Image processing apparatus and image processing method
US10349040B2 (en) Storing data retrieved from different sensors for generating a 3-D image
WO2019198501A1 (ja) 画像処理装置、画像処理方法、プログラム、および画像伝送システム
JP2013025649A (ja) 画像処理装置及び画像処理方法、プログラム
JPWO2019050038A1 (ja) 画像生成方法および画像生成装置
JP2017229067A (ja) 少なくとも1つのライトフィールドカメラにより一対の立体画像を生成する方法及び装置
KR20120093751A (ko) 정면시점 영상합성을 통한 시선 맞춤 장치 및 방법
JP6905184B2 (ja) 画像圧縮プログラム、画像圧縮装置、及び画像圧縮方法
JP2013150071A (ja) 符号化装置、符号化方法、プログラム及び記憶媒体
US10257488B2 (en) View synthesis using low resolution depth maps
JPH10255071A (ja) 画像処理システム
JP4764516B1 (ja) 多視点画像符号化装置
US20230412831A1 (en) Method for encoding and decoding a multi-view video
US20240163476A1 (en) 3d prediction method for video coding
US20240163477A1 (en) 3d prediction method for video coding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18891483

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018891483

Country of ref document: EP

Effective date: 20200721