WO2011118216A1 - 映像処理装置 - Google Patents

映像処理装置 Download PDF

Info

Publication number
WO2011118216A1
WO2011118216A1 PCT/JP2011/001729 JP2011001729W WO2011118216A1 WO 2011118216 A1 WO2011118216 A1 WO 2011118216A1 JP 2011001729 W JP2011001729 W JP 2011001729W WO 2011118216 A1 WO2011118216 A1 WO 2011118216A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
information
image
stereoscopic
eye
Prior art date
Application number
PCT/JP2011/001729
Other languages
English (en)
French (fr)
Inventor
忠義 奥田
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/636,434 priority Critical patent/US20130002821A1/en
Priority to JP2012506855A priority patent/JP5390017B2/ja
Publication of WO2011118216A1 publication Critical patent/WO2011118216A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/341Displays for viewing with the aid of special glasses or head-mounted displays [HMD] using temporal multiplexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes

Definitions

  • the present invention relates to a video processing apparatus that outputs stereoscopic video information that enables stereoscopic viewing.
  • Patent Document 1 discloses a device that displays a stereoscopic image and can freely switch between a two-dimensional image display mode and a three-dimensional image display mode.
  • a main buffer and an overlay buffer are provided in the apparatus, and the buffers are switched according to the display mode.
  • the apparatus can easily switch the display mode.
  • the display device uses video information (hereinafter referred to as “stereoscopic video information”) including a left-eye video presented to a human left eye and a right-eye video presented to the right eye.
  • the display device controls the display so that the left eye image is visually recognized by the viewer's left eye and the right eye image is visually recognized by the viewer's right eye.
  • the display device can provide the viewer with a 3D image.
  • the display device selects either the left eye image or the right eye image included in the stereoscopic image information and displays only the selected image. Accordingly, the display device can provide a two-dimensional image to the viewer.
  • 3D images are displayed using the parallax between the left and right eyes when a person views with both eyes.
  • the left-eye video and the right-eye video have a difference depending on the parallax, but generally the images are usually very similar.
  • MVC multi-view video coding
  • base view one of the left-eye video and the right-eye video
  • base view the other video
  • dependent view not only the frames before and after the video frame to be encoded are referenced, but also the same in the base view (for example, left-eye video).
  • Encoding is also performed with reference to a temporal video frame. Such encoding increases the encoding efficiency of the dependent view.
  • the dependent view has a higher compression rate (that is, a lower bit rate) than the base view, but if decoded, the image quality may be lower than that of the base view.
  • the stereoscopic video processing apparatus 1000 acquires and decodes the compressed and encoded stereoscopic video information (stereoscopic video encoding information).
  • the video processing apparatus 1000 transmits the decoded stereoscopic video information to the video display apparatus 2000.
  • the video display device 2000 displays the received stereoscopic video information.
  • the video display device 2000 selects and displays either the left-eye video or the right-eye video included in the stereoscopic video information. There is a need to.
  • the stereoscopic video display device 2000 cannot determine which of the left-eye video and the right-eye video received from the stereoscopic video processing device 1000 is a video with a low compression rate (base view). For this reason, there is a problem that the stereoscopic video processing apparatus 1000 erroneously displays a video that is a dependent view, that is, a video that may have low image quality.
  • the present invention has been made to solve the above-described problem, and displays a stereoscopic video so that a stereoscopic video display device can display a two-dimensional video based on the three-dimensional video information without degrading the image quality. It is an object of the present invention to provide a stereoscopic video processing apparatus that provides video information to the apparatus.
  • the video processing apparatus is a video processing apparatus that includes a first eye video and a second eye video on a video display device and can output stereoscopic video information that enables stereoscopic viewing.
  • the video processing apparatus includes: an acquisition unit that acquires stereoscopic video information encoded using encoding methods that encode the first eye video and the second eye video at different bit rates; and a decoding that decodes the stereoscopic video information.
  • transmission means for transmitting identification information indicating a video having a higher encoding bit rate of the first eye video and the second eye video to the video display device in a state associated with the decoded stereoscopic video information. And comprising.
  • the video processing device can inform the video display device which of the first eye video and the second eye video is the higher quality video in a simpler manner. it can.
  • the video display device can select a video with the better image quality of the first eye video and the second eye video, and the video display device displays the selected video two-dimensionally to the viewer.
  • FIG. 1 Illustration for explaining the problem
  • FIG. 1 Illustration for explaining the problem
  • FIG. 1 The figure for demonstrating the outline of the compression encoding technique of stereo image information Diagram showing an example of a stereoscopic video stream
  • the figure which shows the structural example of a three-dimensional video system The figure which shows the structural example of a three-dimensional video processing apparatus.
  • the figure for demonstrating the example at the time of superimposing a caption image and a processing-device image on stereoscopic video data The figure for demonstrating the example at the time of superimposing a caption image and a processing-device image on stereoscopic video data
  • the figure for demonstrating the display method of a three-dimensional image The figure for demonstrating the display method of a three-dimensional image
  • the figure which shows the operation example of a three-dimensional image display The figure which shows the operation example of a three-dimensional image display
  • the figure which shows the operation example of a two-dimensional image display The figure which shows the operation example of a two-dimensional image display
  • region of the subtitles and processing apparatus image which are contained in a display image The figure which showed the format at the time of transmitting parallax information with the information about the field where an object is displayed
  • the stereoscopic video processing apparatus described in the present embodiment acquires stereoscopic video encoded information, which is information generated by encoding stereoscopic video information, and converts it into a format that can be displayed on the stereoscopic video display apparatus. That is, the stereoscopic video processing apparatus acquires and decodes stereoscopic video encoding information.
  • the stereoscopic video processing device associates the decoded stereoscopic video information with identification information indicating which of the left-eye video and the right-eye video is a video with a high average bit rate for encoding, and associates it with the stereoscopic video display device. Send.
  • the 3D video display device When displaying a 2D video based on the 3D video information received from the 3D video processing device, the 3D video display device generates and displays a 2D video (left eye video or right eye video) based on the identification information.
  • a 2D video left eye video or right eye video
  • these processes will be described in detail.
  • video content to be played back video content compression technology, video content multiplexing technology, configuration and operation of a stereoscopic video display system, and other embodiments will be described in this order.
  • Video content targeted in the present embodiment includes stereoscopic video information, audio information, and data information.
  • the stereoscopic video information includes left eye video data and right eye video data.
  • Each of the objects included in the left eye video data and the right eye video data has parallax. The presence of this parallax allows the viewer to perceive a 3D video by controlling the video display so that the viewer can view the left eye video with the left eye and the right eye video with the right eye. it can.
  • Audio information is audio information that can be output in synchronization with the stereoscopic video information (video stream).
  • Data information includes subtitle data and sub-picture data.
  • the sub-picture data is, for example, a privilege picture such as a bonus view or a graphics menu.
  • disparity information is added to subtitle data and sub-video data in order to provide a 3D video.
  • the disparity information added to the caption data is referred to as “caption disparity information”, and the disparity information added to the sub-picture data is referred to as “sub-picture disparity information”.
  • caption disparity information When a caption is presented as a stereoscopic video, the caption data is superimposed on the left-eye video data and the right-eye video data using the caption parallax information. As a result, subtitles as stereoscopic images can be presented to the viewer.
  • the caption parallax information corresponds to the shift amount of the display position of the caption in the horizontal direction when the caption is displayed on the display.
  • the disparity information corresponding to the shift amount may be expressed by the number of pixels or may be expressed in mm.
  • the amount of shift indicated by the parallax information corresponds to the display position in the depth direction of the screen when the image is displayed in 3D.
  • the stereoscopic video information is compressed and encoded.
  • one video for example, right-eye video
  • the left-eye video constituting the stereoscopic video is converted to the other video (for example, left
  • the image is compressed at a higher compression rate (lower average bit rate) than that of the eye image.
  • a video having a lower compression rate is referred to as a “first eye video”
  • a video having a higher compression rate is referred to as a “second eye video”. Specific examples are shown below.
  • the above-described compression can be realized for stereoscopic video information by multi-view video coding (MVC).
  • MVC is a technique for integrating and encoding a plurality of videos.
  • the first eye video (here, the left eye video) data is encoded by performing inter-frame prediction using only the first eye video data.
  • the second eye video (here, right eye video) data is encoded by performing inter-frame prediction using not only the second eye video data but also the first eye video data. That is, the first eye video (left eye video) data is composed of a P frame for performing forward prediction, a B frame for performing bidirectional prediction, and an I frame for encoding within the frame.
  • the second-eye video (right-eye video) data does not have an I frame for encoding within the frame, and is configured only by a P frame for performing forward prediction and a B frame for performing bidirectional prediction.
  • an image encoded using only the image data as in the first eye image is referred to as a “base view”, and as in the second eye image, the image of its own is used.
  • a video encoded using not only video data but also other video data is referred to as a “Dependent View”.
  • the second eye image that does not have an I frame and can be inter-frame predicted from the first eye image can be reduced in average bit rate compared to the first eye image, Highly efficient compression is possible.
  • MPEG4-AVC / H. H.264 may be used for compression coding.
  • compression techniques for audio information and data information are not mentioned, various known techniques can be applied to these.
  • Video Content Multiplexing Technology A multiplexing technology for associating and transferring compression-coded stereoscopic video information, audio information, and data information will be described.
  • 3D video information, audio information, and data information are multiplexed.
  • Various specific multiplexing techniques are conceivable.
  • PS program stream
  • TS transport stream
  • a stream generated by multiplexing stereoscopic video information, audio information, and data information is referred to as a stereoscopic video stream.
  • FIG. 3 shows the configuration of the stereoscopic video stream. As shown in the figure, the stereoscopic video stream is composed of encoded data 31 and header information 33.
  • Part of the header information 33 includes information (hereinafter referred to as “base view information”) indicating whether the base view of the stereoscopic video information is a right-eye video or a left-eye video.
  • base view information indicating whether the base view of the stereoscopic video information is a right-eye video or a left-eye video.
  • base view information indicating that the left eye video is the base view is added to the header information 33.
  • the base view information is used when decoding the stereoscopic video information.
  • a part of the header information 33 includes subtitle parallax information and sub-picture parallax information.
  • FIG. 4 shows the configuration of the stereoscopic video display system of this embodiment.
  • the stereoscopic video display system includes a stereoscopic video processing device 1 and a stereoscopic video display device 2.
  • the outline of the stereoscopic video display system will be described first, and the configurations of the stereoscopic video processing device 1 and the stereoscopic video display device 2 will be described later.
  • the stereoscopic video processing device 1 is connected to a stereoscopic video display device 2 that displays a stereoscopic video, a server 3 in which a stereoscopic video stream is stored, and an antenna 5.
  • a stereoscopic video processing device 1 acquires a stereoscopic video stream from the server 3, the optical disk 4, the antenna 5, or the memory card 6.
  • the server 3 is a network server in which stereoscopic video streams are accumulated.
  • the server 3 is connected to a network, and can be connected to the stereoscopic video processing apparatus 1 placed in the home via the network.
  • the server 3 can transmit a stereoscopic video stream to the stereoscopic video processing device 1 (network communication interface 13) in response to an access request from the stereoscopic video processing device 1.
  • the optical disc 4 is a recording medium on which a stereoscopic video stream is recorded.
  • the optical disk 4 can be inserted into the disk drive 11 of the stereoscopic video processing apparatus 1.
  • the stereoscopic video processing apparatus 1 (disk drive 11) can read a stereoscopic video stream recorded on the optical disk 4.
  • the antenna 5 is an antenna for receiving a broadcast wave including a stereoscopic video stream broadcast from a broadcasting device of a broadcasting station.
  • the antenna 5 transmits a broadcast wave including the received stereoscopic video stream to the stereoscopic video processing device 1 (tuner 12).
  • the memory card 6 is a semiconductor memory card in which a stereoscopic video stream is recorded, or a recording medium having a semiconductor memory inside.
  • the memory card 6 can be inserted into the stereoscopic video processing apparatus 1 (data transmission interface 15). Note that the stereoscopic video processing apparatus 1 (data transmission interface 15) can read the stereoscopic video stream recorded on the memory card 6.
  • the stereoscopic image processing apparatus 1 includes a disk drive 11, a tuner 12, a network communication interface 13, a memory device interface 14, a data transmission interface 15, a buffer memory (frame memory) 16, an HD drive 17, a flash memory 19, and an LSI 18.
  • the disk drive 11 includes an optical pickup and reads a stereoscopic video stream from the optical disk 4.
  • the disk drive 11 is connected to the LSI 18 and transmits a stereoscopic video stream read from the optical disk 4 to the LSI 18.
  • the disc drive 11 reads a stereoscopic video stream from the optical disc 4 and transmits it to the LSI 18 in accordance with the control from the LSI 18.
  • the tuner 12 acquires a broadcast wave including a stereoscopic video stream received by the antenna 5.
  • the tuner 12 extracts a stereoscopic video stream having a frequency specified by the LSI 18 from the acquired broadcast wave.
  • the tuner 12 is connected to the LSI 18 and transmits the extracted stereoscopic video stream to the LSI 18.
  • the network communication interface 13 performs control for connecting to the network.
  • the stereoscopic video processing device 1 can be connected to the server 3 via the network communication interface 13 and the network.
  • the network communication interface 13 acquires the stereoscopic video stream transmitted from the server 3.
  • the memory device interface 14 is an interface for mounting the memory card 6 and can receive a stereoscopic video stream from the mounted memory card 6.
  • the memory device interface 14 transmits the stereoscopic video stream read from the memory card 6 to the LSI 18.
  • the HD drive 17 incorporates a recording medium such as a hard disk, and transmits data read from the recording medium to the LSI 18.
  • the HD drive 17 records the data received from the LSI 18 on a recording medium.
  • the data transmission interface 15 is an interface for transmitting data transmitted from the LSI 18 to the external stereoscopic video display device 2.
  • the data transmission interface 15 is configured to be able to transmit and receive data signals and control signals to and from the stereoscopic video display device 2.
  • the LSI 18 can control the stereoscopic video display device 2 via the data transmission interface 15.
  • the data transmission interface 15 implements communication in conformity with, for example, HDMI (High-Definition Multimedia Interface).
  • the data transmission interface 15 is connected to the stereoscopic video display device 2 via an HDMI cable.
  • the HDMI cable includes a data line and a control line.
  • the data transmission interface 15 may have any configuration as long as it can transmit a data signal to the stereoscopic video display device 2.
  • the buffer memory 16 functions as a work memory for processing of the LSI 18.
  • the buffer memory 16 can be realized by, for example, a DRAM or an SRAM.
  • the flash memory 19 stores device image data of the stereoscopic video processing device 1 in advance.
  • the device image is, for example, an image including an image indicating channel information and volume information, information for adjusting display brightness, contrast amount, color temperature, and the like, and information for adjusting the image quality of the playback device.
  • the LSI 18 can display the device image read from the flash memory 19 on the stereoscopic video display device 2 by superimposing it on the video data. As a result, the LSI 18 can present the information of the stereoscopic video processing device 1 to the viewer.
  • the LSI 18 controls to display a setting screen.
  • the LSI 18 can also accept settings from the viewer on the setting screen.
  • the LSI 18 is a system controller that controls each part of the stereoscopic image processing apparatus 1 and can be realized by a microcomputer or a hard-wired circuit.
  • the LSI 18 is mounted with a CPU 181, a stream controller 182, a decoder 183, an AV input / output circuit 184, a system bus 185, and a memory controller 186.
  • the CPU 181 controls the entire LSI 18. Each part of the LSI 18 is configured to perform various controls based on the control from the LSI 18.
  • the CPU 181 also controls communication with the outside. For example, when acquiring a stereoscopic video stream from the server 3 or the like, the CPU 181 transmits a control signal to the disk drive 11, the tuner 12, the network communication interface 13, and the memory device interface 14. As a result, the disk drive 11, the tuner 12, the network communication interface 13, and the memory device interface 14 can acquire a stereoscopic video stream from a recording medium, a broadcasting station, or the like.
  • the stream controller 182 controls transmission / reception of data among the server 3, the optical disc 4, the antenna 5, the memory card 6, and active shutter glasses (described later).
  • the CPU 181 transmits the stereoscopic video stream acquired from the server 3 to the memory controller 186.
  • the memory controller 186 writes the data transmitted from each part of the LSI 18 into the buffer memory 16. For example, the memory controller 186 records the stereoscopic video stream acquired from the stream controller 182 in the buffer memory 16. The memory controller 186 reads data recorded in the buffer memory 16 from the buffer memory 16. Then, the buffer memory 16 transmits the read data to each part of the LSI 18.
  • the decoder 183 When the decoder 183 acquires data from the memory controller 186, the decoder 183 decodes the acquired data.
  • the data input to the decoder 183 is based on the control of the CPU 181.
  • the CPU 181 controls the memory controller 186 to read the stereoscopic video stream recorded in the buffer memory 16.
  • the CPU 181 controls the memory controller 186 to transmit the read stereoscopic video stream to the decoder 183.
  • the stereoscopic video stream is input from the memory controller 186 to the decoder 183.
  • the decoder 183 converts the input stereoscopic video stream into encoded data 31 (compression encoded stereoscopic video information, compression encoded audio information, and compression encoded data information).
  • the header information 33 is separated. Then, the decoder 183 records the header information 33 in the buffer memory 16.
  • the decoder 183 decodes the compressed data 31 based on the decode information included in the header information 33.
  • the decoder 183 transmits the decoded information (stereoscopic video information, audio information, and data information) to the memory controller 186.
  • the memory controller 186 records the information received from the decoder 183 in the buffer memory 16.
  • the AV input / output circuit 184 reads the decoded data 31 and header information 33 information from the buffer memory 16 and generates output data to be displayed on the stereoscopic video display device 2 based on them. Then, the AV input / output circuit 184 transmits the generated output data to the stereoscopic video display device 2 via the data transmission interface 15. At that time, the stream controller 182 and the decoder 183 analyze the header information 33 to obtain base view information.
  • the AV input / output circuit 184 includes the base view information in the output data as identification information indicating which one of the left-eye video and the right-eye video has a higher average bit rate. In this embodiment, the base view information is used as the identification information.
  • the identification information may be information indicating a video with a higher average bit rate of encoding between the left-eye video and the right-eye video. It is not limited to view information.
  • the AV input / output circuit 184 may generate identification information by analyzing a stereoscopic video stream and determining a video with a higher average bit rate of encoding between a left-eye video and a right-eye video. . The identification information is included for each frame in the output data.
  • the AV input / output circuit 184 generates output data as shown in FIG.
  • the AV input / output circuit 184 performs two steps to generate output data.
  • the first step is display image generation processing
  • the second step is output data generation processing.
  • each processing will be described.
  • the display image generation processing is processing for processing stereoscopic video information (left-eye video or right-eye video) in accordance with an instruction from the viewer. Specifically, this processing is performed when a display instruction for subtitles, a display instruction for sub-pictures, or a display instruction for a device image of the stereoscopic video processing device 1 (hereinafter referred to as “processing device image”) is received from the viewer. I do.
  • processing device image a display instruction for subtitles, a display instruction for sub-pictures, or a display instruction for a device image of the stereoscopic video processing device 1
  • I do Note that the viewer can instruct the stereoscopic video processing apparatus 1 using the remote controller.
  • An instruction from the remote control can be received by an infrared sensor provided in the stereoscopic video processing apparatus 1. An example of specific processing will be described below.
  • the AV input / output circuit 184 When the stereoscopic video processing apparatus 1 receives an instruction to display the caption video from the viewer, the AV input / output circuit 184 superimposes the caption video on the stereoscopic video data. More specifically, the AV input / output circuit 184 acquires the header information 33 from the buffer memory 16, and superimposes the caption video on the left-eye video or the right-eye video based on the parallax information of the caption video. For example, as illustrated in FIG. 6, when the parallax information (deviation amount) of the caption video is Y pixels, the AV input / output circuit 184 shifts the caption video 51 to the right by Y pixels with respect to the left-eye video 50a. The subtitle video 51 is shifted to the left by Y pixels and superimposed on the right eye video 50b. The same applies to the sub-picture 53 added to the three-dimensional pictures 50a and 50b.
  • the AV input / output circuit 184 receives a processing device image corresponding to the instruction from the flash memory 19 (for example, a stereoscopic video processing device). Function menu image 1) data is acquired. Then, the AV input / output circuit 184 acquires parallax information of the caption video from the buffer memory 16. The AV input / output circuit 184 determines the parallax information of the processing device image based on the acquired parallax information of the caption video.
  • the AV input / output circuit 184 displays parallax information (for example, Z pixels) so that the processing device image is displayed in front (viewer side) in the depth direction of the screen from the caption video in the stereoscopic display. decide. That is, the parallax information is determined so that the parallax of the device image is larger than the parallax of the caption video. For example, in the stereoscopic display as shown in FIG. 7, in the situation where the object 110 and the caption 51 based on the stereoscopic video are displayed on the viewer 200 side from the screen 30 of the stereoscopic video display device 2, The disparity information of the processing device image 55 is determined so that the processing device image 55 is displayed on the person side.
  • parallax information for example, Z pixels
  • the three-dimensional object 110 is the object displayed on the viewer 200 most of the objects displayed on the three-dimensional image, and the caption 51 is displayed on the viewer 200 side than the object 110. It is said.
  • the viewer can visually recognize the processing device image 55 without a sense of incongruity.
  • the AV input / output circuit 184 superimposes the processing device images based on the parallax information determined as described above.
  • the processing device image 55 when the disparity information (deviation amount) of the processing device image 55 is Z pixels, the processing device image 55 is superimposed on the left eye image 50a while being shifted to the right by Z pixels. The processing device image 55 is shifted to the left of the Z pixel and superimposed on the eye image 50b.
  • the AV input / output circuit 184 generates video data indicating the left eye video 50a and the right eye video 50b in which the processing device images 55 are overlapped in this way.
  • the AV input / output circuit 184 generates output data as shown in FIG. As shown in FIG. 8, the output data is J ⁇ K pixel data including an invalid section (blanking area) and an effective section (active area) of the video.
  • the active area includes the display image generated by the display image generation process.
  • a data transmission interface such as HDMI, audio data, video format information, reserved information, and the like are included in a packet and transmitted in a blanking area.
  • the audio data includes audio information corresponding to the video included in the active area.
  • the video format information includes information such as resolution and aspect ratio of the screen.
  • the reserved information includes identification information indicating a video having a higher average bit rate of encoding between the left eye video and the right eye video. In the present embodiment, base view information is used as the identification information.
  • the reserved information further includes the maximum parallax information of the display image generated by the display image generation process. For example, when the processing device image is superimposed by the above-described display image generation process, the parallax information Z is given. A method for calculating the maximum parallax information will be described later.
  • the identification information is information indicating a video with a higher average bit rate of encoding between the left eye video and the right eye video.
  • the identification information is not limited to this, and may be information indicating which video includes the I frame at the time of encoding. Therefore, in the case of a video encoded with MVC, the decoder may detect whether the frame including the I frame is a left-eye video or a right-eye video, and generate identification information based on the detected information.
  • the reserved information includes identification information indicating a video with a higher average bit rate of encoding between the left eye video and the right eye video for each frame.
  • the present invention is not limited to this, and it may be included every n frames (n> 1).
  • the identification information may be included in the reserved information at the timing when the base view changes from the left eye video to the right eye video (or vice versa).
  • the AV input / output circuit 184 outputs the data generated by the above two processes to the stereoscopic video display device 2 via the data transmission interface 15.
  • Extraction information is as follows.
  • parallax information is adjusted so that the device image of the stereoscopic video processing device 1 is displayed on the viewer side with respect to the caption data.
  • the maximum parallax information is Z. Even if the parallax information X is larger than Z, the maximum parallax information is Z because the sub-video is not superimposed on the stereoscopic video information.
  • the maximum parallax information is X.
  • stereoscopic video information does not have parallax information. Since it is difficult to analyze the stereoscopic video information and obtain the parallax information, the maximum parallax information is obtained using the parallax information of the caption data or the sub-video data.
  • the parallax information of the sub-picture data (the minimum parallax among the non-superimposed data) is used. By displaying the device image of the stereoscopic video display device 2 based on the maximum parallax information obtained in this way, it is possible to reduce a sense of discomfort felt by the viewer.
  • the parallax information Y of the caption data may be used as the maximum parallax information.
  • the stereoscopic video processing apparatus includes a circuit that detects the parallax information of the stereoscopic video information
  • the parallax information of the stereoscopic video information that can be detected by the circuit is compared with the parallax information such as caption data and sub-video data.
  • the maximum parallax information in the parallax information may be obtained.
  • FIG. 9 shows the configuration of the stereoscopic video display device 2.
  • the stereoscopic video display device 2 includes a display 24 and displays video data (display image) included in output data from the stereoscopic video processing device 1.
  • the display 24 is composed of, for example, a liquid crystal display, a plasma display, or an organic EL display. That is, the stereoscopic video display device 2 can display the video included in the output data transmitted from the stereoscopic video processing device 1.
  • the stereoscopic video display device 2 includes a controller 22, a memory 23, a display 24, a data transmission interface 21 and a communication interface 25.
  • the memory 23 can be realized by, for example, a flash memory or a DRAM.
  • the controller 22 can be realized by a microprocessor, for example.
  • the data transmission interface 21 is an interface for transmitting and receiving data between the stereoscopic video display device 2 and the stereoscopic video processing device 1.
  • the data transmission interface 21 performs communication based on, for example, HDMI (High-Definition Multimedia Interface).
  • the communication interface 25 is an interface for communicating with the active shutter glasses 7.
  • the communication interface 25 establishes communication with the active shutter glasses 7 by wireless or wired such as infrared rays or Bluetooth, for example.
  • the stereoscopic video display device 2 can switch the display mode between the 3D video display mode and the 2D video display mode in accordance with a signal from the remote controller.
  • the display operation in each mode will be described.
  • the stereoscopic video display device 2 displays video for enabling viewing of stereoscopic video using the active shutter glasses 7 (see FIG. 10A). Specifically, the stereoscopic video processing device 1 alternately outputs video data indicated by the left eye video and video data indicated by the right eye video to the stereoscopic video display device 2. The stereoscopic video display device 2 alternately displays the left eye video and the right eye video included in the video data acquired from the stereoscopic video processing device 1 on the screen of the display 24 (see FIG. 10B). The viewer can recognize the video displayed on the stereoscopic video display device 2 in this way through the active shutter glasses 7 as a stereoscopic video.
  • the active shutter glasses 7 include a shutter that can block the viewer's left or right visual field.
  • the active shutter glasses 7 block the viewer's right eye field of view on the stereoscopic image display device 2, while the right-eye image is displayed on the stereoscopic image display device 2.
  • the shutter is controlled so as to block the visual field of the left eye with respect to the stereoscopic video display device 2 of the viewer. That is, as shown in FIG. 10A and FIG. 10B, when a screen showing a left-eye image is displayed on the stereoscopic video display device 2, the viewer sees the video with the left eye, and the stereoscopic video display device 2.
  • the screen showing the right eye image is displayed on the screen, the image is viewed with the right eye.
  • the viewer can visually recognize the screens sequentially displayed on the stereoscopic video display device 2 as a stereoscopic video.
  • the controller 22 of the stereoscopic video display device 2 superimposes and displays the device image of the stereoscopic video display device 2 (hereinafter referred to as “display device image”) on the display screen in accordance with a viewer's instruction (remote control instruction).
  • display device image is superimposed on the video data and displayed.
  • Display device image data is stored in the memory 23.
  • the display device image includes, for example, an image indicating channel information and volume information, information for adjusting the brightness, contrast amount, and color temperature of the display, and information for adjusting the image quality of the playback device.
  • the controller 22 superimposes and displays the display device image on the video data as follows.
  • the controller 22 determines the disparity information (for example, Z + ⁇ pixel) of the display device image based on the disparity information (for example, Z pixel) included in the output data of the stereoscopic video processing device 1.
  • the controller 22 superimposes the display device image based on the determined parallax information. Since this superimposing method is the same as the method described in the stereoscopic video processing apparatus 1, it is omitted. In this way, it is possible to superimpose a display device image that is less uncomfortable when displayed on the video processed by the stereoscopic video processing device 1. As a result, the viewer can view the 3D video without feeling uncomfortable.
  • the example using the active shutter glasses 7 has been described.
  • parallax information included in the output data can be used not only for parallax adjustment of the display device image but also for the following uses.
  • the parallax information can be used as follows.
  • the stereoscopic video display device first presents the video to the viewer with the pop-up amount of the stereoscopic video determined based on the parallax information included in the output data from the stereoscopic video processing device. Then, the stereoscopic video display device further adjusts the projection amount of the stereoscopic video based on an instruction from the viewer via the remote controller or the like. In this way, as in the case of volume adjustment, the viewer can adjust the parallax with easy means.
  • the stereoscopic video display device detects the magnitude of the parallax based on the parallax information included in the output data from the stereoscopic video processing device, and automatically restricts display if the detected parallax is greater than a predetermined value. I do.
  • the display restriction the display position of the entire display screen is adjusted so that the parallax between the objects of the right eye image and the left eye image becomes small.
  • the two-dimensional video display mode is a mode for displaying a 2D video based on stereoscopic video information.
  • the stereoscopic video display device 2 displays only the left eye video or the right eye video on the display 24.
  • the function of the active shutter glasses 7 is turned off. That is, the active shutter glasses 7 transmit light to both eyes.
  • the viewer can view the 2D video without using the active shutter glasses 7.
  • the controller 22 of the stereoscopic video display device 2 uses the identification information included in the output data from the stereoscopic video processing device 1 (either the left eye video or the right eye video has a high average bit rate for encoding). Left eye image or right eye image is selected as the image to be displayed based on the information). That is, the controller 22 causes the display 24 to display the video (for example, the left eye video) indicated by the identification information as an option.
  • the stereoscopic video display device 2 can recognize a video that has been compressed with a high average bit rate.
  • a stereoscopic video processing device when transmitting video information according to HDMI between a stereoscopic video processing device and a stereoscopic video display device, when switching the video information to be transmitted between 3D video information (stereoscopic video information) and 2D video information, Authentication processing is required between the video processing device and the stereoscopic video display device. During this authentication process, the stereoscopic video display device stops displaying video. For this reason, there is a problem that a re-authentication process occurs every time switching between 3D video (stereoscopic video) information and 2D video information, thereby interrupting the viewer's convenience.
  • the stereoscopic video display device 2 receives the 3D video information (stereoscopic video information) from the stereoscopic video processing device 1 and displays the format of the video to be displayed. Can be switched between a three-dimensional display that enables stereoscopic viewing and a two-dimensional display that does not allow stereoscopic viewing. Thereby, since the authentication process as described above is not necessary, it is possible to prevent the convenience of the viewer from being impaired due to the switching between the three-dimensional display and the two-dimensional display. Furthermore, in the two-dimensional video display mode, the video having the higher average bit rate can be recognized by referring to the identification information, so that the video having the higher image quality can be selected and provided to the viewer.
  • the 3D video information stereoscopic video information
  • the stereoscopic video processing device 1 acquires a stereoscopic video stream from the optical disc 4.
  • the stereoscopic video processing device 1 separates the stereoscopic video stream into header information, stereoscopic video encoding information, audio information, and data information. Thereafter, the stereoscopic video processing apparatus 1 decodes each data by the decoder 183 (each decoder), and records the decoded data in the buffer memory 16 (each area).
  • the stereoscopic video processing device 1 reads the left eye video data and the right eye video data alternately.
  • the stereoscopic video processing device 1 superimposes subtitle data and menu data on stereoscopic video information (left-eye video data or right-eye video data) in accordance with a viewer instruction.
  • the stereoscopic image processing device 1 uses the disparity information (caption disparity information and sub-image disparity information) included in the header information of the stereoscopic image stream to position the caption data and the menu data on the right eye image and the left eye image. Is determined and superimposed on the stereoscopic video information.
  • the stereoscopic video processing device 1 superimposes the processing device image (OSD) on the stereoscopic video information in accordance with a viewer instruction. At this time, the stereoscopic video processing device 1 determines the parallax information of the processing device image using the caption parallax information or the sub-video parallax information, and superimposes the processing device image using the determined parallax information. In this way, display image information is generated.
  • OSD processing device image
  • the stereoscopic video processing device 1 calculates the maximum parallax information of the display image. Specifically, the largest parallax information is set as the maximum parallax information among the parallax information of the superimposed video (caption and sub-video).
  • the stereoscopic video processing device 1 transmits the parallax information calculated in this way together with the display image information to the stereoscopic video display device 2 as output data.
  • the stereoscopic video display device 2 sequentially displays display images on the display based on the received display image information.
  • the stereoscopic video display device 2 displays a display device image (OSD) superimposed on the stereoscopic video information in accordance with a viewer instruction. Therefore, the stereoscopic video display device 1 determines the parallax information of the display device image using the parallax information included in the output data from the stereoscopic video processing device 1, and uses the determined parallax information to convert the display device image to the stereoscopic video. Superimpose on.
  • OSD display device image
  • the stereoscopic video display device 2 can superimpose the display device image at a position on the display image where the viewer feels less discomfort when viewing the display image in a stereoscopic manner.
  • the stereoscopic video processing apparatus 1 acquires a stereoscopic video stream from the optical disc 4.
  • the stereoscopic video processing device 1 separates the stereoscopic video stream into header information, stereoscopic video encoding information, audio information, and data information. Thereafter, the stereoscopic video processing device 1 decodes each data by the decoder 183 (each decoder).
  • the stereoscopic video processing apparatus 1 records the decoded data in the buffer memory 16 (each area).
  • the stereoscopic image processing apparatus 1 alternately reads the left eye image data and the right eye image data.
  • the stereoscopic video processing device 1 detects the base view information included in the header information 33 of the stereoscopic video stream, combines the detected base view information with the display image as identification information, and outputs the stereoscopic video display device as output data. 2 to send.
  • the stereoscopic video display device 2 selects either a left-eye video or a right-eye video from the received display image information, and sequentially displays it on the display. At this time, the stereoscopic video display device 2 selects the left eye video or the right eye video based on the identification information included in the output data. By referring to the identification information in this way, the stereoscopic video display device 2 can recognize a video with better image quality among the left eye video and the right eye video by a simple method.
  • the stereoscopic video processing device 1 is a device capable of outputting stereoscopic video information enabling stereoscopic viewing to the stereoscopic video display device 2, and is a disk drive 11 that acquires stereoscopic video information.
  • a superimposing unit AV input / output circuit 184 (an example of a superimposing unit) that superimposes additional video information (at least one of caption information, sub-video information, and a processing device image) on stereoscopic video information, and an addition
  • a data transmission interface 15 (an example of a transmission unit) that transmits the parallax information of the video information to the video display device 2 in a state of being associated with the stereoscopic video information on which the additional video information is superimposed.
  • the video processing device 1 can transmit disparity information related to stereoscopic video information after video processing (decoding) to the video display device 2 by a simpler method.
  • the video display device 2 can arrange the display device image (OSD) at a more appropriate position, and can present the display device image (OSD) that can be viewed without a sense of incongruity to the viewer.
  • the stereoscopic video processing apparatus 1 of the present embodiment is an apparatus that can output stereoscopic video information that enables stereoscopic viewing including a first eye video and a second eye video on the video display device 2.
  • the video processing apparatus 1 acquires a disc drive 11 (acquisition) that acquires stereoscopic video information encoded using an encoding method (for example, MVC) that encodes the first eye video and the second eye video at different bit rates.
  • An example of a unit a decoder 183 that decodes stereoscopic video information (an example of a decoding unit), and identification information indicating a video having a higher encoding bit rate of the first eye video and the second eye video.
  • a data transmission interface 15 (an example of a transmission unit) that transmits the image display apparatus 2 in a state associated with the stereoscopic image information.
  • the video processing device 1 notifies the video display device 2 which one of the first eye video and the second eye video is the higher quality video by a simpler method. Can do.
  • the video display device 2 can select the video with the better image quality of the first eye video and the second eye video, and the video display device 2 can view the selected video by two-dimensionally displaying it. 2D video with good image quality can be provided to the user.
  • the video source is not limited thereto.
  • Broadcasting stations, servers, memory cards, and the like that provide stereoscopic video coding information are also examples of video sources to which the above concept can be applied.
  • the embodiment of the present invention is not limited to this.
  • base view information may be stored in management information (playlist) included in a stereoscopic video stream, and a video with a high average bit rate may be detected using this management information.
  • the management information is information provided at the beginning of the stereoscopic video stream data.
  • a video with a high average bit rate may be detected by observing the bit rate of the stereoscopic video coding information.
  • the average bit rate may be obtained as an average value in a predetermined section of the stereoscopic video coding information, or may be obtained as an average value of the entire stereoscopic video coding information.
  • the identification information and the maximum parallax information are included in the reserved area and output.
  • the present invention is not limited to this, and the identification information and the maximum parallax information may be transmitted via a control line as HDMI CEC (Consumer-Electronic-Control) commands.
  • the caption information is superimposed on each of the right eye video and the left eye video in consideration of the parallax information.
  • the present invention is not limited to this, and in the video content, the left-eye caption information corresponding to the left-eye image and the right-eye caption information corresponding to the right-eye image are superimposed on the left-eye image and the right-eye image, respectively. It may be.
  • caption parallax information is easier than obtaining parallax information of stereoscopic video information. The same applies to the sub-picture information.
  • the stereoscopic video processing device 1 outputs the parallax information regarding the parallax that is the maximum in the entire display image to the stereoscopic video display device 2, but transmits the parallax information for each partial region of the display image. May be.
  • the stereoscopic video processing device 1 uses the disparity information of the processing device image 61 and the caption 62 as the object.
  • the information may be output to the stereoscopic video display device 2 together with information related to the area where the image is displayed.
  • FIG. 16 shows a format when disparity information is transmitted by such a method. As shown in FIG.
  • the parallax information is output to the stereoscopic image display device 2 in association with the start position (xs, ys) of the region and the size of the region (horizontal length Lx ⁇ vertical length Ly) for each region.
  • the stereoscopic video display device 2 can determine the display position of the display device image so that the display device image does not overlap the object displayed in each region by referring to the parallax information for each region.
  • the parallax information and the information regarding the area are not limited to one or two, and may be plural.
  • the present invention can be applied to a device (for example, a video recording device or an optical disk reproducing device) that can output a stereoscopic video to a television receiver or a display that can display a stereoscopic video.
  • a device for example, a video recording device or an optical disk reproducing device
  • a stereoscopic video to a television receiver or a display that can display a stereoscopic video.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 映像処理装置は、映像表示装置に、第1眼映像と第2眼映像を含み、立体視を可能とする立体映像情報を出力可能な装置である。映像処理装置は、第1眼映像と第2眼映像をそれぞれ異なるビットレートで符号化する符号化方式を用いて符号化された立体映像情報を取得する取得手段と、立体映像情報を復号する復号手段と、第1眼映像と第2眼映像のうちの符号化ビットレートの高い方の映像を示す識別情報を、復号された立体映像情報に関連付けた状態で映像表示装置に送信する送信手段と、を備える。

Description

映像処理装置
 本発明は、立体視を可能とする立体映像情報を出力する映像処理装置に関する。
 特許文献1は、立体画像を表示する装置であって、2次元画像表示モードと3次元画像表示モードを自由に切り替え可能な装置を開示している。特許文献1では、装置にメインバッファ及びオーバレイバッファを設け、表示モードに応じてバッファを切り替えるようにしている。これによって、装置は表示モードの切り替えを容易に行なえる。
 3次元映像の提供は以下のように実現される。表示装置は、人の左眼に提示される左眼映像と、右眼に提示される右眼映像とを含む映像情報(以下「立体映像情報」と称す)を用いる。表示装置は、左眼映像が視聴者の左眼で視認され、右眼映像が視聴者の右眼で視認されるように表示を制御する。これによって表示装置は視聴者に3次元映像を提供できる。
 一方、立体映像情報に基づく2次元映像の提供は以下のように実現される。表示装置は、立体映像情報に含まれる左眼映像又は右眼映像のうちのいずれかを選択して、選択された映像のみを表示する。これによって表示装置は視聴者に2次元映像を提供できる。
特開2008-244835号公報
 立体映像の表示は、人が両眼で見たときの左右の眼の視差を利用して行われる。左眼映像と右眼映像は視差に応じた差異を有するが、全体として通常非常に類似した絵柄となる。この左眼映像と右眼映像間の類似性を利用し、立体映像情報の圧縮技術として、左右の映像の相関を利用して、より高効率な符号化を実現する方法がある。
 一例として、多視点映像符号化(MVC:Multiview Video Cording)がある。MVCでは、左眼映像及び右眼映像のいずれか一方の映像(例えば左眼映像、以下「ベースビュー」と称す)については、そのベースビューの情報のみを参照して符号化する。さらに、他方の映像(例えば右眼映像、以下「ディペンデントビュー」と称す)については、符号化する映像フレームの前後のフレームを参照するだけでなく、ベースビュー(例えば左眼映像)における同一時間の映像フレームをも参照して符号化する。このような符号化によりディペンデントビューの符号化効率を高めている。この場合、ディペンデントビューは、ベースビューに比べ圧縮率が高く(すなわちビットレートが低く)なる反面、復号した場合には、ベースビューよりも画質が低下するおそれがある。
 このような背景において、復号化された立体映像から左眼映像もしくは右眼映像のいずれかを選択して2次元映像として視聴者に提供する際、圧縮率が高い方の映像を選択して表示してしまうと、画質が低い映像が視聴者に提供されてしまう。
 図1を用いてこの課題を具体的に説明する。すなわち、立体映像処理装置1000は、圧縮符号化された立体映像情報(立体映像符号化情報)を取得し、復号する。映像処理装置1000は、復号した立体映像情報を映像表示装置2000に送信する。映像表示装置2000は、受信した立体映像情報を表示する。視聴者の操作等により、受信した立体映像情報を2次元映像として表示する場合、映像表示装置2000は、立体映像情報に含まれる左眼映像及び右眼映像のいずれかの映像を選択して表示する必要がある。この場合、立体映像表示装置2000は、立体映像処理装置1000から受信した左眼映像及び右眼映像のうち、いずれが圧縮率の低い映像(ベースビュー)かを判断することが出来ない。このため、立体映像処理装置1000が誤ってディペンデントビューである映像すなわち画質が低いおそれのある映像を表示する、という問題がある。
 本発明は、上記課題を解決するためになされたものであり、立体映像表示装置において画質の低下を招かずに3次元映像情報に基づき2次元映像の表示を可能とするように、立体映像表示装置に映像情報を提供する立体映像処理装置を提供することを目的とする。
 本発明に係る映像処理装置は、映像表示装置に、第1眼映像と第2眼映像を含み、立体視を可能とする立体映像情報を出力可能な映像処理装置である。映像処理装置は、第1眼映像と第2眼映像をそれぞれ異なるビットレートで符号化する符号化方式を用いて符号化された立体映像情報を取得する取得手段と、立体映像情報を復号する復号手段と、第1眼映像と第2眼映像のうちの符号化ビットレートの高い方の映像を示す識別情報を、復号された立体映像情報に関連付けた状態で前記映像表示装置に送信する送信手段と、を備える。
 本発明によれば、映像処理装置は、映像表示装置に対して、より簡易な方法で、第1眼映像と第2眼映像のうちいずれが画質の高い方の映像であるかを知らせることができる。これによって、映像表示装置は、第1眼映像と第2眼映像のうちの画質のより良い方の映像を選択でき、映像表示装置は、選択した映像を2次元表示することで、視聴者に対して画質の良い2次元映像を提供できる。
課題を説明するための図 立体映像情報の圧縮符合化技術の概略を説明するための図 立体映像ストリームの一例を示す図 立体映像システムの構成例を示す図 立体映像処理装置の構成例を示す図 字幕映像や処理装置画像を立体映像データに重ね合わせた場合の例を説明するための図 字幕映像や処理装置画像を立体映像データに重ね合わせた場合の例を説明するための図 立体映像処理装置から立体映像表示装置への出力データを説明するための図 立体映像表示装置の構成例を示す図 立体映像の表示方法を説明するための図 立体映像の表示方法を説明するための図 3次元映像表示の動作例を示す図 3次元映像表示の動作例を示す図 2次元映像表示の動作例を示す図 2次元映像表示の動作例を示す図 表示画像中に含まれる字幕や処理装置画像の領域を説明するための図 オブジェクトが表示される領域に関する情報とともに視差情報を送信する際のフォーマットを示した図
 以下、添付の図面を参照して実施形態を説明する。
 1.概要
 本実施形態において説明する立体映像処理装置は、立体映像情報を符号化して生成された情報である立体映像符号化情報を取得し、立体映像表示装置で表示可能な形式に変換する。すなわち、立体映像処理装置は、立体映像符号化情報を取得し、復号する。そして、立体映像処理装置は、復号した立体映像情報に、左眼映像又は右眼映像のいずれが符号化の平均ビットレートの高い映像であるかを示す識別情報を関連付けて、立体映像表示装置に送信する。立体映像表示装置は、立体映像処理装置から受信した立体映像情報に基づき2次元映像を表示する場合、その識別情報に基づき2次元映像(左眼映像又は右眼映像)を生成し、表示する。以下、これらの処理を詳細に説明する。なお、以下では、再生対象の映像コンテンツ、映像コンテンツの圧縮技術、映像コンテンツの多重化技術、立体映像表示システムの構成及び動作、他の実施の形態、の順に説明する。
 2.映像コンテンツ
 本実施形態で対象とする映像コンテンツは、立体映像情報、音声情報、及びデータ情報で構成される。
 立体映像情報は、左眼映像データと右眼映像データを含んでいる。左眼映像データと右眼映像データに含まれるオブジェクトのそれぞれは視差を有している。この視差があることによって、視聴者に左眼映像を左眼で視聴させ、右眼映像を右眼で視聴させるように映像表示を制御することで、視聴者は3次元映像を知覚することができる。
 音声情報は上記立体映像情報(映像ストリーム)と同期して出力可能な音声の情報である。
 データ情報は、字幕データや副映像データを含んでいる。副映像データは、例えば、ボーナス・ビュー、グラフィックスメニュー等の特典映像である。なお、字幕データ及び副映像データには、3次元映像を提供するために視差情報が付加されている。字幕データに付加される視差情報を「字幕視差情報」と称し、副映像データに付加される視差情報を「副映像視差情報」と称する。字幕を立体映像として提示する場合、字幕視差情報を用いて、左眼映像データ及び右眼映像データに字幕データを重畳する。これによって、立体映像としての字幕を視聴者に提示できるようになる。
 なお、字幕視差情報は、字幕をディスプレイに表示した際における、字幕の水平方向の表示位置のズレ量に対応する。副映像視差情報も同様である。ズレ量に対応する視差情報は、ピクセル数で表現してもよいし、mm単位で表現してもよい。視差情報が示すズレ量は、その画像が立体表示された場合の、画面の奥行き方向の表示位置に対応する。
 3.圧縮符合化された映像コンテンツ(立体映像情報、音声情報、データ情報)
 立体映像情報は圧縮符合化されている。特に、本実施の形態では、立体映像情報の圧縮技術に関して、立体映像を構成する右眼映像と左眼映像のうちの一方の映像(例えば、右眼映像)が、他方の映像(例えば、左眼映像)よりも高い圧縮率(低い平均ビットレート)で圧縮されるように構成されている。以下、立体映像を構成する映像のうち、圧縮率がより低い方法の映像を「第1眼映像」と称し、圧縮率がより高い方法の映像を「第2眼映像」と称する。以下に具体例を示す。
 例えば、多視点映像符号化(MVC:Multiview Video Cording)により、立体映像情報について上述のような圧縮を実現できる。MVCとは、複数の映像を統合して符号化する技術である。本実施の形態では、図2に示すように、第1眼映像(ここでは左眼映像)データは、第1眼映像データのみを用いてフレーム間予測を行い符号化されている。これに対して、第2眼映像(ここでは右眼映像)データは、第2眼眼映像データだけでなく、第1眼映像データをも用いてフレーム間予測を行い符号化されている。つまり、第1眼映像(左眼映像)データは、前方予測を行なうPフレームと、双方向予測を行なうBフレームと、フレーム内で符号化を行なうIフレームとで構成される。一方、第2眼映像(右眼映像)データは、フレーム内で符号化を行うIフレームを持たず、前方予測を行なうPフレームと、双方向予測を行なうBフレームのみで構成されることになる。MVCでは、上記の第1眼映像のように、その映像データのみを用いて符号化された映像を「ベースビュー(Base View)」と称し、上記の第2眼映像のように、それ自身の映像データだけでなく、他の映像データも用いて符号化された映像を「ディペンデントビュー(Dependent View)」と称する。
 このようにMVCにより符号化することで、Iフレームを持たず、第1眼映像からもフレーム間予測が可能な第2眼映像は、第1眼映像に比べて平均ビットレート下げることができ、高効率な圧縮が可能となる。
 なお、上記に限らず、MPEG4-AVC/H.264を用いて圧縮符合化してもよい。また、音声情報及びデータ情報についての圧縮技術は言及していないが、これらについては、公知の様々な技術を適用することが可能である。
 4.映像コンテンツの多重化技術
 圧縮符合化された立体映像情報、音声情報、データ情報を関連付けて、転送するための多重化技術を説明する。
 立体映像情報、音声情報、及びデータ情報は多重化されている。具体的な多重化技術は様々考えられるが、例えば、蓄積系(光ディスク等)であれば、PS(プログラムストリーム)およびTS(トランスポートストリーム)に変換し、放送/通信系(放送波等)であれば、TSに変換する。立体映像情報、音声情報、及びデータ情報が多重化されて生成されるストリームを立体映像ストリームと呼ぶ。図3に立体映像ストリームの構成を示す。同図に示すように、立体映像ストリームは、符号化されたデータ31と、ヘッダ情報33とで構成される。
 ヘッダ情報33の一部に、立体映像情報のベースビューが右眼映像と左眼映像のいずれであるかを示す情報(以下「ベースビュー情報」と称す)が含まれている。本実施形態では、左眼映像をベースビュー映像としているので、左眼映像がベースビューであることを示すベースビュー情報がヘッダ情報33に付加されている。ベースビュー情報は立体映像情報の復号時に使用される。
 また、本実施の形態では、ヘッダ情報33の一部に、字幕視差情報、及び、副映像視差情報が含まれている。
 5.立体映像表示システムの構成
 図4に、本実施形態の立体映像表示システムの構成を示す。立体映像表示システムは、立体映像処理装置1と立体映像表示装置2を含む。先に立体映像表示システムの概要を説明し、立体映像処理装置1及び立体映像表示装置2の構成は後述する。
 図4に示すように、立体映像処理装置1は、立体映像を表示する立体映像表示装置2と、立体映像ストリームが蓄積されているサーバ3と、及びアンテナ5とに接続されている。また、立体映像処理装置1には、光ディスク4及びメモリカード6が挿入されている。立体映像処理装置1は、サーバ3、光ディスク4、アンテナ5、またはメモリカード6から、立体映像ストリームを取得する。
 サーバ3は、立体映像ストリームが蓄積されているネットワークサーバである。サーバ3は、ネットワークに接続されており、ネットワークを介して家庭内におかれた立体映像処理装置1と接続可能である。サーバ3は、立体映像処理装置1からのアクセス要求に対応して、立体映像ストリームを立体映像処理装置1(ネットワーク通信インターフェース13)に送信することが可能である。
 光ディスク4は、立体映像ストリームが記録された記録メディアである。光ディスク4は、立体映像処理装置1のディスクドライブ11に挿入可能である。立体映像処理装置1(ディスクドライブ11)は、光ディスク4に記録された立体映像ストリームを読み出すことが可能である。
 アンテナ5は、放送局の放送装置から放送された立体映像ストリームを含む放送波を受信するためのアンテナである。アンテナ5は、立体映像処理装置1(チューナ12)に対して、受信した立体映像ストリームを含む放送波を送信する。
 メモリカード6は、立体映像ストリームが記録された半導体メモリカード、又は半導体メモリを内部に有した記録媒体である。メモリカード6は、立体映像処理装置1(データ伝送インターフェース15)に挿入可能である。なお、立体映像処理装置1(データ伝送インターフェース15)は、メモリカード6に記録された立体映像ストリームを読み出すことが可能である。
 5-1.立体映像処理装置の構成
 図5を用いて立体映像処理装置1の構成を説明する。立体映像処理装置1は、ディスクドライブ11、チューナ12、ネットワーク通信インターフェース13、メモリデバイスインターフェース14、データ伝送インターフェース15、バッファメモリ(フレームメモリ)16、HDドライブ17、フラッシュメモリ19及びLSI18を備える。
 ディスクドライブ11は、光ピックアップを含み、光ディスク4から立体映像ストリームを読み出す。ディスクドライブ11は、LSI18と接続されており、光ディスク4から読み出した立体映像ストリームをLSI18に送信する。ディスクドライブ11は、LSI18からの制御に応じて、光ディスク4から立体映像ストリームを読み出し、LSI18に送信する。
 チューナ12は、アンテナ5で受信した立体映像ストリームを含む放送波を取得する。チューナ12は、取得した放送波から、LSI18によって指定された周波数の立体映像ストリームを取り出す。チューナ12はLSI18に接続されており、取り出した立体映像ストリームをLSI18に送信する。
 ネットワーク通信インターフェース13は、ネットワークに接続するための制御を行う。本実施形態では、立体映像処理装置1は、ネットワーク通信インターフェース13及びネットワークを介してサーバ3と接続可能である。ネットワーク通信インターフェース13は、サーバ3から送信された立体映像ストリームを取得する。
 メモリデバイスインターフェース14は、メモリカード6を装着するためのインターフェースであり、装着されたメモリカード6から立体映像ストリームを受信することが可能である。メモリデバイスインターフェース14は、メモリカード6から読み出された立体映像ストリームをLSI18に送信する。
 HDドライブ17は、ハードディスクなどの記録媒体を内蔵し、記録媒体から読み出されたデータをLSI18に送信する。また、HDドライブ17は、LSI18から受信したデータを記録媒体に記録する。
 データ伝送インターフェース15は、LSI18から送信されたデータを、外部の立体映像表示装置2に送信するためのインターフェースである。データ伝送インターフェース15は、データ信号及びコントロール信号を、立体映像表示装置2との間で送受信可能に構成されている。LSI18は、データ伝送インターフェース15を介して、立体映像表示装置2を制御することが可能である。データ伝送インターフェース15は、例えば、HDMI(High-Definition Multimedia Interface)に準拠して通信を実現する。データ伝送インターフェース15は、HDMIケーブルを介して立体映像表示装置2と接続する。HDMIケーブルは、データ線とコントロール線とを含む。なお、データ伝送インターフェース15は、データ信号を立体映像表示装置2に送信できれば、どのような構成であってもかまわない。
 バッファメモリ16は、LSI18の処理のためのワークメモリとして機能する。バッファメモリ16は、例えば、DRAMやSRAMなどで実現可能である。
 フラッシュメモリ19は、立体映像処理装置1の装置画像のデータを予め格納している。装置画像は、例えば、チャンネルの情報や音量の情報、ディスプレイの輝度・コントラスト量・色温度などを調整するための情報、再生装置の画質を調整するための情報を示す画像を含む画像である。LSI18は、フラッシュメモリ19から読み出した装置画像を映像データに重ね合わせて立体映像表示装置2に表示させることができる。これによって、LSI18は、立体映像処理装置1の情報を視聴者に提示できる。また、LSI18は、設定画面を表示するよう制御する。LSI18は、その設定画面上で視聴者から設定を受け付けることも可能になる。
 LSI18は、立体映像処理装置1の各部を制御するシステムコントローラであり、マイクロコンピュータやハードワイヤードな回路で実現できる。LSI18は、CPU181、ストリームコントローラ182、デコーダ183、AV入出力回路184、システムバス185及びメモリコントローラ186が実装されている。
 CPU181はLSI18全体を制御する。LSI18の各部は、LSI18からの制御に基づいて各種制御を行なうように構成されている。また、CPU181は外部との通信も制御する。例えば、CPU181は、サーバ3等から立体映像ストリームを取得する際、ディスクドライブ11やチューナ12、ネットワーク通信インターフェース13、メモリデバイスインターフェース14に制御信号を送信する。これによってディスクドライブ11やチューナ12、ネットワーク通信インターフェース13、メモリデバイスインターフェース14は、記録メディアや放送局等から立体映像ストリームを取得することができる。
 ストリームコントローラ182は、サーバ3や光ディスク4、アンテナ5、メモリカード6、及びアクティブシャッターメガネ(後述)との間のデータの送受信を制御する。例えば、CPU181は、サーバ3から取得した立体映像ストリームを、メモリコントローラ186に送信する。
 メモリコントローラ186は、LSI18の各部から送信されたデータを、バッファメモリ16に書き込む。例えば、メモリコントローラ186は、ストリームコントローラ182から取得した立体映像ストリームを、バッファメモリ16に記録する。また、メモリコントローラ186は、バッファメモリ16に記録されたデータを、バッファメモリ16から読み出す。そして、バッファメモリ16は、読み出したデータをLSI18の各部に送信する。
 デコーダ183は、メモリコントローラ186からデータを取得すると、取得したデータをデコードする。ここで、デコーダ183に入力されるデータは、CPU181の制御に基づいている。具体的には、CPU181は、メモリコントローラ186を制御して、バッファメモリ16に記録された立体映像ストリームを読み出させる。そして、CPU181は、読み出した立体映像ストリームをデコーダ183に送信するようメモリコントローラ186を制御する。これによって、メモリコントローラ186からデコーダ183に立体映像ストリームが入力される。
 具体的には、デコーダ183は、入力された立体映像ストリームを、符号化されたデータ31(圧縮符合化された立体映像情報、圧縮符号化された音声情報、圧縮符合化されたデータ情報)と、そのヘッダ情報33とに分離する。そして、デコーダ183はヘッダ情報33をバッファメモリ16に記録する。
 また、デコーダ183は、ヘッダ情報33に含まれるデコード情報に基づいて、圧縮されたデータ31をデコードする。なお、デコーダ183は、デコードした情報(立体映像情報、音声情報、データ情報)をメモリコントローラ186に送信する。メモリコントローラ186はデコーダ183から受信した情報をバッファメモリ16に記録する。
 AV入出力回路184は、バッファメモリ16から、復号されたデータ31及びヘッダ情報33の情報を読み出し、それらに基づき立体映像表示装置2に表示させるための出力データを生成する。そして、AV入出力回路184は、生成した出力データを、データ伝送インターフェース15を介して立体映像表示装置2に送信する。その際、ストリームコントローラ182およびデコーダ183はヘッダ情報33を解析し、ベースビュー情報を取得する。AV入出力回路184は、このベースビュー情報を、左眼映像、右眼映像のいずれの平均ビットレートが高いかを示す識別情報として出力データに含める。なお、本実施形態では、識別情報としてベースビュー情報を用いるが、識別情報は、左眼映像と右眼映像のうち符号化の平均ビットレートが高い方の映像を示す情報であればよく、ベースビュー情報に限定されるものではない。例えば、AV入出力回路184は、立体映像ストリームを解析して、左眼映像と右眼映像のうち符号化の平均ビットレートが高い方の映像を判断することで識別情報を生成しても良い。また、識別情報は出力データにおいてフレーム毎に含められる。
 具体的には、AV入出力回路184は、図6に示すような出力データを生成する。AV入出力回路184は、出力データを生成するため2つのステップを行う。1つ目のステップは表示画像生成処理であり、2つ目のステップは出力データ生成処理である。以下、それぞれの処理について説明する。
 5-1-1.表示画像生成処理
 表示画像生成処理は、視聴者からの指示に応じて、立体映像情報(左眼映像又は右眼映像)を加工する処理である。具体的には、視聴者から、字幕の表示指示、又は、副映像の表示指示、立体映像処理装置1の装置画像(以下「処理装置画像」と称す)の表示指示を受け付けた場合にこの処理を行う。なお、視聴者は立体映像処理装置1に対してリモコンを用いて指示することができる。リモコンからの指示は、立体映像処理装置1に設けられる赤外線センサで受信することが可能である。以下具体的な処理の例を説明する。
 立体映像処理装置1は視聴者から字幕映像を表示する旨の指示を受けると、AV入出力回路184は、字幕映像を立体映像データに重畳する。より詳しくは、AV入出力回路184は、ヘッダ情報33をバッファメモリ16から取得し、字幕映像の視差情報に基づいて、左眼映像又は右眼映像に字幕映像を重ね合わせる。例えば、図6に示すように、AV入出力回路184は、字幕映像の視差情報(ズレ量)がYピクセルである場合、左眼映像50aに対して字幕映像51をYピクセルだけ右方向にずらして重ね合わせ、右眼映像50bに対して字幕映像51をYピクセルだけ左方向にずらして重ね合わせる。立体映像50a、50bに付加される副映像53も同様である。
 また、字幕の表示に加えて、視聴者によって処理装置画像を表示するよう指示された場合、AV入出力回路184は、フラッシュメモリ19から、指示に対応する処理装置画像(例えば、立体映像処理装置1が提供する機能メニュー画像)データを取得する。そして、AV入出力回路184はバッファメモリ16から字幕映像の視差情報を取得する。AV入出力回路184は、取得した字幕映像の視差情報に基づいて処理装置画像の視差情報を決定する。具体的には、AV入出力回路184は、立体表示において処理装置画像が字幕映像よりも画面の奥行き方向において手前(視聴者側)に表示されるように、視差情報(例えば、Zピクセル)を決定する。すなわち、装置画像の視差が字幕映像の視差よりも大きくなるように視差情報を決定する。例えば、図7に示すような立体表示において、立体映像表示装置2の画面30よりも視聴者200側に立体映像による物体110及び字幕51が表示されている状況において、字幕51よりも手前(視聴者側)に処理装置画像55が表示されるように、処理装置画像55の視差情報が決定される。なお、立体映像による物体110は、立体映像により表示される物体の中で最も視聴者200側に表示される物体であるとし、字幕51はその物体110よりも視聴者200側に表示されるものとしている。このように、処理装置画像55を立体映像による物体110や字幕51よりも手前(視聴者側)に表示することで、視聴者は違和感なく処理装置画像55を視認できる。
 AV入出力回路184は、上記のように決定された視差情報に基づいて処理装置画像の重ね合わせを行なう。
 例えば、図6に示すように、処理装置画像55の視差情報(ズレ量)がZピクセルである場合、左眼映像50aに対して処理装置画像55をZピクセル右方向にずらして重ね合わせ、右眼映像50bに対して処理装置画像55をZピクセル左方向にずらして重ね合わせる。AV入出力回路184は、このようにして処理装置画像55を重ね合わせた左眼映像50a及び右眼映像50bを示す映像データを生成する。
 5-1-2.出力データ生成処理
 AV入出力回路184は、図8に示すような出力データを生成する。図8に示すように、出力データは映像の無効区間(ブランキング領域)と有効区間(アクティブ領域)とを含むJ×K画素のデータとなる。
 アクティブ領域には、表示画像生成処理で生成した表示画像が含まれる。HDMIのようなデータ伝送インターフェースによれば、ブランキング領域において、音声データ、映像フォーマット情報、リザーブド情報などをパケットに含めて伝送する。音声データは、アクティブ領域に含まれる映像に対応する音声情報を含む。映像フォーマット情報は、解像度や画面の縦横比等の情報を含む。リザーブド情報は、左眼映像と右眼映像のうち符号化の平均ビットレートが高い方の映像を示す識別情報を含む。なお、本実施形態では、この識別情報として、ベースビュー情報を用いている。リザーブド情報はさらに、表示画像生成処理で生成した表示画像の最大視差情報を含む。例えば、前述の表示画像生成処理により処理装置画像を重畳した場合、視差情報Zが与えられる。最大視差情報の算出方法については後述する。
 なお、本実施の形態では、識別情報は、左眼映像と右眼映像のうち符号化の平均ビットレートが高い方の映像を示す情報とした。しかし、識別情報は、これに限られず、符号化時においてIフレームを含む映像がいずれであるかを示す情報としてもよい。よって、MVCで符号化された映像である場合、デコーダでIフレームを含むフレームが左眼映像又は右眼映像かを検出し、この検出した情報に基づいて、識別情報を生成すればよい。
 本実施形態では、リザーブド情報は、左眼映像と右眼映像のうち符号化の平均ビットレートが高い方の映像を示す識別情報を1フレーム毎に含む。しかしながら、これに限定されず、nフレーム毎(n>1)に含むようにしてもよい。または、ベースビューが左眼映像から右眼映像へ(又はその逆に)変化したタイミングで、リザーブド情報に識別情報を含めるようにしてもよい。
 以上の2つの処理によって生成されたデータを、AV入出力回路184は、データ伝送インターフェース15を介して立体映像表示装置2に出力する。
 5-1-3.最大視差情報の算出方法
 上記で説明した表示画像の最大視差情報の算出について2つの例を挙げて説明する。
 <例1>立体映像情報に、字幕データと立体映像処理装置1の装置画像が重畳される場合
 抽出情報は以下のとおりである。
Figure JPOXMLDOC01-appb-T000001
 立体映像処理装置1の装置画像は、字幕データよりも視聴者側に表示されるように視差情報を調整されるとする。
 この場合、視差情報Zは字幕データの視差情報Yよりも大きいため、最大視差情報はZとなる。なお、仮に視差情報XがZよりも大きい場合であったとしても、副映像は立体映像情報に重畳されていないので、最大視差情報はZとなる。
<例2>立体映像情報に他の画像が重畳されていない場合
 抽出情報は以下のとおりである。
Figure JPOXMLDOC01-appb-T000002
 この場合、最大視差情報はXとなる。例2では、立体映像情報が視差情報を持っていない。立体映像情報を解析して、視差情報を求めるのは困難であるため、字幕データ又は副映像データの視差情報を用いて最大視差情報を求める。なお、本実施の形態では、副映像データの視差情報(重畳されていないデータの中で最小の視差)を用いるようにした。このようにして求めた最大視差情報に基づき立体映像表示装置2の装置画像を表示することで、視聴者が感じる違和感を低減できる。なお、最大視差情報として字幕データの視差情報Yを用いてもよい。
 なお、立体映像処理装置が立体映像情報の視差情報を検出する回路を備えている場合、当該回路で検出できる立体映像情報の視差情報を字幕データや副映像データ等の視差情報と比較することにより、それらの視差情報の中の最大視差情報を求めてもよい。
 5-2.立体映像表示装置の構成
 図9に立体映像表示装置2の構成を示す。立体映像表示装置2はディスプレイ24を備え、立体映像処理装置1からの出力データに含まれる映像データ(表示画像)を表示する。ディスプレイ24は、例えば、液晶ディスプレイ、プラズマディスプレイ又は有機ELディスプレイで構成される。つまり、立体映像表示装置2は、立体映像処理装置1から送信された出力データに含まれる映像を表示可能である。
 より具体的には、立体映像表示装置2は、コントローラ22、メモリ23、ディスプレイ24、データ伝送インターフェース21および通信インターフェース25で構成されている。メモリ23は例えばフラッシュメモリやDRAMで実現可能である。コントローラ22は、例えば、マイクロプロセッサで実現できる。
 データ伝送インターフェース21は、立体映像表示装置2と立体映像処理装置1の間でデータの送受信を行なうためのインターフェースである。データ伝送インターフェース21は、例えば、HDMI(High-Definition Multimedia Interface)に準拠して通信を行う。
 通信インターフェース25は、アクティブシャッターメガネ7と通信を行なうためのインターフェースである。通信インターフェース25は、例えば、赤外線やBluetoothなどの無線又は有線により、アクティブシャッターメガネ7との通信を確立する。
 なお、立体映像表示装置2は、リモコンからの信号に応じて、表示モードを3次元映像表示モードと2次元映像表示モードとの間で切り替え可能である。以下、各モードの表示動作を説明する。
 5-2-1.3次元映像表示モード
 図10A及び図10Bを参照して3次元映像表示モードでの動作について説明する。立体映像表示装置2は、アクティブシャッターメガネ7を用いて立体映像を視聴可能にするための映像を表示する(図10A参照)。具体的には、立体映像処理装置1は、立体映像表示装置2に対して、左眼映像が示す映像データと右眼映像が示す映像データを交互に出力する。立体映像表示装置2は、立体映像処理装置1から取得した映像データに含まれる左眼映像及び右眼映像を交互にディスプレイ24の画面上に表示する(図10B参照)。視聴者は、このようにして立体映像表示装置2に表示された映像を、アクティブシャッターメガネ7を通して視認することで立体映像として認識できる。
 アクティブシャッターメガネ7は、視聴者の左右の何れかの視野を遮ることが可能なシャッタを備えている。アクティブシャッターメガネ7は、立体映像表示装置2に左眼映像が表示されると、視聴者の立体映像表示装置2に対する右眼の視野を遮る一方で、立体映像表示装置2に右眼映像が表示されると、視聴者の立体映像表示装置2に対する左眼の視野を遮るようにシャッタが制御される。つまり、図10A、図10Bのように、視聴者は、立体映像表示装置2に左眼映像を示す画面が表示されている場合は、左眼で映像を見ることになり、立体映像表示装置2に右眼映像を示す画面が表示されている場合は、右眼で映像を見ることになる。これによって、視聴者は、立体映像表示装置2に順次表示された画面を立体映像として視認することができる。
 ここで、立体映像表示装置2のコントローラ22は、視聴者の指示(リモコンの指示)により、立体映像表示装置2の装置画像(以下「表示装置画像」と称す)を表示画面に重畳して表示するよう指示された場合、映像データに表示装置画像を重畳して表示する。表示装置画像のデータはメモリ23に格納されている。表示装置画像は、例えば、チャンネルの情報や音量の情報、ディスプレイの輝度・コントラスト量・色温度などを調整するための情報、再生装置の画質を調整するための情報を示す画像を含む。
 具体的には、コントローラ22は、以下のように映像データに表示装置画像を重畳して表示する。コントローラ22は、立体映像処理装置1の出力データに含まれる視差情報(例えば、Zピクセル)に基づいて、表示装置画像の視差情報(例えば、Z+αピクセル)を決定する。そして、コントローラ22は、決定した視差情報に基づいて表示装置画像を重畳する。この重畳の方法は、立体映像処理装置1で説明した方法と同じであるため、省略する。このようにすれば、立体映像処理装置1で加工された映像に対しても、表示されたときに違和感の少ない表示装置画像を重畳できる。これによって、視聴者は違和感なく、3次元映像を視聴できるようになる。
 なお、本実施の形態では、アクティブシャッターメガネ7を用いた例を説明したが、立体映像表示装置2に表示された右眼映像と左眼映像を視聴者が別々に見ることを可能とする方法であれば、この方法に限られない。
 また、上記出力データに含まれる視差情報は、表示装置画像の視差調整だけでなく、以下の用途においても利用することができる。
 例えば、立体映像表示装置が、視聴者により画面内の視差を調整できる機能を有する場合、視差情報は以下のように利用できる。立体映像表示装置は、まず、立体映像処理装置からの出力データに含まれる視差情報に基づいて決定される立体映像の飛び出し量で映像を視聴者に提示する。そして、立体映像表示装置は、視聴者によるリモコン等を介した指示に基づいて、さらに、立体映像の飛び出し量を調整する。このようにすれば、音量調整の場合と同様に、容易な手段で視聴者は視差の調整ができる。
 また、立体映像の視差が大きくなるにつれて、視聴者の眼への負担は大きくなる。そこで、例えば、立体映像表示装置は、立体映像処理装置からの出力データに含まれる視差情報に基づき視差の大きさを検知し、検知した視差が所定の値よりも大きければ、自動的に表示制限を行う。その表示制限では、右眼映像と左眼映像の物体の視差が小さくなるように表示画面全体の表示位置を調整する。この構成により、立体視に起因する視聴者の眼への負担を軽減する機能を実現できる。
 5-2-2.2次元映像表示モード
 2次元映像表示モードについて説明する。2次元映像表示モードは、立体映像情報に基づき2次元映像を表示するモードである。2次元映像表示モードでは、立体映像表示装置2は左眼映像又は右眼映像のいずれかのみをディスプレイ24に表示する。この際、アクティブシャッターメガネ7の機能はOFFにされる。つまり、アクティブシャッターメガネ7は両方の眼に対して光を透過させる。なお、2次元映像表示モードでは、視聴者はアクティブシャッターメガネ7を使わなくても2次元映像を視聴できる。
 2次元映像表示モードでは、立体映像表示装置2のコントローラ22は、立体映像処理装置1からの出力データに含まれる識別情報(左眼映像又は右眼映像のいずれが符号化の平均ビットレートの高い映像であるかを示す情報)に基づいて、表示すべき映像として左眼映像又は右眼映像を選択する。つまり、コントローラ22は、識別情報が示す方の映像(例えば、左眼映像)を選択肢、ディスプレイ24に表示させる。このように識別情報を参照することで、立体映像表示装置2は平均ビットレートが高く圧縮されていた映像を認識できる。2次元映像表示する際に、より画質の良い方の映像を選択して視聴者に提供することができる。
 一般に、立体映像処理装置と立体映像表示装置間でHDMIにしたがい映像情報を伝送する場合、伝送する映像情報を3次元映像情報(立体映像情報)と2次元映像情報との間で切り替える場合、立体映像処理装置と立体映像表示装置間で認証処理が必要となる。この認証処理の間、立体映像表示装置では映像の表示が停止される。このため、3次元映像(立体映像)情報と2次元映像情報を切り替える度、再認証処理が発生し、これにより映像表示が途切れてしまうという問題があり、視聴者の利便性を損なう。そこで、本実施形態のような2次元映像表示モードを設けることにより、立体映像表示装置2は、立体映像処理装置1から3次元映像情報(立体映像情報)を受信しつつ、表示する映像の形式を、立体視を可能とする3次元表示と、立体視を可能としない2次元表示との間で切り替えることが可能となる。これにより、前述のような認証処理が不要となるため、3次元表示と2次元表示の切り替えにともない視聴者の利便性が損なわれることを防止できる。さらに、2次元映像表示モードにおいて、識別情報を参照して、平均ビットレートがより高い方の映像を認識できるため、より画質の良い方の映像を選択して視聴者に提供することができる。
 6.立体映像表示システムの具体的な動作例
 6-1.3次元映像表示の動作例
 図11及び図12を用いて、3次元映像表示モードにおける、すなわち、3次元映像を表示する際の具体的な動作例を説明する。なお、説明の便宜上、一部の処理については説明を省略している。また、立体映像表示装置2は3次元表示モードに設定されているものとする。
 図11を用いて立体映像処理装置1の動作を説明する。図11に示すように、立体映像処理装置1は、光ディスク4より立体映像ストリームを取得する。立体映像処理装置1は、立体映像ストリームを、ヘッダ情報、立体映像符号化情報、音声情報、データ情報に分離する。その後、立体映像処理装置1は、各データをデコーダ183(各デコーダ)により復号し、復号したデータをバッファメモリ16(各領域)に記録する。
 立体映像処理装置1は左眼映像データ及び右眼映像データを交互に読み出す。立体映像処理装置1は、視聴者の指示に応じて、立体映像情報(左眼映像データ又は右眼映像データ)に、字幕データ、メニューデータを重畳する。この際、立体映像処理装置1は、立体映像ストリームのヘッダ情報に含まれる視差情報(字幕視差情報及び副映像視差情報)を用いて字幕データ及びメニューデータの右眼映像及び左眼映像上の位置を決定して立体映像情報に重畳する。
 また、立体映像処理装置1は、視聴者の指示に応じて、処理装置画像(OSD)を立体映像情報に重畳する。この際、立体映像処理装置1は、字幕視差情報又は副映像視差情報を用いて処理装置画像の視差情報を決定し、決定した視差情報を用いて処理装置画像を重畳する。このようにして表示画像情報が生成される。
 ここで、立体映像処理装置1は、表示画像の最大視差情報を算出する。具体的には、重畳された映像(字幕、副映像)の視差情報のうち、最も大きい視差の情報を最大視差情報とする。
 立体映像処理装置1は、このように算出した視差情報を表示画像情報と併せて、出力データとして、立体映像表示装置2に送信する。
 次に、図12を用いて、立体映像処理装置1から表示画像情報及び視差情報を受信した立体映像表示装置2の動作を説明する。立体映像表示装置2は、受信した表示画像情報に基づき表示画像を順次ディスプレイに表示する。この際、立体映像表示装置2は、視聴者の指示に応じて表示装置画像(OSD)を立体映像情報に重畳して表示する。このため、立体映像表示装置1は、立体映像処理装置1からの出力データに含まれる視差情報を用いて表示装置画像の視差情報を決定し、決定した視差情報を用いて表示装置画像を立体映像に重畳する。
 この構成により、立体映像表示装置2は、表示画像を立体視したときに視聴者に与える違和感がより少なくなる表示画像上の位置に表示装置画像を重畳できる。
 6-2.2次元映像表示の動作例
 図13及び図14を用いて、2次元映像表示モードにおける、すなわち、2次元映像を表示する際の具体的な動作例を説明する。なお、説明の便宜上、一部の処理については説明を省略している。また、立体映像表示装置2は2次元表示モードに設定されているものとする。
 図13を用いて、立体映像処理装置1の動作を説明する。図13に示すように、立体映像処理装置1は、光ディスク4より立体映像ストリームを取得する。立体映像処理装置1は、立体映像ストリームを、ヘッダ情報、立体映像符号化情報、音声情報、データ情報に分離する。その後、立体映像処理装置1は、各データをデコーダ183(各デコーダ)により復号する。立体映像処理装置1は、復号したデータをバッファメモリ16(各領域)に記録する。
 そして、立体映像処理装置1は左眼映像データ及び右眼映像データを交互に読み出す。この際、立体映像処理装置1は、立体映像ストリームのヘッダ情報33に含まれるベースビュー情報を検出し、検出したベースビュー情報を識別情報として表示画像と併せて、出力データとして、立体映像表示装置2に送信する。
 次に、図14を用いて、立体映像処理装置1から表示画像情報及び識別情報を受信した立体映像表示装置2の動作を説明する。図14に示すように、立体映像表示装置2は、受信した表示画像情報の中から左眼映像又は右眼映像のいずれかの映像を選択し、順次ディスプレイに表示する。この際、立体映像表示装置2は、左眼映像又は右眼映像の選択を、出力データに含まれる識別情報に基づいて行う。このように識別情報を参照することにより、立体映像表示装置2は、左眼映像及び右眼映像のうち、より画質の良い映像を簡易な方法で認識できる。
7.まとめ
 以上のように本実施形態の立体映像処理装置1は、立体映像表示装置2に、立体視を可能とする立体映像情報を出力可能な装置であって、立体映像情報を取得するディスクドライブ11(取得手段の一例)と、立体映像情報に付加映像情報(少なくとも字幕情報、副映像情報及び処理装置画像のいずれか)を重畳する重畳手段AV入出力回路184(重畳手段の一例)と、付加映像情報の視差情報を、付加映像情報が重畳された立体映像情報に関連付けた状態で映像表示装置2に送信するデータ伝送インターフェース15(送信手段の一例)とを備える。
 上記の構成により、映像処理装置1は、映像表示装置2に対して、より簡易な方法で、映像処理(復号)後の立体映像情報に関する視差情報を伝えることができる。この視差情報を利用することで、映像表示装置2は、表示装置画像(OSD)をより適切な位置に配置でき、違和感なく視認できる表示装置画像(OSD)を視聴者に提示することができる。
 また、本実施形態の立体映像処理装置1は、映像表示装置2に、第1眼映像と第2眼映像を含み、立体視を可能とする立体映像情報を出力可能な装置である。映像処理装置1は、第1眼映像と第2眼映像をそれぞれ異なるビットレートで符号化する符号化方式(例えば、MVC)を用いて符号化された立体映像情報を取得するディスクドライブ11(取得手段の一例)と、立体映像情報を復号するデコーダ183(復号手段の一例)と、第1眼映像と第2眼映像のうちの符号化ビットレートの高い方の映像を示す識別情報を、復号された立体映像情報に関連付けた状態で映像表示装置2に送信するデータ伝送インターフェース15(送信手段の一例)と、を備える。
 上記の構成により、映像処理装置1は、映像表示装置2に対して、より簡易な方法で、第1眼映像と第2眼映像のうちいずれが画質の高い方の映像であるかを知らせることができる。これによって、映像表示装置2は、第1眼映像と第2眼映像のうちの画質のより良い方の映像を選択でき、映像表示装置2は、選択した映像を2次元表示することで、視聴者に対して画質の良い2次元映像を提供できる。
8.他の実施の形態
 本発明の一実施の形態として上記の例を説明した。しかし、本発明の思想はこれに限られず種々の形態で実現することが可能である。以下、他の実施の形態を説明する。
 上記の実施形態では、立体映像符号化情報の映像ソースとして光ディスクを用いた例を説明したが、映像ソースはそれに限定されない。立体映像符号化情報を提供する放送局、サーバ、メモリカード等も上記の思想が適用できる映像ソースの例である。
 上記の実施の形態では、ヘッダ情報33に含まれるベースビュー情報に基づく識別情報を参照して、立体映像符号化情報に含まれる平均ビットレートのより高い方の映像(左眼映像又は右眼映像)を検知するようにした。しかし、本発明の実施の形態はこれに限られない。
 例えば、立体映像ストリームに含まれる管理情報(プレイリスト)などにベースビュー情報を格納しておき、この管理情報を用いて平均ビットレートの高い映像を検知してもよい。なお、管理情報は、立体映像ストリームのデータの最初に設けられる情報である。
 または、立体映像符号化情報のビットレートを観測することで、平均ビットレートの高い映像を検知してもよい。
 なお、平均ビットレートは、立体映像符号化情報の所定の区間における平均値として求めてもよいし、立体映像符号化情報全体の平均値として求めてもよい。
 また、上記の実施の形態では、識別情報と最大視差情報をリザーブド領域に含めて出力するようにした。しかし、これに限られず、識別情報と最大視差情報は、HDMIのCEC(Consumer Electronic Control)のコマンドとして、コントロール線で伝送するようにしてもかまわない。
 また、上記の実施の形態では、映像コンテンツにおいて、字幕情報は、その視差情報を考慮して右眼映像と左眼映像それぞれに重畳された。しかし、これに限られず、映像コンテンツにおいて、左眼映像に対応した左眼用の字幕情報と、右眼映像に対応した右眼用の字幕情報をそれぞれ左眼映像、右眼映像に重畳させるようにしてもよい。このように構成された場合、左眼用字幕情報と右眼用字幕情報とを解析して、字幕の視差情報を求めることができる。なお、字幕の視差情報は、立体映像情報の視差情報を求めるよりも容易である。なお、副映像情報も同様である。
 また、上記の実施の形態の立体映像処理装置1は、表示画像全体において最大となる視差に関する視差情報を立体映像表示装置2に出力したが、表示画像の一部の領域毎に視差情報を送信してもよい。例えば、図15に示すように、表示画像中に処理装置画像61や字幕62が含まれる場合、立体映像処理装置1は、処理装置画像61や字幕62について、それらの視差情報を、それらのオブジェクトが表示される領域に関する情報とともに立体映像表示装置2に出力するようにしてもよい。図16に、そのような方法で視差情報を送信する際のフォーマットを示す。図16に示すように、視差情報は、領域毎に、領域の開始位置(xs,ys)と領域のサイズ(横長Lx×縦長Ly)と関連づけされて立体映像表示装置2に出力される。立体映像表示装置2は、このような領域毎の視差情報を参照することにより、各領域に表示されるオブジェクトに表示装置画像が重ならないように、表示装置画像の表示位置を決定することができる。なお、視差情報及び領域に関する情報は、1つや2つに限られず、複数個であってもよい。
 本発明は、立体映像を表示可能なテレビ受像機やディスプレイに対して、立体映像を出力可能な装置(例えば、映像記録装置や光ディスク再生装置)に適用可能である。
1 立体映像処理装置
2 立体映像表示装置
3 サーバ
4 光ディスク
5 アンテナ
6 メモリカード
7 アクティブシャッターメガネ
11 ディスクドライブ
12 チューナ
13 ネットワーク通信インターフェース
14 メモリデバイスインターフェース
15 データ伝送インターフェース
16 バッファメモリ
17 HDドライブ
18 LSI
181 CPU
182 ストリームコントローラ
183 デコーダ
184 AV入出力回路
185 システムバス
186 メモリコントローラ
19 フラッシュメモリ
21 データ伝送インターフェース
22 コントローラ
23 メモリ
24 ディスプレイ
25 通信インターフェース

Claims (5)

  1.  映像表示装置に、第1眼映像と第2眼映像を含み、立体視を可能とする立体映像情報を出力可能な映像処理装置であって、
     前記第1眼映像と第2眼映像をそれぞれ異なるビットレートで符号化する符号化方式を用いて符号化された立体映像情報を取得する取得手段と、
     前記立体映像情報を復号する復号手段と、
     前記第1眼映像と前記第2眼映像のうちの符号化ビットレートの高い方の映像を示す識別情報を、前記復号された立体映像情報に関連付けた状態で前記映像表示装置に送信する送信手段と、
    を備える映像処理装置。
  2.  前記映像表示装置と前記映像処理装置の間は、伝送する情報が立体視を可能とする立体映像情報と立体視を可能としない2次元映像情報との間で切り替わる際に認証処理が必要となる伝送方式にしたがい接続される、請求項1記載の映像処理装置。
  3.  前記取得した立体映像情報に含まれる情報に基づいて、前記第1眼映像と前記第2眼映像のいずれの符号化のビットレートが高いかを検出して、当該検出結果に基づき前記識別情報を生成する生成手段をさらに備え、
     前記送信手段は、前記生成した識別情報を前記映像表示装置に送信する、
    請求項1または2に記載の映像処理装置。
  4.  前記符号化方式は、前記第1眼映像及び前記第2眼映像のうちのいずれか一方を基礎映像とし、前記基礎映像を当該基礎映像の情報のみを用いて符号化し、他方の映像を、前記第1眼映像と第2眼映像の双方の情報を用いて符号化する方式であり、
     前記識別情報は、前記第1眼映像及び前記第2眼映像のうちのいずれが前記基礎映像であるかを示す情報である、
    請求項1または2に記載の映像処理装置。
  5.  映像表示装置に、第1眼映像と第2眼映像を含み、立体視を可能とする立体映像情報を出力可能な映像処理装置であって、
     MVC符号化方式によって、前記第1眼映像がI、Pフレームを用いて符号化され、かつ、第2眼映像がPフレームを用いて符号化された立体映像情報を取得する取得手段と、
     前記立体映像情報を復号する復号手段と、
     前記第1眼映像と前記第2眼映像のうちのIフレームを含んで符号化された映像を示す識別情報を、前記復号された立体映像情報に関連付けた状態で前記映像表示装置に送信する送信手段と、
    を備える映像処理装置。
PCT/JP2011/001729 2010-03-24 2011-03-24 映像処理装置 WO2011118216A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/636,434 US20130002821A1 (en) 2010-03-24 2011-03-24 Video processing device
JP2012506855A JP5390017B2 (ja) 2010-03-24 2011-03-24 映像処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010067593 2010-03-24
JP2010-067593 2010-03-24

Publications (1)

Publication Number Publication Date
WO2011118216A1 true WO2011118216A1 (ja) 2011-09-29

Family

ID=44672794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/001729 WO2011118216A1 (ja) 2010-03-24 2011-03-24 映像処理装置

Country Status (3)

Country Link
US (1) US20130002821A1 (ja)
JP (1) JP5390017B2 (ja)
WO (1) WO2011118216A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013123220A (ja) * 2011-12-09 2013-06-20 Thomson Licensing 不均衡設定方法及び対応する装置
JP2016063481A (ja) * 2014-09-19 2016-04-25 株式会社東芝 エンコード装置、デコード装置、ストリーミングシステム、および、ストリーミング方法
KR20200030844A (ko) * 2018-09-13 2020-03-23 엘지디스플레이 주식회사 표시 장치 및 표시 장치를 포함하는 헤드 마운트 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264683B2 (en) * 2013-09-03 2016-02-16 Sony Corporation Decoding device and decoding method, encoding device, and encoding method
US20150253974A1 (en) 2014-03-07 2015-09-10 Sony Corporation Control of large screen display using wireless portable computer interfacing with display controller
GB2561152B (en) 2017-03-21 2021-01-13 Advanced Risc Mach Ltd Data processing systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134642A (ja) * 1998-10-21 2000-05-12 Toshiba Corp 立体モードと平面モードを持つ立体映像再生装置とその方法
JP2005094145A (ja) * 2003-09-12 2005-04-07 Sharp Corp 画像記録装置及び画像再生装置
JP2008042645A (ja) * 2006-08-08 2008-02-21 Nikon Corp カメラおよび画像表示装置並びに画像記憶装置
JP2008244835A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 立体表示装置および立体画像表示方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2745021C (en) * 2008-12-02 2014-10-28 Lg Electronics Inc. Method for displaying 3d caption and 3d display apparatus for implementing the same
US8947504B2 (en) * 2009-01-28 2015-02-03 Lg Electronics Inc. Broadcast receiver and video data processing method thereof
JP4984183B2 (ja) * 2009-04-07 2012-07-25 ソニー株式会社 再生装置、再生方法、および記録方法
JP2010245970A (ja) * 2009-04-08 2010-10-28 Sony Corp 再生装置、再生方法、およびプログラム
WO2010120033A1 (ko) * 2009-04-17 2010-10-21 엘지전자 주식회사 다시점 비디오 신호의 처리 방법 및 장치
JP5480915B2 (ja) * 2009-12-28 2014-04-23 パナソニック株式会社 表示装置と方法、記録媒体、送信装置と方法、及び再生装置と方法
CN102696230A (zh) * 2010-01-07 2012-09-26 汤姆森特许公司 为视频内容显示提供的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134642A (ja) * 1998-10-21 2000-05-12 Toshiba Corp 立体モードと平面モードを持つ立体映像再生装置とその方法
JP2005094145A (ja) * 2003-09-12 2005-04-07 Sharp Corp 画像記録装置及び画像再生装置
JP2008042645A (ja) * 2006-08-08 2008-02-21 Nikon Corp カメラおよび画像表示装置並びに画像記憶装置
JP2008244835A (ja) * 2007-03-27 2008-10-09 Toshiba Corp 立体表示装置および立体画像表示方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013123220A (ja) * 2011-12-09 2013-06-20 Thomson Licensing 不均衡設定方法及び対応する装置
JP2016063481A (ja) * 2014-09-19 2016-04-25 株式会社東芝 エンコード装置、デコード装置、ストリーミングシステム、および、ストリーミング方法
US11997302B2 (en) 2014-09-19 2024-05-28 Kabushiki Kaisha Toshiba Encoding device, decoding device, streaming system, and streaming method
KR20200030844A (ko) * 2018-09-13 2020-03-23 엘지디스플레이 주식회사 표시 장치 및 표시 장치를 포함하는 헤드 마운트 장치
KR102551131B1 (ko) * 2018-09-13 2023-07-03 엘지디스플레이 주식회사 표시 장치 및 표시 장치를 포함하는 헤드 마운트 장치

Also Published As

Publication number Publication date
JP5390017B2 (ja) 2014-01-15
JPWO2011118216A1 (ja) 2013-07-04
US20130002821A1 (en) 2013-01-03

Similar Documents

Publication Publication Date Title
WO2010092823A1 (ja) 表示制御装置
US9161023B2 (en) Method and system for response time compensation for 3D video processing
JP5390016B2 (ja) 映像処理装置
EP2537347B1 (en) Apparatus and method for processing video content
EP2375767A1 (en) Stereoscopic video player, stereoscopic video playback system, stereoscopic video playback method, and semiconductor device for stereoscopic video playback
US9361734B2 (en) Image processing device and image processing method
EP2334092A1 (en) Methods and apparatuses for encoding, decoding, and displaying a stereoscopic 3D image
US20100265315A1 (en) Three-dimensional image combining apparatus
JP5502436B2 (ja) 映像信号処理装置
US9117396B2 (en) Three-dimensional image playback method and three-dimensional image playback apparatus
US20120162367A1 (en) Apparatus and method for converting image display mode
US20110141233A1 (en) Three-dimensional image data transmission device, three-dimensional image data transmission method, three-dimensional image data reception device, and three-dimensional image data reception method
US20110012993A1 (en) Image reproducing apparatus
JP5390017B2 (ja) 映像処理装置
TW201108714A (en) Three-dimensional image data transmission device, three-dimensional image data transmission method, three-dimensional image data reception device, and three-dimensional image data reception method
WO2013031156A1 (ja) 映像処理システム、送信装置、受信装置、送信方法、受信方法及びコンピュータプログラム
US20130141534A1 (en) Image processing device and method
WO2012029293A1 (ja) 映像処理装置、映像処理方法、コンピュータプログラム及び配信方法
WO2012067021A1 (ja) 情報統合装置、情報表示装置、情報記録装置、情報統合方法、情報統合プログラム、および、情報統合プログラムを記録したコンピュータ読み取り可能な記録媒体
US20110285827A1 (en) Image reproducing apparatus and image display apparatus
JP2012089906A (ja) 表示制御装置
WO2012063675A1 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
US20130266287A1 (en) Reproduction device and reproduction method
US20120098944A1 (en) 3-dimensional image display apparatus and image display method thereof
WO2013009480A1 (en) Dual mode user interface system and method for 3d video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11759025

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13636434

Country of ref document: US

Ref document number: 2012506855

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11759025

Country of ref document: EP

Kind code of ref document: A1