WO2011001856A1 - 立体画像データ送信装置および立体画像データ送信方法 - Google Patents

立体画像データ送信装置および立体画像データ送信方法 Download PDF

Info

Publication number
WO2011001856A1
WO2011001856A1 PCT/JP2010/060584 JP2010060584W WO2011001856A1 WO 2011001856 A1 WO2011001856 A1 WO 2011001856A1 JP 2010060584 W JP2010060584 W JP 2010060584W WO 2011001856 A1 WO2011001856 A1 WO 2011001856A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
disparity
image data
image
Prior art date
Application number
PCT/JP2010/060584
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201080003175.8A priority Critical patent/CN102210155B/zh
Priority to EP10794026.4A priority patent/EP2451170A4/en
Priority to BRPI1004292A priority patent/BRPI1004292A2/pt
Priority to US13/058,910 priority patent/US20110149034A1/en
Publication of WO2011001856A1 publication Critical patent/WO2011001856A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Definitions

  • the present invention relates to a stereoscopic image data transmission device and a stereoscopic image data transmission method, and more particularly to a stereoscopic image data transmission device and the like that can satisfactorily display superimposition information (menu, program guide, etc.).
  • Patent Document 1 proposes a transmission method using a television broadcast radio wave of stereoscopic image data.
  • stereoscopic image data including left-eye image data and right-eye image data is transmitted, and stereoscopic image display using binocular parallax is performed in the television receiver.
  • FIG. 78 shows the relationship between the display position of the left and right images of an object (object) on the screen and the playback position of the stereoscopic image in stereoscopic image display using binocular parallax.
  • object object
  • FIG. 78 shows the relationship between the display position of the left and right images of an object (object) on the screen and the playback position of the stereoscopic image in stereoscopic image display using binocular parallax.
  • the right and left lines of sight intersect on the screen surface. It becomes on the surface.
  • the left image Lc is shifted to the left and the right image Rc is shifted to the right, the right and left lines of sight intersect at the back of the screen surface.
  • the playback position is behind the screen.
  • Superimposition information to be superimposed on an image for example, closed caption information, subtitle information, graphics information, text information, etc., is not only two-dimensional spatial, but also three-dimensional sense of depth in conjunction with stereoscopic image display. Expected to be rendered.
  • subtitles that are closed caption information or subtitle information are superimposed on an image (overlay display)
  • the viewer will not be able to display it in front of the closest object (object) in the perspective.
  • other graphics information or text information is superimposed on an image, it is expected that parallax adjustment is performed according to the perspective of each object in the image to maintain the consistency of perspective.
  • the concept of this invention is Data for transmitting stereoscopic image data including left-eye image data and right-eye image data and a disparity information set including disparity information on the other of one of the left-eye image and the right-eye image to an external device via a transmission path
  • the stereoscopic image data transmission device includes a transmission unit.
  • the data transmission unit generates transmission data for generating transmission data in units of a video field period including a horizontal blanking period, a vertical blanking period, and an active video period, which are separated by a vertical synchronization signal.
  • a transmission data transmission unit that transmits the transmission data generated by the transmission data generation unit to the external device via a transmission path using a differential signal with a plurality of channels.
  • the transmission data generation unit has a video area and an auxiliary video area, the image data is arranged in the main video area, and a parallax information set related to the image data arranged in the main video area is arranged in the auxiliary video area. To be done.
  • the disparity information set includes disparity information corresponding to a predetermined number of positions on the image area and position information indicating a position on the image area to which each disparity information belongs. .
  • the disparity information set includes division information of an image area and disparity information representing each division area.
  • the disparity information set including the disparity information of the other of the left eye image and the right eye image together with the stereoscopic image data including the left eye image data and the right eye image data is transmitted via the transmission path. Sent to the external device. Therefore, in an image display device such as an external device such as a television receiver, the same superimposition information (menu, program guide, etc.) superimposed on the left eye image and the right eye image is used for the perspective of each object in the image. Accordingly, a display with parallax adjustment can be used, and in the display of superimposition information, perspective consistency with each object in the image can be maintained.
  • the disparity information set including the disparity information on the other of the left eye image and the right eye image is transmitted to the external device together with the stereoscopic image data including the left eye image data and the right eye image data.
  • the superimposition information menu, program guide, etc.
  • information on which parallax adjustment has been performed according to the perspective of each object in the image can be used. It is possible to maintain the consistency of perspective.
  • HDMI transmission part HDMI transmission part
  • HDMI sink HDMI receiving part
  • FIG. 1 shows the 3D video format of the line alternative system which is one of the TMDS transmission data structures of stereo image data. It is a figure which shows the 3D video format of the side by side (Full) system which is one of the TMDS transmission data structures of stereo image data. It is a block diagram which shows the other structural example of the set top box which comprises a stereo image display system. It is a figure which shows the other structural example of the television receiver which comprises a three-dimensional image display system. It is a figure which shows an example of the content of the parallax information set transmitted to a television receiver from a set top box.
  • FIG. 5 is a diagram for explaining the arrangement of blocks BK0 to BK8 obtained by dividing an image (picture) region into nine, and the disparity vectors of the blocks in that case.
  • FIG. 1 shows a configuration example of a stereoscopic image display system 10 as an embodiment.
  • the stereoscopic image display system 10 includes a broadcasting station 100, a set top box (STB) 200, and a television receiver 300.
  • STB set top box
  • the broadcast station 100 transmits bit stream data on a broadcast wave.
  • the bit stream data includes stereoscopic image data including left-eye image data and right-eye image data, audio data, superimposition information data, and disparity information (disparity vector).
  • the superimposition information data is closed caption data, subtitle data, graphics data, text data, and the like.
  • FIG. 2 shows a configuration example of the transmission data generation unit 110 that generates the above-described bit stream data in the broadcast station 100.
  • This configuration example is an example in which a disparity vector is transmitted as numerical information.
  • the transmission data generation unit 110 includes cameras 111L and 111R, a video framing unit 112, a video encoder 113, a parallax vector detection unit 114, and a parallax vector encoder 115.
  • the transmission data generation unit 110 includes a microphone 116, an audio encoder 117, a subtitle / graphics generation unit 118, a subtitle / graphics encoder 119, a text generation unit 120, a text encoder 121, and a multiplexer 122. ing. In this embodiment, it is assumed that the text generation unit 120 also serves as a closed caption data generation unit.
  • the closed caption data is text data for displaying closed caption captions.
  • the camera 111L captures a left eye image and obtains left eye image data for stereoscopic image display.
  • the camera 111R captures the right eye image and obtains right eye image data for stereoscopic image display.
  • the video framing unit 112 processes the left eye image data obtained by the camera 111L and the right eye image data obtained by the camera 111R into a state corresponding to the transmission method.
  • the second transmission method is the “Side By Side” method, as shown in FIG. 4B, pixel data of the left eye image data is transmitted in the first half in the horizontal direction, and right eye image data in the second half in the horizontal direction.
  • This is a method for transmitting pixel data.
  • the pixel data in the horizontal direction is thinned out to 1/2.
  • the horizontal resolution is halved.
  • the third transmission method is a “Frame Sequential” method, in which left-eye image data and right-eye image data are sequentially switched and transmitted for each field as shown in FIG.
  • the video encoder 113 performs encoding such as MPEG4-AVC, MPEG2, VC-1, etc. on the stereoscopic image data processed by the video framing unit 112 to obtain encoded video data.
  • the video encoder 113 includes a stream formatter 113a in the subsequent stage.
  • the stream formatter 113a generates a video elementary stream including encoded video data in the payload portion.
  • the disparity vector detection unit 114 detects a disparity vector that is disparity information of the other of the left eye image and the right eye image at a predetermined position in the image based on the left eye image data and the right eye image data.
  • the predetermined position in the image is all pixel positions, a representative position of each area composed of a plurality of pixels, or a superimposition information, here, a representative position of an area where graphic information or text information is superimposed.
  • Disposity vector detection A detection example of a disparity vector will be described. Here, an example in which the parallax vector of the right eye image with respect to the left eye image is detected will be described. As shown in FIG. 5, the left eye image is a detected image, and the right eye image is a reference image. In this example, the disparity vectors at the positions (xi, yi) and (xj, yj) are detected.
  • a search range centered on the position of (xi, yi) is set in the right eye image, and each pixel in the search range is sequentially set as a pixel of interest, for example, 8 ⁇ 8 as in the pixel block Bi described above.
  • 16 ⁇ 16 comparison blocks are sequentially set.
  • the sum of the absolute differences for each corresponding pixel is obtained.
  • the pixel block Bi when the pixel value of the pixel block Bi is L (x, y) and the pixel value of the comparison block is R (x, y), the pixel block Bi, a certain comparison block, The sum of absolute differences between the two is represented by ⁇
  • the disparity vector at the position (xi, yi) is detected as (xi′ ⁇ xi, yi′ ⁇ yi).
  • an 8 ⁇ 8 or 16 ⁇ 16 pixel block in the left-eye image with the pixel at the position (xj, yj) at the upper left Bj is set and detected in the same process.
  • FIG. 7A shows an example of the parallax vector VV detected by the parallax vector detection unit 114 at a predetermined position in the image.
  • FIG. 7B if the left eye image (detected image) is shifted by the parallax vector VV at a predetermined position in the image, it means that it overlaps with the right eye image (reference image). .
  • the disparity vector encoder 115 generates an elementary stream of disparity vectors including the disparity vector detected by the disparity vector detection unit 114.
  • the elementary stream of disparity vectors includes the following contents. That is, ID (ID_Block), vertical position information (Vertical_Position), horizontal position information (Horizontal_Position), and disparity vector (View_Vector) are set as one set. Then, this one set is repeated for N blocks, which is the number of parallax detection blocks.
  • FIG. 8 shows the transmission content of the disparity vector.
  • the disparity vector includes a vertical direction component (View_Vector_Vertical) and a horizontal direction component (View_Vector_Horizontal).
  • the vertical and horizontal positions of the parallax detection block are offset values in the vertical and horizontal directions from the upper left origin of the image to the upper left pixel of the block.
  • the reason for attaching the ID of the parallax detection block to the transmission of each parallax vector is to enable a link with a superimposition information pattern such as closed caption information, subtitle information, graphics information, text information, etc. to be superimposed and displayed on the image. It is.
  • the transmission contents include the IDs of the disparity detection blocks A to F as shown in FIG. 9 (b). , Vertical and horizontal position information, and disparity vectors.
  • ID2 indicates the ID of the disparity detection block A
  • Ha, Va indicates the vertical and horizontal position information of the disparity detection block A
  • the disparity vector a Indicates a disparity vector of the disparity detection block A.
  • timing for detecting and transmitting a disparity vector will be described.
  • this timing for example, the following first to fourth examples can be considered.
  • the disparity vector is transmitted in units of pictures.
  • This picture unit is the finest unit for transmitting a disparity vector.
  • FIG. 10B it is synchronized with a video scene. In this case, the disparity vector is transmitted in scene units.
  • the display is synchronized with the display start timing of the subtitle information, graphics information, text information, and the like displayed superimposed on the image.
  • the subtitle / graphics generating unit 118 generates subtitle information and graphics information data (subtitle data, graphics data) to be superimposed on the image.
  • the subtitle information is, for example, a caption.
  • the graphics information is, for example, a logo.
  • the subtitle data and graphics data are bitmap data.
  • the subtitle data and graphics data are added with idling offset information indicating the superimposed position on the image.
  • This idling offset information indicates, for example, offset values in the vertical and horizontal directions from the upper left origin of the image to the upper left pixel of the superimposed position of the subtitle information and graphics information.
  • the standard for transmitting caption data as bitmap data is standardized and operated as DVB_Subtitling in DVB, which is a European digital broadcasting standard.
  • the text encoder 121 inputs the text data generated by the text generator 120. Then, the text encoder 121 generates an elementary stream including these data in the payload portion.
  • the multiplexer 122 multiplexes the packetized elementary streams output from the encoders 113, 115, 117, 119, and 121.
  • the multiplexer 122 outputs bit stream data (transport stream) BSD as transmission data.
  • the stereoscopic image data obtained by the video framing unit 112 is supplied to the video encoder 113.
  • the stereoscopic image data is encoded by MPEG4-AVC, MPEG2, VC-1, or the like, and a video elementary stream including the encoded video data is generated. This video elementary stream is supplied to the multiplexer 122.
  • the left eye image data and right eye image data obtained by the cameras 111L and 111R are supplied to the parallax vector detection unit 114 through the video framing unit 112.
  • a disparity detection block is set at a predetermined position in the image based on the left eye image data and the right eye image data, and is the other disparity information for one of the left eye image and the right eye image. A disparity vector is detected.
  • the disparity vector at a predetermined position in the image detected by the disparity vector detection unit 114 is supplied to the disparity vector encoder 115.
  • the ID of the parallax detection block, the vertical position information of the parallax detection block, the horizontal position information of the parallax detection block, and the parallax vector are passed as one set.
  • the disparity vector encoder 115 generates a disparity vector elementary stream including disparity vector transmission contents (see FIG. 8). This disparity vector elementary stream is supplied to the multiplexer 122.
  • the microphone 116 detects sound corresponding to the images photographed by the cameras 111L and 111R. Audio data obtained by the microphone 116 is supplied to the audio encoder 117.
  • the audio encoder 117 performs encoding such as MPEG-2Audio AAC on the audio data, and generates an audio elementary stream including the encoded audio data. This audio elementary stream is supplied to the multiplexer 122.
  • the subtitle / graphics generation unit 118 generates subtitle information and graphics information data (subtitle data, graphics data) to be superimposed on the image.
  • This data (bitmap data) is supplied to the subtitle / graphic encoder 119.
  • the subtitle / graphics data is added with idling offset information indicating the superimposed position on the image.
  • the graphics data is subjected to predetermined encoding, and an elementary stream including the encoded data is generated. This elementary stream is supplied to the multiplexer 122.
  • the multiplexer 122 multiplexes the elementary stream packets supplied from the encoders to obtain bit stream data (transport stream) BSD as transmission data.
  • FIG. 12 shows an example of each data stream multiplexed in the transmission data generation unit 110 shown in FIG. This example shows a case where a disparity vector is detected and transmitted in units of video scenes (see FIG. 10B).
  • Each stream packet is given a time stamp for synchronous display, and the reception side can control the superimposition timing of subtitle information, graphics information, text information, and the like on the image. .
  • the disparity vector at a predetermined position in the image detected by the disparity vector detection 114 is supplied to the stream formatter 113a in the video encoder 113.
  • the ID of the parallax detection block, the vertical position information of the parallax detection block, the horizontal position information of the parallax detection block, and the parallax vector are passed as one set.
  • the transmission content of the disparity vector (see FIG. 8) is embedded as user data in the video stream.
  • the transmission data generation unit 110A shown in FIG. 13 is otherwise configured in the same manner as the transmission data generation unit 110 shown in FIG.
  • the disparity vector at a predetermined position in the image detected by the disparity vector detection 114 is supplied to the stream formatter 119a in the subtitle / graphics encoder 119.
  • the ID of the parallax detection block, the vertical position information of the parallax detection block, the horizontal position information of the parallax detection block, and the parallax vector are passed as one set.
  • disparity vector transmission contents are embedded in a subtitle or graphics data stream.
  • the other parts of the transmission data generation unit 110B shown in FIG. 15 are configured in the same manner as the transmission data generation unit 110 shown in FIG. 2 and operate in the same manner.
  • the transmission side when reflecting in the graphics information data, the transmission side generates graphics data corresponding to both the left-eye graphics information to be superimposed on the left-eye image and the right-eye graphics information to be superimposed on the right-eye image.
  • the left eye graphics information and the right eye graphics information are the same graphics information.
  • the display position in the image is shifted in the horizontal direction by, for example, the horizontal component of the parallax vector corresponding to the display position of the right-eye graphics information with respect to the left-eye graphics information.
  • parallax vector a parallax vector detected at a plurality of positions in the image and corresponding to the superimposed position is used. Further, for example, as the parallax vector, a parallax vector at a position that is recognized closest in terms of perspective among parallax vectors detected at a plurality of positions in the image is used. Although the detailed description is omitted, the same applies to the case where the parallax information is reflected in the data of the subtitle information or the graphics information.
  • FIG. 17A shows the superimposed positions of the left-eye graphics information and the right-eye graphics information when the transmission method is the above-described first transmission method (“Top ⁇ & ⁇ Bottom” method).
  • These left-eye graphics information and right-eye graphics information are the same information.
  • the right eye graphics information RGI superimposed on the right eye image IR is shifted in the horizontal direction by the horizontal component VVT of the parallax vector. It is said that.
  • graphics data is generated so that the graphics information LGI and RGI are superimposed on the images IL and IR.
  • the viewer can observe the graphics information LGI and RGI together with the images IL and IR with parallax, and can recognize the perspective in the graphics information.
  • the graphics data of each graphics information LGI, RGI is generated as single area data as shown in FIG.
  • the data other than the graphics information LGI and RGI may be generated as transparent data.
  • the graphics data of each graphics information LGI, RGI is generated as data of another area as shown in FIG.
  • the graphics data of each graphics information LGI and RGI is generated as single area data as shown in FIG.
  • the data other than the graphics information LGI and RGI may be generated as transparent data.
  • FIG. 21 shows a configuration example of the transmission data generation unit 110C.
  • the transmission data generation unit 110C is configured to transmit parallax information in data of superimposition information such as closed caption information, subtitle information, graphics information, text information, and the like.
  • portions corresponding to those in FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a subtitle / graphics processing unit 124 is inserted between the subtitle / graphics generation unit 118 and the subtitle / graphic encoder 119.
  • a text processing unit 125 is inserted between the text generation unit 120 and the text encoder 121. The disparity vector at a predetermined position in the image detected by the disparity vector detection unit 114 is supplied to the subtitle / graphics processing unit 124 and the text processing unit 125.
  • the subtitle data and graphics data generated in this way by the subtitle / graphics processing unit 124 are supplied to the subtitle / graphics encoder 119. Note that idling offset information indicating a superimposed position on an image is added to the subtitle data and graphics data.
  • the subtitle / graphic encoder 119 generates an elementary stream of subtitle data and graphics data generated by the subtitle / graphics processing unit 124.
  • the text processing unit 125 based on the text data generated by the text generation unit 120, the left-eye text information data superimposed on the left-eye image and the right-eye text information superimposed on the right-eye image. Data is generated.
  • the left-eye text information and the right-eye text information are the same text information, but the superimposed position in the image is, for example, the left-eye text information, and the right-eye text information is the horizontal component of the disparity vector. Only VVT is shifted in the horizontal direction.
  • the text data generated by the text processing unit 125 is supplied to the text encoder 121.
  • idling offset information indicating the superimposed position on the image is added to the text data.
  • the text encoder 121 generates an elementary stream of text data generated by the text processing unit.
  • the transmission data generation unit 110C shown in FIG. 21 is otherwise configured in the same manner as the transmission data generation unit 110 shown in FIG.
  • the disparity vector detection unit 114 uses a disparity vector (disparity) at a predetermined position in the image based on the left eye image data and the right eye image data. Information) is detected.
  • the transmission data generation units 110, 110A, and 110B are configured to transmit the disparity information at a predetermined position in the image detected by the disparity vector detection unit 114 as it is to the reception side.
  • the parallax vector detection unit 114 detects a parallax vector for each pixel (for each pixel), performs downsizing processing on the parallax vector, and divides the image area hierarchically to obtain the parallax vector of each area in each hierarchy. Can be considered. Then, a disparity information set is created in which the disparity vectors of each region of the layer selected based on the spatial density of the disparity vector requested by the receiving side or the transmission band are arranged in hierarchical order, and this disparity information set is transmitted to the receiving side It is possible to do.
  • parallax vector for each pixel (pixel) is recorded on the data recording medium together with the left eye image data and the right eye image data to be transmitted.
  • a parallax vector for each pixel (pixel) is recorded on the data recording medium together with the left eye image data and the right eye image data to be transmitted.
  • a disparity information set in which the disparity vectors of the respective layers of the layer selected based on the spatial density of the disparity vector requested by the reception side or the transmission band is read from the data recording medium and arranged in the hierarchical order is created. It is conceivable to send the set to the receiving side.
  • FIG. 22 shows a configuration example of the transmission data generation unit 110D.
  • This transmission data generation unit 110D is configured to create a disparity information set in which disparity vectors of each region of the selected layer are arranged in hierarchical order, and transmit this disparity information set to the reception side.
  • parts corresponding to those in FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted as appropriate.
  • the transmission data generation unit 110D includes cameras 111L and 111R, a video framing unit 112, a video encoder 113, a parallax vector detection unit 114, and a parallax vector encoder 115.
  • the transmission data generation unit 110D includes a microphone 116, an audio encoder 117, a subtitle / graphics generation unit 118, a subtitle / graphics encoder 119, a text generation unit 120, a text encoder 121, and a multiplexer 122. ing.
  • the transmission data generation unit 110D includes a data extraction unit 130, changeover switches 131 to 133, and a parallax information set creation unit 134.
  • a data recording medium 130a is detachably attached to the data extraction unit 130, for example.
  • audio data, superimposition information data, and parallax vectors are recorded in association with stereoscopic image data including left-eye image data and right-eye image data.
  • the data extraction unit 130 extracts and outputs stereoscopic image data, audio data, superimposition information data, disparity vectors, and the like from the data recording medium 130a.
  • the stereoscopic image data recorded on the data recording medium 130 a corresponds to the stereoscopic image data obtained by the video framing unit 112.
  • the superimposition information data recorded on the data recording medium 130a is subtitle data, graphics data, text data, and the like.
  • the parallax vector recorded on the data recording medium 130a is, for example, a parallax vector for each pixel (pixel) located in the lowest layer.
  • the disparity vector detection unit 114 detects, for example, a disparity vector for each pixel (for each pixel) located in the lowest layer based on the left eye image data and the right eye image data.
  • the change-over switch 131 extracts stereoscopic image data obtained by the video framing unit 112 in the live mode, extracts stereoscopic image data output from the data extraction unit 130 in the reproduction mode, and supplies the stereoscopic image data to the video encoder 113.
  • the changeover switch 132 extracts the disparity vector obtained by the disparity vector detection unit 114 in the live mode, extracts the disparity vector output from the data extraction unit 130 in the reproduction mode, and supplies it to the disparity information set creation unit 134.
  • the change-over switch 133 extracts audio data obtained by the microphone 116 in the live mode, extracts audio data output from the data extraction unit 130 in the reproduction mode, and supplies the audio data to the audio encoder 117.
  • FIG. 23 shows an example of data in the relative depth direction given as the luminance value of each pixel (pixel).
  • the data in the relative depth direction can be handled as a disparity vector for each pixel by a predetermined conversion.
  • the luminance value of the person portion is high. This means that the value of the parallax vector of the person portion is large, and therefore, in stereoscopic image display, this means that the person portion is perceived as being raised.
  • the luminance value of the background portion is low. This means that the value of the parallax vector in the background portion is small, and therefore, in stereoscopic image display, this means that the background portion is perceived as a sunken state.
  • FIG. 24 shows an example of a disparity vector for each block.
  • the block corresponds to an upper layer of pixels (picture elements) located at the lowermost layer.
  • This block is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction.
  • the disparity vector of each block is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all pixels (pixels) existing in the block.
  • the disparity vector of each block is indicated by an arrow, and the length of the arrow corresponds to the magnitude of the disparity vector.
  • FIG. 25 shows an example of the downsizing process performed by the disparity information set creation unit 134.
  • the disparity information set creation unit 134 obtains a disparity vector for each block using a disparity vector for each pixel (pixel).
  • a block corresponds to an upper layer of pixels located at the lowest layer, and is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction.
  • the disparity vector of each block is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all the pixels (pixels) existing in the block.
  • the disparity information set creation unit 134 obtains a disparity vector for each group (Group Of Block) using the disparity vector for each block, as illustrated in FIG.
  • a group is an upper layer of a block, and is obtained by grouping a plurality of adjacent blocks together.
  • each group is composed of four blocks bounded by a broken line frame.
  • the disparity vector of each group is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all blocks in the group.
  • the disparity information set creation unit 134 obtains a disparity vector for each region (Region) using the disparity vector for each group, as shown in FIG.
  • the region is an upper layer of the group, and is obtained by grouping a plurality of adjacent groups together.
  • each region is composed of two groups bounded by a broken line frame.
  • the disparity vector of each region is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all groups in the region.
  • the disparity information set creation unit 134 obtains a disparity vector of the entire picture (entire image) located in the highest layer using the disparity vector for each region, as illustrated in FIG.
  • the entire picture includes four regions that are bounded by a broken line frame.
  • the disparity vector for the entire picture is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors for all regions included in the entire picture.
  • information on the position (illustrated by “+”) of the original pixel (pixel) from which the disparity vector was obtained can be obtained and used as additional information of the disparity vector. . This is the same when obtaining the above-described disparity vectors of blocks, groups, and regions.
  • the disparity information set creation unit 134 creates a disparity information set in which disparity vectors of each region of a layer selected based on the spatial density of the disparity vector requested by the reception side or the transmission band are arranged in hierarchical order.
  • the disparity information set creation unit 134 for example, the disparity vectors of each region of each layer of the entire picture, region, group, block, and pixel (pixel) are acquired by the above-described downsizing process.
  • the disparity information set creation unit 134 manages the disparity vector of each area of each layer.
  • a block ID (Block ID) is added to the disparity vector of each region in each layer.
  • the block ID indicates the position information of the lowest layer to which the target parallax vector belongs, and allows the parallax and the position to be accurately detected even when viewed from the upper layer.
  • FIG. 26 shows only the disparity vector portion of the entire picture (DPall) and each region (DP0 to DP3) for the sake of simplicity of the drawing.
  • the disparity vector (DP_value0) of the entire picture (DPall) is a disparity vector belonging to the position of the lowest layer indicated by the block ID (ID0).
  • the disparity vectors (DP_value1 to DP_value4) of the regions (DP0 to DP3) are disparity vectors belonging to the position of the lowest layer indicated by the block ID (ID1 to ID4).
  • information indicating the position itself can be used instead of or together with the block ID.
  • This information is, for example, an offset value from the upper left of the screen to the upper left of each area, and is expressed in units of pixels.
  • the addition of position information can be omitted by arranging in the scan order (video pixel order).
  • the disparity information set creation unit 134 when only the entire picture layer that is the highest layer is selected as the transmission layer, the disparity information set creation unit 134 includes the disparity information (DP_value0) as indicated by the arrow a in FIG. Create a set. For example, when selecting the entire picture and the region layer as the transmission layer, the disparity information set creation unit 134 includes the disparity vectors (DP_value0, DP_value1 to DP_value4) as indicated by the arrow b in FIG. Create a disparity information set.
  • the disparity information set creation unit 134 creates a disparity information set including disparity vectors of each region of each layer selected as the transmission layer.
  • the transmission layer does not necessarily include the entire picture layer, and a region layer or lower, or a group layer or lower may be selected.
  • the configuration itself of each region of each layer such as a region can have a degree of freedom in how to cut the entire picture of each layer, the number of regions, and the like.
  • the disparity information set creation unit 134 arranges the disparity vectors of each area of each layer selected as the transmission layer in the disparity information set in order of layer, for example, from the upper layer.
  • FIG. 27 illustrates an example of the content of the disparity information set.
  • This disparity information set includes an information set of N disparity vectors.
  • Each information set includes a 16-bit block ID (ID_Block (i)), 16-bit vertical position information (Vertical_Position), 16-bit horizontal position information (Horizontal_Position), and a 16-bit horizontal disparity vector (Disparity_Vector_Horizontal). ).
  • the position information (Vertical_Position, Horizontal_Position) can be made unnecessary. Also, when transmitting disparity vectors for each pixel (pixel) and arranging them in the scan order (video pixel order), neither the block ID nor the position information can be required.
  • the video encoder 113 performs encoding such as MPEG4-AVC, MPEG2, or VC-1 on the stereoscopic image data supplied from the changeover switch 131 to obtain encoded video data.
  • the video encoder 113 generates a video elementary stream including encoded video data in the payload portion.
  • the disparity vector encoder 115 generates a disparity vector elementary stream including the disparity information set created by the disparity information set creation unit 134.
  • the audio encoder 117 performs encoding such as MPEG-2Audio-2AAC on the audio data supplied from the changeover switch 133 to generate an audio elementary stream.
  • the operation of the transmission data generation unit 110D shown in FIG. 22 will be briefly described. First, the operation in the live mode will be described. In this live mode, the selector switches 131 to 133 are all connected to the a side.
  • the stereoscopic image data obtained by the video framing unit 112 is supplied to the video encoder 113 via the changeover switch 131.
  • the stereoscopic image data is encoded by MPEG4-AVC, MPEG2, VC-1, or the like, and a video elementary stream including the encoded video data is generated. This video elementary stream is supplied to the multiplexer 122.
  • the left eye image data and right eye image data obtained by the cameras 111L and 111R are supplied to the parallax vector detection unit 114 through the video framing unit 112.
  • the disparity vector detection unit 114 detects, for example, a disparity vector for each pixel (for each pixel) located in the lowermost layer based on the left eye image data and the right eye image data. This disparity vector is supplied to the disparity information set creation unit 134 via the changeover switch 132.
  • each region of each layer obtained by downsizing the disparity vector that is, the disparity vector for each pixel (pixel) located in the lowest layer, and dividing the image region hierarchically Parallax information is obtained.
  • the disparity information set creation unit 134 performs a downsizing process on the disparity vector for each pixel (pixel) located in the lowermost layer, so that the disparity vectors of each region in each layer of the block, group, region, and entire picture are obtained. Desired.
  • the disparity information set creation unit 134 further adds the disparity vectors of the respective layers of the layers selected based on the spatial density of the disparity vectors requested by the reception side or the transmission band in the hierarchical order.
  • An arranged disparity information set is created (see FIG. 27). This disparity information set is supplied to the disparity vector encoder 115.
  • a disparity vector elementary stream including a disparity information set is generated. This disparity vector elementary stream is supplied to the multiplexer 122.
  • audio data obtained by the microphone 116 is supplied to the audio encoder 117 via the changeover switch 133.
  • the audio encoder 117 performs encoding such as MPEG-2Audio AAC on the audio data, and generates an audio elementary stream including the encoded audio data. This audio elementary stream is supplied to the multiplexer 122.
  • an elementary stream including subtitle data or encoded data of graphics data is supplied from the subtitle / graphic encoder 119 to the multiplexer 122.
  • an elementary stream including encoded data of text data is supplied to the multiplexer 122 from the text encoder 121.
  • the multiplexer 122 then multiplexes the elementary stream packets supplied from the encoders to obtain bit stream data (transport stream) BSD as transmission data.
  • the change-over switches 131 to 133 are all connected to the b side.
  • the stereoscopic image data obtained by the data extraction unit 130 is supplied to the video encoder 113 via the changeover switch 131.
  • the disparity vector obtained by the data extraction unit 130 that is, the disparity vector for each pixel (pixel) located in the lowest layer is supplied to the disparity information set creation unit 134 via the changeover switch 132.
  • the audio data obtained by the data extraction unit 130 is supplied to the audio encoder 117 via the changeover switch 133.
  • the disparity information set created by the disparity information set creation unit 134 includes each layer obtained by hierarchically dividing an image (picture) region. Among them, the disparity vectors (disparity information) of the respective regions of the selected hierarchy are arranged in the hierarchical order. Therefore, on the receiving side, the disparity vector corresponding to the superimposition position of the superimposition information can be easily extracted from the disparity information set and used. That is, on the receiving side, calculation for obtaining a disparity vector corresponding to the superimposition position of superimposition information is not necessary, and a simple configuration can be achieved.
  • the disparity information set creation unit 134 performs a downsizing process on the disparity vector for each pixel in the lowest layer, so that each region in each layer is processed. As described above, the parallax vector is obtained. However, the disparity vector of each region of each layer may be detected or obtained by the disparity vector detection unit 114, and the disparity information set creation unit 134 may use it. Alternatively, the parallax vector of each area in each layer may be recorded on the data recording medium 130a, and the parallax information set creation unit 134 may use it.
  • the transmission data generation unit 110D illustrated in FIG. 22 is configured to multiplex a disparity vector elementary stream including a disparity information set with other streams by the multiplexer 122. That is, the transmission data generation unit 110D shown in FIG. 22 has a configuration corresponding to the transmission data generation unit 110 shown in FIG. However, similarly to the transmission data generation units 110A and 110B shown in FIGS. 13 and 15, a configuration in which a disparity information set is inserted into another stream such as an image data stream and sent to the reception side can also be used.
  • the set-top box 200 receives bit stream data (transport stream) transmitted from the broadcast station 100 on a broadcast wave.
  • the bit stream data includes stereoscopic image data including left eye image data and right eye image data, audio data, superimposition information data, and further disparity information (disparity vector).
  • the superimposition information data is, for example, subtitle data, graphics data, text data (including closed caption data), and the like.
  • the set top box 200 has a bit stream processing unit 201.
  • the bit stream processing unit 201 extracts stereoscopic image data, audio data, superimposition information data, a disparity vector, and the like from the bit stream data.
  • the bit stream processing unit 201 generates left-eye image data and right-eye image data on which superimposition information is superimposed, using stereoscopic image data, superimposition information data (subtitle data, graphics data, text data), and the like.
  • left eye superimposition information and right eye superimposition information to be superimposed on the left eye image and the right eye image are generated based on the parallax vector and the superimposition information data.
  • the left eye superposition information and the right eye superposition information are the same superposition information.
  • the superposition position in the image is shifted in the horizontal direction by the horizontal component of the parallax vector, for example, with respect to the left eye superimposition information.
  • FIG. 28A shows the superimposed positions of the left-eye graphics information and the right-eye graphics information when the transmission method is the above-described second transmission method (“Side By Side” method).
  • the right-eye graphics information RGI superimposed on the right-eye image IR is set at a position shifted in the horizontal direction by the horizontal component VVT of the parallax vector.
  • IT is an idling offset value.
  • bit stream processing unit 201 graphics data is generated such that the graphics information LGI and RGI are superimposed on the images IL and IR as shown in FIG.
  • the bit stream processing unit 201 combines the generated left eye graphics data and right eye graphics data with the stereoscopic image data (left eye image data and right eye image data) extracted from the bit stream data, and performs processing Later stereo image data is acquired.
  • this stereoscopic image data as shown in FIG. 28 (b), the viewer can observe each graphics information LGI, RGI together with each image IL, IR with parallax, and the graphics information has a sense of perspective. It becomes possible to recognize.
  • FIG. 28 shows the case of graphics information, but the same applies to other superimposition information (closed caption information, subtitle information, text information, etc.). That is, when the parallax vector is transmitted as numerical information, left eye superimposition information and right eye superimposition information to be superimposed on the left eye image and the right eye image are generated based on the parallax vector and the superimposition information data data. .
  • the left eye superposition information and the right eye superposition information are the same superposition information.
  • the superposition position in the image is shifted in the horizontal direction by, for example, the horizontal component of the parallax vector in the right eye superposition information with respect to the left eye superposition information, for example.
  • FIGS. 30A, 30B, 30C, and 30D show disparity vectors (View ⁇ Vector) at three object positions at times T0, T1, T2, and T3, respectively.
  • the disparity vector VV0-1 at the position (H0, V0) corresponding to the object 1 is the maximum disparity vector MaxVV (T0).
  • the disparity vector VV1-1 at the position (H1, V1) corresponding to the object 1 is the maximum disparity vector MaxVV (T1).
  • the parallax vector VV2-2 at the position (H2, V2) corresponding to the object 2 is the maximum parallax vector MaxVV (T2).
  • the parallax vector VV3-0 at the position (H3, V3) corresponding to the object 1 is the maximum parallax vector MaxVV (T3).
  • Superimposition information can be displayed in front of an object in a close image.
  • FIG. 31A shows a display example of captions (for example, closed caption information and subtitle information) on an image.
  • captions are superimposed on an image composed of a background and a foreground object.
  • FIG. 31B shows the perspective of the background, the foreground object, and the caption, and indicates that the caption is recognized as being closest.
  • a disparity vector detected at a plurality of positions in an image (including a disparity vector of each area of each layer included in a disparity information set) corresponding to the superimposed position should be used. Can be considered.
  • FIG. 33A shows graphic information based on graphic data extracted from bit stream data and text information based on text data extracted from bit stream data.
  • FIG. 33 (c) shows a state where the right-eye graphics information RGI and the right-eye text information RTI are superimposed on the right-eye image.
  • the superimposition position is restricted by the idling offset value (IT-0) in the horizontal direction, and the horizontal component VVT-0 of the parallax vector corresponding to this superposition position is also set to the left eye. It is shifted from the superimposed position of the graphics information LGI.
  • the right-eye text information RTI has its superposition position restricted by an idling offset value (IT-1) in the horizontal direction, and the left-eye text corresponding to the horizontal component VVT-1 of the parallax vector corresponding to this superposition position. It is shifted from the superimposed position of the information LTI.
  • FIG. 34 (a) shows that objects A, B, and C exist in the image, and for example, text information indicating annotations of each object is superimposed on a position near each object.
  • FIG. 34B shows the positions of the objects A, B, and C, the disparity vector list indicating the correspondence between the disparity vectors at the positions, the disparity vectors, and the annotations of the objects A, B, and C. It shows that it is used when parallax is given to the text information shown. For example, the text information “Text” is superimposed in the vicinity of the object A, but the disparity vector at the position (Ha, Va) of the object A is between the left-eye text information and the right-eye text information. Parallax corresponding to VV-a is given. The same applies to the text information superimposed in the vicinity of the B and C objects.
  • FIG. 33 shows a case where the superimposition information is graphics information and text information.
  • FIG. 34 shows a case where the superimposition information is text information. Although the detailed description is omitted, the same applies to other superimposition information (closed caption information, subtitle information, etc.).
  • the superimposition information data extracted from the bitstream data includes data of left eye superimposition information and right eye superimposition information that are given disparity by a disparity vector.
  • FIG. 35 shows a configuration example of the set top box 200.
  • the set top box 200 includes a bit stream processing unit 201, an HDMI terminal 202, an antenna terminal 203, a digital tuner 204, a video signal processing circuit 205, an HDMI transmission unit 206, and an audio signal processing circuit 207. ing.
  • the set top box 200 includes a CPU 211, a flash ROM 212, a DRAM 213, an internal bus 214, a remote control receiving unit 215, and a remote control transmitter 216.
  • the antenna terminal 203 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown).
  • the digital tuner 204 processes the television broadcast signal input to the antenna terminal 203 and outputs predetermined bit stream data (transport stream) corresponding to the user's selected channel.
  • the bit stream processing unit 201 extracts stereoscopic image data (left-eye image data, right-eye image data), audio data, superimposition information data, disparity information (disparity vector), and the like from the bit stream data.
  • the superimposition information data is subtitle data, graphics data, text data (including closed caption data), and the like.
  • the bit stream processing unit 201 synthesizes superimposition information (closed caption information, subtitle information, graphics information, text information, etc.) data with the stereoscopic image data, and acquires display stereoscopic image data. To do.
  • the bit stream processing unit 201 outputs audio data. The detailed configuration of the bit stream processing unit 201 will be described later.
  • the video signal processing circuit 205 performs image quality adjustment processing on the stereoscopic image data output from the bit stream processing unit 201 as necessary, and supplies the processed stereoscopic image data to the HDMI transmission unit 206.
  • the audio signal processing circuit 207 performs sound quality adjustment processing or the like on the audio data output from the bit stream processing unit 201 as necessary, and supplies the processed audio data to the HDMI transmission unit 206.
  • the HDMI transmission unit 206 transmits baseband image (video) and audio data from the HDMI terminal 202 by communication conforming to HDMI. In this case, since transmission is performed using the HDMI TMDS channel, image and audio data are packed and output from the HDMI transmission unit 206 to the HDMI terminal 202. Details of the HDMI transmission unit 206 will be described later.
  • the CPU 211 controls the operation of each part of the set top box 200.
  • the flash ROM 212 stores control software and data.
  • the DRAM 213 constitutes a work area for the CPU 211.
  • the CPU 211 develops software and data read from the flash ROM 212 on the DRAM 213 to activate the software, and controls each part of the set top box 200.
  • the remote control receiving unit 215 receives the remote control signal (remote control code) transmitted from the remote control transmitter 216 and supplies it to the CPU 211.
  • the CPU 211 controls each part of the set top box 200 based on the remote control code.
  • the CPU 211, flash ROM 212 and DRAM 213 are connected to the internal bus 214.
  • a television broadcast signal input to the antenna terminal 203 is supplied to the digital tuner 204.
  • the digital tuner 204 processes the television broadcast signal and outputs predetermined bit stream data (transport stream) corresponding to the user's selected channel.
  • the bit stream data output from the digital tuner 204 is supplied to the bit stream processing unit 201.
  • the bit stream processing unit 201 extracts stereoscopic image data (left-eye image data, right-eye image data), audio data, graphics data, text data, disparity vectors, and the like from the bit stream data.
  • data of superimposition information (closed caption information, subtitle information, graphics information, text information, and the like) is combined with the stereoscopic image data to generate stereoscopic image data for display.
  • the display stereoscopic image data generated by the bit stream processing unit 201 is supplied to the HDMI transmission unit 206 after image quality adjustment processing or the like is performed as necessary by the video signal processing circuit 205. Also, the audio data obtained by the bit stream processing unit 201 is supplied to the HDMI transmission unit 206 after the audio signal processing circuit 207 performs sound quality adjustment processing or the like as necessary.
  • the stereoscopic image data and audio data supplied to the HDMI transmission unit 206 are transmitted from the HDMI terminal 202 to the HDMI cable 400 via the HDMI TMDS channel.
  • FIG. 36 shows a configuration example of the bit stream processing unit 201.
  • the bit stream processing unit 201 has a configuration corresponding to the transmission data generation units 110 and 110D shown in FIGS. 2 and 22 described above.
  • the bit stream processing unit 201 includes a demultiplexer 220, a video decoder 221, a subtitle / graphics decoder 222, a text decoder 223, an audio decoder 224, and a disparity vector decoder 225.
  • the bit stream processing unit 201 includes a stereoscopic image subtitle / graphics generating unit 226, a stereoscopic image text generating unit 227, a video superimposing unit 228, and a multi-channel speaker control unit 229.
  • the demultiplexer 220 extracts video, audio, disparity vectors, subtitles, graphics, and text packets from the bit stream data BSD, and sends them to each decoder.
  • the video decoder 221 performs processing reverse to that of the video encoder 113 of the transmission data generation unit 110 described above. That is, the video decoder 221 reconstructs a video elementary stream from the video packet extracted by the demultiplexer 220, performs decoding processing, and generates stereoscopic image data including left-eye image data and right-eye image data. Get.
  • the transmission method of the stereoscopic image data is, for example, the above-described first transmission method (“Top & Bottom” method), the second transmission method (“Side By Side” method), and the third transmission method (“Frame Sequential ”method) (see FIGS. 4A to 4C).
  • the subtitle / graphics decoder 222 performs the reverse process of the subtitle / graphics encoder 119 of the transmission data generation unit 110 described above. That is, the subtitle / graphics decoder 222 reconstructs a subtitle / graphics elementary stream from the subtitle / graphics packet extracted by the demultiplexer 220. Then, the subtitle / graphics decoder 222 further performs a decoding process to obtain subtitle data and graphics data.
  • the text decoder 223 performs processing reverse to that of the text encoder 121 of the transmission data generation unit 110 described above. That is, the text decoder 223 reconstructs a text elementary stream from the text packet extracted by the demultiplexer 220 and performs a decoding process to obtain text data (including closed caption data).
  • the audio decoder 224 performs processing opposite to that of the audio encoder 117 of the transmission data generation unit 110 described above. That is, the audio decoder 224 reconstructs an audio elementary stream from the audio packet extracted by the demultiplexer 220, performs decoding processing, and obtains audio data.
  • the disparity vector decoder 225 performs processing opposite to that of the disparity vector encoder 115 of the transmission data generation unit 110 described above. That is, the disparity vector decoder 225 reconstructs an elementary stream of disparity vectors from the disparity vector packets extracted by the demultiplexer 220, performs decoding processing, and obtains disparity vectors at predetermined positions in the image.
  • the stereoscopic image subtitle / graphics generating unit 226 generates left-eye and right-eye subtitle information and graphics information to be superimposed on the left-eye image and the right-eye image, respectively. This generation process is performed based on the subtitle data and graphics data obtained by the decoder 222 and the disparity vector obtained by the decoder 225. In this case, the left-eye and left-eye subtitle information and graphics information are the same information. However, the superimposed position in the image is shifted in the horizontal direction by, for example, the horizontal component of the disparity vector in the right-eye title information and graphics information with respect to the left-eye subtitle information and graphics information, for example. . Then, the stereoscopic image subtitle / graphics generating unit 226 outputs the generated left-eye and left-eye subtitle information and graphics information data (bitmap data).
  • the video superimposing unit 228 superimposes the data generated by the generating units 226 and 227 on the stereoscopic image data (left-eye image data and right-eye image data) obtained by the video decoder 221 to display stereoscopic image data for display. Get Vout. Note that superimposition of superimposition information data on stereoscopic image data (left-eye image data, right-eye image data) is started by a time stamp of the system layer.
  • the multi-channel speaker control unit 229 gives the sound data obtained by the audio decoder 224 a process for generating sound data of a multi-channel speaker for realizing 5.1ch surround, for example, and predetermined sound field characteristics. Apply processing.
  • the multi-channel speaker control unit 229 controls the output of the multi-channel speaker based on the disparity vector obtained by the decoder 225.
  • FIG. 37 shows an example of speaker output control when the parallax vector VV1 is larger in the left video object toward the television display.
  • the Rear Left speaker volume of the multi-channel speaker is increased, the Front Left speaker volume is medium, and the Front Right and Rear Right speaker volumes are reduced.
  • the disparity vector of the video content stereoscopic image data
  • the viewer can experience a stereoscopic effect comprehensively.
  • bit stream processing unit 201 The operation of the bit stream processing unit 201 shown in FIG.
  • the bit stream data BSD output from the digital tuner 204 (see FIG. 35) is supplied to the demultiplexer 220.
  • video, audio, disparity vectors, subtitles and graphics, and text TS packets are extracted from the bit stream data BSD and supplied to each decoder.
  • a video elementary stream is reconstructed from the video packet extracted by the demultiplexer 220, and further, decoding processing is performed, so that stereoscopic image data including left eye image data and right eye image data is obtained. can get.
  • the stereoscopic image data is supplied to the video superimposing unit 228.
  • the disparity vector decoder 225 reconstructs the disparity vector elementary stream from the disparity vector packet extracted by the demultiplexer 220 and further performs a decoding process to obtain a disparity vector at a predetermined position in the image. (See FIGS. 8 and 27).
  • the subtitle / graphics decoder 222 reconstructs a subtitle / graphics elementary stream from the subtitle / graphics packets extracted by the demultiplexer 220.
  • the subtitle / graphics decoder 222 further performs a decoding process on the subtitle and graphics elementary streams to obtain subtitle data and graphics data.
  • the subtitle data and graphics data are supplied to the stereoscopic image subtitle / graphics generating unit 226.
  • the stereoscopic image subtitle / graphics generating unit 226 is also supplied with the disparity vector obtained by the disparity vector decoder 225.
  • the stereoscopic image subtitle / graphics generating unit 226 generates left eye and right eye subtitle information and graphics information data to be superimposed on the left eye image and the right eye image, respectively. This generation process is performed based on the subtitle data and graphics data obtained by the decoder 222 and the disparity vector obtained by the decoder 225. In this case, for example, with respect to the left-eye subtitle information and left-eye graphics information, the right-eye subtitle information and graphics information are shifted in the horizontal direction by the horizontal component of the disparity vector. Is done. From the stereoscopic image subtitle / graphics generating unit 226, the generated left-eye and right-eye subtitle information and graphics information data (bitmap data) are output.
  • bitmap data bitmap data
  • the text decoder 223 reconstructs a text elementary stream from the text TS packet extracted by the demultiplexer 220, and further performs a decoding process to obtain text data.
  • This text data is supplied to the stereoscopic image text generator 227.
  • the stereoscopic image text generation unit 227 is also supplied with the disparity vector obtained by the disparity vector decoder 225.
  • this stereoscopic image text generation unit 227 based on the text data obtained by the decoder 223 and the disparity vector obtained by the decoder 225, left-eye text information to be superimposed on the left-eye image and the right-eye image, Eye text information is generated.
  • the left-eye text information and the right-eye text information are the same text information, but the superimposed position in the image is, for example, the left-eye text information, and the right-eye text information is the horizontal component of the disparity vector. Only to be shifted horizontally.
  • data (bitmap data) of the generated left eye text information and right eye text information is output.
  • the video superimposing unit 228 is supplied with data output from the subtitle / graphics generating unit 226 and the text generating unit 227. Is done.
  • the video superimposing unit 228 superimposes the data generated by the subtitle / graphics generating unit 226 and the text generating unit 227 on the stereoscopic image data (left-eye image data, right-eye image data), and displays stereoscopic image data for display. Vout is obtained.
  • the display stereoscopic image data Vout is supplied as transmission image data to the HDMI transmission unit 206 (see FIG. 35) via the video signal processing circuit 205.
  • the audio decoder 224 reconstructs an audio elementary stream from the audio TS packet extracted by the demultiplexer 220, and further performs a decoding process to obtain audio data.
  • This audio data is supplied to the multi-channel speaker control unit 229.
  • processing for generating multi-channel speaker audio data for realizing 5.1ch surround, processing for giving predetermined sound field characteristics, and the like are performed on the audio data.
  • the disparity vector (see FIG. 8 and FIG. 27) together with the image data stream, the subtitle or graphics data stream, and the text data stream. ) Including the disparity vector stream.
  • the disparity vectors for each predetermined unit corresponding to each fixed period are collected in accordance with the start timing of each fixed period such as GOP (Group Of Pictures) of an encoded video, I (Intra picture) picture, or scene. Will be sent.
  • GOP Group Of Pictures
  • I Intra picture
  • the predetermined unit for example, a picture (frame) unit or a unit of an integer multiple of a picture can be considered.
  • parallax based on a corresponding disparity vector is given to the superimposition information for each predetermined unit in the superimposition period of the superimposition information.
  • the arrows attached to the subtitle (graphics) data stream and text data stream portions in FIG. 38 represent the timing at which disparity is given to the superimposition information for each predetermined unit.
  • the superimposition information is selected from the disparity vectors for the superimposition period.
  • Parallax is given by the parallax vector (parallax information).
  • the predetermined disparity vector is, for example, disparity information indicating the maximum disparity among the disparity information for the overlapping period.
  • the arrows attached to the subtitle (graphics) data stream and text data stream portions in FIG. 39 represent the timing at which disparity is added to the superimposition information.
  • parallax is given to the superimposition information at the beginning of the superposition period, and thereafter, the superposition information to which the parallax is given is used as superposition information to be superimposed on the left eye image and the right eye image.
  • the bit stream processing unit 201A illustrated in FIG. 40 has a configuration corresponding to the transmission data generation unit 110A illustrated in FIG. In FIG. 40, portions corresponding to those in FIG. 36 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • This bit stream processing unit 201A is provided with a disparity vector extracting unit 231 instead of the disparity vector decoder 225 of the bit stream processing unit 201 shown in FIG.
  • the disparity vector extracting unit 231 extracts a disparity vector embedded in the user data area from a video stream obtained through the video decoder 221.
  • the disparity vector extracting unit 231 supplies the extracted disparity vector to the stereoscopic image subtitle / graphics generating unit 226, the stereoscopic image text generating unit 227, and the multi-channel speaker control unit 229.
  • bit stream processing unit 201A shown in FIG. 40 is configured in the same manner as the bit stream processing unit 201 shown in FIG. 36 and operates in the same manner.
  • an image data stream, a subtitle or graphics data stream, and a text data stream are sent.
  • the disparity vector (see FIGS. 8 and 27) is sent embedded in the image data stream.
  • a disparity vector corresponding to the predetermined unit is embedded in the image data stream and sent.
  • a parallax based on a corresponding disparity vector (information information) is given to the superimposition information for each predetermined unit in the superimposition period of the superimposition information.
  • the arrows attached to the subtitle (graphics) data stream and text data stream portions in FIG. 41 represent the timing at which disparity is added to the superimposition information for each predetermined unit.
  • an image data stream, a subtitle or graphics data stream, and a text data stream are sent from the broadcasting station 100 (see FIG. 1).
  • the disparity vector (see FIGS. 8 and 27) is sent embedded in the image data stream.
  • the disparity vectors for each predetermined unit corresponding to each fixed period are sent together in accordance with the start timing of each fixed period such as GOP of encoded video, I picture, or scene.
  • the predetermined unit for example, a picture (frame) unit or a unit of an integer multiple of a picture can be considered.
  • the superimposition information is selected from the disparity vectors for the superimposition period.
  • Parallax is given by the parallax vector (parallax information).
  • the predetermined disparity vector is, for example, the predetermined disparity information is disparity information indicating the maximum disparity among the disparity information for the overlapping period.
  • the arrows attached to the subtitle (graphics) data stream and text data stream portions in FIG. 43 represent the timing at which disparity is added to the superimposition information.
  • parallax is given to the superimposition information at the beginning of the superposition period, and thereafter, the superposition information to which the parallax is given is used as superposition information to be superimposed on the left eye image and the right eye image.
  • the bit stream processing unit 201B illustrated in FIG. 44 has a configuration corresponding to the transmission data generation unit 110B illustrated in FIG. 15 described above.
  • portions corresponding to those in FIG. 36 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • bit stream processing unit 201B shown in FIG. 44 are configured in the same manner as the bit stream processing unit 201 shown in FIG. 36 and operate in the same manner. Note that the addition of parallax to the superimposition information in the bit stream processing unit 201B in FIG. 44 is the same as the parallax addition to the superposition information in the bit stream processing unit 201A in FIG. 40 described above (FIGS. 41 to 43). reference).
  • the bit stream processing unit 201C illustrated in FIG. 45 has a configuration corresponding to the transmission data generation unit 110C illustrated in FIG. 21 described above.
  • portions corresponding to those in FIG. 36 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the bit stream processing unit 201C is obtained by removing the parallax vector decoder 225, the stereoscopic image subtitle / graphics generating unit 226, and the stereoscopic image text generating unit 227 from the bit stream processing unit 201 shown in FIG.
  • the disparity vector is reflected in advance in the data of subtitle information, graphics information, and text information.
  • the transmitted subtitle data and graphics data include left eye subtitle information and graphics information data to be superimposed on the left eye image, and right eye subtitle information and graphics to be superimposed on the right eye image. Contains informational data.
  • the transmitted text data includes left-eye text information data superimposed on the left-eye image and right-eye text information data superimposed on the right-eye image. Accordingly, the disparity vector decoder 225, the stereoscopic image subtitle / graphics generating unit 226, and the stereoscopic image text generating unit 227 are not necessary.
  • the text data obtained by the text decoder 223 is code data (character code), it is necessary to convert it into bitmap data. This processing is performed at the final stage of the text decoder 223 or at the input stage of the video superimposing unit 228, for example.
  • the television receiver 300 receives stereoscopic image data sent from the set top box 200 via the HDMI cable 400.
  • the television receiver 300 includes a 3D signal processing unit 301.
  • the 3D signal processing unit 301 performs processing (decoding processing) corresponding to the transmission method on the stereoscopic image data to generate left-eye image data and right-eye image data. That is, the 3D signal processing unit 301 performs a process reverse to that of the video framing unit 112 in the transmission data generation units 110, 110A, 110B, 110C, and 110D shown in FIG. 2, FIG. 13, FIG. 15, FIG. Do. Then, the 3D signal processing unit 301 acquires the left eye image data and the right eye image data constituting the stereoscopic image data.
  • the bit stream processing unit 306 has the same configuration as the bit stream processing unit 201 of the set top box 200 shown in FIG.
  • the bit stream processing unit 306 extracts stereoscopic image data (left eye image data, right eye image data), audio data, superimposition information data, disparity vectors (disparity information), and the like from the bit stream data.
  • the superimposition information data is subtitle data, graphics data, text data (including closed caption data), and the like.
  • the bit stream processing unit 306 combines the superimposition information data with the stereoscopic image data, and acquires display stereoscopic image data.
  • the bit stream processing unit 306 outputs audio data.
  • the video / graphic processing circuit 307 generates image data for displaying a stereoscopic image based on the left eye image data and right eye image data generated by the 3D signal processing unit 301.
  • the video / graphic processing circuit 307 performs image quality adjustment processing on the image data as necessary. Further, the video / graphic processing circuit 307 synthesizes superimposition information data such as a menu and a program guide with the image data as necessary.
  • the panel drive circuit 308 drives the display panel 309 based on the image data output from the video / graphic processing circuit 307.
  • the display panel 309 includes, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), or the like.
  • the audio signal processing circuit 310 performs necessary processing such as D / A conversion on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306.
  • the audio amplification circuit 311 amplifies the audio signal output from the audio signal processing circuit 310 and supplies the amplified audio signal to the speaker 312.
  • the CPU 321 controls the operation of each unit of the television receiver 300.
  • the flash ROM 322 stores control software and data.
  • the DRAM 323 constitutes a work area for the CPU 321.
  • the CPU 321 develops software and data read from the flash ROM 322 on the DRAM 323 to activate the software, and controls each unit of the television receiver 300.
  • the remote control receiving unit 325 receives the remote control signal (remote control code) transmitted from the remote control transmitter 326 and supplies it to the CPU 321.
  • the CPU 321 controls each part of the television receiver 300 based on the remote control code.
  • the CPU 321, flash ROM 322, and DRAM 323 are connected to the internal bus 324.
  • the TV broadcast signal input to the antenna terminal 304 is supplied to the digital tuner 305.
  • the digital tuner 305 processes the television broadcast signal and outputs predetermined bit stream data (transport stream) corresponding to the user's selected channel.
  • the image data obtained by the video / graphic processing circuit 307 is supplied to the panel drive circuit 308. Therefore, a stereoscopic image is displayed on the display panel 309.
  • the left eye image based on the left eye image data and the right eye image based on the right eye image data are alternately displayed on the display panel 309 in a time division manner.
  • the viewer can see only the left eye image with the left eye and the right eye with the right eye by wearing shutter glasses that alternately open the left eye shutter and the right eye shutter in synchronization with the display on the display panel 309. Only images can be seen, and stereoscopic images can be perceived.
  • the audio signal processing circuit 310 necessary processing such as D / A conversion is performed on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306.
  • the audio data is amplified by the audio amplification circuit 311 and then supplied to the speaker 312. Therefore, sound corresponding to the display image on the display panel 309 is output from the speaker 312.
  • FIG. 47 shows a configuration example of the HDMI transmission unit (HDMI source) 206 of the set-top box 200 and the HDMI reception unit (HDMI sink) 303 of the television receiver 300 in the stereoscopic image display system 10 of FIG.
  • the HDMI transmission unit 206 transmits a differential signal corresponding to pixel data of an uncompressed image for one screen in an effective image section (hereinafter, also referred to as an active video section as appropriate) using a plurality of channels.
  • the effective image section is a section obtained by removing the horizontal blanking section and the vertical blanking section from the section from one vertical synchronization signal to the next vertical synchronization signal.
  • the HDMI transmission unit 206 receives the differential signals corresponding to at least audio data, control data, other auxiliary data, etc. associated with the image on a plurality of channels in the horizontal blanking interval or the vertical blanking interval. Transmit to the unit 303 in one direction.
  • the transmitter 81 converts audio data accompanying uncompressed images, further necessary control data and other auxiliary data, etc. into corresponding differential signals, and converts them into three TMDS channels # 0, # 1, #. 2 serially transmits to the HDMI receiving unit 303 in one direction.
  • the transmission channels of the HDMI system include transmission channels called DDC (Display Data Channel) 83 and CEC line 84 in addition to the above-described TMDS channels # 0 to # 2 and the TMDS clock channel.
  • the DDC 83 includes two signal lines (not shown) included in the HDMI cable 400.
  • the DDC 83 is used by the HDMI transmitting unit 206 to read E-EDID (Enhanced Extended Display Identification Data) from the HDMI receiving unit 303.
  • E-EDID Enhanced Extended Display Identification Data
  • the HDMI receiving unit 303 has an EDID ROM (Read Only Memory) 85 that stores E-EDID, which is performance information related to its performance (Configuration / capability), in addition to the HDMI receiver 81. .
  • E-EDID ROM Read Only Memory
  • the HDMI transmission unit 206 reads the E-EDID from the HDMI reception unit 303 connected via the HDMI cable 400 via the DDC 83.
  • the HDMI transmission unit 206 sends the read E-EDID to the CPU 211.
  • the CPU 211 stores this E-EDID in the flash ROM 212 or the DRAM 213.
  • the CPU 211 can recognize the performance setting of the HDMI receiving unit 303 based on the E-EDID. For example, the CPU 211 recognizes whether or not the television receiver 300 having the HDMI receiving unit 303 can handle stereoscopic image data, and if so, what kind of TMDS transmission data structure can be supported.
  • the CEC line 84 is made up of one signal line (not shown) included in the HDMI cable 400, and is used for bidirectional communication of control data between the HDMI transmission unit 206 and the HDMI reception unit 303.
  • the CEC line 84 constitutes a control data line.
  • the HDMI cable 400 includes a line (HPD line) 86 connected to a pin called HPD (Hot Plug Detect).
  • HPD line 86 is also used as a HEAC-line constituting a bidirectional communication path.
  • the HDMI cable 400 includes a line (power line) 87 used for supplying power from the source device to the sink device.
  • the HDMI cable 400 includes a utility line 88.
  • the utility line 88 is also used as a HEAC + line constituting a bidirectional communication path.
  • FIG. 48 shows a configuration example of the HDMI transmitter 81 and the HDMI receiver 82 of FIG.
  • the HDMI transmitter 81 has three encoder / serializers 81A, 81B, and 81C corresponding to the three TMDS channels # 0, # 1, and # 2, respectively.
  • Each of the encoders / serializers 81A, 81B, and 81C encodes the image data, auxiliary data, and control data supplied thereto, converts the parallel data into serial data, and transmits the data by a differential signal.
  • the B component is supplied to the encoder / serializer 81A
  • the G component is supplied to the encoder / serializer 81B
  • the R component is supplied to the encoder / serializer 81C. Supplied.
  • auxiliary data there are audio data and control packets.
  • the control packets are supplied to, for example, the encoder / serializer 81A, and the audio data is supplied to the encoders / serializers 81B and 81C.
  • the control data includes a 1-bit vertical synchronization signal (VSYNC), a 1-bit horizontal synchronization signal (HSYNC), and 1-bit control bits CTL0, CTL1, CTL2, and CTL3.
  • the vertical synchronization signal and the horizontal synchronization signal are supplied to the encoder / serializer 81A.
  • the control bits CTL0 and CTL1 are supplied to the encoder / serializer 81B, and the control bits CTL2 and CTL3 are supplied to the encoder / serializer 81C.
  • the encoder / serializer 81A transmits the B component of the image data, the vertical synchronization signal and the horizontal synchronization signal, and auxiliary data supplied thereto in a time division manner. That is, the encoder / serializer 81A converts the B component of the image data supplied thereto into 8-bit parallel data that is a fixed number of bits. Further, the encoder / serializer 81A encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 0.
  • the encoder / serializer 81A encodes 2-bit parallel data of the vertical synchronization signal and horizontal synchronization signal supplied thereto, converts the data into serial data, and transmits the serial data through the TMDS channel # 0. Furthermore, the encoder / serializer 81A converts the auxiliary data supplied thereto into parallel data in units of 4 bits. Then, the encoder / serializer 81A encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 0.
  • Encoder / serializer 81B transmits the G component of image data, control bits CTL0 and CTL1, and auxiliary data supplied thereto in a time-sharing manner. That is, the encoder / serializer 81B sets the G component of the image data supplied thereto as parallel data in units of 8 bits, which is a fixed number of bits. Further, the encoder / serializer 81B encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 1.
  • the encoder / serializer 81B encodes the 2-bit parallel data of the control bits CTL0 and CTL1 supplied thereto, converts the data into serial data, and transmits it through the TMDS channel # 1. Furthermore, the encoder / serializer 81B converts the auxiliary data supplied thereto into parallel data in units of 4 bits. Then, the encoder / serializer 81B encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 1.
  • the encoder / serializer 81C transmits the R component of the image data, control bits CTL2 and CTL3, and auxiliary data supplied thereto in a time division manner. That is, the encoder / serializer 81C sets the R component of the image data supplied thereto as parallel data in units of 8 bits, which is a fixed number of bits. Further, the encoder / serializer 81C encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 2.
  • the encoder / serializer 81C encodes the 2-bit parallel data of the control bits CTL2 and CTL3 supplied thereto, converts it into serial data, and transmits it through the TMDS channel # 2. Furthermore, the encoder / serializer 81C converts the auxiliary data supplied thereto into parallel data in units of 4 bits. Then, the encoder / serializer 81C encodes the parallel data, converts it into serial data, and transmits it through the TMDS channel # 2.
  • the HDMI receiver 82 has three recovery / decoders 82A, 82B, and 82C corresponding to the three TMDS channels # 0, # 1, and # 2, respectively. Then, each of the recovery / decoders 82A, 82B, and 82C receives image data, auxiliary data, and control data transmitted as differential signals through the TMDS channels # 0, # 1, and # 2. Further, each of the recovery / decoders 82A, 82B, and 82C converts the image data, auxiliary data, and control data from serial data to parallel data, and further decodes and outputs them.
  • the recovery / decoder 82A receives the B component of image data, the vertical synchronization signal, the horizontal synchronization signal, and the auxiliary data that are transmitted as differential signals through the TMDS channel # 0. Then, the recovery / decoder 82A converts the B component of the image data, the vertical synchronization signal, the horizontal synchronization signal, and the auxiliary data from serial data to parallel data, and decodes and outputs them.
  • the recovery / decoder 82B receives the G component of the image data, the control bits CTL0 and CTL1, and the auxiliary data transmitted by the differential signal through the TMDS channel # 1. Then, the recovery / decoder 82B converts the G component of the image data, the control bits CTL0 and CTL1, and the auxiliary data from serial data to parallel data, and decodes and outputs them.
  • the recovery / decoder 82C receives the R component of the image data, the control bits CTL2 and CTL3, and the auxiliary data transmitted as a differential signal through the TMDS channel # 2. Then, the recovery / decoder 82C converts the R component of the image data, the control bits CTL2 and CTL3, and the auxiliary data from serial data to parallel data, and decodes and outputs them.
  • FIG. 49 shows an example of the structure of TMDS transmission data.
  • FIG. 49 shows sections of various transmission data when image data of horizontal ⁇ vertical 1920 pixels ⁇ 1080 lines is transmitted on the TMDS channels # 0, # 1, and # 2.
  • the video field period is a period from the rising edge (active edge) of a certain vertical synchronizing signal to the rising edge of the next vertical synchronizing signal.
  • This video field period is divided into a horizontal blanking period (horizontal blanking), a vertical blanking period (verticalblanking), and an active video period (Active Video).
  • This active video section is a section obtained by removing the horizontal blanking period and the vertical blanking period from the video field section.
  • Data island section and control section are assigned to horizontal blanking period and vertical blanking period.
  • auxiliary data (Auxiliary data) is transmitted. That is, the data island period is assigned to a part of the horizontal blanking period and the vertical blanking period.
  • audio data packets which are data not related to control, of auxiliary data are transmitted.
  • the control section is assigned to other parts of the horizontal blanking period and the vertical blanking period.
  • this control period for example, vertical synchronization signals, horizontal synchronization signals, control packets, and the like, which are data related to control, of auxiliary data are transmitted.
  • FIG. 50 shows an example of the pin arrangement of the HDMI terminal.
  • the pin arrangement shown in FIG. 50 is called type A (type-A).
  • TMDS Data # i + and TMDS Data # i ⁇ which are differential signals of TMDS channel #i, are transmitted by two lines which are differential lines. These two lines consist of pins assigned TMDS Data # i + (pin numbers 1, 4, and 7) and pins assigned TMDS Data # i- (pin numbers 3, 6, and 7). 9 pin).
  • the CEC line 84 through which the CEC signal, which is control data, is transmitted is connected to a pin whose pin number is 13.
  • a line for transmitting an SDA (Serial Data) signal such as E-EDID is connected to a pin having a pin number of 16.
  • a line through which an SCL (Serial Clock) signal, which is a clock signal used for synchronization during transmission and reception of the SDA signal, is connected to a pin having a pin number of 15.
  • the above-described DDC 83 includes a line for transmitting the SDA signal and a line for transmitting the SCL signal.
  • the HPD line (HEAC-line) 86 for the source device to detect the connection of the sink device is connected to a pin having a pin number of 19.
  • the utility line (HEAC + line) 88 is connected to a pin having a pin number of 14.
  • the line 87 for supplying power is connected to a pin having a pin number of 18.
  • the HDMI transmission unit 206 receives the E-EDID from the HDMI reception unit 303 connected via the HDMI cable 400 in response to a request from the CPU 211 (see FIG. 35) via the DDC 83, for example. Read out. Then, based on this E-EDID, the CPU 211 recognizes the setting of the performance of the HDMI receiving unit 303, for example, whether or not stereoscopic image data can be handled.
  • information indicating the name of the display device represented by “Monitor NAME” is arranged after “2nd timing”.
  • information indicating the number of displayable pixels when the aspect ratio is 4: 3 and 16: 9, which is expressed by “Monitor Range Limits”, is subsequently arranged.
  • “Short Video Descriptor” is placed at the beginning of the extension block. This is information indicating the displayable image size (resolution), the frame rate, and whether it is interlaced or progressive. Subsequently, “Short Audio Descriptor” is arranged. This is information such as a reproducible audio codec system, a sampling frequency, a cutoff band, and the number of codec bits. Subsequently, information on left and right speakers represented by “Speaker Allocation” is arranged.
  • “Speaker Allocation” is followed by data uniquely defined for each manufacturer represented by “Vender Specific”. Subsequently, timing information for maintaining compatibility with the conventional EDID represented by “3rd timing” is arranged in the extension block. In the extended block, subsequently, timing information for maintaining compatibility with the conventional EDID represented by “4th timing” is arranged.
  • FIG. 52 shows an example of the data structure of a Vender Specific area (HDMI Vendor Specific DataBlock).
  • Vender Specific area a 0th block to an Nth block, which are 1-byte blocks, are provided.
  • information indicating the number “0x000C03” registered for HDMI (R) represented by “24bit IEEE Registration Identifier (0x000C03) LSB first” is arranged.
  • information indicating the physical address of the 24-bit sink device represented by “A”, “B”, “C”, and “D” is arranged.
  • a flag indicating a function supported by the sink device which is represented by “Supports-AI”, is arranged.
  • information specifying the number of bits per pixel represented by “DC-48 bit”, “DC-36 bit”, and “DC-30 bit” is arranged.
  • DVI Digital Visual Interface
  • the seventh block information indicating the maximum frequency of the TMDS pixel clock represented by “Max-TMDS-Clock” is arranged.
  • a flag indicating the presence / absence of video and audio delay information represented by “Latency” is arranged in the sixth and seventh bits of the eighth block.
  • a flag indicating whether or not the additional HDMI video format (3D, 4k ⁇ 2k) represented by “HDMI_Video_present” can be handled is arranged in the fifth bit of the eighth block.
  • the delay time data of progressive video represented by “Video Latency” is arranged in the ninth block, and the audio accompanying the progressive video represented by “Audio Latency” is arranged in the tenth block.
  • the delay time data is arranged.
  • delay time data of interlaced video represented by “Interlaced Video Latency” is arranged in the eleventh block.
  • audio delay time data associated with interlaced video represented by “Interlaced Audio Latency” is arranged.
  • a flag indicating whether or not 3D image data represented by “3D_present” can be handled is arranged in the seventh bit of the thirteenth block.
  • the 7th to 5th bits of the 14th block in addition to the mandatory 3D data structure represented by “HDMI_VIC_LEN”, which is arranged after the 15th block (not shown), it can be handled.
  • the block size information indicating Also, in the 4th to 0th bits of the 14th block, there is block size information indicating a 4k ⁇ 2k video format that can be handled after the 15th block (not shown) represented by “HDMI_3D_LEN”. Has been placed.
  • image data of 1920 ⁇ 1080p and 1080 ⁇ 720p pixel format is transmitted as image data of the left eye (L) and right eye (R).
  • FIG. 53 shows an example in which the left eye (L) image data and the right eye (R) image data are 1920 lines ⁇ 1080 pixels, respectively.
  • transmission data is generated in units of a video field section including a horizontal blanking period (Hblank), a vertical blanking period (Vblank), and an active video section (Hactive ⁇ Vactive) divided by a vertical synchronization signal. Is done.
  • the active video section has two active video areas (Active video) and one active space area (Activespace) between them. Left eye (L) image data is arranged in the first active video area, and right eye (R) image data is arranged in the second active video area.
  • FIG. 54 illustrates a 3D video format (3D Video Format) of a line alternative method that is one of TMDS transmission data structures of stereoscopic image data.
  • This 3D video format is a format for transmitting progressive left-eye (L) and right-eye (R) image data as stereoscopic image data.
  • image data of a 1920 ⁇ 1080p pixel format is transmitted as image data of the left eye (L) and right eye (R).
  • transmission is performed in units of video field sections including a horizontal blanking period (Hblank), a vertical blanking period (2 ⁇ Vblank), and an active video section ((Hactive ⁇ 2Vactive)), which are separated by a vertical synchronization signal.
  • Hblank horizontal blanking period
  • 2 ⁇ Vblank vertical blanking period
  • active video section ((Hactive ⁇ 2Vactive)
  • FIG. 55 shows a side-by-side (Full) 3D video format (3D VideoFormat), which is one of the TMDS transmission data structures of stereoscopic image data.
  • This 3D video format is a format for transmitting progressive left-eye (L) and right-eye (R) image data as stereoscopic image data.
  • image data of a 1920 ⁇ 1080p pixel format is transmitted as image data of the left eye (L) and right eye (R).
  • 3D video format transmission is performed in units of a video field section including a horizontal blanking period (2 ⁇ Hblank), a vertical blanking period (Vblank), and an active video section ((2Hactive ⁇ Vactive)) separated by a vertical synchronization signal.
  • a horizontal blanking period (2 ⁇ Hblank) a horizontal blanking period
  • Vblank a vertical blanking period
  • active video section ((2Hactive ⁇ Vactive)) separated by a vertical synchronization signal.
  • left eye (L) image data is arranged in the first half of the horizontal direction
  • R right eye
  • HDMI 1.4 defines a 3D video format as a TMDS transmission data structure of stereoscopic image data in addition to the 3D video format shown in FIGS. 53 to 55 described above.
  • a frame packing (frame packing for interlaced format) method for example, a field alternative method, a side-bay-side (half) method, and the like.
  • the set top box 200 shown in FIG. 35 is configured to transmit baseband stereoscopic image data and audio data to the television receiver 300 through the HDMI interface.
  • all or part of the disparity vectors (see FIGS. 8 and 27) used in the bit stream processing unit 201 are transmitted from the set top box to the television receiver as disparity information sets and used. It is also possible.
  • FIG. 56 shows a configuration example of a set top box 200A that transmits a disparity information set.
  • the disparity information set is supplied from the bit stream processing unit 201 to the HDMI transmission unit 206. Then, the disparity information set is transmitted from the HDMI terminal 202 to the HDMI cable 400 together with the stereoscopic image data and the audio data by the HDMI transmitting unit 206.
  • the rest of the set top box 200A is configured in the same manner as the set top box 200 shown in FIG. 35 and operates in the same manner.
  • FIG. 57 shows a configuration example of the television receiver 300A that receives and uses a disparity information set.
  • portions corresponding to those in FIG. 46 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the disparity information set received by the HDMI receiving unit 303 is supplied to the video / graphic processing circuit 307.
  • parallax is given to the same superimposition information such as a menu and a program table to be pasted on the left eye image and the right eye image based on the parallax vector included in the parallax information set.
  • parallax adjustment is performed according to the perspective of each object in the image as the same superimposition information (menu, program guide, etc.) superimposed on the left eye image and the right eye image.
  • superimposition information menu, program guide, etc.
  • the rest of the television receiver 300A is configured in the same manner as the television receiver 300 shown in FIG. 46 and operates in the same manner.
  • 3D_Metadata_type is defined as unused, for example, “010”, and information on a disparity information set (Disparrity Set) is designated.
  • FIG. 60 shows a packet structure of HDMI “Vendor” Specific “InfoFrame”. Since this HDMI Vendor Specific InfoFrame is defined in CEA-861-D, detailed description is omitted.
  • 3 bits information “HDMI_Video_Format” indicating the type of image data is arranged from the 7th bit to the 5th bit of the 4th byte (PB4).
  • the 3-bit information is “010”.
  • 4-bit information “3D_Structure” indicating the TMDS transmission data structure is arranged from the 7th bit to the 4th bit of the 5th byte (PB5).
  • this 4-bit information is “0000”.
  • this 4-bit information is “0010”.
  • the 4-bit information is “0011”.
  • 3D_Meta_present is arranged in the third bit of the fifth byte (PB5) and Vendor SpecificInfoFrame extension is specified, this one bit is set to “1”.
  • 3D_Metadata_type is arranged from the 7th bit to the 5th bit of the 7th byte (PB7).
  • this 3-bit information is unused, for example, “010”.
  • 3D_Metadata_length is arranged from the 4th byte to the 0th byte of the 7th byte (PB7). This 5-bit information indicates the length of the 3D_Metadata area to be arranged thereafter.
  • the information set of each disparity vector constituting the disparity information set is configured by a 16-bit block ID (ID_Block (i)) and a 16-bit horizontal disparity vector (Disparity_Vector_Horizontal). ing.
  • ID_Block (i) a 16-bit block ID
  • Distal_Vector_Horizontal a 16-bit horizontal disparity vector
  • the first to third 3 bytes are used to arrange the information set of each disparity vector.
  • the upper 8 bits of “ID_Block (i)” are arranged in the first byte, and the lower 5 bits of “ID_Block (i)” are arranged from the seventh bit to the third bit of the second byte.
  • the upper 3 bits of “Disparity_Vector_Horizontal” are arranged from the second bit to the 0th bit of the second byte, and the lower 8 bits of “Disparity_Vector_Horizontal” are arranged in the third byte.
  • 3D_Metadata_length it can be specified by 3D_Metadata_length whether the disparity information set is included from the upper layer to which layer.
  • the packet structure of HDMI Vendor Specific InfoFrame, “ActiveSpace Enable” is defined in the second bit of the fifth byte (PB5) which is currently reserved bit, and this one bit information Is set to “1”.
  • an information area is newly defined using an active space area that is currently reserved, and a disparity information set is arranged there.
  • the active space area constitutes an active video section together with the active video area where the left eye image data and the right eye image data are arranged.
  • the active video area constitutes a main video area
  • the active space area constitutes an auxiliary video area.
  • the active space area varies depending on the image size of the video, but in the case of an image size of 1920 ⁇ 1080, it has a capacity of 45 lines (86400 bytes) per frame.
  • the number of blocks is 8100.
  • the active space area has a capacity of 86400 bytes. Therefore, a disparity information set including disparity vectors of all blocks can be transmitted for each video frame by using this active space area.
  • FIG. 62 shows the structure of a disparity information set arranged in the active space area.
  • 3-bit “Active_space_info_Type”, 3-bit “Block_Size”, and 2-bit “Connect_Info” information are arranged.
  • upper 8 bits and lower 8 bits of 16-bit “Data_Length” indicating the length of an area in which the subsequent disparity information sets are arranged are arranged.
  • Connect_Info information indicates connection information of the active space area. “00” indicates that the disparity information set arranged in the active space area is complete. “01” indicates that the disparity information set arranged in the active space area is connected to the disparity information set arranged in the subsequent active space area. “10” indicates that the disparity information set arranged in the active space area is connected to the disparity information set arranged in the previous active space area. “11” indicates that the disparity information sets arranged in the active space area are connected to the disparity information sets arranged in the preceding and succeeding active space areas.
  • each disparity vector information set is a 1-byte area. Can be arranged using the, and the transmission band can be halved.
  • a disparity information set transmitted from the set top box 200A to the television receiver 300A a predetermined number of disparity vectors (disparity information) and position information (blocks) indicating positions on the image region to which each disparity vector belongs. ID) is included in the first type.
  • the disparity information set includes image area division information and disparity information representing each division area.
  • Vendor SpecificInfoFrame extension is specified.
  • 3D_Metadata_type is defined as unused, for example, “010”, and information on a disparity information set (Disparrity Set) is designated.
  • 3 bits information “HDMI_Video_Format” indicating the type of image data is arranged from the 7th bit to the 5th bit of the 4th byte (PB4).
  • the 3-bit information is “010”.
  • 4-bit information “3D_Structure” indicating the TMDS transmission data structure is arranged from the 7th bit to the 4th bit of the 5th byte (PB5).
  • this 4-bit information is “0000”.
  • this 4-bit information is “0010”.
  • the 4-bit information is “0011”.
  • “Disparity_Info_type (1 bit)” is arranged in the seventh bit of the seventh + 1 byte (PB7 + 1). This information indicates whether the disparity information set is the first type or the second type. As shown in FIG. 67, when “Disparity_Info_type” is “1”, it indicates that the disparity information set is the first type. In this case, the disparity information set includes a predetermined number of disparity vectors (disparity information) and position information (block ID) indicating the position on the image area to which each disparity vector belongs. Further, when “Disparity_Info_type” is “0”, it indicates that the disparity information set is the second type. In this case, the disparity information set includes division information of the image area and disparity information representing each division area.
  • “Dimension (3bits)” is arranged from the 6th bit to the 4th bit of the 7 + 1 byte.
  • This information is image (picture) area division information.
  • “Dimension” is “000”, the image (picture) region is not divided, and one disparity vector representing this image (picture) region ( (Parallax information) is transmitted.
  • the image (picture) region is divided into nine, and nine disparity vectors that represent the respective divided regions. Indicates that (disparity information) is transmitted.
  • the disparity vectors in the upper left region are arranged first and the disparity vectors in the lower right region are arranged last (in the order of 0 to 8 in FIG. 68C).
  • “DPstrt (1 bit)” is arranged in the third bit of the 7 + 1 byte (PB7 + 1). This information indicates continuous information of the disparity information set of the current frame. As shown in FIG. 67, when “DPstrt” is “0”, it indicates that the disparity information set of the current frame is continuous from the disparity information set of the previous frame. Also, as shown in FIG. 67, when “DPstrt” is “1”, it indicates that the disparity information set of the current frame starts from the current frame.
  • “VB (1 bit)” is arranged in the first bit of the seventh + 1 byte (PB7 + 1). This information indicates whether or not a disparity information set is transmitted in a blanking period of image data using a packet other than an HDMI “Vendor Specific” InfoFrame packet.
  • “VB” is “1”
  • the disparity information set is transmitted using HDMI “Vendor” Specific “InfoFrame”, and “VB” is set to “0”.
  • the actual disparity information set is arranged after the 7 + 2 byte.
  • FIG. 65 illustrates a case where “Disparity_Info_type” is “0”.
  • a second type of disparity information set is arranged.
  • Disparity vectors (disparity information) in the horizontal direction representing each divided region are sequentially arranged.
  • each disparity vector is 8-bit information.
  • “Dimension” is “000”, “001”, “010”, “011”, 1, 4, 9, and 16 disparity vectors (disparity information) are arranged, respectively. .
  • each set of disparity vectors includes a 13-bit block ID (ID_Block (i)) and an 8-bit horizontal disparity vector (Disparity_Vector_Horizontal), as shown in FIG. 69 (d). Therefore, the first to third 3 bytes are used to arrange each disparity vector set.
  • the upper 8 bits of “ID_Block (i)” are arranged in the first byte, and the lower 5 bits of “ID_Block (i)” are arranged from the seventh bit to the third bit of the second byte.
  • “Disparity_Vector_Horizontal” is arranged in the third byte.
  • the number of disparity vector sets depends on which layer is included in the disparity information set. For example, when only the hierarchy shown in FIG. 69 (a) is included, there is one set, and the disparity vector of that set is, for example, the disparity detected in each region (block) in the lowest layer shown in FIG. 69 (d). Among the vectors, the maximum parallax is indicated.
  • the block ID of the set indicates the region position of the lowest layer to which the disparity vector indicating the maximum disparity belongs.
  • the disparity vector of each set indicates the maximum disparity among the disparity vectors detected in each region (block) in the lowest layer included in each region.
  • the block ID of each set indicates the region position of the lowest layer to which the disparity vector indicating the maximum disparity belongs.
  • the packet structure of HDMI Vendor Specific InfoFrame shown in FIGS. 65 and 66 is “Disparity_Info_type” information, and indicates whether the disparity information set transmitted in this packet is the first type or the second type. However, when the disparity information set transmitted in this packet from the beginning is limited to only the first type or the second type, the information of “Disparity_Info_type” is unnecessary.
  • FIG. 70 illustrates a packet structure of HDMI “Vendor” specific “InfoFrame” in a case where the disparity information set to be transmitted is limited to only the second type.
  • the seventh bit of the seventh + 1 byte (PB7 + 1) is reserved (Reserved (0)).
  • an active space (Active Space)
  • the packet structure of HDMI ⁇ ⁇ ⁇ Vendor + 1Specific InfoFrame, “ASP (1bit)” is defined in the second bit of the 7 + 1 byte (PB7 + 1) which is currently reserved bit.
  • One-bit information is set to “1”.
  • an information area is newly defined using an active space area that is currently reserved, and a disparity information set is arranged there.
  • FIG. 72 illustrates a structure of a disparity information set arranged in the active space region when “Disparity_Info_type” is “0”, that is, when a second type of disparity information set is transmitted as a disparity information set.
  • disparity information set disparity vectors (disparity information) in the horizontal direction representing each divided region are sequentially arranged.
  • 3-bit “Active_space_info_Type” and 2-bit “Connect_Info” information are arranged.
  • the upper 8 bits and the lower 8 bits of 16-bit “Data_Length” indicating the length of the area in which the subsequent disparity information sets are arranged are arranged.
  • FIG. 73 shows a structure of a disparity information set arranged in the active space area when “Disparity_Info_type” is “1”, that is, when the first type of disparity information set is transmitted as the disparity information set.
  • a set of position information (block ID) and a disparity vector are sequentially arranged as a disparity information set.
  • the information set for each disparity vector is arranged using a 3-byte area.
  • the upper 8 bits of “ID_Block (i)” are arranged in the first byte, and the lower 5 bits of “ID_Block (i)” are arranged from the seventh bit to the third bit of the second byte.
  • “Disparity_Vector_Horizontal” is arranged in the third byte.
  • FIG. 74 shows the contents of each piece of information of the disparity information set structure shown in FIGS. 72 and 73.
  • the information of “Active_space_info_Type” is identification information indicating that it is a disparity information set.
  • the information of “Block_Size” indicates a block size indicating the spatial density of the disparity vector (disparity information). “00” indicates that the block size is 1 ⁇ 1 pixel, that is, a pixel (pixel). “01” indicates that the block size is 16 ⁇ 16 pixels. “10” indicates that the block size is 32 ⁇ 32 pixels.
  • Connect_Info information indicates connection information of the active space area. “00” indicates that the disparity information set arranged in the current active space area starts from the current active space area. “01” indicates that the disparity information set arranged in the active space area is connected to the disparity information set arranged in the subsequent active space area. “10” indicates that the disparity information set arranged in the active space area is connected to the disparity information set arranged in the previous active space area. “11” indicates that the disparity information sets arranged in the active space area are connected to the disparity information sets arranged in the preceding and succeeding active space areas.
  • timing of the video frame at which the last active space to be concatenated ends is arranged on the sink side so that transmission ends at least at the same time or earlier than the frame for sending the target image data. It is important in terms of correspondence.
  • FIG. 75A shows an arrangement example of information sets for each disparity vector when the disparity information set is the first type and “Block_Size” is “01” and “10”.
  • each disparity vector information set is arranged using a 3-byte area.
  • FIG. 75B illustrates an arrangement example of information sets of disparity vectors when the disparity information set is the first type and “Block_Size” is “00”.
  • “ID_Block (i)” can be omitted by arranging all the pixels of the picture in the scan order (video pixel order). That is, in this case, each disparity vector information set is arranged using a 2-byte area.
  • the packet structure of HDMI “Vendor Specific InfoFrame” shown in FIG. 71 is “Disparity_Info_type” information, and indicates whether the disparity information set transmitted in the active space area is the first type or the second type. However, when the disparity information set transmitted from the beginning in the active space area is limited to only the first type or the second type, the information of “Disparity_Info_type” is unnecessary. In this case, as shown in FIG. 76, the seventh bit of the seventh + 1 byte (PB7 + 1) is reserved (Reserved (0)).
  • the same superimposition information (superimposed on the left eye image and the right eye image) based on the parallax information on the other of the left eye image and the right eye image (Parllax is given to closed caption information, subtitle information, graphics information, text information, and the like. Therefore, as the same superimposition information superimposed on the left eye image and the right eye image, information on which parallax adjustment is performed according to the perspective of each object (object) in the image can be used. In this case, it is possible to maintain perspective consistency with each object in the image.
  • the stereoscopic image display system 10 includes the broadcasting station 100, the set top box 200, and the television receiver 300.
  • the television receiver 300 includes a bit stream processing unit 201 that functions in the same manner as the bit stream processing unit 201 in the set top box 200, as shown in FIG. Therefore, as shown in FIG. 77, a stereoscopic image display system 10A including a broadcasting station 100 and a television receiver 300 is also conceivable.
  • the set-top box 200, 200A and the television receiver 300, 300A are connected by an HDMI digital interface.
  • the present invention can be applied even when these are connected by a digital interface similar to the HDMI digital interface (including wireless as well as wired).
  • all or part of the disparity vectors (see FIGS. 8 and 27) used in the bit stream processing unit 201 are transmitted from the set top box 200A to the television receiver 300A as a disparity information set.
  • An example of transmitting via the HDMI interface has been shown.
  • the technique for transmitting the disparity information set through the HDMI interface can be applied to other combinations of source devices and sink devices.
  • the source device may be a disc player such as a BD or a DVD, or a game machine
  • the sink device may be a monitor device or a projector device.
  • the present invention can be applied to a stereoscopic image display system or the like that superimposes information such as closed caption information, subtitle information, graphics information, text information and the like on an image.
  • Data recording medium 131 to 133 ... Changeover switch, parallax information set creation unit, 200, 200A ... Set top box, 201, 201A, 201B, 201C ..Bit stream processing unit, 202 ... HDMI terminal, 203 ... antenna terminal, 204 ... digital tuner, 205 ... video signal processing circuit, 206 ... HDMI transmission unit, 207 ... audio Signal processing circuit 211 ... CPU, 212 ... Flash ROM, 213 ... DRAM, 214 ... Internal bus, 215 ... Remote control receiver, 216 ... Remote control transmitter, 220 ... Demultiplexer, 221... Video decoder, 222... Subtitle / graphics decoder, 223. Text decoder, 224 ...

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】画像表示装置における重畳情報の表示において、画像内の各物体との間の遠近感の整合性の維持を図る。 【解決手段】セットトップボックス200は、左眼画像データおよび右眼画像データを含む立体画像データと共に、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットを、HDMIインタフェースにより、外部機器(テレビ受信機等)に送信する。視差情報セットをHDMIインタフェースで送信する際に、(1)HDMI Vendor Specific InfoFrame を利用する、あるいは(2)フレームパッキング方式等の3Dビデオフォーマット(3D Video Format)のアクティブスペース(Active Space)を利用する。第1の種類の視差情報セットには、所定数の視差ベクトル(視差情報)と、各視差ベクトルが属する画像領域上の位置を示す位置情報(ブロックID)が含まれる。第2の種類の視差情報セットには、画像領域の分割情報と、各分割領域を代表する視差情報とが含まれる。

Description

立体画像データ送信装置および立体画像データ送信方法
 この発明は、立体画像データ送信装置および立体画像データ送信方法に関し、特に、重畳情報(メニュー、番組表等)の表示を良好に行い得る立体画像データ送信装置等に関する。
 例えば、特許文献1には、立体画像データのテレビ放送電波を用いた伝送方式について提案されている。この場合、左眼用画像データおよび右眼用画像データを含む立体画像データが送信され、テレビ受信機において、両眼視差を利用した立体画像表示が行われる。
 図78は、両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクト(物体)の左右像の表示位置と、その立体像の再生位置との関係を示している。例えば、スクリーン上に図示のように左像Laが右側に右像Raが左側にずれて表示されているオブジェクトAに関しては、左右の視線がスクリーン面より手前で交差するため、その立体像の再生位置はスクリーン面より手前となる。
 また、例えば、スクリーン上に図示のように左像Lbおよび右像Rbが同一位置に表示されているオブジェクトBに関しては、左右の視線がスクリーン面で交差するため、その立体像の再生位置はスクリーン面上となる。さらに、例えば、スクリーン上に図示のように左像Lcが左側に右像Rcが右側にずれて表示されているオブジェクトCに関しては、左右の視線がスクリーン面より奥で交差するため、その立体像の再生位置はスクリーン面より奥となる。
特開2005-6114号公報
 上述したように立体画像表示において、視聴者は、両眼視差を利用して、立体画像の遠近感を認知することが普通である。画像に重畳される重畳情報、例えば、クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報等に関しても、2次元空間的のみならず、3次元の奥行き感としても、立体画像表示と連動してレンダリングされることが期待される。
 例えば、画像にクローズド・キャプション情報あるいはサブタイトル情報である字幕を重畳表示(オーバーレイ表示)する場合、遠近感でいうところの最も近い画像内の物体(オブジェクト)よりも手前に表示されないと、視聴者は、遠近感の矛盾を感じる場合がある。また、他のグラフィクス情報、あるいはテキスト情報を画像に重畳表示する場合にも、画像内の各物体の遠近感に応じて視差調整を施し、遠近感の整合性を維持することが期待される。
 この発明の目的は、画像表示装置における重畳情報(メニュー、番組表等)の表示において、画像内の各物体との間の遠近感の整合性の維持を図ることにある。
 この発明の概念は、
 左眼画像データおよび右眼画像データを含む立体画像データと、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットとを、伝送路を介して、外部機器に送信するデータ送信部
 を備える立体画像データ送信装置にある。
 この発明において、データ受信部により、立体画像データと視差情報セットとが、伝送路を介して、外部機器に送信される。立体画像データには、左眼画像データおよび右眼画像データが含まれている。視差情報セットには、左眼画像および右眼画像の一方に対する他方の視差情報が含まれている。
 この発明において、例えば、データ送信部は、画像データを、複数チャネルで、差動信号により、伝送路を介して、外部機器に送信し、画像データのブランキング期間に視差情報セットを挿入することで、この視差情報セットを外部機器に送信する、ようにされる。
 また、この発明において、例えば、データ送信部は、垂直同期信号により区切られる、水平ブランキング期間、垂直ブランキング期間およびアクティブビデオ区間を含むビデオフィールド区間を単位とする伝送データを生成する伝送データ生成部と、伝送データ生成部で生成された伝送データを、複数チャネルで、差動信号により、伝送路を介して、外部機器に送信する伝送データ送信部とを有し、アクティブビデオ区間は、主映像領域および補助映像領域を有し、伝送データ生成部は、主映像領域に画像データを配し、補助映像領域に、主映像領域に配される画像データに関連した視差情報セットを配する、ようにされる。
 また、この発明において、例えば、視差情報セットは、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する画像領域上の位置を示す位置情報とを含む、ようにされる。
 また、この発明において、例えば、視差情報セットは、画像領域の分割情報と、各分割領域を代表する視差情報とを含む、ようにされる。
 また、この発明において、例えば、視差情報セットには、この視差情報セットが第1の種類であるか第2の種類であるかを示す識別情報が付加されており、視差情報セットは、識別情報が第1の種類を示すとき、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する画像領域上の位置を示す位置情報とを含み、識別情報が第2の種類を示すとき、画像領域の分割情報と、各分割領域を代表する視差情報とを含む、ようにされる。
 このように、この発明においては、左眼画像データおよび右眼画像データを含む立体画像データと共に、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットが、伝送路を介して、外部機器に送信される。そのため、外部機器、例えばテレビ受信機等の画像表示装置においては、左眼画像および右眼画像に重畳される同一の重畳情報(メニュー、番組表等)として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができ、重畳情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 この発明によれば、左眼画像データおよび右眼画像データを含む立体画像データと共に、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットを外部機器に送信するものであり、重畳情報(メニュー、番組表等)として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができ、重畳情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
この発明の実施の形態としての立体画像表示システムの構成例を示すブロック図である。 放送局における送信データ生成部の構成例を示すブロック図である。 1920×1080pのピクセルフォーマットの画像データを示す図である。 立体画像データ(3D画像データ)の伝送方式である「Top & Bottom」方式、「Side By Side」方式、「Frame Sequential」方式を説明するための図である。 左眼画像に対する右眼画像の視差ベクトルを検出する例を説明するための図である。 視差ベクトルをブロックマッチング方式で求めることを説明するための図である。 視差ベクトル検出部で検出される、画像内の所定位置おける視差ベクトルVVの一例を示す図である。 視差ベクトルの伝送内容を示す図である。 視差検出ブロック例と、その場合の視差ベクトルの伝送内容を示す図である。 視差ベクトルを検出して伝送するタイミングの例を説明するための図である。 視差ベクトルを検出して伝送するタイミングの例を説明するための図である。 送信データ生成部において多重化される各データのストリーム例を示す図である。 放送局における送信データ生成部の他の構成例を示すブロック図である。 放送局における送信データ生成部において多重化される各ストリームの一例を示している。 放送局における送信データ生成部の他の構成例を示すブロック図である。 放送局における送信データ生成部において多重化される各ストリームの一例を示している。 伝送方式が第1の伝送方式(「Top & Bottom」方式)の場合における、左眼グラフィクス情報および右眼グラフィクス情報の重畳位置等を説明するための図である。 伝送方式が第1の伝送方式(「Top & Bottom」方式)の場合における、左眼グラフィクス情報および右眼グラフィクス情報の生成方法を説明するための図である。 伝送方式が第2の伝送方式(「Side By Side」方式)の場合における、左眼グラフィクス情報および右眼グラフィクス情報の生成方法を説明するための図である。 伝送方式が第2の伝送方式(「Side By Side」方式)の場合における、左眼グラフィクス情報および右眼グラフィクス情報の生成方法を説明するための図である。 放送局における送信データ生成部の他の構成例を示すブロック図である。 放送局における送信データ生成部の他の構成例を示すブロック図である。 ピクセル(画素)毎の視差ベクトルの値を各ピクセル(各画素)の輝度値として用いた場合の画像例を示す図である。 ブロック(Block)毎の視差ベクトルの一例を示す図である。 送信データ生成部の視差情報セット作成部で行われるダウンサイジング処理の一例を示す図である。 視差情報セット作成部で管理される各階層の各領域の視差ベクトルを説明するための図である。 視差情報セットの内容の一例を示す図である。 伝送方式が第2の伝送方式(「Side By Side」方式)の場合における、左眼グラフィクス情報および右眼グラフィクス情報の重畳位置を示す図である。 左眼画像、右眼画像に対して、ビットストリームデータから抽出された従来方法により伝送されるグラフィクスデータによるグラフィクス画像をそのまま重畳した状態を示す図である。 時刻T0,T1,T2,T3における3つのオブジェクト位置の視差ベクトル(View Vector)を示す図である。 画像上における字幕(グラフィクス情報)の表示例と、背景、近景オブジェクト、字幕の遠近感を示す図である。 画像上における字幕(グラフィクス情報)の表示例と、字幕を表示するための左眼グラフィクス情報LGIおよび右眼グラフィクス情報RGIを示す図である。 視差ベクトルとして、画像内の複数位置で検出された視差ベクトルのうち、その重畳位置に対応したものを使用することを説明するための図である。 画像内にA,B,Cの各オブジェクトが存在し、これら各オブジェクトの近傍位置に、各オブジェクトの注釈を示すテキスト情報を重畳することを示す図である。 立体画像表示システムを構成するセットトップボックスの構成例を示すブロック図である。 セットトップボックスを構成するビットストリーム処理部の構成例を示すブロック図である。 視差ベクトルVV1が、テレビディスプレイに向かって左側のビデオオブジェクトの方が大きい場合のスピーカ出力制御例を示す図である。 放送局から送られてくる各データストリームと視差ベクトルとの対応関係を示す図である。 放送局から送られてくる各データストリームと視差ベクトルとの対応関係を示す図である。 セットトップボックスを構成するビットストリーム処理部の他の構成例を示すブロック図である。 放送局から送られてくる各データストリームと視差ベクトルとの対応関係を示す図である。 放送局から送られてくる各データストリームと視差ベクトルとの対応関係を示す図である。 放送局から送られてくる各データストリームと視差ベクトルとの対応関係を示す図である。 セットトップボックスを構成するビットストリーム処理部の他の構成例を示すブロック図である。 セットトップボックスを構成するビットストリーム処理部の他の構成例を示すブロック図である。 立体画像表示システムを構成するテレビ受信機の構成例を示す図である。 HDMI送信部(HDMIソース)とHDMI受信部(HDMIシンク)の構成例を示すブロック図である。 HDMI送信部を構成するHDMIトランスミッタと、HDMI受信部を構成するHDMIレシーバの構成例を示すブロック図である。 TMDS伝送データの構造例(横×縦が1920ピクセル×1080ラインの画像データが伝送される場合)を示す図である。 ソース機器およびシンク機器のHDMIケーブルが接続されるHDMI端子のピン配列(タイプA)を示す図である。 E-EDIDのデータ構造例を示す図である。 Vender Specific領域(HDMI Vendor Specific DataBlock)のデータ構造例を示す図である。 立体画像データのTMDS伝送データ構造の一つであるフレームパッキング方式の3Dビデオフォーマットを示す図である。 立体画像データのTMDS伝送データ構造の一つであるラインオルタネイティブ方式の3Dビデオフォーマットを示す図である。 立体画像データのTMDS伝送データ構造の一つであるサイド・バイ・サイド(Full)方式の3Dビデオフォーマットを示す図である。 立体画像表示システムを構成するセットトップボックスの他の構成例を示すブロック図である。 立体画像表示システムを構成するテレビ受信機の他の構成例を示す図である。 セットトップボックスからテレビ受信機に送信される視差情報セットの内容の一例を示す図である。 画像(ピクチャ)領域を9分割して得られる各ブロックBK0~BK8と、その場合の各ブロックの視差ベクトルの配置を説明するための図である。 視差情報セットの送信にHDMI Vendor Specific InfoFrame を利用する場合における、HDMIVendor Specific InfoFrame のパケット構造例を示す図である。 視差情報セットの送信にアクティブスペース領域を利用する場合における、HDMI Vendor Specific InfoFrame のパケット構造例を示す図である。 アクティブスペース領域に配置される視差情報セットの構造を示す図である。 視差情報セット構造の各情報の内容を示す図である。 ブロックサイズに応じた各視差ベクトルの情報セットの配置例を説明するための図である。 視差情報セット(第2の種類)の送信にHDMI Vendor Specific InfoFrame を利用する場合における、HDMIVendor Specific InfoFrame のパケット構造例を示す図である。 視差情報セット(第1の種類)の送信にHDMI Vendor Specific InfoFrame を利用する場合における、HDMIVendor Specific InfoFrame のパケット構造例を示す図である。 HDMI Vendor Specific InfoFrame のパケットに含まれる主要な情報の内容を示す図である。 HDMI Vendor Specific InfoFrame のパケットに含まれる「Dimension」の情報を説明するための図である。 HDMI Vendor Specific InfoFrame のパケットに含まれる第1の種類の視差情報セットを説明するための図である。 視差情報セット(第2の種類のみ)の送信にHDMI Vendor Specific InfoFrame を利用する場合における、HDMIVendor Specific InfoFrame のパケット構造例を示す図である。 視差情報セット(第1の種類、第2の種類)の送信にアクティブスペース領域を利用する場合における、HDMI Vendor Specific InfoFrame のパケット構造例を示す図である。 アクティブスペース領域に配置される視差情報セット(第2の種類)の構造を示す図である。 アクティブスペース領域に配置される視差情報セット(第1の種類)の構造を示す図である。 アクティブスペース領域に配置される視差情報セット(第1の種類、第2の種類)の構造の各情報の内容を示す図である。 ブロックサイズに応じた各視差ベクトルの情報セットの配置例を説明するための図である。 視差情報セット(第1の種類のみ、または第2の種類のみ)の送信にアクティブスペース領域を利用する場合における、HDMI Vendor Specific InfoFrame のパケット構造例を示す図である。 立体画像表示システムの他の構成例を示す図である。 両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクトの左右像の表示位置と、その立体像の再生位置との関係を示す図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [立体画像表示システムの構成例]
 図1は、実施の形態としての立体画像表示システム10の構成例を示している。この立体画像表示システム10は、放送局100と、セットトップボックス(STB:Set Top Box)200と、テレビ受信機300を有している。
 セットトップボックス200およびテレビ受信機300は、HDMI(High Definition Multimedia Interface)ケーブル400を介して接続されている。セットトップボックス200には、HDMI端子202が設けられている。テレビ受信機300には、HDMI端子302が設けられている。HDMIケーブル400の一端はセットトップボックス200のHDMI端子202に接続され、このHDMIケーブル400の他端はテレビ受信機300のHDMI端子302に接続されている。
 [放送局の説明]
 放送局100は、ビットストリームデータを、放送波にのせて送信する。このビットストリームデータには、左眼画像データおよび右眼画像データを含む立体画像データ、音声データ、重畳情報データ、さらには視差情報(視差ベクトル)などが含まれる。ここで、重畳情報データは、クローズド・キャプションデータ、サブタイトルデータ、グラフィクスデータ、テキストデータなどである。
 「送信データ生成部の構成例」
 図2は、放送局100において、上述のビットストリームデータを生成する送信データ生成部110の構成例を示している。この構成例は、視差ベクトルを数値情報として送信する例である。この送信データ生成部110は、カメラ111L,111Rと、ビデオフレーミング部112と、ビデオエンコーダ113と、視差ベクトル検出部114と、視差ベクトルエンコーダ115を有している。
 また、この送信データ生成部110は、マイクロホン116と、オーディオエンコーダ117と、サブタイトル・グラフィクス発生部118と、サブタイトル・グラフィクスエンコーダ119と、テキスト発生部120と、テキストエンコーダ121と、マルチプレクサ122を有している。なお、この実施の形態において、テキスト発生部120は、クローズド・キャプションデータの発生部を兼ねているものとする。このクローズド・キャプションデータは、クローズド・キャプションの字幕表示をするためのテキストデータである。
 カメラ111Lは、左眼画像を撮影して立体画像表示のための左眼画像データを得る。カメラ111Rは、右眼画像を撮影して立体画像表示のための右眼画像データを得る。ビデオフレーミング部112は、カメラ111Lで得られる左眼画像データおよびカメラ111Rで得られる右眼画像データを、伝送方式に応じた状態に加工処理する。
 [立体画像データの伝送方式例]
 ここでは、立体画像データ(3D画像データ)の伝送方式として、以下の第1~第3の方式を挙げるが、これら以外の伝送方式であってもよい。ここでは、図3に示すように、左眼(L)および右眼(R)の画像データが、それぞれ、決められた解像度、例えば 1920×1080pのピクセルフォーマットの画像データである場合を例にとって説明する。
 第1の伝送方式は、「Top & Bottom」方式で、図4(a)に示すように、垂直方向の前半では左眼画像データの各ラインのデータを伝送し、垂直方向の後半では左眼画像データの各ラインのデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データのラインが1/2に間引かれることから原信号に対して垂直解像度は半分となる。
 第2の伝送方式は、「Side By Side」方式で、図4(b)に示すように、水平方向の前半では左眼画像データのピクセルデータを伝送し、水平方向の後半では右眼画像データのピクセルデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データは、それぞれ、水平方向のピクセルデータが1/2に間引かれる。現信号に対して、水平解像度は半分となる。
 第3の伝送方式は、「Frame Sequential」方式で、図4(c)に示すように、左眼画像データと右眼画像データとをフィールド毎に順次切換えて伝送する方式である。
 図2に戻って、ビデオエンコーダ113は、ビデオフレーミング部112で加工処理された立体画像データに対して、MPEG4-AVC、MPEG2、VC-1等の符号化を施して符号化ビデオデータを得る。また、ビデオエンコーダ113は、後段にストリームフォーマッタ113aを備える。このストリームフォーマッタ113aにより、ペイロード部に符号化ビデオデータを含むビデオのエレメンタリーストリームを生成する。
 視差ベクトル検出部114は、左眼画像データおよび右眼画像データに基づき、画像内の所定位置において、左眼画像および右眼画像の一方に対する他方の視差情報である視差ベクトルを検出する。ここで、画像内の所定位置は、全ての画素位置、複数画素からなる各領域の代表位置、あるいは、重畳情報、ここではグラフィック情報やテキスト情報を重畳する領域の代表位置等である。
 [視差ベクトルの検出]
 視差ベクトルの検出例について説明する。ここでは、左眼画像に対する右眼画像の視差ベクトルを検出する例について説明する。図5に示すように、左眼画像を検出画像とし、右眼画像を参照画像とする。この例では、(xi,yi)および(xj,yj)の位置における視差ベクトルが検出される。
 (xi,yi)の位置における視差ベクトルを検出する場合を例にとって説明する。この場合、左眼画像に、(xi,yi)の位置の画素を左上とする、例えば8×8あるいは16×16の画素ブロック(視差検出ブロック)Biが設定される。そして、右眼画像において、画素ブロックBiとマッチングする画素ブロックが探索される。
 この場合、右眼画像に、(xi,yi)の位置を中心とする探索範囲が設定され、その探索範囲内の各画素を順次注目画素として、上述の画素ブロックBiと同様の例えば8×8あるいは16×16の比較ブロックが順次設定されていく。
 画素ブロックBiと順次設定される比較ブロックとの間で、対応する画素毎の差分絶対値の総和が求められる。ここで、図6に示すように、画素ブロックBiの画素値をL(x,y)とし、比較ブロックの画素値をR(x,y)とするとき、画素ブロックBiと、ある比較ブロックとの間における差分絶対値の総和は、Σ|L(x,y)-R(x,y)|で表される。
 右眼画像に設定される探索範囲にn個の画素が含まれているとき、最終的にn個の総和S1~Snが求められ、その中で最小の総和Sminが選択される。そして、この総和Sminが得られた比較ブロックから左上の画素の位置が(xi′,yi′)が得られる。これにより、(xi,yi)の位置における視差ベクトルは、(xi′-xi,yi′-yi)のように検出される。詳細説明は省略するが、(xj,yj)の位置における視差ベクトルについても、左眼画像に、(xj,yj)の位置の画素を左上とする、例えば8×8あるいは16×16の画素ブロックBjが設定されて、同様の処理過程で検出される。
 図7(a)は、視差ベクトル検出部114で検出される、画像内の所定位置おける視差ベクトルVVの一例を示している。この場合、図7(b)に示すように、この画像内の所定位置においては、左眼画像(検出画像)を視差ベクトルVVだけずらすと、右眼画像(参照画像)と重なることを意味する。
 図2に戻って、視差ベクトルエンコーダ115は、視差ベクトル検出部114で検出された視差ベクトル等を含む視差ベクトルのエレメンタリーストリームを生成する。ここで、視差ベクトルのエレメンタリーストリームには、以下の内容が含まれる。すなわち、ID(ID_Block)、垂直位置情報(Vertical_Position)、水平位置情報(Horizontal_Position)、視差ベクトル(View_Vector)が1セットとされる。そして、この1セットが視差検出ブロックの数であるN個分だけ繰り返される。
 図8は、視差ベクトルの伝送内容を示している。視差ベクトルには、垂直方向成分(View_Vector_Vertical)および水平方向成分(View_Vector_Horizontal)が含まれている。 なお、視差検出ブロックの垂直、水平の位置は、画像の左上の原点から、ブロックの左上の画素までの垂直方向、水平方向のオフセット値となる。各視差ベクトルの伝送に、視差検出ブロックのIDを付すのは、画像に重畳表示させるクローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報等の重畳情報のパターンとのリンクがとれるようにするためである。
 例えば、図9(a)に示すように、A~Fまでの視差検出ブロックが存在するとき、伝送内容には、図9(b)に示すように、その視差検出ブロックA~FのIDと、垂直、水平の位置情報と、視差ベクトルが含まれる。例えば、図9(b)において、視差検出ブロックAに関しては、ID2は視差検出ブロックAのIDを示し、(Ha,Va)は視差検出ブロックAの垂直、水平の位置情報を示し、視差ベクトルaは視差検出ブロックAの視差ベクトルを示している。
 ここで、視差ベクトルを検出して伝送するタイミングについて説明する。このタイミングに関しては、例えば、以下の第1~第4の例が考えられる。
 第1の例においては、図10(a)に示すように、ピクチャの符号化に同期させる。この場合、視差ベクトルは、ピクチャ単位で伝送される。このピクチャ単位は、視差ベクトルを伝送する際のもっとも細かい単位である。第2の例においては、図10(b)に示すように、ビデオのシーンに同期させる。この場合、視差ベクトルは、シーン単位で伝送される。
 第3の例においては、図10(c)に示すように、符号化ビデオのIピクチャ(Intra picture)、またはGOP(Group Of Pictures)に同期させる。第4の例においては、図11に示すように、画像に重畳表示されるサブタイトル情報、グラフィクス情報、テキスト情報等の表示開始タイミングに同期させる。
 図2に戻って、マイクロホン116は、カメラ111L,111Rで撮影された画像に対応した音声を検出して、音声データを得る。オーディオエンコーダ117は、マイクロホン116で得られた音声データに対して、MPEG-2Audio AAC等の符号化を施し、オーディオのエレメンタリーストリームを生成する。
 サブタイトル・グラフィクス発生部118は、画像に重畳するサブタイトル情報やグラフィクス情報のデータ(サブタイトルデータ、グラフィクスデータ)を発生する。サブタイトル情報は、例えば字幕である。また、グラフィクス情報は、例えばロゴなどである。このサブタイトルデータおよびグラフィクスデータは、ビットマップデータである。このサブタイトルデータおよびグラフィクスデータには、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。
 このアイドリングオフセット情報は、例えば、画像の左上の原点から、サブタイトル情報やグラフィクス情報の重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、字幕データをビットマップデータとして伝送する規格は、ヨーロッパのデジタル放送規格であるDVBでDVB_Subtitlingとして規格化され、運用されている。
 サブタイトル・グラフィクスエンコーダ119は、サブタイトル・グラフィクス発生部118で発生されたサブタイトル情報やグラフィクス情報のデータ(サブタイトルデータ、グラフィクスデータ)を入力する。そして、このサブタイトル・グラフィクスエンコーダ119は、これらのデータをペイロード部に含むエレメンタリーストリームを生成する。
 テキスト発生部120は、画像に重畳するテキスト情報のデータ(テキストデータ)を発生する。テキスト情報は、例えば電子番組表、文字放送内容などである。このテキストデータには、上述のグラフィクスデータと同様に、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。このアイドリングオフセット情報は、例えば、画像の左上の原点から、テキスト情報の重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、テキストデータを伝送する例としては、番組予約として運用されているEPG、アメリカのデジタル地上波規格ATSCのCC_data(Closed Caption)がある。
 テキストエンコーダ121は、テキスト発生部120で発生されたテキストデータを入力する。そして、テキストエンコーダ121は、これらのデータをペイロード部に含むエレメンタリーストリームを生成する。
 マルチプレクサ122は、エンコーダ113,115,117,119,121から出力されるパケット化されたエレメンタリーストリームを多重化する。そして、このマルチプレクサ122は、伝送データとしてのビットストリームデータ(トランスポートストリーム)BSDを出力する。
 図2に示す送信データ生成部110の動作を簡単に説明する。カメラ111Lでは、左眼画像が撮影される。このカメラ111Lで得られる立体画像表示のための左眼画像データはビデオフレーミング部112に供給される。また、カメラ111Rでは、右眼画像が撮影される。このカメラ111Rで得られる立体画像表示のための右眼画像データはビデオフレーミング部112に供給される。ビデオフレーミング部112では、左眼画像データおよび右眼画像データが、伝送方式に応じた状態に加工処理されて、立体画像データが得られる(図4(a)~(c)参照)。
 ビデオフレーミング部112で得られる立体画像データはビデオエンコーダ113に供給される。このビデオエンコーダ113では、立体画像データに対してMPEG4-AVC、MPEG2、VC-1等の符号化が施され、符号化ビデオデータを含むビデオエレメンタリーストリームが生成される。このビデオエレメンタリーストリームはマルチプレクサ122に供給される。
 また、カメラ111L,111Rで得られた左眼画像データ、右眼画像データは、ビデオフレーミング部112を通じて、視差ベクトル検出部114に供給される。この視差ベクトル検出部114では、左眼画像データおよび右眼画像データに基づき、画像内の所定位置において、視差検出ブロックが設定され、左眼画像および右眼画像の一方に対する他方の視差情報である視差ベクトルが検出される。
 視差ベクトル検出部114で検出された画像内の所定位置における視差ベクトルは、視差ベクトルエンコーダ115に供給される。この場合、視差検出ブロックのID、視差検出ブロックの垂直位置情報、視差検出ブロックの水平位置情報、視差ベクトルが1セットとして渡される。視差ベクトルエンコーダ115では、視差ベクトルの伝送内容(図8参照)を含む視差ベクトルエレメンタリーストリームが生成される。この視差ベクトルエレメンタリーストリームはマルチプレクサ122に供給される。
 また、マイクロホン116では、カメラ111L,111Rで撮影された画像に対応した音声が検出される。このマイクロホン116で得られる音声データはオーディオエンコーダ117に供給される。このオーディオエンコーダ117では、音声データに対して、MPEG-2Audio AAC等の符号化が施され、符号化オーディオデータを含むオーディオエレメンタリーストリームが生成される。このオーディオエレメンタリーストリームはマルチプレクサ122に供給される。
 また、サブタイトル・グラフィクス発生部118では、画像に重畳するサブタイトル情報やグラフィクス情報のデータ(サブタイトルデータ、グラフィクスデータ)が発生される。このデータ(ビットマップデータ)は、サブタイトル・グラフィクスエンコーダ119に供給される。このサブタイトル・グラフィクスデータには、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。サブタイトル・グラフィクスエンコーダ119では、このグラフィクスデータに対して所定の符号化が施され、符号化データを含むエレメンタリーストリームが生成される。このエレメンタリーストリームはマルチプレクサ122に供給される。
 また、テキスト発生部120では、画像に重畳するテキスト情報のデータ(テキストデータ)が発生される。このテキストデータは、テキストエンコーダ121に供給される。このテキストデータには、上述のグラフィクスデータと同様に、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。テキストエンコーダ121では、このテキストデータに対して所定の符号化が施され、符号化データを含むエレメンタリーストリームが生成される。このエレメンタリーストリームはマルチプレクサ122に供給される。
 マルチプレクサ122では、各エンコーダから供給されるエレメンタリーストリームのパケットが多重化され、伝送データとしてのビットストリームデータ(トランスポートストリーム)BSDが得られる。
 図12は、図2に示す送信データ生成部110において多重化される各データのストリーム例を示している。なお、この例は、視差ベクトルが、ビデオのシーン単位で検出されて伝送される場合(図10(b)参照)を示している。なお、各ストリームのパケットには、同期表示用のタイムスタンプが付され、受信側で、画像に対して、サブタイトル情報、グラフィクス情報、テキスト情報等の重畳タイミングを制御することが可能となっている。
 「送信データ生成部の他の構成例」
 なお、上述の図2に示す送信データ生成部110は、視差ベクトルの伝送内容(図8参照)を独立したエレメンタリーストリームとして受信側に伝送する構成となっている。しかし、視差ベクトルの伝送内容を他のストリームの中に埋め込んで伝送することも考えられる。例えば、視差ベクトルの伝送内容は、ビデオのストリームにユーザデータとして埋め込まれて伝送される。また、例えば、視差ベクトルの伝送内容は、サブタイトル、グラフィクス、あるいはテキストのストリームに埋め込まれて伝送される。
 図13は、送信データ生成部110Aの構成例を示している。この例も、視差ベクトルを数値情報として送信する例である。この送信データ生成部110Aは、視差ベクトルの伝送内容を、ビデオのストリームにユーザデータとして埋め込んで伝送する構成となっている。この図13において、図2と対応する部分には同一符号を付し、その詳細説明は省略する。
 この送信データ生成部110Aにおいて、視差ベクトル検出114で検出された画像内の所定位置における視差ベクトルは、ビデオエンコーダ113内のストリームフォーマッタ113aに供給される。この場合、視差検出ブロックのID、視差検出ブロックの垂直位置情報、視差検出ブロックの水平位置情報、視差ベクトルが1セットとして渡される。ストリームフォーマッタ113aでは、ビデオのストリームに、視差ベクトルの伝送内容(図8参照)が、ユーザデータとして埋め込まれる。
 詳細説明は省略するが、この図13に示す送信データ生成部110Aのその他は、図2に示す送信データ生成部110と同様に構成されている。
 図14は、図13に示す送信データ生成部110Aにおいて多重化される画像データストリームと、サブタイトルあるいはグラフィクスのデータストリームと、テキストデータストリームの一例を示している。視差ベクトル(視差情報)は、画像データストリームに埋め込まれて伝送される。
 「送信データ生成部の他の構成例」
 図15は、送信データ生成部110Bの構成例を示している。この例も、視差ベクトルを数値情報として送信する例である。この送信データ生成部110Bは、視差ベクトルの伝送内容を、サブタイトルあるいはグラフィクスのデータストリームに埋め込んで伝送する構成となっている。この図15において、図2と対応する部分には同一符号を付し、その詳細説明は省略する。
 この送信データ生成部110Bにおいて、視差ベクトル検出114で検出された画像内の所定位置における視差ベクトルは、サブタイトル・グラフィクスエンコーダ119内のストリームフォーマッタ119aに供給される。この場合、視差検出ブロックのID、視差検出ブロックの垂直位置情報、視差検出ブロックの水平位置情報、視差ベクトルが1セットとして渡される。ストリームフォーマッタ119aでは、サブタイトルあるいはグラフィクスのデータストリームに、視差ベクトルの伝送内容(図8参照)が埋め込まれる。
 詳細説明は省略するが、この図15に示す送信データ生成部110Bのその他は、図2に示す送信データ生成部110と同様に構成され、同様に動作する。
 図16は、図15に示す送信データ生成部110Bにおいて多重化される、画像データストリームと、サブタイトルあるいはグラフィクスのデータストリームと、テキストデータストリームの一例を示している。視差ベクトル(視差情報)は、サブタイトルあるいはグラフィクスのデータストリームに埋め込まれて伝送される。
 「送信データ生成部の他の構成例」
 また、上述の図2、図13、図15に示す送信データ生成部110,110A,110Bは、視差ベクトルを数値情報として送信する(図8参照)。しかし、視差ベクトルを数値情報として伝送する代わりに、画像に重畳するための重畳情報(例えば、サブタイトル情報、グラフィクス情報、テキスト情報等)のデータに送信側で視差情報を予め反映させて送信することも考えられる。
 例えば、グラフィクス情報のデータに反映させる場合、送信側で、左眼画像に重畳すべき左眼グラフィクス情報と右眼画像に重畳すべき右眼グラフィクス情報の双方に対応したグラフィクスデータが生成される。この場合、左眼グラフィクス情報および右眼グラフィクス情報は同一のグラフィクス情報である。しかし、画像内の表示位置が、例えば、左眼グラフィクス情報に対して、右眼グラフィクス情報は、その表示位置に対応した視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。
 例えば、視差ベクトルとしては、画像内の複数位置で検出された視差ベクトルのうち、その重畳位置に対応したものが使用される。また、例えば、視差ベクトルとしては、画像内の複数位置で検出された視差ベクトルのうち、遠近感でいうところの最も近く認識される位置の視差ベクトルが使用される。なお、詳細説明は省略するが、サブタイトル情報やグラフィクス情報のデータに視差情報を反映させる場合も同様である。
 図17(a)は、伝送方式が上述の第1の伝送方式(「Top & Bottom」方式)である場合における、左眼グラフィクス情報および右眼グラフィクス情報の重畳位置を示している。これら左眼グラフィクス情報および右眼グラフィクス情報は同一の情報である。ただし、左眼画像IL上に重畳される左眼グラフィクス情報LGIに対して、右眼画像IR上に重畳される右眼グラフィクス情報RGIは、視差ベクトルの水平方向成分VVTだけ水平方向にずれた位置とされている。
 各画像IL,IRに対して、図17(a)に示すように、各グラフィクス情報LGI,RGIが重畳されるように、グラフィクスデータが生成される。これにより、視聴者は、図17(b)に示すように、各画像IL,IRと共に、各グラフィクス情報LGI,RGIを、視差をもって観察でき、グラフィクス情報にも、遠近感を認知可能となる。
 例えば、各グラフィクス情報LGI,RGIのグラフィクスデータは、図18(a)に示すように、単一領域のデータとして生成される。この場合、各グラフィクス情報LGI,RGI以外の部分のデータは、透明データとして生成されればよい。また、例えば、各グラフィクス情報LGI,RGIのグラフィクスデータは、図18(b)に示すように、別領域のデータとして生成される。
 図19(a)は、伝送方式が上述の第2の伝送方式(「Side By Side」方式)である場合における、左眼グラフィクス情報および右眼グラフィクス情報の重畳位置を示している。これら左眼グラフィクス情報および右眼グラフィクス情報は同一の情報である。ただし、左眼画像IL上に重畳される左眼グラフィクス情報LGIに対して、右眼画像IR上に重畳される右眼グラフィクス情報RGIは、視差ベクトルの水平方向成分VVTだけ水平方向にずれた位置とされている。なお、ITは、アイドリングオフセット値である。
 各画像IL,IRに対して、図19(a)に示すように、各グラフィクス情報LGI,RGIが重畳されるように、グラフィクスデータが生成される。これにより、視聴者は、図19(b)に示すように、各画像IL,IRと共に、各グラフィクス情報LGI,RGIを、視差をもって観察でき、グラフィクス情報にも、遠近感を認知可能となる。
 例えば、各グラフィクス情報LGI,RGIのグラフィクスデータは、図20に示すように、単一領域のデータとして生成される。この場合、各グラフィクス情報LGI,RGI以外の部分のデータは、透明データとして生成されればよい。
 図21は、送信データ生成部110Cの構成例を示している。この送信データ生成部110Cは、クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報等の重畳情報のデータに視差情報を反映させて送信する構成となっている。この図21において、図2と対応する部分には同一符号を付し、その詳細説明は省略する。
 この送信データ生成部110Cでは、サブタイトル・グラフィクス発生部118とサブタイトル・グラフィクスエンコーダ119との間に、サブタイトル・グラフィクス処理部124が挿入されている。また、この送信データ生成部110Cでは、テキスト発生部120とテキストエンコーダ121との間に、テキスト処理部125が挿入されている。そして、視差ベクトル検出部114で検出された画像内の所定位置における視差ベクトルは、サブタイトル・グラフィクス処理部124およびテキスト処理部125に供給される。
 サブタイトル・グラフィクス処理部124では、左眼画像IL、右眼画像IRに重畳される、左眼、右眼のサブタイトルやグラフィクスの情報LGI,RGIのデータが生成される。この場合、サブタイトル・グラフィクス発生部118で発生されるサブタイトルデータやグラフィクスデータに基づいて発生される。左眼および右眼のサブタイトル情報やグラフィクス情報は同一の情報である。しかし、画像内の重畳位置が、例えば、左眼のサブタイトル情報やグラフィクス情報に対して、右眼のサブタイトル情報やグラフィクス情報は、視差ベクトルの水平方向成分VVTだけ、水平方向にずれるようにされる(図17(a)、図19(a)参照)。
 このようにサブタイトル・グラフィクス処理部124で生成されたサブタイトルデータやグラフィクスデータは、サブタイトル・グラフィクスエンコーダ119に供給される。なお、このサブタイトルデータやグラフィクスデータには、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。サブタイトル・グラフィクスエンコーダ119では、サブタイトル・グラフィクス処理部124で生成されたサブタイトルデータやグラフィクスデータのエレメンタリーストリームが生成される。
 また、テキスト処理部125では、テキスト発生部120で発生されるテキストデータに基づいて、左眼画像上に重畳される左眼テキスト情報のデータおよび右眼画像上に重畳される右眼テキスト情報のデータが生成される。この場合、左眼テキスト情報および右眼テキスト情報は同一のテキスト情報であるが、画像内の重畳位置が、例えば、左眼テキスト情報に対して、右眼テキスト情報は、視差ベクトルの水平方向成分VVTだけ、水平方向にずれるようにされる。
 このようにテキスト処理部125で生成されたテキストデータは、テキストエンコーダ121に供給される。なお、このテキストデータには、画像上の重畳位置を示すアイドリングオフセット情報が付加されている。テキストエンコーダ121では、テキスト処理部で生成されたテキストスデータのエレメンタリーストリームが生成される。
 詳細説明は省略するが、この図21に示す送信データ生成部110Cのその他は、図2に示す送信データ生成部110と同様に構成されている。
 「送信データ生成部の他の構成例」
 図2、図13、図15に示す送信データ生成部110,110A,110Bにおいて、視差ベクトル検出部114では、左眼画像データおよび右眼画像データに基づき、画像内の所定位置における視差ベクトル(視差情報)が検出される。送信データ生成部110,110A,110Bでは、視差ベクトル検出部114で検出された画像内の所定位置における視差情報をそのまま受信側に送信する構成となっている。
 しかし、例えば、視差ベクトル検出部114でピクセル毎(画素毎)の視差ベクトルを検出し、それにダウンサイジング処理を施し、画像領域を階層的に分割して得られた各階層の各領域の視差ベクトルを求めることが考えられる。そして、受信側が要求する視差ベクトルの空間密度、あるいは伝送帯域などに基づいて選択された階層の各領域の視差ベクトルを階層順に配置した視差情報セットを作成し、この視差情報セットを受信側に送信することが考えられる。
 また、データ記録媒体に、送信すべき左眼画像データおよび右眼画像データと共に、ピクセル(画素)毎の視差ベクトル(視差情報)が記録されている場合がある。その場合に、それにダウンサイジング処理を施し、画像領域を階層的に分割して得られた各階層の各領域の視差ベクトルを求めることが考えられる。そして、受信側が要求する視差ベクトルの空間密度、あるいは伝送帯域などに基づいて選択された階層の各領域の視差ベクトルをデータ記録媒体から読み出して階層順に配置した視差情報セットを作成し、この視差情報セットを受信側に送信することが考えられる。
 図22は、送信データ生成部110Dの構成例を示している。この送信データ生成部110Dは、選択された階層の各領域の視差ベクトルを階層順に配置した視差情報セットを作成し、この視差情報セットを受信側に送信する構成となっている。この図22において、図2と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
 この送信データ生成部110Dは、カメラ111L,111Rと、ビデオフレーミング部112と、ビデオエンコーダ113と、視差ベクトル検出部114と、視差ベクトルエンコーダ115を有している。また、この送信データ生成部110Dは、マイクロホン116と、オーディオエンコーダ117と、サブタイトル・グラフィクス発生部118と、サブタイトル・グラフィクスエンコーダ119と、テキスト発生部120と、テキストエンコーダ121と、マルチプレクサ122を有している。また、この送信データ生成部110Dは、データ取り出し部130と、切換スイッチ131~133、視差情報セット作成部134を有している。
 データ取り出し部130には、データ記録媒体130aが、例えば、着脱自在に装着される。このデータ記録媒体130aには、左眼画像データおよび右眼画像データを含む立体画像データと共に、音声データ、重畳情報のデータ、視差ベクトルが対応付けて記録されている。データ取り出し部130は、データ記録媒体130aから、立体画像データ、音声データ、重畳情報のデータ、視差ベクトル等を取り出して出力する。
 ここで、データ記録媒体130aに記録されている立体画像データは、ビデオフレーミング部112で得られる立体画像データに相当するものである。また、データ記録媒体130aに記録されている重畳情報のデータは、サブタイトルデータ、グラフィクスデータ、テキストデータ等である。また、データ記録媒体130aに記録されている視差ベクトルは、例えば、最下層に位置するピクセル(画素)毎の視差ベクトルである。
 視差ベクトル検出部114は、左眼画像データおよび右眼画像データに基づき、例えば、最下層に位置するピクセル毎(画素毎)の視差ベクトルを検出する。切換スイッチ131は、ライブモードではビデオフレーミング部112で得られた立体画像データを取り出し、再生モードではデータ取り出し部130から出力された立体画像データを取り出し、ビデオエンコーダ113に供給する。
 切換スイッチ132は、ライブモードでは視差ベクトル検出部114で得られた視差ベクトルを取り出し、再生モードではデータ取り出し部130から出力された視差ベクトルを取り出し、視差情報セット作成部134に供給する。切換スイッチ133は、ライブモードではマイクロホン116で得られた音声データを取り出し、再生モードではデータ取り出し部130から出力された音声データを取り出し、オーディオエンコーダ117に供給する。
 視差情報セット作成部134は、切換スイッチ132で取り出された視差ベクトル、すなわち最下層に位置するピクセル(画素)毎の視差ベクトルにダウンサイジング処理を施し、画像(ピクチャ)領域を階層的に分割して得られた各階層の各領域の視差情報を求める。
 図23は、各ピクセル(画素)の輝度値のようにして与えられる相対的な深さ方向のデータの例を示している。ここで、相対的な深さ方向のデータは所定の変換により画素ごとの視差ベクトルとして扱うことが可能となる。この例において、人物部分の輝度値は高くなっている。これは、人物部分の視差ベクトルの値が大きいことを意味し、従って、立体画像表示では、この人物部分が浮き出た状態に知覚されることを意味している。また、この例において、背景部分の輝度値は低くなっている。これは、背景部分の視差ベクトルの値が小さいことを意味し、従って、立体画像表示では、この背景部分が沈んだ状態に知覚されることを意味している。
 図24は、ブロック(Block)毎の視差ベクトルの一例を示している。ブロックは、最下層に位置するピクセル(画素)の上位層に当たる。このブロックは、画像(ピクチャ)領域が、水平方向および垂直方向に所定の大きさで分割されることで構成される。各ブロックの視差ベクトルは、例えば、そのブロック内に存在する全ピクセル(画素)の視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。この例においては、各ブロックの視差ベクトルを矢印で示しており、矢印の長さが視差ベクトルの大きさに対応している。
 図25は、視差情報セット作成部134で行われるダウンサイジング処理の一例を示している。まず、視差情報セット作成部134は、図25(a)に示すように、ピクセル(画素)毎の視差ベクトルを用いて、ブロック毎の視差ベクトルを求める。上述したように、ブロックは、最下層に位置するピクセル(画素)の上位層に当たり、画像(ピクチャ)領域が水平方向および垂直方向に所定の大きさで分割されることで構成される。そして、各ブロックの視差ベクトルは、例えば、そのブロック内に存在する全ピクセル(画素)の視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。
 次に、視差情報セット作成部134は、図25(b)に示すように、ブロック毎の視差ベクトルを用いて、グループ(Group Of Block)毎の視差ベクトルを求める。グループは、ブロックの上位層に当たり、複数個の近接するブロックをまとめてグループ化することで得られる。図25(b)の例では、各グループは、破線枠で括られる4個のブロックにより構成されている。そして、各グループの視差ベクトルは、例えば、そのグループ内の全ブロックの視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。
 次に、視差情報セット作成部134は、図25(c)に示すように、グループ毎の視差ベクトルを用いて、リージョン(Region)毎の視差ベクトルを求める。リージョンは、グループの上位層に当たり、複数個の近接するグループをまとめてグループ化することで得られる。図25(c)の例では、各リージョンは、破線枠で括られる2個のグループにより構成されている。そして、各リージョンの視差ベクトルは、例えば、そのリージョン内の全グループの視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。
 次に、視差情報セット作成部134は、図25(d)に示すように、リージョン毎の視差ベクトルを用いて、最上位層に位置するピクチャ全体(画像全体)の視差ベクトルを求める。図25(d)の例では、ピクチャ全体には、破線枠で括られる4個のリージョンが含まれている。そして、ピクチャ全体の視差ベクトルは、例えば、ピクチャ全体に含まれる全リージョンの視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。この場合、ピクチャ全体の視差ベクトルの他に、その視差ベクトルが得られた元々のピクセル(画素)の位置(「+」で図示)の情報を求めて、視差ベクトルの付加情報とすることもできる。これは、上述したブロック、グループ、リージョンの視差ベクトルを求める際も同様である。
 このようにして、視差情報セット作成部134は、最下層に位置するピクセル(画素)毎の視差ベクトルにダウンサイジング処理を施して、ブロック、グループ、リージョン、ピクチャ全体の各階層の各領域の視差ベクトルを求めることができる。なお、図25に示すダウンサイジング処理の一例では、最終的に、ピクセル(画素)の階層の他、ブロック、グループ、リージョン、ピクチャ全体の4階層の視差ベクトルを求めているが、階層数ならびに各階層の領域の切り方や領域の数はこれに限定されるものではない。
 また、視差情報セット作成部134は、受信側が要求する視差ベクトルの空間密度、あるいは伝送帯域などに基づいて選択された階層の各領域の視差ベクトルを階層順に配置した視差情報セットを作成する。
 視差情報セット作成部134では、上述のダウンサイジング処理により、例えば、ピクチャ全体、リージョン、グループ、ブロック、ピクセル(画素)の各階層の各領域の視差ベクトルが取得される。視差情報セット作成部134は、各階層の各領域の視差ベクトルを管理する。図26に示すように、各階層の各領域の視差ベクトルには、ブロックID(Block ID)が付加されている。このブロック IDは、対象の視差ベクトルが属する最下層の位置情報を示すものであり、上位層から見た際にも視差と位置を的確に検知することを可能とするものである。図26は、図面の簡単のために、ピクチャ全体(DPall)および各リージョン(DP0~DP3)の視差ベクトル部分だけを示している。
 図26において、ピクチャ全体(DPall)の視差ベクトル(DP_value0)は、ブロックID(ID0)で示される最下層の位置に属する視差ベクトルであることが分かる。また、図26において、各リージョン(DP0~DP3)の視差ベクトル(DP_value1~DP_value4)は、それぞれ、ブロックID(ID1~ID4)で示される最下層の位置に属する視差ベクトルであることが分かる。
 なお、ブロック IDの代わりに、あるいはブロックIDと共に、位置そのものを示す情報を用いることができる。この情報は、例えば、画面左上から各領域の左上までのオフセット値であり、画素単位で表される。また、ピクセル(画素)毎の視差ベクトルに関しては、スキャン順(映像画素順)に配置しておくことで位置情報の付加を省略できる。
 視差情報セット作成部134は、例えば、送信階層として最上位階層であるピクチャ全体の階層のみを選択する場合、図26に矢印aで範囲を示すように、その視差ベクトル(DP_value0)を含む視差情報セットを作成する。また、視差情報セット作成部134は、例えば、送信階層としてピクチャ全体およびリージョンの階層を選択する場合、図26に矢印bで範囲を示すように、その視差ベクトル(DP_value0,DP_value1~DP_value4)を含む視差情報セットを作成する。
 以下、同様に、視差情報セット作成部134は、送信階層として選択された各階層の各領域の視差ベクトルを含む視差情報セットを作成する。なお、送信階層として、必ずしも、ピクチャ全体の階層が含まれる必要はなく、リージョン階層以下、あるいはいグループ階層以下などが選択されてもよい。また、リージョン等の各階層の各領域の構成そのものに関しても、各階層のピクチャ全体の切り方や領域数などに自由度をもたせることが可能であることは言うまでもない。
 視差情報セット作成部134では、視差情報セットに、送信階層として選択された各階層の各領域の視差ベクトルを、階層順、例えば上位階層から順に配置する。図27は、視差情報セットの内容の一例を示している。
 この視差情報セットには、N個の視差ベクトルの情報セットが含まれている。各情報セットは、16ビットのブロックID(ID_Block(i))と、16ビットの垂直位置情報(Vertical_Position)と、16ビットの水平位置情報(Horizontal_Position)と、16ビットの水平方向の視差ベクトル(Disparity_Vector_Horizontal)により構成されている。
 なお、受信側において、ブロック ID(ID_Block(i))のみで視差ベクトルが属する最下層の位置が分かる場合には、位置情報(Vertical_Position,Horizontal_Position)を不要とできる。また、ピクセル(画素)毎の視差ベクトルを送信する場合にあってスキャン順(映像画素順)に配置する場合には、ブロックIDおよび位置情報のいずれも不要とできる。
 ビデオエンコーダ113は、切換スイッチ131から供給された立体画像データに対して、MPEG4-AVC、MPEG2、VC-1等の符号化を施して符号化ビデオデータを得る。また、ビデオエンコーダ113は、ペイロード部に符号化ビデオデータを含むビデオのエレメンタリーストリームを生成する。視差ベクトルエンコーダ115は、視差情報セット作成部134で作成された視差情報セットを含む視差ベクトルのエレメンタリーストリームを生成する。また、オーディオエンコーダ117は、切換スイッチ133から供給された音声データに対して、MPEG-2Audio AAC等の符号化を施し、オーディオのエレメンタリーストリームを生成する。
 詳細説明は省略するが、この図22に示す送信データ生成部110Dのその他は、図2に示す送信データ生成部110と同様に構成されている。
 図22に示す送信データ生成部110Dの動作を簡単に説明する。最初にライブモードの動作を説明する。このライブモードでは、切換スイッチ131~133は、いずれも、a側に接続されている。
 ビデオフレーミング部112で得られた立体画像データは、切換スイッチ131を介して、ビデオエンコーダ113に供給される。このビデオエンコーダ113では、その立体画像データに対してMPEG4-AVC、MPEG2、VC-1等の符号化が施され、符号化ビデオデータを含むビデオエレメンタリーストリームが生成される。このビデオエレメンタリーストリームはマルチプレクサ122に供給される。
 また、カメラ111L,111Rで得られた左眼画像データ、右眼画像データは、ビデオフレーミング部112を通じて、視差ベクトル検出部114に供給される。この視差ベクトル検出部114では、左眼画像データおよび右眼画像データに基づき、例えば、最下層に位置するピクセル毎(画素毎)の視差ベクトルが検出される。この視差ベクトルは、切換スイッチ132を介して、視差情報セット作成部134に供給される。
 視差情報セット作成部134では、視差ベクトル、すなわち最下層に位置するピクセル(画素)毎の視差ベクトルにダウンサイジング処理が施され、画像領域を階層的に分割して得られた各階層の各領域の視差情報が求められる。例えば、視差情報セット作成部134では、最下層に位置するピクセル(画素)毎の視差ベクトルにダウンサイジング処理が施されて、ブロック、グループ、リージョン、ピクチャ全体の各階層の各領域の視差ベクトルが求められる。
 また、視差情報セット作成部134では、さらに、視差情報セット作成部134では、受信側が要求する視差ベクトルの空間密度、あるいは伝送帯域などに基づいて選択された階層の各領域の視差ベクトルを階層順に配置した視差情報セットが作成される(図27参照)。この視差情報セットは、視差ベクトルエンコーダ115に供給される。視差ベクトルエンコーダ115では、視差情報セットを含む視差ベクトルエレメンタリーストリームが生成される。この視差ベクトルエレメンタリーストリームはマルチプレクサ122に供給される。
 また、マイクロホン116で得られた音声データは、切換スイッチ133を介して、オーディオエンコーダ117に供給される。このオーディオエンコーダ117では、音声データに対して、MPEG-2Audio AAC等の符号化が施され、符号化オーディオデータを含むオーディオエレメンタリーストリームが生成される。このオーディオエレメンタリーストリームはマルチプレクサ122に供給される。
 また、マルチプレクサ122には、サブタイトル・グラフィクスエンコーダ119から、サブタイトルデータあるいはグラフィクスデータの符号化データを含むエレメンタリーストリームが供給される。さらに、このマルチプレクサ122には、テキストエンコーダ121から、テキストデータの符号化データを含むエレメンタリーストリームが供給される。そして、マルチプレクサ122では、各エンコーダから供給されるエレメンタリーストリームのパケットが多重化され、伝送データとしてのビットストリームデータ(トランスポートストリーム)BSDが得られる。
 次に、再生モードの動作を説明する。この再生モードでは、切換スイッチ131~133は、いずれも、b側に接続されている。データ取り出し部130で得られた立体画像データが、切換スイッチ131を介して、ビデオエンコーダ113に供給される。また、データ取り出し部130で得られた視差ベクトル、すなわち最下層に位置するピクセル(画素)毎の視差ベクトルが、切換スイッチ132を介して、視差情報セット作成部134に供給される。また、データ取り出し部130で得られた音声データが、切換スイッチ133を介して、オーディオエンコーダ117に供給される。
 詳細説明は省略するが、この再生モードにおいて、その他の動作は、上述したライブモードと同様である。
 図22に示す送信データ生成部110Dにおいては、上述したように、視差情報セット作成部134で作成される視差情報セットには、画像(ピクチャ)領域を階層的に分割して得られた各階層のうち、選択された階層の各領域の視差ベクトル(視差情報)が、階層順に配置されている。そのため、受信側においては、この視差情報セットから重畳情報の重畳位置に対応した視差ベクトルを容易に取り出して用いることができる。すなわち、受信側において、重畳情報の重畳位置に対応した視差ベクトルを得るための計算などが不要となり、簡単な構成とすることができる。
 なお、図22に示す送信データ生成部110Dの上述の説明では、視差情報セット作成部134で、最下位層のピクセル(画素)毎の視差ベクトルにダウンサイジング処理を施して各階層の各領域の視差ベクトルを求める旨、説明した。しかし、各階層の各領域の視差ベクトルが視差ベクトル検出部114で検出あるいは求められ、視差情報セット作成部134ではそれを利用するようにしてもよい。あるいは、データ記録媒体130aに各階層の各領域の視差ベクトルが記録されており、視差情報セット作成部134ではそれを利用するようにしてもよい。
 また、図22に示す送信データ生成部110Dの上述の説明では、視差情報セット作成部134で、最下位層のピクセル(画素)毎の視差ベクトルにダウンサイジング処理が施して各階層の各領域の視差ベクトルを求める旨、説明した。しかし、視差情報セット作成部134では、送信階層として選択された各階層の各領域の視差ベクトルのみを求めることで足りる。
 また、図22に示す送信データ生成部110Dは、視差情報セットを含む視差ベクトルエレメンタリーストリームを、マルチプレクサ122で他のストリームと多重化する構成となっている。すなわち、この図22に示す送信データ生成部110Dは、図2に示す送信データ生成部110に対応した構成となっている。しかし、図13、図15に示す送信データ生成部110A,110Bと同様に、画像データストリーム等の他のストリームに視差情報セットを挿入して受信側に送る構成とすることもできる。
 [セットトップボックスの説明]
 図1に戻って、セットトップボックス200は、放送局100から放送波にのせて送信されてくるビットストリームデータ(トランスポートストリーム)を受信する。このビットストリームデータには、左眼画像データおよび右眼画像データを含む立体画像データ、音声データ、重畳情報データ、さらには視差情報(視差ベクトル)が含まれる。ここで、重畳情報データは、例えば、サブタイトルデータ、グラフィクスデータ、テキストデータ(クローズド・キャプションデータを含む)等である。
 セットトップボックス200は、ビットストリーム処理部201を有している。このビットストリーム処理部201は、ビットストリームデータから、立体画像データ、音声データ、重畳情報データ、視差ベクトル等を抽出する。このビットストリーム処理部201は、立体画像データ、重畳情報データ(サブタイトルデータ、グラフィクスデータ、テキストデータ)等を用いて、重畳情報が重畳された左眼画像および右眼画像のデータを生成する。
 ここで、視差ベクトルが数値情報として送信されてくる場合には、視差ベクトルと重畳情報データに基づいて、左眼画像、右眼画像にそれぞれ重畳する左眼重畳情報、右眼重畳情報を生成する。この場合、左眼重畳情報および右眼重畳情報は同一の重畳情報である。しかし、画像内の重畳位置が、例えば、左眼重畳情報に対して、右眼重畳グ情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。
 図28(a)は、伝送方式が上述の第2の伝送方式(「Side By Side」方式)である場合における、左眼グラフィクス情報および右眼グラフィクス情報の重畳位置を示している。左眼画像IL上に重畳される左眼グラフィクス情報LGIに対して、右眼画像IR上に重畳される右眼グラフィクス情報RGIは、視差ベクトルの水平方向成分VVTだけ水平方向にずれた位置とされている。なお、ITは、アイドリングオフセット値である。
 ビットストリーム処理部201では、各画像IL,IRに対して各グラフィクス情報LGI,RGIが図28(a)に示すように重畳されるように、グラフィクスデータが生成される。ビットストリーム処理部201は、ビットストリームデータから抽出された立体画像データ(左眼画像データ、右眼画像データ)に対して、生成された左眼グラフィクスデータ、右眼グラフィクスデータを合成して、処理後の立体画像データを取得する。この立体画像データによれば、視聴者は、図28(b)に示すように、各画像IL,IRと共に、各グラフィクス情報LGI,RGIを、視差をもって観察でき、グラフィクス情報にも、遠近感を認知可能となる。
 なお、図29(a)は、各画像IL,IRに対して、ビットストリームデータから抽出されたグラフィクスデータによるグラフィクス画像をそのまま重畳した状態を示している。この場合、視聴者は、図29(b)に示すように、左眼画像ILと共にグラフィクス情報の左半分、右眼画像IRと共にグラフィクス情報の右半分を観察する。そのため、グラフィクス情報を正しく認識できなくなる。
 図28は、グラフィクス情報の場合を示したが、その他の重畳情報(クローズド・キャプション情報、サブタイトル情報、テキスト情報など)に関しても同様である。すなわち、視差ベクトルが数値情報として送信されてくる場合には、視差ベクトルと重畳情報データデータに基づいて、左眼画像、右眼画像にそれぞれ重畳する左眼重畳情報、右眼重畳情報を生成する。この場合、左眼重畳情報および右眼重畳情報は同一の重畳情報である。しかし、画像内の重畳位置が、例えば、左眼重畳情報に対して、右眼重畳情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。
 ここで、左眼重畳情報と右眼重畳情報との間に視差を与える視差ベクトルとしては、以下の視差ベクトルを用いることが考えられる。例えば、視差ベクトルとしては、画像内の複数位置で検出された視差ベクトルのうち、遠近感でいうところの最も近く認識される位置の視差ベクトルを使用することが考えられる。図30(a),(b),(c),(d)は、それぞれ時刻T0,T1,T2,T3における3つのオブジェクト位置の視差ベクトル(View Vector)を示している。
 時刻T0では、オブジェクト1に対応した位置(H0,V0)における視差ベクトルVV0-1が最大の視差ベクトルMaxVV(T0)となっている。時刻T1では、オブジェクト1に対応した位置(H1,V1)における視差ベクトルVV1-1が最大の視差ベクトルMaxVV(T1)となっている。時刻T2では、オブジェクト2に対応した位置(H2,V2)における視差ベクトルVV2-2が最大の視差ベクトルMaxVV(T2)となっている。時刻T3では、オブジェクト1に対応した位置(H3,V3)における視差ベクトルVV3-0が最大の視差ベクトルMaxVV(T3)となっている。
 このように、視差ベクトルとして、画像内の複数位置で検出された視差ベクトルのうち、遠近感でいうところの最も近く認識される位置の視差ベクトルを使用することで、遠近感でいうところの最も近い画像内の物体よりも手前に、重畳情報を表示できる。
 図31(a)は、画像上における字幕(例えば、クローズド・キャプション情報、サブタイトル情報)の表示例を示している。この表示例では、背景と近景オブジェクトとからなる画像上に、字幕が重畳された例である。図31(b)は、背景、近景オブジェクト、字幕の遠近感を示し、字幕が最も近くにあるように認識されることを示している。
 図32(a)は、図31(a)と同じ、画像上における字幕(例えば、クローズド・キャプション情報、サブタイトル情報)の表示例を示している。図32(b)は、字幕を表示するための左眼サブタイトル情報LGIと、右眼サブタイトル情報RGIを示している。図32(c)は、字幕が最も近くにあるように認識されるために、各サブタイトル情報LGI,RGIに視差が与えられることを示している。
 また、視差ベクトルとしては、画像内の複数位置で検出された視差ベクトル(視差情報セットに含まれる各階層の各領域の視差ベクトルを含む)のうち、その重畳位置に対応したものを使用することが考えられる。図33(a)は、ビットストリームデータから抽出されるグラフィックデータによるグラフィック情報と、ビットストリームデータから抽出されるテキストデータによるテキスト情報を示している。
 図33(b)は、左眼画像に、左眼グラフィクス情報LGIおよび左眼テキスト情報LTIが重畳された状態を示している。この場合、左眼グラフィクス情報LGIは、その重畳位置が水平方向にはアイドリングオフセット値(IT-0)で規制されている。また、左眼テキスト情報LTIは、その重畳位置が水平方向にはアイドリングオフセット値(IT-1)で規制されている。
 図33(c)は、右眼画像に、右眼グラフィクス情報RGIおよび右眼テキスト情報RTIが重畳された状態を示している。この場合、右眼グラフィクス情報RGIは、その重畳位置が水平方向にはアイドリングオフセット値(IT-0)で規制され、さらにこの重畳位置に対応した視差ベクトルの水平方向成分VVT-0だけ、左眼グラフィクス情報LGIの重畳位置よりずらされている。また、右眼テキスト情報RTIは、その重畳位置が水平方向にはアイドリングオフセット値(IT-1)で規制され、さらにこの重畳位置に対応した視差ベクトルの水平方向成分VVT-1だけ、左眼テキスト情報LTIの重畳位置よりずらされている。
 上述では、左眼画像および右眼画像に、ビットストリームデータから抽出されたグラフィクスデータによるグラフィクス情報、あるいはビットストリームデータから抽出されたテキストデータによるテキスト情報を重畳する場合を説明した。この他に、セットトップボックス200内でグラフィクスデータあるいはテキストデータが発生され、それらによる情報を、左眼画像および右眼画像に、重畳する場合も考えられる。
 その場合にあっても、ビットストリームデータから抽出された画像内の所定位置の視差ベクトルを利用して、左眼グラフィクス情報と右眼グラフィクス情報との間、あるいは左眼テキスト情報と右眼テキスト情報との間に、視差を持たせることができる。これにより、グラフィクス情報、テキスト情報の表示において、画像内の各物体(オブジェクト)の遠近感との間で遠近感の整合性の維持を図った適切な遠近感を付与できる。
 図34(a)は、画像内にA,B,Cの各オブジェクトが存在し、例えば、これら各オブジェクトの近傍位置に、各オブジェクトの注釈を示すテキスト情報を重畳することを示している。図34(b)は、A,B,Cの各オブジェクトの位置と、その位置における視差ベクトルの対応を示す視差ベクトルリストと、それぞれの視差ベクトルを、A,B,Cの各オブジェクの注釈を示すテキスト情報に視差を与える場合に利用することを示している。例えば、Aのオブジェクトの近傍には「Text」のテキスト情報が重畳されるが、その左眼テキスト情報と右眼テキスト情報との間には、Aのオブジェクトの位置(Ha,Va)における視差ベクトルVV-aに対応した視差が与えられる。なお、B,Cのオブジェクトの近傍に重畳されるテキスト情報に関しても同様である。
 なお、図33は、重畳情報がグラフィクス情報およびテキスト情報である場合を示している。また、図34は、重畳情報がテキスト情報である場合を示している。詳細説明は省略するが、その他の重畳情報(クローズド・キャプション情報、サブタイトル情報など)の場合も同様である。
 次に、視差ベクトルが、重畳情報(クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報など)のデータに予め反映されて送信されてくる場合について説明する。この場合、ビットストリームデータから抽出された重畳情報データには、視差ベクトルにより視差が与えられた、左眼重畳情報および右眼重畳情報のデータが含まれている。
 そのため、ビットストリーム処理部201は、ビットストリームデータから抽出された立体画像データ(左眼画像データ、右眼画像データ)に対して、ビットストリームデータから抽出された重畳情報データを単に合成して、処理後の立体画像データを取得する。なお、テキストデータ(クローズド・キャプションデータを含む)に関しては、キャラクタコードをビットマップデータに変換する等の処理は必要である。
 [セットトップボックスの構成例]
 セットトップボックス200の構成例を説明する。図35は、セットトップボックス200の構成例を示している。このセットトップボックス200は、ビットストリーム処理部201と、HDMI端子202と、アンテナ端子203と、デジタルチューナ204と、映像信号処理回路205と、HDMI送信部206と、音声信号処理回路207を有している。また、このセットトップボックス200は、CPU211と、フラッシュROM212と、DRAM213と、内部バス214と、リモコン受信部215と、リモコン送信機216を有している。
 アンテナ端子203は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ204は、アンテナ端子203に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)を出力する。
 ビットストリーム処理部201は、上述したように、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、重畳情報データ、視差情報(視差ベクトル)等を抽出する。重畳情報データは、サブタイトルデータ、グラフィクスデータ、テキストデータ(クローズド・キャプションデータを含む)等である。このビットストリーム処理部201は、上述したように、立体画像データに対し、重畳情報(クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報など)のデータを合成し、表示用立体画像データを取得する。また、ビットストリーム処理部201は、音声データを出力する。ビットストリーム処理部201の詳細構成は後述する。
 映像信号処理回路205は、ビットストリーム処理部201から出力された立体画像データに対して必要に応じて画質調整処理などを行い、処理後の立体画像データをHDMI送信部206に供給する。音声信号処理回路207は、ビットストリーム処理部201から出力された音声データに対して必要に応じて音質調整処理等を行い、処理後の音声データをHDMI送信部206に供給する。
 HDMI送信部206は、HDMIに準拠した通信により、ベースバンドの画像(映像)と音声のデータを、HDMI端子202から送出する。この場合、HDMIのTMDSチャネルで送信するため、画像および音声のデータがパッキングされて、HDMI送信部206からHDMI端子202に出力される。このHDMI送信部206の詳細は後述する。
 CPU211は、セットトップボックス200の各部の動作を制御する。フラッシュROM212は、制御ソフトウェアの格納およびデータの保管を行う。DRAM213は、CPU211のワークエリアを構成する。CPU211は、フラッシュROM212から読み出したソフトウェアやデータをDRAM213上に展開してソフトウェアを起動させ、セットトップボックス200の各部を制御する。
 リモコン受信部215は、リモコン送信機216から送信されたリモーコントロール信号(リモコンコード)を受信し、CPU211に供給する。CPU211は、このリモコンコードに基づいて、セットトップボックス200の各部を制御する。CPU211、フラッシュROM212およびDRAM213は内部バス214に接続されている。
 セットトップボックス200の動作を簡単に説明する。アンテナ端子203に入力されたテレビ放送信号はデジタルチューナ204に供給される。このデジタルチューナ204では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)が出力される。
 デジタルチューナ204から出力されるビットストリームデータは、ビットストリーム処理部201に供給される。このビットストリーム処理部201では、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、グラフィクスデータ、テキストデータ、視差ベクトル等が抽出される。また、このビットストリーム処理部201では、立体画像データに対し、重畳情報(クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報など)のデータが合成され、表示用立体画像データが生成される。
 ビットストリーム処理部201で生成される表示用立体画像データは、映像信号処理回路205で必要に応じて画質調整処理等が行われた後に、HDMI送信部206に供給される。また、ビットストリーム処理部201で得られる音声データは、音声信号処理回路207で必要に応じて音質調整処理等が行われた後に、HDMI送信部206に供給される。HDMI送信部206に供給された立体画像データおよび音声データは、HDMIのTMDSチャネルにより、HDMI端子202からHDMIケーブル400に送出される。
 [ビットストリーム処理部の構成例]
 図36は、ビットストリーム処理部201の構成例を示している。このビットストリーム処理部201は、上述の図2、図22に示す送信データ生成部110,110Dに対応させた構成となっている。このビットストリーム処理部201は、デマルチプレクサ220と、ビデオデコーダ221と、サブタイトル・グラフィクスデコーダ222と、テキストデコーダ223と、オーディオデコーダ224と、視差ベクトルデコーダ225を有している。また、このビットストリーム処理部201は、立体画像用サブタイトル・グラフィクス発生部226と、立体画像用テキスト発生部227と、ビデオ重畳部228と、マルチチャネルスピーカコントロール部229を有している。
 デマルチプレクサ220は、ビットストリームデータBSDから、ビデオ、オーディオ、視差ベクトル、サブタイトルやグラフィクスおよびテキストのパケットを抽出し、各デコーダに送る。
 ビデオデコーダ221は、上述の送信データ生成部110のビデオエンコーダ113とは逆の処理を行う。すなわち、このビデオデコーダ221は、デマルチプレクサ220で抽出されたビデオのパケットからビデオのエレメンタリーストリームを再構成し、復号化処理を行って、左眼画像データおよび右眼画像データを含む立体画像データを得る。この立体画像データの伝送方式は、例えば、上述の第1の伝送方式(「Top & Bottom」方式)、第2の伝送方式は(「Side By Side」方式)、第3の伝送方式(「Frame Sequential」方式)などである(図4(a)~(c)参照)。
 サブタイトル・グラフィクスデコーダ222は、上述の送信データ生成部110のサブタイトル・グラフィクスエンコーダ119とは逆の処理を行う。すなわち、このサブタイトル・グラフィクスデコーダ222は、デマルチプレクサ220で抽出されたサブタイトルやグラフィクスのパケットからサブタイトルやグラフィクスのエレメンタリーストリームを再構成する。そして、このサブタイトル・グラフィクスデコーダ222は、さらに復号化処理を行って、サブタイトルデータやグラフィクスデータを得る。
 テキストデコーダ223は、上述の送信データ生成部110のテキストエンコーダ121とは逆の処理を行う。すなわち、このテキストデコーダ223は、デマルチプレクサ220で抽出されたテキストのパケットからテキストのエレメンタリーストリームを再構成し、復号化処理を行って、テキストデータ(クローズド・キャプションデータを含む)を得る。
 オーディオデコーダ224は、上述の送信データ生成部110のオーディオエンコーダ117とは逆の処理を行う。すなわち、このオーディオデコーダ224は、デマルチプレクサ220で抽出されたオーディオのパケットからオーディオのエレメンタリーストリームを再構成し、復号化処理を行って、音声データを得る。
 視差ベクトルデコーダ225は、上述の送信データ生成部110の視差ベクトルエンコーダ115とは逆の処理を行う。すなわち、この視差ベクトルデコーダ225は、デマルチプレクサ220で抽出された視差ベクトルのパケットから視差ベクトルのエレメンタリーストリームを再構成し、復号化処理を行って、画像内の所定位置の視差ベクトルを得る。
 立体画像用サブタイトル・グラフィクス発生部226は、左眼画像および右眼画像にそれぞれ重畳する左眼および右眼のサブタイトル情報やグラフィクス情報を生成する。この生成処理は、デコーダ222で得られたサブタイトルデータやグラフィクスデータと、デコーダ225で得られた視差ベクトルに基づいて行われる。この場合、左眼および左眼のサブタイトル情報やグラフィクス情報は同一の情報である。しかし、画像内の重畳位置が、例えば、左眼のサブタイトル情報やグラフィクス情報に対して、右眼のブタイトル情報やグラフィクス情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。そして、この立体画像用サブタイトル・グラフィクス発生部226は、生成された左眼および左眼のサブタイトル情報やグラフィクス情報のデータ(ビットマップデータ)を出力する。
 立体画像用テキスト発生部227は、デコーダ223で得られたテキストスデータと、デコーダ225で得られた視差ベクトルに基づいて、左眼画像、右眼画像にそれぞれ重畳する左眼テキスト情報、右眼テキスト情報を生成する。この場合、左眼テキスト情報および右眼テキスト情報は同一のテキスト情報であるが、画像内の重畳位置が、例えば、左眼テキスト情報に対して、右眼テキスト情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。そして、この立体画像用テキスト発生部227は、生成された左眼テキスト情報および右眼テキスト情報のデータ(ビットマップデータ)を出力する。
 ビデオ重畳部228は、ビデオデコーダ221で得られた立体画像データ(左眼画像データ、右眼画像データ)に対して、発生部226,227で発生されたデータを重畳し、表示用立体画像データVoutを得る。なお、立体画像データ(左眼画像データ、右眼画像データ)への重畳情報データの重畳はシステムレイヤのタイムスタンプにより開始される。
 マルチチャネルスピーカコントロール部229は、オーディオデコーダ224で得られる音声データに対して、例えば5.1chサラウンド等を実現するためのマルチチャネルスピーカの音声データを生成する処理、所定の音場特性を付与する処理等を施す。また、このマルチチャネルスピーカコントロール部229は、デコーダ225で得られた視差ベクトルに基づいて、マルチチャネルスピーカの出力を制御する。
 視差ベクトルの大きさが大きくなる程、立体感が際だつ効果がある。立体の度合いに合わせて、マルチチャネルのスピーカ出力を制御することで、更なる立体体験の提供を実現できる。
 図37は、視差ベクトルVV1が、テレビディスプレイに向かって、左側のビデオオブジェクトの方が大きい場合のスピーカ出力制御例を示している。この制御例では、マルチチャネルスピーカのRear Leftのスピーカ音量は大きくされ、Front Leftのスピーカ音量は中程度とされ、さらに、Front Right,Rear Rightのスピーカ音量が小さくされる。このように、ビデオコンテンツ(立体画像データ)の視差ベクトルを、音声データ等の他のメディアデータへ受信側で適用することで、視聴者に、立体感を総合的に体感させることが可能になる。
 図36に示すビットストリーム処理部201の動作を簡単に説明する。デジタルチューナ204(図35参照)から出力されるビットストリームデータBSDは、デマルチプレクサ220に供給される。このデマルチプレクサ220では、ビットストリームデータBSDから、ビデオ、オーディオ、視差ベクトル、サブタイトルやグラフィクス、およびテキストのTSパケットが抽出され、各デコーダに供給される。
 ビデオデコーダ221では、デマルチプレクサ220で抽出されたビデオのパケットからビデオのエレメンタリーストリームが再構成され、さらに復号化処理が行われて、左眼画像データおよび右眼画像データを含む立体画像データが得られる。この立体画像データは、ビデオ重畳部228に供給される。また、視差ベクトルデコーダ225では、デマルチプレクサ220で抽出された視差ベクトルのパケットから視差ベクトルのエレメンタリーストリームが再構成され、さらに復号化処理が行われて、画像内の所定位置の視差ベクトルが得られる(図8、図27参照)。
 サブタイトル・グラフィクスデコーダ222では、デマルチプレクサ220で抽出されたサブタイトルやグラフィクスのパケットからサブタイトルやグラフィクスのエレメンタリーストリームが再構成される。サブタイトル・グラフィクスデコーダ222では、さらに、サブタイトルやグラフィクスのエレメンタリーストリームに対して復号化処理が行われて、サブタイトルデータやグラフィクスデータが得られる。このサブタイトルデータやグラフィクスデータは、立体画像用サブタイトル・グラフィクス発生部226に供給される。この立体画像用サブタイトル・グラフィクス発生部226には、視差ベクトルデコーダ225で得られた視差ベクトルも供給される。
 この立体画像用サブタイトル・グラフィクス発生部226では、左眼画像、右眼画像にそれぞれ重畳する左眼および右眼のサブタイトル情報やグラフィクス情報のデータが生成される。この生成処理は、デコーダ222で得られたサブタイトルデータやグラフィクスデータと、デコーダ225で得られた視差ベクトルに基づいて行われる。この場合、画像内の重畳位置が、例えば、左眼のサブタイトル情報や左眼グラフィクス情報に対して、右眼のサブタイトル情報やグラフィクス情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。この立体画像用サブタイトル・グラフィクス発生部226からは、生成された左眼および右眼のサブタイトル情報やグラフィクス情報のデータ(ビットマップデータ)が出力される。
 また、テキストデコーダ223では、デマルチプレクサ220で抽出されたテキストのTSパケットからテキストのエレメンタリーストリームが再構成され、さらに復号化処理が行われて、テキストデータが得られる。このテキストデータは立体画像用テキスト発生部227に供給される。この立体画像用テキスト発生部227には、視差ベクトルデコーダ225で得られた視差ベクトルも供給される。
 この立体画像用テキスト発生部227では、デコーダ223で得られたテキストスデータと、デコーダ225で得られた視差ベクトルに基づいて、左眼画像、右眼画像にそれぞれ重畳する左眼テキスト情報、右眼テキスト情報が生成される。この場合、左眼テキスト情報および右眼テキスト情報は同一のテキスト情報であるが、画像内の重畳位置が、例えば、左眼テキスト情報に対して、右眼テキスト情報は、視差ベクトルの水平方向成分だけ、水平方向にずれるようにされる。この立体画像用テキスト発生部227からは、生成された左眼テキスト情報および右眼テキスト情報のデータ(ビットマップデータ)が出力される。
 ビデオ重畳部228には、上述したビデオデコーダ221からの立体画像データ(左眼画像データ、右眼画像データ)の他に、サブタイトル・グラフィクス発生部226およびテキスト発生部227から出力されるデータが供給される。このビデオ重畳部228では、立体画像データ(左眼画像データ、右眼画像データ)に対して、サブタイトル・グラフィクス発生部226およびテキスト発生部227で発生されたデータが重畳され、表示用立体画像データVoutが得られる。この表示用立体画像データVoutは、映像信号処理回路205を介して、HDMI送信部206(図35参照)に、送信画像データとして供給される。
 また、オーディオデコーダ224では、デマルチプレクサ220で抽出されたオーディオのTSパケットからオーディオのエレメンタリーストリームが再構成され、さらに復号化処理が行われて、音声データが得られる。この音声データは、マルチチャネルスピーカコントロール部229に供給される。このマルチチャネルスピーカコントロール部229では、音声データに対して、例えば5.1chサラウンド等を実現するためのマルチチャネルスピーカの音声データを生成する処理、所定の音場特性を付与する処理等が施される。
 このマルチチャネルスピーカコントロール部229には、視差ベクトルデコーダ225で得られた視差ベクトルも供給される。そして、このマルチチャネルスピーカコントロール部229では、視差ベクトルに基づいて、マルチチャネルスピーカの出力が制御される。このマルチチャネルスピーカコントロール部229で得られるマルチチャネル音声データは、音声信号処理回路207を介してHDMI送信部206(図35参照)に、送信音声データとして供給される。
 [重畳情報への視差の付与]
 ここで、図36に示すビットストリーム処理部201の立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227における重畳情報への視差の付与について、さらに説明する。
 放送局100(図1参照)からは、例えば、図38、図39に示すように、画像データストリームと、サブタイトルあるいはグラフィクスのデータストリームと、テキストデータストリームと共に、視差ベクトル(図8、図27参照)を含む視差ベクトルストリームが送られてくる。この場合、符号化ビデオのGOP(Group Of Pictures)、あるいはI(Intra picture)ピクチャ、またはシーン等の各一定期間の開始タイミングに合わせて、各一定期間に対応した所定単位毎の視差ベクトルがまとめて送られてくる。所定単位としては、例えば、ピクチャ(フレーム)単位、あるいはピクチャの整数倍の単位等が考えられる。
 例えば、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227では、重畳情報の重畳期間において、所定単位毎に、重畳情報に、対応する視差ベクトル(情報情報)による視差が付与される。図38のサブタイトル(グラフィクス)データストリームおよびテキストデータストリームの部分に付されている矢印は、重畳情報に所定単位毎に視差が付与されるタイミングを表している。このように重畳情報に視差が付与される構成とすることで、重畳情報に付与する視差を、画像内容の変化に連動して動的に変化させることが可能となる。
 また、例えば、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227では、重畳情報の重畳期間において、所定単位毎に、重畳情報に、重畳期間分の視差ベクトルから選択された所定の視差ベクトル(視差情報)による視差が付与される。所定の視差ベクトルは、例えば、重畳期間分の視差情報のうち最大の視差を示す視差情報とされる。
 図39のサブタイトル(グラフィクス)データストリームおよびテキストデータストリームの部分に付されている矢印は、重畳情報に視差が付与されるタイミングを表している。この場合、重畳期間の最初に重畳情報に対して視差が付与され、以降はその視差が付与された重畳情報が、左眼画像および右眼画像に重畳すべき重畳情報として使用される。このように重畳情報に視差が付与される構成とすることで、画像内容の変化によらずに、重畳情報に、例えば、重畳情報の重畳期間中の最大視差を付与することが可能となる。
 「ビットストリーム処理部の他の構成例」
 図40に示すビットストリーム処理部201Aは、上述の図13に示す送信データ生成部110Aに対応させた構成となっている。この図40において、図36と対応する部分には同一符号を付し、その詳細説明は省略する。
 このビットストリーム処理部201Aは、図36に示すビットストリーム処理部201の視差ベクトルデコーダ225の代わりに、視差ベクトル取り出し部231が設けられる。この視差ベクトル取り出し部231は、ビデオデコーダ221を通じて得られるビデオのストリームから、そのユーザデータ領域に埋め込まれている視差ベクトルを取り出す。そして、この視差ベクトル取り出し部231は、取り出した視差ベクトルを、立体画像用サブタイトル・グラフィクス発生部226、立体画像用テキスト発生部227およびマルチチャネルスピーカコントロール部229に供給する。
 詳細説明は省略するが、この図40に示すビットストリーム処理部201Aのその他は、図36に示すビットストリーム処理部201と同様に構成され、同様に動作する。
 [重畳情報への視差の付与]
 ここで、図40に示すビットストリーム処理部201Aの立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227における重畳情報への視差の付与について、さらに説明する。
 放送局100(図1参照)からは、例えば、図41に示すように、画像データストリームと、サブタイトルあるいはグラフィクスのデータストリームと、テキストデータストリームが送られてくる。そして、視差ベクトル(図8、図27参照)は、画像データストリームに埋め込まれて送られてくる。この場合、画像データの所定単位毎、例えば符号化ビデオのピクチャ毎に、その所定単位に対応した視差ベクトルが、画像データストリームに埋め込まれて送られてくる。
 立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227では、重畳情報の重畳期間において、所定単位毎に、重畳情報に、対応する視差ベクトル(情報情報)による視差が付与される。図41のサブタイトル(グラフィクス)データストリームおよびテキストデータストリームの部分に付されている矢印は、重畳情報に所定単位毎に視差が付与されるタイミングを表している。このように重畳情報に視差が付与される構成とすることで、重畳情報に付与する視差を、画像内容の変化に連動して動的に変化させることが可能となる。
 また、放送局100(図1参照)からは、例えば、図42、図43に示すように、画像データストリームと、サブタイトルあるいはグラフィクスのデータストリームと、テキストデータストリームが送られてくる。そして、視差ベクトル(図8、図27参照)は、画像データストリームに埋め込まれて送られてくる。この場合、符号化ビデオのGOP、あるいはIピクチャ、またはシーン等の各一定期間の開始タイミングに合わせて、各一定期間に対応した所定単位毎の視差ベクトルがまとめて送られてくる。所定単位としては、例えば、ピクチャ(フレーム)単位、あるいはピクチャの整数倍の単位等が考えられる。
 例えば、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227では、重畳情報の重畳期間において、所定単位毎に、重畳情報に、対応する視差ベクトル(情報情報)による視差が付与される。図42のサブタイトル(グラフィクス)データストリームおよびテキストデータストリームの部分に付されている矢印は、重畳情報に所定単位毎に視差が付与されるタイミングを表している。このように重畳情報に視差が付与される構成とすることで、重畳情報に付与する視差を、画像内容の変化に連動して動的に変化させることが可能となる。
 また、例えば、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227では、重畳情報の重畳期間において、所定単位毎に、重畳情報に、重畳期間分の視差ベクトルから選択された所定の視差ベクトル(視差情報)による視差が付与される。所定の視差ベクトルは、例えば、所定の視差情報は、重畳期間分の視差情報のうち最大の視差を示す視差情報とされる。
 図43のサブタイトル(グラフィクス)データストリームおよびテキストデータストリームの部分に付されている矢印は、重畳情報に視差が付与されるタイミングを表している。この場合、重畳期間の最初に重畳情報に対して視差が付与され、以降はその視差が付与された重畳情報が、左眼画像および右眼画像に重畳すべき重畳情報として使用される。このように重畳情報に視差が付与される構成とすることで、画像内容の変化によらずに、重畳情報に、例えば、重畳情報の重畳期間中の最大視差を付与することが可能となる。
 「ビットストリーム処理部の他の構成例」
 図44に示すビットストリーム処理部201Bは、上述の図15に示す送信データ生成部110Bに対応させた構成となっている。この図44において、図36と対応する部分には同一符号を付し、その詳細説明は省略する。
 このビットストリーム処理部201Bは、図36に示すビットストリーム処理部201の視差ベクトルデコーダ225の代わりに、視差ベクトル取り出し部232が設けられる。この視差ベクトル取り出し部232は、サブタイトル・グラフィクスデコーダ222を通じて得られるサブタイトルあるいはグラフィクスのストリームから、それに埋め込まれている視差ベクトルを取り出す。そして、この視差ベクトル取り出し部232は、取り出した視差ベクトルを、立体画像用サブタイトル・グラフィクス発生部226、立体画像用テキスト発生部227およびマルチチャネルスピーカコントロール部229に供給する。
 詳細説明は省略するが、この図44に示すビットストリーム処理部201Bのその他は、図36に示すビットストリーム処理部201と同様に構成され、同様に動作する。なお、この図44のビットストリーム処理部201Bおける重畳情報への視差の付与については、上述した図40のビットストリーム処理部201Aおける重畳情報への視差の付与と同様である(図41~図43参照)。
 「ビットストリーム処理部の他の構成例」
 図45に示すビットストリーム処理部201Cは、上述の図21に示す送信データ生成部110Cに対応させた構成となっている。この図45において、図36と対応する部分には同一符号を付し、その詳細説明は省略する。
 このビットストリーム処理部201Cは、図36に示すビットストリーム処理部201から、視差ベクトルデコーダ225、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227が除かれたものである。この場合、視差ベクトルは、サブタイトル情報、グラフィクス情報、テキスト情報のデータに予め反映されている。
 送信されてくるサブタイトルデータやグラフィクスデータには、上述したように、左眼画像に重畳される左眼のサブタイトル情報やグラフィクス情報のデータ、および右眼画像に重畳される右眼のサブタイトル情報やグラフィクス情報のデータが含まれている。同様に、送信されてくるテキストデータには、上述したように、左眼画像に重畳される左眼テキスト情報のデータおよび右眼画像に重畳される右眼テキスト情報のデータが含まれている。したがって、視差ベクトルデコーダ225、立体画像用サブタイトル・グラフィクス発生部226および立体画像用テキスト発生部227は不要となる。
 なお、テキストデコーダ223で得られるテキストデータはコードデータ(キャラクタコード)であるので、これをビットマップデータに変換する処理は必要である。この処理は、例えば、テキストデコーダ223の最終段で行われるか、あるいはビデオ重畳部228の入力段で行われる。
 [テレビ受信機の説明]
 図1に戻って、テレビ受信機300は、セットトップボックス200からHDMIケーブル400を介して送られてくる立体画像データを受信する。このテレビ受信機300は、3D信号処理部301を有している。この3D信号処理部301は、立体画像データに対して、伝送方式に対応した処理(デコード処理)を行って、左眼画像データおよび右眼画像データを生成する。すなわち、この3D信号処理部301は、図2、図13、図15、図21、図22に示す送信データ生成部110,110A,110B,110C,110Dにおけるビデオフレーミング部112とは逆の処理を行う。そして、この3D信号処理部301は、立体画像データを構成する左眼画像データおよび右眼画像データを取得する。
 [テレビ受信機の構成例]
 テレビ受信機300の構成例を説明する。図46は、テレビ受信機300の構成例を示している。このテレビ受信機300は、3D信号処理部301と、HDMI端子302と、HDMI受信部303と、アンテナ端子304と、デジタルチューナ305と、ビットストリーム処理部306を有している。
 また、このテレビ受信機300は、映像・グラフィック処理回路307と、パネル駆動回路308と、表示パネル309と、音声信号処理回路310と、音声増幅回路311と、スピーカ312を有している。また、このテレビ受信機300は、CPU321と、フラッシュROM322と、DRAM323と、内部バス324と、リモコン受信部325と、リモコン送信機326を有している。
 アンテナ端子304は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ305は、アンテナ端子304に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)を出力する。
 ビットストリーム処理部306は、図35に示すセットトップボックス200のビットストリーム処理部201と同様の構成とされている。このビットストリーム処理部306は、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、重畳情報データ、視差ベクトル(視差情報)等を抽出する。重畳情報データは、サブタイトルデータ、グラフィクスデータ、テキストデータ(クローズド・キャプションデータを含む)等である。このビットストリーム処理部306は、立体画像データに対し、重畳情報データを合成し、表示用立体画像データを取得する。また、ビットストリーム処理部306は、音声データを出力する。
 HDMI受信部303は、HDMIに準拠した通信により、HDMIケーブル400を介してHDMI端子302に供給される非圧縮の画像データおよび音声データを受信する。このHDMI受信部303は、そのバージョンが例えばHDMI1.4とされており、立体画像データの取り扱いが可能な状態にある。このHDMI受信部303の詳細は後述する。
 3D信号処理部301は、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた立体画像データに対して、デコード処理を行って、左眼画像データおよび右眼画像データを生成する。この場合、3D信号処理部301は、ビットストリーム処理部306で得られた立体画像データに対しては、その伝送方式(図4参照)に対応したデコード処理を行う。また、3D信号処理部301は、HDMI受信部303で受信された立体画像データに対しては、後述するTMDS伝送データ構造に対応したデコード処理を行う。
 映像・グラフィック処理回路307は、3D信号処理部301で生成された左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データを生成する。また、映像・グラフィック処理回路307は、画像データに対して、必要に応じて、画質調整処理を行う。また、映像・グラフィック処理回路307は、画像データに対して、必要に応じて、メニュー、番組表などの重畳情報のデータを合成する。パネル駆動回路308は、映像・グラフィック処理回路307から出力される画像データに基づいて、表示パネル309を駆動する。表示パネル309は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。
 音声信号処理回路310は、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理を行う。音声増幅回路311は、音声信号処理回路310から出力される音声信号を増幅してスピーカ312に供給する。
 CPU321は、テレビ受信機300の各部の動作を制御する。フラッシュROM322は、制御ソフトウェアの格納およびデータの保管を行う。DRAM323は、CPU321のワークエリアを構成する。CPU321は、フラッシュROM322から読み出したソフトウェアやデータをDRAM323上に展開してソフトウェアを起動させ、テレビ受信機300の各部を制御する。
 リモコン受信部325は、リモコン送信機326から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU321に供給する。CPU321は、このリモコンコードに基づいて、テレビ受信機300の各部を制御する。CPU321、フラッシュROM322およびDRAM323は、内部バス324に接続されている。
 図46に示すテレビ受信機300の動作を簡単に説明する。HDMI受信部303では、HDMI端子302にHDMIケーブル400を介して接続されているセットトップボックス200から送信されてくる、立体画像データおよび音声データが受信される。このHDMI受信部303で受信された立体画像データは、3D信号処理部301に供給される。また、このHDMI受信部303で受信された音声データは音声信号処理回路310に供給される。
 アンテナ端子304に入力されたテレビ放送信号はデジタルチューナ305に供給される。このデジタルチューナ305では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のビットストリームデータ(トランスポートストリーム)が出力される。
 デジタルチューナ305から出力されるビットストリームデータは、ビットストリーム処理部306に供給される。このビットストリーム処理部306では、ビットストリームデータから立体画像データ(左眼画像データ、右眼画像データ)、音声データ、重畳情報データ、視差ベクトル(視差情報)等が抽出される。また、このビットストリーム処理部306では、立体画像データに対し、重畳情報(クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報)のデータが合成され、表示用立体画像データが生成される。
 ビットストリーム処理部306で生成される表示用立体画像データは、3D信号処理部301に供給される。また、このビットストリーム処理部306で得られる音声データは、音声信号処理回路310に供給される。
 3D信号処理部301では、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた立体画像データに対してデコード処理が行われて、左眼画像データおよび右眼画像データが生成される。この左眼画像データおよび右眼画像データは、映像・グラフィック処理回路307に供給される。この映像・グラフィック処理回路307では、左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データが生成され、必要に応じて、画質調整処理、重畳情報データの合成処理も行われる。
 この映像・グラフィック処理回路307で得られる画像データはパネル駆動回路308に供給される。そのため、表示パネル309により立体画像が表示される。例えば、表示パネル309に、左眼画像データによる左眼画像および右眼画像データによる右眼画像が交互に時分割的に表示される。視聴者は、表示パネル309の表示に同期して左眼シャッタおよび右眼シャッタが交互に開くシャッタメガネを装着することで、左眼では左眼画像のみを見ることができ、右眼では右眼画像のみを見ることができ、立体画像を知覚できる。
 また、音声信号処理回路310では、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理が施される。この音声データは、音声増幅回路311で増幅された後に、スピーカ312に供給される。そのため、スピーカ312から表示パネル309の表示画像に対応した音声が出力される。
 [HDMI送信部、HDMI受信部の構成例]
 図47は、図1の立体画像表示システム10における、セットトップボックス200のHDMI送信部(HDMIソース)206と、テレビ受信機300のHDMI受信部(HDMIシンク)303の構成例を示している。
 HDMI送信部206は、有効画像区間(以下、適宜、アクティブビデオ区間ともいう)において、非圧縮の1画面分の画像の画素データに対応する差動信号を、複数のチャネルで、HDMI受信部303に一方向に送信する。ここで、有効画像区間は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間及び垂直帰線区間を除いた区間である。また、HDMI送信部206は、水平帰線区間または垂直帰線区間において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、HDMI受信部303に一方向に送信する。
 HDMI送信部206とHDMI受信部303とからなるHDMIシステムの伝送チャネルには、以下の伝送チャネルがある。すなわち、HDMI送信部206からHDMI受信部303に対して、画素データおよび音声データを、ピクセルクロックに同期して、一方向にシリアル伝送するための伝送チャネルとしての、3つのTMDSチャネル#0乃至#2がある。また、ピクセルクロックを伝送する伝送チャネルとしての、TMDSクロックチャネルがある。
 HDMI送信部206は、HDMIトランスミッタ81を有する。トランスミッタ81は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである3つのTMDSチャネル#0,#1,#2で、HDMIケーブル400を介して接続されているHDMI受信部303に、一方向にシリアル伝送する。
 また、トランスミッタ81は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、3つのTMDSチャネル#0,#1,#2でHDMI受信部303に、一方向にシリアル伝送する。
 さらに、トランスミッタ81は、3つのTMDSチャネル#0,#1,#2で送信する画素データに同期したピクセルクロックを、TMDSクロックチャネルで、HDMIケーブル400を介して接続されているHDMI受信部303に送信する。ここで、1つのTMDSチャネル#i(i=0,1,2)では、ピクセルクロックの1クロックの間に、10ビットの画素データが送信される。
 HDMI受信部303は、アクティブビデオ区間において、複数のチャネルで、HDMI送信部206から一方向に送信されてくる、画素データに対応する差動信号を受信する。また、このHDMI受信部303は、水平帰線区間または垂直帰線区間において、複数のチャネルで、HDMI送信部206から一方向に送信されてくる、音声データや制御データに対応する差動信号を受信する。
 すなわち、HDMI受信部303は、HDMIレシーバ82を有する。このHDMIレシーバ82は、TMDSチャネル#0,#1,#2で、HDMI送信部206から一方向に送信されてくる、画素データに対応する差動信号と、音声データや制御データに対応する差動信号を受信する。この場合、HDMI送信部206からTMDSクロックチャネルで送信されてくるピクセルクロックに同期して受信する。
 HDMIシステムの伝送チャネルには、上述のTMDSチャネル#0乃至#2およびTMDSクロックチャネルの他に、DDC(Display Data Channel)83やCECライン84と呼ばれる伝送チャネルがある。DDC83は、HDMIケーブル400に含まれる図示しない2本の信号線からなる。DDC83は、HDMI送信部206が、HDMI受信部303から、E-EDID(Enhanced Extended Display Identification Data)を読み出すために使用される。
 すなわち、HDMI受信部303は、HDMIレシーバ81の他に、自身の性能(Configuration/capability)に関する性能情報であるE-EDIDを記憶している、EDID ROM(Read Only Memory)85を有している。HDMI送信部206は、例えば、CPU211(図35参照)からの要求に応じて、HDMIケーブル400を介して接続されているHDMI受信部303から、E-EDIDを、DDC83を介して読み出す。
 HDMI送信部206は、読み出したE-EDIDをCPU211に送る。CPU211は、このE-EDIDを、フラッシュROM212あるいはDRAM213に格納する。CPU211は、E-EDIDに基づき、HDMI受信部303の性能の設定を認識できる。例えば、CPU211は、HDMI受信部303を有するテレビ受信機300が立体画像データの取り扱いが可能か否か、可能である場合はさらにいかなるTMDS伝送データ構造に対応可能であるか等を認識する。
 CECライン84は、HDMIケーブル400に含まれる図示しない1本の信号線からなり、HDMI送信部206とHDMI受信部303との間で、制御用のデータの双方向通信を行うために用いられる。このCECライン84は、制御データラインを構成している。
 また、HDMIケーブル400には、HPD(Hot Plug Detect)と呼ばれるピンに接続されるライン(HPDライン)86が含まれている。ソース機器は、当該ライン86を利用して、シンク機器の接続を検出することができる。なお、このHPDライン86は双方向通信路を構成するHEAC-ラインとしても使用される。また、HDMIケーブル400には、ソース機器からシンク機器に電源を供給するために用いられるライン(電源ライン)87が含まれている。さらに、HDMIケーブル400には、ユーティリティライン88が含まれている。このユーティリティライン88は双方向通信路を構成するHEAC+ラインとしても使用される。
 図48は、図47のHDMIトランスミッタ81とHDMIレシーバ82の構成例を示している。HDMIトランスミッタ81は、3つのTMDSチャネル#0,#1,#2にそれぞれ対応する3つのエンコーダ/シリアライザ81A,81B,81Cを有する。そして、エンコーダ/シリアライザ81A,81B,81Cのそれぞれは、そこに供給される画像データ、補助データ、制御データをエンコードし、パラレルデータからシリアルデータに変換して、差動信号により送信する。ここで、画像データが、例えばR,G,Bの3成分を有する場合、B成分はエンコーダ/シリアライザ81Aに供給され、G成分はエンコーダ/シリアライザ81Bに供給され、R成分はエンコーダ/シリアライザ81Cに供給される。
 また、補助データとしては、例えば、音声データや制御パケットがあり、制御パケットは、例えば、エンコーダ/シリアライザ81Aに供給され、音声データは、エンコーダ/シリアライザ81B,81Cに供給される。さらに、制御データとしては、1ビットの垂直同期信号(VSYNC)、1ビットの水平同期信号(HSYNC)、および、それぞれ1ビットの制御ビットCTL0,CTL1,CTL2,CTL3がある。垂直同期信号および水平同期信号は、エンコーダ/シリアライザ81Aに供給される。制御ビットCTL0,CTL1はエンコーダ/シリアライザ81Bに供給され、制御ビットCTL2,CTL3はエンコーダ/シリアライザ81Cに供給される。
 エンコーダ/シリアライザ81Aは、そこに供給される画像データのB成分、垂直同期信号および水平同期信号、並びに補助データを、時分割で送信する。すなわち、エンコーダ/シリアライザ81Aは、そこに供給される画像データのB成分を、固定のビット数である8ビット単位のパラレルデータとする。さらに、エンコーダ/シリアライザ81Aは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#0で送信する。
 また、エンコーダ/シリアライザ81Aは、そこに供給される垂直同期信号および水平同期信号の2ビットのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#0で送信する。さらに、エンコーダ/シリアライザ81Aは、そこに供給される補助データを4ビット単位のパラレルデータとする。そして、エンコーダ/シリアライザ81Aは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#0で送信する。
 エンコーダ/シリアライザ81Bは、そこに供給される画像データのG成分、制御ビットCTL0,CTL1、並びに補助データを、時分割で送信する。すなわち、エンコーダ/シリアライザ81Bは、そこに供給される画像データのG成分を、固定のビット数である8ビット単位のパラレルデータとする。さらに、エンコーダ/シリアライザ81Bは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#1で送信する。
 また、エンコーダ/シリアライザ81Bは、そこに供給される制御ビットCTL0,CTL1の2ビットのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#1で送信する。さらに、エンコーダ/シリアライザ81Bは、そこに供給される補助データを4ビット単位のパラレルデータとする。そして、エンコーダ/シリアライザ81Bは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#1で送信する。
 エンコーダ/シリアライザ81Cは、そこに供給される画像データのR成分、制御ビットCTL2,CTL3、並びに補助データを、時分割で送信する。すなわち、エンコーダ/シリアライザ81Cは、そこに供給される画像データのR成分を、固定のビット数である8ビット単位のパラレルデータとする。さらに、エンコーダ/シリアライザ81Cは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#2で送信する。
 また、エンコーダ/シリアライザ81Cは、そこに供給される制御ビットCTL2,CTL3の2ビットのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#2で送信する。さらに、エンコーダ/シリアライザ81Cは、そこに供給される補助データを4ビット単位のパラレルデータとする。そして、エンコーダ/シリアライザ81Cは、そのパラレルデータをエンコードし、シリアルデータに変換して、TMDSチャネル#2で送信する。
 HDMIレシーバ82は、3つのTMDSチャネル#0,#1,#2にそれぞれ対応する3つのリカバリ/デコーダ82A,82B,82Cを有する。そして、リカバリ/デコーダ82A,82B,82Cのそれぞれは、TMDSチャネル#0,#1,#2で差動信号により送信されてくる画像データ、補助データ、制御データを受信する。さらに、リカバリ/デコーダ82A,82B,82Cのそれぞれは、画像データ、補助データ、制御データを、シリアルデータからパラレルデータに変換し、さらにデコードして出力する。
 すなわち、リカバリ/デコーダ82Aは、TMDSチャネル#0で差動信号により送信されてくる画像データのB成分、垂直同期信号および水平同期信号、補助データを受信する。そして、リカバリ/デコーダ82Aは、その画像データのB成分、垂直同期信号および水平同期信号、補助データを、シリアルデータからパラレルデータに変換し、デコードして出力する。
 リカバリ/デコーダ82Bは、TMDSチャネル#1で差動信号により送信されてくる画像データのG成分、制御ビットCTL0,CTL1、補助データを受信する。そして、リカバリ/デコーダ82Bは、その画像データのG成分、制御ビットCTL0,CTL1、補助データを、シリアルデータからパラレルデータに変換し、デコードして出力する。
 リカバリ/デコーダ82Cは、TMDSチャネル#2で差動信号により送信されてくる画像データのR成分、制御ビットCTL2,CTL3、補助データを受信する。そして、リカバリ/デコーダ82Cは、その画像データのR成分、制御ビットCTL2,CTL3、補助データを、シリアルデータからパラレルデータに変換し、デコードして出力する。
 図49は、TMDS伝送データの構造例を示している。この図49は、TMDSチャネル#0,#1,#2において、横×縦が1920ピクセル×1080ラインの画像データが伝送される場合の、各種の伝送データの区間を示している。
 HDMIの3つのTMDSチャネル#0,#1,#2で伝送データが伝送されるビデオフィールド(Video Field)には、伝送データの種類に応じて、3種類の区間が存在する。この3種類の区間は、ビデオデータ区間(Video Data period)、データアイランド区間(Data Islandperiod)、およびコントロール区間(Control period)である。
 ここで、ビデオフィールド区間は、ある垂直同期信号の立ち上がりエッジ(active edge)から次の垂直同期信号の立ち上がりエッジまでの区間である。このビデオフィールド区間は、水平ブランキング期間(horizontal blanking)、垂直ブランキング期間(verticalblanking)、並びに、アクティブビデオ区間(Active Video)に分けられる。このアクティブビデオ区間は、ビデオフィールド区間から、水平ブランキング期間および垂直ブランキング期間を除いた区間である
 ビデオデータ区間は、アクティブビデオ区間に割り当てられる。このビデオデータ区間では、非圧縮の1画面分の画像データを構成する1920ピクセル(画素)×1080ライン分の有効画素(Active pixel)のデータが伝送される。
 データアイランド区間およびコントロール区間は、水平ブランキング期間および垂直ブランキング期間に割り当てられる。このデータアイランド区間およびコントロール区間では、補助データ(Auxiliary data)が伝送される。すなわち、データアイランド区間は、水平ブランキング期間と垂直ブランキング期間の一部分に割り当てられている。このデータアイランド区間では、補助データのうち、制御に関係しないデータである、例えば、音声データのパケット等が伝送される。
 コントロール区間は、水平ブランキング期間と垂直ブランキング期間の他の部分に割り当てられている。このコントロール区間では、補助データのうちの、制御に関係するデータである、例えば、垂直同期信号および水平同期信号、制御パケット等が伝送される。
 図50は、HDMI端子のピン配列の一例を示している。図50に示すピン配列はタイプA(type-A)と呼ばれている。TMDSチャネル#iの差動信号であるTMDS Data#i+とTMDS Data#i-は差動線である2本のラインにより伝送される。この2本のラインは、TMDS Data#i+が割り当てられているピン(ピン番号が1,4,7のピン)と、TMDS Data#i-が割り当てられているピン(ピン番号が3,6,9のピン)に接続される。
 また、制御用のデータであるCEC信号が伝送されるCECライン84は、ピン番号が13であるピンに接続される。また、E-EDID等のSDA(Serial Data)信号が伝送されるラインは、ピン番号が16であるピンに接続される。SDA信号の送受信時の同期に用いられるクロック信号であるSCL(Serial Clock)信号が伝送されるラインは、ピン番号が15であるピンに接続される。上述のDDC83は、SDA信号が伝送されるラインおよびSCL信号が伝送されるラインにより構成される。
 また、上述したようにソース機器がシンク機器の接続を検出するためのHPDライン(HEAC-ライン)86は、ピン番号が19であるピンに接続される。また、ユーティリティライン(HEAC+ライン)88は、ピン番号が14であるピンに接続される。また、上述したように電源を供給するためのライン87は、ピン番号が18であるピンに接続される。
 [E-EDID構造]
 上述したように、HDMI送信部206は、例えば、CPU211(図35参照)からの要求に応じて、HDMIケーブル400を介して接続されているHDMI受信部303から、E-EDIDを、DDC83を介して読み出す。そして、CPU211は、このE-EDIDに基づき、HDMI受信部303の性能の設定、例えば立体画像データの取り扱いが可能か否か等を認識する。
 図51は、E-EDIDのデータ構造例を示している。このE-EDIDは、基本ブロックと拡張ブロックとからなっている。基本ブロックには、先頭に、“E-EDID1.3 Basic Structure”で表されるE-EDID1.3の規格で定められたデータが配置されている。基本ブロックには、続いて“Preferred timing”で表される従来のEDIDとの互換性を保つためのタイミング情報が配置されている。また、基本ブロックには、続いて、“2nd timing”で表される従来のEDIDとの互換性を保つための、“Preferredtiming”とは異なるタイミング情報が配置されている。
 また、基本ブロックには、“2nd timing”に続いて、“Monitor NAME”で表される表示装置の名前を示す情報が配置されている。基本ブロックには、続いて、“Monitor Range Limits”で表される、アスペクト比が4:3および16:9である場合についての表示可能な画素数を示す情報が配置されている。
 拡張ブロックの先頭には、“Short Video Descriptor”が配置されている。これは、表示可能な画像サイズ(解像度)、フレームレート、インターレースであるかプログレッシブであるかを示す情報である。続いて、“Short Audio Descriptor”が配置されている。これは、再生可能な音声コーデック方式、サンプリング周波数、カットオフ帯域、コーデックビット数などの情報である。続いて、“Speaker Allocation”で表される左右のスピーカに関する情報が配置されている。
 また、拡張ブロックには、“Speaker Allocation”に続いて、“Vender Specific”で表されるメーカごとに固有に定義されたデータが配置されている。拡張ブロックには、続いて、“3rd timing”で表される従来のEDIDとの互換性を保つためのタイミング情報が配置されている。拡張ブロックには、さらに続いて、“4th timing”で表される従来のEDIDとの互換性を保つためのタイミング情報が配置されている。
 図52は、Vender Specific領域(HDMI Vendor Specific DataBlock)のデータ構造例を示している。このVender Specific領域には、1バイトのブロックである第0ブロック乃至第Nブロックが設けられている。
 第0ブロックには、“Vendor-Specific tag code(=3)”で表されるデータ“VenderSpecific”のデータ領域を示すヘッダが配置される。また、この第0ブロックには、“Length(=N)”で表されるデータ“Vender Specific”の長さを示す情報が配置される。また、第1ブロック乃至第3ブロックには、“24bit IEEE Registration Identifier(0x000C03)LSB first”で表されるHDMI(R)用として登録された番号“0x000C03“を示す情報が配置される。さらに、第4ブロックおよび第5ブロックには、”A“、”B“、”C“、および”D“のそれぞれにより表される、24bitのシンク機器の物理アドレスを示す情報が配置される。
 第6ブロックには、“Supports-AI”で表される、シンク機器が対応している機能を示すフラグが配置されている。また、この第6ブロックには、“DC-48bit”、“DC-36bit”、および“DC-30bit”のそれぞれで表される、1ピクセル当たりのビット数を指定する情報のそれぞれが配置されている。また、この第6ブロックには、“DC-Y444”で表される、シンク機器がYCbCr4:4:4の画像の伝送に対応しているかを示すフラグが配置されている。さらに、この第6ブロックには、“DVI-Dual”で表される、シンク機器がデュアルDVI(Digital VisualInterface)に対応しているかを示すフラグが配置されている。
 また、第7ブロックには、“Max-TMDS-Clock”で表されるTMDSのピクセルクロックの最大の周波数を示す情報が配置される。また、第8ブロックの第6ビット、第7ビットには、“Latency”で表される映像と音声の遅延情報の有無を示すフラグが配置されている。また、第8ブロックの第5ビットには、“HDMI_Video_present”で表される追加のHDMIビデオフォーマット(3D、4k×2k)の取り扱いが可能か否かを示すフラグが配置されている。
 また、第9ブロックには、“Video Latency”で表される、プログレッシブの映像の遅延時間データが配置され、第10ブロックには、“Audio Latency”で表される、プログレッシブの映像に付随する音声の遅延時間データが配置される。また、第11ブロックには、“Interlaced Video Latency”で表されるインターレースの映像の遅延時間データが配置されている。さらに、第12ブロックには、“Interlaced Audio Latency”で表される、インターレースの映像に付随する音声の遅延時間データが配置されている。
 また、第13ブロックの第7ビットには、“3D_present”で表される3D画像データの取り扱いが可能か否かを示すフラグが配置されている。また、第14ブロックの第7ビットから第5ビットには、“HDMI_VIC_LEN”で表される、図示しない第15ブロック以降に配置される必須(mandatory)な3Dデータ構造の他に取り扱い可能なデータ構造を示すブロックのサイズ情報が配置されている。また、第14ブロックの第4ビットから第0ビットには、“HDMI_3D_LEN”で表される、図示しない第15ブロック以降に配置される取り扱い可能な4k×2kのビデオフォーマットを示すブロックのサイズ情報が配置されている。
 [立体画像データのTMDS伝送データ構造]
 図53は、立体画像データのTMDS伝送データ構造の一つであるフレームパッキング(Frame packing)方式の3Dビデオフォーマット(3D Video Format)を示している。この3Dビデオフォーマットは、立体画像データとして、プログレッシブ方式の左眼(L)および右眼(R)の画像データを伝送するためのフォーマットである。
 この3Dビデオフォーマットでは、左眼(L)および右眼(R)の画像データとして、1920×1080p、1080×720pのピクセルフォーマットの画像データの伝送が行われる。なお、図53には、左眼(L)画像データおよび右眼(R)画像データが、それぞれ、1920ライン×1080ピクセルである例を示している。
 この3Dビデオフォーマットにより、垂直同期信号により区切られる、水平ブランキング期間(Hblank)、垂直ブランキング期間(Vblank)およびアクティブビデオ区間(Hactive×Vactive)を含むビデオフィールド区間を単位とする伝送データが生成される。この3Dビデオフォーマットにおいて、アクティブビデオ区間は、2つのアクティブビデオ領域(Active video)と、それらの間に1つのアクティブスペース領域(Activespace)を有している。第1のアクティブビデオ領域に左眼(L)画像データが配され、第2のアクティブビデオ領域に右眼(R)画像データが配される。
 図54は、立体画像データのTMDS伝送データ構造の一つであるラインオルタネイティブ(Line alternative)方式の3Dビデオフォーマット(3D VideoFormat)を示している。この3Dビデオフォーマットは、立体画像データとして、プログレッシブ方式の左眼(L)および右眼(R)の画像データを伝送するためのフォーマットである。この3Dビデオフォーマットでは、左眼(L)および右眼(R)の画像データとして、1920×1080pのピクセルフォーマットの画像データの伝送が行われる。
 この3Dビデオフォーマットにより、垂直同期信号により区切られる、水平ブランキング期間(Hblank)、垂直ブランキング期間(2×Vblank)およびアクティブビデオ区間((Hactive×2Vactive)を含むビデオフィールド区間を単位とする伝送データが生成される。この3Dビデオフォーマットにおいて、アクティブビデオ区間には、左眼画像データの1ライン分と右眼画像データの1ライン分とが交互に配置される。
 図55は、立体画像データのTMDS伝送データ構造の一つであるサイド・バイ・サイド(side-bay-side)(Full)方式の3Dビデオフォーマット(3D VideoFormat)を示している。この3Dビデオフォーマットは、立体画像データとして、プログレッシブ方式の左眼(L)および右眼(R)の画像データを伝送するためのフォーマットである。この3Dビデオフォーマットでは、左眼(L)および右眼(R)の画像データとして、1920×1080pのピクセルフォーマットの画像データの伝送が行われる。
 この3Dビデオフォーマットにより、垂直同期信号により区切られる、水平ブランキング期間(2×Hblank)、垂直ブランキング期間(Vblank)およびアクティブビデオ区間((2Hactive×Vactive)を含むビデオフィールド区間を単位とする伝送データが生成される。この3Dビデオフォーマットにおいて、アクティブビデオ区間には、水平方向の前半に左眼(L)画像データが配され、水平方向の後半に右眼(R)画像データが配される。
 なお、詳細説明は省略するが、HDMI1.4では、上述の図53~図55に示す3Dビデオフォーマットの他にも、立体画像データのTMDS伝送データ構造としての3Dビデオフォーマットが定義されている。例えば、フレームパッキング(Frame packing for interlaced format)方式、フィールドオルタネイティブ(Field alternative)方式、サイド・バイ・サイド(side-bay-side)(Half)方式等である。
 [セットトップボックスとテレビ受信機の他の構成例]
 図35に示すセットトップボックス200においては、HDMIインタフェースにより、ベースバンドの立体画像データおよび音声データをテレビ受信機300に送信する構成となっている。しかし、セットトップボックスからテレビ受信機に、ビットストリーム処理部201で使用されている視差ベクトル(図8、図27参照)の全部または一部を視差情報セットとして、HDMIインタフェースにより送信して利用することも考えられる。
 図56は、視差情報セットを送信するセットトップボックス200Aの構成例を示している。この図56において、図35と対応する部分には同一符号を付して示し、適宜、その詳細説明を省略する。このセットトップボックス200Aにおいては、ビットストリーム処理部201より視差情報セットがHDMI送信部206に供給される。そして、HDMI送信部206により、立体画像データおよび音声データと共に、この視差情報セットが、HDMI端子202からHDMIケーブル400に送出される。このセットトップボックス200Aのその他については、図35に示すセットトップボックス200と同様に構成され、同様に動作する。
 また、図57は、視差情報セットを受信して利用するテレビ受信機300Aの構成例を示している。この図57において、図46と対応する部分には同一符号を付して示し、適宜、その詳細説明を省略する。このテレビ受信機300Aにおいては、HDMI受信部303で受信された視差情報セットが映像・グラフィック処理回路307に供給される。映像・グラフィック処理回路307では、左眼画像および右眼画像に貼り付けるメニュー、番組表などの同一の重畳情報に、視差情報セットに含まれる視差ベクトルに基づいて視差が付与される。
 すなわち、このテレビ受信機300Aにおいては、左眼画像および右眼画像に重畳される同一の重畳情報(メニュー、番組表等)として、画像内の各物体の遠近感に応じて視差調整が施されたものを用いることができ、重畳情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。このテレビ受信機300Aのその他については、図46に示すテレビ受信機300と同様に構成され、同様に動作する。
 図58は、セットトップボックス200Aからテレビ受信機300Aに送信される視差情報セットの内容の一例を示している。この視差情報セットには、N個の視差ベクトルの情報セットが含まれている。各情報セットは、16ビットのブロックID(ID_Block(i))と、16ビットの水平方向の視差ベクトル(Disparity_Vector_Horizontal)により構成されている。
 ここで、例えば、図59に示すように、画像(ピクチャ)領域を9分割して得られる各ブロックBK0~BK8の視差ベクトルが含まれる視差情報セットの場合、最初に最も値の大きな視差ベクトル、この例ではブロックBK4の視差ベクトルが配置され、その後に、残りのブロックの視差ベクトルが順次配置される。
 [HDMIでの視差情報セットの送信方法]
 視差情報セットをHDMIインタフェースで送信する方法として、例えば、以下の(1)、(2)の方法が考えられる。
(1)HDMI Vendor Specific InfoFrame を利用する方法
(2)フレームパッキング方式等の3Dビデオフォーマット(3D Video Format)のアクティブスペース(Active Space)を利用する方法
 最初に、(1)のHDMI Vendor Specific InfoFrame を利用する方法について説明する。この方法では、HDMI Vendor Specific InfoFrame paketにおいて、HDMI_Video_Format=“010”かつ3D_Meta_present=1とされて、Vendor SpecificInfoFrame extensionが指定される。その場合、3D_Metadata_typeは、未使用の、例えば、“010”と定義され、視差情報セット(Disparrity Set)の情報が指定される。
 図60は、HDMI Vendor Specific InfoFrame のパケット構造を示している。このHDMI Vendor Specific InfoFrameについては、CEA-861-Dに定義されているので、詳細説明は省略する。
 第4バイト(PB4)の第7ビットから第5ビットに、画像データの種類を示す3ビットの情報「HDMI_Video_Format」が配置されている。画像データが3D画像データである場合、この3ビットの情報は「010」とされる。また、このように画像データが3D画像データである場合、第5バイト(PB5)の第7ビットから第4ビットに、TMDS伝送データ構造を示す4ビットの情報「3D_Structure」が配置される。例えば、フレームパッキング方式(図53参照)の場合、この4ビットの情報は、「0000」とされる。また、例えば、ラインオルタネイティブ方式(図54参照)の場合、この4ビットの情報は、「0010」とされる。また、例えば、サイド・バイ・サイド(Full)方式(図55参照)の場合、この4ビットの情報は、「0011」とされる。
 また、第5バイト(PB5)の第3ビットに、「3D_Meta_present」が配置され、Vendor SpecificInfoFrame extensionを指定する場合、この1ビットは「1」とされる。また、第7バイト(PB7)の第7ビットから第5ビットに、「3D_Metadata_type」が配置されている。視差情報セット(DisparritySet)の情報を指定する場合、この3ビットの情報は、未使用の、例えば、“010”とされる。また、第7バイト(PB7)の第4バイトから第0バイトに、「3D_Metadata_length」が配置されている。この5ビットの情報により、以降に配置される3D_Metadata領域の長さが示される。
 視差情報セットを構成する各視差ベクトルの情報セットは、上述の図58に示すように、16ビットのブロックID(ID_Block(i))と、16ビットの水平方向の視差ベクトル(Disparity_Vector_Horizontal)により構成されている。例えば、1920×1080の画像(ピクチャ)領域を16×16画素のブロックで分割すると、ブロック数は8100となり、個々のブロックは13ビットでID表現できる。また、1920×1080の画サイズにおいて、水平方向の視差を画素数で表現する場合、符号付きで11ビットあれば一般には問題ないことがわかる。
 そのため、各視差ベクトルの情報セットを配置するために、第1~第3の3バイトが使用される。第1バイトに「ID_Block(i)」の上位8ビットが配置され、第2のバイトの第7ビットから第3ビットに「ID_Block(i)」の下位5ビットが配置される。また、第2バイトの第2ビットから第0ビットに「Disparity_Vector_Horizontal」の上位3ビットが配置され、第3バイトに「Disparity_Vector_Horizontal」の下位8ビットが配置される。上述の図59に示すように9ブロックの視差ベクトルを送信するためには、3バイト×9=27バイトの領域が使用される。
 視差情報セットを上位の階層からいずれの階層までを含むかは、3D_Metadata_lengthによって指定することが可能である。あるいは、3D_Metadata_typeの空きビットに定義を追加し、3D_Metadata_type=“010”では第1階層(画面全体における最大視差)を、3D_Metadata_type=“110”では第2階層(複数リージョンごとのリージョン内最大視差)を挿入するように指定することも可能である。
 次に、(2)のアクティブスペース(Active Space)を利用する方法について説明する。この方法では、図61にHDMIVendor Specific InfoFrame のパケット構造を示すように、現状ではReservedbitとなっている第5バイト(PB5)の第2ビットに、「ActiveSpace Enable」が定義され、この1ビットの情報が“1”とされる。その上で、現状ではReservedとされているアクティブスペース領域を用いて、新たに情報エリアが定義され、そこに視差情報セットが配置される。
 アクティブスペース領域は、左眼画像データおよび右眼画像データが配置されるアクティブビデオ領域と共に、アクティブビデオ区間を構成している。ここで、アクティブビデオ領域は主映像領域を構成し、アクティブスペース領域は補助映像領域を構成している。アクティブスペース領域は、ビデオの画サイズにより変動するが、1920×1080の画サイズの場合には、1フレームあたり45ライン分(86400バイト)の容量を持つ。
 1920×1080の画像(ピクチャ)領域を16×16画素のブロックで分割すると、ブロック数は8100となる。この場合、上述したように、各視差ベクトルの情報セットを配置するために3バイトが使用される。すなわち、「ID_Block(i)」に13ビットが使用され、「Disparity_Vector_Horizontal」に11ビットが使用される。そのため、全てのブロックの視差ベクトルを含む視差情報セットを配置するためには、3バイト×8100=24300バイトの容量があればよい。上述したようにアクティブスペース領域は86400バイトの容量を持っている。そのため、このアクティブスペース領域を利用することで、ビデオのフレーム毎に、全てのブロックの視差ベクトルを含む視差情報セットを送信できる。
 なお、ブロックのサイズを小さくしていき、視差ベクトル(視差情報)の空間密度をより高めることも可能である。その場合、1フレームのアクティブスペース領域で伝送可能な容量を越えてしまう場合がある。その場合には、連結情報を用いて、次フレームのアクティブスペース領域と連結されることを明示する。
 図62は、アクティブスペース領域に配置される視差情報セットの構造を示している。第0バイトに、3ビットの「Active_space_info_Type」と、3ビットの「Block_Size」と、2ビットの「Connect_Info」の情報が配置される。第1バイトおよび第2バイトに、以降の視差情報セットが配置される領域の長さを示す16ビットの「Data_Length」の上位8ビットおよび下位8ビットが配置される。
 各視差ベクトルの情報セットは各3バイトの領域を使用して配置される。第1バイトに「ID_Block(i)」の上位8ビットが配置され、第2のバイトの第7ビットから第3ビットに「ID_Block(i)」の下位5ビットが配置される。また、第2バイトの第2ビットから第0ビットに「Disparity_Vector_Horizontal」の上位3ビットが配置され、第3バイトに「Disparity_Vector_Horizontal」の下位8ビットが配置される。
 図63は、図62に示す視差情報セット構造の各情報の内容を示している。「Active_space_info_Type」の情報は、視差情報セットであることを示す識別情報である。「Block_Size」の情報は、視差ベクトル(視差情報)の空間密度を示すブロックサイズを示している。“00”はブロックサイズが1×1画素、つまりピクセル(画素)であることを示す。“01”は、ブロックサイズが16×16画素であることを示す。“10”はブロックサイズが32×32画素であることを示す。
 「Connect_Info」の情報は、アクティブスペース領域の連結情報を示している。“00”は、このアクティブスペース領域に配置されている視差情報セットで完結していることを示す。“01”は、このアクティブスペース領域に配置されている視差情報セットが、後のアクティブスペース領域に配置される視差情報セットと連結されることを示す。“10”は、このアクティブスペース領域に配置されている視差情報セットが、前のアクティブスペース領域に配置される視差情報セットと連結されることを示す。“11”は、このアクティブスペース領域に配置されている視差情報セットが、前後のアクティブスペース領域に配置される視差情報セットと連結されることを示す。
 なお、連結される最後のアクティブスペースが終了するビデオフレームのタイミングは、対象となる画像データを送るフレームよりも少なくとも同時か、それよりも早い時点で送信終了するよう配置することが、シンク側での対応の点で重要である。
 図64(a)は、「Block_Size」が“01”、“10”の場合の各視差ベクトルの情報セットの配置例を示している。この場合には、上述したように、各視差ベクトルの情報セットは各3バイトの領域を使用して配置される。図64(b)は、「Block_Size」が“00”の場合の各視差ベクトルの情報セットの配置例を示している。この場合には、ピクチャの全画素をスキャン順(映像画素順)に羅列することで、「ID_Block(i)」を省略できる。すなわち、この場合、各視差ベクトルの情報セットは各2バイトの領域を使用して配置される。
 なお、この場合、符号付き11ビットの「Disparity_Vector_Horizontal」の情報を、符号付き8ビットに正規化することで、図64(c)に示すように、各視差ベクトルの情報セットは各1バイトの領域を使用して配置でき、伝送帯域を半分にできる。
 なお、上述では、セットトップボックス200Aからテレビ受信機300Aに送信される視差情報セットとして、所定数の視差ベクトル(視差情報)と、各視差ベクトルが属する画像領域上の位置を示す位置情報(ブロックID)が含まれている、第1の種類を示した。しかし、この視差情報セットとして、画像領域の分割情報と、各分割領域を代表する視差情報とが含まれている、第2の種類も考えられる。
 最初に、HDMI Vendor Specific InfoFrame を利用して、第1の種類または第2の種類の視差情報セットを、選択的に送信する方法について説明する。この方法では、HDMI Vendor Specific InfoFrame paketにおいて、HDMI_Video_Format=“010”かつ3D_Meta_present=1とされて、Vendor SpecificInfoFrame extensionが指定される。その場合、3D_Metadata_typeは、未使用の、例えば、“010”と定義され、視差情報セット(Disparrity Set)の情報が指定される。
 図65、図66は、HDMI Vendor Specific InfoFrame のパケット構造を示している。このHDMI Vendor Specific InfoFrameについては、CEA-861-Dに定義されているので、詳細説明は省略する。
 第4バイト(PB4)の第7ビットから第5ビットに、画像データの種類を示す3ビットの情報「HDMI_Video_Format」が配置されている。画像データが3D画像データである場合、この3ビットの情報は「010」とされる。また、このように画像データが3D画像データである場合、第5バイト(PB5)の第7ビットから第4ビットに、TMDS伝送データ構造を示す4ビットの情報「3D_Structure」が配置される。例えば、フレームパッキング方式(図53参照)の場合、この4ビットの情報は、「0000」とされる。また、例えば、ラインオルタネイティブ方式(図54参照)の場合、この4ビットの情報は、「0010」とされる。また、例えば、サイド・バイ・サイド(Full)方式(図55参照)の場合、この4ビットの情報は、「0011」とされる。
 また、第5バイト(PB5)の第3ビットに、「3D_Meta_present」が配置され、Vendor SpecificInfoFrame extensionを指定する場合、この1ビットは「1」とされる。また、第7バイト(PB7)の第7ビットから第5ビットに、「3D_Metadata_type」が配置されている。視差情報セット(DisparitySet)の情報を指定する場合、この3ビットの情報は、未使用の、例えば、“010”とされる。また、第7バイト(PB7)の第4バイトから第0バイトに、「3D_Metadata_length」が配置されている。この5ビットの情報により、以降に配置される3D_Metadata領域の長さが示される。
 また、第7+1バイト(PB7+1)の第7ビットに、「Disparity_Info_type(1bit)」が配置されている。この情報は、視差情報セットが第1の種類であるか第2の種類であるかを示す。図67に示すように、「Disparity_Info_type」が“1”であるとき、視差情報セットが第1の種類であることを示す。この場合、視差情報セットには、所定数の視差ベクトル(視差情報)と、各視差ベクトルが属する画像領域上の位置を示す位置情報(ブロックID)が含まれている。また、「Disparity_Info_type」が“0”であるとき、視差情報セットが第2の種類であることを示す。この場合、視差情報セットには、画像領域の分割情報と、各分割領域を代表する視差情報とが含まれている。
 また、第7+1バイトの第6ビットから第4ビットに、「Dimension(3bits)」が配置されている。この情報は、画像(ピクチャ)領域の分割情報である。図67および図68(a)に示すように、「Dimension」が“000”であるとき、画像(ピクチャ)領域は分割されておらず、この画像(ピクチャ)領域を代表する1つの視差ベクトル(視差情報)が送信されることを示す。
 また、図67および図68(b)に示すように、「Dimension」が“001”であるとき、画像(ピクチャ)領域は4分割されており、この各分割領域を代表する4個の視差ベクトル(視差情報)が送信されることを示す。この場合、左上の領域の視差ベクトルが最初で、右下の領域の視差ベクトルが最後となるように配置される(図68(b)の0~3の順)。
 また、図67および図68(c)に示すように、「Dimension」が“010”であるとき、画像(ピクチャ)領域は9分割されており、この各分割領域を代表する9個の視差ベクトル(視差情報)が送信されることを示す。この場合、左上の領域の視差ベクトルが最初で、右下の領域の視差ベクトルが最後となるように配置される(図68(c)の0~8の順)。
 また、図67および図68(d)に示すように、「Dimension」が“011”であるとき、画像(ピクチャ)領域は16分割されており、この各分割領域を代表する16個の視差ベクトル(視差情報)が送信されることを示す。この場合、左上の領域の視差ベクトルが最初で、右下の領域の視差ベクトルが最後となるように配置される(図68(d)の0~15の順)。
 また、第7+1バイト(PB7+1)の第3ビットに、「DPstrt(1bit)」が配置されている。この情報は、現在のフレームの視差情報セットの連続情報を示す。図67に示すように、「DPstrt」が“0”であるとき、現在のフレームの視差情報セットは、前のフレームの視差情報セットから連続したものであることを示す。また、図67に示すように、「DPstrt」が“1”であるとき、現在のフレームの視差情報セットは、現在のフレームから始まったものであることを示す。
 また、第7+1バイト(PB7+1)の第2ビットに、「ASP(1bit)」が配置されている。この情報は、視差情報セットがアクティブスペース領域を利用して送信されるか否かを示す。「ASP」が“1”であるとき、視差情報セットがアクティブスペース領域を利用して送信されることを示す。なお、ここでは、視差情報セットがHDMI Vendor Specific InfoFrame を利用して送信されるものであり、「ASP」が“0”とされる。
 また、第7+1バイト(PB7+1)の第1ビットに、「VB(1bit)」が配置されている。この情報は、視差情報セットが、HDMI VendorSpecific InfoFrame パケット以外を利用して、画像データのブランキング期間で送信されるか否かを示す。「VB」が“1”であるとき、視差情報セットがHDMI Vendor SpecificInfoFrame パケット以外を利用して画像データのブランキング期間で送信されることを示す。なお、ここでは、視差情報セットがHDMI Vendor Specific InfoFrame を利用して送信されるものであり、「VB」が“0”とされる。
 第7+2バイト以降に、実際の視差情報セットが配置される。図65は、「Disparity_Info_type」が“0”の場合を示している。視差情報セットとして、第2の種類の視差情報セットが配置されている。各分割領域を代表する水平方向の視差ベクトル(視差情報)が順次配置されている。この場合、各視差ベクトルは8ビットの情報とされる。ここで、「Dimension」が“000”,“001”,“010”,“011”であるとき、それぞれ、1個、4個、9個、16個の視差ベクトル(視差情報)が配置される。
 図66は、「Disparity_Info_type」が“1”の場合を示している。視差情報セットとして、第1の種類の視差情報セットが配置されている。位置情報(ブロックID)および視差ベクトルのセットが順次配置されている。例えば、1920×1080の画像(ピクチャ)領域を16×16画素のブロックで分割すると、ブロック数は8100となり、個々のブロックは13ビットでID表現できる。
 ここで、各視差ベクトルのセットは、図69(d)に示すように、13ビットのブロックID(ID_Block(i))と、8ビットの水平方向の視差ベクトル(Disparity_Vector_Horizontal)により構成される。そのため、各視差ベクトルのセットを配置するために、第1~第3の3バイトが使用される。第1バイトに「ID_Block(i)」の上位8ビットが配置され、第2のバイトの第7ビットから第3ビットに「ID_Block(i)」の下位5ビットが配置される。第3バイトに「Disparity_Vector_Horizontal」が配置される。
 視差ベクトルのセットの個数は、視差情報セットに、どの階層を含むかによる。例えば、図69(a)に示す階層だけを含む場合には、1セットとなり、そのセットの視差ベクトルは、例えば、図69(d)に示す最下層の各領域(ブロック)で検出された視差ベクトルのうち最大視差を示すものとされる。そして、そのセットのブロックIDは、その最大視差を示す視差ベクトルが属する最下層の領域位置を示すものとされる。
 同様に、例えば、図69(b)に示す階層のみを含む場合には各領域に対応した4セットとなり、図69(c)に示す階層のみを含む場合には各領域に対応した24セットとなる。この場合、各セットの視差ベクトルは、各領域内に含まれる最下層の各領域(ブロック)で検出された視差ベクトルのうち最大視差を示すものとされる。そして、その各セットのブロックIDは、その最大視差を示す視差ベクトルが属する最下層の領域位置を示すものとされる。
 なお、図65、図66に示すHDMI Vendor Specific InfoFrame のパケット構造は、「Disparity_Info_type」の情報で、このパケットで送信される視差情報セットが第1の種類か第2の種類かを示している。しかし、最初からこのパケットで送信される視差情報セットが第1の種類あるいは第2の種類のみに限られている場合には、この「Disparity_Info_type」の情報は不要となる。
 図70は、送信される視差情報セットが第2の種類のみに限られている場合における、HDMI Vendor Specific InfoFrame のパケット構造を示している。この場合、第7+1バイト(PB7+1)の第7ビットは、リザーブ(Reserved(0)とされる。
 次に、アクティブスペース(Active Space)を利用して、第1の種類または第2の種類の視差情報セットを、選択的に送信する方法について説明する。この方法では、図71にHDMI Vendor Specific InfoFrame のパケット構造を示すように、現状ではReserved bitとなっている第7+1バイト(PB7+1)の第2ビットに、「ASP(1bit)」が定義され、この1ビットの情報が“1”とされる。その上で、現状ではReservedとされているアクティブスペース領域を用いて、新たに情報エリアが定義され、そこに視差情報セットが配置される。
 なお、図71のHDMI Vendor Specific InfoFrame のパケット構造において、第7バイトには、上述した図65、図66に示すHDMI Vendor Specific InfoFrame のパケット構造と同様の情報が配置されている。
 図72は、「Disparity_Info_type」が“0”の場合、つまり視差情報セットとして第2の種類の視差情報セットを送信する場合における、アクティブスペース領域に配置される視差情報セットの構造を示している。この場合、視差情報セットとして、各分割領域を代表する水平方向の視差ベクトル(視差情報)が順次配置される。第0バイトに、3ビットの「Active_space_info_Type」と、2ビットの「Connect_Info」の情報が配置される。また、第1バイトおよび第2バイトに、以降の視差情報セットが配置される領域の長さを示す16ビットの「Data_Length」の上位8ビットおよび下位8ビットが配置される。
 図73は、「Disparity_Info_type」が“1”の場合、つまり視差情報セットとして第1の種類の視差情報セットを送信する場合における、アクティブスペース領域に配置される視差情報セットの構造を示している。この場合、視差情報セットとして、位置情報(ブロックID)および視差ベクトルのセットが順次配置される。
 第0バイトに、3ビットの「Active_space_info_Type」と、3ビットの「Block_Size」と、2ビットの「Connect_Info」の情報が配置される。第1バイトおよび第2バイトに、以降の視差情報セットが配置される領域の長さを示す16ビットの「Data_Length」の上位8ビットおよび下位8ビットが配置される。
 各視差ベクトルの情報セットは各3バイトの領域を使用して配置される。第1バイトに「ID_Block(i)」の上位8ビットが配置され、第2のバイトの第7ビットから第3ビットに「ID_Block(i)」の下位5ビットが配置される。第3バイトに「Disparity_Vector_Horizontal」が配置される。
 図74は、図72、図73に示す視差情報セット構造の各情報の内容を示している。「Active_space_info_Type」の情報は、視差情報セットであることを示す識別情報である。「Block_Size」の情報は、視差ベクトル(視差情報)の空間密度を示すブロックサイズを示している。“00”はブロックサイズが1×1画素、つまりピクセル(画素)であることを示す。“01”は、ブロックサイズが16×16画素であることを示す。“10”はブロックサイズが32×32画素であることを示す。
 「Connect_Info」の情報は、アクティブスペース領域の連結情報を示している。“00”は、現在のアクティブスペース領域に配置されている視差情報セットは、現在のアクティブスペース領域から始まっていることを示す。“01”は、このアクティブスペース領域に配置されている視差情報セットが、後のアクティブスペース領域に配置される視差情報セットと連結されることを示す。“10”は、このアクティブスペース領域に配置されている視差情報セットが、前のアクティブスペース領域に配置される視差情報セットと連結されることを示す。“11”は、このアクティブスペース領域に配置されている視差情報セットが、前後のアクティブスペース領域に配置される視差情報セットと連結されることを示す。
 なお、連結される最後のアクティブスペースが終了するビデオフレームのタイミングは、対象となる画像データを送るフレームよりも少なくとも同時か、それよりも早い時点で送信終了するよう配置することが、シンク側での対応の点で重要である。
 図75(a)は、視差情報セットが第1の種類であって、「Block_Size」が“01”、“10”の場合の各視差ベクトルの情報セットの配置例を示している。この場合には、上述したように、各視差ベクトルの情報セットは各3バイトの領域を使用して配置される。図75(b)は、視差情報セットが第1の種類であって、「Block_Size」が“00”の場合の各視差ベクトルの情報セットの配置例を示している。この場合には、ピクチャの全画素をスキャン順(映像画素順)に羅列することで、「ID_Block(i)」を省略できる。すなわち、この場合、各視差ベクトルの情報セットは各2バイトの領域を使用して配置される。
 なお、図71に示すHDMI Vendor Specific InfoFrame のパケット構造は、「Disparity_Info_type」の情報で、アクティブスペース領域で送信される視差情報セットが第1の種類か第2の種類かを示している。しかし、最初からアクティブスペース領域で送信される視差情報セットが第1の種類あるいは第2の種類のみに限られている場合には、この「Disparity_Info_type」の情報は不要となる。その場合、図76に示すように、第7+1バイト(PB7+1)の第7ビットは、リザーブ(Reserved(0)とされる。
 上述したように、図1に示す立体画像表示システム10においては、左眼画像および右眼画像の一方に対する他方の視差情報に基づいて、左眼画像および右眼画像に重畳する同一の重畳情報(クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報など)に視差が付与される。そのため、左眼画像および右眼画像に重畳される同一の重畳情報として、画像内の各物体(オブジェクト)の遠近感に応じて視差調整が施されたものを用いることができ、重畳情報の表示において、画像内の各物体との間の遠近感の整合性を維持することが可能となる。
 <2.変形例>
 なお、上述実施の形態においては、立体画像表示システム10が、放送局100、セットトップボックス200およびテレビ受信機300で構成されているものを示した。しかし、テレビ受信機300は、図46に示すように、セットトップボックス200内のビットストリーム処理部201と同等に機能するビットストリーム処理部201を備えている。したがって、図77に示すように、放送局100およびテレビ受信機300で構成される立体画像表示システム10Aも考えられる。
 また、上述実施の形態においては、立体画像データを含むデータストリーム(ビットストリームデータ)が放送局100から放送される例を示した。しかし、この発明は、このデータストリームがインターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できることは勿論である。
 また、上述実施の形態においては、セットトップボックス200Aからテレビ受信機300Aに視差情報セットを送信する方法として、HDMI Vendor Specific InfoFrame を利用する方法、アクティブスペース(Active Space)を利用する方法を説明した。その他に、HPDライン86(HEAC-ライン)およびユーティリティライン88(HEAC+ライン)で構成される双方向通信路を通じて送信することも考えられる。
 また、上述実施の形態においては、セットトップボックス200,200Aと、テレビ受信機300,300Aとが、HDMIのデジタルインタフェースで接続されるものを示している。しかし、これらが、HDMIのデジタルインタフェースと同様のデジタルインタフェース(有線の他に無線も含む)で接続される場合においても、この発明を適用できることは勿論である。
 また、上述実施の形態においては、セットトップボックス200Aからテレビ受信機300Aに、ビットストリーム処理部201で使用されている視差ベクトル(図8、図27参照)の全部または一部を視差情報セットとして、HDMIインタフェースにより送信する例を示した。しかし、このようにHDMIインタフェースを通じて視差情報セットを送信する技術に関しては、その他のソース機器およびシンク機器の組み合わせにも応用できることは勿論である。例えば、ソース機器としてはBDやDVD等のディスクプレーヤ、さらにはゲーム機なども考えられ、シンク機器としてはモニタ装置、プロジェクタ装置なども考えられる。
 なお、この出願は、特願2009-153686号を参照している。
 この発明は、クローズド・キャプション情報、サブタイトル情報、グラフィクス情報、テキスト情報等の重畳情報を画像に重畳して表示する立体画像表示システム等に適用できる。
 10,10A・・・立体画像表示システム、100・・・放送局、110,110A~110D・・・送信データ生成部、111L,111R・・・カメラ、112・・・ビデオフレーミング部、113・・・ビデオエンコーダ、113a・・・ストリームフォーマッタ、114・・・視差ベクトル検出部、115・・・視差ベクトルエンコーダ、116・・・マイクロホン、117・・・オーディオエンコーダ、118・・・サブタイトル・グラフィクス発生部、119・・・サブタイトル・グラフィクスエンコーダ、119a・・・ストリームフォーマッタ、120・・・テキスト発生部、121・・・テキストエンコーダ、122・・・マルチプレクサ、124・・・サブタイトル・グラフィクス処理部、125・・・テキスト処理部、130・・・データ取り出し部、130a・・・データ記録媒体、131~133・・・切換スイッチ、視差情報セット作成部、200,200A・・・セットトップボックス、201,201A,201B,201C・・・ビットストリーム処理部、202・・・HDMI端子、203・・・アンテナ端子、204・・・デジタルチューナ、205・・・映像信号処理回路、206・・・HDMI送信部、207・・・音声信号処理回路、211・・・CPU、212・・・フラッシュROM、213・・・DRAM、214・・・内部バス、215・・・リモコン受信部、216・・・リモコン送信機、220・・・デマルチプレクサ、221・・・ビデオデコーダ、222・・・サブタイトル・グラフィクスデコーダ、223・・・テキストデコーダ、224・・・オーディオデコーダ、225・・・視差ベクトルデコーダ、226・・・立体画像用サブタイトル・グラフィクス発生部、227・・・立体画像用テキスト発生部、228・・・ビデオ重畳部、229・・・マルチチャネルスピーカコントロール部、231・・・視差ベクトル抽出部、232・・・視差ベクトル取り出し検出部、300,300A・・・テレビ受信機、301・・・3D信号処理部、302・・・HDMI端子、303・・・HDMI受信部、304・・・アンテナ端子、305・・・デジタルチューナ、306・・・ビットストリーム処理部、307・・・映像・グラフィック処理回路、308・・・パネル駆動回路、309・・・表示パネル、310・・・音声信号処理回路、311・・・音声増幅回路、312・・・スピーカ、321・・・CPU、322・・・フラッシュROM、323・・・DRAM、324・・・内部バス、325・・・リモコン受信部、326・・・リモコン送信機、400・・・HDMIケーブル

Claims (10)

  1.  左眼画像データおよび右眼画像データを含む立体画像データと、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットとを、伝送路を介して、外部機器に送信するデータ送信部
     を備える立体画像データ送信装置。
  2.  上記データ送信部は、
     上記画像データを、複数チャネルで、差動信号により、上記伝送路を介して、上記外部機器に送信し、
     上記画像データのブランキング期間に上記視差情報セットを挿入することで、該視差情報を上記外部機器に送信する
     請求項1に記載の立体画像データ送信装置。
  3.  上記視差情報セットは、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する上記画像領域上の位置を示す位置情報とを含む
     請求項2に記載の立体画像データ送信装置。
  4.  上記視差情報セットは、画像領域の分割情報と、各分割領域を代表する視差情報とを含む
     請求項2に記載の立体画像データ送信装置。
  5.  上記視差情報セットには、該視差情報セットが第1の種類であるか第2の種類であるかを示す識別情報が付加されており、
     上記視差情報セットは、
     上記識別情報が上記第1の種類を示すとき、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する上記画像領域上の位置を示す位置情報とを含み、
     上記識別情報が上記第2の種類を示すとき、上記画像領域の分割情報と、各分割領域を代表する視差情報とを含む
     請求項2に記載の立体画像データ送信装置。
  6.  上記データ送信部は、
     垂直同期信号により区切られる、水平ブランキング期間、垂直ブランキング期間およびアクティブビデオ区間を含むビデオフィールド区間を単位とする伝送データを生成する伝送データ生成部と、
     上記伝送データ生成部で生成された伝送データを、複数チャネルで、差動信号により、上記伝送路を介して、上記外部機器に送信する伝送データ送信部とを有し、
     上記アクティブビデオ区間は、主映像領域および補助映像領域を有し、
     上記伝送データ生成部は、上記主映像領域に画像データを配し、上記補助映像領域に、上記主映像領域に配される画像データに関連した上記視差情報セットを配する
     請求項1に記載の立体画像データ送信装置。
  7.  上記視差情報セットは、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する上記画像領域上の位置を示す位置情報とを含む
     請求項6に記載の立体画像データ送信装置。
  8.  上記視差情報セットは、画像領域の分割情報と、各分割領域を代表する視差情報とを含む
     請求項6に記載の立体画像データ送信装置。
  9.  上記視差情報セットには、該視差情報セットが第1の種類であるか第2の種類であるかを示す識別情報が付加されており、
     上記視差情報セットは、
     上記識別情報が上記第1の種類を示すとき、画像領域上の所定数の位置に対応した視差情報と、各視差情報が属する上記画像領域上の位置を示す位置情報とを含み、
     上記識別情報が上記第2の種類を示すとき、上記画像領域の分割情報と、各分割領域を代表する視差情報とを含む
     請求項6に記載の立体画像データ送信装置。
  10.  左眼画像データおよび右眼画像データを含む立体画像データと、左眼画像および右眼画像の一方に対する他方の視差情報を含む視差情報セットとを、伝送路を介して、外部機器に送信するデータ送信ステップ
     を有する立体画像データ送信方法。
PCT/JP2010/060584 2009-06-29 2010-06-22 立体画像データ送信装置および立体画像データ送信方法 WO2011001856A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201080003175.8A CN102210155B (zh) 2009-06-29 2010-06-22 发送立体图像数据的立体图像数据发送装置和方法
EP10794026.4A EP2451170A4 (en) 2009-06-29 2010-06-22 STEREOSCOPIC IMAGE DATA TRANSMITTER AND METHOD FOR TRANSMITTING STEREOSCOPIC IMAGE DATA
BRPI1004292A BRPI1004292A2 (pt) 2009-06-29 2010-06-22 aparelho e método de transmissão de dados de imagem estéreo
US13/058,910 US20110149034A1 (en) 2009-06-29 2010-06-22 Stereo image data transmitting apparatus and stereo image data transmittimg method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009153686 2009-06-29
JP2009-153686 2009-06-29
JP2010010536A JP5446913B2 (ja) 2009-06-29 2010-01-20 立体画像データ送信装置および立体画像データ送信方法
JP2010-010536 2010-01-20

Publications (1)

Publication Number Publication Date
WO2011001856A1 true WO2011001856A1 (ja) 2011-01-06

Family

ID=43410933

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/060584 WO2011001856A1 (ja) 2009-06-29 2010-06-22 立体画像データ送信装置および立体画像データ送信方法

Country Status (9)

Country Link
US (1) US20110149034A1 (ja)
EP (1) EP2451170A4 (ja)
JP (1) JP5446913B2 (ja)
KR (1) KR20120029370A (ja)
CN (1) CN102210155B (ja)
BR (1) BRPI1004292A2 (ja)
RU (1) RU2011105398A (ja)
TW (1) TW201130288A (ja)
WO (1) WO2011001856A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2509327A1 (en) * 2011-04-08 2012-10-10 Tektronix, Inc. Semi-automatic 3D stereoscopic disparity cursor
JP2012231404A (ja) * 2011-04-27 2012-11-22 Toshiba Corp 画像処理装置及び画像処理方法
WO2013105401A1 (ja) * 2012-01-13 2013-07-18 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2013129158A1 (ja) * 2012-03-01 2013-09-06 ソニー株式会社 送信装置、送信方法および受信装置
WO2019203207A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 受信装置、受信方法、送信装置および送信方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842170B2 (en) * 2010-06-01 2014-09-23 Intel Corporation Method and apparaus for making intelligent use of active space in frame packing format
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
US9571811B2 (en) 2010-07-28 2017-02-14 S.I.Sv.El. Societa' Italiana Per Lo Sviluppo Dell'elettronica S.P.A. Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
US9001886B2 (en) 2010-11-22 2015-04-07 Cisco Technology, Inc. Dynamic time synchronization
US20120176540A1 (en) * 2011-01-10 2012-07-12 Cisco Technology, Inc. System and method for transcoding live closed captions and subtitles
JP2013051660A (ja) * 2011-08-04 2013-03-14 Sony Corp 送信装置、送信方法および受信装置
WO2013046281A1 (ja) 2011-09-30 2013-04-04 パナソニック株式会社 映像処理装置及び映像処理方法
KR101874494B1 (ko) 2011-11-25 2018-07-06 삼성전자주식회사 특징점의 삼차원 위치 계산 장치 및 방법
EP2800385A4 (en) * 2011-12-28 2015-11-25 Sony Corp BINOCULAR DISPARITY SETTING APPARATUS, IMAGE PROCESSING APPARATUS, AND FRAME FORMAT
WO2013108531A1 (ja) * 2012-01-19 2013-07-25 ソニー株式会社 受信装置、受信方法および電子機器
CN103959769B (zh) 2012-02-02 2016-12-14 太阳专利托管公司 用于使用视差信息的3d媒体数据产生、编码、解码和显示的方法和装置
BR112013026086A2 (pt) 2012-02-16 2020-08-11 Sony Corporation aparelho de transmissão, método de transmissão e aparelho de recepção
WO2014034463A1 (ja) * 2012-08-27 2014-03-06 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US9654762B2 (en) 2012-10-01 2017-05-16 Samsung Electronics Co., Ltd. Apparatus and method for stereoscopic video with motion sensors
CN105637186B (zh) 2013-07-17 2018-07-03 托尔发动机股份有限公司 ***循环发动机中的线轴梭子跨接阀
EP3097280B1 (en) 2014-01-20 2020-09-02 Tour Engine, Inc. Variable volume transfer shuttle capsule and valve mechanism
WO2016116928A1 (en) 2015-01-19 2016-07-28 Tour Engine, Inc. Split cycle engine with crossover shuttle valve
TWI568255B (zh) * 2015-08-20 2017-01-21 天鈺科技股份有限公司 串列周邊介面裝置及訊號傳輸方法
EP3646605A4 (en) * 2017-06-30 2020-11-25 Sharp Kabushiki Kaisha SYSTEMS AND METHODS FOR SIGNALING INFORMATION ASSOCIATED WITH CONSTITUTIVE IMAGES IN VIRTUAL REALITY APPLICATIONS
JP2019029875A (ja) * 2017-07-31 2019-02-21 パナソニックIpマネジメント株式会社 画像処理装置、カメラ装置及び画像処理方法
CN107872670A (zh) * 2017-11-17 2018-04-03 暴风集团股份有限公司 一种3d视频编解码方法、装置、服务器、客户端及***
WO2020097569A1 (en) 2018-11-09 2020-05-14 Tour Engine, Inc. Transfer mechanism for a split-cycle engine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274125A (ja) * 2003-03-05 2004-09-30 Sony Corp 画像処理装置および方法
JP2005006114A (ja) 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
JP2009100412A (ja) * 2007-10-19 2009-05-07 Panasonic Corp 映像伝送装置、映像送信装置および映像受信装置
JP2009135686A (ja) * 2007-11-29 2009-06-18 Mitsubishi Electric Corp 立体映像記録方法、立体映像記録媒体、立体映像再生方法、立体映像記録装置、立体映像再生装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11113028A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 3次元映像表示装置
WO2006111893A1 (en) * 2005-04-19 2006-10-26 Koninklijke Philips Electronics N.V. Depth perception
RU2372741C2 (ru) * 2006-05-16 2009-11-10 Сони Корпорейшн Система передачи данных, устройство передачи, устройство приема, способ передачи данных и программа
CN101453662B (zh) * 2007-12-03 2012-04-04 华为技术有限公司 立体视频通信终端、***及方法
KR100955578B1 (ko) * 2007-12-18 2010-04-30 한국전자통신연구원 스테레오스코픽 콘텐츠 장면 재생 방법 및 그 장치
WO2010064853A2 (en) * 2008-12-02 2010-06-10 Lg Electronics Inc. 3d caption display method and 3d display apparatus for implementing the same
US9438879B2 (en) * 2009-02-17 2016-09-06 Koninklijke Philips N.V. Combining 3D image and graphical data
KR20100138806A (ko) * 2009-06-23 2010-12-31 삼성전자주식회사 자동 3차원 영상 포맷 변환 방법 및 그 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274125A (ja) * 2003-03-05 2004-09-30 Sony Corp 画像処理装置および方法
JP2005006114A (ja) 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
JP2009100412A (ja) * 2007-10-19 2009-05-07 Panasonic Corp 映像伝送装置、映像送信装置および映像受信装置
JP2009135686A (ja) * 2007-11-29 2009-06-18 Mitsubishi Electric Corp 立体映像記録方法、立体映像記録媒体、立体映像再生方法、立体映像記録装置、立体映像再生装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2451170A4

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2509327A1 (en) * 2011-04-08 2012-10-10 Tektronix, Inc. Semi-automatic 3D stereoscopic disparity cursor
US8941717B2 (en) 2011-04-08 2015-01-27 Tektronix, Inc. Semi-automatic 3D stereoscopic disparity cursor
JP2012231404A (ja) * 2011-04-27 2012-11-22 Toshiba Corp 画像処理装置及び画像処理方法
WO2013105401A1 (ja) * 2012-01-13 2013-07-18 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2013129158A1 (ja) * 2012-03-01 2013-09-06 ソニー株式会社 送信装置、送信方法および受信装置
JPWO2013129158A1 (ja) * 2012-03-01 2015-07-30 ソニー株式会社 送信装置、送信方法および受信装置
US9451234B2 (en) 2012-03-01 2016-09-20 Sony Corporation Transmitting apparatus, transmitting method, and receiving apparatus
US9924151B2 (en) 2012-03-01 2018-03-20 Sony Corporation Transmitting apparatus for transmission of related information of image data
WO2019203207A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 受信装置、受信方法、送信装置および送信方法
CN111971955A (zh) * 2018-04-19 2020-11-20 索尼公司 接收装置、接收方法、发送装置和发送方法

Also Published As

Publication number Publication date
KR20120029370A (ko) 2012-03-26
JP5446913B2 (ja) 2014-03-19
RU2011105398A (ru) 2012-08-20
CN102210155A (zh) 2011-10-05
JP2011030183A (ja) 2011-02-10
CN102210155B (zh) 2014-06-04
US20110149034A1 (en) 2011-06-23
EP2451170A4 (en) 2013-12-11
EP2451170A1 (en) 2012-05-09
BRPI1004292A2 (pt) 2019-09-24
TW201130288A (en) 2011-09-01

Similar Documents

Publication Publication Date Title
JP5446913B2 (ja) 立体画像データ送信装置および立体画像データ送信方法
JP5531972B2 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP5407957B2 (ja) 立体画像データ送信装置および立体画像データ受信装置
WO2011001855A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP5402715B2 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP5407968B2 (ja) 立体画像データ送信装置および立体画像データ受信装置
TWI452892B (zh) Image data transmission device, control method and program
JP5521486B2 (ja) 立体画像データ送信装置および立体画像データ送信方法
WO2011001854A1 (ja) 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP5633259B2 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
JP2011166757A (ja) 送信装置、送信方法および受信装置
WO2012063675A1 (ja) 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置
JP2011010255A (ja) 立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法
JP2013176141A (ja) 立体画像データ受信装置および立体画像データ受信方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080003175.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2010794026

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13058910

Country of ref document: US

Ref document number: 2011105398

Country of ref document: RU

Ref document number: 1073/DELNP/2011

Country of ref document: IN

ENP Entry into the national phase

Ref document number: 20117003745

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10794026

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI1004292

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110214