WO2013161442A1 - 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法 - Google Patents

画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法 Download PDF

Info

Publication number
WO2013161442A1
WO2013161442A1 PCT/JP2013/057559 JP2013057559W WO2013161442A1 WO 2013161442 A1 WO2013161442 A1 WO 2013161442A1 JP 2013057559 W JP2013057559 W JP 2013057559W WO 2013161442 A1 WO2013161442 A1 WO 2013161442A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
information
container
video stream
stream
Prior art date
Application number
PCT/JP2013/057559
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP13782073.4A priority Critical patent/EP2725804A4/en
Priority to US14/126,995 priority patent/US20140111612A1/en
Priority to CN201380001729.4A priority patent/CN103621075A/zh
Publication of WO2013161442A1 publication Critical patent/WO2013161442A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability

Definitions

  • the present technology relates to an image data transmission device, an image data transmission method, an image data reception device, and an image data reception method, and in particular, an image data transmission device that transmits image data for stereoscopic image display, scalable encoded image data, and the like.
  • an image data transmission device that transmits image data for stereoscopic image display, scalable encoded image data, and the like.
  • H.264 has been used as a video encoding method.
  • H.264 / AVC Advanced Video Video Coding
  • H.264 H.264 / MVC Multi-view Video Coding
  • MVC employs a mechanism that encodes multi-view image data together.
  • multi-view image data is encoded as one base-view image data and one or more non-baseview image data.
  • H.264 H.264 / SVC Scalable Video Coding
  • SVC Scalable Video Coding
  • a base video stream obtained by encoding base view image data as one picture and a predetermined number of extended video streams each obtained by obtaining non-base view image data as one picture are transcoded. It is known to transmit in a port stream. Further, in the case of this MVC, it is also known that a base video stream obtained by encoding base view image data and a predetermined number of non-base view image data as one stream is transmitted as a transport stream as a container. It has been.
  • the bit rate varies independently for each video stream, but the entire transport stream is required to perform rate control according to system requirements such as a constant bit rate or a variable bit rate.
  • the encoded data of the image data of each view is, for example, an access unit (access unit).
  • access unit access unit
  • the purpose of this technology is to make it possible to reliably and easily identify the case where the substream structure is composed of a single video stream and the case where the substream structure is composed of a plurality of streams before decoding on the reception side. This is for the convenience of the processing on the side.
  • a container of a predetermined format having a base video stream including first image data and a predetermined number of second image data related to the first image data is transmitted by the transmission unit.
  • the container may be a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • the information insertion unit inserts specific information at an arrangement position of information related to the base video stream of the container layer.
  • the specific information may be a descriptor having information of the first image data and a predetermined number of second image data.
  • the container is a transport stream
  • the information insertion unit inserts the descriptor into the descriptor portion of the video elementary loop corresponding to the base video stream under the program map table. , May be.
  • the first image data is image data of a base view for displaying a stereoscopic image
  • the second image data is image data of a view other than the base view for displaying a stereoscopic image.
  • the descriptor may be an MVC extension descriptor having information on each view.
  • the first image data is image data of the lowest hierarchy constituting the scalable coded image data
  • the second image data is the lowest hierarchy constituting the scalable encoded image data.
  • the descriptor may be an SVC extension descriptor having image data information of each layer.
  • the container when transmitting a container of a predetermined format having a base video stream including the first image data and a predetermined number of second image data related to the first image data, the container The specific information is inserted into the arrangement position of the information related to the base video stream of the layer.
  • this container has a base video stream that includes the first image data and a predetermined number of second image data associated with the first image data. It becomes possible. On the receiving side, it is possible to accurately determine the configuration, decoding, and display mode of the buffer memory at the time of decoding before decoding.
  • a transmitting unit that transmits a container of a predetermined format including a base video stream including first image data and a predetermined number of extended video streams each including a predetermined number of second image data related to the first image data.
  • the image data transmitting apparatus includes an information insertion unit that inserts specific information at an arrangement position of information related to the predetermined number of extended video streams in the container layer.
  • a container having a predetermined format including a base video stream including first image data and a predetermined number of extended video streams each including a predetermined number of second image data related to the first image data is transmitted.
  • the container may be a transport stream (MPEG-2 TS) adopted in the digital broadcasting standard.
  • the container may be MP4 used for Internet distribution or the like, or a container of other formats.
  • the information insertion unit inserts specific information at an arrangement position of information related to the base video stream of the container layer.
  • the specific information may be a descriptor having information on the first image data and a predetermined number of second image data.
  • the container is a transport stream
  • the information insertion unit inserts the descriptor into the descriptor portion of the video elementary loop corresponding to the base video stream under the program map table. , May be.
  • the first image data is image data of a base view for displaying a stereoscopic image
  • the second image data is image data of a view other than the base view for displaying a stereoscopic image.
  • the descriptor may be an MVC extension descriptor having information on each view.
  • the first image data is image data of the lowest hierarchy constituting the scalable coded image data
  • the second image data is the lowest hierarchy constituting the scalable encoded image data.
  • the descriptor may be an SVC extension descriptor having image data information of each layer.
  • a predetermined video stream including a base video stream including first image data and a predetermined number of extended video streams each including a predetermined number of second image data related to the first image data.
  • specific information is inserted into the arrangement positions of information related to a predetermined number of extended video streams in the container layer.
  • the container includes a base video stream including the first image data and a predetermined number of extended video streams each including a predetermined number of second image data related to the first image data. It is possible to reliably and easily identify having a base video stream including. On the receiving side, it is possible to accurately determine the configuration, decoding, and display mode of the buffer memory at the time of decoding before decoding.
  • a receiving unit for receiving a container in a predetermined format comprising: a processing unit that processes a video stream included in the container based on the presence and insertion position of specific information in the container layer and acquires a predetermined number of image data associated with each other .
  • a container of a predetermined format is received by the receiving unit. Then, based on the presence and insertion position of specific information in the container layer, the processing unit processes the video stream included in the container, and acquires a predetermined number of image data related to each other.
  • the predetermined number of image data may constitute image data for stereoscopic image display or scalable encoded data image data.
  • the processing unit processes the base video stream to perform predetermined processing.
  • a number of image data may be acquired.
  • the processing unit includes the extended video stream and the container. The base video stream may be processed to obtain a predetermined number of image data.
  • the video stream included in the container is processed based on the presence and insertion position of specific information in the container layer, and a predetermined number of image data associated with each other is obtained.
  • the configuration, decoding, and display mode of the buffer memory at the time of decoding can be accurately determined before decoding, and image data can be acquired satisfactorily.
  • the present technology it is possible to reliably and easily identify the case where the substream configuration includes a single video stream and the case where the substream configuration includes a plurality of streams before decoding on the reception side.
  • 2D two-dimensional
  • Embodiment 2 modes for carrying out the present technology (hereinafter referred to as “embodiments”) will be described. The description will be given in the following order. 1. Embodiment 2. FIG. Modified example
  • FIG. 1 shows a configuration example of an image transmission / reception system 10 as an embodiment.
  • the image transmission / reception system 10 includes a broadcasting station 100 and a receiver 200.
  • the broadcasting station 100 transmits a transport stream TS as a container on a broadcast wave.
  • the transport stream TS When transmitting a two-dimensional (2D) image, the transport stream TS includes a video stream including two-dimensional image data.
  • the video stream is transmitted as an AVC (2D) video elementary stream, for example.
  • the transport stream TS may include one video stream including base view image data for displaying a stereoscopic image and image data of a predetermined number of views other than the base view. is there. That is, this is a case where the substream configuration forms a single video stream.
  • a video stream obtained by encoding image data of a base view and a predetermined number of non-base views as one picture is transmitted as an MVC video elementary stream (base video stream).
  • a descriptor having specific information for example, information of image data of each view, is inserted into an arrangement position of information related to the base video stream in the layer of the transport stream TS.
  • an MVC extension descriptor (MVC_extension_descriptor) is inserted into the descriptor portion of the video elementary loop corresponding to the base video stream under the program map table.
  • the receiving side is a case of transmitting a stereoscopic (3D) image and the substream configuration is a single video stream. That is, on the receiving side, it can be seen that the transport stream TS has a base video stream including base view image data for stereoscopic image display and image data of a predetermined number of views other than the base view. .
  • the transport stream TS When transmitting a stereoscopic (3D) image, the transport stream TS includes a base video stream including base view image data for displaying a stereoscopic image and a predetermined number of image data of a predetermined number of views other than the base view. Number of extended video streams may be included. That is, this is a case where the substream configuration is composed of multiple streams.
  • a video stream obtained by encoding the image data of the base view as one picture is transmitted as a video elementary stream (base video stream) of the MVC base view.
  • a predetermined number of video streams obtained by encoding a predetermined number of non-base view image data as one picture are transmitted as MVC non-base view video elementary streams (enhanced video streams).
  • a descriptor having specific information for example, image data information of each view, is inserted into the arrangement position of information related to the predetermined number of extended video streams in the layer of the transport stream TS.
  • an MVC extension descriptor (MVC_extension_descriptor) is inserted into the descriptor part of the video elementary loop corresponding to the extended video stream under the program map table.
  • the receiving side is a case of transmitting a stereoscopic (3D) image and the substream configuration is composed of a plurality of streams. That is, on the receiving side, the transport stream TS includes a base video stream including base view image data for displaying a stereoscopic image and a predetermined number of extended videos including image data of a predetermined number of views other than the base view. It can be seen that it has a stream.
  • FIG. 2 shows a structural example (Syntax) of this MVC extension descriptor.
  • “View order index_start” indicates the number of the first view
  • “view order index_end” indicates the number of the last view
  • the total number of views can be known from these pieces of information.
  • “view_id” indicates the number of the view (non-base view) corresponding to this descriptor. This “view_id” specifies the same content as “view_id” described in “NAL unit header” described later, and may be omitted as a reserved bit.
  • the receiver 200 receives the transport stream TS transmitted from the broadcasting station 100 on a broadcast wave.
  • the transport stream TS includes an AVC (2D) video elementary stream including two-dimensional image data when transmitting a two-dimensional (2D) image.
  • the transport stream TS includes only the MVC base video stream or a predetermined number of extended video streams together with a stereoscopic (3D) image transmission.
  • the receiver 200 processes a video stream included in the transport stream TS based on the presence and insertion position of the specific information in the layer of the transport stream TS. That is, the configuration, decoding, and display mode of the buffer memory at the time of decoding are determined.
  • the receiver 200 acquires image data for displaying a two-dimensional (2D) image or image data of a predetermined number of views for displaying a stereoscopic (3D) image, and obtains a two-dimensional (2D) image or (3D ) Display images.
  • the receiver 200 has the MVC extension descriptor in the descriptor portion of the video elementary loop (first ES loop) corresponding to the base video stream under the program map table.
  • the receiver 200 transmits a stereoscopic (3D) image when the descriptor is present in the first ES loop, and the video stream includes a base view for displaying a stereoscopic image and other predetermined number of views. It is recognized that the image data is included.
  • the receiver 200 decodes the corresponding video stream included in the transport stream TS, acquires a plurality of image data for stereoscopic image display, and performs three-dimensional image display.
  • the receiver 200 determines whether or not the extended video stream is included in the transport stream TS. Then, when the extended video stream is included, the receiver 200 sets the MVC • in the descriptor portion of the video elementary loop (second ES loop) corresponding to the extended video stream under the program map table. Determine if an extension descriptor exists.
  • the receiver 200 transmits a stereoscopic (3D) image when a descriptor is present in the second ES loop, and the extended video stream and the base video stream are displayed as a base view for displaying a stereoscopic image and others. It is recognized that the image data of a predetermined number of views is included. In this case, the receiver 200 decodes a plurality of video streams included in the transport stream TS, acquires a plurality of image data for stereoscopic image display, and performs three-dimensional image display.
  • 3D stereoscopic
  • the receiver 200 recognizes that a two-dimensional (2D) image is being transmitted when the transport stream TS does not include an extended video stream or when there is no descriptor in the second ES loop. In this case, the receiver 200 decodes the video stream included in the transport stream TS, acquires two-dimensional image data, and performs basic conventional two-dimensional image display.
  • 2D two-dimensional
  • FIG. 3 shows a configuration example of the transmission data generation unit 110 that generates the above-described transport stream in the broadcast station 100.
  • the transmission data generation unit 110 includes a data extraction unit (archive unit) 111, a video encoder 112, a parallax encoder 113, and an audio encoder 114.
  • the transmission data generation unit 110 includes a graphics generation unit 115, a graphics encoder 116, and a multiplexer 117.
  • a data recording medium 111a is detachably attached to the data extraction unit 111, for example.
  • audio data corresponding to the image data is recorded along with the image data of the program to be transmitted.
  • the image data is switched to image data for stereoscopic (3D) image display or image data for two-dimensional (2D) image display in accordance with the program.
  • the image data is switched to image data for displaying a stereoscopic image or image data for displaying a two-dimensional image in the program depending on the contents of the main story and commercials.
  • the plurality of pieces of image data for displaying the stereoscopic image includes base view image data and a predetermined number of non-base view image data.
  • parallax information may also be recorded on the data recording medium 111a.
  • the disparity information is disparity information (disparity vector) indicating disparity between the base view and each non-base view, or depth data. Depth data can be handled as parallax information by predetermined conversion.
  • the disparity information is, for example, disparity information for each pixel (pixel) or disparity information of each divided region obtained by dividing a view (image) into a predetermined number.
  • this parallax information is used on the receiving side to adjust the position of the same superimposition information (graphics information or the like) to be superimposed on the images of the base view and each non-base view to give parallax.
  • the disparity information is used on the reception side to obtain display image data of a predetermined number of views by performing interpolation processing (post processing) on the image data of the base view and each non-base view.
  • the data recording medium 111a is a disk-shaped recording medium, a semiconductor memory, or the like.
  • the data extraction unit 111 extracts and outputs image data, audio data, parallax information, and the like from the data recording medium 111a.
  • the video encoder 112 performs encoding such as MPEG2 video, MPEG4-AVC (MVC), or HEVC on the image data output from the data extracting unit 111 to obtain encoded video data. Further, the video encoder 112 generates a video elementary stream by a stream formatter (not shown) provided in the subsequent stage.
  • encoding such as MPEG2 video, MPEG4-AVC (MVC), or HEVC
  • the video encoder 112 when the image data is two-dimensional (2D) image data, the video encoder 112 generates an AVC (2D) video elementary stream including the two-dimensional image data.
  • the video encoder 112 when the image data is image data of a plurality of views for displaying a stereoscopic (3D) image, the video encoder 112 generates one or a plurality of video elementary streams including the image data of the plurality of views.
  • the substream configuration forms a single video stream
  • the image data of the base view and a predetermined number of non-base views are encoded as one picture, and an MVC video elementary stream (base video stream) is encoded. Is generated.
  • the base view image data is encoded as one video elementary stream, and the video elementary stream (base video stream) of the MVC base view is encoded. Is generated.
  • a predetermined number of non-base view image data is encoded as independent video elementary streams, and a predetermined number of MVC non-base view video elementary streams (enhanced video streams) are further encoded.
  • the audio encoder 114 performs encoding such as MPEG2 Audio AAC on the audio data output from the data extraction unit 111 to generate an audio elementary stream.
  • the disparity encoder 113 performs predetermined encoding on the disparity information output from the data extraction unit 111, and generates an elementary stream of disparity information.
  • the disparity information is disparity information for each pixel (pixel) as described above, the disparity information can be handled like pixel data.
  • the disparity encoder 113 can encode the disparity information using the same encoding method as that of the above-described image data to generate a disparity information elementary stream.
  • a configuration in which the video encoder 112 encodes the disparity information output from the data extraction unit 111 is also conceivable. In this case, the disparity information encoder 113 is not necessary.
  • the graphics generation unit 115 generates data (graphics data) of graphics information (including subtitle information) to be superimposed on an image.
  • the graphics encoder 116 generates a graphics elementary stream including the graphics data generated by the graphics generating unit 115.
  • the graphics information is, for example, a logo.
  • the subtitle information is, for example, a caption.
  • This graphics data is bitmap data. Offset information indicating the superimposed position on the image is added to the graphics data. This offset information indicates, for example, offset values in the vertical and horizontal directions from the upper left origin of the image to the upper left pixel of the superimposed position of graphics information.
  • the standard for transmitting caption data as bitmap data is standardized and operated as “DVB_Subtitling” in DVB, which is a European digital broadcasting standard.
  • the multiplexer 117 packetizes and multiplexes the elementary streams generated by the video encoder 112, the parallax encoder 113, the audio encoder 114, and the graphics encoder 116, and generates a transport stream TS.
  • the transport stream TS includes an AVC (2D) video elementary stream including two-dimensional image data when transmitting a two-dimensional (2D) image.
  • the transport stream TS includes an MVC base substream and a predetermined number of extended substreams together with a stereoscopic (3D) image transmission.
  • the multiplexer 117 inserts specific information at a specific position in the layer of the transport stream TS when transmitting a stereoscopic (3D) image.
  • the specific position is changed depending on whether the substream configuration is a single stream or a plurality of streams.
  • the transport stream TS layer has specific information, for example, image data information of each view, at the arrangement position of the information related to the above-described base video stream. Insert a descriptor.
  • the multiplexer 117 inserts an MVC extension descriptor (see FIG. 2) into the descriptor portion of the video elementary loop corresponding to the base video stream under the program map table.
  • FIG. 4 (a) schematically shows that the MVC extension descriptor (MVC_extension_descriptor) is inserted in association with the base video stream in this way.
  • the base video stream whose stream type (Stream type) is “0 ⁇ 1B” includes encoded data of base view image data and encoded data of one non-base view image data.
  • the encoded data of the base-view image data is composed of “SPS ⁇ Coded Slice”, and the encoded data of the non-base view image data is comprised of “Subset SPS ⁇ Coded Slice”.
  • the substream configuration is composed of a plurality of streams
  • specific information for example, images of each view
  • Insert descriptor with data information In this embodiment, the MVC extension descriptor (see FIG. 2) is inserted into the descriptor portion of the video elementary loop corresponding to the extended video stream under the program map table.
  • FIG. 4B schematically shows that the MVC extension descriptor (MVC_extension_descriptor) is inserted in correspondence with the extended video stream.
  • the base video stream whose stream type (Stream type) is “0 ⁇ 1B” includes only encoded data of base view image data.
  • the encoded data of the image data of the base view is composed of “SPS ⁇ Coded Slice”.
  • the extended video stream having a stream type (Stream type) of “0 ⁇ 20” includes only encoded data of non-base view image data.
  • the encoded data of the non-base view image data is composed of “Subset SPS ⁇ Coded Slice”.
  • FIG. 5 shows a configuration example (Syntax) of the NAL unit header (NAL unit header MVC extension).
  • the field “view_id” indicates the number of the corresponding view. That is, at the time of decoding, on the receiving side, it is possible to recognize which view data packet each encoded data is based on the field information of “view_id”.
  • Image data (one image data for displaying a two-dimensional image or image data of a plurality of views for displaying a stereoscopic image) output from the data extraction unit 111 is supplied to the video encoder 112.
  • the image data is subjected to an encoding process such as MPEG2 video, MPEG4-AVC (MVC) or HEVC, for example, and a video elementary stream including the encoded video data is generated. Supplied.
  • the video encoder 112 when it is image data for displaying a two-dimensional image, for example, an AVC (2D) video elementary stream including the image data is generated.
  • the video encoder 112 generates one or more video elementary streams including the image data of the plurality of views when the image data is a plurality of views for stereoscopic image display.
  • an MVC video elementary stream including image data of a base view and a predetermined number of non-base views is generated.
  • base video stream including image data of a base view and a predetermined number of non-base views is generated.
  • base video stream including base-view image data is generated.
  • an MVC non-base view video elementary stream that includes a predetermined number of non-base view image data is generated.
  • parallax information corresponding to the image data of each view is also output from the data extraction unit 111.
  • This parallax information is supplied to the parallax encoder 113.
  • a predetermined encoding process is performed on the parallax information, and a parallax elementary stream including encoded data is generated.
  • This parallax elementary stream is supplied to the multiplexer 117.
  • audio data corresponding to the image data is also output from the data extracting unit 111.
  • This audio data is supplied to the audio encoder 114.
  • the audio encoder 114 performs encoding processing such as MPEG2Audio AAC on the audio data, and an audio elementary stream including the encoded audio data is generated. This audio elementary stream is supplied to the multiplexer 117.
  • the graphics generation unit 115 in response to the image data output from the data extraction unit 111, the graphics generation unit 115 generates data (graphics data) of graphics information (including subtitle information) to be superimposed on the image (view).
  • This graphics data is supplied to the graphics encoder 116.
  • the graphics encoder 116 a predetermined encoding process is performed on the graphics data to generate a graphics elementary stream including the encoded data. This graphics elementary stream is supplied to the multiplexer 117.
  • the transport stream TS includes an AVC (2D) video elementary stream including two-dimensional image data when transmitting a two-dimensional (2D) image.
  • the transport stream TS includes an MVC base substream and a predetermined number of extension substreams together with a stereoscopic (3D) image transmission.
  • the multiplexer 117 when transmitting a stereoscopic (3D) image, if the substream configuration forms a single video stream, the video elementary loop corresponding to the base video stream under the program map table is transmitted.
  • the MVC extension descriptor (see FIG. 2) is inserted into the descriptor portion.
  • the multiplexer 117 when a stereoscopic (3D) image is transmitted, if the substream configuration is composed of a plurality of streams, the video elementary loop descriptor corresponding to the extended video stream under the program map table is used.
  • the MVC extension descriptor (see FIG. 2) is inserted into the portion.
  • FIG. 6 shows a configuration example of the transport stream TS at the time of two-dimensional (2D) image transmission.
  • the transport stream TS includes a PES packet “Video ⁇ ⁇ ⁇ ⁇ PES1” of a video elementary stream including image data for two-dimensional (2D) image display.
  • illustration of other PES packets is omitted for simplification of the drawing.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI Program Specific Information
  • This PSI is information describing to which program each elementary stream included in the transport stream TS belongs.
  • the transport stream TS includes an EIT (Event Information Table) as SI (Serviced Information) for managing each event.
  • the PMT includes a program descriptor (Program Descriptor) that describes information related to the entire program.
  • the PMT includes an elementary loop having information related to each elementary stream.
  • information such as the packet identifier (PID) and stream type (Stream_Type) of the video elementary stream is arranged, and information related to the video elementary stream is not shown.
  • a descriptor to be described is also arranged.
  • FIG. 7 shows a configuration example of the transport stream TS when transmitting a stereoscopic (3D) image.
  • This configuration example shows a case where the substream configuration forms a single video stream (1-PID case).
  • the transport stream TS includes a PES packet “Video (PES1” of an MVC video elementary stream (base video stream) including image data of a base view and a predetermined number of non-base views.
  • PES1 Video
  • base video stream base video stream
  • Video PES1 there is a video elementary loop corresponding to the PES packet “Video PES1”.
  • information such as a packet identifier (PID) and a stream type (Stream_Type) of the video elementary stream is arranged.
  • PID packet identifier
  • Stream_Type stream type of the video elementary stream
  • MVC extension descriptor MVC_extension_descriptor
  • FIG. 8 shows a configuration example of the transport stream TS when transmitting a stereoscopic (3D) image.
  • This configuration example shows a case where the substream configuration is composed of a plurality of streams, here, a case where it is composed of two streams (2-PID2-case).
  • the transport stream TS includes an MVC video elementary stream (base substream) PES packet “Video PES1” including base-view image data.
  • the transport stream TS includes a PES packet “Video PES2” of an MVC video elementary stream (enhanced substream) including non-base view image data.
  • illustration of other PES packets is omitted for simplification of the drawing.
  • the PMT there is a video elementary loop corresponding to the PES packet “Video PES1”.
  • information such as the packet identifier (PID) and stream type (Stream_Type) of the video elementary stream is arranged, and information related to the video elementary stream is not shown.
  • a descriptor to be described is also arranged.
  • the PMT has a video elementary loop corresponding to the PES packet “Video PES2”.
  • information such as a packet identifier (PID) and a stream type (Stream_Type) of the video elementary stream is arranged.
  • PID packet identifier
  • Stream_Type stream type of the video elementary stream
  • MVC extension descriptor MVC_extension_descriptor
  • FIG. 9 shows a configuration example of the receiver 200.
  • the receiver 200 includes a CPU 201, a flash ROM 202, a DRAM 203, an internal bus 204, a remote control receiver 205, and a remote controller transmitter 206.
  • the receiver 200 includes a container buffer 213, a demultiplexer 214, a coded buffer 215, a video decoder 216, substream video buffers 217-1, ..., 217-N, a scaler 218-1, ..., 218-N and a 3D view display processing unit 219.
  • the receiver 200 includes a coded buffer 221, a parallax decoder 222, a parallax buffer 223, and a parallax information conversion unit 224.
  • the receiver 200 also includes a coded buffer 225, a graphics decoder 226, a pixel buffer 227, a scaler 228, and a graphics shifter 229. Further, the receiver 200 includes a coded buffer 230, an audio decoder 231, and a channel mixing unit 232.
  • the CPU 201 controls the operation of each unit of receiver 200.
  • the flash ROM 202 stores control software and data.
  • the DRAM 203 constitutes a work area for the CPU 201.
  • the CPU 201 develops software and data read from the flash ROM 202 on the DRAM 203 and activates the software to control each unit of the receiver 200.
  • the remote control receiving unit 205 receives a remote control signal (remote control code) transmitted from the remote control transmitter 206 and supplies it to the CPU 201.
  • CPU201 controls each part of receiver 200 based on this remote control code.
  • the CPU 201, flash ROM 202 and DRAM 203 are connected to the internal bus 204.
  • the container buffer 213 temporarily stores the transport stream TS received by a digital tuner or the like.
  • the transport stream TS includes, for example, an AVC (2D) video elementary stream. This stream includes image data for displaying a two-dimensional image.
  • this transport stream TS has an MVC base substream and a predetermined number of extended substreams together with this.
  • one video stream of MVC includes base view image data and a predetermined number of non-base view image data.
  • the base view image data is included in the MVC base substream, and the non-baseview image data is included in each of the predetermined number of extended substreams. .
  • the MVC extension descriptor is inserted in the descriptor portion of the video elementary loop corresponding to the base video stream under the PMT.
  • the MVC extension descriptor is inserted in the descriptor portion of the video elementary loop corresponding to the extended video stream under the PMT.
  • the demultiplexer 214 extracts video, parallax, and audio streams from the transport stream TS temporarily stored in the container buffer 213. Further, the demultiplexer 214 extracts the above-mentioned MVC extension descriptor from the transport stream TS and transmits the same to the CPU 201 when transmitting a stereoscopic (3D) image.
  • the CPU 201 knows whether it is a stereoscopic (3D) image transmission time or a two-dimensional (2D) image transmission time based on the presence / absence of the MVC / extension / descriptor. Further, when the MVC extension descriptor is inserted in the video elementary loop corresponding to the MVC base video stream, the CPU 201 can determine that the substream configuration forms a single video stream. Further, when the MVC extension descriptor is inserted in the video elementary loop corresponding to the MVC extended video stream, the CPU 201 can determine that the substream configuration is composed of a plurality of streams.
  • the CPU 201 controls the management of the coded buffer 215 and further the operation of the video decoder 216 so as to be in a state corresponding to the received image data based on the presence and insertion position of the MVC extension descriptor described above. .
  • the coded buffer 215 temporarily stores one or a plurality of video streams extracted by the demultiplexer 214.
  • the coded buffer 215 has different buffer management configuration methods for two-dimensional (2D) image transmission and three-dimensional (3D) image transmission.
  • the coded buffer 215 includes a case where the substream configuration includes a single stream and a case where the substream configuration includes a plurality of streams even when transmitting a stereoscopic (3D) image. Buffer management configuration method is different.
  • the video decoder 216 performs decoding processing on the video elementary stream stored in the coded buffer 215 to obtain image data.
  • a single decoder performs decoding processing on the AVC (2D) video elementary stream to obtain image data for two-dimensional (2D) image display. .
  • the decoding process is performed as follows. That is, for one video stream of MVC including encoded data of image data of a plurality of views, the packet to be processed is switched from the buffer 215 to the decoder 216 by “view_id” of “NALNunit header”. After that, the decoder 216 performs each decoding process. Thereby, image data of a plurality of views for displaying a stereoscopic (3D) image is acquired.
  • the decoding process is performed as follows. That is, the data stored in the buffer 215 is switched according to “view_id” in “NAL unit header” of the NAL packet received from the demultiplexer 214. Thereafter, the reading of the compressed data from the buffer 215 and the processing up to the decoder 216 are performed in the same manner as the decoding of a single view. Decoding processing is performed by a decoder corresponding to each of an MVC base substream including encoded data of base view image data and a predetermined number of MVC extended substreams including encoded data of non-base view image data. I do. Thereby, image data of a plurality of views for displaying a stereoscopic (3D) image is acquired.
  • the substream video buffers 217-1,..., 217-N are respectively image data for two-dimensional (2D) image display acquired by the video decoder 216 or three-dimensional (3D) image display.
  • the image data of a plurality of views is temporarily stored.
  • the minimum value of N is 2.
  • the scalers 218-1,..., 218-N have a predetermined resolution for the output resolution of the image data of each view output from the substream video buffers 217-1,. Adjust as follows.
  • the coded buffer 221 temporarily stores the parallax stream extracted by the demultiplexer 214.
  • the parallax decoder 222 performs processing opposite to that of the parallax encoder 113 (see FIG. 3) of the transmission data generation unit 110 described above. That is, the parallax decoder 222 performs a decoding process on the parallax stream stored in the coded buffer 221 to obtain parallax information corresponding to the image data of each view.
  • the parallax buffer 223 temporarily stores the parallax information acquired by the parallax decoder 222.
  • the disparity information conversion unit 224 generates disparity information in pixel units that matches the size of the scaled image data based on the disparity information stored in the disparity buffer 223. For example, when the transmitted disparity information is in units of blocks, the information is converted into disparity information in units of pixels. For example, when the transmitted disparity information is in units of pixels but does not match the size of the scaled image data, the information is scaled appropriately. Or, when superimposing graphics or the like in the receiver, disparity information of the block corresponding to the superimposition position is applied.
  • the coded buffer 225 temporarily stores the graphics stream extracted by the demultiplexer 214.
  • the graphics decoder 226 performs processing opposite to that of the graphics encoder 116 (see FIG. 3) of the transmission data generation unit 110 described above. That is, the graphics decoder 226 performs a decoding process on the graphics stream stored in the coded buffer 225 to obtain graphics data (including subtitle data).
  • the graphics decoder 226 generates graphics bitmap data to be superimposed on the view (image) based on the graphics data.
  • the pixel buffer 227 temporarily stores graphics bitmap data generated by the graphics decoder 226.
  • the scaler 228 adjusts the size of the graphics bitmap data stored in the pixel buffer 227 so as to correspond to the size of the scaled image data.
  • the graphics shifter 229 performs a shift process on the bitmap data of the size-adjusted graphics based on the disparity information obtained by the disparity information conversion unit 224.
  • the graphics shifter 229 generates graphics bitmap data to be superimposed on the image data of each view output from the 3D view display processing unit 219.
  • the 3D view display processing unit 219 is, for example, a two-dimensional (2D) image after scaling input through the scaler 218-1 when the two-dimensional (2D) image display is performed at the time of two-dimensional (2D) image transmission.
  • the graphics bitmap data output from the graphics shifter 229 is superimposed on the image data for image display and output to the display.
  • the 3D view display processing unit 219 when transmitting a stereoscopic (3D) image and displaying a stereoscopic stereoscopic image, for example, the scaled left eye input through the scalers 218-1 and 218-2.
  • the bitmap data of the shifted graphics output from the graphics shifter 229 is superimposed on the image data and the right eye image data, respectively, and output to the display.
  • the 3D view display processing unit 219 is a stereoscopic (3D) image transmission unit and performs multi-view stereoscopic image display.
  • each 3D view display processing unit 219 inputs each of the scaled images input through the scalers 218-1 to 218-N.
  • the image data of a predetermined number of views between the views is interpolated and synthesized.
  • the bitmap data of the shifted graphics output from the graphics shifter 229 is further superimposed on the image data of each view after the interpolation synthesis, and is output to the display.
  • the coded buffer 230 temporarily stores the audio stream extracted by the demultiplexer 214.
  • the audio decoder 231 performs a process opposite to that of the audio encoder 114 (see FIG. 3) of the transmission data generation unit 110 described above. That is, the audio decoder 231 performs audio stream decoding processing stored in the coded buffer 230 to obtain audio data.
  • the channel mixing unit 232 generates and outputs audio data of each channel for realizing 5.1 channel surround, for example, with respect to the audio data obtained by the audio decoder 231.
  • the transport stream TS received by a digital tuner or the like is temporarily stored in the container buffer 213.
  • the transport stream TS includes, for example, an AVC (2D) video elementary stream when transmitting a two-dimensional (2D) image.
  • the transport stream TS includes, for example, only an MVC base video stream or a predetermined number of extended video streams together with a stereoscopic (3D) image transmission.
  • the demultiplexer 214 video, parallax, and audio streams are extracted from the transport stream TS temporarily stored in the container buffer 213. Also, the demultiplexer 214 extracts the MVC / extension / descriptor from the transport stream TS and transmits it to the CPU 201 when transmitting a stereoscopic (3D) image.
  • the CPU 201 manages the coded buffer 215 and the operation of the video decoder 216 based on the presence and insertion position of the MVC / extension / descriptor at the time of two-dimensional (2D) image transmission or stereoscopic (3D) image transmission Control is performed so as to be in a state corresponding to each time.
  • One or more video elementary streams extracted by the demultiplexer 214 are supplied to the coded buffer 215 and temporarily stored.
  • the video decoder 216 the video elementary stream stored in the coded buffer 215 is decoded to acquire image data.
  • the video decoder 216 when transmitting a two-dimensional (2D) image, the video decoder 216 performs a decoding process on one AVC (2D) video elementary stream and displays the two-dimensional (2D) image. Image data is acquired.
  • the decoding process is performed as follows to display a stereoscopic (3D) image.
  • Image data of a plurality of views for is acquired. That is, the packet to be processed from the buffer 215 to the decoder 216 is switched by the “view_id” of “NAL unit header” for the MVC base video stream including the encoded data of the image data of multiple views. Thereafter, the decoder 216 performs each decoding process.
  • decoding processing is performed as follows to display a stereoscopic (3D) image.
  • the image data of a plurality of views is acquired. That is, the data stored in the buffer 215 is switched according to “view_id” in “NAL unit header” of the NAL packet received from the demultiplexer 214. Thereafter, the reading of the compressed data from the buffer 215 and the processing up to the decoder 216 are performed in the same manner as the decoding of a single view.
  • Decoding processing is performed by a decoder corresponding to each of an MVC base substream including encoded data of base view image data and a predetermined number of MVC extended substreams including encoded data of non-base view image data. Is done.
  • Image data for two-dimensional (2D) image display acquired by the video decoder 216, or image data of a plurality of views for stereoscopic (3D) image display, are substream video buffers 217-1,. , 217-N and temporarily stored. Then, after the scalers 218-1,..., 218-N are adjusted to have a predetermined resolution, they are supplied to the 3D view display processing unit 219.
  • the disparity data stream extracted by the demultiplexer 214 is supplied to the coded buffer 221 and temporarily stored.
  • the parallax decoder 222 the parallax data stream is decoded, and parallax information corresponding to the image data of each view is obtained.
  • the parallax information is supplied to the parallax buffer 223 and temporarily stored.
  • parallax information conversion unit 224 based on the parallax data stored in the parallax buffer 223, parallax data in units of pixels matching the size of the scaled image data is generated.
  • the disparity information obtained by the disparity decoder 222 is in units of blocks, the information is converted into disparity information in units of pixels.
  • the disparity information obtained by the disparity decoder 222 is in units of pixels, but is appropriately scaled when it does not match the size of the image data after scaling. This disparity information is supplied to the 3D view display processing unit 219 and the graphics shifter 229.
  • the graphics stream extracted by the demultiplexer 214 is supplied to the coded buffer 225 and temporarily accumulated.
  • the graphics decoder 226, the graphics stream stored in the coded buffer 225 is decoded, and graphics data (including subtitle data) is obtained. Also, the graphics decoder 226 generates graphics bitmap data to be superimposed on the view (image) based on the graphics data.
  • the bitmap data of this graphics is supplied to the pixel buffer 227 and temporarily stored.
  • the size of the graphics bitmap data stored in the pixel buffer 227 is adjusted to correspond to the size of the scaled image data.
  • the graphics shifter 229 a shift process is performed on the bitmap data of the graphics after the size adjustment based on the disparity information obtained by the disparity information conversion unit 224.
  • the graphics shifter 229 generates graphics bitmap data to be superimposed on the image data of each view output from the 3D view display processing unit 219. This bitmap data is supplied to the 3D view display processing unit 219.
  • the following processing is performed. That is, for example, graphics bitmap data output from the graphics shifter 229 is superimposed on image data for displaying a two-dimensional (2D) image after scaling input through the scaler 218-1, and is displayed on the display. Is output.
  • the 3D view display processing unit 219 when a stereoscopic (3D) image is transmitted and a stereoscopic stereoscopic image is displayed, the following processing is performed. That is, for example, the shifted graphics bitmap data output from the graphics shifter 229 is superimposed on the scaled left-eye image data and right-eye image data input through the scalers 218-1 and 218-2, respectively. And output to the display.
  • the 3D view display processing unit 219 when a stereoscopic (3D) image is transmitted and multi-view stereoscopic image display is performed, the following processing is performed. That is, for example, based on the disparity data between the views obtained by the disparity information conversion unit 224 from the image data of each view after scaling input through the scalers 218-1 to 218-N, the predetermined values between the views are determined. The image data of several views are interpolated and synthesized. In this case, the bitmap data of the shifted graphics output from the graphics shifter 229 is further superimposed on the image data of each view after the interpolation synthesis, and is output to the display.
  • the audio stream extracted by the demultiplexer 214 is supplied to the coded buffer 230 and temporarily accumulated.
  • the audio decoder 231 the audio stream stored in the coded buffer 230 is decoded, and decoded audio data is obtained.
  • This audio data is supplied to the channel mixing unit 232.
  • the channel mixing unit 232 generates audio data of each channel for realizing, for example, 5.1 channel surround with respect to the audio data.
  • This audio data is supplied to, for example, a speaker, and audio output is performed in accordance with image display.
  • the CPU 201 performs management of the coded buffer 215 and the operation of the video decoder 216 based on the presence and insertion position of the MVC / extension / descriptor at the time of two-dimensional (2D) image transmission or stereoscopic ( 3D) Control is performed so as to be in a corresponding state at the time of image transmission.
  • 2D two-dimensional
  • 3D stereoscopic
  • the flowchart in FIG. 10 shows an example of the control process of the CPU 201.
  • the CPU 201 executes the control process according to this flowchart at a timing when a service such as channel switching is changed.
  • step ST2 the CPU 201 starts a process in step ST1, and moves to the process of step ST2 after that.
  • the CPU 201 is a case of transmitting a stereoscopic (3D) image and a case where the substream configuration forms a single video stream. Identify. That is, it is identified as a service with one elementary stream (elementary stream). Then, the CPU 201 performs control so that encoded data of all substreams (Substream) proceeds to decoding processing via a common buffer.
  • 3D stereoscopic
  • FIG. 11B schematically shows an example of the processing flow in the receiver 200 in this case.
  • the base video stream whose stream type (Stream type) is “0 ⁇ 1B” includes encoded data of base view image data and encoded data of one non-base view image data. This is an example. Further, this example is an example in the case where the encoded data of each view is decoded by a separate decoder.
  • a solid line a indicates the flow of processing of base view image data, and a broken line b indicates the flow of processing of non-base view image data.
  • rendering means processing in the scaler and the 3D view display processing unit 219.
  • the CPU 201 includes the MVC extension descriptor in the descriptor portion of the video elementary loop (second ES loop) corresponding to the extended video stream under the PMT.
  • the CPU 201 identifies that it is a case where a stereoscopic (3D) image is transmitted and the substream configuration includes a plurality of streams. To do. That is, it is identified as a service with a plurality of elementary streams (elementary streams). Then, the CPU 201 performs control so that the buffer management of the encoded data is performed for each substream (Substream) and the process proceeds to the decoding process.
  • a stereoscopic (3D) image is transmitted and the substream configuration includes a plurality of streams. To do. That is, it is identified as a service with a plurality of elementary streams (elementary streams).
  • the CPU 201 performs control so that the buffer management of the encoded data is performed for each substream (Substream) and the process proceeds to the decoding process.
  • FIG. 11C schematically shows an example of the processing flow in the receiver 200 in this case.
  • the base video stream including the encoded data of the base view image data whose stream type (Stream type) is “0 ⁇ 1B” and the non-base whose stream type (Stream type) is “0 ⁇ 20”
  • a solid line a indicates the flow of processing of base view image data
  • a broken line b indicates the flow of processing of non-base view image data.
  • rendering means processing in the scaler and the 3D view display processing unit 219.
  • FIG. 11A schematically shows an example of the flow of processing in the receiver 200 in this case.
  • a solid line a indicates the flow of processing of two-dimensional image data. Note that rendering means processing in the scaler and the 3D view display processing unit 219.
  • the video elementary loop descriptor corresponding to the base video stream under the PMT is used.
  • MVC extension descriptor is inserted.
  • the substream configuration is composed of a plurality of streams
  • the MVC extension descriptor is inserted into the descriptor portion of the video elementary loop corresponding to the extended video stream under the PMT.
  • the configuration, decoding, and display mode of the buffer memory at the time of decoding can be accurately determined before decoding, and image data can be acquired satisfactorily.
  • the SVC stream includes a video elementary stream of the image data of the lowest layer constituting the scalable encoded image data. Further, the SVC stream includes video elementary streams of a predetermined number of upper layer image data other than the lowest layer constituting the scalable encoded image data.
  • the first image data is the image data of the lowest hierarchy constituting the scalable encoded image data
  • the second image data is a hierarchy other than the lowest hierarchy constituting the scalable encoded image data. It becomes image data.
  • the case where the substream configuration forms a single video stream see FIG. 4A
  • the case where the substream configuration includes a plurality of streams See FIG. 4B).
  • the video stream obtained by encoding the image data of the lowest layer and the other layers as one picture is transmitted as the base video stream of SVC.
  • the SVC extension descriptor is inserted into the descriptor portion of the video elementary loop corresponding to the base video stream under the PMT.
  • the receiving side is a case where the SVC stream is transmitted and the substream configuration forms a single video stream. That is, on the receiving side, it can be seen that the transport stream TS has a base video stream obtained by encoding image data of the lowest layer and other layers as one picture.
  • an elementary video stream obtained by encoding the lowest layer image data as one picture is transmitted as an SVC base video stream.
  • An elementary video stream obtained by encoding image data of each layer other than the lowest layer as one picture is transmitted as an extended video stream.
  • the SVC extension descriptor is inserted into the descriptor portion of the video elementary loop corresponding to the extended video stream under the PMT.
  • the receiving side is a case where the SVC stream is transmitted and the substream configuration is composed of a plurality of streams. That is, on the receiving side, it can be seen that the transport stream TS has a base video stream including image data of the lowest layer and an extended video stream including image data of each layer other than the lowest layer. .
  • FIG. 12 shows a structural example (Syntax) of the SVC extension descriptor.
  • “View order index_start” indicates the number of the lowest layer
  • “view order index_end” indicates the number of the highest layer, and the number of the entire layers can be known from these pieces of information.
  • “dependency_id” indicates what level the hierarchy corresponding to this descriptor is.
  • FIG. 13 shows a configuration example (Syntax) of the NAL unit header (NAL unit header SVC extension).
  • the field of “dependency_id” indicates what level the corresponding hierarchy is. That is, on the receiving side, at the time of decoding, based on the field information of “dependency_id”, it is possible to recognize which level of image data each encoded data is.
  • FIG. 14 shows a configuration example of the receiver 200A that handles the above-described SVC stream.
  • parts corresponding to those in FIG. 9 described above are denoted by the same reference numerals, and detailed description thereof is omitted as appropriate.
  • the receiver 200A receives the transport stream TS transmitted from the broadcasting station 100 on a broadcast wave.
  • the transport stream TS includes an AVC (2D) video elementary stream during normal image transmission.
  • the transport stream TS includes only the SVC base video stream or a predetermined number of extended video streams together with the SVC stream when transmitting the SVC stream.
  • the 200 A of receivers process the video stream which this transport stream TS has based on the presence and insertion position of the specific information in the layer of the transport stream TS. That is, the configuration, decoding, and display mode of the buffer memory at the time of decoding are determined.
  • the receiver 200A obtains image data for displaying a normal image, or image data of the lowest layer and its upper layer, and performs normal image display or high-quality image display.
  • the receiver 200A determines whether the SVC extension descriptor exists in the descriptor part of the video elementary loop (first ES loop) corresponding to the base video stream under the PMT. Then, when the descriptor is present in the first ES loop, the receiver 200A is at the time of transmitting the SVC stream, and the base video stream includes the image data of each layer of the lowest layer and the upper layer. Recognize that In this case, the receiver 200A decodes the base video stream included in the transport stream TS, acquires image data of each layer for performing high-quality image display, and performs high-quality image display.
  • the receiver 200A determines whether or not the extended video stream is included in the transport stream TS.
  • the receiver 200A includes an SVC extension descriptor in the descriptor portion of the video elementary loop (second ES loop) corresponding to the extended video stream under the PMT. Determine if it exists.
  • the receiver 200A when the descriptor is present in the second ES loop, the receiver 200A is at the time of transmission of the SVC stream, and the extended video stream and the base video stream are transmitted from the lowest layer and the upper layers. Recognize that it contains image data. In this case, the receiver 200A decodes a plurality of video streams included in the transport stream TS, acquires image data of each layer for performing high-quality image display, and performs high-quality image display.
  • the receiver 200A recognizes that it is a normal image transmission time when the extended video stream is not included in the transport stream TS or when the SVC extension descriptor does not exist in the second ES loop. In this case, the receiver 200A decodes the video stream included in the transport stream TS, acquires normal image data, and performs normal image display.
  • the SVC extension descriptor is extracted from the transport stream TS and sent to the CPU 201. Based on the presence and insertion position of the SVC extension descriptor, the CPU 201 manages the coded buffer 215 and the operation of the video decoder 216 in a state corresponding to normal image transmission or SVC stream transmission. It is controlled to become.
  • One or more video elementary streams extracted by the demultiplexer 214 are supplied to the coded buffer 215 and temporarily stored.
  • the video decoder 216 the video elementary stream stored in the coded buffer 215 is decoded to acquire image data.
  • the video decoder 216 performs decoding processing on the AVC video elementary stream by one decoder to obtain image data for displaying a normal image.
  • the decoding process is performed as follows, and a plurality of hierarchies for high-quality image display are performed. Image data is acquired. That is, after switching the packet to be processed from the buffer 215 to the decoder 216 with the dependency_id of NAL unit header for the SVC base video stream including the encoded data of the image data of multiple layers, The decoder 216 performs the decoding process.
  • the decoding process is performed as follows, and a plurality of hierarchies for high-quality image display are performed.
  • Image data is acquired. That is, the data stored in the buffer 215 is switched by the dependency_id in the NAL unit header of the NAL unit packet received from the demultiplexer 214. Thereafter, the reading of the compressed data from the buffer 215 and the processing up to the decoder 216 are performed in the same manner as the single stream decoding. In this way, for each of the SVC base video stream including the encoded data of the lowest layer image data and the predetermined number of SVC extended video streams including the encoded data of the image data of the upper layer, respectively. Decoding processing is performed by a corresponding decoder.
  • the high image quality processing unit 233 performs the following processing when normal image transmission is performed and normal image display is performed. That is, for example, the bitmap data of graphics output from the graphics shifter 229 is superimposed on the scaled image data input through the scaler 218-1 and output to the display.
  • the image quality improvement processing unit 233 performs the following processing when the SVC stream is transmitted and high quality image display is performed. That is, for example, image data for high-quality image display is generated from the scaled image data input through the scalers 218-1 to 218-N, and the shift processing output from the graphics shifter 229 is performed. Graphics bitmap data is superimposed and output to the display.
  • the case where the substream configuration includes a single video stream and the case where the substream configuration includes a plurality of streams are determined on the reception side. It is possible to reliably and easily identify before decoding. Therefore, on the receiving side, the configuration, decoding, and display mode of the buffer memory at the time of decoding can be accurately determined before decoding, and image data can be acquired satisfactorily.
  • the transport stream TS is distributed over a broadcast wave.
  • the present technology also applies to a case where the transport stream TS is distributed through a network such as the Internet. Applicable.
  • the present technology can also be applied to Internet distribution in a container file format other than the transport stream TS.
  • this technique can also take the following structures.
  • An image data transmission apparatus comprising: an information insertion unit that inserts specific information at an arrangement position of information related to the base video stream in the container layer.
  • the image data transmitting device according to (1) wherein the specific information is a descriptor having information on the first image data and the predetermined number of second image data.
  • the container is a transport stream, The information insertion part The image data transmitting apparatus according to (2), wherein the descriptor is inserted into a descriptor portion of a video elementary loop corresponding to the base video stream under the program map table.
  • the first image data is image data of a base view for displaying a stereoscopic image
  • the second image data is image data of a view other than the base view for displaying the stereoscopic image
  • the first image data is image data of the lowest hierarchy constituting the scalable encoded image data
  • the second image data is image data of a layer other than the lowest layer constituting the scalable encoded image data
  • a container of a predetermined format having a base video stream including first image data and a predetermined number of second image data related to the first image data is transmitted.
  • a transmitter to An image data transmitting apparatus comprising: an information insertion unit that inserts specific information at an arrangement position of information associated with each of the predetermined number of extended video streams in the container layer.
  • the image data transmitting device according to (7), wherein the specific information is a descriptor having information on the first image data and the predetermined number of second image data.
  • the container is a transport stream, The information insertion part The image data transmitting apparatus according to (8), wherein the descriptor is inserted into a descriptor portion of a video elementary loop corresponding to each of the predetermined number of extended video streams under the program map table.
  • the first image data is image data of a base view for displaying a stereoscopic image
  • the second image data is image data of a view other than the base view for displaying the stereoscopic image
  • the image data transmitting apparatus according to (8) or (9), wherein the specific information is an MVC extension descriptor having information on each view.
  • the first image data is image data of the lowest hierarchy constituting the scalable encoded image data
  • the second image data is image data of a layer other than the lowest layer constituting the scalable encoded image data
  • the image data transmitting apparatus according to (8) or (9), wherein the specific information is an SVC extension descriptor having image data information of each layer.
  • a container having a predetermined format including a base video stream including first image data and a predetermined number of extended video streams each including a predetermined number of second image data related to the first image data is transmitted.
  • specific information is inserted into arrangement positions of information respectively associated with the predetermined number of extended video streams in the container layer.
  • An image data receiving apparatus comprising: a processing unit that processes a video stream included in the container based on the presence and insertion position of specific information in the container layer and acquires a predetermined number of image data associated with each other.
  • the processing unit When the specific information is inserted at an arrangement position of information related to the base video stream included in the container in the container layer, the base video stream is processed to obtain the predetermined number of image data.
  • the image data receiving device according to (13).
  • the processing unit When the specific information is inserted at an arrangement position of information related to the extended video stream included in the container of the container layer, the extended video stream and the base video stream included in the container are processed to perform the predetermined The image data receiving device according to (13) or (14), wherein a plurality of pieces of image data are acquired. (16) The image data receiving device according to any one of (13) to (15), wherein the predetermined number of image data constitutes image data for displaying a stereoscopic image or scalable encoded data image data.
  • An image data receiving method comprising: processing a video stream included in the container based on the presence and insertion position of specific information in a layer of the container to obtain a predetermined number of image data associated with each other.
  • the main feature of this technology is that the MVC extension descriptor is inserted into the descriptor part of the video elementary loop corresponding to the base video stream or extended video stream of the MVC under the PMT, so that the substream configuration is simple.
  • the case where a single video stream is configured and the case where a substream configuration is composed of a plurality of streams can be reliably and easily identified on the receiving side before decoding (FIGS. 5, 7, and 8). reference).
  • DESCRIPTION OF SYMBOLS 10 ... Image transmission / reception system 100 ... Broadcasting station 110 ... Transmission data generation part 111 ... Data extraction part 111a ... Data recording medium 112 ... Video encoder 113 ... Parallax encoder 114 ... Audio encoder 115 ... Graphics generator 116 ... Graphics encoder 117 ... Multiplexer 200, 200A ... Receiver 201 ... CPU 213 ... Container buffer 214 ... Demultiplexer 215 ... Coded buffer 216 ... Video decoder 217-1 to 217-N ... Substream buffer 218-1 to 218-N ... Scaler 219 .. 3D view display processing unit 221: Coded buffer 222 ...
  • Parallax decoder 223 ... Video decoder 224 ... Parallax information converter 225 ... Coded buffer 226 ... Graphics decoder 227 ... Pixel Buffer 228 ... Scaler 229 ... Graphics shifter 230 ... Coded buffer 231 ... Audio decoder 232 ... Channel mixing unit 233 ... High image quality processing unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能とする。 第1の画像データとこの第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、このコンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する。第1の画像データを含むベースビデオストリームとこの第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、このコンテナのレイヤの所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する。

Description

画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
 本技術は、画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法に関し、特に、立体画像表示のための画像データ、スケーラブル符号化画像データ等を送信する画像データ送信装置等に関する。
 従来、動画像の符号化方式として、H.264/AVC(Advanced Video Coding)が知られている(非特許文献1参照)。また、このH.264/AVCの拡張方式として、H.264/MVC(Multi-view Video Coding)が知られている(非特許文献2参照)。
 MVCでは、マルチビューの画像データをまとめて符号化する仕組みが採用されている。MVCでは、マルチビュー画像データを、1個のベースビュー(base view)の画像データと、1個以上のノンベースビュー (non-baseview)の画像データとして符号化する。
 なお、このH.264/AVCの拡張方式として、H.264/SVC(Scalable Video Coding)も知られている(非特許文献3参照)。SVCは、画像を階層的に符号化する技術である。SVCでは、動画像を最低限の品質で復号化するのに必要な画像データを有する基本階層(最下位階層)と、この基本階層に付加することによって動画像の品質を高める画像データを有する拡張階層(上位階層)に分けられている。
「Draft Errata List withRevision-Marked Corrections for H.264/AVC」, JVT-1050,Thomas Wiegand et al., Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG,2003 Joint Draft 4.0 on MultiviewVideo Coding, Joint Video Team of ISO/IEC MPEG & ITU-T VCEG,JVT-X209, July2007 Heiko Schwarz, Detlev Marpe, andThomas Wiegand,"Overview of the Scalable Video CodingExtension of the H.264/AVC Standard ", IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL.17, NO.9,SEPTEMBER 2007, pp.1103-1120.
 MVCの場合、ベースビューの画像データが1つのピクチャとして符号化されて得られたベースビデオストリームと、ノンベースビューの画像データがそれぞれ1つのピクチャとして得られた所定数の拡張ビデオストリームを、トランスポートストリームで送信することが知られている。また、このMVCの場合、ベースビューの画像データと所定数のノンベースビューの画像データを1つのストリームとして符号化して得られたベースビデオストリームを、コンテナとしてのトランスポートストリームで送信することも知られている。
 トランスポートストリームの中にビデオストリームが複数ある場合、つまりサブストリーム構成が複数のストリームで構成される場合は、それぞれが同期処理される必要がある。また、この場合、ビットレートはそれぞれのビデオストリームで変化具合が独立していて異なるが、トランスポートストリーム全体では、コンスタントビットレートあるいはバリアブルビットレートなど、システム要求に従って、レート制御を行うことが要求される。また、この場合、ランダムアクセス時に複数のストリームの頭出し(主にはIピクチャ)がスムーズに行われる必要があるため、複数のビデオストリームを多重化することは高度な技術が必要とされる。
 一方、トランスポートストリームに1つのビデオストリームのみが存在する場合、つまり複数のサブストリームが1つのビデオストリームで構成される場合は、各ビューの画像データの符号化データは、例えばアクセスユニット(access unit)ごとに連結され、その固まりごとにデコード、表示が行われるようにすることが可能になる。そのため、同期処理、ランダムアクセスへの配慮が単純になる。
 また、複数のピクチャ(picture)の固まりを一つの大きなピクチャ(picture)として、レートコントロール(rate control)を行うというような単純な多重化が可能となり、全体としてエンコードから多重化に至る制御が容易になるという利点がある。そのため、特に、送信側では、トランスポートストリームに1つのビデオストリームのみが存在する場合の方が扱いやすいと判断される場合がある。
 本技術の目的は、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能とし、受信側の処理の便宜を図ることにある。
 本技術の概念は、
 第1の画像データと該第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
 上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
 画像データ送信装置にある。
 本技術において、送信部により、第1の画像データとこの第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。情報挿入部により、コンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報が挿入される。
 なお、本技術において、例えば、特定の情報は、第1の画像データおよび所定数の第2の画像データの情報を持つデスクリプタであってもよい。また、本技術において、例えば、コンテナは、トランスポートストリームであり、情報挿入部は、デスクリプタを、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する、ようにされてもよい。
 また、本技術において、例えば、第1の画像データは、立体画像表示のためのベースビューの画像データであり、第2の画像データは、立体画像表示のためのベースビュー以外のビューの画像データであり、デスクリプタは、各ビューの情報を持つMVC・エクテンション・デスクリプタであってもよい。
 また、本技術において、例えば、第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、第2の画像データは、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データであり、デスクリプタは、各階層の画像データの情報を持つSVC・エクステンション・デスクリプタであってもよい。
 このように本技術においては、第1の画像データとこの第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、このコンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報を挿入するものである。
 そのため、受信側においては、このコンテナが第1の画像データとこの第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有していることを確実かつ容易に識別可能となる。そして、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定することが可能となる。
 また、本技術の他の概念は、
 第1の画像データを含むベースビデオストリームと上記第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
 上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
 画像データ送信装置にある。
 本技術において、第1の画像データを含むベースビデオストリームと第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。情報挿入部により、コンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報が挿入される。
 本技術において、例えば、特定の情報は、第1の画像データおよび所定数の第2の画像データの情報を持つデスクリプタであってもよい。また、本技術において、例えば、コンテナは、トランスポートストリームであり、情報挿入部は、デスクリプタを、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する、ようにされてもよい。
 なお、本技術において、例えば、第1の画像データは、立体画像表示のためのベースビューの画像データであり、第2の画像データは、立体画像表示のためのベースビュー以外のビューの画像データであり、デスクリプタは、各ビューの情報を持つMVC・エクテンション・デスクリプタであってもよい。
 また、本技術において、例えば、第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、第2の画像データは、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データであり、デスクリプタは、各階層の画像データの情報を持つSVC・エクステンション・デスクリプタであってもよい。
 このように本技術においては、第1の画像データを含むベースビデオストリームとこの第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、このコンテナのレイヤの所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入するものである。
 そのため、受信側においては、このコンテナが第1の画像データを含むベースビデオストリームとこの第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含むベースビデオストリームを有していることを確実かつ容易に識別可能となる。そして、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定することが可能となる。
 また、本技術の他の概念は、
 所定フォーマットのコンテナを受信する受信部と、
 上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
 画像データ受信装置にある。
 本技術において、受信部により、所定フォーマットのコンテナが受信される。そして、処理部により、コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、このコンテナが有するビデオストリームが処理されて、互いに関連した所定数の画像データが取得される。例えば、所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成するものであってもよい。
 なお、本技術において、例えば、処理部は、コンテナのレイヤのこのコンテナに含まれるベースビデオストリームに関連した情報の配置位置に特定の情報の挿入があるとき、このベースビデオストリームを処理して所定数の画像データを取得する、ようにされてもよい。また、本技術において、例えば、処理部は、コンテナのレイヤのこのコンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に特定の情報の挿入があるとき、この拡張ビデオストリームおよびこのコンテナに含まれるベースビデオストリームを処理して所定数の画像データを取得する、ようにされてもよい。
 このように本技術においては、コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、このコンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するものである。この場合、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。
 本技術によれば、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。
この発明の実施の形態としての画像送受信システムの構成例を示すブロック図である。 MVC・エクステンション・デスクリプタの構造例(Syntax)を示す図である。 画像送受信システムを構成する放送局の送信データ生成部の構成例を示すブロック図である。 ベースビデオストリーム、拡張ビデオストリームに対応させてMVC・エクステンション・デスクリプタの挿入を行うことを模式的に示す図である。 NALユニットヘッダ(NAL unit header MVC extension)の構成例(Syntax)を示す図である。 2次元(2D)画像送信時におけるトランスポートストリームTSの構成例を示す図である。 立体(3D)画像送信時におけるトランスポートストリームTSの構成例を示す図である。 立体(3D)画像送信時におけるトランスポートストリームTSの構成例を示す図である。 画像送受信システムを構成する受信機の構成例を示すブロック図である。 MVC・エクステンション・デスクリプタの存在および挿入位置に基づく、CPUの制御処理の一例を示すフローチャートである。 各種信号の受信時における受信機の処理の流れを概略的に示す図である。 SVC・エクステンション・デスクリプタの構造例(Syntax)を示す図である。 NALユニットヘッダ(NAL unit header SVC extension)の構成例(Syntax)を示す図である。 SVCストリームを取り扱う受信機の構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [画像送受信システム]
 図1は、実施の形態としての画像送受信システム10の構成例を示している。この画像送受信システム10は、放送局100および受信機200により構成されている。放送局100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。
 2次元(2D)画像送信時には、トランスポートストリームTSに、2次元画像データを含むビデオストリームが含まれる。この場合、ビデオストリームは、例えば、AVC(2D)のビデオエレメンタリストリームとして送信される。
 立体(3D)画像送信時には、トランスポートストリームTSに、立体画像表示のためのベースビューの画像データと、ベースビュー以外の所定数のビューの画像データとを含む1つのビデオストリームが含まれる場合がある。つまり、サブストリーム構成が単一のビデオストリームを構成する場合である。この場合、ベースビューおよび所定数のノンベースビューの画像データが1つのピクチャとして符号化されて得られたビデオストリームは、MVCのビデオエレメンタリストリーム(ベースビデオストリーム)として送信される。
 この場合、トランスポートストリームTSのレイヤの、上述のベースビデオストリームに関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタが挿入される。この実施の形態においては、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(MVC_extension_descriptor)が挿入される。
 MVC・エクステンション・デスクリプタを、このように挿入することにより、受信側では、立体(3D)画像送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であることが分かる。つまり、受信側では、トランスポートストリームTSが、立体画像表示のためのベースビューの画像データと、ベースビュー以外の所定数のビューの画像データとを含むベースビデオストリームを有していることが分かる。
 また、立体(3D)画像送信時には、トランスポートストリームTSに、立体画像表示のためのベースビューの画像データを含むベースビデオストリームと、ベースビュー以外の所定数のビューの画像データのそれぞれを含む所定数の拡張ビデオストリームとが含まれる場合がある。つまり、サブストリーム構成が複数のストリームで構成される場合である。
 この場合、ベースビューの画像データが1つのピクチャとして符号化されて得られたビデオストリームは、MVCのベースビューのビデオエレメンタリストリーム(ベースビデオストリーム)として送信される。また、所定数のノンベースビューの画像データがそれぞれ1つのピクチャとして符号化されて得られた所定数のビデオストリームは、MVCのノンベースビューのビデオエレメンタリストリーム(拡張ビデオストリーム)として送信される。
 この場合、トランスポートストリームTSのレイヤの、上述の所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタが挿入される。この実施の形態においては、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(MVC_extension_descriptor)が挿入される。
 MVC・エクステンション・デスクリプタを、このように挿入することにより、受信側では、立体(3D)画像送信時であって、サブストリーム構成が複数のストリームで構成される場合であることが分かる。つまり、受信側では、トランスポートストリームTSが、立体画像表示のためのベースビューの画像データを含むベースビデオストリームと、ベースビュー以外の所定数のビューの画像データのそれぞれを含む所定数の拡張ビデオストリームとを有していることが分かる。
 全体の詳細説明は省略するが、図2は、このMVC・エクステンション・デスクリプタの構造例(Syntax)を示している。「view order index_start」は最初のビューの番号を示し「view order index_end」は最後のビューの番号を示し、これらの情報により全体のビュー数が分かる。また、「view_id」は、このデスクリプタが対応するビュー(ノンベースビュー)が何番目のビューかを示す。この「view_id」は、後述する「NAL unit header」において記述される「view_id」と同様の内容を指定するものであり、予約ビットとして省略されてもよい。
 受信機200は、放送局100から放送波に載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSには、2次元(2D)画像送信時には、2次元画像データを含むAVC(2D)のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームTSには、立体(3D)画像送信時には、MVCのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれる。
 受信機200は、トランスポートストリームTSのレイヤにおける特定情報の存在および挿入位置に基づいて、このトランスポートストリームTSが有するビデオストリームを処理する。すなわち、デコード時のバッファメモリの構成やデコードそして表示モードを決定する。受信機200は、2次元(2D)画像表示のための画像データ、あるいは立体(3D)画像表示のための所定数のビューの画像データを取得して、2次元(2D)画像あるいは、(3D)画像表示を行う。
 この実施の形態において、受信機200は、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループ(第1のESループ)のデスクリプタ部分に、MVC・エクステンション・デスクリプタが存在するか判断する。そして、受信機200は、第1のESループにデスクリプタが存在するとき、立体(3D)画像送信時であって、このビデオストリームが、立体画像表示のためのベースビューおよびその他の所定数のビューの画像データを含むものであると認識する。この場合、受信機200は、トランスポートストリームTSに含まれる該当するビデオストリームをデコードして、立体画像表示のための複数の画像データを取得して、3次元画像表示を行う。
 また、受信機200は、第1のESループにデスクリプタが存在しないとき、トランスポートストリームTSに、拡張ビデオストリームが含まれているか判断する。そして、受信機200は、拡張ビデオストリームが含まれているとき、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ(第2のESループ)のデスクリプタ部分に、MVC・エクステンション・デスクリプタが存在するか判断する。
 そして、受信機200は、第2のESループにデスクリプタが存在するとき、立体(3D)画像送信時であって、この拡張ビデオストリームおよびベースビデオストリームが、立体画像表示のためのベースビューおよびその他の所定数のビューの画像データを含むものであると認識する。この場合、受信機200は、トランスポートストリームTSに含まれる複数のビデオストリームをデコードして、立体画像表示のための複数の画像データを取得して、3次元画像表示を行う。
 また、受信機200は、トランスポートストリームTSに拡張ビデオストリームが含まれていないとき、あるいは第2のESループにデスクリプタが存在しないとき、2次元(2D)画像送信時であると認識する。この場合、受信機200は、トランスポートストリームTSに含まれるビデオストリームをデコードして、2次元画像データを取得して、基本的な従来の2次元画像表示を行う。
 「送信データ生成部の構成例」
 図3は、放送局100において、上述したトランスポートストリームを生成する送信データ生成部110の構成例を示している。この送信データ生成部110は、データ取り出し部(アーカイブ部)111と、ビデオエンコーダ112と、視差エンコーダ113と、オーディオエンコーダ114を有している。また、この送信データ生成部110は、グラフィクス発生部115と、グラフィクスエンコーダ116と、マルチプレクサ117を有している。
 データ取り出し部111には、データ記録媒体111aが、例えば、着脱自在に装着される。このデータ記録媒体111aには、送信すべき番組の画像データと共に、この画像データに対応した音声データが記録されている。例えば、画像データは、番組に応じて、立体(3D)画像表示のための画像データ、あるいは2次元(2D)画像表示のための画像データに切り替わる。また、例えば、画像データは、番組内においても、本編やコマーシャルなどの内容に応じて、立体画像表示のための画像データ、あるいは2次元画像表示のための画像データに切り替わる。立体画像を表示するための複数の画像データは、上述したように、ベースビューの画像データと、所定数のノンベースビューの画像データとからなっている。
 画像データが立体画像表示のための画像データである場合、データ記録媒体111aには、視差情報も記録されている場合がある。この視差情報は、ベースビューと各ノンベースビューとの間の視差を示す視差情報(視差ベクトル)、あるいは奥行きデータ等である。奥行きデータは、所定の変換により視差情報として扱うことが可能となる。視差情報は、例えば、ピクセル(画素)毎の視差情報、あるいはビュー(画像)を所定数に分割して得られた各分割領域の視差情報などである。
 例えば、この視差情報は、受信側において、ベースビューおよび各ノンベースビューの画像にそれぞれ重畳する同一の重畳情報(グラフィクス情報等)の位置を調整して視差を付与するために用いられる。また、例えば、この視差情報は、受信側において、ベースビューおよび各ノンベースビューの画像データに補間処理(ポスト処理)を施して所定数のビューの表示画像データを得るために用いられる。データ記録媒体111aは、ディスク状記録媒体、半導体メモリ等である。データ取り出し部111は、データ記録媒体111aから、画像データ、音声データ、視差情報等を取り出して出力する。
 ビデオエンコーダ112は、データ取り出し部111から出力される画像データに対して、例えば、MPEG2video、MPEG4-AVC(MVC)、あるいはHEVCなどの符号化を施して符号化ビデオデータを得る。また、このビデオエンコーダ112は、後段に備えるストリームフォーマッタ(図示せず)により、ビデオエレメンタリストリームを生成する。
 すなわち、このビデオエンコーダ112は、画像データが2次元(2D)画像データであるとき、この2次元画像データを含むAVC(2D)のビデオエレメンタリストリームを生成する。また、このビデオエンコーダ112は、画像データが立体(3D)画像表示のための複数のビューの画像データであるとき、この複数のビューの画像データを含む1つまたは複数のビデオエレメンタリストリームを生成する。例えば、サブストリーム構成が単一のビデオストリームを構成する場合には、ベースビューおよび所定数のノンベースビューの画像データを1つのピクチャとして符号化して、MVCのビデオエレメンタリストリーム(ベースビデオストリーム)を生成する。
 また、例えば、サブストリーム構成が複数のストリームで構成される場合には、ベースビューの画像データを1つのビデオエレメンタリストリームとして符号化して、MVCのベースビューのビデオエレメンタリストリーム(ベースビデオストリーム)を生成する。また、この場合には、さらに、所定数のノンベースビューの画像データをそれぞれ独立したビデオエレメンタリストリームとして符号化して、所定数のMVCのノンベースビューのビデオエレメンタリストリーム(拡張ビデオストリーム)を生成する。
 オーディオエンコーダ114は、データ取り出し部111から出力される音声データに対して、MPEG2 Audio AAC等の符号化を施し、オーディオのエレメンタリストリームを生成する。
 視差エンコーダ113は、データ取り出し部111から出力される視差情報に対して所定の符号化を施し、視差情報のエレメンタリストリームを生成する。なお、視差情報が、上述したようにピクセル(画素)毎の視差情報である場合、この視差情報を画素データのように取り扱うことができる。この場合、視差エンコーダ113は、視差情報に対して、上述した画像データと同様の符号化方式で符号化を施し、視差情報エレメンタリストリームを生成できる。なお、この場合、データ取り出し部111から出力される視差情報の符号化をビデオエンコーダ112で行う構成も考えられ、その場合には、視差情報エンコーダ113は不要となる。
 グラフィクス発生部115は、画像に重畳するグラフィクス情報(サブタイトル情報も含む)のデータ(グラフィクスデータ)を発生する。グラフィクスエンコーダ116は、グラフィクス発生部115で発生されたグラフィクスデータを含むグラフィクスエレメンタリストリームを生成する。
 グラフィクス情報は、例えば、ロゴなどである。サブタイトル情報は、例えば、字幕である。このグラフィクスデータは、ビットマップデータである。このグラフィクスデータには、画像上の重畳位置を示すオフセット情報が付加されている。このオフセット情報は、例えば、画像の左上の原点から、グラフィクス情報の重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、字幕データをビットマップデータとして伝送する規格は、ヨーロッパのデジタル放送規格であるDVBで「DVB_Subtitling」として規格化され、運用されている。
 マルチプレクサ117は、ビデオエンコーダ112、視差エンコーダ113、オーディオエンコーダ114およびグラフィクスエンコーダ116で生成された各エレメンタリストリームをパケット化して多重し、トランスポートストリームTSを生成する。このトランスポートストリームTSは、2次元(2D)画像送信時は、2次元画像データを含むAVC(2D)のビデオエレメンタリストリームを含むものとなる。また、このトランスポートストリームTSは、立体(3D)画像送信時は、MVCのベースサブストリーム、そして、これと共に所定数の拡張サブストリームを含むものとなる。
 マルチプレクサ117は、立体(3D)画像送信時に、トランスポートストリームTSのレイヤの特定位置に、特定の情報を挿入する。ここで、特定位置は、サブストリーム構成が単一のストリームを構成するか複数のストリームで構成されるかにより変更される。
 サブストリーム構成が単一のビデオストリームを構成する場合、トランスポートストリームTSのレイヤの、上述のベースビデオストリームに関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタを挿入する。この実施の形態において、マルチプレクサ117は、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(図2参照)を挿入する。
 図4(a)は、このようにベースビデオストリームに対応させてMVC・エクステンション・デスクリプタ(MVC_extension_descriptor)の挿入を行うことを、模式的に示している。この例において、ストリームタイプ(Stream type)が「0×1B」のベースビデオストリームには、ベースビューの画像データの符号化データと1つのノンベースビューの画像データの符号化データが含まれている。ベースビューの画像データの符号化データは、“SPS ~ Coded Slice”で構成され、ノンベースビューの画像データの符号化データは、“Subset SPS ~ Coded Slice”で構成されている。
 また、サブストリーム構成が複数のストリームで構成される場合、トランスポートストリームTSのレイヤの、上述の所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタを挿入する。この実施の形態においては、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(図2参照)を挿入する。
 図4(b)は、このように拡張ビデオストリームに対応させてMVC・エクステンション・デスクリプタ(MVC_extension_descriptor)の挿入を行うことを、模式的に示している。この例において、ストリームタイプ(Stream type)が「0×1B」のベースビデオストリームには、ベースビューの画像データの符号化データのみが含まれている。このベースビューの画像データの符号化データは、“SPS ~ Coded Slice”で構成されている。また、この例において、ストリームタイプ(Stream type)が「0×20」の拡張ビデオストリームには、ノンベースビューの画像データの符号化データのみが含まれている。このノンベースビューの画像データの符号化データは、“Subset SPS ~ Coded Slice”で構成されている。
 図5は、NALユニットヘッダ(NAL unit header MVC extension)の構成例(Syntax)を示している。「view_id」のフィールドは、該当するビューが何番目のビューかを示す。つまり、受信側では、デコード時に、この「view_id」のフィールド情報に基づいて、それぞれの符号化データが、どのビューの画像データのパケットであるかが認識可能となっている。
 図3に示す送信データ生成部110の動作を簡単に説明する。データ取り出し部111から出力される画像データ(2次元画像表示のための1つの画像データ、あるいは立体画像表示のための複数のビューの画像データ)は、ビデオエンコーダ112に供給される。このビデオエンコーダ112では、その画像データに対して、例えばMPEG2video、MPEG4-AVC(MVC)、あるいはHEVCなどのエンコード処理が施され、符号化ビデオデータを含むビデオエレメンタリストリームが生成され、マルチプレクサ117に供給される。
 すなわち、ビデオエンコーダ112では、2次元画像表示のための画像データであるとき、例えば、この画像データを含むAVC(2D)のビデオエレメンタリストリームが生成される。また、このビデオエンコーダ112では、立体画像表示のための複数のビューの画像データであるとき、この複数のビューの画像データを含む1つまたは複数のビデオエレメンタリストリームが生成される。
 例えば、サブストリーム構成が単一のビデオストリームを構成する場合には、ベースビューおよび所定数のノンベースビューの画像データを含むMVCのビデオエレメンタリストリーム(ベースビデオストリーム)が生成される。また、例えば、サブストリーム構成が複数のストリームで構成される場合には、ベースビューの画像データを含むMVCのベースビューのビデオエレメンタリストリーム(ベースビデオストリーム)が生成される。そして、この場合には、さらに、所定数のノンベースビューの画像データをそれぞれ含むMVCのノンベースビューのビデオエレメンタリストリーム(拡張ビデオストリーム)が生成される。
 また、データ取り出し部111から立体画像表示のための複数のビューの画像データが出力されるとき、このデータ取り出し部111から各ビューの画像データに対応した視差情報も出力される。この視差情報は、視差エンコーダ113に供給される。視差エンコーダ113では、視差情報に対して所定のエンコード処理が施され、符号化データを含む視差エレメンタリストリームが生成される。この視差エレメンタリストリームはマルチプレクサ117に供給される。
 また、データ取り出し部111から画像データが出力されるとき、このデータ取り出し部111からその画像データに対応した音声データも出力される。この音声データは、オーディオエンコーダ114に供給される。このオーディオエンコーダ114では、音声データに対して、MPEG2Audio AAC等のエンコード処理が施され、符号化オーディオデータを含むオーディオエレメンタリストリームが生成される。このオーディオエレメンタリストリームはマルチプレクサ117に供給される。
 また、データ取り出し部111から出力される画像データに対応してグラフィクス発生部115では、画像(ビュー)に重畳するグラフィクス情報(サブタイトル情報を含む)のデータ(グラフィクスデータ)が発生される。このグラフィクスデータは、グラフィクスエンコーダ116に供給される。グラフィクスエンコーダ116では、このグラフィクスデータに対して所定のエンコード処理が施され、符号化データを含むグラフィクスエレメンタリストリームが生成される。このグラフィクスエレメンタリストリームはマルチプレクサ117に供給される。
 マルチプレクサ117では、各エンコーダから供給されるエレメンタリストリームがパケット化されて多重され、トランスポートストリームTSが生成される。このトランスポートストリームTSには、2次元(2D)画像送信時は、2次元画像データを含むAVC(2D)のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームTSには、立体(3D)画像送信時は、MVCのベースサブストリーム、そして、これと共に所定数の拡張サブストリームが含まれる。
 また、マルチプレクサ117では、立体(3D)画像送信時に、サブストリーム構成が単一のビデオストリームを構成する場合には、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(図2参照)が挿入される。また、マルチプレクサ117では、立体(3D)画像送信時に、サブストリーム構成が複数のストリームで構成される場合には、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタ(図2参照)が挿入される。
 図6は、2次元(2D)画像送信時におけるトランスポートストリームTSの構成例を示している。この構成例では、トランスポートストリームTSに、2次元(2D)画像表示のための画像データを含むビデオエレメンタリストリームのPESパケット「Video PES1」が含まれている。なお、この構成例では、図面の簡単化のために、その他のPESパケットに関しては、図示を省略している。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームTSに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。また、トランスポートストリームTSには、イベント単位の管理を行うSI(Serviced Information)としてのEIT(Event Information Table)が含まれている。
 PMTには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ(Program Descriptor)が存在する。また、このPMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、PESパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子(PID)、ストリームタイプ(Stream_Type)等の情報が配置されると共に、図示していないが、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。
 図7は、立体(3D)画像送信時におけるトランスポートストリームTSの構成例を示している。この構成例は、サブストリーム構成が単一のビデオストリームを構成する場合(1-PID case)を示している。この構成例では、トランスポートストリームTSに、ベースビューおよび所定数のノンベースビューの画像データを含むMVCのビデオエレメンタリストリーム(ベースビデオストリーム)のPESパケット「Video PES1」が含まれている。なお、この構成例では、図面の簡単化のために、その他のPESパケットに関しては、図示を省略している。
 PMTには、PESパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子(PID)、ストリームタイプ(Stream_Type)等の情報が配置される。そして、このビデオ・エレメンタリ・ループには、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタの一つとして、上述の図2に示すような、MVC・エクステンション・デスクリプタ(MVC_extension_descriptor)が挿入されている。
 図8は、立体(3D)画像送信時におけるトランスポートストリームTSの構成例を示している。この構成例は、サブストリーム構成が複数のストリームで構成される場合、ここでは2つのストリームで構成される場合(2-PID case)を示している。この構成例では、トランスポートストリームTSに、ベースビューの画像データを含むMVCのビデオエレメンタリストリーム(ベースサブストリーム)のPESパケット「Video PES1」が含まれている。また、この構成例では、トランスポートストリームTSに、ノンベースビューの画像データを含むMVCのビデオエレメンタリストリーム(拡張サブストリーム)のPESパケット「Video PES2」が含まれている。なお、この構成例では、図面の簡単化のために、その他のPESパケットに関しては、図示を省略している。
 PMTには、PESパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子(PID)、ストリームタイプ(Stream_Type)等の情報が配置されると共に、図示していないが、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。
 また、PMTには、PESパケット「Video PES2」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子(PID)、ストリームタイプ(Stream_Type)等の情報が配置される。そして、このビデオ・エレメンタリ・ループには、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタの一つとして、上述の図2に示すような、MVC・エクステンション・デスクリプタ(MVC_extension_descriptor)が挿入されている。
 「受信機の構成例」
 図9は、受信機200の構成例を示している。この受信機200は、CPU201と、フラッシュROM202と、DRAM203と、内部バス204と、リモコン受信部205と、リモコン送信機206を有している。また、この受信機200は、コンテナバッファ213と、デマルチプレクサ214と、コーデッドバッファ215と、ビデオデコーダ216と、サブストリームビデオバッファ217-1,・・・,217-Nと、スケーラ218-1,・・・,218-Nと、3Dビュー表示処理部219を有している。
 また、受信機200は、コーデッドバッファ221と、視差デコーダ222と、視差バッファ223と、視差情報変換部224を有している。また、受信機200は、コーデッドバッファ225と、グラフィクスデコーダ226と、ピクセルバッファ227と、スケーラ228と、グラフィクスシフタ229を有している。さらに、受信機200は、コーデッドバッファ230と、オーディオデコーダ231と、チャネルミキシング部232を有している。
 CPU201は、受信機200の各部の動作を制御する。フラッシュROM202は、制御ソフトウェアの格納およびデータの保管を行う。DRAM203は、CPU201のワークエリアを構成する。CPU201は、フラッシュROM202から読み出したソフトウェアやデータをDRAM203上に展開してソフトウェアを起動させ、受信機200の各部を制御する。リモコン受信部205は、リモコン送信機206から送信されたリモーコントロール信号(リモコンコード)を受信し、CPU201に供給する。CPU201は、このリモコンコードに基づいて、受信機200の各部を制御する。CPU201、フラッシュROM202およびDRAM203は内部バス204に接続されている。
 コンテナバッファ213は、デジタルチューナ等で受信されたトランスポートストリームTSを一時的に記憶する。2次元(2D)画像送信時、このトランスポートストリームTSは、例えば、AVC(2D)のビデオエレメンタリストリームを有している。このストリームには、2次元画像表示のための画像データが含まれている。
 また、立体(3D)画像送信時、このトランスポートストリームTSは、MVCのベースサブストリーム、そして、これと共に所定数の拡張サブストリームを有している。サブストリーム構成が単一のビデオストリームを構成する場合、MVCの1つのビデオストリームに、ベースビューの画像データおよび所定数のノンベースビューの画像データが含まれている。また、サブストリーム構成が複数のストリームで構成される場合、このMVCのベースサブストリームにベースビューの画像データが、そして、所定数の拡張サブストリームにそれぞれノンベースビューの画像データが含まれている。
 また、このトランスポートストリームTSのレイヤには、立体(3D)画像送信時、ベースビデオストリームあるいは拡張ビデオストリームに関連した情報の配置位置に、特定の情報が挿入されている。この実施の形態において、サブストリーム構成が単一のビデオストリームを構成する場合、PMTの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタが挿入されている。また、サブストリーム構成が複数のストリームで構成される場合、PMTの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタが挿入されている。
 デマルチプレクサ214は、コンテナバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオ、視差およびオーディオの各ストリームを抽出する。また、デマルチプレクサ214は、立体(3D)画像送信時には、このトランスポートストリームTSから、上述のMVC・エクステンション・デスクリプタを抽出し、CPU201に送る。
 CPU201は、このMVC・エクステンション・デスクリプタの存在の有無により、立体(3D)画像送信時であるか2次元(2D)画像送信時であるかが分かる。また、CPU201は、MVC・エクステンション・デスクリプタがMVCのベースビデオストリームに対応したビデオ・エレメンタリ・ループに挿入されていたとき、サブストリーム構成が単一のビデオストリームを構成すると判断できる。また、CPU201は、MVC・エクステンション・デスクリプタがMVCの拡張ビデオストリームに対応したビデオ・エレメンタリ・ループに挿入されていたとき、サブストリーム構成が複数のストリームで構成されていると判断できる。
 CPU201は、上述のMVC・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ215の管理、さらにはビデオデコーダ216の動作などを、受信された画像データに対応した状態となるように制御する。
 コーデッドバッファ215は、デマルチプレクサ214で抽出される1つまたは複数のビデオストリームを一時的に記憶する。コーデッドバッファ215は、2次元(2D)画像送信時と立体(3D)画像送信時とでバッファの管理構成方法が異なる。また、コーデッドバッファ215は、立体(3D)画像送信時にあっても、サブストリーム構成が単一のストリームを構成している場合と、サブストリーム構成が複数のストリームで構成されている場合とで、バッファの管理構成方法が異なる。
 すなわち、符号化データ(substream)が単一のPID値を持つ1つのエレメンタリストリームでデマルチプレクサ214から供給される場合、書き込み/読み出しのアドレス管理が、全体で1つとして行われる。これに対して、符号化データ(substream)が別のPID値を持つ複数のエレメンタリストリームでデマルチプレクサ214から供給される場合、各PIDを与えられた符号化データ(substream)毎に、書き込込み/読み出しのアドレス管理が独立して行われる。
 ビデオデコーダ216は、コーデッドバッファ215に記憶されているビデオエレメンタリストリームにデコード処理を行って画像データを取得する。この場合、2次元(2D)画像送信時には、AVC(2D)のビデオエレメンタリストリームに対して、1つのデコーダでデコード処理を行って、2次元(2D)画像表示のための画像データを取得する。
 また、立体(3D)画像送信時にあって、サブストリーム構成が単一のビデオストリームを構成する場合には、以下のようにデコード処理を行う。すなわち、複数ビューの画像データの符号化データが含まれるMVCの1つのビデオストリームに対して、「NAL unit header」の「view_id」によって、バッファ215からデコーダ216への処理対象のパケットの切換えを行った後、それぞれのデコード処理をデコーダ216は行う。これにより、立体(3D)画像表示のための複数のビューの画像データを取得する。
 また、立体(3D)画像送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理を行う。すなわち、デマルチプレクサ214から受け取るNAL パケットの「NAL unit header」にある「view_id」によってバッファ215への蓄積データの切換えを行う。その後、バッファ215からの圧縮データの読み出し、そしてデコーダ216へ至る処理は、単一ビュー(view)のデコードと同様に行われる。ベースビューの画像データの符号化データが含まれるMVCのベースサブストリームおよびノンベースビューの画像データの符号化データが含まれる所定数のMVCの拡張サブストリームに対して、それぞれ対応したデコーダでデコード処理を行う。これにより、立体(3D)画像表示のための複数のビューの画像データを取得する。
 サブストリームビデオバッファ217-1,・・・,217-Nは、それぞれ、ビデオデコーダ216で取得された2次元(2D)画像表示のための画像データ、あるいは、立体(3D)画像表示のための複数のビューの画像データを一時的に記憶する。ここで、3Dの場合は、Nの最小値は2である。スケーラ218-1,・・・,218-Nは、それぞれ、サブストリームビデオバッファ217-1,・・・,217-Nから出力される各ビューの画像データの出力解像度が、所定の解像度となるように調整する。
 コーデッドバッファ221は、デマルチプレクサ214で抽出される視差ストリームを一時的に蓄積する。視差デコーダ222は、上述の送信データ生成部110の視差エンコーダ113(図3参照)とは逆の処理を行う。すなわち、視差デコーダ222は、コーデッドバッファ221に記憶されている視差ストリームのデコード処理を行って、各ビューの画像データに対応した視差情報を得る。視差バッファ223は、視差デコーダ222で取得された視差情報を一時的に蓄積する。
 視差情報変換部224は、視差バッファ223に蓄積されている視差情報に基づいて、スケーリング後の画像データのサイズに合った画素単位の視差情報を生成する。例えば、送信されてくる視差情報がブロック単位である場合には、画素単位の視差情報に変換する。また、例えば、送信されてくる視差情報が画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。あるいは、受信機におけるグラフィックスなどの重畳に際して、重畳位置にあたるブロックの視差情報が適用される。
 コーデッドバッファ225は、デマルチプレクサ214で抽出されるグラフィクスストリームを一時的に蓄積する。グラフィクスデコーダ226は、上述の送信データ生成部110のグラフィクスエンコーダ116(図3参照)とは逆の処理を行う。すなわち、グラフィクスデコーダ226は、コーデッドバッファ225に記憶されているグラフィクスストリームのデコード処理を行って、グラフィクスデータ(サブタイトルデータを含む)を得る。また、グラフィクスデコーダ226は、このグラフィクスデータに基づいて、ビュー(画像)に重畳するグラフィクスのビットマップデータを発生する。
 ピクセルバッファ227は、グラフィクスデコーダ226で発生されるグラフィクスのビットマップデータを一時的に蓄積する。スケーラ228は、ピクセルバッファ227に蓄積されているグラフィクスのビットマップデータのサイズを、スケーリング後の画像データのサイズに対応するように調整する。
 グラフィクスシフタ229は、サイズ調整後のグラフィクスのビットマップデータに対して、視差情報変換部224で得られる視差情報に基づいてシフト処理を施す。そして、グラフィクスシフタ229は、3Dビュー表示処理部219から出力される各ビューの画像データにそれぞれ重畳するグラフィクスのビットマップデータを生成する。
 3Dビュー表示処理部219は、2次元(2D)画像送信時であって、2次元(2D)画像表示を行う場合には、例えば、スケーラ218-1を通して入力されるスケーリング後の2次元(2D)画像表示のための画像データに対して、グラフィクスシフタ229から出力されるグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。
 また、3Dビュー表示処理部219は、立体(3D)画像送信時であって、ステレオ立体画像表示を行う場合には、例えば、スケーラ218-1,218-2を通して入力されるスケーリング後の左眼画像データ、右眼画像データに、それぞれ、グラフィクスシフタ229から出力されるシフト処理されたグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。
 また、3Dビュー表示処理部219は、立体(3D)画像送信時であって、マルチビュー立体画像表示を行う場合には、例えば、スケーラ218-1~218-Nを通して入力されるスケーリング後の各ビューの画像データから、視差データ変換部224で得られた各ビュー間の視差データに基づいて、各ビュー間の所定数のビューの画像データを補間合成する。そして、この場合には、さらに、補間合成後の各ビューの画像データに、それぞれ、グラフィクスシフタ229から出力されるシフト処理されたグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。
 コーデッドバッファ230は、デマルチプレクサ214で抽出されるオーディオストリームを一時的に蓄積する。オーディオデコーダ231は、上述の送信データ生成部110のオーディオエンコーダ114(図3参照)とは逆の処理を行う。すなわち、オーディオデコーダ231は、コーデッドバッファ230に記憶されているオーディオスストリームのデコード処理を行って、音声データを得る。チャネルミキシング部232は、オーディオデコーダ231で得られる音声データに対して、例えば5.1チャネルサラウンド等を実現するための各チャネルの音声データを生成して出力する。
 図9に示す受信機200の動作を簡単に説明する。デジタルチューナ等で受信されたトランスポートストリームTSは、コンテナバッファ213に一時的に記憶される。このトランスポートストリームTSには、2次元(2D)画像送信時にあっては、例えば、AVC(2D)のビデオエレメンタリストリームが含まれている。また、このトランスポートストリームTSには、立体(3D)画像送信時にあっては、例えば、MVCのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれている。
 デマルチプレクサ214では、コンテナバッファ213に一時的に記憶されたトランスポートストリームTSから、ビデオ、視差およびオーディオの各ストリームが抽出される。また、デマルチプレクサ214では、立体(3D)画像送信時に、このトランスポートストリームTSから、MVC・エクステンション・デスクリプタが抽出され、CPU201に送ることが行われる。
 CPU201では、このMVC・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ215の管理、さらにはビデオデコーダ216の動作などを、2次元(2D)画像送信時、あるいは立体(3D)画像送信時にそれぞれ対応した状態となるように制御することが行われる。
 デマルチプレクサ214で抽出される1つまたは複数のビデオエレメンタリストリームは、コーデッドバッファ215に供給され、一時的に記憶される。ビデオデコーダ216では、コーデッドバッファ215に記憶されているビデオエレメンタリストリームにデコード処理を行って画像データを取得することが行われる。
 この場合、ビデオデコーダ216では、2次元(2D)画像送信時には、AVC(2D)のビデオエレメンタリストリームに対して、1つのデコーダでデコード処理が行われて、2次元(2D)画像表示のための画像データが取得される。
 また、この場合、立体(3D)画像送信時にあって、サブストリーム構成が単一のビデオストリームを構成している場合には、以下のようにデコード処理が行われて、立体(3D)画像表示のための複数のビューの画像データが取得される。すなわち、複数ビューの画像データの符号化データが含まれるMVCのベースビデオストリームに対して、「NAL unit header」の「view_id」によって、バッファ215からデコーダ216への処理対象のパケットの切換えを行った後、それぞれのデコード処理をデコーダ216は行う。
 また、この場合、立体(3D)画像送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理が行われて、立体(3D)画像表示のための複数のビューの画像データが取得される。すなわち、デマルチプレクサ214から受け取るNAL パケットの「NAL unit header」にある「view_id」によってバッファ215への蓄積データの切換えを行う。その後、バッファ215からの圧縮データの読み出し、そしてデコーダ216へ至る処理は、単一ビュー(view)のデコードと同様に行われる。ベースビューの画像データの符号化データが含まれるMVCのベースサブストリームおよびノンベースビューの画像データの符号化データが含まれる所定数のMVCの拡張サブストリームに対して、それぞれ対応したデコーダでデコード処理が行われる。
 ビデオデコーダ216で取得された2次元(2D)画像表示のための画像データ、あるいは、立体(3D)画像表示のための複数のビューの画像データは、サブストリームビデオバッファ217-1,・・・,217-Nに供給され、一時的に記憶される。そして、スケーラ218-1,・・・,218-Nで所定の解像度となるように調整された後に、3Dビュー表示処理部219に供給される。
 また、デマルチプレクサ214で抽出される視差データストリームは、コーデッドバッファ221に供給されて一時的に記憶される。視差デコーダ222では、視差データストリームのデコード処理が行われて、各ビューの画像データに対応した視差情報が得られる。この視差情報は、視差バッファ223に供給されて一時的に記憶される。
 視差情報変換部224では、視差バッファ223に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データが生成される。この場合、視差デコーダ222で得られた視差情報がブロック単位である場合には、画素単位の視差情報に変換される。あるいは、受信機におけるグラフィックスなどの重畳に際して、重畳位置にあたるブロックの視差情報が適用される。また、この場合、視差デコーダ222で得られた視差情報が画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。この視差情報は、3Dビュー表示処理部219およびグラフィクスシフタ229に供給される。
 また、デマルチプレクサ214で抽出されるグラフィクスストリームは、コーデッドバッファ225に供給されて一時的に蓄積される。グラフィクスデコーダ226では、コーデッドバッファ225に記憶されているグラフィクスストリームのデコード処理が行われて、グラフィクスデータ(サブタイトルデータを含む)が得られる。また、このグラフィクスデコーダ226では、このグラフィクスデータに基づいて、ビュー(画像)に重畳するグラフィクスのビットマップデータが発生される。
 このグラフィクスのビットマップデータは、ピクセルバッファ227に供給されて一時的に蓄積される。スケーラ228では、ピクセルバッファ227に蓄積されているグラフィクスのビットマップデータのサイズが、スケーリング後の画像データのサイズに対応するように調整される。
 グラフィクスシフタ229では、サイズ調整後のグラフィクスのビットマップデータに対して、視差情報変換部224で得られる視差情報に基づいてシフト処理が施される。そして、このグラフィクスシフタ229では、3Dビュー表示処理部219から出力される各ビューの画像データにそれぞれ重畳するグラフィクスのビットマップデータが生成される。このビットマップデータは、3Dビュー表示処理部219に供給される。
 3Dビュー表示部219では、2次元(2D)画像送信時であって、2D画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ218-1を通して入力されるスケーリング後の2次元(2D)画像表示のための画像データに対して、グラフィクスシフタ229から出力されるグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。
 また、3Dビュー表示処理部219では、立体(3D)画像送信時であって、ステレオ立体画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ218-1,218-2を通して入力されるスケーリング後の左眼画像データ、右眼画像データに、それぞれ、グラフィクスシフタ229から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。
 また、3Dビュー表示処理部219では、立体(3D)画像送信時であって、マルチビュー立体画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ218-1~218-Nを通して入力されるスケーリング後の各ビューの画像データから、視差情報変換部224で得られた各ビュー間の視差データに基づいて、各ビュー間の所定数のビューの画像データが補間合成される。そして、この場合には、さらに、補間合成後の各ビューの画像データに、それぞれ、グラフィクスシフタ229から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。
 また、デマルチプレクサ214で抽出されるオーディオストリームは、コーデッドバッファ230に供給されて一時的に蓄積される。オーディオデコーダ231では、コーデッドバッファ230に記憶されているオーディオスストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部232に供給される。チャネルミキシング部232では、音声データに対して、例えば5.1チャネルサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。
 上述したように、CPU201では、MVC・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ215の管理、さらにはビデオデコーダ216の動作などが、2次元(2D)画像送信時、あるいは立体(3D)画像送信時にそれぞれ対応した状態となるように制御することが行われる。
 図10のフローチャートは、CPU201の制御処理の一例を示している。CPU201は、例えば、チャネル切り替えなどのサービスが変更になるタイミングで、このフローチャートによる制御処理を実行する。
 CPU201は、ステップST1において、処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、CPU201は、PMTの配下のベースビデオストリーム(Stream_type=0×1B)に対応したビデオ・エレメンタリ・ループ(第1のESループ)のデスクリプタ部分に、MVC・エクステンション・デスクリプタが存在するか判断する。
 第1のESループにMVC・エクステンション・デスクリプタが存在するとき、CPU201は、ステップST3において、立体(3D)画像送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であると識別する。つまり、1つのエレメンタリストリーム(elementary stream)によるサービスと識別する。そして、CPU201は、全てのサブストリーム(Substream)の符号化データが共通のバッファ経由でデコード処理に進むように制御する。
 図11(b)は、この場合における受信機200における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ(Stream type)が「0×1B」のベースビデオストリームに、ベースビューの画像データの符号化データと1つのノンベースビューの画像データの符号化データが含まれている場合の例である。また、この例は、各ビューの符号化データに対してそれぞれを別のデコーダでデコード処理を行うようにした場合の例である。実線aはベースビューの画像データの処理の流れを示し、破線bはノンベースビューの画像データの処理の流れを示している。なお、レンダリングは、スケーラや3Dビュー表示処理部219における処理を意味している。
 また、ステップST2で第1のESループにMVC・エクステンション・デスクリプタが存在しないとき、CPU201は、ステップST4において、拡張ビデオストリーム(Stream_type=0×20)が存在するか否かを判断する。拡張ビデオストリームが存在するとき、CPU201は、ステップST5において、PMTの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ(第2のESループ)のデスクリプタ部分に、MVC・エクステンション・デスクリプタが存在するか判断する。
 第2のESループにMVC・エクステンション・デスクリプタが存在するとき、CPU201は、ステップST6において、立体(3D)画像送信時であって、サブストリーム構成が複数のストリームで構成される場合であると識別する。つまり、複数のエレメンタリストリーム(elementary stream)によるサービスと識別する。そして、CPU201は、サブストリーム(Substream)毎に符号化データのバッファ管理を行ってデコード処理に進むように制御する。
 図11(c)は、この場合における受信機200における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ(Stream type)が「0×1B」のベースビューの画像データの符号化データを含むベースビデオストリームと、ストリームタイプ(Stream type)が「0×20」のノンベースビューの画像データの符号化データを含む拡張ビデオストリームの2つのビデオストリームが存在する場合の例である。実線aはベースビューの画像データの処理の流れを示し、破線bはノンベースビューの画像データの処理の流れを示している。なお、レンダリングは、スケーラや3Dビュー表示処理部219における処理を意味している。
 また、ステップST4で拡張ビデオストリームが存在しないとき、あるいはステップST5で第2のESループにMVC・エクステンション・デスクリプタが存在しないとき、CPU201は、ステップST7において、基本的な従来の処理を行うように制御する。図11(a)は、この場合における受信機200における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ(Stream type)が「0×1B」の2次元(2D)画像データの符号化データを含むベースビデオストリームのみが存在する場合の例である。実線aは2次元画像データの処理の流れを示している。なお、レンダリングは、スケーラや3Dビュー表示処理部219における処理を意味している。
 以上説明したように、図1に示す画像送受信システム10においては、サブストリーム構成が単一のビデオストリームを構成する場合、PMTの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタが挿入される。また、サブストリーム構成が複数のストリームで構成される場合、PMTの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、MVC・エクステンション・デスクリプタが挿入される。
 そのため、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。したがって、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。
 <2.変形例>
 なお、上述実施の形態においては、本技術をMVCストリームに適用した例を示した。すなわち、第1の画像データが立体(3D)画像表示のためのベースビューの画像データであり、第2の画像データが立体(3D)画像表示のためのノンベースビューの画像データである例を示した。
 しかし、本技術は、SVCストリームにも同様に適用できる。SVCストリームには、スケーラブル符号化画像データを構成する最下位階層の画像データのビデオエレメンタリストリームが含まれる。さらに、このSVCストリームには、スケーラブル符号化画像データを構成する最下位階層以外の所定数の上位階層の画像データのビデオエレメンタリストリームが含まれる。
 このSVCストリームの場合、第1の画像データはスケーラブル符号化画像データを構成する最下位階層の画像データであり、第2の画像データはスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データとなる。このSVCストリームの場合も、上述したMVCストリームと同様に、サブストリーム構成が単一のビデオストリームを構成する場合(図4(a)参照)と、サブストリーム構成が複数のストリームで構成される場合(図4(b)参照)とが考えられる。
 サブストリーム構成が単一のビデオストリームを構成する場合、最下位階層およびそれ以外の階層の画像データが1つのピクチャとして符号化されて得られたビデオストリームは、SVCのベースビデオストリームとして送信される。この場合、PMTの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、SVC・エクステンション・デスクリプタが挿入される。
 SVC・エクステンション・デスクリプタを、このように挿入することにより、受信側では、SVCストリームの送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であることが分かる。つまり、受信側では、トランスポートストリームTSが、最下位階層およびそれ以外の階層の画像データが1つのピクチャとして符号化されて得られたベースビデオストリームを有していることが分かる。
 また、サブストリーム構成が複数のストリームで構成される場合、最下位階層の画像データが1つのピクチャとして符号化されて得られたエレメンタリビデオストリームは、SVCのベースビデオストリームとして送信される。また、最下位階層以外の各階層の画像データがそれぞれ1つのピクチャとして符号化されて得られたエレメンタリビデオストリームは拡張ビデオストリームとして送信される。この場合、PMTの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、SVC・エクステンション・デスクリプタが挿入される。
 SVC・エクステンション・デスクリプタを、このように挿入することにより、受信側では、SVCストリームの送信時であって、サブストリーム構成が複数のストリームで構成される場合であることが分かる。つまり、受信側では、トランスポートストリームTSが、最下位階層の画像データを含むベースビデオストリームと、最下位階層以外の各階層の画像データをそれぞれ含む拡張ビデオストリームとを有していることが分かる。
 全体の詳細説明は省略するが、図12は、SVC・エクステンション・デスクリプタの構造例(Syntax)を示している。「view order index_start」は最下位階層の番号を示し「view order index_end」は最上位階層の番号を示し、これらの情報により全体の階層数が分かる。また、「dependency_id」は、このデスクリプタが対応する階層が何番目の階層かを示す。
 図13は、NALユニットヘッダ(NAL unit header SVC extension)の構成例(Syntax)を示している。「dependency_id」のフィールドは、該当する階層が何番目の階層かを示す。つまり、受信側では、デコード時に、この「dependency_id」のフィールド情報に基づいて、それぞれの符号化データが、どの階層の画像データであるかが認識可能となっている。
 図14は、上述のSVCストリームを取り扱う受信機200Aの構成例を示している。この図14において、上述の図9と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
 受信機200Aは、放送局100から放送波に載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSには、通常の画像送信時には、AVC(2D)のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームTSには、SVCストリーム送信時には、SVCのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれる。
 受信機200Aは、トランスポートストリームTSのレイヤにおける特定情報の存在および挿入位置に基づいて、このトランスポートストリームTSが有するビデオストリームを処理する。すなわち、デコード時のバッファメモリの構成やデコードそして表示モードを決定する。受信機200Aは、通常画像表示のための画像データ、あるいは最下位階層およびその上位階層の画像データを取得して、通常画像表示、あるいは高品質画像表示を行う。
 受信機200Aは、PMT配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループ(第1のESループ)のデスクリプタ部分に、SVC・エクステンション・デスクリプタが存在するか判断する。そして、受信機200Aは、第1のESループにそのデスクリプタが存在するとき、SVCストリームの送信時であって、このベースビデオストリームが、最下位階層およびその上位階層の各階層の画像データを含むものであると認識する。この場合、受信機200Aは、トランスポートストリームTSに含まれるベースビデオストリームをデコードして、高品質画像表示を行うための各階層の画像データを取得して、高品質な画像表示を行う。
 また、受信機200Aは、第1のESループにSVC・エクステンション・デスクリプタ存在しないとき、トランスポートストリームTSに、拡張ビデオストリームが含まれているか判断する。そして、受信機200Aは、拡張ビデオストリームが含まれているとき、PMTの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ(第2のESループ)のデスクリプタ部分に、SVC・エクステンション・デスクリプタが存在するか判断する。
 そして、受信機200Aは、第2のESループにそのデスクリプタが存在するとき、SVCストリームの送信時であって、この拡張ビデオストリームおよびベースビデオストリームが、最下位階層およびその上位階層の各階層の画像データを含むものであると認識する。この場合、受信機200Aは、トランスポートストリームTSに含まれる複数のビデオストリームをデコードして、高品質画像表示を行うための各階層の画像データを取得して、高品質な画像表示を行う。
 また、受信機200Aは、トランスポートストリームTSに拡張ビデオストリームが含まれていないとき、あるいは第2のESループにSVC・エクステンション・デスクリプタが存在しないとき、通常の画像送信時であると認識する。この場合、受信機200Aは、トランスポートストリームTSに含まれるビデオストリームをデコードして、通常画像データを取得して、通常画像表示を行う。
 デマルチプレクサ214では、SVCストリームの送信時に、トランスポートストリームTSから、SVC・エクステンション・デスクリプタが抽出され、CPU201に送ることが行われる。CPU201では、このSVC・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ215の管理、さらにはビデオデコーダ216の動作などを、通常画像送信時、あるいはSVCストリームの送信時にそれぞれ対応した状態となるように制御することが行われる。
 デマルチプレクサ214で抽出される1つまたは複数のビデオエレメンタリストリームは、コーデッドバッファ215に供給され、一時的に記憶される。ビデオデコーダ216では、コーデッドバッファ215に記憶されているビデオエレメンタリストリームにデコード処理を行って画像データを取得することが行われる。
 この場合、ビデオデコーダ216では、通常画像送信時には、AVCのビデオエレメンタリストリームに対して、1つのデコーダでデコード処理が行われて、通常画像表示のための画像データが取得される。
 また、この場合、SVCフレームの送信時にあって、サブストリーム構成が単一のビデオストリームを構成する場合には、以下のようにデコード処理が行われて、高品質画像表示のための複数階層の画像データが取得される。すなわち、複数階層の画像データの符号化データが含まれるSVCのベースビデオストリームに対して、NAL unit header のdependenncy_idによって、バッファ215からデコーダ216への処理対象のパケットを切換えを行った後、それぞれのデコード処理をデコーダ216は行う。
 また、この場合、SVCフレームの送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理が行われて、高品質画像表示のための複数階層の画像データが取得される。すなわち、デマルチプレクサ214から受け取るNAL パケットのNAL unit headerにあるdependency_idによってバッファ215への蓄積データの切換えを行う。その後、バッファ215からの圧縮データの読み出し、そしてデコーダ216へ至る処理は、単一streamのデコードと同様に行われる。このようにして、最下位階層の画像データの符号化データが含まれるSVCのベースビデオストリームおよびその上位階層の画像データの符号化データが含まれる所定数のSVCの拡張ビデオストリームに対して、それぞれ対応したデコーダでデコード処理が行われる。
 高画質化処理部233は、通常画像送信時であって、通常画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ218-1を通して入力されるスケーリング後の画像データに対して、グラフィクスシフタ229から出力されるグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。
 また、高画質化処理部233では、SVCストリームの送信時であって、高品質画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ218-1~218-Nを通して入力されるスケーリング後の各階層の画像データから、高品質画像表示のための画像データが生成され、グラフィクスシフタ229から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。
 このように、本技術をSVCストリームに適用する場合にあっても、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。したがって、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。
 また、上述実施の形態においては、トランスポートストリームTSを放送波にのせて配信する例を示したが、本技術は、このトランスポートストリームTSを、インターネット等のネットワークを通じて配信する場合にも同様に適用できる。一方で、トランスポートストリームTS以外のコンテナファイルフォーマットにおけるインターネット配信の場合にも、本技術を適用できることは勿論である。
 なお、本技術は、以下のような構成も取ることができる。
 (1)第1の画像データと該第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
 上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
 画像データ送信装置。
 (2)上記特定の情報は、上記第1の画像データおよび上記所定数の第2の画像データの情報を持つデスクリプタである
 前記(1)に記載の画像データ送信装置。
 (3)上記コンテナは、トランスポートストリームであり、
 上記情報挿入部は、
 上記デスクリプタを、プログラム・マップ・テーブルの配下の上記ベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
 前記(2)に記載の画像データ送信装置。
 (4)上記第1の画像データは、立体画像表示のためのベースビューの画像データであり、
 上記第2の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
 上記デスクリプタは、上記各ビューの情報を持つMVC・エクテンション・デスクリプタである
 前記(2)または(3)に記載の画像データ送信装置。
 (5)上記第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
 上記第2の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
 上記デスクリプタは、上記各階層の画像データの情報を持つSVC・エクステンション・デスクリプタである
 前記(2)または(3)に記載の画像データ送信装置。
 (6)第1の画像データと該第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する
 画像データ送信方法。
 (7)第1の画像データを含むベースビデオストリームと上記第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
 上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
 画像データ送信装置。
 (8)上記特定の情報は、上記第1の画像データおよび上記所定数の第2の画像データの情報を持つデスクリプタである
 前記(7)に記載の画像データ送信装置。
 (9)上記コンテナは、トランスポートストリームであり、
 上記情報挿入部は、
 上記デスクリプタを、プログラム・マップ・テーブルの配下の上記所定数の拡張ビデオストリームにそれぞれ対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
 前記(8)に記載の画像データ送信装置。
 (10)上記第1の画像データは、立体画像表示のためのベースビューの画像データであり、
 上記第2の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
 上記特定の情報は、上記各ビューの情報を持つMVC・エクテンション・デスクリプタである
 前記(8)または(9)に記載の画像データ送信装置。
 (11)上記第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
 上記第2の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
 上記特定の情報は、上記各階層の画像データの情報を持つSVC・エクステンション・デスクリプタである
 前記(8)または(9)に記載の画像データ送信装置。
 (12)第1の画像データを含むベースビデオストリームと上記第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する
 画像データ送信方法。
 (13)所定フォーマットのコンテナを受信する受信部と、
 上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
 画像データ受信装置。
 (14)上記処理部は、
 上記コンテナのレイヤの、該コンテナに含まれるベースビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該ベースビデオストリームを処理して上記所定数の画像データを取得する
 前記(13)に記載の画像データ受信装置。
 (15)上記処理部は、
 上記コンテナのレイヤの該コンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該拡張ビデオストリームおよび上記コンテナに含まれるベースビデオストリームを処理して上記所定数の画像データを取得する
 前記(13)または(14)に記載の画像データ受信装置。
 (16)上記所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成する
 前記(13)から(15)のいずれかに記載の画像データ受信装置。
 (17)所定フォーマットのコンテナを受信するステップと、
 上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するステップとを備える
 画像データ受信方法。
 本技術の主な特徴は、PMTの配下のMVCのベースビデオストリームまたは拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分にMVC・エクテンション・デスクリプタを挿入することで、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能としたことである(図5、図7、図8参照)。
 10・・・画像送受信システム
 100・・・放送局
 110・・・送信データ生成部
 111・・・データ取り出し部
 111a・・・データ記録媒体
 112・・・ビデオエンコーダ
 113・・・視差エンコーダ
 114・・・オーディオエンコーダ
 115・・・グラフィクス発生部
 116・・・グラフィクスエンコーダ
 117・・・マルチプレクサ
 200,200A・・・受信機
 201・・・CPU
 213・・・コンテナバッファ
 214・・・デマルチプレクサ
 215・・・コーデッドバッファ
 216・・・ビデオデコーダ
 217-1~217-N・・・サブストリームバッファ
 218-1~218-N・・・スケーラ
 219・・・3Dビュー表示処理部
 221・・・コーデッドバッファ
 222・・・視差デコーダ
 223・・・ビデオデコーダ
 224・・・視差情報変換部
 225・・・コーデッドバッファ
 226・・・グラフィクスデコーダ
 227・・・ピクセルバッファ
 228・・・スケーラ
 229・・・グラフィクスシフタ
 230・・・コーデッドバッファ
 231・・・オーディオデコーダ
 232・・・チャネルミキシング部
 233・・・高画質化処理部

Claims (17)

  1.  第1の画像データと該第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
     上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
     画像データ送信装置。
  2.  上記特定の情報は、上記第1の画像データおよび上記所定数の第2の画像データの情報を持つデスクリプタである
     請求項1に記載の画像データ送信装置。
  3.  上記コンテナは、トランスポートストリームであり、
     上記情報挿入部は、
     上記デスクリプタを、プログラム・マップ・テーブルの配下の上記ベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
     請求項2に記載の画像データ送信装置。
  4.  上記第1の画像データは、立体画像表示のためのベースビューの画像データであり、
     上記第2の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
     上記デスクリプタは、上記各ビューの情報を持つMVC・エクテンション・デスクリプタである
     請求項2に記載の画像データ送信装置。
  5.  上記第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
     上記第2の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
     上記デスクリプタは、上記各階層の画像データの情報を持つSVC・エクステンション・デスクリプタである
     請求項2に記載の画像データ送信装置。
  6.  第1の画像データと該第1の画像データに関連した所定数の第2の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する
     画像データ送信方法。
  7.  第1の画像データを含むベースビデオストリームと上記第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
     上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
     画像データ送信装置。
  8.  上記特定の情報は、上記第1の画像データおよび上記所定数の第2の画像データの情報を持つデスクリプタである
     請求項7に記載の画像データ送信装置。
  9.  上記コンテナは、トランスポートストリームであり、
     上記情報挿入部は、
     上記デスクリプタを、プログラム・マップ・テーブルの配下の上記所定数の拡張ビデオストリームにそれぞれ対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
     請求項8に記載の画像データ送信装置。
  10.  上記第1の画像データは、立体画像表示のためのベースビューの画像データであり、
     上記第2の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
     上記特定の情報は、上記各ビューの情報を持つMVC・エクテンション・デスクリプタである
     請求項8に記載の画像データ送信装置。
  11.  上記第1の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
     上記第2の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
     上記特定の情報は、上記各階層の画像データの情報を持つSVC・エクステンション・デスクリプタである
     請求項8に記載の画像データ送信装置。
  12.  第1の画像データを含むベースビデオストリームと上記第1の画像データに関連した所定数の第2の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する
     画像データ送信方法。
  13.  所定フォーマットのコンテナを受信する受信部と、
     上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
     画像データ受信装置。
  14.  上記処理部は、
     上記コンテナのレイヤの、該コンテナに含まれるベースビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該ベースビデオストリームを処理して上記所定数の画像データを取得する
     請求項13に記載の画像データ受信装置。
  15.  上記処理部は、
     上記コンテナのレイヤの該コンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該拡張ビデオストリームおよび上記コンテナに含まれるベースビデオストリームを処理して上記所定数の画像データを取得する
     請求項13に記載の画像データ受信装置。
  16.  上記所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成する
     請求項13に記載の画像データ受信装置。
  17.  所定フォーマットのコンテナを受信するステップと、
     上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するステップとを備える
     画像データ受信方法。
PCT/JP2013/057559 2012-04-24 2013-03-15 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法 WO2013161442A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP13782073.4A EP2725804A4 (en) 2012-04-24 2013-03-15 IMAGE DATA TRANSMISSION DEVICE, IMAGE DATA TRANSMISSION METHOD, IMAGE DATA RECEIVING DEVICE, AND IMAGE DATA RECEIVING METHOD
US14/126,995 US20140111612A1 (en) 2012-04-24 2013-03-15 Image data transmitting apparatus, image data transmitting method, image data receiving apparatus, and image data receiving method
CN201380001729.4A CN103621075A (zh) 2012-04-24 2013-03-15 图像数据发送装置、图像数据发送方法、图像数据接收装置和图像数据接收方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-099316 2012-04-24
JP2012099316 2012-04-24

Publications (1)

Publication Number Publication Date
WO2013161442A1 true WO2013161442A1 (ja) 2013-10-31

Family

ID=49482779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/057559 WO2013161442A1 (ja) 2012-04-24 2013-03-15 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法

Country Status (5)

Country Link
US (1) US20140111612A1 (ja)
EP (1) EP2725804A4 (ja)
JP (1) JPWO2013161442A1 (ja)
CN (1) CN103621075A (ja)
WO (1) WO2013161442A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2688668C2 (ru) * 2014-04-14 2019-05-22 Сони Корпорейшн Передающее устройство, способ передачи, приёмное устройство и способ приёма
JP2021093772A (ja) * 2014-08-07 2021-06-17 ソニーグループ株式会社 送信方法および送信装置
JP2021101566A (ja) * 2014-07-31 2021-07-08 ソニーグループ株式会社 送信方法および送信装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016035731A1 (ja) * 2014-09-04 2016-03-10 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
KR102643537B1 (ko) * 2014-09-12 2024-03-06 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
KR102423610B1 (ko) * 2015-02-27 2022-07-22 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
CN107925767A (zh) * 2015-09-10 2018-04-17 索尼公司 发送设备、发送方法,接收设备和接收方法
WO2020255799A1 (ja) * 2019-06-18 2020-12-24 ソニーセミコンダクタソリューションズ株式会社 送信装置、受信装置、および通信システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006114A (ja) * 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
JP2011234336A (ja) * 2010-04-06 2011-11-17 Sony Corp 画像データ送信装置、画像データ送信方法および画像データ受信装置
WO2012020555A1 (ja) * 2010-08-09 2012-02-16 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101372376B1 (ko) * 2009-07-07 2014-03-14 경희대학교 산학협력단 디지털 방송 시스템의 스테레오스코픽 비디오 수신 방법
JP2013126048A (ja) * 2011-12-13 2013-06-24 Sony Corp 送信装置、送信方法、受信装置および受信方法
CN103416069A (zh) * 2012-01-13 2013-11-27 索尼公司 发送设备、发送方法、接收设备以及接收方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005006114A (ja) * 2003-06-12 2005-01-06 Sharp Corp 放送データ送信装置、放送データ送信方法および放送データ受信装置
JP2011234336A (ja) * 2010-04-06 2011-11-17 Sony Corp 画像データ送信装置、画像データ送信方法および画像データ受信装置
WO2012020555A1 (ja) * 2010-08-09 2012-02-16 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Joint Draft 4.0 on MultiviewVideo Coding, Joint Video Team of ISO/IEC MPEG & ITU-T VCEG", JVT-X209, July 2007 (2007-07-01)
HEIKO SCHWARZ; DETLEV MARPE; THOMAS WIEGAND: "Overview of the Scalable Video CodingExtension of the H. 264/AVC Standard", IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 17, no. 9, September 2007 (2007-09-01), pages 1103 - 1120
See also references of EP2725804A4 *
THOMAS WIEGAND ET AL.: "Draft Errata List withRevision-Marked Corrections for H. 264/AVC", JVT-1050, 2003

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2688668C2 (ru) * 2014-04-14 2019-05-22 Сони Корпорейшн Передающее устройство, способ передачи, приёмное устройство и способ приёма
JP2021101566A (ja) * 2014-07-31 2021-07-08 ソニーグループ株式会社 送信方法および送信装置
JP7147902B2 (ja) 2014-07-31 2022-10-05 ソニーグループ株式会社 送信方法および送信装置
JP2022177214A (ja) * 2014-07-31 2022-11-30 ソニーグループ株式会社 送信方法、送信装置、受信装置および受信方法
JP7380796B2 (ja) 2014-07-31 2023-11-15 ソニーグループ株式会社 送信方法、送信装置、受信装置および受信方法
JP2021093772A (ja) * 2014-08-07 2021-06-17 ソニーグループ株式会社 送信方法および送信装置
JP7147903B2 (ja) 2014-08-07 2022-10-05 ソニーグループ株式会社 送信方法および送信装置
JP7416164B2 (ja) 2014-08-07 2024-01-17 ソニーグループ株式会社 送信方法、送信装置、受信装置および受信方法

Also Published As

Publication number Publication date
EP2725804A1 (en) 2014-04-30
EP2725804A4 (en) 2015-02-25
CN103621075A (zh) 2014-03-05
JPWO2013161442A1 (ja) 2015-12-24
US20140111612A1 (en) 2014-04-24

Similar Documents

Publication Publication Date Title
JP5594002B2 (ja) 画像データ送信装置、画像データ送信方法および画像データ受信装置
JP5577823B2 (ja) 送信装置、送信方法、受信装置および受信方法
WO2013161442A1 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
JP6192902B2 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
WO2013105401A1 (ja) 送信装置、送信方法、受信装置および受信方法
US8953019B2 (en) Method and apparatus for generating stream and method and apparatus for processing stream
WO2013073455A1 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
WO2012070364A1 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法
KR102009049B1 (ko) 송신 장치, 송신 방법, 수신 장치 및 수신 방법
WO2013054775A1 (ja) 送信装置、送信方法、受信装置および受信方法
JP5928118B2 (ja) 送信装置、送信方法、受信装置および受信方法
WO2012147596A1 (ja) 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2014512420

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013782073

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14126995

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13782073

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE