WO2013161442A1

WO2013161442A1 - 画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法

Info

Publication number: WO2013161442A1
Application number: PCT/JP2013/057559
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2012-04-24
Filing date: 2013-03-15
Publication date: 2013-10-31
Also published as: EP2725804A1; EP2725804A4; CN103621075A; JPWO2013161442A1; US20140111612A1

Abstract

　サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能とする。　第１の画像データとこの第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、このコンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する。第１の画像データを含むベースビデオストリームとこの第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、このコンテナのレイヤの所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する。

Description

画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法

　本技術は、画像データ送信装置、画像データ送信方法、画像データ受信装置および画像データ受信方法に関し、特に、立体画像表示のための画像データ、スケーラブル符号化画像データ等を送信する画像データ送信装置等に関する。

　従来、動画像の符号化方式として、Ｈ．２６４／ＡＶＣ（Advanced Video Coding）が知られている（非特許文献１参照）。また、このＨ．２６４／ＡＶＣの拡張方式として、Ｈ．２６４／ＭＶＣ（Multi-view Video Coding）が知られている（非特許文献２参照）。

　ＭＶＣでは、マルチビューの画像データをまとめて符号化する仕組みが採用されている。ＭＶＣでは、マルチビュー画像データを、１個のベースビュー(base view)の画像データと、１個以上のノンベースビュー (non-baseview)の画像データとして符号化する。

　なお、このＨ．２６４／ＡＶＣの拡張方式として、Ｈ．２６４／ＳＶＣ（Scalable Video Coding）も知られている（非特許文献３参照）。ＳＶＣは、画像を階層的に符号化する技術である。ＳＶＣでは、動画像を最低限の品質で復号化するのに必要な画像データを有する基本階層（最下位階層）と、この基本階層に付加することによって動画像の品質を高める画像データを有する拡張階層（上位階層）に分けられている。

「Draft Errata List withRevision-Marked Corrections for H.264/AVC」, JVT-1050,Thomas Wiegand et al., Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG,2003 Joint Draft 4.0 on MultiviewVideo Coding, Joint Video Team of ISO/IEC MPEG & ITU-T VCEG,JVT-X209, July2007 Heiko Schwarz, Detlev Marpe, andThomas Wiegand,"Overview of the Scalable Video CodingExtension of the H.264/AVC Standard ", IEEETRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL.17, NO.9,SEPTEMBER 2007, pp.1103-1120.

　ＭＶＣの場合、ベースビューの画像データが１つのピクチャとして符号化されて得られたベースビデオストリームと、ノンベースビューの画像データがそれぞれ１つのピクチャとして得られた所定数の拡張ビデオストリームを、トランスポートストリームで送信することが知られている。また、このＭＶＣの場合、ベースビューの画像データと所定数のノンベースビューの画像データを１つのストリームとして符号化して得られたベースビデオストリームを、コンテナとしてのトランスポートストリームで送信することも知られている。

　トランスポートストリームの中にビデオストリームが複数ある場合、つまりサブストリーム構成が複数のストリームで構成される場合は、それぞれが同期処理される必要がある。また、この場合、ビットレートはそれぞれのビデオストリームで変化具合が独立していて異なるが、トランスポートストリーム全体では、コンスタントビットレートあるいはバリアブルビットレートなど、システム要求に従って、レート制御を行うことが要求される。また、この場合、ランダムアクセス時に複数のストリームの頭出し（主にはＩピクチャ)がスムーズに行われる必要があるため、複数のビデオストリームを多重化することは高度な技術が必要とされる。

　一方、トランスポートストリームに１つのビデオストリームのみが存在する場合、つまり複数のサブストリームが１つのビデオストリームで構成される場合は、各ビューの画像データの符号化データは、例えばアクセスユニット（access unit）ごとに連結され、その固まりごとにデコード、表示が行われるようにすることが可能になる。そのため、同期処理、ランダムアクセスへの配慮が単純になる。

　また、複数のピクチャ（picture）の固まりを一つの大きなピクチャ（picture）として、レートコントロール（rate control）を行うというような単純な多重化が可能となり、全体としてエンコードから多重化に至る制御が容易になるという利点がある。そのため、特に、送信側では、トランスポートストリームに１つのビデオストリームのみが存在する場合の方が扱いやすいと判断される場合がある。

　本技術の目的は、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能とし、受信側の処理の便宜を図ることにある。

　本技術の概念は、
　第１の画像データと該第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置にある。

　本技術において、送信部により、第１の画像データとこの第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。情報挿入部により、コンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報が挿入される。

　なお、本技術において、例えば、特定の情報は、第１の画像データおよび所定数の第２の画像データの情報を持つデスクリプタであってもよい。また、本技術において、例えば、コンテナは、トランスポートストリームであり、情報挿入部は、デスクリプタを、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する、ようにされてもよい。

　また、本技術において、例えば、第１の画像データは、立体画像表示のためのベースビューの画像データであり、第２の画像データは、立体画像表示のためのベースビュー以外のビューの画像データであり、デスクリプタは、各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタであってもよい。

　また、本技術において、例えば、第１の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、第２の画像データは、スケーラブル符号化画像データを構成する最下位階層以外の階層の画像データであり、デスクリプタは、各階層の画像データの情報を持つＳＶＣ・エクステンション・デスクリプタであってもよい。

　このように本技術においては、第１の画像データとこの第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、このコンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報を挿入するものである。

　そのため、受信側においては、このコンテナが第１の画像データとこの第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有していることを確実かつ容易に識別可能となる。そして、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定することが可能となる。

　また、本技術の他の概念は、
　第１の画像データを含むベースビデオストリームと上記第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置にある。

　本技術において、第１の画像データを含むベースビデオストリームと第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。情報挿入部により、コンテナのレイヤのベースビデオストリームに関連した情報の配置位置に特定の情報が挿入される。

　本技術において、例えば、特定の情報は、第１の画像データおよび所定数の第２の画像データの情報を持つデスクリプタであってもよい。また、本技術において、例えば、コンテナは、トランスポートストリームであり、情報挿入部は、デスクリプタを、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する、ようにされてもよい。

　なお、本技術において、例えば、第１の画像データは、立体画像表示のためのベースビューの画像データであり、第２の画像データは、立体画像表示のためのベースビュー以外のビューの画像データであり、デスクリプタは、各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタであってもよい。

　このように本技術においては、第１の画像データを含むベースビデオストリームとこの第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、このコンテナのレイヤの所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入するものである。

　そのため、受信側においては、このコンテナが第１の画像データを含むベースビデオストリームとこの第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含むベースビデオストリームを有していることを確実かつ容易に識別可能となる。そして、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定することが可能となる。

　また、本技術の他の概念は、
　所定フォーマットのコンテナを受信する受信部と、
　上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
　画像データ受信装置にある。

　本技術において、受信部により、所定フォーマットのコンテナが受信される。そして、処理部により、コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、このコンテナが有するビデオストリームが処理されて、互いに関連した所定数の画像データが取得される。例えば、所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成するものであってもよい。

　なお、本技術において、例えば、処理部は、コンテナのレイヤのこのコンテナに含まれるベースビデオストリームに関連した情報の配置位置に特定の情報の挿入があるとき、このベースビデオストリームを処理して所定数の画像データを取得する、ようにされてもよい。また、本技術において、例えば、処理部は、コンテナのレイヤのこのコンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に特定の情報の挿入があるとき、この拡張ビデオストリームおよびこのコンテナに含まれるベースビデオストリームを処理して所定数の画像データを取得する、ようにされてもよい。

　このように本技術においては、コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、このコンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するものである。この場合、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。

　本技術によれば、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。

この発明の実施の形態としての画像送受信システムの構成例を示すブロック図である。ＭＶＣ・エクステンション・デスクリプタの構造例（Syntax）を示す図である。画像送受信システムを構成する放送局の送信データ生成部の構成例を示すブロック図である。ベースビデオストリーム、拡張ビデオストリームに対応させてＭＶＣ・エクステンション・デスクリプタの挿入を行うことを模式的に示す図である。ＮＡＬユニットヘッダ（NAL unit header MVC extension）の構成例（Syntax）を示す図である。２次元（２Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示す図である。立体（３Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示す図である。立体（３Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示す図である。画像送受信システムを構成する受信機の構成例を示すブロック図である。ＭＶＣ・エクステンション・デスクリプタの存在および挿入位置に基づく、ＣＰＵの制御処理の一例を示すフローチャートである。各種信号の受信時における受信機の処理の流れを概略的に示す図である。ＳＶＣ・エクステンション・デスクリプタの構造例（Syntax）を示す図である。ＮＡＬユニットヘッダ（NAL unit header SVC extension）の構成例（Syntax）を示す図である。ＳＶＣストリームを取り扱う受信機の構成例を示すブロック図である。

　以下、本技術を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［画像送受信システム］
　図１は、実施の形態としての画像送受信システム１０の構成例を示している。この画像送受信システム１０は、放送局１００および受信機２００により構成されている。放送局１００は、コンテナとしてのトランスポートストリームＴＳを放送波に載せて送信する。

　２次元（２Ｄ）画像送信時には、トランスポートストリームＴＳに、２次元画像データを含むビデオストリームが含まれる。この場合、ビデオストリームは、例えば、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームとして送信される。

　立体（３Ｄ）画像送信時には、トランスポートストリームＴＳに、立体画像表示のためのベースビューの画像データと、ベースビュー以外の所定数のビューの画像データとを含む１つのビデオストリームが含まれる場合がある。つまり、サブストリーム構成が単一のビデオストリームを構成する場合である。この場合、ベースビューおよび所定数のノンベースビューの画像データが１つのピクチャとして符号化されて得られたビデオストリームは、ＭＶＣのビデオエレメンタリストリーム（ベースビデオストリーム）として送信される。

　この場合、トランスポートストリームＴＳのレイヤの、上述のベースビデオストリームに関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタが挿入される。この実施の形態においては、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）が挿入される。

　ＭＶＣ・エクステンション・デスクリプタを、このように挿入することにより、受信側では、立体（３Ｄ）画像送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であることが分かる。つまり、受信側では、トランスポートストリームＴＳが、立体画像表示のためのベースビューの画像データと、ベースビュー以外の所定数のビューの画像データとを含むベースビデオストリームを有していることが分かる。

　また、立体（３Ｄ）画像送信時には、トランスポートストリームＴＳに、立体画像表示のためのベースビューの画像データを含むベースビデオストリームと、ベースビュー以外の所定数のビューの画像データのそれぞれを含む所定数の拡張ビデオストリームとが含まれる場合がある。つまり、サブストリーム構成が複数のストリームで構成される場合である。

　この場合、ベースビューの画像データが１つのピクチャとして符号化されて得られたビデオストリームは、ＭＶＣのベースビューのビデオエレメンタリストリーム（ベースビデオストリーム）として送信される。また、所定数のノンベースビューの画像データがそれぞれ１つのピクチャとして符号化されて得られた所定数のビデオストリームは、ＭＶＣのノンベースビューのビデオエレメンタリストリーム（拡張ビデオストリーム）として送信される。

　この場合、トランスポートストリームＴＳのレイヤの、上述の所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタが挿入される。この実施の形態においては、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）が挿入される。

　ＭＶＣ・エクステンション・デスクリプタを、このように挿入することにより、受信側では、立体（３Ｄ）画像送信時であって、サブストリーム構成が複数のストリームで構成される場合であることが分かる。つまり、受信側では、トランスポートストリームＴＳが、立体画像表示のためのベースビューの画像データを含むベースビデオストリームと、ベースビュー以外の所定数のビューの画像データのそれぞれを含む所定数の拡張ビデオストリームとを有していることが分かる。

　全体の詳細説明は省略するが、図２は、このＭＶＣ・エクステンション・デスクリプタの構造例（Syntax）を示している。「view order index_start」は最初のビューの番号を示し「view order index_end」は最後のビューの番号を示し、これらの情報により全体のビュー数が分かる。また、「view_id」は、このデスクリプタが対応するビュー（ノンベースビュー）が何番目のビューかを示す。この「view_id」は、後述する「NAL unit header」において記述される「view_id」と同様の内容を指定するものであり、予約ビットとして省略されてもよい。

　受信機２００は、放送局１００から放送波に載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、２次元（２Ｄ）画像送信時には、２次元画像データを含むＡＶＣ（２Ｄ）のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームＴＳには、立体（３Ｄ）画像送信時には、ＭＶＣのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれる。

　受信機２００は、トランスポートストリームＴＳのレイヤにおける特定情報の存在および挿入位置に基づいて、このトランスポートストリームＴＳが有するビデオストリームを処理する。すなわち、デコード時のバッファメモリの構成やデコードそして表示モードを決定する。受信機２００は、２次元（２Ｄ）画像表示のための画像データ、あるいは立体（３Ｄ）画像表示のための所定数のビューの画像データを取得して、２次元（２Ｄ）画像あるいは、（３Ｄ）画像表示を行う。

　この実施の形態において、受信機２００は、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループ（第１のＥＳループ）のデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが存在するか判断する。そして、受信機２００は、第１のＥＳループにデスクリプタが存在するとき、立体（３Ｄ）画像送信時であって、このビデオストリームが、立体画像表示のためのベースビューおよびその他の所定数のビューの画像データを含むものであると認識する。この場合、受信機２００は、トランスポートストリームＴＳに含まれる該当するビデオストリームをデコードして、立体画像表示のための複数の画像データを取得して、３次元画像表示を行う。

　また、受信機２００は、第１のＥＳループにデスクリプタが存在しないとき、トランスポートストリームＴＳに、拡張ビデオストリームが含まれているか判断する。そして、受信機２００は、拡張ビデオストリームが含まれているとき、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ（第２のＥＳループ）のデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが存在するか判断する。

　そして、受信機２００は、第２のＥＳループにデスクリプタが存在するとき、立体（３Ｄ）画像送信時であって、この拡張ビデオストリームおよびベースビデオストリームが、立体画像表示のためのベースビューおよびその他の所定数のビューの画像データを含むものであると認識する。この場合、受信機２００は、トランスポートストリームＴＳに含まれる複数のビデオストリームをデコードして、立体画像表示のための複数の画像データを取得して、３次元画像表示を行う。

　また、受信機２００は、トランスポートストリームＴＳに拡張ビデオストリームが含まれていないとき、あるいは第２のＥＳループにデスクリプタが存在しないとき、２次元（２Ｄ）画像送信時であると認識する。この場合、受信機２００は、トランスポートストリームＴＳに含まれるビデオストリームをデコードして、２次元画像データを取得して、基本的な従来の２次元画像表示を行う。

　「送信データ生成部の構成例」
　図３は、放送局１００において、上述したトランスポートストリームを生成する送信データ生成部１１０の構成例を示している。この送信データ生成部１１０は、データ取り出し部（アーカイブ部）１１１と、ビデオエンコーダ１１２と、視差エンコーダ１１３と、オーディオエンコーダ１１４を有している。また、この送信データ生成部１１０は、グラフィクス発生部１１５と、グラフィクスエンコーダ１１６と、マルチプレクサ１１７を有している。

　データ取り出し部１１１には、データ記録媒体１１１ａが、例えば、着脱自在に装着される。このデータ記録媒体１１１ａには、送信すべき番組の画像データと共に、この画像データに対応した音声データが記録されている。例えば、画像データは、番組に応じて、立体（３Ｄ）画像表示のための画像データ、あるいは２次元（２Ｄ）画像表示のための画像データに切り替わる。また、例えば、画像データは、番組内においても、本編やコマーシャルなどの内容に応じて、立体画像表示のための画像データ、あるいは２次元画像表示のための画像データに切り替わる。立体画像を表示するための複数の画像データは、上述したように、ベースビューの画像データと、所定数のノンベースビューの画像データとからなっている。

　画像データが立体画像表示のための画像データである場合、データ記録媒体１１１ａには、視差情報も記録されている場合がある。この視差情報は、ベースビューと各ノンベースビューとの間の視差を示す視差情報（視差ベクトル）、あるいは奥行きデータ等である。奥行きデータは、所定の変換により視差情報として扱うことが可能となる。視差情報は、例えば、ピクセル（画素）毎の視差情報、あるいはビュー（画像）を所定数に分割して得られた各分割領域の視差情報などである。

　例えば、この視差情報は、受信側において、ベースビューおよび各ノンベースビューの画像にそれぞれ重畳する同一の重畳情報（グラフィクス情報等）の位置を調整して視差を付与するために用いられる。また、例えば、この視差情報は、受信側において、ベースビューおよび各ノンベースビューの画像データに補間処理（ポスト処理）を施して所定数のビューの表示画像データを得るために用いられる。データ記録媒体１１１ａは、ディスク状記録媒体、半導体メモリ等である。データ取り出し部１１１は、データ記録媒体１１１ａから、画像データ、音声データ、視差情報等を取り出して出力する。

　ビデオエンコーダ１１２は、データ取り出し部１１１から出力される画像データに対して、例えば、ＭＰＥＧ２ｖｉｄｅｏ、ＭＰＥＧ４－ＡＶＣ（ＭＶＣ）、あるいはＨＥＶＣなどの符号化を施して符号化ビデオデータを得る。また、このビデオエンコーダ１１２は、後段に備えるストリームフォーマッタ（図示せず）により、ビデオエレメンタリストリームを生成する。

　すなわち、このビデオエンコーダ１１２は、画像データが２次元（２Ｄ）画像データであるとき、この２次元画像データを含むＡＶＣ（２Ｄ）のビデオエレメンタリストリームを生成する。また、このビデオエンコーダ１１２は、画像データが立体（３Ｄ）画像表示のための複数のビューの画像データであるとき、この複数のビューの画像データを含む１つまたは複数のビデオエレメンタリストリームを生成する。例えば、サブストリーム構成が単一のビデオストリームを構成する場合には、ベースビューおよび所定数のノンベースビューの画像データを１つのピクチャとして符号化して、ＭＶＣのビデオエレメンタリストリーム（ベースビデオストリーム）を生成する。

　また、例えば、サブストリーム構成が複数のストリームで構成される場合には、ベースビューの画像データを１つのビデオエレメンタリストリームとして符号化して、ＭＶＣのベースビューのビデオエレメンタリストリーム（ベースビデオストリーム）を生成する。また、この場合には、さらに、所定数のノンベースビューの画像データをそれぞれ独立したビデオエレメンタリストリームとして符号化して、所定数のＭＶＣのノンベースビューのビデオエレメンタリストリーム（拡張ビデオストリーム）を生成する。

　オーディオエンコーダ１１４は、データ取り出し部１１１から出力される音声データに対して、ＭＰＥＧ２ＡｕｄｉｏＡＡＣ等の符号化を施し、オーディオのエレメンタリストリームを生成する。

　視差エンコーダ１１３は、データ取り出し部１１１から出力される視差情報に対して所定の符号化を施し、視差情報のエレメンタリストリームを生成する。なお、視差情報が、上述したようにピクセル（画素）毎の視差情報である場合、この視差情報を画素データのように取り扱うことができる。この場合、視差エンコーダ１１３は、視差情報に対して、上述した画像データと同様の符号化方式で符号化を施し、視差情報エレメンタリストリームを生成できる。なお、この場合、データ取り出し部１１１から出力される視差情報の符号化をビデオエンコーダ１１２で行う構成も考えられ、その場合には、視差情報エンコーダ１１３は不要となる。

　グラフィクス発生部１１５は、画像に重畳するグラフィクス情報（サブタイトル情報も含む）のデータ（グラフィクスデータ）を発生する。グラフィクスエンコーダ１１６は、グラフィクス発生部１１５で発生されたグラフィクスデータを含むグラフィクスエレメンタリストリームを生成する。

　グラフィクス情報は、例えば、ロゴなどである。サブタイトル情報は、例えば、字幕である。このグラフィクスデータは、ビットマップデータである。このグラフィクスデータには、画像上の重畳位置を示すオフセット情報が付加されている。このオフセット情報は、例えば、画像の左上の原点から、グラフィクス情報の重畳位置の左上の画素までの垂直方向、水平方向のオフセット値を示す。なお、字幕データをビットマップデータとして伝送する規格は、ヨーロッパのデジタル放送規格であるＤＶＢで「DVB_Subtitling」として規格化され、運用されている。

　マルチプレクサ１１７は、ビデオエンコーダ１１２、視差エンコーダ１１３、オーディオエンコーダ１１４およびグラフィクスエンコーダ１１６で生成された各エレメンタリストリームをパケット化して多重し、トランスポートストリームＴＳを生成する。このトランスポートストリームＴＳは、２次元（２Ｄ）画像送信時は、２次元画像データを含むＡＶＣ（２Ｄ）のビデオエレメンタリストリームを含むものとなる。また、このトランスポートストリームＴＳは、立体（３Ｄ）画像送信時は、ＭＶＣのベースサブストリーム、そして、これと共に所定数の拡張サブストリームを含むものとなる。

　マルチプレクサ１１７は、立体（３Ｄ）画像送信時に、トランスポートストリームＴＳのレイヤの特定位置に、特定の情報を挿入する。ここで、特定位置は、サブストリーム構成が単一のストリームを構成するか複数のストリームで構成されるかにより変更される。

　サブストリーム構成が単一のビデオストリームを構成する場合、トランスポートストリームＴＳのレイヤの、上述のベースビデオストリームに関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタを挿入する。この実施の形態において、マルチプレクサ１１７は、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（図２参照）を挿入する。

　図４（ａ）は、このようにベースビデオストリームに対応させてＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）の挿入を行うことを、模式的に示している。この例において、ストリームタイプ（Stream type）が「0×1B」のベースビデオストリームには、ベースビューの画像データの符号化データと１つのノンベースビューの画像データの符号化データが含まれている。ベースビューの画像データの符号化データは、“SPS ～ Coded Slice”で構成され、ノンベースビューの画像データの符号化データは、“Subset SPS ～ Coded Slice”で構成されている。

　また、サブストリーム構成が複数のストリームで構成される場合、トランスポートストリームＴＳのレイヤの、上述の所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に、特定の情報、例えば各ビューの画像データの情報を持つデスクリプタを挿入する。この実施の形態においては、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（図２参照）を挿入する。

　図４（ｂ）は、このように拡張ビデオストリームに対応させてＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）の挿入を行うことを、模式的に示している。この例において、ストリームタイプ（Stream type）が「0×1B」のベースビデオストリームには、ベースビューの画像データの符号化データのみが含まれている。このベースビューの画像データの符号化データは、“SPS ～ Coded Slice”で構成されている。また、この例において、ストリームタイプ（Stream type）が「0×20」の拡張ビデオストリームには、ノンベースビューの画像データの符号化データのみが含まれている。このノンベースビューの画像データの符号化データは、“Subset SPS ～ Coded Slice”で構成されている。

　図５は、ＮＡＬユニットヘッダ（NAL unit header MVC extension）の構成例（Syntax）を示している。「view_id」のフィールドは、該当するビューが何番目のビューかを示す。つまり、受信側では、デコード時に、この「view_id」のフィールド情報に基づいて、それぞれの符号化データが、どのビューの画像データのパケットであるかが認識可能となっている。

　図３に示す送信データ生成部１１０の動作を簡単に説明する。データ取り出し部１１１から出力される画像データ（２次元画像表示のための１つの画像データ、あるいは立体画像表示のための複数のビューの画像データ）は、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、その画像データに対して、例えばＭＰＥＧ２ｖｉｄｅｏ、ＭＰＥＧ４－ＡＶＣ（ＭＶＣ）、あるいはＨＥＶＣなどのエンコード処理が施され、符号化ビデオデータを含むビデオエレメンタリストリームが生成され、マルチプレクサ１１７に供給される。

　すなわち、ビデオエンコーダ１１２では、２次元画像表示のための画像データであるとき、例えば、この画像データを含むＡＶＣ（２Ｄ）のビデオエレメンタリストリームが生成される。また、このビデオエンコーダ１１２では、立体画像表示のための複数のビューの画像データであるとき、この複数のビューの画像データを含む１つまたは複数のビデオエレメンタリストリームが生成される。

　例えば、サブストリーム構成が単一のビデオストリームを構成する場合には、ベースビューおよび所定数のノンベースビューの画像データを含むＭＶＣのビデオエレメンタリストリーム（ベースビデオストリーム）が生成される。また、例えば、サブストリーム構成が複数のストリームで構成される場合には、ベースビューの画像データを含むＭＶＣのベースビューのビデオエレメンタリストリーム（ベースビデオストリーム）が生成される。そして、この場合には、さらに、所定数のノンベースビューの画像データをそれぞれ含むＭＶＣのノンベースビューのビデオエレメンタリストリーム（拡張ビデオストリーム）が生成される。

　また、データ取り出し部１１１から立体画像表示のための複数のビューの画像データが出力されるとき、このデータ取り出し部１１１から各ビューの画像データに対応した視差情報も出力される。この視差情報は、視差エンコーダ１１３に供給される。視差エンコーダ１１３では、視差情報に対して所定のエンコード処理が施され、符号化データを含む視差エレメンタリストリームが生成される。この視差エレメンタリストリームはマルチプレクサ１１７に供給される。

　また、データ取り出し部１１１から画像データが出力されるとき、このデータ取り出し部１１１からその画像データに対応した音声データも出力される。この音声データは、オーディオエンコーダ１１４に供給される。このオーディオエンコーダ１１４では、音声データに対して、ＭＰＥＧ２ＡｕｄｉｏＡＡＣ等のエンコード処理が施され、符号化オーディオデータを含むオーディオエレメンタリストリームが生成される。このオーディオエレメンタリストリームはマルチプレクサ１１７に供給される。

　また、データ取り出し部１１１から出力される画像データに対応してグラフィクス発生部１１５では、画像（ビュー）に重畳するグラフィクス情報（サブタイトル情報を含む）のデータ（グラフィクスデータ）が発生される。このグラフィクスデータは、グラフィクスエンコーダ１１６に供給される。グラフィクスエンコーダ１１６では、このグラフィクスデータに対して所定のエンコード処理が施され、符号化データを含むグラフィクスエレメンタリストリームが生成される。このグラフィクスエレメンタリストリームはマルチプレクサ１１７に供給される。

　マルチプレクサ１１７では、各エンコーダから供給されるエレメンタリストリームがパケット化されて多重され、トランスポートストリームＴＳが生成される。このトランスポートストリームＴＳには、２次元（２Ｄ）画像送信時は、２次元画像データを含むＡＶＣ（２Ｄ）のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームＴＳには、立体（３Ｄ）画像送信時は、ＭＶＣのベースサブストリーム、そして、これと共に所定数の拡張サブストリームが含まれる。

　また、マルチプレクサ１１７では、立体（３Ｄ）画像送信時に、サブストリーム構成が単一のビデオストリームを構成する場合には、プログラム・マップ・テーブルの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（図２参照）が挿入される。また、マルチプレクサ１１７では、立体（３Ｄ）画像送信時に、サブストリーム構成が複数のストリームで構成される場合には、プログラム・マップ・テーブルの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタ（図２参照）が挿入される。

　図６は、２次元（２Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示している。この構成例では、トランスポートストリームＴＳに、２次元（２Ｄ）画像表示のための画像データを含むビデオエレメンタリストリームのＰＥＳパケット「Video PES1」が含まれている。なお、この構成例では、図面の簡単化のために、その他のＰＥＳパケットに関しては、図示を省略している。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームＴＳに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。また、トランスポートストリームＴＳには、イベント単位の管理を行うＳＩ（Serviced Information）としてのＥＩＴ(Event Information Table)が含まれている。

　ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ（Program Descriptor）が存在する。また、このＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ＰＥＳパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子（PID）、ストリームタイプ（Stream_Type）等の情報が配置されると共に、図示していないが、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。

　図７は、立体（３Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示している。この構成例は、サブストリーム構成が単一のビデオストリームを構成する場合（1-PID case）を示している。この構成例では、トランスポートストリームＴＳに、ベースビューおよび所定数のノンベースビューの画像データを含むＭＶＣのビデオエレメンタリストリーム（ベースビデオストリーム）のＰＥＳパケット「Video PES1」が含まれている。なお、この構成例では、図面の簡単化のために、その他のＰＥＳパケットに関しては、図示を省略している。

　ＰＭＴには、ＰＥＳパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子（PID）、ストリームタイプ（Stream_Type）等の情報が配置される。そして、このビデオ・エレメンタリ・ループには、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタの一つとして、上述の図２に示すような、ＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）が挿入されている。

　図８は、立体（３Ｄ）画像送信時におけるトランスポートストリームＴＳの構成例を示している。この構成例は、サブストリーム構成が複数のストリームで構成される場合、ここでは２つのストリームで構成される場合（2-PID case）を示している。この構成例では、トランスポートストリームＴＳに、ベースビューの画像データを含むＭＶＣのビデオエレメンタリストリーム（ベースサブストリーム）のＰＥＳパケット「Video PES1」が含まれている。また、この構成例では、トランスポートストリームＴＳに、ノンベースビューの画像データを含むＭＶＣのビデオエレメンタリストリーム（拡張サブストリーム）のＰＥＳパケット「Video PES2」が含まれている。なお、この構成例では、図面の簡単化のために、その他のＰＥＳパケットに関しては、図示を省略している。

　ＰＭＴには、ＰＥＳパケット「Video PES1」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子（PID）、ストリームタイプ（Stream_Type）等の情報が配置されると共に、図示していないが、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。

　また、ＰＭＴには、ＰＥＳパケット「Video PES2」に対応したビデオ・エレメンタリ・ループが存在する。このビデオ・エレメンタリ・ループには、ビデオエレメンタリストリームのパケット識別子（PID）、ストリームタイプ（Stream_Type）等の情報が配置される。そして、このビデオ・エレメンタリ・ループには、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタの一つとして、上述の図２に示すような、ＭＶＣ・エクステンション・デスクリプタ（MVC_extension_descriptor）が挿入されている。

　「受信機の構成例」
　図９は、受信機２００の構成例を示している。この受信機２００は、ＣＰＵ２０１と、フラッシュＲＯＭ２０２と、ＤＲＡＭ２０３と、内部バス２０４と、リモコン受信部２０５と、リモコン送信機２０６を有している。また、この受信機２００は、コンテナバッファ２１３と、デマルチプレクサ２１４と、コーデッドバッファ２１５と、ビデオデコーダ２１６と、サブストリームビデオバッファ２１７-1，・・・，２１７-Nと、スケーラ２１８-1，・・・，２１８-Nと、３Ｄビュー表示処理部２１９を有している。

　また、受信機２００は、コーデッドバッファ２２１と、視差デコーダ２２２と、視差バッファ２２３と、視差情報変換部２２４を有している。また、受信機２００は、コーデッドバッファ２２５と、グラフィクスデコーダ２２６と、ピクセルバッファ２２７と、スケーラ２２８と、グラフィクスシフタ２２９を有している。さらに、受信機２００は、コーデッドバッファ２３０と、オーディオデコーダ２３１と、チャネルミキシング部２３２を有している。

　ＣＰＵ２０１は、受信機２００の各部の動作を制御する。フラッシュＲＯＭ２０２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２０３は、ＣＰＵ２０１のワークエリアを構成する。ＣＰＵ２０１は、フラッシュＲＯＭ２０２から読み出したソフトウェアやデータをＤＲＡＭ２０３上に展開してソフトウェアを起動させ、受信機２００の各部を制御する。リモコン受信部２０５は、リモコン送信機２０６から送信されたリモーコントロール信号（リモコンコード）を受信し、ＣＰＵ２０１に供給する。ＣＰＵ２０１は、このリモコンコードに基づいて、受信機２００の各部を制御する。ＣＰＵ２０１、フラッシュＲＯＭ２０２およびＤＲＡＭ２０３は内部バス２０４に接続されている。

　コンテナバッファ２１３は、デジタルチューナ等で受信されたトランスポートストリームＴＳを一時的に記憶する。２次元（２Ｄ）画像送信時、このトランスポートストリームＴＳは、例えば、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームを有している。このストリームには、２次元画像表示のための画像データが含まれている。

　また、立体（３Ｄ）画像送信時、このトランスポートストリームＴＳは、ＭＶＣのベースサブストリーム、そして、これと共に所定数の拡張サブストリームを有している。サブストリーム構成が単一のビデオストリームを構成する場合、ＭＶＣの１つのビデオストリームに、ベースビューの画像データおよび所定数のノンベースビューの画像データが含まれている。また、サブストリーム構成が複数のストリームで構成される場合、このＭＶＣのベースサブストリームにベースビューの画像データが、そして、所定数の拡張サブストリームにそれぞれノンベースビューの画像データが含まれている。

　また、このトランスポートストリームＴＳのレイヤには、立体（３Ｄ）画像送信時、ベースビデオストリームあるいは拡張ビデオストリームに関連した情報の配置位置に、特定の情報が挿入されている。この実施の形態において、サブストリーム構成が単一のビデオストリームを構成する場合、ＰＭＴの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが挿入されている。また、サブストリーム構成が複数のストリームで構成される場合、ＰＭＴの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが挿入されている。

　デマルチプレクサ２１４は、コンテナバッファ２１３に一時的に蓄積されたトランスポートストリームＴＳから、ビデオ、視差およびオーディオの各ストリームを抽出する。また、デマルチプレクサ２１４は、立体（３Ｄ）画像送信時には、このトランスポートストリームＴＳから、上述のＭＶＣ・エクステンション・デスクリプタを抽出し、ＣＰＵ２０１に送る。

　ＣＰＵ２０１は、このＭＶＣ・エクステンション・デスクリプタの存在の有無により、立体（３Ｄ）画像送信時であるか２次元（２Ｄ）画像送信時であるかが分かる。また、ＣＰＵ２０１は、ＭＶＣ・エクステンション・デスクリプタがＭＶＣのベースビデオストリームに対応したビデオ・エレメンタリ・ループに挿入されていたとき、サブストリーム構成が単一のビデオストリームを構成すると判断できる。また、ＣＰＵ２０１は、ＭＶＣ・エクステンション・デスクリプタがＭＶＣの拡張ビデオストリームに対応したビデオ・エレメンタリ・ループに挿入されていたとき、サブストリーム構成が複数のストリームで構成されていると判断できる。

　ＣＰＵ２０１は、上述のＭＶＣ・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ２１５の管理、さらにはビデオデコーダ２１６の動作などを、受信された画像データに対応した状態となるように制御する。

　コーデッドバッファ２１５は、デマルチプレクサ２１４で抽出される１つまたは複数のビデオストリームを一時的に記憶する。コーデッドバッファ２１５は、２次元（２Ｄ）画像送信時と立体（３Ｄ）画像送信時とでバッファの管理構成方法が異なる。また、コーデッドバッファ２１５は、立体（３Ｄ）画像送信時にあっても、サブストリーム構成が単一のストリームを構成している場合と、サブストリーム構成が複数のストリームで構成されている場合とで、バッファの管理構成方法が異なる。

　すなわち、符号化データ（substream）が単一のＰＩＤ値を持つ１つのエレメンタリストリームでデマルチプレクサ２１４から供給される場合、書き込み／読み出しのアドレス管理が、全体で１つとして行われる。これに対して、符号化データ（substream）が別のＰＩＤ値を持つ複数のエレメンタリストリームでデマルチプレクサ２１４から供給される場合、各ＰＩＤを与えられた符号化データ（substream）毎に、書き込込み／読み出しのアドレス管理が独立して行われる。

　ビデオデコーダ２１６は、コーデッドバッファ２１５に記憶されているビデオエレメンタリストリームにデコード処理を行って画像データを取得する。この場合、２次元（２Ｄ）画像送信時には、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームに対して、１つのデコーダでデコード処理を行って、２次元（２Ｄ）画像表示のための画像データを取得する。

　また、立体（３Ｄ）画像送信時にあって、サブストリーム構成が単一のビデオストリームを構成する場合には、以下のようにデコード処理を行う。すなわち、複数ビューの画像データの符号化データが含まれるＭＶＣの１つのビデオストリームに対して、「NAL unit header」の「view_id」によって、バッファ２１５からデコーダ２１６への処理対象のパケットの切換えを行った後、それぞれのデコード処理をデコーダ２１６は行う。これにより、立体（３Ｄ）画像表示のための複数のビューの画像データを取得する。

　また、立体（３Ｄ）画像送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理を行う。すなわち、デマルチプレクサ２１４から受け取るNAL パケットの「NAL unit header」にある「view_id」によってバッファ２１５への蓄積データの切換えを行う。その後、バッファ２１５からの圧縮データの読み出し、そしてデコーダ２１６へ至る処理は、単一ビュー（view）のデコードと同様に行われる。ベースビューの画像データの符号化データが含まれるＭＶＣのベースサブストリームおよびノンベースビューの画像データの符号化データが含まれる所定数のＭＶＣの拡張サブストリームに対して、それぞれ対応したデコーダでデコード処理を行う。これにより、立体（３Ｄ）画像表示のための複数のビューの画像データを取得する。

　サブストリームビデオバッファ２１７-1，・・・，２１７-Nは、それぞれ、ビデオデコーダ２１６で取得された２次元（２Ｄ）画像表示のための画像データ、あるいは、立体（３Ｄ）画像表示のための複数のビューの画像データを一時的に記憶する。ここで、３Ｄの場合は、Ｎの最小値は２である。スケーラ２１８-1，・・・，２１８-Nは、それぞれ、サブストリームビデオバッファ２１７-1，・・・，２１７-Nから出力される各ビューの画像データの出力解像度が、所定の解像度となるように調整する。

　コーデッドバッファ２２１は、デマルチプレクサ２１４で抽出される視差ストリームを一時的に蓄積する。視差デコーダ２２２は、上述の送信データ生成部１１０の視差エンコーダ１１３（図３参照）とは逆の処理を行う。すなわち、視差デコーダ２２２は、コーデッドバッファ２２１に記憶されている視差ストリームのデコード処理を行って、各ビューの画像データに対応した視差情報を得る。視差バッファ２２３は、視差デコーダ２２２で取得された視差情報を一時的に蓄積する。

　視差情報変換部２２４は、視差バッファ２２３に蓄積されている視差情報に基づいて、スケーリング後の画像データのサイズに合った画素単位の視差情報を生成する。例えば、送信されてくる視差情報がブロック単位である場合には、画素単位の視差情報に変換する。また、例えば、送信されてくる視差情報が画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。あるいは、受信機におけるグラフィックスなどの重畳に際して、重畳位置にあたるブロックの視差情報が適用される。

　コーデッドバッファ２２５は、デマルチプレクサ２１４で抽出されるグラフィクスストリームを一時的に蓄積する。グラフィクスデコーダ２２６は、上述の送信データ生成部１１０のグラフィクスエンコーダ１１６（図３参照）とは逆の処理を行う。すなわち、グラフィクスデコーダ２２６は、コーデッドバッファ２２５に記憶されているグラフィクスストリームのデコード処理を行って、グラフィクスデータ（サブタイトルデータを含む）を得る。また、グラフィクスデコーダ２２６は、このグラフィクスデータに基づいて、ビュー（画像）に重畳するグラフィクスのビットマップデータを発生する。

　ピクセルバッファ２２７は、グラフィクスデコーダ２２６で発生されるグラフィクスのビットマップデータを一時的に蓄積する。スケーラ２２８は、ピクセルバッファ２２７に蓄積されているグラフィクスのビットマップデータのサイズを、スケーリング後の画像データのサイズに対応するように調整する。

　グラフィクスシフタ２２９は、サイズ調整後のグラフィクスのビットマップデータに対して、視差情報変換部２２４で得られる視差情報に基づいてシフト処理を施す。そして、グラフィクスシフタ２２９は、３Ｄビュー表示処理部２１９から出力される各ビューの画像データにそれぞれ重畳するグラフィクスのビットマップデータを生成する。

　３Ｄビュー表示処理部２１９は、２次元（２Ｄ）画像送信時であって、２次元（２Ｄ）画像表示を行う場合には、例えば、スケーラ２１８-1を通して入力されるスケーリング後の２次元（２Ｄ）画像表示のための画像データに対して、グラフィクスシフタ２２９から出力されるグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。

　また、３Ｄビュー表示処理部２１９は、立体（３Ｄ）画像送信時であって、ステレオ立体画像表示を行う場合には、例えば、スケーラ２１８-1，２１８-2を通して入力されるスケーリング後の左眼画像データ、右眼画像データに、それぞれ、グラフィクスシフタ２２９から出力されるシフト処理されたグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。

　また、３Ｄビュー表示処理部２１９は、立体（３Ｄ）画像送信時であって、マルチビュー立体画像表示を行う場合には、例えば、スケーラ２１８-1～２１８-Nを通して入力されるスケーリング後の各ビューの画像データから、視差データ変換部２２４で得られた各ビュー間の視差データに基づいて、各ビュー間の所定数のビューの画像データを補間合成する。そして、この場合には、さらに、補間合成後の各ビューの画像データに、それぞれ、グラフィクスシフタ２２９から出力されるシフト処理されたグラフィクスのビットマップデータを重畳して、ディスプレイに出力する。

　コーデッドバッファ２３０は、デマルチプレクサ２１４で抽出されるオーディオストリームを一時的に蓄積する。オーディオデコーダ２３１は、上述の送信データ生成部１１０のオーディオエンコーダ１１４（図３参照）とは逆の処理を行う。すなわち、オーディオデコーダ２３１は、コーデッドバッファ２３０に記憶されているオーディオスストリームのデコード処理を行って、音声データを得る。チャネルミキシング部２３２は、オーディオデコーダ２３１で得られる音声データに対して、例えば５．１チャネルサラウンド等を実現するための各チャネルの音声データを生成して出力する。

　図９に示す受信機２００の動作を簡単に説明する。デジタルチューナ等で受信されたトランスポートストリームＴＳは、コンテナバッファ２１３に一時的に記憶される。このトランスポートストリームＴＳには、２次元（２Ｄ）画像送信時にあっては、例えば、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームが含まれている。また、このトランスポートストリームＴＳには、立体（３Ｄ）画像送信時にあっては、例えば、ＭＶＣのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれている。

　デマルチプレクサ２１４では、コンテナバッファ２１３に一時的に記憶されたトランスポートストリームＴＳから、ビデオ、視差およびオーディオの各ストリームが抽出される。また、デマルチプレクサ２１４では、立体（３Ｄ）画像送信時に、このトランスポートストリームＴＳから、ＭＶＣ・エクステンション・デスクリプタが抽出され、ＣＰＵ２０１に送ることが行われる。

　ＣＰＵ２０１では、このＭＶＣ・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ２１５の管理、さらにはビデオデコーダ２１６の動作などを、２次元（２Ｄ）画像送信時、あるいは立体（３Ｄ）画像送信時にそれぞれ対応した状態となるように制御することが行われる。

　デマルチプレクサ２１４で抽出される１つまたは複数のビデオエレメンタリストリームは、コーデッドバッファ２１５に供給され、一時的に記憶される。ビデオデコーダ２１６では、コーデッドバッファ２１５に記憶されているビデオエレメンタリストリームにデコード処理を行って画像データを取得することが行われる。

　この場合、ビデオデコーダ２１６では、２次元（２Ｄ）画像送信時には、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームに対して、１つのデコーダでデコード処理が行われて、２次元（２Ｄ）画像表示のための画像データが取得される。

　また、この場合、立体（３Ｄ）画像送信時にあって、サブストリーム構成が単一のビデオストリームを構成している場合には、以下のようにデコード処理が行われて、立体（３Ｄ）画像表示のための複数のビューの画像データが取得される。すなわち、複数ビューの画像データの符号化データが含まれるＭＶＣのベースビデオストリームに対して、「NAL unit header」の「view_id」によって、バッファ２１５からデコーダ２１６への処理対象のパケットの切換えを行った後、それぞれのデコード処理をデコーダ２１６は行う。

　また、この場合、立体（３Ｄ）画像送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理が行われて、立体（３Ｄ）画像表示のための複数のビューの画像データが取得される。すなわち、デマルチプレクサ２１４から受け取るNAL パケットの「NAL unit header」にある「view_id」によってバッファ２１５への蓄積データの切換えを行う。その後、バッファ２１５からの圧縮データの読み出し、そしてデコーダ２１６へ至る処理は、単一ビュー（view）のデコードと同様に行われる。ベースビューの画像データの符号化データが含まれるＭＶＣのベースサブストリームおよびノンベースビューの画像データの符号化データが含まれる所定数のＭＶＣの拡張サブストリームに対して、それぞれ対応したデコーダでデコード処理が行われる。

　ビデオデコーダ２１６で取得された２次元（２Ｄ）画像表示のための画像データ、あるいは、立体（３Ｄ）画像表示のための複数のビューの画像データは、サブストリームビデオバッファ２１７-1，・・・，２１７-Nに供給され、一時的に記憶される。そして、スケーラ２１８-1，・・・，２１８-Nで所定の解像度となるように調整された後に、３Ｄビュー表示処理部２１９に供給される。

　また、デマルチプレクサ２１４で抽出される視差データストリームは、コーデッドバッファ２２１に供給されて一時的に記憶される。視差デコーダ２２２では、視差データストリームのデコード処理が行われて、各ビューの画像データに対応した視差情報が得られる。この視差情報は、視差バッファ２２３に供給されて一時的に記憶される。

　視差情報変換部２２４では、視差バッファ２２３に蓄積されている視差データに基づいて、スケーリング後の画像データのサイズに合った画素単位の視差データが生成される。この場合、視差デコーダ２２２で得られた視差情報がブロック単位である場合には、画素単位の視差情報に変換される。あるいは、受信機におけるグラフィックスなどの重畳に際して、重畳位置にあたるブロックの視差情報が適用される。また、この場合、視差デコーダ２２２で得られた視差情報が画素単位であるが、スケーリング後の画像データのサイズに合っていない場合には、適宜、スケーリングされる。この視差情報は、３Ｄビュー表示処理部２１９およびグラフィクスシフタ２２９に供給される。

　また、デマルチプレクサ２１４で抽出されるグラフィクスストリームは、コーデッドバッファ２２５に供給されて一時的に蓄積される。グラフィクスデコーダ２２６では、コーデッドバッファ２２５に記憶されているグラフィクスストリームのデコード処理が行われて、グラフィクスデータ（サブタイトルデータを含む）が得られる。また、このグラフィクスデコーダ２２６では、このグラフィクスデータに基づいて、ビュー（画像）に重畳するグラフィクスのビットマップデータが発生される。

　このグラフィクスのビットマップデータは、ピクセルバッファ２２７に供給されて一時的に蓄積される。スケーラ２２８では、ピクセルバッファ２２７に蓄積されているグラフィクスのビットマップデータのサイズが、スケーリング後の画像データのサイズに対応するように調整される。

　グラフィクスシフタ２２９では、サイズ調整後のグラフィクスのビットマップデータに対して、視差情報変換部２２４で得られる視差情報に基づいてシフト処理が施される。そして、このグラフィクスシフタ２２９では、３Ｄビュー表示処理部２１９から出力される各ビューの画像データにそれぞれ重畳するグラフィクスのビットマップデータが生成される。このビットマップデータは、３Ｄビュー表示処理部２１９に供給される。

　３Ｄビュー表示部２１９では、２次元（２Ｄ）画像送信時であって、２Ｄ画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ２１８-1を通して入力されるスケーリング後の２次元（２Ｄ）画像表示のための画像データに対して、グラフィクスシフタ２２９から出力されるグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。

　また、３Ｄビュー表示処理部２１９では、立体（３Ｄ）画像送信時であって、ステレオ立体画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ２１８-1，２１８-2を通して入力されるスケーリング後の左眼画像データ、右眼画像データに、それぞれ、グラフィクスシフタ２２９から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。

　また、３Ｄビュー表示処理部２１９では、立体（３Ｄ）画像送信時であって、マルチビュー立体画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ２１８-1～２１８-Nを通して入力されるスケーリング後の各ビューの画像データから、視差情報変換部２２４で得られた各ビュー間の視差データに基づいて、各ビュー間の所定数のビューの画像データが補間合成される。そして、この場合には、さらに、補間合成後の各ビューの画像データに、それぞれ、グラフィクスシフタ２２９から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。

　また、デマルチプレクサ２１４で抽出されるオーディオストリームは、コーデッドバッファ２３０に供給されて一時的に蓄積される。オーディオデコーダ２３１では、コーデッドバッファ２３０に記憶されているオーディオスストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部２３２に供給される。チャネルミキシング部２３２では、音声データに対して、例えば５．１チャネルサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。

　上述したように、ＣＰＵ２０１では、ＭＶＣ・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ２１５の管理、さらにはビデオデコーダ２１６の動作などが、２次元（２Ｄ）画像送信時、あるいは立体（３Ｄ）画像送信時にそれぞれ対応した状態となるように制御することが行われる。

　図１０のフローチャートは、ＣＰＵ２０１の制御処理の一例を示している。ＣＰＵ２０１は、例えば、チャネル切り替えなどのサービスが変更になるタイミングで、このフローチャートによる制御処理を実行する。

　ＣＰＵ２０１は、ステップＳＴ１において、処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、ＣＰＵ２０１は、ＰＭＴの配下のベースビデオストリーム（Stream_type=0×1B）に対応したビデオ・エレメンタリ・ループ（第１のＥＳループ）のデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが存在するか判断する。

　第１のＥＳループにＭＶＣ・エクステンション・デスクリプタが存在するとき、ＣＰＵ２０１は、ステップＳＴ３において、立体（３Ｄ）画像送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であると識別する。つまり、１つのエレメンタリストリーム（elementary stream）によるサービスと識別する。そして、ＣＰＵ２０１は、全てのサブストリーム（Substream）の符号化データが共通のバッファ経由でデコード処理に進むように制御する。

　図１１（ｂ）は、この場合における受信機２００における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ（Stream type）が「0×1B」のベースビデオストリームに、ベースビューの画像データの符号化データと１つのノンベースビューの画像データの符号化データが含まれている場合の例である。また、この例は、各ビューの符号化データに対してそれぞれを別のデコーダでデコード処理を行うようにした場合の例である。実線ａはベースビューの画像データの処理の流れを示し、破線ｂはノンベースビューの画像データの処理の流れを示している。なお、レンダリングは、スケーラや３Ｄビュー表示処理部２１９における処理を意味している。

　また、ステップＳＴ２で第１のＥＳループにＭＶＣ・エクステンション・デスクリプタが存在しないとき、ＣＰＵ２０１は、ステップＳＴ４において、拡張ビデオストリーム（Stream_type=0×20）が存在するか否かを判断する。拡張ビデオストリームが存在するとき、ＣＰＵ２０１は、ステップＳＴ５において、ＰＭＴの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ（第２のＥＳループ）のデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが存在するか判断する。

　第２のＥＳループにＭＶＣ・エクステンション・デスクリプタが存在するとき、ＣＰＵ２０１は、ステップＳＴ６において、立体（３Ｄ）画像送信時であって、サブストリーム構成が複数のストリームで構成される場合であると識別する。つまり、複数のエレメンタリストリーム（elementary stream）によるサービスと識別する。そして、ＣＰＵ２０１は、サブストリーム（Substream）毎に符号化データのバッファ管理を行ってデコード処理に進むように制御する。

　図１１（ｃ）は、この場合における受信機２００における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ（Stream type）が「0×1B」のベースビューの画像データの符号化データを含むベースビデオストリームと、ストリームタイプ（Stream type）が「0×20」のノンベースビューの画像データの符号化データを含む拡張ビデオストリームの２つのビデオストリームが存在する場合の例である。実線ａはベースビューの画像データの処理の流れを示し、破線ｂはノンベースビューの画像データの処理の流れを示している。なお、レンダリングは、スケーラや３Ｄビュー表示処理部２１９における処理を意味している。

　また、ステップＳＴ４で拡張ビデオストリームが存在しないとき、あるいはステップＳＴ５で第２のＥＳループにＭＶＣ・エクステンション・デスクリプタが存在しないとき、ＣＰＵ２０１は、ステップＳＴ７において、基本的な従来の処理を行うように制御する。図１１（ａ）は、この場合における受信機２００における処理の流れの一例を概略的に示している。なお、この例は、ストリームタイプ（Stream type）が「0×1B」の２次元（２Ｄ）画像データの符号化データを含むベースビデオストリームのみが存在する場合の例である。実線ａは２次元画像データの処理の流れを示している。なお、レンダリングは、スケーラや３Ｄビュー表示処理部２１９における処理を意味している。

　以上説明したように、図１に示す画像送受信システム１０においては、サブストリーム構成が単一のビデオストリームを構成する場合、ＰＭＴの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが挿入される。また、サブストリーム構成が複数のストリームで構成される場合、ＰＭＴの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＭＶＣ・エクステンション・デスクリプタが挿入される。

　そのため、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。したがって、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。

　＜２．変形例＞
　なお、上述実施の形態においては、本技術をＭＶＣストリームに適用した例を示した。すなわち、第１の画像データが立体（３Ｄ）画像表示のためのベースビューの画像データであり、第２の画像データが立体（３Ｄ）画像表示のためのノンベースビューの画像データである例を示した。

　しかし、本技術は、ＳＶＣストリームにも同様に適用できる。ＳＶＣストリームには、スケーラブル符号化画像データを構成する最下位階層の画像データのビデオエレメンタリストリームが含まれる。さらに、このＳＶＣストリームには、スケーラブル符号化画像データを構成する最下位階層以外の所定数の上位階層の画像データのビデオエレメンタリストリームが含まれる。

　このＳＶＣストリームの場合、第１の画像データはスケーラブル符号化画像データを構成する最下位階層の画像データであり、第２の画像データはスケーラブル符号化画像データを構成する最下位階層以外の階層の画像データとなる。このＳＶＣストリームの場合も、上述したＭＶＣストリームと同様に、サブストリーム構成が単一のビデオストリームを構成する場合（図４(ａ)参照）と、サブストリーム構成が複数のストリームで構成される場合（図４（ｂ）参照）とが考えられる。

　サブストリーム構成が単一のビデオストリームを構成する場合、最下位階層およびそれ以外の階層の画像データが１つのピクチャとして符号化されて得られたビデオストリームは、ＳＶＣのベースビデオストリームとして送信される。この場合、ＰＭＴの配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＳＶＣ・エクステンション・デスクリプタが挿入される。

　ＳＶＣ・エクステンション・デスクリプタを、このように挿入することにより、受信側では、ＳＶＣストリームの送信時であって、サブストリーム構成が単一のビデオストリームを構成する場合であることが分かる。つまり、受信側では、トランスポートストリームＴＳが、最下位階層およびそれ以外の階層の画像データが１つのピクチャとして符号化されて得られたベースビデオストリームを有していることが分かる。

　また、サブストリーム構成が複数のストリームで構成される場合、最下位階層の画像データが１つのピクチャとして符号化されて得られたエレメンタリビデオストリームは、ＳＶＣのベースビデオストリームとして送信される。また、最下位階層以外の各階層の画像データがそれぞれ１つのピクチャとして符号化されて得られたエレメンタリビデオストリームは拡張ビデオストリームとして送信される。この場合、ＰＭＴの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に、ＳＶＣ・エクステンション・デスクリプタが挿入される。

　ＳＶＣ・エクステンション・デスクリプタを、このように挿入することにより、受信側では、ＳＶＣストリームの送信時であって、サブストリーム構成が複数のストリームで構成される場合であることが分かる。つまり、受信側では、トランスポートストリームＴＳが、最下位階層の画像データを含むベースビデオストリームと、最下位階層以外の各階層の画像データをそれぞれ含む拡張ビデオストリームとを有していることが分かる。

　全体の詳細説明は省略するが、図１２は、ＳＶＣ・エクステンション・デスクリプタの構造例（Syntax）を示している。「view order index_start」は最下位階層の番号を示し「view order index_end」は最上位階層の番号を示し、これらの情報により全体の階層数が分かる。また、「dependency_id」は、このデスクリプタが対応する階層が何番目の階層かを示す。

　図１３は、ＮＡＬユニットヘッダ（NAL unit header SVC extension）の構成例（Syntax）を示している。「dependency_id」のフィールドは、該当する階層が何番目の階層かを示す。つまり、受信側では、デコード時に、この「dependency_id」のフィールド情報に基づいて、それぞれの符号化データが、どの階層の画像データであるかが認識可能となっている。

　図１４は、上述のＳＶＣストリームを取り扱う受信機２００Ａの構成例を示している。この図１４において、上述の図９と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。

　受信機２００Ａは、放送局１００から放送波に載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、通常の画像送信時には、ＡＶＣ（２Ｄ）のビデオエレメンタリストリームが含まれる。また、このトランスポートストリームＴＳには、ＳＶＣストリーム送信時には、ＳＶＣのベースビデオストリームのみ、あるいはこれと共に所定数の拡張ビデオストリームが含まれる。

　受信機２００Ａは、トランスポートストリームＴＳのレイヤにおける特定情報の存在および挿入位置に基づいて、このトランスポートストリームＴＳが有するビデオストリームを処理する。すなわち、デコード時のバッファメモリの構成やデコードそして表示モードを決定する。受信機２００Ａは、通常画像表示のための画像データ、あるいは最下位階層およびその上位階層の画像データを取得して、通常画像表示、あるいは高品質画像表示を行う。

　受信機２００Ａは、ＰＭＴ配下のベースビデオストリームに対応したビデオ・エレメンタリ・ループ（第１のＥＳループ）のデスクリプタ部分に、ＳＶＣ・エクステンション・デスクリプタが存在するか判断する。そして、受信機２００Ａは、第１のＥＳループにそのデスクリプタが存在するとき、ＳＶＣストリームの送信時であって、このベースビデオストリームが、最下位階層およびその上位階層の各階層の画像データを含むものであると認識する。この場合、受信機２００Ａは、トランスポートストリームＴＳに含まれるベースビデオストリームをデコードして、高品質画像表示を行うための各階層の画像データを取得して、高品質な画像表示を行う。

　また、受信機２００Ａは、第１のＥＳループにＳＶＣ・エクステンション・デスクリプタ存在しないとき、トランスポートストリームＴＳに、拡張ビデオストリームが含まれているか判断する。そして、受信機２００Ａは、拡張ビデオストリームが含まれているとき、ＰＭＴの配下の拡張ビデオストリームに対応したビデオ・エレメンタリ・ループ（第２のＥＳループ）のデスクリプタ部分に、ＳＶＣ・エクステンション・デスクリプタが存在するか判断する。

　そして、受信機２００Ａは、第２のＥＳループにそのデスクリプタが存在するとき、ＳＶＣストリームの送信時であって、この拡張ビデオストリームおよびベースビデオストリームが、最下位階層およびその上位階層の各階層の画像データを含むものであると認識する。この場合、受信機２００Ａは、トランスポートストリームＴＳに含まれる複数のビデオストリームをデコードして、高品質画像表示を行うための各階層の画像データを取得して、高品質な画像表示を行う。

　また、受信機２００Ａは、トランスポートストリームＴＳに拡張ビデオストリームが含まれていないとき、あるいは第２のＥＳループにＳＶＣ・エクステンション・デスクリプタが存在しないとき、通常の画像送信時であると認識する。この場合、受信機２００Ａは、トランスポートストリームＴＳに含まれるビデオストリームをデコードして、通常画像データを取得して、通常画像表示を行う。

　デマルチプレクサ２１４では、ＳＶＣストリームの送信時に、トランスポートストリームＴＳから、ＳＶＣ・エクステンション・デスクリプタが抽出され、ＣＰＵ２０１に送ることが行われる。ＣＰＵ２０１では、このＳＶＣ・エクステンション・デスクリプタの存在および挿入位置に基づいて、コーデッドバッファ２１５の管理、さらにはビデオデコーダ２１６の動作などを、通常画像送信時、あるいはＳＶＣストリームの送信時にそれぞれ対応した状態となるように制御することが行われる。

　この場合、ビデオデコーダ２１６では、通常画像送信時には、ＡＶＣのビデオエレメンタリストリームに対して、１つのデコーダでデコード処理が行われて、通常画像表示のための画像データが取得される。

　また、この場合、ＳＶＣフレームの送信時にあって、サブストリーム構成が単一のビデオストリームを構成する場合には、以下のようにデコード処理が行われて、高品質画像表示のための複数階層の画像データが取得される。すなわち、複数階層の画像データの符号化データが含まれるＳＶＣのベースビデオストリームに対して、NAL unit header のdependenncy_idによって、バッファ２１５からデコーダ２１６への処理対象のパケットを切換えを行った後、それぞれのデコード処理をデコーダ２１６は行う。

　また、この場合、ＳＶＣフレームの送信時にあって、サブストリーム構成が複数のストリームで構成されている場合には、以下のようにデコード処理が行われて、高品質画像表示のための複数階層の画像データが取得される。すなわち、デマルチプレクサ２１４から受け取るNAL パケットのNAL unit headerにあるdependency_idによってバッファ２１５への蓄積データの切換えを行う。その後、バッファ２１５からの圧縮データの読み出し、そしてデコーダ２１６へ至る処理は、単一streamのデコードと同様に行われる。このようにして、最下位階層の画像データの符号化データが含まれるＳＶＣのベースビデオストリームおよびその上位階層の画像データの符号化データが含まれる所定数のＳＶＣの拡張ビデオストリームに対して、それぞれ対応したデコーダでデコード処理が行われる。

　高画質化処理部２３３は、通常画像送信時であって、通常画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ２１８-1を通して入力されるスケーリング後の画像データに対して、グラフィクスシフタ２２９から出力されるグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。

　また、高画質化処理部２３３では、ＳＶＣストリームの送信時であって、高品質画像表示を行う場合には、以下の処理が行われる。すなわち、例えば、スケーラ２１８-1～２１８-Nを通して入力されるスケーリング後の各階層の画像データから、高品質画像表示のための画像データが生成され、グラフィクスシフタ２２９から出力されるシフト処理されたグラフィクスのビットマップデータが重畳されて、ディスプレイに出力される。

　このように、本技術をＳＶＣストリームに適用する場合にあっても、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能となる。したがって、受信側においては、デコード時のバッファメモリの構成やデコードそして表示モードを、デコード前に的確に決定でき、画像データの取得を良好に行うことができる。

　また、上述実施の形態においては、トランスポートストリームＴＳを放送波にのせて配信する例を示したが、本技術は、このトランスポートストリームＴＳを、インターネット等のネットワークを通じて配信する場合にも同様に適用できる。一方で、トランスポートストリームＴＳ以外のコンテナファイルフォーマットにおけるインターネット配信の場合にも、本技術を適用できることは勿論である。

　なお、本技術は、以下のような構成も取ることができる。
　（１）第１の画像データと該第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置。
　（２）上記特定の情報は、上記第１の画像データおよび上記所定数の第２の画像データの情報を持つデスクリプタである
　前記（１）に記載の画像データ送信装置。
　（３）上記コンテナは、トランスポートストリームであり、
　上記情報挿入部は、
　上記デスクリプタを、プログラム・マップ・テーブルの配下の上記ベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
　前記（２）に記載の画像データ送信装置。
　（４）上記第１の画像データは、立体画像表示のためのベースビューの画像データであり、
　上記第２の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
　上記デスクリプタは、上記各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタである
　前記（２）または（３）に記載の画像データ送信装置。
　（５）上記第１の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
　上記第２の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
　上記デスクリプタは、上記各階層の画像データの情報を持つＳＶＣ・エクステンション・デスクリプタである
　前記（２）または（３）に記載の画像データ送信装置。
　（６）第１の画像データと該第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する
　画像データ送信方法。
　（７）第１の画像データを含むベースビデオストリームと上記第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置。
　（８）上記特定の情報は、上記第１の画像データおよび上記所定数の第２の画像データの情報を持つデスクリプタである
　前記（７）に記載の画像データ送信装置。
　（９）上記コンテナは、トランスポートストリームであり、
　上記情報挿入部は、
　上記デスクリプタを、プログラム・マップ・テーブルの配下の上記所定数の拡張ビデオストリームにそれぞれ対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
　前記（８）に記載の画像データ送信装置。
　（１０）上記第１の画像データは、立体画像表示のためのベースビューの画像データであり、
　上記第２の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
　上記特定の情報は、上記各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタである
　前記（８）または（９）に記載の画像データ送信装置。
　（１１）上記第１の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
　上記第２の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
　上記特定の情報は、上記各階層の画像データの情報を持つＳＶＣ・エクステンション・デスクリプタである
　前記（８）または（９）に記載の画像データ送信装置。
　（１２）第１の画像データを含むベースビデオストリームと上記第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する
　画像データ送信方法。
　（１３）所定フォーマットのコンテナを受信する受信部と、
　上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
　画像データ受信装置。
　（１４）上記処理部は、
　上記コンテナのレイヤの、該コンテナに含まれるベースビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該ベースビデオストリームを処理して上記所定数の画像データを取得する
　前記（１３）に記載の画像データ受信装置。
　（１５）上記処理部は、
　上記コンテナのレイヤの該コンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該拡張ビデオストリームおよび上記コンテナに含まれるベースビデオストリームを処理して上記所定数の画像データを取得する
　前記（１３）または（１４）に記載の画像データ受信装置。
　（１６）上記所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成する
　前記（１３）から（１５）のいずれかに記載の画像データ受信装置。
　（１７）所定フォーマットのコンテナを受信するステップと、
　上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するステップとを備える
　画像データ受信方法。

　本技術の主な特徴は、ＰＭＴの配下のＭＶＣのベースビデオストリームまたは拡張ビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分にＭＶＣ・エクテンション・デスクリプタを挿入することで、サブストリーム構成が単一のビデオストリームを構成する場合とサブストリーム構成が複数のストリームで構成される場合とを、受信側においてデコード前に確実かつ容易に識別可能としたことである（図５、図７、図８参照）。

　１０・・・画像送受信システム
　１００・・・放送局
　１１０・・・送信データ生成部
　１１１・・・データ取り出し部
　１１１ａ・・・データ記録媒体
　１１２・・・ビデオエンコーダ
　１１３・・・視差エンコーダ
　１１４・・・オーディオエンコーダ
　１１５・・・グラフィクス発生部
　１１６・・・グラフィクスエンコーダ
　１１７・・・マルチプレクサ
　２００，２００Ａ・・・受信機
　２０１・・・ＣＰＵ
　２１３・・・コンテナバッファ
　２１４・・・デマルチプレクサ
　２１５・・・コーデッドバッファ
　２１６・・・ビデオデコーダ
　２１７-1～２１７-N・・・サブストリームバッファ
　２１８-1～２１８-N・・・スケーラ
　２１９・・・３Ｄビュー表示処理部
　２２１・・・コーデッドバッファ
　２２２・・・視差デコーダ
　２２３・・・ビデオデコーダ
　２２４・・・視差情報変換部
　２２５・・・コーデッドバッファ
　２２６・・・グラフィクスデコーダ
　２２７・・・ピクセルバッファ
　２２８・・・スケーラ
　２２９・・・グラフィクスシフタ
　２３０・・・コーデッドバッファ
　２３１・・・オーディオデコーダ
　２３２・・・チャネルミキシング部
　２３３・・・高画質化処理部

Claims

　第１の画像データと該第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置。
　上記特定の情報は、上記第１の画像データおよび上記所定数の第２の画像データの情報を持つデスクリプタである
　請求項１に記載の画像データ送信装置。
　上記コンテナは、トランスポートストリームであり、
　上記情報挿入部は、
　上記デスクリプタを、プログラム・マップ・テーブルの配下の上記ベースビデオストリームに対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
　請求項２に記載の画像データ送信装置。
　上記第１の画像データは、立体画像表示のためのベースビューの画像データであり、
　上記第２の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
　上記デスクリプタは、上記各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタである
　請求項２に記載の画像データ送信装置。
　上記第１の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
　上記第２の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
　上記デスクリプタは、上記各階層の画像データの情報を持つＳＶＣ・エクステンション・デスクリプタである
　請求項２に記載の画像データ送信装置。
　第１の画像データと該第１の画像データに関連した所定数の第２の画像データを含むベースビデオストリームを有する所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記ベースビデオストリームに関連した情報の配置位置に特定の情報を挿入する
　画像データ送信方法。
　第１の画像データを含むベースビデオストリームと上記第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する情報挿入部とを備える
　画像データ送信装置。
　上記特定の情報は、上記第１の画像データおよび上記所定数の第２の画像データの情報を持つデスクリプタである
　請求項７に記載の画像データ送信装置。
　上記コンテナは、トランスポートストリームであり、
　上記情報挿入部は、
　上記デスクリプタを、プログラム・マップ・テーブルの配下の上記所定数の拡張ビデオストリームにそれぞれ対応したビデオ・エレメンタリ・ループのデスクリプタ部分に挿入する
　請求項８に記載の画像データ送信装置。
　上記第１の画像データは、立体画像表示のためのベースビューの画像データであり、
　上記第２の画像データは、上記立体画像表示のための上記ベースビュー以外のビューの画像データであり、
　上記特定の情報は、上記各ビューの情報を持つＭＶＣ・エクテンション・デスクリプタである
　請求項８に記載の画像データ送信装置。
　上記第１の画像データは、スケーラブル符号化画像データを構成する最下位階層の画像データであり、
　上記第２の画像データは、上記スケーラブル符号化画像データを構成する上記最下位階層以外の階層の画像データであり、
　上記特定の情報は、上記各階層の画像データの情報を持つＳＶＣ・エクステンション・デスクリプタである
　請求項８に記載の画像データ送信装置。
　第１の画像データを含むベースビデオストリームと上記第１の画像データに関連した所定数の第２の画像データのそれぞれを含む所定数の拡張ビデオストリームとを含む所定フォーマットのコンテナを送信する際に、上記コンテナのレイヤの上記所定数の拡張ビデオストリームにそれぞれ関連した情報の配置位置に特定の情報を挿入する
　画像データ送信方法。
　所定フォーマットのコンテナを受信する受信部と、
　上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得する処理部とを備える
　画像データ受信装置。
　上記処理部は、
　上記コンテナのレイヤの、該コンテナに含まれるベースビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該ベースビデオストリームを処理して上記所定数の画像データを取得する
　請求項１３に記載の画像データ受信装置。
　上記処理部は、
　上記コンテナのレイヤの該コンテナに含まれる拡張ビデオストリームに関連した情報の配置位置に上記特定の情報の挿入があるとき、該拡張ビデオストリームおよび上記コンテナに含まれるベースビデオストリームを処理して上記所定数の画像データを取得する
　請求項１３に記載の画像データ受信装置。
　上記所定数の画像データは、立体画像表示のための画像データ、またはスケーラブル符号化データ画像データを構成する
　請求項１３に記載の画像データ受信装置。
　所定フォーマットのコンテナを受信するステップと、
　上記コンテナのレイヤにおける特定の情報の存在および挿入位置に基づいて、上記コンテナが有するビデオストリームを処理して、互いに関連した所定数の画像データを取得するステップとを備える
　画像データ受信方法。