WO2019203207A1

WO2019203207A1 - 受信装置、受信方法、送信装置および送信方法

Info

Publication number: WO2019203207A1
Application number: PCT/JP2019/016232
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2018-04-19
Filing date: 2019-04-15
Publication date: 2019-10-24
Also published as: US20210006769A1; EP3783887A4; EP3783887A1; CN111971955A

Abstract

効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現する。　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する。ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、この左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する。左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、視差を付与する。

Description

受信装置、受信方法、送信装置および送信方法

　本技術は、受信装置、受信方法、送信装置および送信方法に関し、詳しくは、ステレオスコピック画像をＶＲ表示する受信装置等に関する。

　ステレオスコピック画像をＶＲ（Virtual Reality）表示する場合、インタラクティブに表示されるオブジェクトよりも近い位置に字幕やグラフィックスを重畳することが、立体視覚的に重要になる。例えば、特許文献１には、左眼および右眼の画像の画像データと共に画像の画素毎のあるいは均等分割したブロック毎の奥行き情報を送信し、受信側で字幕やグラフィックスを重畳表示する際の奥行き制御に用いる技術が示されている。しかし、広視野角画像の場合には、奥行き情報の送信のために多くの伝送帯域を確保する必要がある。

国際公開第２０１３/１０５４０１号

　本技術の目的は、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現することにある。

　本技術の概念は、
　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
　上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
　受信装置にある。

　本技術において、受信部により、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報が受信される。例えば、受信部は、ピクチャ毎のデプスメタ情報を、ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する、ようにされてもよい。また、例えば、受信部は、ピクチャ毎のデプスメタ情報を、ビデオストリームに挿入された状態で受信する、ようにされてもよい。また、例えば、アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる、ようにされてもよい。

　処理部により、ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データが取り出され、この左眼および右眼の表示領域画像データに重畳情報のデータが重畳されて出力される。ここで、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報の表示データに視差が付与される。例えば、重畳情報は、字幕および/またはグラフィクスである、ようにされてもよい。

　例えば、処理部は、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値のうちの最小値に基づいて、視差を付与する、ようにされてもよい。また、例えば、デプスメタ情報は、所定数のアングル領域の代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、処理部は、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と位置情報に基づいて、視差を付与する、ようにされてもよい。また、デプスメタ情報は、スクリーンの深さに相当するデプス値を、デプス値の基準としてさらに含む、ようにされてもよい。

　また、例えば、重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える、ようにされてもよい。この場合、例えば、表示部は、ヘッドマウントディスプレイである、ようにされてもよい。

　このように本技術においては、左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報のデータに視差を付与するものである。そのため、効率的に伝送されてくる奥行き情報を用いて字幕やグラフィックスを重畳表示する際の奥行き制御を簡易に実現し得る。

　また、本技術の他の概念は、
　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
　上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
　送信装置にある。

　本技術において、送信部により、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎のデプスメタ情報が送信される。ここで、デプスメタ情報には、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値が含まれる。

　このように本技術においては、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を送信するものである。そのため、広視野角画像内の奥行き情報を効率的に伝送し得る。

　本技術によれば、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現できる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。サービス送信システムの構成例を示すブロック図である。球面キャプチャ画像からプロジェクション画像を得る平面パッキングを説明するための図である。ＨＥＶＣの符号化におけるＳＰＳ　ＮＡＬユニットの構造例を示す図である。切出し位置の中心Ｏ(p,q)をプロジェクション画像のリファレンスポイントＲＰ(x,y)と一致させることを説明するための図である。レンダリングメタデータの構造例を示す図である。図６の構造例における各情報を説明するための図である。図６の構造例における各情報を説明するための図である。視差値によるグラフィクスの奥行き制御の概念を示す図である。ある一つのビューポイントの影響下にあるアングル領域の設定例を概略的に示す図である。アングル領域の代表デプス値を説明するための図である。左眼および右眼のプロジェクション画像にそれぞれ対応した球面画像の一部を示す図である。アングル領域の定義を示す図である。コンポーネントデスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。配信ストリームとしてのＭＰ４ストリームを概略的に示す図である。デプスメタ情報を含む１ピクチャ分のタイムドメタデータの構造例を示す図である。図１６の構成例における主要な情報の内容を示す図である。ＭＰＤファイルの記述例を示す図である。ＰＳＶＰ・ＳＥＩメッセージの構造例を示す図である。デプスメタ情報をビデオストリームに挿入して送信する場合におけるＭＰ４ストリームを概略的に示す図である。サービス受信機の構成例を示すブロック図である。レンダラの構成例を示すブロック図である。プロジェクション画像に対する表示領域の一例を示す図である。表示領域の大きさにより字幕表示データに視差を与えるためのデプス値が異なることを説明するための図である。表示領域の各移動位置において字幕表示データに視差を与えるためのデプス値の設定方法の一例を示す図である。プロジェクション画像に設定された複数のアングル領域の間で表示領域が遷移する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示す図である。表示部としてＨＭＤを用いる場合のデプス値の設定の一例を示す図である。デプス処理部における字幕デプス値を得るための手順の一例を示すフローチャートである。字幕とグラフィクスの重畳位置が一部重なる場合におけるデプス制御例を示す図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信システム１００とサービス受信機２００により構成されている。

　サービス送信システム１００は、ＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリームが含まれるＭＰ４（ＩＳＯＢＭＦＦ）を、通信ネットワーク伝送路、またはＲＦ伝送路を通じて、送信する。この実施の形態においては、メディアストリームとして、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号して得られたビデオストリームが含まれる。

　また、サービス送信システム１００は、ビデオストリームと共に、ピクチャ毎のデプスメタ情報を送信する。このデプスメタ情報には、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値が含まれるが、この実施の形態においては、さらに、その代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。例えば、ピクチャ毎のデプスメタ情報は、ビデオストリームに関連づけられたタイムドメタデータストリームにより送信されるか、あるいはビデオストリームに挿入されて送信される。

　サービス受信機２００は、サービス送信システム１００から通信ネットワーク伝送路またはＲＦ伝送路を通じて送られてくる上述のＭＰ４（ＩＳＯＢＭＦＦ）を受信する。サービス受信機２００は、ＭＰＤファイルから、ビデオストリームに関するメタ情報、さらにはタイムドメタデータストリームが存在する場合にはそれに関するメタ情報を取得する。

　また、サービス受信機２００は、ビデオストリームを復号化して得られた左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、この左眼および右眼の表示領域画像データに、字幕やグラフィクス等の重畳情報のデータを重畳して出力する。この場合、表示領域は、ユーザの動作あるいは操作に基づき、インタラクティブに変化する。左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、デプスメタ情報に基づいて、左眼および右眼の表示領域画像データにそれぞれ重畳する重畳情報のデータに視差が付与される。

　例えば、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値のうちの最小値に基づいて、視差が付与される。また、例えば、デプスメタ情報に代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含む場合には、デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値とその位置情報に基づいて、視差が付与される。

　「サービス送信システムの構成例」
　図２は、サービス送信システム１００の構成例を示している。このサービス送信システム１００は、制御部１０１と、ユーザ操作部１０１ａと、左側カメラ１０２Ｌと、右側カメラ１０２Ｒと、平面パッキング部１０３Ｌ，１０３Ｒと、ビデオエンコーダ１０４と、デプス生成部１０５と、デプスメタ情報生成部１０６と、字幕発生部１０７と、字幕エンコーダ１０８と、コンテナエンコーダ１０９と、送信部１１０を有している。

　制御部１０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、サービス送信システム１００の各部の動作を制御する。ユーザ操作部１０１ａは、ユーザが種々の操作を行うためのユーザインタフェースを構成し、例えばキーボード、マウス、タッチパネル、リモコンなどで構成される。

　左側カメラ１０２Ｌおよび右側カメラ１０２Ｒは、ステレオカメラを構成している。左側カメラ１０２Ｌは、被写体を撮像して、球面キャプチャ画像（３６０°ＶＲ画像）を得る。同様に、右側カメラ１０２Ｒは、被写体を撮像して、球面キャプチャ画像（３６０°ＶＲ画像）を得る。例えば、カメラ１０２Ｌ，１０２Ｒは、バック・ツー・バック（Back to Back）方式で撮像を行って、球面キャプチャ画像として、それぞれ魚眼レンズを用いて撮像された１８０°以上の視野角を持つ、超広視野角の前面画像および後面画像を得る（図３（ａ）参照）。

　平面パッキング部１０３Ｌ，１０３Ｒは、それぞれ、カメラ１０２Ｌ，１０２Ｒで得られた球面キャプチャ画像の一部または全部を切り取って平面パッキングして長方形のプロジェクション画像（projection picture）を得る（図３（ｂ）参照）。この場合、プロジェクション画像のフォーマットタイプとしては、例えば、エクイレクタングラー(Equirectangular)、クロスキュービック（Cross-cubic）などが選択される。なお、平面パッキング部１０３Ｌ，１０３Ｒは、プロジェクション画像に必要に応じて切り出しを行い、またスケーリングを施し、所定の解像度のプロジェクション画像を得る（図３（ｃ）参照）。

　ビデオエンコーダ１０４は、平面パッキング部１０３Ｌからの左眼のプロジェクション画像の画像データおよび平面パッキング部１０３Ｒからの右眼のプロジェクション画像の画像データに対して、例えばＨＥＶＣなどの符号化を施して符号化画像データを得、この符号化画像データを含むビデオストリームを生成する。例えば、左眼および右眼のプロジェクション画像の画像データがサイドバイサイド方式あるいはトップアンドボトム方式で合成され、その合成画像データに対して符号化が行われて、１つのビデオストリームが生成される。また、例えば、左眼および右眼のプロジェクション画像の画像データのそれぞれに対して符号化が行われて、２つのビデオストリームが生成される。

　ビデオストリームのＳＰＳ　ＮＡＬユニットには、切出し位置情報が挿入されている。例えば、ＨＥＶＣの符号化では「default_display_window」が対応する。

　図４は、ＨＥＶＣの符号化におけるＳＰＳ　ＮＡＬユニットの構造例（Syntax）を示している。「pic_width_in_luma_samples」のフィールドは、プロジェクション画像の水平方向の解像度（画素サイズ）を示している。「pic_height_in_luma_samples」のフィールドは、プロジェクション画像の垂直方向の解像度（画素サイズ）を示している。そして、「default_display_window_flag」が立っているとき、切出し位置情報「default_display_window」が存在する。この切出し位置情報は、デコード画像の左上を基点（０，０）としたオフセット情報とされる。

　「def_disp_win_left_offset」のフィールドは、切出し位置の左端位置を示している。「def_disp_win_right_offset」のフィールドは、切出し位置の右端位置を示している。「def_disp_win_top_offset」のフィールドは、切出し位置の上端位置を示している。「def_disp_win_bottom_offset」のフィールドは、切出し位置の下端位置を示している。

　この実施の形態において、この切出し位置情報で示される切出し位置の中心をプロジェクション画像のリファレンスポイント（基準点）と一致するように設定することができる。ここで、切出し位置の中心をＯ(p,q)とすると、ｐ，ｑは、それぞれ、以下の数式で表される。

　p = ( def_disp_win_right_offset -　def_disp_win_left_offset ) * 1/2
　　　　　　　　　　　　　　　　　　　　　　　　　+ def_disp_win_left_offset
　q = ( def_disp_win_bottom_offset -　def_disp_win_top_offset ) * 1/2
　　　　　　　　　　　　　　　　　　　　　　　　　+ def_disp_win_top_offset

　図５は、切出し位置の中心Ｏ(p,q)がプロジェクション画像のリファレンスポイントＲＰ(x,y)と一致することを示している。図示の例において、「projection_pic_size_horizontal」はプロジェクション画像の水平画素サイズを示し、「projection_pic_size_vertical」はプロジェクション画像の垂直画素サイズを示している。なお、ＶＲ表示対応受信機ではプロジェクション画像をレンダリングして表示ビュー（表示画像）を得ることが可能とされるが、デフォルトビューはリファレンスポイントＲＰ(x,y)を中心としたものとされる。なお、リファレンスポイントは実際の東西南北の特定の方角と一致させることで物理空間との整合を取ることが可能である。

　また、ビデオエンコーダ１０４は、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、レンダリングメタデータ（レンダリング用メタ情報）を持つＳＥＩメッセージ（SEI message）を挿入する。図６は、レンダリングメタデータ（Rendering_metadata）の構造例（Syntax）を示している。また、図８は、各構造例における主要な情報の内容（Semantics）を示している。

　「rendering_metadata_id」の１６ビットフィールドは、レンダリングメタデータ構造体を識別するＩＤである。「rendering_metadata_length」の１６ビットフィールドは、レンダリングメタデータ構造体バイトサイズを示す。

　「start_offset_sphere_latitude」、「start_offset_sphere_longitude」、「end_offset_sphere_latitude」、「end_offset_sphere_longitude」の各１６ビットフィールドは、球面キャプチャ画像を平面パッキングする場合の切り取り範囲の情報を示す（図７（ａ）参照）。「start_offset_sphere_latitude」のフィールドは、球面からの切り取り開始オフセットの緯度（垂直方向）を示す。「start_offset_sphere_longitude」のフィールドは、球面からの切り取り開始オフセットの経度（水平方向）を示す。「end_offset_sphere_latitude」のフィールドは、球面からの切り取り終了オフセットの緯度（垂直方向）を示す。「end_offset_sphere_longitude」のフィールドは、球面からの切り取り終了オフセットの経度（水平方向）を示す。

　「projection_pic_size_horizontal」、「projection_pic_size_vertical」の各１６ビットフィールドは、プロジェクション画像（projection picture）のサイズ情報を示す（図７（ｂ）参照）。「projection_pic_size_horizontal」のフィールドは、プロジェクション画像のサイズでトップ・レフト（top-left）からの水平画素カウントを示す。「projection_pic_size_vertical」のフィールドは、プロジェクション画像のサイズでトップ・レフト（top-left）からの垂直画素カウントを示す。

　「scaling_ratio_horizontal」、「scaling_ratio_vertical」の各１６ビットフィールドは、プロジェクション画像の元のサイズからのスケーリング比を示す（図３（ｂ），（ｃ）参照）。「scaling_ratio_horizontal」のフィールドは、プロジェクション画像の元のサイズからの水平スケーリング比を示す。「scaling_ratio_vertical」のフィールドは、プロジェクション画像の元のサイズからの垂直スケーリング比を示す。

　「reference_point_horizontal」、「reference_point_vertical」の各１６ビットフィールドは、プロジェクション画像のリファレンスポイントＲＰ(x,y)の位置情報を示す（図７（ｂ）参照）。「reference_point_horizontal」のフィールドは、リファレンスポイントＲＰ(x,y)の水平画素位置“ｘ”を示す。「reference_point_vertical」のフィールドは、リファレンスポイントＲＰ(x,y)の垂直画素位置“ｙ”を示す。

　「format_type」の５ビットフィールドは、プロジェクション画像のフォーマットタイプを示す。例えば、“０”はエクイレクタングラー(Equirectangular)を示し、“１”はクロスキュービック（Cross-cubic）を示し、“２”はパーティションド・クロスキュービック（partitioned cross cubic）を示す。

　「backwardcompatible」の１ビットフィールドは、後方互換性の設定がなされているかどうか、つまりビデオストリームのレイヤに挿入される切出し位置情報で示される切出し位置の中心Ｏ(p,q)がプロジェクション画像のリファレンスポイントＲＰ(x,y)と一致するように設定されているか否かを示す。例えば、“０”は後方互換性の設定がなされていないことを示し、“１”は後方互換性の設定がなされていることを示す。

　デプス生成部１０５は、平面パッキング部１０３Ｌ，１０３Ｒからの左眼および右眼のプロジェクション画像を用いて、ブロック毎の奥行き情報であるデプス（Depth）値を求める。この場合、デプス生成部１０５は、４×４、８×８等の画素ブロック毎に、ＳＡＤ（Sum of Absolute Difference）を求めて視差（Disparity）値を得、さらにこの視差値を奥行き情報であるデプス値に変換する。

　ここで、視差値からデプス値への変換について説明する。図９は、視差値による例えばグラフィクスの奥行き制御の概念を示している。視差値がマイナス値である場合、スクリーン上において左眼表示用のグラフィクスが右側に、右眼表示用のグラフィクスが左側にずれるように視差が付与される。この場合、グラフィクスの表示位置はスクリーンよりも手前となる。また、視差値がプラス値である場合、スクリーン上において左眼表示用のグラフィクスが左側に、右眼表示用のグラフィクスが右側にずれるように視差が付与される。この場合、グラフィクスの表示位置はスクリーンよりも奥となる。

　図９において、（θ0－θ2）は同側方向の視差角を示し、（θ0－θ1）は交差方向の視差角を示している。また、Ｄはスクリーンとカメラ（人間の目）の設置面の距離（viewing distance）を示し、Ｅはカメラ（人間の目）の設置間隔（eye_baseline)を示し、Ｋは対象までの距離であるデプス値を示し、さらにＳは視差値を示すものとする。

　このとき、Ｋは、ＳとＥの比と、ＤとＫの比により、以下の数式（１）で求められる。この数式を変形して、数式（２）が得られる。数式（１）は、視差値Ｓをデプス値Ｋに変換するための変換式を構成する。逆に、数式（２）は、デプス値Ｋを視差値Ｓに変換するための変換式を構成する。
　　　Ｋ＝Ｄ/（１＋Ｓ/Ｅ）　　・・・（１）
　　　Ｓ＝（Ｄ－Ｋ）Ｅ/Ｋ　　　・・・（２）

　図２に戻って、デプスメタ情報生成部１０６は、デプスメタ情報を生成する。このデプスメタ情報には、プロジェクション画像上に設定された所定数のアングル領域の位置情報と代表デプス値が含まれ、この実施の形態ではさらに、その代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。

　ここで、所定数のアングル領域は、ユーザがユーザ操作部１０１ａを操作することで設定される。この場合、所定数のビューポイントが設定され、さらにそれぞれのビューポイントの影響下にある所定数のアングル領域が設定される。それぞれのアングル領域の位置情報は、対応するビューポイントの位置を基準としたオフセット情報で与えられる。

　また、それぞれのアングル領域の代表デプス値は、デプス生成部１０５で生成されたブロック毎のデプス値のうち、そのアングル領域内にある各ブロックのデプス値のうちの最小値とされる。

　図１０は、ある一つのビューポイントの影響下にあるアングル領域の設定例を概略的に示している。図１０（ａ）は、アングル領域ＡＲが等間隔の分割領域で構成される場合の例を示しており、ＡＲ１～ＡＲ９の９個のアングル領域が設定されている。図１０（ｂ）は、アングル領域ＡＲがフレキシブルなサイズの分割領域で構成される場合の例を示しており、ＡＲ１～ＡＲ６の６個のアングル領域が設定されている。なお、アングル領域同士は必ずしも空間で連続的に配置されていなくてもよい。

　図１１は、プロジェクション画像上に設定されたある一つのアングル領域ＡＲｉを示している。図において、外側の矩形枠はプロジェクション画像の全体を示しており、このプロジェクション画像に対応してブロック単位でデプス値ｄｖ(j.k)が存在し、それらをまとめてデプスマップ（depthmap）が構成される。

　アングル領域ＡＲｉにおける代表デプス値ＤＰiは、アングル領域ＡＲｉに含まれる複数のデプス値ｄｖ(j.k)のうちの最小値であり、以下の数式（３）で表される。

　図１２（ａ），（ｂ）は、平面パッキング部１０３Ｌ，１０３Ｒで得られた左眼および右眼のプロジェクション画像にそれぞれ対応した球面画像の一部を示している。“Ｃ”は、視聴位置に対応した中心位置を示している。図示の例においては、プロジェクション画像のリファレンスポイントＲＰの他に、アングル領域の基準となるＶｐＡ～ＶｐＨの８つのビューポイントが設定されている。

　各ポイントの位置は、アジマス角度φとエレベーション角度θで示される。各アングル領域（図１２には図示せず）の位置は、対応するビューポイントからのオフセット角で与えられる。ここで、アジマス角度φとエレベーション角度θは、それぞれ、矢印方向の角度を示し、矢印の基点位置の角度は０度である。例えば、図示の例のように、リファレンスポイント（ＲＰ）のアジマス角度φはφr＝０°、リファレンスポイント（ＲＰ）のエレベーション角度θはθr＝９０°（π/２）に設定される。

　図１３は、アングル領域の定義を示している。図示の例において、外側の矩形枠はプロジェクション画像の全体を示している。また、図示の例においては、ビューポイントＶＰの影響下にあるアングル領域としてＡＧ_1，ＡＧ_2，ＡＧ_3の３つが示されている。それぞれのアングル領域は、ビューポイント位置に対する長方形のアングル領域の左上開始点と右下終了点の位置情報であるアングル角ＡＧ_tl，ＡＧ_brで表される。ここで、ＡＧ_tl，ＡＧ_brは、それぞれ、表示位置と想定視聴位置との想定距離をＤとし、ビューポイントＶＰを基準とした、水平、垂直の２次元アングル角である。

　なお、上述では、デプスメタ情報生成部１０６は、デプス生成部１０５で生成されたブロック毎のデプス値を用いてそれぞれのアングル領域の代表デプス値を求めるように説明したが、図２に破線で示すように、デプスセンサ１１１で得られた画素毎あるいはブロック毎のデプス値を用いてそれぞれのアングル領域の代表デプス値を求めることも可能である。その場合には、デプス生成部１０５は不要となる。

　字幕（サブタイトル）発生部１０７は、画像に重畳する字幕のデータを発生する。字幕エンコーダ１０８は、字幕発生部１０７で発生された字幕データを符号化して字幕ストリームを生成する。なお、字幕エンコーダ１０８は、デプス生成部１０５で生成されたブロック毎のデプス値を参照して、プロジェクション画像のリファレンスポイントＲＰ(x,y)を中心とするデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値、あるいはそれを変換した視差値を、字幕データに付加する。なお、この字幕データに、さらに、上述のデプスメタ情報に設定されている各ビューポイントを中心とするビュー表示時に使用し得るデプス値あるいは視差値を付加することも考えられる。

　図２に戻って、コンテナエンコーダ１０９は、ビデオエンコーダ１０４で生成されたビデオストリーム、字幕エンコーダ１０８で生成された字幕ストリーム、デプスメタ情報生成部１０６で生成されたピクチャ毎のデプスメタ情報を持つタイムドメタデータストリームを含むコンテナ、ここではＭＰ４ストリームを、配信ストリームＳＴＭとして生成する。この場合、コンテナエンコーダ１０９は、ビデオストリームを含むＭＰ４ストリームに、レンダリングメタデータ（図６参照）を挿入する。なお、この実施の形態においては、ビデオストリームのレイヤとコンテナのレイヤの双方にレンダリングメタデータを挿入するものであるが、いずれか一方のみに挿入することも考えられる。

　また、コンテナエンコーダ１０５は、ビデオストリームを含むＭＰ４ストリームに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタを挿入する。このデスクリプタとして、従来周知のコンポーネントデスクリプタ（component_descriptor）が存在する。

　図１４（ａ）は、コンポーネントデスクリプタの構造例（syntax）を示し、図１４（ｂ）は、その構造例における主要な情報の内容（semantics）を示している。「stream_content」の４ビットフィールドは、ビデオ・オーディオ・サブタイトルの符号化方式を示す。この実施の形態では、“０ｘ９”とされ、ＨＥＶＣ符号化であることが示される。

　「stream_content_ext」の４ビットフィールドは、上述の「stream_content」との組み合わせで用いることで符号化対象の詳細を示す。「component_type」の８ビットフィールドは、各符号化方式の中のバリエーションを示す。この実施の形態では、「stream_content_ext」を“０ｘ２”とし、「component_type」を“０ｘ５”とすることで“ＨＥＶＣ　Ｍａｉｎ１０　Ｐｒｏｆｉｌｅ　ＵＨＤの符号化でステレオスコピックＶＲの配信”であることを示す。

　送信部１１０は、コンテナエンコーダ１０９で得られたＭＰ４の配信ストリームＳＴＭを、放送波あるいはネットのパケットに載せて、サービス受信機２００に送信する。

　図１５は、ＭＰ４ストリームを概略的に示している。図には、ビデオストリームを含むＭＰ４ストリーム（ビデオトラック）と、タイムドメタデータトラックストリームを含むＭＰ４ストリーム（タイムドメタデータトラック）が示されている。ここでは、省略するが、その他に、字幕ストリームを含むＭＰ４ストリーム（字幕トラック）なども存在する。

　ＭＰ４ストリーム（ビデオトラック）は、各ランダムアクセス期間が、イニシャライゼーション・セグメント（ＩＳ：initialization segment）から始まり、それに、“ｓｔｙｐ”、“ｓｉｄｘ（Segment index box）”、“ｓｓｉｘ（Sub-segment index box）”、“ｍｏｏｆ（Movie fragment box）”、“ｍｄａｔ（Media data box）”のボックスが続いた構成となっている。

　イニシャライゼーション・セグメント（ＩＳ）は、ＩＳＯＢＭＦＦ（ISO Base Media File Format）に基づくボックス（Box）構造を持つ。このイニシャライゼーション・セグメント（ＩＳ）に、レンダリングメタデータやコンポーネントデスクリプタが挿入されている。

　“ｓｔｙｐ”ボックスにはセグメントタイプ情報が入る。“ｓｉｄｘ”ボックスには、各トラック（track）のレンジ情報が入り、“ｍｏｏｆ”/“ｍｄａｔ”の位置が示され、“ｍｄａｔ”内の各サンプル（ピクチャ）の位置も示される。“ｓｓｉｘ”ボックスには、トラック（track）の区分け情報が入り、Ｉ/Ｐ/Ｂタイプの区分けがされる。

　“ｍｏｏｆ”ボックスには制御情報が入る。“ｍｄａｔ”ボックスには、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＰＳＥＩ」、「ＳＳＥＩ」、「ＳＬＩＣＥ」のＮＡＬユニットが配置されている。「ＳＬＩＣＥ」のＮＡＬユニットに、ランダムアクセス期間の各ピクチャの符号化画像データが含まれている。

　一方、ＭＰ４ストリーム（タイムドメタデータトラック）も、各ランダムアクセス期間が、イニシャライゼーション・セグメント（ＩＳ）から始まり、それに、“ｓｔｙｐ”、“ｓｉｄｘ”、“ｓｓｉｘ”、“ｍｏｏｆ”、“ｍｄａｔ”のボックスが続いた構成となっている。“ｍｄａｔ”ボックスには、ランダムアクセス期間の各ピクチャのデプスメタ情報が含まれている。

　図１６は、デプスメタ情報を含む１ピクチャ分のタイムドメタデータの構造例（Syntacs）を示し、図１７は、その構成例における主要な情報の内容（Semantics）を示している。「number_of_viewpoints」の８ビットフィールドは、ビューポイントの数を示している。このビューポイントの数だけ、以下の情報が繰り返し存在する。

　「viewpoint_id」の８ビットフィールドは、ビューポイントの識別番号を示している。「center_azimuth」の１６ビットフィールドは、ビュー中心位置、つまりビューポイントの視点位置からのアジマス角を示す。「center_elevation」の１６ビットフィールドは、ビュー中心位置、つまりビューポイントの視点位置からのエレベーション角を示す。「center_tilt」の１６ビットフィールドは、ビュー中心位置、つまりビューポイントのチルト角を示す。このチルト角はビュー中心に対するアングルの傾きを示している。「number_of_depth_sets」の８ビットフィールドは、デプスセットの数、つまりアングル領域の数を示す。このデプスセットの数だけ、以下の情報が繰り返し存在する。

　「angle_tl_horizontal」の１６ビットフィールドは、対象アングル領域の左上コーナを示す水平位置をビューポイントからのオフセット角で示す。「angle_tl_vertical」の１６ビットフィールドは、対象アングル領域の左上コーナを示す垂直位置をビューポイントからのオフセット角で示す。「angle_br_horizontal」の１６ビットフィールドは、対象アングル領域の右下コーナを示す水平位置をビューポイントからのオフセット角で示す。「angle_br_vertical」の１６ビットフィールドは、対象アングル領域の右下コーナを示す垂直位置をビューポイントからのオフセット角で示す。

　「depth_reference」の１６ビットフィールドは、デプス値の基準、つまりスクリーン（図９参照）の深さに相当するデプス値を示す。このデプス値では、視差展開の際に左眼画像（レフトビュー）および右眼画像（ライトビュー）の表示オフセットがゼロとなるようにデプス視差変換式（１）、（２）の調整をすることができる。「depth_representative_position_horizontal」の１６ビットフィールドは、代表デプス値に対応した位置、つまり代表デプス値が領域内のどの位置に係るものであるかを示す位置の水平位置をビューポイントからのオフセット角で示す。「depth_representative_position_vertical」の１６ビットフィールドは、代表デプス値に対応した位置の垂直位置をビューポイントからのオフセット角で示す。「depth_representative」の１６ビットフィールドは、代表デプス値を示している。

　ビデオストリームを含むＭＰ４ストリーム（ビデオトラック）と、タイムドメタデータトラックストリームを含むＭＰ４ストリーム（タイムドメタデータトラック）の紐付は、ＭＰＤファイルにより行われる。

　図１８は、ＭＰＤファイルの記述例を示している。ここでは、説明の簡単化のために、ビデオトラックとタイムドメタデータトラックに関する情報のみが記述されている例を示しているが、実際には字幕ストリーム等の他のメディアストリームに関する情報も記述されている。

　一点鎖線の矩形枠で囲む部分は、詳細説明は省略するが、ビデオトラックに関連する情報を示す。また、破線の矩形枠で囲む部分は、タイムドメタデータトラックに関する情報を示す。ビューポイントのメタ情報ストリームで構成されるストリーム“preset-viewpoints.mp4”を含むアダプテーションセット（AdaptationSet）であることを示す。「Representation id」は、"preset-viewpoints"であり、「associationId」は"360-video"、「associationType」が "cdsc"であり、ビデオのトラックとリンクされていることを示す。

　図２に示すサービス送信システム１００の動作を簡単に説明する。左側カメラ１０２Ｌおよび右側カメラ１０２Ｒでは、それぞれ、被写体が撮像されて、球面キャプチャ画像（３６０°ＶＲ画像）が得られる。カメラ１０２Ｌ，１０２Ｒで得られた球面キャプチャ画像は、それぞれ平面パッキング部１０３Ｌ，１０３Ｒに供給される。平面パッキング部１０３Ｌ，１０３Ｒでは、それぞれ、カメラ１０２Ｌ，１０２Ｒで得られた球面キャプチャ画像の一部または全部が切り取られて平面パッキングされ、長方形のプロジェクション画像が得られる。

　平面パッキング部１０３Ｌ，１０３Ｒで得られたプロジェクション画像の画像データはビデオエンコーダ１０４に供給される。ビデオエンコーダ１０４では、平面パッキング部１０３Ｌ，１０３Ｒで得られたプロジェクション画像の画像データに対して符号化が施され、符号化画像データを含むビデオストリームが生成される。

　この場合、ビデオストリームのＳＰＳ　ＮＡＬユニットには、切出し位置情報が挿入される（図４参照）。また、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、レンダリングメタデータ（レンダリング用メタ情報）を持つＳＥＩメッセージ（図６参照）が挿入される。

　また、平面パッキング部１０３Ｌ，１０３Ｒで得られたプロジェクション画像の画像データはビデオエンコーダ１０４に供給される。デプス生成部１０５では、平面パッキング部１０３Ｌ，１０３Ｒからの左眼および右眼のプロジェクション画像が用いられて、ブロック毎の奥行き情報であるデプス値が求められる。つまり、このデプス生成部１０５で、ピクチャ毎に、ブロック単位のデプス値ｄｖ(j.k)の集まりであるデプスマップ（dpepthmap）が生成される。

　デプス生成部１０５で生成されたピクチャ毎のデプスマップは、デプスメタ情報生成部１０６に供給される。デプスメタ情報生成部１０６では、ピクチャ毎に、デプスメタ情報が生成される。このデプスメタ情報には、プロジェクション画像上に設定された所定数のアングル領域の位置情報と代表デプス値が含まれ、さらにその代表デプス値が領域内のどの位置に係るものであるかを示す位置情報も含まれる。なお、デプスメタ情報生成部１０６では、デプス生成部１０５で生成されたピクチャ毎のデプスマップの代わりに、デプスセンサ１１１で得られた情報により生成されるデプスマップが用いられてもよい。

　また、字幕（サブタイトル）発生部１０７では、画像に重畳する字幕のデータが発生される。この字幕データは、字幕エンコーダ１０８に供給される。字幕エンコーダ１０８では、字幕データが符号化されて字幕ストリームが生成される。この場合、字幕データには、プロジェクション画像のリファレンスポイントＲＰ(x,y)を中心とするデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値が付加される。

　ビデオエンコーダ１０４で生成されたビデオストリーム、字幕エンコーダ１０８で生成された字幕ストリーム、デプスメタ情報生成部１０６で生成されたピクチャ毎のデプスメタ情報はコンテナデコーダ１０９に供給される。コンテナデコーダ１０９では、ビデオストリーム、字幕ストリーム、ピクチャ毎のデプスメタ情報を持つタイムドメタデータストリームを含むコンテナ、ここではＭＰ４ストリームが、配信ストリームＳＴＭとして生成される。

　この場合、コンテナエンコーダ１０９では、ビデオストリームを含むＭＰ４ストリームに、レンダリングメタデータ（図６参照）が挿入される。また、コンテナエンコーダ１０９では、ビデオストリームを含むＭＰ４ストリームに、ビデオストリームに対応付けて、種々の情報を持つデスクリプタ、例えばコンポーネントデスクリプタ（図１４参照）等が挿入される。

　コンテナエンコーダ１０９で得られたＭＰ４ストリームは、送信部１１０に供給される。この送信部１１０では、コンテナエンコーダ１０９で得られたＭＰ４の配信ストリームＳＴＭが、放送波あるいはネットのパケットに載せて、サービス受信機２００に送信される。

　なお、上述では、各ピクチャのデプスメタ情報をタイムドメタデータストリームにより送信するように説明した。しかし、各ピクチャのデプスメタ情報をビデオストリームに挿入して送信することも考えられる。この場合、各ピクチャのアクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、デプスメタ情報を含むＰＳＶＰ・ＳＥＩメッセージ（SEI message）を挿入する。

　図１９は、ＰＳＶＰ・ＳＥＩメッセージの構造例（Syntax）を示している。このＰＳＶＰ・ＳＥＩメッセージにおける主要な情報は、図１６に示すタイムドメタデータにおける主要な情報と同様であるので、その詳細な説明は省略する。図２０は、各ピクチャのデプスメタ情報をビデオストリームに挿入して送信する場合におけるＭＰ４ストリームを概略的に示している。図示のように、この場合には、タイムドメタデータトラックストリームを含むＭＰ４ストリーム（タイムドメタデータトラック）は存在しない（図１５参照）。

　「サービス受信機」
　図２１は、サービス受信機２００の構成例を示している。このサービス受信機２００は、制御部２０１と、ＵＩ部２０１ａと、センサ部２０１ｂと、受信部２０２と、コンテナデコーダ２０３と、ビデオデコーダ２０４と、字幕デコーダ２０５と、グラフィクス発生部２０６と、レンダラ２０７と、スケーリング部２０８と、表示部２０９を有している。

　制御部２０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、サービス受信機２００の各部の動作を制御する。ＵＩ部２０１ａは、ユーザインタフェースを行うためものであり、例えば、表示領域の移動をユーザが操作するためのポインティングデバイスや、ユーザが音声で表示領域の移動を指示するために音声入力するためのマイクロホン等もこれに含まれる。センサ部２０１ｂは、ユーザ状態や環境の情報を取得するための種々のセンサを備えるものであり、例えば、ＨＭＤ（Head Mounted Display）に搭載されている姿勢検出センサなどもこれに含まれる。

　受信部２０２は、サービス送信システム１００から放送波あるいはネットのパケットに載せて送られてくるＭＰ４の配信ストリームＳＴＭを受信する。この場合、配信ストリームＳＴＭとして、ビデオストリーム、字幕ストリーム、タイムドメタデータストリームをそれぞれ含むＭＰ４ストリームが得られる。なお、各ピクチャのデプスメタ情報がビデオストリームに挿入されて送られてくる場合には、タイムドメタデータストリームを含むＭＰ４ストリームは存在しない。

　コンテナデコーダ２０３は、受信部２０２で受信されたビデオストリームを含むＭＰ４ストリームからビデオストリームを取り出し、ビデオデコーダ２０４に送る。また、コンテナデコーダ２０３は、ビデオストリームを含むＭＰ４ストリームから“ｍｏｏｖ”ブロックの情報などを取り出し、制御部２０１に送る。“ｍｏｏｖ”ブロックの情報の一つとしてレンダリングメタデータ（図６参照）が存在する。また、“ｍｏｏｖ”ブロックの情報の一つとして、コンポーネントデスクリプタ（図１４参照）も存在する。

　また、コンテナデコーダ２０３は、受信部２０２で受信された字幕ストリームを含むＭＰ４ストリームから字幕ストリームを取り出し、字幕デコーダ２０５に送る。また、コンテナデコーダ２０３は、受信部２０２でタイムドメタデータストリームを含むＭＰ４ストリームが受信されたとき、このＭＰ４ストリームからタイムドメタデータストリームを取り出し、このタイムドメタデータストリームに含まれるデプスメタ情報を抽出して、制御部２０１に送る。

　ビデオデコーダ２０４は、コンテナデコーダ２０３で取り出されたビデオストリームに復号化処理を施して、左眼および右眼のプロジェクション画像の画像データを得る。また、ビデオデコーダ２０４は、ビデオストリームに挿入されているパラメータセットやＳＥＩメッセージを抽出し、制御部２０１に送る。この抽出情報には、ＳＰＳ　ＮＡＬパケットに挿入されている切出し位置「default_display_window」の情報、さらにはレンダリングメタデータ（図６参照）を持つＳＥＩメッセージも含まれる。また、デプスメタ情報がビデオストリームに挿入されて送られてくる場合には、デプスメタ情報を含むＳＥＩメッセージ（図１９参照）も含まれる。

　字幕デコーダ２０５は、コンテナデコーダ２０３で取り出された字幕ストリームに復号化処理を施して字幕データを得、この字幕データから字幕表示データおよび字幕重畳位置データを得て、レンダラ２０７に送る。また、また、字幕デコーダ２０５は、字幕データに付加されているデフォルトビュー表示時における字幕の奥行き制御に使用し得るデプス値を取得し、制御部２０１に送る。

　グラフィクス発生部２０６は、ＯＳＤ（On Screen Display）あるいはアプリケーション、あるいはＥＰＧ（Electronic Program Guide）などのグラフィクスに係るグラフィクス表示データおよびグラフィクス重畳位置データを発生し、レンダラ２０７に送る。

　レンダラ２０７は、ビデオデコーダ２０４で得られた左眼および右眼のプロジェクション画像の画像データと、字幕デコーダ２０５からの字幕表示データおよび字幕重畳位置データと、グラフィクス発生部２０６からのグラフィクス表示データおよびグラフィクス重畳位置データに基づいて、字幕やグラフィクスが重畳された立体画像（ステレオスコピック画像）表示用の左眼および右眼の画像データを生成する。この場合、制御部２０１の制御のもと、ユーザの姿勢や操作に応じて、表示領域はインタラクティブに変更される。

　スケーリング部２０８は、表示部２０９の表示サイズに合うように左眼および右眼の画像データのスケーリングをする。表示部２０９は、スケーリング処理された左眼および右眼の画像データに基づいて、立体画像（ステレオスコピック画像）を表示する。表示部２０９は、例えば、表示パネルやＨＭＤ（Head Mounted Display）などで構成される。

　図２２は、レンダラ２０７の構成例を示している。このレンダラ２０７は、左眼画像データ生成部２１１Ｌと、右眼画像データ生成部２１１Ｒと、重畳部２１２と、デプス処理部２１３と、デプス/視差変換部２１４を有している。

　左眼画像データ生成部２１１Ｌには、ビデオデコーダ２０４から左眼プロジェクション画像の画像データＶPLが供給される。また、この左眼画像データ生成部２１１Ｌには、制御部２０１から、表示領域情報が供給される。左眼画像データ生成部２１１Ｌは、左眼プロジェクション画像に対してレンダリング処理を施し、表示領域に対応した左眼画像データＶＬを得る。

　画像データ生成部２１１Ｒには、ビデオデコーダ２０４から右眼プロジェクション画像の画像データＶPRが供給される。また、この右眼画像データ生成部２１１Ｒには、制御部２０１から、表示領域情報が供給される。右眼画像データ生成部２１１Ｒは、右眼プロジェクション画像に対してレンダリング処理を施し、表示領域に対応した右眼画像データＶＲを得る。

　ここで、制御部２０１は、ＨＭＤ搭載のジャイロセンサ等で得られる動きの方向と量の情報に基づいて、あるいはユーザ操作によるポインティング情報あるいはユーザの音声ＵＩ情報に基づいて、表示領域の移動の方向や速度の情報を得て、インタラクティブに表示領域を変更させるための表示領域情報を発生する。なお、制御部２０１は、例えば電源オン時等の表示開始時には、プロジェクション画像のリファレンスポイントＲＰ(x,y)（図５参照）を中心とするデフォルトビューに対応した表示領域情報を発生する。

　デプス処理部２１３には、制御部２０１から、表示領域情報およびデプスメタ情報が供給される。また、デプス処理部２１３には、字幕重畳位置データおよびグラフィクス重畳位置データが供給される。デプス処理部２１３は、字幕重畳位置データ、表示領域情報およびデプスメタ情報に基づき、字幕デプス値、つまり字幕表示データに視差を与えるためのデプス値を得る。

　例えば、デプス処理部２１３は、字幕表示データに視差を与えるためのデプス値を、字幕重畳位置データで示される字幕重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値のデプス値とする。このように字幕表示データに視差を与えるためのデプス値が決定されることで、字幕を字幕重畳範囲に存在する画像オブジェクトより手前に表示させることができ、画像内の各オブジェクトに対する遠近感の整合性を維持できる。

　図２３は、プロジェクション画像に対する表示領域の一例を示している。なお、プロジェクション画像としては左眼および右眼の２つが存在するが、ここでは、図面の簡単化のために１つのみを示している。このプロジェクション画像には、リファレンスポイントＲＰの他に、アングル領域の基準となるＶｐＡ～ＶｐＦの６つのビューポイントが設定されている。各ビューポイントの位置は、プロジェクション画像の左上の原点からのオフセットで設定される。あるいは、各ビューポイントの位置は、プロジェクション画像の左上の原点からのオフセットで設定されるリファレンスポイントＲＰからのオフセットで設定される。

　図示の例において、表示領域Ａおよび表示領域Ｂは、ビューポイントＶｐＤを含む位置にある。この場合、表示領域Ａと表示領域Ｂは領域の大きさが異なり、表示領域Ａが広く、表示領域Ｂは狭くなっている。受信機がどれだけの表示能力を持っているかによって表示領域の大きさのバリエーションが出てくる。

　表示領域Ａの場合には、近景のオブジェクトＯＢ１が含まれることから、字幕（Subtitle）はこのオブジェクトＯＢ１よりも手前に表示されるように重畳される。一方、表示領域Ｂの場合には、近景のオブジェクトＯＢ１が含まれず、そのためこの近景のオブジェクトＯＢ１よりも後方に、即ち、遠くに位置するオブジェクトＯＢ２よりも手前に表示されるように重畳される。

　図２４（ａ）は、表示領域Ａにおけるデプス値の分布を示すデプスカーブ（Depth Curve）を示している。この場合、字幕表示データに視差を与えるためのデプス値は、近景のオブジェクトＯＢ１よりも手前が字幕重畳位置となるように、オブジェクトＯＢ１に対応したデプス値よりも小さな値とされる。図２４（ｂ）は、表示領域Ｂにおけるデプス値の分布を示すデプスカーブを示している。この場合、字幕表示データに視差を与えるためのデプス値は、近景のオブジェクトＯＢ１の後ろに位置するオブジェクトＯＢ２よりも手前が字幕重畳位置となるように、オブジェクトＯＢ２に対応したデプス値よりも小さな値とされる。

　図２５は、ビューポイントＶＰ１の影響下にある第１の領域とビューポイントＶＰ２の影響下にある第２の領域との間で表示領域が移動する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示している。図示の例において、ビューポイントＶＰ１の影響下にある第１の領域には、アングル領域ＡＲ１，ＡＲ２が存在する。また、ビューポイントＶＰ２の影響下にある第２の領域には、アングル領域ＡＲ３，ＡＲ４，ＡＲ５が存在する。

　各アングル領域はデプス代表値をもっており、実折れ線Ｄは代表デプス値による深さの度合いを示している。実折れ線Ｄのとる値は、以下のようになる。すなわち、Ｌ０～Ｌ１はアングル領域ＡＲ１のデプス代表値となる。Ｌ１～Ｌ２はアングル領域が定義されていない部分なので“far”を示すデプス値となる。Ｌ２～Ｌ３はアングル領域ＡＲ２のデプス代表値となる。Ｌ３～Ｌ４はアングル領域が定義されていない部分なので“far”を示すデプス値となる。Ｌ４～Ｌ５はアングル領域ＡＲ３のデプス代表値となる。Ｌ５～Ｌ６はアングル領域ＡＲ４のデプス代表値となる。そして、Ｌ６～Ｌ７はアングル領域ＡＲ５のデプス代表値となる。

　破線Ｐは、字幕表示データに視差を与えるためのデプス値（字幕デプス値）を示している。表示領域が移動する際、字幕デプス値は、実折れ線Ｄをトレースするように遷移する。しかし、Ｌ１～Ｌ２の部分は字幕の横幅よりも狭いため、字幕デプス値は実折れ線Ｄをトレースせず、Ｌ０～Ｌ１のデプス値あるいはＬ２～Ｌ３のデプス値となる。また、字幕が実折れ線Ｄの複数のデプス値の区間に重なる際には、字幕デプス値は、デプス値の小さな方に添う形となる。なお、Ｓ１～Ｓ３は、字幕位置の一例とそのときの字幕デプス値を概略的に示している。

　図２６は、プロジェクション画像に設定された複数のアングル領域の間で表示領域が遷移する場合において、各移動位置における字幕表示データに視差を与えるためのデプス値の設定方法の一例を示している。図示の例において、プロジェクション画像には、水平方向に隣接して、アングル領域ＡＧ_1，ＡＧ_2，ＡＧ_3が存在する。

　図２６（ａ）に示すように、表示領域がアングル領域ＡＧ_2に含まれている場合には、字幕表示データに視差を与えるためのデプス値（字幕デプス値）は、このアングル領域ＡＧ_2の代表デプス値される。また、図２６（ｂ）に示すように、表示領域がアングル領域ＡＧ_2，ＡＧ_3の双方に重なる場合には、字幕デプス値は、アングル領域ＡＧ_2，ＡＧ_3の代表デプス値のうちの最小値とされてもよいが、それぞれのアングル領域に重なる表示領域の割合等に応じてアングル領域ＡＧ_2，ＡＧ_3の代表デプス値が重み付け加算されたものとすることも考えられる。その場合には、表示領域がアングル領域ＡＧ_2に含まれた状態からアングル領域ＡＧ_3に含まれた状態となるまでの間で字幕デプス値がスムーズに遷移させることが可能となる。

　なお、このように表示領域がアングル領域ＡＧ_2，ＡＧ_3の双方に重なる場合には、上述したようにそれぞれのアングル領域に重なる表示領域の割合等に応じてアングル領域ＡＧ_2，ＡＧ_3の代表デプス値を重み付け加算して字幕デプス値とする他に、例えば、それぞれの代表デプス値が領域内のどの位置に係るものであるかを示す位置情報に基づいて、対象領域でのデプス値の変化を段階的に行うなどが可能である。

　例えば、図２６(b)においては表示領域の右端がＡＧ_2からＡＧ_3に移動する際、そのデプス代表値はＡＧ_2の値からＡＧ_3の値へ瞬時に変化させずに表示領域右端がＡＧ_3のデプス代表値の位置に差し掛かるまでに、ＡＧ_2のデプス代表値からＡＧ_3のデプス代表値へ徐々に変化させるなどの表示制御が可能となる。

　また、図２６（ｃ）に示すように、表示領域がアングル領域ＡＧ_3に含まれている場合には、字幕表示データに視差を与えるためのデプス値（字幕デプス値）は、このアングル領域ＡＧ_3の代表デプス値される。

　図２７は、表示部２０９としてＨＭＤ（Head Mounted Display）を用いる場合の例を示している。この場合、図２７（ａ）に示すように、ＨＭＤを装着しているユーザが首をＴ１→Ｔ２→Ｔ３のように左から右に回していくことで、視点がビューポイントＶＰに近づいていき、Ｔ３の状態では、視点がビューポイントＶＰと一致した状態となる。

　図２７（ｂ）は、ＨＭＤを装着しているユーザが首をＴ１→Ｔ２→Ｔ３のように左から右に回していったときの表示領域の移動時の一例を示している。ここでは、表示領域がアングル領域以下である標準表示と表示領域がアングル領域より大きい広角表示を考える。

　Ｔ１の状態では、表示領域はアングル領域ＡＧ_1に対応したものとなる。標準表示の場合には、表示領域がアングル領域ＡＧ_1に含まれるので、字幕デプス値（字幕表示データに視差を与えるためのデプス値）は、このアングル領域ＡＧ_1の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域ＡＧ_0～ＡＧ_2に跨るので、字幕デプス値は、これらのアングル領域ＡＧ_0～ＡＧ_2の代表デプス値のうちの最小値とされる。

　また、Ｔ２の状態では、表示領域はアングル領域ＡＧ_2に対応したものとなる。標準表示の場合には、表示領域がアングル領域ＡＧ_2に含まれるので、字幕デプス値（字幕表示データに視差を与えるためのデプス値）は、このアングル領域ＡＧ_2の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域ＡＧ_1～ＡＧ_3に跨るので、字幕デプス値は、これらのアングル領域ＡＧ_1～ＡＧ_3の代表デプス値のうちの最小値とされる。

　また、Ｔ３の状態では、表示領域はアングル領域ＡＧ_3に対応したものとなる。標準表示の場合には、表示領域がアングル領域ＡＧ_3に含まれるので、字幕デプス値（字幕表示データに視差を与えるためのデプス値）は、このアングル領域ＡＧ_3の代表デプス値とされる。一方、広角表示の場合には、表示領域がアングル領域ＡＧ_2～ＡＧ_4に跨るので、字幕デプス値は、これらのアングル領域ＡＧ_2～ＡＧ_4の代表デプス値のうちの最小値とされる。

　図２８のフローチャートは、デプス処理部２１３における字幕デプス値を得るための手順の一例を示している。このフローチャートは、ピクチャ毎に実行される。デプス処理部２１３は、ステップＳＴ１において、処理を開始する。次に、デプス処理部２１３は、ステップＳＴ２において、字幕重畳位置データ、表示領域情報、さらにはデプスメタ情報を入力する。

　次に、デプス処理部２１３は、ステップＳＴ３において、表示領域内におけるデプス値分布を得る（図２５の実折れ線Ｄ参照）。この場合、アングル領域が存在する部分はその代表デプス値とされ、アングル領域が存在しない部分は、“far”を示すデプス値とされる。次に、ステップＳＴ４において、字幕重畳範囲内での最小のデプス値を字幕デプス値とする。そして、デプス処理部２１３は、ステップＳＴ５において、処理を終了する。

　なお、デプス処理部２１３は、ステップＳＴ４において、字幕重畳範囲内における最小のデプス値を字幕デプス値とするのではなく、表示領域が複数のデプス値の領域に重なる場合、重なりの割合に応じて各デプス値を重み付け加算して字幕デプス値とすることで、字幕デプス値がデジタル的に急に変化することを回避でき、字幕デプス値をスムーズに遷移させることが可能となる。

　図２２に戻って、また、デプス処理部２１３は、グラフィクス重畳位置データ、表示領域情報およびデプスメタ情報に基づき、グラフィクスデプス値（グラフィクス表示データに視差を与えるためのデプス値）を得る。詳細説明は省略するが、デプス処理部２１３において、グラフィクスデプス値を求める処理は、上述の字幕デプス値を求める処理と同様である。なお、字幕とグラフィクスの重畳位置が一部重なる場合、グラフィクスが字幕の手前に位置するように、グラフィクスデプス値が調整される。

　デプス/視差変換部２１４は、デプス処理部２１３で得られた字幕デプス値、グラフィクスデプス値を、それぞれ視差値に変換して、字幕視差値、グラフィクス視差値を得る。この場合、上述した数式（２）により、変換される。

　重畳部２１２には、左眼画像データ生成部２１１Ｌで得られた左眼画像データＶＬが供給されると共に、右眼画像データ生成部２１１Ｒで得られた右眼画像データＶＲが供給される。また、重畳部２１２には、字幕表示データおよび字幕重畳位置データと、グラフィクス表示データおよびグラフィクス重畳位置データが供給される。さらに、重畳部２１２には、デプス/視差変換部２１４で得られた字幕視差値、グラフィクス視差値が供給される。

　重畳部２１２は、左眼画像データおよび右眼画像データの字幕重畳位置データで示される重畳位置に字幕表示データを重畳するが、その際に字幕視差値に基づいて視差を付与する。また、重畳部２１２は、左眼画像データおよび右眼画像データのグラフィクス重畳位置データで示される重畳位置にグラフィクス表示データを重畳するが、その際にグラフィクス視差値に基づいて視差を付与する。なお、重畳部２１２は、字幕とグラフィクスの重畳位置が一部重なる場合、その部分に関しては、字幕表示データの上にグラフィクス表示データが上書きされる。

　図２９は、字幕とグラフィクスの重畳位置が一部重なる場合におけるデプス制御例を示している。図示において、字幕は、字幕表示位置に対応した４つのアングル領域ＡＲ８，ＡＲ９，ＡＲ１０，ＡＲ１１の画像オブジェクトより手前に表示される。また、グラフィクスは、右側の８つのアングル領域ＡＲ２，ＡＲ３，ＡＲ６，ＡＲ７，ＡＲ１０，ＡＲ１１，ＡＲ１４，ＡＲ１５より手前で、字幕よりも手前に表示される。

　重畳部２１２は、左眼画像データに、左眼用字幕表示データおよび左眼用グラフィクス表示データが重畳された、左眼画像データＶLDを出力する。また、重畳部２１２は、右眼画像データに、右眼用字幕表示データおよび右眼用グラフィクス表示データが重畳された、右眼画像データＶRDを出力する。

　なお、上述したように、字幕表示データに視差を与えるための字幕視差値は、デプス処理部２１３で字幕重畳位置データ、表示領域情報およびデプスメタ情報に基づいて字幕デプス値を得て、その字幕デプスチをデプス/視差変換部２１４で変換して得ることができる。ただし、デフォルトビューの表示時に関しては、字幕データに付加されて送られてくる字幕デプス値や字幕視差値を用いることもできる。

　図２１に示すサービス受信機２００の動作を簡単に説明する。受信部２０２では、サービス送信システム１００から放送波あるいはネットのパケットに載せて送られてくるＭＰ４の配信ストリームＳＴＭが受信される。この配信ストリームＳＴＭは、コンテナデコーダ２０３に供給される。

　コンテナデコーダ２０３では、ビデオストリームを含むＭＰ４ストリームからビデオストリームが取り出され、ビデオデコーダ２０４に送られる。また、コンテナデコーダ２０３では、ビデオストリームを含むＭＰ４ストリームから“ｍｏｏｖ”ブロックの情報などが取り出され、制御部２０１に送られる。

　また、コンテナデコーダ２０３では、字幕ストリームを含むＭＰ４ストリームから字幕ストリームが取り出され、字幕デコーダ２０５に送られる。字幕デコーダ２０５では、字幕ストリームに復号化処理が施されて字幕データが得られ、この字幕データから字幕表示データおよび字幕重畳位置データが得られて、レンダラ２０７に送られる。

　また、コンテナデコーダ２０３では、受信部２０２でタイムドメタデータストリームを含むＭＰ４ストリームが受信されたときは、このＭＰ４ストリームからタイムドメタデータストリームが取り出され、このタイムドメタデータストリームに含まれるデプスメタ情報が制御部２０１に送られる。

　ビデオデコーダ２０４では、ビデオストリームに復号化処理が施されて、左眼および右眼のプロジェクション画像の画像データが得られ、レンダラ２０７に供給される。また、ビデオデコーダ２０４では、ビデオストリームに挿入されているパラメータセットやＳＥＩメッセージが抽出されて、制御部２０１に送られる。デプスメタ情報がビデオストリームに挿入されて送られてくる場合には、デプスメタ情報を含むＳＥＩメッセージも含まれる。

　グラフィクス発生部２０６では、ＯＳＤあるいはアプリケーション、あるいはＥＰＧなどのグラフィクスに係るグラフィクス表示データおよびグラフィクス重畳位置データが発生されて、レンダラ２０７に供給される。

　レンダラ２０７では、左眼および右眼のプロジェクション画像の画像データと、字幕デコーダ２０５からの字幕表示データおよび字幕重畳位置データと、グラフィクス発生部２０６からのグラフィクス表示データおよびグラフィクス重畳位置データに基づいて、字幕やグラフィクスが重畳された立体画像（ステレオスコピック画像）表示用の左眼および右眼の画像データが生成される。この場合、制御部２０１の制御のもと、ユーザの姿勢や操作に応じて、表示領域はインタラクティブに変更される。

　レンダラ２０７で得られた立体画像表示用の左眼および右眼の画像データは、スケーリング部２０８に供給される。スケーリング部２０８では、表示部２０９の表示サイズに合うようにスケーリングされる。表示部２０９では、スケーリング処理された左眼および右眼の画像データに基づいて、インタラクティブに表示領域が変更される立体画像（ステレオスコピック画像）が表示される。

　上述したように、図１に示す送受信システム１０において、サービス受信機２００では、　左眼および右眼の表示領域画像データに重畳情報（字幕やグラフィクス）の表示データを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて視差付与を制御するものである。そのため、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現し得る。

　また、図１に示す送受信システム１０において、サービス送信システム１００では、左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、ピクチャ毎の広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を送信するものである。そのため、広視野角画像内の奥行き情報を効率的に伝送し得る。

　＜２．変形例＞
　なお、上述実施の形態においては、コンテナがＭＰ４（ＩＳＯＢＭＦＦ）である例を示した。しかし、本技術は、コンテナがＭＰ４に限定されるものではなく、ＭＰＥＧ－２　ＴＳやＭＭＴなどの他のフォーマットのコンテナであっても同様に適用し得る。

　また、上述実施の形態においては、プロジェクション画像のフォーマットタイプがエクイレクタングラー(Equirectangular)であることを想定した説明となっている（図３、図５参照）。上述したように、プロジェクション画像のフォーマットタイプはエクイレクタングラーに限定されるものではなく、その他のフォーマットであってもよい。

　また、本技術は、以下のような構成を取ることもできる。
　（１）左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
　上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
　受信装置。
　（２）上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
　前記（１）に記載の受信装置。
　（３）上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
　前記（１）に記載の受信装置。
　（４）上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
　前記（１）から（３）のいずれかに記載の受信装置。
　（５）上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
　前記（２）から（３）いずれかに記載の受信装置。
　（６）上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
　前記（１）から（５）のいずれかに記載の受信装置。
　（７）上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
　前記（１）から（６）のいずれかに記載の受信装置。
　（８）上記重畳情報は、字幕および/またはグラフィクスである
　前記（１）から（７）のいずれかに記載の受信装置。
　（９）上記重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える
　前記（１）から（８）のいずれかに記載の受信装置。
　（１０）上記表示部は、ヘッドマウントディスプレイである
　前記（９）に記載の受信装置。
　（１１）左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する手順と、
　上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する手順を有し、
　上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
　受信方法。
　（１２）上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
　前記（１１）に記載の受信方法。
　（１３）上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
　前記（１１）に記載の受信方法。
　（１４）上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
　前記（１１）から（１３）のいずれかに記載の受信方法。
　（１５）上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
　上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
　前記（１１）から（１４）のいずれかに記載の受信方法。
　（１６）上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
　前記（１１）から（１５）のいずれかに記載の受信方法。
　　（１７）上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
　請求項１１に記載の受信方法。
　（１８）上記重畳情報は、字幕および/またはグラフィクスである
　前記（１１）から（１７）のいずれかに記載の受信方法。
　（１９）左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
　上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
　送信装置。
　（２０）左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信し、
　上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
　送信方法。

　本技術の主な特徴は、左眼および右眼の表示領域画像データに重畳情報（字幕やグラフィクス）の表示データを重畳する際に、広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報に基づいて視差付与をすることで、効率的に伝送されてくる奥行き情報を用いて重畳情報を重畳表示する際の奥行き制御を簡易に実現可能としたことである（図２１、図２２、図２５参照）。

　１０・・・送受信システム
　１００・・・サービス送信システム
　１０１・・・制御部
　１０１ａ・・・ユーザ操作部
　１０２Ｌ・・・左側カメラ
　１０２Ｒ・・・右側カメラ
　１０３Ｌ，１０３Ｒ・・・平面パッキング部
　１０４・・・ビデオエンコーダ
　１０５・・・デプス生成部
　１０６・・・デプスメタ情報生成部
　１０７・・・字幕発生部
　１０８・・・字幕エンコーダ
　１０９・・・コンテナデコーダ
　１１０・・・送信部
　１１１・・・デプスセンサ
　２００・・・サービス受信機
　２０１・・・制御部
　２０１ａ・・・ＵＩ部
　２０１ｂ・・・センサ部
　２０２・・・受信部
　２０３・・・コンテナデコーダ
　２０４・・・ビデオデコーダ
　２０５・・・字幕デコーダ
　２０６・・・グラフィクス発生部
　２０７・・・レンダラ
　２０８・・・スケーリング部
　２０９・・・表示部
　２１１Ｌ・・・左眼画像データ生成部
　２１１Ｒ・・・右眼画像データ生成部
　２１２・・・重畳部
　２１３・・・デプス処理部
　２１４・・・デプス/視差変換部

Claims

　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する受信部と、
　上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する処理部を備え、
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
　受信装置。
　上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
　請求項１に記載の受信装置。
　上記受信部は、上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
　請求項１に記載の受信装置。
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
　請求項１に記載の受信装置。
　上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
　上記処理部は、上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
　請求項１に記載の受信装置。
　上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
　請求項１に記載の受信装置。
　上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
　請求項１に記載の受信装置。
　上記重畳情報は、字幕および/またはグラフィクスである
　請求項１に記載の受信装置。
　上記重畳情報のデータが重畳された左眼および右眼の表示領域画像データに基づいて立体画像を表示する表示部をさらに備える
　請求項１に記載の受信装置。
　上記表示部は、ヘッドマウントディスプレイである
　請求項９に記載の受信装置。
　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎の上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含むデプスメタ情報を受信する手順と、
　上記ビデオストリームを復号化して得られた上記左眼および右眼のピクチャ毎の広視野角画像の画像データから左眼および右眼の表示領域画像データを取り出し、該左眼および右眼の表示領域画像データに重畳情報のデータを重畳して出力する手順を有し、
　上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に基づいて、上記左眼および右眼の表示領域画像データにそれぞれ重畳する上記重畳情報のデータに視差を付与する
　受信方法。
　上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに関連づけられたタイムドメタデータストリームにより受信する
　請求項１１に記載の受信方法。
　上記ピクチャ毎の上記デプスメタ情報を、上記ビデオストリームに挿入された状態で受信する
　請求項１１に記載の受信方法。
　上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数のアングル領域の代表デプス値のうちの最小値に基づいて、上記視差を付与する
　請求項１１に記載の受信方法。
　上記デプスメタ情報は、上記所定数のアングル領域の上記代表デプス値が領域内のどの位置に係るものであるかを示す位置情報をさらに含み、
　上記左眼および右眼の表示領域画像データに重畳情報のデータを重畳する際に、上記デプスメタ情報に含まれる、重畳範囲に対応した所定数の領域の代表デプス値と上記位置情報に基づいて、上記視差を付与する
　請求項１１に記載の受信方法。
　上記アングル領域の位置情報は、所定のビューポイントの位置を基準としたオフセット情報で与えられる
　請求項１１に記載の受信方法。
　上記デプスメタ情報は、スクリーンの深さに相当するデプス値をデプス値の基準としてさらに含む
　請求項１１に記載の受信方法。
　上記重畳情報は、字幕および/またはグラフィクスである
　請求項１１に記載の受信方法。
　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信する送信部を備え、
　上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
　送信装置。
　左眼および右眼のピクチャ毎の広視野角画像の画像データを符号化して得られたビデオストリームと、上記ピクチャ毎のデプスメタ情報を送信し、
　上記デプスメタ情報は、上記広視野角画像内の所定数のアングル領域の位置情報と代表デプス値を含む
　送信方法。