JP2023117400A

JP2023117400A - メディア処理装置、送信装置及び受信装置

Info

Publication number: JP2023117400A
Application number: JP2023018293A
Authority: JP
Inventors: 秀一青木; Shuichi Aoki
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2022-02-10
Filing date: 2023-02-09
Publication date: 2023-08-23

Abstract

【課題】視点の自由度を有するコンテンツを含む特定コンテンツを適切に表示することを可能とするメディア処理装置、送信装置及び受信装置を提供する。【解決手段】メディア処理装置は、視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツをユーザ端末に出力する出力部と、前記特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を示す情報要素を送信装置から取得する取得部と、を備える。【選択図】図２

Description

本発明は、メディア処理装置、送信装置及び受信装置に関する。

従来、360°映像及び3Dオブジェクトなどのコンテンツを伝送する仕組みが提案されている（例えば、非特許文献１）。このような仕組としては、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+（Degree of Freedom）、利用者が自由に動く範囲の視点移動を伴う6DoFなどが知られている。このような仕組みでは、360°映像と3Dオブジェクトとの位置関係は、シーン記述によって示される。

3GPP TR 26.928 V16.1.0 2020年12月

上述した背景下において、視点の自由度を有するコンテンツを含む特定コンテンツをメディア処理装置によって生成した上で、生成された特定コンテンツをメディア処理装置からユーザ端末に送信するケースが考えられる。

発明者等は、鋭意検討の結果、ユーザの視点位置が3Dオブジェクトの内側に移動するケース及びユーザの視点位置が360°映像の外側に移動するケースなどにおいて、ユーザ端末に表示される特定コンテンツの破綻が生じることを見出した。

そこで、本発明は、上述した課題を解決するためになされたものであり、視点の自由度を有するコンテンツを含む特定コンテンツを適切に表示することを可能とするメディア処理装置、送信装置及び受信装置を提供することを目的とする。

開示の一態様は、視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツをユーザ端末に出力する出力部と、前記特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を示す情報要素を送信装置から取得する取得部と、を備える、メディア処理装置である。

開示の一態様は、視点の自由度を有するコンテンツの構成を送信する送信部を備え、前記送信部は、前記コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信する、送信装置である。

開示の一態様は、視点の自由度を有するコンテンツの構成を受信する受信部を備え、前記受信部は、前記コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を受信する、受信装置である。

本発明によれば、視点の自由度を有するコンテンツを含む特定コンテンツを適切に表示することを可能とするメディア処理装置、送信装置及び受信装置を提供することができる。

図１は、実施形態に係る伝送システム10を示す図である。図２は、実施形態に係るメディア処理装置200及びユーザ端末300を示すブロック図である。図３は、実施形態に係る第2コンテンツを説明するための図である。図４は、実施形態に係る特定コンテンツの視聴方法を示す図である。図５は、動作例1を説明するための図である。図６は、動作例2を説明するための図である。図７は、動作例2を説明するための図である。図８は、動作例3を説明するための図である。図９は、動作例3を説明するための図である。図１０は、動作例3を説明するための図である。図１１は、動作例3を説明するための図である。図１２は、動作例4を説明するための図である。図１３は、動作例4を説明するための図である。図１４は、動作例4を説明するための図である。図１５は、動作例5を説明するための図である。図１６は、動作例5を説明するための図である。図１７は、動作例5を説明するための図である。図１８は、動作例5を説明するための図である。図１９は、変更例1に係る第1方法ついて説明するための図である。図２０は、変更例1に係る第2方法ついて説明するための図である。

次に、本発明の実施形態について説明する。なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なることに留意すべきである。

したがって、具体的な寸法などは以下の説明を参酌して判断すべきものである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。

［開示の概要］
開示の概要に係るメディア処理装置は、視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツをユーザ端末に出力する出力部と、前記特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を示す情報要素を送信装置から取得する取得部と、を備える。

開示の概要では、メディア処理装置は、特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信装置から受信する。このような構成によれば、ユーザ端末に表示される特定コンテンツの破綻を生じることなく、視点の自由度を有するコンテンツを含む特定コンテンツを適切に表示することができる。

なお、メディア処理装置によって生成される特定コンテンツは視点情報に基づいて生成されるものであり、ユーザ端末側では、特定コンテンツに含まれる映像について2D映像として扱うことができることに留意すべきである。

［実施形態］
（伝送システム）
以下において、実施形態に係る伝送システムについて説明する。図１は、実施形態に係る伝送システム10を示す図である。図１に示すように、デジタル無線伝送システムは、送信装置100、メディア処理装置200及びユーザ端末300を備える。

実施形態において、送信装置100は、視点の自由度を有していない第1コンテンツ及び視点の自由度を有する第2コンテンツをメディア処理装置200に送信する。さらに、送信装置100は、第1コンテンツに付随する第1制御情報及び第2コンテンツに付随する第2制御情報をメディア処理装置200に送信する。

第1コンテンツは、2D映像及び音声の少なくともいずれか1つを含んでもよい。第1コンテンツ及び第1制御情報は、第1方式で送信されてもよい。第1方式は、ISO/IEC 23008-1（以下、MMT（MPEG Media Transport））に準拠する方式であってもよい。以下においては、第1方式がMMTに準拠するMMTP（MMT Protocol）であるケースについて例示する。第1制御情報は、MMT-SI（Signaling Information）と称されてもよい。

第2コンテンツは、360°映像及び3Dオブジェクトを含んでもよい。第2コンテンツ及び第2制御情報は、第2方式で送信されてもよい。あるいは、HTTP（Hyper Text Transfer Protocol）などのプロトコルで伝送されてもよい。第2コンテンツは、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+（Degree of Freedom）、利用者が自由に動く範囲の視点移動を伴う6DoFなどに準拠してもよい。第2コンテンツは、視点の自由度を有するため、同一時刻（フレーム）において、2以上の360°映像を含んでもよく、2以上の3Dオブジェクトを含んでもよい。第2制御情報は、シーン記述と称されてもよい。

ここで、第2制御情報は、上述した第1方式で送信されてもよい。すなわち、第2制御情報は、第1制御情報と同じ第1方式（例えば、MMTP）で送信されてもよい。あるいは、HTTPなどのプロトコルで伝送されてもよい。

送信装置100からメディア処理装置200への伝送は、特に限定されるものではないが、衛星放送を用いた伝送であってもよく、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。

特に限定されるものではないが、伝送システムは、デジタル無線伝送システムであってもよい。デジタル無線伝送システムは、4K、8K衛星放送で用いるシステムであってもよい。

メディア処理装置200は、ユーザ端末300から受信する視点情報に基づいて、上述した第2コンテンツを少なくとも含む特定コンテンツを生成し、生成された特定コンテンツをユーザ端末300に送信する。特に限定されるものではないが、特定コンテンツの伝送は、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。

ユーザ端末300は、スマートフォン、タブレット端末、ヘッドマウントディスプレイなどのユーザ端末であってもよい。図１に示すように、ユーザ端末300として2以上のユーザ端末300が設けられてもよい。言い換えると、2以上のユーザ端末300は、特定コンテンツの生成をメディア処理装置200に要求してもよい。各ユーザ端末300は、別々の視点情報をメディア処理装置200に送信してもよい。

（メディア処理装置及びユーザ端末）
以下において、実施形態に係るメディア処理装置及びユーザ端末について説明する。図２は、実施形態に係るメディア処理装置200及びユーザ端末300を示すブロック図である。

第1に、メディア処理装置200は、受付部210と、レンダラ220と、符号化処理部230と、を有する。

受付部210は、視点情報を受け付ける。実施形態では、受付部210は、視点情報をユーザ端末300から受信する受信部を構成する。視点情報は、ユーザ端末300のユーザの視点位置を示す情報要素、ユーザ端末300のユーザの視線方向を示す情報要素を含む。

レンダラ220は、視点情報に基づいて、第2コンテンツを少なくとも含む特定コンテンツを生成する。特定コンテンツは、視点情報に基づいて生成されるため、同一時刻（フレーム）において、1つの360°映像を含んでもよく、1つの3Dオブジェクトを含んでもよい。以下において、特定コンテンツは、第2コンテンツに加えて第1コンテンツを含むケースについて例示する。

図２に示すように、レンダラ220は、第1制御情報（MMT-SI）に基づいて、特定コンテンツの一部として、2D映像及び音声を含む第1コンテンツを生成する。第1コンテンツの生成において視点情報は不要である。

具体的には、レンダラ220は、2D映像、音声及びMMT-SIがパケット化されたMMTPパケットの形式で、2D映像、音声及びMMT-SIを取得する。

例えば、MMTPパケットは、IP（Internet Protocol）パケットに格納される。IPパケットは、UDP（User Datagram Protocol）を用いて伝送されてもよく、TCP（Transmission Control Protocol）を用いて伝送されてもよい。

ここで、第1コンテンツは、一定時間幅で区切られた単位（以下、MPU；Media Processing Unit）で処理される。MPUは、1以上のアクセスユニットを含む。アクセスユニットは、MFU（Media Fragment Unit）として扱われることもある。2D映像に関するMFUは、NAL（Network Abstraction Layer）ユニットと称されてもよく、音声に関するMFUは、MHAS（MPEG-H 3D Audio Stream）パケットと称されてもよい。

MMT-SIは、PA（Package Access）メッセージを含み、PAメッセージは、第1コンテンツの一覧を示すMPT（MMT Package Table）を含む。さらに、MMT-SIは、第1コンテンツの提示時刻を示すMPUタイムスタンプ記述子を含む。MPUタイムスタンプ記述子は、MPUの提示時刻、すなわち、MPUにおいて最初に提示するアクセスユニットの時刻を意味してもよい。

MPUタイムスタンプ記述子は、UTC（Coordinated Universal Time）を基準時刻として生成されてもよい。基準時刻は、TAI（International Atomic Time）が用いられてもよく、GPS（Global Positioning System）から提供される時刻が用いられてもよい。基準時刻は、NTP（Network Time Protocol）サーバから提供される時刻であってもよく、PTP（Precision Time Protocol）サーバから提供される時刻であってもよい。

第2に、レンダラ220は、第2制御情報（シーン記述）に基づいて、特定コンテンツの一部として、360°映像及び3Dオブジェクトを含む第2コンテンツを生成する。第2コンテンツの生成において視点情報が用いられる。

具体的には、レンダラ220は、シーン記述がパケット化されたMMTPパケットの形式で、シーン記述を取得してもよい。360°映像及び3Dオブジェクトの取得方法は特に限定されるものではない。

360°映像は、ERP（Equirectangular projection）やキューブマップなどの射影変換によって2D映像に変換されていてもよい。360°映像に適用した射影変換の種類を示すメタデータが付加されていてもよい。3Dオブジェクトは、メッシュ形式で符号化されてもよい。メッシュ形式の符号化としては、ISO/IEC 14496-16 “Animation framework extension (AFX)”が用いられてもよい。3Dオブジェクトは、ポイントクラウド形式で符号化されてもよい。ポイントクラウド形式の符号化としては、ISO/IEC 23090-5 “Video-based Point Cloud Compression”が用いられてもよい。

ここで、第2コンテンツは、一定時間幅で区切られた単位で1つのファイルに纏められる。一定時間幅は、500msであってもよい。例えば、フレームレートが60fps（frame per second）である場合には、1つのファイルは、30 frameを含む。

シーン記述は、1つのファイル毎に生成され、360°映像及び3Dオブジェクトを特定する情報をフレーム毎に含む。例えば、シーン記述は、フレームの3Dオブジェクトの名称を示す情報要素（object_name）、フレーム番号を示す情報要素（frame_number）、フレームにおける3Dオブジェクトの位置を示す情報要素（translation_object）、フレームにおける3Dオブジェクトの回転を示す情報要素（rotation_object）、フレームにおける3Dオブジェクトの大きさを示す情報要素（scale_object）などを含む。

第3に、レンダラ220は、第1コンテンツ及び第2コンテンツを含む特定コンテンツを符号化処理部230に出力する。レンダラ220は、特定コンテンツとともに、特定コンテンツの提示時刻を符号化処理部230に出力してもよい。

ここで、特定コンテンツの提示時刻は、メディア処理装置200とユーザ端末300との間の遅延時間に基づいて修正されてもよい。具体的には、レンダラ220は、送信装置100からメディア処理装置200に提供される特定コンテンツの提示時刻（T）及び遅延時間（ΔT）に基づいて、メディア処理装置200からユーザ端末300に提供される特定コンテンツの提示時刻（T’=T+ΔT）を算出してもよい。遅延時間（ΔT）は、メディア処理装置200において予め定められた値であってもよく、ユーザ端末300毎に異なる値であってもよい。

第4に、レンダラ220は、特定コンテンツの生成に用いた視点情報をユーザ端末300に送信する送信部を構成してもよい。特定コンテンツの生成に用いた視点情報は、符号化処理部230からユーザ端末300に送信されてもよい。

例えば、視点情報及び特定コンテンツの伝送方式は、MMTPであってもよく、HTTPであってもよい。特定コンテンツの伝送方式としてMMTPが用いられる場合には、視点情報は、ISO/IEC 23090-2で規定されたOMAF（Omnidirectional Media Format）にメタデータとして格納されてもよい。

符号化処理部230は、レンダラ220によって生成された特定コンテンツを符号化する。実施形態では、符号化処理部230は、特定コンテンツをユーザ端末300に送信する送信部の一例であってもよい。

さらに、符号化処理部230は、特定コンテンツの提示時刻を符号化してもよい。符号化処理部230は、提示時刻を示す情報要素を特定コンテンツとともにユーザ端末300に送信してもよい。

ここで、符号化処理部230が用いる圧縮符号化方式としては、任意の圧縮符号化方式を用いることができる。例えば、圧縮符号化方式は、HEVC（High Efficiency Video Coding）であってもよく、VVC（Versatile Video Coding）であってもよい。

上述したように、特定コンテンツに含まれる第2コンテンツは、視点情報に基づいて生成されるため、特定コンテンツに含まれる映像は、視点の自由度を有していない2D映像として扱うことができる。

例えば、特定コンテンツの視聴開始や終了で用いる伝送制御方式は、RTSP（Real Time Streaming Protocol）を含んでもよい。伝送方式は、MMTPであってもよく、HTTPであってもよい。伝送方式としてMMTPが用いられる場合には、特定コンテンツは、ISO/IEC 23090-2で規定されたOMAFに格納されてもよい。

図２に示すように、ユーザ端末300は、検出部310と、復号処理部320と、レンダラ330と、を有する。

検出部310は、ユーザの視点位置及び視線方向を検出する。検出部310は、加速度センサを含んでもよく、GPS（Global Positioning System）センサを含んでもよい。検出部310は、ユーザによって手動で入力されるユーザI/F（例えば、タッチセンサ、キーボード、マウス、コントローラなど）を含んでもよい。検出部310は、視点情報（視点位置及び視線方向）をメディア処理装置200に送信してもよい。検出部310は、視点情報（ビューポート）をレンダラ330に出力してもよい。

復号処理部320は、メディア処理装置200から受信する特定コンテンツを復号する。復号処理部320は、メディア処理装置200から受信する提示時刻を復号してもよい。復号処理部320は、特定コンテンツをレンダラ330に出力してもよく、提示時刻をレンダラ330に出力してもよい。

レンダラ330は、復号処理部320によって復号された特定コンテンツを出力する。レンダラ330は、復号処理部320によって復号された提示時刻に基づいて特定コンテンツを出力してもよい。例えば、レンダラ330は、特定コンテンツに含まれる映像コンテンツをディスプレイに出力し、特定コンテンツに含まれる音声コンテンツをスピーカに出力してもよい。

ここで、レンダラ330は、メディア処理装置200から受信する視点情報と検出部310から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。

（第2コンテンツ）
以下において、実施形態に係る第2コンテンツについて説明する。ここでは、t=0、t=1及びt=2における第2コンテンツについて説明する。t=0、t=1及びt=2の時間間隔は特に限定されるものではない。

例えば、図３に示すように、t=0において、3Dオブジェクトが表示されずに、360°映像が表示されてもよい。360°映像は、3Dオブジェクトの背景映像であると考えてもよい。t=1において、360°映像に重畳される形式で3Dオブジェクトが表示されてもよい。さらに、t=1において、360°映像に重畳される3Dオブジェクトの位置及び回転が変更されてもよい。

上述したシーン記述は、t=0、t=1及びt=2のそれぞれについて、3Dオブジェクトの位置、回転及び大きさを示す情報要素を含み、360°映像上に3Dオブジェクトを適切に重畳することができる。

（視聴方法）
以下において、実施形態に係る視聴方法について説明する。ここでは、第1コンテンツ及び第2コンテンツを含む特定コンテンツの視聴について例示する。

図４に示すように、ステップS11において、ユーザ端末300は、RTSP SETUPをメディア処理装置に送信する。RTSP SETUPは、特定コンテンツの視聴を開始する旨のメッセージである。

ここで、RTSP SETUPは、ユーザ端末300のIPアドレス、待受ポート番号、コンテンツの識別情報（コンテンツID）などを含む。RTSP SETUPは、特定コンテンツを視聴するためのユーザ端末300の能力情報を含んでもよい。能力情報は、フレームレート、表示解像度などを含んでもよい。表示解像度は、視野角（FoV：Field of View）を含んでもよい。能力情報は、ユーザ端末300が対応する符号化方式及び圧縮方式を示す情報要素を含んでもよい。

ここでは、ユーザ端末300の能力情報がメディア処理装置200に直接的に通知されるケースが例示されているが、実施形態はこれに限定されるものではない。ユーザ端末300の能力情報は、送信装置100に通知された上で、送信装置100からメディア処理装置200に通知されてもよい。

ステップS12において、メディア処理装置200は、RTSP SETUPに対する応答を送信する。ここでは、RTSP SETUPを受け付けた旨を示すACKが応答として送信される。

ステップS21において、ユーザ端末300は、初期視点情報をメディア処理装置200に送信する。初期視点情報は、MMT-SIの形式で送信されてもよい。

ステップS22において、メディア処理装置200は、初期視点情報に基づいて初期特定コンテンツを生成する（レンダリング処理）。例えば、メディア処理装置200は、初期視点情報及びシーン記述に基づいて、初期特定コンテンツに含める第2コンテンツを生成する。

ここで、メディア処理装置200は、ユーザ端末300の表示解像度よりも広い範囲をビューポートとして初期特定コンテンツを生成してもよい。例えば、表示解像度よりも広い範囲は、水平方向において表示解像度+20%、垂直方向において表示解像度+20%の範囲であってもよい。

メディア処理装置200は、初期特定コンテンツに圧縮符号化方式を適用する。特に限定されるものではないが、圧縮符号化方式は、HEVCであってもよく、VVCであってもよい。

ステップS23において、メディア処理装置200は、初期視点情報に対応する初期特定コンテンツをユーザ端末300に送信する。メディア処理装置200は、初期特定コンテンツの提示時刻をユーザ端末300に送信する。上述したように、ユーザ端末300に提供される提示時刻（T’）は、遅延時間（ΔT）に基づいて定められてもよい。

なお、遅延時間（ΔT）としてユーザ端末300毎に異なる値を用いる場合には、上述したRTSP SETUPにRTSP SETUPの送信時刻を含めることによって、メディア処理装置200側で特定することが可能である。

ユーザ端末300は、提示時刻（T’）に基づいて特定コンテンツを出力する。ユーザ端末300は、メディア処理装置200から受信する視点情報と検出部310から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。

ステップS31において、ユーザ端末300は、視点情報をメディア処理装置200に送信する。視点情報は、MMT-SIの形式で送信されてもよい。ここで、ユーザ端末300は、所定周期（例えば、500ms）で視点情報を送信してもよく、視点位置及び視線方向の少なくともいずれか1つの変更に応じて視点情報を送信してもよい。

ステップS32において、メディア処理装置200は、ステップS31で受信する視点情報に基づいて特定コンテンツを生成する（レンダリング処理）。

ステップS33において、メディア処理装置200は、ステップS31で受信する視点情報に対応する特定コンテンツをユーザ端末300に送信する。

ステップS31～ステップS33の処理は、初期視点情報に代えてステップS31で受信する視点情報を用いる点を除いて、ステップS21～ステップS23の処理と同様である。従って、ステップS31～ステップS33の処理の詳細については省略する。ステップS31～ステップS33の処理は、所定周期で繰り返されてもよく、ユーザの視点位置又は視線方向の変更毎に繰り返されてもよい。

ステップS41において、ユーザ端末300は、RTSP TEARDOWNをメディア処理装置に送信する。RTSP TEARDOWNは、特定コンテンツの視聴を終了する旨のメッセージである。

ステップS42において、メディア処理装置200は、RTSP TEARDOWNに対する応答を送信する。ここでは、RTSP TEARDOWNを受け付けた旨を示すACKが応答として送信される。

図４では、ステップS11及びステップS12がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS11及びステップS12は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。

同様に、ステップS41及びステップS42がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41及びステップS42は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。

図４では、ステップS31～ステップS33がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS31～ステップS33は、他の方式（例えば、HTTP）ベースで実行されてもよい。

同様に、ステップS41～ステップS43がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41～ステップS43は、他の方式（例えば、HTTP）ベースで実行されてもよい。

（動作例1）
上述した実施形態は、以下に示す動作例1を含んでもよい。動作例1では、メディア処理装置200は、特定コンテンツに付加されるシーケンス番号と対応付けて、特定コンテンツの生成で用いた視点情報をユーザ端末300に送信する。

具体的には、メディア処理装置200（レンダラ220）は、上述した実施形態と同様に、第2制御情報（シーン記述）に基づいて、特定コンテンツの一部として、360°映像及び3Dオブジェクトを含む第2コンテンツを生成する。第2コンテンツの生成において、ユーザ端末300から受信する視点情報が用いられる。

動作例1では、レンダラ220は、特定コンテンツ（ここでは、第2コンテンツ）の生成で用いた視点情報をシーケンス番号と対応付ける。レンダラ220は、特定コンテンツに付加されるシーケンス番号と対応付けて、特定コンテンツの生成で用いた視点情報をユーザ端末300に送信する。視点情報は、VP（View Port）メッセージに格納されてもよい。VPメッセージは、ISO/IEC 23008-1、ARIB STD-B60、ARIB TR-B39などで規定されたMMT-SIの形式を有してもよい。VPメッセージは、フレーム毎に送信されてもよい。VPメッセージは、MMTPに関するメッセージ（MMT-SI）としてユーザ端末300に送信されてもよい。

特に限定されるものではないが、VPメッセージは、図５に示すデータ構造を有してもよい。図５に示すように、VPメッセージは、message_id、version、length、fov、viewpoint_pos_x、viewpoint_pos_y、viewpoint_pos_z、viewpoint_yaw、viewpoint_pitch、viewpoint_roll、viewport_width、viewport_height、mpu_sequence_number_flag、mpu_sequence_numberなどを含んでもよい。

message_idは、VPメッセージを示す識別情報である。message_idは、0x0204であってもよい。

versionは、MMTPプロトコルのバージョンを示す情報である。versionは、0x00であってもよい。

lengthは、VPメッセージの長さを示す情報である。

fovは、視野角（field of view）を示す情報である。

viewpoint_pos_xは、視点位置のx座標を示す情報である。viewpoint_pos_xは、特定コンテンツの生成で用いた視点情報の一例である。

viewpoint_pos_yは、視点位置のy座標を示す情報である。viewpoint_pos_yは、特定コンテンツの生成で用いた視点情報の一例である。

viewpoint_pos_zは、視点位置のz座標を示す情報である。viewpoint_pos_zは、特定コンテンツの生成で用いた視点情報の一例である。

viewpoint_yawは、視点位置のヨーを示す情報である。viewpoint_yawは、特定コンテンツの生成で用いた視点情報の一例である。

viewpoint_pitchは、視点位置のピッチを示す情報である。viewpoint_pitchは、特定コンテンツの生成で用いた視点情報の一例である。

viewpoint_rollは、視点位置のロールを示す情報である。viewpoint_rollは、特定コンテンツの生成で用いた視点情報の一例である。

viewport_widthは、表示領域（特定コンテンツ）の幅を示す情報である。

viewport_heightは、表示領域（特定コンテンツ）の高さを示す情報である。

mpu_sequence_number_flagは、mpu_sequence_numberのフィールドが存在するか否かを示す情報である。例えば、mpu_sequence_number_flagが1である場合に、mpu_sequence_numberのフィールドが存在し、mpu_sequence_number_flagが0である場合に、mpu_sequence_numberのフィールドが存在しなくてもよい。

mpu_sequence_numberは、VPメッセージが示す特定コンテンツに対応する映像のMPUシーケンス番号である。mpu_sequence_numberは、特定コンテンツに付加されるシーケンス番号の一例である。

ここで、viewpoint_pos_x、viewpoint_pos_y、viewpoint_pos_zは、シーン記述によって構成される3次元空間におけるユーザの視点位置を示す情報要素の一例である。viewpoint_yaw、viewpoint_pitch、viewpoint_rollは、シーン記述によって構成される3次元空間におけるユーザの視線方向を示す情報要素の一例である。viewport_width、viewport_heightは、特定コンテンツに含まれる映像の画素数を示す情報要素の一例である。

このような前提下において、メディア処理装置200及びユーザ端末300は、以下に示す動作を実行してもよい。

第1に、メディア処理装置200（レンダラ220）は、特定コンテンツの生成に用いた視点位置に基づいて、viewpoint_pos_x、viewpoint_pos_y、viewpoint_pos_zを特定してもよい。レンダラ220は、特定コンテンツの生成に用いた視線方向に基づいて、viewpoint_yaw、viewpoint_pitch、viewpoint_rollを特定してもよい。レンダラ220は、特定コンテンツの横方向の画素数に基づいてviewport_widthを特定し、特定コンテンツの縦方向の画素数に基づいてviewport_heightを特定してもよい。

メディア処理装置200（符号化処理部230）は、レンダラ220によって生成された特定コンテンツの圧縮符号化を実行し、特定コンテンツを送信してもよい。ここで、符号化処理部230は、図５に示すVPメッセージをユーザ端末300に送信してもよい。すなわち、符号化処理部230は、特定コンテンツに付加されるシーケンス番号と対応付けて、特定コンテンツの生成で用いた視点情報をユーザ端末300に送信してもよい。

第2に、ユーザ端末300（復号処理部320）は、特定コンテンツに付加されるシーケンス番号と対応付けて、特定コンテンツの生成で用いた視点情報をメディア処理装置200から受信する受信部を構成してもよい。すなわち、復号処理部320は、図５に示すVPメッセージ（MMT-SI）をメディア処理装置200から受信してもよい。

ユーザ端末300（レンダラ330）は、シーケンス番号（mpu_sequence_number）に基づいて、復号された特定コンテンツを構成する映像とVPメッセージに含まれる視点情報とを対応付けてもよい。レンダラ330は、検出部310によって検出される視点情報とVPメッセージに含まれる視点情報との差異に基づいて、VPメッセージに含まれる情報（viewport_width及びviewport_height）によって定義される表示領域から、検出部310によって検出される視点情報によって特定される範囲の映像を特定してもよい。レンダラ330は、特定された映像を表示してもよい。

（動作例2）
上述した実施形態は、以下に示す動作例2を含んでもよい。動作例2では、図６に示すように、視点情報をフィードバックする第1ユーザ端末400及び視点情報をフィードバックしない第2ユーザ端末500が混在するケースが想定される。第1ユーザ端末400は、ヘッドマウントディスプレイなどの端末であってもよい。第1ユーザ端末は、上述したユーザ端末300と同様の機能を有していてもよい。第2ユーザ端末500は、ボリュメトリックディスプレイなどの端末であってもよい。

具体的には、動作例2では、図６に示すように、メディア処理装置200（レンダラ220）は、コンテンツの構成及び推奨ビューポート情報を送信装置100から受信する受信部を構成してもよい。コンテンツの構成は、2D映像、音声、360°映像、3Dオブジェクトを含むと考えてもよい。コンテンツの構成は、MMT-SI及びシーン記述を含むと考えてもよい。推奨ビューポート情報は、特定視点情報の一例であると考えてもよい。推奨ビューポート情報は、特定コンテンツによって構成される3次元空間（シーン記述で構築される3次元空間）において、どの位置、方向及び画角で映像を見るのかを定義（推奨）する情報であってもよい。推奨ビューポート情報は、特定コンテンツによって構成される3次元空間における視点位置を示す情報要素及び特定コンテンツによって構成される3次元空間における視線方向を示す情報要素の少なくてもいずか1つを示す情報要素を含んでもよい。推奨ビューポート情報は、主として、第2ユーザ端末500で用いられる視点情報であると考えてもよい。

以下において、明示的に記載しない限りにおいて、特定コンテンツの生成で用いる視点情報は、送信装置100から受信する特定視点情報（推奨ビューポート情報）を含んでもよく、ユーザ端末300から受信する視点情報を含んでもよい。

特に限定されるものではないが、推奨ビューポート情報は、図７に示す態様でシーン記述に含まれてもよい。図７に示すように、推奨ビューポート情報は、camera_orientation、frame_number、translation、yfovを含んでもよい。

camera_orientationは、シーン記述で構築される3次元空間において映像を見る方向を示す情報である。camera_orientationは、視線方向と同義であると考えてもよい。

frame_numberは、camera_orientation、translation及びyfovが適用される映像のフレーム番号を示す情報である。camera_orientationは、特定視点情報の一例であると考えてもよい。

translationは、シーン記述で構築される3次元空間において映像を見る位置を示す情報である。translationは、視点位置と同義であると考えてもよい。translationは、特定視点情報の一例であると考えてもよい。例えば、図７では、フレーム番号が0である場合に、視点位置が[0,0,-50]であり、フレーム番号が2505である場合に、視点位置が[0,0,-75]に移動するケースが例示されている。

yfovは、シーン記述で構築される3次元空間において映像を見る画角を示す情報である。

特に限定されるものではないが、camera_orientation及びtranslationは、コンテンツの制作者が付与してもよい。或いは、コンテンツがカメラによって撮像されるケースを想定した場合に、カメラに設けられるGPS及びセンサによってcamera_orientation及びtranslationが自動的に付与されてもよい。

ここで、translationは、特定コンテンツによって構成される3次元空間における視点位置を示す情報要素の一例である。camera_orientationは、特定コンテンツによって構成される3次元空間における視線方向を示す情報要素の一例である。

第1に、メディア処理装置200（レンダラ220）は、特定視点情報（推奨ビューポート情報）に基づいて特定コンテンツを生成してもよい。メディア処理装置200（符号化処理部230）は、レンダラ220によって生成された特定コンテンツの圧縮符号化を実行し、特定コンテンツを送信してもよい。ここで、符号化処理部230は、特定視点情報に基づいて生成された特定コンテンツを第1ユーザ端末400に送信してもよく、特定視点情報に基づいて生成された特定コンテンツを第2ユーザ端末500に送信してもよい。

第2に、メディア処理装置200（受付部210）は、ユーザ端末が視点情報をフィードバックする第1ユーザ端末400である場合に、第1ユーザ端末400から視点情報を受信してもよい。メディア処理装置（レンダラ220）は、第1ユーザ端末400から受信する視点情報に基づいて特定コンテンツを生成してもよい。このようなケースにおいて、メディア処理装置200（受付部210）は、リセット信号を第1ユーザ端末400から受信してもよい。メディア処理装置（レンダラ220）は、リセット信号に応じて、特定視点情報（推奨ビューポート情報）に基づいて特定コンテンツを生成してもよい。

このようなケースにおいて、第1ユーザ端末400は、ユーザ端末300と同様の構成を有していてもよい。但し、第1ユーザ端末400（検出部310）は、リセット信号を検出する機能を有してもよい。検出部310は、リセット信号を入力するユーザ操作を検出してもよい。検出部310は、リセット信号をメディア処理装置200に送信してもよい。

第3に、メディア処理装置200（レンダラ220）は、ユーザ端末が視点情報をフィードバックしない第2ユーザ端末500である場合に、特定視点情報（推奨ビューポート情報）に基づいて特定コンテンツを生成してもよい。

このようなケースにおいて、第2ユーザ端末500は、視点情報を検出する検出部310を有していなくてもよい。第2ユーザ端末500は、レンダラ330を有していなくてもよい。第2ユーザ端末500は、検出部310及びレンダラ330を有していない点を除いて、ユーザ端末300と同様の構成を有してもよい。

（動作例3）
上述した実施形態は、以下に示す動作例3を含んでもよい。動作例3では、メディア処理装置200（例えば、後述する選択部260）は、特定コンテンツに含まれる3Dオブジェクトに関するストリームの品質情報として、視点情報に基づいた3Dオブジェクトの向きによって品質が異なる2以上のストリームの各々に関する品質情報を送信装置100から受信する受信部を構成してもよい。

具体的には、動作例3では、図８に示すように、メディア処理装置200は、図２に示す構成に加えて、選択部260を有する。選択部260は、シーン記述及び3Dオブジェクトを送信装置100から受信する。選択部260は、2以上のストリームの中から選択されたストリーム（3Dオブジェクト）をレンダラ220に入力する。選択部260は、選択されたストリームの送信を送信装置100に要求してもよい。なお、メディア処理装置200が複数のユーザ端末300に特定コンテンツを送信するケースを想定した場合には、選択部260は、複数のユーザ端末300の各々で必要とされるストリームの送信を送信装置100に要求してもよく、全てのストリームの送信を送信装置100に要求してもよい。

ここで、選択部260は、3Dオブジェクトに関するストリームの品質情報として、視点情報に基づいた3Dオブジェクトの向きによって品質が異なる2以上のストリームの各々に関する品質情報を送信装置100から受信する。

品質情報は、3Dオブジェクトに関するバウンディングボックスを構成する各面の相対品質を示す情報であってもよい。バウンディングボックスは、3Dオブジェクトを射影する3次元の矩形によって表されてもよい。例えば、図９に示すように、バウンディングボックスは、頂点A～頂点Hによって定義されてもよい。このようなケースにおいて、バウンディングボックスの各面は、頂点A,B,F,Eで表される面#1、頂点B,C,G,Fで表される面#2、頂点A,B,C,Dで表される面#3、頂点E,F,G,Hで表される面#4、頂点A,D,H,Eで表される面#5、頂点D,C,G,Hで表される面#6を含む。

このようなケースにおいて、シーン記述によって構築される3次元空間において3Dオブジェクトを見るケースを想定すると、3つの面について主として観察されると想定される。言い換えると、残りの3つの面についてはあまり観察されないと想定される。

動作例3では、特定コンテンツに含まれる3Dオブジェクトに関するストリームとして、視点情報に基づいた3Dオブジェクトの向きによって品質が異なる2以上のストリームが準備される。

特に限定されるものではないが、品質情報は、図１０に示す態様でシーン記述に含まれてもよい。図１０では、3Dオブジェクトの向きが異なるストリームとして、6つのストリームが例示されている。品質情報は、”quality” [#1,#2,#3,#4,#5,#6]の形式で表されてもよい。なお、[ ]内において、#1～#6は、面#1～面#6の品質インデックスを意味している。品質インデックスは、1～9の範囲の値を取り得てもよい。品質インデックスの値が大きいほど、品質が高いことを意味してもよい。例えば、”id”=”1”で識別されるストリームでは、#1,#2,#3の品質（”8”）が高く、#4,#5,#6の品質（”3”）が低い。”id”=”2”で識別されるストリームでは、#1,#2,#3の品質（”3”）が低く、#4,#5,#6の品質（”8”）が高い。

このような前提下において、メディア処理装置200は、以下に示す動作を実行してもよい。以下においては、2以上のストリームの中から選択されたストリーム（3Dオブジェクト）の選択について主として説明する。

モード1では、図１１の上段に示すように、メディア処理装置200（選択部260）は、ユーザの視点位置に最も近い頂点（例えば、頂点B）を特定した上で、最も近い頂点を有する3つの面（例えば、頂点A,B,F,Eで表される面#1、頂点B,C,G,Fで表される面#2、頂点A,B,C,Dで表される面#3）を特定してもよい。選択部260は、特定された3つの面の品質インデックスの総和が最大となるストリーム（図１０に示す例では、”id”=”１”で識別されるストリーム）を選択してもよい。

なお、モード1では、視点情報に基づいてユーザの視点位置に最も近い頂点が特定されることから、選択部260は、視点情報及び品質情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。

モード2では、3Dオブジェクトの縮小表示又は拡大表示が実行されるケースで適用されるモードであってもよい。例えば、図１１の中段に示すように、メディア処理装置200（選択部260）は、ユーザの視点位置に最も近い頂点（例えば、頂点B）を特定した上で、最も近い頂点を有する3つの面（例えば、頂点A,B,F,Eで表される面#1、頂点B,C,G,Fで表される面#2、頂点A,B,C,Dで表される面#3）を特定してもよい。3Dオブジェクトの縮小表示が実行されるケースでは、3Dオブジェクトの画素が間引かれる。従って、選択部260は、特定された3つの面の品質インデックスの総和が最小となるストリーム（図１０に示す例では、”id”=”2”で識別されるストリーム）を選択してもよい。一方で、3Dオブジェクトの拡大表示が実行されるケースでは、3Dオブジェクトの画素が補間される。従って、選択部260は、特定された3つの面の品質インデックスの総和が最大となるストリーム（図１０に示す例では、”id”=”1”で識別されるストリーム）を選択してもよい。

なお、モード2では、視点情報に基づいてユーザの視点位置に最も近い頂点が特定されることから、選択部260は、視点情報及び品質情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。

モード3では、ユーザの視線方向において、2つの3Dオブジェクト（3Dオブジェクト#1及び3Dオブジェクト#2）が重なるケースで適用されるモードであってもよい。ここでは、3Dオブジェクト#1に関するストリームの選択について説明する。例えば、図１１の下段に示すように、メディア処理装置200（選択部260）は、ユーザの視点位置に最も近い頂点（例えば、頂点B）を特定した上で、最も近い頂点を有する3つの面（例えば、頂点A,B,F,Eで表される面#1、頂点B,C,G,Fで表される面#2、頂点A,B,C,Dで表される面#3）を特定してもよい。ここで、ユーザの視点位置に最も近い頂点（例えば、頂点B）とユーザの視点位置とを結ぶ線分上において3Dオブジェクト#2が重なっており、特定された3つの面が3Dオブジェクト#2によって遮られる。従って、選択部260は、特定された3つの面の品質インデックスの総和が最小となるストリーム（図１０に示す例では、”id”=”2”で識別されるストリーム）を選択してもよい。

なお、モード3では、視点情報に基づいてユーザの視点位置に最も近い頂点が特定されることから、選択部260は、視点情報及び品質情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。さらに、モード3では、視点情報及び3Dオブジェクトの配置情報に基づいて2つの3Dオブジェクトの重なりが特定されることから、選択部260は、視点情報、品質情報及び配置情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。3Dオブジェクトの配置情報（例えば、図１０に示す”rotation_object”、”scale_object”、”translation_object）は、シーン記述に含まれてもよい。3Dオブジェクトの配置情報は、図１０に示す”link_area”であると考えてもよい。すなわち、選択部260は、3次元空間における3Dオブジェクトの配置情報を送信装置100から受信してもよい。

なお、図１０に示す品質情報では、各ストリームにおいて6つの面の品質インデックスの総和が等しい。しかしながら、実施形態はこれに限定されるものではない。6つの面の品質インデックスの総和は、2以上のストリーム間で異なっていてもよい。

（動作例4）
上述した実施形態は、以下に示す動作例4を含んでもよい。ここでは、動作例4は、動作例3に加えて、以下に示す動作を含む。動作例4では、メディア処理装置200（例えば、後述する選択部270）は、特定コンテンツに含まれる2以上のオブジェクトの各々に関する重要度情報を送信装置100から受信する受信部を構成してもよい。

具体的には、動作例4では、図１２に示すように、メディア処理装置200は、図２に示す構成に加えて、選択部270を有する。選択部270は、シーン記述、3Dオブジェクト及び360°映像を送信装置100から受信する。選択部270は、2以上のストリームの中から選択されたストリーム（3Dオブジェクト）をレンダラ220に入力する。

ここで、選択部270は、2以上のオブジェクトの各々に関する重要度情報を送信装置100から受信する。オブジェクトは、3Dオブジェクト及び360°映像を含んでもよい。

例えば、重要度情報は、2以上のオブジェクト間の相対的な重要度を示す情報であってもよい。例えば、図１３に示すように、シーン記述によって構築される3次元空間において、オブジェクトA（背景）、オブジェクトB（人）及びオブジェクトC（犬）が存在するケースについて考える。オブジェクトA（背景）は、360°映像の一例であり、オブジェクトB（人）及びオブジェクトC（犬）は、3Dオブジェクトの一例である。このようなケースにおいて、重要度情報は、オブジェクトA（背景）、オブジェクトB（人）及びオブジェクトC（犬）の各々の間の相対的な重要度を示す情報であってもよい。

特に限定されるものではないが、重要度情報は、図１４に示す態様でシーン記述に含まれてもよい。図１４では、重要度情報は、weightで表されてもよい。weightは、1～9の範囲の値を取り得てもよい。weightの値が大きいほど、重要度が高いことを意味してもよい。図１４では、”object_id”=”0”で識別されるオブジェクトA（背景）のweight（”9”）が最も高く、”object_id”=”1”で識別されるオブジェクトB（人）のweight（”3”）が最も低く、”object_id”=”2”で識別されるオブジェクトC（犬）のweight（”8”）がオブジェクトB（人）のweightよりも高くオブジェクトA（背景）のweightよりも低いケースが例示されている。

第1に、メディア処理装置200（選択部270）は、重要度が最も高い3Dオブジェクトについて、品質が最も高いストリームを選択する。ストリームの選択方法は、動作例3と同様であってもよい。例えば、選択部270は、オブジェクトC（犬）の重要度がオブジェクトB（人）の重要度よりも大きいため、オブジェクトC（犬）について、ユーザの視点位置に最も近い頂点を有する3つの面の品質インデックスの総和が最大となるストリームを選択する。

第2に、メディア処理装置200（選択部270）は、重要度が最も高い3Dオブジェクト以外の3Dオブジェクトについて、品質が最も低いストリームを選択する。続いて、選択部270は、重要度が高い3Dオブジェクトから順に、特定条件が満たされる範囲内において、品質が最も低いストリームを品質が高いストリームに置き換える。特定条件は、送信装置100からメディア処理装置200への回線の帯域が閾値以下である第1条件を含んでもよく、メディア処理装置200の処理負荷が閾値以下である第2条件を含んでもよい。特定条件は、第1条件及び第2条件の組み合わせによって定義されてもよい。例えば、選択部270は、オブジェクトB（人）の重要度がオブジェクトC（犬）の重要度よりも小さいため、オブジェクトB（人）について、特定条件が満たされる範囲内において、品質が高いストリームを選択する。

上述したように、メディア処理装置200（選択部270）は、視点情報、品質情報及び重要度情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。メディア処理装置200（選択部270）は、視点情報、品質情報、配置情報及び重要度情報に基づいて、2以上のストリームの中からユーザ端末300に送信すべきストリームを選択すると考えてもよい。

なお、動作例4では、360°映像について、1つのストリームが存在するケースについて例示した。しかしながら、実施形態はこれに限定されるものではない。360°映像についても、品質が異なる2以上のストリームが存在してもよい。

動作例4では、3Dオブジェクトについて、視点情報に基づいた3Dオブジェクトの向きによって品質が異なる2以上のストリームが存在するケースについて例示した。しかしながら、実施形態はこれに限定されるものではない。3Dオブジェクトについて、3Dオブジェクトの向きによらずに、品質が異なる2以上のストリームが存在してもよい。

（動作例5）
上述した実施形態は、以下に示す動作例3を含んでもよい。動作例3では、メディア処理装置200（例えば、レンダラ220）は、特定コンテンツによって構成される3次元空間（シーン記述によって構築される3次元空間）においてユーザの視点位置の移動範囲を定義する情報要素を送信装置100から受信する受信部を構成してもよい。

第1に、動作例5では、情報要素は、特定コンテンツに含まれる3Dオブジェクトの内側へのユーザの視点位置の移動を制限する情報要素（以下、第1情報要素）を含んでもよい。例えば、図１５に示すように、シーン記述によって構築される3次元空間に3Dオブジェクトが配置されるケースにおいて、3Dオブジェクトの内側への視点位置の移動が制限されてもよい。但し、3Dオブジェクトが建築物であるケース、3Dオブジェクトの内側に別のシーンが存在するケースなどにおいては、3Dオブジェクトの内側への視点位置の移動が許容されてもよい。

第2に、動作例5では、情報要素は、3次元空間の外側へのユーザの視点位置の移動を制限する情報要素（以下、第2情報要素）を含んでもよい。例えば、図１６に示すように、3次元空間は、直方体及び回転楕円体の組合せで定義されてもよい。3次元空間を定義する直方体の数は2以上であってもよく、3次元空間を定義する回転楕円体の数は2以上であってもよい。但し、3次元空間の外側へのユーザの視点位置の移動が許容されるケースがあってもよい。

特に限定されるものではないが、第1情報要素は、図１７に示す態様でシーン記述に含まれてもよい。図１７では、第1情報要素は、viewing_inside_object_flagで表されてもよい。viewing_inside_object_flagは、3Dオブジェクト毎に設定されてもよい。例えば、viewing_inside_object_flagが”0”である場合に、3Dオブジェクト内への視点位置の移動が制限され、viewing_inside_object_flagが”1”である場合に、3Dオブジェクト内への視点位置の移動が許容されてもよい。

特に限定されるものではないが、第2情報要素は、図１８に示す態様でシーン記述に含まれてもよい。図１８では、第2情報要素は、3次元空間を定義する直方体を定義する情報要素（cuboid_center_x, cuboid_center_y, cuboid_center_z, cuboid_size_x, cuboid_size_y, cuboid_size_z）を含んでもよい。cuboid_center_x, cuboid_center_y, cuboid_center_zは、直方体の中心位置を示す情報要素であり、cuboid_size_x, cuboid_size_y, cuboid_size_zは、直方体のサイズを示す情報要素である。第2情報要素は、3次元空間を定義する回転楕円体を定義する情報要素（spheroid_center_x, spheroid_center_y, spheroid_center_z, spheroid_size_x, spheroid_size_y, spheroid_size_z）を含んでもよい。spheroid_center_x, spheroid_center_y, spheroid_center_zは、回転楕円体の中心位置を示す情報要素であり、spheroid_size_x, spheroid_size_y, spheroid_size_zは、回転楕円体のサイズを示す情報要素である。なお、cuboid_enableは、直方体によって3次元空間を定義するか否かを示す情報要素であり、spheroid_enableは、回転楕円体によって3次元空間を定義するか否かを示す情報要素であってもよい。図１８では、2つの直方体及び2つの回転楕円体によって3次元空間が定義されるケースが例示されている。

このような前提下において、メディア処理装置200（レンダラ220）は、以下に示す動作を実行してもよい。

第1に、レンダラ220は、ユーザの視点位置が移動範囲外に移動する場合において、ユーザの視点位置の軌跡と移動範囲の境界との交点を視点位置として、特定コンテンツを生成してもよい。すなわち、レンダラ220は、視点位置が移動範囲外に移動しようとした時点の位置（境界位置）で視点位置を固定してもよい。

第2に、レンダラ220は、ユーザの視点位置が移動範囲外に移動する場合において、視点位置の移動が制限されている旨をユーザに通知してもよい。例えば、レンダラ220は、「ここから先は移動できません」などのメッセージを表示してもよい。

（作用及び効果）
実施形態では、メディア処理装置200は、視点情報に基づいて特定コンテンツを生成した上で、特定コンテンツをユーザ端末300に送信する。このような構成によれば、視点の自由度を有する第2コンテンツを含む特定コンテンツをユーザ端末300側で生成する必要がなく、ユーザ端末300は、メディア処理装置200に対して視点情報を提供すれば、特定コンテンツを提示することができる。従って、メディア処理装置200とユーザ端末300との間の遅延が生じるものの、ユーザ端末300の処理負荷を軽減することができる。

動作例1では、メディア処理装置200は、特定コンテンツに付加されるシーケンス番号と対応付けて、特定コンテンツの生成で用いた視点情報をユーザ端末300に送信する。このような構成によれば、ユーザ端末300は、特定コンテンツの生成で用いた視点情報及びシーケンス番号を把握することができるため、メディア処理装置200で特定コンテンツを生成する際に用いる視点情報がユーザ端末300で特定コンテンツを表示する際に用いる視点情報と異なるケースを想定した場合であっても、特定コンテンツを適切に表示することができる。

動作例2では、メディア処理装置200は、コンテンツの構成及び特定視点情報（推奨ビューポート情報）を送信装置100から受信する。このような構成によれば、メディア処理装置200は、特定視点情報に基づいて特定コンテンツを生成することができ、視点情報をフィードバックする第1ユーザ端末400及び視点情報をフィードバックしない第2ユーザ端末500が混在するケースを想定した場合であっても、特定コンテンツを適切に表示することができる。

動作例2では、メディア処理装置200は、ユーザ端末が第1ユーザ端末400である場合であっても、リセット信号に応じて、特定視点情報に基づいて特定コンテンツを生成する。このような構成によれば、シーン記述によって構築される3次元空間において視点位置及び視線方向が第1ユーザ端末400において不明となるケース（3次元空間において迷子になるケース）を想定した場合であっても、リセット信号によって特定視点情報に基づいた特定コンテンツに復帰することができる。

動作例3では、メディア処理装置200は、特定コンテンツに含まれる3Dオブジェクトに関するストリームの品質情報として、視点情報に基づいた3Dオブジェクトの向きによって品質が異なる2以上のストリームの各々に関する品質情報を送信装置100から受信する。このような構成によれば、3Dオブジェクトに関するバウンディングボックスを構成する各面の品質が均一でなくてもよいという新たな知見に基づいて、伝送トラフィックを抑制しながらも、3Dオブジェクトを適切に表示することができる。

動作例4では、メディア処理装置200は、特定コンテンツに含まれる2以上のオブジェクトの各々に関する重要度情報を送信装置100から受信する。このような構成によれば、360°映像及び3Dオブジェクトなどのオブジェクト毎の重要度を設定する仕組みを導入することによって、伝送トラフィックを抑制しながらも、特定コンテンツに含まれる各オブジェクトを適切に表示することができる。

動作例5では、メディア処理装置200は、特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信装置100から受信する。このような構成によれば、ユーザ端末300に表示される特定コンテンツの破綻を生じることなく、視点の自由度を有するコンテンツを含む特定コンテンツを適切に表示することができる。

［変更例1］
以下において、実施形態の変更例1について説明する。以下においては、実施形態に対する相違点について主として説明する。

変更例1では、特定コンテンツが第1コンテンツ及び第2コンテンツの双方を含む場合において、第1コンテンツと第2コンテンツとの同期を取る方法について説明する。

なお、以下において、同期とは、第1コンテンツ（例えば、MPU）と第2コンテンツ（ファイル）との提示時刻が適切に揃うことを意味する。従って、同期は、2D映像と3Dオブジェクトとの提示時刻が揃うことを含んでもよく、音声と3Dオブジェクトとの提示時刻が揃うことを含んでもよい。同様に、同期は、2D映像と360°映像との提示時刻が揃うことを含んでもよく、音声と360°映像との提示時刻が揃うことを含んでもよい。

第1方法では、メディア処理装置200が第1制御情報（MMT-SI）に基づいて、第1コンテンツと第2コンテンツとの同期を取るケースについて説明する。メディア処理装置200は、MMT-SIをエントリーポイントとして、シーン記述（第2コンテンツ）の有無を確認した上で、シーン記述が存在する場合には、MPUタイムスタンプ記述子を流用して、第1コンテンツ及び第2コンテンツを含む特定コンテンツの提示時刻を特定する。

具体的には、図１９に示すように、2D映像及び音声は、MPUタイムスタンプ記述子（図１９では、単にtimestamp）に基づいて提示されるため、2D映像及び音声の同期が取れる。

一方で、シーン記述に含まれる最初のフレームの提示時刻は、MMT-SIに含まれるMPUタイムスタンプ記述子を参照することによって特定される。シーン記述に含まれる２番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第2コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。

第1方法では、シーン記述に含まれる最初のフレームの提示時刻をシーン記述が含まないケースを例示したが、シーン記述は、シーン記述に含まれる最初のフレームの提示時刻を含んでもよい。

第2方法では、メディア処理装置200が第2制御情報（シーン記述）に基づいて、第1コンテンツと第2コンテンツとの同期を取るケースについて説明する。メディア処理装置200は、シーン記述をエントリーポイントとして、MMT-SI（第1コンテンツ）の有無を確認した上で、MMT-SIが存在する場合には、シーン記述に含まれる提示時刻に基づいて、第1コンテンツ及び第2コンテンツを含む特定コンテンツの提示時刻を特定する。

このようなケースにおいて、シーン記述は、第2コンテンツの提示時刻を示す絶対時刻情報を含む。絶対時刻情報は、シーン記述に含まれる最初のフレームの提示時刻であってもよい。

例えば、絶対時刻情報は、UTCを基準時刻として生成されてもよい。基準時刻は、TAIが用いられてもよく、GPSから提供される時刻が用いられてもよい。基準時刻は、NTPサーバから提供される時刻であってもよく、PTPサーバから提供される時刻であってもよい。さらに、絶対時刻情報は、MPUタイムスタンプ記述子と同一基準時刻に基づいて生成されてもよい。

さらに、シーン記述は、第1コンテンツを特定するための参照情報を含む。参照情報は、第1コンテンツを構成するMPUを特定するための情報であってもよい。すなわち、参照情報は、シーン記述に含まれるオブジェクトとして第1コンテンツ（MPU）を扱うための情報である。

具体的には、図２０に示すように、シーン記述に含まれる最初のフレームの提示時刻は、シーン記述に含まれる絶対時刻情報によって特定される。シーン記述に含まれる２番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第2コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。

一方で、2D映像及び音声は、MPUタイムスタンプ記述子（図２０では、単にtimestamp）に基づいて提示されるため、2D映像及び音声の同期が取れる。ここで、上述した参照情報がシーン記述に含まれるため、メディア処理装置200は、シーン記述に含まれる参照情報に基づいて、第2コンテンツとともに提示すべき第1コンテンツの有無を確認することができる。

第2方法では、2D映像と音声との同期がMMT-SIに含まれるMPUタイムスタンプ記述子に基づいて取られているが、変更例1では、2D映像と音声との同期についても、シーン記述に含まれる情報要素（絶対時刻情報及び参照情報）に基づいて取られてもよい。このようなケースにおいて、少なくとも、MMT-SIに含まれるMPUタイムスタンプ記述子については省略されてもよい。さらに、MMT-SIそのものが省略されてもよい。

なお、MMT-SIに含まれるMPUタイムスタンプ記述子の基準時刻（以下、第1基準時刻）とシーン記述に含まれる絶対時刻情報の基準時刻（第2基準時刻）とが異なる場合には、第1制御情報（MMT-SI）及び第2制御情報（シーン記述）の少なくともいずれか1つは、第1基準時刻と第2基準時刻との変換情報を含んでもよい。例えば、MMT-SIは、第1基準時刻（例えば、UTC）で表されたMPUタイムスタンプ記述子に加えて、第2基準時刻（例えば、UTC以外の基準時刻）で表されたMPUタイムスタンプ記述子を含んでもよい。シーン記述は、第2基準時刻（例えば、UTC以外の基準時刻）で表された絶対時刻情報に加えて、第1基準時刻（例えば、UTC）で表された絶対時刻情報を含んでもよい。

なお、MMT-SIに含まれるMPUタイムスタンプ記述子は、第1絶対時刻情報と称されてもよく、シーン記述に含まれる絶対時刻情報は、第2絶対時刻情報と称されてもよい。

［その他の実施形態］
本発明は上述した開示によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。

上述した開示では、特定コンテンツが第1コンテンツ及び第2コンテンツの双方を含むケースについて例示したが、上述した開示はこれに限定されるものではない。特定コンテンツは、少なくとも第2コンテンツを含めばよい。

上述した開示では特に触れていないが、MMTに関する用語は、ISO/IEC 23008-1、ARIB STD-B60、ARIB TR-B39などで規定された内容に基づいて解釈されてもよい。

上述した開示では、MMT-SIに含まれる第1絶対時刻情報として、MPUタイムスタンプ記述子を例示した。しかしながら、上述した開示はこれに限定されるものではない。MMT-SIに含まれる第1絶対時刻情報は、MPU拡張タイムスタンプ記述子であってもよい。

上述した開示では特に触れていないが、メディア処理装置200は、必要に応じて、第2コンテンツの一部を送信装置100に要求してもよい。このような構成によれば、第2コンテンツの伝送に伴う帯域を節約し、メディア処理装置200の処理負荷の増大を抑制することができる。

上述した開示では、第1コンテンツの伝送方式としてMMTPを例示した。しかしながら、上述した開示はこれに限定されるものではない。第1コンテンツの伝送方式は、ISO/IEC 23009-1（以下、MPEG-DASH（Dynamic Adaptive Stream over HTTP））に準拠する方式であってもよい。このようなケースにおいて、第1制御情報は、MPD（Media Presentation Description）であってもよい。すなわち、上述した開示において、MMT-SIはMPDと読み替えられてもよい。

上述した開示では特に触れていないが、「取得」は「受信」と読み替えられてもよい。

特に限定されるものではないが、動作例2は、以下のように表現されてもよい。送信装置100は、視点の自由度を有するコンテンツの構成を送信する送信部を備え、送信部は、コンテンツを少なくとも含む特定コンテンツの生成に用いられる特定視点情報を送信する。受信装置は、視点の自由度を有するコンテンツの構成を受信する受信部を備え、受信部は、コンテンツを少なくとも含む特定コンテンツの生成に用いられる特定視点情報を受信する。このようなケースにおいて、受信装置は、メディア処理装置200であってもよく、ユーザ端末300であってもよい。

特に限定されるものではないが、動作例3は、以下のように表現されてもよい。送信装置100は、視点の自由度を有するコンテンツの構成を送信する送信部を備え、送信部は、コンテンツを少なくとも含む特定コンテンツに含まれる3次元オブジェクトに関するストリームの品質情報を送信し、品質情報は、3次元オブジェクトの向きによって品質が異なる2以上のストリームの各々に関する品質情報を含む。受信装置は、視点の自由度を有するコンテンツの構成を受信する受信部を備え、受信部は、コンテンツを少なくとも含む特定コンテンツに含まれる3次元オブジェクトに関するストリームの品質情報を受信し、品質情報は、3次元オブジェクトの向きによって品質が異なる2以上のストリームの各々に関する品質情報を含む。このようなケースにおいて、受信装置は、メディア処理装置200であってもよく、ユーザ端末300であってもよい。

特に限定されるものではないが、動作例4は、以下のように表現されてもよい。送信装置100は、視点の自由度を有するコンテンツの構成を送信する送信部を備え、送信部は、コンテンツを少なくとも含む特定コンテンツに含まれる2以上のオブジェクトの各々に関する重要度情報を送信する。受信装置は、視点の自由度を有するコンテンツの構成を受信する受信部を備え、受信部は、コンテンツを少なくとも含む特定コンテンツに含まれる2以上のオブジェクトの各々に関する重要度情報を受信する。このようなケースにおいて、受信装置は、メディア処理装置200であってもよく、ユーザ端末300であってもよい。

特に限定されるものではないが、動作例4は、以下のように表現されてもよい。送信装置100は、視点の自由度を有するコンテンツの構成を送信する送信部を備え、送信部は、コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信する。受信装置は、視点の自由度を有するコンテンツの構成を受信する受信部を備え、受信部は、コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を受信する。このようなケースにおいて、受信装置は、メディア処理装置200であってもよく、ユーザ端末300であってもよい。

上述した開示では特に触れていないが、送信装置100、メディア処理装置200及びユーザ端末300が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。

或いは、送信装置100、メディア処理装置200及びユーザ端末300が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。

10…伝送システム、100…送信装置、200…メディア処理装置、210…受付部、220…レンダラ、230…符号化処理部、260…選択部、270…選択部、300…ユーザ端末、310…検出部、320…復号処理部、330…レンダラ、400…第1ユーザ端末、500…第2ユーザ端末

Claims

視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、
前記レンダラによって生成された前記特定コンテンツをユーザ端末に出力する出力部と、
前記特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信装置から取得する取得部と、を備える、メディア処理装置。
前記情報要素は、前記特定コンテンツに含まれる3次元オブジェクトの内側への前記ユーザの視点位置の移動を制限する情報要素を含む、請求項１に記載のメディア処理装置。
前記情報要素は、前記3次元空間の外側への前記ユーザの視点位置の移動を制限する情報要素を含む、請求項１又は請求項２に記載のメディア処理装置。
前記レンダラは、前記ユーザの視点位置が前記移動範囲外に移動する場合において、前記ユーザの視点位置の軌跡と前記移動範囲の境界との交点を視点位置として、前記特定コンテンツを生成する、請求項１に記載のメディア処理装置。
視点の自由度を有するコンテンツの構成を送信する送信部を備え、
前記送信部は、前記コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を送信する、送信装置。
視点の自由度を有するコンテンツの構成を受信する受信部を備え、
前記受信部は、前記コンテンツを少なくとも含む特定コンテンツによって構成される3次元空間においてユーザの視点位置の移動範囲を定義する情報要素を受信する、受信装置。