JP2022139133A

JP2022139133A - メディア処理装置

Info

Publication number: JP2022139133A
Application number: JP2021039382A
Authority: JP
Inventors: 秀一青木; Shuichi Aoki
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-09-26

Abstract

【課題】視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供する。【解決手段】メディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。【選択図】図２

Description

本発明は、メディア処理装置に関する。

従来、360°映像及び3Dオブジェクトなどのコンテンツを伝送する仕組みが提案されている（例えば、非特許文献１）。このような仕組としては、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+（Degree of Freedom）、利用者が自由に動く範囲の視点移動を伴う6DoFなどが知られている。このような仕組みでは、360°映像と3Dオブジェクトとの位置関係は、シーン記述によって示される。

3GPP TR 26.928 V16.1.0 2020年12月

上述した背景下において、発明者等は、上述したコンテンツを出力するユーザ端末において、視点情報（視点位置や視線方向）に基づいてコンテンツ（360°映像及び3Dオブジェクト）を生成する必要があり、ユーザ端末の処理負荷が増大することに着目した。

そこで、本発明は、上述した課題を解決するためになされたものであり、視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供することを目的とする。

開示に係るメディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。

本発明によれば、視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供することができる。

図１は、実施形態に係る伝送システム１０を示す図である。図２は、実施形態に係るメディア処理装置２００及びユーザ端末３００を示すブロック図である。図３は、実施形態に係る第２コンテンツを説明するための図である。図４は、実施形態に係る特定コンテンツの視聴方法を示す図である。図５は、変更例１に係る第１方法ついて説明するための図である。図６は、変更例１に係る第２方法ついて説明するための図である。

次に、本発明の実施形態について説明する。なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なることに留意すべきである。

したがって、具体的な寸法などは以下の説明を参酌して判断すべきものである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。

［開示の概要］
開示の概要に係るメディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。

開示の概要では、メディア処理装置は、視点情報に基づいて特定コンテンツを生成した上で、特定コンテンツをユーザ端末に送信する。このような構成によれば、視点の自由度を有するコンテンツを含む特定コンテンツをユーザ端末側で生成する必要がなく、ユーザ端末は、メディア処理装置に対して視点情報を提供すれば、特定コンテンツを提示することができる。従って、メディア処理装置とユーザ端末との間の遅延が生じるものの、ユーザ端末の処理負荷を軽減することができる。

なお、メディア処理装置によって生成される特定コンテンツは視点情報に基づいて生成されるものであり、ユーザ端末側では、特定コンテンツに含まれる映像について2D映像として扱うことができることに留意すべきである。

［実施形態］
（伝送システム）
以下において、実施形態に係る伝送システムについて説明する。図１は、実施形態に係る伝送システム１０を示す図である。図１に示すように、デジタル無線伝送システムは、送信装置１００、メディア処理装置２００及びユーザ端末３００を備える。

実施形態において、送信装置１００は、視点の自由度を有していない第１コンテンツ及び視点の自由度を有する第２コンテンツをメディア処理装置２００に送信する。さらに、送信装置１００は、第１コンテンツに付随する第１制御情報及び第２コンテンツに付随する第２制御情報をメディア処理装置２００に送信する。

第１コンテンツは、2D映像及び音声の少なくともいずれか１つを含んでもよい。第１コンテンツ及び第１制御情報は、第１方式で送信されてもよい。第１方式は、ISO/IEC 23008-1（以下、MMT（MPEG Media Transport））に準拠する方式であってもよい。以下においては、第１方式がMMTに準拠するMMTP（MMT Protocol）であるケースについて例示する。第１制御情報は、MMT-SI（Signaling Information）と称されてもよい。

第２コンテンツは、360°映像及び3Dオブジェクトを含んでもよい。第２コンテンツ及び第２制御情報は、第２方式で送信されてもよい。あるいは、HTTP（Hyper Text Transfer Protocol）などのプロトコルで伝送されてもよい。第２コンテンツは、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+（Degree of Freedom）、利用者が自由に動く範囲の視点移動を伴う6DoFなどに準拠してもよい。第２コンテンツは、視点の自由度を有するため、同一時刻（フレーム）において、２以上の360°映像を含んでもよく、２以上の3Dオブジェクトを含んでもよい。第２制御情報は、シーン記述と称されてもよい。

ここで、第２制御情報は、上述した第１方式で送信されてもよい。すなわち、第２制御情報は、第１制御情報と同じ第１方式（例えば、MMTP）で送信されてもよい。あるいは、HTTPなどのプロトコルで伝送されてもよい。

送信装置１００からメディア処理装置２００への伝送は、特に限定されるものではないが、衛星放送を用いた伝送であってもよく、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。

特に限定されるものではないが、伝送システムは、デジタル無線伝送システムであってもよい。デジタル無線伝送システムは、4K、8K衛星放送で用いるシステムであってもよい。

メディア処理装置２００は、ユーザ端末３００から受信する視点情報に基づいて、上述した第２コンテンツを少なくとも含む特定コンテンツを生成し、生成された特定コンテンツをユーザ端末３００に送信する。特に限定されるものではないが、特定コンテンツの伝送は、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。

ユーザ端末３００は、スマートフォン、タブレット端末、ヘッドマウントディスプレイなどのユーザ端末であってもよい。図１に示すように、ユーザ端末３００として２以上のユーザ端末３００が設けられてもよい。言い換えると、２以上のユーザ端末３００は、特定コンテンツの生成をメディア処理装置２００に要求してもよい。各ユーザ端末３００は、別々の視点情報をメディア処理装置２００に送信してもよい。

（メディア処理装置及びユーザ端末）
以下において、実施形態に係るメディア処理装置及びユーザ端末について説明する。図２は、実施形態に係るメディア処理装置２００及びユーザ端末３００を示すブロック図である。

第１に、メディア処理装置２００は、受付部２１０と、レンダラ２２０と、符号化処理部２３０と、を有する。

受付部２１０は、視点情報を受け付ける。実施形態では、受付部２１０は、視点情報をユーザ端末３００から受信する受信部を構成する。視点情報は、ユーザ端末３００のユーザの視点位置を示す情報要素、ユーザ端末３００のユーザの視線方向を示す情報要素を含む。

レンダラ２２０は、視点情報に基づいて、第２コンテンツを少なくとも含む特定コンテンツを生成する。特定コンテンツは、視点情報に基づいて生成されるため、同一時刻（フレーム）において、１つの360°映像を含んでもよく、１つの3Dオブジェクトを含んでもよい。以下において、特定コンテンツは、第２コンテンツに加えて第１コンテンツを含むケースについて例示する。

図２に示すように、レンダラ２２０は、第１制御情報（MMT-SI）に基づいて、特定コンテンツの一部として、2D映像及び音声を含む第１コンテンツを生成する。第１コンテンツの生成において視点情報は不要である。

具体的には、レンダラ２２０は、2D映像、音声及びMMT-SIがパケット化されたMMTPパケットの形式で、2D映像、音声及びMMT-SIを取得する。

例えば、MMTPパケットは、IP（Internet Protocol）パケットに格納される。IPパケットは、UDP（User Datagram Protocol）を用いて伝送されてもよく、TCP（Transmission Control Protocol）を用いて伝送されてもよい。

ここで、第１コンテンツは、一定時間幅で区切られた単位（以下、MPU；Media Processing Unit）で処理される。MPUは、１以上のアクセスユニットを含む。アクセスユニットは、MFU（Media Fragment Unit）として扱われることもある。2D映像に関するMFUは、NAL（Network Abstraction Layer）ユニットと称されてもよく、音声に関するMFUは、MHAS（MPEG-H 3D Audio Stream）パケットと称されてもよい。

MMT-SIは、PA（Package Access）メッセージを含み、PAメッセージは、第１コンテンツの一覧を示すMPT（MMT Package Table）を含む。さらに、MMT-SIは、第１コンテンツの提示時刻を示すMPUタイムスタンプ記述子を含む。MPUタイムスタンプ記述子は、MPUの提示時刻、すなわち、MPUにおいて最初に提示するアクセスユニットの時刻を意味してもよい。

MPUタイムスタンプ記述子は、UTC（Coordinated Universal Time）を基準時刻として生成されてもよい。基準時刻は、TAI（International Atomic Time）が用いられてもよく、GPS（Global Positioning System）から提供される時刻が用いられてもよい。基準時刻は、NTP（Network Time Protocol）サーバから提供される時刻であってもよく、PTP（Precision Time Protocol）サーバから提供される時刻であってもよい。

第２に、レンダラ２２０は、第２制御情報（シーン記述）に基づいて、特定コンテンツの一部として、360°映像及び3Dオブジェクトを含む第2コンテンツを生成する。第２コンテンツの生成において視点情報が用いられる。

具体的には、レンダラ２２０は、シーン記述がパケット化されたMMTPパケットの形式で、シーン記述を取得してもよい。360°映像及び3Dオブジェクトの取得方法は特に限定されるものではない。

360°映像は、ERP（Equirectangular projection）やキューブマップなどの射影変換によって2D映像に変換されていてもよい。360°映像に適用した射影変換の種類を示すメタデータが付加されていてもよい。3Dオブジェクトは、メッシュ形式で符号化されてもよい。メッシュ形式の符号化としては、ISO/IEC 14496-16 “Animation framework extension (AFX)”が用いられてもよい。3Dオブジェクトは、ポイントクラウド形式で符号化されてもよい。ポイントクラウド形式の符号化としては、ISO/IEC 23090-5 “Video-based Point Cloud Compression”が用いられてもよい。

ここで、第２コンテンツは、一定時間幅で区切られた単位で１つのファイルに纏められる。一定時間幅は、500msであってもよい。例えば、フレームレートが60fps（frame per second）である場合には、１つのファイルは、30 frameを含む。

シーン記述は、１つのファイル毎に生成され、360°映像及び3Dオブジェクトを特定する情報をフレーム毎に含む。例えば、シーン記述は、フレームの3Dオブジェクトの名称を示す情報要素（object_name）、フレーム番号を示す情報要素（frame_number）、フレームにおける3Dオブジェクトの位置を示す情報要素（translation_object）、フレームにおける3Dオブジェクトの回転を示す情報要素（rotation_object）、フレームにおける3Dオブジェクトの大きさを示す情報要素（scale_object）などを含む。

第３に、レンダラ２２０は、第１コンテンツ及び第２コンテンツを含む特定コンテンツを符号化処理部２３０に出力する。レンダラ２２０は、特定コンテンツとともに、特定コンテンツの提示時刻を符号化処理部２３０に出力してもよい。

ここで、特定コンテンツの提示時刻は、メディア処理装置２００とユーザ端末３００との間の遅延時間に基づいて修正されてもよい。具体的には、レンダラ２２０は、送信装置１００からメディア処理装置２００に提供される特定コンテンツの提示時刻（T）及び遅延時間（ΔT）に基づいて、メディア処理装置２００からユーザ端末３００に提供される特定コンテンツの提示時刻（T’=T+ΔT）を算出してもよい。遅延時間（ΔT）は、メディア処理装置２００において予め定められた値であってもよく、ユーザ端末３００毎に異なる値であってもよい。

第４に、レンダラ２２０は、特定コンテンツの生成に用いた視点情報をユーザ端末３００に送信する送信部を構成してもよい。特定コンテンツの生成に用いた視点情報は、符号化処理部２３０からユーザ端末３００に送信されてもよい。

例えば、視点情報及び特定コンテンツの伝送方式は、MMTPであってもよく、HTTPであってもよい。特定コンテンツの伝送方式としてMMTPが用いられる場合には、視点情報は、ISO/IEC 23090-2で規定されたOMAF（Omnidirectional Media Format）にメタデータとして格納されてもよい。

符号化処理部２３０は、レンダラ２２０によって生成された特定コンテンツを符号化する。実施形態では、符号化処理部２３０は、特定コンテンツをユーザ端末３００に送信する送信部の一例であってもよい。

さらに、符号化処理部２３０は、特定コンテンツの提示時刻を符号化してもよい。符号化処理部２３０は、提示時刻を示す情報要素を特定コンテンツとともにユーザ端末３００に送信してもよい。

ここで、符号化処理部２３０が用いる圧縮符号化方式としては、任意の圧縮符号化方式を用いることができる。例えば、圧縮符号化方式は、HEVC（High Efficiency Video Coding）であってもよく、VVC（Versatile Video Coding）であってもよい。

上述したように、特定コンテンツに含まれる第２コンテンツは、視点情報に基づいて生成されるため、特定コンテンツに含まれる映像は、視点の自由度を有していない2D映像として扱うことができる。

例えば、特定コンテンツの視聴開始や終了で用いる伝送制御方式は、RTSP（Real Time Streaming Protocol）を含んでもよい。伝送方式は、MMTPであってもよく、HTTPであってもよい。伝送方式としてMMTPが用いられる場合には、特定コンテンツは、ISO/IEC 23090-2で規定されたOMAFに格納されてもよい。

図２に示すように、ユーザ端末３００は、検出部３１０と、復号処理部３２０と、レンダラ３３０と、を有する。

検出部３１０は、ユーザの視点位置及び視線方向を検出する。検出部３１０は、加速度センサを含んでもよく、GPS（Global Positioning System）センサを含んでもよい。検出部３１０は、ユーザによって手動で入力されるユーザI/F（例えば、タッチセンサ、キーボード、マウス、コントローラなど）を含んでもよい。検出部３１０は、視点情報（視点位置及び視線方向）をメディア処理装置２００に送信してもよい。検出部３１０は、視点情報（ビューポート）をレンダラ３３０に出力してもよい。

復号処理部３２０は、メディア処理装置２００から受信する特定コンテンツを復号する。復号処理部３２０は、メディア処理装置２００から受信する提示時刻を復号してもよい。復号処理部３２０は、特定コンテンツをレンダラ３３０に出力してもよく、提示時刻をレンダラ３３０に出力してもよい。

レンダラ３３０は、復号処理部３２０によって復号された特定コンテンツを出力する。レンダラ３３０は、復号処理部３２０によって復号された提示時刻に基づいて特定コンテンツを出力してもよい。例えば、レンダラ３３０は、特定コンテンツに含まれる映像コンテンツをディスプレイに出力し、特定コンテンツに含まれる音声コンテンツをスピーカに出力してもよい。

ここで、レンダラ３３０は、メディア処理装置２００から受信する視点情報と検出部３１０から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。

（第２コンテンツ）
以下において、実施形態に係る第２コンテンツについて説明する。ここでは、t=0、t=1及びt=2における第２コンテンツについて説明する。t=0、t=1及びt=2の時間間隔は特に限定されるものではない。

例えば、図３に示すように、t=0において、3Dオブジェクトが表示されずに、360°映像が表示されてもよい。360°映像は、3Dオブジェクトの背景映像であると考えてもよい。t=1において、360°映像に重畳される形式で3Dオブジェクトが表示されてもよい。さらに、t=1において、360°映像に重畳される3Dオブジェクトの位置及び回転が変更されてもよい。

上述したシーン記述は、t=0、t=1及びt=2のそれぞれについて、3Dオブジェクトの位置、回転及び大きさを示す情報要素を含み、360°映像上に3Dオブジェクトを適切に重畳することができる。

（視聴方法）
以下において、実施形態に係る視聴方法について説明する。ここでは、第１コンテンツ及び第２コンテンツを含む特定コンテンツの視聴について例示する。

図４に示すように、ステップS11において、ユーザ端末３００は、RTSP SETUPをメディア処理装置に送信する。RTSP SETUPは、特定コンテンツの視聴を開始する旨のメッセージである。

ここで、RTSP SETUPは、ユーザ端末３００のIPアドレス、待受ポート番号、コンテンツの識別情報（コンテンツID）などを含む。RTSP SETUPは、特定コンテンツを視聴するためのユーザ端末３００の能力情報を含んでもよい。能力情報は、フレームレート、表示解像度などを含んでもよい。表示解像度は、視野角（FoV：Field of View）を含んでもよい。能力情報は、ユーザ端末３００が対応する符号化方式及び圧縮方式を示す情報要素を含んでもよい。

ここでは、ユーザ端末３００の能力情報がメディア処理装置２００に直接的に通知されるケースが例示されているが、実施形態はこれに限定されるものではない。ユーザ端末３００の能力情報は、送信装置１００に通知された上で、送信装置１００からメディア処理装置２００に通知されてもよい。

ステップS12において、メディア処理装置２００は、RTSP SETUPに対する応答を送信する。ここでは、RTSP SETUPを受け付けた旨を示すACKが応答として送信される。

ステップS21において、ユーザ端末３００は、初期視点情報をメディア処理装置２００に送信する。初期視点情報は、MMT-SIの形式で送信されてもよい。

ステップS22において、メディア処理装置２００は、初期視点情報に基づいて初期特定コンテンツを生成する（レンダリング処理）。例えば、メディア処理装置２００は、初期視点情報及びシーン記述に基づいて、初期特定コンテンツに含める第２コンテンツを生成する。

ここで、メディア処理装置２００は、ユーザ端末３００の表示解像度よりも広い範囲をビューポートとして初期特定コンテンツを生成してもよい。例えば、表示解像度よりも広い範囲は、水平方向において表示解像度+20%、垂直方向において表示解像度+20%の範囲であってもよい。

メディア処理装置２００は、初期特定コンテンツに圧縮符号化方式を適用する。特に限定されるものではないが、圧縮符号化方式は、HEVCであってもよく、VVCであってもよい。

ステップS23において、メディア処理装置２００は、初期視点情報に対応する初期特定コンテンツをユーザ端末３００に送信する。メディア処理装置２００は、初期特定コンテンツの提示時刻をユーザ端末３００に送信する。上述したように、ユーザ端末３００に提供される提示時刻（T’）は、遅延時間（ΔT）に基づいて定められてもよい。

なお、遅延時間（ΔT）としてユーザ端末３００毎に異なる値を用いる場合には、上述したRTSP SETUPにRTSP SETUPの送信時刻を含めることによって、メディア処理装置２００側で特定することが可能である。

ユーザ端末３００は、提示時刻（T’）に基づいて特定コンテンツを出力する。ユーザ端末３００は、メディア処理装置２００から受信する視点情報と検出部３１０から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。

ステップS31において、ユーザ端末３００は、視点情報をメディア処理装置２００に送信する。視点情報は、MMT-SIの形式で送信されてもよい。ここで、ユーザ端末３００は、所定周期（例えば、500ms）で視点情報を送信してもよく、視点位置及び視線方向の少なくともいずれか１つの変更に応じて視点情報を送信してもよい。

ステップS32において、メディア処理装置２００は、ステップS31で受信する視点情報に基づいて特定コンテンツを生成する（レンダリング処理）。

ステップS33において、メディア処理装置２００は、ステップS31で受信する視点情報に対応する特定コンテンツをユーザ端末３００に送信する。

ステップS31～ステップS33の処理は、初期視点情報に代えてステップS31で受信する視点情報を用いる点を除いて、ステップS21～ステップS23の処理と同様である。従って、ステップS31～ステップS33の処理の詳細については省略する。ステップS31～ステップS33の処理は、所定周期で繰り返されてもよく、ユーザの視点位置又は視線方向の変更毎に繰り返されてもよい。

ステップS41において、ユーザ端末３００は、RTSP TEARDOWNをメディア処理装置に送信する。RTSP TEARDOWNは、特定コンテンツの視聴を終了する旨のメッセージである。

ステップS42において、メディア処理装置２００は、RTSP TEARDOWNに対する応答を送信する。ここでは、RTSP TEARDOWNを受け付けた旨を示すACKが応答として送信される。

図４では、ステップS11及びステップS12がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS11及びステップS12は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。

同様に、ステップS41及びステップS42がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41及びステップS42は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。

図４では、ステップS31～ステップS33がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS31～ステップS33は、他の方式（例えば、HTTP）ベースで実行されてもよい。

同様に、ステップS41～ステップS43がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41～ステップS43は、他の方式（例えば、HTTP）ベースで実行されてもよい。

（作用及び効果）
実施形態では、メディア処理装置２００は、視点情報に基づいて特定コンテンツを生成した上で、特定コンテンツをユーザ端末３００に送信する。このような構成によれば、視点の自由度を有する第２コンテンツを含む特定コンテンツをユーザ端末３００側で生成する必要がなく、ユーザ端末３００は、メディア処理装置２００に対して視点情報を提供すれば、特定コンテンツを提示することができる。従って、メディア処理装置２００とユーザ端末３００との間の遅延が生じるものの、ユーザ端末３００の処理負荷を軽減することができる。

［変更例１］
以下において、実施形態の変更例１について説明する。以下においては、実施形態に対する相違点について主として説明する。

変更例１では、特定コンテンツが第１コンテンツ及び第２コンテンツの双方を含む場合において、第１コンテンツと第２コンテンツとの同期を取る方法について説明する。

なお、以下において、同期とは、第１コンテンツ（例えば、MPU）と第２コンテンツ（ファイル）との提示時刻が適切に揃うことを意味する。従って、同期は、2D映像と3Dオブジェクトとの提示時刻が揃うことを含んでもよく、音声と3Dオブジェクトとの提示時刻が揃うことを含んでもよい。同様に、同期は、2D映像と360°映像との提示時刻が揃うことを含んでもよく、音声と360°映像との提示時刻が揃うことを含んでもよい。

第１方法では、メディア処理装置２００が第１制御情報（MMT-SI）に基づいて、第１コンテンツと第２コンテンツとの同期を取るケースについて説明する。メディア処理装置２００は、MMT-SIをエントリーポイントとして、シーン記述（第２コンテンツ）の有無を確認した上で、シーン記述が存在する場合には、MPUタイムスタンプ記述子を流用して、第１コンテンツ及び第２コンテンツを含む特定コンテンツの提示時刻を特定する。

具体的には、図５に示すように、2D映像及び音声は、MPUタイムスタンプ記述子（図５では、単にtimestamp）に基づいて提示されるため、2D映像及び音声の同期が取れる。

一方で、シーン記述に含まれる最初のフレームの提示時刻は、MMT-SIに含まれるMPUタイムスタンプ記述子を参照することによって特定される。シーン記述に含まれる２番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第２コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。

第１方法では、シーン記述に含まれる最初のフレームの提示時刻をシーン記述が含まないケースを例示したが、シーン記述は、シーン記述に含まれる最初のフレームの提示時刻を含んでもよい。

第２方法では、メディア処理装置２００が第２制御情報（シーン記述）に基づいて、第１コンテンツと第２コンテンツとの同期を取るケースについて説明する。メディア処理装置２００は、シーン記述をエントリーポイントとして、MMT-SI（第１コンテンツ）の有無を確認した上で、MMT-SIが存在する場合には、シーン記述に含まれる提示時刻に基づいて、第１コンテンツ及び第２コンテンツを含む特定コンテンツの提示時刻を特定する。

このようなケースにおいて、シーン記述は、第２コンテンツの提示時刻を示す絶対時刻情報を含む。絶対時刻情報は、シーン記述に含まれる最初のフレームの提示時刻であってもよい。

例えば、絶対時刻情報は、UTCを基準時刻として生成されてもよい。基準時刻は、TAIが用いられてもよく、GPSから提供される時刻が用いられてもよい。基準時刻は、NTPサーバから提供される時刻であってもよく、PTPサーバから提供される時刻であってもよい。さらに、絶対時刻情報は、MPUタイムスタンプ記述子と同一基準時刻に基づいて生成されてもよい。

さらに、シーン記述は、第１コンテンツを特定するための参照情報を含む。参照情報は、第１コンテンツを構成するMPUを特定するための情報であってもよい。すなわち、参照情報は、シーン記述に含まれるオブジェクトとして第１コンテンツ（MPU）を扱うための情報である。

具体的には、図６に示すように、シーン記述に含まれる最初のフレームの提示時刻は、シーン記述に含まれる絶対時刻情報によって特定される。シーン記述に含まれる２番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第２コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。

一方で、2D映像及び音声は、MPUタイムスタンプ記述子（図６では、単にtimestamp）に基づいて提示されるため、2D映像及び音声の同期が取れる。ここで、上述した参照情報がシーン記述に含まれるため、メディア処理装置２００は、シーン記述に含まれる参照情報に基づいて、第２コンテンツとともに提示すべき第１コンテンツの有無を確認することができる。

第２方法では、2D映像と音声との同期がMMT-SIに含まれるMPUタイムスタンプ記述子に基づいて取られているが、変更例１では、2D映像と音声との同期についても、シーン記述に含まれる情報要素（絶対時刻情報及び参照情報）に基づいて取られてもよい。このようなケースにおいて、少なくとも、MMT-SIに含まれるMPUタイムスタンプ記述子については省略されてもよい。さらに、MMT-SIそのものが省略されてもよい。

なお、MMT-SIに含まれるMPUタイムスタンプ記述子の基準時刻（以下、第１基準時刻）とシーン記述に含まれる絶対時刻情報の基準時刻（第２基準時刻）とが異なる場合には、第１制御情報（MMT-SI）及び第２制御情報（シーン記述）の少なくともいずれか１つは、第１基準時刻と第２基準時刻との変換情報を含んでもよい。例えば、MMT-SIは、第１基準時刻（例えば、UTC）で表されたMPUタイムスタンプ記述子に加えて、第２基準時刻（例えば、UTC以外の基準時刻）で表されたMPUタイムスタンプ記述子を含んでもよい。シーン記述は、第２基準時刻（例えば、UTC以外の基準時刻）で表された絶対時刻情報に加えて、第１基準時刻（例えば、UTC）で表された絶対時刻情報を含んでもよい。

なお、MMT-SIに含まれるMPUタイムスタンプ記述子は、第１絶対時刻情報と称されてもよく、シーン記述に含まれる絶対時刻情報は、第２絶対時刻情報と称されてもよい。

［その他の実施形態］
本発明は上述した開示によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。

上述した開示では、特定コンテンツが第１コンテンツ及び第２コンテンツの双方を含むケースについて例示したが、上述した開示はこれに限定されるものではない。特定コンテンツは、少なくとも第２コンテンツを含めばよい。

上述した開示では特に触れていないが、MMTに関する用語は、ISO/IEC 23008-1、ARIB STD-B60、ARIB TR-B39などで規定された内容に基づいて解釈されてもよい。

上述した開示では、MMT-SIに含まれる第１絶対時刻情報として、MPUタイムスタンプ記述子を例示した。しかしながら、上述した開示はこれに限定されるものではない。MMT-SIに含まれる第１絶対時刻情報は、MPU拡張タイムスタンプ記述子であってもよい。

上述した開示では特に触れていないが、メディア処理装置２００は、必要に応じて、第２コンテンツの一部を送信装置１００に要求してもよい。このような構成によれば、第２コンテンツの伝送に伴う帯域を節約し、メディア処理装置２００の処理負荷の増大を抑制することができる。

上述した開示では、第１コンテンツの伝送方式としてMMTPを例示した。しかしながら、上述した開示はこれに限定されるものではない。第１コンテンツの伝送方式は、ISO/IEC 23009-1（以下、MPEG-DASH（Dynamic Adaptive Stream over HTTP））に準拠する方式であってもよい。このようなケースにおいて、第１制御情報は、MPD（Media Presentation Description）であってもよい。すなわち、上述した開示において、MMT-SIはMPDと読み替えられてもよい。

上述した開示では特に触れていないが、送信装置１００、メディア処理装置２００及びユーザ端末３００が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。

或いは、送信装置１００、メディア処理装置２００及びユーザ端末３００が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。

１０…伝送システム、１００…送信装置、２００…メディア処理装置、２１０…受付部、２２０…レンダラ、２３０…符号化処理部、３００…ユーザ端末、３１０…検出部、３２０…復号処理部、３３０…レンダラ

Claims

視点情報をユーザ端末から受信する受信部と、
前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、
前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える、メディア処理装置。
前記送信部は、前記特定コンテンツの生成で用いた前記視点情報を送信する、請求項１に記載のメディア処理装置。
前記送信部は、前記特定コンテンツの提示時刻を示す情報要素を前記特定コンテンツとともに送信する、請求項１に記載のメディア処理装置。
前記特定コンテンツは、前記視点の自由度を有するコンテンツに加えて、視点の自由度を有していないコンテンツを含む、請求項１乃至請求項３のいずれか１項に記載のメディア処理装置。
前記レンダラは、前記視点の自由度を有していないコンテンツに付随する制御情報に基づいて、前記特定コンテンツの提示時刻を特定する、請求項４に記載のメディア処理装置。
前記レンダラは、前記視点の自由度を有するコンテンツに付随する制御情報に基づいて、前記特定コンテンツの提示時刻を特定する、請求項４に記載のメディア処理装置。
前記レンダラは、前記メディア処理装置と前記ユーザ端末との間の遅延時間に基づいて、前記特定コンテンツの提示時刻を特定する、請求項４に記載のメディア処理装置。