JP2022139133A - メディア処理装置 - Google Patents

メディア処理装置 Download PDF

Info

Publication number
JP2022139133A
JP2022139133A JP2021039382A JP2021039382A JP2022139133A JP 2022139133 A JP2022139133 A JP 2022139133A JP 2021039382 A JP2021039382 A JP 2021039382A JP 2021039382 A JP2021039382 A JP 2021039382A JP 2022139133 A JP2022139133 A JP 2022139133A
Authority
JP
Japan
Prior art keywords
content
processing device
media processing
specific content
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021039382A
Other languages
English (en)
Inventor
秀一 青木
Shuichi Aoki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021039382A priority Critical patent/JP2022139133A/ja
Publication of JP2022139133A publication Critical patent/JP2022139133A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供する。【解決手段】 メディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。【選択図】図2

Description

本発明は、メディア処理装置に関する。
従来、360°映像及び3Dオブジェクトなどのコンテンツを伝送する仕組みが提案されている(例えば、非特許文献1)。このような仕組としては、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+(Degree of Freedom)、利用者が自由に動く範囲の視点移動を伴う6DoFなどが知られている。このような仕組みでは、360°映像と3Dオブジェクトとの位置関係は、シーン記述によって示される。
3GPP TR 26.928 V16.1.0 2020年12月
上述した背景下において、発明者等は、上述したコンテンツを出力するユーザ端末において、視点情報(視点位置や視線方向)に基づいてコンテンツ(360°映像及び3Dオブジェクト)を生成する必要があり、ユーザ端末の処理負荷が増大することに着目した。
そこで、本発明は、上述した課題を解決するためになされたものであり、視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供することを目的とする。
開示に係るメディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。
本発明によれば、視点の自由度を有するコンテンツを含む特定コンテンツを生成するユーザ端末の処理負荷を軽減することを可能とするメディア処理装置を提供することができる。
図1は、実施形態に係る伝送システム10を示す図である。 図2は、実施形態に係るメディア処理装置200及びユーザ端末300を示すブロック図である。 図3は、実施形態に係る第2コンテンツを説明するための図である。 図4は、実施形態に係る特定コンテンツの視聴方法を示す図である。 図5は、変更例1に係る第1方法ついて説明するための図である。 図6は、変更例1に係る第2方法ついて説明するための図である。
次に、本発明の実施形態について説明する。なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。ただし、図面は模式的なものであり、各寸法の比率などは現実のものとは異なることに留意すべきである。
したがって、具体的な寸法などは以下の説明を参酌して判断すべきものである。また、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。
[開示の概要]
開示の概要に係るメディア処理装置は、視点情報をユーザ端末から受信する受信部と、前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える。
開示の概要では、メディア処理装置は、視点情報に基づいて特定コンテンツを生成した上で、特定コンテンツをユーザ端末に送信する。このような構成によれば、視点の自由度を有するコンテンツを含む特定コンテンツをユーザ端末側で生成する必要がなく、ユーザ端末は、メディア処理装置に対して視点情報を提供すれば、特定コンテンツを提示することができる。従って、メディア処理装置とユーザ端末との間の遅延が生じるものの、ユーザ端末の処理負荷を軽減することができる。
なお、メディア処理装置によって生成される特定コンテンツは視点情報に基づいて生成されるものであり、ユーザ端末側では、特定コンテンツに含まれる映像について2D映像として扱うことができることに留意すべきである。
[実施形態]
(伝送システム)
以下において、実施形態に係る伝送システムについて説明する。図1は、実施形態に係る伝送システム10を示す図である。図1に示すように、デジタル無線伝送システムは、送信装置100、メディア処理装置200及びユーザ端末300を備える。
実施形態において、送信装置100は、視点の自由度を有していない第1コンテンツ及び視点の自由度を有する第2コンテンツをメディア処理装置200に送信する。さらに、送信装置100は、第1コンテンツに付随する第1制御情報及び第2コンテンツに付随する第2制御情報をメディア処理装置200に送信する。
第1コンテンツは、2D映像及び音声の少なくともいずれか1つを含んでもよい。第1コンテンツ及び第1制御情報は、第1方式で送信されてもよい。第1方式は、ISO/IEC 23008-1(以下、MMT(MPEG Media Transport))に準拠する方式であってもよい。以下においては、第1方式がMMTに準拠するMMTP(MMT Protocol)であるケースについて例示する。第1制御情報は、MMT-SI(Signaling Information)と称されてもよい。
第2コンテンツは、360°映像及び3Dオブジェクトを含んでもよい。第2コンテンツ及び第2制御情報は、第2方式で送信されてもよい。あるいは、HTTP(Hyper Text Transfer Protocol)などのプロトコルで伝送されてもよい。第2コンテンツは、利用者が座位で頭を動かした範囲の視点移動を伴う3DoF+(Degree of Freedom)、利用者が自由に動く範囲の視点移動を伴う6DoFなどに準拠してもよい。第2コンテンツは、視点の自由度を有するため、同一時刻(フレーム)において、2以上の360°映像を含んでもよく、2以上の3Dオブジェクトを含んでもよい。第2制御情報は、シーン記述と称されてもよい。
ここで、第2制御情報は、上述した第1方式で送信されてもよい。すなわち、第2制御情報は、第1制御情報と同じ第1方式(例えば、MMTP)で送信されてもよい。あるいは、HTTPなどのプロトコルで伝送されてもよい。
送信装置100からメディア処理装置200への伝送は、特に限定されるものではないが、衛星放送を用いた伝送であってもよく、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。
特に限定されるものではないが、伝送システムは、デジタル無線伝送システムであってもよい。デジタル無線伝送システムは、4K、8K衛星放送で用いるシステムであってもよい。
メディア処理装置200は、ユーザ端末300から受信する視点情報に基づいて、上述した第2コンテンツを少なくとも含む特定コンテンツを生成し、生成された特定コンテンツをユーザ端末300に送信する。特に限定されるものではないが、特定コンテンツの伝送は、インターネット網を用いた伝送であってもよく、移動体通信網を用いた伝送であってもよい。
ユーザ端末300は、スマートフォン、タブレット端末、ヘッドマウントディスプレイなどのユーザ端末であってもよい。図1に示すように、ユーザ端末300として2以上のユーザ端末300が設けられてもよい。言い換えると、2以上のユーザ端末300は、特定コンテンツの生成をメディア処理装置200に要求してもよい。各ユーザ端末300は、別々の視点情報をメディア処理装置200に送信してもよい。
(メディア処理装置及びユーザ端末)
以下において、実施形態に係るメディア処理装置及びユーザ端末について説明する。図2は、実施形態に係るメディア処理装置200及びユーザ端末300を示すブロック図である。
第1に、メディア処理装置200は、受付部210と、レンダラ220と、符号化処理部230と、を有する。
受付部210は、視点情報を受け付ける。実施形態では、受付部210は、視点情報をユーザ端末300から受信する受信部を構成する。視点情報は、ユーザ端末300のユーザの視点位置を示す情報要素、ユーザ端末300のユーザの視線方向を示す情報要素を含む。
レンダラ220は、視点情報に基づいて、第2コンテンツを少なくとも含む特定コンテンツを生成する。特定コンテンツは、視点情報に基づいて生成されるため、同一時刻(フレーム)において、1つの360°映像を含んでもよく、1つの3Dオブジェクトを含んでもよい。以下において、特定コンテンツは、第2コンテンツに加えて第1コンテンツを含むケースについて例示する。
図2に示すように、レンダラ220は、第1制御情報(MMT-SI)に基づいて、特定コンテンツの一部として、2D映像及び音声を含む第1コンテンツを生成する。第1コンテンツの生成において視点情報は不要である。
具体的には、レンダラ220は、2D映像、音声及びMMT-SIがパケット化されたMMTPパケットの形式で、2D映像、音声及びMMT-SIを取得する。
例えば、MMTPパケットは、IP(Internet Protocol)パケットに格納される。IPパケットは、UDP(User Datagram Protocol)を用いて伝送されてもよく、TCP(Transmission Control Protocol)を用いて伝送されてもよい。
ここで、第1コンテンツは、一定時間幅で区切られた単位(以下、MPU;Media Processing Unit)で処理される。MPUは、1以上のアクセスユニットを含む。アクセスユニットは、MFU(Media Fragment Unit)として扱われることもある。2D映像に関するMFUは、NAL(Network Abstraction Layer)ユニットと称されてもよく、音声に関するMFUは、MHAS(MPEG-H 3D Audio Stream)パケットと称されてもよい。
MMT-SIは、PA(Package Access)メッセージを含み、PAメッセージは、第1コンテンツの一覧を示すMPT(MMT Package Table)を含む。さらに、MMT-SIは、第1コンテンツの提示時刻を示すMPUタイムスタンプ記述子を含む。MPUタイムスタンプ記述子は、MPUの提示時刻、すなわち、MPUにおいて最初に提示するアクセスユニットの時刻を意味してもよい。
MPUタイムスタンプ記述子は、UTC(Coordinated Universal Time)を基準時刻として生成されてもよい。基準時刻は、TAI(International Atomic Time)が用いられてもよく、GPS(Global Positioning System)から提供される時刻が用いられてもよい。基準時刻は、NTP(Network Time Protocol)サーバから提供される時刻であってもよく、PTP(Precision Time Protocol)サーバから提供される時刻であってもよい。
第2に、レンダラ220は、第2制御情報(シーン記述)に基づいて、特定コンテンツの一部として、360°映像及び3Dオブジェクトを含む第2コンテンツを生成する。第2コンテンツの生成において視点情報が用いられる。
具体的には、レンダラ220は、シーン記述がパケット化されたMMTPパケットの形式で、シーン記述を取得してもよい。360°映像及び3Dオブジェクトの取得方法は特に限定されるものではない。
360°映像は、ERP(Equirectangular projection)やキューブマップなどの射影変換によって2D映像に変換されていてもよい。360°映像に適用した射影変換の種類を示すメタデータが付加されていてもよい。3Dオブジェクトは、メッシュ形式で符号化されてもよい。メッシュ形式の符号化としては、ISO/IEC 14496-16 “Animation framework extension (AFX)”が用いられてもよい。3Dオブジェクトは、ポイントクラウド形式で符号化されてもよい。ポイントクラウド形式の符号化としては、ISO/IEC 23090-5 “Video-based Point Cloud Compression”が用いられてもよい。
ここで、第2コンテンツは、一定時間幅で区切られた単位で1つのファイルに纏められる。一定時間幅は、500msであってもよい。例えば、フレームレートが60fps(frame per second)である場合には、1つのファイルは、30 frameを含む。
シーン記述は、1つのファイル毎に生成され、360°映像及び3Dオブジェクトを特定する情報をフレーム毎に含む。例えば、シーン記述は、フレームの3Dオブジェクトの名称を示す情報要素(object_name)、フレーム番号を示す情報要素(frame_number)、フレームにおける3Dオブジェクトの位置を示す情報要素(translation_object)、フレームにおける3Dオブジェクトの回転を示す情報要素(rotation_object)、フレームにおける3Dオブジェクトの大きさを示す情報要素(scale_object)などを含む。
第3に、レンダラ220は、第1コンテンツ及び第2コンテンツを含む特定コンテンツを符号化処理部230に出力する。レンダラ220は、特定コンテンツとともに、特定コンテンツの提示時刻を符号化処理部230に出力してもよい。
ここで、特定コンテンツの提示時刻は、メディア処理装置200とユーザ端末300との間の遅延時間に基づいて修正されてもよい。具体的には、レンダラ220は、送信装置100からメディア処理装置200に提供される特定コンテンツの提示時刻(T)及び遅延時間(ΔT)に基づいて、メディア処理装置200からユーザ端末300に提供される特定コンテンツの提示時刻(T’=T+ΔT)を算出してもよい。遅延時間(ΔT)は、メディア処理装置200において予め定められた値であってもよく、ユーザ端末300毎に異なる値であってもよい。
第4に、レンダラ220は、特定コンテンツの生成に用いた視点情報をユーザ端末300に送信する送信部を構成してもよい。特定コンテンツの生成に用いた視点情報は、符号化処理部230からユーザ端末300に送信されてもよい。
例えば、視点情報及び特定コンテンツの伝送方式は、MMTPであってもよく、HTTPであってもよい。特定コンテンツの伝送方式としてMMTPが用いられる場合には、視点情報は、ISO/IEC 23090-2で規定されたOMAF(Omnidirectional Media Format)にメタデータとして格納されてもよい。
符号化処理部230は、レンダラ220によって生成された特定コンテンツを符号化する。実施形態では、符号化処理部230は、特定コンテンツをユーザ端末300に送信する送信部の一例であってもよい。
さらに、符号化処理部230は、特定コンテンツの提示時刻を符号化してもよい。符号化処理部230は、提示時刻を示す情報要素を特定コンテンツとともにユーザ端末300に送信してもよい。
ここで、符号化処理部230が用いる圧縮符号化方式としては、任意の圧縮符号化方式を用いることができる。例えば、圧縮符号化方式は、HEVC(High Efficiency Video Coding)であってもよく、VVC(Versatile Video Coding)であってもよい。
上述したように、特定コンテンツに含まれる第2コンテンツは、視点情報に基づいて生成されるため、特定コンテンツに含まれる映像は、視点の自由度を有していない2D映像として扱うことができる。
例えば、特定コンテンツの視聴開始や終了で用いる伝送制御方式は、RTSP(Real Time Streaming Protocol)を含んでもよい。伝送方式は、MMTPであってもよく、HTTPであってもよい。伝送方式としてMMTPが用いられる場合には、特定コンテンツは、ISO/IEC 23090-2で規定されたOMAFに格納されてもよい。
図2に示すように、ユーザ端末300は、検出部310と、復号処理部320と、レンダラ330と、を有する。
検出部310は、ユーザの視点位置及び視線方向を検出する。検出部310は、加速度センサを含んでもよく、GPS(Global Positioning System)センサを含んでもよい。検出部310は、ユーザによって手動で入力されるユーザI/F(例えば、タッチセンサ、キーボード、マウス、コントローラなど)を含んでもよい。検出部310は、視点情報(視点位置及び視線方向)をメディア処理装置200に送信してもよい。検出部310は、視点情報(ビューポート)をレンダラ330に出力してもよい。
復号処理部320は、メディア処理装置200から受信する特定コンテンツを復号する。復号処理部320は、メディア処理装置200から受信する提示時刻を復号してもよい。復号処理部320は、特定コンテンツをレンダラ330に出力してもよく、提示時刻をレンダラ330に出力してもよい。
レンダラ330は、復号処理部320によって復号された特定コンテンツを出力する。レンダラ330は、復号処理部320によって復号された提示時刻に基づいて特定コンテンツを出力してもよい。例えば、レンダラ330は、特定コンテンツに含まれる映像コンテンツをディスプレイに出力し、特定コンテンツに含まれる音声コンテンツをスピーカに出力してもよい。
ここで、レンダラ330は、メディア処理装置200から受信する視点情報と検出部310から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。
(第2コンテンツ)
以下において、実施形態に係る第2コンテンツについて説明する。ここでは、t=0、t=1及びt=2における第2コンテンツについて説明する。t=0、t=1及びt=2の時間間隔は特に限定されるものではない。
例えば、図3に示すように、t=0において、3Dオブジェクトが表示されずに、360°映像が表示されてもよい。360°映像は、3Dオブジェクトの背景映像であると考えてもよい。t=1において、360°映像に重畳される形式で3Dオブジェクトが表示されてもよい。さらに、t=1において、360°映像に重畳される3Dオブジェクトの位置及び回転が変更されてもよい。
上述したシーン記述は、t=0、t=1及びt=2のそれぞれについて、3Dオブジェクトの位置、回転及び大きさを示す情報要素を含み、360°映像上に3Dオブジェクトを適切に重畳することができる。
(視聴方法)
以下において、実施形態に係る視聴方法について説明する。ここでは、第1コンテンツ及び第2コンテンツを含む特定コンテンツの視聴について例示する。
図4に示すように、ステップS11において、ユーザ端末300は、RTSP SETUPをメディア処理装置に送信する。RTSP SETUPは、特定コンテンツの視聴を開始する旨のメッセージである。
ここで、RTSP SETUPは、ユーザ端末300のIPアドレス、待受ポート番号、コンテンツの識別情報(コンテンツID)などを含む。RTSP SETUPは、特定コンテンツを視聴するためのユーザ端末300の能力情報を含んでもよい。能力情報は、フレームレート、表示解像度などを含んでもよい。表示解像度は、視野角(FoV:Field of View)を含んでもよい。能力情報は、ユーザ端末300が対応する符号化方式及び圧縮方式を示す情報要素を含んでもよい。
ここでは、ユーザ端末300の能力情報がメディア処理装置200に直接的に通知されるケースが例示されているが、実施形態はこれに限定されるものではない。ユーザ端末300の能力情報は、送信装置100に通知された上で、送信装置100からメディア処理装置200に通知されてもよい。
ステップS12において、メディア処理装置200は、RTSP SETUPに対する応答を送信する。ここでは、RTSP SETUPを受け付けた旨を示すACKが応答として送信される。
ステップS21において、ユーザ端末300は、初期視点情報をメディア処理装置200に送信する。初期視点情報は、MMT-SIの形式で送信されてもよい。
ステップS22において、メディア処理装置200は、初期視点情報に基づいて初期特定コンテンツを生成する(レンダリング処理)。例えば、メディア処理装置200は、初期視点情報及びシーン記述に基づいて、初期特定コンテンツに含める第2コンテンツを生成する。
ここで、メディア処理装置200は、ユーザ端末300の表示解像度よりも広い範囲をビューポートとして初期特定コンテンツを生成してもよい。例えば、表示解像度よりも広い範囲は、水平方向において表示解像度+20%、垂直方向において表示解像度+20%の範囲であってもよい。
メディア処理装置200は、初期特定コンテンツに圧縮符号化方式を適用する。特に限定されるものではないが、圧縮符号化方式は、HEVCであってもよく、VVCであってもよい。
ステップS23において、メディア処理装置200は、初期視点情報に対応する初期特定コンテンツをユーザ端末300に送信する。メディア処理装置200は、初期特定コンテンツの提示時刻をユーザ端末300に送信する。上述したように、ユーザ端末300に提供される提示時刻(T’)は、遅延時間(ΔT)に基づいて定められてもよい。
なお、遅延時間(ΔT)としてユーザ端末300毎に異なる値を用いる場合には、上述したRTSP SETUPにRTSP SETUPの送信時刻を含めることによって、メディア処理装置200側で特定することが可能である。
ユーザ端末300は、提示時刻(T’)に基づいて特定コンテンツを出力する。ユーザ端末300は、メディア処理装置200から受信する視点情報と検出部310から入力される視点情報との差異に基づいて、視点位置及び視線方向が修正された特定コンテンツを生成してもよい。
ステップS31において、ユーザ端末300は、視点情報をメディア処理装置200に送信する。視点情報は、MMT-SIの形式で送信されてもよい。ここで、ユーザ端末300は、所定周期(例えば、500ms)で視点情報を送信してもよく、視点位置及び視線方向の少なくともいずれか1つの変更に応じて視点情報を送信してもよい。
ステップS32において、メディア処理装置200は、ステップS31で受信する視点情報に基づいて特定コンテンツを生成する(レンダリング処理)。
ステップS33において、メディア処理装置200は、ステップS31で受信する視点情報に対応する特定コンテンツをユーザ端末300に送信する。
ステップS31~ステップS33の処理は、初期視点情報に代えてステップS31で受信する視点情報を用いる点を除いて、ステップS21~ステップS23の処理と同様である。従って、ステップS31~ステップS33の処理の詳細については省略する。ステップS31~ステップS33の処理は、所定周期で繰り返されてもよく、ユーザの視点位置又は視線方向の変更毎に繰り返されてもよい。
ステップS41において、ユーザ端末300は、RTSP TEARDOWNをメディア処理装置に送信する。RTSP TEARDOWNは、特定コンテンツの視聴を終了する旨のメッセージである。
ステップS42において、メディア処理装置200は、RTSP TEARDOWNに対する応答を送信する。ここでは、RTSP TEARDOWNを受け付けた旨を示すACKが応答として送信される。
図4では、ステップS11及びステップS12がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS11及びステップS12は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。
同様に、ステップS41及びステップS42がRTSPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41及びステップS42は、MMTPベースで実行されてもよく、HTTPベースで実行されてもよい。
図4では、ステップS31~ステップS33がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS31~ステップS33は、他の方式(例えば、HTTP)ベースで実行されてもよい。
同様に、ステップS41~ステップS43がMMTPベースで実行されるケースについて例示したが、実施形態はこれに限定されるものではない。ステップS41~ステップS43は、他の方式(例えば、HTTP)ベースで実行されてもよい。
(作用及び効果)
実施形態では、メディア処理装置200は、視点情報に基づいて特定コンテンツを生成した上で、特定コンテンツをユーザ端末300に送信する。このような構成によれば、視点の自由度を有する第2コンテンツを含む特定コンテンツをユーザ端末300側で生成する必要がなく、ユーザ端末300は、メディア処理装置200に対して視点情報を提供すれば、特定コンテンツを提示することができる。従って、メディア処理装置200とユーザ端末300との間の遅延が生じるものの、ユーザ端末300の処理負荷を軽減することができる。
[変更例1]
以下において、実施形態の変更例1について説明する。以下においては、実施形態に対する相違点について主として説明する。
変更例1では、特定コンテンツが第1コンテンツ及び第2コンテンツの双方を含む場合において、第1コンテンツと第2コンテンツとの同期を取る方法について説明する。
なお、以下において、同期とは、第1コンテンツ(例えば、MPU)と第2コンテンツ(ファイル)との提示時刻が適切に揃うことを意味する。従って、同期は、2D映像と3Dオブジェクトとの提示時刻が揃うことを含んでもよく、音声と3Dオブジェクトとの提示時刻が揃うことを含んでもよい。同様に、同期は、2D映像と360°映像との提示時刻が揃うことを含んでもよく、音声と360°映像との提示時刻が揃うことを含んでもよい。
第1方法では、メディア処理装置200が第1制御情報(MMT-SI)に基づいて、第1コンテンツと第2コンテンツとの同期を取るケースについて説明する。メディア処理装置200は、MMT-SIをエントリーポイントとして、シーン記述(第2コンテンツ)の有無を確認した上で、シーン記述が存在する場合には、MPUタイムスタンプ記述子を流用して、第1コンテンツ及び第2コンテンツを含む特定コンテンツの提示時刻を特定する。
具体的には、図5に示すように、2D映像及び音声は、MPUタイムスタンプ記述子(図5では、単にtimestamp)に基づいて提示されるため、2D映像及び音声の同期が取れる。
一方で、シーン記述に含まれる最初のフレームの提示時刻は、MMT-SIに含まれるMPUタイムスタンプ記述子を参照することによって特定される。シーン記述に含まれる2番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第2コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。
第1方法では、シーン記述に含まれる最初のフレームの提示時刻をシーン記述が含まないケースを例示したが、シーン記述は、シーン記述に含まれる最初のフレームの提示時刻を含んでもよい。
第2方法では、メディア処理装置200が第2制御情報(シーン記述)に基づいて、第1コンテンツと第2コンテンツとの同期を取るケースについて説明する。メディア処理装置200は、シーン記述をエントリーポイントとして、MMT-SI(第1コンテンツ)の有無を確認した上で、MMT-SIが存在する場合には、シーン記述に含まれる提示時刻に基づいて、第1コンテンツ及び第2コンテンツを含む特定コンテンツの提示時刻を特定する。
このようなケースにおいて、シーン記述は、第2コンテンツの提示時刻を示す絶対時刻情報を含む。絶対時刻情報は、シーン記述に含まれる最初のフレームの提示時刻であってもよい。
例えば、絶対時刻情報は、UTCを基準時刻として生成されてもよい。基準時刻は、TAIが用いられてもよく、GPSから提供される時刻が用いられてもよい。基準時刻は、NTPサーバから提供される時刻であってもよく、PTPサーバから提供される時刻であってもよい。さらに、絶対時刻情報は、MPUタイムスタンプ記述子と同一基準時刻に基づいて生成されてもよい。
さらに、シーン記述は、第1コンテンツを特定するための参照情報を含む。参照情報は、第1コンテンツを構成するMPUを特定するための情報であってもよい。すなわち、参照情報は、シーン記述に含まれるオブジェクトとして第1コンテンツ(MPU)を扱うための情報である。
具体的には、図6に示すように、シーン記述に含まれる最初のフレームの提示時刻は、シーン記述に含まれる絶対時刻情報によって特定される。シーン記述に含まれる2番目以降フレームの提示時刻は、シーン記述に含まれるフレーム番号及び第2コンテンツのフレームレートによって特定することが可能である。例えば、フレームレートが30fpsであるケースを考えると、n番目のフレームの提示時刻は、MPUタイムスタンプ記述子によって特定される時刻に1/30×nを加算することによって特定される。但し、シーン記述に含まれる最初のフレームのフレーム番号は”0”である。
一方で、2D映像及び音声は、MPUタイムスタンプ記述子(図6では、単にtimestamp)に基づいて提示されるため、2D映像及び音声の同期が取れる。ここで、上述した参照情報がシーン記述に含まれるため、メディア処理装置200は、シーン記述に含まれる参照情報に基づいて、第2コンテンツとともに提示すべき第1コンテンツの有無を確認することができる。
第2方法では、2D映像と音声との同期がMMT-SIに含まれるMPUタイムスタンプ記述子に基づいて取られているが、変更例1では、2D映像と音声との同期についても、シーン記述に含まれる情報要素(絶対時刻情報及び参照情報)に基づいて取られてもよい。このようなケースにおいて、少なくとも、MMT-SIに含まれるMPUタイムスタンプ記述子については省略されてもよい。さらに、MMT-SIそのものが省略されてもよい。
なお、MMT-SIに含まれるMPUタイムスタンプ記述子の基準時刻(以下、第1基準時刻)とシーン記述に含まれる絶対時刻情報の基準時刻(第2基準時刻)とが異なる場合には、第1制御情報(MMT-SI)及び第2制御情報(シーン記述)の少なくともいずれか1つは、第1基準時刻と第2基準時刻との変換情報を含んでもよい。例えば、MMT-SIは、第1基準時刻(例えば、UTC)で表されたMPUタイムスタンプ記述子に加えて、第2基準時刻(例えば、UTC以外の基準時刻)で表されたMPUタイムスタンプ記述子を含んでもよい。シーン記述は、第2基準時刻(例えば、UTC以外の基準時刻)で表された絶対時刻情報に加えて、第1基準時刻(例えば、UTC)で表された絶対時刻情報を含んでもよい。
なお、MMT-SIに含まれるMPUタイムスタンプ記述子は、第1絶対時刻情報と称されてもよく、シーン記述に含まれる絶対時刻情報は、第2絶対時刻情報と称されてもよい。
[その他の実施形態]
本発明は上述した開示によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
上述した開示では、特定コンテンツが第1コンテンツ及び第2コンテンツの双方を含むケースについて例示したが、上述した開示はこれに限定されるものではない。特定コンテンツは、少なくとも第2コンテンツを含めばよい。
上述した開示では特に触れていないが、MMTに関する用語は、ISO/IEC 23008-1、ARIB STD-B60、ARIB TR-B39などで規定された内容に基づいて解釈されてもよい。
上述した開示では、MMT-SIに含まれる第1絶対時刻情報として、MPUタイムスタンプ記述子を例示した。しかしながら、上述した開示はこれに限定されるものではない。MMT-SIに含まれる第1絶対時刻情報は、MPU拡張タイムスタンプ記述子であってもよい。
上述した開示では特に触れていないが、メディア処理装置200は、必要に応じて、第2コンテンツの一部を送信装置100に要求してもよい。このような構成によれば、第2コンテンツの伝送に伴う帯域を節約し、メディア処理装置200の処理負荷の増大を抑制することができる。
上述した開示では、第1コンテンツの伝送方式としてMMTPを例示した。しかしながら、上述した開示はこれに限定されるものではない。第1コンテンツの伝送方式は、ISO/IEC 23009-1(以下、MPEG-DASH(Dynamic Adaptive Stream over HTTP))に準拠する方式であってもよい。このようなケースにおいて、第1制御情報は、MPD(Media Presentation Description)であってもよい。すなわち、上述した開示において、MMT-SIはMPDと読み替えられてもよい。
上述した開示では特に触れていないが、送信装置100、メディア処理装置200及びユーザ端末300が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
或いは、送信装置100、メディア処理装置200及びユーザ端末300が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
10…伝送システム、100…送信装置、200…メディア処理装置、210…受付部、220…レンダラ、230…符号化処理部、300…ユーザ端末、310…検出部、320…復号処理部、330…レンダラ

Claims (7)

  1. 視点情報をユーザ端末から受信する受信部と、
    前記視点情報に基づいて、視点の自由度を有するコンテンツを少なくとも含む特定コンテンツを生成するレンダラと、
    前記レンダラによって生成された前記特定コンテンツを前記ユーザ端末に送信する送信部と、を備える、メディア処理装置。
  2. 前記送信部は、前記特定コンテンツの生成で用いた前記視点情報を送信する、請求項1に記載のメディア処理装置。
  3. 前記送信部は、前記特定コンテンツの提示時刻を示す情報要素を前記特定コンテンツとともに送信する、請求項1に記載のメディア処理装置。
  4. 前記特定コンテンツは、前記視点の自由度を有するコンテンツに加えて、視点の自由度を有していないコンテンツを含む、請求項1乃至請求項3のいずれか1項に記載のメディア処理装置。
  5. 前記レンダラは、前記視点の自由度を有していないコンテンツに付随する制御情報に基づいて、前記特定コンテンツの提示時刻を特定する、請求項4に記載のメディア処理装置。
  6. 前記レンダラは、前記視点の自由度を有するコンテンツに付随する制御情報に基づいて、前記特定コンテンツの提示時刻を特定する、請求項4に記載のメディア処理装置。
  7. 前記レンダラは、前記メディア処理装置と前記ユーザ端末との間の遅延時間に基づいて、前記特定コンテンツの提示時刻を特定する、請求項4に記載のメディア処理装置。
JP2021039382A 2021-03-11 2021-03-11 メディア処理装置 Pending JP2022139133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021039382A JP2022139133A (ja) 2021-03-11 2021-03-11 メディア処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021039382A JP2022139133A (ja) 2021-03-11 2021-03-11 メディア処理装置

Publications (1)

Publication Number Publication Date
JP2022139133A true JP2022139133A (ja) 2022-09-26

Family

ID=83399482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021039382A Pending JP2022139133A (ja) 2021-03-11 2021-03-11 メディア処理装置

Country Status (1)

Country Link
JP (1) JP2022139133A (ja)

Similar Documents

Publication Publication Date Title
JP7260687B2 (ja) 送信方法および送信装置
US10565463B2 (en) Advanced signaling of a most-interested region in an image
US20190104326A1 (en) Content source description for immersive media data
US10587883B2 (en) Region-wise packing, content coverage, and signaling frame packing for media content
US10582201B2 (en) Most-interested region in an image
JP6038381B1 (ja) 送信装置、送信方法、受信装置および受信方法
EP3973684A1 (en) Immersive media content presentation and interactive 360° video communication
US10992961B2 (en) High-level signaling for fisheye video data
US11089285B2 (en) Transmission device, transmission method, reception device, and reception method
JPWO2019139099A1 (ja) 送信装置、送信方法、受信装置および受信方法
US20130250975A1 (en) Method and device for packetizing a video stream
JP2022139133A (ja) メディア処理装置
KR20170130883A (ko) 하이브리드 망 기반의 가상 현실 방송 서비스 방법 및 장치
WO2023153472A1 (ja) メディア処理装置、送信装置及び受信装置
WO2023153473A1 (ja) メディア処理装置、送信装置及び受信装置
JP5632711B2 (ja) 送信装置、受信装置及び伝送システム
JP6368335B2 (ja) トランスコード装置、映像配信システム、トランスコード方法、映像配信方法及びトランスコードプログラム
JP2023117151A (ja) メディア処理装置及びユーザ端末
JP2023117157A (ja) メディア処理装置、送信装置及び受信装置
JP2023117400A (ja) メディア処理装置、送信装置及び受信装置
JP2022139100A (ja) 送信装置及び受信装置
JP2022139106A (ja) 送信装置及び受信装置
US20240195966A1 (en) A method, an apparatus and a computer program product for high quality regions change in omnidirectional conversational video
US20170230672A1 (en) Method for buffering media transport stream in heterogeneous network environment and image receiving apparatus using the same
US20240007603A1 (en) Method, an apparatus and a computer program product for streaming of immersive video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208