JP2022552853A

JP2022552853A - メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体

Info

Publication number: JP2022552853A
Application number: JP2022523231A
Authority: JP
Inventors: 雅賢白; 成黄
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-12-03
Filing date: 2020-11-12
Publication date: 2022-12-20
Anticipated expiration: 2040-11-12
Also published as: JP7395725B2; EP4072149A4; WO2021109822A1; KR20220071240A; EP4072149A1; KR102621434B1; CN112511866B; CN112511866A; US20220368991A1; US11838594B2

Abstract

本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提案し、前記方法は、第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップと、前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生するステップと、を含む。

Description

本願は中国特許庁に２０１９年１２月０３日に提出された、出願番号が２０１９１１２２３３２９．３である中国特許出願の優先権を主張し、その出願の全ての内容を引用により本願に組み入れる。

本願は没入型メディアの技術分野に関し、例えばメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体に関する。

パノラマビデオは３６０°パノラマビデオまたは没入型ビデオとも呼ばれ、水平３６０°と垂直１８０°をカバーし、一般的に異なる方向を向く複数のカメラで撮影してつなぎ合わせたもので、３次元の動的パノラマビデオとユーザの身体的行動の融合により、ユーザの視聴体験を大幅に向上させ、仮想世界の体験効果を達成することができる。この技術は仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ：ＶＲ）とも呼ばれている。

ユーザがＶＲシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に３６０°全てのシーンに同時に気を配ることができず、指定方向のエキサイティングなハイライトが見逃されることが到底避けられない。クライアント側で関心領域（Ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ：ＲＯＩ）に関する提示を提供する場合、関連するＲＯＩ記述情報が必要となるが、ＲＯＩ記述情報は統一された表現方法に欠けている。

本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提供する。

本願の実施例はメディアリソースの再生方法を提供し、前記方法は、
第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するステップと、
前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するステップと、
を含む。

本願の実施例は時限テキストのレンダリング方法を提供し、前記方法は、
時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、
前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングするステップと、
を含む。

本願の実施例はメディアリソースの再生装置を提供し、前記装置は、
第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
を含む。

本願の実施例は時限テキストのレンダリング装置を提供し、前記装置は、
時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
を含む。

機器は、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するメモリと、
を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行された場合、前記１つまたは複数のプロセッサに本願の実施例における何れか一つの方法を実行させる。

本願の実施例は記憶媒体を提供し、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行された場合は、本願の実施例における何れか一つの方法を実現する。

本願の以上の実施例およびその他の側面、ならびにその実現方法については、図面の簡単な説明、発明を実施するための形態、および請求の範囲において、さらに説明する。

本願の実施例が提供するメディアリソース再生方法のフローチャートである。本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースの模式図である。本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。本願の実施例が提供するパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。本願の実施例が提供する字幕データ調整フローの模式図である。本願の実施例が提供するメディアリソース再生装置の構造模式図である。本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。本願の実施例が提供する電子機器の構造模式図である。

以下、添付図面を合わせて本願の実施例を説明する。添付図面のフローチャートに示されたステップは、一組のコンピュータ実行可能な命令のようなコンピュータシステム内で実行することができる。また、フローチャートには論理的順序が示されているが、場合によっては、こことは異なる順序で図示または説明されたステップを実行してもよい。

ＶＲ技術の最もユニークなところは、３６０°のシーンに囲まれていることであるが、人の視野が限られているため、画面全体を一つの時刻で、一つの観覧角度から鑑賞することはできず、指定領域に注意を向けることになる。ＲＯＩはＶＲビデオコンテンツの中の領域の一つで、ＲＯＩは事前の定義によって取得することができる。例えば、監督が視野角を推薦したり、大量のユーザ行動分析を通じて、最適なビデオ鑑賞方向、エキサイティングな領域、エキサイティングなクリップなどを取得したりすることができる。ＲＯＩはメディアコンテンツ自体と強く関連しており、ビデオ固有の属性である。ユーザの現在時刻のビューポート（Ｖｉｅｗｐｏｒｔ）は、ユーザの見る方向と端末機器で定義されたパラメータによって決まる視野領域であり、同じくＶＲビデオコンテンツの一部であるが、ビューポート領域の位置はユーザの動きによって変化する。ＲＯＩとＶｉｅｗｐｏｒｔとの２つの領域の属性は互いに独立している。しかしながら、ユーザがＶＲシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に３６０°全てのシーンに同時に気を配ることができず、指定された方向の見どころについては見落としが避けられない。クライアント側でＲＯＩに関する提示を提供する場合、関連するＲＯＩ記述情報が必要となるが、ＲＯＩ記述情報は統一された表現方法に欠けている。ＩＳＯ／国際電気標準会議の第一合同専門委員会（ＴｈｅＦｉｒｓｔＪｏｉｎｔＴｅｃｈｎｏｌｏｇｙＣｏｕｎｃｉｌｏｆＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ：ＩＥＣＪＴＣ１／第２９分科技術委員会（Ｔｗｅｎｔｙ－ｎｉｎｔｈＳｕｂ－ｔｅｃｈｎｉｃａｌＣｏｍｍｉｔｔｅｅ：ＳＣ２９）／第１１ワークグループ（ＥｌｅｖｅｎｔｈＷｏｒｋＧｒｏｕｐ：ＷＧ１１）動画専門家グループ（ＭＰＥＧ）が制定したＭＰＥＧ－ＩＰａｒｔ２（第２部）ＯＭＡＦ（ＯｍｎｉｄｉｒｅｃｔｉｏｎａｌＭｅｄｉａＦｏｒｍａｔ：全方向性メディアフォーマット）にもＲＯＩ関連のシグナリングがなく、この問題に対して、有効な解決策がない。

本願の実施例の実現方法によれば、国際標準化機構（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ：ＩＳＯ）基本メディアファイルフォーマットに基づいて、パノラマビデオ内の関心領域空間位置情報をメディアファイルに格納する。基本メディアファイルフォーマットは、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１動画専門家グループ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ，略称ＭＰＥＧ）が制定したＭＰＥＧ－４第１２部国際標準化機構基本メディアファイルフォーマット（ＭＰＥＧ－４Ｐａｒｔ１２ＩＳＯＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔ）を参照して操作することができる。全方向ビデオの投影、パッケージング手順とその基本フォーマットはＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１動画専門家グループ（ＭＰＥＧ）が制定したＭＰＥＧ－ＩＰａｒｔ２ＯＭＡＦ（全方向性メディアフォーマット）を参照して操作することができる。

図１は本願の実施例が提供するメディアリソース再生方法のフローチャートである。本実施例が提供するメディアリソース再生方法は主に、ＶＲシーンの関心領域内で１つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生方法はメディアリソース再生装置によって実行され、前記メディアリソース再生装置はハードウェアおよび／またはソフトウェアの方法によって実現可能である。

図１に示すように、本願の実施例が提供するメディアリソース再生方法は主としてステップＳ１１およびＳ１２を含む。

Ｓ１１：第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定する。

Ｓ１２：前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生する。

一つの例示的な実施形態において、すべてのビデオサンプルに適した関心領域について、第１ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースを確定するステップは、前記第１ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するステップと、を含む。

一つの例示的な実施形態において、ビデオサンプルグループに適した関心領域について、第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースを確定するステップは、前記第１グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するステップと、を含む。

一つの例示的な実施形態において、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生する前記ステップは、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するステップ、または、前記関心領域において、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するステップ、を含む。

一つの例示的な実施形態において、前記関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの１つまたは複数の情報によって記述される。

一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの１つまたは複数種類の情報を含む。

一つの例示的な実施形態において、前記関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの１つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。

一つの例示的な実施形態において、前記メディアリソースは、音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。

図２は本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースの模式図である。ビデオデータは３６０°の空間領域をカバーし、関心領域ＲＯＩを含み、ビデオデータと関心領域の位置情報はすべてビデオトラック内に記述されている。関心領域は、例えば音声、時限テキストなど、１つまたは複数種類のメディアリソースと関連関係にあり、ここでいう関連関係は、それぞれメディアリソース独自のトラック内に記述される。パノラマビデオの関心領域には、時間とともに変化する空間位置情報が含まれており、前記空間位置はパノラマビデオの画面内容と強い関連があるので、本実施例においては、関心領域情報をビデオデータ情報の一部として、ビデオメディアトラックのメタデータ領域に格納する。関心領域が時間とともに変化するシーンでは、次のような場合がよく見られる。

１つ目：パノラマビデオ再生の全過程においてＲＯＩの空間位置が変化しないままである。

２つ目：ＲＯＩ空間位置はビデオ再生、時間経過とともに変化し、極限の場合、各ビデオメディアサンプルは異なるＲＯＩ空間位置に対応する。

３つ目：ＲＯＩ空間位置はビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない。

４つ目：同じ時刻に異なるタイプのＲＯＩが存在する。
一つの応用的な実例において、本願の実施例は、主にサーバとクライアント側との間での転送とクライアント側でデコーディング、レンダリングに適用される、パノラマビデオにおける関心領域とユーザビューポートとの結合方法を提供する。図３は本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。図３に示すように、パノラマビデオにおける関心領域とユーザビューポートとの結合方法は、主に以下のステップを含む。

Ｓ３１：クライアント側からユーザ行動データをサーバにフィードバックする。
Ｓ３２：サーバによって、ユーザの観覧行動を統計的に分析し、関心領域の空間位置情報を識別し、パノラマビデオ中の関心領域をマークし、ＭＰＥＧ－ＩＰａｒｔ２ＯＭＡＦとＩＳＯＢＭＦＦをもとに、ビデオトラックに関心領域記述情報を追加し、ＲＯＩ画面コンテンツと指定関係のあるメディアオブジェクト、例えば字幕、音声、オーバーレイビデオなどには、ＲＯＩ関連記述情報を追加する。

Ｓ３３：クライアント側からサーバに再生要求を送信する。
Ｓ３４：サーバによって、上記再生要求に基づいてメディアファイルをクライアント側に送信する。

Ｓ３５：クライアント側でパノラマビデオメディアファイルをデコーディングし、現在のビューポートパラメータを取得し、現在のビューポートまたはビューポート内のオブジェクトと関心領域との関連関係に基づいて、レンダリング画面またはビューポート内のオブジェクトの空間位置を調整する。

Ｓ３６：クライアント側で現在のビューポート画面をレンダリングし、ユーザはディスプレイを通してビューポート内で見る。

関心領域には様々なソースがあるが、大きく分けて以下を含む２つのカテゴリがある。１つ目、関心領域はコンテンツ製作者からあらかじめ与えられる。例えば、芸術指導の必要性から、監督推薦の視角を提供したり、オンデマンドのコンテンツに対して初期ビューポートを提供したりするなどである。２つ目、ユーザ行動の予測またはクライアント側からの送信信号に基づいて、パノラマビデオ内の関心領域の位置を判断して、かつ、関連記述情報を追加する。

Ｓ３５における空間位置の調整は、オブジェクトタイプと、クライアントの動作とのうちのいずれか１つまたは複数種類の情報に基づいて確定することができる。

応用シーンには、次のような様々な形式がある。
１つ目：音声と関心領域とに関連関係がある場合、音声には自然に定位特性があるため、クライアント側はステレオサウンドやサラウンドサウンドなどの技術と組み合わせて、音声の方位によって関心領域の位置情報をユーザに提示し、エキサイティングなホットライトをタイムリーに捉えるようにユーザを誘導することができる。

２つ目：時限テキストと関心領域とに関連関係がある場合、クライアント側は必要に応じて時限テキストが表示される領域を調整する。時限テキストはナレーションや会話のテキスト提示としてだけでなく、ビデオ画面内の一部のシーンにコメントを付けることもでき、特に聴覚障害のあるユーザにとってはＶＲ体験を効果的に向上させることができる。

３つ目：ユーザは、パノラマビデオの全体画面を見ながら、一部の特殊領域に注目したい場合である。例えばスポーツ大会では、競技場全体を見ながら指定されたアスリートに注目したい場合が考えられる。クライアント側は、ビデオを重ねる方法で、関心領域を「ピクチャインピクチャ」形式でユーザビューポート内に表示することができる。

本願の実施例で提供する関連関係と調整方式は説明のみであり、限定するものではない。最終的な表現効果は、クライアント側とメディアデータとの組み合わせによって決まる。

ＩＳＯＢＭＦＦメディアファイル内のすべてのデータはボックス（ｂｏｘ）に入っており、ボックスのヘッダにそのタイプとサイズを記述できる。あるｂｏｘがネストをサポートしている場合、つまりあるｂｏｘに別のサブｂｏｘが含まれている場合、そのｂｏｘはネストをサポートするボックス（ｃｏｎｔａｉｎｅｒｂｏｘ）と呼ばれる。

「ｔｒａｋ」はデータトラックを表し、そのサブｂｏｘにはそのｔｒａｃｋのメディアデータ参照と記述が含まれている。ｔｒａｋにはメディアボックス（ｍｅｄｉａｂｏｘ、ｍｄｉａ）を含むことができ、ｔｒａｋとｍｄｉａの関係はｔｒａｋ－＞ｍｄｉａと表記することができる。ここで、ｍｄｉａはメディアデータ情報を含み、メディアタイプとサンプル（ｓａｍｐｌｅ）データを定義し、サンプル情報を記述することができる。前記メディアデータは、ビデオ、音声、字幕など様々なタイプを含むことができる。ｍｄｉａは一つのｃｏｎｔａｉｎｅｒｂｏｘとして、一つのメディアヘッダボックス（ｍｅｄｉａｈｅａｄｅｒｂｏｘ、ｍｄｈｄ）、一つの処理参照ボックス（ｈａｎｄｌｅｒｒｅｆｅｒｅｎｃｅｂｏｘ、ｈｄｌｒ）、および一つのメディア情報ボックス（ｍｅｄｉａｉｎｆｏｒｍａｔｉｏｎｂｏｘ、ｍｉｎｆ）を含むことができる。ｔｒａｋとｍｄｉａとｍｉｎｆの関係はｔｒａｋ－＞ｍｄｉａ－＞ｍｉｎｆと表記できる。

本願の実施例では、ｍｉｎｆ内のサンプルテーブルボックス（ｓａｍｐｌｅｔａｂｌｅｂｏｘ、ｓｔｂｌ）を利用して関心領域情報を格納し、様々なシーンにおける関心領域記述のニーズを満たすことができる。

本願の実施例が提供するメディアリソース再生方法は、主にパノラマビデオ処理方法に用いられるものであり、ユーザが観覧方向を自主的にコントロールしながら、パノラマビデオ内でのＲＯＩの関連分布情報を知ることができるように、ＩＳＯＢＭＦＦを利用して没入型メディアビデオコンテンツ内の関心領域を記述して、さらにビューポートと関心領域との関連を提供することができる。

本願の実施例において、パノラマメディアファイルに関心領域マークを追加してから、ユーザビューポート内のビデオ画面やその他の種類のオブジェクト（例えば字幕、ビデオオーバーレイ、音声など）に、さらにビューポートやオブジェクト、及び関心領域の関連情報記述を追加することで、現在のビューポート内でビデオ画面またはメディアオブジェクトに相応の調整を行い、ＲＯＩ領域の関連情報をユーザに取得させることができる。上記の関連関係により、ユーザが自主的にビューポートをコントロールするニーズを満たせるだけでなく、ユーザの権限に影響を与えることなくＲＯＩ指示を提供し、ユーザのビデオ観覧を補助し、ユーザのＶＲ体験を効果的に向上させることができる。

図４は本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。本実施例が提供する時限テキストレンダリング方法は主に、ＶＲシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング方法は時限テキストレンダリング装置によって実行され、前記時限テキストレンダリング装置はハードウェア及び／またはソフトウェアの方法によって実現可能である。

図４に示すように、本願の実施例が提供する時限テキストレンダリング方法は、主にステップＳ４１とＳ４２とを含む。

Ｓ４１：時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度情報とを確定する。

Ｓ４２：前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングする。

一つの例示的な実施形態において、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、すべての時限テキストサンプルに適した関心領域に対して、第２ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。

一つの例示的な実施例において、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、時限テキストサンプルグループに適した関心領域に対して、前記第２グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。

一つの例示的な実施例において、前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングするステップは、単位球に対する３次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記３次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記３次元平面と前記単位球の球心との距離を確定するステップと、前記３次元平面に前記時限テキストの１つまたは複数のテキスト領域をレンダリングするステップと、を含む。

一つの例示的な実施例において、前記深度情報は、前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度値である。

一つの例示的な実施例において、前記全方向ビデオの関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの１つまたは複数の情報によって記述される。

一つの例示的な実施例において、関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの１つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。

応用的な一例として、本願の実施例はパノラマビデオ内の関心領域の位置が最初から最後まで変化しない場合に、メディアファイル内でのＲＯＩ空間位置情報の記述方法を提供する。図５は本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。

本実施例のシーンでは、ＲＯＩ空間位置はメディアビデオデータの一種の固有属性と考えることができ、このようなシーンに対して、ＲＯＩの位置情報はｓｔｂｌｂｏｘにおけるＳａｍｐｌｅＥｎｔｒｙを用いて記述する。図５に示すように、ｓｔｂｌはｃｏｎｔａｉｎｅｒｂｏｘであり、そのサブｂｏｘには、メディアデータのデコーディングに必要な初期化パラメータなどの関連デコーダ情報を記述するためのサンプル記述ボックス（ｓａｍｐｌｅｄｅｓｃｒｉｐｔｉｏｎｂｏｘ、ｓｔｓｄ）が含まれており、ｔｒａｋ、ｍｄｉａ、ｍｉｎｆ、ｓｔｂｌとｓｔｓｄの関係はｔｒａｋ－＞ｍｄｉａ－＞ｍｉｎｆ－＞ｓｔｂｌ－＞ｓｔｓｄとして表記できる。ｓｔｓｄには複数のサンプルエントリ（ＳａｍｐｌｅＥｎｔｒｙ）を含むことができ、一つのメディアデータトラックに複数の記述情報を持たせることができ、ビデオデータのサンプルエントリタイプはビジュアルサンプルエントリ（ＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙ）として固定されている。一方、パノラマメディアデータについては、ビデオデータの空間位置情報、投影方式、つなぎ合わせ方式などの記述情報は通常のデコーダでは解析できないため、上記記述情報はスキーム情報ボックス（ｓｃｈｅｍｅｉｎｆｏｒｍａｔｉｏｎｂｏｘ）内で記述される。

本実施例において、通常のビデオデータに対して、関心領域の情報はＶｉｓｕａｌＳａｍｐｌｅＥｎｔｒｙに記述し、パノラマビデオについては、ｓｃｈｅｍｅｉｎｆｏｒｍａｔｉｏｎｂｏｘに記述し、関心領域記述ボックス（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔＤｅｓｃｒｉｐｔｉｏｎＢｏｘ（ｒｏｉｄ））を追加し、前記ｒｏｉｄの目的は、当該ビデオデータトラック内の関心領域の空間位置及びその変化状況を記述することであり、以下のように定義される。

構文は次のとおりである。

構文は以下のように定義される。
ｒｏｉ＿ｃｏｕｎｔは関心領域の数を示す。ＲＯＩＲｅｇｉｏｎＳｔｒｕｃｔ（）は空間位置、関心領域識別子、関連情報などの、関心領域の関連情報を示す。

ｔｒａｃｋ＿ｃｏｕｎｔは関心領域に関連付けられたメディアトラックの数を示す。ｔｒａｃｋ＿ｉｄは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた１つまたは複数のメディアリソースを確定することができる。

ＲＯＩＲｅｇｉｏｎＳｔｒｕｃｔ（）の構文は以下のように定義される。
ｒｏｉ＿ｓｈａｐｅ＿ｔｙｐｅは関心領域の空間領域の形状タイプを示す。ｒｏｉ＿ｉｄは関心領域の識別子を示し、現在のトラックでは一意である。ｒｏｉ＿ｔｙｐｅは関心領域のタイプを示す。

関心領域のソース、タイプを表１に示す。

ｒｏｉ＿ｄｅｓｃｒｉｐｔｉｏｎは空文字で終わるＵＴＦ－８（８－ｂｉｔＵｎｉｃｏｄｅＴｒａｎｓｆｏｒｍａｔｉｏｎＦｏｒｍａｔ）文字列で、関心領域の記述を提供する。ＳｐｈｅｒｅＲｅｇｉｏｎＳｔｒｕｃｔ（）は、関心領域の空間領域を示し、グローバル座標軸に対して、関心領域の形状タイプ値（ｓｈａｐｅ＿ｔｙｐｅ）はｒｏｉ＿ｓｈａｐｅ＿ｔｙｐｅで示され、ＳｐｈｅｒｅＲｅｇｉｏｎＳｔｒｕｃｔ（１）での補間値（ｉｎｔｅｒｐｏｌａｔｅ）は０と等しくなければならない。

本実施例は、パノラマビデオ内の関心領域の位置がビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない場合に、メディアファイル内でのＲＯＩ空間位置情報の記述方法を説明する。図６は本願の実施例に係るパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。

本実施例のシーンでは、関心領域の位置情報は、ビデオトラック内の一部サンプルに共通の属性として捉えることができるので、ＩＳＯＢＭＦＦにおけるサンプルグループ（ＳａｍｐｌｅＧｒｏｕｐ）構造を用いて関心領域の空間情報を記述する。図６に示すように、サンプルグループはメディアトラック内で一部サンプルの属性を表すメカニズムであり、サンプルグループは二つの構造、すなわちサンプルグループボックス（ＳａｍｐｌｅＴｏＧｒｏｕｐｂｏｘ、ｓｂｇｐ）とグループ記述ボックス（ＳａｍｐｌｅＧｒｏｕｐＤｅｓｃｒｉｐｔｉｏｎｂｏｘ、ｓｇｐｄ）から構成される。関心領域がいくつかの時間帯では変化しない場合、すなわちビデオトラック内の一部サンプルに対応する関心領域が同じである場合、そのときのＲＯＩ空間位置はサンプルグループを用いて記述することができる。

ｇｒｏｕｐｉｎｇ＿ｔｙｐｅは、サンプルグループのタイプ、つまりサンプルグループを形成するための条件を指示し、そしてそれを、グループ記述内に同じタイプ値を持つグループにリンクするためのものである。１つのメディアトラックについて、同じｇｒｏｕｐｉｎｇ＿ｔｙｐｅが最大で１回現われる。本実施例において、関心領域の空間情報グループタイプを「ｒｉｇｐ」と定義し、ビデオトラック内のサンプルを関心領域別に複数のグループに分け、ｓｇｐｄｂｏｘに対応させる。

各ｓｇｐｄｂｏｘは１つのｓｂｇｐｂｏｘに対応しており、関心領域の空間位置情報はｓｇｐｄｂｏｘ内で記述され、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅの定義は「ｒｏｉｇ」で上記と同じである。ｓｇｐｄｂｏｘ内のサンプルグループエントリは、関心領域に対して、対応する拡張、すなわち関心領域グループエントリ（ＲＯＩＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ）を追加している。

構文は以下のように定義される。

ｔｒａｃｋ＿ｃｏｕｎｔは関心領域に関連付けられたメディアトラックの数を示す。ｔｒａｃｋ＿ｉｄは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた１つまたは複数のメディアリソースを確定することができる。ＲＯＩＲｅｇｉｏｎＳｔｒｕｃｔ（）の構文定義は前述の通りであり、本実施例では説明を省略する。

応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、全てのサンプルが１つの空間領域にしか対応していない場合の、この関連関係の記述方法について説明し、ここでの空間領域は、ビデオトラック内の関心領域によって定義される。

関心領域に関連付けることができるメディアの種類には、音声、テキスト、一部のビデオ領域など様々なものがあり、その表現効果もクライアントの操作に関連している。本実施例では、時限テキストを例に、その中の一つの関連方法について説明する。時限テキストとは、ＶＲ字幕のことであり、本実施例において、時限テキストのレンダリング位置は、時限テキストトラックに定義された２次元領域情報だけでなく、ビデオ内の関心領域にも関係する。このシーンに対し、ＶＲ字幕の再生、レンダリング過程は以下の通りである。

１）仮想現実シーンの立体を構成するために、ビデオソースカメラの位置を中心点として、球形の空間領域を構築する。

２）時刻ｔにおいて、パノラマプレーヤは、時限テキストの深度情報や両眼視差、関心領域の関連関係、２次元領域情報を読み取る。

３）パノラマプレーヤは、関心領域の関連関係に基づいて、対応するビデオトラックから関心領域の空間位置情報を読み取る。

４）字幕の表示方法が常に表示画面に表示される場合は、ステップ１～ステップ３のパラメータと両眼視差値に基づいて、時限テキストの左右の目の表示画面での表示位置をそれぞれ計算し、左右の目の表示画面で時限テキストをそれぞれレンダリングする。

５）字幕の表示方法が関心領域に固定して表示される場合は、ステップ１～ステップ３のパラメータと深度値に基づいて３次元平面を構築し、かつ、３次元平面上で時限テキストをレンダリングする。

本実施例において、パノラマメディアにおける時限テキスト空間パラメータ、関心領域の関連関係は、全方向時限テキスト配置ボックス（ＯｍａｆＴｉｍｅｄＴｅｘｔＣｏｎｆｉｇｂｏｘ，ｏｔｃｆ）によって記述され、本実施例では、それぞれ２つの構文構造に対応する２つの選択可能な実施形態を提供する。

１つ目の選択可能な実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。

ｒｅｌａｔｉｖｅ＿ｔｏ＿ｒｏｉ＿ｆｌａｇは時限テキストのレンダリング方法を表し、１は時限テキストが常にディスプレイに表示されることを表し、０は時限テキストが空間的な関心領域に表示され、ユーザが関心領域の方向に見ているときにのみ見られることを表す。

ｒｅｌａｔｉｖｅ＿ｄｉｓｐａｒｉｔｙ＿ｆｌａｇは視差の単位を表し、０はピクセル、１はパーセンテージである。ｒｏｉ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇは関心領域がｏｔｃｆｂｏｘ内で提供されるか否かを表し、０は提供されないことを表し、１は提供されることを表す。ｄｉｓｐａｒｉｔｙ＿ｉｎ＿ｐｅｒｃｅｎｔ／ｐｉｘｅｌｓは視差の大きさを表し、負の値とすることができる。ｒｏｉ＿ｉｄは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。

ｔｒａｃｋ＿ｉｄはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス（ＴｒａｃｋＲｅｆｅｒｅｎｃｅＢｏｘ，ｔｒｅｆ）を通して関連付けられている場合、この識別子は提供されなくてもよい。

２つ目の実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。

ｒｅｌａｔｉｖｅ＿ｔｏ＿ｖｉｅｗｐｏｒｔ＿ｆｌａｇは、時限テキストのレンダリング方法を表す。値が１の場合、時限テキストが常にディスプレイに表示されるべきであることを表す。値が０の場合、時限テキストが球体上の固定された空間位置にレンダリングされることを表す。つまり、ユーザがテキスト提示をレンダリングする方向に見ているときにのみ、当該テキスト提示が見られる。値が２の場合、時限テキストが球体の関心領域内でレンダリングされることを表し、ユーザが関心領域の方向に見ているときに、テキスト提示が見られる。

ｒｏｉ＿ｉｄは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。

応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、異なるサンプルが異なる空間領域に対応している場合の、この関連関係の記述方法について説明する。

本実施例において、同様に時限テキストを例に、サンプルグループ構造を利用して記述する。本実施例において、２つの選択可能な実施形態を提供し、即ち、時限テキストサンプルに対応する空間領域は、ビデオトラック内の関心領域によって定義することも、２つの構文構造にそれぞれ対応する一つの空間領域を指定することもできる。

本実施例において、ＶＲ字幕の再生、レンダリング過程は上記実施例と基本的に一致するが、関連関係は時限テキストサンプルグループによって取得される。

１つ目の実施形態では、本実施形態において、関心領域の空間情報グループタイプを「ｒｃｇｐ」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた関心領域によって、複数のグループに分ける。一方、各ｓｇｐｄｂｏｘは１つのｓｂｇｐｂｏｘに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはｓｇｐｄｂｏｘ内で記述され、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅの定義は「ｒｃｇｐ」で上記と同じである。ｓｇｐｄｂｏｘ内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ（ＲＯＩＣｏｒｒｅｌａｔｉｏｎＳａｍｐｌｅＧｒｏｕｐＥｎｔｒｙ）を追加する。

構文は以下のように定義される。

２つ目の実施形態では、本実施例において、関心領域の空間情報グループタイプを「ｏｔｇｐ」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた空間領域によって、複数のグループに分ける。一方、各ｓｇｐｄｂｏｘは１つのｓｂｇｐｂｏｘに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはｓｇｐｄｂｏｘ内で記述され、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅの定義は「ｏｔｇｐ」で上記と同じである。ｓｇｐｄｂｏｘ内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ（ＯｍａｆＴｉｍｅｄＴｅｘｔＣｏｎｆｉｇＥｎｔｒｙ）を追加する。

構文は以下のように定義される。

ｒｅｌａｔｉｖｅ＿ｄｉｓｐａｒｉｔｙ＿ｆｌａｇは視差の単位を表し、０はピクセル、１はパーセンテージである。ｄｉｓｐａｒｉｔｙ＿ｉｎ＿ｐｅｒｃｅｎｔ／ｐｉｘｅｌｓは視差の大きさを表し、負の値とすることができる。ＳｐｈｅｒｅＲｅｇｉｏｎＳｔｒｕｃｔ（）は球体の位置を表し、この位置は他の情報とともに３次元空間における時限テキストの配置と表示位置を確定するために使用される。

本実施例では、時限テキストを例に、図７は本願の実施例が提供する字幕データ調整フローの模式図である。図７に示すように、パノラマビデオに、１つのタイプの関心領域がある場合の、時限テキストのレンダリング過程について説明する。

ステップ１において、プレーヤは、テキスト、画像などのメディアデータと、色、透明度、サイズ、空間位置などの情報を含む１つの時刻（ｔ）の時限テキストデータを取得する。

ステップ２において、ｏｔｃｆｂｏｘ内の時限テキスト配置情報を読み取る。本実施例において、ｒｅｌａｔｉｖｅ＿ｔｏ＿ｖｉｅｗｐｏｒｔ＿ｆｌａｇは２、ｒｏｉ＿ｉｎｃｌｕｄｅｄ＿ｆｌａｇは１で、時限テキストは関心領域とともに変化し、関心領域は１タイプしかなく、関心領域のタイプｒｏｉ＿ｉｄを読み取る。

ステップ３において、ｏｔｃｆｂｏｘ内のｒｏｉ＿ｉｄに基づいて、ビデオトラック内の同じｒｏｉ＿ｉｄで表される空間位置情報（Ｐｏｓｒｏｉ）を取得する。

ステップ４において、現在のビューポートの中心点（ＰｏｓＶｉｅｗｐｏｒｔ）と関心領域の中心点（Ｐｏｓｒｏｉ）の空間上の最短経路を取得する。

ステップ５において、時限テキスト表示領域の座標を計算し、時限テキスト表示領域の中心点がステップ４の最短経路上にあり、かつ表示領域が現在のビューポート範囲を超えないようにする必要がある。

ステップ６において、左右のビューポートの視差に応じて、左右のビューポート内での時限テキストの領域座標を対応するように調整する。

ステップ７において、それぞれ左右のビューポート内で時限テキストをレンダリングする。

本実施例は、パノラマメディアファイル内でのメディアデータと関心領域とを関連付ける応用の一つに過ぎず、メディアオブジェクトとパノラマビデオ画面内の領域とを関連付ける必要があるいかなるシーンにおいても、本願の案を適用することができる。

図８は本願の実施例が提供するメディアリソース再生装置の構造模式図である。本実施例が提供するメディアリソース再生装置は主に、ＶＲシーンの関心領域内で１つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生装置はハードウェアおよび／またはソフトウェアの方法によって実現可能である。

図１に示すように、本願の実施例が提供するメディアリソース再生装置は主に領域とリソース確定モジュール８１と、メディアリソース再生モジュール８２とを含む。

領域とリソース確定モジュール８１は、第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するように構成され、メディアリソース再生モジュール８２は、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するように構成されている。

一つの例示的な実施形態において、領域とリソース確定モジュール８１は、すべてのビデオサンプルに適した関心領域について、第１ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースを確定するように構成されている。

領域とリソース確定モジュール８１は、前記第１ボックスタイプに基づいて、ビデオトラックサンプル入口内の関心領域記述ボックスを識別するように構成され、前記ビデオトラックサンプルは、ビデオトラックビジュアルサンプル、全方向ビデオトラック制限サンプルのうちの１つまたは複数を含み、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定する。

一つの例示的な実施形態において、領域とリソース確定モジュール８１は、ビデオサンプルグループに適した関心領域について、第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースを確定するように構成されている。

領域とリソース確定モジュール８１は、前記第１グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別し、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するように構成されている。

一つの例示的な実施形態において、メディアリソース再生モジュール８２は、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生し、または、前記関心領域において、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するように構成されている。

一つの例示的な実施形態において、前記メディアリソースは：音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。

図９は本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。本実施例が提供する時限テキストレンダリング装置は主に、ＶＲシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング装置はハードウェア及び／またはソフトウェアの方法によって実現可能である。

図９に示すように、本願の実施例が提供する時限テキストレンダリング装置は主に領域と深度情報確定モジュール９１と、時限テキストレンダリングモジュール９２とを含む。

領域と深度情報確定モジュール９１は、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成され、時限テキストレンダリングモジュール９２は、前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングするように構成されている。

一つの例示的な実施形態において、領域と深度情報確定モジュール９１は、すべての時限テキストサンプルに適した関心領域に対して、第２ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別し、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。

一つの例示的な実施例において、領域と深度情報確定モジュール９１は、時限テキストサンプルグループに適した関心領域に対して、前記第２グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別し、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。

一つの例示的な実施例において、時限テキストレンダリングモジュール９２は、単位球に対する３次元平面を構築し、前記全方向ビデオの関心領域に基づいて前記３次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記３次元平面と前記単位球の球心との距離を確定し、前記３次元平面に前記時限テキストの１つまたは複数のテキスト領域をレンダリングするように構成されている。

一つの例示的な実施例において、前記関心領域の空間領域は：球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの１つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。

上記実施例に基づいて、本願の実施例はさらに電子機器を提供する。図１０は本願の実施例が提供する電子機器の構造模式図である。図１０に示すように、この電子機器はプロセッサ１００と、メモリ１０１と、入力装置１０２と出力装置１０３とを含む。電子機器内のプロセッサ１００の数は１つまたは複数であってもよく、図１０では１つのプロセッサ１００を例に挙げている。電子機器内のプロセッサ１００、メモリ１０１、入力装置１０２および出力装置１０３はバスまたはその他の方法で接続されてもよく、図１０ではバスで接続されている例を示している。

メモリ１０１は、コンピュータ読み取り可能な記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラムおよびモジュール、例えば本願の実施例におけるメディアリソース再生方法に対応するプログラム命令／モジュール（例えば、メディアリソース再生装置内の領域とリソース確定モジュール８１、メディアリソース再生モジュール８２）、または例えば本願の実施例における時限テキストレンダリング方法に対応するプログラム命令／モジュール（例えば、時限テキストレンダリング装置内の領域と深度情報確定モジュール９１、時限テキストレンダリングモジュール９２）の記憶に利用できる。

プロセッサ１００は、メモリ１０１に記憶されたソフトウェアプログラム、命令及びモジュールを実行することにより、電子機器の様々な機能アプリケーション及びデータ処理を実行し、すなわち、本願の実施例において提供される何れか一つの方法を実現する。

メモリ１０１は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、端末の使用によって作成されたデータなどを記憶することができる。さらに、メモリ１０１は、高速ランダムアクセスメモリを含むことができ、または不揮発性のメモリ、例えば少なくとも１つの磁気ディスクメモリ装置、フラッシュメモリ装置、または他の不揮発性のソリッドステートメモリ装置を含むことができる。いくつかの実例において、メモリ１０１はさらに、プロセッサ１００に対して遠隔地に配置されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの実例は、インターネット、社内イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。

入力装置１０２は、入力された数字や文字情報を受け取ったり、電子機器のユーザ設定や機能制御に関するキー信号入力を生成したりするために使用できる。出力装置１０３は、ディスプレイなどの表示装置を含むことができる。

上記実施例に基づいて、本願の実施例はさらにコンピュータ実行可能な命令を含む記憶媒体を提供し、前記コンピュータ実行可能な命令は、コンピュータプロセッサによって実行されたとき、本願の実施例において提供される何れか一つの方法を実行するように構成されている。

例えば、本願の実施例において提供されるメディアリソース再生方法を実行する場合、この方法は、
第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた１つまたは複数のメディアリソースとを確定するステップと、前記関心領域に関連付けられた１つまたは複数のメディアリソースを再生するステップと、を含む。

例えば、本願の実施例において提供される時限テキストレンダリング方法を実行する場合、この方法は、時限テキストの１つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの１つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、前記全方向ビデオの関心領域に対して前記時限テキストの１つまたは複数のテキスト領域をレンダリングするステップと、を含む。

本願の実施例が提供するコンピュータ実行可能な命令を含む記憶媒体によれば、そのコンピュータ実行可能な命令は、上述のような方法の操作に限定されるものではなく、本願の任意の実施例が提供する何れか一つの方法における関連操作を実行することもできる。

以上の実施形態についての説明から、本願はソフトウェアおよび汎用ハードウェアによって実現できるが、ハードウェアによっても実現できることは、当業者であれば理解できるであろう。このような理解に基づいて、本願の技術案は、ソフトウェア製品の形で具現化することができ、このソフトウェア製品は、例えばコンピュータのフロッピー（登録商標）ディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、フラッシュメモリ（ＦＬＡＳＨ）、ハードディスクまたは光ディスクなどの、１台のコンピュータ機器（パーソナルコンピュータ、サーバまたはネットワーク機器などでもよく）に本願の各実施例に記載の方法を実行させるように構成された幾つかの命令を含む、コンピュータ読み取り可能な記憶媒体に格納できる。

上記メディアリソース再生装置および時限テキストレンダリング装置の実施例において、含まれる各ユニットとモジュールは、機能ロジックに基づいて分類されているだけであり、対応する機能を実現できれば、上記の分類に限定されるものではない。また、各機能ユニットの名称も、相互の区別を容易にするためのものであり、本願の保護範囲を制限するものではない。

上記は本願の例示的な実施例にすぎず、本願の保護範囲を限定するためのものではない。

当業者であれば、ユーザ端末という用語は、例えば携帯電話、携帯データ処理装置、携帯ウェブブラウザ、または車載用移動局など、あらゆる適切なタイプの無線ユーザ機器をカバーすることは理解されるだろう。

一般的に、本願の様々な実施例は、ハードウェアまたは専用回路、ソフトウェア、論理またはそれらの任意の組合せ内で実現できる。例えば、本願はそれに限定されないが、いくつかの態様はハードウェア内で実現でき、一方、他の態様はコントローラ、マイクロプロセッサまたはその他のコンピューティング装置によって実行可能なファームウェアまたはソフトウェア内で実現できる。

本願の実施例は、例えば、プロセッサの実体内で、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって、モバイル装置のデータプロセッサがコンピュータプログラム命令を実行することによって実現されることができる。コンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ，ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または１つまたは複数のプログラミング言語の任意の組み合わせで作成されたソースコードまたはターゲットコードであってもよい。

本願の添付図面における任意の論理フローのブロック図は、プログラムのステップを表してもよく、または相互に接続された論理回路、モジュール、および機能を表してもよく、あるいは、プログラムのステップと論理回路、モジュール、および機能との組み合わせを表してもよい。コンピュータプログラムはメモリに格納できる。メモリは、ローカル技術環境に適した任意のタイプを有することができ、かつ、任意の適切なデータ記憶技術で実現でき、例えば、読み取り専用メモリ、ランダムアクセスメモリ、光学メモリ装置及びシステム（ＤＶＤ（デジタルバーサタイルディスク（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ，ＤＶＤ）、または光学ディスク（ｃｏｍｐａｃｔｄｉｓｃ，ＣＤ））などを含むが、それらに限定されない。コンピュータ読み取り可能な媒体は、不揮発性の記憶媒体を含むことができる。データプロセッサは、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＤＳＰ）、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、プログラマブルロジックデバイス（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）、及びマルチコアプロセッサアーキテクチャに基づくプロセッサなど、ローカル技術環境に適した任意のタイプであってもよいが、これらに限定されない。

Claims

第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップと、
前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生するステップと、
を含むメディアリソース再生方法。
第１ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップは、
前記第１ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、
前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップと、
を含む請求項１に記載の方法。
第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップは、
前記第１グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、
前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するステップと、
を含む請求項１に記載の方法。
前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生する前記ステップは、
現在のビューポートにおいて、前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生するステップ、または、
前記関心領域において、前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生するステップ、
を含む請求項１に記載の方法。
前記関心領域は、
関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
のうちの少なくとも１つの情報によって記述される請求項１～４の何れか一項に記載の方法。
前記関心領域のタイプは、
クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
のうちの少なくとも１つの情報を含む請求項５に記載の方法。
前記関心領域の空間領域は、
球面領域の中心点と、
球面領域の方位角範囲と俯仰角範囲と、
のうちの少なくとも１つの情報を含み、
ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項５に記載の方法。
前記メディアリソースは、
音声、ビデオ、画像、時限テキスト
のうちの少なくとも一つを含む請求項１～４の何れか一項に記載の方法。
時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも１つのテキスト領域をレンダリングする深度情報とを確定するステップと、
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも１つのテキスト領域をレンダリングするステップと、
を含む時限テキストレンダリング方法。
時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、
前記時限テキスト配置ボックス内の要素に基づいて、前記時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
を含む請求項９に記載の方法。
時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、
前記時限テキスト配置サンプルグループ入口内の要素に基づいて、前記時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
を含む請求項９に記載の方法。
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも１つのテキスト領域をレンダリングするステップは、
単位球に対する３次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記３次元平面に対応する球面領域位置を確定し、前記深度情報に基づいて前記３次元平面と前記単位球の球心との距離を確定するステップと、
前記３次元平面に前記時限テキストの少なくとも１つのテキスト領域をレンダリングするステップと、
を含む請求項９に記載の方法。
前記全方向ビデオの関心領域は、
関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
のうちの少なくとも１つの情報によって記述される請求項９～１２の何れか一項に記載の方法。
前記関心領域のタイプは、
クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
のうちの少なくとも１つの情報を含む請求項１３に記載の方法。
前記関心領域の空間領域は、
球面領域の中心点と、
球面領域の方位角範囲と俯仰角範囲と、
のうちの少なくとも１つの情報を含み、
ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項１３に記載の方法。
第１ボックスタイプまたは第１グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも１つのメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
前記関心領域に関連付けられた少なくとも１つのメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
を含むメディアリソース再生装置。
時限テキストの少なくとも１つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも１つのテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも１つのテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
を含む時限テキストレンダリング装置。
少なくとも１つのプロセッサと、
少なくとも一つのプログラムを記憶するように構成されたメモリと、
を含む機器であって、
前記少なくとも１つのプログラムが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～１５の何れか一項に記載の方法を実行させる機器。
コンピュータプログラムを記憶した記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されたときに、請求項１～１５の何れか一項に記載の方法を実現する記憶媒体。