JP2022551430A

JP2022551430A - 融合に適したファイルフォーマット

Info

Publication number: JP2022551430A
Application number: JP2022519251A
Authority: JP
Inventors: ヤゴサンチェス; ディミトリポドボルスキー; カーステングルーネバーグ; コーネリウスヘルゲ; トーマスシール; ロバートスクピン; トーマスウィーガンド
Original assignee: フラウンホファーゲゼルシャフトツールフェルドルンクデルアンゲヴァントテンフォルシュンクエーファウ
Priority date: 2019-09-27
Filing date: 2020-09-28
Publication date: 2022-12-09
Also published as: EP4035386A1; US20220345746A1; WO2021058814A1; BR112022005244A2; KR20220071228A

Abstract

本発明は、シーンの空間的に変動する部分を導出するためのビデオデータ、ならびにシーンの空間的に変動する部分を導出するためのビデオデータを作成してビデオデータからシーンの空間的に変動する部分を導出するための対応する方法および装置に関する。ビデオデータは、シーンを示すビデオの空間部分を表す符号化ビデオデータを含むソーストラックの組を含み、特定のファイルフォーマットでフォーマットされ、圧縮領域処理を通じた異なる空間部分の統合ビットストリームへの融合をサポートする。【選択図】図３

Description

本出願は、圧縮領域処理を用いた符号化ビデオの空間サブセットの抽出または融合を可能にするファイルフォーマットに関する。具体的には、本出願は、シーンの空間的に変動する部分を導出するためのビデオデータ、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法および装置、ならびに特定のファイルフォーマットでフォーマットされたビデオデータからシーンの空間的に変動する部分を導出する方法および装置に関する。本出願は、対応するコンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体にも関する。

１．序文
通常、ＡＶＣ（高度ビデオ符号化（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ））、ＨＥＶＣ（高効率ビデオ符号化（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ））、または現在開発中のＶＶＣ（多用途ビデオ符号化（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ））で符号化されたデータビデオなどの符号化ビデオデータは、たとえばＩＳＯ／ＩＥＣ１４４９６－１２（オーディオビジュアルオブジェクトの符号化－第１２部：ＩＳＯベースメディアファイルフォーマット）、ＩＳＯ／ＩＥＣ１４４９６－１５（オーディオビジュアルオブジェクトの符号化－第１２部：ＩＳＯベースメディアファイルフォーマットでのネットワーク抽象化層（ＮＡＬ）ユニット構造化ビデオの搬送）、ＩＳＯ／ＩＥＣ２３００８－１２（異種環境における高効率符号化およびメディア配信－第１２部：画像ファイルフォーマット）などに規定されているＩＳＯベースメディアファイルフォーマットおよびその様々な拡張などの特定のコンテナフォーマットで記憶または送信される。このようなコンテナフォーマットは、たとえばエンドデバイス上で単一のデコーダを使用する目的で圧縮領域処理に依拠して符号化ビデオの空間サブセットの抽出または結合を行う用途を対象とした特別な規定を含む。このような用途例の非包括的リストは以下の通りである。
・ビデオの変化する空間的サブセットを送信する関心領域（ＲｏＩ）ストリーミング、
・複数の参加者からの符号化ビデオストリームを単一のデコーダで共に復号するマルチパーティ会議、または、
・たとえばＶＲ用途における３６０度ビデオ再生のためのタイルベースストリーミング。

１．１３６０度ビデオのタイル化ストリーミング
後者では、図１に示すようにシーンの３６０度ビデオが空間的にセグメント化され、各空間セグメントが異なる空間解像度の複数の表現でストリーミングクライアントに提供される。図には、２つの解像度（高解像度および低解像度）で６×４空間セグメントに分割された（左側、前側、右側、後側、下側および上側を含む）キューブマップ投影された３６０度ビデオを示す。単純化のため、本明細書では、これらの独立して復号可能な空間セグメントをタイルと呼ぶ。選択されたビデオ符号化技術に応じて、タイル、ブリックおよびスライスなどの構造を使用して異なる空間セグメントの独立した符号化を達成することができる。たとえば、現在開発中のＶＶＣ（多用途ビデオ符号化）で各タイルを符号化する場合には、たとえば同じまたは異なるピクチャの異なるタイル／ブリック間でイントラ予測またはインター予測が行われないように好適なタイル／ブリック／スライス構造を使用してピクチャを分割することによってこれを達成することができる。たとえば、単一のタイルを別個のスライスとして使用して、各独立して復号可能な空間セグメントを符号化することができ、あるいはブリックの概念をさらに使用してより柔軟なタイル化を行うこともできる。

図２の上部に示すように、通常、ユーザは、最新のヘッドマウントディスプレイ（ＨＭＤ）を使用する場合、９０×９０度の視野（ＦｏＶ）を表す実線のビューポート境界を通じて、３６０度ビデオ全体を構成するタイルのサブセットのみを見る。図２の上部に網掛け部分として示す対応するタイル（この例では、右側の４つのタイル、下側の２つのタイル、前側の１つのタイルおよび後側の１つの側）は（図の左下にも網掛けで示す）最高解像度でダウンロードされる。

しかしながら、クライアントアプリケーションは、ユーザの突然の方位変化に対応するために、図２の右下に異なる網掛けで示す現在のビューポートの外側の（図２の上部では網掛けされていない）他のタイルの表現をダウンロードして復号する必要もある。従って、このようなアプリケーションのクライアントは、現在のビューポートをカバーしているタイルを最高解像度でダウンロードし、現在のビューポートの外側のタイルを比較的低い解像度でダウンロードする一方で、タイル解像度の選択は常にユーザの向きに適合される。クライアント側でのダウンロード後に、ダウンロードされたタイルを単一のデコーダで処理されるように単一のビットストリームに融合することは、計算リソースおよび電力リソースが限られた典型的なモバイル装置の制約に対処する手段である。図３に、上記の例の統合ビットストリーム（ｊｏｉｎｔｂｉｔｓｔｒｅａｍ）での考えられるタイル配列を示す。統合ビットストリームを生成するための融合動作は、別個のタイルを立方体上に同期的にレンダリングする前にこれらを互いに独立してトランスコードまたは復号することなどの画素領域での複雑な処理を避けるために、圧縮領域処理を通じてビットストリームレベルで実行する必要がある。

符号化ビデオビットストリームにおけるいわゆる補助強化情報（ｓｕｐｐｌｅｍｅｎｔａｌｅｎｈａｎｃｅｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ：ＳＥＩ）メッセージの形態でのメタデータ記述は、３Ｄ空間における立方体（または使用される投影によっては球）の再構成を可能にするために、符号化画像のサンプルが元々の投影（この例ではキューブマップ）内の位置とどのように関連するかを記述する。このリージョンワイズパッキング（ｒｅｇｉｏｎ－ｗｉｓｅ－ｐａｃｋｉｎｇ：ＲＷＰ）と呼ばれるメタデータ記述は、ヘッドマウントディスプレイ（ＨＭＤ）などのメディア消費装置のビューポートをレンダリングする復号後レンダラー（ｐｏｓｔ－ｄｅｃｏｄｉｎｇｒｅｎｄｅｒｅｒ）にとって不可欠なものである。ＲＷＰＳＥＩメッセージは、矩形領域およびその投影ビデオとパック化ビデオとの間の変位／変換を定めることによって、（たとえば、図１の左側に示す、復号後のさらなる処理に概念的に必要とされる）投影ビデオ、および（図３、または統合ビットストリームを復号することによって得られる図４の右側に示すような）１つの特定の組み合わせのパック化された符号化ビデオからのマッピングを示す。

図１～図３の例には、全ての解像度版のコンテンツが同様にタイル化され、全てのタイル（高解像度および低解像度）が３６０度空間全体をカバーし、同じ領域を繰り返しカバーするタイルが存在しない場合を示しているが、図４に示すように別のタイル化を使用することもできる。低解像度版のビデオ全体を、３６０度ビデオのサブセットをカバーする高解像度タイルと融合することができる。低解像度フォールバックビデオ（ｆａｌｌｂａｃｋｖｉｄｅｏ）全体を１つのタイルとして符号化できる一方で、高解像度タイルは、レンダリングプロセスの最終段階においてビデオの低解像度部分のオーバーレイとしてレンダリングされる。

１．２ＨＥＶＣを使用したタイル化ストリーミングおよびファイルフォーマットの問題点
ＨＥＶＣなどのコーデックでは、ビデオビットストリームから見た融合動作の必要性が、ピクチャのタイル構造、および個々のタイル（すなわち、スライス）のＣＴＵ（符号化ツリーユニット）アドレスシグナリングに関連する。サーバ側では、これらのタイルが個々の独立したＨＥＶＣビットストリームとして存在し（従ってダウンロードされ）、たとえばこれらの各ビットストリームの各々にピクチャ当たりの単一のタイルおよびスライスが含まれる（たとえば、全てのスライスヘッダにおいて１に等しいｆｉｒｓｔ＿ｓｌｉｃｅ＿ｉｎ＿ｐｉｃ＿ｆｌａｇ、単一のタイルのみを有するビットストリームを記述するパラメータセット）。この融合動作では、タイル構造および統合ピクチャ平面内の位置を反映するように正しいパラメータセットおよびスライスヘッダを挿入することによって、これらの個々のビットストリームを１つのビットストリームに統合する必要がある。融合の詳細（パラメータセットおよびスライスヘッダの導出および置換）をクライアントの実装に任せるだけでなく、ＭＰＥＧＯＭＡＦ（没入型メディアの符号化表現－第２部：全方向メディアフォーマット；ＩＳＯ／ＩＥＣ２３０９０－２）には、クライアントが以下を通じてビットストリームを融合できるようにする最新の方式が規定されている。
・パッケージング段階で正しいパラメータセットおよびスライスヘッダを生成すること、および、
・エクストラクタと呼ばれるファイルフォーマットツールを使用してスライスペイロードをコピーすること。

これらのエクストラクタは、実際にはファイルフォーマットの拡張、すなわちＩＳＯ／ＩＥＣ１４４９６－１５に定められる、異なるトラックにパッケージ化された（たとえば、１つのタイルのデータを含む）別のＮＡＬユニットへのポインタを含む特別なＮＡＬ（ネットワーク抽象化層）ユニットタイプのＮＡＬユニットである。エクストラクタ自体は、パラメータセットおよび（たとえば、新たなタイル位置、パラメータセット基本値に対する調整された量子化ステップサイズ値などを反映する）修正されたスライスヘッダデータのみを搬送する特別なエクストラクタファイルフォーマットトラック（「ｈｖｃ２」トラック）に記憶される一方で、エクストラクタが別のトラック内のＮＡＬユニット（の一部）を指し示すことによってスライスペイロード（すなわち、復号時のピクチャの実際のサンプル値を構成するエントロピー符号化データ）が参照され、このようなファイルフォーマットトラックが読み込まれた時にコピーされる。

３６０度ビデオタイルベースのストリーミングシステムでは、このエクストラクタツールが、通常は各タイルがパッケージ化され、適合するＨＥＶＣデコーダによって復号されてフルピクチャのそれぞれの空間サブセットをもたらすことができる別個のファイルフォーマットトラック内の独立したＨＥＶＣストリームとして提供される設計をもたらす。さらに、ファイルフォーマットツールを介して融合プロセスを実行し、読み込み時に全ての必要なタイルを含む単一の適合するＨＥＶＣビットストリームをもたらす、それぞれが特定の視野方向（すなわち、サンプルバジェットなどの復号リソースをビューポート内のタイルに集中させる特定の解像度のタイルの組み合わせ）をターゲットとするこのようなエクストラクタトラックセットが提供される。クライアントは、現在のビューポートに最も適したエクストラクタトラックを選択し、参照されるタイルを含むトラックをダウンロードすることができる。

各エクストラクタトラックは、ＨＥＶＣＳａｍｐｌｅＥｎｔｒｙに含まれるＨＥＶＣＣｏｎｆｉｇｕｒａｔｉｏｎＢｏｘにパラメータセットを記憶する。これらのパラメータセットは、ファイルフォーマットパッケージ化プロセスにおいて生成され、サンプルエントリのみで利用可能であり、すなわちクライアントがエクストラクタトラックを選択するとパラメータセットが（初期化セグメントを使用して）帯域外で配信され、従って同じエクストラクタトラックを再生している間にパラメータセットが時間と共に変化することはあり得ない。エクストラクタトラックの初期化セグメントは、必要なサンプルエントリに加えて、トラック参照コンテナ（‘ｔｒｅｆ’）内の依存型ｔｒａｃｋＩＤの固定リストも含む。（エクストラクタトラックのメディアセグメントに含まれる）エクストラクタは、エクストラクタによってどのｔｒａｃｋＩＤが参照されるかを決定するためにこの‘ｔｒｅｆ’を参照するインデックス値を含む。

しかしながら、この設計には数多くの欠点がある。
・含まれるタイル（すなわちトラック）を明確に参照する別個のエクストラクタトラックを通じて各視野方向（またはタイルの組み合わせ）が表される必要があり、これによってかなりのオーバーヘッドが発生する。クライアントは、そのニーズ（クライアントのＦｏＶおよび遅延考慮など）により良く適合するタイル解像度をもっとうまく選択できる（すなわち、独自の組み合わせを作成できる）可能性がある。また、このようなエクストラクタトラックに含まれるデータは、しばしばタイムライン全体を通じて非常に類似する（インラインおよびサンプルコンストラクタは同じままである）。
・通常、全てのスライスヘッダはエクストラクタを通じて調整される必要があり、これによってさらにかなりのオーバーヘッドが発生する。この結果、依存型トラックへのポインタが多くなり、すなわち大量のバッファコピーを実行する必要があり、これによってＪａｖａＳｃｒｉｐｔを使用するウェブアプリケーションなどでは特にコストが高くなる。
・予め全てのデータが完全にダウンロードされていないと、ファイルフォーマットパーサがエクストラクタトラックを解決することができない。これにより、たとえば全てのビデオデータ（タイル）がダウンロードされてクライアントがエクストラクタトラックのフェッチを待っている時にシステムにさらなる遅延が加わることがある。
・部分的暗号化を適用する必要がある（スライスペイロードをスライスヘッダと無関係に暗号化しなければならない）ので、このようなエクストラクタトラックの一般的暗号化の複雑性が増す。

１．３タイル化ストリーミングに対するＶＶＣ設計およびファイルフォーマットの影響
ＶＶＣなどの次のコーデック世代のために、圧縮領域の抽出／誘導動作を単純化するための２つの主な取り組みが行われた。

１．３．１ＶＶＣにおけるタイル化構文
ＨＥＶＣでは、ピクチャのスライス（ＮＡＬユニット）への細分割が最終的にスライスヘッダレベルで、すなわち１つのタイル内に複数のスライスを有することまたは１つのスライス内に複数のタイルを有することによってシグナリングされていたが、ＶＶＣでは、ピクチャのスライス（ＮＡＬユニット）への細分割がパラメータセットのみに記述される。タイルの行および列を通じて第１の分割レベルがシグナリングされた後に、いわゆる各タイルのブリック分割を通じて第２の分割レベルがシグナリングされる。さらなるブリック分割を含まないタイルはシングルブリックとも呼ばれる。画像あたりのスライス数および関連するブリックは、パラメータセットに明確に示される。

１．３．２ＶＶＣにおけるスライスアドレスシグナリング
たとえば、ＨＥＶＣなどの以前のコーデックは、各スライスヘッダ内のＣＴＵラスタースキャン順でのスライスアドレス、特にピクチャサイズに依存する符号化された長さを有するｆｉｒｓｔ＿ｓｌｉｃｅ＿ｉｎ＿ｐｉｃ＿ｆｌａｇおよびｓｌｉｃｅ＿ａｄｄｒｅｓｓを通じてスライス位置信号に依拠していた。ＶＶＣは、これらの２つの構文要素の代わりにこれらのアドレスの間接参照（ｉｎｄｉｒｅｃｔｉｏｎ）を特徴とし、この場合、スライスヘッダは、明示的なＣＴＵ位置の代わりに、関連するパラメータセットによって特定のピクチャ位置にマッピングされる識別子（たとえば、ｂｒｉｃｋ＿ｉｄ、ｔｉｌｅ＿ｉｄ、またはｓｕｂｐｉｃ＿ｉｄ）をスライスアドレスとして搬送する。従って、抽出または融合動作においてタイルを再配置すべきである場合には、各スライスヘッダの代わりにパラメータセットの間接参照のみを調整すればよい。

１．３．３ＶＶＣの構文および意味論
図５に、現在のところ想定されるＶＶＣのピクチャパラメータセットおよびスライスヘッダ構文の関連する抜粋をＶＶＣ仕様書（草案６、第１１版）から取り込んだものを、関連する構文の前に行番号を付して示す。ピクチャパラメータセット構文の５行目～４９行目の構文要素はタイル化構造に関連し、ピクチャパラメータセット構文の５４行目～６１行目の構文要素およびスライスヘッダ構文のｓｌｉｃｅ＿ａｄｄｒｅｓｓ構文要素はスライス／タイル配置に関連する。

スライス／タイル配置に関連する構文要素の意味論は以下の通りである。
ｓｌｉｃｅ＿ｉｄ［ｉ］は、ｉ番目のスライスのスライスＩＤを指定する。ｓｌｉｃｅ＿ｉｄ［ｉ］構文要素の長さは、ｓｉｇｎａｌｌｅｄ＿ｓｌｉｃｅ＿ｉｄ＿ｌｅｎｇｔｈ＿ｍｉｎｕｓ１＋１ビットである。存在しない場合、ｓｌｉｃｅ＿ｉｄ［ｉ］の値は、両端を含む０～ｎｕｍ＿ｓｌｉｃｅｓ＿ｉｎ＿ｐｉｃ＿ｍｉｎｕｓ１の範囲の各ｉについてｉに等しいものと推測される。
ｓｌｉｃｅ＿ａｄｄｒｅｓｓは、スライスのスライスアドレスを指定する。存在しない場合、ｓｌｉｃｅ＿ａｄｄｒｅｓｓの値は０に等しいものと推測される。
ｒｅｃｔ＿ｓｌｉｃｅ＿ｆｌａｇが０である場合、
・スライスアドレスは、方程式（７～５９）によって規定されるブリックＩＤであり、
・ｓｌｉｃｅ＿ａｄｄｒｅｓｓの長さは、Ｃｅｉｌ（Ｌｏｇ２（ＮｕｍＢｒｉｃｋｓＩｎＰｉｃ））ビットであり、
・ｓｌｉｃｅ＿ａｄｄｒｅｓｓの値は、両端を含む０～ＮｕｍＢｒｉｃｋｓＩｎＰｉｃ－１の範囲である。
そうでない（ｒｅｃｔ＿ｓｌｉｃｅ＿ｆｌａｇが１に等しい）場合、
・スライスアドレスはスライスのスライスＩＤであり、
・ｓｌｉｃｅ＿ａｄｄｒｅｓｓの長さは、ｓｉｇｎａｌｌｅｄ＿ｓｌｉｃｅ＿ｉｄ＿ｌｅｎｇｔｈ＿ｍｉｎｕｓ１＋１ビットであり、
・ｓｉｇｎａｌｌｅｄ＿ｓｌｉｃｅ＿ｉｄ＿ｆｌａｇが０である場合、ｓｌｉｃｅ＿ａｄｄｒｅｓｓの値は、０～ｎｕｍ＿ｓｌｉｃｅｓ＿ｉｎ＿ｐｉｃ＿ｍｉｎｕｓ１の範囲とする。それ以外の場合には、ｓｌｉｃｅ＿ａｄｄｒｅｓｓの値を０～２^{(signalled_slice_id_length_minus1+1)}－１の範囲とする。

ビットストリーム適合の要件は、以下の制約が当てはまることである。
・ｓｌｉｃｅ＿ａｄｄｒｅｓｓの値は、同じ符号化ピクチャの他のいずれかの符号化スライスＮＡＬユニットのｓｌｉｃｅ＿ａｄｄｒｅｓｓの値と等しいものであってはならない。
・ｒｅｃｔ＿ｓｌｉｃｅ＿ｆｌａｇが０である場合、ピクチャのスライスは、そのｓｌｉｃｅ＿ａｄｄｒｅｓｓ値の昇順とする。
・ピクチャのスライスの形状は、復号時に各ブリックの左側境界全体および上側境界全体がピクチャの境界または以前に復号された（単複の）ブリックの境界から成るようなものとする。

たとえば、本発明が関係するものである将来的なファイルフォーマット拡張などの将来的なコンテナフォーマット統合の設計では、ＨＥＶＣ高水準構文に対するＶＶＣ高水準構文の変更を容易にすることができる。より詳細には、本発明は以下を取り扱う側面を含む。
・ソーストラック（タイルのトラック）の融合可能セットへの基本分類、
・構成可能パラメータセットおよび／またはＳＥＩメッセージのためのテンプレート、
・構成可能パラメータセットおよび／またはＳＥＩメッセージのための拡張分類、および、
・トラック結合（ｔｒａｃｋｃｏｍｂｉｎａｔｉｏｎｓ）におけるランダムアクセスポイント指示。

本発明の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
２以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含む。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報（ｇａｔｈｅｒｉｎｇｉｎｆｏｒｍａｔｉｏｎ）と、
を含み、フォーマットされたビデオデータは、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要があるパラメータセットまたはＳＥＩメッセージの１以上の値を示す。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含む。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
２以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
方法は、
ソーストラックグループおよびグループ内の２以上のアクティブソーストラックの数を決定し、１以上のグループインジケータおよび１以上のアクティブソーストラックインジケータを作成し、フォーマットされたビデオデータにこれらを書き込むことを含む。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要があるパラメータセットまたはＳＥＩメッセージの１以上の値を示し、
方法は、
テンプレートを作成し、フォーマットされたビデオデータの収集情報にこれを書き込むことを含む。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
方法は、
１以上のランダムアクセスポイントアライメントインジケータを作成し、フォーマットされたビデオデータにこれらを書き込むことを含む。

本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置が提供され、ビデオデータは、ファイルフォーマットでフォーマットされ、装置は、請求項３８から５５のいずれかに記載の方法を実行するように適合される。

本発明の別の態様によれば、シーンの空間的に変動する部分をビデオデータから導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
２以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
方法は、
フォーマットされたビデオデータから、１以上のグループインジケータと、１以上のアクティブソーストラックインジケータと、示された２以上のアクティブソーストラックグループの数からの符号化ビデオデータとを読み取り、これに基づいてシーンの空間的に変動する部分を導出することを含む。

本発明の別の態様によれば、ビデオデータからシーンの空間的に変動する部分を導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要があるパラメータセットまたはＳＥＩメッセージの１以上の値を示し、
方法は、
フォーマットされたビデオデータの収集情報からテンプレートを読み取り、テンプレートによって示されるパラメータセットまたはＳＥＩメッセージの１以上の値を、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合させることを含む。

本発明の別の態様によれば、シーンの空間的に変動する部分をビデオデータから導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
方法は、
フォーマットされたビデオデータから１以上のランダムアクセスポイントインジケータを読み取り、これに基づいて符号化ビデオデータにアクセスすることを含む。

本発明の別の態様によれば、ビデオデータからシーンの空間的に変動する部分を導出する装置が提供され、ビデオデータは、ファイルフォーマットでフォーマットされ、装置は、請求項５７から７４のいずれかに記載の方法を実行するように適合される。

本発明の別の態様によれば、コンピュータによって実行された時に、請求項３８から５５または５７から７４に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラムが提供される。

本発明の別の態様によれば、コンピュータによって実行された時に、請求項３８から５５または５７から７４に記載の方法をコンピュータに実行させる命令を含むコンピュータ可読媒体が提供される。

本発明の別の態様によれば、請求項１から３７のいずれかに記載のビデオデータが記憶されているデジタル記憶媒体が提供される。

請求項１から３７のビデオデータ、請求項３８から５５の方法、請求項５６の装置、請求項５７から７４の方法、請求項７５の装置、請求項７６のコンピュータプログラム、請求項７７のコンピュータ可読媒体、および請求項７８のデジタル記憶媒体は、具体的には従属請求項に定められるような同様および／または同一の好ましい実施形態を有すると理解されたい。

本発明の好ましい実施形態は、従属請求項または上記の実施形態とそれぞれの独立請求項とのいずれかの組み合わせとすることもできると理解されたい。

以下、添付図面を参照しながら本発明の実施形態をさらに詳細に説明する。

キューブマップ投影内の３６０度ビデオを２つの解像度（高解像度および低解像度）で６×４タイルにタイル化して示す図である。ユーザが最新のヘッドマウントディスプレイ（ＨＭＤ）を使用する際に３６０度ビデオ全体を構成するタイルのサブセットのみを典型的にどのように見るかを示す図である。図１および図２の例における統合ビットストリーム内の考えられるタイル配置を示す図である。ビデオの低解像度バージョン全体と３６０度ビデオのサブセットをカバーする高解像度タイルとを融合できる別のタイル化を示す図である。ＶＶＣ仕様書（草案６、第１１版）から取り込んだ、現在のところ想定されるＶＶＣのピクチャパラメータセットおよびスライスヘッダ構文の関連する抜粋を示す図である。テンプレート作成ルールを提供するために使用される、ファイルフォーマットのボックス内で搬送されるＸＭＬスキーマを示す図である。ＶＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ内にパラメータセットテンプレートを記憶し、オフセット値およびサイズ値を使用してギャップをシグナリングする、テンプレートギャップの概念を示す図である。ファイルフォーマット仕様によって許容される２つのタイプのデコーダ構成プロセス、すなわち帯域外パラメータセットおよび帯域内パラメータセットの使用を示す図である。収集トラックが、帯域外（サンプルエントリ内）に記憶されたパラメータセットテンプレートを含み、クライアントによって全ての必要なメディアセグメントが選択された時に帯域内に存在できる「生成パラメータセット」を作成するためにこのテンプレートが使用される、生成パラメータセットの新たな概念を示す図である。

以下で図面に関して行う本発明の実施形態の説明は、最初にソーストラック（タイルのトラック）の融合可能セットへの基本分類に関連する実施形態に重点を置く。その後、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートに関する実施形態について説明した後に、構成可能パラメータセットおよび／またはＳＥＩメッセージおよびトラック結合におけるランダムアクセスポイント指示のための拡張分類に関する実施形態について説明する。特定の用途では、これらの概念の各々を活用するために４つの全てのタイプの実施形態を共に使用することができる。

実施形態の理解を動機付けして容易にするために、２つの解像度（高解像度および低解像度）で６×４空間セグメントにタイル化された、図１～図３に示すシーンのキューブマップ投影に基づく３６０度ビデオ再生用途の例について説明する。このようなキューブマップ投影は、シーンの空間的に変動する部分を導出するように配置されたビデオデータを構成する。たとえば、図２の上部に示すように、ユーザはヘッドマウントディスプレイ（ＨＭＤ）を使用して９０度×９０度の視野を見ることができる。図２の事例では、ＦｏＶを表すのに必要なタイルのサブセットが、キューブマップ投影の右側の４つのタイル、下側の２つのタイル、前側の１つのタイル、および後側の１つのタイルである。当然ながら、ユーザの視野方向によっては、ユーザの現在のＦｏＶを表すために他のタイルのサブセットが必要になることもある。クライアントアプリケーションは、高解像度でダウンロードして復号できるこれらのタイルに加えて、ユーザの突然の方位変化に対応するためにビューポートの外側の他のタイルをダウンロードすることが必要になる場合もある。クライアントアプリケーションは、これらのタイルを低解像度でダウンロードして復号することができる。上述したように、クライアント側でのダウンロード後には、たとえば計算リソースおよび電力が限られた典型的なモバイル装置の制約に対処するために、ダウンロードされたタイルを単一のデコーダによって処理されるように単一ビットストリームに融合することが望ましいと考えられる。

この例では、現在開発中のＶＶＣ（多用途ビデオ符号化）を使用して、各タイルが独立して復号可能なように符号化されることを想定する。この符号化は、たとえば同じまたは異なるピクチャの異なるタイル／ブリック間でイントラまたはインター予測が実行されないように、好適なタイル／ブリック／スライス構造を使用してピクチャを分割することによって達成することができる。ＶＶＣ仕様（草案６、第１１版）から取り込んだ、現在のところ想定されるＶＶＣのピクチャパラメータセットおよびスライスヘッダの構文の抜粋を示す図５から分かるように、ＶＶＣは、ピクチャ内の特定のタイル内のＣＴＵ（符号化ツリーユニット）行の矩形領域を指定するいわゆるブリックによって、ＨＥＶＣから知られているタイルおよびスライスの概念を拡張する。従って、タイルは、それぞれがタイル内の１以上のＣＴＵ行から成る複数のブリックに分割することができる。この拡張タイル／ブリック／スライス構造を使用して、圧縮領域処理を通じて高解像度ビデオの４×２空間セグメントと低解像度ビデオの４×４空間セグメントとが統合ビットストリームに融合された図３に示すようなタイル配置を容易に形成することができる。

本発明によれば、この融合プロセスは、ビデオデータがフォーマットされる特定の「融合に適した」ファイルフォーマットによってサポートされる。この例では、このファイルフォーマットが、ビデオおよびオーディオなどの時間ベースのマルチメディアファイルの一般的構造を定めるＩＳＯベースメディアファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６－１２）にさらに基づくＭＰＥＧＯＭＡＦ（ＩＳＯ／ＩＥＣ２３０９０－２）の拡張である。このファイルフォーマットでは、異なる空間セグメントに対応する独立して復号可能なビデオデータが、本明細書ではソーストラックまたはタイルのトラックとも呼ぶ異なるトラックに含まれる。

なお、この例では、基本的なビデオコーデックとしてＶＶＣを想定しているが、本発明はＶＶＣの適用に限定されるものではなく、ＨＥＶＣ（高効率ビデオ符号化）などの他のビデオコーデックを使用して本発明の異なる態様を実現することもできる。さらに、この例ではファイルフォーマットをＭＰＥＧＯＭＡＦの拡張であるように想定しているが、本発明はこのような拡張に限定されるものではなく、他のファイルフォーマットまたは他のファイルフォーマットの拡張を使用して本発明の異なる態様を実現することもできる。

２．ソーストラックの融合可能セットへの基本分類
本発明の第１の態様によれば、基本分類機構が、いくつかのソーストラックが同じグループに属しており、そのグループに属するタイルのうちの所与の数を再生すべきである旨をファイルフォーマットパーサに示すことを可能にする。

この点、フォーマットされたビデオデータは、２以上のソーストラックの組を含み、各ソーストラックは、シーンを示すビデオの空間部分を表す符号化ビデオデータを含む。２以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含む。この例では、第１のソーストラックグループが、キューブマップ投影の６×４高解像度タイルを含み、第２のソーストラックグループが、６×４低解像度タイルを含む。このことは、１以上のグループインジケータによって示すことができる。さらに、上述したように、ユーザの想定されるＦｏＶが９０度×９０度である場合、ユーザの現在の視野を表すために２４個の高解像度タイルのうちの８つを再生する必要があり、一方でユーザの突然の方位変化を可能にするために低解像度タイルのうちの１６個を送信する必要もある。第１のグループの８つのソーストラックおよび第２のグループの１６個のソーストラックは「アクティブ」ソーストラックと呼ぶことができ、これらのそれぞれの数は１以上のアクティブソーストラックインジケータによって示すことができる。

１つの実施形態では、１以上のグループインジケータが含まれるファイルフォーマットの第１のボックス、たとえばトラックグループタイプボックスを使用することによってこれを実現することができる。ＩＳＯベースメディアファイルフォーマットからのトラックグループボックスの概念に基づく考えられる構文および意味論は、以下のようなものとすることができる。

ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの１つに設定される。
［．．．］
・‘ａａａａ’は、このトラックが、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤの値が同じであるトラックのグループに属しており、そのうちのｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓのサブセットを再生すべきであることを示す。ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓは１よりも大きくなければならない。

この事例では、１以上のグループインジケータが構文要素ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤによって実現され、１以上のアクティブソーストラックインジケータが構文要素ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓによって実現される。また、トラックグループのタイプボックスが構文要素ｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓを含むことを示す新たなｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが定められる（‘ａａａａ’はほんの一例である）。この種のトラックグループタイプボックスは、グループに属する各それぞれのソーストラック内でシグナリングすることができる。

第１のグループに属するソーストラックおよび低解像度グループに属するソーストラックは、いずれも３６０度ビデオ再生用途を実現するために必要とされるため、本出願は、２以上のソーストラックグループが共にバンドルされていることをファイルフォーマットパーサに示す可能性をさらに予測する。この点、フォーマットされたビデオデータは、このようなバンドリングを示す１以上のグループバンドルインジケータをさらに含む。

別の実施形態では、ソーストラック毎の上記シグナリングと組み合わせて、たとえばトラック参照タイプボックスなどの別の第２のボックスを使用して、１つの組み合わせで使用される複数のグループを（たとえば、高解像度タイルのための１つのｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤ値および低解像度タイルのための１つのｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤ値を使用して）共にバンドルすることによってこれを実現することができる。

ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤの一意性を示すタイプ‘ａａａａ’のＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘでは、‘ｔｒｅｆ’を介してグループを参照できるように（ｆｌａｇｓ＆１）の値を１に等しいものとする。

ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤへのトラック参照の一般的意味論によって暗示されるように、‘ａａａａ’ソーストラックグループのｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓトラックが‘ｔｒｅｆ’の解決に使用される。

あるいは、別の実施形態では、ソーストラックグループが再生すべきトラックの数を示さず、代わりに以下のようなトラック参照タイプボックスの拡張を通じてこの特性が表される。

この事例では、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータ、ソーストラックグループ内のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータ、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータが、ファイルフォーマットの単一のボックス、この事例ではトラック参照タイプボックスに含まれる。

構文要素ｎｕｍ＿ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤｓは、トラック参照タイプボックス内でバンドルされているソーストラックグループの数を示し、構文要素ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤｓ［ｉ］およびｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ＿ｐｅｒ＿ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤｓ［ｉ］は、トラックグループＩＤおよびアクティブトラックの数をグループ毎に示す。換言すれば、この実施形態では、各ソーストラックグループがそれぞれのグループＩＤ（たとえば、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤ）によって示され、共にバンドルされている２以上のソーストラックグループが、共にバンドルされている２以上のソーストラックグループの数を示すインジケータ（たとえば、ｎｕｍ＿ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤｓ）およびそれぞれのグループＩＤの配列（たとえば、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤｓ［ｉ］）によって示される。

後者の２つの実施形態では、フォーマットされたビデオデータが、セクション固有のビデオデータストリームを生成するために２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含むことができ、トラック参照ボックスは収集トラックに含まれる。

あるいは、さらに別の実施形態では、同じ解像度（たとえば、高解像度および低解像度）のタイルを集めたソーストラックの（サブ）グループを共にバンドルするためにソーストラックシグナリングが使用される。この場合も、この実施形態は、ＩＳＯベースメディアファイルからのトラックグループボックスの概念に基づくことができ、その考えられる構文および意味論は以下の通りである。

ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの１つに設定される。
［．．．］
・‘ｂｂｂｂ’は、このトラックが、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤの値が同じであるトラックグループ、およびｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤの値が同じであるサブグループに属しており、そのうちのｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ＿ｐｅｒ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］トラックのサブセットを再生すべきであり、ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］がｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤに等しいことを示す。

このように、この事例では、各ソーストラックグループが、それぞれのサブグループＩＤ（たとえば、ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤ）によってソーストラックのサブグループであるように示され、共にバンドルされた２以上のソーストラックサブグループが、共通グループＩＤ（たとえば、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤ）、共にバンドルされた２以上のソーストラックサブグループの数を示すインジケータ（たとえば、ｎｕｍ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ）、およびそれぞれのサブグループＩＤの配列（たとえば、ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］）によって示される。

あるいは、本発明のさらに別の実施形態では、さらなるグループ固有レベルのシグナリングが、サポートされているデコーダのレベル能力に適合するグループ／サブグループの組み合わせをクライアントが選択できるようにする。たとえば、トラックグループタイプボックスを使用した最後の実施形態の拡張は以下のようなものとすることができる。

ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの１つに設定される。
［．．．］
・‘ｃｃｃｃ’は、このトラックが、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤの値が同じであるトラックグループ、およびｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤの値が同じであるサブグループに属しており、そのうちのｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ＿ｐｅｒ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］トラックのサブセットを再生すべきであり、ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］はｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤに等しく、ｔｒａｃｋ＿ｇｒｏｕｐ＿ＩＤを有するグループの再生がそのグループに対応するビットストリームのｌｅｖｅｌ＿ｉｄｃのレベルに対応し、結果として得られるビットストリームが、ｎｕｍ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓサブグループの各々について指示された数のｎｕｍ＿ａｃｔｉｖｅ＿ｔｒａｃｋｓ＿ｐｅｒ＿ｔｒａｃｋ＿ｓｕｂｇｒｏｕｐ＿ＩＤｓ［ｉ］トラックを伴うことを示す。

換言すれば、この事例では、フォーマットされたビデオデータが、指示された数のトラックが共に再生された時のソーストラックグループまたは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータ（たとえば、ｌｅｖｅｌ＿ｉｄｃ）をさらに含む。

なお、レベルインジケータは、説明する他の実施形態でも提供することができる。さらに、２以上のソーストラックグループは、必ずしも解像度（のみ）が異なっていなければならないわけではなく、むしろこれに加えてまたはこれに代えて符号化忠実度が異なることもできる。たとえば、第１のソーストラックグループは、第１の解像度および／または忠実度の符号化ビデオデータを含むソーストラックを含むことができ、第２のソーストラックグループは、第１の解像度および／または符号化忠実度とは異なる第２の解像度および／または符号化忠実度の符号化ビデオデータを含むソーストラックを含むことができる。

３．構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート
上述したように、特定の用途は、プレイアウトコンテキスト（ｐｌａｙｏｕｔｃｏｎｔｅｘｔ）に応じてパラメータセットまたはＳＥＩメッセージの変種（タイル位置およびタイル隣接（ｔｉｌｅｎｅｉｇｈｂｏｒｓ）が変化する融合されたビットストリーム内のタイルの統合復号）を必要とする。従って、多くの場合、複数の組み合わせに当てはまる単一のパラメータセットを有することは容易ではなく可能でもない。

１つの実施形態は、たとえば上述したように分類機構をシグナリングし、パラメータセットテンプレートのいくつかの値を変更する必要がある旨をさらに示すことから成る。たとえば、上述したように、タイル選択のみを変化させる例を参照すると、使用される分類モードは、ｓｌｉｃｅ＿ａｄｄｒｅｓｓ（ＨＥＶＣ用語）またはｓｌｉｃｅ＿ｉｄ（図５に示すピクチャパラメータセット構文テーブルで使用される現在のＶＶＣ用語）を修正する必要がある旨を示す。別の分類モード値は、ＲＷＰＳＥＩメッセージの調整が必要であり、またはタイル化に関連する構文要素も調整する必要があることを示す。

このような手法の欠点は、異なる構文要素の変更が必要となり得る（時にはｓｌｉｃｅ＿ｉｄの、他の使用事例ではタイル化パラメータなどの異なる構文要素の置換が必要となり得る）使用事例毎に、異なるグループタイプまたは同様の指示をシグナリングする必要がある点である。あらゆる構文要素の変更およびどの構文要素を変更する必要があるかを示すことを可能にする、より柔軟かつ汎用的な手法の方が有益である。

この目的のために、別の実施形態では、ファイルフォーマットのボックス内で、影響を受けないパラメータセット値の表現、すなわちパラメータセットテンプレートが搬送される。クライアントは、そのタイル／トラック選択に応じて正しいパラメータセットを生成するためにこの表現を使用することができる。

従って、本発明のこの第２の態様によれば、フォーマットされたビデオデータは、それぞれがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、セクション固有のビデオデータストリームを生成するために２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報とを含む。収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、このテンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要があるパラメータセットまたはＳＥＩメッセージの１以上の値を示す。いくつかの実施形態では、フォーマットされたビデオデータが、収集情報を含む収集トラックを含む。以下、この態様の異なる実施形態について説明する。

３．１ＸＭＬ／ＪＳＯＮテンプレート
１つの実施形態では、パラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレートが、構文要素名および値、また場合によってはこれらの符号化を含むパラメータセットまたはＳＥＩメッセージの符号化構造のＸＭＬまたはＪＳＯＮ記述である。クライアント（ファイルフォーマットパーサ）は、このＸＭＬ／ＪＳＯＮ記述から、個々の構文要素をそれぞれの形態で符号化し、結果を連結し、エミュレーション防止を実行することによって、パラメータセット／ＳＥＩメッセージのビットストリーム表現を生成することができる。たとえばタイル化レイアウト内のタイルの位置を調整するための構文要素ｓｌｉｃｅ＿ｉｄまたは同等の情報などの、ファイルフォーマットパーサによって調整される必要がある構文要素については、それぞれのフィールドがＸＭＬ／ＪＳＯＮ記述において以下のようにマークされることが望ましい。

別の実施形態では、ファイルフォーマットのボックス内で搬送されるＸＭＬまたはＪＳＯＮスキーマを使用してテンプレート作成のためのルールを提供する。図６に、ＸＭＬを用いたこのようなスキーマの一実施形態を示す。ＸＭＬ／ＪＳＯＮスキーマを使用する利点は、構文要素符号化オプション（たとえば、固定長対可変長符号化、指数ゴロム符号など）が既知である限り、受信側ファイルフォーマットパーサが、基本的なコーデックを事前に認識することなく適合するパラメータセット／ＳＥＩメッセージビットストリームを生成できる点である。さらなる利点は、単一のスキーマを一旦定義できれば、このスキーマを使用して、生成される全てのパラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレート容易に検証できる点である。対応するパラメータセットテンプレートを有するＸＭＬ／ＪＳＯＮ記述メタデータは、初期化セグメント内に位置する収集トラックのトラックボックス（‘ｔｒａｋ’）に記憶されることが好ましい。

３．２エミュレーション防止を含まないビットストリームテンプレート
別の実施形態では、パラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレートが、パラメータセット／ＳＥＩメッセージの符号化ビットストリーム形態に基づき、すなわち、個々の構文要素値が仕様（たとえば、固定長対可変長符号、指数ゴロム符号など）に従って符号化され、その指定順に従って連結される。ただし、この形態はエミュレーション防止バイト（ｅｍｕｌａｔｉｏｎｐｒｅｖｅｎｔｉｏｎｂｙｔｅｓ）を含まない。従って、このようなパラメータセットをビデオビットストリーム内で使用する前にエミュレーション防止を実行する必要がある。

１つの実施形態では、パラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレートが、構文要素値、すなわちｓｌｉｃｅ＿ｉｄなどのその符号化表現を挿入すべきギャップの指示を伝える。

従って、一般的な意味において、テンプレートは、適合される必要がない値がテンプレート内で有効に符号化されるパラメータセットまたはＳＥＩメッセージの連結符号化構文要素を含むことができるとともに、適合される必要がある有効に符号化された値で満たすべきテンプレート内のギャップを示す１以上のギャップインジケータをさらに含む。ギャップを示す１以上のギャップインジケータは、テンプレート内のギャップのオフセットおよびサイズを含むことが好ましい。

図７に、ＶＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ内にパラメータセットテンプレートが記憶され、対応するオフセットおよびサイズ値を使用してギャップがシグナリングされるテンプレートギャップの概念を示す。ギャップは、たとえばＶＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄの開始に対するビットストリームブロブ位置（オフセット）およびギャップのサイズを定め、パラメータセットまたはＳＥＩメッセージのどの要素がそのブロブの次の要素であるかを仕様に従ってシグナリングしながらシグナリングすることができる。１つの実施形態では、このようなテンプレートギャップにｓｌｉｃｅ＿ｉｄ値（図５を参照）を挿入することができる。別の実施形態では、パラメータセットテンプレートギャップにタイル化構造構文値（ｔｉｌｉｎｇｓｔｒｕｃｔｕｒｅｓｙｎｔａｘｖａｌｕｅｓ）（図５を参照）が挿入される。

セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージの生成は、テンプレート内のギャップを満たした後に、パラメータセットまたはＳＥＩメッセージの符号化ビットストリームを生成するために連結符号化構文要素に対してエミュレーション防止を実行することを含むことが好ましい。

３．３プレースホルダ値を有するテンプレート
別の実施形態では、ＶＶＣＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ内に記憶されたパラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレートが完全に復号可能であり、すなわち、これらは通常の非テンプレートパラメータセットまたはＳＥＩメッセージと同様にエミュレーション防止を含むビットストリーム形態で記憶されるが、調整すべきフィールドは符号化毎の有効なプレースホルダ値で満たされる。このようなテンプレートパラメータセットは完全に仕様に準拠しており、標準的な対応するＶＶＣパーサによって解析することができる。このようなパラメータセットテンプレートおよび／またはＳＥＩメッセージテンプレートを使用するという発想は、これらのパラメータセット／ＳＥＩメッセージをパーサが処理すると、生成されたパラメータセット／ＳＥＩメッセージの定義を完結するために、そのインスタンスを使用して必要な値を容易に上書きできるということである。

従って、一般的な意味において、テンプレートは、適合される必要がある１以上の値が符号化ビットストリームにおいて有効に符号化されたプレースホルダ値で満たされるエミュレーション防止バイトを含むパラメータセットまたはＳＥＩメッセージの符号化ビットストリームを含むことができる。上記のセクション３．２で説明したこの実施形態の変形例では、１以上のギャップインジケータが、適合される必要があるプレースホルダ値を示すプレースホルダ値インジケータに対応し、プレースホルダ値を示す１以上のプレースホルダ値インジケータが、テンプレート内のプレースホルダ値のオフセットおよびサイズを含むと理解される。

３．４可能な実現化
以下では、上記実施形態、すなわち新たなサンプルエントリタイプ‘ｖｖｃＧ’を含むサンプルエントリ内のデコーダ構成レコードボックスの可能な実現化を示しており、ここではループ「ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍＮａｌｕｓ；ｉ＋＋）」内で、ＮＡＬユニットが、たとえばパラメータセットテンプレートまたはＳＥＩメッセージテンプレート、あるいはパラメータセットテンプレートまたはＳＥＩメッセージテンプレートのＸＭＬ／ＪＳＯＮｂａｓｅ６４符号化表現を形成するビットストリームを含むことができる。

この実現化では、テンプレートがデコーダ構成レコード（たとえば、ＶｖｃＤｅｃｏｄｅｒＣｏｎｆｉｇｕｒａｔｉｏｎＲｅｃｏｒｄ）に含まれるが、たとえばサンプル記述ボックス内の別の位置、またはサンプルエントリボックス内の別の位置などの、初期化セグメント内の別の位置に含めることもできる。さらに、ＮＡＬユニットにおけるテンプレートの存在は、（たとえば、テンプレートを含むＮＡＬユニットを示す特定のＮＡＬユニットタイプを定めることによって）ＮＡＬユニットタイプによって示されることが好ましい。

タイプ‘ｖｖｃＧ’のサンプルエントリ内にパラメータセットテンプレートまたはＳＥＩメッセージテンプレートを示すことに加えて、パラメータセットテンプレートまたはＳＥＩメッセージテンプレートの存在は、通常の「ｖｖｃ１」サンプルエントリのデコーダ構成レコード内の追加フラグｔｅｍｐｌａｔｅＮａｌｕによっても示されることが好ましい。このフラグは、たとえば「ｆｏｒ（ｉ＝０；ｉ＜ｎｕｍＮａｌｕｓ；ｉ＋＋）」ループ内の各ＮＡＬユニットについて提供することができる。

従って、一般的な意味において、テンプレートは、サンプルエントリボックス、好ましくはデコーダ構成レコードに含めることができ、ＮＡＬユニットにおけるテンプレートの存在は、サンプルエントリボックス内のサンプルエントリタイプ（たとえば、‘ｖｖｃＧ’）および／または１以上のテンプレートインジケータ（たとえば、ｔｅｍｐｌａｔｅＮａｌｕ）によって示される。

これらの実施形態では、補足強化情報（ＳＥＩ）メッセージなどのさらなるＮＡＬユニットタイプを上記テンプレート形態のいずれかで搬送し、クライアント側で選択された特定の組み合わせに依存して適宜修正することができる。このようなＳＥＩメッセージの１つは、ＡＶＣおよびＨＥＶＣによって規定されるＲＷＰＳＥＩメッセージである。

パラメータセットまたはＳＥＩメッセージ内のパラメータ／構文要素の置換を容易にするために、たとえば収集トラックおよび結合されるように選択されたソーストラックなどの収集情報内で部分的にシグナリングされる分類メカニズムを通じて必要な追加情報が存在する。この態様についてはセクション４でさらに後述する。

３．５トラック毎の搬送ｖｓサンプル毎の搬送
説明する構成可能パラメータセットおよび／またはＳＥＩメッセージのための方法は、たとえば上記実施形態のように初期化セグメントのデコーダ構成レコード内に存在することも、または特定のサンプルにおけるトラック内に存在することもできる。パラメータセットテンプレートがたとえばメディアサンプルとしてトラック内に含まれる場合には、たとえばＸＭＬ／ＪＳＯＮフォーマットでパラメータセットテンプレートまたはＳＥＩメッセージテンプレートとしての新たなサンプルフォーマットを定めることができる。

別の実施形態では、ＶＶＣにおける外部使用のために予約されたＮＡＬユニットタイプを有するＮＡＬユニットが使用され、ＮＡＬユニットの本体（すなわち、ＮＡＬユニットペイロード）は、サンプルグループ情報または同様のものにおけるいくつかの値に従って変更される必要がある（何とか区別可能な）いくつかのパラメータおよびプレースホルダ値で満たされる。この目的のために、この特別なＮＡＬユニット構造のＮＡＬユニットペイロードに、説明する方法（「変更すべき」フィールドが識別されたＸＭＬ／ＪＳＯＮまたはビットストリームフォーマットのテンプレート）のいずれかを挿入することができる。

図８に、ファイルフォーマット仕様によって許容される２つのタイプのデコーダ構成プロセスを示す。
・初期化セグメント内の対応するデコーダ構成レコードボックス内のサンプルエントリのみに含まれる帯域外パラメータセット。
・サンプルエントリに含まれるが、メディアサンプル自体で送信することもでき、同じファイルフォーマットトラックを再生しながらデコーダの構成が時間と共に変更されることを可能にする帯域内パラメータセット。

ＯＭＡＦバージョン１では３６０度ビデオに帯域外信号のみが許可されており、各エクストラクタトラックは、ファイルフォーマットパッケージャによって固定タイル化構成のために生成された予め定められたパラメータセットを含む。従って、クライアントは、このタイル化構成を変更したいと望む度に収集トラックを変更し、対応するパラメータセットでデコーダを再初期化する必要がある。

前のセクションで既に説明したように、このような特定のタイル化構成のための予め定められたパラメータセットを有するということは、クライアントが特定のタイル化スキームのための予め定められたエクストラクタトラックにしか作用することができず、（エクストラクタＮＡＬユニットを伴わずに）必要なタイル自体を柔軟に融合できないため大きな欠点である。

従って、本発明の着想は、帯域内パラメータセットの概念と帯域外パラメータセットの概念とを組み合わせ、両概念を含む解決策を生み出すことである。図９に、生成されたパラメータセットの新たな概念を示す。対応する収集トラックは、帯域外（サンプルエントリ内）に記憶されたパラメータセットテンプレートを含み、このテンプレートは、全ての必要なメディアセグメントがクライアントによって選択された時に帯域内に存在できるようになる「生成パラメータセット」を作成するために使用される。ファイルフォーマットトラック分類機構は、ダウンロードされたタイルの選択されたサブセットに基づいてパラメータセットテンプレートを更新する方法に関する情報を提供するために使用される。

１つの実施形態では、メディアセグメントが、選択されたタイル（図９の‘ｖｖｃＧ’）のメディアセグメントの合計として暗黙的に定められるように、収集トラックがメディアセグメント自体を含んでいない。従って、収集トラックの初期化セグメント（サンプルエントリなど）には、生成されたパラメータセットの作成に必要なメタデータ全体が含まれる。

別の実施形態では、収集トラックが、パラメータセット生成のためのさらなるメタデータを提供するメディアセグメントも含む。これにより、サンプルエントリからのメタデータのみに依拠するのではなく、パラメータセット生成の挙動を一定期間にわたって変更できるようになる。

従って、一般的な意味において、テンプレートは、収集トラックの初期化セグメント、好ましくはサンプル記述ボックス、さらに好ましくはサンプルエントリボックス、最も好ましくはデコーダ構成レコードに含めることができ、融合情報は、２以上のソーストラックの組のサブセットの符号化ビデオデータへの参照を含むメディアセグメントを含み、メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）生成されたセクション固有のビデオデータストリームのメディアセグメントにテンプレートと共に生成されたパラメータセットおよび／またはＳＥＩメッセージが含まれることを示すインジケータをさらに含む。

なお、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートの使用に関連する全ての実施形態では、スライスを使用して各ソーストラックに含まれる符号化ビデオデータを符号化することができ、セクション固有のビデオデータストリームの生成は、スライスのスライスヘッダの値を適合させることを必要としない。

各ソーストラックに含まれる符号化ビデオデータは、ｉ）タイルを使用して符号化され、適合される必要がある値はタイル構造に関連し、および／またはｉｉ）ブリックを使用して符号化され、適合される必要がある値はブリック構造に関連し、および／またはｉｉｉ）スライスを使用して符号化され、適合される必要がある値はスライス構造に関連する、ことが好ましい。とりわけ、適合される必要がある値は、ビデオのピクチャおよび／または符号化ビデオデータ内のタイルおよび／またはブリックおよび／またはスライスの位置を表すことができる。

パラメータセットは、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、またはピクチャパラメータセット（ＰＰＳ）であることが好ましく、および／またはＳＥＩメッセージは、リージョンワイズパッキング（ｒｅｇｉｏｎｗｉｓｅ－ｐａｃｋｉｎｇ：ＲＷＰ）ＳＥＩメッセージであることが好ましい。

４．構成可能パラメータセットおよび／またはＳＥＩメッセージのための拡張分類
序文において説明したように、ソーストラックグループを共に復号できることを表す現在最新の方法は、図２に示すような適切なパラメータセットを搬送して１つの特定の有効な組み合わせを形成するそれぞれのトラックを明確に参照する上述したエクストラクタトラックによるものである。この最新の解決策（ビューポート当たりに１つのトラック）のオーバーヘッドを低減するために、本発明は、どのトラックを組み合わせることができるか、および組み合わせのためのルールをより柔軟に示す。従って、本発明の一部として、２以上のソーストラックの組は、各ボックスがソーストラックの特性を識別する構文要素を記述するための追加情報を含むファイルフォーマットの１以上のボックスを含むことができ、この追加情報は、符号化ビデオデータを解析する必要なくセクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージの生成を可能にする。

１つの実施形態では、追加情報が、統合ビットストリーム内のスライスおよびその結合ピクチャ内の位置を識別するために関連するＶＣＬＮＡＬユニットのスライス構造を識別する、スライスヘッダにおいて使用されるスライスＩＤまたは別の情報を識別する構文要素を記述する。

別の実施形態では、追加情報が、ｉ）各ソーストラックに含まれる符号化ビデオデータの幅および高さを識別する構文要素、および／またはｉｉ）リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージの生成に関連するプロジェクションマッピング、変換情報および／または保護周波数帯情報（ｇｕａｒｄｂａｎｄｉｎｆｏｒｍａｔｉｏｎ）を識別する構文要素を記述する。たとえば、符号化ビデオデータの幅および高さは、符号化サンプルの単位または最大符号化ブロックの単位で識別することができる。ＲＷＰＳＥＩメッセージについては、プロジェクションマッピングを識別する構文要素が、プロジェクションマッピング内の矩形領域の幅および高さ、ならびに上部および左の位置を含む。さらに、変換情報を識別する構文要素は、回転およびミラーリングを含むことができる。

さらに、別の実施形態では、追加情報が、構成可能パラメータセットまたはＳＥＩメッセージの作成を容易にするために、それぞれの構文要素の符号化長および／または符号化モード（たとえば、ｕ（８）、ｕ（ｖ）、ｕｅ（ｖ））をさらに含む。

１つの実施形態では、上記ボックスの構文が以下の通りである。上述したように、各ソーストラックの各初期化セグメントは、拡張トラックグループタイプボックスを有する‘ｔｒａｋ’ボックス（トラックボックス）の内部に‘ｔｒｇｒ’ボックス（トラック分類指示）を含む。この結果、トラックグループタイプボックスの拡張において以下のような新たな構文を搬送することができる。

５．トラック結合におけるランダムアクセスポイント指示
ＶＶＣでは、同じアクセスユニット内にＮＡＬユニットタイプが混在することがあり、この場合、ＩＤＲＮＡＬユニットが非ＩＤＲＮＡＬユニットと混在し、すなわちいくつかの領域はインター予測を使用して符号化できるのに対し、ピクチャ内の他の領域はイントラ符号化されて、この特定の領域の予測チェーンをリセットすることがある。このようなサンプルでは、クライアントがピクチャの一部でそのタイル選択を変更することがあり、このため、たとえば非ＩＤＲＮＡＬユニットであっても抽出時に瞬間的デコーダリフレッシュ（ｉｎｓｔａｎｔａｎｅｏｕｓｄｅｃｏｄｅｒｒｅｆｒｅｓｈ：ＩＤＲ）特性を有することを示すサブピクチャランダムアクセスポイント（ＲＡＰ）を示すように、これらのサンプルをファイルフォーマットシグナリング機構でマークすることが不可欠である。

本発明のこの態様では、シーンを示すビデオの異なる空間部分を単一のソーストラックで提供することもできる。従って、シーンの空間的に変動する部分を導出するためのビデオデータが予測され、このビデオデータは、ファイルフォーマットでフォーマットされ、シーンを示すビデオの空間的部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含む。符号化ビデオデータはランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分の符号化ビデオデータにおけるランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含む。

たとえば、１つの実施形態では、ピクチャの異なる領域が複数のソーストラックに分離される。分類メカニズムでは、ＲＡＰが整列しているか否かがシグナリングされることが好ましい。このシグナリングは、たとえばソーストラック内のどこにＲＡＰが存在していても、ピクチャの別の空間部分を含む別のソーストラックの対応するアクセスユニット内にＲＡＰが存在することを確認することによって、あるいはＲＡＰをシグナリングするために使用される（マスタートラックと同様の）さらなるトラックを有することによって行うことができる。第２の事例では、たとえば上述したような収集トラックなどの「マスター」トラック内でシグナリングされたＲＡＰのみが別のソーストラック内のＲＡＰを示す。分類メカニズムによってＲＡＰが整列していないことが示された場合には、別のソーストラック内の全てのＲＡＰシグナリングを解析する必要がある。換言すれば、この実施形態では、異なる空間部分を表す符号化ビデオデータが異なるソーストラックに含まれ、フォーマットされたビデオデータが、全てのソーストラックのランダムアクセスポイントを示す１以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む。

別の実施形態では、全ての空間部分が同じソーストラックに含まれる。それでもいくつかの使用事例（たとえば、ズーム）では、画像全体の一部（たとえば、真ん中の関心領域（ＲｏＩ））を抽出することが望ましい場合もある。このようなシナリオでは、ピクチャ全体のＲＡＰとＲｏＩ内のＲＡＰとが必ずしも常に一致しない場合もある。たとえば、ピクチャ全体に存在するＲＡＰよりもＲｏＩ内に存在するＲＡＰの方が多いこともある。

これらの実施形態では、フォーマットされたビデオデータが、ビデオのアクセスユニットがビデオの空間部分についてはランダムアクセスポイントを有しているがアクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含むことができる。さらに、フォーマットされたビデオデータは、ランダムアクセスポイントを有する空間部分の位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含むことができる。

１つの実現化では、ピクチャの特定の特性（たとえば、同期サンプル、ＲＡＰなど）を示すためにＩＳＯベースメディアファイルフォーマットで使用される、いわゆるサンプルグループを使用してこの情報を提供することができる。本発明では、サンプルグループを使用して、アクセスユニットが部分的ＲＡＰ、すなわちサブピクチャ（領域固有の）ランダムアクセスポイントを有することを示すことができる。さらに、各ピクチャについて一切のドリフトを伴わずに領域を示すことができることを示すシグナリングを追加し、領域の次元をシグナリングすることができる。以下に、既存のｓａｍｐｌｅｔｏｇｒｏｕｐｂｏｘの構文を示す。

この実施形態では、特定の分類タイプ‘ｐｒａｐ’（部分的ｒａｐ）を使用してＳａｍｐｌｅＴｏＧｒｏｕｐＢｏｘについてサンプルグループが定められる。

また、サンプルグループの記述は、たとえば以下のように定めることができる。

サンプル記述は、たとえば以下のようなランダムアクセス可能な領域次元（ｒｅｇｉｏｎｄｉｍｅｎｓｉｏｎ）を示す。

さらなる実施形態では、異なる領域が別個のＮＡＬユニットにマッピングされ、すなわちアクセスユニットのいくつかのＮＡＬユニットのみを復号することができる。この領域に対応するサブセットのみがビットストリームのために復号される場合に特定のＮＡＬユニットをＲＡＰとして処理できることを示すことは本発明の一部である。この目的のために、たとえば以下のような既存のサブサンプル情報ボックスの概念を使用して、サブピックＲＡＰ（ｓｕｂ－ｐｉｃＲＡＰｓ）のためのサブサンプル分類情報を導出することができる。

ｃｏｄｅｃ＿ｓｐｅｃｉｆｉｃ＿ｐａｒａｍｅｔｅｒｓは、どのサブサンプルがＲＡＰであって、どのサブサンプルがそうでないかを示すことができる。

６．さらなる実施形態
ここまで、以下で図面に関して行う本発明の実施形態の説明は、シーンの空間的に変動する部分を導出するためのビデオデータ、およびこの部分がフォーマットされる特定のファイルフォーマットに焦点を当ててきた。しかしながら、本発明は、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法および装置、ならびに特定のファイルフォーマットでフォーマットされたビデオデータからシーンの空間的に変動する部分を導出する方法および装置にも関する。さらに、本発明は、対応するコンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体にも関する。

より詳細には、本発明は以下の実施形態にも関する。

シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
前記２以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記ソーストラックグループおよびグループ内の２以上のアクティブソーストラックの前記数を決定し、前記１以上のグループインジケータおよび前記１以上のアクティブソーストラックインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータをさらに含み、前記方法は、
共にバンドルされている前記２以上のソーストラックグループを決定し、前記１以上のバンドルインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む。

この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、および前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータは、前記２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータが含まれるファイルフォーマットの第２のボックスとは別のファイルフォーマットの第１のボックスに含まれる。

この方法の実施形態では、前記第１のボックスはトラックグループ型ボックスであり、前記第２のボックスはトラック参照型ボックスである。

この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータ、および２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる。

この方法の実施形態では、前記単一のボックスは、トラックグループ型ボックスまたはトラック参照型ボックスである。

この方法の実施形態では、前記トラックグループ型ボックスはソーストラックに含まれ、および／または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれ、前記方法は、
前記２以上のソーストラックの組の前記サブセットを決定し、前記融合情報を含む前記収集トラックを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。

この方法の実施形態では、前記各ソーストラックグループはそれぞれのグループＩＤによって示され、共にバンドルされた前記２以上のソーストラックグループは、共にバンドルされた前記２以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループＩＤの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループＩＤによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記２以上のソーストラックのサブグループは、共通グループＩＤ、共にバンドルされた前記２以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループＩＤの配列によって示される。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
前記ソーストラックグループまたは２以上のソーストラックグループの前記バンドルを決定し、前記レベルインジケータを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。

この方法の実施形態では、第１のソーストラックグループは、第１の解像度および／または忠実度の符号化ビデオデータを含むソーストラックを含み、第２のソーストラックグループは、前記第１の解像度および／または符号化忠実度とは異なる第２の解像度および／または符号化忠実度の符号化ビデオデータを含むソーストラックを含む。

シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために、前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要がある前記パラメータセットまたは前記ＳＥＩメッセージの１以上の値を示し、
前記方法は、
前記テンプレートを作成し、前記フォーマットされたビデオデータの前記収集情報にこれを書き込むことを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む。

この方法の実施形態では、前記テンプレートは、前記パラメータセットまたは前記ＳＥＩメッセージの前記符号化構造のＸＭＬまたはＪＳＯＮ記述を含む。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するＸＭＬまたはＪＳＯＮスキーマをさらに含み、前記方法は、
前記ＸＬＭまたはＪＳＯＮスキーマを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。

この方法の実施形態では、テ前記テンプレートは、前記パラメータセットまたは前記ＳＥＩメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す１以上のギャップインジケータをさらに含む。

この方法の実施形態では、前記ギャップを示す前記１以上のギャップインジケータは、前記テンプレート内のギャップのオフセットおよびサイズを含む。

この方法の実施形態では、前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成は、前記テンプレート内の前記ギャップを満たした後に、前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを生成するために前記連結符号化構文要素に対してエミュレーション防止を実行することを含む。

この方法の実施形態では、前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記１以上の値は、有効に符号化されたプレースホルダ値で満たされる。

この方法の実施形態では、前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれる。

この方法の実施形態では、前記テンプレートはＮＡＬユニットに含まれ、前記ＮＡＬユニットにおける前記テンプレートの前記存在は前記ＮＡＬユニットタイプによって示される。

この方法の実施形態では、前記テンプレートは、サンプルエントリボックスに、好ましくはデコーダ構成レコードに含まれ、ＮＡＬユニットにおける前記テンプレートの前記存在は、前記サンプルエントリタイプによって、および／または前記サンプルエントリボックス内の１以上のテンプレートインジケータによって示される。

この方法の実施形態では、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記２以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）テンプレートを使用して生成されたパラメータセットおよび／またはＳＥＩメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む。

この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない。

この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータは、ｉ）タイルを使用して符号化され、適合される必要がある前記値は前記タイル構造に関連し、および／またはｉｉ）ブリックを使用して符号化され、適合される必要がある前記値は前記ブリック構造に関連し、および／またはｉｉｉ）スライスを使用して符号化され、適合される必要がある前記値は前記スライス構造に関連する。

この方法の実施形態では、適合される必要がある前記値は、前記ビデオのピクチャおよび／または前記符号化ビデオデータ内のタイルおよび／またはブリックおよび／またはスライスの前記位置を表す。

この方法の実施形態では、前記パラメータセットは、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、またはピクチャパラメータセット（ＰＰＳ）であり、および／または前記ＳＥＩメッセージは、リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージである。

この方法の実施形態では、前記２以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの１以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成を可能にする。

この方法の実施形態では、前記追加情報は、ｉ）各ソーストラックによって含まれる前記符号化ビデオデータの前記幅および高さを識別する構文要素、および／またはｉｉ）リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージの前記生成に関連するプロジェクションマッピング、変換情報および／または保護周波数帯情報を識別する構文要素を記述する。

この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスＩＤを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する。

この方法の実施形態では、前記追加情報は、前記それぞれの構文要素の符号化長および／または符号化モードをさらに含む。

この方法の実施形態では、前記１以上のボックスは、トラックグループタイプのボックスの拡張である。

シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記１以上のランダムアクセスポイントアライメントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記１以上の部分的ランダムアクセスポイントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。

この方法の実施形態では、アクセスユニットの異なる空間部分が異なるＮＡＬユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのＮＡＬユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる。

この方法の実施形態では、前記異なる空間部分を表す前記符号化ビデオデータは異なるソーストラックに含まれ、前記フォーマットされたビデオデータは、全てのソーストラックの前記ランダムアクセスポイントを示す１以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む。

シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項３８から５５のいずれかまたは上記実施形態のいずれかに記載の方法を実行するように適合される、装置。

シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
前記２以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから、前記１以上のグループインジケータと、前記１以上のアクティブソーストラックインジケータと、前記示された２以上のアクティブソーストラックグループの数からの前記符号化ビデオデータとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記１以上のバンドルインジケータと、共にバンドルされている前記２以上のソーストラックグループとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む。

この方法の実施形態では、前記トラックグループ型ボックスはソーストラックに含まれ、および／または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれ、前記方法は、
前記フォーマットされたビデオデータから前記融合情報および前記２以上のソーストラックの組の前記サブセットを読み取り、前記融合情報に基づいて、前記セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組の前記サブセットを融合することを含む。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記レベルインジケータおよび前記ソーストラックグループまたは２以上のソーストラックグループの前記バンドルを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む。

ビデオデータからシーンの空間的に変動する部分を導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要がある前記パラメータセットまたは前記ＳＥＩメッセージの１以上の値を示し、
前記方法は、
前記フォーマットされたビデオデータの前記収集情報から前記テンプレートを読み取り、前記テンプレートによって示される前記パラメータセットまたは前記ＳＥＩメッセージの前記１以上の値を、前記セクション固有のビデオストリームに固有の前記パラメータセットまたはＳＥＩメッセージを生成するように適合させることを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するＸＭＬまたはＪＳＯＮスキーマをさらに含み、前記方法は、
前記ＸＬＭまたはＪＳＯＮスキーマを読み取り、前記パラメータセットまたは前記ＳＥＩメッセージの前記生成においてこれを使用することを含む。

この方法の実施形態では、前記テンプレートは、前記パラメータセットまたは前記ＳＥＩメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す１以上のギャップインジケータをさらに含む。

この方法の実施形態では、前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記２以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）テンプレートを使用して生成されたパラメータセットおよび／またはＳＥＩメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む。

シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから前記１以上のランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、方法。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから前記１以上の部分的ランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む。

この方法の実施形態では、前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む。

ビデオデータからシーンの空間的に変動する部分を導出する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項５７から７４のいずれかまたは上記実施形態のいずれかに記載の方法を実行するように適合される、装置。

コンピュータによって実行された時に、請求項３８から５５または５７から７４または上記実施形態のいずれかに記載の方法を前記コンピュータに実行させる命令を含む、コンピュータプログラム。

コンピュータによって実行された時に、請求項３８から５５または５７から７４または上記実施形態のいずれかに記載の方法を前記コンピュータに実行させる命令を含む、コンピュータ可読媒体。

請求項１から３７のいずれかに記載のビデオデータが記憶されているデジタル記憶媒体。

これらの方法、装置、コンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体は、フォーマットされたビデオデータに関して説明したような対応する特徴を有することができる。

一般に、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法は、たとえば１以上のグループインジケータ、１以上のアクティブソーストラックインジケータ、１以上のグループバンドルインジケータ、レベルインジケータ、１以上の部分的ランダムアクセスポイントインジケータなどの異なるタイプのインジケータ、たとえば構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートなどのテンプレート、およびたとえばｉ）各ソーストラックに含まれる符号化ビデオデータの幅および高さを識別する構文要素、および／またはｉｉ）リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージ、部分的ランダムアクセスポイント情報などの生成に関連するプロジェクションマッピング、変換情報および／または保護周波数帯情報を識別する構文要素などの情報を作成するステップと、フォーマットされたビデオデータにこれらを書き込むステップとを含むことができる。この文脈では、ファイルフォーマットでシグナリングされる特定の情報、ソーストラックグループ、およびグループ内の２以上のアクティブソーストラックの数を決定することが必要となり得る。場合によっては、この決定を、ユーザが必要な情報を入力できるようにするインターフェイスを通じて実行することができ、あるいは符号化ビデオデータ（たとえば、ＲＡＰ情報）から部分的にまたは完全に導出することができる。

同様に、ビデオデータからシーンの空間的に変動する部分を導出する方法は、異なるタイプのインジケータ、テンプレートおよび情報を読み取るステップと、読み取られたデータを使用して異なるタスクを実行するステップとを含むことができる。この方法は、これに基づいてシーンの空間的に変動する部分を導出すること、および／またはセクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成すること、および／または読み取られたＲＡＰ情報に基づいて符号化ビデオデータにアクセスすることを含むことができる。

本発明の実施形態は、特定の実装要件に応じてハードウェアまたはソフトウェアで実装することができる。この実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働できる）、たとえばフロッピーディスク、ＤＶＤ、ＢｌｕＲａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリなどの、電子的に読み取り可能な制御信号を記憶したデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ可読とすることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（たとえば、フィールドプログラマブルゲートアレイ）を使用して、本明細書で説明した方法の機能の一部または全部を実行することができる。

いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書で説明した方法のうちの１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、いずれかのハードウェア装置によって実行されることが好ましい。

本明細書で説明した装置は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。

本明細書で説明した装置、または本明細書で説明した装置のいずれかのコンポーネントは、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装することができる。

本明細書で説明した方法は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実行することができる。

本明細書で説明する方法、または本明細書で説明した装置のいずれかのコンポーネントは、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行することができる。

上述した実施形態は、本発明の原理を説明するものにすぎない。当業者には、本明細書で説明した構成および詳細の修正および変形が明らかになるであろうと理解される。従って、添付の特許請求の範囲によってのみ限定され、本明細書における実施形態の説明および解説によって示される具体的な詳細によって限定されるものではないことが趣旨である。

Claims

シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
前記２以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含む、
ビデオデータ。
前記フォーマットされたビデオデータは、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータをさらに含む、
請求項１に記載のビデオデータ。
前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、および前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータは、前記２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータが含まれるファイルフォーマットの第２のボックスとは別のファイルフォーマットの第１のボックスに含まれる、
請求項２に記載のビデオデータ。
前記第１のボックスはトラックグループ型ボックスであり、前記第２のボックスはトラック参照型ボックスである、
請求項３に記載のビデオデータ。
前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータ、および２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
請求項２に記載のビデオデータ。
前記単一のボックスは、トラックグループ型ボックスまたはトラック参照型ボックスである、
請求項５に記載のビデオデータ。
前記トラックグループ型ボックスはソーストラックに含まれ、および／または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれる、
請求項４または６に記載のビデオデータ。
前記各ソーストラックグループはそれぞれのグループＩＤによって示され、共にバンドルされた前記２以上のソーストラックグループは、共にバンドルされた前記２以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループＩＤの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループＩＤによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記２以上のソーストラックのサブグループは、共通グループＩＤ、共にバンドルされた前記２以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループＩＤの配列によって示される、
請求項２から７のいずれかに記載のビデオデータ。
前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含む、
請求項２から８のいずれかに記載のビデオデータ。
第１のソーストラックグループは、第１の解像度および／または忠実度の符号化ビデオデータを含むソーストラックを含み、第２のソーストラックグループは、前記第１の解像度および／または符号化忠実度とは異なる第２の解像度および／または符号化忠実度の符号化ビデオデータを含むソーストラックを含む、
請求項１から９のいずれかに記載のビデオデータ。
シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記フォーマットされたビデオデータは、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要がある前記パラメータセットまたは前記ＳＥＩメッセージの１以上の値を示す、
ビデオデータ。
前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
請求項１１に記載のビデオデータ。
前記テンプレートは、前記パラメータセットまたは前記ＳＥＩメッセージの前記符号化構造のＸＭＬまたはＪＳＯＮ記述を含む、
請求項１１または１２に記載のビデオデータ。
前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するＸＭＬまたはＪＳＯＮスキーマをさらに含む、
請求項１１から１３のいずれかに記載のビデオデータ。
前記テンプレートは、前記パラメータセットまたは前記ＳＥＩメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す１以上のギャップインジケータをさらに含む、
請求項１１または１２に記載のビデオデータ。
前記ギャップを示す前記１以上のギャップインジケータは、前記テンプレート内のギャップのオフセットおよびサイズを含む、
請求項１５に記載のビデオデータ。
前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成は、前記テンプレート内の前記ギャップを満たした後に、前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを生成するために前記連結符号化構文要素に対してエミュレーション防止を実行することを含む、
請求項１５または１６に記載のビデオデータ。
前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記１以上の値は、有効に符号化されたプレースホルダ値で満たされる、
請求項１１または１２に記載のビデオデータ。
前記テンプレートは、適合される必要があるプレースホルダ値を示す１以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記１以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
請求項１８に記載のビデオデータ。
前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれる、
請求項１２から１９のいずれかに記載のビデオデータ。
前記テンプレートはＮＡＬユニットに含まれ、前記ＮＡＬユニットにおける前記テンプレートの前記存在は前記ＮＡＬユニットタイプによって示される、
請求項１１から１９のいずれかに記載のビデオデータ。
前記テンプレートは、サンプルエントリボックスに、好ましくはデコーダ構成レコードに含まれ、ＮＡＬユニットにおける前記テンプレートの前記存在は、前記サンプルエントリタイプによって、および／または前記サンプルエントリボックス内の１以上のテンプレートインジケータによって示される、
請求項２１に記載のビデオデータ。
前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記２以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）テンプレートを使用して生成されたパラメータセットおよび／またはＳＥＩメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
請求項１２から２１のいずれかに記載のビデオデータ。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
請求項１１から２３のいずれかに記載のビデオデータ。
各ソーストラックによって含まれる前記符号化ビデオデータは、ｉ）タイルを使用して符号化され、適合される必要がある前記値は前記タイル構造に関連し、および／またはｉｉ）ブリックを使用して符号化され、適合される必要がある前記値は前記ブリック構造に関連し、および／またはｉｉｉ）スライスを使用して符号化され、適合される必要がある前記値は前記スライス構造に関連する、
請求項１１から２４のいずれかに記載のビデオデータ。
適合される必要がある前記値は、前記ビデオのピクチャおよび／または前記符号化ビデオデータ内のタイルおよび／またはブリックおよび／またはスライスの前記位置を表す、
請求項２５に記載のビデオデータ。
前記パラメータセットは、ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、またはピクチャパラメータセット（ＰＰＳ）であり、および／または前記ＳＥＩメッセージは、リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージである、
請求項１１から２６のいずれかに記載のビデオデータ。
前記２以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの１以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成を可能にする、
請求項１１から２７のいずれかに記載のビデオデータ。
前記追加情報は、ｉ）各ソーストラックによって含まれる前記符号化ビデオデータの前記幅および高さを識別する構文要素、および／またはｉｉ）リージョンワイズパッキング（ＲＷＰ）ＳＥＩメッセージの前記生成に関連するプロジェクションマッピング、変換情報および／または保護周波数帯情報を識別する構文要素を記述する、
請求項２８に記載のビデオデータ。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスＩＤを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
請求項２８に記載のビデオデータ。
前記追加情報は、前記それぞれの構文要素の符号化長および／または符号化モードをさらに含む、
請求項２８から３０のいずれかに記載のビデオデータ。
前記１以上のボックスは、トラックグループタイプのボックスの拡張である、
請求項２８から３１のいずれかに記載のビデオデータ。
シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含む、
ビデオデータ。
前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含む、
請求項３３に記載のビデオデータ。
前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含む、
請求項３４に記載のビデオデータ。
アクセスユニットの異なる空間部分が異なるＮＡＬユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのＮＡＬユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
請求項３５に記載のビデオデータ。
前記異なる空間部分を表す前記符号化ビデオデータは異なるソーストラックに含まれ、前記フォーマットされたビデオデータは、全てのソーストラックの前記ランダムアクセスポイントを示す１以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む、
請求項３３に記載のビデオデータ。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
前記２以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記ソーストラックグループおよびグループ内の２以上のアクティブソーストラックの前記数を決定し、前記１以上のグループインジケータおよび前記１以上のアクティブソーストラックインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
方法。
前記フォーマットされたビデオデータは、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータをさらに含み、前記方法は、
共にバンドルされている前記２以上のソーストラックグループを決定し、前記１以上のバンドルインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
請求項３８に記載の方法。
前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータ、および２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
請求項３９に記載の方法。
各ソーストラックグループはそれぞれのグループＩＤによって示され、共にバンドルされている前記２以上のソーストラックグループは、共にバンドルされている前記２以上のソーストラックグループの前記数を示すインジケータ、および前記それぞれのグループＩＤの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループＩＤによってソーストラックのサブグループであるものとして示され、共にバンドルされている前記２以上のソーストラックのサブグループは、共通グループＩＤ、共にバンドルされている前記２以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループＩＤの配列によって示される、
請求項３９または４０に記載の方法。
前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
ソーストラックグループまたは２以上のソーストラックグループの前記バンドルを決定し、前記レベルインジケータを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む、
請求項３９から４１のいずれかに記載の方法。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要がある前記パラメータセットまたは前記ＳＥＩメッセージの１以上の値を示し、
前記方法は、
前記テンプレートを作成し、前記フォーマットされたビデオデータの前記収集情報にこれを書き込むことを含む、
方法。
前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
請求項４３に記載の方法。
前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記１以上の値は、有効に符号化されたプレースホルダ値で満たされる、
請求項４３または４４に記載の方法。
前記テンプレートは、適合される必要があるプレースホルダ値を示す１以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記１以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
請求項４５に記載の方法。
前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記２以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）テンプレートを使用して生成されたパラメータセットおよび／またはＳＥＩメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
請求項４４から４６のいずれかに記載の方法。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
請求項４３から４７のいずれかに記載の方法。
前記２以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの１以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成を可能にする、
請求項４３から４８のいずれかに記載の方法。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスＩＤを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
請求項４９に記載の方法。
前記追加情報は、前記それぞれの構文要素の符号化長および／または符号化モードをさらに含む、
請求項４９または５０に記載の方法。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記１以上のランダムアクセスポイントアライメントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
方法。
前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記１以上の部分的ランダムアクセスポイントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
請求項５２に記載の方法。
前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む、
請求項５３に記載の方法。
アクセスユニットの異なる空間部分が異なるＮＡＬユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのＮＡＬユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
請求項５４に記載の方法。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項３８から５５のいずれかに記載の方法を実行するように適合される、
装置。
シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組を含み、
前記２以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す１以上のグループインジケータと、ソーストラックグループ内の２以上のアクティブソーストラックの数を示す１以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから、前記１以上のグループインジケータと、前記１以上のアクティブソーストラックインジケータと、前記示された２以上のアクティブソーストラックグループの数からの前記符号化ビデオデータとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
方法。
前記フォーマットされたビデオデータは、２以上のソーストラックグループが共にバンドルされていることを示す１以上のグループバンドルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記１以上のバンドルインジケータと、共にバンドルされている前記２以上のソーストラックグループとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
請求項５７に記載の方法。
前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記１以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記１以上のアクティブソーストラックインジケータ、および２以上のソーストラックグループが共にバンドルされていることを示す前記１以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
請求項５８に記載の方法。
前記各ソーストラックグループはそれぞれのグループＩＤによって示され、共にバンドルされた前記２以上のソーストラックグループは、共にバンドルされた前記２以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループＩＤの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループＩＤによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記２以上のソーストラックのサブグループは、共通グループＩＤ、共にバンドルされた前記２以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループＩＤの配列によって示される、
請求項５８または５９に記載の方法。
前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは２以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記レベルインジケータおよび前記ソーストラックグループまたは前記２以上のソーストラックグループのバンドルを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
請求項５８から６０のいずれかに記載の方法。
ビデオデータからシーンの空間的に変動する部分を導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む２以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために前記２以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはＳＥＩメッセージを生成するように適合される必要がある前記パラメータセットまたは前記ＳＥＩメッセージの１以上の値を示し、
前記方法は、
前記フォーマットされたビデオデータの前記収集情報から前記テンプレートを読み取り、前記テンプレートによって示される前記パラメータセットまたは前記ＳＥＩメッセージの前記１以上の値を、前記セクション固有のビデオストリームに固有の前記パラメータセットまたはＳＥＩメッセージを生成するように適合させることを含む、
方法。
前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
請求項６２に記載の方法。
前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記ＳＥＩメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記１以上の値は、有効に符号化されたプレースホルダ値で満たされる、
請求項６２または６３に記載の方法。
前記テンプレートは、適合される必要があるプレースホルダ値を示す１以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記１以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
請求項６４に記載の方法。
前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記２以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの１つまたは２つ以上は、ｉ）構成可能パラメータセットおよび／またはＳＥＩメッセージのテンプレート、またはｉｉ）テンプレートを使用して生成されたパラメータセットおよび／またはＳＥＩメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
請求項６４または６５に記載の方法。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
請求項６３から６６のいずれかに記載の方法。
前記２以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの１以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記ＳＥＩメッセージの前記生成を可能にする、
請求項６３から６７のいずれかに記載の方法。
各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスＩＤを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
請求項６８に記載の方法。
前記追加情報は、前記それぞれの構文要素の符号化長および／または符号化モードをさらに含む、
請求項６８または６９に記載の方法。
シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む１以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す１以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから前記１以上のランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
方法。
前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す１以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから前記１以上の部分的ランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
請求項７１に記載の方法。
前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および／または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
請求項７２に記載の方法。
アクセスユニットの異なる空間部分が異なるＮＡＬユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのＮＡＬユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
請求項７３に記載の方法。
ビデオデータからシーンの空間的に変動する部分を導出する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項５７から７４のいずれかに記載の方法を実行するように適合される、
装置。
コンピュータによって実行された時に、請求項３８から５５または５７から７４に記載の方法を前記コンピュータに実行させる命令を含む、
コンピュータプログラム。
コンピュータによって実行された時に、請求項３８から５５または５７から７４に記載の方法を前記コンピュータに実行させる命令を含む、
コンピュータ可読媒体。
請求項１から３７のいずれかに記載のビデオデータが記憶されている、
デジタル記憶媒体。