JP2022551430A - 融合に適したファイルフォーマット - Google Patents

融合に適したファイルフォーマット Download PDF

Info

Publication number
JP2022551430A
JP2022551430A JP2022519251A JP2022519251A JP2022551430A JP 2022551430 A JP2022551430 A JP 2022551430A JP 2022519251 A JP2022519251 A JP 2022519251A JP 2022519251 A JP2022519251 A JP 2022519251A JP 2022551430 A JP2022551430 A JP 2022551430A
Authority
JP
Japan
Prior art keywords
video data
source
track
encoded
formatted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022519251A
Other languages
English (en)
Inventor
ヤゴ サンチェス
ディミトリ ポドボルスキー
カーステン グルーネバーグ
コーネリウス ヘルゲ
トーマス シール
ロバート スクピン
トーマス ウィーガンド
Original Assignee
フラウンホファー ゲゼルシャフト ツール フェルドルンク デル アンゲヴァントテン フォルシュンク エー ファウ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー ゲゼルシャフト ツール フェルドルンク デル アンゲヴァントテン フォルシュンク エー ファウ filed Critical フラウンホファー ゲゼルシャフト ツール フェルドルンク デル アンゲヴァントテン フォルシュンク エー ファウ
Publication of JP2022551430A publication Critical patent/JP2022551430A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、シーンの空間的に変動する部分を導出するためのビデオデータ、ならびにシーンの空間的に変動する部分を導出するためのビデオデータを作成してビデオデータからシーンの空間的に変動する部分を導出するための対応する方法および装置に関する。ビデオデータは、シーンを示すビデオの空間部分を表す符号化ビデオデータを含むソーストラックの組を含み、特定のファイルフォーマットでフォーマットされ、圧縮領域処理を通じた異なる空間部分の統合ビットストリームへの融合をサポートする。【選択図】図3

Description

本出願は、圧縮領域処理を用いた符号化ビデオの空間サブセットの抽出または融合を可能にするファイルフォーマットに関する。具体的には、本出願は、シーンの空間的に変動する部分を導出するためのビデオデータ、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法および装置、ならびに特定のファイルフォーマットでフォーマットされたビデオデータからシーンの空間的に変動する部分を導出する方法および装置に関する。本出願は、対応するコンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体にも関する。
1.序文
通常、AVC(高度ビデオ符号化(Advanced Video Coding))、HEVC(高効率ビデオ符号化(High Efficiency Video Coding))、または現在開発中のVVC(多用途ビデオ符号化(Versatile Video Coding))で符号化されたデータビデオなどの符号化ビデオデータは、たとえばISO/IEC14496-12(オーディオビジュアルオブジェクトの符号化-第12部:ISOベースメディアファイルフォーマット)、ISO/IEC14496-15(オーディオビジュアルオブジェクトの符号化-第12部:ISOベースメディアファイルフォーマットでのネットワーク抽象化層(NAL)ユニット構造化ビデオの搬送)、ISO/IEC23008-12(異種環境における高効率符号化およびメディア配信-第12部:画像ファイルフォーマット)などに規定されているISOベースメディアファイルフォーマットおよびその様々な拡張などの特定のコンテナフォーマットで記憶または送信される。このようなコンテナフォーマットは、たとえばエンドデバイス上で単一のデコーダを使用する目的で圧縮領域処理に依拠して符号化ビデオの空間サブセットの抽出または結合を行う用途を対象とした特別な規定を含む。このような用途例の非包括的リストは以下の通りである。
・ビデオの変化する空間的サブセットを送信する関心領域(RoI)ストリーミング、
・複数の参加者からの符号化ビデオストリームを単一のデコーダで共に復号するマルチパーティ会議、または、
・たとえばVR用途における360度ビデオ再生のためのタイルベースストリーミング。
1.1 360度ビデオのタイル化ストリーミング
後者では、図1に示すようにシーンの360度ビデオが空間的にセグメント化され、各空間セグメントが異なる空間解像度の複数の表現でストリーミングクライアントに提供される。図には、2つの解像度(高解像度および低解像度)で6×4空間セグメントに分割された(左側、前側、右側、後側、下側および上側を含む)キューブマップ投影された360度ビデオを示す。単純化のため、本明細書では、これらの独立して復号可能な空間セグメントをタイルと呼ぶ。選択されたビデオ符号化技術に応じて、タイル、ブリックおよびスライスなどの構造を使用して異なる空間セグメントの独立した符号化を達成することができる。たとえば、現在開発中のVVC(多用途ビデオ符号化)で各タイルを符号化する場合には、たとえば同じまたは異なるピクチャの異なるタイル/ブリック間でイントラ予測またはインター予測が行われないように好適なタイル/ブリック/スライス構造を使用してピクチャを分割することによってこれを達成することができる。たとえば、単一のタイルを別個のスライスとして使用して、各独立して復号可能な空間セグメントを符号化することができ、あるいはブリックの概念をさらに使用してより柔軟なタイル化を行うこともできる。
図2の上部に示すように、通常、ユーザは、最新のヘッドマウントディスプレイ(HMD)を使用する場合、90×90度の視野(FoV)を表す実線のビューポート境界を通じて、360度ビデオ全体を構成するタイルのサブセットのみを見る。図2の上部に網掛け部分として示す対応するタイル(この例では、右側の4つのタイル、下側の2つのタイル、前側の1つのタイルおよび後側の1つの側)は(図の左下にも網掛けで示す)最高解像度でダウンロードされる。
しかしながら、クライアントアプリケーションは、ユーザの突然の方位変化に対応するために、図2の右下に異なる網掛けで示す現在のビューポートの外側の(図2の上部では網掛けされていない)他のタイルの表現をダウンロードして復号する必要もある。従って、このようなアプリケーションのクライアントは、現在のビューポートをカバーしているタイルを最高解像度でダウンロードし、現在のビューポートの外側のタイルを比較的低い解像度でダウンロードする一方で、タイル解像度の選択は常にユーザの向きに適合される。クライアント側でのダウンロード後に、ダウンロードされたタイルを単一のデコーダで処理されるように単一のビットストリームに融合することは、計算リソースおよび電力リソースが限られた典型的なモバイル装置の制約に対処する手段である。図3に、上記の例の統合ビットストリーム(joint bitstream)での考えられるタイル配列を示す。統合ビットストリームを生成するための融合動作は、別個のタイルを立方体上に同期的にレンダリングする前にこれらを互いに独立してトランスコードまたは復号することなどの画素領域での複雑な処理を避けるために、圧縮領域処理を通じてビットストリームレベルで実行する必要がある。
符号化ビデオビットストリームにおけるいわゆる補助強化情報(supplemental enhancement information:SEI)メッセージの形態でのメタデータ記述は、3D空間における立方体(または使用される投影によっては球)の再構成を可能にするために、符号化画像のサンプルが元々の投影(この例ではキューブマップ)内の位置とどのように関連するかを記述する。このリージョンワイズパッキング(region-wise-packing:RWP)と呼ばれるメタデータ記述は、ヘッドマウントディスプレイ(HMD)などのメディア消費装置のビューポートをレンダリングする復号後レンダラー(post-decoding renderer)にとって不可欠なものである。RWP SEIメッセージは、矩形領域およびその投影ビデオとパック化ビデオとの間の変位/変換を定めることによって、(たとえば、図1の左側に示す、復号後のさらなる処理に概念的に必要とされる)投影ビデオ、および(図3、または統合ビットストリームを復号することによって得られる図4の右側に示すような)1つの特定の組み合わせのパック化された符号化ビデオからのマッピングを示す。
図1~図3の例には、全ての解像度版のコンテンツが同様にタイル化され、全てのタイル(高解像度および低解像度)が360度空間全体をカバーし、同じ領域を繰り返しカバーするタイルが存在しない場合を示しているが、図4に示すように別のタイル化を使用することもできる。低解像度版のビデオ全体を、360度ビデオのサブセットをカバーする高解像度タイルと融合することができる。低解像度フォールバックビデオ(fallback video)全体を1つのタイルとして符号化できる一方で、高解像度タイルは、レンダリングプロセスの最終段階においてビデオの低解像度部分のオーバーレイとしてレンダリングされる。
1.2 HEVCを使用したタイル化ストリーミングおよびファイルフォーマットの問題点
HEVCなどのコーデックでは、ビデオビットストリームから見た融合動作の必要性が、ピクチャのタイル構造、および個々のタイル(すなわち、スライス)のCTU(符号化ツリーユニット)アドレスシグナリングに関連する。サーバ側では、これらのタイルが個々の独立したHEVCビットストリームとして存在し(従ってダウンロードされ)、たとえばこれらの各ビットストリームの各々にピクチャ当たりの単一のタイルおよびスライスが含まれる(たとえば、全てのスライスヘッダにおいて1に等しいfirst_slice_in_pic_flag、単一のタイルのみを有するビットストリームを記述するパラメータセット)。この融合動作では、タイル構造および統合ピクチャ平面内の位置を反映するように正しいパラメータセットおよびスライスヘッダを挿入することによって、これらの個々のビットストリームを1つのビットストリームに統合する必要がある。融合の詳細(パラメータセットおよびスライスヘッダの導出および置換)をクライアントの実装に任せるだけでなく、MPEG OMAF(没入型メディアの符号化表現-第2部:全方向メディアフォーマット;ISO/IEC 23090-2)には、クライアントが以下を通じてビットストリームを融合できるようにする最新の方式が規定されている。
・パッケージング段階で正しいパラメータセットおよびスライスヘッダを生成すること、および、
・エクストラクタと呼ばれるファイルフォーマットツールを使用してスライスペイロードをコピーすること。
これらのエクストラクタは、実際にはファイルフォーマットの拡張、すなわちISO/IEC14496-15に定められる、異なるトラックにパッケージ化された(たとえば、1つのタイルのデータを含む)別のNALユニットへのポインタを含む特別なNAL(ネットワーク抽象化層)ユニットタイプのNALユニットである。エクストラクタ自体は、パラメータセットおよび(たとえば、新たなタイル位置、パラメータセット基本値に対する調整された量子化ステップサイズ値などを反映する)修正されたスライスヘッダデータのみを搬送する特別なエクストラクタファイルフォーマットトラック(「hvc2」トラック)に記憶される一方で、エクストラクタが別のトラック内のNALユニット(の一部)を指し示すことによってスライスペイロード(すなわち、復号時のピクチャの実際のサンプル値を構成するエントロピー符号化データ)が参照され、このようなファイルフォーマットトラックが読み込まれた時にコピーされる。
360度ビデオタイルベースのストリーミングシステムでは、このエクストラクタツールが、通常は各タイルがパッケージ化され、適合するHEVCデコーダによって復号されてフルピクチャのそれぞれの空間サブセットをもたらすことができる別個のファイルフォーマットトラック内の独立したHEVCストリームとして提供される設計をもたらす。さらに、ファイルフォーマットツールを介して融合プロセスを実行し、読み込み時に全ての必要なタイルを含む単一の適合するHEVCビットストリームをもたらす、それぞれが特定の視野方向(すなわち、サンプルバジェットなどの復号リソースをビューポート内のタイルに集中させる特定の解像度のタイルの組み合わせ)をターゲットとするこのようなエクストラクタトラックセットが提供される。クライアントは、現在のビューポートに最も適したエクストラクタトラックを選択し、参照されるタイルを含むトラックをダウンロードすることができる。
各エクストラクタトラックは、HEVCSampleEntryに含まれるHEVCConfigurationBoxにパラメータセットを記憶する。これらのパラメータセットは、ファイルフォーマットパッケージ化プロセスにおいて生成され、サンプルエントリのみで利用可能であり、すなわちクライアントがエクストラクタトラックを選択するとパラメータセットが(初期化セグメントを使用して)帯域外で配信され、従って同じエクストラクタトラックを再生している間にパラメータセットが時間と共に変化することはあり得ない。エクストラクタトラックの初期化セグメントは、必要なサンプルエントリに加えて、トラック参照コンテナ(‘tref’)内の依存型trackIDの固定リストも含む。(エクストラクタトラックのメディアセグメントに含まれる)エクストラクタは、エクストラクタによってどのtrackIDが参照されるかを決定するためにこの‘tref’を参照するインデックス値を含む。
しかしながら、この設計には数多くの欠点がある。
・含まれるタイル(すなわちトラック)を明確に参照する別個のエクストラクタトラックを通じて各視野方向(またはタイルの組み合わせ)が表される必要があり、これによってかなりのオーバーヘッドが発生する。クライアントは、そのニーズ(クライアントのFoVおよび遅延考慮など)により良く適合するタイル解像度をもっとうまく選択できる(すなわち、独自の組み合わせを作成できる)可能性がある。また、このようなエクストラクタトラックに含まれるデータは、しばしばタイムライン全体を通じて非常に類似する(インラインおよびサンプルコンストラクタは同じままである)。
・通常、全てのスライスヘッダはエクストラクタを通じて調整される必要があり、これによってさらにかなりのオーバーヘッドが発生する。この結果、依存型トラックへのポインタが多くなり、すなわち大量のバッファコピーを実行する必要があり、これによってJavaScriptを使用するウェブアプリケーションなどでは特にコストが高くなる。
・予め全てのデータが完全にダウンロードされていないと、ファイルフォーマットパーサがエクストラクタトラックを解決することができない。これにより、たとえば全てのビデオデータ(タイル)がダウンロードされてクライアントがエクストラクタトラックのフェッチを待っている時にシステムにさらなる遅延が加わることがある。
・部分的暗号化を適用する必要がある(スライスペイロードをスライスヘッダと無関係に暗号化しなければならない)ので、このようなエクストラクタトラックの一般的暗号化の複雑性が増す。
1.3 タイル化ストリーミングに対するVVC設計およびファイルフォーマットの影響
VVCなどの次のコーデック世代のために、圧縮領域の抽出/誘導動作を単純化するための2つの主な取り組みが行われた。
1.3.1 VVCにおけるタイル化構文
HEVCでは、ピクチャのスライス(NALユニット)への細分割が最終的にスライスヘッダレベルで、すなわち1つのタイル内に複数のスライスを有することまたは1つのスライス内に複数のタイルを有することによってシグナリングされていたが、VVCでは、ピクチャのスライス(NALユニット)への細分割がパラメータセットのみに記述される。タイルの行および列を通じて第1の分割レベルがシグナリングされた後に、いわゆる各タイルのブリック分割を通じて第2の分割レベルがシグナリングされる。さらなるブリック分割を含まないタイルはシングルブリックとも呼ばれる。画像あたりのスライス数および関連するブリックは、パラメータセットに明確に示される。
1.3.2 VVCにおけるスライスアドレスシグナリング
たとえば、HEVCなどの以前のコーデックは、各スライスヘッダ内のCTUラスタースキャン順でのスライスアドレス、特にピクチャサイズに依存する符号化された長さを有するfirst_slice_in_pic_flagおよびslice_addressを通じてスライス位置信号に依拠していた。VVCは、これらの2つの構文要素の代わりにこれらのアドレスの間接参照(indirection)を特徴とし、この場合、スライスヘッダは、明示的なCTU位置の代わりに、関連するパラメータセットによって特定のピクチャ位置にマッピングされる識別子(たとえば、brick_id、tile_id、またはsubpic_id)をスライスアドレスとして搬送する。従って、抽出または融合動作においてタイルを再配置すべきである場合には、各スライスヘッダの代わりにパラメータセットの間接参照のみを調整すればよい。
1.3.3 VVCの構文および意味論
図5に、現在のところ想定されるVVCのピクチャパラメータセットおよびスライスヘッダ構文の関連する抜粋をVVC仕様書(草案6、第11版)から取り込んだものを、関連する構文の前に行番号を付して示す。ピクチャパラメータセット構文の5行目~49行目の構文要素はタイル化構造に関連し、ピクチャパラメータセット構文の54行目~61行目の構文要素およびスライスヘッダ構文のslice_address構文要素はスライス/タイル配置に関連する。
スライス/タイル配置に関連する構文要素の意味論は以下の通りである。
slice_id[i]は、i番目のスライスのスライスIDを指定する。slice_id[i]構文要素の長さは、signalled_slice_id_length_minus1+1ビットである。存在しない場合、slice_id[i]の値は、両端を含む0~num_slices_in_pic_minus1の範囲の各iについてiに等しいものと推測される。
slice_addressは、スライスのスライスアドレスを指定する。存在しない場合、slice_addressの値は0に等しいものと推測される。
rect_slice_flagが0である場合、
・スライスアドレスは、方程式(7~59)によって規定されるブリックIDであり、
・slice_addressの長さは、Ceil(Log2(NumBricksInPic))ビットであり、
・slice_addressの値は、両端を含む0~NumBricksInPic-1の範囲である。
そうでない(rect_slice_flagが1に等しい)場合、
・スライスアドレスはスライスのスライスIDであり、
・slice_addressの長さは、signalled_slice_id_length_minus1+1ビットであり、
・signalled_slice_id_flagが0である場合、slice_addressの値は、0~num_slices_in_pic_minus1の範囲とする。それ以外の場合には、slice_addressの値を0~2(signalled_slice_id_length_minus1+1)-1の範囲とする。
ビットストリーム適合の要件は、以下の制約が当てはまることである。
・slice_addressの値は、同じ符号化ピクチャの他のいずれかの符号化スライスNALユニットのslice_addressの値と等しいものであってはならない。
・rect_slice_flagが0である場合、ピクチャのスライスは、そのslice_address値の昇順とする。
・ピクチャのスライスの形状は、復号時に各ブリックの左側境界全体および上側境界全体がピクチャの境界または以前に復号された(単複の)ブリックの境界から成るようなものとする。
たとえば、本発明が関係するものである将来的なファイルフォーマット拡張などの将来的なコンテナフォーマット統合の設計では、HEVC高水準構文に対するVVC高水準構文の変更を容易にすることができる。より詳細には、本発明は以下を取り扱う側面を含む。
・ソーストラック(タイルのトラック)の融合可能セットへの基本分類、
・構成可能パラメータセットおよび/またはSEIメッセージのためのテンプレート、
・構成可能パラメータセットおよび/またはSEIメッセージのための拡張分類、および、
・トラック結合(track combinations)におけるランダムアクセスポイント指示。
本発明の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
2以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含む。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報(gathering information)と、
を含み、フォーマットされたビデオデータは、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要があるパラメータセットまたはSEIメッセージの1以上の値を示す。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータが提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含む。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
2以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
方法は、
ソーストラックグループおよびグループ内の2以上のアクティブソーストラックの数を決定し、1以上のグループインジケータおよび1以上のアクティブソーストラックインジケータを作成し、フォーマットされたビデオデータにこれらを書き込むことを含む。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要があるパラメータセットまたはSEIメッセージの1以上の値を示し、
方法は、
テンプレートを作成し、フォーマットされたビデオデータの収集情報にこれを書き込むことを含む。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
方法は、
1以上のランダムアクセスポイントアライメントインジケータを作成し、フォーマットされたビデオデータにこれらを書き込むことを含む。
本発明の別の態様によれば、シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置が提供され、ビデオデータは、ファイルフォーマットでフォーマットされ、装置は、請求項38から55のいずれかに記載の方法を実行するように適合される。
本発明の別の態様によれば、シーンの空間的に変動する部分をビデオデータから導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
2以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
方法は、
フォーマットされたビデオデータから、1以上のグループインジケータと、1以上のアクティブソーストラックインジケータと、示された2以上のアクティブソーストラックグループの数からの符号化ビデオデータとを読み取り、これに基づいてシーンの空間的に変動する部分を導出することを含む。
本発明の別の態様によれば、ビデオデータからシーンの空間的に変動する部分を導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要があるパラメータセットまたはSEIメッセージの1以上の値を示し、
方法は、
フォーマットされたビデオデータの収集情報からテンプレートを読み取り、テンプレートによって示されるパラメータセットまたはSEIメッセージの1以上の値を、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合させることを含む。
本発明の別の態様によれば、シーンの空間的に変動する部分をビデオデータから導出する方法が提供され、ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分についての符号化ビデオデータ内のランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
方法は、
フォーマットされたビデオデータから1以上のランダムアクセスポイントインジケータを読み取り、これに基づいて符号化ビデオデータにアクセスすることを含む。
本発明の別の態様によれば、ビデオデータからシーンの空間的に変動する部分を導出する装置が提供され、ビデオデータは、ファイルフォーマットでフォーマットされ、装置は、請求項57から74のいずれかに記載の方法を実行するように適合される。
本発明の別の態様によれば、コンピュータによって実行された時に、請求項38から55または57から74に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラムが提供される。
本発明の別の態様によれば、コンピュータによって実行された時に、請求項38から55または57から74に記載の方法をコンピュータに実行させる命令を含むコンピュータ可読媒体が提供される。
本発明の別の態様によれば、請求項1から37のいずれかに記載のビデオデータが記憶されているデジタル記憶媒体が提供される。
請求項1から37のビデオデータ、請求項38から55の方法、請求項56の装置、請求項57から74の方法、請求項75の装置、請求項76のコンピュータプログラム、請求項77のコンピュータ可読媒体、および請求項78のデジタル記憶媒体は、具体的には従属請求項に定められるような同様および/または同一の好ましい実施形態を有すると理解されたい。
本発明の好ましい実施形態は、従属請求項または上記の実施形態とそれぞれの独立請求項とのいずれかの組み合わせとすることもできると理解されたい。
以下、添付図面を参照しながら本発明の実施形態をさらに詳細に説明する。
キューブマップ投影内の360度ビデオを2つの解像度(高解像度および低解像度)で6×4タイルにタイル化して示す図である。 ユーザが最新のヘッドマウントディスプレイ(HMD)を使用する際に360度ビデオ全体を構成するタイルのサブセットのみを典型的にどのように見るかを示す図である。 図1および図2の例における統合ビットストリーム内の考えられるタイル配置を示す図である。 ビデオの低解像度バージョン全体と360度ビデオのサブセットをカバーする高解像度タイルとを融合できる別のタイル化を示す図である。 VVC仕様書(草案6、第11版)から取り込んだ、現在のところ想定されるVVCのピクチャパラメータセットおよびスライスヘッダ構文の関連する抜粋を示す図である。 テンプレート作成ルールを提供するために使用される、ファイルフォーマットのボックス内で搬送されるXMLスキーマを示す図である。 VVCDecoderConfigurationRecord内にパラメータセットテンプレートを記憶し、オフセット値およびサイズ値を使用してギャップをシグナリングする、テンプレートギャップの概念を示す図である。 ファイルフォーマット仕様によって許容される2つのタイプのデコーダ構成プロセス、すなわち帯域外パラメータセットおよび帯域内パラメータセットの使用を示す図である。 収集トラックが、帯域外(サンプルエントリ内)に記憶されたパラメータセットテンプレートを含み、クライアントによって全ての必要なメディアセグメントが選択された時に帯域内に存在できる「生成パラメータセット」を作成するためにこのテンプレートが使用される、生成パラメータセットの新たな概念を示す図である。
以下で図面に関して行う本発明の実施形態の説明は、最初にソーストラック(タイルのトラック)の融合可能セットへの基本分類に関連する実施形態に重点を置く。その後、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートに関する実施形態について説明した後に、構成可能パラメータセットおよび/またはSEIメッセージおよびトラック結合におけるランダムアクセスポイント指示のための拡張分類に関する実施形態について説明する。特定の用途では、これらの概念の各々を活用するために4つの全てのタイプの実施形態を共に使用することができる。
実施形態の理解を動機付けして容易にするために、2つの解像度(高解像度および低解像度)で6×4空間セグメントにタイル化された、図1~図3に示すシーンのキューブマップ投影に基づく360度ビデオ再生用途の例について説明する。このようなキューブマップ投影は、シーンの空間的に変動する部分を導出するように配置されたビデオデータを構成する。たとえば、図2の上部に示すように、ユーザはヘッドマウントディスプレイ(HMD)を使用して90度×90度の視野を見ることができる。図2の事例では、FoVを表すのに必要なタイルのサブセットが、キューブマップ投影の右側の4つのタイル、下側の2つのタイル、前側の1つのタイル、および後側の1つのタイルである。当然ながら、ユーザの視野方向によっては、ユーザの現在のFoVを表すために他のタイルのサブセットが必要になることもある。クライアントアプリケーションは、高解像度でダウンロードして復号できるこれらのタイルに加えて、ユーザの突然の方位変化に対応するためにビューポートの外側の他のタイルをダウンロードすることが必要になる場合もある。クライアントアプリケーションは、これらのタイルを低解像度でダウンロードして復号することができる。上述したように、クライアント側でのダウンロード後には、たとえば計算リソースおよび電力が限られた典型的なモバイル装置の制約に対処するために、ダウンロードされたタイルを単一のデコーダによって処理されるように単一ビットストリームに融合することが望ましいと考えられる。
この例では、現在開発中のVVC(多用途ビデオ符号化)を使用して、各タイルが独立して復号可能なように符号化されることを想定する。この符号化は、たとえば同じまたは異なるピクチャの異なるタイル/ブリック間でイントラまたはインター予測が実行されないように、好適なタイル/ブリック/スライス構造を使用してピクチャを分割することによって達成することができる。VVC仕様(草案6、第11版)から取り込んだ、現在のところ想定されるVVCのピクチャパラメータセットおよびスライスヘッダの構文の抜粋を示す図5から分かるように、VVCは、ピクチャ内の特定のタイル内のCTU(符号化ツリーユニット)行の矩形領域を指定するいわゆるブリックによって、HEVCから知られているタイルおよびスライスの概念を拡張する。従って、タイルは、それぞれがタイル内の1以上のCTU行から成る複数のブリックに分割することができる。この拡張タイル/ブリック/スライス構造を使用して、圧縮領域処理を通じて高解像度ビデオの4×2空間セグメントと低解像度ビデオの4×4空間セグメントとが統合ビットストリームに融合された図3に示すようなタイル配置を容易に形成することができる。
本発明によれば、この融合プロセスは、ビデオデータがフォーマットされる特定の「融合に適した」ファイルフォーマットによってサポートされる。この例では、このファイルフォーマットが、ビデオおよびオーディオなどの時間ベースのマルチメディアファイルの一般的構造を定めるISOベースメディアファイルフォーマット(ISO/IEC 14496-12)にさらに基づくMPEG OMAF(ISO/IEC 23090-2)の拡張である。このファイルフォーマットでは、異なる空間セグメントに対応する独立して復号可能なビデオデータが、本明細書ではソーストラックまたはタイルのトラックとも呼ぶ異なるトラックに含まれる。
なお、この例では、基本的なビデオコーデックとしてVVCを想定しているが、本発明はVVCの適用に限定されるものではなく、HEVC(高効率ビデオ符号化)などの他のビデオコーデックを使用して本発明の異なる態様を実現することもできる。さらに、この例ではファイルフォーマットをMPEG OMAFの拡張であるように想定しているが、本発明はこのような拡張に限定されるものではなく、他のファイルフォーマットまたは他のファイルフォーマットの拡張を使用して本発明の異なる態様を実現することもできる。
2.ソーストラックの融合可能セットへの基本分類
本発明の第1の態様によれば、基本分類機構が、いくつかのソーストラックが同じグループに属しており、そのグループに属するタイルのうちの所与の数を再生すべきである旨をファイルフォーマットパーサに示すことを可能にする。
この点、フォーマットされたビデオデータは、2以上のソーストラックの組を含み、各ソーストラックは、シーンを示すビデオの空間部分を表す符号化ビデオデータを含む。2以上のソーストラックの組はソーストラックグループを含み、フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含む。この例では、第1のソーストラックグループが、キューブマップ投影の6×4高解像度タイルを含み、第2のソーストラックグループが、6×4低解像度タイルを含む。このことは、1以上のグループインジケータによって示すことができる。さらに、上述したように、ユーザの想定されるFoVが90度×90度である場合、ユーザの現在の視野を表すために24個の高解像度タイルのうちの8つを再生する必要があり、一方でユーザの突然の方位変化を可能にするために低解像度タイルのうちの16個を送信する必要もある。第1のグループの8つのソーストラックおよび第2のグループの16個のソーストラックは「アクティブ」ソーストラックと呼ぶことができ、これらのそれぞれの数は1以上のアクティブソーストラックインジケータによって示すことができる。
1つの実施形態では、1以上のグループインジケータが含まれるファイルフォーマットの第1のボックス、たとえばトラックグループタイプボックスを使用することによってこれを実現することができる。ISOベースメディアファイルフォーマットからのトラックグループボックスの概念に基づく考えられる構文および意味論は、以下のようなものとすることができる。
Figure 2022551430000002
track_group_typeは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの1つに設定される。
[...]
・‘aaaa’は、このトラックが、track_group_IDの値が同じであるトラックのグループに属しており、そのうちのnum_active_tracksのサブセットを再生すべきであることを示す。num_active_tracksは1よりも大きくなければならない。
この事例では、1以上のグループインジケータが構文要素track_group_IDによって実現され、1以上のアクティブソーストラックインジケータが構文要素num_active_tracksによって実現される。また、トラックグループのタイプボックスが構文要素num_active_tracksを含むことを示す新たなtrack_group_typeが定められる(‘aaaa’はほんの一例である)。この種のトラックグループタイプボックスは、グループに属する各それぞれのソーストラック内でシグナリングすることができる。
第1のグループに属するソーストラックおよび低解像度グループに属するソーストラックは、いずれも360度ビデオ再生用途を実現するために必要とされるため、本出願は、2以上のソーストラックグループが共にバンドルされていることをファイルフォーマットパーサに示す可能性をさらに予測する。この点、フォーマットされたビデオデータは、このようなバンドリングを示す1以上のグループバンドルインジケータをさらに含む。
別の実施形態では、ソーストラック毎の上記シグナリングと組み合わせて、たとえばトラック参照タイプボックスなどの別の第2のボックスを使用して、1つの組み合わせで使用される複数のグループを(たとえば、高解像度タイルのための1つのtrack_group_ID値および低解像度タイルのための1つのtrack_group_ID値を使用して)共にバンドルすることによってこれを実現することができる。
track_group_IDの一意性を示すタイプ‘aaaa’のTrackGroupTypeBoxでは、‘tref’を介してグループを参照できるように(flags&1)の値を1に等しいものとする。
track_group_IDへのトラック参照の一般的意味論によって暗示されるように、‘aaaa’ソーストラックグループのnum_active_tracksトラックが‘tref’の解決に使用される。
あるいは、別の実施形態では、ソーストラックグループが再生すべきトラックの数を示さず、代わりに以下のようなトラック参照タイプボックスの拡張を通じてこの特性が表される。
Figure 2022551430000003
この事例では、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータ、ソーストラックグループ内のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータ、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータが、ファイルフォーマットの単一のボックス、この事例ではトラック参照タイプボックスに含まれる。
構文要素num_track_group_IDsは、トラック参照タイプボックス内でバンドルされているソーストラックグループの数を示し、構文要素track_group_IDs[i]およびnum_active_tracks_per_track_group_IDs[i]は、トラックグループIDおよびアクティブトラックの数をグループ毎に示す。換言すれば、この実施形態では、各ソーストラックグループがそれぞれのグループID(たとえば、track_group_ID)によって示され、共にバンドルされている2以上のソーストラックグループが、共にバンドルされている2以上のソーストラックグループの数を示すインジケータ(たとえば、num_track_group _IDs)およびそれぞれのグループIDの配列(たとえば、track_group_IDs[i])によって示される。
後者の2つの実施形態では、フォーマットされたビデオデータが、セクション固有のビデオデータストリームを生成するために2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含むことができ、トラック参照ボックスは収集トラックに含まれる。
あるいは、さらに別の実施形態では、同じ解像度(たとえば、高解像度および低解像度)のタイルを集めたソーストラックの(サブ)グループを共にバンドルするためにソーストラックシグナリングが使用される。この場合も、この実施形態は、ISOベースメディアファイルからのトラックグループボックスの概念に基づくことができ、その考えられる構文および意味論は以下の通りである。
Figure 2022551430000004
track_group_typeは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの1つに設定される。
[...]
・‘bbbb’は、このトラックが、track_group_IDの値が同じであるトラックグループ、およびtrack_subgroup_IDの値が同じであるサブグループに属しており、そのうちのnum_active_tracks_per_track_subgroup_IDs[i]トラックのサブセットを再生すべきであり、track_subgroup_IDs[i]がtrack_subgroup_IDに等しいことを示す。
このように、この事例では、各ソーストラックグループが、それぞれのサブグループID(たとえば、track_subgroup_ID)によってソーストラックのサブグループであるように示され、共にバンドルされた2以上のソーストラックサブグループが、共通グループID(たとえば、track_group_ID)、共にバンドルされた2以上のソーストラックサブグループの数を示すインジケータ(たとえば、num_track_subgroup_IDs)、およびそれぞれのサブグループIDの配列(たとえば、track_subgroup_IDs[i])によって示される。
あるいは、本発明のさらに別の実施形態では、さらなるグループ固有レベルのシグナリングが、サポートされているデコーダのレベル能力に適合するグループ/サブグループの組み合わせをクライアントが選択できるようにする。たとえば、トラックグループタイプボックスを使用した最後の実施形態の拡張は以下のようなものとすることができる。
Figure 2022551430000005
track_group_typeは分類タイプを示し、以下の値または登録された値、あるいは導出された仕様または登録からの値のうちの1つに設定される。
[...]
・‘cccc’は、このトラックが、track_group_IDの値が同じであるトラックグループ、およびtrack_subgroup_IDの値が同じであるサブグループに属しており、そのうちのnum_active_tracks_per_track_subgroup_IDs[i]トラックのサブセットを再生すべきであり、track_subgroup_IDs[i]はtrack_subgroup_IDに等しく、track_group_IDを有するグループの再生がそのグループに対応するビットストリームのlevel_idcのレベルに対応し、結果として得られるビットストリームが、num_track_subgroup_IDsサブグループの各々について指示された数のnum_active_tracks_per_track_subgroup_IDs[i]トラックを伴うことを示す。
換言すれば、この事例では、フォーマットされたビデオデータが、指示された数のトラックが共に再生された時のソーストラックグループまたは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータ(たとえば、level_idc)をさらに含む。
なお、レベルインジケータは、説明する他の実施形態でも提供することができる。さらに、2以上のソーストラックグループは、必ずしも解像度(のみ)が異なっていなければならないわけではなく、むしろこれに加えてまたはこれに代えて符号化忠実度が異なることもできる。たとえば、第1のソーストラックグループは、第1の解像度および/または忠実度の符号化ビデオデータを含むソーストラックを含むことができ、第2のソーストラックグループは、第1の解像度および/または符号化忠実度とは異なる第2の解像度および/または符号化忠実度の符号化ビデオデータを含むソーストラックを含むことができる。
3.構成可能パラメータセットおよび/またはSEIメッセージのテンプレート
上述したように、特定の用途は、プレイアウトコンテキスト(playout context)に応じてパラメータセットまたはSEIメッセージの変種(タイル位置およびタイル隣接(tile neighbors)が変化する融合されたビットストリーム内のタイルの統合復号)を必要とする。従って、多くの場合、複数の組み合わせに当てはまる単一のパラメータセットを有することは容易ではなく可能でもない。
1つの実施形態は、たとえば上述したように分類機構をシグナリングし、パラメータセットテンプレートのいくつかの値を変更する必要がある旨をさらに示すことから成る。たとえば、上述したように、タイル選択のみを変化させる例を参照すると、使用される分類モードは、slice_address(HEVC用語)またはslice_id(図5に示すピクチャパラメータセット構文テーブルで使用される現在のVVC用語)を修正する必要がある旨を示す。別の分類モード値は、RWP SEIメッセージの調整が必要であり、またはタイル化に関連する構文要素も調整する必要があることを示す。
このような手法の欠点は、異なる構文要素の変更が必要となり得る(時にはslice_idの、他の使用事例ではタイル化パラメータなどの異なる構文要素の置換が必要となり得る)使用事例毎に、異なるグループタイプまたは同様の指示をシグナリングする必要がある点である。あらゆる構文要素の変更およびどの構文要素を変更する必要があるかを示すことを可能にする、より柔軟かつ汎用的な手法の方が有益である。
この目的のために、別の実施形態では、ファイルフォーマットのボックス内で、影響を受けないパラメータセット値の表現、すなわちパラメータセットテンプレートが搬送される。クライアントは、そのタイル/トラック選択に応じて正しいパラメータセットを生成するためにこの表現を使用することができる。
従って、本発明のこの第2の態様によれば、フォーマットされたビデオデータは、それぞれがシーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、セクション固有のビデオデータストリームを生成するために2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報とを含む。収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、このテンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要があるパラメータセットまたはSEIメッセージの1以上の値を示す。いくつかの実施形態では、フォーマットされたビデオデータが、収集情報を含む収集トラックを含む。以下、この態様の異なる実施形態について説明する。
3.1 XML/JSONテンプレート
1つの実施形態では、パラメータセットテンプレートおよび/またはSEIメッセージテンプレートが、構文要素名および値、また場合によってはこれらの符号化を含むパラメータセットまたはSEIメッセージの符号化構造のXMLまたはJSON記述である。クライアント(ファイルフォーマットパーサ)は、このXML/JSON記述から、個々の構文要素をそれぞれの形態で符号化し、結果を連結し、エミュレーション防止を実行することによって、パラメータセット/SEIメッセージのビットストリーム表現を生成することができる。たとえばタイル化レイアウト内のタイルの位置を調整するための構文要素slice_idまたは同等の情報などの、ファイルフォーマットパーサによって調整される必要がある構文要素については、それぞれのフィールドがXML/JSON記述において以下のようにマークされることが望ましい。
Figure 2022551430000006
別の実施形態では、ファイルフォーマットのボックス内で搬送されるXMLまたはJSONスキーマを使用してテンプレート作成のためのルールを提供する。図6に、XMLを用いたこのようなスキーマの一実施形態を示す。XML/JSONスキーマを使用する利点は、構文要素符号化オプション(たとえば、固定長対可変長符号化、指数ゴロム符号など)が既知である限り、受信側ファイルフォーマットパーサが、基本的なコーデックを事前に認識することなく適合するパラメータセット/SEIメッセージビットストリームを生成できる点である。さらなる利点は、単一のスキーマを一旦定義できれば、このスキーマを使用して、生成される全てのパラメータセットテンプレートおよび/またはSEIメッセージテンプレート容易に検証できる点である。対応するパラメータセットテンプレートを有するXML/JSON記述メタデータは、初期化セグメント内に位置する収集トラックのトラックボックス(‘trak’)に記憶されることが好ましい。
3.2 エミュレーション防止を含まないビットストリームテンプレート
別の実施形態では、パラメータセットテンプレートおよび/またはSEIメッセージテンプレートが、パラメータセット/SEIメッセージの符号化ビットストリーム形態に基づき、すなわち、個々の構文要素値が仕様(たとえば、固定長対可変長符号、指数ゴロム符号など)に従って符号化され、その指定順に従って連結される。ただし、この形態はエミュレーション防止バイト(emulation prevention bytes)を含まない。従って、このようなパラメータセットをビデオビットストリーム内で使用する前にエミュレーション防止を実行する必要がある。
1つの実施形態では、パラメータセットテンプレートおよび/またはSEIメッセージテンプレートが、構文要素値、すなわちslice_idなどのその符号化表現を挿入すべきギャップの指示を伝える。
従って、一般的な意味において、テンプレートは、適合される必要がない値がテンプレート内で有効に符号化されるパラメータセットまたはSEIメッセージの連結符号化構文要素を含むことができるとともに、適合される必要がある有効に符号化された値で満たすべきテンプレート内のギャップを示す1以上のギャップインジケータをさらに含む。ギャップを示す1以上のギャップインジケータは、テンプレート内のギャップのオフセットおよびサイズを含むことが好ましい。
図7に、VVCDecoderConfigurationRecord内にパラメータセットテンプレートが記憶され、対応するオフセットおよびサイズ値を使用してギャップがシグナリングされるテンプレートギャップの概念を示す。ギャップは、たとえばVVCDecoderConfigurationRecordの開始に対するビットストリームブロブ位置(オフセット)およびギャップのサイズを定め、パラメータセットまたはSEIメッセージのどの要素がそのブロブの次の要素であるかを仕様に従ってシグナリングしながらシグナリングすることができる。1つの実施形態では、このようなテンプレートギャップにslice_id値(図5を参照)を挿入することができる。別の実施形態では、パラメータセットテンプレートギャップにタイル化構造構文値(tiling structure syntax values)(図5を参照)が挿入される。
セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージの生成は、テンプレート内のギャップを満たした後に、パラメータセットまたはSEIメッセージの符号化ビットストリームを生成するために連結符号化構文要素に対してエミュレーション防止を実行することを含むことが好ましい。
3.3 プレースホルダ値を有するテンプレート
別の実施形態では、VVCDecoderConfigurationRecord内に記憶されたパラメータセットテンプレートおよび/またはSEIメッセージテンプレートが完全に復号可能であり、すなわち、これらは通常の非テンプレートパラメータセットまたはSEIメッセージと同様にエミュレーション防止を含むビットストリーム形態で記憶されるが、調整すべきフィールドは符号化毎の有効なプレースホルダ値で満たされる。このようなテンプレートパラメータセットは完全に仕様に準拠しており、標準的な対応するVVCパーサによって解析することができる。このようなパラメータセットテンプレートおよび/またはSEIメッセージテンプレートを使用するという発想は、これらのパラメータセット/SEIメッセージをパーサが処理すると、生成されたパラメータセット/SEIメッセージの定義を完結するために、そのインスタンスを使用して必要な値を容易に上書きできるということである。
従って、一般的な意味において、テンプレートは、適合される必要がある1以上の値が符号化ビットストリームにおいて有効に符号化されたプレースホルダ値で満たされるエミュレーション防止バイトを含むパラメータセットまたはSEIメッセージの符号化ビットストリームを含むことができる。上記のセクション3.2で説明したこの実施形態の変形例では、1以上のギャップインジケータが、適合される必要があるプレースホルダ値を示すプレースホルダ値インジケータに対応し、プレースホルダ値を示す1以上のプレースホルダ値インジケータが、テンプレート内のプレースホルダ値のオフセットおよびサイズを含むと理解される。
3.4 可能な実現化
以下では、上記実施形態、すなわち新たなサンプルエントリタイプ‘vvcG’を含むサンプルエントリ内のデコーダ構成レコードボックスの可能な実現化を示しており、ここではループ「for(i=0;i<numNalus;i++)」内で、NALユニットが、たとえばパラメータセットテンプレートまたはSEIメッセージテンプレート、あるいはパラメータセットテンプレートまたはSEIメッセージテンプレートのXML/JSON base64符号化表現を形成するビットストリームを含むことができる。
Figure 2022551430000007
この実現化では、テンプレートがデコーダ構成レコード(たとえば、VvcDecoderConfigurationRecord)に含まれるが、たとえばサンプル記述ボックス内の別の位置、またはサンプルエントリボックス内の別の位置などの、初期化セグメント内の別の位置に含めることもできる。さらに、NALユニットにおけるテンプレートの存在は、(たとえば、テンプレートを含むNALユニットを示す特定のNALユニットタイプを定めることによって)NALユニットタイプによって示されることが好ましい。
タイプ‘vvcG’のサンプルエントリ内にパラメータセットテンプレートまたはSEIメッセージテンプレートを示すことに加えて、パラメータセットテンプレートまたはSEIメッセージテンプレートの存在は、通常の「vvc1」サンプルエントリのデコーダ構成レコード内の追加フラグtemplateNaluによっても示されることが好ましい。このフラグは、たとえば「for(i=0;i<numNalus;i++)」ループ内の各NALユニットについて提供することができる。
従って、一般的な意味において、テンプレートは、サンプルエントリボックス、好ましくはデコーダ構成レコードに含めることができ、NALユニットにおけるテンプレートの存在は、サンプルエントリボックス内のサンプルエントリタイプ(たとえば、‘vvcG’)および/または1以上のテンプレートインジケータ(たとえば、templateNalu)によって示される。
これらの実施形態では、補足強化情報(SEI)メッセージなどのさらなるNALユニットタイプを上記テンプレート形態のいずれかで搬送し、クライアント側で選択された特定の組み合わせに依存して適宜修正することができる。このようなSEIメッセージの1つは、AVCおよびHEVCによって規定されるRWP SEIメッセージである。
パラメータセットまたはSEIメッセージ内のパラメータ/構文要素の置換を容易にするために、たとえば収集トラックおよび結合されるように選択されたソーストラックなどの収集情報内で部分的にシグナリングされる分類メカニズムを通じて必要な追加情報が存在する。この態様についてはセクション4でさらに後述する。
3.5 トラック毎の搬送vsサンプル毎の搬送
説明する構成可能パラメータセットおよび/またはSEIメッセージのための方法は、たとえば上記実施形態のように初期化セグメントのデコーダ構成レコード内に存在することも、または特定のサンプルにおけるトラック内に存在することもできる。パラメータセットテンプレートがたとえばメディアサンプルとしてトラック内に含まれる場合には、たとえばXML/JSONフォーマットでパラメータセットテンプレートまたはSEIメッセージテンプレートとしての新たなサンプルフォーマットを定めることができる。
別の実施形態では、VVCにおける外部使用のために予約されたNALユニットタイプを有するNALユニットが使用され、NALユニットの本体(すなわち、NALユニットペイロード)は、サンプルグループ情報または同様のものにおけるいくつかの値に従って変更される必要がある(何とか区別可能な)いくつかのパラメータおよびプレースホルダ値で満たされる。この目的のために、この特別なNALユニット構造のNALユニットペイロードに、説明する方法(「変更すべき」フィールドが識別されたXML/JSONまたはビットストリームフォーマットのテンプレート)のいずれかを挿入することができる。
図8に、ファイルフォーマット仕様によって許容される2つのタイプのデコーダ構成プロセスを示す。
・初期化セグメント内の対応するデコーダ構成レコードボックス内のサンプルエントリのみに含まれる帯域外パラメータセット。
・サンプルエントリに含まれるが、メディアサンプル自体で送信することもでき、同じファイルフォーマットトラックを再生しながらデコーダの構成が時間と共に変更されることを可能にする帯域内パラメータセット。
OMAFバージョン1では360度ビデオに帯域外信号のみが許可されており、各エクストラクタトラックは、ファイルフォーマットパッケージャによって固定タイル化構成のために生成された予め定められたパラメータセットを含む。従って、クライアントは、このタイル化構成を変更したいと望む度に収集トラックを変更し、対応するパラメータセットでデコーダを再初期化する必要がある。
前のセクションで既に説明したように、このような特定のタイル化構成のための予め定められたパラメータセットを有するということは、クライアントが特定のタイル化スキームのための予め定められたエクストラクタトラックにしか作用することができず、(エクストラクタNALユニットを伴わずに)必要なタイル自体を柔軟に融合できないため大きな欠点である。
従って、本発明の着想は、帯域内パラメータセットの概念と帯域外パラメータセットの概念とを組み合わせ、両概念を含む解決策を生み出すことである。図9に、生成されたパラメータセットの新たな概念を示す。対応する収集トラックは、帯域外(サンプルエントリ内)に記憶されたパラメータセットテンプレートを含み、このテンプレートは、全ての必要なメディアセグメントがクライアントによって選択された時に帯域内に存在できるようになる「生成パラメータセット」を作成するために使用される。ファイルフォーマットトラック分類機構は、ダウンロードされたタイルの選択されたサブセットに基づいてパラメータセットテンプレートを更新する方法に関する情報を提供するために使用される。
1つの実施形態では、メディアセグメントが、選択されたタイル(図9の‘vvcG’)のメディアセグメントの合計として暗黙的に定められるように、収集トラックがメディアセグメント自体を含んでいない。従って、収集トラックの初期化セグメント(サンプルエントリなど)には、生成されたパラメータセットの作成に必要なメタデータ全体が含まれる。
別の実施形態では、収集トラックが、パラメータセット生成のためのさらなるメタデータを提供するメディアセグメントも含む。これにより、サンプルエントリからのメタデータのみに依拠するのではなく、パラメータセット生成の挙動を一定期間にわたって変更できるようになる。
従って、一般的な意味において、テンプレートは、収集トラックの初期化セグメント、好ましくはサンプル記述ボックス、さらに好ましくはサンプルエントリボックス、最も好ましくはデコーダ構成レコードに含めることができ、融合情報は、2以上のソーストラックの組のサブセットの符号化ビデオデータへの参照を含むメディアセグメントを含み、メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)生成されたセクション固有のビデオデータストリームのメディアセグメントにテンプレートと共に生成されたパラメータセットおよび/またはSEIメッセージが含まれることを示すインジケータをさらに含む。
なお、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートの使用に関連する全ての実施形態では、スライスを使用して各ソーストラックに含まれる符号化ビデオデータを符号化することができ、セクション固有のビデオデータストリームの生成は、スライスのスライスヘッダの値を適合させることを必要としない。
各ソーストラックに含まれる符号化ビデオデータは、i)タイルを使用して符号化され、適合される必要がある値はタイル構造に関連し、および/またはii)ブリックを使用して符号化され、適合される必要がある値はブリック構造に関連し、および/またはiii)スライスを使用して符号化され、適合される必要がある値はスライス構造に関連する、ことが好ましい。とりわけ、適合される必要がある値は、ビデオのピクチャおよび/または符号化ビデオデータ内のタイルおよび/またはブリックおよび/またはスライスの位置を表すことができる。
パラメータセットは、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、またはピクチャパラメータセット(PPS)であることが好ましく、および/またはSEIメッセージは、リージョンワイズパッキング(regionwise-packing:RWP)SEIメッセージであることが好ましい。
4.構成可能パラメータセットおよび/またはSEIメッセージのための拡張分類
序文において説明したように、ソーストラックグループを共に復号できることを表す現在最新の方法は、図2に示すような適切なパラメータセットを搬送して1つの特定の有効な組み合わせを形成するそれぞれのトラックを明確に参照する上述したエクストラクタトラックによるものである。この最新の解決策(ビューポート当たりに1つのトラック)のオーバーヘッドを低減するために、本発明は、どのトラックを組み合わせることができるか、および組み合わせのためのルールをより柔軟に示す。従って、本発明の一部として、2以上のソーストラックの組は、各ボックスがソーストラックの特性を識別する構文要素を記述するための追加情報を含むファイルフォーマットの1以上のボックスを含むことができ、この追加情報は、符号化ビデオデータを解析する必要なくセクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージの生成を可能にする。
1つの実施形態では、追加情報が、統合ビットストリーム内のスライスおよびその結合ピクチャ内の位置を識別するために関連するVCL NALユニットのスライス構造を識別する、スライスヘッダにおいて使用されるスライスIDまたは別の情報を識別する構文要素を記述する。
別の実施形態では、追加情報が、i)各ソーストラックに含まれる符号化ビデオデータの幅および高さを識別する構文要素、および/またはii)リージョンワイズパッキング(RWP)SEIメッセージの生成に関連するプロジェクションマッピング、変換情報および/または保護周波数帯情報(guard band information)を識別する構文要素を記述する。たとえば、符号化ビデオデータの幅および高さは、符号化サンプルの単位または最大符号化ブロックの単位で識別することができる。RWP SEIメッセージについては、プロジェクションマッピングを識別する構文要素が、プロジェクションマッピング内の矩形領域の幅および高さ、ならびに上部および左の位置を含む。さらに、変換情報を識別する構文要素は、回転およびミラーリングを含むことができる。
さらに、別の実施形態では、追加情報が、構成可能パラメータセットまたはSEIメッセージの作成を容易にするために、それぞれの構文要素の符号化長および/または符号化モード(たとえば、u(8)、u(v)、ue(v))をさらに含む。
1つの実施形態では、上記ボックスの構文が以下の通りである。上述したように、各ソーストラックの各初期化セグメントは、拡張トラックグループタイプボックスを有する‘trak’ボックス(トラックボックス)の内部に‘trgr’ボックス(トラック分類指示)を含む。この結果、トラックグループタイプボックスの拡張において以下のような新たな構文を搬送することができる。
Figure 2022551430000008

Figure 2022551430000009
5.トラック結合におけるランダムアクセスポイント指示
VVCでは、同じアクセスユニット内にNALユニットタイプが混在することがあり、この場合、IDR NALユニットが非IDR NALユニットと混在し、すなわちいくつかの領域はインター予測を使用して符号化できるのに対し、ピクチャ内の他の領域はイントラ符号化されて、この特定の領域の予測チェーンをリセットすることがある。このようなサンプルでは、クライアントがピクチャの一部でそのタイル選択を変更することがあり、このため、たとえば非IDR NALユニットであっても抽出時に瞬間的デコーダリフレッシュ(instantaneous decoder refresh:IDR)特性を有することを示すサブピクチャランダムアクセスポイント(RAP)を示すように、これらのサンプルをファイルフォーマットシグナリング機構でマークすることが不可欠である。
本発明のこの態様では、シーンを示すビデオの異なる空間部分を単一のソーストラックで提供することもできる。従って、シーンの空間的に変動する部分を導出するためのビデオデータが予測され、このビデオデータは、ファイルフォーマットでフォーマットされ、シーンを示すビデオの空間的部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含む。符号化ビデオデータはランダムアクセスポイントを使用して符号化され、フォーマットされたビデオデータは、全ての空間部分の符号化ビデオデータにおけるランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含む。
たとえば、1つの実施形態では、ピクチャの異なる領域が複数のソーストラックに分離される。分類メカニズムでは、RAPが整列しているか否かがシグナリングされることが好ましい。このシグナリングは、たとえばソーストラック内のどこにRAPが存在していても、ピクチャの別の空間部分を含む別のソーストラックの対応するアクセスユニット内にRAPが存在することを確認することによって、あるいはRAPをシグナリングするために使用される(マスタートラックと同様の)さらなるトラックを有することによって行うことができる。第2の事例では、たとえば上述したような収集トラックなどの「マスター」トラック内でシグナリングされたRAPのみが別のソーストラック内のRAPを示す。分類メカニズムによってRAPが整列していないことが示された場合には、別のソーストラック内の全てのRAPシグナリングを解析する必要がある。換言すれば、この実施形態では、異なる空間部分を表す符号化ビデオデータが異なるソーストラックに含まれ、フォーマットされたビデオデータが、全てのソーストラックのランダムアクセスポイントを示す1以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む。
別の実施形態では、全ての空間部分が同じソーストラックに含まれる。それでもいくつかの使用事例(たとえば、ズーム)では、画像全体の一部(たとえば、真ん中の関心領域(RoI))を抽出することが望ましい場合もある。このようなシナリオでは、ピクチャ全体のRAPとRoI内のRAPとが必ずしも常に一致しない場合もある。たとえば、ピクチャ全体に存在するRAPよりもRoI内に存在するRAPの方が多いこともある。
これらの実施形態では、フォーマットされたビデオデータが、ビデオのアクセスユニットがビデオの空間部分についてはランダムアクセスポイントを有しているがアクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含むことができる。さらに、フォーマットされたビデオデータは、ランダムアクセスポイントを有する空間部分の位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含むことができる。
1つの実現化では、ピクチャの特定の特性(たとえば、同期サンプル、RAPなど)を示すためにISOベースメディアファイルフォーマットで使用される、いわゆるサンプルグループを使用してこの情報を提供することができる。本発明では、サンプルグループを使用して、アクセスユニットが部分的RAP、すなわちサブピクチャ(領域固有の)ランダムアクセスポイントを有することを示すことができる。さらに、各ピクチャについて一切のドリフトを伴わずに領域を示すことができることを示すシグナリングを追加し、領域の次元をシグナリングすることができる。以下に、既存のsample to group boxの構文を示す。
Figure 2022551430000010
この実施形態では、特定の分類タイプ‘prap’(部分的rap)を使用してSampleToGroupBoxについてサンプルグループが定められる。
また、サンプルグループの記述は、たとえば以下のように定めることができる。
Figure 2022551430000011
サンプル記述は、たとえば以下のようなランダムアクセス可能な領域次元(region dimension)を示す。
Figure 2022551430000012
さらなる実施形態では、異なる領域が別個のNALユニットにマッピングされ、すなわちアクセスユニットのいくつかのNALユニットのみを復号することができる。この領域に対応するサブセットのみがビットストリームのために復号される場合に特定のNALユニットをRAPとして処理できることを示すことは本発明の一部である。この目的のために、たとえば以下のような既存のサブサンプル情報ボックスの概念を使用して、サブピックRAP(sub-pic RAPs)のためのサブサンプル分類情報を導出することができる。
Figure 2022551430000013
codec_specific_parametersは、どのサブサンプルがRAPであって、どのサブサンプルがそうでないかを示すことができる。
6.さらなる実施形態
ここまで、以下で図面に関して行う本発明の実施形態の説明は、シーンの空間的に変動する部分を導出するためのビデオデータ、およびこの部分がフォーマットされる特定のファイルフォーマットに焦点を当ててきた。しかしながら、本発明は、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法および装置、ならびに特定のファイルフォーマットでフォーマットされたビデオデータからシーンの空間的に変動する部分を導出する方法および装置にも関する。さらに、本発明は、対応するコンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体にも関する。
より詳細には、本発明は以下の実施形態にも関する。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
前記2以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記ソーストラックグループおよびグループ内の2以上のアクティブソーストラックの前記数を決定し、前記1以上のグループインジケータおよび前記1以上のアクティブソーストラックインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、方法。
この方法の実施形態では、前記フォーマットされたビデオデータは、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータをさらに含み、前記方法は、
共にバンドルされている前記2以上のソーストラックグループを決定し、前記1以上のバンドルインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む。
この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、および前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータは、前記2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータが含まれるファイルフォーマットの第2のボックスとは別のファイルフォーマットの第1のボックスに含まれる。
この方法の実施形態では、前記第1のボックスはトラックグループ型ボックスであり、前記第2のボックスはトラック参照型ボックスである。
この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータ、および2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる。
この方法の実施形態では、前記単一のボックスは、トラックグループ型ボックスまたはトラック参照型ボックスである。
この方法の実施形態では、前記トラックグループ型ボックスはソーストラックに含まれ、および/または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれ、前記方法は、
前記2以上のソーストラックの組の前記サブセットを決定し、前記融合情報を含む前記収集トラックを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。
この方法の実施形態では、前記各ソーストラックグループはそれぞれのグループIDによって示され、共にバンドルされた前記2以上のソーストラックグループは、共にバンドルされた前記2以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループIDの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループIDによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記2以上のソーストラックのサブグループは、共通グループID、共にバンドルされた前記2以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループIDの配列によって示される。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
前記ソーストラックグループまたは2以上のソーストラックグループの前記バンドルを決定し、前記レベルインジケータを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。
この方法の実施形態では、第1のソーストラックグループは、第1の解像度および/または忠実度の符号化ビデオデータを含むソーストラックを含み、第2のソーストラックグループは、前記第1の解像度および/または符号化忠実度とは異なる第2の解像度および/または符号化忠実度の符号化ビデオデータを含むソーストラックを含む。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために、前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要がある前記パラメータセットまたは前記SEIメッセージの1以上の値を示し、
前記方法は、
前記テンプレートを作成し、前記フォーマットされたビデオデータの前記収集情報にこれを書き込むことを含む、方法。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む。
この方法の実施形態では、前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの前記符号化構造のXMLまたはJSON記述を含む。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するXMLまたはJSONスキーマをさらに含み、前記方法は、
前記XLMまたはJSONスキーマを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。
この方法の実施形態では、テ前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す1以上のギャップインジケータをさらに含む。
この方法の実施形態では、前記ギャップを示す前記1以上のギャップインジケータは、前記テンプレート内のギャップのオフセットおよびサイズを含む。
この方法の実施形態では、前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成は、前記テンプレート内の前記ギャップを満たした後に、前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを生成するために前記連結符号化構文要素に対してエミュレーション防止を実行することを含む。
この方法の実施形態では、前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記1以上の値は、有効に符号化されたプレースホルダ値で満たされる。
この方法の実施形態では、前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれる。
この方法の実施形態では、前記テンプレートはNALユニットに含まれ、前記NALユニットにおける前記テンプレートの前記存在は前記NALユニットタイプによって示される。
この方法の実施形態では、前記テンプレートは、サンプルエントリボックスに、好ましくはデコーダ構成レコードに含まれ、NALユニットにおける前記テンプレートの前記存在は、前記サンプルエントリタイプによって、および/または前記サンプルエントリボックス内の1以上のテンプレートインジケータによって示される。
この方法の実施形態では、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記2以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)テンプレートを使用して生成されたパラメータセットおよび/またはSEIメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータは、i)タイルを使用して符号化され、適合される必要がある前記値は前記タイル構造に関連し、および/またはii)ブリックを使用して符号化され、適合される必要がある前記値は前記ブリック構造に関連し、および/またはiii)スライスを使用して符号化され、適合される必要がある前記値は前記スライス構造に関連する。
この方法の実施形態では、適合される必要がある前記値は、前記ビデオのピクチャおよび/または前記符号化ビデオデータ内のタイルおよび/またはブリックおよび/またはスライスの前記位置を表す。
この方法の実施形態では、前記パラメータセットは、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、またはピクチャパラメータセット(PPS)であり、および/または前記SEIメッセージは、リージョンワイズパッキング(RWP)SEIメッセージである。
この方法の実施形態では、前記2以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの1以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成を可能にする。
この方法の実施形態では、前記追加情報は、i)各ソーストラックによって含まれる前記符号化ビデオデータの前記幅および高さを識別する構文要素、および/またはii)リージョンワイズパッキング(RWP)SEIメッセージの前記生成に関連するプロジェクションマッピング、変換情報および/または保護周波数帯情報を識別する構文要素を記述する。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスIDを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する。
この方法の実施形態では、前記追加情報は、前記それぞれの構文要素の符号化長および/または符号化モードをさらに含む。
この方法の実施形態では、前記1以上のボックスは、トラックグループタイプのボックスの拡張である。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記1以上のランダムアクセスポイントアライメントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、方法。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記1以上の部分的ランダムアクセスポイントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む。
この方法の実施形態では、アクセスユニットの異なる空間部分が異なるNALユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのNALユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる。
この方法の実施形態では、前記異なる空間部分を表す前記符号化ビデオデータは異なるソーストラックに含まれ、前記フォーマットされたビデオデータは、全てのソーストラックの前記ランダムアクセスポイントを示す1以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む。
シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項38から55のいずれかまたは上記実施形態のいずれかに記載の方法を実行するように適合される、装置。
シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
前記2以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから、前記1以上のグループインジケータと、前記1以上のアクティブソーストラックインジケータと、前記示された2以上のアクティブソーストラックグループの数からの前記符号化ビデオデータとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、方法。
この方法の実施形態では、前記フォーマットされたビデオデータは、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記1以上のバンドルインジケータと、共にバンドルされている前記2以上のソーストラックグループとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む。
この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、および前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータは、前記2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータが含まれるファイルフォーマットの第2のボックスとは別のファイルフォーマットの第1のボックスに含まれる。
この方法の実施形態では、前記第1のボックスはトラックグループ型ボックスであり、前記第2のボックスはトラック参照型ボックスである。
この方法の実施形態では、前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータ、および2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる。
この方法の実施形態では、前記単一のボックスは、トラックグループ型ボックスまたはトラック参照型ボックスである。
この方法の実施形態では、前記トラックグループ型ボックスはソーストラックに含まれ、および/または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれ、前記方法は、
前記フォーマットされたビデオデータから前記融合情報および前記2以上のソーストラックの組の前記サブセットを読み取り、前記融合情報に基づいて、前記セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組の前記サブセットを融合することを含む。
この方法の実施形態では、前記各ソーストラックグループはそれぞれのグループIDによって示され、共にバンドルされた前記2以上のソーストラックグループは、共にバンドルされた前記2以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループIDの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループIDによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記2以上のソーストラックのサブグループは、共通グループID、共にバンドルされた前記2以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループIDの配列によって示される。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから、前記レベルインジケータおよび前記ソーストラックグループまたは2以上のソーストラックグループの前記バンドルを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む。
この方法の実施形態では、第1のソーストラックグループは、第1の解像度および/または忠実度の符号化ビデオデータを含むソーストラックを含み、第2のソーストラックグループは、前記第1の解像度および/または符号化忠実度とは異なる第2の解像度および/または符号化忠実度の符号化ビデオデータを含むソーストラックを含む。
ビデオデータからシーンの空間的に変動する部分を導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
を含み、前記収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要がある前記パラメータセットまたは前記SEIメッセージの1以上の値を示し、
前記方法は、
前記フォーマットされたビデオデータの前記収集情報から前記テンプレートを読み取り、前記テンプレートによって示される前記パラメータセットまたは前記SEIメッセージの前記1以上の値を、前記セクション固有のビデオストリームに固有の前記パラメータセットまたはSEIメッセージを生成するように適合させることを含む、方法。
この方法の実施形態では、前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの前記符号化構造のXMLまたはJSON記述を含む。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するXMLまたはJSONスキーマをさらに含み、前記方法は、
前記XLMまたはJSONスキーマを読み取り、前記パラメータセットまたは前記SEIメッセージの前記生成においてこれを使用することを含む。
この方法の実施形態では、前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す1以上のギャップインジケータをさらに含む。
この方法の実施形態では、前記ギャップを示す前記1以上のギャップインジケータは、前記テンプレート内のギャップのオフセットおよびサイズを含む。
この方法の実施形態では、前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成は、前記テンプレート内の前記ギャップを満たした後に、前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを生成するために前記連結符号化構文要素に対してエミュレーション防止を実行することを含む。
この方法の実施形態では、前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記1以上の値は、有効に符号化されたプレースホルダ値で満たされる。
この方法の実施形態では、前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれる。
この方法の実施形態では、前記テンプレートはNALユニットに含まれ、前記NALユニットにおける前記テンプレートの前記存在は前記NALユニットタイプによって示される。
この方法の実施形態では、前記テンプレートは、サンプルエントリボックスに、好ましくはデコーダ構成レコードに含まれ、NALユニットにおける前記テンプレートの前記存在は、前記サンプルエントリタイプによって、および/または前記サンプルエントリボックス内の1以上のテンプレートインジケータによって示される。
この方法の実施形態では、前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記2以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)テンプレートを使用して生成されたパラメータセットおよび/またはSEIメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータは、i)タイルを使用して符号化され、適合される必要がある前記値は前記タイル構造に関連し、および/またはii)ブリックを使用して符号化され、適合される必要がある前記値は前記ブリック構造に関連し、および/またはiii)スライスを使用して符号化され、適合される必要がある前記値は前記スライス構造に関連する。
この方法の実施形態では、適合される必要がある前記値は、前記ビデオのピクチャおよび/または前記符号化ビデオデータ内のタイルおよび/またはブリックおよび/またはスライスの前記位置を表す。
この方法の実施形態では、前記パラメータセットは、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、またはピクチャパラメータセット(PPS)であり、および/または前記SEIメッセージは、リージョンワイズパッキング(RWP)SEIメッセージである。
この方法の実施形態では、前記2以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの1以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成を可能にする。
この方法の実施形態では、前記追加情報は、i)各ソーストラックによって含まれる前記符号化ビデオデータの前記幅および高さを識別する構文要素、および/またはii)リージョンワイズパッキング(RWP)SEIメッセージの前記生成に関連するプロジェクションマッピング、変換情報および/または保護周波数帯情報を識別する構文要素を記述する。
この方法の実施形態では、各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスIDを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する。
この方法の実施形態では、前記追加情報は、前記それぞれの構文要素の符号化長および/または符号化モードをさらに含む。
この方法の実施形態では、前記1以上のボックスは、トラックグループタイプのボックスの拡張である。
シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
前記方法は、
前記フォーマットされたビデオデータから前記1以上のランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、方法。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
前記フォーマットされたビデオデータから前記1以上の部分的ランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む。
この方法の実施形態では、前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
前記部分的ランダムアクセスポイント情報を読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む。
この方法の実施形態では、アクセスユニットの異なる空間部分が異なるNALユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのNALユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる。
この方法の実施形態では、前記異なる空間部分を表す前記符号化ビデオデータは異なるソーストラックに含まれ、前記フォーマットされたビデオデータは、全てのソーストラックの前記ランダムアクセスポイントを示す1以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む。
ビデオデータからシーンの空間的に変動する部分を導出する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項57から74のいずれかまたは上記実施形態のいずれかに記載の方法を実行するように適合される、装置。
コンピュータによって実行された時に、請求項38から55または57から74または上記実施形態のいずれかに記載の方法を前記コンピュータに実行させる命令を含む、コンピュータプログラム。
コンピュータによって実行された時に、請求項38から55または57から74または上記実施形態のいずれかに記載の方法を前記コンピュータに実行させる命令を含む、コンピュータ可読媒体。
請求項1から37のいずれかに記載のビデオデータが記憶されているデジタル記憶媒体。
これらの方法、装置、コンピュータプログラム、コンピュータ可読媒体およびデジタル記憶媒体は、フォーマットされたビデオデータに関して説明したような対応する特徴を有することができる。
一般に、シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法は、たとえば1以上のグループインジケータ、1以上のアクティブソーストラックインジケータ、1以上のグループバンドルインジケータ、レベルインジケータ、1以上の部分的ランダムアクセスポイントインジケータなどの異なるタイプのインジケータ、たとえば構成可能パラメータセットおよび/またはSEIメッセージのテンプレートなどのテンプレート、およびたとえばi)各ソーストラックに含まれる符号化ビデオデータの幅および高さを識別する構文要素、および/またはii)リージョンワイズパッキング(RWP)SEIメッセージ、部分的ランダムアクセスポイント情報などの生成に関連するプロジェクションマッピング、変換情報および/または保護周波数帯情報を識別する構文要素などの情報を作成するステップと、フォーマットされたビデオデータにこれらを書き込むステップとを含むことができる。この文脈では、ファイルフォーマットでシグナリングされる特定の情報、ソーストラックグループ、およびグループ内の2以上のアクティブソーストラックの数を決定することが必要となり得る。場合によっては、この決定を、ユーザが必要な情報を入力できるようにするインターフェイスを通じて実行することができ、あるいは符号化ビデオデータ(たとえば、RAP情報)から部分的にまたは完全に導出することができる。
同様に、ビデオデータからシーンの空間的に変動する部分を導出する方法は、異なるタイプのインジケータ、テンプレートおよび情報を読み取るステップと、読み取られたデータを使用して異なるタスクを実行するステップとを含むことができる。この方法は、これに基づいてシーンの空間的に変動する部分を導出すること、および/またはセクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成すること、および/または読み取られたRAP情報に基づいて符号化ビデオデータにアクセスすることを含むことができる。
本発明の実施形態は、特定の実装要件に応じてハードウェアまたはソフトウェアで実装することができる。この実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働できる)、たとえばフロッピーディスク、DVD、BluRay、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリなどの、電子的に読み取り可能な制御信号を記憶したデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ可読とすることができる。
いくつかの実施形態では、プログラマブルロジックデバイス(たとえば、フィールドプログラマブルゲートアレイ)を使用して、本明細書で説明した方法の機能の一部または全部を実行することができる。
いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本明細書で説明した方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、いずれかのハードウェア装置によって実行されることが好ましい。
本明細書で説明した装置は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実装することができる。
本明細書で説明した装置、または本明細書で説明した装置のいずれかのコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装することができる。
本明細書で説明した方法は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実行することができる。
本明細書で説明する方法、または本明細書で説明した装置のいずれかのコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行することができる。
上述した実施形態は、本発明の原理を説明するものにすぎない。当業者には、本明細書で説明した構成および詳細の修正および変形が明らかになるであろうと理解される。従って、添付の特許請求の範囲によってのみ限定され、本明細書における実施形態の説明および解説によって示される具体的な詳細によって限定されるものではないことが趣旨である。

Claims (78)

  1. シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
    前記2以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含む、
    ビデオデータ。
  2. 前記フォーマットされたビデオデータは、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータをさらに含む、
    請求項1に記載のビデオデータ。
  3. 前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、および前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータは、前記2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータが含まれるファイルフォーマットの第2のボックスとは別のファイルフォーマットの第1のボックスに含まれる、
    請求項2に記載のビデオデータ。
  4. 前記第1のボックスはトラックグループ型ボックスであり、前記第2のボックスはトラック参照型ボックスである、
    請求項3に記載のビデオデータ。
  5. 前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータ、および2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
    請求項2に記載のビデオデータ。
  6. 前記単一のボックスは、トラックグループ型ボックスまたはトラック参照型ボックスである、
    請求項5に記載のビデオデータ。
  7. 前記トラックグループ型ボックスはソーストラックに含まれ、および/または前記フォーマットされたビデオデータは、セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集トラックをさらに含み、前記トラック参照ボックスは前記収集トラックに含まれる、
    請求項4または6に記載のビデオデータ。
  8. 前記各ソーストラックグループはそれぞれのグループIDによって示され、共にバンドルされた前記2以上のソーストラックグループは、共にバンドルされた前記2以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループIDの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループIDによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記2以上のソーストラックのサブグループは、共通グループID、共にバンドルされた前記2以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループIDの配列によって示される、
    請求項2から7のいずれかに記載のビデオデータ。
  9. 前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含む、
    請求項2から8のいずれかに記載のビデオデータ。
  10. 第1のソーストラックグループは、第1の解像度および/または忠実度の符号化ビデオデータを含むソーストラックを含み、第2のソーストラックグループは、前記第1の解像度および/または符号化忠実度とは異なる第2の解像度および/または符号化忠実度の符号化ビデオデータを含むソーストラックを含む、
    請求項1から9のいずれかに記載のビデオデータ。
  11. シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
    セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
    を含み、前記フォーマットされたビデオデータは、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要がある前記パラメータセットまたは前記SEIメッセージの1以上の値を示す、
    ビデオデータ。
  12. 前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
    請求項11に記載のビデオデータ。
  13. 前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの前記符号化構造のXMLまたはJSON記述を含む、
    請求項11または12に記載のビデオデータ。
  14. 前記フォーマットされたビデオデータは、前記テンプレートの前記作成のためのルールを提供するXMLまたはJSONスキーマをさらに含む、
    請求項11から13のいずれかに記載のビデオデータ。
  15. 前記テンプレートは、前記パラメータセットまたは前記SEIメッセージの連結符号化構文要素を含み、前記テンプレート内で、適合される必要がない値が有効に符号化され、前記テンプレートは、適合される必要がある有効に符号化された値で満たされるべき前記テンプレート内のギャップを示す1以上のギャップインジケータをさらに含む、
    請求項11または12に記載のビデオデータ。
  16. 前記ギャップを示す前記1以上のギャップインジケータは、前記テンプレート内のギャップのオフセットおよびサイズを含む、
    請求項15に記載のビデオデータ。
  17. 前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成は、前記テンプレート内の前記ギャップを満たした後に、前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを生成するために前記連結符号化構文要素に対してエミュレーション防止を実行することを含む、
    請求項15または16に記載のビデオデータ。
  18. 前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記1以上の値は、有効に符号化されたプレースホルダ値で満たされる、
    請求項11または12に記載のビデオデータ。
  19. 前記テンプレートは、適合される必要があるプレースホルダ値を示す1以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記1以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
    請求項18に記載のビデオデータ。
  20. 前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれる、
    請求項12から19のいずれかに記載のビデオデータ。
  21. 前記テンプレートはNALユニットに含まれ、前記NALユニットにおける前記テンプレートの前記存在は前記NALユニットタイプによって示される、
    請求項11から19のいずれかに記載のビデオデータ。
  22. 前記テンプレートは、サンプルエントリボックスに、好ましくはデコーダ構成レコードに含まれ、NALユニットにおける前記テンプレートの前記存在は、前記サンプルエントリタイプによって、および/または前記サンプルエントリボックス内の1以上のテンプレートインジケータによって示される、
    請求項21に記載のビデオデータ。
  23. 前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記2以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)テンプレートを使用して生成されたパラメータセットおよび/またはSEIメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
    請求項12から21のいずれかに記載のビデオデータ。
  24. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
    請求項11から23のいずれかに記載のビデオデータ。
  25. 各ソーストラックによって含まれる前記符号化ビデオデータは、i)タイルを使用して符号化され、適合される必要がある前記値は前記タイル構造に関連し、および/またはii)ブリックを使用して符号化され、適合される必要がある前記値は前記ブリック構造に関連し、および/またはiii)スライスを使用して符号化され、適合される必要がある前記値は前記スライス構造に関連する、
    請求項11から24のいずれかに記載のビデオデータ。
  26. 適合される必要がある前記値は、前記ビデオのピクチャおよび/または前記符号化ビデオデータ内のタイルおよび/またはブリックおよび/またはスライスの前記位置を表す、
    請求項25に記載のビデオデータ。
  27. 前記パラメータセットは、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、またはピクチャパラメータセット(PPS)であり、および/または前記SEIメッセージは、リージョンワイズパッキング(RWP)SEIメッセージである、
    請求項11から26のいずれかに記載のビデオデータ。
  28. 前記2以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの1以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成を可能にする、
    請求項11から27のいずれかに記載のビデオデータ。
  29. 前記追加情報は、i)各ソーストラックによって含まれる前記符号化ビデオデータの前記幅および高さを識別する構文要素、および/またはii)リージョンワイズパッキング(RWP)SEIメッセージの前記生成に関連するプロジェクションマッピング、変換情報および/または保護周波数帯情報を識別する構文要素を記述する、
    請求項28に記載のビデオデータ。
  30. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスIDを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
    請求項28に記載のビデオデータ。
  31. 前記追加情報は、前記それぞれの構文要素の符号化長および/または符号化モードをさらに含む、
    請求項28から30のいずれかに記載のビデオデータ。
  32. 前記1以上のボックスは、トラックグループタイプのボックスの拡張である、
    請求項28から31のいずれかに記載のビデオデータ。
  33. シーンの空間的に変動する部分を導出するためのビデオデータであって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
    前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含む、
    ビデオデータ。
  34. 前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含む、
    請求項33に記載のビデオデータ。
  35. 前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含む、
    請求項34に記載のビデオデータ。
  36. アクセスユニットの異なる空間部分が異なるNALユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのNALユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
    請求項35に記載のビデオデータ。
  37. 前記異なる空間部分を表す前記符号化ビデオデータは異なるソーストラックに含まれ、前記フォーマットされたビデオデータは、全てのソーストラックの前記ランダムアクセスポイントを示す1以上のランダムアクセスポイントインジケータを含む共通トラックをさらに含む、
    請求項33に記載のビデオデータ。
  38. シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
    前記2以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
    前記方法は、
    前記ソーストラックグループおよびグループ内の2以上のアクティブソーストラックの前記数を決定し、前記1以上のグループインジケータおよび前記1以上のアクティブソーストラックインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
    方法。
  39. 前記フォーマットされたビデオデータは、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータをさらに含み、前記方法は、
    共にバンドルされている前記2以上のソーストラックグループを決定し、前記1以上のバンドルインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
    請求項38に記載の方法。
  40. 前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータ、および2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
    請求項39に記載の方法。
  41. 各ソーストラックグループはそれぞれのグループIDによって示され、共にバンドルされている前記2以上のソーストラックグループは、共にバンドルされている前記2以上のソーストラックグループの前記数を示すインジケータ、および前記それぞれのグループIDの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループIDによってソーストラックのサブグループであるものとして示され、共にバンドルされている前記2以上のソーストラックのサブグループは、共通グループID、共にバンドルされている前記2以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループIDの配列によって示される、
    請求項39または40に記載の方法。
  42. 前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
    ソーストラックグループまたは2以上のソーストラックグループの前記バンドルを決定し、前記レベルインジケータを作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む、
    請求項39から41のいずれかに記載の方法。
  43. シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
    セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
    を含み、前記収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要がある前記パラメータセットまたは前記SEIメッセージの1以上の値を示し、
    前記方法は、
    前記テンプレートを作成し、前記フォーマットされたビデオデータの前記収集情報にこれを書き込むことを含む、
    方法。
  44. 前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
    請求項43に記載の方法。
  45. 前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記1以上の値は、有効に符号化されたプレースホルダ値で満たされる、
    請求項43または44に記載の方法。
  46. 前記テンプレートは、適合される必要があるプレースホルダ値を示す1以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記1以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
    請求項45に記載の方法。
  47. 前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記2以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)テンプレートを使用して生成されたパラメータセットおよび/またはSEIメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
    請求項44から46のいずれかに記載の方法。
  48. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
    請求項43から47のいずれかに記載の方法。
  49. 前記2以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの1以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成を可能にする、
    請求項43から48のいずれかに記載の方法。
  50. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスIDを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
    請求項49に記載の方法。
  51. 前記追加情報は、前記それぞれの構文要素の符号化長および/または符号化モードをさらに含む、
    請求項49または50に記載の方法。
  52. シーンの空間的に変動する部分を導出するためのビデオデータを作成する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
    前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
    前記方法は、
    前記1以上のランダムアクセスポイントアライメントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
    方法。
  53. 前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
    前記1以上の部分的ランダムアクセスポイントインジケータを作成し、前記フォーマットされたビデオデータにこれらを書き込むことを含む、
    請求項52に記載の方法。
  54. 前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
    前記部分的ランダムアクセスポイント情報を作成し、前記フォーマットされたビデオデータにこれを書き込むことを含む、
    請求項53に記載の方法。
  55. アクセスユニットの異なる空間部分が異なるNALユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのNALユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
    請求項54に記載の方法。
  56. シーンの空間的に変動する部分を導出するためのビデオデータを作成する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項38から55のいずれかに記載の方法を実行するように適合される、
    装置。
  57. シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組を含み、
    前記2以上のソーストラックの組はソーストラックグループを含み、前記フォーマットされたビデオデータは、それぞれのソーストラックグループに属するソーストラックを示す1以上のグループインジケータと、ソーストラックグループ内の2以上のアクティブソーストラックの数を示す1以上のアクティブソーストラックインジケータとをさらに含み、
    前記方法は、
    前記フォーマットされたビデオデータから、前記1以上のグループインジケータと、前記1以上のアクティブソーストラックインジケータと、前記示された2以上のアクティブソーストラックグループの数からの前記符号化ビデオデータとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
    方法。
  58. 前記フォーマットされたビデオデータは、2以上のソーストラックグループが共にバンドルされていることを示す1以上のグループバンドルインジケータをさらに含み、前記方法は、
    前記フォーマットされたビデオデータから、前記1以上のバンドルインジケータと、共にバンドルされている前記2以上のソーストラックグループとを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
    請求項57に記載の方法。
  59. 前記それぞれのソーストラックグループに属する前記ソーストラックを示す前記1以上のグループインジケータ、前記ソーストラックグループ内のアクティブソーストラックの前記数を示す前記1以上のアクティブソーストラックインジケータ、および2以上のソーストラックグループが共にバンドルされていることを示す前記1以上のグループバンドルインジケータは、前記ファイルフォーマットの単一のボックスに含まれる、
    請求項58に記載の方法。
  60. 前記各ソーストラックグループはそれぞれのグループIDによって示され、共にバンドルされた前記2以上のソーストラックグループは、共にバンドルされた前記2以上のソーストラックグループの前記数を示すインジケータおよび前記それぞれのグループIDの配列によって示され、あるいは各ソーストラックグループは、それぞれのサブグループIDによってソーストラックのサブグループであるものとして示され、共にバンドルされた前記2以上のソーストラックのサブグループは、共通グループID、共にバンドルされた前記2以上のソーストラックのサブグループの前記数を示すインジケータ、および前記それぞれのサブグループIDの配列によって示される、
    請求項58または59に記載の方法。
  61. 前記フォーマットされたビデオデータは、前記ソーストラックグループの符号化レベル、あるいは2以上のソーストラックグループのバンドルの符号化レベルを示すレベルインジケータをさらに含み、前記方法は、
    前記フォーマットされたビデオデータから、前記レベルインジケータおよび前記ソーストラックグループまたは前記2以上のソーストラックグループのバンドルを読み取り、これに基づいて前記シーンの空間的に変動する部分を導出することを含む、
    請求項58から60のいずれかに記載の方法。
  62. ビデオデータからシーンの空間的に変動する部分を導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    各ソーストラックが前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む2以上のソーストラックの組と、
    セクション固有のビデオデータストリームを生成するために前記2以上のソーストラックの組のサブセットを融合するための融合情報を含む収集情報と、
    を含み、前記収集情報は、構成可能パラメータセットおよび/またはSEIメッセージのテンプレートをさらに含み、前記テンプレートは、セクション固有のビデオストリームに固有のパラメータセットまたはSEIメッセージを生成するように適合される必要がある前記パラメータセットまたは前記SEIメッセージの1以上の値を示し、
    前記方法は、
    前記フォーマットされたビデオデータの前記収集情報から前記テンプレートを読み取り、前記テンプレートによって示される前記パラメータセットまたは前記SEIメッセージの前記1以上の値を、前記セクション固有のビデオストリームに固有の前記パラメータセットまたはSEIメッセージを生成するように適合させることを含む、
    方法。
  63. 前記フォーマットされたビデオデータは、前記収集情報を含む収集トラックを含む、
    請求項62に記載の方法。
  64. 前記テンプレートは、エミュレーション防止バイトを含む前記パラメータセットまたは前記SEIメッセージの符号化ビットストリームを含み、前記符号化ビットストリーム内の適合される必要がある前記1以上の値は、有効に符号化されたプレースホルダ値で満たされる、
    請求項62または63に記載の方法。
  65. 前記テンプレートは、適合される必要があるプレースホルダ値を示す1以上のプレースホルダ値インジケータをさらに含み、前記プレースホルダ値を示す前記1以上のプレースホルダ値インジケータは、前記テンプレート内の前記プレースホルダ値のオフセットおよびサイズを含む、
    請求項64に記載の方法。
  66. 前記テンプレートは、前記収集トラックの初期化セグメントに、好ましくはサンプル記述ボックスに、より好ましくはサンプルエントリボックスに、最も好ましくはデコーダ構成レコードに含まれ、前記融合情報は、前記2以上のソーストラックの組の前記サブセットの前記符号化ビデオデータへの参照を含むメディアセグメントを含み、前記メディアセグメントのうちの1つまたは2つ以上は、i)構成可能パラメータセットおよび/またはSEIメッセージのテンプレート、またはii)テンプレートを使用して生成されたパラメータセットおよび/またはSEIメッセージが前記生成されたセクション固有のビデオデータストリームの前記メディアセグメントに含まれることを示すインジケータを含む、
    請求項64または65に記載の方法。
  67. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記セクション固有のビデオデータストリームの前記生成は、前記スライスのスライスヘッダの値を適合させることを必要としない、
    請求項63から66のいずれかに記載の方法。
  68. 前記2以上のソーストラックの組は、各ボックスがソーストラックの前記特性を識別する構文要素を記述するための追加情報を含む前記ファイルフォーマットの1以上のボックスを含み、前記追加情報は、前記符号化ビデオデータを解析する必要なく前記セクション固有のビデオストリームに固有の前記パラメータセットまたは前記SEIメッセージの前記生成を可能にする、
    請求項63から67のいずれかに記載の方法。
  69. 各ソーストラックによって含まれる前記符号化ビデオデータはスライスを使用して符号化され、前記追加情報は、スライスIDを識別する構文要素、または前記スライスヘッダ内で使用される、前記スライス構造を識別するための別の情報を記述する、
    請求項68に記載の方法。
  70. 前記追加情報は、前記それぞれの構文要素の符号化長および/または符号化モードをさらに含む、
    請求項68または69に記載の方法。
  71. シーンの空間的に変動する部分をビデオデータから導出する方法であって、前記ビデオデータは、ファイルフォーマットでフォーマットされるとともに、
    前記シーンを示すビデオの空間部分を表す符号化ビデオデータを含む1以上のソーストラックの組を含み、
    前記符号化ビデオデータは、ランダムアクセスポイントを使用して符号化され、前記フォーマットされたビデオデータは、全ての空間部分についての前記符号化ビデオデータ内の前記ランダムアクセスポイントが整列しているか否かを示す1以上のランダムアクセスポイントアライメントインジケータをさらに含み、
    前記方法は、
    前記フォーマットされたビデオデータから前記1以上のランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
    方法。
  72. 前記フォーマットされたビデオデータは、前記ビデオのアクセスユニットが前記ビデオの空間部分についてはランダムアクセスポイントを有しているが前記アクセスユニット全体については有していないことを示す1以上の部分的ランダムアクセスポイントインジケータをさらに含み、前記方法は、
    前記フォーマットされたビデオデータから前記1以上の部分的ランダムアクセスポイントインジケータを読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
    請求項71に記載の方法。
  73. 前記フォーマットされたビデオデータは、前記ランダムアクセスポイントを有する前記空間部分の前記位置および/または形状を表す部分的ランダムアクセスポイント情報をさらに含み、前記方法は、
    前記部分的ランダムアクセスポイント情報を読み取り、これに基づいて前記符号化ビデオデータにアクセスすることを含む、
    請求項72に記載の方法。
  74. アクセスユニットの異なる空間部分が異なるNALユニットに含まれ、前記部分的ランダムアクセスポイント情報は、それぞれの空間部分についてどのNALユニットがランダムアクセスポイントであるかを記述し、前記部分的ランダムアクセスポイント情報は、前記ファイルフォーマットのボックスに、好ましくはサブサンプル情報ボックスに含まれる、
    請求項73に記載の方法。
  75. ビデオデータからシーンの空間的に変動する部分を導出する装置であって、前記ビデオデータは、ファイルフォーマットでフォーマットされ、前記装置は、請求項57から74のいずれかに記載の方法を実行するように適合される、
    装置。
  76. コンピュータによって実行された時に、請求項38から55または57から74に記載の方法を前記コンピュータに実行させる命令を含む、
    コンピュータプログラム。
  77. コンピュータによって実行された時に、請求項38から55または57から74に記載の方法を前記コンピュータに実行させる命令を含む、
    コンピュータ可読媒体。
  78. 請求項1から37のいずれかに記載のビデオデータが記憶されている、
    デジタル記憶媒体。
JP2022519251A 2019-09-27 2020-09-28 融合に適したファイルフォーマット Pending JP2022551430A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19200237 2019-09-27
EP19200237.6 2019-09-27
PCT/EP2020/077035 WO2021058814A1 (en) 2019-09-27 2020-09-28 Merging friendly file format

Publications (1)

Publication Number Publication Date
JP2022551430A true JP2022551430A (ja) 2022-12-09

Family

ID=68137829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519251A Pending JP2022551430A (ja) 2019-09-27 2020-09-28 融合に適したファイルフォーマット

Country Status (6)

Country Link
US (1) US20220345746A1 (ja)
EP (1) EP4035386A1 (ja)
JP (1) JP2022551430A (ja)
KR (1) KR20220071228A (ja)
BR (1) BR112022005244A2 (ja)
WO (1) WO2021058814A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220329837A1 (en) * 2021-04-06 2022-10-13 Lemon Inc. Neural Network-Based Post Filter For Video Coding
US11936511B2 (en) * 2022-05-18 2024-03-19 Dell Products L.P. Payload template generator for an information handling system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618049B1 (ko) * 2016-02-02 2023-12-27 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 비디오 스트리밍의 관심 장면 섹션 및 영역 처리
US11062738B2 (en) * 2017-03-23 2021-07-13 Qualcomm Incorporated Signalling of video content including sub-picture bitstreams for video coding
US10893256B2 (en) * 2017-06-26 2021-01-12 Nokia Technologies Oy Apparatus, a method and a computer program for omnidirectional video

Also Published As

Publication number Publication date
EP4035386A1 (en) 2022-08-03
US20220345746A1 (en) 2022-10-27
WO2021058814A1 (en) 2021-04-01
BR112022005244A2 (pt) 2022-06-14
KR20220071228A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
US11178470B2 (en) Method, device, and computer program for encapsulating partitioned timed media data
US10645428B2 (en) Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
KR102329474B1 (ko) 미디어 데이터를 생성하기 위한 방법
JP6960528B2 (ja) メディアコンテンツを生成および処理するための方法、装置、およびコンピュータプログラム
US11477542B2 (en) Method, device, and computer program for generating timed media data
CN110800311B (zh) 用于传输媒体内容的方法、装置和计算机程序
US11638066B2 (en) Method, device and computer program for encapsulating media data into a media file
CN114747219A (zh) 用于存储和信令传送子样本条目描述的方法和装置
CN112019857A (zh) 用于压缩点云的存储和信号发送的方法和装置
US20210176509A1 (en) Method, device, and computer program for transmitting media content
KR102655630B1 (ko) 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치
JP2022551430A (ja) 融合に適したファイルフォーマット
CN113574903A (zh) 针对媒体内容中的后期绑定的方法和装置
GB2599171A (en) Method and apparatus for encapsulating video data into a file
CN114450953A (zh) 合并友好文件格式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507