JP2018534824A

JP2018534824A - ビデオの符号化・復号装置、方法、およびコンピュータプログラム

Info

Publication number: JP2018534824A
Application number: JP2018515467A
Authority: JP
Inventors: ミスカハンヌクセラ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2018-11-22
Also published as: CN108293127A; MX2018003654A; ZA201802567B; US20170094288A1; WO2017051077A1; EP3354023A1; EP3354023A4

Abstract

第１および第２の符号化ベースピクチャを含む第１のスケーラビリティレイヤを符号化することと、第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに再構成することと、第１および第２の再構成ベースピクチャから第３の再構成ベースピクチャを第２のアルゴリズムを用いて再構成することと、第１〜第３の符号化拡張ピクチャを含む第２のスケーラビリティレイヤを符号化することと、第１〜第３の再構成ベースピクチャをインターレイヤ予測の入力とすることによって、第１〜第３の符号化拡張ピクチャをそれぞれ第１〜第３の再構成拡張ピクチャに再構成することを含む。第１及び第２の再構成ベースピクチャは、第１のスケーラビリティレイヤの再構成ピクチャの中で、第１のアルゴリズムの出力順で連続している。第３の再構成ベースピクチャは、出力順で第１の再構成ベースピクチャと第２の再構成ベースピクチャとの間にある。第１、第２、第３の再構成拡張ピクチャは、第１のアルゴリズムの出力順でそれぞれ第１、第２、第３の再構成ベースピクチャと一致する。【選択図】図６

Description

本発明は、ビデオの符号化・復号装置、方法、およびコンピュータプログラムに関する。

背景

消費者向け、業務用ビデオのピクチャレートが益々向上することは間違いないであろう。一方で、ピクチャレートは、デコーダまたは再生機により、その性能に応じて選択可能であることが有利であることが多い。例えば、再生機に１２０Ｈｚのピクチャレートのビットストリームが送られても、計算資源の空きや、バッテリの充電レベル、および／または表示能力等により、３０Ｈｚ版を復号する方が有利となりうるのである。このような調整（スケーリング）は、時間スケーラビリティをビデオの符号化および復号に適用することにより可能である。

ただ、時間スケーラビリティは、短い露出時間（例えば２４０Ｈｚ）で撮影されたビデオの場合、一時的にサブサンプリングにより３０Ｈｚで再生すると、欠損を生じるモーションブラーにより、不自然に映るという欠点をはらむ。また、時間スケーラビリティや露出時間のスケーリングを利用する際、低フレームレートとより高いフレームレートとで、露出時間が異なりうる。この場合、かなり複雑な状況に陥る可能性がある。

ＳＨＶＣおよびＭＶ−ＨＥＶＣ（高効率ビデオ符号化：Ｈ．２６５／ＨＥＶＣまたはＨＥＶＣのスケーラブル（Scalable）拡張およびマルチビュー（MultiView）拡張）に対して、ＨＬＳオンリー（high-level-syntax-only）という設計方針が選択された。これは、ＨＥＶＣシンタックスまたは復号処理に対して、スライスヘッダ以下の変更はないことを意味する。そのため、ＨＥＶＣエンコーダおよびデコーダの実装が、ＳＨＶＣおよびＭＶ−ＨＥＶＣに流用可能である。ＳＨＶＣは、インターレイヤ処理という概念を利用する。これは具体的には、必要に応じて復号済み参照レイヤピクチャおよびその動きベクトル配列をリサンプリングし、さらに／あるいはカラーマッピング（例えば色域スケーリング用）を適用するための処理である。インターレイヤ処理と同様に、ピクチャレートのアップサンプリング（いわゆるフレームレートアップサンプリング）方法が復号の後処理に適用される。

現在のビデオの符号化規格の多くがＨＬＳオンリー設計ということを考えると、現行の規格（例えばＨＥＶＣ、ＳＨＶＣ）が流用可能なように、時間スケーラブルビットストリームの圧縮効率を向上する必要がある。

摘要

上述の課題を少なくとも緩和するために、本明細書では改良されたビデオの符号化方法を導入する。

第１の態様はビデオ信号を含むビットストリームを符号化するための方法を含み、前記方法は、
少なくとも第１の符号化ベースピクチャおよび第２の符号化ベースピクチャを含み、第１のアルゴリズムを用いて復号可能である第１のスケーラビリティレイヤを符号化することと、
前記第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに再構成することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
少なくとも第１の符号化拡張ピクチャ、第２の符号化拡張ピクチャ、および第３の符号化拡張ピクチャを含み、再構成ピクチャを入力とするインターレイヤ予測を含む第３のアルゴリズムを用いて復号可能である第２のスケーラビリティレイヤを符号化することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、前記第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに再構成することと、を含み、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致する。

ある実施形態によると、前記方法は、
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示すことと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示すことと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示すことと、をさらに含み、
前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものである。

ある実施形態によると、前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げ、前記方法は以下のうちの少なくとも１つをさらに含む。
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されるように前記第２のスケーラビリティレイヤを符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが符号化されないように前記第２のスケーラビリティレイヤを符号化すること。

ある実施形態によると、前記方法は以下のうちの少なくとも１つをさらに含む。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正すること、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成すること、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成すること。

ある実施形態によると、前記ピクチャレートを上げ、少なくとも１種類の拡張を前記第１のスケーラビリティレイヤの前記ベースピクチャに適用し、前記拡張は、信号対ノイズ拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、または色域の拡大のうちの少なくとも１つを含む。

第２の態様は装置に関し、前記装置は、
少なくとも１つのプロセッサおよび少なくとも１つのメモリを含み、前記少なくとも１つのメモリにはコードが格納され、該コードが前記少なくとも１つのプロセッサによって実行されると、前記装置に対して少なくとも、
少なくとも第１の符号化ベースピクチャおよび第２の符号化ベースピクチャを含み、第１のアルゴリズムを用いて復号可能である第１のスケーラビリティレイヤを符号化することと、
前記第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに再構成することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
少なくとも第１の符号化拡張ピクチャ、第２の符号化拡張ピクチャ、および第３の符号化拡張ピクチャを含み、再構成ピクチャを入力とするインターレイヤ予測を含む第３のアルゴリズムを用いて復号可能である第２のスケーラビリティレイヤを符号化することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、前記第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに再構成することと、を実行させ、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致する。

第３の態様はコンピュータ可読記憶媒体に関し、前記記憶媒体には装置によって使用されるコードが格納され、該コードがプロセッサによって実行されると、前記装置に対して上述の動作を実行させる。

第４の態様は方法に関し、前記方法は、
第１のアルゴリズムを用いて、第１のスケーラビリティレイヤに含まれる第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに復号することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、第３のアルゴリズムを用いて、第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに復号することと、をさらに含み、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第３のアルゴリズムは再構成ピクチャを入力とするインターレイヤ予測を含み、前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致し、前記第１、第２、および第３の符号化拡張ピクチャは第２のスケーラビリティレイヤに含まれる。

ある実施形態によると、前記方法は、
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示す第１の標示を復号することと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示す第２の標示を復号することと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示す第３の標示を復号することと、
前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものであり、
前記第１および第２の符号化ベースピクチャの前記復号の判定を、前記第１のプロファイルに対応している復号か否かに基づいて行うことと、
前記第３の再構成ベースピクチャの前記再構成の判定を、前記第２のプロファイルに対応している再構成か否か、および前記第１のプロファイルに対応している復号か否かに基づいて行うことと、
前記第１および第２の符号化拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否かに基づいて行うことと、
前記第３の拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否か、前記第２のプロファイルに対応している再構成か否かに基づいて行うことと、を含む。

ある実施形態によると、前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げ、前記方法は以下のうちの少なくとも１つをさらに含む。
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されることを示す前記第２のスケーラビリティレイヤに関連する標示を符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが復号されないように前記第２のスケーラビリティレイヤを復号すること。

ある実施形態によると、前記方法は以下のうちの少なくとも１つをさらに含む。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正することと、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成すること。

第５の態様は装置に関し、前記装置は、
少なくとも１つのプロセッサおよび少なくとも１つのメモリを含み、前記少なくとも１つのメモリにはコードが格納され、該コードが前記少なくとも１つのプロセッサによって実行されると、前記装置に対して少なくとも、
第１のアルゴリズムを用いて、第１のスケーラビリティレイヤに含まれる第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに復号することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、第３のアルゴリズムを用いて、第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに復号することと、を実行させ、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第３のアルゴリズムは再構成ピクチャを入力とするインターレイヤ予測を含み、前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致し、前記第１、第２、および第３の符号化拡張ピクチャは第２のスケーラビリティレイヤに含まれる。

第６の態様はコンピュータ可読記憶媒体に関し、前記記憶媒体には装置によって使用されるコードが格納され、該コードがプロセッサによって実行されると、前記装置に対して上述の動作を実行させる。

以下の実施形態の詳細な開示から、本発明の上述のものを含む態様や関連する実施形態が明らかになるであろう。

本発明に対する理解を促すために、以下の添付の図面と関連付けて以下に説明する。

図１は、本発明の各実施形態が採用された電子デバイスを模式的に示す。

図２は、本発明の各実施形態を採用するに適したユーザ端末を模式的に示す。

図３は、無線および有線ネットワーク接続によって接続された、本発明の各実施形態が採用された電子デバイスを模式的に示す。

図４は、本発明の各実施形態を実施するに適したエンコーダを模式的に示す。

図５は、本発明の一実施形態による符号化方法のフローチャートである。

図６は、本発明の一実施形態による符号化の仕組みの概略図を示す。

図７は、本発明の一実施形態によるスキップ符号化ピクチャを用いた符号化方法を示す。

図８は、本発明の一実施形態による第２のスケーラビリティレイヤにおけるピクチャ符号化を用いない符号化方法を示す。

図９は、本発明の一実施形態による再構成ベースピクチャの修正による符号化方法を示す。

図１０は、本発明の別の実施形態によるインターレイヤ予測およびピクチャレートのアップサンプリングに用いられる修正されたベースピクチャを用いた符号化方法を示す。

図１１は、本発明の別の実施形態による符号化方法を示す。

図１２は、本発明の別の実施形態によるさらに符号化方法を示す。

図１３は、本発明の別の実施形態によるさらに符号化方法を示す。

図１４は、本発明の別の実施形態によるさらに符号化方法を示す。

図１５は、本発明の別の実施形態によるさらに符号化方法を示す。

図１６は、本発明の実施形態を実施するに適したデコーダを概略的に示す。

図１７は、各種実施形態を実装可能なマルチメディア通信システムの例の模式図を示す。

例示的実施形態の詳細な説明

動き補償予測に適した装置および利用可能な機構を以下に詳述する。まずは、図１、図２を参照する。図１は、本発明のある実施形態によるコーデックを有しうる例示的装置または電子デバイス５０の概略的ブロック図として、例示的実施形態によるビデオ符号化システムのブロック図を示す。図２は、例示的実施形態による装置のレイアウトを示す。次に、図１および図２の各要素を説明する。

電子デバイス５０は、例えば、無線通信システムにおける携帯端末またはユーザ端末であってもよい。ただし、本発明の各実施形態は、ビデオ映像の符号化および／または復号を必要とする可能性のある任意の電子デバイスや装置内に実装してもよいことを理解されたい。

デバイス５０は、前記デバイスを収容、保護する筐体３０を備えてもよい。デバイス５０はさらに、液晶ディスプレイであるディスプレイ３２を備えてもよい。本発明の別の実施形態では、ディスプレイは画像またはビデオ表示に適した表示技術を採用してもよい。デバイス５０は、さらにキーパッド３４を備えてもよい。本発明の別の実施形態では、任意の好適なデータまたはユーザインタフェース機構を利用してもよい。例えば、このユーザインタフェースは、タッチ感知ディスプレイの一部としてのバーチャルキーボードまたはデータ入力システムとして実現されてもよい。

デバイス５０は、マイク３６または任意の好適な音声入力（デジタル信号入力であってもアナログ信号入力であってもよい）を備えてもよい。デバイス５０は、音声出力装置をさらに備えてもよい。本発明の各実施形態では、該音声出力装置は、受話口３８、スピーカー、アナログ音声出力接続部またはデジタル音声出力接続部のいずれかであってもよい。デバイス５０は、バッテリ４０をさらに備えてもよい（または本発明の別の実施形態では、デバイスが、太陽電池、燃料電池、またはゼンマイ式発電機等の任意の好適な可搬性エネルギー装置によって電源供給されてもよい）。またデバイス５０は、画像や動画の記録や撮像が可能なカメラ４２を備えてもよい。デバイス５０はさらに、別のデバイスとの短直線距離通信用の赤外線ポートを備えてもよい。別の実施形態では、デバイス５０はさらに、例えばＢｌｕｅｔｏｏｔｈ（登録商標）無線接続またはＵＳＢ／ＦｉｒｅＷｉｒｅ有線接続等の、任意の好適な近距離通信手段を備えてもよい。

デバイス５０は、これを制御するコントローラ５６またはプロセッサを備えてもよい。コントローラ５６は、メモリ５８に接続されてもよい。本発明の実施形態において、メモリ５８は、画像および音声のいずれの形式のデータ、および／またはコントローラ５６において実行される命令を格納してもよい。コントローラ５６はさらに、音声および／またはビデオデータの符号化・復号の実行や、コントローラが実行する符号化・復号の補助に適したコーデック回路５４に接続されてもよい。

デバイス５０は、ユーザ情報を提供し、ネットワークにおけるユーザを認証、承認するための認証情報の提供に適した、例えばＵＩＣＣ（Universal Integrated Circuit Card）およびＵＩＣＣリーダー等のカードリーダー４８およびスマートカード４６をさらに備えてもよい。

デバイス５０は、コントローラに接続され、例えば携帯通信ネットワーク、無線通信システム、または無線ローカルエリアネットワークと通信するための無線通信信号の生成に適した無線インタフェース回路５２をさらに備えてもよい。デバイス５０は、無線インタフェース回路５２に接続され、無線インタフェース回路５２で生成された無線周波数信号を単一または複数の別の装置に送信し、単一または複数の別の装置から無線周波数信号を受信するためのアンテナ４４をさらに備えてもよい。

デバイス５０は、個別のフレームを記録、検出可能なカメラを備えてもよい。該フレームはその後、コーデック５４またはコントローラに送られて処理される。デバイス５０は、伝送や格納の前に、別のデバイスから処理用のビデオ映像データを受信してもよい。デバイス５０は、符号化／復号用の画像を無線または有線接続を介して受信してもよい。

図３は、本発明の各実施形態を利用可能なシステムの例を示している。システム１０は、１つ以上のネットワークを介して通信可能な複数の通信デバイスを含む。システム１０は、有線ネットワークおよび／または無線ネットワークの任意の組合せを含んでもよい。これらのネットワークとしては、ＧＳＭ（登録商標）、ＵＭＴＳ（Universal Mobile Telecommunications System）、符号分割多元接続（Code Division Multiple Access：ＣＤＭＡ）ネットワーク等）、ＩＥＥＥ８０２．ｘのいずれかの規格で規定されるもの等の無線ローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）パーソナルエリアネットワーク、イーサネット（登録商標）ローカルエリアネットワーク、トークンリングローカルエリアネットワーク、広域ネットワーク、インターネット等が挙げられるが、これらに限定されない。

システム１０は、本発明の各実施形態の実現に適した有線および無線通信のデバイスおよび／または装置５０を備えてもよい。

例えば、図３に示すシステムは、携帯電話ネットワーク１１と、インターネット２８を表現したものとを示している。インターネット２８への接続は、長距離無線接続、近距離無線接続、および各種有線接続を含んでもよいが、これらに限定されない。有線接続には、電話回線、ケーブル回線、電力線、その他同様の通信経路等が含まれるが、これらに限定されない。

システム１０内に示される通信デバイスの例は、電子デバイスまたは装置５０、携帯情報端末（Personal Digital Assistant：ＰＤＡ）と携帯電話１４との組合せ、ＰＤＡ１６、統合通信デバイス（Integrated Messaging Device：ＩＭＤ）１８、デスクトップコンピュータ２０、ノート型コンピュータ２２を含んでもよいが、これらに限定されない。デバイス５０は固定型でもよく、移動する人が持ち運べる携帯型でもよい。また、デバイス５０は移動手段に設けられてもよい。こうした移動手段には、自動車、トラック、タクシー、バス、列車、船、飛行機、自転車、バイク、その他同様の好適な移動手段を含んでもよいが、これらに限定されない。

実施形態はさらに、ディスプレイや無線通信に対応する性能を有しても有していなくてもよい、セットトップボックス、すなわちデジタルテレビ受信機、ハードウェア、ソフトウェア、またはエンコーダ／デコーダ実装の組合せを含むタブレットまたは（ノート型）パーソナルコンピュータ（ＰＣ）、各種オペレーティングシステム、チップセット、プロセッサ、ＤＳＰおよび／または組み込みシステム（ハードウェア／ソフトウェアベースの符号化を実現）で実施されてもよい。

いくつかのまたはさらなる装置は、呼び出しやメッセージを送受信して、基地局２４への無線接続２５を介してサービスプロバイダと通信してもよい。基地局２４は、携帯電話ネットワーク１１とインターネット２８との間の通信を可能にするネットワークサーバ２６に接続されてもよい。システムは、さらなる通信デバイスや、各種通信デバイスを含んでもよい。

通信デバイスは各種伝送技術を用いて通信してもよく、こうした技術には、ＣＤＭＡ、ＧＳＭ（登録商標）、ＵＭＴＳ、時分割多元接続（Time Divisional Multiple Access：ＴＤＭＡ）、周波数分割多元接続（Frequency Division Multiple Access：ＦＤＭＡ）、ＴＣＰ‐ＩＰ（Transmission Control Protocol‐Internet Protocol）、ショートメッセージサービス（ＳＭＳ）、マルチメディアメッセージサービス（ＭＭＳ）、電子メール、インスタントメッセージングサービス（ＩＭＳ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１、その他同様の無線通信技術を含むが、これらに限定されない。本発明の様々な実施形態の実施に関わる通信デバイスは、様々な媒体を介して通信できる。こうした媒体には、無線、赤外線、レーザー、ケーブル接続、その他好適な接続が含まれるが、これらに限定されない。

電気通信およびデータネットワークにおいて、経路は、物理経路および論理経路のいずれであってもよい。物理経路は、ケーブルのような物理伝送媒体であってもよく、論理経路は、いくつかの論理経路の伝送を実現可能な多重化媒体における論理接続であってもよい。経路は、単一または複数の伝送機（または送信機）から単一または複数の受信機へ、例えばビットストリームのような情報信号を伝達するために使用できる。

リアルタイム転送プロトコル（Real-time Transport Protocol：ＲＴＰ）は、音声やビデオのような、時限式媒体のリアルタイム伝送に広く利用されている。ＲＴＰは、ユーザデータグラムプロトコル（ＵＤＰ）上で動作してもよい。ＵＤＰは、インターネットプロトコル（ＩＰ）上で動作してもよい。ＲＴＰは、www.ietf.org/rfc/rfc3550.txtから入手可能なインターネット技術タスクフォース（Internet Engineering Task Force：ＩＥＴＦ）リクエスト・フォー・コメンツ（ＲＦＣ）３５５０に規定されている。ＲＴＰ伝送では、媒体データは、ＲＴＰパケットにカプセル化される。通常、各媒体の種類または媒体符号化形式は、専用のＲＴＰペイロード形式を有する。

ＲＴＰセッションにより、ＲＴＰで通信する参加者群間が関連付けられる。該セッションは、多数のＲＴＰストリームを伝送することも可能なグループ通信経路である。ＲＴＰストリームは、媒体データを含むＲＴＰパケットのストリームである。ＲＴＰストリームは、特定のＲＴＰセッションに属するＳＳＲＣで特定される。ＳＳＲＣは、同期元またはＲＴＰパケットヘッダにおける３２ビットのＳＳＲＣフィールドである同期元識別子のいずれかを指す。同期元は、以下の特徴を有する。同期元からのすべてのパケットは同一のタイミングおよびシーケンス番号空間の一部を形成するし、これにより受信機は同期元からのパケットをグループ化して再生できる。同期元の例としては、マイクやカメラのような信号源からのパケットのストリームの送信機や、ＲＴＰ混合器が挙げられる。各ＲＴＰストリームは、ＲＴＰセッション内で特有のＳＳＲＣにより特定される。ＲＴＰストリームは、論理経路とみなすことができる。

入手可能なメディアファイルフォーマット規格には、ＩＳＯによるメディアファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６−１２、「ＩＳＯＢＭＦＦ」と略称される場合もある）、ＭＰＥＧ−４ファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６−１４、「ＭＰ４フォーマット」とも呼ばれる）、ＮＡＬ単位構造化ビデオ用のファイルフォーマット（ＩＳＯ／ＩＥＣ１４４９６−１５）、および３ＧＰＰファイルフォーマット（３ＧＰＰＴＳ２６．２４４、「３ＧＰフォーマット」とも呼ばれる）が挙げられる。ＩＳＯファイルフォーマットは、上述のすべてのファイルフォーマット（ＩＳＯファイルフォーマット自体を除く）の導出のための基盤である。これらのファイルフォーマット（ＩＳＯファイルフォーマット自体を含む）は、一般的にファイルフォーマットのＩＳＯファミリーと呼ばれる。

ビデオコーデックは、入力されたビデオを保存／伝送に適した圧縮表現に変換するエンコーダと、その圧縮表現を可視形態に戻す展開を行うことができるデコーダとからなる。ビデオエンコーダおよび／またはビデオデコーダは、それぞれ分離していてもよい。すなわち、必ずしもコーデックを形成する必要はない。典型的なエンコーダは、ビデオをよりコンパクトな形態で（すなわち、「不可逆」圧縮で、結果として低いビットレートとなる）表現するために、元のビデオシーケンスの情報の一部を切り捨てる。ビデオエンコーダは、後述するように、画像シーケンスを符号化するために使用されてもよく、ビデオデコーダは、符号化された画像シーケンスを復号するために使用されてもよい。ビデオエンコーダ、またはビデオエンコーダや画像エンコーダのイントラ符号化部は、画像を符号化するために使用されてもよく、ビデオデコーダ、またはビデオデコーダや画像デコーダのインター復号部は、符号化された画像を復号するために使用されてもよい。

例えばＩＴＵ−ＴＨ．２６３やＨ．２６４等の多くのエンコーダ実装例のような典型的なハイブリッドビデオエンコーダは、ビデオ情報を２段階で符号化する。第１段階で、例えば動き補償手段（符号化されるブロックと密接に対応する、先に符号化済みのビデオフレームの１つにあるエリアを探して示す手段）や空間手段（特定の方法で符号化されるブロックの周辺の画素値を用いる手段）によって、特定のピクチャエリア（または「ブロック」）の画素値が予測される。第２段階で、予測誤差、すなわち画素の予測ブロックとその画素の元のブロックとの間の差分が符号化される。これは通常、特定の変換（例えば、離散コサイン変換（Discrete Cosine Transform：ＤＣＴ）やその変形）を用いて画素値の差分を変換し、係数を量子化し、量子化済み係数をエントロピー符号化することによって行われる。量子化処理の忠実度を変えることによって、エンコーダは画素表現の正確性（ピクチャ品質）と結果として得られる符号化ビデオ表現のサイズ（ファイルサイズまたは伝送ビットレート）との間のバランスを調整することができる。

インター予測は、時間予測、動き補償、または動き補償予測とも呼ばれ、時間冗長性を小さくする。インター予測では、予測は先に復号済みのピクチャに基づく。一方、イントラ予測は、同一のピクチャ内の隣接画素同士に相関がある可能性が高いという事実に基づく。イントラ予測は、空間ドメインまたは変換ドメインで行うことができる。すなわち、サンプル値または変換係数のいずれかを予測することができる。イントラ符号化では通常イントラ予測が利用され、インター予測は適用されない。

符号化処理の結果の１つとして、動きベクトルと量子化変換係数のような符号化パラメータセットが得られる。多くのパラメータは、最初に空間的または時間的に隣接するパラメータから予測することで、より効率的にエントロピー符号化することができる。例えば、動きベクトルは空間的に隣接する動きベクトルから予測されてもよく、動きベクトル予測器に対する相対差のみが符号化されてもよい。符号化パラメータの予測およびイントラ予測は、まとめてピクチャ内予測とも呼ばれる。

図４は、本発明の各実施形態の利用に適したビデオエンコーダのブロック図である。図４では２レイヤ用のエンコーダを示すが、図示のエンコーダを１つのみのレイヤを符号化するように簡略化してもよく、あるいは３つ以上のレイヤを符号化するように拡張してもよい。図４は、基本レイヤ用の第１のエンコーダ部５２０と、拡張レイヤ用の第２のエンコーダ部５２２とを備えるビデオエンコーダの実施形態を示す。第１のエンコーダ部５２０と第２のエンコーダ部５２２とはそれぞれ、受信するピクチャを符号化するために同様の要素を備えてもよい。エンコーダ部５２０、５２２は、画素予測器３０２、４０２と、予測誤差エンコーダ３０３、４０３と、予測誤差デコーダ３０４、４０４とを備える。図４はさらに、インター予測器３０６、４０６と、イントラ予測器３０８、４０８と、モード選択部３１０、４１０と、フィルタ３１６、４１６と、参照フレームメモリ３１８、４１８とを備える画素予測器３０２、４０２の実施形態を示す。第１のエンコーダ部５００の画素予測器３０２は、インター予測器３０６（画像と動き補償参照フレーム３１８との差分を判定する）と、イントラ予測器３０８（現フレームまたはピクチャの処理済み部分のみに基づいて、画像ブロックの予測を判定する）の両者で符号化される動画ストリームの基本レイヤ画像を３００枚受信する。インター予測器およびイントラ予測器の両方の出力は、モード選択部３１０に送られる。イントラ予測器３０８は、２つ以上のイントラ予測モードを備えてもよい。この場合、各モードにおいてイントラ予測が行われ、予測信号がモード選択部３１０に提供されてもよい。モード選択部３１０は、基本レイヤピクチャ３００のコピーも受信する。同様に、第２のエンコーダ部５２２の画素予測器４０２は、インター予測器４０６（画像と動き補償参照フレーム４１８との差分を判定する）と、イントラ予測器４０８（現フレームまたはピクチャの処理済み部分のみに基づいて、画像ブロックの予測を判定する）の両者で符号化される動画ストリームの拡張レイヤ画像を４００枚受信する。インター予測器およびイントラ予測器の両方の出力は、モード選択部４１０に送られる。イントラ予測器４０８は、２つ以上のイントラ予測モードを備えてもよい。この場合、各モードにおいてイントラ予測が行われ、予測信号がモード選択部４１０に提供されてもよい。モード選択部４１０は、拡張レイヤピクチャ４００のコピーも受信する。

現在のブロックの符号化のためにいずれの符号化モードが選択されたかに応じて、インター予測器３０６、４０６の出力、任意のイントラ予測器モードの１つによる出力、またはモード選択部内のサーフェスエンコーダの出力が、モード選択部３１０、４１０の出力に送られる。モード選択部の出力は、第１の加算装置３２１、４２１に送られる。第１の加算装置は、基本レイヤピクチャ３００／拡張レイヤピクチャ４００から画素予測器３０２、４０２の出力を減算し、第１の予測誤差信号３２０、４２０を生成してもよい。当該信号は、予測誤差エンコーダ３０３、４０３に入力される。

画素予測器３０２、４０２はさらに、画像ブロック３１２、４１２の予測表現と予測誤差デコーダ３０４、４０４の出力３３８、４３８の組合せを予備再構成器３３９、４３９から受け取る。予備再構成された画像３１４、４１４が、イントラ予測器３０８、４０８と、フィルタ３１６、４１６とに送られてもよい。予備表現を受け取るフィルタ３１６、４１６は、その予備表現をフィルタリングし、参照フレームメモリ３１８、４１８に保存されうる最終再構成画像３４０、４４０を出力してもよい。参照フレームメモリ３１８は、インター予測器３０６に接続され、インター予測動作において後の基本レイヤピクチャ３００と比較される参照画像として使用されてもよい。いくつかの実施形態では、基本レイヤが拡張レイヤのインターレイヤサンプル予測および／またはインターレイヤ動き情報予測の元として選択、標示されている場合、参照フレームメモリ３１８は、インター予測器４０６に接続され、インター予測動作において後の拡張レイヤピクチャ４００と比較される参照画像として使用されてもよい。さらに、参照フレームメモリ４１８は、インター予測器４０６に接続され、インター予測動作において後の拡張レイヤピクチャ４００と比較される参照画像として使用されてもよい。

いくつかの実施形態において、基本レイヤが拡張レイヤのフィルタリングパラメータ予測の元として選択、標示されている場合、第２のエンコーダ部５２２に対して、第１のエンコーダ部５２０のフィルタ３１６からのフィルタリングパラメータが提供されてもよい。

予測誤差エンコーダ３０３、４０３は、変換部３４２、４４２と量子化器３４４、４４４とを備える。変換部３４２、４４２は、第１の予測誤差信号３２０、４２０を変換ドメインに変換する。この変換は、例えばＤＣＴ変換である。量子化器３４４、４４４は、例えばＤＣＴ係数のような変換ドメイン信号を量子化し、量子化係数を生成する。

予測誤差デコーダ３０４、４０４は予測誤差エンコーダ３０３、４０３からの出力を受信し、予測誤差エンコーダ３０３、４０３とは逆の処理を実行して、復号予測誤差信号３３８、４３８を生成する。当該信号は、第２の加算装置３３９、４３９にて画像ブロック３１２、４１２の予測表現と組み合わされて、予備再構成画像３１４、４１４が生成される。予測誤差デコーダは、逆量子化器３６１、４６１と、逆変換部３６３、４６３とを備えるものとみなすことができる。逆量子化器３６１、４６１は、例えばＤＣＴ係数のような量子化係数値を逆量子化し、変換信号を再構成する。逆変換部３６３、４６３は再構成変換信号を逆変換する。逆変換部３６３、４６３の出力は、１つ以上の再構成ブロックを含む。予測誤差デコーダはさらに、さらなる復号情報やフィルタパラメータに基づき、１つ以上の再構成ブロックをフィルタリングしうるブロックフィルタを備えてもよい。

エントロピーエンコーダ３３０、４３０は、予測誤差エンコーダ３０３、４０３の出力を受信し、好適なエントロピー符号化／可変長符号化を信号に実行する。これによりエラー検出および修正が可能となる。エントロピーエンコーダ３３０、４３０の出力は、例えばマルチプレクサ５２８によりビットストリームに挿入されてもよい。

Ｈ．２６４／ＡＶＣ規格は、ＩＴＵ−Ｔ（国際電気通信連合の電気通信標準化部門）のビデオの符号化専門家グループ（ＶＣＥＧ）およびＩＳＯ（国際標準化機構）／ＩＥＣ（国際電気標準会議）の動画専門家グループ（ＭＰＥＧ）による統合ビデオチーム（ＪＶＴ）によって開発された。Ｈ．２６４／ＡＶＣ規格は、その元となる両標準化機構によって公開されており、ＩＴＵ−Ｔ勧告Ｈ．２６４およびＩＳＯ／ＩＥＣ国際規格１４４９６−１０と呼ばれ、ＭＰＥＧ−４パート１０高度ビデオ符号化方式（Advanced Video Coding：ＡＶＣ）としても知られている。Ｈ．２６４／ＡＶＣ規格には複数のバージョンがあり、それぞれが仕様に新たな拡張や特徴を統合している。これらの拡張には、スケーラブルビデオ符号化（Scalable Video Coding：ＳＶＣ）やマルチビュービデオ符号化（Multiview Video Coding：ＭＶＣ）が挙げられる。

高効率ビデオ符号化（High Efficiency Video Coding：Ｈ．２６５／ＨＥＶＣまたはＨＥＶＣ）規格のバージョン１は、ＶＣＥＧとＭＰＥＧのビデオの符号化共同研究開発チーム（ＪＣＴ−ＶＣ）によって開発された。この規格は、その元となる両標準化機構によって公開されており、ＩＴＵ−Ｔ勧告Ｈ．２６５およびＩＳＯ／ＩＥＣ国際規格２３００８−２と呼ばれ、ＭＰＥＧ−Ｈパート２高効率ビデオ符号化として知られている。Ｈ．２６５／ＨＥＶＣのバージョン２は、スケーラブル拡張、マルチビュー拡張、および忠実度範囲拡張を含み、それぞれＳＨＶＣ、ＭＶ−ＨＥＶＣ、およびＲＥＸＴと略称される。Ｈ．２６５／ＨＥＶＣのバージョン２は、ＩＴＵ−Ｔ勧告Ｈ．２６５（２０１４年１０月）として先に刊行されており、２０１５年にＩＳＯ／ＩＥＣ２３００８−２の第２版として刊行される見込みである。Ｈ．２６５／ＨＥＶＣのさらなる拡張版を開発する標準化プロジェクトも現在進められている。当該拡張版には、３次元およびスクリーンコンテンツ符号化拡張（それぞれ、３Ｄ−ＨＥＶＣ、ＳＣＣと略称される）が含まれている。

ＳＨＶＣ、ＭＶ−ＨＥＶＣ、および３Ｄ−ＨＥＶＣは、ＨＥＶＣ規格のバージョン２の添付資料（Annex）Ｆに規定されている共通基準仕様を用いている。この共通基準は、例えば高レベルのシンタックスおよび意味を含む。これによって例えばインターレイヤ依存性等のビットストリームのレイヤの一部の特性や、インターレイヤ参照ピクチャを含む参照ピクチャリスト構造やマルチレイヤビットストリームに対するピクチャ順カウント導出等の復号処理が規定される。添付資料Ｆは、さらにＨＥＶＣの後続のマルチレイヤ拡張にも使用できる。以下において、ビデオエンコーダ、ビデオデコーダ、符号化方法、復号方法、ビットストリーム構造、および／または実施形態は、ＳＨＶＣおよび／またはＭＶ−ＨＥＶＣといった特定の拡張を参照して説明されるが、これらはＨＥＶＣの任意のマルチレイヤ拡張にも広く適用可能であり、さらには任意のマルチレイヤビデオの符号化方式にも適用可能であることは理解されよう。

ここでは、Ｈ．２６４／ＡＶＣおよびＨＥＶＣの重要な定義やビットストリーム、符号化の構造、概念の一部が、実施形態を実施可能なビデオエンコーダやデコーダ、符号化方法、復号方法、ビットストリーム構造の例として説明される。Ｈ．２６４／ＡＶＣの重要な定義やビットストリーム、符号化の構造、概念の中にはＨＥＶＣにおける規格と同一のものもある。したがって、以下ではこれらも一緒に説明される。本発明の態様は、Ｈ．２６４／ＡＶＣやＨＥＶＣに限定されるものではなく、本明細書は本発明が部分的にまたは全体として実現される上で可能な原理を説明するためのものである。

先行する多くのビデオの符号化規格と同様に、Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、エラーのないビットストリームのための復号処理に加えてビットストリームのシンタックスと意味についても規定している。符号化処理については規定されていないが、エンコーダは適合するビットストリームを生成する必要がある。ビットストリームとデコーダの適合性は、仮想参照デコーダ（Hypothetical Reference Decoder：ＨＲＤ）を用いて検証できる。この規格は、伝送エラーや伝送損失対策を助ける符号化ツールを含むが、こうしたツールを符号化で用いることは任意に選択可能であって、誤ったビットストリームに対する復号処理は規定されていない。

現存の規格に関する記述においても例示的実施形態の記述と同様に、シンタックス要素はビットストリームで表されるデータの要素として定義することができる。シンタックス構造は、特定の順序でビットストリームにおいて共存する０以上のシンタックス要素として定義されてもよい。現存の規格に関する記述においても例示的実施形態の記述と同様に、「外部手段によって」や「外部手段を介して」という表現が使用できる。例えば、シンタックス構造や復号処理において用いられる変数の値といったエンティティは、「外部手段によって」該復号処理に提供されてもよい。「外部手段によって」という表現は、このエンティティがエンコーダによって作成されたビットストリームに含まれるものではなく、ビットストリームの外部から、例えば制御プロトコルを用いて持ち込まれたことを示しうる。これに代えて、または加えて、「外部手段によって」という表現は、該エンティティがエンコーダによって作成されたものではなく、例えばデコーダを用いるプレーヤまたは復号制御論理回路等によって作成されたことを示しうる。このデコーダは、変数値等の外部手段を入力するインタフェースを有してもよい。

Ｈ．２６４／ＡＶＣまたはＨＥＶＣエンコーダへの入力およびＨ．２６４／ＡＶＣまたはＨＥＶＣデコーダからの出力の基本単位は、それぞれピクチャである。エンコーダへの入力として与えられたピクチャはソースピクチャとも呼ばれ、デコーダによって復号されたピクチャは復号ピクチャとも呼ばれる。

ソースピクチャおよび復号ピクチャは、それぞれ以下のサンプル配列のセットのいずれかのような、１つ以上のサンプル配列からなっている。
・輝度（Luma）（Ｙ）のみ（モノクロ）
・輝度および２つのクロマ（ＹＣｂＣｒまたはＹＣｇＣｏ）
・緑、青、赤（ＧＢＲまたはＲＧＢ）
・その他の非特定モノクロまたは三刺激色サンプリングを示す配列（例えば、ＹＺＸ、またはＸＹＺ）

以下では、これらの配列は、実際に使用されている色表現方法に関わらず、輝度（ＬまたはＹ）およびクロマと呼ばれ、２つのクロマ配列はＣｂおよびＣｒとも呼ばれてもよい。実際に使用されている色表現方法は、例えばＨ．２６４／ＡＶＣおよび／またはＨＥＶＣのビデオユーザビリティ情報（ＶＵＩ）シンタックスを使用して、符号化されたビットストリームにおいて示すことができる。ある成分が、３つのサンプル配列（輝度および２つのクロマ）のうちの１つから配列または単一のサンプルとして定義されるか、モノクロフォーマットのピクチャを構成する配列または配列の単一のサンプルとして定義されてもよい。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、ピクチャはフレームまたはフィールドのいずれかであってもよい。フレームは、輝度サンプルと場合により対応するクロマサンプルの行列を含む。フィールドは、フレームの１つおきのサンプル行の組であり、ソース信号がインターレースである場合、エンコーダ入力として用いられてもよい。クロマサンプル配列はなくてもよく（よって、モノクロサンプリングが使用される）、または輝度サンプル配列と比較されるときにサブサンプリングされてもよい。クロマフォーマットは、以下のようにまとめられる。
・モノクロサンプリングでは、サンプル配列が１つのみ存在し、名目上輝度配列とみなされる。
・４：２：０サンプリングでは、２つのクロマ配列のそれぞれが輝度配列の半分の高さと半分の幅を有する。
・４：２：２サンプリングでは、２つのクロマ配列のそれぞれが輝度配列と同じ高さと半分の幅を有する。
・４：４：４サンプリングでは、別個の色平面が使用されない場合、２つのクロマ配列のそれぞれが輝度配列と同じ高さと幅を有する。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、サンプル配列を別個の色平面としてビットストリームに符号化し、そのビットストリームから別個に符号化された色平面をそれぞれ復号することができる。別個の色平面が使用される場合、そのそれぞれは（エンコーダおよび／またはデコーダによって）モノクロサンプリングのピクチャとして別々に処理される。

パーティショニングとは、１つのセットの各要素が正確にサブセットの１つであるように、そのセットを複数のサブセットに分割することと定義することができる。

Ｈ．２６４／ＡＶＣでは、マクロブロックとは、１６×１６ブロックの輝度サンプルと対応するクロマサンプルのブロックである。例えば、４：２：０サンプリングパターンでは、１つのマクロブロックには各クロマ成分について、１つの８×８ブロックのクロマサンプルを含む。Ｈ．２６４／ＡＶＣでは、ピクチャが１つ以上のスライスグループに分割（パーティショニング）され、１つのスライスグループには１つ以上のスライスを含む。Ｈ．２６４／ＡＶＣでは、スライスは整数のマクロブロックからなり、特定のスライスグループ内でラスタースキャンの順に連続している。

ＨＥＶＣ符号化および／または復号の動作の記述に関して、以下の用語が用いられる場合がある。符号化ブロックは、符号化ツリーブロックが符号化ブロックへパーティショニングにより分割されるように、何らかの値ＮについてのサンプルのＮ×Ｎブロックとして定義することができる。符号化ツリーブロック（ＣＴＢ）は、ある成分の符号化ツリーブロックへパーティショニングにより分割されるように、何らかの値ＮについてのサンプルのＮ×Ｎブロックとして定義することができる。符号化ツリー単位（Coding Tree Unit：ＣＴＵ）は、輝度サンプルの符号化ツリーブロックとして定義することができ、これは３つのサンプル配列を有するピクチャのクロマサンプルの２つの対応する符号化ツリーブロックや、モノクロピクチャのサンプルまたは３つの別個の色平面やサンプルを符号化するために使用されるシンタックス構造を用いて符号化されるピクチャのサンプルの符号化ツリーブロックである。符号化単位（Coding Unit：ＣＵ）は、輝度サンプルの符号化ブロックとして定義することができ、これは３つのサンプル配列を有するピクチャのクロマサンプルの２つの対応する符号化ブロックや、モノクロピクチャのサンプルまたは３つの別個の色平面やサンプルを符号化するために使用されるシンタックス構造を用いて符号化されるピクチャのサンプルの符号化ブロックである。

高効率ビデオ符号化（ＨＥＶＣ）コーデック等の一部のビデオコーデックでは、ビデオピクチャは、ピクチャのエリアを網羅する複数の符号化単位（ＣＵ）に分割される。ＣＵは、ＣＵ内のサンプルに対する予測処理を定義する１つ以上の予測単位（Prediction Unit：ＰＵ）と、該ＣＵ内のサンプルに対する予測誤差符号化処理を定義する１つ以上の変換単位（Transform Unit：ＴＵ）からなる。通常ＣＵは、正方形のサンプルブロックからなり、規定されている可能なＣＵサイズの組から選択可能なサイズを有する。最大許容サイズのＣＵは、最大符号化単位（Largest Coding Unit：ＬＣＵ）または符号化ツリー単位（ＣＴＵ）と呼ばれることもあり、ビデオピクチャは重なり合わないＬＣＵに分割される。ＬＣＵは、例えば該ＬＣＵと分割の結果得られるＣＵを再帰的に分割することによってさらに小さいＣＵの組合せに分割されることもある。分割の結果得られる各ＣＵは通常、少なくとも１つのＰＵとそれに関連する少なくとも１つのＴＵを有する。ＰＵとＴＵはそれぞれ、予測処理と予測誤差符号化処理の粒度を上げるために、さらに小さい複数のＰＵとＴＵに分割されることもある。各ＰＵは、そのＰＵ内の画素に適用される予測の種類を定義する、該ＰＵに関連した予測情報（例えば、インター予測されたＰＵに対しては動きベクトルの情報、イントラ予測されたＰＵに対してはイントラ予測の方向情報）を有する。

デコーダは、予測された画素ブロックの表現を形成して（エンコーダが作成し、圧縮表現に格納された、動き情報または空間情報を使用）、予測誤差を復号するために（空間画素ドメインで量子化された予測誤差信号を回復する、予測誤差符号化の逆操作を使用）、エンコーダと同様の予測手段を適用することによって出力ビデオを再構成する。予測および予測誤差復号手段の適用後、デコーダは、出力ビデオフレームを形成するために予測信号と予測誤差信号（画素値）を足し合わせる。デコーダ（およびエンコーダ）は、出力ビデオをディスプレイに送る、および／または後続フレーム用予測の参照としてビデオシーケンスに格納する前に、出力ビデオの品質を向上するために追加フィルタリング手段を適用することもできる。

フィルタリングは、例えば、デブロッキング、適応サンプルオフセット（Sample Adaptive Offset：ＳＡＯ）、および／または適応ループフィルタリング（Adaptive Loop Filtering：ＡＬＦ）のうちの１つ以上を含んでもよい。Ｈ．２６４／ＡＶＣはデブロッキングを含み、一方、ＨＥＶＣはデブロッキングとＳＡＯの両方を含む。

典型的なビデオコーデックでは、動き情報は、予測単位等の動き補償された画像ブロックのそれぞれに関連する動きベクトルで示される。こうした動きベクトルはそれぞれ、（エンコーダ側で）符号化されるピクチャまたは（デコーダ側で）復号されるピクチャの画像ブロックと、先に符号化または復号されたピクチャの１つにおける予測元ブロックとの間の移動量を表す。動きベクトルを効率よく表現するために、動きベクトルは通常、ブロック固有の予測動きベクトルに関して差動符号化されてもよい。典型的なビデオコーデックにおいて、予測動きベクトルは所定の方法、例えば、隣接ブロックの符号化／復号動きベクトルの中央値を計算することによって生成される。動きベクトル予測を行う別の方法は、時間参照ピクチャにおける隣接ブロックおよび／または同位置のブロックから予測候補のリストを作成し、選択された候補を動きベクトルの予測として信号で伝えるものである。動きベクトルの値の予測に加え、いずれの参照ピクチャが動き補償予測に用いられるかを予測することができ、この予測情報を例えば先に符号化／復号されたピクチャの参照インデックスによって表すことができる。参照インデックスは通常、時間参照ピクチャにおける隣接ブロックおよび／または同位置のブロックから予測される。また、典型的な高効率ビデオコーデックでは追加的な動き情報符号化／復号機構を用い、通常、マージングまたはマージモードと呼ばれる。ここで、すべての動きフィールド情報は、利用可能な参照ピクチャリストの各々について動きベクトルと対応する参照ピクチャインデックスを含んで、予測され、その他の変更／修正を行わずに使用される。同様に、動きフィールド情報の予測は、時間参照ピクチャにおける隣接ブロックおよび／または同位置のブロックの動きフィールド情報を用いて行われ、使用された動きフィールド情報は、利用可能な隣接／同位置のブロックの動きフィールド情報が含まれる動きフィールド候補のリストに信号で伝えられる。

典型的なビデオコーデックは、単予測と双予測の使用が可能である。単予測では単一の予測ブロックを符号化／復号対象ブロックに使用し、双予測では２つの予測ブロックを組み合わせて、符号化／復号対象ブロックに対する予測を実現する。一部のビデオコーデックでは、残差情報を加える前に予測ブロックのサンプル値が重み付けされる重み付け予測が可能である。例えば、乗法重み付け係数および加法補正値を適用することができる。一部のビデオコーデックによって実現される直接的な重み付け予測では、重み付け係数および補正値は、例えば許容される参照ピクチャインデックスごとにスライスヘッダにおいて符号化されてもよい。一部のビデオコーデックによって実現される間接的な重み付け予測では、重み付け係数および／または補正値は符号化されず、例えば参照ピクチャの相対ピクチャ順数（Relative Picture Order Count：ＰＯＣ）の距離に基づいて導出される。

典型的なビデオコーデックにおいて、動き補償後の予測残差は最初に（ＤＣＴのような）変換カーネルで変換され、次に符号化される。これは、残差間にも相関があり、こうした変換が多くの場合でこのような相関を小さくするのに役立ち、より高い効率での符号化を可能にするからである。

典型的なビデオエンコーダは、例えば所望のマクロブロックモードおよび関連する動きベクトルといった最適な符号化モードを探索するために、ラグランジュコスト関数を利用する。この種の費用関数は、非可逆符号化方法による（正確な、または推定された）画像歪みと、画像エリアの画素値を表現するのに必要である（正確な、または推定された）情報量を一緒に固定するために、重み付け係数λを使用する。

Ｃ＝Ｄ＋λＲ（式１）

ここで、Ｃは最小化すべきラグランジュコスト、Ｄはそのモードおよび考慮される動きベクトルによる画像歪み（例えば平均二乗誤差）、Ｒはデコーダで画像ブロックを再構成するために必要なデータ（候補の動きベクトルを表すためのデータ量を含む）を表すのに必要なビット数である。

ビデオ符号化規格および標準は、エンコーダが符号化ピクチャを符号化スライス等に分割可能にするものであってもよい。通常、スライス境界をまたぐピクチャ内予測は無効である。したがって、スライスは符号化ピクチャを独立に復号可能な部分に分割する方法だと考えられる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、スライス境界をまたぐピクチャ内予測が無効でもよい。したがって、スライスは符号化ピクチャを独立に復号可能な部分に分割する方法だと考えられることもあり、このため、伝送の基本単位とみなされることが多い。多くの場合、エンコーダは、ピクチャ内予測のどの種類がスライス境界をまたぐ際に止められているかをビットストリームで示してもよい。この情報は、デコーダの動作によって、どの予測ソースが利用可能であるかを決定する際等に考慮される。例えば、隣接するマクロブロックやＣＵが別のスライスに存在する場合、その隣接するマクロブロックやＣＵからのサンプルはイントラ予測には利用できないとみなされてもよい。

Ｈ．２６４／ＡＶＣまたはＨＥＶＣのエンコーダからの出力およびＨ．２６４／ＡＶＣまたはＨＥＶＣのデコーダへの入力のための基本単位はそれぞれ、ネットワーク抽象化層（Network Abstraction Layer：ＮＡＬ）単位である。パケット指向ネットワークでの伝送や構造化ファイルへの格納に対して、ＮＡＬ単位はパケットや同様の構造にカプセル化されてもよい。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、フレーム構造を提供しない伝送や格納の環境に対してバイトストリームフォーマットが特定されている。バイトストリームフォーマットは、各ＮＡＬ単位の先頭に開始コードを付与することによってＮＡＬ単位同士を分離する。ＮＡＬ単位境界の誤検出を防止するために、エンコーダはバイト指向開始コードエミュレーション防止アルゴリズムを実行する。このアルゴリズムでは、開始コードが別の形で生じた場合にＮＡＬ単位ペイロードにエミュレーション防止バイトを追加する。パケット指向システムとストリーム指向システムとの間の直接的なゲートウェイ動作を可能とするために、バイトストリームフォーマットが使用されているか否かに関係なく常に開始コードエミュレーション防止が行われてもよい。ＮＡＬ単位は、後続データの種類の標示を含むシンタックス構造と、未加工バイトシーケンスペイロード（ＲＢＳＰ）の形態で必要に応じてエミュレーション防止バイトを散在させたデータを含む複数のバイトとして定義することができる。ＲＢＳＰは、ＮＡＬ単位にカプセル化される整数のバイトを含むシンタックス構造として定義することができる。ＲＢＳＰは空であるか、ＲＢＳＰストップビットおよび０に等しい後続のビットが０個以上続くシンタックス要素を含むデータビット列の形態を持つかのいずれかである。

ＮＡＬ単位はヘッダとペイロードからなる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、ＮＡＬ単位ヘッダはＮＡＬ単位の種類を示す。

Ｈ．２６４／ＡＶＣのＮＡＬ単位ヘッダは２ビットのシンタックス要素であるnal_ref_idcを含み、これが０のときはＮＡＬ単位に含まれる符号化スライスが非参照ピクチャの一部であることを示し、０を超えるときはＮＡＬ単位に含まれる符号化スライスが参照ピクチャの一部であることを示す。ＳＶＣおよびＭＶＣのＮＡＬ単位のヘッダは、スケーラビリティおよびマルチビュー階層に関する各種標示を追加で含んでもよい。

ＨＥＶＣでは、規定されるＮＡＬ単位のすべての種類に対して２バイトのＮＡＬ単位ヘッダが使用される。ＮＡＬ単位ヘッダには、１ビットの予約ビットと６ビットのＮＡＬ単位種類の標示、時間レベルに対する３ビットのnuh_temporal_id_plus1標示（１以上であることが必要な場合がある）、６ビットのnuh_layer_idシンタックス要素が含まれる。temporal_id_plus1シンタックス要素はＮＡＬ単位の時間識別子とみなされ、ゼロベースのＴｅｍｐｏｒａｌＩＤ変数は次のように算出することができる。
ＴｅｍｐｏｒａｌＩＤ＝temporal_id_plus1−１
ＴｅｍｐｏｒａｌＩＤが０のときは、最下位時間レベルに対応する。２つのＮＡＬ単位ヘッダバイトを含む開始コードエミュレーションを避けるために、temporal_id_plus1の値は０でない値が求められる。選択された値以上のＴｅｍｐｏｒａｌＩＤを持つすべてのＶＣＬ−ＮＡＬ単位を除外し、それ以外のすべてのＶＣＬ−ＮＡＬ単位を含めることによって生成されたビットストリームが適合するものである。その結果、ＴＩＤと等しいＴｅｍｐｏｒａｌＩＤを持つピクチャは、ＴＩＤを超えるＴｅｍｐｏｒａｌＩＤを持つどのピクチャもインター予測の参照として使用しない。サブレイヤまたは時間サブレイヤは、ＴｅｍｐｏｒａｌＩＤ変数の特定の値を持つＶＣＬ−ＮＡＬ単位および関連する非ＶＣＬ−ＮＡＬ単位からなる時間スケーラブルビットストリームの時間スケーラブルレイヤとして定義されてもよい。nuh_layer_idは、スケーラビリティレイヤ識別子として理解できる。

ＮＡＬ単位は、ビデオ符号化層（Video Coding Layer：ＶＣＬ）のＮＡＬ単位と、非ＶＣＬ−ＮＡＬ単位とに分類できる。ＶＣＬ−ＮＡＬ単位は通常、符号化スライスＮＡＬ単位である。Ｈ．２６４／ＡＶＣでは、符号化スライスＮＡＬ単位は１つ以上の符号化マクロブロックを表すシンタックス要素を含み、そのそれぞれが非圧縮ピクチャにおけるサンプルの１ブロックに対応する。ＨＥＶＣでは、ＶＣＬ−ＮＡＬ単位は１つ以上のＣＵを表すシンタックス要素を含む。

Ｈ．２６４／ＡＶＣでは、符号化スライスＮＡＬ単位は、瞬時復号リフレッシュ（Instantaneous Decoding Refresh：ＩＤＲ）ピクチャにおける符号化スライスまたは非ＩＤＲピクチャにおける符号化スライスであると示されうる。

ＨＥＶＣにおいては、ＶＣＬ−ＮＡＬ単位のnal_unit_typeが、ピクチャ種類を示すととらえることができる。ＨＥＶＣでは、ピクチャ種類の略語は、末尾（ＴＲＡＩＬ）ピクチャ、時間サブレイヤアクセス（Temporal Sub-layer Access：ＴＳＡ）、段階的時間サブレイヤアクセス（Step-wise Temporal Sub-layer Access：ＳＴＳＡ）、ランダムアクセス復号可能先頭（Random Access Decodable Leading：ＲＡＤＬ）ピクチャ、ランダムアクセススキップ先頭（Random Access Skipped Leading：ＲＡＳＬ）ピクチャ、リンク切れアクセス（Broken Link Access：ＢＬＡ）ピクチャ、瞬時復号リフレッシュ（ＩＤＲ）ピクチャ、クリーンランダムアクセス（ＣＲＡ）ピクチャと定義することができる。ピクチャ種類は、ＩＲＡＰ（intra random access point）ピクチャと、非ＩＲＡＰピクチャに分けられる。

イントラランダムアクセスポイント（ＩＲＡＰ）ピクチャとも呼ばれるランダムアクセスポイント（ＲＡＰ）ピクチャは、各スライスまたはスライスセグメントが１６以上２３以下の範囲にnal_unit_typeを有するピクチャである。独立したレイヤのＩＲＡＰピクチャは、イントラ符号化スライスのみを含む。nuh_layer_id値がcurrLayerIdの予測されたレイヤに属するＩＲＡＰピクチャは、Ｐ、Ｂ、Ｉスライスを含むことができ、nuh_layer_idがcurrLayerIdに等しいその他のピクチャからのインター予測を使用することができず、その直接参照レイヤからのインターレイヤ予測を使用してもよい。ＨＥＶＣの現行バージョンでは、ＩＲＡＰピクチャは、ＢＬＡピクチャ、ＣＲＡピクチャ、またはＩＤＲピクチャであってもよい。基本レイヤを含むビットストリームの最初のピクチャは、該基本レイヤにおけるＩＲＡＰピクチャである。必須パラメータセットがアクティブ化される必要があるときに利用可能であるならば、独立レイヤのＩＲＡＰピクチャおよび該独立レイヤ内の復号順で後続のすべての非ＲＡＳＬピクチャは、復号順でＩＲＡＰピクチャより前のピクチャに復号処理を行うことなく、正しく復号することができる。アクティブ化する必要のあるときに必須パラメータセットが利用可能な場合、また、nuh_layer_idがcurrLayerIdに等しいレイヤの各直接参照レイヤの復号が初期化された場合（すなわち、nuh_layer_idがcurrLayerIdに等しいレイヤの直接参照レイヤのすべてのnuh_layer_id値に等しいrefLayerIdに対して、LayerInitializedFlag[ refLayerId ]が１に等しい）、nuh_layer_id値がcurrLayerIdの予測されたレイヤに属するＩＲＡＰピクチャと、nuh_layer_idがcurrLayerIdに等しい復号順で後続のすべての非ＲＡＳＬピクチャは、復号順でＩＲＡＰピクチャの前にあるnuh_layer_idがcurrLayerIdに等しいいずれのピクチャについても復号処理を行うことなく、正しく復号することができる。ＩＲＡＰピクチャではないイントラ符号化スライスのみを含むビットストリームにピクチャが存在することもある。

ＨＥＶＣでは、ＣＲＡピクチャが復号順でビットストリームの最初のピクチャであってもよく、ビットストリームの後の方で現れてもよい。ＨＥＶＣではＣＲＡピクチャによって、いわゆる先頭ピクチャが復号順でＣＲＡピクチャの後であるが出力順ではそれより前になる。先頭ピクチャの中のいわゆるＲＡＳＬピクチャは、参照としてＣＲＡピクチャより前に復号されるピクチャを用いてもよい。復号順および出力順で共にＣＲＡピクチャより後のピクチャは、ＣＲＡピクチャでランダムアクセスが行われる場合に復号可能となり、そのため、クリーンランダムアクセスは、ＩＤＲピクチャのクリーンランダムアクセス機能と同様にして実現される。

ＣＲＡピクチャは、関連するＲＡＤＬまたはＲＡＳＬピクチャを有することもある。ＣＲＡピクチャが復号順でビットストリームの最初のピクチャである場合、ＣＲＡピクチャは、復号順で符号化ビデオシーケンスの最初のピクチャであり、いずれの関連するＲＡＳＬピクチャもデコーダから出力されず、復号できない可能性がある。その理由は、これらのピクチャにはビットストリームに現れないピクチャに対する参照が含まれる可能性があるためである。

先頭ピクチャは、出力順で関連するＲＡＰピクチャよりも先のピクチャである。関連するＲＡＰピクチャは、（存在する場合は）復号順で前のＲＡＰピクチャである。先頭ピクチャはＲＡＤＬピクチャまたはＲＡＳＬピクチャのいずれかである。

すべてのＲＡＳＬピクチャは、関連するＢＬＡまたはＣＲＡピクチャの先頭ピクチャである。関連するＲＡＰピクチャがＢＬＡピクチャまたはビットストリームにおける最初の符号化ピクチャである場合、ＲＡＳＬピクチャは出力されず、正しく復号されないかもしれない。その理由は、ＲＡＳＬピクチャにはビットストリームに現れないピクチャに対する参照が含まれる可能性があるためである。しかし、ＲＡＳＬピクチャの関連するＲＡＰピクチャより前のＲＡＰピクチャから復号が始まっていた場合、ＲＡＳＬピクチャを正しく復号することができる。ＲＡＳＬピクチャは、非ＲＡＳＬピクチャの復号処理のための参照ピクチャとして使用されない。すべてのＲＡＳＬピクチャは、存在する場合、復号順で同一の関連するＲＡＰピクチャのすべての末尾ピクチャよりも前にある。ＨＥＶＣ規格のドラフトの中には、ＲＡＳＬピクチャを破棄用タグ付き（Tagged for Discard：ＴＦＤ）ピクチャと呼ぶものもあった。

すべてのＲＡＤＬピクチャは先頭ピクチャである。ＲＡＤＬピクチャは、同一の関連するＲＡＰピクチャにおける末尾ピクチャの復号処理のための参照ピクチャとして使用されない。すべてのＲＡＤＬピクチャは、存在する場合、復号順で同一の関連するＲＡＰピクチャのすべての末尾ピクチャよりも前にある。ＲＡＤＬピクチャは、復号順で関連するＲＡＰピクチャより前のいずれのピクチャも参照しない。したがって、復号が関連するＲＡＰピクチャから始まる場合、該ＲＡＤＬピクチャを正しく復号することができる。ＨＥＶＣ規格のドラフトの中には、ＲＡＤＬピクチャを復号可能先頭ピクチャ（Decodable Leading Picture：ＤＬＰ）と呼ぶものもあった。

ＣＲＡピクチャから始まるビットストリームの一部が別のビットストリームに含まれる場合、このＣＲＡピクチャに関連するＲＡＳＬピクチャは、その参照ピクチャの一部が合成ビットストリームにも存在しない可能性があるため、正しく復号されない可能性がある。こうした接合動作を直接的に行うために、ＣＲＡピクチャのＮＡＬ単位種類は、それがＢＬＡピクチャであることを示すように変更することができる。ＢＬＡピクチャに関連するＲＡＳＬピクチャは正しく復号できない可能性があり、よって、出力／表示もされない。また、ＢＬＡピクチャに関連するＲＡＳＬピクチャでは復号処理を省略することもある。

ＢＬＡピクチャが復号順でビットストリームの最初のピクチャであってもよく、ビットストリームの後の方で現れてもよい。各ＢＬＡピクチャは新たな符号化ビデオシーケンスを開始し、復号処理に対してＩＤＲピクチャと同様の影響を及ぼす。しかし、ＢＬＡピクチャは、空でない参照ピクチャセットを特定するシンタックス要素を含む。ＢＬＡピクチャは、BLA_W_LPに等しいnal_unit_typeを有する場合、関連するＲＡＳＬピクチャを有する場合もあり、これらのＲＡＳＬピクチャはデコーダから出力されず、復号できない可能性がある。これは、これらのピクチャにはビットストリームに現れないピクチャに対する参照が含まれる可能性があるためである。ＢＬＡピクチャはBLA_W_LPに等しいnal_unit_typeを有する場合、関連するＲＡＤＬピクチャを備えてもよく、これらのＲＡＤＬピクチャは復号されるものとして特定される。ＢＬＡピクチャは、BLA_W_DLPに等しいnal_unit_typeを有する場合、関連するＲＡＳＬピクチャを有さず、関連するＲＡＤＬピクチャを備えてもよく、これらのＲＡＤＬピクチャは復号されるものとして特定される。ＢＬＡピクチャは、BLA_N_LPに等しいnal_unit_typeを有する場合、関連する先頭ピクチャを有さない。

IDR_N_LPに等しいnal_unit_typeを有するＩＤＲピクチャは、ビットストリームに関連する先頭ピクチャを有さない。IDR_W_LPに等しいnal_unit_typeを有するＩＤＲピクチャは、ビットストリームに関連するＲＡＳＬピクチャを有さず、ビットストリームに関連するＲＡＤＬピクチャを備えてもよい。

nal_unit_typeの値が、TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12、またはRSV_VCL_N14に等しい場合、復号ピクチャは同一時間サブレイヤの他のピクチャに対する参照として使用されない。すなわち、ＨＥＶＣでは、nal_unit_typeの値が、TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12、またはRSV_VCL_N14に等しい場合、復号ピクチャは、ＴｅｍｐｏｒａｌＩＤが同じ値のピクチャのRefPicSetStCurrBefore、RefPicSetStCurrAfter、RefPicSetLtCurrのいずれにも含まれない。nal_unit_typeがTRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12、またはRSV_VCL_N14に等しい符号化ピクチャは、ＴｅｍｐｏｒａｌＩＤが同じ値の他のピクチャの復号可能性に影響を与えないように破棄されてもよい。

末尾ピクチャは、出力順で関連するＲＡＰピクチャより後のピクチャとして定義することができる。末尾ピクチャであるいずれのピクチャも、RADL_N、RADL_R、RASL_N、またはRASL_Rに等しいnal_unit_typeを有さない。先頭ピクチャであるピクチャはいずれも、復号順で、同一のＲＡＰピクチャに関連するすべての末尾ピクチャより前であるように制限されてもよい。nal_unit_typeがBLA_W_DLPまたはBLA_N_LPであるＢＬＡピクチャに関連するＲＡＳＬピクチャは、ビットストリームには存在しない。BLA_N_LPに等しいnal_unit_typeを有するＢＬＡピクチャまたはIDR_N_LPに等しいnal_unit_typeを有するＩＤＲピクチャに関連するＲＡＤＬピクチャは、ビットストリームには存在しない。ＣＲＡまたはＢＬＡピクチャに関連するＲＡＳＬピクチャはいずれも、出力順で、ＣＲＡまたはＢＬＡピクチャに関連するいずれのＲＡＤＬピクチャよりも前にあるように制限されてもよい。ＣＲＡピクチャに関連するＲＡＳＬピクチャはいずれも、復号順でＣＲＡピクチャよりも前にある他のいずれのＲＡＰピクチャよりも、出力順で後になるように制限されてもよい。

ＨＥＶＣでは、ＴＳＡとＳＴＳＡという２つのピクチャ種類があり、時間サブレイヤの切替えポイントを示すために使用することができる。ＴＳＡまたはＳＴＳＡピクチャの手前まで、およびＴＳＡまたはＳＴＳＡピクチャのＴｅｍｐｏｒａｌＩＤがＮ＋１に等しくなるまで、ＴｅｍｐｏｒａｌＩＤがＮまでの時間サブレイヤが復号されてきた場合、ＴＳＡまたはＳＴＳＡピクチャは、ＴｅｍｐｏｒａｌＩＤがＮ＋１である（復号順で）すべての後続のピクチャの復号を可能にする。ＴＳＡピクチャ種類は、ＴＳＡピクチャ自体に加え、同一のサブレイヤにおいて復号順でそのＴＳＡピクチャより後のすべてのピクチャに対して制限を加えてもよい。こうしたピクチャはいずれも、同一のサブレイヤにおいて復号順でＴＳＡピクチャより前のピクチャからのインター予測の使用が許容されない。ＴＳＡの規定は、上位サブレイヤにおいて復号順でＴＳＡピクチャに続くピクチャに対して制限をさらに加えてもよい。これらのピクチャはいずれも、ＴＳＡピクチャと同一または上位のサブレイヤに属する場合、復号順でＴＳＡピクチャより前のピクチャに対する参照が許容されない。ＴＳＡピクチャは０を超えるＴｅｍｐｏｒａｌＩＤを有する。ＳＴＳＡはＴＳＡピクチャと同様であるが、上位サブレイヤにおいて復号順でＳＴＳＡピクチャより後のピクチャに対して制限を加えない。したがって、ＳＴＳＡピクチャが存在するサブレイヤに対してのみアップスイッチングが可能となる。

非ＶＣＬ−ＮＡＬ単位は、例えば、シーケンスパラメータセット、ピクチャパラメータセット、補助拡張情報（Supplemental Enhancement Information：ＳＥＩ）ＮＡＬ単位、アクセス単位区切り、シーケンスＮＡＬ単位の一端、ビットストリームＮＡＬ単位の一端、または補充データＮＡＬ単位のいずれかの種類であってもよい。パラメータセットは復号ピクチャの再構成に必要であってもよいが、他の非ＶＣＬ−ＮＡＬ単位の多くは、復号サンプル値の再構成には必要ない。アクセス単位区切りであるＮＡＬ単位が存在する場合、復号順でアクセス単位の第１のＮＡＬ単位となるようにしてもよい。すなわち、アクセス単位の開始を示すものであってもよい。符号化単位終了を示す、ＳＥＩメッセージやそれ専用のＮＡＬ単位のようなインジケータが、ビットストリームに含まれたり、ビットストリームから復号されたりしてもよいことが提案されている。この符号化単位終了インジケータは、当該インジケータが符号化ピクチャの終わりであるかを示す情報をさらに含んでもよい。その場合、当該符号化単位終了インジケータがアクセス単位の終了を示す、層の組合せについての情報をさらに含んでもよい。

符号化ビデオシーケンスで不変のパラメータがシーケンスパラメータセットに含まれてもよい。復号処理に必要なパラメータに加え、シーケンスパラメータセットがビデオユーザビリティ情報（Video Usability Information：ＶＵＩ）を任意で含んでもよい。これは、バッファリングやピクチャ出力タイミング、レンダリング、およびリソース予約に重要なパラメータを含む。Ｈ．２６４／ＡＶＣでは、シーケンスパラメータセットを運ぶため、Ｈ．２６４／ＡＶＣのＶＣＬ−ＮＡＬ単位用データすべてをシーケンスに含むシーケンスパラメータセットＮＡＬ単位、補助符号化ピクチャ用データを含むシーケンスパラメータセット拡張ＮＡＬ単位、ＭＶＣおよびＳＶＣＶＣＬ−ＮＡＬ単位用のサブセット・シーケンスパラメータセットの３つのＮＡＬ単位が規定されている。ＨＥＶＣでは、シーケンスパラメータセットＲＢＳＰには、１つ以上のピクチャパラメータセットＲＢＳＰ、またはバッファリング期間ＳＥＩメッセージを含む１つ以上のＳＥＩ−ＮＡＬ単位によって参照可能なパラメータが含まれる。ピクチャパラメータセットは、複数の符号化ピクチャで不変であるようなパラメータを含む。ピクチャパラメータセットＲＢＳＰは、１つ以上の符号化ピクチャの符号化スライスＮＡＬ単位によって参照可能なパラメータを含んでもよい。

ＨＥＶＣでは、ビデオパラメータセット（ＶＰＳ）は、０以上の符号化ビデオシーケンス全体に対して適用するシンタックス要素を含むシンタックス構造として定義することができる。該ビデオシーケンスは、各スライスセグメントヘッダにおいて探索されるシンタックス要素によって参照されるＰＰＳにおいて探索されるシンタックス要素によって参照されるＳＰＳにおいて探索されるシンタックス要素のコンテンツによって決定される。

ビデオパラメータセットＲＢＳＰは、１つ以上のシーケンスパラメータセットＲＢＳＰによって参照可能なパラメータを含んでもよい。

ビデオパラメータセット（ＶＰＳ）、シーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）の間の関係および階層は次のように記述できる。ＶＰＳは、スケーラビリティおよび／または３Ｄビデオの背景において、パラメータセット階層でＳＰＳの１段上に位置する。ＶＰＳは、すべての（スケーラビリティまたはビュー）レイヤにわたって全スライスに共通なパラメータを符号化ビデオシーケンス全体に含んでもよい。ＳＰＳは、特定の（スケーラビリティまたはビュー）レイヤにおける全スライスに共通なパラメータを符号化ビデオシーケンスの全体に含み、複数の（スケーラビリティまたはビュー）レイヤで共有されてもよい。ＰＰＳは、特定のレイヤ表現（１つのアクセス単位における１つのスケーラビリティまたはビューレイヤの表現）における全スライスに共通なパラメータを含み、これらのパラメータは複数のレイヤ表現における全スライスで共有される傾向にある。

ＶＰＳは、符号化ビデオシーケンス全体においてすべての（スケーラビリティまたはビュー）レイヤにわたって全スライスに適用可能なその他多くの情報を提供しうるが、さらにビットストリーム内のレイヤの依存関係に関する情報を提供してもよい。ＶＰＳは、基本ＶＰＳおよびＶＰＳ拡張の２つの部分を含むとみなされてもよく、このうち、ＶＰＳ拡張が含まれるかは任意に選択可能であってもよい。ＨＥＶＣでは、基本ＶＰＳは、vps_extension( )シンタックス構造を含まず、video_parameter_set_rbsp( )シンタックス構造を含むとみなされてもよい。video_parameter_set_rbsp( )シンタックス構造は、ＨＥＶＣのバージョン１で既に規定されており、基本レイヤの復号に使用できるシンタックス要素を含む。ＨＥＶＣでは、ＶＰＳ拡張は、vps_extension( )シンタックス構造を含むとみなされてもよい。vps_extension( )シンタックス構造は、ＨＥＶＣのバージョン２で特にマルチレイヤ拡張について規定されており、レイヤ依存関係を示すシンタックス要素等の１つ以上の非基本レイヤの復号に使用できるシンタックス要素を含む。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣのシンタックスでは様々なパラメータセットの事例が許容され、各事例は固有の識別子で識別される。パラメータセットに必要なメモリ使用量を制限するために、パラメータセット識別値域は制限されている。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、各スライスヘッダは、そのスライスを含むピクチャの復号に対してアクティブなピクチャパラメータセットの識別子を含む。各ピクチャパラメータセットは、アクティブなシーケンスパラメータセットの識別子を含む。その結果、ピクチャとシーケンスパラメータセットの伝送がスライスの伝送と正確に同期されている必要がない。実際に、アクティブシーケンスとピクチャパラメータセットはそれらが参照される前までに受け取られていれば十分であり、スライスデータ用のプロトコルよりも高い信頼性のある伝送機構を使って「帯域外」でパラメータセットを伝送することが可能になる。例えば、パラメータセットはリアルタイム転送プロトコル（Realtime Transport Protocol：ＲＴＰ）セッション用のセッション記述でのパラメータとして含まれてもよい。パラメータセットは、帯域内で伝送される場合、エラー耐性を高めるために繰り返されることもある。

パラメータセットは、スライスや別のアクティブパラメータセットからの参照によってアクティブ化されてもよく、場合によっては、バッファリング期間ＳＥＩメッセージのような別のシンタックス構造からの参照によることもある。

ＳＥＩ−ＮＡＬ単位は１つ以上のＳＥＩメッセージを含んでもよい。これらは出力ピクチャの復号には必要ないが、ピクチャ出力タイミング、レンダリング、エラー検出、エラー隠蔽、リソース予約等の関連処理を補助してもよい。複数のＳＥＩメッセージがＨ．２６４／ＡＶＣおよびＨＥＶＣで規定され、ユーザデータのＳＥＩメッセージによって組織や企業が独自に使用するＳＥＩメッセージを規定できる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、規定されたＳＥＩメッセージのシンタックスと意味を含むが、受信側でメッセージを取り扱う処理については何も定義されない。その結果、エンコーダはＳＥＩメッセージを作成する際、Ｈ．２６４／ＡＶＣ規格やＨＥＶＣ規格に従い、デコーダもそれぞれＨ．２６４／ＡＶＣ規格やＨＥＶＣ規格に準拠する必要があるが、ＳＥＩメッセージを出力順規定に準じて処理する必要はない。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでＳＥＩメッセージのシンタックスと意味を含める理由の１つは、異なるシステム仕様でも補助情報を同じ様に解釈し相互運用を可能にすることである。システム仕様は符号化側と復号側の両方で特定のＳＥＩメッセージを使用できるように要求するものであり、受信側で特定のＳＥＩメッセージを取り扱う処理も規定されてもよい。

ＨＥＶＣでは、２種類のＳＥＩ−ＮＡＬ単位、すなわち、互いに異なるnal_unit_type値を有する接尾ＳＥＩ−ＮＡＬ単位と接頭ＳＥＩ−ＮＡＬ単位がある。接尾ＳＥＩ−ＮＡＬ単位に含まれるＳＥＩメッセージは、復号順で接尾ＳＥＩ−ＮＡＬ単位の前に置かれるＶＣＬ−ＮＡＬ単位に関連付けられる。接頭ＳＥＩ−ＮＡＬ単位に含まれるＳＥＩメッセージは、復号順で接頭ＳＥＩ−ＮＡＬ単位の後に置かれるＶＣＬ−ＮＡＬ単位に関連付けられる。

符号化ピクチャは、あるピクチャの符号化された表現である。Ｈ．２６４／ＡＶＣにおける符号化ピクチャは、ピクチャの復号に必要なＶＣＬ−ＮＡＬ単位を含む。Ｈ．２６４／ＡＶＣでは、符号化ピクチャは、プライマリ符号化ピクチャであっても、冗長符号化ピクチャであってもよい。プライマリ符号化ピクチャは、有効ビットストリームの復号処理に用いられる。一方、冗長符号化ピクチャは、プライマリ符号化ピクチャが正しく復号できない場合にのみ復号されるべき冗長表現である。ＨＥＶＣでは、冗長符号化ピクチャは規定されていない。

Ｈ．２６４／ＡＶＣでは、アクセス単位（Access Unit：ＡＵ）が、プライマリ符号化ピクチャとそれに関連付けられるＮＡＬ単位を含む。Ｈ．２６４／ＡＶＣでは、アクセス単位内でのＮＡＬ単位の出現順序が次のように制限されている。任意選択のアクセス単位区切りのＮＡＬ単位は、アクセス単位の起点を示すことができる。この後に、０以上のＳＥＩ−ＮＡＬ単位が続く。プライマリ符号化ピクチャの符号化スライスが次に現れる。Ｈ．２６４／ＡＶＣでは、プライマリ符号化ピクチャの符号化スライスの後に、０以上の冗長符号化ピクチャの符号化スライスが続いてもよい。冗長符号化ピクチャは、ピクチャまたはピクチャの一部の符号化された表現である。冗長符号化ピクチャは、例えば伝送損失や物理記憶媒体でのデータ破損等によってデコーダがプライマリ符号化ピクチャを受け取ることができない場合に復号されてもよい。

ＨＥＶＣでは、符号化ピクチャは、ピクチャのすべての符号化ツリー単位を含むピクチャの符号化された表現として定義することができる。ＨＥＶＣでは、アクセス単位（ＡＵ）は、特定の分類ルールに基づき互いに関連付けられ、復号順で連続し、nuh_layer_idが任意の特定の値である最大で１つのピクチャを含む、ＮＡＬ単位の組と定義することができる。アクセス単位は、符号化ピクチャのＶＣＬ−ＮＡＬ単位を含むことに加えて、非ＶＣＬ−ＮＡＬ単位を含んでもよい。

符号化ピクチャは、アクセス単位内で所定の順で現れる必要がある場合がある。例えば、nuh_layer_idがnuhLayerIdAに等しい符号化ピクチャは、同一のアクセス単位内でnuh_layer_idがnuhLayerIdAより大きいすべての符号化ピクチャよりも復号順で前に置かれる必要がある場合がある。

ＨＥＶＣでは、ピクチャ単位は、符号化ピクチャのすべてのＶＣＬ−ＮＡＬ単位およびこれに関連する非ＶＣＬ−ＮＡＬ単位を含むＮＡＬ単位の組と定義することができる。非ＶＣＬ−ＮＡＬ単位に対して関連するＶＣＬ−ＮＡＬ単位は、所定の種類の非ＶＣＬ−ＮＡＬ単位については該非ＶＣＬ−ＮＡＬ単位よりも復号順で前のＶＣＬ−ＮＡＬ単位と定義され、その他の種類の非ＶＣＬ−ＮＡＬ単位については該非ＶＣＬ−ＮＡＬ単位に対して復号順で次のＶＣＬ−ＮＡＬ単位と定義することができる。ＶＣＬ−ＮＡＬ単位に対する関連する非ＶＣＬ−ＮＡＬ単位は、ＶＣＬ−ＮＡＬ単位が関連するＶＣＬ−ＮＡＬ単位である非ＶＣＬ−ＮＡＬ単位と定義することができる。例えば、ＨＥＶＣでは、関連するＶＣＬ−ＮＡＬ単位は、nal_unit_typeがEOS_NUT、EOB_NUT、FD_NUT、またはSUFFIX_SEI_NUTに等しい、またはRSV_NVCＬ45..RSV_NVCＬ47あるいはUNSPEC56..UNSPEC63の範囲にある非ＶＣＬ−ＮＡＬ単位に対して復号順で前のＶＣＬ−ＮＡＬ単位、もしくは復号順で次のＶＣＬ−ＮＡＬ単位と定義することができる。

ビットストリームは、ＮＡＬ単位ストリームまたはバイトストリームの形式で、符号化ピクチャおよび１つ以上の符号化ビデオシーケンスを形成する関連するデータの表現を形成する、ビットのシーケンスとして定義することができる。同一のファイルや、通信プロトコルの同一の接続のように、同一の論理経路において、第１のビットストリームの後に第２のビットストリームが続いてもよい。（ビデオの符号化において）基本ストリームは、１つ以上のビットストリームのシーケンスと定義することができる。第１のビットストリームの終端は特定のＮＡＬ単位によって示されてもよく、これはビットストリーム終端（End of Bitstrem：ＥＯＢ）のＮＡＬ単位と呼ばれ、該ビットストリームの最後のＮＡＬ単位である。ＨＥＶＣおよび現在検討中のその拡張版では、ＥＯＢのＮＡＬ単位は０に等しいnuh_layer_idを有する必要がある。

Ｈ．２６４／ＡＶＣでは、符号化ビデオシーケンスは、ＩＤＲアクセス単位から、次のＩＤＲアクセス単位の手前までとビットストリームの終端とのうちのより早い方まで、復号順で連続したアクセス単位のシーケンスと定義される。

ＨＥＶＣでは、符号化ビデオシーケンス（Coded Video Sequence：ＣＶＳ）が、例えば、復号順で、NoRaslOutputFlagが１に等しいＩＲＡＰアクセス単位と、その後のNoRaslOutputFlagが１に等しいＩＲＡＰアクセス単位である任意のアクセス単位の手前までの、後続のすべてのアクセス単位を含む、NoRaslOutputFlagが１に等しいＩＲＡＰアクセス単位ではない０以上のアクセス単位とからなる、アクセス単位のシーケンスとして定義することができる。ＩＲＡＰアクセス単位は、基本レイヤピクチャがＩＲＡＰピクチャであるアクセス単位として定義することができる。ビットストリームにおいて復号順で特定のレイヤの最初のピクチャである各ＩＤＲピクチャ、各ＢＬＡピクチャ、および各ＩＲＡＰピクチャに対して、NoRaslOutputFlagの値が１に等しいのは、復号順で、同一の値のnuh_layer_idを有するシーケンスＮＡＬ単位の終端に続く最初のＩＲＡＰピクチャである。マルチレイヤＨＥＶＣでは、nuh_layer_idが、LayerInitializedFlag[ nuh_layer_id ]が０に等しく、IdDirectRefLayer[ nuh_layer_id ][ j ]に等しいすべてのrefLayerIdの値に対してLayerInitializedFlag[ refLayerId ]が１に等しくなる（ここで、jは０からNumDirectRefLayers[ nuh_layer_id ]−１までの範囲にある）場合に、各ＩＲＡＰピクチャに対してNoRaslOutputFlagの値が１に等しくなる。この条件が満たされなければ、NoRaslOutputFlagの値がHandleCraAsBlaFlagに等しくなる。１に等しいNoRaslOutputFlagの影響として、NoRaslOutputFlagが設定されたＩＲＡＰピクチャに関連付けられているＲＡＳＬピクチャがデコーダから出力されないことが挙げられる。デコーダを制御しうるプレーヤまたは受信機等の外部エンティティからデコーダに対してHandleCraAsBlaFlagの値を提供するための手段が設けられてもよい。例えばビットストリームにおける新たな位置を探索し、ブロードキャストを受け、復号を開始し、その後ＣＲＡピクチャから復号を開始するプレーヤによって、HandleCraAsBlaFlagは１に設定されてもよい。ＣＲＡピクチャに対してHandleCraAsBlaFlagが１に等しい場合、ＣＲＡピクチャはＢＬＡピクチャと同様に取り扱われ、復号される。

ＨＥＶＣでは、上記の仕様に加えて、またはこれに代えて、シーケンス終端（End of Sequence：ＥＯＳ）のＮＡＬ単位とも呼ばれる特定のＮＡＬ単位がビットストリームに現れ、そのnuh_layer_idが０に等しい場合、符号化ビデオシーケンスが終了するように規定されてもよい。

ＨＥＶＣでは、符号化ビデオシーケンスグループ（Coded Video Sequence Group：ＣＶＳＧ）は、例えば、既にアクティブではなかったＶＰＳＲＢＳＰの最初のVpsRbspをアクティブ化するＩＲＡＰアクセス単位から、ビットストリームの終端と、最初のVpsRbspとは異なるＶＰＳＲＢＳＰをアクティブ化するアクセス単位の手前までとのうちの復号順でより早い方までの、最初のVpsRbspがアクティブＶＰＳＲＢＳＰである復号順で後続のすべてのアクセス単位からなる、復号順で連続する１つ以上のＣＶＳと定義することができる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣのビットストリームシンタックスは、特定のピクチャが別のピクチャのインター予測のための参照ピクチャであるか否かを示す。符号化の任意の種類（Ｉ、Ｐ、Ｂ）のピクチャは、Ｈ．２６４／ＡＶＣおよびＨＥＶＣの参照ピクチャまたは非参照ピクチャでありうる。

ＨＥＶＣでは、参照ピクチャセット（Reference Picture Set：ＲＰＳ）のシンタックス構造と復号処理が使用される。あるピクチャに有効またはアクティブな参照ピクチャセットには、そのピクチャに対する参照として使われるすべての参照ピクチャと、復号順で後続の任意のピクチャに対して「参照に使用済」とマークされたままであるすべての参照ピクチャとが挙げられる。参照ピクチャセットには６つのサブセットがあり、それぞれRefPicSetStCurr0（またはRefPicSetStCurrBefore）、RefPicSetStCurr1（またはRefPicSetStCurrAfter）、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr、RefPicSetLtFollと呼ばれる。また、RefPicSetStFoll0およびRefPicSetStFoll1は、まとめて１つのサブセットRefPicSetStFollを形成するものとされてもよい。この６つのサブセットの表記法は次のとおりである。「Curr」は現ピクチャの参照ピクチャリストに含まれる参照ピクチャを表し、このため、現ピクチャに対するインター予測参照として使用されてもよい。「Foll」は現ピクチャの参照ピクチャリストに含まれない参照ピクチャを表すが、復号順で後続のピクチャでは参照ピクチャとして使用されてもよい。「St」は短期参照ピクチャを表し、通常、ＰＯＣ値の特定数の最下位ビットで識別されてもよい。「Lt」は長期参照ピクチャを表し、特定の方法で識別され、通常、現ピクチャに対するＰＯＣ値の差分は、前述した特定数の最下位ビットによって表されるものよりも大きい。「0」は現ピクチャのＰＯＣ値よりも小さいＰＯＣ値を持つ参照ピクチャを表す。「1」は現ピクチャのＰＯＣ値よりも大きいＰＯＣ値を持つ参照ピクチャを表す。RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1はまとめて、参照ピクチャセットの短期サブセットと呼ばれる。RefPicSetLtCurrおよびRefPicSetLtFollはまとめて、参照ピクチャセットの長期サブセットと呼ばれる。

ＨＥＶＣでは、参照ピクチャセットは、シーケンスパラメータセットで特定され、参照ピクチャセットへのインデックスを介してスライスヘッダ用に取り込まれてもよい。参照ピクチャセットはスライスヘッダで特定されてもよい。参照ピクチャセットは独立に符号化されてもよく、別の参照ピクチャセットから予測されてもよい（インターＲＰＳ予測と呼ばれる）。参照ピクチャセット符号化の両方の種類で、各参照ピクチャに対してフラグ（used_by_curr_pic_X_flag）が追加で送信される。このフラグは、その参照ピクチャが参照として現ピクチャに用いられる（＊Ｃｕｒｒリストに含まれる）か否か（＊Ｆｏｌｌリストに含まれる）を示す。現スライスが使う参照ピクチャセットに含まれるピクチャは「参照に使用」とマークされ、現スライスが使う参照ピクチャセットに含まれないピクチャは「参照に未使用」とマークされる。現ピクチャがＩＤＲピクチャである場合、RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr、およびRefPicSetLtFollはすべて空に設定される。

復号ピクチャバッファ（Decoded Picture Buffer：ＤＰＢ）はエンコーダおよび／またはデコーダで使用されてもよい。復号ピクチャをバッファする理由は２つある。１つはインター予測で参照するため、もう１つは復号ピクチャを出力順に並べ直すためである。Ｈ．２６４／ＡＶＣおよびＨＥＶＣは参照ピクチャのマーキングと出力の並べ換えの両方で相当な柔軟性を与えるため、参照ピクチャのバッファリングと出力ピクチャのバッファリングで別々のバッファを使うことはメモリリソースを浪費する可能性がある。このためＤＰＢは、参照ピクチャと出力並べ換えのための統合された復号ピクチャバッファリング処理を含んでもよい。復号ピクチャは、参照として使用されず出力される必要がなくなると、ＤＰＢから削除されてもよい。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣ等の多くの符号化モードでは、インター予測用参照ピクチャは参照ピクチャリストへのインデックスで示される。このインデックスは可変長符号化で符号化されてもよい。可変長符号化によって多くの場合、インデックスを小さくして対応するシンタックス要素に対してより小さい値を持つことができる。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、双予測（Ｂ）スライスにはそれぞれ２つの参照ピクチャリスト（参照ピクチャリスト０および参照ピクチャリスト１）が作成され、インター符号化（Ｐ）スライスにはそれぞれ１つの参照ピクチャリスト（参照ピクチャリスト０）が形成される。

参照ピクチャリスト０および参照ピクチャリスト１等の参照ピクチャリストは通常、２つのステップで作成される。第１ステップでは、初期参照ピクチャリストが作成される。初期参照ピクチャリストは例えば、frame_numやＰＯＣ、temporal_id（またはＴｅｍｐｏｒａｌＩＤや類似のもの）、ＧＯＰ構造等の予測階層に関する情報、またはこれらの組合せに基づいて作成されてもよい。第２ステップでは、参照ピクチャリスト並べ換え（Reference Picture List Reordering：ＲＰＬＲ）命令によって初期参照ピクチャリストが並べ換えられてもよい。ＲＰＬＲ命令は参照ピクチャリスト変更シンタックス構造とも呼ばれ、スライスヘッダに含まれてもよい。Ｈ．２６４／ＡＶＣでは、ＲＰＬＲ命令は、各参照ピクチャリストの先頭に並べられるピクチャを示す。第２ステップは参照ピクチャリスト変更処理とも呼ばれ、ＲＰＬＲ命令が参照ピクチャリスト変更シンタックス構造に含まれてもよい。参照ピクチャセットが用いられる場合、参照ピクチャリスト０はRefPicSetStCurr0、RefPicSetStCurr1、RefPicSetLtCurrをこの順序で含むように初期化されてもよい。参照ピクチャリスト１はRefPicSetStCurr1、RefPicSetStCurr0をこの順序で含むように初期化されてもよい。ＨＥＶＣでは、初期参照ピクチャリストは参照ピクチャリスト変更シンタックス構造を通じて変更されてもよい。初期参照ピクチャリストのピクチャはリストに対するエントリインデックスを通じて識別されてもよい。換言すれば、ＨＥＶＣでは、参照ピクチャリスト変更を最後の参照ピクチャリストにおける各エントリのループを含むシンタックス構造に符号化し、各ループエントリが初期参照ピクチャリストへの固定長符号化インデックスであり、最後の参照ピクチャリストにおける位置の昇順でピクチャを示す。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣを含む多くの符号化規格は、参照ピクチャリストに対する参照ピクチャインデックスを導出するための復号処理が含まれてもよい。これによって、複数の参照ピクチャのいずれを使用して特定のブロックのインター予測を行うかが示されうる。参照ピクチャインデックスは、エンコーダによってビットストリームへと何らかのインター符号化モードで符号化されてもよく、または（エンコーダおよびデコーダによって）例えば何らかの他のインター符号化モードで隣接ブロックを使用して導出されてもよい。

スケーラブルビデオ符号化とは、コンテンツに関して、例えばビットレート、解像度、またはフレームレートが異なる複数の表現を１つのビットストリームが格納できるような符号化構造を指してもよい。このような場合、受信機は、その特性（例えば、ディスプレイ装置に最適な解像度）に応じて望ましい表現を抽出することができる。あるいは、サーバまたはネットワーク要素が、例えばネットワーク特性や受信機の処理能力に応じて受信機に送信されるように、ビットストリームの一部を抽出することもできる。スケーラブルビットストリームの特定の部分のみを復号することにより、有意な復号表現を生成することができる。スケーラブルビットストリームは、一般的には、利用可能な最低品質動画を提供する１層の「基本レイヤ」と、下位レイヤと共に受信、復号されるとビデオ品質を高める１または複数層の「拡張レイヤ」から構成される。拡張レイヤに対する符号化効率を高めるために、レイヤの符号化表現は、一般に下位レイヤに依存する。例えば、拡張レイヤの動き情報およびモード情報が下位レイヤから予測されてもよい。同様に、拡張レイヤ予測を作成するために、下位レイヤの画素データを用いることもできる。

スケーラブルビデオ符号化方式によっては、ビデオ信号は基本レイヤおよび１つ以上の拡張レイヤに符号化されてもよい。拡張レイヤは、例えば、時間分解能（すなわち、フレームレート）や空間分解能を上げたり、別のレイヤやその一部によって表されるビデオコンテンツの品質を単に上げたりしてもよい。各レイヤは、それぞれのすべての従属レイヤと合わせて、例えば、特定の空間分解能、時間分解能および品質レベルでのビデオ信号の一表現となる。本明細書では、すべての従属レイヤを伴うスケーラブルレイヤを「スケーラブルレイヤ表現」と呼ぶ。特定の忠実度で元の信号表現を生成するために、スケーラブルレイヤ表現に対応するスケーラブルビットストリームの一部が抽出され復号される。

スケーラビリティモードまたはスケーラビリティの次元には以下のものを含むが、これらに限定されない。
・品質スケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャよりも低い品質で符号化され、これは例えば基本レイヤにおいて、拡張レイヤにおけるものより大きな量子化パラメータ値（すなわち変換係数量子化に対してより大きなサイズの量子化ステップ）によって実現可能である。品質スケーラビリティは、後述のように細粒子または細粒度スケーラビリティ（Fine-Grain/Granularity Scalability：ＦＧＳ）、中粒子または中粒度スケーラビリティ（Medium-Grain/Granularity Scalability：ＭＧＳ）、および／または粗粒子または粗粒度スケーラビリティ（Coarse-Grain/Granularity Scalability：ＣＧＳ）にさらに分類されてもよい。
・空間スケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャよりも低い解像度（すなわち、より少ないサンプル）で符号化される。空間スケーラビリティおよび品質スケーラビリティは、特にその粗粒子スケーラビリティ種類について、同種のスケーラビリティとみなされる場合がある。
・ビット深度スケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャ（例えば１０または１２ビット）よりも低いビット深度（例えば８ビット）で符号化される。
・動的範囲スケーラビリティ：スケーラブルレイヤは、異なるトーンマッピング機能および／または異なる光学伝達機能を使用して得られた異なる動的範囲および／または画像を表す。
・クロマフォーマットスケーラビリティ：基本レイヤピクチャは、拡張レイヤピクチャ（例えば４：４：４フォーマット）よりも、クロマサンプル配列（例えば４：２：０クロマフォーマットで符号化される）においてより低い空間解像度となる。
・色域スケーラビリティ：拡張レイヤピクチャは、基本レイヤピクチャよりも豊富な、または幅広い色表現範囲を有する。例えば、拡張レイヤは超高精細テレビ（ＵＨＤＴＶ、ＩＴＵ−ＲＢＴ．２０２０規格）の色域を有し、一方、基本レイヤはＩＴＵ−ＲＢＴ．７０９規格の色域を有しうる。
・ビュースケーラビリティは、マルチビュー符号化とも呼ばれる。基本レイヤは第１のビューを表し、拡張レイヤは第２のビューを表す。
・深度スケーラビリティは、深度が拡張された符号化とも呼ばれる。ビットストリームの１つまたはいくつかのレイヤはテクスチャビューを表し、他のレイヤは深度ビューを表してもよい。
・関心領域スケーラビリティ（後述）。
・インターレース化−進行性スケーラビリティ（フィールド−フレームスケーラビリティとしても知られる）：基本レイヤの符号化されたインターレース化ソースコンテンツ材料は、拡張レイヤによって拡張され、進行性ソースコンテンツを表す。基本レイヤにおける符号化されたインターレース化ソースコンテンツは、符号化フィールド、フィールド対を表す符号化フレーム、またはこれらの組合せを含んでもよい。インターレース化−進行性スケーラビリティでは、基本レイヤピクチャが再サンプル化され、１つ以上の拡張レイヤピクチャに適した参照ピクチャとなってもよい。
・ハイブリッドコーデックスケーラビリティ（符号化規格スケーラビリティとしても知られる）：ハイブリッドコーデックスケーラビリティでは、ビットストリームシンタックスや意味、ならびに基本レイヤおよび拡張レイヤの復号処理が、異なるビデオ符号化規格で規定されている。このため、基本レイヤピクチャは拡張レイヤピクチャとは異なる符号化規格またはフォーマットで符号化される。例えば、基本レイヤはＨ．２６４／ＡＶＣで符号化され、拡張レイヤはＨＥＶＣマルチレイヤ拡張で符号化されてもよい。外部基本レイヤピクチャは、拡張レイヤ復号処理用に外部手段から提供され、拡張レイヤ復号処理用の復号された基本レイヤピクチャとして扱われる復号されたピクチャと定義できる。ＳＨＶＣまたはＭＶ−ＨＥＶＣでは外部基本レイヤピクチャが使用可能である。

スケーラビリティ種類のうちの多くが組み合わされて、まとめて適用されうることも理解されよう。例えば、色域スケーラビリティとビット深度スケーラビリティを組み合わせてもよい。

「レイヤ」という語は、ビュースケーラビリティや深度拡張等、スケーラビリティの任意の種類の文脈において使用することができる。拡張レイヤは、ＳＮＲ拡張、空間拡張、マルチビュー拡張、深度拡張、ビット深度拡張、クロマフォーマット拡張、および／または色域拡張等の拡張の任意の種類を指してもよい。基本レイヤは、ベースビュー、ＳＮＲ／空間スケーラビリティに対する基本レイヤ、または深度が拡張されたビデオの符号化に対するテクスチャベースビュー等のベースビデオシーケンスの任意の種類を指してもよい。

三次元（３Ｄ）ビデオコンテンツを提供するための各種技術が現在、調査、研究、開発されている。立体視または２ビュービデオにおいて、１つのビデオシーケンスまたはビューは左目用に、平行ビューは右目用に供されるものとする場合がある。同時により多くのビューを提供し、ユーザが異なる視点でコンテンツを観察可能にするようなビューポイントスイッチングや、裸眼立体視ディスプレイを可能にする用途のためには、２以上の平行ビューが必要である場合がある。

ビューは、１つのカメラまたは視点を表すピクチャのシーケンスとして定義することができる。ビューを表すピクチャは、ビュー成分とも呼ばれる。換言すれば、ビュー成分は単一のアクセス単位におけるビューの符号化された表現として定義することができる。マルチビュービデオの符号化では、ビットストリームにおいて２つ以上のビューが符号化される。複数のビューは通常、立体視用ディスプレイやマルチビュー裸眼立体視ディスプレイに表示されること、またはその他の３Ｄ構成に使用されることを目的としていることから、通常は同一のシーンを表し、コンテンツによっては異なる視点を表しながら部分的に重畳する。このように、マルチビュービデオの符号化にインタービュー予測を用いることによって、ビュー間の相関関係を活用し圧縮効率を向上させてもよい。インタービュー予測を実現する方法としては、第１のビュー中の符号化または復号されているピクチャの参照ピクチャリストに１つ以上のその他のビューの１つ以上の復号ピクチャを含めることが挙げられる。ビュースケーラビリティはこのようなマルチビュービデオの符号化またはマルチビュービデオのビットストリームを指してもよく、これらによって１つ以上の符号化されたビューを削除または省略することができ、その結果としてのビットストリームは適合性を保ちながら、元のものよりも少ない数のビューでビデオを表す。

関心領域（Region of Interest：ＲＯＩ）の符号化は、より高い忠実度でのビデオ内の特定の領域の符号化を指すと定義することができる。エンコーダおよび／または他のエンティティが入力されたピクチャからＲＯＩを決定して符号化するための方法がいくつか知られている。例えば、顔検出を使用して顔をＲＯＩとして決定してもよい。これに加えて、またはこれに代えて、別の例では、フォーカスされた物体を検出してこれをＲＯＩとして決定し、フォーカスから外れた物体をＲＯＩではないと決定してもよい。これに加えて、またはこれに代えて、別の例では、物体への距離を推定または把握し、例えば深度センサに基づいて、ＲＯＩを背景よりもカメラに近い物体に決定してもよい。

ＲＯＩスケーラビリティは、スケーラビリティの一種であって、拡張レイヤによって参照レイヤピクチャの一部のみを、例えば空間的に、品質に応じ、ビット深度において、および／または別のスケーラビリティの次元で拡張するものと定義することができる。ＲＯＩスケーラビリティは他の種類のスケーラビリティと併用できることから、スケーラビリティの種類の新たな分類を形成するととらえることができる。異なる要件を伴う、ＲＯＩ符号化に対する様々な異なる用途があるが、ＲＯＩスケーラビリティによって実現可能である。例えば、拡張レイヤを送信して、基本レイヤ内の領域の品質および／または解像度を向上させることができる。拡張レイヤおよび基本レイヤのビットストリームの両者を受け取ったデコーダは、両レイヤを復号し、復号ピクチャを互いに重ね、最終的に完成したピクチャを表示してもよい。

参照レイヤピクチャおよび拡張レイヤピクチャの空間対応は、１つ以上の種類のいわゆる参照レイヤ位置の補正値によって推定または標示されてもよい。ＨＥＶＣでは、参照レイヤ位置補正値はエンコーダによってＰＰＳに含められ、デコーダによってＰＰＳから復号される。参照レイヤ位置補正値は、ＲＯＩスケーラビリティの実現以外の用途でも使用できる。参照レイヤ位置補正値は、スケール化参照レイヤ補正値、参照領域補正値、および再サンプリングフェーズセットのうちの１つまたは複数を含んでもよい。スケール化参照レイヤ補正値は、参照レイヤの復号ピクチャ中の参照領域の左上輝度サンプルと結び付く現ピクチャにおけるサンプル間の水平・垂直補正値と、参照レイヤの復号ピクチャ中の参照領域の右下輝度サンプルと結び付く現ピクチャにおけるサンプル間の水平・垂直補正値とを規定するものととらえることができる。他の方法としては、スケール化参照レイヤ補正値を考慮し、拡張レイヤピクチャの各コーナーサンプルに対するアップサンプリング化参照領域のコーナーサンプルの位置を規定する。スケール化参照レイヤ補正値を符号付きとしてもよい。参照領域補正値は、参照レイヤの復号ピクチャ中の参照領域の左上輝度サンプルと同じ復号ピクチャの左上輝度サンプルとの間の水平・垂直補正値と、参照レイヤの復号ピクチャ中の参照領域の右下輝度サンプルと同じ復号ピクチャの右下輝度サンプルとの間の水平・垂直補正値とを規定するものととらえることができる。参照領域補正値を符号付きとしてもよい。再サンプリングフェーズセットは、インターレイヤ予測のソースピクチャの再サンプリング処理に使用されるフェーズ補正値を規定するものととらえることができる。輝度成分およびクロマ成分に対して異なるフェーズ補正値が設けられてもよい。

ハイブリッドコーデックスケーラビリティは、時間、品質、空間、マルチビュー、深度向上、副画面、ビット深度、色域、クロマフォーマットおよび／またはＲＯＩスケーラビリティのような任意の種類のスケーラビリティと併用可能である。ハイブリッドコーデックスケーラビリティは、別種スケーラビリティと併用可能であるので、スケーラビリティの種類の異なる分類をなすものととらえることができる。

ハイブリッドコーデックスケーラビリティの使用は、例えば拡張レイヤビットストリームにおいて示唆されてもよい。例えば、マルチレイヤＨＥＶＣにおいては、ＶＰＳ、例えばシンタックス要素vps_base_layer_internal_flagによりハイブリッドコーデックスケーラビリティの使用が示唆されてもよい。

スケーラブルビデオの符号化方式によっては、アクセス単位内のすべてのピクチャがＩＲＡＰピクチャとなるように、またはアクセス単位内のいずれのピクチャもＩＲＡＰピクチャではなくなるように、レイヤ間でＩＲＡＰピクチャを整合することが求められる場合がある。ＨＥＶＣのマルチレイヤ拡張等のその他のスケーラブルビデオの符号化方式では、ＩＲＡＰピクチャが不整合な場合を許容しうる。すなわち、アクセス単位内の１つ以上のピクチャがＩＲＡＰピクチャであり、アクセス単位内の１つ以上の別のピクチャがＩＲＡＰピクチャではなくてもよい。レイヤ間で整合されていないＩＲＡＰピクチャ等のスケーラブルビットストリームにより、例えば、基本レイヤ内にＩＲＡＰピクチャがより頻繁に出現するようにしてもよい。この場合、例えば空間解像度が小さいことから、符号化されたサイズがより小さくなるものであってもよい。復号のレイヤごとのスタートアップのための処理または機構が、ビデオ復号方式に含まれていてもよい。この場合、基本レイヤがＩＲＡＰピクチャを含むとデコーダがビットストリームの復号を開始し、その他のレイヤがＩＲＡＰピクチャを含むとこれらのレイヤの復号を段階的に開始する。換言すれば、復号機構または復号処理のレイヤごとのスタートアップにおいては、追加の拡張レイヤからの後続のピクチャが復号処理において復号されるにつれて、デコーダは復号されたレイヤの数を徐々に増やし（ここで、レイヤは、空間解像度、品質レベル、ビュー、さらに深度等の追加の成分やこれらの組合せの拡張を表してもよい）。復号されたレイヤの数が徐々に増えることは、例えばピクチャ品質（品質および空間スケーラビリティの場合）が徐々に向上することであると考えられる。

レイヤごとのスタートアップ機構によって、特定の拡張レイヤにおいて復号順で最初のピクチャの参照ピクチャに対して利用不可のピクチャが生成されてもよい。あるいは、デコーダは、レイヤの復号が開始されうるＩＲＡＰピクチャに復号順で先行するピクチャの復号を省略してもよい。これらの省略されうるピクチャは、エンコーダやビットストリーム内のその他のエンティティによって、特定可能となるようにラベル付けされていてもよい。例えば、１つ以上の特定のＮＡＬ単位の種類をこの目的で使用してもよい。これらのピクチャは、ＮＡＬ単位の種類によって特定可能となるようにラベル付けされているか否か、または例えばデコーダによって推定されているか否かにかかわらず、クロスレイヤランダムアクセススキップ（ＣＬ−ＲＡＳ）ピクチャと呼ばれてもよい。デコーダは、生成された利用不可のピクチャおよび復号されたＣＬ−ＲＡＳピクチャの出力を省略してもよい。

スケーラビリティは、２つの基本的な方法で利用可能となる。その１つは、スケーラブル表現の下位レイヤからの画素値またはシンタックスを予測するために新たな符号化モードを導入することであり、もう１つは、より高位のレイヤの参照ピクチャバッファ（例えば、復号ピクチャバッファ、ＤＰＢ）に下位レイヤピクチャを配置することである。１つ目の方法は、より柔軟性が高く、多くの場合、符号化効率に優れる。ただし、参照フレームに基づくスケーラビリティという２つ目の方法は、可能な符号化効率上昇をほぼ完全に維持したまま、単一のレイヤコーデックに対する変化を最小に抑えて効率的に実行できる。基本的に、参照フレームに基づくスケーラビリティコーデックは、すべてのレイヤに対して同一のハードウェまたはソフトウェアを実行して実現でき、ＤＰＢ管理は外部手段に任せてもよい。

品質スケーラビリティ（信号対ノイズ比（ＳＮＲ）とも呼ばれる）および／または空間スケーラビリティに対するスケーラブルビデオエンコーダは、以下のように実現してもよい。基本レイヤについては、従来の非スケーラブルビデオエンコーダおよびデコーダを利用できる。拡張レイヤ用の参照ピクチャバッファおよび／または参照ピクチャリストには、基本レイヤの再構成／復号ピクチャが含まれる。空間スケーラビリティの場合、拡張レイヤピクチャの参照ピクチャリストへの挿入前に、再構成／復号された基本レイヤピクチャをアップサンプリングしてもよい。基本レイヤ復号ピクチャは、拡張レイヤの復号参照ピクチャの場合同様、拡張レイヤピクチャの符号化／復号のために参照ピクチャリスト（複数可）に挿入されてもよい。これにより、エンコーダはインター予測の参照として基本レイヤ参照ピクチャを選択して、それが使用されることを符号化ビットストリーム内の参照ピクチャインデックスで示してもよい。デコーダは、拡張レイヤは、拡張レイヤのインター予測の参照用に基本レイヤピクチャが使用されていることを、例えばビットストリームの参照ピクチャインデックスから復号する。拡張レイヤの予測の参照に使用される復号基本レイヤピクチャは、インターレイヤ参照ピクチャと呼ばれる。

前段落では拡張レイヤおよび基本レイヤの２つのスケーラビリティレイヤを有するスケーラブルビデオコーデックが説明されたが、その説明は、３つ以上のレイヤを有するスケーラビリティ階層の任意の２つのレイヤにも適用できることを理解されたい。この場合、符号化および／または復号処理において、第２の拡張レイヤは第１の拡張レイヤに左右されるため、第１の拡張レイヤは第２の拡張レイヤの符号化および／または復号における基本レイヤとみなすことができる。さらに、拡張レイヤの参照ピクチャバッファまたは参照ピクチャリスト内の２つ以上のレイヤからインターレイヤ参照ピクチャが得られることを理解されたい。これらインターレイヤ参照ピクチャはそれぞれ、符号化および／または復号されている拡張レイヤの基本レイヤまたは参照レイヤに存在するものと考えられる。参照レイヤピクチャアップサンプリングに加えてまたは代えて、それとは別種のインターレイヤ処理が実行されてもよいことが理解されよう。例えば、参照レイヤピクチャのサンプルのビット深度を拡張レイヤのビット深度に変換したり、サンプル値を参照レイヤの色空間から拡張レイヤの色空間にマッピングしたりしてもよい。

スケーラブルビデオの符号化および／または復号方式は、以下の特徴を有するマルチループ符号化および／または復号を利用してもよい。符号化／復号において、基本レイヤピクチャを再構成／復号して、同一のレイヤ内で符号化／復号順における後続のピクチャ用の動き補償参照ピクチャ、またはインターレイヤ（またはインタービューまたはインター成分）予測の参照に利用してもよい。再構成／復号された基本レイヤピクチャは、ＤＰＢに保存されてもよい。同様に、拡張レイヤピクチャを再構成／復号し、同一のレイヤ内で符号化／復号順における後続のピクチャ用の動き補償参照ピクチャ、または存在する場合、より高位の拡張レイヤに対するインターレイヤ（またはインタービューまたはインター成分）予測の参照に利用されてもよい。再構成／復号サンプル値に加えて、基本／参照レイヤのシンタックス要素値または基本／参照レイヤのシンタックス要素値から求めた変数をインターレイヤ／インター成分／インタービュー予測に利用してもよい。

インターレイヤ予測は、現ピクチャ（符号化または復号されている）のレイヤとは異なるレイヤからの参照ピクチャのデータ要素（例えば、サンプル値または動きベクトル）に応じた予測として定義できる。スケーラブルビデオエンコーダ／デコーダに適用できるインターレイヤ予測は多岐にわたる。利用可能なインターレイヤ予測の種類は、例えばビットストリームまたはビットストリーム内の特定のレイヤが符号化される符号化プロファイル、または復号の際にビットストリームまたはビットストリーム内の特定のレイヤが従う符号化プロファイルに基づいてもよい。これに加えて、またはこれに代えて、利用可能なインターレイヤ予測の種類は、スケーラビリティの種類、スケーラブルコーデックまたは使用されるビデオの符号化規格改定の種類（例えばＳＨＶＣ、ＭＶ−ＨＥＶＣ、または３Ｄ−ＨＥＶＣ）に応じたものであってもよい。

インターレイヤ予測の種類は、インターレイヤサンプル予測、インターレイヤ動き予測、インターレイヤ残差予測の１つまたは複数を含むがこれに限定されない。インターレイヤサンプル予測では、少なくともインターレイヤ予測用のソースピクチャの再構成サンプル値のサブセットが現ピクチャのサンプル値を予測するための参照に使用される。インターレイヤ動き予測においては、少なくともインターレイヤ予測用のソースピクチャの動きベクトルのサブセットが現ピクチャの動きベクトル予測の参照に使用される。通常、参照ピクチャが動きベクトルに関連する予測情報も、インターレイヤ動き予測に含まれる。例えば、動きベクトル用の参照ピクチャの参照インデックスは、インターレイヤ予測され、さらに／あるいはピクチャ順序カウントまたはその他任意の参照ピクチャの識別がインターレイヤ予測されてもよい。場合によっては、インターレイヤ動き予測はさらにブロック符号化モード、ヘッダ情報、ブロックパーティショニング、および／またはその他同様のパラメータの予測を含んでもよい。場合によっては、ブロックパーティショニングのインターレイヤ予測のような符号化パラメータ予測は、別種のインターレイヤ予測としてみなされてもよい。インターレイヤ残差予測では、インターレイヤ予測用のソースピクチャの選択ブロックの予測誤差または残差を利用して、現ピクチャが予測される。３Ｄ−ＨＥＶＣのようなマルチビュー＋深度符号化では、成分交差的なインターレイヤ予測が適用されてもよい。当該予測では、深度ピクチャのような第１の種類のピクチャが、従来のテクスチャピクチャのような第２の種類のピクチャのインターレイヤ予測に影響を及ぼしうる。例えば、格差補償インターレイヤサンプル値および／または動き予測を適用してもよい。ここで、格差は少なくとも部分的に深度ピクチャから導出されてもよい。

直接参照レイヤは、直接参照レイヤとなる別のレイヤのインターレイヤ予測に使用できるレイヤとして定義できる。直接予測されたレイヤは、別のレイヤが直接参照レイヤとなるレイヤとして定義できる。間接参照レイヤは、第２のレイヤの直接参照レイヤではないが、第３のレイヤの直接参照レイヤとして定義できる。この第３のレイヤは、間接参照レイヤである第２のレイヤの直接参照レイヤまたはその直接参照レイヤの間接参照レイヤである。間接的に予測されたレイヤは、別のレイヤが間接参照レイヤとなるレイヤとして定義できる。独立レイヤは、直接参照レイヤを伴わないレイヤとして定義できる。換言すれば、独立レイヤはインターレイヤ予測により予測されていない。非基本レイヤは、基本レイヤ以外の任意のレイヤとして定義できる。基本レイヤはビットストリーム内の最下レイヤとして定義できる。独立非基本レイヤは、独立レイヤであり非基本レイヤであるレイヤとして定義できる。

インターレイヤ予測用のソースピクチャは、インターレイヤ参照ピクチャである、またはそれを導出するために使用される復号ピクチャとして定義できる。インターレイヤ参照ピクチャは、現ピクチャの予測用の参照ピクチャとして使用できる。マルチレイヤＨＥＶＣ拡張版では、インターレイヤ参照ピクチャが現ピクチャのインターレイヤ参照ピクチャセットに含まれる。インターレイヤ参照ピクチャは、現ピクチャのインターレイヤ予測に使用できる参照ピクチャとして定義できる。符号化および／または復号処理では、インターレイヤ参照ピクチャを長期参照ピクチャとして扱ってもよい。参照レイヤピクチャは、現レイヤまたは現ピクチャ（復号または暗号化されている）のような、特定のレイヤの直接参照レイヤにおけるピクチャ、または特定のピクチャと定義できる。ただし、参照レイヤピクチャはインターレイヤ予測のソースピクチャでなくてもよい。参照レイヤピクチャと、インターレイヤ予測用のソースピクチャとは、同義で用いられうる。

インターレイヤ予測用のソースピクチャは、現ピクチャと同一のアクセス単位にあることが求められる。場合によっては、例えば再サンプリング、動きフィールドマッピング、またはその他のインターレイヤ処理が不要であれば、インターレイヤ予測用のソースピクチャと各インターレイヤ参照ピクチャは同一であってもよい。場合によっては、例えば再サンプリングにより参照レイヤのサンプリンググリッドを現ピクチャ（符号化または複号されている）のレイヤのサンプリンググリッドに合わせる必要があれば、インターレイヤ予測用のソースピクチャからインターレイヤ参照ピクチャを導出するように、インターレイヤ処理が適用される。当該インターレイヤ処理の例を以下の数段落に示す。

インターレイヤサンプル予測は、インターレイヤ予測用のソースピクチャのサンプル配列（複数可）の再サンプリングを含んでもよい。エンコーダおよび／またはデコーダは、拡張レイヤおよびその参照レイヤの対に対する水平倍率（例えば変数倍率Ｘに記憶される）および垂直倍率（例えば変数倍率Ｙに記憶される）を、例えば当該対に対する参照レイヤ位置補正値に基づいて導出してもよい。いずれか一方の倍率が１でなければ、インターレイヤ予測用のソースピクチャを再サンプリングして、拡張レイヤピクチャ予測のためのインターレイヤ参照ピクチャを生成してもよい。再サンプリングに使用する処理および／またはフィルタは、例えば符号化規格で事前に定義されてもよく、ビットストリーム内のエンコーダによって（例えば、事前に定義された再サンプリング処理またはフィルタ間のインデックスとして）示されてもよく、デコーダによってビットストリームから復号されてもよい。倍率の値に応じて、異なる再サンプリング処理が、エンコーダによって示されてもよく、デコーダによって復号されてもよく、エンコーダおよび／またはデコーダによって推測されてもよい。例えば、両方の倍率が１未満であれば、事前に定義されたダウンサンプリング処理が推測されてもよい。いずれの倍率も１を超える場合、事前に定義されたアップサンプリング処理が推測されてもよい。これに加えて、またはこれに代えて、処理されるサンプル配列に応じて、異なる再サンプリング処理がエンコーダによって示されてもよく、デコーダによって復号されてもよく、エンコーダおよび／またはデコーダによって推測されてもよい。例えば、第１の再サンプリング処理が輝度サンプル配列に利用されるものと推測され、第２の再サンプリング処理がクロマサンプル配列に利用されるものと推測されてもよい。

再サンプリングは、例えばピクチャに基づいて（インターレイヤ予測用のソースピクチャ全体、またはインターレイヤ予測用のソースピクチャの参照領域に対して）、スライスに基づいて（例えば、拡張レイヤスライスに対応する参照レイヤ領域に対して）、またはブロックに基づいて（例えば、拡張レイヤ符号化ツリー単位に対応する参照レイヤ領域に対して）実行されてもよい。決定された領域（例えば拡張レイヤピクチャにおけるピクチャ、スライス、または符号化ツリー単位）の再サンプリングは、例えば決定された領域におけるすべてのサンプル位置をループして、各サンプル位置にサンプルに基づく再サンプリング処理を行うことにより実行してもよい。ただし、決定された領域に対してさらに別の方法で再サンプリングすることが可能であることを理解されたい。例えば、あるサンプル位置のフィルタリングに、前回のサンプル位置の変数値を使用してもよい。

ＳＨＶＣは、（限定的ではないが）色域スケーラビリティに対する３Ｄルックアップテーブル（ＬＵＴ）に基づく重み付け予測またはカラーマッピング処理を可能とする。３ＤのＬＵＴ手法は以下に説明するとおりである。各色成分のサンプル値範囲はまず２つの範囲に分割し、最大２×２×２の八分円が得られる。さらに輝度範囲を四分割までできるため、最大８×２×２の八分円が得られる。各八分円において、色成分交差線形モデルが適用されて、カラーマッピングが行われる。各八分円について、４つの頂点がビットストリームに符号化、および／またはビットストリームから復号され、八分円内の線形モデルが表される。カラーマッピングテーブルが、各色成分に対して個別に、ビットストリームに符号化、および／またはビットストリームから復号される。カラーマッピングは３工程を含むものと考えられる。まず、所与の参照レイヤサンプル３つ組（Ｙ、Ｃｂ、Ｃｒ）が属する八分円を決定する。次に、輝度およびクロマのサンプル位置を、色成分調整処理を適用して整列させてもよい。最後に、決定された八分円に特化した線形マッピングが適用される。このマッピングは成分交差的な性質を有する。すなわち、１つの色成分の入力値が別の色成分のマッピング値に影響を及ぼしうる。さらに、インターレイヤ再サンプリングも必要であれば、再サンプリング処理に対する入力はカラーマッピング済みのピクチャとなる。カラーマッピングでは、第１のビット深度のサンプルから、別のビット深度のサンプルまでマッピングしてもよい（ただしこれに限らない）。

ＭＶ−ＨＥＶＣ、SＭＶ−ＨＥＶＣ、および参照インデックスに基づくＳＨＶＣソリューションでは、インターレイヤテクスチャ予測に対応するためにブロックレベルシンタックスおよび復号処理を変化させない。高レベルシンタックスのみが変更され（ＨＥＶＣと比較した場合）、同一のアクセス単位の参照レイヤからの再構成ピクチャ（必要であればアップサンプリングされる）が現拡張レイヤピクチャの符号化のための参照ピクチャに使用できるようにする。参照ピクチャリストには、インターレイヤ参照ピクチャおよび時間参照ピクチャが含まれる。伝達される参照ピクチャインデックスは、現予測単位（ＰＵ）が時間参照ピクチャまたはインターレイヤ参照ピクチャによって予測されたものか否かを示すために使用される。この特徴の使用はエンコーダにより制御され、ビットストリームにおいて、例えばビデオパラメータセット、シーケンスパラメータセット、ピクチャパラメータ、および／またはスライスヘッダにより標示されてもよい。この標示（複数可）は、例えば拡張レイヤ、参照レイヤ、拡張レイヤおよび参照レイヤの対、特定のＴｅｍｐｏｒａｌＩＤ値、特定のピクチャ種類（例えばＲＡＰピクチャ）、特定のスライス種類（例えばＰおよびＢスライス。Ｉスライスは不可）、特定のＰＯＣ値のピクチャ、および／または特定のアクセス単位に対して特有であってもよい。標示（複数可）の範囲および／または持続性は、この標示そのものにとともに示されてもよく、推測されてもよい。

ＭＶ−ＨＥＶＣ、ＳＭＶ−ＨＥＶＣ、および参照インデックスに基づくＳＨＶＣソリューションは、特定の処理により初期化されてもよい。当該処理では、インターレイヤ参照ピクチャ（複数可）が存在する場合に、初期参照ピクチャリスト（複数可）に含まれてもよく、以下のように実現される。例えば、まず時間参照を、ＨＥＶＣにおける参照リスト構造と同様にして参照リスト（Ｌ０、Ｌ１）に加える。その後、時間参照の後ろにインターレイヤ参照を加えてもよい。例えば、インターレイヤ参照ピクチャは、上述のとおりＶＰＳ拡張から導出されたRefLayerId[ i ]変数等のレイヤ依存情報から得られてもよい。インターレイヤ参照ピクチャは、現拡張レイヤスライスがＰスライスの場合に初期参照ピクチャリストＬ０に加えられ、現拡張レイヤスライスがＢスライスの場合に初期参照ピクチャリストＬ０およびＬ１の両方に加えられてもよい。インターレイヤ参照ピクチャは特定の順序で参照ピクチャリストに加えられてもよく、順序は参照ピクチャリスト間で同一であっても同一でなくてもよい。例えば、インターレイヤ参照ピクチャを初期参照ピクチャリスト１に加える順序が、初期参照ピクチャリスト０の場合とは逆であってもよい。例えば、インターレイヤ参照ピクチャは、最初の参照ピクチャ０に対して、nuh_layer_idの昇順で挿入され、初期参照ピクチャリスト１の初期化には逆の順序が採用されてもよい。

符号化および／または復号処理において、インターレイヤ参照ピクチャを長期参照ピクチャとして扱ってもよい。

インターレイヤ動き予測は以下のとおりに実現できる。Ｈ．２６５／ＨＥＶＣのＴＭＶＰのような時間動きベクトル予測処理により、異なるレイヤ間の動きデータの冗長性を実現できる。具体的には以下のとおりとなる。復号基本レイヤピクチャがアップサンプリングされると、それに合わせて基本レイヤピクチャの動きデータが拡張レイヤの解像度にマッピングされる。拡張レイヤピクチャが、例えばＨ．２６５／ＨＥＶＣのＴＭＶＰのような時間動きベクトル予測機構により、基本レイヤピクチャからの動きベクトル予測を利用する場合、対応する動きベクトル予測器がマッピングされた基本レイヤ動きフィールドから生じる。これにより、異なるレイヤ間の動きデータの相関が利用され、スケーラブルビデオコーダの符号化効率が向上できる。

ＳＨＶＣ等では、インターレイヤ動き予測は、ＴＭＶＰ導出用の関連する参照ピクチャとしてのインターレイヤ参照ピクチャを設定して実行できる。２つのレイヤ間の動きフィールドマッピング処理は、例えばＴＭＶＰ導出におけるブロックレベル復号処理変化を避けるために実行してもよい。動きフィールドマッピング特徴の利用は、エンコーダにより制御され、ビットストリームにおいて、例えばビデオパラメータセット、シーケンスパラメータセット、ピクチャパラメータ、および／またはスライスヘッダにより標示されてもよい。この標示（複数可）は、例えば拡張レイヤ、参照レイヤ、拡張レイヤおよび参照レイヤの対、特定のＴｅｍｐｏｒａｌＩＤ値、特定のピクチャ種類（例えばＲＡＰピクチャ）、特定のスライス種類（例えばＰおよびＢスライス。Ｉスライスは不可）、特定のＰＯＣ値のピクチャ、および／または特定のアクセス単位に対して特有であってもよい。標示（複数可）の範囲および／または持続性は、この標示そのものとともに示されてもよく、推測されてもよい。

空間スケーラビリティに対する動きフィールドマッピング処理では、アップサンプリングされたインターレイヤ参照ピクチャの動きフィールドは、インターレイヤ予測用の各ソースピクチャの動きフィールドに基づいて実現されてもよい。アップサンプリングされたインターレイヤ参照ピクチャの各ブロックの動きパラメータ（例えば、水平および／または垂直動きベクトル値および参照インデックスを含む）および／または予測モードは、インターレイヤ予測用のソースピクチャにおける関連するブロックの対応する動きパラメータおよび／または予測モードから導出できる。アップサンプリングされたインターレイヤ参照ピクチャの動きパラメータおよび／または予測モードの導出用のブロックサイズは、例えば１６×１６である。ＨＥＶＣにおいて参照ピクチャの圧縮動きフィールドが利用されるＴＭＶＰ導出処理でも同じく１６×１６ブロックサイズが利用される。

場合によっては、拡張レイヤ内のデータを、所定箇所以降切り捨てたり、あるいは任意の箇所で切り捨てたりしてもよい。各切り捨て位置は、画質が向上したことを表す追加データを含んでもよい。このようなスケーラビリティは高粒度スケーラビリティ（ＦＧＳ）と呼ばれる。

ＭＶＣ同様、ＭＶ−ＨＥＶＣにおいても、インタービュー参照ピクチャは符号化または復号されている現ピクチャの参照ピクチャリスト（複数可）に含めてもよい。ＳＨＶＣはマルチループ復号動作を利用する（この点がＨ．２６４／ＡＶＣのＳＶＣ拡張とは異なる）。ＳＨＶＣは参照インデックスに基づく手法を採ると考えられる。すなわち、インターレイヤ参照ピクチャが、符号化または復号されている現ピクチャの１つ以上の参照ピクチャリストに含まれてもよい（上述の内容参照）。

拡張レイヤ符号化については、ＳＨＶＣ、ＭＶ−ＨＥＶＣ等に対してＨＥＶＣ基本レイヤの概念や符号化ツールを利用できる。一方で、ＳＨＶＣ、ＭＶ−ＨＥＶＣ等のコーデックに対して、拡張レイヤの効率的な符号化のための参照レイヤにおいて符号化済みデータ（再構成ピクチャサンプルや、動きパラメータ、すなわち動き情報）を利用したインターレイヤ予測ツールを追加してもよい。

ビットストリームが必ずしも当該ビットストリームに含まれた基本レイヤ（すなわち、マルチレイヤＨＥＶＣ拡張の場合、nuh_layer_idが０の層）または外部から提供された基本レイヤ（ハイブリッドコーデックスケーラビリティの場合）を有する必要はなく、最下層が独立した非基本レイヤであってもよいことが提案されている。ビットストリームにおいて、nuh_layer_idの値が最も低い層がビットストリームの基本レイヤともされうる。

ＨＥＶＣにおいては、以下のとおりＶＰＳフラグvps_base_layer_internal_flagおよびvps_base_layer_available_flagにより、基本レイヤの存在および可用性を示すことができる。すなわち、vps_base_layer_internal_flag is equalが１で、vps_base_layer_available_flagが１であれば、ビットストリームに基本レイヤが存在する。vps_base_layer_internal_flagが０で、vps_base_layer_available_flagが１であれば、マルチレイヤＨＥＶＣ復号処理において、基本レイヤが外部手段により提供される。具体的には、符号化基本レイヤピクチャ、および当該符号化基本レイヤピクチャ用の何らかの変数およびシンタックス要素が、マルチレイヤＨＥＶＣ復号処理に提供される。vps_base_layer_internal_flagが１で、vps_base_layer_available_flagが０であれば、基本レイヤは利用できない（ビットストリーム内に存在せず、外部手段からも提供されない）が、ＶＰＳは実際にはビットストリーム内に存在しない基本レイヤの情報を含む。vps_base_layer_internal_flagが０で、vps_base_layer_available_flagが０であれば、基本レイヤは利用できない（ビットストリーム内に存在せず、外部手段からも提供されない）が、ＶＰＳは実際には外部手段により提供されていない基本レイヤの情報を含む。

符号化規格は、例えばＳＶＣ、ＭＶＣ、ＨＥＶＣで規定されるようなサブビットストリーム抽出処理を含んでもよい。サブビットストリーム抽出処理は、ＮＡＬ単位を取り除くことで、ビットストリームをサブビットストリーム（ビットストリームサブセットとも称する）に変換することに基づく。サブビットストリームも規格に準拠するものとなる。例えば、ＨＥＶＣでは、ＴｅｍｐｏｒａｌＩｄの値が選択値よりを越えたすべてのＶＣＬ−ＮＡＬ単位が除かれ、その他すべてのＶＣＬ−ＮＡＬ単位を含むように生成されたビットストリームは、該規格から外れていない。

ＨＥＶＣ規格（バージョン２）は、３つのサブビットストリーム抽出処理を含む。ＨＥＶＣ規格の１０節におけるサブビットストリーム抽出処理は、F.１０.１節のものと同様である。ただし、得られたサブビットストリームのビットストリーム準拠要件は、F.１０.１節の方が軽い。これにより、基本レイヤが外部からもたらされた（vps_base_layer_internal_flagが０）、または使用不能（vps_base_layer_available_flagが０）の場合でも、ビットストリームに対して処理が実施可能となる。ＨＥＶＣ規格（バージョン２）のF.１０.３節では、基本レイヤ含まないサブビットストリームが生成されるサブビットストリーム抽出処理が指定される。これら３つのサブビットストリーム抽出処理における動作はすべて同様である。すなわち、サブビットストリーム抽出処理では、ＴｅｍｐｏｒａｌＩｄおよび／またはnuh_layer_id値のリストが入力され、ＴｅｍｐｏｒａｌＩｄの値が入力されたＴｅｍｐｏｒａｌＩｄ値よりも大きい、またはnuh_layer_id値がnuh_layer_id値の入力リストに存在しないＮＡＬ単位を、すべてビットストリームから除くことで、サブビットストリーム（ビットストリームサブセットとも称する）が生成される。

符号化規格またはシステムにおいて、復号が実施されるスケーラブルレイヤおよび／またはサブレイヤを示し、さらに／あるいは復号されているスケーラブルレイヤおよび／またはサブレイヤを含むサブビットストリームに関連する可能性のある、「動作点」等が用語として使用されてもよい。ＨＥＶＣでは、動作点は、別のビットストリーム、対象最高ＴｅｍｐｏｒａｌＩｄ、対象レイヤ識別子リストを入力としたサブビットストリーム抽出処理の動作により、別ビットストリームから生成されたビットストリームとして定義される。

復号処理により、復号されたピクチャが出力されるレイヤとして出力レイヤを定義してもよい。出力レイヤは、マルチレイヤビットストリームの復号されるサブセットに応じたものである。復号処理により出力されるピクチャは、例えばＹＵＶ色空間からＲＧＢへの、色空間変換のような処理をさらに実施した後に表示されてもよい。ただし、それ以上の処理および／または表示は、デコーダおよび／または復号処理から外れたものとして、実施されなくてもよい。

マルチレイヤビデオビットストリームでは、動作点の定義は、対象出力レイヤ群を考慮したものであってもよい。例えば、動作点は、別のビットストリーム、対象最高時間サブレイヤ（例えば、対象最高ＴｅｍｐｏｒａｌＩｄ）、対象レイヤ識別子リストを入力としたサブビットストリーム抽出処理の動作により、別ビットストリームから生成され、出力レイヤ群と関連したビットストリームとして定義されてもよい。あるいは、動作点および関連した出力レイヤ群を表す用語として、主力動作点等のその他の用語を使用してもよい。例えば、ＭＶ−ＨＥＶＣ／ＳＨＶＣにおいて、出力動作点は、入力ビットストリーム、対象最高ＴｅｍｐｏｒａｌＩｄ、対象レイヤ識別子リストを入力としたサブビットストリーム抽出処理の動作により、入力ビットストリームから生成され、出力レイヤ群と関連したビットストリームとして定義されてもよい。

スケーラブルマルチレイヤビットストリームにおいて、レイヤと時間サブレイヤの２つ以上の組合せを復号可能にするように、マルチレイヤ復号処理では（外部手段からの）対象出力動作点を入力としてもよい。例えば、出力動作点は、出力レイヤ群（ＯＬＳ）と、復号される最高時間サブレイヤを特定することで、提供されてもよい。ＯＬＳは、必要レイヤまた不要レイヤに分類されるレイヤの群を表すものと定義されてもよい。必要レイヤは、出力レイヤまたは参照レイヤとして定義されてもよい。出力レイヤのピクチャは、復号処理により出力される。参照レイヤのピクチャは、任意の出力レイヤのピクチャの予測用の参照に直接または間接的に使用される。マルチレイヤＨＥＶＣ拡張では、ＶＰＳはＯＬＳの特定を含み、ＯＬＳのバッファリング要件とパラメータを特定可能である。不要レイヤは、出力レイヤ再構成用に復号される必要がないが、将来的に実施されうる拡張により符号化されるレイヤを含むようなレイヤ群に対するバッファリング要件を示すため、ＯＬＳに含まれてもよいレイヤと定義されてもよい。

各アクセス単位で最高レイヤが不変な使用事例およびビットストリームでは、一定の出力レイヤ群で十分であるが、当該群ではアクセス単位間で最高レイヤが変わるような使用事例に対応していない場合がある。したがって、同じアクセス単位内の出力レイヤにピクチャがなければ、エンコーダがビットストリーム内の複数の代替出力レイヤの使用を特定し、代替出力レイヤの使用の特定に応じて、デコーダが復号されたピクチャを１つの代替出力レイヤから出力することが提案されている。この代替出力レイヤを標示するにはいくつかの方法が挙げられる。例えば、出力レイヤ群における各出力レイヤは、最小の代替出力レイヤに関連付けられてもよく、各出力レイヤに対する代替出力レイヤ（複数可）の特定に、出力レイヤに基づくシンタックス要素（複数可）を利用してもよい。あるいは、代替出力レイヤ群のメカニズムは、単一の出力レイヤのみを含む出力レイヤ群に対する使用に限定されてもよく、出力レイヤ群の出力レイヤに対する代替出力レイヤ（複数可）の特定に、出力レイヤ群に基づくシンタックス要素（複数可）を利用してもよい。あるいは、ＨＥＶＣで規定されているとおり、代替出力レイヤ群のメカニズムは、単一の出力レイヤのみを含む出力レイヤ群に対する使用に限定されてもよく、出力レイヤ群に基づくフラグ（ＨＥＶＣにおけるalt_output_layer_flag[ olsIdx ]）を利用して、出力レイヤの直接または間接参照レイヤが、出力レイヤ群の出力レイヤに対する代替出力レイヤであってもよいことを特定してもよい。あるいは、代替出力レイヤ群のメカニズムは、すべての指定された出力レイヤ群が単一の出力レイヤを含むビットストリームまたはＣＶＳに対する使用に限定されてもよく、代替出力レイヤ（複数可）はビットストリームまたはＣＶＳに基づくシンタックス要素（複数可）により示されてもよい。例えば、代替出力レイヤ（複数可）は、ＶＰＳ内の代替出力レイヤを（例えば、それらのレイヤ識別子や直接または間接参照レイヤのリストのインデックスを使用して）列挙し、最小代替出力レイヤを（例えば、そのレイヤ識別子や直接または間接参照レイヤのリストにおけるインデックスを使用して）示し、または任意の直接または間接参照レイヤが代替出力レイヤであることを示すフラグを利用して、指定される。複数の代替出力レイヤが使用可能であれば、アクセス単位における、上記の示された最小代替出力レイヤまでレイヤ識別子降順の、第１直接または間接インターレイヤ参照ピクチャが出力されるよう指定されてもよい。

スケーラブル符号化で出力されるピクチャは、例えば以下のとおりに制御されてもよい。すなわち、単一レイヤビットストリームの場合と同様に、復号処理において、各ピクチャのPicOutputFlagがまず生成される。例えば、PicOutputFlagは、当該ピクチャに対するビットストリームに含まれるpic_output_flagを考慮して生成されてもよい。アクセス単位が復号されると、出力レイヤと、対応しうる代替出力レイヤを使用して、アクセス単位の各ピクチャに対するPicOutputFlagを更新してもよい。

ビットストリームにおいて代替出力レイヤのメカニズムの使用が指定されている場合、復号処理により出力された、復号されたピクチャを制御するため、復号プロセスは以下のとおりに動作してもよい。ここで、ＨＥＶＣによる復号が使用され、alt_output_layer_flag[ TargetOlsIdx ]が１であるが、その他のコーデックを用いても同様に復号処理が実現できるものとする。ピクチャの復号が完了すると、当該ピクチャに対する可変PicOutputFlagが以下のとおりに設定されてもよい。
・ LayerInitializedFlag[ nuh_layer_id ]が０であれば、PicOutputFlagを０に設定する。
・上記条件が満たされない場合、現ピクチャがＲＡＳＬピクチャであり、関連するＩＲＡＰピクチャのNoRaslOutputFlagが１であれば、PicOutputFlagを０に設定する。
・上記条件が満たされない場合、PicOutputFlagをpic_output_flagに等しくなるように設定する。ここで、pic_output_flagは、当該ピクチャに関連するシンタックス要素であり、例えば当該ピクチャの符号化されたスライスのスライスヘッダに存在する。
さらに、アクセス単位における最後のピクチャの復号が完了すると、（次のピクチャの復号前に）以下のとおりにアクセス単位の各復号されたピクチャのPicOutputFlagを更新してもよい。
・ alt_output_layer_flag[ TargetOlsIdx ]が１で、現アクセス単位が出力レイヤのピクチャを含まないまたはPicOutputFlagが０の出力レイヤにおけるピクチャを含む場合、以下のステップが順番に実行される。
○ リストnonOutputLayerPicturesを、PicOutputFlagが１で、nuh_layer_id値が出力レイヤの参照レイヤのnuh_layer_id値内であるアクセス単位のピクチャのリストに設定する。
○ リストnonOutputLayerPicturesが空でなければ、リストnonOutputLayerPicturesにおける最もnuh_layer_id値が高いピクチャを、リストnonOutputLayerPicturesから除く。
○ リストnonOutputLayerPicturesに含まれる各ピクチャのPicOutputFlagを０に設定する。
・上記条件が満たされない場合、出力レイヤに含まれないピクチャに対するPicOutputFlagを０に設定する。

前段落に記載のとおり、代替出力レイヤのメカニズムが使用される場合、アクセス単位のいずれの復号済みピクチャ（複数可）が復号処理によって出力されるかを判定可能となる前に、アクセス単位の復号が完了する必要がありうる。

ブロック、領域、またはピクチャのスキップ符号化は、スケーラブルビデオの符号化に応じて定義されてもよく、これにより、復号または再構成されたブロック、領域、またはピクチャはそれぞれインターレイヤ予測信号に等しくなる（例えば、単予測の場合、インターレイヤ参照ピクチャの各ブロック、領域、またはピクチャ）。スキップ符号化ブロック、領域、またはピクチャに対して予測エラーは符号化されず、したがってスキップ符号化ブロック、領域、またはピクチャに対して予測エラーは復号されない。符号化された予測エラーが利用不能であることが、例えばブロック単位で（例えばＨＥＶＣのcu_skip_flag等を使用する）、エンコーダで示され、および／またはデコーダで復号される。スキップ符号化ブロック、領域、またはピクチャに対して、インループフィルタがＯＦＦであることが、例えば符号化規格で予め定義されるか、エンコーダで示され、デコーダにより復号されてもよい。重み付け予測がＯＦＦであることが、例えば符号化規格で予め定義されるか、エンコーダで示され、デコーダにより復号されてもよい。

プロファイルは、復号／符号化規格または仕様により指定される全ビットストリームシンタックスのサブセットとして定義されてもよい。あるプロファイルのシンタックスによる限定下でも、復号されたピクチャの指定サイズのような、ビットストリームにおけるシンタックス要素による値によっては、エンコーダおよびデコーダの性能の大きな変動を要することが可能である。多くの場合、特定のプロファイルにおけるあらゆる可能性のあるシンタックスの利用を網羅したデコーダを実現するのは、非現実的且つ非経済的である。そのため、レベルを使用することができる。レベルとは、ビットストリームにおけるシンタックス要素や、符号化／復号規格または仕様で指定された変数の値に対する、所定の限定群と定義できる。これら限定は、値に対する単純な制限であってもよい。さらに／あるいは、値の数学的組合せ（例えば、ピクチャ幅×ピクチャ高さ×毎秒当たりの復号ピクチャ数）に対する限定であってもよい。レベルに対する限定を指定する手段は他にもある。レベルで指定される限定は、例えばマクロブロックや、所定時間（秒等）の符号化単位での最大ピクチャサイズ、最大ビットレート、最大データレートに関するものであってもよい。すべてのプロファイルに対して、同じレベル群が定義されてもよい。例えば、異なるプロファイル間で、各レベルの定義の態様の大部分またはすべてが共通となるように、異なるプロファイルを実現する端末間の相互運用性を向上することが望ましくありうる。階層（tier）は、ビットストリームにおけるシンタックス要素の値に対するレベル限定の、所定の分類として定義できる。ここで、レベル限定は階層に対して入れ子になっており、ある階層およびレベルに準拠するデコーダは、そのレベル以下の階層またはそれを下回る任意のレベルに準拠するすべてのビットストリームに対して復号が可能である。

多くの従来のビデオの符号化規格が、ビットストリームに適用される、プロファイル単位での適合性指標を指定しているが、マルチレイヤＨＥＶＣ拡張では、レイヤ単位での適合性指標が指定されている。より正確には、各ＯＬＳの各必要レイヤに対して、プロファイル−指標単位（ＰＴＬ）組が示される。ただし、より細粒度の、時間−サブレイヤ単位ＰＴＬシグナリングが可能である。すなわち、各ＯＬＳの各必要レイヤの各時間サブセットのＰＴＬの組合せを示すことが可能である。ＨＥＶＣデコーダのデコーダ性能は、ＰＴＬ値のリストとして示すことができ、リスト要素の数はデコーダが対応するレイヤ数を示し、各ＰＴＬ値は１レイヤに対する復号能力を示す。インターレイヤ予測の対象ではない非基本レイヤは、メインプロファイル等の、単一レイヤプロファイルに準拠するように示されてもよい。ただし、当該レイヤに対して、レイヤ単位の復号が適切に作用するには、いわゆる独立非基本レイヤ復号（Independent Non-Base Layer Decoding：ＩＮＢＬＤ）能力が必要となる。

消費者向け、業務用ビデオのピクチャレートが益々向上することは間違いないであろう。例えば、デジタルスチルカメラ、スマートフォンカメラ、アクションカメラのような消費者向け製品は、１２０Ｈｚまたは２４０Ｈｚのような高いピクチャレートでビデオを撮像可能である。今日のテレビは、数百Ｈｚのピクチャレートの表示にも対応可能である。

一方で、ピクチャレートは、デコーダまたは再生機により、その性能に応じて選択可能であることが有利であることが多い。例えば、再生機に１２０Ｈｚのピクチャレートのビットストリームが送られても、計算資源の空きや、バッテリの充電レベル、および／または表示能力等により、３０Ｈｚ版を復号する方が有利となりうるのである。このような調整は、時間スケーラビリティをビデオの符号化および復号に適用することにより可能である。

ただ、時間スケーラビリティは、短い露出時間（例えば２４０Ｈｚ）で撮影されたビデオの場合、一時的にサブサンプリングにより３０Ｈｚで再生すると、欠損を生じるモーションブラーにより、不自然に映るという欠点をはらむ。時間スケーラビリティおよび露出時間スケーリングに関して、以下の２つの状況が生じうると考えられる。第１の状況として、低フレームレートの露出時間が、高フレームレートでも維持されることが考えられる。この場合、デコーダがモーションブラーに関する問題を比較的素直に対処できる。第２の状況として、フレームレート間で露出時間が異なる場合がある。この場合、かなり複雑な状況に陥る可能性がある。

ＳＨＶＣおよびＭＶ−ＨＥＶＣに対して、ＨＬＳオンリー（high-level-syntax-only）という設計方針が選択された。これは、ＨＥＶＣシンタックスまたは復号処理に対して、スライスヘッダ以下の変更はないことを意味する。そのため、ＨＥＶＣエンコーダおよびデコーダの実装が、ＳＨＶＣおよびＭＶ−ＨＥＶＣに流用可能である。ＳＨＶＣは、インターレイヤ処理という概念を利用する。これは具体的には、必要に応じて復号済み参照レイヤピクチャおよびその動きベクトル配列をリサンプリングし、さらに／あるいはカラーマッピング（例えば色域スケーリング用）を適用するための処理である。

インターレイヤ処理と同様に、ピクチャレートのアップサンプリング（いわゆるフレームレートアップサンプリング）方法が復号の後処理に適用される。言い換えると、ピクチャレートのアップサンプリングアルゴリズムで生成されたピクチャは、符号化または復号における参照ピクチャとして使用されない。しかし、アップサンプリングされたピクチャを、符号化または復号における参照ピクチャとして使用すれば、時間スケーラブルビットストリームの圧縮効率の向上の機会が広がりうる。

時間スケーラブルビットストリームの圧縮効率を向上するための、改良されたビデオ符号化方法を以下に示す。特定の実施形態において別途記載がない限り、符号化ベースピクチャという用語は、直接参照レイヤピクチャとして定義され、再構成ベースピクチャという用語は、インターレイヤ予測用のソースピクチャとして定義され、符号化拡張ピクチャという用語は、予測後レイヤの符号化ピクチャとして定義され、再構成拡張ピクチャという用語は、予測後レイヤの復号されたピクチャとして定義されてもよい。

図５に示す方法では、第１のスケーラビリティレイヤが符号化される（５００）。第１のスケーラビリティレイヤは少なくとも第１の符号化ベースピクチャおよび第２の符号化ベースピクチャを含む。ここで前記第１のスケーラビリティレイヤは第１のアルゴリズムを用いて復号可能である。この方法はさらに、前記第１および第２の符号化ベースピクチャをそれぞれ、第１および第２の再構成ベースピクチャとして再構成すること（５０２）を含む。ここで前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続している。この方法はさらに、第２のアルゴリズムを用いて、少なくとも前記第１および第２の再構成ベースピクチャから第３の再構成ベースピクチャを再構成すること（５０４）を含む。ここで前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にある。この方法はさらに、少なくとも第１の符号化拡張ピクチャと、第２の符号化拡張ピクチャと、第３の符号化拡張ピクチャとを含む第２のスケーラビリティレイヤを符号化すること（５０６）を含む。ここで前記第２のスケーラビリティレイヤは、再構成ピクチャを入力とするインターレイヤ予測を含む第３のアルゴリズムを用いて復号可能である。この方法はさらに、前記第１、第２、および第３の再構成ベースピクチャをインターレイヤ予測の入力として、前記第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに再構成すること（５０８）を含む。ここで前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致する。

言い換えると、ＨＥＶＣ等の既存のフォーマットに準拠する基本レイヤのピクチャレートについて、拡張レイヤ（向上したピクチャレートに対応する）もＳＨＶＣの等の既存のフォーマットに準拠するように、当該ピクチャレートを上げるメカニズムが提供される。

ある実施形態によると、前記第２および前記第３のアルゴリズムは動き補償予測アルゴリズムであって、前記第２のアルゴリズムは前記第１および第３のアルゴリズムとは異なる。したがって、この方法は、ピクチャレートのアップサンプリングに対して、例えばＨＥＶＣまたはＳＨＶＣに含まれる第１の動き補償予測アルゴリズム（すなわち、前記第３のアルゴリズム）とは異なる第２の動き補償予測アルゴリズム（すなわち、前記第２のアルゴリズム）を使用可能にするものである。ピクチャレート向上のため、第１および第２の動き補償予測を使い分ける（またはイントラ予測のようなその他の予測を利用する）ことは、エンコーダにより動的に選択された、ビットストリームにおいて示されたブロック単位で可能である。したがって、デコーダは第１および第２の動き補償予測間の動的な選択にも対応する。

多くの場合、第１の動き補償予測よりも、第２の動き補償予測アルゴリズムの方がより正確な予測信号を得られるため、上述のメカニズムは圧縮効率の向上を実現する。第１および第２の動き補償予測を使い分けること、必要であればその他の予測（イントラ予測等）を使用することが、ブロック単位で動的に実現可能なことから、第２の動き補償予測アルゴリズムはすべてのブロックに対してその他の予測方法よりも高性能である必要がない。したがって、上述のメカニズムは、あらゆる種類のコンテンツに対して、従来技術の方法よりも優れているか、少なくとも同等に動作する。

図６は、一実施形態によるメカニズムの仕組みの概略を示す。図６に示すメカニズムは、符号化および復号のいずれにも適用できる。例えば、ＨＥＶＣエンコーダまたはデコーダにより、第１のスケーラビリティレイヤ６００が符号化または復号される。第１のスケーラビリティレイヤ６００は、第２のスケーラビリティレイヤ６０４よりも低ピクチャレートである。ピクチャレートのアップサンプリングアルゴリズム（すなわち、前記第２のアルゴリズム）を、第１のスケーラビリティレイヤの再構成または復号されたピクチャ６００ａ、６００ｃに適用して、第３の再構成ベースピクチャ６０２ｂを再構成する。ここで、符号ａ、ｂ、ｃ…は、ピクチャの出力順を示す。ピクチャレートのアップサンプリング方法はさらに、動きベクトルのような、第１のスケーラビリティレイヤの符号化データを利用してもよい。さらに、ピクチャレートのアップサンプリング方法を調整するための、さらなるデータを符号化または復号してもよい。例えば、ＳＨＶＣエンコーダまたはデコーダにより第２のスケーラビリティレイヤ６０４を符号化または復号する。再構成ベースピクチャ６００ａ、６００ｃ、６０２ｂをインターレイヤ予測の入力として、第２のスケーラビリティレイヤが符号化または復号される。例えば、再構成ベースピクチャ６００ａ、６００ｃ、６０２ｂは第２のスケーラビリティレイヤを符号化または復号するための、外部基本レイヤピクチャとして扱ってもよい。これは、ＳＨＶＣの場合、外部基本レイヤを利用した（すなわちvps_base_layer_internal_flagが０である）ＳＨＶＣビットストリームへと、または当該ＳＨＶＣビットストリームから、第２のスケーラビリティレイヤを符号化／復号することで実現できる。第１のスケーラビリティレイヤに（例えば、出力時間対応に関して）対応するピクチャが存在しない、第２のスケーラビリティレイヤ６０４のピクチャ６０４ｂについては、ピクチャレートのアップサンプリング方法により再構成されたピクチャ６０２ｂが、インターレイヤ予測の入力としての再構成ベースピクチャとして使用される。図６や後続の図面において、インター予測は第１のスケーラビリティレイヤ６００内および／または第２のスケーラビリティレイヤ６０４内で用いられてもよいが、この場合のインター予測は図示されていないことを理解されたい。

ある実施形態によると、このメカニズムは、第１のスケーラビリティレイヤにおけるベースピクチャを向上することなく、ピクチャレートを上げるという目的のみに使用される。これは、非限定的な以下の方法を含む様々な方法で実現できる。

図７に示す一実施形態によると、エンコーダは図６と同様に動作するが、以下に説明するようにピクチャ７５４ａおよび７５４ｃがそれぞれピクチャ６０４ａおよび６０４ｃとは異なる方法で符号化される。エンコーダは、第１のスケーラビリティレイヤ７５０のピクチャに（例えば、出力時間対応に関して）対応するピクチャがスキップ符号化されるように、第２のスケーラビリティレイヤ７５４を符号化する。図７において、点線の各ボックス（７５４ａ、７５４ｃ）が、スキップ符号化ピクチャを示す。ある実施形態によると、エンコーダは、第１のスケーラビリティレイヤ（７５０ａ、７５０ｃ）のピクチャに対応する第２のスケーラビリティレイヤのピクチャ（７５４ａ、７５４ｃ）がスキップ符号化されるという、第２のスケーラビリティレイヤに関連した標示を含む。ある実施形態によると、デコーダは、図６と同様に動作するが、以下に説明するようにピクチャ７５４ａおよび７５４ｃがそれぞれピクチャ６０４ａおよび６０４ｃとは異なる方法で復号される。デコーダは、上記の第２のスケーラビリティレイヤに関連した標示を復号し、第１のスケーラビリティレイヤのピクチャに対応する第２のスケーラビリティレイヤのピクチャの復号を省略して、その代わりに第１のスケーラビリティレイヤの復号されたピクチャを出力する。

図８に示す別の実施形態によると、エンコーダは図６で説明したのと同様に動作するが、ここではエンコーダは第１のスケーラビリティレイヤ８５０のピクチャに（例えば、出力時間対応に関して）対応してピクチャを符号化することなく、第２のスケーラビリティレイヤ８５４を符号化する。例えば、ビットストリームが第１のスケーラビリティレイヤ８５０および第２のスケーラビリティレイヤ８５４を両方含む場合、エンコーダは第１のスケーラビリティレイヤの符号化ピクチャ（例えば、８５０ａ）のみを含み、第２のスケーラビリティレイヤのピクチャを含まないアクセス単位のみを符号化可能である。別の例では、ビットストリームが第２のスケーラビリティレイヤ８５４を含むが第１のスケーラビリティレイヤ８５０を含まない場合、エンコーダは第２のスケーラビリティレイヤのピクチャが明示的または暗示的に不在であると示されたアクセス単位を符号化することができる。これは例えば、アクセス単位区切り等および／またはアクセス単位の符号化単位完了標示等を符号化することにより実現するが、当該アクセス単位区切り等および／または符号化単位完了標示等によって示されたアクセス単位内に第２のスケーラビリティレイヤの符号化ピクチャを含まない。ある実施形態によると、エンコーダは上述の代替出力レイヤのメカニズムを使用して、（例えばアクセス単位で）第２のスケーラビリティレイヤのピクチャが不在であれば、第１のスケーラビリティレイヤの対応するピクチャ（例えば、８５０ａ）を出力することを示す。ある実施形態によると、デコーダは図６で説明したのと同様に動作するが、ここではデコーダは第１のベースピクチャ８５０ａまたは第２のベースピクチャ８５０ｃを含むアクセス単位における第２のスケーラビリティレイヤ８５４のピクチャが不在であることを特定し、不在の場合、再構成ベースピクチャ８５０ａおよび８５０ｃを出力する。ある実施形態によると、デコーダは図６で説明したのと同様に動作するが、ここではデコーダは第１のベースピクチャ８５０ａまたは第２のベースピクチャ８５０ｃを含むアクセス単位における第２のスケーラビリティレイヤ８５４のピクチャが不在であることを特定し、（例えば、上述のシグナリングにより）代替出力レイヤが使用中かを特定し、不在であるか代替出力レイヤが使用中であれば、再構成ベースピクチャ８５０ａおよび８５０ｃを出力する。

ある実施形態によると、メカニズムは、第１のスケーラビリティレイヤのベースピクチャが修正されるように、ピクチャレートを上げるために利用される。修正は、例えば第１のスケーラビリティレイヤが示す第１のビデオシーケンスが、第２のスケーラビリティレイヤが示す第２のビデオシーケンスのための第２の露出時間よりも長いピクチャ撮影用の第１の露出時間で撮影された可能性があるため行われてもよい。この場合、第１および第２のビデオシーケンスが同じカメラによるものでも、ピクチャ同士で性質が異なりうる。例えば、第１のビデオシーケンスのピクチャの方が、モーションブラーが多い可能性がある。そこで、修正の目的は、再構成された第２のスケーラビリティレイヤが主観的に安定した品質を持つようにすることおよび／またはピクチャレートのアップサンプリングの適切な入力を実現することで、ピクチャレートのアップサンプリングにより生成されたピクチャのフィデリティを向上し、それにより圧縮の向上を実現することであってもよい。本実施形態も、非限定的な以下の方法を含む様々な方法で実現できる。

図９に示す一実施形態によると、ピクチャレートのアップサンプリングピクチャ９０２ｂの再構成に、再構成ベースピクチャ９００ａ、９００ｃが入力として使用される（修正前）。その後、例えば第２の拡張レイヤにおける対応するピクチャ９０４ａ、９０４ｂ、９０４ｃを使用して、再構成ベースピクチャ９００ａ、９００ｃ、９０２ｂが修正される。本実施形態はエンコーダおよび／またはデコーダに適用できる。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

図１０に示す別の実施形態によると、再構成ベースピクチャ１０００ａ、１０００ｃは、例えばボケ除去アルゴリズムによりまず修正される。本明細書において以下にボケ除去について言及する場合、任意のボケ除去アルゴリズムが使用できる。いくつかの実施形態では、例えば符号化規格において、ボケ除去アルゴリズムが予め定義される。いくつかの実施形態では、例えば符号化規格において、複数のボケ除去アルゴリズムが予め定義され、その内で使用されるものを、エンコーダによりビットストリームに示し、さらに／あるいはデコーダがビットストリームから復号する。ボケ除去アルゴリズムは、モーションブラーを除去すること、低減すること、および／または隠すことが目的であってもよい。修正されたベースピクチャ１００２ａ、１００２ｃを入力として、ピクチャレートのアップサンプリングピクチャ１００２ｂを再構成する。修正されたベースピクチャ１００２ａ、１００２ｂ、１００２ｃは、第２のスケーラビリティレイヤにおける対応するピクチャ１００４ａ、１００４ｂ、１００４ｃのインターレイヤ予測における参照として使用してもよい。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

図１１に示すさらに別の実施形態によると、再構成ベースピクチャ１１００ａ、１１００ｃは、第２の拡張レイヤの対応するピクチャ１１０４ａ、１１０４ｃによりまず修正される。当該修正は、ＳＨＶＣのような既存のアルゴリズムを用いてもよいし、新たなアルゴリズムを使用または部分的に導入してもよい。第２の拡張レイヤの再構成ピクチャ１１０４ａ、１１０４ｃは、ピクチャレートのアップサンプリングピクチャ１１０２ｂの再構成における入力に使用される。本実施形態はエンコーダおよび／またはデコーダに適用できる。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

ある実施形態によると、エンコーダは例えば上述の実施形態のリストにおけるいずれが実現されているかを、ビットストリーム、例えばＶＰＳのようなシーケンス単位シンタックス構造において示す。デコーダは、ビットストリーム、例えばＶＰＳのようなシーケンス単位シンタックス構造から、例えば上述の実施形態のリストにおけるいずれが実現されているかを復号する。

ある実施形態によると、メカニズムは、ピクチャレートおよびその他１つまたは複数の種類の拡張の向上に使用される。その他の種類の拡張としては、信号対ノイズ（すなわち、画質、すなわち画像忠実度）拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、および／または色域の拡大が挙げられる。

第２のスケーラビリティレイヤは、ＳＮＲ、空間、ビット深度、ダイナミックレンジ、および／または色域スケーラビリティのような、適切な種類のスケーラビリティが可能なように、符号化、または復号できる。再構成ベースピクチャは、リサンプリング、ビット深度拡張、および／またはカラーマッピングのようなインターレイヤ処理後、第２のスケーラビリティレイヤの参照ピクチャとして使用されてもよい。ピクチャレートのアップサンプリングと、いくつかの実施形態では再構成ベースピクチャの修正（例えば、ボケ除去）は、前記インターレイヤ処理の一部としてとらえても、前記インターレイヤ処理前に実施されてもよい。前記インターレイヤ処理前の前のベースピクチャを扱う場合、実施形態は、第１のスケーラビリティレイヤのベースピクチャが修正されるように、ピクチャレート向上に関する上述の実施形態の任意の実現とともに使用できる。したがって、実施形態は非限定的な以下の方法を含む、様々な方法で実現できる。

図１２に示す一実施形態によると、第２のスケーラビリティレイヤにおける対応するピクチャ１２０４ａ、１２０４ｂ、１２０４ｃを使用して拡張する前に、再構成ベースピクチャ１２００ａ、１２００ｃを入力として、ピクチャレートのアップサンプリングピクチャ１２０２ｂの再構成してもよい。この拡張により、例えばＳＮＲ、解像度、サンプルビット深度、ダイナミックレンジ、および／または色域についてベースピクチャが拡張される。前記拡張はさらに、例えばモーションブラー量低減のための、ベースピクチャの仮想的露出時間の修正を含んでもよい。本実施形態はエンコーダおよび／またはデコーダに適用できる。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

図１３に示す別の実施形態によると、再構成ベースピクチャ１３００ａ、１３００ｃは、例えばボケ除去アルゴリズムを用いてまず修正される。修正されたベースピクチャ１３０２ａ、１３０２ｃを入力として、ピクチャレートのアップサンプリングピクチャ１３０２ｂを再構成してもよい。修正されたベースピクチャ１３０２ａ、１３０２ｂ、１３０２ｃは、第２のスケーラビリティレイヤの対応するピクチャ１３０４ａ、１３０４ｂ、１３０４ｃのインターレイヤ予測における参照として使用してもよい。本実施形態はエンコーダおよび／またはデコーダに適用できる。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

図１４に示す別の実施形態によると、再構成ベースピクチャ１４００ａ、１４００ｃは、第２の拡張レイヤの対応するピクチャ１４０４ａ、１４０４ｃを用いてまず修正される。当該修正は、ＳＨＶＣのような既存のアルゴリズムを用いてもよいし、新たなアルゴリズムを使用または部分的に導入してもよい。この修正により、例えばＳＮＲ、解像度、サンプルビット深度、ダイナミックレンジ、および／または色域についてベースピクチャが拡張される。前記修正はさらに、例えばモーションブラー量低減のための、ベースピクチャの仮想的露出時間の修正を含んでもよい。第２の拡張レイヤの再構成ピクチャ１４０４ａ、１４０４ｃは、ピクチャレートのアップサンプリングピクチャ１４０２ｂの再構成における入力として使用される。本実施形態はエンコーダおよび／またはデコーダに適用できる。本実施形態のエンコーダおよび／またはデコーダのその他の動作は、図６に示すものと同じである。

〔単一のビットストリームの使用〕

符号化、復号に適用可能なある実施形態によると、符号化、復号されるビットストリームは以下の特徴を有する。
・第１および第２のスケーラビリティレイヤが同一のビットストリーム内に存在する。
・第３の拡張ピクチャが、第１および第２のベースおよび拡張ピクチャよりも高い時間サブレイヤに存在する。

ビットストリームサブセットの符号化プロファイルに対するラベル付けは、以下のとおりにエンコーダにより示されるか、デコーダにより復号されてもよい。
・第１および第２のベースピクチャを含み、第２のスケーラビリティレイヤからのピクチャを含まないビットストリームサブセットに、ＨＥＶＣのメインプロファイルのような第１の符号化プロファイルをラベル付けしてもよい。
・第１および第２の拡張ピクチャを含み、第３の拡張ピクチャを含まないビットストリームサブセットに、ＨＥＶＣのスケーラブルメインプロファイルのような（第１の符号化プロファイルとは異なる）第２の符号化プロファイルをラベル付けしてもよい。
・第１、第２、および第３の拡張ピクチャを含むビットストリームサブセットに、第１および第２の符号化プロファイルとは異なり、スケーラブルハイプロファイルと称する第３の符号化プロファイルをラベル付けしてもよい。

ＨＥＶＣの場合、上述の「ビットストリームサブセット」という用語は、出力動作点（ＨＥＶＣ仕様で定義）と解されてもよい。

本実施形態は、
・第１のスケーラビリティレイヤのベースピクチャが拡張されないようにピクチャレートを上げる、図７および図８に示す実施形態、
・第１のスケーラビリティレイヤのベースピクチャが修正されるようにピクチャレートを上げる、図９および図１１に示す実施形態、
・ピクチャレートと、その他あらゆる種類の拡張を向上する、図１２および図１４に示す実施形態、
のような実施形態とともに実現されてもよい。

スケーラブルハイプロファイルのインターレイヤ処理は、ピクチャレートのアップサンプリングに対する第２のアルゴリズムを含む。第１のスケーラビリティレイヤのベースピクチャが修正されるようにピクチャレートを上げる実施形態と、ピクチャレートと、その他あらゆる種類の拡張を向上する実施形態では、インターレイヤ処理は、例えば上述のモーションブラー低減のようなベースピクチャの修正を含んでもよい。ピクチャレートと、その他あらゆる種類の拡張を向上する実施形態では、スケーラブルハイプロファイルのインターレイヤ処理は、リサンプリング、ビット深度拡張、および／またはカラーマッピング等のその他のインターレイヤ処理を含んでもよい。

〔外部インターレイヤ処理を行わず、２つのビットストリームを使用〕

符号化、復号に適用可能なある実施形態によると、符号化、復号されるビットストリームは以下の特徴を有する。
・第１のスケーラビリティレイヤが第１のビットストリーム内に存在し、第２のスケーラビリティレイヤが第１のビットストリームとは異なる第２のビットストリーム内に存在する。
・第３の拡張ピクチャが、第１および第２の拡張ピクチャよりも高い時間サブレイヤに存在する。

ビットストリームおよびビットストリームサブセットの符号化プロファイルに対するラベル付けは、以下のとおりにエンコーダにより示されるか、デコーダにより復号されてもよい。
・第１のビットストリーム（すなわち、第１のスケーラビリティレイヤ）に、ＨＥＶＣのメインプロファイルのような第１の符号化プロファイルをラベル付けしてもよい。
・第２のビットストリームは、外部基本レイヤを使用する（例えば、ＨＥＶＣのvps_base_layer_internal_flagが０である）ことを示してもよい。
・第１および第２の拡張ピクチャを含み、第３の拡張ピクチャを含まないビットストリームサブセットに、ＨＥＶＣのスケーラブルメインプロファイルのような（第１の符号化プロファイルとは異なる）第２の符号化プロファイルをラベル付けしてもよい。
・第２のビットストリーム、またはそれに等しい、第１、第２、および第３の拡張ピクチャを含むビットストリームサブセットに、（第１および第２の符号化プロファイルとは異なり）スケーラブルハイプロファイルと称する第３の符号化プロファイルをラベル付けしてもよい。

本実施形態は、
・第１のスケーラビリティレイヤのベースピクチャが修正されるようにピクチャレートを上げる、図１１に示す実施形態、
・ピクチャレートと、その他あらゆる種類の拡張を向上する、図１４に示す実施形態、
のような実施形態とともに実現されてもよい。

スケーラブルハイプロファイルのインターレイヤ処理は、（拡張ピクチャに対応する外部ベースピクチャ不在で実施されるピクチャレートのアップサンプリングに対する）第２のアルゴリズムを含む。インターレイヤ処理は、例えば上述のモーションブラー低減のようなベースピクチャの修正を含んでもよい。ピクチャレートと、その他あらゆる種類の拡張を向上する実施形態では、スケーラブルハイプロファイルのインターレイヤ処理は、リサンプリング、ビット深度拡張、および／またはカラーマッピング等のその他のインターレイヤ処理を含んでもよい。

〔外部インターレイヤ処理を実行し、２つのビットストリームを使用〕

符号化、復号に適用可能なある実施形態によると、符号化、復号されるビットストリームは以下の特徴を有する。
・第１スケーラビリティレイヤが第１のビットストリーム内に存在し、第２のスケーラビリティレイヤが第１のビットストリームとは異なる第２のビットストリーム内に存在する。
・第３の拡張ピクチャが、第１および第２の拡張ピクチャよりも高い時間サブレイヤに存在する可能性があるが、必ずしもそうでなくてもよい。

ピクチャレートのアップサンプリングと、いくつかの形態におけるベースピクチャの修正（例えば、モーションブラー低減のため）は、第１のビットストリームおよび第２のビットストリームの復号とは異なるインターレイヤ処理により実現される。

エンコーダ、ファイルジェネレータ、パケット化装置等は、第１および第２のビットストリームには含まれないが、第１および第２のビットストリームの一方または両方に関連した標示により、外部インターレイヤ処理が使用されることを示してもよい。同様に、デコーダ、ファイルパーサ、デパケット化装置等は、第１および第２のビットストリームには含まれないが、第１および第２のビットストリームの一方または両方に関連した標示により、外部インターレイヤ処理が使用されることを解析してもよい。当該標示は例えば、外部インターレイヤ処理が使用されることを示す、第１および第２のビットストリームを含むファイルの一部、ストリーミングマニフェスト（例えばＤＡＳＨのＭＰＤ）またはセッション記述（例えば、ＳＤＰを使用）のような記述の一部、および／または外部インターレイヤ処理が使用されるＲＴＰペイロードフォーマットのようなパケットフォーマットの一部であってもよい。前記標示は、さらに、使用されるインターレイヤ処理の種類、および／またはボケ除去フィルタのフィルタカーネル値のようなインターレイヤ処理の入力に使用されるパラメータ値を特定するものであってもよい。標示の解析に対して、デコーダ、ファイルパーサ、デパケット化装置等またはそれらの組合せは、示されたインターレイヤ処理を実行して、第３のスケーラビリティレイヤのピクチャを再構成してもよい（図６等の例示的図に示す）。

本実施形態は、
・第１のスケーラビリティレイヤのベースピクチャが拡張されないようにピクチャレートを上げる、図７および図８に示す実施形態、
・第１のスケーラビリティレイヤのベースピクチャが修正されるようにピクチャレートを上げる、図９および図１０に示す実施形態、
・ピクチャレートと、その他あらゆる種類の拡張を向上する、図１２および図１３に示す実施形態、
のような実施形態とともに実現されてもよい。

〔第１のスケーラビリティレイヤの第３のベースピクチャ〕

例えば、図６、７、８、９、１１、１２、１３、１４を参照して上述したように、インターレイヤ処理の第３のベースピクチャの再構成に関するいくつかの実施形態を上述した。これら実施形態は、第３のスケーラビリティレイヤが第３の（符号化）ベースピクチャを含む場合でも同様に実施できることが理解されよう。第３の（符号化）ベースピクチャは、例えば、ピクチャレートのアップサンプリングアルゴリズム用のパラメータ値を含んでもよく、第３の符号化ベースピクチャは第３の再構成ベースピクチャに対応する。図６、７、８、９、１１、１２、１３、１４の実施形態の組に対応する実施形態、およびそれらの組のうちのいずれかの実施形態が適用可能なその他実施形態は、第３のベースピクチャが第１のスケーラビリティレイヤの一部である場合に適用できることが理解されよう。第３のベースピクチャが第１および第２のベースピクチャよりも高位の時間サブレイヤに存在することが、エンコーダにより示され、および／またはデコーダにより復号されてもよい。第１のプロファイルが第１および第２のベースピクチャ（例えばそれらの時間サブレイヤ）を含むが、第３のベースピクチャを含まないビットストリームサブセットに適用されることが、エンコーダにより示され、デコーダにより復号されてもよい。また、第１のプロファイルとは異なる第２のプロファイルが、第１および第２のベースピクチャに加えて第３のベースピクチャを含むビットストリームサブセットに適用されることが、エンコーダにより示され、デコーダにより復号されてもよい。

〔スケーラブルベース符号化〕

ある実施形態によると、上述のメカニズムは、ピクチャレートおよびその他の種類の拡張の向上に使用される。その他の種類の拡張としては、信号対ノイズ（すなわち、画質、画像忠実度）拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、および／または色域の拡大が挙げられる。ピクチャレートのアップサンプリング以外の拡張は、ピクチャレートのアップサンプリング前に実行される。ＳＨＶＣのようなスケーラブル符号化を前記拡張に利用してもよい。言い換えると、予測レイヤにより、例えばＳＮＲ、解像度、サンプルビット深度、ダイナミックレンジ、および／または色域について基本レイヤが拡張されるように、ビットストリームを符号化または復号してもよい。

本実施形態は、
・第１のスケーラビリティレイヤのベースピクチャが拡張されないようにピクチャレートを上げる、図７および図８に示す実施形態、
・第１のスケーラビリティレイヤのベースピクチャが修正されるようにピクチャレートを上げる、図９、図１０、図１１に示す実施形態、
のような実施形態とともに実現されてもよい。

これらの実現について本実施形態に応じて解釈すると、再構成ベースピクチャは予測レイヤの再構成ピクチャとして解され、符号化ベースピクチャは、基本レイヤのピクチャと、予測レイヤの対応するピクチャの両方を含むものと解される。なお、本実施形態は単一の予測レイヤに限定されるものではなく、複数の予測レイヤが同様に使用可能であることが理解されよう。

〔スケーラビリティレイヤとしてのピクチャレートのアップサンプリング〕

ある実施形態によると、ピクチャレートのアップサンプリングや、いくつかの形態ではベースピクチャの修正（例えばモーションブラー低減）は、図１５に示すような第３のスケーラビリティレイヤとして表される。例えば、第３のスケーラビリティレイヤ１５０２の符号化ピクチャは、ピクチャレートのアップサンプリングまたはベースピクチャの修正用のパラメータ値を含む。ある実施形態によると、修正された第１および第２のベースピクチャ１５０２ａ、１５０２ｃは、第３のスケーラビリティレイヤのスキップ符号化ピクチャとして符号化される。別の実施形態では、修正された第１および第２のベースピクチャ１５０２ａ、１５０２ｃは、（例えばモーションブラー低減のため）符号化される。ある実施形態によると、第１および第２の拡張ピクチャ１５０４ａ、１５０４ｃは、第２のスケーラビリティレイヤのスキップ符号化ピクチャとして符号化される。別の実施形態では、第１および第２の拡張ピクチャ１５０４ａ、１５０４ｃは、（例えばモーションブラー低減のため）符号化される。

ある実施形態によると、第３のスケーラビリティレイヤ１５０２は、第１のスケーラビリティレイヤ１５００と同じビットストリーム内に存在する。別の実施形態では、第３のスケーラビリティレイヤ１５０２は、第１のスケーラビリティレイヤ１５００とは異なるビットストリーム内に存在する。この場合、第１のスケーラビリティレイヤは第３のスケーラビリティレイヤの外部基本レイヤとして機能する。

ある実施形態によると、第２のスケーラビリティレイヤ１５０４は、第３のスケーラビリティレイヤ１５０２と同じビットストリーム内に存在する。別の実施形態では、第２のスケーラビリティレイヤ１５０４は、第３のスケーラビリティレイヤ１５０２とは異なるビットストリーム内に存在する。この場合、第３のスケーラビリティレイヤは第２のスケーラビリティレイヤの外部基本レイヤとして機能する。

上述の各実施形態は、以下の状態の１つとなるように、任意で組み合わせることができる。
・第１、第２、および第３のスケーラビリティレイヤが同一のビットストリーム内に存在する。
・第１のスケーラビリティレイヤが第１のビットストリーム内に存在し、第２および第３のスケーラビリティレイヤが第１のビットストリームとは異なる第２のビットストリーム内に存在する。
・第１および第３のスケーラビリティレイヤが第１のビットストリーム内に存在し、第２のスケーラビリティレイヤが第１のビットストリームとは異なる第２のビットストリーム内に存在する。

ある実施形態によると、スケーラビリティレイヤの符号化プロファイルに対するラベル付けは、以下のとおりにエンコーダにより示されるか、デコーダにより復号されてもよい。
・第１のスケーラビリティレイヤに、ＨＥＶＣのメインプロファイルのような第１の符号化プロファイルがラベル付けされてもよい。
・第２のスケーラビリティレイヤに、ＨＥＶＣのスケーラブルメインプロファイルのような第２の符号化プロファイルがラベル付けされてもよい。
・第３のスケーラビリティレイヤに、ここではピクチャレート拡張プロファイルと称される、（第１および第２の符号化プロファイルとは異なる）第３の符号化プロファイルがラベル付けされてもよい。

ある実施形態によると、第３のベースピクチャは第１および第２の修正ベースピクチャよりも高位のサブレイヤに存在する。ビットストリームサブセットレイヤの符号化プロファイルに対するラベル付けは、以下のとおりにエンコーダにより示されるか、デコーダにより復号されてもよい。
・第１のスケーラビリティレイヤに、ＨＥＶＣのメインプロファイルのような第１の符号化プロファイルがラベル付けされてもよい。
・第２のスケーラビリティレイヤに、ＨＥＶＣのスケーラブルメインプロファイルのような第２の符号化プロファイルがラベル付けされてもよい。
・第１および第２の修正ベースピクチャを含み（第１のスケーラビリティレイヤ、第２のスケーラビリティレイヤ、第３のベースピクチャを含まない）ビットストリームサブセットに、例えばインターレイヤボケ除去が適用されない場合はＨＥＶＣのスケーラブルメインプロファイル等の第２の符号化プロファイルがラベル付けされ、例えばインターレイヤボケ除去が適用される場合は、ここでは「アドバンストスケーラブルメインプロファイル」と称する第３の符号化プロファイルがラベル付けされてもよい。
・第３のスケーラビリティレイヤ（修正第１および第２のベースピクチャおよび第３のベースピクチャを含む）は、ここでは「スケーラブルピクチャレート拡張プロファイル」と称する、（第１および第２の符号化プロファイルとも、使用される場合は第３の符号化プロファイルとも異なる）第４の符号化プロファイルがラベル付けされてもよい。

ある実施形態によると、デコーダは、異なるレイヤとサブレイヤの組合せに関連したプロファイル標示を復号する。デコーダは、復号で対応するプロファイルと、レイヤとサブレイヤとの依存関係に基づき、どのレイヤおよびサブレイヤを復号するかを判定する。

ある実施形態によると、プロファイルが、独立レイヤ（最下サブレイヤから、任意の特定のサブレイヤまで）のサブレイヤ群に関連する場合、デコーダは復号のプロファイルに対応する場合はそれらサブレイヤを復号すると判定する。プロファイルが、予測レイヤ（最下サブレイヤから、任意の特定のサブレイヤまで）のサブレイヤ群に関連する場合、デコーダは復号のプロファイルに対応し、予測レイヤのサブレイヤ群のインターレイヤ予測の参照として直接または間接的に使用されうるレイヤおよびサブレイヤのプロファイルに対応する場合は、それらサブレイヤを復号すると判定する。

ある実施形態によると、プロファイルが独立レイヤ（すべてのサブレイヤを含む全体）に関連する場合、デコーダは復号のプロファイルに対応する場合、その独立レイヤを復号すると判定する。プロファイルが、予測レイヤに関連する場合、デコーダは復号のプロファイルに対応し、予測レイヤのインターレイヤ予測の参照として直接または間接的に使用されうるレイヤおよびサブレイヤのプロファイルに対応する場合は、その予測レイヤを復号すると判定する。

いくつかの実施形態で上述したとおり、異なるビットストリームサブセットにラベル付けをして、異なる符号化仕様および／またはそのプロファイルに対応するようにしてもよい。コンテナファイル（複数可）および／または送信もそれに応じて構成し、ビットストリームサブセットのすべてではなく一部を復号可能な受信機が、（コンテナファイルおよび／または通信プロトコル（いずれも複数可）から）受信するおよび／またはデカプセル化されるビットストリームサブセットを選択可能とすることができる。例えば、直接および間接参照レイヤのプロファイルから異なるプロファイルを使用させる異なる論理チャネルを、各レイヤまたは各サブレイヤに使用してもよい。論理チャネルのコンテンツの復号に必要なプロファイルは、例えばストリーミングマニフェスト（例えば、ＭＰＥＧ−ＤＡＳＨのＭＰＤ）またはセッション記述（例えば、ＳＤＰを使用）により、シグナリングされてもよい。これにより、異なるプロファイルを復号できる複数の受信機に対して、同一のビットストリームが使用でき、受信機が使用に合わせて適切なビットストリームサブセットを選択できるという利点が得られる。例えば、ビットストリームは、１つ以上のＩＳＯ型メディアファイルフォーマット対応ファイルまたはセグメント（ＭＰＥＧ−ＤＡＳＨ配信用）のいくつかのトラックに含まれてもよい。各トラックは、異なるプロファイルに対応する。このように構成された各トラックは、ＭＰＥＧ−ＤＡＳＨのＭＰＤ（等）の表現として通知できる。その後、ストリーミングクライアントがそのプロファイル復号性能に合わせて、どの表現（等）が要求され、これにより受信、復号されるかを選択する。

〔ピクチャレートのアップサンプリング方法〕

上述の方法は、概して、第１および第２のベースピクチャ間の動きを推定し、第１および第２の再構成ベースピクチャの動き補償を組み合わせることに基づく。したがって、ピクチャレートのアップサンプリング方法は、動きベクトルのような第１のスケーラビリティレイヤの符号化データを利用してもよい。さらに、ピクチャレートのアップサンプリング方法を調整するための、さらなるデータを符号化、復号してもよい。

一例として、第１および第２の再構成ベースピクチャを、エンコーダおよび／またはデコーダにおいて２つ以上のセグメントに分割してもよい。例えば、前景セグメントが第１および第２の再構成ベースピクチャから判断され、背景セグメントが前景セグメント外の領域からなるものと判断されてもよい。例えば、最初にピクチャを同様の色表現を持つスーパーピクセルごとに分割してもよい。次に、同様の動きベクトルを持つスーパーピクセルを併合してもよい。さらに、デコーダが復号可能なビットストリームのパラメータを含むことで、エンコーダにより分割が促進されてもよい。動きヒントとも称される動きパラメータは、セグメントごとにエンコーダにより示されてもよく、デコーダにより復号されてもよい。例えば、動きパラメータは、第１の再構成ベースピクチャのセグメントの、第２の再構成ベースピクチャにおける対応するセグメントに対するアフィン歪みを示してもよい。または、動きパラメータは、第１の再構成ベースピクチャのセグメントの、第３のベースピクチャにおける対応するセグメントに対するアフィン歪み、および／または第２の再構成ベースピクチャのセグメントの、第３のベースピクチャにおける対応するセグメントに対するアフィン歪みを記述するものであってもよい。さらに、ブロック単位の動きパラメータフィールドを、例えば離散コサイン変換等を利用して変換し、量子化してもよい。

上記例示的実施形態は、第３のベースピクチャ全体の再構成に基づいて説明した。エンコーダおよび／またはデコーダが、ブロック単位で実現可能であることが理解されよう。第３のベースピクチャは、全体的に再構成される必要はなく、第３の拡張ピクチャのインターレイヤ予測の参照に用いられる部分だけ再構成されてもよい。各ブロックに対して、当該ブロックの予測に用いられる参照ピクチャが最初にビットストリームから復号されるように、第３の拡張ピクチャ用のデコーダを実現してもよい。参照ピクチャがインターレイヤ参照ピクチャであれば、少なくとも復号されるブロックに関連するブロックを網羅した第３の再構成ベースピクチャのサブセットを形成するように、第２のアルゴリズムが適用される。その後、第３のベースピクチャの関連するブロックが、インターレイヤ予測の参照に用いられる。その他の場合（参照ピクチャがインターレイヤ参照ピクチャではない場合）には、例えばＳＨＶＣの従来の復号処理を使用できる。

上記例示的実施形態は、出力順が連続した２つの再構成ベースピクチャを入力として、出力順で当該連続した２つのベースピクチャ間に第３のベースピクチャを補間するピクチャレートのアップサンプリングに基づいて説明した。さらに／あるいは、上述のあらゆる実施形態は、以下の状況に適用できることが理解されよう。
・第２のアルゴリズムにより、２つの連続した再構成ベースピクチャの出力順で前または後に、第３のベースピクチャを外挿する。
・第２のアルゴリズムの入力として、３つ以上の再構成ベースピクチャを使用する。
・出力順が連続していない再構成ベースピクチャを、第２のアルゴリズムの入力として使用する。
・実施形態で第３のベースピクチャと記載される場合に、さらに追加で複数のベースピクチャが実現されてもよい。例えば、第２のアルゴリズムにより、出力順で第１のベースピクチャと第２のベースピクチャとの間に、２つのベースピクチャが生成されてもよい。

上述の実施形態は、様々な利点を有する。ピクチャレートのアップサンプリングの動き補償予測が、多スケーラビリティレイヤおよび（ビットストリームの一部としての）ピクチャレートのアップサンプリングのパラメータのオーバヘッドを確実に解消することで、少なくともＨＥＶＣのインター予測よりも優位となるように、改良される。

さらに、既存の形態（例えば、ＨＥＶＣ、ＳＨＶＣ）も直接利用可能である。追加的な部分はインターレイヤ処理として実現されるため、低レベルの符号化または復号処理には変更を加える必要がない。従来、インター予測用の追加の動きモデルや追加のインター予測モードを導入する場合には、低レベルの符号化および復号処理に変更が必要であった。したがって、本発明は、従来の教示と比較して、より素直に既存のコーデック形態に追加できよう。

さらに上述の実施形態は、復号された基本レイヤピクチャをインターレイヤ予測の入力とした、エンコーダまたはデコーダに対する時間スケーラビリティに対するハイブリッドコーデックスケーラビリティを実現可能とする。例えば、基本レイヤはピクチャレート３０Ｈｚで、Ｈ．２６４／ＡＶＣにより符号化されてもよく、拡張レイヤはピクチャレート１２０ＨｚでＳＨＶＣにより符号化されてもよい。基本レイヤの復号されたピクチャは、ピクチャレートのアップサンプリングの入力に使用され、得られたピクチャはＳＨＶＣ符号化／復号用の外部基本レイヤピクチャに使用される。

さらに、本発明に係るビットストリームは、既存のコーデックに対応する。言い換えると、ビットストリームのサブセットが、向上したピクチャレートに関連する符号化データを省略することも可能な、既存のデコーダ（例えば、ＨＥＶＣ）で復号できることが示される。

上述のように、本明細書に記載の実施形態は、符号化および復号動作のいずれにも等しく適用可能である。図１６は、本発明の各実施形態の利用に適したビデオデコーダのブロック図を示す。図１６は、２レイヤのデコーダ構造を示すが、説明される復号動作は単一レイヤのデコーダにも同様に適用できることが理解されよう。

ビデオデコーダ５５０は、ベースビュー成分用の第１のデコーダ部５５２と、非ベースビュー成分用の第２のデコーダ部５５４とを有する。ブロック５５６は、ベースビュー成分に関する情報を第１のデコーダ部５５２に伝達し、非ベースビュー成分に関する情報を第２のデコーダ部５５４に伝達するデマルチプレクサを示す。参照符号Ｐ'ｎは、画像ブロックの予測された表現を示す。参照符号Ｄ'ｎは、再構成予測誤差信号を示す。ブロック７０４、８０４は、予備再構成画像（Ｉ'ｎ）を示す。参照符号Ｒ'ｎは、最終再構成画像を示す。ブロック７０３、８０３は、逆変換（Ｔ^−１）を示す。ブロック７０２、８０２、は逆量子化を示す（Ｑ^−１）を示す。ブロック７０１、８０１、はエントロピー復号（Ｅ^−１）を示す。ブロック７０５、８０５は、参照フレームメモリ（ＲＦＭ）を示す。ブロック７０６、８０６は、予測（Ｐ）（インター予測またはイントラ予測）を示す。ブロック７０７、８０７は、フィルタリング（Ｆ）を示す。ブロック７０８、８０８は、復号予測誤差情報と予測されたベースビュー／非ベースビュー成分を組み合わせて予備再構成画像（Ｉ'ｎ）を得るために使用されるものであってもよい。予備再構成およびフィルタリング済みベースビュー画像は、第１のデコーダ部５５２から出力７０９されてもよく、予備再構成およびフィルタリング済みベースビュー画像は第１のデコーダ部５５４から出力８０９されてもよい。

ここで、デコーダは復号動作を実行可能な任意の動作単位を網羅するものと解されるべきであり、その例として、プレーヤ、受信機、ゲートウェイ、デマルチプレクサおよび／またはデコーダが挙げられる。

図１７は、各種実施形態が実現可能な例示的マルチメディア通信システムを示す図である。データソース１７００は、ソース信号を提供する。当該信号は、アナログフォーマット、非圧縮デジタルフォーマット、圧縮デジタルフォーマット、あるいはこれらの組合せであってもよい。エンコーダ１７１０は、データフォーマット変換やソース信号フィルタリングのような前処理を含んでもよく、または当該処理に接続されていてもよい。エンコーダ１７１０はソース信号を符号化して符号化メディアビットストリームを得る。復号されるビットストリームは、実質的に任意の種類のネットワークに存在しうるリモート装置から直接的または間接的に受信されてもよい。ビットストリームは、ローカルハードウェアまたはソフトウェアから受信されてもよい。エンコーダ１７１０は、１以上の媒体の種類（音声、動画等）を符号化可能であってもよい。あるいは、２以上のエンコーダ１７１０に、異なる媒体の種類のソース信号を符号化することが求められてもよい。エンコーダ１７１０はさらに、グラフィックやテキスト等、合成して生成された入力を取得してもよく、あるいは合成メディアの符号化ビットストリームを生成可能であってもよい。以下では、簡潔に説明するため、１種類のみの媒体の１つの符号化メディアビットストリームに対する処理を検討する。ただし、通常ではリアルタイムブロードキャストサービスは複数のストリームを含む（通常、少なくとも１つの音声、動画、テキスト字幕付きストリーム）。さらに、システムが多数のエンコーダを含みうるが、一般性を損なわない範囲で簡潔に説明するために単一のエンコーダ１７１０のみが図示されていることを理解されたい。また本明細書での記載や例示は符号化処理を具体的に表しているが、同じ概念、原理を対応する復号処理に適用したり、その逆の運用をしたりすることがあってもよいことが当業者には理解されよう。

符号化メディアビットストリームは、ストレージ１７２０に送信されてもよい。ストレージ１７２０は、符号化メディアビットストリームを格納する任意の種類のマスメモリを含んでもよい。ストレージ１７２０における符号化メディアビットストリームのフォーマットは、基本自立型ビットストリームフォーマット（elementary self-contained bitstream format）であってもよく、１つ以上の符号化メディアビットストリームが１つのコンテナファイルにカプセル化されてもよい。１つ以上のメディアビットストリームが１つのコンテナファイルにカプセル化される場合、ファイル作成機（図示せず）を使用して１以上のメディアビットストリームをファイルに保存し、ファイルフォーマットメタデータを生成してもよい。このデータもファイルに保存してもよい。エンコーダ１７１０またはストレージ１７２０がファイル作成機を有してもよく、あるいはファイル作成機がエンコーダ１７１０またはストレージ１７２０に対して動作可能に取り付けられてもよい。システムによっては「ライブ」で動作するものもある。すなわち、ストレージを省き、エンコーダ１７１０からの符号化メディアビットストリームを直接、送信機１７３０に伝送する。符号化メディアビットストリームはその後、必要に応じて、サーバとも呼ばれる送信機１７３０に送られてもよい。伝送に利用されるフォーマットは、基本自立型ビットストリームフォーマット、パケットストリームフォーマット、または１つ以上の符号化メディアビットストリームをコンテナファイルにカプセル化したものであってもよい。エンコーダ１７１０、ストレージ１７２０、送信機１７３０は同一の物理的デバイスに設けられても、別々のデバイスに設けられてもよい。エンコーダ１７１０および送信機１７３０は、ライブのリアルタイムコンテンツを扱ってもよい。その場合、符号化メディアビットストリームは通常、永久に記憶されることはなく、コンテンツエンコーダ１７１０および／または送信機１７３０に短期間保存され、処理遅延、送信遅延、符号化媒体ビットレートの変動の平滑化が図られる。

送信機１７３０は、通信プロトコルスタックを用いて符号化メディアビットストリームを送信する。このスタックにはリアルタイムトランスポートプロトコル（ＲＴＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキストトランスファープロトコル（ＨＴＴＰ）、トランスミッションコントロールプロトコル（ＴＣＰ）、およびインターネットプロトコル（ＩＰ）の１つまたは複数を含んでもよいが、これらに限定されるものではない。送信機は、パケット化装置（図示せず）を備えてもよく、または動作可能であるように当該装置に取り付けられてもよい。通信プロトコルスタックがパケット指向の場合、送信機１７３０またはパケット化装置は、符号化メディアビットストリームをパケットへとカプセル化する。例えば、ＲＴＰが用いられる場合、送信機１７３０またはパケット化装置は、ＲＴＰペイロードフォーマットに従って符号化メディアビットストリームをＲＴＰパケットへとカプセル化する。各媒体の種類は、通常、専用のＲＴＰペイロードフォーマットを有する。システムには２つ以上の送信機１７３０が含まれうるが、説明を単純にするため、以下の説明では１つの送信機１７３０のみを示す。同様に、システムに２つ以上のパケット化装置を含んでもよい。

ストレージ１７２０または送信機１７３０へのデータ入力のためにメディアコンテンツがコンテナファイルにカプセル化される場合、送信機１７３０は、「送信ファイルパーサ」（図示せず）を備えてもよく、または動作可能であるように当該装置に取り付けられてもよい。特に、コンテナファイルがそのように伝送されず、含められた符号化メディアビットストリームの少なくとも１つが通信プロトコルを介して伝送用にカプセル化される場合、送信ファイルパーサは、符号化メディアビットストリームの通信プロトコルを介して運ばれるのに適した部分を配置する。送信ファイルパーサは、パケットヘッダやペイロード等、通信プロトコル用の正しいフォーマットの作成を支援してもよい。マルチメディアコンテナファイルには、通信プロトコルで含められたメディアビットストリームの少なくとも１つをカプセル化するために、ＩＳＯベースメディアファイルフォーマットのヒントトラックのようなカプセル化指示が含まれてもよい。

送信機１７３０は、通信ネットワークを通じてゲートウェイ１７４０に接続されてもよく、そうでなくてもよい。これに加えて、またはこれに代えて、ゲートウェイはミドルボックスと呼ばれてもよい。システムは一般的に任意の数のゲートウェイや同様の装置を含んでもよいが、説明を単純にするため、以下の説明では１つのゲートウェイ１７４０のみを示す。ゲートウェイ１７４０は、各種機能を実行してもよい。こうした機能には、ある通信プロトコルスタックに従うパケットストリームを別の通信プロトコルスタックに従うものに変換することや、データストリームのマージおよびフォーク、ダウンリンクおよび／または受信機の容量に応じたデータストリームの操作等がある。データストリームの操作とは、例えば現在のダウンリンクネットワーク条件に応じた転送ストリームのビットレートの制御等である。ゲートウェイ１７４０の例としては、マルチポイント会議制御単位（Multipoint Conference Control Unit：MＣＵ）、テレビ電話の回路交換・パケット交換間ゲートウェイ、ＰｏＣ（Push-to-talk over Cellular）サーバ、ＤＶＢ−Ｈ（Digital Video Broadcasting-Handheld）システムでのＩＰエンキャプスレータ、ブロードキャスト伝送をローカルで家庭の無線ネットワークに転送するセットトップボックスやその他の装置が挙げられる。ゲートウェイ１７４０は、ＲＴＰが用いられる場合はＲＴＰ混合器またはＲＴＰ変換器とも呼ばれ、ＲＴＰ接続の終点として動作してもよい。ゲートウェイ１７４０に代えて、または加えて、システムにはビデオシーケンスまたはビットストリームを連結させるスプライサが含まれてもよい。

システムは１つ以上の受信機１７５０を備える。受信機１７５０は通常、送信信号を受信して復調し、符号化メディアビットストリームにデカプセル化（de-capsulating）することができる。受信機１７５０は、デパケット化装置を備えてもよく、または動作可能であるように当該装置に取り付けられてもよい。デパケット化装置は、使用中の通信プロトコルのパケットペイロードから、メディアデータをデカプセル化する。符号化メディアビットストリームは、記憶ストレージ１７６０に送られてもよい。記憶ストレージ１７６０は、符号化メディアビットストリームを格納する任意の種類の大容量メモリを備えてもよい。これに代えて、またはこれに加えて、記憶ストレージ１７６０は、ランダムアクセスメモリ等の計算メモリを備えてもよい。記憶ストレージ１７６０における符号化メディアビットストリームのフォーマットは、基本自立型ビットストリームフォーマットであってもよく、１つ以上の符号化メディアビットストリームが１つのコンテナファイルにカプセル化されてもよい。音声ストリームと動画ストリームといった複数の符号化メディアビットストリームが互いに関連し合って存在する場合、通常コンテナファイルが使用され、受信機１７５０は、入力ストリームからコンテナファイルを生成するコンテナファイル生成器を備えるか、それに取り付けられる。システムによっては「ライブ」で動作するものもある。すなわち、記憶ストレージ１７６０を省き、受信機１７５０からの符号化メディアビットストリームを直接デコーダ１７７０に伝送する。システムによっては、記録済みストリームの直近１０分間の抜粋のような記録済みストリームの最新部分が記憶ストレージ１７６０に保持され、それ以前に記録されたデータが記憶ストレージ１７６０から削除される。

符号化メディアビットストリームは、記憶ストレージ１７６０からデコーダ１７７０に送られてもよい。音声ストリームと動画ストリームといった多数の符号化メディアビットストリームが関連し合って存在し、コンテナファイルにカプセル化される場合、または１つのメディアビットストリームがコンテナファイルにカプセル化される場合（例えばアクセスを容易にするため）、このコンテナファイルから各符号化メディアビットストリームをデカプセル化するためにファイルパーサ（図示せず）が使用される。記憶ストレージ１７６０またはデコーダ１７７０はファイルパーサを備えてもよく、または記憶ストレージ１７６０かデコーダ１７７０のいずれかにファイルパーサが取り付けられていてもよい。システムは多数のデコーダを備えてもよいが、普遍性を欠くことなく説明を単純にするために、本明細書では１つのデコーダ１７７０のみを示す。

符号化メディアビットストリームはデコーダ１７７０によってさらに処理され、このデコーダの出力が１つ以上の非圧縮メディアストリームでもよい。最後に、レンダラ１７８０は、非圧縮メディアストリームを例えばラウドスピーカやディスプレイに再生してもよい。受信機１７５０、記憶ストレージ１７６０、デコーダ１７７０、およびレンダラ１７８０は、同一の物理的デバイスに設けられても、別々のデバイスに設けられてもよい。

上述の例示的実施形態がエンコーダを参照して説明されている点に関し、結果として得られるビットストリームとデコーダも対応する要素を備えうることも理解されるべきである。同様に、例示的実施形態がデコーダを参照して説明されている点に関し、デコーダによって復号されるビットストリームを生成する構造および／またはコンピュータプログラムをエンコーダが備えうることも理解されるべきである。

前述された本発明の実施形態では、装置が関与する処理に対する理解を促すため、別々のエンコーダ装置とデコーダ装置に関するコーデックを説明しているが、こうした装置やその構造、動作が単一のエンコーダ・デコーダ装置／構造／動作として実装されうることも理解されよう。さらに、コーダとデコーダが共通要素の一部または全部を共有してもよい。

前述の例では、電子デバイス内のコーデックにおいて動作する本発明の実施形態について説明しているが、請求項に定義している発明は、任意のビデオコーデックの一部として実装されうることを理解されたい。したがって、例えば、本発明の実施形態は、固定または有線通信経路を介してビデオの符号化を実施しうるビデオコーデックに実装されてもよい。

ユーザ端末が本発明の上述の各実施形態に記載されたようなビデオコーデックを備えてもよい。「ユーザ端末」という用語には、携帯電話、携帯型データ処理装置、または携帯型Ｗｅｂブラウザ等の任意の好適な種類の無線ユーザ端末を含むことが意図されている。

地上波公共移動通信ネットワーク（Public Land Mobile Network：ＰＬＭＮ）が、追加の要素として上述のビデオコーデックを含んでもよい。

本発明の種々の実施形態は、概して、ハードウェア、特定用途向け回路、ソフトウェア、論理回路、またはそれらの任意の組合せで実装されてもよい。例えば、一部の態様がハードウェアで実装され、他の態様がコントローラ、マイクロプロセッサ、またはその他のコンピュータデバイスによって実行されうるファームウェアやソフトウェアで実装されてもよいが、本発明はこれに限定されない。本発明の種々の態様はブロック図、フローチャート、または他の図的表現によって図示および説明されるが、本明細書に記載するこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路や論理回路、汎用のハードウェア、コントローラ、その他のコンピュータデバイス、またはそれらの組合せとして実装されてもよいと理解されるべきである。

本発明の実施形態は、プロセッサエンティティ内等に設けられる携帯装置のデータプロセッサによって実行可能な、あるいはハードウェア、またはソフトウェアおよびハードウェアの組合せによって実行可能な、コンピュータソフトウェアによって実装されてもよい。この点について、図中の論理フローのいずれのブロックも、プログラムのステップ、または相互接続された論理回路、ブロック、機能、またはプログラムステップ、論理回路、ブロック、および機能の組合せを表していてもよいことが理解されよう。上記ソフトウェアは、メモリチップ、プロセッサ内に実装されたメモリブロック、ハードディスクやフロッピーディスク等の磁気媒体、例えばＤＶＤやそのデータ変種、ＣＤ等の光学媒体等の物理的媒体に格納されてもよい。

前記メモリはローカルの技術環境に適した任意の種類のものであってもよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび着脱式メモリ等の任意の好適なデータ格納技術を用いて実装されてもよい。前記データプロセッサはローカルの技術環境に適した任意の種類のものであってもよく、この例として１つ以上の汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、およびマルチコアプロセッサアーキテクチャによるプロセッサが挙げられるが、これらに限定されるものではない。

本発明の実施形態は、集積回路モジュールのような、様々な要素で実施することもできる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチングおよび形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのＳｙｎｏｐｓｙｓ，Ｉｎｃ．や、カリフォルニア州サンノゼのＣａｄｅｎｃｅＤｅｓｉｇｎのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を自動的に配する。半導体回路の設計が完了すると、その設計は、ＯｐｕｓやＧＤＳＩＩ等の標準的な電子フォーマットで半導体製造設備、いわゆるｆａｂに送られて製造されてもよい。

前述の説明は、非限定的な例によって、本発明の例示的な実施形態を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の変更および適応が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項のすべておよび同様の変形は、そのすべてが請求項の範囲内にある。

Claims

少なくとも第１の符号化ベースピクチャおよび第２の符号化ベースピクチャを含み、第１のアルゴリズムを用いて復号可能である第１のスケーラビリティレイヤを符号化することと、
前記第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに再構成することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
少なくとも第１の符号化拡張ピクチャ、第２の符号化拡張ピクチャ、および第３の符号化拡張ピクチャを含み、再構成ピクチャを入力とするインターレイヤ予測を含む第３のアルゴリズムを用いて復号可能である第２のスケーラビリティレイヤを符号化することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、前記第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに再構成することと、
を含み、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致する、
方法。
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示すことと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示すことと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示すことと、
をさらに含み、前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものである、請求項１に記載の方法。
前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げ、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されるように前記第２のスケーラビリティレイヤを符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが符号化されないように前記第２のスケーラビリティレイヤを符号化すること、
のうちの少なくとも１つをさらに含む、請求項１に記載の方法。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正することと、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
のうちの少なくとも１つをさらに含む、請求項１に記載の方法。
前記ピクチャレートを上げ、少なくとも１種類の拡張を前記第１のスケーラビリティレイヤの前記ベースピクチャに適用し、前記拡張は、信号対ノイズ拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、または色域の拡大のうちの少なくとも１つを含む、請求項１に記載の方法。
少なくとも１つのプロセッサおよび少なくとも１つのメモリを含む装置であって、前記少なくとも１つのメモリにはコードが格納され、該コードが前記少なくとも１つのプロセッサによって実行されると、前記装置に対して少なくとも、
少なくとも第１の符号化ベースピクチャおよび第２の符号化ベースピクチャを含み、第１のアルゴリズムを用いて復号可能である第１のスケーラビリティレイヤを符号化することと、
前記第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに再構成することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
少なくとも第１の符号化拡張ピクチャ、第２の符号化拡張ピクチャ、および第３の符号化拡張ピクチャを含み、再構成ピクチャを入力とするインターレイヤ予測を含む第３のアルゴリズムを用いて復号可能である第２のスケーラビリティレイヤを符号化することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、前記第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに再構成することと、
を実行させ、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致する、
装置。
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示すことと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示すことと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示すことと、
のうちの少なくとも１つを前記装置に実行させるコードをさらに含み、前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものである、請求項６に記載の装置。
前記装置は、前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げるように構成され、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されるように前記第２のスケーラビリティレイヤを符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが符号化されないように前記第２のスケーラビリティレイヤを符号化することと、
のうちの少なくとも１つを前記装置に実行させるコードをさらに含む、請求項６に記載の装置。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正することと、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
のうちの少なくとも１つを前記装置に実行させるコードをさらに含む、請求項６に記載の装置。
前記ピクチャレートを上げ、少なくとも１種類の拡張を前記第１のスケーラビリティレイヤの前記ベースピクチャに適用し、前記拡張は、信号対ノイズ拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、または色域の拡大のうちの少なくとも１つを含む、請求項６に記載の装置。
第１のアルゴリズムを用いて、第１のスケーラビリティレイヤに含まれる第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに復号することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、第３のアルゴリズムを用いて、第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに復号することと、
を含み、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第３のアルゴリズムは再構成ピクチャを入力とするインターレイヤ予測を含み、前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致し、前記第１、第２、および第３の符号化拡張ピクチャは第２のスケーラビリティレイヤに含まれる、
方法。
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示す第１の標示を復号することと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示す第２の標示を復号することと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示す第３の標示を復号することと、
をさらに含み、
前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものであり、
前記第１および第２の符号化ベースピクチャの前記復号の判定を、前記第１のプロファイルに対応している復号か否かに基づいて行うことと、
前記第３の再構成ベースピクチャの前記再構成の判定を、前記第２のプロファイルに対応している再構成か否か、および前記第１のプロファイルに対応している復号か否かに基づいて行うことと、
前記第１および第２の符号化拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否かに基づいて行うことと、
前記第３の拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否か、前記第２のプロファイルに対応している再構成か否かに基づいて行うことと、
をさらに含む、請求項１１に記載の方法。
前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げ、更に、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されることを示す前記第２のスケーラビリティレイヤに関連する標示を符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが復号されないように前記第２のスケーラビリティレイヤを復号すること、
のうちの少なくとも１つをさらに含む、請求項１１に記載の方法。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正することと、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
のうちの少なくとも１つをさらに含む、請求項１１に記載の方法。
前記ピクチャレートを上げ、少なくとも１種類の拡張を前記第１のスケーラビリティレイヤの前記ベースピクチャに適用し、前記拡張は、信号対ノイズ拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、または色域の拡大のうちの少なくとも１つを含む、請求項１１に記載の方法。
少なくとも１つのプロセッサおよび少なくとも１つのメモリを含む装置であって、前記少なくとも１つのメモリにはコードが格納され、該コードが前記少なくとも１つのプロセッサによって実行されると、前記装置に対して少なくとも、
第１のアルゴリズムを用いて、第１のスケーラビリティレイヤに含まれる第１および第２の符号化ベースピクチャをそれぞれ第１および第２の再構成ベースピクチャに復号することと、
少なくとも前記第１および第２の再構成ベースピクチャから第２のアルゴリズムを用いて第３の再構成ベースピクチャを再構成することと、
前記第１、第２、および第３の再構成ベースピクチャをそれぞれインターレイヤ予測の入力とすることによって、第３のアルゴリズムを用いて、第１、第２、および第３の符号化拡張ピクチャをそれぞれ第１、第２、および第３の再構成拡張ピクチャに復号することと、
を実行させ、
前記第１の再構成ベースピクチャおよび前記第２の再構成ベースピクチャは、前記第１のスケーラビリティレイヤのすべての再構成ピクチャの中で、前記第１のアルゴリズムの出力順で連続しており、
前記第３の再構成ベースピクチャは、出力順で前記第１の再構成ベースピクチャと前記第２の再構成ベースピクチャとの間にあり、
前記第３のアルゴリズムは再構成ピクチャを入力とするインターレイヤ予測を含み、前記第１、第２、および第３の再構成拡張ピクチャは、前記第１のアルゴリズムの出力順でそれぞれ前記第１、第２、および第３の再構成ベースピクチャと一致し、前記第１、第２、および第３の符号化拡張ピクチャは第２のスケーラビリティレイヤに含まれる、
装置。
前記第１の符号化ベースピクチャおよび前記第２の符号化ベースピクチャは第１のプロファイルに準拠することを示す第１の標示を復号することと、
前記第３の再構成ベースピクチャを再構成するために必要な第２のプロファイルを示す第２の標示を復号することと、
前記第１の符号化拡張ピクチャ、前記第２の符号化拡張ピクチャ、および前記第３の符号化拡張ピクチャは第３のプロファイルに準拠することを示す第３の標示を復号することと、
を前記装置に実行させるコードをさらに含み、
前記第１のプロファイル、前記第２のプロファイル、および前記第３のプロファイルは互いに異なり、前記第１のプロファイルは前記第１のアルゴリズムを示すものであり、前記第２のプロファイルは前記第２のアルゴリズムを示すものであり、前記第３のプロファイルは前記第３のアルゴリズムを示すものであり、
前記第１および第２の符号化ベースピクチャの前記復号の判定を、前記第１のプロファイルに対応している復号か否かに基づいて行い、
前記第３の再構成ベースピクチャの前記再構成の判定を、前記第２のプロファイルに対応している再構成か否か、および前記第１のプロファイルに対応している復号か否かに基づいて行い、
前記第１および第２の符号化拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否かに基づいて行い、
前記第３の拡張ピクチャの前記復号の判定を、前記第１および第３のプロファイルに対応している復号か否か、前記第２のプロファイルに対応している再構成か否かに基づいて行う、
請求項１６に記載の装置。
前記第１のスケーラビリティレイヤにおいて前記ベースピクチャを拡張することなく前記ピクチャレートを上げるように構成され、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応するピクチャがスキップ符号化されることを示す前記第２のスケーラビリティレイヤに関連する標示を符号化すること、
・前記第１のスケーラビリティレイヤの前記ピクチャに対応してピクチャが復号されないように前記第２のスケーラビリティレイヤを復号すること
のうちの少なくとも１つを前記装置に実行させるコードをさらに含む、請求項１６に記載の装置。
・修正前の少なくとも前記第１および第２の再構成ベースピクチャから前記第３の再構成ベースピクチャを再構成し、第２の拡張レイヤの対応するピクチャを用いて前記第１、第２、および第３の再構成ベースピクチャを修正することと、
・前記第１および第２の再構成ベースピクチャを修正し、前記修正された第１および第２のベースピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
・前記第２の拡張レイヤの対応する前記ピクチャを用いて前記第１および第２の再構成ベースピクチャを修正し、前記第２の拡張レイヤの前記再構成ピクチャを入力として用いて前記第３の再構成ベースピクチャを再構成することと、
のうちの少なくとも１つを前記装置に実行させるコードをさらに含む、請求項１６に記載の装置。
前記ピクチャレートを上げ、少なくとも１種類の拡張を前記第１のスケーラビリティレイヤの前記ベースピクチャに適用し、前記拡張は、信号対ノイズ拡張、空間拡張、サンプルビット深度の拡大、ダイナミックレンジの拡大、または色域の拡大のうちの少なくとも１つを含む、請求項１６に記載の装置。