JP7500745B2

JP7500745B2 - ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム

Info

Publication number: JP7500745B2
Application number: JP2022549707A
Authority: JP
Inventors: クリストファージェームズロゼワーン，
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-05-21
Filing date: 2021-04-16
Publication date: 2024-06-17
Anticipated expiration: 2041-04-16
Also published as: TW202145788A; EP4154530A1; EP4154530A4; CN115804087A; WO2021232088A1; JP2023525619A; TWI836211B; AU2022271385A1; AU2020203330A1; KR20230010707A; AU2020203330B2; US20230171432A1; BR112022020958A2; AU2022271385B2

Description

関連出願への言及
本出願は、２０２０年５月２１日に出願されたオーストラリア特許出願第２０２０２０３３３０号の出願日の３５Ｕ．Ｓ．Ｃ§１１９に基づく利益を主張し、その全体があたかも本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。

本発明は一般に、デジタルビデオ信号処理に関し、特に、ビデオサンプルのブロックを符号化及び復号するための方法、装置及びシステムに関する。本発明はまた、ビデオサンプルのブロックを符号化および復号するためのコンピュータプログラムが記録されたコンピュータ可読媒体を含むコンピュータプログラム製品に関する。

ビデオデータの送信および格納のためのアプリケーションを含む、ビデオコーディングのための多くのアプリケーションが現在存在する。多くのビデオ符号化規格も開発されており、他の規格も現在開発中である。ビデオ符号化標準化における最近の開発は、「Joint Video Experts Team」（ＪＶＥＴ）と呼ばれるグループの形成につながった。Joint Video Experts Team （ＪＶＥＴ）は、２つの標準設定組織（Standards Setting Organisations）（SSO）、つまり、「Video Coding Experts Group」（ＶＣＥＧ）としても知られる、International Telecommunication Union（ITU）のTelecommunication Standardisation Sector（ＩＴＵ－Ｔ）のStudy Group １６、Ｑｕｅｓｔｉｏｎ６（ＳＧ１６／Ｑ６）と、「Moving Picture Experts Group」（ＭＰＥＧ）としても知られる、国際標準化機構／国際電気標準会議合同技術委員会１／小委員会２９／Working Group １１(ISO／IEC JTC１／ＳＣ２９／ＷＧ１１）と、のメンバを含む。

Joint Video Experts Team （ＪＶＥＴ）は、米国サンディエゴで開催された１０回目の会議でレスポンスを分析し、Call for Proposals （ＣｆＰ）を発表した。提出されたレスポンスは、現在の最新のビデオ圧縮規格、すなわち「high efficiency video coding」（ＨＥＶＣ）の性能を著しく上回るビデオ圧縮能力を実証した。このアウトパフォーマンスに基づいて、「versatile video coding」（ＶＶＣ）と呼ばれる新しいビデオ圧縮規格を開発するプロジェクトを開始することが決定された。ＶＶＣは特に、ビデオフォーマットが（例えば、より高い解像度およびより高いフレームレートで）能力を増加させ、帯域幅コストが比較的高いＷＡＮ上のサービス配信に対する市場需要の増加に対処することにつれて、絶えずより高い圧縮性能に対する継続的な需要に対処することが予想される。ＶＶＣは、現代のシリコンプロセスにおいて実施可能でなければならず、達成された性能と実施コストとの間の許容可能なトレードオフを提供しなければならない。実装コストは例えば、シリコンエリア、ＣＰＵプロセッサロード、メモリ利用率、および帯域幅のうちの１つまたは複数に関して考慮され得る。ＶＶＣ規格の汎用性の一部は、ビデオデータを圧縮するために利用可能なツールの幅広い選択、ならびにＶＶＣが適している広範囲のアプリケーションにある。

ビデオデータは、画像データのフレームのシーケンスを含み、各フレームは、１つまたは複数のカラーチャネルを含む。一般に、１つの一次カラーチャネルおよび２つの二次カラーチャネルが必要とされる。一次カラーチャネルは一般に「ルマ」チャネルと呼ばれ、二次カラーチャネルは一般に「クロマ」チャネルと呼ばれる。ビデオデータは典型的にはＲＧＢ（赤－緑－青）色空間で表示されるが、この色空間は３つのそれぞれの構成要素の間に高い相関度を有する。エンコーダまたはデコーダによって見られるビデオデータ表現はしばしば、ＹＣｂＣｒなどの色空間を使用している。ＹＣｂＣｒは、伝達関数に従って「ルマ」にマッピングされた輝度を、Ｙ（一次）チャネルに集中させ、ＣｂおよびＣｒ（二次）チャネルに彩度を集中させる。非相関ＹＣｂＣｒ信号の使用により、ルマチャネルの統計は、クロマチャネルの統計と著しく異なる。主要な差異は、量子化の後、クロマチャネルが対応するルマチャネルブロックの係数と比較して、所与のブロックのための比較的少数の有意係数を含むことである。さらに、ＣｂおよびＣｒチャネルは、「４：２：０クロマフォーマット」として知られる、ルマチャネルと比較してより低いレート、例えば、水平方向に半分および垂直方向に半分で空間的にサンプリング（サブサンプリング）されてもよい。４：２：０クロマフォーマットは、インターネットビデオストリーミング、ブロードキャストテレビジョン、Blu-Ray^TMディスクへの保存など、「コンシューマ」アプリケーションで一般的に使用される。水平方向に半分のレートでＣｂおよびＣｒチャネルをサブサンプリングし、垂直方向にサブサンプリングしないことは、「４：２：２クロマフォーマット」として知られている。４：２：２クロマフォーマットは、典型的には映画制作などのための映像の撮像を含むプロフェッショナルアプリケーションにおいて使用される。４：２：２クロマフォーマットのより高いサンプリングレートは、結果として得られるビデオを、カラーグレーディングなどの編集動作に対してより弾力的にする。コンシューマに配布する前に、４：２：２クロマフォーマットマテリアルはしばしば、４：２：０クロマフォーマットに変換され、次いで、コンシューマに配布するために符号化される。クロマフォーマットに加えて、ビデオは、解像度およびフレームレートによっても特徴付けられる。例の解像度は３８４０ｘ２１６０の解像度の超高精細度（ＵＨＤ）、または７６８０ｘ４３２０の解像度の「８Ｋ」で、例のフレームレートは６０または１２０Ｈｚである。ルマサンプルレートは、約５００メガサンプル／秒から数ギガサンプル／秒の範囲であってもよい。４：２：０クロマフォーマットの場合、各クロマチャネルのサンプルレートは、ルマサンプルレートの４分の１であり、４：２：２クロマフォーマットの場合、各クロマチャネルのサンプルレートは、ルマサンプルレートの半分である。

ＶＶＣ標準は「ブロックベース」コーデックであり、フレームは最初に、「コーディングツリーユニット」（ＣＴＵ）として知られる領域の正方形アレイに分割される。ＣＴＵは一般に１２８×１２８ルマサンプルのような比較的大きな面積を占める。ただし、各フレームの右端および下端のＣＴＵは、面積がより小さくなり得る。各ＣＴＵに関連付けられているのは、ルマチャネルおよびクロマチャネルの両方のための「コーディングツリー」（「共有ツリー」）、またはルマチャネルおよびクロマチャネルのそれぞれのための別個のツリーである。コーディングツリーは、ＣＴＵのエリアの、「コーディングブロック」（ＣＢ）とも呼ばれるブロックのセットへの分解を定義する。共有ツリーが使用中であるとき、単一のコーディングツリーはルマチャネルおよびクロマチャネルの両方のためのブロックを指定し、その場合、コロケートされたコーディングブロックのコレクションは「コーディングユニット」（ＣＵ）と呼ばれ、すなわち、各ＣＵは、各カラーチャネルのためのコーディングブロックを有する。ＣＢは、特定の順序で符号化または復号するために処理される。４：２：０クロマフォーマットの使用の結果として、１２８×１２８ルマサンプルエリアのためのルマコーディングツリーを有するＣＴＵは、１２８×１２８ルマサンプルエリアと並置された６４×６４クロマサンプルエリアのための対応するクロマコーディングツリーを有する。単一のコーディングツリーがルマチャネルおよびクロマチャネルのために使用されているとき、所与のエリアのためのコロケートされたブロックのコレクションは概して、「ユニット」、たとえば、上述のＣＵ、ならびに「予測ユニット」（ＰＵ）および「変換ユニット」（ＴＵ）と呼ばれる。４：２：０クロマフォーマットビデオデータのカラーチャネルにまたがるＣＵを有する単一のツリーは、クロマブロックを、対応するルマブロックの幅および高さの半分にする。所与のエリアのために別個のコーディングツリーが使用されるとき、上述のＣＢ、ならびに「予測ブロック」（ＰＢ）および「変換ブロック」（ＴＢ）が使用される。

「ユニット」と「ブロック」との間の上記の区別にもかかわらず、「ブロック」という用語は、すべてのカラーチャネルに動作が適用されるフレームのエリアまたは領域の総称として使用され得る。

ＣＵごとに、フレームデータの対応するエリアのコンテンツ（サンプル値）の予測ユニット（ＰＵ）が生成される（「予測ユニット」）。さらに、予測と、エンコーダへの入力で見られる領域の内容との間の差分（または「空間領域」残差）の表現が形成される。各カラーチャネルにおける差分は、残差係数のシーケンスとして変換され、コード化され得、所与のＣＵのための１つまたは複数のＴＵを形成する。適用される変換は、残差値の各ブロックに適用される、離散コサイン変換（ＤＣＴ）または他の変換であり得る。この変換は分離可能に適用され、すなわち、２次元変換は、２つのパスで実行される。ブロックは最初に、ブロック内のサンプルの各行に１次元変換を適用することによって変換される。次いで、部分結果は、部分結果の各列に１次元変換を適用することによって変換され、残差サンプルを実質的に非相関化する変換係数の最終ブロックを生成する。様々なサイズの変換は、矩形形状ブロックの変換を含むＶＶＣ標準によってサポートされ、各側面寸法は２のべき乗である。変換係数は、ビットストリームへのエントロピー符号化のために量子化される。

ＶＶＣは、フレーム内予測およびフレーム間予測を特徴とする。フレーム内予測は、フレーム内のサンプルの現在のブロックの予測を生成するために使用されているフレーム内の以前に処理されたサンプルの使用を伴う。フレーム間予測は、以前に復号されたフレームから取得されたサンプルのブロックを使用して、フレーム中のサンプルの現在のブロックの予測を生成することを伴う。以前に復号されたフレームから取得されたサンプルのブロックは、多くの場合、フィルタリングが適用されている動きベクトルに従って、現在のブロックの空間位置からオフセットされる。フレーム内予測ブロックは、（ｉ）均一サンプル値（「ＤＣイントラ予測」）、（ｉｉ）オフセットおよび水平および垂直勾配を有するプレーン（「プレーンイントラ予測」）、（ｉｉｉ）特定の方向に適用された隣接サンプルを有するブロックの母集団（「角度イントラ予測」）、または（ｉｖ）隣接サンプルおよび選択された行列係数を使用した行列乗算の結果であり得る。予測されたブロックと対応する入力サンプルとの間のさらなる不一致は、「残差」をビットストリームに符号化することによって、ある程度補正され得る。残差は一般に、空間領域から周波数領域に変換されて、（「一次変換領域」において）残差係数を形成し、それは、（「二次変換領域」において残差係数を生成するために）「二次変換」のアプリケーションによってさらに変換され得る。残差係数は量子化パラメータに従って量子化され、デコーダで生成されたサンプルの再構成の精度の損失をもたらすが、ビットストリームにおけるビットレートの低減を伴う。

イントラブロックコピー（ＩＢＣ）モードは、同じフレームからのサンプルのブロックを使用してブロックの予測を生成することを可能にする。代替の「行列イントラ予測」（ＭＩＰ）モードが利用可能であり、それによって、予測ブロックは、所定のベクトルとブロック隣接サンプルとの行列乗算を使用して生成される。ブロックは、変換を使用する代わりにパレットコーディングされ得る。ブロックの３つのカラーチャネルは適応色変換（ＡＣＴ）を通過することができ、一般に、ＲＧＢ色空間をＹＣｂＣｒ色空間に非相関化する。ＣｂおよびＣｒチャネル残差は、ジョイントコーディング（jointly coded）され得る（ＪＣｂＣｒ）。ＤＣＴ－２、ＤＣＴ－８、およびＤＳＴ－７、ならびに変換スキップ（ＴＳ）モードを含む、一次変換（ＭＴＳ）の選択が利用可能である。オプションの二次変換も利用可能であり、それによって、１組のカーネルのうちの１つのカーネルが、イントラ予測モードおよびブロックサイズに基づいて選択され、低周波数非分離変換（ＬＦＮＳＴ）として知られる変換ブロックの低周波数領域に適用可能である。残差は、「依存量子化（dependent quantisation）」（ＤＱ）として知られるトレリス方式で量子化およびコーディングされ得る。インター予測されたブロックはサブブロックのセットとして予測され得、各々はアフィン動きモデルに従って導出された異なる動きベクトルを有する。ブロックは、結合された（一様である）ブレンドされたイントラ予測演算とインター予測演算とを使用して生成され得る。ブロックはまた、２つの異なるインター予測ブロック（ＣＩＩＰ）の幾何学的に配向されたブレンドを使用して生成され得る。クロマスケーリング（ＬＭＣＳ）を用いたルママッピング（luma mapping with chroma scaling）プロセスは復号処理の一部として適用され得、ルマサンプルを特定の値にマッピングし、スケーリング演算をクロマサンプルの値に適用し得る。適応ループフィルタ（ＡＬＦ）が適用され得、それによって、ルマサンプルおよびクロマサンプルは主に平滑化目的のために、ビットストリーム中で送られる複数のフィルタのうちの１つを使用して空間的にフィルタリングされる。変換ブロックのための残差係数の逆量子化は、変換ブロックのための量子化パラメータと組み合わせて適用される（空間）スケーリング行列（または「スケーリングリスト」）に従って、不均一な方法で実行され得る。

本発明の目的は、既存の構成の１つまたは複数の欠点を実質的に克服するか、または少なくとも改善することである。

本開示の一態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された１つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号することとを含む。

別の態様によれば、前記最大変換ブロックサイズ制約は、１ビットの固定長コードワードを使用する。

別の態様によれば、前記最大有効変換ブロックサイズ制約は、前記ビットストリーム中のｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造から復号される。

別の態様によれば、前記最大変換ブロックサイズ制約は、前記ビットストリームのビデオパラメータセットおよびシーケンスパラメータセットのうちの１つから復号される。

別の態様によれば、前記最大有効変換ブロックサイズは、１ビットの固定長コードワードを使用する。

別の態様によれば、前記最大有効変換ブロックサイズは、前記ビットストリーム中のｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）シンタックス構造から復号される。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された１つまたは複数のコーディングユニットの各々を復号して前記画像フレームを復号することとを含む。

別の態様によれば、前記最大コーディングツリーユニットサイズ制約は、１ビットの固定長コードワードを使用する。

別の態様によれば、前記最大有効コーディングツリーユニットサイズ制約は、前記ビットストリーム中のｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造から復号される。

別の態様によれば、前記最大コーディングツリーユニットサイズ制約は、前記ビットストリームのビデオパラメータセットおよびシーケンスパラメータセットのうちの１つから復号される。

別の態様によれば、前記最大有効コーディングツリーユニットサイズは、１ビットの固定長コードワードを使用する。

別の態様によれば、前記最大有効コーディングツリーユニットサイズは、前記ビットストリーム中のｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）シンタックス構造から復号される。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された１つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号することとを含む。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実装するように構成されたビデオデコーダを提供し、前記画像フレームは複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は１つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズと、前記ビットストリームから復号されたスプリットフラグとに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された１つまたは複数のコーディングユニットの各々を復号して、前記画像フレームを復号することとを含む。

本開示の別の態様は、メモリとプロセッサとを備えるシステムを提供し、ここで、前記プロセッサは、ビットストリームから画像フレームを復号する方法を実装するために前記メモリに格納されたコードを実行するように構成され、前記画像フレームは複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は１つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された１つまたは複数の変換ブロックの各々を復号して前記画像フレームを復号することとを含む。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングブロックに分割され、前記方法は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第１フラグを復号することと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第２フラグを復号することと、前記第２フラグは、前記第１フラグによって制約され、前記第２のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記１つまたは複数のコーディングブロックを復号することと、前記復号された１つまたは複数のコーディングユニットを使用して前記画像フレームを復号することとを含む。

本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数の変換ブロックに分割され、前記ビデオ復号装置は、前記ビットストリームから最大変換ブロックサイズ制約を復号する第１復号ユニットと、前記ビットストリームから最大有効変換ブロックサイズを復号する第２復号ユニットと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数の変換ブロックを決定する決定ユニットと、前記ビットストリームから前記決定された１つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号する第３復号ユニットとを備える。

本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングユニットに分割され、前記ビデオ復号装置は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号する第１復号ユニットと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号する第２復号ユニットと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数のコーディングユニットを決定する決定ユニットと、前記復号された１つまたは複数のコーディングユニットを使用して、前記画像フレームを復号する第３復号ユニットとを備える。

本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングブロックに分割され、前記ビデオ復号装置は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第１フラグを復号する第１復号ユニットと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第２フラグを復号する第２復号ユニットと、前記第２フラグは、前記第１フラグによって制約され、前記第２のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記１つまたは複数のコーディングブロックを復号する第３復号ユニットと、前記復号された１つまたは複数のコーディングユニットを使用して前記画像フレームを復号する第４復号ユニットとを備える。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記１つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された１つまたは複数のコーディングユニットの各々を復号して前記画像フレームを復号することとを含む。

本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングブロックに分割され、前記方法は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第１フラグを復号することと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第２フラグを復号することと、前記第２フラグは、前記第１フラグによって制約され、前記第２のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記１つまたは複数のコーディングブロックを復号することと、前記復号された１つまたは複数のコーディングユニットを使用して前記画像フレームを復号して前記画像フレームを復号することとを含む。

他の態様も開示される。

次に、本発明の少なくとも１つの実施形態を、以下の図面および付録を参照して説明する。
図１は、ビデオ符号化及び復号システムを示す概略ブロック図である。、図２Ａおよび２Ｂは、図１のビデオ符号化および復号システムの一方または両方が実施され得る汎用コンピュータシステムの概略ブロック図を形成する。図３は、ビデオエンコーダの機能モジュールを示す概略ブロック図である。図４は、ビデオデコーダの機能モジュールを示す概略ブロック図である。図５は、汎用ビデオ符号化のツリー構造における１つまたは複数のブロックへのブロックの利用可能な分割を示す概略ブロック図である。図６は、汎用ビデオコーディングのツリー構造における１つまたは複数のブロックへのブロックの許可された分割を達成するためのデータフローの概略図である。、図７Ａおよび７Ｂは、コーディングツリーユニット（ＣＴＵ）のいくつかのコーディングユニット（ＣＵ）への例示的な分割を示す。図８は、それぞれが複数のコーディングユニットを含む、複数のスライスを有するビットストリームのためのシンタックス構造を示す。図９は、コーディングツリーユニットのコーディングブロックを有するビットストリームのシンタックス構造を示す。図１０は、コーディングユニットのシーケンスとして１つまたは複数のスライスを含むビットストリームにフレームを符号化する方法を示す。図１１は、スライスに配置されたコーディングユニットのシーケンスとしてビットストリームからフレームを復号する方法を示す。付録Ａは、本明細書に開示される方法に対応するように適合されたＶＶＣ標準のためのワーキングドラフトテキストの一例を示す。

添付の図面の１以上において、同一の参照符号を有するステップ及び／又は特徴を参照する場合、それらのステップ及び／又は特徴は本明細書の目的のために、反対の意図が現れない限り、同一の機能又は動作を有する。

ＶＶＣエンコーダおよびデコーダは、「制約」として知られる能力シグナリング機構を含む。ビットストリームの初期には、ＶＶＣ標準のどの能力がビットストリームにおいて使用されないかを示す制約のセットが存在する。制約は、ビットストリームの「プロファイル」および「レベル」と共にシグナリングされる。プロファイルは、ビットストリームを復号するために利用可能である必要があるツールのセットを広く示す。制約はまた、どのツールが指定されたプロファイルにおいてさらに制約されるかの制御の細かい粒度を提供する。さらなる制約は、「サブプロファイリング」と呼ばれる。サブプロファイリングは、プロファイルが定義された後でさえ、特定のツールがプロファイルから効果的に除去されることを可能にし、実装者は、展開されるべき共通のサブプロファイルに同意する。例えば、所与のツールがＳＳＯの分析努力にもかかわらず、実施するのに問題があることが分かった場合、ツールは、後で除去され得る。サブプロファイリングの１つの用途は、プロファイルの「増殖（proliferation）」を低減することであり、そのうちのいくつかは、決して使用され得ない。より少ないプロファイルを定義することは、ＶＶＣ標準の実装の市場の細分化（market fragmentation）を回避するのに役立つ。プロファイルおよびサブプロファイルはまた、「相互運用性ポイント」と呼ばれるものを定義する。相互運用性ポイントは、メーカーが実装によってサポートされることに合意したツールのセットである。プロファイルは、標準の最終決定時に合意され、サブプロファイルは後日合意されることができ、予期せぬ実装の複雑さまたは特定のツールの他の問題が標準に追加のプロファイルを追加する必要なく対処されることを可能にする。特定のエンコーダは、結果として生じるビットストリームの合意されたプロファイルおよびサブプロファイル定義から逸脱することなく、たとえば複雑さ低減の目的のために、コーディングツールの使用をさらに制限することを選択し得る。ツール選択の任意のさらなる制限は、ビットストリームの早期にシグナリングされ得、その結果、未使用のツールのシグナリングが抑制される。あるいはエンコーダがツールを利用可能なままにするが、ツールの使用を決してシグナリングしない（ツールを制御するためのシグナリングを残すが、常に無効化された値を選択する）ことができる。

図１は、ビデオ符号化及び復号システム１００の機能モジュールを示す概略ブロック図である。システム１００は、特定のコーディングツールに対する制約に加え、ブロック構造に対する制約を含み、サブプロファイリングのための更なる柔軟性を提供する。

システム１００は、ソースデバイス１１０と宛先デバイス１３０とを含む。通信チャネル１２０は、符号化ビデオ情報をソースデバイス１１０から宛先デバイス１３０に通信するために使用される。いくつかの構成では、ソースデバイス１１０および宛先デバイス１３０は、それぞれの携帯電話ハンドセットまたは「スマートフォン」のいずれかまたは両方を備えることができ、その場合、通信チャネル１２０は、ワイヤレスチャネルである。他の構成では、ソースデバイス１１０および宛先デバイス１３０が、ビデオ会議機器を備えることができ、その場合、通信チャネル１２０は通常、インターネット接続などの有線チャネルである。さらに、ソースデバイス１１０および宛先デバイス１３０は、無線テレビ放送、ケーブルテレビアプリケーション、インターネットビデオアプリケーション（ストリーミングを含む）、およびファイルサーバ内のハードディスクドライブなどの何らかのコンピュータ可読記憶媒体上に符号化ビデオデータが取り込まれるアプリケーションをサポートする装置を含む、広範囲の装置のうちの任意のものを備えることができる。

図１に示すように、ソースデバイス１１０は、ビデオソース１１２と、ビデオエンコーダ１１４と、送信機１１６と、を含む。ビデオソース１１２は、典型的には撮像センサ等の、撮像されたビデオフレームデータ（１１３として示されている）のソース、非一時的記録媒体上に格納された前に撮像されたビデオシーケンス、又はリモート撮像センサから供給されたビデオ、を有する。ビデオソース１１２はまた、コンピュータグラフィックスカードの出力であってもよく、例えば、タブレットコンピュータなどのコンピューティングデバイスで実行されているオペレーティングシステムとさまざまなアプリケーションのビデオ出力を表示する。ビデオソース１１２として撮像センサを含み得るソースデバイス１１０の例は、スマートフォン、ビデオカメラ、業務用ビデオカメラ、およびネットワークビデオカメラを含む。

ビデオエンコーダ１１４は、図３を参照してさらに説明するように、ビデオソース１１２からの撮像されたフレームデータ（矢印１１３によって示される）をビットストリーム（矢印１１５によって示される）に変換（または「符号化」）する。ビデオエンコーダ１１４は、ＶＶＣのコーディングツール（または「プロファイル」）の特定のセットを使用して、撮像されたフレームデータ１１３を符号化する。どのプロファイルが使用されたかの指示は、ビットストリーム１１５の「ビデオパラメータセット」（ＶＰＳ）または「シーケンスパラメータセット」（ＳＰＳ）のいずれかに埋め込まれた「ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌ」シンタックス構造を使用してビットストリーム１１５に符号化される。ＳＰＳシンタックス構造は、「ｓｅｑ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）」とも呼ばれ、ＶＰＳシンタックス構造は、「ｖｉｄｅｏ＿ｐａｒａｍｅｔｅｒ＿ｓｅｔ＿ｒｂｓｐ（）」とも呼ばれる。さらに、使用されるコーディングツールのセットに対するさらなる制約も、前述のｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造の一部である「ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏ」シンタックス構造を使用してビットストリーム１１５に符号化され得る。スケーリングリスト、ＡＬＦのためのフィルタ、およびＬＭＣＳのためのパラメータは、１つまたは複数の「適応パラメータセット」（ＡＰＳ）中で送信される。各ＡＰＳは、それぞれのＡＰＳにおける「ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅ」シンタックス要素によって識別される、これら３つのツールのうちの１つのためのパラメータを含む。

ビットストリーム１１５は、送信機１１６によって、符号化ビデオデータ（または「符号化ビデオ情報」）として通信チャネル１２０を介して送信される。ビットストリーム１１５は、いくつかの実装形態では、後に通信チャネル１２０を介して送信されるまで、または通信チャネル１２０を介した送信の代わりに、「フラッシュ」メモリまたはハードディスクドライブなどの非一時的記憶デバイス１２２に格納され得る。例えば、符号化ビデオデータは、ビデオストリーミングアプリケーションのためのワイドエリアネットワーク（ＷＡＮ）を介して需要に応じて顧客に提供され得る。

宛先デバイス１３０は、受信機１３２と、ビデオデコーダ１３４と、表示デバイス１３６とを含む。受信機１３２は、通信チャネル１２０から符号化ビデオデータを受信し、受信したビデオデータをビットストリームとしてビデオデコーダ１３４に渡す（矢印１３３で示す）。そして、ビデオデコーダ１３４は、復号されたフレームデータ（矢印１３５で示す）を映像として、表示用に表示デバイス１３６に出力する。復号されたフレームデータ１３５は、フレームデータ１１３と同じクロマフォーマットを有する。表示デバイス１３６の例は、陰極線管、スマートフォン内、タブレットコンピュータ、コンピュータモニタ、またはスタンドアロンテレビセット内などの液晶ディスプレイを含む。ソースデバイス１１０および宛先デバイス１３０の各々の機能性は単一のデバイスにおいて実施されることも可能であり、その例は、携帯電話ハンドセットおよびタブレットコンピュータを含む。復号されたフレームデータは、ユーザに提示する前にさらに変換され得る。例えば、特定の緯度及び経度を有する「ビューポート」はシーンの３６０°ビューを表すために、投射フォーマットを使用して、復号されたフレームデータからレンダリングされ得る。

上記の例示的なデバイスにもかかわらず、ソースデバイス１１０および宛先デバイス１３０のそれぞれは、典型的にはハードウェアおよびソフトウェア構成要素の組合せを介して、汎用コンピューティングシステム内で構成され得る。図２Ａは、コンピュータモジュール２０１と、キーボード２０２、マウスポインタデバイス２０３、スキャナ２２６、ビデオソース１１２として構成することができるカメラ２２７、およびマイクロフォン２８０などの入力デバイスと、プリンタ２１５、表示デバイス１３６として構成することができるディスプレイデバイス２１４、およびスピーカ２１７を含む出力デバイスと、を含む、そのようなコンピュータシステム２００を示す。外部変復調器（モデム）トランシーバデバイス２１６は、接続２２１を介して通信ネットワーク２２０との間で通信するためにコンピュータモジュール２０１によって使用され得る。通信チャネル１２０を表すことができる通信ネットワーク２２０は、インターネット、セルラ電気通信ネットワーク、またはプライベートＷＡＮなどの（ＷＡＮ）であってもよい。接続２２１が電話回線である場合、モデム２１６は従来の「ダイヤルアップ」モデムであってもよい。あるいは接続２２１が大容量（例えば、ケーブルまたは光）接続である場合、モデム２１６はブロードバンドモデムであってもよい。無線モデムはまた、通信ネットワーク２２０への無線接続のために使用されてもよい。トランシーバ装置２１６は、送信機１１６及び受信機１３２の機能性を提供することができ、通信チャネル１２０は、接続２２１内に具現化することができる。

コンピュータモジュール２０１は、典型的には少なくとも１つのプロセッサユニット２０５と、メモリユニット２０６と、を含む。例えば、メモリユニット２０６は、半導体ランダムアクセスメモリ（ＲＡＭ）及び半導体リードオンリーメモリ（ＲＯＭ）を有することができる。コンピュータモジュール２０１はまた、ビデオディスプレイ２１４、スピーカ２１７、およびマイクロフォン２８０に結合するオーディオビデオインターフェース２０７、キーボード２０２、マウス２０３、スキャナ２２６、カメラ２２７、およびオプションとしてジョイスティックまたは他のヒューマンインターフェースデバイス（図示せず）に結合するＩ／Ｏインターフェース２１３、ならびに外部モデム２１６およびプリンタ２１５のためのインターフェース２０８を含む、いくつかの入出力（Ｉ／Ｏ）インターフェースを含む。オーディオビデオインターフェース２０７からコンピュータモニタ２１４への信号は一般に、コンピュータグラフィックスカードの出力である。いくつかの実装では、モデム２１６が、例えばインターフェース２０８内のコンピュータモジュール２０１内に組み込まれてもよい。コンピュータモジュール２０１はまた、ローカルネットワークインターフェース２１１を有し、これは、接続２２３を介して、ローカルエリアネットワーク（ＬＡＮ）として知られるローカルエリア通信ネットワーク２２２への、コンピュータシステム２００の結合を可能にする。図２Ａに示すように、ローカル通信ネットワーク２２２はまた、典型的には、いわゆる「ファイアウォール」デバイスまたは同様の機能のデバイスを含む、接続２２４を介してワイドネットワーク２２０に結合することもできる。ローカルネットワークインターフェース２１１は、イーサネット^TM回路カード、ブルートゥース^TMワイヤレス構成又はＩＥＥＥ８０２．１１ワイヤレス構成を含むことができるが、インターフェース２１１のために多くの他のタイプのインターフェースが実施されてもよい。ローカルネットワークインターフェース２１１は、また、送信機１１６の機能を提供することができ、受信機１３２および通信チャネル１２０はまた、ローカル通信ネットワーク２２２において具現化することができる。

Ｉ／Ｏインターフェース２０８および２１３は、シリアルコネクティビティおよびパラレルコネクティビティのいずれかまたは両方を提供することができ、前者は、典型的にはユニバーサルシリアルバス（ＵＳＢ）規格に従って実施され、対応するＵＳＢコネクタ（図示せず）を有する。記憶デバイス２０９が提供され、典型的にはハードディスクドライブ（ＨＤＤ）２１０を含む。フロッピーディスクドライブおよび磁気テープドライブ（図示せず）などの他の記憶デバイスも使用することができる。光ディスクドライブ２１２は、典型的にはデータの不揮発性ソースとして機能するために設けられる。光ディスク（例えば、ＣＤ－ＲＯＭ、ＤＶＤ、ＢｌｕｒａｙＤｉｓｃ^TM）、ＵＳＢ－ＲＡＭ、ポータブル、外部ハードドライブ、およびフロッピーディスクなどのポータブルメモリデバイスは、たとえば、コンピュータシステム２００に対するデータの適切なソースとして使用することができる。典型的には、ＨＤＤ２１０、光ドライブ２１２、ネットワーク２２０及び２２２のいずれかはビデオソース１１２として、又はディスプレイ２１４を介して再生するために記憶されるべき復号ビデオデータのための宛先として動作するように構成されてもよい。システム１００のソースデバイス１１０および宛先デバイス１３０は、コンピュータシステム２００において具現化されてもよい。

コンピュータモジュール２０１の構成要素２０５～２１３は、典型的には相互接続バス２０４を介して、当業者に知られているコンピュータシステム２００の従来の動作モードをもたらす方法で通信する。例えば、プロセッサ２０５は、接続２１８を用いてシステムバス２０４に結合される。同様に、メモリ２０６および光ディスクドライブ２１２は、接続２１９によってシステムバス２０４に結合される。上記の構成が実行可能なコンピュータの例は、ＩＢＭ－ＰＣおよび互換機、ＳｕｎＳＰＡＲＣステーション、ＡｐｐｌｅＭａｃ^TMまたは同様のコンピュータシステムを含む。

適切または必要な場合、ビデオエンコーダ１１４およびビデオデコーダ１３４、ならびに以下で説明する方法は、コンピュータシステム２００を使用して実施することができる。具体的には、ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明される方法は、コンピュータシステム２００内で実行可能な１つまたは複数のソフトウェアアプリケーションプログラム２３３として実施することができる。具体的には、ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明する方法のステップは、コンピュータシステム２００内で実行されるソフトウェア２３３内の命令２３１（図２Ｂ参照）によって実行される。ソフトウェア命令２３１は、それぞれが１つ以上の特定のタスクを実行するための１つ以上のコードモジュールとして形成されてもよい。ソフトウェアはまた、２つの別個の部分に分割されてもよく、その場合、第１の部分と対応するコードモジュールは説明される方法を実行し、第２の部分と対応するコードモジュールは、第１の部分とユーザとの間のユーザインターフェースを管理する。

ソフトウェアは例えば、以下に説明する記憶デバイスを含むコンピュータ可読媒体に格納することができる。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム２００にロードされ、その後、コンピュータシステム２００によって実行される。このようなソフトウェア又はコンピュータ可読媒体に記録されたコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム２００におけるコンピュータプログラム製品の使用は、ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明される方法を実施するための有利な装置をもたらすことが好ましい。

ソフトウェア２３３は、典型的にはＨＤＤ２１０またはメモリ２０６に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム２００にロードされ、コンピュータシステム２００によって実行される。したがって、例えば、ソフトウェア２３３は、光ディスクドライブ２１２によって読み取られる光学的に読み取り可能なディスク記憶媒体（例えば、ＣＤ－ＲＯＭ）２２５に格納することができる。

場合によっては、アプリケーションプログラム２３３が１つ以上のＣＤ－ＲＯＭ２２５上で符号化されてユーザに供給され、対応するドライブ２１２を介して読み出されてもよく、あるいは代替的には、ネットワーク２２０または２２２からユーザによって読み出されてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム２００にロードすることもできる。コンピュータ可読記憶媒体は、実行および／または処理のために記録された命令および／またはデータをコンピュータシステム２００に提供する任意の非一時的な有形の記憶媒体を指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、ＣＤ－ＲＯＭ、ＤＶＤ、Blu-ray Disc^TM、ハードディスクドライブ、ＲＯＭまたは集積回路、ＵＳＢメモリ、光磁気ディスク、またはＰＣＭＣＩＡカードなどのコンピュータ可読カード、などを含み、そのようなデバイスがコンピュータモジュール２０１の内部または外部であるか否かは問わない。コンピュータモジュール４０１へのソフトウェア、アプリケーションプログラム、命令および／またはビデオデータまたは符号化ビデオデータの提供にも参加し得る一時的なまたは非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワーク接続されたデバイスへのネットワーク接続、ならびにウェブサイトなどに記録された電子メール伝送および情報を含むインターネットまたはイントラネットを含む。

アプリケーションプログラム２３３の第２の部分および上記の対応するコードモジュールは、ディスプレイ２１４上でレンダリングされるかまたは他の方法で表される１つ以上のグラフィカルユーザインタフェース（ＧＵＩ）を実装するために実行されてもよい。典型的にはキーボード２０２およびマウス２０３の操作を通して、アプリケーションおよびコンピュータシステム２００のユーザは機能的に適応可能な方法でインターフェースを操作し、ＧＵＩに関連するアプリケーションに制御コマンドおよび／または入力を提供することができる。スピーカ２１７を介して出力されるスピーチプロンプトおよびマイクロフォン２８０を介して入力されるユーザ音声コマンドを利用するオーディオインターフェースなど、他の形態の機能的に適応可能なユーザインターフェースを実装することもできる。

図２Ｂは、プロセッサ２０５および「メモリ」２３４の詳細な概略ブロック図である。メモリ２３４は、図２Ａのコンピュータモジュール２０１がアクセス可能な全てのメモリモジュール（ＨＤＤ２０９及び半導体メモリ２０６を含む）の論理集合体を表す。

最初にコンピュータモジュール２０１の電源が入ると、パワーオン自己テスト（ＰＯＳＴ）プログラム２５０が実行される。ＰＯＳＴプログラム２５０は、典型的には図２Ａの半導体メモリ２０６のＲＯＭ２４９に格納される。ソフトウェアを格納するＲＯＭ２４９などのハードウェアデバイスは、ファームウェアと呼ばれることもある。ＰＯＳＴプログラム２５０は、コンピュータモジュール２０１内のハードウェアを検査して、適切に機能することを確認し、通常、正しい動作のために、プロセッサ２０５、メモリ２３４（２０９、２０６）、および通常はＲＯＭ２４９にも格納される基本入出力システムソフトウェア（ＢＩＯＳ）モジュール２５１をチェックする。ＰＯＳＴプログラム２５０が正常に実行されると、ＢＩＯＳ２５１は、図２Ａのハードディスクドライブ２１０を起動する。ハードディスクドライブ２１０を起動すると、ハードディスクドライブ２１０上に常駐するブートストラップローダプログラム２５２がプロセッサ２０５を介して実行される。これにより、オペレーティングシステム２５３がＲＡＭメモリ２０６にロードされ、その上でオペレーティングシステム２５３が動作を開始する。オペレーティングシステム２５３は、プロセッサ２０５によって実行可能なシステムレベルアプリケーションであり、プロセッサ管理、メモリ管理、デバイス管理、ストレージ管理、ソフトウェアアプリケーションインタフェース、および汎用ユーザインタフェースを含む様々な高レベルの機能を満たす。

オペレーティングシステム２５３は、メモリ２３４（２０９、２０６）を管理して、コンピュータモジュール２０１上で実行される各プロセスまたはアプリケーションが別のプロセスに割り当てられたメモリと衝突することなく実行するのに十分なメモリを有することを保証する。さらに、図２Ａのコンピュータシステム２００で利用可能な異なるタイプのメモリは、各プロセスが効果的に実行できるように、適切に使用されなければならない。したがって、集約メモリ２３４は、メモリの特定のセグメントが（特に明記されていない限り）どのように割り当てられるかを示すことを意図するものではなく、むしろ、コンピュータシステム２００によってアクセス可能なメモリの一般的なビューと、そのようなセグメントがどのように使用されるかを提供することを意図するものである。

図２Ｂに示すように、プロセッサ２０５は、制御部２３９、演算論理ユニット（ＡＬＵ）２４０、時にはキャッシュメモリと呼ばれるローカルまたは内部メモリ２４８、を含む多数の機能モジュールを含む。キャッシュメモリ２４８は、典型的にはレジスタセクション内に多数の記憶レジスタ２４４～２４６を含む。１つ以上の内部バス２４１は、これらの機能モジュールを機能的に相互接続する。プロセッサ２０５はまた、典型的には、接続２１８を使用して、システムバス２０４を介して外部デバイスと通信するための１つ以上のインターフェース２４２を有する。メモリ２３４は、接続２１９を使用してバス２０４に結合される。

アプリケーションプログラム２３３は、条件分岐およびループ命令を含み得る命令のシーケンス２３１を含む。プログラム２３３はまた、プログラム２３３の実行に使用されるデータ２３２を含んでもよい。命令２３１およびデータ２３２は、それぞれメモリ位置２２８、２２９、２３０および２３５、２３６、２３７に格納される。命令２３１とメモリ位置２２８～２３０の相対的なサイズに応じて、メモリ位置２３０に示される命令によって示されるように、特定の命令を単一のメモリ位置に格納することができる。あるいは、命令がメモリ位置２２８および２２９に示される命令セグメントによって示されるように、各々が別個のメモリ位置に格納されるいくつかの部分にセグメント化されてもよい。

一般に、プロセッサ２０５には、その中で実行される命令のセットが与えられる。プロセッサ２０５は後続の入力を待ち、この入力に対してプロセッサ２０５は、別の命令セットを実行することによって反応する。各入力は入力デバイス２０２、２０３のうちの１つまたは複数によって生成されたデータ、ネットワーク２２０、２０２のうちの１つを介して外部ソースから受信されたデータ、記憶デバイス２０６、２０９のうちの１つから取り出されたデータ、または対応するリーダ２１２に挿入された記憶媒体２２５から取り出されたデータを含む、いくつかのソースのうちの１つまたは複数から提供することができ、すべて図２Ａに示されている。命令のセットを実行すると、データが出力される場合がある。実行には、データまたは変数をメモリ２３４に格納することも含まれ得る。

ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明される方法は、メモリ２３４内の対応するメモリ位置２５５、２５６、２５７に格納されている入力変数２５４を使用することができる。ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明される方法は、出力変数２６１を生成し、これらは、メモリ２３４内の対応するメモリ位置２６２、２６３、２６４に格納される。中間変数２５８は、メモリ位置２５９、２６０、２６６および２６７に格納され得る。

図２Ｂのプロセッサ２０５を参照すると、レジスタ２４４、２４５、２４６、演算論理ユニット（ＡＬＵ）２４０、および制御部２３９は、プログラム２３３を構成する命令セット内のすべての命令に対して「フェッチ、デコード、および実行」サイクルを実行するのに必要なマイクロオペレーションのシーケンスを実行するために協働する。各フェッチ、デコード、および実行サイクルは
メモリ位置２２８、２２９、２３０から命令２３１をフェッチまたは読出すフェッチ動作
制御部２３９が、どの命令がフェッチされたかを判定するデコード動作
制御部２３９及び／又はＡＬＵ２４０が命令を実行する動作を実行する
を有する。

その後、次の命令のさらなるフェッチ、デコード、および実行サイクルを実行することができる。同様に、制御部２３９がメモリ位置２３２に値を格納または書き込む格納サイクルを実行することができる。

後述する図１０および図１１の方法における各ステップまたはサブプロセスは、プログラム２３３の１つまたは複数のセグメントに関連付けられ、典型的にはプロセッサ２０５内のレジスタセクション２４４、２４５、２４７、ＡＬＵ２４０、および制御部２３９が協働して、プログラム２３３の注記されたセグメントに対する命令セット内のすべての命令に対してフェッチ、デコード、および実行サイクルを実行することによって実行される。

図３は、ビデオエンコーダ１１４の機能モジュールを示す概略ブロック図である。図４は、ビデオデコーダ１３４の機能モジュールを示す概略ブロック図である。一般に、データは、固定サイズのサブブロックへのブロックの分割などのサンプルまたは係数のグループで、または配列として、ビデオデコーダ１３４とビデオエンコーダ１１４の機能モジュールの間を通過する。ビデオエンコーダ１１４およびビデオデコーダ１３４は、図２Ａおよび図２Ｂに示すように、汎用コンピュータシステム２００を使用して実施することができ、様々な機能モジュールは、ハードディスクドライブ２０５上に常駐し、プロセッサ２０５によってその実行中に制御されるソフトウェアアプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールなど、コンピュータシステム２００内で実行可能なソフトウェアによって、コンピュータシステム２００内の専用ハードウェアによって実現することができる。あるいは、ビデオエンコーダ１１４およびビデオデコーダ１３４は、コンピュータシステム２００内で実行可能なソフトウェアおよび専用ハードウェアの組合せによって実装されてもよい。ビデオエンコーダ１１４、ビデオデコーダ１３４、および説明される方法は、代替として、説明される方法の機能またはサブ機能を実行する１つまたは複数の集積回路などの専用ハードウェアで実装され得る。そのような専用ハードウェアは、グラフィック処理ユニット（ＧＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け標準製品（ＡＳＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または１つまたは複数のマイクロプロセッサおよび関連するメモリを含むことができる。特に、ビデオエンコーダ１１４は、モジュール３１０～３９０を含み、ビデオデコーダ１３４は、ソフトウェアアプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとしてそれぞれ実装され得るモジュール４２０～４９６を含む。

図３のビデオエンコーダ１１４は汎用ビデオコーディング（ＶＶＣ）ビデオ符号化パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。ビデオエンコーダ１１４は一連のフレームなど、撮像されたフレームデータ１１３を受信し、各フレームは、１つまたは複数のカラーチャネルを含む。フレームデータ１１３は任意のクロマフォーマット、たとえば、４：０：０、４：２：０、４：２：２、または４：４：４クロマフォーマットであり得る。ブロックパーティショナ３１０は最初に、フレームデータ１１３を、形状が概ね正方形であり、ＣＴＵのための特定のサイズが使用されるように構成されたＣＴＵに分割する。ＣＴＵの最大有効サイズはたとえば、「シーケンスパラメータセット」中に存在する「ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５」シンタックス要素によって構成される、３２×３２、６４×６４、または１２８×１２８ルマサンプルであり得る。ＣＴＵサイズはまた、さらなる分割を伴わないＣＴＵが１つのＣＵを含むので、最大ＣＵサイズを提供する。ブロックパーティショナ３１０はさらに、ルマコーディングツリーおよびクロマコーディングツリーに従って、各ＣＴＵを１つまたは複数のＣＢに分割する。ルマチャネルは、プライマリカラーチャネルと呼ばれることもある。各クロマチャネルは、二次カラーチャネルとも呼ばれ得る。ＣＢは様々なサイズを有し、二乗アスペクト比と非二乗アスペクト比の両方を含み得る。図１０を参照して、ブロックパーティショナ３１０の動作をさらに説明する。しかしながら、ＶＶＣ標準ではＣＢ、ＣＵ、ＰＵ、およびＴＵは常に２のべき乗である辺長を有する。したがって、３１２として表される現在のＣＢは、ＣＴＵのルマコーディングツリーおよびクロマコーディングツリーに従って、ＣＴＵの１つまたは複数のブロックにわたる反復に従って進行し、ブロックパーティショナ３１０から出力される。ＣＴＵをＣＢに分割するためのオプションは、図５および６を参照して以下でさらに説明される。動作は概して、ＣＴＵごとに説明されるが、ビデオエンコーダ１１４およびビデオデコーダ１３４は、メモリ消費を低減するために、より小さいサイズの領域上で動作し得る。たとえば、各ＣＴＵは、サイズ６４×６４の「仮想パイプラインデータユニット」（ＶＰＤＵ）として知られる、より小さい領域に分割され得る。ＶＰＤＵは、ハードウェアアーキテクチャにおけるパイプライン処理により適したデータの粒度を形成し、メモリフットプリントの低減は、完全なＣＴＵ上での動作と比較して、シリコン面積、したがってコストを低減する。ＣＴＵサイズが１２８×１２８である場合、１つのＶＰＤＵの処理が次のＶＰＤＵに進む前に完全に完了されることを保証するために、許可されたコーディングツリーに対する制限が設けられる。例えば、１２８×１２８ＣＴＵのコーディングツリーのルートノードでは、結果として生じるＣＵ（３２×１２８／１２８×３２またはそのさらなる分解など）が１つの６４×６４領域から後続の６４×６４領域への必要な進行で処理され得ないので、三値分割は禁止される。ＣＴＵサイズが６４×６４である場合、エンコーダによって選択されたコーディングツリーにかかわらず、処理は次の６４×６４領域に進む前に、すなわち１つのＣＴＵから次のＣＴＵに進む前に、必ず１つの６４×６４領域を完了する。

フレームデータ１１３の最初の分割から得られるＣＴＵは、ラスタスキャン順序でスキャンされ、１つまたは複数の「スライス」にグループ化され得る。スライスは「イントラ」（または「Ｉ」）スライスであってもよい。イントラスライス（Ｉスライス）は、スライス内のすべてのＣＵがイントラ予測されることを示す。代替的に、スライスは、片または双予測（それぞれ、「Ｐ」または「Ｂ」スライス）であってもよく、それぞれ、スライスにおける片および双予測のさらなる利用可能性を示す。

Ｉスライスでは、各ＣＴＵのコーディングツリーが６４×６４レベルより下で、ルマのためのコーディングツリーとクロマのためのコーディングツリーとの２つの別個のコーディングツリーに分岐し得る。別個のツリーの使用は、ＣＴＵのルマ６４×６４エリア内のルマとクロマとの間に異なるブロック構造が存在することを可能にする。たとえば、大きいクロマＣＢは、多数のより小さいルマＣＢとコロケートされ得、逆もまた同様である。ＰまたはＢスライスにおいて、ＣＴＵの単一のコーディングツリーは、ルマおよびクロマに共通のブロック構造を定義する。単一ツリーの結果として生じるブロックは、イントラ予測またはインター予測され得る。

各ＣＴＵに対して、ビデオエンコーダ１１４は２つのステージで動作する。第１のステージ（「サーチ」ステージと呼ばれる）では、ブロックパーティショナ３１０がコーディングツリーの様々な潜在的構成をテストする。コーディングツリーの各潜在的構成は、関連する「候補」ＣＢを有する。第１のステージは、様々な候補ＣＢをテストして比較的低い歪みで比較的高い圧縮効率を提供するＣＢを選択することを含む。このテストは一般にラグランジュ最適化を含み、それによって候補ＣＢがレート（符号化コスト）と歪み（入力フレームデータ１１３に関する誤差）の重み付けされた組合せに基づいて評価される。「最良の」候補ＣＢ（評価されたレート／歪みが最も低いＣＢ）は、ビットストリーム１１５への後続の符号化のために選択される。候補ＣＢの評価には、所与のエリアに対してＣＢを使用するか、または様々な分割オプションに従ってエリアをさらに分割し、結果として生じるより小さいエリアのそれぞれをさらなるＣＢで符号化するか、またはエリアをさらにさらに分割するオプションが含まれる。その結果、コーディングツリーとＣＢそれら自体の両方がサーチステージで選択される。

ビデオエンコーダ１１４は、ＣＢ、たとえばＣＢ３１２ごとに、矢印３２０によって示される予測ブロック（ＰＢ）を生成する。ＰＢ３２０は、関連するＣＢ３１２のコンテンツの予測である。減算器モジュール３２２は、ＰＢ３２０とＣＢ３１２との間に、３２４として示される差分（または、空間領域における差分を参照する「残差」）を生成する。差分３２４は、ＰＢ３２０およびＣＢ３１２における対応するサンプル間のブロックサイズ差分である。差分３２４は、変換され、量子化され、矢印３３６によって示される変換ブロック（ＴＢ）として表される。ＰＢ３２０および関連するＴＢ３３６は典型的にはたとえば、評価されたコストまたは歪みに基づいて、多くの可能な候補ＣＢのうちの１つから選択される。

候補コーディングブロック（ＣＢ）は、関連付けられたＰＢおよび結果として生じる残差のためにビデオエンコーダ１１４に利用可能な予測モードのうちの１つから生じるＣＢである。ＴＢ３３６は、ビデオデコーダ１１４中の予測されたＰＢと組み合わされると、ビットストリーム中の追加のシグナリングを犠牲にして、復号されたＣＢとオリジナルのＣＢ３１２との間の差を低減する。

したがって、各候補コーディングブロック（ＣＢ）、すなわち変換ブロック（ＴＢ）と組み合わせた予測ブロック（ＰＢ）は、関連するコーディングコスト（または「レート」）と、関連する差分（または「歪み」）とを有する。ＣＢの歪みは、典型的には絶対差の和（ＳＡＤ）または二乗差の和（ＳＳＤ）など、サンプル値の差として推定される。各候補ＰＢから結果として生じる推定は、差分３２４を使用してモードセレクタ３８６によって決定して、予測モード３８７を決定し得る。予測モード３８７は、現在のＣＢのための特定の予測モード、たとえば、フレーム内予測またはフレーム間予測を使用する決定を示す。各候補予測モードと対応する残差コーディングとに関連するコーディングコストの推定は、残差のエントロピーコーディングよりも著しく低いコストで実行され得る。したがって、いくつかの候補モードを評価して、リアルタイムビデオエンコーダにおいてさえ、レート歪み検知における最適モードを決定することができる。

レート歪みに関して最適モードを決定することは、典型的にはラグランジュ最適化の変化を使用して達成される。

ラグランジアンまたは同様の最適化処理は、（ブロックパーティショナ３１０による）ＣＢへのＣＴＵの最適なパーティショニングの選択、ならびに複数の可能性からの最良の予測モードの選択の両方に使用され得る。モードセレクタモジュール３８６における候補モードのラグランジュ最適化プロセスの適用を通して、最も低いコストの測定を有するイントラ予測モードが「最良」モードとして選択される。最低コストモードは、選択された二次変換インデックス３８８を含み、これはまた、エントロピーエンコーダ３３８によってビットストリーム１１５において符号化される。

ビデオエンコーダ１１４の動作の第２のステージ（「コーディング」ステージと呼ばれる）では、各ＣＴＵの決定されたコーディングツリーに対する反復が、ビデオエンコーダ１１４において実行される。別個のツリーを使用するＣＴＵの場合、ＣＴＵの６４×６４ルマ領域ごとに、ルマコーディングツリーが最初に符号化され、次いでクロマコーディングツリーが符号化される。ルマコーディングツリー内では、ルマＣＢのみが符号化され、クロマコーディングツリー内では、クロマＣＢのみが符号化される。共有ツリーを使用するＣＴＵの場合、単一のツリーは、共有ツリーの共通ブロック構造に従って、ＣＵ、すなわち、ルマＣＢおよびクロマＣＢを記述する。

エントロピーエンコーダ３３８は、シンタックス要素の可変長コーディングと、シンタックス要素の算術コーディングとの両方をサポートする。「パラメータセット」、例えばシーケンスパラメータセット（ＳＰＳ）およびピクチャパラメータセット（ＰＰＳ）などのビットストリームの一部は、固定長コードワードと可変長コードワードとの組合せを使用する。スライス（連続部分とも呼ばれる）は、可変長コーディングを使用するスライスヘッダと、それに続く算術コーディングを使用するスライスデータを有する。スライスヘッダは、スライスレベルの量子化パラメータオフセットなど、現在のスライスに固有のパラメータを定義する。スライスデータは、スライス中の各ＣＴＵのシンタックス要素を含む。可変長コーディングおよび算術コーディングの使用は、ビットストリームの各部分内での逐次的な構文解析を必要とする。部分は、「ネットワーク抽象化レイヤユニット」または「ＮＡＬユニット」を形成するための開始コードで描写され得る。算術コーディングは、コンテキスト適応型バイナリ算術コーディングプロセスを使用してサポートされる。算術的にコード化されたシンタックス要素は、１つ以上の「ビン」のシーケンスからなる。ビンはビットと同様に、「０」または「１」の値を有する。しかしながら、ビンは、ディスクリートビットとしてビットストリーム１１５内に符号化されない。ビンは、関連する予測（または「可能性が高い」または「最も可能性が高い」）値と、「コンテキスト」として知られる関連する確率とを有する。符号化されるべき実際のビンが予測値と一致する場合、「最確シンボル」（ＭＰＳ）が符号化される。最確シンボルを符号化することは、ビットストリーム１１５内の消費ビットに関して比較的安価であり、１つ未満のディスクリートビットに相当するコストを含む。符号化される実際のビンが可能性のある値と一致しない場合、「最低確率シンボル」（ＬＰＳ）が符号化される。最も可能性の低いシンボルを符号化することは、消費されるビットに関して比較的高いコストを有する。ビン符号化技法は、「０」対「１」の確率が歪んでいるビンの効率的な符号化を可能にする。２つの可能な値（すなわち「フラグ」）を有するシンタックス要素については、単一のビンで十分である。多くの可能な値を有するシンタックス要素の場合、ビンのシーケンスが必要とされる。

シーケンス中の後のビンの存在は、シーケンス中の前のビンの値に基づいて決定され得る。さらに、各ビンは、２つ以上のコンテキストに関連付けられ得る。特定のコンテキストの選択は、シンタックス要素中の前のビン、隣接するシンタックス要素のビン値（すなわち、隣接するブロックからのもの）などに依存し得る。コンテキストコーディングされたビンが符号化されるたびに、そのビン（もしあれば）のために選択されたコンテキストは、新しいビン値を反映する方法で更新される。このように、バイナリ算術符号化方式は、適応的であると言われる。

また、ビデオエンコーダ１１４によってサポートされるのは、コンテキストを欠くビン（「バイパスビン」）である。バイパスビンは、「０」と「１」との間の等確率分布を仮定して符号化される。したがって、各ビンは、ビットストリーム１１５中の１ビットのコードコストを有する。コンテキストがないことは、メモリを節約し、複雑さを低減し、したがって、バイパスビンは特定のビンの値の分布が歪まない場合に使用される。コンテキストおよび適応を使用するエントロピーコーダの一例は、ＣＡＢＡＣ（コンテキスト適応型バイナリ算術コーダ）として当技術分野で知られており、このコーダの多くの変形例がビデオコーディングにおいて使用されている。

エントロピーエンコーダ３３８は、量子化パラメータ３９２を符号化し、現在のＣＢのために使用されている場合、ＬＦＮＳＴインデックス３８８を、コンテキストコーディングされたビンとバイパスコーディングされたビンとの組合せを使用して符号化する。量子化パラメータ３９２は、「デルタＱＰ」を使用して符号化される。デルタＱＰは、「量子化グループ」として知られる各エリアにおいて最大で１回シグナリングされる。量子化パラメータ３９２は、ルマＣＢの残差係数に適用される。調整された量子化パラメータが、コロケートされたクロマＣＢの残差係数に適用される。調整された量子化パラメータは、オフセットのリストから選択されたマッピングテーブルおよびＣＵレベルオフセットに従ってルマ量子化パラメータ３９２からマッピングすることを含み得る。二次変換インデックス３８８は、変換ブロックに関連する残差が二次変換の適用によって一次係数に変換される係数位置にのみ有意な残差係数を含むときにシグナリングされる。

マルチプレクサモジュール３８４は、各候補ＣＢのテストされた予測モードから選択された、決定された最良のイントラ予測モードに従って、イントラフレーム予測モジュール３６４からＰＢ３２０を出力する。候補予測モードは、ビデオエンコーダ１１４によってサポートされるすべての考えられる予測モードを含む必要はない。イントラ予測は、３つのタイプに分類される。「ＤＣイントラ予測」は、ＰＢに、近くの再構成サンプルの平均を表す単一の値をポピュレートすることを含む。「平面イントラ予測」は、ＰＢに、平面に従ってサンプルをポピュレートすることを含み、ＤＣオフセットおよび垂直および水平勾配は、近くの再構成された隣接するサンプルから導出される。近隣の再構成されたサンプルは、典型的には、ある程度までＰＢの右に延在する、現在のＰＢの上の再構成されたサンプルの行と、ある程度までＰＢを超えて下方に延在する、現在のＰＢの左に再構成されたサンプルの列とを含む。「角度イントラ予測」は、ＰＢに、特定の方向（または「角度」）にフィルタリングされ、ＰＢにわたって伝搬された再構成された隣接サンプルをポピュレートすることを含む。ＶＶＣでは、６５の角度がサポートされ、矩形ブロックは合計８７の角度を生成するために、正方形ブロックには利用できない追加の角度を利用することができる。クロマＰＢには第４のタイプのイントラ予測が利用可能であり、それによりＰＢは「クロス構成要素線形モデル」（ＣＣＬＭ）モードに従ってコロケートルマ再構成サンプルから生成される。３つの異なるＣＣＬＭモードが利用可能であり、各モードは、隣接するルマサンプルおよびクロマサンプルから導出された異なるモデルを使用する。導出されたモデルは、コロケートされたルマサンプルからクロマＰＢのためのサンプルのブロックを生成するために使用される。

以前に再構成されたサンプルが利用できない場合、例えば、フレームのエッジにおいて、サンプルの範囲の半分のデフォルトハーフトーン値が使用される。例えば、１０ビットビデオの場合、５１２の値が使用される。フレームの左上位置に配置されたＣＢに対して以前はサンプルが利用可能ではないので、角度および平面イントラ予測モードはＤＣ予測モードと同じ出力、すなわち、大きさとしてハーフトーン値を有するサンプルの平面を生成する。

インターフレーム予測の場合、予測ブロック３８２は、動き補償モジュール３８０によってビットストリーム内の符号化順序フレームにおいて現在のフレームに先行する１つまたは２つのフレームからのサンプルを使用して生成され、マルチプレクサモジュール３８４によってＰＢ３２０として出力される。さらに、インターフレーム予測の場合、単一のコーディングツリーが典型的には、ルマチャネルとクロマチャネルの両方のために使用される。ビットストリーム中のフレームをコーディングする順序は、撮像または表示されたときのフレームの順序とは異なり得る。１つのフレームが予測のために使用されるとき、ブロックは「単予測」であると言われ、１つの関連する動きベクトルを有する。２つのフレームが予測のために使用されるとき、ブロックは「双予測」であると言われ、２つの関連する動きベクトルを有する。Ｐスライスの場合、各ＣＵは、イントラ予測または単予測され得る。Ｂスライスの場合、各ＣＵは、イントラ予測、単予測、または双予測され得る。フレームは、典型的には「ピクチャのグループ」構造を使用してコーディングされ、フレームの時間的階層を可能にする。フレームは複数のスライスに分割され得、スライスの各々はフレームの一部分を符号化する。フレームの時間的階層は、フレームを表示する順序で、フレームが前後のピクチャを参照することを可能にする。画像は、各フレームを復号するための依存性が満たされることを保証するために必要な順序で符号化される。

サンプルは、動きベクトル３７８および参照ピクチャインデックスに従って選択される。動きベクトル３７８および参照ピクチャインデックスは、すべてのカラーチャネルに適用され、したがって、インター予測はＰＢではなくＰＵ上での動作に関して主に説明され、すなわち、各ＣＴＵの１つまたは複数のインター予測されたブロックへの分解は、単一のコーディングツリーを用いて説明される。インター予測方法は、動きパラメータの数およびそれらの精度において変化し得る。動きパラメータは典型的には、参照フレームのリストからのどの参照フレームが使用されるべきかを示す参照フレームインデックスと、参照フレームの各々のための空間変換とを備えるが、より多くのフレーム、専用のフレーム、またはスケーリングおよび回転などの複雑なアフィンパラメータを含み得る。加えて、所定の動き精緻化処理が適用されて、参照されたサンプルブロックに基づいて密な動き推定を生成し得る。

ＰＢ３２０を決定して選択し、減算器３２２でオリジナルのサンプルブロックからＰＢ３２０を減算すると、３２４として表される最も低い符号化コストを有する残差が得られ、非可逆圧縮を受ける。非可逆圧縮プロセスは、変換、量子化、およびエントロピー符号化のステップを含む。順方向一次変換モジュール３２６は、差分３２４に順方向変換を適用し、差分３２４を空間領域から周波数領域に変換し、矢印３２８によって表される一次変換係数を生成する。一次元における最大の一次変換サイズは、シーケンスパラメータセット中の「ｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇ」によって設定される３２ポイントＤＣＴ－２または６４ポイントＤＣＴ－２変換のいずれかである。符号化されるＣＢがブロックサイズとして表される最大のサポートされる一次変換サイズ、たとえば、６４×６４または３２×３２よりも大きい場合、一次変換３２６は、タイル化された方法で適用されて、差分３２４のすべてのサンプルを変換する。非正方形ＣＢが使用される場合、タイリングはまた、ＣＢの各寸法において最大の利用可能な変換サイズを使用して実行される。たとえば、３２の最大変換サイズが使用される場合、６４×１６ＣＢは、タイル方式で構成された２つの３２×１６一次変換を使用する。ＣＢが最大のサポートされる変換サイズよりもサイズが大きい場合、ＣＢはタイル状にＴＢで埋められる。例えば、６４－ｐｔ変換最大サイズを有する１２８×１２８ＣＢは、２×２配置で４つの６４×６４ＴＢで埋められる。３２－ｐｔ変換最大サイズを有する６４×１２８ＣＢは、２×４配置で８つの３２×３２ＴＢで埋められる。

変換３２６の適用は、ＣＢのための複数のＴＢをもたらす。変換の各アプリケーションが３２×３２よりも大きい差分３２４、例えば、６４×６４のＴＢに対して動作する場合、ＴＢの左上の３２×３２エリアの外側のすべての結果として生じる一次変換係数３２８はゼロに設定され、すなわち、破棄される。残りの一次変換係数３２８は、量子化器モジュール３３４に渡される。一次変換係数３２８は、ＣＢに関連する量子化パラメータ３９２に従って量子化されて、一次変換係数３３２を生成する。量子化パラメータ３９２に加えて、量子化器モジュール３３４はまた、ＴＢ内のそれらの空間位置に従って残差係数をさらにスケーリングすることによって、ＴＢ内の不均一量子化を可能にするために「スケーリングリスト」を適用し得る。量子化パラメータ３９２は、ルマＣＢ対各クロマＣＢについて異なり得る。一次変換係数３３２は、順方向二次変換モジュール３３０に渡され、非分離可能二次変換（ＮＳＳＴ）動作を実行するか、または二次変換をバイパスすることによって、矢印３３６によって表される変換係数を生成する。順方向一次変換は典型的には分離可能であり、行のセット、次いで、各ＴＢの列のセットを変換する。順方向一次変換モジュール３２６は、水平方向および垂直方向におけるタイプＩＩ離散コサイン変換（ＤＣＴ－２）、または水平方向および垂直方向における変換のバイパス、または幅および高さが１６サンプルを超えないルマＴＢについて水平方向または垂直方向におけるタイプＶＩＩ離散サイン変換（ＤＳＴ－７）とタイプＶＩＩＩ離散コサイン変換（ＤＣＴ－８）との組合せのいずれかを使用する。ＤＳＴ－７とＤＣＴ－８との組み合わせの使用は、ＶＶＣ標準において「多重変換選択セット」（ＭＴＳ）と呼ばれる。

モジュール３３０の順方向二次変換は概して、非分離可能変換であり、それは、イントラ予測されたＣＵの残差に対してのみ適用され、それにもかかわらず、バイパスされ得る。順方向二次変換は、１６個のサンプル（一次変換係数３２８の左上の４×４サブブロックとして構成される）または４８個のサンプル（一次変換係数３２８の左上の８×８係数において３つの４×４サブブロックとして構成される）のいずれかに対して動作して、二次変換係数のセットを生成する。二次変換係数のセットは、それらが導出される一次変換係数のセットよりも数が少なくてもよい。互いに隣接し、ＤＣ係数を含む係数のセットのみに二次変換を適用することにより、二次変換は、「低周波数非分離可能二次変換」（ＬＦＮＳＴ）と呼ばれる。さらに、ＬＦＮＳＴが適用される場合、ＴＢ中のすべての残りの係数は、一次変換領域および二次変換領域の両方において、ゼロでなければならない。

量子化パラメータ３９２は、所与のＴＢについて一定であり、したがって、ＴＢについての一次変換領域における残差係数の生成のための均一なスケーリングをもたらす。量子化パラメータ３９２は、シグナリングされた「デルタ量子化パラメータ」とともに周期的に変化し得る。デルタ量子化パラメータ（デルタＱＰ）は、「量子化グループ」と呼ばれる、所与のエリア内に含まれるＣＵについて１回シグナリングされる。ＣＵが量子化グループサイズよりも大きい場合、デルタＱＰは、ＣＵのＴＢのうちの１つを用いて１回シグナリングされる。すなわち、デルタＱＰは、ＣＵの第１の量子化グループについて１回エントロピーエンコーダ３３８によってシグナリングされ、ＣＵの任意の後続の量子化グループについてはシグナリングされない。「量子化行列」を適用することによって、不均一なスケーリングも可能であり、それによって、各残差係数に適用されるスケーリング係数は、量子化パラメータ３９２と、スケーリング行列における対応するエントリとの組合せから導出される。スケーリング行列は、ＴＢのサイズよりも小さいサイズを有することができ、ＴＢに適用される場合、ＴＢサイズよりも小さいサイズのスケーリング行列から各残差係数のためのスケーリング値を提供するために、最近傍アプローチが使用される。残差係数３３６は、ビットストリーム１１５における符号化のためにエントロピーエンコーダ３３８に供給される。典型的には、ＴＵの少なくとも１つの有意な残差係数を有する各ＴＢの残差係数がスキャンパターンに従って、値の順序付けられたリストを生成するためにスキャンされる。スキャンパターンは一般に、４×４「サブブロック」のシーケンスとしてＴＢをスキャンし、４×４セットの残差係数の粒度で規則的なスキャン動作を提供し、サブブロックの配置は、ＴＢのサイズに依存する。各サブブロック内のスキャンおよび１つのサブブロックから次への進行は、典型的には後方斜めスキャンパターンに従う。さらに、量子化パラメータ３９２は、デルタＱＰシンタックス要素を使用してビットストリーム１１５に符号化され、二次変換インデックス３８８はビットストリーム１１５に符号化される。

上述したように、ビデオエンコーダ１１４は、ビデオデコーダ１３４に見られる復号されたフレーム表現に対応するフレーム表現にアクセスする必要がある。したがって、残差係数３３６は、逆二次変換モジュール３４４を通過し、二次変換インデックス３８８に従って動作して、矢印３４２によって表される中間逆変換係数を生成する。中間逆変換係数は、量子化パラメータ３９２に従って逆量子化モジュール３４０によって逆量子化され、矢印３４６によって表される逆変換係数を生成する。逆量子化モジュール３４０はまた、量子化モジュール３３４において実行される順方向スケーリング（forward scaling）に対応する、スケーリングリストを使用して残差係数の逆不均一スケーリングを実行し得る。中間逆変換係数３４６は、逆一次変換モジュール３４８に渡されて、ＴＵの、矢印３５０によって表される残差サンプルを生成する。逆一次変換モジュール３４８は、順方向一次変換モジュール３２６を参照して説明したように、最大の利用可能な変換サイズによって制約されて、ＤＣＴ－２変換を水平および垂直に適用する。逆二次変換モジュール３４４によって実行される逆変換のタイプは、順方向二次変換モジュール３３０によって実行される順方向変換のタイプに対応する。逆一次変換モジュール３４８によって実行される逆変換のタイプは、一次変換モジュール３２６によって実行される一次変換のタイプに対応する。加算モジュール３５２は、残差サンプル３５０およびＰＵ３２０を加算して、ＣＵの再構成されたサンプル（矢印３５４によって示される）を生成する。

再構成されたサンプル３５４は、参照サンプルキャッシュ３５６およびループ内フィルタモジュール３６８に渡される。通常、ＡＳＩＣ上のスタティックＲＡＭを使用して実装される（したがって、高価なオフチップメモリアクセスを回避する）参照サンプルキャッシュ３５６は、フレーム内の後続のＣＵのためのイントラフレームＰＢを生成するための依存性を満たすために必要とされる最小限のサンプル記憶を提供する。最小依存性は、典型的にはＣＴＵの次の行による使用のためのＣＴＵの行の底部に沿ったサンプルの「ラインバッファ」と、ＣＴＵの高さによってその範囲が設定される列バッファリングと、を含む。参照サンプルキャッシュ３５６は、参照サンプル（矢印３５８によって表される）を参照サンプルフィルタ３６０に供給する。サンプルフィルタ３６０は、平滑化演算を適用して、フィルタリングされた参照サンプルを生成する（矢印３６２によって示される）。フィルタリングされた参照サンプル３６２は、イントラフレーム予測モジュール３６４によって使用されて、矢印３６６によって表される、サンプルのイントラ予測されたブロックを生成する。各候補イントラ予測モードについて、イントラフレーム予測モジュール３６４は、サンプルのブロック、すなわち３６６を生成する。サンプルのブロック３６６は、ＤＣ、平面、または角度イントラ予測などの技法を使用して、モジュール３６４によって生成される。

ループ内フィルタモジュール３６８は、再構成されたサンプル３５４にいくつかのフィルタリングステージを適用する。フィルタリングステージは、不連続性に起因するアーチファクトを低減するためにＣＵ境界に整列された平滑化を適用する「デブロッキングフィルタ」（ＤＢＦ）を含む。インループフィルタモジュール３６８に存在する別のフィルタリングステージは、「適応ループフィルタ」（ＡＬＦ）であり、これは、ウィナーベースの適応フィルタを適用して、歪みをさらに低減する。ループ内フィルタモジュール３６８においてさらに利用可能なフィルタリングステージは、「サンプル適応オフセット」（ＳＡＯ）フィルタである。ＳＡＯフィルタは最初に、再構成されたサンプルを１つまたは複数のカテゴリに分類し、割り当てられたカテゴリに従って、サンプルレベルでオフセットを適用することによって動作する。

矢印３７０によって表されるフィルタリングされたサンプルは、インループフィルタモジュール３６８から出力される。フィルタリングされたサンプル３７０は、フレームバッファ３７２に格納される。フレームバッファ３７２は典型的にはいくつかの（例えば、最大１６個の）ピクチャを格納するための容量を有し、したがって、メモリ２０６に格納される。フレームバッファ３７２は通常、必要とされる大きなメモリ消費のために、オンチップメモリを使用して格納されない。したがって、フレームバッファ３７２へのアクセスは、メモリ帯域幅の点でコストがかかる。フレームバッファ３７２は、参照フレーム（矢印３７４によって表される）を動き推定モジュール３７６および動き補償モジュール３８０に提供する。

動き推定モジュール３７６は（３７８として示される）いくつかの「動きベクトル」を推定し、各々は現在のＣＢの位置からのデカルト空間オフセットであり、フレームバッファ３７２中の参照フレームのうちの１つの中のブロックを参照する。参照サンプルのフィルタリングされたブロック（３８２として表される）が、動きベクトルごとに生成される。フィルタリングされた参照サンプル３８２は、モードセレクタ３８６による潜在的な選択のために利用可能なさらなる候補モードを形成する。さらに、所与のＣＵについて、ＰＵ３２０は、１つの参照ブロック（「ｕｎｉ－ｐｒｅｄｉｃｔｅｄ」）を使用して形成され得るか、または２つの参照ブロック（「ｂｉ－ｐｒｅｄｉｃｔｅｄ」）を使用して形成され得る。選択された動きベクトルについて、動き補償モジュール３８０は、動きベクトルにおけるサブピクセル精度をサポートするフィルタリング処理に従ってＰＢ３２０を生成する。したがって、（多くの候補動きベクトルに対して動作する）動き推定モジュール３７６は、（選択された候補のみに対して動作する）動き補償モジュール３８０のものと比較して簡略化されたフィルタリング処理を実行して、低減された計算量を達成することができる。ビデオエンコーダ１１４がＣＵのためのインター予測を選択する場合、動きベクトル３７８は、ビットストリーム１１５に符号化される。

図３のビデオエンコーダ１１４は汎用ビデオコーディング（ＶＶＣ）を参照して説明されるが、他のビデオコーディング規格または実装形態はまた、モジュール３１０～３９０の処理ステージを採用し得る。フレームデータ１１３（およびビットストリーム１１５）はまた、メモリ２０６、ハードディスクドライブ２１０、ＣＤ－ＲＯＭ、ブルーレイディスク^TM、または他のコンピュータ可読記憶媒体から読み出される（またはこれらに書き込まれる）ことができる。さらに、フレームデータ１１３（およびビットストリーム１１５）は、通信ネットワーク２２０または無線周波数受信機に接続されたサーバなどの外部ソースから受信（または外部ソースに送信）され得る。通信ネットワーク２２０は、制限された帯域幅を提供することができ、フレームデータ１１３を圧縮することが困難なときにネットワークを飽和させることを回避するために、ビデオエンコーダ１１４におけるレート制御の使用を必要とする。さらに、ビットストリーム１１５は、プロセッサ２０５の制御下で協調的に動作する、ビデオエンコーダ１１４の１つまたは複数のインスタンスによって生成された、フレームデータ１１３の空間セクション（ＣＴＵのコレクション）を表す１つまたは複数のスライスから構築され得る。本開示のコンテンツでは、スライスがビットストリームの「連続部分」と呼ばれることもある。スライスはビットストリーム内で連続しており、例えば、並列処理が使用されている場合、別個の部分として符号化または復号することができる。

ビデオデコーダ１３４を図４に示す。図４のビデオデコーダ１３４は汎用ビデオコーディング（ＶＶＣ）ビデオ復号パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。図４に示すように、ビットストリーム１３３は、ビデオデコーダ１３４に入力される。ビットストリーム１３３は、メモリ２０６、ハードディスクドライブ２１０、ＣＤ－ＲＯＭ、ブルーレイディスク^TM、または他の非一時的コンピュータ可読記憶媒体から読み出され得る。あるいは、ビットストリーム１３３が通信ネットワーク２２０または無線周波数受信機に接続されたサーバなどの外部ソースから受信されてもよい。ビットストリーム１３３は、復号されるべき撮像されたフレームデータを表す符号化されたシンタックス要素を含む。

ビットストリーム１３３は、エントロピーデコーダモジュール４２０に入力される。エントロピーデコーダモジュール４２０は、「ビン」のシーケンスを復号することによってビットストリーム１３３からシンタックス要素を抽出し、シンタックス要素の値をビデオデコーダ１３４内の他のモジュールに渡す。エントロピーデコーダモジュール４２０は、可変長および固定長復号を使用して、算術復号エンジンのＳＰＳ、ＰＰＳ、またはスライスヘッダを復号し、スライスデータのシンタックス要素を１つまたは複数のビンのシーケンスとして復号する。各ビンは、１つまたは複数の「コンテキスト」を使用することができ、コンテキストは、ビンの「１」値および「０」値をコーディングするために使用される確率レベルを記述する。所与のビンについて複数のコンテキストが利用可能である場合、「コンテキストモデリング」または「コンテキスト選択」ステップが実行されて、ビンを復号するために利用可能なコンテキストのうちの１つが選択される。ビンを復号するプロセスは、シーケンシャルフィードバックループを形成し、したがって、各スライスは、所与のエントロピーデコーダ４２０のインスタンスによってスライス全体において復号され得る。単一の（または少数の）高性能エントロピーデコーダ４２０インスタンスは、ビットストリーム１１５からのフレームのすべてのスライスを復号することができ、複数の低性能エントロピーデコーダ４２０インスタンスは、ビットストリーム１３３からのフレームのスライスを同時に復号することができる。

エントロピーデコーダモジュール４２０は、算術符号化アルゴリズム、例えば「コンテキスト適応型バイナリ算術符号化」（ＣＡＢＡＣ）を適用して、ビットストリーム１３３からシンタックス要素を復号する。復号されたシンタックス要素は、ビデオデコーダ１３４内のパラメータを再構成するために使用される。パラメータは、残差係数（矢印４２４によって表される）、量子化パラメータ４７４、二次変換インデックス４７０、およびイントラ予測モード（矢印４５８によって表される）などのモード選択情報を含む。モード選択情報はまた、動きベクトル、および各ＣＴＵの１つまたは複数のＣＢへの区分などの情報を含む。パラメータはＰＢを生成するために使用され、典型的には以前に復号されたＣＢからのサンプルデータと組み合わせられる。

残差係数４２４は、二次変換インデックスに従って動作が実行されない（バイパス）、または二次変換が適用される場合に、逆二次変換モジュール４３６に渡される。逆二次変換モジュール４３６は、二次変換領域係数から、再構成された変換係数４３２、すなわち一次変換領域係数を生成する。再構成された変換係数４３２は、逆量子化器モジュール４２８に入力される。逆量子化器モジュール４２８は、量子化パラメータ４７４に従って、矢印４４０によって表される、再構成された中間変換係数を作成するために、残差係数４３２、すなわち、一次変換係数領域において、逆量子化（または「スケーリング」）を実行する。逆量子化器モジュール４２８は、逆量子化器モジュール３４０の動作に対応する、ＴＢ内で非均一な逆量子化を提供するために、スケーリングマトリックスを適用することもできる。非均一逆量子化行列を使用することがビットストリーム１３３に示される場合、ビデオデコーダ１３４は、ビットストリーム１３３から量子化行列をスケーリングファクタのシーケンスとして読み出し、スケーリングファクタを行列に配置する。逆スケーリングは、量子化パラメータと組み合わせて量子化行列を使用して、再構成された中間変換係数４４０を作成する。

再構成された変換係数４４０は、逆一次変換モジュール４４４に渡される。モジュール４４４は、係数４４０を周波数領域から空間領域に戻すように変換する。逆一次変換モジュール４４４は、順方向一次変換モジュール３２６を参照して説明したように、最大利用可能変換サイズによって制約された、逆ＤＣＴ－２変換を水平および垂直に適用する。モジュール４４４の動作の結果は、矢印４４８によって表される残差サンプルのブロックである。残差サンプル４４８のブロックは、サイズにおいて、対応するＣＢに等しい。残差サンプル４４８は、加算モジュール４５０に供給される。加算モジュール４５０において、残差サンプル４４８は、復号されたＰＢ（４５２として表される）に加算されて、矢印４５６によって表される、再構成されたサンプルのブロックを生成する。再構成されたサンプル４５６は、再構成されたサンプルキャッシュ４６０およびループ内フィルタリングモジュール４８８に供給される。ループ内フィルタリングモジュール４８８は、４９２として表される、フレームサンプルの再構成されたブロックを生成する。フレームサンプル４９２は、フレームバッファ４９６に書き込まれる。

再構成されたサンプルキャッシュ４６０は、ビデオエンコーダ１１４の再構成されたサンプルキャッシュ３５６と同様に動作する。再構成されたサンプルキャッシュ４６０は、メモリ２０６なしで後続のＣＢをイントラ予測するのに必要な再構成されたサンプルのための記憶を提供する（例えば、通常はオンチップメモリであるデータ２３２を代わりに使用することによって）。矢印４６４によって表される参照サンプルは、再構成されたサンプルキャッシュ４６０から取得され、参照サンプルフィルタ４６８に供給されて、矢印４７２によって示されるフィルタリングされた参照サンプルを生成する。フィルタリングされた参照サンプル４７２は、イントラフレーム予測モジュール４７６に供給される。モジュール４７６は、ビットストリーム１３３においてシグナリングされ、エントロピーデコーダ４２０によって復号されたイントラ予測モードパラメータ４５８に従って、矢印４８０によって表されるイントラ予測サンプルのブロックを生成する。サンプルブロック４８０は、ＤＣ、平面、または角度イントラ予測などのモードを使用して生成される。

ＣＢの予測モードがビットストリーム１３３においてイントラ予測を使用するように示される場合、イントラ予測サンプル４８０は、マルチプレクサモジュール４８４を介して復号ＰＢ４５２を形成する。イントラ予測は、サンプルの予測ブロック（ＰＢ）、すなわち、同じ色成分における「隣接サンプル」を使用して導出される１つの色成分におけるブロックを生成する。隣接するサンプルは、現在のブロックに隣接するサンプルであり、ブロック復号順序に先行することによって、すでに再構成されている。ルマブロックとクロマブロックとが併置される場合、ルマブロックとクロマブロックとは異なるイントラ予測モードを使用し得る。しかしながら、２つのクロマＣＢは、同じイントラ予測モードを共有する。

ＣＢの予測モードがビットストリーム１３３におけるインター予測であることが示される場合、動き補償モジュール４３４は、フレームバッファ４９６からサンプルのブロック４９８を選択してフィルタリングするために、（エントロピーデコーダ４２０によってビットストリーム１３３から復号された）動きベクトルと参照フレームインデックスとを使用して、４３８として表されるインター予測されたサンプルのブロックを生成する。サンプルのブロック４９８は、フレームバッファ４９６に格納された以前に復号されたフレームから取得される。双予測の場合、サンプルの２つのブロックが生成され、一緒にブレンドされて、復号されたＰＢ４５２のためのサンプルが生成される。フレームバッファ４９６は、ループ内フィルタリングモジュール４８８からのフィルタリングされたブロックデータ４９２でポピュレートされる。ビデオエンコーダ１１４のループ内フィルタリングモジュール３６８と同様に、ループ内フィルタリングモジュール４８８は、ＤＢＦ、ＡＬＦ、およびＳＡＯフィルタリング動作のいずれかを適用する。一般に、動きベクトルは、ルマチャネルとクロマチャネルの両方に適用されるが、ルマチャネルとクロマチャネルにおけるサブサンプル補間のためのフィルタリング処理は異なる。

図５は、汎用ビデオコーディングのツリー構造における、領域の１つまたは複数のサブ領域への利用可能な分割またはスプリットの集合５００を示す概略ブロック図である。図３を参照して説明したように、エンコーダ１１４のブロックパーティショナ３１０には、コーディングツリーに従って各ＣＴＵを１つまたは複数のＣＵまたはＣＢに分割するために、集合５００に示される分割を利用することができる。

集合５００は他への、場合によっては非正方形のサブ領域に分割される正方形領域のみを示すが、集合５００は、コーディングツリー内の親ノードの、コーディングツリー内の子ノードへの潜在的な分割を示しており、正方形領域に対応することを親ノードに要求しないことを理解されたい。包含領域が非正方形である場合、分割から得られるブロックの寸法は、包含ブロックのアスペクト比に従ってスケーリングされる。領域がさらに分割されない場合、すなわち、コーディングツリーのリーフノードにおいて、ＣＵがその領域を占有する。

領域をサブ領域にサブ分割するプロセスは、結果として得られるサブ領域が最小ＣＵサイズ、一般に４×４ルマサンプルに達した場合に終了しなければならない。所定の最小サイズ、例えば１６サンプルよりも小さいブロック領域を禁止するようにＣＵを制約することに加えて、ＣＵは、４の最小幅または高さを有するように制約される。幅および高さの両方に関して、または幅または高さに関して、他の最小値も可能である。サブ分割のプロセスは、分解の最深レベルの前に終了することもでき、その結果、最小ＣＵサイズよりも大きいＣＵが得られる。分割が起こらず、結果として単一のＣＵがＣＴＵの全体を占有することが可能である。ＣＴＵの全体を占める単一のＣＵは、最大の利用可能なコーディングユニットサイズである。４：２：０などのサブサンプリングされたクロマフォーマットの使用のために、ビデオエンコーダ１１４およびビデオデコーダ１３４の構成は、ルマチャネルおよびクロマチャネルのブロック構造を定義する共有コーディングツリーの場合を含めて、ルマチャネル中よりも早いクロマチャネル中の領域のスプリットを終了し得る。別個のコーディングツリーがルマおよびクロマのために使用される場合、利用可能な分割動作に関する制約は、１６サンプルの最小クロマＣＢ領域を保証するが、そのようなＣＢは、より大きいルマ領域、たとえば、６４のルマサンプルとコロケートされる。

コーディングツリーのリーフノードには、ＣＵが存在し、さらなるサブ分割は存在しない。例えば、リーフノード５１０は、１つのＣＵを含む。コーディングツリーの非リーフノードには２つ以上のさらなるノードへの分割が存在し、その各々は１つのＣＵを形成するリーフノード、またはより小さい領域へのさらなる分割を含む非リーフノードとすることができる。コーディングツリーの各リーフノードにおいて、各カラーチャネルに対して１つのコーディングブロックが存在する。ルマとクロマの両方について同じ深度で終端するスプリットは、３つのコロケートされたＣＢをもたらす。クロマに対するよりもルマに対するより深い深度で終端するスプリットは、複数のルマＣＢがクロマチャネルのＣＢとコロケートされることをもたらす。

４分木スプリット５１２は、図５に示すように、包含領域を４つの等しいサイズの領域に分割する。ＨＥＶＣと比較して、汎用ビデオコーディング（ＶＶＣ）は、水平バイナリスプリット５１４および垂直バイナリスプリット５１６を含む追加のスプリットを伴う追加の柔軟性を達成する。スプリット５１４および５１６の各々は、包含領域を２つの等しいサイズの領域に分割する。分割は、包含ブロック内の水平境界（５１４）または垂直境界（５１６）のいずれかに沿っている。

さらなる柔軟性は、３値水平スプリット５１８および３値垂直スプリット５２０を追加することによって、汎用ビデオコーディングにおいて達成される。３値スプリット５１８および５２０は、ブロックを、包含領域の幅または高さの１／４および３／４に沿って水平方向（５１８）または垂直方向（５２０）のいずれかに境界付けられた３つの領域に分割する。４分木、２分木、３分木の組合せをＱＴＢＴＴＴと呼ぶ。ツリーのルートは、ゼロ以上の四分木分割（ツリーの「ＱＴ」セクション）を含む。ＱＴセクションが終了すると、０個以上のバイナリまたは３値分割（ツリーの「マルチツリー」または「ＭＴ」セクション）が生じ、最後にツリーのリーフノードのＣＢまたはＣＵで終了する。ツリーがすべてのカラーチャネルを記述する場合、ツリーリーフノードはＣＵである。ツリーがルマチャネルまたはクロマチャネルを記述する場合、ツリーリーフノードはＣＢである。

四分木ツリーのみをサポートし、したがって正方形ブロックのみをサポートするＨＥＶＣと比較して、ＱＴＢＴＴは、特にバイナリツリーおよび／または三値ツリー分割の可能な再帰的適用を考慮して、より多くの可能なＣＵサイズをもたらす。四分木分割のみが利用可能である場合、コーディングツリー深度の各増加は、ＣＵサイズの、親エリアのサイズの４分の１への低減に対応する。ＶＶＣでは、コーディングツリー深度がＣＵエリアに直接的に対応しないことを、バイナリ分割と３値分割の利用可能性が意味する。異常な（非正方形の）ブロックサイズの可能性は、４サンプル未満であるか、または４サンプルの倍数ではないかのいずれかであるブロック幅または高さをもたらすスプリットを排除するためにスプリットオプションを制約することによって低減することができる。一般に、制約は、ルマサンプルを考慮する際に適用される。しかしながら、説明される構成では、制約がクロマチャネルのためのブロックに別個に適用され得る。クロマチャネルにオプションを分割するための制約の適用は例えば、フレームデータが４：２：０クロマフォーマットまたは４：２：２クロマフォーマットである場合、ルマ対クロマのための異なる最小ブロックサイズをもたらし得る。各分割は、包含領域に関して、側面の寸法が変更されていない、半分になっている、または４分の１になっているサブ領域が生成される。そして、ＣＴＵサイズは２のべき乗であるので、全てのＣＵの側面の寸法も２のべき乗である。

図６は、汎用ビデオ符号化で使用されるＱＴＢＴＴＴ（または「コーディングツリー」）構造のデータフロー６００を示す概略フロー図である。ＱＴＢＴＴＴ構造は、ＣＴＵの１つまたは複数のＣＵへの分割を定義するために、各ＣＴＵに対して使用される。各ＣＴＵのＱＴＢＴＴＴ構造は、ビデオエンコーダ１１４内のブロックパーティショナ３１０によって決定され、ビットストリーム１１５に符号化されるか、またはビデオデコーダ１３４内のエントロピーデコーダ４２０によってビットストリーム１３３から復号される。データフロー６００はさらに、図５に示される分割に従って、ＣＴＵを１つまたは複数のＣＵに分割するためにブロックパーティショナ３１０に利用可能な許容可能な組合せを特徴付ける。

階層の最上位レベル、すなわちＣＴＵから始めて、ゼロまたはそれ以上の四分木分割が最初に実行される。具体的には、四分木（ＱＴ）分割決定６１０がブロックパーティショナ３１０によって行われる。「１」シンボルを返す６１０での決定は、四分木分割５１２に従って現在のノードを４つのサブノードに分割する決定を示す。その結果、６２０などの、４つの新しいノードが生成され、各新しいノードについて、ＱＴ分割決定６１０に戻る。各新しいノードは、ラスタ（またはＺスキャン）順序で考慮される。あるいは、ＱＴ分割決定６１０がさらなる分割が実行されるべきでないことを示す（「０」シンボルを返す）場合、四分木分割は停止し、マルチツリー（ＭＴ）分割がその後考慮される。

まず、ＭＴ分割決定６１２がブロックパーティショナ３１０によって行われる。６１２において、ＭＴ分割を実行する決定が示される。決定６１２で「０」のシンボルを返すことは、ノードのサブノードへのそれ以上の分割が実行されないことを示す。ノードのそれ以上の分割が実行されない場合、ノードはコーディングツリーのリーフノードであり、ＣＵに対応する。リーフノードは６２２で出力される。あるいは、ＭＴ分割６１２がＭＴ分割を実行する決定を示す（「１」シンボルを返す）場合、ブロックパーティショナ３１０は方向決定６１４に進む。

方向決定６１４は、水平（「Ｈ」または「０」）または垂直（「Ｖ」または「１」）のいずれかとしてＭＴ分割の方向を示す。ブロックパーティショナ３１０は、決定６１４が水平方向を示す「０」を返す場合、決定６１６に進む。ブロックパーティショナ３１０は、決定６１４が垂直方向を示す「１」を返す場合、決定６１８に進む。

決定６１６および６１８のそれぞれにおいて、ＭＴ分割のパーティション数は、ＢＴ／ＴＴ分割で２つ（バイナリ分割または「ＢＴ」ノード）または３つ（３値分割または「ＴＴ」）のいずれかとして示される。すなわち、ＢＴ／ＴＴ分割決定６１６は、６１４からの指示された方向が水平であるときにブロックパーティショナ３１０によって行われ、ＢＴ／ＴＴ分割決定６１８は、６１４からの指示された方向が垂直であるときにブロックパーティショナ３１０によって行われる。

ＢＴ／ＴＴ分割決定６１６は、水平分割が「０」を返すことによって示されるバイナリ分割５１４であるか、「１」を返すことによって示される３値分割５１８であるかを示す。ＢＴ／ＴＴ分割決定６１６がバイナリ分割を示す場合、ＨＢＴＣＴＵノード生成ステップ６２５において、水平バイナリ分割５１４に従って、２つのノードがブロックパーティショナ３１０によって生成される。ＢＴ／ＴＴ分割６１６が３値分割を示す場合、ＨＴＴＣＴＵノード生成ステップ６２６において、水平３値分割５１８に従って、ブロックパーティショナ３１０によって３つのノードが生成される。

ＢＴ／ＴＴ分割決定６１８は、垂直分割が「０」を返すことによって示されるバイナリ分割５１６であるか、「１」を返すことによって示される３値分割５２０であるかを示す。ＢＴ／ＴＴ分割６１８がバイナリ分割を示す場合、ＶＢＴＣＴＵノード生成ステップ６２７では、垂直バイナリ分割５１６に従って、ブロックパーティショナ３１０によって２つのノードが生成される。ＢＴ／ＴＴ分割６１８が３値分割を示す場合、ＶＴＴＣＴＵノード生成ステップ６２８において、垂直３値分割５２０に従って、ブロックパーティショナ３１０によって３つのノードが生成される。ステップ６２５～６２８から生じる各ノードについて、ＭＴ分割決定６１２に戻るデータフロー６００の再帰が、方向６１４に応じて、左から右へ、または上から下への順序で適用される。その結果、２分木および３分木分割を適用して、様々なサイズを有するＣＵを生成することができる。

図７Ａおよび７Ｂは、ＣＴＵ７１０のいくつかのＣＵまたはＣＢへの分割例７００を提供する。ＣＵ７１２の一例を図７Ａに示す。図７Ａは、ＣＴＵ７１０におけるＣＵの空間配置を示す。分割例７００は、図７Ｂにコーディングツリー７２０としても示されている。

図７ＡのＣＴＵ７１０内の各非リーフノード、例えばノード７１４、７１６および７１８において、収容されたノード（さらに分割されていてもよいし、ＣＵであってもよい）は、ノードのリストを作成するために「Ｚオーダー」でスキャンまたはトラバースされ、コーディングツリー７２０内のカラムとして表される。４分木分割の場合、Ｚオーダースキャンは、左上から右に続いて左下から右の順序になる。水平分割および垂直分割の場合、Ｚオーダースキャン（トラバーサル）は、それぞれ、上から下へのスキャン、および左から右へのスキャンに単純化する。図７Ｂのコーディングツリー７２０は、適用されたスキャンオーダーに従って、すべてのノードおよびＣＵをリストする。各分割は、リーフノード（ＣＵ）に到達するまで、ツリーの次のレベルで２、３、または４個の新しいノードのリストを生成する。

ブロックパーティショナ３１０によって画像をＣＴＵに、さらにＣＵに分解し、ＣＵを使用して、図３を参照して説明したように各残差ブロック（３２４）を生成すると、残差ブロックは、ビデオエンコーダ１１４によって順変換および量子化される。結果として生じるＴＢ３３６は、その後、エントロピーコーディングモジュール３３８の動作の一部として、残差係数のシーケンシャルリストを形成するためにスキャンされる。ビデオデコーダ１３４において同等の処理が実行され、ビットストリーム１３３からＴＢが取得される。

図８は、１つまたは複数のスライスを有するビットストリーム８０１のシンタックス構造８００を示す。スライスの各々は、複数のコーディングユニットを含む。ビットストリーム８０１は、画像フレームデータ１１３を符号化し、複数のコーディングツリーユニットに分割され、複数のコーディングツリーユニットの各々は、１つまたは複数のコーディングユニットに分割され、次に、１つまたは複数の変換ブロックに分割される。ビットストリーム８０１は例えば、ビットストリーム１１５として、ビデオエンコーダ１１４によって生成され得るか、または、例えば、ビットストリーム１３３として、ビデオデコーダ１３４によって解析され得る。ビットストリーム８０１は部分、例えば、ネットワーク抽象化レイヤ（ＮＡＬ）ユニットに分割され、描写は、各ＮＡＬユニットの前に８０８などのＮＡＬユニットヘッダを付けることによって達成される。ＮＡＬユニットヘッダは、次のＮＡＬユニットのコンテンツを識別するＮＡＬユニットタイプを含む。ビデオパラメータセット（ＶＰＳ）８１０は、「ＶＰＳ＿ＮＵＴ」という名前のＮＡＬユニットタイプを有し、ビットストリームのすべてのレイヤに適用可能なパラメータを含む。ＶＰＳ８１０は、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造８３０を含み得る。構造８３０は、「ｇｅｎｅｒａｌ＿ｐｒｏｆｉｌｅ＿ｉｄｃ」シンタックス要素を有するビットストリームのプロファイルと、選択されたプロファイルのサブプロファイル（もしあれば）を指定するｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２とを指定する。ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２は、フラグｎｏ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ８３２ａと、コードワードｍａｘ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｄｃ８３２ｂとを含む。フラグ８３２ａは、ビットストリームの最大変換ブロックサイズ制約（例えば６４）を提供し、ビットストリームの符号化または復号に必要なツールのハイレベル（ビットストリームの構造との関連で）表示を提供する。６４ポイント変換は、最初の３２個の残差係数のみがスキャンされて符号化されるポイントで他の変換と異なる。たとえば、６４×６４ＴＢは、左上の３２×３２領域において有意な（非ゼロ）残差係数のみを有し得る。フラグ８３２ａは、最大一次変換サイズが水平および垂直３２ポイントに制限されている、または制約なしに放置されているという制約を示し、この場合、ＶＶＣ標準によってサポートされている最大一次変換サイズは、水平および垂直６４ポイントである。フラグ８３２ａは、固定長コードワード又は典型的にはサイズ１ビットのフラグである。最大変換サイズを１６ポイントまたは８ポイントなどのより小さい値にさらに制限することも、同様に実施することができる。同様に、コードワード８３２ｂは、ビットストリームのための最大ＣＴＵサイズ制約を提供し、ビットストリームを符号化または復号するために必要とされるツールの高レベル指示を提供する。コードワード８３２ｂは、典型的にはサイズ２ビットの固定長コードワードである。構造８３２は、ビデオエンコーダ１１４およびビデオデコーダ１３４の実装に関連する特定のサブプロファイルを定義する。シンタックス構造８３２には、ｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ８３２ｃが含まれている。フラグ８３２ｃは、アクティブ（１と等しい値）の場合、ビットストリームでスケーリングリストが使用できないことを示す。

シーケンスパラメータセット（ＳＰＳ）８１２は、「ＳＰＳ＿ＮＵＴ」という名前のＮＡＬユニットタイプを有し、ｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造８３０も含み得る。ｐｒｏｆｉｌｅ＿ｌｅｖｅｌ＿ｔｉｅｒシンタックス構造８３０は、ＶＰＳ８１０またはＳＰＳ８１２のいずれかに含まれるが、両方には含まれない。シーケンスパラメータセット（ＳＰＳ）８１２は、ビットストリーム、クロマフォーマット、サンプルビット深度、およびフレーム解像度を符号化および復号するために使用されるプロファイル（ツールのセット）などのシーケンスレベルパラメータを定義する。ＳＰＳ８１２はまた、特定のビットストリームにおいてどのコーディングツールが使用され得るかを指定し、選択は、プロファイルおよびサブプロファイルによって利用可能であると示されるツールのサブセットである。構造８３４は、サブプロファイルによって利用可能なツールの例を示す。フラグｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇ８３４ａは、６４ｐｔの一次変換が使用され得るかどうかを示す。フラグ８３４ａは、制約フラグ８３２ａが６４ｐｔ一次変換の使用を禁止しない場合にのみ、６４ｐｔ一次変換の使用を示すことができる。ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５コードワード８３４ｂは、２ビットの固定長コードワードを用いて、ＣＴＵのサイズ（すなわち、最大コーディングユニットサイズ）を示す。コードワード８３４ｂは、３２×３２、６４×６４、または１２８×１２８のＣＴＵサイズをそれぞれ示す値０、１、または２を有し得る。値３は、ＶＶＣの初期（「バージョン１」）プロファイルにおいて予約されている。コードワード８３４ｂは、８３２ｂの値を超えないことがあり、したがって、８３２ｂは、サブプロファイル定義の一部としてＣＴＵサイズに制限を課す。ｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ８３４ｃは、所与のＴＢ内で不均一な量子化のためにビットストリームでスケーリングリストを使用できるかどうかを示す。フラグ８３２ｃがアクティブ（例えば１と等しい値）である場合、フラグ８３４ｃは、非アクティブ状態（０と等しい値）になる必要がある。

フラグ８３４ａは、ビットストリームの最大有効変換ブロックサイズを示す。フラグ８３４ａは、対応する制約フラグ８３２ａに基づいて制約されているが、制約フラグ８３２ａに基づいて条件付（セット）されていない。コンプライアンスビットストリームでは、フラグ８３４ａによって有効とされる最大変換ブロックサイズが、制約フラグ８３２ａによって設定された制約に対応し、例えば、制約フラグ８３２ａ以下の最大値を有する。フラグ８３４ａは、典型的にはサイズ１ビットの固定長コードワードまたはフラグである。

同様に、コードワード８３４ｂは、ビットストリームの最大有効ＣＴＵサイズを示す。コードワード８３４ｂは、対応する制約コードワード８３２ｂに基づいて制約されるが、制約コードワード８３２ｂに基づいて条件付け（設定）されない。準拠ビットストリームでは、コードワード８３４ｂによって有効にされる最大ＣＴＵサイズが、コードワード８３２ｂによって設定される制約に対応し、たとえば、コードワード８３２ｂ以下の最大値を有する。フラグ８３４ｂは、典型的にはサイズ２ビットの固定長コードワードである。

適応パラメータセット（ＡＰＳ）８１３は、「ＰＲＥＦＩＸ＿ＡＰＳ＿ＮＵＴ」という名前のＮＡＬユニットタイプを使用して、フレームの前に符号化されるか、または「ＳＵＦＦＩＸ＿ＡＰＳ＿ＮＵＴ」という名前のＮＡＬユニットタイプを使用して、フレーム（図示せず）の後に符号化される。複数のＡＰＳが、ビットストリーム８００（図示せず）中のフレーム間に含まれ得る。各ＡＰＳ（たとえば、８１３）は、スケーリングリスト、ＡＬＦフィルタパラメータ、およびＬＭＣＳモデルパラメータの３つのコーディングツールのうちの１つを構成するためのパラメータを含む。３つのコーディングツールのうちのいずれが所与のＡＰＳにおいて構成されるかは、それぞれのＡＰＳに含まれる「ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅ」コードワードによって指定される。ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅコードワードは、３ビットの固定長コードワードを使用し、３つの前述のツールの値０～２および将来の使用のために予約された値３～７を有する。０に等しいシンタックス要素ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは、「ＡＬＦ＿ＡＰＳ」と名付けられ、ＡＰＳが適応ループフィルタのためのパラメータを含むことを示し、１に等しいａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは、「ＬＭＣＳ＿ＡＰＳ」と名付けられ、ＡＰＳがルマモデルクロマスケーリングツールのためのパラメータを含むことを示し、２に等しいａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは、「ＳＣＡＬＩＮＧ＿ＡＰＳ」と名付けられ、ＡＰＳがスケーリングリストのためのパラメータを含むことを示す。

１つのピクチャを形成するスライスのシーケンスは、ＡＵ０８１４などのアクセスユニット（ＡＵ）として知られている。ＡＵ０８１４は、スライス０～２などの３つのスライスを含む。スライス１は、８１６としてマークされている。他のスライスと同様に、スライス１（８１６）は、スライスヘッダ８１８およびスライスデータ８２０を含む。

図９は、ビットストリーム８０１（例えば、１１５または１３３）のスライスデータ８２０のシンタックス構造９００を示す。ＣＴＵ９１０は、ＣＵ９１４として示される一例である１つまたは複数のＣＵを含む。各ＣＴＵのサイズは、コードワード８３４ｂによって設定され、その値は制約８３２ｂによって制約される。ＣＵ９１４は、変換ツリー９１６が後に続くシグナリングされた予測モード（図示せず）を含む。ＣＵ９１４のサイズが最大変換サイズ（水平および垂直に３２ポイントまたは６４ポイント）を超えない場合、変換ツリー９１６は１つの変換ユニットを含む。ＣＵ、例えば、ＣＵ９１４の大きさが最大変換サイズ（水平方向および垂直方向に３２ポイントまたは６４ポイント）を超えている場合、変換ツリー９１６は複数のＴＵを含み、タイル状に空間的に配置され、例えば、ＴＵ９１８ａおよび９１８ｂとして示されるように、ビットストリームに順次格納される。

図１０は、フレームデータ１１３をビットストリーム１１５に符号化するための方法１０００を示し、ビットストリーム１１５は、コーディングツリーユニットのシーケンスとして１つまたは複数のスライスを含む。方法１０００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置によって実施され得る。さらに、方法１０００は、プロセッサ２０５の実行下でビデオエンコーダ１１４によって実行され得る。フレームを符号化する作業負荷のために、方法１０００のステップは、異なるスライスが異なるプロセッサによって符号化されるように、例えば、現代のマルチコアプロセッサを使用して、作業負荷を共有するために異なるプロセッサにおいて実行され得る。生成されたビットストリーム１１５は、最大変換サイズおよび最大ＣＴＵサイズを含む、ブロック構造の態様に関する制約を含むサブプロファイルに準拠し得る。方法１０００は、コンピュータ可読記憶媒体および／またはメモリ２０６に格納され得る。

方法１０００は、符号化制約パラメータステップ１０１０で開始する。ステップ１０１０において、ビデオエンコーダ１１４は、固定長符号化パラメータのシーケンスとしてビットストリーム１１５中のＶＰＳ８１０またはＳＰＳ８１２のいずれかにｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２を含むｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造８３０を符号化する。最大変換サイズ（８３２ａ）と最大ＣＴＵサイズ（８３２ｂ）の制約は、ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２の一部として符号化され、ビットストリーム１１５のサブプロファイルの定義に貢献する。スケーリングリストの使用に対する制約は、フラグ８３２ｃを有するｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２の一部として符号化され、ビットストリーム１１５のサブプロファイルの定義にも寄与する。

方法１０００は、ステップ１０１０から符号化ブロック構造パラメータステップ１０１５に進む。ステップ１０１５で、ビデオエンコーダ１１４は、ビットストリームの選択された最大変換サイズをフラグ８３４ａとしてＳＰＳ８１２に符号化し、ビットストリーム１１５の選択されたＣＴＵサイズをコードワード８３４ｂとしてＳＰＳ８１２に符号化する。フラグ８３４ａとコードワード８３４ｂは、対応する制約フラグの値、すなわち、それぞれ８３２ａと８３２ｂの値にかかわらず符号化されている。しかしながら、フラグ８３４ａ及びコードワード８３４ｂは、フラグ８３２ａ及びコードワード８３２ｂにより制約されたよりも高い能力（より大きな変換サイズ又はより大きなＣＴＵサイズ）を示すことは禁止されている。ステップ１０１５では、ビデオエンコーダ１１４が、フラグ８３４ｃを符号化することによってスケーリングリストの使用を符号化し、対応する制約フラグ８３２ｃの値に関係なく生起するフラグ８３４ｃを符号化する。しかしながら、有効フラグ８３４ｃは、その使用が制約フラグ８３２ｃによって禁止されている場合にはフラグ８３４ｃによってスケーリングリストが有効にならない可能性があるような制約フラグ８３２ｃによって制約されている。

方法１０００は、ステップ１０１５から、フレームをスライスに分割するステップ１０２０に続く。ステップ１０２０の実行において、プロセッサ２０５は、フレームデータ１１３を１つまたは複数のスライスまたは連続部分に分割する。並列性が望まれる場合、ビデオエンコーダ１１４の別個のインスタンスは、各スライスをいくらか独立して符号化する。単一のビデオエンコーダ１１４は、各スライスを順次処理し得るか、またはある中間の並列度が実装され得る。一般に、スライス（連続部分）へのフレームの分割は、「サブピクチャ」またはタイルなどとして知られる領域へのフレームの分割の境界に整列される。

方法１０００は、ステップ１０２０からスライスヘッダ符号化ステップ１０３０に続く。ステップ１０３０において、エントロピーエンコーダ３３８は、スライスヘッダ８１８をビットストリーム１１５に符号化する。

方法１０００は、ステップ１０３０からスライスをＣＴＵに分割するステップ１０４０に続く。ステップ１０４０の実行において、ビデオエンコーダ１１４は、スライス８１６を、例えば、ＣＴＵのシーケンスに分割する。スライス境界はＣＴＵ境界に整列され、スライス内のＣＴＵは、ＣＴＵスキャンオーダー、典型的にはラスタスキャンオーダーに従って順序付けられる。ＣＴＵへのスライスの分割は、現在のスライスを符号化する際に、フレームデータ１１３のどの部分がビデオエンコーダ１１３によって処理されるべきかを確立する。

方法１０００は、ステップ１０４０からコーディングツリーを決定するステップ１０５０に続く。ステップ１０５０において、ビデオエンコーダ１１４は、スライス中の現在選択されているＣＴＵのためのコーディングツリーを決定する。方法１０００は、ステップ１０５０の第１の呼び出しでスライス８１６内の最初のＣＴＵから開始し、後続の呼び出しでスライス８１６内の後続のＣＴＵに進む。ＣＴＵのコーディングツリーを決定する際には、ブロックパーティショナ３１０によって、四分木、バイナリ、および３値スプリットの様々な組み合わせが生成され、テストされる。

方法１０００は、ステップ１０５０からコーディングツリーを決定するステップ１０６０に続く。ステップ１０６０において、ビデオエンコーダ１１４は、既知の方法を使用して、評価中の様々なコーディングツリーから生じるＣＵのための符号化を決定するために実行する。符号化を決定することは、たとえば、符号化コストに基づいて、予測モード（たとえば、特定のモードを有するイントラ予測、または動きベクトルを有するインター予測）と、変換選択（一次変換タイプおよびオプションの二次変換タイプ）とを決定することを伴う。ルマＴＢのための一次変換タイプがＤＣＴ－２であると決定されるか、または順方向二次変換の対象ではない任意の量子化一次変換係数が有意である場合、ルマＴＢのための二次変換インデックスは、二次変換の適用を示し得る。そわない場合、ルマのための二次変換インデックスは、二次変換のバイパスを示す。ルマチャネルの場合、一次変換タイプは、ＤＣＴ－２、変換スキップ、またはクロマチャネルのＭＴＳオプションのうちの１つと決定され、ＤＣＴ－２は、利用可能な変換タイプである。個々のコーディングユニットを決定する際に、最適コーディングツリーも、ジョイント方式で決定される。イントラ予測を用いてコーディングユニットを符号化する場合、ルマイントラ予測モード及びクロマイントラ予測が決定される。

方法１０００は、ステップ１０６０からコーディングユニットを符号化するステップ１０７０に続く。ステップ１０７０において、ビデオエンコーダ１１４は、ステップ１０６０の決定されたコーディングユニットをビットストリーム１１５に符号化する。

方法１０００は、ステップ１０７０から最後のコーディングユニットをテストするステップ１０８０に続く。ステップ１０８０において、プロセッサ２０５は、現在のコーディングユニットがＣＴＵ内の最後のコーディングユニットであるかどうかをテストする。そわない場合（ステップ１０８０で「ＮＯ」）、プロセッサ２０５における制御は、コーディングユニットを決定するステップ１０６０に進む。そうではなく、現在のコーディングユニットが最後のコーディングユニットである場合（ステップ１０８０で「ＹＥＳ」）、プロセッサ２０５における制御は、最後のＣＴＵをテストするステップ１０９０に進む。

最後のＣＴＵをテストするステップ１０９０において、プロセッサ２０５は、現在のＣＴＵがスライス８１６内の最後のＣＴＵであるかどうかをテストする。スライス８１６内の最後のＣＴＵでない場合（ステップ１０９０で「ＮＯ」）、プロセッサ２０５における制御は、コーディングツリーを決定するステップ１０５０に戻る。そうではなく、現在のＣＴＵが最後である場合（ステップ１０９０において「ＹＥＳ」）、プロセッサ２０５における制御は、最後のスライスをテストするステップ１０１００に進む。

最後のスライスをテストするステップ１０１００において、プロセッサ２０５は、符号化されている現在のスライスがフレーム内の最後のスライスであるかどうかをテストする。最後のスライスでない場合（ステップ１０１００で「ＮＯ」）、プロセッサ２０５における制御は、スライスヘッダを符号化するステップ１０３０に進む。そうではなく、現在のスライスが最後であり、且つすべてのスライス（連続部分）が符号化されている場合（ステップ１０１００で「ＹＥＳ」）、方法１０００は終了する。

図１１は、スライスに配置されたコーディングユニットのシーケンスとしてビットストリームからフレームを復号するための方法１１００を示す。方法１１００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置によって実施され得る。さらに、方法１１００は、プロセッサ２０５の実行下でビデオデコーダ１３４によって実行され得る。したがって、方法１１００は、コンピュータ可読記憶媒体および／またはメモリ２０６に格納され得る。

方法１１００は、ビットストリーム１１５のサブプロファイルが最大変換サイズおよび最大ＣＴＵサイズなどのブロックサイズに関する制約を含む方法１０００を使用して符号化されたビットストリームを復号する。最大変換サイズは、ビデオデータのクロマフォーマットにかかわらず、ルマおよびクロマに適用される。ＣＴＵサイズは、コーディングツリーのルートノードによってカバーされるエリアを示し、コーディングツリーのルートノードは、ＣＴＵのコーディングツリーのより深く生じ得るルマおよびクロマのための別個のコーディングツリーへの後続のスプリットにかかわらず、ルマチャネルとクロマチャネルの両方に常に適用される。

方法１１００は、制約パラメータを復号するステップ１１１０で開始する。ステップ１１１０の実行において、ビデオデコーダ１３４は、固定長パラメータのシーケンスとしてビットストリーム１３３に存在するＶＰＳ８１０またはＳＰＳ８１２のいずれかからｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２を復号して、ビットストリーム１３３のサブプロファイルを決定する。最大変換サイズ（８３２ａ）と最大ＣＴＵサイズ（８３２ｂ）の制約は、ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２の一部として復号され、ビットストリーム１３３のサブプロファイルの決定に貢献する。ステップ１１１０は例えば、ビットストリームから最大変換ブロックサイズ制約および／または最大ＣＴＵサイズ制約を復号することができる。スケーリングリストの使用に対する制約は、フラグ８３２ｃを有するｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２の一部として復号され、ビットストリーム１３３のサブプロファイルの定義にも寄与する。

方法１１００は、ステップ１１１０からブロック構造パラメータを復号するステップ１１２０に進む。ステップ１１２０では、ビデオデコーダ１３４は、ＳＰＳ８１２からのフラグ８３４ａとして、ビットストリームの選択された最大有効変換サイズを復号し、ＳＰＳ８１２からのコードワード８３４ｂとして、ビットストリーム１１５の選択された最大有効ＣＴＵサイズを復号する。フラグ８３４ａとコードワード８３４ｂは、対応する制約フラグに関係なく、すなわち、それぞれ８３２ａと８３２ｂに復号される。しかしながら、フラグ８３４ａ及びコードワード８３４ｂは、フラグ８３２ａ及びコードワード８３２ｂによって制約されたものよりも高い能力（より大きな変換サイズ又はより大きなＣＴＵサイズ）を示すことが（「適合」ビットストリームにおいて）禁止されている。ステップ１１２５では、ビデオデッタ１３４が、フラグ８３４ｃを復号することによりスケーリングリストの使用を復号し、対応する制約フラグ８３２ｃの値にかかわらずフラグ８３４ｃの復号が発生する。しかしながら、有効フラグ８３４ｃは、その使用が制約フラグ８３２ｃによって禁止されている場合には、フラグ８３４ｃによってスケーリングリストが有効にならない可能性があるような制約フラグ８３２ｃによって制約されている。ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏシンタックス構造８３２において定義された禁止が復号されたブロック構造パラメータによって違反された場合、ビットストリームは、ビデオデコーダ１３４によって「不適合」と見なされ、さらなる復号が終了し得る。

方法１１００は、ステップ１１２０からスライスヘッダを復号するステップ１１３０に続く。ステップ１１３０において、エントロピーデコーダ４２０は、ビットストリーム１３３からスライスヘッダ８１８を復号する。

方法１１００は、ステップ１１３０からＣＴＵにスライスを分割するステップ１１４０に続く。ステップ１１４０において、ビデオデコーダ１３４は、スライス８１６をＣＴＵのシーケンスに分割する。スライス境界は、ＣＴＵ境界に整合され、スライス内のＣＴＵはＣＴＵスキャンオーダーに従って順序付けられる。ＣＴＵスキャンオーダーは、一般にラスタスキャンオーダーである。ＣＴＵへのスライスの分割は、現在のスライスを復号する際に、フレームデータ１１３のどの部分がビデオデコーダ１３４によって処理されるべきかを確立する。スライスは、復号された最大有効ＣＴＵサイズに基づいてＣＴＵに分割される。

方法１１００は、ステップ１１４０からコーディングツリーを復号するステップ１１５０に続く。ステップ１１５０の実行において、ビデオデコーダ１３３は、ステップ１１５０の第１の呼び出しでスライス８１６内の最初のＣＴＵから開始して、ビットストリーム１３３からスライス内の現在のＣＴＵのコーディングツリーを復号する。ＣＴＵのコーディングツリーは、図６に従ってエントロピーデコーダ４２０でスプリットフラグを復号することによって、および最大有効ＣＴＵサイズに基づいて復号される。ＣＴＵに対するステップ１１５０の後続の反復において、スライス８１６内の後続のＣＴＵに対して復号が実行される。

方法１１００は、ステップ１１６０からコーディングユニットを復号するステップ１１７０に続く。ステップ１１７０において、ビデオデコーダ１３４は、ビットストリーム１３３からコーディングユニットを復号する。各コーディングユニットは、対応するＣＴＵから復号または決定され、ＣＴＵはビットストリームから復号された復号された最大有効コーディングツリーサイズおよびスプリットフラグに従って決定される。

方法１１００は、ステップ１１１０から最後のコーディングユニットをテストするステップ１１８０に続く。ステップ１１８０において、プロセッサ２０５は、現在のコーディングユニットがＣＴＵ内の最後のコーディングユニットであるかどうかをテストする。最後のコーディングユニットでない場合（ステップ１１８０で「ＮＯ」）、プロセッサ２０５における制御は、コーディングツリーユニットの次のコーディングユニットを復号するためにコーディングユニットを復号するステップ１１７０に戻る。現在のコーディングユニットが最後のコーディングユニットである場合（ステップ１１８０で「ＹＥＳ」）、プロセッサ２０５における制御は、最後のＣＴＵをテストするステップ１１９０に進む。

最後のＣＴＵをテストするステップ１１９０において、プロセッサ２０５は、現在のＣＴＵがスライス８１６内の最後のＣＴＵであるかどうかをテストする。そわない場合、スライス内の最後のＣＴＵ（ステップ１１９０で「ＮＯ」）は、プロセッサ２０５の制御は、コーディングツリーを復号するステップ１１５０に戻り、スライス８１６の次のコーディングツリーユニットを復号する。現在のＣＴＵがスライス８１６の最後のＣＴＵである場合（ステップ１１９０で「ＹＥＳ」）、プロセッサ２０５における制御は、最後のスライスをテストするステップ１１１００に進む。

最後のスライスをテストするステップ１１１００において、プロセッサ２０５は、復号されている現在のスライスがフレーム内の最後のスライスであるかどうかをテストする。フレーム内の最後のスライスでない場合（ステップ１１１００で「ＮＯ」）、プロセッサ２０５の制御は、スライスヘッダを復号するステップ１１３０に戻り、ステップ１１３０は、フレーム内の次のスライス（例えば、図１１の「スライス２」）のスライスヘッダを復号するように動作する。現在のスライスがフレーム内の最後のスライスである場合（ステップ１１００で「ＹＥＳ」）、方法１１００は終了する。

ステップ１１４０～ステップ１１１００は、復号された最大有効変換ブロックサイズ及び／又は復号された最大有効ＣＴＵサイズ及びビットストリームから復号されたスプリットフラグに従って、コーディングユニットのコーディングユニットの各々に対する変換ブロックを決定することによって、画像フレームを復号するように動作する。複数のコーディングユニットのための方法１６１０の動作は、図１のデバイス１３０に関して説明したように、画像フレームを生成するように動作する。

方法１０００を使用するビデオエンコーダ１１４および方法１１００を使用するビデオデコーダ１３４の構成は、ブロック構造態様、すなわち、最大変換サイズおよびＣＴＵサイズ（最大ＣＵサイズに対応する）を含む粒度を有するサブプロファイル定義をサポートすることができる。最大変換サイズ制約および／または最大ＣＴＵサイズ制約を使用するブロック構造態様の制御は、サブプロファイルが、使用されるクロマフォーマットに関係なく、すべてのカラーチャネルに影響を及ぼす規格のブロック構造挙動に対する制御の粒度を提供することを意味する。シーケンスレベルのツールのセットに関連する一般的な制約を使用して最大変換サイズおよび／または最大ＣＴＵサイズを制約することは、復号における早期の知識がどのツールが必要とされるかを決定することを可能にする。制約フラグは、ＶＰＳ８１０またはＳＰＳ８１２の開始に対して固定位置に配置され、したがって、ビットストリームのプロファイルおよびサブプロファイルは、可変長復号を実行する必要なしに決定され得る。さらに、問題があることが分かっている実装またはツールは、実装の他の態様、たとえば、他のコーディングツールに影響を及ぼすことなく、かつアドホックまたは非標準サブプロファイルの生成なしに、無効にすることができる。したがって、ＶＶＣ標準を実装するベンダは、製品における現実世界のアプリケーションおよび実装に適し、適応可能なビデオエンコーダおよびデコーダを実装する際に、より柔軟性を与える。

ビデオエンコーダ１１４およびビデオデコーダ１３４の構成では、最大コーディングユニットサイズが、アクティブであるときにＣＴＵサイズを６４×６４に制限し、非アクティブであるときに１２８×１２８のＣＴＵサイズを可能にする１ビットフラグを使用して制約される。

ビデオエンコーダ１１４およびビデオデコーダ１３４の別の構成では、「ｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ」（８３２ｃ）もまた、ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏ（）８３２中に存在し、ステップ１０１０においてビデオエンコーダ１１４によって符号化され、ステップ１１１０においてビデオデコーダ１３４によって復号される。ビデオエンコーダ１１４は、ｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ（８３４ｃ）をＳＰＳ８１２に符号化し、スケーリングリストが量子化／逆量子化において使用されるべきか否かを示す。ビデオデコーダ１３４は、ＳＰＳ８１２からｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ８３４ｃを構文解析して、逆量子化が逆量子化器モジュール４２８によって実行される逆量子化においてスケーリングリストを利用すべきかどうかを決定する。ｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ８３２ｃがアクティブの場合（例えば、値が１に等しい）、ＳＰＳ８１２で符号化されたｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ８３４ｃは、スケーリングリストが使用中でない（値が０に等しい）、ことを示す。ｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇ８３２ｃがスケーリングリストが使用されないことを示す場合（値が１に等しい）、ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは値２（「ＳＣＡＬＩＮＧ＿ＡＰＳ」）を持つことが禁止される。ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏ（）８３２において符号化されたｎｏ＿ａｌｆ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇが、適応ループフィルタが使用中でない（１に等しい値）ことを示すとき、ビットストリームに関連する任意のＡＰＳ（たとえば、ＡＰＳ８１３）のａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは、値０（「ＡＬＦ＿ＡＰＳ」）を有することを禁止される。ｇｅｎｅｒａｌ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｎｆｏ（）８３２において符号化されたｎｏ＿ｌｍｃｓ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇがルマモデルクロマスケーリングが使用されるべきでないことを示すとき（値が１に等しい）、ビットストリームに関連する任意のＡＰＳ（たとえば、ＡＰＳ８１３）のａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは、値１（「ＬＭＣＳ＿ＡＰＳ」）を有することを禁止される。

産業上の利用可能性
記載される構成は、コンピュータ及びデータ処理産業に、特にビデオ及び画像信号などの信号の復号、符号化のためのディジタル信号処理に適用可能であり、高い圧縮効率を達成する。上述の制約フラグのうちの１つまたは複数を提供することにより、所与のプロファイルのツールのサブセットの選択（「サブプロファイリング」）が可能になる。ツールのサブセットの選択は、ベンダが例えば複雑さの観点から、不必要な又は他の問題のあるコーディングツールを除外するプロファイルのサブセットを指定することができるので、ＶＶＣのベンダの実装上の利点など、いくつかの利点を提供する。

上記は、本発明のいくつかの実施形態のみを記載し、本発明の範囲および精神から逸脱することなく、本発明に修正および／または変更を加えることができ、実施形態は例示的であり、限定的ではない。

付録Ａ．
本明細書に記載の方法に対応するように適合されたＶＶＣ標準のためのワーキングドラフトテキストの一例。

７．３．３．２一般的な制約情報のシンタックス（General constraint information syntax）

７．４．４．２一般的な制約情報セマンティクス（General constraint information semantics）
...
ｍａｘ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｄｃは、ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５が０～ｍａｘ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｃｏｎｓｔｒａｉｎｔ＿ｉｄｃの範囲内にあることを指定する。

１に等しいｎｏ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、ｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇが０に等しいことを指定する。
０に等しいｎｏ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、そのような制約を課さない。
１に等しいｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、ｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しく、ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅが２に等しくない、ことを指定する。０に等しいｎｏ＿ｓｃａｌｉｎｇ＿ｌｉｓｔ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、そのような制約を課さない。
...
１に等しいｎｏ＿ａｌｆ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、ｓｐｓ＿ａｌｆ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しいことを指定する。そして、ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅは０に等しくない。０に等しいｎｏ＿ａｌｆ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、そのような制約を課さない。
...
１に等しいｎｏ＿ｌｍｃｓ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、ｓｐｓ＿ｌｍｃｓ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しく、ａｐｓ＿ｐａｒａｍｓ＿ｔｙｐｅが０に等しくないことを指定する。０に等しいｎｏ＿ｌｍｃｓ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇは、そのような制約を課さない。

発明を定義するクレームは以下の通りである。

Claims

ビットストリームから画像フレームを復号する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造から最大変換ブロックサイズ制約のための第１フラグを復号することと、
前記ビットストリームにおけるシーケンスパラメータセットにおいて前記第１フラグの値に関わらず含まれるフラグであって最大変換ブロックサイズのためのフラグである第２フラグを復号することと、
前記最大変換ブロックサイズのための前記第２フラグおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数の変換ブロックを決定することと、
前記画像フレームを復号するために前記ビットストリームから前記決定された一または複数の変換ブロックの各々を復号することと
を含み、
前記最大変換ブロックサイズが前記第１フラグにより制約されない場合、前記第２フラグは、前記最大変換ブロックサイズが６４であることを示すことが可能であり、
前記最大変換ブロックサイズが前記第１フラグにより制約される場合、前記最大変換ブロックサイズは３２に制約される
ことを特徴とする方法。
１ビットの固定長コードワードが、前記最大変換ブロックサイズ制約のための前記第１フラグに対して使用されることを特徴とする請求項１に記載の方法。
１ビットの固定長コードワードが、前記最大変換ブロックサイズのための前記第２フラグに対して使用されることを特徴とする請求項１に記載の方法。
前記第２フラグは、ｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇであることを特徴とする請求項１に記載の方法。
ビットストリームから画像フレームを復号する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造からコーディングツリーユニットサイズ制約のための第１情報を復号することと、
前記第１情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットからコーディングツリーユニットサイズのための第２情報を復号することと、
前記コーディングツリーユニットサイズのための前記第２情報および前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数のコーディングユニットを決定することと、
前記画像フレームを復号するため、前記ビットストリームから前記決定された一または複数のコーディングユニットの各々を復号することと
を含み、
０以上の値をとり得る前記第２情報の値は、前記第１情報に基づく値以下となるよう制約される
ことを特徴とする方法。
前記第２情報の値が０である場合、前記コーディングツリーユニットサイズは３２であり、
前記第２情報の値が１である場合、前記コーディングツリーユニットサイズは６４であり、
前記第２情報の値が２である場合、前記コーディングツリーユニットサイズは１２８であることを特徴とする請求項５に記載の方法。
前記第２情報は、ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５であることを特徴とする請求項５に記載の方法。
ビットストリームから画像フレームを復号するビデオ復号装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造から最大変換ブロックサイズ制約のための第１フラグを復号する手段と、
前記ビットストリームにおけるシーケンスパラメータセットにおいて前記第１フラグの値に関わらず含まれるフラグであって最大変換ブロックサイズのためのフラグである第２フラグを復号する手段と、
前記最大変換ブロックサイズのための前記第２フラグおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数の変換ブロックを決定する手段と、
前記画像フレームを復号するために前記ビットストリームから前記決定された一または複数の変換ブロックの各々を復号する手段と
を備え、
前記最大変換ブロックサイズが前記第１フラグにより制約されない場合、前記第２フラグは、前記最大変換ブロックサイズが６４であることを示すことが可能であり、
前記最大変換ブロックサイズが前記第１フラグにより制約される場合、前記最大変換ブロックサイズは３２に制約される
ことを特徴とするビデオ復号装置。
ビットストリームから画像フレームを復号するビデオ復号装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造からコーディングツリーユニットサイズ制約のための第１情報を復号する手段と、
前記第１情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットからコーディングツリーユニットサイズのための第２情報を復号する手段と、
前記コーディングツリーユニットサイズのための前記第２情報および前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数のコーディングユニットを決定する手段と、
前記画像フレームを復号するため、前記ビットストリームから前記決定された一または複数のコーディングユニットの各々を復号する手段と
を備え、
０以上の値をとり得る前記第２情報の値は、前記第１情報に基づく値以下となるよう制約される
ことを特徴とするビデオ復号装置。
ビットストリームに画像フレームを符号化する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造に、最大変換ブロックサイズ制約のための第１フラグを符号化することと、
前記第１フラグの値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、最大変換ブロックサイズのための第２フラグを符号化することと、
前記一または複数の変換ブロックの各々を符号化することと
を含み、
前記最大変換ブロックサイズが前記第１フラグにより制約されない場合、前記第２フラグは、前記最大変換ブロックサイズが６４であることを示すことが可能であり、
前記最大変換ブロックサイズが前記第１フラグにより制約される場合、前記最大変換ブロックサイズは３２に制約される
ことを特徴とする方法。
１ビットの固定長コードワードが、前記最大変換ブロックサイズ制約のための前記第１フラグに対して使用されることを特徴とする請求項１０に記載の方法。
１ビットの固定長コードワードが、前記最大変換ブロックサイズのための前記第２フラグに対して使用されることを特徴とする請求項１０に記載の方法。
前記第２フラグは、ｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇであることを特徴とする請求項１０に記載の方法。
ビットストリームに画像フレームを符号化する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造にコーディングツリーユニットサイズ制約のための第１情報を符号化することと、
前記第１情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、コーディングツリーユニットサイズのための第２情報を符号化することと、
前記一または複数のコーディングユニットの各々を符号化することと
を含み、
０以上の値をとり得る前記第２情報の値は、前記第１情報に基づく値以下となるよう制約される
ことを特徴とする方法。
前記第２情報の値が０である場合、前記コーディングツリーユニットサイズは３２であり、
前記第２情報の値が１である場合、前記コーディングツリーユニットサイズは６４であり、
前記第２情報の値が２である場合、前記コーディングツリーユニットサイズは１２８であることを特徴とする請求項１４に記載の方法。
前記第２情報は、ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５であることを特徴とする請求項１４に記載の方法。
ビットストリームに画像フレームを符号化するビデオ符号化装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造に、最大変換ブロックサイズ制約のための第１フラグを符号化する手段と、
前記第１フラグの値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、最大変換ブロックサイズのための第２フラグを符号化する手段と、
前記一または複数の変換ブロックの各々を符号化する手段と
を含み、
前記最大変換ブロックサイズが前記第１フラグにより制約されない場合、前記第２フラグは、前記最大変換ブロックサイズが６４であることを示すことが可能であり、
前記最大変換ブロックサイズが前記第１フラグにより制約される場合、前記最大変換ブロックサイズは３２に制約される
ことを特徴とするビデオ符号化装置。
ビットストリームに画像フレームを符号化するビデオ符号化装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
前記ビットストリームにおけるｐｒｏｆｉｌｅ＿ｔｉｅｒ＿ｌｅｖｅｌシンタックス構造における制約情報のためのシンタックス構造にコーディングツリーユニットサイズ制約のための第１情報を符号化する手段と、
前記第１情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、コーディングツリーユニットサイズのための第２情報を符号化する手段と、
前記一または複数のコーディングユニットの各々を符号化する手段と
を含み、
０以上の値をとり得る前記第２情報の値は、前記第１情報に基づく値以下となるよう制約される
ことを特徴とするビデオ符号化装置。
コンピュータに、請求項１乃至７のいずれか１項に記載の方法を実行させるためのコンピュータプログラム。
コンピュータに、請求項１０乃至１６のいずれか１項に記載の方法を実行させるためのコンピュータプログラム。