JP7505017B2

JP7505017B2 - ビデオコーディングのための方法および装置

Info

Publication number: JP7505017B2
Application number: JP2022554886A
Authority: JP
Inventors: セフン・ヤ; マドゥー・ペリンガーサリー・クリシュナン; シン・ジャオ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-12-23
Filing date: 2021-10-04
Publication date: 2024-06-24
Anticipated expiration: 2041-10-04
Also published as: KR20220127308A; JP2023517350A; US20220201307A1; WO2022139934A1; EP4078948A1; CN115315945A; EP4078948A4

Description

［関連出願への相互参照］
本願は、２０２１年９月２２日に出願された米国特許出願第１７／４８２，０１８号「ビデオコーディングのための方法および装置」に対する優先権を主張し、これは、２０２０年１２月２３日に出願された米国仮出願第６３／１３０，２６５号「超解像度ベースのコーディング」に対する優先権を主張している。先行出願のすべての開示内容は、参照により全体的に本明細書に組み込まれる。

［技術分野］
本開示は、一般的に、ビデオコーディングに関する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分および本明細書の各態様において説明された、現在署名されている発明者の作業の程度は、本開示の提出時に先行技術として示されておらず、また、本開示の先行技術として認められていることを明示または暗示していない。

ビデオ符号化および復号は、動き補償を有するフレーム間画像予測を用いて実行されることができる。圧縮されていないデジタルビデオは、一連の画像を含むことができ、各画像が、例えば１９２０×１０８０の輝度サンプルおよび関連付けられた色度サンプルの空間的次元を有する。この一連の画像は、例えば１秒間に６０枚の画像または６０ヘルツ（Ｈｚ）の固定または可変の画像レート（非公式にはフレームレートとして知られている）を有することができる。圧縮されていないビデオには、特定のビットレート要件がある。例えば、サンプルあたり８ビットの１０８０ｐ６０４：２：０のビデオ（６０Ｈｚのフレームレートでの１９２０ｘ１０８０の輝度サンプル解像度）は、１．５Ｇｂｉｔ／ｓの帯域幅に近い必要がある。このようなビデオは、一時間で６００ＧＢ以上の記憶空間を必要とする。

ビデオ符号化および復号の１つの目的は、入力ビデオ信号における冗長情報を圧縮により低減することである。圧縮は、上記の帯域幅および／または記憶空間に対する要件を低減することを助けることができ、いくつかの場合では、二桁以上程度を低減することができる。無損失性の圧縮および損失性の圧縮、ならびに両方の組み合わせは、いずれも使用されることができる。無損失性の圧縮とは、元の信号の正確なコピーを圧縮された元の信号から再構築することができる、という技術を指す。損失性の圧縮が使用される場合、再構築された信号は、元の信号と同一ではない可能性があるが、元の信号と再構築された信号との間の歪みが十分に小さいので、再構築された信号が予想されるアプリケーションに利用されることができる。ビデオの場合、損失性の圧縮は広く使われている。許容される歪みの量は、アプリケーションに依存し、例えば、あるストリーミングアプリケーションを消費するユーザは、テレビ配信アプリケーションのユーザより、高い歪みを許容することができる。実現可能な圧縮比は、より高い許可／許容可能な歪みがより高い圧縮比を生成することができる、ということを反映している。

ビデオエンコーダおよびデコーダは、例えば動き補償、変換、量子化およびエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用することができる。

ビデオ符号化／復号技術は、フレーム内コーディングとして知られている技術を含むことができる。フレーム内コーディングでは、サンプル値は、以前に再構築された参照画像からのサンプルまたは他のデータを参照せずに表現される。いくつかのビデオコーデックでは、画像は空間的にサンプルブロックに細分される。すべてのサンプルブロックがフレーム内モードでコーディングされた場合、その画像はフレーム内画像とすることができる。独立したデコーダリフレッシュ画像などのようなフレーム内画像およびそれらの派生は、デコーダの状態をリセットするために使用されることができ、したがって、コーディングされたビデオビットストリームおよびビデオセッション中の１番目の画像または静止画像として使用されることができる。フレーム内ブロックのサンプルは変換に用いられ、また、変換係数はエントロピーコーディングの前に量子化されることができる。フレーム内予測は、プリ変換ドメインにおけるサンプル値を最小化する技術であることができる。いくつかの場合では、変換後のＤＣ値が小さくなり、ＡＣ係数が小さくなるほど、エントロピーコーディング後のブロックを表すために、与えられた量子化ステップサイズで必要なビットが少なくなる。

例えばＭＰＥＧ－２コーディング技術から知られているような従来のフレーム内コーディングは、フレーム内予測を使用していない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、周囲のサンプルデータおよび／またはメタデータからデータブロックを取得しようとする技術を含み、周囲のサンプルデータおよび／またはメタデータは、空間的に隣接するブロックの符号化および／または復号期間で、かつ、復号順の前に得られたものである。このような技術は、以降「フレーム内予測」技術と呼ばれる。少なくともいくつかの場合では、フレーム内予測は、参照画像からの参照データを使用せずに、再構築中の現在画像からの参照データのみを使用する、ということに留意されたい。

多くの異なる形態のフレーム内予測が存在することができる。与えられたビデオコーディング技術では、このような技術のうちの２つ以上を使用することができる場合、使用中の技術は、フレーム内予測モードでコーディングを行うことができる。いくつかの場合では、モードは、サブモードおよび／またはパラメータを有してもよいし、これらのモードが、単独でコーディングされてもよく、またはモードコードワードに含まれてもよい。どのコードワードを与えられたモード、サブモードおよび／またはパラメータの組み合わせに使用するかは、フレーム内予測によってコーディング効率利得に影響を及ぼすので、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術には、このような場合もある。

フレーム内予測の特定のモードは、Ｈ．２６４で導入され、Ｈ．２６５において改善され、また、共同探索モデル（ＪＥＭ：ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ）、汎用ビデオコーディング（ＶＶＣ：ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ）、ベンチマークセット（ＢＭＳ：ｂｅｎｃｈｍａｒｋｓｅｔ）などの、更新しい符号化／復号技術においてさらに改善される。予測ブロックは、既に利用可能なサンプルに属する、隣接するサンプル値を使用して形成されることができる。隣接するサンプルのサンプル値は、ある方向に従って予測ブロックにコピーされる。使用中の方向への参照は、ビットストリームにコーディングされてもよく、または、その自身が予測されてもよい。

図１Ａを参照して、右下には、Ｈ．２６５の３３個の予測可能な方向（３５個のフレーム内モードのうちの３３個の角度モードに対応）から知られている９つの予測方向のサブセットが描かれている。矢印が収束する点（１０１）は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印（１０２）は、サンプル（１０１）が水平から４５度の角度になる右上の１つ以上のサンプルから予測されることを示す。同様に、矢印（１０３）は、サンプル（１０１）が水平から２２．５度の角度になるサンプル（１０１）の左下の１つ以上のサンプルから予測されることを示す。

引き続き図１Ａを参照すると、左上には４×４のサンプルの正方形ブロック（１０４）が描かれている（太い破線で示される）。正方形ブロック（１０４）は、１６個のサンプルを含み、各サンプルが、「Ｓ」と、Ｙ次元（例えば、行索引）での位置と、Ｘ次元（例えば、列索引）での位置とでラベル付けられている。例えば、サンプルＳ２１は、Ｙ次元での２番目のサンプル（上から）とＸ次元での１番目のサンプル（左から）である。同様に、サンプルＳ４４は、Ｙ次元およびＸ次元の両方でのブロック（１０４）の４番目のサンプルである。このブロックが４×４サイズのサンプルであるため、Ｓ４４は右下にある。さらに、同様の番号付けスキームに従う参照サンプルも示されている。参照サンプルは、「Ｒ」と、ブロック（１０４）に対するＹ位置（例えば、行索引）およびＸ位置（例えば、列索引）とでラベル付けられている。Ｈ．２６４とＨ．２６５の両方では、予測サンプルは再構築中のブロックに隣接しているので、負の値を使用する必要はない。

フレーム内画像予測は、シグナルで通知された予測方向に応じて、隣接するサンプルから参照サンプル値をコピーすることによって機能することができる。例えば、コーディングされたビデオビットストリームには、シグナリングが含まれていると仮定すると、このシグナリングは、このブロックに対して、矢印（１０２）と一致する予測方向を示し、すなわち、サンプルが水平と４５度の角度になる右上の１つ以上の予測サンプルから予測される。この場合、サンプルＳ４１、Ｓ３２、Ｓ２３、Ｓ１４は、同じ参照サンプルＲ０５から予測される。そして、サンプルＳ４４は、参照サンプルＲ０８から予測される。

いくつかの場合では、参照サンプルを計算するために、特に、方向が４５度で均等に割り切れない場合、例えば、補間を通じて複数の参照サンプルの値を組み合わせることができる。

ビデオコーディング技術の発展につれて、可能な方向の数が既に増加された。Ｈ．２６４（２００３年）では、９つの異なる方向を表すことができた。これは、Ｈ．２６５（２０１３年）で３３個に増加し、ＪＥＭ／ＶＶＣ／ＢＭＳは、開示時点で最多６５個の方向をサポートすることができる。最も可能な方向を識別するための実験が行われ、そして、エントロピーコーディングにおけるいくつかの技術は、少数のビットでそれらの可能性がある方向を表すために使用され、可能性が低い方向に対して、いくつかの代償を受ける。さらに、方向の自体は、隣接する既に復号されたブロックで使用される隣接する方向から予測されることができる場合がある。

図１Ｂは、時間の経過とともに増加する予測方向の数を説明するために、ＪＥＭによる６５個のフレーム内予測方向を描く概略図（１８０）を示す。

フレーム内予測方向からコーディングされたビデオビットストリームにおける方向を表すビットへのマッピングは、ビデオコーディング技術によって異なることができ、また、例えば、予測方向への簡単な直接マッピングから、フレーム内予測モード、コードワード、最も可能性が高いモードを含む複雑な適応スキーム、および類似な技術まで、様々なものがある。しかしながら、すべての場合では、ビデオコンテンツにおいて、他の特定の方向よりも統計的に発生する可能性が低い特定の方向が存在する可能性がある。ビデオ圧縮の目的は冗長性の削減であるため、それらの可能性が低い方向は、適切に機能するビデオコーディング技術では、可能性が高い方向よりも多くのビットで表される。

動き補償は、損失性の圧縮技術であり得、また、下記の技術に関連することができ、当該技術には、以前に再構築された画像またはその一部（参照画像）からのサンプルデータブロックが、動きベクトル（以下、ＭＶと呼ばれる）によって示される方向に空間的にシフトされた後に、新たに再構築された画像または画像部分を予測するために使用される。いくつかの場合では、参照画像は、現在再構築中の画像と同じであってもよい。ＭＶは、ＸとＹの２つの次元を有してもよく、または、３つの次元を有してもよいし、３番目の次元は、使用中の参照画像の指示である（後者は、間接的には、時間次元であってもよい）。

いくつかのビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なＭＶは、他のＭＶから予測され得て、例えば、再構築中の領域に空間的に隣接しかつ復号順序でそのＭＶよりも先行する別のサンプルデータ領域に関連するＭＶから予測され得る。そうすることによって、ＭＶをコーディングするために必要なデータ量が大幅に削減され得て、これにより、冗長性が除去され、圧縮率を向上させる。ＭＶ予測は、効果的に機能することができ、例えば、ビデオカメラから導出された入力ビデオ信号（自然ビデオと呼ばれる）をコーディングするとき、単一のＭＶが適用可能な領域よりも大きい領域が類似の方向に移動するという統計的な可能性が存在しており、したがって、場合によっては、隣接領域のＭＶから導出された類似の動きベクトルを使用して予測することができる。その結果、所与の領域のために見つけられたＭＶは、周囲のＭＶから予測されたＭＶと類似または同じであり、また、エントロピーコーディング後、ＭＶを直接にコーディングする場合に使用されるビット数よりも少ないビット数で表現され得る。いくつかの場合では、ＭＶ予測は、元の信号（つまり、サンプルストリーム）から導出された信号（つまり、ＭＶ）の無損失性の圧縮の例であり得る。他の場合では、例えば、周囲のいくつかのＭＶから予測器を計算する際の丸め誤差のため、ＭＶ予測自体は、損失性の圧縮であり得る。

様々なＭＶ予測メカニズムは、Ｈ．２６５／ＨＥＶＣ（ＩＴＵ－ＴＲｅｃ．Ｈ．２６５、「高効率ビデオコーディング」、２０１６年１２月）に記載されている。Ｈ．２６５が提供する多くのＭＶ予測メカニズムのうち、本願明細書において説明するのは、以下「空間マージ」と呼ばれる技術である。

図２を参照すると、現在ブロック（２０１）は、動き探索プロセス中にエンコーダによって発見されたサンプルを含み、これらのサンプルは、空間的にシフトされた、同じサイズの前のブロックから予測され得る。ＭＶを直接にコーディングする代わりに、ＭＶは、１つまたは複数の参照画像に関連付けられたメタデータから導出され得、例えば、Ａ０、Ａ１およびＢ０、Ｂ１、Ｂ２（それぞれ２０２～２０６）で示される５つの周囲のサンプルのいずれか）に関連付けられたＭＶを使用して、最も近い（復号順序で）参照画像から導出され得る。Ｈ．２６５では、ＭＶ予測は、隣接するブロックによって使用されている同じ参照画像からの予測器を使用することができる。

本開示の態様は、ビデオ符号化／復号のための方法および装置を提供する。いくつかの例では、ビデオ復号のための装置は、処理回路を含む。処理回路は、コーディングされたビデオビットストリームから、１つまたは複数のブロックのためのコーディングされた情報を復号することができる。コーディングされた情報は、超解像度コーディングモードが１つまたは複数のブロックに適用されるかどうかを示すことができる。超解像度コーディングモードは、１つまたは複数のブロックがエンコーダによって高空間解像度から低空間解像度にダウンサンプリングされたことに応答して適用され得る。超解像度コーディングモードが１つまたは複数のブロックに適用されたことを示すコーディングされた情報に基づいて、処理回路は、超解像度コーディングモードを使用して、１つまたは複数のブロックにおける第１ブロックの情報をアップサンプリングすることによって、再構築されたブロックを生成することができる。第１ブロックは低空間解像度を有し、再構築されたブロックは低空間解像度よりも高い高空間解像度を有する。１つまたは複数のブロックは、変換係数を含み、再構築されたブロックは、空間ドメインにおけるサンプル値を含むことができる。

一実施形態では、１つまたは複数のブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、または変換ブロック（ＴＢ）であり、コーディングされた情報は、超解像度コーディングモードが１つまたは複数のブロックのそれぞれに適用されるかどうかを示す。

一実施形態では、符号化された情報は、超解像度コーディングモードがコーディングユニット（ＣＵ）、コーディングブロック（ＣＢ）、スーパーブロック、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）、タイル、コーディングされたセグメント、フレーム、または１つまたは複数のブロックを含むシーケンスに適用されるかどうかを示す。

一実施形態では、処理回路は、第１ブロックを、低空間解像度を有するダウンサンプリングされた残差ブロックに逆変換することができる。

一例では、処理回路は、第１ブロックのための参照ブロックをダウンサンプリングすることによって、ダウンサンプリングされた参照ブロックを得て、ここで、参照ブロックおよびダウンサンプリングされた参照ブロックが、それぞれ、高空間解像度および低空間解像度を有する。処理回路は、ダウンサンプリングされた残差ブロックとダウンサンプリングされた参照ブロックとに基づいて、ダウンサンプリングされた再構築されたブロックを生成し、ここで、ダウンサンプリングされた再構築されたブロックが、低空間解像度を有する。処理回路は、ダウンサンプリングされた再構築されたブロックをアップサンプリングすることによって、再構築されたブロックを生成することができる。

一例では、処理回路は、ダウンサンプリングされた残差ブロックをアップサンプリングすることによって、高空間解像度を有する残差ブロックを得る。処理回路は、得られた残差ブロックと、第１ブロックのための参照ブロックとに基づいて、再構築されたブロックを生成することができ、参照ブロックが高空間解像度を有する。

一実施形態では、１つまたは複数のブロックは、再構築される現在画像におけるブロックのサブセットであり、超解像度コーディングモードは、現在画像における、１つまたは複数のブロックとは異なるブロックには適用されない。

いくつかの例では、ビデオ符号化のための装置は、処理回路を含む。処理回路は、超解像度コーディングモードがビデオにおける第１ブロックに適用されるかどうかを決定することができる。第１ブロックは、空間ドメインにおけるサンプル値を含み、高空間解像度を有することができる。超解像度コーディングモードが第１ブロックに適用されると決定されたことに基づいて、ビデオ符号化のための装置における処理回路は、超解像度コーディングモードを使用して、第１ブロックに基づいて、ダウンサンプリングされた係数ブロックを生成することができ、ここで、ダウンサンプリングされた係数ブロックが変換係数を含み、高空間解像度よりも低い低空間解像度を有する。ビデオ符号化のための装置における処理回路は、ビデオビットストリームにおける第１ブロックのための情報を符号化することができ、ここで、符号化された情報は、超解像度コーディングモードが第１ブロックに適用されたことを示す。

一実施形態では、第１ブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、または変換ブロック（ＴＢ）である。

一実施形態では、コーディングされた情報は、超解像度コーディングモードが、コーディングユニット（ＣＵ）、コーディングブロック（ＣＢ）、スーパーブロック、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）、タイル、コーディングされたセグメント、フレーム、または第１ブロックを含むシーケンスに適用されたことを示す。

一実施形態では、ビデオ符号化のための装置における処理回路は、第１ブロックと第１ブロックのための参照ブロックとに基づいて、ダウンサンプリングされた残差ブロックを生成する。参照ブロックは、高空間解像度を有する。ダウンサンプリングされた残差ブロックは残差値を含み、低空間解像度を有する。ビデオ符号化のための装置における処理回路は、ダウンサンプリングされた残差ブロックを変換して、ダウンサンプリングされた係数ブロックを得る。

一例では、ビデオ符号化のための装置における処理回路は、第１ブロックをダウンサンプリングして、低空間解像度を有するダウンサンプリングされたブロックを得て、参照ブロックをダウンサンプリングして、低空間解像度を有するダウンサンプリングされた参照ブロックを得る。さらに、ビデオ符号化のための装置における処理回路は、前記ダウンサンプリングされたブロックとダウンサンプリングされた参照ブロックとに基づいて、ダウンサンプリングされた残差ブロックを生成する。

一例では、ビデオ符号化のための装置における処理回路は、第１ブロックと参照ブロックとに基づいて、残差ブロックを生成し、ここで、残差ブロックが高空間解像度を有する。ビデオ符号化のための装置における処理回路は、残差ブロックをダウンサンプリングして、ダウンサンプリングされた残差ブロックを得る。

本開示の態様は、また、命令が記憶されている非一時的なコンピュータ読み取り可能な媒体を提供し、前記命令がビデオの復号および／または符号化のためのコンピュータによって実行されるとき、ビデオの復号および／または符号化のための方法をコンピュータに実行させる。

開示された主題の更なる特徴、性質、および様々な利点は、以下の詳細な説明および添付図面からより明らかになり、ここで、

フレーム内予測モードの例示的なサブセットの概略図である。例示的なフレーム内予測方向の概略図である。一例における現在ブロックとその周囲の空間マージ候補の概略図である。一実施形態による通信システム（３００）の簡略化されたブロック図の概略図である。一実施形態による通信システム（４００）の簡略化されたブロック図の概略図である。一実施形態によるデコーダの簡略化されたブロック図の概略図である。一実施形態によるエンコーダの簡略化されたブロック図の概略図である。別の実施形態によるエンコーダのブロック図を示す図である。別の実施形態によるデコーダのブロック図を示す図である。ビデオコーディングフォーマットの例では使用されるパーティション技術の例を示す図である。ビデオコーディングフォーマットの他の例では使用されるパーティション技術の例を示す図である。ビデオコーディングフォーマットの他の例では使用されるパーティション技術の例を示す図である。ビデオコーディングフォーマットの他の例では使用されるパーティション技術の例を示す図である。垂直中央側トリプルツリーパーティショニングと水平中央側トリプルツリーパーティショニングの例を示す図である。垂直中央側トリプルツリーパーティショニングと水平中央側トリプルツリーパーティショニングの例を示す図である。本開示の一実施形態による、フレームレベルの超解像度コーディングモードを含む例示的なループフィルタリングパイプラインを示す図である。本開示の一実施形態による、ブロックベースの超解像度コーディングモードを使用してブロックをコーディングするプロセスを示す図である。本開示の一実施形態による、ブロックベースの超解像度コーディングモードを使用してブロックをコーディングするプロセスを示す図である。本開示の一実施形態による、ブロックベースの超解像度コーディングモードを使用してブロックをコーディングするプロセスを示す図である。本開示の一実施形態によるブロックレベルの超解像度コーディングモードの例を示す図である。本開示の一実施形態によるブロックレベルの超解像度コーディングモードの例を示す図である。本開示の一実施形態による処理（１８００）を概説するフローチャートを示す図である。本開示の一実施形態による処理（１９００）を概説するフローチャートを示す図である。一実施形態によるコンピュータシステムの概略図である。

図３は、本開示の実施形態による通信システム（３００）の簡略化されたブロック図である。通信システム（３００）は、例えばネットワーク（３５０）を介して相互に通信することができる複数の端末デバイスを含む。例えば、通信システム（３００）は、ネットワーク（３５０）を介して相互接続された第１ペアの端末デバイス（３１０）と（３２０）を含む。図３の例では、第１ペアの端末デバイス（３１０）と（３２０）は、データの単方向伝送を行う。例えば、端末デバイス（３１０）は、ネットワーク（３５０）を介して他の端末デバイス（３２０）に伝送するために、ビデオデータ（例えば、端末デバイス（３１０）によって捕捉されたビデオ画像ストリーム）をコーディングすることができる。符号化されたビデオデータは、１つ以上のコーディングされたビデオビットストリームの形で伝送されることができる。端末デバイス（３２０）は、ネットワーク（３５０）から、コーディングされたビデオデータを受信し、コーディングされたビデオデータを復号してビデオ画像を復元し、復元されたビデオデータに基づいてビデオ画像を表示することができる。単方向データ伝送は、メディアサービングアプリケーションなどでは一般的である。

別の例では、通信システム（３００）は、例えばビデオ会議中に発生する可能性がある、コーディングされたビデオデータの双方向伝送を実行する第２ペアの端末デバイス（３３０）と（３４０）を含む。データの双方向伝送の場合、一例では、端末デバイス（３３０）と（３４０）の各端末デバイスは、ネットワーク（３５０）を介して端末デバイス（３３０）と（３４０）のうちの他方の端末デバイスに送信するために、ビデオデータ（例えば、端末デバイスによって捕捉されたビデオ画像ストリーム）をコーディングすることができる。端末デバイス（３３０）と（３４０）の各端末デバイスは、端末デバイス（３３０）と（３４０）のうちの他方の端末デバイスによって送信された、コーディングされたビデオデータを受信することもでき、また、コーディングされたビデオデータを復号してビデオ画像を復元し、復元されたビデオデータに基づいて、アクセス可能な表示デバイスにビデオ画像を表示することもできる。

図３の例では、端末デバイス（３１０）、（３２０）、（３３０）および（３４０）は、サーバ、パーソナルコンピュータおよびスマートフォンとして示されてもよいが、本開示の原理は、これに限定されていない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤーおよび／または専用のビデオ会議機器を有するアプリケーションを見つける。ネットワーク（３５０）は、端末デバイス（３１０）、（３２０）、（３３０）および（３４０）間で、コードされたビデオデータを伝送する任意の数のネットワークを表し、有線（ワイヤード）および／または無線の通信ネットワークを含む。通信ネットワーク（３５０）は、回路交換および／またはパケット交換のチャネルでデータを交換することができる。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび／またはインターネットを含む。本開示の目的のために、ネットワーク（３５０）のアーキテクチャおよびトポロジは、以下に本明細書で説明されない限り、本開示の動作にとって重要ではない場合がある。

図４は、開示された主題に対するアプリケーションの例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を図示する。開示された主題は、例えば、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタルメディアへの圧縮されたビデオの記憶、ビデオ会議、デジタルＴＶなどを含む、他のビデオサポートアプリケーションにも同等に適用可能である。

ストリーミングシステムは、捕捉サブシステム（４１３）を含むことができ、この捕捉サブシステムが、例えばデジタルカメラなどのビデオソース（４０１）を含むことができ、例えば圧縮されていないビデオ画像ストリーム（４０２）を作成する。一例では、ビデオ画像ストリーム（４０２）は、デジタルカメラによって撮影されたサンプルを含む。符号化されたビデオデータ（４０４）（またはコーディングされたビデオビットストリーム）と比較する際に、高いデータボリュームを強調するために太い線で描かれたビデオ画像ストリーム（４０２）は、ビデオソース（４０１）に結合されたビデオエンコーダ（４０３）を含む電子デバイス（４２０）によって処理されることができる。ビデオエンコーダ（４０３）は、以下でより詳細に説明するように、開示された主題の様々な態様を可能にするかまたは実現するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。ビデオ画像ストリーム（４０２）と比較する際に、より低いデータボリュームを強調するために細い線で描かれた、符号化されたビデオデータ（４０４）（または符号化されたビデオビットストリーム（４０４））は、将来の使用のためにストリーミングサーバ（４０５）に記憶されることができる。図３のクライアントサブシステム（４０６）および（４０８）などのような１つ以上のストリーミングクライアントサブシステムは、符号化されたビデオデータ（４０４）のコピー（４０７）および（４０９）を検索するために、ストリーミングサーバー（４０５）にアクセスすることができる。クライアントサブシステム（４０６）は、例えば、電子デバイス（４３０）にビデオデコーダ（４１０）を含むことができる。ビデオデコーダ（４１０）は、伝入される、符号化されたビデオデータのコピー（４０７）を復号して、伝出される、ビデオ画像ストリーム（４１１）を生成し、このビデオ画像ストリーム（４１１）が、ディスプレイ（４１２）（例えば、ディスプレイスクリーン）または他のレンダリングデバイス（図示せず）に表示されることができる。一部のストリーミングシステムでは、符号化されたビデオデータ（４０４）、（４０７）および（４０９）（例えば、ビデオビットストリーム）は、特定のビデオコーディング／圧縮規格に従って符号化されることができる。これらの規格の例は、ＩＴＵ－Ｔ推薦Ｈ．２６５を含む。一例では、開発中のビデオコーディング規格は、非公式には次世代ビデオコーディング（ＶＶＣ）と呼ばれる。開示された主題は、ＶＶＣのコンテキストで使用されることができる。

なお、電子デバイス（４２０）および（４３０）は、他のコンポーネント（図示せず）を含むことができる。例えば、電子デバイス（４２０）は、ビデオデコーダ（図示せず）を含むことができ、電子デバイス（４３０）は、同様にビデオエンコーダ（図示せず）を含むことができる。

図５は、本開示の実施形態によるビデオデコーダ（５１０）のブロック図を示す。ビデオデコーダ（５１０）は、電子デバイス（５３０）に含まれることができる。電子デバイス（５３０）は、受信機（５３１）（例えば、受信回路）を含むことができる。ビデオデコーダ（５１０）は、図３の例におけるビデオデコーダ（５１０）の代わりに使用することができる。

受信機（５３１）は、ビデオデコーダ（５１０）によって復号される１つ以上のコーディングされたビデオシーケンスを受信することができ、同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスが復号され、ここで、各コーディングされたビデオシーケンスの復号が、他のコーディングされたビデオシーケンスから独立されている。コーディングされたビデオシーケンスは、チャネル（５０１）から受信されることができ、このチャネルが、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアのリンクであってもよい。受信機（５３１）は、それぞれの使用エンティティ（図示せず）に伝送されることができる、例えばコーディングされたオーディオデータおよび／または補助データストリームなどのような他のデータとともに、符号化されたビデオデータを受信することができる。受信機（５３１）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ（５１５）は、受信機（５３１）とエントロピーデコーダ／解析器（Ｐａｒｓｅｒ）（５２０）（以降「解析器（５２０）」）との間に結合されることができる。いくつかのアプリケーションでは、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の一部である。他の場合では、バッファメモリ（５１５）は、ビデオデコーダ（５１０）の外部に配置されてもよい（図示せず）。さらに他の場合では、例えばネットワークジッタを防止するために、ビデオデコーダ（５１０）の外部にバッファメモリ（図示せず）があり得て、さらに、例えば再生タイミングを処理するために、ビデオデコーダ（５１０）の内部に別のバッファメモリ（５１５）があり得る。受信機（５３１）が十分な帯域幅および制御可能性を有するストア／フォワードデバイスからまたは等時性同期ネットワーク（ｉｓｏｓｙｎｃｈｒｏｎｏｕｓｎｅｔｗｏｒｋ）からデータを受信する場合、バッファメモリ（５１５）は、必要ではないかまたは小さくてもよい。インターネットなどのようなベストエフォートパケットネットワークで使用するために、バッファメモリ（５１５）は、必要になる場合があり、比較的大きくすることができ、有利には適応性のサイズにすることができ、オペレーティングシステムまたはビデオデコーダ（５１０）の外部の類似要素（図示せず）に少なくとも部分的に実装されることができる。

ビデオデコーダ（５１０）は、コーディングされたビデオシーケンスからシンボル（５２１）を再構築するための解析器（５２０）を含むことができる。これらのシンボルのカテゴリには、ビデオデコーダ（５１０）の動作を管理するために使用される情報と、電子デバイス（５３０）の不可欠な部分ではないが、図５に示すように、電子デバイス（５３０）に結合されることができるレンダリングデバイス（５１２）（例えば、ディスプレイスクリーン）などのようなレンダリングデバイスを制御するための潜在的情報とが含まれる。レンダリングデバイスの制御情報は、補足強化情報（ＳＥＩメッセージ）またはビジュアルユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形であってもよい。解析器（５２０）は、受信された、コーディングされたビデオシーケンスに対して解析／エントロピー復号を行うことができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度を有するかまたは有しないかの算術コーディングなどを含む、様々な原理に従うことができる。解析器（５２０）は、グループに対応する少なくとも１つのパラメータに基づいて、コーディングされたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも１つのサブグループパラメータのセットを抽出することができる。サブグループは、画像のグループ（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）、画像、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ：ＣｏｄｉｎｇＵｎｉｔ）、ブロック、変換ユニット（ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔ）、予測ユニット（ＰＵ：ＰｒｅｃｔｉｏｎＵｎｉｔ）などを含むことができる。解析器（５２０）は、変換係数、量子化器パラメータ値、ＭＶなどのような情報をコーディングされたビデオシーケンスから抽出することもできる。

解析器（５２０）は、シンボル（５２１）を作成するために、バッファメモリ（５１５）から受信されたビデオシーケンスに対してエントロピー復号／解析動作を実行することができる。

シンボル（５２１）の再構築は、コーディングされたビデオ画像またはその一部（例えば、フレーム間画像およびフレーム内画像、フレーム間ブロックおよびフレーム内ブロック）のタイプおよび他の要因に応じて、複数の異なるユニットに関連することができる。どのようなユニットに関連するか、およびどのように関連するかは、解析器（５２０）によって、コーディングされたビオシーケンスから解析されたサブグループ制御情報によって制御されることができる。解析器（５２０）と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明瞭にするために示されていない。

既に言及された機能ブロックに加えて、ビデオデコーダ（５１０）は、以下に説明するように、いくつかの機能ユニットに概念的に細分されることができる。商業的制約で動作する実際の実施形態では、これらのユニットの多くは、互いに密接に相互作用し、少なくとも部分的には互いに統合されることができる。しかしながら、開示された主題を説明する目的のために、以下の機能ユニットへの概念的な細分は適切である。

第１ユニットは、スケーラ／逆変換ユニット（５５１）である。スケーラ／逆変換ユニット（５５１）は、量子化された変換係数と、どのような変換を使用するかということ、ブロックサイズ、量子化因子、量子化スケーリング行列などを含む制御情報とを、解析器（５２０）からシンボル（５２１）として受信する。スケーラ／逆変換ユニット（５５１）は、アグリゲータ（５５５）に入力できるサンプル値を含むブロックを出力することができる。

いくつかの場合では、スケーラ／逆変換ユニット（５５１）の出力サンプルは、フレーム内コーディングブロックに属することができ、即ち、以前に再構築された画像からの予測情報を使用していないが、現在画像の以前に再構築された部分からの予測情報を使用することができるブロックである。このような予測情報は、フレーム内画像予測ユニット（５５２）によって提供されてもよい。いくつかの場合では、フレーム内画像予測ユニット（５５２）は、現在画像バッファ（５５８）から抽出された、周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。現在画像バッファ（５５８）は、例えば、部分的に再構築された現在画像および／または完全に再構築された現在画像をバッファリングする。アグリゲータ（５５５）は、いくつかの場合では、サンプルごとに基づいて、フレーム内予測ユニット（５５２）によって生成された予測情報を、スケーラ／逆変換ユニット（５５１）によって提供される出力サンプル情報に追加する。

他の場合では、スケーラ／逆変換ユニット（５５１）の出力サンプルは、フレーム間コーディングされたブロックおよび潜在的に動き補償されたブロックに属することができる。このような場合、動き補償予測ユニット（５５３）は、参照画像メモリ（５５７）にアクセスして、予測に用いられるサンプルを抽出することができる。抽出されたサンプルが、ブロックに関連するシンボル（５２１）に基づいて動き補償された後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ（５５５）によってスケーラ／逆変換ユニット（５５１）の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加されることができる。動き補償予測ユニット（５５３）が予測サンプルを抽出するときの参照画像メモリ（５５７）内のアドレスは、例えば、Ｘ、Ｙ、および参照画像成分を有することができるシンボル（５２１）の形で、動き補償予測ユニット（５５３）に利用可能なＭＶによって制御されることができる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるときに、参照画像メモリ（５５７）から抽出されたサンプル値の補間、ＭＶ予測メカニズムなどを含むこともできる。

アグリゲータ（５５５）の出力サンプルは、ループフィルタユニット（５５６）において様々なループフィルタリング技術によって採用されてもよい。ビデオ圧縮技術は、コーディングされたビデオシーケンス（コーディングされたビデオビットストリームとも呼ばれる）に含まれ、解析器（５２０）からのシンボル（５２１）としてループフィルタユニット（５５６）に利用可能になるパラメータによって制御されるインループフィルタ技術を含むことができ、また、コーディングされた画像またはコーディングされたビデオシーケンスの前の部分（復号順序で）を復号する期間で得られたメタ情報に応答し、および、以前に再構築されてループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット（５５６）の出力は、レンダリングデバイス（５１２）に出力することができ、および、将来のフレーム間画像予測で使用するために参照画像メモリ（５５７）に記憶することができるサンプルストリームとすることができる。

特定のコーディングされた画像は、完全に再構築されると、将来の予測のための参照画像として使用することができる。例えば、現在画像に対応するコーディングされた画像が完全に再構築され、コーディングされた画像が（例えば、解析器（５２０）によって）参照画像として識別されると、現在画像バッファ（５５８）は、参照画像メモリ（５５７）の一部になることができ、そして、後続のコーディングされた画像の再構築を開示する前に、新しい現在画像バッファを再割り当てることができる。

ビデオデコーダ（５１０）は、例えばＩＴＵ－ＴＲｅｃ．Ｈ．２６５．などのような規格における所定のビデオ圧縮技術に従って復号動作を実行することができる。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスがビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格の文書としてのプロファイルとの両方に従うという意味で、使用されているビデオ圧縮技術または規格によって指定された構文に従うことができる。具体的には、プロファイルは、ビデオ圧縮技術または規格で使用可能なすべてのツールから、そのプロファイルで使用できる唯一のツールとしていくつかのツールを選択することができる。コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格の階層によって定義された範囲内にあるということもコンプライアンスに必要である。いくつかの場合では、階層は、最大画像サイズ、最大フレームレート、（例えば、毎秒メガ（ｍｅｇａ）個のサンプルを単位として測定された）最大再構築サンプルレート、最大参照画像サイズなどを制限する。階層によって設定された制限は、いくつかの場合では、仮想参照デコーダ（ＨＲＤ：ＨｙｐｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）仕様と、コーディングされたビデオシーケンスにおいてシグナルで通知されるＨＲＤバッファ管理のメタデータとによって、さらに制限されることができる。

一実施形態では、受信機（５３１）は、符号化されたビデオとともに付加（冗長）的なデータを受信することができる。付加的なデータは、コーディングされたビデオシーケンスの一部として含まれることができる。付加的なデータは、データを適切に復号し、および／または元のビデオデータをより正確に再構築するために、ビデオデコーダ（５１０）によって使用されることができる。付加的なデータは、例えば、時間的、空間的、または信号雑音比（ＳＮＲ：ｓｉｇｎａｌｎｏｉｓｅｒａｔｉｏ）拡張層、冗長スライス、冗長画像、前方誤り訂正符号などのような形式にすることができる。

図６は、本開示の一実施形態によるビデオエンコーダ（６０３）のブロック図を示す。ビデオエンコーダ（６０３）は、電子デバイス（６２０）に含まれる。電子デバイス（６２０）は、送信機（６４０）（例えば、送信回路）を含む。ビデオエンコーダ（６０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用することができる。

ビデオエンコーダ（６０３）は、ビデオエンコーダ（６０３）によってコーディングされたビデオ画像を捕捉するビデオソース（６０１）（図６の例における電子デバイス（６２０）の一部ではない）から、ビデオサンプルを受信することができる。別の例では、ビデオソース（６０１）は、電子デバイス（６２０）の一部である。

ビデオソース（６０１）は、ビデオエンコーダ（６０３）によってコーディングされたソースビデオシーケンスをデジタルビデオサンプルストリームの形式で提供することができ、前記デジタルビデオサンプルストリームは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）を有することができる。メディアサービスシステムでは、ビデオソース（６０１）は、以前に準備されたビデオを記憶する記憶デバイスであってもよい。ビデオ会議システムでは、ビデオソース（６０１）は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってもよい。ビデオデータは、順番に見られるときに動きを与える複数の個別の画像として提供されることができる。画像自体は、空間画素アレイとして構成されてもよく、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てる。

一実施形態によれば、ビデオエンコーダ（６０３）は、リアルタイムで、またはアプリケーションによって要求される任意の他の時間制約の下で、ソースビデオシーケンスの画像を、コーディングされたビデオシーケンス（６４３）にコーディングし圧縮することができる。適切なコーディング速度を実施することは、コントローラ（６５０）の１つの機能である。いくつかの実施形態では、コントローラ（６５０）は、以下で説明するように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。該結合は、明瞭にするために図示されていない。コントローラ（６５０）によって設定されたパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のλ（ラムダ）値…）、画像サイズ、画像のグループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲などを含むことができる。コントローラ（６５０）は、特定のシステム設計に対して最適化されたビデオエンコーダ（６０３）に関連する他の適切な機能を有するように構成されることができる。

いくつかの実施形態では、ビデオエンコーダ（６０３）は、コーディングループで動作するように構成される。過度に簡単化された説明として、一例では、コーディングループは、ソースコーダ（６３０）（例えば、コーディングされる入力画像と、参照画像とに基づいて、シンボルストリームなどのようなシンボルを作成することを担当する）と、ビデオエンコーダ（６０３）に埋め込まれた（ローカル）デコーダ（６３３）とを含むことができる。デコーダ（６３３）は、（リモート）デコーダがサンプルデータを作成すると同様の方法でシンボルを再構築してサンプルデータを作成する（開示された主題で考慮されているビデオ圧縮技術では、シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が無損失であるからである）。再構築されたサンプルストリーム（サンプルデータ）は、参照画像メモリ（６３４）に入力される。シンボルストリームの復号により、デコーダの位置（ローカルまたはリモート）に関係なくビット正確な結果が得られるため、参照画像メモリ（６３４）のコンテンツは、ローカルエンコーダとリモートエンコーダの間でもビットで正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号期間に予測を使用する際に「見た」サンプル値と全く同じである。この参照画像の同期性の基本原理（および、例えばチャネル誤差の原因で同期性が維持されない場合に生じるドリフト）は、いくつかの関連技術でも使用されている。

「ローカル」デコーダ（６３３）の動作は、既に図４に関連して以上で詳細に説明された、ビデオデコーダ（５１０）などのような「リモート」デコーダの動作と同じであってもよい。しかし、図５をさらに簡単に参照すると、シンボルが利用可能であり、かつ、エントロピーコーダ（６４５）および解析器（５２０）によってコーディングされたビデオシーケンスへのシンボルの符号化／復号が無損失であることができるため、バッファメモリ（５１５）と解析器（５２０）を含むビデオデコーダ（５１０）のエントロピーデコード部分は、ローカルデコーダ（６３３）で完全に実行できない可能性がある。

この時点で、デコーダに存在する解析／エントロピー復号以外のいかなるデコーダ技術も、対応するエンコーダにおいて、実質的に同一の機能形式で必ず存在する必要がある、ということが観察されている。このため、開示された主題は、デコーダ動作に焦点を合わせる。エンコーダ技術の説明は、包括的に説明されたデコーダ技術の逆であるため、省略されることができる。特定の領域だけで、より詳細な説明が必要であり、以下で提供される。

動作期間中に、いくつかの実施形態では、ソースコーダ（６３０）は、動き補償予測コーディングを実行することができ、前記動き補償予測コーディングは、ビデオシーケンスから「参照画像」として指定された１つ以上の以前にコーディングされた画像を参照して、入力画像を予測的にコーディングする。このようにして、コーディングエンジン（６３２）は、入力画像の画素ブロックと、入力画像に対する予測参照として選択されることができる参照画像の画素ブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（６３３）は、ソースコーダ（６３０）によって生成されたシンボルに基づいて、参照画像として指定されることができる画像のコーディングされたビデオデータを復号することができる。コーディングエンジン（６３２）の動作は、有利には損失性プロセスであってもよい。コーディングされたビデオデータがビデオデコーダ（図６に示されない）で復号された場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ（６３３）は、参照画像に対してビデオデコーダによって実行されることができる復号プロセスをコピーして、再構築された参照画像を参照画像キャッシュ（６３４）に記憶することができる。このようにして、ビデオエンコーダ（６０３）は、遠端ビデオデコーダによって得られる（伝送誤差が存在しない）再構築された参照画像と共通のコンテンツを有する再構築された参照画像のコピーを、ローカルに記憶することができる。

予測器（６３５）は、コーディングエンジン（６３２）に対して予測検索を実行することができる。すなわち、コーディングされる新しい画像について、予測器（６３５）は、新しい画像の適切な予測参照として機能するサンプルデータ（候補参照画素ブロックとして）または特定のメタデータ、例えば参照画像動きベクトル、ブロック形状などについて、参照画像メモリ（６３４）を検索することができる。予測器（６３５）は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合では、予測器（６３５）によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ（６３４）に記憶された複数の参照画像から引き出された予測参照を有することができる。

コントローラ（６５０）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（６３０）のコーディング動作を管理することができる。

上述のすべての機能ユニットの出力は、エントロピーコーダ（６４５）でエントロピーコーディングされることができる。エントロピーコーダ（６４５）は、例えばハフマンコーディング、可変長コーディング、算術コーディングなどのような技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信機（６４０）は、コードされたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであることができる通信チャネル（６６０）を介した送信に備えるために、エントロピーコーダ（６４５）によって生成成された、コーディングされたビデオシーケンスをバッファリングすることができる。送信機（６４０）は、ビデオコーダ（６０３）からのコーディングされたビデオデータを、送信される他のデータ、例えば、コーディングされたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。

コントローラ（６５０）は、ビデオエンコーダ（６０３）の動作を管理することができる。コーディングする期間、コントローラ（６５０）は、各コーディングされた画像に、特定のコーディングされた画像タイプを割り当てることができ、これは、それぞれの画像に適用できるコーディング技術に影響を与える可能性がある。例えば、画像は、以下の画像タイプのいずれかとして割り当てられることが多いし、即ち、
フレーム内画像（Ｉ画像）は、シーケンス内の任意の他の画像を予測のソースとして使用せずに、符号化および復号されることができるものであってもよい。いくつかのビデオコーデックは、独立したデコーダリフレッシュ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」）画像などの異なるタイプのフレーム内画像を許容する。当業者は、Ｉ画像の変種とそれらのアプリケーションおよび機能とを理解している。

予測画像（Ｐ画像）は、多くとも１つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号され得るものであってもよい。

双方向予測画像（Ｂ画像）は、多くとも２つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号され得るものであってもよい。同様に、複数の予測画像は、単一のブロックの再構築に、２つ以上の参照画像および関連付けられたメタデータを使用することができる。

ソース画像は、一般的に、複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、または１６×１６個のサンプルのブロック）に空間的に細分され、ブロックごとにコーディングされることができる。これらのブロックは、ブロックのそれぞれの画像に適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされることができる。例えば、Ｉ画像のブロックは、非予測的にコーディングされてもよく、またはそれらが同じ画像の既にコーディングされたブロックを参照して予測的にコーディングされてもよい（空間予測またはフレーム内予測）。Ｐ画像の画素ブロックは、１つ前に符コーディングされた参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコーディングされてもよい。Ｂ画像のブロックは、１つまたは２つ前にコーディングされた参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコーディングされてもよい。

ビデオエンコーダ（６０３）は、例えばＩＴＵ－ＴＨ．２６５などのような所定のビデオコーディング技術または規格に従って、コーディング動作を実行することができる。その動作において、ビデオエンコーダ（６０３）は、入力ビデオシーケンスにおける時間的と空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングされたビデオデータは、使用されるビデオコーディング技術または規格によって指定された構文に従うことができる。

一実施形態では、送信機（６４０）は、符号化されたビデオとともに、付加的なデータを送信することができる。ソースコーダ（６３０）は、そのようなデータを、コーディングされたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的／空間的／ＳＮＲ拡張層、冗長画像やスライスなどのような他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含むことができる。

ビデオは、時系列で複数のソース画像（ビデオ画像）として捕捉されることができる。フレーム内画像予測（フレーム内予測と略称されることが多い）は、与えられた画像における空間的相関を利用し、フレーム間画像予測は、画像間の（時間的または他の）相関を利用する。一例では、現在画像と呼ばれる、符号化／復号中の特定の画像がブロックにパーティショニングされる。現在画像のブロックが、ビデオにおける以前にコーディングされ、まだバッファリングされている参照画像における参照ブロックに類似している場合、現在画像のブロックは、動きベクトルと呼ばれるベクトルによってコーディングされることができる。動きベクトルは、参照画像における参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する３番目の次元を有することができる。

いくつかの実施形態では、双方向予測技術は、フレーム間画像予測に使用されることができる。双方向予測技術によれば、例えば、復号の順で両方とも、ビデオにおける現在画像の前にある（ただし、表示の順でそれぞれ、過去と将来にあるかもしれない）第１参照画像および第２参照画像などのような２つの参照画像が使用される。現在画像におけるブロックは、第１参照画像における第１参照ブロックを指す第１の動きベクトルと、第２参照画像における第２参照ブロックを指す第２の動きベクトルによってコーディングされることができる。ブロックは、第１参照ブロックおよび第２参照ブロックの組み合わせによって予測されることができる。

さらに、コーディング効率を向上させるために、マージモード技術は、フレーム間画像予測で使用されることができる。

本開示のいくつかの実施形態によれば、フレーム間画像予測やフレーム内画像予測などのような予測は、ブロックの単位で実行される。例えば、ＨＥＶＣ規格に従って、ビデオ画像のシーケンスにおける画像は、圧縮のためにコーディングツリーユニット（ＣＴＵ：ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）にパーティショニングされ、画像におけるＣＴＵは同じサイズ、例えば６４×６４画素、３２×３２画素、または１６×１６画素を有する。一般的に、ＣＴＵは、１つの輝度ＣＴＢと２つの色度ＣＴＢである３つのコーディングツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、再帰的にクワッドツリーで１つ以上のコーディングユニット（ＣＵ）に分割されてもよい。例えば、６４×６４画素のＣＴＵは、１つの６４×６４画素のＣＵ、４つの３２×３２画素のＣＵ、または１６つの１６×１６画素のＣＵに分割されることができる。一例では、各ＣＵは、フレーム間予測タイプまたはフレーム内予測タイプなどのようなＣＵに対する予測タイプを決定するために分析される。ＣＵは、時間的および／または空間的予測可能性に応じて、１つ以上の予測ユニット（ＰＵ）に分割される。通常、各ＰＵは、輝度予測ブロック（ＰＢ）と２つの色度ＰＢを含む。一実施形態では、コーディング（符号化／復号）における予測動作は、予測ブロックの単位で実行される。輝度予測ブロックを予測ブロックの例として使用すると、予測ブロックは、８×８画素、１６×１６画素、８×１６画素、１６×８画素などのような画素値（例えば、輝度値）の行列を含む。

図７は、本開示の別の実施形態によるビデオエンコーダ（７０３）の図を示す。ビデオエンコーダ（７０３）は、ビデオ画像シーケンスにおける現在ビデオ画像内のサンプル値の処理ブロック（例えば、予測ブロック）を受信し、処理ブロックをコーディングされたビデオシーケンスの一部であるコーディングされた画像に符号化するように構成される。一例では、ビデオエンコーダ（７０３）は、図４の例におけるビデオエンコーダ（４０３）の代わりに使用される。

ＨＥＶＣの例では、ビデオエンコーダ（７０３）は、例えば８×８サンプルの予測ブロックなどのような処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ（７０３）は、例えばレート歪み最適化を使用して、フレーム内モード、フレーム間モード、または双方向予測モードを使用して処理ブロックをコーディングするかどうかを決定する。処理ブロックがフレーム内モードでコーディングされた場合、ビデオエンコーダ（７０３）は、フレーム内予測技術を使用して、処理ブロックをコーディングされた画像に符号化することができ、また、処理ブロックがフレーム間モードまたは双方向予測モードでコーディングされた場合、ビデオエンコーダ（７０３）は、それぞれフレーム間予測または双方向予測技術を使用して、処理ブロックをコーディングされた画像に符号化することができる。特定のビデオコーディング技術では、マージモードは、予測値以外にあるコーディングされた動きベクトル成分の利点を利用しない場合に、動きベクトルが１つ以上の動きベクトル予測値から導出されるフレーム間画像予測サブモードにすることができる。特定の他のビデオコーディング技術では、主題ブロックに適用可能な動きベクトル成分が存在する場合がある。一例では、ビデオエンコーダ（７０３）は、処理ブロックのモードを決定するためのモード決定モジュール（図示せず）などのような他のコンポーネントを含む。

図７の例では、ビデオエンコーダ（７０３）は、図７に示すように一緒に結合された、フレーム間エンコーダ（７３０）と、フレーム内エンコーダ（７２２）と、残差計算器（７２３）と、スイッチ（７２６）と、残差エンコーダ（７２４）と、汎用コントローラ（７２１）と、エントロピーエンコーダ（７２５）とを含む。

フレーム間エンコーダ（７３０）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、そのブロックを参照画像（例えば、前の画像と後の画像におけるブロック）内の１つ以上の参照ブロックと比較し、フレーム間予測情報（例えば、フレーム間符号化技術による冗長情報説明、動きベクトル、マージモード情報）を生成して、任意の適切な技術を使用して、フレーム間予測情報に基づいてフレーム間予測結果（例えば、予測されたブロック）を計算するように構成される。いくつかの例では、参照画像は、復号された参照画像であり、それが符号化されたビデオ情報に基づいて復号されたものである。

フレーム内エンコーダ（７２２）は、現在ブロック（例えば、処理ブロック）のサンプルを受信し、いくつかの場合では、そのブロックを同じ画像で既にコーディングされたブロックと比較し、変換後に量子化された係数を生成して、いくつかの場合では、フレーム内予測情報（例えば、１つ以上のフレーム内符号化技術によるフレーム内予測方向情報）を生成するように構成される。一例では、フレーム内エンコーダ（７２２）は、フレーム内予測情報と、同じ画像における参照ブロックとに基づいて、フレーム内予測結果（例えば、予測されたブロック）も計算する。

汎用コントローラ（７２１）は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ（７０３）の他のコンポーネントを制御するように構成される。一例では、汎用コントローラ（７２１）は、ブロックのモードを決定し、そのモードに基づいて制御信号をスイッチ（７２６）に提供する。例えば、モードがフレーム内モードである場合、汎用コントローラ（７２１）は、残差計算器（７２３）によって使用されるフレーム内モード結果を選択するように、スイッチ（７２６）を制御し、フレーム内予測情報を選択して、そのフレーム内予測情報をコードストリームに含めるように、エントロピーエンコーダ（７２５）を制御する。また、モードがフレーム間モードである場合、汎用コントローラ（７２１）は、残差計算器（７２３）によって使用されるフレーム間予測結果を選択するように、スイッチ（７２６）を制御し、フレーム間予測情報を選択して、そのフレーム間予測情報をコードストリームに含めるように、エントロピーエンコーダ（７２５）を制御する。

残差計算器（７２３）は、受信されたブロックとフレーム内エンコーダ（７２２）またはフレーム間エンコーダ（７３０）から選択された予測結果との間の差（残差データ）を計算するように構成される。残差エンコーダ（７２４）は、残差データに基づいて動作して、残差データを符号化することで変換係数を生成するように構成される。一例では、残差エンコーダ（７２４）は、残差データを空間領域から周波数領域へ変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理を受けて、量子化された変換係数が得られる。様々な実施形態では、ビデオエンコーダ（７０３）はまた、残差デコーダ（７２８）も含む。残差デコーダ（７２８）は、逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データは、フレーム内エンコーダ（７２２）およびフレーム間エンコーダ（７３０）によって適切に使用されることができる。例えば、フレーム間エンコーダ（７３０）は、復号された残差データおよびフレーム間予測情報に基づいて、復号されたブロックを生成することができ、フレーム内エンコーダ（７２２）は、復号された残差データおよびフレーム内予測情報に基づいて、復号されたブロックを生成することができる。復号されたブロックは、復号された画像を生成するために適切に処理され、いくつかの例では、復号された画像は、メモリ回路（図示せず）でバッファされ、参照画像として使用されることができる。

エントロピーエンコーダ（７２５）は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ（７２５）は、ＨＥＶＣ規格などのような適切な規格に従って様々な情報をビットストリームに含むように構成される。一例では、エントロピーエンコーダ（７２５）は、汎用制御データ、選択された予測情報（例えば、フレーム内予測情報またはフレーム間予測情報）、残差情報、およびビットストリーム内の他の適切な情報を含むように構成される。開示された主題によれば、フレーム間モードまたは双方向予測モードのマージサブモードでブロックをコーディングする場合、残差情報はないということに留意されたい。

図８は、本開示の別の実施形態によるビデオデコーダ（８１０）の図を示す。ビデオデコーダ（８１０）は、コーディングされたビデオシーケンスの一部であるコーディングされた画像を受信し、コーディングされた画像を復号して再構築された画像を生成するように構成される。一例では、ビデオデコーダ（８１０）は、図４の例におけるビデオデコーダ（４１０）の代わりに使用される。

図８の例では、ビデオデコーダ（８１０）は、図８に示されるように一緒に結合された、エントロピーデコーダ（８７１）と、フレーム間デコーダ（８８０）と、残差デコーダ（８７３）と、再構築モジュール（８７４）と、フレーム内デコーダ（８７２）とを含む。

エントロピーデコーダ（８７１）は、コーディングされた画像から、コーディングされた画像を構成する構文要素を表す特定のシンボルを再構築するように構成されることができる。このようなシンボルは、例えば、ブロックをコーディングするためのモード（例えば、フレーム内モード、フレーム間モード、双方向予測モード、後者の２つのマージサブモードまたは別のサブモード）と、フレーム内デコーダ（８７２）またはフレーム間デコーダ（８８０）による予測に使用される特定のサンプルまたはメタデータをそれぞれ識別できる予測情報（例えば、フレーム内予測情報またはフレーム間予測情報など）と、例えば量子化された変換係数の形式の残差情報などとを含む。一例では、予測モードがフレーム間予測モードまたは双方向予測モードである場合、フレーム間予測情報は、フレーム間デコーダ（８８０）に提供される。そして、予測タイプがフレーム内予測タイプである場合、フレーム内予測情報は、フレーム内デコーダ（８７２）に提供される。残差情報は、逆量子化を受けて、残差デコーダ（８７３）に提供されることができる。

フレーム間デコーダ（８８０）は、フレーム間予測情報を受信し、フレーム間予測情報に基づいてフレーム間予測結果を生成するように構成される。

フレーム内デコーダ（８７２）は、フレーム内予測情報を受信し、フレーム内予測情報に基づいて予測結果を生成するように構成される。

残差デコーダ（８７３）は、逆量子化を実行して、逆量子化された変換係数を抽出し、その逆量子化された変換係数を処理して、残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（８７３）はまた、特定の制御情報（量子化器パラメータ（ＱＰ）を含むように）も必要とする場合があり、その情報は、エントロピーデコーダ（８７１）によって提供される場合がある（これが低ボリューム制御情報のみであるため、データ経路は図示されていない）。

再構築モジュール（８７４）は、空間領域において、残差デコーダ（８７３）による出力としての残差と、（場合によっては、フレーム間予測モジュールまたはフレーム内予測モジュールによる出力としての）予測結果とを組み合わせて、再構築されたブロックを形成するように構成され、再構築されたブロックは、再構築された画像の一部とすることができ、その後、再構築された画像は、再構築されたビデオの一部とすることができる。それは、視覚的品質を改善するために、デブロッキング動作などのような他の適切な動作を実行することができる、ということに留意されたい。

ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、任意の適切な技術を使用して実現されることができる、ということに留意されたい。一実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、１つ以上の集積回路を使用して実現されることができる。別の実施形態では、ビデオエンコーダ（４０３）、（６０３）および（７０３）と、ビデオデコーダ（４１０）、（５１０）および（８１０）とは、ソフトウェア命令を実行する１つ以上のプロセッサを使用して実装されることができる。

超解像度ベースのコーディングに関連するビデオコーディング技術、例えば超解像度ベースのコーディングの適応方法が開示される。ビデオコーディングフォーマットは、任意の適切なビデオコーディングフォーマット、例えば、オープンメディア同盟（ＡＯＭｅｄｉａ：ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ）ビデオ１（ＡＶ１）またはＡＶ１を超える次世代のＡＯＭｅｄｉａビデオフォーマットなどのような、インターネット上でのビデオ伝送のために設計されたオープンビデオコーディングフォーマットを含むことができる。ビデオコーディング規格は、高効率ビデオコーディング（ＨＥＶＣ）規格、ＨＥＶＣを超える次世代ビデオコーディング（例えば、汎用ビデオコーディング（ＶＶＣ））などを含むことができる。

一般に、画像またはフレームはブロックにパーティショニングされ、ブロックは、パーティショニング、予測、変換などの様々な処理のためのユニットであり得る。様々なブロックパーティション技術は使用され得る。

図９は、ＡＯＭｅｄｉａによるビデオコーディングフォーマットＶＰ９において使用されるパーティション技術の例を示す。例えば、画像（９１０）は、６４×６４（例えば、６４サンプル×６４サンプル）のサイズの複数のブロック（９２０）にパーティショニングされる。さらに、４ウェイパーティションツリーは、６４×６４レベルから始まり、より小さなブロックまで続くことができ、最低レベルは、４×４レベル（例えば、４サンプル×４サンプルのブロックサイズ）にすることができる。いくつかの例では、ブロック８×８およびその以下に対して追加の制限が適用され得る。図９の例では、６４×６４ブロック（９２０）は、第１ウェイ（９２１）、第２ウェイ（９２２）、第３ウェイ（９２３）および第４方向（９２４）のうちの１つを使用して、より小さなブロックにパーティショニングされ得る。Ｒとして指定されたパーティション（第４ウェイ（９２４）において示されている）は、再帰パーティションと呼ばれ、ここで、同じパーティションツリーは、最低の４×４レベルに達するまで、より低いスケールで繰り返され得る。

図１０は、インターネット上でのビデオ伝送のために設計されたＡＶ１で使用されるパーティション技術の例を示す。ＡＶ１は、ＶＰ９の後継として開発された。例えば、画像（１０１０）は、１２８×１２８（例えば、１２８サンプル × １２８サンプル）のサイズの複数のブロック（１０２０）にパーティショニングされる。さらに、１０ウェイパーティション構造は、１２８×１２８から始まり、より小さなブロックまで続くことができる。図１０の例では、１２８×１２８ブロックは、１０ウェイ（１０２１）～（１０３０）のうちの１つを使用して、より小さなブロックにパーティショニングされ得る。ＡＶ１は、パーティションツリーを１０ウェイ構造に拡張するだけでなく、最大サイズ（ＶＰ９／ＡＶ１ではスーパーブロックと呼ばれる）を１２８×１２８から開始するように増加させる。Ｒとして指定されたパーティション（ウェイ（１０２９）において示されている）は、再帰パーティションと呼ばれ、ここで、同じパーティションツリーは、より低いスケールで繰り返され得る。１０ウェイ構造は、（１０２１）および（１０２８）によって示されているような、４：１および１：４の長方形のパーティションを含むことができる。１つの例では、これらの長方形のパーティションはどれも、さらに細分化され得ない。さらに、ＡＶ１は、８×８レベル以下のパーティションを使用するために、柔軟性を向追加する。例えば、特定のケースでは、２×２色度フレーム間予測が可能である。

いくつかの例では、ブロックパーティショニング構造は、コーディングツリーと呼ばれる。一例（例えば、ＨＥＶＣ）では、コーディングツリーは、各分割が大きな正方形ブロックを４つの小さな正方形ブロックに分割するクワッドツリー構造を有することができる。いくつかの例では、画像は、コーディングツリーユニット（ＣＴＵ）に分割され、次に、ＣＴＵは、クワッドツリー構造を使用して、より小さなブロックに分割される。クワッドツリー構造によれば、コーディングツリーユニット（ＣＴＵ）は、様々な局所特徴に適応するように、コーディングユニット（ＣＵ）に分割される。フレーム間画像予測（またはフレーム間予測）（時間的）またはフレーム内画像予測（またはフレーム内予測）（空間的）を使用して画面領域をコーディングするかどうかへの判定は、ＣＵレベルで実行され得る。各ＣＵは、ＰＵ分割タイプに応じて、１つ、２つ、または４つの予測ユニット（ＰＵ）にさらに分割され得る。１つのＰＵ内で、同じ予測プロセスが適用され、また、関連情報（例えば、予測情報）がＰＵ単位上でデコーダに送信される。

ＰＵ分割タイプに基づいて予測プロセスを適用することで残差ブロックが取得された後、ＣＵは、別のクワッドツリー構造に従って、変換ユニット（ＴＵ）にパーティショニングされ得る。ＨＥＶＣの例では、ＣＵ、ＰＵ、ＴＵを含むマルチパーティションという概念がある。いくつかの実施形態では、ＣＵまたはＴＵは、正方形の形状のみを有するが、ＰＵは、正方形または長方形の形状を有することができる。いくつかの実施形態では、１つのコーディングブロックは、さらに、４つの正方形のサブブロックに分割され得て、また、変換は、例えばＴＵのような、各サブブロックに対して実行され得る。各ＴＵは、残差クワッドツリー（ＲＱＴ：ｒｅｓｉｄｕａｌｑｕａｄｔｒｅｅ）と呼ばれるクワッドツリー構造を使用して、より小さなＴＵにさらに再帰的に分割され得る。

画像境界では、いくつかの例（例えば、ＨＥＶＣ）において、暗黙的なクワッドツリー分割が採用され、これにより、ブロックでは、そのサイズが画像境界に適合するまで、クワッドツリー分割が保持される。

いくつかの例（例えば、ＶＶＣ）では、ブロックパーティショニング構造では、クワッドツリープラスバイナリツリー（ＱＴＢＴ：ｑｕａｄｔｒｅｅｐｌｕｓｂｉｎａｒｙｔｒｅｅ）ブロックパーティショニング構造が使用され得る。ＱＴＢＴ構造では、複数のパーティションタイプの概念（ＣＵ、ＰＵおよびＴＵ概念）が除去され、また、ＣＵパーティション形状のための更な柔軟性がサポートされ得る。ＱＴＢＴブロックパーティショニング構造では、ＣＵは、正方形または長方形のいずれかの形状を有することができる。

図１１Ａは、図１１Ｂに示されているＱＴＢＴブロックパーティショニング構造（１１２０）を使用してパーティショニングされたＣＴＵ（１１１０）を示す。ＣＴＵ（１１１０）は、まず、クワッドツリー構造によってパーティショニングされる。クワッドツリーのリーフノードは、バイナリツリー構造またはクワッドツリー構造によってさらにパーティショニングされる。バイナリツリー分割では、対称水平分割（例えば、ＱＴＢＴブロックパーティショニング構造（１１２０）において「０」としてラベル付けられる）と対称垂直分割（例えば、ＱＴＢＴブロックパーティショニング構造（１１２０）において「１」としてラベル付けられる）という２つの分割タイプがあり得る。さらに分割されていないリーフノードはＣＵと呼ばれ、さらなるパーティショニングを必要とせずに予測プロセスおよび変換プロセスに使用され得る。したがって、ＱＴＢＴブロックパーティショニング構造において、ＣＵ、ＰＵおよびＴＵは、同じブロックサイズを有する。

いくつかの例（例えば、ＪＥＭ）では、ＣＵは、異なる色成分のコーディングブロックを含むことができる。例えば、４：２：０色度フォーマットのＰスライスとＢスライスの場合、１つのＣＵは、１つの輝度ＣＢと２つの色度ＣＢを含む。ＣＵは、単一の色成分のＣＢを含むことができる。例えば、Ｉスライスの場合、１つのＣＵは、１つの輝度ＣＢのみを含むか、２つの色度ＣＢだけを含む。

いくつかの実施形態では、ＱＴＢＴブロックパーティショニングスキームに対して、以下のパラメータが定義され、即ち、
－ＣＴＵサイズ：クワッドツリーのルートノードサイズ。例えば、ＨＥＶＣにおける概念と同じである。
－ＭｉｎＱＴＳｉｚｅ：クワッドツリーのリーフノードの最小許容サイズ
－ＭａｘＢＴＳｉｚｅ：バイナリツリーのルートノードの最大許容サイズ
－ＭａｘＢＴＤｅｐｔｈ：バイナリツリーの最大許容深さ
－ＭｉｎＢＴＳｉｚｅ：バイナリツリーのリーフノードの最小許容サイズ

ＱＴＢＴブロックパーティショニング構造の一例では、ＣＴＵサイズは、色度サンプルの２つの対応する６４×６４ブロックを有する１２８×１２８輝度サンプルとして設定され、ＭｉｎＱＴＳｉｚｅは１６×１６として設定され、ＭａｘＢＴＳｉｚｅは６４×６４として設定され、ＭｉｎＢＴＳｉｚｅ（幅と高さの両方）は４×４として設定され、およびＭａｘＢＴＤｅｐｔｈは４として設定される。クワッドツリーパーティショニングは、クワッドツリーのリーフノードを生成するために、まずＣＴＵに適用される。クワッドツリーのリーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有することができる。クワッドツリーのリーフノードが１２８×１２８である場合、そのサイズがＭａｘＢＴＳｉｚｅ（すなわち、６４×６４）を超えるため、クワッドツリーのリーフノードは、バイナリツリーによってさらに分割されない。さもないと、クワッドツリーのリーフノードは、バイナリツリーによってさらにパーティショニングされる。したがって、クワッドツリーのリーフノードは、バイナリツリーのルートノードでもあり、０であるバイナリツリー深さを有する。

バイナリツリー深さがＭａｘＢＴＤｅｐｔｈ（すなわち、４）に達した場合、それ以上の分割は考慮されない。バイナリツリーノードの幅がＭｉｎＢＴＳｉｚｅ（すなわち、４）に等しい場合、それ以上の水平分割は考慮されない。同様に、バイナリツリーノードの高さがＭｉｎＢＴＳｉｚｅに等しい場合、それ以上の垂直分割は考慮されない。バイナリツリーのリーフノードは、さらなるパーティショニングを必要とせずに、予測プロセスおよび変換プロセスによってさらに処理される。一実施形態では、最大ＣＴＵサイズは２５６×２５６輝度サンプルである。

図１１Ａおよび１１Ｂでは、実線は、クワッドツリー分割を示し、点線は、バイナリツリー分割を示す。バイナリツリーの各分割（すなわち、非リーフ）ノードでは、どの分割タイプ（すなわち、水平または垂直）が使用されるかを示すために、１つのフラグが信号で通知される。例えば、０は水平分割を示し、１は垂直分割を示す。クワッドツリー分割の場合、クワッドツリー分割がブロックを水平方向と垂直方向の両方に分割することで、同じサイズを有する４つのサブブロックを生成できるので、分割タイプを示す必要はない。

いくつかの実施形態では、ＱＴＢＴブロックパーティショニングスキームは、輝度および色度が別個のＱＴＢＴブロックパーティショニング構造を有するための柔軟性をサポートする。例えば、ＰスライスとＢスライスの場合、１つのＣＴＵにおける輝度色度および色度ブロックは、同じＱＴＢＴブロックパーティショニング構造を共有する。しかしながら、Ｉスライスの場合、輝度ＣＴＢは、ＱＴＢＴブロックパーティショニング構造によってＣＵにパーティショニングされ、色度ブロックは、他のＱＴＢＴブロックパーティショニング構造によって色度ＣＵにパーティショニングされる。これにより、ＩスライスにおけるＣＵは、輝度成分のコーディングブロックまたは２つの色度成分のコーディングブロックで構成され、ＰスライスまたはＢスライスにおけるＣＵは、３つの色成分すべてのコーディングブロックで構成される。

いくつかの例（例えば、ＨＥＶＣ）では、小ブロックのためのフレーム間予測は、動き補償のメモリアクセスを低減するために制限されている。例えば、４×８および８×４ブロックについては双方向予測がサポートされておらず、また、４×４ブロックについてはフレーム間予測がサポートされていない。

さらに、いくつかの例（例えば、ＶＣＣ）では、マルチタイプツリー（ＭＴＴ：ｍｕｌｔｉ－ｔｙｐｅｔｒｅｅ）ブロックパーティショニング構造が使用される。いくつかの例では、ＭＴＴブロックパーティショニング構造は、ＱＴＢＴブロックパーティショニング構造よりも柔軟なツリー構造である。ＭＴＴでは、クワッドツリーパーティショニングおよびバイナリツリーパーティショニングに加えて、ターナリツリー（ＴＴ：ｔｅｒｎａｒｙｔｒｅｅ）パーティショニングが使用され得る。ＴＴは、水平中央側トリプルツリーパーティショニングおよび垂直中央側トリプルツリーパーティショニングを含むことができる。

図１２Ａは、垂直中央側トリプルツリーパーティショニングの例を示し、図１２Ｂは、水平中央側トリプルツリーパーティショニングの例を示す。ＴＴパーティショニングは、クワッドツリーパーティショニングおよびバイナリツリーパーティショニングを補完することができる。例えば、トリプルツリーパーティショニングは、ブロックの中央に位置するオブジェクトをキャプチャすることができ、一方、クワッドツリーとバイナリツリーは、ブロックの中央を横切って分割する。一例では、トリプルツリーによるパーティションの幅と高さは、２のべき乗であるため、追加の変換パーティションは必要がない。

２レベルツリーなどのブロックパーティショニング設計は、主に複雑さを低減するために動機づけられるものである。ツリーのトラバースの複雑さは、Ｔ^Ｄとすることができ、ここで、Ｔは、分割タイプの数を示し、Ｄは、ツリーの深さである。

本開示では、用語「解像度」および「空間解像度」は、交換可能に使用され得る。

超解像度コーディングモードは、ビデオコーディングフォーマット、例えばＡＶ１において使用され得る。図１３は、本開示の一実施形態による、フレームレベル（または画像レベル）の超解像度コーディングモードを含む例示的なループフィルタリングパイプライン（１３００）を示す。

フレームレベル（または画像レベル）の超解像度コーディングモードは、ダウンサンプリングされた画像に符号化されるソース画像をダウンサンプリング（ダウンスケーリングとも呼ばれる）することと、低空間解像度（低減された空間解像度またはダウンサンプリングされた空間解像度とも呼ばれる）で、ダウンサンプリングされた画像をエンコーダ側で符号化することとを含むことができる。ソース画像は、低空間解像度よりも高い完全空間解像度（高空間解像度または原空間解像度とも呼ばれる）を有する。低空間解像度を有する、符号化されたダウンサンプリングされた画像は、デコーダに送信され、またデコーダ側では低空間解像度で復号され得る。続いて、復号されたダウンサンプリングされた画像は、高空間解像度を有する復号された画像にアップサンプリング（またはスケールアップ）され得る。

図１３を参照すると、エンコーダ側で、ソースフレーム（ソース画像とも呼ばれる）は、高空間解像度（例えば、４Ｋ×２Ｋ）に対応するソース画像サイズ（例えば、４Ｋ×２Ｋまたは４０００サンプル×２０００サンプル）を有する。ソースフレームは、最初に、非規範的な方式でダウンスケーラ（ダウンサンプラとも呼ばれる）（１３１１）によってダウンスケーリング（またはダウンサンプリング）され、したがって、低空間解像度（例えば、２ｋ×２ｋ）で符号化され得る。ダウンサンプリングされた後、ダウンサンプリングされた画像は、低空間解像度に対応するダウンスケーリングされた画像サイズ、例えば２Ｋ×２Ｋまたは２０００サンプル×２０００サンプルなどを有する。ダウンサンプリングされた画像は、フレーム内予測またはフレーム間予測、変換、量子化、エントロピー符号化などを含むことができる符号化ツール（１３１２）を使用して符号化される。符号化されたダウンサンプリングされた画像は、例えばデブロッキングフィルタおよび制約付き方向エンハンスメントフィルタ（ＣＤＥＦ：ＣｏｎｓｔｒａｉｎｅｄＤｉｒｅｃｔｉｏｎａｌＥｎｈａｎｃｅｍｅｎｔＦｉｌｔｅｒ）などの、１つまたは複数のフィルタを含むフィルタツール（１３１３）によってフィルタリングされ得る。フィルタリングされたダウンサンプリングされた画像は、アップスケーラ（１３１４）によってアップスケーリング（またはアップサンプリング）されて、高空間解像度（例えば、４Ｋ×２Ｋ）を有する、アップスケーリング（またはアップサンプリング）された画像を生成することができる。アップスケーリングされた画像は、例えば別の画像を予測するために、高空間解像度（例えば、４Ｋ×２Ｋ）を有する参照画像として使用され得る。アップスケーラ（１３１４）は、規範的な方式での線形アップスケーラ（線形アップスケーリングフィルタとも呼ばれる）であってもよい。いくつかの例では、ループ復元ツール（１３１５）は、ダウンサンプリングおよび量子化の期間に失われた高周波の詳細を復元するために、アップスケーリングされた画像に高空間解像度で適用される。

超解像度コーディングモードまたはフレームベースの超解像度コーディングモードが適用された場合、低空間解像度を有する、フィルタリングされたダウンサンプリングされた画像は、ビデオビットストリームでデコーダに送信され得る。デコーダ側で、復号ツール（１３２２）が、デコーダによって受信された、フィルタリングされたダウンサンプリングされた画像を復号するために使用される。復号されたダウンサンプリングされた画像は、例えばデブロッキングフィルタおよびＣＤＥＦなどの、１つまたは複数のフィルタを含むフィルタツール（１３２３）によってさらにフィルタリングされ得る。デブロックフィルタおよびＣＤＥＦは、低解像度でエッジを保持しながら、コーディングアーティファクトを除去するために適用され得る。次に、例えば、アップスケーラ（１３２）は、例えば水平方向のみに沿って適用されて、高空間解像度を有する完全空間解像度再構築（例えば、アップスケーリングされた再構築された画像）を得る。アップスケーラ（１３２４）は、規範的な方式での線形アップスケーリングフィルタであってもよい。ループ復元ツール（またはループ復元フィルタ）（１３２５）は、ダウンサンプリングおよび量子化の期間に失われた高周波の詳細を復元するために、オプションで、アップスケーリングされた再構築された画像に高空間解像度で適用される。

フレームレベル超解像度コーディングモードは、水平方向および／または垂直方向に適用され得る。一例では、フレームレベル超解像度コーディングモードは、水平方向に適用され、ここでは、画像の、水平方向に沿った空間解像度が変更され、また、垂直方向に沿った空間解像度がコーディングプロセス全体で同じままであり、したがって、水平のみフレームレベル超解像度解像度モードと呼ばれる。

いくつかの例（例えば、ＡＶ１）では、超解像度コーディングモードは、フレームレベル（画像レベルとも呼ばれる）で、信号で通知された特別なモードである。各コーディングされたフレームは、比率の制約内で選択された解像度を有する水平のみ超解像度コーディングモードを使用することができる。信号で通知された情報は、フレームの復号後に線形アップサンプリングが適用されるかどうか、および使用されるスケーリング比率を示すことができる。

超解像度コーディングモードが一方向（例えば、水平方向または垂直方向）のみに適用される場合、スケーリング比率は、アップサンプリング比率または対応するダウンサンプリング比率を指すことができる。アップサンプリング比率は、ｄ／８として与えられる、９つの可能な値を持つことができる。１例では、ｄは、８から１６の範囲内の整数であり、したがって、ｄは８、９、…、または１６である。符号化前の対応するダウンサンプリング比率は、アップサンプリング比率に対する１の比率（例えば８／ｄ）であり得、したがって、１／２～１の範囲内であり得る。図１３を参照すると、超解像度コーディングモードは、水平方向のみに適用され、ダウンサンプリング比率は１／２であり、ｄ＝１６であることに対応して、アップサンプリング比率は２である。

出力フレーム次元Ｗ×Ｈ（高空間解像度に対応する）とアップサンプリング比率ｄ／８とが与えられると、エンコーダおよびデコーダは、低解像度コーディングされたフレーム次元をｗ×Ｈとして計算することができ、ここで、低減された（またはダウンサンプリングされた）幅ｗが（８ｗ＋ｄ／２）／ｄである。アップスケーラ（例えば、（１３１４）または（１３２４））によって実行される線形アップスケーリングプロセスへの入力は、低空間解像度ｗ×Ｈの低減されたフレームであり、アップスケーラ（例えば、（１３１４）または（１３２４））によって実行される線形アップスケーリングプロセスからの出力は、フレームヘッド（画像ヘッドとも呼ばれる）において指定された、高空間解像度Ｗ×Ｈを有するフレームである。ＡＶ１における規範的な水平線形アップスケーラ（例えば、（１３１４）または（１３２４））は、各行の補間のために、１／１６位相線形８タップフィルタを使用することができる。

超解像度コーディングモードが水平方向および垂直方向に適用される場合、スケーリング比率は、水平スケーリング比率および垂直スケーリング比率を含むことができる。水平スケーリング比率は、上述のように、水平アップサンプリング比率または対応する水平ダウンサンプリング比率を指す。垂直スケーリング比率は、垂直アップサンプリング比率または対応する垂直ダウンサンプリング比率を指し、また、上記の説明は、垂直スケーリング比率に適用され得る。

残差ブロックにおける残差値（残差データとも呼ばれる）は、係数ブロックにおける変換係数に変換（または順変換）されてもよい。係数ブロックにおける変換係数は、残差ブロックにおける残差値に変換（または逆変換）され得る。例えばＡＶ１における変換コーディングの例は、以下に説明され得る。

拡張されたコーディングブロックパーティションをサポートするために、複数の変換サイズ（各次元について４サポートから６４サポートまでの範囲）および変換形状（例えば、２：１、１：２、４：１、または１：４の幅／高さ比率を有する正方形形状、長方形形状）は、例えばＡＶ１におけるプライマリー変換のために使用され得る。２Ｄ変換プロセスは、ハイブリッド変換カーネル（例えば、コーディングされた残差ブロックの各次元のための異なる１Ｄ変換を含む）を使用することができる。プライマリー１Ｄ変換は、ａ）４ポイント、８ポイント、１６ポイント、３２ポイント、６４ポイントＤＣＴ－２；ｂ）４ポイント、８ポイント、１６ポイントの非対称ＤＳＴ（例えば、ＤＳＴ－４、例えば、ＤＳＴ－７）および対応するフリップされたバージョン；およびｃ）４ポイント、８ポイント、１６ポイント、３２ポイントの恒等変換（ｉｄｅｎｔｉｔｙｔｒａｎｓｆｏｒｍ）を含むことができる。

ハイブリッド変換カーネルの利用可能性は、変換ブロックサイズおよび予測モードに基づくことができる。色度成分については、変換タイプの選択は、暗黙的な方法で実行され得る。フレーム内予測残差については、変換タイプは、フレーム内予測モードに従って選択され得る。フレーム間予測残差については、変換タイプは、同じ位置に配置された輝度ブロックの変換タイプ選択に従って選択され得る。したがって、色度成分については、ビットストリーム中に変換タイプシグナリングは存在していない。

残差コーディングは、変換係数のコーディングを指すことができる。いくつかの例では、例えばＡＶ１では、各変換ユニット（ＴＵ：ｔｒａｎｓｆｏｒｍｕｎｉｔ）について、係数コーダは、スキップ記号のコーディングから開始し、その後、変換コーディングがスキップされない場合、変換カーネルタイプのコーディングと、すべての非ゼロ係数のブロック終了（ＥＯＢ：ｅｎｄ－ｏｆ－ｂｌｏｃｋ）位置のコーディングが続く。スキップ記号は、変換コーディングがスキップされるかどうかを示すことができる。次に、各係数値は、複数のレベルマップ（例えば、３つのレベルプレーン）および記号マップ（または記号プレーン）にマッピングされ得る。記号プレーンは、係数の記号をカバーすることができ、３つのレベルプレーンは、低レベルプレーン、中レベルプレーン、および高レベルプレーンを含む、係数マグニチュード（ｍａｇｎｉｔｕｄｅｓ）の異なる範囲に対応することができる。低レベルプレーンは、０～２の範囲に対応することができ、中レベルプレーンは、３～１４の範囲に対応することができ、高レベルプレーンは、１５以上の範囲をカバーすることができる。

ＥＯＢ位置がコーディングされた後、低レベルプレーンおよび中レベルプレーンは、逆スキャン順序で一緒にコーディングされ得る。低レベルプレーンは、係数マグニチュードが０と２の間であるかどうかを示し、中レベルプレーンは、この範囲が３と１４の間であるかどうかを示すことができる。その後、記号プレーンおよび高レベルプレーンは、順スキャン順序で一緒にコーディングされ得て、高レベルプレーンは、１４より大きいマグニチュードを有する残差値を示すことができ、残りは、Ｅｘｐ－Ｇｏｌｏｍｂコードを使用してエントロピーコーディングされる。従来のジグザグスキャン順序は、例えばＡＶ１などで使用され得る。

このような分離（例えば、３つのレベルプレーンと１つの記号プレーンにマッピングされた係数値）は、リッチなコンテキストモデルを低レベルプレーンに割り当てることを許可し、これは、双方向、水平方向および垂直方向などの変換方向、変換サイズ、および最大５つの隣接係数を考慮することで、適度なコンテキストモデルサイズで圧縮効率を向上させる。中レベルプレーンは、コンテキスト隣接係数の数が５から２に減少された低レベルプレーンと同様のコンテキストモデルを使用することができる。高レベルプレーンは、コンテキストモデルを使用せずに、Ｅｘｐ－Ｇｏｌｏｍｂコードでコーディングされ得る。記号プレーンにおいて、ＤＣ記号は、ＴＵの隣接変換ユニットのＤＣ記号をコンテキスト情報として使用してコーディングされ、他の記号ビットは、コンテキストモデルを使用せずに直接コーディングされる。

いくつかの例（例えば、ＡＶ１）では、超解像度コーディングモードは、フレームレベルで実行され、したがって、画像におけるすべての領域に固定のスケーリング比率で適用される。画像内の異なる領域における信号統計量は、大きく変化する可能性があり、したがって、いくつかの例では、すべての領域にダウンサンプリングおよび／またはアップサンプリングを適用することは、良好なレート歪みトレードオフではない可能性がある。

いくつかの例（例えば、ＡＶ１）では、最大ＣＵサイズは、１２８×１２８（例えば、１２８サンプルｘ１２８サンプル）であるが、最大変換サイズは、わずか６４×６４（例えば、６４サンプルｘ６４サンプル）である。大きなＣＵの使用から利益を得るために、それに応じて大きな変換カーネル（例えば、１２８×１２８）を使用することができる。あるいは、大きな変換カーネルによって行われるのと同様にエネルギー圧縮を達成できる他の方法を使用することができる。

本開示の様々な態様によれば、超解像度コーディングモードが適用されるかどうかは、サブ画像レベル（または、サブフレームレベル）でフレーム（または、画像）の部分に対して適応的に決定され得る。当該部分は、フレーム内の、ブロックのサブセットまたは単一ブロックを含むことができる。一実施形態では、フレームの当該部分は、ブロックであり、超解像度コーディングモードが適用されるかどうかは、このブロックに対して適応的に決定され得る。このブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）などを指すことができる。このブロックは、マルチチャンネル信号の輝度成分、色度成分、または他の任意の成分（例えば、ＲＧＢ信号の１つ）に対応することができる。一例では、このブロックは、輝度ブロックまたは色度ブロックである。このブロックは、フレーム内コーディングされてもよく、フレーム間コーディングされてもよい。超解像度コーディングモードがこのブロックに適用されることが決定された場合、超解像度コーディングモードは、このブロックに適用され、ブロックレベルの超解像度コーディングモードと呼ばれる。ブロックレベルの超解像度コーディングモードでは、超解像度コーディングモードが画像におけるブロックに適用されるかどうかは、ブロックごとに個別に決定され得る。いくつかの例では、画像におけるブロックの第１サブセットが、超解像度コーディングモードを使用してコーディングされ、画像におけるブロックの第２サブセットが、超解像度コーディングモードを使用せずにコーディングされる。超解像度コーディングモードを使用してコーディングされた、画像におけるブロックの第１サブセットは、同じスケーリング比率または異なるスケーリング比率を有することができる。一例では、超解像度コーディングモードが適用されるかどうかは、画像における各ブロックに対して適応的に決定され得る。

本開示において、用語「ソースブロック」は、エンコーダによって符号化されるブロックを指すことができ、また、エンコーダへの入力信号とすることができる。用語「再構築されたブロック」は、デコーダによって再構築されたブロックを指すことができ、また、デコーダからの出力信号とすることができる。再構築されたブロックは、ソースブロックに対応することができ、再構築されたブロックおよびソースブロックは、高空間解像度または完全空間解像度を有することができる。

超解像度コーディングモードが高空間解像度を有するブロック（例えば、ソースブロック）に適用されることが決定された場合は、ダウンサンプリングプロセスは、エンコーダによってブロックレベルで実行され得る。順変換や逆変換などの変換は、低空間解像度で実行され得る。アップサンプリングは、デコーダによってブロックレベルで実行され得る。

図１４は、本開示の一実施形態による、超解像度コーディングモードを使用してブロックをコーディングするプロセスを示す。エンコーダ側で、ソース信号および参照信号（予測信号とも呼ばれる）のダウンサンプリングされたバージョンを使用して、低減された解像度の残差信号（または、ダウンサンプリングされた残差信号）を生成することができる。そして、低減された解像度の残差信号は、変換されてコーディングされ得る。

デコーダ側で画像を復号する場合、まず、ダウンサンプリングされた予測信号が生成され、復号された、低減された解像度の残差信号が加算されて、ダウンサンプリングされた再構築されたブロックが生成され得る。最後に、低減された解像度の再構築されたブロックは、元の解像度を有する再構築されたブロックにアップサンプリングされ得る。

より具体的には、図１４を参照すると、エンコーダ側で、ソースブロック（１４０１）などのソース信号がダウンサンプラ（１４０２）によってダウンサンプリングされ、したがって、ダウンサンプリングされた信号（例えば、ダウンサンプリングされたソースブロック（１４０３））が生成される。参照ブロック（１４０５）などの参照信号がダウンサンプラ（１４０６）によってダウンサンプリングされ、したがって、ダウンサンプリングされた信号（例えばダウンサンプリングされた参照ブロック（１４０７））が生成される。続いて、ダウンサンプリングされた残差ブロック（１４０４）が残差計算器（１４１８）を使用して生成される。残差計算器（１４１８）は、ダウンサンプリングされたソースブロック（１４０３）と、ダウンサンプリングされた参照ブロック（１４０７）との間の差（残差データまたは残差値）を計算するように構成され得る。この差は、ダウンサンプリングされた残差ブロック（１４０４）と呼ばれる。このダウンサンプリングされた残差ブロック（１４０４）は、ツール（１４０８）によって、変換、量子化およびエントロピー符号化されて、ダウンサンプリングされた係数ブロック（１４０９）を生成することができる。このダウンサンプリングされた係数ブロック（１４０９）は、空間周波数ドメインにおける変換係数を含むことができる。このダウンサンプリングされた係数ブロック（１４０９）は、エンコーダからデコーダに送信され得る。

再び図１４を参照すると、デコーダ側で、ダウンサンプリングされた係数ブロック（１４０９）は、デコーダによって受信される。いくつかの例では、受信されたダウンサンプリングされた係数ブロックは、伝送損失、歪みなどによって、ダウンサンプリングされた係数ブロック（１４０９）とは異なる。簡潔にするために、ダウンサンプリングされた係数ブロック（１４０９）は、デコーダでは、ツール（１４１０）への入力信号として使用される。エントロピー復号、逆量子化および逆変換（Ｉｎｖ－Ｔｒａｎｓｆｏｒｍ）は、ダウンサンプリングされた係数ブロック（１４０９）に対して実行されて、ダウンサンプリングされた残差ブロック（１４１１）が生成され得る。参照ブロック（１４１２）は、ダウンサンプラ（１４１３）によってダウンサンプリングされて、ダウンサンプリングされた参照ブロック（１４１４）が生成され得る。続いて、アグリゲータ（１４１９）は、ダウンサンプリングされた残差ブロック（１４１１）およびダウンサンプリングされた参照ブロック（１４１４）に基づいて、ダウンサンプリングされた再構築されたブロック（１４１５）を生成することができる。一例では、ダウンサンプリングされた残差ブロック（１４１１）およびダウンサンプリングされた参照ブロック（１４１４）は加算されて、ダウンサンプリングされた再構築されたブロック（１４１５）が生成される。最後に、ダウンサンプリングされた再構築されたブロック（１４１５）は、アップサンプラ（１４１６）によってアップサンプリングされて、再構築されたブロック（１４１７）が生成され得る。ダウンサンプリングされた再構築されたブロック（１４１５）および再構築されたブロック（１４１７）は、空間ドメインにおけるサンプル値、例えば輝度サンプル値、色度サンプル値、ＲＧＢ信号のサンプル値などを含むことができる。

図１４を参照すると、ソースブロック（１４０１）、対応する再構築されたブロック（１４１７）、参照ブロック（１４０５）および（１４１２）は、高空間解像度を有する。図１４における残りのブロックは、低空間解像度を有し、したがって、エンコーダ側での符号化プロセスと復号側での復号プロセスの両方では、処理するサンプルの数の削減により、高いコーディング効率が得られる。

いくつかの例では、図１４に示される符号化プロセスおよび復号プロセスは、ダウンサンプラ（１４０２）、（１４０６）、（１４１３）およびアップサンプラ（１４１６）によって実行されるプロセスを除いて、超解像度コーディングモードを使用しないものと類似であるか、または同様である。一例では、ダウンサンプラ（１４０６）は、ダウンサンプラ（１４１３）と同じであり、参照ブロック（１４０５）は、参照ブロック（１４１２）と同じであり、したがって、ダウンサンプリングされた参照ブロック（１４０７）は、ダウンサンプリングされた参照ブロック（１４１４）と同じである。ダウンサンプラ（１４０２）は、ダウンサンプラ（１４０６）と同じであっても異なっていてもよい。

一実施形態では、解像度が低減された再構築の前に参照ブロックをダウンサンプリングするために、ダウンサンプラ（１４１３）で使用されるダウンサンプリングフィルタ係数のセットは、信号で直接に通知され得て、または、ダウンサンプリングフィルタ係数のセットを示すインデックスは、信号で通知され得る。このインデックスは、予め定義された係数の第１セットからのダウンサンプリングされたフィルタ係数のセットを示すことができる。恒等フィルタ（ｉｄｅｎｔｉｔｙ－ｆｉｌｔｅｒ）（例えば、フィルタリングなし）は、予め定義された係数の第１セットに含まれ得る。

ブロックベースの超解像度コーディングモードは、適切に適応され得る。本開示の態様によれば、エンコーダ側で、元の空間解像度の参照信号を元の空間解像度のソース信号から減算して、元の空間解像度の差信号（または残差信号）を生成することができる。この差信号をダウンサンプリングして、低減された解像度の残差信号を生成することができる。デコーダ側でブロックを復号する際に、低減された解像度の残差信号をアップサンプリングし、元の解像度の参照信号に加算して、再構築されたブロックを生成することができる。図１５Ａは、本開示の実施形態による、ブロックベースの超解像度コーディングモードの代替実施形態を使用してブロックをコーディングするプロセスを示す。

図１５Ａを参照すると、エンコーダ側で、残差ブロック（１５０４）は、ソースブロック（１５０１）などのソース信号と参照ブロック（１５０２）などの参照信号とに基づいて、残差演算器（１５０３）を使用して生成され得る。残差計算器（１５０３）は、ソースブロック（１５０１）と参照ブロック（１５０２）との間の差（残差データまたは残差値）を計算するように構成され得る。残差ブロック（１５０４）は、ダウンサンプラ（１５０５）によってダウンサンプリングされて、ダウンサンプリングされた残差ブロック（１５０６）が生成され得る。続いて、ダウンサンプリングされた残差ブロック（１５０６）は、ツール（１５０７）によって変換、量子化およびエントロピー符号化されて、ダウンサンプリングされた係数ブロック（１５０８）が生成され得る。ダウンサンプリングされた係数ブロック（１５０８）は、エンコーダからデコーダに送信され得る。

再び図１５Ａを参照すると、デコーダ側で、ダウンサンプリングされた係数ブロック（１５０８）は、デコーダによって受信される。いくつかの例では、受信されたダウンサンプリングされた係数ブロックは、伝送損失、歪みなどによって、ダウンサンプリングされた係数ブロック（１５０８）とは異なる。簡潔にするために、ダウンサンプリングされた係数ブロック（１５０８）は、デコーダでは、ツール（１５０９）への入力信号として使用される。エントロピー復号、逆量子化および逆変換（Ｉｎｖ－Ｔｒａｎｓｆｏｒｍ）は、ダウンサンプリングされた係数ブロック（１５０８）に対して実行されて、ダウンサンプリングされた残差ブロック（１５１０）が生成され得る。ダウンサンプリングされた残差ブロック（１５１０）は、アップサンプラ（１５１１）によってアップサンプリングされて、残差ブロック（１５１２）が生成され得る。続いて、アグリゲータ（１５１４）は、残差ブロック（１５１２）および参照ブロック（１５１３）に基づいて、再構築されたブロック（１５１５）を生成することができる。一例では、残差ブロック（１５１２）および参照ブロック（１５１３）は加算されて、再構築されたブロック（１５１５）を生成する。

図１５Ａを参照すると、ソースブロック（１５０１）、対応する再構築されたブロック（１５１５）、参照ブロック（１５０２）、（１５１３）、および残差ブロック（１５０４）、（１５１２）は、高空間解像度を有する。図１５Ａにおける残りのブロックは、低空間解像度を有するため、エンコーダ側での符号化プロセスと復号側での復号プロセスの両方では、処理するサンプルの数の削減により、高いコーディング効率が得られる。

いくつかの例では、図１５Ａに示される符号化プロセスおよび復号プロセスは、ダウンサンプラ（１５０５）およびアップサンプラ（１５１１）によって実行されるプロセスを除いて、超解像度コーディングモードを使用しないものと類似であるか、または同様である。

図１４および図１５Ａに記載のブロックベースの超解像度コーディングモードは、適切に適応され得る。一実施形態では、ブロックレベルの超解像度コーディングモードが適用されるかどうかは、その上で変換が実行されるＴＢなどのブロックに対して決定される。一方、フレーム間予測やフレーム内予測などの予測プロセスは、ＴＢとはサイズの異なる他のブロック（例えば、ＣＢ）について実行される。一例では、１つのＣＢは、複数の変換ブロック（ＴＢ）を含む。予測は、このＣＢ上で実行される。ブロックレベルの超解像度コーディングモードは、このＣＢにおける各ＴＢに対して個別に有効化または無効化される。例えば、１つのＣＢは、４つのＴＢを含み、ブロックレベルの超解像度コーディングモードは、４つのＴＢのうちの１つに対して有効化され、４つのＴＢのうちの残りの３つに対して無効化される。

図１５Ｂは、本開示の一実施形態による、ブロックベースの超解像度コーディングモードを使用してブロックをコーディングするプロセスを示す。エンコーダ側で、ソースブロック（１５０１Ｂ）は、ＣＢ（１５０１Ｂ）である。図１５Ｂに示す例では、ソースＣＢ（１５０１Ｂ）は、４つのソースＴＢを含む。残差ＣＢ（１５０４Ｂ）は、ソースＣＢ（１５０１Ｂ）などのソース信号と、参照ＣＢ（１５０２Ｂ）などの参照信号とに基づいて、残差計算器（１５０３）を使用して生成され得る。残差計算器（１５０３）は、ソースＣＢ（１５０１Ｂ）と参照ＣＢ（１５０２Ｂ）との間の差（残差データまたは残差値）を計算するように構成され得る。

図１５Ｂを参照すると、残差ＣＢ（１５０４Ｂ）は、４つのソースＴＢにそれぞれ対応する残差ＴＢ（例えば、ＴＢ１～ＴＢ４）を含む。ブロックレベルの超解像度コーディングモードは、各ＴＢに対して個別に有効化または無効化される。図１５Ｂの例では、ブロックレベルの超解像度コーディングモードは、ＴＢ１に対して有効化され、ＴＢ２～ＴＢ４に対して無効化される。したがって、ＴＢ１は、ダウンサンプラ（１５０５）によってダウンサンプリングされて、ダウンサンプリングされた残差ＴＢ（１５０６Ｂ）が生成され得る。続いて、ダウンサンプリングされた残差ＴＢ（１５０６Ｂ）は、ツール（１５０７）によって変換、量子化およびエントロピー符号化されて、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）が生成され得る。ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）は、エンコーダからデコーダに送信され得る。残差ＣＢ（１５０４Ｂ）内の残りのＴＢ（例えば、ＴＢ２～ＴＢ４）は、例えばツール（１５０７）によってさらに符号化されて、係数ＴＢ（例えば、係数ＴＢ２～ＴＢ４）が生成され、また、この係数ＴＢ２～ＴＢ４は、エンコーダからデコーダに送信され得る。

再び図１５Ｂを参照すると、デコーダ側で、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）は、デコーダによって受信される。いくつかの例では、受信されたダウンサンプリングされた係数ＴＢは、伝送損失、歪みなどによって、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）とは異なる。簡潔にするために、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）は、デコーダでは、ツール（１５０９）への入力信号として使用される。エントロピー復号、逆量子化および逆変換（Ｉｎｖ－Ｔｒａｎｓｆｏｒｍ）は、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）に対して実行されて、ダウンサンプリングされた残差ＴＢ（１５１０Ｂ）が生成され得る。ダウンサンプリングされた残差ＴＢ（１５１０Ｂ）は、アップサンプラ（１５１１）によってアップサンプリングされて、残差ＴＢ１’が生成され得る。さらに、ＴＢ２～ＴＢ４に対応する、受信された係数ＴＢ（例えば、係数ＴＢ２～ＴＢ４）は、例えばツール（１５０９）によって復号されて、ＴＢ２～ＴＢ４に対応する残差ＴＢ（例えば、ＴＢ２’～ＴＢ４’）はそれぞれ生成され得る。

残差ＴＢ１’および残差ＴＢ（例えば、ＴＢ２’～ＴＢ４’）を組み合わせて、残差ＣＢ（１５１２Ｂ）を形成することができる。続いて、アグリゲータ（１５１４）は、残差ＣＢ（１５１２Ｂ）および参照ＣＢ（１５１３Ｂ）に基づいて、再構築されたＣＢ（１５１５Ｂ）を生成することができる。一例では、残差ＣＢ（１５１２Ｂ）および参照ＣＢ（１５１３Ｂ）とは加算されて、再構築されたＣＢ（１５１５Ｂ）が生成され得る。

図１５Ｂを参照すると、ソースＣＢ（１５０１Ｂ）、対応する再構築されたＣＢ（１５１５Ｂ）、参照ＣＢ（１５０２Ｂ）、（１５１３Ｂ）、および残差ＣＢ（１５０４Ｂ）、（１５１２Ｂ）は、高空間解像度を有する。また、ＴＢ１～ＴＢ４、係数ＴＢ２～ＴＢ４、およびＴＢ１’～ＴＢ４’は、高空間解像度を有する。ダウンサンプリングされた残差ＴＢ（１５０６Ｂ）、ダウンサンプリングされた係数ＴＢ（１５０８Ｂ）およびダウンサンプリングされた残差ＴＢ（１５１０Ｂ）は、低空間解像度を有する。

いくつかの例では、図１５Ｂに示される符号化プロセスおよび復号プロセスは、ダウンサンプラ（１５０５）およびアップサンプラ（１５１１）によって実行されるプロセスを除いて、超解像度コーディングモードを使用しないものと類似であるか、または同様である。

本開示の態様によれば、例えば図１４および図１５Ａを参照して説明したような、ブロックベースの超解像度コーディングモードは、Ｍ×Ｎである元の空間解像度を有するソースブロック（Ｍ×Ｎブロックとも呼ばれる）に適用され得、また、サイズが（Ｍ／Ｄ_Ｘ）×（Ｎ／Ｄ_Ｙ）を有するダウンサンプリングされたブロック（例えば、ダウンサンプリングされた係数ブロック（１４０９）または（１５０８））は、コーディングされ得る。パラメータＤ_ＸおよびＤ_Ｙは、水平方向および垂直方向のそれぞれに沿ったダウンサンプリング係数を指す。一例では、パラメータＤ_ＸおよびパラメータＤ_Ｙは、それぞれ水平アップサンプリング比率および垂直アップサンプリング比率に対応する。ＭおよびＮの例示的な値は、２５６、１２８、６４、３２、１６および８を含むことができるが、これらに限定されず、また、パラメータＤ_ＸまたはＤ_Ｙは、正の整数であってもよく、２、４、８などを含むが、これらに限定されない。

一例では、例えばＡＶ１およびＨ．２６６／ＶＶＣでは、ＣＵサイズは、１２８×１２８とすることができ、ＣＵと同じサイズ（例えば、１２８×１２８）の大きな変換カーネルは避けられる。代わりに、６４×６４変換は、１２８×１２８ＣＵの４つの象限のそれぞれに適用される。この象限とは、１２８×１２８ＣＵ内の均等に分割された４つの領域のうちの１つである。本開示の態様によれば、ブロックレベルの超解像度コーディングモードは、図１６に示されるように、１２８ｘ１２８ＣＵを以下のようにコーディングするために適用され得る。

図１６は、本開示の一実施形態によるブロックレベルの超解像度コーディングモードの一例を示す。図１６を参照すると、ソースブロック（１４０１）、参照ブロック（１４０５）、（１４１３）、および再構築されたブロック（１４１７）は、１２８×１２８のサイズを有するＣＵ（または、ＣＢ）に対応する。したがって、元の空間解像度は１２８×１２８である。ダウンサンプラ（１４０２）および（１４０６）のダウンサンプリングファクタＤ_ＸおよびＤ_Ｙは２である。したがって、低空間解像度は６４×６４である。したがって、ダウンサンプリングされたソースブロック（１４０３）、ダウンサンプリングされた参照ブロック（１４０７）、ダウンサンプリングされた残差ブロック（１４０４）、ダウンサンプリングされた係数ブロック（１４０９）、ダウンサンプリングされた残差ブロック（１４１１）、ダウンサンプリングされた再構築されたブロック（１４１５）、およびダウンサンプリングされた参照ブロック（１４１４）は、６４×６４のサイズを有する。図１６の詳細な説明は、ブロック（１６００）および（１６１０）に関連付けられたプロセスを除いて、図１４の説明と類似であるか、または同様であり、したがって、図１４と図１６の間の（ブロック（１６００）および（１６１０）に関連付けられた）違いは、以下に説明する。

ブロック（１６００）は、サイズ１２８×１２８を有するＣＵに対応する残差ブロック（１６００）であり、サイズ１２８×１２８を有する。具体的には、残差ブロック（１６００）の４つの象限（１６０１）～（１６０４）のうちの１つは、ダウンサンプリングされた６４×６４バージョン（例えば、ダウンサンプリングされた残差ブロック（１４０４））に置き換えられ、また、残りの３つの象限（１６０２）～（１６０４）は、ゼロ化され得る。例えば、残りの３つの象限（１６０２）－（１６０４）は、変換スキップされる。したがって、１つの６４×６４変換のみ（４つの６４×６４変換とは対照的に）は１２８×１２８ＣＵに適用され、同時に、エネルギー圧縮は、図１６におけるダウンサンプリングプロセスおよびアップサンプリングプロセスによって促進される。いくつかの例（例えば、ＡＶ１）では、変換サブ分割は、ＣＵ内で許可され、残りの３つの６４×６４象限（１６０２）～（１６０４）には残差がないため、変換スキップは、残りの３つの６４×６４象限（１６０２）～（１６０４）に対して選択され得る。図１６を参照すると、３つの６４×６４象限（１６０２）～（１６０４）は、ゼロブロックであり、ここで、残差値がゼロである。ブロックレベルの超解像度コーディングモードを使用してＣＵがコーディングされた場合には変換スキップが推定され得たので、変換スキップが信号で通知される必要はない。

デコーダ側では、ブロック（１６１０）は、ダウンサンプリングされた再構築されたブロック（１４１５）である象限（１６１１）と、３つの象限（１６１２）～（１６１４）とを含む。３つの象限（１６１２）～（１６１４）のそれぞれは、ゼロブロックであり、ここで、残差値がゼロである。続いて、象限（１６１１）は、アップサンプリングされて、再構築されたブロック（１４１７）が得られる。

あるいは、１２８×１２８のＣＵに対応する１２８×１２８残差ブロックのダウンサンプリングされた６４×６４バージョンは符号化および／または復号され得る。ダウンサンプリングされた再構築されたブロックのアップサンプリングされたバージョンは、図１６における方法を使用してＣＵがコーディングされた場合、象限または変換スキップを含むプロセスを使用せずに、１２８×１２８のＣＵに対応する１２８×１２８の再構築されたブロックを埋めるためにデコーダで使用され得る。

いくつかの例では、ツール（１４０８）に示されるように、ダウンサンプリングされた残差ブロックに６４×６４変換が適用された場合、高周波数変換係数のゼロ化（例えば、ＡＶ１で規範的に指定されているように）は、多すぎる情報を廃棄することを回避するために、無効化され得る。

図１５Ａにおけるブロックレベルの超解像度コーディングモードは、図１７に示すように同様に適応され得る。図１７の詳細な説明は、ブロック（１６００）および（１６１０）に関連付けられたプロセスを除いて、図１５Ａの説明と類似であるか、または同様であり、したがって、図１５Ａと図１７の間の（ブロック（１６００）および（１６１０）に関連付けられた）違いは、以下に説明する。さらに、ブロック（１６００）および（１６１０）の詳細な説明は、図１６の説明と類似であるか、または同様であり、簡潔にするために省略される。具体的には、残差ブロック（１６００）の４つの象限（１６０１）～（１６０４）のうちの１つ（例えば、（１６０１））は、ダウンサンプリングされた６４×６４バージョン（例えば、ダウンサンプリングされた残差ブロック（１５０６））に置き換えられ、また、残りの３つの象限（１６０２）～（１６０４）は、図１６に記載されたものと同様にゼロ化され得る。

デコーダ側では、ブロック（１６１０）は、ダウンサンプリングされた残差ブロック（１５１０）である象限（１６１１）と、３つの象限（１６１２）～（１６１４）とを含む残差ブロック（１６１０）である。３つの象限（１６１２）～（１６１４）のそれぞれは、ゼロブロックであり、ここで、残差値がゼロである。続いて、象限（１６１１）がアップサンプリングされて、残差ブロック（１５１２）が得られる。

本開示の態様によれば、アップサンプラ（例えば、低減された解像度の再構築されたブロックをアップサンプリングするための図１４および図１６におけるアップサンプラ（１４１６）、または低減された解像度の残差ブロックをアップサンプリングするための図１５Ａ、１５Ｂおよび図１７におけるアップサンプラ（１５１１））は、アップサンプリングフィルタ係数のセットによって示されるアップサンプリングフィルタとすることができる。アップサンプリングフィルタ係数のセットは、直接に信号で通知されてもよく、または、アップサンプリングフィルタ係数のセットを示すインデックスは、信号で通知されてもよい。このインデックスは、例えば恒等フィルタ（例えば、フィルタリングなし）を含む、予め定義された係数のセットからのアップサンプリングフィルタ係数のセットを示すことができる。

本開示の態様によれば、ブロックレベルの超解像度コーディングモード（例えば、図１４、図１５Ａ、図１５Ｂ、図１６、図１７を参照して説明したものなど）が適用されるかどうかは、ＣＵサイズに依存され得る。ＣＵサイズは、ＣＵ幅、ＣＵ高さ、ＣＵ面積（例えば、ＣＵ幅×ＣＵ高さなど）などの任意のサイズ情報を指すことができる。ブロックレベルの超解像度コーディングモードがどのＣＵサイズに適用されるかに関する決定は、信号で通知され得る。例えば、高レベルのシンタックス（例えば、サブ画像レベル、画像ヘッダ、画像パラメータセット、シーケンスパラメータセットなどの、ＣＵレベルより上のレベル）では、ブロックレベルの超解像度コーディングモードが適用されるＣＵサイズは、信号で通知され得る。

本開示の態様によれば、ブロックレベルの超解像度コーディングモード（例えば、図１４、図１５Ａ、図１５Ｂ、図１６、図１７を参照して説明したものなど）は、任意の適切なレベルで、そのレベル内の１つまたは複数のブロックに対して、適応的に有効化または無効化され得る。このレベルは、複数のブロックを含むサブ画像領域、ブロック、画像、または複数の画像に対応することができる。本開示の態様によれば、ブロックレベルの超解像度コーディングモードは、ＣＵレベルでのＣＵごとに、スーパーブロックレベルでのスーパーブロックごとに、ＰＢレベルでのＰＢごとに、ＴＢレベルでのＴＢごとに、タイルレベルでのタイルごとに、セグメントレベルでのコーディングされたセグメントごとに、フレーム（または画像）レベルでのフレーム（または画像）ごとに、シーケンスレベルでのシーケンスごとなどに、有効化または無効化され得る。ブロックレベルの超解像度コーディングモードがこのレベル内の１つまたは複数のブロックに対して有効化または無効化されるかどうかは、信号で通知され、または推測され得る。

一例では、このレベルはタイルレベルであり、タイルは複数のＣＢを含む。１つまたは複数のブロックは複数のＣＢである。ブロックレベルの超解像度コーディングモードが複数のＣＢに対して有効化されるかどうかは、このタイルに対して信号で通知され得る。ブロックレベルの超解像度コーディングモードが複数のＣＢに対して有効化されると決定された場合、図１４、図１５Ａ、図１６、図１７に示すように、タイにおける各ＣＢは、超解像度コーディングモードで符号化および／または復号され得る。

一例では、１つのＣＢは複数のＴＢを含み、そのレベルはＴＢレベルである。１つまたは複数のブロックは、ＴＢであってもよい。ブロックレベルの超解像度コーディングモードがＴＢに対して有効化されるかどうかは、ＴＢレベルでは信号で通知され得る。したがって、ブロックレベルの超解像度コーディングモードは、図１５Ｂに示すように、ＣＢにおける各ＴＢに対して、個別に有効化または無効化される。

本開示の態様によれば、ブロックレベルの超解像度コーディングモード（例えば、図１４、図１５Ａ、図１６、図１７を参照して説明したものなど）が有効化された場合、（ｉ）ダウンサンプラおよび／またはアップサンプラのタイプ、および／または（ｉｉ）ブロックレベルの超解像度コーディングモードで使用されるスケーリング比率は、ＣＵ、タイル、またはコーディングされたセグメントなどの、画像の一部の特徴に基づいて、決定され得る。ダウンサンプラおよびアップサンプラは、それぞれダウンサンプリングフィルタおよびアップサンプリングフィルタとも呼ばれる。この特徴は、例えば、ＣＵ、タイル、またはコーディングされたセグメントの方向性または信号統計量（例えば、信号分散）などの、特徴インジケータによって示され得る。特徴インジケータは、エンコーダおよびデコーダで、信号で通知されてもよく、または導出されてもよい。一例では、異なるダウンサンプリングフィルタ、アップサンプリングフィルタ、および／またはスケーリング比率は、特徴インジケータに基づいて使用され得る。

一例では、左上のサンプル位置ｒを有するサイズＮ×Ｎ（例えば、Ｎサンプル×Ｎサンプル、ここで、Ｎは、正の整数である）の各ＣＵについて、水平および垂直の１－Ｄラプラシア活動（Ｌａｐｌａｃｉａｎａｃｔｉｖｉｔｉｅｓ）（それぞれ、Ｈ_ＮＸＮおよびＶ_ＮＸＮとして示される）は、以下に示すように、（Ｎ－２）×（Ｎ－２）の内部サンプルのみを使用して、エンコーダおよびデコーダで予測サンプルを使用して計算され得る。

ここで、ｈｏｒ（ｒ，ｉ，ｊ）およびｖｅｒ（ｒ，ｉ，ｊ）は、次のように定義される。

ここで、Ｉ（ｘ，ｙ）は、サンプル位置（ｘ，ｙ）での画素強度値（サンプル値ともいう）を表す。

２Ｄラプラシア活動は、Ｖ_ＮＸＮおよびＨ_ＮＸＮを加算して合計値を取得して、その合計値を複数の活動レベルクラス（例えば、０、１、２、３、４、５）に量子化することによって計算され得る。２Ｄラプラシア活動を示す複数の活動レベルクラスは、エンコーダおよび／またはデコーダによって、特徴インジケータとして使用され得る。

一例では、超解像度コーディングモードに関連付けられた方向（方向性インジケータと呼ばれる）は、以下のように決定され得る。Ｈ_ＮＸＮ＞２Ｖ_ＮＸＮの場合、方向性インジケータは、第１方向性（例えば、水平方向）を示し、したがって、ダウン／アップサンプリングフィルタおよび／またはサンプリング比率は、第１方向性（例えば、Ｈ_ＮＸＮが２Ｖ_ＮＸＮよりも大きい）に基づいて選択され得る。Ｖ_ＮＸＮ＞２Ｈ_ＮＸＮの場合、方向性インジケータは、第２方向性（例えば、垂直方向）を示し、したがって、ダウン／アップサンプリングフィルタおよび／またはサンプリング比率は、第２方向性（例えば、Ｖ_ＮＸＮが２Ｈ_ＮＸＮよりも大きい）に基づいて選択され得る。さもないと、例えば、Ｈ_ＮＸＮが２Ｖ_ＮＸＮ以下であるとともに、Ｖ_ＮＸＮが２Ｈ_ＮＸＮ以下である場合、方向性インジケータは、第３方向性（例えば、方向性なし）を示し、したがって、ダウン／アップサンプリングフィルタおよび／またはアップサンプリング比率は、それに応じて選択され得る。一例では、方向性インジケータが第３方向性を示している場合、アップサンプリング／ダウンサンプリングは、水平方向および垂直方向の両方に実行される。上記した方向性は、エンコーダおよび／またはデコーダによって、特徴インジケータとして使用され得る。

図１８は、本開示の一実施形態に係る処理（１８００）を概説するフローチャートを示す。処理（１８００）は、ＣＢ、ＣＵ、ＰＢ、ＴＢ、ＴＵ、輝度ブロック（例えば、輝度ＣＢまたは輝度ＴＢ）、色度ブロック（例えば、色度ＣＢまたは色度ＴＢ）などのブロックの再構築において使用され得る。様々な実施形態では、処理（１８００）は、端末デバイス（３１０）、（３３０）、（３４０）における処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオデコーダ（４１０）の機能を実行する処理回路、ビデオデコーダ（５１０）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、処理（１８００）はソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行するときに、処理回路は、処理（１８００）を実行する。この処理は、（Ｓ１８０１）から開始し、（Ｓ１８１０）に進む。

（Ｓ１８１０）において、コーディングされたビデオビットストリームから、１つまたは複数のブロックのためのコーディングされた情報を復号することができる。コーディングされた情報は、超解像度コーディングモード（またはブロックベース超解像度コーディングモード）が１つまたは複数のブロックに適用されるかどうかを示すことができる。いくつかの例では、超解像度コーディングモードは、１つまたは複数のブロックがエンコーダによって高空間解像度から低空間解像度にダウンサンプリングされたことに応答して適用される。一例では、超解像度コーディングモードが１つまたは複数のブロックに適用されるかどうかを示すために、フラグは、コーディングされた情報では信号で通知される。あるいは、超解像度コーディングモードが１つまたは複数のブロックに適用されるかどうかは、コーディングされた情報から推測され得る。

一実施形態では、１つまたは複数のブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ、または変換ブロック（ＴＢ）である。コーディングされた情報は、超解像度コーディングモードが１つまたは複数のブロックの各々に適用されるかどうかを示すことができる。

一実施形態では、コーディングされた情報は、超解像度コーディングモードが、ＣＵ、ＣＢ、スーパーブロック、ＰＢ、ＴＢ、タイル、コーディングされたセグメント、フレーム、または１つまたは複数のブロックを含むシーケンスに適用されるかどうかを示すことができる。

（Ｓ１８２０）において、超解像度コーディングモードが１つまたは複数のブロックに適用されたことを示すコーディングされた情報に基づいて、超解像度コーディングモードを使用して、１つまたは複数のブロックにおける第１ブロックに基づいて、再構築されたブロックを生成することができる。いくつかの例では、再構築されたブロックは、１つまたは複数のブロックにおける第１ブロックの情報をアップサンプリングすることによって、超解像度コーディングモードを使用して生成され得る。第１ブロックの情報は、第１ブロックに関連付けられた、ダウンサンプリングされた残差ブロック、または第１ブロックに関連付けられた、ダウンサンプリングされた再構築されたブロックを含むことができる。第１ブロックは、低空間解像度を有し、再構築されたブロックは。低空間解像度よりも高い高空間解像度を有することができる。１つまたは複数のブロックは、空間周波数ドメイン（周波数ドメインとも呼ばれる）における変換係数を含むことができ、再構築されたブロックは、空間ドメインにおけるサンプル値、例えば輝度サンプル値および／または色度サンプル値などを含む。一例では、それぞれの再構築されたブロックは、１つまたは複数のブロックの各々に基づいて、ブロックレベルの超解像度コーディングモードを使用して生成される。

一実施形態では、第１ブロックは、例えば図１４と図１６におけるツール（１４１０）および図１５Ａ、図１５Ｂと図１７におけるツール（１５０９）によって、低空間解像度を有するダウンサンプリングされた残差ブロックに逆変換される。図１４、図１５Ａ、図１５Ｂ、図１６、および図１７を参照すると、第１ブロックは、ダウンサンプリングされた係数ブロック（１４０９）、（１５０８）または（１５０８Ｂ）を指すことができ、ダウンサンプリングされた残差ブロックは、ダウンサンプリングされた残差ブロック（１４１１）、（１５１０）または（１５１０Ｂ）を指すことができる。

第１ブロックがダウンサンプリングされた残差ブロックに逆変換された後、異なる方法は、再構築されたブロックを取得するために使用され得る。

一例では、ダウンサンプリングされた参照ブロックは、第１ブロックのための参照ブロックをダウンサンプリングすることによって得られる。参照ブロックおよびダウンサンプリングされた参照ブロックは、それぞれ高空間解像度および低空間解像度を有することができる。図１４または図１６を参照すると、ダウンサンプリングされた参照ブロック（１４１４）は、第１ブロックのための参照ブロック（１４１２）をダウンサンプリングすることによって得られる。ダウンサンプリングされた再構築されたブロック（例えば、（１４１５））は、ダウンサンプリングされた残差ブロック（例えば、（１４１１））およびダウンサンプリングされた参照ブロック（例えば、（１４１４））に基づいて生成され得て、ここで、ダウンサンプリングされた再構築されたブロックは、低空間解像度を有する。さらに、再構築されたブロック（例えば、（１４１７））は、ダウンサンプリングされた再構築されたブロック（例えば、（１４１５））をアップサンプリングすることによって生成され得る。

別の例では、図１５Ａまたは図１７に示されるように、残差ブロック（例えば、（１５１２））は、ダウンサンプリングされた残差ブロック（例えば、（１５１０））をアップサンプリングすることによって得られ、ここで、残差ブロックは、高空間解像度を有する。続いて、再構築されたブロック（例えば、（１５１５））は、得られた残差ブロック（例えば、（１５１２））と、第１ブロックのための参照ブロック（例えば、（１５１３））とに基づいて生成され得る。

処理（１８００）は、（Ｓ１８９９）に進み、終了する。

処理（１８００）は、適切に適応され得る。処理（１８００）におけるステップは、変更および／または省略され得る。追加のステップは追加され得る。任意の適切な実現順序は使用され得る。一例では、１つまたは複数のブロックは、再構築されるべき現在画像におけるブロックのサブセットであり、超解像度コーディングモードは、現在画像における、１つまたは複数のブロックとは異なるブロックには適用されない。

一例では、現在画像におけるタイルは、複数のＣＢを含む。１つまたは複数のブロックは、複数のＣＢである。（Ｓ１８１０）において、コーディングされた情報は、超解像度コーディングモード（ブロックレベルの超解像度コーディングモード）がタイルに適用されることをタイルレベルで示す。したがって、コーディングされた情報は、超解像度コーディングモードがタイルにおける複数のＣＢに適用されることをタイルレベルで示す。（Ｓ１８２０）において、超解像度コーディングモードを使用して、例えば図１４、図１５Ａ、図１６、図１７を参照して説明したブロックなどの、複数のＣＢにおける第１ブロックに基づいて、再構築されたブロック（例えば、再構築されたＣＢ）を生成する。第１ブロックは、複数のＣＢのうちの１つのＣＢであり、また、低空間解像度を有する。再構築されたブロックは、高空間解像度を有する。ステップ（Ｓ１８２０）は、タイルにおける複数のＣＢのそれぞれに適用されて、個別の再構築されたブロックが再構築され得る。

図１９は、本開示の一実施形態による処理（１９００）を概説するフローチャートを示す。処理（１９００）は、ＣＢ、ＣＵ、ＰＢ、ＴＢ、ＴＵ、輝度ブロック（例えば、輝度ＣＢまたは輝度ＴＢ）、色度ブロック（例えば、色度ＣＢまたは色度ＴＢ）などのブロックの符号化に使用され得る。様々な実施形態において、処理（１９００）は、端末デバイス（３１０）、（３２０）、（３３０）、（３４０）における処理回路、ビデオエンコーダ（４０３）の機能を実行する処理回路、ビデオエンコーダ（６０３）の機能を実行する処理回路などの処理回路によって実行される。いくつかの実施形態では、処理（１９００）は、ソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行するときに、処理回路は、処理（１９００）を実行する。この処理は、（Ｓ１９０１）から開始し、（Ｓ１９１０）に進む。

（Ｓ１９１０）において、超解像度コーディングモードがビデオにおける第１ブロックに適用されるかどうかを決定することができる。第１ブロックは、空間ドメインにおけるサンプル値、例えば輝度サンプル値および／または色度サンプル値などを含み、また、高空間解像度を有することができる。

一実施形態では、第１ブロックは、ＣＢ、ＣＵ、ＰＢ、またはＴＢである。

（Ｓ１９２０）において、超解像度コーディングモードが第１ブロックに適用されると決定されたことに基づいて、超解像度コーディングモードを使用して、第１ブロックに基づいて、ダウンサンプリングされた係数ブロックを生成することができる。ダウンサンプリングされた係数ブロックは、変換係数を含み、また、高空間解像度よりも低い低空間解像度を有することができる。

一実施形態では、ダウンサンプリングされた残差ブロックは、第１ブロックと、高空間解像度を有する第１ブロックのための参照ブロックとに基づいて生成され得る。ダウンサンプリングされた残差ブロックは、残差値を含み、また、低空間解像度を有することができる。ダウンサンプリングされた残差ブロックは変換されて、ダウンサンプリングされた係数ブロックが得られる。

異なる方法は、ダウンサンプリングされた残差ブロックを生成するために使用され得る。一例として、図１４および図１６に示されるように、第１ブロックはダウンサンプリングされて、低空間解像度を有するダウンサンプリングされたブロックが得られる。参照ブロックはダウンサンプリングされて、低空間解像度を有するダウンサンプリングされた参照ブロックが得られる。続いて、ダウンサンプリングされた残差ブロックは、ダウンサンプリングされたブロックとダウンサンプリングされた参照ブロックとに基づいて生成され得る。

別の例では、残差ブロックは、第１ブロックおよび参照ブロックに基づいて生成され得る。残差ブロックは、高空間解像度を有することができる。残差ブロックはダウンサンプリングされて、ダウンサンプリングされた残差ブロックが得られる。

（Ｓ１９３０）において、第１ブロックのための情報は、ビデオビットストリームにおいて符号化され得る。符号化された情報は、超解像度コーディングモードが第１ブロックに適用されるかどうかを示すことができる。超解像度コーディングモードが第１ブロックに適用されると決定されたことに基づいて、符号化された情報は、超解像度コーディングモードが第１ブロックに適用されたことを示すことができる。一例では、超解像度コーディングモードが第１ブロックに適用されるかどうかを示すために、フラグは、符号化された情報では信号で通知される。あるいは、超解像度コーディングモードが第１ブロックに適用されるかどうかは、符号化された情報から推測され得る。

一実施形態では、符号化された情報は、超解像度コーディングモードがＣＵ、ＣＢ、スーパーブロック、ＰＢ、ＴＢ、タイル、コーディングされたセグメント、フレーム、または第１ブロックを含むシーケンスに適用されるかどうかを示す。超解像度コーディングモードが第１ブロックに適用されると決定されたことに基づいて、符号化された情報は、超解像度コーディングモードがＣＵ、ＣＢ、スーパーブロック、ＰＢ、ＴＢ、タイル、コーディングされたセグメント、フレーム、または第１ブロックを含むシーケンスに適用されたことを示すことができる。

処理（１９００）は、（Ｓ１９９９）に進み、終了する。

処理（１９００）は、適切に適応され得る。処理（１９００）におけるステップは、変更および／または省略され得る。追加のステップは追加され得る。任意の適切な実現順序は使用され得る。一例では、超解像度コーディングモードが第１ブロックに適用されないと決定される。したがって、（Ｓ１９２０）において、超解像度コーディングモードなしに、第１ブロックに基づいて、高空間解像度を有する係数ブロックを生成する。（Ｓ１９３０）において、符号化された情報は、超解像度コーディングモードが第１ブロックに適用されていないことを示す。

本開示の実施形態は、単独で使用されてもよく、任意の順序で組み合わせて使用されてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダのそれぞれは、処理回路（例えば、１つまたは複数のプロセッサまたは１つまたは複数の集積回路）によって実現され得る。一例では、１つまたは複数のプロセッサは、非一時的なコンピュータ読み取り可能な媒体に記憶されているプログラムを実行する。本開示における実施形態は、輝度ブロックまたは色度ブロックに適用され得る。

上記技術は、上記の技術は、コンピュータ読み取り可能な命令を使用するコンピュータソフトウェアとして実現され、また、物理的に１つ以上のコンピュータ読み取り可能な媒体に記憶されることができる。例えば、図２０は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム（２０００）を示す。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用してコーディングされることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、オブジェクトネットワークデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

図２０に示されるコンピュータシステム（２０００）のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム（２０００）の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（２０００）は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、触覚入力（例えば、キーストローク、スワイプ、データグローブの＝動きなど）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、1人以上のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連されているとは限らない、特定のメディアを捕捉するために使用されることもできる。

ヒューマンインターフェース入力デバイスは、キーボード（２００１）、マウス（２００２）、トラックパッド（２００３）、タッチスクリーン（２０１０）、データグローブ（図示せず）、ジョイスティック（２００５）、マイクロホン（２００６）、スキャナ（２００７）およびカメラ（２００８）（それぞれの1つだけが図示された）のうちの１つまたは複数を含むことができる。

コンピューターシステム（２０００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（２０１０）、データグローブ（図示せず）またはジョイスティック（２００５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（２００９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（２０１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コンピューターシステム（２０００）は、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（２０２０）を含む光学媒体または類似の媒体（２０２１）、サムドライブ（２０２２）、リムーバブルハードドライブまたはソリッドステートドライブ（２０２３）、テープおよびフロッピーディスク（図示せず）などのようなレガシー磁気媒体、セキュリティドングル（図示せず）などのような特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピューターシステム（２０００）はまた、一つ以上の通信ネットワーク（２０５５）へのネットワークインターフェース（２０５４）を含むことができる。通信ネットワーク例えば、無線、有線、光学的であってもよい。ネットワークはさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワークの例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などのＬＡＮ、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用および産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは、一般に、いくつかの汎用データポートまたは周辺バス（２０４９）（例えば、コンピュータシステム（２０００）のＵＳＢポート）に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステムシステム（２０００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（２０００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、Ｃａｎｂｕｓから特定のＣａｎｂｕｓデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上述のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。

上記ヒューマンマシンインタフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピューターシステム（２０００）のコア（２０４０）に接続されることができる。

コア（２０４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（２０４１）、グラフィック処理ユニット（ＧＰＵ）（２０４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（２０４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェア加速器（２０４４）、グラフィックスアダプタ（２０５０）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（２０４５）、ランダムアクセスメモリ（２０４６）、例えば内部の非ユーザアクセスハードディスクドライブ、ＳＳＤなどの内部大容量ストレージ（２０４７）などとともに、システムバス（２０４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、システムバス（２０４８）に１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（２０４８）に直接的に接続されてもよく、または周辺バス（２０４９）を介して接続されてもよい。一例では、スクリーン（２０１０）は、グラフィックスアダプタ（２０５０）に接続されて得る。周辺バスのアーキテクチャは、外部コントローラインターフェース（ＰＣＩ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ（２０４１）、ＧＰＵ（２０４２）、ＦＰＧＡ（２０４３）、および加速器（２０４４）は、いくつかの命令を実行することができ、これらの命令を組み合わせて上述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（２０４５）またはＲＡＭ（２０４６）に記憶されることができる。また、一時的なデータは、ＲＡＭ（２０４６）に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ（２０４７）に記憶されることができる。１つ以上のＣＰＵ（２０４１）、ＧＰＵ（２０４２）、大容量ストレージ（２０４７）、ＲＯＭ（２０４５）、ＲＡＭ（２０４６）などと密接に関連することができる、キャッシュメモリを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実行された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ（２０００）、特にコア（２０４０）を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、加速器などを含む）プロセッサとして機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上記のユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ（２０４７）またはＲＯＭ（２０４５）などの、不揮発性コア（２０４０）を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア２０４０）によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア（２０４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（２０４６）に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、本明細書に説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤードされているか、または別の方法で回路（例えば、アクセラレータ（２０４４））に組み込まれているため、機能を提供することができ、この回路は、ソフトウェアの代わりに動作し、またはソフトウェアと一緒に動作して、本明細書に説明された特定のプロセスの特定のプロセスまたは特定の部分を実行することができる。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行されるソフトウェアを記憶する回路（集積回路（ＩＣ）など）を含み、実行されるロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

付録Ａ：略語
ＪＥＭ：ｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎｍｏｄｅｌ、共同探査モデル
ＶＶＣ：ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ、汎用ビデオコーディング
ＢＭＳ：ｂｅｎｃｈｍａｒｋｓｅｔ、ベンチマークセット
ＭＶ：ＭｏｔｉｏｎＶｅｃｔｏｒ、動きベクトル
ＨＥＶＣ：ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ、高効率ビデオコーディング
ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ、補足強化情報
ＶＵＩ：ＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ、ビジュアルユーザビリティ情報
ＧＯＰ：ＧｒｏｕｐｓｏｆＰｉｃｔｕｒｅｓ、画像グループ
ＴＵ：ＴｒａｎｓｆｏｒｍＵｎｉｔｓ、変換ユニット
ＰＵ：ＰｒｅｄｉｃｔｉｏｎＵｎｉｔｓ、予測ユニット
ＣＴＵ：ＣｏｄｉｎｇＴｒｅｅＵｎｉｔｓ、コーディングツリーユニット
ＣＴＢ：ＣｏｄｉｎｇＴｒｅｅＢｌｏｃｋｓ、コーディングツリーブロック
ＰＢ：ＰｒｅｄｉｃｔｉｏｎＢｌｏｃｋｓ、予測ブロック
ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ、仮想参照デコーダ
ＳＮＲ：ＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ、信号雑音比
ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、中央処理ユニット
ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、グラフィックス処理ユニット
ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ、陰極線管
ＬＣＤ：Ｌｉｑｕｉｄ－ＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ
ＯＬＥＤ：ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード
ＣＤ：ＣｏｍｐａｃｔＤｉｓｃ、コンパクトディスク
ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ、デジタルビデオディスク
ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み取り専用メモリ
ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ
ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路
ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、プログラマブルロジックデバイス
ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク
ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ、モバイル通信のグローバルシステム
ＬＴＥ：Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ、長期的な進化
ＣＡＮＢｕｓ：ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋＢｕｓ、コントローラエリアネットワークバス
ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ、汎用シリアルバス
ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、外部コントローラインターフェース
ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｅａｓ、フィールドプログラマブルゲートエリア
ＳＳＤ：ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ、ソリッドステートドライブ
ＩＣ：ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、集積回路
ＣＵ：ＣｏｄｉｎｇＵｎｉｔ、コーディングユニット

Claims

デコーダにおいてビデオを復号する方法であって、
コーディングされたビデオビットストリームから、１つまたは複数のブロックのためのコーディングされた情報を復号するステップであって、前記コーディングされた情報は、超解像度コーディングモードが前記１つまたは複数のブロックに適用されるかどうかを示し、ここで、前記超解像度コーディングモードは、前記１つまたは複数のブロックがエンコーダによって高空間解像度から低空間解像度にダウンサンプリングされたことに応答して適用されるステップと、
前記超解像度コーディングモードが前記１つまたは複数のブロックに適用されたことを示す前記コーディングされた情報に基づいて、前記超解像度コーディングモードを使用して、前記１つまたは複数のブロックにおける第１ブロックの情報をアップサンプリングすることによって、再構築されたブロックを生成するステップであって、前記第１ブロックは、前記低空間解像度を有し、前記再構築されたブロックは、前記低空間解像度よりも高い高空間解像度を有し、前記１つまたは複数のブロックは、変換係数を含み、前記再構築されたブロックは、空間ドメインにおけるサンプル値を含むステップと、
前記第１ブロックを、前記低空間解像度を有するダウンサンプリングされた残差ブロックに逆変換するステップと、
前記第１ブロックのための参照ブロックをダウンサンプリングすることによって、ダウンサンプリングされた参照ブロックを得るステップであって、前記参照ブロックおよび前記ダウンサンプリングされた参照ブロックが、それぞれ、前記高空間解像度および前記低空間解像度を有するステップと、
前記ダウンサンプリングされた残差ブロックと前記ダウンサンプリングされた参照ブロックとに基づいて、ダウンサンプリングされた再構築されたブロックを生成するステップであって、前記ダウンサンプリングされた再構築されたブロックが、前記低空間解像度を有するステップとを、含み、
前記再構築されたブロックを生成するステップは、前記ダウンサンプリングされた再構築されたブロックをアップサンプリングすること
を含む
ことを特徴とする方法。
前記１つまたは複数のブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、または変換ブロック（ＴＢ）であり、
前記コーディングされた情報は、前記超解像度コーディングモードが前記１つまたは複数のブロックのそれぞれに適用されるかどうかを示す、
ことを特徴とする請求項１に記載の方法。
前記コーディングされた情報は、前記超解像度コーディングモードが、コーディングユニット（ＣＵ）、コーディングブロック（ＣＢ）、スーパーブロック、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）、タイル、コーディングされたセグメント、フレーム、または前記１つまたは複数のブロックを含むシーケンスに適用されるかどうかを示す、
ことを特徴とする請求項１に記載の方法。
前記生成するステップは、さらに、
前記ダウンサンプリングされた残差ブロックをアップサンプリングすることによって、残差ブロックを得るステップであって、前記残差ブロックが、前記高空間解像度を有するステップと、
前記得られた残差ブロックと前記第１ブロックのための参照ブロックとに基づいて、前記再構築されたブロックを生成するステップであって、前記参照ブロックが、前記高空間解像度を有するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記１つまたは複数のブロックは、再構築される現在画像におけるブロックのサブセットであり、前記超解像度コーディングモードは、前記現在画像における、前記１つまたは複数のブロックとは異なるブロックに適用されない、
ことを特徴とする請求項１に記載の方法。
エンコーダにおいてビデオを符号化する方法であって、
超解像度コーディングモードがビデオにおける第１ブロックに適用されるかどうかを決定するステップであって、前記第１ブロックは、空間ドメインにおけるサンプル値を含み、高空間解像度を有するステップと、
前記超解像度コーディングモードが前記第１ブロックに適用されると決定されたことに基づいて、
前記超解像度コーディングモードを使用して、前記第１ブロックに基づいて、ダウンサンプリングされた係数ブロックを生成するステップであって、前記ダウンサンプリングされた係数ブロックは、変換係数を含み、前記高空間解像度よりも低い低空間解像度を有するステップと、
ビデオビットストリームにおける前記第１ブロックのための情報を符号化するステップであって、前記符号化された情報は、前記超解像度コーディングモードが前記第１ブロックに適用されたことを示すステップと、
前記第１ブロックをダウンサンプリングして、前記低空間解像度を有するダウンサンプリングされたブロックを得るステップと、
前記第１ブロックのための参照ブロックをダウンサンプリングして、前記低空間解像度を有するダウンサンプリングされた参照ブロックを得るステップであって、前記参照ブロックが、前記高空間解像度を有するステップと、
前記ダウンサンプリングされたブロックと前記ダウンサンプリングされた参照ブロックとに基づいて、ダウンサンプリングされた残差ブロックを生成するステップであって、前記ダウンサンプリングされた残差ブロックが、残差値を含み、前記低空間解像度を有するステップと
を含むことを特徴とする方法。
前記第１ブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、または変換ブロック（ＴＢ）である、
ことを特徴とする請求項６に記載の方法。
前記符号化された情報は、前記超解像度コーディングモードが、コーディングユニット（ＣＵ）、コーディングブロック（ＣＢ）、スーパーブロック、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）、タイル、コーディングされたセグメント、フレーム、または前記第１ブロックを含むシーケンスに適用されたことを示す、
ことを特徴とする請求項６に記載の方法。
前記生成するステップは、さらに、
前記ダウンサンプリングされた残差ブロックを変換して、前記ダウンサンプリングされた係数ブロックを得るステップと、を含む、
ことを特徴とする請求項６に記載の方法。
前記ダウンサンプリングされた残差ブロックを生成するステップは、
前記第１ブロックと前記参照ブロックとに基づいて、残差ブロックを生成するステップであって、前記残差ブロックが、前記高空間解像度を有するステップと、
前記残差ブロックをダウンサンプリングして、前記ダウンサンプリングされた残差ブロックを得るステップと、を含む、
ことを特徴とする請求項６に記載の方法。
処理回路を含むビデオ復号装置であって、
前記処理回路は、
コーディングされたビデオビットストリームから、１つまたは複数のブロックのためのコーディングされた情報を復号するステップであって、前記コーディングされた情報は、超解像度コーディングモードが前記１つまたは複数のブロックに適用されるかどうかを示し、ここで、前記超解像度コーディングモードは、前記１つまたは複数のブロックがエンコーダによって高空間解像度から低空間解像度にダウンサンプリングされたことに応答して適用されるステップと、
前記超解像度コーディングモードが前記１つまたは複数のブロックに適用されたことを示す前記コーディングされた情報に基づいて、前記超解像度コーディングモードを使用して、前記１つまたは複数のブロックにおける第１ブロックの情報をアップサンプリングすることによって、再構築されたブロックを生成するステップであって、前記第１ブロックは、前記低空間解像度を有し、前記再構築されたブロックは、前記低空間解像度よりも高い高空間解像度を有し、前記１つまたは複数のブロックは、変換係数を含み、前記再構築されたブロックは、空間ドメインにおけるサンプル値を含むステップと、を実行するように構成されるステップと、
前記第１ブロックを、前記低空間解像度を有するダウンサンプリングされた残差ブロックに逆変換するステップと、
前記第１ブロックのための参照ブロックをダウンサンプリングすることによって、ダウンサンプリングされた参照ブロックを得るステップであって、前記参照ブロックおよび前記ダウンサンプリングされた参照ブロックが、それぞれ、前記高空間解像度および前記低空間解像度を有するステップと
前記ダウンサンプリングされた残差ブロックと前記ダウンサンプリングされた参照ブロックとに基づいて、ダウンサンプリングされた再構築されたブロックを生成するステップであって、前記ダウンサンプリングされた再構築されたブロックが、前記低空間解像度を有するステップと、
前記ダウンサンプリングされた再構築されたブロックをアップサンプリングして前記再構築されたブロックを生成するステップと、を実行するように構成される
ことを特徴とするビデオ復号装置。
前記１つまたは複数のブロックは、コーディングブロック（ＣＢ）、コーディングユニット（ＣＵ）、予測ブロック（ＰＢ）、または変換ブロック（ＴＢ）であり、
前記コーディングされた情報は、前記超解像度コーディングモードが前記１つまたは複数のブロックのそれぞれに適用されるかどうかを示す、
ことを特徴とする請求項１１に記載の装置。
前記コーディングされた情報は、前記超解像度コーディングモードが、コーディングユニット（ＣＵ）、コーディングブロック（ＣＢ）、スーパーブロック、予測ブロック（ＰＢ）、変換ブロック（ＴＢ）、タイル、コーディングされたセグメント、フレーム、または前記１つまたは複数のブロックを含むシーケンスに適用されるかどうかを示す、
ことを特徴とする請求項１１に記載の装置。
前記処理回路は、
前記ダウンサンプリングされた残差ブロックをアップサンプリングすることによって、残差ブロックを得るステップであって、前記残差ブロックが、前記高空間解像度を有するステップと、
前記得られた残差ブロックと前記第１ブロックのための参照ブロックとに基づいて、前記再構築されたブロックを生成するステップであって、前記参照ブロックが、前記高空間解像度を有するステップと、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記１つまたは複数のブロックは、再構築される現在画像におけるブロックのサブセットであり、前記超解像度コーディングモードは、前記現在画像における、前記１つまたは複数のブロックとは異なるブロックに適用されない、
ことを特徴とする請求項１１に記載の装置。