JP2023527920A

JP2023527920A - 映像符号化および映像復号のための方法、装置およびコンピュータプログラム製品

Info

Publication number: JP2023527920A
Application number: JP2022574519A
Authority: JP
Inventors: ユヴァラリラミンガズナヴィ; ジャニライネマ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2020-06-03
Filing date: 2021-05-27
Publication date: 2023-06-30
Also published as: US20230262223A1; CN115804093A; CA3177794A1; EP4162688A1; WO2021244935A1

Abstract

本発明の実施形態は、方法および該方法を実施するための技術機器に関する。この方法は、符号化するピクチャを受け取ること、カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること、ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行すること、ならびに重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定することを含む。

Description

本解決策は一般に映像符号化および映像復号に関する。

この項は、特許請求の範囲に記載された発明の背景または状況を提供することを意図したものである。本明細書の説明は、追求しうる発想ではあるが、必ずしも以前に想像または追求された発想ではない発想を含むことがある。したがって、本明細書にそうであると示されている場合を除き、この項に記載された内容は本出願の説明および特許請求の範囲の先行技術ではなく、この項に含まれているからといって先行技術であるとは認められない。

映像符号化システム（ｖｉｄｅｏｃｏｄｉｎｇｓｙｓｔｅｍ）は、入力された映像を記憶／伝送に適した圧縮表現に変換するエンコーダ、および圧縮映像表現（ｃｏｍｐｒｅｓｓｅｄｖｉｄｅｏｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を圧縮解除（ｕｎｃｏｍｐｒｅｓｓ）して視ることができる形態に戻すことができるデコーダを備えることがある。エンコーダは、映像をよりコンパクトな形態で表現して、例えばそうしなければ必要となるビットレートよりも低いビットレートで映像情報を記憶／伝送することを可能にするために、原映像シーケンスの中の一部の情報を捨てることがある。

本発明のさまざまな実施形態に対して求めている保護の範囲は独立請求項に記載されている。本明細書に記載されてはいるが独立請求項の範囲には含まれてない実施形態および特徴がある場合、それらの実施形態および特徴は、本発明のさまざまな実施形態を理解するのに役立つ例であると解釈すべきである。

さまざまな態様は、独立請求項に記載された内容を特徴とする方法、装置、およびコンピュータプログラムがその中に記憶されたコンピュータ可読媒体を含む。従属請求項にはさまざまな実施形態が開示されている。

第１の態様によれば方法が提供され、この方法は、
－符号化するピクチャを受け取ること、
－カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、
－参照チャネル（ｒｅｆｅｒｅｎｃｅｃｈａｎｎｅｌ）の符号化された少なくとも１つのブロックからイントラ予測モード（ｉｎｔｒａｐｒｅｄｉｃｔｉｏｎｍｏｄｅ）を導出すること、
－ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行すること、ならびに
－重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定すること
を含む。

第２の態様によれば装置が提供され、この装置は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとを備え、このメモリおよびコンピュータプログラムコードは、この少なくとも１つのプロセッサとともに、少なくとも、
－符号化するピクチャを受け取ること、
－カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、
－参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること、
－ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行すること、ならびに
－重みを付けた少なくとも前記１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定すること
をこの装置に実行させるように構成されている。

第３の態様によれば装置が提供され、この装置は、
－符号化するピクチャを受け取る手段と、
－カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行する手段と、
－参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出する手段と、
－ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行する手段と、
－重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定する手段と
を備える。

第４の態様によれば、コンピュータプログラム製品が提供され、このコンピュータプログラム製品はコンピュータプログラムコードを含み、このコンピュータプログラムコードは、少なくとも１つのプロセッサ上で実行されたときに、
－符号化するピクチャを受け取ること、
－カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、
－参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること、
－ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行すること、ならびに
－重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定すること
を装置またはシステムに実行させるように構成されている。

一実施形態によれば、第１の予測モードは交差成分線形モード（ｃｒｏｓｓ－ｃｏｍｐｏｎｅｎｔｌｉｎｅａｒｍｏｄｅ）で実行される。

一実施形態によれば、導出されたイントラ予測モードは、カレントチャネルとは異なるチャネルの少なくとも１つの同一位置ブロック（ｃｏｌｌｏｃａｔｅｄｂｌｏｃｋ）から導出される。

一実施形態によれば、導出されたイントラ予測モードは、カレントチャネルの少なくとも１つの隣接ブロック（ｎｅｉｇｈｂｏｒｉｎｇｂｌｏｃｋ）から導出される。

一実施形態によれば、導出されたイントラ予測モードは、カレントチャネルの再構成された隣接サンプルからテクスチャ解析法に基づいて決定される。

一実施形態によれば、テクスチャ解析法は、デコーダ側イントラモード導出法（ｄｅｃｏｄｅｒ－ｓｉｄｅｉｎｔｒａｍｏｄｅｄｅｒｉｖａｔｉｏｎｍｅｔｈｏｄ）、テンプレートマッチングに基づく方法（ｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ－ｂａｓｅｄｍｅｔｈｏｄ）、イントラブロックコピー法（ｉｎｔｒａｂｌｏｃｋｃｏｐｙｍｅｔｈｏｄ）のうちの１つである。

一実施形態によれば、隣接サンプルからの決定は第１の予測の方向を考慮する。

一実施形態によれば、最終的な予測は、ブロックの全サンプルに対する一定の等しい重みを用いた、結合された第１および第２の予測を含む。

一実施形態によれば、最終的な予測は、ブロックの全サンプルに対する一定の等しくない重みを用いた、結合された第１および第２の予測を含む。

一実施形態によれば、最終的な予測は、予測されたそれぞれのサンプルの重みが互いに異なる、等しいまたは等しくないサンプルごとの重み付けを用いた、結合された第１および第２の予測を含む。

一実施形態によれば、サンプルの重み値が、導出されたイントラ予測モードの予測方向またはモード識別子に基づいて決定される。

一実施形態によれば、サンプルの重み値が、交差成分線形モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定される。

一実施形態によれば、サンプルの重み値が、交差成分線形予測モードおよび導出された予測モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定される。

一実施形態によれば、サンプルの重み値が、ブロックのサイズに基づいて決定される。

一実施形態によれば、コンピュータプログラム製品は非一過性コンピュータ可読媒体上に実装されている。

以下では、さまざまな実施形態を、添付図面を参照してより詳細に説明する。

符号化プロセスの例を示す図である。復号プロセスの例を示す図である。カレントブロックのサンプルの位置の例を示す図である。予測ブロックに隣接する４本の参照線の例を示す図である。行列重み付けイントラ予測プロセスの例を示す図である。クロマチャネルの符号化ブロックおよびルーマチャネルの同一位置ブロックを示す図である。クロマチャネル（ｃｈｒｏｍａｃｈａｎｎｅｌ）の符号化ブロックおよびルーマチャネル（ｌｕｍａｃｈａｎｎｅｌ）の同一位置ブロック（ｃｏｌｌｏｃａｔｅｄｂｌｏｃｋ）のある近傍のブロックを示す図である。ジョイント予測法の混合／結合プロセスを示す図である。一実施形態による方法を示す流れ図である。一実施形態による装置を示す図である。

以下では、１つの映像符号化構成の文脈でいくつかの実施形態を説明する。しかしながら、本発明の実施形態は、必ずしもこの特定の構成だけに限定されないことに留意すべきである。

ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ規格（ＡＶＣまたはＨ．２６４／ＡＶＣと略されることがある）は、国際電気通信連合電気通信標準化部門（ＩＴＵ－Ｔ）のＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ）（ＶＣＥＧ）と、国際標準化機構（ＩＳＯ）／国際電気標準会議（ＩＥＣ）のＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）（ＭＰＥＧ）とのＪｏｉｎｔＶｉｄｅｏＴｅａｍ（ＪＶＴ）によって開発された規格である。Ｈ．２６４／ＡＶＣ規格は両方の親標準化機構によって発行されており、ＩＴＵ－Ｔ勧告Ｈ．２６４およびＩＳＯ／ＩＥＣ国際規格１４４９６－１０と呼ばれており、ＭＰＥＧ－４Ｐａｒｔ１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）としても知られている。Ｈ．２６４／ＡＶＣ規格には多数の版があり、それらはそれぞれ、この仕様に新しい拡張または特徴を組み入れている。これらの拡張には、ＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＳＶＣ）およびＭｕｌｔｉｖｉｅｗＶｉｄｅｏＣｏｄｉｎｇ（ＭＶＣ）が含まれる。

ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ規格（ＨＥＶＣまたはＨ．２６５／ＨＥＶＣと略されることがある）は、ＶＣＥＧとＭＰＥＧのＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍ－ＶｉｄｅｏＣｏｄｉｎｇ（ＪＣＴ－ＶＣ）によって開発された規格である。この規格は、両方の親標準化機構によって発行されており、ＩＴＵ－Ｔ勧告Ｈ．２６５およびＩＳＯ／ＩＥＣ国際規格２３００８－２と呼ばれており、ＭＰＥＧ－ＨＰａｒｔ２ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ（ＨＥＶＣ）としても知られている。Ｈ．２６５／ＨＥＶＣに対する拡張は、スケーラブル、マルチビュー、３次元および忠実度範囲拡張を含み、それらはそれぞれＳＨＶＣ、ＭＶ－ＨＥＶＣ、３Ｄ－ＨＥＶＣおよびＲＥＸＴと呼ばれることがある。特に明記されていない限り、それらの規格仕様の定義、構造または概念の理解のためになされたＨ．２６５／ＨＥＶＣ、ＳＨＶＣ、ＭＶ－ＨＥＶＣ、３ＤＨＥＶＣおよびＲＥＸＴに対する本説明における言及は、本出願の出願日前に入手可能であった、これらの規格の最新版に対する言及であると理解すべきである。

ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ規格（ＶＶＣ、Ｈ．２６６またはＨ．２６６／ＶＶＣ）は、ＩＳＯ／ＩＥＣＭＰＥＧとＩＴＵ－ＴＶＣＥＧの間の共同であるＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（ＪＶＥＴ）によって現在開発中の規格である。

この項では、Ｈ．２６４／ＡＶＣおよびＨＥＶＣならびにこれらの拡張規格の一部の鍵となるいくつかの定義、ビットストリームおよび符号化構造ならびに概念が、本発明の実施形態を実施することができる映像エンコーダ、デコーダ、符号化法、復号法およびビットストリーム構造の例として説明される。Ｈ．２６４／ＡＶＣの鍵となる定義、ビットストリームおよび符号化構造、ならびに概念の一部はＨＥＶＣ規格のものと同じであり、したがってそれらは下で一緒に説明される。さまざまな実施形態の態様は、Ｈ．２６４／ＡＶＣもしくはＨＥＶＣまたはそれらの拡張だけに限定されないが、その説明は、本発明の実施形態を部分的にまたは完全に実現するための可能な１つの基礎として与えられる。

映像コーデックは、入力された映像を記憶／伝送に適した圧縮表現に変換するエンコーダ、および圧縮された映像表現を圧縮解除して視ることができる形態に戻すことができるデコーダを備えることがある。この圧縮表現はビットストリームまたは映像ビットストリームと呼ばれることがある。さらに、映像エンコーダおよび／または映像デコーダは互いに別々のものとすることができる。すなわちそれらがコーデックを形成する必要はない。エンコーダは、映像をよりコンパクトな形態で（すなわちより低いビットレ－トで）表現するために、原映像シーケンスの中の一部の情報を捨てることがある。

符号化プロセスの例が図１に示されている。図１は、符号化する画像（Ｉ_n）、画像ブロックの予測された表現（Ｐ’_n）、予測誤差信号（Ｄ_n）、再構成された予測誤差信号（Ｄ’_n）、再構成された予備的画像（Ｉ’_n）、再構成された最終的な画像（Ｒ’_n）、変換（Ｔ）および逆変換（Ｔ^-1）、量子化（Ｑ）および逆量子化（Ｑ^-1）、エントロピー符号化（Ｅ）、参照フレームメモリ（ＲＦＭ）、インター予測（Ｐ_inter）、イントラ予測（Ｐ_intra）、モード選択（ＭＳ）およびフィルタリング（Ｆ）を示している。復号プロセスの例が図２に示されている。図２は、画像ブロックの予測された表現（Ｐ’_n）、再構成された予測誤差信号（Ｄ’_n）、再構成された予備的画像（Ｉ’_n）、再構成された最終的な画像（Ｒ’_n）、逆変換（Ｔ^-1）、逆量子化（Ｑ^-1）、エントロピー復号（Ｅ^-1）、参照フレームメモリ（ＲＦＭ）、予測（インターまたはイントラ）（Ｐ）、およびフィルタリング（Ｆ）を示している。

ハイブリッド映像コーデック、例えばＩＴＵ－ＴＨ．２６３、Ｈ．２６４／ＡＶＣおよびＨＥＶＣは、映像情報を２段階で符号化することができる。最初に、あるピクチャエリア（または「ブロック」）の画素値を、例えば（以前に符号化した映像フレームのうちの１つの映像フレームの、符号化中のブロックに密接に対応するエリアを見つけ、それを示す）動き補償手段によって、または（符号化するブロックの周囲の画素値を指定されたやり方で使用する）空間的手段によって予測する。この最初の段階では、予測符号化を、例えばいわゆるサンプル予測および／またはいわゆるシンタックス予測として適用することができる。

このサンプル予測では、あるピクチャエリアまたは「ブロック」の画素値またはサンプル値を予測する。これらの画素値またはサンプル値は、例えば動き補償機構またはイントラ予測機構のうちの１つまたは複数を使用して予測することができる。

動き補償機構（インター予測、時間的予測もしくは動き補正時間的予測、または動き補正予測（ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｐｒｅｄｉｃｔｉｏｎ）ないしＭＣＰと呼ばれることもある）は、以前に符号化した映像フレームのうちの１つの映像フレームの、符号化中のブロックに密接に対応するエリアを見つけ、それを示すことを含む。インター予測の利点の１つは、時間的冗長性を低減させることができることである。

イントラ予測では、画素値またはサンプル値を空間的機構によって予測することができる。イントラ予測は、空間的領域関係を見つけ、それを示すことを含み、同じピクチャ内の隣接画素は相関している可能性が高いことを利用する。イントラ予測は、空間または変換ドメインで実行することができ、すなわちサンプル値または変換係数を予測することができる。イントラ予測は、インター予測が適用されない、イントラ符号化で利用することができる。

パラメータ予測と呼ばれることもあるシンタックス予測では、シンタックス要素、ならびに／またはシンタックス要素から導出されたシンタックス要素値および／もしくは変数を、それより前に符号化（復号）したシンタックス要素ならびに／またはそれより前に導出した変数から予測する。シンタックス予測の非限定的な例を後に提供する。

動きベクトル予測では、動きベクトル、例えばインター予測および／またはインタービュー予測のための動きベクトルを、特定のブロックの予測された動きベクトルに対して差分的に符号化することができる。多くの映像コーデックで、予測された動きベクトルは所定の方式で生成される。例えば、隣接ブロックの符号化された動きベクトルまたは復号された動きベクトルの中央値（ｍｅｄｉａｎ）を計算することによって生成される。時にアドバンスト動きベクトル予測（ａｄｖａｎｃｅｄｍｏｔｉｏｎｖｅｃｔｏｒｐｒｅｄｉｃｉｏｔｎ）（ＡＭＶＰ）と呼ばれる動きベクトル予測を生成する別の方式は、時間的参照ピクチャの隣接ブロックおよび／または同一位置ブロックから候補予測のリストを作成し、選ばれた候補を動きベクトル予測子（ｐｒｅｄｉｃｔｏｒ）としてシグナリングするものである。動きベクトル値を予測することに加えて、以前に符号化／復号したピクチャの参照インデックスを予測することができる。参照インデックスは通常、時間的参照ピクチャの隣接ブロックおよび／または同一位置ブロックから予測される。動きベクトルの差分符号化は通常、スライス境界を横切って使用禁止にされる。

ブロックパーティション分割（ｂｌｏｃｋｐａｒｔｉｔｉｏｎｉｎｇ）、例えばコーディングツリーユニット（ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）（ＣＴＵ）からコーディングユニット（ｃｏｄｉｎｇｕｎｉｔ）（ＣＵ）、次いでプレディクションユニット（ｐｒｅｄｉｃｔｉｏｎｕｎｉｔ）（ＰＵ）へのブロックパーティション分割を予測することができる。パーティション分割は、そのセットのそれぞれの要素を１つのサブセットとすることができるような態様で、１つのセットを複数のサブセットに分割するプロセスである。ピクチャは、最大サイズ１２８×１２８のＣＴＵにパーティション分割することができるが、エンコーダは、６４×６４などのより小さなサイズを使用することを選ぶことができる。最初に、クオータナリツリー（ｑｕａｔｅｒｎａｒｙｔｒｅｅ）（４分木（ｑｕａｄｔｒｅｅ）として知られている）構造によって、コーディングツリーユニット（ＣＴＵ）をパーティション分割することができる。次いで、クオータナリツリーの葉ノードを、マルチタイプツリー構造（ｍｕｌｔｉ－ｔｙｐｅｔｒｅｅｓｔｒｕｃｔｕｒｅ）によってさらにパーティション分割することができる。マルチタイプツリー構造には４つの分割タイプ（ｓｐｌｉｔｔｉｎｇｔｙｐｅ）、すなわち垂直バイナリ分割（ｖｅｒｔｉｃａｌｂｉｎａｒｙｓｐｌｉｔｔｉｎｇ）、水平バイナリ分割、垂直ターナリ（ｔｅｒｎａｒｙ）分割および水平ターナリ分割がある。マルチタイプツリーの葉ノードはコーディングユニット（ＣＵ）と呼ばれる。最大変換長に対してＣＵが大きすぎる場合を除き、ＣＵ、ＰＵおよびＴＵ（トランスフォームユニット（ｔｒａｎｓｆｏｒｍｕｎｉｔ））は同じブロックサイズを有する。ＣＴＵのセグメント化構造は、バイナリ分割およびターナリ分割を使用するネストされたマルチタイプツリーを有する４分木、すなわち、最大変換長に対して大きすぎるサイズを有するＣＵに対して必要なときを除き別個のＣＵ、ＰＵおよびＴＵ概念が使用されていない４分木である。ＣＵは、正方形または長方形の形状を有することができる。

フィルタパラメータ予測では、フィルタリングパラメータ、例えばサンプル適応オフセットのためのフィルタリングパラメータを予測することができる。

以前に符号化した画像の画像情報を使用した予測手法はインター予測法と呼ばれることもあり、この方法は時間的予測および動き補償と呼ばれることもある。同じ画像内の画像情報を使用した予測手法はイントラ予測法と呼ばれることもある。

第２の段階では、予測誤差、すなわち予測された画素ブロックと元の画素ブロックとの間の差を符号化する。これは、指定された変換（例えば離散コサイン変換（ＤＣＴ）またはその変形）を使用して画素値の差を変換し、係数を量子化し、量子化した係数をエントロピー符号化することによって実行することができる。量子化プロセスの忠実度を変更することによって、エンコーダは、画素表現の正確さ（ピクチャ品質）と、結果として生じる符号化された映像表現のサイズ（伝送ビットレートのファイルサイズ）との間のバランスを制御することができる。

Ｈ．２６４／ＡＶＣおよびＨＥＶＣを含む多くの映像コーデックで、動き情報は、動き補償されたそれぞれの画像ブロックに関連した動きベクトルによって示される。これらの動きベクトルの各々は、（エンコーダで）符号化するピクチャまたは（デコーダで）復号するピクチャの画像ブロックと、以前に符号化または復号した画像（またはピクチャ）のうちの１つの画像（またはピクチャ）の予測ソースブロックとの変位を表す。Ｈ．２６４／ＡＶＣおよびＨＥＶＣでは、他の多くの映像圧縮規格と同様に、１つのピクチャを複数の長方形のメッシュに分割し、そのそれぞれについて、参照ピクチャのうちの１つの参照ピクチャの同様のブロックがインター予測に対して示される。予測ブロックの位置は、符号化しているブロックに対する予測ブロックの位置を示す動きベクトルとして符号化される。

映像符号化規格は、ビットストリームシンタックスおよびセマンティクス、ならびに誤差のないビットストリームに対する復号プロセスを指定していることがあるが、符号化プロセスは指定していないことがあり、エンコーダは、適合したビットストリームを生成することだけを要求されていることがある。仮想参照デコーダ（ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）（ＨＲＤ）を用いてビットストリームおよびデコーダ適合性を確認することができる。これらの規格は、伝送エラーおよび伝送損失に対処するのに役立つ符号化ツールを含むことがあるが、符号化におけるそれらのツールの使用は任意であることがあり、誤ったビットストリームに対する復号プロセスは指定されていないことがある。

シンタックス要素は、ビットストリームの中に表現されたデータの要素と定義することができる。シンタックス構造体は、指定された順序でビットストリーム中に一緒に存在するゼロ個以上のシンタックス要素と定義することができる。

ほとんどの場合、エンコーダへの入力およびデコーダの出力の基本単位はピクチャである。エンコーダへの入力として与えられるピクチャはソースピクチャと呼ばれることもあり、デコーダによって復号されたピクチャは、復号されたピクチャまたは再構成されたピクチャと呼ばれることがある。

ソースピクチャおよび復号されたピクチャはそれぞれ、１つまたは複数のサンプルアレイ、例えば以下のサンプルアレイセットのうちの１つからなる。
－ルーマ（Ｙ）のみ（モノクローム）
－ルーマおよび２つのクロマ（ＹＣｂＣｒまたはＹＣｇＣｏ）
－グリーン、ブルーおよびレッド（ＧＢＲ。ＲＧＢとしても知られている）
－指定されていない他のモノクロームまたは三刺激カラーサンプリングを表すアレイ（例えばＹＺＸ。ＸＹＺとしても知られている）

以下では、これらのアレイをルーマ（またはＬもしくはＹ）およびクロマと呼ぶことがあり、２つのクロマアレイは、使用している実際の色表現法とは無関係にＣｂおよびＣｒと呼ぶことがある。使用している実際の色表現法は、例えば符号化されたビットストリームの中に、例えばＨＥＶＣのビデオユーザビリティインフォーメーション（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）（ＶＵＩ）シンタックスなどを使用して示すことができる。成分（ｃｏｍｐｏｎｅｎｔ）は、３つのサンプルアレイ（ルーマおよび２つのクロマ）の１つからのアレイまたは単一のサンプル、またはモノクローム形式のピクチャを構成するアレイもしくはアレイの単一のサンプルと定義することができる。

ピクチャは、フレームまたはフィールドであると定義することができる。フレームは、ルーマサンプルおよび場合によっては対応するクロマサンプルの行列を含む。フィールドは、フレームの一組の交互サンプル行であり、ソース信号がインタレースされるときにはエンコーダ入力として使用することができる。クロマサンプルアレイが存在しないこと（したがってモノクロサンプリングが使用されていること）があり、または、ルーマサンプルアレイと比較するときにはクロマサンプルアレイをサブサンプリングすることができる。

いくつかのクロマ形式を以下のように要約することができる。
－モノクロームサンプリングでは、１つのサンプルアレイだけがあり、そのサンプルアレイを名目上ルーマアレイとみなすことができる。
－４：２：０サンプリングでは、２つのクロマアレイの各々が、ルーマアレイの半分の高さおよび半分の幅を有する。
－４：２：２サンプリングでは、２つのクロマアレイの各々が、ルーマアレイと同じ高さおよびルーマアレイの半分の幅を有する。
－別々のカラープレーン（ｃｏｌｏｒｐｌａｎｅ）が使用されていないときの４：４：４サンプリングでは、２つのクロマアレイの各々が、ルーマアレイと同じ高さおよび同じ幅を有する。

符号化形式または規格は、サンプルアレイを別々のカラープレーンとしてビットストリームに符号化し、そのビットストリームから、符号化されたそれぞれのカラープレーンを別々に復号することを可能にすることがある。別個のカラープレーンが使用されているとき、それらのカラープレーンの各々は、モノクロームサンプリングを有するピクチャとして（エンコーダおよび／またはデコーダによって）別々に処理される。

ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）は、新しいコーディングツールを提案する。それらのツールには例えばイントラ予測、ピクチャ間予測、変換、量子化および係数符号化、エントロピー符号化、ループ内フィルタ、スクリーンコンテント符号化、３６０度映像符号化、高水準シンタックスおよび並列処理が含まれる。以下では、これらのツールの詳細を簡単に説明する。
・イントラ予測
－広角度モード拡張を有する６７個のイントラモード
－ブロックサイズおよびモード依存の４タップ補間フィルタ
－位置依存イントラ予測コンビネーション（ｐｏｓｉｔｉｏｎｄｅｐｅｎｄｅｎｔｉｎｔｒａｐｒｅｄｉｃｔｉｏｎｃｏｍｂｉｎａｔｉｏｎ）（ＰＤＰＣ）
－交差成分線形モデルイントラ予測（ｃｒｏｓｓｃｏｍｐｏｎｅｎｔｌｉｎｅａｒｍｏｄｅｌｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ）（ＣＣＬＭ）
－多重参照線イントラ予測
－イントラサブパーティション
－行列乗算を用いた重み付きイントラ予測
・ピクチャ間予測
－空間的、時間的、履歴ベースおよびペアワイズアベレージ（ｐａｉｒｗｉｓｅａｖｅｒａｇｅ）マージ候補を用いたブロック動きコピー
－アフィン動きインター予測
－サブブロックベースの時間的動きベクトル予測
－適応動きベクトルレゾリューション（ａｄａｐｔｉｖｅｍｏｔｉｏｎｖｅｃｔｏｒｒｅｓｏｌｕｔｉｏｎ）
－時間的動き予測のための８×８ブロックベースの動き圧縮
－ルーマ成分用の８タップ補間フィルタおよびクロマ成分用の４タップ補間フィルタを用いた高精度（１／１６画素）動きベクトル記憶および動き補償
－三角形パーティション
－結合されたイントラおよびインター予測
－動きベクトル差分（ＭＶＤ）を用いたマージ（ｍｅｒｇｅｗｉｔｈｍｏｔｉｏｎｖｅｃｔｏｒｄｉｆｆｅｒｅｎｃｅ）（ＭＭＶＤ）
－対称ＭＶＤ符号化
－双方向光学フロー
－デコーダ側動きベクトルリファインメント（ｒｅｆｉｎｅｍｅｎｔ）
－ＣＵレベル重みを用いた双方向予測（ｂｉ－ｐｒｅｄｉｃｔｉｏｎ）
・変換、量子化および係数符号化
－ＤＣＴ２、ＤＳＴ７およびＤＣＴ８を用いた多重１次変換選択
－低周波ゾーンに対する２次変換
－予測されたインター残差に対するサブブロック変換
－５１から６３に増大した最大ＱＰを用いた依存量子化
－サインデータハイディング（ｓｉｇｎｄａｔａｈｉｄｉｎｇ）を用いた変換係数符号化
－変換スキップ残差符号化
・エントロピー符号化
－適応２重窓確率更新（ａｄａｐｔｉｖｅｄｏｕｂｌｅｗｉｎｄｏｗｓｐｒｏｂａｂｉｌｉｔｙｕｐｄａｔｅ）を用いた算術符号化エンジン
・ループ内フィルタ
－インループ内リシェーピング
－強力でより長いフィルタを用いたデブロッキングフィルタ
－サンプル適応オフセット
－適応ループフィルタ
・スクリーンコンテント符号化
－参照領域制限を用いたカレントピクチャレファレンシング
・３６０度映像符号化
－水平ラップアラウンド動き補償
・高水準シンタックスおよび並列処理
－直接参照ピクチャリストシグナリングを用いた参照ピクチャ管理
－長方形タイルグループを含むタイルグループ

ＶＶＣでは、それぞれのピクチャを、ＨＥＶＣと同様のコーディングツリーユニット（ＣＴＵ）にパーティション分割することができる。ピクチャを、スライス、タイル、ブリックおよびサブピクチャにパーティション分割することもできる。クオータナリツリー構造を使用して、ＣＴＵをより小さなＣＵに分割することができる。４分木ならびにターナリおよびバイナリ分割を含むネストされたマルチタイプツリーを使用して、それぞれのＣＵをパーティション分割することができる。ピクチャ境界のパーティション分割を推論するための特定のルールが存在する。ネストされたマルチタイプ分割において冗長分割パターンは許されない。

ＶＶＣでは、交差成分冗長性を低減させるために交差成分線形モデル（ＣＣＬＭ）予測モードが使用され、これに関しては、以下の線形モデルを使用することによって、クロマサンプルを、同じＣＵの再構成されたルーマサンプルに基づいて予測する。
ｐｒｅｄ_C（ｉ，ｊ）＝α・ｒｅｃ_L’（ｉ，ｊ）＋β
上式で、ｐｒｅｄ_C（ｉ，ｊ）は、ＣＵの予測されたクロマサンプルを表し、ｒｅｃ_L’（ｉ，ｊ）は、同じＣＵのダウンサンプリングされた再構成後のルーマサンプルを表す。

ＣＣＬＭパラメータ（αおよびβ）は、最大４つの隣接クロマサンプルおよびそれらの対応するダウンサンプリングされたルーマサンプルを用いて導出する。図３は、左サンプルおよび上サンプルならびにＣＣＬＭモードに含まれるカレントブロックのサンプルの位置、すなわちαおよびβの導出に使用するサンプルの位置の例を示している。図３にはＲｅｃ_CおよびＲｅｃ’_Lが示されており、Ｒｅｃ’_Lは、ダウンサンプリングされた再構成後のルーマサンプルに対するものであり、Ｒｅｃ_Cは、再構成されたクロマサンプルに対するものである。

カレントクロマブロックの寸法をＷ×Ｈとすると、Ｗ’およびＨ’は下記のように設定される。
－ＬＭモードが適用されるときにはＷ’＝Ｗ、Ｈ’＝Ｈ
－ＬＭ－Ａモードが適用されるときにはＷ’＝Ｗ＋Ｈ
－ＬＭ－Ｌモードが適用されるときにはＨ’＝Ｈ＋Ｗ

上隣接位置は、Ｓ［０，－１］．．．Ｓ［Ｗ’－１，－１］と表され、左隣接位置は、Ｓ［－１，０］．．．Ｓ［－１，Ｈ’－１］と表される。

次いで、４つのサンプルが以下のように選択される。
－ＬＭモードが適用され、上隣接サンプルと左隣接サンプルの両方が使用可能であるときには、Ｓ［Ｗ’／４，－１］、Ｓ［３＊Ｗ’／４，－１］、Ｓ［－１，Ｈ’／４］、Ｓ［－１，３＊Ｈ’／４］
－ＬＭ－Ａモードが適用されるか、または上隣接サンプルだけが使用可能であるときには、Ｓ［Ｗ’／８，－１］、Ｓ［３＊Ｗ’／８，－１］、Ｓ［５＊Ｗ’／８，－１］、Ｓ［７＊Ｗ’／８，－１］
－ＬＭ－Ｌモードが適用されるか、または左隣接サンプルだけが使用可能であるときには、Ｓ［－１，Ｈ’／８］、Ｓ［－１，３＊Ｈ’／８］、Ｓ［－１，５＊Ｈ’／８］、Ｓ［－１，７＊Ｈ’／８］

選択された位置にある４つの隣接ルーマサンプルをダウンサンプリングし、４回比較して、２つのより小さな値ｘ０Ａおよびｘ１Ａおよび２つのより大きな値ｘ０Ｂおよびｘ１Ｂを見つける。それらの対応するクロマサンプル値はｙ０Ａ、ｙ１Ａ、ｙ０Ｂおよびｙ１Ｂと表される。次いで、Ｘａ、Ｘｂ、ＹａおよびＹｂを下式として導出する。
Ｘａ＝（ｘ０Ａ＋ｘ１Ａ＋１）＞＞１
Ｘｂ＝（ｘ０Ｂ＋ｘ１Ｂ＋１）＞＞１
Ｙａ＝（ｙ０Ａ＋ｙ１Ａ＋１）＞＞１
Ｙｂ＝（ｙ０Ｂ＋ｙ１Ｂ＋１）＞＞１

最後に、線形モデルパラメータαおよびβを下式に従って取得する。

β＝Ｙ_b－α・Ｘ_b

パラメータαを計算する除算演算はルックアップテーブルを用いて実施する。このテーブルを記憶するのに必要なメモリを減らすため、値「ｄｉｆｆ」（最大値と最小値の差）およびパラメータαは指数関数表記によって表現される。例えば、ｄｉｆｆは、４ビット有効桁部分および指数部を用いて近似される。したがって、１／ｄｉｆｆのテーブルは、下記のように、有効桁部分の１６個の値に対する１６個の要素に低減される。
ＤｉｖＴａｂｌｅ［］＝｛０，７，６，５，５，４，４，３，３，２，２，１，１，１，１，０｝

これには、計算の複雑さを低減させることと、必要なテーブルを記憶するのに必要なメモリサイズを低減させることの両方の利点があることがある。

あるいは、上テンプレートおよび左テンプレートを使用して線形モデル係数を一緒に計算することができることに加えて、それらのテンプレートを、ＬＭ＿ＡモードおよびＬＭ＿Ｌモードと呼ばれる残りの２つのＬＭモードで使用することもできる。

ＬＭ＿Ａモードでは、上テンプレートだけを使用して線形モデル係数を計算する。より多くのサンプルを得るため、上テンプレートは（Ｗ＋Ｈ）に拡張される。ＬＭ＿Ｌモードでは、左テンプレートだけを使用して線形モデル係数を計算する。より多くのサンプルを得るため、左テンプレートは（Ｈ＋Ｗ）に拡張される。

非正方ブロックに対しては、上テンプレートはＷ＋Ｗに拡張され、左テンプレートはＨ＋Ｈに拡張される。

４：２：０映像シーケンスに対するクロマサンプル位置を整合させるため、２つのタイプのダウンサンプリングフィルタをルーマサンプルに適用して、水平方向と垂直方向の両方で２：１のダウンサンプリング比を達成する。ダウンサンプリングフィルタの選択はＳＰＳレベルフラグによって指定される。これらの２つのダウンサンプリングフィルタは以下の通りであり、それぞれ「タイプ０」および「タイプ２」コンテントに対応する。

上参照線がＣＴＵ境界にあるときには、ダウンサンプリングされたルーマサンプルを作成するのに、１本のルーマ線（イントラ予測における一般的なラインバッファ）だけが使用されることが理解される。

このパラメータ計算は、復号プロセスの一部として実行され、エンコーダ探索演算としてだけ実行されるのではない。その結果、αおよびβ値をデコーダに伝達するのにシンタックスは使用されない。

クロマイントラモード符号化に対して、クロマイントラモード符号化のために合計８つのイントラモードが許されている。それらのモードは、５つの伝統的なイントラモードおよび３つの交差成分線形モデルモード（ＣＣＬＭ、ＬＭ＿ＡおよびＬＭ＿Ｌ）を含む。クロマモードシグナリングおよび導出プロセスが下表１に示されている。クロマモード符号化は、対応するルーマブロックのイントラ予測モードに直接に依存する。ルーマおよびクロマ成分に対する別個のブロックパーティション分割構造はＩスライスで使用可能にされるため、１つのクロマブロックは多数のルーマブロックに対応することがある。したがって、クロマＤＭモードに対して、カレントクロマブロックの中心位置をカバーする対応するルーマブロックのイントラ予測モードが直接に引き継がれる。

下表２に示されているように、ｓｐｓ＿ｃｃｌｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇの値に関わらず単一の２値化表が使用される。

表２において、最初の２進数字は、標準モード（ｒｅｇｕｌａｒｍｏｄｅ）であるのか（０）またはＬＭモードであるのか（１）を示している。最初の２進数字がＬＭモードである場合、次の２進数字はＬＭ＿ＣＨＲＯＭＡであるのか（０）またはそうでないのかを示している。その２進数字がＬＭ＿ＣＨＲＯＭＡでない場合、次の１つの２進数字は、ＬＭ＿Ｌであるのか（０）またはＬＭ＿Ａであるのか（１）を示している。このケースで、ｓｐｓ＿ｃｃｌｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０のときには、対応するｉｎｔｒａ＿ｃｈｒｏｍａ＿ｐｒｅｄ＿ｍｏｄｅの２値化表の最初の２進数字をエントロピー符号化の前に捨てることができる。または、言い換えると、最初の２進数字は０であり、したがって符号化されないと推論される。この単一の２値化表は、ｓｐｓ＿ｃｃｌｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇが０に等しい場合と１に等しい場合の両方で使用される。表中の最初の２つの２進数字は、それ自体のコンテキストモデルを用いてコンテキスト符号化され、残りの２進数字はバイパス符号化される。

さらに、デュアルツリーにおけるルーマ－クロマ待ち時間を短縮するため、６４×６４ルーマ符号化ツリーノードが、ＮｏｔＳｐｌｉｔ（６４×６４ＣＵに対してＩＳＰは使用されない）またはＱＴでパーティション分割されているとき、３２×３２／３２×１６クロマ符号化ツリーノードのクロマＣＵは、以下の方式でＣＣＬＭを使用することが許される。
－３２×３２クロマノードが分割されておらず、またはパーティション分割されたＱＴ分割されていない場合、３２×３２ノードの全てのクロマＣＵはＣＣＬＭを使用することができる。
－３２×３２クロマノードがＨｏｒｉｚｏｎｔａｌＢＴでパーティション分割されており、３２×１６子ノードが分割せず、ＶｅｒｔｉｃａｌＢＴ分割を使用する場合、３２×１６クロマノードの全てのクロマＣＵはＣＣＬＭを使用することができる。

他の全てのルーマおよびクロマ符号化ツリー分割条件で、ＣＣＬＭは、クロマＣＵに対して許されていない。

多重参照線（ｍｕｌｔｉｐｌｅｒｅｆｅｒｅｎｃｅｌｉｎｅ）（ＭＲＬ）イントラ予測は、イントラ予測により多くの参照線を使用する。図４には、４本の参照線（参照線０、１、２、３）の例が示されており、セグメントＡおよびＦのサンプルは、再構成された隣接サンプルからフェッチされないが、それぞれセグメントＢおよびＥからの最も近いサンプルで埋め込まれる。ＨＥＶＣピクチャ内予測は、最も近い参照線（すなわち参照線０）を使用する。ＭＲＬでは、２本の追加の線（参照線１および参照線３）が使用される。

選択された参照線のインデックス（ｍｒｌ＿ｉｄｘ）をビットストリームに入れてまたはビットストリームに沿ってシグナリングし、それを使用してイントラ予測子を生成することができる。０よりも大きい参照線ｉｄｘについては、追加の参照線モードだけをＭＰＭリストに含めることができ、残りのモードを含めずにｍｐｍインデックスだけをシグナリングすることができる。参照線インデックスは、イントラ予測モードの前にシグナリングすることができ、ゼロでない参照線インデックスがシグナリングされた場合には、イントラ予測モードからＰｌａｎａｒモードを排除することができる。

ＣＴＵの内側のブロックの最初の線に対してはＭＲＬを使用禁止にして、カレントのＣＴＵ線の外側の拡張された参照サンプルの使用を防ぐことができる。さらに、追加の線が使用されているときにはＰＤＰＣを使用禁止にすることもできる。ＭＲＬモードについては、ゼロでない参照線インデックスに対するＤＣイントラ予測モードのＤＣ値の導出を、参照線インデックス０のそれと整列させる。ＭＲＬは、予測を生成するために、ＣＴＵとの３本の隣接ルーマ参照線の記憶を必要とする。交差成分線形モデル（ＣＣＬＭ）ツールも、そのダウンサンプリングフィルタのために３本の隣接ルーマ参照線を必要とする。デコーダのストレージ必要量を低減させるため、同じ３本の線を使用するＭＬＲの定義をＣＬＭと整列させる。

イントラサブパーティション（ＩＳＰ）は、イントラ予測されたルーマブロックを垂直または水平に分割して、ブロックサイズに応じた２つまたは４つのサブパーティションにする。例えば、ＩＳＰの最小ブロックサイズは４×８（または８×４）である。ブロックサイズが４×８（または８×４）よりも大きい場合、対応するブロックは、４つのサブパーティションによって分割される。Ｍ×１２８（Ｍ≦６４）および１２８×Ｎ（Ｎ≦６４）ＩＳＰブロックは、６４×６４ＶＤＰＵを含む潜在的な問題を生じさせうることが分かった。例えば、単一ツリーの場合のＭ×１２８ＣＵは、Ｍ×１２８ルーマＴＢ（変換ブロック）および対応する２つの

クロマＴＢを有する。ＣＵがＩＳＰを使用する場合、ルーマＴＢは４つのＭ×３２ＴＢに分割され（水平分割だけが可能である）、それらはそれぞれ６４×６４ブロックよりも小さい。しかしながら、ＩＳＰのカレント設計ではクロマブロックが分割されない。したがって、両方のクロマ成分が３２×３２ブロックよりも大きいサイズを有することになる。これに類似して、同様の状況が、ＩＳＰを使用する１２８×ＮＣＵでも生み出されうる。したがって、これらの２つのケースは、６４×６４デコーダパイプラインに関して問題である。この理由から、ＩＳＰを使用することができるＣＵサイズは最大６４×６４に制限される。全てのサブパーティションは、少なくとも１６個のサンプルを有するという条件を満たす。

行列重み付けイントラ予測（ｍａｔｒｉｘｗｅｉｇｈｔｅｄｉｎｔｒａｐｒｅｄｉｃｔｉｏｎ）（ＭＩＰ）法は、ＶＶＣに新たに追加されたイントラ予測技術である。幅Ｗおよび高さＨの長方形のブロックのサンプルを予測するために、行列重み付けイントラ予測（ＭＩＰ）は、そのブロックの左のＨ個の再構成された隣接境界サンプルからなる１本の線およびそのブロックの上のＷ個の再構成された隣接境界サンプルからなる１本の線を入力としてとる。再構成されたサンプルが使用可能でない場合、それらのサンプルは、従来のイントラ予測でそれが実行されたときに生成される。図５は、行列重み付けイントラ予測プロセスの例を示しており、予測信号の生成は３つのステップ、すなわち平均算出、行列ベクトル乗算および線形補間に基づく。

ＶＶＣにおけるインター予測の特徴の１つはＭＶＤを用いたマージである。マージリストは以下の候補を含むことがある。
１）空間的隣接ＣＵからの空間的動きベクトル予測（ＭＶＰ）
２）同一位置ＣＵからの時間的ＭＶＰ
３）ＦＩＦＯテーブルからの履歴ベースのＭＶＰ
４）ペアワイズアベレージＭＶＰ（リストの中にすでにある候補を使用する）
５）ゼロＭＶ

動きベクトル差分を用いたマージモード（ＭＭＶＤ）は、マージ候補をシグナリングした後にＭＶＤおよびレゾリューションインデックスをシグナリングすることである。

対称ＭＶＤでは、双方向予測の場合に、リスト－０の動き情報からリスト－１の動き情報が導出される。

アフィン予測では、ブロックの異なるコーナに対していくつかの動きベクトルが示され／シグナリングされ、それらが、サブブロックの動きベクトルを導出するために使用される。アフィンマージでは、ブロックのアフィン動き情報が、隣接ブロックの通常のまたはアフィン動き情報に基づいて生成される。

サブブロックベースの時間的動きベクトル予測では、（使用可能である場合に）空間的隣接ブロックの動きベクトルによって示された参照フレームの適切なサブブロックから、カレントブロックのサブブロックの動きベクトルが予測される。

適応動きベクトルレゾリューション（ＡＭＶＲ）では、ＣＵごとにＭＶＤの精度がシグナリングされる。

ＣＵレベルの重みを用いた双方向予測では、２つの予測ブロックの重み付けされた平均のための重み値に対するインデックスが示される。

双方向光学フロー（ＢＤＯＦ）は、双方向予測の場合に動きベクトルをリファインする。ＢＤＯＦは、シグナリングされた動きベクトルを使用して２つの予測ブロックを生成することができる。次いで、２つの予測ブロック間の誤差を最小化する動きリファインメントが、それらのブロックの勾配値を使用して計算される。この動きリファインメントおよび勾配値を使用して、最終的な予測ブロックをリファインする。

変換は、ブロックベースのハイブリッド映像符号化のための予測残差ブロックの空間的冗長性を除去するための解決策である。さらに、既存の方向性イントラ予測は、予測残差の方向性パターンを生じさせ、これが、変換係数に対する予測可能なパターンにつながる。変換係数の予測可能なパターンは主に低周波成分で観察される。したがって、低周波非分離変換（ｌｏｗ－ｆｒｅｑｕｅｎｃｙｎｏｎ－ｓｅｐａｒａｂｌｅｔｒａｎｓｆｏｒｍ）（ＬＦＮＳＴ）を使用して、従来の方向性イントラ予測からの変換係数である低周波１次変換係数間の冗長性をさらに圧縮することができる。

多重変換選択（ＭｕｌｔｉｐｌｅＴｒａｎｓｆｏｒｍＳｅｌｅｃｔｉｏｎ）（ＭＴＳ）は３つの三角変換に依存し、エンコーダ側で、レート歪み（Ｒａｔｅ－Ｄｉｓｔｏｒｔｉｏｎ）のコストを最大化する水平変換と垂直変換の対を選択する。

デコーダ側イントラモード導出（ＤＩＭＤ）法では、エンコーダ側とデコーダ側の両方で、以前に符号化／復号した画素からイントラ予測方向またはモードが導出される。したがって、従来のイントラ予測ツールとは異なり、モードのシグナリングは必要ない。ＤＩＭＤモードを用いた画素／サンプル予測は以下のように実行することができる。

デコーダ側イントラモード導出ブロックのイントラ予測モード（ＩＰＭ）では、エンコーダ側とデコーダ側の両方でテクスチャ勾配解析が実行される。このプロセスは、異なるａｎｇｕｌａｒイントラ予測モードに対応するある数のエントリを有する空の勾配ヒストグラム（ｈｉｓｔｏｇｒａｍｏｆＧｒａｄｉｅｎｔ）（ＨｏＧ）から始まる。一手法によれば、６５個のエントリが定義される。テクスチャ勾配解析中に、これらのエントリの振幅が決定される。このＨｏＧ計算は例えば、ブロックの周囲の幅３のテンプレートの画素に水平および垂直ソーベルフィルタ（Ｓｏｂｅｌｆｉｌｔｅｒ）を適用することによって実行することができる。テンプレートよりも上の画素が異なるＣＴＵに含まれる場合、このテクスチャ解析ではそれらの画素が使用されない。

このフィルタリングでは、フィルタリングウィンドウＡの中の画素値が行列と畳み込まれるように、サイズ３×３の２つのカーネル行列がフィルタリングウィンドウとともに使用される。一方の行列が、フィルタリングウィンドウの中心画素における水平方向の勾配値Ｇｘを生成し、もう一方の行列が、フィルタリングウィンドウの中心画素における垂直方向の勾配値Ｇｙを生成する。言い換えると、中心画素および中心画素の周囲の８つの画素が、中心画素の勾配の計算に使用される。２つの勾配値の絶対値の和が勾配の大きさを示し、比Ｇｙ／Ｇｘの逆正接（ａｒｃｔａｎ）が勾配の方向を示す。フィルタリングウィンドウに縁がある場合、この方向は、ａｎｇｕｌａｒイントラ予測モードも示す。フィルタリングウィンドウをテンプレートの次の画素に移動させ、上の手順を繰り返す。一手法によれば、上で説明した計算は、テンプレート領域の中心行のそれぞれの画素に対して実行される。

交差成分線形モデル（ＣＣＬＭ）は、クロマチャネル（例えばＣｂおよびＣｒ）のサンプルを予測するための線形モデルを使用する。モデルパラメータは、クロマブロックの近傍の再構成されたサンプル、ルーマブロックの同一位置の隣接サンプル、および同一位置のルーマブロックの内側の再構成されたサンプルに基づいて導出される。

ＣＣＬＭの目的は、２つ以上のチャネル間のサンプルの相関を見つけることである。しかしながら、ＣＣＬＭ法の線形モデルは、ルーマチャネルとクロマチャネルの間の正確な相関を常に提供することができるわけではなく、したがってその性能は最適とは言えない。

したがって、本発明の実施形態の目的は、クロマ符号化におけるジョイントイントラ予測を提供することによって、交差成分線形モデル（ＣＣＬＭ）予測の予測性能を向上させることにある。ジョイントイントラ予測は、ＣＣＬＭと参照チャネルから導出されたイントラ予測モードとの結合を使用する。このことは、クロマチャネルのカレントブロックについて、ルーマチャネルの同一位置ブロックから、導出されたイントラ予測モードを引き継ぐことができることを意味する。あるいは、導出されたモードを、クロマチャネル（例えばＣｂおよびＣｒ）の再構成された隣接ブロックの予測モードに基づくものとすることもできる。

クロマブロックに対する最終的な予測は、ＣＣＬＭと導出された予測モードとをある重みを付けて結合することによって達成される。

以下では、本発明の実施形態をより詳細に論じる。実施形態によるジョイント予測法は、ＣＣＬＭと導出されたイントラ予測モードの予測を結合する。このジョイント予測法は、ＣＣＬＭ予測および伝統的な空間的イントラ予測に基づいてブロックのサンプルを予測するように構成されている。伝統的なイントラ予測モードは、ＣＣＬＭモードの参照チャネル（例えばルーマチャネル）の同一位置ブロックから、または同一位置ブロック内の１つの領域から導出することができる。

導出された伝統的なイントラモードは、２つのチャネルのサンプル間の追加の相関を見つけるために使用される。図６は、クロマチャネル６０１の符号化ブロック６１０およびルーマチャネル６０２の対応する同一位置ブロック６２０の例を示している。異なるチャネルのブロックセグメント化が互いに対応していない場合には、クロマチャネル６０１のある１つの位置をルーマチャネル６０２の１つの位置にマップすることによって同一位置ブロック６２０を決定することができ、同一位置ブロック６２０は、決定されたルーマ位置のブロックを同一位置ブロック６２０として使用する。例えば、このプロセスでは、クロマブロックの左上隅、右下隅または中央の点を参照クロマ位置として使用することができる。

代替的手法によれば、参照チャネルから導出されたモードが常に同一位置ブロックであるとは限らない。導出されたモードは、同一位置の拡張されたエリア内のブロックのうちの少なくとも１つのブロックの予測モードに基づいて決定することができる。これが図７に示されており、図７は、符号化ブロック７１０に対する同一位置ブロック７２０および同一位置近傍７２５を示している。この場合、導出されたモードは、２つ以上の予測モードのレート歪み（ＲＤ）性能に基づいて決定することができる。別の例として、拡張された同一位置近傍の最大サンプル面積を有する予測モード、または拡張された同一位置近傍の最大ルーマブロックに関連した予測モードを、導出されたモードとして選択することもできる。

一実施形態による方法のプロセスは、全体として、
－ブロックの内側のサンプルをＣＣＬＭモードを用いて予測することを含む、第１の予測、
－参照チャネルの符号化されたブロックからイントラ予測モードを導出すること、
－導出されたイントラ予測モードに基づいてブロックの内側のサンプルを予測することを含む、第２の予測、および
－所定の重みを付けた第１および第２の予測に基づいてブロックの最終的な予測を決定すること
を含む。

図８は、第１の予測と第２の予測とを結合するジョイント予測法のプロセスの例を示している。第１の予測８１０はＣＣＬＭモードを用いた予測であり、第２の予測８２０は、導出されたモードを用いた予測である。結合８５０するときには、第１の予測と第２の予測の両方に重みが付けられる。

結合８５０のための重み付け手法は以下のうちのいずれかとすることができる。
－ブロックの全サンプルに対する一定の等しい重みを用いて第１の予測と第２の予測を結合することができる。
－ブロックの全サンプルに対する一定の等しくない重みを用いて第１の予測と第２の予測を結合することができる。
－予測されたそれぞれのサンプルの重みを他のサンプルとは異なるものとすることができる等しい／等しくないサンプルごとの重み付けを用いて第１の予測と第２の予測を結合することができる。
－導出されたモードの予測方向またはモード識別子に基づいてサンプルの重み値を決定することができる。
－ＣＣＬＭモードの予測方向、参照サンプルの位置またはモード識別子に基づいてサンプルの重み値を決定することができる。
－ＣＣＬＭモードおよび導出されたモードの予測方向、参照サンプルの位置またはモード識別子に基づいてサンプルの重み値を決定することができる。
－ブロックのサイズに基づいてサンプルの重み値を決定することができる。例えば、ブロックのより大きな側のサンプルは、導出されたモードに対してより大きな重みを使用し、ＣＣＬＭモードに対してより小さな重みを使用することができ、またはその逆とすることができる。
－一部のブロック位置については予測ブロックの重み値をゼロに設定することができる。例えば、ブロックの上端または左端からの距離がしきい値よりも大きいときに、導出された予測モードを用いて生成されたブロックの重みをゼロにすることができる。

これらの実施形態によるジョイント予測プロセスを、後述するさまざまなシナリオに適用することができる。

このジョイント予測は、一方のクロマチャネル（例えばＣｂまたはＣｒ）に適用することができ、もう一方のチャネルは、ＣＣＬＭモードだけまたは導出されたモードだけに基づいて予測することができる。ジョイント予測を適用するチャネルの選択は固定とすることができ、またはコーデックでのレート歪みプロセスに基づくことができる。

あるいは、クロマチャネルの各々を一方のモードを使用して予測することもできる。例えば、一方のチャネルをＣＣＬＭモードに基づいて予測し、もう一方のチャネルを、導出されたイントラモードに基づいて予測することができる。それぞれのチャネルの予測モードの選択は、レート歪みプロセスに基づいて決定することができ、または固定とすることができる。

第２の予測のための導出されたモードは、対応するクロマチャネルの隣接ブロックの予測モードに基づいて決定することができる。

導出されたモードは、ｐｌａｎａｒ予測モードまたはＤＣ予測モードなど、所定のモードに設定することができる。導出されたモードは、より高水準のシグナリング、例えば、スライスもしくはピクチャヘッダの中またはビットストリームのパラメータセットの中の、導出されたモードを決定するシンタックス要素を含むより高水準のシグナリング、を使用して示すこともできる。あるいは、導出されたモードは、トランスフォームユニット、プレディクションユニットまたはコーディングユニットレベルで、これらの異なるクロマチャネルに対して別々にまたは共同で示すこともできる。

一実施形態によれば、クロマチャネルに対する導出されたモードが異なる。例えば、参照チャネル（例えばルーマチャネル）の同一位置ブロックに基づいて一方のチャネル（例えばＣｂまたはＣｒ）に対する導出されたモードを決定することができ、もう一方のクロマチャネルに対する導出されたモードは、そのチャネルの隣接ブロックの予測モードに基づいて決定することができる。

本発明の実施形態に必要なシンタックス要素はいずれも、ビットストリームに入れてまたはビットストリームに沿ってシグナリングすることができる。このシグナリングは、ＣＣＬＭ方向、導出されたモードの方向、ブロックの位置およびサイズなどのある条件で実行することができる。あるいは、例えばＣＣＬＭモード、導出されたモード、ブロックサイズなどの可用性をチェックすることによって、デコーダ側でシンタックス要素を決定することもできる。

別の実施形態では、導出されたモードを、テクスチャ解析法に基づいて、符号化チャネルの再構成された隣接サンプルから決定することができる。そのために、ある数の再構成された隣接サンプル（またはサンプルのテンプレート）を考慮することができる。

別の実施形態によれば、イントラ予測モードを導出するためのテクスチャ解析法を、デコーダ側イントラモード導出（ＤＩＭＤ）法、テンプレートマッチングベースの（ＴＭベースの）方法、イントラブロックコピー（ＩＢＣ）法などのうちの１つまたは複数の方法とすることができる。

隣接サンプルからのモード導出はＣＣＬＭモードの方向を考慮することができる。例えば、ＣＣＬＭモードが上隣接サンプルだけを使用する場合には、上隣接サンプルだけに従ってモードを導出することができ、またはその逆も同様である。

導出されたモードが、再構成された隣接サンプルによって達成される場合には、ＣＣＬＭモードを用いて結合する対応する隣接サンプルに基づいて、チャネルごとに１つのモードを導出することができる。あるいは、導出されたモードを、両方のクロマチャネルに対して共通とすることもでき、導出されたモードは、一方または両方のチャネルの再構成された隣接サンプルに従って導出することができる。

以前のケースのジョイント予測と同様に、隣接サンプルのテクスチャ解析から達成された導出されたモードを一方のチャネルに適用することができ、もう一方のチャネルは、ＣＣＬＭモードだけを用いて予測することができる。代替として、ジョイント予測を一方のチャネルだけに適用し、もう一方のチャネルは、ＣＣＬＭだけまたは導出されたモードだけに基づいて予測することもできる。

２つの予測を結合するための重み値は、再構成された隣接サンプルのテクスチャ解析に基づいて決定することができる。例えば、ＤＩＭＤモードを用いて導出されたイントラ予測モードは、それぞれのモードの導出プロセスにおいてある重みを含む。導出されたモードおよびＣＣＬＭモードの重み決定に対して、これらの重みまたはこれらの重みのある種のマッピングを考慮することができる。

別の実施形態によれば、導出されたモードとＣＣＬＭモードの一方または両方に基づいて、変換選択（多重変換選択（ＭＴＳ）、低周波非分離変換（ＬＦＮＳＴ）など）、またはＬＦＮＳＴにおける変換のインデックスを決定することができる。

本発明の実施形態は２つの予測を結合することだけに限定されないことを理解する必要がある。最終的な予測は、３つ以上の予測を結合することによって達成することができる。例えば、最終的な予測は、１つまたは複数のＣＣＬＭモードおよび１つまたは複数の導出されたモードを用いて計算することができる。

一実施形態による方法が図９の流れ図に示されている。この方法は一般に、符号化するピクチャを受け取ること９１０、カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること９２０、参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること９３０、ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行すること９４０、ならびに重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定すること９５０を含む。これらのステップの各々は、コンピュータシステムの対応するそれぞれのモジュールによって実施することができる。

実施形態による装置は、符号化するピクチャを受け取る手段と、カレントチャネルのピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行する手段と、参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出する手段と、ピクチャのブロックの内側のサンプルに対して少なくとも１つの他の予測を、導出されたイントラ予測モードに従って実行する手段と、重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいてブロックの最終的な予測を決定する手段とを備える。これらの手段は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとを備え、プロセッサはさらにプロセッサ回路を備えることができる。メモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサとともに、図９の方法を、さまざまな実施形態に従って、この装置に実行させるように構成されている。

装置の例が図１０に示されている。この装置の一般化された構造を、このシステムの機能ブロックに従って説明する。いくつかの機能を単一の物理装置によって実行することができる。例えば、希望する場合には、全ての計算手順を単一のプロセッサで実行することができる。

図１０の例による装置のデータ処理システムは、主処理ユニット１００、メモリ１０２、記憶装置１０４、入力装置１０６、出力装置１０８およびグラフィクスサブシステム１１０を備え、これらはデータバス１１２を介して互いに接続されている。主処理ユニット１００は、このデータ処理システム内でデータを処理するために配置された処理ユニットである。主処理ユニット１００は、１つもしくは複数のプロセッサもしくはプロセッサ回路を備えることができ、または１つもしくは複数のプロセッサもしくはプロセッサ回路として実装することができる。メモリ１０２、記憶装置１０４、入力装置１０６および出力装置１０８は、当業者が知る他の構成要素を含むことができる。メモリ１０２および記憶装置１０４は、データ処理システム１００内にデータを記憶する。メモリ１０２内にはコンピュータプログラムコード、例えばニューラルネットワークトレーニングまたは他の機械学習プロセスを実施するためのコンピュータプログラムコードが存在する。入力装置１０６はシステムにデータを入力し、出力装置１０８は、データ処理システムからデータを受け取り、そのデータを例えばディスプレイに転送する。データバス１１２は単一の線として示されているが、プロセッサバス、ＰＣＩバス、グラフィカルバス、ＩＳＡバスの任意の組合せとすることができる。したがって、この装置は、コンピュータ装置、パーソナルコンピュータ、サーバコンピュータ、移動電話、スマートホンまたはインターネットアクセス装置、例えばインターネットテーブルコンピュータなどの任意のデータ処理装置とすることができることを当業者は容易に理解する。

メモリ内に存在し、関連装置にこの方法を実行させるコンピュータプログラムコードの助けを借りて、さまざまな実施形態を実施することができる。例えば、装置は、データを処理、受信および送信するための回路および電子部品と、メモリ内のコンピュータプログラムコードと、コンピュータプログラムコードを実行したときに装置に実施形態の特徴を実行させるプロセッサとを備えることができる。さらに、サーバのようなネットワーク装置は、データを処理、受信および送信するための回路および電子部品と、メモリ内のコンピュータプログラムコードと、コンピュータプログラムコードを実行したときにネットワーク装置に実施形態の特徴を実行させるプロセッサとを備えることができる。コンピュータプログラムコードは１つまたは複数の動作特性を含む。前記動作特性は、前記プロセッサのタイプに基づく前記コンピュータによる構成によって規定されており、バスによって前記プロセッサにシステムを接続することができ、そのシステムのプログラム可能な動作特性は、さまざまな実施形態に従って方法を実施するためのものである。

非一過性コンピュータ可読媒体上に、一実施形態によるコンピュータプログラム製品を実装することができる。別の実施形態によれば、このコンピュータプログラム製品をネットワークを介してデータパケットの形態でダウンロードすることができる。

希望する場合には、本明細書で論じたさまざまな機能を、異なる順序でおよび／または他の機能と同時に実行することができる。さらに、希望する場合には、上述の機能および実施形態の１つもしくは複数を任意選択とすることができ、または組み合わせることができる。

独立請求項には実施形態のさまざまな態様が記載されているが、他の態様は、記載された実施形態および／または従属請求項の特徴と独立請求項の特徴との他の組合せを含み、特許請求の範囲に明示的に記載された組合せだけに限定されない。

以上では例示的な実施形態を説明したが、それらの説明を限定を意味するものと解釈すべきではないことにも留意されたい。むしろ、添付の特許請求の範囲に定義された本開示の範囲を逸脱することなく実施することができるいくつかの変形および変更が存在する。

Claims

－符号化するピクチャを受け取ること、
－カレントチャネルの前記ピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、
－参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること、
－前記ピクチャの前記ブロックの内側の前記サンプルに対して少なくとも１つの他の予測を、導出された前記イントラ予測モードに従って実行すること、ならびに
－重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいて前記ブロックの最終的な予測を決定すること
を含む方法。
前記第１の予測モードが交差成分線形モードである、請求項１に記載の方法。
導出された前記イントラ予測モードが、前記カレントチャネルとは異なるチャネルの少なくとも１つの同一位置ブロックから導出される、請求項１に記載の方法。
導出された前記イントラ予測モードが、前記カレントチャネルの少なくとも１つの隣接ブロックから導出される、請求項１に記載の方法。
導出された前記イントラ予測モードが、前記カレントチャネルの再構成された隣接サンプルからテクスチャ解析法に基づいて決定される、請求項１に記載の方法。
前記テクスチャ解析法が、デコーダ側イントラモード導出法、テンプレートマッチングに基づく方法、イントラブロックコピー法のうちの１つである、請求項５に記載の方法。
前記隣接サンプルからの前記決定が前記第１の予測の方向を考慮する、請求項５に記載の方法。
最終的な予測が、前記ブロックの全サンプルに対する一定の等しい重みを用いた、結合された第１および第２の予測を含む、請求項１に記載の方法。
最終的な予測が、前記ブロックの全サンプルに対する一定の等しくない重みを用いた、結合された第１および第２の予測を含む、請求項１に記載の方法。
最終的な予測が、予測されたそれぞれのサンプルの重みが互いに異なる、等しいまたは等しくないサンプルごとの重み付けを用いた、結合された第１および第２の予測を含む、請求項１に記載の方法。
前記サンプルの重み値を、導出されたイントラ予測モードの予測方向またはモード識別子に基づいて決定することをさらに含む、請求項１に記載の方法。
前記サンプルの重み値を、交差成分線形モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定することをさらに含む、請求項１に記載の方法。
前記サンプルの重み値を、交差成分線形モードおよび導出された予測モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定することをさらに含む、請求項１に記載の方法。
前記サンプルの重み値を、前記ブロックのサイズに基づいて決定することをさらに含む、請求項１に記載の方法。
少なくとも１つのプロセッサと、コンピュータプログラムコードを含むメモリとを備える装置であって、前記メモリおよび前記コンピュータプログラムコードが、前記少なくとも１つのプロセッサとともに、少なくとも、
－符号化するピクチャを受け取ること、
－カレントチャネルの前記ピクチャのブロックの内側のサンプルに対して少なくとも１つの予測を第１の予測モードに従って実行すること、
－参照チャネルの符号化された少なくとも１つのブロックからイントラ予測モードを導出すること、
－前記ピクチャの前記ブロックの内側の前記サンプルに対して少なくとも１つの他の予測を、導出された前記イントラ予測モードに従って実行すること、ならびに
－重みを付けた前記少なくとも１つの第１の予測および前記少なくとも１つの第２の予測に基づいて前記ブロックの最終的な予測を決定すること
を前記装置に実行させるように構成されている、装置。
前記第１の予測モードが交差成分線形モードで実行される、請求項１５に記載の装置。
導出された前記イントラ予測モードが、前記カレントチャネルとは異なるチャネルの少なくとも１つの同一位置ブロックから導出される、請求項１５に記載の装置。
導出された前記イントラ予測モードが、前記カレントチャネルの少なくとも１つの隣接ブロックから導出される、請求項１５に記載の装置。
導出された前記イントラ予測モードが、前記カレントチャネルの再構成された隣接サンプルからテクスチャ解析法に基づいて決定される、請求項１５に記載の装置。
前記テクスチャ解析法が、デコーダ側イントラモード導出法、テンプレートマッチングに基づく方法、イントラブロックコピー法のうちの１つである、請求項１９に記載の装置。
前記隣接サンプルからの前記決定が前記第１の予測の方向を考慮する、請求項１９に記載の装置。
最終的な予測が、前記ブロックの全サンプルに対する一定の等しい重みを用いた、結合された第１および第２の予測を含む、請求項１５に記載の装置。
最終的な予測が、前記ブロックの全サンプルに対する一定の等しくない重みを用いた、結合された第１および第２の予測を含む、請求項１５に記載の装置。
最終的な予測が、予測されたそれぞれのサンプルの重みが互いに異なる、等しいまたは等しくないサンプルごとの重み付けを用いた、結合された第１および第２の予測を含む、請求項１５に記載の装置。
前記サンプルの重み値を、導出されたイントラ予測モードの予測方向またはモード識別子に基づいて決定することをさらに実行する、請求項１５に記載の装置。
前記サンプルの重み値を、交差成分線形モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定することをさらに実行する、請求項１５に記載の装置。
前記サンプルの重み値を、交差成分線形モードおよび導出された予測モードの予測方向、参照サンプルの位置またはモード識別子に基づいて決定することをさらに実行する、請求項１５に記載の装置。
前記サンプルの重み値を、前記ブロックのサイズに基づいて決定することをさらに実行する、請求項１５に記載の装置。