JP2023543985A - 多用途ビデオコーディングのためのテンプレートマッチング予測 - Google Patents

多用途ビデオコーディングのためのテンプレートマッチング予測 Download PDF

Info

Publication number
JP2023543985A
JP2023543985A JP2023518908A JP2023518908A JP2023543985A JP 2023543985 A JP2023543985 A JP 2023543985A JP 2023518908 A JP2023518908 A JP 2023518908A JP 2023518908 A JP2023518908 A JP 2023518908A JP 2023543985 A JP2023543985 A JP 2023543985A
Authority
JP
Japan
Prior art keywords
tmp
prediction
video
block
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023518908A
Other languages
English (en)
Inventor
ルリーネク、ファブリス
ナセル、カラム
ポイエー、タンギ
ガルピン、フランク
Original Assignee
インターデジタル ヴイシー ホールディングス フランス,エスエーエス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス フランス,エスエーエス filed Critical インターデジタル ヴイシー ホールディングス フランス,エスエーエス
Publication of JP2023543985A publication Critical patent/JP2023543985A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

テンプレートマッチング予測は、追加のコーディングツールと組み合わされて、シンタックス要素の有利な使用によってコーディング/復号ツールのロバストなセットを提供する。追加のコーディングツールのいくつかは、行列イントラ予測、イントラサブ分割、低周波非分離可能変換、多重変換選択を含む。【選択図】図2

Description

本実施形態のうちの少なくとも1つは、概して、ビデオの符号化又は復号、圧縮又は解凍のための方法又は装置に関する。
高い圧縮効率を実現するために、画像及びビデオのコーディングスキームは、通常、動きベクトル予測を含む予測、並びにビデオコンテンツの空間的冗長性及び時間的冗長性を活用するための変換を採用している。一般に、フレーム内又はフレーム間の相関を活かすためにイントラ予測又はインター予測が使用され、それにより、しばしば予測誤差又は予測残差を意味する原画像と予測画像との差分が、変換され、量子化され、エントロピコード化される。ビデオを再構成するには、エントロピコーディング、量子化、変換、及び予測に対応する逆プロセスによって、圧縮データを復号する。
本実施形態のうちの少なくとも1つは、概して、ビデオの符号化又は復号のための方法又は装置に関し、より具体的には、VVC(Versatile Video Coding)(多用途ビデオコーディング又はH.266)標準のような他のコーディングツールと組み合わせてテンプレートマッチング予測を使用するための方法又は装置に関する。
第1の態様によれば、方法が提供される。この方法は、少なくとも第1及び第2のコーディングツールがビデオブロック上で使用されることをシグナリングするためのステップと、当該第1及び第2のコーディングツールを使用してビデオブロックを符号化するためのステップと、を含む。
第2の態様によれば、別の方法が提供される。この方法は、ビデオビットストリームを解析して、ビデオブロックのための少なくとも第1及び第2の復号ツールを決定するためのステップと、当該ビデオブロック上で使用されるべき当該少なくとも第1及び第2のコーディングツールを使用してビデオブロックを復号するためのステップと、を含む。
別の態様により、装置を提供する。装置は、プロセッサを備える。プロセッサは、前述した方法のいずれかを実行することによって、ビデオのブロックを符号化する、又はビットストリームを復号するように構成することができる。
少なくとも1つの実施形態の別の汎用態様によれば、復号する実施形態のいずれかによる装置と、(i)信号を受信するように構成されたアンテナであって、信号がビデオブロックを含む、アンテナ、(ii)受信された信号を、ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、又は(iii)ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも1つと、を備えるデバイス、が提供される。
少なくとも1つの実施形態の別の汎用態様により、記載される復号する実施形態又は変形形態のうちのいずれかに従って生成されるデータコンテンツを含む非一時的コンピュータ可読媒体を提供する。
少なくとも1つの実施形態の別の汎用態様によれば、説明した符号化実施形態又は変形形態のいずれかに従って生成されたビデオデータを含む信号が提供される。
少なくとも1つの実施形態の別の汎用態様によれば、記載される復号する実施形態又は変形形態のうちのいずれかに従って生成されるデータコンテンツを含むようにビットストリームをフォーマットする。
少なくとも1つの実施形態の別の汎用形態によれば、コンピュータによって実行されるとき、記載される復号する実施形態又は変形形態のうちのいずれかをコンピュータに行わせる命令を含む、コンピュータプログラム製品を提供する。
汎用態様の上記及び他の態様、特徴、及び利点は、例示的な実施形態の以下の詳細な説明を添付の図面を参照しながら読み進めることによって明らかになるであろう。
多用途ビデオコーディング(VVC)におけるイントラ予測モードを例示する。 テンプレートマッチング予測(template matching prediction、TMP)の例を例示する。 標準の一般的なビデオ圧縮スキームを示す。 標準の一般的なビデオ解凍スキームを示す。 一般的に説明された態様下の方法の一実施形態を示す。 一般的に説明された態様下の方法の別の実施形態を示す。 説明された態様下の例示的な装置を示す。 一般的に説明された態様下で符号化/復号するためのプロセッサベースのシステムを示す。 単一テンプレートを用いたテンプレートマッチングの例を示す。 より小さい探索範囲を有するテンプレートマッチング予測の例を示す。 IBC及びTMPのための相互排他的探索範囲の例を示す。 現在のCTUの内部で許容される探索範囲を示す。 R1及びR2のライン幅が4の倍数であるSIMD最適化を示す。 現在のブロックと同じ寸法を有するようにテンプレート左上部分が除去されたSIMD最適化を示す。
本明細書で説明する実施形態は、ビデオ圧縮の分野におけるものであり、概して、ビデオ圧縮に関し、ビデオ符号化及び復号は、より具体的には、テンプレートマッチング予測を採用することによってビデオ圧縮のイントラ予測部分を改善することを目的とする。このモードは、画像の再構成された部分内に類似のテンプレートを有するパッチから予測信号を生成する。
高い圧縮効率を実現するために、画像及びビデオのコーディングスキームは、通常、動きベクトル予測を含む予測、並びにビデオコンテンツの空間的冗長性及び時間的冗長性を活用するための変換を採用している。一般に、フレーム内又はフレーム間の相関を活かすためにイントラ予測又はインター予測が使用され、それにより、しばしば予測誤差又は予測残差を意味する原画像と予測画像との差分が、変換され、量子化され、エントロピコード化される。ビデオを再構成するには、エントロピコーディング、量子化、変換、及び予測に対応する逆プロセスによって、圧縮データを復号する。
イントラピクチャ予測は、画像及びビデオ圧縮の基本部分である。従来、予測信号は、L字型の再構成されたピクセル(参照サンプル)から、それらを異なる角度に沿って仮定することによって生成される。このメカニズムは角度予測として知られている。VVCは、65個のイントラ予測モードを使用し、63個の角度並びにDC及び平面予測が定義される(図1参照)。
VVCにおける従来のイントラ予測は、複数のツールで強化される。
-成分間線形モデル(cross-component linear model、CCLM):クロマ予測ブロックが、ルーマ再構成されたサンプルの線形モデルによって生成される。
-マルチ参照ライン予測(multi reference line prediction、MRL):より多くの参照サンプルが予測ブロックを生成するために使用される。
-イントラサブ分割(intra sub-partitioning、ISP):予測ブロックは、同じ予測モードを共有する4つのサブブロックに分割される。
-行列重み付けイントラ予測(matrix weighted intra prediction、MIP):予測ブロックは、参照サンプルにいくつかのオフライン最適化予測行列を乗算することによって生成される。
-イントラブロックコピー(intra block copy、IBC):予測ブロックは、すでに再構成された画像部分から別のブロックをコピーすることによって生成され、変位ベクトルは、ビットストリームにおいてシグナリングされる。
残差ブロックは、コア変換DCT-II、又は多重変換選択(multiple transform selection、MTS)として知られる、DST-VIIとDCT-VIIIとの組み合わせの別のモードで変換される。変換されたブロックは、残差ブロックを更に圧縮するために、二次非分離可能変換を用いて更に変換され得る。このプロセスは、低周波非分離可能変換(low-frequency non-separable transform、LFNST)と呼ばれる。
テンプレートマッチング予測(TMP)は、VVCに含まれない更に別の強力なイントラ予測モードである。これは、ターゲットブロックを見つけるために類似のL字型近傍(パッチと呼ばれる)を探索することによって実行される。これは以下の図に例示されている。TMPが使用される場合、現在のテンプレートは、再構成されたL字型近傍によって形成される。現在のテンプレートとの差が小さい類似のテンプレートが見出される。これらのテンプレートに属するブロック(ターゲットブロック)は、それらを平均化するか、又は最小テンプレート差を有するもののみを考慮することによって、予測信号を生成するために使用される。
TMPをVVCに統合することは、既存のイントラツールとの適切な相互運用性を必要とする。すなわち、
-ISP、MIP及びMRLとの相互作用
-変換ツール(MTS及びLFNST、暗黙的MTS)との相互作用
-組み合わされたインター及びイントラ予測(combined inter and intra prediction、CIIP)との相互作用
本明細書で説明される汎用態様は、これらの相互作用に関し、VVCに対してこのモードを可能にする実施形態を提案する。
テンプレートマッチング予測は、ジョイントビデオ探索チーム(joint video exploration team、JVET)のジョイント探索テストモード(joint exploration test mode、JEM)における任意選択のイントラ予測モードであった。これは、カルーネン・ルーベ変換(Karhunen Loueve transform、KLT)を使用し、TMPの同じテンプレートを使用して、変換行列を導出するためのオンラインプロセスを伴う。予測ブロックは、最大8個の候補ブロックを平均化することによって生成される。
VVC開発に関連して、領域ベースのテンプレートマッチング予測が従来の研究において提案されている。JEMバージョンと比較して、これらの従来の研究は、より小さい探索エリアを定義し、ここで、インデックスは、所与のエリアへの探索に制限するようにデコーダをガイドするためにシグナリングされる。これは、デコーダ側での待ち時間を削減する。
本明細書で説明する汎用態様は、VVCのコンテキストにおいてTMPを実装することに焦点を当てており、他のツール並びに信号との相互作用が提案される。
本明細書で説明される汎用態様の基本的な考え方は、TMPをVVCに統合することであり、これらとの相互作用は以下のように定義される。
-ISP、MIP及びMRLとの相互作用
-変換ツール(MTS及びLFNST、暗黙的MTS)との相互作用
-組み合わされたインター及びイントラ予測(CIIP)との相互作用
影響を受けるエンコーダモジュールは、図3の変換モジュール(125)及びイントラ予測モジュール(160)である。
影響を受けるデコーダモジュールは、図4の逆変換モジュール(250)及びイントラ予測モジュール(260)である。
TMPフラグのシグナリング
TMPの使用を示すために、CUフラグがシグナリングされる。このフラグは、コーデック設計において異なるレベルでシグナリングすることができる。しかしながら、CUレベルのシグナリングは、他のイントラツールと整合している。VTMにおける現在のシグナリングは以下の通りである。
-MIPフラグ(intra_mip_flag)が、MIPの使用を示すために最初にシグナリングされる
-MIPが使用されない場合、MRLフラグ(intra_mip_flag)が、MRLの使用を示すためにシグナリングされる。
-MRLが使用されない場合、ISPフラグ(intra_subpartitions_mode_flag)が、ISPの使用を示すためにシグナリングされる。
-MRLが使用されない(MIP又はISPが使用され得る)場合、予測モードが更にシグナリングされる。
対応するシンタックスを以下に示す。
TMPに対して、以下の考察が行われる。
-MIPはTMPとともに使用することができないので、MIPはシグナリングされるべきではない。
-MRLはTMPとともに使用することができないので、MRLはシグナリングされるべきではない。
-TMPはシグナリングされるべきモードを有していないので、イントラ予測モードはシグナリングされるべきではない。
-ISPは、各サブ分割が異なるマッチングテンプレートを使用するTMPとともに使用することができる。
したがって、TMPフラグは、使用される他の全てのフラグがシグナリングされない場合に0であると推測されるように、MIPフラグの前にシグナリングされ得る。対応する変更は、以下の通りである(追加された部分は影付きである)。
ここで、sps_TMP_enabled_flagは、TMPをアクティブ化するためのSPSレベルフラグであり、intra_TMP_flagは、TMPの使用をシグナリングするためのCUレベルフラグである。MaxTMPSizeは、TMPの最大許容寸法である。SPSレベルで固定されるか又はシグナリングされる。
この方法では、ISPとTMPを併用することができない。これは、組み合わせを可能にするように変更することができる。これは、TMPフラグをISPフラグの前又は後のいずれかに隣接してシグナリングすることによって行われる。それは、MRL及びMIPが使用されないときにのみシグナリングされるべきである。以下の修正が行われる。
両方の方法について、領域ベースのテンプレートマッチング予測の場合、追加のシンタックスがシグナリングされ得ることに留意されたい。これは、信号intra_TMP_flagの直後にシグナリングされる。
SPSフラグに加えて、一般的な制約フラグがTMPのために定義され得る。これは、非アクティブ化されているかどうかを示すためにより高いレベルのフラグを有するVVCのほとんどのコーディングツールと同様である。以下のフラグを仕様に追加することができる。
gci_no_tmp_constraint_flagは、1に等しいとき、sps_TMP_enabled_flagが0に等しいことを示す。
変換ツールとの相互作用:
TMPは、MTS及び/又はLFNSTとともに許容され得る。しかしながら、LFNSTは、変換カーネルの選択のためのイントラ予測モードに依存する。MIPと同じアプローチを使用することができる。すなわち、変換行列選択の場合、MIPは、平面イントラ予測とみなされる。したがって、TMPもこのように考えることができる。すなわち、TMPが使用されるとき、平面モードに対応するLFNST変換カーネルが使用される。
更に、LFNSTはクロマ成分に使用されるので、予測モードは変換行列を選択するために必要とされる。具体的には、CCLMの場合、予測モードは、MIPがルーマ成分に使用される場合、平面モードとみなされる。TMPがルーマ成分に使用される場合、同じことがここで行われる。
MTSの場合、暗黙的MTSとして知られる特別なモードがあり、このモードでは、MTSフラグはシグナリングされないが、変換選択はブロック寸法から推定される。しかしながら、MIPモード又はLFNSTに対する変換選択は、DCT-IIである。TMPについても同様である。
作業ドラフトに対する対応する変更は以下の通りである。
エンコーダの実行時間を短縮するために、MTSはTMPとともに禁止され得る。すなわち、TMPが予測モードとして使用されるとき、エンコーダは、全ての可能なMTSモード(DCT-II、DST-VII、及びDCT-VIII)を試みず、デコーダにいかなる情報もシグナリングしない。代わりに、固定された変換選択を採用することができる。第1の選択は、垂直方向及び水平方向にDCT-IIを使用することである。別の選択は、ISPモードに使用される暗黙的な変換選択を採用することである。すなわち、垂直変換及び水平変換は以下のように選択される。
TrHor=幅≦16?DST7:DCT2
TrVer=高さ≦16?DST7:DCT2
MPMとの相互作用
最確モード(most probable mode、MPM)は、イントラ予測モードをシグナリングする効果的な方法である。MPMリスト生成は、現在の予測モードの知識を必要とする。TMPが使用される場合、それはMPMリスト生成のための平面モードとみなされ得る。
ルーマ成分及びクロマ成分に対するTMP
概して、TMPは、ルーマ成分のみに使用される。しかしながら、それは、ルーマ成分及びクロマ成分を使用するように拡張され得る。これを可能にするために、以下のオプションが使用される。
-ルーマ成分及びクロマ成分の両方に対してTMPの使用をシグナリングするために、単一のフラグが使用される。
-テンプレートマッチングは、ルーマ成分に対してのみ実行され、マッチングブロックの同じ位置は、クロマ成分に対して使用される(クロマ形成に従った適切なスケーリング、例えば4:2:0を用いて)。これは、全ての成分に対する探索の繰り返しを回避することによって複雑さを軽減するためである。
CIIPとの相互作用
CIIPは、イントラ予測とインター予測の両方を組み合わせる予測モードである。イントラ部分は平面モードであり、インター部分はレギュラーマージモードである。TMPは、イントラ予測部分(平面モード)を置き換えるために使用することができる。
2つの予測信号の重み付けも修正することができる。現在、近傍のコーディングユニットに応じて、重みは以下のように定義される。
代わりに、インター部分及びイントラ部分の等しい重み付けを代わりに使用することができる。
IBCとの相互作用
多くの場合、TMP及びIBCの両方の使用は、両方とも画像の再構成された部分内を探索することによってイントラ予測を実行するので、有用ではない。したがって、IBC及びTMPの両方が一緒にアクティブ化されるべきではないことが提案される。これは、それらのSPSフラグを互いに条件付けることによって行うことができる。すなわち、IBCのSPSフラグが1である場合、TMPのSPSフラグは0に推定されるものとする。その逆もまた可能であり、TMPのSPSフラグが1である場合、IBCのSPSフラグは0に推定されるものとする。
そのような方法の例は、以下のシンタックス表に与えられる(IBCでのTMPの条件付け)。
別の例(TMPでのIBCの条件付け):
本明細書で説明する汎用態様下での方法500の一実施形態が図5に示されている。この方法は開始ブロック501で始まり、制御はブロック510に進み、少なくとも第1及び第2のコーディングツールがビデオブロック上で使用されることをシグナリングする。制御は、ブロック510からブロック520に進み、当該第1及び第2のコーディングツールを使用してビデオブロックを符号化する。
本明細書で説明する汎用態様下での方法600の一実施形態が図6に示されている。この方法は、開始ブロック601で始まり、制御はブロック610に進み、ビデオビットストリームを解析して、ビデオブロックのための少なくとも第1及び第2の復号ツールを決定する。制御はブロック610からブロック620に進み、当該ビデオブロック上で使用されるべき当該少なくとも第1及び第2のコーディングツールを使用してビデオブロックを復号する。
図7は、近傍のサンプルに依存するパラメトリックモデルに基づくコーディングモードの簡略化を使用してビデオデータを符号化、復号、圧縮、又は解凍するための装置700の一実施形態を示す。この装置は、プロセッサ710を備えており、少なくとも1つのポートを通じてメモリ720に相互接続することができる。プロセッサ710及びメモリ720は両方とも、外部接続への1つ以上の追加の相互接続を有することもできる。
更にプロセッサ710は、ビットストリームにおいて情報を挿入又は受信し、説明した態様のいずれかを使用して圧縮、符号化、又は復号するように構成されている。
単一テンプレート予測
単一マッチングブロックが最良の圧縮効率を提供することが観察される。すなわち、N個の類似テンプレートを探索する代わりに、1つの類似テンプレートが見出され、予測信号として使用される。このプロセスは、図9に例示されている。
可変探索範囲
最適なマッチングテンプレート(複数のテンプレート)を見出すための探索範囲は、可変又は固定として設定することができる。最大の複雑さに関連する最大コーディング利得は、全範囲が使用されるときである。すなわち、テンプレートは、現在のフレームの再構成された部分全体内で見出される。しかしながら、複雑さを軽減するために、より小さい探索範囲を使用することができる。ある例を図10に示す。
最大コーディング利得は、1024に等しい探索範囲で達成できることが分かっている。しかしながら、小さい解像度を有するビデオシーケンスの場合、より小さい探索範囲を使用することができる。また、64の探索範囲は、複雑さと利得との間に妥当なトレードオフを有することが分かっている。したがって、この実施形態では、探索範囲を、64、128、256、1024、又はフルのいずれかに定義する。ハイレベルシンタックス要素は、探索範囲の値をシグナリングするために使用され得る。
CTU内の探索範囲
探索範囲は、現在のCTUの内部で許容され得る。すなわち、現在のブロック(PU/CU)がより大きいCTUの内部にあるとき、予測候補は、CTUの内部だけでなくCTUの外部でも探索され得る。しかしながら、CTUの内部の全ての部分が復号されるわけではないため、予測候補として使用することができない。
現在のCTU内の探索を許容するために、現在のブロックの左上に位置する候補のみが使用される。これは図12に示されている。より暗い探索範囲は、全てのピクセルが復号され再構成される現在のCTUの内部である。CTUの外部の探索範囲も使用され、最小のテンプレート差分を有する最良の候補が予測ブロックとして使用される。
テンプレートマッチングCABACコンテキスト導出
テンプレートマッチングのフラグをシグナリングするために、CABACのための適切なコンテキスト導出が使用されなければならない。この実施形態では、MIPの場合と同じことに従う。これは、VVCの設計と一致すべきである。以下の4つのコンテキストが使用される。
1-コンテキストを0で初期化する。
2-左CUがテンプレートマッチング予測を使用する場合、1を加える。
3-上のCUがテンプレートマッチング予測を使用する場合、1を加える。
4-幅が高さの2倍より大きい場合、又は高さが幅の2倍より大きい場合、コンテキストを3に設定する。
すなわち、4つのカテゴリは以下の通りである。
1-近傍CUがTMPを使用していない。
2-1つの近傍CUがTMPを使用している。
3-2つの近傍CUがTMPを使用している。
4-CU形状が1つの寸法において細長い。
第4のコンテキストが使用されない場合、類似の方法を使用することができる。
可変最大サイズ
TMPを使用する最大CUサイズは、可変であり得る。最大16×16CUが、軽減された複雑さで最大のコーディング利得を提供することが分かっている。最大寸法の値は、高レベルシンタックス要素を用いてシグナリングされ得るか、又は16として保たれ得る。
除去された冗長シグナリング
TMPフラグのシグナリングは、場合によってはTMPが使用できないことが知られているので、冗長であり得る。この例は、CUサイズがTMPの最大許容サイズより大きい場合、前の実施形態(可変最大サイズ)を考慮する場合、又は類似のテンプレートを探索するのに十分な再構成部分がない場合である。例えば、サイズ64×64のCUの場合、再構成部分は64×64+テンプレートのサイズ未満であり、TMPは使用できず、したがって、そのフラグはシグナリングされず、0であると推測されるものとする。
現在のCTUの外部の探索範囲
探索範囲は、現在のCTUを含まないように簡略化され得る。現在のCTUを探索範囲に含めることによって改善されたコーディング利得がないことが観察される。したがって、簡略化ステップとして、この領域を探索範囲から除去することが提案される。
SIMD最適化
テンプレート差分を計算するためにSIMDを採用することによって、実行時間を短縮することができる。すなわち、2つのテンプレートのピクセル間の差分は、SIMD最適化を介して並列に行うことができる。
SIMD演算の場合、比較の各ラインが4の倍数であることが必要である。図13において、VVCではブロックサイズが4の倍数であるので、ブロック寸法(b_width及びb_height)は常に4の倍数であると仮定される。したがって、4の倍数の比較を行うためには、R1及びR2(図13)の線幅は4の倍数でなければならない。
1-R1:b_width+t_widthは4の倍数でなければならない。したがって、t_widthは4の倍数でなければならない。
2-R2:T_widthは4の倍数でなければならない。したがって、T_widthは4の倍数でなければならない。
そうでない場合、テンプレート左上部分は、現在のブロックと同じ寸法を有するように除去される。これは図14に示されている。
そうすることによって、R1幅はb_width(常に4の倍数)に等しく、R2は、差を計算する前に転置され、最終的にb_heigh(常に4の倍数)の幅を有することになる。本方法は、テンプレートサイズに関係なくSIMD最適化を提供する。
IBC及びTMPのための相互排他的な探索範囲
本実施形態では、IBC及びTMPは異なる参照領域を使用する。通常、IBCは、1つのCTUエリアを参照として使用する。したがって、TMPは、すでに再構成されたピクチャの残りを参照として使用すべきである。
サイズ32×32又は64×64のCTUの場合、IBCは、2つ以上のCTUエリアを参照として使用することができるが、常に現在のコーディングユニットと同じCTUライン上で使用することができ、この場合、TMPは、現在のCTUラインを除く全ての再構成されたピクチャを参照として使用すべきである。
IBC及びTMPに対する相互排他的な探索範囲の例が図11に示されている。
本明細書で説明する実施形態は、ツール、特徴、例、モデル、アプローチなどを含む、様々な態様を含む。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、多くの場合、限定的に聞こえ得る方法で記載されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。更に、これらの態様はまた同様に、以前の出願に記載の態様と組み合わせ、かつ置き換えすることができる。
本出願において説明され、企図される態様は、多くの異なる形態で実装することができる。図3、図4、及び図8は、いくつかの実施形態を提供するが、他の実施形態も企図されており、図3、図4、及び図8の説明は、実装形態の範囲を制限しない。態様のうちの少なくとも1つは、概して、ビデオ符号化及び復号に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び別の態様は、方法、装置、説明した方法のいずれかに従ってビデオデータを符号化又は復号するための命令を自体に記憶したコンピュータ可読記憶媒体、及び/又は、説明した方法のいずれかに従って生成されたビットストリームを自体に記憶したコンピュータ可読記憶媒体、として実装することができる。
本出願では、「再構成された(reconstructed)」及び「復号された(decoded)」という用語は、交換可能に使用され得、「ピクセル(pixel)」及び「サンプル(sample)」という用語は、交換可能に使用され得、「画像(image)」、「ピクチャ(picture)」、及び「フレーム(frame)」という用語は、交換可能に使用され得る。通常、必ずしもそうではないが、「再構成された」という用語は、エンコーダ側で使用され、一方、「復号された」という用語は、デコーダ側で使用される。
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。
本文書に説明されている様々な方法及び他の態様を使用して、図10及び図11に示されるようなビデオエンコーダ100及びビデオデコーダ200のモジュール、例えば、イントラ予測モジュール、エントロピコーディングモジュール、及び/又は復号モジュール(160、360、145、330)を修正することができる。更に、本開示の態様は、VVC又はHEVCに限定されず、例えば、既存のものであれ将来進展するものであれ、他の規格及び勧告、またこのようないかなる規格及び勧告(VVC及びHEVCを含む)の拡張にも適用することができる。特に断りのない限り、又は技術上除外されない限り、本出願に記載の態様は、個々に、又は組み合わせて使用することができる。
本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
図3は、エンコーダ100を例示している。このエンコーダ100の変形形態も企図されるが、以下では、分かりやすいように、予想される全ての変形形態を説明せずに、エンコーダ100について説明される。
符号化される前に、ビデオシーケンスは、符号化前処理(101)、例えば、カラー変換を入力カラーピクチャに適用すること(例えば、RGB4:4:4からYCbCr4:2:0への変換)、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する(例えば、色成分のうちの1つのヒストグラム等化を使用して)ことを経得る。メタデータを前処理に関連付け、ビットストリームに付加することができる。
エンコーダ100では、以下に記載のように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、CUという単位に分けられ(102)、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測(160)を実行する。インターモードでは、動き推定(175)及び動き補償(170)が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し(105)、例えば、予測モードフラグによってイントラ/インターの決定を示す。予測残差は、例えば、元の画像ブロックから予測されたブロックを減算することによって(110)計算される。
その予測残差は、次いで、変換され(125)、量子化される(130)。量子化された変換係数、並びに動きベクトル及び他のシンタックス要素は、ビットストリームを出力するためにエントロピコード化される(145)。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コード化される。
エンコーダは、符号化されたブロックを復号して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号するために逆量子化され(140)、逆変換される(150)。復号された予測残差と予測されたブロックとを組み合わせて(155)、画像ブロックが再構成される。ループ内フィルタ(165)は、例えば、符号化アーチファクトを低減するための非ブロック化/サンプル適応オフセット(Sample Adaptive Offset、SAO)()フィルタリングを実行するために、再構成されたピクチャに適用される。フィルタリングされた画像は、参照ピクチャバッファ(180)に記憶される。
図4は、ビデオデコーダ200のブロック図を示している。デコーダ200では、以下に説明する通り、ビットストリームが、デコーダ要素によって復号される。ビデオデコーダ200は、概して、図3に説明したような符号化パスとは逆向きの復号パスを実行する。エンコーダ100もまた、概して、ビデオデータを符号化することの一部としてビデオ復号を実行する。
特に、デコーダの入力は、ビデオビットストリームを含み、これは、ビデオエンコーダ100によって生成され得る。ビットストリームは、まず、変換係数、動きベクトル、及び他のコード化情報を取得するために、エントロピ復号される(230)。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号されたピクチャ分割情報に従ってピクチャを分割し得る(235)。変換係数は、予測残差を復号するために、逆量子化され(240)、逆変換される(250)。復号された予測残差と予測されたブロックとを組み合わせて(255)、画像ブロックが再構成される。イントラ予測(260)又は動き補償予測(すなわち、インター予測)(275)から、予測ブロックを得ることができる(270)。ループ内フィルタ(265)は、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
復号されたピクチャは、復号後処理(285)、例えば、逆カラー変換(例えば、YcbCr4:2:0からRGB4:4:4への変換)、又は符号化前処理(101)において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。
図8は、様々な態様及び実施形態が実装されているシステムの一例のブロック図を示している。システム1000は、以下に記載の様々な構成要素を含むデバイスとして具体化することができ、本明細書に記載の態様のうちの1つ以上を行うように構成されている。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム1000の要素は、単独で又は組み合わせて、1つの集積回路(integrated circuit、IC)、複数のIC、及び/又は別個の構成要素において具体化することができる。例えば、少なくとも1つの実施形態において、システム1000の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は個別の構成要素にわたって分散している。様々な実施形態では、システム1000は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通して、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム1000は、本明細書に記載される態様のうちの1つ以上を実装するように構成されている。
システム1000は、例えば、本明細書に記載される様々な態様を実装するために、内部にロードされた命令を実行するように構成された少なくとも1つのプロセッサ1010を含む。プロセッサ1010は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム1000は、少なくとも1つのメモリ1020(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム1000は、記憶デバイス1040を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス1040は、非限定的な例として、内部記憶デバイス、添付された記憶デバイス(取り外し可能及び取り外し不可能な記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
システム1000は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール1030を含み、エンコーダ/デコーダモジュール1030は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール1030は、符号化機能及び/又は復号機能を果たすデバイスに含めることができるモジュールに相当する。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。更に、エンコーダ/デコーダモジュール1030は、システム1000の別個の要素として実装することができるか、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ1010内に組み込むことができる。
本明細書に記載の様々な態様を行うためにプロセッサ1010又はエンコーダ/デコーダ1030に読み込まれるプログラムコードは、記憶デバイス1040に格納することができ、続いて、プロセッサ1010による実行のためにメモリ1020に読み込むことができる。様々な実施形態によれば、プロセッサ1010、メモリ1020、記憶デバイス1040、及びエンコーダ/デコーダモジュール1030のうちの1つ以上は、本明細書に記憶のプロセスの実行中に様々なアイテムのうちの1つ以上を記憶することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの一部分、ビットストリーム、マトリクス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
いくつかの実施形態では、プロセッサ1010及び/又はエンコーダ/デコーダモジュール1030の内部のメモリは、命令を記憶し、かつ符号化中又は復号中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス(例えば、処理デバイスは、プロセッサ1010又はエンコーダ/デコーダモジュール1030であり得る)の外部のメモリが、これらの機能のうちの1つ以上に使用される。外部メモリは、メモリ1020及び/又は記憶デバイス1040、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを記憶する。少なくとも1つの実施形態では、RAMなどの高速な外部の動的揮発性メモリは、MPEG-2(MPEGはMoving Picture Experts Groupと称され、MPEG-2はISO/IEC13818とも称され、13818-1はH.222としても既知であり、13818-2はH.262としても既知である)、HEVC(HEVCは高効率映像符号化と称され、H.265及びMPEG-H Part2としても既知である)、又はVVC(JVETによって開発中の新しい標準である多用途ビデオコーディング)などのビデオの符号化動作及び復号動作のための作業メモリとして使用される。
システム1000の要素への入力は、ブロック1130に示される様々な入力デバイスを通して、提供することができる。このような入力デバイスには、(i)例えば、放送事業者による放送全体にわたり送信されるRF信号を受信する無線周波数(Radio Frequency、RF)部分、(ii)コンポーネント(Component、COMP)入力端子(又はCOMP入力端子セット)、(iii)ユニバーサルシリアルバス(Universal Serial Bus、USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が含まれるが、これらに限定されない。図8には示されていないが、他の例としては、コンポジットビデオが挙げられる。
様々な実施形態では、ブロック1130の入力デバイスは、当技術分野で知られているように、関連するそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある帯域の周波数に帯域制限することとも称される)と、(ii)選択された信号をダウンコンバートすることと、(iii)(例えば)特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い帯域の周波数に再び帯域制限することと、(iv)ダウンコンバートされ、帯域制限された信号を復調することと、(v)エラー訂正を実行することと、(vi)所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラー訂正器、及びデマルチプレクサを含む。RF部分は、様々なこれらの機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、RF部分及びその関連する入力処理要素は、有線(例えば、ケーブル)媒体を介して送信されるRF信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
加えて、USB端子及び/又はHDMI端子は、システム1000をUSB接続及び/又はHDMI接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な側面、例えば、リード-ソロモンエラー訂正は、例えば、必要に応じて、別個の入力処理IC内で実装する、又はプロセッサ1010内で実装することができることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内、又はプロセッサ1010内で実装することができる。復調され、エラー訂正され、逆多重化されたストリームは、例えば、プロセッサ1010と、出力デバイス上に提示するために必要に応じてデータストリームを処理するためにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ1030とを含む、様々な処理要素に提供される。
システム1000の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続配設、例えば、Inter-IC(I2C)バス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信することができる。
システム1000は、通信チャネル1060を介して他のデバイスとの通信を可能にする通信インターフェース1050を含む。通信インターフェース1050は、通信チャネル1060介してデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース1050は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル1060は、例えば、有線媒体及び/又は無線媒体内で実装することができる。
データは、様々な実施形態では、Wi-Fiネットワーク、例えば、IEEE802.11(Institute of Electrical and Electronics Engineers(IEEE)は、米国電気電子技術者協会を指す)などの無線ネットワークを使用して、システム1000にストリーミングされるか、又は別様に提供される。これらの実施形態のWi-Fi信号は、Wi-Fi通信に適合されている通信チャネル1060及び通信インターフェース1050上で受信される。これらの実施形態の通信チャネル1060は、典型的に、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック1130のHDMI接続を介してデータを配信するセットトップボックスを使用して、システム1000にストリーミングデータを提供する。更に他の実施形態では、入力ブロック1130のRF接続を使用して、システム1000にストリーミングデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。追加的に、様々な実施形態は、Wi-Fi以外の無線ネットワーク、例えば、セルラネットワーク又はBluetoothネットワークを使用する。
システム1000は、ディスプレイ1100、スピーカ1110、及び他の周辺デバイス1120を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ1100は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(organic light-emitting diode、OLED)ディスプレイ、湾曲ディスプレイ、及び/又は折り畳み可能なディスプレイのうちの1つ以上を含む。ディスプレイ1100は、テレビ、タブレット、ラップトップ、携帯電話(移動電話)、又は別のデバイス用とすることができる。ディスプレイ1100はまた、他のコンポーネントと統合され得るか(例えば、スマートフォンのように)、又は別個に(例えば、ラップトップのための外部モニタ)され得る。他の周辺デバイス1120としては、実施形態の様々な実施例において、スタンドアロンデジタルビデオディスク(又はデジタル多用途ディスク)(両方の用語について、digital versatile disc、DVR)、ディスクプレーヤ、ステレオシステム、及び/又は照明システム、のうちの1つ以上が挙げられる。様々な実施形態は、システム1000の出力に基づいて機能を提供する1つ以上の周辺デバイス1120を使用する。例えば、ディスクプレーヤは、システム1000の出力を再生する機能を実行する。
様々な実施形態では、制御信号が、システム1000と、ディスプレイ1100、スピーカ1110、又は他の周辺デバイス1120との間で、AV.Link、家庭用電子制御(Consumer Electronics Control、CEC)、又はユーザ介入の有無にかかわらずデバイス間の制御を可能にする他の通信プロトコルなどのシグナリングを使用して通信される。出力デバイスは、それぞれのインターフェース1070、1080、及び1090を通した専用接続を介してシステム1000に通信可能に結合することができる。代替的に、出力デバイスは、通信インターフェース1050を介して、通信チャネル1060を使用してシステム1000に接続することができる。ディスプレイ1100及びスピーカ1110は、例えば、テレビなどの電子デバイスにおいてシステム1000の他の構成要素と1つの単位に一体化され得る。様々な実施形態において、ディスプレイインターフェース1070は、例えば、タイミングコントローラ(timing controller、T Con)チップなどのディスプレイドライバを含む。
例えば、入力1130のRF部が別個のセットトップボックスの一部である場合、ディスプレイ1100及びスピーカ1110は、代替的に、他の構成要素のうちの1つ以上とは別個とすることができる。ディスプレイ1100及びスピーカ1110が外部構成要素である様々な実施形態では、例えば、HDMIポート、USBポート、又はCOMP出力を含む専用の出力接続を介して出力信号を提供することができる。
実施形態は、プロセッサ1010によって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実装されるコンピュータソフトウェアによって行うことができる。非限定的な例として、1つ以上の集積回路によって実施形態を実装することができる。メモリ1020は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリブ-バブルメモリなどの相応しいいかなるデータストレージ技術を使用しても実装することができる。プロセッサ1010は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、特殊目的コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。
様々な実装形態は、復号することを含む。本出願で使用される「復号」は、例えば、表示するのに適した最終出力を生成するために、受信した符号化シーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスには、例えば、エントロピ復号、逆量子化、逆変換、及び差動復号など、通常、デコーダによって行われるプロセスのうちの1つ以上が含まれる。様々な実施形態において、このようなプロセスには、更に又は代替として、本出願に記載の様々な実装形態のデコーダによって行われるプロセスも含まれる。
更なる例として、一実施形態では、「復号」とは、エントロピ復号のみを指し、別の実施形態では、「復号」とは、差動復号のみを指し、別の実施形態では、「復号」とは、エントロピ復号と差動復号との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
様々な実装形態は、符号化を伴う。本出願で使用される「符号化」は、「復号」に関する上記の説明と同様に、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスは、例えば、分割、差動符号化、変換、量子化、及びエントロピ符号化など、エンコーダによって典型的に実行されるプロセスのうちの1つ以上を含む。様々な実施形態において、このようなプロセスには、更に又は代替的に、本出願に記載の様々な実装形態のエンコーダによって行われるプロセスが含まれる。
更なる例として、一実施形態では、「符号化」とは、エントロピ符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化とエントロピ符号化との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すこと目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
本明細書で使用されるシンタックス要素は、説明上の用語であることに留意されたい。したがって、これらは他のシンタックス要素名の使用を排除するものではない。
図がフローチャートとして提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフローチャートも提供するものと理解されたい。
様々な実施形態が、パラメトリックモデル又はレート歪み最適化に関連し得る。具体的には、符号化プロセス中に、レートと歪みとの間のバランス又はトレードオフは、通常、多くの場合、計算複雑性の制約を与えるものと考えられる。レート歪み最適化(Rate Distortion Optimization、RDO)メトリックを通して、あるいは最小二乗平均(Least Mean Square、LMS)、絶対誤差平均(Mean of Absolute Errors、MAE)、又は他のこのような測定を通して、これを測定することができる。レート歪み最適化は、通常、レートと歪みとの加重和であるレート歪み関数を最小化するように定式化される。レート歪み最適化問題を解くには、異なるアプローチがある。例えば、これらのアプローチは、全ての考慮されるモード又は符号化パラメータ値を含む全ての符号化オプションの広範なテストに基づき得、それらの符号化コスト、並びに符号化及び復号後の再構成された信号の関連する歪みの完全な評価を伴う。符号化複雑性を抑えるために、特に、再構成された信号ではなく、予測又は予測残差信号に基づく近似歪みの計算とともに、より素早い手法を使用することもできる。考えられる符号化選択肢の一部のみに対して近似歪みを使用し、他の符号化選択肢に対しては完全な歪みを使用することなどによって、これらの2つの手法の混合を使用することもできる。他の手法では、考えられる符号化選択肢部分集合のみを評価する。より一般的には、多くのアプローチは、最適化を実行するために様々な技術のいずれかを採用するが、最適化は、必ずしもコード化コスト及び関連する歪みの両方の完全な評価ではない。
本明細書に記載の実装形態及び態様は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。方法は、例えば、プロセッサにおいて実施することができ、プロセッサとは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブルロジックデバイスを含む一般的な処理デバイスを指す。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/携帯情報端末(portable/personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、またそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、また他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの操作時に、何らかの形で関与する。
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、複数の変換、符号化モード又はフラグのうちの特定の1つをシグナリングする。このように、ある実施形態では、同じ変換、パラメータ又はモードが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる(明確なシグナリング)。これに対し、デコーダがすでにその特定のパラメータとともに他のパラメータも有する場合は、単にデコーダがその特定のパラメータを知ること、及びそれを選択することを可能にするように、送信を行わないシグナリング(暗黙的なシグナリング)を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方法で達成することができることが理解されよう。例えば、1つ以上のシンタックス要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用されることがある。
当業者には明白であるように、実装形態は、例えば、格納され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実行するための命令、又は説明されている実装形態の1つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に格納することができる。
前述のセクションは、様々な請求項のカテゴリ及びタイプにわたって、いくつかの実施形態を説明している。これらの実施形態の特徴は、単独で、又は任意の組み合わせで提供することができる。更に、実施形態は、様々な特許請求の範疇及びタイプにわたって、以下の特徴、デバイス、又は態様のうちの1つ以上を、単独で、又は任意の組み合わせにおいて、含むことができる。
・少なくとも第1及び第2のコーディングツールがビデオブロック上で使用され得ることをシグナリングし、当該第1及び第2のコーディングツールを使用してビデオブロックを符号化する。
・ビデオビットストリームを解析して、ビデオブロックのための少なくとも第1及び第2の復号ツールを決定し、当該ビデオブロック上で使用されるべき当該少なくとも第1及び第2のコーディングツールを使用してビデオブロックを復号する。
・テンプレートマッチング予測を含む第1のコーディング/復号ツールと、行列イントラ予測、イントラサブ分割、低周波非分離可能変換、多重変換選択、及びイントラサブ分割のうちの1つを含む第2のコーディング/復号ツールとを有する上記実施形態のいずれか。
・予測信号として使用するために単一マッチングブロックを使用する上記実施形態のいずれか。
・可変又は固定探索範囲を使用する上記実施形態のいずれか。
・テンプレートマッチングのフラグをシグナリングするCABACのコンテキスト導出を伴う上記実施形態のいずれか。
・TMPを使用するサイズを有するコーディングユニットを有する上記実施形態のいずれも可変であり得る。
・冗長シグナリングが除去された上記実施形態のいずれか。
・現在のコーディングツリーユニットの外部の探索範囲を有する上記実施形態のいずれか。
・異なる参照領域を使用するIBC及びTMPを有する上記実施形態のいずれか。
・非アクティブ化を示すためにTMP用の一般的制約フラグを使用する。
・平面モードに対応するLFNST変換カーネルが使用されるTMPを使用する。
・テンプレートマッチング予測による多重変換選択を許容しない。
・ルーマ成分及びクロマ成分のためにTMPを使用し、シンタックスが、ルーマ成分とクロマ成分の両方のためのTMPの使用をシグナリングするために使用される。
・クロマ成分のために使用されるマッチングブロックの同じ位置を有するルーマ成分に対するテンプレートマッチングを使用する。
・コーディングツリーユニットの内部及び外部の予測候補を許容する。
・テンプレート差分の計算にSIMDを使用する。
・記載されるシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号。
・記載される実施形態のうちのいずれかに従って生成される情報を運ぶシンタックスを含むビットストリーム又は信号。
・記載される実施形態のいずれかにより、作り出しかつ/又は送信しかつ/又は受信しかつ/又は復号する。
・記載される実施形態のいずれかによる、方法、プロセス、装置、命令を格納する媒体、データを記憶する媒体、又は信号。
・エンコーダによって使用されることに対応する様態で、デコーダが復号情報を決定することを可能にするシンタックス要素をシグナリングに挿入する。
・記載されるシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号を作り出しかつ/又は送信しかつ/又受信しかつ/又は復号する。
・記載される実施形態のいずれかによる、変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・記載される実施形態のいずれかにより、変換方法判定を下し、結果としてもたらされた画像を表示する(例えば、モニタ、スクリーン、などのタイプのディスプレイを使用して)表示する、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・符号化済み画像を含む信号を受信するように、チャネルを選択し、帯域制限し、又はチューニングし(例えば、チューナを使用して)、記載される実施形態のいずれかにより変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレット、又は他の電子デバイス。
・符号化済み画像を含む信号を放送全体にわたって受信し、変換方法を行う、TV、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。

Claims (11)

  1. 方法であって、
    少なくとも第1及び第2のコーディングツールがビデオブロック上で使用されることをシグナリングすることと、
    前記第1及び第2のコーディングツールを使用して前記ビデオブロックを符号化することと、を含む、方法。
  2. 装置であって、
    プロセッサを備え、前記プロセッサは、
    少なくとも第1及び第2のコーディングツールがビデオブロック上で使用されることをシグナリングし、かつ
    前記第1及び第2のコーディングツールを使用して前記ビデオブロックを符号化するように構成されている、装置。
  3. 方法であって、
    ビデオブロックのための少なくとも第1及び第2の復号ツールを決定するためにビデオビットストリームを解析することと、
    前記ビデオブロックに対して使用されるべき前記少なくとも第1及び第2のコーディングツールを使用して前記ビデオブロックを復号することと、を含む、方法。
  4. 装置であって、
    プロセッサを備え、前記プロセッサは、
    ビデオブロックのための少なくとも第1及び第2の復号ツールを決定するためにビデオビットストリームを解析し、かつ
    前記ビデオブロックに対して使用されるべき前記少なくとも第1及び第2のコーディングツールを使用して前記ビデオブロックを復号するように構成されている、装置。
  5. 一般的な制約フラグが、非アクティブ化を示すためにTMPに使用される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  6. 平面モードに対応するLFNST変換カーネルが使用される場合、TMPが使用される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  7. テンプレートマッチング予測による多重変換選択を許容しない、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  8. TMPは、ルーマ成分及びクロマ成分のために使用され、シンタックスは、ルーマ成分とクロマ成分の両方のためのTMPの使用をシグナリングするために使用される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  9. テンプレートマッチングは、ルーマ成分に対して使用され、マッチングブロックの同じ位置は、クロマ成分に使用される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  10. コーディングツリーユニットの内部及び外部からの予測候補が許容される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。
  11. テンプレート差分の計算にSIMDが使用される、請求項1若しくは3に記載の方法、又は請求項2若しくは4に記載の装置。

JP2023518908A 2020-09-28 2021-09-20 多用途ビデオコーディングのためのテンプレートマッチング予測 Pending JP2023543985A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP20306105.6 2020-09-28
EP20306105 2020-09-28
EP20306564.4 2020-12-15
EP20306564 2020-12-15
EP21305219 2021-02-24
EP21305219.4 2021-02-24
PCT/EP2021/075838 WO2022063729A1 (en) 2020-09-28 2021-09-20 Template matching prediction for versatile video coding

Publications (1)

Publication Number Publication Date
JP2023543985A true JP2023543985A (ja) 2023-10-19

Family

ID=77989807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023518908A Pending JP2023543985A (ja) 2020-09-28 2021-09-20 多用途ビデオコーディングのためのテンプレートマッチング予測

Country Status (6)

Country Link
US (1) US20230396805A1 (ja)
EP (1) EP4218240A1 (ja)
JP (1) JP2023543985A (ja)
CN (1) CN116195254A (ja)
MX (1) MX2023003383A (ja)
WO (1) WO2022063729A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195824A1 (ko) * 2022-04-08 2023-10-12 한국전자통신연구원 영상 부호화/복호화를 위한 방법, 장치 및 기록 매체
WO2024010705A1 (en) * 2022-07-06 2024-01-11 Qualcomm Incorporated High-level syntax control flags for template matching-related coding tools in video coding
CN115002463B (zh) * 2022-07-15 2023-01-13 深圳传音控股股份有限公司 图像处理方法、智能终端及存储介质
WO2024012533A1 (en) * 2022-07-15 2024-01-18 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10880564B2 (en) * 2016-10-01 2020-12-29 Qualcomm Incorporated Transform selection for video coding
CN112292854A (zh) * 2018-06-18 2021-01-29 世宗大学校产学协力团 影像编码/解码方法及装置
WO2020118287A1 (en) * 2018-12-07 2020-06-11 Interdigital Vc Holdings, Inc. Managing coding tools combinations and restrictions

Also Published As

Publication number Publication date
EP4218240A1 (en) 2023-08-02
CN116195254A (zh) 2023-05-30
MX2023003383A (es) 2023-03-31
US20230396805A1 (en) 2023-12-07
WO2022063729A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
JP2022534999A (ja) 暗黙的多重変換選択の変換選択
JP2023543985A (ja) 多用途ビデオコーディングのためのテンプレートマッチング予測
US20210306632A1 (en) Scalar quantizer decision scheme for dependent scalar quantization
CN114208178A (zh) 用于视频编码和解码的二次变换
KR20210020915A (ko) 이미지 블록들의 비대칭 이진 파티셔닝에 기초한 비디오 인코딩 및 디코딩을 위한 방법 및 장치
CN113170210A (zh) 视频编码和解码中的仿射模式信令
WO2020106668A1 (en) Quantization for video encoding and decoding
CN113574887A (zh) 基于低位移秩的深度神经网络压缩
CN112806011A (zh) 改进的虚拟时间仿射候选
KR20210058846A (ko) 인트라 변환 코딩 및 광각 인트라 예측의 조화
JP2021528893A (ja) 可変重みを使用する複数参照イントラ予測
JP2024513873A (ja) 切り替え可能な補間フィルタを用いる幾何学的分割
US20230023837A1 (en) Subblock merge candidates in triangle merge mode
WO2022069331A1 (en) Karhunen loeve transform for video coding
JP2023516940A (ja) ローカルクロマ量子化パラメータ制御のための高レベルの制約フラグ
JP2024513657A (ja) ビデオエンコード及びデコードのためのテンプレートマッチング予測
KR20240072180A (ko) Isp 모드를 사용한 템플릿 기반 인트라 모드 도출(timd)의 확장
JP2024510433A (ja) ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク
KR20220057630A (ko) 코딩 툴들과의 변환 크기 상호작용들
KR20240088795A (ko) 디코더 측 화면내 모드 도출에서의 각도 이산화 개선
KR20220024643A (ko) 위치 의존적 인트라 예측 조합을 이용한 픽처 인코딩 및 디코딩을 위한 방법 및 디바이스
JP2022548495A (ja) 複数参照ラインイントラ予測を用いた最確モードのシグナリング
CN117501692A (zh) 用于视频编码和解码的模板匹配预测
KR20220052991A (ko) 스위칭가능한 보간 필터들
CN118120231A (zh) 改善解码器侧帧内模式导出中的角度离散化

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230404

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230726

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20231121