JP2023553997A - 複合インターイントラ予測モードのための適応変換 - Google Patents

複合インターイントラ予測モードのための適応変換 Download PDF

Info

Publication number
JP2023553997A
JP2023553997A JP2023535771A JP2023535771A JP2023553997A JP 2023553997 A JP2023553997 A JP 2023553997A JP 2023535771 A JP2023535771 A JP 2023535771A JP 2023535771 A JP2023535771 A JP 2023535771A JP 2023553997 A JP2023553997 A JP 2023553997A
Authority
JP
Japan
Prior art keywords
block
video
video block
inter
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023535771A
Other languages
English (en)
Inventor
マドゥー・ペリンガーサリー・クリシュナン
シン・ジャオ
シャン・リュウ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023553997A publication Critical patent/JP2023553997A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示は、複合インターイントラ予測モードのための変換構成及びシグナリングに関する。一例では、ビデオストリーム内のビデオブロックを復号するための方法が開示される。方法は、ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されると決定するステップを含むことができ、ビデオブロックは、CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出される。方法は、ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定するステップと、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを識別するステップと、少なくともデータ駆動変換カーネルを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを逆変換することによってビデオブロックの残差ブロックを生成するステップと、残差ブロック、少なくとも1つのインターイントラ予測重み付け構成、ビデオブロックの少なくとも1つの再構成されたインター予測ブロック、及び、ビデオブロックの少なくとも1つの再構成されたイントラ予測参照サンプルに基づいてビデオブロックを導出するステップとを更に含む。

Description

本開示は、一般に、高度なビデオコーディング/復号技術のセットに関し、より具体的には、複合インターイントラ予測モードのための変換技術及び構成に関する。
本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、その研究がこの背景技術のセクションに記載されている限りにおいて、またそれ以外の本出願の出願時に先行技術として認められない可能性のある説明の態様と共に、本開示に対する先行技術としては明示的にも暗示的にも認められない。
ビデオのコーディング及び復号は、動き補償を伴うインターピクチャ予測を使用して実行することができる。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080の輝度サンプル及び関連するフルサンプリング又はサブサンプリングされた色差サンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャ又は毎秒60フレームの固定又は可変のピクチャレート(或いはフレームレートとも呼ばれる)を有することができる。非圧縮ビデオは、ストリーミング又はデータ処理のための特定のビットレート要件を有する。例えば、1920×1080の画素解像度、60フレーム/秒のフレームレート、及び色チャネルあたり画素あたり8ビットで4:2:0のクロマサブサンプリングを有するビデオは、1.5Gbit/sに近い帯域幅を必要とする。1時間分のそのようなビデオは、600GByteを超える記憶空間を必要とする。
ビデオコーディング及びビデオ復号の1つの目的は、圧縮による非圧縮入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅及び/又は記憶空間要件を、場合によっては2桁以上低減させるのに役立ち得る。可逆圧縮と非可逆圧縮の両方、及びそれらの組み合わせを使用することができる。可逆圧縮とは、原信号の正確なコピーを復号プロセスによって圧縮された原信号から再構成することができる技術を指す。非可逆圧縮とは、元のビデオ情報がコーディング時に完全に保持されず、復号時に完全に回復できないコーディング/復号プロセスを指す。非可逆圧縮を使用する場合、再構成された信号は原信号と同一ではない可能性があるが、原信号と再構成された信号との間の歪みは、多少の情報損失はあっても、再構成された信号を意図された用途に役立てるのに十分なほど小さくなる。ビデオの場合、非可逆圧縮が多くの用途で広く採用されている。耐容できる歪みの量は用途に依存する。例えば、特定の消費者ビデオストリーミング用途のユーザは、映画やテレビ放送用途のユーザよりも高い歪みを容認し得る。特定のコーディングアルゴリズムによって達成可能な圧縮比を、様々な歪み耐性を反映するように選択又は調整することができる。すなわち、一般に、歪み耐性が高いほど、高い損失及び高い圧縮比をもたらすコーディングアルゴリズムが可能になる。
ビデオエンコーダ及びビデオデコーダは、例えば、動き補償、フーリエ変換、量子化、及びエントロピーコーディングを含む、幾つかの広範なカテゴリ及びステップからの技術を利用することができる。
ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプル又は他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャがサンプルのブロックに、空間的に細分される。サンプルの全てのブロックがイントラモードでコーディングされる場合、そのピクチャをイントラピクチャと呼ぶことができる。イントラピクチャ及び独立したデコーダリフレッシュピクチャなどのそれらの派生ピクチャは、デコーダ状態をリセットするために使用することができ、したがって、コーディングされたビデオビットストリーム及びビデオセッション内の最初のピクチャとして、又は静止画像として使用することができる。次いで、イントラ予測後のブロックのサンプルに周波数領域への変換を施すことができ、そのように生成された変換係数をエントロピーコーディングの前に量子化することができる。イントラ予測は、変換前領域におけるサンプル値を最小化する技術を表す。場合によっては、変換後のDC値が小さいほど、及びAC係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップサイズで必要とされるビット数が少なくなる。
例えば、MPEG-2生成コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、幾つかのより新しいビデオ圧縮技術は、例えば、空間的隣接の符号化及び/又は復号時に取得される、イントラコーディング又はイントラ復号されているデータのブロックに復号順序で先行する、周囲のサンプルデータ及び/又はメタデータに基づいて、ブロックのコーディング/復号を試みる技術を含む。そのような技術を、これ以降、「イントラ予測」技術と呼ぶ。少なくとも幾つかの場合において、イントラ予測は、再構成中の現在のピクチャのみからの参照データを使用し、他の参照ピクチャからの参照データは使用しないことに留意されたい。
イントラ予測には多くの異なる形式があり得る。そのような技術のうちの2つ以上が所与のビデオコーディング技術において利用可能である場合、使用される技術を、イントラ予測モードと呼ぶことができる。1つ以上のイントラ予測モードが特定のコーデックで提供され得る。特定の場合には、モードは、サブモードを有することができ、かつ/又は様々なパラメータと関連付けられていてもよく、モード/サブモード情報及びビデオのブロックのイントラコーディングパラメータは、個別にコーディングされるか、又はまとめてモードのコードワードに含めることができる。所与のモード、サブモード、及び/又はパラメータの組み合わせに、どのコードワードを使用するかは、イントラ予測を介したコーディング効率向上に影響を与える可能性があり、そのため、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も影響を与える可能性がある。
イントラ予測の特定のモードは、H.264で導入され、H.265において改良され、共同探索モデル(JEM:joint exploration model)、多用途ビデオコーディング(VVC:versatile video coding)、及びベンチマークセット(BMS:benchmark set)などのより新しいコーディング技術において更に改良された。一般に、イントラ予測では、利用可能になった隣接サンプル値を使用して予測子ブロックを形成することができる。例えば、特定の方向及び/又は線に沿った特定の隣接サンプルセットの利用可能な値が、予測子ブロックにコピーされ得る。使用される方向への参照は、ビットストリーム内でコーディングされることができるか、又はそれ自体が予測され得る。
図1Aを参照すると、右下に示されているのは、(H.265で指定される35のイントラモードのうちの33の角度モードに対応する)H.265の33の可能なイントラ予測子方向で指定される9つの予測子方向のサブセットである。矢印が集中する点(101)は、予測されているサンプルを表す。矢印は、隣接サンプルがそこから101のサンプルを予測するために使用される方向を表す。例えば、矢印(102)は、サンプル(101)が、1つ以上の隣接サンプルから右上へ、水平方向から45度の角度で予測されることを示している。同様に、矢印(103)は、サンプル(101)が、1つ以上の隣接サンプルからサンプル(101)の左下へ、水平方向から22.5度の角度で予測されることを示している。
更に図1Aを参照すると、左上には、4×4サンプルの正方形ブロック(104)(太い破線で示されている)が示されている。正方形ブロック(104)は16個のサンプルを含み、それぞれ、「S」、Y次元のその位置(例えば、行インデックス)、及びX次元のその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元の(上から)2番目のサンプルであり、X次元の(左から)1番目のサンプルである。同様に、サンプルS44は、ブロック(104)内のY次元及びX次元の両方の4番目のサンプルである。ブロックのサイズは4×4サンプルであるため、S44は右下にある。同様の番号付け方式に従う参照サンプルの例が更に示されている。参照サンプルは、R、ブロック(104)に対するそのY位置(例えば、行インデックス)及びX位置(列インデックス)でラベル付けされている。H.264とH.265の両方で、再構成中のブロックに隣接する予測サンプルが使用される。
ブロック104のイントラピクチャ予測は、シグナリングされた予測方向に従って隣接サンプルから参照サンプル値をコピーすることから開始し得る。例えば、コーディングされたビデオビットストリームは、このブロック104について、矢印(102)の予測方向を示すシグナリングを含む、すなわち、サンプルは1つ以上の予測サンプルから右上へ、水平方向から45度の角度で予測されると仮定する。そのような場合、サンプルS41、S32、S23、S14が、同じ参照サンプルR05から予測される。次いで、サンプルS44が、参照サンプルR08から予測される。
特定の場合には、複数の参照サンプルの値は、特に方向が45度で均等に分割できない場合に、参照サンプルを計算するために、例えば補間によって組み合わせされてもよい。
可能な方向の数は、ビデオコーディング技術が発展し続けるにつれて増加してきた。H.264(2003年)では、例えば、9つの異なる方向がイントラ予測に利用可能である。これは、H.265(2013年)では33まで増加し、JEM/VVC/BMSは、本開示の時点で、最大65の方向をサポートすることができる。最も適切なイントラ予測方向を特定するのに役立つ実験研究が行われており、エントロピーコーディングの特定の技術を使用して、方向についての特定のビットペナルティを受け入れて、それらの最も適切な方向が少数のビットで符号化され得る。更に、方向自体を、復号された隣接ブロックのイントラ予測で使用された隣接する方向から予測できる場合もある。
図1Bは、時間の経過と共に発展した様々な符号化技術における増加する予測方向の数を例示するために、JEMによる65のイントラ予測方向を示す概略図(180)を示す。
コーディングされたビデオビットストリームにおけるイントラ予測方向を表すビットの予測方向へのマッピングのための方法は、ビデオコーディング技術によって異なる可能性があり、例えば、予測方向対イントラ予測モードの単純な直接マッピングから、コードワード、最確モードを含む複雑な適応方式、及び同様の技術にまで及び得る。ただし、全ての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低いイントラ予測の特定の方向が存在し得る。ビデオ圧縮の目的は冗長性の低減であるため、うまく設計されたビデオコーディング技術においては、それらのより可能性の低い方向はより可能性の高い方向よりも多くのビット数で表され得る。
インターピクチャ予測、又はインター予測は、動き補償に基づくものあり得る。動き補償では、以前に再構成されたピクチャ又はその一部(参照ピクチャ)からのサンプルデータが、動きベクトル(これ以降はMV)によって示される方向に空間的にシフトされた後、新たに再構成されたピクチャ又はピクチャ部分(例えば、ブロック)の予測に使用され得る。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じであり得る。MVは、2つの次元X及びY、又は3つの次元を有していてもよく、第3の次元は、(時間次元と類似した)使用される参照ピクチャの指示である。
幾つかのビデオ圧縮技術では、サンプルデータの特定のエリアに適用可能な現在のMVを、他のMVから、例えば再構成中のエリアに空間的に隣接し、復号順序で現在のMVに先行する、サンプルデータの他のエリアに関連する他のMVから予測することができる。そうすることにより、相関するMVの冗長性の除去に依拠することによってMVをコーディングするのに必要とされる全体のデータ量を大幅に削減することができ、それによって圧縮効率が高まる。MV予測が効果的に機能することができるのは、例えば、(自然なビデオとして知られている)カメラから導出された入力ビデオ信号をコーディングするときに、単一のMVが適用可能なエリアよりも大きいエリアは、ビデオシーケンスにおいて同様の方向に移動する統計的尤度があり、したがって、場合によっては、隣接するエリアのMVから導出された同様の動きベクトルを使用して予測することができるからである。その結果として、所与のエリアの実際のMVが周囲のMVから予測されたMVと同様又は同一になる。そのようなMVは更に、エントロピーコーディング後に、MVが(1つ以上の)隣接するMVから予測されるのではなく直接コーディングされた場合に使用されることになるビット数よりも少ないビット数で表され得る。場合によっては、MV予測を、原信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例とすることができる。他の場合では、例えば、幾つかの周囲のMVから予測子を計算するときの丸め誤差のために、MV予測自体が非可逆であり得る。
H.265/HEVC(ITU-T Rec.H.265、「High Efficiency Video Coding」、2016年12月)に様々なMV予測機構が記載されている。H.265が指定する多くのMV予測機構のうち、以下で説明するのは、これ以降「空間マージ」と呼ぶ技術である。
具体的には、図2を参照すると、現在のブロック(201)は、動き探索プロセス中にエンコーダによって、空間的にシフトされた同じサイズの前のブロックから予測可能であると検出されたサンプルを含む。そのMVを直接コーディングする代わりに、MVを、A0、A1、及びB0、B1、B2(それぞれ202から206)で表された5つの周囲のサンプルのいずれか1つと関連付けられたMVを使用して、1つ以上の参照ピクチャと関連付けられたメタデータから、例えば、(復号順序で)最後の参照ピクチャから導出することができる。H.265では、MV予測は、隣接ブロックが使用しているのと同じ参照ピクチャからの予測子を使用することができる。
本開示の態様は、一般に、高度なビデオコーディング/復号技術のセットに関し、より具体的には、複合インターイントラ予測モードのための変換技術及び構成に関する。
幾つかの例示的な実装形態では、ビデオストリーム内のビデオブロックを復号するための方法が開示される。方法は、ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されると決定するステップを含むことができ、ビデオブロックは、CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出される。方法は、ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定するステップと、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを識別するステップと、少なくともデータ駆動変換カーネルを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを逆変換することによってビデオブロックの残差ブロックを生成するステップと、残差ブロック、少なくとも1つのインターイントラ予測重み付け構成、ビデオブロックの少なくとも1つの再構成されたインター予測ブロック、及び、ビデオブロックの少なくとも1つの再構成されたイントラ予測参照サンプルに基づいてビデオブロックを導出するステップとを更に含むことができる。
前述の実装形態において、データ駆動変換カーネルは、事前訓練された変換カーネル又はビデオブロック内のデータ分布に基づく導出された変換カーネルを含んでもよい。
前述の実装形態のいずれか1つにおいて、データ駆動変換カーネルは、データ駆動折れ線グラフ変換(LGT)カーネル、事前訓練されたコロネン-レーベ変換カーネル、又は事前訓練された行-列変換(RCT)カーネルのうちの1つを含む。
前述の実装形態のいずれか1では、データ駆動変換カーネルが1次元分離可能変換カーネルを含む。
前述の実装形態のいずれか1つにおいて、データ駆動変換カーネルが2次元分離不可能変換カーネルを含む。
前述の実装形態のいずれか1つにおいて、方法は、変換カーネルセットの中からビデオブロックのための非データ駆動変換カーネルを識別するステップを更に含み、ビデオブロックの残差ブロックを生成するステップは、ビデオブロックの残差ブロックを生成するために、ビデオブロックの2つの次元のうちの一方におけるデータ駆動変換カーネルとビデオブロックの2つの次元のうちの他方における非データ駆動変換カーネルとを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを変換するステップを含むことができる。
前述の実装形態のいずれか1つにおいて、方法は、複数のCIIPサブモードの中からビデオブロックのためのCIIPサブモードを決定するステップを更に含むことができる。複数のCIIPサブモードは、CIIPモードのイントラ予測モードのサブセットに対応することができ、データ駆動変換カーネルは、CIIPサブモードに基づいて変換カーネルセットから選択される。
前述の実装形態のいずれか1つにおいて、複数のCIIPサブモードは、同じデータ駆動変換カーネルにマッピングする。
前述の実装形態のいずれか1つにおいて、方法は、非データ駆動変換カーネルを識別するステップを更に含み、CIIPサブモードが垂直_PREDイントラ予測モードに対応し、ビデオブロックの残差ブロックを生成するステップは、ビデオブロックの残差ブロックを生成するために、ビデオブロックの垂直次元におけるデータ駆動変換カーネルとビデオブロックの水平次元における非データ駆動変換カーネルとを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを逆変換するステップを含む。
前述の実装形態のいずれか1つにおいて、方法は、非データ駆動変換カーネルを識別するステップを更に含み、CIIPサブモードが水平_PREDイントラ予測モードに対応し、ビデオブロックの残差ブロックを生成するステップは、ビデオブロックの残差ブロックを生成するために、ビデオブロックの水平次元におけるデータ駆動変換カーネルとビデオブロックの垂直次元における非データ駆動変換カーネルとを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを逆変換するステップを含む。
前述の実装形態のいずれか1つにおいて、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを識別するステップは、ビデオブロックのサイズ又はビデオブロックの形状に基づく。
前述の実装形態のいずれか1つにおいて、データ駆動変換カーネルがLGTカーネルを含み、LGTカーネルの自己ループ比がビデオブロックのサイズ又は形状によって示される。ブロック。
前述の実装形態のいずれか1つにおいて、ビデオブロックのサイズは、ビデオブロックの幅、高さ、幅及び高さの最大値、幅及び高さの最小値、又は面積を含んでもよく、ビデオブロックの形状は、幅-高さアスペクト比、高さ-幅アスペクト比、幅-高さアスペクト比及び高さ-幅アスペクト比の最大値、又は幅-高さアスペクト比及び高さ-幅アスペクト比の最小値を含んでもよい。
前述の実装形態のいずれか1つにおいて、少なくとも1つのインターイントラ予測重み付け構成は、ビデオブロックのためのインターイントラ予測空間重みがビデオストリーム内で明示的にシグナリングされるか、又は所定のインターイントラ空間重みパターンのセットのうちの1つから導出されるべきであるかを示す。
前述の実装形態のいずれか1つにおいて、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを識別するステップは、ビデオブロックのためのインターイントラ予測空間重みが明示的にシグナリングされることを少なくとも1つのインターイントラ予測重み付け構成が示すことに応答する。
前述の実装形態のいずれか1つにおいて、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを識別するステップは、ビデオブロックのためのインターイントラ予測空間重みが所定のインターイントラ空間重みパターンのセットのうちの1つから導出されることを少なくとも1つのインターイントラ予測重み付け構成が示すことに応答する。
前述の実装形態のいずれか1つにおいて、所定のインターイントラ空間重みパターンのセットのうちの1つは、少なくとも1つのインターイントラ予測重み付け構成の一部として示され、変換カーネルセットのうちのデータ駆動変換カーネルは、少なくとも1つのインターイントラ予測重み付け構成において示されるように所定のインターイントラ空間重みパターンのセットのうちのどれかにしたがって識別される。
幾つかの他の実装態様では、ビデオストリーム内のビデオブロックを符号化するための方法が開示される。方法は、ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されるべきであると決定するステップを含むことができ、ビデオブロックは、CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出される。方法は、ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定するステップと、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルを選択するステップと、少なくともビデオブロックと、少なくとも1つのインターイントラ予測重み付け構成と、ビデオブロックのための少なくとも1つのインター予測ブロックと、ビデオブロックの少なくとも1つのイントラ予測参照サンプルとに基づいて、ビデオブロックの残差ブロックを生成するステップと、ビデオブロックの変換係数のセットを生成するために、少なくともデータ駆動変換カーネルを使用して残差ブロックを変換するステップと、符号化された後にインターイントラ予測重み付け構成と共にビデオストリームに含めるための変換係数のセットを量子化してエントロピーコーディングするステップとを更に含むことができる。
幾つかの実装形態では、ビデオデバイスが開示される。ビデオデバイスは、コンピュータ命令を記憶するためのメモリと、コンピュータ命令を実行して上記の方法のそれぞれを実施するように構成される処理回路とを含むことができる。
また、本開示の態様は、ビデオの復号及び/又は符号化のためにコンピュータによって実行されると、ビデオの復号及び/又は符号化のための上記の方法の実装形態のうちのいずれか1つをコンピュータに実行させる命令を記憶する非一時的コンピュータ可読媒体も提供する。
開示された主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
イントラ予測方向性モードの例示的なサブセットの概略図である。 例示的なイントラ予測方向を示す図である。 一例における現在のブロック及び動きベクトル予測のためのその周囲の空間マージ候補を示す概略図である。 一例示的実施形態による通信システム(300)の簡略化されたブロック図を示す概略図である。 一例示的実施形態による通信システム(400)の簡略化されたブロック図を示す概略図である。 一例示的実施形態によるビデオデコーダの簡略化されたブロック図を示す概略図である。 一例示的実施形態によるビデオエンコーダの簡略化されたブロック図を示す概略図である。 別の例示的実施形態によるビデオエンコーダを示すブロック図である。 別の例示的実施形態によるビデオデコーダを示すブロック図である。 本開示の例示的実施形態によるコーディングブロック分割の方式を示す図である。 本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。 本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。 本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。 本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する方式及び変換ブロックのコーディング順序を示す図である。 本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する別の方式及び変換ブロックのコーディング順序を示す図である。 本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する別の方式を示す図である。 本開示の例示的実施形態による、様々な基準線に基づくイントラ予測方式を示す図である。 ブロックにおけるPAETHモードに関する上、左、及び左上の位置を示す。 例示的な再帰的イントラフィルタリングモードを示す。 本開示の例示的な実施形態に係る平面回転変換を示す。 本開示の例示的な実施形態に係る様々なDCT-2、DCT-4部分バタフライルックアップテーブルを示す。 本開示の例示的な実施形態に係るDST-7部分バタフライルックアップテーブルを示す。 本開示の例示的な実施形態に係る折れ線グラフ変換を示す。 本開示の例示的な実施形態に係る方法のフローチャートを示す。 本開示の例示的な実施形態に係る方法のフローチャートを示す。 本開示の例示的実施形態に係るコンピュータシステムの概略図を示す。
図3は、本開示の一実施形態による、通信システム(300)の簡略化されたブロック図を示す。通信システム(300)は、例えば、ネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された第1の対の端末デバイス(310)及び(320)を含む。図3の例では、第1の対の端末デバイス(310)及び(320)は、データの単方向伝送を実行し得る。例えば、端末デバイス(310)は、ネットワーク(350)を介して他方の端末デバイス(320)に送信するための(例えば、端末デバイス(310)によって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。符号化されたビデオデータは、1つ以上のコーディングされたビデオビットストリームの形で送信され得る。端末デバイス(320)は、ネットワーク(350)からコーディングされたビデオデータを受信し、コーディングされたビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示し得る。単方向データ伝送は、メディアサービング用途などで実施され得る。
別の例では、通信システム(300)は、例えばビデオ会議用途の間に実施され得るコーディングされたビデオデータの双方向伝送を実行する第2の対の端末デバイス(330)及び(340)を含む。データの双方向伝送のために、一例では、端末デバイス(330)及び(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)及び(340)の他方の端末デバイスに送信するための(例えば、その端末デバイスによって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。端末デバイス(330)及び(340)の各端末デバイスはまた、端末デバイス(330)及び(340)の他方の端末デバイスによって送信されたコーディングされたビデオデータを受信し、コーディングされたビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってアクセス可能な表示デバイスでビデオピクチャを表示し得る。
図3の例では、端末デバイス(310)、(320)、(330)、及び(340)は、サーバ、パーソナルコンピュータ、及びスマートフォンとして実施され得るが、本開示の基礎となる原理の適用性はそのように限定されない。本開示の実施形態は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、ウェアラブルコンピュータ、専用のビデオ会議機器などにおいて実装され得る。ネットワーク(350)は、例えば配線(有線)及び/又は無線通信ネットワークを含む、端末デバイス(310)、(320)、(330)及び(340)間で、コーディングされたビデオデータを伝達する任意の個数のネットワークや任意のタイプのネットワークを表す。通信ネットワーク(350)9は回線交換チャネル、パケット交換チャネル及び/又は他のタイプのチャネルでデータを交換してもよい。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク及び/又はインターネットを含む。本考察の目的にとって、ネットワーク(350)のアーキテクチャ及びトポロジーは、本明細書で明示的に説明されない限り、本開示の動作にとって重要ではない場合がある。
図4に、開示の主題の用途の一例として、ビデオストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の主題は、例えば、ビデオ会議、デジタルテレビ放送、ゲーム、仮想現実、CD、DVD、メモリスティックなどを含むデジタルメディア上の圧縮ビデオの記憶などを含む、他のビデオ対応用途に等しく適用され得る。
ビデオストリーミングシステムは、圧縮されていないビデオピクチャ又は画像のストリーム(402)を作成するためのビデオソース(401)、例えばデジタルカメラを含むことができるビデオ取り込みサブシステム(413)を含み得る。一例では、ビデオピクチャのストリーム(402)は、ビデオソース401のデジタルカメラによって記録されたサンプルを含む。ビデオピクチャのストリーム(402)は、符号化されたビデオデータ(404)(又はコーディングされたビデオビットストリーム)と比較した場合の高データ量を強調するために太線で示されており、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理され得る。ビデオエンコーダ(403)は、以下でより詳細に説明されるように開示の主題の態様を可能にし、又は実装するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。符号化されたビデオデータ(404)(又は符号化されたビデオビットストリーム(404))は、非圧縮ビデオピクチャのストリーム(402)と比較した場合の低データ量を強調するために細線で示されており、将来の使用のためにストリーミングサーバ(405)に、又は下流のビデオデバイス(図示せず)に直接記憶され得る。図4のクライアントサブシステム(406)及び(408)などの1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、符号化されたビデオデータ(404)のコピー(407)及び(409)を取得することができる。クライアントサブシステム(406)は、例えば電子デバイス(430)内のビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、符号化されたビデオデータの入力コピー(407)を復号し、圧縮されていない、ディスプレイ(412)(例えば、表示画面)又は他のレンダリングデバイス(図示せず)上にレンダリングすることができるビデオピクチャの出力ストリーム(411)を作成する。ビデオデコーダ410は、本開示に記載される様々な機能の一部又は全部を実行するように構成され得る。一部のストリーミングシステムでは、符号化されたビデオデータ(404)、(407)、及び(409)(例えば、ビデオビットストリーム)を、特定のビデオコーディング/圧縮規格に従って符号化することができる。それらの規格の例には、ITU-T勧告H.265が含まれる。一例では、開発中のビデオコーディング規格は、多用途ビデオコーディング(VVC)として非公式に知られている。開示の主題は、VVC、及び他のビデオコーディング規格の文脈で使用され得る。
電子デバイス(420)及び(430)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子デバイス(420)はビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)もビデオエンコーダ(図示せず)を含むことができる。
図5は、以下の本開示の任意の実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含めることができる。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)を、図4の例のビデオデコーダ(410)の代わりに使用することができる。
受信機(531)は、ビデオデコーダ(510)によって復号されるべき1つ以上のコーディングされたビデオシーケンスを受信し得る。同じ又は別の実施形態では、一度に1つのコーディングされたビデオシーケンスが復号され得、各コーディングされたビデオシーケンスの復号は、他のコーディングされたビデオシーケンスから独立している。各ビデオシーケンスは、複数のビデオフレーム又はビデオ画像と関連付けられ得る。コーディングされたビデオシーケンスはチャネル(501)から受信され得、チャネル(501)は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンク、又は符号化されたビデオデータを送信するストリーミングソースであり得る。受信機(531)は、符号化されたビデオデータを、それぞれの処理回路(図示せず)に転送され得る、コーディングされたオーディオデータ及び/又は補助データストリームなどの他のデータと共に受信し得る。受信機(531)は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ(515)が、受信機(531)とエントロピーデコーダ/パーサ(520)(これ以降は「パーサ(520)」)との間に配置されてもよい。特定の用途では、バッファメモリ(515)は、ビデオデコーダ(510)の一部として実装され得る。他の用途では、バッファメモリ(515)は、ビデオデコーダ(510)から分離されて外部にあり得る(図示せず)。更に他の用途では、例えばネットワークジッタに対抗するためにビデオデコーダ(510)の外部にバッファメモリ(図示せず)があってもよく、例えば再生タイミングを処理するためにビデオデコーダ(510)の内部に別のバッファメモリ(515)があり得る。受信機(531)が十分な帯域幅及び可制御性の記憶/転送デバイスから、又はアイソシンクロナスネットワークからデータを受信しているときには、バッファメモリ(515)は不要であり得るか、又は小さくすることができる。インターネットなどのベストエフォートパケットネットワークで使用するために、十分なサイズのバッファメモリ(515)が必要とされる場合があり、そのサイズは比較的大きくなり得る。そのようなバッファメモリは、適応サイズで実装されてもよく、ビデオデコーダ(510)の外部のオペレーティングシステム又は同様の要素(図示せず)に少なくとも部分的に実装されてもよい。
ビデオデコーダ(510)は、コーディングされたビデオシーケンスからシンボル(521)を復元するためにパーサ(520)を含んでもよい。それらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的に、図5に示すように、電子デバイス(530)の不可欠な部分である場合もそうでない場合もあるが、電子デバイス(530)に結合することができるディスプレイ(512)(例えば、表示画面)などのレンダリングデバイスを制御するための情報とを含む。(1つ以上の)レンダリングデバイスのための制御情報は、補足拡張情報(SEIメッセージ)又はビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であり得る。パーサ(520)は、パーサ(520)によって受け取られるコーディングされたビデオシーケンスを構文解析/エントロピー復号し得る。コーディングされたビデオシーケンスのエントロピーコーディングは、ビデオコーディング技術又は規格に従ったものとすることができ、可変長コーディング、ハフマンコーディング、文脈依存性あり又はなしの算術コーディングなどを含む様々な原理に従ったものとすることができる。パーサ(520)は、コーディングされたビデオシーケンスから、サブグループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内の画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出し得る。サブグループには、グループオブピクチャ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含めることができる。パーサ(520)はまた、コーディングされたビデオシーケンスから、変換係数(例えば、フーリエ変換係数)、量子化パラメータ値、動きベクトルなどの情報も抽出し得る。
パーサ(520)は、シンボル(521)を作成するために、バッファメモリ(515)から受け取ったビデオシーケンスに対してエントロピー復号/構文解析動作を実行することができる。
シンボル(521)の再構成は、コーディングされたビデオピクチャ又はその部分のタイプ(インターピクチャ及びイントラピクチャ、インターブロック及びイントラブロックなど)、ならびに他の要因に応じて、複数の異なる処理ユニット又は機能ユニットを含むことができる。含まれるユニット及びユニットがどのように含まれるかは、パーサ(520)によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御され得る。パーサ(520)と以下の複数の処理ユニット又は機能ユニットとの間のそのようなサブグループ制御情報の流れは、簡潔にするために図示されていない。
既に述べられた機能ブロック以外に、ビデオデコーダ(510)は、以下に記載されるように、概念的に幾つかの機能ユニットに細分化することができる。商業的制約の下で動作する実際の実装形態では、これらの機能ユニットの多くは互いに密接に相互作用し、少なくとも部分的に、互いに統合され得る。しかしながら、開示の主題の様々な機能を明確に説明するために、以下の開示においては機能ユニットへの概念的細分を採用する。
第1のユニットはスケーラ/逆変換ユニット(551)を含み得る。スケーラ/逆変換ユニット(551)は、量子化変換係数、ならびにどのタイプの逆変換を使用するかを示す情報、ブロックサイズ、量子化係数/パラメータ、量子化スケーリング行列などを含む制御情報を、パーサ(520)から(1つ以上の)シンボル(521)として受信し得る。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力することができるサンプル値を含むブロックを出力することができる。
場合によっては、スケーラ/逆変換(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用しないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関係する場合がある。そのような予測情報を、イントラピクチャ予測ユニット(552)によって提供することができる。場合によっては、イントラピクチャ予測ユニット(552)は、既に再構成され、現在のピクチャバッファ(558)に記憶されている周囲のブロックの情報を使用して、再構成中のブロックと同じサイズ及び形状のブロックを生成してもよい。現在のピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャ及び/又は完全に再構成された現在のピクチャをバッファする。アグリゲータ(555)は、幾つかの実装形態では、サンプルごとに、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に追加してもよい。
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関連する可能性がある。そのような場合、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして、インターピクチャ予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル(521)に従ってフェッチされたサンプルを動き補償した後、これらのサンプルを、出力サンプル情報を生成するために、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力に追加することができる(ユニット551の出力は、残差サンプル又は残差信号と呼ばれ得る)。動き補償予測ユニット(553)がそこから予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えば、X成分、Y成分(シフト)、及び参照ピクチャ成分(時間)を有することができるシンボル(521)の形で動き補償予測ユニット(553)が利用可能な、動きベクトルによって制御され得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされたサンプル値の補間も含んでいてもよく、動きベクトル予測機構などと関連付けられてもよい。
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技法を受けることができる。ビデオ圧縮技術は、(コーディングされたビデオビットストリームとも呼ばれる)コーディングされたビデオシーケンスに含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされるインループフィルタ技術を含むことができるが、コーディングされたピクチャ又はコーディングされたビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報に応答するだけでなく、以前に再構成及びループフィルタリングされたサンプル値に応答することもできる。以下で更に詳細に説明するように、幾つかのタイプのループフィルタが、様々な順序でループフィルタユニット556の一部として含まれ得る。
ループフィルタユニット(556)の出力は、レンダリングデバイス(512)に出力することができると共に、将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)に記憶することもできるサンプルストリームであり得る。
特定のコーディングされたピクチャは、完全に再構成されると、将来のインターピクチャ予測のための参照ピクチャとして使用され得る。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に復元され、コーディングされたピクチャが参照ピクチャとして(例えば、パーサ(520)によって)識別されると、現在のピクチャバッファ(558)は、参照ピクチャメモリ(557)の一部になることができ、未使用の現在のピクチャバッファは、次のコーディングされたピクチャの復元を開始する前に再割当てすることができる。
ビデオデコーダ(510)は、例えば、ITU-T Rec.H.265などの規格で採用された所定のビデオ圧縮技術に従って復号動作を実行し得る。コーディングされたビデオシーケンスがビデオ圧縮技術又は規格の構文とビデオ圧縮技術又は規格において文書化されたプロファイルの両方を順守するという意味で、コーディングされたビデオシーケンスは、使用されているビデオ圧縮技術又は規格によって指定された構文に準拠し得る。具体的には、プロファイルは、そのプロファイルの下でのみ使用に供されるツールとして、ビデオ圧縮技術又は規格で利用可能な全てのツールの中から特定のツールを選択することができる。規格に準拠するために、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義される範囲内にあり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、毎秒のメガサンプル数で測定される)、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD)の仕様、及びコーディングされたビデオシーケンス内でシグナリングされるHRDバッファ管理用のメタデータによって更に制限され得る。
幾つかの例示的実施形態では、受信機(531)は、符号化されたビデオと共に追加の(冗長な)データを受信し得る。追加のデータは、(1つ以上の)コーディングされたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するために、かつ/又は元のビデオデータをより正確に復元するために、ビデオデコーダ(510)によって使用されてもよい。追加のデータは、例えば、時間、空間、又は信号ノイズ比(SNR)の拡張層、冗長スライス、冗長ピクチャ、順方向誤り訂正コードなどの形式であり得る。
図6は、本開示の一例示的実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれ得る。電子デバイス(620)は、送信機(640)(例えば、送信回路)を更に含み得る。ビデオエンコーダ(603)を、図4の例のビデオエンコーダ(403)の代わりに使用することができる。
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によってコーディングされるべき(1つ以上の)ビデオ画像を取り込み得るビデオソース(601)(図6の例では電子デバイス(620)の一部ではない)からビデオサンプルを受信し得る。別の例では、ビデオソース(601)は電子デバイス(620)の一部分として実装され得る。
ビデオソース(601)は、ビデオエンコーダ(603)によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCb、RGB、XYZ...)、及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)のものとすることができるデジタルビデオサンプルストリームの形で提供し得る。メディアサービングシステムでは、ビデオソース(601)は、以前に準備されたビデオを記憶することができる記憶デバイスであり得る。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順を追って見たときに動きを与える複数の個別のピクチャ又は画像として提供され得る。ピクチャ自体は、画素の空間配列として編成されてもよく、各画素は、使用されているサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下の説明はサンプルに焦点を当てる。
幾つかの例示的実施形態によれば、ビデオエンコーダ(603)は、リアルタイムで、又は用途によって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングされたビデオシーケンス(643)にコーディング及び圧縮し得る。適切なコーディング速度を強制することが、コントローラ(650)の1つの機能を構成する。幾つかの実施形態では、コントローラ(650)は、以下で説明されるように、他の機能ユニットに機能的に結合され、他の機能ユニットを制御し得る。簡潔にするために、結合は図示されていない。コントローラ(650)によって設定されるパラメータには、レート制御関連のパラメータ(ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値など)、ピクチャサイズ、グループオブピクチャ(GOP)レイアウト、最大動きベクトル探索範囲などが含まれ得る。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関連する他の適切な機能を有するように構成することができる。
幾つかの例示的実施形態では、ビデオエンコーダ(603)は、コーディングループで動作するように構成され得る。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ(630)(例えば、コーディングされるべき入力ピクチャと、(1つ以上の)参照ピクチャとに基づいて、シンボルストリームなどのシンボルを作成する役割を担う)と、ビデオエンコーダ(603)に組み込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、組み込まれたデコーダ633がエントロピーコーディングなしでソースコーダ630によってコーディングされたビデオストリームを処理するとしても、シンボルを再構成して、(リモート)デコーダが作成することになるのと同様の方法でサンプルデータを作成する(開示の主題で考慮されるビデオ圧縮技術では、エントロピーコーディングにおけるシンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が可逆であり得るため)。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号は、デコーダの場所(ローカル又はリモート)に関係なくビットイグザクトな結果につながるので、参照ピクチャメモリ(634)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えると、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」ことになるのとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(及び、例えばチャネル誤差が原因で同期性を維持することができない場合には、結果として生じるドリフト)のこの基本原理はコーディング品質を向上させるために使用される。
「ローカル」デコーダ(633)の動作は、図5とともに上記で詳細に既に記載されている、ビデオデコーダ(510)などの「リモート」デコーダの動作と同じであり得る。図5も簡単に参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(645)及びパーサ(520)によるコーディングされたビデオシーケンスへのシンボルの符号化/復号が可逆であり得るため、バッファメモリ(515)及びパーサ(520)を含むビデオデコーダ(510)のエントロピー復号部分は、エンコーダ内のローカルデコーダ(633)においては完全に実装されない場合がある。
この時点で言えることは、デコーダ内にのみ存在し得る構文解析/エントロピー復号を除く任意のデコーダ技術もまた必然的に、対応するエンコーダにおいて、実質的に同一の機能形態で存在する必要があり得るということである。このため、開示の主題はデコーダ動作に焦点を当てる場合があり、この動作はエンコーダの復号部分と同様である。よって、エンコーダ技術の説明は、包括的に説明されるデコーダ技術の逆であるので、省略することができる。特定の領域又は態様においてのみ、エンコーダのより詳細な説明を以下に示す。
動作中、幾つかの例示的実装形態では、ソースコーダ(630)は、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行する場合がある。このようにして、コーディングエンジン(632)は、入力ピクチャの画素ブロックと、入力ピクチャへの(1つ以上の)予測参照として選択され得る(1つ以上の)参照ピクチャの画素ブロックとの間の色チャネルの差分(又は残差)をコーディングする。用語「残差(residue)」及びその形容詞形「残差の(residual)」は、互換的に使用され得る。
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータを復号することができる。コーディングエンジン(632)の動作は、有利なことに、非可逆プロセスであってもよい。コーディングされたビデオデータが(図6には示されていない)ビデオデコーダで復号され得るとき、再構成されたビデオシーケンスは、通常、幾つかの誤差を伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得る復号プロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に記憶させ得る。このようにして、ビデオエンコーダ(603)は、遠端(リモート)ビデオデコーダによって取得される再構成された参照ピクチャと共通の内容を有する再構成された参照ピクチャのコピーをローカルに記憶し得る(伝送誤差なしで)。
予測器(635)は、コーディングエンジン(632)のための予測検索を実行することができる。すなわち、コーディングされる新しいピクチャの場合、予測器(635)は、新しいピクチャのための適切な予測参照として役立つことができる、(候補参照画素ブロックとしての)サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、参照ピクチャメモリ(634)を検索することができる。予測器(635)は、適切な予測参照を見つけるために、画素ブロックごとにサンプルブロックに対して動作することができる。場合によっては、予測器(635)によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから引き出された予測参照を有することができる。
コントローラ(650)は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理することができる。
全ての前述の機能ユニットの出力は、エントロピーコーダ(645)内でエントロピーコーディングを受けることができる。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどといった技術に従ったシンボルの可逆圧縮により、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。
送信機(640)は、エントロピーコーダ(645)によって作成されたコーディングされたビデオシーケンスをバッファリングして、通信チャネル(660)を介した送信の準備をすることができ、通信チャネル(660)は、符号化ビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであってもよい。送信機(640)は、ビデオコーダ(603)からのコーディングされたビデオデータを、送信される他のデータ、例えば、コーディングされたオーディオデータ及び/又は補助データストリーム(ソースは図示されていない)とマージすることができる。
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理することができる。コーディング中に、コントローラ(650)は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当てることができ、それは、それぞれのピクチャに適用され得るコーディング技法に影響を及ぼす場合がある。例えば、ピクチャは、しばしば、以下のピクチャタイプのうちの1つとして割り当てられてもよい。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内のいかなる他のピクチャも使用せずにコーディング及び復号され得るピクチャであり得る。一部のビデオコーデックは、例えば、独立したデコーダリフレッシュ(「IDR」)ピクチャを含む異なるタイプのイントラピクチャを可能にする。当業者であれば、Iピクチャのそれらの変形ならびにそれらそれぞれの用途及び特徴を認識している。
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために、多くとも1つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を使用して、コーディング及び復号され得るピクチャであり得る。
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために、多くとも2つの動きベクトル及び参照インデックスを使用するイントラ予測又はインター予測を使用して、コーディング及び復号され得るピクチャであり得る。同様に、複数の予測ピクチャは、単一ブロックの復元のために3つ以上の参照ピクチャ及び関連するメタデータを使用することができる。
ソースピクチャは、一般に、複数のサンプルコーディングブロック(例えば、それぞれ4×4、8×8、4×8、又は16×16サンプルのブロック)に空間的に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように他の(既にコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、又は、同じピクチャの既にコーディングされたブロックを参照して、予測的にコーディングされ得る(空間予測又はイントラ予測)。Pピクチャの画素ブロックは、1つの以前にコーディングされた参照ピクチャを参照して、空間予測を介して、又は時間予測を介して、予測的にコーディングされてもよい。Bピクチャのブロックは、1つ又は2つの以前にコーディングされた参照ピクチャを参照して、空間予測によって、又は時間予測によって予測的にコーディングされ得る。ソースピクチャ又は中間処理されたピクチャは、他の目的で他のタイプのブロックに細分されてもよい。コーディングブロック及びその他のタイプのブロックの分割は、以下で更に詳細に説明するように、同じ方法に従う場合もそうでない場合もある。
ビデオエンコーダ(603)は、例えばITU-T Rec.H.265などの所定のビデオコーディング技術又は規格に従ってコーディング動作を実行し得る。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間的冗長性及び空間的冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術又は規格によって指定された構文に準拠し得る。
幾つかの例示的実施形態では、送信機(640)は、符号化されたビデオと共に追加のデータを送信し得る。ソースコーダ(630)は、そのようなデータをコーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間/空間/SNR増強層、冗長なピクチャやスライスなどの他の形の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含み得る。
ビデオは、複数のソースピクチャ(ビデオピクチャ)として時系列でキャプチャされ得る。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の時間又はその他の相関を利用する。例えば、現在のピクチャと呼ばれる、符号化/復号中の特定のピクチャがブロックに分割され得る。現在のピクチャ内のブロックは、ビデオ内の以前にコーディングされたまだバッファされている参照ピクチャ内の参照ブロックに類似している場合、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第3の次元を有することができる。
幾つかの例示的実施形態では、インターピクチャ予測に双予測技術を使用することができる。そのような双予測技術によれば、第1の参照ピクチャ及び第2の参照ピクチャなどの2つの参照ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャを復号順序で進める(ただし、表示順序では、それぞれ過去又は未来にあり得る)。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指し示す第1の動きベクトルと、第2の参照ピクチャ内の第2の参照ブロックを指し示す第2の動きベクトルとによってコーディングされ得る。ブロックを、第1の参照ブロックと第2の参照ブロックの組み合わせによって協調して予測することができる。
更に、マージモード技術が、インターピクチャ予測においてコーディング効率を改善するために使用されてもよい。
本開示の幾つかの例示的実施形態によれば、インターピクチャ予測及びイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に分割され、ピクチャ内のCTUは、64×64画素、32×32画素、又は16×16画素などの同じサイズを有し得る。一般に、CTUは、3つの並列のコーディングツリーブロック(CTB)、すなわち、1つのルマCTB及び2つのクロマCTBを含み得る。各CTUを、1つ以上のコーディングユニット(CU)に再帰的に四分木分割することができる。例えば、64×64画素のCTUを、64×64画素の1つのCU、又は32×32画素の4つのCUに分割することができる。32×32ブロックのうちの1つ以上のそれぞれは、16×16画素の4つのCUに更に分割され得る。幾つかの例示的実施形態では、各CUは、インター予測タイプやイントラ予測タイプなどの様々な予測タイプの中からそのCUの予測タイプを決定するために符号化中に分析され得る。CUは、時間的及び/又は空間的予測可能性に応じて、1つ以上の予測ユニット(PU)に分割され得る。一般に、各PUは、1つのルマ予測ブロック(PB)と、2つのクロマPBとを含む。一実施形態では、コーディング(符号化/復号)における予測動作は、予測ブロック単位で実行される。CUのPU(又は異なる色チャネルのPB)への分割は、様々な空間パターンで実行され得る。ルマ PB又はクロマPBは、例えば、8×8画素、16×16画素、8×16画素、16×8画素などといった、サンプルの値(例えば、ルマ値)の行列を含み得る。
図7は、本開示の別の例示的実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受け取り、処理ブロックを、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャに符号化するように構成される。例示的なビデオエンコーダ(703)は、図4の例のビデオエンコーダ(403)の代わりに使用され得る。
例えば、ビデオエンコーダ(703)は、8×8サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受け取る。次いでビデオエンコーダ(703)は、例えばレート歪み最適化(RDO)を使用して、処理ブロックがそれを使用して最良にコーディングされるのは、イントラモードか、インターモードか、それとも双予測モードかを決定する。処理ブロックがイントラモードでコーディングされると決定された場合、ビデオエンコーダ(703)は、イントラ予測技術を使用して処理ブロックをコーディングされたピクチャに符号化し、処理ブロックがインターモード又は双予測モードでコーディングされると決定された場合、ビデオエンコーダ(703)は、それぞれインター予測技術又は双予測技術を使用して、処理ブロックをコーディングされたピクチャに符号化し得る。幾つかの例示的実施形態では、インターピクチャ予測のサブモードとして、動きベクトルが予測器の外側のコーディングされた動きベクトル成分の恩恵を受けずに1つ以上の動きベクトル予測器から導出されるマージモードが使用され得る。幾つかの他の例示的実施形態では、対象ブロックに適用可能な動きベクトル成分が存在し得る。したがって、ビデオエンコーダ(703)は、処理ブロックの予測モードを決定するために、モード決定モジュールなどの、図7に明示的に示されていない構成要素を含み得る。
図7の例では、ビデオエンコーダ(703)は、図7の例示的な構成に示されるように互いに結合されたインターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)、及びエントロピーエンコーダ(725)を含む。
インターエンコーダ(730)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、そのブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、表示順序で前のピクチャ及び後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報、動きベクトル、マージモード情報の記述)を生成し、任意の適切な技術を使用してインター予測情報に基づいてインター予測結果(例えば、予測されたブロック)を計算するように構成される。幾つかの例では、参照ピクチャは、(以下で更に詳細に説明するように、図7の残差デコーダ728として示されている)図6の例示的なエンコーダ620に組み込まれた復号ユニット633を使用して符号化されたビデオ情報に基づいて復号された復号参照ピクチャである。
イントラエンコーダ(722)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、ブロックを同じピクチャ内の既にコーディングされたブロックと比較し、変換後の量子化係数を生成し、場合によってはイントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。イントラエンコーダ(722)は、イントラ予測情報と、同じピクチャ内の参照ブロックとに基づいて、イントラ予測結果(例えば、予測されたブロック)を計算し得る。
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するように構成され得る。一例では、汎用コントローラ(721)は、ブロックの予測モードを決定し、予測モードに基づいてスイッチ(726)に制御信号を提供する。例えば、予測モードがイントラモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのイントラモード結果を選択させ、エントロピーエンコーダ(725)を制御して、イントラ予測情報を選択させてそのイントラ予測情報をビットストリームに含めさせ、ブロックの予測モードがインターモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのインター予測結果を選択させて、エントロピーエンコーダ(725)を制御して、インター予測情報を選択させてそのインター予測情報をビットストリームに含めさせる。
残差計算器(723)は、受け取ったブロックと、イントラエンコーダ(722)又はインターエンコーダ(730)から選択されたブロックについての予測結果との差分(残差データ)を計算するように構成され得る。残差エンコーダ(724)は、残差データを符号化して変換係数を生成するように構成され得る。例えば、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換して変換係数を生成するように構成され得る。次いで、変換係数は、量子化変換係数を取得するために量子化処理を受ける。様々な例示的実施形態において、ビデオエンコーダ(703)は残差デコーダ(728)も含む。残差デコーダ(728)は逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データを、イントラエンコーダ(722)及びインターエンコーダ(730)によって適切に使用することができる。例えば、インターエンコーダ(730)は、復号された残差データとインター予測情報とに基づいて復号されたブロックを生成することができ、イントラエンコーダ(722)は、復号された残差データとイントラ予測情報とに基づいて復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路(図示せず)にバッファされ、参照ピクチャとして使用されることができる。
エントロピーエンコーダ(725)は、ビットストリームを符号化されたブロックを含むようにフォーマットし、エントロピーコーディングを実行するように構成され得る。エントロピーエンコーダ(725)は、ビットストリームに様々な情報を含めるように構成される。例えば、エントロピーエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報やインター予測情報)、残差情報、及び他の適切な情報をビットストリームに含めるように構成され得る。インターモード又は双予測モードのどちらかのマージサブモードでブロックをコーディングするときには、残差情報が存在しない場合がある。
図8は、本開示の別の実施形態による例示的なビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャを受け取り、コーディングされたピクチャを復号して再構成されたピクチャを生成するように構成される。一例では、ビデオデコーダ(810)は、図4の例のビデオデコーダ(410)の代わりに使用され得る。
図8の例では、ビデオデコーダ(810)は、図8の例示的な構成に示されるように、互いに結合されたエントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、及びイントラデコーダ(872)を含む。
エントロピーデコーダ(871)は、コーディングされたピクチャから、コーディングされたピクチャが構成される構文要素を表す特定のシンボルを復元するように構成することができる。そのようなシンボルは、例えば、ブロックがコーディングされているモード(例えば、イントラモード、インターモード、双予測モード、マージサブモード又は別のサブモード)、イントラデコーダ(872)又はインターデコーダ(880)によって予測に使用される特定のサンプル又はメタデータを識別することができる予測情報(例えば、イントラ予測情報やインター予測情報)、例えば量子化変換係数の形の残差情報などを含むことができる。一例では、予測モードがインターモード又は双予測モードである場合、インター予測情報がインターデコーダ(880)に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ(873)に提供される。
インターデコーダ(880)は、インター予測情報を受け取り、インター予測情報に基づいてインター予測結果を生成するように構成され得る。
イントラデコーダ(872)は、イントラ予測情報を受け取り、イントラ予測情報に基づいて予測結果を生成するように構成され得る。
残差デコーダ(873)は逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように構成され得る。残差デコーダ(873)はまた(量子化パラメータ(QP)を含めるために)特定の制御情報を利用する場合もあり、その情報はエントロピーデコーダ(871)によって提供され得る(これは少量の制御情報のみであり得るためデータパスは図示しない)。
再構成モジュール(874)は、空間領域において、残差デコーダ(873)による出力としての残差と、(場合によって、インター予測モジュール又はイントラ予測モジュールによる出力としての)予測結果とを組み合わせて、再構成されたビデオの一部としての再構成されたピクチャの一部を形成する再構成されたブロックを形成するように構成され得る。視覚品質を改善するために、非ブロック化動作などの他の適切な動作が実行されてもよいことに留意されたい。
ビデオエンコーダ(403)、(603)、及び(703)、ならびにビデオデコーダ(410)、(510)、及び(810)は、任意の適切な技法を使用して実装することができることに留意されたい。幾つかの例示的実施形態では、ビデオエンコーダ(403)、(603)、及び(703)、ならびにビデオデコーダ(410)、(510)、及び(810)を、1つ以上の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ(403)、(603)、及び(603)、ならびにビデオデコーダ(410)、(510)、及び(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装することができる。
コーディングブロック分割を見ると、幾つかの例示的実装形態では、所定のパターンが適用され得る。図9に示すように、第1の所定のレベル(例えば、64×64ブロックレベル)から開始して第2の所定のレベル(例えば、4×4レベル)に至る例示的な4つのやり方の分割ツリーが用いられ得る。例えば、ベースブロックは、902、904、906及び908で示される4つの分割オプションに従うことができ、Rで表されたパーティションは、図9に示される同じ分割ツリーが最下位レベル(例えば、4×4レベル)まで下位スケールで繰り返され得るという点で、再帰分割が可能である。幾つかの実装形態では、図9の分割方式に追加の制限が適用され得る。図9の実装形態では、長方形パーティション(例えば、1:2/2:1の長方形パーティション)は、可能であるが繰り返して用いることはできず、一方、正方形分割は繰り返して用いることができる。必要に応じて、再帰による図9の後に続く分割により、コーディングブロックの最終セットが生成される。そのような方式が、色チャネルのうちの1つ以上に適用され得る。
図10は、再帰分割により分割ツリーを形成することを可能にする別の例示的な所定の分割パターンを示す。図10に示すように、例示的な10個のやり方の分割構造又はパターンが事前定義され得る。ルートブロックは、所定のレベルから(例えば、128×128レベル又は64×64レベルから)開始し得る。図10の例示的な分割構造は、様々な2:1/1:2及び4:1/1:4の長方形パーティションを含む。図10の2列目の1002、1004、1006、及び1008で示される3つのサブパーティションを有するパーティションタイプは、「T型」パーティションと呼ばれ得る。「T型」パーティション1002、1004、1006、及び1008は、左T型、上T型、右T型、及び下T型と呼ばれてもよい。幾つかの実装形態では、図10の長方形パーティションのいずれも更に細分されることができない。ルートノード又はルートブロックからの分割深度を示すために、コーディングツリー深度が更に定義され得る。例えば、128×128ブロックのルートノード又はルートブラックのコーディングツリー深度は0に設定されてもよく、ルートブロックが図10の後に続いて更に1回分割された後、コーディングツリー深度は1増加する。幾つかの実装形態では、1010の全て正方形のパーティションのみが、図10のパターンの後に続く分割ツリーの次のレベルへの再帰分割を可能とし得る。言い換えると、再帰分割は、パターン1002、パターン1004、パターン1006、及びパターン1006の正方形パーティションでは不可能である。必要に応じて、再帰による図10の後に続く分割により、コーディングブロックの最終セットが生成される。そのような方式が、色チャネルのうちの1つ以上に適用され得る。
上記の分割手順又は他の手順のいずれかに従ってベースブロックを区分又は分割した後にやはり、パーティション又はコーディングブロックの最終セットが取得され得る。これらのパーティションのそれぞれは、様々な分割レベルのうちの1つにあり得る。各パーティションは、コーディングブロック(CB)と呼ばれ得る。上記の様々な例示的な分割実装形態では、結果として得られる各CBは、許容されるサイズ及び分割レベルのいずれかのものであり得る。それらは、そのための幾つかの基本的なコーディング/復号決定が行われ得、コーディング/復号パラメータが、最適化され、決定され、符号化されたビデオビットストリームにおいてシグナリングされ得るユニットを形成し得るので、コーディングブロックと呼ばれる。最終パーティションにおける最高レベルは、コーディングブロック分割ツリーの深度を表す。コーディングブロックは、ルマコーディングブロック又はクロマコーディングブロックであり得る。
幾つかの他の例示的実装形態では、ベースルマブロック及びベースクロマブロックを再帰的にコーディングユニットに分割するために四分木構造が使用され得る。そのような分割構造はコーディングツリーユニット(CTU)と呼ばれる場合があり、CTUは、四分木構造を使用して分割をベースCTUの様々なローカル特性に適合させることによってコーディングユニット(CU)に分割される。そのような実装形態では、サイズがピクチャ境界に収まるまでブロックが四分木分割を続けるように、ピクチャ境界で暗黙的な四分木分割が実行され得る。CUという用語は、ルマコーディングブロック(CB)及びクロマコーディングブロック(CB)のユニットを集合的に指すために使用される。
幾つかの実装形態では、CBが更に分割され得る。例えば、CBは、コーディングプロセス及び復号プロセス中のイントラフレーム予測又はインターフレーム予測を目的として、複数の予測ブロック(PB)に更に分割され得る。言い換えると、CBは異なるサブパーティションに更に区分されてもよく、そこで個々の予測決定/構成が行われ得る。並行して、CBは、ビデオデータの変換又は逆変換が実行されるレベルを記述する目的で、複数の変換ブロック(TB)に更に分割され得る。CBのPB及びTBへの分割方式は、同じである場合もそうでない場合もある。例えば、各分割方式は、例えば、ビデオデータの様々な特性に基づいて独自の手順を使用して実行され得る。PB及びTBの分割方式は、幾つかの例示的実装形態では独立していてもよい。PB及びTBの分割方式及び境界は、幾つかの他の例示的実装形態では相関していてもよい。幾つかの実装形態では、例えば、TBは、PB分割後に分割されてもよく、特に、各PBは、コーディングブロックの分割の後に続いて決定された後、次いで1つ以上のTBに更に分割されてもよい。例えば、幾つかの実装形態では、PBは、1つ、2つ、4つ、又は他の数のTBに分割され得る。
幾つかの実装形態では、ベースブロックをコーディングブロックに分割し、更に予測ブロック及び/又は変換ブロックに分割するために、ルマチャネル及びクロマチャネルは異なって処理され得る。例えば、幾つかの実装形態では、ルマチャネルに対してはコーディングブロックの予測ブロック及び/又は変換ブロックへの分割が許容され得るが、(1つ以上の)クロマチャネルに対してはコーディングブロックの予測ブロック及び/又は変換ブロックへのそのような分割が許容されない場合がある。そのような実装形態では、よって、ルマブロックの変換及び/又は予測は、コーディングブロックレベルでのみ実行され得る。別の例では、ルマチャネル及び(1つ以上の)クロマチャネルの最小変換ブロックサイズが異なっていてもよく、例えば、ルマチャネルのコーディングブロックは、クロマチャネルよりも小さい変換ブロック及び/又は予測ブロックに分割されることが許容され得る。更に別の例では、コーディングブロックの変換ブロック及び/又は予測ブロックへの分割の最大深度がルマチャネルとクロマチャネルとの間で異なっていてもよく、例えば、ルマチャネルのコーディングブロックは、(1つ以上の)クロマチャネルよりも深い変換ブロック及び/又は予測ブロックに分割されることが許容され得る。具体例として、ルマコーディングブロックは、最大2レベルだけ下がる再帰分割によって表すことができる複数のサイズの変換ブロックに分割されてもよく、正方形、2:1/1:2、4:1/1:4などの変換ブロック形状、及び4×4から64×64の変換ブロックサイズが許容され得る。しかしながら、クロマブロックについては、ルマブロックに指定された可能な最大の変換ブロックのみが許容され得る。
コーディングブロックをPBに分割するための幾つかの例示的実装形態では、PB分割の深度、形状、及び/又は他の特性は、PBがイントラコーディングされるかそれともインターコーディングされるかに依存し得る。
コーディングブロック(又は予測ブロック)の変換ブロックへの分割は、四分木分割及び所定のパターン分割を含むがこれらに限定されない様々な例示的な方式で、再帰的又は非再帰的に、コーディングブロック又は予測ブロックの境界の変換ブロックを更に考慮して実施され得る。一般に、結果として得られる変換ブロックは、異なる分割レベルにあってもよく、同じサイズでない場合もあり、形状が正方形でなくてもよい(例えば、それらのブロックは、幾つかの許容されるサイズ及びアスペクト比を有する長方形とすることができる)。
幾つかの実装形態では、コーディング分割ツリー方式又は構造が使用され得る。ルマチャネルとクロマチャネルとに使用されるコーディング分割ツリー方式は、同じでなくてもよい場合がある。言い換えると、ルマチャネルとクロマチャネルとは、別個のコーディングツリー構造を有し得る。更に、ルマチャネルとクロマチャネルとが同じコーディング分割ツリー構造を使用するか、それとも異なるコーディング分割ツリー構造か、及び使用されるべき実際のコーディング分割ツリー構造は、コーディングされているスライスがPスライスか、Bスライスか、それともIスライスかに依存し得る。例えば、Iスライスの場合、クロマチャネルとルマチャネルとは、別個のコーディング分割ツリー構造又はコーディング分割ツリー構造モードを有し得るが、Pスライス又はBスライスの場合、ルマチャネルとクロマチャネルとは、同じコーディング分割ツリー方式を共有し得る。別個のコーディング分割ツリー構造又はモードが適用される場合、ルマチャネルは、あるコーディング分割ツリー構造によってCBに分割され得、クロマチャネルは、別のコーディング分割ツリー構造によってクロマCBに分割され得る。
コーディングブロック及び変換ブロックの分割の具体的な例示的実装形態を以下で説明する。そのような一例示的実装形態では、ベースコーディングブロックが、上述した再帰的四分木分割を使用してコーディングブロックに分割され得る。各レベルで、特定のパーティションの更なる四分木分割を続行すべきかどうかが、ローカルビデオデータ特性によって決定され得る。結果として得られるCBは、様々なサイズの様々な四分木分割レベルにあり得る。ピクチャエリアをインターピクチャ(時間的)予測を使用してコーディングするか、それともイントラピクチャ(空間的)予測を使用してコーディングするかの判断は、CBレベル(又は、3色チャネルの場合にはCUレベル)で行われ得る。各CBは、PB分割タイプに従って、1つ、2つ、4つ、又は他の数のPBに更に分割され得る。1つのPB内で、同じ予測プロセスが適用されてもよく、関連情報はPBベースでデコーダに送られる。PB分割タイプに基づく予測プロセスを適用することによって残差ブロックを取得した後、CBを、CBのコーディングツリーと同様の別の四分木構造に従ってTBに分割することができる。この特定の実装形態では、CB又はTBは、正方形状に限定されなくてもよい。更にこの特定の例では、PBは、インター予測では正方形又は長方形の形状であってもよく、イントラ予測では正方形のみであってもよい。コーディングブロックは、例えば4つの正方形形状のTBに更に分割され得る。各TBは、(四分木分割を使用して)再帰的に、残差四分木(Residual Quad-Tree(RQT))と呼ばれるよりも小さいTBに更に分割され得る。
ベースコーディングブロックをCB及び他のPB及び又はTBに分割するための別の具体例を以下で説明する。例えば、図10に示されるような複数のパーティションユニットタイプ使用するのではなく、二分割及び三分割のセグメント化構造を使用するネストされたマルチタイプツリーを有する四分木が使用されてもよい。CB、PB、及びTBの概念の分離(すなわち、CBのPB及び/又はTBへの分割、ならびにPBのTBへの分割)は、CBが更なる分割を必要とし得る、最大変換長には大きすぎるサイズを有するCBに必要な場合を除いて、断念されてもよい。この例示的な分割方式は、予測と変換の両方を更なる分割なしにCBレベルで実行できるように、CB分割形状のより高い柔軟性をサポートするように設計され得る。このようなコーディングツリー構造では、CBは正方形又は長方形のどちらかの形状を有し得る。具体的には、コーディングツリーブロック(CTB)が、まず四分木構造によって分割され得る。次いで、四分木のリーフノードは、マルチタイプツリー構造によって更に分割され得る。図11にマルチタイプツリー構造の一例を示す。具体的には、図11の例示的なマルチタイプツリー構造は、垂直二分割(SPLIT_BT_VER)(1102)、水平二分割(SPLIT_BT_HOR)(1104)、垂直三分割(SPLIT_TT_VER)(1106)、及び水平三分割(SPLIT_TT_HOR)(1108)の4つの分割タイプを含む。CBはその場合、マルチタイプツリーのリーフに対応する。この例示的実装形態では、CBが最大変換長に対して大きすぎない限り、このセグメント化は、更なる分割なしで予測と変換両方の処理に使用される。これは、ほとんどの場合、CB、PB、及びTBが、ネストされたマルチタイプツリーコーディングブロック構造を有する四分木において同じブロックサイズを有することを意味する。例外が発生するのは、サポートされる最大変換長がCBの色成分の幅又は高さよりも小さい場合である。
1つのCTBのブロック分割のネストされたマルチタイプツリーコーディングブロック構造を有する四分木の一例が図12に示されている。より詳細には、図12は、CTB1200が4つの正方形パーティション1202、1204、1206、及び1208に四分木分割されることを示している。分割のために図11のマルチタイプツリー構造を更に使用する決定は、四分木分割されたパーティションのそれぞれについて行われる。図12の例では、パーティション1204はこれ以上分割されない。パーティション1202及びパーティション1208は、別の四分木分割をそれぞれ採用する。パーティション1202では、第2レベルの四分木分割された左上パーティション、右上パーティション、左下パーティション、及び右下パーティションは、四分木、図11の1104、非分割、及び図11の1108の第3レベルの分割をそれぞれ採用する。パーティション1208は別の四分木分割を採用し、第2レベルの四分木分割された左上パーティション、右上パーティション、左下パーティション、及び右下パーティションは、図11の1106、非分割、非分割、及び図11の1104の第3レベルの分割をそれぞれ採用する。1208の第3レベルの左上パーティションのサブパーティションのうちの2つは、1104及び1108に従って更に分割される。パーティション1206は、2つのパーティションへの図11の1102による第2レベルの分割パターンを採用し、2つのパーティションは図11の1108及び1102に従って第3レベルで更に分割される。第4レベルの分割が、図11の1104に従ってそれらのうちの1つに更に適用される。
上記の具体例では、最大ルマ変換サイズは64×64であってもよく、サポートされる最大クロマ変換サイズを、ルマとは異なる、例えば32×32とすることもできる。ルマコーディングブロック又はクロマコーディングブロックの幅又は高さが最大変換幅又は最大変換高さよりも大きい場合、ルマコーディングブロック又はクロマコーディングブロックは、水平方向及び/又は垂直方向の変換サイズ制限を満たすように水平方向及び/又は垂直方向に自動的に分割され得る。
上記のベースコーディングブロックをCBに分割するための具体例では、コーディングツリー方式は、ルマとクロマとが別個のブロックツリー構造を有する能力をサポートし得る。例えば、Pスライス及びBスライスの場合、1つのCTU内のルマCTBとクロマCTBは同じコーディングツリー構造を共有し得る。Iスライスの場合、例えば、ルマとクロマとは別個のコーディングブロックツリー構造を有し得る。別個のブロックツリーモードが適用される場合、ルマCTBは1つのコーディングツリー構造によってルマCBに分割されてもよく、クロマCTBは別のコーディングツリー構造によってクロマCBに分割される。これは、Iスライス内のCUはルマ成分のコーディングブロック又は2つのクロマ成分のコーディングブロックからなり得、Pスライス又はBスライス内のCUは常に、ビデオがモノクロでない限り3つの色成分全てのコーディングブロックからなることを意味する。
コーディングブロック又は予測ブロックを変換ブロックに分割するための例示的実装形態、及び変換ブロックのコーディング順序を、以下で更に詳細に説明する。幾つかの例示的実装形態では、変換分割は、例えば4×4から64×64までの範囲の変換ブロックサイズを有する、複数の形状、例えば1:1(正方形)、1:2/2:1、及び1:4/4:1の変換ブロックをサポートし得る。幾つかの実装形態では、コーディングブロックが64×64以下の場合、変換ブロック分割は、クロマブロックについては、変換ブロックサイズがコーディングブロックサイズと同一であるように、ルマ成分にのみ適用され得る。そうではなく、コーディングブロックの幅又は高さが64よりも大きい場合には、ルマコーディングブロックとクロマコーディングブロックの両方が、それぞれ、min(W,64)×min(H,64)及びmin(W,32)×min(H,32)の変換ブロックの倍数に暗黙的に分割され得る。
幾つかの例示的実装形態では、イントラコーディングされたブロックとインターコーディングされたブロックの両方について、コーディングブロックが、所定の数のレベル(例えば、2レベル)までの分割深度を有する複数の変換ブロックに更に分割され得る。変換ブロックの分割深度及びサイズは、関連し得る。現在の深度の変換サイズから次の深度の変換サイズへの例示的なマッピングを以下で表1に示す。
表1の例示的なマッピングによれば、1:1正方形ブロックの場合、次のレベルの変換分割は、4つの1:1正方形サブ変換ブロックを作成し得る。変換分割は、例えば、4×4で停止し得る。したがって、4×4の現在の深度の変換サイズは、次の深度の4×4の同じサイズに対応する。表1の例では、1:2/2:1の非正方形ブロックの場合、次のレベルの変換分割は2つの1:1の正方形サブ変換ブロックを作成し、1:4/4:1の非正方形ブロックの場合、次のレベルの変換分割は2つの1:2/2:1サブ変換ブロックを作成する。
幾つかの例示的実装形態では、イントラコーディングされたブロックのルマ成分に対して、更なる制限が適用され得る。例えば、変換分割のレベルごとに、全てのサブ変換ブロックは、等しいサイズを有するように制限され得る。例えば、32×16のコーディングブロックの場合、レベル1の変換分割は、2つの16×16のサブ変換ブロックを作成し、レベル2の変換分割は、8つの8×8のサブ変換ブロックを作成する。言い換えると、変換ユニットを等しいサイズに保つために、第2レベルの分割が全ての第1レベルのサブブロックに適用されなければならない。表1に従ったイントラコーディングされた正方形ブロックのための変換ブロック分割の一例を、矢印で示されたコーディング順序と共に図13に示す。具体的には、1302は正方形コーディングブロックを示している。表1による4つの等しいサイズの変換ブロックへの第1レベルの分割が、矢印で示されたコーディング順序と共に1304に示されている。表1による全ての第1レベルの等しいサイズのブロックの16個の等しいサイズの変換ブロックへの第2レベルの分割が、矢印で示されたコーディング順序と共に1306に示されている。
幾つかの例示的実装形態では、インターコーディングされたブロックのルマ成分に対して、イントラコーディングに対する上記の制限が適用されない場合がある。例えば、第1レベルの変換分割の後に、サブ変換ブロックのいずれか1つが、もう1つのレベルで更に独立して分割され得る。よって、結果として得られる変換ブロックは、同じサイズのものである場合もそうでない場合もある。インターコーディングされたブロックのコーディング順序を有する変換ブロックへの例示的分割を図14に示す。図14の例では、インターコーディングされたブロック1402は、表1に従って2つのレベルで変換ブロックに分割される。第1レベルで、インターコーディングされたブロックは、等しいサイズの4つの変換ブロックに分割される。次いで、4つの変換ブロックのうちの(それらの全てではなく)1つのみが4つのサブ変換ブロックに更に分割され、1404で示されるように、2つの異なるサイズを有する合計7つの変換ブロックが得られる。これらの7つの変換ブロックの例示的なコーディング順序が、図14の1404に矢印で示されている。
幾つかの例示的実装形態では、(1つ以上の)クロマ成分に対して、変換ブロックについての何らかの追加の制限が適用され得る。例えば、(1つ以上の)クロマ成分について、変換ブロックサイズは、コーディングブロックサイズと同じ大きさとすることができるが、所定のサイズ、例えば8×8より小さくすることはできない。
幾つかの他の例示的実装形態では、幅(W)又は高さ(H)が64よりも大きいコーディングブロックについて、ルマコーディングブロックとクロマコーディングブロックの両方が、それぞれ、min(W,64)×min(H,64)及びmin(W,32)×min(H,32)の変換ユニットの倍数に暗黙的に分割され得る。
図15は、コーディングブロック又は予測ブロックを変換ブロックに分割するための別の代替的な例示的方式を更に示す。図15に示すように、再帰変換分割を使用する代わりに、コーディングブロックの変換タイプに従って所定の分割タイプのセットがコーディングブロックに適用され得る。図15に示す特定の例では、6つの例示的な分割タイプのうちの1つが、コーディングブロックを様々な数の変換ブロックに分割するために適用され得る。このような方式が、コーディングブロック又は予測ブロックのどちらかに適用され得る。
より詳細には、図15の分割方式は、図15に示すように、任意の所与の変換タイプに対して最大6つの分割タイプを提供する。この方式では、全てのコーディングブロック又は予測ブロックに、例えばレート歪みコストに基づいて変換タイプが割り当てられ得る。一例では、コーディングブロック又は予測ブロックに割り当てられる分割タイプは、コーディングブロック又は予測ブロックの変換分割タイプに基づいて決定され得る。図15に例示される4つの分割タイプによって示されるように、特定の分割タイプが、変換ブロックの分割サイズ及びパターン(又は分割タイプ)に対応し得る。様々な変換タイプと様々な分割タイプとの間の対応関係が、事前定義され得る。例示的な対応関係を、レート歪みコストに基づいてコーディングブロック又は予測ブロックに割り当てられ得る変換タイプを示す大文字のラベルと共に以下に示す。
・PARTITION_NONE:ブロックサイズに等しい変換サイズを割り当てる。
・PARTITION_SPLIT:ブロックサイズの1/2の幅、ブロックサイズの1/2の高さの変換サイズを割り当てる。
・PARTITION_HORZ:ブロックサイズと同じ幅、ブロックサイズの1/2の高さの変換サイズを割り当てる。
・PARTITION_VERT:ブロックサイズの1/2の幅、ブロックサイズと同じ高さの変換サイズを割り当てる。
・PARTITION_HORZ4:ブロックサイズと同じ幅、ブロックサイズの1/4の高さの変換サイズを割り当てる。
・PARTITION_VERT4:ブロックサイズの1/4の幅、ブロックサイズと同じ高さの変換サイズを割り当てる。
上記の例では、図15に示される分割タイプは全て、分割された変換ブロックについての均一な変換サイズを含む。これは限定ではなく単なる例である。幾つかの他の実装形態では、混合変換ブロックサイズが、特定の分割タイプ(又はパターン)における分割された変換ブロックについて使用され得る。
上記の区分方式のいずれかから得られたPB(又は、予測ブロックに更に分割されていない場合はPBとも呼ばれるCB)は、イントラ予測又はインター予測のいずれかを介してコーディングのための個々のブロックになり得る。現在のPBにおけるインター予測のために、現在のブロックと予測ブロックとの間の残差が、生成され、コーディングされ、コーディングされたビットストリームに含まれ得る。
イントラ予測プロセスに戻るが、本プロセスでは、ブロック(例えば、luma予測ブロックもしくはchroma予測ブロック、又は予測ブロックに更に分割されていない場合にはコーディングブロック)中のサンプルを、近傍にあるもの、次に近傍にあるものもしくは他の1つ以上のラインのサンプル又はこれらの組み合わせによって予測して予測ブロックを生成する。その後、コーディング中の実際のブロックと予測ブロックとの間の残差を量子化後に変換により処理してもよい。様々なイントラ予測モードを利用可能にするすることができ、イントラモードの選択に関連するパラメータ及びその他パラメータをビットストリームでシグナリングすることができる。当該様々なイントラ予測モードは、例えば、サンプルの予測に用いられる1つ以上のライン位置、予測サンプルを1つ以上の予測ラインから選択する際に進む方向や、他の特別なイントラ予測モードに関係してもよい。
例えば、イントラ予測モード(「イントラモード」とも呼びかえられる)の集合は既定の個数の方向イントラ予測モードを含んでもよい。図1の実現例に関して上述されているように、これらのイントラ予測モードは、特定のブロック内の予測中のサンプルの予測先としてブロック外のサンプルを選択する際に進む既定の個数の方向に対応してもよい。別の特定の実現例では、水平軸に対する45~207度の角度に対応する8つの主要な方向モードがサポートされた既定のモードであってもよい。
イントラ予測の他の実現例では、方向テクスチャにおいてより多くの種類の空間的冗長さを更に利用するために、方向イントラモードを粒度の高い角度集合に更に拡張してもよい。例えば、図16に示されているように、上記の8つの角度の実現例を、名称を付した8つの角度(V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED及びD67_PREDと称する)を提供するように構成してもよく、名称を付した角度ごとに、既定の個数(例えば7つ)のより刻みの小さい角度を加えてもよい。このように拡張すれば、方向の角度の総数が大きくなり(例えば、本例では56個)、当該総数の方向の角度をイントラ予測に用いることができ、これらはそれと同数の既定の方向イントラモードに対応する。予測角度を、名称を付したイントラ角度と、これに付随する角度刻み(angle delta)とで表してもよい。名称を付した角度ごとに刻みの小さい7つの角度方向がある上記の特定の例では、角度刻みは-3~3であってもよく、ステップサイズが増加して3度増加する。
幾つかの実現例では、上記の方向イントラモードに加えて、又は上記の方向イントラモードの代わりに、方向性を持たない既定の個数のイントラ予測モードも既定のモードであってもよく、これらのモードも利用可能にしてもよい。例えば、スムーズイントラ予測モードと称される方向性を持たない5つのイントラモードを指定してもよい。これらの方向性を持たないイントラモード予測モードを特にDCイントラモード、PAETHイントラモード、SMOOTHイントラモード、SMOOTH_Vイントラモード及びSMOOTH_Hイントラモードと称する場合がある。これらの方向性を持たないモードの例を用いた特定のブロックのサンプルの予測が図17に示されている。例えば、図17は、上の近傍ライン及び/又は左の近傍ラインから得られるサンプルによって4×4ブロック2002が予測される様子を示す。ブロック1702内の特定のサンプル1710は、ブロック1702の上の近傍ラインにおいてサンプル1710の真上のサンプル1704と、上の近傍ラインと左の近傍ラインとの交差部分としてサンプル1710の左上にあるサンプル1706と、ブロック1702の左の近傍のラインにおいてサンプル1710の真左にあるサンプル1708とに対応してもよい。DCイントラ予測モードの例では、左の近傍サンプル1708と上の近傍サンプル1704との平均値をサンプル2010の予測値として用いてもよい。PAETHイントラ予測モードの例では、上、左及び左上参照サンプル1704、1708及び1706を取得してもよく、その後、(上+左-左上)に最も近い、これらの3つの参照サンプル間のどのような値でもサンプル1710の予測値として設定してもよい。SMOOTH_Vイントラ予測モードの例では、左上の近傍サンプル1706及び左の近傍サンプル1708の垂直方向の2次補間(quadratic interpolation)によってサンプル1710を予測してもよい。SMOOTH_Hイントラ予測モードの例では、左上の近傍サンプル1706及び上の近傍サンプル1704の水平方向の2次補間によってサンプル1710を予測してもよい。SMOOTHイントラ予測モードの例では、垂直方向及び水平方向の2次補間の平均によってサンプル1710を予測してもよい。上記の方向性を持たないイントラモードの実現例は限定を課さない例として示されているのにすぎない。他の近傍ラインや、方向性を持たない他のサンプル選択法も考えられ、予測ブロック内の特定のサンプルを予測するための予測サンプルの組み合わせ方も考えられる。
様々なコーディングの規模(ピクチャ、スライス、ブロック、ユニットなど)の上記の方向モードや方向性を持たないモードからエンコーダによってどのイントラ予測モードを選択したかをビットストリームでシグナリングしてもよい。幾つかの実現例では、まず、名称を付した8つの典型的な方向モードを角度を用いない5つのスムーズモードとともに(合計13個の選択肢)シグナリングしてもよい。その後、シグナリングされたモードが、名称を付した角度を用いる8つのイントラモードのうちの1つである場合、対応するシグナリングされた名称を付した角度に対して選択された角度刻みを示すインデックスを更にシグナリングする。他の実現例では、シグナリングのために全てのイントラ予測モード(例えば、56個の方向モードに方向性を持たない5つのモードを足して61個のイントラ予測モードを得る)に一斉にインデックスを付してもよい。
幾つかの実現例では、56個又は他の個数の方向イントラ予測モードの例を、ブロックの各サンプルを参照サブサンプル位置まで射影して2タップの双線形フィルタによって参照サンプルを内挿する統一的な方向予測値を用いて実施してもよい。
幾つかの実現例では、エッジ上の参照との減少する空間的相関を捉えるために、FILTER INTRAモードと称する更なるフィルタモードを設計してもよい。当該モードでは、ブロック外のサンプルに加えてブロック内で予測されるサンプルをイントラ予測参照サンプルとしてブロック内の幾つかのパッチに用いてもよい。これらのモードは、例えば、事前定義され、少なくともルマブロック(又はルマブロックのみ)のイントラ予測に利用可能にされ得る。予め定義された数(例えば、5)のフィルタイントラモードを予め設計することができ、そのそれぞれは、例えば4×2パッチ内のサンプルとそれに隣接するn個の近隣との間の相関を反映するnタップフィルタ(例えば、7タップフィルタ)のセットによって表される。言い換えると、nタップフィルタの重み係数が位置に依存してもよい。図18に示されているように、一例として8×8ブロック、4×2パッチ及び7タップフィルタリングを用いる場合、8×8ブロック2002を8個の4×2パッチに分割してもよい。図18ではこれらのパッチはB0、B1、B1、B3、B4、B5、B6、及びB7で示されている。パッチごとに、その7つの近隣(図18でR0~R7で示されている)を対象のパッチ内のサンプルを予測するのに用いてもよい。パッチB0については、全ての近隣が既に再構成されている場合がある。一方で他のパッチについては、近隣の一部が対象のブロック内にあるので、再構成されていない場合があり、その際には、間近の近隣の予測値を参照として用いる。例えば、図18に示されているパッチB7の全ての近隣が再構成されていないので、代わりに近隣の予測サンプルが用いられる。
イントラ予測の幾つかの実現例では、1つの色成分を1つ以上の他の色成分を用いて予測してもよい。色成分がYCrCb色空間、RGB色空間、XYZ色空間などの成分のいずれか1つであってもよい。例えば、luma成分(例えばluma参照サンプル)からchroma成分(例えばchromaブロック)を予測する予測Chroma from LumaすなわちCfLと称する)を実施してもよい。幾つかの実現例では、クロスカラー予測(cross-color prediction)について多くがlumaからchromaにしか許容されない。例えば、chromaブロック内のchromaサンプルを、対応する再構成されたlumaサンプルの1次関数としてモデル化してもよい。CfL予測を以下のように実施してもよい。
CfL(α)=α×LAC+DC (1)
ここで、LACはluma成分のAC寄与分を示し、αは線形モデルのパラメータを示し、DCはchroma成分のDC寄与分を示す。例えば、AC成分がブロックのサンプルごとに得られるのに対して、DC成分はブロック全体に対して得られる。更に言えば、再構成されたlumaサンプルにサブサンプリングを行ってchroma解像度を得てもよく、その後、各luma値から平均luma値(lumaのDC)を差し引いてlumaのAC寄与分を生成してもよい。その後、LumaのAC寄与分を式(1)の線形モードに用いてchroma成分のAC値を予測する。luma AC寄与分からchroma AC成分の近似値を得たり予測したりするために、スケーリングパラメータを計算することをデコーダに要求する代わりに、CfLの実現例では、元のchromaサンプルに基づいてパラメータαを決定してこれをビットストリームでシグナリングしてもよい。これにより、デコーダの複雑さが緩和され、より正確な予測が得られる。chroma成分のDC寄与分については、幾つかの実現例ではchroma成分中のイントラDCモードを用いて計算してもよい。
イントラ予測の代わりに、PBは、単一参照又は複合参照インター予測モードのいずれかでインター予測され得る。特に、インター予測モードでは、ビデオブロックは、単一参照又は複合参照インター予測のいずれかを介して、1つ以上の他のフレームから1つ以上の他の参照ブロック又はインター予測ブロックによって予測され得る。インター予測を実施するために、参照ブロックは、そのフレーム識別子(参照ブロックの時間位置)と、符号化又は復号されている現在のブロックと参照ブロックとの間の空間オフセットを示す動きベクトル(参照ブロックの空間位置)とによって指定され得る。参照フレーム識別及び動きベクトルは、ビットストリーム内でシグナリングされ得る。空間ブロックオフセットとしての動きベクトルは、直接シグナリングされてもよいし、別の参照動きベクトル又は予測子動きベクトルによってそれ自体が予測されてもよい。例えば、現在の動きベクトルは、参照動きベクトル(例えば、候補隣接ブロック)によって直接、又は参照動きベクトルと、現在の動きベクトルと参照動きベクトルとの間の動きベクトル差(MVD)との組み合わせによって予測されてもよい。後者は、動きベクトル差を用いたマージモード(MMVD)と呼ばれることがある。参照動きベクトルは、例えば、現在のブロックの空間的に隣接するブロック又は時間的に隣接するが空間的に一緒に配置されたブロックへのポインタとしてビットストリーム内で識別され得る。
幾つかの実装形態では、複合インターイントラ予測(CIIP)モードが実施され得る。CIIPモードでは、予測ブロックは、イントラ予測(又はイントラ予測子)ブロックとインター予測(イントラ予測子)ブロックとの組み合わせとして導出され得る。CIIPにおけるインター予測ブロックは、動きベクトルに対応する並進動作を伴う単一の参照インター予測を使用して導出され得るが、CIIPにおけるイントラ予測ブロックは、前述したイントラ予測モードのサブセットに基づいて隣接サンプルから決定され得る。幾つかの例示的な実装形態において、CIIPモードで予測されている現在のブロックのイントラ予測ブロック内の空間サンプルは、前述したDC_PRED、V_PRED、H_PRED、及びSMOOTHモードを含むイントラ予測モードのサブセットのうちの1つに従ってイントラ参照ラインサンプルから導出され得る。イントラ予測ブロックを導出するためのイントラ予測モードのこのサブセットのそれぞれの使用は、表2に示すように、CIIPサブ・モード・インデックスに対応し得る。
現在のブロックにおける複合インターイントラ予測(又は予測子)ブロックは、上記の説明に従って導出されたように、サンプルレベルでイントラ予測ブロックとインター予測ブロックとのサンプルレベル重み付け和として生成され得る。したがって、イントラ予測ブロックとインター予測ブロックとの間の相対的な重みは、重み行列によって表され得る。CIIPの様々なインターイントラ重み付けモードに対応して、重み行列が決定される様々な例示的な態様を実施することができる。
通常CIIPと呼ばれるCIIPの重み付けモードの1つの例示的な実装形態では、現在のブロック内のサンプルに対応するインターイントラ重み行列の要素は、サンプルの位置との決定論的関係に従うことができる。そのような決定論的関係は、使用されているイントラ予測モードに依存し得る。1つの特定の例において、イントラ予測サンプルP 0(x、y)(ここで、x、yはブロックにおけるサンプル位置を表す)に適用される重み付けは、以下のように導出され得る。
ここで、sizeScaleは、ブロック幅(W)及びブロック高さ(H)を用いて以下のように導出され、
sizeScale=128/max(W,H)、 (3)
WeightLUTは1次元ルックアップテーブルを表す。WeightLUT[index]の値は、インデックスによって示される位置でルックアップテーブル内のエントリによって決定される。一次元重みルックアップテーブルの一例が以下の表3に示される。
上記の通常CIIPの例において、イントラ予測における重み付けは、一般に、DC_PREDモードを除き、サンプルがブロックの左上隅から離れるにつれて(又は、イントラ予測参照サンプルから離れるにつれて)減少し、インター予測重み付けはサンプル位置とは無関係である。言い換えれば、表3に例示された実施形態は、サンプル位置がイントラ参照サンプルから離れるにつれてインター予測重みが増大する方式を反映する。
ウェッジCIIPと呼ばれる、CIIPにおける幾つかの他の例示的なインターイントラ重み付け実装形態では、重みパターンのセットを定義することができ、重みパターンのセットのうちの1つをエンコーダによって現在のブロックに関して選択することができる。重みパターンのセット内の選択されたパターンのインデックスは、ビットストリーム内でシグナリングされ得る。そのようなパターンは、ブロックの各サンプルについてイントラ予測ブロックとインター予測ブロックとを結合/加算するために使用される特定の重み行列を決定するために現在のブロックに適用され得る。例えば、16個の異なるパターン(ウェッジパターンとも呼ばれる)を予め定義し、インデックス0~15で表すことができる。ウェッジCIIPでは、パターンのインデックスが指定されると、表3の所定のルックアップテーブルを使用して通常CIIPの手法でサンプルごとにシグナリングされるのではなく、ブロックの重み行列全体が導出される。
任意のCIIPにおいて、上記の重み行列が取得されてイントラ予測ブロックとインター予測ブロックとを結合するために適用されると、そのような結合ブロックは、残差ブロックを取得するために現在ブロックにおける実際の予測ブロックとして使用され得る。次いで、残差ブロックは、エンコーダの観点から、一次変換、及び任意選択的に第2の変換、ならびに量子化及びエントロピーコーディングプロセスの残りを受け得る。デコーダの場合、ビットストリームは、残差ブロックを取得するために解析/復号され、逆変換される。デコーダが、ビットストリームから、現在のブロックのためにCIIPが使用されると決定する場合、ビットストリームから抽出された情報(上記でシグナリングされたルックアップインデックス、又は上記でシグナリングされたウェッジパターンインデックスのいずれか)に基づいて、CIIPの重み行列を更に取得することができる。次いで、予測ブロックは、重み行列と、現在のフレーム又は参照フレームにおける既に再構成されたサンプルからの対応するイントラ予測ブロック及びインター予測から導出され得る。次いで、当初のブロックを残差ブロック及び予測ブロックから復元することができる。
一次変換に目を向けると、例示的な2 D変換プロセスは、両方の次元に関して同じ変換カーネルを使用することに加えて、ハイブリッド変換カーネル(これは、例えば、コーディングされた残差ブロックのそれぞれの次元ごとに異なる1-D変換から構成されてもよい)の使用を伴うことができる。例示的なプライマリ1-D変換カーネルは、a)4ポイント(4 p)、8ポイント(8 p)、16ポイント(16 p)、32ポイント(32 p)及び64ポイント(64 p)DCT-2、b)4ポイント、8ポイント、16ポイントの非対称DST及びそれらの反転されたバージョン、c)4ポイント、8ポイント、16ポイント又は32ポイントの恒等変換(DSTは離散サイン変換を表す)を含み得るが、これらに限定されない。したがって、2 D変換プロセスは、ハイブリッド変換又は変換カーネル(コーディングされた残差ブロックのそれぞれの次元ごとに異なる変換)の使用を伴うことができ、それぞれの次元ごとに使用されるべき変換又は変換カーネルの選択は、レート歪み(RD)基準に基づくことができる。変換カーネルという用語は、代替的に変換基底関数と呼ばれる場合がある。例えば、2 D変換のハイブリッドとして実装され得る1 D DCT-2、DST-4及びDST-7の基底関数を表4に列挙する(ここで、DCTは離散コサイン変換を表す)。
例えば、DCT-2(4 p - 64 p)、DST-4(8 p、16 p)、及びDST-7(4 p)変換は、対称性/逆対称性特性を示し、したがって、幾つかの例示的な実装形態では、(乗算、加算/部分、シフト)演算カウント数を減らすために、「部分的なバタフライ」実装をサポートすることができる。部分的なバタフライ実装は、図19に記載されているように、様々な角度での三角余弦関数及び正弦関数を使用した平面回転を伴い得る。例示的な12ビットルックアップテーブルが図20及び図21に示されており、このテーブルを三角関数の値を生成するために利用することができる。
幾つかの例示的な実装形態では、1-D DST又はDCT及び上記の他の変換カーネルの代わりに、又はそれらと組み合わせて、折れ線グラフ変換(LGT)又は変換カーネルを使用することができる。本質的に、図22に示すように、グラフは、関心対象間の親和性関係をモデル化するために使用され得る頂点及びエッジのセットからなる一般的な数学的構造である。実際には、加重グラフ(重みの集合を辺に割り当てるのに用いられ、頂点にも割り当てる可能性がある)によって信号/データのロバストなモデリングのための疎な表現を提供することができる。LGTは、多様なブロック統計のためのより良い適応を提供することによってコーディング効率を改善することができる。(それぞれの1-D変換ごとの)分離可能なLGTは、訓練データから、残差ブロック信号の基礎となる行及び列ごとの統計をモデル化するために、折れ線グラフ(図22の例に示すように、自己ループ重みvc1、vc2及びエッジ重みwcによって特徴付けられる)を学習することによって設計及び最適化することができ、関連する一般化グラフラプラシアン(GGL)行列が、LGTを導出するために使用される。
重み付きグラフG(W,V)が与えられると、GGL行列は以下のように定義される。
Lc=D-W+V (4)
ここで、Wは非負のエッジ重みwcからなる隣接行列であり、Dは対角度行列であり、Vは重み付き自己ループvc1、vc2を表す対角行列である。行列Lcは、以下のように表すことができる。
その後、LGTをGGL Lcの固有値分解によって導出することができる。
Lc=UΦUT (6)
ここで、直交行列Uの列がLGTの基底ベクトルであり、Φは対角固有値行列である。実際、GGLは、DCT及びDSTを含む変換を導出するための一般的なスキームと考えることができる。例えば、DCT-2、DCT-8及びDST-7は、特定の形態のGGLに由来するLGTである。
vc1=0を設定することによってDCT-2が導出される (7)
vc1=wcを設定することによってDST-7が導出される (8)
vc2=wcを設定することによってDCT-8が導出される (9)
vc1=2wcを設定することによってDST-4が導出される (10)
vc2=2wcを設定することによってDCT-4が導出される (11)
より一般的な用途では、自己ループ重みvc1及びvc2を特定の値に設定することによって、異なるLGTコアを生成することができる。更に、LGTコアの基底ベクトルは、最適なLGTコアを生成するために基底ベクトルの個々の重みを特定のダイナミックレンジにわたって調整することによって直交性について調整することもできる。エンコーダは、ブロック統計から自己ループ重みvc1及びvc2を学習し、現在のコーディングブロック残差の変換を実行する際に使用するためのLGT基底ベクトルを最適化及び導出し、デコーダが対応する逆LGTを導出するためにビットストリーム内のLGT変換関連情報をシグナリングすることができる。
幾つかの他の実装形態では、これらに限定されないが、コルホネン-レーベ変換(KLT)カーネル及び行列変換(RCT)カーネルを含む1つ以上の他のオフライン訓練一次変換カーネルを使用することができる。これらのタイプのカーネルは、データ駆動型であり、様々なタイプのビデオにおけるブロック、列及び行の統計及び相関を学習するように事前訓練される。実際の用途では、これらのオフラインで訓練された変換カーネル又は基底関数は、変換セットと呼ばれる候補変換関数のセットの少なくとも一部を形成することができる。エンコーダは、特定の変換ブロックの分析を実行し、オフラインで訓練された変換カーネルを使用するかどうか、及び使用する場合、候補オフラインで訓練された変換カーネルのうちのどれかを決定することができる。逆変換を実行するべく、デコーダが選択されたカーネルを識別又は導出するために、関連情報がビットストリームでシグナリングされる。
上記の様々な変換カーネルは、分離可能な1-D変換カーネル又は分離されていない2-D変換カーネルとして設計されてもよい。分離可能な1 D変換の場合、2 D画像ブロック内の2つの次元のそれぞれは、1 D変換カーネル(例えば、分離可能DCTカーネル、分離可能DSTカーネル、分離可能LGTカーネル、分離可能KLTカーネル、又は分離可能RCTカーネルなど)を独立して適用することによって別々に処理することができる。分離不可能な2 D変換の場合、2 Dブロックの2つの次元は、分離不可能な変換カーネル(例えば、分離不可能なDCTカーネル、分離不可能なDSTカーネル、分離不可能なLGTカーネル、分離不可能なKLTカーネル、又は分離不可能なRCTカーネルなど)に基づいて共に変換され得る。
幾つかの更なる例示的な実装形態では、上記のCIIPは、任意の予測ブロックの残差を変換するために上記の一次変換カーネルのいずれか1つを使用することができる。候補変換カーネルは、カーネルセットを形成することができる。候補カーネルのセットは、DCT、DST、LGT、KLT、RCTカーネル、及び他の導出又は事前訓練されたカーネルの任意の組み合わせに基づく変換カーネルを含むことができる。例えば、候補カーネルのセットは、LGT、KLT、RCT、又は他の導出もしくは事前訓練された変換カーネルから選択された複数の変換カーネルを含むことができる。エンコーダによって導出されたLGT、KLT、RCTカーネルなどの変換カーネルは、事前訓練による学習されたブロック統計及び/又は符号化プロセス中の特定の入力ビデオのデータ特性に基づいている。これらの変換カーネルは、DCT、DST、ADST、FLIPADST(反転されたADST)、IDTX(Identify Transform)などの決定論的及びルールベースの変換カーネルとは対照的に、データ駆動変換カーネルと呼ばれる場合がある。
幾つかの実装形態では、特定の予測ブロックの候補カーネルから選択される変換カーネルのタイプは、CIIPスキームで使用されるイントラ予測モードに関して描写された表2で前述したものなどのCIIPサブモードに基づくことができる。例えば、変換カーネルのタイプ(例えば、LGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネルタイプ)又は変換カーネル候補のセットの中の特定の変換カーネルは、CIIPサブモードに従って事前に定義され得る。特定の例では、コーディングされている特定のタイプのビデオの一般的なブロック統計によれば、特定のタイプのLGT、KLT、RCT、又は他の導出もしくは事前訓練された変換カーネルが使用されるとき、特定のCIIPサブモードに対してより高いコーディング利得が得られ得る。特定のCIIPサブモードには、(より多くのシグナリングオーバーヘッドを必要とし、ほとんど使用されないカーネルを含むより大きなセットではなく)カーネル候補カーネルのより小さなセットが必要とされ得る。カーネルのより小さいセットは、より良好なコーディング利得を提供するために、LGT、KLT、RCT、他の導出又は事前訓練されたタイプのカーネルを含むことができる。
幾つかの例示的な実装形態では、CIIPサブモードと変換カーネル又は特定の変換カーネルのタイプとの間の対応関係は、1対1の対応関係である必要はない。特定の例では、複数のCIIPサブモードは、1つ以上の同じタイプの変換カーネル又は1つ以上の同じ特定の変換カーネルに関連付けられているものとして指定されてもよい。単なる一例として、表2のCIIPサブモード0~2は、KLT又はRCT変換カーネルを使用するようにマッピングされてもよく、CIIPサブモード3は、LGTカーネルを使用するように指定されてもよい。
幾つかの例示的な実装形態では、LGT、KLT、又はRCT、及び1つ以上のCIIPサブモードで使用される他の導出又は事前訓練されたカーネルは、別個の1 D変換カーネルであってもよい。幾つかの他の例示的な実装形態では、LGT、KLT、又はRCT、及び1つ以上のCIIPサブモードで使用される他の導出又は事前訓練されたカーネルは、非別個の2 D変換カーネルであってもよい。
分離可能な1-D変換の幾つかの例示的な実装形態では、変換ブロックの2つの次元は、変換カーネルの異なるセット又は変換カーネルのタイプを採用することができる。例えば、CIIPにおける各次元における変換は、LGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネルタイプ、又は通常の所定のDCT、DST、ADST、FLIPADST、IDTXカーネルタイプなどのいずれかのカーネルを選択することができる。候補カーネル又はカーネルタイプのセットは、上記の表2に示された例示的なサブモードなどのCIIPサブモードに更に依存し得る。例えば、表2のCIIPサブモード1、II_V_PREDモードの場合、重み付きインターイントラ予測を用いたイントラ予測はV_PREDサブモードであり得る。そのような状況では、例えば、CIIP残差のための垂直変換カーネルのセットは、1つ以上のLGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネルを含むことができ、一方、水平変換カーネルのセットは、通常のDCT、DST、ADST、FLIPADST、IDTXカーネルなどを含むことができる。同様に、表2のCIIPサブモード2、II_H_PREDモードの場合、重み付きインターイントラ予測を用いたイントラ予測はH_PREDサブモードであり得る。そのような状況では、例えば、CIIP残差の水平変換カーネルのセットは、1つ以上のLGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネルを含むことができ、一方、垂直変換カーネルのセットは、通常のDCT、DST、ADST、FLIPADST、IDTXカーネルなどを含むことができる。表2のCIIPサブモード3の場合、別の例では、垂直及び水平変換カーネルの両方は、1つ以上のLGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネルのみを含むことができる。CIIPサブモード0の場合、更に別の例では、垂直変換カーネル及び水平変換カーネルの両方は、1つ以上の通常のDCT、DST、ADST、FLIPADST、IDTXカーネルなどのみを含むことができる。通常型及び導出/事前訓練型の変換カーネルのCIIPサブモード依存使用の様々な上記の実装形態は、単なる例である。様々な他の組み合わせも考えられる。
幾つかの例示的な実装形態では、LGT、KLT、RCT、又は他の導出もしくは事前訓練されたカーネル候補のセットのパラメータは、ビデオストリームでシグナリングされてもよい。これらのカーネルの様々なサブセットはまた、例えば、候補カーネルのセットのインデックスのサブグループとして、ビットストリーム内でシグナリングされてもよい。これらのサブグループのそれぞれは、例えば、グループインデックスによって識別することができる。特定のブロックに対するカーネルの選択は、グループインデックス、次いでグループ内のインデックスによって決定され得る。幾つかの実装形態では、LGT、KLTもしくはRCT、又は変換グループからの他の導出又は事前訓練されたカーネルの中からのカーネルの選択は、ブロックレベルでシグナリングされ得る。言い換えれば、変換カーネルの決定及び選択は、ブロックごとに異なり得る。
幾つかの例示的な実施態様では、LGT、KLTもしくはRCT、又はブロックごとの他の導出もしくは事前訓練されたカーネルの中からの変換カーネルの選択は、コーディングされているブロックのブロックサイズに依存し得る。ブロックサイズという用語は、ブロックの幅もしくは高さ、又は幅及び高さの最大値、又は幅及び高さの最小値、又は領域サイズ(幅*高さ)のいずれかを指すことができる。換言すれば、LGT、KLTもしくはRCT、又は他の導出されたもしくは事前訓練されたカーネルのうちのどれが特定の変換ブロックに使用されるか、及び/又はどのカーネルが特定の変換ブロックに使用されるかは、ブロックの幅、高さ、又はそれらの組み合わせから決定することができる(例えば、ブロックの幅及び高さの最大値、又は幅及び高さの最小値、又は面積)。ブロックサイズと使用されるカーネルとの間のマッピングは、コーディング統計の一般的な分析に基づいて予め決定されてもよい。ブロックサイズの範囲(例えば、ブロックの幅、高さ、幅及び高さの最大値、幅及び高さの最小値、又は面積の範囲)は、特定のLGT、KLTもしくはRCT、又は他の導出もしくは事前訓練されたカーネル、又は特定の種類の導出もしくは事前訓練されたカーネルにマッピングされてもよい。例えば、2つ以上のブロックサイズ範囲が事前定義されてもよく、範囲のそれぞれは1つ以上の所定の変換カーネルに対応してもよい。そのような実装形態では、LGT、KLTもしくはRCT、又は特定のブロックを変換するために選択されている他の導出又は事前訓練されたカーネルは、ブロックサイズを介して示される(又は暗黙的にシグナリングされる)ことができ、したがってビットストリームで明示的にシグナリングされる必要はない場合がある。
幾つかの代替実施態様では、LGT、KLTもしくはRCT、又はブロックごとの他の導出又は事前訓練されたカーネルの中からの変換カーネルの選択は、コーディングされているブロックのブロック形状に依存し得る。ブロック形状という用語は、ブロックの幅-高さアスペクト比、高さ-幅アスペクト比、幅-高さアスペクト比及び高さ-幅アスペクト比の最大値、又は幅-高さアスペクト比及び高さ-幅アスペクト比の最小値を指すことができる。言い換えれば、LGT、KLTもしくはRCT、又は他の導出されたもしくは事前訓練されたカーネルのいずれが特定の変換ブロックに使用されるかどうか及び/又はどの変換ブロックに使用されるかは、ブロックの幅-高さ比、高さ-幅アスペクト比、幅-高さアスペクト比及び高さ-幅アスペクト比の最大値、又は幅-高さアスペクト比及び高さ-幅アスペクト比の最小値から決定することができる。ブロック形状と使用されるカーネルとの間のマッピングは、コーディング統計の一般的な分析に基づいて予め決定されてもよい。ブロック形状の範囲は、特定のLGT、KLTもしくはRCT、又は他の導出もしくは事前訓練されたカーネル、又は特定の種類の導出もしくは事前訓練されたカーネルにマッピングされてもよい。例えば、2つ以上の形状範囲が事前定義されてもよく、範囲のそれぞれは1つ以上の所定の変換カーネルに対応する。そのような実装形態では、LGT、KLTもしくはRCT、又は特定のブロックを変換するために選択されている他の導出又は事前訓練されたカーネルは、ブロック形状を介して示される(又は暗黙的にシグナリングされる)ことができ、したがってビットストリーム内で明示的にシグナリングされる必要はない場合がある。
幾つかの例示的な実装形態では、ブロックサイズとブロック形状との組み合わせは、特定の1つ又はLGT、KLTもしくはRCTのセット、又は他の導出もしくは事前訓練されたカーネルにマッピングされてもよく、又は特定の1つ以上のタイプの導出もしくは事前訓練された変換カーネルにマッピングされてもよい。この場合も先と同様に、そのような実装形態では、特定のブロックを変換するために選択されているLGT、KLTもしくはRCT、又は他の導出されたもしくは事前訓練されたカーネルは、ブロックサイズ及び形状の組み合わせによって示される(又は暗黙的にシグナリングされる)ことができ、したがってビットストリーム内で明示的にシグナリングされる必要はない場合がある。
幾つかの例示的な実装形態では、LGTが使用される場合、自己ループ重み(自己ループ重みvc1及びvc2)及び/又は自己ループ重み比(自己ループ重みvc1とvc2との間の比)の選択は、予測ブロックのサイズ(幅、高さ、幅と高さの最大値、幅と高さの最小値、又は領域サイズ(幅*高さ))に基づくことができる。言い換えれば、コーディングブロックを変換するために使用されるGTLの自己ループ重み及び/又は自己ループ重み比の選択は、ブロック(例えば、ブロックの幅及び高さの最大値、又は幅及び高さの最小値、又は面積)の幅、高さ、又はそれらの組み合わせから決定することができる。LGTに使用されるブロックサイズと自己ループ重み又は自己ループ重み比との間のマッピングは、コーディング統計の一般的な分析に基づいて予め決定されてもよい。ブロックサイズの範囲(例えば、ブロックの幅、高さ、幅及び高さの最大値、幅及び高さの最小値、又は面積の範囲)は、自己ループ重み又は自己ループ重み比の特定のセットにマッピングされ得る。例えば、2つ以上のブロックサイズ範囲を事前定義することができ、範囲のそれぞれは、ブロックの残差を変換するためにGTLが選択されたときの自己ループ重み又は自己ループ重み比のセットに対応する。そのような実装形態では、ブロックに対して選択されているLGTの自己ループ重み又は自己ループ重み比は、ブロックサイズによって示される(又は暗黙的にシグナリングされる)場合があり、したがって、ビットストリーム内で明示的にシグナリングされる必要はない場合がある。
幾つかの例示的な実装形態では、同様に、LGTが使用される場合、自己ループ重み及び/又は自己ループ重み比(自己ループ重みvc1とvc2との間の比)の選択は、予測ブロックの形状(例えば、幅-高さアスペクト比、高さ-幅アスペクト比、幅-高さアスペクト比及び高さ-幅アスペクト比の最大値、又は幅-高さアスペクト比及び高さ-幅アスペクト比の最小値である)に基づくことができる。言い換えると、自己ループ重み及び/又は自己ループ重み比の選択は、ブロックの幅-高さアスペクト比、高さ-幅アスペクト比、幅-高さアスペクト比及び高さ-幅アスペクト比の最大値、又は幅-高さアスペクト比及び高さ-幅アスペクト比の最小値から決定されてもよい。LGTに使用されるブロック形状と自己ループ重み又は自己ループ重み比との間のマッピングは、コーディング統計の一般的な分析に基づいて予め決定されてもよい。ブロック形状の範囲は、自己ループ重み又は自己ループ重み比の特定のセットにマッピングされ得る。例えば、2つ以上のブロック形状範囲を事前定義することができ、範囲のそれぞれは、ブロックの残差を変換するためにGTLが選択されたときの自己ループ重みのセット又は自己ループ重み比に対応する。例えば、正方形のブロックは、GTLに対して特定の自己ループ重み比又は自己ループ重み比の特定のセットを使用してマッピングされ得るが、非正方形のブロックは、GTLに対して異なる自己ループ重み比又は自己ループ重み比の異なるセットを使用してマッピングされ得る。そのような実装形態では、ブロックに対して選択されているLGTの自己ループ重み又は自己ループ重み比は、ブロック形状を介して示される(又は暗黙的にシグナリングされる)場合があり、したがって、ビットストリーム内で明示的にシグナリングされる必要はない場合がある。
幾つかの例示的な実装形態では、ブロックレベル及び任意の他のコーディングレベルで通常CIIPとウェッジCIIPとの間で選択を行うことができる。そのような選択は、ブロックレベル又は他のコーディングレベルでビットストリーム内でシグナリングされ得る。幾つかの更なる実装形態では、通常CIIP又はウェッジCIIPの重み付けスキームの下でブロックが予測されるかどうかは、実際の全体的な予測ブロックを生成する際にイントラ予測ブロックとインター予測ブロックとの間の空間的重み付けに影響を与えるだけでなく、対応する残差ブロックを変換するための変換カーネル又は変換カーネルのタイプを決定するために使用されてもよい。
例えば、LGT、KLTもしくはRCT、又は他の導出されたもしくは事前訓練されたカーネルの使用に関する上記の様々なカーネル選択手法は、通常CIIP下でブロックが予測される場合にのみ適用することができ、一方、ウェッジCIIP(例えば、所定のDCT、ADST、DST変換カーネルなど)下でブロックが予測される場合には、所定のカーネル又は所定のカーネルのセットが使用される。
同様に、幾つかの他の代替実施態様では、LGT、KLTもしくはRCT、又は他の導出もしくは事前訓練されたカーネルの使用に関する上記の様々なカーネル選択手法は、ウェッジCIIP下でブロックが予測される場合にのみ適用され得るが、通常CIIP(例えば、所定のDCT、ADST、DST変換カーネルなど)下でブロックが予測される場合には、所定のカーネル又は所定のカーネルセットが使用される。ウェッジCIIPの幾つかの更なる実装形態では、CIIP残差を変換するための変換セットから使用されるLGT、KLT、RCT又は他の導出もしくは事前訓練されたカーネルの選択は、CIIPに使用されるウェッジパターンに依存し得る。言い換えれば、ウェッジパターンと変換カーネルとの間のマッピングを事前定義することができる。そのような実施態様では、変換セットから使用されるべきLGT、KLT、RCT又は他の導出もしくは事前訓練されたカーネルの選択は、ウェッジCIIPに使用するために選択されたウェッジパターンによって暗黙的に示されてもよく、したがって明示的にシグナリングされる必要はない(又は、ウェッジパターン選択のためのシグナリングを介して間接的にシグナリングされる必要があるのみである)。
CIIPについての上記の様々な実施態様は、一次変換の文脈で説明されている。基礎となる原理は、分離可能な1 D実装又は分離不可能な2 D実装のいずれかで、LGT、KLT、RCT及び他の導出又は事前訓練されたカーネル、及び他のタイプのカーネルの選択を伴う二次変換にも適用可能である。
上記の実装の幾つかを組み込んだ例示的なデコーダを以下に提供する。この例では、デコーダは、ビデオビットストリームを受信し、現在の符号化ブロックを抽出することができる。エンコーダは、現在ブロックのエントロピーコーディングに関連する構成を更に抽出し、エントロピー復号を実行し、続いて符号化ブロックの逆量子化を実行して、現在ブロックの残差ブロックの変換係数を生成することができる。デコーダは、ビットストリーム内のシグナリングから、現在のブロックがCIIPモード下でインター予測されるか、イントラ予測されるか、又は予測されるかを含む、現在のブロックの様々なコーディングモードを更に抽出することができる。デコーダがCIIPモードが使用されると決定した場合、デコーダは、複数のサブモード(例えば、上記の表2に示すCIIPサブモード)のうちのどのCIIP重み付けサブモード及びどの空間重みパターンモードがCIIPに使用されるか(例えば、席のCIIP又はウェッジCIIPのいずれか)を更に決定することができる。例えば、そのような決定は、ビットストリームから抽出されたシグナリング情報に基づいてもよい。現在のブロックに使用されるインターイントラ予測重み付けサブモード及び空間重みパターンモードは、ビットストリーム内で信号的に別々に又は一緒にされてもよい。空間重みパターンモードの場合、重みに関して追加のシグナリングがビットストリームから抽出され得る(例えば、上記の表3などのインターイントラ予測重み付けルックアップテーブルを参照した現在のブロックの各空間サンプルのインデックス、又は複数の所定のウェッジ重み付けパターンの中のウェッジ重み付けパターンに対応するインデックス)。したがって、デコーダは、現在のブロックのインターイントラ重み行列を決定することができる。エンコーダは更に、現在のブロックのために使用される一次変換カーネル(及び、セカンダリ変換が現在のブロックのコーディングにおいても使用されると決定される場合、第2の変換カーネル)を決定し得る。変換カーネルは、変換カーネルセット内にあってもよい。変換カーネルセットは、ビットストリームから抽出された情報/シグナリングからデコーダによって決定され得る。デコーダは、ビットストリームにおける追加のシグナリングを用いて、変換カーネルセットにおける変換カーネルのうちの現在のブロックのために使用される変換を決定し得る。変換カーネルセットは、所定のDST、DCT、ADST、FLIPADST、IDTXカーネルなどに加えて、LGT、KLT、RCT、及び他の導出/事前訓練変換カーネルのうちの1つ以上を含むことができる。エンコーダは、現在のブロックに分離可能な1-D変換が使用されているか分離不可能な2-D変換が使用されているかを更に決定し、2つの次元のそれぞれ又は両方について適切な変換カーネルを決定することができる。現在のブロックに使用されている実際のカーネルは、明示的にシグナリングされてもよく(例えば、変換カーネルセット内のインデックスを使用する)、又は他のパラメータに基づいて暗黙的に導出されてもよい。例えば、変換カーネル(複数可)は、上記でより詳細に説明したように、これらの既に抽出されたパラメータと変換カーネル(複数可)との間のマッピング関係と併せて、既に抽出されたCIIP重み付けサブモード、CIIP重み付けパターンモード、及び/又はCIIP重み付けパターンインデックスを決定することによって識別することができる。変換カーネルが決定され取得されると、デコーダは、次に、残差ブロックを生成するために(上記の復号プロセスを介して生成された)残差ブロックの変換係数の逆変換を実行することができる。次いで、デコーダは、上記で導出されたインターイントラ重み付け行列に従って、残差ブロックを、既に再構成されたインター予測サンプル及びイントラ予測サンプルと組み合わせてブロックを生成することができる。
エンコーダの対応する例は、符号化されたブロックを生成し、符号化されたビットストリームに様々なシグナリング情報を含めるために、コーディングされているブロックの様々なCIIPモード、重み付け行列、変換カーネルセット、及び変換カーネルを決定する上記の逆処理ステップに従う。
上記の実施態様では、用語ブロックは、コーディングブロック、予測ブロック、又は変換ブロックとして解釈され得る。ブロックサイズは、ブロックの幅もしくは高さ、又は幅及び高さの最大値、又は幅及び高さの最小値、又はブロックの領域サイズ(幅*高さ)、又はアスペクト比(幅:高さ、又は高さ:幅)のいずれかを指すことができる。更に、クロマチャネルという用語は、Cb色成分とCr色成分の両方、又はU色成分とV色成分の両方を含むことができる。ルマチャネルという用語は、ルマ色成分又はY色成分を含むことができる。
図23は、上記の実装の基礎となる原理に従う例示的なビデオ復号方法のフローチャート2300を示す。例示的な方法フロー2300は、2301で開始する。S 2310では、ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されると決定する。S 2320において、ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成が決定される。S 2330において、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルが識別される。S 2340において、ビデオブロックの残差ブロックは、少なくともデータ駆動変換カーネルを使用して、ビデオブロックのためのビデオストリームから抽出される変換係数のセットを逆変換することによって生成される。S 2350において、ビデオブロックは、残差ブロック、少なくとも1つのインターイントラ予測重み付け構成、ビデオブロックの少なくとも1つの再構成されたインター予測ブロック、及び、ビデオブロックの少なくとも1つの再構成されたイントラ予測参照サンプルに基づいて導出される。例示的な方法フロー2300は、S 2399で終了する。
図24は、上記の実装形態の基礎となる原理に従う例示的なビデオ符号化方法のフローチャート2400を示す。例示的な方法フロー2400は、2401で開始する。S 2410では、複合インターイントラ予測(CIIP)モードにおいてビデオブロックが予測されるべきである決定される。S 2420では、ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成が決定される。S 2430において、変換カーネルセットの中からビデオブロックのためのデータ駆動変換カーネルが選択される。S 2440では、ビデオブロックの残差ブロックが、少なくともビデオブロック、少なくとも1つのインターイントラ予測重み付け構成、ビデオブロックの少なくとも1つのインター予測ブロック、及びビデオブロックの少なくとも1つのイントラ予測参照サンプルに基づいて生成される。S 2450において、ビデオブロックの変換係数のセットを生成するために、少なくともデータ駆動変換カーネルを使用して残差ブロックが変換される。S 2460において、変換係数のセットは、符号化された後にインターイントラ予測重み付け構成と共にビデオストリームに含めるために量子化及びエントロピーコーディングされる。例示的な方法フロー2400は、S 2499で終了する。
本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わせされてもよい。更に、方法(又は実施形態)のそれぞれ、エンコーダ、及びデコーダは、処理回路(例えば、1つもしくは複数のプロセッサ又は1つもしくは複数の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。本開示の実施形態は、ルマブロック又はクロマブロックに適用されてもよい。
上記で説明した技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つ以上のコンピュータ可読媒体に物理的に記憶され得る。例えば、図25は、開示された主題の特定の実施形態を実施するために適したコンピュータシステム(2500)を示している。
コンピュータソフトウェアは、1つ以上のコンピュータ中央処理装置(CPU:central processing unit)及びグラフィック処理装置(GPU:Graphics Processing Unit)などによって直接的に、又は解釈及びマイクロコードの実行などを通して実行され得る命令を含むコードを生成するために、アセンブリ、コンパイル、リンキング、又は同様のメカニズムを受け得る任意の適切なマシンコード又はコンピュータ言語を使用してコーディングされ得る。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネット・デバイスなどを含む、様々なタイプのコンピュータ又はその構成要素で実行されてもよい。
コンピュータシステム(2500)に関して図25に示している構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能の範囲に関する限定を示唆することを意図していない。また、構成要素の構成は、コンピュータシステム(2500)の例示的な実施形態に示す構成要素のいずれか1つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。
コンピュータシステム(2500)は、特定のヒューマンインターフェース入力デバイスを含んでもよい。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を通して1人又は複数の人間のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスを用いて、音声(発話、音楽、周囲音など)、画像(スキャン画像、静止画像カメラから取得される写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、人間による意識的な入力に必ずしも直接関係ない特定の媒体をキャプチャし得る。
入力ヒューマンインターフェースデバイスには、キーボード(2501)、マウス(2502)、トラックパッド(2503)、タッチスクリーン(2510)、データグローブ(図示せず)、ジョイスティック(2505)、マイクロフォン(2506)、スキャナ(2507)、カメラ(2508)のうちの1つ以上が含まれてもよい(それぞれの1つのみが描写されている)。
コンピュータシステム(2500)はまた、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を介して、1人又は複数の人間のユーザの感覚を刺激している場合がある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(2510)、データグローブ(図示せず)、又はジョイスティック(2505)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)、オーディオ出力デバイス(スピーカ(2509)、ヘッドホン(図示せず)など)、視覚出力デバイス(CRT画面、LCD画面、プラズマ画面、OLED画面を含むスクリーン(2510)などであって、それぞれタッチスクリーン入力機能の有無にかかわらず、触覚フィードバック機能の有無にかかわらず、その一部は、2次元の視覚出力又は立体出力などの手段による3次元以上の出力を出力できる、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ、スモークタンク(図示せず))、ならびにプリンタ(図示せず)を含んでもよい。
コンピュータシステム(2500)はまた、CD/DVDなどの媒体(2521)を備えたCD/DVD ROM/RW(2520)を含む光学媒体、サムドライブ(2522)、リムーバブルハードドライブ又はソリッドステートドライブ(2523)、テープ及びフロッピーディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングル(図示せず)などの特殊なROM/ASIC/PLDベースのデバイスなどの、人間がアクセス可能な記憶装置及びその関連媒体を含むことができる。
当業者はまた、現在開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、又は他の一時的な信号を包含しないことを理解するはずである。
コンピュータシステム(2500)は、1つ以上の通信ネットワーク(2555)へのインターフェース(2554)を含むこともできる。ネットワークは、例えば、ワイヤレス、有線、光であり得る。ネットワークは更に、ローカル、広域、メトロポリタン、車両及び産業、リアルタイム、遅延耐性などとすることができる。ネットワークの例には、Ethernetなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビ及び地上波テレビを含むテレビの有線又は無線広域デジタルネットワーク、CAN busを含む車両用及び産業用などが含まれる。特定のネットワークは通常、特定の汎用データポート又は周辺バス(2549)(例えば、コンピュータシステム(2500)のUSBポート)に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明するように、システムバスに接続することによってコンピュータシステム(2500)のコアに統合される(例えば、PCコンピュータシステムに対するイーサネットインターフェース、又はスマートフォンコンピュータシステムに対するセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(2500)は他のエンティティと通信し得る。このような通信は、単一方向、受信のみ(例えば、テレビ放送)、単一方向の送信のみ(例えば、CANbusから特定のCANbusデバイスへ)、又は双方向、例えば、ローカル又はワイドエリアデジタルネットワークを使用する他のコンピュータシステムに対して行い得る。特定のプロトコル及びプロトコルスタックは、上記で説明したように、それらのネットワーク及びネットワークインターフェースのそれぞれで使用され得る。
前述のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、及びネットワークインターフェースは、コンピュータシステム(2500)のコア(2540)に取り付けられ得る。
コア(2540)は、1つ以上の中央処理装置(CPU)(2541)、グラフィックス処理装置(GPU)(2542)、フィールドプログラマブルゲートエリア(FPGA)(2543)の形式の専用のプログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ(2544)、及びグラフィックスアダプタ(2550)などを含み得る。これらのデバイスは、読み取り専用メモリ(ROM)(2545)、ランダムアクセスメモリ(2546)、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ(2547)とともに、システムバス(2548)を介して接続されてもよい。一部のコンピュータシステムでは、システムバス(2548)に1つ以上の物理プラグの形式でアクセスして、追加のCPU、GPUなどによる拡張が可能である。周辺デバイスは、コアのシステムバス(2548)に直接接続することも、周辺バス(2549)を介して接続することもできる。一例では、スクリーン(2510)は、グラフィックスアダプタ(2550)に接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。
CPU(2541)、GPU(2542)、FPGA(2543)、及びアクセラレータ(2544)は、組み合わせて前述のコンピュータコードを構成し得る特定の命令を実行し得る。そのコンピュータコードは、ROM(2545)又はRAM(2546)に記憶され得る。また、移行データをRAM(2546)に記憶することもでき、永続データを、例えば内部大容量ストレージ(2547)に記憶することができる。メモリデバイスのいずれかへの高速な記憶及び読み出しは、1つ以上のCPU(2541)、GPU(2542)、大容量ストレージ(2547)、ROM(2545)、RAM(2546)などに密接に関連するキャッシュメモリを使用することで可能になり得る。
コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有し得る。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであり得るか、又はそれらは、コンピュータソフトウェア技術のスキルを有する人々に周知かつ利用可能な種類であり得る。
非限定的な例として、アーキテクチャを有するコンピュータシステム(2500)、特にコア(2540)は、(CPU、GPU、FPGA、アクセラレータなどを含む)(1つ以上の)プロセッサが、1つ以上の有形のコンピュータ可読媒体において具体化されたソフトウェアを実行した結果として機能を提供することができる。このようなコンピュータ可読媒体は、上記で紹介したユーザアクセス可能な大容量記憶装置に、ならびにコア内部大容量ストレージ(2547)又はROM(2545)などの非一時的な性質のコア(2540)の特定の記憶装置に、関連する媒体であり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア(2540)によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイス又はチップを含み得る。ソフトウェアは、コア(2540)及び具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM(2546)に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載した特定のプロセスを、又は特定のプロセスの特定の部分を実行させ得る。加えて、又は代替として、コンピュータシステムは、回路(例えば、アクセラレータ(2544))に結線接続又はその他の方法で具現化されたロジックの結果として機能性を提供することができ、それは、本明細書に記載した特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと共に動作し得る。必要に応じて、ソフトウェアへの参照はロジックを包含することができ、その逆も同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のためのロジックを具体化する回路、又はこれらの両方を包含し得る。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
本開示は幾つかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、及び様々な代替の等価な例がある。したがって、当業者は、本明細書に明示的に示されていない又は説明していないが、本開示の原理を実施し、したがって本開示の精神及び範囲内にある多数のシステム及び多数の方法を考案することができることが理解されよう。
付記A:頭字語
JEM:共同探索モデル
VVC:多用途ビデオコーディング
BMS:ベンチマークセット
MV:動きベクトル
HEVC:高効率ビデオコーディング
SEI:補足強化情報
VUI:ビデオのユーザビリティ情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:コーディングツリーユニット
CTB:コーディングツリーブロック
PB:予測ブロック
HRD:仮想参照デコーダ
SNR:信号ノイズ比
CPU:中央処理装置
GPU:グラフィックス処理装置
CRT:ブラウン管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタルビデオディスク
ROM:読み取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブルロジックデバイス
LAN:ローカルエリアネットワーク
GSM:グローバル移動体通信システム
LTE:ロングタームエボリューション
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺構成要素相互接続
FPGA:フィールドプログラマブルゲートエリア
SSD:ソリッドステートドライブ
IC:集積回路
HDR:ハイダイナミックレンジ
SDR:標準ダイナミックレンジ
JVET:共同ビデオ探索チーム
MPM:最確モード
WAIP:広角イントラ予測
CU:コーディングユニット
PU:予測ユニット
TU:変換ユニット
CTU:コーディングツリーユニット
PDPC:位置依存予測組み合わせ
ISP:イントラサブパーティション
SPS:シーケンスパラメータ設定
PPS:ピクチャパラメータセット
APS:適応パラメータセット
VPS:ビデオパラメータセット
DPS:復号パラメータセット
ALF:適応ループフィルタ
SAO:サンプル適応オフセット
CC-ALF:クロスコンポーネント適応ループフィルタ
CDEF:コンストレインドディレクショナル・エンハンスメントフィルタ
CCSO:クロスコンポーネントサンプルオフセット
LSO:ローカルサンプルオフセット
LR:ループ復元フィルタ
AV1:AOMedia Video 1
AV2:AOMedia Video 2
101 サンプル
102 矢印
103 矢印
104 正方形ブロック
180 概略図
201 現在のブロック
202 周囲のサンプル
203 周囲のサンプル
204 周囲のサンプル
205 周囲のサンプル
206 周囲のサンプル
300 通信システム
310 端末デバイス
320 端末デバイス
330 端末デバイス
340 端末デバイス
350 ネットワーク
400 通信システム
401 ビデオソース
402 ビデオピクチャのストリーム
403 ビデオエンコーダ
404 ビデオデータ
405 ストリーミングサーバ
406 クライアントサブシステム
407 ビデオデータのコピー
408 クライアントサブシステム
409 ビデオデータのコピー
410 ビデオデコーダ
411 ビデオピクチャの出力ストリーム
412 ディスプレイ
413 ビデオ取り込みサブシステム
420 電子デバイス
430 電子デバイス
501 チャネル
510 ビデオデコーダ
512 レンダリングデバイス、ディスプレイ
515 バッファメモリ
520 パーサ
521 シンボル
530 電子デバイス
531 受信機
551 スケーラ/逆変換ユニット
552 イントラピクチャ予測ユニット
553 動き補償予測ユニット
555 アグリゲータ
556 ループフィルタユニット
557 参照ピクチャメモリ
558 現在のピクチャバッファ
601 ビデオソース
603 ビデオエンコーダ
620 電子デバイス
630 ソースコーダ
632 コーディングエンジン
633 ローカルデコーダ
634 参照ピクチャメモリ
635 予測器
640 送信機
643 コーディングされたビデオシーケンス
645 エントロピーコーダ
650 コントローラ
660 通信チャネル
703 ビデオエンコーダ
721 汎用コントローラ
722 イントラエンコーダ
723 残差計算器
724 残差エンコーダ
725 エントロピーエンコーダ
726 スイッチ
728 残差デコーダ
730 インターエンコーダ
810 ビデオデコーダ
871 エントロピーデコーダ
872 イントラデコーダ
873 残差デコーダ
874 再構成モジュール
880 インターデコーダ
902 分割オプション
904 分割オプション
906 分割オプション
908 分割オプション
1002 左T型パーティション
1004 上T型パーティション
1006 右T型パーティション
1008 下T型パーティション
1010 全て正方形のパーティション
1102 垂直二分割(SPLIT_BT_VER)
1104 水平二分割(SPLIT_BT_HOR)
1106 垂直三分割(SPLIT_TT_VER)
1108 水平三分割(SPLIT_TT_HOR)
1200 コーディングツリーブロック(CTB)
1202 正方形パーティション
1204 正方形パーティション
1206 正方形パーティション
1208 正方形パーティション
1302 正方形コーディングブロック
1304 第1レベルの分割
1402 インターコーディングされたブロック
1404 変換ブロック
1702 ブロック
1704 サンプル
1706 サンプル
1708 サンプル
1710 サンプル
2002 ブロック
2010 サンプル
2300 フローチャート
2400 フローチャート
2500 コンピュータシステム
2501 キーボード
2502 マウス
2503 トラックパッド
2505 ジョイスティック
2506 マイクロフォン
2507 スキャナ
2508 カメラ
2509 スピーカ
2510 タッチスクリーン
2520 CD/DVD ROM/RW
2521 CD/DVDなどの媒体
2522 サムドライブ
2523 リムーバブルハードドライブ又はソリッドステートドライブ
2540 コア
2541 中央処理装置(CPU)
2542 グラフィックス処理装置(GPU)
2543 フィールドプログラマブルゲートエリア(FPGA)
2544 ハードウェアアクセラレータ
2545 読み取り専用メモリ(ROM)
2546 ランダムアクセスメモリ(RAM)
2547 内部大容量ストレージ
2548 システムバス
2549 周辺バス
2550 グラフィックスアダプタ
2554 ネットワークインターフェース
2555 ネットワーク
前述の実装形態のいずれか1つにおいて、データ駆動変換カーネルがLGTカーネルを含み、LGTカーネルの自己ループ比がビデオブロックのサイズ又は形状によって示される

Claims (20)

  1. ビデオストリームにおけるビデオブロックを復号するための方法であって、
    前記ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されると決定するステップであって、前記ビデオブロックが前記CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出される、ステップと、
    前記ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定するステップと、
    変換カーネルセットの中から前記ビデオブロックのためのデータ駆動変換カーネルを識別するステップと、
    少なくとも前記データ駆動変換カーネルを使用して、前記ビデオブロックのための前記ビデオストリームから抽出される変換係数のセットを逆変換することによって前記ビデオブロックの残差ブロックを生成するステップと、
    前記残差ブロックと、前記少なくとも1つのインターイントラ予測重み付け構成と、前記ビデオブロックの少なくとも1つの再構成されたインター予測ブロックと、前記ビデオブロックの少なくとも1つの再構成されたイントラ予測参照サンプルとに基づいて前記ビデオブロックを導出するステップと
    を含む方法。
  2. 前記データ駆動変換カーネルは、事前訓練された変換カーネル又は前記ビデオブロック内のデータ分布に基づく導出された変換カーネルを含む、請求項1に記載の方法。
  3. 前記データ駆動変換カーネルは、データ駆動折れ線グラフ変換(LGT)カーネル、事前訓練されたコロネン-レーベ変換カーネル、又は事前訓練された行-列変換(RCT)カーネルのうちの1つを含む、請求項2に記載の方法。
  4. 前記データ駆動変換カーネルが1次元分離可能変換カーネルを含む、請求項3に記載の方法。
  5. 前記データ駆動変換カーネルが2次元分離不可能変換カーネルを含む、請求項3に記載の方法。
  6. 前記変換カーネルセットの中から前記ビデオブロックのための非データ駆動変換カーネルを識別するステップを更に含み、前記ビデオブロックの前記残差ブロックを生成するステップは、
    前記ビデオブロックの前記残差ブロックを生成するために、前記ビデオブロックの2つの次元のうちの一方における前記データ駆動変換カーネルと前記ビデオブロックの前記2つの次元のうちの他方における前記非データ駆動変換カーネルとを使用して、前記ビデオブロックのための前記ビデオストリームから抽出される前記変換係数のセットを変換するステップ
    を含む、請求項1に記載の方法。
  7. 複数のCIIPサブモードの中から前記ビデオブロックのためのCIIPサブモードを決定するステップを更に含み、前記複数のCIIPサブモードが前記CIIPモードのイントラ予測モードのサブセットに対応し、前記データ駆動変換カーネルが前記CIIPサブモードに基づいて前記変換カーネルセットから選択される、請求項1に記載の方法。
  8. 複数のCIIPサブモードが同じデータ駆動変換カーネルにマッピングする、請求項7に記載の方法。
  9. 非データ駆動変換カーネルを識別するステップを更に含み、
    前記CIIPサブモードが垂直_PREDイントラ予測モードに対応し、
    前記ビデオブロックの前記残差ブロックを生成するステップは、前記ビデオブロックの前記残差ブロックを生成するために、前記ビデオブロックの垂直次元における前記データ駆動変換カーネルと前記ビデオブロックの水平次元における前記非データ駆動変換カーネルとを使用して、前記ビデオブロックのための前記ビデオストリームから抽出される前記変換係数のセットを逆変換するステップを含む、請求項7に記載の方法。
  10. 非データ駆動変換カーネルを識別するステップを更に含み、
    前記CIIPサブモードが水平_PREDイントラ予測モードに対応し、
    前記ビデオブロックの前記残差ブロックを生成するステップは、前記ビデオブロックの前記残差ブロックを生成するために、前記ビデオブロックの水平次元における前記データ駆動変換カーネルと前記ビデオブロックの垂直次元における前記非データ駆動変換カーネルとを使用して、前記ビデオブロックのための前記ビデオストリームから抽出される前記変換係数のセットを逆変換するステップを含む、請求項7に記載の方法。
  11. 前記変換カーネルセットの中から前記ビデオブロックのための前記データ駆動変換カーネルを識別するステップは、前記ビデオブロックのサイズ又は前記ビデオブロックの形状に基づく、請求項1に記載の方法。
  12. 前記ビデオブロックの前記サイズは、前記ビデオブロックの幅、高さ、前記幅及び前記高さの最大値、前記幅及び前記高さの最小値、又は面積を含み、
    前記ビデオブロックの前記形状は、幅-高さアスペクト比、高さ-幅アスペクト比、前記幅-高さアスペクト比及び前記高さ-幅アスペクト比の最大値、又は前記幅-高さアスペクト比及び前記高さ-幅アスペクト比の最小値を含む、請求項11に記載の方法。
  13. 前記データ駆動変換カーネルがLGTカーネルを含み、
    前記LGTカーネルの自己ループ比が前記ビデオブロックのサイズ又は形状によって示される、請求項1に記載の方法。ブロック。
  14. 前記ビデオブロックの前記サイズは、前記ビデオブロックの幅、高さ、前記幅及び前記高さの最大値、前記幅及び前記高さの最小値、又は面積を含み、
    前記ビデオブロックの前記形状は、幅-高さアスペクト比、高さ-幅アスペクト比、前記幅-高さアスペクト比及び前記高さ-幅アスペクト比の最大値、又は前記幅-高さアスペクト比及び前記高さ-幅アスペクト比の最小値を含む、請求項13に記載の方法。
  15. 前記少なくとも1つのインターイントラ予測重み付け構成は、前記ビデオブロックのためのインターイントラ予測空間重みが前記ビデオストリームにおいて明示的にシグナリングされるか、又は所定のインターイントラ空間重みパターンのセットのうちの1つから導出されるべきであるかを示す、請求項1に記載の方法。
  16. 前記変換カーネルセットの中から前記ビデオブロックのための前記データ駆動変換カーネルを識別するステップは、前記ビデオブロックのための前記インターイントラ予測空間重みが明示的にシグナリングされることを前記少なくとも1つのインターイントラ予測重み付け構成が示すことに応答する、請求項15に記載の方法。
  17. 前記変換カーネルセットの中から前記ビデオブロックのための前記データ駆動変換カーネルを識別するステップは、前記ビデオブロックのための前記インターイントラ予測空間重みが所定のインターイントラ空間重みパターンのセットのうちの1つから導出されることを前記少なくとも1つのインターイントラ予測重み付け構成が示すことに応答する、請求項15に記載の方法。
  18. 所定のインターイントラ空間重みパターンのセットのうちの前記1つは、前記少なくとも1つのインターイントラ予測重み付け構成の一部として示され、
    前記変換カーネルセットのうちの前記データ駆動変換カーネルは、前記少なくとも1つのインターイントラ予測重み付け構成において示されるように前記所定のインターイントラ空間重みパターンのセットのうちのどれかにしたがって識別される、請求項17に記載の方法。
  19. 命令を記憶するためのメモリと、処理回路とを備える、ビデオストリームにおけるビデオブロックを復号するためのデバイスであって、前記処理回路は、前記命令を実行して、
    前記ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されると決定し、前記ビデオブロックが前記CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出され、
    前記ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定し、
    変換カーネルセットの中から前記ビデオブロックのためのデータ駆動変換カーネルを識別し、
    少なくとも前記データ駆動変換カーネルを使用して、前記ビデオブロックのための前記ビデオストリームから抽出される変換係数のセットを逆変換することによって前記ビデオブロックの残差ブロックを生成し、
    前記残差ブロックと、前記少なくとも1つのインターイントラ予測重み付け構成と、前記ビデオブロックの少なくとも1つの再構成されたインター予測ブロックと、前記ビデオブロックの少なくとも1つの再構成されたイントラ予測参照サンプルとに基づいて前記ビデオブロックを導出する
    ように構成された、デバイス。
  20. ビデオストリームにおけるビデオブロックを符号化するための方法であって、
    前記ビデオブロックが複合インターイントラ予測(CIIP)モードで予測されるべきであると決定するステップであって、前記ビデオブロックが前記CIIPモードにおけるイントラ予測とインター予測との組み合わせとして導出される、ステップと、
    前記ビデオブロックのための少なくとも1つのインターイントラ予測重み付け構成を決定するステップと、
    変換カーネルセットの中から前記ビデオブロックのためのデータ駆動変換カーネルを選択するステップと、
    少なくとも前記ビデオブロックと、前記少なくとも1つのインターイントラ予測重み付け構成と、前記ビデオブロックのための少なくとも1つのインター予測ブロックと、前記ビデオブロックの少なくとも1つのイントラ予測参照サンプルとに基づいて、前記ビデオブロックの残差ブロックを生成するステップと、
    前記ビデオブロックの変換係数のセットを生成するために、少なくとも前記データ駆動変換カーネルを使用して前記残差ブロックを変換するステップと、
    符号化された後に前記インターイントラ予測重み付け構成と共に前記ビデオストリームに含めるための前記変換係数のセットを量子化してエントロピーコーディングするステップと
    を含む方法。
JP2023535771A 2021-09-30 2022-09-09 複合インターイントラ予測モードのための適応変換 Pending JP2023553997A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163250815P 2021-09-30 2021-09-30
US63/250,815 2021-09-30
US17/903,807 US20230100043A1 (en) 2021-09-30 2022-09-06 Adaptive Transforms for Compound Inter-Intra Prediction Modes
US17/903,807 2022-09-06
PCT/US2022/042997 WO2023055547A1 (en) 2021-09-30 2022-09-09 Adaptive transforms for compound inter-intra prediction modes

Publications (1)

Publication Number Publication Date
JP2023553997A true JP2023553997A (ja) 2023-12-26

Family

ID=85722215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023535771A Pending JP2023553997A (ja) 2021-09-30 2022-09-09 複合インターイントラ予測モードのための適応変換

Country Status (5)

Country Link
US (1) US20230100043A1 (ja)
JP (1) JP2023553997A (ja)
KR (1) KR20230130090A (ja)
CN (1) CN116420352A (ja)
WO (1) WO2023055547A1 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9661338B2 (en) * 2010-07-09 2017-05-23 Qualcomm Incorporated Coding syntax elements for adaptive scans of transform coefficients for video coding
EP3376764A4 (en) * 2015-11-12 2019-12-04 LG Electronics Inc. METHOD AND DEVICE FOR COEFFICIENT-INDUCED INTRAPREDICATION IN A BILDCODING SYSTEM
FI20165547A (fi) * 2016-06-30 2017-12-31 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
US10743025B2 (en) * 2016-09-01 2020-08-11 Lg Electronics Inc. Method and apparatus for performing transformation using layered givens transform
WO2020166480A1 (ja) * 2019-02-15 2020-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、および復号方法
US11616966B2 (en) * 2019-04-03 2023-03-28 Mediatek Inc. Interaction between core transform and secondary transform
US11134275B2 (en) * 2019-06-04 2021-09-28 Tencent America LLC Method and apparatus for performing primary transform based on filtering of blocks
US11405647B2 (en) * 2020-02-18 2022-08-02 Tencent America LLC Primary transforms using 8-bit and 10-bit cores
EP4300966A1 (en) * 2021-02-24 2024-01-03 LG Electronics Inc. Image coding method and device therefor

Also Published As

Publication number Publication date
KR20230130090A (ko) 2023-09-11
US20230100043A1 (en) 2023-03-30
WO2023055547A1 (en) 2023-04-06
CN116420352A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
KR102647830B1 (ko) 비디오 코딩을 위한 방법 및 장치
CN113614736A (zh) 视频编解码的方法和装置
KR102511621B1 (ko) 비디오 코딩을 위한 방법 및 장치
KR20220127308A (ko) 비디오 코딩을 위한 방법 및 장치
EP4042701A1 (en) Method and apparatus for video coding
JP2024019734A (ja) ビデオコーディングのための方法および装置
KR20220100726A (ko) 비디오 코딩을 위한 방법 및 장치
JP7506176B2 (ja) ビデオ情報を処理するための方法及びコンピュータプログラム
JP7451772B2 (ja) ビデオ情報を処理するための方法、デバイス、およびコンピュータプログラム
US20220353547A1 (en) Entropy coding of sign map for transform coefficients
WO2023003597A1 (en) Cross component end of block flag coding
JP2023525214A (ja) 変換パーティショニングとプライマリ/セカンダリ変換タイプ選択との間の相互作用
US11930177B2 (en) Primary transforms for cross-component level reconstruction
US20230100043A1 (en) Adaptive Transforms for Compound Inter-Intra Prediction Modes
KR20230170759A (ko) 1차원 변환 스킵을 위한 eob의 시그널링
CA3215121A1 (en) Coefficient sign prediction for transform skip
JP2023549771A (ja) 適応カーネルオプションを用いた二次変換の方法および装置
JP2024514116A (ja) パレット予測子生成およびシグナリング
JP2023552148A (ja) 二次変換係数の走査順序
CN117044203A (zh) 用于一维变换跳过的eob的信令

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230612

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240620