JP7500745B2 - ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム - Google Patents

ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム Download PDF

Info

Publication number
JP7500745B2
JP7500745B2 JP2022549707A JP2022549707A JP7500745B2 JP 7500745 B2 JP7500745 B2 JP 7500745B2 JP 2022549707 A JP2022549707 A JP 2022549707A JP 2022549707 A JP2022549707 A JP 2022549707A JP 7500745 B2 JP7500745 B2 JP 7500745B2
Authority
JP
Japan
Prior art keywords
bitstream
flag
coding tree
information
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022549707A
Other languages
English (en)
Other versions
JP2023525619A (ja
JPWO2021232088A5 (ja
Inventor
クリストファー ジェームズ ロゼワーン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2023525619A publication Critical patent/JP2023525619A/ja
Publication of JPWO2021232088A5 publication Critical patent/JPWO2021232088A5/ja
Application granted granted Critical
Publication of JP7500745B2 publication Critical patent/JP7500745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

関連出願への言及
本出願は、2020年5月21日に出願されたオーストラリア特許出願第2020203330号の出願日の35U.S.C§119に基づく利益を主張し、その全体があたかも本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。
本発明は一般に、デジタルビデオ信号処理に関し、特に、ビデオサンプルのブロックを符号化及び復号するための方法、装置及びシステムに関する。本発明はまた、ビデオサンプルのブロックを符号化および復号するためのコンピュータプログラムが記録されたコンピュータ可読媒体を含むコンピュータプログラム製品に関する。
ビデオデータの送信および格納のためのアプリケーションを含む、ビデオコーディングのための多くのアプリケーションが現在存在する。多くのビデオ符号化規格も開発されており、他の規格も現在開発中である。ビデオ符号化標準化における最近の開発は、「Joint Video Experts Team」(JVET)と呼ばれるグループの形成につながった。Joint Video Experts Team (JVET)は、2つの標準設定組織(Standards Setting Organisations)(SSO)、つまり、「Video Coding Experts Group」(VCEG)としても知られる、International Telecommunication Union(ITU)のTelecommunication Standardisation Sector(ITU-T)のStudy Group 16、Question 6(SG16/Q6)と、「Moving Picture Experts Group」(MPEG)としても知られる、国際標準化機構/国際電気標準会議合同技術委員会1/小委員会29/Working Group 11(ISO/IEC JTC1/SC29/WG11)と、のメンバを含む。
Joint Video Experts Team (JVET)は、米国サンディエゴで開催された10回目の会議でレスポンスを分析し、Call for Proposals (CfP)を発表した。提出されたレスポンスは、現在の最新のビデオ圧縮規格、すなわち「high efficiency video coding」(HEVC)の性能を著しく上回るビデオ圧縮能力を実証した。このアウトパフォーマンスに基づいて、「versatile video coding」(VVC)と呼ばれる新しいビデオ圧縮規格を開発するプロジェクトを開始することが決定された。VVCは特に、ビデオフォーマットが(例えば、より高い解像度およびより高いフレームレートで)能力を増加させ、帯域幅コストが比較的高いWAN上のサービス配信に対する市場需要の増加に対処することにつれて、絶えずより高い圧縮性能に対する継続的な需要に対処することが予想される。VVCは、現代のシリコンプロセスにおいて実施可能でなければならず、達成された性能と実施コストとの間の許容可能なトレードオフを提供しなければならない。実装コストは例えば、シリコンエリア、CPUプロセッサロード、メモリ利用率、および帯域幅のうちの1つまたは複数に関して考慮され得る。VVC規格の汎用性の一部は、ビデオデータを圧縮するために利用可能なツールの幅広い選択、ならびにVVCが適している広範囲のアプリケーションにある。
ビデオデータは、画像データのフレームのシーケンスを含み、各フレームは、1つまたは複数のカラーチャネルを含む。一般に、1つの一次カラーチャネルおよび2つの二次カラーチャネルが必要とされる。一次カラーチャネルは一般に「ルマ」チャネルと呼ばれ、二次カラーチャネルは一般に「クロマ」チャネルと呼ばれる。ビデオデータは典型的にはRGB(赤-緑-青)色空間で表示されるが、この色空間は3つのそれぞれの構成要素の間に高い相関度を有する。エンコーダまたはデコーダによって見られるビデオデータ表現はしばしば、YCbCrなどの色空間を使用している。YCbCrは、伝達関数に従って「ルマ」にマッピングされた輝度を、Y(一次)チャネルに集中させ、CbおよびCr(二次)チャネルに彩度を集中させる。非相関YCbCr信号の使用により、ルマチャネルの統計は、クロマチャネルの統計と著しく異なる。主要な差異は、量子化の後、クロマチャネルが対応するルマチャネルブロックの係数と比較して、所与のブロックのための比較的少数の有意係数を含むことである。さらに、CbおよびCrチャネルは、「4:2:0クロマフォーマット」として知られる、ルマチャネルと比較してより低いレート、例えば、水平方向に半分および垂直方向に半分で空間的にサンプリング(サブサンプリング)されてもよい。4:2:0クロマフォーマットは、インターネットビデオストリーミング、ブロードキャストテレビジョン、Blu-RayTMディスクへの保存など、「コンシューマ」アプリケーションで一般的に使用される。水平方向に半分のレートでCbおよびCrチャネルをサブサンプリングし、垂直方向にサブサンプリングしないことは、「4:2:2クロマフォーマット」として知られている。4:2:2クロマフォーマットは、典型的には映画制作などのための映像の撮像を含むプロフェッショナルアプリケーションにおいて使用される。4:2:2クロマフォーマットのより高いサンプリングレートは、結果として得られるビデオを、カラーグレーディングなどの編集動作に対してより弾力的にする。コンシューマに配布する前に、4:2:2クロマフォーマットマテリアルはしばしば、4:2:0クロマフォーマットに変換され、次いで、コンシューマに配布するために符号化される。クロマフォーマットに加えて、ビデオは、解像度およびフレームレートによっても特徴付けられる。例の解像度は3840x2160の解像度の超高精細度(UHD)、または7680x4320の解像度の「8K」で、例のフレームレートは60または120Hzである。ルマサンプルレートは、約500メガサンプル/秒から数ギガサンプル/秒の範囲であってもよい。4:2:0クロマフォーマットの場合、各クロマチャネルのサンプルレートは、ルマサンプルレートの4分の1であり、4:2:2クロマフォーマットの場合、各クロマチャネルのサンプルレートは、ルマサンプルレートの半分である。
VVC標準は「ブロックベース」コーデックであり、フレームは最初に、「コーディングツリーユニット」(CTU)として知られる領域の正方形アレイに分割される。CTUは一般に128×128ルマサンプルのような比較的大きな面積を占める。ただし、各フレームの右端および下端のCTUは、面積がより小さくなり得る。各CTUに関連付けられているのは、ルマチャネルおよびクロマチャネルの両方のための「コーディングツリー」(「共有ツリー」)、またはルマチャネルおよびクロマチャネルのそれぞれのための別個のツリーである。コーディングツリーは、CTUのエリアの、「コーディングブロック」(CB)とも呼ばれるブロックのセットへの分解を定義する。共有ツリーが使用中であるとき、単一のコーディングツリーはルマチャネルおよびクロマチャネルの両方のためのブロックを指定し、その場合、コロケートされたコーディングブロックのコレクションは「コーディングユニット」(CU)と呼ばれ、すなわち、各CUは、各カラーチャネルのためのコーディングブロックを有する。CBは、特定の順序で符号化または復号するために処理される。4:2:0クロマフォーマットの使用の結果として、128×128ルマサンプルエリアのためのルマコーディングツリーを有するCTUは、128×128ルマサンプルエリアと並置された64×64クロマサンプルエリアのための対応するクロマコーディングツリーを有する。単一のコーディングツリーがルマチャネルおよびクロマチャネルのために使用されているとき、所与のエリアのためのコロケートされたブロックのコレクションは概して、「ユニット」、たとえば、上述のCU、ならびに「予測ユニット」(PU)および「変換ユニット」(TU)と呼ばれる。4:2:0クロマフォーマットビデオデータのカラーチャネルにまたがるCUを有する単一のツリーは、クロマブロックを、対応するルマブロックの幅および高さの半分にする。所与のエリアのために別個のコーディングツリーが使用されるとき、上述のCB、ならびに「予測ブロック」(PB)および「変換ブロック」(TB)が使用される。
「ユニット」と「ブロック」との間の上記の区別にもかかわらず、「ブロック」という用語は、すべてのカラーチャネルに動作が適用されるフレームのエリアまたは領域の総称として使用され得る。
CUごとに、フレームデータの対応するエリアのコンテンツ(サンプル値)の予測ユニット(PU)が生成される(「予測ユニット」)。さらに、予測と、エンコーダへの入力で見られる領域の内容との間の差分(または「空間領域」残差)の表現が形成される。各カラーチャネルにおける差分は、残差係数のシーケンスとして変換され、コード化され得、所与のCUのための1つまたは複数のTUを形成する。適用される変換は、残差値の各ブロックに適用される、離散コサイン変換(DCT)または他の変換であり得る。この変換は分離可能に適用され、すなわち、2次元変換は、2つのパスで実行される。ブロックは最初に、ブロック内のサンプルの各行に1次元変換を適用することによって変換される。次いで、部分結果は、部分結果の各列に1次元変換を適用することによって変換され、残差サンプルを実質的に非相関化する変換係数の最終ブロックを生成する。様々なサイズの変換は、矩形形状ブロックの変換を含むVVC標準によってサポートされ、各側面寸法は2のべき乗である。変換係数は、ビットストリームへのエントロピー符号化のために量子化される。
VVCは、フレーム内予測およびフレーム間予測を特徴とする。フレーム内予測は、フレーム内のサンプルの現在のブロックの予測を生成するために使用されているフレーム内の以前に処理されたサンプルの使用を伴う。フレーム間予測は、以前に復号されたフレームから取得されたサンプルのブロックを使用して、フレーム中のサンプルの現在のブロックの予測を生成することを伴う。以前に復号されたフレームから取得されたサンプルのブロックは、多くの場合、フィルタリングが適用されている動きベクトルに従って、現在のブロックの空間位置からオフセットされる。フレーム内予測ブロックは、(i)均一サンプル値(「DCイントラ予測」)、(ii)オフセットおよび水平および垂直勾配を有するプレーン(「プレーンイントラ予測」)、(iii)特定の方向に適用された隣接サンプルを有するブロックの母集団(「角度イントラ予測」)、または(iv)隣接サンプルおよび選択された行列係数を使用した行列乗算の結果であり得る。予測されたブロックと対応する入力サンプルとの間のさらなる不一致は、「残差」をビットストリームに符号化することによって、ある程度補正され得る。残差は一般に、空間領域から周波数領域に変換されて、(「一次変換領域」において)残差係数を形成し、それは、(「二次変換領域」において残差係数を生成するために)「二次変換」のアプリケーションによってさらに変換され得る。残差係数は量子化パラメータに従って量子化され、デコーダで生成されたサンプルの再構成の精度の損失をもたらすが、ビットストリームにおけるビットレートの低減を伴う。
イントラブロックコピー(IBC)モードは、同じフレームからのサンプルのブロックを使用してブロックの予測を生成することを可能にする。代替の「行列イントラ予測」(MIP)モードが利用可能であり、それによって、予測ブロックは、所定のベクトルとブロック隣接サンプルとの行列乗算を使用して生成される。ブロックは、変換を使用する代わりにパレットコーディングされ得る。ブロックの3つのカラーチャネルは適応色変換(ACT)を通過することができ、一般に、RGB色空間をYCbCr色空間に非相関化する。CbおよびCrチャネル残差は、ジョイントコーディング(jointly coded)され得る(JCbCr)。DCT-2、DCT-8、およびDST-7、ならびに変換スキップ(TS)モードを含む、一次変換(MTS)の選択が利用可能である。オプションの二次変換も利用可能であり、それによって、1組のカーネルのうちの1つのカーネルが、イントラ予測モードおよびブロックサイズに基づいて選択され、低周波数非分離変換(LFNST)として知られる変換ブロックの低周波数領域に適用可能である。残差は、「依存量子化(dependent quantisation)」(DQ)として知られるトレリス方式で量子化およびコーディングされ得る。インター予測されたブロックはサブブロックのセットとして予測され得、各々はアフィン動きモデルに従って導出された異なる動きベクトルを有する。ブロックは、結合された(一様である)ブレンドされたイントラ予測演算とインター予測演算とを使用して生成され得る。ブロックはまた、2つの異なるインター予測ブロック(CIIP)の幾何学的に配向されたブレンドを使用して生成され得る。クロマスケーリング(LMCS)を用いたルママッピング(luma mapping with chroma scaling)プロセスは復号処理の一部として適用され得、ルマサンプルを特定の値にマッピングし、スケーリング演算をクロマサンプルの値に適用し得る。適応ループフィルタ(ALF)が適用され得、それによって、ルマサンプルおよびクロマサンプルは主に平滑化目的のために、ビットストリーム中で送られる複数のフィルタのうちの1つを使用して空間的にフィルタリングされる。変換ブロックのための残差係数の逆量子化は、変換ブロックのための量子化パラメータと組み合わせて適用される(空間)スケーリング行列(または「スケーリングリスト」)に従って、不均一な方法で実行され得る。
本発明の目的は、既存の構成の1つまたは複数の欠点を実質的に克服するか、または少なくとも改善することである。
本開示の一態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された1つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号することとを含む。
別の態様によれば、前記最大変換ブロックサイズ制約は、1ビットの固定長コードワードを使用する。
別の態様によれば、前記最大有効変換ブロックサイズ制約は、前記ビットストリーム中のgeneral_constraint_infoシンタックス構造から復号される。
別の態様によれば、前記最大変換ブロックサイズ制約は、前記ビットストリームのビデオパラメータセットおよびシーケンスパラメータセットのうちの1つから復号される。
別の態様によれば、前記最大有効変換ブロックサイズは、1ビットの固定長コードワードを使用する。
別の態様によれば、前記最大有効変換ブロックサイズは、前記ビットストリーム中のseq_parameter_set_rbsp()シンタックス構造から復号される。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された1つまたは複数のコーディングユニットの各々を復号して前記画像フレームを復号することとを含む。
別の態様によれば、前記最大コーディングツリーユニットサイズ制約は、1ビットの固定長コードワードを使用する。
別の態様によれば、前記最大有効コーディングツリーユニットサイズ制約は、前記ビットストリーム中のgeneral_constraint_infoシンタックス構造から復号される。
別の態様によれば、前記最大コーディングツリーユニットサイズ制約は、前記ビットストリームのビデオパラメータセットおよびシーケンスパラメータセットのうちの1つから復号される。
別の態様によれば、前記最大有効コーディングツリーユニットサイズは、1ビットの固定長コードワードを使用する。
別の態様によれば、前記最大有効コーディングツリーユニットサイズは、前記ビットストリーム中のseq_parameter_set_rbsp()シンタックス構造から復号される。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された1つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号することとを含む。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実装するように構成されたビデオデコーダを提供し、前記画像フレームは複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は1つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズと、前記ビットストリームから復号されたスプリットフラグとに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された1つまたは複数のコーディングユニットの各々を復号して、前記画像フレームを復号することとを含む。
本開示の別の態様は、メモリとプロセッサとを備えるシステムを提供し、ここで、前記プロセッサは、ビットストリームから画像フレームを復号する方法を実装するために前記メモリに格納されたコードを実行するように構成され、前記画像フレームは複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は1つまたは複数の変換ブロックに分割され、前記方法は、前記ビットストリームから最大変換ブロックサイズ制約を復号することと、前記ビットストリームから最大有効変換ブロックサイズを復号することと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数の変換ブロックを決定することと、前記ビットストリームから前記決定された1つまたは複数の変換ブロックの各々を復号して前記画像フレームを復号することとを含む。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングブロックに分割され、前記方法は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第1フラグを復号することと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第2フラグを復号することと、前記第2フラグは、前記第1フラグによって制約され、前記第2のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記1つまたは複数のコーディングブロックを復号することと、前記復号された1つまたは複数のコーディングユニットを使用して前記画像フレームを復号することとを含む。
本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数の変換ブロックに分割され、前記ビデオ復号装置は、前記ビットストリームから最大変換ブロックサイズ制約を復号する第1復号ユニットと、前記ビットストリームから最大有効変換ブロックサイズを復号する第2復号ユニットと、前記復号された最大有効変換ブロックサイズは、前記復号された最大変換ブロックサイズ制約以下であり、前記復号された最大有効変換ブロックサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数の変換ブロックを決定する決定ユニットと、前記ビットストリームから前記決定された1つまたは複数の変換ブロックの各々を復号して、前記画像フレームを復号する第3復号ユニットとを備える。
本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングユニットに分割され、前記ビデオ復号装置は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号する第1復号ユニットと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号する第2復号ユニットと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数のコーディングユニットを決定する決定ユニットと、前記復号された1つまたは複数のコーディングユニットを使用して、前記画像フレームを復号する第3復号ユニットとを備える。
本開示の別の態様は、ビットストリームから画像フレームを復号するためのビデオ復号装置を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングブロックに分割され、前記ビデオ復号装置は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第1フラグを復号する第1復号ユニットと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第2フラグを復号する第2復号ユニットと、前記第2フラグは、前記第1フラグによって制約され、前記第2のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記1つまたは複数のコーディングブロックを復号する第3復号ユニットと、前記復号された1つまたは複数のコーディングユニットを使用して前記画像フレームを復号する第4復号ユニットとを備える。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングユニットに分割され、前記方法は、前記ビットストリームから最大コーディングツリーユニットサイズ制約を復号することと、前記ビットストリームから最大有効コーディングツリーユニットサイズを復号することと、前記復号された最大有効コーディングツリーユニットサイズは、前記復号された最大コーディングユニットサイズ制約以下であり、前記復号された最大有効コーディングツリーサイズおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記1つまたは複数のコーディングユニットを決定することと、前記ビットストリームから前記決定された1つまたは複数のコーディングユニットの各々を復号して前記画像フレームを復号することとを含む。
本開示の別の態様は、ビットストリームから画像フレームを復号する方法を実行するためのコンピュータプログラムが格納された非一時的なコンピュータ可読媒体を提供し、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングブロックに分割され、前記方法は、前記ビットストリームから、スケーリングリストの使用に関する制約を示す第1フラグを復号することと、前記フラグは、一般的な制約情報シンタックスに含まれており、前記ビットストリームから、前記スケーリングリストの有効化を示す第2フラグを復号することと、前記第2フラグは、前記第1フラグによって制約され、前記第2のフラグの値に従って実行されるスケーリングを用いて、前記ビットストリームから前記1つまたは複数のコーディングブロックを復号することと、前記復号された1つまたは複数のコーディングユニットを使用して前記画像フレームを復号して前記画像フレームを復号することとを含む。
他の態様も開示される。
次に、本発明の少なくとも1つの実施形態を、以下の図面および付録を参照して説明する。
図1は、ビデオ符号化及び復号システムを示す概略ブロック図である。 図2Aおよび2Bは、図1のビデオ符号化および復号システムの一方または両方が実施され得る汎用コンピュータシステムの概略ブロック図を形成する。 図3は、ビデオエンコーダの機能モジュールを示す概略ブロック図である。 図4は、ビデオデコーダの機能モジュールを示す概略ブロック図である。 図5は、汎用ビデオ符号化のツリー構造における1つまたは複数のブロックへのブロックの利用可能な分割を示す概略ブロック図である。 図6は、汎用ビデオコーディングのツリー構造における1つまたは複数のブロックへのブロックの許可された分割を達成するためのデータフローの概略図である。 図7Aおよび7Bは、コーディングツリーユニット(CTU)のいくつかのコーディングユニット(CU)への例示的な分割を示す。 図8は、それぞれが複数のコーディングユニットを含む、複数のスライスを有するビットストリームのためのシンタックス構造を示す。 図9は、コーディングツリーユニットのコーディングブロックを有するビットストリームのシンタックス構造を示す。 図10は、コーディングユニットのシーケンスとして1つまたは複数のスライスを含むビットストリームにフレームを符号化する方法を示す。 図11は、スライスに配置されたコーディングユニットのシーケンスとしてビットストリームからフレームを復号する方法を示す。 付録Aは、本明細書に開示される方法に対応するように適合されたVVC標準のためのワーキングドラフトテキストの一例を示す。
添付の図面の1以上において、同一の参照符号を有するステップ及び/又は特徴を参照する場合、それらのステップ及び/又は特徴は本明細書の目的のために、反対の意図が現れない限り、同一の機能又は動作を有する。
VVCエンコーダおよびデコーダは、「制約」として知られる能力シグナリング機構を含む。ビットストリームの初期には、VVC標準のどの能力がビットストリームにおいて使用されないかを示す制約のセットが存在する。制約は、ビットストリームの「プロファイル」および「レベル」と共にシグナリングされる。プロファイルは、ビットストリームを復号するために利用可能である必要があるツールのセットを広く示す。制約はまた、どのツールが指定されたプロファイルにおいてさらに制約されるかの制御の細かい粒度を提供する。さらなる制約は、「サブプロファイリング」と呼ばれる。サブプロファイリングは、プロファイルが定義された後でさえ、特定のツールがプロファイルから効果的に除去されることを可能にし、実装者は、展開されるべき共通のサブプロファイルに同意する。例えば、所与のツールがSSOの分析努力にもかかわらず、実施するのに問題があることが分かった場合、ツールは、後で除去され得る。サブプロファイリングの1つの用途は、プロファイルの「増殖(proliferation)」を低減することであり、そのうちのいくつかは、決して使用され得ない。より少ないプロファイルを定義することは、VVC標準の実装の市場の細分化(market fragmentation)を回避するのに役立つ。プロファイルおよびサブプロファイルはまた、「相互運用性ポイント」と呼ばれるものを定義する。相互運用性ポイントは、メーカーが実装によってサポートされることに合意したツールのセットである。プロファイルは、標準の最終決定時に合意され、サブプロファイルは後日合意されることができ、予期せぬ実装の複雑さまたは特定のツールの他の問題が標準に追加のプロファイルを追加する必要なく対処されることを可能にする。特定のエンコーダは、結果として生じるビットストリームの合意されたプロファイルおよびサブプロファイル定義から逸脱することなく、たとえば複雑さ低減の目的のために、コーディングツールの使用をさらに制限することを選択し得る。ツール選択の任意のさらなる制限は、ビットストリームの早期にシグナリングされ得、その結果、未使用のツールのシグナリングが抑制される。あるいはエンコーダがツールを利用可能なままにするが、ツールの使用を決してシグナリングしない(ツールを制御するためのシグナリングを残すが、常に無効化された値を選択する)ことができる。
図1は、ビデオ符号化及び復号システム100の機能モジュールを示す概略ブロック図である。システム100は、特定のコーディングツールに対する制約に加え、ブロック構造に対する制約を含み、サブプロファイリングのための更なる柔軟性を提供する。
システム100は、ソースデバイス110と宛先デバイス130とを含む。通信チャネル120は、符号化ビデオ情報をソースデバイス110から宛先デバイス130に通信するために使用される。いくつかの構成では、ソースデバイス110および宛先デバイス130は、それぞれの携帯電話ハンドセットまたは「スマートフォン」のいずれかまたは両方を備えることができ、その場合、通信チャネル120は、ワイヤレスチャネルである。他の構成では、ソースデバイス110および宛先デバイス130が、ビデオ会議機器を備えることができ、その場合、通信チャネル120は通常、インターネット接続などの有線チャネルである。さらに、ソースデバイス110および宛先デバイス130は、無線テレビ放送、ケーブルテレビアプリケーション、インターネットビデオアプリケーション(ストリーミングを含む)、およびファイルサーバ内のハードディスクドライブなどの何らかのコンピュータ可読記憶媒体上に符号化ビデオデータが取り込まれるアプリケーションをサポートする装置を含む、広範囲の装置のうちの任意のものを備えることができる。
図1に示すように、ソースデバイス110は、ビデオソース112と、ビデオエンコーダ114と、送信機116と、を含む。ビデオソース112は、典型的には撮像センサ等の、撮像されたビデオフレームデータ(113として示されている)のソース、非一時的記録媒体上に格納された前に撮像されたビデオシーケンス、又はリモート撮像センサから供給されたビデオ、を有する。ビデオソース112はまた、コンピュータグラフィックスカードの出力であってもよく、例えば、タブレットコンピュータなどのコンピューティングデバイスで実行されているオペレーティングシステムとさまざまなアプリケーションのビデオ出力を表示する。ビデオソース112として撮像センサを含み得るソースデバイス110の例は、スマートフォン、ビデオカメラ、業務用ビデオカメラ、およびネットワークビデオカメラを含む。
ビデオエンコーダ114は、図3を参照してさらに説明するように、ビデオソース112からの撮像されたフレームデータ(矢印113によって示される)をビットストリーム(矢印115によって示される)に変換(または「符号化」)する。ビデオエンコーダ114は、VVCのコーディングツール(または「プロファイル」)の特定のセットを使用して、撮像されたフレームデータ113を符号化する。どのプロファイルが使用されたかの指示は、ビットストリーム115の「ビデオパラメータセット」(VPS)または「シーケンスパラメータセット」(SPS)のいずれかに埋め込まれた「profile_tier_level」シンタックス構造を使用してビットストリーム115に符号化される。SPSシンタックス構造は、「seq_parameter_set_rbsp()」とも呼ばれ、VPSシンタックス構造は、「video_parameter_set_rbsp()」とも呼ばれる。さらに、使用されるコーディングツールのセットに対するさらなる制約も、前述のprofile_tier_levelシンタックス構造の一部である「general_constraint_info」シンタックス構造を使用してビットストリーム115に符号化され得る。スケーリングリスト、ALFのためのフィルタ、およびLMCSのためのパラメータは、1つまたは複数の「適応パラメータセット」(APS)中で送信される。各APSは、それぞれのAPSにおける「aps_params_type」シンタックス要素によって識別される、これら3つのツールのうちの1つのためのパラメータを含む。
ビットストリーム115は、送信機116によって、符号化ビデオデータ(または「符号化ビデオ情報」)として通信チャネル120を介して送信される。ビットストリーム115は、いくつかの実装形態では、後に通信チャネル120を介して送信されるまで、または通信チャネル120を介した送信の代わりに、「フラッシュ」メモリまたはハードディスクドライブなどの非一時的記憶デバイス122に格納され得る。例えば、符号化ビデオデータは、ビデオストリーミングアプリケーションのためのワイドエリアネットワーク(WAN)を介して需要に応じて顧客に提供され得る。
宛先デバイス130は、受信機132と、ビデオデコーダ134と、表示デバイス136とを含む。受信機132は、通信チャネル120から符号化ビデオデータを受信し、受信したビデオデータをビットストリームとしてビデオデコーダ134に渡す(矢印133で示す)。そして、ビデオデコーダ134は、復号されたフレームデータ(矢印135で示す)を映像として、表示用に表示デバイス136に出力する。復号されたフレームデータ135は、フレームデータ113と同じクロマフォーマットを有する。表示デバイス136の例は、陰極線管、スマートフォン内、タブレットコンピュータ、コンピュータモニタ、またはスタンドアロンテレビセット内などの液晶ディスプレイを含む。ソースデバイス110および宛先デバイス130の各々の機能性は単一のデバイスにおいて実施されることも可能であり、その例は、携帯電話ハンドセットおよびタブレットコンピュータを含む。復号されたフレームデータは、ユーザに提示する前にさらに変換され得る。例えば、特定の緯度及び経度を有する「ビューポート」はシーンの360°ビューを表すために、投射フォーマットを使用して、復号されたフレームデータからレンダリングされ得る。
上記の例示的なデバイスにもかかわらず、ソースデバイス110および宛先デバイス130のそれぞれは、典型的にはハードウェアおよびソフトウェア構成要素の組合せを介して、汎用コンピューティングシステム内で構成され得る。図2Aは、コンピュータモジュール201と、キーボード202、マウスポインタデバイス203、スキャナ226、ビデオソース112として構成することができるカメラ227、およびマイクロフォン280などの入力デバイスと、プリンタ215、表示デバイス136として構成することができるディスプレイデバイス214、およびスピーカ217を含む出力デバイスと、を含む、そのようなコンピュータシステム200を示す。外部変復調器(モデム)トランシーバデバイス216は、接続221を介して通信ネットワーク220との間で通信するためにコンピュータモジュール201によって使用され得る。通信チャネル120を表すことができる通信ネットワーク220は、インターネット、セルラ電気通信ネットワーク、またはプライベートWANなどの(WAN)であってもよい。接続221が電話回線である場合、モデム216は従来の「ダイヤルアップ」モデムであってもよい。あるいは接続221が大容量(例えば、ケーブルまたは光)接続である場合、モデム216はブロードバンドモデムであってもよい。無線モデムはまた、通信ネットワーク220への無線接続のために使用されてもよい。トランシーバ装置216は、送信機116及び受信機132の機能性を提供することができ、通信チャネル120は、接続221内に具現化することができる。
コンピュータモジュール201は、典型的には少なくとも1つのプロセッサユニット205と、メモリユニット206と、を含む。例えば、メモリユニット206は、半導体ランダムアクセスメモリ(RAM)及び半導体リードオンリーメモリ(ROM)を有することができる。コンピュータモジュール201はまた、ビデオディスプレイ214、スピーカ217、およびマイクロフォン280に結合するオーディオビデオインターフェース207、キーボード202、マウス203、スキャナ226、カメラ227、およびオプションとしてジョイスティックまたは他のヒューマンインターフェースデバイス(図示せず)に結合するI/Oインターフェース213、ならびに外部モデム216およびプリンタ215のためのインターフェース208を含む、いくつかの入出力(I/O)インターフェースを含む。オーディオビデオインターフェース207からコンピュータモニタ214への信号は一般に、コンピュータグラフィックスカードの出力である。いくつかの実装では、モデム216が、例えばインターフェース208内のコンピュータモジュール201内に組み込まれてもよい。コンピュータモジュール201はまた、ローカルネットワークインターフェース211を有し、これは、接続223を介して、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク222への、コンピュータシステム200の結合を可能にする。図2Aに示すように、ローカル通信ネットワーク222はまた、典型的には、いわゆる「ファイアウォール」デバイスまたは同様の機能のデバイスを含む、接続224を介してワイドネットワーク220に結合することもできる。ローカルネットワークインターフェース211は、イーサネットTM回路カード、ブルートゥースTMワイヤレス構成又はIEEE802.11ワイヤレス構成を含むことができるが、インターフェース211のために多くの他のタイプのインターフェースが実施されてもよい。ローカルネットワークインターフェース211は、また、送信機116の機能を提供することができ、受信機132および通信チャネル120はまた、ローカル通信ネットワーク222において具現化することができる。
I/Oインターフェース208および213は、シリアルコネクティビティおよびパラレルコネクティビティのいずれかまたは両方を提供することができ、前者は、典型的にはユニバーサルシリアルバス(USB)規格に従って実施され、対応するUSBコネクタ(図示せず)を有する。記憶デバイス209が提供され、典型的にはハードディスクドライブ(HDD)210を含む。フロッピーディスクドライブおよび磁気テープドライブ(図示せず)などの他の記憶デバイスも使用することができる。光ディスクドライブ212は、典型的にはデータの不揮発性ソースとして機能するために設けられる。光ディスク(例えば、CD-ROM、DVD、Blu ray DiscTM)、USB-RAM、ポータブル、外部ハードドライブ、およびフロッピーディスクなどのポータブルメモリデバイスは、たとえば、コンピュータシステム200に対するデータの適切なソースとして使用することができる。典型的には、HDD210、光ドライブ212、ネットワーク220及び222のいずれかはビデオソース112として、又はディスプレイ214を介して再生するために記憶されるべき復号ビデオデータのための宛先として動作するように構成されてもよい。システム100のソースデバイス110および宛先デバイス130は、コンピュータシステム200において具現化されてもよい。
コンピュータモジュール201の構成要素205~213は、典型的には相互接続バス204を介して、当業者に知られているコンピュータシステム200の従来の動作モードをもたらす方法で通信する。例えば、プロセッサ205は、接続218を用いてシステムバス204に結合される。同様に、メモリ206および光ディスクドライブ212は、接続219によってシステムバス204に結合される。上記の構成が実行可能なコンピュータの例は、IBM-PCおよび互換機、Sun SPARCステーション、Apple MacTMまたは同様のコンピュータシステムを含む。
適切または必要な場合、ビデオエンコーダ114およびビデオデコーダ134、ならびに以下で説明する方法は、コンピュータシステム200を使用して実施することができる。具体的には、ビデオエンコーダ114、ビデオデコーダ134、および説明される方法は、コンピュータシステム200内で実行可能な1つまたは複数のソフトウェアアプリケーションプログラム233として実施することができる。具体的には、ビデオエンコーダ114、ビデオデコーダ134、および説明する方法のステップは、コンピュータシステム200内で実行されるソフトウェア233内の命令231(図2B参照)によって実行される。ソフトウェア命令231は、それぞれが1つ以上の特定のタスクを実行するための1つ以上のコードモジュールとして形成されてもよい。ソフトウェアはまた、2つの別個の部分に分割されてもよく、その場合、第1の部分と対応するコードモジュールは説明される方法を実行し、第2の部分と対応するコードモジュールは、第1の部分とユーザとの間のユーザインターフェースを管理する。
ソフトウェアは例えば、以下に説明する記憶デバイスを含むコンピュータ可読媒体に格納することができる。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム200にロードされ、その後、コンピュータシステム200によって実行される。このようなソフトウェア又はコンピュータ可読媒体に記録されたコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム200におけるコンピュータプログラム製品の使用は、ビデオエンコーダ114、ビデオデコーダ134、および説明される方法を実施するための有利な装置をもたらすことが好ましい。
ソフトウェア233は、典型的にはHDD210またはメモリ206に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム200にロードされ、コンピュータシステム200によって実行される。したがって、例えば、ソフトウェア233は、光ディスクドライブ212によって読み取られる光学的に読み取り可能なディスク記憶媒体(例えば、CD-ROM)225に格納することができる。
場合によっては、アプリケーションプログラム233が1つ以上のCD-ROM225上で符号化されてユーザに供給され、対応するドライブ212を介して読み出されてもよく、あるいは代替的には、ネットワーク220または222からユーザによって読み出されてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム200にロードすることもできる。コンピュータ可読記憶媒体は、実行および/または処理のために記録された命令および/またはデータをコンピュータシステム200に提供する任意の非一時的な有形の記憶媒体を指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、CD-ROM、DVD、Blu-ray DiscTM、ハードディスクドライブ、ROMまたは集積回路、USBメモリ、光磁気ディスク、またはPCMCIAカードなどのコンピュータ可読カード、などを含み、そのようなデバイスがコンピュータモジュール201の内部または外部であるか否かは問わない。コンピュータモジュール401へのソフトウェア、アプリケーションプログラム、命令および/またはビデオデータまたは符号化ビデオデータの提供にも参加し得る一時的なまたは非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワーク接続されたデバイスへのネットワーク接続、ならびにウェブサイトなどに記録された電子メール伝送および情報を含むインターネットまたはイントラネットを含む。
アプリケーションプログラム233の第2の部分および上記の対応するコードモジュールは、ディスプレイ214上でレンダリングされるかまたは他の方法で表される1つ以上のグラフィカルユーザインタフェース(GUI)を実装するために実行されてもよい。典型的にはキーボード202およびマウス203の操作を通して、アプリケーションおよびコンピュータシステム200のユーザは機能的に適応可能な方法でインターフェースを操作し、GUIに関連するアプリケーションに制御コマンドおよび/または入力を提供することができる。スピーカ217を介して出力されるスピーチプロンプトおよびマイクロフォン280を介して入力されるユーザ音声コマンドを利用するオーディオインターフェースなど、他の形態の機能的に適応可能なユーザインターフェースを実装することもできる。
図2Bは、プロセッサ205および「メモリ」234の詳細な概略ブロック図である。メモリ234は、図2Aのコンピュータモジュール201がアクセス可能な全てのメモリモジュール(HDD209及び半導体メモリ206を含む)の論理集合体を表す。
最初にコンピュータモジュール201の電源が入ると、パワーオン自己テスト(POST)プログラム250が実行される。POSTプログラム250は、典型的には図2Aの半導体メモリ206のROM249に格納される。ソフトウェアを格納するROM249などのハードウェアデバイスは、ファームウェアと呼ばれることもある。POSTプログラム250は、コンピュータモジュール201内のハードウェアを検査して、適切に機能することを確認し、通常、正しい動作のために、プロセッサ205、メモリ234(209、206)、および通常はROM249にも格納される基本入出力システムソフトウェア(BIOS)モジュール251をチェックする。POSTプログラム250が正常に実行されると、BIOS251は、図2Aのハードディスクドライブ210を起動する。ハードディスクドライブ210を起動すると、ハードディスクドライブ210上に常駐するブートストラップローダプログラム252がプロセッサ205を介して実行される。これにより、オペレーティングシステム253がRAMメモリ206にロードされ、その上でオペレーティングシステム253が動作を開始する。オペレーティングシステム253は、プロセッサ205によって実行可能なシステムレベルアプリケーションであり、プロセッサ管理、メモリ管理、デバイス管理、ストレージ管理、ソフトウェアアプリケーションインタフェース、および汎用ユーザインタフェースを含む様々な高レベルの機能を満たす。
オペレーティングシステム253は、メモリ234(209、206)を管理して、コンピュータモジュール201上で実行される各プロセスまたはアプリケーションが別のプロセスに割り当てられたメモリと衝突することなく実行するのに十分なメモリを有することを保証する。さらに、図2Aのコンピュータシステム200で利用可能な異なるタイプのメモリは、各プロセスが効果的に実行できるように、適切に使用されなければならない。したがって、集約メモリ234は、メモリの特定のセグメントが(特に明記されていない限り)どのように割り当てられるかを示すことを意図するものではなく、むしろ、コンピュータシステム200によってアクセス可能なメモリの一般的なビューと、そのようなセグメントがどのように使用されるかを提供することを意図するものである。
図2Bに示すように、プロセッサ205は、制御部239、演算論理ユニット(ALU)240、時にはキャッシュメモリと呼ばれるローカルまたは内部メモリ248、を含む多数の機能モジュールを含む。キャッシュメモリ248は、典型的にはレジスタセクション内に多数の記憶レジスタ244~246を含む。1つ以上の内部バス241は、これらの機能モジュールを機能的に相互接続する。プロセッサ205はまた、典型的には、接続218を使用して、システムバス204を介して外部デバイスと通信するための1つ以上のインターフェース242を有する。メモリ234は、接続219を使用してバス204に結合される。
アプリケーションプログラム233は、条件分岐およびループ命令を含み得る命令のシーケンス231を含む。プログラム233はまた、プログラム233の実行に使用されるデータ232を含んでもよい。命令231およびデータ232は、それぞれメモリ位置228、229、230および235、236、237に格納される。命令231とメモリ位置228~230の相対的なサイズに応じて、メモリ位置230に示される命令によって示されるように、特定の命令を単一のメモリ位置に格納することができる。あるいは、命令がメモリ位置228および229に示される命令セグメントによって示されるように、各々が別個のメモリ位置に格納されるいくつかの部分にセグメント化されてもよい。
一般に、プロセッサ205には、その中で実行される命令のセットが与えられる。プロセッサ205は後続の入力を待ち、この入力に対してプロセッサ205は、別の命令セットを実行することによって反応する。各入力は入力デバイス202、203のうちの1つまたは複数によって生成されたデータ、ネットワーク220、202のうちの1つを介して外部ソースから受信されたデータ、記憶デバイス206、209のうちの1つから取り出されたデータ、または対応するリーダ212に挿入された記憶媒体225から取り出されたデータを含む、いくつかのソースのうちの1つまたは複数から提供することができ、すべて図2Aに示されている。命令のセットを実行すると、データが出力される場合がある。実行には、データまたは変数をメモリ234に格納することも含まれ得る。
ビデオエンコーダ114、ビデオデコーダ134、および説明される方法は、メモリ234内の対応するメモリ位置255、256、257に格納されている入力変数254を使用することができる。ビデオエンコーダ114、ビデオデコーダ134、および説明される方法は、出力変数261を生成し、これらは、メモリ234内の対応するメモリ位置262、263、264に格納される。中間変数258は、メモリ位置259、260、266および267に格納され得る。
図2Bのプロセッサ205を参照すると、レジスタ244、245、246、演算論理ユニット(ALU)240、および制御部239は、プログラム233を構成する命令セット内のすべての命令に対して「フェッチ、デコード、および実行」サイクルを実行するのに必要なマイクロオペレーションのシーケンスを実行するために協働する。各フェッチ、デコード、および実行サイクルは
メモリ位置228、229、230から命令231をフェッチまたは読出すフェッチ動作
制御部239が、どの命令がフェッチされたかを判定するデコード動作
制御部239及び/又はALU240が命令を実行する動作を実行する
を有する。
その後、次の命令のさらなるフェッチ、デコード、および実行サイクルを実行することができる。同様に、制御部239がメモリ位置232に値を格納または書き込む格納サイクルを実行することができる。
後述する図10および図11の方法における各ステップまたはサブプロセスは、プログラム233の1つまたは複数のセグメントに関連付けられ、典型的にはプロセッサ205内のレジスタセクション244、245、247、ALU240、および制御部239が協働して、プログラム233の注記されたセグメントに対する命令セット内のすべての命令に対してフェッチ、デコード、および実行サイクルを実行することによって実行される。
図3は、ビデオエンコーダ114の機能モジュールを示す概略ブロック図である。図4は、ビデオデコーダ134の機能モジュールを示す概略ブロック図である。一般に、データは、固定サイズのサブブロックへのブロックの分割などのサンプルまたは係数のグループで、または配列として、ビデオデコーダ134とビデオエンコーダ114の機能モジュールの間を通過する。ビデオエンコーダ114およびビデオデコーダ134は、図2Aおよび図2Bに示すように、汎用コンピュータシステム200を使用して実施することができ、様々な機能モジュールは、ハードディスクドライブ205上に常駐し、プロセッサ205によってその実行中に制御されるソフトウェアアプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールなど、コンピュータシステム200内で実行可能なソフトウェアによって、コンピュータシステム200内の専用ハードウェアによって実現することができる。あるいは、ビデオエンコーダ114およびビデオデコーダ134は、コンピュータシステム200内で実行可能なソフトウェアおよび専用ハードウェアの組合せによって実装されてもよい。ビデオエンコーダ114、ビデオデコーダ134、および説明される方法は、代替として、説明される方法の機能またはサブ機能を実行する1つまたは複数の集積回路などの専用ハードウェアで実装され得る。そのような専用ハードウェアは、グラフィック処理ユニット(GPU)、デジタルシグナルプロセッサ(DSP)、特定用途向け標準製品(ASSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または1つまたは複数のマイクロプロセッサおよび関連するメモリを含むことができる。特に、ビデオエンコーダ114は、モジュール310~390を含み、ビデオデコーダ134は、ソフトウェアアプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとしてそれぞれ実装され得るモジュール420~496を含む。
図3のビデオエンコーダ114は汎用ビデオコーディング(VVC)ビデオ符号化パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。ビデオエンコーダ114は一連のフレームなど、撮像されたフレームデータ113を受信し、各フレームは、1つまたは複数のカラーチャネルを含む。フレームデータ113は任意のクロマフォーマット、たとえば、4:0:0、4:2:0、4:2:2、または4:4:4クロマフォーマットであり得る。ブロックパーティショナ310は最初に、フレームデータ113を、形状が概ね正方形であり、CTUのための特定のサイズが使用されるように構成されたCTUに分割する。CTUの最大有効サイズはたとえば、「シーケンスパラメータセット」中に存在する「sps_log2_ctu_size_minus5」シンタックス要素によって構成される、32×32、64×64、または128×128ルマサンプルであり得る。CTUサイズはまた、さらなる分割を伴わないCTUが1つのCUを含むので、最大CUサイズを提供する。ブロックパーティショナ310はさらに、ルマコーディングツリーおよびクロマコーディングツリーに従って、各CTUを1つまたは複数のCBに分割する。ルマチャネルは、プライマリカラーチャネルと呼ばれることもある。各クロマチャネルは、二次カラーチャネルとも呼ばれ得る。CBは様々なサイズを有し、二乗アスペクト比と非二乗アスペクト比の両方を含み得る。図10を参照して、ブロックパーティショナ310の動作をさらに説明する。しかしながら、VVC標準ではCB、CU、PU、およびTUは常に2のべき乗である辺長を有する。したがって、312として表される現在のCBは、CTUのルマコーディングツリーおよびクロマコーディングツリーに従って、CTUの1つまたは複数のブロックにわたる反復に従って進行し、ブロックパーティショナ310から出力される。CTUをCBに分割するためのオプションは、図5および6を参照して以下でさらに説明される。動作は概して、CTUごとに説明されるが、ビデオエンコーダ114およびビデオデコーダ134は、メモリ消費を低減するために、より小さいサイズの領域上で動作し得る。たとえば、各CTUは、サイズ64×64の「仮想パイプラインデータユニット」(VPDU)として知られる、より小さい領域に分割され得る。VPDUは、ハードウェアアーキテクチャにおけるパイプライン処理により適したデータの粒度を形成し、メモリフットプリントの低減は、完全なCTU上での動作と比較して、シリコン面積、したがってコストを低減する。CTUサイズが128×128である場合、1つのVPDUの処理が次のVPDUに進む前に完全に完了されることを保証するために、許可されたコーディングツリーに対する制限が設けられる。例えば、128×128CTUのコーディングツリーのルートノードでは、結果として生じるCU(32×128/128×32またはそのさらなる分解など)が1つの64×64領域から後続の64×64領域への必要な進行で処理され得ないので、三値分割は禁止される。CTUサイズが64×64である場合、エンコーダによって選択されたコーディングツリーにかかわらず、処理は次の64×64領域に進む前に、すなわち1つのCTUから次のCTUに進む前に、必ず1つの64×64領域を完了する。
フレームデータ113の最初の分割から得られるCTUは、ラスタスキャン順序でスキャンされ、1つまたは複数の「スライス」にグループ化され得る。スライスは「イントラ」(または「I」)スライスであってもよい。イントラスライス(Iスライス)は、スライス内のすべてのCUがイントラ予測されることを示す。代替的に、スライスは、片または双予測(それぞれ、「P」または「B」スライス)であってもよく、それぞれ、スライスにおける片および双予測のさらなる利用可能性を示す。
Iスライスでは、各CTUのコーディングツリーが64×64レベルより下で、ルマのためのコーディングツリーとクロマのためのコーディングツリーとの2つの別個のコーディングツリーに分岐し得る。別個のツリーの使用は、CTUのルマ64×64エリア内のルマとクロマとの間に異なるブロック構造が存在することを可能にする。たとえば、大きいクロマCBは、多数のより小さいルマCBとコロケートされ得、逆もまた同様である。PまたはBスライスにおいて、CTUの単一のコーディングツリーは、ルマおよびクロマに共通のブロック構造を定義する。単一ツリーの結果として生じるブロックは、イントラ予測またはインター予測され得る。
各CTUに対して、ビデオエンコーダ114は2つのステージで動作する。第1のステージ(「サーチ」ステージと呼ばれる)では、ブロックパーティショナ310がコーディングツリーの様々な潜在的構成をテストする。コーディングツリーの各潜在的構成は、関連する「候補」CBを有する。第1のステージは、様々な候補CBをテストして比較的低い歪みで比較的高い圧縮効率を提供するCBを選択することを含む。このテストは一般にラグランジュ最適化を含み、それによって候補CBがレート(符号化コスト)と歪み(入力フレームデータ113に関する誤差)の重み付けされた組合せに基づいて評価される。「最良の」候補CB(評価されたレート/歪みが最も低いCB)は、ビットストリーム115への後続の符号化のために選択される。候補CBの評価には、所与のエリアに対してCBを使用するか、または様々な分割オプションに従ってエリアをさらに分割し、結果として生じるより小さいエリアのそれぞれをさらなるCBで符号化するか、またはエリアをさらにさらに分割するオプションが含まれる。その結果、コーディングツリーとCBそれら自体の両方がサーチステージで選択される。
ビデオエンコーダ114は、CB、たとえばCB312ごとに、矢印320によって示される予測ブロック(PB)を生成する。PB320は、関連するCB312のコンテンツの予測である。減算器モジュール322は、PB320とCB312との間に、324として示される差分(または、空間領域における差分を参照する「残差」)を生成する。差分324は、PB320およびCB312における対応するサンプル間のブロックサイズ差分である。差分324は、変換され、量子化され、矢印336によって示される変換ブロック(TB)として表される。PB320および関連するTB336は典型的にはたとえば、評価されたコストまたは歪みに基づいて、多くの可能な候補CBのうちの1つから選択される。
候補コーディングブロック(CB)は、関連付けられたPBおよび結果として生じる残差のためにビデオエンコーダ114に利用可能な予測モードのうちの1つから生じるCBである。TB336は、ビデオデコーダ114中の予測されたPBと組み合わされると、ビットストリーム中の追加のシグナリングを犠牲にして、復号されたCBとオリジナルのCB312との間の差を低減する。
したがって、各候補コーディングブロック(CB)、すなわち変換ブロック(TB)と組み合わせた予測ブロック(PB)は、関連するコーディングコスト(または「レート」)と、関連する差分(または「歪み」)とを有する。CBの歪みは、典型的には絶対差の和(SAD)または二乗差の和(SSD)など、サンプル値の差として推定される。各候補PBから結果として生じる推定は、差分324を使用してモードセレクタ386によって決定して、予測モード387を決定し得る。予測モード387は、現在のCBのための特定の予測モード、たとえば、フレーム内予測またはフレーム間予測を使用する決定を示す。各候補予測モードと対応する残差コーディングとに関連するコーディングコストの推定は、残差のエントロピーコーディングよりも著しく低いコストで実行され得る。したがって、いくつかの候補モードを評価して、リアルタイムビデオエンコーダにおいてさえ、レート歪み検知における最適モードを決定することができる。
レート歪みに関して最適モードを決定することは、典型的にはラグランジュ最適化の変化を使用して達成される。
ラグランジアンまたは同様の最適化処理は、(ブロックパーティショナ310による)CBへのCTUの最適なパーティショニングの選択、ならびに複数の可能性からの最良の予測モードの選択の両方に使用され得る。モードセレクタモジュール386における候補モードのラグランジュ最適化プロセスの適用を通して、最も低いコストの測定を有するイントラ予測モードが「最良」モードとして選択される。最低コストモードは、選択された二次変換インデックス388を含み、これはまた、エントロピーエンコーダ338によってビットストリーム115において符号化される。
ビデオエンコーダ114の動作の第2のステージ(「コーディング」ステージと呼ばれる)では、各CTUの決定されたコーディングツリーに対する反復が、ビデオエンコーダ114において実行される。別個のツリーを使用するCTUの場合、CTUの64×64ルマ領域ごとに、ルマコーディングツリーが最初に符号化され、次いでクロマコーディングツリーが符号化される。ルマコーディングツリー内では、ルマCBのみが符号化され、クロマコーディングツリー内では、クロマCBのみが符号化される。共有ツリーを使用するCTUの場合、単一のツリーは、共有ツリーの共通ブロック構造に従って、CU、すなわち、ルマCBおよびクロマCBを記述する。
エントロピーエンコーダ338は、シンタックス要素の可変長コーディングと、シンタックス要素の算術コーディングとの両方をサポートする。「パラメータセット」、例えばシーケンスパラメータセット(SPS)およびピクチャパラメータセット(PPS)などのビットストリームの一部は、固定長コードワードと可変長コードワードとの組合せを使用する。スライス(連続部分とも呼ばれる)は、可変長コーディングを使用するスライスヘッダと、それに続く算術コーディングを使用するスライスデータを有する。スライスヘッダは、スライスレベルの量子化パラメータオフセットなど、現在のスライスに固有のパラメータを定義する。スライスデータは、スライス中の各CTUのシンタックス要素を含む。可変長コーディングおよび算術コーディングの使用は、ビットストリームの各部分内での逐次的な構文解析を必要とする。部分は、「ネットワーク抽象化レイヤユニット」または「NALユニット」を形成するための開始コードで描写され得る。算術コーディングは、コンテキスト適応型バイナリ算術コーディングプロセスを使用してサポートされる。算術的にコード化されたシンタックス要素は、1つ以上の「ビン」のシーケンスからなる。ビンはビットと同様に、「0」または「1」の値を有する。しかしながら、ビンは、ディスクリートビットとしてビットストリーム115内に符号化されない。ビンは、関連する予測(または「可能性が高い」または「最も可能性が高い」)値と、「コンテキスト」として知られる関連する確率とを有する。符号化されるべき実際のビンが予測値と一致する場合、「最確シンボル」(MPS)が符号化される。最確シンボルを符号化することは、ビットストリーム115内の消費ビットに関して比較的安価であり、1つ未満のディスクリートビットに相当するコストを含む。符号化される実際のビンが可能性のある値と一致しない場合、「最低確率シンボル」(LPS)が符号化される。最も可能性の低いシンボルを符号化することは、消費されるビットに関して比較的高いコストを有する。ビン符号化技法は、「0」対「1」の確率が歪んでいるビンの効率的な符号化を可能にする。2つの可能な値(すなわち「フラグ」)を有するシンタックス要素については、単一のビンで十分である。多くの可能な値を有するシンタックス要素の場合、ビンのシーケンスが必要とされる。
シーケンス中の後のビンの存在は、シーケンス中の前のビンの値に基づいて決定され得る。さらに、各ビンは、2つ以上のコンテキストに関連付けられ得る。特定のコンテキストの選択は、シンタックス要素中の前のビン、隣接するシンタックス要素のビン値(すなわち、隣接するブロックからのもの)などに依存し得る。コンテキストコーディングされたビンが符号化されるたびに、そのビン(もしあれば)のために選択されたコンテキストは、新しいビン値を反映する方法で更新される。このように、バイナリ算術符号化方式は、適応的であると言われる。
また、ビデオエンコーダ114によってサポートされるのは、コンテキストを欠くビン(「バイパスビン」)である。バイパスビンは、「0」と「1」との間の等確率分布を仮定して符号化される。したがって、各ビンは、ビットストリーム115中の1ビットのコードコストを有する。コンテキストがないことは、メモリを節約し、複雑さを低減し、したがって、バイパスビンは特定のビンの値の分布が歪まない場合に使用される。コンテキストおよび適応を使用するエントロピーコーダの一例は、CABAC(コンテキスト適応型バイナリ算術コーダ)として当技術分野で知られており、このコーダの多くの変形例がビデオコーディングにおいて使用されている。
エントロピーエンコーダ338は、量子化パラメータ392を符号化し、現在のCBのために使用されている場合、LFNSTインデックス388を、コンテキストコーディングされたビンとバイパスコーディングされたビンとの組合せを使用して符号化する。量子化パラメータ392は、「デルタQP」を使用して符号化される。デルタQPは、「量子化グループ」として知られる各エリアにおいて最大で1回シグナリングされる。量子化パラメータ392は、ルマCBの残差係数に適用される。調整された量子化パラメータが、コロケートされたクロマCBの残差係数に適用される。調整された量子化パラメータは、オフセットのリストから選択されたマッピングテーブルおよびCUレベルオフセットに従ってルマ量子化パラメータ392からマッピングすることを含み得る。二次変換インデックス388は、変換ブロックに関連する残差が二次変換の適用によって一次係数に変換される係数位置にのみ有意な残差係数を含むときにシグナリングされる。
マルチプレクサモジュール384は、各候補CBのテストされた予測モードから選択された、決定された最良のイントラ予測モードに従って、イントラフレーム予測モジュール364からPB320を出力する。候補予測モードは、ビデオエンコーダ114によってサポートされるすべての考えられる予測モードを含む必要はない。イントラ予測は、3つのタイプに分類される。「DCイントラ予測」は、PBに、近くの再構成サンプルの平均を表す単一の値をポピュレートすることを含む。「平面イントラ予測」は、PBに、平面に従ってサンプルをポピュレートすることを含み、DCオフセットおよび垂直および水平勾配は、近くの再構成された隣接するサンプルから導出される。近隣の再構成されたサンプルは、典型的には、ある程度までPBの右に延在する、現在のPBの上の再構成されたサンプルの行と、ある程度までPBを超えて下方に延在する、現在のPBの左に再構成されたサンプルの列とを含む。「角度イントラ予測」は、PBに、特定の方向(または「角度」)にフィルタリングされ、PBにわたって伝搬された再構成された隣接サンプルをポピュレートすることを含む。VVCでは、65の角度がサポートされ、矩形ブロックは合計87の角度を生成するために、正方形ブロックには利用できない追加の角度を利用することができる。クロマPBには第4のタイプのイントラ予測が利用可能であり、それによりPBは「クロス構成要素線形モデル」(CCLM)モードに従ってコロケートルマ再構成サンプルから生成される。3つの異なるCCLMモードが利用可能であり、各モードは、隣接するルマサンプルおよびクロマサンプルから導出された異なるモデルを使用する。導出されたモデルは、コロケートされたルマサンプルからクロマPBのためのサンプルのブロックを生成するために使用される。
以前に再構成されたサンプルが利用できない場合、例えば、フレームのエッジにおいて、サンプルの範囲の半分のデフォルトハーフトーン値が使用される。例えば、10ビットビデオの場合、512の値が使用される。フレームの左上位置に配置されたCBに対して以前はサンプルが利用可能ではないので、角度および平面イントラ予測モードはDC予測モードと同じ出力、すなわち、大きさとしてハーフトーン値を有するサンプルの平面を生成する。
インターフレーム予測の場合、予測ブロック382は、動き補償モジュール380によってビットストリーム内の符号化順序フレームにおいて現在のフレームに先行する1つまたは2つのフレームからのサンプルを使用して生成され、マルチプレクサモジュール384によってPB320として出力される。さらに、インターフレーム予測の場合、単一のコーディングツリーが典型的には、ルマチャネルとクロマチャネルの両方のために使用される。ビットストリーム中のフレームをコーディングする順序は、撮像または表示されたときのフレームの順序とは異なり得る。1つのフレームが予測のために使用されるとき、ブロックは「単予測」であると言われ、1つの関連する動きベクトルを有する。2つのフレームが予測のために使用されるとき、ブロックは「双予測」であると言われ、2つの関連する動きベクトルを有する。Pスライスの場合、各CUは、イントラ予測または単予測され得る。Bスライスの場合、各CUは、イントラ予測、単予測、または双予測され得る。フレームは、典型的には「ピクチャのグループ」構造を使用してコーディングされ、フレームの時間的階層を可能にする。フレームは複数のスライスに分割され得、スライスの各々はフレームの一部分を符号化する。フレームの時間的階層は、フレームを表示する順序で、フレームが前後のピクチャを参照することを可能にする。画像は、各フレームを復号するための依存性が満たされることを保証するために必要な順序で符号化される。
サンプルは、動きベクトル378および参照ピクチャインデックスに従って選択される。動きベクトル378および参照ピクチャインデックスは、すべてのカラーチャネルに適用され、したがって、インター予測はPBではなくPU上での動作に関して主に説明され、すなわち、各CTUの1つまたは複数のインター予測されたブロックへの分解は、単一のコーディングツリーを用いて説明される。インター予測方法は、動きパラメータの数およびそれらの精度において変化し得る。動きパラメータは典型的には、参照フレームのリストからのどの参照フレームが使用されるべきかを示す参照フレームインデックスと、参照フレームの各々のための空間変換とを備えるが、より多くのフレーム、専用のフレーム、またはスケーリングおよび回転などの複雑なアフィンパラメータを含み得る。加えて、所定の動き精緻化処理が適用されて、参照されたサンプルブロックに基づいて密な動き推定を生成し得る。
PB320を決定して選択し、減算器322でオリジナルのサンプルブロックからPB320を減算すると、324として表される最も低い符号化コストを有する残差が得られ、非可逆圧縮を受ける。非可逆圧縮プロセスは、変換、量子化、およびエントロピー符号化のステップを含む。順方向一次変換モジュール326は、差分324に順方向変換を適用し、差分324を空間領域から周波数領域に変換し、矢印328によって表される一次変換係数を生成する。一次元における最大の一次変換サイズは、シーケンスパラメータセット中の「sps_max_luma_transform_size_64_flag」によって設定される32ポイントDCT-2または64ポイントDCT-2変換のいずれかである。符号化されるCBがブロックサイズとして表される最大のサポートされる一次変換サイズ、たとえば、64×64または32×32よりも大きい場合、一次変換326は、タイル化された方法で適用されて、差分324のすべてのサンプルを変換する。非正方形CBが使用される場合、タイリングはまた、CBの各寸法において最大の利用可能な変換サイズを使用して実行される。たとえば、32の最大変換サイズが使用される場合、64×16CBは、タイル方式で構成された2つの32×16一次変換を使用する。CBが最大のサポートされる変換サイズよりもサイズが大きい場合、CBはタイル状にTBで埋められる。例えば、64-pt変換最大サイズを有する128×128CBは、2×2配置で4つの64×64TBで埋められる。32-pt変換最大サイズを有する64×128CBは、2×4配置で8つの32×32TBで埋められる。
変換326の適用は、CBのための複数のTBをもたらす。変換の各アプリケーションが32×32よりも大きい差分324、例えば、64×64のTBに対して動作する場合、TBの左上の32×32エリアの外側のすべての結果として生じる一次変換係数328はゼロに設定され、すなわち、破棄される。残りの一次変換係数328は、量子化器モジュール334に渡される。一次変換係数328は、CBに関連する量子化パラメータ392に従って量子化されて、一次変換係数332を生成する。量子化パラメータ392に加えて、量子化器モジュール334はまた、TB内のそれらの空間位置に従って残差係数をさらにスケーリングすることによって、TB内の不均一量子化を可能にするために「スケーリングリスト」を適用し得る。量子化パラメータ392は、ルマCB対各クロマCBについて異なり得る。一次変換係数332は、順方向二次変換モジュール330に渡され、非分離可能二次変換(NSST)動作を実行するか、または二次変換をバイパスすることによって、矢印336によって表される変換係数を生成する。順方向一次変換は典型的には分離可能であり、行のセット、次いで、各TBの列のセットを変換する。順方向一次変換モジュール326は、水平方向および垂直方向におけるタイプII離散コサイン変換(DCT-2)、または水平方向および垂直方向における変換のバイパス、または幅および高さが16サンプルを超えないルマTBについて水平方向または垂直方向におけるタイプVII離散サイン変換(DST-7)とタイプVIII離散コサイン変換(DCT-8)との組合せのいずれかを使用する。DST-7とDCT-8との組み合わせの使用は、VVC標準において「多重変換選択セット」(MTS)と呼ばれる。
モジュール330の順方向二次変換は概して、非分離可能変換であり、それは、イントラ予測されたCUの残差に対してのみ適用され、それにもかかわらず、バイパスされ得る。順方向二次変換は、16個のサンプル(一次変換係数328の左上の4×4サブブロックとして構成される)または48個のサンプル(一次変換係数328の左上の8×8係数において3つの4×4サブブロックとして構成される)のいずれかに対して動作して、二次変換係数のセットを生成する。二次変換係数のセットは、それらが導出される一次変換係数のセットよりも数が少なくてもよい。互いに隣接し、DC係数を含む係数のセットのみに二次変換を適用することにより、二次変換は、「低周波数非分離可能二次変換」(LFNST)と呼ばれる。さらに、LFNSTが適用される場合、TB中のすべての残りの係数は、一次変換領域および二次変換領域の両方において、ゼロでなければならない。
量子化パラメータ392は、所与のTBについて一定であり、したがって、TBについての一次変換領域における残差係数の生成のための均一なスケーリングをもたらす。量子化パラメータ392は、シグナリングされた「デルタ量子化パラメータ」とともに周期的に変化し得る。デルタ量子化パラメータ(デルタQP)は、「量子化グループ」と呼ばれる、所与のエリア内に含まれるCUについて1回シグナリングされる。CUが量子化グループサイズよりも大きい場合、デルタQPは、CUのTBのうちの1つを用いて1回シグナリングされる。すなわち、デルタQPは、CUの第1の量子化グループについて1回エントロピーエンコーダ338によってシグナリングされ、CUの任意の後続の量子化グループについてはシグナリングされない。「量子化行列」を適用することによって、不均一なスケーリングも可能であり、それによって、各残差係数に適用されるスケーリング係数は、量子化パラメータ392と、スケーリング行列における対応するエントリとの組合せから導出される。スケーリング行列は、TBのサイズよりも小さいサイズを有することができ、TBに適用される場合、TBサイズよりも小さいサイズのスケーリング行列から各残差係数のためのスケーリング値を提供するために、最近傍アプローチが使用される。残差係数336は、ビットストリーム115における符号化のためにエントロピーエンコーダ338に供給される。典型的には、TUの少なくとも1つの有意な残差係数を有する各TBの残差係数がスキャンパターンに従って、値の順序付けられたリストを生成するためにスキャンされる。スキャンパターンは一般に、4×4「サブブロック」のシーケンスとしてTBをスキャンし、4×4セットの残差係数の粒度で規則的なスキャン動作を提供し、サブブロックの配置は、TBのサイズに依存する。各サブブロック内のスキャンおよび1つのサブブロックから次への進行は、典型的には後方斜めスキャンパターンに従う。さらに、量子化パラメータ392は、デルタQPシンタックス要素を使用してビットストリーム115に符号化され、二次変換インデックス388はビットストリーム115に符号化される。
上述したように、ビデオエンコーダ114は、ビデオデコーダ134に見られる復号されたフレーム表現に対応するフレーム表現にアクセスする必要がある。したがって、残差係数336は、逆二次変換モジュール344を通過し、二次変換インデックス388に従って動作して、矢印342によって表される中間逆変換係数を生成する。中間逆変換係数は、量子化パラメータ392に従って逆量子化モジュール340によって逆量子化され、矢印346によって表される逆変換係数を生成する。逆量子化モジュール340はまた、量子化モジュール334において実行される順方向スケーリング(forward scaling)に対応する、スケーリングリストを使用して残差係数の逆不均一スケーリングを実行し得る。中間逆変換係数346は、逆一次変換モジュール348に渡されて、TUの、矢印350によって表される残差サンプルを生成する。逆一次変換モジュール348は、順方向一次変換モジュール326を参照して説明したように、最大の利用可能な変換サイズによって制約されて、DCT-2変換を水平および垂直に適用する。逆二次変換モジュール344によって実行される逆変換のタイプは、順方向二次変換モジュール330によって実行される順方向変換のタイプに対応する。逆一次変換モジュール348によって実行される逆変換のタイプは、一次変換モジュール326によって実行される一次変換のタイプに対応する。加算モジュール352は、残差サンプル350およびPU320を加算して、CUの再構成されたサンプル(矢印354によって示される)を生成する。
再構成されたサンプル354は、参照サンプルキャッシュ356およびループ内フィルタモジュール368に渡される。通常、ASIC上のスタティックRAMを使用して実装される(したがって、高価なオフチップメモリアクセスを回避する)参照サンプルキャッシュ356は、フレーム内の後続のCUのためのイントラフレームPBを生成するための依存性を満たすために必要とされる最小限のサンプル記憶を提供する。最小依存性は、典型的にはCTUの次の行による使用のためのCTUの行の底部に沿ったサンプルの「ラインバッファ」と、CTUの高さによってその範囲が設定される列バッファリングと、を含む。参照サンプルキャッシュ356は、参照サンプル(矢印358によって表される)を参照サンプルフィルタ360に供給する。サンプルフィルタ360は、平滑化演算を適用して、フィルタリングされた参照サンプルを生成する(矢印362によって示される)。フィルタリングされた参照サンプル362は、イントラフレーム予測モジュール364によって使用されて、矢印366によって表される、サンプルのイントラ予測されたブロックを生成する。各候補イントラ予測モードについて、イントラフレーム予測モジュール364は、サンプルのブロック、すなわち366を生成する。サンプルのブロック366は、DC、平面、または角度イントラ予測などの技法を使用して、モジュール364によって生成される。
ループ内フィルタモジュール368は、再構成されたサンプル354にいくつかのフィルタリングステージを適用する。フィルタリングステージは、不連続性に起因するアーチファクトを低減するためにCU境界に整列された平滑化を適用する「デブロッキングフィルタ」(DBF)を含む。インループフィルタモジュール368に存在する別のフィルタリングステージは、「適応ループフィルタ」(ALF)であり、これは、ウィナーベースの適応フィルタを適用して、歪みをさらに低減する。ループ内フィルタモジュール368においてさらに利用可能なフィルタリングステージは、「サンプル適応オフセット」(SAO)フィルタである。SAOフィルタは最初に、再構成されたサンプルを1つまたは複数のカテゴリに分類し、割り当てられたカテゴリに従って、サンプルレベルでオフセットを適用することによって動作する。
矢印370によって表されるフィルタリングされたサンプルは、インループフィルタモジュール368から出力される。フィルタリングされたサンプル370は、フレームバッファ372に格納される。フレームバッファ372は典型的にはいくつかの(例えば、最大16個の)ピクチャを格納するための容量を有し、したがって、メモリ206に格納される。フレームバッファ372は通常、必要とされる大きなメモリ消費のために、オンチップメモリを使用して格納されない。したがって、フレームバッファ372へのアクセスは、メモリ帯域幅の点でコストがかかる。フレームバッファ372は、参照フレーム(矢印374によって表される)を動き推定モジュール376および動き補償モジュール380に提供する。
動き推定モジュール376は(378として示される)いくつかの「動きベクトル」を推定し、各々は現在のCBの位置からのデカルト空間オフセットであり、フレームバッファ372中の参照フレームのうちの1つの中のブロックを参照する。参照サンプルのフィルタリングされたブロック(382として表される)が、動きベクトルごとに生成される。フィルタリングされた参照サンプル382は、モードセレクタ386による潜在的な選択のために利用可能なさらなる候補モードを形成する。さらに、所与のCUについて、PU320は、1つの参照ブロック(「uni-predicted」)を使用して形成され得るか、または2つの参照ブロック(「bi-predicted」)を使用して形成され得る。選択された動きベクトルについて、動き補償モジュール380は、動きベクトルにおけるサブピクセル精度をサポートするフィルタリング処理に従ってPB320を生成する。したがって、(多くの候補動きベクトルに対して動作する)動き推定モジュール376は、(選択された候補のみに対して動作する)動き補償モジュール380のものと比較して簡略化されたフィルタリング処理を実行して、低減された計算量を達成することができる。ビデオエンコーダ114がCUのためのインター予測を選択する場合、動きベクトル378は、ビットストリーム115に符号化される。
図3のビデオエンコーダ114は汎用ビデオコーディング(VVC)を参照して説明されるが、他のビデオコーディング規格または実装形態はまた、モジュール310~390の処理ステージを採用し得る。フレームデータ113(およびビットストリーム115)はまた、メモリ206、ハードディスクドライブ210、CD-ROM、ブルーレイディスクTM、または他のコンピュータ可読記憶媒体から読み出される(またはこれらに書き込まれる)ことができる。さらに、フレームデータ113(およびビットストリーム115)は、通信ネットワーク220または無線周波数受信機に接続されたサーバなどの外部ソースから受信(または外部ソースに送信)され得る。通信ネットワーク220は、制限された帯域幅を提供することができ、フレームデータ113を圧縮することが困難なときにネットワークを飽和させることを回避するために、ビデオエンコーダ114におけるレート制御の使用を必要とする。さらに、ビットストリーム115は、プロセッサ205の制御下で協調的に動作する、ビデオエンコーダ114の1つまたは複数のインスタンスによって生成された、フレームデータ113の空間セクション(CTUのコレクション)を表す1つまたは複数のスライスから構築され得る。本開示のコンテンツでは、スライスがビットストリームの「連続部分」と呼ばれることもある。スライスはビットストリーム内で連続しており、例えば、並列処理が使用されている場合、別個の部分として符号化または復号することができる。
ビデオデコーダ134を図4に示す。図4のビデオデコーダ134は汎用ビデオコーディング(VVC)ビデオ復号パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。図4に示すように、ビットストリーム133は、ビデオデコーダ134に入力される。ビットストリーム133は、メモリ206、ハードディスクドライブ210、CD-ROM、ブルーレイディスクTM、または他の非一時的コンピュータ可読記憶媒体から読み出され得る。あるいは、ビットストリーム133が通信ネットワーク220または無線周波数受信機に接続されたサーバなどの外部ソースから受信されてもよい。ビットストリーム133は、復号されるべき撮像されたフレームデータを表す符号化されたシンタックス要素を含む。
ビットストリーム133は、エントロピーデコーダモジュール420に入力される。エントロピーデコーダモジュール420は、「ビン」のシーケンスを復号することによってビットストリーム133からシンタックス要素を抽出し、シンタックス要素の値をビデオデコーダ134内の他のモジュールに渡す。エントロピーデコーダモジュール420は、可変長および固定長復号を使用して、算術復号エンジンのSPS、PPS、またはスライスヘッダを復号し、スライスデータのシンタックス要素を1つまたは複数のビンのシーケンスとして復号する。各ビンは、1つまたは複数の「コンテキスト」を使用することができ、コンテキストは、ビンの「1」値および「0」値をコーディングするために使用される確率レベルを記述する。所与のビンについて複数のコンテキストが利用可能である場合、「コンテキストモデリング」または「コンテキスト選択」ステップが実行されて、ビンを復号するために利用可能なコンテキストのうちの1つが選択される。ビンを復号するプロセスは、シーケンシャルフィードバックループを形成し、したがって、各スライスは、所与のエントロピーデコーダ420のインスタンスによってスライス全体において復号され得る。単一の(または少数の)高性能エントロピーデコーダ420インスタンスは、ビットストリーム115からのフレームのすべてのスライスを復号することができ、複数の低性能エントロピーデコーダ420インスタンスは、ビットストリーム133からのフレームのスライスを同時に復号することができる。
エントロピーデコーダモジュール420は、算術符号化アルゴリズム、例えば「コンテキスト適応型バイナリ算術符号化」(CABAC)を適用して、ビットストリーム133からシンタックス要素を復号する。復号されたシンタックス要素は、ビデオデコーダ134内のパラメータを再構成するために使用される。パラメータは、残差係数(矢印424によって表される)、量子化パラメータ474、二次変換インデックス470、およびイントラ予測モード(矢印458によって表される)などのモード選択情報を含む。モード選択情報はまた、動きベクトル、および各CTUの1つまたは複数のCBへの区分などの情報を含む。パラメータはPBを生成するために使用され、典型的には以前に復号されたCBからのサンプルデータと組み合わせられる。
残差係数424は、二次変換インデックスに従って動作が実行されない(バイパス)、または二次変換が適用される場合に、逆二次変換モジュール436に渡される。逆二次変換モジュール436は、二次変換領域係数から、再構成された変換係数432、すなわち一次変換領域係数を生成する。再構成された変換係数432は、逆量子化器モジュール428に入力される。逆量子化器モジュール428は、量子化パラメータ474に従って、矢印440によって表される、再構成された中間変換係数を作成するために、残差係数432、すなわち、一次変換係数領域において、逆量子化(または「スケーリング」)を実行する。逆量子化器モジュール428は、逆量子化器モジュール340の動作に対応する、TB内で非均一な逆量子化を提供するために、スケーリングマトリックスを適用することもできる。非均一逆量子化行列を使用することがビットストリーム133に示される場合、ビデオデコーダ134は、ビットストリーム133から量子化行列をスケーリングファクタのシーケンスとして読み出し、スケーリングファクタを行列に配置する。逆スケーリングは、量子化パラメータと組み合わせて量子化行列を使用して、再構成された中間変換係数440を作成する。
再構成された変換係数440は、逆一次変換モジュール444に渡される。モジュール444は、係数440を周波数領域から空間領域に戻すように変換する。逆一次変換モジュール444は、順方向一次変換モジュール326を参照して説明したように、最大利用可能変換サイズによって制約された、逆DCT-2変換を水平および垂直に適用する。モジュール444の動作の結果は、矢印448によって表される残差サンプルのブロックである。残差サンプル448のブロックは、サイズにおいて、対応するCBに等しい。残差サンプル448は、加算モジュール450に供給される。加算モジュール450において、残差サンプル448は、復号されたPB(452として表される)に加算されて、矢印456によって表される、再構成されたサンプルのブロックを生成する。再構成されたサンプル456は、再構成されたサンプルキャッシュ460およびループ内フィルタリングモジュール488に供給される。ループ内フィルタリングモジュール488は、492として表される、フレームサンプルの再構成されたブロックを生成する。フレームサンプル492は、フレームバッファ496に書き込まれる。
再構成されたサンプルキャッシュ460は、ビデオエンコーダ114の再構成されたサンプルキャッシュ356と同様に動作する。再構成されたサンプルキャッシュ460は、メモリ206なしで後続のCBをイントラ予測するのに必要な再構成されたサンプルのための記憶を提供する(例えば、通常はオンチップメモリであるデータ232を代わりに使用することによって)。矢印464によって表される参照サンプルは、再構成されたサンプルキャッシュ460から取得され、参照サンプルフィルタ468に供給されて、矢印472によって示されるフィルタリングされた参照サンプルを生成する。フィルタリングされた参照サンプル472は、イントラフレーム予測モジュール476に供給される。モジュール476は、ビットストリーム133においてシグナリングされ、エントロピーデコーダ420によって復号されたイントラ予測モードパラメータ458に従って、矢印480によって表されるイントラ予測サンプルのブロックを生成する。サンプルブロック480は、DC、平面、または角度イントラ予測などのモードを使用して生成される。
CBの予測モードがビットストリーム133においてイントラ予測を使用するように示される場合、イントラ予測サンプル480は、マルチプレクサモジュール484を介して復号PB452を形成する。イントラ予測は、サンプルの予測ブロック(PB)、すなわち、同じ色成分における「隣接サンプル」を使用して導出される1つの色成分におけるブロックを生成する。隣接するサンプルは、現在のブロックに隣接するサンプルであり、ブロック復号順序に先行することによって、すでに再構成されている。ルマブロックとクロマブロックとが併置される場合、ルマブロックとクロマブロックとは異なるイントラ予測モードを使用し得る。しかしながら、2つのクロマCBは、同じイントラ予測モードを共有する。
CBの予測モードがビットストリーム133におけるインター予測であることが示される場合、動き補償モジュール434は、フレームバッファ496からサンプルのブロック498を選択してフィルタリングするために、(エントロピーデコーダ420によってビットストリーム133から復号された)動きベクトルと参照フレームインデックスとを使用して、438として表されるインター予測されたサンプルのブロックを生成する。サンプルのブロック498は、フレームバッファ496に格納された以前に復号されたフレームから取得される。双予測の場合、サンプルの2つのブロックが生成され、一緒にブレンドされて、復号されたPB452のためのサンプルが生成される。フレームバッファ496は、ループ内フィルタリングモジュール488からのフィルタリングされたブロックデータ492でポピュレートされる。ビデオエンコーダ114のループ内フィルタリングモジュール368と同様に、ループ内フィルタリングモジュール488は、DBF、ALF、およびSAOフィルタリング動作のいずれかを適用する。一般に、動きベクトルは、ルマチャネルとクロマチャネルの両方に適用されるが、ルマチャネルとクロマチャネルにおけるサブサンプル補間のためのフィルタリング処理は異なる。
図5は、汎用ビデオコーディングのツリー構造における、領域の1つまたは複数のサブ領域への利用可能な分割またはスプリットの集合500を示す概略ブロック図である。図3を参照して説明したように、エンコーダ114のブロックパーティショナ310には、コーディングツリーに従って各CTUを1つまたは複数のCUまたはCBに分割するために、集合500に示される分割を利用することができる。
集合500は他への、場合によっては非正方形のサブ領域に分割される正方形領域のみを示すが、集合500は、コーディングツリー内の親ノードの、コーディングツリー内の子ノードへの潜在的な分割を示しており、正方形領域に対応することを親ノードに要求しないことを理解されたい。包含領域が非正方形である場合、分割から得られるブロックの寸法は、包含ブロックのアスペクト比に従ってスケーリングされる。領域がさらに分割されない場合、すなわち、コーディングツリーのリーフノードにおいて、CUがその領域を占有する。
領域をサブ領域にサブ分割するプロセスは、結果として得られるサブ領域が最小CUサイズ、一般に4×4ルマサンプルに達した場合に終了しなければならない。所定の最小サイズ、例えば16サンプルよりも小さいブロック領域を禁止するようにCUを制約することに加えて、CUは、4の最小幅または高さを有するように制約される。幅および高さの両方に関して、または幅または高さに関して、他の最小値も可能である。サブ分割のプロセスは、分解の最深レベルの前に終了することもでき、その結果、最小CUサイズよりも大きいCUが得られる。分割が起こらず、結果として単一のCUがCTUの全体を占有することが可能である。CTUの全体を占める単一のCUは、最大の利用可能なコーディングユニットサイズである。4:2:0などのサブサンプリングされたクロマフォーマットの使用のために、ビデオエンコーダ114およびビデオデコーダ134の構成は、ルマチャネルおよびクロマチャネルのブロック構造を定義する共有コーディングツリーの場合を含めて、ルマチャネル中よりも早いクロマチャネル中の領域のスプリットを終了し得る。別個のコーディングツリーがルマおよびクロマのために使用される場合、利用可能な分割動作に関する制約は、16サンプルの最小クロマCB領域を保証するが、そのようなCBは、より大きいルマ領域、たとえば、64のルマサンプルとコロケートされる。
コーディングツリーのリーフノードには、CUが存在し、さらなるサブ分割は存在しない。例えば、リーフノード510は、1つのCUを含む。コーディングツリーの非リーフノードには2つ以上のさらなるノードへの分割が存在し、その各々は1つのCUを形成するリーフノード、またはより小さい領域へのさらなる分割を含む非リーフノードとすることができる。コーディングツリーの各リーフノードにおいて、各カラーチャネルに対して1つのコーディングブロックが存在する。ルマとクロマの両方について同じ深度で終端するスプリットは、3つのコロケートされたCBをもたらす。クロマに対するよりもルマに対するより深い深度で終端するスプリットは、複数のルマCBがクロマチャネルのCBとコロケートされることをもたらす。
4分木スプリット512は、図5に示すように、包含領域を4つの等しいサイズの領域に分割する。HEVCと比較して、汎用ビデオコーディング(VVC)は、水平バイナリスプリット514および垂直バイナリスプリット516を含む追加のスプリットを伴う追加の柔軟性を達成する。スプリット514および516の各々は、包含領域を2つの等しいサイズの領域に分割する。分割は、包含ブロック内の水平境界(514)または垂直境界(516)のいずれかに沿っている。
さらなる柔軟性は、3値水平スプリット518および3値垂直スプリット520を追加することによって、汎用ビデオコーディングにおいて達成される。3値スプリット518および520は、ブロックを、包含領域の幅または高さの1/4および3/4に沿って水平方向(518)または垂直方向(520)のいずれかに境界付けられた3つの領域に分割する。4分木、2分木、3分木の組合せをQTBTTTと呼ぶ。ツリーのルートは、ゼロ以上の四分木分割(ツリーの「QT」セクション)を含む。QTセクションが終了すると、0個以上のバイナリまたは3値分割(ツリーの「マルチツリー」または「MT」セクション)が生じ、最後にツリーのリーフノードのCBまたはCUで終了する。ツリーがすべてのカラーチャネルを記述する場合、ツリーリーフノードはCUである。ツリーがルマチャネルまたはクロマチャネルを記述する場合、ツリーリーフノードはCBである。
四分木ツリーのみをサポートし、したがって正方形ブロックのみをサポートするHEVCと比較して、QTBTTは、特にバイナリツリーおよび/または三値ツリー分割の可能な再帰的適用を考慮して、より多くの可能なCUサイズをもたらす。四分木分割のみが利用可能である場合、コーディングツリー深度の各増加は、CUサイズの、親エリアのサイズの4分の1への低減に対応する。VVCでは、コーディングツリー深度がCUエリアに直接的に対応しないことを、バイナリ分割と3値分割の利用可能性が意味する。異常な(非正方形の)ブロックサイズの可能性は、4サンプル未満であるか、または4サンプルの倍数ではないかのいずれかであるブロック幅または高さをもたらすスプリットを排除するためにスプリットオプションを制約することによって低減することができる。一般に、制約は、ルマサンプルを考慮する際に適用される。しかしながら、説明される構成では、制約がクロマチャネルのためのブロックに別個に適用され得る。クロマチャネルにオプションを分割するための制約の適用は例えば、フレームデータが4:2:0クロマフォーマットまたは4:2:2クロマフォーマットである場合、ルマ対クロマのための異なる最小ブロックサイズをもたらし得る。各分割は、包含領域に関して、側面の寸法が変更されていない、半分になっている、または4分の1になっているサブ領域が生成される。そして、CTUサイズは2のべき乗であるので、全てのCUの側面の寸法も2のべき乗である。
図6は、汎用ビデオ符号化で使用されるQTBTTT(または「コーディングツリー」)構造のデータフロー600を示す概略フロー図である。QTBTTT構造は、CTUの1つまたは複数のCUへの分割を定義するために、各CTUに対して使用される。各CTUのQTBTTT構造は、ビデオエンコーダ114内のブロックパーティショナ310によって決定され、ビットストリーム115に符号化されるか、またはビデオデコーダ134内のエントロピーデコーダ420によってビットストリーム133から復号される。データフロー600はさらに、図5に示される分割に従って、CTUを1つまたは複数のCUに分割するためにブロックパーティショナ310に利用可能な許容可能な組合せを特徴付ける。
階層の最上位レベル、すなわちCTUから始めて、ゼロまたはそれ以上の四分木分割が最初に実行される。具体的には、四分木(QT)分割決定610がブロックパーティショナ310によって行われる。「1」シンボルを返す610での決定は、四分木分割512に従って現在のノードを4つのサブノードに分割する決定を示す。その結果、620などの、4つの新しいノードが生成され、各新しいノードについて、QT分割決定610に戻る。各新しいノードは、ラスタ(またはZスキャン)順序で考慮される。あるいは、QT分割決定610がさらなる分割が実行されるべきでないことを示す(「0」シンボルを返す)場合、四分木分割は停止し、マルチツリー(MT)分割がその後考慮される。
まず、MT分割決定612がブロックパーティショナ310によって行われる。612において、MT分割を実行する決定が示される。決定612で「0」のシンボルを返すことは、ノードのサブノードへのそれ以上の分割が実行されないことを示す。ノードのそれ以上の分割が実行されない場合、ノードはコーディングツリーのリーフノードであり、CUに対応する。リーフノードは622で出力される。あるいは、MT分割612がMT分割を実行する決定を示す(「1」シンボルを返す)場合、ブロックパーティショナ310は方向決定614に進む。
方向決定614は、水平(「H」または「0」)または垂直(「V」または「1」)のいずれかとしてMT分割の方向を示す。ブロックパーティショナ310は、決定614が水平方向を示す「0」を返す場合、決定616に進む。ブロックパーティショナ310は、決定614が垂直方向を示す「1」を返す場合、決定618に進む。
決定616および618のそれぞれにおいて、MT分割のパーティション数は、BT/TT分割で2つ(バイナリ分割または「BT」ノード)または3つ(3値分割または「TT」)のいずれかとして示される。すなわち、BT/TT分割決定616は、614からの指示された方向が水平であるときにブロックパーティショナ310によって行われ、BT/TT分割決定618は、614からの指示された方向が垂直であるときにブロックパーティショナ310によって行われる。
BT/TT分割決定616は、水平分割が「0」を返すことによって示されるバイナリ分割514であるか、「1」を返すことによって示される3値分割518であるかを示す。BT/TT分割決定616がバイナリ分割を示す場合、HBT CTUノード生成ステップ625において、水平バイナリ分割514に従って、2つのノードがブロックパーティショナ310によって生成される。BT/TT分割616が3値分割を示す場合、HTT CTUノード生成ステップ626において、水平3値分割518に従って、ブロックパーティショナ310によって3つのノードが生成される。
BT/TT分割決定618は、垂直分割が「0」を返すことによって示されるバイナリ分割516であるか、「1」を返すことによって示される3値分割520であるかを示す。BT/TT分割618がバイナリ分割を示す場合、VBT CTUノード生成ステップ627では、垂直バイナリ分割516に従って、ブロックパーティショナ310によって2つのノードが生成される。BT/TT分割618が3値分割を示す場合、VTT CTUノード生成ステップ628において、垂直3値分割520に従って、ブロックパーティショナ310によって3つのノードが生成される。ステップ625~628から生じる各ノードについて、MT分割決定612に戻るデータフロー600の再帰が、方向614に応じて、左から右へ、または上から下への順序で適用される。その結果、2分木および3分木分割を適用して、様々なサイズを有するCUを生成することができる。
図7Aおよび7Bは、CTU710のいくつかのCUまたはCBへの分割例700を提供する。CU712の一例を図7Aに示す。図7Aは、CTU710におけるCUの空間配置を示す。分割例700は、図7Bにコーディングツリー720としても示されている。
図7AのCTU710内の各非リーフノード、例えばノード714、716および718において、収容されたノード(さらに分割されていてもよいし、CUであってもよい)は、ノードのリストを作成するために「Zオーダー」でスキャンまたはトラバースされ、コーディングツリー720内のカラムとして表される。4分木分割の場合、Zオーダースキャンは、左上から右に続いて左下から右の順序になる。水平分割および垂直分割の場合、Zオーダースキャン(トラバーサル)は、それぞれ、上から下へのスキャン、および左から右へのスキャンに単純化する。図7Bのコーディングツリー720は、適用されたスキャンオーダーに従って、すべてのノードおよびCUをリストする。各分割は、リーフノード(CU)に到達するまで、ツリーの次のレベルで2、3、または4個の新しいノードのリストを生成する。
ブロックパーティショナ310によって画像をCTUに、さらにCUに分解し、CUを使用して、図3を参照して説明したように各残差ブロック(324)を生成すると、残差ブロックは、ビデオエンコーダ114によって順変換および量子化される。結果として生じるTB336は、その後、エントロピーコーディングモジュール338の動作の一部として、残差係数のシーケンシャルリストを形成するためにスキャンされる。ビデオデコーダ134において同等の処理が実行され、ビットストリーム133からTBが取得される。
図8は、1つまたは複数のスライスを有するビットストリーム801のシンタックス構造800を示す。スライスの各々は、複数のコーディングユニットを含む。ビットストリーム801は、画像フレームデータ113を符号化し、複数のコーディングツリーユニットに分割され、複数のコーディングツリーユニットの各々は、1つまたは複数のコーディングユニットに分割され、次に、1つまたは複数の変換ブロックに分割される。ビットストリーム801は例えば、ビットストリーム115として、ビデオエンコーダ114によって生成され得るか、または、例えば、ビットストリーム133として、ビデオデコーダ134によって解析され得る。ビットストリーム801は部分、例えば、ネットワーク抽象化レイヤ(NAL)ユニットに分割され、描写は、各NALユニットの前に808などのNALユニットヘッダを付けることによって達成される。NALユニットヘッダは、次のNALユニットのコンテンツを識別するNALユニットタイプを含む。ビデオパラメータセット(VPS)810は、「VPS_NUT」という名前のNALユニットタイプを有し、ビットストリームのすべてのレイヤに適用可能なパラメータを含む。VPS810は、profile_tier_levelシンタックス構造830を含み得る。構造830は、「general_profile_idc」シンタックス要素を有するビットストリームのプロファイルと、選択されたプロファイルのサブプロファイル(もしあれば)を指定するgeneral_constraint_infoシンタックス構造832とを指定する。general_constraint_infoシンタックス構造832は、フラグno_luma_transform_size_64_constraint_flag832aと、コードワードmax_log2_ctu_size_constraint_idc832bとを含む。フラグ832aは、ビットストリームの最大変換ブロックサイズ制約(例えば64)を提供し、ビットストリームの符号化または復号に必要なツールのハイレベル(ビットストリームの構造との関連で)表示を提供する。64ポイント変換は、最初の32個の残差係数のみがスキャンされて符号化されるポイントで他の変換と異なる。たとえば、64×64TBは、左上の32×32領域において有意な(非ゼロ)残差係数のみを有し得る。フラグ832aは、最大一次変換サイズが水平および垂直32ポイントに制限されている、または制約なしに放置されているという制約を示し、この場合、VVC標準によってサポートされている最大一次変換サイズは、水平および垂直64ポイントである。フラグ832aは、固定長コードワード又は典型的にはサイズ1ビットのフラグである。最大変換サイズを16ポイントまたは8ポイントなどのより小さい値にさらに制限することも、同様に実施することができる。同様に、コードワード832bは、ビットストリームのための最大CTUサイズ制約を提供し、ビットストリームを符号化または復号するために必要とされるツールの高レベル指示を提供する。コードワード832bは、典型的にはサイズ2ビットの固定長コードワードである。構造832は、ビデオエンコーダ114およびビデオデコーダ134の実装に関連する特定のサブプロファイルを定義する。シンタックス構造832には、no_scaling_list_constraint_flag832cが含まれている。フラグ832cは、アクティブ(1と等しい値)の場合、ビットストリームでスケーリングリストが使用できないことを示す。
シーケンスパラメータセット(SPS)812は、「SPS_NUT」という名前のNALユニットタイプを有し、profile_tier_levelシンタックス構造830も含み得る。profile_level_tierシンタックス構造830は、VPS810またはSPS812のいずれかに含まれるが、両方には含まれない。シーケンスパラメータセット(SPS)812は、ビットストリーム、クロマフォーマット、サンプルビット深度、およびフレーム解像度を符号化および復号するために使用されるプロファイル(ツールのセット)などのシーケンスレベルパラメータを定義する。SPS812はまた、特定のビットストリームにおいてどのコーディングツールが使用され得るかを指定し、選択は、プロファイルおよびサブプロファイルによって利用可能であると示されるツールのサブセットである。構造834は、サブプロファイルによって利用可能なツールの例を示す。フラグsps_max_luma_transform_size_64_flag834aは、64ptの一次変換が使用され得るかどうかを示す。フラグ834aは、制約フラグ832aが64pt一次変換の使用を禁止しない場合にのみ、64pt一次変換の使用を示すことができる。sps_log2_ctu_size_minus5コードワード834bは、2ビットの固定長コードワードを用いて、CTUのサイズ(すなわち、最大コーディングユニットサイズ)を示す。コードワード834bは、32×32、64×64、または128×128のCTUサイズをそれぞれ示す値0、1、または2を有し得る。値3は、VVCの初期(「バージョン1」)プロファイルにおいて予約されている。コードワード834bは、832bの値を超えないことがあり、したがって、832bは、サブプロファイル定義の一部としてCTUサイズに制限を課す。sps_explicit_scaling_list_enabled_flag834cは、所与のTB内で不均一な量子化のためにビットストリームでスケーリングリストを使用できるかどうかを示す。フラグ832cがアクティブ(例えば1と等しい値)である場合、フラグ834cは、非アクティブ状態(0と等しい値)になる必要がある。
フラグ834aは、ビットストリームの最大有効変換ブロックサイズを示す。フラグ834aは、対応する制約フラグ832aに基づいて制約されているが、制約フラグ832aに基づいて条件付(セット)されていない。コンプライアンスビットストリームでは、フラグ834aによって有効とされる最大変換ブロックサイズが、制約フラグ832aによって設定された制約に対応し、例えば、制約フラグ832a以下の最大値を有する。フラグ834aは、典型的にはサイズ1ビットの固定長コードワードまたはフラグである。
同様に、コードワード834bは、ビットストリームの最大有効CTUサイズを示す。コードワード834bは、対応する制約コードワード832bに基づいて制約されるが、制約コードワード832bに基づいて条件付け(設定)されない。準拠ビットストリームでは、コードワード834bによって有効にされる最大CTUサイズが、コードワード832bによって設定される制約に対応し、たとえば、コードワード832b以下の最大値を有する。フラグ834bは、典型的にはサイズ2ビットの固定長コードワードである。
適応パラメータセット(APS)813は、「PREFIX_APS_NUT」という名前のNALユニットタイプを使用して、フレームの前に符号化されるか、または「SUFFIX_APS_NUT」という名前のNALユニットタイプを使用して、フレーム(図示せず)の後に符号化される。複数のAPSが、ビットストリーム800(図示せず)中のフレーム間に含まれ得る。各APS(たとえば、813)は、スケーリングリスト、ALFフィルタパラメータ、およびLMCSモデルパラメータの3つのコーディングツールのうちの1つを構成するためのパラメータを含む。3つのコーディングツールのうちのいずれが所与のAPSにおいて構成されるかは、それぞれのAPSに含まれる「aps_params_type」コードワードによって指定される。aps_params_typeコードワードは、3ビットの固定長コードワードを使用し、3つの前述のツールの値0~2および将来の使用のために予約された値3~7を有する。0に等しいシンタックス要素aps_params_typeは、「ALF_APS」と名付けられ、APSが適応ループフィルタのためのパラメータを含むことを示し、1に等しいaps_params_typeは、「LMCS_APS」と名付けられ、APSがルマモデルクロマスケーリングツールのためのパラメータを含むことを示し、2に等しいaps_params_typeは、「SCALING_APS」と名付けられ、APSがスケーリングリストのためのパラメータを含むことを示す。
1つのピクチャを形成するスライスのシーケンスは、AU 0 814などのアクセスユニット(AU)として知られている。AU 0 814は、スライス0~2などの3つのスライスを含む。スライス1は、816としてマークされている。他のスライスと同様に、スライス1(816)は、スライスヘッダ818およびスライスデータ820を含む。
図9は、ビットストリーム801(例えば、115または133)のスライスデータ820のシンタックス構造900を示す。CTU910は、CU914として示される一例である1つまたは複数のCUを含む。各CTUのサイズは、コードワード834bによって設定され、その値は制約832bによって制約される。CU914は、変換ツリー916が後に続くシグナリングされた予測モード(図示せず)を含む。CU914のサイズが最大変換サイズ(水平および垂直に32ポイントまたは64ポイント)を超えない場合、変換ツリー916は1つの変換ユニットを含む。CU、例えば、CU914の大きさが最大変換サイズ(水平方向および垂直方向に32ポイントまたは64ポイント)を超えている場合、変換ツリー916は複数のTUを含み、タイル状に空間的に配置され、例えば、TU918aおよび918bとして示されるように、ビットストリームに順次格納される。
図10は、フレームデータ113をビットストリーム115に符号化するための方法1000を示し、ビットストリーム115は、コーディングツリーユニットのシーケンスとして1つまたは複数のスライスを含む。方法1000は、構成されたFPGA、ASIC、またはASSPなどの装置によって実施され得る。さらに、方法1000は、プロセッサ205の実行下でビデオエンコーダ114によって実行され得る。フレームを符号化する作業負荷のために、方法1000のステップは、異なるスライスが異なるプロセッサによって符号化されるように、例えば、現代のマルチコアプロセッサを使用して、作業負荷を共有するために異なるプロセッサにおいて実行され得る。生成されたビットストリーム115は、最大変換サイズおよび最大CTUサイズを含む、ブロック構造の態様に関する制約を含むサブプロファイルに準拠し得る。方法1000は、コンピュータ可読記憶媒体および/またはメモリ206に格納され得る。
方法1000は、符号化制約パラメータステップ1010で開始する。ステップ1010において、ビデオエンコーダ114は、固定長符号化パラメータのシーケンスとしてビットストリーム115中のVPS810またはSPS812のいずれかにgeneral_constraint_infoシンタックス構造832を含むprofile_tier_levelシンタックス構造830を符号化する。最大変換サイズ(832a)と最大CTUサイズ(832b)の制約は、general_constraint_infoシンタックス構造832の一部として符号化され、ビットストリーム115のサブプロファイルの定義に貢献する。スケーリングリストの使用に対する制約は、フラグ832cを有するgeneral_constraint_infoシンタックス構造832の一部として符号化され、ビットストリーム115のサブプロファイルの定義にも寄与する。
方法1000は、ステップ1010から符号化ブロック構造パラメータステップ1015に進む。ステップ1015で、ビデオエンコーダ114は、ビットストリームの選択された最大変換サイズをフラグ834aとしてSPS812に符号化し、ビットストリーム115の選択されたCTUサイズをコードワード834bとしてSPS812に符号化する。フラグ834aとコードワード834bは、対応する制約フラグの値、すなわち、それぞれ832aと832bの値にかかわらず符号化されている。しかしながら、フラグ834a及びコードワード834bは、フラグ832a及びコードワード832bにより制約されたよりも高い能力(より大きな変換サイズ又はより大きなCTUサイズ)を示すことは禁止されている。ステップ1015では、ビデオエンコーダ114が、フラグ834cを符号化することによってスケーリングリストの使用を符号化し、対応する制約フラグ832cの値に関係なく生起するフラグ834cを符号化する。しかしながら、有効フラグ834cは、その使用が制約フラグ832cによって禁止されている場合にはフラグ834cによってスケーリングリストが有効にならない可能性があるような制約フラグ832cによって制約されている。
方法1000は、ステップ1015から、フレームをスライスに分割するステップ1020に続く。ステップ1020の実行において、プロセッサ205は、フレームデータ113を1つまたは複数のスライスまたは連続部分に分割する。並列性が望まれる場合、ビデオエンコーダ114の別個のインスタンスは、各スライスをいくらか独立して符号化する。単一のビデオエンコーダ114は、各スライスを順次処理し得るか、またはある中間の並列度が実装され得る。一般に、スライス(連続部分)へのフレームの分割は、「サブピクチャ」またはタイルなどとして知られる領域へのフレームの分割の境界に整列される。
方法1000は、ステップ1020からスライスヘッダ符号化ステップ1030に続く。ステップ1030において、エントロピーエンコーダ338は、スライスヘッダ818をビットストリーム115に符号化する。
方法1000は、ステップ1030からスライスをCTUに分割するステップ1040に続く。ステップ1040の実行において、ビデオエンコーダ114は、スライス816を、例えば、CTUのシーケンスに分割する。スライス境界はCTU境界に整列され、スライス内のCTUは、CTUスキャンオーダー、典型的にはラスタスキャンオーダーに従って順序付けられる。CTUへのスライスの分割は、現在のスライスを符号化する際に、フレームデータ113のどの部分がビデオエンコーダ113によって処理されるべきかを確立する。
方法1000は、ステップ1040からコーディングツリーを決定するステップ1050に続く。ステップ1050において、ビデオエンコーダ114は、スライス中の現在選択されているCTUのためのコーディングツリーを決定する。方法1000は、ステップ1050の第1の呼び出しでスライス816内の最初のCTUから開始し、後続の呼び出しでスライス816内の後続のCTUに進む。CTUのコーディングツリーを決定する際には、ブロックパーティショナ310によって、四分木、バイナリ、および3値スプリットの様々な組み合わせが生成され、テストされる。
方法1000は、ステップ1050からコーディングツリーを決定するステップ1060に続く。ステップ1060において、ビデオエンコーダ114は、既知の方法を使用して、評価中の様々なコーディングツリーから生じるCUのための符号化を決定するために実行する。符号化を決定することは、たとえば、符号化コストに基づいて、予測モード(たとえば、特定のモードを有するイントラ予測、または動きベクトルを有するインター予測)と、変換選択(一次変換タイプおよびオプションの二次変換タイプ)とを決定することを伴う。ルマTBのための一次変換タイプがDCT-2であると決定されるか、または順方向二次変換の対象ではない任意の量子化一次変換係数が有意である場合、ルマTBのための二次変換インデックスは、二次変換の適用を示し得る。そわない場合、ルマのための二次変換インデックスは、二次変換のバイパスを示す。ルマチャネルの場合、一次変換タイプは、DCT-2、変換スキップ、またはクロマチャネルのMTSオプションのうちの1つと決定され、DCT-2は、利用可能な変換タイプである。個々のコーディングユニットを決定する際に、最適コーディングツリーも、ジョイント方式で決定される。イントラ予測を用いてコーディングユニットを符号化する場合、ルマイントラ予測モード及びクロマイントラ予測が決定される。
方法1000は、ステップ1060からコーディングユニットを符号化するステップ1070に続く。ステップ1070において、ビデオエンコーダ114は、ステップ1060の決定されたコーディングユニットをビットストリーム115に符号化する。
方法1000は、ステップ1070から最後のコーディングユニットをテストするステップ1080に続く。ステップ1080において、プロセッサ205は、現在のコーディングユニットがCTU内の最後のコーディングユニットであるかどうかをテストする。そわない場合(ステップ1080で「NO」)、プロセッサ205における制御は、コーディングユニットを決定するステップ1060に進む。そうではなく、現在のコーディングユニットが最後のコーディングユニットである場合(ステップ1080で「YES」)、プロセッサ205における制御は、最後のCTUをテストするステップ1090に進む。
最後のCTUをテストするステップ1090において、プロセッサ205は、現在のCTUがスライス816内の最後のCTUであるかどうかをテストする。スライス816内の最後のCTUでない場合(ステップ1090で「NO」)、プロセッサ205における制御は、コーディングツリーを決定するステップ1050に戻る。そうではなく、現在のCTUが最後である場合(ステップ1090において「YES」)、プロセッサ205における制御は、最後のスライスをテストするステップ10100に進む。
最後のスライスをテストするステップ10100において、プロセッサ205は、符号化されている現在のスライスがフレーム内の最後のスライスであるかどうかをテストする。最後のスライスでない場合(ステップ10100で「NO」)、プロセッサ205における制御は、スライスヘッダを符号化するステップ1030に進む。そうではなく、現在のスライスが最後であり、且つすべてのスライス(連続部分)が符号化されている場合(ステップ10100で「YES」)、方法1000は終了する。
図11は、スライスに配置されたコーディングユニットのシーケンスとしてビットストリームからフレームを復号するための方法1100を示す。方法1100は、構成されたFPGA、ASIC、またはASSPなどの装置によって実施され得る。さらに、方法1100は、プロセッサ205の実行下でビデオデコーダ134によって実行され得る。したがって、方法1100は、コンピュータ可読記憶媒体および/またはメモリ206に格納され得る。
方法1100は、ビットストリーム115のサブプロファイルが最大変換サイズおよび最大CTUサイズなどのブロックサイズに関する制約を含む方法1000を使用して符号化されたビットストリームを復号する。最大変換サイズは、ビデオデータのクロマフォーマットにかかわらず、ルマおよびクロマに適用される。CTUサイズは、コーディングツリーのルートノードによってカバーされるエリアを示し、コーディングツリーのルートノードは、CTUのコーディングツリーのより深く生じ得るルマおよびクロマのための別個のコーディングツリーへの後続のスプリットにかかわらず、ルマチャネルとクロマチャネルの両方に常に適用される。
方法1100は、制約パラメータを復号するステップ1110で開始する。ステップ1110の実行において、ビデオデコーダ134は、固定長パラメータのシーケンスとしてビットストリーム133に存在するVPS810またはSPS812のいずれかからgeneral_constraint_infoシンタックス構造832を復号して、ビットストリーム133のサブプロファイルを決定する。最大変換サイズ(832a)と最大CTUサイズ(832b)の制約は、general_constraint_infoシンタックス構造832の一部として復号され、ビットストリーム133のサブプロファイルの決定に貢献する。ステップ1110は例えば、ビットストリームから最大変換ブロックサイズ制約および/または最大CTUサイズ制約を復号することができる。スケーリングリストの使用に対する制約は、フラグ832cを有するgeneral_constraint_infoシンタックス構造832の一部として復号され、ビットストリーム133のサブプロファイルの定義にも寄与する。
方法1100は、ステップ1110からブロック構造パラメータを復号するステップ1120に進む。ステップ1120では、ビデオデコーダ134は、SPS812からのフラグ834aとして、ビットストリームの選択された最大有効変換サイズを復号し、SPS812からのコードワード834bとして、ビットストリーム115の選択された最大有効CTUサイズを復号する。フラグ834aとコードワード834bは、対応する制約フラグに関係なく、すなわち、それぞれ832aと832bに復号される。しかしながら、フラグ834a及びコードワード834bは、フラグ832a及びコードワード832bによって制約されたものよりも高い能力(より大きな変換サイズ又はより大きなCTUサイズ)を示すことが(「適合」ビットストリームにおいて)禁止されている。ステップ1125では、ビデオデッタ134が、フラグ834cを復号することによりスケーリングリストの使用を復号し、対応する制約フラグ832cの値にかかわらずフラグ834cの復号が発生する。しかしながら、有効フラグ834cは、その使用が制約フラグ832cによって禁止されている場合には、フラグ834cによってスケーリングリストが有効にならない可能性があるような制約フラグ832cによって制約されている。general_constraint_infoシンタックス構造832において定義された禁止が復号されたブロック構造パラメータによって違反された場合、ビットストリームは、ビデオデコーダ134によって「不適合」と見なされ、さらなる復号が終了し得る。
方法1100は、ステップ1120からスライスヘッダを復号するステップ1130に続く。ステップ1130において、エントロピーデコーダ420は、ビットストリーム133からスライスヘッダ818を復号する。
方法1100は、ステップ1130からCTUにスライスを分割するステップ1140に続く。ステップ1140において、ビデオデコーダ134は、スライス816をCTUのシーケンスに分割する。スライス境界は、CTU境界に整合され、スライス内のCTUはCTUスキャンオーダーに従って順序付けられる。CTUスキャンオーダーは、一般にラスタスキャンオーダーである。CTUへのスライスの分割は、現在のスライスを復号する際に、フレームデータ113のどの部分がビデオデコーダ134によって処理されるべきかを確立する。スライスは、復号された最大有効CTUサイズに基づいてCTUに分割される。
方法1100は、ステップ1140からコーディングツリーを復号するステップ1150に続く。ステップ1150の実行において、ビデオデコーダ133は、ステップ1150の第1の呼び出しでスライス816内の最初のCTUから開始して、ビットストリーム133からスライス内の現在のCTUのコーディングツリーを復号する。CTUのコーディングツリーは、図6に従ってエントロピーデコーダ420でスプリットフラグを復号することによって、および最大有効CTUサイズに基づいて復号される。CTUに対するステップ1150の後続の反復において、スライス816内の後続のCTUに対して復号が実行される。
方法1100は、ステップ1160からコーディングユニットを復号するステップ1170に続く。ステップ1170において、ビデオデコーダ134は、ビットストリーム133からコーディングユニットを復号する。各コーディングユニットは、対応するCTUから復号または決定され、CTUはビットストリームから復号された復号された最大有効コーディングツリーサイズおよびスプリットフラグに従って決定される。
方法1100は、ステップ1110から最後のコーディングユニットをテストするステップ1180に続く。ステップ1180において、プロセッサ205は、現在のコーディングユニットがCTU内の最後のコーディングユニットであるかどうかをテストする。最後のコーディングユニットでない場合(ステップ1180で「NO」)、プロセッサ205における制御は、コーディングツリーユニットの次のコーディングユニットを復号するためにコーディングユニットを復号するステップ1170に戻る。現在のコーディングユニットが最後のコーディングユニットである場合(ステップ1180で「YES」)、プロセッサ205における制御は、最後のCTUをテストするステップ1190に進む。
最後のCTUをテストするステップ1190において、プロセッサ205は、現在のCTUがスライス816内の最後のCTUであるかどうかをテストする。そわない場合、スライス内の最後のCTU(ステップ1190で「NO」)は、プロセッサ205の制御は、コーディングツリーを復号するステップ1150に戻り、スライス816の次のコーディングツリーユニットを復号する。現在のCTUがスライス816の最後のCTUである場合(ステップ1190で「YES」)、プロセッサ205における制御は、最後のスライスをテストするステップ11100に進む。
最後のスライスをテストするステップ11100において、プロセッサ205は、復号されている現在のスライスがフレーム内の最後のスライスであるかどうかをテストする。フレーム内の最後のスライスでない場合(ステップ11100で「NO」)、プロセッサ205の制御は、スライスヘッダを復号するステップ1130に戻り、ステップ1130は、フレーム内の次のスライス(例えば、図11の「スライス2」)のスライスヘッダを復号するように動作する。現在のスライスがフレーム内の最後のスライスである場合(ステップ1100で「YES」)、方法1100は終了する。
ステップ1140~ステップ11100は、復号された最大有効変換ブロックサイズ及び/又は復号された最大有効CTUサイズ及びビットストリームから復号されたスプリットフラグに従って、コーディングユニットのコーディングユニットの各々に対する変換ブロックを決定することによって、画像フレームを復号するように動作する。複数のコーディングユニットのための方法1610の動作は、図1のデバイス130に関して説明したように、画像フレームを生成するように動作する。
方法1000を使用するビデオエンコーダ114および方法1100を使用するビデオデコーダ134の構成は、ブロック構造態様、すなわち、最大変換サイズおよびCTUサイズ(最大CUサイズに対応する)を含む粒度を有するサブプロファイル定義をサポートすることができる。最大変換サイズ制約および/または最大CTUサイズ制約を使用するブロック構造態様の制御は、サブプロファイルが、使用されるクロマフォーマットに関係なく、すべてのカラーチャネルに影響を及ぼす規格のブロック構造挙動に対する制御の粒度を提供することを意味する。シーケンスレベルのツールのセットに関連する一般的な制約を使用して最大変換サイズおよび/または最大CTUサイズを制約することは、復号における早期の知識がどのツールが必要とされるかを決定することを可能にする。制約フラグは、VPS810またはSPS812の開始に対して固定位置に配置され、したがって、ビットストリームのプロファイルおよびサブプロファイルは、可変長復号を実行する必要なしに決定され得る。さらに、問題があることが分かっている実装またはツールは、実装の他の態様、たとえば、他のコーディングツールに影響を及ぼすことなく、かつアドホックまたは非標準サブプロファイルの生成なしに、無効にすることができる。したがって、VVC標準を実装するベンダは、製品における現実世界のアプリケーションおよび実装に適し、適応可能なビデオエンコーダおよびデコーダを実装する際に、より柔軟性を与える。
ビデオエンコーダ114およびビデオデコーダ134の構成では、最大コーディングユニットサイズが、アクティブであるときにCTUサイズを64×64に制限し、非アクティブであるときに128×128のCTUサイズを可能にする1ビットフラグを使用して制約される。
ビデオエンコーダ114およびビデオデコーダ134の別の構成では、「no_scaling_list_constraint_flag」(832c)もまた、general_constraint_info()832中に存在し、ステップ1010においてビデオエンコーダ114によって符号化され、ステップ1110においてビデオデコーダ134によって復号される。ビデオエンコーダ114は、sps_explicit_scaling_list_enabled_flag(834c)をSPS812に符号化し、スケーリングリストが量子化/逆量子化において使用されるべきか否かを示す。ビデオデコーダ134は、SPS812からsps_explicit_scaling_list_enabled_flag834cを構文解析して、逆量子化が逆量子化器モジュール428によって実行される逆量子化においてスケーリングリストを利用すべきかどうかを決定する。no_scaling_list_constraint_flag832cがアクティブの場合(例えば、値が1に等しい)、SPS812で符号化されたsps_explicit_scaling_list_enabled_flag834cは、スケーリングリストが使用中でない(値が0に等しい)、ことを示す。no_scaling_list_constraint_flag832cがスケーリングリストが使用されないことを示す場合(値が1に等しい)、aps_params_typeは値2(「SCALING_APS」)を持つことが禁止される。general_constraint_info()832において符号化されたno_alf_constraint_flagが、適応ループフィルタが使用中でない(1に等しい値)ことを示すとき、ビットストリームに関連する任意のAPS(たとえば、APS813)のaps_params_typeは、値0(「ALF_APS」)を有することを禁止される。general_constraint_info()832において符号化されたno_lmcs_constraint_flagがルマモデルクロマスケーリングが使用されるべきでないことを示すとき(値が1に等しい)、ビットストリームに関連する任意のAPS(たとえば、APS813)のaps_params_typeは、値1(「LMCS_APS」)を有することを禁止される。
産業上の利用可能性
記載される構成は、コンピュータ及びデータ処理産業に、特にビデオ及び画像信号などの信号の復号、符号化のためのディジタル信号処理に適用可能であり、高い圧縮効率を達成する。上述の制約フラグのうちの1つまたは複数を提供することにより、所与のプロファイルのツールのサブセットの選択(「サブプロファイリング」)が可能になる。ツールのサブセットの選択は、ベンダが例えば複雑さの観点から、不必要な又は他の問題のあるコーディングツールを除外するプロファイルのサブセットを指定することができるので、VVCのベンダの実装上の利点など、いくつかの利点を提供する。
上記は、本発明のいくつかの実施形態のみを記載し、本発明の範囲および精神から逸脱することなく、本発明に修正および/または変更を加えることができ、実施形態は例示的であり、限定的ではない。
付録A.
本明細書に記載の方法に対応するように適合されたVVC標準のためのワーキングドラフトテキストの一例。
7.3.3.2 一般的な制約情報のシンタックス(General constraint information syntax)
Figure 0007500745000001
Figure 0007500745000002
7.4.4.2 一般的な制約情報セマンティクス(General constraint information semantics)
...
max_log2_ctu_size_constraint_idcは、sps_log2_ctu_size_minus5が0~max_log2_ctu_size_constraint_idcの範囲内にあることを指定する。
1に等しいno_luma_transform_size_64_constraint_flagは、sps_max_luma_transform_size_64_flagが0に等しいことを指定する。
0に等しいno_luma_transform_size_64_constraint_flagは、そのような制約を課さない。
1に等しいno_scaling_list_constraint_flagは、sps_explicit_scaling_list_enabled_flagが0に等しく、aps_params_typeが2に等しくない、ことを指定する。0に等しいno_scaling_list_constraint_flagは、そのような制約を課さない。
...
1に等しいno_alf_constraint_flagは、sps_alf_enabled_flagが0に等しいことを指定する。そして、aps_params_typeは0に等しくない。0に等しいno_alf_constraint_flagは、そのような制約を課さない。
...
1に等しいno_lmcs_constraint_flagは、sps_lmcs_enabled_flagが0に等しく、aps_params_typeが0に等しくないことを指定する。0に等しいno_lmcs_constraint_flagは、そのような制約を課さない。
発明を定義するクレームは以下の通りである。

Claims (20)

  1. ビットストリームから画像フレームを復号する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造から最大変換ブロックサイズ制約のための第1フラグを復号することと、
    前記ビットストリームにおけるシーケンスパラメータセットにおいて前記第1フラグの値に関わらず含まれるフラグであって最大変換ブロックサイズのためのフラグである第2フラグを復号することと、
    前記最大変換ブロックサイズのための前記第2フラグおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数の変換ブロックを決定することと、
    前記画像フレームを復号するために前記ビットストリームから前記決定された一または複数の変換ブロックの各々を復号することと
    を含み、
    前記最大変換ブロックサイズが前記第1フラグにより制約されない場合、前記第2フラグは、前記最大変換ブロックサイズが64であることを示すことが可能であり、
    前記最大変換ブロックサイズが前記第1フラグにより制約される場合、前記最大変換ブロックサイズは32に制約される
    ことを特徴とする方法。
  2. 1ビットの固定長コードワードが、前記最大変換ブロックサイズ制約のための前記第1フラグに対して使用されることを特徴とする請求項1に記載の方法。
  3. 1ビットの固定長コードワードが、前記最大変換ブロックサイズのための前記第2フラグに対して使用されることを特徴とする請求項1に記載の方法。
  4. 前記第2フラグは、sps_max_luma_transform_size_64_flagであることを特徴とする請求項1に記載の方法。
  5. ビットストリームから画像フレームを復号する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造からコーディングツリーユニットサイズ制約のための第1情報を復号することと、
    前記第1情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットからコーディングツリーユニットサイズのための第2情報を復号することと、
    前記コーディングツリーユニットサイズのための前記第2情報および前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数のコーディングユニットを決定することと、
    前記画像フレームを復号するため、前記ビットストリームから前記決定された一または複数のコーディングユニットの各々を復号することと
    を含み、
    0以上の値をとり得る前記第2情報の値は、前記第1情報に基づく値以下となるよう制約される
    ことを特徴とする方法。
  6. 前記第2情報の値が0である場合、前記コーディングツリーユニットサイズは32であり、
    前記第2情報の値が1である場合、前記コーディングツリーユニットサイズは64であり、
    前記第2情報の値が2である場合、前記コーディングツリーユニットサイズは128であることを特徴とする請求項5に記載の方法。
  7. 前記第2情報は、sps_log2_ctu_size_minus5であることを特徴とする請求項5に記載の方法。
  8. ビットストリームから画像フレームを復号するビデオ復号装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造から最大変換ブロックサイズ制約のための第1フラグを復号する手段と、
    前記ビットストリームにおけるシーケンスパラメータセットにおいて前記第1フラグの値に関わらず含まれるフラグであって最大変換ブロックサイズのためのフラグである第2フラグを復号する手段と、
    前記最大変換ブロックサイズのための前記第2フラグおよび前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数の変換ブロックを決定する手段と、
    前記画像フレームを復号するために前記ビットストリームから前記決定された一または複数の変換ブロックの各々を復号する手段と
    を備え、
    前記最大変換ブロックサイズが前記第1フラグにより制約されない場合、前記第2フラグは、前記最大変換ブロックサイズが64であることを示すことが可能であり、
    前記最大変換ブロックサイズが前記第1フラグにより制約される場合、前記最大変換ブロックサイズは32に制約される
    ことを特徴とするビデオ復号装置。
  9. ビットストリームから画像フレームを復号するビデオ復号装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造からコーディングツリーユニットサイズ制約のための第1情報を復号する手段と、
    前記第1情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットからコーディングツリーユニットサイズのための第2情報を復号する手段と、
    前記コーディングツリーユニットサイズのための前記第2情報および前記ビットストリームから復号されたスプリットフラグに従って、前記複数のコーディングツリーユニットの各々について前記一または複数のコーディングユニットを決定する手段と、
    前記画像フレームを復号するため、前記ビットストリームから前記決定された一または複数のコーディングユニットの各々を復号する手段と
    を備え、
    0以上の値をとり得る前記第2情報の値は、前記第1情報に基づく値以下となるよう制約される
    ことを特徴とするビデオ復号装置。
  10. ビットストリームに画像フレームを符号化する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造に、最大変換ブロックサイズ制約のための第1フラグを符号化することと、
    前記第1フラグの値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、最大変換ブロックサイズのための第2フラグを符号化することと、
    前記一または複数の変換ブロックの各々を符号化することと
    を含み、
    前記最大変換ブロックサイズが前記第1フラグにより制約されない場合、前記第2フラグは、前記最大変換ブロックサイズが64であることを示すことが可能であり、
    前記最大変換ブロックサイズが前記第1フラグにより制約される場合、前記最大変換ブロックサイズは32に制約される
    ことを特徴とする方法。
  11. 1ビットの固定長コードワードが、前記最大変換ブロックサイズ制約のための前記第1フラグに対して使用されることを特徴とする請求項10に記載の方法。
  12. 1ビットの固定長コードワードが、前記最大変換ブロックサイズのための前記第2フラグに対して使用されることを特徴とする請求項10に記載の方法。
  13. 前記第2フラグは、sps_max_luma_transform_size_64_flagであることを特徴とする請求項10に記載の方法。
  14. ビットストリームに画像フレームを符号化する方法であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造にコーディングツリーユニットサイズ制約のための第1情報を符号化することと、
    前記第1情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、コーディングツリーユニットサイズのための第2情報を符号化することと、
    前記一または複数のコーディングユニットの各々を符号化することと
    を含み、
    0以上の値をとり得る前記第2情報の値は、前記第1情報に基づく値以下となるよう制約される
    ことを特徴とする方法。
  15. 前記第2情報の値が0である場合、前記コーディングツリーユニットサイズは32であり、
    前記第2情報の値が1である場合、前記コーディングツリーユニットサイズは64であり、
    前記第2情報の値が2である場合、前記コーディングツリーユニットサイズは128であることを特徴とする請求項14に記載の方法。
  16. 前記第2情報は、sps_log2_ctu_size_minus5であることを特徴とする請求項14に記載の方法。
  17. ビットストリームに画像フレームを符号化するビデオ符号化装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数の変換ブロックに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造に、最大変換ブロックサイズ制約のための第1フラグを符号化する手段と、
    前記第1フラグの値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、最大変換ブロックサイズのための第2フラグを符号化する手段と、
    前記一または複数の変換ブロックの各々を符号化する手段と
    を含み、
    前記最大変換ブロックサイズが前記第1フラグにより制約されない場合、前記第2フラグは、前記最大変換ブロックサイズが64であることを示すことが可能であり、
    前記最大変換ブロックサイズが前記第1フラグにより制約される場合、前記最大変換ブロックサイズは32に制約される
    ことを特徴とするビデオ符号化装置。
  18. ビットストリームに画像フレームを符号化するビデオ符号化装置であって、前記画像フレームは、複数のコーディングツリーユニットに分割され、前記複数のコーディングツリーユニットの各々は、一または複数のコーディングユニットに分割され、
    前記ビットストリームにおけるprofile_tier_levelシンタックス構造における制約情報のためのシンタックス構造にコーディングツリーユニットサイズ制約のための第1情報を符号化する手段と、
    前記第1情報の値に関わらず、前記ビットストリームにおけるシーケンスパラメータセットに、コーディングツリーユニットサイズのための第2情報を符号化する手段と、
    前記一または複数のコーディングユニットの各々を符号化する手段と
    を含み、
    0以上の値をとり得る前記第2情報の値は、前記第1情報に基づく値以下となるよう制約される
    ことを特徴とするビデオ符号化装置。
  19. コンピュータに、請求項1乃至7のいずれか1項に記載の方法を実行させるためのコンピュータプログラム。
  20. コンピュータに、請求項10乃至16のいずれか1項に記載の方法を実行させるためのコンピュータプログラム。
JP2022549707A 2020-05-21 2021-04-16 ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム Active JP7500745B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2020203330 2020-05-21
AU2020203330A AU2020203330B2 (en) 2020-05-21 2020-05-21 Method, apparatus and system for encoding and decoding a block of video samples
PCT/AU2021/050339 WO2021232088A1 (en) 2020-05-21 2021-04-16 Method, apparatus and system for encoding and decoding a block of video samples

Publications (3)

Publication Number Publication Date
JP2023525619A JP2023525619A (ja) 2023-06-19
JPWO2021232088A5 JPWO2021232088A5 (ja) 2023-10-23
JP7500745B2 true JP7500745B2 (ja) 2024-06-17

Family

ID=78708797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022549707A Active JP7500745B2 (ja) 2020-05-21 2021-04-16 ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム

Country Status (9)

Country Link
US (1) US20230171432A1 (ja)
EP (1) EP4154530A4 (ja)
JP (1) JP7500745B2 (ja)
KR (1) KR20230010707A (ja)
CN (1) CN115804087A (ja)
AU (2) AU2020203330B2 (ja)
BR (1) BR112022020958A2 (ja)
TW (1) TWI836211B (ja)
WO (1) WO2021232088A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230396811A1 (en) * 2022-06-01 2023-12-07 Realtek Semiconductor Corp. Method and electronic device for processing video coding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015105003A1 (ja) 2014-01-08 2015-07-16 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
WO2018123317A1 (ja) 2016-12-26 2018-07-05 日本電気株式会社 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置及びプログラム
WO2019069950A1 (ja) 2017-10-06 2019-04-11 シャープ株式会社 画像符号化装置及び画像復号装置
WO2021006630A1 (ko) 2019-07-08 2021-01-14 엘지전자 주식회사 스케일링 리스트 데이터 기반 영상 또는 비디오 코딩
WO2021208899A1 (en) 2020-04-13 2021-10-21 Beijing Bytedance Network Technology Co., Ltd. General constraint information in video coding

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101457894B1 (ko) * 2009-10-28 2014-11-05 삼성전자주식회사 영상 부호화 방법 및 장치, 복호화 방법 및 장치
KR101675118B1 (ko) * 2010-01-14 2016-11-10 삼성전자 주식회사 스킵 및 분할 순서를 고려한 비디오 부호화 방법과 그 장치, 및 비디오 복호화 방법과 그 장치
KR20140129607A (ko) * 2013-04-30 2014-11-07 주식회사 칩스앤미디어 동영상 처리 방법 및 장치
JP6287035B2 (ja) * 2013-10-11 2018-03-07 ソニー株式会社 復号装置および復号方法
CN107637078B (zh) * 2015-03-31 2020-05-26 瑞尔数码有限公司 整数变换系数的视频译码***和方法
EP3430808A4 (en) * 2016-03-16 2020-01-15 Mediatek Inc. METHOD AND DEVICE FOR PROCESSING VIDEO DATA WITH RESTRICTED BLOCK SIZE IN VIDEO CODING
CN110603811A (zh) * 2017-02-23 2019-12-20 真实网络公司 视频编码***和方法中的残差变换和逆向变换
US11159795B2 (en) * 2019-03-04 2021-10-26 Tencent America LLC Max transform size control
TW202114428A (zh) * 2019-09-23 2021-04-01 法商內數位Vc控股法國公司 編碼樹分割
CN115720265A (zh) * 2019-12-18 2023-02-28 腾讯科技(深圳)有限公司 视频编解码方法、装置、设备及存储介质
TW202209889A (zh) * 2020-05-19 2022-03-01 法商內數位Vc控股法國公司 精細控制影像編碼及解碼程序方法及裝置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015105003A1 (ja) 2014-01-08 2015-07-16 ソニー株式会社 復号装置および復号方法、並びに、符号化装置および符号化方法
WO2018123317A1 (ja) 2016-12-26 2018-07-05 日本電気株式会社 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置及びプログラム
WO2019069950A1 (ja) 2017-10-06 2019-04-11 シャープ株式会社 画像符号化装置及び画像復号装置
WO2021006630A1 (ko) 2019-07-08 2021-01-14 엘지전자 주식회사 스케일링 리스트 데이터 기반 영상 또는 비디오 코딩
JP2022540149A (ja) 2019-07-08 2022-09-14 エルジー エレクトロニクス インコーポレイティド スケーリングリストデータに基づく画像またはビデオコーディング
WO2021208899A1 (en) 2020-04-13 2021-10-21 Beijing Bytedance Network Technology Co., Ltd. General constraint information in video coding
JP2023520828A (ja) 2020-04-13 2023-05-19 北京字節跳動網絡技術有限公司 ビデオコーディングにおける一般制約情報

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
C. Rosewarne et al.,AHG9: On constraint flags [online],JVET-S0066(JVET-S0066.docx), [2023年12月11日検索],インターネット <URL: https://jvet-experts.org/doc_end_user/documents/19_Teleconference/wg11/JVET-S0066-v1.zip>,2020年05月22日

Also Published As

Publication number Publication date
TW202145788A (zh) 2021-12-01
EP4154530A1 (en) 2023-03-29
EP4154530A4 (en) 2024-04-10
CN115804087A (zh) 2023-03-14
WO2021232088A1 (en) 2021-11-25
JP2023525619A (ja) 2023-06-19
TWI836211B (zh) 2024-03-21
AU2022271385A1 (en) 2022-12-15
AU2020203330A1 (en) 2021-12-09
KR20230010707A (ko) 2023-01-19
AU2020203330B2 (en) 2022-12-01
US20230171432A1 (en) 2023-06-01
BR112022020958A2 (pt) 2022-12-06
AU2022271385B2 (en) 2024-04-18

Similar Documents

Publication Publication Date Title
JP2023025180A (ja) 復号する方法、ビデオ復号装置、符号化する方法、ビデオ符号化装置
JP7441314B2 (ja) ビデオサンプルのブロックを符号化および復号するための方法、装置、およびシステム
US20230037302A1 (en) Method, apparatus and system for encoding and decoding a coding tree unit
TWI784345B (zh) 用於將編碼樹單元編碼與解碼的方法、設備及系統
TW202034704A (zh) 用以編碼和解碼視頻樣本之區塊樹的方法、設備及系統
AU2022204353B2 (en) Method, apparatus and system for encoding and decoding a block of video samples
AU2022203416B2 (en) Method, apparatus and system for encoding and decoding a block of video samples
JP2022522576A (ja) ビデオサンプルのツリー若しくはブロックを符号化および復号する方法、装置、およびシステム
AU2022271385B2 (en) Method, apparatus and system for encoding and decoding a block of video samples
JP2024046650A (ja) ビデオサンプルのブロックを符号化並びに復号するための方法、装置、及びシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240605

R150 Certificate of patent or registration of utility model

Ref document number: 7500745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150