JP6379186B2 - ビデオピクチャを符号化および復号する方法および装置 - Google Patents

ビデオピクチャを符号化および復号する方法および装置 Download PDF

Info

Publication number
JP6379186B2
JP6379186B2 JP2016520075A JP2016520075A JP6379186B2 JP 6379186 B2 JP6379186 B2 JP 6379186B2 JP 2016520075 A JP2016520075 A JP 2016520075A JP 2016520075 A JP2016520075 A JP 2016520075A JP 6379186 B2 JP6379186 B2 JP 6379186B2
Authority
JP
Japan
Prior art keywords
matching
prediction region
picture
prediction
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016520075A
Other languages
English (en)
Other versions
JP2018509005A (ja
Inventor
マルティン ペッテション,
マルティン ペッテション,
ケネト アンデション,
ケネト アンデション,
ペール ウェナーストン,
ペール ウェナーストン,
Original Assignee
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エルエム エリクソン(パブル), テレフオンアクチーボラゲット エルエム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エルエム エリクソン(パブル)
Publication of JP2018509005A publication Critical patent/JP2018509005A/ja
Application granted granted Critical
Publication of JP6379186B2 publication Critical patent/JP6379186B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/53Multi-resolution motion estimation; Hierarchical motion estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本明細書で開示される技術は、一般的にはデジタル画像処理の分野に関し、詳細にはビデオピクチャを符号化する方法、エンコーダ、ビデオピクチャを復号する方法、デコーダ、ならびに関連するコンピュータプログラムおよびコンピュータプログラム製品に関する。
高効率ビデオ符号化(HEVC)は、時間予測と空間予測の両方を利用する、標準化されたブロックベースのビデオコーデックである。空間予測は、現在のピクチャ内からのイントラ予測を使用して実現され、時間予測は、以前に復号された参照ピクチャからのブロックレベルのインター予測または双方向インター予測を使用して実現される。残差(または予測誤差)と呼ばれる、元のピクセルデータと予測されたピクセルデータとの間の差異は、周波数領域に変換され、たとえばコンテキスト適応型可変長符号化(CAVLC)またはコンテキスト適応型二値算術符号化(CABAC)を使用して量子化およびエントロピー符号化される。その後、残差は、モード選択や運動ベクトル(すべてエントロピー符号化されている)などの必要な予測パラメータと共に、受け手側のデコーダに伝送される。変換された残差を量子化することで、ビデオのビットレートと品質との間のトレードオフが制御され得、その際に、量子化のレベルが量子化パラメータ(QP)により判断される。受け手側のデコーダは、エントロピー復号、逆量子化、および逆変換を実行して残差を取得する。次にデコーダは、ピクチャを再構築するために、イントラ予測またはインター予測に残差を追加する。
国際電気通信連合電気通信標準化部門(ITU−T)のビデオ符号化専門家グループ(VCEG)は、HEVCの後継の開発を近年になって開始した。最初の検証段階では、キーテクニカルエリア(KTA)と呼ばれる実験用ソフトウェアコーデックが使用されている。KTAは、HEVCの基準コーデックソフトウェアであるHEVCテストモデル(HM)に基づいている。
KTAソフトウェアで提案および包含されているツールの1つは、フレームレートアップコンバージョン(FRUC)である。FRUCツールは、運動情報をデコーダ側で導き出す運動予測ツールである。FRUCには、テンプレートマッチングとバイラテラルマッチングの2つの異なるモードがある。
図1は、テンプレートマッチングの原理を示す。テンプレートマッチングは、テンプレート画像にマッチする画像の小部分を見つけるデジタル画像処理技法である。現在のピクチャの現在のブロックBが復号されるため、検索画像(テンプレートA)が選択される。デコーダは、現在のピクチャ(Cur Picと図示)の現在のブロックBに隣接するテンプレート領域Aを、参照ピクチャ(Ref0と図示)の同じテンプレート領域Aとマッチさせることにより、運動ベクトルを導き出す。最良にマッチするテンプレート領域を含む、参照ピクチャRef0の予測領域が、現在のブロックBの予測として選択される。
図2は、バイラテラルマッチングの原理を示す。バイラテラルマッチングでは、前のピクチャ(Ref0)および後のピクチャ(Ref1)からブロック(またはピクチャ)が予測される。参照ピクチャ(Ref0およびRef1)の2つのブロック間の現在のブロック(Cur blockと図示)に沿った連続的な動作軌道(図では点線で示されている)が推測されて、直線運動がモデル化される。現在のブロックと最良にマッチするブロックとの間の変位が、運動ベクトルである。前のピクチャRef0と現在のピクチャCurPic(これらのピクチャは時間差TD0を有する)の間の運動ベクトルがMV0で示されており、現在のピクチャCurPicと後のピクチャRef1(これらのピクチャは時間差TD1を有する)の間の運動ベクトルがMVで示されている。運動ベクトルMV0およびMVは、時間差TD0およびTD1に比例する。予測誤差を最小化する動作軌道に沿った運動ベクトルが選択され、それらの対応する参照予測ブロックが現在のピクチャCurPicの現在のブロックの予測を内挿(または外挿)するために使用される。
上述した動作補正予測方法は、手元のビデオによって、予測の精度が左右されることがある。たとえば、高速かつ複雑に変化するピクチャを含むビデオの場合、予測は精度がより低くなり得る。たとえば、ビデオにおける自然な幾何変換の予測は、最適にはほど遠く、所与のビットレートで品質が悪化することがある。エンコーダ側からデコーダ側に、スケーリング因子等の情報をビットストリームでシグナリングすると、通常はビットの点で高くつく。
本教示の目的は、上述した問題に対処し、特にテンプレートマッチングやバイラテラルマッチングなどのマッチング方法で、予測精度を向上させることである。
目的は、態様によると、ビデオピクチャをビデオビットストリームに符号化するために提供されるエンコーダで実行される方法によって達成される。この方法は、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得することと、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを少なくとも1回実行することと、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより符号化することであり、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域と少なくとも部分的に重複し、第2のピクチャの対応するマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択される、符号化することとを含む。
この方法の利点は、マッチングの前に幾何変換を適用することで、たとえばテンプレートマッチングおよびバイラテラルマッチング等予測が向上することである。デコーダ側のマッチングの予測が向上すると、圧縮効率も向上する。なぜなら、エンコーダとデコーダの両方でマッチング検索が実行される場合に、余分なシグナリングが不要だからである。
目的は、態様によると、ビデオピクチャをビデオビットストリームに符号化するエンコーダ用のコンピュータプログラムにより達成され、このコンピュータプログラムは、エンコーダの少なくとも1つのプロセッサで実行されたときに、上述した方法をエンコーダに実行させるコンピュータプログラムコードを含む。
目的は、態様によると、上述したコンピュータプログラムと、そのコンピュータプログラムが格納されるコンピュータ可読手段とを備えるコンピュータプログラム製品により達成される。
目的は、態様によると、ビデオピクチャをビデオビットストリームに符号化するエンコーダにより達成される。このエンコーダは、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得し、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを少なくとも1回実行し、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより符号化し、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域と少なくとも部分的に重複し、第2のピクチャの対応するマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択されるように構成される。
エンコーダの方法について言及した利点に対応する利点が、デコーダの方法でも得られる。
目的は、態様によると、ビデオビットストリームからビデオピクチャを復号するデコーダで実行される方法によって達成される。この方法は、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得することと、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを少なくとも1回実行することと、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより復号することであり、第1の予測領域および第2の予測領域が、対応する参照マッチング領域と少なくとも部分的に重複し、第2のピクチャのそれぞれのマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択される、復号することとを含む。
目的は、態様によると、ビデオビットストリームからビデオピクチャを復号するデコーダ用のコンピュータプログラムにより達成され、このコンピュータプログラムは、デコーダの少なくとも1つのプロセッサで実行されたときに、上述した方法をデコーダに実行させるコンピュータプログラムコードを含む。
目的は、態様によると、上述したようなコンピュータプログラムと、そのコンピュータプログラムが格納されるコンピュータ可読手段とを備えるコンピュータプログラム製品により達成される。
目的は、態様によると、ビデオビットストリームからビデオピクチャを復号するデコーダにより達成される。このデコーダは、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得し、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを少なくとも1回実行し、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより復号し、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域と少なくとも部分的に重複し、第2のピクチャの対応するマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択されるように構成される。
本教示のさらなる特徴および利点は、以下の説明および添付の図面を読むことで明らかとなろう。
テンプレートマッチングの原理を示す図である。 バイラテラルマッチングの原理を示す図である。 本明細書で開示される実施形態が実装され得る環境を概略的に示す図である。 テンプレートマッチングのスケーリングの例を示す図である。 テンプレートマッチングのスケーリングの例を示す図である。 テンプレートマッチングのスケーリングの例を示す図である。 バイラテラルマッチングの変換の例を示す図である。 バイラテラルマッチングの一定の倍数の例を示す図である。 バイラテラルマッチングのスケーリングの例を示す図である。 スケーリングまたはバイラテラルマッチングを伴わない運動ベクトルを示す図である。 バイラテラルマッチングの参照ピクチャのスケーリングの例を示す図である。 回転を伴うテンプレートマッチングを示す図である。 回転を伴うテンプレートマッチングの例を示す図である。 回転を伴うバイラテラルマッチングの例を示す図である。 本教示に係る、エンコーダでの方法のステップのフローチャートである。 本教示に係る、デコーダでの方法のステップのフローチャートである。 エンコーダおよびデコーダと、本教示に係る実施形態を実装する手段とを概略的に示す図である。 本教示に係る実施形態を実装する機能モジュール/ソフトウェアモジュールを備えたエンコーダおよびデコーダを示す図である。
以下の説明では、完全な理解を促すために、限定ではなく説明を目的として、特定のアーキテクチャ、インターフェイス、技法等の具体的な詳細事項を記載する。その他の場合は、不要な詳細事項によって説明があいまいにならないように、既知の装置、回路、および方法の詳細な説明を省略する。一部の参照番号は、説明全体を通じて、同一または類似の要素を表す。
最初に、さまざまな幾何二次元(2D)変換について簡単に説明する。座標の幾何変換は、行列を使用して表すことができる。以下の変換のいくつかは、原点が固定される線形変換であり、2×2の行列として表され得るが、その他の変換は異なる。よって、一貫性を保つため、以下のすべての変換は、次のような同次座標を使用した行列形式で表される。
Figure 0006379186
すべての変換は、アフィン変換、すなわち、共線性(最初線上にあったすべての点が変換後も線上に位置する)を維持する変換であり、距離の比率を維持する。たとえば、線分の中間点は、変換後も中間点のままである。
並進(空間での点の移動)は、次の行列形式で表され得る。
Figure 0006379186
ここで、tは水平方向の並進であり、tは垂直方向の並進である。
スケーリングは、次の行列で表され得る。
Figure 0006379186
ここで、sおよびsは、それぞれ水平方向および垂直方向のスケーリング因子である。スケーリングは、ズームまたはサイズ変更とも呼ばれ得ることが留意される。
原点を中心とした時計回りの角度θの回転は、次のように表され得る。
Figure 0006379186
原点を中心とした反時計回りの角度θの回転は、次のように表され得る。
Figure 0006379186
x軸に対して平行なせん断、別名スキューは、次のように表され得る。
Figure 0006379186
y軸に対して平行なせん断は、次のように表され得る。
Figure 0006379186
任意の線ax+by+c=0での反射は、同次座標で次の行列により表され得る。
Figure 0006379186
正投影は、同次座標で4×4の行列として表され得る。
Figure 0006379186
ここで、rはright、lはleft、tはtop、bはbottom、fはfar、nはnearである。
語彙のメモとして、本明細書では「ピクチャ」という用語が使用される。ITU−Tの推奨(たとえば、H.265)では、ピクチャはフレームまたはフィールドを含み得るが、1つの符号化ビデオシーケンス(CVS)では、すべてのピクチャがフレームであるか、またはすべてのピクチャがフィールドであることが留意され得る。技術分野では、「フレーム」という用語は、「ピクチャ」という用語と互換的にしばしば使用されることが留意される。
簡単に言うと、本教示は、さまざまな実施形態で、バイラテラルマッチングやテンプレートマッチングなどのデコーダ側マッチングを使用するときの予測を向上させる。これは、参照ピクチャの検索領域を、幾何変換を使用して変換することにより実現される。これにより、テンプレート領域に対する改善されたマッチが得られる。変換は、スケーリング、回転、並進、せん断、反射、および/または投影を含み得る。加えて、並進も1つの変換として含まれ得る。一部の実施形態では、変換補正を行うべきか否かを示すフラグがエンコーダからデコーダにシグナリングされ得る。
図3は、本明細書で開示される実施形態が実装され得る環境を概略的に示す。エンコーダ40は、入力ビデオストリーム100を、符号化されたビデオを含むビットストリーム200に符号化するために使用される。ビットストリーム200は、たとえば無線または有線の接続を使用して、デコーダ50に転送される。デコーダ50は、受け取ったビットストリーム200を読み込んで復号し、入力ビデオストリーム100に対応する出力ビデオストリーム300を作成する。符号化は損失を伴う可能性があり、よって出力ビデオストリーム300は入力ビデオストリーム100と同一ではない。知覚される品質の損失は、ビットストリーム200のビットレートに依存する。ビットレートが高い場合、エンコーダ40は、高品質な出力ビデオストリーム300を可能にするビットストリームを作成することができる。
ビデオの符号化/復号は、たとえば、高効率ビデオ符号化(HEVC)、動画専門家集団(MPEG)−4、H.263、H.264、およびMPEG−2のいずれか1つに基づき得る。ビットストリームを低いビットレート要件で提供することで、最終的な出力ビデオ300を高い品質で生成することができる。代替(または追加)で、ビットストリーム200により帯域幅しか必要とされない。よって、符号化効率を向上させると有利である。
以下では、テンプレートマッチングおよびバイラテラルマッチングに適用される場合、さまざまな実施形態について説明する。テンプレートマッチングに関する例およびバイラテラルマッチングに関する例では、それぞれ同一の参照番号が一貫して使用される。
さまざまな実施形態において、バイラテラルマッチングおよびテンプレートマッチングは、マッチさせるブロックの異なるサイズを許容することにより拡張される。このような異なるサイズのブロックのマッチングは、マッチングを実行する前に参照ピクチャをスケールすることにより達成される。「ブロックサイズ」は、M×Nピクセルとして定義され得る。マッチされるブロックは、同じ数のピクセルを有する。すなわち、ブロックのサイズ自体はすべて同じであり、結果として現在のブロックのサイズと等しい。「異なるサイズのブロック」とは、ピクチャはスケールされているが、ブロックのサイズ自体は変更またはスケールされていないという事実を指す。参照ピクチャ(またはその一部)は、たとえば、マッチング領域と、その対応する予測領域とが、(予測される)現在のブロックとやはり同じピクセルサイズを有するようにズームされ得るが、ズームされていない参照ピクチャの対応する部分は、異なるピクセルサイズを有する。図4a、図4b、図4cは、テンプレートマッチングのスケーリングの例を示す。
図4aは、復号される現在のピクチャ1を示す。現在のピクチャ1は、復号される現在のブロック3と、隣接する、すなわち復号されるブロック3と隣り合う2つのマッチング領域4とを含む、参照領域を含む。テンプレートマッチングでは、マッチング領域4は、典型的にはテンプレート領域と呼ばれ、このテンプレート領域という用語は、一般性を失うことなく、図4a、図4b、および図4cの説明のために以下で使用される。
図4bは、参照ピクチャ2を示す。参照ピクチャ2は、予測領域5に隣り合う2つの参照テンプレート領域6を含む。参照テンプレート領域6は、現在のピクチャ1(図4a)の符号化されるブロック3(不明であり、よってハッチングされている)の予測を見つけ出すマッチング手続きで使用され得る。本明細書では、多様な実施形態を純粋に説明および例示するために、2つのテンプレート領域が使用されることが留意される。参照テンプレート領域6の数は、実際には、本明細書で使用されている2つとは異なる可能性がある。たとえば、追加の参照テンプレート領域6add(図4bを参照)が使用される可能性があり、そのような追加の参照テンプレート領域は、予測領域5に隣り合う任意の場所に位置し得る。
図4cでは、スケールされた参照ピクチャ2’が示されている。スケールされた参照ピクチャ2’は、参照ピクチャ2のスケールされたバージョンである。スケーリング、またはより一般的には幾何二次元(2D)変換は、たとえば、最初に説明した幾何二次元(2D)変換(並進、スケーリング、回転等)のいずれかに基づいて、任意の既知の態様で実行され得る。スケールされた参照ピクチャ2’は、スケールされた予測領域5’に隣り合う、2つのスケールされた参照テンプレート領域6’を含む。語彙のメモとして、「スケールされた参照テンプレート領域」とは、ピクチャはスケールされているが、参照テンプレート領域のサイズ自体は変更またはスケールされていないという事実を指すことに留意されたい。
図4bは、シーンが現在のピクチャ1(図4a)に比べてズームアウトされ、よって参照ピクチャ2の参照テンプレート領域6で良好なマッチを見つけることができない場合を示している。参照ピクチャ2は、テンプレートマッチングが実行される前に、所定の解像度のセットにスケールされ得る。スケーリング因子の具体的な例は、{0.5、0.65、0.75、0.85、0.9、0.95、0.98、0.99、1.01、1.02、1.05、1.11、1.18、1.33、1.53、2.0}の中から選択される値を含む。この具体的な例示的セットのスケーリング因子は、大部分のスケーリング因子が1に近くなるように、すなわち、スケーリングがまったく行われないか、またはわずかしか行われないように選択されている。これは、ズームは小さいステップで発生する可能性が高いからである。ただし、任意の倍数を使用することが可能であることに留意されたい。
図4cは、因子1.33でピクチャスケールされた場合の、スケールされた参照ピクチャ2’を示している。スケールされた参照テンプレート領域6’は、ここでは現在のピクチャ1のテンプレート領域4に良好にマッチする。実際には、最適なスケーリング因子は、プレゼンテーション時間が相互に近い参照ピクチャの場合、1に近いか、またはきわめて近い。一部の実施形態では、参照ピクチャ2は、水平方向および垂直方向の両方で同じスケーリング因子を使用してスケールされる。しかし、他の実施形態では、異なるスケーリング因子が水平方向および垂直方向に使用される。
テストするスケーリング因子の数を減らすために、スケーリング因子は、プレゼンテーション時間が近い参照ピクチャ2については大きなスケーリング因子が省略され得、逆にプレゼンテーション時間が遠い参照ピクチャ2については小さいスケーリング因子が省略され得るように、参照ピクチャ2への(時間的な)距離に応じて選択され得る。さらに、前に復号された(空間的または時間的に)隣接するブロックで導き出されたスケーリング因子が、検索の開始点として使用され得る。グローバルズームが存在する場合、スケーリング因子は、ピクチャレベルでも見つかり得る。
スケーリング因子ごとに、参照ピクチャ2の検索領域(すなわち、参照テンプレート領域6および予測領域5)が、新たなスケールにスケールされ得る。スケーリング、すなわち検索領域のサイズ変更は、異なる方法で実行され得る。スケーリングは、現在のピクチャ1の標本に対応するフィルタ処理された参照標本を生成するために、それぞれのスケーリング因子ごとに、補間フィルタを使用して実行され得る。これにより、検索領域のスケールされた標本のセット(スケールされた各標本は、特定のスケーリング因子を有する)が得られる。
使用され得る(ソフトウェア)フィルタまたはスケーリングアルゴリズムの例(すなわち、サイズ変更の方法の例)として、最近接フィルタ、バイリニアフィルタ、バイキュービック補間フィルタ、HEVC等で使用される離散コサイン変換補間フィルタ(DCT−IF)などがある。ただし、エンコーダとデコーダが共に同じフィルタを使用する限り、原則として任意のフィルタが使用され得ることに留意されたい。また、エンコーダとデコーダが共に同じ精度を使用する限り、スケールされた標本の任意の精度が使用され得る。精度の具体的な一例は、HEVCで使用されるクォーター標本解像度である。ただし、より微細またはより粗大な標本化が使用される可能性がある。アルゴリズムは、コンピュータ可読ストレージ媒体等に格納される命令のセットとして理解され得る。
スケールされた参照ピクチャ2’に対する最良のテンプレートマッチを見つけ出すために、テンプレートマッチングが適用され得る。検索は、選択された運動ベクトル検索範囲内で実行される。すなわち、運動ベクトル範囲が検索領域を画定する。運動ベクトル検索範囲は、スケールされた参照ピクチャのスケーリング因子に応じて異なり得る。検索用の初期運動ベクトルは、現在のスケーリング因子に比例するように選択される。すなわち、入力候補の運動ベクトルは、スケーリング因子に応じてスケールされ得る。スケーリングは、テンプレートマッチングの前の前処理パス、すなわちアルゴリズムもしくは命令のセットとして実行されるか、または、テンプレートマッチングの一部として実行され得る。技術分野で知られているように、エンコーダは、ピクチャまたはピクチャのセットを符号化するときに、2つ以上の「パス」を使用し得る。たとえば、第1の「パス」では、統計情報が収集され得、その統計情報に基づいてモード判断の第1段階が行われ得、対応して、続く第2の「パス」では、絞り込まれた符号化判断による完全な符号化を、レート歪み最適化を使用して行うことができる。そのような複数の「パス」を備えることは、統計情報に基づく適切な符号化判断、ビットレート制御の向上、ビデオの品質の向上などの利点をもたらす。よって一部の実施形態では、スケーリングは、たとえばビデオの品質を向上させるために、1つまたは複数のパスで実行され得る。
一部の実施形態では、マッチング手続きを高速化するために、スケールされた標本のサブセットのみが、マッチング手続きの一部のステップ、たとえば第1の粗検索で使用され得る。サブセットは、たとえば、1つおきまたは3つおきのピクチャとして、マッチング領域の外側の領域のみ、または何らかの他の所定の方法で選択され得る。さらなる単純化のために、粗検索で、スケールされた標本のすべてを使用するか、またはスケールされた標本の整数標本精度のサブセットのみを使用することができる。これにより、参照標本のフィルタ処理を回避することにより複雑さが軽減される。その後、詳細検索で、参照標本を副標本精度で絞り込むことができる。
最良のテンプレートマッチが判断されると、スケールされた参照ピクチャ2’の予測領域5’が、現在のピクチャ1の現在のブロック3を予測するために使用される。この文脈では、「最良のマッチ」(誤差を最小化)とは、たとえば、誤差絶対値和(SAD)がしきい値よりも小さい等の参照を満たす第1のテンプレートマッチとして定義され得ることに留意されたい。別の例として、マッチは、テンプレート領域に対する平均二乗誤差(MSE)が最小化されるときに、最良のマッチであると考えられ得る。サイズがm×nピクセルである長方形のブロックIと、サイズがm×nピクセルピクセルである長方形のブロックKとの間のMSEは、以下に基づいて計算され得る。
Figure 0006379186
テンプレートマッチングでスケーリングを使用するときにエンコーダ側とデコーダ側の両方で予測領域(予測ブロックとも呼ばれる)が導き出され得る仕組みを記述する疑似コードを以下に示す。
Figure 0006379186
最良のマッチは、たとえば、現在のピクチャ1のテンプレート領域4の標本とスケールされた参照テンプレート領域6’の対応する標本との間の誤差絶対値の和が最小であるスケーリング因子、または、現在のピクチャ1のテンプレート領域4の標本とスケールされた参照テンプレート領域6’の対応する標本との間の二乗誤差の和が最小であるスケーリング因子を指し得る。
別の実施形態では、マッチングを実行する前に、参照テンプレート領域6のみがスケールされ、予測領域5はスケールされない。最良のテンプレートマッチが見つかると、参照ピクチャ2の対応する予測領域5が、現在のブロック3に合致するようにスケールされる。
図5は、バイラテラルマッチングの変換の例、詳細には、スケーリング因子の使用の例を示している。前のフレームRef0(参照番号12で図示)、詳細には、表示順で現在のピクチャCurPic(参照番号11で図示)の前の任意のピクチャ12、および/または後のピクチャRef1(参照番号13で図示)、詳細には、表示順で現在のピクチャ11の後の特定の任意のピクチャ13が、説明された幾何変換のいずれかを使用して変換され得る。これにより、参照ピクチャ12、13の変換されたバージョン12’、13’と、対応する変換されたマッチング領域15’、16’とが得られる。この文脈では、バイラテラルマッチングの場合、参照ピクチャ12、13の両方は、一部の実施形態では、表示順で現在のピクチャ11の後であるが復号順で現在のピクチャ11の前であるピクチャであり得ることに留意されたい。さらに他の実施形態では、参照ピクチャ12、13の両方は、表示順と復号順の両方で現在のピクチャ11の前である。よって現在のピクチャ11の現在のブロック14の予測は、これら2つの参照ピクチャ12、13から外挿され得る。
図5では、前の参照ピクチャ12のマッチング領域15がスケールされており(詳細には、縮小されており)、後の参照ピクチャ13のマッチング領域16もスケールされている(詳細には、拡大されている)。マッチング領域15、16のこれらの幾何変換(ここでは、スケーリング)は、図面において、参照ピクチャ12、13内の点線の長方形でそれぞれ示されている。マッチング領域15、15’、16、16’のブロックサイズ自体は、直線で描かれた等価のサイズのブロック15、15’、16、16’により示されているように、変更されていない。すなわち、幾何変換されたマッチング領域15’、16’ならびに変換されていないマッチング領域15、16のブロックサイズは、同じである。図5の下の部分に、変換されたマッチング領域15’、16’が示されている。
現在のピクチャ11の予測されるブロック14は、参照ピクチャ12、13のマッチング領域15、16から予測されるか、または本教示によると、変換された参照ピクチャ12’、13’の変換されたマッチング領域15’、16’から予測され得る。ここで、複数の選択肢が存在し、複数の実施形態が与えられる。一部の実施形態では、2つの参照ピクチャ12、13のうちの1つだけが幾何変換され、他の実施形態では、両方の参照ピクチャ12、13が変換されてマッチング手続きで使用される。オブジェクトは、現在のピクチャ11と一方の参照ピクチャ12との間で幾何変換されているが、他方の参照ピクチャ13に対しては幾何変換されていない可能性がある。よって、選択された第1の予測領域15、15’または選択された第2の予測領域16、16’の任意の組み合わせを、マッチング手続きで組み合わせることができる。
図6は、バイラテラルマッチングの場合の、上述した一定のスケーリング因子が×2のスケール因子と等価である例を示している。バイラテラルマッチングの場合、現在のピクチャ11(図6では、Cur Picとも示されている)のマッチングブロックを見つけ出すために利用できる2つの参照ピクチャRef0、Ref1が存在する。前の参照ピクチャ12は、図5を参照しながら説明したように、現在のピクチャ11の前の任意のピクチャであり、後の参照ピクチャ13は、現在のピクチャ11の後の任意のピクチャである。第1の(前の)変換された参照ピクチャ12’と第2の(後の)変換された参照ピクチャ13’との間の連続的なズームを仮定すると、スケーリング因子は、第1の変換された参照ピクチャ12’と現在のピクチャ11との間の距離TD0および現在のピクチャ11と第2の変換された参照ピクチャ13’との間の距離TD1に比例する。TD0がTD1と等価である特殊な場合には、スケーリング因子は同じになる。ここでも、図6の例は純粋に例として与えられており、他の実施形態では、第1および第2の参照ピクチャ12、13の一方のみが変換され得ることに留意されたい。
図7は、バイラテラルマッチングの場合の上述したスケーリングを示すための具体的なピクチャを示す。幾何変換されたバージョン12’、13’が、それぞれの参照ピクチャ12、13について取得される。現在のピクチャ11は、復号される現在のブロック14を含む。第1の幾何変換された(詳細には、スケールされた)参照ピクチャ12’は、第1のスケールされた参照マッチング領域15’を含み、第2の幾何変換された(同じくスケールされた)参照ピクチャ13’は、第2のスケールされた参照マッチング領域16’を含む。現在のブロック14は、第1および第2のマッチング領域15’、16’の別々にスケールされたバージョンから内挿される。これにより、いかなる幾何変換も実行しない場合に比べて、精度が明らかに向上する。
一部の実施形態では、運動ベクトル検索、すなわち、マッチングでの予測誤差を最小化する動作軌道に沿った運動ベクトルの検索の開始位置の選択は、(概ね)ズームの中心である。
本説明では、「ズーム」は、グローバルズームとローカルズームに分類される。グローバルズーム、たとえばカメラズームは、ピクチャのすべての部分に影響を与える。ローカルズームは、ピクチャのオブジェクト(たとえば、サッカーボール)がカメラに近づくかまたは離れて移動するときなど、ピクチャの一部のみに影響を与える。
グローバルズームの場合、スケーリング因子およびズームの中心を、エンコーダ側においてピクチャレベルで見つけ出すことができる。そのための効率的な方法は、第1および第2の参照ピクチャ12、13ならびに現在のピクチャ11を副標本化し、最良のマッチが見つかるまで多様なスケーリング因子および変位ベクトルを反復してテストすることである。これを、副標本化されたピクチャ内での検索による最良のマッチのスケールされたバージョンを開始点として、フル解像度のピクチャに対して繰り返すことができる。
ズームの中心が原点であり、第1および第2の参照ピクチャ12、13と現在のピクチャ11との間の距離TD0およびTD1が同じであると仮定すると、以下の条件が真である。
zvcur=zv*s=zv’=zv/s=zv’ (10)
ここで、zvcurは現在のピクチャ11のズーム中心までの距離であり、zvは前の参照ピクチャ12についてのズーム中心までの距離であり、sはスケーリング因子であり、zvは後の参照ピクチャ13についてのズーム中心までの距離であり、zv’は前の参照ピクチャ12についてのズーム中心までのスケールされた距離であり、zv’は後の参照ピクチャ13についてのズーム中心までのスケールされた距離である。
自然運動mv0に第1の参照ピクチャ12のズームからの運動を組み合わせる、スケールされていない総運動ベクトルtvは、次のように記述することができる。
tv=mv0+zv−zvcur (11)
自然運動mvに第1の参照ピクチャ12のズームからの運動を組み合わせる、対応する総運動ベクトルtvは、次のように記述することができる。
tv=mv+zv−zvcur (12)
上述した運動ベクトルは、スケーリングまたはバイラテラルマッチングが含まれない場合に選択される可能性がある運動ベクトルである。
図8は、スケーリングまたはバイラテラルマッチングを伴わない運動ベクトルを示す。ピクチャは、第1の参照ピクチャ12と現在のピクチャ11との間、および現在のピクチャ11と第2の参照ピクチャ13との間で、因子2でズームされている。各ブロック15、14、16からズームの中心(原点に置かれる)までの距離が、ズームベクトルzv、zvcur、およびzvで示されている。第1の参照ブロック15の自然運動mv0および第2の参照ブロック16の自然運動mv、ならびに総運動ベクトルtvおよびtvが、参照ピクチャ12、13に示されている。
参照ピクチャ12、13を、ズームの中心を原点としてスケールすることで、ズームに起因するブロック15、16の変位が修正される。スケールされた総運動ベクトルtv’およびtv’は、次のようになる。
tv’=s*mv0+zvcur−zv’=s*mv0=mv’
および
tv’=mv/s+zvcur−zv’=mv/s=mv’
連続的な自然運動の仮定の下で、自然運動ベクトルmv’、mv’は、距離TD0およびTD1に比例し、TD0がTD1と等価である特殊な場合には、次のようになる。
mv’=−mv’
図9はこれを示している。スケーリング因子を使用して参照ピクチャ12、13をスケールすることで、ピクチャ内のオブジェクトのサイズと、ズームの中心までの距離とが、現在のピクチャ11におけるものと同じになる。よって、初期変位ベクトルは不要である。連続的な運動を仮定すると、新たにスケールされた運動ベクトルmv’およびmv’は、参照ピクチャ12、13と現在のピクチャ11との間の距離TD0およびTD1に比例する。これらの距離が同じである場合、スケールされた運動ベクトルは鏡写しとなる。
バイラテラルマッチングでは、最良のマッチは、たとえば、および上述したように、Ref0のスケールされた標本とRef1の対応するスケールされた標本との間の誤差絶対値の和が最小であるスケーリング因子、または、Ref0のスケールされた標本とRef1の対応するスケールされた標本との間の二乗誤差の和が最小であるスケーリング因子を指し得る。
本教示に係る一部の実施形態では、テンプレートマッチングおよびバイラテラルマッチングは、マッチさせるブロックの回転を許容することにより拡張される。
図10は、テンプレートマッチングの場合の回転を示す。参照ピクチャ2のテンプレート領域6(上述したように、マッチング領域とも呼ばれる)および予測ブロック5(破線で描かれている)は、方程式の並進変更(4)を使用して、予測ブロック5の中心を中心にして角度θほど回転している。これにより、幾何変換されたテンプレート領域6’および予測領域5’(実線で描かれている)が得られる。代替で、参照ピクチャ2の参照テンプレート領域6は、領域4、6’のマッチを試行する前に回転される。テンプレートマッチングで試行する妥当な角度のセットは、{−45、−30、−20、−13、−8、−5、−3、−2、−1、1、2、3、5、8、13、20、30、45}を含み得る。実際には、最適な回転角度は、プレゼンテーション時間が相互に近いピクチャの場合、0にきわめて近い可能性がある。テストする角度は、プレゼンテーション時間が近い参照ピクチャについて大きい角度が省略され得るように、参照ピクチャ2への距離に応じて選択され得る。さらに、以前に復号された(空間的または時間的に)隣接するブロックで使用された角度が、最良のマッチの検索の開始点として使用され得る。
図11は、回転が適用されるテンプレートマッチングの例を、例示的なピクチャで示している。見てわかるように、参照ピクチャ2の予測領域5は、現在のピクチャ1の復号されるブロック3に、回転が適用されない場合よりも良好にマッチする。マッチが所望の精度を満たさない場合、参照ピクチャ2は、そのような精度に達するまで、別の角度で回転され得る。
次の疑似コードは、回転を使用する場合に予測ブロックがエンコーダとデコーダの両方で導き出される仕組みを示すために提供されている。
for each block
for each angle
rotate reference picture using angle
for each motion vector
check match of template between current picture and rotated reference picture
if best match
store prediction block
最良のマッチは、たとえば、現在のピクチャのテンプレート領域4の標本と回転された参照テンプレート領域6’の対応する標本との間の誤差絶対値の和が最小である回転、または、現在のピクチャのテンプレート領域4の標本と回転された参照テンプレート領域6’の対応する標本との間の二乗誤差の和が最小である回転を示し得る。
図12は、回転を伴うバイラテラルマッチングの例を示す。第1の参照ピクチャ12の変換されたマッチング領域15’および変換されていないマッチング領域15が、実線および破線でそれぞれ示されている。対応して、第2の参照ピクチャ13の変換されたマッチング領域16’および変換されていないマッチング領域16も、実線および破線でそれぞれ示されている。連続的な回転を仮定すると、角度θは、現在のピクチャ11と第1および第2の参照ピクチャ12、13との間の時間的距離TD0およびTD1に比例するはずである。TD0がTD1と等価である特殊な場合には、Ref0と現在のピクチャ11との間の回転角度−θは、現在のピクチャ11と第2の参照ピクチャ13との間の回転角度θと等価である。
回転を含む実施形態について、マッチング領域および予測領域が参照ピクチャに対して回転され、参照ピクチャのその他の部分が回転されてないという観点で上述した。言い換えると、参照ピクチャまたは参照ピクチャの一部が(対角で)回転され、マッチング領域および予測領域は静的である。
回転の中心がわかっている場合、参照ピクチャ12、13をスケーリングの場合と同様に修正して、最良のマッチを検索するための適切な開始位置を得ることができる。回転の中心は、たとえば、グローバルスケール(ピクチャの回転)で計算するか、以前に見つかった回転ブロックおよびその参照ブロックから計算することができる。バイラテラルマッチングでは、最良のマッチは、たとえば(および上述したように)、第1の参照ピクチャ12の回転された標本と第2の参照ピクチャ13の対応する回転された標本との間の誤差絶対値の和が最小である回転、または、第1の参照ピクチャ12の回転された標本と第2の参照ピクチャ13の対応する回転された標本との間の二乗誤差の和が最小である回転を示し得る。
本発明の別のより汎用化された実施形態では、参照ピクチャ12、13は、テンプレートマッチングまたはバイラテラルマッチングが実行される前に、任意の幾何変換Mを使用して変換され得る。スケーリングおよび回転の例で使用されたもの以外の幾何変換の例として、上述したような並進、せん断(スキュー)、反射、および正投影がある。
よってさまざまな実施形態では、(与えられた特定の例と対照的に)より汎用的な幾何変換を使用することができる。幾何変換は、上述した幾何変換の1つ、または上述した幾何変換の1つもしくはいくつかの組み合わせであり得る。すなわち、幾何変換Mは、1つまたは多数の幾何変換の合成であり得る。たとえば、Mは、以下のように表すことができる。
M=RST
ここで、Rは回転行列、Sはスケーリング行列、Tは並進行列である。
テンプレートマッチングまたはバイラテラルマッチングを行うときに、回転角度θ、スケーリング因子sxおよびsy、ならびに並進運動ベクトルtxおよびtyの考えられるすべての組み合わせをテストするのは、幾分複雑であり得る。代わりに、考えられる組み合わせのまばらなサブセットを選択して、テンプレートマッチングまたはバイラテラルマッチングでテストすることができる。
考えられる組み合わせのまばらなサブセットは、現在のピクチャにプレゼンテーション時間の点で近い参照ピクチャよりも、現在のピクチャからさらに離れている参照ピクチャのほうが、変更(スケーリング、回転、移動等)が大きくなる可能性があるという点で、参照ピクチャまでの距離にも依存し得る。たとえば、時間的に近い参照ピクチャに対しては、少数の組み合わせをテストすることができる。
一部の実施形態では、ブロックの一部はイントラ符号化される。この実施形態では、現在のブロックの一部(たとえば現在のブロックの底部側/右側のサブブロックもしくはピクセルの小セット、またはまばらに選択されたピクセル)が、イントラ符号化を使用して符号化される。これは、通常のテンプレートマッチングで良好なマッチを得られない場合に有益であり得る。現在のブロックの一部をイントラ符号化することで、現在のブロック内にあるものに対してマッチングが行われるため、テンプレートマッチングのよりよい固定点を得ることが可能になり得る。この実施形態の変種では、現在のブロックの重複部分に関してのみ、イントラ符号化モードがデコーダにシグナリングされる。
以下では、さまざまな特徴および実施形態について説明するが、これらの特徴および実施形態は、テンプレートマッチングの使用に加えて、バイラテラルマッチングの使用とも組み合わせることができることn留意されたい。さらに、参照番号は、時間マッチングおよびバイラテラルマッチングが使用され得る実施形態についての図4a、図4b、図4c、および図5に関連する。
よって、これまでに説明した実施形態の変種であって、さらなる実施形態を示す変種では、何らかのシグナリングが使用され得る。テンプレートマッチングの考え方は、運動ベクトル等の特定の情報(本教示の実施形態では、スケーリングパラメータ、回転パラメータ、およびその他の変換パラメータ)をビットストリームでシグナリングする必要性をなくすというものである。
しかし、テンプレートマッチングを使用するタイミングや、テンプレートマッチングの使用対象(たとえば、並進、スケーリング、回転等)をシグナリングすることが必要な場合がある。さらに、マッチング手続きでテストする組み合わせの数をシグナリングすると有益であり得る。この情報は、シーケンスパラメータセット(SPS)等のシーケンスレベル、ピクチャパラメータセット(PPS)等のピクチャレベル、スライスレベル、またはブロックレベルでシグナリングされ得る。
一部の実施形態では、いくつかの予測領域候補がテンプレートマッチングから得られる。使用する予測領域候補のインデックスが、エンコーダからデコーダにビットストリームでシグナリングされる。開示されるテンプレートマッチング手続きのエンコーダ側でのステップはデコーダ側でのステップに対応するため、同じ候補セットがデコーダ側で導き出される。よって、エンコーダでマッチングを行い、使用する候補をデコーダにシグナリングすることができる。これにより、デコーダ側での処理ニーズが軽減される。
一部の実施形態では、上述した方法を(さまざまな実施形態で)実装するときのデコーダ側の複雑さを軽減するために、マッチングを実際の符号化よりも低い解像度で実行すると有利であり得る。たとえば、参照ピクチャおよびテンプレート領域を両方向で1/2にダウンスケールして、マッチされるピクセルの数を75%減らすことができる。
他の実施形態では、上述した実施形態を実装するためのデコーダ側の複雑さを同じく軽減するために、検索戦略が使用され得る。たとえば、幾何変換を見つけるためのマッチングを2つの検索ステップで実行すると有益であり得る。第1の検索ステップで、再標本化された参照標本の粗い標本精度(たとえば、整数)で、検索領域に対するN個の最良のマッチが選択される。第2のステップで、N個の最良のマッチが、再標本化された参照標本の最終的な標本精度(たとえば、クォーター標本)を使用して絞り込まれる。第2のステップで最良のマッチを示す幾何変換が選択される。N個の最良のマッチは、たとえば、誤差絶対値和(SAD)または重み付けされたSADを使用することにより判断され得る。重み付けされたSADを使用することで、最終的な標本からさらに離れている粗標本より、最終的な標本に近い粗標本に、大きい重みを与えることが意図される。
代替の実施形態では、第1の検索がエンコーダとデコーダの両方で実行されて、N個の候補が与えられる。次に、第2の検索がエンコーダのみで実行され、使用する候補が方法の使用時にデコーダにシグナリングされる。よってデコーダは、選択された候補について、参照標本の最終的な標本精度への再標本化を実行するだけでよい。
これまでに説明した特徴および実施形態は、既に示したように、多様な方法で組み合わせることができる。以下では、多様な組み合わせのさらなる例を示す。
図13は、本教示に係るエンコーダでの方法20のステップのフローチャートを示す。
方法20は、エンコーダ40でビデオピクチャをビデオビットストリームに符号化するために実行され得る。方法20は、参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得すること21を含む。使用する幾何変換は、スケーリング、回転、せん断、反射、および投影の任意の組み合わせであり得る。さらに、幾何変換は、スケーリング、回転、せん断、反射、および投影の少なくとも1つに加えて、並進も含み得ることに留意されたい。
方法20は、参照ピクチャ2;12、13の参照マッチング領域6;15、16を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることと、変換されたバージョン2’;12’、13’の参照マッチング領域6’;15’、16’を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることとを含むマッチング手続きを、少なくとも1回実行すること22を含む。
方法20は、現在のピクチャ1;11のブロック3;14を、ブロック3;14に対して、参照マッチング領域6;15、16に基づく第1の予測領域5;15、16または変換された参照マッチング領域6’;15’、16’に基づく第2の予測領域5’;15’、16’を選択することにより符号化すること23を含み、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域6;6’;15、16、15’、16’に少なくとも部分的に重複し、第2のピクチャ1;13、12の対応するマッチング領域4;16、15に対するマッチング誤差が最小である予測領域がブロックの予測として選択される。
方法20は、いくつかの利点をもたらす。たとえば、マッチングの前に幾何変換を適用することで、テンプレートマッチングおよびバイラテラルマッチングの予測が向上する。これは、ひいては圧縮効率が向上することを意味する。なぜなら、エンコーダとデコーダの両方でマッチング検索が実行される場合に、余分なシグナリングが不要だからである。
実施形態では、参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を取得すること21は、参照マッチング領域6;15、16および予測領域のみを変換することを含む。
実施形態では、方法20は、マッチング手続きを、符号化すること23よりも低い解像度で実行すること22を含む。
さまざまな実施形態では、マッチング手続きを実行することは、第1の標本精度を使用して参照マッチング領域6;15、16に対するマッチの第1のセットを取得することと、第2の標本精度を使用して第1のセットのマッチを絞り込むこととを含み、符号化すること23は、第2の標本精度が使用された第1のセットのマッチの中から予測領域を選択することを含む。
上記実施形態の変種では、方法20は、デコーダに対し、第2の標本精度が使用された第1のセットのマッチの中の使用するマッチ候補に関する情報をシグナリングすることを含む。
さまざまな実施形態では、方法20は、デコーダ50に対し、マッチング手続きで使用する幾何変換に関する情報であって、マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報をシグナリングすることを含む。
さまざまな実施形態では、方法20は、デコーダ50に対し、マッチング手続き中にデコーダ50で導き出された選択済み予測候補のセットの中の、ブロック3;14の復号に使用する予測候補領域のインデックスをシグナリングすることを含む。
さまざまな実施形態では、マッチング手続きはバイラテラルマッチングを含み、
− 第2のピクチャ13、12が、第2の取得された参照ピクチャ13、12または第2の取得された参照ピクチャ13、12の変換されたバージョン13’、12’を含み、方法20が、ブロック14の符号化23中に、
− 第2の参照ピクチャ13、12の第2の参照マッチング領域に少なくとも部分的に重複する第3の参照予測領域、または第2の参照ピクチャ13、12の変換されたバージョン13’、12’の第2の参照マッチング領域に少なくとも部分的に重複する第4の予測領域を選択することと、
− 選択された第1の予測領域および選択された第3の予測領域または選択された第2の予測領域および選択された第4の予測領域に基づいて第5の予測領域を導き出すことと、
− 現在のピクチャ11のブロック14の符号化23のために第5の予測領域を選択することとを含む。
さまざまな組み合わせが考えられることが留意される。オブジェクトは、現在のピクチャ11と一方の参照ピクチャ12との間で幾何変換されているが、他方の参照ピクチャ13に対しては幾何変換されていない可能性がある。よって、選択された第1の予測領域15、15’または選択された第2の予測領域16、16’の任意の組み合わせを、選択された第3の予測領域または選択された第4の予測領域のいずれかと組み合わせることができる。
さまざまな実施形態では、マッチング手続きはテンプレートマッチングを含む。第2のピクチャは現在のピクチャを含み、第2のピクチャのマッチング領域は現在のピクチャのテンプレート領域を含む。
上記実施形態のまたさらなる変種では、現在のピクチャのブロックの少なくとも一部のピクセルが、テンプレートマッチング/バイラテラルマッチングとは別のインター符号化モードを使用して符号化される。インター符号化モードは、従来の運動ベクトルシグナリングモード、マージモード、またはスキップモードを含み得る。これは、上記実施形態と同様に、従来のテンプレートマッチング/バイラテラルマッチングで良好なマッチが得られない場合に有益であり得る。現在のブロックの一部をイントラ符号化することで、現在のブロック内にあるものに対してマッチングが行われるため、テンプレートマッチング/バイラテラルマッチングのよりよい固定点を得ることが可能になり得る。この実施形態の変種では、現在のブロックの重複部分に関してのみ、インター符号化モードと、必要に応じて他のインター符号化パラメータとが、デコーダにシグナリングされる。
テンプレートマッチング/バイラテラルマッチングは、本教示によると、並進のみと組み合わされ得ることが留意される。詳細には、参照ピクチャの変換されたバージョンの取得は、並進のみを含み、他の幾何変換を含まない。テンプレート領域は、予測領域に部分的に重複し、重複する領域のピクセルは、テンプレートマッチング/バイラテラルマッチングとは異なる手段で取得される。この手段は、たとえば、イントラ符号化、または明示的運動ベクトルシグナリングモード、マージモード、スキップモード等のインター符号化の他のモードを含む。
上記実施形態の変種では、現在のピクチャのブロックの少なくとも一部のピクセルが、イントラ符号化を使用して符号化される。ブロックの一部は、参照ピクチャの、参照マッチング領域と参照予測領域とが重複する部分に対応する。この実施形態では、現在のブロックの一部、たとえば、現在のブロックの底部側/右側のサブブロックもしくはピクセルの小セット、またはまばらに選択されたピクセルが、イントラ符号化を使用して符号化される。これは、従来のテンプレートマッチング/バイラテラルマッチングで良好なマッチを得られない場合に有益であり得る。現在のブロックの一部をイントラ符号化することで、現在のブロック内にあるものに対してマッチングが行われるため、テンプレートマッチング/バイラテラルマッチングのよりよい固定点を得ることが可能になり得る。この実施形態の変種では、現在のブロックの重複部分に関してのみ、イントラ符号化モードがデコーダにシグナリングされる。
図14は、本教示に係るデコーダでの方法のステップを示すフローチャートである。図13を参照して説明したエンコーダでの方法20が、デコーダ50での以下の方法30に対応し、エンコーダでの方法に関連して上述した利点に対応する利点が、以下のデコーダの方法でも得られることが留意される。よって、これらの利点はここで反復せず、そのような利点については上述した対応する実施形態が参照される。さらに、上述したエンコーダの実施形態のそれぞれの説明は、以下の対応するデコーダの実施形態に当てはまる。よって、そのような説明は以下で反復せず、代わりに、対応するエンコーダの各実施形態が参照される。
デコーダ50で実行される方法30は、ビデオビットストリームからビデオピクチャを復号するために提供される。方法30は、
− 参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得すること31と、
− 参照ピクチャ2;12、13の参照マッチング領域6;15、16を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることと、変換されたバージョン2’;12’、13’の参照マッチング領域6’;15’、16’を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることとを含むマッチング手続きを、少なくとも1回実行すること32と、
− 現在のピクチャ1;11のブロック3;14を、ブロック3;14に対して、参照マッチング領域6;15、16に基づく第1の予測領域5;15、16または変換された参照マッチング領域6’;15’、16’に基づく第2の予測領域5’;15’、16’を選択することにより復号すること33であり、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域6;6’;15、16、15’、16’に少なくとも部分的に重複し、第2のピクチャ1;13、12の対応するマッチング領域4;16、15に対するマッチング誤差が最小である予測領域がブロックの予測として選択される、復号すること33とを含む。
一実施形態では、参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を取得すること31は、参照マッチング領域6;15、16および予測領域のみを変換することを含む。
さまざまな実施形態では、方法30は、マッチング手続きを、復号すること33よりも低い解像度で実行すること32を含む。
さまざまな実施形態では、マッチング手続きを実行することは、第1の標本精度を使用して参照マッチング領域6;15、16に対するマッチの第1のセットを取得することと、第2の標本精度を使用して第1のセットのマッチを絞り込むこととを含み、復号すること33が、第2の標本精度が使用された第1のセットのマッチの中から予測領域を選択することを含む。
さまざまな実施形態では、方法30は、エンコーダ40から、第2の標本精度が使用された第1のセットのマッチの中の使用するマッチ候補に関する情報を受け取ることを含む。
さまざまな実施形態では、方法30は、エンコーダ40から、マッチング手続きで使用する幾何変換に関する情報であって、マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報を受け取ることを含む。
さまざまな実施形態では、方法30は、エンコーダ40から、マッチング手続き中に導き出された選択済み予測候補のセットの中の、ブロック3;14の復号に使用する予測候補領域のインデックスを受け取ることを含む。
さまざまな実施形態では、マッチング手続きはバイラテラルマッチングを含み、第2のピクチャ13、12が、第2の取得された参照ピクチャ13、12または第2の取得された参照ピクチャ13、12の変換されたバージョン13’、12’を含み、方法30が、ブロック14の復号33中に、
− 第2の参照ピクチャ13、12の第3の参照予測領域、または第2の参照ピクチャ13、12の変換されたバージョン13’、12’の第4の予測領域を選択することと、
− 選択された第1の予測領域および選択された第3の予測領域または選択された第2の予測領域および選択された第4の予測領域に基づいて、第5の予測領域を導き出すことと、
− 現在のピクチャ11のブロック14の復号33のために第5の予測領域を選択することとを含む。
さまざまな実施形態では、マッチング手続きはテンプレートマッチングを含み、第2のピクチャは現在のピクチャ1を含み、第2のピクチャのマッチング領域4は現在のピクチャ1のテンプレート領域を含む。
一部の実施形態では、現在のピクチャ1;11のブロック3;14の少なくとも一部のピクセルは、イントラ符号化を使用して復号され、ブロック3;14の一部が、参照ピクチャ2;12、13;12’、13’の、参照マッチング領域6;15;16;15’;16’と参照予測領域5;15;16;15’;16’とが重複する部分に対応する。
またさらなる別の実施形態では、現在のピクチャのブロックの少なくとも一部のピクセルが、テンプレートマッチング/バイラテラルマッチングとは別のインター符号化モードを使用して復号される。インター符号化モードは、従来の運動ベクトルシグナリングモード、マージモード、またはスキップモードを含み得る。これは、上記実施形態と同様に、従来のテンプレートマッチング/バイラテラルマッチングで良好なマッチが得られない場合に有益であり得る。現在のブロックの一部をインター符号化することで、現在のブロック内にあるものに対してもマッチングが行われるため、テンプレートマッチング/バイラテラルマッチングのよりよい固定点を得ることが可能になり得る。この実施形態の変種では、現在のブロックの重複部分に関してのみ、インター符号化モードと、必要に応じて他のインター符号化パラメータとが、デコーダにシグナリングされる。
図15は、エンコーダおよびデコーダと、本教示に係る実施形態を実装する手段とを概略的に示す。エンコーダ40およびデコーダ50はそれぞれ、コンピュータプログラム製品であり得るメモリ42、52に格納されたソフトウェア命令を実行することができる、中央処理装置(CPU)、マルチプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路等の1つまたは複数の任意の組み合わせを含むプロセッサ41、51を備える。エンコーダ40のプロセッサ41は、たとえば図13に関連して説明したような、方法20のさまざまな実施形態のいずれかを実行するように構成され得る。デコーダ50のプロセッサ51は、たとえば図14に関連して説明したような、方法30のさまざまな実施形態のいずれかを実行するように構成され得る。
エンコーダ40およびデコーダ50のメモリ42、52は、リードアンドライトメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、磁気テープ、コンパクトディスク(CD)−ROM、デジタル多用途ディスク(DVD)、ブルーレイディスク等の任意の組み合わせであり得る。メモリ42、52は、たとえば磁気メモリ、光学式メモリ、ソリッドステートメモリ、さらにはリモートに設置されたメモリの任意の1つまたは組み合わせであり得る、永続型ストレージをさらに含み得る。
エンコーダ40およびデコーダ50はそれぞれ、他の装置との通信のためのインターフェイス44、54を備える。インターフェイス44、54は、たとえば、他の装置との通信のためのプロトコルスタック等を備え得、デコーダまたはエンコーダとの通信のためのインターフェイスをさらに備え得る。
エンコーダ40およびデコーダ50は、本教示に係るさまざまな実施形態を実装するために、参照番号45、55で概略的に示された追加の処理回路を備え得る。
エンコーダ40は、ビデオピクチャをビデオビットストリームに符号化するために提供される。エンコーダ40は、以下を行うように構成される。
− 参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用することにより取得し、
− 参照ピクチャ2;12、13の参照マッチング領域6;15、16を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることと、変換されたバージョン2’;12’、13’の参照マッチング領域6’;15’、16’を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることとを含むマッチング手続きを、少なくとも1回実行し、
− 現在のピクチャ1;11のブロック3;14を、ブロック3;14に対して、参照マッチング領域6;15、16に基づく第1の予測領域5;15;16または変換された参照マッチング領域6’;15’、16’に基づく第2の予測領域5’;15’、16’を選択することにより符号化し、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域6;6’;15、16、15’、16’に少なくとも部分的に重複し、第2のピクチャ1;13、12の対応するマッチング領域4;16、15に対するマッチング誤差が最小である予測領域がブロックの予測として選択される。
エンコーダ40は、たとえば、1つまたは複数のプロセッサ41とメモリ42とを備えることで上記ステップを実行するように構成され得、メモリ42は、プロセッサ41により実行可能な命令を含み、それによってエンコーダ40は、上記ステップを実行するように動作することができる。
実施形態では、エンコーダ40は、参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、参照マッチング領域6;15、16および予測領域のみを変換することにより取得するように構成される。
さまざまな実施形態では、エンコーダ40は、マッチング手続きを、符号化23よりも低い解像度で実行するように構成される。
さまざまな実施形態では、エンコーダ40は、第1の標本精度を使用して参照マッチング領域6;15、16に対するマッチの第1のセットを取得し、第2の標本精度を使用して第1のセットのマッチを絞り込むことにより、マッチング手続きを実行するように構成され、第2の標本精度が使用された第1のセットのマッチの中から予測領域を選択することにより、符号化を行うように構成される。
上記実施形態の変種では、エンコーダ40は、デコーダ50に対し、第2の標本精度が使用された第1のセットのマッチの中の使用するマッチ候補に関する情報をシグナリングするように構成される。
さまざまな実施形態では、エンコーダ40は、デコーダ50に対し、マッチング手続きで使用する幾何変換に関する情報であって、マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報をシグナリングするように構成される。
さまざまな実施形態では、エンコーダ40は、デコーダ50に対し、マッチング手続き中にデコーダ50で導き出された選択済み予測候補のセットの中の、復号ブロック3;14の復号に使用する予測領域候補のインデックスをシグナリングするように構成される。
さまざまな実施形態では、マッチング手続きはバイラテラルマッチングを含み、第2のピクチャ13、12が、第2の取得された参照ピクチャ13、12または第2の取得された参照ピクチャ13、12の変換されたバージョン13’、12’を含み、エンコーダ40が、ブロック14の符号化中に、
− 第2の参照ピクチャ13、12の第3の参照予測領域、または第2の参照ピクチャ13、12の変換されたバージョン13’、12’の第4の予測領域を選択し、
− 選択された第1の予測領域および選択された第3の予測領域または選択された第2の予測領域および選択された第4の予測領域に基づいて、第5の予測領域を導き出し、
− 現在のピクチャ11のブロック14の符号化23のために第5の予測領域を選択するように構成される。
さまざまな実施形態では、マッチング手続きはテンプレートマッチングを含み、第2のピクチャは現在のピクチャ1を含み、第2のピクチャのマッチング領域4は現在のピクチャ1のテンプレート領域を含む。
一部の実施形態では、現在のピクチャ1;11のブロック3;14の少なくとも一部のピクセルは、イントラ符号化を使用して符号化され、ブロック3;14の一部が、参照ピクチャ2;12、13;12’;13’の、参照マッチング領域6;15;16;15’;16’と参照予測領域5;15;16;15’;16’とが重複する部分に対応する。
一部の実施形態では、エンコーダ40は、現在のピクチャのブロックの少なくとも一部のピクセルを、テンプレートマッチング/バイラテラルマッチングとは別のインター符号化モードを使用して符号化するように構成される。エンコーダ40は、たとえば、従来の従来の運動ベクトルシグナリングモード、マージモード、またはスキップモードの中から選択されるインター符号化モードを使用して符号化を行うように構成され得る。方法20に関連して上述したように、これは、従来のテンプレートマッチング/バイラテラルマッチングで良好なマッチが得られない場合に有益であり得る。この実施形態の変種では、エンコーダ40は、現在のブロックの重複部分に関してのみ、インター符号化モードと、必要に応じて他のインター符号化パラメータとを、デコーダにシグナリングするように構成される。
デコーダ50は、ビデオビットストリームからビデオピクチャを復号化するために設けられる。デコーダ50は、以下を行うように構成される。
− 参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得し、
− 参照ピクチャ2;12、13の参照マッチング領域6;15、16を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることと、変換されたバージョン2’;12’、13’の参照マッチング領域6’;15’、16’を第2のピクチャ1;13、12のマッチング領域4;16、15にマッチさせることとを含むマッチング手続きを、少なくとも1回実行し、
− 現在のピクチャ1;11のブロック3;14を、ブロック3;14に対して、参照マッチング領域6;15、16に基づく第1の予測領域5;15;16または変換された参照マッチング領域6’;15’、16’に基づく第2の予測領域5’;15’、16’を選択することにより復号し、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域6;6’;15、16、15’、16’に少なくとも部分的に重複し、第2のピクチャ1;13、12の対応するマッチング領域4;16、15に対するマッチング誤差が最小である予測領域がブロックの予測として選択される。
デコーダ50は、たとえば、1つまたは複数のプロセッサ51とメモリ52とを備えることで上記ステップを実行するように構成され得、メモリ52は、プロセッサ51により実行可能な命令を含み、それによってデコーダ50は、上記ステップを実行するように動作することができる。
実施形態では、デコーダ50は、参照ピクチャ2;12、13の変換されたバージョン2’;12’、13’を、参照マッチング領域6;15、16および予測領域のみを変換することにより取得するように構成される。
さまざまな実施形態では、デコーダ50は、マッチング手続きを、復号よりも低い解像度で実行するように構成される。
さまざまな実施形態では、デコーダ50は、第1の標本精度を使用して参照マッチング領域6;15、16に対するマッチの第1のセットを取得し、第2の標本精度を使用して第1のセットのマッチを絞り込むことにより、マッチング手続きを実行するように構成され、第2の標本精度が使用された第1のセットのマッチの中から予測領域を選択することにより、復号を行うように構成される。
上記実施形態の変種では、デコーダ50は、エンコーダ40から、第2の標本精度が使用された第1のセットのマッチの中の使用するマッチ候補に関する情報を受け取るように構成される。
さまざまな実施形態では、デコーダ50は、エンコーダ40から、マッチング手続きで使用する幾何変換に関する情報であって、マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報を受け取るように構成される。
さまざまな実施形態では、デコーダ50は、エンコーダ40から、マッチング手続き中に導き出された選択済み予測候補のセットの中の、ブロック3の復号に使用する予測領域候補のインデックスを受け取るように構成される。
さまざまな実施形態では、マッチング手続きはバイラテラルマッチングを含み、第2のピクチャ13、12が、第2の取得された参照ピクチャ13、12または第2の取得された参照ピクチャ13、12の変換されたバージョン13’、12’を含み、デコーダ50が、ブロック14の復号中に、
− 第2の参照ピクチャ13、12の第3の参照予測領域、または第2の参照ピクチャ13、12の変換されたバージョン13’、12’の第4の予測領域を選択し、
− 選択された第1の予測領域および選択された第3の予測領域または選択された第2の予測領域および選択された第4の予測領域に基づいて、第5の予測領域を導き出し、
− 現在のピクチャ11のブロック14の復号33のために第5の予測領域を選択するように構成される。
さまざまな実施形態では、マッチング手続きはテンプレートマッチングを含み、第2のピクチャは現在のピクチャ1を含み、第2のピクチャのマッチング領域4は現在のピクチャ1のテンプレート領域を含む。
一部の実施形態では、現在のピクチャ1;11のブロック3;14の少なくとも一部のピクセルは、イントラ符号化を使用して復号され、ブロック3;14の一部が、参照ピクチャ2;12;13;12’;13’の、参照マッチング領域6;15;16;15’;16’と参照予測領域5とが重複する部分に対応する。
一部の実施形態では、デコーダ50は、現在のピクチャのブロックの少なくとも一部のピクセルを、テンプレートマッチング/バイラテラルマッチングとは別のインター符号化モードを使用して復号するように構成される。デコーダ50は、たとえば、従来の運動ベクトルシグナリングモード、マージモード、またはスキップモードの中から選択されるインター符号化モードを使用して復号を行うように構成され得る。たとえば、エンコーダ40に関連して上述したように、これは、従来のテンプレートマッチング/バイラテラルマッチングで良好なマッチが得られない場合に有益であり得る。この実施形態の変種では、デコーダ50は、現在のブロックの重複部分に関してのみ、インター符号化モードと、必要に応じて他のインター符号化パラメータとを、エンコーダから受け取るように構成される。
図15をさらに参照すると、本教示は、ビデオピクチャをビデオビットストリームに符号化するエンコーダ40用のコンピュータプログラム43と、ビデオビットストリームからビデオピクチャを復号するデコーダ50用のコンピュータプログラム53とをさらに包含する。エンコーダ用のコンピュータプログラム43は、エンコーダ40の少なくとも1つのプロセッサで実行されたときに、記載された実施形態のいずれかに応じて方法20をエンコーダ40に実行させるコンピュータプログラムコードを含む。デコーダ用のコンピュータプログラム53は、デコーダ50の少なくとも1つのプロセッサで実行されたときに、記載された実施形態のいずれかに応じて方法30をデコーダ50に実行させるコンピュータプログラムコードを含む。
本教示は、記載されたような方法の実施形態を実装するコンピュータプログラム43、53を含むエンコーダおよびデコーダそれぞれ用のコンピュータプログラム製品42、52と、コンピュータプログラム43、53が格納されたコンピュータ可読手段とをさらに包含する。よって、コンピュータプログラム製品またはメモリは、プロセッサ41、51により実行可能な命令を含む。そのような命令は、コンピュータプログラム、または1つもしくは複数のソフトウェアモジュールもしくは機能モジュールに含まれ得る。コンピュータプログラム製品42、52は、既に述べたように、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、磁気テープ、コンパクトディスク(CD)−ROM、デジタル多用途ディスク(DVD)、ブルーレイディスク等の任意の組み合わせであり得る。
図16は、本教示に係る実施形態を実装するための機能モジュール/ソフトウェアモジュールをそれぞれが含むエンコーダ40およびデコーダ50を示す。機能モジュールは、プロセッサで実行されるコンピュータプログラム等のソフトウェア命令を使用して、ならびに/または特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、個別論理部品(discrete logical components)、およびそれらの任意の組み合わせ等のハードウェアを使用して、実装することができる。上述した方法20、30の任意のステップを実行するようになされ得、詳細にはなされた、処理回路が提供され得る。
エンコーダは、ビデオピクチャをビデオビットストリームに符号化するために設けられる。エンコーダは、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得する第1のモジュール61を備える。そのような第1のモジュール61は、たとえば、参照ピクチャを変換するようになされた処理回路を備え得る。
エンコーダは、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと、変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを、少なくとも1回実行する第2のモジュール62を備える。そのような第2のモジュール62は、たとえば、マッチング手続きを実行するようになされた処理回路を備え得る。
エンコーダは、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより符号化する第3のモジュール63を備え、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域と少なくとも部分的に重複し、第2のピクチャの対応するマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択される。そのような第3のモジュール63は、たとえば、ブロックを符号化するようになされた処理回路を備え得る。
モジュール61、62、63の1つまたは複数は、ユニットで置換され得ることが留意される。
図16は、本教示に係る実施形態を実装する機能モジュール/ソフトウェアモジュールを含むデコーダをさらに示す。機能モジュールは、プロセッサで実行されるコンピュータプログラム等のソフトウェア命令を使用して、ならびに/または特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ、個別論理部品、およびそれらの任意の組み合わせ等のハードウェアを使用して、実装することができる。上述した方法30の任意のステップを実行するようになされ得、詳細にはなされた、処理回路が提供され得る。
デコーダは、ビデオビットストリームからビデオピクチャを復号するために設けられる。デコーダは、参照ピクチャの変換されたバージョンを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得するための第1のモジュール71を備える。そのような第1のモジュール71は、たとえば、参照ピクチャを変換するようになされた処理回路を備え得る。
デコーダは、参照ピクチャの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることと、変換されたバージョンの参照マッチング領域を第2のピクチャのマッチング領域にマッチさせることとを含むマッチング手続きを、少なくとも1回実行する第2のモジュール72を備える。そのような第2のモジュール72は、たとえば、マッチング手続きを実行するようになされた処理回路を備え得る。
デコーダは、現在のピクチャのブロックを、そのブロックに対して、参照マッチング領域に基づく第1の予測領域または変換された参照マッチング領域に基づく第2の予測領域を選択することにより復号する第3のモジュール73を備え、第1の予測領域および第2の予測領域が、それぞれの参照マッチング領域と少なくとも部分的に重複し、第2のピクチャの対応するマッチング領域に対するマッチング誤差が最小である予測領域がブロックの予測として選択される。
モジュール71、72、73の1つまたは複数は、ユニットで置換され得ることが留意される。
上述したエンコーダ40およびデコーダ50は、上述した方法と異なる方法で実装され得る。たとえば、エンコーダおよびデコーダは、アプリケーションプログラムまたはアプリケーションソフトウェアの形式(一般に「アプリ」と呼ばれる)でダウンロード可能な、プロセッサで実行されるダウンロード可能命令として実装され得る。エンコーダおよびデコーダは、たとえば、カメラ、タブレット、セットトップボックス、パーソナルコンピュータ、スマートフォン、または符号化および/もしくは復号が求められる任意の装置で実装(たとえば、ダウンロード)され得る。他の実施形態では、エンコーダおよびデコーダは、そのような装置のハードウェアまたはハードウェアおよびソフトウェアで実装される。
本明細書では、本発明について主にいくつかの実施形態を参照しながら説明した。ただし、当業者により理解されるように、本明細書で開示された特定の実施形態以外の他の実施形態も、添付の特許請求の範囲により定義されるような本発明の範囲内で等しく可能である。

Claims (40)

  1. ビデオピクチャをビデオビットストリームに符号化するエンコーダ(40)で実行される方法(20)であって、
    参照ピクチの変換されたバージョを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得すること(21)と、
    前記参照ピクチの参照マッチング領を第2のピクチのマッチング領にマッチさせることと、前記変換されたバージョの参照マッチング領を前記第2のピクチの前記マッチング領にマッチさせることとを含むマッチング手続きを、少なくとも1回実行すること(22)と、
    現在のピクチのブロッを、前記ブロッに対して、前記参照ピクチャの前記参照マッチング領に基づく第1の予測領または前記変換された参照マッチング領に基づく第2の予測領を選択することにより符号化すること(23)であり、前記第1の予測領域および前記第2の予測領域が、それぞれの参照マッチング領と少なくとも部分的に重複し、前記第2のピクチの対応するマッチング領に対するマッチング誤差が最小である前記予測領域が前記ブロックの予測として選択される、符号化すること(23)と
    デコーダ(50)に対し、マッチング手続き中に前記デコーダ(50)で導き出された選択済み予測候補のセットの中の、ブロックの復号に使用する予測領域候補のインデックスをシグナリングすること
    を含む方法(20)。
  2. 前記参照ピクチの変換されたバージョを取得すること(21)が、前記参照ピクチャの前記参照マッチング領および前記予測領域のみを変換することを含む、請求項1に記載の方法(20)。
  3. 前記マッチング手続きを、前記符号化すること(23)よりも低い解像度で実行すること(22)を含む、請求項1または2に記載の方法(20)。
  4. 前記マッチング手続きを実行することが、第1の標本精度を使用して前記参照ピクチャの前記参照マッチング領に対するマッチの第1のセットを取得することと、第2の標本精度を使用して前記第1のセットの前記マッチを絞り込むこととを含み、前記符号化すること(23)が、前記第2の標本精度が使用された前記第1のセットのマッチの中から前記予測領域を選択することを含む、請求項1ないし3のいずれか一項に記載の方法(20)。
  5. デコーダ(50)に対し、前記第2の標本精度が使用された前記第1のセットのマッチの中の使用するマッチ候補に関する情報をシグナリングすることを含む、請求項4に記載の方法(20)。
  6. デコーダ(50)に対し、前記マッチング手続きで使用する前記幾何変換に関する情報であって、前記マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報をシグナリングすることを含む、請求項1ないし5のいずれか一項に記載の方法(20)。
  7. 前記マッチング手続きがバイラテラルマッチングを含み、
    前記第2のピクチが、第2の取得された参照ピクチまたは前記第2の取得された参照ピクチの変換されたバージョを含み、前記方法(20)が、前記ブロッの前記符号化(23)中に、
    前記第2の参照ピクチの第3の参照予測領域、または前記第2の参照ピクチの前記変換されたバージョの第4の予測領域を選択することと、
    選択された前記第1の予測領域および選択された前記第3の参照予測領域または選択された前記第2の予測領域および選択された前記第4の予測領域に基づいて、第5の予測領域を導き出すことと、
    前記現在のピクチの前記ブロッの符号化(23)のために前記第5の予測領域を選択することと
    を含む、請求項1ないしのいずれか一項に記載の方法(20)。
  8. 前記マッチング手続きがテンプレートマッチングを含み、前記第2のピクチャが前記現在のピクチを含み、前記第2のピクチャの前記マッチング領が前記現在のピクチのテンプレート領域を含む、請求項1ないしのいずれか一項に記載の方法(20)。
  9. 前記現在のピクチの前記ブロッの少なくとも一部のピクセルが、イントラ符号化を使用して符号化され、前記ブロッの前記一部が、前記参照ピクチの、前記参照マッチング領と前記参照予測領とが重複する部分に対応する、請求項またはに記載の方法(20)。
  10. ビデオピクチャをビデオビットストリームに符号化するエンコーダ(40)用のコンピュータプログラム(43)であって、前記エンコーダ(40)の少なくとも1つのプロセッサで実行されたときに、前記エンコーダ(40)に請求項1ないしのいずれか一項に記載の方法(20)を実行させるコンピュータプログラムコードを含むコンピュータプログラム(43)。
  11. 請求項10に記載のコンピュータプログラム(43が格納されるコンピュータ可読手
  12. ビデオピクチャをビデオビットストリームに符号化するエンコーダ(40)であって、
    参照ピクチの変換されたバージョを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得し、
    前記参照ピクチの参照マッチング領を第2のピクチのマッチング領にマッチさせることと、前記変換されたバージョの参照マッチング領を前記第2のピクチの前記マッチング領にマッチさせることとを含むマッチング手続きを、少なくとも1回実行し、
    現在のピクチのブロッを、前記ブロッに対して、前記参照ピクチャの前記参照マッチング領に基づく第1の予測領または前記変換された参照マッチング領に基づく第2の予測領を選択することにより符号化し、前記第1の予測領域および前記第2の予測領域が、それぞれの参照マッチング領と少なくとも部分的に重複し、前記第2のピクチの対応するマッチング領に対するマッチング誤差が最小である予測領域が前記ブロックの予測として選択され
    デコーダ(50)に対し、マッチング手続き中に前記デコーダ(50)で導き出された選択済み予測候補のセットの中の、ブロックの復号に使用する予測領域候補のインデックスをシグナリングするように構成されたエンコーダ(40)。
  13. 前記参照ピクチの変換されたバージョを、前記参照ピクチャの前記参照マッチング領および前記予測領域のみを変換することにより取得するように構成された、請求項12に記載のエンコーダ(40)。
  14. 前記マッチング手続きを、前記符号化(23)よりも低い解像度で実行するように構成された、請求項12または13に記載のエンコーダ(40)。
  15. 第1の標本精度を使用して前記参照ピクチャの前記参照マッチング領に対するマッチの第1のセットを取得し、第2の標本精度を使用して前記第1のセットのマッチを絞り込むことにより、前記マッチング手続きを実行するように構成され、前記第2の標本精度が使用された前記第1のセットのマッチの中から前記予測領域を選択することにより、符号化するように構成された、請求項12ないし14のいずれか一項に記載のエンコーダ(40)。
  16. デコーダ(50)に対し、前記第2の標本精度が使用された前記第1のセットのマッチの中の使用するマッチ候補に関する情報をシグナリングするように構成された、請求項15に記載のエンコーダ(40)。
  17. デコーダ(50)に対し、前記マッチング手続きで使用する幾何変換に関する情報であって、前記マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報をシグナリングするように構成された、請求項12ないし16のいずれか一項に記載のエンコーダ(40)。
  18. 前記マッチング手続きがバイラテラルマッチングを含み、
    前記第2のピクチが、第2の取得された参照ピクチまたは前記第2の取得された参照ピクチの変換されたバージョを含み、前記エンコーダ(40)が、前記ブロッの前記符号化中に、
    前記第2の参照ピクチの第3の参照予測領域、または前記第2の参照ピクチの前記変換されたバージョの第4の予測領域を選択し、
    選択された前記第1の予測領域および選択された前記第3の参照予測領域または選択された前記第2の予測領域および選択された前記第4の予測領域に基づいて、第5の予測領域を導き出し、
    前記現在のピクチの前記ブロッの符号化(23)のために前記第5の予測領域を選択する
    ように構成された、請求項12ないし17のいずれか一項に記載のエンコーダ(40)。
  19. 前記マッチング手続きがテンプレートマッチングを含み、前記第2のピクチャが前記現在のピクチを含み、前記第2のピクチャの前記マッチング領が前記現在のピクチのテンプレート領域を含む、請求項12ないし17のいずれか一項に記載のエンコーダ(40)。
  20. 前記現在のピクチの前記ブロッの少なくとも一部のピクセルが、イントラ符号化を使用して符号化され、前記ブロッの前記一部が、前記参照ピクチの、前記参照マッチング領と前記参照予測領とが重複する部分に対応する、請求項18または19に記載のエンコーダ(40)。
  21. ビデオビットストリームからビデオピクチャを復号するデコーダ(50)で実行される方法(30)であって、
    参照ピクチの変換されたバージョを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得すること(31)と、
    前記参照ピクチの参照マッチング領を第2のピクチのマッチング領にマッチさせることと、前記変換されたバージョの参照マッチング領を前記第2のピクチの前記マッチング領にマッチさせることとを含むマッチング手続きを、少なくとも1回実行すること(32)と、
    現在のピクチのブロッを、前記ブロッに対して、前記参照ピクチャの前記参照マッチング領に基づく第1の予測領または前記変換された参照マッチング領に基づく第2の予測領を選択することにより復号すること(33)であり、前記第1の予測領域および前記第2の予測領域が、それぞれの参照マッチング領と少なくとも部分的に重複し、前記第2のピクチの対応するマッチング領に対するマッチング誤差が最小である前記予測領域が前記ブロックの予測として選択される、復号すること(33)と
    エンコーダ(40)から、マッチング手続き中に導き出された選択済み予測候補のセットの中の、ブロックの復号に使用する予測領域候補のインデックスを受け取ることと、
    を含む方法(30)。
  22. 前記参照ピクチの変換されたバージョを取得すること(31)が、前記参照ピクチャの前記参照マッチング領および前記予測領域のみを変換することを含む、請求項21に記載の方法(30)。
  23. 前記マッチング手続きを、前記復号すること(33)よりも低い解像度で実行すること(32)を含む、請求項21または22に記載の方法(30)。
  24. 前記マッチング手続きを実行することが、第1の標本精度を使用して前記参照ピクチャの前記参照マッチング領に対するマッチの第1のセットを取得することと、第2の標本精度を使用して前記第1のセットの前記マッチを絞り込むこととを含み、前記復号すること(33)が、前記第2の標本精度が使用された前記第1のセットのマッチの中から前記予測領域を選択することを含む、請求項21ないし23のいずれか一項に記載の方法(30)。
  25. エンコーダ(40)から、前記第2の標本精度が使用された前記第1のセットのマッチの中の使用するマッチ候補に関する情報を受け取ることを含む、請求項24に記載の方法(30)。
  26. エンコーダ(40)から、前記マッチング手続きで使用する前記幾何変換に関する情報であって、前記マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報を受け取ることを含む、請求項21ないし25のいずれか一項に記載の方法(30)。
  27. 前記マッチング手続きがバイラテラルマッチングを含み、
    前記第2のピクチが、第2の取得された参照ピクチまたは前記第2の取得された参照ピクチの変換されたバージョを含み、前記方法(30)が、前記ブロッの前記復号(33)中に、
    前記第2の参照ピクチの第3の参照予測領域、または前記第2の参照ピクチの前記変換されたバージョの第4の予測領域を選択することと、
    選択された前記第1の予測領域および選択された前記第3の参照予測領域または選択された前記第2の予測領域および選択された前記第4の予測領域に基づいて、第5の予測領域を導き出すことと、
    前記現在のピクチの前記ブロッの復号(33)のために前記第5の予測領域を選択することと
    を含む、請求項21ないし26のいずれか一項に記載の方法(30)。
  28. 前記マッチング手続きがテンプレートマッチングを含み、前記第2のピクチャが前記現在のピクチを含み、前記第2のピクチャの前記マッチング領が前記現在のピクチのテンプレート領域を含む、請求項21ないし26のいずれか一項に記載の方法(30)。
  29. 前記現在のピクチの前記ブロッの少なくとも一部のピクセルが、イントラ符号化を使用して復号され、前記ブロッの前記一部が、前記参照ピクチの、前記参照マッチング領と前記参照予測領とが重複する部分に対応する、請求項27または28に記載の方法(30)。
  30. ビデオビットストリームからビデオピクチャを復号するデコーダ(50)用のコンピュータプログラム(53)であって、前記デコーダ(50)の少なくとも1つのプロセッサで実行されたときに、前記デコーダ(50)に請求項21ないし29のいずれか一項に記載の方法(30)を実行させるコンピュータプログラムコードを含むコンピュータプログラム(53)。
  31. 請求項30に記載のコンピュータプログラム(53が格納されるコンピュータ可読手
  32. ビデオビットストリームからビデオピクチャを復号するデコーダ(50)であって、
    参照ピクチの変換されたバージョを、スケーリング、回転、せん断、反射、および投影の少なくとも1つを含む幾何変換を使用して取得し、
    前記参照ピクチの参照マッチング領を第2のピクチのマッチング領にマッチさせることと、前記変換されたバージョの参照マッチング領を前記第2のピクチの前記マッチング領にマッチさせることとを含むマッチング手続きを、少なくとも1回実行し、
    現在のピクチのブロッを、前記ブロッに対して、前記参照ピクチャの前記参照マッチング領に基づく第1の予測領または前記変換された参照マッチング領に基づく第2の予測領を選択することにより復号し、前記第1の予測領域および前記第2の予測領域が、それぞれの参照マッチング領と少なくとも部分的に重複し、前記第2のピクチの対応するマッチング領に対するマッチング誤差が最小である前記予測領域が前記ブロックの予測として選択され
    エンコーダ(40)から、マッチング手続き中に導き出された選択済み予測候補のセットの中の、ブロックの復号に使用する予測領域候補のインデックスを受け取るように構成されたデコーダ(50)。
  33. 前記参照ピクチの変換されたバージョを、前記参照ピクチャの前記参照マッチング領および前記予測領域のみを変換することにより取得するように構成された、請求項32に記載のデコーダ(50)。
  34. 前記マッチング手続きを、前記復号よりも低い解像度で実行するように構成された、請求項32または33に記載のデコーダ(50)。
  35. 第1の標本精度を使用して前記参照ピクチャの前記参照マッチング領に対するマッチの第1のセットを取得し、第2の標本精度を使用して前記第1のセットのマッチを絞り込むことにより、前記マッチング手続きを実行するように構成され、前記第2の標本精度が使用された前記第1のセットのマッチの中から前記予測領域を選択することにより、復号するように構成された、請求項32ないし34のいずれか一項に記載のデコーダ(50)。
  36. エンコーダ(40)から、前記第2の標本精度が使用された前記第1のセットのマッチの中の使用するマッチ候補に関する情報を受け取るように構成された、請求項35に記載のデコーダ(50)。
  37. エンコーダ(40)から、前記マッチング手続きで使用する前記幾何変換に関する情報であって、前記マッチング手続きで使用する組み合わせの数、示唆された予測領域候補のセット、使用するスケーリング因子、および使用する角度の1つまたは複数を含む情報を受け取るように構成された、請求項32ないし36のいずれか一項に記載のデコーダ(50)。
  38. 前記マッチング手続きがバイラテラルマッチングを含み、
    前記第2のピクチが、第2の取得された参照ピクチまたは前記第2の取得された参照ピクチの変換されたバージョを含み、前記デコーダ(50)が、前記ブロッの前記復号中に、
    前記第2の参照ピクチの第3の参照予測領域、または前記第2の参照ピクチの前記変換されたバージョの第4の予測領域を選択し、
    選択された前記第1の予測領域および選択された前記第3の参照予測領域または選択された前記第2の予測領域および選択された前記第4の予測領域に基づいて、第5の予測領域を導き出し、
    前記現在のピクチの前記ブロッの復号(33)のために前記第5の予測領域を選択する
    ように構成された、請求項32ないし37のいずれか一項に記載のデコーダ(50)。
  39. 前記マッチング手続きがテンプレートマッチングを含み、前記第2のピクチャが前記現在のピクチを含み、前記第2のピクチャの前記マッチング領が前記現在のピクチのテンプレート領域を含む、請求項32ないし37のいずれか一項に記載のデコーダ(50)。
  40. 前記現在のピクチの前記ブロッの少なくとも一部のピクセルが、イントラ符号化を使用して復号され、前記ブロッの前記一部が、前記参照ピクチの、前記参照マッチング領と前記参照予測領とが重複する部分に対応する、請求項38または39に記載のデコーダ(50)。
JP2016520075A 2016-02-17 2016-02-17 ビデオピクチャを符号化および復号する方法および装置 Expired - Fee Related JP6379186B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2016/050122 WO2017142448A1 (en) 2016-02-17 2016-02-17 Methods and devices for encoding and decoding video pictures

Publications (2)

Publication Number Publication Date
JP2018509005A JP2018509005A (ja) 2018-03-29
JP6379186B2 true JP6379186B2 (ja) 2018-08-22

Family

ID=59561890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016520075A Expired - Fee Related JP6379186B2 (ja) 2016-02-17 2016-02-17 ビデオピクチャを符号化および復号する方法および装置

Country Status (4)

Country Link
US (1) US10200715B2 (ja)
EP (1) EP3417617A4 (ja)
JP (1) JP6379186B2 (ja)
WO (1) WO2017142448A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620733B2 (en) * 2013-03-13 2023-04-04 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
US10783615B2 (en) 2013-03-13 2020-09-22 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
CN107872671B (zh) * 2016-09-26 2022-01-14 华为技术有限公司 一种图片编码方法及终端
US20190045213A1 (en) * 2017-08-03 2019-02-07 Intel Corporation Reference frame reprojection for improved video coding
US10986360B2 (en) * 2017-10-16 2021-04-20 Qualcomm Incorproated Various improvements to FRUC template matching
FR3072850B1 (fr) 2017-10-19 2021-06-04 Tdf Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
KR20210016581A (ko) 2018-06-05 2021-02-16 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Ibc 및 atmvp 간의 상호 작용
JP7060802B2 (ja) * 2018-06-11 2022-04-27 日本電信電話株式会社 バッファ装置
TWI739120B (zh) 2018-06-21 2021-09-11 大陸商北京字節跳動網絡技術有限公司 合併仿射模式與非合併仿射模式的統一拘束
CN113115046A (zh) * 2018-06-21 2021-07-13 北京字节跳动网络技术有限公司 分量相关的子块分割
CN110662059B (zh) 2018-06-29 2021-04-20 北京字节跳动网络技术有限公司 使用查找表存储先前编码的运动信息并用其编码后续块的方法和装置
CA3105330C (en) 2018-06-29 2023-12-05 Beijing Bytedance Network Technology Co., Ltd. Interaction between lut and amvp
WO2020003283A1 (en) 2018-06-29 2020-01-02 Beijing Bytedance Network Technology Co., Ltd. Conditions for updating luts
CN114466197A (zh) 2018-06-29 2022-05-10 北京字节跳动网络技术有限公司 用于查找表更新的编码的运动信息的选择
CN110662053B (zh) 2018-06-29 2022-03-25 北京字节跳动网络技术有限公司 使用查找表的视频处理方法、装置和存储介质
CN110662064B (zh) * 2018-06-29 2022-06-14 北京字节跳动网络技术有限公司 Lut中的运动候选的检查顺序
EP3794825A1 (en) 2018-06-29 2021-03-24 Beijing Bytedance Network Technology Co. Ltd. Update of look up table: fifo, constrained fifo
CN110662054B (zh) 2018-06-29 2023-01-06 北京字节跳动网络技术有限公司 用于视频处理的方法、装置、计算机可读存储介质
TWI734133B (zh) 2018-07-02 2021-07-21 大陸商北京字節跳動網絡技術有限公司 更新查找表的規則
TW202025760A (zh) 2018-09-12 2020-07-01 大陸商北京字節跳動網絡技術有限公司 要檢查多少個hmvp候選
CN110944193B (zh) 2018-09-24 2023-08-11 北京字节跳动网络技术有限公司 视频编码和解码中的加权双向预测
WO2020088689A1 (en) * 2018-11-02 2020-05-07 Beijing Bytedance Network Technology Co., Ltd. Usage of hmvp candidates in geometry partition prediction mode
WO2020094151A1 (en) 2018-11-10 2020-05-14 Beijing Bytedance Network Technology Co., Ltd. Rounding in pairwise average candidate calculations
FI3879835T3 (fi) * 2018-12-19 2023-09-01 Lg Electronics Inc Sekundääriseen muunnokseen perustuva videonkoodausmenetelmä sekä sitä varten tarkoitettu laite
JP7275286B2 (ja) 2019-01-10 2023-05-17 北京字節跳動網絡技術有限公司 Lut更新の起動
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
WO2020147773A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Inserting order of motion candidates in lut
WO2020181474A1 (zh) * 2019-03-11 2020-09-17 Oppo广东移动通信有限公司 预测值的确定方法、编码器以及计算机存储介质
WO2020192611A1 (en) 2019-03-22 2020-10-01 Beijing Bytedance Network Technology Co., Ltd. Interaction between merge list construction and other tools
CN116389765B (zh) * 2019-04-25 2024-01-30 北京达佳互联信息技术有限公司 对视频数据编码的利用光流的预测细化方法、设备和介质
TWI781416B (zh) * 2019-06-14 2022-10-21 弗勞恩霍夫爾協會 具有基於尺度之改良變換之編碼器、解碼器、方法及電腦程式
JP7471399B2 (ja) 2019-09-27 2024-04-19 オッポ広東移動通信有限公司 予測値の確定方法、復号器及びコンピュータ記憶媒体
EP3958566A1 (en) 2020-08-17 2022-02-23 Axis AB Wearable camera and a method for encoding video captured by the wearable camera
CN112468815B (zh) * 2021-01-28 2021-06-15 浙江智慧视频安防创新中心有限公司 视频编解码的方法、装置、电子设备及存储介质
EP4371301A1 (en) * 2021-07-15 2024-05-22 Google LLC Warped motion compensation with explicitly signaled extended rotations
EP4346200A1 (en) * 2022-09-27 2024-04-03 Beijing Xiaomi Mobile Software Co., Ltd. Encoding/decoding video picture data
JP2024057980A (ja) * 2022-10-13 2024-04-25 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3277111B2 (ja) * 1995-10-18 2002-04-22 シャープ株式会社 動画像符号化装置および動画像復号化装置
TW257924B (en) * 1995-03-18 1995-09-21 Daewoo Electronics Co Ltd Method and apparatus for encoding a video signal using feature point based motion estimation
EP1094669B1 (en) * 1999-10-19 2008-06-04 Thomson Licensing Method of motion estimation for a digital input video signal
KR100703283B1 (ko) 2004-03-15 2007-04-03 삼성전자주식회사 회전 매칭을 통해 움직임을 예측하는 영상 부호화 장치 및방법
US20070268964A1 (en) * 2006-05-22 2007-11-22 Microsoft Corporation Unit co-location-based motion estimation
JP2008217526A (ja) * 2007-03-06 2008-09-18 Canon Inc 画像処理装置、画像処理プログラム及び画像処理方法
GB0707192D0 (en) * 2007-04-13 2007-05-23 Mitsubishi Electric Inf Tech Generalized statistical template matching
KR101493325B1 (ko) * 2008-09-03 2015-02-16 삼성전자주식회사 정밀 움직임 예측을 기반으로 한 프레임 보간 장치 및 그 방법
JP2012080151A (ja) * 2009-02-09 2012-04-19 Toshiba Corp 幾何変換動き補償予測を用いる動画像符号化及び動画像復号化の方法と装置
US8873626B2 (en) 2009-07-02 2014-10-28 Qualcomm Incorporated Template matching for video coding
EP2621174A3 (en) 2009-12-08 2014-02-26 Thomson Licensing Methods and apparatus for adaptive template matching prediction for video encoding and decoding
US20110176611A1 (en) 2010-01-15 2011-07-21 Yu-Wen Huang Methods for decoder-side motion vector derivation
CN102804774B (zh) 2010-01-19 2016-08-24 汤姆逊许可证公司 用于视频编解码的降低了复杂度的模板匹配预测方法和装置
CN103039075B (zh) 2010-05-21 2015-11-25 Jvc建伍株式会社 图像编码装置、图像编码方法、以及图像解码装置、图像解码方法
JP5686018B2 (ja) 2010-05-21 2015-03-18 株式会社Jvcケンウッド 画像符号化装置、画像符号化方法および画像符号化プログラム
US20120092329A1 (en) * 2010-10-13 2012-04-19 Qualcomm Incorporated Text-based 3d augmented reality
US20120106638A1 (en) 2010-10-29 2012-05-03 Yeping Su Decoder-Side Motion Derivation with Motion Vector Predictors
EP2656610A4 (en) 2010-12-21 2015-05-20 Intel Corp SYSTEM AND METHOD FOR EXTENDED DMVD PROCESSING
WO2016176592A1 (en) * 2015-04-29 2016-11-03 Arris Enterprises Llc Reference picture selection for inter-prediction in video coding

Also Published As

Publication number Publication date
JP2018509005A (ja) 2018-03-29
US20170238011A1 (en) 2017-08-17
EP3417617A4 (en) 2019-02-27
EP3417617A1 (en) 2018-12-26
WO2017142448A1 (en) 2017-08-24
US10200715B2 (en) 2019-02-05

Similar Documents

Publication Publication Date Title
JP6379186B2 (ja) ビデオピクチャを符号化および復号する方法および装置
TWI714565B (zh) 視訊寫碼中運動向量推導
RU2683165C1 (ru) Внутреннее предсказание блочного копирования с асимметричными разделами и схемами поиска на стороне кодера, диапазоны поиска и подходы к разделению
RU2683495C1 (ru) Нововведения в предсказание блочных векторов и оценку восстановленных значений отсчетов в области перекрытия
JP7171770B2 (ja) 動きベクトル精密化および動き補償のためのメモリアクセスウィンドウおよびパディング
JP6419170B2 (ja) ビデオピクチャを符号化および復号する方法および装置
KR102527169B1 (ko) 모션 벡터 리파인먼트를 위한 제한된 메모리 액세스 윈도우
TW202041002A (zh) 解碼器側運動向量精緻化之限制
US11153595B2 (en) Memory access window and padding for motion vector refinement
US20210092390A1 (en) Methods and apparatuses for prediction refinement with optical flow in reference picture resampling
JP5367097B2 (ja) 動きベクトル予測符号化方法、動きベクトル予測復号方法、動画像符号化装置、動画像復号装置およびそれらのプログラム
WO2011099428A1 (ja) 動きベクトル予測符号化方法、動きベクトル予測復号方法、動画像符号化装置、動画像復号装置およびそれらのプログラム
TW202017385A (zh) 從仿射運動預測的非仿射塊
US20230291932A1 (en) Method and apparatus for intra prediction using block copy based on geometric transform
US11087500B2 (en) Image encoding/decoding method and apparatus
Ates Enhanced low bitrate H. 264 video coding using decoder-side super-resolution and frame interpolation
JP2022066678A (ja) イントラ予測装置、符号化装置、復号装置、及びプログラム
CN116671104A (zh) 利用基于几何变换的块复制的帧内预测的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180730

R150 Certificate of patent or registration of utility model

Ref document number: 6379186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees