TWI719522B - 用於視頻編碼的對稱性雙向預測模式 - Google Patents

用於視頻編碼的對稱性雙向預測模式 Download PDF

Info

Publication number
TWI719522B
TWI719522B TW108123164A TW108123164A TWI719522B TW I719522 B TWI719522 B TW I719522B TW 108123164 A TW108123164 A TW 108123164A TW 108123164 A TW108123164 A TW 108123164A TW I719522 B TWI719522 B TW I719522B
Authority
TW
Taiwan
Prior art keywords
motion vector
video
difference information
patent application
scope
Prior art date
Application number
TW108123164A
Other languages
English (en)
Other versions
TW202017375A (zh
Inventor
莊孝強
張莉
王悅
Original Assignee
大陸商北京字節跳動網絡技術有限公司
美商字節跳動有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京字節跳動網絡技術有限公司, 美商字節跳動有限公司 filed Critical 大陸商北京字節跳動網絡技術有限公司
Publication of TW202017375A publication Critical patent/TW202017375A/zh
Application granted granted Critical
Publication of TWI719522B publication Critical patent/TWI719522B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一種視頻位元流處理方法,包括:響應於視頻位元流中的鏡像模式標誌,基於對稱性規則和第一運動向量差資訊生成第二運動向量差資訊;使用所述第一運動向量差資訊和所述第二運動向量差資訊重建視頻塊,其中,該重建是雙向預測地執行的。

Description

用於視頻編碼的對稱性雙向預測模式
該文件涉及圖像和視頻編碼技術。 [相關申請的交叉引用] 根據適用的專利法和/或根據巴黎公約的規則,本申請及時要求2018年6月30日提交的國際專利申請No. PCT/CN2018/093897的優先權和權益。國際專利申請No.PCT/CN2018/093897的全部公開內容通過引用併入本申請的公開內容的一部分。
數位視訊佔有互聯網和其他數位通信網路上最大的頻寬使用。隨著能夠接收和顯示視頻的連接使用者設備的數量增加,預計用於數位視訊使用的頻寬需求將繼續增長。
所公開的技術可以由視覺媒體解碼器或編碼器實施例使用,其中使用運動向量的對稱性來減少用於信令通知運動資訊的位元,以改善編碼效率。
在一個示例方面,公開了一種視頻位元流處理方法。該方法包括響應於視頻位元流中的鏡像模式標誌,基於對稱性規則和第一運動向量差資訊生成第二運動向量差資訊。該方法還包括使用第一運動向量差資訊和第二運動向量差來重建當前圖片中的視頻塊,其中使用雙向預測執行重建。
在另一示例方面,公開了另一種視頻位元流處理方法。該方法包括對於與視頻塊相關聯的第一參考圖片清單,接收第一組運動向量的運動向量差資訊。該方法還包括使用多假設對稱性規則從第一組運動向量的運動向量差資訊導出與視頻塊相關聯的第二參考圖片清單的第二組運動向量相關聯的運動向量差資訊,其中多假設對稱性規則指定第二運動向量差值為(0,0),並且相應的運動向量預測器被設置為從第一運動向量差資訊導出的鏡像運動向量值,並且使用導出的結果執行視頻塊和視頻塊的位元流表示之間的轉換。
在另一示例方面,公開了另一種視頻位元流處理方法。該方法包括對於視頻塊,接收與第一參考圖片清單相關聯的第一運動向量差資訊。該方法還包括對於視頻塊,接收與第二參考圖片清單相關聯的第二運動向量差資訊,並且使用多假設對稱性規則從第一運動向量差資訊和第二運動向量差資訊導出與第一參考圖片清單相關聯的第三運動向量差資訊和與第二參考圖片清單相關聯的第四運動向量差資訊,其中多假設對稱性規則指定第二運動向量差值為(0,0),並且相應的運動向量預測器被設置為從第一運動向量差值資訊導出的鏡像運動向量值。
在另一示例方面,公開了另一種視頻位元流處理方法。該方法包括接收相對於視頻的參考幀的視頻的未來幀,接收與視頻的未來幀和視頻的過去幀相關的運動向量,應用視頻的未來幀和視頻的過去幀之間的預定關係,並且基於視頻的未來幀、運動向量以及視頻的過去幀和視頻的未來幀之間的預定關係重建視頻的過去幀。
在另一示例方面,上述方法可以由包括處理器的視頻解碼器裝置實施。
在另一示例方面,上述方法可以由視訊轉碼器裝置實施,該視訊轉碼器裝置包括用於在視頻編碼處理期間對編碼視頻進行解碼的處理器。
在又一示例方面,這些方法可以以處理器可執行指令的形式體現並存儲在電腦可讀程式介質上。
在本文件中進一步描述了這些和其他方面。
在本文件中使用章節標題以便於理解,並且不將章節中公開的實施例僅限於該章節。這樣,來自一個章節的實施例可以與來自其他章節的實施例組合。此外,雖然用參考特定視頻轉碼器描述了某些實施例,但是所公開的技術也適用於其他視頻編碼技術。此外,雖然一些實施例詳細描述了視頻編碼步驟,但是應該理解,撤銷編碼的相應解碼步驟將由解碼器實施。此外,術語視頻處理涵蓋視頻編碼或壓縮、視頻解碼或解壓縮以及視頻轉碼,其中視頻像素從一種壓縮格式表示為另一壓縮格式或以不同的壓縮位元速率表示。
本文件提供了可由視頻位元流的解碼器使用的各種技術,以改善解壓縮或解碼的數位視訊的品質。此外,視訊轉碼器還可在編碼過程期間實施這些技術,以便重建用於進一步編碼的解碼的幀。HEVC 中雙向預測的信令通知
在HEVC中,幀間PU級信令通知(inter PU-level signaling)可以分為三種不同的模式。表1和表2示出了HEVC中的用於幀間PU信令通知的相關語法元素。第一模式是跳過模式,其中僅需要信令通知單個Merge索引(merge_idx)。第二模式是Merge模式,其中僅信令通知Merge標誌(merge_flag)和Merge索引(merge_idx)。第三模式是AMVP模式,其中信令通知方向索引(inter_pred_idc)、參考索引(ref_idx_l0/ref_idx_l1),mvp索引(mvp_l0_flag/mvp_l1_flag)和MVD(mvd_coding)。
在所有這三種模式中,雙向預測AMVP模式提供了更加耗費速率的情形,同時它提供了捕獲各種運動模型的自由度,包括加速和其他非線性運動模型。分別信令通知兩個列表的運動向量以提供這種自由度。HEVC 中的AMVP推導 AMVP 模式下的運動向量預測
運動向量預測利用與相鄰PU的運動向量的時空相關性,其用於運動參數的顯式傳輸。它通過首先校驗在時間上左側、上部相鄰PU位置的可用性,移除冗餘候選並添加零向量以使候選列表為恒定長度來構建運動向量候選列表。然後,編碼器可以從候選清單中選擇最佳預測器,並發送指示所選候選的相應索引。類似地,利用Merge索引信令通知,使用截斷一元碼(truncated unary)來編碼最佳運動向量候選的索引。在這種情況下要編碼的最大值是2。在以下章節中,提供了關於運動向量預測候選的推導過程的細節。表1.HEVC中的幀間PU語法元素
Figure 02_image001
表2.HEVC中MVD編碼的語法元素
Figure 02_image003
運動向量預測候選
圖1歸納了運動向量預測候選的推導過程。
在運動向量預測中,考慮兩種類型的運動向量候選:空間運動向量候選和時間運動向量候選。對於空間運動向量候選推導,最終基於位於五個不同位置的每個PU的運動向量導出兩個運動向量候選,如圖2所示。
對於時間運動向量候選推導,從兩個候選中選擇一個運動向量候選,這兩個候選基於兩個不同的共位(co-located)位置導出。在做出時空候選第一列表之後,移除列表中的重複運動向量候選。如果潛在候選的數量大於兩個,則從列表中移除其相關參考圖片清單內的參考圖片索引大於1的運動向量候選。如果時空運動向量候選的數量小於兩個,則將附加的零運動向量候選添加到列表中。空間運動向量候選
在空間運動向量候選的推導中,在五個潛在候選中考慮至多兩個候選,該五個候選從位於如圖2所示的位置的PU中導出,那些位置與運動Merge的位置相同。當前PU左側的推導順序被定義為A0、A1、縮放(scaled)A0和縮放A1。當前PU上側的推導順序被定義為B0、B1、B2、縮放B0、縮放B1和縮放B2。因此,對於每一側,存在四種可用作運動向量候選的情況,其中兩種情況不需要使用空間縮放,並且兩種情況使用空間縮放。四種不同的情況歸納如下。 無空間縮放 (1)相同的參考圖片清單,以及相同的參考圖片索引(相同的圖片序號(picture order count,POC)) (2)不同的參考圖片清單,但相同的參考圖片索引(相同的POC) 空間縮放 (3)相同的參考圖片清單,但不同的參考圖片索引(不同的POC) (4)不同的參考圖片清單,以及不同的參考圖片索引(不同的POC)
首先校驗非空間縮放情況,然後校驗空間縮放。當相鄰PU的參考圖片和當前PU的參考圖片之間的POC不同時,考慮空間縮放,而不管參考圖片清單。如果左側候選的所有PU都不可用或者是幀內編碼的,則針對上述運動向量的縮放可以幫助左側和上部MV候選的並行推導。否則,上述運動向量不允許空間縮放。
在空間縮放過程中,以與時間縮放類似的方式縮放相鄰PU的運動向量,如圖3所示。主要差異在於給出了當前PU的參考圖片清單和索引作為輸入;實際縮放過程與時間縮放過程相同。時間運動向量候選
除了參考圖片索引導出之外,用於推導時間Merge候選的所有過程與用於推導空間運動向量候選的過程相同。將參考圖片索引信令通知給解碼器。HEVC 中的Merge模式 Merge 模式的候選
當使用Merge模式預測PU時,從位元流解析指向Merge候選清單中的條目的索引並用於檢索運動資訊。該列表的構建在HEVC標準中規定,並且可以根據以下步驟順序進行歸納: 步驟1:初始候選推導 -步驟1.1:空間候選推導 -步驟1.2:用於空間候選的冗餘校驗 -步驟1.3:時間候選推導 步驟2:附加候選*** -步驟2.1:雙向預測候選創建 -步驟2.2:零運動候選***
這些步驟也在圖4中示意性地描繪。對於空間Merge候選推導,在位於五個不同位置的候選中選擇至多四個Merge候選。對於時間Merge候選推導,在兩個候選中選擇至多一個Merge候選。由於在解碼器處假設每個PU的候選的數量為常數,因此當候選的數量未達到在條帶頭中被信令通知的最大Merge候選數量(MaxNumMergeCand)時,生成附加的候選。由於候選的數量是恒定的,因此使用截斷一元二值化(truncated unary binarization,TU)來編碼最佳Merge候選的索引。如果CU的大小等於8,則當前CU的所有PU共用單個Merge候選列表,其與2N×2N預測單元的Merge候選清單相同。
在以下子章節中,描述了上述每個步驟的詳細操作。空間候選
在空間Merge候選的推到中,從位於圖2所示位置的候選中選擇至多四個Merge候選。推導的順序是A1、B1、B0、A0和B2。僅當位置A1、B1、B0、A0的任何PU不可用(例如,因為它屬於另一條帶(slice)或片(tile))或被幀內編碼時,才考慮位置B2。在位置A1處的候選被添加之後,剩餘候選的添加經受冗餘校驗,該冗餘校驗確保具有相同運動資訊的候選從清單中排除,從而改善編碼效率。為了降低計算複雜性,在提到的冗餘校驗中並沒有考慮所有可能的候選對。取而代之的是,僅考慮與圖5中箭頭連結的對,並且僅當用於冗餘校驗的對應候選不具有相同的運動資訊時,候選才被添加到列表中。重複運動資訊的另一來源是與不同於2Nx2N的分割相關聯的“第二PU”。作為示例,圖6分別描述了N×2N和2N×N情況下的第二PU。當當前PU被分割為N×2N時,位置A1處的候選不被考慮用於列表構建。事實上,通過添加該候選將導致兩個預測單元具有相同的運動資訊,這對於在編碼單元中僅具有一個預測單元是冗餘的。類似地,當當前PU被分割為2N×N時,不考慮位置B1。時間候選
在此步驟中,僅有一個候選添加到列表中。具體地,在該時間Merge候選的推導中,基於屬於與給定參考圖片清單內的當前圖片具有最小POC差的圖片的共位元的PU來推導縮放運動向量。在條帶頭中明確地用信令通知要用於推導共位元的PU的參考圖片清單。如圖7中的虛線所示,獲得時間Merge候選的縮放運動向量,該運動向量使用POC距離、tb和td從共位的PU的運動向量縮放,其中tb被定義為當前圖片的參考圖片和當前圖片之間的POC差,並且td被定義為共位元的圖片的參考圖片和共位元的圖片之間的POC差。時間Merge候選的參考圖片索引被設置為等於零。HEVC規範中描述了縮放過程的實際實現。對於B條帶,獲得並組合兩個運動向量,該兩個運動向量中一個用於參考圖片清單0(list0),並且另一個用於參考圖片清單1(list1),以形成雙向預測Merge候選。
在屬於參考幀的共位的PU(Y)中,在候選C0和C1之間選擇時間候選的位置,如圖8所示。如果位置C0處的PU不可用,是被幀內編碼的,或者在當前編碼樹單元(coding tree unit,CTU)之外,則使用位置C1。否則,位置C0用於推導時間Merge候選。附加候選***
除了時空Merge候選之外,還有兩種其他類型的Merge候選:組合的雙向預測Merge候選和零Merge候選。通過利用時空Merge候選來生成組合的雙向預測Merge候選。組合的雙向預測Merge候選僅用於B條帶。通過將初始候選的第一參考圖片清單運動參數與另一個的第二參考圖片清單運動參數組合來生成組合的雙向預測候選。如果這兩個元組提供不同的運動假設,它們將形成新的雙向預測候選。作為示例,圖9描繪了當原始列表中的兩個候選(在左側)的情況,其具有mvL0和refIdxL0或mvL1和refIdxL1,用於創建添加到最終清單的組合雙向預測Merge候選(在右側)。關於被認為生成這些附加Merge候選的組合有許多規則。
***零運動候選以填充Merge候選列表中的剩餘條目,從而達到MaxNumMergeCand容量。這些候選具有零空間位移和參考圖片索引,該參考圖片索引從零開始並且每次向列表中添加新的零運動候選時增加。由這些候選使用的參考幀的數量分別是單向和雙向預測的一個和兩個。最後,不對這些候選執行冗餘校驗。模式匹配的運動向量
模式匹配運動向量推導(Pattern matched motion vector derivation,PMMVD)模式是基於畫面播放速率上轉換(Frame-Rate Up Conversion,FRUC)技術的特殊Merge模式。利用該模式,塊的運動資訊不是被信令通知的,而是在解碼器側導出的。
當CU的Merge標誌為真時,為該CU信令通知FRUC標誌。當FRUC標誌為假時,信令通知Merge索引並使用常規Merge模式。當FRUC標誌為真時,信令通知附加的FRUC模式標誌以指示將使用哪種方法(雙邊匹配或範本匹配)來導出該塊的運動資訊。
在編碼器側,是否對CU使用FRUC Merge模式的決定是基於研發成本(cost)選擇,就像對正常Merge候選所做的那樣。也就是說,通過使用RD成本選擇來校驗CU的兩種匹配模式(雙邊匹配和範本匹配)。導致最小成本的那個與其他CU模式進一步比較。如果FRUC匹配模式是最有效的模式,則對於CU將FRUC標誌設置為真,並且使用相關匹配模式。
FRUC Merge模式中的運動推導過程有兩個步驟。首先執行CU級運動搜索,然後進行子CU級運動細化。在CU級,基於雙邊匹配或範本匹配為整個CU導出初始運動向量。首先,生成MV候選列表,並且選擇導致最小匹配成本的候選作為進一步CU級細化的起始點。然後,執行基於起始點周圍的雙邊匹配或範本匹配的局部搜索,並且將導致最小匹配成本的MV作為整個CU的MV。隨後,在子CU級進一步細化運動資訊,以導出的CU運動向量作為起始點。
例如,針對W×H CU運動資訊導出執行以下導出處理。在第一階段,導出整個W×H CU的MV。在第二階段,CU進一步劃分成M×M個子CU。如(1)中計算M的值,D是預定義的劃分深度,其在JEM中默認設置為3。然後導出每個子CU的MV。
Figure AA1
如圖10所示,雙邊匹配用於通過在兩個不同的參考圖片中沿著當前CU的運動軌跡找到兩個塊之間的最接近匹配來導出當前CU的運動資訊。在連續運動軌跡的假設下,指向兩個參考塊的運動向量MV0和MV1應當與當前圖片和兩個參考圖片之間的時間距離(即TD0和TD1)成比例。作為特殊情況,當當前圖片在時間上在兩個參考圖片之間並且從當前圖片到兩個參考圖片的時間距離相同時,雙邊匹配變為基於鏡像的雙向MV。
如圖11所示,範本匹配用於通過找到當前圖片中的範本(當前CU的頂部和/或左側相鄰塊)和參考圖片中的塊(與範本大小相同)之間的最接近匹配來導出當前CU的運動資訊。除FRUC Merge模式外,範本匹配也適用於AMVP模式。在JEM中,有兩個AMVP候選。使用範本匹配方法,推導新的候選。如果通過範本匹配的新導出的候選與第一現有AMVP候選不同,則將其***AMVP候選列表的最開始,然後將列表大小設置為2(意味著移除第二現有AMVP候選)。當應用于AMVP模式時,僅應用CU級搜索。CU 級MV候選集
在CU級設置的MV候選包括: - 如果當前CU處於AMVP模式,則為原始AMVP候選 - 所有Merge候選, - 插值MV場中的幾個MV。 - 頂部和左側相鄰運動向量
當使用雙邊匹配時,Merge候選的每個有效MV用作輸入以在雙邊匹配的假設下生成MV對。例如,Merge候選的一個有效MV是位於參考列表a處(MVa,refa)。然後,在另一參考列表B中找到其配對的雙邊MV的參考圖片refb,使得refa和refb在時間上位於當前圖片的不同側。如果參考列表B中沒有這樣的refb,則refb被確定為不同於refa的參考,並且其到當前圖片的時間距離是清單B中最小的。在refb被確定之後,通過基於當前圖片和refa、refb之間的時間距離縮放MVa來導出MVb。
來自插值MV場的四個MV也被添加到CU級候選列表。更具體地,添加當前CU的位置(0,0),(W/2,0),(0,H/2)和(W/2,H/2)處的插值MV。
當FRUC應用于AMVP模式時,原始AMVP候選也被添加到CU級MV候選集。
在CU級,AMVP Cu至多15個MV並且Merge Cu至多13個MV被添加到候選列表。子CU級MV候選集
在CU級設置的MV候選集包括: - 從CU級搜索確定的MV, - 頂部、左側、左上角和右上角的相鄰MV, - 來自參考圖片的共位元的MV的縮放版本, - 至多4個ATMVP候選, - 至多4個STMVP候選
來自參考圖片的縮放MV推導如下。遍歷兩個清單中的所有參考圖片。參考圖片中的子CU的共位位置處的MV被縮放到起始CU級MV的參考。
ATMVP和STMVP候選限於前四個。
在子CU級,至多17個MV被添加到候選列表中。插值MV場的生成
在對幀進行編碼之前,基於單邊ME為整個圖片生成插值運動場。然後,運動場可以稍後用作CU級或子CU級MV候選。
首先,兩個參考清單中的每個參考圖片的運動場以4×4塊級遍歷。對於每個4×4塊,如果與塊相關聯的運動通過當前圖片中的4×4塊(如圖12所示)並且塊未被分配任何插值運動,則參考塊的運動是根據時間距離TD0和TD1(與HEVC中的TMVP的MV縮放的方式相同的方式)縮放到當前圖片,並且將縮放的運動分配給當前幀中的塊。如果沒有將縮放MV分配給4×4塊,則在插值運動場中將塊的運動標記為不可用。插值和匹配成本
當運動向量指向分數樣本位置時,需要運動補償的插值。為了降低複雜性,雙線性插值代替常規8抽頭HEVC插值用於雙邊匹配和範本匹配。
匹配成本的計算在不同步驟稍有不同。當在CU級從候選集中選擇候選時,匹配成本是雙邊匹配或範本匹配的絕對差和(sum of absolute difference,SAD)。在確定起始MV之後,子CU級搜索的雙邊匹配的匹配成本計算如下:
Figure 02_image008
(等式2)
其中,
Figure 02_image010
是根據經驗設置為4的加權因數,
Figure 02_image012
Figure 02_image014
分別表示當前MV和起始MV。SAD仍然用作子CU級搜索的範本匹配的匹配成本。
在FRUC模式中,僅通過使用亮度樣本來導出MV。導出的運動將用於MC幀間預測的亮度和色度兩者。在決定MV之後,使用用於亮度的8抽頭插值濾波器和用於色度的4抽頭插值濾波器來執行最終MC。MV 細化
MV細化是基於模式的MV搜索,其中具有雙邊匹配成本或範本匹配成本的標準。在JEM中,支援兩種搜索模式-無限制的中心偏置菱形搜索(unrestricted center-biased diamond search,UCBDS)和分別在CU級和子CU級的MV細化的自我調整交叉搜索。對於CU和子CU級MV細化兩者,以四分之一亮度樣本MV準確度直接搜索MV,並且隨後是八分之一亮度樣本MV細化。用於CU和子CU步驟的MV細化的搜索範圍被設置為等於8亮度樣本。在範本匹配FRUC Merge模式中選擇預測方向
在雙邊匹配Merge模式中,始終應用雙向預測,因為基於沿兩個不同參考圖片中的當前CU的運動軌跡的兩個塊之間的最接近匹配來導出CU的運動資訊。範本匹配Merge模式沒有這樣的限制。在範本匹配Merge模式中,編碼器可以從清單0的單向預測、列表1的單向預測或CU的雙向預測中進行選擇。選擇是基於範本匹配成本,如下所示: 如果costBi >= factor * min (cost 0,cost1 ) 使用雙向預測; 否則,如果cost 0 >=cost1 使用來自列表0的單向預測; 否則, 使用來自列表1的單向預測;
其中cost0是清單0範本匹配的SAD,cost1是清單1範本匹配的SAD,並且costBi是雙向預測範本匹配的SAD。因數(factor )的值等於1.25,這意味著選擇過程偏向於雙向預測。
幀間預測方向選擇僅應用於CU級範本匹配處理。解碼器側運動向量細化
在雙向預測操作中,對於一個塊區域的預測,分別使用列表0的運動向量(motion vector,MV)和列表1的MV形成的兩個預測塊被組合以形成單個預測信號。在解碼器側運動向量細化(decoder-side motion vector refinement,DMVR)方法中,通過雙邊範本匹配過程進一步細化雙向預測的兩個運動向量。雙邊範本匹配在解碼器中應用,以在雙邊範本和參考圖片中的重建樣本之間執行基於失真的搜索,以獲得細化的MV而不傳輸附加的運動資訊。
在DMVR中,分別從列表0的初始MV0和列表1的MV1生成雙邊範本作為兩個預測塊的加權組合(即平均),如圖10所示。範本匹配操作包括計算生成的範本與參考圖片中的樣本區域(初始預測塊周圍)之間的成本測量。對於兩個參考圖片中的每一個,產生最小範本成本的MV被視為該列表的更新MV以替換原始範本。在JEM中,為每個列表搜索九個MV候選。九個MV候選包括原始MV和8個周圍MV,其中一個亮度樣本在水準或垂直方向或兩者上偏移原始MV。最後,兩個新的MV,即圖10中所示的MV0′和MV1′,用於生成最終的雙向預測結果。絕對差值和(sum of absolute differences,SAD)用作成本測量。
DMVR被應用於雙向預測的Merge模式,其中一個MV來自過去參考圖片,另一MV來自未來參考圖片,而不傳輸附加的語法元素。在JEM中,當針對CU啟用LIC、仿射運動、FRUC或子CU Merge候選時,不應用DMVR。自我調整運動向量差分解析度
在HEVC中,當條帶頭中的use_integer_mv_flag等於0時,以四分之一亮度樣本為單位,信令通知運動向量差(motion vector difference,MVD)(在PU的運動向量和預測運動向量之間)。在JEM中,引入了局部自我調整運動向量解析度(locally adaptive motion vector resolution,LAMVR)。在JEM中,MVD可以以四分之一亮度樣本、整數亮度樣本或四亮度樣本為單位進行編碼。在編碼單元(coding unit,CU)級控制MVD解析度,並且對於具有至少一個非零MVD分量的每個CU,有條件地信令通知MVD解析度標誌。
對於具有至少一個非零MVD分量的CU,信令通知第一標誌以指示在CU中是否使用四分之一亮度樣本MV精度。當第一標誌(等於1)指示未使用四分之一亮度樣本MV精度時,信令通知另一標誌以指示是使用整數亮度樣本MV精度還是四亮度樣本MV精度。
當CU的第一MVD解析度標誌為零或未針對CU編碼(意味著CU中的所有MVD均為零)時,將四分之一亮度樣本MV解析度用於CU。當CU使用整數亮度樣本MV精度或四亮度樣本MV精度時,CU的AMVP候選列表中的MVP被舍入到相應的精度。
在編碼器中,CU級RD校驗用於確定將哪個MVD解析度用於CU。也就是說,對於每個MVD解析度,執行CU級RD校驗三次。為了加快編碼器速度,在JEM中應用以下編碼方案。
在具有正常四分之一亮度樣本MVD解析度的CU的RD校驗期間,存儲當前CU的運動資訊(整數亮度樣本準確度)。存儲的運動資訊(在舍入之後)被用作在RD校驗期間針對具有整數亮度樣本和4亮度樣本MVD解析度的相同CU的進一步小範圍運動向量細化的起始點,使得耗時的運動估計過程不重複三次。
有條件地調用具有4亮度樣本MVD解析度的CU的RD校驗。對於CU,當RD成本整數亮度樣本MVD解析度遠大於四分之一亮度樣本MVD解析度時,跳過針對CU的4亮度樣本MVD解析度的RD校驗。基於子CU的運動向量預測
在JEM中,每個CU可以具有針對每個預測方向的至多一組運動參數。通過將大CU劃分成子CU並且導出大CU的所有子CU的運動資訊,在編碼器中考慮兩種子CU級運動向量預測方法。替代時間運動向量預測(ATMVP)方法允許每個CU從比共位元的參考圖片中的當前CU小的多個塊中獲取多組運動資訊。在空間-時間運動向量預測(spatial-temporal motion vector prediction,STMVP)方法中,通過使用時間運動向量預測器和空間相鄰運動向量來遞迴地導出子CU的運動向量。
為了保留用於子CU運動預測的更準確的運動場,當前禁用參考幀的運動壓縮。替代時間運動向量預測
在替代時間運動向量預測(ATMVP)方法中,通過從小於當前CU的塊中提取多組運動資訊(包括運動向量和參考索引)來修改時間運動向量預測(temporal motion vector prediction,TMVP)。如圖11所示,子CU是方形N×N塊(預設情況下N設置為4)。
圖13示出了雙邊範本匹配過程的示例。在第一步驟中,從預測塊生成雙邊範本。在第二步驟中,使用雙邊範本匹配來找到最匹配的塊。
ATMVP以兩個步驟預測CU內的子CU的運動向量。第一步是利用所謂的時間向量識別參考圖片中的對應塊。參考圖片稱為運動源圖片。第二步是將當前CU劃分成子CU,並從對應於每個子CU的塊中獲得運動向量以及每個子CU的參考索引,如圖14所示。
在第一步驟中,參考圖片和對應塊由當前CU的空間相鄰塊的運動資訊確定。為了避免相鄰塊的重複掃描過程,使用當前CU的Merge候選列表中的第一Merge候選。第一可用運動向量及其相關參考索引被設置為時間向量和運動源圖片的索引。這樣,在ATMVP中,與TMVP相比,可以更準確地識別相應的塊,其中相應的塊(有時稱為共位的塊)總是相對於當前CU位於右下或中心位置。在一個示例中,如果第一Merge候選來自左相鄰塊(即,圖15中的A1 ),則利用相關聯的MV和參考圖片來識別源塊和源圖片。
在第二步驟中,通過向當前CU的座標添加時間向量,通過運動源圖片中的時間向量來識別子CU的對應塊。對於每個子CU,其對應塊的運動資訊(覆蓋中心樣本的最小運動網格)用於導出子CU的運動資訊。在識別出對應的N×N塊的運動資訊之後,以與HEVC的TMVP相同的方式將該運動資訊轉換為當前子CU的運動向量和參考索引,其中應用運動縮放和其他過程。例如,解碼器校驗是否滿足低延遲條件(即,當前圖片的所有參考圖片的POC小於當前圖片的POC)並且可能使用運動向量MVx(對應於參考圖片清單X的運動向量)來預測每個子CU的運動向量MVy(其中X等於0或1並且Y等於1-X)。空間-時間運動向量預測
在該方法中,按照光柵掃描順序,遞迴地導出子CU的運動向量。圖16說明了這個構思。讓我們考慮一個8×8的CU,它包含四個4×4子CU A、B、C和D。當前幀中相鄰的4×4塊被標記為a、b、c和d。
子CU A的運動推導通過識別其兩個空間相鄰開始。第一相鄰是子CU A上方的N×N塊(塊c)。如果該塊c不可用或者是幀內編碼的,則校驗子CU A上方的其他N×N個塊(從塊c開始,從左到右)。第二相鄰是子CU A左側的塊(塊b)。如果塊b不可用或者是幀內編碼的,則校驗子CU A左側的其他塊(從塊b開始,從上到下)。從每個清單的相鄰塊獲得的運動資訊被縮放為給定清單的第一參考幀。接下來,通過遵循與HEVC中指定的TMVP推導相同的過程來導出子塊A的時間運動向量預測器(TMVP)。獲取位置D處的共位元塊的運動資訊並相應地縮放。最後,在檢索和縮放運動資訊之後,對於每個參考列表,所有可用的運動向量(至多3個)被單獨平均。平均的運動向量被指定為當前子CU的運動向量。子CU運動預測模式信令通知
子CU模式被啟用作為附加的Merge候選,並且不需要附加的語法元素來信令通知模式。添加兩個附加的Merge候選每個CU的Merge候選清單,以表示ATMVP模式和STMVP模式。如果序列參數集指示啟用了ATMVP和STMVP,則至多使用七個Merge候選。附加Merge候選的編碼邏輯與HM中的Merge候選的相同,這意味著,對於P或B條帶中的每個CU,兩個附加Merge候選需要附加兩個RD校驗。
在JEM中,所有Merge索引的bin都由CABAC進行上下文編碼。而在HEVC中,僅第一個bin是上下文編碼的,而剩餘的bin是上下文旁路編碼的(context by-pass coded)。實施例解決的問題的示例
雖然MVD提供了很大的靈活性來適應視訊訊號中的各種運動,但它構成了位元流的很大一部分。特別是在雙向預測期間,需要信令通知L0的MVD和L1的MVD,並且它們引入大的開銷,尤其是對於低速率視覺通信。可以利用關於運動對稱性的一些屬性來節省在運動資訊的編碼上花費的速率。
當前的AMVP模式(包括MVP索引和參考索引兩者)對於L0和L1兩者分別進行信令通知,而當運動遵循對稱性模型時,它們可以更有效地表示。實施例示例
1.     在雙向預測期間,可以利用運動向量的對稱性的屬性來生成用於AMVP模式的基礎MV集。具體地,僅針對單個方向(列表),信令通知MVD,並且使用鏡像條件來設置另一方向的MV。替代地,此外,可以進一步細化MV。這種模式稱為對稱雙向預測模式(sym-bi-mode)。本文,雙向預測是指通過按顯示順序使用來自過去的一個參考幀和來自未來的另一參考幀進行預測。在一些示例實施例中,通用視頻編碼(versatile video coding,VVC)(例如,JVET-N1001-v5和其他版本和標準)包括對稱性運動向量差(symmetric motion vector difference,SMVD)模式,其可以跳過L1 MVD的信令通知。被跳過的L1 MVD可以被設置為L0 MVD的鏡像而無需縮放。 a.          在一個示例中,當發送L(1-N ) (N=0 或1 )MVD時,不發送LN的MVD值(即,繼承為(0,0)),並且MVP被設置為來自L(1-N ) MV的鏡像MV。之後,可以將運動細化應用於LN 運動向量。 (i)   在一個示例中,可以應用DMVR細化過程。替代地,可以應用FRUC細化過程來細化LN 運動向量。 (ii) 在一個示例中,細化的搜索範圍可以通過SPS(Sequence Parameter Set,序列參數集)、PPS(Picture Parameter Set,圖片參數集)、VPS(Video Parameter set,視頻參數集)或條帶頭來預定義或信令通知。 (iii)          在一個示例中,運動細化可以應用於特定網格。例如,具有網格距離d 的均勻採樣網格可用于定義搜索點。網格距離d 可以被預定義,或者經由SPS、PPS、VPS或條帶頭用信令通知。採樣網格的使用可以被認為是子採樣的搜索區域,因此具有減少搜索所需的記憶體頻寬的益處。 (iv)           在一個示例中,鏡像模式的信令通知可以在CU級、CTU級、區域級(覆蓋多個CU/CTU)或條帶級中進行。當它在CU級進行時,當它是sym-bi-mode時,需要用信令通知一位元(one-bit)標誌。也就是說,當該標誌被信令通知為1時,可以跳過相關聯的LN MVD以及其MVP索引。當在CTU級、區域級或條帶級完成時,所有sym-bi-mode都不會信令通知LN MVD值及其MVP索引。在一些示例實施例中,SMVD標誌的信令通知發生在CU級。 b.          在一個示例中,在條帶頭/圖片參數集/序列參數集中存在一位元標誌,用於信令通知是否應該調用細化過程。替代地,也可以在CU/CTU/區域級進行信令通知。 c.          在一個示例中,在雙向預測期間,可以信令通知要跳過哪個MVD列表。信令通知可以在CU級、區域級、CTU級或條帶級發生。當在CU級進行信令通知時,需要在sym-bi-mode中信令通知一位元標誌。當在區域級、CTU級或條帶級用信令通知時,所有屬於雙向預測CU的都將跳過指定列表的MVD的信令通知,並使用鏡像MVP作為其起始點來找到最終運動向量。 d.          在一個示例中,僅需要將鏡像MVP存儲在MV緩衝器中以用於後續塊的運動預測(AMVP,Merge)。細化的運動向量不需要存儲在MV緩衝器中。 e.          在一個示例中,MVP可以隨常規MVP索引放置,並且需要一個附加位元(總共2個)來信令通知三個MVP索引。在一些實施例中,在SMVD模式中,兩個MVP索引都被信令通知為常規AMVP模式。 f.           在一個示例中,添加鏡像MVP候選來代替第二AMVP候選。儘管如此,只需要一位元來信令通知MVP索引。 g.          在一個示例中,當兩個參考幀之間的POC距離相等時,可以應用鏡像MVP模式。在一些實施例中,在SMVD模式中,導出兩個參考作為L0和L1中與當前幀最接近的參考幀。 h.          在一個示例中,由鏡像引入的縮放可以使用源幀和目標幀之間的相對時間距離。例如,如果使用L(1-N )的參考幀和LN 的參考幀,並且決定跳過LN 的MVD信令通知,LN (N = 0 或1 )的初始運動向量可以計算為:MVPN = (τN /τ(1-N ))∙MV(1-N ),其中τ0和τ1分別表示L0的當前幀和參考幀之間的POC距離和L1的當前幀和參考幀之間的POC距離。
2.     可以使用各種匹配方案來完成細化過程。讓來自L0和L1圖片的補丁(patch)分別為P0和P1。補丁被定義為由MV的插值過程生成的預測樣本。 a.  P0和P1之間的相似性用作選擇細化的MV的標準。在一個示例中,細化找到MVN (N=0 或1) ,其最小化了P0和P1之間的絕對差之和(SAD)。 b.  由P0和P1生成臨時補丁,並且可以將標準定義為找到預測補丁和臨時補丁之間具有最高相關性的MV。例如,可以創建單獨的補丁P’= (P0+P1)/2並用於找到MVN (N=0 或1) ,其最小化了P'和PN 之間的SAD。更一般地,P’可以通過以下公式生成: P’=ω∙P0+(1-ω)∙P1,其中ω是0和1之間的加權因數。 c.  在一個示例中,基於範本的匹配方案可用于定義細化過程。頂部範本、左側範本、或頂部和左側範本兩者同時可用於查找MVN (N=0 或1) 。找到MVN (N=0 或1) 的過程類似於上述兩個示例中描述的過程。 d.  在一個示例中,取決於搜索點到初始鏡像MVP位置的距離,針對搜索點中的一些可以跳過插值過程。當搜索那些到MVPN (N=0 或1) 的距離超過閾值T 的點時,不涉及插值過程。只有整數像素參考樣本被用作補丁來導出運動向量。T 可以預先定義,也可以經由SPS、PPS、VPS或條帶頭信令通知。 e.  在一個示例中,用於找到MVN 的成本度量包括由搜索點引入到鏡像MVP的估計速率:C = SAD + λ∙R,其中λ是一個加權因數,用於加權細化過程中估計速率的重要性。λ的值可以預定義,通過SPS、PPS、VPS或條帶頭用信令通知。注意,下面定義的MVDN、MVN和MVPN是二維向量。 i.  在一個示例中,R = ||MVDN ||,其中MVDN = MVN –MVPN 。這裡,函數||∙||代表L1規範。 ii.  在一個示例中,R = round(log2 (||MVDN ||)),其中函數round指示輸入引數(argument)對最接近的整數的舍入函數。 iii.  在一個示例中,R = mvd_coding(MVDN ),其中函數mvd_coding指示輸入MVD值的符合標準的二值化過程。
3.     MVD_L1_ZERO_FLAG是條帶級標誌,其通過移除所有L1 MVD值,對L1 MVD信令通知施加強約束。鏡像MV和細化可以通過以下方式與這種設計結合使用。 f.   在一個示例中,當啟用MVD_L1_ZERO_FLAG時,不用信令通知MVP索引,並且仍然可以應用鏡像MVP約束和細化過程。 g.  在一個示例中,當啟用MVD_L1_ZERO_FLAG時,仍然信令通知MVP索引(例如,如在上述1.e或1.f中)並且不施加鏡像MVP約束。然而,仍然可以應用MV細化過程。 h.  在一個示例中,當啟用MVD_L1_ZERO_FLAG時,將鏡像MVP添加到MVP候選列表,隨後是MV細化過程。
4.     當涉及LN (N = 0 或1 )的參考索引和MVP索引的信令通知時,可以創建聯合MVP列表以支援鏡像MVD模式。也就是說,MVP列表是針對L0和L1(給定的一對特定參考索引)聯合導出的,並且僅需要信令通知單個索引。 i.   在一個示例中,可以跳過refIdxN 的信令通知,並且僅選擇最接近L(1-N )參考幀的鏡像位置的參考幀,作為其用於MVP縮放的參考幀。在一些實施例中,在SMVD模式中,跳過兩個參考索引,因為它們在兩個列表中被選擇為與當前幀最接近的參考幀。 j.   在一個示例中,在推導過程期間,不能創建Bi預測器的MVP候選應被視為無效。 k.  在一個例子中,除了當縮放發生時,導致運動向量位於解碼圖片緩衝器(Decoded Picture Buffer,DPB)中的L0和L1的參考幀上的候選對被認為是有效候選之外,推導可以通過遵循針對L(1-N )的MVP推導的現有過程來完成。 l.   可以表示鏡像MVD模式,包括: 如果( sym_mvd_flag[ x0 ][ y0 ] ) { MvdL1[ x0 ][ y0 ][ 0 ] = −MvdL0[ x0 ][ y0 ][ 0 ] MvdL1[ x0 ][ y0 ][ 1 ] = −MvdL0[ x0 ][ y0 ][ 1 ] }否則
5.     所提出的方法也可以應用於多假設模式。 m.           在這種情況下,當針對每個參考圖片清單存在兩組MV資訊時,可以針對一個參考圖片清單信令通知MV資訊。然而,可以導出另一參考圖片清單的MV資訊集的MVD。對於一個參考圖片清單的每組MV資訊,可以以與sym-bi-mode相同的方式對其進行處理。 n.  替代地,當存在用於每個參考圖片清單的兩組MV資訊時,可以信令通知兩個參考圖片清單的一組MV資訊。然而可以使用sym-bi-mode在運行中導出兩個參考圖片清單的其他兩組MV資訊。
許多視頻編碼標準基於混合視頻編碼結構,其中利用時間預測加轉換編碼。圖17中描繪了典型HEVC編碼器框架的示例。
圖18是視頻處理裝置的框圖1800。裝置1800可以用於實施本文描述的一個或多個方法。裝置1800可以體現在智慧手機、平板電腦、電腦、物聯網(Internet of Things,IoT)接收器等中。裝置1800可以包括一個或多個處理器1802、一個或多個記憶體1804和視頻處理硬體1806。(多個)處理器1802可以被配置為實施本文件中描述的一種或多種方法。記憶體(多個記憶體)1804可以用於存儲用於實施本文描述的方法和技術的資料和代碼。視頻處理硬體1806可用於在硬體電路中實施本文件中描述的一些技術。
圖19是視頻位元流處理的示例方法1900的流程圖。方法1900包括:響應於視頻位元流中的鏡像模式標誌,基於對稱性規則和第一運動向量差資訊生成(1902)第二運動向量差資訊;使用第一運動向量差和第二運動向量差資訊重建(1904)視頻塊,其中,重建是雙向預測地執行的。
圖20是視頻位元流處理的示例方法2000的流程圖。方法2000包括:對於與視頻塊相關聯的第一參考圖片清單,接收(2002)第一組運動向量的運動向量差資訊;以及使用多假設對稱性規則,從第一組運動向量的運動向量差資訊導出(2004)與第二參考圖片清單的第二組運動向量相關聯的運動向量差資訊,該第二參考圖片清單與視頻塊相關聯。該資訊可以使用接收的第一組運動向量的運動向量差資訊來生成。
在一些實施例中,視頻位元流處理的方法可以包括方法2000的變型,其中,在多假設情況下,部分運動向量差資訊以交織方式被信令通知。這種方法包括:對於視頻塊,接收與第一參考圖片清單相關聯的第一運動向量差資訊,對於該視頻塊,接收與第二參考圖片清單相關聯的第二運動向量差資訊;使用多假設對稱性規則從第一運動向量差資訊和第二運動向量差資訊導出與第一參考圖片清單相關聯的第三運動向量差資訊和與第二參考圖片清單相關聯的第四運動向量差資訊。
關於方法1900和2000,位元流處理可以包括以壓縮形式生成表示視頻的位元流。替代地,位元流處理可以包括使用位元流從其壓縮形式表示重建視頻。
關於方法1900和2000,在一些實施例中,對稱性規則和多假設對稱性規則可以相同或不同。特別地,僅當使用多假設運動預測對視頻塊(或圖片)進行編碼時,才可以使用多假設對稱性規則。
關於方法1900和2000,對稱性規則可以指定第二運動向量預測差值將是(0,0),並且相應的運動向量預測器被設置為鏡像運動向量,其值從第一運動向量差值資訊導出。此外,可以進一步對鏡像運動向量值執行運動向量細化。如以上示例中所述,可以基於CU/CTU/區域級的位元流中的指示來選擇性地使用鏡像模式。類似地,還可以通過信令通知細化標誌,來控制運動向量細化被使用(或不被使用)。可以在條帶頭或圖片參數集、或序列參數集或區域級或編碼單元或編碼樹單元級使用細化標誌。
關於方法1900和2000,使用基於對稱性規則的技術以生成鏡像運動向量可以使得能夠跳過在位元流中發送運動向量差資訊(因為該資訊可以由解碼器生成)。可以經由位元流中的標誌選擇性地控制跳過操作。在一個有利方面,使用上述技術的鏡像MVP計算可以在解碼器側用於改進後續塊的解碼,而不會受到在細化的運動向量被用於後續塊的預測的情形下可能發生的計算依賴性的不利影響。
關於方法1900和2000,在一些實施例中,對稱性規則可以僅用於在兩個參考幀具有相同距離的情況下生成鏡像運動向量。否則,可以基於參考幀的相對時間距離來執行運動向量的縮放。
關於方法1900和2000,在一些實施例中,可以使用基於補丁的技術來計算鏡像運動向量,並且可以包括使用來自參考幀列表0的第一運動向量差來生成預測樣本的第一補丁,使用來自參考幀列表1的第一運動向量差來生成預測樣本的第二補丁,並且將運動向量細化確定為最小化第一補丁和第二補丁之間的誤差函數的值。可以使用各種優化標準(例如,速率失真(rate distortion)、SAD等)來確定細化的運動向量。
應當理解,公開了用於減少壓縮視頻位元流中用於表示運動的位元量的技術。使用所公開的技術,可以僅使用常規技術的運動資訊的一半來信令通知雙向預測,並且可以使用視頻中物件的運動的鏡像對稱性在解碼器處生成另一半運動資訊。對稱性標誌和細化標誌可以用於信令通知該模式的使用(或不使用)以及運動向量的進一步細化。可以使用對稱性規則來計算鏡像運動向量。在對稱性規則中做出的一個假設是物件在當前塊的時間和用於雙向預測的參考塊的時間之間保持其平移運動。例如,使用一個對稱性規則,指向在一個時間方向上從當前塊位移了delx和dely的參考區域的運動向量可以被假設為在另一個方向上改變到delx和dely的縮放版本(縮放也可以包括負縮放,這可能是由於運動向量方向的改變)。縮放可以取決於時間距離和其他考慮因素並且在本文件中描述。
本文件中描述的公開的和其他解決方案、示例、實施例、模組和功能操作可以在數位電子電路中實施,或者在電腦軟體、固件或硬體中實施,包括本文件中公開的結構及其結構等同物,或者它們中的一個或多個的組合。所公開的和其他實施例可以被實施為一個或多個電腦程式產品,即編碼在電腦可讀介質上的電腦程式指令的一個或多個模組,用於由資料處理裝置執行或控制資料處理裝置的操作。電腦可讀介質可以是機器可讀存放裝置、機器可讀存儲基板、記憶體設備、影響機器可讀傳播信號的物質組合、或者它們中的一個或多個的組合。術語“資料處理裝置”涵蓋用於處理資料的所有裝置、設備和機器,包括例如可程式設計處理器、電腦或多個處理器或電腦。除了硬體之外,該裝置還可以包括為所討論的電腦程式創建執行環境的代碼,例如,構成處理器固件的代碼、協定棧、資料庫管理系統、作業系統、或者它們中的一個或多個的組合。傳播信號是人工生成的信號,例如機器生成的電信號、光信號或電磁信號,其被生成以對資訊進行編碼以便傳輸到合適的接收器裝置。
電腦程式(也稱為程式、軟體、軟體應用、腳本或代碼)可以以任何形式的程式設計語言編寫,包括編譯或解釋語言,並且可以以任何形式部署,包括作為獨立(stand-alone)程式或作為模組、元件、子常式或適合在計算環境中使用的其他單元。電腦程式不一定對應於檔案系統中的檔。程式可以存儲在保存其他程式或資料的檔的一部分中(例如,存儲在標記語言文件中的一個或多個腳本),存儲在專用於所討論的程式的單個檔中,或者存儲在多個協調檔(例如,存儲一個或多個模組、副程式或部分代碼的檔)中。可以部署電腦程式以在一個電腦上或在位於一個網站上或分佈在多個網站上並通過通信網路互連的多個電腦上執行。
本文件中描述的過程和邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式設計處理器執行,以通過對輸入資料進行操作並生成輸出來執行功能。過程和邏輯流程也可以由專用邏輯電路執行,並且裝置也可以被實施為專用邏輯電路,例如FPGA(field programmable gate array,現場可程式設計閘陣列)或ASIC(application specific integrated circuit,專用積體電路)。
作為示例,適合於執行電腦程式的處理器包括通用和專用微處理器,以及任何類型的數位電腦的任何一個或多個處理器。通常,處理器將從唯讀記憶體或隨機存取記憶體或兩者接收指令和資料。電腦的基本元件是用於執行指令的處理器和用於存儲指令和資料的一個或多個記憶體設備。通常,電腦還將包括一個或多個用於存儲資料的大型存放區設備,例如磁片、磁光碟或光碟,或者被可操作地耦合以從一個或多個大型存放區設備接收資料或傳送資料或兩者。但是,電腦不需要這樣的設備。適用於存儲電腦程式指令和資料的電腦可讀介質包括所有形式的非易失性記憶體、介質和記憶體設備,包括例如半導體記憶體設備,例如EPROM、EEPROM和快閃記憶體設備;磁片,例如內部硬碟或抽取式磁碟;磁光碟;和CD ROM和DVD-ROM磁片。處理器和記憶體可以由專用邏輯電路補充或併入專用邏輯電路中。
雖然本專利文件包含許多細節,但這些細節不應被解釋為對任何發明或可要求保護的範圍的限制,而是作為特定于特定發明的特定實施例的特徵的描述。本專利文件中在單個實施例的上下文中描述的某些特徵也可以在單個實施例中組合實施。相反,在單個實施例的上下文中描述的各種特徵也可以單獨地或以任何合適的子組合在多個實施例中實施。此外,儘管上面的特徵可以描述為以某些組合起作用並且甚至最初被要求保護,但是在某些情況下,可以從組合中刪除來自所要求保護的組合的一個或多個特徵,並且所要求保護的組合可以指向子組合或子組的變化。
類似地,雖然在附圖中以特定順序描繪了操作,但是這不應該被理解為要求以所示的特定順序或按循序執行這些操作,或者執行所有示出的操作,以實現期望的結果。此外,在本專利文件中描述的實施例中的各種系統元件的分離不應被理解為在所有實施例中都需要這種分離。
僅描述了幾個實施方式和示例,並且可以基於本專利文件中描述和圖示的內容進行其他實施、增強和變化。
1800:視頻處理裝置 1802:處理器 1804:記憶體 1806:視頻處理硬體 1900、2000:方法 1902、1904、2002、2004:步驟 A0、A1、B0、B1、B2、C0、C1:位置 A、B、C、D:子CU a、b、c、d:塊 mvL0、mvL1、refIdxL0、refIdxL1:候選 MV0、MV1、MV0′、MV1′:運動向量 refa、refb:參考圖片 tb、td:位置 TD0、TD1:時間距離
圖1示出了用於Merge候選列表構建的推導過程的示例。 圖2示出了空間Merge候選的示例位置。 圖3是用於空間運動向量候選的運動向量縮放的圖示。 圖4示出了用於運動向量預測候選的示例推導過程。 圖5示出了被考慮用於空間Merge候選的冗餘校驗的候選對的示例。 圖6示出了Nx2N和2NxN分割的第二PU的示例位置。 圖7是用於時間Merge候選的運動向量縮放的示例。 圖8示出了被標記為C0和C1的時間Merge候選的候選位置的示例。 圖9示出了組合的雙向預測Merge候選的示例。 圖10示出了雙邊匹配過程的示例。 圖11示出了範本匹配過程的示例。 圖12示出了畫面播放速率上轉換(frame rate up-conversion,FRUC)中的單邊運動估計(motion estimation,ME)的示例。 圖13示出了雙邊範本匹配過程的示例。 圖14示出了替代時間運動向量預測(alternative temporal motion vector prediction,ATMVP)方法的示例。 圖15示出了識別源塊和源圖片的示例。 圖16是具有四個子塊(A-D)的一個編碼單元(coding unit,CU)及其相鄰子塊(a-d)的示例。 圖17示出了視頻編碼裝置的框圖示例。 圖18是視頻處理裝置的示例的框圖。 圖19是視頻位元流處理方法的示例的流程圖。 圖20是視頻位元流處理方法的另一示例的流程圖。
1900:方法
1902、1904:步驟

Claims (34)

  1. 一種處理視頻位元流的方法,包括:響應於視頻位元流中的鏡像模式標誌,基於對稱性規則和第一運動向量差資訊生成第二運動向量差資訊;和使用所述第一運動向量差資訊和所述第二運動向量差資訊重建當前圖片中的視頻塊,其中使用雙向預測執行所述重建,其中,所述對稱性規則指定不發送所述第二運動向量差資訊,所述第二運動向量差被設置為所述第一運動向量差的鏡像而無需縮放。
  2. 如申請專利範圍第1項所述的方法,進一步包括:將第二運動向量預測設置為所述第一運動向量的鏡像運動向量;以及執行鏡像運動向量值的運動向量細化以生成運動向量細化值。
  3. 如申請專利範圍第1項所述的方法,其中,鏡像模式標誌存在於編碼單元(CU)級、編碼樹單元(CTU)級、覆蓋多個CU/CTU的區域級或條帶級。
  4. 如申請專利範圍第2項所述的方法,其中,基於所述視頻位元流中的細化標誌選擇性地執行所述運動向量細化。
  5. 如申請專利範圍第4項所述的方法,其中,所述細化標誌至少包括在條帶頭、圖片參數集、序列參數集、區域級、編碼單元或編碼樹單元級中。
  6. 如申請專利範圍第1項所述的方法,其中,所述視頻位元流包括指示在視頻位元流中被跳過信令通知的運動向量差的清單的跳過資訊。
  7. 如申請專利範圍第6項所述的方法,其中,所述跳過資訊處於編碼單元級、區域級、編碼樹單元級或條帶級。
  8. 如申請專利範圍第7項所述的方法,其中,在所述跳過資訊處於區域級、編碼樹單元級或條帶級的情況下,編碼單元使用所述對稱性規則來生成第二運動向量資訊。
  9. 如申請專利範圍第1項所述的方法,進一步包括:存儲使用所述對稱性規則生成的運動向量預測器,用於處理後續視頻塊的預測資訊。
  10. 如申請專利範圍第9項所述的方法,其中,所述運動向量預測器與常規運動向量預測器一起使用,並且其中,兩位元欄位信令通知所述視頻位元流中的運動向量預測器。
  11. 如申請專利範圍第9項所述的方法,其中,使用所述運動向量預測器代替所述常規運動向量預測器中的一個,並且利用所述視頻位元流中的單個位元來執行信令通知。
  12. 如申請專利範圍第1項至第11項中任一項所述的方法,其中,僅在用於雙向預測的兩個參考幀之間的圖片順序計數距離相等的情況下使用所述對稱性規則。
  13. 如申請專利範圍第1項所述的方法,其中,所述視頻位元流省略用於參考圖片清單11的運動向量差值的信令通知,並且其中,使用以下來執行所述雙向預測:(參考圖片清單0中的第一參考圖片的第一圖片序號(POC))-(當前圖片的第二POC)=(當前圖片的POC)-(參考圖片清單1中的另一參考圖片的第三POC)。
  14. 如申請專利範圍第1項所述的方法,其中,用於所述雙向預測的兩個參考圖片為從過去幀和未來幀導出的與當前圖片最接近的參考圖片。
  15. 如申請專利範圍第1項所述的方法,其中,所述視頻位元流對於每個視頻塊使用單個參考索引和單個運動向量預測索引,聯合地信令通知參考列表0和參考清單1的參考索引和運動向量預測索引。
  16. 一種處理視頻位元流的方法,包括:響應於視頻位元流中的鏡像模式標誌,基於對稱性規則和第一運動向量差資訊生成第二運動向量差資訊;和使用所述第一運動向量差資訊和所述第二運動向量差資訊重建當前圖片中的視頻塊,其中使用雙向預測執行所述重建,其中,使用與所述視頻塊的源幀和目標參考幀之間的相對時間距離成比例的縮放來確定鏡像運動向量值。
  17. 如申請專利範圍第2項所述的方法,其中,執行所述運動向量細化包括:使用來自與第一參考圖片清單相關聯的參考幀的第三運動向量生成預測樣本第一補丁;使用來自與第二參考圖片清單相關聯的參考幀的所述鏡像運動向量值生成預測樣本第二補丁;和將所述運動向量細化值確定為最小化所述第一補丁和所述第二補丁之間的誤差函數的值。
  18. 如申請專利範圍第17項所述的方法,其中,所述誤差函數包括絕對差值和測量。
  19. 如申請專利範圍第17項所述的方法,其中,所述誤差函數包括所述運動向量細化值與所述第一補丁和所述第二補丁的加權線性平均值之間的相關性。
  20. 如申請專利範圍第17項所述的方法,其中,所述誤差函數是使用所述運動向量細化值的速率失真函數。
  21. 如申請專利範圍第2項所述的方法,其中,執行所述運動向量細化包括:將所述運動向量細化值確定為使用與兩個參考圖片清單相關聯的參考幀之間的頂部和左側參考或插值樣本來最小化誤差函數的值。
  22. 如申請專利範圍第2項所述的方法,其中,執行所述運動向量細化包括: 當所述運動向量細化值大於閾值時,將所述運動向量細化值確定為使用與兩個參考圖片清單相關聯的兩個參考幀之間的整數參考樣本來最小化誤差函數的值。
  23. 如申請專利範圍第1項所述的方法,其中,所述對稱性規則回應於包括用於所述視頻塊的條帶級信令通知中的MVD_L1_ZERO_FLAG的標誌。
  24. 一種視頻位元流處理方法,包括:對於與視頻塊相關聯的第一參考圖片清單,接收第一組運動向量的運動向量差資訊;和使用多假設對稱性規則從所述第一組運動向量的運動向量差資訊導出與所述視頻塊相關聯的第二參考圖片清單的第二組運動向量相關聯的運動向量差資訊,其中所述多假設對稱性規則指定所述第二運動向量差值為(0,0),並且相應的運動向量預測器被設置為從所述第一運動向量差資訊導出的鏡像運動向量值而無需縮放;和使用所述導出的結果執行所述視頻塊和所述視頻塊的位元流表示之間的轉換。
  25. 如申請專利範圍第24項所述的方法,包括:利用所述多假設對稱性規則導出與所述視頻塊相關聯的第一參考圖片清單相關聯的另一運動向量差資訊;和利用所述多假設對稱性規則導出與所述視頻塊相關聯的第二參考圖片清單相關聯的另一運動向量差資訊。
  26. 一種處理視頻位元流的方法,包括:對於視頻塊,接收與第一參考圖片清單相關聯的第一運動向量差資訊;對於所述視頻塊,接收與第二參考圖片清單相關聯的第二運動向量差資訊;使用多假設對稱性規則從所述第一運動向量差資訊和所述第二運動向量差資訊導出與所述第一參考圖片清單相關聯的第三運動向量差資訊和與所述第二參考相關聯的第四運動向量差資訊圖片清單,其中所述多假設對稱性規則指定所述第二運動向量差值是(0,0),並且相應的運動向量預測器被設置為從所述第一運動向量差資訊導出的鏡像運動向量值。
  27. 如申請專利範圍第24項至第26項中任一項所述的方法,還包括:執行鏡像運動向量值的運動向量細化以生成運動向量細化值。
  28. 一種視頻處理方法,包括:接收相對於視頻的參考幀的視頻的未來幀;接收與視頻的未來幀和視頻的過去幀相關的運動向量;應用所述視頻的未來幀和所述視頻的過去幀之間的預定關係;基於所述視頻的未來幀、所述運動向量以及所述視頻的過去幀和所述視頻的未來幀之間的預定關係重建所述視頻的過去幀, 其中所述預定關係是所述視頻的未來幀和所述視頻的過去幀由鏡像條件相關聯,所述鏡像條件無需縮放。
  29. 如申請專利範圍第28項所述的方法,其中,所述鏡像條件意味著在所述視頻的未來幀中具有座標(x,y)的物件在所述視頻的過去幀中具有座標(-x,-y)。
  30. 一種視頻處理方法,包括:接收相對於視頻的參考幀的視頻的過去幀;接收與視頻的過去幀和視頻的未來幀相關的運動向量;應用所述視頻的未來幀和所述視頻的過去幀之間的預定關係;基於所述視頻的過去幀、所述運動向量、以及所述視頻的過去幀和所述視頻的未來幀之間的預定關係重建視所述頻資料的未來幀,其中所述預定關係是所述視頻的未來幀和所述視頻的過去幀由鏡像條件相關聯,所述鏡像條件無需縮放。
  31. 如申請專利範圍第30項所述的方法,其中,所述鏡像條件意味著在所述視頻的過去幀中具有座標(x,y)的物件在所述視頻的未來幀中具有座標(-x,-y)。
  32. 一種視頻解碼裝置,包括:處理器,被配置為實施如申請專利範圍第1項至第31項中任一項所述的方法。
  33. 一種視頻編碼裝置,包括:處理器,被配置為實施如申請專利範圍第1項至第31項中任 一項所述的方法。
  34. 一種電腦程式產品,其上存儲有電腦代碼,其中,所述代碼在由處理器執行時使所述處理器實施如申請專利範圍第1項至第31項中任一項所述的方法。
TW108123164A 2018-06-30 2019-07-01 用於視頻編碼的對稱性雙向預測模式 TWI719522B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018093897 2018-06-30
WOPCT/CN2018/093897 2018-06-30

Publications (2)

Publication Number Publication Date
TW202017375A TW202017375A (zh) 2020-05-01
TWI719522B true TWI719522B (zh) 2021-02-21

Family

ID=67185530

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108123164A TWI719522B (zh) 2018-06-30 2019-07-01 用於視頻編碼的對稱性雙向預測模式

Country Status (3)

Country Link
CN (2) CN110662077B (zh)
TW (1) TWI719522B (zh)
WO (1) WO2020003262A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3840386A4 (en) * 2018-09-04 2021-09-22 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR DETERMINING A REFERENCE FRAME FOR BIDIRECTIONAL INTER-FRAME PREDICTION
US11025936B2 (en) * 2019-01-25 2021-06-01 Tencent America LLC Method and apparatus for video coding
WO2020184920A1 (ko) * 2019-03-08 2020-09-17 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
KR20210129213A (ko) * 2019-03-24 2021-10-27 엘지전자 주식회사 Smvd(symmetric motion vector difference)를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 전송하는 방법
CN117941344A (zh) * 2021-09-15 2024-04-26 抖音视界有限公司 用于视频处理的方法、装置和介质
US11943448B2 (en) * 2021-11-22 2024-03-26 Tencent America LLC Joint coding of motion vector difference
US20230328227A1 (en) * 2022-04-07 2023-10-12 Tencent America LLC Systems and methods for joint coding of motion vector difference using template matching based scaling factor derivation

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104104960B (zh) * 2013-04-03 2017-06-27 华为技术有限公司 多级双向运动估计方法及设备
US10958927B2 (en) * 2015-03-27 2021-03-23 Qualcomm Incorporated Motion information derivation mode determination in video coding
CN107222742B (zh) * 2017-07-05 2019-07-26 中南大学 基于时空域相关性的视频编码Merge模式快速选择方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Huanbang Chen et.al, Symmetrical mode for bi-prediction, JVET-J0063, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 10th Meeting: San Diego, US, 10–20 Apr. 2018
Y. Chen et.al, Description of SDR, HDR and 360° video coding technology proposal by Qualcomm and Technicolor – low and high complexity versions, JVET-J0021, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 10th Meeting *
Y. Chen et.al, Description of SDR, HDR and 360° video coding technology proposal by Qualcomm and Technicolor – low and high complexity versions, JVET-J0021, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 10th Meeting: San Diego, US, 10–20 Apr. 2018

Also Published As

Publication number Publication date
TW202017375A (zh) 2020-05-01
WO2020003262A1 (en) 2020-01-02
CN115396677A (zh) 2022-11-25
CN110662077A (zh) 2020-01-07
CN110662077B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
TWI815974B (zh) 具有自適應運動矢量分辨率的運動矢量的修改
TWI727338B (zh) 用信號通知的運動向量精度
TWI818086B (zh) 擴展Merge預測
CN112913249B (zh) 广义双向预测索引的简化编解码
TWI723430B (zh) 不同精度的多個候選
US20220150508A1 (en) Restrictions on decoder side motion vector derivation based on coding information
TWI719522B (zh) 用於視頻編碼的對稱性雙向預測模式
CN113287317A (zh) 并置的局部照明补偿和修改的帧间编解码工具
TWI736923B (zh) 擴展Merge模式
CN115086677A (zh) 运动候选推导
CN115086676A (zh) 运动候选推导
CN115086675A (zh) 运动候选推导
TWI753280B (zh) Bio中的mv精度
TWI839388B (zh) 簡化的基於歷史的運動矢量預測