TWI719519B

TWI719519B - 對於dmvr的塊尺寸限制

Info

Publication number: TWI719519B
Application number: TW108122737A
Authority: TW
Inventors: 劉鴻彬; 張莉; 張凱; 王悅
Original assignee: 大陸商北京字節跳動網絡技術有限公司; 美商字節跳動有限公司
Priority date: 2018-07-02
Filing date: 2019-06-28
Publication date: 2021-02-21
Also published as: JP2022125267A; US11363290B2; CN115334312A; US20200382807A1; JP7368554B2; EP3791583A1; CN110677659A; JP7104188B2; TW202007165A; WO2020008343A1; US20220174309A1; US11722688B2; CN110677659B; US20230345038A1; JP2024001217A; JP2021530142A; KR20210027351A

Abstract

描述了啟用和禁用解碼器側運動向量細化（DMVR）視頻解碼器和/或編碼器的方法。一個示例方法包括確定視頻塊的寬度（W）和高度（H）；基於視頻塊的條件，在啟用和禁用解碼器側運動向量細化步驟之間做出決定，該解碼器側運動向量細化步驟用於視頻塊和視頻塊的編碼表示之間的轉換；在決定為啟用的情況下，通過啟用解碼器側運動向量細化步驟而進行轉換；並且在決定為禁用的情況下，通過禁用解碼器側運動向量細化步驟而進行轉換，其中解碼器側運動向量細化步驟包括細化在編碼表示中發出信令的運動向量的值，以及在轉換期間使用細化的值。

Description

對於DMVR的塊尺寸限制

本文件涉及視頻編碼技術。

[相關申請案的交叉參考]

根據適用的專利法和/或依據巴黎公約的規則，本申請及時要求於2018年7月2日提交的美國臨時專利申請第62/693,412號的優先權和權益。該國際專利申請第62/693,412號的全部公開內容通過引用併入作為本申請的公開內容的一部分。

雖然視頻壓縮有所進步，但數位視頻仍佔據網際網路和其他數位通訊網路上的最大的頻寬使用。隨著能夠接收和顯示視頻的所連接的使用者設備的數量增加，預計數位視頻使用的頻寬需求將繼續增長。

公開了涉及視頻編碼中的解碼器側運動向量推導(DMVD)的技術。其可以應用於現有的視頻編碼標準(例如 HEVC)或者將被最終確定的標準(多功能視頻編碼(VVC)。其還可以應用於未來的視頻編碼標準或視頻轉碼器。

在一個示例方面，公開了一種視頻處理的方法。該方法包括基於視頻塊的條件，確定視頻塊尺寸寬度(W)和高度(H)；在啟用和禁用解碼器側運動向量細化步驟之間做出決定，該解碼器側運動向量細化步驟用於視頻塊和視頻塊的編碼表示之間的轉換；在決定為啟用的情況下，通過啟用解碼器側運動向量細化步驟而進行轉換；並且在決定為禁用的情況下，通過禁用解碼器側運動向量細化步驟而進行轉換，其中解碼器側運動向量細化步驟包括細化在編碼表示中發出信令的運動向量的值，以及在轉換期間使用細化的值。

在另一示例方面，公開了一種視頻解碼設備，包括被配置為實現上述方法的處理器。

在又一個示例中，公開了一種視頻編碼設備，包括被配置為實現上述方法的處理器。

在又一個示例中，公開了一種電腦可讀介質。該介質儲存有代碼，當由處理器執行該代碼時，使得處理器實現上述方法。

在本文件中進一步描述了這些和其他方面。

MV0、MV0'、MV1、MV1':運動向量

200:方法

202、204、206:步驟

300:設備

302:處理器

304:記憶體

306:視頻處理電路

圖1示出了基於雙邊模板匹配的解碼器側運動向量細化 (DMVR)的示例。

圖2是根據一些示例實施例的示例方法的流程圖。

圖3是視頻解碼和/或編碼裝置的框圖的示例。

本文提供了可以由視頻位元流的解碼器使用的各種技術，以改善解壓縮或解碼的數位視訊的品質。此外，視訊編碼器還可以在編碼過程期間實現這些技術，以便重建用於進一步編碼的解碼的影格。

在本文中使用章節標題是為了便於理解，而不應將實施例和技術限制於相應的章節。同樣，來自一個章節的實施例可以與來自其他章節的實施例組合。

技術框架

視頻編碼標準主要通過公知的ITU-T和ISO/IEC標準的開發進行演進。ITU-T製作了H.261和H.263，ISO/IEC製作了MPEG-1和MPEG-4視覺，兩個組織聯合製作了H.262/MPEG-2視頻和H.264/MPEG-4高級視頻編碼(AVC)和H.265/HEVC標準。從H.262開始，視頻編碼標準是基於混合視頻編碼結構，其中使用了時間預測加變換編碼。為了探索超越HEVC的未來視頻編碼技術，由VCEG和MPEG於2015年聯合成立了聯合視頻探索小組(JVET)。自此，JVET採用了許多新方法，並將其放入名為聯合探索模型(JEM)的參考軟體中。在2018年4月，VCEG(Q6/16) 和ISO/IEC JTC1 SC29/WG11(MPEG)之間創立了聯合視頻專家小組(JVET)，以從事於VVC標準，目標為相比於HEVC縮減50%位元速率。

HEVC/H.265中的影格間預測

每個影格間預測的預測單元(PU)具有用於一個或兩個參考圖片列表的運動參數。運動參數包括運動向量和參考圖片索引。對兩個參考圖片列表中的一個的使用，也可以使用inter_pred_ide來發送。運動向量可以被明確地編碼為相對於預測器的增量。

當編碼單元(CU)用跳過(skip)模式編碼時，一個PU與CU相關聯，並且沒有顯著的殘差係數，沒有編碼的運動向量增量或參考圖片索引。合併(merge)模式被規定為，其從相鄰的(一個或多個)PU獲得當前的PU的運動參數，包括空間和時間候選。merge模式可以應用於任何影格間預測的PU，不僅僅用於skip模式。merge模式的替代是運動參數的顯式傳輸，其中運動向量(更確切地，與運動向量預測器比較的運動向量差)、對於每個參考圖片列表和參考圖片列表使用的相應參考圖片索引對每個PU被顯式地用訊號通知。這種模式在本文中被稱為高級運動向量預測(AMVP)。

當訊號通知指示將使用兩個參考圖片列表中的一個時，從樣本的一個塊中生成PU。這被稱為「單向預測」。單向預測可用於P-條帶和B-條帶兩者。

當訊號通知指示兩個參考圖片列表都將被使用時，從樣本的兩個塊中生成PU。這被稱為「雙向預測」。雙向預測僅可用於B-條帶。

在雙邊匹配merge模式中，總是應用雙向預測，因為CU的運動資訊是基於兩個塊沿著當前CU在兩個不同的參考圖片中的運動軌跡的最接近的匹配而得到的。對於模板匹配merge模式沒有這種限制。在模板匹配merge模式中，編碼器對於CU可以在來自列表0的單向預測、來自列表1的單向預測或雙向預測之中選擇。該選擇基於如下模板匹配成本：如果成本Bi<=因數*min(成本0，成本1)使用雙向預測；否則，如果成本0<=成本1使用來自列表0的單向預測；否則，使用來自列表1的單向預測；其中成本0是列表0模板匹配的SAD，成本1是列表1模板匹配的SAD，並且成本Bi是雙向預測模板匹配的SAD。因數的值等於1.25，這意味著選擇過程偏向於雙向預測。

影格間預測方向選擇僅應用於CU級模板匹配過程。

解碼器側運動向量細化

在雙向預測操作中，對於一個塊區域的預測，將分別使用列表0的運動向量(MV)和列表1的MV形成的兩個預測塊，組合以形成單個預測訊號。在解碼器側運動向量細化(DMVR)方法中，雙向預測的兩個運動向量通過雙邊模板匹配處理被進一步細化。雙邊模板匹配應用於解碼器中，以在雙邊模板和參考圖片中的重建樣本之間進行基於失真的搜索，以便獲得細化的MV，而無需傳輸額外的運動資訊。

如圖1所示，在DMVR中，雙邊模板被生成為分別來自列表0的初始MV0和列表1的MV1的兩個預測塊的加權組合(即平均)。模板匹配操作包括計算生成的模板和參考圖片中樣本區域(初始預測塊的周圍)之間的成本度量。對於兩個參考圖片中的每一個，產生最小模板成本的MV被認為是該列表的更新後的MV，以替換原始的MV。在JEM中，對於每個列表，搜索九個MV候選。九個MV候選包括原始的MV和八個周圍的MV，該周圍的MV相對於原始MV在水平方向上或垂直方向上或兩者上具有一個亮度樣本的偏移。最後，兩個新的MV(即，如圖1所示的MV0'和MV1')用於生成最終的雙向預測結果。絕對差之和(SAD)用作成本度量。需注意的是，當計算由一個周圍MV生成的預測塊的成本時，取整的MV(取整到整數像素)實際上用於獲得預測塊而不是真實的MV。

DMVR應用於雙向預測的merge模式，其中一個MV來自於過去的參考圖片，並且另一個MV來自於未來的參考圖片，而無需傳輸額外的語法元素。在JEM中，當為CU啟用LIC、仿射運動、FRUC或子CU合併候選時，將不應用DMVR。

在一些示例實施例中，如圖1所示，在第一步驟中：從由初始MV0和MV1指代的預測塊生成雙邊模板；並在第二步驟：進行雙邊模板匹配，找到由更新後的MV0'和MV1'指代的最佳匹配塊。

本公開的技術和裝置降低了複雜性並改善了DMVD方法的編碼性能。

在一個方面中，模板和候選塊之間的成本(例如，差值、失真或考慮失真和MV兩者的成本)在解碼器側運動估計中(即在運動資訊推導或細化程式中)僅針對部分像素進行計算。在另一方面中，對於DMVR，插值時間減少。在另一方面中，使用所公開的技術的一些實施例將DMVR應用於AMVP模式。在另一方面中，對於不同的塊尺寸，MV差值的加權因數可以是不同的。

以下列舉的示例提供了一些方法，通過這些方法，本公開的技術可以實施為視頻編碼或解碼過程。將運動向量精度表示為prec，當prec等於N時，表示運動向量具有1/2^N像素精度(pel precision)。N可以是正整數，零或負整數。

可以根據某些條件啟用/禁用DMVR方法。

在一個方面中，DMVR的啟用或禁用可以取決於塊尺寸和/或塊形狀。塊尺寸可以用W x H表示，其中W是塊的寬度，H是高度。以下規則可以適用：

a.在一個示例中，對於塊尺寸等於4x4，可以一直禁用DMVR。

b.在另一示例中，對於塊尺寸等於Wx4或4xH，H是大於或等於1的整數值，可以一直禁用DMVR。

c.在另一示例中，對於塊WxH，其中W<=T1或H<=T2，W、H、T1和T2是大於或等於1的整數值，可以一直禁用DMVR。

d.在另一示例中，對於塊WxH，其中W<=T1且H<=T2，W、H、T1和T2是大於或等於1的整數值，可以一直禁用DMVR。

e.在另一示例中，對於塊WxH，其中W*H<=T0，其中W、H和T0是大於或等於1的整數值，可以一直禁用DMVR。

f.在另一示例中，如果W/H小於閾值，和/或W/H大於閾值，可以一直禁用DMVR。(一個或多個)閾值可以被信令通知或預先定義(例如，等於1)。W和H是整數值，並且閾值可以表達為分數。

圖2是視頻處理的示例方法200的流程圖。方法200可以被用於，例如，禁用或啟用解碼器側運動向量細化(DMVR)視頻解碼器或編碼器。方法200包括：確定(202)視頻塊尺寸寬度(W)和高度(H)，決定當滿足條件時禁用DMVR視頻解碼器，並且當不滿足條件時啟用DMVR視頻解碼器；以及，基於該決定而將位元流解碼為資料塊。例如，方法200可以包括，在204處，在視頻塊和視頻塊的編碼表示之間的轉換期間，在啟用和禁用DMVR步驟之間做出決定。在決定之後，在206處，執行視頻塊與編碼表示之間的轉換。在第一模式和第二模式之間使用一種模式進行轉換，其中，在第一模式中，決定為啟用DMVR，在這種情況下，轉換是通過啟用DMVR來進行的；在第二模式中，決定為禁用DMVR，在這種情況下，轉換是通過禁用DMVR來進行的。例如，轉換指的是生成編碼表示(例如，位元流)的編碼或轉碼操作。可替代地，轉換可以導致從編碼表示生成視頻塊的樣本值。上述方法的各種可能的實施例和變型，其中條件由於以下規則之一而被滿足：由於塊尺寸具有W=4且H=4，條件被滿足。

由於塊尺寸具有H=4或W=4，條件被滿足。

由於塊尺寸具有W<=T1或H<=T2，條件被滿足。

由於塊尺寸具有W<=T1且H<=T2，條件被滿足。

由於塊尺寸具有W*H<=T0，條件被滿足。

由於塊尺寸具有W/H小於第一閾值，且W/H大於第二閾值，條件被滿足。

由於塊尺寸具有W/H小於閾值或W/H大於另一閾值，條件被滿足。

在上文中，閾值T0、T1和T2可以是獨立於轉換過程的固定值。例如，T1和T2可以是4或8，並且可以預先指定且為編碼器和解碼器已知的。

在以上描述中，所使用的各種閾值可以表示當前塊的縱橫比。例如，閾值可以設置為1，使得寬塊(W>H)可以使用DMVR，而高塊(W<=H)可以禁用DMVR。因為運動通常傾向於在水平方向上被更準確地感知，所以這樣的佈置可以說明編碼表示的視覺品質處於比其他情況更高的水準。

第一閾值和第二閾值經由消息被接收。該消息可以包含在編碼表示的語法元素中。語法元素可以逐個條帶或者逐個圖片地***，以允許以圖片或條帶或編碼單元級別改變閾值。

在一些實施例中，解碼條件包括選擇低精度運動向量，並且其中生成候選塊的集合包括使用低精度運動向量生成候選塊的集合。在一些實施例中，當解碼條件為當前塊處於merge模式時，運動向量由當前塊繼承。在不同模式中，可以通過使用步長或比例因數進行細化來提高精度。例如，步長可以是1。作為另一示例，比例因數可以是2，並且精度可以從4像素解析度提高到2像素解析度到1像素解析度等。

圖3示出了可以被用以實現本文公開的技術的各個部分的硬體設備300的示例實施例的框圖。硬體設備300可以是膝上型電腦、智慧型電話、平板電腦、可擕式攝像機或能夠處理視頻的其他類型的設備。設備300包括用於處理資料的處理器或控制器302，以及與處理器302通訊以儲存和/或緩衝資料的記憶體304。例如，處理器302可以包括中央處理單元(CPU)或微控制器單元(MCU)。在一些實現方式中，處理器302可以包括現場可程式設計閘陣列(FPGA)。在一些實現方式中，設備300包括用於智慧型電話設備的各種可視和/或通訊資料處理功能的圖形處理單元(GPU)、視頻處理單元(VPU)和/或無線通訊單元，或者與智慧型電話設備的GPU、VPU和/或無線通訊單元進行通訊。例如，記憶體304可以包括並儲存處理器可執行代碼，其在由處理器302執行時配置設備300以執行各種操作，例如，接收資訊、命令和/或資料，處理資訊和資料，並且將處理後的資訊/資料發送或提供給諸如致動器或外部顯示器的另一個設備。為了支援設備300的各種功能，記憶體304可以儲存資訊和資料，諸如指令、軟體、值、圖像以及由處理器302處理或參考的其他資料。例如，各種類型的隨機存取記憶體(RAM)設備、唯讀記憶體(ROM)設備、快閃記憶體設備和其他合適的儲存介質可被用於實現記憶體304的儲存功能。設備300還可以包括專用視頻處理電路306，用於執行重複的計算功能，諸如變換和解碼。

本文中描述的技術可以由視訊編碼器或視頻解碼器使用諸如關於圖3所描述的硬體平臺來實現。

從前述內容可以理解，本文已經出於說明的目的描述了本公開技術的具體實施例，但是可以在不脫離本發明範圍的情況下進行各種修改。因此，本公開的技術除了所附申請專利範圍外不受限制。

本文中描述的公開和其他實施例、模組和功能操作可以在數位電子電路中實現，或者在電腦軟體、固件或硬體中實現，包括本文中公開的結構及其結構等同物，或者以它們中的一個或多個的組合實現。已公開的實施例和其他實施例可以實現為一個或多個電腦程式產品，即，在電腦可讀介質上編碼的一個或多個電腦程式指令模組，用於由資料處理裝置執行或控制資料處理裝置的操作。電腦可讀介質可以是機器可讀儲存裝置、機器可讀儲存基板、記憶體設備、影響機器可讀傳播訊號的物質組合、或者它們中的一個或多個的組合。術語「資料處理裝置」涵蓋用於處理資料的所有裝置、設備和機器，包括例如可程式設計處理器、電腦或多個處理器或電腦。除了硬體之外，該裝置還可以包括為所討論的電腦程式創建執行環境的代碼，例如，構成處理器固件、協定疊、資料庫管理系統、作業系統、或者它們中的一個或多個的組合的代碼。傳播訊號是人工生成的訊號，例如機器生成的電訊號、光訊號或電磁訊號，其被生成以對資訊進行編碼以便傳輸到合適的接收器設備。

電腦程式(也稱為程式、軟體、軟體應用、腳本或代碼)可以用任何形式的程式設計語言編寫，包括編譯語言或解釋語言，並且可以以任何形式來部署電腦程式，包括獨立程式或適合在計算環境中使用的模組、元件、子常式或其他單元。電腦程式並不必需對應於檔案系統中的文件。程式可以儲存在文件的保存其他程式或資料(例如，儲存在標記語言文檔中的一個或多個腳本)的部分中，儲存在專用於所討論的程式的單個文件中，或儲存在多個協調文件中(例如，儲存一個或多個模組、副程式或代碼部分的文件)。可以部署電腦程式以在一個電腦上或在位於一個網站上或分佈在多個網站上並通過通訊網路互連的多個電腦上執行。

本文中描述的過程和邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式設計處理器執行，以通過對輸入資料進行操作並生成輸出來執行功能。該過程和邏輯流程也可以由專用邏輯電路執行，並且裝置也可以實現為專用邏輯電路，例如FPGA(現場可程式設計閘陣列)或ASIC(專用積體電路)。

舉例來說，適合於執行電腦程式的處理器包括通用和專用微處理器、以及任何種類的數位電腦的任何一個或多個處理器。通常，處理器將從唯讀記憶體或隨機存取記憶體或兩者接收指令和資料。電腦的主要元件是用於執行指令的處理器和用於儲存指令和資料的一個或多個記憶體設備。通常，電腦還將包括或可操作地耦合到用於儲存資料的一個或多個大容量儲存設備，例如磁碟、磁光碟或光碟，以從該一個或多個大容量儲存設備接收資料，或將資料傳輸到該一個或多個大容量儲存設備，或者既接收又傳遞資料。然而，電腦不需要具有這樣的設備。適用於儲存電腦程式指令和資料的電腦可讀介質包括所有形式的非易失性記憶體、介質和記憶體設備，包括例如半導體記憶體設備，例如EPROM、EEPROM和快閃記憶體設備；磁碟，例如內部硬碟或抽取式磁碟；磁光碟；以及CD ROM和DVD-ROM磁碟。處理器和記憶體可以由專用邏輯電路補充或併入專用邏輯電路中。

雖然本專利文件包含許多細節，但這些細節不應被解釋為對任何發明或可要求保護的範圍的限制，而是作為特定於特定發明的特定實施例的特徵的描述。在本專利文件中，在單獨的實施例的上下文中描述的某些特徵也可以在單個實施例中組合實現。相反，在單個實施例的上下文中描述的各種特徵也可以單獨地或以任何合適的子組合在多個實施例中實現。此外，儘管上面的特徵可以描述為以某些組合起作用，甚至最初如此要求權利保護，但是在某些情況下，可以從所要求保護的組合中去除來自該組合的一個或多個特徵，並且所要求保護的組合可以指向子組合或子組合的變型。

類似地，雖然在附圖中以特定順序描繪了操作，但是這不應該被理解為要求以所示的特定順序或按循序執行這樣的操作，或者執行所有示出的操作，以實現期望的結果。此外，在本專利文件中描述的實施例中的各種系統元件的分離不應被理解為在所有實施例中都要求這種分離。

僅描述了幾個實現方式和示例，並且可以基於本專利文件中描述和示出的內容來做出其他實現方式、增強和變型。

200‧‧‧方法

202、204、206‧‧‧步驟

Claims

一種視頻處理的方法，包括：確定視頻塊的寬度W和高度H；基於所述視頻塊的尺寸，在啟用和禁用解碼器側運動向量細化(DMVR)步驟之間做出決定，所述解碼器側運動向量細化步驟用於所述視頻塊和所述視頻塊的編碼表示之間的轉換，在決定為啟用的情況下，通過啟用所述解碼器側運動向量細化步驟而進行所述轉換；以及在決定為禁用的情況下，通過禁用所述解碼器側運動向量細化步驟而進行所述轉換，其中所述解碼器側運動向量細化步驟包括細化基於所述編碼表示推導的運動向量的值以及在所述轉換期間使用該細化的值。
如申請專利範圍第1項所述的方法，其中所述轉換包括將所述編碼表示解碼為所述視頻塊的像素值。
如申請專利範圍第1項所述的方法，其中所述轉換包括將所述視頻塊的像素值編碼為所述編碼表示。
如申請專利範圍第1至3項中任一項所述的方法，其中當所述視頻塊尺寸為W=4並且H=4時，禁用DMVR步驟。
如申請專利範圍第1至3項中任一項所述的方法，其中當H=4或W=4時，禁用DMVR步驟。
如申請專利範圍第1至3項中任一項所述的方法，其中當W<=T1或H<=T2時，禁用DMVR步驟，其中T1和T2是大於或等於1的整數值。
如申請專利範圍第1至3項中任一項所述的方法，其中當W<=T1並且H<=T2時，禁用DMVR步驟，其中T1和T2是大於或等於1的整數值。
如申請專利範圍第1至3項中任一項所述的方法，其中當W*H<=T0時，禁用DMVR步驟，其中T0是大於或等於1的整數值。
如申請專利範圍第1至3項中任一項所述的方法，其中當W/H小於第一閾值並且W/H大於第二閾值時，禁用DMVR步驟。
如申請專利範圍第1至3項中任一項所述的方法，其中當W/H小於一閾值或者W/H大於另一閾值時，禁用DMVR步驟。
如申請專利範圍第9項所述的方法，其中所述第一閾值和所述第二閾值經由消息接收。
如申請專利範圍第9項所述的方法，其中所述第一閾值和所述第二閾值具有固定的值。
一種視頻解碼裝置，包括處理器，被配置為實現申請專利範圍第1至12項中任一項所述的方法。
一種視頻編碼裝置，包括處理器，被配置為實現申請專利範圍第1至12項中任一項所述的方法。
一種電腦程式產品，在其上儲存有電腦代碼，在由處理器執行所述電腦代碼時，使得所述處理器實現申請專利範圍第1至12項中任一項所述的方法。