TW202041017A

TW202041017A - 視訊寫碼中之隱式變換選擇

Info

Publication number: TW202041017A
Application number: TW109108190A
Authority: TW
Inventors: 席爾米伊恩斯埃伊爾梅茲; 阿米爾塞德; 法迪姆塞瑞金; 馬塔卡茲維克茲
Original assignee: 美商高通公司
Priority date: 2019-03-12
Filing date: 2020-03-12
Publication date: 2020-11-01
Also published as: IL285755A; CO2021011797A2; WO2020186042A1; KR20210135245A; BR112021017451A2; CN113545053A; MX2021010861A; US11539952B2; AU2020235621A1; US20200296370A1; SG11202109072PA; JP2022525024A; CA3131886A1; CL2021002369A1; EP3939280A1

Abstract

本發明提供一種實例方法，其包括：針對一當前視訊區塊之一當前變換區塊，自包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)的複數個變換類型推斷一變換類型，其中推斷該變換類型包含：判定該當前變換區塊之一大小；判定是否使用框內子區塊分割(ISP)來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小小於一臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之特定DST作為選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。

Description

視訊寫碼中之隱式變換選擇

本發明係關於視訊編碼及視訊解碼。

數位視訊能力可併入至廣泛範圍之器件中，該等器件包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、平板電腦、電子書閱讀器、數位攝影機、數位記錄器件、數位媒體播放機、視訊遊戲器件、視訊遊戲主控台、蜂巢式或衛星無線電電話(所謂「智慧型電話」)、視訊電傳會議器件、視訊串流器件及其類似者。數位視訊器件實施視訊寫碼技術，諸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265/高效視訊寫碼(HEVC)所定義之標準及此類標準之擴展中所描述的彼等技術。視訊器件可藉由實施此類視訊寫碼技術來更有效地傳輸、接收、編碼、解碼及/或儲存數位視訊資訊。

視訊寫碼技術包括空間(圖像內)預測及/或時間(圖像間)預測以減少或移除為視訊序列所固有之冗餘。對於基於區塊之視訊寫碼，視訊圖塊(例如視訊圖像或視訊圖像之部分)可經分割為視訊區塊，該等視訊區塊亦可稱為寫碼樹單元(CTU)、寫碼單元(CU)及/或寫碼節點。使用相對於相同圖像中之相鄰區塊中之參考樣本的空間預測來編碼圖像之經框內寫碼(I)圖塊中的視訊區塊。圖像之經框間寫碼(P或B)圖塊中的視訊區塊可使用相對於相同圖像中之相鄰區塊中之參考樣本的空間預測或相對於其他參考圖像中之參考樣本的時間預測。圖像可稱為圖框，且參考圖像可稱為參考圖框。

在一個實例中，一種方法包括：針對一當前視訊區塊之一當前變換區塊，自包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)的複數個變換類型推斷一變換類型，其中推斷該變換類型包含：判定該當前變換區塊之一大小；判定是否使用框內子區塊分割(ISP)來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之特定DST作為選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。

在另一實例中，一種器件包括：一記憶體，其經組態以儲存視訊區塊；及一或多個處理器，其實施於電路中且經組態以：針對一當前視訊區塊之一當前變換區塊，自包括一或多個DCT及一或多個DST的複數個變換類型推斷一變換類型，其中，為推斷該變換類型，該一或多個處理器經組態以：判定該當前變換區塊之一大小；判定是否使用ISP來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之特定DST作為該選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。

在另一實例中，一種電腦可讀儲存媒體儲存指令，該等指令在經執行時促使一視訊寫碼器件之一或多個處理器：針對一當前視訊區塊之一當前變換區塊，自包括一或多個DCT及一或多個DST之複數個變換類型推斷一變換類型，其中促使該一或多個處理器推斷該變換類型之該等指令包含促使該一或多個處理器進行以下操作之指令：判定該當前變換區塊之一大小；判定是否使用ISP來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之一特定DST作為該選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。

在隨附圖式及以下描述中闡述本發明之一或多個實例的細節。技術之各種態樣的其他特徵、目標及優點將自描述及圖式以及自申請專利範圍顯而易見。

本申請案主張2019年3月12日申請的美國臨時專利申請案62/817,397 之權益，該申請案之全部內容特此以引用的方式併入。

一般而言，本發明描述用於視訊寫碼中之隱式變換選擇的技術。如下文進一步詳細地論述，在區塊的預測(諸如框內預測或框間預測)之後，視訊編碼器可計算區塊之殘餘資料。殘餘資料(諸如殘餘區塊)表示區塊與該區塊的使用對應預測模式所形成之預測區塊之間的逐樣本差。視訊編碼器可將一或多個變換應用於殘餘區塊，以在變換域而非樣本域中產生經變換資料。舉例而言，視訊編碼器可應用離散餘弦變換(DCT)。在一些實例中，視訊編碼器可利用不同類型之變換。舉例而言，視訊編碼器可使用各種類型之DCT。

當解碼視訊資料時，視訊解碼器可應用反變換。其中視訊寫碼器可利用不同類型之變換，視訊解碼器可能必需判定視訊編碼器使用哪一變換。在一些實例中，當變換殘餘資料時，視訊編碼器可明確地發信使用哪種類型之變換(例如對具有指示使用哪種類型之變換的值之語法元素進行編碼)。然而，在一些實例中，可能不需要明確地發信所使用變換之類型(例如歸因於發信開銷)。

根據本發明之一或多種技術，視訊解碼器可在變換殘餘資料時隱式地判定使用哪種類型之變換。舉例而言，視訊解碼器可在變換殘餘資料時應用一組規則以基於在視訊解碼器處可用的旁側資訊來判定使用哪種類型之變換(例如明確地發信或自所發信資訊隱式地導出)。視訊編碼器在判定使用哪種類型之變換時可應用相同規則。如此，視訊編碼器及視訊解碼器皆可判定在不明確發信變換類型的情況下使用哪種類型之變換。

圖1為說明可執行本發明之技術的實例視訊編碼及解碼系統100之方塊圖。本發明之技術大體上係針對寫碼(編碼及/或解碼)視訊資料。一般而言，視訊資料包括用於處理視訊之任何資料。因此，視訊資料可包括原始未經寫碼視訊、經編碼視訊、經解碼(例如經重建構)視訊及視訊後設資料，諸如發信資料。

如圖1中所示，在此實例中，系統100包括源器件102，該源器件102提供待由目的地器件116解碼及顯示之經編碼視訊資料。特定言之，源器件102經由電腦可讀媒體110將視訊資料提供至目的地器件116。源器件102及目的地器件116可包含廣泛範圍的器件中之任一者，包括桌上型電腦、筆記型(亦即膝上型)電腦、平板電腦、機上盒、諸如智慧型電話之電話手持機、電視、攝影機、顯示器件、數位媒體播放器、視訊遊戲主控台、視訊串流器件或其類似者。在一些情況下，源器件102及目的地器件116可經裝備以用於無線通信，且由此可稱為無線通信器件。

在圖1之實例中，源器件102包括視訊源104、記憶體106、視訊編碼器200及輸出介面108。目的地器件116包括輸入介面122、視訊解碼器300、記憶體120及顯示器件118。根據本發明，源器件102之視訊編碼器200及目的地器件116之視訊解碼器300可經組態以應用用於隱式變換選擇之技術。因此，源器件102表示視訊編碼器件之一實例，而目的地器件116表示視訊解碼器件之一實例。在其他實例中，源器件及目的地器件可包括其他組件或配置。舉例而言，源器件102可自外部視訊源(諸如外部攝影機)接收視訊資料。同樣地，目的地器件116可與外部顯示器件介接，而非包括整合式顯示器件。

如圖1中所示之系統100僅為一個實例。一般而言，任何數位視訊編碼及/或解碼器件可執行用於隱式變換選擇之技術。源器件102及目的地器件116僅為其中源器件102產生經寫碼視訊資料以供傳輸至目的地器件116的此類寫碼器件之實例。本發明稱「寫碼」器件為執行資料之寫碼(編碼及/或解碼)的器件。因此，視訊編碼器200及視訊解碼器300表示寫碼器件之實例，特定言之，分別表示視訊編碼器及視訊解碼器之實例。在一些實例中，器件102、器件116可以實質上對稱的方式操作，以使得器件102、器件116中之每一者包括視訊編碼及解碼組件。因此，系統100可支援視訊器件102、視訊器件116之間的單向或雙向視訊傳輸例如以用於視訊串流、視訊播放、視訊廣播或視訊電話。

一般而言，視訊源104表示視訊資料源(亦即原始未經寫碼之視訊資料)，且將視訊資料之依序圖像(亦稱為「圖框」)序列提供至編碼圖像之資料的視訊編碼器200。源器件102之視訊源104可包括視訊俘獲器件，諸如視訊攝影機、含有先前俘獲之原始視訊的視訊存檔及/或用以自視訊內容提供者接收視訊的視訊饋入介面。作為另一替代方案，視訊源104可產生基於電腦圖形之資料作為源視訊，或實況視訊、存檔視訊及電腦產生之視訊的組合。在各情況下，視訊編碼器200對所俘獲、所預先俘獲或電腦產生之視訊資料進行編碼。視訊編碼器200可將圖像之接收次序(有時稱為「顯示次序」)重新配置為寫碼次序以供寫碼。視訊編碼器200可產生包括經編碼視訊資料之位元串流。源器件102可隨後經由輸出介面108將經編碼視訊資料輸出至電腦可讀媒體110上以供例如目的地器件116之輸入介面122接收及/或擷取。

源器件102之記憶體106及目的地器件116之記憶體120表示通用記憶體。在一些實例中，記憶體106、記憶體120可儲存原始視訊資料，例如來自視訊源104之原始視訊及來自視訊解碼器300之原始經解碼視訊資料。另外或可替代地，記憶體106、記憶體120可儲存分別由例如視訊編碼器200及視訊解碼器300可執行之軟體指令。儘管在此實例中經展示為與視訊編碼器200及視訊解碼器300分開，但應理解，視訊編碼器200及視訊解碼器300亦可包括功能上類似或等效目的之內部記憶體。此外，記憶體106、記憶體120可儲存例如自視訊編碼器200輸出及輸入至視訊解碼器300的經編碼視訊資料。在一些實例中，可分配記憶體106、記憶體120之部分作為一或多個視訊緩衝區例如以儲存原始經解碼及/或經編碼視訊資料。

電腦可讀媒體110可表示能夠將經編碼視訊資料自源器件102傳送至目的地器件116之任何類型的媒體或器件。在一個實例中，電腦可讀媒體110表示用以使得源器件102能夠即時地例如經由射頻網路或基於電腦之網路將經編碼視訊資料直接傳輸至目的地器件116的通信媒體。根據諸如無線通信協定之通信標準，輸出介面108可調變包括經編碼視訊資料之傳輸訊號，且輸入介面122可調變所接收之傳輸信號。通信媒體可包含任何無線或有線通信媒體，諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包括路由器、交換器、基地台或可適用於促進自源器件102至目的地器件116之通信的任何其他裝備。

在一些實例中，源器件102可將經編碼資料自輸出介面108輸出至儲存器件116。類似地，目的地器件116可經由輸入介面122自儲存器件116存取經編碼資料。儲存器件116可包括多種分佈式或本端存取式資料儲存媒體中之任一種，諸如硬驅動機、藍光光碟、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適的數位儲存媒體。

在一些實例中，源器件102可將經編碼視訊資料輸出至檔案伺服器114或另一中間儲存器件，該中間儲存器件可儲存由源器件102產生之經編碼視訊。目的地器件116可經由串流傳輸或下載而自檔案伺服器114存取經儲存視訊資料。檔案伺服器114可為能夠儲存經編碼視訊資料且將彼經編碼視訊資料傳輸至目的地器件116之任何類型的伺服器器件。檔案伺服器114可表示網頁伺服器(例如用於網站)、檔案傳送協定(FTP)伺服器、內容傳遞網路器件或網路附加儲存(NAS)器件。目的地器件116可經由包括網際網路連接之任何標準資料連接而自檔案伺服器114存取經編碼視訊資料。此可包括無線通道(例如Wi-Fi連接)、有線連接(例如DSL、有線電視數據機等)，或適用於存取儲存於檔案伺服器114上之經編碼視訊資料的兩者之組合。檔案伺服器114及輸入介面122可經組態以根據串流傳輸協定、下載傳輸協定或其組合來操作。

輸出介面108及輸入介面122可表示無線傳輸器/接收器、數據機、有線網路連接組件(例如乙太網卡)、根據多種IEEE 802.11標準中之任一種來操作的無線通信組件或其他實體組件。在輸出介面108及輸入介面122包含無線組件之實例中，輸出介面108及輸入介面122可經組態以根據蜂巢式通信標準(諸如4G、4G-LTE (長期演進)、LTE進階、5G或其類似者)來傳送資料，諸如經編碼視訊資料。在輸出介面108包含無線傳輸器之一些實例中，輸出介面108及輸入介面122可經組態以根據其他無線標準(諸如IEEE 802.11規範、IEEE 802.15規範(例如ZigBee™)、Bluetooth™標準或其類似者)來傳送資料，諸如經編碼視訊資料。在一些實例中，源器件102及/或目的地器件116可包括各別晶片上系統(SoC)器件。舉例而言，源器件102可包括SoC器件以執行歸於視訊編碼器200及/或輸出介面108之功能性，且目的地器件116可包括SoC器件以執行歸於視訊解碼器300及/或輸入介面122之功能性。

本發明之技術可應用於支援多種多媒體應用中之任一種的視訊寫碼，諸該等多媒體應用如空中電視廣播、有線電視傳輸、衛星電視傳輸、網際網路串流視訊傳輸(諸如經由HTTP之動態自適應串流(DASH))、經編碼至資料儲存媒體上之數位視訊、對儲存於資料儲存媒體上之數位視訊進行解碼或其他應用。

目的地器件116之輸入介面122自電腦可讀媒體110 (例如儲存器件112、檔案伺服器114或其類似者)接收經編碼視訊位元串流。經編碼視訊位元串流電腦可讀媒體110可包括由視訊編碼器200定義之發信資訊，該發信資訊亦由視訊解碼器300使用，諸如具有描述視訊區塊或其他經寫碼單元(例如圖塊、圖像、圖像組、序列或其類似者)之特性及/或處理之值的語法元素。顯示器件118向使用者顯示經解碼視訊資料之經解碼圖像。顯示器件118可表示多種顯示器件中之任一者，諸如陰極射線管(CRT)、液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示器件。

儘管圖1中未展示，但在一些實例中，視訊編碼器200及視訊解碼器300可各自與音訊編碼器及/或音訊解碼器整合，且可包括適當MUX-DEMUX單元或其他硬體及/或軟體，以處置在共同資料串流中包括音訊及視訊兩者之多工串流。若適用，則MUX-DEMUX單元可遵循ITU H.223多工器協定，或諸如使用者資料報協定(UDP)之其他協定。

視訊編碼器200及視訊解碼器300各自可經實施為多種合適的編碼器及/或解碼器電路中之任一種，諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。當該等技術部分以軟體實施時，器件可將軟體之指令儲存於合適的非暫時性電腦可讀媒體中，且在硬體中使用一或多個處理器執行該等指令以執行本發明之技術。視訊編碼器200及視訊解碼器300中之每一者可包括於一或多個編碼器或解碼器中，編碼器或解碼器中之任一者可整合為各別器件中之組合式編碼器/解碼器(CODEC)的部分。包括視訊編碼器200及/或視訊解碼器300之器件可包含積體電路、微處理器及/或無線通信器件，諸如蜂巢式電話。

視訊編碼器200及視訊解碼器300可根據視訊寫碼標準來操作，諸如ITU-T H.265，亦稱為高效視訊寫碼(HEVC)或其擴展，諸如多視圖及/或可縮放視訊寫碼擴展。可替代地，視訊編碼器200及視訊解碼器300可根據其他專有或行業標準來操作，諸如聯合勘探測試模型(JEM)或ITU-T H.266，其亦稱為多功能視訊寫碼(VVC)。在ITU-T SG 16 WP 3及ISO/IEC JTC 1/SC 29/WG 11之聯合視訊專家組(JVET)，第13次會議：2019年1月9日至18日，Marrakech,MA，JVET-M1001-v6，布洛斯等人「Versatile Video Coding (Draft 4)」(下文中「VVC Draft 4」)中描述VVC標準之最新草案。然而，本發明之技術不限於任何特定寫碼標準。

一般而言，視訊編碼器200及視訊解碼器300可執行圖像之基於區塊的寫碼。術語「區塊」一般係指包括待處理(例如編碼、解碼或以其他方式在編碼及/或解碼程序中使用)資料之結構。舉例而言，區塊可包括明度及/或色度資料之樣本的二維矩陣。一般而言，視訊編碼器200及視訊解碼器300可對以YUV (例如Y、Cb、Cr)格式表示之視訊資料進行寫碼。亦即，視訊編碼器200及視訊解碼器300可寫碼明度及色度分量，而非寫碼圖像之樣本的紅色、綠色及藍色(RGB)資料，其中色度分量可包括紅色調及藍色調色度分量兩者。在一些實例中，視訊編碼器200在編碼之前將所接收之RGB格式化資料轉換為YUV表示，且視訊解碼器300將YUV表示轉換為RGB格式。可替代地，預處理單元及後處理單元(未展示)可執行此等轉換。

本發明可大體上提及對圖像之寫碼(例如編碼及解碼)以包括對圖像之資料進行編碼或解碼的程序。類似地，本發明可提及對圖像之區塊進行寫碼以包括對區塊之資料進行編碼或解碼的程序，例如預測及/或殘餘寫碼。經編碼視訊位元串流一般包括表示寫碼決策(例如寫碼模式)及將圖像分割為區塊之語法元素的一系列值。因此，對寫碼圖像或區塊之提及一般應理解為對形成該圖像或區塊之語法元素的值進行寫碼。

HEVC定義各種區塊，包括寫碼單元(CU)、預測單元(PU)及變換單元(TU)。根據HEVC，視訊寫碼器(諸如視訊編碼器200)根據四分樹結構將寫碼樹單元(CTU)分割為CU。亦即，視訊寫碼器將CTU及CU分割為四個相同的非重疊正方形，且四分樹之各節點具有零個或四個子節點。不具有子節點之節點可稱為「葉節點」，且此類葉節點之CU可包括一或多個PU及/或一或多個TU。視訊寫碼器可進一步分割PU及TU。舉例而言，在HEVC中，殘餘四分樹(RQT)表示TU之分割。在HEVC中，PU表示框間預測資料，而TU表示殘餘資料。經框內預測之CU包括框內預測資訊，諸如框內模式指示。

作為另一實例，視訊編碼器200及視訊解碼器300可經組態以根據JEM或VVC來操作。根據JEM或VVC，視訊寫碼器(諸如視訊編碼器200)將圖像分割為複數個寫碼樹單元(CTU)。視訊編碼器200可根據樹結構來分割CTU，諸如四分樹二元樹(QTBT)結構或多類型樹(MTT)結構。QTBT結構移除多個分割類型之概念，諸如HEVC之CU、PU及TU之間的分離。QTBT結構包括兩個層級：根據四分樹分割進行分割之第一層級，及根據二元樹分割進行分割之第二層級。QTBT結構之根節點對應於CTU。二元樹之葉節點對應於寫碼單元(CU)。

在MTT分割結構中，區塊可使用四分樹(QT)分割、二元樹(BT)分割及一或多種類型之三重樹(TT)分割來進行分割。三重樹分割為將區塊***為三個子區塊之分割。在一些實例中，三重樹分割在不經由中心分割原始區塊之情況下將區塊分割為三個子區塊。MTT中之分割類型(例如QT、BT及TT)可為對稱或不對稱的。

在一些實例中，視訊編碼器200及視訊解碼器300可使用單個QTBT或MTT結構來表示明度及色度分量中之每一者，而在其他實例中，視訊編碼器200及視訊解碼器300可使用兩個或更多個QTBT或MTT結構，諸如用於明度分量之一個QTBT/MTT結構及用於兩個色度分量之另一QTBT/MTT結構(或用於各別色度分量之兩個QTBT/MTT結構)。

視訊編碼器200及視訊解碼器300可經組態以使用根據HEVC之四分樹分割、QTBT分割、MTT分割或其他分割結構。出於解釋之目的，關於QTBT分割呈現對本發明之技術的描述。然而，應理解，本發明之技術亦可應用於經組態以使用四分樹分割亦或其他類型之分割的視訊寫碼器。

本發明可互換地使用「N×N」及「N乘N」以指區塊(諸如CU或其他視訊區塊)在豎直及水平尺寸方面之樣本尺寸，例如16×16個樣本或16乘16個樣本。一般而言，16×16 CU在豎直方向上將具有16個樣本(y=16)且在水平方向上將具有16個樣本(x=16)。同樣地，N×N CU一般在豎直方向上具有N個樣本且在水平方向上具有N個樣本，其中N表示非負整數值。CU中之樣本可按列及行來配置。此外，CU不一定在水平方向上與豎直方向上具有相同數目個樣本。舉例而言，CU可包含N×M個樣本，其中M未必等於N。

視訊編碼器200對CU的表示預測及/或殘餘資訊及其他資訊之視訊資料進行編碼。預測資訊指示將如何預測CU以便形成CU之預測區塊。殘餘資訊一般表示編碼前的CU與預測區塊之樣本之間的逐樣本差。

為預測CU，視訊編碼器200可一般經由框間預測或框內預測來形成CU之預測區塊。框間預測一般係指根據先前經寫碼圖像之資料來預測CU，而框內預測一般係指根據相同圖像之先前經寫碼資料來預測CU。為執行框間預測，視訊編碼器200可使用一或多個運動向量來產生預測區塊。視訊編碼器200一般可執行運動搜索以例如關於在CU與參考區塊之間的差來識別緊密匹配CU之參考區塊。視訊編碼器200可使用絕對差總和(SAD)、平方差總和(SSD)、平均絕對差(MAD)、均方差(MSD)或其他此類差計算來計算差度量，以判定參考區塊是否緊密匹配當前CU。在一些實例中，視訊編碼器200可使用單向預測或雙向預測來預測當前CU。

JEM及VVC之一些實例亦提供仿射運動補償模式，其可被視為框間預測模式。在仿射運動補償模式中，視訊編碼器200可判定表示非平移運動(諸如放大或縮小、旋轉、透視運動或其他不規則運動類型)之兩個或更多個運動向量。

為執行框內預測，視訊編碼器200可選擇框內預測模式以產生預測區塊。JEM及VVC之一些實例提供六十七種框內預測模式，包括各種定向模式以及平面模式及DC模式。一般而言，視訊編碼器200選擇描述當前區塊(例如CU之區塊)之相鄰樣本的框內預測模式，其中根據該當前區塊來預測當前區塊之樣本。假定視訊編碼器200以光柵掃描次序(左至右、上至下)寫碼CTU及CU，則此類樣本一般可在與當前區塊相同的圖像中處於當前區塊之上方、左上方或左側。

視訊編碼器200編碼表示當前區塊之預測模式的資料。舉例而言，對於框間預測模式，視訊編碼器200可對表示使用多種可用框間預測模式中之哪一種以及對應模式之運動資訊的資料進行編碼。舉例而言，對於單向或雙向框間預測，視訊編碼器200可使用進階運動向量預測(AMVP)或合併模式來編碼運動向量。視訊編碼器200可使用類似模式來對仿射運動補償模式之運動向量進行編碼。

在區塊之預測(諸如框內預測或框間預測)之後，視訊編碼器200可計算區塊之殘餘資料。殘餘資料(諸如殘餘區塊)表示區塊與該區塊的使用對應預測模式所形成之預測區塊之間的逐樣本差。視訊編碼器200可將一或多個變換應用於殘餘區塊，以在變換域而非樣本域中產生經變換資料。舉例而言，視訊編碼器200可將離散餘弦變換(DCT)、整數變換、小波變換或概念上類似的變換應用於殘餘視訊資料。另外，視訊編碼器200可在一級變換之後應用二級變換，諸如模式依賴型不可分離二級變換(MDNSST)、信號依賴型變換、Karhunen-Loeve變換(KLT)或其類似者。視訊編碼器200在應用一或多個變換之後產生變換係數。

如上文所論述，諸如視訊編碼器200之視訊編碼器可應用各種類型的變換來變換殘餘資料。以下為對離散正弦及餘弦變換(DCT及DST)之概述。另外，簡要論述用於HEVC標準中之變換方案。

離散正弦及餘弦變換。

變換指示導出輸入信號之替代表示的程序。給定N 點向量 x =[x ₀ ,x ₁ ,…,x _N-1 ]^T 及一組給定向量{ ɸ ₀ , ɸ ₁ , …, ɸ _M-1 }， x 可使用 ɸ ₀ 、 ɸ ₁ 、…、 ɸ _M-1 之線性組合來估算或精確表示，此可如下經公式化，

其中

可為 x 之估算值或等效值，向量 f =[f _i , f ₂ , .., f _M-1 ]稱為 變換係數向量 ，且{ ɸ ₀ , ɸ ₁ , …, ɸ _M1 }為 變換基礎向量 。

在視訊寫碼之情形下，變換係數為大致非相關的且稀疏的，亦即輸入向量x 之能量僅在幾個變換係數上為緊密的，且剩餘大部分變換係數典型地接近於0。

給定特定輸入資料，就能量緊密性而言最佳變換為所謂Karhunen-Loeve變換(KLT)，其使用輸入資料之協方差矩陣的本徵向量作為變換基礎向量。因此，KLT實際上為資料獨立型變換且不具有通用數學公式。然而，在某些假定下，例如輸入資料形成一階平穩馬爾可夫(Markov)程序，已在文獻中證明，對應KLT實際上為 單一變換 之 正弦族 的成員。 單一變換 之 正弦族 指示使用如下經公式化的變換基礎向量之變換： ɸ _m (k) =A ·e ^ikɵ +B ·e ^-ikɵ

其中e 為估算等於2.71828之自然對數的底，A、B及ɵ 一般為複雜的且視m之值而定。

實例變換包括離散傅裏葉(Fourier)，餘弦、正弦及KLT (針對一階平穩馬爾可夫程序)為單一變換之此正弦族的成員。根據IEEE Trans. Sig. Processing SP-42, 1038-1051 (1994) S. A. Martucci「Symmetric convolution and the discrete sine and cosine transforms」，整個離散餘弦變換(DCT)及離散正弦變換(DST)族總共包括基於不同類型(亦即不同的A 、B 及ɵ 值)之16個變換，且下文給出不同類型之DCT及DST的完整定義，

假定輸入N 點向量經表示為 x =[ x₀ , x₁ ,…, x_N-1 ]^T ，且其藉由乘以矩陣而經變換為經表示為 y =[ y₀ , y₁ ,…, y_N-1 ]^T 之另一N 點變換係數向量，其過程可根據以下變換公式中之一者來進一步說明，其中k 範圍介於0至N-1 (包括端點)

DCT 類型 I (DCT-1) ：

，其中

DCT 類型 II (DCT-2) ：

，其中

DCT 類型 III (DCT-3) ：

，其中

DCT 類型 IV (DCT-4) ：

，

DCT 類型 V (DCT-5) ：

，其中

DCT 類型 VI (DCT-6) ：

，其中

DCT 類型 VII (DCT-7) ：

，其中

DCT 類型 VIII (DCT-8) ：

，

DST 類型 I (DST-1) ：

，

DST 類型 II (DST-2) ：

，其中

DST 類型 III (DST-3) ：

，其中

DST 類型 IV (DST-4) ：

，

DST 類型 V (DST-5) ：

，

DST 類型 VI (DST-6) ：

，

DST 類型 VII (DST-7) ：

，

DST 類型 VIII (DST-8) ：

，其中

變換類型由變換基底函數之數學公式來指定，例如4點DST-VII與8點DST-VII具有相同變換類型，而不管N值如何。

在不損失一般性之情況下，所有以上變換類型可使用以下一般化公式來表示：

，

其中T為藉由一個特定變換(例如DCT類型I至DCT類型VIII，或DST類型I至DST類型VIII)之定義所指定的 變換矩陣 ，且T之列向量(例如[T_i,0 , T_i,1 , T_i,2 , …, T_i,N-1 ])為第i變換基礎向量。應用於N 點輸入向量上之變換稱為 N 點變換 。

亦應注意，應用於1-D輸入資料x 上之以上變換公式可以矩陣乘法形式如下表示

其中 T 指示變換矩陣，x 指示輸入資料向量，且y 指示輸出變換係數向量。

2維(2-D)輸入資料之變換

先前章節中介紹之變換可應用於1-D輸入資料上，且變換亦可經擴展以用於2-D輸入資料源。假設X 為輸入M×N資料陣列。在2-D輸入資料上應用變換之典型方法包括可分離及非可分離2-D變換。

可分離2-D變換依序地應用X之水平向量及豎直向量的1-D變換，如下經公式化：

其中C及R分別表示給定M×M及N×N變換矩陣。根據該公式，可見，C應用用於X 之行向量的1-D變換，而R應用用於X 之列向量的1-D變換。在本文件之稍後部分中，為簡單起見，將C及R表示為左側(豎直)及右側(水平)變換，且其兩者形成變換對。存在C等於R且為正交矩陣的情況。在此情況下，可分離2-D變換僅由一個變換矩陣決定。

藉由進行以下數學映射作為一實例，非可分離2-D變換首先將X之所有元素重組為單個向量，即X'：

隨後1-D變換T'如下應用於X'：

其中T'為(M*N)×(M*N)變換矩陣。

在視訊寫碼中，由於相較於1-D變換可利用更少的操作(相加、相乘)計數，故可應用可分離2-D變換。

在習知視訊編解碼器(諸如H.264/AVC)中，4點及8點離散餘弦變換(DCT)類型II之整數估算值始終應用於框內及框間預測殘餘兩者。為較佳地適應殘餘樣本之各種統計，將除DCT類型II以外更具可撓性之類型的變換用於較新視訊編解碼器中。舉例而言，在HEVC中，4點類型VII離散正弦變換(DST)之整數估算值用於框內預測殘餘，經理論上證明且在實驗上證實，對於沿框內預測方向產生之殘餘向量，DST類型VII比DCT類型II更有效，例如，對於由水平框內預測方向產生之列殘餘向量，DST類型VII比DCT類型II更有效。在HEVC中，4點DST類型VII之整數估算值僅應用於4×4明度框內預測殘餘區塊。用於HEVC中之4點DST-VII展示如下，

4x4 DST-VII ： {29, 55, 74, 84} {74, 74, 0,-74} {84,-29,-74, 55} {55,-84, 74,-29}

在HEVC中，對於不為4×4明度框內預測殘餘區塊之殘餘區塊，亦可應用4點、8點、16點及32點DCT類型II之整數估算值，如下所示：

4 點 DCT-II ： {64, 64, 64, 64} {83, 36,-36,-83} {64,-64,-64, 64} {36,-83, 83,-36}

8 點 DCT-II ： {64, 64, 64, 64, 64, 64, 64, 64} {89, 75, 50, 18,-18,-50,-75,-89} {83, 36,-36,-83,-83,-36, 36, 83} {75,-18,-89,-50, 50, 89, 18,-75} {64,-64,-64, 64, 64,-64,-64, 64} {50,-89, 18, 75,-75,-18, 89,-50} {36,-83, 83,-36,-36, 83,-83, 36} {18,-50, 75,-89, 89,-75, 50,-18}

16 點 DCT-II ： {64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64, 64} {90, 87, 80, 70, 57, 43, 25, 9, -9,-25,-43,-57,-70,-80,-87,-90} {89, 75, 50, 18,-18,-50,-75,-89,-89,-75,-50,-18, 18, 50, 75, 89} {87, 57, 9,-43,-80,-90,-70,-25, 25, 70, 90, 80, 43, -9,-57,-87} {83, 36,-36,-83,-83,-36, 36, 83, 83, 36,-36,-83,-83,-36, 36, 83} {80, 9,-70,-87,-25, 57, 90, 43,-43,-90,-57, 25, 87, 70, -9,-80} {75,-18,-89,-50, 50, 89, 18,-75,-75, 18, 89, 50,-50,-89,-18, 75} {70,-43,-87, 9, 90, 25,-80,-57, 57, 80,-25,-90, -9, 87, 43,-70} {64,-64,-64, 64, 64,-64,-64, 64, 64,-64,-64, 64, 64,-64,-64, 64} {57,-80,-25, 90, -9,-87, 43, 70,-70,-43, 87, 9,-90, 25, 80,-57} {50,-89, 18, 75,-75,-18, 89,-50,-50, 89,-18,-75, 75, 18,-89, 50} {43,-90, 57, 25,-87, 70, 9,-80, 80, -9,-70, 87,-25,-57, 90,-43} {36,-83, 83,-36,-36, 83,-83, 36, 36,-83, 83,-36,-36, 83,-83, 36} {25,-70, 90,-80, 43, 9,-57, 87,-87, 57, -9,-43, 80,-90, 70,-25} {18,-50, 75,-89, 89,-75, 50,-18,-18, 50,-75, 89,-89, 75,-50, 18} {9, -25, 43,-57, 70,-80, 87,-90, 90,-87, 80,-70, 57,-43, 25, -9}

32 點 DCT-II ： {64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64} {90,90,88,85,82,78,73,67,61,54,46,38,31,22,13,4,-4,-13,-22,-31,-38,-46,-54,-61,-67,-73,-78,-82,-85,-88,-90,-90} {90,87,80,70,57,43,25,9,-9,-25,-43,-57,-70,-80,-87,-90,-90,-87,-80,-70,-57,-43,-25,-9,9,25,43,57,70,80,87,90} {90,82,67,46,22,-4,-31,-54,-73,-85,-90,-88,-78,-61,-38,-13,13,38,61,78,88,90,85,73,54,31,4,-22,-46,-67,-82,-90} {89,75,50,18,-18,-50,-75,-89,-89,-75,-50,-18,18,50,75,89,89,75,50,18,-18,-50,-75,-89,-89,-75,-50,-18,18,50,75,89} {88,67,31,-13,-54,-82,-90,-78,-46,-4,38,73,90,85,61,22,-22,-61,-85,-90,-73,-38,4,46,78,90,82,54,13,-31,-67,-88} {87,57,9,-43,-80,-90,-70,-25,25,70,90,80,43,-9,-57,-87,-87,-57,-9,43,80,90,70,25,-25,-70,-90,-80,-43,9,57,87} {85,46,-13,-67,-90,-73,-22,38,82,88,54,-4,-61,-90,-78,-31,31,78,90,61,4,-54,-88,-82,-38,22,73,90,67,13,-46,-85} {83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83} {82,22,-54,-90,-61,13,78,85,31,-46,-90,-67,4,73,88,38,-38,-88,-73,-4,67,90,46,-31,-85,-78,-13,61,90,54,-22,-82} {80,9,-70,-87,-25,57,90,43,-43,-90,-57,25,87,70,-9,-80,-80,-9,70,87,25,-57,-90,-43,43,90,57,-25,-87,-70,9,80} {78,-4,-82,-73,13,85,67,-22,-88,-61,31,90,54,-38,-90,-46,46,90,38,-54,-90,-31,61,88,22,-67,-85,-13,73,82,4,-78} {75,-18,-89,-50,50,89,18,-75,-75,18,89,50,-50,-89,-18,75,75,-18,-89,-50,50,89,18,-75,-75,18,89,50,-50,-89,-18,75} {73,-31,-90,-22,78,67,-38,-90,-13,82,61,-46,-88,-4,85,54,-54,-85,4,88,46,-61,-82,13,90,38,-67,-78,22,90,31,-73} {70,-43,-87,9,90,25,-80,-57,57,80,-25,-90,-9,87,43,-70,-70,43,87,-9,-90,-25,80,57,-57,-80,25,90,9,-87,-43,70} {67,-54,-78,38,85,-22,-90,4,90,13,-88,-31,82,46,-73,-61,61,73,-46,-82,31,88,-13,-90,-4,90,22,-85,-38,78,54,-67} {64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64} {61,-73,-46,82,31,-88,-13,90,-4,-90,22,85,-38,-78,54,67,-67,-54,78,38,-85,-22,90,4,-90,13,88,-31,-82,46,73,-61} {57,-80,-25,90,-9,-87,43,70,-70,-43,87,9,-90,25,80,-57,-57,80,25,-90,9,87,-43,-70,70,43,-87,-9,90,-25,-80,57} {54,-85,-4,88,-46,-61,82,13,-90,38,67,-78,-22,90,-31,-73,73,31,-90,22,78,-67,-38,90,-13,-82,61,46,-88,4,85,-54} {50,-89,18,75,-75,-18,89,-50,-50,89,-18,-75,75,18,-89,50,50,-89,18,75,-75,-18,89,-50,-50,89,-18,-75,75,18,-89,50} {46,-90,38,54,-90,31,61,-88,22,67,-85,13,73,-82,4,78,-78,-4,82,-73,-13,85,-67,-22,88,-61,-31,90,-54,-38,90,-46} {43,-90,57,25,-87,70,9,-80,80,-9,-70,87,-25,-57,90,-43,-43,90,-57,-25,87,-70,-9,80,-80,9,70,-87,25,57,-90,43} {38,-88,73,-4,-67,90,-46,-31,85,-78,13,61,-90,54,22,-82,82,-22,-54,90,-61,-13,78,-85,31,46,-90,67,4,-73,88,-38} {36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36} {31,-78,90,-61,4,54,-88,82,-38,-22,73,-90,67,-13,-46,85,-85,46,13,-67,90,-73,22,38,-82,88,-54,-4,61,-90,78,-31} {25,-70,90,-80,43,9,-57,87,-87,57,-9,-43,80,-90,70,-25,-25,70,-90,80,-43,-9,57,-87,87,-57,9,43,-80,90,-70,25} {22,-61,85,-90,73,-38,-4,46,-78,90,-82,54,-13,-31,67,-88,88,-67,31,13,-54,82,-90,78,-46,4,38,-73,90,-85,61,-22} {18,-50,75,-89,89,-75,50,-18,-18,50,-75,89,-89,75,-50,18,18,-50,75,-89,89,-75,50,-18,-18,50,-75,89,-89,75,-50,18} {13,-38,61,-78,88,-90,85,-73,54,-31,4,22,-46,67,-82,90,-90,82,-67,46,-22,-4,31,-54,73,-85,90,-88,78,-61,38,-13} {9,-25,43,-57,70,-80,87,-90,90,-87,80,-70,57,-43,25,-9,-9,25,-43,57,-70,80,-87,90,-90,87,-80,70,-57,43,-25,9} {4,-13,22,-31,38,-46,54,-61,67,-73,78,-82,85,-88,90,-90,90,-90,88,-85,82,-78,73,-67,61,-54,46,-38,31,-22,13,-4}

基於HEVC中之殘餘四分樹的變換方案

為調適殘餘區塊之各種特性，將使用殘餘四分樹(RQT)之變換寫碼結構應用於HEVC中，該HEVC簡要地描述於http://www.hhi.fraunhofer.de/fields-of-competence/image-processing/research-groups/image-video-coding/hevc-high-efficiency-video-coding/transform-coding-using-the-residual-quadtree-rqt.html中。在RQT中，各圖像經分割為寫碼樹單元(CTU)，該等寫碼樹單元針對特定圖像塊或圖塊以光柵掃描次序進行寫碼。CTU為方形區塊，且表示四分樹(亦即寫碼樹)之根。CTU大小可在8×8至64×64明度樣本範圍內，但典型地使用64×64。各CTU可進一步***為被稱為寫碼單元(CU)之較小方形區塊。在CTU以遞歸方式***為CU之後，各CU經進一步分割為預測單元(PU)及變換單元(TU)。

將CU分割為TU可基於四分樹方法以遞歸方式來進行，因此各CU之殘餘信號藉由樹結構(即殘餘四分樹(RQT))來寫碼。RQT允許自4×4直至32×32明度樣本之TU大小。圖2C展示其中CU包括10個TU (標記有字母a至j)及對應區塊分割之一實例。RQT之各節點實際上為變換單元(TU)。可以深度優先樹遍歷次序處理個別TU，該次序在圖中按字母表次序來說明，該次序之後為具有深度優先遍歷之遞歸Z掃描。

四分樹方法使得能夠使變換適應於殘餘信號之變化的空間頻率特性。典型地，具有較大空間支援之較大變換區塊大小提供較佳頻率解析度。然而，具有較小空間支援之較小變換區塊大小可提供較佳空間解析度。可例如基於速率-失真最佳化技術藉由編碼器模式決策來選擇兩個(空間及頻率)解析度之間的平衡點。視訊寫碼器可執行速率-失真最佳化技術以針對各寫碼模式(例如特定RQT***結構)計算寫碼位元及重建構失真之加權總和(亦即速率失真成本)，且選擇具有最小速率失真成本之寫碼模式作為最佳模式。

可在RQT中定義三個參數：樹之最大深度、最小所允許變換大小及最大所允許變換大小。最小及最大變換大小可在自4×4至32×32樣本之範圍內變化，此對應於先前段落中提及之所支援區塊變換。RQT之最大所允許深度限制TU之數目。最大深度等於零意謂：若各所包括TB達至最大所允許變換大小(例如32×32)，則不能再進一步***CB。

所有此等參數與RQT結構相互作用且影響RQT結構。考慮根CB大小為64×64，最大深度等於零且最大變換大小等於32×32的情況。在此情況下，CB必須經分割至少一次，因為否則其將產生未經允許的64×64 TB。RQT參數(亦即最大RQT深度、最小及最大變換大小)在序列參數集層級下在位元串流中傳輸。考慮RQT深度，可針對經框內及框間寫碼CU指定及發信不同值。

將四元樹變換應用於框內殘餘區塊及框間殘餘區塊兩者。典型地，將相同大小之當前殘餘四分樹分割的DCT-II變換應用於殘餘區塊。然而，若當前殘餘四分樹區塊為4×4且由框內預測產生，則應用上述4×4 DST-VII變換。

在HEVC中，不採用較大的大小變換(例如64×64變換)，主要係由於其受限的益處考慮及對於相對較小解析度視訊之相對較高的複雜度。

如上文所指出，在產生變換係數之任何變換之後，視訊編碼器200可執行變換係數之量化。量化一般係指變換係數經量化以有可能減少用以表示係數之資料的量，從而提供進一步壓縮之程序。藉由執行量化程序，視訊編碼器200可減少與係數中之一些或所有相關聯的位元深度。舉例而言，視訊編碼器200可在量化期間將n 位元值捨入至m 位元值，其中n 大於m 。在一些實例中，為執行量化，視訊編碼器200可執行待量化值之逐位元右移位。

在量化之後，視訊編碼器200可掃描變換係數，從而自包括經量化變換係數之二維矩陣產生一維向量。掃描可經設計以將較高能量(且因此較低頻率)係數置於向量前部，且將較低能量(且因此較高頻率)變換係數置於向量後部。在一些實例中，視訊編碼器200可利用預定義掃描次序來掃描經量化變換係數以產生串列化向量，且隨後對向量之經量化變換係數進行熵編碼。在其他實例中，視訊編碼器200可執行自適應掃描。在掃描經量化變換係數以形成一維向量之後，視訊編碼器200可例如根據上下文自適應二進位算術寫碼(CABAC)對一維向量進行熵編碼。視訊編碼器200亦可對描述與經編碼視訊資料相關聯之後設資料之語法元素的值進行熵編碼以供視訊解碼器300用於解碼視訊資料。

為執行CABAC，視訊編碼器200可將上下文模型內之上下文指派至待傳輸之符號。舉例而言，上下文可涉及符號之相鄰值是否為零值。機率判定可基於經指派至符號之上下文來進行。

視訊編碼器200可進一步例如在圖像標頭、區塊標頭、圖塊標頭或其他語法資料(諸如序列參數集(SPS)、圖像參數集(PPS)或視訊參數集(VPS))中向視訊解碼器300產生語法資料，諸如基於區塊之語法資料、基於圖像之語法資料及基於序列之語法資料。視訊解碼器300可同樣對此類語法資料進行解碼以判定如何解碼對應視訊資料。

以此方式，視訊編碼器200可產生包括經編碼視訊資料及用於區塊之預測及/或殘餘資訊的位元串流，該經編碼視訊資料例如描述將圖像分割為塊(例如CU)之語法元素。最終，視訊解碼器300可接收位元串流且對經編碼視訊資料進行解碼。

一般而言，視訊解碼器300執行與視訊編碼器200所執行之程序互逆的程序，以對位元串流之經編碼視訊資料進行解碼。舉例而言，視訊解碼器300可使用CABAC以與視訊編碼器200之CABAC編碼程序實質上類似但互逆的方式來解碼位元串流之語法元素的值。語法元素可定義圖像至CTU之分割資訊及各CTU根據對應分割結構(諸如QTBT結構)之分割，以定義CTU之CU。語法元素可進一步定義視訊資料之區塊(例如CU)的預測資訊及殘餘資訊。

殘餘資訊可由例如經量化變換係數來表示。視訊解碼器300可反量化及反變換區塊之經量化變換係數，以再生區塊之殘餘區塊。視訊解碼器300使用發信預測模式(框內或框間預測)及相關預測資訊(例如框間預測之運動資訊)以形成區塊之預測區塊。視訊解碼器300可隨後(在逐樣本基礎上)將預測區塊與殘餘區塊組合以再生原始區塊。視訊解碼器300可執行額外處理，諸如執行解區塊程序以減少沿區塊邊界之視覺假影。

根據本發明之技術，視訊寫碼器(亦即視訊編碼器200及/或視訊解碼器300)可針對視訊區塊之當前係數區塊自複數個變換類型導出變換類型。視訊寫碼器可使用選定變換類型來變換當前變換區塊(例如係數區塊)以獲得視訊區塊之經重建構殘餘資料的區塊；以及基於視訊區塊之經重建構殘餘資料來重建構視訊區塊。

視訊寫碼器可基於除變換類型之明確發信以外的因素來推斷變換類型。如此，視訊寫碼器可省略對明確識別當前區塊之變換類型之語法元素的寫碼。視訊寫碼器可推斷變換類型所根據之因素的一些實例包括當前區塊之大小(例如當前區塊之高度及/或寬度)、是否使用框內子區塊分割(ISP)來分割當前區塊以及當前區塊之框內模式。視訊寫碼器可基於因素之任何組合來推斷變換類型。舉例而言，視訊寫碼器可基於當前變換區塊之大小以及是否使用ISP來分割當前視訊區塊來推斷當前視訊區塊之當前變換區塊的變換類型。在此實例中之至少一些中，無論用以預測當前視訊區塊的框內預測模式如何，視訊寫碼器均可推斷當前變換區塊之變換類型。

視訊寫碼器可自複數個變換類型選擇變換類型，該變換類型包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)。如下文進一步詳細地論述，一或多個DCT可包括以下各者中之一或多者：DCT-1、DCT-2、DCT-3、DCT-4、DCT-5、DCT-6、DCT-7及DCT-8，且/或一或多個DST可包括以下各者中之一或多者：DST-1、DST-2、DST-3、DST-4、DST-5、DST-6、DST-7及DST-8。

如上文所論述，視訊寫碼器可基於當前變換區塊之大小來推斷當前變換區塊之變換類型。舉例而言，視訊寫碼器可回應於判定當前變換區塊之大小滿足大小臨限值而選擇當前變換區塊之第一變換類型，且回應於判定當前變換區塊之大小不滿足大小臨限值而選擇當前變換區塊之第二變換類型。在一些實例中，視訊寫碼器可藉由將當前變換區塊之大小與單個臨限值進行比較來判定當前變換區塊之大小是否滿足大小臨限值。在其他實例中，視訊寫碼器可藉由判定當前變換區塊之大小是否大於下限(例如2、4、6)且小於上限(例如8、16、32)來判定當前變換區塊之大小是否滿足大小臨限值。若當前變換區塊之大小大於下限且小於上限，則視訊寫碼器可判定當前變換區塊之大小滿足大小臨限值。類似地，若當前變換區塊之大小小於下限或大於上限，則視訊寫碼器可判定當前變換區塊之大小不滿足大小臨限值。

在當前視訊區塊為寫碼單元(CU)之情況下，可使用ISP將CU分割為複數個子分區。子分區中之每一者可具有相關聯變換區塊。如此，在使用ISP來分割CU之情況下，複數個變換區塊可與CU相關聯。舉例而言，16×16 CU可經豎直分割為具有大小4×16之四個分區，其各自與具有大小4×16之變換區塊相關聯。

如上文所論述，視訊寫碼器可基於是否使用ISP來分割當前視訊區塊以及基於當前變換區塊之大小來推斷當前視訊區塊之當前變換區塊的變換類型。作為一個實例，回應於判定當前變換區塊之大小滿足大小臨限值且使用ISP來分割當前視訊區塊，視訊寫碼器可選擇一或多個DST之特定DST (例如DST-7)作為當前變換區塊之變換類型。作為另一實例，回應於判定當前變換區塊之大小不滿足大小臨限值且使用ISP來分割當前視訊區塊，視訊寫碼器可選擇一或多個DCT之特定DCT (例如DCT-2)作為當前變換區塊之變換類型。在前述實例中之任一者中，視訊寫碼器可選擇變換類型包含無論用以預測當前視訊區塊之框內預測模式如何(例如無論用以對當前視訊進行框內預測的角度、DC或平面模式如何)均選擇變換類型。

在一些實例中，視訊寫碼器可始終執行變換類型推斷。在其他實例中，視訊寫碼器可在某些條件下執行變換類型推斷。舉例而言，視訊寫碼器可回應於判定針對當前視訊區塊啟用多重變換選擇(MTS)而推斷當前變換區塊之變換類型。在一些實例中，視訊寫碼器可基於一或多個語法元素(例如sps_explicit_mts_intra_enabled_flag)之值來判定針對當前視訊區塊是否啟用MTS。

在一些實例中，視訊寫碼器可推斷用於執行水平變換之變換類型(亦即供水平使用之變換類型)，且推斷用於執行豎直變換之變換類型(亦即供豎直使用之變換類型)。視訊寫碼器可使用共同演算法來推斷供水平使用及豎直使用之變換類型。舉例而言，視訊寫碼器可基於當前變換區塊之寬度是否滿足寬度大小臨限值以及是否使用ISP來分割包括當前變換區塊之當前視訊區塊來推斷供水平使用的變換類型，且基於當前變換區塊之高度是否滿足高度大小臨限值以及是否使用ISP來分割包括當前變換區塊之當前視訊區塊來推斷供豎直使用的變換類型。在一些實例中，視訊寫碼器可針對水平變換類型推斷及豎直變換類型推斷使用相同大小臨限值。舉例而言，在大小臨限值包括上限及下限的情況下，寬度大小臨限值之上限及下限可等於高度大小臨限值之上限及下限。作為一個特定實例，寬度臨限值及高度臨限值兩者之下限可為4，且寬度臨限值及高度臨限值兩者之上限可為16。

在一些實例中，為導出(亦即推斷)當前係數區塊之變換類型，視訊寫碼器可選擇DST-7變換以變換小於或等於樣本(例如明度樣本)之臨限(例如8、16、32)數目的任何列或行，且選擇DCT-2變換以變換大於樣本之臨限數目的任何列或行。

針對VVC草案4 (例如JVET-M1001)，可藉由用以下各者替換表8至表15來達成所提出變化之一實例： trTypeHor = ( nTbW ＞= 2 && nTbW ＜= 16) ? 1 : 0 trTypeVer = ( nTbH ＞= 2 && nTbH ＜= 16 ) ? 1 : 0 其中「0」及「1」分別表示DCT-2及DST-7。

可禁止使用ISP分割之區塊具有僅帶有兩個樣本的列/行。如此，本發明提出2點DST-7。2點DST-7矩陣之項可如下(其僅引入額外記憶體之4位元組)： { 48 77 } { 77 -48 }

可替代地，所提出變化之一實例可藉由如下修改VVC草案4來達成： trTypeHor = ( nTbW ＞= 4 && nTbW ＜= 16 && nTbW ＜= nTbH ) ? 1 : 0 (8-1029) trTypeVer = ( nTbH ＞= 4 && nTbH ＜= 16 && nTbH ＜= nTbW ) ? 1 : 0 (8-1030) 其中「0」及「1」分別表示DCT-2及DST-7，且該等變化(亦即刪除部分)呈下劃線及斜體形式。

本發明一般可指「發信」某些資訊，諸如語法元素。術語「發信」一般可指用以對經編碼視訊資料進行解碼之語法元素及/或其他資料之值的傳達。亦即，視訊編碼器200可在位元串流中發信語法元素的值。一般而言，發信係指在位元串流中產生值。如上文所提及，源器件102可實質上即時或不即時地將位元串流傳送至目的地器件116，諸如可在將語法元素儲存至儲存器件112以供目的地器件116稍後擷取時發生。

圖2A及圖2B為說明實例四分樹二元樹(QTBT)結構130及對應寫碼樹單元(CTU) 132之概念圖。實線表示四分樹***，且點線指示二元樹***。在二元樹之各***(亦即非葉)節點中，一個旗標經發信以指示使用哪一***類型(亦即水平或豎直)，其中在此實例中，0指示水平***且1指示豎直***。對於四分樹***，因為四分樹節點將區塊水平及豎直地***為具有相等大小之4個子區塊，所以不需要指示***類型。因此，視訊編碼器200可編碼且視訊解碼器300可解碼QTBT結構130之區樹層級(亦即實線)的語法元素(諸如***資訊)及QTBT結構130之預測樹層級(亦即虛線)的語法元素(諸如***資訊)。視訊編碼器200可編碼且視訊解碼器300可對由QTBT結構130之端葉節點表示之CU的視訊資料(諸如預測及變換資料)進行解碼。

一般而言，圖2B之CTU 132可與定義對應於在第一層級及第二層級處的QTBT結構130之節點的區塊之大小的參數相關聯。此等參數可包括CTU大小(表示樣本中CTU 132之大小)、最小四分樹大小(MinQTSize，表示最小所允許四分樹葉節點大小)、最大二元樹大小(MaxBTSize，表示最大所允許二元樹根節點大小)、最大二元樹深度(MaxBTDepth，表示最大所允許二元樹深度)及最小二元樹大小(MinBTSize，表示最小所允許二元樹葉節點大小)。

QTBT結構的對應於CTU之根節點可具有在QTBT結構之第一層級處的四個子節點，該等子節點中之每一者可根據四分樹分割來進行分割。亦即，第一層級之節點為葉節點(不具有子節點)或具有四個子節點。QTBT結構130之實例表示諸如包括具有分枝之實線的父節點及子節點之節點。若第一層級之節點不大於最大所允許二元樹根節點大小(MaxBTSize)，則其可藉由各別二元樹進一步分割。一個節點之二元樹***可反覆，直至由***產生之節點達至最小所允許二元樹葉節點大小(MinBTSize)或最大所允許二元樹深度(MaxBTDepth)為止。QTBT結構130之實例表示諸如具有分枝之虛線的節點。二元樹葉節點稱為寫碼單元(CU)，其在不經任何進一步分割之情況下用於預測(例如圖像內或圖像間預測)及變換。如上文所論述，CU亦可稱為「視訊區塊」或「區塊」。

在QTBT分割結構之一個實例中，CTU大小經設定為128×128 (明度樣本及兩個對應64×64色度樣本)，MinQTSize經設定為16×16，MaxBTSize經設定為64×64，MinBTSize (對於寬度及高度兩者)經設定為4，且MaxBTDepth經設定為4。四元樹分割首先應用於CTU以產生四分樹葉節點。四分樹葉節點可具有16×16 (亦即MinQTSize)至128×128 (亦即CTU大小)之大小。若葉四分樹節點為128×128，則其將不藉由二元樹進一步***，此係由於大小超過MaxBTSize (亦即在此實例中，64×64)。否則，葉四分樹節點將藉由二元樹進一步分割。因此，四分樹葉節點亦為二元樹之根節點，且具有為0之二元樹深度。當二元樹深度達至MaxBTDepth (在此實例中為4)時，不准許進一步***。若二元樹節點具有等於MinBTSize (在此實例中為4)之寬度時，其暗示不准許進一步水平***。類似地，具有等於MinBTSize之高度的二元樹節點暗示不准許對彼二元樹節點進行進一步豎直***。如上文所指出，二元樹之葉節點稱為CU，且根據預測及變換來進一步處理而不進一步分割。

圖3為說明可執行本發明之技術的實例視訊編碼器200之方塊圖。出於解釋之目的而提供圖3，且不應將其視為對如本發明中所廣泛例示及描述之技術的限制。出於解釋之目的，本發明在諸如HEVC視訊寫碼標準及研發中之H.266視訊寫碼標準的視訊寫碼標準之上下文中描述視訊編碼器200。然而，本發明之技術不限於此等視訊寫碼標準，且一般可適用於視訊編碼及解碼。

在圖3之實例中，視訊編碼器200包括視訊資料記憶體230、模式選擇單元202、殘餘產生單元204、變換處理單元206、量化單元208、反量化單元210、反變換處理單元212、重建構單元214、濾波器單元216、經解碼圖像緩衝器(DPB) 218及熵編碼單元220。視訊資料記憶體230、模式選擇單元202、殘餘產生單元204、變換處理單元206、量化單元208、反量化單元210、反變換處理單元212、重建構單元214、濾波器單元216、DPB 218及熵編碼單元220中之任一者或全部可實施於一或多個處理器或處理電路中。此外，視訊編碼器200可包括額外或替代處理器或處理電路以執行此等及其他功能。

視訊資料記憶體230可儲存待由視訊編碼器200之組件編碼的視訊資料。視訊編碼器200可自例如視訊源104 (圖1)接收儲存於視訊資料記憶體230中之視訊資料。DPB 218可充當參考圖像記憶體，其儲存參考視訊資料以供視訊編碼器200預測後續視訊資料。視訊資料記憶體230及DPB 218可由多種記憶體器件中之任一種形成，該等記憶體器件諸如動態隨機存取記憶體(DRAM)，包括同步DRAM (SDRAM)、磁阻式RAM (MRAM)、電阻式RAM (RRAM)或其他類型之記憶體器件。視訊資料記憶體230及DPB 218可由相同記憶體器件或單獨記憶體器件提供。在各種實例中，視訊資料記憶體230可與視訊編碼器200之其他組件一起在晶片上，如所說明，或相對於彼等組件在晶片外。

在本發明中，對視訊資料記憶體230之參考不應解譯為將記憶體限於在視訊編碼器200內部(除非特別如此描述)，或將記憶體限於在視訊編碼器200外部(除非特別如此描述)。實際上，對視訊資料記憶體230之參考應理解為儲存視訊編碼器200接收以用於編碼之視訊資料(例如待經編碼之當前區塊的視訊資料)的參考記憶體。圖1之記憶體106亦可提供對來自視訊編碼器200之各種單元之輸出的暫時儲存。

說明圖3之各種單元以輔助理解由視訊編碼器200執行的操作。該等單元可實施為固定功能電路、可程式化電路或其組合。固定功能電路係指提供特定功能性且在可執行之操作上經預設定的電路。可程式化電路係指可經程式化以執行各種任務且在可執行之操作中提供可撓式功能性的電路。舉例而言，可程式化電路可執行促使可程式化電路以由軟體或韌體之指令定義的方式操作之軟體或韌體。固定功能電路可執行軟體指令(例如以接收參數或輸出參數)，但固定功能電路執行之操作的類型一般為不可變的。在一些實例中，單元中之一或多者可為相異電路區塊(固定功能或可程式化)，且在一些實例中，一或多個單元可為積體電路。

視訊編碼器200可包括由可程式化電路形成之算術邏輯單元(ALU)、基本功能單元(EFU)、數位電路、類比電路及/或可程式化核心。在使用由可程式化電路執行之軟體來執行視訊編碼器200之操作的實例中，記憶體106 (圖1)可儲存視訊編碼器200接收及執行之軟體的目標碼，或視訊編碼器200內之另一記憶體(未展示)可儲存此類指令。

視訊資料記憶體230經組態以儲存所接收之視訊資料。視訊編碼器200可自視訊資料記憶體230擷取視訊資料之圖像，且將視訊資料提供至殘餘產生單元204及模式選擇單元202。視訊資料記憶體230中之視訊資料可為待經編碼之原始視訊資料。

模式選擇單元202包括運動估計單元222、運動補償單元224及框內預測單元226。模式選擇單元202可包括額外功能單元以根據其他預測模式來執行視訊預測。作為實例，模式選擇單元202可包括調色板單元、區塊內複製單元(其可為運動估計單元222及/或運動補償單元224之部分)、仿射單元、線性模型(LM)單元或其類似者。

模式選擇單元202一般協調多個編碼遍次以測試編碼參數之組合及此等組合之所得速率-失真值。編碼參數可包括CTU至CU之分割、CU之預測模式、CU之殘餘資料的變換類型、CU之殘餘資料的量化參數等。模式選擇單元202可最終選擇相比其他所測試組合具有更佳速率失真值的編碼參數之組合。

視訊編碼器200可將自視訊資料記憶體230擷取之圖像分割為一系列CTU，且將一或多個CTU囊封於圖塊內。模式選擇單元210可根據樹型結構，諸如上文所描述之QTBT結構或HEVC之四分樹結構來分割圖像之CTU。如上文所描述，視訊編碼器200可用根據樹狀結構分割CTU來形成一或多個CU。此CU一般亦可稱為「視訊區塊」或「區塊」。

一般而言，模式選擇單元202亦控制其組件(例如運動估計單元222、運動補償單元224及框內預測單元226)產生當前區塊(例如當前CU，或在HEVC中PU與TU之重疊部分)之預測區塊。對於當前區塊之框間預測，運動估計單元222可執行運動搜索以識別一或多個參考圖像(例如儲存於DPB 218中之一或多個經預先寫碼圖像)中之一或多個緊密匹配的參考區塊。特定言之，運動估計單元222可例如根據絕對差總和(SAD)、平方差總和(SSD)、平均值絕對差(MAD)、均方差(MSD)或其類似者來計算表示潛在參考區塊與當前區塊之類似程度的值。運動估計單元222一般可使用當前區塊與所考慮之參考區塊之間的逐樣本差來執行此等計算。運動估計單元222可識別具有由此等計算產生之最低值的參考區塊，從而指示最緊密匹配當前區塊之參考區塊。

運動估計單元222可形成一或多個運動向量(MV)，該一或多個運動向量相對於當前圖像中之當前區塊的位置定義參考圖像中之參考區塊的位置。運動估計單元222可隨後將運動向量提供至運動補償單元224。舉例而言，對於單向框間預測，運動估計單元222可提供單個運動向量，而對於雙向框間預測，運動估計單元222可提供兩個運動向量。運動補償單元224可隨後使用運動向量來產生預測區塊。舉例而言，運動補償單元224可使用運動向量來擷取參考區塊之資料。作為另一實例，若運動向量具有分數樣本精確度，則運動補償單元224可根據一或多個內插濾波器為預測區塊內插值。此外，對於雙向框間預測，運動補償單元224可擷取由各別運動向量識別之兩個參考塊的資料，且例如經由逐樣本求平均值或求加權平均值來組合所擷取之資料。

作為另一實例，對於框內預測，或框內預測寫碼，框內預測單元226可自與當前區塊相鄰之樣本產生預測區塊。舉例而言，對於定向模式，框內預測單元226一般可在數學上組合相鄰樣本的值，且在橫跨當前區塊之所定義方向上填入此等計算值以產生預測區塊。作為另一實例，對於DC模式，框內預測單元226可計算與當前區塊相鄰之樣本的平均值，且產生預測區塊以針對預測區塊之各樣本包括此所得平均值。

模式選擇單元202將預測區塊提供至殘餘產生單元204。殘餘產生單元204自視訊資料記憶體230接收當前區塊之原始未經寫碼版本，且自模式選擇單元202接收預測區塊之原始未經寫碼版本。殘餘產生單元204計算當前區塊與預測區塊之間的逐樣本差。所得逐樣本差定義當前區塊之殘餘區塊。在一些實例中，殘餘產生單元204亦可判定殘餘區塊中之樣本值之間的差，以使用殘餘差動脈碼調變(RDPCM)來產生殘餘區塊。在一些實例中，可使用執行二進位減法之一或多個減法器電路來形成殘餘產生單元204。

在模式選擇單元202將CU分割為PU之實例中，各PU可與明度預測單元及對應色度預測單元相關聯。視訊編碼器200及視訊解碼器300可支援具有各種大小之PU。如上文所指示，CU之大小可指CU之明度寫碼區塊的大小，且PU之大小可指PU之明度預測單元的大小。假定特定CU之大小為2N×2N，則視訊編碼器200可支援用於框內預測之2N×2N或N×N的PU大小，及用於框間預測之2N×2N、2N×N、N×2N、N×N或類似大小的對稱PU大小。視訊編碼器200及視訊解碼器300亦可支援用於框間預測之2N×nU、2N×nD、nL×2N及nR×2N之PU大小的不對稱分割。

在模式選擇單元不將CU進一步分割為PU之實例中，各CU可與明度寫碼區塊及對應色度寫碼區塊相關聯。如上，CU之大小可指CU之明度寫碼區塊的大小。視訊編碼器200及視訊解碼器120可支援2N×2N、2N×N或N×2N之CU大小。

對於諸如區塊內複製模式寫碼、仿射模式寫碼及線性模型(LM)模式寫碼之其他視訊寫碼技術，如少數實例，模式選擇單元202經由與寫碼技術相關聯之各別單元產生正在編碼之當前區塊的預測區塊。在諸如調色板模式寫碼之一些實例中，模式選擇單元202可能不產生預測區塊，而是產生指示基於選定調色板來重建構區塊之方式的語法元素。在此類模式中，模式選擇單元202可將此等語法元素提供至熵編碼單元220以待編碼。

如上文所描述，殘餘產生單元204接收當前區塊及對應預測區塊之視訊資料。殘餘產生單元204隨後產生當前區塊之殘餘區塊。為產生殘餘區塊，殘餘產生單元204計算預測區塊與當前區塊之間的逐樣本差。

變換處理單元206將一或多個變換應用於殘餘區塊以產生變換係數之區塊(在本文中稱為「變換係數區塊」)。變換處理單元206可將各種變換應用於殘餘區塊以形成變換係數區塊。舉例而言，變換處理單元206可將離散餘弦變換(DCT)、方向變換、Karhunen-Loeve變換(KLT)或概念上類似的變換應用於殘餘區塊。在一些實例中，變換處理單元206可對殘餘區塊執行多個變換，例如初級變換及次級變換，諸如旋轉變換。在一些實例中，變換處理單元206不將變換應用於殘餘區塊。如本文中所論述，變換處理單元206可將不同變換選擇性地應用於不同係數區塊(亦即變換係數之區塊)。

量化單元208可量化變換係數區塊中之變換係數，以產生經量化變換係數區塊。量化單元208可根據與當前區塊相關聯之量化參數(QP)值來量化變換係數區塊的變換係數。視訊編碼器200 (例如經由模式選擇單元202)可藉由調整與CU相關聯之QP值來調整應用於與當前區塊相關聯之係數區塊的量化程度。量化可引入資訊之損耗，且因此，經量化變換係數可具有相比由變換處理單元206產生之原始變換係數更低的精確度。

反量化單元210及反變換處理單元212可將反量化及反變換分別應用於經量化變換係數區塊，以根據變換係數區塊來重建構殘餘區塊。重建構單元214可基於經重建構殘餘區塊及由模式選擇單元202產生之預測區塊來產生對應於當前區塊之經重建構區塊(儘管可能具有一定程度的失真)。舉例而言，重建構單元214可將經重建構殘餘區塊之樣本添加至來自由模式選擇單元202產生之預測區塊的對應樣本，以產生經重建構區塊。

濾波器單元216可對經重建構區塊執行一或多個濾波操作。舉例而言，濾波器單元216可執行解區塊操作以沿CU之邊緣減少區塊效應假影。在一些實例中，可跳過濾波器單元216之操作。

視訊編碼器200將經重建構區塊儲存於DPB 218中。舉例而言，在不需要濾波器單元224之操作的實例中，重建構單元214可將經重建構區塊儲存至DPB 218。在需要濾波器單元224之操作的實例中，濾波器單元216可將經濾波之經重建構區塊儲存至DPB 218。運動估計單元222及運動補償單元224可自DPB 218擷取由經重建構(及可能經濾波)區塊形成之參考圖像，以對隨後經編碼圖像之區塊進行框間預測。另外，框內預測單元226可使用當前圖像之DPB 218中的經重建區塊以對當前圖像中之其他區塊進行框內預測。

一般而言，熵編碼單元220可對自視訊編碼器200之其他功能組件接收的語法元素進行熵編碼。舉例而言，熵編碼單元220可對來自量化單元208之經量化變換係數區塊進行熵編碼。作為另一實例，熵編碼單元220可對來自模式選擇單元202之預測語法元素(例如框間預測之運動資訊或框內預測之框內模式資訊)進行熵編碼。熵編碼單元220可對語法元素(其為視訊資料之另一實例)執行一或多個熵編碼操作以產生經熵編碼資料。舉例而言，熵編碼單元220可對資料執行上下文自適應可變長度寫碼(CAVLC)操作、CABAC操作、可變至可變(V2V)長度寫碼操作、基於語法的上下文自適應二進位算術寫碼(SBAC)操作、機率區間分割熵(PIPE)寫碼操作、指數-哥倫布(Exponential-Golomb)編碼操作或另一類型之熵編碼操作。在一些實例中，熵編碼單元220可以略過模式(bypass mode)操作，其中語法元素未經熵編碼。

視訊編碼器200可輸出位元串流，該位元串流包括重建構圖塊或圖像之區塊所需要的經熵編碼語法元素。特定而言，熵編碼單元220可輸出位元串流。

相對於區塊來描述上文所描述之操作。此描述應理解為用於明度寫碼區塊及/或色度寫碼區塊之操作。如上文所描述，在一些實例中，明度寫碼區塊及色度寫碼區塊為CU之明度及色度分量。在一些實例中，明度寫碼區塊及色度寫碼區塊為PU之明度及色度分量。

在一些實例中，無需針對色度寫碼區塊重複相對於明度寫碼區塊執行之操作。作為一個實例，無需重複識別明度寫碼區塊之運動向量(MV)及參考圖像的操作來識別色度區塊之MV及參考圖像。實際上，明度寫碼區塊之MV可經縮放以判定色度區塊之MV，且參考圖像可為相同的。作為另一實例，框內預測程序可針對明度寫碼區塊及色度寫碼區塊為相同的。

視訊編碼器200表示經組態以編碼視訊資料之器件的一實例，該器件包括經組態以儲存視訊資料之記憶體及一或多個處理單元，該一或多個處理單元實施於電路中且經組態以針對視訊區塊之當前係數區塊自複數個變換類型導出變換類型。視訊寫碼器可使用選定變換類型來變換當前係數區塊以獲得視訊區塊之經重建構殘餘資料的區塊；以及基於視訊區塊之經重建構殘餘資料來重建構視訊區塊。

圖4為說明可執行本發明之技術的實例視訊解碼器300之方塊圖。出於解釋之目的而提供圖4，且其並不限制如本發明中所廣泛例示及描述之技術。出於解釋之目的，本發明描述視訊解碼器300係根據JEM、VVC及HEVC之技術來描述。然而，本發明之技術可由經組態為其他視訊寫碼標準的視訊寫碼器件來執行。

在圖4之實例中，視訊解碼器300包括經寫碼圖像緩衝器(CPB)記憶體320、熵解碼單元302、預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310、濾波器單元312及經解碼圖像緩衝器(DPB) 314。CPB記憶體320、熵解碼單元302、預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310、濾波器單元312及DPB 314中之任一者或全部可實施於一或多個處理器或處理電路中。此外，視訊解碼器300可包括額外或替代處理器或處理電路以執行此等及其他功能。

預測處理單元304包括運動補償單元316及框內預測單元318。預測處理單元304可包括根據其他預測模式來執行預測之附加單元。作為實例，預測處理單元304可包括調色板單元、區塊內複製單元(其可形成運動補償單元318之部分)、仿射單元、線性模型(LM)單元或其類似者。在其他實例中，視訊解碼器300可包括更多、更少或不同功能組件。

CPB記憶體320可儲存待由視訊解碼器300之組件解碼之視訊資料，諸如經編碼視訊位元串流。可例如自電腦可讀媒體110 (圖1)獲得儲存於CPB記憶體320中之視訊資料。CPB記憶體320可包括儲存來自經編碼視訊位元串流之經編碼視訊資料(例如語法元素)的CPB。另外，CPB記憶體320可儲存除經寫碼圖像之語法元素以外的視訊資料，諸如表示來自視訊解碼器300之各種單元之輸出的暫時資料。DPB 314一般儲存經解碼圖像，當對經編碼視訊位元串流之後續資料或圖像進行解碼時，視訊解碼器300可輸出該等經解碼圖像且/或將其用作參考視訊資料。CPB記憶體320及DPB 314可由多種記憶體器件中之任一種形成，該等記憶體器件諸如動態隨機存取記憶體(DRAM)，包括同步DRAM (SDRAM)、磁阻式RAM (MRAM)、電阻式RAM (RRAM)或其他類型之記憶體器件。CPB記憶體320及DPB 314可由相同記憶體器件或獨立記憶體器件提供。在各種實例中，CPB記憶體320可與視訊解碼器300之其他組件一起在晶片上，或相對於彼等組件在晶片外。

另外地或可替代地，在一些實例中，視訊解碼器300可自記憶體120 (圖1)擷取經寫碼視訊資料。亦即，記憶體120可藉由CPB記憶體320來儲存如上文所論述之資料。同樣地，當視訊解碼器300之功能性中的一些或全部實施於軟體中以由視訊解碼器300之處理電路執行時，記憶體120可儲存待由視訊解碼器300執行之指令。

說明圖4中所展示之各種單元以輔助理解由視訊解碼器300執行的操作。該等單元可實施為固定功能電路、可程式化電路或其組合。類似於圖3，固定功能電路係指提供特定功能性，且在可執行之操作上經預設定的電路。可程式化電路係指可經程式化以執行各種任務且在可執行之操作中提供可撓式功能性的電路。舉例而言，可程式化電路可執行促使可程式化電路以由軟體或韌體之指令定義的方式操作之軟體或韌體。固定功能電路可執行軟體指令(例如以接收參數或輸出參數)，但固定功能電路執行之操作的類型一般為不可變的。在一些實例中，單元中之一或多者可為相異電路區塊(固定功能或可程式化)，且在一些實例中，一或多個單元可為積體電路。

視訊解碼器300可包括ALU、EFU、數位電路、類比電路及/或由可程式化電路形成之可程式化核心。在藉由執行於可程式化電路上之軟體來執行視訊解碼器300之操作的實例中，晶片上或晶片外記憶體可儲存視訊解碼器300接收及執行之軟體的指令(例如目標碼)。

熵解碼單元302可自CPB接收經編碼視訊資料，且對視訊資料進行熵解碼以再生語法元素。預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310及濾波器單元312可基於自位元串流提取之語法元素來產生經解碼視訊資料。

一般而言，視訊解碼器300在逐區塊基礎上重建構圖像。視訊解碼器300可單獨對各區塊執行重建構操作(其中當前經重建構(亦即經解碼)之區塊可稱為「當前區塊」)。

熵解碼單元302可對定義經量化變換係數區塊之經量化變換係數的語法元素以及諸如量化參數(QP)及/或變換模式指示之變換資訊進行熵解碼。反量化單元306可使用與經量化變換係數區塊相關聯之QP來判定量化程度，且同樣判定反量化程度以供反量化單元306應用。反量化單元306可例如執行逐位元左移操作以將經量化變換係數反量化。反量化單元306可藉此形成包括變換係數之變換係數區塊。

在反量化單元306形成變換係數區塊之後，反變換處理單元308可將一或多個反變換應用於變換係數區塊以產生與當前區塊相關聯的殘餘區塊。舉例而言，反變換處理單元308可將反DCT、反整數變換、反Karhunen-Loeve變換(KLT)、反旋轉變換、反定向變換或另一反變換應用於係數區塊。如本文中所論述，變換處理單元206可將不同變換選擇性地應用於不同係數區塊(亦即變換係數之區塊)。

此外，預測處理單元304根據由熵解碼單元302熵解碼之預測資訊語法元素來產生預測區塊。舉例而言，若預測資訊語法元素指示當前區塊經框間預測，則運動補償單元316可產生預測區塊。在此情況下，預測資訊語法元素可指示DPB 314中之參考圖像(自其擷取參考區塊)，以及運動向量，該運動向量識別相對於當前圖像中之當前區塊之位置的參考圖像中之參考區塊的位置。運動補償單元316一般可以與關於運動補償單元224 (圖3)所描述之方式實質上類似的方式執行框間預測程序。

作為另一實例，若預測資訊語法元素指示當前區塊經框內預測，則框內預測單元318可根據藉由預測資訊語法元素指示之框內預測模式來產生預測區塊。同樣，框內預測單元318一般可以與關於框內預測單元226 (圖3)所描述之方式實質上類似的方式執行框內預測程序。框內預測單元318可將相鄰樣本之資料自DPB 314擷取至當前區塊。

重建構單元310可使用預測區塊及殘餘區塊重建構當前區塊。舉例而言，重建構單元310可將殘餘區塊之樣本添加至預測區塊的對應樣本以重建構當前區塊。

濾波器單元312可對經重建構區塊執行一或多個濾波操作。舉例而言，濾波器單元312可執行解區塊操作以沿經重建構區塊之邊緣減少區塊效應假影。濾波器單元312之操作不一定在所有實例中進行。

視訊解碼器300可將經重建構區塊儲存於DPB 314中。如上文所論述，DPB 314可將諸如用於框內預測之當前圖像及用於後續運動補償之經預先解碼圖像之樣本的參考資訊提供至預測處理單元304。此外，視訊解碼器300可輸出來自DPB的經解碼圖像以用於後續呈現於諸如圖1之顯示器件118的顯示器件上。

以此方式，視訊解碼器300表示視訊解碼器件之一實例，該視訊解碼器件包括經組態以儲存視訊資料之記憶體及一或多個處理單元，該一或多個處理單元實施於電路中且經組態以針對視訊區塊之當前係數區塊自複數個變換類型導出變換類型。視訊寫碼器可使用選定變換類型來變換當前係數區塊以獲得視訊區塊之經重建構殘餘資料的區塊；以及基於視訊區塊之經重建構殘餘資料來重建構視訊區塊。

圖5為說明具有自適應變換選擇之混合視訊編碼系統的方塊圖。圖5之視訊編碼器200'可被視為說明類似於圖1及圖3之視訊編碼器200的視訊編碼系統。舉例而言，視訊編碼器200'之區塊預測202'、區塊變換206'、量化208'、反量化210'、反變換212'、圖框緩衝器218'及熵編碼220'可被視為執行類似於圖3的視訊編碼器200之模式選擇單元202、變換處理單元206、量化單元208、反量化單元210、反變換處理單元212、經解碼圖像緩衝器218及熵編碼單元220的操作。如圖5中所示，視訊編碼器200'可包括變換庫207'，該變換庫207'可經組態以與區塊變換206'協同操作以變換殘餘資料。舉例而言，變換庫207'及區塊變換206'可共同選擇及執行預測殘餘之各區塊的各種變換(例如各種DCT或DST)。如上文所論述，在一些實例中，變換庫207'及區塊變換206'可對變換旁側資訊之選擇進行發信。舉例而言，區塊變換206'可促使熵編碼220'對明確指示所使用變換之語法元素(亦即t )進行編碼。

在一些實例中，變換庫207'及區塊變換206'可以可分離方式計算區塊變換。舉例而言，為減小計算複雜度，變換庫207'及區塊變換206'可獨立地變換水平線及豎直線，如圖6中所示。換言之，可獨立地變換沿圖6中之水平箭頭及豎直箭頭的樣本。

在HEVC之前的視訊寫碼標準中，僅使用固定可分離轉換，其中既豎直且亦水平地使用DCT-2。在HEVC中，除DCT-2之外，亦針對4×4區塊採用DST-7作為固定可分離變換。US-2016-0219290-A1及US-2018-0020218-A1描述彼等固定變換之自適應擴展，且US-2016-0219290-A1中之AMT的一實例已用於Joint Video Experts Team (JVET)之Joint Experimental Model (JEM)、ITU-T SG 16 WP 3之Joint Video Experts Team (JVET)及ISO/IEC JTC 1/SC 29/WG 11、JEM Software中，https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/ tags/HM-16.6-JEM-7.0。

根據本發明之一或多種技術，視訊寫碼器(例如視訊編碼器及/或視訊解碼器)可執行隱式變換選擇。舉例而言，視訊寫碼器可應用一或多組規則以隱式地選擇用於變換區塊之殘餘資料的變換。以此方式，視訊寫碼器可提高寫碼效率。特定言之，本發明之技術使得視訊解碼器能夠獲得使用自適應變換選擇之益處而無實際上發信所選變換的開銷。

在VVC Draft 4中，存在相對複雜且並不提供良好寫碼效能之兩種隱式變換導出。本發明提出可提供類似或甚至更佳的壓縮/寫碼效能/效率之較簡單替代導出。

下文論述VVC Draft 4中之相關技術及參考軟體VTM-4.0)。

在VVC Draft 4/VTM-4.0中，多重變換選擇(MTS)使用高級旗標來判定該變換是否(i)經明確發信以在多個候選者當中進行選擇，或(ii)基於區塊形狀來隱式地導出。在後一情況下，作為水平變換或豎直變換的DST-7與DCT-2之組合達至大小16。具體而言，以下區塊形狀依賴型條件定義VTM-4.0中之隱式MTS： - 若區塊之寬度與高度相等且皆小於或等於16，則在水平方向及豎直方向兩者上使用DST-7。 - 若區塊之寬度小於其高度且該寬度小於或等於16，則DST-7處於水平且在豎直方向上使用DCT-2。 - 若區塊之高度小於其寬度且該高度小於或等於16，則DST-7處於豎直且在水平方向上使用DCT-2。 - 否則，在兩個方向上使用DCT-2。

在VVC Draft 4/VTM-4.0中，當框內子區塊分割(ISP)用以寫碼明度區塊時，作出模式依賴型變換選擇，其中基於VVC Draft 4中之下表來導出水平變換及豎直變換(trTypeHor及trTypeVer)。表-視predModeIntra而定的trTypeHor及trTypeVer之規範

predModeIntra	trTypeHor	trTypeVer
INTRA_PLANAR, INTRA_ANGULAR31, INTRA_ANGULAR32, INTRA_ANGULAR34, INTRA_ANGULAR36, INTRA_ANGULAR37	( nTbW ＞= 4 && nTbW ＜= 16 ) ? 1 : 0	( nTbH ＞= 4 && nTbH ＜= 16 ) ? 1 : 0
INTRA_ANGULAR33, INTRA_ANGULAR35	0	0
INTRA_ANGULAR2, INTRA_ANGULAR4,…,INTRA_ANGULAR28, INTRA_ANGULAR30, INTRA_ANGULAR39, INTRA_ANGULAR41,…,INTRA_ANGULAR63, INTRA_ANGULAR65	( nTbW ＞= 4 && nTbW ＜= 16 ) ? 1 : 0	0
INTRA_ANGULAR3, INTRA_ANGULAR5,…, INTRA_ANGULAR27, INTRA_ANGULAR29, INTRA_ANGULAR38, INTRA_ANGULAR40,…,INTRA_ANGULAR64, INTRA_ANGULAR66	0	( nTbH ＞= 4 && nTbH ＜= 16 ) ? 1 : 0

如上文所論述且根據本發明之一或多種技術，視訊寫碼器可應用一或多個規則集合以基於可用旁側資訊來隱式地導出變換選擇。

作為第一實例，視訊寫碼器可判定僅在某些條件下使用DST-7對寫碼單元/變換單元(CU/TU)進行寫碼。舉例而言，若在編解碼器中所允許最大1-D變換大小為N，則視訊寫碼器可判定DST-7可用於所有可能大小。舉例而言，對於給定N×M區塊(如圖7中所示，其N列各自具有M個樣本，且其M行具有N個樣本)，視訊寫碼器可判定可豎直地使用N點DST-7且可水平地使用M點DST-7。

作為第二實例，對於尺寸之選定集合，視訊寫碼器可判定可使用DST-7與DCT-2的不同組合。舉例而言，視訊寫碼器可判定針對具有小於或等於K個樣本之任何列或行可應用DST-7，而DCT-2可用以變換具有大於K之樣本數目的任何列或行。舉例而言，在圖7之實例中，若N小於K且M大於K，則視訊寫碼器可判定豎直地使用N點DST-7且水平地使用M點DCT-2。同樣在圖7之實例中，若N及M兩者皆小於K，則視訊寫碼器可判定既水平且亦豎直地使用DST-7。

作為第三實例，若分割CU/TU，則視訊解碼器可判定所有分區均可使用相同隱式變換選擇方案。在一些實例中，視訊寫碼器可針對所有經分割子區塊(子TU或子CU)使用DST-7。在一些實例中，視訊寫碼器可視在分割之後的區塊尺寸而使用DST-7與DCT-2之組合。在一些實例中，對於使用VVC (VTM-4.0)中之框內子區塊分割(ISP)的寫碼區塊，視訊寫碼器可視如上文在第二實例中所論述之區塊的尺寸而使用DST-7與DCT-2之組合。舉例而言，對於具有小於或等於16個樣本之任何列或行，視訊寫碼器可為DST-7。否則，視訊寫碼器可使用DCT-2來變換具有大於16之樣本數目的任何列或行。在一些實例中，由於ISP可具有帶有兩個樣本之列/行，因而視頻編碼器可使用2點DST-7。在先前標準中，尚未使用2點DST-7。如此，視訊寫碼器可使用如下2點DST-7矩陣之經修改項： { 48, 77 } { 77, -48 }

作為第四實例，視訊寫碼器可基於框內預測模式(模式說明於圖8中)來導出變換。對於框內平面及DC模式，視訊寫碼器可在水平方向及豎直方向兩者上使用DST-7。對於框內對角線角度模式(圖8中之模式索引34)，視訊寫碼器可在水平方向及豎直方向兩者上使用DST-7。對於自2索引至66之角度模式，視訊寫碼器可將DST/DCT之不同組合應用於某些模式範圍，諸如模式索引[2, 3, …, 65, 66]之間的模式索引之預定義間隔。 1) 對於在2與30之間的給定整數T，所有角度模式[2,3,…,66]組成之間隔的範圍可如下定義： a. R₁ = [ 2, …, (33 - T)] b. R₂ = [ (34 - T), …, (34 + T)] c. R₃ = [ (35 + T), …, 66 ] 2) 對於在範圍R₂ 內之角度模式，可既水平且亦豎直地應用DST-7。 3) 對於在範圍R₁ 內之角度模式，可水平地應用DST-7且豎直地應用DCT-2。 4) 對於在範圍R₃ 內之角度模式，可水平地應用DCT-2且豎直地應用DST-7。

作為第五實例，除DST-7及DCT-2以外，視訊寫碼器可應用不同類型的DCT/DST (例如DST-4及DCT-8)與1-D識別變換之組合。

作為第六實例，視訊寫碼器可僅應用經框內預測之CU/TU之以上實例的一或多個組合。

作為第七實例，視訊寫碼器可僅應用經框間預測之CU/TU之以上實例的一或多個組合。

作為第八實例，視訊寫碼器可應用用於經框內及框間預測兩者之CU/TU之以上實例的一或多個組合。

作為第九實例，視訊寫碼器可應用用於明度通道或色度通道或明度通道及色度通道兩者之以上實例的一或多個組合。

圖9為說明用於編碼當前區塊之實例方法的流程圖。當前區塊可包含當前CU。儘管關於視訊編碼器200 (圖1及圖3)來描述，但應理解，其他器件可經組態以執行與圖9之方法類似的方法。舉例而言，圖5之視訊編碼器200'可執行與圖9之方法類似的方法。

在此實例中，視訊編碼器200最初預測當前區塊(350)。舉例而言，視訊編碼器200可形成當前區塊之預測區塊。視訊編碼器200可隨後計算當前區塊之殘餘區塊(352)。為計算殘餘區塊，視訊編碼器200可計算當前區塊之原始未經寫碼區塊與預測區塊之間的差。視訊編碼器200可隨後變換且量化殘餘區塊之係數(354)。如上文所論述，當變換殘餘區塊之係數時，視訊編碼器200可隱式地導出變換類型來使用。舉例而言，視訊編碼器200可使用下文參考圖11論述之技術來導出變換類型

隨後，視訊編碼器200可掃描殘餘區塊之經量化變換係數(356)。在掃描期間或在掃描之後，視訊編碼器200可對係數進行熵編碼(358)。舉例而言，視訊編碼器200可使用CAVLC或CABAC來編碼係數。視訊編碼器200可隨後輸出區塊之經熵寫碼資料(360)。

圖10為說明用於解碼當前視訊資料區塊之實例方法的流程圖。當前區塊可包含當前CU。儘管關於視訊解碼器300 (圖1及圖4)來描述，但應理解，其他器件可經組態以執行與圖10之方法類似的方法。

視訊解碼器300可接收當前區塊之經熵寫碼資料，諸如經熵寫碼預測資訊及對應於當前區塊之殘餘區塊的係數之經熵寫碼資料(370)。視訊解碼器300可對經熵寫碼資料進行熵解碼以判定當前區塊之預測資訊且再生殘餘區塊之係數(372)。視訊解碼器300可例如使用如由當前區塊之預測資訊所指示的框內或框間預測來預測當前區塊(374)，以計算當前區塊之預測區塊。視訊解碼器300可隨後反掃描再生係數(376)，以形成經量化變換係數之區塊。視訊解碼器300可隨後反量化及反變換係數以產生殘餘區塊(378)。如上文所論述，當變換殘餘區塊之係數時，視訊解碼器300可隱式地導出變換類型來使用。舉例而言，視訊解碼器300可使用下文參考圖11論述之技術來導出變換類型。視訊解碼器300可最終藉由將預測區塊與殘餘區塊組合來解碼當前區塊(380)。

圖11為說明根據本發明之一或多種技術的用於推斷視訊區塊之變換區塊之變換類型的實例方法之流程圖。圖11之技術可藉由視訊寫碼器(例如視訊編碼器200及/或視訊解碼器300)來執行。

視訊寫碼器可獲得當前視訊區塊之當前變換區塊(1102)。變換區塊可為基於由視訊位元串流解碼之一或多個語法元素(例如VVC Draft 4的殘餘寫碼語法表中所包括之語法元素)建構的變換係數之矩陣。當前視訊區塊可為寫碼單元(CU)。

視訊寫碼器可自當前變換區塊之複數個變換類型推斷變換類型。複數個變換類型可包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)。

如上文所論述，視訊寫碼器可基於一或多個因素來推斷變換類型，該一或多個因素諸如是否使用ISP及/或變換區塊之大小來分割當前視訊區塊。如圖11中所示，視訊寫碼器可判定使用ISP來分割當前視訊區塊(1104)。視訊寫碼器可基於一或多個語法元素(例如sps_isp_enabled_flag、intra_subpartitions_mode_flag及/或intra_subpartitions_split_flag)的值而判定使用ISP來分割當前視訊區塊。舉例而言，基於intra_subpartitions_split_flag語法元素，視訊寫碼器可判定不分割(例如不***)、水平地分割抑或豎直地分割當前視訊區塊。

回應於判定使用ISP來分割當前視訊區塊(1104)，視訊寫碼器可判定當前變換區塊之大小(1106)。舉例而言，視訊寫碼器可判定變換區塊之寬度及/或高度。在一些實例中，視訊寫碼器可分別判定各子分區之變換區塊大小。在其他實例中，視訊寫碼器可判定單個分區之變換區塊大小，且利用寫碼單元之各分區的所判定大小。

視訊寫碼器可判定當前變換區塊之大小是否滿足大小臨限值。舉例而言，如圖11中所示，視訊寫碼器可判定當前變換區塊之大小是否大於下限且小於上限(亦即是否(大小＞下限)及(大小＜上限)兩者皆為真) (1108)。如上文所論述，在一些實例中，下限可為4個樣本，且上限可為16個樣本)。

回應於判定當前變換區塊之大小滿足大小臨限值且使用ISP來分割當前視訊區塊，視訊寫碼器可選擇一或多個DST之特定DST作為選定變換類型。舉例而言，如圖11中所示，回應於判定當前變換區塊之大小滿足大小臨限值且使用ISP來分割當前視訊區塊，視訊寫碼器可選擇DST-7作為當前變換區塊之所推斷變換類型(1108、1110之「是」分支)。可替代地，回應於判定當前變換區塊之大小不滿足大小臨限值且使用ISP來分割當前視訊區塊，視訊寫碼器可選擇DCT-2作為當前變換區塊之所推斷變換類型(1108、1112之「否」分支)。

視訊寫碼器可使用選定變換類型來變換當前變換區塊以獲得視訊區塊之經重建構殘餘資料的區塊(1114)。舉例而言，在選定變換類型為DST-7之情況下，視訊寫碼器(例如視訊編碼器200/200'之反變換處理單元212/212'及/或視訊解碼器300之反變換處理單元308)可藉由應用反DST-7變換而將變換區塊之係數變換為經重建構殘餘資料。

視訊寫碼器可基於視訊區塊之經重建構殘餘資料來重建構視訊區塊(1116)。舉例而言，視訊編碼器可將殘餘資料添加至當前區塊之經框內預測樣本的區塊。在使用ISP分割視訊區塊之情況下，視訊編碼器可將經重建構殘餘資料之各別區塊添加至當前視訊區塊之每一各別子分區的經框內預測樣本之各別區塊。

以下編號實例可說明本發明之一或多個態樣：

實例1. 一種寫碼視訊資料之方法，該方法包含：針對視訊區塊之當前係數區塊自複數個變換類型導出變換類型；使用選定變換類型來變換當前係數區塊以獲得視訊區塊之經重建構殘餘資料的區塊；以及基於視訊區塊之經重建構殘餘資料來重建構視訊區塊。

實例2. 如實例1之方法，其中複數個變換類型包括一或多個離散餘弦變換(DCT)及/或一或多個離散正弦變換(DST)。

實例3. 如實例2之方法，其中一或多個DCT包括以下各者中之一或多者：DCT-1、DCT-2、DCT-3、DCT-4、DCT-5、DCT-6、DCT-7及DCT-8。

實例4. 如實例2及3中任一項之方法，其中一或多個DST包括以下各者中之一或多者：DST-1、DST-2、DST-3、DST-4、DST-5、DST-6、DST-7及DST-8。

實例5. 如實例1至4中任一項之方法，其中導出變換類型包含基於當前係數區塊之大小來導出變換類型。

實例6. 如實例5之方法，其中基於當前係數區塊之大小來導出變換類型包含選擇DST-7變換類型，其中所允許最大1-D變換大小為N。

實例7. 如實例6之方法，其中當前係數區塊具有尺寸N×M，且其中選擇DST-7變換類型包含選擇供豎直使用之N點DST-7變換以及選擇供水平使用之M點DST-7變換。

實例8. 如實例1至7之任何組合之方法，其中導出變換類型包含選擇DST-7變換與DCT-2變換之不同組合。

實例9. 如實例8之方法，其中選擇DST-7變換與DCT-2變換之不同組合包含：針對具有小於或等於K個樣本之任何列或行選擇DST-7變換；以及針對具有大於K個樣本之任何列或行選擇DCT-2變換。

實例10. 如實例1至9之任何組合之方法，其進一步包含：回應於判定視訊區塊經分割為複數個分區，而使用共同規則集合來選擇複數個分區中之每一者的係數區塊之各別變換類型。

實例11. 如實例10之方法，其中選擇複數個分區中之每一者的各別變換類型包含選擇複數個分區中之所有的係數區塊之DST-7。

實例12. 如實例10之方法，其中選擇複數個分區中之每一者的各別變換類型包含基於分區之尺寸來選擇DST-7變換與DCT-2變換之不同組合。

實例13. 如實例12之方法，其中基於分區之尺寸來選擇DST-7變換與DCT-2變換之不同組合包含：針對具有小於或等於臨限數目個樣本之任何列或行選擇DST-7變換；以及針對具有大於臨限數目個樣本之任何列或行選擇DCT-2變換。

實例14. 如實例13之方法，其中臨限值為16。

實例15. 如實例10至14之任何組合之方法，其中將視訊區塊分割為複數個分區包含使用框內子區塊分割(ISP)來分割視訊區塊。

實例16. 如實例15之方法，其中使用DST-7變換來變換包含使用以下2點DST-7矩陣來變換當前係數區塊： { 48, 77 } { 77, -48 }。

實例17. 如實例1至16之任何組合之方法，其進一步包含：判定用以預測視訊區塊之框內預測模式，其中導出視訊區塊之當前係數區塊的變換類型包含基於框內預測模式來導出視訊區塊之當前係數區塊的變換類型。

實例18. 如實例17之方法，其中基於框內預測模式來導出視訊區塊之當前係數區塊的變換類型包含：回應於判定框內預測模式為平面或DC模式，而選擇在水平方向及豎直方向兩者上的當前係數區塊之DST-7變換。

實例19. 如實例17或18中任一項之方法，其中基於框內預測模式來導出視訊區塊之當前係數區塊的變換類型包含：回應於判定框內預測模式為對角線角度模式，而選擇在水平方向及豎直方向兩者上的當前係數區塊之DST-7變換。

實例20. 如實例19之方法，其中對角線角度模式為模式索引34。

實例21. 如實例17至20中任一項之方法，其中基於框內預測模式來導出視訊區塊之當前係數區塊的變換類型包含：回應於判定框內預測模式為角度模式，而基於框內預測模式之模式索引來選擇當前係數區塊之變換類型。

實例22. 如實例21之方法，其中基於框內預測模式之模式索引來選擇當前係數區塊之變換類型包含：識別包括框內預測模式之模式索引的複數個範圍之範圍；以及基於所識別範圍來選擇當前係數區塊之變換類型。

實例23. 如實例22之方法，其中識別範圍包含：回應於判定模式索引在第一臨限值與第二臨限值之間而識別第一範圍；回應於判定模式索引在第二臨限值與第三臨限值之間而識別第二範圍；及回應於判定模式索引在第三臨限值與第四臨限值之間而識別第三範圍。

實例24. 如實例23之方法，其中：回應於判定模式索引在第一臨限值與第二臨限值之間而識別第一範圍包含：回應於判定模式索引在[ 2, …, (33 - T)]內而識別第一範圍；回應於判定模式索引在第二臨限值與第三臨限值之間而識別第二範圍包含回應於判定模式索引在[ (34 - T), …, (34 + T) ]內而識別第二範圍；回應於判定模式索引在第三臨限值與第四臨限值之間而識別第三範圍包含回應於判定模式索引在[ (35 + T), …, 66 ]內而識別第三範圍；且T為2與30之間的整數。

實例25. 如實例23或實例24之方法，其中基於所識別範圍來選擇當前係數區塊之變換類型包含：回應於識別第一範圍而選擇DST-7以供水平使用且選擇DCT-2以供豎直使用；回應於識別第二範圍而選擇DST-7以供水平及豎直使用；及回應於識別第三範圍而選擇DCT-2以供水平使用且選擇DST-7以供豎直使用。

實例26. 如實例1至25中任一項之方法，其中寫碼包含解碼。

實例27. 如實例1至26中任一項之方法，其中寫碼包含編碼。

實例28. 一種用於寫碼視訊資料之器件，該器件包含用於執行如實例1至27中任一項之方法的一或多個構件實例。

實例29. 如實例28之器件，其中一或多個構件包含實施於電路中之一或多個處理器。

實例30. 如實例28及29中任一項之器件，其進一步包含用以儲存視訊資料之記憶體。

實例31. 如實例28至30中任一項之器件，其進一步包含經組態以顯示經解碼視訊資料之顯示器。

實例32. 如實例28至31中任一項之器件，其中該器件包含以下各者中之一或多者：攝影機、電腦、行動器件、廣播接收器器件或機上盒。

實例33. 如實例28至32中任一項之器件，其中該器件包含視訊解碼器。

實例34. 如實例28至33中任一項之器件，其中該器件包含視訊編碼器。

實例35. 一種其上儲存有指令之電腦可讀儲存媒體，該等指令在經執行時促使一或多個處理器執行如實例1至25中任一項之方法。

將認識到，視實例而定，本文中所描述之技術中之任一種的某些動作或事件可以不同順序經執行、可經添加、合併或完全省去(例如並非全部所描述動作或事件均為實踐該等技術所必要)。此外，在某些實例中，可例如經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。

在一或多個實例中，所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或代碼儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸，且由基於硬體之處理單元執行。電腦可讀媒體可包括對應於諸如資料儲存媒體之有形媒體的電腦可讀儲存媒體或通信媒體，該通信媒體包括例如根據通信協定促進電腦程式自一處傳送至另一處之任何媒體。以此方式，電腦可讀媒體一般可對應於(1)非暫時性的有形電腦可讀儲存媒體，或(2)通信媒體，諸如信號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、代碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

藉助於實例而非限制，此電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用以儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。另外，任何連接被恰當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纜、雙絞線、DSL或無線技術(諸如紅外線、無線電及微波)包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而係針對非暫時性有形儲存媒體。如本文中所使用，碟片及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟，其中碟片通常以磁性方式再生資料，而光碟藉由雷射以光學方式再生資料。以上之組合亦應包括於電腦可讀媒體之範疇內。

指令可由一或多個處理器執行，該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效的整合或離散邏輯電路。因此，如本文中所使用之術語「處理器」及「處理電路」可指上述結構或適用於實施本文中所描述之技術之任何其他結構中的任一者。另外，在一些態樣中，本文中所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編解碼器中的專用硬體及/或軟體模組內。另外，可在一或多個電路或邏輯元件中充分實施該等技術。

可以多種器件或裝置來實施本發明之技術，該等器件或裝置包括無線手持機、積體電路(IC)或IC之集合(例如晶片集合)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣，但未必要求由不同硬體單元來實現。實際上，如上文所描述，可將各種單元組合於編解碼器硬體單元中，或藉由包括如上文所描述之一或多個處理器的互操作性硬體單元之集合結合合適的軟體及/或韌體來提供。

已描述各種實例。此等及其他實例在以下申請專利範圍之範疇內。

100:系統 102:源器件 104:視訊源 106:記憶體 108:輸出介面 110:電腦可讀媒體 112:儲存器件 114:檔案伺服器 116:目的地器件 118:顯示器件 120:記憶體 122:輸入介面 130:四分樹二元樹結構 132:寫碼樹單元 200:視訊編碼器 200':視訊編碼器 202:模式選擇單元 202':區塊預測 204:殘餘產生單元 206:變換處理單元 206':區塊變換 207':變換庫 208:量化單元 208':量化 210:反量化單元 210':反量化 212:反變換單元 212':反變換 214:重建構單元 216:濾波器單元 218:經解碼圖像緩衝器 218':圖框緩衝器 220:熵編碼單元 220':熵編碼 222:運動估計單元 224:運動補償單元 226:框內預測單元 230:視訊資料記憶體 300:視訊解碼器 302:熵解碼單元 304:預測處理單元 306:反量化單元 308:反變換處理單元 310:重建構單元 312:濾波器單元 314:經解碼圖像緩衝器 316:運動補償單元 318:框內預測單元 320:記憶體 350:步驟 352:步驟 354:步驟 356:步驟 358:步驟 360:步驟 370:步驟 372:步驟 374:步驟 376:步驟 378:步驟 380:步驟 1102:步驟 1104:步驟 1106:步驟 1108:步驟 1110:步驟 1112:步驟 1114:步驟 1116:步驟

圖1為說明可執行本發明之技術的實例視訊編碼及解碼系統之方塊圖。

圖2A及圖2B為說明實例四分樹二元樹(QTBT)結構及對應寫碼樹單元(CTU)之概念圖。

圖2C為說明另一實例四分樹結構及對應樹單元之概念圖。

圖3為說明可執行本發明之技術的實例視訊編碼器之方塊圖。

圖4為說明可執行本發明之技術的實例視訊解碼器之方塊圖。

圖5為說明具有自適應變換選擇之混合視訊編碼系統的方塊圖。

圖6為說明其中水平線及豎直線經獨立變換之可分離變換實施方案的概念圖。

圖7為說明根據本發明之一或多種技術的其中視訊寫碼器可隱式地導出變換之實例區塊的概念圖。

圖8為說明框內預測方向之概念圖。

圖9為說明用於編碼當前區塊之實例方法的流程圖。

圖10為說明用於解碼當前區塊之實例方法的流程圖。

圖11為說明根據本發明之一或多種技術的用於推斷視訊區塊之變換區塊之變換類型的實例方法之流程圖。

1102:步驟

1104:步驟

1106:步驟

1108:步驟

1110:步驟

1112:步驟

1114:步驟

1116:步驟

Claims

一種解碼視訊資料之方法，該方法包含：針對一當前視訊區塊之一當前變換區塊，自包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)之複數個變換類型推斷一變換類型，其中推斷該變換類型包含：判定該當前變換區塊之一大小；判定是否使用框內子區塊分割(ISP)來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之一特定DST作為選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。
如請求項1之方法，其中該一或多個DCT包括以下各者中之一或多者：一DCT-1、一DCT-2、一DCT-3、一DCT-4、一DCT-5、一DCT-6、一DCT-7及一DCT-8。
如請求項2之方法，其中該一或多個DST包括以下各者中之一或多者：一DST-1、一DST-2、一DST-3、一DST-4、一DST-5、一DST-6、一DST-7及一DST-8。
如請求項3之方法，其中判定該當前變換區塊之該大小滿足該大小臨限值包含判定該當前變換區塊之該大小大於一下限且小於一上限。
如請求項4之方法，其中選擇該特定DST包含回應於判定該當前變換區塊之該大小滿足該大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DST-7。
如請求項5之方法，其進一步包含：回應於判定該當前變換區塊之該大小不滿足該大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DCT之一特定DCT作為該選定變換類型。
如請求項6之方法，其中選擇該特定DCT包含回應於判定該當前變換區塊之該大小不滿足該大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DCT-2。
如請求項5之方法，其中選擇該變換類型包含無論用以預測該當前視訊區塊之一框內預測模式如何均選擇該變換類型。
如請求項8之方法，其中判定該當前變換區塊之該大小包含：判定該當前變換區塊之一寬度；以及判定該當前變換區塊之一高度。
如請求項9之方法，其中選擇該變換類型包含選擇供水平使用之一變換類型以及選擇供豎直使用之一變換類型，該方法進一步包含：回應於判定該當前變換區塊之該寬度滿足一寬度大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DST-7作為供水平使用之該選定變換類型；以及回應於判定該當前變換區塊之該高度滿足一高度大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DST-7作為供豎直使用之該選定變換類型。
如請求項10之方法，其中該寬度臨限值等於該高度臨限值。
如請求項11之方法，其中該寬度臨限值及該高度臨限值兩者皆為16個樣本。
如請求項12之方法，其中推斷該當前變換區塊之該變換類型包含回應於判定針對該當前視訊區塊啟用多重變換選擇(MTS)而推斷該當前變換區塊之該變換類型。
如請求項8之方法，其中是否使用ISP來分割該當前視訊區塊包含：基於自一視訊位元串流解碼之一或多個語法元素的值來判定是否使用ISP來分割該當前視訊區塊。
一種用於寫碼視訊資料之器件，該器件包含：一記憶體，其經組態以儲存視訊區塊；及一或多個處理器，其實施於電路中且經組態以：針對一當前視訊區塊之一當前變換區塊，自包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)之複數個變換類型推斷一變換類型，其中，為推斷該變換類型，該一或多個處理器經組態以：判定該當前變換區塊之一大小；判定是否使用框內子區塊分割(ISP)來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之一特定DST作為該選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。
如請求項15之器件，其中該一或多個DCT包括以下各者中之一或多者：一DCT-1、一DCT-2、一DCT-3、一DCT-4、一DCT-5、一DCT-6、一DCT-7及一DCT-8。
如請求項16之器件，其中該一或多個DST包括以下各者中之一或多者：一DST-1、一DST-2、一DST-3、一DST-4、一DST-5、一DST-6、一DST-7及一DST-8。
如請求項17之器件，其中，為判定該當前變換區塊之該大小滿足該大小臨限值，該一或多個處理器經組態以判定該當前變換區塊之該大小大於一下限且小於一上限。
如請求項18之器件，其中，為選擇該特定DST，該一或多個處理器經組態以回應於判定該當前變換區塊之該大小滿足該大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DST-7。
如請求項19之器件，其中該一或多個處理器進一步經組態以：回應於判定該當前變換區塊之該大小不滿足該大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DCT之一特定DCT作為該選定變換類型。
如請求項20之器件，其中，為選擇該特定DCT，該一或多個處理器經組態以回應於判定該當前變換區塊之該大小不滿足該大小臨限值且使用ISP來分割該當前視訊區塊而選擇該DCT-2。
如請求項19之器件，其中，為選擇該變換類型，該一或多個處理器經組態以無論用以預測該當前視訊區塊之一框內預測模式如何均選擇該變換類型。
如請求項22之器件，其中，為判定該當前變換區塊之該大小，該一或多個處理器經組態以：判定該當前變換區塊之一寬度；以及判定該當前變換區塊之一高度。
如請求項23之器件，其中，為選擇該變換類型，該一或多個處理器經組態以選擇供水平使用之一變換類型且選擇供豎直使用之一變換類型，且其中該一或多個處理器進一步經組態以：回應於判定該當前變換區塊之一寬度滿足一寬度大小臨限值且使用ISP來分割該當前視訊區塊，選擇該DST-7作為供水平使用之該選定變換類型；以及回應於判定該當前變換區塊之一高度滿足一高度大小臨限值且使用ISP來分割該當前視訊區塊，選擇該DST-7作為供豎直使用之該選定變換類型。
如請求項24之器件，其中該寬度臨限值等於該高度臨限值。
如請求項25之器件，其中該寬度臨限值及該高度臨限值兩者皆為16個樣本。
如請求項26之器件，其中，為推斷該當前變換區塊之該變換類型，該一或多個處理器經組態以回應於判定針對該當前視訊區塊啟用多重變換選擇(MTS)，推斷該當前變換區塊之該變換類型。
一種儲存指令之電腦可讀儲存媒體，該等指令在經執行時促使一視訊寫碼器件之一或多個處理器：針對一當前視訊區塊之一當前變換區塊，自包括一或多個離散餘弦變換(DCT)及一或多個離散正弦變換(DST)之複數個變換類型推斷一變換類型，其中促使該一或多個處理器推斷該變換類型之該等指令包含促使該一或多個處理器進行以下操作的指令：判定該當前變換區塊之一大小；判定是否使用框內子區塊分割(ISP)來分割該當前視訊區塊；及回應於判定該當前變換區塊之該大小滿足一大小臨限值且使用ISP來分割該當前視訊區塊，選擇該一或多個DST之一特定DST作為該選定變換類型；使用該選定變換類型來變換該當前變換區塊以獲得該視訊區塊之經重建構殘餘資料的一區塊；以及基於該視訊區塊之該經重建構殘餘資料來重建構該視訊區塊。
如請求項28之電腦可讀儲存媒體，其中該一或多個DST包含至少一個DST-7，其中促使該一或多個處理器選擇該特定DST之該等指令包含促使該一或多個處理器回應於判定該當前變換之該大小滿足該大小臨限值且使用ISP來分割該當前視訊區塊，無論用以預測該當前視訊區塊之一框內預測模式如何均選擇該DST-7的指令。