TWI766334B

TWI766334B - 具有子圖像之視訊解碼

Info

Publication number: TWI766334B
Application number: TW109126646A
Authority: TW
Inventors: 魯林陳; 徐志瑋; 黃毓文
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2019-08-08
Filing date: 2020-08-06
Publication date: 2022-06-01
Also published as: US11363307B2; TW202107898A; US20210044838A1

Abstract

一種對由子圖像編碼的視訊序列進行解碼的方法，可包括：在解碼器處接收位元流中的與編碼樹單元(coding tree unit，簡稱CTU)的大小相對應的第一語法元素；接收與圖像是否被劃分為子圖像相對應的第二語法元素；回應於指示該圖像被劃分為子圖像的第二語法元素，接收以CTU大小為單位指示該圖像中每個子圖像的位置和大小的第三語法元素；以及基於圖像中每個相應子圖像的位置和大小，重構一個或多個子圖像。

Description

具有子圖像之視訊解碼

本發明涉及具有子圖像相關技術的視訊編解碼。

本文提供的背景描述是為了概括地呈現本公開內容的目的。在本背景部分中所描述的當前署名的發明人的工作，以及不能作為申請時的先前技術的該些描述中的一些方面，不能明示或暗示地看作是本發明的先前技術。

與以前的視訊編解碼標準(例如，高效率視訊編解碼(High Efficiency Video Coding，HEVC))相比，通用視訊編解碼(Versatile Video Coding，簡稱VVC)被設計為實現了顯著改善的壓縮能力，並且對於在廣泛的應用中有效使用具有高度的通用性。例如，一些關鍵應用領域包括用於沉浸式媒體應用的視訊，例如360°全向視訊和超高清視訊(例如4K或8K解析度)。

本公開的各方面提供了一種對藉由子圖像編碼的視訊序列進行解碼的方法。該方法可包括：在解碼器處接收位元流中指示編碼樹單元(coding tree unit，簡稱CTU)大小的第一語法元素；接收與圖像是否被劃分為子圖像相對應的第二語法元素；回應於指示圖像被劃分為子圖像的第二語法元素，接收以CTU大小為單位指示圖像中每個子圖像的位置和大小的第三語法元素；以及基於圖像中的每個相應子圖像的位置和大小，重構一個或多個子圖像。

在一實施例中，第一或第二語法元素被包括在序列參數集合(sequence parameter set，簡稱SPS)或圖像參數集合(picture parameter set，簡稱PPS)中。在一實施例中，第三語法元素包括與劃分圖像的網格的相應網格元素相關聯的子圖像索引，與子圖像索引中的同一索引相關聯的網格元素共同形成子圖像之一，網格元素的大小被指定以CTU大小為單位或以8個樣本為單位。

該方法的實施例可進一步包括：接收圖像的片段(slice)的片段頭中的第四語法元素，該第四語法元素指示包含片段的子圖像之一的子圖像識別字(Subpicture Identifier，簡稱ID)。該方法的另一實施例可進一步包括：接收在PPS或SPS中指示該圖像是否包括單個方格(tile)的標誌，並且回應於該圖像包括單個方格，確定該圖像包括單個片段。

在一實施例中，對於圖像中的每個片段，子圖像ID與PPS或SPS中的每個片段相關聯。在一實施例中，指示圖像中的片段的佈局的語法元素可被接收。圖像中每個片段的子圖像ID可被進一步接收。基於所接收的用來指示圖像中的片段的佈局的語法元素和所接收的圖像中的每個片段的子圖像ID，圖像中的每個子圖像的位置，大小或子圖像ID可被確定。在一示例中，指示圖像中的片段的佈局的語法元素，或圖像中的每個片段的子圖像ID在SPS或PPS中被接收。

本公開的各方面提供了一種包括電路的裝置。該電路可被配置為：在解碼器處接收位元流中指示編碼樹單元(coding tree unit，簡稱CTU)大小的第一語法元素；接收與圖像是否被劃分為子圖像相對應的第二語法元素；回應於與該被劃分為子圖像的圖像相對應的第二語法元素，以CTU大小為單位接收指示圖像中每個子圖像的位置和大小的第三語法元素；以及基於圖像中每個相應子圖像的位置和大小，重構一個或多個子圖像。

本公開的各方面提供了一種存儲指令的非暫時性電腦可讀介質，該指令在由處理器執行時使處理器執行對藉由子圖像編碼的視訊序列進行解碼的方法。

100:編碼器

101:輸入視訊資料

102:位元流

110:解碼圖像緩衝器

112:幀間/幀內預測

114:加法器

116:殘差編碼器

118:熵編碼器

120:殘差解碼器

122:加法器

130:環路濾波器

140:子圖像劃分

141:語法元素

200:解碼器

201:位元流

202:輸出視訊資料

210:解碼圖像緩衝器

212:幀間/幀內預測

218:熵解碼器

220:殘差解碼器

222:加法器

224:語法元素

230:環路濾波器

240:子圖像劃分

300、400、500、600、700、800、900:圖像

1100:過程

S1101、S1110、S1120、S1130、S1140:步驟

作為示例提出的本公開的各種實施例將參考以下附圖詳細地被描述，其中，相同的標號表示相同的元件，並且：第1圖示出根據本公開的實施例的編碼器。

第2圖示出根據本公開的實施例的解碼器。

第3圖示出圖像的光柵扫描片段劃分的示例。

第4圖示出图像的矩形片段分割的示例。

第5圖示出圖像被劃分為方格和矩形片段A-D的示例。

第6圖示出圖像被劃分為方格，塊狀以及矩形片段的示例。

第7圖示出圖像的子圖像劃分的示例。

第8圖示出圖像的子圖像劃分的示例。

第9圖示出如何基於覆蓋圖像的網格來發送子圖像劃分資訊的示例。

第10圖示出表1中的序列參數集合的語法，該序列參數集合被修改以從第16-20行(row)中刪除語法元素syntax elements subpic_grid_col_width_minus1，subpic_grid_row_height_minus1和subpic_grid_idx的信令。

第11圖示出用於在解碼器側解碼包括子圖像的視訊序列的過程。

I.視訊編解碼編碼器和解碼器

第1圖示出了根據本公開的實施例的編碼器100。編碼器100可包括解碼圖像緩衝器110，子圖像劃分模組140，幀間/幀內預測模組112，第一加法器 114，殘差編碼器116，熵編碼器118，殘差解碼器120，第二加法器122，一個或多個環路濾波器130，例如解塊濾波器，樣本自適應偏移(sample adaptive offset，簡稱SAO)濾波器和/或自適應環路濾波器(adaptive loop filter，簡稱ALF)。該些元件可被耦合在一起，如第1圖所示。

編碼器100接收輸入視訊資料101並執行視訊壓縮處理以生成位元流102作為輸出。輸入視訊資料101可包括圖像序列。每張圖像可包括一個或多個顏色分量，例如亮度分量或色度分量。當前圖像(當前正在處理的圖像)可被劃分為具有相同大小或不同大小的多個編碼單元(coding unit，簡稱CU)，以進行幀間或幀內預測操作。位元流102可具有與諸如高級視訊編碼(Advanced Video Coding，簡稱AVC)標準，高效視訊編碼(High Efficiency Video Coding，簡稱HEVC)標準，通用視訊編碼(Versatile Video Coding，簡稱VVC)標準等的視訊編碼標準相兼容的格式。

在一些實施例中，編碼器100(例如，與其他模組協作的子圖像劃分模組140)可被配置為採用子圖像編碼技術來處理輸入視訊資料101。例如，輸入視訊資料101可以是用於沉浸式媒體應用的視訊，例如360度全向視訊。觀看360度視訊流的使用者可在給定時間查看360度視圖的特定部分。因此，子圖像編碼技術可被用於使解碼器能夠提取和解碼與優選觀看方向相對應的360度視圖的特定區域，而不是解碼整個視訊流。在另一示例中，輸入視訊資料101可以是高解析度視訊(例如，4K或8K解析度)。藉由將高解析度圖像劃分為獨立的子圖像，僅具有2K(例如1080p)能力的解碼器可藉由順序地對子圖像進行解碼來處理高解析度圖像。

在相應實施例中，子圖像劃分模組140可被配置為將視訊序列中的每個圖像劃分為子圖像。另外，子圖像劃分模組140可控制其他功能模組以子圖像接子圖像(subpicture-by-subpicture)的方式處理視訊序列中的圖像。例如，在被編碼時子圖像各自被視為獨立圖像。例如，子圖像劃分模組140可命令環路濾波器130獨立地或相互依賴地過濾子圖像。此外，子圖像劃分模組140可生成用於子圖像編碼控制的語法元素141，並且將語法元素141提供給熵編碼器118以在位元流102中進行傳輸。例如，語法元素141可指示是否以及如何將圖像劃分為子圖像。

在第1圖中，解碼圖像緩衝器110被配置為存儲參考圖像，該參考圖像被用於在幀間/幀內預測模組112進行的運動估計和運動補償。在視訊壓縮過程中，幀間/幀內預測模組112執行幀間圖像預測或幀內圖像預測，以確定當前圖像的塊的預測。該塊的預測被提供給第一和第二加法器114和122。

第一加法器114從幀間/幀內預測模組112接收塊的預測，並從輸入視訊資料101接收塊的原始像素。加法器114接著從該塊的原始像素值中減去預測以獲得塊的殘差。塊的殘差被發送到殘差編碼器116。

殘差編碼器116接收塊的殘差，並且壓縮殘差以生成壓縮的殘差。例如，殘差編碼器116可以首先將諸如離散余弦變換(discrete cosine transform，簡稱DCT)、離散正弦變換(discrete sine transform，簡稱DST)、小波變換等的變換應用於與變換塊相對應的接收到的殘差，並生成變換係數。將圖像劃分為變換塊的劃分方式可以與將圖像劃分為用於幀間/幀內預測處理的預測塊的劃分方式相同或不同。

隨後，殘差編碼器116可以量化係數以壓縮殘差。量化可由量化參數(quantization parameter，簡稱QP)控制。QP指示用於將變換係數與有限的一組步相關聯的步長。

殘差解碼器120接收壓縮後的殘差，並執行在殘差編碼器116處執行的量化和變換操作的逆處理，以重構變換塊的殘差。由於量化操作，重構的殘差類似於從加法器114生成的原始殘差，但是通常與原始版本不同。

第二加法器122從幀間/幀內預測模組112接收塊的預測，並從殘差解碼器120接收變換塊的重構的殘差。第二加法器122隨後將重構的殘差與對應於圖像中的相同區域的所接收的預測相結合，以生成重構的視訊資料。然後，例如，重構的視訊資料被傳送到環路濾波器130。

如所描述的，取決於特定視訊應用的需求，環路濾波器130處的濾波處理可在不同子圖像之間獨立地或相互依賴地執行。環路濾波器130可包括解塊濾波器，該解塊濾波器將一組低通濾波器應用於塊邊界以減少塊偽像。基於在重構圖像中的塊邊界的兩側上的重構樣本的特性，以及在幀間/幀內預測模組112處或在殘差編碼器116處(在一個示例中)確定的編碼參數(幀內或幀間編碼模式，MV和QP)，濾波器被應用。

環路濾波器130可包括SAO濾波器和/或ALF。例如，SAO濾波器從解塊濾波器接收解塊的重構視訊資料，並且將重構視訊資料中的像素分類為組。然後，SAO濾波器可確定每組的強度偏移(偏移值)，以補償每組的強度偏移。然後，偏移後的重構視訊資料從SAO濾波器提供給ALF。在一示例中，ALF被配置為將濾波器應用於重構的視訊資料以減少時域中的編碼偽像。例如，ALF從一組候選濾波器中選擇一個濾波器，並將選擇的濾波器應用於重構的視訊資料的區域。然後，處理後的重構視訊資料被發送到解碼圖像緩衝器110。

熵編碼器118接收用於子圖像編碼控制的語法元素141以及來自殘差編碼器116的壓縮殘差。熵編碼器118還可以接收其他參數和/或控制資訊，例如幀內預測模式資訊、運動資訊、量化參數、來自環路濾波器的控制資訊等。熵編碼器118對接收到的參數或其他資訊進行編碼以形成位元流102。包括壓縮格式的資料的位元流102可以經由通訊網路被發送到解碼器，或者被發送到存儲裝置(例如，非易失性電腦-可讀介質)，其中由位元流102承載的視訊資料可被存儲。

第2圖示出根據本公開實施例的解碼器200。解碼器200包括熵解碼器218，子圖像劃分模組240，殘差解碼器220，解碼圖像緩衝器210，幀間/幀內預測模組212，加法器222以及一個或多個環路濾波器230，例如解塊濾波器，SAO濾波器和/或ALF。如第2圖所示，這些組件被耦合在一起。在一示例中，解碼器200接收由編碼器生成的位元流201(例如由編碼器100生成的位元流102)，並執行解壓縮處理以生成輸出視訊資料202。輸出視訊資料202可包括可在例如監視器、觸控式螢幕等顯示裝置上顯示的圖像序列。

在相應實施例中，解碼器200(例如與其他模組協作的子圖像劃分模組240)可被配置為實現子圖像編碼技術以處理包括子圖像的編碼視訊序列。例如，子圖像劃分模組240可接收與子圖像相關的語法元素241，並相應地控制解碼器200中的其他模組執行基於子圖像的解碼操作。

在一實施例中，子圖像劃分模組240可接收並解釋與子圖像有關的語法元素241以獲得子圖像劃分資訊。例如，子圖像劃分模組240可確定圖像中的子圖像的佈局(位置和大小)，並且將子圖像的區域匹配到相應片段。在一些應用中，基於子圖像劃分資訊，子圖像劃分模組240可與熵解碼器218協作，從位元流201中提取視訊序列中的子圖像子集的編碼資料，並將相應的語法元素提供給其他用於解碼處理的模組(例如，幀間/幀內預測模組212或殘差解碼器220)。另外，基於與子圖像相關的語法元素241的指示，子圖像劃分模組240可控制環路濾波器230在不同子圖像之間執行獨立或相互依賴的濾波處理。

在第2圖中，熵解碼器218接收位元流201並執行解碼處理，該解碼處理是由第1圖的示例中的熵編碼器118執行的編碼處理的逆處理。結果，與壓縮的子圖像有關的語法元素，殘差，預測參數(幀內模式資訊和運動資訊)，環路濾波器控制資訊等被獲得。壓縮的殘差被提供給殘差解碼器220，並且預測參數被提供給幀間/幀內預測模組212。幀間/幀內預測模組212基於接收到的預測參數來生成圖像的塊的預測，並提供預測圖像到加法器222。解碼圖像緩衝器210存儲對於幀間/幀內預測模組212執行的運動補償有用的參考圖像。例如，參考圖像可從環路濾波器230接收。另外，參考圖像從解碼圖像緩衝器210獲得，並被包括在圖像視訊資料202中以顯示給顯示裝置。

就功能和結構而言，殘差解碼器220，加法器222和環路濾波器230類似於殘差解碼器120，第二加法器122和環路濾波器130。

在各種實施例中，編碼器100和解碼器200，或編碼器100和解碼器200的各種模組或功能可以用硬體，軟體或其組合來實現。例如，編碼器100或解碼器200可用諸如專用積體電路(application specific integrated circuit，簡稱ASIC)，現場可程式設計閘陣列(field programmable gate array，簡稱FPGA)等的一個或多個積體電路(integrated circuit，簡稱IC)來實現。對於另一示例，編碼器100或解碼器200可被實現為包括存儲在電腦可讀非暫時性存儲介質中的指令的軟體或韌體。指令在由處理電路執行時，使處理電路執行編碼器100或解碼器200的功能。

注意，本文描述的子圖像處理技術可被包括在可具有與編碼器100或解碼器200相似或不同的結構的其他解碼器或編碼器中。另外，在各種示例中，編碼器100和解碼器200可被包括在相同的裝置，或單獨裝置中。

II.子圖像處理技術

1.將圖像劃分為子圖像

在一實施例中，圖像可被分為一個或多個方格(tile)行(row)和一個或多個方格列(column)。方格可以是覆蓋圖像的矩形區域的編碼樹單元(coding tree unit，簡稱CTU)序列。方格中的CTU可以在該方格中按照光柵掃描順序掃描。例如，CTU可以與三個編碼樹塊(coding tree blocks，簡稱CTB)(亮度和色度)，相關的編碼樹語法結構以及關聯的編碼單元相關聯。每個亮度 CTB在寬度和高度上的樣本陣列大小可表示為CtbSizeY表示，以樣本為單位。每個色度CTB的樣本陣列的寬度和高度可以分別表示為CtbWidthC和CtbHeightC，以樣本為單位。

方格可被分為一個或多個磚塊(brick)。每個磚塊可在方格內包括許多CTU行。未被劃分為多個磚塊的方格也可被稱為磚塊。作為方格的真實子集的磚塊不被稱為方格。

片段可包含圖像的方格內的整數個完整方格或整數個連續的完整CTU行。因此，每個垂直片段邊界也可以是垂直方格邊界。片段的水平邊界可能不是片段邊界，而是包括方格中的水平CTU邊界，當方格被拆分為多個矩形片段時，會發生這種情況，每個矩形片段都包含方格內整數個連續的完整CTU行。片段包含圖像的多個方格或方格的多個磚塊。

在實施例中，片段的兩種模式可被支援，即，光柵掃描片段模式和矩形片段模式。在光柵掃描片段模式下，片段包含圖像的片段光柵掃描中的完整片段序列。在矩形片段模式下，片段包含共同形成圖像的矩形區域的多個完整方格，或包含共同形成圖像的矩形區域的一個方格的多個連續完整CTU行。在一示例中，矩形片段內的方格可在與該片段對應的矩形區域內以方格光柵掃描順序掃描。

在一實施例中，子圖像可包括共同覆蓋圖像的矩形區域的一個或多個片段。因此，每個子圖像邊界也可以是片段邊界，並且每個垂直子圖像邊界也可以是垂直方格邊界。另外，在一示例中，為了對子圖像進行劃分，以下兩個條件中的任一或兩個都被滿足，子圖像中的所有CTU都屬於同一方格，或者方格中的所有CTU都屬於同一子圖像。

第3圖示出圖像300的光柵掃描片段劃分的示例。圖像300被劃分為12個方格(3個方格列和4個方格行)和3個光柵掃描片段A-C，分別包括2、5和5 個方格。

第4圖示出圖像400的矩形片段劃分的示例。圖像400被劃分為24個方格(6個方格列和4個方格行)和9個矩形片段A-I，分別包括2、2、2、4、4、4、2、2和2個片段。

第5圖示出被劃分為方格和矩形片段A-D的圖像500的示例。圖像500被分成4個相等大小的方格(2個方格列和2個方格行)和4個矩形片段A-D。片段A包含兩個方格，而片段B和片段C包含在同一方格中。

第6圖示出被劃分為方格，磚塊和矩形片段的圖像600的示例。圖像600分為4個方格(2個方格列和2個方格行)，11個磚塊(左上方格包含1個磚塊，右上方格包含5個磚塊，左下方格包含2個磚塊，右下方格包含3個磚塊)，和4個矩形片段(左側的一個片段，右側的三個片段)。

第7圖示出圖像700的子圖像劃分的示例。圖像700被劃分為18個方格，其中左側的12個方格中每個覆蓋一個4x4CTU的片段，右側的6個方格中每個覆蓋2個垂直堆疊的2x2CTU的片段。結果，不同大小的24個片段和24個子圖像(每個片段是一個子圖像)被形成。

第8圖示出圖像800的子圖像劃分的示例。圖像800被劃分為28個子圖像，其中20個具有正方形形狀的子圖像位於左側，而8個具有半正方形形狀的子圖像分別位於右側。

2.發送子圖像劃分資訊

第9圖示出如何基於覆蓋圖像900的網格(grid)910發送子圖像劃分資訊的示例。網格910可具有6行和6列相等大小的網格元素911。每個網格元素911對應於圖像900的子區域。然後，每個網格元素911被分配一個標籤(被稱為網格索引)。具有相同標籤的網格元素共同定義子圖像。如第9圖所示，每個網格索引為0的網格元素定義第一子圖像902，而網格索引為1、2或3的網格元素分別定義子圖像902、903和904。在一些示例中，網格索引可與子圖像識別字(subpicture identifier，簡稱ID)相映射。在一些示例中，網格索引和對應的子圖像ID可以具有相同的值。

為了發送子圖像劃分資訊，以下資訊可以在從編碼器到解碼器的位元流中發送：網格元素911的大小，圖像900的大小以及每個網格元素911的網格索引。基於該些發送資訊，解碼器和編碼器可對圖像900如何被劃分為子圖像901-904具有相同的理解。

示例A：基於以4個樣本為單位的子圖像發送

下面的表1是視訊序列所引用的序列參數集合(sequence parameter set，簡稱SPS)的語法表。

表1

表1的SPS中包括用於發送子圖像劃分資訊的語法元素和變數的集合。相關語法元素的語義和相關變數的推導解釋如下。

pic_width_max_in_luma_samples指定以亮度樣本為單位圖像的最大寬度，而pic_height_max_in_luma_samples指定以亮度樣本為單位圖像的最大高度。

subpics_present_flag指示圖像序列是否存在子圖像資訊。在一些實施例中，subpics_present_flag等於1指示在SPS RBSP語法中存在子圖像參數；subpics_present_flag等於0表示當前在SPS RBSP語法中不存在子圖像參數。在一些其他實施例中，等於1的subpics_present_flag指定參考SPS的視訊序列存在子圖像資訊，並且在視訊序列的每個圖像中可能存在一個或多個子圖像。subpic_present_flag等於0表示視訊序列不存在子圖像資訊，並且視訊序列的每個圖像中只有一個子圖像。在一些其他實施例中，subpics_present_flag或任一其他語法元素可被用於指示或表示關於圖像序列是否存在子圖像資訊的資訊。

max_subpics_minus1加1指定在圖像序列中可能存在的最大子圖像數。max_subpics_minus1的範圍可以在0到254之間。值255保留供將來使用。

subpic_grid_col_width_minus1加1指定以4個樣本為單位子圖像劃分網格的每個元素的寬度。語法元素的長度為Ceil(Log2(pic_width_max_in_luma_samples/4))位。換句話說，每個元素的寬度表示為4個樣本的倍數。例如，網格元素的64個樣本的寬度將是4個樣本的16個單位。因此，subpic_grid_col_width_minus1的值為15。

指示子圖像網格列數量的變數NumSubPicGridCols可推導如下：NumSubPicGridCols=

subpic_grid_row_height_minus1加1指定以4個樣本為單位子圖像識別字網格的每個元素的高度。語法元素的長度為Ceil(Log2(pic_height_max_in_luma_samples/4))位。

指示子圖像網格行數的變數NumSubPicGridRows可推導如下：

subpic_grid_idx[i][j]指定網格位置(i，j)的子圖像索引。語法元素的長度為Ceil(Log2(max_subpics_minus1+1))位元。

變數SubPicTop[subpic_grid_idx[i][j]]指示具有索引subpic_grid_idx[i][j]的子圖像的垂直(y方向)位置，SubPicLeft[subpic_grid_idx[i][j]]指示具有索引subpic_grid_idx[i][j]的子圖像的水平(x方向)位置，SubPicWidth[subpic_grid_idx[i][j]]指示具有索引subpic_grid_idx[i][j]的子圖像的寬度，SubPicHeight[subpic_grid_idx[i][j]]指示具有索引subpic_grid_idx[i][j]的子圖像的高度，和指示相應圖像中子圖像數量的NumSubPics可推導如下：

subpic_treated_as_pic_flag[i]等於1指定視訊序列中每個編碼圖像的第i個子圖像被視為在視訊解碼過程中排除環路濾波操作的圖像。subpic_treated_as_pic_flag[i]等於0指定視訊序列中每個編碼圖像的第i個子圖像不被視為在視訊解碼過程中排除環路濾波操作的圖像。如果不存在，則subpic_ treated_as_pic_flag[i]的值被推斷為等於0。

loop_filter_across_subpic_enabled_flag[i]等於1指定環路濾波操作可在視訊序列中每個編碼圖像中的第i個子圖像的邊界上執行。loop_filter_across_subpic_enabled_flag[i]等於0指定環路濾波操作不在視訊序列中每個編碼圖像中的第i個子圖像的邊界上執行。如果不存在，則loop_filter_across_subpic_enabled_pic_flag[i]的值被推斷為等於1。

在示例中，對位元流一致性的要求適用以下約束：(1)對於任一兩個子圖像subpicA和subpicB，當subpicA的索引小於subpicB的索引時，在解碼順序中，subPicA的任一已編碼NAL單元應該在subPicB的任一已編碼NAL單元之前。(2)子圖像的形狀應使得在解碼時，每個子圖像具有整個左邊界和整個頂部邊界，該邊界應由圖像邊界或先前解碼的子圖像的邊界構成。

示例B：基於以8個樣本為單位的子圖像發送

在一實施例中，編碼圖像大小被定義為8個樣本的倍數的整數。由於子圖像可被提取為常規圖像，因此子圖像大小也可以是8個樣本的倍數的整數。因此，SPS中的子圖像的發送可以基於網格，以8個樣本而不是4個樣本為單位。

與示例A相反，對應於使用8個樣本作為用於發送子圖像劃分資訊的單元，相關語法元素的語義和相關變數的推導可按照如下修改。

subpic_grid_col_width_minus1加1指定以8個樣本為單位的子圖像識別字網格的每個元素的寬度。語法元素的長度為Ceil(Log2(pic_width_max_in_luma_samples/8))位元。

變數NumSubPicGridCols推導如下：

當以8個樣本為單位被用來發送子圖像劃分資訊時，ctbAddrR的列表CtbToSubPicIdx[ctbAddrRs]的範圍從0到PicSizeInCtbsY-1(含0和PicSizeInCtbsY-1)，可指定在圖像光柵掃描中從CTB位址(ctbAddrRs)到子圖像索引(CtbToSubPicIdx)的轉換，該列表可被推導如下。藉由執行該處理，子圖像索引被映射到每個CTB。

}

注意，圖像的最右側網格列中的網格元素可能不完整，並且網格寬度可能小於(subpic_grid_row_width_minus1+1) * 8個樣本。圖像底部網格行中的網格元素可能不完整，並且網格高度可能小於(subpic_grid_row_height_minus1+1) * 8個樣本。

示例C：基於以CTB大小為單位的子圖像發送

在一實施例中，基於部分II.1中描述的劃分方法，其中子圖像大小被定義為由一組CTB覆蓋的區域，使用以CTB大小為單位定義的網格，子圖像劃分資訊被發送。換句話說，每個網格元素的高度或寬度可被表示為CTB大小的倍數。因此，相關語法元素的語義和相關變數的推導可被修改。

表2是SPS的語法表，其中基於CTB大小的單位，子圖像劃分資訊被發送。

表2

在第13行，語法元素log2_ctu_size_minus5(以log2值减5的形式指示CTU大小)被發送。與表1相比，CTU大小的語法元素的位置被提前到發送在第15-25行(row)的其他子圖像劃分相關的語法元素之前。

相關語法元素的語義和相關變數的推導描述如下。

subpic_grid_col_width_minus1加1指定子圖像識別字網格的每個元素的寬度，不包括以CTB為單位的圖像的最右邊的網格列(column)。語法元素的長度為Ceil(Log2(pic_width_max_in_luma_samples/CtbSizeY))位元。

變數NumSubPicGridCols可推導如下。

subpic_grid_row_height_minus1加1指定子圖像識別字網格中每個元素的高度，不包括以CTB為單位的圖像底部網格行。語法元素的長度為Ceil(Log2(pic_height_max_in_luma_samples/CtbSizeY))位元。

變數NumSubPicGridRows可推導如下。

注意，圖像的最右側網格列中的網格元素可能不完整，以及網格寬度可能小於(subpic_grid_row_width_minus1+1) * CtbSizeY樣本。圖像底部網格行中的網格元素可能不完整，以及網格高度可能小於(subpic_grid_row_height_minus1+1) * CtbSizeY樣本。

示例D：以CTB大小為單位發送子圖像佈局

在一實施例中，子圖像劃分網格的寬度或高度被定義為CTU大小。另外，基於以CTU大小作為網格元素大小的網格，每個子圖像的位置和大小被顯式地發送，而不是發送網格元素的大小資訊和分配給相應網格元素的網格索引。

例如，基於以CTU大小為單位的網格的子圖像中左上角CTU的座標可被發送，以指示子圖像的位置。以CTU大小為單位的子圖像的高度和寬度可被發送，以傳達子圖像的大小資訊。

在以上示例C和D中，使用CTU大小的單位作為發送子圖像劃分資訊的基礎的一個優點是，與使用4個樣本或8個樣本為單位相比，用於發送子圖像相關語法元素的位元可被節省。

3.將片段和子圖像相關聯

示例E：PPS中與子圖像相關聯的片段

如以上所描述的，子圖像可被定義為包括一組片段的矩形區域。因此，每個片段可與子圖像相關聯。例如，每個片段可與高級信令(例如，序列參數集合(sequence parameter set，簡稱SPS)或圖像參數集合(picture parameter set，簡稱PPS))中的子圖像索引相關聯。基於高級信令，解碼器可以知道片段與子圖像之間的映射關係。

在實施例中，子圖像劃分資訊可以以類似於表1或表2的方式在SPS中被發送。同時，與相應子圖像相關聯的片段在表3所示的PPS中被發送。

表3

在第13-25行，方格劃分資訊被發送。在第27-41行，磚塊劃分資訊被發送。在行45-65，片段劃分資訊被發送。在第68-72行，與子圖像相關聯的片段的資訊被發送。具體來說，num_slices_in_pic_minus1(在第49行被發送)加1指定參考表3的PPS的每張圖像中的片段數量。num_slices_in_pic_minus1的值可以在0到NumBricksInPic-1之間的範圍內，包括0和NumBricksInPic-1。當num_slices_in_pic_minus1不存在且single_brick_per_slice_flag等於1時，則num_slices_in_pic_minus1的值被推斷為等於NumBricksInPic-1。當single_tile_in_pic_flag等於1時，num_slices_in_pic_minus1的值被推斷為等於0。換句話說，當圖像中只有一個方格時，圖像中的片段數量為1。

行71的subpic_id[i]指定第i個片段所屬的子圖像識別字(identifier，簡稱ID)。subpic_id[i]語法元素的長度為Ceil(Log2(max_subpics_minus1+1))位元。subpic_id[i]的值是到SPS中指定的子圖像索引的映射。具有相同子圖像ID的片段共同形成相應子圖像區域。

在一實施例中，子圖像ID在低級信令(例如，片段頭)中指定，並與非矩形片段相關聯。表4示出了這樣的示例片段頭，其在圖像的片段中發送語法元素。

在表4的示例中，在行2中驗證圖像中是否存在子圖像以及當前片段是否為矩形片段。當子圖像被使用且當前片段為非矩形片段時，語法subpic_id被發送。subpic_id指定當前片段所屬的子圖像ID。subpic_id語法元素的長度為Ceil(Log2(max_subpics_minus1+1))位元。subpic_id的值是到在SPS中指定的子圖像索引的映射(例如，在表2中被發送)。具有相同子圖像ID的片段共同形成子圖像區域。在表4的示例中，子圖像可由非矩形片段形成。

示例F：基於片段佈局發送子圖像劃分

如示例E中所描述，在表3(例如，在表3中的行70-71處)的PPS中指定與子圖像的片段關聯的資訊，並且還在表3的PPS中指示片段的佈局的資訊(例如，第13-41行的方格和磚塊劃分資訊以及第45-65行的片段資訊)。由於每個子圖像都是片段的集合，因此基於表3中的發送的資訊，子圖像劃分資訊可被相應地確定。因此，在一實施例中，與子圖像劃分相關聯的語法元素可從表1或表2中的SPS中刪除。第10圖示出了表1中的SPS，其被修改以從16-20行去除語法元素subpic_grid_col_width_minus1，subpic_grid_row_height_minus1和subpic_grid_idx的信令。由於修改導致變數NumSubPics現在不可用，第21行也被修改。當表2中的SPS被使用時，表2中的SPS可按照與第10圖中所示類似的方式修改。

在示例F中，表3中的PSS和表4中的片段頭仍然可以被维持。

作為例子，變數SubPicTopLeftBrickIdx[subpic_id[i]]和SubPicBottomRightBrickIdx[subpic_id[i]]，其用subpic_id[i]指定位於子圖像的左上角的磚塊的磚塊索引，以及用subpic_id[i]指定位於子圖像的右下角的磚塊的磚塊索引。當矩形片段被使用時，指示子圖像數量的變數NumSubPics可推導如下：

確定子圖像的索引和邊界位置的過程可藉由以下方式執行。變數SubPicIdx，SubPicLeftBoundaryPos，SubPicTopBoundaryPos，SubPicRightBoundaryPos和SubPicBotBoundaryPos可推導如下：

在示例F中，使用片段資訊來指定子圖像還可使子圖像大小與一要求自動對齊，該要求是圖像大小或子圖像大小為8個採樣的整數倍。

在另一實施例中，作為示例F的替代，表3中的PPS中的片段相關資訊(例如，包括方格，磚塊和片段劃分資訊以及相關聯的子圖像ID資訊)可被移入第10圖中所示的修改後的SPS或表2中SPS的修改版本(以類似於第10圖的方式被修改)。

示例G：在片段頭發送子圖像ID

在一些實例中，當前片段的子圖像ID可在片段頭中發送。在一些示例中，當當前片段的子圖像ID在片段頭中發送時，沒有片段-子圖像關聯資訊在PPS或SPS中被發送(例如，表3中的PPS中的片段-子圖像關聯資訊的信令不被執行))。在一些其他示例中，子圖像ID可在片段頭級別和SPS或PPS級別中發送。表5示出片段頭的示例，其中對於矩形片段或非矩形片段，子圖像ID在第3行被發送。

對於本文公開的與子圖像相關的技術，視訊編碼器可遵循前述語法設計以便生成有效位元流，並且如果在解碼器處執行的解析過程符合前述語法設計，則視訊解碼器能夠正確地解碼位元流。當語法元素在位元流中被跳過時，編碼器和解碼器應將語法值設置為推斷值，以確保相應的編碼和解碼結果匹配。

III.基於子圖像的技術的示例解碼過程

第11圖示出了用於在解碼器處解碼包括子圖像的視訊序列的過程1100。例如，過程1100可以在第2圖示例中的解碼器200處執行。子畫面劃分模組240與解碼器200的其他模組協作可執行對視訊序列進行解碼的處理。過程1100可從S1101開始，並且進行到S1110。

在S1110處，在解碼器側位元流中指示CTU大小的第一語法元素可被接收。例如，解析過程被執行以從位元流獲得第一語法元素。第一語法元素可在SPS或PPS中發送。

在S1120處，指示或對應於圖像是否被劃分為子圖像的第二語法元素可在例如SPS或PPS中的位元流中被接收。例如，第二語法元素可以是表示為subpics_present_flag，sps_subpic_info_present_flag的SPS子圖像資訊存在標誌或任一其他語法元素。語法元素sps_subpic_info_present_flag等於1表示視訊序列存在子圖像資訊，並且在視訊序列的每個圖像中可能存在一個或多個子圖像。語法元素sps_subpic_info_present_flag等於0表示該視訊序列不存在子圖像資訊，並且在視訊序列的每個圖像中只有一個子圖像。

在S1130，回應於與圖像被劃分為子圖像相對應的第二語法元素，一組第三語法元素可被接收，該組第三語法元素以CTU大小為單位指示圖像中每個子圖像的位置和大小。例如，第三語法元素可包括指示網格元素的高度和寬度的語法元素，以及與包括在表2中的SPS中的網格元素相關聯的子圖像網格索引。基於該些第三語法元素和CTU大小，相應子圖像的位置和大小可被導出。

或者，第三語法元素可以以CTU大小(例如，元素網格大小等於CTU大小)為單位定義的網格為基礎來明確指定子圖像的位置和大小。或者，第三語法元素可以是指示表3中的PPS中包括的磚塊、方格和片段劃分資訊以及與片段相關聯的子圖像ID的語法元素。在這種情況下，與子圖像關聯的片段被用來確定子圖像的位置和大小。

在S1140，基於圖像中每個相應子圖像的位置和大小，一個或多個子圖像被重構。在一示例中，所有子圖像的子集可被解碼，如從位元流獲得的控制資訊所指示的。因此，與所有子圖像的子集(或所有子圖像的子集的片段)相關聯的語法元素可從位元流中提取或解析。所有子圖像的每個子集都可被獨立地處理並相應地解碼。在另一示例中，所有子圖像可獨立地或相互依賴地被提取和被解碼。過程1100可以進行到S1199，並且在S1199處終止。

IV.電腦可讀介質

本文描述的過程和功能可被實現為一種電腦程式，當由一個或多個處理器執行時，該電腦程式可使一個或多個處理器執行相應的過程和功能。該電腦程式可被存儲或分佈在合適的介質上，諸如與其他硬體一起或作為其一部分提供的光學存儲介質或固態介質。該電腦程式還可以其他形式分佈，例如經由網際網路(Internet)或其他有線或無線電信系統。例如，電腦程式可被獲取並被載入到裝置中，包括藉由物理介質或分佈式系統(包括例如從連接到Internet的伺服器)獲取電腦程式。

電腦程式可從提供程式指令的電腦可讀介質訪問，該程式指令供電腦或任何指令執行系統使用或與其結合使用。電腦可讀介質可包括存儲、通信、傳播或傳輸電腦程式以供指令執行系統、裝置或裝置使用或與其結合使用的任一裝置。所述電腦可讀介質可以是磁性，光學，電子，電磁，紅外或半導體系統(或裝置或設備)或傳播介質。該電腦可讀介質可包括電腦可讀非暫時性存儲介質，例如半導體或固態記憶體、磁帶、可移動電腦磁片、隨機存取記憶體(random access memory，簡稱RAM)，唯讀記憶體(read-only memory，簡稱ROM)，磁片和光碟等。所述電腦可讀非暫時性存儲介質可包括所有類型的電腦可讀介質，包括磁存儲介質，光存儲介質，快閃記憶體介質和固態存儲介質。

儘管已經結合作為示例提出的本公開的特定實施例描述了本公開的各方面，但是可以對示例進行替代、修改和變化。因此，本文闡述的實施例旨在說明而不是限制。在不脫離下面闡述的申請專利範圍的情況下可以進行改變。

1100:過程

S1101、S1110、S1120、S1130、S1140:步驟

Claims

一種具有子圖像之視訊解碼方法，包括：在一解碼器側接收一位元流中指示一編碼樹單元大小的一第一語法元素；接收與一圖像是否被劃分為多個子圖像相對應的一第二語法元素；回應於與該圖像被劃分該多個子圖像相對應的該第二語法元素，接收以該編碼樹單元大小為單位指示該圖像中每個子圖像的一位置和一大小的多個第三語法元素；以及基於該圖像中的多個相應子圖像中的每個的該位置和該大小重構該多個子圖像中的一個或多個。
如請求項1所述之具有子圖像之視訊解碼方法，其中，該第一或第二語法元素被包含於一序列參數集合或一圖像參數集合。
如請求項1所述之方法，其中，該多個第三語法元素包括與用於劃分該圖像的一網格的多個相應網格元素相關聯的多個子圖像索引，與該多個子圖像索引的一相同索引相關聯的網格元素共同形成該多個子圖像之一，以及該多個網格元素的一大小被指定以一編碼樹單元大小或8個樣本為單位。
如請求項1所述之具有子圖像之視訊解碼方法，更包括：接收該圖像中的一片段中的一片段頭中的一第四語法元素，該第四語法元素指示包含該片段的該多個子圖像之一的一子圖像辨識字。
如請求項1所述之具有子圖像之視訊解碼方法，更包括：接收指示該圖像中是否包括一圖像參數集合或一序列參數集合中的一單個方格的一標誌；以及回應於該圖像包括一單個方格，確定該圖像包括一單個片段。
如請求項1所述之具有子圖像之視訊解碼方法，更包括：對該圖像中的每個片段，接收與一圖像參數集合或一序列參數集合中的每個片段相關聯的一子圖像辨識字。
如請求項1所述之具有子圖像之視訊解碼方法，其中接收該多個第三語法元素的步驟包括：接收指示該圖像中的多個片段的一佈局的多個語法元素；接收該圖像中該多個片段中的每個的一子圖像辨識字；以及基於接收到的指示該圖像中的該多個片段的該佈局的該多個語法元素以及接收到的該圖像中的該多個片段中的每個的該子圖像辨識字，確定該圖像中的該多個子圖像中的每個的該位置，該大小或一子圖像辨識字。
如請求項7所述之具有子圖像之視訊解碼方法，其中，該多個語法元素指示該圖像中的該多個片段的該佈局，或者該圖像中的該多個片段中的每個的該子圖像辨識字在一序列參數集合或一圖像參數集合中接收。
一種具有子圖像之視訊解碼裝置，包括電路，被設置為：在一解碼器側接收一位元流中指示一編碼樹單元大小的一第一語法元素；接收與一圖像是否被劃分為多個子圖像相對應的一第二語法元素；回應於與該圖像被劃分該多個子圖像相對應的該第二語法元素，接收以該編碼樹單元大小為單位指示該圖像每個子圖像的一位置和一大小的多個第三語法元素；以及基於該圖像中的多個相應子圖像中的每個的該位置和該大小，重構該多個子圖像中的一個或多個。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該第一或第二語法元素被包含於一序列參數集合或一圖像參數集合。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該多個第三語法元素包括與用於劃分該圖像的一網格的多個相應網格元素相關聯的多個子圖像索引，與該多個子圖像索引的一相同索引相關聯的網格元素共同形成該多個子圖像之一，以及該多個網格元素的一大小被指定以一編碼樹單元大小或8個樣本為單位。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該電路更被設置為：接收該圖像中的一片段中的一片段頭中的一第四語法元素，該第四語法元素指示包含該片段的該多個子圖像之一的一子圖像辨識字。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該電路更被設置為：接收指示該圖像中是否包括一圖像參數集合或一序列參數集合中的一單個方格的一標誌；以及回應於該圖像包括一單個方格，確定該圖像包括一單個片段。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該電路更被設置為：對該圖像中的每個片段，接收與一圖像參數集合或一序列參數集合中的每個片段相關聯的一子圖像辨識字。
如請求項9所述之具有子圖像之視訊解碼裝置，其中，該電路更被設置為：接收指示該圖像中的多個片段的一佈局的多個語法元素；接收該圖像中該多個片段中的每個的一子圖像辨識字；以及基於接收到的指示該圖像中的該多個片段的該佈局的該多個語法元素以及接收到的該圖像中的該多個片段中的每個的該子圖像辨識字，確定該圖像中的該多個子圖像中的每個的該位置，該大小或一子圖像辨識字。
如請求項15所述之具有子圖像之視訊解碼裝置，其中，該多個語法元素指示該圖像中的該多個片段的該佈局，或者該圖像中的該多個片段中的每個的該子圖像辨識字在一序列參數集合或一圖像參數集合中接收。
一種存儲多個指令的非暫時性電腦可讀介質，該多個指令在由一處理器執行時使該處理器執行一種具有子圖像之視訊解碼方法，該方法包括：在一解碼器側接收一位元流中指示一編碼樹單元大小的一第一語法元素；接收與一圖像是否被劃分為多個子圖像相對應的一第二語法元素；回應於與該圖像被劃分該多個子圖像相對應的該第二語法元素，接收以該編碼樹單元大小為單位指示該圖像的每個子圖像的一位置和一大小的多個第三語法元素；以及基於該圖像中的多個相應子圖像中的每個的該位置和該大小，重構該多個子圖像中的一個或多個。
如請求項17所述之非暫時性電腦可讀介質，其中，該第一或第二語法元素被包含於一序列參數集合或一圖像參數集合。
如請求項17所述之非暫時性電腦可讀介質，其中，該多個第三語法元素包括與用於劃分該圖像的一網格的多個相應網格元素相關聯的多個子圖像索引，與該多個子圖像索引的一相同索引相關聯的該多個網格元素共同形成該多個子圖像之一，以及該多個網格元素的一大小被指定以一編碼樹單元大小或8個樣本為單位。
如請求項17所述之非暫時性電腦可讀介質，其中，該方法更包括：接收該圖像中的一片段中的一片段頭中的一第四語法元素，該第四語法元素指示包含該片段的該多個子圖像之一的一子圖像辨識字。