TWI646823B

TWI646823B - 視訊壓縮方法及視訊壓縮裝置

Info

Publication number: TWI646823B
Application number: TW106114035A
Authority: TW
Inventors: 何嘉強; 洪偉翔
Original assignee: 晨星半導體股份有限公司
Priority date: 2017-04-27
Filing date: 2017-04-27
Publication date: 2019-01-01
Also published as: US20180316931A1; TW201840186A

Abstract

一種視訊壓縮方法，包含將一畫面分割成複數個第一區塊，其中該複數個第一區塊之一第一最大區塊大小為N×N，N為一正整數；對該複數個第一區塊進行一合併模式運算，以產生複數個第一預測結果；將該畫面分割成複數個第二區塊，其中該複數個第二區塊之一第二最大區塊大小為M×M，其中M為小於N之一正整數；對該複數個第二區塊進行一動量估計運算，以產生複數個第二預測結果；以及根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行一視訊壓縮編碼。

Description

視訊壓縮方法及視訊壓縮裝置

本發明係指一種視訊壓縮方法及視訊壓縮裝置，尤指一種降低複雜度的視訊壓縮方法及視訊壓縮裝置。

為了因應人們對視訊影像品質的要求，視訊壓縮標準已由MPEG-2、MPEG-4、H.263、先進視訊編碼(Advanced Video Coding，AVC)/H.264，逐漸發展至新一代的高效率視訊編碼(High Efficiency Video Coding，HEVC)標準架構。

於H.264/AVC的標準中，視訊壓縮裝置可將畫面切割成同樣大小的巨區塊(Macroblock，MB)以進行編碼，另外，視訊壓縮裝置可選擇使用畫面內預測(Intra Prediction)或畫面間預測(Inter Prediction)的技術，得到影像殘餘值(Residue)，並將此該殘餘值經過一離散餘弦轉換(Discrete Cosine Transform,DCT)及一量化(Quantization)運算，最後編碼成為視訊位元串流(Bitstream)進行傳輸。更進一步地，視訊壓縮裝置可針對不同區塊大小來進行預測，可針對16×16、16×8、8×16、8×8、8×4、4×8及4×4等不同大小的區塊進行預測。舉例來說，如果欲壓縮的畫面是較平坦的區域(紋理複雜度較低)，可使用較大的區塊進行預測；相反地，如果欲壓縮的畫面是較複雜的區域(紋理複雜度較低)，可使用較小的區塊進行預測。另外，不同區塊的動量向量(Motion Vector)可達到二分之一及四分之一的精確度，使得畫面預測較準確。

近年來，隨著畫面解析度提高，資料量處理越來越龐大，視訊壓縮專家團隊遂以H.264為基礎，開發新一代的HEVC標準架構。HEVC的視訊編碼操作與H.264大致類似，具體來說，請參考第4圖，第4圖為HEVC標準架構下之一視訊壓縮裝置40之方塊圖。視訊壓縮裝置40可透過一畫面間預測模組400及一畫面內預測模組402，對一畫面Fn進行畫面間預測及畫面內預測，以取得一預測畫面Pn。視訊壓縮裝置40可將預測畫面Pn與原始欲編碼畫面Fn進行比對，以取得一影像殘餘值Rn。視訊壓縮裝置40透過一轉換及量化模組404以及一熵編碼(Entropy Coding)模組406，對影像殘餘值Rn進行離散餘弦轉換、量化運算以及熵編碼運算，以產生已壓縮編碼之一視訊位元串流VBS。

相較於H.264將畫面切割為16×16大小的巨區塊，HEVC下之視訊壓縮裝置40係將畫面Fn切割為64×64大小的樹區塊(Tree Block)以進行編碼，也就是說，HEVC標準架構下之視訊壓縮裝置40所切割出的編碼區塊較大。另外，HEVC標準架構下之視訊壓縮裝置40更利用迴路濾波器以及更佳的畫面間預測、畫面內預測技術，使得HEVC標準架構下之視訊壓縮裝置40可達到更加的壓縮效率。然而，HEVC標準架構下之視訊壓縮裝置40的運算複雜度也大幅提昇。

因此，如何提供一種降低複雜度的視訊壓縮方法及視訊壓縮裝置，也就成為業界所努力的目標之一。

因此，本發明之主要目的即在於提供一種降低複雜度的視訊壓縮方法及視訊壓縮裝置，以改善習知技術的缺點。

本發明揭露一種視訊壓縮方法，包含將一畫面分割成複數個第一區塊，其中該複數個第一區塊之一第一最大區塊大小(Maximum Block Size)為N×N，N為一正整數；對該複數個第一區塊進行一合併模式(Merge Mode)運算，以產生複數個第一預測結果；將該畫面分割成複數個第二區塊，其中該複數個第二區塊之一第二最大區塊大小為M×M，其中M為小於N之一正整數；對該複數個第二區塊進行一動量估計(Motion Estimation)運算，以產生複數個第二預測結果；以及根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行一視訊壓縮編碼。

本發明另揭露一種視訊壓縮裝置，包含一合併(Merge)模組，用來對一畫面之複數個第一區塊進行一合併模式(Merge Mode)運算，以產生複數個第一預測結果，其中該複數個第一區塊之一第一最大區塊大小(Maximum Block Size)為N×N，N為一正整數；一動量估計(Motion Estimation)模組，用來對該畫面之複數個第二區塊進行一動量估計(Motion Estimation)運算，以產生複數個第二預測結果，其中該複數個第二區塊之一第二最大區塊大小為M×M，M為小於N之一正整數；以及一編碼模組，用來根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行一視訊壓縮編碼。

10、40‧‧‧視訊壓縮裝置

20‧‧‧視訊壓縮流程

100、300、400‧‧‧畫面間預測模組

102‧‧‧殘餘值計算模組

104、404‧‧‧轉換及量化模組

106‧‧‧最佳模式選擇模組

108、406‧‧‧熵編碼模組

120、320‧‧‧合併模組

122、322‧‧‧動量估計模組

140‧‧‧編碼模組

200~214‧‧‧步驟

324‧‧‧整數點動量估計模組

326‧‧‧非整數點動量微調模組

402‧‧‧畫面內預測模組

F、Fn‧‧‧畫面

IDX‧‧‧指標

MV_AMVP‧‧‧動量向量

Pn‧‧‧預測畫面

P_merge、P_AMVP‧‧‧預測區塊

Rn‧‧‧影像殘餘值

R_merge、R_AMVP‧‧‧殘餘值

TQ_merge、TQ_AMVP‧‧‧轉換量化結果

VBS、VBS1‧‧‧視訊位元串流

第1圖為本發明實施例一視訊壓縮裝置之方塊圖。

第2圖為本發明實施例一視訊壓縮裝置之操作流程圖。

第3圖為本發明實施例一畫面間預測模組之方塊圖。

第4圖為習知一視訊壓縮裝置之方塊圖。

本發明著重於改善視訊壓縮過程中畫面間預測(Inter Prediction)的技術，以降低視訊壓縮裝置整體的複雜度。具體來說，請參考第1圖，第1圖為本發明實施例一視訊壓縮裝置10之方塊圖。視訊壓縮裝置10可為符合高效率視訊編碼(High Efficiency Video Coding，HEVC)標準架構的視訊壓縮裝置，其用來對一未編碼視訊資料流進行一視訊壓縮編碼。視訊壓縮裝置10包含一畫面間預測(Inter Prediction)模組100以及一編碼模組140，其中畫面間預測模組100包含一合併(Merge)模組120以及一動量估計(Motion Estimation)模組122，而編碼模組140包含一殘餘值(Residue)計算模組102、一轉換及量化模組104、一最佳模式選擇模組106以及一熵編碼(Entropy Coding)模組108。為求簡潔，第1圖僅繪示與畫面間預測相關之模組，而未繪示視訊壓縮裝置10所需之畫面內預測模組、反轉換及反量化模組、迴路濾波器、畫面緩衝模組等模組。

合併模組120用來將欲編碼之一畫面F切割成複數個第一區塊BK_merge，並對複數個第一區塊BK_merge進行一合併模式(Merge Mode)運算，以產生對應於複數個第一區塊BK_merge的複數個第一預測區塊P_merge，另外，合併模組120可根據鄰近於第一區塊BK_merge的複數個第一動量向量(Motion Vector)MV_merge，取得對應於複數個第一動量向量MV_merge之複數個指標(Index)IDX(複數個第一預測區塊P_merge或複數個指標IDX可對應至複數個第一預測結果)。合併模組120可將複數個第一區塊BK_merge的複數個第一預測區塊P_merge輸出至殘餘值計算模組102，並將對應於複數個第一動量向量MV_merge之複數個指標IDX輸出至最佳模式選擇模組106。需注意的是，複數個第一區塊BK_merge之一第一最大區塊大小(Maximum Block Size)為N×N(N為一正整數)。舉例來說，當複數個第一區塊BK_merge之第一最大區塊大小為64×64時(即當正整數N為64時)，合併模組120可將畫面F切割為64×64、32×32、16×16、8×8等不同大小的複數個第一區塊BK_merge，並對不同大小的複數個第一區塊BK_merge進行合併模式運算。

其餘合併模組120對複數個第一區塊BK_merge進行合併模式運算的細節，已詳述於HEVC標準的合併模式(Merge Mode)中，於此不另贅述。

另外，動量估計模組122用來將欲編碼之畫面F切割成複數個第二區塊BK_AMVP，並對複數個第二區塊BK_AMVP進行一動量估計(Motion Estimation)運算，以產生對應於複數個第二區塊BK_AMVP的複數個第二預測區塊P_AMVP以及對應於複數個第二區塊BK_AMVP的複數個第二動量向量MV_AMVP(複數個第二預測區塊P_AMVP或複數個第二動量向量MV_AMVP可對應至複數個第二預測結果)。動量估計模組122可將複數個第二預測區塊P_AMVP輸出至殘餘值計算模組102，並將複數個第二動量向量MV_AMVP輸出至最佳模式選擇模組106。需注意的是，在複數個第一區塊BK_merge之第一最大區塊大小為N×N的前提下，複數個第二預測區塊P_AMVP之一第二最大區塊大小為M×M(M為一正整數)，其中正整數M為小於正整數N。舉例來說，當複數個第一區塊BK_merge之第一最大區塊大小為64×64時(即當正整數N為64時)，動量估計模組122僅可將畫面F切割為小於M×M之複數個第二區塊BK_AMVP，即複數個第二區塊BK_AMVP之區塊大小最大為M×M，其中正整數M小於64。於一實施例中，在複數個第一區塊BK_merge之第一最大區塊大小為64×64的前提下，動量估計模組122可將畫面F切割為32×32、32×16、16×32、 16×16、16×8、8×16、8×8、8×4、4×8等不同大小的複數個第二區塊BK_AMVP，並對不同大小的複數個第二區塊BK_AMVP進行動量估計運算。於一實施例中，該正整數N為該正整數M之一整數倍，即正整數N可表示為N=jM，而j代表一正整數(如j=2)。

另外，動量估計運算可為HEVC之一進階動量向量預測模式(Advanced Motion Vector Prediction Mode，AMVP Mode)運算，當動量估計模組122對複數個第二區塊BK_AMVP中一區塊BK_k’進行進階動量向量預測運算時，動量估計模組122可直接產生對應於區塊BK_k’之第二動量向量MV_AMVP以及第二預測區塊P_merge，其餘動量估計模組122對複數個第二區塊BK_merge進行動量估計運算/進階移動向量預測運算的細節，已詳述於HEVC標準的進階動量向量預測模式(AMVP Mode)中，於此不另贅述。

另外，編碼模組140根據複數個第一預測區塊P_merge、複數個第二預測區塊P_AMVP、複數個指標IDX以及複數個第二動量向量MV_AMVP，對畫面F進行一視訊壓縮編碼。詳細來說，殘餘值計算模組102接收畫面F、複數個第一預測區塊P_merge以及複數個第二預測區塊P_AMVP，殘餘值計算模組102根據畫面F以及複數個第一預測區塊P_merge，產生對應於複數個第一預測區塊P_merge之複數個第一殘餘值R_merge，另外，殘餘值計算模組102根據畫面F以及複數個第二預測區塊P_AMVP，產生對應於複數個第二預測區塊P_AMVP之複數個第二殘餘值R_AMVP。其餘關於殘餘值計算模組102的操作細節為本領域所熟知，於此不另贅述。

另外，轉換及量化模組104分別對複數個第一殘餘值R_merge以及複數個第二殘餘值R_AMVP進行一離散餘弦轉換(Discrete Cosine Transform,DCT)及一量化(Quantization)運算，以產生對應於複數個第一殘餘值R_merge之複數個轉換量化結果TQ_merge以及對應於複數個第二殘餘值R_AMVP之複數個轉換量化結果TQ_AMVP。其餘關於轉換及量化模組104的操作細節為本領域技術人員所熟知，於此不另贅述。

另外，最佳模式選擇模組106接收複數個轉換量化結果TQ_merge、複數個轉換量化結果TQ_AMVP、複數個指標IDX以及複數個第二動量向量MV_AMVP，並根據複數個轉換量化結果TQ_merge、複數個轉換量化結果TQ_AMVP、複數個指標IDX以及複數個第二動量向量MV_AMVP，選擇一率失真成本(Rate Distortion Cost，RD Cost)為最低之一最佳模式。熵編碼模組108遂根據該最佳模式，對畫面F進行一熵編碼，以產生對應於畫面F已壓縮編碼之一視訊位元串流VBS1。其中，熵編碼模組108可利用一內容適應性二位元算數編碼(Context-Based Adaptive Binary Arithmetic Coding，CABAC)演算法，對畫面F進行熵編碼。其餘關於CABAC演算法、最佳模式選擇模組106及熵編碼模組108的操作細節為本領域技術人員所熟知，於此不另贅述。

需注意的是，對於區塊大小(Block Size)較大的區塊(如區塊大小為64×64的區塊)來說，動量估計運算需要相當高的硬體複雜度，更進一步地，對於區塊大小較大的區塊(如區塊大小為64×64的區塊)來說，相較於合併模式運算，動量估計運算僅能達到較低的壓縮增益(Compression Gain)。換句話說，若對區塊大小較大的區塊進行動量估計運算，其壓縮增益既無法達到合併模式運算所能達到的壓縮增益，亦徒增硬體複雜度。

習知技術中，當視訊壓縮裝置進行合併模式運算所切割之複數個第一區塊之第一最大區塊大小為N×N時，視訊壓縮裝置進行動量估計運算所切割之複數個第二區塊之第二最大區塊大小必須同為N×N，在此情形下，習知視訊壓縮裝置之硬體複雜度較高。相較之下，當本發明實施例之合併模組120進行合併模式運算所切割之複數個第一區塊BK_merge之第一最大區塊大小為N×N時，動量估計模組122僅需對區塊大小為小於或等於M×M之複數個第二區塊BK_AMVP進行動量估計運算即可，其中正整數M小於正整數N。如此一來，可大幅降低視訊壓縮裝置10所需之硬體複雜度，同時視訊壓縮裝置10可保有與習知技術相當之壓縮增益。另外，動量估計模組122僅能對區塊大小為小於或等於M×M之複數個第二區塊BK_AMVP進行動量估計運算，而使得最佳模式選擇模組106的選擇範圍縮小，進而縮短最佳模式選擇模組106運作所需的時間。

關於視訊壓縮裝置10的操作，可進一步歸納為一視訊壓縮流程。請參考第2圖，第2圖為本發明實施例一視訊壓縮流程20之示意圖。視訊壓縮流程20可由視訊壓縮裝置10來執行，視訊壓縮流程20包含以下步驟：

步驟200：將畫面F分割成複數個第一區塊BK_merge，其中複數個第一區塊BK_merge之第一最大區塊大小為N×N，N為正整數。

步驟202：對複數個第一區塊BK_merge進行合併模式運算，以產生取得複數個第一預測結果，其中複數個第一預測結果為對應於複數個第一動量向量MV_merge之複數個指標IDX及對應於複數個第一區塊BK_merge之複數個第一預測區塊P_merge。

步驟204：將畫面F分割成複數個第二區塊塊BK_AMVP，其中複數個第二區塊塊BK_AMVP之第二最大區塊大小為M×M，其中正整數M小於正整數N。

步驟206：對複數個第二區塊BK_AMVP進行動量估計運算，以產生複數個第二預測結果，其中複數個第二預測結果為對應於複數個第二區塊BK_AMVP之複數個第二動量向量MV_AMVP及複數個第二預測區塊P_AMVP。

步驟208：根據畫面F以及複數個第一預測區塊P_merge，產生對應於複數個第一預測區塊P_merge之複數個第一殘餘值R_merge；並根據畫面F以及複數個第二預測區塊P_AMVP，產生對應於複數個第二預測區塊P_AMVP之複數個第二殘餘值R_AMVP。

步驟210：分別對複數個第一殘餘值R_merge以及複數個第二殘餘值R_AMVP進行離散餘弦轉換及量化運算，以產生對應於複數個第一殘餘值R_merge之複數個轉換量化結果TQ_merge以及對應於複數個第二殘餘值R_AMVP之複數個轉換量化結果TQ_AMVP。

步驟212：根據複數個轉換量化結果TQ_merge、複數個轉換量化結果TQ_AMVP、複數個指標IDX以及複數個第二動量向量MV_AMVP，選擇率失真成本為最低之最佳模式。

步驟214：根據該最佳模式，對畫面F進行熵編碼，以產生對應於畫面F已壓縮編碼之視訊位元串流VBS1。

關於視訊壓縮流程20的操作細節，請參考前述相關段落，於此不另贅述。另外，本領域技術人員當知第1圖內的模組/功能單元可由數位電路(如RTL電路)或一數位訊號處理器(Digital Signal Processor，DSP)來實現或進行實作，於此不再贅述。

需注意的是，前述實施例係用以說明本發明之概念，本領域具通常知識者當可據以做不同之修飾，而不限於此。舉例來說，於視訊壓縮裝置10中，合併模組120產生對應於複數個第一區塊BK_merge的複數個第一預測區塊P_merge，並取得對應於複數個第一動量向量MV_merge之複數個指標IDX，而不限於此。請參考第3圖，第3圖為本發明實施例一畫面間預測模組300之方塊圖。畫面間預測模組300包含一合併模組320以及一動量估計模組322，動量估計模組322包含一整數點動量估計模組(Integer Motion Estimation Module)324以及一非整數點動量微調模組(Fractional Motion Refinement Module)326。畫面間預測模組300與畫面間預測模組100的運作相似，與畫面間預測模組100不同之處在於，相較於合併模組120，合併模組320僅輸出對應於複數個第一動量向量MV_merge之複數個指標IDX；相較於動量估計模組122，動量估計模組322除了產生對應於複數個第二區塊BK_AMVP的複數個第二預測區塊P_AMVP以及對應於複數個第二區塊BK_AMVP的複數個第二動量向量MV_AMVP之外，動量估計模組322另利用非整數點動量微調模組326根據複數個指標IDX產生對應於複數個第一區塊BK_merge的複數個第一預測區塊P_merge。只要當合併模組320進行合併模式運算所切割之複數個第一區塊BK_merge之第一最大區塊大小為N×N時，動量估計模組322僅能對區塊大小為小於M×M之複數個第二區塊BK_AMVP進行動量估計運算(其中正整數M為小於正整數N)，即滿足本發明之需求而屬於本發明之範疇。其餘關於整數點動量估計模組324及非整數點動量微調模組326的操作細節為本領域技術人員所熟知，於此不另贅述。

綜上所述，本發明藉由降低進行動量估計運算時對欲編碼畫面所切割出複數個第二區塊之第二最大區塊大小，來降低本發明之視訊壓縮裝置所需之硬體複雜度，同時本發明之視訊壓縮裝置可保有與習知技術相當之壓縮增益；具體而言，在相同的編碼速度下，可保有約98~99%的壓縮增益，但節省約20%的電路面積。另外，本發明之最佳模式選擇模組的選擇範圍因第二最大區塊大小縮小而隨之縮小，進而縮短本發明之最佳模式選擇模組運作所需的時間。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

Claims

一種視訊壓縮方法，包含：將一畫面分割成複數個第一區塊，其中該複數個第一區塊之一第一最大區塊大小(Maximum Block Size)為N×N，N為一正整數；對該複數個第一區塊進行一合併模式(Merge Mode)運算，以產生複數個第一預測結果；將該畫面分割成複數個第二區塊，其中該複數個第二區塊之一第二最大區塊大小為M×M，其中M為小於N之一正整數；僅對區塊大小小於或等於該第二最大區塊大小的該複數個第二區塊進行一動量估計(Motion Estimation)運算，以產生複數個第二預測結果；以及根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行一視訊壓縮編碼。
如請求項1所述之視訊壓縮方法，其中該正整數N為該正整數M之一整數倍。
如請求項2所述之視訊壓縮方法，其中該整數倍為2。
如請求項1所述之視訊壓縮方法，另包含：對該複數個第一區塊進行該合併模式運算，以取得該複數個第一預測結果為對應於複數個第一動量向量(Motion Vector)之複數個指標(Index)或對應於該複數個第一區塊之複數個第一預測區塊；以及對該複數個第二區塊進行該動量估計運算，以產生該複數個第二預測結果為對應於該複數個第二區塊之複數個第二動量向量或複數個第二預測區塊。
如請求項4所述之視訊壓縮方法，其中根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行該視訊壓縮編碼的步驟包含：根據該畫面及該複數個第一預測區塊，產生對應於該複數個第一預測區塊之複數個第一殘餘值(Residue)；以及根據該畫面及該複數個第二預測區塊，產生對應於該複數個第二預測區塊之複數個第二殘餘值。
如請求項4所述之視訊壓縮方法，其中根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行該視訊壓縮編碼的步驟包含：根據該複數個指標及該複數個第二動量向量，選擇一最佳模式；以及根據該最佳模式，對該畫面進行一熵編碼(Entropy Coding)，以產生對應於該畫面之一視訊位元串流。
一種視訊壓縮裝置，包含：一合併(Merge)模組，用來對一畫面之複數個第一區塊進行一合併模式(Merge Mode)運算，以產生複數個第一預測結果，其中該複數個第一區塊之一第一最大區塊大小(Maximum Block Size)為N×N，N為一正整數；一動量估計(Motion Estimation)模組，僅對該畫面中區塊大小小於或等於一第二最大區塊大小之複數個第二區塊進行一動量估計(Motion Estimation)運算，以產生複數個第二預測結果，其中該複數個第二區塊之該第二最大區塊大小為M×M，M為小於N之一正整數；以及一編碼模組，用來根據該複數個第一預測結果以及該複數個第二預測結果，對該畫面進行一視訊壓縮編碼。
如請求項7所述之視訊壓縮裝置，其中該正整數N為該正整數M之一整數倍。
如請求項8所述之視訊壓縮裝置，其中該整數倍為2。
如請求項7所述之視訊壓縮裝置，其中該複數個第一預測結果為對應於複數個第一動量向量(Motion Vector)之複數個指標(Index)或對應於該複數個第一區塊之複數個第一預測區塊，該複數個第二預測結果為對應於該複數個第二區塊之複數個第二動量向量或複數個第二預測區塊。
如請求項7所述之視訊壓縮裝置，其中該編碼模組包含一殘餘值(Residue)計算模組，用來根據該畫面及該複數個第一預測區塊產生對應於該複數個第一預測區塊之複數個第一殘餘值，以及根據該畫面及該複數個第二預測區塊產生對應於該複數個第二預測區塊之複數個第二殘餘值。
如請求項7所述之視訊壓縮裝置，其中該編碼模組包含：一最佳模式選擇模組，用來根據該複數個指標及該複數個第二動量向量，選擇一最佳模式；以及一熵編碼(Entropy Coding)模組，用來根據該最佳模式，對該畫面進行一熵編碼，以產生對應於該畫面之一視訊位元串流。