TW202218428A - 圖像編碼方法、圖像解碼方法及相關裝置 - Google Patents

圖像編碼方法、圖像解碼方法及相關裝置 Download PDF

Info

Publication number
TW202218428A
TW202218428A TW110130846A TW110130846A TW202218428A TW 202218428 A TW202218428 A TW 202218428A TW 110130846 A TW110130846 A TW 110130846A TW 110130846 A TW110130846 A TW 110130846A TW 202218428 A TW202218428 A TW 202218428A
Authority
TW
Taiwan
Prior art keywords
block
residual
prediction
current
current coding
Prior art date
Application number
TW110130846A
Other languages
English (en)
Inventor
馬展
劉浩杰
Original Assignee
大陸商Oppo廣東移動通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商Oppo廣東移動通信有限公司 filed Critical 大陸商Oppo廣東移動通信有限公司
Publication of TW202218428A publication Critical patent/TW202218428A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一種圖像編碼方法、圖像解碼方法及相關裝置,圖像解碼方法包括:獲取當前編碼塊的原始殘差塊,當前編碼塊包括當前處理的影像幀或者劃分當前處理的影像幀而得到的編碼單元;根據原始殘差塊和預先訓練好的特徵預測模型,得到當前編碼塊的變換特徵;對當前編碼塊的變換特徵進行量化,得到當前編碼塊的量化特徵;透過預先訓練好的概率預測模型,確定當前編碼塊的量化特徵中每個像素的概率;利用每個像素的概率生成當前編碼塊的二進位位元流。本申請實施例實現自我調整的動態殘差補償,能有效地編碼不同形式的幀間殘差訊息。

Description

圖像編碼方法、圖像解碼方法及相關裝置
本申請涉及電子設備技術領域,具體涉及一種圖像編碼方法、圖像解碼方法及相關裝置。
數位影像能力可併入到大範圍的裝置中,包含數位電視、數位直播系統、無線廣播系統、個人數位助理(personal  digital  assistant,PDA)、膝上型或桌上型電腦、平板電腦、電子書閱讀器、數位相機、數位記錄裝置、數位媒體播放機、影像遊戲裝置、影像遊戲控制台、行動或衛星無線電電話、影像會議裝置、影像流裝置等等。
數位影像裝置實施影像壓縮技術,例如由MPEG-2、MPEG-4、ITU-TH.263、ITU-TH.264/MPEG-4第10部分高級影像編解碼(advanced  video  coding,AVC)、ITU-TH .265高效率影像編解碼(high  efficiency video  coding,HEVC)標準定義的標準和所述標準的擴展部分中所描述的那些影像壓縮技術,從而更高效地發射及接收數位影像訊息。影像裝置可透過實施這些影像編解碼技術來更高效地發射、接收、編碼、解碼和/或儲存數位影像訊息。
隨著網路影像的激增,儘管數位影像壓縮技術不斷演進,但仍然對影像壓縮比提出更高要求。
本申請實施例提供了一種圖像編碼方法、圖像解碼方法及相關裝置,以期實現自我調整的動態殘差補償,能有效地編碼不同形式的幀間殘差訊息。
第一方面,本申請實施例提供一種圖像編碼方法,包括:
獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元;
根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵;
對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵;
透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率;
利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
相比於現有技術,本申請方案對當前預測幀進行自我調整的動態殘差補償並得到最終的幀間重建,能有效地編碼不同形式的幀間殘差訊息。
第二方面,本申請實施例提供一種圖像解碼方法,包括:
獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元;
透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵;
根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊;
根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
相比於現有技術,本申請方案對當前預測幀進行自我調整的動態殘差補償並得到最終的幀間重建,能有效地編碼不同形式的幀間殘差訊息。
第三方面,本申請實施例提供一種圖像編碼裝置,包括:
獲取單元,用於獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元;
第一預測單元,用於根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵;
量化單元,用於對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵;
第二預測單元,用於透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率;
生成單元,用於利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
第四方面,本申請實施例提供一種圖像解碼裝置,包括:
獲取單元,用於獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元;
第一預測單元,用於透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵;
第二預測單元,用於根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊;
確定單元,用於根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
第五方面,本申請實施例提供了一種編碼器,包括:處理器和耦合於所述處理器的記憶體;所述處理器用於執行上述第一方面所述的方法。
第六方面,本申請實施例提供了一種解碼器,包括:處理器和耦合於所述處理器的記憶體;所述處理器用於執行上述第二方面所述的方法。
第七方面,本申請實施例提供了一種終端,所述終端包括:一個或多個處理器、記憶體和通訊介面;所述記憶體、所述通訊介面與所述一個或多個處理器連接;所述終端透過所述通訊介面與其他設備通訊,所述記憶體用於儲存電腦程式代碼,所述電腦程式代碼包括指令,當所述一個或多個處理器執行所述指令時,所述終端執行如第一方面或第二方面所述的方法。
第八方面,本申請實施例提供了一種電腦可讀儲存媒介,所述電腦可讀儲存媒介中儲存有指令,當所述指令在電腦上運行時,使得電腦執行上述第一方面或第二方面所述的方法。
第九方面,本申請實施例提供了一種包含指令的電腦程式產品,當所述指令在電腦上運行時,使得電腦執行上述第一方面或第二方面所述的方法。
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
可以理解,本發明所使用的術語“第一”、“第二”等可在本文中用於描述各種元件,但這些元件不受這些術語限制。這些術語僅用於將第一個元件與另一個元件區分。舉例來說,在不脫離本發明的範圍的情況下,可以將第一用戶端稱為第二用戶端,且類似地,可將第二用戶端稱為第一用戶端。第一用戶端和第二用戶端兩者都是用戶端,但其不是同一用戶端。
首先介紹一下本申請實施例中用到的術語和相關技術。
影像中完整的圖像通常被稱為“幀”,由許多幀按照時間順序組成的影像也被稱為影像序列(Video Sequence)。影像序列存在空間冗餘、時間冗餘、視覺冗餘、訊息熵冗餘、結構冗餘、知識冗餘、重要性冗餘等一系列的冗餘訊息。為了盡可能的去除影像序列中的冗餘訊息,減少表徵影像的資料量,提出了影像編碼(Video Coding)技術,以達到減小儲存空間和節省傳輸頻寬的效果。影像編碼技術也稱為影像壓縮技術。
就目前的技術發展現狀而言,影像編碼技術主要包括幀內預測、幀間預測、變換量化、熵編碼以及消塊濾波處理等。在國際通用範圍內,影像壓縮編碼標準,例如:由運動態影像專家群(Motion Picture Experts Group,MPEG) 制定的MPEG-2和MPEG-4第10部分高級影像編解碼(Advanced Video Coding,AVC) ,由國際電信聯盟電信標準化部門(International Telecommunication Union-Telecommunication Standardization Sector,ITU-T)制定的H.263、H.264和H .265高效率影像編解碼(High Efficiency Video Coding standard,HEVC)中,主流的壓縮編碼方式主要有四種:色度抽樣、預測編碼、變換編碼和量化編碼。
預測編碼:利用之前已編碼幀的資料訊息來預測當前將要編碼的幀。編碼端透過預測得到一個預測值,該預測值與實際值之間存在著一定的殘差值。如果預測越適合,則預測值就會越接近實際值,殘差值就越小,這樣編碼端對殘差值進行編碼就能大大減小資料量。解碼端在解碼時,運用殘差值加上預測值還原重構出初始圖像。在主流編碼標準中,預測編碼分為幀內預測和幀間預測兩種基本類型。
幀間預測是基於運動補償(motion compensation)的預測技術,主要處理為確定當前塊的運動訊息,根據運動訊息從當前塊的參考幀中獲取參考圖像塊,產生當前塊的預測圖像。其中,當前塊使用前向預測、後向預測或雙向預測中的一種進行,預測方向透過運動訊息中的幀間預測方向指示,參考幀中用於預測當前塊的參考圖像塊相對於當前塊的位移向量透過運動訊息中的運動向量指示,一個運動向量對應有一個參考幀。一個圖像塊的幀間預測可以只透過一個運動向量,使用一個參考幀中的像素來生成預測圖像,稱為單向預測;也可以透過兩個運動向量,使用兩個參考幀中的像素來組合生成預測圖像,稱為雙向預測。也就是說,一個圖像塊通常可包含一個或兩個運動向量。對於一些多假設幀間預測(multi-hypothesis inter prediction)技術,一個圖像塊可能包含多於兩個運動向量。
幀間預測透過參考幀索引(reference index ,ref_idx)指明參考幀(reference frame),透過運動向量(motion vector ,MV)指示當前塊在參考幀中的參考塊(reference block)相對當前塊的位置偏移。一個MV是二維向量,包含水平方向位移分量和豎直方向位移分量;一個MV對應於兩個幀,每一幀具有一個圖像順序號(picture order count,POC),用於表示圖像在顯示順序上的編號,所以一個MV也對應於一個POC差值。POC差值與時間間隔呈線性關係。運動向量的縮放通常採用基於POC差值的縮放方式,將一對圖像之間的運動向量轉換成另一對圖像之間的運動向量。
常用的幀間預測模式有以下兩種。
1)高級運動向量預測(advanced motion vector prediction,AMVP)模式:在位元流中標識當前塊使用的幀間預測方向(前向、後向或雙向)、參考幀索引(reference index)、運動向量預測值索引(motion vector predictor index ,MVP index)、運動向量殘差值(motion vector difference,MVD);由幀間預測方向確定使用的參考幀佇列,由參考幀索引確定當前塊MV指向的參考幀,由運動向量預測值索引指示MVP列表中的一個MVP作為當前塊MV的預測值,一個MVP與一個MVD相加得到一個MV。
2)合併/跳躍(merge/skip)模式:位元流中標識融合索引(merge index),根據融合索引(merge index)從融合候選者列表(merge candidate list)中選擇一個融合候選者(merge candidate),當前塊的運動訊息(包括預測方向、參考幀、運動向量)由這個融合候選者(merge candidate)確定。merge模式和skip模式的主要區別在於,merge模式隱含當前塊有殘差訊息,而skip模式隱含當前塊沒有殘差訊息(或者說殘差為0);這兩種模式匯出運動訊息的方式是一樣的。
融合候選者具體是一種運動訊息資料結構體,包含幀間預測方向、參考幀、運動向量等多種訊息。當前塊可根據融合索引(merge index)從融合候選者列表(merge candidate list)中選擇對應的融合候選者,將融合候選者的運動訊息作為當前塊的運動訊息,或者對融合候選者的運動訊息經過縮放後作為當前塊的運動訊息。HEVC標準中,融合候選者可以是當前塊相鄰的圖像塊的運動訊息,稱為空間融合候選者(spatial merge candidate);也可以是當前塊在另一已編碼圖像中對應位置圖像塊的運動訊息,稱為時間融合候選者(temporal merge candidate)。此外,融合候選者還可以是由一個融合候選者的前向運動訊息和另一個融合候選者的後向運動訊息組合而成的雙向預測融合候選者(bi-predictive merge candidate),或者運動向量強制為0向量的零運動向量融合候選者(zero motion vector merge candidate)。
其中,所述幀間預測單元的劃分包括2N×2N劃分方式(如圖4中的A所示)、N×N劃分方式(如圖4中的B所示)、N×2N劃分方式(如圖4中的C所示)、2N×N劃分方式(如圖4中的D所示)、2N×nD劃分方式(如圖4中的E所示)、2N×nU劃分方式 (如圖4中的F所示)、nL×2N劃分方式(如圖4中的G所示)、nR×2N劃分方式(如圖4中的H所示)。其中,N為任意正整數,n=x×N,0≤x≤1。
2N×2N劃分方式為對圖像塊不進行劃分;N×N劃分方式為將圖像塊劃分為四個等大的子圖像塊;N×2N劃分方式為將圖像塊劃分成左右兩個等大的子圖像塊;2N×N劃分方式為將圖像塊劃分成上下兩個等大的子圖像塊;2N×nD劃分方式為將圖像塊劃分為上下兩個子圖像塊,且圖像劃分線相對該圖像塊的垂直平分線下移n,其中,D表示圖像劃分線相對該圖像塊的垂直平分線下移;2N×nU劃分方式為將圖像塊劃分為上下兩個子圖像塊,且圖像劃分線相對該圖像塊的垂直平分線上移n,其中,U表示圖像劃分線相對該圖像塊的垂直平分線上移;nL×2N劃分方式為將圖像塊劃分為左右兩個子圖像塊,且圖像劃分線相對該圖像塊的垂直平分線左移n,其中,L表示圖像劃分線相對該圖像塊的垂直平分線左移;nR×2N劃分方式為將圖像塊劃分為左右兩個子圖像塊,且圖像劃分線相對該圖像塊的垂直平分線右移n,其中,R表示圖像劃分線相對該圖像塊的垂直平分線右移。
對於圖像的劃分,為了更加靈活的表示影像內容,高效率影像編解碼(High  Efficiency  Video  Coding  standard,HEVC)技術中定義了編碼樹單元(coding  tree  unit,CTU)、編碼塊(Coding Unit,CU)、預測單元(Prediction  Unit,PU)和變換單元(Transform  Unit,TU)。CTU、CU、PU和TU均為圖像塊。
編碼樹單元CTU,一幅圖像由多個CTU構成,一個CTU通常對應於一個方形圖像區域,包含這個圖像區域中的亮度像素和色度像素(或者也可以只包含亮度像素,或者也可以只包含色度像素);CTU中還包含語法元素,這些語法元素指示如何將CTU劃分成至少一個編碼塊(coding  unit,CU),以及解碼每個編碼塊得到重建圖像的方法。如圖1所示,圖像1由多個CTU構成(包括CTU A、CTU B、CTU C等)。與某一CTU對應的編碼訊息包含與該CTU對應的方形圖像區域中的像素的亮度值和/或色度值。此外,與某一CTU對應的編碼訊息還可以包含語法元素,這些語法元素指示如何將該CTU劃分成至少一個CU,以及解碼每個CU以得到重建圖像的方法。一個CTU對應的圖像區域可以包括64×64、128×128或256×256個像素。在一個示例中,64×64個像素的CTU包含由64列、每列64個像素的矩形像素點陣,每個像素包含亮度分量和/或色度分量。CTU也可以對應矩形圖像區域或者其它形狀的圖像區域,一個CTU對應的圖像區域也可以是水平方向的像素點的數量與豎直方向的像素點數量不同的圖像區域,例如包括64×128個像素。
編碼塊CU,通常對應於圖像中一個A×B的矩形區域,包含A×B亮度像素或/和它對應的色度像素,A為矩形的寬,B為矩形的高,A和B可以相同也可以不同,A和B的取值通常為2的整數次冪,例如128、64、32、16、8、4。其中,本申請實施例中涉及到的寬是指圖1示出的二維直角坐標系XoY中沿X軸方向(水平方向)的長度,高是指圖1示出的二維直角坐標系XoY中沿Y軸方向(豎直方向)的長度。一個CU的重建圖像可以透過預測圖像與殘差圖像相加得到,預測圖像透過幀內預測或幀間預測生成,具體可以由一個或多個預測塊(prediction  block,PB)構成,殘差圖像透過對變換係數進行反量化和反變換處理生成,具體可以由一個或多個變換塊(transform  block,TB)構成。具體的,一個CU包含編碼訊息,編碼訊息包括預測模式、變換係數等訊息,按照這些編碼訊息對CU進行相應的預測、反量化、反變換等解碼處理,產生這個CU對應的重建圖像。編碼樹單元CTU與編碼塊CU關係如圖2所示。
數位影像壓縮技術作用於顏色編碼方法為YCbCr,也可稱為YUV,顏色格式為4:2:0、4:2:2或4:4:4的影像序列。其中,Y表示明亮度(Luminance或Luma),也就是灰階值,Cb表示藍色色度分量,Cr表示紅色色度分量,U和V表示色度(Chrominance或Chroma),用於描述色彩及飽和度。在顏色格式上,4:2:0表示每4個像素有4個亮度分量,2個色度分量(YYYYCbCr),4:2:2表示每4個像素有4個亮度分量,4個色度分量(YYYYCbCrCbCr),而4:4:4表示全像素顯示(YYYYCbCrCbCrCbCrCbCr),圖3展示了不同顏色格式下的各分量分佈圖,其中圓形為Y分量,三角形為UV分量。
預測單元PU,是幀內預測、幀間預測的基本單元。定義圖像塊的運動訊息包含幀間預測方向、參考幀、運動向量等,正在進行編碼處理的圖像塊稱為當前編碼塊(current coding block,CCB),正在進行解碼處理的圖像塊稱為當前解碼塊(current decoding block,CDB),例如正在對一個圖像塊進行預測處理時,當前編碼塊或者當前解碼塊為預測塊;正在對一個圖像塊進行殘差處理時,當前編碼塊或者當前解碼塊為變換塊。當前編碼塊或當前解碼塊所在的圖像稱為當前幀。當前幀中,位於當前塊的左側或上側的圖像塊可能處於當前幀內部並且已經完成了編碼/解碼處理,得到了重建圖像,它們稱為重構塊;重構塊的編碼模式、重建像素等訊息是可以獲得的(available)。在當前幀進行編碼/解碼之前已經完成編碼/解碼處理的幀稱為重建幀。當前幀為單向預測幀(P幀)或雙向預測幀(B幀)時,它分別具有一個或兩個參考幀列表,兩個列表分別稱為L0和L1,每個列表中包含至少一個重建幀,稱為當前幀的參考幀。參考幀為當前幀的幀間預測提供參考像素。
變換單元TU,對原始圖像塊和預測圖像塊的殘差進行處理。
像素(又稱為像素點),是指圖像中的像素點,如編碼塊中的像素點、亮度分量像素塊中的像素點(又稱為亮度像素)、色度分量像素塊中的像素點(又稱為色度像素)等。
樣本(又稱為像素值、樣本值),是指像素點的像素值,該像素值在亮度分量域具體是指亮度(即灰階值),該像素值在色度分量域具體是指色度值(即色彩和飽和度),按照處理階段的不同,一個像素的樣本具體包括原始樣本、預測樣本和重構樣本。
目前,隨著深度學習的發展和成熟,基於深度學習的影像影像處理和編碼被廣泛研究。透過資料驅動的方法以及端到端學習的方式,深度神經網路能基於位元率失真優化端到端整個系統。卷積神經網路採用可學習的特徵變換,可微分量化,動態的概率分佈估計能更高效地去除影像圖像之間的冗餘,得到更緊湊的影像圖像特徵空間表達,在相同的碼率情況下能得到更高的重建品質。同時,基於特定神經網路硬體加速和開發,有利於進一步推進基於學習的編解碼系統的加速與落地。然而,由於影像編解碼的複雜性,實現完整的端到端基於學習的影像編碼方法仍是這個領域亟待解決的問題,每個特定模組的優化與分析以及其對整個端到端系統的影響仍有很大的不確定性和研究價值。國內外針對基於學習的端到端影像編碼系統的標準工作剛開始進行,MPEG和AVS對於智慧編碼標準化基本都處於call for evidence的階段。
現有的端到端系統方案中,直接採用端到端幀內編碼處理殘差訊息,沒有考慮殘差訊息的特殊性以及預測後的不均勻分佈性,沒有嵌入殘差稀疏化方法來近似傳統編碼方法中的skip模式。
針對上述問題,本申請實施例提供一種圖像編碼方法、編碼方法及相關裝置,下面結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述。
圖5為本申請實施例中所描述的一種實例的編解碼系統1的方塊圖,編解碼系統1包括影像編碼器100和影像解碼器200,影像編碼器100和影像解碼器200用於實現本申請提出的基於學習的端到端自我調整幀間殘差編碼方法。
如圖5中所示,編解碼系統1包含源裝置10和目的裝置20。源裝置10產生經編碼影像資料。因此,源裝置10可被稱為影像編碼裝置。目的裝置20可對由源裝置10所產生的經編碼的影像資料進行解碼。因此,目的裝置20可被稱為影像解碼裝置。源裝置10、目的裝置20或兩個的各種實施方案可包含一或多個處理器以及耦合到所述一或多個處理器的記憶體。所述記憶體可包含但不限於RAM、ROM、EEPROM、快閃記憶體或可用於以可由電腦存取的指令或資料結構的形式儲存所要的程式碼的任何其它媒體,如本文所描述。
源裝置10和目的裝置20可以包括各種裝置,包含桌上型電腦、行動計算裝置、筆記型(例如,膝上型)電腦、平板電腦、機上盒、例如所謂的“智慧”電話等電話手持機、電視機、相機、顯示裝置、數位媒體播放機、影像遊戲控制台、車載電腦或其類似者。
目的裝置20可經由鏈路30從源裝置10接收經編碼影像資料。鏈路30可包括能夠將經編碼影像資料從源裝置10移動到目的裝置20的一或多個媒體或裝置。在一個實例中,鏈路30可包括使得源裝置10能夠即時將經編碼影像資料直接發射到目的裝置20的一或多個通訊媒體。在此實例中,源裝置10可根據通訊標準(例如無線通訊協定)來調製經編碼影像資料,且可將經調製的影像資料發射到目的裝置20。所述一或多個通訊媒體可包含無線和/或有線通訊媒體,例如射頻(RF)頻譜或一或多個實體傳輸線。所述一或多個通訊媒體可形成基於分組的網路的一部分,基於分組的網路例如為局域網、廣域網路或全球網路(例如,網際網路)。所述一或多個通訊媒體可包含路由器、交換器、基地台或促使從源裝置10到目的裝置20的通訊的其它設備。在另一實例中,可將經編碼資料從輸出介面140輸出到儲存裝置40。
本申請的圖像編解碼技術可應用於影像編解碼以支援多種多媒體應用,例如空中電視廣播、有線電視發射、衛星電視發射、串流影像發射(例如,經由網際網路)、用於儲存於資料儲存媒體上的影像資料的編碼、儲存在資料儲存媒體上的影像資料的解碼,或其它應用。在一些實例中,編解碼系統1可用於支援單向或雙向影像傳輸以支援例如影像資料流、影像重播、影像廣播和/或影像電話等應用。
圖5中所說明的編解碼系統1僅為實例,並且本申請的技術可適用於未必包含編碼裝置與解碼裝置之間的任何資料通訊的影像解碼設置(例如,影像編碼或影像解碼)。在其它實例中,資料從本機記憶體檢索、在網路上資料流等等。影像編碼裝置可對資料進行編碼並且將資料儲存到記憶體,和/或影像解碼裝置可從記憶體檢索資料並且對資料進行解碼。在許多實例中,由並不彼此通訊而是僅編碼資料到記憶體和/或從記憶體檢索資料且解碼資料的裝置執行編碼和解碼。
在圖5的實例中,源裝置10包含影像源120、影像編碼器100和輸出介面140。在一些實例中,輸出介面140可包含調節器/解調器(數據機)和/或發射器。影像源120可包括影像捕獲裝置(例如,攝影機)、含有先前捕獲的影像資料的影像存檔、用以從影像內容提供者接收影像資料的影像饋入介面,和/或用於產生影像資料的電腦圖形系統,或影像資料的此些來源的組合。
影像編碼器100可對來自影像源120的影像資料進行編碼。在一些實例中,源裝置10經由輸出介面140將經編碼影像資料直接發射到目的裝置20。在其它實例中,經編碼影像資料還可儲存到儲存裝置40上,供目的裝置20以後存取來用於解碼和/或播放。
在圖5的實例中,目的裝置20包含輸入介面240、影像解碼器200和顯示裝置220。在一些實例中,輸入介面240包含接收器和/或數據機。輸入介面240可經由鏈路30和/或從儲存裝置40接收經編碼影像資料。顯示裝置220可與目的裝置20集成或可在目的裝置20外部。一般來說,顯示裝置220顯示經解碼影像資料。顯示裝置220可包括多種顯示裝置,例如,液晶顯示器(LCD)、等離子顯示器、有機發光二極體(OLED)顯示器或其它類型的顯示裝置。
儘管圖5中未圖示,但在一些方面,影像編碼器100和影像解碼器200可各自與音訊編碼器和解碼器集成,且可包含適當的多工器-多路分用器單元或其它硬體和軟體,以處置共同資料流程或單獨資料流程中的音訊和影像兩者的編碼。
影像編碼器100和影像解碼器200各自可實施為例如以下各項的多種電路中的任一者:一或多個微處理器、數位訊號處理器(DSP)、專用積體電路(ASIC)、場域可程式閘陣列(FPGA)、離散邏輯、硬體或其任何組合。如果部分地以軟體來實施本申請,那麼裝置可將用於軟體的指令儲存在合適的非揮發性電腦可讀儲存媒體中,且可使用一或多個處理器在硬體中執行所述指令從而實施本申請技術。前述內容(包含硬體、軟體、硬體與軟體的組合等)中的任一者可被視為一或多個處理器。影像編碼器100和影像解碼器200中的每一者可包含在一或多個編碼器或解碼器中,所述編碼器或解碼器中的任一者可集成為相應裝置中的組合編碼器/解碼器(編碼解碼器)的一部分。
圖6為本申請實施例中所描述的一種影像編碼器100的示例方塊圖。影像編碼器100用於將影像輸出到後處理實體41。後處理實體41表示可處理來自影像編碼器100的經編碼影像資料的影像實體的實例,例如媒體感知網路元件(MANE)或拼接/編輯裝置。在一些情況下,後處理實體41可為網路實體的實例。在一些影像編碼系統中,後處理實體41和影像編碼器100可為單獨裝置的若干部分,而在其它情況下,相對於後處理實體41所描述的功能性可由包括影像編碼器100的相同裝置執行。在某一實例中,後處理實體41是圖1的儲存裝置40的實例。
在圖6的實例中,影像編碼器100包括預測處理單元108、濾波器單元106、記憶體107、求和器112、變換器101、量化器102和熵編碼器103。預測處理單元108包括幀間預測器110和幀內預測器109。為了圖像塊重構,影像編碼器100還包含反量化器104、反變換器105和求和器111。濾波器單元106表示一個或多個迴路濾波器,例如去塊濾波器、自適應迴路濾波器(ALF)和取樣自適應偏移 (SAO)濾波器。儘管在圖6中將濾波器單元106示出為迴路內濾波器,但在其它實現方式下,可將濾波器單元106實施為迴路後濾波器。在一種示例下,影像編碼器100還可以包括影像資料記憶體、分割單元(圖中未示意)。
圖7為本申請實施例中所描述的一種影像解碼器200的示例方塊圖。在圖7的實例中,影像解碼器200包括熵解碼器203、預測處理單元208、反量化器204、反變換器205、求和器211、濾波器單元206以及記憶體207。預測處理單元208可以包括幀間預測器210和幀內預測器209。在一些實例中,影像解碼器200可執行大體上與相對於來自圖6的影像編碼器100描述的編碼過程互逆的解碼過程。
在解碼過程中,影像解碼器200從影像編碼器100接收表示經編碼影像條帶的圖像塊和相關聯的語法元素的經編碼影像位元流。影像解碼器200可從網路實體42接收影像資料,可選的,還可以將所述影像資料儲存在影像資料記憶體(圖中未示意)中。影像資料記憶體可儲存待由影像解碼器200的元件解碼的影像資料,例如經編碼影像位元流。儲存在影像資料記憶體中的影像資料,例如可從儲存裝置40、從相機等本地影像源、經由影像資料的有線或無線網路通訊或者透過存取實體資料儲存媒體而獲得。影像資料記憶體可作為用於儲存來自經編碼影像位元流的經編碼影像資料的經解碼圖像緩衝器(CPB)。
網路實體42可例如為伺服器、MANE、影像編輯器/剪接器,或用於實施上文所描述的技術中的一或多者的其它此裝置。網路實體42可包括或可不包括影像編碼器,例如影像編碼器100。在網路實體42將經編碼影像位元流發送到影像解碼器200之前,網路實體42可實施本申請中描述的技術中的部分。在一些影像解碼系統中,網路實體42和影像解碼器200可為單獨裝置的部分,而在其它情況下,相對於網路實體42描述的功能性可由包括影像解碼器200的相同裝置執行。
應當理解的是,影像解碼器200的其它結構變化可用於解碼經編碼影像位元流。例如,影像解碼器200可以不經濾波器單元206處理而生成輸出影像流;或者,對於某些圖像塊或者圖像幀,影像解碼器200的熵解碼器203沒有解碼出經量化的係數,相應地不需要經反量化器204和反變換器205處理。
圖8A為本申請實施例中圖像編碼方法的一種流程示意圖,該圖像編碼方法可以應用於圖5示出的編解碼系統1中的源裝置10或圖6示出的影像編碼器100。圖8A示出的流程以執行主體為圖6示出的影像編碼器100為例進行說明。如圖8A所示,本申請實施例提供的圖像編碼方法包括:
步驟S110,獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元。
其中,所述編碼單元的劃分方式包括如圖4所示的各種劃分方式,此處不做唯一限定。
具體實現中,針對當前編碼塊為當前處理的影像幀的情況,由於最小資料處理物件為單幀圖像,因此該方法處理效率更高,但精度和性能有一定損失。
針對當前編碼塊為劃分所述當前處理的影像幀而得到的編碼單元的情況,由於最小資料處理顆粒度為劃分後的編碼單元,因此整體演算法處理過程複雜度變高,處理時長變長,但精度和性能相對較高。
步驟S120,根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵。
其中,所述特徵預測模型具體可以透過本端設備的影像處理器GPU實現資料處理,可以採用任意常用的神經網路架構,例如深度神經網路(Deep Neural Network,DNN)、支援向量機等,該模型輸入為殘差塊,輸出為變換特徵。
步驟S130,對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵。
步驟S140,透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率。
其中,在算術編碼過程中,對於每一個所需編碼的像素,需要預測對應像素所出現的概率(0~1之間的值),其概率可表示當前像素預測可能出現的頻次,預測的概率越高,則其可能出現的頻次越高,則在進行算術編碼生成的位元流的越小。
步驟S150,利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
在本可能的示例中,所述獲取當前編碼塊的原始殘差塊,包括:確定所述當前編碼塊的預測塊;將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊。
具體實現中,基於當前編碼塊的預測塊
Figure 02_image001
進行數值變換並量化,從原(0,1)的連續浮點分佈,生成(0,255)的離散分佈
Figure 02_image003
,與當前編碼塊
Figure 02_image005
做差得到整數訊號殘差
Figure 02_image007
Figure 02_image009
在本可能的示例中,所述將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊,包括:根據所述當前編碼塊的預測塊進行數值變換並量化,生成所述預測塊的離散分佈;將所述預測塊的離散分佈與當前編碼塊的原始圖像塊做差,得到整數訊號的所述原始殘差塊。
在本可能的示例中,所述根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵,包括:對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊;對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊;將所述第二殘差塊輸入預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵。
具體實現中,利用基於能量的重歸一化,把預測後不同分佈的殘差統一歸一化在(-1,1)之間,對於不同的影像序列,基於能量的歸一化能統一資料分佈使得訓練更加穩定。
此外,基於能量的重歸一化可使用基於其他的標準化方法,如0-1標準化 (0-1 normalization),線性函數歸一化等,目標是統一預測後方差較大的殘差分佈,加快模型訓練和收斂速度。
可見,本示例中,閾值稀疏化能在相同的碼率約束下,在端到端編碼中能分配更多的碼率在運動邊界,遮擋等區域,節省較多背景區域所需要碼率,此外,基於能量的重歸一化能加速模型的訓練和收斂,使得模型更加魯棒於不同的殘差分佈。
在本可能的示例中,所述對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊,包括:根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊。
在本可能的示例中,所述根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊,包括:
提取所述原始殘差塊中的最小像素值x min和最大像素值x max
透過如下公式將所述原始殘差塊歸一化到區間(0,1);
Figure 02_image011
其中,
Figure 02_image013
表示初次變換後的像素值,
Figure 02_image015
表示歸一化前的像素值;
透過如下公式對
Figure 02_image013
進行二次變換,得到處於區間(-1,1)的殘差連續分佈,即歸一化後的第一殘差塊,
Figure 02_image017
其中,
Figure 02_image019
表示歸一化後的像素值。
在本可能的示例中,所述對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊,包括:獲取預設閾值集合,所述預設閾值集合包括多個閾值;從所述預設閾值集合篩選適配所述當前編碼塊的目標閾值;遍歷所述第一殘差塊中每個像素的殘差樣本,並將殘差樣本小於所述目標閾值的像素的殘差樣本置零,得到處理後的第二殘差塊。
具體實現中,目標閾值可以透過如下方式獲取:從預設閾值集合的最小的閾值開始,在編碼端針對每一個閾值均做位元率失真優化得到相對應的結果,並從結果中選擇最優結果對應的閾值作為最適合當前幀殘差編碼的閾值。所述對每一個閾值進行位元率失真優化是指,每選取一個閾值都需要做一次編解碼並得到相對應的結果,從最終結果中選出最優的結果。如圖8B所示,
Figure 02_image015
表示歸一化前的像素值,m1表示預設閾值集合中的第一個閾值,m n表示表示預設閾值集合中的第n個閾值,不同閾值處理後,生成的殘差圖有著不同的稀疏性,閾值越大得到的殘差越稀疏,同時表示需要編碼的殘差空間區間越小。透過遍歷預設閾值集合,可以準確篩選出最適合當前幀殘差編碼的閾值,提高編碼效率。
具體實現中,設置不同的閾值,對已歸一化後的殘差做稀疏化處理,使其能分配更有效的訊息在有效的像素上。
需要注意的是,基於閾值的稀疏化是基於傳統模式選擇的方式,實現skip模式來自我調整編碼殘差訊息,此處的閾值稀疏化可直接針對量化後特徵操作。
可見,本示例中,閾值稀疏化能在相同的碼率約束下,在端到端編碼中能分配更多的碼率在運動邊界,遮擋等區域,節省較多背景區域所需要碼率。
在本可能的示例中,所述多個閾值中每個閾值按照預設的採樣間隔對所述當前編碼塊的像素進行均勻採樣得到。
其中,所述採樣間隔的取值範圍透過如下方式確定:根據當前幀的殘差分佈,生成數值分佈的殘差長條圖,獲取殘差分佈的1/α的峰值部分對應的區間。
其中,α的數值可以是4、6、8等,此處不做唯一限定。
此外,在其他可能的示例中,所述多個閾值中每個閾值按照預設的採樣間隔對所述當前編碼塊的像素進行非均勻採樣得到,一般條件下不超過4個閾值能更好地權衡複雜度與性能的平衡。
在本可能的示例中,所述對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵,包括:對所述當前編碼塊的變換特徵採用可微分量化機制,將浮點的特徵變換成量化後的整數特徵,得到所述當前編碼塊的量化特徵。
具體實現中,對提取的特徵採用可微分量化方法,將浮點(floating32)的特徵變換成量化後的整數特徵;其具體方法為正向計算
Figure 02_image021
此處,
Figure 02_image023
為四捨五入函數,
Figure 02_image025
為正負
Figure 02_image027
的均值雜訊分佈;反向傳播把此函數近似為線性函數,用1作為反向求導的梯度。
在本可能的示例中,如圖8C所示,所述特徵預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯;所述第一支路包括級聯的三個殘差提取模組和一個下採樣模組;所述第二支路包括級聯的三個殘差提取模組、一個下採樣模組以及一個啟動模組。
其中,殘差提取模組可採用任意的神經網路主流模組,例如殘差塊,密集連接塊等,下採樣模組採用帶步長的卷積核;另一支路採用級聯的卷積層提取特徵並用sigmoid函數啟動,得到空間通道逐點啟動(spatial-channel wise)的自我調整掩膜,並對提取的特徵進行自我調整啟動。所述上採樣模組可以採用轉置卷積實現。
具體實現中,殘差提取模組用於針對輸入的殘差塊進行特徵提取,多個殘差提取模組用於提取多個特徵進行堆疊,從而實現級聯特徵提取。
其需要注意的是,第一支路是主要的特徵提取模組,第二支路的sigmoid之後的模組是自注意力啟動映射模組,兩個支路的輸出相乘生成最終的變換特徵。
此外,所述特徵預測模型的訓練過程中,碼率和損失函數可以透過如下方式確定。
碼率估計透過公式
Figure 02_image029
得到,R為碼率約束的損失,P為所述量化後的變換特徵中每個像素的概率;
損失函數
Figure 02_image031
,D(.)為均方誤差MSE函數或者L2損失函數,
Figure 02_image033
為當前編碼塊的預測塊,
Figure 02_image035
為前編碼塊,整數訊號殘差
Figure 02_image037
Figure 02_image039
為當前編碼塊的預測塊的離散分佈;
對所述碼率和所述損失函數使用位元率失真優化
Figure 02_image041
,L為每一幀的重建損失,R為碼率約束的損失,透過調整
Figure 02_image043
,訓練得到不同碼率的特徵預測模型。
具體實現中,所述特徵預測模型可以採用自注意力機制(self-attention),能夠根據需要靈活調整兩路的殘差提取模組使用個數,也可以使用簡單卷積來替換殘差提取模組,適用編解碼的加速與簡化。
例如,所述第一支路和第二支路可以分別包括四個殘差提取模組,或者分別包括四個卷積模組。
可以看出,本申請實施例中,採用預先訓練好的神經網路模型來編碼殘差訊息,能使神經網路模型隱式學習不同失真的殘差,相比於一般的端到端殘差編碼,此方法能自我調整地編碼並作幀間補償,在相同的碼率下,能更高效地分配空間上的殘差訊息,得到更高品質的重建影像幀。
與圖8A所述的圖像編碼方法對應的,圖9A為本申請實施例中圖像編碼方法的一種流程示意圖,該圖像編碼方法可以應用於圖5示出的編解碼系統1中的目的裝置20或圖7示出的影像解碼器200。圖9A示出的流程以執行主體為圖7示出的影像編碼器200為例進行說明。如圖9A所示,本申請實施例提供的圖像解碼方法包括:
步驟S210,獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元。
其中,所述解碼單元的劃分方式包括如圖4所示的各種劃分方式,此處不做唯一限定。
其中,所述解碼塊與前述編碼方法實施例中所涉及到的編碼塊是對應的,具體可以表現為大小一致。
具體實現中,針對當前解碼塊為當前處理的影像幀的位元流情況,由於最小資料處理物件為單幀圖像的位元流,因此該方法處理效率更高,但精度和性能有一定損失。
針對當前編碼塊為劃分所述當前處理的影像幀而得到的編碼單元的位元流的情況,由於最小資料處理顆粒度為劃分後的編碼單元,因此整體演算法處理過程複雜度變高,處理時長變長,但精度和性能相對較高。
步驟S220,透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵。
其中,所述變換為無損變換。
其中,在算術編碼過程中,對於每一個所需編碼的像素,需要預測對應像素所出現的概率(0~1之間的值),其概率可表示當前像素預測可能出現的頻次,預測的概率越高,則其可能出現的頻次越高,則在進行算術編碼生成的位元流的越小。
步驟S230,根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊。
其中,所述殘差預測模型具體可以透過本端設備的影像處理器GPU實現資料處理,可以採用任意常用的神經網路架構,例如深度神經網路DNN、遞迴神經網路(Recurrent Neural Network,RNN)、卷積神經網路(Convolutional Neural Network,CNN)等,該模型輸入為量化特徵,輸出為殘差塊。
步驟S240,根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
在本可能的示例中,所述根據所述原始殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊,包括:確定所述當前解碼塊的預測塊;利用所述原始殘差塊對所述當前解碼塊的預測塊做殘差補償,得到所述當前解碼塊的重建塊。
本申請實施例的圖像解碼方法具體可以解釋為如下步驟。
首先,獲取位元流,該位元流對應當前解碼塊的二級制位元流,具體可以包括當前解碼塊的公共參數集,以及當前解碼塊的圖像的編碼訊息,
其次,以初始化後的全零特徵開始,二進位位元流讀取後的數值為預先訓練好的概率預測模型的輸入,運行該模型以輸出當前解碼塊的量化特徵;
再次,以模型預測得到的量化特徵為預先訓練好的殘差預測模型的輸入,運行該模型以輸出對應的殘差塊,
最後,根據模型預測得到的殘差塊與當前解碼塊的預測塊,計算重建塊或重建圖像。
其中,所述預測塊可以根據解碼訊息中攜帶的幀間預測模式對當前解碼塊預測得到。
在本可能的示例中,所述確定所述當前解碼塊的預測塊,包括:對所述當前解碼塊進行熵解碼以產生語法元素;根據語法元素確定對所述當前解碼塊進行解碼的幀間預測模式;根據確定的所述幀間預測模式,對所述當前解碼塊執行幀間預測以獲取所述當前解碼塊的預測塊。
在本可能的示例中,如圖9B所示,所述殘差預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯;所述第一支路包括級聯的三個殘差提取模組和一個上採樣模組;所述第二支路包括級聯的三個殘差提取模組、一個上採樣模組以及一個啟動模組。
此外,所述殘差預測模型的訓練過程中,碼率和損失函數可以透過如下方式確定。
碼率估計透過公式
Figure 02_image029
得到,R為碼率約束的損失,P為所述量化後的變換特徵中每個像素的概率;
損失函數
Figure 02_image031
,D(.)為均方誤差MSE函數或者L2損失函數,
Figure 02_image033
為當前編碼塊的預測塊,
Figure 02_image035
為前編碼塊,整數訊號殘差
Figure 02_image037
Figure 02_image039
為當前編碼塊的預測塊的離散分佈;
對所述碼率和所述損失函數使用位元率失真優化
Figure 02_image041
,L為每一幀的重建損失,R為碼率約束的損失,透過調整
Figure 02_image043
,訓練得到不同碼率的殘差預測模型。
具體實現中,所述殘差預測模型可以採用自注意力機制,能夠根據需要靈活調整兩路的殘差提取模組使用個數,也可以使用簡單卷積來替換殘差提取模組,適用編解碼的加速與簡化。
具體實現中,殘差預測模型用於針對輸入的殘差塊進行特徵提取,多個殘差提取模組用於提取多個特徵進行堆疊,從而實現級聯特徵提取。
其需要注意的是,第一支路是主要的特徵提取模組,第二支路的sigmoid之後的模組是自注意力啟動映射模組,兩個支路的輸出相乘生成最終的殘差塊。
可以看出,本申請實施例中,採用預先訓練好的神經網路模型來編碼殘差訊息,能使神經網路模型隱式學習不同失真的殘差,相比於一般的端到端殘差編碼,此方法能自我調整地編碼並作幀間補償,在相同的碼率下,能更高效地分配空間上的殘差訊息,得到更高品質的重建影像幀。
本申請實施例提供一種圖像編碼裝置,該圖像編碼裝置可以為影像解碼器或影像編碼器。具體的,圖像編碼裝置用於執行以上解碼方法中的影像解碼器所執行的步驟。本申請實施例提供的圖像編碼裝置可以包括相應步驟所對應的模組。
本申請實施例可以根據上述方法示例對圖像編碼裝置進行功能模組的劃分,例如,可以對應各個功能劃分各個功能模組,也可以將兩個或兩個以上的功能集成在一個處理模組中。上述集成的模組既可以採用硬體的形式實現,也可以採用軟體功能模組的形式實現。本申請實施例中對模組的劃分是示意性的,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
在採用對應各個功能劃分各個功能模組的情況下,圖10示出上述實施例中所涉及的圖像編碼裝置的一種可能的結構示意圖。如圖10所示,圖像編碼裝置1000包括獲取單元1001,用於獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元;第一預測單元1002,用於根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵;量化單元1003,用於對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵;第二預測單元1004,用於透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率;生成單元1005,用於利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
在本可能的示例中,在所述獲取當前編碼塊的原始殘差塊方面,所述獲取單元1001具體用於:確定所述當前編碼塊的預測塊;將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊。
在本可能的示例中,在所述將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊方面,所述獲取單元1001具體用於:根據所述當前編碼塊的預測塊進行數值變換並量化,生成所述預測塊的離散分佈;將所述預測塊的離散分佈與當前編碼塊的原始圖像塊做差,得到整數訊號的所述原始殘差塊。
在本可能的示例中,在所述根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵方面,所述根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵方面,在所述第一預測單元1002具體用於:對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊;對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊;將所述第二殘差塊輸入預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵。
在本可能的示例中,在所述對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊方面,所述第一預測單元1002具體用於:根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊。
在本可能的示例中,在所述根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊方面,所述第一預測單元1002具體用於:提取所述原始殘差塊中的最小像素值x min和最大像素值x max;透過如下公式將所述原始殘差塊歸一化到區間(0,1);
Figure 02_image049
其中,
Figure 02_image013
表示初次變換後的像素值,
Figure 02_image015
表示歸一化前的像素值;
透過如下公式對
Figure 02_image013
進行二次變換,得到處於區間(-1,1)的殘差連續分佈,即歸一化後的第一殘差塊,
Figure 02_image017
其中,
Figure 02_image019
表示歸一化後的像素值。
在本可能的示例中,在所述對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊方面,所述第一預測模型101具體用於:獲取預設閾值集合,所述預設閾值集合包括多個閾值;從所述預設閾值集合篩選適配所述當前編碼塊的目標閾值;遍歷所述第一殘差塊中每個像素的像素值,並將像素值小於所述目標閾值的像素的像素值置零,得到處理後的第二殘差塊。
在本可能的示例中,所述多個閾值中每個閾值按照預設的採樣間隔對所述當前編碼塊的像素進行均勻採樣得到。
在本可能的示例中,在所述對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵方面,所述量化單元1003具體用於:對所述當前編碼塊的變換特徵採用可微分量化機制,將浮點的特徵變換成量化後的整數特徵,得到所述當前編碼塊的量化特徵。
在本可能的示例中,所述特徵預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯;所述第一支路包括級聯的三個殘差提取模組和一個下採樣模組;所述第二支路包括級聯的三個殘差提取模組、一個下採樣模組以及一個啟動模組。
其中,上述方法實施例涉及的各步驟的所有相關內容均可以援引到對應功能模組的功能描述,在此不再贅述。當然,本申請實施例提供的圖像編碼裝置1000包括但不限於上述模組,例如:圖像編碼裝置1000還可以包括儲存單元。儲存單元可以用於儲存該圖像編碼裝置的程式碼和資料。
在採用集成的單元的情況下,本申請實施例提供的圖像編碼裝置的結構示意圖如圖11所示。在圖11中,圖像編碼裝置11包括:處理模組1102和通訊模組1101。處理模組1102用於對圖像編碼裝置的動作進行控制管理,例如,執行獲取單元1001、第一預測單元1002、量化單元1003、第二預測單元1004、生成單元1005執行的步驟,和/或用於執行本文所描述的技術的其它過程。通訊模組1101用於支援圖像編碼裝置與其他設備之間的交互。如圖11所示,圖像編碼裝置還可以包括儲存模組1103,儲存模組1103用於儲存圖像編碼裝置的程式碼和資料,例如儲存上述儲存單元所保存的內容。
其中,處理模組1102可以是處理器或控制器,例如可以是中央處理器(Central Processing Unit,CPU),通用處理器,數位訊號處理器(Digital  Signal  Processor,DSP),ASIC,FPGA或者其他可程式邏輯器件、電晶體邏輯器件、硬體部件或者其任意組合。其可以實現或執行結合本申請公開內容所描述的各種示例性的邏輯方塊,模組和電路。所述處理器也可以是實現計算功能的組合,例如包含一個或多個微處理器組合,DSP和微處理器的組合等等。通訊模組1101可以是收發器、RF電路或通訊介面等。儲存模組1103可以是記憶體。
其中,上述方法實施例涉及的各場景的所有相關內容均可以援引到對應功能模組的功能描述,在此不再贅述。上述圖像編碼裝置1000和圖像編碼裝置11均可執行上述圖8A所示的圖像編碼方法,圖像編碼裝置1000和圖像編碼裝置11具體可以是影像圖像編碼裝置或者其他具有影像編碼功能的設備。
本申請還提供一種影像編碼器,包括非揮發性儲存媒介,以及中央處理器,所述非揮發性儲存媒介儲存有可執行程式,所述中央處理器與所述非揮發性儲存媒介連接,並執行所述可執行程式以實現本申請實施例的圖像編碼方法。
本申請實施例提供一種圖像解碼裝置,該圖像解碼裝置可以為影像解碼器或影像解碼器。具體的,圖像解碼裝置用於執行以上解碼方法中的影像解碼器所執行的步驟。本申請實施例提供的圖像解碼裝置可以包括相應步驟所對應的模組。
本申請實施例可以根據上述方法示例對圖像解碼裝置進行功能模組的劃分,例如,可以對應各個功能劃分各個功能模組,也可以將兩個或兩個以上的功能集成在一個處理模組中。上述集成的模組既可以採用硬體的形式實現,也可以採用軟體功能模組的形式實現。本申請實施例中對模組的劃分是示意性的,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
在採用對應各個功能劃分各個功能模組的情況下,圖12示出上述實施例中所涉及的圖像解碼裝置的一種可能的結構示意圖。如圖12所示,圖像解碼裝置12包括:
獲取單元124,用於獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元;
第一預測單元121,用於透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵;
第二預測單元122,用於根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊;
確定單元123,用於根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
在一個可能的示例中,在所述根據所述原始殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊方面,所述確定單元123具體用於:確定所述當前解碼塊的預測塊;利用所述原始殘差塊對所述當前解碼塊的預測塊做殘差補償,得到所述當前解碼塊的重建塊。
在一個可能的示例中,在所述確定所述當前解碼塊的預測塊方面,所述確定單元123具體用於:對所述當前解碼塊進行熵解碼以產生語法元素;根據語法元素確定對所述當前解碼塊進行解碼的幀間預測模式;根據確定的所述幀間預測模式,對所述當前解碼塊執行幀間預測以獲取所述當前解碼塊的預測塊。
在一個可能的示例中,所述殘差預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯;所述第一支路包括級聯的三個殘差提取模組和一個上採樣模組;所述第二支路包括級聯的三個殘差提取模組、一個上採樣模組以及一個啟動模組。
其中,上述方法實施例涉及的各步驟的所有相關內容均可以援引到對應功能模組的功能描述,在此不再贅述。當然,本申請實施例提供的圖像解碼裝置包括但不限於上述模組,例如:圖像解碼裝置還可以包括儲存單元。儲存單元可以用於儲存該圖像解碼裝置的程式碼和資料。
在採用集成的單元的情況下,本申請實施例提供的圖像解碼裝置的結構示意圖如圖13所示。在圖13中,圖像解碼裝置13包括:處理模組130和通訊模組131。處理模組130用於對圖像解碼裝置的動作進行控制管理,例如,執行獲取單元124、第一預測單元121、第二預測單元122和確定單元123執行的步驟,和/或用於執行本文所描述的技術的其它過程。通訊模組131用於支援圖像解碼裝置與其他設備之間的交互。如圖13所示,圖像解碼裝置還可以包括儲存模組132,儲存模組132用於儲存圖像解碼裝置的程式碼和資料,例如儲存上述儲存單元123所保存的內容。
其中,處理模組130可以是處理器或控制器,例如可以是中央處理器(Central Processing Unit,CPU),通用處理器,數位訊號處理器(Digital  Signal  Processor,DSP),ASIC,FPGA或者其他可程式邏輯器件、電晶體邏輯器件、硬體部件或者其任意組合。其可以實現或執行結合本申請公開內容所描述的各種示例性的邏輯方塊,模組和電路。所述處理器也可以是實現計算功能的組合,例如包含一個或多個微處理器組合,DSP和微處理器的組合等等。通訊模組131可以是收發器、RF電路或通訊介面等。儲存模組132可以是記憶體。
其中,上述方法實施例涉及的各場景的所有相關內容均可以援引到對應功能模組的功能描述,在此不再贅述。上述圖像解碼裝置12和圖像解碼裝置13均可執行上述圖9A所示的圖像解碼方法,圖像解碼裝置12和圖像解碼裝置13具體可以是影像圖像解碼裝置或者其他具有影像解碼功能的設備。
本申請還提供一種影像解碼器,包括非揮發性儲存媒介,以及中央處理器,所述非揮發性儲存媒介儲存有可執行程式,所述中央處理器與所述非揮發性儲存媒介連接,並執行所述可執行程式以實現本申請實施例的圖像解碼方法。
本申請還提供一種終端,該終端包括:一個或多個處理器、記憶體、通訊介面。該記憶體、通訊介面與一個或多個處理器耦合;記憶體用於儲存電腦程式代碼,電腦程式代碼包括指令,當一個或多個處理器執行指令時,終端執行本申請實施例的圖像編碼和/或圖像解碼方法。這裡的終端可以是影像顯示裝置,智慧手機,可擕式電腦以及其它可以處理影像或者播放影像的設備。
本申請另一實施例還提供一種電腦可讀儲存媒介,該電腦可讀儲存媒介包括一個或多個程式碼,該一個或多個程式包括指令,當解碼設備中的處理器在執行該程式碼時,該解碼設備執行本申請實施例的圖像編碼方法、圖像解碼方法。
在本申請的另一實施例中,還提供一種電腦程式產品,該電腦程式產品包括電腦執行指令,該電腦執行指令儲存在電腦可讀儲存媒介中;解碼設備的至少一個處理器可以從電腦可讀儲存媒介讀取該電腦執行指令,至少一個處理器執行該電腦執行指令使得終端實施執行本申請實施例的圖像編碼方法、圖像解碼方法。
在上述實施例中,可以全部或部分的透過軟體,硬體,韌體或者其任意組合來實現。當使用軟體程式實現時,可以全部或部分地以電腦程式產品的形式出現。所述電腦程式產品包括一個或多個電腦指令。在電腦上載入和執行所述電腦程式指令時,全部或部分地產生按照本申請實施例所述的流程或功能。
所述電腦可以是通用電腦、專用電腦、電腦網路、或者其他可程式裝置。所述電腦指令可以儲存在電腦可讀儲存媒介中,或者從一個電腦可讀儲存媒介向另一個電腦可讀儲存媒介傳輸,例如,所述電腦指令可以從一個網站、電腦、伺服器或資料中心透過有線(例如同軸電纜、光纖、數位用戶線路(DSL))  或無線(例如紅外、無線、微波等)方式向另一個網站、電腦、伺服器或資料中心傳輸。
所述電腦可讀儲存媒介可以是電腦能夠存取的任何可用媒介或者是包含一個或多個可用媒介集成的伺服器、資料中心等資料存放裝置。該可用媒介可以是磁性媒介,(例如,軟碟,硬碟、磁帶)、光媒介(例如,DVD)或者半導體媒介(例如固態硬碟Solid  State  Disk(SSD))等。
透過以上的實施方式的描述,所屬領域的技術人員可以清楚地瞭解到,為描述的方便和簡潔,僅以上述各功能模組的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能模組完成,即將裝置的內部結構劃分成不同的功能模組,以完成以上描述的全部或者部分功能。
在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以透過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模組或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以集成到另一個裝置,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是透過一些介面,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的部件可以是一個實體單元或多個實體單元,即可以位於一個地方,或者也可以分佈到多個不同地方。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨實體存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個可讀取儲存媒介中。基於這樣的理解,本申請實施例的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該軟體產品儲存在一個儲存媒介中,包括若干指令用以使得一個設備(可以是單片機,晶片等)或處理器(processor)執行本申請各個實施例所述方法的全部或部分步驟。而前述的儲存媒介包括:隨身碟、行動硬碟、唯讀記憶體(Read-Only  Memory,ROM)、隨機存取記憶體(Random  Access  Memory,  RAM)、磁碟或者光碟等各種可以儲存程式碼的媒介。
以上所述,僅為本申請的具體實施方式,但本申請的保護範圍並不局限於此,任何在本申請揭露的技術範圍內的變化或替換,都應涵蓋在本申請的保護範圍之內。因此,本申請的保護範圍應以所述請求項的保護範圍為準。
1:圖像 10:源裝置 11:圖像編碼裝置 12:圖像解碼裝置 13:圖像解碼裝置 20:目的裝置 30:鏈路 40:儲存裝置 41:後處理實體 42:網路實體 100:影像編碼器 101:變換器 102:量化器 103:熵編碼器 104:反量化器 105:反變換器 106:濾波器單元 107:記憶體 108:預測處理單元 109:幀內預測器 110:幀間預測器 111:求和器 112:求和器 120:影像源 121:第一預測單元 122:第二預測單元 123:確定單元 124:獲取單元 130:處理模組 131:通訊模組 132:儲存模組 140:輸出介面 200:影像解碼器 203:熵解碼器 204:反量化器 205:反變換器 206:濾波器單元 207:記憶體 208:預測處理單元 209:幀內預測器 210:幀間預測器 211:求和器 220:顯示裝置 240:輸入介面 1000:圖像編碼裝置 1001:獲取單元 1002:第一預測單元 1003:量化單元 1004:第二預測單元 1005:生成單元 1101:通訊模組 1102:處理模組 1103:儲存模組 S110~S150:步驟 S210~S240:步驟
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請實施例中編碼樹單元的一種示意性方塊圖;
圖2為本申請實施例中CTU和編碼塊CU的一種示意性方塊圖;
圖3為本申請實施例中顏色格式的一種示意性方塊圖;
圖4為本申請實施例中圖像劃分方式的示意圖;
圖5為本申請實施例中編解碼系統的一種示意性方塊圖;
圖6為本申請實施例中影像編碼器的一種示意性方塊圖;
圖7為本申請實施例中影像解碼器的一種示意性方塊圖;
圖8A為本申請實施例中一種圖像編碼方法的流程示意圖;
圖8B為本申請實施例中一種不同閾值處理後生成的殘差圖的示意圖;
圖8C為本申請實施例中一種特徵預測模型的結構圖;
圖9A為本申請實施例中一種圖像解碼方法的流程示意圖;
圖9B為本申請實施例中一種殘差預測模型的結構圖;
圖10為本申請實施例中圖像編碼裝置的一種功能單元方塊圖;
圖11為本申請實施例中圖像編碼裝置的另一種功能單元方塊圖;
圖12為本申請實施例中圖像解碼裝置的一種功能單元方塊圖;
圖13為本申請實施例中圖像解碼裝置的另一種功能單元方塊圖。
S110~S150:步驟

Claims (21)

  1. 一種圖像編碼方法,包括: 獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元; 根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵; 對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵; 透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率; 利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
  2. 根據請求項1所述的方法,其中,所述獲取當前編碼塊的原始殘差塊,包括: 確定所述當前編碼塊的預測塊; 將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊。
  3. 根據請求項2所述的方法,其中,所述將所述當前編碼塊的預測塊與所述當前編碼塊的原始圖像塊做差,得到所述原始殘差塊,包括: 根據所述當前編碼塊的預測塊進行數值變換並量化,生成所述預測塊的離散分佈; 將所述預測塊的離散分佈與當前編碼塊的原始圖像塊做差,得到整數訊號的所述原始殘差塊。
  4. 根據請求項1所述的方法,其中,所述根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵,包括: 對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊; 對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊; 將所述第二殘差塊輸入預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵。
  5. 根據請求項4所述的方法,其中,所述對所述原始殘差塊進行重歸一化,得到歸一化後的第一殘差塊,包括: 根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊。
  6. 根據請求項5所述的方法,其中,所述根據能量統一機制,將所述原始殘差塊的不同殘差分佈收斂到相同分佈空間,得到歸一化後的第一殘差塊,包括: 提取所述原始殘差塊中的最小像素值x min和最大像素值x max; 透過如下公式將所述原始殘差塊歸一化到區間(0,1);
    Figure 03_image053
    其中,
    Figure 03_image013
    表示初次變換後的像素值,
    Figure 03_image015
    表示歸一化前的像素值; 透過如下公式對
    Figure 03_image013
    進行二次變換,得到處於區間(-1,1)的殘差連續分佈,即歸一化後的第一殘差塊;
    Figure 03_image057
    其中,
    Figure 03_image019
    表示歸一化後的像素值。
  7. 根據請求項4-6任一項所述的方法,其中,所述對所述第一殘差塊進行稀疏化處理,得到處理後的第二殘差塊,包括: 獲取預設閾值集合,所述預設閾值集合包括多個閾值; 從所述預設閾值集合篩選適配所述當前編碼塊的目標閾值; 遍歷所述第一殘差塊中每個像素的像素值,並將像素值小於所述目標閾值的像素的像素值置零,得到處理後的第二殘差塊。
  8. 根據請求項7所述的方法,其中,所述多個閾值中每個閾值按照預設的採樣間隔對所述當前編碼塊的像素進行均勻採樣得到。
  9. 根據請求項1所述的方法,其中,所述對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵,包括: 對所述當前編碼塊的變換特徵採用可微分量化機制,將浮點的特徵變換成量化後的整數特徵,得到所述當前編碼塊的量化特徵。
  10. 根據請求項1-9任一項所述的方法,其中,所述特徵預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯; 所述第一支路包括級聯的三個殘差提取模組和一個下採樣模組; 所述第二支路包括級聯的三個殘差提取模組、一個下採樣模組以及一個啟動模組。
  11. 一種圖像解碼方法,包括: 獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元; 透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵; 根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊; 根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
  12. 根據請求項11所述的方法,其中,所述根據所述原始殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊,包括: 確定所述當前解碼塊的預測塊; 利用所述原始殘差塊對所述當前解碼塊的預測塊做殘差補償,得到所述當前解碼塊的重建塊。
  13. 根據請求項12所述的方法,其中,所述確定所述當前解碼塊的預測塊,包括: 對所述當前解碼塊進行熵解碼以產生語法元素; 根據語法元素確定對所述當前解碼塊進行解碼的幀間預測模式; 根據確定的所述幀間預測模式,對所述當前解碼塊執行幀間預測以獲取所述當前解碼塊的預測塊。
  14. 根據請求項11所述的方法,其中,所述殘差預測模型包括第一支路和第二支路,所述第一支路和所述第二支路並聯; 所述第一支路包括級聯的三個殘差提取模組和一個上採樣模組; 所述第二支路包括級聯的三個殘差提取模組、一個上採樣模組以及一個啟動模組。
  15. 一種圖像編碼裝置,包括: 獲取單元,用於獲取當前編碼塊的原始殘差塊,所述當前編碼塊包括當前處理的影像幀或者劃分所述當前處理的影像幀而得到的編碼單元; 第一預測單元,用於根據所述原始殘差塊和預先訓練好的特徵預測模型,得到所述當前編碼塊的變換特徵; 量化單元,用於對所述當前編碼塊的變換特徵進行量化,得到所述當前編碼塊的量化特徵; 第二預測單元,用於透過預先訓練好的概率預測模型,確定所述當前編碼塊的量化特徵中每個像素的概率; 生成單元,用於利用所述每個像素的概率生成所述當前編碼塊的二進位位元流。
  16. 一種圖像解碼裝置,包括: 獲取單元,用於獲取當前解碼塊的二進位位元流,所述當前解碼塊包括當前處理的影像幀的位元流或者劃分所述當前處理的影像幀而得到的解碼單元; 第一預測單元,用於透過預先訓練好的概率預測模型,將所述二進位位元流變換成所述當前解碼塊的量化特徵; 第二預測單元,用於根據所述量化特徵和預先訓練好的殘差預測模型,確定所述當前解碼塊的殘差塊; 確定單元,用於根據所述殘差塊與所述當前解碼塊的預測塊,確定所述當前解碼塊的重建塊。
  17. 一種編碼器,包括非揮發性儲存媒介以及中央處理器,所述非揮發性儲存媒介儲存有可執行程式,所述中央處理器與所述非揮發性儲存媒介連接,當所述中央處理器執行所述可執行程式時,所述編碼器執行如請求項1-10中任意一項所述的雙向幀間預測方法。
  18. 一種解碼器,包括非揮發性儲存媒介以及中央處理器,所述非揮發性儲存媒介儲存有可執行程式,所述中央處理器與所述非揮發性儲存媒介連接,當所述中央處理器執行所述可執行程式時,所述解碼器執行如請求項11-14中任意一項所述的雙向幀間預測方法。
  19. 一種終端,所述終端包括:一個或多個處理器、記憶體和通訊介面;所述記憶體、所述通訊介面與所述一個或多個處理器連接;所述終端透過所述通訊介面與其他設備通訊,所述記憶體用於儲存電腦程式代碼,所述電腦程式代碼包括指令, 當所述一個或多個處理器執行所述指令時,所述終端執行如請求項1-10或11-14中任意一項所述的方法。
  20. 一種包含指令的電腦程式產品,當所述電腦程式產品在終端上運行時,使得所述終端執行如請求項1-10或11-14中任意一項所述的方法。
  21. 一種電腦可讀儲存媒介,包括指令,當所述指令在終端上運行時,使得所述終端執行如請求項1-10或11-14中任意一項所述的方法。
TW110130846A 2020-10-28 2021-08-20 圖像編碼方法、圖像解碼方法及相關裝置 TW202218428A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011176891.8 2020-10-28
CN202011176891.8A CN114501010B (zh) 2020-10-28 2020-10-28 图像编码方法、图像解码方法及相关装置

Publications (1)

Publication Number Publication Date
TW202218428A true TW202218428A (zh) 2022-05-01

Family

ID=81383511

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110130846A TW202218428A (zh) 2020-10-28 2021-08-20 圖像編碼方法、圖像解碼方法及相關裝置

Country Status (3)

Country Link
CN (1) CN114501010B (zh)
TW (1) TW202218428A (zh)
WO (1) WO2022088631A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115052154B (zh) * 2022-05-30 2023-04-14 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115174908B (zh) * 2022-06-30 2023-09-15 北京百度网讯科技有限公司 视频编码的变换量化方法、装置、设备以及存储介质
CN115037933B (zh) * 2022-08-09 2022-11-18 浙江大华技术股份有限公司 一种帧间预测的方法及设备
CN116962713A (zh) * 2022-11-04 2023-10-27 腾讯科技(深圳)有限公司 一种视频压缩方法、视频解码方法和相关装置
CN116112694B (zh) * 2022-12-09 2023-12-15 无锡天宸嘉航科技有限公司 一种应用于模型训练的视频数据编码方法及***
CN115941966B (zh) * 2022-12-30 2023-08-22 深圳大学 一种视频压缩方法及电子设备
CN116708934B (zh) * 2023-05-16 2024-03-22 深圳东方凤鸣科技有限公司 一种视频编码处理方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8767835B2 (en) * 2010-12-28 2014-07-01 Mitsubishi Electric Research Laboratories, Inc. Method for coding videos using dictionaries
KR102001259B1 (ko) * 2011-06-27 2019-07-17 선 페이턴트 트러스트 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 및 화상 부호화 복호 장치
KR101955374B1 (ko) * 2011-06-30 2019-05-31 에스케이 텔레콤주식회사 고속 코딩 단위(Coding Unit) 모드 결정을 통한 부호화/복호화 방법 및 장치
CN102970536B (zh) * 2012-11-15 2015-10-28 上海交通大学 一种改进的带有预测残差调整的视频编码方法
CN103117546B (zh) * 2013-02-28 2016-03-16 武汉大学 一种超短期风电功率滑动预测方法
CN106412579B (zh) * 2015-07-30 2019-07-16 浙江大华技术股份有限公司 一种图像的编码、解码方法和装置
CN105430416B (zh) * 2015-12-04 2019-03-01 四川大学 一种基于自适应稀疏域编码的指纹图像压缩方法
EP3471418A1 (en) * 2017-10-12 2019-04-17 Thomson Licensing Method and apparatus for adaptive transform in video encoding and decoding
US10798402B2 (en) * 2017-10-24 2020-10-06 Google Llc Same frame motion estimation and compensation
WO2019117645A1 (ko) * 2017-12-14 2019-06-20 한국전자통신연구원 예측 네트워크를 사용하는 영상의 부호화 및 복호화를 위한 방법 및 장치
US10841577B2 (en) * 2018-02-08 2020-11-17 Electronics And Telecommunications Research Institute Method and apparatus for video encoding and video decoding based on neural network
CN110324623B (zh) * 2018-03-30 2021-09-07 华为技术有限公司 一种双向帧间预测方法及装置
CN108550131B (zh) * 2018-04-12 2020-10-20 浙江理工大学 基于特征融合稀疏表示模型的sar图像车辆检测方法
CN111327904B (zh) * 2018-12-15 2023-03-03 华为技术有限公司 图像重建方法和装置
CN111641832B (zh) * 2019-03-01 2022-03-25 杭州海康威视数字技术股份有限公司 编码方法、解码方法、装置、电子设备及存储介质
US10771807B1 (en) * 2019-03-28 2020-09-08 Wipro Limited System and method for compressing video using deep learning
CN110503833B (zh) * 2019-08-29 2021-06-08 桂林电子科技大学 一种基于深度残差网络模型的入口匝道联动控制方法
CN110740319B (zh) * 2019-10-30 2024-04-05 腾讯科技(深圳)有限公司 视频编解码方法、装置、电子设备及存储介质
CN110753225A (zh) * 2019-11-01 2020-02-04 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备
CN111681298A (zh) * 2020-06-08 2020-09-18 南开大学 一种基于多特征残差网络的压缩感知图像重建方法

Also Published As

Publication number Publication date
CN114501010B (zh) 2023-06-06
WO2022088631A1 (zh) 2022-05-05
CN114501010A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2022088631A1 (zh) 图像编码方法、图像解码方法及相关装置
TWI741239B (zh) 視頻資料的幀間預測方法和裝置
CN113923455B (zh) 一种双向帧间预测方法及装置
US20210306643A1 (en) Picture reconstruction method and apparatus
WO2021238540A1 (zh) 图像编码方法、图像解码方法及相关装置
WO2020006969A1 (zh) 运动矢量预测方法以及相关装置
WO2021185257A1 (zh) 图像编码方法、图像解码方法及相关装置
CN113259671B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN115118976A (zh) 一种图像编码方法、可读介质及其电子设备
WO2021244197A1 (zh) 图像编码方法、图像解码方法及相关装置
CN114071161B (zh) 图像编码方法、图像解码方法及相关装置
CN111586406B (zh) 一种vvc帧内帧间跳过方法、***、设备及存储介质
WO2022022622A1 (zh) 图像编码方法、图像解码方法及相关装置
WO2022022299A1 (zh) 视频编解码中的运动信息列表构建方法、装置及设备
WO2022037300A1 (zh) 编码方法、解码方法及相关装置
WO2023092256A1 (zh) 一种视频编码方法及其相关装置
CN115442618A (zh) 基于神经网络的时域-空域自适应视频压缩
CN112055970B (zh) 候选运动信息列表的构建方法、帧间预测方法及装置
TWI841033B (zh) 視頻數據的幀間預測方法和裝置
WO2022037458A1 (zh) 视频编解码中的运动信息列表构建方法、装置及设备
WO2020007187A1 (zh) 图像块解码方法及装置