TWI714397B

TWI714397B - 視頻處理方法、裝置以及電腦儲存介質

Info

Publication number: TWI714397B
Application number: TW108146509A
Authority: TW
Inventors: 許翔宇; 李沐辰; 孫文秀
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2019-03-19
Filing date: 2019-12-18
Publication date: 2020-12-21
Also published as: US20210327033A1; CN109862208B; JP7086235B2; JP2021530770A; SG11202108771RA; WO2020186765A1; TW202037145A; CN109862208A

Abstract

本公開實施例公開了一種視頻處理方法、裝置以及電腦儲存介質，該方法包括：獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。

Description

視頻處理方法、裝置以及電腦儲存介質

本公開關於電腦視覺技術領域，尤其關於一種視頻處理方法、裝置以及電腦儲存介質。

在視頻的採集、傳輸和接收過程中，通常會有各種雜訊夾雜在其中，夾雜的雜訊降低了視頻的視覺品質。例如，在相機光圈較小以及低光場景下所得到的視頻往往包含有雜訊，但是帶雜訊的視頻中也包含了大量的資訊，視頻中的雜訊會使得這些資訊具有不確定性，嚴重影響觀看者的視覺感受。因此，視頻的去噪具有重要的研究意義，已經成為電腦視覺的重要研究課題。

然而目前的解決方案仍然存在不足，尤其是當視頻中連續的幀與幀之間存在運動或者相機自身存在抖動時，不僅無法將雜訊去除乾淨，還容易導致視頻中圖像細節的損失或者圖像邊緣的模糊與重影。

本公開實施例在於提出一種視頻處理方法、裝置以及電腦儲存介質。

本公開的技術方案是如下這樣實現的。

第一方面，本公開實施例提供了一種視頻處理方法，所述方法包括：

獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；

根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。

在上述方案中，在所述獲取視頻序列中待處理幀對應的卷積參數之前，所述方法還包括：

基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核。

在上述方案中，所述基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核，包括：

基於深度神經網路對所述樣本視頻序列中連續的多個視頻幀分別進行座標預測和權重預測，得到所述可變形卷積核的預測座標和預測權重，其中，所述連續的多個視頻幀包括樣本參考幀及其至少一個相鄰幀；

對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點；

根據所述可變形卷積核的預測座標和預測權重，得到所述可變形卷積核的採樣點的權重；

將所述可變形卷積核的採樣點及所述採樣點的權重，作為所述卷積參數。

在上述方案中，所述對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點，包括：

將所述可變形卷積核的預測座標輸入到預設採樣模型中，獲得所述可變形卷積核的採樣點。

在上述方案中，在所述獲得所述可變形卷積核的採樣點之後，所述方法還包括：

獲取所述樣本參考幀及所述至少一個相鄰幀中的像素點；

基於所述可變形卷積核的採樣點，通過預設採樣模型對所述像素點以及所述可變形卷積核的預測座標進行採樣計算，根據計算的結果確定所述採樣點的採樣值。

在上述方案中，所述根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀，包括：

將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀。

在上述方案中，所述將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀，包括：

針對所述待處理幀中的每個像素點，將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個像素點對應的去噪像素值；

根據每個像素點對應的去噪像素值，得到去噪後的視頻幀。

在上述方案中，所述將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個像素點對應的去噪像素值，包括：

將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算；

根據計算的結果，獲得每個像素點對應的去噪像素值。

第二方面，本公開實施例提供了一種視頻處理裝置，所述視頻處理裝置包括獲取單元和去噪單元，其中，

所述獲取單元，配置為獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；

所述去噪單元，配置為根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。

在上述方案中，所述視頻處理裝置還包括訓練單元，配置為基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核。

在上述方案中，所述視頻處理裝置還包括預測單元和採樣單元，其中，

所述預測單元，配置為基於深度神經網路對所述樣本視頻序列中連續的多個視頻幀分別進行座標預測和權重預測，得到所述可變形卷積核的預測座標和預測權重，其中，所述連續的多個視頻幀包括樣本參考幀及其至少一個相鄰幀；

所述採樣單元，配置為對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點；

所述獲取單元，還配置為根據所述可變形卷積核的預測座標和預測權重，得到所述可變形卷積核的採樣點的權重；以及將所述可變形卷積核的採樣點及所述採樣點的權重，作為所述卷積參數。

在上述方案中，所述採樣單元，具體配置為將所述可變形卷積核的預測座標輸入到預設採樣模型中，獲得所述可變形卷積核的採樣點。

在上述方案中，所述獲取單元，還配置為獲取所述樣本參考幀及所述至少一個相鄰幀中的像素點；

所述採樣單元，還配置為基於所述可變形卷積核的採樣點，通過預設採樣模型對所述像素點以及所述可變形卷積核的預測座標進行採樣計算，根據計算的結果確定所述採樣點的採樣值。

在上述方案中，所述去噪單元，具體配置為將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀。

在上述方案中，所述視頻處理裝置還包括卷積單元，配置為針對所述待處理幀中的每個像素點，將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個像素點對應的去噪像素值；

所述去噪單元，具體配置為根據每個像素點對應的去噪像素值，得到去噪後的視頻幀。

在上述方案中，所述卷積單元，具體配置為將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算；以及根據計算的結果，獲得每個像素點對應的去噪像素值。

第三方面，本公開實施例提供了一種視頻處理裝置，所述視頻處理裝置包括：記憶體和處理器；其中，

所述記憶體，配置為儲存能夠在所述處理器上運行的電腦程式；

所述處理器，配置為在運行所述電腦程式時，執行如第一方面中任一項所述方法的步驟。

第四方面，本公開實施例提供了一種電腦儲存介質，所述電腦儲存介質儲存有視頻處理程式，所述視頻處理程式被至少一個處理器執行時實現如第一方面中任一項所述方法的步驟。

第五方面，本公開實施例提供了一種終端設備，其中，所述終端設備至少包括如第二方面中任一項、或者如協力廠商面所述的視頻處理裝置。

第六方面，本公開實施例一種電腦程式產品，其中，所述電腦程式產品儲存有視頻處理程式，所述視頻處理程式被至少一個處理器執行時實現如第一方面中任一項所述方法的步驟。

本公開實施例所提供的一種視頻處理方法、裝置以及電腦儲存介質，首先獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；由於該卷積參數是通過提取視頻連續幀的資訊來得到的，能夠有效減少視頻中幀與幀之間運動所帶來的圖像模糊、細節損失與重影問題；再根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀；這樣，由於採樣點的權重可以根據採樣點位置的不同而變化，從而能夠使得視頻去噪效果更佳，提高了視頻的成像品質。

801‧‧‧樣本視頻序列

802‧‧‧座標預測網路

803‧‧‧權重預測網路

804‧‧‧可變形卷積核的預測座標

805‧‧‧可變形卷積核的預測權重

806‧‧‧三線性採樣器

807‧‧‧可變形卷積核的採樣點

808‧‧‧卷積運算

809‧‧‧去噪後的視頻幀

90‧‧‧視頻處理裝置

110‧‧‧終端設備

901‧‧‧獲取單元

902‧‧‧去噪單元

903‧‧‧訓練單元

904‧‧‧預測單元

905‧‧‧採樣單元

906‧‧‧卷積單元

1001‧‧‧網路介面

1002‧‧‧記憶體

1003‧‧‧處理器

1004‧‧‧匯流排系統

圖1為本公開實施例提供的一種視頻處理方法的流程示意圖；

圖2為本公開實施例提供的一種深度卷積神經網路的結構示意圖；

圖3為本公開實施例提供的另一種視頻處理方法的流程示意圖；

圖4為本公開實施例提供的又一種視頻處理方法的流程示意圖；

圖5為本公開實施例提供的再一種視頻處理方法的流程示意圖；

圖6為本公開實施例提供的一種視頻處理方法的總體架構示意圖；

圖7為本公開實施例提供的再一種視頻處理方法的流程示意圖；

圖8為本公開實施例提供的一種視頻處理方法的詳細架構示意圖；

圖9為本公開實施例提供的一種視頻處理裝置的組成結構示意圖；

圖10為本公開實施例提供的一種視頻處理裝置的具體硬體結構示意圖；

圖11為本公開實施例提供的一種終端設備的組成結構示意圖。

下面將結合本公開實施例中的附圖，對本公開實施例中的技術方案進行清楚、完整地描述。

本公開實施例提供了一種視頻處理的方法，該方法應用於視頻處理裝置中，該裝置可以設置在諸如智慧手機、平板電腦、筆記型電腦、掌上型電腦、個人數位助理(Personal Digital Assistant，PDA)、便捷式媒體播放機(Portable Media Player，PMP)、可穿戴設備、導航裝置等移動式終端設備中，也可以設置在諸如數位TV、臺式電腦等固定式終端設備中，本公開實施例不作具體限定。

參見圖1，其示出了本公開實施例提供的一種視頻處理方法的流程示意圖，該方法可以包括如下。

S101：獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重。

需要說明的是，視頻序列是通過攝影機、智慧手機、平板電腦和許多其他終端設備進行採集而捕獲到的。其中，小型攝影機和諸如智慧手機、平板電腦等終端設備通常配置有較小尺寸的圖像感測器和不太理想的光學器件，此時視頻幀的去噪處理對於這些設備尤其重要。高端攝影機和攝錄機等通常配置有更大尺寸的圖像感測器和更好的光學器件，使用這些設備所捕獲的視頻幀在正常光照條件下具有不錯的成像品質；然而在低光場景下所捕獲的視頻幀也往往包含有大量雜訊，此時仍然需要進行視頻幀的去噪處理。

這樣，通過攝影機、智慧手機、平板電腦和許多其他終端設備的採集，可以獲取到視頻序列。其中，該視頻序列中包含有待進行去噪處理的待處理幀。通過對該視頻序列中的連續幀(即連續的多個視頻幀)進行深度神經網路訓練，可以得到可變形卷積核；然後獲取可變形卷積核的採樣點以及採樣點的權重，將其作為待處理幀的卷積參數。

在一些實施例中，深度卷積神經網路(Deep Convolutional Neural Networks，Deep CNN)是一類包含卷積運算且具有深度結構的前饋神經網路，是深度神經網路進行深度學習的代表演算法之一。

參見圖2，其示出了本公開實施例提供的一種深度卷積神經網路的結構示意圖。如圖2所示，該深度卷積神經網路的結構中包含有卷積層、池化層和雙線性上採樣層；其中，無填充顏色的層為卷積層，黑色填充的層為池化層，灰色填充的層為雙線性上採樣層；每一層對應的通道數(即，每一個卷積層中所包含的可變形卷積核數量)如表1所示。從表1中可以看出，前25層座標預測網路(用V網路表示)和權重預測網路(用F網路表示)的通道數是相同的，表明了V網路和F網路可以共用前25層的特徵資訊，這樣通過特徵資訊的共用可以減小網路的計算量。其中，F網路可以用於通過樣本視頻序列(即連續的多個視頻幀)來獲取可變形卷積核的預測權重，V網路可以用於通過樣本視頻序列(即連續的多個視頻幀)來獲取可變形卷積核的預測座標，根據可變形卷積核的預測座標，能夠得到可變形卷積核的採樣點；根據可變形卷積核的預測權重和可變形卷積核的預測座標，能夠得到可變形卷積核的採樣點的權重，進而得到了卷積參數。

S102：根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。

需要說明的是，在獲取到待處理幀對應的卷積參數之後，可以根據可變形卷積核的採樣點以及採樣點的權重與待處理幀進行卷積運算處理，卷積運算的結果即為去噪後的視頻幀。

具體地，在一些實施例中，對於S102來說，所述根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀，該方法可以包括：

也就是說，針對待處理幀的去噪處理，可以是由可變形卷積核的採樣點以及採樣點的權重與待處理幀進行卷積處理得到的。例如，針對待處理幀中的每個像素點，可以是由每個像素點與可變形卷積核的採樣點以及採樣點的權重進行加權求和來得到每個像素點對應的去噪像素值，從而實現了對待處理幀的去噪處理。

在本公開實施例中，視頻序列中包含有待進行去噪處理的待處理幀。通過獲取視頻序列中待處理幀對應的卷積參數，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。這樣，由於該卷積參數是通過提取視頻連續幀的資訊來得到的，能夠有效減少視頻中幀與幀之間運動所帶來的圖像模糊、細節損失與重影問題；而且採樣點的權重還可以根據採樣點位置的不同而變化，從而能夠使得視頻去噪效果更佳，提高了視頻的成像品質。

為了得到可變形卷積核，在一些實施例中，參見圖3，其示出了本公開實施例提供的另一種視頻處理方法的流程示意圖。如圖3所示，在所述獲取視頻序列中待處理幀對應的卷積參數之前，即S101之前，該方法還可以包括：

S201：基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核。

需要說明的是，從視頻序列中選擇連續的多個視頻幀作為樣本視頻序列，其中，樣本視頻序列不僅包含有樣本參考幀，還包含有與樣本參考幀相鄰的至少一個相鄰幀。這裡，至少一個相鄰幀可以是該樣本參考幀前向相鄰的至少一個相鄰幀，也可以是該樣本參考幀後向相鄰的至少一個相鄰幀，還可以是該樣本參考幀前向相鄰以及後向相鄰的多個相鄰幀，本公開實施例不作具體限定。下面將以該樣本參考幀前向相鄰以及後向相鄰的多個相鄰幀作為樣本視頻序列為例進行描述，例如，假定樣本參考幀為視頻序列中的第0幀，與該樣本參考幀相鄰的至少一個相鄰幀包括前向相鄰的第-T幀、第-(T-1)幀、...、第-2幀、第-1幀和後向相鄰的第1幀、第2幀、...、第(T-1)幀、第T幀，即該樣本視頻序列中總共有(2T+1)幀，且這些幀為連續幀。

在本公開實施例中，通過對樣本視頻序列進行深度神經網路訓練可以得到可變形卷積核，而待處理幀中每個像素點可以與對應的可變形卷積核進行卷積運算處理，以實現對待處理幀進行去噪處理；與現有技術中的固定卷積核相比，本公開實施例採用可變形卷積核，可以使得待處理幀的視頻處理達到更好的去噪效果。另外，由於本公開實施例是進行三維卷積運算，與其對應的可變形卷積核也是三維的；如無特別說明，本公開實施例中的可變形卷積核均是指三維可變形卷積核。

在一些實施例中，針對可變形卷積核的採樣點以及採樣點的權重，可以通過深度神經網路對樣本視頻序列中連續的多個視頻幀進行座標預測和權重預測，首先獲取到可變形卷積核的座標預測和權重預測；再根據座標預測和權重預測來進一步得到可變形卷積核的採樣點以及採樣點的權重。

在一些實施例中，參見圖4，其示出了本公開實施例提供的又一種視頻處理方法的流程示意圖。如圖4所示，對於S201來說，所述基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核，該方法可以包括如下。

S201a：基於深度神經網路對所述樣本視頻序列中連續的多個視頻幀分別進行座標預測和權重預測，得到所述可變形卷積核的預測座標和預測權重。

需要說明的是，連續的多個視頻幀包括樣本參考幀以及其至少一個相鄰幀。如果至少一個相鄰幀包括前向相鄰的T幀和後向相鄰的T幀，那麼連續的多個視頻幀總共為(2T+1)幀。通過深度神經網路對這連續的多個視頻幀(比如總共(2T+1)幀)進行深度學習，根據學習結果建立座標預測網路和權重預測網路；然後由座標預測網路進行座標預測，可以得到可變形卷積核的預測座標，而由權重預測網路進行權重預測，可以得到可變形卷積核的預測權重。這裡，待處理幀可以是樣本視頻序列中的樣本參考幀，以對其進行視頻去噪處理。

示例性地，假定樣本視頻序列中每一幀的寬度用W表示，高度用H表示，可以得到待處理幀所包含的像素點個數為H×W個。由於可變形卷積核是三維的，而且可變形卷積核的大小是由N個採樣點組成，那麼待處理幀中所能夠獲取到的可變形卷積核的預測座標個數為H×W×N×3個，而待處理幀中所能夠獲取到的可變形卷積核的預測權重個數為H×W×N個。

S201b：對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點。

需要說明的是，在獲取到可變形卷積核的預測座標和可變形卷積核的預測權重之後，可以對可變形卷積核的預測座標進行採樣，從而能夠得到可變形卷積核的採樣點。

具體地，可以通過預設採樣模型對可變形卷積核的預測座標進行採樣處理。在一些實施例中，參見圖5，其示出了本公開實施例提供的再一種視頻處理方法的流程示意圖。如圖5所示，對於S201b來說，所述對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點，該方法可以包括如下。

S201b-1：將所述可變形卷積核的預測座標輸入到預設採樣模型中，獲得所述可變形卷積核的採樣點。

需要說明的是，預設採樣模型表示預先設置的對可變形卷積核的預測座標進行採樣處理的模型。在本公開實施例中，預設採樣模型可以是指三線性採樣器，也可以是指其他採樣模型，本公開實施例不作具體限定。

基於預設採樣模型，在獲得所述可變形卷積核的採樣點之後，所述方法還可以包括如下。

S201b-2：獲取所述樣本參考幀及所述至少一個相鄰幀中的像素點。

需要說明的是，如果樣本參考幀及所述至少一個相鄰幀總共有(2T+1)幀，且每一幀的寬度用W表示，高度用H表示，那麼可以獲取到的像素點個數為H×W×(2T+1)個。

S201b-3：基於所述可變形卷積核的採樣點，通過預設採樣模型對所述像素點以及所述可變形卷積核的預測座標進行採樣計算，根據計算的結果確定所述採樣點的採樣值。

需要說明的是，基於預設採樣模型，可以將所有的像素點以及可變形卷積核的預測座標輸入到預設採樣模型中，而預設採樣模型的輸出就是可變形卷積核的採樣點以及採樣點的採樣值。這樣，如果得到採樣點個數為H×W×N個，那麼對應的採樣值個數也為H×W×N個。

示例性地，以三線性採樣器為例，三線性採樣器不僅可以根據可變形卷積核的預測座標確定出可變形卷積核的採樣點，還可以確定出與採樣點對應的採樣值。其中，以樣本視頻序列中的(2T+1)幀為例，該(2T+1)幀是由樣本參考幀、與樣本參考幀前向相鄰的T個相鄰幀以及與樣本參考幀後向相鄰的T個相鄰幀組成的；該(2T+1)幀中所包含的像素點個數為H×W×(2T+1)個，將這些H×W×(2T+1)個像素點所對應的像素值和H×W×N×3個預測座標共同輸入到三線性採樣器進行採樣計算。例如，該三線性採樣器的採樣計算如式(1)所示，

其中，

表示像素點位置(y,x)處的第n個採樣點的採樣值，n為大於或等於1且小於或等於N的正整數，u _(y,x,n),v _(y,x,n),z _(y,x,n)分別表示像素點位置(y,x)處的第n個採樣點對應在三個維度(水平維度、垂直維度和時間維度)上的預測座標，X(i,j,m)表示視頻序列中第m幀像素點位置(i,j)處的像素值。

另外，對於可變形卷積核來說，可變形卷積核的預測座標是變化的，它是在每個採樣點的位置座標(x _n,y _n, t _n)處都增加了一個相對的偏移變數。具體地，u _(y,x,n),v _(v,x,n),z _(y,x,n)可以分別用下式表示，

u _(y,x,n)=x _n+V(y,x,n,1)v _(y,x,n)=y _n+V(y,x,n,2)z _(y,x,n)=t _n+V(y,x,n,3) (2)

其中，u _(y,x,n)表示像素點位置(y,x)處的第n個採樣點對應在水平維度上的預測座標，V(y,x,n,1)表示像素點位置(y,x)處的第n個採樣點對應在水平維度上的偏移變數；v _(y,x,n)表示像素點位置(y,x)處的第n個採樣點對應在垂直維度上的預測座標，V(y,x,n,2)表示像素點位置(y,x)處的第n個採樣點對應在垂直維度上的偏移變數；z _(y,x,n)表示像素點位置(y,x)處的第n個採樣點對應在時間維度上的預測座標，V(y,x,n,3)表示像素點位置(y,x)處的第n個採樣點對應在時間維度上的偏移變數。

在本公開實施例中，一方面可以確定出可變形卷積核的採樣點，另一方面還可以得到每個採樣點的採樣值；由於可變形卷積核的預測座標是可變化的，說明了每個採樣點的位置並不是固定不變的，也就是說，本公開實施例中的可變形卷積核並非是固定的卷積核，而是可變形的卷積核。與現有技術中的固定卷積核相比，本公開實施例採用可變形卷積核，可以使得待處理幀的視頻處理達到更好的去噪效果。

S201c：根據所述可變形卷積核的預測座標和預測權重，得到所述可變形卷積核的採樣點的權重。

S201d：將所述可變形卷積核的採樣點及所述採樣點的權重，作為所述卷積參數。

需要說明的是，在得到可變形卷積核的採樣點之後，還可以根據所獲取到的可變形卷積核的預測座標和可變形卷積核的預測權重，得到可變形卷積核的採樣點的權重；從而也就獲取到了待處理幀對應的卷積參數。需要注意的是，這裡的預測座標是指可變形卷積核的相對座標值。

還需要說明的是，在本公開實施例中，假定樣本視頻序列中每一幀的寬度用W表示，高度用H表示，由於可變形卷積核是三維的，而且可變形卷積核的大小是有N個採樣點組成，那麼待處理幀中所能夠獲取到的可變形卷積核的預測座標個數為H×W×N×3個，而待處理幀中所能夠獲取到的可變形卷積核的預測權重個數為H×W×N個。在一些實施例中，可以得到可變形卷積核的採樣點個數為H×W×N個，採樣點的權重個數也為H×W×N個。

示例性地，仍以圖2所示的深度卷積神經網路為例，假定每一個卷積層中所包含的可變形卷積核大小是相同的，比如可變形卷積核所包含的採樣點個數為N個；通常來說，N可以取值為9，但是在實際應用中，還可以根據實際情況進行具體設定，本公開實施例不作具體限定。還需要注意的是，針對這N個採樣點，在本公開實施例中，由於可變形卷積核的預測座標是可變化的，說明了每個採樣點的位置並不是固定不變的，根據V網路對每個採樣點都會存在一個相對偏移量；進而表明了本公開實施例中的可變形卷積核並非是固定的卷積核，而是可變形的卷積核，使得本公開實施例可以適用於幀與幀之間具有較大運動的視頻處理；另外，根據採樣點的不同，結合F網路所得到的每個採樣點的權重也是不同的；也就是說，本公開實施例不僅採用了可變形的卷積核，而且還採用了可變化的權重，與現有技術中的固定卷積核或者人為設置的權重相比，可以使得待處理幀的視頻處理達到更好的去噪效果。

基於圖2所示的深度卷積神經網路，該網路還可以採用編碼器-解碼器的設計結構；其中，在編碼器的工作階段，通過卷積神經網路可以進行4次下採樣，而且每次下採樣，對於輸入的待處理幀H×W(H表示待處理幀的高度，W表示待處理幀的寬度)，則可以得到輸出H/2×W/2的視頻幀，它主要是用於對待處理幀進行特徵圖像的提取；在解碼器的工作階段，通過卷積神經網路可以進行4次上採樣，而每次上採樣，對於輸入的待處理幀H×W(H表示待處理幀的高度，W表示待處理幀的寬度)，則可以得到輸出2H×2W的視頻幀，它主要是用於根據編碼器提取的特徵圖像恢復出原尺寸大小的視頻幀；這裡，針對下採樣或者上採樣的次數，可以根據實際情況進行具體設定，本公開實施例不作具體限定。另外，從圖2中還可以看出，部分卷積層的輸出與輸入之間具有連接關係，即跳躍連接(skip connection)；比如第6層和第22層之間具有跳躍連接關係，第9層和第19層之間具有跳躍連接關係，第12層和第16層之間具有跳躍連接關係；這樣還可以使得解碼器階段能夠綜合利用低階和高階的特徵，以使得待處理幀的視頻去噪效果更佳。

參見圖6，其示出了本公開實施例提供的一種視頻處理方法的總體架構示意圖；如圖6所示，X表示輸入端，用於輸入樣本視頻序列；其中，樣本視頻序列是從視頻序列中選取的，該樣本視頻序列是由5個連續幀(比如包括樣本參考幀、與樣本參考幀前向相鄰的2個相鄰幀以及與樣本參考幀後向相鄰的2個相鄰幀)組成；然後針對X輸入的連續幀進行座標預測和權重預測；針對座標預測，可以建立座標預測網路(用V網路表示)，通過V網路可以得到可變形卷積核的預測座標；針對權重預測，可以建立權重預測網路(用F網路表示)，通過F網路可以得到可變形卷積核的預測權重；然後將X輸入的連續幀和預測得到的可變形卷積核的預測座標全部輸入到預設採樣模型中，通過預設採樣模型輸出可變形卷積核的採樣點(用X表示)；根據可變形卷積核的採樣點以及可變形卷積核的預測權重，可以得到可變形卷積核的採樣點的權重；最後針對待處理幀中每個像素點，將每個像素點與可變形卷積核的採樣點以及採樣點的權重進行卷積運算，得到待處理幀中每個像素點對應的去噪像素值，輸出的結果即為去噪後的視頻幀(用Y表示)；通過視頻序列中的連續幀資訊，不僅實現了對待處理幀的去噪處理，而且由於可變形卷積核的採樣點位置是變化的(即採用了可變形卷積核)，同時每個採樣點的權重也是可變化的，從而還可以使得視頻去噪的效果更佳。

在S101之後，可以獲取到可變形卷積核的採樣點及採樣點的權重；這樣，根據可變形卷積核的採樣點及採樣點的權重對待處理幀進行去噪處理，從而能夠得到去噪後的視頻幀。

具體地，去噪後的視頻幀可以是由可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理得到的。在一些實施例中，參見圖7，其示出了本公開實施例提供的再一種視頻處理方法的流程示意圖。如圖7所示，所述將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀，該方法可以包括如下。

S102a：針對所述待處理幀中的每個像素點，將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個像素點對應的去噪像素值。

需要說明的是，對於每個像素點對應的去噪像素值，可以是將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算得到的。具體地，在一些實施例中，S102a可以包括：

S102a-1：將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算；

S102a-2：根據計算的結果，獲得每個像素點對應的去噪像素值。

需要說明的是，對於每個像素點對應的去噪像素值，可以是對每個像素點進行可變形卷積核的採樣點以及採樣點的權重值的加權求和計算所得到的。具體地，針對待處理幀中的每個像素點，與該像素點進行卷積運算的可變形卷積核包含有N個採樣點，首先對每個採樣點的採樣值以及每個採樣點的權重進行加權計算，然後再對這N個採樣點進行求和運算，最終結果即為待處理幀中每個像素點所對應的去噪像素值；具體地，參見式(3)所示，

其中，Y(y,x)表示所述待處理幀中像素點位置(y,x)處的去噪像素值，

表示像素點位置(y,x)處的第n個採樣點的採樣值，F(y,x,n)表示像素點位置(y,x)處的第n個採樣點的權重值，n=1,2,...,N。

這樣，利用上述的式(3)，經過計算可以得到所述待處理幀中每個像素點對應的去噪像素值。在本公開實施例中，每個採樣點的位置並不是固定不變的，而且每個採樣點的權重也是不同的；也就是說，本公開實施例的去噪處理，不僅採用了可變形的卷積核，而且還採用了可變化的權重；與現有技術中的固定卷積核或者人為設置的權重相比，可以使得待處理幀的視頻處理達到更好的去噪效果。

S102b：根據每個像素點對應的去噪像素值，得到去噪後的視頻幀。

需要說明的是，待處理幀中每個像素點可以與對應的可變形卷積核進行卷積運算處理，即，待處理幀中每個像素點可以與可變形卷積核的採樣點及採樣點的權重進行卷積運算處理，以得到每個像素點對應的去噪像素值；這樣就實現了對待處理幀的去噪處理。

示例性地，假定預設採樣模型為三線性採樣器，圖8示出了本公開實施例提供的一種視頻處理方法的詳細架構示意圖。如圖8所示，首先輸入樣本視頻序列801，該樣本視頻序列801是由連續的多個視頻幀(比如包括樣本參考幀、與樣本參考幀前向相鄰的2個相鄰幀以及與樣本參考幀後向相鄰的2個相鄰幀)組成；然後基於深度神經網路對輸入的樣本視頻序列801進行座標預測和權重預測，比如可以建立座標預測網路802和權重預測網路803；這樣，可以根據座標預測網路802進行座標預測，獲取可變形卷積核的預測座標804；可以根據權重預測網路803進行權重預測，獲取可變形卷積核的預測權重805；將輸入的樣本視頻序列801和可變形卷積核的預測座標804共同輸入到三線性採樣器806中，由三線性採樣器806進行採樣處理，而三線性採樣器806的輸出為可變形卷積核的採樣點807；然後將可變形卷積核的採樣點807以及可變形卷積核的預測權重805與待處理幀進行卷積運算808，最終輸出去噪後的視頻幀809。需要注意的是，在卷積運算808之前，還可以根據可變形卷積核的預測座標804和可變形卷積核的預測權重805，得到可變形卷積核的採樣點的權重；這樣，對於卷積運算808來說，可以是對可變形卷積核的採樣點以及採樣點的權重與待處理幀進行卷積運算，以實現對待處理幀的去噪處理。

基於如圖8所示的詳細架構，通過深度神經網路對樣本視頻序列進行深度神經網路訓練，可以得到可變形卷積核。另外，針對可變形卷積核的預測座標和預測權重，由於預測座標是變化的，說明了每個採樣點的位置是變化的，進而說明了本公開實施例中的卷積核並非是固定的卷積核，而是可變形的卷積核，使得本公開實施例可以適用於幀與幀之間具有較大運動的視頻處理；另外，根據採樣點的不同，每個採樣點的權重也是可以變化的；也就是說，本公開實施例不僅採用了可變形的卷積核，而且還採用了可變化的預測權重，可以使得待處理幀的視頻處理達到更好的去噪效果。

在本公開實施例中，通過採用可變形卷積核，不僅避免了視頻連續幀中幀與幀之間運動所帶來的圖像模糊、細節損失與重影問題，而且還可以自我調整的基於像素級資訊分配不同的採樣點去追蹤視頻連續幀中同一位置的移動情況，且通過利用多幀資訊能夠更好地彌補單幀資訊的不足，還可以使得本公開實施例的方法能夠應用到視頻修復場景中。另外，可變形卷積核還可以看作是一種時序光流的高效提取器，充分利用了視頻連續幀中的多幀資訊，還能夠將本公開實施例的方法應用到其它依賴於像素級資訊的視頻處理場景中；除此之外，在硬體品質有限或者低光條件下，基於本公開實施例的方法也能夠達到高品質視頻成像的目的。

上述實施例提供了一種視頻處理方法，通過獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀；這樣，由於該卷積參數是通過提取視頻連續幀的資訊來得到的，能夠有效減少視頻中幀與幀之間運動所帶來的圖像模糊、細節損失與重影問題；而且採樣點的權重還可以根據採樣點位置的不同而變化，從而能夠使得視頻去噪效果更佳，提高了視頻的成像品質。

基於前述實施例相同的發明構思，參見圖9，其示出了本公開實施例提供的一種視頻處理裝置90的組成，所述視頻處理裝置90可以包括：獲取單元901和去噪單元902，其中，

所述獲取單元901，配置為獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；

所述去噪單元902，配置為根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀。

在上述方案中，參見圖9，所述視頻處理裝置90還包括訓練單元903，配置為基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核。

在上述方案中，參見圖9，所述視頻處理裝置90還包括預測單元904和採樣單元905，其中，

所述預測單元904，配置為基於深度神經網路對所述樣本視頻序列中連續的多個視頻幀分別進行座標預測和權重預測，得到所述可變形卷積核的預測座標和預測權重，其中，所述連續的多個視頻幀包括樣本參考幀及其至少一個相鄰幀；

所述採樣單元905，配置為對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點；

所述獲取單元901，還配置為根據所述可變形卷積核的預測座標和預測權重，得到所述可變形卷積核的採樣點的權重；以及將所述可變形卷積核的採樣點及所述採樣點的權重，作為所述卷積參數。

在上述方案中，所述採樣單元905，具體配置為將所述可變形卷積核的預測座標輸入到預設採樣模型中，獲得所述可變形卷積核的採樣點。

在上述方案中，所述獲取單元901，還配置為獲取所述樣本參考幀及所述至少一個相鄰幀中的像素點；

所述採樣單元905，還配置為基於所述可變形卷積核的採樣點，通過預設採樣模型對所述像素點以及所述可變形卷積核的預測座標進行採樣計算，根據計算的結果確定所述採樣點的採樣值。

在上述方案中，所述去噪單元902，具體配置為將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀。

在上述方案中，參見圖9，所述視頻處理裝置90還包括卷積單元906，配置為針對所述待處理幀中的每個像素點，將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個像素點對應的去噪像素值；

所述去噪單元902，具體配置為根據每個像素點對應的去噪像素值，得到去噪後的視頻幀。

在上述方案中，所述卷積單元906，具體配置為將每個像素點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算；以及根據計算的結果，獲得每個像素點對應的去噪像素值。

可以理解地，在本實施例中，“單元”可以是部分電路、部分處理器、部分程式或軟體等等，當然也可以是模組，還可以是非模組化的。而且在本實施例中的各組成部分可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能模組的形式實現。

所述集成的單元如果以軟體功能模組的形式實現並非作為獨立的產品進行銷售或使用時，可以儲存在一個電腦可讀取儲存介質中，基於這樣的理解，本實施例的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質中，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)或processor(處理器)執行本實施例所述方法的全部或部分步驟。而前述的儲存介質包括：U盤、移動硬碟、唯讀記憶體(Read Only Memory，ROM)、隨機存取記憶體(Random Access Memory，RAM)、磁碟或者光碟等各種可以儲存程式碼的介質。

因此，本實施例提供了一種電腦儲存介質，該電腦儲存介質儲存有視頻處理程式，所述視頻處理程式被至少一個處理器執行時實現前述實施例中所述方法的步驟。

基於上述視頻處理裝置90的組成以及電腦儲存介質，參見圖10，其示出了本公開實施例提供的視頻處理裝置90的具體硬體結構，可以包括：網路介面1001、記憶體1002和處理器1003；各個元件通過匯流排系統1004耦合在一起。可理解，匯流排系統1004用於實現這些元件之間的連接通信。匯流排系統1004除包括資料匯流排之外，還包括電源匯流排、控制匯流排和狀態信號匯流排。但是為了清楚說明起見，在圖10中將各種匯流排都標為匯流排系統1004。其中，網路介面1001，用於在與其他外部網元之間進行收發資訊過程中，信號的接收和發送；

記憶體1002，配置為儲存能夠在處理器1003上運行的電腦程式；

處理器1003，配置為在運行所述電腦程式時，執行：

本申請實施例提供一種電腦程式產品，其中，所述電腦程式產品儲存有視頻處理程式，所述視頻處理程式被至少一個處理器執行時實現前述實施例中所述方法的步驟。

可以理解，本公開實施例中的記憶體1002可以是易失性記憶體或非易失性記憶體，或可包括易失性和非易失性記憶體兩者。其中，非易失性記憶體可以是唯讀記憶體(Read-Only Memory，ROM)、可程式設計唯讀記憶體(Programmable ROM，PROM)、可擦除可程式設計唯讀記憶體(Erasable PROM，EPROM)、電可擦除可程式設計唯讀記憶體(Electrically EPROM，EEPROM)或快閃記憶體。易失性記憶體可以是隨機存取記憶體(Random Access Memory，RAM)，其用作外部快取記憶體。通過示例性但不是限制性說明，許多形式的RAM可用，例如靜態隨機存取記憶體(Static RAM，SRAM)、動態隨機存取記憶體(Dynamic RAM，DRAM)、同步動態隨機存取記憶體(Synchronous DRAM，SDRAM)、雙倍數據速率同步動態隨機存取記憶體(Double Data Rate SDRAM，DDRSDRAM)、增強型同步動態隨機存取記憶體(Enhanced SDRAM，ESDRAM)、同步連接動態隨機存取記憶體(Synchlink DRAM，SLDRAM)和直接記憶體匯流排隨機存取記憶體(Direct Rambus RAM，DRRAM)。本文描述的系統和方法的記憶體1002旨在包括但不限於這些和任意其它適合類型的記憶體。

而處理器1003可能是一種積體電路晶片，具有信號的處理能力。在實現過程中，上述方法的各步驟可以通過處理器1003中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器1003可以是通用處理器、數位訊號處理器(Digital Signal Processor，DSP)、專用積體電路(Application Specific Integrated Circuit，ASIC)、現成可程式設計閘陣列(Field Programmable Gate Array，FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本公開實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本公開實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成，或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體，快閃記憶體、唯讀記憶體，可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、寄存器等本領域成熟的儲存介質中。該儲存介質位於記憶體1002，處理器1003讀取記憶體1002中的資訊，結合其硬體完成上述方法的步驟。

可以理解的是，本文描述的這些實施例可以用硬體、軟體、固件、中介軟體、微碼或其組合來實現。對於硬體實現，處理單元可以實現在一個或多個專用積體電路(Application Specific Integrated Circuits，ASIC)、數位訊號處理器(Digital Signal Processing，DSP)、數位信號處理設備(DSP Device，DSPD)、可程式設計邏輯裝置(Programmable Logic Device，PLD)、現場可程式設計閘陣列(Field-Programmable Gate Array，FPGA)、通用處理器、控制器、微控制器、微處理器、用於執行本公開所述功能的其它電子單元或其組合中。

對於軟體實現，可通過執行本文所述功能的模組(例如過程、函數等)來實現本文所述的技術。軟體代碼可儲存在記憶體中並通過處理器執行。記憶體可以在處理器中或在處理器外部實現。

可選地，作為另一個實施例，處理器1003還配置為在運行所述電腦程式時，執行前述實施例中所述方法的步驟。

參見圖11，其示出了本公開實施例提供的一種終端設備110的組成結構示意圖；其中，所述終端設備110至少包括如前述實施例中所涉及的任意一種視頻處理裝置90。

需要說明的是，在本文中，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

上述本公開實施例序號僅僅為了描述，不代表實施例的優劣。

通過以上的實施方式的描述，本領域的技術人員可以清楚地瞭解到上述實施例方法可借助軟體加必需的通用硬體平臺的方式來實現，當然也可以通過硬體，但很多情況下前者是更佳的實施方式。基於這樣的理解，本公開的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質(如ROM/RAM、磁碟、光碟)中，包括若干指令用以使得一台終端(可以是手機，電腦，伺服器，空調器，或者網路設備等)執行本公開各個實施例所述的方法。

上面結合附圖對本公開的實施例進行了描述，但是本公開並不局限於上述的具體實施方式，上述的具體實施方式僅僅是示意性的，而不是限制性的，本領域的普通技術人員在本公開的啟示下，在不脫離本公開宗旨和申請專利範圍所保護的範圍情況下，還可做出很多形式，這些均屬於本公開的保護之內。

圖1代表圖流程圖，無元件符號簡單說明。

Claims

一種視頻處理方法，所述方法包括：獲取視頻序列中待處理幀對應的卷積參數，其中，所述卷積參數包括可變形卷積核的採樣點及所述採樣點的權重；根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀；其中，在所述獲取視頻序列中待處理幀對應的卷積參數之前，所述方法還包括：基於樣本視頻序列中的連續的多個視頻幀進行深度神經網路訓練得到可變形卷積核。
根據請求項1所述的方法，其中，所述基於樣本視頻序列進行深度神經網路訓練得到可變形卷積核，包括：基於深度神經網路對所述樣本視頻序列中連續的多個視頻幀分別進行座標預測和權重預測，得到所述可變形卷積核的預測座標和預測權重，其中，所述連續的多個視頻幀包括樣本參考幀及其至少一個相鄰幀；對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點；根據所述可變形卷積核的預測座標和預測權重，得到所述可變形卷積核的採樣點的權重；將所述可變形卷積核的採樣點及所述採樣點的權重，作為所述卷積參數。
根據請求項2所述的方法，其中，所述對所述可變形卷積核的預測座標進行採樣，得到所述可變形卷積核的採樣點，包括：將所述可變形卷積核的預測座標輸入到預設採樣模型中，獲得所述可變形卷積核的採樣點。
根據請求項3所述的方法，其中，在所述獲得所述可變形卷積核的採樣點之後，所述方法還包括：獲取所述樣本參考幀及所述至少一個相鄰幀中的圖元點；基於所述可變形卷積核的採樣點，通過預設採樣模型對所述圖元點以及所述可變形卷積核的預測座標進行採樣計算，根據計算的結果確定所述採樣點的採樣值。
根據請求項1至4任一項所述的方法，其中，所述根據所述可變形卷積核的採樣點及所述採樣點的權重對所述待處理幀進行去噪處理，得到去噪後的視頻幀，包括：將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀。
根據請求項5所述的方法，其中，所述將可變形卷積核的採樣點及所述採樣點的權重與所述待處理幀進行卷積處理，得到所述去噪後的視頻幀，包括：針對所述待處理幀中的每個圖元點，將每個圖元點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個圖元點對應的去噪圖元值；根據每個圖元點對應的去噪圖元值，得到去噪後的視頻幀。
根據請求項6所述的方法，其中，所述將每個圖元點與所述可變形卷積核的採樣點以及所述採樣點的權重進行卷積運算，得到每個圖元點對應的去噪圖元值，包括：將每個圖元點與所述可變形卷積核的採樣點以及所述採樣點的權重進行加權求和計算；根據計算的結果，獲得每個圖元點對應的去噪圖元值。
一種視頻處理裝置，所述視頻處理裝置包括：記憶體和處理器；其中，所述記憶體，配置為於儲存能夠在所述處理器上運行的電腦程式；所述處理器，配置為在運行所述電腦程式時，執行如請求項1至7任一項所述方法的步驟。
一種電腦儲存介質，其中，所述電腦儲存介質儲存有視頻處理程式，所述視頻處理程式被至少一個處理器執行時實現如請求項1至7任一項所述方法的步驟。