TWI728465B

TWI728465B - 圖像處理方法和裝置、電子設備及儲存介質

Info

Publication number: TWI728465B
Application number: TW108133085A
Authority: TW
Inventors: 湯曉鷗; 王鑫濤; 陳焯傑; 余可; 董超; 呂健勤
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-04-30
Filing date: 2019-09-12
Publication date: 2021-05-21
Also published as: SG11202104181PA; US20210241470A1; CN110070511A; CN110070511B; JP7093886B2; JP2021531588A; WO2020220517A1; TW202042174A

Abstract

本申請實施例公開了一種圖像處理方法和裝置、電子設備及儲存介質，其中方法包括：獲取圖像幀序列，包括待處理圖像幀以及與待處理圖像幀相鄰的一個或多個圖像幀，並對待處理圖像幀與圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料；基於多個對齊特徵資料確定多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於多個相似度特徵確定多個對齊特徵資料中每個對齊特徵資料的權重資訊；根據每個對齊特徵資料的權重資訊對多個對齊特徵資料進行融合，獲得圖像幀序列的融合資訊，用於獲取與待處理圖像幀對應的處理後圖像幀，可以提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果。

Description

圖像處理方法和裝置、電子設備及儲存介質

本申請關於電腦視覺技術領域，具體關於一種圖像處理方法和裝置、電子設備及儲存介質。

視頻復原是從一系列低品質的輸入幀恢復得到高品質輸出幀的過程。但是，低品質的幀序列中已經損失了要恢復出高品質幀的必要資訊。視頻復原的主要任務包括視頻超解析度、視頻去模糊、視頻去噪等。

視頻復原的流程往往包括四個步驟：特徵提取、多幀對齊、多幀融合和重建，其中多幀對齊和多幀融合是視頻復原技術的關鍵。對於多幀對齊，目前常採用基於光流的演算法，不僅耗時較長而且效果不好，特別是當輸入幀有遮擋、運動，並且模糊嚴重的情況下，而進一步的，基於上述對齊後的多幀融合品質也不夠好，可能出現復原上的誤差，可見目前多幀對齊和多幀融合的準確度不高，視頻復原效果不佳。

本申請實施例提供了一種圖像處理方法和裝置、電子設備及儲存介質。

本申請實施例第一方面提供一種圖像處理方法，包括：獲取圖像幀序列，所述圖像幀序列包括待處理圖像幀以及與所述待處理圖像幀相鄰的一個或多個圖像幀，並對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料；基於所述多個對齊特徵資料確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於所述多個相似度特徵確定所述多個對齊特徵資料中每個對齊特徵資料的權重資訊；根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊，所述融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀。

在一種可選的實施方式中，所述對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料包括：基於第一圖像特徵集以及一個或多個第二圖像特徵集，對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，其中，所述第一圖像特徵集包含所述待處理圖像幀的至少一個不同尺度的特徵資料，所述第二圖像特徵集包含所述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料。

通過不同尺度的圖像特徵進行圖像對齊來獲得對齊特徵資料，能夠解決視頻復原中的對齊問題，提升多幀對齊的精度，特別是輸入圖像幀中存在複雜和較大的運動、遮擋和/或模糊的情況。

在一種可選的實施方式中，所述基於第一圖像特徵集以及一個或多個第二圖像特徵集，對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料包括：獲取所述第一圖像特徵集中尺度最小的第一特徵資料，以及所述第二圖像特徵集中與所述第一特徵資料的尺度相同的第二特徵資料，將所述第一特徵資料和所述第二特徵資料進行圖像對齊，獲得第一對齊特徵資料；獲取所述第一圖像特徵集中尺度第二小的第三特徵資料，以及所述第二圖像特徵集中與所述第三特徵資料的尺度相同的第四特徵資料；對所述第一對齊特徵進行上採樣卷積，獲得與所述第三特徵資料的尺度相同的第一對齊特徵資料；基於所述上採樣卷積後的第一對齊特徵資料，將所述第三特徵資料和所述第四特徵資料進行圖像對齊，獲得第二對齊特徵資料；依據所述尺度由小到大的順序執行上述步驟，直到獲得與所述待處理圖像幀的尺度相同的一個對齊特徵資料；基於全部所述第二圖像特徵集執行上述步驟以獲得所述多個對齊特徵資料。

從最小的尺度開始，逐步對齊圖像特徵。在小尺度的圖像特徵進行圖像對齊之後再放大，在一個更大的尺度上對齊。通過這樣一層層逐漸地調整，可以大大提升多幀對齊的精度。

在一種可選的實施方式中，所述得到多個對齊特徵資料之前，所述方法還包括：基於可變形卷積網路調整每個所述對齊特徵資料，獲得所述調整後的所述多個對齊特徵資料。

在進行特徵資料的對齊之後，可以使用一個額外的級聯的可變形卷積網路來進一步調整已獲得的對齊特徵資料，在多尺度的對齊的基礎上再精細化調整對齊的結果，可以使得圖像對齊的精度得到進一步地提升。

在一種可選的實施方式中，所述基於所述多個對齊特徵資料確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，包括：通過點乘每個所述對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料，確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。

在一種可選的實施方式中，所述基於所述多個相似度特徵確定所述多個對齊特徵資料中每個對齊特徵資料的權重資訊包括：利用預設激勵函數和所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定所述每個對齊特徵資料的權重資訊。

在一種可選的實施方式中，所述根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊包括：利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊。

利用上述融合卷積網路根據每個對齊特徵資料的權重資訊來對多個對齊特徵資料進行融合，考慮了多幀圖像之間包含的資訊不同，其重要程度也不同，可以獲得更準確的融合資訊以進行重建，也更能進一步矯正前一階段對齊不准的問題。

在一種可選的實施方式中，所述利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊，包括：以元素級乘法將所述每個對齊特徵資料與所述每個對齊特徵資料的權重資訊相乘，獲得所述多個對齊特徵資料的多個調製特徵資料；利用所述融合卷積網路對所述多個調製特徵資料進行融合，獲得所述圖像幀序列的融合資訊。

在一種可選的實施方式中，所述利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊之後，所述方法還包括：基於所述圖像幀序列的融合資訊生成空間特徵資料；基於所述空間特徵資料中每個元素點的空間注意力資訊調製所述空間特徵資料，獲得調製後的融合資訊，所述調製後的融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀。

在一種可選的實施方式中，所述基於所述空間特徵資料中每個元素點的空間注意力資訊調製所述空間特徵資料，獲得調製後的融合資訊包括：根據所述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法對應調製所述空間特徵資料中的所述每個元素點，獲得所述調製後的融合資訊。

經過空間注意力機制進行調製，該機制在不同尺度的空間特徵資料上進行，能夠進一步挖掘不同空間位置和不同特徵通道上的資訊，可以獲得更準確的調製後的融合資訊。

在一種可選的實施方式中，所述圖像處理方法基於神經網路實現；所述神經網路利用包含多個樣本圖像幀對的資料集訓練獲得，所述樣本圖像幀對包含多個第一樣本圖像幀以及與所述多個第一樣本圖像幀分別對應的第二樣本圖像幀，所述第一樣本圖像幀的解析度低於所述第二樣本圖像幀的解析度。

在一種可選的實施方式中，所述獲取圖像幀序列之前，所述方法還包括：對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得所述圖像幀序列。

在一種可選的實施方式中，所述對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊之前，所述方法還包括：對所述圖像幀序列中的圖像幀進行去模糊處理。

通過去模糊處理使本申請中的圖像處理方法可以更準確地進行圖像對齊和融合處理。

在一種可選的實施方式中，所述方法還包括：根據所述圖像幀序列的融合資訊，獲取與所述待處理圖像幀對應的處理後圖像幀。

本申請實施例第二方面提供一種圖像處理方法，包括：在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於預設閾值的情況下，依次通過上述第一方面所述的方法的步驟對所述圖像幀序列中的每一圖像幀進行處理，得到處理後的圖像幀序列；輸出和/或顯示由所述處理後的圖像幀序列構成的第二視頻流。

通過上述步驟可以輸出和/或顯示處理後的圖像幀序列構成的視頻，實現各種視頻復原應用，包括但不限於視頻超解析度，視頻去模糊，視頻去噪等。

本申請實施例第三方面提供一種圖像處理裝置，包括對齊模組和融合模組，其中：所述對齊模組，用於獲取圖像幀序列，所述圖像幀序列包括待處理圖像幀以及與所述待處理圖像幀相鄰的一個或多個圖像幀，並對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料；所述融合模組，用於基於所述多個對齊特徵資料確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於所述多個相似度特徵確定所述多個對齊特徵資料中每個對齊特徵資料的權重資訊；所述融合模組，還用於根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊，所述融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀。

可選的，所述對齊模組具體用於：基於第一圖像特徵集以及一個或多個第二圖像特徵集，對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，其中，所述第一圖像特徵集包含所述待處理圖像幀的至少一個不同尺度的特徵資料，所述第二圖像特徵集包含所述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料。

可選的，所述對齊模組具體用於：獲取所述第一圖像特徵集中尺度最小的第一特徵資料，以及所述第二圖像特徵集中與所述第一特徵資料的尺度相同的第二特徵資料，將所述第一特徵資料和所述第二特徵資料進行圖像對齊，獲得第一對齊特徵資料；獲取所述第一圖像特徵集中尺度第二小的第三特徵資料，以及所述第二圖像特徵集中與所述第三特徵資料的尺度相同的第四特徵資料；對所述第一對齊特徵進行上採樣卷積，獲得與所述第三特徵資料的尺度相同的第一對齊特徵資料；基於所述上採樣卷積後的第一對齊特徵資料，將所述第三特徵資料和所述第四特徵資料進行圖像對齊，獲得第二對齊特徵資料；依據所述尺度由小到大的順序執行上述步驟，直到獲得與所述待處理圖像幀的尺度相同的一個對齊特徵資料；基於全部所述第二圖像特徵集執行上述步驟以獲得所述多個對齊特徵資料。

在一種可選的實施方式中，所述對齊模組還用於，在得到多個對齊特徵資料之前，基於可變形卷積網路調整每個所述對齊特徵資料，獲得所述調整後的所述多個對齊特徵資料。

在一種可選的實施方式中，所述融合模組具體用於：通過點乘每個所述對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料，確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。

在一種可選的實施方式中，所述融合模組還具體用於：利用預設激勵函數和所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定所述每個對齊特徵資料的權重資訊。

在一種可選的實施方式中，所述融合模組具體用於：利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊。

在一種可選的實施方式中，所述融合模組具體用於：以元素級乘法將所述每個對齊特徵資料與所述每個對齊特徵資料的權重資訊相乘，獲得所述多個對齊特徵資料的多個調製特徵資料；利用所述融合卷積網路對所述多個調製特徵資料進行融合，獲得所述圖像幀序列的融合資訊。

在一種可選的實施方式中，所述融合模組包括空間單元，用於：在所述融合模組利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊之後，基於所述圖像幀序列的融合資訊生成空間特徵資料；基於所述空間特徵資料中每個元素點的空間注意力資訊調製所述空間特徵資料，獲得調製後的融合資訊，所述調製後的融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀。

在一種可選的實施方式中，所述空間單元具體用於：根據所述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法對應調製所述空間特徵資料中的所述每個元素點，獲得所述調製後的融合資訊。

在一種可選的實施方式中，所述圖像處理裝置中部署有神經網路；所述神經網路利用包含多個樣本圖像幀對的資料集訓練獲得，所述樣本圖像幀對包含多個第一樣本圖像幀以及與所述多個第一樣本圖像幀分別對應的第二樣本圖像幀，所述第一樣本圖像幀的解析度低於所述第二樣本圖像幀的解析度。

在一種可選的實施方式中，還包括採樣模組，用於：在獲取圖像幀序列之前，對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得所述圖像幀序列。

在一種可選的實施方式中，還包括預處理模組，用於：在對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊之前，對所述圖像幀序列中的圖像幀進行去模糊處理。

在一種可選的實施方式中，還包括重建模組，用於根據所述圖像幀序列的融合資訊，獲取與所述待處理圖像幀對應的處理後圖像幀。

本申請實施例第四方面提供另一種圖像處理裝置，包括：處理模組和輸出模組，其中：所述處理模組，用於在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於預設閾值的情況下，依次通過上述任意一項所述的方法對所述圖像幀序列中的每一圖像幀進行處理，得到處理後的圖像幀序列；所述輸出模組，用於輸出和/或顯示由所述處理後的圖像幀序列構成的第二視頻流。

本申請實施例第五方面提供一種電子設備，包括處理器以及記憶體，所述記憶體用於儲存電腦程式，所述電腦程式被配置成由所述處理器執行，所述處理器用於執行如本申請實施例第一方面任一方法中所描述的部分或全部步驟。

本申請實施例第六方面提供一種電腦可讀儲存介質，所述電腦可讀儲存介質用於儲存電腦程式，其中，所述電腦程式使得電腦執行如本申請實施例第一方面任一方法中所描述的部分或全部步驟。

本申請實施例通過獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，再基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊，根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，可以獲得上述圖像幀序列的融合資訊，上述融合資訊可以用於獲取與上述待處理圖像幀對應的處理後圖像幀，可以大大提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

300:圖像處理裝置

310:對齊模組

320:融合模組

321:空間單元

330:採樣模組

340:預處理模組

350:重建模組

400:圖像處理裝置

410:處理模組

420:輸出模組

500:電子設備

501:處理器

502:記憶體

503:匯流排

504:輸入輸出設備

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本公開的實施例，並與說明書一起用於說明本公開的技術方案。

圖1是本申請實施例公開的一種圖像處理方法的流程示意圖；圖2是本申請實施例公開的另一種圖像處理方法的流程示意圖；圖3是本申請實施例公開的一種對齊模組結構示意圖；圖4是本申請實施例公開的一種融合模組結構示意圖；圖5是本申請實施例公開的一種視頻復原框架示意圖；圖6是本申請實施例公開的一種圖像處理裝置的結構示意圖；圖7是本申請實施例公開的另一種圖像處理裝置的結構示意圖；圖8是本申請實施例公開的一種電子設備的結構示意圖。

下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬於本申請保護的範圍。

本申請中的術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。本申請的說明書和申請專利範圍及上述附圖中的術語“第一”、“第二”等是用於區別不同對象，而不是用於描述特定順序。此外，術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是可選地還包括沒有列出的步驟或單元，或可選地還包括對於這些過程、方法、產品或設備固有的其他步驟或單元。

在本文中提及“實施例”意味著，結合實施例描述的特定特徵、結構或特性可以包含在本申請的至少一個實施例中。在說明書中的各個位置出現該短語並不一定均是指相同的實施例，也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是，本文所描述的實施例可以與其它實施例相結合。

本申請實施例所涉及到的圖像處理裝置是可以進行圖像處理的裝置，可以為電子設備，上述電子設備包括終端設備，具體實現中，上述終端設備包括但不限於諸如具有觸摸敏感表面(例如，觸控式螢幕顯示器和/或觸控板)的行動電話、膝上型電腦或平板電腦之類的其它可擕式設備。還應當理解的是，在某些實施例中，所述設備並非可擕式通信設備，而是具有觸摸敏感表面(例如，觸控式螢幕顯示器和/或觸控板)的臺式電腦。

本申請實施例中的深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，以發現資料的分散式特徵表示。

深度學習是機器學習中一種基於對資料進行表徵學習的方法。觀測值(例如一幅圖像)可以使用多種方式來表示，如每個像素點強度值的向量，或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務(例如，人臉識別或面部表情識別)。深度學習的好處是用非監督式或半監督式的特徵學習和分層特徵提取高效演算法來替代手工獲取特徵。深度學習是機器學習研究中的一個新的領域，其動機在於建立、模擬人腦進行分析學習的神經網路，它模仿人腦的機制來解釋資料，例如圖像，聲音和文本。

同機器學習方法一樣，深度機器學習方法也有監督學習與無監督學習之分。不同的學習框架下建立的學習模型很是不同。例如，卷積神經網路(Convolutional neural network，CNN)就是一種深度的監督學習下的機器學習模型，也可稱為基於深度學習的網路結構模型，是一類包含卷積計算且具有深度結構的前饋神經網路(Feedforward Neural Networks)，是深度學習的代表演算法之一。而深度置信網(Deep Belief Net，DBN)就是一種無監督學習下的機器學習模型。

下面對本申請實施例進行詳細介紹。

請參閱圖1，圖1是本申請實施例公開的一種圖像處理方法的流程示意圖，如圖1所示，該圖像處理方法包括如下步驟。

101、獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料。

本申請實施例中的圖像處理方法的執行主體可以是上述圖像處理裝置，例如，上述圖像處理方法可以由終端設備或伺服器或其它處理設備執行，其中，終端設備可以為使用者設備(User Equipment，UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該圖像處理方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。

其中，上述圖像幀可以為單幀圖像，可以是由圖像採集設備採集的圖像，比如終端設備的攝影頭拍攝的照片，或者是由視頻採集設備採集的視頻資料中的單幀圖像等，本申請實施例的具體實現不做限定。至少兩個上述圖像幀可組成上述圖像幀序列，其中，在視頻資料中的圖像幀可以按照時間順序依次排列。

本申請實施例中提到的單幀圖像，就是一副靜止的畫面，連續的幀就形成動畫效果，如視頻等。通常說的幀數，簡單地說就是在1秒鐘時間裡傳輸的圖片的幀數，也可以理解為圖形處理器每秒鐘能夠刷新幾次，通常用fps(Frames Per Second)表示。高的幀率可以得到更流暢、更逼真的動畫。

本申請實施例中提到的圖像的下採樣(subsampled)是針對縮小圖像的具體手段，也可以稱為或降採樣(downsampled)，其目的一般有兩個：1、使得圖像符合顯示區域的大小；2、生成對應圖像的下採樣圖。

可選的，上述圖像幀序列可以是通過下採樣之後獲得的圖像幀序列。即在對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊之前，可以通過對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得上述圖像幀序列。比如，在圖像或視頻超解析度處理中，可以先進行上述下採樣的步驟，而對於圖像去模糊的處理則可以不需要上述下採樣的步驟。

在圖像幀的對齊過程中，需要選擇至少一個圖像幀作為對齊處理的參考幀，其他圖像幀以及該參考幀本身向該參考幀對齊，為了方便描述，本申請實施例中將上述參考幀稱為待處理圖像幀，該待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀組成上述圖像幀序列。

其中，上述相鄰可以是連續的，也可以是間隔的，若待處理圖像幀記為t，其相鄰幀可以記為t-i或t+i。比如在一個視頻資料的按時序排列的圖像幀序列中，待處理圖像幀相鄰的圖像幀可以為該待處理圖像幀的前一幀和/或後一幀，也可以為從該待處理圖像幀向前數的第二幀和/或向後數的第二幀等。上述待處理圖像幀相鄰的圖像幀可以是一個、兩個、三個或者三個以上，本申請實施例對此不作限制。

具體的，可以對上述待處理圖像幀與該圖像幀序列中的圖像幀進行圖像對齊，即將該圖像幀序列中的圖像幀(需要注意的是，可以包括該待處理圖像幀)分別和該待處理圖像幀進行圖像對齊，得到上述多個對齊特徵資料。

在一種可選的實施方式中，可以基於第一圖像特徵集以及一個或多個第二圖像特徵集，對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，其中，上述第一圖像特徵集包含上述待處理圖像幀的至少一個不同尺度的特徵資料，上述第二圖像特徵集包含上述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料。

具體的，對於圖像幀序列中的圖像幀，在進行特徵提取後可以獲得上述圖像幀的特徵資料。進一步的，可以獲得上述圖像幀的不同尺度的特徵資料，組成圖像特徵集。

對上述圖像幀進行卷積計算，可以獲得該圖像幀的不同尺度的特徵資料。

在本申請實施例中，可以獲得每個圖像幀的多個不同尺度的特徵資料，比如，一個第二圖像特徵集可以包含該一個圖像幀兩個不同尺度的特徵資料，本申請實施例對此不做限制。

為方便描述，上述待處理圖像幀的至少一個不同尺度的特徵資料(可稱為第一特徵資料)組成上述第一圖像特徵集，而上述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料(可稱為第二特徵資料)組成上述第二圖像特徵集，由於上述圖像幀序列中可以包含多個圖像幀，即可以有多個第二圖像特徵集。進而，可以基於第一圖像特徵集以及一個或多個第二圖像特徵集，進行圖像對齊。

具體的，基於全部上述第二圖像特徵集與第一圖像特徵集進行圖像對齊，可以獲得上述多個對齊特徵資料，即待處理圖像幀對應的圖像特徵集和圖像幀序列中的每個圖像幀對應的圖像特徵集進行對齊處理，獲得相應的多個對齊特徵資料，並且需要注意的是其中也包括了第一圖像特徵集與第一圖像特徵集的對齊。基於第一圖像特徵集以及一個或多個第二圖像特徵集，進行圖像對齊的具體方法見後續描述。

在一種可選的實施方式中，上述第一圖像特徵集和第二圖像特徵集中的特徵資料可以根據尺度從小到大排列組成金字塔結構。

本申請實施例中提到的圖像金字塔是圖像多尺度表達的一種，是一種以多解析度來解釋圖像的有效但概念簡單的結構。一幅圖像的金字塔是一系列以金字塔形狀排列的解析度逐步降低，且來源於同一張原始圖的圖像集合。對於本申請實施例中的圖像特徵資料，其可以通過梯次向下採樣卷積獲得，直到達到某個終止條件才停止。我們將一層一層的圖像特徵資料比喻成金字塔，層級越高，則尺度越小。

在同一尺度上的第一特徵資料和第二特徵資料的對齊結果，還可以用於其他尺度上進行圖像對齊時的參考和調整，通過不同尺度上層層對齊，可以獲得該待處理圖像幀和上述圖像幀序列中的任一圖像幀的對齊特徵資料，可以對每個圖像幀和待處理圖像幀執行上述對齊處理過程，從而獲得上述多個對齊特徵資料，獲得的上述對齊特徵資料的數量和圖像幀序列中圖像幀的數量一致。

進一步可選的，上述基於第一圖像特徵集以及一個或多個第二圖像特徵集，對上述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，可以包括：獲取上述第一圖像特徵集中尺度最小的第一特徵資料，以及上述第二圖像特徵集中與上述第一特徵資料的尺度相同的第二特徵資料，將上述第一特徵資料和上述第二特徵資料進行圖像對齊，獲得第一對齊特徵資料；獲取上述第一圖像特徵集中尺度第二小的第三特徵資料，以及上述第二圖像特徵集中與上述第三特徵資料的尺度相同的第四特徵資料；對上述第一對齊特徵進行上採樣卷積，獲得與上述第三特徵資料的尺度相同的第一對齊特徵資料；基於上述的上採樣卷積後的第一對齊特徵資料，將上述第三特徵資料和上述第四特徵資料進行圖像對齊，獲得第二對齊特徵資料；依據上述尺度由小到大的順序執行上述步驟，直到獲得與上述待處理圖像幀的尺度相同的一個對齊特徵資料；基於全部上述第二圖像特徵集執行上述步驟以獲得上述多個對齊特徵資料。

對於輸入的任意兩幀圖像圖，直接的目標為將其中一幀往另外一幀上對齊。上述過程主要以待處理圖像幀和圖像幀序列中的任一圖像幀進行描述，即基於第一圖像特徵集以及任一個第二圖像特徵集進行圖像對齊。具體的，可以從最小的尺度開始，依次對第一特徵資料和第二特徵資料進行對齊。

具體來講，對於上述每一圖像幀的特徵資料，可以在小的尺度上進行對齊後，再放大(可以通過上述的上採樣卷積實現)，在一個相對更大的尺度上進行對齊，對待處理圖像幀和圖像幀序列中每個圖像幀分別執行上述對齊處理，從而可獲得多個上述對齊特徵資料。在上述過程中，每一級對齊的結果可以通過上採樣卷積放大後輸入到上一級(更大尺度)，再用於該尺度的第一特徵資料和第二特徵資料對齊。通過上述一層層逐漸地對齊調整，可以提高圖像對齊的準確度，更好地解決在複雜運動和模糊情況下的圖像對齊任務。

其中，對齊次數可以決定於圖像幀的特徵資料的數量，即可以執行對齊操作直到獲得與待處理圖像幀的尺度相同的一個對齊特徵資料為止，基於全部上述第二圖像特徵集執行上述步驟可以獲得上述多個對齊特徵資料，即待處理圖像幀對應的圖像特徵集和圖像幀序列中的每個圖像幀對應的圖像特徵集按照上述描述進行對齊，獲得相應的多個對齊特徵資料，並且需要注意的是其中也包括了第一圖像特徵集與第一圖像特徵集的對齊。本申請實施例對特徵資料的尺度以及不同尺度的數量不作限制，即對上述對齊操作的層數(次數)也不做限制。

可選的，可以基於可變形卷積網路調整每個上述對齊特徵資料，獲得上述調整後的上述多個對齊特徵資料。

在一種可選的實施方式中，基於可變形卷積網路(Deformable Convolutional Networks，DCN)調整每個上述對齊特徵資料，獲得上述調整後的上述多個對齊特徵資料。在上述金字塔結構之後，可以使用一個額外的級聯的可變形卷積網路來進一步調整獲得的對齊特徵資料，在本申請實施例中的多幀對齊方式的基礎上，進一步精細化調整對齊的結果，可以使得圖像對齊的精度得到進一步地提升。

102、基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊。

具體的，圖像相似度計算主要用於對於兩幅圖像之間內容的相似程度進行打分，根據分數的高低來判斷圖像內容的相近程度。本申請實施例中對於相似度特徵的計算可以通過神經網路實現。可選的，可以使用基於圖像特徵點的圖像相似度演算法；也可以將圖像抽象為幾個特徵值，比如Trace變換、圖像雜湊或者Sift特徵向量等等，再根據上述對齊特徵資料進行特徵匹配來提高效率，本申請實施例對此不做限制。

在一種可選的實施方式中，可以通過點乘每個上述對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料，確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。

通過上述多個對齊特徵資料與待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，可以分別確定上述每個對齊特徵資料的權重資訊，其中，上述權重資訊可以表示在全部對齊特徵資料中不同幀的不同重要性，可以理解為，依據其相似度的高低確定不同圖像幀的重要程度。

具體的，一般可以理解為，相似度越高權重越大，即表示該圖像幀與該待處理圖像幀的對齊中可以提供的特徵資訊的重合度越高，對於之後的多幀融合和重建更重要。

在一種可選的實施方式中，上述對齊特徵資料的權重資訊可以包括權重值，對權重值的計算方法可以基於對齊特徵資料利用預設演算法或者預設神經網路實現，其中對於任意兩個對齊特徵資料可以使用向量的點乘(dot product)進行權重資訊的計算。可選的，可以通過計算獲得預設範圍內的權重值，通常權重值越高表示該對齊特徵資料在全部幀中越重要，即需要保留，權重值越低表示該對齊特徵資料在全部幀中重要性較低，相對待處理圖像幀可能有誤差、遮擋元素或者對齊階段效果不佳等，可以選擇忽略，本申請實施例對此不作限制。

本申請實施例中的多幀融合可以基於注意力機制(Attention Mechanism)實現，本申請實施例提到的注意力機制源於對人類視覺的研究。在認知科學中，由於資訊處理的瓶頸，人類會選擇性地關注所有資訊的一部分，同時忽略其他可見的資訊，上述機制通常被稱為注意力機制。人類視網膜不同的部位具有不同程度的資訊處理能力，即敏銳度(Acuity)，只有視網膜中央凹部位具有最強的敏銳度。為了合理利用有限的視覺資訊處理資源，人類需要選擇視覺區域中的特定部分，然後集中關注它。例如，人們在閱讀時，通常只有少量要被讀取的詞會被關注和處理。綜上，注意力機制主要有兩個方面：決定需要關注輸入的哪部分；分配有限的資訊處理資源給重要的部分。

幀間時間關係和幀內空間關係在多幀融合中至關重要，因為：由於遮擋、模糊區域和視差等問題，不同相鄰幀的信息量不盡相同；之前多幀對齊階段可能產生的錯位和不對齊對後續重建性能產生不利影響。因此，在像素級動態地聚集相鄰幀對於有效的多幀融合是必不可少的。本申請實施例中，時間注意的目標是計算嵌入空間中的幀的相似性，直觀地說，對每一對齊特徵資料，其相鄰幀也應該受到更多的關注。通過上述基於時間和空間注意力機制的多幀融合方式，可以挖掘不同幀包含的不同資訊，可以改善一般的多幀融合方案中，未考慮多幀之間包含的資訊不同的問題。

在確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊之後，可以執行步驟103。

103、根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊，上述融合資訊用於獲取與上述待處理圖像幀對應的處理後圖像幀。

根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，即考慮了不同圖像幀的對齊特徵資料之間的差異性和重要程度，依據權重資訊可以調整這些對齊特徵資料在融合時的比例，能夠有效解決多幀融合問題，挖掘不同幀包含的不同資訊，糾正前對齊階段的未完美對齊的情況。

在一種可選的實施方式中，可以利用融合卷積網路根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

在一種可選的實施方式中，可以以元素級乘法將上述每個對齊特徵資料與上述每個對齊特徵資料的權重資訊相乘，獲得上述多個對齊特徵資料的多個調製特徵資料；再利用上述融合卷積網路對上述多個調製特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

可以將時間注意力映射(即使用上述權重資訊)以像素級的方式對應地乘以前述獲得的對齊特徵資料，上述權重資訊調製的對齊特徵資料，稱為上述調製特徵資料。再採用融合卷積網路來聚集上述多個調製特徵資料，獲得上述圖像幀序列的融合資訊。

可選的，該方法還包括：根據上述圖像幀序列的融合資訊，獲取與上述待處理圖像幀對應的處理後圖像幀。

通過上述方法可以獲得圖像幀序列的融合資訊，進而可以根據上述融合資訊來進行圖像重建，獲得與上述待處理圖像幀對應的處理後圖像幀，通常可以恢復出一個高品質幀，實現圖像復原。可選的，可以對多個待處理圖像幀進行上述圖像處理，獲得處理後的圖像幀序列，其中包括多個上述處理後圖像幀，即可以組成視頻資料，達到視頻復原的效果。

本申請實施例提供了一個統一的能夠有效解決多種視頻復原問題的框架，包括但不限於視頻超解析度、視頻去模糊、視頻去噪等。可選的，本申請實施例提出的圖像處理方法具有廣泛性，能夠用於多種圖像處理場景，比如人臉圖像的對齊處理中，也可以結合其他涉及到視頻資料和圖像處理的技術中，本申請實施例不做限制。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

在本申請實施例中，可以獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，再基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊，根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，可以獲得上述圖像幀序列的融合資訊，上述融合資訊可以用於獲取與上述待處理圖像幀對應的處理後圖像幀，在不同尺度上的對齊增加了圖像對齊的精度，並且依據權重資訊的多幀融合考慮了不同圖像幀的對齊特徵資料之間的差異性和重要程度，能夠有效解決多幀融合問題，挖掘不同幀包含的不同資訊，糾正前對齊階段的未完美對齊的情況，從而可以大大提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

請參閱圖2，圖2是本申請實施例公開的另一種圖像處理方法的流程示意圖，圖2是在圖1的基礎上進一步優化得到的。執行本申請實施例步驟的主體可以為前述的一種圖像處理裝置。如圖2所示，該圖像處理方法包括如下步驟。

201、對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得圖像幀序列。

本申請實施例中的圖像處理方法的執行主體可以是上述圖像處理裝置，例如，圖像處理方法可以由終端設備或伺服器或其它處理設備執行，其中，終端設備可以為使用者設備(User Equipment，UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該圖像處理方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。

其中，上述圖像幀可以為單幀圖像，可以是圖像採集設備採集的圖像，比如終端設備的攝影頭拍攝的照片，或者通過視頻採集設備採集的視頻資料中的單幀圖像，可以組成上述視頻序列，本申請實施例的具體實現不做限定。通過上述下採樣可以獲得解析度更低的圖像幀，便於提高後續圖像對齊的精度。

可選的，可以以預設時間間隔依次提取上述視頻資料中的多個圖像幀，組成上述視頻序列。上述提取的圖像幀的數量可以為預設數量，通常可以為單數，比如5幀，便於選取其中一幀為待處理圖像幀進行對齊操作。其中，在視頻資料中截取的視頻幀可以按照時間順序依次排列。

與圖1所示實施中所述類似的，對於上述圖像幀進行特徵提取後獲得的特徵資料，在金字塔結構中，可以使用卷積濾波器將(L-1)層級上的特徵資料下採樣卷積，獲得L層級的特徵資料，而對於上述L層級的特徵資料，可以分別用上(L+1)層級的特徵資料進行對齊預測，不過在預測之前需要對(L+1)層級的特徵資料進行上採樣卷積，使與L層級的特徵資料尺度相同。

在一種可選的實施方式中，可以使用三層金字塔結構，即L=3，上述舉出的一種實現是為了降低計算成本，可選的，也可以隨著空間大小的減小而增加通道數，本申請實施例對此不做限制。

202、獲取上述圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料。

對於輸入的任意兩幀圖像，直接的目標為將其中一幀往另外一幀上對齊，則在上述圖像幀序列中可以選擇至少一幀圖像作為參考的待處理圖像幀，將上述待處理圖像幀的第一特徵集合與該圖像幀序列中的每個圖像幀進行對齊，獲得多個對齊特徵資料。比如，上述提取的圖像幀的數量可以為5幀，便選取處於中間的第三幀為待處理圖像幀進行對齊操作。進一步舉例來說，在實際應用中，對於視頻資料，即包含多幀視頻幀的圖像幀序列，可以以相同的時間間隔抽取連續的5幀圖像，每5幀圖像的中間幀作為這5幀圖像對齊的參考幀，即該序列中的待處理圖像幀。

其中，上述步驟202中多幀對齊的方法可以參考圖1所示實施例中的步驟102，此處不再贅述。

具體的，上述步驟102主要描述了金字塔結構、採樣處理過程和對齊處理的細節，以其中一個圖像幀X為待處理圖像幀，由該圖像幀X獲得的不同尺度的特徵資料a和特徵資料b為例，a的尺度小於b的尺度，即a在金字塔結構中可以在b的下一層級；為方便表述，選擇圖像幀序列中的一個圖像幀Y(也可以為待處理圖像幀)，Y經過相同的處理獲得的特徵資料可以包含不同尺度的特徵資料c和特徵資料d，c的尺度小於d的尺度，並且a與c、b與d的尺度分別相同。此時可以將兩個小尺度的a與c進行對齊，獲得對齊特徵資料M；再對對齊特徵資料M進行上採樣卷積，獲得放大後的對齊特徵資料M，用於更大一尺度的b和d的對齊，在b和d所在的層級可以獲得對齊特徵資料N。以此類推，對於圖像幀序列中的圖像幀，可以對每個圖像幀進行上述過程的對齊處理，獲得多個上述圖像幀相對於待處理圖像幀的對齊特徵資料。比如5幀圖像，可以分別獲得基於上述待處理圖像幀對齊的5個對齊特徵資料，即其中包括待處理圖像幀自身的對齊結果。

在一種可選的實施方式中，上述對齊操作可以由帶有金字塔(Pyramid)、級聯(Cascading)和變形卷積 (Deformable convolution)的對齊模組實現，可以簡稱為PCD對齊模組。

再具體的，可以參考如圖3所示的一種對齊處理結構示意圖，圖3中包括了圖像處理方法中的對齊處理時的金字塔結構和級聯精細化示意，圖像t和t+i表示輸入的圖像幀。

見圖3中虛線A1和A2所示，可以先使用卷積濾波器將(L-1)層級上的特徵(feature)下採樣卷積，獲得L層級的特徵，而對於上述L層級，偏移量o和對齊特徵也可以分別用上(L+1)層級的上採樣卷積的偏移量o和對齊特徵進行預測(如圖3中虛線B1~B4)：

與基於光流的方法不同，本申請實施例對每個幀的特徵採用可變形對齊，以F _t+i，i

[-N：+N]表示，可以理解為F _t+i表示圖像幀t+i的特徵資料，F _t表示圖像幀t的特徵資料，通常看作上述待處理圖像幀。其中，

和

分別為L層級和(L+1)層級的偏移量(offset)。

和

分別為L層級和(L+1)層級的對齊特徵資料。(．)↑s指的是因數s的提升，DConv是上述可變形卷積D；g是一個具有多個卷積層的廣義函數；可以採用雙線性插值實現×2的上採樣卷積。該示意圖中使用的是三層金字塔，即L=3。

圖像中的c可以理解為嵌入(concat)函數，用於矩陣的合併與圖像的拼接。

在金字塔結構之後，可以級聯一個額外的可變形卷積用於對齊調整，以進一步細化初步對齊的特徵(圖3中帶有陰影背景的部分)。PCD對齊模組可以這種粗到細的方式提高了亞像素精度的圖像對齊。

上述PCD對齊模組可以與整個網路框架一起學習，而無需額外的監督或對其他任務如光流(optical flow)進行預培訓。

可選的，本申請實施例中的圖像處理方法可以根據不同任務，設置和調整上述對齊模組的功能，對於對齊模組的輸入可以為下採樣後的圖像幀，對齊模組可以直接執行該圖像處理方法的對齊處理；也可以是在對齊模組裡對齊前進行下採樣處理，即對齊模組的輸入先進行下採樣，獲得上述下採樣後的圖像幀之後再進行對齊處理。比如，圖像或上述視頻超解析度即可以為前述第一種的情況，而視頻去模糊和視頻去噪可以為前述第二種情況。本申請實施例對此不做限制。

可選的，在進行對齊處理之前，該方法還包括：對上述圖像幀序列中的圖像幀進行去模糊處理。

不同原因導致的圖像模糊往往需要不同的處理方法，本申請實施例中的去模糊處理可以是任意圖像增強、圖像復原和/或超解析度重構方法。通過去模糊處理使本申請中的圖像處理方法可以更準確地進行對齊和融合處理。

203、基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。

其中，上述步驟203可以參考圖1所示的實施例中步驟102的具體描述，此處不再贅述。

204、利用預設激勵函數和上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定上述每個對齊特徵資料的權重資訊。

本申請實施例中提到的激勵函數(Activation Function)，就是在人工神經網路的神經元上運行的函數，負責將神經元的輸入映射到輸出端。在神經網路中激勵函數給神經元引入了非線性因素，使得神經網路可以任意逼近任何非線性函數，這樣神經網路就可以應用到眾多的非線性模型中。可選的，上述預設激勵函數可以為Sigmoid函數。

Sigmoid函數是一個在生物學中常見的S型函數，也稱為S型生長曲線。在資訊科學中，由於其單增以及反函數單增等性質，Sigmoid函數常被用作神經網路的閾值函數，將變數映射到0,1之間。

在一種可選的實施方式中，對於輸入的每個幀i

[-n：+n]，可以以相似距離h做為上述權重資訊進行參考，h可以計算為：

其中

和

可以理解為兩個嵌入(embedding)，可以通過簡單的卷積濾波器實現，使用Sigmid函數用於限制輸出結果的範圍處於[0，1]中，即權重值可以為0~1以內的數值，基於穩定梯度反向傳播實現。使用上述權重值進行的對齊特徵資料調製可以是通過兩個預設閾值判斷的，其預設閾值的取值範圍可以為(0，1)，比如權重值小於預設閾值的對齊特徵資料可以忽略，保留權重值大於上述預設閾值的對齊特徵資料。即根據權重值篩選和表示上述對齊特徵資料的重要程度，便於進行合理化的多幀融合和重建。

其中，上述步驟204還可以參考圖1所示的實施例中步驟102的具體描述，此處不再贅述。

在確定上述每個對齊特徵資料的權重資訊之後，可以執行步驟205。

205、利用融合卷積網路根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

上述圖像幀的融合資訊可以理解為圖像幀的不同空間位置和不同特徵通道上的資訊。

在一種可選的實施方式中，可以以元素級乘法將上述每個對齊特徵資料與上述每個對齊特徵資料的權重資訊相乘，獲得上述多個對齊特徵資料的多個調製特徵資料；利用上述融合卷積網路對上述多個調製特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

上述元素級乘法可以理解為對齊特徵資料中精確到像素點的乘法運算。可以將每個對齊特徵資料的權重資訊對應乘在對齊特徵資料中的像素點上進行特徵調製，分別獲得上述多個調製特徵資料。

在一種可選的實施方式中，可以根據上述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法對應調製上述空間特徵資料中的上述每個元素點，獲得上述調製後的融合資訊。

其中上述空間注意力資訊表示空間上的點與周圍點的關係，即上述空間特徵資料中每個元素點的空間注意力資訊表示在該空間特徵資料中該元素點與周圍元素點的關係，類似於空間上的權重資訊，可以反映該元素點的重要程度。

基於空間注意力機制，根據上述空間特徵資料中每個元素點的空間注意力資訊，可以以元素級乘法和加法對應調製上述空間特徵資料中的上述每個元素點。

其中，上述步驟205還可以參考圖1所示實施例中步驟103的具體描述，此處不再贅述。

206、基於上述圖像幀序列的融合資訊生成空間特徵資料。

可以上述圖像幀序列的融合資訊生成空間上的特徵資料，即上述空間特徵資料，具體可以為空間注意力掩膜(masks)。

本申請實施例中，圖像處理中的掩膜(Masks)可以用於提取感興趣區：用預先製作的感興趣區掩膜與待處理圖像相乘，得到感興趣區圖像，感興趣區內圖像值保持不變，而區外圖像值都為0；還可以用於遮罩作用：用掩膜對圖像上某些區域作遮罩，使其不參加處理或不參加處理參數的計算，或僅對遮罩區作處理或統計。

可選的，仍然可以採用上述金字塔結構的設計，以增加空間注意力接受範圍。

207、基於上述空間特徵資料中每個元素點的空間注意力資訊調製上述空間特徵資料，獲得調製後的融合資訊，上述調製後的融合資訊用於獲取與上述待處理圖像幀對應的處理後圖像幀。

具體的，可以根據上述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法(element-wise multiplication and addition)對應調製上述空間特徵資料中的每個元素點，從而獲得上述調製後的融合資訊。

在一種可選的實施方式中，上述融合操作可以由具有時間和空間注意力(Temporal and Spatial Attention)的融合模組實現，可以簡稱為TSA融合模組。

具體的，可以參見圖4所示的多幀融合示意圖，如圖4所示的融合過程可以在圖3所示的對齊模組之後執行。其中t-1，t，t+1分別表示相鄰的連續三幀特徵，即前述獲得的對齊特徵資料，D表示上述可變形卷積，S表示上述Sigmoid函數，以特徵t+1為例，可以通過可變形卷積D和點積計算特徵t+1相對於特徵t的權重資訊t+1。再以像素的方式(元素級乘法)將上述權重資訊(時間注意力資訊)映射乘以原始的對齊特徵資料

，比如特徵t+1對應使用權重資訊t+1進行調製。可以採用圖中所示的融合卷積網路來聚集上述調製後的對齊特徵資料

，然後可以根據融合特徵資料計算空間特徵資料，即可以是空間注意力掩膜(masks)。在此之後，空間特徵資料可以基於其中每個像素的空間注意力資訊通過元素級乘法和加法進行調製，最終可以獲得上述調製後的融合資訊。

根據前述步驟204中的舉例進行進一步的舉例說明，上述融合過程可以表示為：

其中˙和[．，．，．]分別表示元素級乘法和級聯。

圖4中空間特徵資料的調製為金字塔結構，見圖中立方體1~5，對獲得的空間特徵資料1進行兩次下採樣卷積，分別獲得更小尺度的兩個空間特徵資料2和3，再對最小的空間特徵資料3進行上採樣卷積後，和空間特徵資料2進行元素級加法，獲得與空間特徵資料2相同尺度的空間特徵資料4，繼續對空間特徵資料4進行上採樣卷積後，與空間特徵資料1進行元素級乘法，獲得的結果再與上採樣卷積後的空間特徵資料進行元素級加法，獲得與空間特徵資料1相同尺度的空間特徵資料5，即上述調製後的融合資訊。

本申請實施例對上述金字塔結構的層數不作限制，上述方法在不同尺度的空間特徵上進行，能夠進一步挖掘不同空間位置上的資訊，獲得品質更高、更準確的融合資訊。

進一步可選的，可以根據上述調製後的融合資訊來進行圖像重建，獲得與上述待處理圖像幀對應的處理後圖像幀，通常可以恢復出一個高品質幀，實現圖像復原。

在通過上述融合資訊進行圖像重建，獲得高品質幀之後，還可以進行圖像的上採樣，將圖像恢復到處理前的相同大小。本申請實施例中對圖像的上採樣(upsampling)或稱為或圖像插值(interpolating)，其主要目的是放大原圖像，從而可以以更高解析度顯示，而前述上採樣卷積主要是為了改變針對圖像特徵資料和對齊特徵資料的尺度大小。可選的，採樣方式可以有多種，如最近鄰插值、雙線性插值、均值插值、中值插值等方法，本申請實施例對此不作限制。具體的應用可以參見圖5及其相關描述。

在一種可選的實施方式中，在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於預設閾值的情況下，依次通過本申請實施例的圖像處理方法中的步驟對上述圖像幀序列中的每一圖像幀進行處理，得到處理後的圖像幀序列；輸出和/或顯示由上述處理後的圖像幀序列構成的第二視頻流。

可以對視頻採集設備採集到的視頻流中的圖像幀進行處理，具體的，圖像處理裝置可以儲存有上述預設閾值，在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於上述預設閾值的情況下，基於本申請實施例的圖像處理方法中的步驟，對上述圖像幀序列中的每一圖像幀進行處理，從而可以獲得對應的處理後的多個圖像幀，組成上述處理後的圖像幀序列。

進一步地，可以輸出和/或顯示由上述處理後的圖像幀序列構成的第二視頻流，提高了視頻資料中的圖像幀品質，達到視頻復原、視頻超解析度的效果。

在一種可選的實施方式中，上述圖像處理方法基於神經網路實現；上述神經網路利用包含多個樣本圖像幀對的資料集訓練獲得，上述樣本圖像幀對包含多個第一樣本圖像幀以及與上述多個第一樣本圖像幀分別對應的第二樣本圖像幀，上述第一樣本圖像幀的解析度低於上述第二樣本圖像幀的解析度。

可以通過訓練後的神經網路，完成輸入圖像幀序列、輸出融合資訊，以及可以獲取上述處理後圖像幀的圖像處理過程。本申請實施例中的神經網路不需要額外的人工標注，僅需要上述樣本圖像幀對，在訓練時，可以基於上述第一樣本圖像幀、以上述第二樣本圖像幀為目標進行訓練。比如訓練的資料集可以包括相對高清和低清的樣本圖像幀對(pair)，或者有模糊(blur)和沒有模糊的樣本圖像幀對等，上述樣本圖像幀對在採集資料時都是可以控制的，本申請實施例不做限制。可選的，上述資料集可以採用已公開的REDS資料集、vimeo90資料集等。

本申請實施例提供了一個統一的能夠有效解決多種視頻復原問題的框架，包括但不限於視頻超解析度、視頻去模糊、視頻去噪等。

具體的，可以參見圖5所示的視頻復原框架示意圖，如圖5所示，對於待處理的視頻資料中的圖像幀序列，以神經網路實現圖像處理。以視頻超解析度為例，視頻超解析度通常為獲取輸入的多個低解析度幀，得到上述多個低解析度幀的一系列圖像特徵，生成多個高解析度幀輸出。比如可以2N+1低解析度幀作為輸入，生成高解析度幀輸出，N為正整數。圖中以t-1，t，和t+1相鄰三幀為輸入示意，先通過與去模糊模組進行去模糊處理，依次輸入PCD對齊模組和TSA融合模組執行本申請實施例中的圖像處理方法，即均與相鄰幀進行多幀對齊和融合，最後獲得融合資訊，再輸入重建模組根據上述融合資訊獲取處理後的圖像幀，在網路的末端執行上採樣操作以增加空間大小。最後，將預測圖像殘差加入到原始圖像幀直接上採樣的圖像中，可以得到高解析度的幀。與目前的圖像/視頻復原處理的方式相同，上述相加是為了學習上述圖像殘差，這樣能夠加速訓練的收斂和效果。

對於具有高解析度輸入的其他任務，例如視頻去模糊，輸入幀首先使用跨步卷積層進行下採樣卷積，然後在低解析度空間進行大部分計算，大大節省了計算成本。最後通過上採樣會將特徵調整回原始輸入解析度。在對齊模組之前可以使用預去模糊模組來預處理模糊輸入並提高對齊精度。

可選的，本申請實施例提出的圖像處理方法具有廣泛性，能夠用於多種圖像處理場景，比如人臉圖像的對齊處理中，也可以結合其他涉及到視頻和圖像處理的技術中，本申請實施例不做限制。

本申請實施例提出的圖像處理方法可以組成基於增強可變形卷積網路的視頻復原系統，包含了上述的兩個核心模組。即提供了一個統一的能夠有效解決多種視頻復原問題的框架，包括但不限於視頻超解析度、視頻去模糊、視頻去噪等處理。

本申請實施例通過對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得圖像幀序列，獲取上述圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，再利用預設激勵函數和上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定上述每個對齊特徵資料的權重資訊，利用融合卷積網路根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊。然後基於上述圖像幀序列的融合資訊生成空間特徵資料，基於上述空間特徵資料中每個元素點的空間注意力資訊調製上述空間特徵資料，獲得調製後的融合資訊，上述調製後的融合資訊用於獲取與上述待處理圖像幀對應的處理後圖像幀。

本申請實施例中，上述對齊操作基於金字塔結構，級聯和可變形卷積實現，整個對齊模組可以是基於可變形卷積網路來隱式地估計運動來對齊的，它通過使用金字塔結構，在小尺度的輸入下先進行粗糙的對齊，然後將這個初步的結果輸入到更大的尺度下進行調整。這樣能夠有效解決複雜和過大的運動帶來的對齊挑戰。通過使用級聯的結構，對初步得到的結果進行進一步地微調，可使得對齊結果能夠達到更高的精度。使用上述對齊模組進行多幀對齊，能夠有效解決視頻復原中的對齊問題，特別是輸入幀中存在複雜和較大的運動，遮擋和模糊等情況。

上述融合操作基於時間和空間上的注意力機制。考慮到輸入的一系列幀包含的資訊不同，本身的運動情況、模糊狀況和對齊情況也不同，時間注意力機制能夠對不同幀不同區域的資訊給予不同的重要性程度。空間注意力機制能夠進一步挖掘空間上以及不同特徵通道之間的關係來提高效果。使用上述融合模組進行多幀對齊後的融合，能夠有效解決多幀的融合問題，挖掘不同幀包含的不同資訊，糾正前面對齊階段的未完美對齊情況。

綜上，本申請實施例中的圖像處理方法可以提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

上述主要從方法側執行過程的角度對本申請實施例的方案進行了介紹。可以理解的是，圖像處理裝置為了實現上述功能，其包含了執行各個功能相應的硬體結構和/或軟體模組。本領域技術人員應該很容易意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，本申請能夠以硬體或硬體和電腦軟體的結合形式來實現。某個功能究竟以硬體還是電腦軟體驅動硬體的方式來執行，取決於技術方案的特定應用和設計約束條件。專業技術人員可以對特定的應用使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請的範圍。

本申請實施例可以根據上述方法示例對圖像處理裝置進行功能單元的劃分，例如，可以對應各個功能劃分各個功能單元，也可以將兩個或兩個以上的功能集成在一個處理單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。需要說明的是，本申請實施例中對單元的劃分是示意性的，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

請參閱圖6，圖6是本申請實施例公開的一種圖像處理裝置的結構示意圖。如圖6所示，該圖像處理裝置300包括對齊模組310和融合模組320，其中：上述對齊模組310，用於獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料；上述融合模組320，用於基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊；上述融合模組320，還用於根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊，上述融合資訊用於獲取與上述待處理圖像幀對應的處理後圖像幀。

可選的，上述對齊模組310具體用於：基於第一圖像特徵集以及一個或多個第二圖像特徵集，對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，其中，上述第一圖像特徵集包含上述待處理圖像幀的至少一個不同尺度的特徵資料，上述第二圖像特徵集包含上述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料。

可選的，上述對齊模組310具體用於：獲取上述第一圖像特徵集中尺度最小的第一特徵資料，以及上述第二圖像特徵集中與上述第一特徵資料的尺度相同的第二特徵資料，將上述第一特徵資料和上述第二特徵資料進行圖像對齊，獲得第一對齊特徵資料；獲取上述第一圖像特徵集中尺度第二小的第三特徵資料，以及上述第二圖像特徵集中與上述第三特徵資料的尺度相同的第四特徵資料；對上述第一對齊特徵進行上採樣卷積，獲得與上述第三特徵資料的尺度相同的第一對齊特徵資料；基於上述上採樣卷積後的第一對齊特徵資料，將上述第三特徵資料和上述第四特徵資料進行圖像對齊，獲得第二對齊特徵資料；依據上述尺度由小到大的順序執行上述步驟，直到獲得與上述待處理圖像幀的尺度相同的一個對齊特徵資料；基於全部上述第二圖像特徵集執行上述步驟以獲得上述多個對齊特徵資料。

可選的，上述對齊模組310還用於，在得到多個對齊特徵資料之前，基於可變形卷積網路調整每個上述對齊特徵資料，獲得上述調整後的上述多個對齊特徵資料。

可選的，上述融合模組320具體用於：通過點乘每個上述對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料，確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。

可選的，上述融合模組320還具體用於：利用預設激勵函數和上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定上述每個對齊特徵資料的權重資訊。

可選的，上述融合模組320具體用於：利用融合卷積網路根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

可選的，上述融合模組320具體用於：以元素級乘法將上述每個對齊特徵資料與上述每個對齊特徵資料的權重資訊相乘，獲得上述多個對齊特徵資料的多個調製特徵資料；利用上述融合卷積網路對上述多個調製特徵資料進行融合，獲得上述圖像幀序列的融合資訊。

在一種可能的實施方式中，上述融合模組320包括空間單元321，用於：在上述融合模組320利用融合卷積網路根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，獲得上述圖像幀序列的融合資訊之後，基於上述圖像幀序列的融合資訊生成空間特徵資料；基於上述空間特徵資料中每個元素點的空間注意力資訊調製上述空間特徵資料，獲得調製後的融合資訊，上述調製後的融合資訊用於獲取與上述待處理圖像幀對應的處理後圖像幀。

可選的，上述空間單元321具體用於：根據上述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法對應調製上述空間特徵資料中的上述每個元素點，獲得上述調製後的融合資訊。

可選的，上述圖像處理裝置300中部署有神經網路；上述神經網路利用包含多個樣本圖像幀對的資料集訓練獲得，上述樣本圖像幀對包含多個第一樣本圖像幀以及與上述多個第一樣本圖像幀分別對應的第二樣本圖像幀，上述第一樣本圖像幀的解析度低於上述第二樣本圖像幀的解析度。

可選的，上述圖像處理裝置300還包括採樣模組330，用於：在獲取圖像幀序列之前，對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得上述圖像幀序列。

可選的，上述圖像處理裝置300還包括預處理模組340，用於：在對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊之前，對上述圖像幀序列中的圖像幀進行去模糊處理。

可選的，上述圖像處理裝置300還包括重建模組350，用於根據上述圖像幀序列的融合資訊，獲取與上述待處理圖像幀對應的處理後圖像幀。

使用本申請實施例中的圖像處理裝置300，可以實現前述圖1和圖2實施例中的圖像處理方法。

實施圖6所示的圖像處理裝置300，圖像處理裝置300可以獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，再基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊，根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，可以獲得上述圖像幀序列的融合資訊，上述融合資訊可以用於獲取與上述待處理圖像幀對應的處理後圖像幀，可以大大提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

請參閱圖7，圖7是本申請實施例公開的另一種圖像處理裝置的結構示意圖。該圖像處理裝置400包括：處理模組410和輸出模組420，其中：上述處理模組410，用於在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於預設閾值的情況下，依次圖1和/或圖2所示實施例方法中的任意步驟對上述圖像幀序列中的每一圖像幀進行處理，得到處理後的圖像幀序列；上述輸出模組420，用於輸出和/或顯示由上述處理後的圖像幀序列構成的第二視頻流。

實施圖7所示的圖像處理裝置400，圖像處理裝置400可以獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，再基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊，根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，可以獲得上述圖像幀序列的融合資訊，上述融合資訊可以用於獲取與上述待處理圖像幀對應的處理後圖像幀，可以大大提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

請參閱圖8，圖8是本申請實施例公開的一種電子設備的結構示意圖。如圖8所示，該電子設備500包括處理器501和記憶體502，其中，電子設備500還可以包括匯流排503，處理器501和記憶體502可以通過匯流排503相互連接，匯流排503可以是外設部件互連標準(Peripheral Component Interconnect，PCI)匯流排或延伸工業標準架構(Extended Industry Standard Architecture，EISA)匯流排等。匯流排503可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示，圖8中僅用一條粗線表示，但並不表示僅有一根匯流排或一種類型的匯流排。其中，電子設備500還可以包括輸入輸出設備504，輸入輸出設備504可以包括顯示幕，例如液晶顯示幕。記憶體502用於儲存電腦程式；處理器501用於調用儲存在記憶體502中的電腦程式執行上述圖1和圖2實施例中提到的部分或全部方法步驟。

實施圖8所示的電子設備500，電子設備500可以獲取圖像幀序列，上述圖像幀序列包括待處理圖像幀以及與上述待處理圖像幀相鄰的一個或多個圖像幀，並對上述待處理圖像幀與上述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，再基於上述多個對齊特徵資料確定上述多個對齊特徵資料與上述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於上述多個相似度特徵確定上述多個對齊特徵資料中每個對齊特徵資料的權重資訊，根據上述每個對齊特徵資料的權重資訊對上述多個對齊特徵資料進行融合，可以獲得上述圖像幀序列的融合資訊，上述融合資訊可以用於獲取與上述待處理圖像幀對應的處理後圖像幀，可以大大提升圖像處理中多幀對齊和融合的品質，增強圖像處理的顯示效果；並且可以實現圖像復原和視頻復原，增強了復原的準確度和復原效果。

本申請實施例還提供一種電腦儲存介質，其中，該電腦儲存介質用於儲存電腦程式，該電腦程式使得電腦執行如上述方法實施例中記載的任何一種圖像處理方法的部分或全部步驟。

需要說明的是，對於前述的各方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請並不受所描述的動作順序的限制，因為依據本申請，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於優選實施例，所涉及的動作和模組並不一定是本申請所必須的。

在上述實施例中，對各個實施例的描述都各有側重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關描述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的裝置，可通過其它的方式實現。例如，以上所描述的裝置實施例僅僅是示意性的，例如所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性或其它的形式。

所述作為分離部件說明的單元(模組)可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取記憶體中。基於這樣的理解，本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個記憶體中，包括若干指令用以使得一台電腦設備(可為個人電腦、伺服器或者網路設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的記憶體包括：U盤、唯讀記憶體(Read-Only Memory，ROM)、隨機存取記憶體(Random Access Memory，RAM)、移動硬碟、磁碟或者光碟等各種可以儲存程式碼的介質。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程式來指令相關的硬體來完成，該程式可以儲存於電腦可讀記憶體中，記憶體可以包括：快閃記憶體盤、唯讀記憶體、隨機存取器、磁片或光碟等。

以上對本申請實施例進行了詳細介紹，本文中應用了具體個例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

圖1代表圖為流程圖，無元件符號說明。

Claims

一種圖像處理方法，所述方法包括：獲取圖像幀序列，所述圖像幀序列包括待處理圖像幀以及與所述待處理圖像幀相鄰的一個或多個圖像幀，並對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料；基於所述多個對齊特徵資料確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，並基於所述多個相似度特徵確定所述多個對齊特徵資料中每個對齊特徵資料的權重資訊；根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊，所述融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀；根據所述圖像幀序列的融合資訊，獲取與所述待處理圖像幀對應的處理後圖像幀。
根據請求項1所述的圖像處理方法，所述對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料包括：基於第一圖像特徵集以及一個或多個第二圖像特徵集，對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料，其中，所述第一圖像特徵集包含所述待處理圖像幀的至少一個不同尺度的特徵資料，所述第二圖像特徵集包含所述圖像幀序列中的一個圖像幀的至少一個不同尺度的特徵資料。
根據請求項2所述的圖像處理方法，所述基於第一圖像特徵集以及一個或多個第二圖像特徵集，對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊，得到多個對齊特徵資料包括：獲取所述第一圖像特徵集中尺度最小的第一特徵資料，以及所述第二圖像特徵集中與所述第一特徵資料的尺度相同的第二特徵資料，將所述第一特徵資料和所述第二特徵資料進行圖像對齊，獲得第一對齊特徵資料；獲取所述第一圖像特徵集中尺度第二小的第三特徵資料，以及所述第二圖像特徵集中與所述第三特徵資料的尺度相同的第四特徵資料；對所述第一對齊特徵進行上採樣卷積，獲得與所述第三特徵資料的尺度相同的第一對齊特徵資料；基於所述上採樣卷積後的第一對齊特徵資料，將所述第三特徵資料和所述第四特徵資料進行圖像對齊，獲得第二對齊特徵資料；依據所述尺度由小到大的順序執行上述步驟，直到獲得與所述待處理圖像幀的尺度相同的一個對齊特徵資料；基於全部所述第二圖像特徵集執行上述步驟以獲得所述多個對齊特徵資料。
根據請求項3所述的圖像處理方法，所述得到多個對齊特徵資料之前，所述方法還包括：基於可變形卷積網路調整每個對齊特徵資料，獲得所述調整後的所述多個對齊特徵資料。
根據請求項1至4任一項所述的圖像處理方法，所述基於所述多個對齊特徵資料確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，包括：通過點乘每個所述對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料，確定所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵。
根據請求項5所述的圖像處理方法，所述基於所述多個相似度特徵確定所述多個對齊特徵資料中每個對齊特徵資料的權重資訊包括：利用預設激勵函數和所述多個對齊特徵資料與所述待處理圖像幀相應的對齊特徵資料之間的多個相似度特徵，確定所述每個對齊特徵資料的權重資訊。
根據請求項1至4任一項所述的圖像處理方法，所述根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊包括：利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊。
根據請求項7所述的圖像處理方法，所述利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊，包括：以元素級乘法將所述每個對齊特徵資料與所述每個對齊特徵資料的權重資訊相乘，獲得所述多個對齊特徵資料的多個調製特徵資料；利用所述融合卷積網路對所述多個調製特徵資料進行融合，獲得所述圖像幀序列的融合資訊。
根據請求項7所述的圖像處理方法，所述利用融合卷積網路根據所述每個對齊特徵資料的權重資訊對所述多個對齊特徵資料進行融合，獲得所述圖像幀序列的融合資訊之後，所述方法還包括：基於所述圖像幀序列的融合資訊生成空間特徵資料；基於所述空間特徵資料中每個元素點的空間注意力資訊調製所述空間特徵資料，獲得調製後的融合資訊，所述調製後的融合資訊用於獲取與所述待處理圖像幀對應的處理後圖像幀。
根據請求項9所述的圖像處理方法，所述基於所述空間特徵資料中每個元素點的空間注意力資訊調製所述空間特徵資料，獲得調製後的融合資訊包括：根據所述空間特徵資料中每個元素點的空間注意力資訊，以元素級乘法和加法對應調製所述空間特徵資料中的所述每個元素點，獲得所述調製後的融合資訊。
根據請求項1至4任一項所述的圖像處理方法，所述圖像處理方法基於神經網路實現；所述神經網路利用包含多個樣本圖像幀對的資料集訓練獲得，所述樣本圖像幀對包含多個第一樣本圖像幀以及與所述多個第一樣本圖像幀分別對應的第二樣本圖像幀，所述第一樣本圖像幀的解析度低於所述第二樣本圖像幀的解析度。
根據請求項1至4任一項所述的圖像處理方法，所述獲取圖像幀序列之前，所述方法還包括：對獲取到的視頻序列中的每個視頻幀進行下採樣，獲得所述圖像幀序列。
根據請求項1至4任一項所述的圖像處理方法，所述對所述待處理圖像幀與所述圖像幀序列中的圖像幀進行圖像對齊之前，所述方法還包括：對所述圖像幀序列中的圖像幀進行去模糊處理。
一種圖像處理方法，所述方法包括：在視頻採集設備採集到的第一視頻流中圖像幀序列的解析度小於或等於預設閾值的情況下，依次通過請求項1至13中任意一項所述的方法對所述圖像幀序列中的每一圖像幀進行處理，得到處理後的圖像幀序列；輸出和/或顯示由所述處理後的圖像幀序列構成的第二視頻流。
一種電子設備，包括處理器以及記憶體，所述記憶體用於儲存電腦程式，所述電腦程式被配置成由所述處理器執行，所述處理器用於執行如請求項1至14任一項所述的方法。
一種電腦可讀儲存介質，所述電腦可讀儲存介質用於儲存電腦程式，其中，所述電腦程式使得電腦執行如請求項1至14任一項所述的方法。