TWI822623B

TWI822623B - 影像復原方法與影像處理裝置

Info

Publication number: TWI822623B
Application number: TW112112922A
Authority: TW
Inventors: 方彥文; 謝秉瑾; 許志宏; 黃代鈞
Original assignee: 友達光電股份有限公司
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-11-11

Abstract

一種影像復原方法與影像處理裝置。所述方法包括下述步驟。將衰減影像輸入至用以擷取衰減特徵的第一神經網路，而獲得第一特徵矩陣。將衰減影像與第一特徵矩陣輸入至用以擷取高頻特徵的第二神經網路，而獲得第二特徵矩陣。將降取樣後的衰減影像與降取樣後的第一特徵矩陣輸入至用以擷取低頻特徵的第三神經網路，而獲得第三特徵矩陣。將第三特徵矩陣切分為第一子特徵矩陣與第二子特徵矩陣。將第二特徵矩陣與第一子特徵矩陣進行矩陣向量乘法，而獲得結果矩陣。將結果矩陣與第二子特徵矩陣進行特徵融合，而獲得清晰影像。

Description

影像復原方法與影像處理裝置

本發明是有關於一種影像處理技術，且特別是有關於一種基於神經網路的影像復原方法與影像處理裝置。

隨著智慧行動裝置的普及，在螢幕應用上推出了屏下鏡頭（under display camera，UDC）技術。即，將攝像頭放在顯示器下方。然，將攝像頭放在顯示面板的後方會使得影像擷取的品質不佳。例如，造成影像模糊、影像中出現星芒、彩虹紋等雜訊。

本發明提供一種影像復原方法與影像處理裝置，可有效地將衰減影像復原為清晰影像。

本發明的影像復原方法，透過一處理器來執行多個步驟，包括：將衰減影像輸入至用以擷取衰減特徵的第一神經網路，而獲得第一特徵矩陣；將衰減影像與第一特徵矩陣輸入至用以擷取高頻特徵的第二神經網路，而獲得第二特徵矩陣；將衰減影像與第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的第三神經網路，而獲得第三特徵矩陣；將第三特徵矩陣切分為第一子特徵矩陣與第二子特徵矩陣；將第二特徵矩陣與第一子特徵矩陣進行矩陣向量乘法，而獲得結果矩陣；以及將結果矩陣與第二子特徵矩陣進行特徵融合，而獲得清晰影像。

在本發明的一實施例中，將衰減影像與第一特徵矩陣輸入至用以擷取高頻特徵的該第二神經網路，而獲得第二特徵矩陣的步驟包括：將第一特徵矩陣加入至衰減影像而獲得第一增強影像；以及自第一增強影像進行高頻特徵擷取而獲得第二特徵矩陣。

在本發明的一實施例中，將衰減影像與第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的第三神經網路，而獲得第三特徵矩陣的步驟包括：對衰減影像降取樣而獲得降取樣影像；將第一特徵矩陣降取樣而獲得降取樣特徵矩陣；將降取樣特徵矩陣加入至降取樣影像而獲得第二增強影像；以及自第二增強影像進行低頻特徵擷取而獲得第三特徵矩陣。

在本發明的一實施例中，將衰減影像與第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的第三神經網路，而獲得第三特徵矩陣的步驟包括：對衰減影像降取樣而獲得降取樣影像；對降取樣影像執行模糊處理，而獲得模糊影像；將第一特徵矩陣降取樣而獲得降取樣特徵矩陣；將降取樣特徵矩陣加入至模糊影像而獲得第三增強影像；以及自第三增強影像進行低頻特徵擷取而獲得第三特徵矩陣。

在本發明的一實施例中，所述衰減影像是由設置在顯示面板的一側的影像感測器所獲取。

在本發明的一實施例中，在第一神經網路、第二神經網路以及第三神經網路的訓練階段，利用梯度下降（gradient descent）來調整第一神經網路、第二神經網路以及第三神經網路的參數，使得在訓練階段所使用的訓練用衰減影像以及所獲得的訓練用清晰影像兩者通過損失函數所獲得的值最小化。

本發明的影像復原方法，影像處理裝置包括儲存器以及處理器。儲存器包括：第一神經網路，經訓練而用以擷取衰減特徵；第二神經網路，經訓練而用以擷取高頻特徵；以及第三神經網路，經訓練而用以擷取低頻特徵。處理器耦接至儲存器，並經配置以執行所述影像復原方法。

基於上述，本揭露以第一神經網路所獲取的第一特徵矩陣（衰減特徵）來引導第二神經網路與第三神經網路進行特徵抽取，使得第二神經網路與第三神經網路能夠更有效地分別取出高頻特徵及低頻特徵，並結合高頻特徵與低頻特徵以得到更佳的影像還原效果。

圖1是依照本發明一實施例的影像處理裝置的方塊圖。請參照圖1，影像處理裝置100包括處理器110以及儲存器120。處理器110耦接至儲存器120。儲存器120包括第一神經網路N1、第二神經網路N2以及第三神經網路N3。

處理器110例如為中央處理單元（Central Processing Unit，CPU）、物理處理單元（Physics Processing Unit，PPU）、可程式化之微處理器（Microprocessor）、嵌入式控制晶片、數位訊號處理器（Digital Signal Processor，DSP）、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）或其他類似裝置。

儲存器120例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。資料收集模組121、第一神經網路N1、第二神經網路N2以及第三神經網路N3是由一或多個程式碼片段所組成，上述程式碼片段在被安裝後，會由處理器110來執行。

處理器110利用第一神經網路N1、第二神經網路N2以及第三神經網路N3針對衰減影像A進行影像處理，藉此來獲得清晰影像。

第一神經網路N1、第二神經網路N2以及第三神經網路N3為經過訓練的網路模型。在訓練階段，訓練第一神經網路N1用以截取衰減特徵，訓練第二神經網路N2用以擷取高頻特徵，訓練第三神經網路N3用以擷取低頻特徵。例如，低頻特徵代表影像中的相鄰區域之間的顏色緩慢地變化，即灰度相差小。高頻特徵代表影像中的相鄰區域之間灰度相差大。

在訓練階段，利用梯度下降（gradient descent）來調整第一神經網路N1、第二神經網路N2以及第三神經網路N3的參數，使得在訓練階段所使用的訓練用衰減影像以及所獲得的訓練用清晰影像兩者通過損失函數所獲得的值最小化，使得最終獲得的清晰影像能夠趨近未衰減的影像。

第一神經網路N1採用對比式學習。對比式學習著重於學習同類實例之間的共同特徵，區分非同類實例之間的不同之處。

在第二神經網路N2中，藉由衰減特徵進行引導，以在學習過程中學習自衰減影像A中擷取高頻特徵。據此，經訓練後的第二神經網路N2可辨別衰減影像A是何種類型的影像衰減，進而更有效地取出高頻特徵。

在第三神經網路N3中，藉由降取樣後的衰減特徵進行引導，以在學習過程中學習自降取樣後的衰減影像中擷取低頻特徵。由於經過降取樣（或降取樣加上模糊化）後的影像，會導致第三神經網路N3傾向抽取其中的低頻特徵。據此，經訓練後的第三神經網路N3可取得更佳的低頻特徵。

在一實施例中，所述處理器110與儲存器120可整合至智慧型手機、平板電腦等採用屏下鏡頭（Under-Display camera）技術的任意電子裝置內，如圖2A及圖2B所示。

圖2A及圖2B是依照本發明一實施例的採用屏下鏡頭技術的電子裝置的示意圖。在本實施例中，電子裝置200例如為智慧型手機、平板電腦等行動裝置。圖2A所示為電子裝置200的側面圖，圖2B所示為局部區域210放大示意圖。

請參照圖2A及圖2B，顯示面板10的第一側D1（即，電子裝置200的殼體外側）為前方，第二側D2為後方，影像感測器20設置在顯示面板10的第二側D2。顯示面板10例如為發光二極體（Light-Emitting Diode，LED）面板、有機發光二極體（Organic LED，OLED）面板、微型發光二極體（Micro LED，uLED）面板、透明有機發光二極體（Transparent OLED，TOLED）、塑膠有機發光二極體（Plastic OLED，POLED）、液晶顯示器（Liquid Crystal Display，LCD）等。

而顯示面板10以可採用玻璃、聚醯亞胺（polyimide，PI）等透明材質的陣列基板來構成。在顯示面板10的第二側D2設置影像感測器20。

影像感測器20例如為攝像頭，用以進行取像，並將所獲得的影像（即，衰減影像）傳送給處理器110來進行後續的影像復原流程。底下搭配上述影像處理裝置100來說明影像復原流程的各步驟。

圖3是依照本發明一實施例的影像復原方法的流程圖。圖4是依照本發明一實施例的第一～第三神經網路之間數據流程架構的示意圖。請同時參照圖1～圖4，本實施例經由處理器110來處理下述各步驟。

在步驟S305中，將衰減影像A輸入至用以擷取衰減特徵的第一神經網路N1，而獲得第一特徵矩陣410。即，經由經訓練的第一神經網路N1可自衰減影像A中擷取出造成影像衰減的一組衰減特徵，即第一特徵矩陣410。第一特徵矩陣410作為導引特徵組，用以引導第二神經網路N2與第三神經網路N3進行特徵擷取。

在此，第一特徵矩陣410是由多個特徵圖（feature map）組成。特徵圖的數量由第一神經網路N1的通道數來決定。並且，特徵圖的大小設定為與衰減影像A的寬度與長度相同。假設衰減影像A的寬度與長度分別為W與H，第一神經網路N1輸出的通道數為C1，則第一特徵矩陣410記為W×H×C1，其代表第一神經網路N1一共輸出C1張特徵圖，每一張特徵圖的大小為W×H。在此並不限定C1的大小。C1又稱為第一特徵矩陣410的深度。

在一實施例中，第一神經網路N1包括至少兩個卷積網路，其中一個作為輸入層，另一個作為輸出層，並且輸入層與輸出層之間設置有任意數量的轉換塊（transformer block）、激勵函數（activation function）等。轉換塊可採用任意的特徵編碼（feature encoding）方法或是影像編碼方法（image encoding）來實現，也可以採用其他卷積網路來替代轉換塊。在一實施例中，第一神經網路N1的輸入層的通道數設定為3，代表三個顏色（紅色、綠色、藍色）的通道。輸入的衰減影像A記為(H, W, 3)。

例如，第一神經網路N1將輸入的(H, W, 3)經由一次卷積將輸入的通道層擴大為3倍(H, W, 3C)，再由通道層分割成三等份(Q, K, V)=3×(H, W, C)，將Q、K正規化（normalize）後進行矩陣向量相乘在和V進行像素級的相乘（pixel wise multiplication）得到結果(H, W, C)後再經過一層卷積。在此僅為舉例說明，並不以此為限。

接著，在步驟S310中，將衰減影像A與第一特徵矩陣410輸入至用以擷取高頻特徵的第二神經網路N2，而獲得第二特徵矩陣420。在此，第二神經網路N2輸出的通道數為C2，且設定為其輸出的各特徵圖的大小同樣與衰減影像A的大小相同，故，第二特徵矩陣420記為W×H×C2。第二特徵矩陣420對應至影像I42，如圖4所示。由影像I42可以看出，邊緣特徵被判定為高頻特徵而擷取出來。

在一實施例中，第二神經網路N2包括至少分別接收第一特徵矩陣410與衰減影像A的輸入層以及一個輸出層，並且在輸入層與輸出層之間設置有任意數量的轉換塊、編碼器或激勵函數。在一實施例中，第二神經網路N2的輸出層的通道數設定為3，代表三個顏色（紅色、綠色、藍色）的通道。

例如，假設衰減影像A的寬度與長度分別為W與H，在第二神經網路N2中執行下述動作。首先，將第一特徵矩陣410加入至衰減影像A而獲得第一增強影像。在一實施例中，可利用像素級融合（pixel wise fusion）將第一特徵矩陣410加入至衰減影像A。所述像素級融合例如為像素級相加（pixel wise adding）或像素級級聯（pixel wise concatenate）。之後，自第一增強影像進行高頻特徵擷取而獲得第二特徵矩陣420。

在步驟S315中，將衰減影像A與第一特徵矩陣410兩者降取樣後輸入至用以擷取低頻特徵的第三神經網路N3，而獲得第三特徵矩陣430。在此，並不限定步驟S310與步驟S315的執行順序。例如，可先執行步驟S310，或者先執行步驟S315。另外，步驟S310與步驟S315也可以同時進行。

例如，假設衰減影像A的寬度與長度分別為W與H，第一特徵矩陣410的大小為W×H×12，在第三神經網路N3中執行下述動作。首先，以1/4的降取樣方式來降取樣衰減影像A，而獲得寬度與長度分別為W/4與H/4的降取樣影像A”。並且，以1/4的降取樣方式來降取樣第一特徵矩陣410，而獲得大小為W/4×H/4×12的降取樣特徵矩陣410”。接著，利用像素級融合（例如像素級相加或像素級級聯）將降取樣特徵矩陣410”加入至降取樣影像A”而獲得第二增強影像。之後，再自第二增強影像進行低頻特徵擷取而獲得第三特徵矩陣430。在此，第三神經網路N3輸出的通道數為C3，且設定為其輸出的各特徵圖的大小同樣與衰減影像A的大小相同，故，第三特徵矩陣430記為W×H×C3。第三特徵矩陣430對應至影像I43，如圖4所示。

在另一實施例中，在獲得降取樣影像A”之後，還可進一步對降取樣影像A”執行模糊處理，而獲得模糊影像。之後，將降取樣特徵矩陣410”加入至模糊影像而獲得第三增強影像。然後，自第三增強影像進行低頻特徵擷取而獲得第三特徵矩陣430。

在一實施例中，第三神經網路N3包括至少分別接收降取樣特徵矩陣410”與降取樣影像A”的輸入層以及一個輸出層，並且在輸入層與輸出層之間設置有任意數量的轉換塊、編碼器或激勵函數。在一實施例中，第三神經網路N3的輸出層的通道數C3的設定是基於第二神經網路N2輸出的通道數為C2而決定。例如，C3=C2×3+C2。在C2=3的情況下，C3設定為12。

在獲得第三特徵矩陣430之後，在步驟S320中，將第三特徵矩陣430切分為第一子特徵矩陣430-1與第二子特徵矩陣430-2。在一實施例中，可根據第二特徵矩陣420的通道數，以通道的排列順序進行切分。例如，假設第三特徵矩陣430的通道數為3，則可將前9個通道的特徵圖組成第一子特徵矩陣430-1，將後3個通道的特徵圖組成第二子特徵矩陣430-2。或者，可將後9個通道的特徵圖組成第一子特徵矩陣430-1，將前3個通道的特徵圖組成第二子特徵矩陣430-2。

之後，在步驟S325中，將第二特徵矩陣420與第一子特徵矩陣430-1進行矩陣向量乘法（element wise matrix-vector multiplication），而獲得結果矩陣440。接著，在步驟S330中，將結果矩陣440與第二子特徵矩陣430-2進行特徵融合，而獲得清晰影像B。例如，利用元素級相加（element wise adding）來融合結果矩陣440與第二子特徵矩陣430-2。

在一實施例中，假設第二特徵矩陣420為W×H×3，第三特徵矩陣430為W×H×12，則將第三特徵矩陣430的前9個通道的特徵圖做為第一子特徵矩陣430-1（W×H×9），將後3個通道的特徵圖做為第二子特徵矩陣430-2（W×H×3）。

在進行元素級的矩陣向量乘法的過程中，將W×H×3的第二特徵矩陣420為重構（reshape）為W×H×1×3的第一重構矩陣。並且，將W×H×9的第一子特徵矩陣430-1重構為W×H×3×3的第二重構矩陣。接著，將W×H×1×3的第一重構矩陣與W×H×3×3的第二重構矩陣進行矩陣向量乘法，獲得W×H×3×1的矩陣。再將W×H×3×1的矩陣重構為W×H×3的結果矩陣440。之後，便可對W×H×3的結果矩陣440與W×H×3的第一子特徵矩陣430-1執行像素相加，而獲得W×H×3的清晰影像B。

底下以圖5～圖7來說明第一神經網路N1～第三神經網路N3的可實施架構，然，並不以此為限。圖5是依照本發明一實施例的第一神經網路N1的架構圖。圖6是依照本發明一實施例的第二神經網路N2的架構圖。圖7是依照本發明一實施例的第三神經網路N3的架構圖。在圖5～圖7中，符號♁代表像素級相加，激勵函數可以是Softmax、Sigmoid、tanh或ReLU（Rectified Linear Unit）等函數。

如圖5所示，將衰減影像A輸入至第一神經網路N1，經由一系列運算來獲得第一特徵矩陣410。如圖6所示，將衰減影像A與第一特徵矩陣410輸入至第二神經網路N2，分別通過一系列運算後進行像素級相加而獲得第一增強影像Img1，之後針對第一增強影像Img1通過一系列運算來獲得第二特徵矩陣420。如圖7所示，將降取樣影像A”與降取樣特徵矩陣410”輸入至第三神經網路N3，分別通過一系列運算後進行像素級相加而獲得第二增強影像Img2，之後針對第二增強影像Img2通過一系列運算來獲得第三特徵矩陣430。

綜上所述，本揭露以經由對比式學習的第一神經網路自衰減影像獲取的第一特徵矩陣（衰減特徵）來引導第二神經網路與第三神經網路進行特徵抽取，使得第二神經網路與第三神經網路能夠更有效地分別取出高頻特徵及低頻特徵，並且可在少量參數之下，得到更佳的影像還原效果。

與現有的用於屏下鏡頭影像復原的分支網路（branched network for UDC image restoration，BNUDC）方法相比，透過本揭露所獲得的清晰影像，可獲得較高的峰值訊噪比（peak signal-to-noise ratio，PSNR）、較低的推論時間、較少的參數數量以及低能源消耗。並且，在結構相似度（structural similarity，SSIM）、可學習感知圖像塊相似度（learned perceptual image patch similarity，LPIPS）、深度圖像結構和紋理相似度（deep image structure and texture similarity，DISTS）等表現上，本揭露亦優於現有的BNUDC方法。進而，本揭露符合省電環保的能源發展趨勢，由於本揭露具有較快的推論速度，可快速獲得清晰影像，達到即時（real time）執行的目標。

10:顯示面板 20:影像感測器 100:影像處理裝置 110:處理器 120:儲存器 200:電子裝置 210:局部區域 410:第一特徵矩陣 410”:降取樣特徵矩陣 420:第二特徵矩陣 430:第三特徵矩陣 430-1:第一子特徵矩陣 430-2:第二子特徵矩陣 440:結果矩陣 A:衰減影像 A”:降取樣影像 B:清晰影像 D1:第一側 D2:第二側 I42、I43:影像 Img1:第一增強影像 Img2:第二增強影像 N1:第一神經網路 N2:第二神經網路 N3:第三神經網路 S305～S330:影像復原方法的步驟

圖1是依照本發明一實施例的影像處理裝置的方塊圖。圖2A及圖2B是依照本發明一實施例的採用屏下鏡頭技術的電子裝置的示意圖。圖3是依照本發明一實施例的影像復原方法的流程圖。圖4是依照本發明一實施例的第一～第三神經網路之間數據流程架構的示意圖。圖5是依照本發明一實施例的第一神經網路N1的架構圖。圖6是依照本發明一實施例的第二神經網路N2的架構圖。圖7是依照本發明一實施例的第三神經網路N3的架構圖。

S305~S330:影像復原方法的步驟

Claims

一種影像復原方法，透過一處理器來執行多個步驟，包括：將一衰減影像輸入至用以擷取衰減特徵的一第一神經網路，而獲得一第一特徵矩陣；將該衰減影像與該第一特徵矩陣輸入至用以擷取高頻特徵的一第二神經網路，而獲得一第二特徵矩陣；將該衰減影像與該第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的一第三神經網路，而獲得一第三特徵矩陣；將該第三特徵矩陣切分為一第一子特徵矩陣與一第二子特徵矩陣；將該第二特徵矩陣與該第一子特徵矩陣進行矩陣向量乘法，而獲得一結果矩陣；以及將該結果矩陣與該第二子特徵矩陣進行特徵融合，而獲得一清晰影像。
如請求項1所述的影像復原方法，其中將該衰減影像與該第一特徵矩陣輸入至用以擷取高頻特徵的該第二神經網路，而獲得該第二特徵矩陣的步驟包括：將該第一特徵矩陣加入至該衰減影像而獲得一第一增強影像；以及自該第一增強影像進行高頻特徵擷取而獲得該第二特徵矩陣。
如請求項1所述的影像復原方法，其中將該衰減影像與該第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的該第三神經網路，而獲得該第三特徵矩陣的步驟包括：對該衰減影像降取樣而獲得一降取樣影像；將該第一特徵矩陣降取樣而獲得一降取樣特徵矩陣；將該降取樣特徵矩陣加入至該降取樣影像而獲得一第二增強影像；以及自該第二增強影像進行低頻特徵擷取而獲得該第三特徵矩陣。
如請求項1所述的影像復原方法，其中將該衰減影像與該第一特徵矩陣兩者降取樣後輸入至用以擷取低頻特徵的該第三神經網路，而獲得該第三特徵矩陣的步驟包括：對該衰減影像降取樣而獲得一降取樣影像；對該降取樣影像執行一模糊處理，而獲得一模糊影像；將該第一特徵矩陣降取樣而獲得一降取樣特徵矩陣；將該降取樣特徵矩陣加入至該模糊影像而獲得一第三增強影像；以及自該第三增強影像進行低頻特徵擷取而獲得該第三特徵矩陣。
如請求項1所述的影像復原方法，其中該衰減影像是由設置在一顯示面板的一側的一影像感測器所獲取。
如請求項1所述的影像復原方法，其中在該第一神經網路、該第二神經網路以及該第三神經網路的訓練階段，利用梯度下降來調整該第一神經網路、該第二神經網路以及該第三神經網路的參數，使得在該訓練階段所使用的訓練用衰減影像以及所獲得的訓練用清晰影像兩者通過一損失函數所獲得的值最小化。
一種影像處理裝置，包括：一儲存器，包括：一第一神經網路，經訓練而用以擷取衰減特徵；一第二神經網路，經訓練而用以擷取高頻特徵；以及一第三神經網路，經訓練而用以擷取低頻特徵；一處理器，耦接至該儲存器，並經配置以：將一衰減影像輸入至該第一神經網路，而獲得一第一特徵矩陣；將該衰減影像與該第一特徵矩陣輸入至該第二神經網路，而獲得一第二特徵矩陣；將該衰減影像與該第一特徵矩陣兩者降取樣後輸入至該第三神經網路，而獲得一第三特徵矩陣；將該第三特徵矩陣切分為一第一子特徵矩陣與一第二子特徵矩陣；將該第二特徵矩陣與該第一子特徵矩陣進行矩陣向量乘法，而獲得一結果矩陣；以及將該結果矩陣與該第二子特徵矩陣進行特徵融合，而獲得一清晰影像。
如請求項7所述的影像處理裝置，其中該處理器經配置以：將該第一特徵矩陣加入至該衰減影像而獲得一第一增強影像；以及經由該第二神經網路自該第一增強影像進行高頻特徵擷取而獲得該第二特徵矩陣。
如請求項7所述的影像處理裝置，其中該處理器經配置以執行經由該第三神經網路，以：對該衰減影像降取樣而獲得一降取樣影像；將該第一特徵矩陣降取樣而獲得一降取樣特徵矩陣；將該降取樣特徵矩陣加入至該降取樣影像而獲得一第二增強影像；以及自該第二增強影像進行低頻特徵擷取而獲得該第三特徵矩陣。
如請求項7所述的影像處理裝置，其中該處理器經配置以執行經由該第三神經網路，以：對該衰減影像降取樣而獲得一降取樣影像；對該降取樣影像執行一模糊處理，而獲得一模糊影像；將該第一特徵矩陣降取樣而獲得一降取樣特徵矩陣；將該降取樣特徵矩陣加入至該模糊影像而獲得一第三增強影像；以及自該第三增強影像進行低頻特徵擷取而獲得該第三特徵矩陣。