TWI755141B - 用於影像分析之卷積神經網路方法及其系統 - Google Patents

用於影像分析之卷積神經網路方法及其系統 Download PDF

Info

Publication number
TWI755141B
TWI755141B TW109138509A TW109138509A TWI755141B TW I755141 B TWI755141 B TW I755141B TW 109138509 A TW109138509 A TW 109138509A TW 109138509 A TW109138509 A TW 109138509A TW I755141 B TWI755141 B TW I755141B
Authority
TW
Taiwan
Prior art keywords
convolutional neural
image
neural network
network system
image analysis
Prior art date
Application number
TW109138509A
Other languages
English (en)
Other versions
TW202219888A (zh
Inventor
李國君
王聿泰
葉昌偉
Original Assignee
財團法人國家實驗研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人國家實驗研究院 filed Critical 財團法人國家實驗研究院
Priority to TW109138509A priority Critical patent/TWI755141B/zh
Application granted granted Critical
Publication of TWI755141B publication Critical patent/TWI755141B/zh
Publication of TW202219888A publication Critical patent/TW202219888A/zh

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一種用於影像分析之卷積神經網路方法,係根據一影像得到相關於該影像的一分析結果,該用於影像分析之卷積神經網路方法包含複數層卷積運算、至少一層池化運算,及至少一層全連接處理;其改良在於:在一訓練階段時,該等卷積運算中的前N層卷積運算係採用Gabor濾波器。

Description

用於影像分析之卷積神經網路方法及其系統
本發明是有關於一種卷積神經網路(convolutional neural networks,簡稱CNN)方法及其架構,特別是指一種用於影像分析之卷積神經網路方法及其架構。
卷積神經網路架構是常見的深度學習(deep learning)網路架構之一,其在影像之分類(classification)與物件偵測(object detection)的應用上十分普遍,且有不錯的效果。
然而,卷積神經網路架構在影像的應用上,要維持高準確率的判斷與分析結果,訓練階段往往需要大量的影像資料,且收斂需耗費許多時間,此等遂成為其實現上的瓶頸。
近年來,許多研究致力於解決前述瓶頸,例如,在C.-C.J.Kuo及Y.Chen所發表的論文(C.-C.J.Kuo and Y.Chen,"On data-driven saak transform,"Journal of Visual Communication and Image Representation,vol.50,pp.237-246,2018.)中,係提出了一種藉由基於KL(Karhunen-Loéve,簡稱KL)轉換的SAAK(subspace approximation with augmented kernels,簡稱SAAK)轉換,實現無須訓練階段的單程前饋(one-pass feedforward)卷積神經網路架構,的確大幅降低收斂所耗費的時間, 且在手寫文字的辨識上有高精確度的結果,但該論文所提出的演算法,需要大量的記憶體方能實現,造成卷積神經網路架構整體的成本提升。
由此可知,如何設計一個卷積神經網路架構,使其能在訓練階段以少量的影像資料及較短的收斂時間,達到維持高準確率的判斷與分析結果,且不增加整體的成本,的確是值得研究的議題。
因此,本發明之目的,即在提供一種用於影像分析之卷積神經網路架構,用以接收一影像並輸出相關於該影像的一分析結果,該用於影像分析之卷積神經網路架構包含一卷積神經網路系統,其中該卷積神經網路系統包括一卷積運算單元、一池化運算單元,及一全連接單元,該卷積運算單元用以進行複數層卷積運算,其改良在於:當該卷積神經網路系統在一訓練階段時,該卷積運算單元所執行的前N層卷積運算係採用Gabor濾波器。
本發明之另一目的,即在提供一種用於影像分析之卷積神經網路方法,係根據一影像得到相關於該影像的一分析結果,該用於影像分析之卷積神經網路方法包含複數層卷積運算、至少一層池化運算,及至少一層全連接處理,其改良在於:在一訓練階段時,該等卷積運算中的前N層卷積運算係採用Gabor濾波器。
本發明之功效在於:當該卷積神經網路系統在該訓練階段時,該卷積運算單元在前N層卷積運算中採用Gabor濾波器,相當於一開始便由該影像中擷取了大部分的關鍵特徵(critical feature),可提供該卷積神經網路系統一個最佳的初始進入點(initial starting point),大幅下降其訓練階段所需的影像及收斂時間,並維持了高準確率的分析結果,而且,並未增加整體的設計成本。
1:用於影像分析之卷積神經網路架構
11:前處理單元
12:記憶體
13:卷積神經網路系統
131:卷積運算單元
132:池化運算單元
133:全連接單元
21、23、25:卷積運算
22、24、26:池化運算
27、28:全連接處理
本發明之其他的特徵及功效,將於參照圖式之實施方式中清楚地呈現,其中:圖1是一方塊圖,說明本發明用於影像分析之卷積神經網路架構的一較佳實施例;及圖2是一示意圖,說明該較佳實施例之一卷積神經網路系統的運作。
有關本發明之前述及其他技術內容、特點與功效,在以下配合參考圖式之一個較佳實施例之詳細說明中,將可清楚的呈現。
請參閱圖1,本發明用於影像分析之卷積神經網路架構1的一較佳實施例,用以接收一影像並輸出相關於該影像的一分析結果。該用於影像分析之卷積神經網路架構1包含一前處理單元11、電連接於該前處理單元11的一記憶體12,及電連接該前處理單元11與該記憶體12的一卷積神經網路系統13;其中,輸入至該用於影像分析之卷積神經網路架構1的影像為醫學影像。該前處理單元11用以對輸入的醫學影像進行前處理,在本較佳實施例中,係進行平均降取樣(average downsampling)之前處理。該卷積神經網路系統13根據經過前處理之醫學影像,可得到該分析結果;其中,該卷積神經網路系統13包括一卷積(convolution)運算單元131、一池化(pooling)運算單元132,及一全連接(fully-connected)單元133。該記憶體12用以儲存經過前處理之醫學影像、運算過程中的資料,及該分析結果、、、等。
需說明的是,由於卷積神經網路之運作方式,為習知技術,且本較佳實施例係基於論文(Y.-Y.Chou,"Convolutional Neural Network Analytics of Melasma in Harmonically Generated Microscopy Images,"Master,Department of Electrical Engineering,National Cheng Kung University,2018.)所提出的卷積神經網路模型來作修改,並在其訓練階段進行演算法上的改良,因此,以下特別針對改良的部分進行描述。
請參閱圖1與圖2,該卷積神經網路系統13用以實現本發明之卷積神經網路方法,其執行之運算示意於圖2。在本較佳實施例中,該卷積神經網路系統13係執行3層卷積運算21、23、25,3層池化運算22、24、26,及2層全連接處理27、28。
在該訓練階段,該卷積運算單元131所執行的第一、二層卷積運算21、23係使用二維Gabor濾波器進行卷積運算,其定義如以下式(1):
Figure 109138509-A0305-02-0005-1
其中,x'=x cos θ+y sin θ,y'=x sin θ+y cos θ。
在本較佳實施例中,該第一、二層卷積運算21、23所使用的Gabor濾波器之參數如表一所示。
Figure 109138509-A0305-02-0005-2
由於該卷積運算單元131在訓練階段時所進行的第一層卷積運算21係採用Gabor濾波器,其已自經過前處理之醫學影像中擷取了大部分的關鍵特徵,換言之,本發明可將醫生描述的病理特徵以Gabor濾波器來取得,它提供該卷積神經網路系統13一個最佳的初始進入點,這對於消除接下來的該第二、三層卷積運算23、25的冗餘(redundancy)至關重要,也因此使得該第二、三層卷積運算23、25所使用的內核(kernel)數量少於該第一層卷積運算21的內核數量。
在本較佳實施例中,該第三層卷積運算25的初始參數,係採用Xavier初始化,其細節可參考論文(X.Glorot and Y.Bengio,"Understanding the difficulty of training deep feedforward neural networks,"presented at the Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics,Proceedings of Machine Learning Research,2010.);該等池化運算22、24、26係以2的因子(factor of 2)進行降取樣;該等全連接處理27、28係用於進行分類;前述與習知技術相同或相似的部分,不在此贅述,僅將本較佳實施例所使用之卷積神經網路模型整理如表二所示。
Figure 109138509-A0305-02-0006-3
由於在該訓練階段會更新該第一、二、三層卷積運算21、23、25的內核之係數,因此在反向傳播(backpropagation)之後,該第一、二、三層卷積運算21、23、25的內核之係數便不再是Gabor濾波器之參數了,為了達到有效率的卷 積運算,本較佳實施例係在該訓練階段時,將該第一、二層卷積運算21、23的內核之係數固定為Gabor濾波器之參數,不受反向傳播所影響。
為了更進一步了解本發明之應用,以下配合一範例來說明本發明用於影像分析之卷積神經網路架構1。在本範例中,輸入至本發明用於影像分析之卷積神經網路架構1的醫學影像為三次諧波(Third Harmonic Generated,簡稱THG)顯微皮膚影像;該前處理單元11對所述THG顯微皮膚影像進行平均降取樣之前處理;該卷積神經網路系統13接收經過前處理之THG顯微皮膚影像,其輸出的該分析結果為一分類結果。應用上,肝斑是常見的皮膚問題,如皮膚科醫生所描述,其特徵是隨著時間的推移,在不同的發育階段,黑色素細胞樹突的數量逐漸增加,因此,在本範例中,係依照黑色素細胞樹突(Melasma dendrite)的四個階段,將經過前處理之THG顯微皮膚影像分成四類,分別是:正常的(normal)影像、樹突狀的(dendritic)影像、樹突狀增加的(increasingly dendritic)影像,及最大樹突狀的(most dendritic)影像。在實際測試下,該卷積神經網路系統13在該訓練階段不需要太多的THG顯微皮膚影像,即可達到高準確率的分析結果,且其在該訓練階段可快速的收斂。
值得一提的是,在本較佳實施例中,在該訓練階段時,該卷積神經網路系統13的該卷積運算單元131係在該第一、二層卷積運算中採用Gabor濾波器;然而,本發明之概念亦可套用於其他的卷積神經網路模型,廣義來說,在其他的卷積神經網路模型中,其訓練階段可以在前N層卷積運算中採用Gabor濾波器,在訓練階段的一開始,便自影像中擷取大部分的關鍵特徵,以提供卷積神經網路模型良好的初始進入點,縮短接下來的訓練時間、並維持分析結果的準確率;而該等卷積運算、池化運算,及全連接處理的層數與配置,可以依據實際應用有其他的變化設計,並不限於本較佳實施例或範例所揭露。
歸納上述,本發明用於影像分析之卷積神經網路架構1,在該訓練階段時,其卷積神經網路系統13的該卷積運算單元131在第一層卷積運算21中採用Gabor濾波器,使得該卷積神經網路系統13在該訓練階段可大幅下降其所需的影像及收斂時間,並維持了高準確率的分析結果,而且,未增加整體的設計成本;故確實能達成本發明之目的。
惟以上所述者,僅為本發明之實施例而已,當不能以此限定本發明實施之範圍,凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
21、23、25:卷積運算
22、24、26:池化運算
27、28:全連接處理

Claims (7)

  1. 一種用於影像分析之卷積神經網路系統,用以接收一影像並輸出相關於該影像的一分析結果,用於影像分析之該卷積神經網路系統包括一卷積運算單元、一池化運算單元,及一全連接單元,該卷積運算單元用以進行複數層卷積運算,其改良在於:當該卷積神經網路系統在一訓練階段時,該卷積運算單元所執行的前二層該卷積運算係採用Gabor濾波器,以縮短該訓練階段的所需時間與減少神經網路訓練時所需的資料量。
  2. 如請求項1所述之用於影像分析之卷積神經網路系統,其中該影像為三次諧波(Third Harmonic Generated,簡稱THG)顯微皮膚影像。
  3. 如請求項2所述之用於影像分析之卷積神經網路系統,其中當該卷積神經網路系統在該訓練階段時,該第一層卷積運算的內核之係數固定為Gabor濾波器之參數,不受反向傳播所影響。
  4. 如請求項1所述之用於影像分析之卷積神經網路系統,還包含用以對該影像進行前處理之一前處理單元,其中該卷積神經網路系統係根據經過該前處理之影像,得到該分析結果。
  5. 一種用於影像分析之卷積神經網路方法,係根據一影像得到相關於該影像的一分析結果,該用於影像分析之卷積神經網路方法包含複數層卷積運算、至少一層池化運算,及至少一層全連接處理,其改良在於:在一訓練階段時,該等卷積運算中的前二層卷積運算係採用Gabor濾波器。
  6. 如請求項5所述之用於影像分析之卷積神經網路方法,其中影像為三次諧波(Third Harmonic Generated,簡稱THG)顯微皮膚影像。
  7. 如請求項6所述之用於影像分析之卷積神經網路方法,其中在該訓練階段時,該第一層卷積運算的內核之係數固定為Gabor濾波器之參數,不受反向傳播所影響。
TW109138509A 2020-11-04 2020-11-04 用於影像分析之卷積神經網路方法及其系統 TWI755141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109138509A TWI755141B (zh) 2020-11-04 2020-11-04 用於影像分析之卷積神經網路方法及其系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109138509A TWI755141B (zh) 2020-11-04 2020-11-04 用於影像分析之卷積神經網路方法及其系統

Publications (2)

Publication Number Publication Date
TWI755141B true TWI755141B (zh) 2022-02-11
TW202219888A TW202219888A (zh) 2022-05-16

Family

ID=81329592

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109138509A TWI755141B (zh) 2020-11-04 2020-11-04 用於影像分析之卷積神經網路方法及其系統

Country Status (1)

Country Link
TW (1) TWI755141B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657612A (zh) * 2017-10-16 2018-02-02 西安交通大学 适用于智能便携设备的全自动视网膜血管分析方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657612A (zh) * 2017-10-16 2018-02-02 西安交通大学 适用于智能便携设备的全自动视网膜血管分析方法及***

Also Published As

Publication number Publication date
TW202219888A (zh) 2022-05-16

Similar Documents

Publication Publication Date Title
Mahmood et al. Facial expression recognition in image sequences using 1D transform and gabor wavelet transform
Takalkar et al. Image based facial micro-expression recognition using deep learning on small datasets
Adithya et al. Artificial neural network based method for Indian sign language recognition
WO2019120110A1 (zh) 图像重建方法及设备
Wu et al. A compact dnn: approaching ***net-level accuracy of classification and domain adaptation
Shitong et al. A new detection algorithm (NDA) based on fuzzy cellular neural networks for white blood cell detection
US11216652B1 (en) Expression recognition method under natural scene
CN111860046B (zh) 一种改进MobileNet模型的人脸表情识别方法
WO2021056974A1 (zh) 一种静脉识别的方法、装置、设备及存储介质
Pandey et al. Improving facial emotion recognition systems using gradient and laplacian images
CN105893916A (zh) 一种对检测人脸的预处理、特征提取到降维描述的新方法
CN115544227A (zh) 多模态数据的情感分析方法、装置、设备及存储介质
TWI755141B (zh) 用於影像分析之卷積神經網路方法及其系統
Zhao et al. Deep implicit distribution alignment networks for cross-corpus speech emotion recognition
Demochkina et al. Neural network model for video-based facial expression recognition in-the-wild on mobile devices
El-Sayed et al. Robust facial expression recognition via sparse representation and multiple gabor filters
Gao et al. Metric Learning Based Feature Representation with Gated Fusion Model for Speech Emotion Recognition.
Sun et al. Facial expression recognition based on histogram sequence of local Gabor binary patterns
CN113688783A (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
CN114548262A (zh) 一种情感计算中多模态生理信号的特征级融合方法
El Madmoune et al. Robust face recognition using convolutional neural networks combined with Krawtchouk moments.
Almana et al. Real-time Arabic Sign Language Recognition using CNN and OpenCV
Lempitsky Autoencoder
Ziani et al. SH-CNN: Shearlet Convolutional Neural Network for Gender Classification
Voruganti et al. Comparative analysis of dimensionality reduction techniques for machine learning