TWI817896B - 機器學習方法以及裝置 - Google Patents

機器學習方法以及裝置 Download PDF

Info

Publication number
TWI817896B
TWI817896B TW112103719A TW112103719A TWI817896B TW I817896 B TWI817896 B TW I817896B TW 112103719 A TW112103719 A TW 112103719A TW 112103719 A TW112103719 A TW 112103719A TW I817896 B TWI817896 B TW I817896B
Authority
TW
Taiwan
Prior art keywords
image
mask
background
generate
data
Prior art date
Application number
TW112103719A
Other languages
English (en)
Other versions
TW202334868A (zh
Inventor
栗永徽
劉慎軒
研文 陳
楊凱霖
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Publication of TW202334868A publication Critical patent/TW202334868A/zh
Application granted granted Critical
Publication of TWI817896B publication Critical patent/TWI817896B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Control Of Electric Motors In General (AREA)
  • Feedback Control In General (AREA)

Abstract

一種機器學習方法,包括:(a)將對比學習模型套用至訓練影像以及影像遮罩以產生前景特徵向量對以及背景特徵向量對;(b)根據前景特徵向量對以及背景特徵向量對計算前景損失以及背景損失;(c)根據前景損失以及背景損失計算總損失;(e)當遞迴結束條件符合時,利用對比學習模型中的第一編碼器進行機器學習模型的參數調整;以及(f)當遞迴結束條件未符合時,利用總損失調整第一編碼器的參數,並利用調整後的第一編碼器的參數以及預設倍數調整對比學習模型中的第二編碼器的參數,進而再次執行步驟(a)至步驟(d)。

Description

機器學習方法以及裝置
本揭示是有關於一種機器學習方法以及裝置。
在現有技術中,當訓練一個機器學習的模型時,除了所訓練的模型架構會影響辨識與辨識能力外,最關鍵的是訓練資料的完整度。對於相同模型架構而言,在訓練資料庫越多元且越完整的情況下,模型的辨識能力通常會越高(即,準確率越高)。然而,在實務上常常因為人力與資料有限,無法收集多元性且完整度高的資料庫。進一步而言,就目前針對機器學習技術而言,針對各種下游任務,往往需要大量的訓練樣本以及訓練標籤,這會消耗大量的人力。因此,要如何精準呈現下游任務所需要的關鍵細節以減少訓練樣本以及訓練標籤的數量成為目前機器學習的關鍵議題。
本揭示的一態樣揭露一種機器學習方法,包括:(a)將一對比學習模型套用至一訓練影像以及一影像遮罩以產生一前景特徵向量對以及一背景特徵向量對,其中該訓練影像對應於該影像遮罩,該對比學習模型包括一第一編碼器以及一第二編碼器;(b)根據該前景特徵向量對以及該背景特徵向量對計算一前景損失以及一背景損失;(c)利用一第一權重以及一第二權重對該前景損失以及該背景損失進行加權損失運算以產生一總損失,其中該第一權重對應於該前景損失,且該第二權重對應於該背景損失;(d)根據該總損失判斷是否已符合一遞迴結束條件;(e)當該遞迴結束條件符合時,利用該第一編碼器進行機器學習模型的參數調整;以及(f)當該遞迴結束條件未符合時,利用該總損失調整該第一編碼器的參數,利用該調整後的第一編碼器的參數以及一預設倍數調整該第二編碼器的參數,以及擷取新的訓練影像以及與該新的訓練影像對應的新的影像遮罩做為該訓練影像以及該影像遮罩,進而再次執行步驟(a)至步驟(d)。
本揭示的另一態樣揭露一種機器學習裝置,其包括一影像擷取電路以及一處理器。該影像擷取電路用以擷取一訓練影像;該處理器連接該影像擷取電路,並運行一對比學習模型,其中該處理器用以進行下列操作:對該訓練影像執行物件辨識處理以產生與該訓練影像對應的一影像遮罩;將該對比學習模型套用至該訓練影像以及該影像遮罩以產生一前景特徵向量對以及一背景特徵向量對;根據該前景特徵向量對以及該背景特徵向量對計算一前景損失以及一背景損失;利用一第一權重以及一第二權重對該前景損失以及該背景損失進行加權損失運算以產生一總損失,其中該第一權重對應於該前景損失,且該第二權重對應於該背景損失;以及利用該總損失調整該對比學習模型中的一第一編碼器的參數,其中訓練完成的該第一編碼器用以進行機器學習模型的參數調整。
一併參照第1圖,第1圖是本揭示的機器學習裝置100的方塊圖。於本實施例中,機器學習裝置100包括影像擷取電路110以及處理器120。影像擷取電路110用以擷取訓練影像img。處理器120連接影像擷取電路 110。
在一些實施例中,機器學習裝置100可由電腦、伺服器或處理中心建立。在一些實施例中,影像擷取電路110可以是用以擷取影像的資料存取電路、攝影機或可以連續拍照之照相機。例如,數位單眼相機(Digital Single-Lens Reflex Camera,DSLR)、數位攝影機(Digital Video Camera,DVC)或近紅外線相機(Near-infrared Camera,NIRC)等。在一些實施例中,處理器120可由處理單元、中央處理單元或計算單元實現。
在一些實施例中,機器學習裝置100並不限於包括影像擷取電路110以及處理器120,機器學習裝置100可以進一步包括操作以及應用中所需的其他元件,舉例來說,機器學習裝置100可更包括輸出介面(例如,用於顯示資訊的顯示面板)、輸入介面(例如,觸控面板、鍵盤、麥克風、掃描器或快閃記憶體讀取器)以及通訊電路(例如,WiFi通訊模型、藍芽通訊模型、無線電信網路通訊模型等)。
如第1圖所示,處理器120基於相應的軟體或韌體指令程序以執行對比學習模型CLM。在一些實施例中,處理器120更可基於相應的軟體或韌體指令程序對訓練影像img執行物件辨識處理,以產生與訓練影像img對應的影像遮罩。舉例而言,可將訓練影像img中的具有物件的像素的數值設定為1,並將不具有物件的像素的數值設定為0,以產生二元遮罩(Binary Mask),進而將此二元遮罩做為與訓練影像img對應的影像遮罩。
值得注意的是,物件辨識處理可以是基於目前常用的用以辨識影像中的物件之各種機器學習(Machine Learning)演算法(例如,各種語意分析(Semantic Analysis)演算法或電腦視覺(Computer Vision)演算法等)以進行處理,並沒有針對物件辨識處理有特別的限制。此外,影像遮罩除了可以是二元遮罩,更可以是三自由度遮罩(3 DOF Mask)或多自由度遮罩(Multiple DOF Mask)等。
在一些實施例中,對比學習模型CLM可用以對訓練影像img以及影像遮罩進行前景(Foreground)特徵以及背景(Background)特徵的萃取,以產生前景特徵向量對以及背景特徵向量對,其中前景特徵向量對包括第一前景特徵向量以及第二前景特徵向量,背景特徵向量對包括第一背景特徵向量以及第二背景特徵向量,其中第一前景特徵向量對應於第一背景特徵向量,第二前景特徵向量對應於第二背景特徵向量。
如第1圖所示,處理器120更基於相應的軟體或韌體指令程序以執行對比學習模型CLM中的第一編碼器(Encoder)ENCODER1。值得注意的是,第一編碼器ENCODER1可以是任意類型的影像編碼器,並沒有特別的限制。
於本實施例中,處理器120根據前景特徵向量對以及背景特徵向量對計算前景損失以及背景損失。接著,處理器120利用第一權重以及第二權重對前景損失以及背景損失進行加權損失運算以產生總損失t_loss,其中第一權重對應於前景損失,且第二權重對應於背景損失。藉此,處理器120根據總損失t_loss對第一編碼器ENCODER1進行更新,詳細作法將在後續段落詳細說明。
一併參照第2圖,第2圖是本揭示的機器學習方法200的流程圖。第2圖所示實施例的方法適用於第1圖的機器學習裝置100,但不以此為限。為方便及清楚說明起見,下述同時參照第1圖以及第2圖,以機器學習裝置100中各元件之間的作動關係來說明第2圖所示機器學習方法200的詳細步驟。
在本實施例中,機器學習方法200包括步驟S210~S260,並可由處理器120執行。首先,於步驟S210中,將對比學習模型CLM套用至訓練影像img以及影像遮罩以產生前景特徵向量(Feature Vector)對以及背景特徵向量對,其中訓練影像img對應於影像遮罩。
在一些實施例中,對比學習模型CLM包括資料擴增(Data Augmentation)子模型。在一些實施例中,可利用資料擴增子模型將訓練影像img以及影像遮罩轉換為第一資料擴增影像、第二資料擴增影像、第一資料擴增遮罩以及第二資料擴增遮罩,其中第一資料擴增影像對應於第一資料擴增遮罩,且第二資料擴增影像對應於第二資料擴增遮罩。
在一些實施例中,對比學習模型CLM更可包括第二編碼器。在一些實施例中,第一編碼器ENCODER1的參數與第二編碼器的參數之間存在預設倍數,且第一編碼器ENCODER1以及第二編碼器具有相同的結構,其中預設倍數可以是依據過往訓練經驗當中取得的平均值或是人工給定的預設值。在一些實施例中,第一編碼器ENCODER1以及第二編碼器皆可以是各種殘差網路(Residual Network)或視覺幾何組網路(Visual Geometry Group Network,VGG Network)等。舉例而言,第一編碼器ENCODER1的參數為第二編碼器的參數的0.9倍,且第一編碼器ENCODER1以及第二編碼器皆為ResNet50的結構。
在一些實施例中,利用資料擴增子模型對訓練影像img以及影像遮罩進行第一幾何變化(Geometric Transform),以產生第一幾何變化影像以及與第一幾何變化影像對應的第一資料擴增遮罩。接著,可利用資料擴增子模型對訓練影像img以及影像遮罩進行第二幾何變化,以產生第二幾何變化影像以及與第二幾何變化影像對應的第二資料擴增遮罩,其中二幾何變化不同於第一幾何變化。接著,可利用第一編碼器ENCODER1根據第一幾何變化影像產生第一影像特徵圖(Feature Map),並利用第二編碼器根據第二幾何變化影像產生第二影像特徵圖,以根據第一影像特徵圖以及第二影像特徵圖產生前景特徵向量對以及背景特徵向量對。
在一些實施例中,第一幾何變化以及第二幾何變化可以是影像裁切、影像翻轉、影像旋轉、影像平移等與物件位置相關的影像處理。
在一些實施例中,利用資料擴增子模型對第一幾何變化影像進行第一色彩變化(Color Transform)以產生一第一資料擴增影像。接著,可利用資料擴增子模型對第二幾何變化影像進行第二色彩變化以產生一第二資料擴增影像,其中第二色彩變化不同於第一色彩變化。接著,可利用第一編碼器ENCODER1根據第一幾何變化影像產生一第一影像特徵圖,並利用第二編碼器根據第二幾何變化影像產生一第二影像特徵圖,以根據第一影像特徵圖以及第二影像特徵圖產生前景特徵向量對以及背景特徵向量對。
在一些實施例中,第一色彩變化以及第二色彩變化可以是影像模糊化處理、影像明度調整或影像彩度調整等與顏色相關的處理。
在一些實施例中,對比學習模型CLM更可包括索引(Indexer)子模型。在一些實施例中,可利用索引子模型對第一資料擴增遮罩以及第二資料擴增遮罩進行反轉(Inversed)處理,以產生一第一背景遮罩以及一第二背景遮罩。接著,可利用索引子模型對第一資料擴增遮罩、第二資料擴增遮罩、第一背景遮罩以及第二背景遮罩進行尺寸調整。接著,可利用索引子模型對調整後的第一資料擴增遮罩以及第一影像特徵圖進行元素層級(Element-Wise)相乘處理,並對調整後的第二資料擴增遮罩以及第二影像特徵圖進行元素層級相乘處理,進而產生一前景特徵圖對。接著,可利用索引子模型對調整後的第一背景遮罩以及第一影像特徵圖進行元素層級相乘處理,並對調整後的第二背景遮罩以及第二影像特徵圖進行元素層級相乘處理,進而產生背景特徵圖對,以根據前景特徵圖對以及背景特徵圖對產生前景特徵向量對以及背景特徵向量對。
在一些實施例中,尺寸調整可以是將第一資料擴增遮罩、第二資料擴增遮罩、第一背景遮罩以及第二背景遮罩調整為與第一影像特徵圖以及第二影像特徵圖相同的尺寸。
在一些實施例中,可對調整後的第一資料擴增遮罩以及第一影像特徵圖進行元素層級相乘處理以產生第一前景特徵圖,並對調整後的第二資料擴增遮罩以及第二影像特徵圖進行元素層級相乘處理以產生第二前景特徵圖,進而將第一前景特徵圖以及第二前景特徵圖做為前景特徵圖對。
在一些實施例中,可對調整後的第一背景遮罩以及第一影像特徵圖進行元素層級相乘處理以產生第一背景特徵圖,並對調整後的第二背景遮罩以及第二影像特徵圖進行元素層級相乘處理以產生第二背景特徵圖,進而將第一背景特徵圖以及第二背景特徵圖做為背景特徵圖對。
在一些實施例中,當第一資料擴增遮罩以及第二資料擴增遮罩為二元遮罩時,上述反轉處理可將第一資料擴增遮罩以及第二資料擴增遮罩中的具有物件的像素的數值由1轉換為0並將不具有物件的像素的數值由0轉換為1,以產生第一背景遮罩以及第二背景遮罩。
值得注意的是,當第一資料擴增遮罩以及第二資料擴增遮罩為三元遮罩或多元遮罩時,可先將第一資料擴增遮罩以及第二資料擴增遮罩中的具有物件的像素的數值調整為1並將不具有物件的像素的數值調整為0。此外,可將第一資料擴增遮罩以及第二資料擴增遮罩中的具有物件的像素的數值調整為0並將不具有物件的像素的數值調整為1,以產生第一背景遮罩以及第二背景遮罩。
在一些實施例中,對比學習模型CLM更可包括多層感知(Multilayer Perceptron,MLP)子模型。在一些實施例中,可利用多層感知子模型對前景特徵圖對進行線性轉換(Linear Transform)以產生前景特徵向量對,並對背景特徵圖對進行線性轉換以產生背景特徵向量對。
在一些實施例中,針對前景特徵圖對,可對第一前景特徵圖以及第二前景特徵圖分別進行線性轉換以產生第一前景特徵向量以及第二前景特徵向量,進而將第一前景特徵向量以及第二前景特徵向量做為前景特徵向量對。接著,針對背景特徵圖對,可對第一背景特徵圖以及第二背景特徵圖分別進行線性轉換以產生第一背景特徵向量以及第二背景特徵向量,進而將第一背景特徵向量以及第二背景特徵向量做為背景特徵向量對。
在一些實施例中,多層感知子模型可以是線性層(Linear Layer)或全連接層(Fully Connection Layer),並用以將多維的特徵圖線性轉換為一維的特徵向量。
再者,於步驟S220中,根據前景特徵向量對以及背景特徵向量對計算前景損失以及背景損失。在一些實施例中,針對前景特徵向量對,可對第一前景特徵向量以及第二前景特徵向量進行相似度損失(Similar Loss)計算以產生前景損失。接著,針對背景特徵向量對,可對第一背景特徵向量以及第二背景特徵向量進行相似度損失計算以產生背景損失。
在一些實施例中,上述相似度損失的計算如以下公式(1)所示。 ……公式(1)
其中 以及 為兩個特徵向量, 為歐幾里德範數(Euclidean Norm)的函式, 以及 分別為L2正規化(L2 Normalization)的 以及L2正規化的 ,以及 為L2正規化的 以及L2正規化的 之間進行元素層級相乘處理後的所有元素的總和(即,相似度損失)。
換言之,只要將第一前景特徵向量以及第二前景特徵向量代入上述公式(1)就可計算出前景損失,且將第一背景特徵向量以及第二背景特徵向量代入上述公式(1)就可計算出背景損失。
再者,於步驟S230中,利用第一權重以及第二權重對前景損失以及背景損失進行加權損失運算以產生總損失t_loss,其中第一權重對應於前景損失,且第二權重對應於背景損失。在一些實施例中,與前景損失對應的第一權重大於與背景損失對應的第二權重(因為前景的特徵比背景的特徵重要),且加權損失運算相關於均方根損失(Mean Square Error Loss,MSE Loss)運算。在一些實施例中,第一權重以及第二權重的總合為1,其中第一權重以及第二權重可以是依據過往訓練經驗當中取得的平均值或是人工給定的預設值。舉例而言,第一權重為0.7,且第二權重為0.3。在一些實施例中,總損失t_loss的公式如以下公式(2)。 ……公式(2)
其中α以及β分別為第一權重以及第二權重,且loss1以及loss2分別為前景損失以及背景損失。
再者,於步驟S240中,根據總損失判斷是否已符合遞迴結束條件。當遞迴結束條件符合時,進入步驟S250。反之,當遞迴結束條件未符合時,進入步驟S260。在一些實施例中,遞迴結束條件為總損失小於預設的損失閾值或經過多個遞迴後的總損失收斂至特定數值(即,前景特徵向量之間越像越好,且背景特徵向量之間越像越好),其中損失閾值可以是依據過往訓練經驗當中取得的平均值或是人工給定的預設值。
再者,於步驟S250中,利用對比學習模型CLM中的第一編碼器ENCODER1進行機器學習模型的參數調整。在一些實施例中,此機器學習可以依照任意的下游任務(例如,影像分類)選擇對應的神經網路架構,並沒有特別的限制。換言之,在下游任務中,可將預訓練好的第一編碼器ENCODER1應用於任何機器學習模型的神經網路層中。如此一來,在機器學習模型的訓練階段中,僅僅需要非常少量的帶有標籤的資料,就能稍微地調整第一編碼器ENCODER1的參數以完成機器學習模型的訓練。
再者,於步驟S260中,利用總損失調整對比學習模型CLM中的第一編碼器ENCODER1的參數,利用總損失以及預設倍數調整第二編碼器的參數,以及擷取新的訓練影像以及與新的訓練影像對應的新的影像遮罩做為訓練影像img以及影像遮罩,進而回到步驟S210以繼續訓練對比學習模型CLM。換言之,可不斷擷取新的訓練影像以及與新的訓練影像對應的新的影像遮罩,並可利用這些新的訓練影像以及這些新的影像遮罩完成對比學習模型CLM的訓練。在一些實施例中,可根據總損失對對比學習模型CLM中的第一編碼器ENCODER1進行反向傳播(Back Propagation)運算,以調整第一編碼器ENCODER1的參數。接著,可將調整後的第一編碼器ENCODER1的參數以及預設倍數之間的乘積做為調整後的第二編碼器的參數。
藉由上述步驟,在預訓練階段中,機器學習裝置100可直接將沒有人工標籤的資料運用於對比學習模型CLM,以利用訓練影像以及與訓練影像對應的影像遮罩所產生前景特徵向量對以及背景特徵向量對,計算出總損失,進而對對比學習模型CLM中的第一編碼器ENCODER1進行更新。藉此,將可精準呈現下游任務所需要的關鍵細節(即,對影像中的興趣區會有更強的特徵萃取的效果)。例如,提升醫學影像清晰度、生物辨識成效,或是增進自駕車影像分割效果等。如此一來,可將預訓練好的第一編碼器ENCODER1應用於任何機器學習模型的神經網路層中,這將大大減少機器學習模型所需要的訓練樣本以及對應的訓練標籤。
一併參照第3圖,第3圖是根據本揭示一些實施例的機器學習裝置100的方塊圖。於本實施例中,機器學習裝置100包括影像擷取電路110以及處理器120。影像擷取電路110用以具有訓練標籤(Label)lbl的影像img’。處理器120連接影像擷取電路110。處理器120基於相應的軟體或韌體指令程序以執行機器學習模型MLM,其中機器學習模型MLM包括預訓練好的第一編碼器ENCODER1。在此訓練階段中,處理器120利用少量的訓練標籤lbl以及少量的影像img’就能稍微調整第一編碼器ENCODER1中的參數以將機器學習模型MLM訓練完成。
一併參照第4圖,第4圖是根據本揭示一些實施例的對比學習模型CLM的結構的示意圖。如第4圖所示,對比學習模型CLM包括資料擴增子模型DA_SM、第一編碼器ENCODER1、第二編碼器ENCODER2、索引子模型IDX_SM以及多層感知子模型MLP_SM。
首先,處理器120可將訓練影像img以及與訓練影像img對應的影像遮罩msk輸入資料擴增子模型DA_SM,資料擴增子模型DA_SM可將影像遮罩msk以及訓練影像img分別轉換為第一資料擴增影像da_img1以及第一資料擴增遮罩da_msk1,並將訓練影像img以及影像遮罩msk分別轉換為第二資料擴增影像da_img2以及第二資料擴增遮罩da_msk2。詳細而言,一併參照第5圖,第5圖是根據本揭示一些實施例的執行資料擴增子模型DA_SM的示意圖。假設訓練影像img為三通道影像(例如,224×224×3(RGB色彩空間))且影像遮罩msk為對應的單通道的二元遮罩(例如,224×224×1),資料擴增子模型DA_SM可將訓練影像img以及影像遮罩msk連結為四通道的連結影像cc_img(例如,224×224×4),並對連結影像cc_img分別進行第一幾何變化GT1以及第二幾何變化GT2以產生第一幾何變化連結影像gt_cc_img1以及第二幾何變化連結影像gt_cc_img2。
再者,資料擴增子模型DA_SM可將四通道的第一幾何變化連結影像gt_cc_img1拆成單通道的第一資料擴增遮罩da_msk1(例如,224×224×1)以及三通道的第一幾何變化影像gt_img1(例如,224×224×3),並將四通道的第二幾何變化連結影像gt_cc_img2拆成單通道的第二資料擴增遮罩da_msk2(例如,224×224×1)以及三通道的第二幾何變化影像gt_img2(例如,224×224×3)。
再者,資料擴增子模型DA_SM可將三通道的第一幾何變化影像gt_img1以及三通道的第二幾何變化影像gt_img2分別進行第一色彩變化CT1以及第二色彩變化CT2,以產生三通道的第一資料擴增影像da_img1以及三通道的第二資料擴增影像da_img2。
如第4圖所示,資料擴增子模型DA_SM可將第一資料擴增影像da_img1以及第二資料擴增影像da_img2分別輸入第一編碼器ENCODER1以及第二編碼器ENCODER2,以分別產生第一影像特徵圖fm1_1~fm1_3以及第二影像特徵圖fm2_1~fm2_3。
值得注意的是,為方便說明第一編碼器ENCODER1與第二編碼器ENCODER2對第一資料擴增影像da_img1與第二資料擴增影像da_img2的處理以及各種後續的特徵圖的處理,在此僅僅是採用簡單的例子,以說明經過第一編碼器ENCODER1以及第二編碼器ENCODER2的處理會產生特定數量的第一影像特徵圖以及第二影像特徵圖。
然而,實務上可能不會只產生三個第一影像特徵圖以及三個第二影像特徵圖。這完全取決於第一編碼器ENCODER1以及第二編碼器ENCODER2的架構。舉例而言,在實務上,第一編碼器ENCODER1以及第二編碼器ENCODER2若採用Resnet50,第一編碼器ENCODER1以及第二編碼器ENCODER2將會分別產生2048個影像特徵圖。
藉此,資料擴增子模型DA_SM可將第一影像特徵圖fm1_1~fm1_3以及對應的第一資料擴增遮罩da_msk1輸入索引子模型IDX_SM以產生第一前景特徵圖ffm1_1~ffm1_3以及第一背景特徵圖bfm1_1~bfm1_3。此外,資料擴增子模型DA_SM可將第二影像特徵圖fm2_1~fm2_3以及對應的第二資料擴增遮罩da_msk2輸入索引子模型IDX_SM以產生第二前景特徵圖ffm2_1~ffm2_3以及第二背景特徵圖bfm2_1~bfm2_3。
一併參照第6圖,第6圖是根據本揭示一些實施例的執行索引子模型IDX_SM的示意圖。假設將影像特徵圖fm1~fm3以及對應的資料擴增遮罩da_msk輸入索引子模型IDX_SM,索引子模型IDX_SM可對資料擴增遮罩da_msk進行尺寸調整,並對影像特徵圖fm1~fm3以及調整後的資料擴增遮罩da_msk分別執行背景處理以及前景處理以產生背景特徵圖bfm1~bfm3以及前景特徵圖ffm1~ffm3。
詳細而言,針對背景處理,索引子模型IDX_SM可將調整後的資料擴增遮罩da_msk執行反轉處理以產生背景遮罩ivt_msk,並對影像特徵圖fm1~fm3以及背景 遮罩ivt_msk進行元素層級相乘處理以產生背景特徵圖bfm1~bfm3。此外,針對前景處理,索引子模型IDX_SM可對影像特徵圖fm1~fm3以及調整後的資料擴增遮罩da_msk進行元素層級相乘處理以產生前景特徵圖ffm1~ffm3。
藉由相同的處理方式,資料擴增子模型DA_SM就可以根據第一影像特徵圖fm1_1~fm1_3以及對應的第一資料擴增遮罩da_msk1產生第一前景特徵圖ffm1_1~ffm1_3以及第一背景特徵圖bfm1_1~bfm1_3,並根據第二影像特徵圖fm2_1~fm2_3以及對應的第二資料擴增遮罩da_msk2產生第二前景特徵圖ffm2_1~ffm2_3以及第二背景特徵圖bfm2_1~bfm2_3。
如第4圖所示,資料擴增子模型DA_SM可將第一前景特徵圖ffm1_1~ffm1_3以及第二前景特徵圖ffm2_1~ffm2_3輸入多層感知子模型MLP_SM以進行線性轉換,進而產生第一前景特徵向量FA1以及第二前景特徵向量FA2,並將第一背景特徵圖bfm1_1~bfm1_3以及第二背景特徵圖bfm2_1~bfm2_3輸入多層感知子模型MLP_SM以進行線性轉換,進而產生第一背景特徵向量BA1以及第二背景特徵向量BA2。
藉此,處理器120可根據第一前景特徵向量FA1以及第二前景特徵向量FA2計算前景損失loss1,並根據第一背景特徵向量BA1以及第二背景特徵向量BA2計算背景損失loss2。如此一來,處理器120可根據前景損失loss1以及背景損失loss2計算總損失,並利用總損失對第一編碼器ENCODER1進行反向傳播運算以更新第一編碼器ENCODER1的參數。此外,處理器120可將預設倍數以及更新後的第一編碼器ENCODER1的參數之間的乘積設定為第二編碼器ENCODER2的參數。
如此一來,可不斷更新第一編碼器ENCODER1的參數以及第二編碼器ENCODER2的參數直到遞迴結束條件符合才完成預訓練階段。
綜上所述,本揭示實施例的機器學習方法以及裝置可在對比學習模型中使用影像與遮罩的資料擴增以及背景與前景的特徵萃取,以計算出前景損失以及背景損失,進而利用前景的權重以及背景的權重對前景損失以及背景損失進行加權損失運算以產生總損失。藉此,可利用總損失更新對比學習模型中的第一編碼器以及第二編碼器,直到遞迴結束條件符合才將預訓練完成的第一編碼器應用於其他機器學習模型的神經網路層中。如此一來,將可精準呈現下游任務所需要的關鍵細節,這將大大減少所需要的訓練樣本以及對應的訓練標籤。
雖然本揭示的特定實施例已經揭露有關上述實施例,此些實施例不意欲限制本揭示。各種替代及改良可藉由相關領域中的一般技術人員在本揭示中執行而沒有從本揭示的原理及精神背離。因此,本揭示的保護範圍由所附申請專利範圍確定。
100:機器學習裝置 110:影像擷取電路 img:訓練影像 120:處理器 CLM:對比學習模型 ENCODER1:第一編碼器 t_loss:總損失 200:機器學習方法 S210~S260:步驟 img’:影像 lbl:訓練標籤 MLM:機器學習模型 msk:影像遮罩 DA_SM:資料擴增子模型 da_msk1:第一資料擴增遮罩 da_msk2:第二資料擴增遮罩 da_img1:第一資料擴增影像 da_img2:第二資料擴增影像 ENCODER2:第二編碼器 fm1_1~fm1_3:第一影像特徵圖 fm2_1~fm2_3:第二影像特徵圖
IDX_SM:索引子模型
ffm1_1~ffm1_3:第一前景特徵圖
ffm2_1~ffm2_3:第二前景特徵圖
bfm1_1~bfm1_3:第一背景特徵圖
bfm2_1~bfm2_3:第二背景特徵圖
MLP_SM:多層感知子模型
FA1:第一前景特徵向量
FA2:第二前景特徵向量
BA1:第一背景特徵向量
BA2:第二背景特徵向量
loss1:前景損失
loss2:背景損失
cc_img:連結影像
GT1:第一幾何變化
GT2:第二幾何變化
gt_cc_img1:第一幾何變化連結影像
gt_cc_img2:第二幾何變化連結影像
gt_img1:第一幾何變化影像
gt_img2:第二幾何變化影像
CT1:第一色彩變化
CT2:第二色彩變化
fm1~fm3:影像特徵圖
da_msk:資料擴增遮罩
ivt_msk:背景遮罩
bfm1~bfm3:背景特徵圖 ffm1~ffm3:前景特徵圖
第1圖是本揭示的機器學習裝置的方塊圖。
第2圖是本揭示的機器學習方法的流程圖。
第3圖是根據本揭示一些實施例的機器學習裝置的方塊圖。
第4圖是根據本揭示一些實施例的對比學習模型的結構的示意圖。
第5圖是根據本揭示一些實施例的執行資料擴增子模型的示意圖。
第6圖是根據本揭示一些實施例的執行索引子模型的示意圖。
200:機器學習方法 S210~S260:步驟

Claims (11)

  1. 一種機器學習方法,包括:(a)將一對比學習模型套用至一訓練影像以及一影像遮罩以產生一前景特徵向量對以及一背景特徵向量對,其中該訓練影像對應於該影像遮罩,該對比學習模型包括一第一編碼器以及一第二編碼器;(b)根據該前景特徵向量對以及該背景特徵向量對計算一前景損失以及一背景損失;(c)利用一第一權重以及一第二權重對該前景損失以及該背景損失進行加權損失運算以產生一總損失,其中該第一權重對應於該前景損失,且該第二權重對應於該背景損失;(d)根據該總損失判斷是否已符合一遞迴結束條件;(e)當該遞迴結束條件符合時,利用該第一編碼器進行機器學習模型的參數調整;以及(f)當該遞迴結束條件未符合時,利用該總損失調整該第一編碼器的參數,利用該調整後的第一編碼器的參數以及一預設倍數調整該第二編碼器的參數,以及擷取新的訓練影像以及與該新的訓練影像對應的新的影像遮罩做為該訓練影像以及該影像遮罩,進而再次執行步驟(a)至步驟(d)。
  2. 如請求項1所述之機器學習方法,其中該第一編碼器的參數與該第二編碼器的參數之間存在該預設倍 數,且該第一編碼器以及該第二編碼器具有相同的結構,其中該對比學習模型包括一資料擴增子模型,且步驟(a)包括:(a1)利用該資料擴增子模型對該訓練影像以及該影像遮罩進行第一幾何變化,以產生一第一幾何變化影像以及與該第一幾何變化影像對應的一第一資料擴增遮罩;(a2)利用該資料擴增子模型對該訓練影像以及該影像遮罩進行第二幾何變化,以產生一第二幾何變化影像以及與該第二幾何變化影像對應的一第二資料擴增遮罩,其中該第二幾何變化不同於該第一幾何變化;以及(a3)利用該第一編碼器根據該第一幾何變化影像產生一第一影像特徵圖,並利用該第二編碼器根據該第二幾何變化影像產生一第二影像特徵圖,以根據該第一影像特徵圖以及該第二影像特徵圖產生該前景特徵向量對以及該背景特徵向量對。
  3. 如請求項2所述之機器學習方法,其中步驟(a3)包括:利用該資料擴增子模型對該第一幾何變化影像進行第一色彩變化以產生一第一資料擴增影像;利用該資料擴增子模型對該第二幾何變化影像進行第二色彩變化以產生一第二資料擴增影像,其中該第二色彩變化不同於該第一色彩變化;以及利用該第一編碼器根據該第一資料擴增影像產生該第一 影像特徵圖,並利用該第二編碼器根據該第二資料擴增影像產生該第二影像特徵圖,以根據該第一影像特徵圖以及該第二影像特徵圖產生該前景特徵向量對以及該背景特徵向量對。
  4. 如請求項2所述之機器學習方法,其中該對比學習模型更包括一索引子模型,其中步驟(a3)更包括:利用該索引子模型對該第一資料擴增遮罩以及該第二資料擴增遮罩進行反轉處理,以產生一第一背景遮罩以及一第二背景遮罩;利用該索引子模型對該第一資料擴增遮罩、該第二資料擴增遮罩、該第一背景遮罩以及該第二背景遮罩進行尺寸調整;利用該索引子模型對該調整後的第一資料擴增遮罩以及該第一影像特徵圖進行元素層級相乘處理,並對該調整後的第二資料擴增遮罩以及該第二影像特徵圖進行元素層級相乘處理,進而產生一前景特徵圖對;以及利用該索引子模型對該調整後的第一背景遮罩以及該第一影像特徵圖進行元素層級相乘處理,並對該調整後的第二背景遮罩以及該第二影像特徵圖進行元素層級相乘處理,進而產生一背景特徵圖對,以根據該前景特徵圖對以及該背景特徵圖對產生該前景特徵向量對以及該背景特徵向量對。
  5. 如請求項4所述之機器學習方法,其中該對比學習模型更包括一多層感知子模型,其中步驟(a3)更包括:利用該多層感知子模型對該前景特徵圖對進行線性轉換以產生該前景特徵向量對,並對該背景特徵圖對進行線性轉換以產生該背景特徵向量對。
  6. 如請求項1所述之機器學習方法,其中與該前景損失對應的該第一權重大於與該背景損失對應的該第二權重,且該加權損失運算相關於均方根損失運算。
  7. 一種機器學習裝置,包括:一影像擷取電路,用以擷取一訓練影像;一處理器,連接該影像擷取電路,並運行一對比學習模型,其中該處理器用以進行下列操作:對該訓練影像執行物件辨識處理以產生與該訓練影像對應的一影像遮罩;將該對比學習模型套用至該訓練影像以及該影像遮罩以產生一前景特徵向量對以及一背景特徵向量對;根據該前景特徵向量對以及該背景特徵向量對計算一前景損失以及一背景損失;利用一第一權重以及一第二權重對該前景損失以及該背景損失進行加權損失運算以產生一總損失,其中該第一權重對應於該前景損失,且該第二權重對應於該背景 損失;以及利用該總損失調整該對比學習模型中的一第一編碼器的參數,其中訓練完成的該第一編碼器用以進行機器學習模型的參數調整。
  8. 如請求項7所述之機器學習裝置,其中該第一編碼器的參數與該對比學習模型中的一第二編碼器的參數之間存在一預設倍數,且該第一編碼器以及該第二編碼器具有相同的結構,其中該對比學習模型包括一資料擴增子模型,其中該處理器更用以:利用該資料擴增子模型對該訓練影像以及該影像遮罩進行第一幾何變化,以產生一第一幾何變化影像以及與該第一幾何變化影像對應的一第一資料擴增遮罩;利用該資料擴增子模型對該訓練影像以及該影像遮罩進行第二幾何變化,以產生一第二幾何變化影像以及與該第二幾何變化影像對應的一第二資料擴增遮罩,其中該二幾何變化不同於該第一幾何變化;以及利用該第一編碼器根據該第一幾何變化影像產生一第一影像特徵圖,並利用該第二編碼器根據該第二幾何變化影像產生一第二影像特徵圖,以根據該第一影像特徵圖以及該第二影像特徵圖產生該前景特徵向量對以及該背景特徵向量對。
  9. 如請求項8所述之機器學習裝置,其中該處 理器更用以:利用該資料擴增子模型對該第一幾何變化影像進行第一色彩變化以產生一第一資料擴增影像;利用該資料擴增子模型對該第二幾何變化影像進行第二色彩變化以產生一第二資料擴增影像,其中該第二色彩變化不同於該第一色彩變化;以及利用該第一編碼器根據該第一資料擴增影像產生該第一影像特徵圖,並利用該第二編碼器根據該第二資料擴增影像產生該第二影像特徵圖,以根據該第一影像特徵圖以及該第二影像特徵圖產生該前景特徵向量對以及該背景特徵向量對。
  10. 如請求項8所述之機器學習裝置,其中該對比學習模型更包括一多層感知子模型,其中該對比學習模型更包括一索引子模型,其中該處理器更用以:利用該索引子模型對該第一資料擴增遮罩以及該第二資料擴增遮罩進行反轉處理,以產生一第一背景遮罩以及一第二背景遮罩;利用該索引子模型對該第一資料擴增遮罩、該第二資料擴增遮罩、該第一背景遮罩以及該第二背景遮罩進行尺寸調整;利用該索引子模型對該調整後的第一資料擴增遮罩以及該第一影像特徵圖進行元素層級相乘處理,並對該調整後的第二資料擴增遮罩以及該第二影像特徵圖進行元素層級 相乘處理,進而產生一前景特徵圖對;利用該索引子模型對該調整後的第一背景遮罩以及該第一影像特徵圖進行元素層級相乘處理,並對該調整後的第二背景遮罩以及該第二影像特徵圖進行元素層級相乘處理,進而產生一背景特徵圖對;以及利用該多層感知子模型對該前景特徵圖對進行線性轉換以產生該前景特徵向量對,並對該背景特徵圖對進行線性轉換以產生該背景特徵向量對。
  11. 如請求項7所述之機器學習裝置,其中與該前景損失對應的該第一權重大於與該背景損失對應的該第二權重,且該加權損失運算相關於均方根損失運算。
TW112103719A 2022-02-16 2023-02-02 機器學習方法以及裝置 TWI817896B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263268064P 2022-02-16 2022-02-16
US63/268,064 2022-02-16

Publications (2)

Publication Number Publication Date
TW202334868A TW202334868A (zh) 2023-09-01
TWI817896B true TWI817896B (zh) 2023-10-01

Family

ID=87558883

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112103719A TWI817896B (zh) 2022-02-16 2023-02-02 機器學習方法以及裝置

Country Status (3)

Country Link
US (1) US20230260260A1 (zh)
CN (1) CN116882511A (zh)
TW (1) TWI817896B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148081B (zh) * 2019-03-25 2024-02-23 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI728465B (zh) * 2019-04-30 2021-05-21 大陸商北京市商湯科技開發有限公司 圖像處理方法和裝置、電子設備及儲存介質
CN113627421A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像处理方法、模型的训练方法以及相关设备
CN113762051A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 模型训练方法、图像检测方法、装置、存储介质及设备
CN113807183A (zh) * 2021-08-17 2021-12-17 华为技术有限公司 模型训练方法及相关设备
US20220012885A1 (en) * 2019-07-26 2022-01-13 Adobe Inc. Utilizing a two-stream encoder neural network to generate composite digital images

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI728465B (zh) * 2019-04-30 2021-05-21 大陸商北京市商湯科技開發有限公司 圖像處理方法和裝置、電子設備及儲存介質
US20220012885A1 (en) * 2019-07-26 2022-01-13 Adobe Inc. Utilizing a two-stream encoder neural network to generate composite digital images
CN113762051A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 模型训练方法、图像检测方法、装置、存储介质及设备
CN113627421A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像处理方法、模型的训练方法以及相关设备
CN113807183A (zh) * 2021-08-17 2021-12-17 华为技术有限公司 模型训练方法及相关设备

Also Published As

Publication number Publication date
US20230260260A1 (en) 2023-08-17
CN116882511A (zh) 2023-10-13
TW202334868A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US11551333B2 (en) Image reconstruction method and device
WO2020192483A1 (zh) 图像显示方法和设备
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
WO2021073493A1 (zh) 图像处理方法及装置、神经网络的训练方法、合并神经网络模型的图像处理方法、合并神经网络模型的构建方法、神经网络处理器及存储介质
US20220335583A1 (en) Image processing method, apparatus, and system
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
WO2018035794A1 (zh) 用于测量图像清晰度值的***及其方法
CN112614110B (zh) 评估图像质量的方法、装置及终端设备
TWI817896B (zh) 機器學習方法以及裝置
CN112308866A (zh) 图像处理方法、装置、电子设备及存储介质
US20230021551A1 (en) Using training images and scaled training images to train an image segmentation model
WO2022194079A1 (zh) 天空区域分割方法、装置、计算机设备和存储介质
Li et al. AEMS: an attention enhancement network of modules stacking for lowlight image enhancement
CN112991236B (zh) 一种基于模板的图像增强方法及装置
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
JPWO2020194378A1 (ja) 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
WO2024041108A1 (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
WO2020187029A1 (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
WO2024021504A1 (zh) 人脸识别模型训练方法、识别方法、装置、设备及介质
CN116363561A (zh) 一种时序动作定位方法、装置、设备及存储介质
CN116957051A (zh) 一种优化特征提取的遥感图像弱监督目标检测方法
CN116934591A (zh) 多尺度特征提取的图像拼接方法、装置、设备及存储介质
WO2023231355A1 (zh) 图像识别方法及装置
EP4248657A1 (en) Methods and systems for low light media enhancement
WO2021189321A1 (zh) 一种图像处理方法和装置