TWI780881B - 瑕疵檢測模型的建立方法及電子裝置 - Google Patents
瑕疵檢測模型的建立方法及電子裝置 Download PDFInfo
- Publication number
- TWI780881B TWI780881B TW110131889A TW110131889A TWI780881B TW I780881 B TWI780881 B TW I780881B TW 110131889 A TW110131889 A TW 110131889A TW 110131889 A TW110131889 A TW 110131889A TW I780881 B TWI780881 B TW I780881B
- Authority
- TW
- Taiwan
- Prior art keywords
- training
- samples
- score
- sample label
- training samples
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007547 defect Effects 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 180
- 238000013145 classification model Methods 0.000 claims abstract description 71
- 230000005236 sound signal Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013072 incoming material Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/024—Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
Abstract
一種瑕疵檢測模型的建立方法及電子裝置。基於訓練樣本集來建立第一分類模型,其中訓練樣本集包括多個訓練樣本。將所述訓練樣本分別輸入至第一分類模型,以獲得訓練樣本各自的分類結果。基於分類結果自所述訓練樣本中獲得分類錯誤的多個離群樣本。自所述訓練樣本中刪除分類錯誤的部分離群樣本,而將剩餘的訓練樣本作為最佳樣本集。基於最佳樣本集來建立第二分類模型,以透過該第二分類模型來進行一瑕疵檢測。
Description
本發明是有關於一種模型訓練機制,且特別是有關於一種用於品質控管的瑕疵檢測模型的建立方法及電子裝置。
目前在產線流程的產品品質檢測過程中,由於品質控管的標準不一,且無系統化處理,因此產品在執行品質檢測時往往會因為人為影響而導致產線下游的進料檢驗(Incoming Quality Control,IQC)的作業成本提升。
現有對發聲元件的組裝流程中,需先經由聲學專家(俗稱金耳朵)判定之後,再由機台進行判定,如此方能達到漏失率(leak rate)0.1%以下。即,於發聲元件組裝完後,檢測人員於無響室(或隔音房),利用人耳對所有的發聲元件進行產品聲音檢測。一般來說,利用人耳進行判別的漏失率約1~1.5%。漏失率的計算方式為不良元件數量/總元件數量×100%。在經由人耳檢測完畢之後,再利用機台對聲紋、聲壓級(sound pressure level,SPL)的頻響曲線、抗阻(Impedance,IMP)等指標檢測。因此,目前
產品組裝流程需要耗費人耳檢測以及機台兩道關卡。
然而,金耳朵訓練不易,加之產線人員標記時標準不一致,以及疲勞造成的檢測品質不相同。再加上資料標記的標準沒有對齊,造成識別模型正確率驗證上的困難。目前工廠聲學資料的標記流程為由人為觸發設備發出聲音,再由人耳進行標記。然,此作法會因發聲元件的位置、角度與觸發力度不一致,即使聽覺維持水準,仍有機會標記結果錯誤(不同)。此外,金耳朵專家培訓不易,加之產線人員進行標記時標準不一致,以及疲勞造成的檢測品質不相同。並且,金耳朵專家並無法聆聽數位音檔以進行標記或復判。
本發明提供一種瑕疵檢測模型的建立方法及電子裝置,採用兩階段式的模型建立,提升最終模型輸出的準確度。
本發明的瑕疵檢測模型的建立方法,包括:基於訓練樣本集來建立第一分類模型,其中訓練樣本集包括多個訓練樣本;將所述訓練樣本分別輸入至第一分類模型,以獲得訓練樣本各自的分類結果;基於分類結果自所述訓練樣本中獲得分類錯誤的多個離群樣本;自所述訓練樣本中刪除分類錯誤的部分離群樣本,而將剩餘的訓練樣本作為最佳樣本集;以及基於最佳樣本集來建立第二分類模型,以透過該第二分類模型來進行一瑕疵檢測。
在本發明的一實施例中,所述訓練樣本各自標記有正樣
本標籤或負樣本標籤,分類結果包括對應至正樣本標籤的第一分數與對應至負樣本標籤的第二分數。基於分類結果自所述訓練樣本中獲得分類錯誤的離群樣本的步驟包括:基於分類結果,判斷各訓練樣本是否分類錯誤;將標記有正樣本標籤且分類結果中的第二分數大於第一分數的訓練樣本判定為分類錯誤的離群樣本;以及將標記有負樣本標籤且分類結果中的第一分數大於第二分數的訓練樣本判定為分類錯誤的離群樣本。
在本發明的一實施例中,在判斷各訓練樣本是否分類錯誤之後,更包括:將標記有正樣本標籤且分類結果中的第二分數大於第一分數的訓練樣本分類至第一錯誤群組;以及將標記有負樣本標籤且分類結果中的第一分數大於第二分數的訓練樣本分類至第二錯誤群組。自所述訓練樣本中刪除分類錯誤的部分離群樣本的步驟包括:基於第二分數,排序第一錯誤群組所包括的離群樣本,並自排序後的第一錯誤群組中由高至低刪除指定比例的離群樣本;以及基於第一分數,排序第二錯誤群組所包括的離群樣本,並自排序後的第二錯誤群組中由高至低刪除指定比例的離群樣本。
在本發明的一實施例中,所述訓練樣本各自標記有正樣本標籤或負樣本標籤,分類結果包括對應至正樣本標籤的第一分數與對應至負樣本標籤的第二分數。自所述訓練樣本中刪除分類錯誤的部分離群樣本的步驟包括:刪除標記有正樣本標籤且第二分數大於預設門檻值的離群樣本;以及刪除標記有負樣本標籤且
第一分數大於預設門檻值的離群樣本。
在本發明的一實施例中,基於訓練樣本集來建立第一分類模型的步驟包括:利用對比式學習來訓練第一分類模型,其中對比式學習包括下述步驟:(a1)自訓練樣本集中隨機取出標記有正樣本標籤的訓練樣本以及標記有負樣本標籤的訓練樣本;(a2)對步驟(a1)所取出的所述訓練樣本進行相似度比對,藉此來調整第一分類模型的參數;以及(a3)重複執行上述步驟(a1)、(a2),直到第一分類模型分類所述訓練樣本的準確率高於指定值。
在本發明的一實施例中,在步驟(a1)中標記有正樣本標籤的訓練樣本的數量為1個或2個,標記有負樣本標籤的訓練樣本的數量為1個。
在本發明的一實施例中,基於最佳樣本集來建立第二分類模型的步驟包括:利用對比式學習來訓練第二分類模型,其中對比式學習包括下述步驟:(b1)自最佳樣本集中隨機取出標記有正樣本標籤的訓練樣本以及標記有負樣本標籤的訓練樣本;(b2)對步驟(b1)所取出的所述訓練樣本進行相似度比對,藉此來調整第二分類模型的參數;以及(b3)重複執行上述步驟(b1)、(b2),直到第二分類模型分類所述訓練樣本的漏失率小於或等於指定比率(例如為0.1)。
在本發明的一實施例中,在步驟(b1)中標記有正樣本標籤的訓練樣本的數量為1個或2個,標記有負樣本標籤的訓練樣本的數量為1個。
在本發明的一實施例中,各訓練樣本為時譜圖,所述瑕疵檢測模型的建立方法更包括:收集多個音訊訊號,其中各音訊訊號已標記有正樣本標籤或負樣本標籤;對各音訊訊號執行傅立葉轉換;以及將執行傅立葉轉換後的音訊訊號轉換為時譜圖,並將時譜圖及其對應的正樣本標籤或負樣本標籤加入至訓練樣本集。
在本發明的一實施例中,所述瑕疵檢測模型的建立方法更包括:對該訓練樣本集中的各時譜圖執行資料增強處理。
在本發明的一實施例中,在建立第二分類模型之後,更包括:接收錄製音檔;轉換錄製音檔為時譜圖;將時譜圖輸入至第二分類模型,以獲得預測結果,藉此判斷錄製音檔是否有異音;以及基於預測結果輸出報表至使用者介面。
本發明的電子裝置,包括:儲存裝置,包括訓練樣本集以及多個模組,其中訓練樣本集包括多個訓練樣本;以及處理器,耦接至儲存裝置,且經配置以執行所述模組來完成下述動作:基於訓練樣本集來建立第一分類模型;將所述訓練樣本分別輸入至第一分類模型,以獲得訓練樣本各自的分類結果;基於分類結果自所述訓練樣本中獲得分類錯誤的多個離群樣本;自所述訓練樣本中刪除分類錯誤的部分離群樣本,而將剩餘的訓練樣本作為最佳樣本集;以及基於最佳樣本集來建立第二分類模型,以透過該第二分類模型來進行一瑕疵檢測。
基於上述,本發明採用兩階段式的訓練來刪除離群資
料,藉此可提高第二分類模型在進行瑕疵檢測的準確率。
100:電子裝置
110:處理器
120:儲存裝置
121:訓練樣本集
122:資料轉換模組
123:第一訓練模組
124:篩選模組
125:第二訓練模組
310:第一分類模型
320:第二分類模型
330:最佳樣本集
340:部分離群樣本
500:機台
510:錄音設備
S205~S225:建立模型方法的步驟
S405~S430:對比式學習的步驟
圖1是依照本發明一實施例的電子裝置的方塊圖。
圖2是依照本發明一實施例的瑕疵檢測模型的建立方法流程圖。
圖3是依照本發明一實施例的兩階段式模型建立的示意圖。
圖4是依照本發明一實施例的對比式學習的流程圖。
圖5是依照本發明一實施例的機台的示意圖。
圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1,電子裝置100包括處理器110以及儲存裝置120。處理器110耦接至儲存裝置120。在此,電子裝置100用以建立分類模型,以對錄製音檔進行分類。
處理器110例如是中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphics Processing Unit,GPU),或是其他可程式化之微處理器(Mioroprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。
儲存裝置120例如是任意型式的固定式或可移動式隨機存取記憶體、唯讀記憶體、快閃記憶體、安全數位卡、硬碟或其他類似裝置或這些裝置的組合。儲存裝置120中包括訓練樣本集121、資料轉換模組122、第一訓練模組123、篩選模組124以及第二訓練模組125。其中,訓練樣本集121包括多個訓練樣本,這些訓練樣本各自標記有正樣本標籤或負樣本標籤。資料轉換模組122、第一訓練模組123、篩選模組124以及第二訓練模組125例如由一或多個程式碼片段組成,在上述程式碼片段在被安裝後,由處理器110來執行以實現各模組的動作。
資料轉換模組122用以將所收集的資料轉換為適當的訓練樣本。第一訓練模組123用以利用訓練樣本集121來建立第一分類模型。篩選模組124基於訓練完的第一分類模型的分類結果而在訓練樣本集121中進行篩選,藉此來刪除部分離群樣本而獲得最佳樣本集。第二訓練模組125用以利用最佳樣本集來建立第二分類模型,以透過所述第二分類模型來作為最終的瑕疵檢測模型,而藉由最終的瑕疵檢測模型來進行瑕疵檢測。
由於傳統的機器學習演算法對於聲學瑕疵檢測的檢測模型的處理方式容易造執行特徵轉換時損失太多特徵值以及分類模型的泛化性過低兩大問題,造成分類效果不彰。例如,梅爾倒頻譜(Mel-Frequency Cepstrum,MFC)在轉換資料的過程中損失太多聲音的特徵,使的接下來執行機器學習分類器的時候造成負面影響。而在損失過多特徵值的情況下,支援向量機(Support Vector
Machine,SVM)的學習效果不彰。基此,在本實施例中,採用對比式學習(Contrastive Learning)來分別建立第一分類模型與第二分類模型。
圖2是依照本發明一實施例的瑕疵檢測模型的建立方法流程圖。圖3是依照本發明一實施例的兩階段式模型建立的示意圖。請參照圖1~圖3,首先,在步驟S205中,由第一訓練模組123基於訓練樣本集121來建立第一分類模型310。
在此,訓練樣本集121中包括多個訓練樣本,這些訓練樣本例如為時譜圖(spectrogram)。在進行兩階段式的模型訓練之前,預先收集多個音訊訊號。所收集的各音訊訊號已標記有正樣本標籤或負樣本標籤。正樣本標籤表示此音訊訊號為正常(未帶有雜音/異音),負樣本標籤表示此音訊訊號為異常(例如帶有雜音/異音)。例如,可事先由人耳來判斷所收集的音訊訊號是否為正常或異常,以對各音訊訊號進行正樣本標籤或負樣本標籤標記。或者,將多個被判定為良好的發聲元件所發出的多個音訊訊號(未帶有雜音)標記一正樣本標籤,將多個被判定為不良的發聲元件所發出的多個音訊訊號(帶有雜音)標記一負樣本標籤。
實務上發現,倘若訓練樣本的標準不一致,則建立的模型勢必無法達到預期的效果,因此在資料標記的流程中,加入資料對齊標準的步驟,同一份發聲元件的標記結果,由兩位金耳朵專家共同判斷,並檢驗是否標記的結果一致,如不相同則由兩位金耳朵專家共同重複判斷其聲音資料應標記為正樣本標籤或是負
樣本標籤,再以對齊標準後的聲音檔案資料來進行模型的訓練。
在獲得帶有標籤(正樣本標籤或負樣本標籤)的音訊訊號之後,處理器110透過資料轉換模組122對各音訊訊號執行多傅立葉轉換(Fourier transform),並將執行傅立葉轉換後的音訊訊號轉換為時譜圖,之後,將時譜圖作為訓練樣本而將其連同對應的正樣本標籤或負樣本標籤加入至訓練樣本集。相較於採用梅爾倒頻譜在轉換資料的過程中損失太多聲音特徵的問題,將音訊訊號轉換為時譜圖的作法可以保留更多個聲音特徵。
而在轉換為時譜圖之後,資料轉換模組122還可進一步對時譜圖執行資料增強處理。資料增強處理所指為在模型進行訓練之前,隨機對訓練樣本(時譜圖)進行不同的變化,藉此增加訓練樣本的多樣性。一張圖片經過旋轉、切裁、調整等處理來改變其大小、比例,或者對圖片進行偏移或翻轉、改變亮度或色溫等處理後,來獲得完全不同的新圖像。例如,將圖片隨機平移,會使圖片中的目標在訓練過程中不斷移動;對圖片隨機縮放,則會使其不斷放大或縮小。透過資料增強處理可將既有的圖片予以修改變形,使得資料集中,仍能讓機器學習到該圖片的重要特徵。
資料增強能夠增加資料集的變異程度(Variants),但不能過頭,若使噪聲遠多於資訊,反而對訓練來說是傷害。不管時譜圖如何增強,原先已標記為正樣本標籤或負樣本標籤的時譜圖並不會改變其標記的標籤狀態,且資料增強的附加好處是可以增加訓練樣本的數量。
在本實施例中,採用對比式學習來訓練第一分類模型310。對比式學習包括下述步驟:(a1)自訓練樣本集121中隨機取出標記有正樣本標籤的訓練樣本以及標記有負樣本標籤的訓練樣本;(a2)對步驟(a1)所取出的所述訓練樣本進行相似度比對,藉此來調整第一分類模型310的參數;以及(a3)重複執行上述步驟(a1)、(a2),直到第一分類模型310分類所述訓練樣本的準確率高於指定值(例如80%)。所述步驟(a2)是用以讓標記為正樣本標籤的訓練樣本與標記為負樣本標籤的訓練樣本兩者之間的差異更大。
在訓練完第一分類模型310之後,在步驟S210中,將多個訓練樣本分別輸入至第一分類模型310,以獲得各訓練樣本的分類結果。所述分類結果包括對應至正樣本標籤的第一分數與對應至負樣本標籤的第二分數。第一分數與第二分數分別代表分類至正樣本標籤與負樣本標籤的機率值,且第一分數與第二分數相加等於1。倘若第一分數高於第二分數,代表其對應的訓練樣本被第一分類模型310分類為正樣本標籤。倘若第二分數高於第一分數,代表其對應的訓練樣本被第一分類模型310分類為負樣本標籤。
接著,在步驟S215中,基於分類結果自訓練樣本中獲得分類錯誤的多個離群樣本。篩選模組124基於分類結果,判斷各訓練樣本是否分類錯誤,藉此將第一分類模型310分類錯誤的訓練樣本視為是離群樣本。透過篩選模組124將標記有正樣本標籤且分類結果中的第二分數大於第一分數的訓練樣本判定為分類錯
誤的離群樣本。並且,透過篩選模組124將標記有負樣本標籤且分類結果中的第一分數大於第二分數的訓練樣本判定為分類錯誤的離群樣本。
之後,在步驟S220中,自所述訓練樣本中刪除部分離群樣本340,而將剩餘的訓練樣本作為最佳樣本集330。在一實施例中,篩選模組124可按照指定比例來刪除部分離群樣本340。具體而言,篩選模組124在判斷各訓練樣本是否分類錯誤之後,將標記有正樣本標籤且分類結果中的第二分數大於第一分數的訓練樣本分類至第一錯誤群組,並將標記有負樣本標籤且分類結果中的第一分數大於第二分數的訓練樣本分類至第二錯誤群組。接著,篩選模組124基於第二分數,排序第一錯誤群組所包括的離群樣本,並自排序後的第一錯誤群組中由高至低刪除指定比例的離群樣本。並且,篩選模組124基於第一分數,排序第二錯誤群組所包括的離群樣本,並自排序後的第二錯誤群組中由高至低刪除指定比例的離群樣本。
例如,假設指定比例為10%,正樣本標籤為“OK”,負樣本標籤為“NG”,將標記為“OK”而被錯誤分類為“NG”的離群樣本按照對應於“NG”的第二分數由高至低進行排序,之後,刪除前10%的離群樣本;並且,將標記為“NG”而被錯誤分類為“OK”的離群樣本按照對應於“OK”的第一分數由高至低進行排序,之後,刪除前10%的離群樣本。
在另一實施例中,篩選模組124亦可根據一預設門檻值
來刪除部分離群樣本340。具體而言,篩選模組124將標記有正樣本標籤且第二分數大於預設門檻值的離群樣本刪除,並且將標記有負樣本標籤且第一分數大於預設門檻值的所述離群樣本刪除。在此,預設門檻值設定為大於0.5且小於1。
在獲得最佳樣本集330之後,在步驟S225中,由第二訓練模組125基於最佳樣本集330來建立第二分類模型320,以透過第二分類模型320來進行後續的瑕疵檢測。所述第二分類模型320便是最終的瑕疵檢測模型。在本實施例中,採用對比式學習法來訓練第二分類模型320。所述對比式學習包括下述步驟:(b1)自最佳樣本集330中隨機取出標記有正樣本標籤的訓練樣本以及標記有負樣本標籤的訓練樣本;(b2)對步驟(b1)所取出的所述訓練樣本進行相似度比對,藉此來調整第二分類模型320的參數;以及(b3)重複執行上述步驟(b1)、(b2),直到第二分類模型320的分類訓練樣本的漏失率小於或等於指定比率(例如為0.1)。所述步驟(b2)是用以讓標記為正樣本標籤的訓練樣本與標記為負樣本標籤的訓練樣本兩者之間的差異更大。
圖4是依照本發明一實施例的對比式學習的流程圖。請參照圖4,在步驟S405中,隨機取出正負樣本組合。即,以隨機抽樣方式選出標記為正樣本標籤的訓練樣本與標記為負樣本標籤的訓練樣本的配對,以成對方式送入分類器(第一分類模型或第二分類模型)中訓練。主要目的是讓分類器充分學習分辨正樣本與負樣本之間的差異,次要目的則是讓正負樣本的數量平衡,以
防止分類器因為負樣本不足導致偏頗。所述標記有正樣本標籤的訓練樣本的數量為1個或2個,標記有負樣本標籤的訓練樣本的數量為1個。
接著,在步驟S410中,將所選擇的訓練樣本輸入至編碼器以獲得一特徵向量。在本實施例中,採用卷積神經網路(convolutional neural network,CNN)編碼器,在訓練樣本(時譜圖)中提取特徵向量。在其他實施例中,編碼器還可採用ResNet或VGG19。由於CNN可以一邊學習特徵,一邊將特徵投影至高維度,因此可達到更理想的分類準確度。
之後,在步驟S415中,進行特徵描述萃取(Representation extraction),用以自編碼器所提取的特徵向量中取出潛在空間(Latent Space)的特徵向量。
然後,在步驟S420中,進行特徵投射(Projection Head),其為一種非線性的投射資料過程(non-linear projection),採用全連接層網路(fully-connected network),例如,採用多層感知器(multi-layer perceptron,MLP)將步驟S415得到的潛在空間的特徵向量進行轉換,其目的是為了放大(強化)特徵,並且最大化網路識別經過不同方式轉換的同張圖片的能力。
接著,在步驟S425中,設計損失函數。損失函數的設計方式採用將正樣本拉近,負樣本推遠的概念。而後,在步驟S430中,進行相似度比對。而相似度比對的衡量方法,基本上是採用內積(dot product)的方式。在使用標記有正樣本標籤的訓練樣本
(正樣本)與標記有負樣本標籤的訓練樣本(負樣本)各1的情況下,比較兩者的相似度。在使用2個正樣本與1個負樣本的情況下,判斷正樣本A與正樣本B的相似度應該越相近越好,並且判斷正樣本A與負樣本C的相似度應該越不相似越好。透過對比式學習可讓同一類的特徵越像,讓不同類的特徵越不像。所述對比式學習框架的更詳細描述可參照SimCLR框架。於一實施例中,訓練模型時進行相似度比對,計算相應的損失函數,借由損失函數調整模型參數,並繼續訓練模型,使下一次計算的損失函數逐漸變小。讓模型識別訓練樣本的特徵,並識別標記有正樣本標籤的訓練樣本的特徵與標記有負樣本標籤的訓練樣本的特徵不相似。
圖5是依照本發明一實施例的機台的示意圖。請參照圖5,機台500包括圖1所示的電子裝置100以及錄音設備510。透過錄音設備510來獲得錄製音檔,並將錄製音檔傳送至電子裝置100。電子裝置100在接收到錄製音檔之後,將錄製音檔轉換為時譜圖,並執行資料增強處理等動作之後,將處理完的時譜圖輸入至訓練完的第二分類模型320,以獲得預測結果,藉此判斷錄製音檔是否有異音。並且,基於預測結果輸出報表至使用者介面。所述報表內容包括欲進行檢測的錄製音檔的總數量、誤判為“NG”的數量、正確分類為“NG”的數量、誤判為“OK”的數量、正確分類為“OK”的數量、漏失率、過殺率(overkill rate)、穩定度(stability)、檢測平均時間等。
綜上所述,本發明實施例採用兩階段式的訓練來刪除離群資料,藉此可提高第二分類模型(最終的瑕疵檢測模型)進行瑕疵檢測的準確率。此外,採用對比式學習以及半監督式學習(Semi-Supervised Learning)的訓練方式,配合時譜圖轉換技術,建立人工智慧聲學檢測模型。與習知透過人耳檢測的方式相比,本發明實施例建立人工智慧的聲學檢測模型,可大幅降低漏失率。並且,人工智慧的聲學檢測模型以流程自動化方式取代傳統人力,降低人力成本。
S205~S225:建立模型方法的步驟
Claims (19)
- 一種瑕疵檢測模型的建立方法,包括:基於一訓練樣本集來建立一第一分類模型,其中該訓練樣本集包括多個訓練樣本;將該些訓練樣本分別輸入至該第一分類模型,以獲得該些訓練樣本各自的一分類結果;基於該分類結果自該些訓練樣本中獲得分類錯誤的多個離群樣本;自該些訓練樣本中刪除分類錯誤的部分該些離群樣本,而將剩餘的訓練樣本作為一最佳樣本集;以及基於該最佳樣本集來建立一第二分類模型,以透過該第二分類模型來進行一瑕疵檢測。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中該些訓練樣本各自標記有一正樣本標籤或一負樣本標籤,該分類結果包括對應至該正樣本標籤的一第一分數與對應至該負樣本標籤的一第二分數,其中,基於該分類結果自該些訓練樣本中獲得分類錯誤的該些離群樣本的步驟包括:基於該分類結果,判斷每一該些訓練樣本是否分類錯誤;將標記有該正樣本標籤且該分類結果中的該第二分數大於該第一分數的訓練樣本判定為分類錯誤的所述離群樣本;以及將標記有該負樣本標籤且該分類結果中的該第一分數大於該 第二分數的訓練樣本判定為分類錯誤的所述離群樣本。
- 如請求項2所述的瑕疵檢測模型的建立方法,其中在判斷每一該些訓練樣本是否分類錯誤之後,更包括:將標記有該正樣本標籤且該分類結果中的該第二分數大於該第一分數的訓練樣本分類至一第一錯誤群組;以及將標記有該負樣本標籤且該分類結果中的該第一分數大於該第二分數的訓練樣本分類至一第二錯誤群組;其中,自該些訓練樣本中刪除分類錯誤的部分該些離群樣本的步驟包括:基於該第二分數,排序該第一錯誤群組所包括的該些離群樣本,並自排序後的該第一錯誤群組中由高至低刪除一指定比例的該些離群樣本;以及基於該第一分數,排序該第二錯誤群組所包括的該些離群樣本,並自排序後的該第二錯誤群組中由高至低刪除該指定比例的該些離群樣本。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中該些訓練樣本各自標記有一正樣本標籤或一負樣本標籤,該分類結果包括對應至該正樣本標籤的一第一分數與對應至該負樣本標籤的一第二分數,其中,自該些訓練樣本中刪除分類錯誤的部分該些離群樣本的步驟包括:刪除標記有該正樣本標籤且該第二分數大於一預設門檻值的 所述離群樣本;以及刪除標記有該負樣本標籤且該第一分數大於該預設門檻值的所述離群樣本。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中基於該訓練樣本集來建立該第一分類模型的步驟包括:利用一對比式學習來訓練該第一分類模型,其中該對比式學習包括下述步驟:(a1)自該訓練樣本集中隨機取出標記有一正樣本標籤的訓練樣本以及標記有一負樣本標籤的訓練樣本;(a2)對步驟(a1)所取出的所述訓練樣本進行相似度比對,藉此來調整該第一分類模型的參數;以及(a3)重複執行上述步驟(a1)、(a2),直到該第一分類模型分類所述訓練樣本的準確率高於一指定值。
- 如請求項5所述的瑕疵檢測模型的建立方法,其中在步驟(a1)中標記有該正樣本標籤的訓練樣本的數量為1個或2個,標記有該負樣本標籤的訓練樣本的數量為1個。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中基於該最佳樣本集來建立該第二分類模型的步驟包括:利用一對比式學習來訓練該第二分類模型,其中該對比式學習包括下述步驟:(b1)自該最佳樣本集中隨機取出標記有一正樣本標籤的訓練樣本以及標記有一負樣本標籤的訓練樣本; (b2)對步驟(b1)所取出的所述訓練樣本進行相似度比對,藉此來調整該第二分類模型的參數;以及(b3)重複執行上述步驟(b1)、(b2),直到該第二分類模型分類所述訓練樣本的一漏失率小於或等於一指定比率。
- 如請求項7所述的瑕疵檢測模型的建立方法,其中在步驟(b1)中標記有該正樣本標籤的訓練樣本的數量為1個或2個,標記有該負樣本標籤的訓練樣本的數量為1個。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中每一該些訓練樣本為一時譜圖,所述瑕疵檢測模型的建立方法更包括:收集多個音訊訊號,其中每一該些音訊訊號已標記有一正樣本標籤或一負樣本標籤;對每一該些音訊訊號執行一傅立葉轉換;以及將執行該傅立葉轉換後的每一該些音訊訊號轉換為該時譜圖,並將該時譜圖及其對應的該正樣本標籤或該負樣本標籤加入至該訓練樣本集。
- 如請求項9所述的瑕疵檢測模型的建立方法,更包括:對該訓練樣本集中的各該時譜圖執行一資料增強處理。
- 如請求項1所述的瑕疵檢測模型的建立方法,其中在建立該第二分類模型之後,更包括:接收一錄製音檔; 轉換該錄製音檔為一時譜圖;將該時譜圖輸入至該第二分類模型,以獲得一預測結果,藉此判斷該錄製音檔是否有異音;以及基於該預測結果輸出一報表至一使用者介面。
- 一種電子裝置,包括:一儲存裝置,包括一訓練樣本集以及多個模組,其中該訓練樣本集包括多個訓練樣本;以及一處理器,耦接至該儲存裝置,且經配置以執行所述模組來完成下述動作:基於該訓練樣本集來建立一第一分類模型;將該些訓練樣本分別輸入至該第一分類模型,以獲得該些訓練樣本各自的一分類結果;基於該分類結果自該些訓練樣本中獲得分類錯誤的多個離群樣本;自該些訓練樣本中刪除分類錯誤的部分該些離群樣本,而將剩餘的訓練樣本作為一最佳樣本集;以及基於該最佳樣本集來建立一第二分類模型,以透過該第二分類模型來進行一瑕疵檢測。
- 如請求項12所述的電子裝置,其中該些訓練樣本各自標記有一正樣本標籤或一負樣本標籤,該分類結果包括對應至該正樣本標籤的一第一分數與對應至該負樣本標籤的一第二分數, 其中,該處理器經配置以:基於該分類結果,判斷每一該些訓練樣本是否分類錯誤;將標記有該正樣本標籤且該分類結果中的該第二分數大於該第一分數的訓練樣本判定為分類錯誤的所述離群樣本;以及將標記有該負樣本標籤且該分類結果中的該第一分數大於該第二分數的訓練樣本判定為分類錯誤的所述離群樣本。
- 如請求項13所述的電子裝置,其中該處理器經配置以:將標記有該正樣本標籤且該分類結果中的該第二分數大於該第一分數的訓練樣本分類至一第一錯誤群組;將標記有該負樣本標籤且該分類結果中的該第一分數大於該第二分數的訓練樣本分類至一第二錯誤群組;基於該第二分數,排序該第一錯誤群組所包括的該些離群樣本,並自排序後的該第一錯誤群組中由高至低刪除一指定比例的該些離群樣本;以及基於該第一分數,排序該第二錯誤群組所包括的該些離群樣本,並自排序後的該第二錯誤群組中由高至低刪除該指定比例的該些離群樣本。
- 如請求項12所述的電子裝置,其中該些訓練樣本各自標記有一正樣本標籤或一負樣本標籤,該分類結果包括對應至該正樣本標籤的一第一分數與對應至該負樣本標籤的一第二分數, 其中,該處理器經配置以:刪除標記有該正樣本標籤且該第二分數大於一預設門檻值的所述離群樣本;以及刪除標記有該負樣本標籤且該第一分數大於該預設門檻值的所述離群樣本。
- 如請求項12所述的電子裝置,其中該處理器經配置以利用一對比式學習來分別訓練該第一分類模型與該第二分類模型。
- 如請求項12所述的電子裝置,其中每一該些訓練樣本為一時譜圖,該處理器經配置以:收集多個音訊訊號,其中每一該些音訊訊號已標記有一正樣本標籤或一負樣本標籤;對每一該些音訊訊號執行一傅立葉轉換;以及將執行該傅立葉轉換後的每一該些音訊訊號轉換為該時譜圖,並將該時譜圖及其對應的該正樣本標籤或該負樣本標籤加入至該訓練樣本集。
- 如請求項17所述的電子裝置,其中該處理器經配置以:對該訓練樣本集中的各該時譜圖執行一資料增強處理。
- 如請求項12所述的電子裝置,其中該處理器經配置以:接收一錄製音檔; 轉換該錄製音檔為一時譜圖;將該時譜圖輸入至該第二分類模型,以獲得一預測結果,藉此判斷該錄製音檔是否有異音;以及基於該預測結果輸出一報表至一使用者介面。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110131889A TWI780881B (zh) | 2021-08-27 | 2021-08-27 | 瑕疵檢測模型的建立方法及電子裝置 |
CN202111175917.1A CN115730242A (zh) | 2021-08-27 | 2021-10-09 | 瑕疵检测模型的建立方法及电子装置 |
US17/500,946 US20230066499A1 (en) | 2021-08-27 | 2021-10-14 | Method for establishing defect detection model and electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110131889A TWI780881B (zh) | 2021-08-27 | 2021-08-27 | 瑕疵檢測模型的建立方法及電子裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI780881B true TWI780881B (zh) | 2022-10-11 |
TW202309876A TW202309876A (zh) | 2023-03-01 |
Family
ID=85288521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110131889A TWI780881B (zh) | 2021-08-27 | 2021-08-27 | 瑕疵檢測模型的建立方法及電子裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230066499A1 (zh) |
CN (1) | CN115730242A (zh) |
TW (1) | TWI780881B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983923B1 (en) * | 2022-12-08 | 2024-05-14 | Netflix, Inc. | Systems and methods for active speaker detection |
CN117116290B (zh) * | 2023-08-03 | 2024-05-24 | 中科航迈数控软件(深圳)有限公司 | 基于多维特征的数控机床部件缺陷定位方法和相关设备 |
CN117115158B (zh) * | 2023-10-23 | 2024-02-02 | 深圳市信润富联数字科技有限公司 | 基于深度对比学习的缺陷检测方法及装置 |
CN117593595B (zh) * | 2024-01-18 | 2024-04-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的样本增广方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941266B1 (en) * | 2000-11-15 | 2005-09-06 | At&T Corp. | Method and system for predicting problematic dialog situations in a task classification system |
TWI689841B (zh) * | 2017-08-01 | 2020-04-01 | 香港商阿里巴巴集團服務有限公司 | 資料加密、機器學習模型訓練方法、裝置及電子設備 |
TWI694341B (zh) * | 2017-11-20 | 2020-05-21 | 香港商阿里巴巴集團服務有限公司 | 一種資料樣本標籤處理方法、裝置及電腦設備 |
CN112990375A (zh) * | 2021-04-29 | 2021-06-18 | 北京三快在线科技有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
-
2021
- 2021-08-27 TW TW110131889A patent/TWI780881B/zh active
- 2021-10-09 CN CN202111175917.1A patent/CN115730242A/zh active Pending
- 2021-10-14 US US17/500,946 patent/US20230066499A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6941266B1 (en) * | 2000-11-15 | 2005-09-06 | At&T Corp. | Method and system for predicting problematic dialog situations in a task classification system |
TWI689841B (zh) * | 2017-08-01 | 2020-04-01 | 香港商阿里巴巴集團服務有限公司 | 資料加密、機器學習模型訓練方法、裝置及電子設備 |
TWI694341B (zh) * | 2017-11-20 | 2020-05-21 | 香港商阿里巴巴集團服務有限公司 | 一種資料樣本標籤處理方法、裝置及電腦設備 |
CN112990375A (zh) * | 2021-04-29 | 2021-06-18 | 北京三快在线科技有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20230066499A1 (en) | 2023-03-02 |
TW202309876A (zh) | 2023-03-01 |
CN115730242A (zh) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI780881B (zh) | 瑕疵檢測模型的建立方法及電子裝置 | |
TWI682325B (zh) | 辨識系統及辨識方法 | |
CN110189769B (zh) | 基于多个卷积神经网络模型结合的异常声音检测方法 | |
KR101969504B1 (ko) | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 | |
CN108831443B (zh) | 一种基于堆叠自编码网络的移动录音设备源识别方法 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
CN110633725A (zh) | 训练分类模型的方法和装置以及分类方法和装置 | |
US9043207B2 (en) | Speaker recognition from telephone calls | |
KR100770895B1 (ko) | 음성 신호 분리 시스템 및 그 방법 | |
US20210319804A1 (en) | Systems and methods using neural networks to identify producers of health sounds | |
Korshunov et al. | Tampered speaker inconsistency detection with phonetically aware audio-visual features | |
Fadchar et al. | A non-destructive approach of young coconut maturity detection using acoustic vibration and neural network | |
CN110189767B (zh) | 一种基于双声道音频的录制移动设备检测方法 | |
TWI707299B (zh) | 光學檢測二次圖像分類方法 | |
TW202400991A (zh) | Pcb缺陷檢測模型的評估方法、評估裝置及訓練方法 | |
Solera-Urena et al. | Transfer Learning-Based Cough Representations for Automatic Detection of COVID-19. | |
Whitehill et al. | Whosecough: In-the-wild cougher verification using multitask learning | |
CN111998936B (zh) | 一种基于迁移学习的设备异音检测方法及*** | |
CN117672202A (zh) | 一种基于深度卷积生成对抗网络的环境声音分类方法 | |
JP7123306B2 (ja) | 画像処理装置及び画像処理方法 | |
CN115641856A (zh) | 一种语音的重复音频检测方法、装置及存储介质 | |
KR100472953B1 (ko) | Svm을 이용한 얼굴 영역 검출 방법 | |
CN113948107A (zh) | 一种基于端到端的cnn故障诊断模型的发动机故障诊断方法 | |
Xie et al. | Acoustic features for multi-level classification of Australian frogs | |
CN109215633A (zh) | 基于递归图分析的腭裂语音鼻漏气的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |