TWI747334B

TWI747334B - 檢測數據詐欺裝置、方法、程式產品及電腦可讀取媒體

Info

Publication number: TWI747334B
Application number: TW109120434A
Authority: TW
Inventors: 王其宏
Original assignee: 王其宏
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-11-21
Also published as: TW202201254A

Abstract

一種檢測數據詐欺裝置、方法、程式產品及電腦可讀取媒體，該檢測數據詐欺裝置包含：一量測數據擷取模組、一儲存模組、一量測數據處理模組、一模擬數據產生模組、一量測數據分類模組、一量測間隔異常偵測模組、一校正模組及一詐欺數據推定模組。當一量測間隔被該量測間隔異常偵測模組判斷為一可疑間隔，且一量測數據分布被該量測數據分類模組分類為一可疑數據分布時，該詐欺數據推定模組由該量測數據分布推定詐欺數據。藉此，可以遠距即時分析質檢之該量測數據的有效性，避免人為偽造數據而詐欺，即時反映真實的品質水平。

Description

檢測數據詐欺裝置、方法、程式產品及電腦可讀取媒體

本發明係關於一種機器學習及詐欺識別的裝置、方法、程式產品及電腦可讀取媒體，特別是指一種檢測數據詐欺的裝置、方法、程式產品及電腦可讀取媒體。

過去的詐欺識別多數用在銀行、證券、保險業中，例如有US 8,862,526 B2、US 10,115,111 B2以及US 10,325,271 B2，主要是藉由系統生成對應用戶的因果模型，並藉由因果模型預測用戶在下一個事件期間的期望行為。普遍用於語音識別或聯合機率預測的隱藏式馬可夫模型(Hidden Markov Model,HMM)，除了在CN 105608536 A中被使用於其他產業的風險及失誤預測，也在WO 2019037205 A1中被使用在詐欺識別的方面。

對於量測設備的詐欺行為或意圖，大多以硬體手段偵測，具體例如有EP 2205947 A1及EP 1564533 B1等等，但前述專利案未能考量設備的通用性。

爰此，本發明人為解決供應鏈中不信任所產生的重複檢驗問題，以及重複檢驗所衍生的質檢成本並縮短交期，而提出一種檢測數據詐欺裝置，用於檢測一量測設備的一量測行為，該檢測數據詐欺裝置包含：一量測數據擷取模組，讀取該量測設備量測到的一量測數據及一量測間隔；一儲存模組，訊號連接該量測數據擷取模組，該儲存模組儲存該量測數據及該量測間隔；一量測數據處理模組，訊號連接該儲存模組，該量測數據處理模組根據該量測數據的一量測數據分布與對應的一規格值，計算其z-score分布及取得一特徵值集合；一模擬數據產生模組，訊號連接該量測數據處理模組，該模擬數據產生一模擬正常數據及一模擬詐欺數據的分布，並取得該模擬正常數據及該模擬詐欺數據的一模擬特徵值集合；一量測數據分類模組，訊號連接該量測數據處理模組及該模擬數據產生模組，該量測數據分類模組根據該特徵值集合或該模擬特徵值集合進行訓練及特徵選擇運算，建立一分類模型，以分類該量測數據分布是否為一可疑數據分布；一量測間隔異常偵測模組，訊號連接該儲存模組，該量測間隔異常偵測模組根據該量測間隔建立一無監督學習模型，以判斷該量測間隔是否為一可疑間隔；以及一詐欺數據推定模組，訊號連接該量測間隔異常偵測模組、該量測數據分類模組及該儲存模組，當該無監督學習模型判斷該量測間隔為該可疑間隔，且該分類模型將該量測數據分布分類至該可疑數據分布時，該詐欺數據推定模組以一隱藏式馬可夫模型推定對應的詐欺數據。

進一步，有一校正模組訊號連接該量測數據擷取模組及該詐欺數據推定模組，該校正模組包含一簡單物件，該校正模組由配合運用該簡單物件取得一校正參數，該隱藏式馬可夫模型由該校正模組的該校正參數及Baum-Welch演算法分別建立並與一初始條件的良率比較而得到，且詐欺數據的推定係由該隱藏式馬可夫模型以Viterbi演算法得之。

進一步，該校正模組給予一校正指令，該校正模組根據對該簡單物件執行該校正指令的結果決定該校正參數。

其中，該模擬數據產生模組利用亂數產生該模擬詐欺數據。

其中，該量測數據擷取模組利用OCR(Optical Character Recognition)技術讀取該量測數據。

其中，該量測數據分類模組以支持向量機(Support Vector Machine,SVM)及/或隨機森林(Random Forests,RF)演算法建立該分類模型。

其中，該量測間隔異常偵測模組以孤立森林(Isolation Forests,IF)及/或z-score演算法建立該無監督學習模型。

其中，該量測數據分類模組利用自助法抽樣以取得該特徵值集合及該模擬特徵值集合。

其中，該量測數據處理模組對該量測數據分布及該規格值進行z-score分布轉換。

本發明人再提出一種檢測數據詐欺方法，包含：利用一量測數據擷取模組讀取一量測設備量測到的一量測數據及一量測間隔；利用一儲存模組儲存該量測數據及該量測間隔，利用一量測數據處理模組根據該量測數據的一量測數據分布與對應的一規格值，計算取得一特徵值集合；利用一量測數據分類模組根據該特徵值集合，或一模擬正常數據及一模擬詐欺數據的一模擬特徵值集合進行訓練及特徵選擇運算，建立一分類模型，以分類該量測數據分布是否為一可疑數據分布；利用一量測間隔異常偵測模組根據該量測間隔建立一無監督學習模型，以判斷該量測間隔是否為一可疑間隔；以及當該無監督學習模型判斷該量測間隔為該可疑間隔，且該分類模型將該量測數據分布分類至該可疑數據分布時，一詐欺數據推定模組以一隱藏式馬可夫模型推定對應的詐欺數據。

進一步，利用一校正模組配合運用一簡單物件取得一校正參數；該隱藏式馬可夫模型由該校正模組的該校正參數及Baum-Welch演算法建立並與一初始條件的良率比較而得到，且詐欺數據的推定係由該隱藏式馬可夫模型以Viterbi演算法得之。

其中，該模擬正常數據及該模擬詐欺數據為該儲存模組中儲存的一歷史量測數據及一歷史量測間隔，或是由一模擬數據產生模組產生該模擬正常數據及該模擬詐欺數據的分布。

其中，該量測數據擷取模組利用OCR技術讀取該量測數據。

其中，該量測數據分類模組以支持向量機及/或隨機森林演算法建立該分類模型。

其中，該量測間隔異常偵測模組以孤立森林及/或z-score演算法建立該無監督學習模型。

本發明人進一步提供一種程式產品，用以在載入一電腦裝置後，執行前述檢測數據詐欺方法。

本發明人進一步提供一種電腦可讀取媒體，用以在載入一電腦裝置後，執行前述檢測數據詐欺方法。

根據上述技術特徵可達成以下功效：

1.可以遠距即時分析質檢量測數據的有效性，避免人為偽造數據而詐欺，同時即時反映真實的品質水平，提早發現可能的品質問題及減少重複質檢所需資源、耗費成本。

2.模擬數據產生模組產生模擬正常數據及模擬詐欺數據，量測數據分類模組再據此進行機器學習而建立分類模型，可以縮短建立分類模型的所需時間，提升檢測數據詐欺裝置的實用性。

3.利用無監督學習模型識別可疑間隔，可以客觀決定量測間隔是否為可疑間隔，並同時將詐欺行為的動機與實際觀測可疑現象列入是否為詐欺數據的判斷參考。

4.校正模組取得質檢者對簡單物件的校正參數，做為建立隱藏式馬可夫模型的參數參考，增加Baum-Welch演算法以外的選項，提高檢測數據詐欺裝置的穩定性。

100:檢測數據詐欺裝置

1:量測數據擷取模組

11:量測數據

12:量測間隔

2:儲存模組

3:量測數據處理模組

31:歷史量測數據分布

32:歷史量測數據z-score分布

33:標稱值

34:下限值

35:上限值

36:z-score標稱值

37:z-score下限值

38:z-score上限值

39:z-score特徵值集合

4:模擬數據產生模組

41:模擬數據z-score分布

42:模擬特徵值集合

5:量測數據分類模組

S501:進行訓練

S502:特徵選擇運算

51:分類模型

52:最適特徵值集合

6:量測間隔異常偵測模組

61:無監督學習模型

S601:孤立森林演算法

S602:z-score演算法

62:汙染參數

63:異常分數

64:閾值參數

7:校正模組

71:簡單物件

72:盲測箱

73:校正指令分析產生器

74:內徑

75:外徑

76:柱高

77:校正參數

78:校正參數表

79:激勵指數

8:詐欺數據推定模組

81:隱藏式馬可夫模型

811:狀態轉移矩陣

812:觀測概率矩陣

813:初始狀態

82:觀測序列

821:可能抽樣OK/NG集合

[第一圖]係本發明實施例之系統方塊圖。

[第二圖]係本發明實施例之功能方塊圖一。

[第三圖]係本發明實施例之功能方塊圖二。

[第四圖]係本發明實施例之功能方塊圖三。

[第五圖]係本發明實施例之功能方塊圖四。

[第六圖]係本發明實施例之功能方塊圖五。

[第七圖]係本發明實施例之功能方塊圖六。

[第八圖]係本發明實施例之校正模組之實施示意圖。

[第九圖]係本發明實施例之校正之流程示意圖。

[第十圖]係本發明實施例之詐欺數據推定模組之功能方塊圖。

[第十一圖]係本發明實施例之詐欺數據推定之流程示意圖。

綜合上述技術特徵，本發明檢測數據詐欺裝置、方法、程式產品及電腦可讀取媒體的主要功效將可於下述實施例清楚呈現。

請參閱第一圖，係揭示本發明實施例檢測數據詐欺裝置100，用於執行一檢測數據詐欺方法以檢測一量測行為，也可以做為一種程式產品或一種電腦可讀取媒體，在載入一電腦裝置後，執行該檢測數據詐欺方法，該檢測數據詐欺裝置100包含：一量測數據擷取模組1、一儲存模組2、一量測數據處理模組3、一模擬數據產生模組4、一量測數據分類模組5、一量測間隔異常偵測模組6、一校正模組7及一詐欺數據推定模組8。

請參閱第一圖及第二圖，該量測數據擷取模組1讀取一量測設備在質檢過程中所顯示的一量測數據11及一量測間隔12，該量測數據擷取模組1可以是具有拍照功能的各種電子設備，包含但不限於智能手機、平板電腦等等，並可以在該量測數據擷取模組1上安裝應用軟體以讀入影像並使用OCR技術讀取該量測數據11。該量測間隔12是上次該量測數據11完成確認至本次該量測數據11完成確認之間的時間間隔。該量測數據擷取模組1在完成每一次的影像擷取之後，可以藉由語音、影像、燈光等方式提示操作該量測設備的一質檢者確認是否要繼續進行影像擷取，也可以由該質檢者先預設要影像擷取的次數，該量測數據擷取模組1根據要影像擷取的次數於該質檢者確認後自動進行至完成影像擷取。

該儲存模組2訊號連接該量測數據擷取模組1，該量測數據擷取模組1取得該量測數據11及該量測間隔12後送至該儲存模組2而做為一歷史量測數據儲存，而儲存在該儲存模組2中的該歷史量測數據可以在後續的步驟中被分類。

請參閱第一圖及第三圖，該量測數據處理模組3訊號連接該儲存模組2，該量測數據處理模組3可以先就儲存在該儲存模組2中的該歷史量測數據產生一歷史量測數據分布31，計算平均值、標準差後進行z-score轉換，並取得一歷史量測數據z-score分布32。該量測數據處理模組3也可以對預先設置的一規格值，例如一標稱值33、一下限值34及一上限值35，進行z-score轉換，並分別取得一z-score標稱值36、一z-score下限值37及一z-score上限值38。該量測數據處理模組3依照所設定的一量測數量(例如30件)形成的該歷史量測數據分布31取得該歷史量測數據z-score分布32後，還可以計算該歷史量測數據z-score分布32的一z-score特徵值集合39，該z-score特徵值集合39包含但不限於偏度、峰度等描述統計量數。若未達成該量測數量(例如小於30件但大於15件)，該量測數據處理模組3則可以利用自助抽樣法(Bootstrapping)重複抽樣至該量測數量並計算特徵值後，遞迴例如10,000次再利用中央極限定理取出平均值而產生該z-score特徵值集合39。

請參閱第一圖及第四圖，並請搭配第三圖，該模擬數據產生模組4訊號連接該量測數據處理模組3，可以利用亂數模擬產生一模擬數據z-score分布41，若該模擬數據z-score分布41中的數據低於該z-score下限值37或高於該z-score上限值38，則藉由包含但不限於以下所列的方式處理：重新進行亂數取樣、以該z-score標稱值36取代、或由z=0取代產生數據。該模擬數據產生模組4再計算該模擬數據z-score分布41的一模擬特徵值集合42，該模擬特徵值集合42包含但不限於偏度、峰度等描述統計量數。

請參閱第一圖及第五圖，該量測數據分類模組5訊號連接該量測數據處理模組3及該模擬數據產生模組4，該量測數據分類模組5就該z-score特徵值集合39或該模擬特徵值集合42以監督式學習進行訓練S501及特徵選擇運算S502，進而建立一分類模型51。該分類模型51至少可以使用支持向量機或隨機森林演算法建立。當使用支持向量機演算法建立該分類模型51時，可以利用迭代特徵消除(Recursive Feature Elimination,RFE)與交叉驗證(Cross Validation,CV)找出一最適特徵值集合52以建立該分類模型51；當使用隨機森林演算法建立該分類模型51時，可以計算特徵重要性(Feature Importance)，取得特徵重要性比集合均值還要大的特徵做為該最適特徵值集合52進行訓練以建立該分類模型51。該分類模型51可以用來判斷分類新輸入的該最適特徵值集合52是否為一可疑數據分布。該模擬數據產生模組4先產生該模擬正常數據及該模擬詐欺數據，該量測數據分類模組5再據此進行機器學習而建立該分類模型51，可以縮短建立該分類模型51的所需時間，提升該檢測數據詐欺裝置100的實用性。

請參閱第一圖及第六圖，該量測間隔異常偵測模組6訊號連接該儲存模組2，該量測間隔異常偵測模組6可以利用孤立森林演算法S601或z-score演算法S602建立一無監督學習模型61。當使用孤立森林演算法S601建立該無監督學習模型61時，該量測間隔異常偵測模組6先就該儲存模組2中儲存的該量測間隔12與預設的一汙染參數62(Contamination Parameter)，該汙染參數62例如3%，計算一異常分數63，將該異常分數63為負值的該量測間隔12設為異常值以建立該無監督學習模型61。同時該量測間隔異常偵測模組6可以將該異常分數 63的分布進行四分位數計算，並以第三四分位數及第一四分位數分別加減如2倍第三四分位數及第一四分位數間之差值，做為新的異常值上下限，可以較佳的以相對分數界定異常值。當使用z-score演算法S602建立該無監督學習模型61時，先取一閾值參數(Threshold value)64，該閾值參數64例如3，進行z-score轉換後，該量測間隔12超過±3的即設為異常值。

請參閱第五圖及第六圖，並請搭配第一圖至第三圖，當發現該量測間隔12為異常值，也就是一可疑間隔時，該量測間隔異常偵測模組6會與該詐欺數據推定模組8溝通，使該量測數據分類模組5啟動該分類模型51以就該儲存模組2儲存的該歷史量測數據分布31(例如過去30件)得到的該最適特徵值集合52進行判斷分類。利用該無監督學習模型61識別該可疑間隔，可以客觀決定該量測間隔12是否為該可疑間隔，並同時將詐欺行為的動機與實際分類出的該可疑數據分布列入是否為一詐欺數據的判斷參考，舉例來說，若該量測數據11超過該規格值，該質檢者就有動機進行詐欺行為，詐欺行為例如使用該規格值取代該量測數據11，或是重複使用符合該規格值的該量測數據11，都會使該量測間隔12加長，以及該歷史量測數據分布31扭曲。

請參閱第七圖至第九圖，並請搭配第一圖及第二圖，該校正模組7訊號連接該量測數據擷取模組1，該校正模組7包含已知幾何尺寸的複數簡單物件71、一盲測箱72及一校正指令分析產生器73。所述簡單物件71例如可以是五個外觀一致、尺寸差異甚小的空心圓柱體，並至少具備三個尺寸：一內徑74、一外徑75及一柱高76，且各尺寸間彼此獨立。在該質檢者首次使用該檢測數據詐欺裝置100前，該校正指令分析產生器73利用該量測數據擷取模組1給予一校正指令，例如依序量測所述簡單物件71的某一尺寸(例如該內徑74)若干次以蒐集初始之該量測間隔12的分布，送至該校正指令分析產生器73後，並根據該量測間隔12的分布產生一個人化行為測試項目：該校正模組7可以提示並依不同程度的一激勵指數79激勵該質檢者於給定時間內(如m秒)隨機選取所述簡單物件71並就另一個尺寸(例如該外徑75)進行量測直到量測結果滿足預設的指定條件(例如有n次的量測結果大於或小於d)，該激勵指數79例如i%，蒐集量測結果包含次數、該量測數據11及該量測間隔12決定存於一校正參數表78中的一校正參數77，該校正參數77對應該質檢者反應該校正指令的行為，且該校正參數77可以做為一隱藏式馬可夫模型81之一觀測概率矩陣812的輸入[該隱藏式馬可夫模型81及該觀測概率矩陣812請搭配第十圖]。該校正參數表78例如可以在欄標題填入A、B、C、D……，列標題則填入6、7……，該校正參數表78中的每個該校正參數77都各自對應到單一的欄標題與單一的列標題，A6欄位即對應到欄標題A及列標題6，該校正參數表78的A6欄位的值為0.996、B6欄位的值為0.985、C6欄位的值為0.95、D6欄位的值為0.1，以這些值做為該校正參數77，實際實施時，該校正參數77及該校正參數表78不限於此。

該校正指令分析產生器73的運算判斷過程進一步舉例說明如下：

1.接收到初始之該量測間隔12後，形成總體機率密度函數p(t)，假設p是常態分布(μ,σ)。

2.逆分布

，其中，f為頻率機率密度函數，b為t的倒數。

3.給定該量測間隔12，例如m秒，則新的分布會變成fm(m μ,m σ)。

4.設計概率極低的測試為：在給定的m秒內，完成若干次的試驗以獲得至少n次小於d的結果。檢查q=3時，n+q的結果是否低於該激勵指數79，例如i%。然後計算累積分布函數P而min m=P(0.95|(n+q)μ,(n+q)σ)。

5.舉例來說，若五個尺寸依序為v、w、x、y及z，且w<d<x，假設n>5為通常質檢批次檢測數，故n=6，則完成的機率如下：

(1)n=6,q=0：

。這是指連續6次取得尺寸小於d的物件。

(2)n=6,q=1：

。

(3)n=6,q=2：

3.10%。

(4)n=6,q=3：

9.91%。

(5)根據以上計算結果，在這個案例中n=6，q=0，與q=1、2，或試驗在時間內超過9次結束時，結果會被判定為可疑，此時該校正參數77分別參照該校正參數表78的A6欄位、B6欄位及C6欄位，其餘結果的該校正參數77則參照該校正參數表78的D6欄位。

6.再以n=7的另一個案例做說明，同樣w<d<x，則完成的機率如下：

(1)n=7,q=0：

。這是指連續7次取得尺寸小於d的物件。

(2)n=7,q=1：

。

(3)n=7,q=2：

。

(4)n=7,q=3：

。

(5)根據以上計算結果，在這個案例中，n=7，q=0、與q=1、2、3，或試驗在時間內超過10次結束時，結果會被判定為可疑。但由於在本案例中，檢查q=3的結果並不大於該激勵指數79(本案例中設為5%)，故在該激勵指數79下不產生該校正指令。

7.再以n=7的另一個案例做說明，此時x<d<y，則完成的機率如下：

(1)n=7,q=0：

。這是指連續7次取得尺寸小於d的物件。

(2)n=7,q=1：

。

(3)n=7,q=2：

12.54%。

(4)n=7,q=3：

15.05%。

(5)根據以上計算結果，在這個案例中，完成測試的可能性更高，而不會被判定為可疑。除試驗在時間內超過10次結束時該校正參數77設為C7=0.95，其餘的該校正參數77為A7=B7=D7=0.1。

在某些狀況下，如認為需再次進行校正以確認該質檢者行為，可改變該激勵指數79產生新的該校正指令以再次進行。

請參閱第七圖、第十圖及第十一圖，並請搭配第一圖、第五圖及第六圖，該詐欺數據推定模組8訊號連接該校正模組7、該量測間隔異常偵測模組6、該量測數據分類模組5及該儲存模組2。當發現該量測間隔12為該可疑間隔時，該量測間隔異常偵測模組6與該詐欺數據推定模組8溝通，使該量測數據分類模組5啟動該分類模型51，若該最適特徵值集合52也被分類於該可疑數據分布，則該詐欺數據推定模組8就該最適特徵值集合52對應之已儲存的該量測間隔12以該無監督學習模型61轉換輸出一觀測序列82，進而建立該隱藏式馬可夫模型81。

該隱藏式馬可夫模型81(λ)包含一狀態轉移矩陣811(A)、該觀測概率矩陣812(B)及一初始狀態813(Π)，通常表示為λ=(A，B，Π)。該狀態轉移矩陣811可以為2D矩陣，該狀態轉移矩陣811的列為當前狀態，行則為下一狀態，用以表示每次與下次抽樣的量測概率結果，例如

而A[1,2]=0.7代表本次抽樣樣本為OK良品而下次為NG不良品的概率為0.7，由於抽樣結果為獨立事件而且兩次抽樣結果互斥，因此每一列的總和為1。該觀測概率矩陣812也可以為2D矩陣，該觀測概率矩陣812的列為狀態，行則為觀測，例如

而B[2,2]=0.9代表抽樣樣本為NG不良品而觀測到該可疑間隔的概率為0.9。

請參閱第七圖、第十圖及第十一圖，並請搭配第三圖，可以就該觀測序列82所對應的該歷史量測數據z-score分布32、該z-score下限值37及該z-score上限值38計算良率(OK，NG)例如

做為該初始狀態813，並複製擴展於各列做為該狀態轉移矩陣811，例如

，以及利用該校正模組7所得的該校正參數77建立對應的該觀測概率矩陣812，以該校正參數表78的B6欄位舉例，則

，其中OK列在本例中可預設為

以建立該隱藏式馬可夫模型81(λ)後再以維特比(Viterbi)演算法運算該觀測序列82的一可能抽樣OK/NG集合821計算良率。再以相同之該歷史量測數據z-score分布32的良率做為該初始狀態813(Π)而利用Baum-Welch演算法所得到的該隱藏式馬可夫模型81對應的良率與該初始狀態813做比較，決定所使用的最可能之該隱藏式馬可夫模型81及所產生的詐欺數據。藉由該校正參數77，增加Baum-Welch演算法以外建立該隱藏式馬可夫模型81的參考選項，提高該檢測數據詐欺裝置100[該檢測數據詐欺裝置100請搭配第一圖]的穩定性。

復請參閱第一圖及第二圖，藉由該檢測數據詐欺裝置100，可以遠距即時分析質檢之該量測數據11的有效性，避免人為偽造數據而詐欺，同時即時反映真實的品質水平，提早發現可能的品質問題及減少重複質檢所需資源、耗費成本。

綜合上述實施例之說明，當可充分瞭解本發明之操作、使用及本發明產生之功效，惟以上所述實施例僅係為本發明之較佳實施例，當不能以此限定本發明實施之範圍，即依本發明申請專利範圍及發明說明內容所作簡單的等效變化與修飾，皆屬本發明涵蓋之範圍內。