TWI784941B

TWI784941B - 一種多重抽樣模型訓練方法及裝置

Info

Publication number: TWI784941B
Application number: TW106104131A
Authority: TW
Inventors: 張柯; 褚崴; 施興; 謝樹坤; 謝鋒
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-02-26
Filing date: 2017-02-08
Publication date: 2022-12-01
Also published as: US11734353B2; CN107133436A; TW201734837A; US20180365525A1; WO2017143921A1

Abstract

本發明揭露了一種多重抽樣模型訓練方法及裝置，本發明訓練方法先對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；接著以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；並採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；最後採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型。本發明訓練裝置包括抽樣模組、第一訓練模組、評估模組和第二訓練模組。本發明的方法及裝置所得到的模型將具有更強的穩健性與穩定性，預測精度更加準確，大大提高建模效率。

Description

一種多重抽樣模型訓練方法及裝置

本發明屬於機器學習技術領域，尤其關於一種多重抽樣模型訓練方法及裝置。

“花唄”是螞蟻金服旗下螞蟻小貸在淘寶、天貓上提供給消費者“這月買下月還”的網購服務，其本質是小額消費貸款，就目前使用者情況來看，貸款額度最低1000元，最高50000元。由於“花唄”與***有著同樣的功能一先消費後付款，這就為套現創造了空間。

在“花唄”反套現模型的業務場景中，需要用到機器學習演算法對資料進行分類或回歸計算，其中，訓練樣本的品質與數量對模型的預測效果將產生直接影響。另一方面，反套現模型是針對“花唄”賣家所制定的模型，即一個賣家對應一條樣本，故資料樣本總量不會太大，還遠遠達不到“大數據”的標準，且部分賣家的資訊由於各種原因還存在預設的現象，如果只是單純用這些資料進行建模，效果將會大打折扣。

現有技術對小樣本資料模型(包括花唄反套現模型) 進行建模，主要是將樣本總集劃分為訓練集與驗證集，訓練集的資料將用於機器學習模型訓練，接著利用驗證集對模型效果進行驗證。這裡存在的缺點是，如果訓練集的樣本劃分比例過大，那麼驗證集的資料量相對減少，從而達不到對模型效果充分驗證的目的；但如果訓練集的樣本劃分比例過小，那麼訓練出的模型將直接由於訓練不充分而導致模型預測精度下降。由此可見，由於資料樣本量有限而導致的模型訓練效果不佳已經成為反套現模型建模中急需解決的問題。

本發明的目的是提供一種多重抽樣模型訓練方法及裝置，解決現有技術由於資料樣本量有限而導致的模型訓練效果不佳問題。

為了實現上述目的，本發明技術方案如下：一種多重抽樣模型訓練方法，所述訓練方法包括：對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型。

進一步第，所述對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集，包括：將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。

進一步地，所述採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型，包括：採用訓練得到的模型分別評估訓練集和驗證集，得到每個訓練得到的模型對應的性能指標；根據每個訓練得到的模型對應的性能指標，計算得到特徵值；根據計算得到特徵值，淘汰特徵值小於設定閾值的訓練得到的模型。

進一步地，所述以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練，包括：訓練得到每個訓練得到的模型的第一模型參數。

進一步地，所述採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型，包括：採用保留下的模型，分別對全體樣本進行預測，根據模型的第一模型參數，計算得到每個樣本的第一預測值；將每個樣本的第一預測值輸入到模型中進行再次模型訓練，得到每個模型的第二模型參數；根據每個模型的第二模型參數以及每個樣本的第一預測值，計算得到每個樣本的第二預測值，以計算得到的第二預測值作為模型的最終輸出。

本發明還提出了一種多重抽樣模型訓練裝置，所述訓練裝置包括：抽樣模組，用於對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；第一訓練模組，用於以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；評估模組，用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；第二訓練模組，用於採用評估模組保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型。

進一步地，所述抽樣模組對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集，執行如下操作：將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。

進一步地，所述評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型時，執行如下操作：採用訓練得到的模型分別評估訓練集和驗證集，得到每個訓練得到的模型對應的性能指標；根據每個訓練得到的模型對應的性能指標，計算得到特徵值；根據計算得到特徵值，淘汰特徵值小於設定閾值的訓練得到的模型。

進一步地，所述第一訓練模組在以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練時，訓練得到每個訓練得到的模型的第一模型參數。

進一步地，所述第二訓練模組在採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型時，執行如下操作：採用保留下的模型，分別對全體樣本進行預測，根據模型的第一模型參數，計算得到每個樣本的第一預測值；將每個樣本的第一預測值輸入到模型中進行再次模型訓練，得到每個模型的第二模型參數；根據每個模型的第二模型參數以及每個樣本的第一預測值，計算得到每個樣本的第二預測值，以計算得到的第二預測值作為模型的最終輸出。

本發明提出的一種多重抽樣模型訓練方法及裝置，藉由多重抽樣多重驗證的組合模型對小樣本資料進行多重採集多重訓練，最後將其再藉由機器學習演算法進行組合，從而使訓練出的模型具有更加好的穩健性與穩定性，充分反復挖掘這些樣本背後使用者的行為，使其達到最好的模型擬合效果，提高預測精度。

S1‧‧‧步驟

S2‧‧‧步驟

S3‧‧‧步驟

S4‧‧‧步驟

圖1為本發明多重抽樣模型訓練方法流程圖；圖2為本發明實施例多重抽樣示意圖；圖3為本發明多重抽樣模型訓練裝置結構示意圖。

下面結合附圖和實施例對本發明技術方案做進一步詳細說明，以下實施例不構成對本發明的限定。

如圖1所示，本實施例一種多重抽樣模型訓練方法，包括如下步驟：

步驟S1：對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集。

本實施例以“花唄”反套現模型的業務場景為例，樣本資料總體量不大，每個賣家對應一條樣本。本發明的多重抽樣可以直接從全體樣本中抽取一定數量的訓練集，剩下的作為驗證集，抽樣n次得到n個訓練集和n個驗證集。也可以將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。

如圖2所示，本實施例將全體樣本平均分為五個子集，分別記為資料樣本子集1、2、3、4、5。

在五個資料樣本子集中，隨機地抽取三個子集作為訓練集，其餘兩個子集作為驗證集。

採用同樣的抽取方法反復進行n次，產生n個訓練集與n個驗證集，記為訓練集1、驗證集1，訓練集2、驗證集2，...，訓練集n、驗證集n。

本實施例經過上述多重抽樣，使得原本數量有限的資料樣本隨機組合為n個訓練集和驗證集，便於在後續的模型訓練中提供足夠的訓練樣本和驗證樣本。

步驟S2：以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練。

本實施例以100個人的樣本為例，每個樣本有特徵變數(X變數)3個，分別為身高1、體重2、年齡3；目標變數(Y變數)為是否是壞人的概率。

將100個人的樣本分為5組，進行多重抽樣。假設進行了3次抽樣，得到3份不同的樣本資料進行模型訓練，得到了三組第一模型參數，分別記為A組W_1A、W_2A、W_3A，B組W_1B、W_2B、W_3B，C組W_1C、W_2C、W_3C。

需要說明的是，本實施例不限於進行模型訓練的具體方法，例如邏輯回歸訓練或是深度神經網路訓練等，進行模型訓練的過程就是訓練得到模型參數的過程，這裡不再贅述。

步驟S3：採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型。

進行模型評估時常根據ROC曲線來進行評價，例如根據準確度、靈敏度或AUC來進行評價，其中AUC是ROC曲線下的面積。模型的性能越好ROC曲線就越向左上方靠攏，它下面的面積(AUC)也就應該越大。就可以根據AUC的值來評估一個模型的預測效果。

以用於評價模型整體性能指標AUC為例，記訓練集與驗證集的AUC分別為AUCtrain與AUCverify。

引入每個模型的特徵值Criterion，保留Criterion大於0的模型，淘汰掉Criterion分小於0的模型，具體公式如下：

其中，AUCtraini與AUCverifyi分別表示第i個模型訓練集與驗證集的AUC，

表示的意思則是該模型的淘汰準則。

需要說明的是，用於評價模型的整體性能指標，還可以採用柯爾莫哥洛夫-斯摩洛夫檢驗(Kolmogorov-Smirnov，KS檢驗)，本發明不限於具體的性能指標，及對應的淘汰準則。

步驟S4：採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型。

本實施例中，假設分組訓練得到的三個模型都是滿足淘汰準則保留下的模型，則利用得到的三組模型參數，就可以給這100個人進行打分，每個人分別有3個概率值，比如probA=pred(身高值*W_1A+體重值*W_2A+年齡值*W_3A)，同樣可以求出probB和probC。

例如將100個人的樣本輸入到A、B、C三組模型中，每人得到三個概率值probA、probB和probC。

隨後進行組合訓練，即利用probA、probB和probC作為輸入，目標變數不變，再進行模型訓練，得出的第二模型參數為WprobA、WprobB和WprobC。

最後根據如下公式求出的概率probFinal就是最終判別某個人是否是壞人的概率：probFinal=pred(probA值*WprobA+probB值*WprobB+probC值*WprobC)。

經過上述組合模型訓練後的模型即為最終模型，可用於對個人的樣本進行識別。所得到的模型將具有更強的穩健性與穩定性，預測精度更加準確，且完全無需人工干預，完全由程式自動執行，大大提高建模效率。

如圖3所示，本實施例一種多重抽樣模型訓練裝置，包括：抽樣模組，用於對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；第一訓練模組，用於以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；評估模組，用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；第二訓練模組，用於採用評估模組保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型。

本實施例抽樣模組對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集，執行如下操作：將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。本實施例採用這樣的多重抽樣方法抽樣的訓練樣本資料更加均勻，用於模型訓練效果更好。

本實施例評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型時，執行如下操作：採用訓練得到的模型分別評估訓練集和驗證集，得到每個訓練得到的模型對應的性能指標；根據每個訓練得到的模型對應的性能指標，計算得到特徵值；根據計算得到特徵值，淘汰特徵值小於設定閾值的訓練得到的模型。

與本發明方法對應地，本實施例性能指標為AUC，根據每個模型的特徵值Criterion進行淘汰，這裡不再贅述。

本實施例第一訓練模組在以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練時，訓練得到每個訓練得到的模型的第一模型參數。

則第二訓練模組在採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型時，執行如下操作：採用保留下的模型，分別對全體樣本進行預測，根據模型的第一模型參數，計算得到每個樣本的第一預測值；將每個樣本的第一預測值輸入到模型中進行再次模型訓練，得到每個模型的第二模型參數；根據每個模型的第二模型參數以及每個樣本的第一預測值，計算得到每個樣本的第二預測值，以計算得到的第二預測值作為模型的最終輸出。

從而訓練得到最終的模型，可用於對個人的樣本進行識別。所得到的模型將具有更強的穩健性與穩定性，預測精度更加準確，且完全無需人工干預，完全由程式自動執行，大大提高建模效率。

以上實施例僅用以說明本發明的技術方案而非對其進行限制，在不背離本發明精神及其實質的情況下，熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形，但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims

一種多重抽樣模型訓練方法，所述訓練方法包括：以網購賣家的資訊為樣本，對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型；其中，所述以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練，包括：訓練得到每個訓練得到的模型的第一模型參數；其中，所述採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型，包括：採用保留下的模型，分別對全體樣本進行預測，根據模型的第一模型參數，計算得到每個樣本的第一預測值；將每個樣本的第一預測值輸入到模型中進行再次模型訓練，得到每個模型的第二模型參數；根據每個模型的第二模型參數以及每個樣本的第一預測值，計算得到每個樣本的第二預測值，以計算得到的第二預測值作為模型的最終輸出；其中，所述對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集，包括：將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。
根據申請專利範圍第1項所述的多重抽樣模型訓練方法，其中，所述採用訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型，包括：採用訓練得到的模型分別評估訓練集和驗證集，得到每個訓練得到的模型對應的性能指標；根據每個訓練得到的模型對應的性能指標，計算得到特徵值；根據計算得到特徵值，淘汰特徵值小於設定閾值的訓練得到的模型。
一種多重抽樣模型訓練裝置，所述訓練裝置包括：抽樣模組，用於以網購賣家的資訊為樣本，對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集；第一訓練模組，用於以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練；評估模組，用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型；第二訓練模組，用於採用評估模組保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型；其中，所述第一訓練模組在以每次抽樣得到的訓練集和驗證集為一組，採用其中的訓練集進行模型訓練時，訓練得到每個訓練得到的模型的第一模型參數；其中，所述第二訓練模組在採用保留下的模型，對全體樣本進行預測，並採用預測得到的結果對保留下的模型進行組合模型訓練，得到最終的模型時，執行如下操作：採用保留下的模型，分別對全體樣本進行預測，根據模型的第一模型參數，計算得到每個樣本的第一預測值；將每個樣本的第一預測值輸入到模型中進行再次模型訓練，得到每個模型的第二模型參數；根據每個模型的第二模型參數以及每個樣本的第一預測值，計算得到每個樣本的第二預測值，以計算得到的第二預測值作為模型的最終輸出；其中，所述抽樣模組對全體樣本進行多重抽樣，得到每次抽樣的訓練集和驗證集，執行如下操作：將全體樣本分為m個子集，對m個子集進行多重抽樣，得到n個訓練集和n個驗證集。
根據申請專利範圍第3項所述的多重抽樣模型訓練裝置，其中，所述評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集，根據訓練集和驗證集的評估結果，以及設定的淘汰準則淘汰訓練得到的模型時，執行如下操作：採用訓練得到的模型分別評估訓練集和驗證集，得到每個訓練得到的模型對應的性能指標；根據每個訓練得到的模型對應的性能指標，計算得到特徵值；根據計算得到特徵值，淘汰特徵值小於設定閾值的訓練得到的模型。