TWI784941B - 一種多重抽樣模型訓練方法及裝置 - Google Patents

一種多重抽樣模型訓練方法及裝置 Download PDF

Info

Publication number
TWI784941B
TWI784941B TW106104131A TW106104131A TWI784941B TW I784941 B TWI784941 B TW I784941B TW 106104131 A TW106104131 A TW 106104131A TW 106104131 A TW106104131 A TW 106104131A TW I784941 B TWI784941 B TW I784941B
Authority
TW
Taiwan
Prior art keywords
model
training
sampling
trained
verification
Prior art date
Application number
TW106104131A
Other languages
English (en)
Other versions
TW201734837A (zh
Inventor
張柯
褚崴
施興
謝樹坤
謝鋒
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201734837A publication Critical patent/TW201734837A/zh
Application granted granted Critical
Publication of TWI784941B publication Critical patent/TWI784941B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本發明揭露了一種多重抽樣模型訓練方法及裝置,本發明訓練方法先對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;接著以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;並採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型;最後採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型。本發明訓練裝置包括抽樣模組、第一訓練模組、評估模組和第二訓練模組。本發明的方法及裝置所得到的模型將具有更強的穩健性與穩定性,預測精度更加準確,大大提高建模效率。

Description

一種多重抽樣模型訓練方法及裝置
本發明屬於機器學習技術領域,尤其關於一種多重抽樣模型訓練方法及裝置。
“花唄”是螞蟻金服旗下螞蟻小貸在淘寶、天貓上提供給消費者“這月買下月還”的網購服務,其本質是小額消費貸款,就目前使用者情況來看,貸款額度最低1000元,最高50000元。由於“花唄”與***有著同樣的功能一先消費後付款,這就為套現創造了空間。
在“花唄”反套現模型的業務場景中,需要用到機器學習演算法對資料進行分類或回歸計算,其中,訓練樣本的品質與數量對模型的預測效果將產生直接影響。另一方面,反套現模型是針對“花唄”賣家所制定的模型,即一個賣家對應一條樣本,故資料樣本總量不會太大,還遠遠達不到“大數據”的標準,且部分賣家的資訊由於各種原因還存在預設的現象,如果只是單純用這些資料進行建模,效果將會大打折扣。
現有技術對小樣本資料模型(包括花唄反套現模型) 進行建模,主要是將樣本總集劃分為訓練集與驗證集,訓練集的資料將用於機器學習模型訓練,接著利用驗證集對模型效果進行驗證。這裡存在的缺點是,如果訓練集的樣本劃分比例過大,那麼驗證集的資料量相對減少,從而達不到對模型效果充分驗證的目的;但如果訓練集的樣本劃分比例過小,那麼訓練出的模型將直接由於訓練不充分而導致模型預測精度下降。由此可見,由於資料樣本量有限而導致的模型訓練效果不佳已經成為反套現模型建模中急需解決的問題。
本發明的目的是提供一種多重抽樣模型訓練方法及裝置,解決現有技術由於資料樣本量有限而導致的模型訓練效果不佳問題。
為了實現上述目的,本發明技術方案如下:一種多重抽樣模型訓練方法,所述訓練方法包括:對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型;採用保留下的模型,對全體樣本進行預測,並採用預 測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型。
進一步第,所述對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集,包括:將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。
進一步地,所述採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型,包括:採用訓練得到的模型分別評估訓練集和驗證集,得到每個訓練得到的模型對應的性能指標;根據每個訓練得到的模型對應的性能指標,計算得到特徵值;根據計算得到特徵值,淘汰特徵值小於設定閾值的訓練得到的模型。
進一步地,所述以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練,包括:訓練得到每個訓練得到的模型的第一模型參數。
進一步地,所述採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型,包括:採用保留下的模型,分別對全體樣本進行預測,根據模型的第一模型參數,計算得到每個樣本的第一預測值;將每個樣本的第一預測值輸入到模型中進行再次模型 訓練,得到每個模型的第二模型參數;根據每個模型的第二模型參數以及每個樣本的第一預測值,計算得到每個樣本的第二預測值,以計算得到的第二預測值作為模型的最終輸出。
本發明還提出了一種多重抽樣模型訓練裝置,所述訓練裝置包括:抽樣模組,用於對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;第一訓練模組,用於以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;評估模組,用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型;第二訓練模組,用於採用評估模組保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型。
進一步地,所述抽樣模組對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集,執行如下操作:將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。
進一步地,所述評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型時,執行如下操作: 採用訓練得到的模型分別評估訓練集和驗證集,得到每個訓練得到的模型對應的性能指標;根據每個訓練得到的模型對應的性能指標,計算得到特徵值;根據計算得到特徵值,淘汰特徵值小於設定閾值的訓練得到的模型。
進一步地,所述第一訓練模組在以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練時,訓練得到每個訓練得到的模型的第一模型參數。
進一步地,所述第二訓練模組在採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型時,執行如下操作:採用保留下的模型,分別對全體樣本進行預測,根據模型的第一模型參數,計算得到每個樣本的第一預測值;將每個樣本的第一預測值輸入到模型中進行再次模型訓練,得到每個模型的第二模型參數;根據每個模型的第二模型參數以及每個樣本的第一預測值,計算得到每個樣本的第二預測值,以計算得到的第二預測值作為模型的最終輸出。
本發明提出的一種多重抽樣模型訓練方法及裝置,藉由多重抽樣多重驗證的組合模型對小樣本資料進行多重採集多重訓練,最後將其再藉由機器學習演算法進行組合,從而使訓練出的模型具有更加好的穩健性與穩定性,充分 反復挖掘這些樣本背後使用者的行為,使其達到最好的模型擬合效果,提高預測精度。
S1‧‧‧步驟
S2‧‧‧步驟
S3‧‧‧步驟
S4‧‧‧步驟
圖1為本發明多重抽樣模型訓練方法流程圖;圖2為本發明實施例多重抽樣示意圖;圖3為本發明多重抽樣模型訓練裝置結構示意圖。
下面結合附圖和實施例對本發明技術方案做進一步詳細說明,以下實施例不構成對本發明的限定。
如圖1所示,本實施例一種多重抽樣模型訓練方法,包括如下步驟:
步驟S1:對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集。
本實施例以“花唄”反套現模型的業務場景為例,樣本資料總體量不大,每個賣家對應一條樣本。本發明的多重抽樣可以直接從全體樣本中抽取一定數量的訓練集,剩下的作為驗證集,抽樣n次得到n個訓練集和n個驗證集。也可以將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。
如圖2所示,本實施例將全體樣本平均分為五個子集,分別記為資料樣本子集1、2、3、4、5。
在五個資料樣本子集中,隨機地抽取三個子集作為訓 練集,其餘兩個子集作為驗證集。
採用同樣的抽取方法反復進行n次,產生n個訓練集與n個驗證集,記為訓練集1、驗證集1,訓練集2、驗證集2,...,訓練集n、驗證集n。
本實施例經過上述多重抽樣,使得原本數量有限的資料樣本隨機組合為n個訓練集和驗證集,便於在後續的模型訓練中提供足夠的訓練樣本和驗證樣本。
步驟S2:以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練。
本實施例以100個人的樣本為例,每個樣本有特徵變數(X變數)3個,分別為身高1、體重2、年齡3;目標變數(Y變數)為是否是壞人的概率。
將100個人的樣本分為5組,進行多重抽樣。假設進行了3次抽樣,得到3份不同的樣本資料進行模型訓練,得到了三組第一模型參數,分別記為A組W1A、W2A、W3A,B組W1B、W2B、W3B,C組W1C、W2C、W3C
需要說明的是,本實施例不限於進行模型訓練的具體方法,例如邏輯回歸訓練或是深度神經網路訓練等,進行模型訓練的過程就是訓練得到模型參數的過程,這裡不再贅述。
步驟S3:採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型。
進行模型評估時常根據ROC曲線來進行評價,例如 根據準確度、靈敏度或AUC來進行評價,其中AUC是ROC曲線下的面積。模型的性能越好ROC曲線就越向左上方靠攏,它下面的面積(AUC)也就應該越大。就可以根據AUC的值來評估一個模型的預測效果。
以用於評價模型整體性能指標AUC為例,記訓練集與驗證集的AUC分別為AUCtrain與AUCverify。
引入每個模型的特徵值Criterion,保留Criterion大於0的模型,淘汰掉Criterion分小於0的模型,具體公式如下:
Figure 106104131-A0202-12-0008-1
其中,AUCtraini與AUCverifyi分別表示第i個模型訓練集與驗證集的AUC,
Figure 106104131-A0202-12-0008-6
表示的意思則是該模型的淘汰準則。
需要說明的是,用於評價模型的整體性能指標,還可以採用柯爾莫哥洛夫-斯摩洛夫檢驗(Kolmogorov-Smirnov,KS檢驗),本發明不限於具體的性能指標,及對應的淘汰準則。
步驟S4:採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型。
本實施例中,假設分組訓練得到的三個模型都是滿足 淘汰準則保留下的模型,則利用得到的三組模型參數,就可以給這100個人進行打分,每個人分別有3個概率值,比如probA=pred(身高值*W1A+體重值*W2A+年齡值*W3A),同樣可以求出probB和probC。
例如將100個人的樣本輸入到A、B、C三組模型中,每人得到三個概率值probA、probB和probC。
隨後進行組合訓練,即利用probA、probB和probC作為輸入,目標變數不變,再進行模型訓練,得出的第二模型參數為WprobA、WprobB和WprobC。
最後根據如下公式求出的概率probFinal就是最終判別某個人是否是壞人的概率:probFinal=pred(probA值*WprobA+probB值*WprobB+probC值*WprobC)。
經過上述組合模型訓練後的模型即為最終模型,可用於對個人的樣本進行識別。所得到的模型將具有更強的穩健性與穩定性,預測精度更加準確,且完全無需人工干預,完全由程式自動執行,大大提高建模效率。
如圖3所示,本實施例一種多重抽樣模型訓練裝置,包括:抽樣模組,用於對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;第一訓練模組,用於以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;評估模組,用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結 果,以及設定的淘汰準則淘汰訓練得到的模型;第二訓練模組,用於採用評估模組保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型。
本實施例抽樣模組對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集,執行如下操作:將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。本實施例採用這樣的多重抽樣方法抽樣的訓練樣本資料更加均勻,用於模型訓練效果更好。
本實施例評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型時,執行如下操作:採用訓練得到的模型分別評估訓練集和驗證集,得到每個訓練得到的模型對應的性能指標;根據每個訓練得到的模型對應的性能指標,計算得到特徵值;根據計算得到特徵值,淘汰特徵值小於設定閾值的訓練得到的模型。
與本發明方法對應地,本實施例性能指標為AUC,根據每個模型的特徵值Criterion進行淘汰,這裡不再贅述。
本實施例第一訓練模組在以每次抽樣得到的訓練集和 驗證集為一組,採用其中的訓練集進行模型訓練時,訓練得到每個訓練得到的模型的第一模型參數。
則第二訓練模組在採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型時,執行如下操作:採用保留下的模型,分別對全體樣本進行預測,根據模型的第一模型參數,計算得到每個樣本的第一預測值;將每個樣本的第一預測值輸入到模型中進行再次模型訓練,得到每個模型的第二模型參數;根據每個模型的第二模型參數以及每個樣本的第一預測值,計算得到每個樣本的第二預測值,以計算得到的第二預測值作為模型的最終輸出。
從而訓練得到最終的模型,可用於對個人的樣本進行識別。所得到的模型將具有更強的穩健性與穩定性,預測精度更加準確,且完全無需人工干預,完全由程式自動執行,大大提高建模效率。
以上實施例僅用以說明本發明的技術方案而非對其進行限制,在不背離本發明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形,但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims (4)

  1. 一種多重抽樣模型訓練方法,所述訓練方法包括:以網購賣家的資訊為樣本,對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型;採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型;其中,所述以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練,包括:訓練得到每個訓練得到的模型的第一模型參數;其中,所述採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型,包括:採用保留下的模型,分別對全體樣本進行預測,根據模型的第一模型參數,計算得到每個樣本的第一預測值;將每個樣本的第一預測值輸入到模型中進行再次模型訓練,得到每個模型的第二模型參數;根據每個模型的第二模型參數以及每個樣本的第一預 測值,計算得到每個樣本的第二預測值,以計算得到的第二預測值作為模型的最終輸出;其中,所述對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集,包括:將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。
  2. 根據申請專利範圍第1項所述的多重抽樣模型訓練方法,其中,所述採用訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結果,以及設定的淘汰準則淘汰訓練得到的模型,包括:採用訓練得到的模型分別評估訓練集和驗證集,得到每個訓練得到的模型對應的性能指標;根據每個訓練得到的模型對應的性能指標,計算得到特徵值;根據計算得到特徵值,淘汰特徵值小於設定閾值的訓練得到的模型。
  3. 一種多重抽樣模型訓練裝置,所述訓練裝置包括:抽樣模組,用於以網購賣家的資訊為樣本,對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集;第一訓練模組,用於以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練;評估模組,用於採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集的評估結 果,以及設定的淘汰準則淘汰訓練得到的模型;第二訓練模組,用於採用評估模組保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型;其中,所述第一訓練模組在以每次抽樣得到的訓練集和驗證集為一組,採用其中的訓練集進行模型訓練時,訓練得到每個訓練得到的模型的第一模型參數;其中,所述第二訓練模組在採用保留下的模型,對全體樣本進行預測,並採用預測得到的結果對保留下的模型進行組合模型訓練,得到最終的模型時,執行如下操作:採用保留下的模型,分別對全體樣本進行預測,根據模型的第一模型參數,計算得到每個樣本的第一預測值;將每個樣本的第一預測值輸入到模型中進行再次模型訓練,得到每個模型的第二模型參數;根據每個模型的第二模型參數以及每個樣本的第一預測值,計算得到每個樣本的第二預測值,以計算得到的第二預測值作為模型的最終輸出;其中,所述抽樣模組對全體樣本進行多重抽樣,得到每次抽樣的訓練集和驗證集,執行如下操作:將全體樣本分為m個子集,對m個子集進行多重抽樣,得到n個訓練集和n個驗證集。
  4. 根據申請專利範圍第3項所述的多重抽樣模型訓練裝置,其中,所述評估模組在採用第一訓練模組訓練得到的模型分別評估訓練集和驗證集,根據訓練集和驗證集 的評估結果,以及設定的淘汰準則淘汰訓練得到的模型時,執行如下操作:採用訓練得到的模型分別評估訓練集和驗證集,得到每個訓練得到的模型對應的性能指標;根據每個訓練得到的模型對應的性能指標,計算得到特徵值;根據計算得到特徵值,淘汰特徵值小於設定閾值的訓練得到的模型。
TW106104131A 2016-02-26 2017-02-08 一種多重抽樣模型訓練方法及裝置 TWI784941B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610110893.4 2016-02-26
CN201610110893.4A CN107133436A (zh) 2016-02-26 2016-02-26 一种多重抽样模型训练方法及装置

Publications (2)

Publication Number Publication Date
TW201734837A TW201734837A (zh) 2017-10-01
TWI784941B true TWI784941B (zh) 2022-12-01

Family

ID=59685082

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104131A TWI784941B (zh) 2016-02-26 2017-02-08 一種多重抽樣模型訓練方法及裝置

Country Status (4)

Country Link
US (1) US11734353B2 (zh)
CN (1) CN107133436A (zh)
TW (1) TWI784941B (zh)
WO (1) WO2017143921A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678845B (zh) * 2017-09-30 2020-03-10 Oppo广东移动通信有限公司 应用程序管控方法、装置、存储介质及电子设备
CN109754105B (zh) 2017-11-07 2024-01-05 华为技术有限公司 一种预测方法及终端、服务器
CN112836792A (zh) 2017-12-29 2021-05-25 华为技术有限公司 一种神经网络模型的训练方法及装置
CN108108861A (zh) * 2018-03-06 2018-06-01 中国银行股份有限公司 一种潜在客户的预测方法及装置
CN108615071B (zh) * 2018-05-10 2020-11-24 创新先进技术有限公司 模型测试的方法及装置
CN108898504B (zh) * 2018-07-09 2021-12-07 北京精友世纪软件技术有限公司 一种移动查勘定损***的智能训练及完善方法
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
CN109816158A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 预测模型的组合方法、装置、设备及可读存储介质
CN110135614A (zh) * 2019-03-26 2019-08-16 广东工业大学 一种基于异常值检测和抽样技术的10kV配变低压跳闸预测方法
CN110163259B (zh) * 2019-04-26 2023-12-15 创新先进技术有限公司 一种生成样本数据的方法、***及设备
CN110363302B (zh) * 2019-06-13 2023-09-12 创新先进技术有限公司 分类模型的训练方法、预测方法及装置
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质
CN110503206A (zh) * 2019-08-09 2019-11-26 阿里巴巴集团控股有限公司 一种预测模型更新方法、装置、设备及可读介质
CN111008732B (zh) * 2019-11-21 2023-06-20 中南大学 一种基于堆栈模型的故障预测方法及***
US11461646B2 (en) * 2019-12-05 2022-10-04 Capital One Services, Llc Systems and methods for training machine learning models
CN111144950B (zh) * 2019-12-30 2023-06-30 北京顺丰同城科技有限公司 模型筛选方法、装置、电子设备及存储介质
CN111310931A (zh) * 2020-02-05 2020-06-19 北京三快在线科技有限公司 参数生成方法、装置、计算机设备及存储介质
CN111327609B (zh) * 2020-02-14 2022-09-30 北京奇艺世纪科技有限公司 数据审核方法及装置
CN111459828A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 一种软件版本的非功能性测试评估方法及装置
CN111814582B (zh) * 2020-06-15 2022-06-28 开易(北京)科技有限公司 一种用于驾驶员行为监测图像的处理方法及装置
CN114936205A (zh) * 2022-06-02 2022-08-23 江苏品生医疗科技集团有限公司 一种特征筛选方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023022A (zh) * 2015-07-09 2015-11-04 深圳天珑无线科技有限公司 跌倒检测方法及***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US8489499B2 (en) * 2010-01-13 2013-07-16 Corelogic Solutions, Llc System and method of detecting and assessing multiple types of risks related to mortgage lending
US9501749B1 (en) * 2012-03-14 2016-11-22 The Mathworks, Inc. Classification and non-parametric regression framework with reduction of trained models
US9547830B2 (en) * 2013-05-07 2017-01-17 Wise.Io, Inc. Scalable, memory-efficient machine learning and prediction for ensembles of decision trees for homogeneous and heterogeneous datasets
GB2516627A (en) * 2013-07-26 2015-02-04 Warsaw University Of Technology Parallel decision-or regression-tree growing
AU2014318499B2 (en) * 2013-09-16 2019-05-16 Biodesix, Inc Classifier generation method using combination of mini-classifiers with regularization and uses thereof
CN103744978A (zh) * 2014-01-14 2014-04-23 清华大学 一种基于网格搜索技术用于支持向量机的参数寻优方法
US9576221B2 (en) * 2014-07-09 2017-02-21 Ditto Labs, Inc. Systems, methods, and devices for image matching and object recognition in images using template image classifiers
CN105373800A (zh) * 2014-08-28 2016-03-02 百度在线网络技术(北京)有限公司 分类方法及装置
CN104915518B (zh) * 2015-06-30 2017-12-12 中南大学 一种高炉铁水硅含量二维预报模型的构建方法及应用
US10631275B2 (en) 2015-09-10 2020-04-21 Lg Electronics Inc. Method and device for performing communication with virtual terminal in wireless communication system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023022A (zh) * 2015-07-09 2015-11-04 深圳天珑无线科技有限公司 跌倒检测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
期刊 付華, et al. "基於變權重 RBF 組合模型的煤與瓦斯突出強度預測." 中國安全科學學報 23.8 (2013): 65-70. *

Also Published As

Publication number Publication date
US11734353B2 (en) 2023-08-22
CN107133436A (zh) 2017-09-05
TW201734837A (zh) 2017-10-01
US20180365525A1 (en) 2018-12-20
WO2017143921A1 (zh) 2017-08-31

Similar Documents

Publication Publication Date Title
TWI784941B (zh) 一種多重抽樣模型訓練方法及裝置
TWI712981B (zh) 風險辨識模型訓練方法、裝置及伺服器
KR102061987B1 (ko) 위험 평가 방법 및 시스템
CN111260462B (zh) 一种基于异质关系网络注意力机制的交易欺诈检测方法
WO2018112783A1 (zh) 图像识别方法及装置
EP3852019A1 (en) Optimizing neural networks for risk assessment
KR20190032495A (ko) 평가 모델에 대한 모델링 방법 및 디바이스
WO2017140222A1 (zh) 机器学习模型的建模方法及装置
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
WO2019080407A1 (zh) 信贷评估方法、装置、设备及计算机可读存储介质
KR102038237B1 (ko) 신용점수 모델 훈련 방법,신용 점수 계산 방법,장치 및 서버
CN108280104A (zh) 目标对象的特征信息提取方法及装置
CN112365007B (zh) 模型参数确定方法、装置、设备及存储介质
US20190220924A1 (en) Method and device for determining key variable in model
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN112101577B (zh) 基于XGBoost的跨样本联邦学习、测试方法、***、设备和介质
CN106971107B (zh) 一种数据交易的安全定级方法
CN110310199B (zh) 借贷风险预测模型的构建方法、***及借贷风险预测方法
Shabbir et al. Determinants of economic stability through female unemployment: Evidence from Pakistan
CN113393316B (zh) 基于海量大数据、核心算法的贷款全过程精准风控及管理***
CN103970651A (zh) 基于组件安全属性的软件体系结构安全性评估方法
CN115330526A (zh) 一种企业信用评分方法及装置
CN110570301B (zh) 风险识别方法、装置、设备及介质
TWI626550B (zh) 用於預測系統障礙熱區之處理系統與方法