TWI689874B - 神經網路模型訓練、交易行為風險識別方法及裝置 - Google Patents
神經網路模型訓練、交易行為風險識別方法及裝置 Download PDFInfo
- Publication number
- TWI689874B TWI689874B TW106140070A TW106140070A TWI689874B TW I689874 B TWI689874 B TW I689874B TW 106140070 A TW106140070 A TW 106140070A TW 106140070 A TW106140070 A TW 106140070A TW I689874 B TWI689874 B TW I689874B
- Authority
- TW
- Taiwan
- Prior art keywords
- transaction behavior
- gbdt
- sample data
- sample
- data
- Prior art date
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003066 decision tree Methods 0.000 claims abstract description 51
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 64
- 239000013598 vector Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本發明係有關電腦技術領域,尤其有關一種神經網路模型訓練、交易行為風險識別方法及裝置,在一種神經網路模型訓練方法中,將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在GBDT中對應的路徑資訊。根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。亦即,本發明首先根據GBDT來確定路徑資訊,之後,根據路徑資訊以及樣本標籤來訓練神經網路模型,而根據GBDT本身的特點可知,其一條路徑資訊通常會包含樣本資料中多個維度的資訊,由此,可以提高神經網路模型訓練的效率。
Description
本發明係有關電腦技術領域,尤其有關一種神經網路模型訓練、交易行為風險識別方法及裝置。
在傳統技術中,在搜集到樣本資料之後,直接根據樣本資料以及樣本資料的樣本標籤來訓練神經網路模型。然而,上述搜集的樣本資料通常會包括多個維度的資訊,這會導致神經網路模型訓練的效率比較低。
本發明描述了一種神經網路模型訓練、交易行為風險識別方法及裝置, 可以提高神經網路模型訓練的效率。 第一態樣,提供了一種神經網路模型訓練方法,包括: 將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在所述GBDT中對應的路徑資訊;所述每個樣本資料具有對應的樣本標籤; 根據所述每個樣本資料在所述GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。 第二態樣,提供了一種交易行為風險識別方法,包括: 獲取用戶的交易行為資料; 將所述交易行為資料登錄到梯度提升決策樹GBDT中,以確定所述交易行為資料在所述GBDT中對應的路徑資訊; 將所述路徑資訊輸入到神經網路模型中; 輸出交易行為風險識別結果。 第三態樣,提供了一種神經網路模型訓練裝置,包括: 確定單元,用以將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在所述GBDT中對應的路徑資訊;所述每個樣本資料具有對應的樣本標籤; 訓練單元,用以根據所述確定單元確定的所述每個樣本資料在所述GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。 第四態樣,提供了一種交易行為風險識別裝置,包括: 獲取單元,用以獲取用戶的交易行為資料; 確定單元,用以將所述獲取單元獲取的所述交易行為資料登錄到梯度提升決策樹GBDT中,以確定所述交易行為資料在所述GBDT中對應的路徑資訊; 輸入單元,用以將所述確定單元確定的所述路徑資訊輸入到神經網路模型中; 輸出單元,用以輸出交易行為風險識別結果。 本發明提供的神經網路模型訓練、交易行為風險識別方法及裝置,將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在GBDT中對應的路徑資訊。根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。亦即,本發明首先根據GBDT來確定路徑資訊,之後根據路徑資訊以及樣本標籤來訓練神經網路模型,而根據GBDT本身的特點可知,其一條路徑資訊通常會包含樣本資料中多個維度的資訊,由此,可以提高神經網路模型訓練的效率。
下面結合附圖,對本發明的實施例進行描述。 本發明實施例提供的神經網路模型訓練方法適用於對深度神經網路(Deep Neural Network, DNN)或者人工神經網路(Artificial Neural Network,ANN)等神經網路模型進行訓練的情況。訓練好的神經網路模型可以用來進行模式識別以及分類的情況,如,可以用來對交易行為進行風險識別。 圖1為本發明一種實施例提供的神經網路模型訓練方法流程圖。所述方法的執行主體可以為具有處理能力的設備:伺服器或者系統或者裝置,如圖1所示,所述方法具體包括: 步驟110,將預先收集的多個樣本資料登錄到梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)中,以確定每個樣本資料在GBDT中對應的路徑資訊。 在執行步驟110之前,可以先訓練好GBDT模型。具體的訓練過程後續進行說明。 步驟110中,以訓練的神經網路模型用於交易行為風險識別的情況為例來說,上述樣本資料可以是指用戶的交易行為資料。具體地,可以是從支付寶系統的後臺資料庫中搜集樣本資料。此處,樣本資料可以歸屬於如下五個類別的用戶資料:1)用戶的歷史行為資訊。如,a,若干天(如,180天)內用戶來電次數;b,最後一次登錄城市;c,最後一次登錄距今時間;d,若干天(如,90天)內登錄次數等。2)用戶的交易資訊。如,a,若干天(如,90天)平均支付金額;b,若干天(如,180天)內支付天數;c,若干天(如,180天)內支付金額;d,最後一次支付距今時間等。3)用戶的基本資訊。如,a,用戶是否單身;b,用戶是否裝修;c,用戶是否已婚;d,用戶年齡;e,用戶註冊時長;f,用戶教育水準等。4)用戶的遠端程序呼叫(Remote Procedure Call,RPC)行為資訊。此處的RPC行為資訊是指用戶在使用用戶端的時候,用戶端與伺服器之間的RPC調用。在一種實現方式中,可以搜集每個用戶在最近一個給定時間視窗的這些操作。如,可以搜集用戶近2天訪問的RPC介面的次數變數。5)用戶的統一資源***(Uniform Resourc e Locator,URL)位址資訊。 對上述收集的多個樣本資料,如果某樣本資料與目前用戶不相關或者該樣本資料能給用戶帶來負面影響的,則將該樣本資料分類為正樣本資料。如,某一交易行為由非用戶本人操作的或者對用戶的帳戶帶來一定的損失且報案的,則將該交易行為資料標記為正樣本資料。否則,如果某樣本資料為用戶本人正常的交易行為資料,則將該樣本資料標記為負樣本資料。 需要說明的是,通常負樣本資料比較容易搜集。如,可以很容易從支付寶系統的後臺資料庫中搜集到正常支付行為的資料。所以,樣本資料集合中負樣本資料會占絕大多數的比重,如,大於99.999%。然而,當負樣本資料的比重比較高時,訓練的神經網路模型往往會有偏差,如,只能識別安全的交易行為,而不能識別有風險的交易行為,這影響了交易行為風險識別的準確性。 為了能提升交易行為風險識別的準確性,可以對樣本資料進行預處理。在一種實現方式中,可以對正樣本資料進行升取樣處理;和/或,對負樣本資料進行降取樣處理。其中,對正樣本資料進行升取樣處理可以包括:透過複製等方式增加正樣本資料的數量。對負樣本資料進行降取樣處理可以包括:透過刪除等方式減小負樣本資料的數量。在一個例子中,可以將正樣本資料與負樣本資料的比例調整為1:300。 還需要說明的是,對上述預處理後的樣本資料,還可以為正、負樣本資料添加對應的樣本標籤。具體地,為正樣本資料添加正樣本標籤,為負樣本資料添加負樣本標籤。 步驟110中,將預先收集的多個樣本資料登錄到GBDT中具體可以包括:針對每個樣本資料,可以先根據該樣本資料,確定多個特徵對應的特徵值。之後,將特徵的特徵值輸入到GBDT的決策樹中。 此處的特徵可以歸屬於多個類別。在一種實現方式中,上述特徵中的部分特徵可以採用現有交易行為風險識別模型線上沉澱的模型變數,該模型變數歸屬於如下三個類別:1)用戶的歷史行為資訊。2)用戶的交易資訊。3)用戶的基本資訊。 然而,上述模型變數需要根據業務資料來確定,而業務資料通常來自不同業務部門,其採集和整理需要一定的時間,所以僅透過上述模型變數不能得到用戶最新的狀態,從而也不能對用戶最新的交易行為進行風險識別。為解決該問題,本發明中增加了歸屬於用戶的RPC行為資訊的特徵和歸屬於用戶的URL位址資訊的特徵。 綜上,本發明的特徵可以為歸屬於如下五個類別的特徵:1)用戶的歷史行為資訊。2)用戶的交易資訊。3)用戶的基本資訊。4)用戶的RPC行為資訊。5)用戶的URL位址資訊。其中,每個類別如上所述,在此不復贅述。 對上述設定的特徵,在根據具體的樣本資料,確定其對應的特徵值之後,就可以將特徵值輸入到GBDT中。此處的GBDT可以由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應。以一棵決策樹為例來說,該決策樹可以如圖2所示,圖2中,節點1、節點2和節點3分別與特徵:“用戶性別是否是男”、“用戶年齡大於20歲”以及“交易金額是否超過1000元”相對應。在將特徵的特徵值輸入決策樹之後,就可以在決策樹中確定出多條路徑資訊。如,假設樣本資料包含用戶性別是男,用戶年齡大於20歲,交易金額超過1000元時,確定出的路徑資訊可以如圖2中的粗線所示。 作為示例性說明,圖2中只是展示了一條路徑資訊,實際上樣本資料登錄GBDT時,可以確定出多條路徑資訊,本發明在此不復贅述。 需要說明的是,本發明中,在將該特徵值輸入到GBDT之前,還可以將該特徵值表示為one-hot形式的特徵向量。在還確定特徵值對應的特徵向量的情況下,上述將特徵值輸入到GBDT中可以替換為:將特徵值對應的特徵向量輸入到決策樹中,以確定相應的路徑資訊。其中,確定特徵值的特徵向量的過程可以舉例如下: 以特徵為“用戶性別”為例來說,如果用戶性別為男,亦即,特徵的特徵值為“男”,則該特徵值對應的特徵向量可以為:[0 1]。如果用戶性別為女,亦即,特徵的特徵值為“女”,則該特徵值對應的特徵向量可以為:[1 0]。 再以特徵為用戶的RPC行為資訊為例來說,其特徵值對應的特徵向量的確定可以透過如下兩種方式來實現:第一種實現方式中,首先設定規則:出現過則標識為1,否則為0。具體地,假設預設的RPC行為資訊為:a,b和c。而某個樣本資料包含用戶兩天內的RPC行為資訊為:a,a和b,亦即,特徵值為:a,a和b。則對應的特徵向量可以為:[1 1 0]。在另一種實現方式中,可以設定規則:統計預設的RPC行為資訊的頻次,然後歸一化。具體地,假設預設的RPC行為資訊為:a,b和c。而某個樣本資料包含用戶兩天內的RPC行為資訊為:a,a,b,b和c,亦即,特徵值為:a,a,b,b和c。則對應的特徵向量可以為:2,2和1。因為需要歸一化,所以最終的特徵向量為:[0.4 0.4 0.2]。 需要說明的是,上述將特徵值表示為特徵向量屬於傳統的習知技術,在此不復贅述。 需要說明的是,為了提升神經網路模型的準確性,本發明中設定了比較多的特徵,從而會確定多個特徵值。對於越來越多的特徵值,其處理往往需要花費很多的時間,受限於同時觀察的特徵值的個數,人很難對多個特徵值之間的關係進行深入的分析,並手工產生新的特徵值。而本發明透過將樣本資料登錄GBDT來得到路徑資訊,該路徑資訊由於包含了多個特徵值。從而可以大大地減小特徵值的數量,由此可以顯著地減少人工的操作。 步驟120,根據每個樣本資料對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。 此處的神經網路模型可以包括DNN或者ANN等。其中,DNN最近幾年發展迅速,相比傳統使用的淺層模型(如,邏輯迴歸(Logistic Regression,LR), 隨機森林(Random forest,RF)),DNN有著其特有的先進性:模型表達能力強大,適合大資料和分散式訓練。因此,本說明書中,以訓練DNN為例來進行說明。 在本發明中,DNN的訓練過程可以如圖3所示,圖3中,DNN的輸入層用來輸入GBDT中的各條路徑資訊,而輸出層即可輸出第一預測結果。可以理解的是,針對每個樣本資料,亦即,在將該樣本資料對應的路徑資訊輸入到DNN之後,DNN都會輸出相應的第一預測結果。對樣本集合中的多個樣本資料,若第一預測結果與樣本資料的樣本標籤相符合的概率達到預設閾值,此處的預設閾值可以根據經驗值來予以設定,則可以認為已經得到了最佳化的DNN。 可以理解的是,隨著路徑資訊的個數的不同,圖3中DNN的層數是可以改變的。 透過實驗發明,本發明訓練得到的神經網路模型會比其他模型(LR或者RF)的效果都好。同時特徵處理的時間大大地減少了,整體建模流程變快了很多。 以下對如何訓練GBDT模型進行說明: 在根據每個樣本資料,確定多個特徵對應的特徵值之後,可以將多個特徵對應的特徵值輸入GBDT的各個決策樹中。之後將各個決策樹的結果累加起來以確定第二預測結果。可以理解的是,針對每個樣本資料,GBDT模型都會輸出相應的第二預測結果。對樣本集合中的多個樣本資料,若第二預測結果與樣本資料的樣本標籤相符合的概率達到預設閾值,此處的預設閾值可以根據經驗值來予以設定,則可以認為已經得到了最佳化的GBDT模型。而若第二預測結果與樣本資料的樣本標籤相符合的概率未達到預設閾值,則可以透過調整決策樹的數目、決策樹的深度以及正則化項(用來表示特徵)來繼續執行上述輸入和輸出的操作,直至達到預設閾值為止。 綜上,本發明具有如下幾方面的優點: 1)由於本發明的特徵包括了類別為用戶RPC行為資訊的特徵,因此本發明訓練的神經網路模型能夠滿足時效性要求,亦即,能夠識別用戶最新的交易行為。 2)本發明訓練的神經網路模型的準確性比傳統的淺層模型高。 3)透過將樣本資料登錄GBDT,獲得了路徑資訊。而一條路徑資訊由多個特徵值組合而成,亦即,一條路徑資訊包含了樣本資料的多個維度的資訊,由此,可以極大地減小DNN輸入層輸入的資料量,從而可以提高神經網路模型訓練的效率。 需要說明的是,在透過圖1所示的各步驟訓練得到神經網路模型之後,就可以將該神經網路模型部署到線上,並對用戶的交易行為進行風險識別了。 圖4為本發明提供的交易行為風險識別方法的過程示意圖。如圖4所示,該方法可以包括: 步驟410,獲取用戶的交易行為資料。 此處的交易行為資料與上述樣本資料的定義相同,在此不復贅述。 步驟420,將交易行為資料登錄到梯度提升決策樹GBDT中,以確定交易行為資料在GBDT中對應的路徑資訊。 上述GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應。步驟420中將交易行為資料登錄到梯度提升決策樹GBDT中,以確定交易行為資料在GBDT中對應的路徑資訊的步驟具體上可以包括:根據交易行為資料,確定多個特徵對應的特徵值;根據特徵值,在決策樹中確定路徑資訊。其中,確定路徑資訊的過程可以參照圖2,在此不復贅述。 步驟430,將路徑資訊輸入到神經網路模型中。 亦即,將步驟420中確定的路徑資訊輸入DNN的輸入層中。 步驟440,輸出交易行為風險識別結果。 具體地,由DNN的輸出層輸出交易行為風險識別結果。此處,如果識別結果為風險的交易行為,則可以發起報警。在支付情況下,若識別結果為風險的支付行為,則可以凍結該用戶帳戶以防止財產流失。與上述神經網路模型訓練方法對應地,本發明實施例還提供的一種神經網路模型訓練裝置,如圖5所示,該裝置包括: 確定單元501,用以將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在GBDT中對應的路徑資訊。 此處,每個樣本資料具有對應的樣本標籤。 訓練單元502,用以根據確定單元501確定的每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。 可選地,GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應。 確定單元501具體上用以: 對多個樣本資料中的每個樣本資料,根據樣本資料,確定多個特徵對應的特徵值。 此處,特徵可以包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。 根據特徵值,在決策樹中確定路徑資訊。 可選地,樣本標籤可以包括:正樣本標籤和負樣本標籤。上述裝置還可以包括: 處理單元503,用以對樣本標籤為正樣本標籤的樣本資料進行升取樣處理;和/或, 對樣本標籤為負樣本標籤的樣本資料進行降取樣處理。 本發明實施例裝置的各功能模組的功能,可以透過上述方法實施例的各步驟來實現,因此,本發明提供的裝置的具體操作過程,在此不復贅述。 本發明提供的神經網路模型訓練裝置,確定單元501將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在GBDT中對應的路徑資訊。訓練單元502根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。由此,可以提高神經網路模型訓練的效率。 與上述交易行為風險識別方法對應地,本發明實施例還提供的一種交易行為風險識別裝置,如圖6所示,該裝置包括: 獲取單元601,用以獲取用戶的交易行為資料。 確定單元602,用以將獲取單元601獲取的交易行為資料登錄到梯度提升決策樹GBDT中,以確定交易行為資料在GBDT中對應的路徑資訊。 輸入單元603,用以將確定單元602確定的路徑資訊輸入到神經網路模型中。 輸出單元604,用以輸出交易行為風險識別結果。 可選地,GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應; 確定單元602具體上用以: 根據交易行為資料,確定多個特徵對應的特徵值。 根據特徵值,在決策樹中確定路徑資訊。 其中,特徵可以包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。 本發明實施例裝置的各功能模組的功能,可以透過上述方法實施例的各步驟來實現,因此,本發明提供的裝置的具體操作過程,在此不復贅述。 本發明提供的交易行為風險識別裝置,可以提高交易行為風險識別的效率和準確性。 本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體來實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼來進行傳輸。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用來限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
501‧‧‧確定單元502‧‧‧訓練單元503‧‧‧處理單元601‧‧‧獲取單元602‧‧‧確定單元603‧‧‧輸入單元604‧‧‧輸出單元
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖而獲得其他的附圖。 圖1為本發明一種實施例提供的神經網路模型訓練方法流程圖; 圖2為本發明提供的決策樹的示意圖; 圖3為本發明提供的訓練DNN的過程示意圖; 圖4為本發明提供的交易行為風險識別方法示意圖; 圖5為本發明一種實施例提供的神經網路模型訓練裝置示意圖; 圖6為本發明另一種實施例提供的交易行為風險識別裝置示意圖。
Claims (12)
- 一種神經網路模型訓練方法,其特徵在於,該方法包括:預先收集多個樣本資料,該每個樣本資料具有對應的樣本標籤,其中,該樣本標籤包括:正樣本標籤和負樣本標籤;對樣本標籤為正樣本標籤的樣本資料進行升取樣處理;和/或,對樣本標籤為負樣本標籤的樣本資料進行降取樣處理;將該多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在該GBDT中對應的路徑資訊;以及根據該每個樣本資料在該GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。
- 如請求項1所述的方法,其中,該GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應;該將多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在GBDT中對應的路徑資訊,包括:對該多個樣本資料中的每個樣本資料,根據該樣本資料,確定多個特徵對應的特徵值;以及根據該特徵值,在該決策樹中確定該路徑資訊。
- 如請求項2所述的方法,其中,該特徵包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
- 一種交易行為風險識別方法,其特徵在於,該方法包括:獲取用戶的交易行為資料,該每個交易行為資料具有對應的交易行為標籤,其中,該交易行為標籤包括:正交易行為標籤和負交易行為標籤;對交易行為標籤為正交易行為標籤的交易行為資料進行升取樣處理;和/或,對交易行為標籤為負交易行為標籤的交易行為資料進行降取樣處理;將該交易行為資料登錄到梯度提升決策樹GBDT中,以確定該交易行為資料在該GBDT中對應的路徑資訊;將該路徑資訊輸入到神經網路模型中;以及輸出交易行為風險識別結果。
- 如請求項4所述的方法,其中,該GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應;該將該交易行為資料登錄到梯度提升決策樹GBDT中,以確定該交易行為資料在該GBDT中對應的路徑資 訊,包括:根據該交易行為資料,確定多個特徵對應的特徵值;以及根據該特徵值,在該決策樹中確定該路徑資訊。
- 如請求項5所述的方法,其中,該特徵包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
- 一種神經網路模型訓練裝置,其特徵在於,該裝置包括:處理單元,用以預先收集多個樣本資料,該每個樣本資料具有對應的樣本標籤,其中,該樣本標籤包括:正樣本標籤和負樣本標籤;對樣本標籤為正樣本標籤的樣本資料進行升取樣處理;和/或對樣本標籤為負樣本標籤的樣本資料進行降取樣處理;確定單元,用以將該多個樣本資料登錄到梯度提升決策樹GBDT中,以確定每個樣本資料在該GBDT中對應的路徑資訊;訓練單元,用以根據該確定單元確定的該每個樣本資料在該GBDT中對應的路徑資訊以及樣本標籤,對神經網路模型進行訓練。
- 如請求項7所述的裝置,其中,該GBDT由多棵決策樹 組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應;該確定單元具體上用以:對該多個樣本資料中的每個樣本資料,根據該樣本資料,確定多個特徵對應的特徵值;以及根據該特徵值,在該決策樹中確定該路徑資訊。
- 如請求項8所述的裝置,其中,該特徵包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
- 一種交易行為風險識別裝置,其特徵在於,該裝置包括:獲取單元,用以獲取用戶的交易行為資料,該每個交易行為資料具有對應的交易行為標籤,其中,該交易行為標籤包括:正交易行為標籤和負交易行為標籤;對交易行為標籤為正交易行為標籤的交易行為資料進行升取樣處理;和/或對交易行為標籤為負交易行為標籤的交易行為資料進行降取樣處理;確定單元,用以將該獲取單元獲取的該交易行為資料登錄到梯度提升決策樹GBDT中,以確定該交易行為資料在該GBDT中對應的路徑資訊;輸入單元,用以將該確定單元確定的該路徑資訊輸入到神經網路模型中;以及 輸出單元,用以輸出交易行為風險識別結果。
- 如請求項10所述的裝置,其中,該GBDT由多棵決策樹組成,每棵決策樹包括多個節點,每個節點與一個特徵相對應;該確定單元具體上用以:根據該交易行為資料,確定多個特徵對應的特徵值;根據該特徵值,在該決策樹中確定該路徑資訊。
- 如請求項11所述的裝置,其中,該特徵包括:用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201710153115.8 | 2017-03-15 | ||
CN201710153115.8A CN108629413B (zh) | 2017-03-15 | 2017-03-15 | 神经网络模型训练、交易行为风险识别方法及装置 |
CN201710153115.8 | 2017-03-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201835819A TW201835819A (zh) | 2018-10-01 |
TWI689874B true TWI689874B (zh) | 2020-04-01 |
Family
ID=63522791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106140070A TWI689874B (zh) | 2017-03-15 | 2017-11-20 | 神經網路模型訓練、交易行為風險識別方法及裝置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108629413B (zh) |
TW (1) | TWI689874B (zh) |
WO (1) | WO2018166457A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389494B (zh) * | 2018-10-25 | 2021-11-05 | 北京芯盾时代科技有限公司 | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 |
CN109615454A (zh) * | 2018-10-30 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定用户金融违约风险的方法及装置 |
CN109583475B (zh) * | 2018-11-02 | 2023-06-30 | 创新先进技术有限公司 | 异常信息的监测方法及装置 |
CN110046179B (zh) * | 2018-12-25 | 2023-09-08 | 创新先进技术有限公司 | 一种报警维度的挖掘方法、装置及设备 |
CN109559232A (zh) * | 2019-01-03 | 2019-04-02 | 深圳壹账通智能科技有限公司 | 交易数据处理方法、装置、计算机设备和存储介质 |
CN109784403B (zh) * | 2019-01-16 | 2022-07-05 | 武汉斗鱼鱼乐网络科技有限公司 | 一种识别风险设备的方法以及相关设备 |
CN110033092B (zh) * | 2019-01-31 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 数据标签生成、模型训练、事件识别方法和装置 |
CN110008349B (zh) * | 2019-02-01 | 2020-11-10 | 创新先进技术有限公司 | 计算机执行的事件风险评估的方法及装置 |
CN111667290B (zh) * | 2019-03-08 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 业务展示方法和装置、计算机可读存储介质 |
CN110232400A (zh) * | 2019-04-30 | 2019-09-13 | 冶金自动化研究设计院 | 一种梯度提升决策神经网络分类预测方法 |
CN110390041B (zh) * | 2019-07-02 | 2022-05-20 | 上海上湖信息技术有限公司 | 在线学习方法及装置、计算机可读存储介质 |
CN110942248B (zh) * | 2019-11-26 | 2022-05-31 | 支付宝(杭州)信息技术有限公司 | 交易风控网络的训练方法及装置、交易风险检测方法 |
CN111290922B (zh) * | 2020-03-03 | 2023-08-22 | 中国工商银行股份有限公司 | 服务运行健康度监测方法及装置 |
CN111291900A (zh) * | 2020-03-05 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 训练风险识别模型的方法及装置 |
CN111723083B (zh) * | 2020-06-23 | 2024-04-05 | 北京思特奇信息技术股份有限公司 | 用户身份识别方法、装置、电子设备及存储介质 |
CN111667028B (zh) * | 2020-07-09 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 一种可靠负样本确定方法和相关装置 |
CN111931690A (zh) * | 2020-08-28 | 2020-11-13 | Oppo广东移动通信有限公司 | 模型训练方法、装置、设备及存储介质 |
CN112161173B (zh) * | 2020-09-10 | 2022-05-13 | 国网河北省电力有限公司检修分公司 | 一种电网布线参数检测装置及检测方法 |
CN112667940B (zh) * | 2020-10-15 | 2022-02-18 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
CN112541076B (zh) * | 2020-11-09 | 2024-03-29 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN113610354A (zh) * | 2021-07-15 | 2021-11-05 | 北京淇瑀信息科技有限公司 | 第三方平台用户的策略分配方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279691A (zh) * | 2014-07-25 | 2016-01-27 | ***股份有限公司 | 基于随机森林模型的金融交易检测方法和设备 |
CN105844501A (zh) * | 2016-05-18 | 2016-08-10 | 上海亿保健康管理有限公司 | 一种消费行为的风险控制***及方法 |
CN106096727A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的网络模型构造方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890803B (zh) * | 2011-07-21 | 2016-01-06 | 阿里巴巴集团控股有限公司 | 电子商品异常交易过程的确定方法及其装置 |
US20130054417A1 (en) * | 2011-08-30 | 2013-02-28 | Qualcomm Incorporated | Methods and systems aggregating micropayments in a mobile device |
CN106296195A (zh) * | 2015-05-29 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种风险识别方法及装置 |
CN105975992A (zh) * | 2016-05-18 | 2016-09-28 | 天津大学 | 一种基于自适应升采样的不平衡数据集分类方法 |
CN106506454B (zh) * | 2016-10-10 | 2019-11-12 | 江苏通付盾科技有限公司 | 欺诈业务识别方法及装置 |
CN106447333A (zh) * | 2016-11-29 | 2017-02-22 | ***股份有限公司 | 一种欺诈交易侦测方法及服务器 |
-
2017
- 2017-03-15 CN CN201710153115.8A patent/CN108629413B/zh active Active
- 2017-11-20 TW TW106140070A patent/TWI689874B/zh active
-
2018
- 2018-03-14 WO PCT/CN2018/078906 patent/WO2018166457A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279691A (zh) * | 2014-07-25 | 2016-01-27 | ***股份有限公司 | 基于随机森林模型的金融交易检测方法和设备 |
CN105844501A (zh) * | 2016-05-18 | 2016-08-10 | 上海亿保健康管理有限公司 | 一种消费行为的风险控制***及方法 |
CN106096727A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的网络模型构造方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2018166457A1 (zh) | 2018-09-20 |
CN108629413B (zh) | 2020-06-16 |
CN108629413A (zh) | 2018-10-09 |
TW201835819A (zh) | 2018-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI689874B (zh) | 神經網路模型訓練、交易行為風險識別方法及裝置 | |
TW201939412A (zh) | 欺詐交易識別方法、裝置、伺服器及儲存媒體 | |
CN111970400B (zh) | 骚扰电话识别方法及装置 | |
CN107679997A (zh) | 医疗理赔拒付方法、装置、终端设备及存储介质 | |
CN110163242B (zh) | 风险识别方法、装置及服务器 | |
CN114389834B (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
WO2019100635A1 (zh) | 自动化测试脚本的编辑方法、装置、终端设备及存储介质 | |
CN110287316A (zh) | 一种告警分类方法、装置、电子设备及存储介质 | |
WO2017129033A1 (zh) | 一种问题推荐方法及设备 | |
CN112200660B (zh) | 一种银行柜面业务的监督方法、装置及设备 | |
CN108268886A (zh) | 用于识别外挂操作的方法及*** | |
CN106097192A (zh) | 一种关于知识产权的平台 | |
US20190108416A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN111598700A (zh) | 一种金融风控***及方法 | |
CN106056497A (zh) | 一种知识产权互联网交易平台 | |
US11551317B2 (en) | Property valuation model and visualization | |
CN112053245B (zh) | 信息评估方法及*** | |
CN114048512B (zh) | 一种处理敏感数据的方法及装置 | |
CN106097065A (zh) | 一种知识产权买卖平台 | |
CN106056438A (zh) | 一种网络上的知识产权交易平台 | |
CN106097069A (zh) | 一种知识产权网络交易平台 | |
CN106097194A (zh) | 一种互联网上的知识产权交易平台 | |
CN106056498A (zh) | 一种多功能的知识产权互联网交易平台 | |
CN106097063A (zh) | 一种关于知识产权的互联网交易平台 | |
CN112069392A (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 |