TWI689874B

TWI689874B - 神經網路模型訓練、交易行為風險識別方法及裝置

Info

Publication number: TWI689874B
Application number: TW106140070A
Authority: TW
Inventors: 李龍飛; 周俊; 李小龍
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-03-15
Filing date: 2017-11-20
Publication date: 2020-04-01
Also published as: WO2018166457A1; CN108629413B; CN108629413A; TW201835819A

Abstract

本發明係有關電腦技術領域，尤其有關一種神經網路模型訓練、交易行為風險識別方法及裝置，在一種神經網路模型訓練方法中，將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在GBDT中對應的路徑資訊。根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。亦即，本發明首先根據GBDT來確定路徑資訊，之後，根據路徑資訊以及樣本標籤來訓練神經網路模型，而根據GBDT本身的特點可知，其一條路徑資訊通常會包含樣本資料中多個維度的資訊，由此，可以提高神經網路模型訓練的效率。

Description

神經網路模型訓練、交易行為風險識別方法及裝置

本發明係有關電腦技術領域，尤其有關一種神經網路模型訓練、交易行為風險識別方法及裝置。

在傳統技術中，在搜集到樣本資料之後，直接根據樣本資料以及樣本資料的樣本標籤來訓練神經網路模型。然而，上述搜集的樣本資料通常會包括多個維度的資訊，這會導致神經網路模型訓練的效率比較低。

本發明描述了一種神經網路模型訓練、交易行為風險識別方法及裝置，可以提高神經網路模型訓練的效率。　　第一態樣，提供了一種神經網路模型訓練方法，包括：　　將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在所述GBDT中對應的路徑資訊；所述每個樣本資料具有對應的樣本標籤；　　根據所述每個樣本資料在所述GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。　　第二態樣，提供了一種交易行為風險識別方法，包括：　　獲取用戶的交易行為資料；　　將所述交易行為資料登錄到梯度提升決策樹GBDT中，以確定所述交易行為資料在所述GBDT中對應的路徑資訊；　　將所述路徑資訊輸入到神經網路模型中；　　輸出交易行為風險識別結果。　　第三態樣，提供了一種神經網路模型訓練裝置，包括：　　確定單元，用以將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在所述GBDT中對應的路徑資訊；所述每個樣本資料具有對應的樣本標籤；　　訓練單元，用以根據所述確定單元確定的所述每個樣本資料在所述GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。　　第四態樣，提供了一種交易行為風險識別裝置，包括：　　獲取單元，用以獲取用戶的交易行為資料；　　確定單元，用以將所述獲取單元獲取的所述交易行為資料登錄到梯度提升決策樹GBDT中，以確定所述交易行為資料在所述GBDT中對應的路徑資訊；　　輸入單元，用以將所述確定單元確定的所述路徑資訊輸入到神經網路模型中；　　輸出單元，用以輸出交易行為風險識別結果。　　本發明提供的神經網路模型訓練、交易行為風險識別方法及裝置，將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在GBDT中對應的路徑資訊。根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。亦即，本發明首先根據GBDT來確定路徑資訊，之後根據路徑資訊以及樣本標籤來訓練神經網路模型，而根據GBDT本身的特點可知，其一條路徑資訊通常會包含樣本資料中多個維度的資訊，由此，可以提高神經網路模型訓練的效率。

下面結合附圖，對本發明的實施例進行描述。　　本發明實施例提供的神經網路模型訓練方法適用於對深度神經網路(Deep Neural Network, DNN)或者人工神經網路(Artificial Neural Network，ANN)等神經網路模型進行訓練的情況。訓練好的神經網路模型可以用來進行模式識別以及分類的情況，如，可以用來對交易行為進行風險識別。　　圖1為本發明一種實施例提供的神經網路模型訓練方法流程圖。所述方法的執行主體可以為具有處理能力的設備：伺服器或者系統或者裝置，如圖1所示，所述方法具體包括：　　步驟110，將預先收集的多個樣本資料登錄到梯度提升決策樹(Gradient Boosting Decision Tree，GBDT）中，以確定每個樣本資料在GBDT中對應的路徑資訊。　　在執行步驟110之前，可以先訓練好GBDT模型。具體的訓練過程後續進行說明。　　步驟110中，以訓練的神經網路模型用於交易行為風險識別的情況為例來說，上述樣本資料可以是指用戶的交易行為資料。具體地，可以是從支付寶系統的後臺資料庫中搜集樣本資料。此處，樣本資料可以歸屬於如下五個類別的用戶資料：1）用戶的歷史行為資訊。如，a，若干天（如，180天）內用戶來電次數；b，最後一次登錄城市；c，最後一次登錄距今時間；d，若干天（如，90天）內登錄次數等。2）用戶的交易資訊。如，a，若干天（如，90天）平均支付金額；b，若干天（如，180天）內支付天數；c，若干天（如，180天）內支付金額；d，最後一次支付距今時間等。3）用戶的基本資訊。如，a，用戶是否單身；b，用戶是否裝修；c，用戶是否已婚；d，用戶年齡；e，用戶註冊時長；f，用戶教育水準等。4）用戶的遠端程序呼叫（Remote Procedure Call，RPC）行為資訊。此處的RPC行為資訊是指用戶在使用用戶端的時候，用戶端與伺服器之間的RPC調用。在一種實現方式中，可以搜集每個用戶在最近一個給定時間視窗的這些操作。如，可以搜集用戶近2天訪問的RPC介面的次數變數。5）用戶的統一資源***（Uniform Resourc e Locator，URL）位址資訊。　　對上述收集的多個樣本資料，如果某樣本資料與目前用戶不相關或者該樣本資料能給用戶帶來負面影響的，則將該樣本資料分類為正樣本資料。如，某一交易行為由非用戶本人操作的或者對用戶的帳戶帶來一定的損失且報案的，則將該交易行為資料標記為正樣本資料。否則，如果某樣本資料為用戶本人正常的交易行為資料，則將該樣本資料標記為負樣本資料。　　需要說明的是，通常負樣本資料比較容易搜集。如，可以很容易從支付寶系統的後臺資料庫中搜集到正常支付行為的資料。所以，樣本資料集合中負樣本資料會占絕大多數的比重，如，大於99.999%。然而，當負樣本資料的比重比較高時，訓練的神經網路模型往往會有偏差，如，只能識別安全的交易行為，而不能識別有風險的交易行為，這影響了交易行為風險識別的準確性。　　為了能提升交易行為風險識別的準確性，可以對樣本資料進行預處理。在一種實現方式中，可以對正樣本資料進行升取樣處理；和/或，對負樣本資料進行降取樣處理。其中，對正樣本資料進行升取樣處理可以包括：透過複製等方式增加正樣本資料的數量。對負樣本資料進行降取樣處理可以包括：透過刪除等方式減小負樣本資料的數量。在一個例子中，可以將正樣本資料與負樣本資料的比例調整為1:300。　　還需要說明的是，對上述預處理後的樣本資料，還可以為正、負樣本資料添加對應的樣本標籤。具體地，為正樣本資料添加正樣本標籤，為負樣本資料添加負樣本標籤。　　步驟110中，將預先收集的多個樣本資料登錄到GBDT中具體可以包括：針對每個樣本資料，可以先根據該樣本資料，確定多個特徵對應的特徵值。之後，將特徵的特徵值輸入到GBDT的決策樹中。　　此處的特徵可以歸屬於多個類別。在一種實現方式中，上述特徵中的部分特徵可以採用現有交易行為風險識別模型線上沉澱的模型變數，該模型變數歸屬於如下三個類別：1）用戶的歷史行為資訊。2）用戶的交易資訊。3）用戶的基本資訊。　　然而，上述模型變數需要根據業務資料來確定，而業務資料通常來自不同業務部門，其採集和整理需要一定的時間，所以僅透過上述模型變數不能得到用戶最新的狀態，從而也不能對用戶最新的交易行為進行風險識別。為解決該問題，本發明中增加了歸屬於用戶的RPC行為資訊的特徵和歸屬於用戶的URL位址資訊的特徵。　　綜上，本發明的特徵可以為歸屬於如下五個類別的特徵：1）用戶的歷史行為資訊。2）用戶的交易資訊。3）用戶的基本資訊。4）用戶的RPC行為資訊。5）用戶的URL位址資訊。其中，每個類別如上所述，在此不復贅述。　　對上述設定的特徵，在根據具體的樣本資料，確定其對應的特徵值之後，就可以將特徵值輸入到GBDT中。此處的GBDT可以由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應。以一棵決策樹為例來說，該決策樹可以如圖2所示，圖2中，節點1、節點2和節點3分別與特徵：“用戶性別是否是男”、“用戶年齡大於20歲”以及“交易金額是否超過1000元”相對應。在將特徵的特徵值輸入決策樹之後，就可以在決策樹中確定出多條路徑資訊。如，假設樣本資料包含用戶性別是男，用戶年齡大於20歲，交易金額超過1000元時，確定出的路徑資訊可以如圖2中的粗線所示。　　作為示例性說明，圖2中只是展示了一條路徑資訊，實際上樣本資料登錄GBDT時，可以確定出多條路徑資訊，本發明在此不復贅述。　　需要說明的是，本發明中，在將該特徵值輸入到GBDT之前，還可以將該特徵值表示為one-hot形式的特徵向量。在還確定特徵值對應的特徵向量的情況下，上述將特徵值輸入到GBDT中可以替換為：將特徵值對應的特徵向量輸入到決策樹中，以確定相應的路徑資訊。其中，確定特徵值的特徵向量的過程可以舉例如下：　　以特徵為“用戶性別”為例來說，如果用戶性別為男，亦即，特徵的特徵值為“男”，則該特徵值對應的特徵向量可以為：[0 1]。如果用戶性別為女，亦即，特徵的特徵值為“女”，則該特徵值對應的特徵向量可以為：[1 0]。　　再以特徵為用戶的RPC行為資訊為例來說，其特徵值對應的特徵向量的確定可以透過如下兩種方式來實現：第一種實現方式中，首先設定規則：出現過則標識為1，否則為0。具體地，假設預設的RPC行為資訊為：a，b和c。而某個樣本資料包含用戶兩天內的RPC行為資訊為：a，a和b，亦即，特徵值為：a，a和b。則對應的特徵向量可以為：[1 1 0]。在另一種實現方式中，可以設定規則：統計預設的RPC行為資訊的頻次，然後歸一化。具體地，假設預設的RPC行為資訊為：a，b和c。而某個樣本資料包含用戶兩天內的RPC行為資訊為：a，a，b，b和c，亦即，特徵值為：a，a，b，b和c。則對應的特徵向量可以為：2,2和1。因為需要歸一化，所以最終的特徵向量為：[0.4 0.4 0.2]。　　需要說明的是，上述將特徵值表示為特徵向量屬於傳統的習知技術，在此不復贅述。　　需要說明的是，為了提升神經網路模型的準確性，本發明中設定了比較多的特徵，從而會確定多個特徵值。對於越來越多的特徵值，其處理往往需要花費很多的時間，受限於同時觀察的特徵值的個數，人很難對多個特徵值之間的關係進行深入的分析，並手工產生新的特徵值。而本發明透過將樣本資料登錄GBDT來得到路徑資訊，該路徑資訊由於包含了多個特徵值。從而可以大大地減小特徵值的數量，由此可以顯著地減少人工的操作。　　步驟120，根據每個樣本資料對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。　　此處的神經網路模型可以包括DNN或者ANN等。其中，DNN最近幾年發展迅速，相比傳統使用的淺層模型（如，邏輯迴歸（Logistic Regression，LR）, 隨機森林(Random forest，RF)），DNN有著其特有的先進性：模型表達能力強大，適合大資料和分散式訓練。因此，本說明書中，以訓練DNN為例來進行說明。　　在本發明中，DNN的訓練過程可以如圖3所示，圖3中，DNN的輸入層用來輸入GBDT中的各條路徑資訊，而輸出層即可輸出第一預測結果。可以理解的是，針對每個樣本資料，亦即，在將該樣本資料對應的路徑資訊輸入到DNN之後，DNN都會輸出相應的第一預測結果。對樣本集合中的多個樣本資料，若第一預測結果與樣本資料的樣本標籤相符合的概率達到預設閾值，此處的預設閾值可以根據經驗值來予以設定，則可以認為已經得到了最佳化的DNN。　　可以理解的是，隨著路徑資訊的個數的不同，圖3中DNN的層數是可以改變的。　　透過實驗發明，本發明訓練得到的神經網路模型會比其他模型（LR或者RF）的效果都好。同時特徵處理的時間大大地減少了，整體建模流程變快了很多。　　以下對如何訓練GBDT模型進行說明：　　在根據每個樣本資料，確定多個特徵對應的特徵值之後，可以將多個特徵對應的特徵值輸入GBDT的各個決策樹中。之後將各個決策樹的結果累加起來以確定第二預測結果。可以理解的是，針對每個樣本資料，GBDT模型都會輸出相應的第二預測結果。對樣本集合中的多個樣本資料，若第二預測結果與樣本資料的樣本標籤相符合的概率達到預設閾值，此處的預設閾值可以根據經驗值來予以設定，則可以認為已經得到了最佳化的GBDT模型。而若第二預測結果與樣本資料的樣本標籤相符合的概率未達到預設閾值，則可以透過調整決策樹的數目、決策樹的深度以及正則化項（用來表示特徵）來繼續執行上述輸入和輸出的操作，直至達到預設閾值為止。　　綜上，本發明具有如下幾方面的優點：　　1）由於本發明的特徵包括了類別為用戶RPC行為資訊的特徵，因此本發明訓練的神經網路模型能夠滿足時效性要求，亦即，能夠識別用戶最新的交易行為。　　2）本發明訓練的神經網路模型的準確性比傳統的淺層模型高。　　3）透過將樣本資料登錄GBDT，獲得了路徑資訊。而一條路徑資訊由多個特徵值組合而成，亦即，一條路徑資訊包含了樣本資料的多個維度的資訊，由此，可以極大地減小DNN輸入層輸入的資料量，從而可以提高神經網路模型訓練的效率。　　需要說明的是，在透過圖1所示的各步驟訓練得到神經網路模型之後，就可以將該神經網路模型部署到線上，並對用戶的交易行為進行風險識別了。　　圖4為本發明提供的交易行為風險識別方法的過程示意圖。如圖4所示，該方法可以包括：　　步驟410，獲取用戶的交易行為資料。　　此處的交易行為資料與上述樣本資料的定義相同，在此不復贅述。　　步驟420，將交易行為資料登錄到梯度提升決策樹GBDT中，以確定交易行為資料在GBDT中對應的路徑資訊。　　上述GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應。步驟420中將交易行為資料登錄到梯度提升決策樹GBDT中，以確定交易行為資料在GBDT中對應的路徑資訊的步驟具體上可以包括：根據交易行為資料，確定多個特徵對應的特徵值；根據特徵值，在決策樹中確定路徑資訊。其中，確定路徑資訊的過程可以參照圖2，在此不復贅述。　　步驟430，將路徑資訊輸入到神經網路模型中。　　亦即，將步驟420中確定的路徑資訊輸入DNN的輸入層中。　　步驟440，輸出交易行為風險識別結果。　　具體地，由DNN的輸出層輸出交易行為風險識別結果。此處，如果識別結果為風險的交易行為，則可以發起報警。在支付情況下，若識別結果為風險的支付行為，則可以凍結該用戶帳戶以防止財產流失。與上述神經網路模型訓練方法對應地，本發明實施例還提供的一種神經網路模型訓練裝置，如圖5所示，該裝置包括：　　確定單元501，用以將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在GBDT中對應的路徑資訊。　　此處，每個樣本資料具有對應的樣本標籤。　　訓練單元502，用以根據確定單元501確定的每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。　　可選地，GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應。　　確定單元501具體上用以：　　對多個樣本資料中的每個樣本資料，根據樣本資料，確定多個特徵對應的特徵值。　　此處，特徵可以包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。　　根據特徵值，在決策樹中確定路徑資訊。　　可選地，樣本標籤可以包括：正樣本標籤和負樣本標籤。上述裝置還可以包括：　　處理單元503，用以對樣本標籤為正樣本標籤的樣本資料進行升取樣處理；和/或，　　對樣本標籤為負樣本標籤的樣本資料進行降取樣處理。　　本發明實施例裝置的各功能模組的功能，可以透過上述方法實施例的各步驟來實現，因此，本發明提供的裝置的具體操作過程，在此不復贅述。　　本發明提供的神經網路模型訓練裝置，確定單元501將預先收集的多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在GBDT中對應的路徑資訊。訓練單元502根據每個樣本資料在GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。由此，可以提高神經網路模型訓練的效率。　　與上述交易行為風險識別方法對應地，本發明實施例還提供的一種交易行為風險識別裝置，如圖6所示，該裝置包括：　　獲取單元601，用以獲取用戶的交易行為資料。　　確定單元602，用以將獲取單元601獲取的交易行為資料登錄到梯度提升決策樹GBDT中，以確定交易行為資料在GBDT中對應的路徑資訊。　　輸入單元603，用以將確定單元602確定的路徑資訊輸入到神經網路模型中。　　輸出單元604，用以輸出交易行為風險識別結果。　　可選地，GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應；　　確定單元602具體上用以：　　根據交易行為資料，確定多個特徵對應的特徵值。　　根據特徵值，在決策樹中確定路徑資訊。　　其中，特徵可以包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。　　本發明實施例裝置的各功能模組的功能，可以透過上述方法實施例的各步驟來實現，因此，本發明提供的裝置的具體操作過程，在此不復贅述。　　本發明提供的交易行為風險識別裝置，可以提高交易行為風險識別的效率和準確性。　　本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體來實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼來進行傳輸。　　以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用來限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

501‧‧‧確定單元502‧‧‧訓練單元503‧‧‧處理單元601‧‧‧獲取單元602‧‧‧確定單元603‧‧‧輸入單元604‧‧‧輸出單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖而獲得其他的附圖。　　圖1為本發明一種實施例提供的神經網路模型訓練方法流程圖；　　圖2為本發明提供的決策樹的示意圖；　　圖3為本發明提供的訓練DNN的過程示意圖；　　圖4為本發明提供的交易行為風險識別方法示意圖；　　圖5為本發明一種實施例提供的神經網路模型訓練裝置示意圖；　　圖6為本發明另一種實施例提供的交易行為風險識別裝置示意圖。

Claims

一種神經網路模型訓練方法，其特徵在於，該方法包括：預先收集多個樣本資料，該每個樣本資料具有對應的樣本標籤，其中，該樣本標籤包括：正樣本標籤和負樣本標籤；對樣本標籤為正樣本標籤的樣本資料進行升取樣處理；和/或，對樣本標籤為負樣本標籤的樣本資料進行降取樣處理；將該多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在該GBDT中對應的路徑資訊；以及根據該每個樣本資料在該GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。
如請求項1所述的方法，其中，該GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應；該將多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在GBDT中對應的路徑資訊，包括：對該多個樣本資料中的每個樣本資料，根據該樣本資料，確定多個特徵對應的特徵值；以及根據該特徵值，在該決策樹中確定該路徑資訊。
如請求項2所述的方法，其中，該特徵包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
一種交易行為風險識別方法，其特徵在於，該方法包括：獲取用戶的交易行為資料，該每個交易行為資料具有對應的交易行為標籤，其中，該交易行為標籤包括：正交易行為標籤和負交易行為標籤；對交易行為標籤為正交易行為標籤的交易行為資料進行升取樣處理；和/或，對交易行為標籤為負交易行為標籤的交易行為資料進行降取樣處理；將該交易行為資料登錄到梯度提升決策樹GBDT中，以確定該交易行為資料在該GBDT中對應的路徑資訊；將該路徑資訊輸入到神經網路模型中；以及輸出交易行為風險識別結果。
如請求項4所述的方法，其中，該GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應；該將該交易行為資料登錄到梯度提升決策樹GBDT中，以確定該交易行為資料在該GBDT中對應的路徑資訊，包括：根據該交易行為資料，確定多個特徵對應的特徵值；以及根據該特徵值，在該決策樹中確定該路徑資訊。
如請求項5所述的方法，其中，該特徵包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
一種神經網路模型訓練裝置，其特徵在於，該裝置包括：處理單元，用以預先收集多個樣本資料，該每個樣本資料具有對應的樣本標籤，其中，該樣本標籤包括：正樣本標籤和負樣本標籤；對樣本標籤為正樣本標籤的樣本資料進行升取樣處理；和/或對樣本標籤為負樣本標籤的樣本資料進行降取樣處理；確定單元，用以將該多個樣本資料登錄到梯度提升決策樹GBDT中，以確定每個樣本資料在該GBDT中對應的路徑資訊；訓練單元，用以根據該確定單元確定的該每個樣本資料在該GBDT中對應的路徑資訊以及樣本標籤，對神經網路模型進行訓練。
如請求項7所述的裝置，其中，該GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應；該確定單元具體上用以：對該多個樣本資料中的每個樣本資料，根據該樣本資料，確定多個特徵對應的特徵值；以及根據該特徵值，在該決策樹中確定該路徑資訊。
如請求項8所述的裝置，其中，該特徵包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。
一種交易行為風險識別裝置，其特徵在於，該裝置包括：獲取單元，用以獲取用戶的交易行為資料，該每個交易行為資料具有對應的交易行為標籤，其中，該交易行為標籤包括：正交易行為標籤和負交易行為標籤；對交易行為標籤為正交易行為標籤的交易行為資料進行升取樣處理；和/或對交易行為標籤為負交易行為標籤的交易行為資料進行降取樣處理；確定單元，用以將該獲取單元獲取的該交易行為資料登錄到梯度提升決策樹GBDT中，以確定該交易行為資料在該GBDT中對應的路徑資訊；輸入單元，用以將該確定單元確定的該路徑資訊輸入到神經網路模型中；以及輸出單元，用以輸出交易行為風險識別結果。
如請求項10所述的裝置，其中，該GBDT由多棵決策樹組成，每棵決策樹包括多個節點，每個節點與一個特徵相對應；該確定單元具體上用以：根據該交易行為資料，確定多個特徵對應的特徵值；根據該特徵值，在該決策樹中確定該路徑資訊。
如請求項11所述的裝置，其中，該特徵包括：用戶的遠端程序呼叫RPC行為資訊和/或用戶的統一資源***URL位址資訊。