CN111401914B - 风险评估模型的训练、风险评估方法及装置 - Google Patents

风险评估模型的训练、风险评估方法及装置 Download PDF

Info

Publication number
CN111401914B
CN111401914B CN202010256586.3A CN202010256586A CN111401914B CN 111401914 B CN111401914 B CN 111401914B CN 202010256586 A CN202010256586 A CN 202010256586A CN 111401914 B CN111401914 B CN 111401914B
Authority
CN
China
Prior art keywords
risk
user
layer
risk assessment
feature coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010256586.3A
Other languages
English (en)
Other versions
CN111401914A (zh
Inventor
许小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010256586.3A priority Critical patent/CN111401914B/zh
Publication of CN111401914A publication Critical patent/CN111401914A/zh
Application granted granted Critical
Publication of CN111401914B publication Critical patent/CN111401914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种风险评估模型的训练、风险评估方法及装置,在训练方法中,收集一批用户样本,其中的每个用户样本包括用户特征和风险标签,风险标签用于指示出用户的总风险评分以及对应于各预定风险类型的多个单独风险评分。基于各用户样本的用户特征以及风险标签中的总风险评分,对特征编码层进行训练,得到训练的特征编码层,并基于训练的特征编码层,获取各用户样本的特征编码结果。基于各用户样本的特征编码结果以及风险标签中的总风险评分,对综合风险评估层进行训练。对于各单一风险评估层中的每个单一风险评估层,基于各用户样本的特征编码结果以及风险标签中的对应风险类型的单独风险评分,对该单一风险评估层进行训练。

Description

风险评估模型的训练、风险评估方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习技术领域,尤其涉及一种风险评估模型的训练、风险评估方法及装置。
背景技术
随着网络技术的日益普遍,网络交易中存在的风险也越来越多。为了能有效的减少高风险交易,加强市场监控,对用户进行风险评估显得极其重要。
传统技术中,通常只针对单一风险类型(如,涉嫌赌博的风险类型)进行风险评估。其评估过程具体可以为:先基于该风险类型的样本用户和正常样本用户,训练风险评估模型。之后基于该风险评估模型,评估目标用户是否为对应风险类型的用户。因此,传统的风险评估方法效率较低。
因此,希望提供改进的方案,能够提升对用户的风险评估效率。
发明内容
本说明书一个或多个实施例描述了一种风险评估模型的训练、风险评估方法及装置,可以降低模型训练的成本和开销。
第一方面,提供了一种风险评估模型的训练方法,包括:
收集一批用户样本,其中的每个用户样本包括用户特征和风险标签;所述风险标签用于指示出用户的总风险评分以及对应于所述各预定风险类型的多个单独风险评分;
基于所述一批用户样本中各用户样本的用户特征,以及所述各用户样本的风险标签中的总风险评分,对所述特征编码层进行训练,得到训练的特征编码层;
基于训练的特征编码层,获取所述各用户样本的特征编码结果;
基于所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的总风险评分,对所述综合风险评估层进行训练;
对于所述各单一风险评估层中的每个单一风险评估层,基于所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
第二方面,提供了一种风险评估方法,包括:
获取待评估风险用户的目标特征;
将所述目标特征输入风险评估模型的特征编码层,得到目标特征编码结果;所述风险评估模型通过第一方面所述的方法训练得到;
将所述目标特征编码结果分别输入所述风险评估模型的综合风险评估层和各单一风险评估层;
通过所述综合风险评估层的输出,得到所述待评估风险用户的总风险评分;通过所述各单一风险评估层中的每个单一风险评估层的输出,得到所述待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
第三方面,提供了一种风险评估模型的训练装置,包括:
收集单元,用于收集一批用户样本,其中的每个用户样本包括用户特征和风险标签;所述风险标签用于指示出用户的总风险评分以及对应于所述各预定风险类型的多个单独风险评分;
训练单元,用于基于所述收集单元收集的所述一批用户样本中各用户样本的用户特征,以及所述各用户样本的风险标签中的总风险评分,对所述特征编码层进行训练,得到训练的特征编码层;
获取单元,用于基于所述训练单元训练的特征编码层,获取所述各用户样本的特征编码结果;
所述训练单元,还用于基于所述获取单元获取的所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的总风险评分,对所述综合风险评估层进行训练;
所述训练样本,还用于对于所述各单一风险评估层中的每个单一风险评估层,基于所述获取单元获取的所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
第四方面,提供了一种风险评估装置,包括:
获取单元,用于获取待评估风险用户的目标特征;
输入单元,用于将所述获取单元获取的所述目标特征输入风险评估模型的特征编码层,得到目标特征编码结果;所述风险评估模型通过第一方面所述的方法训练得到;
所述输入单元,还用于将所述目标特征编码结果分别输入所述风险评估模型的综合风险评估层和各单一风险评估层;
所述获取单元,还用于通过所述综合风险评估层的输出,得到所述待评估风险用户的总风险评分;通过所述各单一风险评估层中的每个单一风险评估层的输出,得到所述待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
第五方面,提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或者第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或者第二方面的方法。
本说明书一个或多个实施例提供的风险评估模型的训练、风险评估方法及装置,首先,可以实现评估用户综合风险的任务和评估各单一风险的任务的联合训练,这可以降低模型训练的成本和开销。其次,在多任务联合训练过程中,可以共用用户样本,这可以提升用户样本利用率。最后,基于训练得到的模型可以同时实现用户的综合风险的评估和各单一风险的评估,从而可以大大提升用户的风险评估效率。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1本说明书提供的风险评估模型的架构示意图之一;
图2为本说明书一个实施例提供的风险评估模型的训练方法流程图;
图3为说明书提供的风险评估模型的架构示意图之二;
图4为本说明书一个实施例提供的风险评估方法流程图;
图5为本说明书一个实施例提供的风险评估模型的训练装置示意图;
图6为本说明书一个实施例提供的风险评估装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书提供的方案之前,先对本方案的发明构思作以下说明。
如前所述,传统技术中,所训练的风险评估模型通常只能实现单一风险类型的评估,也就是说,传统的方法所训练的风险评估模型通常为单任务模型,这会极大地浪费训练资源。本申请的申请人考虑到,评估不同风险类型的任务之间往往具有相似性。比如,48%的欺诈用户均为违规违禁的高危用户。此外,评估综合风险的任务与评估各单一风险的任务之间具有很大的相关性。比如,各风险类型中部分风险类型的单独评分较高的用户,其综合风险的评分也一定较高。这里的综合风险可以理解为不同风险类型的综合考量。
鉴于此,本申请的申请人考虑建立能同时实现多任务评估的风险评估模型。该多个任务包括评估综合风险的任务和评估各第一风险的任务。具体地,在风险评估模型中,各任务之间共享特征编码层,且各自对应不同的上层任务层。如,评估综合风险的任务对应综合风险评估层,评估各单一风险的任务分别对应单一风险评估层。此外,该风险评估模型基于同一组训练样本集进行训练。
需要说明的是,由于多个任务可以共用训练样本,且可以共享底层网络部分(即特征编码层),从而既可以节约训练资源,又可以提升训练效率。
以上就是本说明书提供的发明构思,基于给发明构思就可以得到本方案,以下对本方案进行详细阐述。
图1为本说明书提供的风险评估模型的架构示意图之一。图1中,该风险评估模型包括特征编码层、综合风险评估层和若干单一风险评估层。这里的特征编码层即为多任务共享的底层网络部分,其也可以称为共享层。综合风险评估层为评估综合风险的任务对应的上层网络部分,每个单一风险评估层为评估一种风险类型的任务(也称评估单一风险的任务)对应的上层网络部分。这里的各上层网络部分也可以称为上层任务层。
具体地,可以获取待评估风险用户的目标特征。将目标特征输入风险评估模型的特征编码层,得到目标特征编码结果。将目标特征编码结果分别输入风险评估模型的综合风险评估层和各单一风险评估层。通过综合风险评估层的输出,得到待评估风险用户的总风险评分。至此,评估综合风险的任务完成。通过各单一风险评估层中的每个单一风险评估层的输出,得到待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。至此,评估各单一风险的任务也完成。
下面结合具体的实施例,描述本说明书提供的风险评估模型的训练方法。具体地,图2示出本说明书一个实施例提供的风险评估模型的训练方法流程图,其中风险评估模型的架构可以参见图1,所述方法的执行主体可以为具有处理能力的设备:服务器或者***或者装置等。如图2所示,该方法可以包括如下步骤:
步骤202,收集一批用户样本。
对于该一批用户样本,可以从中统计出归属于多种风险类型中每种风险类型的用户样本,这类用户样本统称为黑样本。此外,针对每种风险类型,还可以统计出对应的白样本。以下将每种风险类型的黑样本和白样本统称为用户样本。上述多种风险类型可以包括但不限于违规违禁类型、反作弊类型、投资理财类型以及欺诈类型等。
此外,上述一批用户样本中的每个用户样本可以包括用户特征和风险标签。其中,用户特征可以包括但不限于用户属性、历史高危稽查记录、历史行为记录以及每天策略处罚结果中的若干种。对于上述用户属性,其可以包括但不限于用户年龄、账户余额以及使用年限等。对于上述历史高危稽查记录,其可以是指用户在过去是否被稽查为高危用户。对于上述每天策略处罚结果,其可以是在当天基于相应的风险策略对用户的评估结果。这里的风险策略可以包括但不限于欺诈策略、违规违禁策略等。对于上述历史行为记录,其可以是指用户的浏览记录以及交易记录等。
上述风险标签用于指示出用户的总风险评分以及对应于各预定风险类型的多个单独风险评分。这里的总风险评分以及各单独风险评分的取值范围可以为:[0,1]。
在一个示例中,可以将上述风险标签表示为向量形式,且该向量的维数可以与任务个数相一致。举例来说,假设任务个数为5个,且该5个任务分别为:评估综合风险的任务、评估违规违禁类型的任务、评估反作弊类型的任务、评估投资理财类型的任务以及评估欺诈类型的任务。此外。还假设某一用户为欺诈用户,那么该用户所对应用户样本的风险标签可以为:[1,0,0,0,1]。其中,第1个“1”代表用户的总风险评分,第1个“0”代表用户属于违规违禁类型的单独风险评分,第2个“0”代表用户属于反作弊类型的单独风险评分,第3个“0”代表用户属于投资理财类型的单独风险评分,第2个“1”代表用户属于欺诈类型的单独风险评分。
步骤204,基于收集的一批用户样本中各用户样本的用户特征,以及各用户样本的风险标签中的总风险评分,对特征编码层进行训练,得到训练的特征编码层。
在一个示例中,上述特征编码层可以采用迭代决策树模型实现。这里的迭代决策树模型可以包括但不限于梯度提升决策树 (GradientBoostingDecisionTree,GBDT)模型、adaboost决策树模型以及 XGBoost决策树模型。
以上述特征编码层采用XGBoost决策树模型实现为例来说,其训练过程即为构建决策树的过程。以下对该构建过程进行详细说明:
首先,将上述步骤202收集的一批用户样本作为初始训练集,并表示为: D1={x(i),y(i)}N,其中N为用户样本的个数,即用户数。x(i)为第i个用户样本,其例如可以为S维向量,即x=(x1,x2,…,xs),其中每个xi表征该用户样本的一个用户特征,y(i)为第i个用户样本的风险标签的总风险评分。然后,通过第一棵决策树对N个用户样本进行分割。在决策树的每个父节点设定***特征和特征阈值(如,基于特征***的信息增益总和最大的原则,从用户样本的多个用户特征中选择目标特征和特征值作为父节点的***特征和特征阈值),通过在父节点处将用户样本的对应特征与特征阈值比较而将用户样本分割到相应的子节点中。通过这样的过程,最后将N个用户样本分割到各个叶子节点中。其中,各个叶子节点的分值为该叶子节点中各个用户样本的总风险评分的均值。
在获取第一棵决策树之后,通过将用户样本的总风险评分与该用户样本在第一棵决策树中的叶子节点的分值相减,获取每个用户样本的残差r(i),以D2={x(i),r(i)}N为新的训练集,其与D1对应于相同的用户样本。以与上述相同的方法,可获取第二棵决策树,在第二棵决策树中,将N个用户样本分割到各个叶子节点中,并且每个叶子节点的分值为各个用户样本的残差值的均值。类似地,可顺序获取多棵决策树,每棵决策树都基于前一棵决策树的残差获得。从而可获得包括多棵决策树的XGBoost模型。也即训练的特征编码层可以包括多棵决策树。
需要说明的是,从上述决策树的构建过程可知,所构建的各棵决策树中每棵决策树的每个父节点(即非叶子节点)对应于一个用户特征(即***特征)。此外,在决策树的每个父节点,是通过将待分割的用户样本的对应特征与特征阈值比较而将用户样本分割到相应的子节点中。比如,在对应特征大于特征阈值时,将其分割到左子节点;而在对应特征不大于特征阈值时,将其分割到右子节点。从而用户样本的每次分割也可以理解为是将其对应特征进行归一化处理的过程,如,在对应特征大于特征阈值时,将其归一化为0 (或1);而在对应特征不大于特征阈值时,将其归一化为1(或0)。
可以理解的是,在一棵决策树中,将用户样本分割到叶子节点中之后,通常可以得到该用户样本的部分特征(即从该叶子节点至其所在决策树的根节点之间的路径所覆盖的各节点所对应的用户特征)的归一化处理结果。而在全部的决策树中,将用户样本分割到叶子节点中之后,就可以得到该用户样本的全部特征的归一化处理结果。
在一个示例中,在决策树Y中,用户样本X对应于决策树Y的归一化处理结果,可以通过其所落入的叶子节点的节点标识进行表征。比如,在用户样本X在决策树Y中所落入的叶子节点的节点标识为“01”时,表征在决策树Y中,针对用户样本X的两个特征先后进行了归一化处理,且针对一个特征的归一化处理结果为:“0”,而针对另一特征的归一化处理结果为:“1”。而该两个特征可以基于从该叶子节点至所在决策树的根节点之间的路径所覆盖的各父节点的***特征确定。
步骤206,基于训练的特征编码层,获取各用户样本的特征编码结果。
这里,获取各用户样本的特征编码结果即为获取各用户样本的各用户特征的归一化处理结果。
在一个示例中,在用户样本在一棵决策树中所落入的叶子节点的节点标识,可以表征该用户样本对应于该一棵决策树的归一化处理结果的情况下,上述基于训练的特征编码层,获取各用户样本的特征编码结果的步骤可以包括:确定各用户样本在多棵决策树中各棵决策所落入叶子节点的节点标识。基于各用户样本在多棵决策树中各棵决策所落入叶子节点的节点标识,确定各用户样本的特征编码结果。
举例来说,假设训练后的特征编码层包括三棵决策树,其顺序为A1、A2 和A3,每棵决策树包括4个叶子节点,且该4个叶子节点的节点标识分别为:“00”、“01”、“10”以及“11”。假设任意的第一用户样本在A1、A2 和A3中分别落入的叶子节点的节点标识为:“10”、“01”以及“10”,则第一用户样本的特征编码结果可以为:100110。
应理解,上述只是一种示例性说明,在实际应用中,在确定出叶子节点的节点标识之后,还可以对各叶子节点的节点标识作进一步处理,如,扩展为预定位数等,本说明书对此不作限定。
关于上述节点标识,由于其是通过二进制数据表示的,因此,所包含的 bit位数(用N表示)可根据每棵决策树所包含的叶子节点的个数进行调整。其调整原则就是所能表示的节点标识个数(即2N)大于等于叶子节点的个数。比如,在某决策树包括5个叶子节点时,那么每个叶子节点的节点标识可以包含3个bit位,即23>5。
步骤208,基于各用户样本的特征编码结果,以及各用户样本的风险标签中的总风险评分,对综合风险评估层进行训练。
在一个示例中,上述综合风险评估层也可以采用迭代决策树模型实现。其训练过程同特征编码层的训练过程类似,在此不复赘述。
需要说明的是,由于上述各用户样本的特征编码结果为各用户样本的各用户特征的归一化处理结果。从而,训练综合风险评估层与训练特征编码层唯一不同的是,所基于的各用户样本的各用户特征经过了归一化处理。由于经过归一化处理后的各用户特征均在预定范围(如,[0,1])内,由此可以减小训练样本的复杂度,进而可以提升其训练效率。
步骤210,对于各单一风险评估层中的每个单一风险评估层,基于各用户样本的特征编码结果,以及各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
在一个示例中,上述各单一风险评估层中的每个单一风险评估层也可以采用迭代决策树模型实现。其训练过程同特征编码层的训练过程整体上类似,只存在如下两点区别:
第一,由于上述各用户样本的特征编码结果为各用户样本的各用户特征的归一化处理结果。从而,训练各单一风险评估层中的每个单一风险评估层所基于的各用户样本的各用户特征经过了归一化处理。由于经过归一化处理后的各用户特征均在预定范围(如,[0,1])内,由此可以减小训练样本的复杂度,进而可以提升其训练效率。第二,训练各单一风险评估层中的每个单一风险评估层时,所使用的是各用户样本的风险标签中对应风险类型的单独风险评分。
应理解,在实际应用中,上述步骤208和步骤210可以是并行执行的。此外,上述步骤202-步骤210可以是迭代执行的,直至满足迭代停止条件,如,迭代次数达到预定次数等。
综上所述,本说明书所述的风险评估模型中的特征编码层、综合风险评估层以及各单一风险评估层中的每个单一风险评估层均可以采用迭代决策树模型实现,也就是说,本说明书实施例所训练得到的风险评估模型具备树的非变换能力,从而其可以处理更为复杂的任务。此外,在特征编码层采用 XGBoost模型的情况下,将基于该模型得到的特征编码结果输入综合风险评估层以及各单一风险评估层的方式,可以省去特征工程的一些工作,从而可以准确表达用户特征。最后,在风控评估模型的各层均采用XGBoost模型的情况下,可以使得风险评估模型具有一定的可解释性。比如,基于某决策树中从叶子节点到根节点的路径所覆盖节点,可以确定出相应的特征组合,该特征组合可以用于对最终输出的总风险评分和各单独风险评分进行解释。
此外,本方案可以实现评估用户综合风险的任务和评估各单一风险的任务的联合训练,也即本方案充分利用多任务学习的思路和方法,将不同风险类型的评估通过多任务的方式结合在一起,这可以降低模型训练的成本和开销。其次,在多任务联合训练过程中,可以共用用户样本,这既可以提升用户样本的利用率,又可以解决由于某风险类型的用户样本少,而无法有效训练对应风险评估模型的问题。
以下结合图3,对本说明书实施例提供的风险评估模型的训练过程进行说明。
图3为本说明书提供的风险评估模型的架构示意图之二,图3中,特征编码层、综合风险评估层以及各单一风险评估层中的每个单一风险评估层均采用迭代决策树模型,如,XGBoost决策树模型。其具体的训练过程可以为:收集一批用户样本,其中的每个用户样本包括用户特征和风险标签,其中的风险标签用于指示出用户的总风险评分以及对应于各预定风险类型的多个单独风险评分。之后,基于收集的一批用户样本中各用户样本的用户特征,以及各用户样本的风险标签中的总风险评分,对特征编码层进行训练,也即构建对应于特征编码层的XGBoost决策树模型中的各决策树。在各决策树构建完成之后,基于各用户样本在构建的各棵决策所落入叶子节点的节点标识,确定各用户样本的特征编码结果。
之后,可以基于各用户样本的特征编码结果,以及各用户样本的风险标签中的总风险评分,对综合风险评估层进行训练,也即构建对应于综合风险评估层的XGBoost决策树模型中的各决策树。此外,对于各单一风险评估层中的每个单一风险评估层,可以基于各用户样本的特征编码结果,以及各用户样本的风险标签中的对应于该风险评估层的风险类型的单独风险评分,对该风险评估层进行训练。以及构建对应于该单一风险评估层的XGBoost决策树模型中的各决策树。至此,风险评估模型的一次训练过程结束。
类似地,可以迭代地对上述风险评估模型进行多次训练,直至满足迭代停止条件。
在训练得到风险评估模型之后,可以基于该风险评估模型对用户进行风险评估,其具体评估方法可以如图4所示。图4中,该方法可以包括如下步骤:
步骤402,获取待评估风险用户的目标特征。
这里的目标特征可参照上述用户特征,如,可以包括但不限于用户属性、历史高危稽查记录、历史行为记录以及每天策略处罚结果中的若干种。
步骤404,将目标特征输入风险评估模型的特征编码层,得到目标特征编码结果。
以图3为例来说,可以基于待评估风险用户在多棵决策树中各棵决策所落入叶子节点的节点标识,确定待评估风险用户的目标特征编码结果。
步骤406,将目标特征编码结果分别输入风险评估模型的综合风险评估层和各单一风险评估层。
还以图3为例来说,可以将目标特征编码结果输入综合风险评估层对应的决策输入模型,并将目标特征编码结果输入各单一风险评估层各自对应的决策树模型中。
步骤408,通过综合风险评估层的输出,得到待评估风险用户的总风险评分。通过各单一风险评估层中的每个单一风险评估层的输出,得到待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
也就是说,本说明提供的风险评估方法既可以获取用户的总风险评分,又可以获取到对应于多种风险类型中每种风险类型的单独风险评分。这里的每种风险类型的单独风险评分可以作为总风险评分的参考,从而可以对用户进行更深入维度的观察。另一方面,同时对用户的多种风险类型进行评估,可以大大提升用户的风险评估效率。
与上述风险评估模型的训练方法对应地,本说明书一个实施例还提供的一种风险评估模型的训练装置。该风险评估模型包括特征编码层、综合风险评估层和若干单一风险评估层。各单一风险评估层中的每个单一风险评估层对应于各预定风险类型中的一种风险类型。如图5所示,该装置可以包括:
收集单元502,用于收集一批用户样本,其中的每个用户样本包括用户特征和风险标签。该风险标签用于指示出用户的总风险评分以及对应于各预定风险类型的多个单独风险评分。
这里的各预定风险类型可以包括违规违禁类型、反作弊类型、投资理财类型以及欺诈类型中的若干种。此外,上述用户特征可以包括用户属性、历史高危稽查记录、历史行为记录以及每天策略处罚结果中的若干种。
训练单元504,用于基于收集单元502收集的一批用户样本中各用户样本的用户特征,以及各用户样本的风险标签中的总风险评分,对特征编码层进行训练,得到训练的特征编码层。
获取单元506,用于基于训练单元504训练的特征编码层,获取各用户样本的特征编码结果。
这里,训练的特征编码层可以包括多棵决策树,获取单元506具体可以用于:
确定各用户样本在多棵决策树中各棵决策所落入叶子节点的节点标识。
基于各用户样本在多棵决策树中各棵决策所落入叶子节点的节点标识,确定各用户样本的特征编码结果。
上述各棵决策树中每棵决策树的每个非叶子节点对应于一个用户特征。每棵决策树的叶子节点的节点标识表征从该叶子节点至其所在决策树的根节点之间的路径所覆盖的各节点所对应用户特征的归一化处理结果。
训练单元504,还用于基于获取单元506获取的各用户样本的特征编码结果,以及各用户样本的风险标签中的总风险评分,对综合风险评估层进行训练。
训练样本504,还用于对于各单一风险评估层中的每个单一风险评估层,基于获取单元506获取的各用户样本的特征编码结果,以及各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
上述综合风险评估层以及各单一风险评估层中的每个单一风险评估层均包括迭代决策树模型。这里的迭代决策树模型可以包括以下任一种:梯度提升决策树GBDT模型、adaboost决策树模型以及XGBoost决策树模型。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的风险评估模型的训练装置,可以降低模型训练的成本和开销。
与上述风险评估方法对应地,本说明书一个实施例还提供的一种风险评估装置,如图6所示,该装置可以包括:
获取单元602,用于获取待评估风险用户的目标特征。
输入单元604,用于将获取单元602获取的目标特征输入风险评估模型的特征编码层,得到目标特征编码结果。
这里的风险评估模型可以通过图2所示的方法训练得到。
输入单元604,还用于将目标特征编码结果分别输入风险评估模型的综合风险评估层和各单一风险评估层。
获取单元602,还用于通过综合风险评估层的输出,得到待评估风险用户的总风险评分,通过各单一风险评估层中的每个单一风险评估层的输出,得到待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的风险评估装置,可以大大提升用户风险的评估效率。
另一方面,本说明书的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图2 或图4所示的方法。
另一方面,本说明书的实施例提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图2或图4所示的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

Claims (18)

1.一种风险评估模型的训练方法,所述风险评估模型包括特征编码层、综合风险评估层和若干单一风险评估层;各单一风险评估层中的每个单一风险评估层对应于各预定风险类型中的一种风险类型;所述方法包括:
收集一批用户样本,其中的每个用户样本包括用户特征和风险标签;所述风险标签用于指示出用户的总风险评分以及对应于所述各预定风险类型的多个单独风险评分;
基于所述一批用户样本中各用户样本的用户特征,以及所述各用户样本的风险标签中的总风险评分,对所述特征编码层进行训练,得到训练的特征编码层;所述训练的特征编码层包括多棵决策树,其中的每棵决策树的每个非叶子节点对应于一个用户特征;
基于训练的特征编码层,获取所述各用户样本的特征编码结果;任意的第一用户样本的特征编码结果,基于其在各棵决策树所落入叶子节点至根节点之间的路径所覆盖的各节点所对应用户特征的归一化处理结果确定;
基于所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的总风险评分,对所述综合风险评估层进行训练;
对于所述各单一风险评估层中的每个单一风险评估层,基于所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
2.根据权利要求1所述的方法,所述基于训练得到的特征编码层,获取所述各用户样本的特征编码结果,包括:
确定所述各用户样本在所述多棵决策树中各棵决策所落入叶子节点的节点标识;
基于所述各用户样本在所述多棵决策树中各棵决策所落入叶子节点的节点标识,确定所述各用户样本的特征编码结果。
3.根据权利要求2所述的方法,所述每棵决策树的叶子节点的节点标识表征从该叶子节点至其所在决策树的根节点之间的路径所覆盖的各节点所对应用户特征的归一化处理结果。
4.根据权利要求1所述的方法,所述综合风险评估层以及所述各单一风险评估层中的每个单一风险评估层均包括迭代决策树模型。
5.根据权利要求4所述的方法,所述迭代决策树模型包括以下任一种:梯度提升决策树GBDT模型、adaboost决策树模型以及XGBoost决策树模型。
6.根据权利要求1所述的方法,所述各预定风险类型包括违规违禁类型、反作弊类型、投资理财类型以及欺诈类型中的若干种。
7.根据权利要求1-6任一项所述的方法,所述用户特征包括用户属性、历史高危稽查记录、历史行为记录以及每天策略处罚结果中的若干种。
8.一种风险评估方法,包括:
获取待评估风险用户的目标特征;
将所述目标特征输入风险评估模型的特征编码层,得到目标特征编码结果;所述风险评估模型通过如权利要求1-7中任一项所述的方法训练得到;
将所述目标特征编码结果分别输入所述风险评估模型的综合风险评估层和各单一风险评估层;
通过所述综合风险评估层的输出,得到所述待评估风险用户的总风险评分;通过所述各单一风险评估层中的每个单一风险评估层的输出,得到所述待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
9.一种风险评估模型的训练装置,所述风险评估模型包括特征编码层、综合风险评估层和若干单一风险评估层;各单一风险评估层中的每个单一风险评估层对应于各预定风险类型中的一种风险类型;所述装置包括:
收集单元,用于收集一批用户样本,其中的每个用户样本包括用户特征和风险标签;所述风险标签用于指示出用户的总风险评分以及对应于所述各预定风险类型的多个单独风险评分;
训练单元,用于基于所述收集单元收集的所述一批用户样本中各用户样本的用户特征,以及所述各用户样本的风险标签中的总风险评分,对所述特征编码层进行训练,得到训练的特征编码层;所述训练的特征编码层包括多棵决策树,其中的每棵决策树的每个非叶子节点对应于一个用户特征;
获取单元,用于基于所述训练单元训练的特征编码层,获取所述各用户样本的特征编码结果;任意的第一用户样本的特征编码结果,基于其在各棵决策树所落入叶子节点至根节点之间的路径所覆盖的各节点所对应用户特征的归一化处理结果确定;
所述训练单元,还用于基于所述获取单元获取的所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的总风险评分,对所述综合风险评估层进行训练;
所述训练样本,还用于对于所述各单一风险评估层中的每个单一风险评估层,基于所述获取单元获取的所述各用户样本的特征编码结果,以及所述各用户样本的风险标签中的对应于该单一风险评估层的风险类型的单独风险评分,对该单一风险评估层进行训练。
10.根据权利要求9所述的装置,所述获取单元具体用于:
确定所述各用户样本在所述多棵决策树中各棵决策所落入叶子节点的节点标识;
基于所述各用户样本在所述多棵决策树中各棵决策所落入叶子节点的节点标识,确定所述各用户样本的特征编码结果。
11.根据权利要求10所述的装置,所述每棵决策树的叶子节点的节点标识表征从该叶子节点至其所在决策树的根节点之间的路径所覆盖的各节点所对应用户特征的归一化处理结果。
12.根据权利要求9所述的装置,所述综合风险评估层以及所述各单一风险评估层中的每个单一风险评估层均包括迭代决策树模型。
13.根据权利要求12所述的装置,所述迭代决策树模型包括以下任一种:梯度提升决策树GBDT模型、adaboost决策树模型以及XGBoost决策树模型。
14.根据权利要求9所述的装置,所述各预定风险类型包括违规违禁类型、反作弊类型、投资理财类型以及欺诈类型中的若干种。
15.根据权利要求9-14任一项所述的装置,所述用户特征包括用户属性、历史高危稽查记录、历史行为记录以及每天策略处罚结果中的若干种。
16.一种风险评估装置,包括:
获取单元,用于获取待评估风险用户的目标特征;
输入单元,用于将所述获取单元获取的所述目标特征输入风险评估模型的特征编码层,得到目标特征编码结果;所述风险评估模型通过如权利要求1-7中任一项所述的方法训练得到;
所述输入单元,还用于将所述目标特征编码结果分别输入所述风险评估模型的综合风险评估层和各单一风险评估层;
所述获取单元,还用于通过所述综合风险评估层的输出,得到所述待评估风险用户的总风险评分;通过所述各单一风险评估层中的每个单一风险评估层的输出,得到所述待评估风险用户的对应于每个单一风险评估层的风险类型的单独风险评分。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法或权利要求8所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法或权利要求8所述的方法。
CN202010256586.3A 2020-04-02 2020-04-02 风险评估模型的训练、风险评估方法及装置 Active CN111401914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256586.3A CN111401914B (zh) 2020-04-02 2020-04-02 风险评估模型的训练、风险评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256586.3A CN111401914B (zh) 2020-04-02 2020-04-02 风险评估模型的训练、风险评估方法及装置

Publications (2)

Publication Number Publication Date
CN111401914A CN111401914A (zh) 2020-07-10
CN111401914B true CN111401914B (zh) 2022-07-22

Family

ID=71429371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256586.3A Active CN111401914B (zh) 2020-04-02 2020-04-02 风险评估模型的训练、风险评估方法及装置

Country Status (1)

Country Link
CN (1) CN111401914B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738870B (zh) * 2020-07-28 2020-12-25 工保科技(浙江)有限公司 基于特征工程的工程履约保证保险风险识别方法与平台
CN111898675B (zh) * 2020-07-30 2021-04-23 北京云从科技有限公司 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN111967807A (zh) * 2020-10-23 2020-11-20 支付宝(杭州)信息技术有限公司 计算机执行的风险事件判别规则的生成方法及装置
CN112330432B (zh) * 2020-11-10 2024-03-15 中国平安人寿保险股份有限公司 风险等级识别模型训练方法、识别方法、终端及存储介质
CN112330035A (zh) * 2020-11-10 2021-02-05 支付宝(杭州)信息技术有限公司 风险预测模型的训练方法及装置
CN112785157B (zh) * 2021-01-22 2022-07-22 支付宝(杭州)信息技术有限公司 风险识别***的更新方法及装置、风险识别方法及装置
CN113610354A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 第三方平台用户的策略分配方法、装置及电子设备
CN114119037B (zh) * 2022-01-24 2022-05-17 深圳尚米网络技术有限公司 一种基于大数据的营销反作弊***
CN114422269A (zh) * 2022-03-28 2022-04-29 北京源堡科技有限公司 一种基于机器学习的网络安全评估方法和***
CN115935265B (zh) * 2023-03-03 2023-05-26 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法、风险识别方法及对应装置
CN116028820B (zh) * 2023-03-20 2023-07-04 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550931A (zh) * 2015-11-20 2016-05-04 长沙星际泛函网络科技有限公司 互联网资产证券化风险管理***
CN107481004A (zh) * 2017-08-11 2017-12-15 中国工商银行股份有限公司 交易风险防范***及方法
CN108062629A (zh) * 2017-12-26 2018-05-22 平安科技(深圳)有限公司 交易事件的处理方法、终端设备及介质
CN109272323A (zh) * 2018-09-14 2019-01-25 阿里巴巴集团控股有限公司 一种风险交易识别方法、装置、设备及介质
CN109308616A (zh) * 2018-08-29 2019-02-05 阿里巴巴集团控股有限公司 一种交易记录的风险判定方法及装置
CN109559214A (zh) * 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN109948932A (zh) * 2019-03-20 2019-06-28 杭州虹晟信息科技有限公司 基于大数据的风险监控分析***
CN110008349A (zh) * 2019-02-01 2019-07-12 阿里巴巴集团控股有限公司 计算机执行的事件风险评估的方法及装置
CN110245941A (zh) * 2019-04-25 2019-09-17 阿里巴巴集团控股有限公司 一种交易风险识别方法及装置
CN110534200A (zh) * 2019-09-09 2019-12-03 吉林大学中日联谊医院 一种人员高效体检风险管控***
CN110874743A (zh) * 2019-10-11 2020-03-10 支付宝(杭州)信息技术有限公司 用于确定账户交易风险的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242858A1 (en) * 2014-02-24 2015-08-27 Bank Of America Corporation Risk Assessment On A Transaction Level
US20180005235A1 (en) * 2016-06-29 2018-01-04 Ca, Inc. Electronic transaction risk assessment based on digital identifier trust evaluation
CN107818513A (zh) * 2017-11-24 2018-03-20 泰康保险集团股份有限公司 风险评估方法及装置、存储介质、电子设备
CN109242499A (zh) * 2018-09-19 2019-01-18 中国银行股份有限公司 一种交易风险预测的处理方法、装置及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550931A (zh) * 2015-11-20 2016-05-04 长沙星际泛函网络科技有限公司 互联网资产证券化风险管理***
CN107481004A (zh) * 2017-08-11 2017-12-15 中国工商银行股份有限公司 交易风险防范***及方法
CN109559214A (zh) * 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
CN108062629A (zh) * 2017-12-26 2018-05-22 平安科技(深圳)有限公司 交易事件的处理方法、终端设备及介质
CN109308616A (zh) * 2018-08-29 2019-02-05 阿里巴巴集团控股有限公司 一种交易记录的风险判定方法及装置
CN109272323A (zh) * 2018-09-14 2019-01-25 阿里巴巴集团控股有限公司 一种风险交易识别方法、装置、设备及介质
CN110008349A (zh) * 2019-02-01 2019-07-12 阿里巴巴集团控股有限公司 计算机执行的事件风险评估的方法及装置
CN109948932A (zh) * 2019-03-20 2019-06-28 杭州虹晟信息科技有限公司 基于大数据的风险监控分析***
CN110245941A (zh) * 2019-04-25 2019-09-17 阿里巴巴集团控股有限公司 一种交易风险识别方法及装置
CN110534200A (zh) * 2019-09-09 2019-12-03 吉林大学中日联谊医院 一种人员高效体检风险管控***
CN110874743A (zh) * 2019-10-11 2020-03-10 支付宝(杭州)信息技术有限公司 用于确定账户交易风险的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
P2P网贷平台借款人信用风险评估模型适应性研究;谢陈昕;《武汉金融》;20190331(第3期);全文 *
Risk Assessment of Mobile Payment System Security Based on Extension Theory;Juncai Zhang 等;《2012 International Conference on Computer Science and Service System》;20121231;全文 *

Also Published As

Publication number Publication date
CN111401914A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401914B (zh) 风险评估模型的训练、风险评估方法及装置
CN111259388B (zh) 一种基于图卷积的恶意软件api调用序列检测方法
US11915104B2 (en) Normalizing text attributes for machine learning models
WO2017140222A1 (zh) 机器学习模型的建模方法及装置
CN111507470A (zh) 一种异常账户的识别方法及装置
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN112712383A (zh) 应用程序的***预测方法、装置、设备及存储介质
CN113570222A (zh) 一种用户设备鉴别方法、装置和计算机设备
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN115357764A (zh) 一种异常数据检测方法及装置
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CN117376228A (zh) 一种网络安全测试工具确定方法及装置
CN112949778A (zh) 基于局部敏感哈希的智能合约分类方法、***及电子设备
CN111523604A (zh) 一种用户分类的方法和相关装置
CN111143533A (zh) 一种基于用户行为数据的客服方法及***
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质
CN112991025A (zh) 一种保险智能推荐方法、***、设备及计算机可读存储介质
CN112613562A (zh) 基于多中心云计算的数据分析***及方法
CN112732549A (zh) 基于聚类分析的测试程序分类方法
CN111026661A (zh) 一种软件易用性全面测试方法及***
CN116502140B (zh) 一种基于控制流图相似性的加密算法识别方法及装置
CN115269684A (zh) 应对供应链金融服务的业务数据处理方法及***
CN114756461A (zh) 基于隔离森林的跨项目缺陷预测样本过滤方法及预测方法
CN113822309A (zh) 用户的分类方法、装置和非易失性计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant