CN114978616B - 风险评估***的构建方法及装置、风险评估方法及装置 - Google Patents

风险评估***的构建方法及装置、风险评估方法及装置 Download PDF

Info

Publication number
CN114978616B
CN114978616B CN202210486217.2A CN202210486217A CN114978616B CN 114978616 B CN114978616 B CN 114978616B CN 202210486217 A CN202210486217 A CN 202210486217A CN 114978616 B CN114978616 B CN 114978616B
Authority
CN
China
Prior art keywords
samples
labeling
sample
risk
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210486217.2A
Other languages
English (en)
Other versions
CN114978616A (zh
Inventor
张长浩
傅欣艺
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210486217.2A priority Critical patent/CN114978616B/zh
Publication of CN114978616A publication Critical patent/CN114978616A/zh
Application granted granted Critical
Publication of CN114978616B publication Critical patent/CN114978616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种风险评估***的构建方法,包括:利用第一标注事件样本集训练第一风险评估模型,所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分,所述各个灰样本被已有的风控技术识别为风险样本;基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;利用扩充后的第二标注事件样本集训练第二风险评估模型,训练好的第二风险评估模型用于构建所述风险评估***。

Description

风险评估***的构建方法及装置、风险评估方法及装置
技术领域
本说明书一个或多个实施例机器学习技术领域,尤其涉及一种风险评估***的构建方法及装置,以及一种风险评估方法及装置。
背景技术
随着计算机网络的快速发展,网络安全问题日益突出。存在多种高风险操作行为,例如盗取账户、流量攻击、欺诈交易等等,有可能威胁网络安全或用户信息安全。出于网络安全和风险防控的考虑,在许多场景下,需要对用户风险类型、用户操作行为或操作事件等进行分析和处理,评估与用户相关的风险程度,以便进行风险防控。
然而,目前已有风险评估方式的效果有限。因此,需要一种方案,可以有效提高风险评估的准确度,从而更好地满足实际应用需求。
发明内容
本说明书一个或多个实施例描述了一种风险评估***的构建方法及装置,构造黑样本浓度较高的训练样本集,对具有大量黑样本信息而原本无法有效利用的灰样本进行筛选和使用,从而有效提高对风险样本的识别准确率。
根据第一方面,提供一种风险评估***的构建方法,包括:利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***。
在一个实施例中,在利用第一标注事件样本集训练第一风险评估模型之前,所述方法还包括:将所述第二标注事件样本集拆分为两个标注子集;利用所述两个标注子集对应训练两个风险评估模型,用于构建所述风险评估***;利用训练好的两个风险评估模型对所述两个标注子集进行交叉打分,得到所述第二标注事件样本集中各个标注样本的预测风险分;基于所述各个标注样本的预测风险分,从所述第二标注样集中选取所述第一数量的黑样本和第二数量的白样本,形成所述第一标注事件样本集。
在一个具体的实施例中,基于所述各个标注样本的预测风险分,从所述第二标注样集中选取所述第一数量的黑样本和第二数量的白样本,包括:对所述各个标注样本的预测风险分进行倒排序;根据所述倒排序的结果,从所述多个黑样本中选取排在靠前位置的所述第一数量的黑样本,以及从所述多个白样本中选取排在靠后位置的所述第二数量的白样本。
在一个具体的实施例中,在得到所述第二标注事件样本集中各个标注样本的预测风险分之后,所述方法还包括:针对所述各个标注样本,在该标注样本为黑样本的情况下,若其预测风险分小于第一阈值,则将其从所述第二标注事件样本集中剔除,或者,在该标注样本为白样本的情况下,若其预测风险分大于第二阈值,则将其从所述第二标注事件样本集中剔除;基于进行剔除处理后的第二标注事件样本集训练第三风险评估模型;训练好的第三风险评估模型用于构建所述风险评估***。
在一个具体的实施例中,在将包含多个黑样本和多个白样本的第二标注事件样本集拆分为两个标注子集之前,所述方法还包括:获取对应第一历史时段的第三标注事件样本集,以及,获取对应第二历史时段的第四标注事件样本集;所述第一历史时段早于所述第二历史时段;利用所述第三标注事件样本集训练第四风险评估模型,并利用训练好的第四风险评估模型对所述第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分;针对所述各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,用于形成所述第二标注事件样本集。
进一步,在一个更具体的实施例中,在利用所述第三标注样本训练第四风险评估模型之前,所述方法还包括:针对所述第三标注事件样本集中的各个第三标注样本,按照预设方式对其进行特征维度的拆分,得到预定数量的子样本,对应归入预定数量的子样本集;其中,所述第四风险评估模型包括所述预定数量的子模型;其中,利用所述第三标注样本训练第四风险评估模型,并利用训练好的第四风险评估模型对所述第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分,包括:利用所述预定数量的子样本集,对应训练所述预定数量的子模型;分别利用所述预定数量的子模型处理所述各个第四标注样本,得到该第四标注样本对应的预定数量的预测风险分。
更进一步地,在一个示例中,针对所述各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,包括:针对所述各个第四标注样本,基于其预定数量的预测风险分进行预定计算,并利用计算结果对该第四标注样本进行特征扩充,得到对应的第五标注样本。
在一个实施例中,所述训练好的第一风险评估模型用于构建所述风险评估***。
在一个实施例中,所述风险评估***中的各个风险评估模型均基于树模型实现。
根据第二方面,提供一种风险评估方法,包括:获取待检测的目标事件样本;将所述目标事件样本输入采用第一方面中任一项所述的方法构建出的风险评估***,得到其中若干风险评估模型预测出的若干风险分;基于所述若干风险分,确定所述目标事件样本的风险评估结果。
在一个实施例中,基于所述若干风险分,确定所述目标事件样本的风险评估结果,包括:求取若干风险分的平均值,若该平均值大于分数阈值,则将有风险确定为所述风险评估结果;或,确定所述若干风险分中大于分数阈值的风险分个数,若该风险分个数大于个数阈值,则将有风险确定为所述风险评估结果。
根据第三方面,提供一种风险评估***的构建装置,包括:第一训练单元,配置为利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;灰样本预测单元,配置为利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;灰样本筛选单元,配置为基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;第二训练单元,配置为利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***。
根据第四方面,提供一种风险评估装置,包括:目标样本获取单元,配置为获取待检测的目标事件样本;风险预测单元,配置为将所述目标事件样本输入采用第一方面中任一项所述的方法构建出的风险评估***,得到其中若干风险评估模型预测出的若干风险分;结果确定单元,配置为基于所述若干风险分,确定所述目标事件样本的风险评估结果。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
采用本说明书实施例提供的方法和装置,构造黑样本浓度较高的训练样本集,对具有大量黑样本信息而原本无法有效利用的灰样本进行筛选和使用,从而有效提高对风险样本的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的风险评估***的构建实施示意图;
图2示出根据一个实施例的风险评估***的构建方法流程示意图;
图3示出根据一个实施例的风险评估方法流程图;
图4示出根据一个实施例的风险评估***的构建装置结构示意图;
图5示出根据一个实施例的风险评估装置结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
承前所述,目前已有的风险评估方式的效果有限,主要原因包括采集的历史风控数据存在标签失衡问题。具体,由于风控是一个绝大多数是好人的场景,导致黑样本标签的浓度极小,这对于机器学习建模来说十分困难。另外,发明人发现,风控场景中存在大量被现有的风控技术识别出来的高危样例(或称灰样本),通常因被及时阻断而没有用户报案,但高概率属于黑样本。
由此,发明人提出利用实际具有大量黑样本信息的灰样本提升风险识别效果。图1示出根据一个实施例的风险评估***的构建实施示意图,如图1所示,先利用包括大量黑样本和少量白样本的高黑浓度事件样本集,训练第一风险评估模型;再利用训练好的第一风险评估模型对灰样本集进行筛选,筛出其中的黑样本;之后,利用筛选出的黑样本对原具有少量黑样本和大量白样本的原始标注事件样本集进行扩充,从而利用扩充后的标签均衡的事件样本集训练第二风险评估模型,用于构建风险评估***。如此构建出的风险评估***,可以实现对风险样本的精准识别。
下面结合具体的实施例,描述实现上述发明构思的方案步骤。
图2示出根据一个实施例的风险评估***的构建方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的装置、平台或设备集群等。如图2所示,所述方法包括以下步骤:
步骤S210,利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;步骤S220,利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;步骤S230,基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;步骤S240,利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***。
对上述步骤的展开介绍如下:
步骤S210,利用第一标注事件样本集训练第一风险评估模型。需说明,第一风险评估模型用于从灰样本中筛选出黑样本,进一步,考虑到灰样本虽然无标签,但是灰样本的风险系数很高,于是,提出构造与灰样本数据分布相契合的高黑样本浓度的标注数据集,训练风险评估模型,从而实现对灰样本中黑样本的准确筛选。
上述第一标注事件样本集可以基于采集的原始标注事件样本集(或称第二标注事件样本集)而确定。需说明,标注事件样本指带标签的事件样本,标签指示有风险的样本称为黑样本,标签指示无风险的样本称为白样本;事件样本涉及的事件可以包括:交易事件、访问事件、登录事件等,事件样本中的特征可以包括事件发生的时间、网络地址、地理位置、所涉及终端设备的设备信息(如设备ID、型号等)和所涉及用户的用户信息(如性别、年龄、兴趣爱好、常住地、网络行为偏好等)。
另一方面,第一标注事件样本集中的黑样本个数多于白样本个数,第二标注事件样本集中的白样本个数多于黑样本个数。由此,可以采用从第二标注事件样本集中剔除大量白样本的方式,构造第一标注事件样本集合。在一个实施例中,可以从第二标注事件样本集中选取部分白样本进行剔除,然后将剩余的黑样本和白样本组成上述第一标注事件样本集。
在另一个实施例中,为了对第一标注事件样本集的有效利用,以及使得构造出的第一标注事件样本集充分逼近灰色样本的数据分布,提出引入双塔结构互相交叉验证。具体地,将第二标注事件样本集拆分为两个标注子集,并利用该两个标注子集对应训练两个风险评估模型,再利用训练好的两个风险评估模型对该两个标注子集进行交叉打分,得到第二标注事件样本集中各个标注样本的预测风险分;进一步,基于该预测风险分,从第二标注样集中选取所述第一数量的黑样本和第二数量的白样本,形成第一标注事件样本集。
进一步,在一个具体的实施例中,可以将第二标注事件样本集中的黑、白样本各分为两等份,再将其中一份黑样本和一份白样本组成一个标注子集,以及将其中另一份黑样本和另一份白样本组成另一个标注子集,由此,得到两个标注子集,为方便描述,或称第一标注子集和第二标注子集。
在一个具体的实施例中,利用第一标注子集训练风险评估模型mA,利用第二标注子集训练风险评估模型mB;接着,利用训练好的风险评估模型mA对第一标注子集进行打分,利用训练好的风险评估模型mB对第二标注子集进行打分,如此,可以得到第二标注事件样本集中各个标注样本的预测风险分(或称预测风险概率)。如此,通过拆分原始标注数据集来训练两个风险评估模型,可以节省训练时间,提升模型的训练效率,还可以有效防止过拟合;进一步,通过交叉验证打分,可以实现对各个标注样本风险程度的准确评估。
在一个具体的实施例中,先对上述各个标注样本的预测风险分进行倒排,也就是从大到小的排序。需理解,文中主要以风险分越高,相应风险程度越高为例进行描述。然后,根据倒排序的结果,选取排在靠前位置的第一数量的黑样本,以及选取排在靠后位置的第二数量的白样本。在另一个具体的实施例中,基于第二标注事件样本集中的多个黑样本(或称第三数量的黑样本),选取其中预测风险分数大于第一阈值(如0.8)的样本,归入上述第一数量的黑样本,并且,基于其中的多个白样本(或称第四数量的白样本),选取预测风险分数小于第二阈值(如0.1)的样本,归入上述第二数量的白样本。
如此,可以利用选取的第一数量的黑样本和第二数量的白样本,构造第一标注样本集。另外需说明,上述训练好的风险评估模型mA和风险评估模型mB可以用于构建风险评估***,或者说,可以被集成到风险评估***中。
进一步,可以利用第一标注事件样本集训练第一风险评估模型。在一个实施例中,第一风险评估模型可以实现为树模型、深度学习(Deep Learning,简称DL)模型、贝叶斯网络模型。在一个具体的实施例中,其中树模型可以是梯度提升决策树(Gradient BoostingDecision Tree,简称GBDT)、ID3分类树或C4.5分类树。另一方面,在一个具体的实施例中,可以将第一标注事件样本集中各个样本的特征输入第一风险评估模型,得到对应的风险评估结果,再基于风险评估结果和对应的样本标签,例如,黑样本标签为1,白样本标签为0,计算训练梯度,进而根据训练梯度采样反向传播法调整第一风险评估模型的模型参数,如此对模型参数进行多轮次迭代更新,直到模型参数收敛,可以得到训练好的第一风险评估模型。
由上,可以得到训练好的第一风险评估模型。另外需说明,训练好的第一风险评估模型可以用于构建风险评估***。
然后,在步骤S220,利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分。需说明,灰样本是被已有的风控技术识别为风险样本的样本,其高概率是黑样本,但没有经过人工打标而无法确定是否为黑样本。在一个实施例中,其中已有的风控技术可以包括风控规则、风控策略、或风控模型等。另一方面,在一个实施例中,在线上交易场景下,在已有的风控技术识别出当前交易存在风险时,通常会对该笔交易进行干预,如阻断该交易的进行,或者关闭该交易。因此,这笔交易即使时风险交易,因没有完成,之后也不会接收到用户报案。此时,可以将此交易样本作为灰样本。
本步骤中,利用训练好的第一风险评估模型,对采集的多个灰样本分别进行预测,可以得到其中各个灰样本的预测风险分。接着,步骤S230,基于各个灰样本的预测风险分,从多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充。
在一个实施例中,可以选取预测风险分大于预设阈值的灰样本,为其打上有风险的标签,作为黑样本补充到第二标注事件样本集中。需理解,其中预设阈值可以由人工进行设定。示例性地,可以根据多个灰样本对应的多个预测风险分,绘制预测风险分的数据分布图,进而根据数据分布图,进行阈值设定。
在另一个实施例中,可以对多个灰样本对应的多个预测风险分进行从高到低的排序,然后选取排在预定范围(如前10万名或者前30%)内的灰色样本,作为黑样本补充到第二标注事件样本集中。
由上,可以实现从灰样本集中选出真正的黑样本,补充到第二标注事件样本集中,使得扩充后的第二标注事件样本集中的标签均衡,即有效缩小其中黑白样本数量的差距。
然后,在步骤S240,利用扩充后的第二标注事件样本集训练第二风险评估模型,训练好的第二风险评估模型用于构建所述风险评估***。在一个实施例中,第二风险评估模型基于的模型算法可以与第一风险评估模型相同,也可以不同。
需说明,因扩充后的第二标注事件样本集,相较扩充前已补入大量从灰样本中筛选出的黑样本,使得样本分布从标签失衡转换为标签均衡,基于标签均衡的标注样本集训练出的第二风险评估模型,具有优良的预测性能。
由上,可以将训练好的第二风险评估模型集成在风险评估***中。
根据另一方面的实施例,发明人还提出,对第二标注事件样本集中的异常样本进行剔除,并利用保留下来的样本训练第三风险评估模型,从而有效提升模型效果,加强模型的泛化能力。具体,针对扩充前的第二标注事件样本集中的各个标注样本,在该标注样本为黑样本的情况下,若其在上述交叉验证时得到的预测风险分小于第一阈值(如0.6),则将其从第二标注样本集中剔除,或者,在该标注样本为白样本的情况下,若其在上述交叉验证时得到的预测风险分大于第二阈值(如0.4),则将其从所述第二标注事件样本集中剔除。
进一步,可以基于剔除异常黑白样本后保留下来的标注样本,训练第三风险评估模型。在一个实施例中,可以直接基于这些标注样本训练第三风险评估模型。在另一个实施例中,可以利用第二标注事件样本集中保留下来的标注样本和上述从灰样本集中筛选出的黑样本,共同训练第三风险评估模型。由此,可以将训练好的第三风险评估模型集成到风险评估***中。
根据又一方面的实施例,考虑到风控是一个攻防十分激烈的场景,上个月训练出的模型可能到下个月就失效了,需要利用新采集的样本进行重新训练。由此,发明人提出,把之前采集的样本也利用起来,从而提升当前训练出的模型的准确度。
具体地,可以基于以下步骤构建第二标注事件样本集:首先,获取对应第一历史时段的第三标注事件样本集,以及,获取对应第二历史时段的第四标注事件样本集,其中第一历史时段(例如2022年2月)早于第二历史时段(例如2022年3月);接着,利用第三标注事件样本集训练第四风险评估模型,并利用训练好的第四风险评估模型对第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分;然后,针对各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,用于形成上述第二标注事件样本集。
在一个具体的实施例中,为进一步提高扩充特征的可用度,在获取上述第三标注事件样本集后,可以先按照预设方式对其进行特征维度的拆分,得到多个(记作m个)的子样本,对应归入m个子样本集。示例性的,对于交易事件标注样本,假定其中第1-50维为交易用户的特征,第51-100维为交易商家的特征,第100-150维为交易订单的特征,据此可以每个交易事件标注样本都拆分为3个子样本,并且共享原样本的标签,进而将这3个子样本对应归入3个子样本集。进一步,可以利用m个子样本集,对应训练组成第四风险评估模型的m个子模型,也即,利用任意的第i个子样本集训练第i个子模型。之后,针对各个第四标注样本,利用训练好的m个子模型分别对其进行处理,得到该第四标注样本对应的预测风险分。
在一个具体的实施例中,针对各个第四标注样本,可以直接将其预测风险分作为新的特征而进行特征扩充。在另一个具体的实施例中,若各个第四标注样本具有预测出的m个预测风险分,此时,可以利用m个预测风险分进行预定计算(如求平均或中位数等),并将计算结果作为新的特征,从而实施特征扩充。
由此,可以利用往期训练数据实现对当前训练数据的特征扩充,从而提高第二标注事件样本集的可用性,进而提升风险评估***的识别效果。
以上,可以构建至少包括训练好的第二风险评估模型的风险评估***,进一步,风险评估***中还可以集成有上述训练好的风险评估模型mA、风险评估模型mB、第三风险评估模型或第四风险评估模型。由此,可以构建出风险评估***,其中包括一个或多训练好的风险评估模型。
根据还一方面的实施例,发明人提出,可以更加充分地利用集成学习的思想,训练出更多的风险评估模型,进而提升最终集成后的预测结果的准确性。具体包括以下步骤:
1)获取上述原始标注事件样本集(也即第二标注事件样本集),将其拆分为第一个标注子集和第二标注子集后,对应训练风险评估模型mA、风险评估模型mB
2)利用训练好的风险评估模型mB对第一标注子集进行处理,得到其中各个第一标注样本的预测风险分,根据此预测风险分,从第一标注子集中刨除大量的白样本,使得原有的第一黑样本数量多于剩余的第一白样本数量,从而形成第一高黑浓度样本集,并利用此第一高黑浓度样本集训练风险评估模型mC;类似地,利用风险评估模型mA对第二标注子集进行处理,得到其中各个第二标注样本的预测风险分,根据此预测风险分,从第二标注子集中刨除大量的白样本,使得原有的第二黑样本数量多于剩余的第二白样本数量,从而形成第二高黑浓度样本集,并利用此第一高黑浓度样本集训练风险评估模型mD
3)获取灰样本集,将其拆分为两个灰样本子集,利用风险评估模型mC对其中的第一灰样本子集进行处理,从而根据其中各个第一灰样本的预测风险分,从第一灰样本子集中选取出第一部分灰样本,作为黑样本对上述第一标注子集进行扩充,进而利用扩充后的第一标注子集训练风险评估模型mE;类似地,还利用风险评估模型mD对其中的第二灰样本子集进行处理,从而根据其中各个第二灰样本的预测风险分,从第二灰样本子集中选取出第二部分灰样本,作为黑样本对上述第二标注子集进行扩充,进而利用扩充后的第二标注子集训练风险评估模型mF
4)根据第一标注子集中各个第一标注样本的预测风险分,从中剔除第一异常样本,包括得到高分的第一白样本和得到低分的第一黑样本,从而利用剩余的第一黑、白样本和上述被筛选为黑样本的第一部分灰样本,训练风险评估模型mG;类似地,根据第二标注子集中各个第二标注样本的预测风险分,从中剔除第二异常样本,包括得到高分的第二白样本和得到低分的第二黑样本,从而利用剩余的第二黑、白样本和上述被筛选为黑样本的第二部分灰样本,训练风险评估模型mH
由上,可以得到训练好的8个风险评估模型,即,mA~mH,进而集成得到预测性能优异的风险评估***。
根据再一方面的实施例,本说明书还披露一种对上述构建出的异常检测***的使用方法。图3示出根据一个实施例的风险评估方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的平台、服务器或设备集群。如图3所示,所述方法包括以下步骤:
步骤S310,获取待检测的目标事件样本;步骤S320,将所述目标事件样本输入构建好的风险评估***,得到其中若干风险评估模型预测出的若干风险分;步骤S330,基于所述若干风险分,确定所述目标事件样本的风险评估结果。
对以上步骤的展开介绍如下:
首先,在步骤S310,获取待检测的目标事件样本。示例性地,响应于用户对支付操作的触发,获取支付信息,形成支付事件样本。
接着,在步骤S320,将所述目标事件样本输入构建好的风险评估***,得到其中若干风险评估模型预测出的若干风险分。需理解,构建出的风险评估***可以包括上述中的一个或多个风险评估模型,相应,可以预测出目标事件样本对应的一个或多个风险分值。
然后,在步骤S330,基于上述若干风险分,确定所述目标事件样本的风险评估结果。
在一个实施例中,在若干风险分为单个风险分的情况下,可以直接将其与预设的分数阈值(如0.75)进行比较,若大于,则判定为有风险,否则判定为无风险。在另一个实施例中,在若干风险分为多个风险分的情况下,可以求取该多个风险分的平均值,进而在该平均值大于分数阈值的情况下,判定该目标事件存在风险,否则判定为无风险;或者,可以确定该多个风险分中大于分数阈值的风险分个数,若该风险分个数(如6个)大于个数阈值(如4个),则判定该目标事件有风险,否则判定为无风险。
由上,可以实现对异常评估***的使用,得到准确的风险识别结果。
与上述风险评估***的构建、使用方法相对应地,本说明书实施例还披露构建、使用装置。图4示出根据一个实施例的风险评估***的构建装置结构示意图,如图4所示,所述装置包括以下单元:
第一训练单元410,配置为利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;灰样本预测单元420,配置为利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;灰样本筛选单元430,配置为基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;第二训练单元440,配置为利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***。
在一个实施例中,所述装置还包括第一样本集确定单元450,其包括子单元:第一拆分子单元451,配置为将所述第二标注事件样本集拆分为两个标注子集;训练子单元452,配置为利用所述两个标注子集对应训练两个风险评估模型,用于构建所述风险评估***;打分子单元453,配置为利用训练好的两个风险评估模型对所述两个标注子集进行交叉打分,得到所述第二标注事件样本集中各个标注样本的预测风险分;选取子单元454,配置为基于所述各个标注样本的预测风险分,从所述第二标注样集中选取所述第一数量的黑样本和第二数量的白样本,形成所述第一标注事件样本集。
进一步,在一个具体的实施例中,选取子单元454具体配置为:对所述各个标注样本的预测风险分进行倒排序;根据所述倒排序的结果,从所述多个黑样本中选取排在靠前位置的所述第一数量的黑样本,以及,从所述多个白样本中选取排在靠后位置的所述第二数量的白样本。
在一个具体的实施例中,所述装置还包括:异常样本剔除单元460,配置为针对所述各个标注样本,在该标注样本为黑样本的情况下,若其预测风险分小于第一阈值,则将其从所述第二标注事件样本集中剔除,或者,在该标注样本为白样本的情况下,若其预测风险分大于第二阈值,则将其从所述第二标注事件样本集中剔除;基于进行剔除处理后的第二标注事件样本集训练第三风险评估模型;训练好的第三风险评估模型用于构建所述风险评估***。
在一个具体的实施例中,所述装置还包括第二样本集确定单元470,其包括子单元:样本集获取子单元471,配置为获取对应第一历史时段的第三标注事件样本集,以及,获取对应第二历史时段的第四标注事件样本集;所述第一历史时段早于所述第二历史时段;预测子单元472,配置为利用所述第三标注事件样本集训练第四风险评估模型,并利用训练好的第四风险评估模型对所述第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分;特征扩充子单元473,配置为针对所述各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,用于形成所述第二标注事件样本集。
更进一步地,在一个更具体的实施例中,所述第二样本集确定单元470还包括:第二拆分子单元474,配置为:针对所述第三标注事件样本集中的各个第三标注样本,按照预设方式对其进行特征维度的拆分,得到预定数量的子样本,对应归入预定数量的子样本集。其中,所述第四风险评估模型包括所述预定数量的子模型;其中,预测子单元472具体配置为:利用所述预定数量的子样本集,对应训练所述预定数量的子模型;分别利用所述预定数量的子模型处理所述各个第四标注样本,得到该第四标注样本对应的预定数量的预测风险分。
在一个例子中,特征扩充子单元473具体配置为:针对所述各个第四标注样本,基于其预定数量的预测风险分进行预定计算,并利用计算结果对该第四标注样本进行特征扩充,得到对应的第五标注样本。
在一个实施例中,所述训练好的第一风险评估模型用于构建所述风险评估***。
在一个实施例中,所述风险评估***中的各个风险评估模型均基于树模型实现。
图5示出根据一个实施例的风险评估装置结构示意图,其中示出的装置包括:
目标样本获取单元510,配置为获取待检测的目标事件样本;风险预测单元520,配置为将所述目标事件样本输入采用上述实施例构建出的风险评估***,得到其中若干风险评估模型预测出的若干风险分;结果确定单元530,配置为基于所述若干风险分,确定所述目标事件样本的风险评估结果。
在一个实施例中,结果确定单元530具体配置为:求取若干风险分的平均值,若该平均值大于分数阈值,则将有风险确定为所述风险评估结果;或,确定所述若干风险分中大于分数阈值的风险分个数,若该风险分个数大于个数阈值,则将有风险确定为所述风险评估结果。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (15)

1.一种风险评估***的构建方法,包括:
利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;
利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;
基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;
利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***;
其中事件样本涉及的事件包括交易事件、访问事件、或登录事件。
2.根据权利要求1所述的方法,其中,在利用第一标注事件样本集训练第一风险评估模型之前,所述方法还包括:
将所述第二标注事件样本集拆分为两个标注子集;
利用所述两个标注子集对应训练两个风险评估模型,用于构建所述风险评估***;
利用训练好的两个风险评估模型对所述两个标注子集进行交叉打分,得到所述第二标注事件样本集中各个标注样本的预测风险分;
基于所述各个标注样本的预测风险分,从所述第二标注事件样本集中选取所述第一数量的黑样本和第二数量的白样本,形成所述第一标注事件样本集。
3.根据权利要求2所述的方法,其中,基于所述各个标注样本的预测风险分,从所述第二标注事件样本集中选取所述第一数量的黑样本和第二数量的白样本,包括:
对所述各个标注样本的预测风险分进行倒排序;
根据所述倒排序的结果,从所述多个黑样本中选取排在靠前位置的所述第一数量的黑样本,以及,从所述多个白样本中选取排在靠后位置的所述第二数量的白样本。
4.根据权利要求2所述的方法,其中,在得到所述第二标注事件样本集中各个标注样本的预测风险分之后,所述方法还包括:
针对所述各个标注样本,在该标注样本为黑样本的情况下,若其预测风险分小于第一阈值,则将其从所述第二标注事件样本集中剔除,或者,在该标注样本为白样本的情况下,若其预测风险分大于第二阈值,则将其从所述第二标注事件样本集中剔除;
基于进行剔除处理后的第二标注事件样本集训练第三风险评估模型;训练好的第三风险评估模型用于构建所述风险评估***。
5.根据权利要求2所述的方法,其中,在将包含多个黑样本和多个白样本的第二标注事件样本集拆分为两个标注子集之前,所述方法还包括:
获取对应第一历史时段的第三标注事件样本集,以及,获取对应第二历史时段的第四标注事件样本集;所述第一历史时段早于所述第二历史时段;
利用所述第三标注事件样本集训练第四风险评估模型,并利用训练好的第四风险评估模型对所述第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分;
针对所述各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,用于形成所述第二标注事件样本集。
6.根据权利要求5所述的方法,其中,在利用所述第三标注事件样本集训练第四风险评估模型之前,所述方法还包括:
针对所述第三标注事件样本集中的各个第三标注样本,按照预设方式对其进行特征维度的拆分,得到预定数量的子样本,对应归入预定数量的子样本集;
其中,所述第四风险评估模型包括所述预定数量的子模型;其中,利用所述第三标注事件样本集训练第四风险评估模型,并利用训练好的第四风险评估模型对所述第四标注事件样本集进行预测,得到其中各个第四标注样本的预测风险分,包括:
利用所述预定数量的子样本集,对应训练所述预定数量的子模型;
分别利用所述预定数量的子模型处理所述各个第四标注样本,得到该第四标注样本对应的预定数量的预测风险分。
7.根据权利要求6所述的方法,其中,针对所述各个第四标注样本,利用其预测风险分对其进行特征扩充,得到对应的第五标注样本,包括:
针对所述各个第四标注样本,基于其预定数量的预测风险分进行预定计算,并利用计算结果对该第四标注样本进行特征扩充,得到对应的第五标注样本。
8.根据权利要求1所述的方法,其中,所述训练好的第一风险评估模型用于构建所述风险评估***。
9.根据权利要求1所述的方法,其中,所述风险评估***中的各个风险评估模型均基于树模型实现。
10.一种风险评估方法,包括:
获取待检测的目标事件样本;
将所述目标事件样本输入采用权利要求1-9中任一项所述的方法构建出的风险评估***,得到其中若干风险评估模型预测出的若干风险分;
基于所述若干风险分,确定所述目标事件样本的风险评估结果。
11.根据权利要求10所述的方法,其中,基于所述若干风险分,确定所述目标事件样本的风险评估结果,包括:
求取若干风险分的平均值,若该平均值大于分数阈值,则将有风险确定为所述风险评估结果;或,
确定所述若干风险分中大于分数阈值的风险分个数,若该风险分个数大于个数阈值,则将有风险确定为所述风险评估结果。
12.一种风险评估***的构建装置,包括:
第一训练单元,配置为利用第一标注事件样本集训练第一风险评估模型;所述第一标注事件样本集中包括第一数量的黑样本和第二数量的白样本,所述第一数量大于第二数量;
灰样本预测单元,配置为利用训练好的第一风险评估模型处理多个灰样本,得到其中各个灰样本的预测风险分;所述各个灰样本被已有的风控技术识别为风险样本;
灰样本筛选单元,配置为基于所述预测风险分,从所述多个灰样本中选取部分灰样本,作为对第二标注事件样本集中黑样本的扩充;所述第二标注事件样本集中初始包括第三数量的黑样本和第四数量的白样本,所述第三数量小于第四数量;
第二训练单元,配置为利用扩充后的第二标注事件样本集训练第二风险评估模型;训练好的第二风险评估模型用于构建所述风险评估***;
其中事件样本涉及的事件包括交易事件、访问事件、或登录事件。
13.一种风险评估装置,包括:
目标样本获取单元,配置为获取待检测的目标事件样本;
风险预测单元,配置为将所述目标事件样本输入采用权利要求1-9中任一项所述的方法构建出的风险评估***,得到其中若干风险评估模型预测出的若干风险分;
结果确定单元,配置为基于所述若干风险分,确定所述目标事件样本的风险评估结果。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项所述的方法。
15.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202210486217.2A 2022-05-06 2022-05-06 风险评估***的构建方法及装置、风险评估方法及装置 Active CN114978616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210486217.2A CN114978616B (zh) 2022-05-06 2022-05-06 风险评估***的构建方法及装置、风险评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210486217.2A CN114978616B (zh) 2022-05-06 2022-05-06 风险评估***的构建方法及装置、风险评估方法及装置

Publications (2)

Publication Number Publication Date
CN114978616A CN114978616A (zh) 2022-08-30
CN114978616B true CN114978616B (zh) 2024-01-09

Family

ID=82981196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210486217.2A Active CN114978616B (zh) 2022-05-06 2022-05-06 风险评估***的构建方法及装置、风险评估方法及装置

Country Status (1)

Country Link
CN (1) CN114978616B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及***
CN110020746A (zh) * 2019-02-20 2019-07-16 阿里巴巴集团控股有限公司 一种风险防控方法、装置、处理设备及***
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN113420789A (zh) * 2021-05-31 2021-09-21 北京经纬信息技术有限公司 一种预测风险账号的方法、装置、存储介质和计算机设备
CN113537630A (zh) * 2021-08-04 2021-10-22 支付宝(杭州)信息技术有限公司 业务预测模型的训练方法及装置
CN114154556A (zh) * 2021-11-03 2022-03-08 同盾科技有限公司 样本预测模型的训练方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396332B2 (en) * 2014-05-21 2016-07-19 Microsoft Technology Licensing, Llc Risk assessment modeling
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105743877A (zh) * 2015-11-02 2016-07-06 哈尔滨安天科技股份有限公司 一种网络安全威胁情报处理方法及***
CN110020746A (zh) * 2019-02-20 2019-07-16 阿里巴巴集团控股有限公司 一种风险防控方法、装置、处理设备及***
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN113420789A (zh) * 2021-05-31 2021-09-21 北京经纬信息技术有限公司 一种预测风险账号的方法、装置、存储介质和计算机设备
CN113537630A (zh) * 2021-08-04 2021-10-22 支付宝(杭州)信息技术有限公司 业务预测模型的训练方法及装置
CN114154556A (zh) * 2021-11-03 2022-03-08 同盾科技有限公司 样本预测模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
决策树模型ID3算法在突发公共卫生事件风险评估中的应用;杨云;孙宏;康正;吴群红;;中国预防医学杂志(第01期);全文 *
物流金融风险管理全过程;何明珂;钱文彬;;***工程(第05期);全文 *

Also Published As

Publication number Publication date
CN114978616A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN109583468B (zh) 训练样本获取方法,样本预测方法及对应装置
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
CN107577945B (zh) Url攻击检测方法、装置以及电子设备
CN110852755B (zh) 针对交易场景的用户身份识别方法和装置
CN112837069B (zh) 基于区块链与大数据的安全支付方法及云平台***
CN112435137B (zh) 一种基于社团挖掘的欺诈信息检测方法及***
CN112927061B (zh) 用户操作检测方法及程序产品
CN112785157B (zh) 风险识别***的更新方法及装置、风险识别方法及装置
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
US11809519B2 (en) Semantic input sampling for explanation (SISE) of convolutional neural networks
EP4053757A1 (en) Degradation suppression program, degradation suppression method, and information processing device
CN111738441A (zh) 兼顾预测精度和隐私保护的预测模型训练方法及装置
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN116452329A (zh) 异常行为监测方法、装置、电子设备及存储介质
CN111159241A (zh) 一种点击转化预估方法及装置
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN115204322B (zh) 行为链路异常识别方法和装置
CN114978616B (zh) 风险评估***的构建方法及装置、风险评估方法及装置
CN111582722A (zh) 风险识别方法、装置、电子设备及可读存储介质
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
CN115438747A (zh) 异常账户识别模型训练方法、装置、设备及介质
CN113469816A (zh) 基于多组学技术的数字货币识别方法、***和存储介质
CN110414845B (zh) 针对目标交易的风险评估方法及装置
CN113052604A (zh) 一种对象检测方法、装置、设备及存储介质
CN114201999A (zh) 异常账号的识别方法、***、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant