风险识别方法、装置和电子设备
【技术领域】
本说明书涉及互联网技术领域,尤其涉及一种风险识别方法、装置和电子设备。
【背景技术】
在电子商务平台中,签约电子商务平台的商户中,存在一类重要商户,重要商户绝大部分是经营稳定、交易规模较大、具有一定知名度的企业。在日常的欺诈投诉中,重要商户作为被动方几乎都是正常第三方,这种被动欺诈的手法通常是,欺诈者在电子商务平台创建订单,然后以各种欺诈手法诱骗用户对该订单进行支付,商户自身并未参与该欺诈过程。被动欺诈场景天然地存在欺诈者信息不足的缺点,通常只有单主体即受骗用户的信息。所以特征工程是被动欺诈场景比较困难的风险防控课题之一。
现有相关技术中,被动欺诈场景的特征工程主要依靠受骗用户的历史信息,如当笔交易前的历史消费行为、操作行为和/或环境信息等。这种方法对于历史信息不足的欺诈交易,策略的覆盖度有限,对欺诈交易预测的准确率较低。
【发明内容】
本说明书实施例提供了一种风险识别方法、装置和电子设备,以实现根据当前事件的特征,利用预先训练的分类模型进行计算,获得当前事件的风险分数,从而可以预测当前事件的欺诈风险,并且当前事件的特征是根据用户在当前事件中所进行的特定操作的属性和已完成的操作的属性生成的,可以覆盖历史信息不足的事件,提高了欺诈交易预测的准确率。
第一方面,本说明书实施例提供一种风险识别方法,包括:获取用户在当前事件中进行特定操作的操作请求,并获取所述用户在所述当前事件中已完成的操作;根据所述特定操作的属性和所述已完成的操作的属性,生成预先训练的分类模型所需的特征;根据生成的特征,利用所述预先训练的分类模型进行计算,获得所述当前事件的风险分数。
其中一种可能的实现方式中,所述获得所述当前事件的风险分数之后,还包括:如果所述当前事件的风险分数大于或等于预定的风险阈值,则拒绝所述用户在当前事件中进行特定操作的操作请求;如果所述当前事件的风险分数小于预定的风险阈值,则根据所述风险分数确定所述当前事件的风险级别,并根据所述当前事件的风险级别,对所述用户进行安全校验。
其中一种可能的实现方式中,所述根据生成的特征,利用所述预先训练的分类模型进行计算,获得所述当前事件的风险分数包括:获取所述特征的原始值;利用所述预先训练的分类模型,将所述特征的原始值转换为特定类型的数值;根据所述特定类型的数值,利用所述预先训练的分类模型进行计算,获得所述当前事件为风险事件的概率;根据所述当前事件为风险事件的概率,计算所述当前事件的风险分数。
其中一种可能的实现方式中,所述根据所述特定操作的属性和所述已完成的操作的属性,生成预先训练的分类模型所需的特征之前,还包括:获取所述当前事件之前发生的历史事件和所述历史事件的标签,所述历史事件中包括预定数量的风险事件,所述历史事件的标签用于指示所述历史事件是否为风险事件;将获取的历史事件划分为训练集合和验证集合;利用所述训练集合中的历史事件和所述历史事件的标签对待训练的分类模型进行训练;利用训练获得的分类模型对所述验证集合中的历史事件进行识别,根据识别结果和所述验证集合中的历史事件的标签,确定所述训练获得的分类模型的准确率;当所述准确率达到预定的准确率阈值时,获得训练好的分类模型。
其中一种可能的实现方式中,所述利用所述训练集合中的历史事件和所述历史事件的标签对待训练的分类模型进行训练包括:获取所述训练集合中的历史事件所包括的特定操作和除所述特定操作之外的其他操作;分别根据所述特定操作的属性和所述其他操作的属性,生成所述历史事件的特征;针对所述训练集合中的历史事件,计算每个特征的信息价值;根据所述信息价值,对所述历史事件的特征进行筛选;利用筛选获得的特征和所述历史事件的标签,对待训练的分类模型进行训练。
其中一种可能的实现方式中,所述针对所述训练集合中的历史事件,计算每个特征的信息价值包括:对所述每个特征进行分组,获得每个特征的至少两组子特征;计算所述至少两组子特征中每组子特征的信息价值,将计算获得的至少两组子特征的信息价值进行相加,获得所述每个特征的信息价值。
其中一种可能的实现方式中,所述根据所述信息价值,对所述历史事件的特征进行筛选包括:将所述每个特征的信息价值与预先设定的价值阈值进行对比;保留信息价值大于或等于所述预先设定的价值阈值的特征。
其中一种可能的实现方式中,所述特定操作包括支付操作,所述特定操作的属性包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;所述已完成的操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约。
第二方面,本说明书实施例提供一种风险识别装置,包括:获取模块,用于获取用户在当前事件中进行特定操作的操作请求,并获取所述用户在所述当前事件中已完成的操作;生成模块,用于根据所述特定操作的属性和所述已完成的操作的属性,生成预先训练的分类模型所需的特征;识别模块,用于根据生成的特征,利用所述预先训练的分类模型进行计算,获得所述当前事件的风险分数。
其中一种可能的实现方式中,所述装置还包括:风险处理模块,用于在所述识别模块获得所述当前事件的风险分数之后,当所述当前事件的风险分数大于或等于预定的风险阈值时,拒绝所述用户在当前事件中进行特定操作的操作请求;当所述当前事件的风险分数小于预定的风险阈值时,根据所述风险分数确定所述当前事件的风险级别,并根据所述当前事件的风险级别,对所述用户进行安全校验。
其中一种可能的实现方式中,所述识别模块包括:特征值获取子模块,用于获取所述特征的原始值;并利用所述预先训练的分类模型,将所述特征的原始值转换为特定类型的数值;计算子模块,用于根据所述特定类型的数值,利用所述预先训练的分类模型进行计算,获得所述当前事件为风险事件的概率;以及根据所述当前事件为风险事件的概率,计算所述当前事件的风险分数。
其中一种可能的实现方式中,所述装置还包括:划分模块、训练模块和确定模块;所述获取模块,还用于在所述生成模块根据所述特定操作的属性和所述已完成的操作的属性,生成预先训练的分类模型所需的特征之前,获取所述当前事件之前发生的历史事件和所述历史事件的标签,所述历史事件中包括预定数量的风险事件,所述历史事件的标签用于指示所述历史事件是否为风险事件;所述划分模块,用于将所述获取模块获取的历史事件划分为训练集合和验证集合;所述训练模块,用于利用所述训练集合中的历史事件和所述历史事件的标签对待训练的分类模型进行训练;所述识别模块,还用于利用所述训练模块训练获得的分类模型对所述验证集合中的历史事件进行识别;所述确定模块,用于根据所述识别模块的识别结果和所述验证集合中的历史事件的标签,确定所述训练获得的分类模型的准确率;当所述准确率达到预定的准确率阈值时,获得训练好的分类模型。
其中一种可能的实现方式中,所述训练模块包括:操作获取子模块,用于获取所述训练集合中的历史事件所包括的特定操作和除所述特定操作之外的其他操作;特征生成子模块,用于分别根据所述特定操作的属性和所述其他操作的属性,生成所述历史事件的特征;信息价值计算子模块,用于针对所述训练集合中的历史事件,计算每个特征的信息价值;筛选子模块,用于根据所述信息价值计算子模块计算获得的信息价值,对所述历史事件的特征进行筛选;模型训练子模块,用于利用所述筛选子模块筛选获得的特征和所述历史事件的标签,对待训练的分类模型进行训练。
其中一种可能的实现方式中,所述信息价值计算子模块,具体用于对所述每个特征进行分组,获得每个特征的至少两组子特征;计算所述至少两组子特征中每组子特征的信息价值,将计算获得的至少两组子特征的信息价值进行相加,获得所述每个特征的信息价值。
其中一种可能的实现方式中,所述筛选子模块,具体用于将所述每个特征的信息价值与预先设定的价值阈值进行对比;保留信息价值大于或等于所述预先设定的价值阈值的特征。
其中一种可能的实现方式中,所述特定操作包括支付操作,所述特定操作的属性包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;所述已完成的操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约。
第三方面,本说明书实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上所述的方法。
第四方面,本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上所述的方法。
以上技术方案中,获取用户在当前事件中进行特定操作的操作请求,并获取上述用户在当前事件中已完成的操作,然后根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征。最后根据生成的特征,利用预先训练的分类模型进行计算,获得所述当前事件的风险分数。从而可以实现根据当前事件的特征,利用预先训练的分类模型进行计算,获得当前事件的风险分数,实现了对当前事件的欺诈风险进行预测,并且当前事件的特征是根据用户在当前事件中所进行的特定操作的属性和已完成的操作的属性生成的,可以覆盖历史信息不足的事件,提高了欺诈交易预测的准确率。
【附图说明】
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书风险识别方法一个实施例的流程图;
图2为本说明书风险识别方法另一个实施例的流程图;
图3为本说明书风险识别方法再一个实施例的流程图;
图4为本说明书风险识别方法再一个实施例的流程图;
图5为本说明书风险识别方法再一个实施例的示意图;
图6为本说明书风险识别装置一个实施例的结构示意图;
图7为本说明书风险识别装置另一个实施例的结构示意图;
图8为本说明书电子设备一个实施例的结构示意图。
【具体实施方式】
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1为本说明书风险识别方法一个实施例的流程图,如图1所示,上述风险识别方法可以包括:
步骤101,获取用户在当前事件中进行特定操作的操作请求,并获取上述用户在上述当前事件中已完成的操作。
步骤102,根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征。
具体地,上述特定操作可以为支付操作,上述特定操作的属性可以包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;
上述已完成的操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约;其中电子信息码识别可以包括:二维码识别和付款码操作。
从上面的描述可以看出,本实施例除了考虑常规的付款操作信息,也将探索同一笔交易支付完成过程中的出付款操作之外的其他操作信息。
由于上面列出的特定操作的属性和已完成的操作的属性所对应的值大多是非数值型,为简单起见,可以采用虚拟变量或累加次数的方式生成特征。举例来说,对于支付方式,假设支付方式分为自己支付和他人代付两种方式,那么可以采用虚拟变量的方式生成支付方式这一属性所对应的特征,可以将自己支付设为“0”,他人代付设为“1”,也就是说,当前事件中,如果是用户自己支付,那么支付方式所对应的特征的值为“0”,如果是他人代付,那么支付方式所对应的特征的值为“1”;另外,对于二维码识别,可以通过累加次数的方式生成对应的特征,即获取二维码识别的累计次数,以上述累计次数作为二维码识别对应的特征。
另外,本实施例中,所生成的特征是根据预先训练的分类模型选定的,也就是说,上述预先训练的分类模型需要哪些特征,就根据上述特定操作的属性和已完成的操作的属性生成上述预先训练的分类模型所需的特征。举例来说,预先训练的分类模型所需的特征包括:付款事件发生时间距交易创建的时间间隔、支付方式、操作途径、网络接入方式、二维码识别和协议签约支付,那么就从上述特定操作的属性和已完成的操作的属性中选取上述属性,然后根据上述属性,生成相应的特征。
步骤103,根据生成的特征,利用预先训练的分类模型进行计算,获得上述当前事件的风险分数。
具体地,根据生成的特征,利用所述预先训练的分类模型进行计算,获得所述当前事件的风险分数可以为:获取上述特征的原始值;利用上述预先训练的分类模型,将上述特征的原始值转换为特定类型的数值,根据上述特定类型的数值,利用预先训练的分类模型进行计算,获得上述当前事件为风险事件的概率;最后,根据上述当前事件为风险事件的概率,计算当前事件的风险分数。
其中,上述特征的原始值即为特征初始生成时的值,例如:对于支付方式这一属性所对应的特征,如果是自己支付,那么支付方式所对应的特征的原始值为“0”,如果是他人代付,那么支付方式所对应的特征的原始值为“1”。
当上述预先训练的分类模型采用逻辑回归评分卡时,上述特定类型的数值可以为证据权重(Weight Of Evidence;以下简称:WOE),当然上述分类模型也可以采用其他的算法进行训练,例如:机器学习算法,这时,上述特定类型的数值也可以为其他类型的数值,本实施例对此不作限定;具体地,在预先训练的分类模型中包括上述特征的原始值与上述特定类型的数值之间的转换关系,因此在获取上述特征的原始值之后,可以利用预先训练的分类模型,将上述特征的原始值转换为特定类型的数值。
当上述预先训练的分类模型采用逻辑回归评分卡时,获得上述当前事件为风险事件的概率之后,可以指定基准点(Basepoint)、基准点的概率(odds)值、odds翻倍所需增加的分值(Point Double Odds),通过线性变换即可将上述当前事件为风险事件的概率转换为当前事件的风险分数。
上述风险识别方法中,获取用户在当前事件中进行特定操作的操作请求,并获取上述用户在当前事件中已完成的操作,然后根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征。最后根据生成的特征,利用预先训练的分类模型进行计算,获得上述当前事件的风险分数。从而可以实现根据当前事件的特征,利用预先训练的分类模型进行计算,获得当前事件的风险分数,实现了对当前事件的欺诈风险进行预测,并且当前事件的特征是根据用户在当前事件中所进行的特定操作的属性和已完成的操作的属性生成的,可以覆盖历史信息不足的事件,提高了欺诈交易预测的准确率。
图2为本说明书风险识别方法另一个实施例的流程图,如图2所示,本说明书图1所示实施例中,步骤103之后,还可以包括:
步骤201,如果当前事件的风险分数大于或等于预定的风险阈值,则拒绝用户在当前事件中进行特定操作的操作请求;如果当前事件的风险分数小于预定的风险阈值,则根据上述风险分数确定当前事件的风险级别,并根据上述当前事件的风险级别,对上述用户进行安全校验。
其中,上述预定的风险阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定的风险阈值的大小不作限定。
本实施例中,可以根据不同的风险分数进行差异化管控,风险分数的高低意味着当前事件的风险程度的不同,如果当前事件的风险分数大于或等于预定的风险阈值,则说明当前事件潜在的风险较高,有足够的把握确定当前事件是欺诈交易,因此需要对当前事件进行拦截;而如果当前事件的风险分数小于预定的风险阈值,表明当前事件存在一定风险但并没有足够把握确定当前事件是欺诈交易,此时可以根据风险分数确定当前事件的风险级别,并根据上述当前事件的风险级别,对上述用户进行安全校验,起到尽责提醒的作用。
图3为本说明书风险识别方法再一个实施例的流程图,如图3所示,本说明书图1所示实施例中,步骤102之前,还可以包括:
步骤301,获取当前事件之前发生的历史事件和上述历史事件的标签,上述历史事件中包括预定数量的风险事件,上述历史事件的标签用于指示上述历史事件是否为风险事件。
具体地,可以获取当前事件之前发生的历史事件,当前事件与历史事件属于同一业务类型;举例来说,假设当前事件发生在2019年8月30日,那么可以获取8月27日之前20天发生的历史事件,从8月27日开始往前获取历史事件,是为了保证足够的投诉时间窗口。
当某一事件被投诉且定性为欺诈事件,则该事件为风险事件,作为黑样本,其余为白样本。为了保证训练的分类模型的效果,需要准备预定数量的风险事件作为黑样本。
其中,上述预定数量可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定数量的大小不作限定。
另外,为了防止数据倾斜,需要对获取的历史事件进行分层抽样,即保留所有风险事件,对于非风险事件随机抽取一定比例,使得最终建模所用的历史事件中风险事件的浓度保持合适的水平。
步骤302,将获取的历史事件划分为训练集合和验证集合。
在具体实现时,训练集合和验证集合的拆分比例通常为6:4或者7:3,本实施例对此不作限定。
步骤303,利用上述训练集合中的历史事件和上述历史事件的标签对待训练的分类模型进行训练。
步骤304,利用训练获得的分类模型对上述验证集合中的历史事件进行识别,根据识别结果和上述验证集合中的历史事件的标签,确定训练获得的分类模型的准确率。
具体地,假设利用训练获得的分类模型对上述验证集合中的某一历史事件进行识别,获得的识别结果为上述历史事件为风险事件,而上述历史事件的标签也指示上述历史事件为风险事件,则可以确定上述训练获得的分类模型识别正确,在利用训练获得的分类模型对上述验证集合中的历史事件识别完毕之后,可以根据识别正确的历史事件的数量与上述验证集合中的历史事件的总数,确定上述训练获得分类模型的准确率。
步骤305,当上述准确率达到预定的准确率阈值时,获得训练好的分类模型。
其中,上述预定的准确率阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定的准确率阈值的大小不作限定。
图4为本说明书风险识别方法再一个实施例的流程图,如图4所示,本说明书图3所示实施例中,步骤303可以包括:
步骤401,获取上述训练集合中的历史事件所包括的特定操作和除上述特定操作之外的其他操作。
步骤402,分别根据上述特定操作的属性和上述其他操作的属性,生成上述历史事件的特征。
如上所述,上述特定操作可以为支付操作,上述特定操作的属性可以包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;
上述其他操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约;其中电子信息码识别可以包括:二维码识别和付款码操作。
具体地,生成特征的方式可以参见本说明书图1所示实施例步骤102的描述,在此不再赘述。
步骤403,针对上述训练集合中的历史事件,计算每个特征的信息价值(Information Value;以下简称:IV)。
具体地,针对上述训练集合中的历史事件,计算每个特征的信息价值可以为:对每个特征进行分组,获得每个特征的至少两组子特征;计算上述至少两组子特征中每组子特征的信息价值,将计算获得的至少两组子特征的信息价值进行相加,获得每个特征的信息价值。
其中,上述每个特征是指上述训练集合中的所有历史事件包含的特征中的每个特征;举例来说,对于训练集合中的每个历史事件,均生成了以下特征:付款事件发生时间距交易创建的时间间隔、支付方式、操作途径、网络接入方式、二维码识别和协议签约支付,那么上述每个特征即为上述特征之一。
对每个特征进行分组,即为对上述训练集合中的所有历史事件包含的同一特征进行分组,例如:对上述训练集合中的所有历史事件包含的“支付方式”这一特征进行分组,获得“支付方式”的至少两组子特征。
在具体实现时,上述至少两组子特征中每组子特征的信息价值可以采用式(1)所示的公式进行计算。
式(1)中,IVi为第i组子特征,#Bi为包含第i组子特征的风险事件的数量,#BT为训练集合中风险事件的总数,#Gi为包含第i组子特征的非风险事件的数量,#GT为训练集合中非风险事件的总数。
步骤404,根据上述信息价值,对上述历史事件的特征进行筛选。
具体地,根据上述信息价值,对上述历史事件的特征进行筛选可以为:将每个特征的信息价值与预先设定的价值阈值进行对比;保留信息价值大于或等于预先设定的价值阈值的特征。
其中,预先设定的价值阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预先设定的价值阈值不作限定。
步骤405,利用筛选获得的特征和上述历史事件的标签,对待训练的分类模型进行训练。
具体地,在对待训练的分类模型进行训练时,可以采用逻辑回归评分卡进行训练,也可以采用其他算法,例如:机器学习算法进行训练,本实施例对此不作限定,本实施例以逻辑回归评分卡为例进行说明。
在具体实现时,可以先获取筛选获得的特征的原始值,对于原始值的说明,请参见本说明书图1所示实施例步骤103中的描述,在此不再赘述;然后,将上述筛选获得的特征的原始值转换为特定类型的数值,本实施例中,上述特定类型的数值可以为WOE,可以采用式(2)所示的公式进行转换;
式(2)中,WOEi为每个特征的第i组子特征的原始值转换的证据权重。
接下来,可以根据上述特定类型的数值和上述历史事件的标签,采用逻辑回归的公式对待训练的分类模型进行训练,其中,逻辑回归的公式可以如式(3)所示。
式(3)中,x即为WOE,w为待训练的分类模型中的参数,P为在已知x和w的条件下,所预测的y=1的概率。
在分类模型的训练阶段,根据上述历史事件的标签,即可获知上述历史事件是否为风险事件,因此在训练阶段,就是对式(3)中的w进行学习,使得分类模型的识别结果与上述历史事件的标签之间的差别尽可能的小。
综上所述,本说明书提供的风险识别方法可以包括以下5个步骤:数据准备、特征探索、特征选择、模型开发和模型应用,如图5所示,图5为本说明书风险识别方法再一个实施例的示意图。
其中,数据准备即为获取当前事件之前发生的历史事件,具体可以参见图3所示实施例中步骤301的描述,在此不再赘述;
特征探索即为生成特征的过程,具体可以参见图4所示实施例中,步骤401~步骤402的描述,在此不再赘述;
特征选择即为根据特征的信息价值对特征进行筛选,具体可以参见图4所示实施例中,步骤403~步骤404的描述,在此不再赘述;
模型开发即为分类模型的训练过程,具体可以参见图4所示实施例中,步骤405的描述,在此不再赘述;
模型应用即为利用预先训练的分类模型对当前事件的识别,具体可以参见本说明书图1所示实施例中的描述,在此不再赘述。
图6为本说明书风险识别装置一个实施例的结构示意图,本实施例中的风险识别装置可以作为电子设备,或电子设备的一部分实现本说明书实施例提供的风险识别方法。
其中,上述电子设备可以为服务器,例如:云服务器等,本实施例对上述电子设备的形式不作限定。
如图6所示,上述风险识别装置可以包括:获取模块61、生成模块62和识别模块63;
获取模块61,用于获取用户在当前事件中进行特定操作的操作请求,并获取上述用户在上述当前事件中已完成的操作;
生成模块62,用于根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征;
具体地,上述特定操作可以为支付操作,上述特定操作的属性可以包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;
上述已完成的操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约;其中电子信息码识别可以包括:二维码识别和付款码操作。
从上面的描述可以看出,本实施例除了考虑常规的付款操作信息,也将探索同一笔交易支付完成过程中的出付款操作之外的其他操作信息。
由于上面列出的特定操作的属性和已完成的操作的属性所对应的值大多是非数值型,为简单起见,可以采用虚拟变量或累加次数的方式生成特征。举例来说,对于支付方式,假设支付方式分为自己支付和他人代付两种方式,那么生成模块62可以采用虚拟变量的方式生成支付方式这一属性所对应的特征,可以将自己支付设为“0”,他人代付设为“1”,也就是说,当前事件中,如果是用户自己支付,那么支付方式所对应的特征的值为“0”,如果是他人代付,那么支付方式所对应的特征的值为“1”;另外,对于二维码识别,生成模块62可以通过累加次数的方式生成对应的特征,即获取二维码识别的累计次数,以上述累计次数作为二维码识别对应的特征。
另外,本实施例中,生成模块62所生成的特征是根据预先训练的分类模型选定的,也就是说,上述预先训练的分类模型需要哪些特征,就根据上述特定操作的属性和已完成的操作的属性生成上述预先训练的分类模型所需的特征。举例来说,预先训练的分类模型所需的特征包括:付款事件发生时间距交易创建的时间间隔、支付方式、操作途径、网络接入方式、二维码识别和协议签约支付,那么生成模块62就从上述特定操作的属性和已完成的操作的属性中选取上述属性,然后根据上述属性,生成相应的特征。
识别模块63,用于根据生成的特征,利用预先训练的分类模型进行计算,获得上述当前事件的风险分数。
上述风险识别装置中,获取模块61获取用户在当前事件中进行特定操作的操作请求,并获取上述用户在当前事件中已完成的操作,然后生成模块62根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征。最后识别模块63根据生成的特征,利用预先训练的分类模型进行计算,获得上述当前事件的风险分数。从而可以实现根据当前事件的特征,利用预先训练的分类模型进行计算,获得当前事件的风险分数,实现了对当前事件的欺诈风险进行预测,并且当前事件的特征是根据用户在当前事件中所进行的特定操作的属性和已完成的操作的属性生成的,可以覆盖历史信息不足的事件,提高了欺诈交易预测的准确率。
图7为本说明书风险识别装置另一个实施例的结构示意图,与图6所示的风险识别装置相比,不同之处在于,图7所示的风险识别装置还可以包括:风险处理模块64;
风险处理模块64,用于在识别模块63获得上述当前事件的风险分数之后,当上述当前事件的风险分数大于或等于预定的风险阈值时,拒绝上述用户在当前事件中进行特定操作的操作请求;当上述当前事件的风险分数小于预定的风险阈值时,根据上述风险分数确定上述当前事件的风险级别,并根据上述当前事件的风险级别,对上述用户进行安全校验。
其中,上述预定的风险阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定的风险阈值的大小不作限定。
本实施例中,风险处理模块64可以根据不同的风险分数进行差异化管控,风险分数的高低意味着当前事件的风险程度的不同,如果当前事件的风险分数大于或等于预定的风险阈值,则说明当前事件潜在的风险较高,有足够的把握确定当前事件是欺诈交易,因此风险处理模块64需要对当前事件进行拦截;而如果当前事件的风险分数小于预定的风险阈值,表明当前事件存在一定风险但并没有足够把握确定当前事件是欺诈交易,此时风险处理模块64可以根据风险分数确定当前事件的风险级别,并根据上述当前事件的风险级别,对上述用户进行安全校验,起到尽责提醒的作用。
本实施例中,识别模块63可以包括:特征值获取子模块631和计算子模块632;
特征值获取子模块631,用于获取上述特征的原始值;并利用上述预先训练的分类模型,将上述特征的原始值转换为特定类型的数值;
计算子模块632,用于根据上述特定类型的数值,利用上述预先训练的分类模型进行计算,获得上述当前事件为风险事件的概率;以及根据上述当前事件为风险事件的概率,计算上述当前事件的风险分数。
其中,上述特征的原始值即为特征初始生成时的值,例如:对于支付方式这一属性所对应的特征,如果是自己支付,那么支付方式所对应的特征的原始值为“0”,如果是他人代付,那么支付方式所对应的特征的原始值为“1”;
当上述预先训练的分类模型采用逻辑回归评分卡时,上述特定类型的数值可以为WOE,当然上述分类模型也可以采用其他的算法进行训练,例如:机器学习算法,这时,上述特定类型的数值也可以为其他类型的数值,本实施例对此不作限定;具体地,在预先训练的分类模型中包括上述特征的原始值与上述特定类型的数值之间的转换关系,因此在获取上述特征的原始值之后,特征值获取子模块631可以利用预先训练的分类模型,将上述特征的原始值转换为特定类型的数值。
当上述预先训练的分类模型采用逻辑回归评分卡时,获得上述当前事件为风险事件的概率之后,计算子模块632可以指定基准点(Basepoint)、基准点的概率(odds)值、odds翻倍所需增加的分值(Point Double Odds),通过线性变换即可将上述当前事件为风险事件的概率转换为当前事件的风险分数。
进一步地,上述风险识别装置还可以包括:划分模块65、训练模块66和确定模块67;
获取模块61,还用于在生成模块62根据上述特定操作的属性和上述已完成的操作的属性,生成预先训练的分类模型所需的特征之前,获取上述当前事件之前发生的历史事件和上述历史事件的标签,上述历史事件中包括预定数量的风险事件,上述历史事件的标签用于指示上述历史事件是否为风险事件;具体地,获取模块61可以获取当前事件之前发生的历史事件,当前事件与历史事件属于同一业务类型;举例来说,假设当前事件发生在2019年8月30日,那么获取模块61可以获取8月27日之前20天发生的历史事件,从8月27日开始往前获取历史事件,是为了保证足够的投诉时间窗口。
当某一事件被投诉且定性为欺诈事件,则该事件为风险事件,作为黑样本,其余为白样本。为了保证训练的分类模型的效果,需要准备预定数量的风险事件作为黑样本。
其中,上述预定数量可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定数量的大小不作限定。
另外,为了防止数据倾斜,需要对获取的历史事件进行分层抽样,即保留所有风险事件,对于非风险事件随机抽取一定比例,使得最终建模所用的历史事件中风险事件的浓度保持合适的水平。
划分模块65,用于将获取模块61获取的历史事件划分为训练集合和验证集合;在具体实现时,训练集合和验证集合的拆分比例通常为6:4或者7:3,本实施例对此不作限定。
训练模块66,用于利用上述训练集合中的历史事件和上述历史事件的标签对待训练的分类模型进行训练;
识别模块63,还用于利用训练模块66训练获得的分类模型对上述验证集合中的历史事件进行识别;
确定模块67,用于根据识别模块63的识别结果和上述验证集合中的历史事件的标签,确定上述训练获得的分类模型的准确率;当上述准确率达到预定的准确率阈值时,获得训练好的分类模型。
具体地,假设识别模块63利用训练获得的分类模型对上述验证集合中的某一历史事件进行识别,获得的识别结果为上述历史事件为风险事件,而上述历史事件的标签也指示上述历史事件为风险事件,则确定模块67可以确定上述训练获得的分类模型识别正确,在利用训练获得的分类模型对上述验证集合中的历史事件识别完毕之后,确定模块67可以根据识别正确的历史事件的数量与上述验证集合中的历史事件的总数,确定上述训练获得分类模型的准确率。
其中,上述预定的准确率阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预定的准确率阈值的大小不作限定。
本实施例中,训练模块66可以包括:操作获取子模块661、特征生成子模块662、信息价值计算子模块663、筛选子模块664和模型训练子模块665;
操作获取子模块661,用于获取上述训练集合中的历史事件所包括的特定操作和除上述特定操作之外的其他操作。
特征生成子模块662,用于分别根据上述特定操作的属性和上述其他操作的属性,生成上述历史事件的特征;如上所述,上述特定操作可以为支付操作,上述特定操作的属性可以包括以下之一或组合:支付操作的发生时刻与事件创建时刻的时间间隔、支付方式、支付途径和网络接入方式;
上述其他操作的属性包括以下之一或组合:电子信息码识别、协议签约支付和信贷签约;其中电子信息码识别可以包括:二维码识别和付款码操作。
信息价值计算子模块663,用于针对上述训练集合中的历史事件,计算每个特征的信息价值;本实施例中,信息价值计算子模块663,具体用于对上述每个特征进行分组,获得每个特征的至少两组子特征;计算上述至少两组子特征中每组子特征的信息价值,将计算获得的至少两组子特征的信息价值进行相加,获得上述每个特征的信息价值。
其中,上述每个特征是指上述训练集合中的所有历史事件包含的特征中的每个特征;举例来说,对于训练集合中的每个历史事件,均生成了以下特征:付款事件发生时间距交易创建的时间间隔、支付方式、操作途径、网络接入方式、二维码识别和协议签约支付,那么上述每个特征即为上述特征之一。
对每个特征进行分组,即为对上述训练集合中的所有历史事件包含的同一特征进行分组,例如:对上述训练集合中的所有历史事件包含的“支付方式”这一特征进行分组,获得“支付方式”的至少两组子特征。
在具体实现时,上述至少两组子特征中每组子特征的信息价值可以采用式(1)所示的公式进行计算。
筛选子模块664,用于根据信息价值计算子模块663计算获得的信息价值,对上述历史事件的特征进行筛选;本实施例中,筛选子模块664,具体用于将上述每个特征的信息价值与预先设定的价值阈值进行对比;保留信息价值大于或等于上述预先设定的价值阈值的特征。其中,预先设定的价值阈值可以在具体实现时,根据***性能和/或实现需求等自行设定,本实施例对上述预先设定的价值阈值不作限定。
模型训练子模块665,用于利用筛选子模块664筛选获得的特征和上述历史事件的标签,对待训练的分类模型进行训练。具体地,模型训练子模块665在对待训练的分类模型进行训练时,可以采用逻辑回归评分卡进行训练,也可以采用其他算法,例如:机器学习算法进行训练,本实施例对此不作限定,本实施例以逻辑回归评分卡为例进行说明。
在具体实现时,模型训练子模块665可以先获取筛选获得的特征的原始值,对于原始值的说明,请参见本说明书图1所示实施例步骤103中的描述,在此不再赘述;然后,模型训练子模块665将上述筛选获得的特征的原始值转换为特定类型的数值,本实施例中,上述特定类型的数值可以为WOE,可以采用式(2)所示的公式进行转换;接下来,模型训练子模块665可以根据上述特定类型的数值和上述历史事件的标签,采用逻辑回归的公式对待训练的分类模型进行训练,其中,逻辑回归的公式可以如式(3)所示。在分类模型的训练阶段,根据上述历史事件的标签,即可获知上述历史事件是否为风险事件,因此在训练阶段,模型训练子模块665就是对式(3)中的w进行学习,使得分类模型的识别结果与上述历史事件的标签之间的差别尽可能的小。
图8为本说明书电子设备一个实施例的结构示意图,如图8所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书实施例提供的风险识别方法。
其中,上述电子设备可以为服务器,例如:云服务器,本实施例对上述电子设备的形态不作限定。
图8示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图8显示的电子设备仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图8所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器410,存储器430,连接不同***组件(包括存储器430和处理单元410)的通信总线440。
通信总线440表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器430可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read Only Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与通信总线440相连。存储器430可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器430中,这样的程序模块包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过通信接口420进行。并且,电子设备还可以通过网络适配器(图8中未示出)与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide AreaNetwork;以下简称:WAN)和/或公共网络,例如因特网)通信,上述网络适配器可以通过通信总线440与电子设备的其它模块通信。应当明白,尽管图8中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Drives;以下简称:RAID)***、磁带驱动器以及数据备份存储***等。
处理器410通过运行存储在存储器430中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书实施例提供的风险识别方法。
本说明书实施例还提供一种非暂态计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机指令,上述计算机指令使所述计算机执行本说明书实施例提供的风险识别方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。