具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请实施例提供的安全校验方法可以应用于如图1所示的场景中,图1中,当某用户通过第三方支付***(如,支付宝***)执行支付行为时,如果该第三方支付***想要判断该用户是否为流失用户,则可以向用户流失预测***输入该用户的标识信息(如,userid)。用户流失预测***可以对该用户进行打分,并向第三方支付***输出分数值。第三方支付***在接收到分数值后,根据该分数值来识别用户是否为流失用户。需要说明的是,可以约定输出的分数值为0-1之间的数值,且分数值越大,该用户为流失用户的可能性越大。
图2为本申请一种实施例提供的安全校验方法流程图。如图2所示,所述方法具体可以包括:
步骤210,监测用户使用新设备的首笔交易行为。
对于非首笔交易行为,则可以进行风险判断,若其属于高风险的交易行为,则对其进行安全校验。
步骤220,当监测到首笔交易行为时,获取用户的分数值。
此处的用户的分数值可以用于确定用户是否为流失用户,其可以为0-1之间的数值。该分数值越大,该用户为流失用户的可能性越大。
步骤230,判断用户的分数值是否超过预设阈值。
步骤240,若用户的分数值不超过预设阈值,则对首笔交易行为进行第一级别的安全校验。
此处的第一级别的安全校验可以是指比较复杂的校验过程,如,短信校验等。
在识别支付宝***中的流失用户的场景下,当用户的分数值不超过预设阈值时,可以将该用户识别为正常用户。对于正常用户,可以对该用户的首笔交易行为进行第一级别的安全校验。
步骤250,若用户的分数值超过预设阈值,则对首笔交易行为进行第二级别的安全校验或者不对首笔交易行为进行安全校验。
此处的第二级别的安全校验也称轻校验,是指比较简单的校验过程,如,输入app给出的验证码等。
在识别支付宝***中的流失用户的场景下,当用户的分数值超过预设阈值时,可以将该用户识别为流失用户。对于流失用户,可以对该用户的首笔交易行为进行第二级别的安全校验或者不校验。
需要说明的是,在原有的安全校验方法中,为了防止盗用者扫号风险,对于任何一笔在新设备上进行的首笔交易行为,都需要进行第一级别的安全校验,通常为通过绑定手机进行短信校验。由于第一级别的安全校验过程比较复杂,这种方式对于很多正常新换手机用户造成很大的打扰,甚至直接导致其不再使用支付宝***。而在获取用户的分数值后,可以根据不同的用户的分数值,来对用户进行不同级别的安全校验,由此,可以降低对安全用户的打扰,从而可以达到挽回用户的效果。
需要说明的是,对于上述分数值,其获取方式有很多种。图3为本申请提供的一种获取用户的分数值的方法,如图3所示,该方法可以包括如下步骤:
步骤310,提取用户的行为特征数据。
以识别支付宝***中的流失用户为例来说,可以是根据用户的标识信息(如,userid)从支付宝***的后台数据库中提取用户的行为特征数据。此处,提取的行为特征数据可以包括如下三个维度的用户数据:1)用户行为数据(Activity,简称A)。2)用户趋势数据(Trend,简称T)。3)用户画像数据(Profile,简称P)。用户行为数据可以包括:用户交易行为数据、用户理财行为数据以及用户其它行为数据。其中,用户交易行为数据例如可以为:a,若干天(如,90天)平均支付金额;b,若干天(如,180天)内支付天数;c,若干天(如,180天)内支付金额;d,最后一次支付距今时间等。用户理财行为数据例如可以为:a,若干天内购买第一目标产品次数,如,90天内购买招财宝次数;b,若干天内购买第二目标产品次数,如,90天内购买余额宝次数;c,若干天内购买第二目标产品金额,如,90天内购买余额宝余额。用户其它行为数据例如可以为:a,若干天(如,180天)内用户来电次数;b,最后一次登录城市;c,最后一次登录距今时间;d,若干天(如,90天)内登录次数等。用户趋势数据例如可以为:a,用户平均余额变化趋势(30天/30-90天);b,登录次数变化趋势(30天/30-60天);c,远程过程调用(Remote Procedure Call,RPC)变化趋势(30天/30-60天);d,支付次数变化趋势(30天/30-90天)等。用户画像数据例如可以为:a,用户是否单身;b,用户是否装修;c,用户是否已婚;d,用户年龄;e,用户注册时长;f,用户教育水平等。
步骤320,根据行为特征数据,确定各个目标特征对应的特征值。
此处的目标特征可以是从不同用户的样本数据所包括的多个样本特征中选取的。在一种实现方式中,目标特征的选取以及对应的特征值的确定过程可以通过如下各步骤来实现:
步骤a,搜集样本数据集合。
其中,样本数据集合中包括多个用户的样本数据,如,百万的大样本数据。此处的样本数据可以包括如下三个维度的用户数据:1)用户行为数据。2)用户趋势数据。3)用户画像数据。其中,每个维度的用户数据可以如上所述,在此不复赘述。
上述样本集合中的样本数据可以是由服务器预先从后台数据库(如支付宝***的后台数据库)中搜集和/或统计的。需要说明的是,样本集合中的样本数据包括两种类型:非目标用户(如,正常用户)的数据和目标用户(如,流失用户)的数据,也即上述样本数据均为有标签的数据。
步骤b,根据多个用户的样本数据,确定多个样本特征。
此处,确定的多个样本特征可以包括P、A和T三个维度,每个维度的样本特征如上所述,在此不复赘述。需要说明的是,此处的样本特征可以包括两种类型:连续的样本特征和离散的样本特征。连续的样本特征是指对应的特征值是连续的样本特征,如,用户趋势数据。离散的样本特征是指对应的特征值是离散的样本特征,如,用户画像数据。
步骤c,根据第一预设算法,从多个样本特征中选取各个目标特征。
在一种实现方式中,可以是根据该样本特征对于目标用户的区分度,来选取目标特征。当根据区分度,来选取目标特征时,上述第一预设算法可以是指互信息算法。具体地,可以通过计算多个样本特征中的每个样本特征与目标用户类别的互信息(MutualInformation),当互信息大于预设阈值时,将该样本特征选取为目标特征。基于此方法,可以从多个样本特征中选取至少一个目标特征。
步骤d,对每个目标特征,确定该目标特征的至少一个初始特征值,并根据第二预设算法以及预设数值,确定该目标特征对应每个初始特征值的风险倍数。
具体地,可以结合样本集合中的多个用户的样本数据,来确定目标特征的至少一个初始特征值。以目标特征为“用户年龄”为例来说,假设用户的样本数据中,用户年龄为16岁-45岁不等,则可以通过离散化,来确定如下三个初始特征值:[16,25],(25,35]以及(35,45]。当然,在实际应用中,还可以减小初始特征值(即将上述年龄区间划分的更小)或者增大初始特征值(即将上述年龄区间划分的更大),本申请对此不作限定。
需要说明的是,上述通过离散化来确定初始特征值的方法适用于连续的样本特征。而对于离散的样本特征,因为其对应的初始特征值本身就是离散的,所以可以通过其它方法来确定对应的初始特征值。
在确定目标特征的至少一个初始特征值之后,可以根据第二预设算法,来确定目标特征对应每个初始特征值的流失浓度。在一个例子中,第二预设算法可以如公式1所示。
其中,X为目标特征,xi为目标特征X的第i个初始特征值,C为目标特征X对应初始特征值xi的流失浓度,“label=目标用户”用于表示目标用户。分子用于表示样本集合中目标特征X的初始特征值为xi的目标用户数目。分母用于表示样本集合中目标特征X的初始特征值为xi的用户数目。以X为“用户性别”,xi为“女性”为例来说,上述公式的分子用于表示样本集合中目标用户为女性的用户数目,分母用于表示样本集合中所有女性的用户数目。
在根据公式1计算得到目标特征对应每个初始特征值的流失浓度之后,将计算的流失浓度除以预设阈值,就可以获得目标特征对应每个初始特征值的风险倍数。在一个例子中,预设阈值可以根据目标用户数与总用户数的比值确定。以目标用户为流失用户为例来说,假设样本集合中流失用户数为74万,而总用户数为5.0亿,则预设阈值=74万/5.0亿=0.146%。
步骤e,根据风险倍数以及初始特征值,确定目标特征的至少一个目标特征值。
在一种实现方式中,可以通过绘制LIFT曲线,并平滑该LIFT曲线来确定目标特征的至少一个目标特征值。具体地,以目标特征的各个初始特征值为横坐标,以目标特征对应每个初始特征值的风险倍数为纵坐标,来绘制LIFT曲线。之后,通过平滑该LIFT曲线来确定目标特征的至少一个目标特征值。以目标特征为“用户年龄”,且确定的三个初始特征值分别为:[16,25],(25,35]以及(35,45]为例来说,假设用户年龄对应初始特征值:(25,35]的风险倍数与用户年龄对应初始特征值(35,45]的风险倍数比较接近,则绘制的LIFT曲线凹凸不平。在对LIFT曲线平滑之后,可以确定两个目标特征值:[16,25],(25,45]。
需要说明的是,上述目标特征的选取是一个可选的过程,在实际应用中,也可以直接将所有的样本特征作为目标特征。此外,目标特征对应的目标特征值的确定过程也是一个可选的过程,在实际应用中,可以由人工预先设定,本申请对此不作限定。
步骤f,根据行为特征数据,从各个目标特征的至少一个目标特征值中选取对应的特征值。
以目标特征为“用户年龄”,且对应的目标特征值分别为:[16,25],(25,35]以及(35,45]为例来说,假设用户的行为特征数据中,用户年龄为20岁。因为20岁归属于[16,25],因此,将目标特征值:[16,25]选取为“用户年龄”对应的特征值。
在选取出目标特征并确定目标特征对应的至少一个目标特征值之后,如何利用有标签的数据(有监督学习)给出每个目标特征的风险评分贡献(简称评分结果),并且综合多个目标特征给出最终是否是目标用户的判断。以识别支付宝***中的流失用户为例来说,“用户90天内购买招财宝的次数”和“用户90天内登陆的次数”给最终识别流失用户的贡献肯定是不一样的。因此,需要对其进行量化和综合。在一种实现方式中,可以根据第三预设算法以及样本数据集合,确定目标特征对应不同目标特征值的评分结果。并将每个目标特征对应不同目标特征值的评分结果存储到预设的存储单元中。
以评分结果为WOE值为例来说,第三预设算法可以如公式2所示。
其中,ai为目标特征A的第i个目标特征值,WOE(A=ai)为目标特征A对应目标特征值ai的评分结果。#(目标用户/ai)用于表示样本集合中目标特征A的目标特征值为ai的目标用户数目。#(非目标用户/ai)用于表示样本集合中目标特征A的目标特征值为ai的非目标用户数目。#(目标用户)用于表示样本集合中的目标用户数目。#(非目标用户)用于表示样本集合中的非目标用户数目。
举例来说,假设样本集合如表1所示。
表1
目标特征X |
是否目标用户 |
a<sub>1</sub> |
否 |
a<sub>1</sub> |
否 |
a<sub>1</sub> |
是 |
a<sub>2</sub> |
否 |
a<sub>2</sub> |
是 |
表1中,总共包括5个用户的样本数据,且目标特征X有两个对应的目标特征值:a
1和a
2。则根据公式2可以分别计算得到:
之后,可以将WOE(a
1)和WOE(a
2)存储到预设的存储单元。
在一个例子中,预设的存储单元可以如表2所示。
表2
目标特征A |
目标特征B |
... |
目标特征N |
WOE(a<sub>1</sub>)=0.3 |
WOE(b<sub>1</sub>)=0.3 |
... |
WOE(n<sub>1</sub>)=0.3 |
WOE(a<sub>2</sub>)=0.1 |
WOE(b<sub>2</sub>)=0.3 |
... |
WOE(n<sub>2</sub>)=0.3 |
|
WOE(b<sub>3</sub>)=0.3 |
... |
WOE(n<sub>3</sub>)=0.3 |
|
WOE(b<sub>4</sub>)=0.3 |
... |
|
表2中,预设的存储单元中存储了目标特征:A,B,...,N对应不同目标特征值的评分结果。其中,目标特征A对应的目标特征值包括:a1和a2,目标特征B对应的目标特征值包括:b1、b2、b3以及b4,依次类推,目标特征N对应的目标特征值包括:n1、n2以及n3。
步骤330,根据各个目标特征以及对应的特征值,从预设的存储单元中查找各个目标特征对应的评分结果。
此处,预设的存储单元可以如表2所示,即用于存储多个目标特征对应不同目标特征值的评分结果。
举例来说,假设根据用户的行为特征数据,确定的各个目标特征对应的特征值如表3所示。
表3
目标特征A |
目标特征B |
... |
目标特征N |
a<sub>2</sub> |
b<sub>3</sub> |
... |
n<sub>1</sub> |
在各个目标特征对应的特征值如表3所示时,则可以从表2所示的存储单元中查找到如下的评分结果:WOE(a2)=0.1,WOE(b3)=0.3,...,WOE(n1)=0.3。
步骤340,根据各个目标特征对应的评分结果,获得用户的分数值。
在一种实现方式中,可以通过对各个目标特征对应的评分结果进行求和,来获得用户的分数值。如前述例子,用户的分数值Score=WOE(a2)+WOE(b3)+...+WOE(n1)=0.1+0.3+...+0.3。
可选地,在获得用户的分数值之后,还可以对该分数值进行归一化处理,从而得到归一化处理结果。
综上,本申请能够从用户行为数据,用户趋势数据等出发,最小化的依赖业务的理解,对用户进行打分。基于样本数据对于样本特征进行有效评估,并且产生样本特征的贡献度,最大化的利用标签数据完成目标特征的选取以及预设的存储单元的建立。此外,对于识别为目标用户的用户,还可以给出明确的解释和量化。
与上述安全校验方法对应地,本申请实施例还提供的一种安全校验装置,如图4所示,该装置包括:
监测单元401,用于监测用户使用新设备的首笔交易行为。
获取单元402,用于当监测单元401监测到首笔交易行为时,获取用户的分数值。
此处,用户的分数值用于确定用户是否为流失用户。
判断单元403,用于判断获取单元402获取的用户的分数值是否超过预设阈值。
校验单元404,用于若判断单元403判断用户的分数值不超过预设阈值,则对首笔交易行为进行第一级别的安全校验。
校验单元404,还用于若判断单元403判断用户的分数值超过预设阈值,则对首笔交易行为进行第二级别的安全校验或者不对首笔交易行为进行安全校验。
可选地,获取单元402具体可以用于:
提取用户的行为特征数据。
根据行为特征数据,确定各个目标特征对应的特征值,目标特征是从不同用户的样本数据所包括的多个样本特征中选取的。
根据各个目标特征以及对应的特征值,从预设的存储单元中查找各个目标特征对应的评分结果,预设的存储单元用于存储多个目标特征对应不同目标特征值的评分结果。
根据各个目标特征对应的评分结果,获得用户的分数值。
其中,行为特征数据可以包括:用户行为数据、用户画像数据和用户趋势数据。
用户行为数据可以包括:若干天平均支付金额、若干天内支付天数、若干天内支付金额、最后一次支付距今时间、若干天内购买第一目标产品的次数、若干天内购买第二目标产品次数、若干天内购买第二目标产品金额、若干天内来电次数、最后一次登录城市、最后一次登录距今时间以及若干天内登录次数;和/或,
用户画像数据可以包括:用户是否单身、用户是否装修、用户是否已婚、用户年龄、用户注册时长、用户教育水平;和/或,
用户趋势数据可以包括:平均余额变化趋势、登录次数变化趋势、远程过程调用RPC变化趋势、支付次数变化趋势。
可选地,获取单元402还可以用于:
搜集样本数据集合,样本数据集合中包括多个用户的样本数据。
根据多个用户的样本数据,确定多个样本特征。
根据第一预设算法,从多个样本特征中选取各个目标特征。
对每个目标特征,确定目标特征的至少一个初始特征值,并根据第二预设算法以及预设数值,确定目标特征对应每个初始特征值的风险倍数。
根据风险倍数以及初始特征值,确定目标特征的至少一个目标特征值。
根据行为特征数据,确定各个目标特征对应的特征值,包括:
根据行为特征数据,从各个目标特征的至少一个目标特征值中选取对应的特征值。
可选地,获取单元402还可以用于:
根据第三预设算法以及样本数据集合,确定目标特征对应不同目标特征值的评分结果。
将每个目标特征对应不同目标特征值的评分结果存储到预设的存储单元中。
可选地,该装置还可以包括:
归一化处理单元405,用于对分数值进行归一化处理,得到归一化处理结果。
判断单元403具体用于:判断归一化处理结果是否超过预设阈值。
本申请实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本申请提供的装置的具体工作过程,在此不复赘述。
本申请提供的安全校验装置,监测单元401监测用户使用新设备的首笔交易行为。当监测单元401监测到首笔交易行为时,获取单元402获取用户的分数值。判断单元403判断用户的分数值是否超过预设阈值。若用户的分数值不超过预设阈值,校验单元404对首笔交易行为进行第一级别的安全校验。若用户的分数值超过预设阈值,校验单元404对首笔交易行为进行第二级别的安全校验或者不对首笔交易行为进行安全校验。由此,可以降低对安全用户的打扰,从而可以达到挽回用户的目的。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。