CN110619564B

CN110619564B - 一种反欺诈特征生成方法和装置

Info

Publication number: CN110619564B
Application number: CN201810636846.2A
Authority: CN
Inventors: 雷涛; 吕慧; 高红霄; 谭可华
Original assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Current assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2021-01-05
Anticipated expiration: 2038-06-20
Also published as: CN110619564A

Abstract

本发明提供了一种特征提取方法和装置，该特征提取方法应用于申请反欺诈模型构建。该特征提取方法首先接收申请人基本信息和申请人社交信息，处理申请人基本信息获得基本特征，根据申请人社交信息构建社交网络，然后利用网络表示学习算法对社交网络进行计算获得欺诈网络特征，最后拼接申请人基本特征和欺诈网络特征获得用于申请反欺诈建模的申请人特征。利用上述申请人特征进行申请反欺诈建模，能够克服只用基本信息和信用历史信息建模导致的模型不准问题，可有效的提高模型识别欺诈申请人的准确度，对于有效防范信用不良的客户申办***，实现***业务风险的事前防范，帮助银行建立第一道信用风险安全网具有重要意义。

Description

一种反欺诈特征生成方法和装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种反欺诈特征生成方法和装置。

背景技术

随着经济的显著增长和社会的快速进步，我国***产业飞速发展。根据中国人民银行公布的《2016年支付体系运行总体情况》的数据：截至2016年末，***和借贷合一卡在用发卡数量共计4.65亿张；银行卡授信总额为9.14万亿元。银行在发卡实践中发现，伴随着大量正常的***申请，存在少数欺诈申请人，这类申请人通过编造虚假个人身份信息、冒用他人身份信息、提供虚假证明材料等手段，欺骗银行发放***，并在激活后提现、消费或转账。欺诈申请人少量偿还或不偿还***欠款，造成大量坏账，给银行带来了巨额损失。如何有效地对申请人进行***申请欺诈预测，防范信用不良的人申办***，提高银行预防和抵抗***申请欺诈风险的能力，是所有银行迫切需要解决的问题。银行一般在***审批环节采用反欺诈方法处理***申请文件，反欺诈方法可概括地分为人的方法和计算机的方法。其中，人的方法基于规则和专家经验，利用预定义的条件筛选欺诈申请人，将其排除在外，不予发卡。人的方法依赖于人力投入，在我国各大银行每年累计发放***达千万量级的今天，已经无法满足发卡量爆发式增长的要求；计算机的方法是指银行业引入的，利用机器学习方法训练能够预测申请人是欺诈申请人的概率高低的模型，进而利用模型预测申请人是否为欺诈申请人。此方法是将申请人基本信息和信用历史资料输入到机器学习信用预测模型，利用模型评估申请人的信用欺诈概率。目前使用的计算机的方法基于申请人基本信息和信用历史资料训练预测模型，模型关注局部特征多，关注全局特征少，预测精度不高，无法满足银行业反欺诈要求。

发明内容

本发明实施例的目的在于提供一种反欺诈特征生成方法和装置，旨在解决现有技术中利用申请人基本信息和信用历史信息建模精度不高，预测效果不好的问题。

第一方面，提供一种反欺诈特征生成方法，包括：接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；处理所述申请人基本信息，获得申请人基本特征；根据所述申请人社交信息，构建社交网络；利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征；拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征。

在第一方面的第一种可能的实现方式中，所述相关人的信息，包括：所述相关人的姓名、移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号和电子邮箱地址中的至少一个。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：将所述申请人导入社交网络数据库中，作为所述社交网络的节点；遍历所有节点，比较第一申请人的社交信息与第二申请人的社交信息，当第一申请人的社交信息与第二申请人的社交信息相同时，设置第一申请人对应的社交网络节点和第二申请人对应的社交网络节点之间存在一条边；

结合第一方面或者第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述方法还包括：调用DeepWalk算法计算所述社交网络节点的潜在结构特征；将所述社交网络中的每一个节点表征到低维向量空间，每个节点由一维向量表示；将所述一维向量作为所述节点的欺诈网络特征；

第二方面，提供一种反欺诈特征生成装置，包括：接收模块，用于接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；特征生成模块，用于处理所述申请人基本信息，获得申请人基本特征；社交网络模块，用于根据所述申请人社交信息构建社交网络；所述社交网络模块，还用于利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征；所述特征生成模块，还用于拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征；

在第二方面的第一种可能的实施方式中，所述所述相关人的信息，包括：所述相关人的姓名、移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号和电子邮箱地址中的至少一个。

结合第二方面或者第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述装置还包括：社交网络构建子模块，用于将所述申请人导入社交网络数据库中，作为所述社交网络的节点；遍历所有节点，比较第一申请人的社交信息与第二申请人的社交信息，当第一申请人的社交信息与第二申请人的社交信息相同时，设置第一申请人对应的社交网络节点和第二申请人对应的社交网络节点之间存在一条边。

结合第二方面或者第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述装置还包括：欺诈特征生成子模块，用于调用DeepWalk算法计算所述社交网络节点的潜在结构特征；将所述社交网络中的每一个节点表征到低维向量空间，每个节点由一维向量表示；将所述一维向量作为所述节点的欺诈网络特征；

第三方面，提供一种***申请反欺诈装置，包括：数据模块，用于批量接收申请人数据；如第二方面所述的特征生成装置，用于获取或更新申请人训练数据集；模型训练模块，用于利用获取或更新的训练数据集，调用机器学习算法训练反欺诈模型；预测模块，用于接收单个申请人数据，利用所述反欺诈模型，预测该申请人是欺诈客户的概率值；

本发明实施例通过网络表示学习算法计算社交网络，获得了欺诈网络特征，训练出的模型精度更高，预测效果更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种反欺诈特征生成方法的流程图；

图2是本发明实施例提供的另一种反欺诈特征生成方法的流程图；

图3是本发明实施例提供的另一种反欺诈特征生成方法的流程图；

图4是本发明实施例提供的另一种反欺诈特征生成方法的流程图；

图5是本发明实施例提供的一种反欺诈特征生成装置的结构示意图；

图6是本发明实施例提供的一种反欺诈特征生成装置的社交网络模块的结构示意图；

图7是本发明实施例提供的另一种反欺诈特征生成装置的社交网络模块的结构示意图；

图8是本发明实施例提供的一种申请反欺诈装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例仅仅是本发明的一部分实施例而不是全部的实施例。基于本发明中的实施例本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种反欺诈特征生成方法，其具体实现过程为：

步骤S101：接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；

步骤S102：处理所述申请人基本信息，获得申请人基本特征；

步骤S103：根据所述申请人社交信息，构建社交网络，所述申请人的社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；所述申请人的社交信息还包括申请人移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号、电子邮箱地址中的至少一个；根据申请人的社交信息相同，可构建申请人社交网络；

步骤S104：利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征；

步骤S105：拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征；由申请人基本特征和申请人的欺诈网络特征形成的新的特征，可以更全面的表征申请人。

综上所述，本发明实施例所提供的特征生成方法，根据申请人的基本信息和社交信息，生成能更全面的表征申请人，包含申请人欺诈网络特性的特征集合，能够克服只用基本信息和信用历史信息建模导致的模型不准问题，可有效的提高模型识别欺诈申请人的准确度。

可选地，可利用WOE编码等算法处理申请人基本信息，可以获得申请人基本特征，如图2所示，具体包括：

步骤S1021：对申请人的学历、职位特征，根据学历和职位级别由低到高，分别用数值进行线性替换；

步骤S1022：对申请人的年龄进行分段离散化，分段点由信息价值(InformationValue，缩写为IV)的值计算所得，为{17，21，23，30，35，42，90}，离散化得到对应数字1-8；

步骤S1023：身份证号取前六位，转化为one-hot编码；

步骤S1024：存储步骤S1021～S1023生成的数据和申请人年收入，作为申请人基本特征。

利用步骤S1021～步骤S1024的方法，可将申请人基本信息转换为申请人基本特征。可选地，根据所述申请人社交信息，构建社交网络，可以是根据申请人的社交信息相同创建申请人之间的联系，进而构建社交网络。根据所述申请人社交信息构建社交网络，包括：

将所有所述申请人导入社交网络数据库，作为所述社交网络的节点，社交网络数据库可以用图数据库实现；

遍历所述社交网络数据库内的所有节点，比较第一申请人的社交信息与第二申请人的社交信息，当第一申请人的社交信息与第二申请人的社交信息相同时，设置第一申请人对应的社交网络节点和第二申请人对应的社交网络节点之间存在一条边。如社交网络数据库中包含N个节点，则遍历结束后可形成N*N矩阵，矩阵中保存“0”、“1”值，0表示两个节点没有社交关系，1表示两个节点有社交关系。所述社交信息相同，可以是两个申请人的移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号和电子邮箱地址这些信息中的任一相同。以上信息中的任一相同，则认定两个申请人具有社交关系，对应的矩阵元素值取1。类似的，可以定义申请人的移动电话号码关系矩阵、单位电话关系矩阵等等，在此不再赘述。

可选的，根据所述申请人社交信息，构建社交网络，如图3所示，还可以包括如下步骤：

步骤S1031：将申请人导入社交网络数据库，作为所述社交网络的节点构建节点表。为每一个申请人创建一个节点，生成申请人标识ID，并将申请人社交信息作为节点的属性字段保存。具体的，为每个申请人节点设置申请人移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号、电子邮箱地址属性字段；为每个申请人节点设置至少一个相关人字段，相关人字段用于保存申请人亲属、推广人或联系人信息，相关人字段包括相关人的姓名、移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号、电子邮箱地址等信息中的至少一个；

步骤S1032：根据构建关系表；具体的，遍历节点表，当第一申请人的社交信息与第二申请人的社交信息相同，即：

第一申请人的移动电话号码与第二申请人的移动电话号码相同，或者，

第一申请人的单位电话号码与第二申请人的单位电话号码相同，或者，

第一申请人的家庭住址与第二申请人的家庭住址相同，或者，

第一申请人的单位地址与第二申请人的单位地址相同，或者，

第一申请人的微信号与第二申请人的微信号相同，或者，

第一申请人的QQ号与第二申请人的QQ号相同，或者，

第一申请人的钉钉号与第二申请人的钉钉号相同，或者，

第一申请人的电子邮件地址与第二申请人的电子邮件地址相同，或者，

第一申请人的至少一个相关人的移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号、电子邮箱地址之一，与第二申请人的至少一个相关人对应的信息相同，则设定第一申请人和第二申请人存在关系，设定第一申请人和第二申请人相应类型的关系值为1，否则设置为0；

遍历节点表结束，可依据节点表生成一张包含已经导入社交网络数据库的所有申请人之间关系的关系表。

步骤S1033：利用节点表和关系表构建社交网络。利用保存节点表和关系表的图数据库的计算功能，生成社交网络。

利用步骤S1031-步骤S1033所述方法，可以基于申请人社交信息，构建申请人社交网络。可选地，利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征，具体包括：

调用DeepWalk算法计算所述社交网络节点的潜在结构特征；

将所述社交网络中的每一个节点表征到低维向量空间，每个节点由一维向

量表示；

将所述一维向量作为所述节点的欺诈网络特征；

可选地，利用网络表示学习算法计算社交网络，获得申请人欺诈网络特征；网络表示学习的目标是：给定图G＝(V，E)，其中V是节点的集合，E是边的集合。网络表示学习方法将图G中每个节点映射为一个低维的特征向量，且要求如果两个节点是相似的，那么它们映射后的向量相近，否则它们被映射后的向量距离较远。如图4所示，具体包括：

步骤S1041：利用截断的随机游走从图G中生成大量的路径，然后从这些生成的路径中获得每个节点v_i∈V的邻居，具体实现如下：

在DeepWalk模型中，给定随机游走窗口大小k＝20和每个节点作为开始节点游走的次数m＝10，在G上随机生成的游走路径中，如果节点v_j出现在节点v_i的邻居窗口中，则节点v_j是节点v_i的邻居节点。即v_j不必是v_i的直接邻居，比如

但只要v_i能够在k步内到达即可；每个节点完成m次随机游走，生成大量的随机游走序列；

步骤S1042：skip-gram模型的基本思想：如果两个节点拥有共同或者特征相近的邻居节点，那么两个节点具有相似的低维表示；

用skip-gram模型对随机游走序列中每个局部窗口n＝2内的节点对进行概率建模，最大化随机游走序列的似然概率，并使用随机梯度下降学习参数，最终获得每个网络节点的向量表示，将该向量作为客户的欺诈网络特征。

可选地，将处理后的申请客户基本特征与网络特征拼接，形成客户特征向量；拼接方式如下：假设每个申请客户基本特征∈R^1×7，每个申请客户网络特征∈R^1×128，拼接后的每个申请客户特征∈R^1×135。

综上所述，利用本发明实施例提供的特征生成方法，可基于申请人基本信息和社交信息，获得包含申请人欺诈网络特征的新特征集合，利用该新特征集合进行反欺诈建模，能够克服只用基本信息和信用历史信息建模导致的模型不准问题，可有效的提高模型识别欺诈申请人的准确度。

如图5所示，本发明实施例提供了一种反欺诈特征生成装置，该装置包括：

接收模块51，用于接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；所述相关人的信息包括所述相关人的姓名、移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号和电子邮箱地址中的至少一个。

特征生成模块53，用于处理所述申请人基本信息，获得申请人基本特征，该模块处理申请人基本信息的过程如步骤S102或S1021～S1024所述，此处不再赘述；

社交网络模块52，用于根据所述申请人社交信息构建社交网络；

可选地，所述社交网络模块包括包括社交网络构建模块5201，如图6所示，用于将所述申请人导入社交网络数据库中，作为所述社交网络的节点；

遍历所有节点，比较第一申请人的社交信息与第二申请人的社交信息，当第一申请人的社交信息与第二申请人的社交信息相同时，设置第一申请人对应的社交网络节点和第二申请人对应的社交网络节点之间存在一条边。具体构建社交网络的过程如步骤S1031～S1033所述，此处不再赘述。

所述社交网络模块，还用于利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征；

可选地，所述社交网络模块包括欺诈网络特征生成模块5202，如图7所示，用于调用DeepWalk算法计算所述社交网络节点的潜在结构特征；将所述社交网络中的每一个节点表征到低维向量空间，每个节点由一维向量表示；将所述一维向量作为所述节点的欺诈网络特征；具体获得欺诈网络特征的过程如步骤S1041～S1043所述，此处不再赘述；所述特征生成模块，还用于拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征；

综上所述，利用本发明实施例提供的特征生成装置，可基于申请人基本信息和社交信息，获得包含申请人欺诈网络特征的新特征集合，利用该新特征集合反欺诈建模，能够克服只用基本信息和信用历史信息建模导致的模型不准问题，可有效的提高模型识别欺诈申请人的准确度。

如图8所示，本发明实施例提供了一种***申请反欺诈装置，其具体组成包括：

数据模块81，用于批量接收申请人数据；

特征生成装置82，如图5所示的特征生成装置，用于获取或更新申请人训练数据集；

模型训练模块83，用于利用获取或更新的训练数据集，调用机器学习算法训练反欺诈模型；

预测模块84，用于接收单个申请人数据，利用所述反欺诈模型，预测该申请人是欺诈客户的概率值；

收集某银行北京地区申请客户信息，其中好客户259533，欺诈客户91667，通过5折交叉验证方式进行模型训练和数据测试，利用申请客户基本特征训练模型，其测试数据AUC＝0.75，利用图x所示的***申请反欺诈装置，其测试数据AUC＝0.86；网络特征考虑到客户之间的关联关系，丰富了客户申请信息，显著提高了***申请反欺诈模型的准确性。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种反欺诈特征生成方法，其特征在于，所述方法包括：

接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；

处理所述申请人基本信息，获得申请人基本特征；

根据所述申请人社交信息,构建社交网络；

利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征；

拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征；

利用网络表示学习算法对所述社交网络进行计算，获得所述申请人的欺诈网络特征，包括：

调用DeepWalk算法计算所述社交网络节点的潜在结构特征；

将所述社交网络中的每一个节点表征到低维向量空间，每个节点由一维向量表示；

将所述一维向量作为所述节点的欺诈网络特征；

其中，当两个节点为潜在结构特征相近的邻居节点时，该两节点对应的一维向量距离相近；

所述处理所述申请人基本信息，获得申请人基本特征，包括：

对申请人的学历、职位特征，根据学历和职位级别由低到高，分别用数值进行线性替换；

对申请人的年龄进行分段离散化，分段点由信息价值的值计算所得；

身份证号取前六位，转化为one-hot编码；

存储上述步骤生成的数据和申请人年收入，作为所述申请人基本特征；

根据所述申请人社交信息构建社交网络，包括：

将所述申请人导入社交网络数据库中，作为所述社交网络的节点；

遍历所有节点，比较第一申请人的社交信息与第二申请人的社交信息，当第一申请人的社交信息与第二申请人的社交信息相同时，设置第一申请人对应的社交网络节点和第二申请人对应的社交网络节点之间存在一条边；

其中，所述社交网络数据库中包含N个节点，则遍历结束后可形成N*N矩阵，矩阵中保存数值0和1，0表示两个节点没有社交关系，1表示两个节点有社交关系。

2.如权利要求1所述的特征生成方法，其特征在于，所述相关人的信息，包括：

所述相关人的姓名、移动电话号码、单位电话号码、家庭住址、单位地址、微信号、QQ号、钉钉号和电子邮箱地址中的至少一个。

3.一种反欺诈特征生成装置，其特征在于，所述装置包括：

接收模块，用于接收申请人信息，所述申请人信息包括申请人基本信息和申请人社交信息，所述申请人基本信息包括申请人的年龄、身份证号、学历、年收入和职位，所述申请人社交信息包括至少一个相关人的信息，所述相关人包括申请人亲属、推广人和联系人；

特征生成模块，用于处理所述申请人基本信息，获得申请人基本特征；

社交网络模块，用于根据所述申请人社交信息构建社交网络；

所述特征生成模块，还用于拼接所述申请人基本特征与所述申请人的欺诈网络特征，获得用于训练反欺诈模型的申请人特征；

所述社交网络模块包括欺诈网络特征生成子模块，用于调用DeepWalk算法计算所述社交网络节点的潜在结构特征；

将所述一维向量作为所述节点的欺诈网络特征；

所述特征生成模块，还用于：

身份证号取前六位，转化为one-hot编码；

所述社交网络模块包括社交网络构建子模块，用于将所述申请人导入社交网络数据库中，作为所述社交网络的节点；

4.一种申请反欺诈装置，其特征在于，所述装置包括：

数据模块，用于批量接收申请人数据；

如权利要求3所述的特征生成装置，用于获取或更新申请人训练数据集；

模型训练模块，用于利用获取或更新的训练数据集，调用机器学习算法训练反欺诈模型；

预测模块，用于接收单个申请人数据，利用所述反欺诈模型，预测该申请人是欺诈客户的概率值。