CN108665166A

CN108665166A - 一种风险控制模型的训练方法及装置

Info

Publication number: CN108665166A
Application number: CN201810444821.2A
Authority: CN
Inventors: 谭威强
Original assignee: Yi Lian Pays Co Ltd
Current assignee: Yi Lian Pays Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-16

Abstract

本发明提供的一种风险控制模型的训练方法，包括：获取用于训练风险控制模型的第一白样本和第一黑样本并计算他们之间各个变量的差值，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；根据模型特征运行模型算法，生成风险控制模型；验证风险控制模型的误判率；若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并重新训练。本发明通过计算第一白样本和第一黑样本之间各个变量的差值并将差值较大的变量作为模型特征，从而科学地选择到能够明确区分白样本和黑样本的变量，使得风险控制模型能够更加精确和准确地判断订单风险，有效降低了订单的误判率。

Description

一种风险控制模型的训练方法及装置

技术领域

本发明涉及风险控制技术领域，尤其涉及一种风险控制模型的训练方法及装置。

背景技术

在支付行业内，规则型框架是一种普遍应用于运算交易风险数值的***设计。目前，风险控制***也是利用同类框架创建。每一笔订单按其行业、商户、开户银行、手机号归属地等等属性，匹配出一系列预设的规则和参数。透过规则的一一运行，为订单打上各项后续操作标记。最后，由***统一根据标记对订单作出相应的分流处理。

而随着互联网的发展，互联网业务越来越丰富。随之而来的互联网业务的欺诈行为，也越来越多。比如，盗取他人账户或盗用他人账户进行非法交易、或单个账户业务量激增(信用值炒作)等。因此，为了确保信息操作安全，通常一项互联网业务所属的***需要有风险控制***，这个***的核心就是风险控制模型。

借助于风险控制模型，当该模型接收到订单数据时，通过订单及其相关信息便可进行风险识别。然而，在目前的风险控制模型普遍存在精度不足，模型输入变量与风险判断的“点”数量庞大，容易出现模型输入变量与风险判断重点不匹配的情况，导致误判或判断不准确。

发明内容

本发明实施例提供了一种风险控制模型的训练方法及装置，用于解决目前风险控制模型的模型输入变量与风险判断关键不匹配导致容易出现误判的情况的技术问题。

本发明提供的一种风险控制模型的训练方法，包括：

S1：获取用于训练风险控制模型的第一白样本和第一黑样本；

S2：直接或间接计算第一白样本和第一黑样本之间各个变量的差值，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；

S3：根据模型特征运行模型算法，生成风险控制模型；

S4：获取用于验证风险控制模型的第二白样本和第二黑样本并输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

S5：若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并返回执行步骤S1。

优选地，所述获取用于训练风险控制模型的第一白样本和第一黑样本之前还包括：

从交易数据库中提取正常订单数据和欺诈订单数据；

按比例抽取正常订单和欺诈订单，获得白样本和黑样本；

将白样本和黑样本分别按比例分成用于训练风险控制模型的第一白样本和第一黑样本和用于验证风险控制模型的第二白样本和第二黑样本。

优选地，若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练之后还包括：

S6：获取用于刷新风险控制模型的第三白样本和第三黑样本，对各步骤预设参数进行调整并将第三白样本和第三黑样本输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

S7：若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则返回执行步骤S6。

优选地，所述步骤S6之前还包括：

从前端数据库中获取记录的标记欺诈订单；

若记录的标记欺诈订单数量大于预设的第二阈值，则根据交易数据库中的正常订单和记录的标记欺诈订单提取出用于刷新风险控制模型的第三白样本和第三黑样本。

优选地，所述根据交易数据库中的正常订单和记录的标记欺诈订单提取出用于刷新风险控制模型的第三白样本和第三黑样本具体包括：

当交易数据库中的记录的标记欺诈订单数量大于预设的第二阈值时，从交易数据库中提取正常订单数据和欺诈订单数据；

按比例抽取正常订单和欺诈订单，获得用于刷新风险控制模型的第三白样本和第三黑样本。

本发明提供的一种风险控制模型的训练装置，包括：

第一训练样本获取模块，用于获取用于训练风险控制模型的第一白样本和第一黑样本；

第一模型特征计算模块，用于直接或间接计算第一白样本和第一黑样本之间各个变量的差值，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；

第一风险控制模型生成模块，用于根据模型特征运行模型算法，生成风险控制模型；

第一误判率计算模块，用于获取用于验证风险控制模型的第二白样本和第二黑样本并输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

第一循环判断模块，用于若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并返回执行第一训练样本获取模块。

优选地，该装置还包括：

第一数据库提取模块，用于从交易数据库中提取正常订单数据和欺诈订单数据；

第一比例抽取模块，用于按比例抽取正常订单和欺诈订单，获得白样本和黑样本；

第一比例分成模块，用于将白样本和黑样本分别按比例分成用于训练风险控制模型的第一白样本和第一黑样本和用于验证风险控制模型的第二白样本和第二黑样本。

优选地，该装置还包括：

第二误判率计算模块，用于获取用于刷新风险控制模型的第三白样本和第三黑样本，对各步骤预设参数进行调整并将第三白样本和第三黑样本输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

第二循环判断模块，用于若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则返回执行第二误判率计算模块。

优选地，该装置还包括：

标记欺诈订单模块，用于从前端数据库中获取记录的标记欺诈订单；

标记欺诈订单超量模块，用于判断记录的标记欺诈订单数量是否大于预设的第二阈值，若是则根据交易数据库中的正常订单和记录的标记欺诈订单提取出用于刷新风险控制模型的第三白样本和第三黑样本。

优选地，该装置还包括：

第二数据库提取模块，用于当交易数据库中的记录的标记欺诈订单数量大于预设的第二阈值时，从交易数据库中提取正常订单数据和欺诈订单数据；

第二比例抽取模块，用于按比例抽取正常订单和欺诈订单，获得用于刷新风险控制模型的第三白样本和第三黑样本。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明提供的一种风险控制模型的训练方法，包括：获取用于训练风险控制模型的第一白样本和第一黑样本；计算第一白样本和第一黑样本之间各个变量的差值，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；根据模型特征运行模型算法，生成风险控制模型；获取用于验证风险控制模型的第二白样本和第二黑样本并输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并返回执行第一步骤。本发明通过计算第一白样本和第一黑样本之间各个变量的差值并将差值较大的变量作为模型特征，从而将区分白样本和黑样本的变量在风险控制模型中凸显出来，科学地选择到能够明确区分白样本和黑样本的变量，使得风险控制模型能够更加精确和准确地判断订单风险，有效降低了订单的误判率，解决了目前风险控制模型的模型输入变量与风险判断关键不匹配导致容易出现误判的情况的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种风险控制模型的训练方法的一个实施例的流程图；

图2为本发明提供的一种风险控制模型的训练方法的另一个实施例的流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种风险控制模型的训练方法的一个实施例，包括：

101：获取用于训练风险控制模型的第一白样本和第一黑样本；

102：计算第一白样本和第一黑样本之间各个变量的差值(若是非线性的变量，由于非线性变量无法计算差值，一般会取其统计值作对比，即间接计算差值)，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；

需要说明的是，现有技术的模型生成过程中，模型特征的选取存在许多问题。若把全数特征作为模型训练的输入，一般会有数个问题：1)多数特征成为多余的干扰源，导致模型训练过程中，算法难以选中明显的特征指标区分黑白样本；2)特征过多使模型的复杂性增加，令过度拟合的概率增加，出现即使验证样本的成绩很好，却对样本外的数据(eg.实际投产后的实际数据)差得一塌糊涂；3)性能问题，过多的特征令模型算法的计算量以几何级数增长(增长幅度视乎算法而有所不同)因此，必须在模型训练前，尽可能找出黑白样本差异显著的特征，模型训练后根据成绩以消去法进行特征筛选。

由于各个变量可以包括很多维度，比如时间维度、距离纬度、经济维度等等，也可以是复合维度而来的平均值等等，因此本发明中的变量并不限定单一纬度。

103：根据模型特征运行模型算法，生成风险控制模型；

104：获取用于验证风险控制模型的第二白样本和第二黑样本并输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

模型性能一般由黑样本的命中率和白样本的误杀率组成，结合生成本发明中的误判率(可以是相加或者经过一定算法组合生成，此处具体不做限定)。

105：若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并返回执行步骤101(重新训练风险控制模型)。

各步骤预设参数包含但不限于模型种类的选定，模型的运行参数，模型特征的筛选，抽样的比例和日期区间。

本发明通过计算第一白样本和第一黑样本之间各个变量的差值并将差值较大的变量作为模型特征，从而将区分白样本和黑样本的变量在风险控制模型中凸显出来，科学地选择到能够明确区分白样本和黑样本的变量，使得风险控制模型能够更加精确和准确地判断订单风险，有效降低了订单的误判率，解决了目前风险控制模型的模型输入变量与风险判断关键不匹配导致容易出现误判的情况的技术问题。并且，本发明可以自动地对风险控制模型进行科学的计算(模型刷新)，模型刷新的实质是重新平衡既定模型特征之间的权重关系，使得模型更加追贴现状并最适化。

本***采用多维度数据和模型算法得出的最佳的分类基准，远比低维度数据经人脑运算而来的结果来得精确，从而带来更高的识别命中率和更低的识别误判率。

以上是对本发明提供的本发明提供的一种风险控制模型的训练方法的一个实施例进行详细的描述，以下将对本发明提供的一种风险控制模型的训练方法的另一个实施例进行详细的描述。

请参阅图2，本发明提供的一种风险控制模型的训练方法的另一个实施例，包括：

201：从交易数据库中提取正常订单数据和欺诈订单数据；

交易数据库中实时更新正常订单数据和欺诈订单数据，可以是人工标定或者是按照原来的规则框架规定或者是按照风险控制模型判断规定，本实施例中，交易数据库中用于训练的订单数据都是已经事前判明了属于正常订单还是属于欺诈订单的；欺诈订单是指存在盗取他人账户或盗用他人账户进行非法交易或单个账户业务量激增(信用值炒作)等非法操作的订单。

202：按比例抽取正常订单和欺诈订单，获得白样本和黑样本；

由于正常订单和欺诈订单的数量悬殊，比如存在从交易数据库中提取到10万个正常订单和10个欺诈订单的情况，因而按比例抽取订单可以减轻计算规模，目标为将正常订单和欺诈订单的比例降低至3比1、2比1或1比1的情况，完成该抽取后，正常订单成为白样本，欺诈订单成为黑样本，此处的比例可以根据实际测试结果中的误判率进行调整。

203：将白样本和黑样本分别按比例分成用于训练风险控制模型的第一白样本和第一黑样本和用于验证风险控制模型的第二白样本和第二黑样本。

按比例分成是指将一部分白样本分成第一白样本，另一部分白样本分成第二白样本，黑样本同理，具体比例根据实际需要设定，为预设的参数。其中，第一样本(即第一白样本和第一黑样本)和第二样本(即第二白样本和第二黑样本)不重复。

204：获取用于训练风险控制模型的第一白样本和第一黑样本；

205：计算第一白样本和第一黑样本之间各个变量的差值，若差值大于预设第一阈值(每个变量均有着不同的阈值数值)，则将该差值对应的变量作为模型特征；

此处的变量是指样本中相关的变量，比如时间，频次，订单发生的地理位置，金额等等，甚至是订单与前十个订单的平均值、订单对应的用户的支付方式(指纹支付或密码支付等)或订单用户的信用评级等，这些变量数量庞大，人工挑选工作量巨大，并且难以挑选出合适的变量，因而需要本发明提供的训练方法对风险控制模型的模型特征进行选定。计算第一白样本和第一黑样本之间各个变量的差值是指分别计算两变量之间变量的差值，如白样本和黑样本金额之间的差值，若白样本和黑样本金额之间的差值不大，证明白样本和黑样本之间的金额这一变量并不是明显区分白样本和黑样本之间的变量，反之，若白样本和黑样本金额之间的差值较大，则证明白样本和黑样本之间的金额这一变量是明显区分白样本和黑样本之间的变量，需要将金额这一变量设定为模型特征。

206：根据模型特征运行模型算法，生成风险控制模型；

现有的模型算法和风险控制模型都较多，具体选择哪种模型算法并不是本发明的重点，可以根据模型特征选取合适的模型算法，此处不具体限定。

207：获取用于验证风险控制模型的第二白样本和第二黑样本并输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

由于第二白样本和第二黑样本已知其为正常订单和欺诈订单，当向风险控制模型输入样本后，若第二白样本输入风险控制模型后运行结果显示为正常订单，则没有误判，若显示为欺诈订单，则出现了误判，第二黑样本同理，因此可以用误判的订单数目除以总订单数目得到误判率。

208：若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则对各步骤预设参数进行调整并返回执行步骤201(重新训练风险控制模型)。

各步骤预设参数可以是第一阈值、第二阈值、预设范围等，也可以是模型算法的预设参数，也可以是样本抽取的比例、分成的比例等。

209：从前端数据库中获取记录的标记欺诈订单；

前端数据库中的标记欺诈订单的选定可以是人工选定(即前端人员确认的欺诈订单)，也可以是根据其他机器装置的判断选定的，或者是根据其他算法选定的，这个标记欺诈订单已被本领域技术人员判定为欺诈订单(可以是新出现的欺诈手法造成的欺诈订单)，由于当前模型误判了该欺诈订单，但是前端人员确认了这个订单是欺诈订单，所以说明当前的风控模型需要刷新。

该步骤主要是获取前端人员确认的记录的标记欺诈订单，该记录的标记欺诈订单是模型判定为正常订单(模型漏杀)，但是前端人员发现其应该为欺诈订单，因此记录为标记欺诈订单。前端人员接获持卡人致电投诉，凭借***或手机号等信息，从数据库中找到相关的订单，经复核后标记成欺诈订单。。

210：若记录的标记欺诈订单数量大于预设的第二阈值，则根据交易数据库中的正常订单和记录的标记欺诈订单提取出用于刷新风险控制模型的第三白样本和第三黑样本，并对模型进行刷新生成新的风险控制模型。

由于标记欺诈订单可能是个例，因而当其超过一定阈值时才启动重新训练。本发明这种标记欺诈订单并重新刷新的方式(无需重新确定模型特征，仅需进行简单参数的学习更新，速度较快，较简单)，是近乎零配置和周期性学习的运行方式，使***每次学习后都能追贴最新的情况，亦节省了大量调整规则参数的前置分析工作。即使出现爆发性的欺诈个案，也可以透过缩短模型重训练的间隔时间，使***保持最高的警惕。原先需要数天分析甚至数周开发才能实行的规则效果，能够透过本发明中的短短数小时的机器学习达到更好的效果。

对模型进行刷新生成新的风险控制模型的步骤包括：

获取用于刷新风险控制模型的第三白样本和第三黑样本，对各步骤预设参数进行调整并将第三白样本和第三黑样本输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练，否则返回执行将第三白样本和第三黑样本并输入风险控制模型计算误判率的步骤。

该刷新过程只是单纯把新增订单样本混合原有的样本，按原定的公式转化为模型特征，令新的统计值出现位移，从而迫近最新的情况。因此刷新不需要修改模型特征的计算方法，仅需固定的计算便可使得模型适应新的环境，迫近最新的情况，使其保持先进性。

以下将对本发明提供的一种风险控制模型的训练方法的另一个实施例作进一步解释：

1)从各个交易数据库中提取数据，继而进行数据清洗和数据集成。

2)从数据中找寻用户行为相关的资讯，并从数目分布上验证用户行为和欺诈订单的关联性。

3)由于正常订单和欺诈订单的比例悬殊，前者占极大多数，需要分别从两者中按比例抽取有代表性的订单作为黑白样本。

4)从黑白样本中计算各个维度(时间，频次，地理位置，金额等等)的统计性变量，挑选数值差异较大的变量作为模型特征，确保使两者之间有明显的差异性。

5)模型算法种类繁多，各自有对应适用的场景。本发明从有监督型模型中分类算法中，经过真实数据测试而选定。

6)把黑白样本各自按比例分成两部分：训练用的黑白样本和验证用的黑白样本，把前者转化成模型特征，经过模型算法的运行，生成风险控制模型。

7)运行风险控制模型去辨别每一条验证用的黑白样本，把运行结果和既知的结果比较，得知当前模型的命中和误判程度，并对此评估。若命中和误判率不符合目标，则重复步骤2)至7)，重新对各项步骤所涉及的参数进行调整；

8)若命中和误判率符合目标，则可把风险控制模型部置到生产环境应用。

9)当趋势改变或出现欺诈的新手法，新个案被判明和定性后会收集起来，作为新的学习材料(选定的标记欺诈订单)。

10)当累积的标记欺诈订单数目超过阈值，则重新经过模型训练的过程生成新的风险控制模型，继而部署到生产平台运行，令***使用学习后的辨别基准识别订单的风险分类。

以下将对本发明提供的一种风险控制模型的训练装置进行详细的说明：

本发明提供的一种风险控制模型的训练装置，包括：

第一模型特征计算模块，用于计算第一白样本和第一黑样本之间各个变量的差值，若差值大于预设第一阈值，则将该差值对应的变量作为模型特征；

进一步地，该装置还包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种风险控制模型的训练方法，其特征在于，包括：

S3：根据模型特征运行模型算法，生成风险控制模型；

2.根据权利要求1所述的一种风险控制模型的训练方法，其特征在于，所述获取用于训练风险控制模型的第一白样本和第一黑样本之前还包括：

从交易数据库中提取正常订单数据和欺诈订单数据；

按比例抽取正常订单和欺诈订单，获得白样本和黑样本；

3.根据权利要求1所述的一种风险控制模型的训练方法，其特征在于，若误判率符合预设的范围，则输出风险控制模型，完成风险控制模型的训练之后还包括：

S6：获取用于不定期刷新风险控制模型的第三白样本和第三黑样本，对各步骤预设参数进行调整并将第三白样本和第三黑样本输入风险控制模型，根据运行结果获得当前的风险控制模型的误判率；

4.根据权利要求3所述的一种风险控制模型的训练方法，其特征在于，所述步骤S6之前还包括：

从前端数据库中获取记录的标记欺诈订单；

5.根据权利要求4所述的一种风险控制模型的训练方法，其特征在于，所述根据交易数据库中的正常订单和记录的标记欺诈订单提取出用于刷新风险控制模型的第三白样本和第三黑样本具体包括：

6.一种风险控制模型的训练装置，其特征在于，包括：

7.根据权利要求6所述的一种风险控制模型的训练装置，其特征在于，还包括：

8.根据权利要求6所述的一种风险控制模型的训练装置，其特征在于，还包括：

9.根据权利要求8所述的一种风险控制模型的训练装置，其特征在于，还包括：

10.根据权利要求9所述的一种风险控制模型的训练装置，其特征在于，还包括：