CN113139876B

CN113139876B - 风险模型训练方法、装置、计算机设备及可读存储介质

Info

Publication number: CN113139876B
Application number: CN202110435890.9A
Authority: CN
Inventors: 胥嘉栋; 胡明荣; 傅群慧; 朱尧
Original assignee: Ping An E Wallet Electronic Commerce Co Ltd
Current assignee: Ping An E Wallet Electronic Commerce Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2024-06-18
Anticipated expiration: 2041-04-22
Also published as: CN113139876A

Abstract

本发明涉及计算机安全的业务安全领域，公开了一种风险模型训练方法、装置、计算机设备及可读存储介质，包括：通过远期提取规则获取远期历史数据，及通过近期提取规则获取近期历史数据；汇总远期历史数据和近期历史数据得到综合训练数据；调整综合训练数据中远期历史数据和近期历史数据的数据量，及调整综合训练数据中远期正样本和近期正样本之和，与综合训练数据中远期负样本和近期负样本之和之间的正负比例得到综合调整数据；通过综合调整数据对初始智能模型进行训练得到成熟模型。本发明还涉及区块链技术，信息可存储于区块链节点中。本发明风险识别效率高，准确度高，避免了经验及规则成为漏洞，及将正常的用户被认定为风险用户的问题发生。

Description

风险模型训练方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及计算机安全的业务安全技术领域，尤其涉及一种风险模型训练方法、装置、计算机设备及可读存储介质。

背景技术

随着互联网技术的不断发展，各大金融,科技公司通过APP推出越来越贴近普通百姓的生活互联网理财产品和传统的股票基金、证券相比，互联网理财产品具有独特性的优势，特别适合本金不多、资金流动性大的年轻人，深受年轻人的喜爱。

但是互联网理财产品，面临一些不容忽视的风险问题,比如：盗用身份信息注册,盗取他人账号交易，用户被骗等，由于互联网理财产品的操作一般仅通过APP操作,盗用比较难发现，也难以追踪,所以比起传统理财渠道更容易被不法分子盯上,防范起来也相对更难。不仅造成用户的经济财产损失,而且因坏账赔偿等给理财平台带来经济损失,更有可能会造成平台信用度受损导致客户严重流失,甚至和用户法律纠纷等恶劣后果。

然而，发明人发现当前的风控***对上述风险问题的识别，通常采用人工分析，或通过预定的风险规则对风险进行评价的方式，不仅风险识别效率低，准确度差，而且因专家经验及预定的风险规则的滞后性，很容易成为不法用户利用的漏洞，进而导致风险***的风险识别准确度进一步降低；如果风险规则制定过于严格，很容易将正常的用户被认定为风险用户，导致服务***难以正常运转。

发明内容

本发明的目的是提供一种风险模型训练方法、装置、计算机设备及可读存储介质，用于解决现有技术存在的当前对风险问题的识别的方法不仅风险识别效率低，准确度差，很容易成为不法用户利用的漏洞，同时因风险规则制定过于严格，很容易将正常的用户被认定为风险用户，导致服务***难以正常运转的问题。

为实现上述目的，本发明提供一种风险模型训练方法，包括：

通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；

汇总所述远期历史数据和所述近期历史数据得到综合训练数据；

调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合训练数据中远期正样本和近期正样本之和，与所述综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据；

获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

上述方案中，所述通过预置的远期提取规则获取远期历史数据的步骤，包括：

从保存有历史数据的服务***中获取目标采样数据；

按照预置远期数据规则从所述目标采样数据中获取远期待定数据，所述远期数据规则包括时间周期和远期时间区间；

分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值，其中，所述分布特征反映了远期正样本中维度元素在所述远期待定数据中的分布情况；

若是，则将所述远期待定数据设为远期历史数据；

若否，则缩小所述时间周期和/或扩大所述远期时间区间的范围形成修正远期数据规则，根据所述修正远期数据规则和所述采样量从所述服务***中获取远期待定数据。

上述方案中，所述通过预置的近期提取规则获取近期历史数据的步骤，包括：

根据预置近期提取规则从保存有历史数据的服务***中获取近期待定数据，所述近期数据规则定义了获取历史数据的近期时间区间；

判断所述近期待定数据中是否具有近期正样本；

若是，则将所述近期待定数据设为近期历史数据；

若否，则扩大所述近期时间区间的范围形成修正近期数据规则，根据所述近期数据规则从所述服务***中获取近期待定数据。

上述方案中，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据的步骤，包括：

按照预置的远期比例值调整所述远期历史数据中，远期正样本和远期负样本之间的正负样本比得到远期训练数据；

按照预置的近期比例值调整所述近期历史数据中，近期正样本和近期负样本之间的比例得到近期训练数据；

汇总所述远期训练数据和所述近期训练数据形成综合训练数据。

上述方案中，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据之后，所述方法还包括：

对所述综合训练数据进行缺失值填充处理，用以填充所述综合训练数据中缺失的数据；

对所述综合训练数据进行数据清洗，用以对所述综合训练数据进行离散化处理。

识别所述综合训练数据中，与所述远期正样本和所述近期正样本之间具有正相关关系的维度元素，并将所述维度元素设为关键元素，删除所述综合训练数据中除所述关键元素外的其他维度元素；

所述删除所述综合训练数据中除所述关键元素外的其他维度元素之后，还包括：

将所述综合训练数据上传至区块链中。

上述方案中，所述通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型的步骤，包括：

将所述综合调整数据中的远期训练数据和近期训练数据分别划分到训练组、验证组、和测试组；

通过所述训练组对所述初始智能模型进行模型训练得到训练模型；

通过所述训练模型运算所述验证组得到验证结果，根据所述验证结果对所述训练模型进行调整，使所述训练模型运算所述验证组所得到的验证结果符合预置的验证目标并得到验证模型；

当所述训练组中所有综合调整数据均完成所述模型训练，将所述训练模型设为验证模型；

通过所述验证模型运算所述测试组得到测试结果，判断所述测试结果是否符合预置的测试目标；

若是，则将所述验证模型设为成熟模型；

若否，则调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述验证模型进行训练得到再验证模型，通过所述再验证模型运算所述测试组得到测试结果，并判断所述测试结果是否符合所述测试目标。

为实现上述目的，本发明还提供一种风险模型训练装置，包括：

数据提取模块，用于通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；

数据汇总模块，用于汇总所述远期历史数据和所述近期历史数据得到综合训练数据；

数据调整模块，用于调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合训练数据中远期正样本和近期正样本之和，与所述综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据；

模型训练模块，用于获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

为实现上述目的，本发明还提供一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述计算机设备的处理器执行所述计算机程序时实现上述风险模型训练方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述可读存储介质存储的所述计算机程序被处理器执行时实现上述风险模型训练方法的步骤。

本发明提供的风险模型训练方法、装置、计算机设备及可读存储介质，通过汇总远期历史数据和近期历史数据得到综合训练数据，并调整综合训练数据中远期历史数据和近期历史数据的数据量，以保证用于对模型进行训练的综合调整数据中远期历史数据和近期历史数据的数据量，及综合调整数据中正负样本比例的可控性，使经过综合调整数据训练的模型符合用户的预期。

通过成熟模型用于向风控***输出预测的定量结果,以便于风控***对用户的风险进行实时判断，避免了传统的通过人工分析的方式，导致的风险识别效率低，准确度差的问题发生；同时，因成熟模型是根据远期历史数据和近期历史数据而得的，不仅风险识别效率高，准确度高，而且避免了因专家经验及预定的风险规则的滞后性，很容易成为不法用户利用的漏洞的问题，以及因风险规则制定过于严格，导致将正常的用户被认定为风险用户的问题发生。

附图说明

图1为本发明风险模型训练方法实施例一的流程图；

图2为本发明风险模型训练方法实施例二中风险模型训练方法的环境应用示意图；

图3是本发明风险模型训练方法实施例二中风险模型训练方法的具体方法流程图；

图4为本发明风险模型训练装置实施例三的程序模块示意图；

图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的风险模型训练方法、装置、计算机设备及可读存储介质，适用于大数据的数据分析技术领域，为提供一种基于数据提取模块、数据汇总模块、数据调整模块和模型训练模块的风险模型训练方法。本发明通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；汇总所述远期历史数据和所述近期历史数据得到综合训练数据；调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合训练数据中远期正样本和近期正样本之和，与所述综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据；获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

实施例一：

请参阅图1，本实施例的一种风险模型训练方法，包括：

S101：通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据。

S102：汇总所述远期历史数据和所述近期历史数据得到综合训练数据。

S106：调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合训练数据中远期正样本和近期正样本之和，与所述综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据。

S107：获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

在示例性的实施例中，服务***中保存有历史数据，所述历史数据是历史上在服务***(如：金融***、银行***、信贷***等)中办理业务(如：办理信贷业务、办理保险业务等)的用户所上传的用户数据(如：用户属性数据，其包括但不限于：姓名、性别、年龄、身份证号、联系电话)，及所述用户在所述服务***中的行为数据(如：用户办理信贷次数及办理信贷的金额，办理保险的次数及办理保险的金额等)。所述历史数据包括所述远期历史数据和所述近期历史数据。所述远期提取规则用于从所述服务***中提取距当前时间具有较长时间跨度的历史数据，所述近期提取规则用于从所述服务***中提取距当前时间具有较短时间跨度的历史数据。

所述远期历史数据包括远期正样本和远期负样本，所述远期正样本是指所述远期历史数据中属于模型需识别的目标类别的样本，所述远期负样本是指所述远期历史数据中不属于模型需识别的目标类别的样本。

所述近期历史数据包括近期正样本和近期负样本，所述近期正样本是指所述近期历史数据中属于模型需识别的目标类别的样本，所述近期负样本是指所述近期历史数据中不属于模型需识别的目标类别的样本。

通过汇总所述远期历史数据和所述近期历史数据得到综合训练数据，其中，所述远期历史数据用于保证具有充足的训练样本对模型进行训练，所述近期历史数据用于保证获得的模型能够对近期正样本，如：近期发生的违约事件进行准确识别，以保证具有足够的训练样本对模型进行训练，并保证训练的模型能够准确的识别近期历史数据中所出现的近期正样本(如：近期发生的违约事件)。

通过调整所述综合训练数据中远期历史数据和近期历史数据的数据量，如：提取98％的远期历史数据及提取50％的近期历史数据；调整所述综合训练数据中远期正样本和所述近期正样本，与所述远期负样本和所述近期负样本之间的比例，如：使所述远期正样本和所述近期正样本之和，与所述远期负样本和所述近期负样本之和之间的比例设置在在1:25到1:30之间中任一比例值的方式，得到综合调整数据，以保证用于对模型进行训练的综合调整数据中远期历史数据和近期历史数据的数据量，及所述综合调整数据中正负样本比例的可控性，使经过所述综合调整数据训练的模型符合用户的预期。

通过获取机器学习模型和神经网络模型并结合形成初始智能模型，其中，采用LGB的goss算法作为所述机器学习模型，采用DNN/CNN/LSTM算法作为所述神经网络模型，基于早停法对所述机器学习模型和神经网络模型进行训练，并得到成熟模型。其中，通过训练不同的模型并汇总成为成熟模型，保持了不同模型预测保持差异性，实现更全面预测效果，其中，所述机器学习模型保证整体预测精确性更高，所述神经网络模型针对特殊问题泛化性能强些。如：一个用户首次交易违规没有拉黑，后期继续交易，所述机器学习模型预测违规可能性降低很多，但是所述神经网络模型下降不会很明显。

因此，本申请通过综合使用多种人工智能算法,利用样本特征进行模型训练，并在对模型进行训练的过程中对模型训练结果综合评估保证了训练获得的成熟模型的准确性。并且通过所述成熟模型向风控***输出预测的定量结果,以便于所述风控***对用户的风险进行实时判断，避免了传统的通过人工分析的方式，导致的风险识别效率低，准确度差的问题发生；同时，因成熟模型是根据远期历史数据和近期历史数据而得的，不仅风险识别效率高，准确度高，而且避免了因专家经验及预定的风险规则的滞后性，很容易成为不法用户利用的漏洞的问题，以及因风险规则制定过于严格，导致将正常的用户被认定为风险用户的问题发生。

实施例二：

本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。

下面，以在运行有风险模型训练方法的服务器中，通过获取远期历史数据和近期历史数据，并对其进行调整得到综合调整数据，再通过综合调整数据对初始智能模型进行训练得到成熟模型为例，来对本实施例提供的方法进行具体说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。

图2示意性示出了根据本申请实施例二的风险模型训练方法的环境应用示意图。

在示例性的实施例中，风险模型训练方法所在的服务器2通过网络分别连接服务***3和初始智能模型；所述服务器2可以通过一个或多个网络提供服务，网络可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络3可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络3可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物。

图3是本发明一个实施例提供的一种风险模型训练方法的具体方法流程图，该方法具体包括步骤S201至S208。

S201：通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据。

本步骤中，服务***中保存有历史数据，所述历史数据是历史上在服务***(如：金融***、银行***、信贷***等)中办理业务(如：办理信贷业务、办理保险业务等)的用户所上传的用户数据(如：用户属性数据，其包括但不限于：姓名、性别、年龄、身份证号、联系电话)，及所述用户在所述服务***中的行为数据(如：用户办理信贷次数及办理信贷的金额，办理保险的次数及办理保险的金额等)。所述历史数据包括所述远期历史数据和所述近期历史数据。

所述远期提取规则用于从所述服务***中提取距当前时间具有较长时间跨度的历史数据，所述近期提取规则用于从所述服务***中提取距当前时间具有较短时间跨度的历史数据。

于本实施例中，通过所述远期提取规则从所述服务***中，获取符合所述远期提取规则的历史数据并将其设为远期历史数据；通过所述近期提取规则从所述服务***中，获取符合所述近期提取规则的历史数据并将其设为近期历史数据。

进一步地，所述远期历史数据包括远期正样本和远期负样本，所述远期正样本是指所述远期历史数据中属于模型需识别的目标类别的样本，所述远期负样本是指所述远期历史数据中不属于模型需识别的目标类别的样本。

在一个优选的实施例中，所述通过预置的远期提取规则获取远期历史数据的步骤包括：

S11：从保存有历史数据的服务***中获取目标采样数据。

本步骤中，通过PAC-Learning模型计算远期历史数据的采样量，以在满足模型的泛化能力训练需求的前提下，最大限度的减少采样量的数量，以同时确保模型训练的准确度和效率。

具体地，调用PAC-Learning模型生成标签，并将服务***中保存的历史数据设为待采样数据；通过所述PAC-Learning模型识别所述服务***中具有所述标签的待采样数据，并将所述待采样数据设为目标采样数据。其中，所述历史数据是历史上在服务***中办理业务的用户所上传的用户数据，及所述用户在所述服务***中的行为数据；所述标签是对所述用户数据和所述行为数据进行定义的元数据。

示例性地，PAC-Learning模型包括：

X：examples或称为instances的集合，有时也代表输入空间。

Y：labels或者称为target的集合。

c:X→Y：称之为一个概念(concept)，由于是一个二分类问题，所以c可以被定义为X中label全为1的一个子集。

C:所有的概念(concept)组成concept class，是需要去learn的。

令X代表所有实例的集合，目标函数在其上定义。例如，X可表示所有人的集合，每个人描述为属性age(young或old)和height(short或long)。令C代表模型要学习的目标概念集合。C中每个目标概念c对应于X的某个子集，或一个等效的布尔函数c：X→{0,1}。例如，C中一个目标函数c为概念：“近3年出现违约”。若x是c的正例，则c(x)＝1；若x为反例，则c(x)＝0。

S12：按照预置远期数据规则从所述目标采样数据中获取远期待定数据，所述远期数据规则包括时间周期和远期时间区间。

本步骤中，所述远期时间周期可为小时、或日、或月、或年。所述远期时间区间包括对T-X月前N年的违规交易(下文均称为远期正样本)和正常交易(下文均称为远期负样本)进行采样，其中，T表示获取远期待定数据时的时间点；示例性地，假设X设定为2，N设定为3，若当前要获取远期待定数据的时间为2020年9月，那么，所述远期时间区间则表示为从2018年1月至2020年7月的时间区间。进而实现从大量历史数据中进行精准采样的技术效果。

S13：分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值，其中，所述分布特征反映了远期正样本中维度元素在所述远期待定数据中的分布情况。

如果所述远期待定数据中远期正样本集中分布在某日、某月、或某年，或某年龄、或某性别、或某省份之下时，将会导致训练获得的模型出现过拟合的情况，因此，如果远期正样本中的维度元素均匀涵盖了远期待定数据中各维度条件，则认为所述远期正样本是均匀分布在远期待定数据之中的，进而避免基于过于集中分布远期正样本的远期待定数据对模型进行训练，导致模型出现过拟合，造成该模型泛化能力低下的情况发生。

在一个优选的实施例中，所述分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值的步骤，包括：

S13-1：提取所述远期待定数据中远期正样本的维度元素，汇总各所述远期正样本的维度元素并去重得到所述远期正样本的分布特征；其中，所述维度元素是反映所述远期正样本的组成部分，其用于表征所述远期正样本的用户数据和行为数据，示例性地，远期正样本A的维度元素包括：2020年1月，28岁，男，浙江省；

远期正样本B的维度元素包括：2020年1月，26岁，男，浙江省。

远期正样本C的维度元素包括：2020年5月，28岁，男，上海市。

因此，得到的所述远期正样本的分布特征为：

{2020年1月，2020年5月，28岁，26岁，男，浙江省，上海市}

S13-2：汇总所述远期待定数据中各所述维度元素并去重得到远期维度集。

示例性地，基于上述举例，远期待定数据还包括：

远期负样本D的维度元素包括：2020年1月，28岁，女，江苏省；

远期负样本E的维度元素包括：2020年2月，26岁，男，浙江省。

远期负样本F的维度元素包括：2020年5月，28岁，男，上海市。

那么得到的远期维度集包括：

{2020年1月，2020年2月，2020年5月，28岁，26岁，男，女，浙江省，上海市，江苏省}

S13-3：计算所述分布特征中维度元素在所述远期维度集中的占比得到覆盖比率，判断所述覆盖比率是否达到所述分布密度阈值。

示例性地，假设所述分布密度阈值为70％，基于上述举例得到所述覆盖比率为70％，因此，达到了所述分布密度阈值。

S14：若是，则将所述远期待定数据设为远期历史数据。

S15：若否，则缩小所述时间周期和/或扩大所述远期时间区间的范围形成修正远期数据规则，根据所述修正远期数据规则和所述采样量从所述服务***中获取远期待定数据，再执行所述S13。

本步骤中，如果所述覆盖比率未达到所述分布密度阈值，则说明所述时间周期的跨度过大，如：远期正样本集中出现在某年的情况，因此，可将所述时间周期设为月，或日，或小时；同时，还可说明所述远期时间区间过小，如：某区域或性别的远期正样本集中在某个时间段内出现违约情况，因此，可扩大远期时间区间以更大范围的获取远期正样本，进而使远期正样本的各维度元素能够均匀分布在所述远期时间区间的维度元素之中。再通过上述方法所获得的修正远期数据规则再次从所述服务***中提取的远期待定数据，其远期正样本的分布将更加均匀，进而避免训练的模型出现过拟合的情况发生，提高了所述模型的泛化能力。

在一个优选实施例中，所述通过预置的近期提取规则获取近期历史数据的步骤，包括：

S16：根据预置近期提取规则从保存有历史数据的服务***中获取近期待定数据，所述近期数据规则定义了获取历史数据的近期时间区间。

S17：判断所述近期待定数据中是否具有近期正样本。

S18：若是，则将所述近期待定数据设为近期历史数据。

S19：若否，则扩大所述近期时间区间的范围形成修正近期数据规则，根据所述近期数据规则从所述服务***中获取近期待定数据，再执行所述S17。

示例性地，可将所述近期提取规则设为近一周连续提取三天的历史数据。

由于通常而言，近期历史数据中的近期正样本相对较少，因此，直接获得具有近期正样本的近期历史数据，有助于保证模型对近期历史数据的维度元素所分布的特征空间的识别能力。

S202：汇总所述远期历史数据和所述近期历史数据得到综合训练数据。

为保证具有足够的训练样本对模型进行训练，并保证训练的模型能够准确的识别近期历史数据中所出现的近期正样本(如：近期发生的违约事件)；本步骤通过汇总所述远期历史数据和所述近期历史数据得到综合训练数据，其中，所述远期历史数据用于保证具有充足的训练样本对模型进行训练，所述近期历史数据用于保证获得的模型能够对近期正样本，如：近期发生的违约事件进行准确识别，

在一个优选的是实施例中，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据的步骤，包括：

S21：按照预置的远期比例值调整所述远期历史数据中，远期正样本和远期负样本之间的正负样本比得到远期训练数据。

由于通常在远期历史数据中，远期负样本的数量远远达到远期正样本的数量，正负样本比甚至会低于1:30000，如果直接将远期历史数据录入模型对所述模型进行训练，不仅会导致模型的训练时间增加，还会导致模型因计算大量远期负样本导致对远期正样本的识别准确度降低。

本步骤中，获取所述远期比例值，并按照所述远期比例值调整所述远期历史数据中远期正样本和远期负样本之间的比例，如：删除所述远期历史数据中部分远期负样本以提高所述比例；或删除所述远期历史数据中部分远期正样本以降低所述比例；以最终得到远期训练数据。

于本实施例中，采用Borderline Smote-Tomek数据增强技术对所述远期历史数据进行加工，提高正负样本比，以解决样本不均衡问题，提升训练的模型的判断准确性。进一步地，在删除所述远期正样本或所述远期负样本时，优先删除内容具有空值的远期正样本或远期负样本。

S22：按照预置的近期比例值调整所述近期历史数据中，近期正样本和近期负样本之间的比例得到近期训练数据；

由于通常在近期历史数据中，近期负样本的数量远远达到近期正样本的数量，正负样本比甚至会低于1:30000，如果直接将近期历史数据录入模型对所述模型进行训练，不仅会导致模型的训练时间增加，还会导致模型因计算大量近期负样本导致对近期正样本的识别准确度降低。

本步骤中，获取所述近期比例值，并按照所述近期比例值调整所述近期历史数据中近期正样本和近期负样本之间的比例，如：删除所述近期历史数据中部分近期负样本以提高所述比例；或删除所述近期历史数据中部分近期正样本以降低所述比例；以最终得到近期训练数据。

于本实施例中，采用Borderline Smote-Tomek数据增强技术对所述近期历史数据进行加工，提高正负样本比，以解决样本不均衡问题，提升训练的模型的判断准确性。进一步地，在删除所述近期正样本或所述近期负样本时，优先删除内容具有空值的近期正样本或近期负样本。

S23：汇总所述远期训练数据和所述近期训练数据形成综合训练数据。

需要说明的是，Borderline Smote-Tomek数据增强技术包括：

Borderline SMOTE，是在SMOTE基础上改进的过采样算法，该算法仅使用边界上的少数类样本来合成新样本，从而改善样本的类别分布。所述SMOTE是一种过采样算法，其用于重复正样本数据。

TomekLink，是一种欠采样算法，其用于丢弃大量数据。

所述Borderline Smote-Tomek数据增强技术是一种综合采样算法，其通过先使用过采样算法Borderline SMOTE扩大远期正样本和近期正样本的数据量后，再使用欠采样算法对处在胶着状态的远期正样本和近期正样本进行删除，以最终获得远期训练数据和近期训练数据，以避免所述远期训练数据和所述近期训练数据出现过拟合的情况发生。

S203：对所述综合训练数据进行缺失值填充处理，用以填充所述综合训练数据中缺失的数据。

为填补综合训练数据中缺失的数据，以保证所述综合训练数据的完整性，进而提高模型训练的可靠性，本步骤通过对所述综合训练数据进行数据清洗，以填充所述综合训练数据中缺失的数据。

于本实施例中，所述综合训练数据中具有概括其中维度元素属性的元数据，例如：元数据“性别”，维度元素“女”。

采用以下任一方法对所述综合训练数据进行缺失值填充处理：

1、特殊值填充法

将所述综合训练数据中的缺失值(即：内容为空或乱码)作为一种特殊的属性值，如：空值“unknown”进行填充，所述特殊的属性值不同于所述综合训练数据中其他的维度元素。

2、均值填充法

判断所述缺失值为数值属性还是非数值属性；

若为数值属性，则计算所述综合训练数据中与所述缺失值具有同一元数据的维度元素的总和，并将所述总和与不具有所述缺失值的综合训练数据的数量相除得到平均数，将所述平均数填充所述缺失值，以作为所述缺失值对应综合训练数据的维度元素。

若为非数值属性，则提取所述综合训练数据中与所述缺失值具有同一元数据的维度元素，汇总值一致的维度元素形成元素集，并计算所述元素集中维度元素的数量，将数量最高的元素集中的维度元素(即出现频率最高的值)填充所述缺失值，以作为所述缺失值对应综合训练数据的维度元素。

3、热卡填充法

将具有所述缺失值的综合训练数据设为目标数据，识别与所述目标数据最相似的综合训练数据并将其设为相似数据，提取所述相似数据中与所述缺失值具有同一元数据的维度元素，将所述维度元素填充所述缺失值，以作为所述目标数据的维度元素。其中，相似的综合训练数据是指：与所述目标数据之间具有一致的维度元素的综合训练数据；最相似的综合训练数据是指：所述一致的维度元素的数量最高的相似的综合训练数据。

4、聚类填充法

将所述综合训练数据录入预置的K均值聚类模型(K-means clustering)中形成至少一个散点；将具有所述缺失值的综合训练数据对应的散点设为目标散点；根据欧式距离公式计算各所述散点与所述目标散点之间的欧式距离，并将欧式距离小于预置的距离阈值的散点设为相似散点；将所有所述相似散点与所述目标散点之间欧式距离之和作为分母值，将所述相似散点与所述目标散点之间的欧式距离作为分子值，将所述分子值与所述分母值相除得到所述相似散点对于所述目标散点的权重值；

判断所述缺失值为数值类型还是非数值类型；

若为数值类型，则将所述相似散点中与所述缺失值具有同一元数据的维度元素，与所述相似散点对应的权重值相乘得到相似值，将所有所述相似散点的相似值相加得到填充值，将所述填充至填充所述缺失值，用以填充所述综合训练数据中缺失的数据。

若为非数据值类型，则提取所述相似散点中与所述缺失值具有同一元数据的维度元素，并通过预置的映射表对所述维度元素进行赋值得到维度值；将所述相似散点的维度值及权重值相乘得到相似值，将所有所述相似散点的相似值相加得到填充值，从所述映射表中获取与所述填充值最接近的维度元素并将其设为填充元素，将所述填充元素填充缺失值，用以填充所述综合训练数据中缺失的数据；其中，所述映射表中记载了反映维度元素的内容与映射值之间的映射关系。

例如：维度元素“男”，映射值“1”；维度元素“女”，映射值“0”。如果得到的填充值为0.9，那么，其与映射值1更为接近，因此，将维度元素“男”作为与所述填充值最接近的维度元素。

S204：对所述综合训练数据进行数据清洗，用以对所述综合训练数据进行离散化处理。

本步骤中，通过对所述综合训练数据进行数据清洗，以对所述综合训练数据中的连续变量进行离散化处理，以将所述综合训练数据中所有维度元素变换到相似的尺度上，使得所述综合训练数据对异常数据有很强的鲁棒性，因此，获得的综合训练数据的数据量更加简化，通过所述综合训练数据对模型进行训练，会使模型会更稳定，降低了模型过拟合的风险，提升模型表达能力，加大拟合。

于本实施例中，所述综合训练数据中具有概括其中维度元素属性的元数据，例如：元数据“性别”，维度元素“女”。采用以下任一方法对所述综合训练数据进行数据清洗：

1、分箱法

构建与所述元数据关联的分箱规则，所述分箱规则用于对综合训练数据中的维度元素划分成至少一个类别，并对该类别通过标签进行标记；

识别所述综合训练数据中与所述分箱规则关联的元数据，提取所述元数据对应的维度元素，通过所述分箱规则识别所述维度元素的类别，并将所述类别所对应的标签替换所述维度元素，用于对所述综合许梿数据进行离散化处理。

示例性地，分箱规则是对于60岁前按照10年跨度对年龄进行划分，对于60岁后设定为同一类别，并对各类别通过标签进行标记，包括：1-10岁-标签A，11-20岁-标签B，21-30岁-标签C，31-40岁-标签D，41-50岁-标签E，51-60岁-标签F，60+岁-标签G；该分箱规则对应的元数据是“年龄”；如果某一综合训练数据中年龄为16岁，那么将“16岁”替换为B。

2、固定宽度截取法

构建与所述元数据关联的截取规则，所述截取规则用于对综合训练数据中的维度元素，按照预置的截取宽度进行截取并得到截取元素；

识别所述综合训练数据中与所述截取规则关联的元数据，提取所述元数据对应的维度元素，通过所述截取规则按照预置的截取宽度截取所述维度元素得到截取元素，并将所述截取元素替换所述维度元素，用于对所述综合许梿数据进行离散化处理。

示例性地，构建截取规则：mid(text,start_num,num_chars)；

其中：text表示要截取的字符串，start_num表示从第几位字符串开始截取，num_chars表示要截取的字符数，其用于简化维度元素以助于提高模型的训练效率。

S205：识别所述综合训练数据中，与所述远期正样本和所述近期正样本之间具有正相关关系的维度元素，并将所述维度元素设为关键元素，删除所述综合训练数据中除所述关键元素外的其他维度元素。

由于综合训练数据中的维度元素是十分庞大的，如果直接将所述综合训练数据录入模型并对其进行训练，会导致所述模型的训练时间较长，效率降低，因此，本步骤通过识别综合训练数据中与远期正样本和近期正样本之间具有正相关关系的维度元素，以获得所述综合训练数据中对远期正样本和近期正样本的识别具有关键影响的维度元素，进而在保证训练的模型能够准确的识别远期正样本和近期正样本的基础上，极大的降低了模型训练所需时间，提高了模型训练效率。

于本实施例中，通过Shaply评估模型(如：博弈论，通过边际贡献评估)对所述综合训练数据中各维度元素进行评估，以识别出与所述远期正样本和所述近期正样本之间具有正相关关系的维度元素，并将所述维度元素设为关键元素。

需要说明的是，Shaply评估模型是基于博弈论，用于识别n个维度元素之中，促进所述综合训练数据成为远期正样本或近期正样本的维度元素是哪些；具体地，构建保存有所有综合训练数据中所有维度元素的集合-全集N＝{x1,x2,…,xn}，构建由任意n个维度元素所形成的的子集v(S)表示S子集中所包括的元素共同合作使综合训练数据成为远期正样本或近期正样本的贡献度，即：最终分配的价值(Shapley Value)ψi(N,v)，也就是求累加贡献(marginal contribution)的均值。例如，维度元素A单独出现导致综合训练数据成为远期正样本或近期正样本的贡献值v({A})，后加入B之后共同产生贡献值v({A,B})，那么B的累加贡献值为v({A,B})-v({A})。对于所有能够形成全集N的序列，求其中关于元素xi的累加贡献，然后取均值即可得到xi的Shapley Value值。因此，通过将超过预置的贡献阈值的Shapley Value值所对应的维度元素设为关键元素。

进一步地，所述删除所述综合训练数据中除所述关键元素外的其他维度元素之后，还包括：

将所述综合训练数据上传至区块链中。

需要说明的是，基于综合训练数据得到对应的摘要信息，具体来说，摘要信息由综合训练数据进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证综合训练数据是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S206：调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述远期正样本和所述近期正样本之和，与所述远期负样本和所述近期负样本之和之间的正负比例，得到综合调整数据。

为保证用于对模型进行训练的综合调整数据中远期历史数据和近期历史数据的数据量，及所述综合调整数据中正负样本比例的可控性，使经过所述综合调整数据训练的模型符合用户的预期。本步骤通过调整所述综合训练数据中远期历史数据和近期历史数据的数据量，如：提取98％的远期历史数据及提取50％的近期历史数据；调整所述综合训练数据中远期正样本和所述近期正样本，与所述远期负样本和所述近期负样本之间的比例，如：使所述远期正样本和所述近期正样本之和，与所述远期负样本和所述近期负样本之和之间的比例设置在在1:25到1:30之间中任一比例值的方式，得到综合调整数据。

进一步地，删除所述综合调整数据中除所述关键元素外的其他维度元素，以进一步的降低所述综合调整数据的数据量，进而提高模型的训练速度。

S207：获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

本步骤中，获取机器学习模型和神经网络模型并结合形成初始智能模型，，其中，采用LGB的goss算法作为所述机器学习模型，采用DNN/CNN/LSTM算法作为所述神经网络模型，基于早停法对所述机器学习模型和神经网络模型进行训练，并得到成熟模型。

需要说明的是，LGB的goss算法在特征分类处理方面，相比于传统XGBoost、随机森林等模型，更加方便，且训练速度更快，泛化能力更强。而采用DNN/CNN/LSTM算法，则适用于分类的特征较多的情况下使用，进而有助于提升所述成熟模型的分类准确度。

同时，通过训练不同的模型并汇总成为成熟模型，保持了不同模型预测保持差异性，实现更全面预测效果，其中，所述机器学习模型保证整体预测精确性更高，所述神经网络模型针对特殊问题泛化性能强些。如：一个用户首次交易违规没有拉黑，后期继续交易，所述机器学习模型预测违规可能性降低很多，但是所述神经网络模型下降不会很明显。

进一步地，当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能(generalization performance，即可以很好地拟合数据)。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。因此，本步骤采用早停法，以在训练初始智能模型得到训练模型的过程中，同时计算所述训练模型在验证集上的表现，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题。

因此，本步骤通过综合使用多种人工智能算法,利用样本特征进行模型训练，并在对模型进行训练的过程中对模型训练结果综合评估保证了训练获得的成熟模型的准确性。并且通过所述成熟模型向风控***输出预测的定量结果,以便于所述风控***对用户的风险进行实时判断，避免了传统的通过人工分析的方式，导致的风险识别效率低，准确度差的问题发生；同时，因成熟模型是根据远期历史数据和近期历史数据而得的，不仅风险识别效率高，准确度高，而且避免了因专家经验及预定的风险规则的滞后性，很容易成为不法用户利用的漏洞的问题，以及因风险规则制定过于严格，导致将正常的用户被认定为风险用户的问题发生。

具体地，采用第一正则作为所述机器学习模型的原始损失函数的额外信息，并通过所述综合调整数据对所述机器学习模型进行训练，得到机器学习成熟模型；其中，将所述第一正则作为所述原始损失函数的额外信息是指，将所述机器学习模型的目标函数设置为，由所述机器学习模型的原始损失函数和所述第一正则结合的函数。

采用第二正则作为所述神经网络模型的原始损失函数的额外信息，并通过所述综合调整数据对所述神经网络模型进行训练，得到神经网络成熟模型；其中，将第二正则作为所述原始损失函数的额外信息是指，将所述神经网络模型的目标函数设置为，由所述神经网络的原始损失函数和所述第二正则结合的函数。

因此，通过所述第一正则和所述第二正则对所述初始智能模型进行训练，以提高得到的成熟模型的泛化能力。

于本实施例中，所述第一正则为L1范数正则化、L2范数正则化和参数gamma的集合，其中：

L1范数正则化，其用于在原始损失函数之后加上L1范数，使所述机器学习模型得到稀疏解；

L2范数正则化，其用于在原始损失函数之后加上L2范数的平方，使所述机器学***滑，以降低机器学习模型的复杂度。

参数gamma，其用于在所述机器学习模型的训练过程中，对低维的样本进行高维映射，gamma值越大映射的维度越高，训练的结果越好。

所述第二正则为所述dropout正则化、BN、LN中任意一种或任意两种的组合、或三种集合，其中：

Dropout正则化，其通过忽略神经网络模型中一半的特征检测器(让一半的隐层节点值为0)，以明显地减少过拟合现象，提高泛化能力。

BN是指Bactch Normalization，其用于克服神经网络加深导致难以训练的问题发生。

LN是指Layer Normalization，其无需批量训练，在单条数据内部就能归一化，即在每个样本内部做标准化，跟size没关系，不受其影响。

在一个优选的实施例中，所述通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型的步骤，包括：

S71：将所述综合调整数据中的远期训练数据和近期训练数据分别划分到训练组、验证组、和测试组；

示例性地，按照64:16:20的比例对所述综合调整数据进行划分，得到训练集、验证集、测试集。

S72：通过所述训练组对所述初始智能模型进行模型训练得到训练模型；

S73：通过所述训练模型运算所述验证组得到验证结果，根据所述验证结果对所述训练模型进行调整，使所述训练模型运算所述验证组所得到的验证结果符合预置的验证目标并得到验证模型。

本步骤在通过所述训练组对所述初始智能模型进行训练的过程中，按照预置的验证周期获取所述过程中的训练模型运算所述验证组并得到验证结果，以对初始智能模型的训练过程中所生成的训练模型进行验证，一旦该过程中出现不符合验证目标的验证结果，则及时停止对所述训练模型的训练，并调节所述训练模型的分类阈值，再通过所述训练模型对所述验证组进行分类得到验证结果，使所述验证结果符合验证目标，保证了模型训练可靠性。

具体地，所述验证目标包括：验证召回阈值、验证准确阈值和验证AUC阈值。

所述S73包括以下步骤：

S73-1：通过所述训练模型对所述验证组进行分类得到验证正样本和验证负样本；

S73-2：根据所述验证正样本、远期正样本和近期正样本得到验证召回率，根据所述验证正样本和验证负样本及所述远期正样本、所述远期负样本、所述近期正样本和所述近期负样本得到验证准确率。

本步骤中，所述验证召回率是指，在验证正样本中所述远期正样本和近期正样本所占的比率；

所述验证准确率是指，在验证正样本中远期正样本和所述近期正样本，占所有远期正样本和近期正样本的比率。

S73-3：判断所述验证召回率是否达到所述验证召回阈值，且所述验证准确率是否达到所述验证准确阈值；

示例性地，可将验证召回阈值和所述验证准确阈值分别设为99.5％

S73-4：若是，则根据所述验证召回率和所述验证准确率计算验证AUC值，并判断所述验证AUC值是否达到所述验证AUC阈值；

本步骤中，所述AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积，是一种机器学习的模型评估指标，其取值范围在0.5和1之间，其中AUC值越接近1.0，检测方法真实性越高，AUC值越接近0.5时，则真实性越低，无应用价值。于本实施例中，，将所述AUC阈值设为0.99。

S73-5：若否，则停止所述模型训练并调整所述训练模型的分类阈值，再通过所述训练模型对所述验证组进行分类得到验证正样本和验证负样本，再执行所述S73-2。

S73-6：若所述验证AUC值达到所述验证AUC阈值，则继续所述模型训练。

S73-7：若所述验证AUC值未达到所述验证AUC阈值，则停止所述模型训练并调整所述训练模型的分类阈值，再通过所述训练模型对所述验证组进行分类得到验证正样本和验证负样本，再执行所述S73-2。

S74：当所述训练组中所有综合调整数据均完成所述模型训练，将所述训练模型设为验证模型。

S75：通过所述验证模型运算所述测试组得到测试结果，判断所述测试结果是否符合预置的测试目标。

具体地，所述测试目标包括：测试召回阈值、测试准确阈值和测试AUC阈值。

所述S75包括以下步骤：

S75-1：通过所述训练模型对所述测试组进行分类得到测试正样本和测试负样本。

S75-2：根据所述测试正样本、远期正样本和近期正样本得到测试召回率，根据所述测试正样本和测试负样本及所述远期正样本、所述远期负样本、所述近期正样本和所述近期负样本得到测试准确率。

本步骤中，所述测试召回率是指，在测试正样本中所述远期正样本和近期正样本所占的比率；

所述测试准确率是指，在测试正样本中远期正样本和所述近期正样本，占所有远期正样本和近期正样本的比率。

S75-3：判断所述测试召回率是否达到所述测试召回阈值，且所述测试准确率是否达到所述测试准确阈值；以及根据所述测试召回率和所述测试准确率计算测试AUC值，并判断所述测试AUC值是否达到所述测试AUC阈值。

示例性地，可将测试召回阈值和所述测试准确阈值分别设为99.5％

S76：若是，则将所述验证模型设为成熟模型。

本步骤中，若所述测试召回率达到所述测试召回阈值，且所述测试准确率达到所述测试准确阈值，同时所述测试AUC值未达到所述测试AUC阈值，则将所述验证模型设为成熟模型。

S77：若否，则调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述验证模型进行训练得到再验证模型，再执行所述S75,用以通过所述再验证模型运算所述测试组得到测试结果，并判断所述测试结果是否符合所述测试目标。

本步骤中，根据预置的自定义函数再次调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及再次调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述验证模型进行训练得到再验证模型。

所述自定义函数反映了测试召回率和测试准确率，与所述综合调整数据中远期历史数据和近期历史数据的数据量，及所述综合调整数据的正负比例之间的函数关系。因此，根据所述自定义函数对所述综合调整数据进行调整，实现有针对性的调整模型的训练样本的技术效果，进而提高了模型的训练效率。将所述测试召回率和所述测试准确率代入所述自定义函数中，以运算获得所述综合训练数据中远期历史数据和近期历史数据的数据量并将其设为调整量，以及获得所述综合训练数据的正负比例并将其设为调整比例。

于本实施例中，所述自定义函数包含有F-Measure函数、调整量和调整比例。

其中，F-Measure函数如下所示：

其中，F是模型评价值，a是参数，P是准确率，R是召回率。

自定义函数如下所示：

P＝F*b*M

Q＝F*c*N

其中，b和c是参数，M是所述综合调整数据中远期历史数据和近期历史数据的数据量，P是调整量；N是所述综合调整数据的正负比例，Q是调整比例。

S208：获取优化历史数据，通过成熟模型运算所述优化历史数据得到优化结果；判断所述优化结果是否符合预置的优化目标；

若是，则将所述成熟模型设为优化模型；

若否，则根据预置的自定义函数调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及再次调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述成熟模型进行训练得到待优化模型；通过所述待优化模型运算所述优化历史数据得到再优化结果，并判断所述再优化结果是否符合所述优化目标。

本步骤中，通过预置的优化提取规则提取所述服务***中的历史数据，以得到所述优化历史数据，其中，所述优化提取规则可为：获取所述服务***中近两个月内所有的正样本及预置优化数量的负样本，所述优化数量可根据需要设置。

因此，通过优化历史数据对成熟模型进行优化，使获得的优化模型能够更加精准的识别当下的风险用户，进而保证了优化模型的适应性和风险识别准确度。

所述优化结果包括：所述优化召回率和优化准确率；

所述优化召回率是指，在优化正样本中所述远期正样本和近期正样本所占的比率；

所述优化准确率是指，在优化正样本中远期正样本和所述近期正样本，占所有远期正样本和近期正样本的比率。

所述自定义函数反映了优化召回率和优化准确率，与所述综合调整数据中远期历史数据和近期历史数据的数据量，及所述综合调整数据的正负比例之间的函数关系。因此，根据所述自定义函数对所述综合调整数据进行调整，实现有针对性的调整模型的训练样本的技术效果，进而提高了模型的训练效率。通过将所述优化召回率和所述优化准确率代入所述自定义函数中，以运算获得所述综合训练数据中远期历史数据和近期历史数据的数据量并将其设为调整量，以及获得所述综合训练数据的正负比例并将其设为调整比例。

于所述图3中，所述S208通过以下步骤展示：

S81：获取优化历史数据，通过成熟模型运算所述优化历史数据得到优化结果；

S82：判断所述优化结果是否符合预置的优化目标；

S83：若是，则将所述成熟模型设为优化模型；

S84：若否，则根据预置的自定义函数调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及再次调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述成熟模型进行训练得到待优化模型；通过所述待优化模型运算所述优化历史数据得到再优化结果，并判断所述再优化结果是否符合所述优化目标。

实施例三：

请参阅图4，本实施例的一种风险模型训练装置1，包括：

数据提取模块11，用于通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；

数据汇总模块12，用于汇总所述远期历史数据和所述近期历史数据得到综合训练数据；

数据调整模块16，用于调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合训练数据中远期正样本和近期正样本之和，与所述综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据；

模型训练模块17，用于获取初始智能模型，通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型。

可选的，所述风险模型训练装置1还包括：

数据填充模块13，用于对所述综合训练数据进行缺失值填充处理，用以填充所述综合训练数据中缺失的数据。

可选的，所述风险模型训练装置1还包括：

数据清洗模块14，用于对所述综合训练数据进行数据清洗，用以对所述综合训练数据进行离散化处理。

可选的，所述风险模型训练装置1还包括：

数据识别模块15，用于识别所述综合训练数据中，与所述远期正样本和所述近期正样本之间具有正相关关系的维度元素，并将所述维度元素设为关键元素，删除所述综合训练数据中除所述关键元素外的其他维度元素。

可选的，所述风险模型训练装置1还包括：

数据优化模块18，用于获取优化历史数据，通过成熟模型运算所述优化历史数据得到优化结果；判断所述优化结果是否符合预置的优化目标；若是，则将所述成熟模型设为优化模型；若否，则根据预置的自定义函数调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及再次调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述成熟模型进行训练得到待优化模型；通过所述待优化模型运算所述优化历史数据得到再优化结果，并判断所述再优化结果是否符合所述优化目标。

可选的，所述数据提取模块11，还包括：

采样提取单元111，用于从保存有历史数据的服务***中获取目标采样数据；

远期提取单元112，用于按照预置远期数据规则从所述目标采样数据中获取远期待定数据，所述远期数据规则包括时间周期和远期时间区间；

远期密度单元113，用于分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值，其中，所述分布特征反映了远期正样本中维度元素在所述远期待定数据中的分布情况；

远期确定单元114，用于将所述远期待定数据设为远期历史数据。

远期重采样单元115，用于缩小所述时间周期和/或扩大所述远期时间区间的范围形成修正远期数据规则，根据所述修正远期数据规则和所述采样量从所述服务***中获取远期待定数据。

可选的，所述数据提取模块11，还包括：

近期提取单元116，用于根据预置近期提取规则从保存有历史数据的服务***中获取近期待定数据，所述近期数据规则定义了获取历史数据的近期时间区间；

近期判断单元117，用于判断所述近期待定数据中是否具有近期正样本；

近期确定单元118，用于将所述近期待定数据设为近期历史数据；

近期重采样单元119，用于扩大所述近期时间区间的范围形成修正近期数据规则，根据所述近期数据规则从所述服务***中获取近期待定数据。

可选的，所述数据汇总模块12还包括：

远期调整单元121，用于按照预置的远期比例值调整所述远期历史数据中，远期正样本和远期负样本之间的正负样本比得到远期训练数据；

近期调整单元122，用于按照预置的近期比例值调整所述近期历史数据中，近期正样本和近期负样本之间的比例得到近期训练数据；

数据汇总单元123，用于汇总所述远期训练数据和所述近期训练数据形成综合训练数据。

可选的，所述模型训练模块17，还包括：

数据划分单元171，用于将所述综合调整数据中的远期训练数据和近期训练数据分别划分到训练组、验证组、和测试组；

智能训练单元172，用于通过所述训练组对所述初始智能模型进行模型训练得到训练模型；

智能验证单元173，用于通过所述训练模型运算所述验证组得到验证结果，根据所述验证结果对所述训练模型进行调整，使所述训练模型运算所述验证组所得到的验证结果符合预置的验证目标并得到验证模型；

验证通过单元174，用于在所述训练组中所有综合调整数据均完成所述模型训练，将所述训练模型设为验证模型；

智能测试单元175，用于通过所述验证模型运算所述测试组得到测试结果，判断所述测试结果是否符合预置的测试目标；

模型确定单元176，用于将所述验证模型设为成熟模型；

模型再训练单元177，用于调整所述综合训练数据中远期历史数据和近期历史数据的数据量，及调整所述综合调整数据的正负比例得到再调整数据，并通过所述再调整数据对所述验证模型进行训练得到再验证模型。

本技术方案应用于计算机安全的业务安全领域，通过远期提取规则获取远期历史数据，及通过近期提取规则获取近期历史数据；汇总远期历史数据和近期历史数据得到综合训练数据；调整综合训练数据中远期历史数据和近期历史数据的数据量，及调整综合训练数据中远期正样本和近期正样本之和，与综合训练数据中远期负样本和近期负样本之和之间的正负比例，得到综合调整数据；获取初始智能模型，通过综合调整数据对初始智能模型进行训练得到成熟模型，以作为风控***的风险评估模型，进而实现风控***在业务安全上的安全防护。

实施例四：

为实现上述目的，本发明还提供一种计算机设备5，实施例三的风险模型训练装置的组成部分可分散于不同的计算机设备中，计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过***总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例三的风险模型训练装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行风险模型训练装置，以实现实施例一和实施例二的风险模型训练方法。

实施例五：

为实现上述目的，本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储风险模型训练装置，被处理器52执行时实现实施例一和实施例二的风险模型训练方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种风险模型训练方法，其特征在于，包括：

通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；其中，所述通过预置的远期提取规则获取远期历史数据的步骤，包括：从保存有历史数据的服务***中获取目标采样数据；按照预置远期数据规则从所述目标采样数据中获取远期待定数据，所述远期数据规则包括时间周期和远期时间区间；分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值，其中，所述分布特征反映了远期正样本中维度元素在所述远期待定数据中的分布情况；所述分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值的步骤，包括：提取所述远期待定数据中远期正样本的维度元素，汇总各所述远期正样本的维度元素并去重得到所述远期正样本的分布特征；其中，所述维度元素是所述远期正样本的组成部分，其用于表征所述远期正样本的用户数据和行为数据；汇总所述远期待定数据中各所述维度元素并去重得到远期维度集；计算所述分布特征中维度元素在所述远期维度集中的占比得到覆盖比率，判断所述覆盖比率是否达到所述分布密度阈值；若是，则将所述远期待定数据设为远期历史数据；若否，则缩小所述时间周期和/或扩大所述远期时间区间的范围形成修正远期数据规则，根据所述修正远期数据规则和采样量从所述服务***中获取远期待定数据；

2.根据权利要求1所述的风险模型训练方法，其特征在于，所述通过预置的近期提取规则获取近期历史数据的步骤，包括：

判断所述近期待定数据中是否具有近期正样本；

若是，则将所述近期待定数据设为近期历史数据；

3.根据权利要求1所述的风险模型训练方法，其特征在于，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据的步骤，包括：

4.根据权利要求1所述的风险模型训练方法，其特征在于，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据之后，所述方法还包括：

5.根据权利要求1所述的风险模型训练方法，其特征在于，所述汇总所述远期历史数据和所述近期历史数据得到综合训练数据之后，所述方法还包括：

将所述综合训练数据上传至区块链中。

6.根据权利要求1所述的风险模型训练方法，其特征在于，所述通过所述综合调整数据对所述初始智能模型进行训练得到成熟模型的步骤，包括：

若是，则将所述验证模型设为成熟模型；

7.一种风险模型训练装置，其特征在于，包括：

数据提取模块，用于通过预置的远期提取规则获取远期历史数据，及通过预置的近期提取规则获取近期历史数据；其中，所述通过预置的远期提取规则获取远期历史数据的步骤，包括：从保存有历史数据的服务***中获取目标采样数据；按照预置远期数据规则从所述目标采样数据中获取远期待定数据，所述远期数据规则包括时间周期和远期时间区间；分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值，其中，所述分布特征反映了远期正样本中维度元素在所述远期待定数据中的分布情况；所述分析所述远期待定数据中远期正样本的分布特征，判断所述分布特征是否达到预置的分布密度阈值的步骤，包括：提取所述远期待定数据中远期正样本的维度元素，汇总各所述远期正样本的维度元素并去重得到所述远期正样本的分布特征；其中，所述维度元素是所述远期正样本的组成部分，其用于表征所述远期正样本的用户数据和行为数据；汇总所述远期待定数据中各所述维度元素并去重得到远期维度集；计算所述分布特征中维度元素在所述远期维度集中的占比得到覆盖比率，判断所述覆盖比率是否达到所述分布密度阈值；若是，则将所述远期待定数据设为远期历史数据；若否，则缩小所述时间周期和/或扩大所述远期时间区间的范围形成修正远期数据规则，根据所述修正远期数据规则和采样量从所述服务***中获取远期待定数据；

8.一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机设备的处理器执行所述计算机程序时实现权利要求1至6任一项所述风险模型训练方法的步骤。

9.一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，其特征在于，所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至6任一项所述风险模型训练方法的步骤。