WO2021196843A1

WO2021196843A1 - 用于风险识别模型的衍生变量选择方法和装置

Info

Publication number: WO2021196843A1
Application number: PCT/CN2021/073963
Authority: WO
Inventors: 付大鹏; 赵闻飙
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2020-03-31
Filing date: 2021-01-27
Publication date: 2021-10-07
Also published as: CN111461892B; CN111461892A

Abstract

一种用于风险识别模型的衍生变量选择方法、装置及电子设备、存储介质，涉及风险识别领域。通过根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池（S11），且更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；然后根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合（S13），输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征（S17）。

Description

用于风险识别模型的衍生变量选择方法和装置

技术领域

本说明书实施例涉及风险识别技术领域，尤其涉及一种用于风险识别模型的衍生变量选择方法和装置。

背景技术

对风险特征进行识别，是当前很多理财应用程序、电子支付应用程序等对风险敏感度比较高的场景必备的对用户的利益进行保护的功能。基于上述的场景，用户的交易和账户风控有着极强的对抗性，对应着盗用、欺诈、套现、作弊、洗钱等多种多样的风险类型，黑产团伙、“羊毛党”等群体和个人，会有针对现有风控体系，绕过各种风险识别以盗用钱财或违规交易。究其原因，对风险识别模型进行训练的样本数据库的作为训练样本的风险特征的数量及多样性存在不足。

增加风险特征的数量及多样性的方式为：利用穷举方法进行对风险特征进行暴力衍生，然后基于预设的筛选条件(特征重要度大于预设的阈值)进行特征筛选，需要消耗大量的计算资源及时间成本，并且得到的风险特征集合的质量偏低。

发明内容

本说明书实施例的目的是提供一种用于风险识别模型的衍生变量选择方法和装置，以提高风险特征集合的选择效率和质量。

第一方面，本说明书实施例提供了一种用于风险识别模型的衍生变量选择方法，包括：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

第二方面，本说明书实施例还提供了一种用于风险识别模型的衍生变量选择装置，包括：种子池确定模块，根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；衍生变量确定模块，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；信息输出模块，如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，衍生变量确定模块，具体根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

第三方面，本说明书实施例还提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行存储器中的计算机程序，以实现：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

第四方面，本说明书实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，且更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；然后根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。最终实现直接通过模型即可生成风险识别模型的样本特征，节省了大量的计算资源及时间成本，再者，通过对种子池的不断优化及对确定衍生变量质量最优的变异方向地不断优化，最终得到的风险特征集合的质量高。

附图说明

此处所说明的附图用来提供对本说明书实施例的进一步理解，构成本说明书实施例的一部分，本说明书实施例的示意性实施例及其说明用于解释本说明书实施例，并不构成对本说明书实施例的不当限定。在附图中：

图1为本说明书的一种实施例提供的用于风险识别模型的衍生变量选择方法的流程图；

图2为本说明书的一种实施例提供的业务终端与电子设备的交互示意图；

图3为本说明书的一种实施例提供的用于风险识别模型的衍生变量选择方法的流程图

图4为本说明书的一种实施例提供的用于风险识别模型的衍生变量选择方法的流程图；

图5为本说明书的一种实施例提供的用于风险识别模型的衍生变量选择装置的功能模块框图；

图6为本说明书的一种实施例提供的用于风险识别模型的衍生变量选择装置的功能模块框图；

图7为本说明书的一种实施例提供的电子设备的电路连接框图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例具体实施例及相应的附图对本说明书实施例技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书实施例一部分实施例，而不是全部的实施例。基于本说明书实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书实施例保护的范围。

以下结合附图，详细说明本说明书实施例各实施例提供的技术方案。

请参阅图1，本说明书实施例提供了一种用于风险识别模型的衍生变量选择方法，应用于电子设备100，电子设备100可以为但不限于是服务器。如图2所示，电子设备100与业务终端200通信连接，以便进行数据交互。其中，业务终端200安装有与理财、电子支付等相关的对风险敏感度的应用程序。当用户在业务终端200进行交易时，可以将产生交易的具体操作内容发送至电子设备100，并加入种子池。所述方法包括S11～S17。

S11：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池。

其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合。应理解，N为正整数。例如，总共生成了10000个衍生变量，选择N＝前1000的衍生变量的父本集合构建更新后的种子池；再例如，总共生成了10000个衍生变量，质量的满分为100，选择质量分大于70分的N个衍生变量的父本集合构建更新后的种子池。另外，目标业务可以为支付业务、转账业务等对风险敏感度高的业务。

可选地，目标遗传算法模型更新后的种子池的累积变量的数量等于目标遗传算法模型更新前的种子池的累积变量的数量。例如，更新前的种子池有1000个累积变量，更新后的种子池还是有1000个累积变量。

或者，可选地，目标遗传算法模型更新后的种子池的累积变量的数量小于目标遗传算法模型更新前的种子池的累积变量的数量。例如，更新前的种子池有1000个累积变量，更新后的种子池可以是500个累积变量，或者是200个累积变量，或者是其它小于1000的整数值。

具体地，根据目标遗传算法模型及其种子池生成的衍生变量过程可以包括：以目标业务的累积变量集合作为目标遗传算法模型的初始种子池，以预设衍生策略为目标遗传算法模型的交叉操作，以衍生变量为目标遗传算法模型的子本，以衍生变量的质量为目标遗传算法模型中子本的适应度，以从生成的衍生变量集合中选择质量大于预设阈值的衍生变量的父本累积变量构建更新的种子池作为变异操作；以根据更新的种子池生成新的衍生变量集合作为目标遗传算法模型的迭代操作，以相邻的两次迭代操作得到的衍生变量集合的质量差值小于预设的阈值作为目标遗传算法模型的收敛条件。

通过不断迭代更新种子池，可以不断提高种子池的整体质量，例如，初始的种子池中质量分大于预设的阈值的种子的数量占比为20％，下一次质量分大于预设的阈值的种子的数量占比为40％，再下次，质量分大于预设的阈值的种子的数量占比为55％，如此，逐步提高种子池的质量。

其中，累积变量的构成方式可以为但不限于包括：主体+客体+函数+时间窗+条件五个维度。比如，累积变量：用户T天内做X操作的次数，主体是用户ID，客体是操作事件ID，函数是count，时间窗是T天，条件是操作类型＝X。具体地，目标业务的累积变量可以为用户在设定时间内执行目标业务的操作次数，例如，用户在3天内执行转账业务的次数，用户在1个月内执行转账业务的次数。可以理解地，累积变量对风险识别具有良好识别效果和业务解释性。

衍生变量基于至少两个累积变量衍生生成，例如，将内容相差一个维度(如时间维度)的两个累积变量进行算法操作(如，用户在1个月内执行转账业务的次数，除以用户在3天内执行转账业务的次数)，生成一个衍生变量。可以理解地，衍生变量也对风险识别具有良好识别效果和业务解释性。当然地，上述的算法不仅仅可以为相除、也可以为相乘、相加、相减等操作，具体根据实际的需求而定。

S13：根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合。

其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本(即将更新后的种子池划分为第一父本累积变量集合和第二父本累积变量集合，假设衍生策略为相除，则将第一父本累积变量集合中的每个累积变量当做分母，将第二父本累积变量集合中的每个累积变量当做分子)。具体地，如图3所示，在S13包括：

S31：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合。

其中，M为正整数。

S33：在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

例如，第一父本累积变量集合包括A1到A10的10个累积变量，第二父本累积变量集合中包括B1-B10的10个累积变量，则遍历A1到A10，针对当前遍历到的第一父本，通过衍生变量父本匹配模型匹配B1-B10中的其中一个第二父本，直到所有的第一父本与第二父本匹配完毕。

S15：判断目标衍生变量集合是否满足衍生变量的质量收敛条件，如果是，则执行S17，可选地，如果否，则返回执行S11。

S17：输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。

当目标衍生变量集合满足衍生变量的质量收敛条件时，说明衍生变量父本匹配模型已经具有稳定的输出，因此，不再迭代训练。

该用于风险识别模型的衍生变量选择方法，通过根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，且更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；然后根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。最终实现直接通过模型即可生成风险识别模型的样本特征，节省了大量的计算资源及时间成本，再者，通过对种子池的不断优化及对确定衍生变量质量最优的变异方向地不断优化，最终得到的风险特征集合的质量高。

可选地，衍生变量父本匹配模型为强化学习模型，如图4所示，S12具体包括：

S41：以第一父本累积变量集合中的第一父本作为强化学习模型的状态，以第一父本匹配的第二父本的选择的概率分布作为强化学习模型的最优策略，以第二父本的选择作为强化学习模型的动作，以由第一父本和第二父本确定的衍生变量的质量作为强化学习模型的反馈收益，对强化学习模型进行训练，以得到第二累积变量集合中的各第一父本对应的第二父本。

S43：基于第一累积变量集合中的各第一父本及对应的第二父本，确定候选衍生变量集合。

可选地，S13具体可以为判断基于更新后的种子池得到的目标衍生变量集合相对于基于更新前种子池得到的目标衍生变量集合，是否满足衍生变量的质量收敛条件，则输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。

例如，判断更新后的种子池得到的目标衍生变量集合的质量相对于基于更新前种子池得到的目标衍生变量集合的质量，是否在预设的阈值范围内。

可选地，目标遗传算法模型以从目标业务的累积变量集合中随机选择的累积变量集合为初始种子池。

可选地，更新后的种子池不包括更新前种子池中父本集合以外的累积变量。

具体地，更新后的种子池可以包括生成的N个质量最优的衍生变量的父本集合以及从目标业务的累积变量集合中随机选择的累积变量。其中，生成的N个质量最优的衍生变量的父本集合的占比大于等于从目标业务的累积变量集合中随机选择的累积变量。

请参阅图5，本说明书实施例还提供了一种用于风险识别模型的衍生变量选择装置500，应用于电子设备100，电子设备100可以为但不限于是服务器。如图2所示，电子设备100与业务终端200通信连接，以便进行数据交互。其中，业务终端200安装有与理财、电子支付等相关的对风险敏感度的应用程序。当用户在业务终端200进行交易时，可以将产生交易的具体操作内容发送至电子设备100，并加入种子池。需要说明的是，本说明书实施例所提供的用于风险识别模型的衍生变量选择装置500，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本说明书实施例部分未提及之处，可参考上述的实施例中相应内容。所述装置500包括种子池确定模块501、衍生变量确定模块502、信息输出模块503，其中，

种子池确定模块501，根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，衍生变量的质量用于评估衍生变量作为目标业务的风险识别模型的样本特征的贡献，更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合。

可选地，目标遗传算法模型以从目标业务的累积变量集合中随机选择的累积变量集合为初始种子池。另外，更新后的种子池不包括更新前种子池中父本集合以外的累积变量。

衍生变量确定模块502，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本。

可选地，第一父本、第二父本均包括多个维度，第一父本与第二父本之间有一个维度的维度值不同。

信息输出模块503，如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。其中，

衍生变量确定模块502，具体根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

该用于风险识别模型的衍生变量选择装置500在执行时可以实现如下功能：通过根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，且更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；然后根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，第一父本累积变量集合和第二父本累积变量集合是基于目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。最终实现直接通过模型即可生成风险识别模型的样本特征，节省了大量的计算资源及时间成本，再者，通过对种子池的不断优化及对确定衍生变量质量最优的变异方向地不断优化，最终得到的风险特征集合的质量高。

可选地，衍生变量父本匹配模型为强化学习模型，衍生变量确定模块，以第一父本累积变量集合中的第一父本作为强化学习模型的状态，以第一父本匹配的第二父本的选择的概率分布作为强化学习模型的最优策略，以第二父本的选择作为强化学习模型的动作，以由第一父本和第二父本确定的衍生变量的质量作为强化学习模型的反馈收益，对强化学习模型进行训练，以得到第三累积变量集合中的各第一父本对应的第二父本；基于第一累积变量集合中的各第一父本及对应的第二父本，确定候选衍生变量集合。

可选地，信息输出模块503，如果基于更新后的种子池得到的目标衍生变量集合相对于基于更新前种子池得到的目标衍生变量集合满足衍生变量的质量收敛条件，则输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。

可选地，如图6所示，所述装置500还包括：进程返回模块504，如果目标衍生变量集合不满足收敛条件，则返回根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池的步骤。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21和步骤22的执行主体可以为设备1，步骤23的执行主体可以为设备2；又比如，步骤21的执行主体可以为设备1，步骤22和步骤23的执行主体可以为设备2；等等。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

图7是本说明书实施例的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成用于风险识别模型的衍生变量选择装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

上述如本说明书实施例图1所示实施例揭示的用于风险识别模型的衍生变量选择装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现用于风险识别模型的衍生变量选择装置在图1所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。

总之，以上所述仅为本说明书实施例的较佳实施例而已，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

一种用于风险识别模型的衍生变量选择方法，包括：

根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；

如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：

根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；

在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。
根据权利要求1所述的方法，所述衍生变量父本匹配模型为强化学习模型，所述根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合，包括：

以第一父本累积变量集合中的第一父本作为所述强化学习模型的状态，以第一父本匹配的第二父本的选择的概率分布作为所述强化学习模型的最优策略，以第二父本的选择作为所述强化学习模型的动作，以由第一父本和第二父本确定的衍生变量的质量作为所述强化学习模型的反馈收益，对所述强化学习模型进行训练，以得到第三累积变量集合中的各第一父本对应的第二父本；

基于第一累积变量集合中的各第一父本及对应的第二父本，确定所述候选衍生变量集合。
根据权利要求1或2所述的方法，所述如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征，包括：

如果基于更新后的种子池得到的目标衍生变量集合相对于基于更新前种子池得到的目标衍生变量集合满足衍生变量的质量收敛条件，则输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征。
根据权利要求1或2所述的方法，所述目标遗传算法模型以从目标业务的累积变量集合中随机选择的累积变量集合为初始种子池。
根据权利要求1或2所述的方法，所述更新后的种子池不包括更新前种子池中所述父本集合以外的累积变量。
根据权利要求1或2所述的方法，所述第一父本、所述第二父本均包括多个维度，所述第一父本与所述第二父本之间有一个维度的维度值不同。
根据权利要求1或2所述的方法，如果目标衍生变量集合不满足收敛条件，则返回根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池的步骤。
根据权利要求1或2所述的方法，

目标遗传算法模型更新后的种子池的累积变量的数量等于目标遗传算法模型更新前的种子池的累积变量的数量；或者

目标遗传算法模型更新后的种子池的累积变量的数量小于目标遗传算法模型更新前的种子池的累积变量的数量。
一种用于风险识别模型的衍生变量选择装置，包括：

种子池确定模块，根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；

衍生变量确定模块，根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；

信息输出模块，如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，

所述衍生变量确定模块，具体根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。
一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现：

根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；

如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：

根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；

在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。
一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现：

根据目标遗传算法模型及其种子池生成的衍生变量的质量，确定目标遗传算法模型更新后的种子池，其中，所述衍生变量的质量用于评估所述衍生变量作为所述目标业务的风险识别模型的样本特征的贡献，所述更新后的种子池包括更新前种子池生成的N个质量最优的衍生变量的父本集合；

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，其中，所述第一父本累积变量集合和第二父本累积变量集合是基于所述目标遗传算法模型更新后的种子池选择的衍生变量父本；

如果目标衍生变量集合满足衍生变量的质量收敛条件，输出目标衍生变量集合中的衍生变量，以作为风险识别模型的样本特征；其中，

根据第一父本累积变量集合和第二父本累积变量集合，以衍生变量质量最优的变异方向确定目标衍生变量集合，包括：

根据第一父本累积变量集合，通过衍生变量父本匹配模型在第二父本累积变量集合中选择第一父本累积变量集合中的第一父本所匹配的M个第二父本，以生成候选衍生变量集合；

在所述候选衍生变量集合中选择N个质量最优的衍生变量作为目标衍生变量集合。