CN109635953A

CN109635953A - 一种特征衍生方法、装置及电子设备

Info

Publication number: CN109635953A
Application number: CN201811310629.0A
Authority: CN
Inventors: 张天翼; 郭龙; 宋博文
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-16

Abstract

本发明公开了一种特征衍生方法、装置及电子设备，所述方法可以基于原始数据确定初始特征，所述初始特征为包含多个参数的累积型变量，所述原始数据中包含用于累积确定所述多个参数的值的事件明细数据；对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征；将所述备选特征的元特征输入特征评分模型，得到所述备选特征的评分；如果所述备选特征的评分大于或等于第一预设值，则将所述备选特征确定为衍生出的目标特征。

Description

一种特征衍生方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种特征衍生方法、装置及电子设备。

背景技术

随着人工智能技术的发展，依据现有数据中的特征进行机器学***台或网络购物平台的风险防控领域，常依据现有的包含风险特征(例如，交易事件数据中的交易金额、交易频率等特征)的数据进行机器学习得到风控模型。

针对各种风控模型，不法分子会不断的改进作案手段以避开风险防控，使得风险形式不断发生变化，例如，非法组织者往往会根据第三方支付平台的风控模型不停地尝试新的手段绕过监管。这就需要不断地对风控模型进行改进，以对未来可能出现的新风险做出有效的防控。然而，现有数据中的风险特征无法代表未来的情况，未来的包含新风险特征的数据还没有产生，因此，需要对现有数据中的风险特征进行学习，衍生得到能够反映未来风险的新风险特征，以对风控模型进行改进。其中，对现有特征进行学习衍生得到新特征的过程叫特征衍生。

目前，要么依据人工经验进行特征衍生，要么利用穷举的方式进行特征衍生。前者依赖于领域内的专家经验，耗时长、衍生过程慢；后者需要花费大量的计算资源进行计算，耗时也较长、衍生过程也慢。

发明内容

本申请实施例提供了一种特征衍生方法、装置及电子设备，以解决现有的特征衍生方案耗时长、衍生过程慢的问题。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种特征衍生方法，所述方法包括：

基于原始数据确定初始特征，所述初始特征为包含多个参数的累积型变量，所述原始数据中包含用于累积确定所述多个参数的值的事件明细数据；

对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征；

将所述备选特征的元特征输入特征评分模型，得到所述备选特征的评分，所述特征评分模型是基于包含多个备选特征的元特征的样本数据和样本数据对应的第一标签训练得到的，第一标签为备选特征的评分；

如果所述备选特征的评分大于或等于第一预设值，则将所述备选特征确定为衍生出的目标特征。

第二方面，提出了一种特征衍生装置，所述装置包括：

初始特征确定模块，用于基于原始数据确定初始特征，所述初始特征为包含多个参数的累积型变量，所述原始数据中包含用于累积确定所述多个参数的值的事件明细数据；

备选特征衍生模块，用于对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征；

评分模块，用于将所述备选特征的元特征输入特征评分模型，得到所述备选特征的评分，所述特征评分模型是基于包含多个备选特征的元特征的样本数据和样本数据对应的第一标签训练得到的，第一标签为备选特征的评分；

目标特征确定模块，用于如果所述备选特征的评分大于或等于第一预设值，则将所述备选特征确定为衍生出的目标特征。

第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

由以上本申请实施例提供的技术方案可见，本申请实施例提供的方案至少具备如下一种技术效果：由于可以自动地依据原始数据确定得到初始特征，并自动地对初始特征进行变换衍生得到备选特征，以及自动地依据备选特征的元特征和预先训练好的特征评分模型筛选得到评分较高的备选特征作为最终的目标特征，因此可以提高特征衍生速度、缩短特征衍生时间，提升特征衍生效率。此外，由于是以包含多个参数的累积型变量作为初始特征，这类初始特征的解释性强，可以作为人工经验的抽象，因此，基于初始特征衍生得到的备选特征具有较好的可解释性。再有，由于目标特征是基于预设评分模型从备选特征中选出的评分较高的优质特征，这使得应用本方案衍生得到的目标特征不仅解释性强，还更加的稳健和有效。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本说明书实施例提供的特征衍生方法的一种流程示意图。

图2是本说明书实施例提供的特征变换的一种原理示意图。

图3是本说明书实施例提供的特征变换的另一种原理示意图。

图4是本说明书实施例提供的特征衍生方法的另一种流程示意图。

图5是是本说明书实施例提供的一种电子设备的结构示意图。

图6是本说明书实施例提供的特征衍生装置600的一种结构示意图。

图7是本说明书实施例提供的特征衍生装置600的另一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有的特征衍生方案耗时长、衍生过程慢的问题，本说明书实施例提供一种特征衍生方法及装置，该方法及装置可以应用于第三方支付平台或网络购物平台的风险防控等领域，且为了便于说明，下文中以应用于网络购物平台的风险防控为例，对本说明书实施例提供的特征衍生方法及装置进行介绍。

下面结合附图1至图4对本说明书实施例提供的一种特征衍生方法进行详细的说明。

如图1所示，本说明书实施例提供的一种特征衍生方法，可以包括如下步骤：

步骤102、基于原始数据确定初始特征，所述初始特征为包含多个参数的累积型变量，所述原始数据中包含用于累积确定所述多个参数的值的事件明细数据。

以网络购物平台为例，可以预先从网络购物平台的服务器中获取原始数据，且原始数据可以是包含交易事件、操作事件、浏览事件和登录事件等事件中的一个或多个事件的事件明细数据。

其中，事件明细数据，可以是指示包含时间、地点、事件主动方、事件被动方、事件发生环境、事件内容和设备等信息的数据，且事件明细数据中包含用于累积确定初始特征的多个参数的值的数据。

一般来说，从网络购物平台的服务器中获取的原始数据的数据写入和存储格式符合互联网企业标准，且本说明书实施例对原始数据中包含的表示上述多个参数的值的字段的格式和属性没有严格要求，因此，在本说明书实施例中，不需要对获取的原始数据进行加工处理，也不需要对原始数据进行清洗和筛选，而是可以直接用来确定初始特征，这对提高特征衍生效率也有帮助。

累积型变量(velocity变量)，一般是指包含多个参数，且这多个参数中的至少一个参数可基于一定的累积时间和累积方式累积得到。作为一个例子，这多个参数可以包括累积主体、累积时间、累积指标和累积方式，当然还可以包含其他参数。这多个参数任意组合或按一定的顺序组合即可得到一个累积型变量。例如，如果将累积主体、累积时间、累积指标和累积方式这四个参数分别用a、b、c、d表示，将其他参数用e表示，可以得到V＝velocity(a,b,c,d,e) 这样一个累积型变量，或者得到V＝velocity(a,c,d,b,e)这样一个累积型变量，等等。

其中，累积主体例如可以是设备或账户等，累积时间例如可以为过去2小时或过去7天等，累积指标例如可以为消费金额或消费次数等，累积方式例如可以为求最大值、求和或求平均值等；其他参数例如可以为是否由手机操作或是否为实物交易等等。

具体的，假如a为“账户A”，b为“过去7天”，c为“消费金额”，d为 “求和”，e为“实物交易场景”。累积型变量V＝velocity(a,b,c,d,e)表示的含义可以为：“账户A”上“过去7天”的“消费金额”的“总和”仅限“实物交易场景”。累积型变量为V＝velocity(b,a,c,d,e)表示的含义可以为：“过去7 天”“账户A”上的“消费金额”的“总和”仅限“实物交易场景”。

在本说明书实施例中，之所以以包含多个参数的累积型变量作为初始特征，是因为累积型变量具有更强的解释性，可以作为人工经验的抽象来使用。

步骤104、对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征。

下面结合图2和图3，举例说明对初始特征进行变换衍生得到备选特征的方式。

在第一个例子中，步骤104可以包括：基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到备选特征。

如图2所示，假设初始特征为V1＝velocity(a1,b1,c1,d1,e1),其中，a1、 b1、c1、d1、e1分别对应于上文中的累积主体、累积时间、累积指标、累积方式和其他参数。从a1、b1、c1、d1和e1中随机选择一个参数，并随机地给选择的这个参数赋予另一个有效值，比如b1被选中并赋予新的值变为b1*，得到的备选特征为V1*＝velocity(a1,b1*,c1,d1,e1)。

举例来说，假如a1为“账户A”，b1为“过去7天”，c1为“消费金额”， d1为“求和”，e1为“实物交易场景”，V1＝velocity(a1,b1,c1,d1,e1)表示的含义为：“账户A”上“过去7天”的“消费金额”的“总和”仅限“实物交易场景”。将b由“过去7天”变成b1*“过去24小时”之后得到的V1*＝ velocity(a1,b1*,c1,d1,e1)表示的含义为：“账户A”上“过去24小时”的“消费金额”的“总和”仅限“实物交易场景”。不难理解，同V1一样，V1*也具有很好的解释性。

应理解，图2仅是以改变单个参数的取值为例对初始特征进行变换得到备选特征，在实际应用中，除了改变单个参数的取值衍生得到初始备选特征，还可以通过改变多个(两个以上)参数的取值衍生得到备选特征。

在第二个例子中，步骤104可以包括：基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到初始备选特征；基于预设运算对所述初始备选特征与所述初始特征进行组合处理，衍生得到备选特征。其中，预设运算可以包括但不限于四则运算、比较符和对数运算中的至少一种。

如图3所示，先同第一个例子一样，将V1＝velocity(a1,b1,c1,d1,e1)中的b1选中并修改取值变换为b1*，得到V1*＝velocity(a1,b1*,c1,d1,e1)；然后，进一步地通过做比值(四则运算中的除法运算)的方式，对V1*和V1进行组合处理得到备选特征X1＝V1*/V1。

例如，假设V1＝velocity(a1,b1,c1,d1,e1)表示的含义为：“账户A”上“过去7天”的“消费金额”的“总和”仅限“实物交易场景”，且V1的值为700， V1*＝velocity(a1,b1*,c1,d1,e1)表示的含义为：“账户A”上“过去24小时”的 “消费金额”的“总和”仅限“实物交易场景”，且V1*值为100，则

X1＝(账户A上过去7天的消费金额的总和仅限实物交易场景)/(账户A 上过去24小时的消费金额的总和仅限实物交易场景)＝(100)/(700)＝1/7

这说明X1表达的含义是账户A过去24小时的消费金额是过去7天的七分之一，属于正常消费，X1的解释性很强。如果，V1的值为700，V1*值为 600，则，X1＝6/7，说明账户A在过去24小时的消费金额突增，可能属于异常消费，解释性也很好。

进一步地分析发现，通过求单个参数不同的两个累积型变量的比值得到的备选特征(例如X1＝V1*/V1)，除了具有较好的解释性，还能够很好的涵盖冲突类、突变类和风险浓度(Fraud To Gross，FTG)类这些主要类型的变量对应的特征。此外，只改变单个参数的取值还可以缩小基于初始特征变化得到备选特征的计算范围，节省计算资源，提高特征衍生效率。

具体的，改变上述例子的参数b的取值，即可得到突变类变量(过去7天突变为过去24小时)对应的特征；改变上述例子中的参数e的取值，即可得到冲突类变量(实物交易场景突变为非实物交易场景)对应的特征；改变上述例子中的参数c或a的取值，即可得到FTG变量对应的特征，等等。在风控领域中，冲突类、突变类和FTG类变量都是有着高解释性和区分能力的特征，能够提升最终建立的模型效果。

需要说明的是，在图3所举的例子中，如果分母为零，则可以特殊处理，比如将X1指定为一个固定值，例如指定为NULL或-1。

应理解，图3仅是以改变单个参数的取值为例对初始特征进行变换得到初始备选特征，在实际应用中，除了改变单个参数的取值衍生得到初始备选特征，也可以通过改变多个(两个以上)参数的取值衍生得到初始备选特征，只不过计算范围会有所扩大。

需要说明的是，上文仅通过举例的方式给出了两种基于初始特征衍生得到备选特征的方法，但并不局限于上述两种，本领域技术人员还可以基于本说明书实施例的技术构思衍生出其他方式，本说明书对此不做限定。

步骤106、将所述备选特征的元特征输入特征评分模型，得到所述备选特征的评分，所述特征评分模型是基于包含多个备选特征的元特征的样本数据和样本数据对应的第一标签训练得到的，第一标签为备选特征的评分。

元特征(meta feature)，可以理解为是刻画特征本身的指标，或者说是特征的特征。在本说明书实施例中，元特征可以包括但不限于信息价值指标 (Information Value，IV)、方差、熵、受试者工作特征(Receiver Operating Characteristic，ROC)曲线下的面积(Area Under Curve，AUC)和柯尔莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov，KS)值中的至少一种。

关于特征评分模型的训练会在下文中详细介绍，此处暂不赘述。

步骤108、如果所述备选特征的评分大于或等于第一预设值，则将所述备选特征确定为衍生出的目标特征。

也即将评分高的优质备选特征作为最终衍生出的目标特征，这些目标特征可以同初始特征一样用于建模。

本说明书实施例提供的一种特征衍生方法，由于可以自动地依据原始数据确定出初始特征，并自动地对初始特征进行变换衍生得到备选特征，以及自动地依据备选特征的元特征和预先训练好的特征评分模型筛选得到评分较高的备选特征作为最终的目标特征，因此可以提高特征衍生速度、缩短特征衍生时间，提升特征衍生效率。

此外，由于是以包含多个参数的累积型变量作为初始特征，这类初始特征的解释性强，可以作为人工经验的抽象，因此，基于初始特征衍生得到的备选特征也具有较好的可解释性。再有，由于目标特征是基于预设评分模型从备选特征中选出的评分较高的优质特征，这使得应用本方法衍生得到的目标特征不仅解释性强，还更加的稳健和有效。

可选地，在图1所示的实施例的基础上，本说明书实施例提供的一种特征衍生方法还可以包括：如果所述备选特征的评分大于或等于第一预设值，返回执行所述对所述初始特征的多个参数中的至少一个参数进行变换处理的步骤，也即返回执行步骤104至步骤108；如果所述备选特征的评分小于第一预设值，则将所述初始特征丢弃。

也即，如果在步骤104中基于一个初始特征衍生得到的备选特征，最终在步骤108中被确定为目标特征，说明该初始特征是一个较优的初始特征，可以将该初始特征保留(遗传)下来，并循环利用该初始特征衍生出更多的备选特征以供筛选，直到基于该初始特征衍生出的备选特征的评分小于第一预设值，不能被确定为目标特征。

例如，如图2所示，如果衍生得到的备选特征V1*的评分大于第一预设值，则可以将V1保留下来继续用于衍生得到备选特征；或者，如图3所示，如果衍生得到的备选特征X1的评分大于第一预设值，也可以将V1保留下来继续用于衍生得到备选特征。

可以理解，以初始特征包含5个参数的来说，基于5个参数的任意组合可以从原始数据中确定出指数级数量的初始特征，进一步地，如果在基于初始特征确定备选特征时采用步骤104的第二个例子中的方式，将初始备选特征与初始特征再按预设运算组合处理，使得确定出的备选特征的数量更加庞大，使得寻找目标特征的范围太大。而本说明书实施例提供的方案，不断地将能够衍生出目标特征的初始特征遗传下来用于继续衍生，将不能衍生出目标特征的初始特征丢弃，可以减少初始特征的数量，从而缩小寻找目标特征的范围，进而减少计算量，提高特征衍生效率。

可选地，如图4所示，在步骤106之前，本说明书实施例提供的一种特征衍生方法，还可以包括：

步骤110、基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到所述特征评分模型。

由于备选特征是不断衍生得到的，在特征衍生的初始阶段，衍生出的备选特征的数量较少，后来不断增加，因此，在一个例子中，特征评分模型可以随着衍生出的备选特征的数量的增加而不断迭代优化，直到特征评分模型的预设评价指标达到稳定或提升不明显。

具体的，步骤110可以包括：获取包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，并循环执行第二指定步骤直到第二初始模型满足第二预设条件，将所述第二初始模型确定为所述特征评分模型。

其中，所述第二预设条件包括随着循环执行所述第二指定步骤的次数的增加，所述第二初始模型的预设评价指标的增幅小于第三预设值，也即预设评价指标的增幅不明显或趋于稳定。预设评价指标可以是现有的模型评价指标，例如AUC值、KS值、准确率(Precision)，召回率(Recall)等，对于不同的原始业务，模型评价指标可能会有所不同。

其中，第二指定步骤包括：基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到第二初始模型；将新衍生出的备选特征添加至所述样本数据中以对所述样本数据进行更新。

举例来说，如果刚开始衍生出100个备选特征，则将这100个备选特征的元特征作为样本数据训练得到第二初始模型；后来如果又衍生出100个备选特征，则利用后衍生出的100个和之前衍生出的100个共200个备选特征的元特征作为样本数据训练得到第二初始模型；以此类推，不断地将新衍生出的备选特征的元特征加入样本数据中训练第二初始模型，直到第二初始模型满足上述第二预设条件。可选地，当样本数据中的备选特征的数量过多时，可以基于现有的方式对样本数据中的备选特征进行筛选。

最终训练得到的特征评分模型的输入为备选特征的元特征，输出为备选特征的评分，因此可以用于步骤106确定备选特征的评分，以供步骤108基于备选特征的评分，确定该备选特征是不是一个优质特征，或者说是不是一个好特征。

在本说明书实施例中，训练得到特征评分模型的过程是一个有监督的学习过程，训练时不但需要样本数据，还需要样本数据对应的第一标签，第一标签即为样本数据中的备选特征的评分。在本说明书实施例中，样本数据对应的第一标签可以基于分类模型得到，其中，分类模型是基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到的，第二标签用于指示备选特征对应的事件是否为异常事件，第二标签可以通过对备选特征对应的事件进行判断得到。

分类模型是一个以原始业务问题(事件是否异常)为学习目标的有监督学习模型，分类模型为训练特征评分模型提供“备选特征是不是一个优质特征” 的评判依据，也即分类模型为训练特征评分模型提供第一标签。具体的，可以基于备选特征在训练分类模型的所有输入特征(样本数据中的多个备选特征) 中的重要程度(可以用分类模型的增益值表示)确定备选特征的评分，并作为备选特征的第一标签。相当于先用多个备选特征建一个分类模型，找到这多个备选特征对分类模型的增益值，将这个多个备选特征对应的增益值作为训练特征评分模型的第一标签，再训练得到特征评分模型。

与训练特征评分模型一样，分类模型也可以随着衍生出的备选特征的数量的增加而不断迭代优化，直到分类模型的预设评价指标达到稳定或提升不明显。下面对分类模型的训练过程进行介绍。

可选地，本说明书实施例提供的一种特征衍生方法，还可以包括：基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到分类模型，第二标签用于指示备选特征对应的事件是否为异常事件；基于所述分类模型，确定所述多个备选特征在所述分类模型中对应的评分，备选特征在所述分类模型中对应的评分用于指示备选特征在所述分类模型的所有输入特征中的重要程度。

其中，所述基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到分类模型，可以包括：获取包含所述多个备选特征的样本数据和样本数据对应的第二标签，循环执行第一指定步骤直到第一初始模型满足第一预设条件，将所述第一初始模型确定为所述分类模型。

第一预设条件包括随着循环执行所述第一指定步骤的次数的增加，所述第一初始模型的预设评价指标的增幅小于第二预设值。关于第一初始模型的预设评价指标，请参见上文中对第二初始模型的预设评价指标的说明。

第一指定步骤可以包括：基于包含所述多个备选特征的样本数据和样本数据对应的第二标签，训练得到所述第一初始模型；将新衍生出的备选特征添加至所述样本数据中以对所述样本数据进行更新。

可以理解本说明书实施例提供的一种特征衍生方法，可以自动基于衍生出的备选特征优化迭代得到分类模型和特征评分模型，以用于评估衍生得到的备选特征，这是一种以学习机制本身为学习对象的机器学习过程，这一过程可以称为是元学习(metalearning)，而不是以单一的模型评价指标学习得到特征评分模型，因此可以更加快速、更加准确全面地对衍生出的备选特征进行评估，不仅提升了特征衍生效率，还可以衍生得到更有效和稳健的目标特征。

以上是对本说明书提供一种特征衍生方法的说明，下面对本说明书提供的电子设备进行介绍。

图5是本说明书的一个实施例提供的电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成特征衍生装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本说明书图1所示实施例揭示的特征衍生方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－ Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的特征衍生方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

图6是本说明书提供的特征衍生装置600的结构示意图。请参考图6，在一种软件实施方式中，特征衍生装置600可包括：初始特征确定模块601、备选特征衍生模块602、评分模块603和目标特征确定模块604。

初始特征确定模块601，用于基于原始数据确定初始特征，所述初始特征为包含多个参数的累积型变量，所述原始数据中包含用于累积确定所述多个参数的值的事件明细数据。

备选特征衍生模块602，用于对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征。

在第一个例子中，备选特征衍生模块602可用于：基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到备选特征。

在第二个例子中，备选特征衍生模块602可用于：基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到初始备选特征；基于预设运算对所述初始备选特征与所述初始特征进行组合处理，衍生得到备选特征。其中，预设运算可以包括但不限于四则运算、比较符和对数运算中的至少一种。

评分模块603，用于将所述备选特征的元特征输入特征评分模型，得到所述备选特征的评分，所述特征评分模型是基于包含多个备选特征的元特征的样本数据和样本数据对应的第一标签训练得到的，第一标签为备选特征的评分。

目标特征确定模块604，用于如果所述备选特征的评分大于或等于第一预设值，则将所述备选特征确定为衍生出的目标特征。

本说明书实施例提供的一种特征衍生装置600，由于可以自动地依据原始数据确定出初始特征，并自动地对初始特征进行变换衍生得到备选特征，以及自动地依据备选特征的元特征和预先训练好的特征评分模型筛选得到评分较高的备选特征作为最终的目标特征，因此可以提高特征衍生速度、缩短特征衍生时间，提升特征衍生效率。

可选地，在图6所示的实施例的基础上，本说明书实施例提供的一种特征衍生方法还可以包括：触发模块和丢弃模块。

触发模块，用于如果所述备选特征的评分大于或等于第一预设值，触发上述备选特征衍生模块602。

丢弃模块，用于如果所述备选特征的评分小于第一预设值，则将所述初始特征丢弃。

也即，如果备选特征衍生模块602基于一个初始特征衍生得到的备选特征，最终在目标特征确定模块604中被确定为目标特征，说明该初始特征是一个较优的初始特征，可以将该初始特征保留(遗传)下来，并循环利用该初始特征衍生出更多的备选特征以供筛选，直到基于该初始特征衍生出的备选特征的评分小于第一预设值，不能被确定为目标特征。

本说明书实施例提供的装置600，由于可以不断地将能够衍生出目标特征的初始特征遗传下来用于继续衍生，而将不能衍生出目标特征的初始特征丢弃，因此可以减少初始特征的数量，从而缩小寻找目标特征的范围，进而减少计算量，提高特征衍生效率。

可选地，如图7所示，本说明书实施例提供的一种特征衍生装置600，还可以包括：第一训练模块605。

第一训练模块605，用于基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到所述特征评分模型。

具体的，第一训练模块605可用于：获取包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，并循环执行第二指定步骤直到第二初始模型满足第二预设条件，将所述第二初始模型确定为所述特征评分模型。

最终训练得到的特征评分模型的输入为备选特征的元特征，输出为备选特征的评分，因此可以用于评分模块603确定备选特征的评分，以目标特征确定模块604基于备选特征的评分，确定该备选特征是不是一个优质特征，或者说是不是一个好特征。

在本说明书实施例中，训练得到特征评分模型的过程是一个有监督的学习过程，训练时不但需要样本数据，还需要样本数据对应的第一标签，第一标签即为样本数据中的备选特征的评分。在本说明书实施例中，样本数据对应的第一标签可以基于分类模型得到。

因此，可选地，本说明书实施例提供的一种特征衍生装置600，还可以包括：第二训练模块和确定模块。

第二训练模块，用于基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到分类模型，第二标签用于指示备选特征对应的事件是否为异常事件。

确定模块，用于基于所述分类模型，确定所述多个备选特征在所述分类模型中对应的评分，备选特征在所述分类模型中对应的评分用于指示备选特征在所述分类模型的所有输入特征中的重要程度。

其中，第二训练模块具体可用于：获取包含所述多个备选特征的样本数据和样本数据对应的第二标签，循环执行第一指定步骤直到第一初始模型满足第一预设条件，将所述第一初始模型确定为所述分类模型。

可以理解本说明书实施例提供的一种特征衍生装置600，可以自动基于衍生出的备选特征优化迭代得到分类模型和特征评分模型，以用于评估衍生得到的备选特征，这是一种以学习机制本身为学习对象的机器学习过程，这一过程可以称为是元学习(metalearning)，而不是以单一的模型评价指标学习得到特征评分模型，因此可以更加快速、更加准确全面地对衍生出的备选特征进行评估，不仅提升了特征衍生效率，还可以衍生得到更有效和稳健的目标特征。

需要说明的是，特征衍生装置600能够实现图1的方法实施例的方法，具体可参考图1所示实施例的特征衍生方法，不再赘述。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句“包括一个……” 限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种特征衍生方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：

如果所述备选特征的评分大于或等于第一预设值，返回执行所述对所述初始特征的多个参数中的至少一个参数进行变换处理的步骤；

如果所述备选特征的评分小于第一预设值，则将所述初始特征丢弃。

3.根据权利要求1所述的方法，还包括：

基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到分类模型，第二标签用于指示备选特征对应的事件是否为异常事件；

基于所述分类模型，确定所述多个备选特征在所述分类模型中对应的评分，备选特征在所述分类模型中对应的评分用于指示备选特征在所述分类模型的所有输入特征中的重要程度。

4.根据权利要求3所述的方法，

所述基于包含所述多个备选特征的样本数据和样本数据对应的第二标签训练得到分类模型，包括：获取包含所述多个备选特征的样本数据和样本数据对应的第二标签，循环执行第一指定步骤直到第一初始模型满足第一预设条件，将所述第一初始模型确定为所述分类模型；

其中，所述第一预设条件包括随着循环执行所述第一指定步骤的次数的增加，所述第一初始模型的预设评价指标的增幅小于第二预设值；

所述第一指定步骤包括：基于包含所述多个备选特征的样本数据和样本数据对应的第二标签，训练得到所述第一初始模型；将新衍生出的备选特征添加至所述样本数据中以对所述样本数据进行更新。

5.根据权利要求3所述的方法，还包括：

基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到所述特征评分模型。

6.根据权利要求5所述的方法，

所述基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到所述特征评分模型，包括：获取包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，并循环执行第二指定步骤直到第二初始模型满足第二预设条件，将所述第二初始模型确定为所述特征评分模型；

其中，所述第二预设条件包括随着循环执行所述第二指定步骤的次数的增加，所述第二初始模型的预设评价指标的增幅小于第三预设值；

所述第二指定步骤包括：基于包含所述多个备选特征的元特征的样本数据和样本数据对应的第一标签，训练得到第二初始模型；将新衍生出的备选特征添加至所述样本数据中以对所述样本数据进行更新。

7.根据权利要求1所述的方法，

其中，所述初始数据中还包含所述多个参数对应的取值范围；

所述对所述初始特征的多个参数中的至少一个参数进行变换处理，衍生得到备选特征，包括：

基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到备选特征。

8.根据权利要求1所述的方法，

基于所述至少一个参数对应的取值范围，随机变换所述至少一个参数的取值，衍生得到初始备选特征；

基于预设运算对所述初始备选特征与所述初始特征进行组合处理，衍生得到备选特征。

9.根据权利要求8所述的方法，

其中，所述预设运算包括四则运算、比较符和对数运算中的至少一种。

10.根据权利要求1-9任一项所述的方法，

其中，所述多个参数至少包括累积主体、累积时间、累积指标和累积方式。

11.根据权利要求1-9任一项所述的方法，

其中，所述元特征包括信息价值指标IV、方差、熵、受试者工作特征ROC曲线下的面积AUC和柯尔莫哥洛夫-斯米尔诺夫KS值中的至少一种。

12.一种特征衍生装置，所述装置包括：

13.一种电子设备，包括：

处理器；以及

14.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：