CN112101950B

CN112101950B - 可疑交易监测模型特征提取方法及装置

Info

Publication number: CN112101950B
Application number: CN202011032077.9A
Authority: CN
Inventors: 刘鸿斌
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-05-10
Anticipated expiration: 2040-09-27
Also published as: CN112101950A

Abstract

本申请提供一种可疑交易监测模型特征提取方法及装置，所述方法包括：获取多张基础数据表及各所述基础数据表对应的输入参数；根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵；对所述特征矩阵进行特征提取。本申请能够实现不同可疑交易场景下的可疑特征挖掘，为可疑特征监测模型的建立提供基础。

Description

可疑交易监测模型特征提取方法及装置

技术领域

本申请涉及人工智能领域，具体是一种可疑交易监测模型特征提取方法及装置。

背景技术

为深入实践风险为本、动态管理的反洗钱工作原则，建立健全的金融机构交易监测标准，需从设计、开发、测试、评估等方面较为***性地对可疑交易监测模型进行建设。

传统的可疑交易监测模型开发流程已经无法应对灵活多变的监管需求及层出不穷的新型犯罪手段，且存在如下缺点：现有可疑交易监测模型在构造可疑交易监测模型特征的过程中，基本依靠人工实现设计及新特征的衍生，过程缓慢且艰难，衍生效率极低且构建效果差；可疑交易监测模型特征衍生的过程依赖反洗钱业务专家的领域知识及直觉，人为主观性大，特征衍生的准确率低。

因此，开发设计一套可疑交易模型自动化特征提取方法，成为金融机构开展反洗钱业务的核心。

发明内容

针对现有技术中的问题，本申请提供一种可疑交易监测模型特征提取方法及装置，能够实现不同可疑交易场景下的可疑特征挖掘，为可疑特征监测模型的建立提供基础。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种可疑交易监测模型特征提取方法，包括：

获取多张基础数据表及各所述基础数据表对应的输入参数；

根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵；

对所述特征矩阵进行特征提取。

进一步地，获取多张基础数据表的步骤，包括：

获取可疑交易监测所应覆盖的客户及对应的业务领域；

根据所述客户及所述业务领域接入对应的上游数据源，生成所述基础数据表。

进一步地，所述输入参数包括：分箱结果；获取所述输入参数的步骤，包括：

根据所述基础数据表中各字段的字段类型对各所述基础数据表中的各字段进行分类；

根据预先设定的k值对分类后的所述基础数据表中的各多码值类别型字段进行分箱，得到分箱结果。

进一步地，所述输入参数包括：特征基元参数；获取所述输入参数的步骤，包括：

根据特征衍生数量及可疑交易监测场景选择特征基元；

根据所述特征基元生成所述特征基元对应的特征基元参数。

进一步地，所述输入参数包括：字典；获取所述输入参数的步骤，包括：

根据所述基础数据表中各字段的字段类型对基础数据表中的各字段进行分类，并将分类后的各所述字段存储为四个字典。

进一步地，所述根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵，包括：

根据所述多张基础数据表生成所述训练样本；所述训练样本包括正样本数据、负样本数据及特殊负样本数据；

根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到所述特征矩阵。

进一步地，所述对所述特征矩阵进行特征提取，包括：

过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征，得到提取后的特征。

进一步地，过滤所述字段缺失率过高的特征，包括：

计算所述特征矩阵中各所述特征的缺失率；

过滤所述缺失率大于预先设定的缺失率阈值的特征。

进一步地，过滤所述相关性过高的特征，包括：

计算所述特征矩阵中各所述特征的相关性；

对于所述相关性大于预先设定的相关性阈值的所述特征，任意保留其中的一个所述特征。

进一步地，过滤所述对模型预测结果无贡献的特征，包括：

利用梯度提升机计算所述特征矩阵中各所述特征的重要性分数；

对所述重要性分数进行归一化处理，得到重要性归一化分数；

过滤所述重要性归一化分数为零的特征。

进一步地，过滤所述对模型预测结果贡献过低的特征，包括：

过滤所述重要性归一化分数低于预先设定的贡献率阈值的特征。

第二方面，本申请提供一种可疑交易监测模型特征提取装置，包括：

获取单元，用于获取多张基础数据表及各所述基础数据表对应的输入参数；

衍生单元，用于根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵；

提取单元，用于对所述特征矩阵进行特征提取。

进一步地，所述衍生单元包括：

样本生成模块，用于根据所述多张基础数据表生成所述训练样本；所述训练样本包括正样本数据、负样本数据及特殊负样本数据；

矩阵生成模块，用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到所述特征矩阵。

进一步地，所述提取单元包括：

过滤模块，具体用于过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征，得到提取后的特征。

第三方面，本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述可疑交易监测模型特征提取方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述可疑交易监测模型特征提取方法的步骤。

针对现有技术中的问题，本申请提供一种可疑交易监测模型特征提取方法及装置，能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取，最终得到特征提取结果，以实现不同可疑交易场景下的可疑特征挖掘，为可疑特征监测模型的建立提供基础。

附图说明

图1为本申请实施例中可疑交易监测模型特征提取方法的流程图；

图2为本申请实施例中获取多张基础数据表的流程图；

图3为本申请实施例中生成分箱结果的流程图；

图4为本申请实施例中生成特征基元参数的流程图；

图5为本申请实施例中得到特征矩阵的流程图；

图6为本申请实施例中过滤所述字段缺失率过高的特征的流程图；

图7为本申请实施例中过滤所述相关性过高的特征的流程图；

图8为本申请实施例中过滤所述对模型预测结果无贡献的特征的流程图；

图9为本申请实施例中过滤所述对模型预测结果贡献过低的特征的流程图；

图10为本申请实施例中可疑交易监测模型特征提取装置的结构图；

图11为本申请实施例中衍生单元的结构图；

图12为本申请实施例中提取单元的结构图；

图13为本申请实施例中的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，为了能够实现不同可疑交易场景下的可疑特征挖掘，本申请提供一种可疑交易监测模型特征提取方法，包括：

S101：获取多张基础数据表及各基础数据表对应的输入参数。

可以理解的是，在银行***中存在着各种复杂的日常交易，这些交易绝大多数是合法交易，然而这其中仍存在一些可疑交易，可能扰乱正常的交易市场秩序。对此，本申请实施例可以收集银行***中的日常交易数据，并将这些交易数据存入基础数据表，以便后续根据这些基础数据表中的基础数据，进行可疑交易监测模型特征提取。这些基础数据表可包括但不限于：客户信息表、客户信用表、客户交易表等。这些基础数据表均为二维关系型数据表，各基础数据表的主键为客户身份标识，该客户身份标识具有唯一性，可以标记每一位在银行***开过户的客户。各基础数据表可根据上述主键使彼此发生关联。

此外，本申请实施例采用以深度特征合成(Deep Feature Synthesis，简称DFS)算法为核心的FeatureTools开源框架进行可疑交易监测模型特征衍生及提取。为此，需预先获取各基础数据表对应的输入参数，以便后续将这些输入参数输入利用Python语言编写的FeatureTools开源框架中实现功能。该算法在进行遍历操作时，通过关系型数据库中所描述的关系路径进行。当采用DFS算法遍历这些路径时，通过应用于数据的操作(包括和、平均值和计数等)衍生出新特征。这些特征是来源于数据集中数据点之间的关系；在数据集中，许多特征都是通过类似的数学运算得到的；新的特征通常是利用原来的特征构成的。

S102：根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵。

可以理解的是，利用FeatureTools开源框架进行自动化特征衍生所需的输入参数包括：分箱结果、特征基元参数、字典、时间窗口及兴趣值等。各输入参数的计算及设置方法详见下文实施例的阐述。另外，进行自动化特征衍生需要预先准备训练样本，这些训练样本可被分为：正样本数据、负样本数据及特殊负样本数据。以上样本数据均来源于基础数据表，选取样本数据的过程即是对基础数据表各条记录进行分类的过程。一般而言，基础数据表中的一条记录对应基础数据表中的一行。一实施例中，所谓正样本数据是指过去所有经反洗钱甄别人员甄别后上报人民银行反洗钱监管***的可疑客户在可疑时间段内的所有交易及其客户相关信息；负样本数据是指日常交易中未曾被现有技术中的可疑交易监测模型所命中的客户在过去一段时间的交易数据及其客户相关信息所对应的交易数据，由于此类客户数量较大，可以按预先设定的抽取比例进行样本数据的随机抽取；特殊负样本数据是指命中现有技术中的可疑交易监测模型，但后续被反洗钱甄别人员确定为非可疑人员的客户在非可疑时间段内的所有交易及其客户相关信息。

S103：对特征矩阵进行特征提取。

可以理解的是，为了避免衍生出的可疑特征数量过多，从而导致欲被建立的可疑交易监测模型出现过拟合，造成维度灾难，需在建立可疑交易监测模型之前，对衍生出的数以万计的可疑特征进行高效的可疑特征过滤及筛选，以使可疑交易监测模型生成后具有更好的泛化能力。由于衍生出的可疑特征数量极大，人工挑选非常耗时耗力，因此本申请实施例将基于一个基础的开源特征选择工具FeatureSelector对衍生出的可疑特征进行高效的自动化特征提取。提取的过程即是过滤掉冗余可疑特征的过程，具体的过滤原则详见下文实施例的阐述。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生及提取，最终得到特征提取结果，以实现不同可疑交易场景下的可疑特征挖掘，为可疑特征监测模型的建立提供基础。

参见图2，本申请实施例获取多张基础数据表的步骤包括：

S201：获取可疑交易监测所应覆盖的客户及对应的业务领域。

S202：根据客户及业务领域接入对应的上游数据源，生成所述基础数据表。

可以理解的是，在本申请实施例中，一张基础数据表即被视为一个实体，基础数据表的集合即为实体的集合，简称为实体集。在进行可疑特征衍生前，需先创建实体集。实体集可反映所有实体及其之间的关系，同时也反映了所有样本的相关信息，即各客户的全部交易情况，每个客户对应唯一的一个标识符。按照人民银行的可疑交易监管要求，金融机构应构建以客户为基本单位的可疑交易监测体系，因此，实体集的唯一标识符即为客户编号。

实体集中的实体内容即为基础数据表，基础数据表的逻辑维度可分为：交易、客户、账户、产品、参数、员工、外部数据等，具体维度可根据实际应用场景进行设置，本申请不以此为限。根据可疑交易监测所应覆盖的客户及对应的业务领域可以接入上游数据源。接入上游数据源的过程即是生成基础数据，并将这些基础数据填入基础数据表的过程。

具体而言，生成基础数据的过程如下：

第一步，可以梳理预先获取的可疑交易监测所应覆盖的客户及其对应的业务领域。梳理时一般可根据人民银行给出的风险提示文件及相关法律法规等监管要求来进行梳理，例如，可参考可疑交易监测模型所要监测的金融业务条线进行梳理或参考需要着重去关注的可疑交易行为识别点及客户身份特征进行梳理。这些梳理原则对应于具体的业务需求，可以根据具体的应用场景做出适应性的改变。

第二步，根据客户及业务领域去接入对应的上游数据源。以银行***为例，上游数据源可以包括：对公存款、对公贷款、对私存款、现金交易、***、电子银行、客户信息、员工信息、司法查冻扣数据、征信信息等上游数据。接入这些上游数据的方法一般为：先设计一个统一的数据接口，然后开发数据抽取、转换和加载程序(Extract-Transform-Load，ETL)进行数据加工，最后将加工后的上游数据通过统一的数据接口接入FeatureTools开源框架。一般这些上游数据可以被整合成交易、客户、账户、客户关系、外部数据等多个维度。

一实施例中，可将客户所有的银行交易数据如***业务、对私存款、电子银行、对私贷款等都整合到一张对私交易表中；将涉及客户相关上游数据如上市公司高管信息、内部员工信息、对私客户信息、对公客户基本信息、企业客户基本信息、征信信息、客户风险评级信息等整合到一张客户信息表中；将账户相关的上游数据如对私账户信息、对公账户信息、账户开销户信息等整合到一张账户信息表中；将所有外部数据如税务数据及工商数据等整合到外部信息表中。上游数据的数据维度可以根据实际应用场景不断进行拓展，例如可以增设电子设备信息维度、客户关系维度、客户信用维度等。利用以上方法可以完成多维度的上游数据源接入，最终确定实体集。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据客户及业务领域接入对应的上游数据源，生成基础数据表，并最终确定实体集。

一实施例中，输入参数包括：字典，本申请实施例获取输入参数的步骤包括：

根据基础数据表中各字段的字段类型对基础数据表中的各字段进行分类，并将分类后的各字段存储为四个字典。

可以理解的是，根据基础数据表中各字段的字段类型对各基础数据表中的各字段进行分类，可以分成以下几类：ID类、数值类、类别类及时间类，不同的字段类型将在衍生过程中起到不同的作用。一实施例的分类方法可参见下表。

分类后的结果可通过Python编程语言存储为四个字典，这四个字典分别对应ID类、数值类、类别类及时间类。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据基础数据表中各字段的字段类型对基础数据表中的各字段进行分类，并将分类后的各字段存储为四个字典。

参见图3，输入参数包括：分箱结果，本申请实施例获取输入参数的步骤包括：

S301：根据基础数据表中各字段的字段类型对各基础数据表中的各字段进行分类；

S302：根据预先设定的k值对分类后的基础数据表中的各多码值类别型字段进行分箱，得到分箱结果。

可以理解的是，在对基础数据表中的各字段进行分类后，可以根据各字段所属的分类对各字段进行标注，标注其为ID类、数值类、类别类或时间类。标注时可以在基础数据表中新增一列，用于填写各行记录对应的标记类型。

对于一些字段而言，其数据存在多码值，所谓多码值即是指字段所记载的数据种类超过十种，这样的字段典型的包括：行政区划、国家代码、交易币种类型、账户类型、交易方式、对私客户职业类型、证件类型、交易对手行政区划、交易对手开户地等。有时，有些字段的码值数量甚至达到三千多个，如行政区划代码字段。码值数量过多会导致衍生变量膨胀。为了大幅度降低衍生后可疑特征的冗余度，提升可疑交易监测模型的运算速度，并防止可疑交易监测模型发生训练过拟合的现象，需对这些多码值字段进行分箱处理。分箱即是对这些字段原始的类别进行特征降维，例如将国家类别这一字段中各个国家的名称略去，将其归纳为高风险、中高风险、中风险、中低风险及低风险这五个箱子。

本申请实施例中，分箱方法采用无监督k-means聚类算法实现，将欲被分箱的目标字段中的多码值降维为k类，k的值可取为9。该过程可通过Python编程语言实现，具体步骤如下：

1、通过Python导入sklearn库中的k-means函数

2、通过Python开发自定义函数：k-means分箱函数

3、确定k值，即分箱类别，然后给出k-means函数分箱聚类所需的历史数据及需要分箱的类别所对应的字典，上述字典即为分类后的各字段所对应的四个字典。其中，历史数据来源于各基础数据表。

4、利用自定义函数：k-means分箱函数计算分箱结果，并将分箱结果进行存储。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据预先设定的k值对分类后的基础数据表中的各多码值类别型字段进行分箱，得到分箱结果。

参见图4，输入参数包括：特征基元参数，本申请实施例获取输入参数的步骤包括：

S401：根据特征衍生数量及可疑交易监测场景选择特征基元；

S402：根据特征基元生成特征基元对应的特征基元参数。

可以理解的是，特征基元(Feature primitives)是在进行特征衍生时，数据聚合及转化所必须的衍生参数，它定义了从基础字段衍生出新特征的方法，所有的特征基元可以分为聚合基元(Aggregation)及转换基元(Transform)。

“转换基元”作用于单张基础数据表，对表内的一个或多个数据列完成操作来构造新特征。一实施例中，对客户交易明细表中的单列进行操作的过程如下：客户交易明细表中的交易日期(年月日)这一列，可衍生成新的几列，这新的几列即为衍生出的特征。对交易日期这一列进行特征衍生的结果可为将交易日期转换为是否为周末(is_weekend)，也可为将交易日期转换为当年的第几周(week)。一实施例中，对多数据列进行操作的过程如下：在对公客户信息表中，生成新的一列即衍生出一列新特征，这新的一列特征可以为将该表中客户财富值与对应企业的年收入水平做差生成。这新的一列特征是对表中原有两列的处理，即是对一张表中的多列的一个特征衍生。

“聚合基元”通过一对多的关联关系作用于多张基础数据表。根据Featuretools开源框架中的索引分组可以计算各衍生特征的统计量。其中，常用的聚合操作有计数count、求和sum、最大值max等，这些操作的结果即为统计量。例如，交易表与客户表通过客户编号进行关联后，可以衍生出对私客户过去一个月内交易对手国籍个数、对公客户交易对手涉及的不同行业类别数等；又例如，通过聚合操作可以统计每个账户一个月内的交易总额、交易总笔数、账户余额总和、交易额众数等。

Featuretools开源框架已开发出众多比较常用的转换和聚合的特征基元函数，本申请实施例可根据实际应用需求进行直接选取及调用。在Featuretools开源框架中，单独使用或者叠加使用这些特征基元函数可以构造出新的特征。通过Python编程语言调用Featuretools开源框架，可以根据欲生成的可疑交易监测模型的计算能力及可以交易监测场景选择合适的特征基元，调用特征基元函数，完成特征基元的输入。

一实施例中，可以利用Python编程语言自定义地开发特征基元函数，例如可以开发适用于反洗钱场景的账户沉睡期、临近大额笔数、连续交易天数、资金停留时间等Featuretools开源框架内没有的特征基元函数。

具体的自定义开发步骤如下：

(1)根据实际需求，确定自定义基元的类别是转换基元还是聚合基元；

(2)定义自定义基元的输入的数据类型及输出的数据类型；

(3)利用Python编程语言开发自定义基元的计算函数；

(4)导入Python开发包中的Featuretools开源框架，调用make_agg_primitive或make_trans_primitive对应的API接口，将上述计算函数加入特征基元清单，生成特征基元。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据特征衍生数量及可疑交易监测场景选择特征基元，并根据特征基元生成特征基元对应的特征基元参数。

一实施例中，输入参数还包括：预先确定的时间窗口及预先确定的兴趣值。

可以理解的是，定义特征衍生的时间窗口，即是确定特征在计算时所覆盖的历史数据范围，如计算30天内的客户交易笔数或3个月内客户现金交易金额等。时间窗口可参照实际业务的应用场景及人民银行的具体相关标准进行灵活设定。同时，考虑到在欲建立的可疑交易监测模型的算力允许的情况下应尽可能引入更多的交易数据参与特征计算这一原则，时间窗口的设定可以为：30天、60天、90天、180天等。其中，历史数据来源于各基础数据表。

另一方面，兴趣值是进行特征基元自定义的一种方式。兴趣值(Interestingvalues)在特征衍生中可作为特征变量的一种限定条件存在。通过对分箱后的字段进行“多维度组合”，可使新特征更为细化，使新特征更加贴合业务场景。一实施例中，SUM(账户交易金额where收付标识为01)为一新衍生出的特征，即求账户所有收付标识为01的交易金额总和，其中限定条件——“收付标识为01”即是这个特征的兴趣值。

一实施例中，可以从反洗钱监测场景出发来定义一些兴趣值，如：报送业务条线、业务种类、业务条线、借贷标志、交易种类、交易方式、交易渠道、资金用途、账户类型、账户性质、客户类型、交易地区、是否跨境交易、是否异地交易、产品种类、客户性别等。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据多张基础数据表及各基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，其中，输入参数可以包括预先确定的时间窗口及预先确定的兴趣值。

参见图5，本申请实施例得到特征矩阵的步骤包括：

S501：根据多张基础数据表生成训练样本；训练样本包括正样本数据、负样本数据及特殊负样本数据；

S502：根据训练样本、各基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到特征矩阵。

可以理解的是，在分别完成了对上述各输入参数的计算及设置后，即可开始利用Featuretools开源框架并基于深度特征合成算法进行自动化特征衍生，具体衍生过程如下：

(1)生成训练样本：在生成训练样本时，可根据S102中阐述的原则进行生成。生成训练样本的过程即是对正样本数据、负样本数据和特殊负样本数据进行选取的过程。

(2)根据各基础数据表所对应的实体集及各基础数据表之间的实体关系，从数据库中导入训练样本的所有实体，也就是说为训练样本填入具体的基础数据。

(3)导入Python编程语言开发包中的Featuretools开源框架。

(4)获取上述各输入参数及进行特征衍生的最大深度(max_depth)，本申请实施例中可将其设定为2。

(5)调用Featuretools开源框架中的深度特征合成函数，即DFS函数，并代入上述输入参数及进行特征衍生的深度，执行代码进行自动化特征衍生，最终将自动化特征衍生的结果存入特征矩阵。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够根据多张基础数据表生成训练样本，并根据各基础数据表对应的输入参数及特征衍生深度生成特征矩阵。

一实施例中，对特征矩阵进行特征提取包括：

过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征，得到提取后的特征。具体的过滤原则及方法参见下文阐述。

参见图6，本申请实施例过滤字段缺失率过高的特征的步骤包括：

S601：计算特征矩阵中各特征的缺失率；

S602：过滤缺失率大于预先设定的缺失率阈值的特征。

可以理解的是，本申请实施例可以选择缺失率(Missing value)的百分比大于缺失率阈值的特征。具体方法是通过设置missing_threshold去指定缺失率对应的阈值百分比。Feature-Selector开源框架内部的pandas库可统计特征矩阵中所有特征的缺失率，然后选择出缺失率大于缺失率阈值的特征，将其过滤掉。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够利用Feature-Selector开源框架内部的pandas库，计算特征矩阵中各特征的缺失率，并过滤掉缺失率大于预先设定的缺失率阈值的特征。

参见图7，本申请实施例过滤相关性过高的特征的步骤包括：

S701：计算特征矩阵中各特征的相关性；

S702：对于相关性大于预先设定的相关性阈值的特征，任意保留其中的一个特征。

可以理解的是，本申请实施例可以选择相关性大于相关性阈值的特征。具体方法是通过设置correlation_threshold去指定相关性对应的阈值百分比。Feature-Selector开源框架内部的pandas库可计算特征两两之间的相关性，然后选择出相关性大于相关性阈值的特征对，每一对中仅随机留下其中的一个特征。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够利用Feature-Selector开源框架内部的pandas库，计算特征两两之间的相关性，并选择出相关性大于相关性阈值的特征对，使得每一特征对中仅随机留下一个特征。

参见图8，本申请实施例过滤对模型预测结果无贡献的特征的步骤包括：

S801：利用梯度提升机计算特征矩阵中各特征的重要性分数；

S802：对重要性分数进行归一化处理，得到重要性归一化分数；

S803：过滤重要性归一化分数为零的特征。

可以理解的是，本申请实施例可以过滤掉对可疑特征监测模型的预测结果毫无贡献的特征，即Zero importance特征，从特征矩阵中去除或者保留该特征对可疑特征监测模型的训练结果不会有任何影响。

Feature-Selector开源框架内部的pandas库首先利用历史数据训练一个梯度提升机(Gradient Boosting Machine,GBM)，然后由梯度提升机得到每一个特征的重要性分数，再对所有特征的重要性分数进行归一化处理，过滤掉上述重要性分数等于零的特征。其中，历史数据来源于各基础数据表。为了使计算得到的各特征的重要性分数的方差保持在较小范围，Feature-Selector开源框架内部的pandas库会对梯度提升机进行多次训练，计算重要性分数，并取多次计算的平均值，得到最终的各特征的重要性分数。同时为了防止可疑特征监测模型的过拟合，Feature-Selector开源框架内部的pandas库会从特征矩阵中抽取一部分特征作为验证集，在训练梯度提升机的时候，可以计算梯度提升机在验证集上的某一矩阵，当上述矩阵满足一定条件时，则停止对梯度提升机的训练。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够利用梯度提升机，过滤对模型预测结果无贡献的特征。

参见图9，本申请实施例过滤对模型预测结果贡献过低的特征的步骤包括：

S901：利用梯度提升机计算特征矩阵中各特征的重要性分数；

S902：对重要性分数进行归一化处理，得到重要性归一化分数；

S903：过滤重要性归一化分数低于预先设定的贡献率阈值的特征。

可以理解的是，本申请实施例可以利用S801～S803的计算结果，过滤掉对贡献率低于贡献率阈值的特征，即Low importance特征。

从上述描述可知，本申请提供的可疑交易监测模型特征提取方法，能够利用梯度提升机，过滤对模型预测结果低贡献的特征。

一实施例中，本申请提供的可疑交易监测模型特征提取方法还能够过滤上述特征矩阵中仅具有单一值的特征。

可以理解的是，仅具有单一值的特征表示在上述特征矩阵中该特征的取值集合中只包含一个元素。仅具有单一值的特征的方差为零，对于可疑交易监测模型的训练不会有任何作用，从信息熵的角度来看，仅具有单一值的特征的熵为0，因此可以将其过滤掉。

除了以上过滤原则外，根据不同的可疑交易监测场景、不同的监管要求及不同的业务需求还可以增设其他过滤原则。

本申请实施例的可重复性高，能够适用于大多数可疑交易监测模型的样本准备及建立，能够进行不同可疑交易场景下的可疑特征挖掘。本申请实施例改进了传统的手动特征工程的标准流程，其中的自动化流程大幅度减少了特征工程在项目开发过程中所花费的时间成本，具有高可靠性。另外由于减少了人工干预的环节，本申请实施例能够很好地解决可疑交易监测模型建立过程中信息泄露的问题，避免了传统特征工程中在特征构造时容易出错的弊端，缩小了人为主观的局限性。

本申请实施例自动化衍生的特征具有完全的可解释性，并能够兼容现有技术中的各种机器学习及规则模型的模型管道，灵活性高，能够提供多种自定义接口，如自定义兴趣值、自定义特征基元、自定义时间窗口，来满足各种实际业务需求及监管要求。

基于同一发明构思，本申请实施例还提供了一种可疑交易监测模型特征提取装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于可疑交易监测模型特征提取装置解决问题的原理与可疑交易监测模型特征提取方法相似，因此可疑交易监测模型特征提取装置的实施可以参见基于软件性能基准确定方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

参见图10，为了能够实现不同可疑交易场景下的可疑特征挖掘，本申请提供一种可疑交易监测模型特征提取装置，包括：获取单元1001、衍生单元1002及提取单元1003。

获取单元1001，用于获取多张基础数据表及各所述基础数据表对应的输入参数；

衍生单元1002，用于根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵；

提取单元1003，用于对所述特征矩阵进行特征提取。

参见图11，所述衍生单元1002包括：样本生成模块1101及矩阵生成模块1102。

样本生成模块1101，用于根据所述多张基础数据表生成所述训练样本；所述训练样本包括正样本数据、负样本数据及特殊负样本数据；

矩阵生成模块1102，用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到所述特征矩阵。

参见图12，所述提取单元1003包括：

过滤模块1201，具体用于过滤掉字段缺失率过高的特征、相关性过高的特征、对模型预测结果无贡献的特征、对模型预测结果贡献过低的特征及仅具有单一值的特征，得到提取后的特征。

从硬件层面来说，为了能够实现不同可疑交易场景下的可疑特征挖掘，本申请提供一种可疑交易监测模型特征提取方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(Processor)、存储器(Memory)、通讯接口(Communications Interface)和总线；其中，所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯；所述通讯接口用于实现所述可疑交易监测模型特征提取装置与核心业务***、用户终端以及相关数据库等相关设备之间的信息传输；该逻辑控制器可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该逻辑控制器可以参照实施例中的可疑交易监测模型特征提取方法的实施例，以及可疑交易监测模型特征提取装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

可以理解的是，所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，可疑交易监测模型特征提取方法的部分可以在如上述内容所述的电子设备侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通讯模块(即通讯单元)，可以与远程的服务器进行通讯连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

图13为本申请实施例的电子设备9600的***构成的示意框图。如图13所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图13是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，可疑交易监测模型特征提取方法功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

S101：获取多张基础数据表及各基础数据表对应的输入参数。

S103：对特征矩阵进行特征提取。

在另一个实施方式中，可疑交易监测模型特征提取装置可以与中央处理器9100分开配置，例如可以将可疑交易监测模型特征提取装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现可疑交易监测模型特征提取方法的功能。

如图13所示，该电子设备9600还可以包括：通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图13中所示的所有部件；此外，电子设备9600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通讯终端的情况相同。

基于不同的通讯技术，在同一电子设备中，可以设置有多个通讯模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的可疑交易监测模型特征提取方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的可疑交易监测模型特征提取方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S101：获取多张基础数据表及各基础数据表对应的输入参数。

S103：对特征矩阵进行特征提取。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种可疑交易监测模型特征提取方法，其特征在于，包括：

获取多张基础数据表及各所述基础数据表对应的输入参数；

对所述特征矩阵进行特征提取；

其中，所述根据所述多张基础数据表及各所述基础数据表对应的输入参数对预先生成的训练样本进行自动化特征衍生，得到特征矩阵，包括：

根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到所述特征矩阵；

其中，特殊负样本数据是指命中可疑交易监测模型，但被甄别人员确定为非可疑人员的客户在非可疑时间段内的所有交易及其客户相关信息。

2.根据权利要求1所述的可疑交易监测模型特征提取方法，其特征在于，获取多张基础数据表的步骤，包括：

获取可疑交易监测所应覆盖的客户及对应的业务领域；

3.根据权利要求1所述的可疑交易监测模型特征提取方法，其特征在于，所述输入参数包括：分箱结果；获取所述输入参数的步骤，包括：

4.根据权利要求1所述的可疑交易监测模型特征提取方法，其特征在于，所述输入参数包括：特征基元参数；获取所述输入参数的步骤，包括：

根据特征衍生数量及可疑交易监测场景选择特征基元；

根据所述特征基元生成所述特征基元对应的特征基元参数。

5.根据权利要求1所述的可疑交易监测模型特征提取方法，其特征在于，所述输入参数包括：字典；获取所述输入参数的步骤，包括：

6.根据权利要求1所述的可疑交易监测模型特征提取方法，其特征在于，所述对所述特征矩阵进行特征提取，包括：

7.根据权利要求6所述的可疑交易监测模型特征提取方法，其特征在于，过滤所述字段缺失率过高的特征，包括：

计算所述特征矩阵中各所述特征的缺失率；

过滤所述缺失率大于预先设定的缺失率阈值的特征。

8.根据权利要求6所述的可疑交易监测模型特征提取方法，其特征在于，过滤所述相关性过高的特征，包括：

计算所述特征矩阵中各所述特征的相关性；

9.根据权利要求6所述的可疑交易监测模型特征提取方法，其特征在于，过滤所述对模型预测结果无贡献的特征，包括：

过滤所述重要性归一化分数为零的特征。

10.根据权利要求6所述的可疑交易监测模型特征提取方法，其特征在于，过滤所述对模型预测结果贡献过低的特征，包括：

11.一种可疑交易监测模型特征提取装置，其特征在于，包括：

提取单元，用于对所述特征矩阵进行特征提取；

其在，所述衍生单元，包括：

矩阵生成模块，用于根据所述训练样本、各所述基础数据表对应的输入参数及特征衍生深度进行自动化特征衍生，得到所述特征矩阵；

12.根据权利要求11所述的可疑交易监测模型特征提取装置，其特征在于，所述提取单元包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述的可疑交易监测模型特征提取方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述的可疑交易监测模型特征提取方法的步骤。