CN109615020A

CN109615020A - 基于机器学习模型的特征分析方法、装置、设备及介质

Info

Publication number: CN109615020A
Application number: CN201811588694.XA
Authority: CN
Inventors: 谭辉; 李元; 汪亚男; 邱毅
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-04-12

Abstract

本发明公开了一种基于机器学习模型的特征分析方法、装置、设备及介质，该方法包括：基于获取到的目标样本及第一训练样本集，确定第二训练样本集；所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型；将预测样本输入至所述分类模型，得到所述预测样本的样本类别；当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。本发明实现了基于机器学习模型进行业务分类时，不改变分类模型算法即可实现单个样本的特征分析。

Description

基于机器学习模型的特征分析方法、装置、设备及介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于机器学习模型的特征分析方法、装置、设备及介质。

背景技术

结合机器学习模型对业务样本进行预测分类时，每个业务样本都有多个特征，而每个特征对业务样本的分类结果的贡献程度是不同的，样本的特征重要性表征在该样本被分类模型判定为某一类别时，该样本的多个特征对当前判定结果的重要程度。

目前的机器学习模型，如决策树，其算法相对简单，虽然可以从分类结果获知单个样本的特征重要性，但其分类效果不好，因此很少使用；而分类效果更好的机器学习模型，如SVM(Support Vector Machine，支持向量机)、神经网络等，用户只能根据模型输出的分类结果获知单个业务样本属于什么类别，但无法知道模型主要是根据该样本的哪些特征判定该样本为当前类别的，即用户无法获知该判定结果下单个样本的特征重要性，除非把算法完全打开修改相关源码，但这需要很深的算法知识。

发明内容

本发明的主要目的在于提供一种基于机器学习模型的特征分析方法、装置、设备及介质，旨在基于不改变分类模型算法的前提下，实现单个样本的特征分析，使用户不仅可以获知业务样本的分类结果，还可以获知该分类结果下业务样本的特征重要性，从而辅助用户更好地根据样本的特征重要性进行业务判断。

为实现上述目的，本发明提供一种基于机器学习模型的特征分析方法，所述基于机器学习模型的特征分析方法包括以下步骤：

基于获取到的目标样本及第一训练样本集，确定第二训练样本集；所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；

根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型；

将预测样本输入至所述分类模型，得到所述预测样本的样本类别；

当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

可选地，所述第二训练样本集包括多个第二训练样本，所述基于获取到的目标样本及第一训练样本集，确定第二训练样本集的步骤包括：

获取目标样本、第一训练样本集及多个初始训练样本；

对所述初始训练样本乘所述第一训练样本集的标准差后，与所述目标样本相加，将相加的结果作为第二训练样本；

基于得到的多个所述第二训练样本，确定第二训练样本集。

可选地，所述根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型的步骤包括：

计算所述目标样本与所述第二训练样本之间的欧式距离；

根据预设计算公式以及所述第二训练样本对应的欧式距离计算所述第二训练样本的入参系数；

获取所述分类模型针对所述第二训练样本的预测值；

将所述多个第二训练样本、多个第二训练样本分别对应的入参系数及预测值作为入参进行岭回归模型训练，得到的训练结果作为特征分析模型。

可选地，所述当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果的步骤之前还包括：

基于所述第二训练样本集，对所述特征分析模型进行准确性验证；

判断所述特征分析模型是否通过准确性验证，若通过，则进入步骤：当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

可选地，所述基于所述第二训练样本集，对所述特征分析模型进行准确性验证的步骤包括：

从所述特征分析模型中获取符合预设条件的若干个模型特征；

根据所述若干个模型特征训练所述特征分析模型得到多个第一预测值；

将所述第二训练样本集包括的多个第二训练样本分别输入所述分类模型，得到多个第二预测值；

根据所述多个第一预测值及所述多个第二预测值，对所述特征分析模型进行准确性验证。

此外，本发明还提供一种基于机器学习模型的特征分析装置，所述基于机器学习模型的特征分析装置包括：

提取模块，用于基于获取到的目标样本及第一训练样本集，确定第二训练样本集；所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；

训练模块，用于根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型；

判定模块，用于将预测样本输入至所述分类模型，得到所述预测样本的样本类别；

分析模块，用于当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

可选地，所述第二训练样本集包括多个第二训练样本，所述提取模块包括：

第一获取单元，用于获取目标样本、第一训练样本集及多个初始训练样本；

处理单元，用于对所述初始训练样本乘所述第一训练样本集的标准差后与所述目标样本相加，将相加的结果作为第二训练样本；

确定单元，用于基于得到的多个所述第二训练样本，确定第二训练样本集。

可选地，所述训练模块包括：

第一计算单元，用于计算所述目标样本与所述第二训练样本之间的欧式距离；

第二计算单元，用于根据预设计算公式以及所述第二训练样本对应的欧式距离计算所述第二训练样本的入参系数；

第二获取单元，用于获取所述分类模型针对所述第二训练样本的预测值；

训练单元，用于将所述多个第二训练样本、多个第二训练样本分别对应的入参系数及预测值作为入参进行岭回归模型训练，得到的训练结果作为特征分析模型。

可选地，所述装置还包括：

验证模块，用于基于所述第二训练样本集，对所述特征分析模型进行准确性验证；

判断模块，用于判断所述特征分析模型是否通过准确性验证，并当判断出所述特征分析模型通过准确性验证后，发送判断结果“通过”至所述分析模块；

所述分析模块，还用于在接收到所述判断模块发送的判断结果为“通过”后，当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

可选地，所述验证模块包括：

提取单元，用于从所述特征分析模型中获取符合预设条件的若干个模型特征；

第三计算单元，用于根据所述若干个模型特征训练所述特征分析模型得到多个第一预测值；

第四计算单元，用于将所述第二训练样本集包括的多个第二训练样本分别输入所述分类模型，得到多个第二预测值；

验证单元，用于根据所述多个第一预测值及所述多个第二预测值，对所述特征分析模型进行准确性验证。

此外，本发明还提供一种基于机器学习模型的特征分析设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习模型的特征分析程序，所述基于机器学习模型的特征分析程序被所述处理器执行时实现如上所述的基于机器学习模型的特征分析方法的步骤。

此外，本发明还提供一种介质，应用于计算机，所述介质上存储有基于机器学习模型的特征分析程序，所述基于机器学习模型的特征分析程序被处理器执行时实现如上所述的基于机器学习模型的特征分析方法的步骤。

本发明基于获取到的目标样本及第一训练样本集，确定第二训练样本集；所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型；将预测样本输入至所述分类模型，得到所述预测样本的样本类别；当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果；由此，根据基于目标样本及第一训练样本集确定的第二训练样本集进行特征分析模型的训练，无需修改分类模型的源代码即可实现单个预测样本的重要特征的分析，解决了现有技术中使用分类效果好但算法复杂的分类模型进行样本分类时，用户只能根据模型输出的分类结果获知单个业务样本属于什么类别，但无法知道模型主要是根据该样本的哪些特征判定该样本为当前类别的，即无法获知该判定结果下单个样本的特征重要性的问题，本发明在无需修改分类模型算法，避免对分类模型算法的侵入的情况下，提升了模型分类结果的参考价值，可以辅助业务更好的根据分类结果进行业务判断及开展。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于机器学习模型的特征分析方法第一实施例的流程示意图；

图3为本发明基于机器学习模型的特征分析方法第二实施例的流程示意图；

图4为本发明基于机器学习模型的特征分析方法第三实施例的流程示意图；

图5为图4中步骤S310的细化步骤示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为样本特征分析设备的硬件运行环境的结构示意图。本发明实施例样本特征分析设备可以是PC，便携计算机等终端设备。

如图1所示，该样本特征分析设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的样本特征分析设备结构并不构成对样本特征分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于机器学习模型的特征分析程序。其中，操作***是管理和控制样本特征分析设备硬件和软件资源的程序，支持基于机器学习模型的特征分析程序以及其它软件或程序的运行。

在图1所示的样本特征分析设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于机器学习模型的特征分析程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的基于机器学习模型的特征分析程序，并执行以下步骤：

获取目标样本、第一训练样本集及多个初始训练样本；

对所述初始训练样本乘所述第一训练样本集的标准差后与所述目标样本相加，将相加的结果作为第二训练样本；

基于得到的多个所述第二训练样本，确定第二训练样本集。

计算所述目标样本与所述第二训练样本之间的欧式距离；

获取所述分类模型针对所述第二训练样本的预测值；

基于上述的结构，提出基于机器学习模型的特征分析方法的各个实施例。

参照图2，图2为本发明基于机器学习模型的特征分析方法第一实施例的流程示意图。

本发明实施例提供了基于机器学习模型的特征分析方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例基于机器学习模型的特征分析方法应用于特征分析设备，本发明实施例特征分析设备可以是PC，便携计算机等终端设备，在此不做具体限制。

本实施例基于机器学习模型的特征分析方法包括：

步骤S100，基于获取到的目标样本及第一训练样本集，确定第二训练样本集；其中，所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到。

随着大数据及机器学习的快速发展，使用机器学习模型进行业务分类及预测的应用范围也越来越广，结合机器学习模型对业务样本进行预测分类时，每个业务样本都有多个特征，而每个特征对业务样本的分类结果的贡献程度是不同的，样本的特征重要性表征在：该样本被分类模型判定为某一类别时，该样本的多个特征对当前判定结果的重要程度，判定结果越重要，样本的特征就越重要。

目前，常用的分类模型有决策树、逻辑回归、SVM、随机森林、神经网络等，其中，很多复杂的机器学习分类模型都是黑盒，即输入是样本的多个特征值，输出为样本的分类结果，至于为什么从多个特征值可以推导出分类结果，不可知；本申请中，可以在采用复杂的分类算法，并且在不改变分类模型的源代码的情况下，实现单个样本的可解释性分析，其中，可解释性是描述为什么从这么多特征值可以推导出分类结果以及哪些特征对分类结果的影响最大。

目前机器学习算法的可解释性分两类：决策树、逻辑回归等相对比较简单算法，可以有单个样本的特征重要性直接使用；而比如SVM、神经网络等相对复杂的算法，单个样本的特征重要性无法得到，金融***在使用机器学习模型时，如果是决策树等相对简单的算法，虽然有单个样本的特征重要性，但是算法分类效果不好，因此很少使用；如果是逻辑回归等算法，有模型的特征重要性，即输入多个不同的样本，模型可以对这多个样本分别给出针对某一类别的概率，但是没有针对单个样本特征重要性的输出；如果是算法复杂，分类效果更好的模型时，单个样本的解释性需要把算法完全打开修改相关源码，而这需要很深的算法知识。

金融***在使用机器学习时，对模型的可解释性非常看重，例如，在反洗钱领域，所有洗钱案例监管都有严格规定要从客户、账户、交易等层面去说明客户为什么有洗钱嫌疑，而机器学习模型，如神经网络模型，在反洗钱领域实际应用时，只能判定客户是否具有洗钱嫌疑，却并不能够说明客户为什么具有洗钱嫌疑，这样的判定结果对业务人员更好的分析及判断客户的是否真的洗钱并不会起到太大作用。

本实施例中，先获取目标样本以及第一训练样本，其中，目标样本是含有特定特征(若应用于反洗钱识别，则特定特征优选为洗钱类别的特征)的样本。基于获取到的目标样本及第一训练样本集，确定第二训练样本集，所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；具体的，所述分类模型包括但不限于决策树、逻辑回归、SVM、神经网络等，目标样本经过分类模型分类后，被确定为该分类模型对应的某一样本类别；例如，目标样本包括某一客户的特征信息，如行为特征等，构建的分类模型是针对客户是否具有洗钱嫌疑来做分类，该目标样本经过分类模型分类后，被判定为具有洗钱嫌疑，可以理解的是，对应于构建的分类模型是针对客户是否具有洗钱嫌疑来做分类，第一训练样本集中包括多个客户样本的特征信息，这些客户样本中有具有洗钱嫌疑的坏样本，也有不具有洗钱嫌疑的好样本；该目标样本及第一训练样本集均以客户为维度，可以具有多个描述客户行为的特征，比如客户当天转入金额、转出金额、交易发生在高危地区的次数等这样特征。

在本实施例中，相当于选取若干个包含客户特征信息的客户样本(即上述的目标样本)，这些客户样本随机分布，然后对这若干个随机分布的客户样本做处理，改变这若干个客户特征样本的空间分布，最终得到分布在目标样本周围且具有洗钱嫌疑的客户样本的特征集作为第二训练样本集，通过对多个具有洗钱嫌疑的客户样本建模分析具有洗钱嫌疑的客户的特征重要性。

步骤S200，根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型。

对分布在目标样本周围的第二训练样本集中包括的多个客户特征进行重要性分析，具体地，选取回归算法模型，将从第二训练样本集中获取到的数据代入回归算法模型中计算，以得到关于多个客户特征的线性输出结果，根据结果表达式中各个特征的系数进行特征重要性排序，得到该特征分析模型中的各个重要特征，即得到了同一样本类别下的客户多个特征的重要性排序，进一步地，所述回归算法模型可以是岭回归模型、也可以是回归模型。

步骤S300，将预测样本输入至所述分类模型，得到所述预测样本的样本类别。

将预测样本输入至基于第一训练样本集构建的分类模型对预测样本分类，得到预测样本的分类结果(即样本类别)。

步骤S400，当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

判断预测样本的分类结果是否与目标样本的类别一致，如预测样本是否也具有洗钱嫌疑，若预测样本经过分类模型判定为具有洗钱嫌疑，将当前预测样本输入至构建的针对具有洗钱嫌疑用户的特征分析模型，得到该预测样本的特征重要性。

进一步地，当所述分类模型判定出所述目标样本及所述预测样本均具有洗钱嫌疑时，所述分类模型输出的针对所述目标样本的预测值及针对所述预测样本的预测值可能相同，但也可能不同。在本实施例中，当两个预测值不同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果之前，作为一种实施方式，可选先判断所述两个预测值之间的差值是否小于预设阈值，若小于，则说明选取的目标样本与预测样本都具有洗钱嫌疑的前提下，二者的样本差异在预设范围内，再将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果，由此，可以提升针对预测样本的特征分析的准确性；由此，业务人员根据机器学习模型获知该业务样本具有洗钱嫌疑的同时，还可获知该业务样本中各个特征的重要性，业务人员可以结合单个样本各个特征的重要性，对该业务样本是否真的洗钱进行判断，减轻业务人员工作量同时，本发明应用到反洗钱领域也可以满足监管要求。

本发明基于获取到的目标样本及第一训练样本集，确定第二训练样本集；所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到；根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型；将预测样本输入至所述分类模型，得到所述预测样本的样本类别；当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果；由此，根据基于目标样本及第一训练样本集确定的第二训练样本集进行特征分析模型的训练，无需修改分类模型的源代码即可实现单个预测样本的重要特征的分析，解决了现有技术中，使用分类效果好但算法复杂的分类模型进行样本分类时，用户只能根据模型输出的分类结果获知单个业务样本属于什么类别，但无法知道模型主要是根据该样本的哪些特征判定该样本为当前类别的，即无法获知该判定结果下单个样本的特征重要性的问题，本发明在无需修改分类模型算法，避免对分类模型算法的侵入的情况下，提升了模型分类结果的参考价值，辅助业务更好的根据分类结果进行业务判断及开展。

进一步地，提出本发明基于机器学习模型的特征分析方法第二实施例。

参照图3，图3为本发明基于机器学习模型的特征分析方法第二实施例的流程示意图，基于上述基于机器学习模型的特征分析方法第一实施例，本实施例中，步骤S100，基于获取到的目标样本及第一训练样本集，确定第二训练样本集的步骤包括：

步骤S101，获取目标样本、第一训练样本集及多个初始训练样本；其中，所述目标样本具有经过分类模型判定的预设样本类别，所述分类模型由所述第一训练样本集训练得到。

在本实施例中，采用随机生成且经过标准化处理后的均值为0，标准差为1的多个不同的初始训练样本。

步骤S102，对所述初始训练样本乘所述第一训练样本集的标准差后，与所述目标样本相加，将相加的结果作为第二训练样本；

分别对每个初始训练样本乘所述第一训练样本集的标准差，然后再将相乘结果与所述目标样本相加，将相加的结果作为第二训练样本。应该理解，将初始训练样本与第一训练样本集的标准差的相乘之后，再与目标样本进行相加，实现了在目标样本的周围产生了第二训练样本集。通过这种操作方式，实现了产生的第二训练样本集更加符合目标样本的实际情况，提高了后续特征分析的准确性。

步骤S103，基于得到的多个所述第二训练样本，确定第二训练样本集。

在目标样本的周围生成多个不同的第二训练样本，由此确定第二训练样本集。

作为一种实施方式，目标样本以客户为维度，样本包括多个特征来描述客户行为，比如客户当天转入金额、转出金额、交易发生在高危地区的次数等，目标样本经过分类模型分类后被判定为该客户具有洗钱嫌疑后，第二训练样本集中的多个第二训练样本为分布在目标样本周围且均具有洗钱嫌疑的客户样本，其均包括对应客户的行为特征等客户特征信息。

进一步地，步骤S200，根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型的步骤包括：

步骤S201，计算所述目标样本与所述第二训练样本之间的欧式距离；

根据欧式距离的计算公式分别计算第二训练样本集中的每个第二训练样本与目标样本之间的欧式距离，并将第二训练样本集中的第i个第二训练样本与目标样本之间的欧式距离表示为D_i。

步骤S202，根据预设计算公式以及所述第二训练样本对应的欧式距离计算所述第二训练样本的入参系数；

在本实施例中，根据预设计算公式以及所述第二训练样本对应的欧式距离计算所述第二训练样本的入参系数，相当于根据预设计算公式中的标准差和第二训练样本对应的欧式距离，计算第二训练样本的入参系数，即基于预设计算公式：计算得到第i个第二训练样本的入参系数(即权重)W_i，其中，D_i为第i个第二训练样本与目标样本之间的欧式距离，σ为所述第一训练样本集的标准差，e是无理数，数值约等于2.718，可以理解的是，i为大于1的正整数，i的取值范围在1至第二训练样本集中包括的第二训练样本的个数之间。

步骤S203，获取所述分类模型针对所述第二训练样本的预测值；

通过根据所述第一训练样本集训练得到的分类模型对第二训练样本集中的每个第二训练样本进行预测，得到关于每个第二训练样本的预测值，其中，分类模型包括但不限于：决策树、逻辑回归、SVM、神经网络等。

步骤S204，将所述多个第二训练样本、多个第二训练样本分别对应的入参系数及预测值作为入参进行岭回归模型训练，得到的训练结果作为特征分析模型。

将多个第二训练样本、多个第二训练样本分别对应的入参系数及预测值作为变量代入计算公式进行岭回归模型训练，其中，n为第二训练样本集中包括的第二训练样本的个数，i的取值范围在1至n之间，α为随机数，根据数值根据实际情况设定，β_i为上述步骤计算得到的第i个第二训练样本的入参系数W_i，y为获取到的所述分类模型针对所述第二训练样本的预测值，x_i为第i个第二训练样本。

第二训练样本集中包括多个具有洗钱嫌疑客户的多个特征，将这多个特征记作特征1,特征2,特征3,......,特征10，特征11等，经过所述岭回归模型计算后得到的输出结果为coef1*特征1+coef2*特征2+coef3*特征3+...+coef10*特征10+...+b，其中,coef值为每个特征的系数，b为偏离值，根据coef值对特征1,特征2,特征3,......,特征10，特征11等进行排序，得到模型的重要特征的重要性排序，即特征1,特征2,特征3,......,特征10，特征11等多个特征的不同的重要性。

将预测样本输入至所述分类模型，得到所述预测样本的样本类别，当检测到所述预测样本的样本类别与所述预设样本类别相同时，即均具有洗钱嫌疑时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果，即得到预测样本中多个特征的重要性。

可以理解的是，应用到反洗钱领域时，分类模型的训练样本和预测样本的特征都是根据规则来抽取的，如客户交易金额达到大额标准、交易发生地在涉毒地区、客户职业多为无业等特征，通过本发明实施例方法，对业务给出单个预测样本有洗钱嫌疑的同时，还可给出单个样本的特征重要性，本发明基于机器学习模型的特征分析方法，适用各种不同的预测模型，业务人员根据预测模型的预测结果及单个样本的特征重要性，来判断客户是否真的可疑，减轻业务人员工作量，增加业务判断的可靠性；金融***在使用机器学习模型做业务分类时，对模型的可解释性非常看重，如在反洗钱领域，所有洗钱案例监管都有严格规定，要从客户、账户、交易等层面去说明客户为什么有洗钱嫌疑，通过本发明方法可以实现单个样本的特征重要性分析，满足了监管要求。

进一步地，提出本发明基于机器学习模型的特征分析方法第三实施例。

参照图4，图4为本发明基于机器学习模型的特征分析方法第三实施例的流程示意图，基于上述基于机器学习模型的特征分析方法第二实施例，本实施例中，步骤S400，当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果的步骤之前还包括：

步骤S310，基于所述第二训练样本集，对所述特征分析模型进行准确性验证；

步骤S320，判断所述特征分析模型是否通过准确性验证，若通过，则进入步骤S400：当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果。

作为一种实施方式，参照图5，图5为本实施例中步骤S310的细化步骤示意图，具体地，步骤S310，基于所述第二训练样本集，对所述特征分析模型进行准确性验证可以包括如下细化步骤：

步骤S311，从所述特征分析模型中获取符合预设条件的若干个模型特征；

步骤S312，根据所述若干个模型特征训练所述特征分析模型得到多个第一预测值；

步骤S313，将所述第二训练样本集包括的多个第二训练样本分别输入所述分类模型，得到多个第二预测值；

步骤S314，根据所述多个第一预测值及所述多个第二预测值，对所述特征分析模型进行准确性验证。

根据第二训练样本集获取特征分析模型的特征后，按特征重要性的优先级抽取优先级高的若干个特征，根据这若干个特征训练特征分析模型，得到多个第一预测值ypred；将第二训练样本集包括的多个第二训练样本分别输入基于第一训练样本集训练的分类模型中，得到与多个第二训练样本分别对应的多个第二预测值ytrue，计算得到这多个第二预测值的平均值ytrue.mean()，根据ypred、多个ytrue以及ytrue.mean()计算拟合值R：R＝1-u/v，其中

k为第二训练样本集包括的第二训练样本的个数，当R值高于设定的阈值时，则判断所述特征分析模型通过准确性验证，可以理解的是，阈值可以由用户自行设定，阈值越高则特征分析模型的结果准确性越高；特征分析模型通过准确性验证后，即可对具有预设样本类别的预测样本进行样本特征分析，得到所述预测样本的特征分析结果，由此，可以提高单个样本特征分析的准确性。得到重要特征之后，以便用户基于重要特征进行用户可疑性分析和判断，以减轻人工在反洗钱领域的用户分析工作量，并提高分析准确性。

此外，本发明实施例还提出一种基于机器学习模型的特征分析装置，所述基于机器学习模型的特征分析装置包括：

优选地，所述第二训练样本集包括多个第二训练样本，所述提取模块包括：

优选地，所述训练模块包括：

优选地，所述装置还包括：

优选地，所述验证模块包括：

本实施例提出的基于机器学习模型的特征分析装置各个模块运行时实现如上所述的基于机器学习模型的特征分析方法的步骤，在此不再赘述。

此外，本发明实施例还提出一种介质，应用于计算机，即所述介质为计算机可读存储介质，所述介质上存储有基于机器学习模型的特征分析程序，所述基于机器学习模型的特征分析程序被处理器执行时实现如上所述的基于机器学习模型的特征分析方法的步骤。

其中，在所述处理器上运行的基于机器学习模型的特征分析程序被执行时所实现的方法可参照本发明基于机器学习模型的特征分析方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习模型的特征分析方法，其特征在于，所述基于机器学习模型的特征分析方法包括以下步骤：

2.如权利要求1所述的基于机器学习模型的特征分析方法，其特征在于，所述第二训练样本集包括多个第二训练样本，所述基于获取到的目标样本及第一训练样本集，确定第二训练样本集的步骤包括：

获取目标样本、第一训练样本集及多个初始训练样本；

基于得到的多个所述第二训练样本，确定第二训练样本集。

3.如权利要求2所述的基于机器学习模型的特征分析方法，其特征在于，所述根据预设训练规则以及所述第二训练样本集，训练得到特征分析模型的步骤包括：

计算所述目标样本与所述第二训练样本之间的欧式距离；

获取所述分类模型针对所述第二训练样本的预测值；

4.如权利要求1-3中任一项所述的基于机器学习模型的特征分析方法，其特征在于，所述当检测到所述预测样本的样本类别与所述预设样本类别相同时，将所述预测样本输入至所述特征分析模型，得到所述预测样本的特征分析结果的步骤之前还包括：

5.如权利要求4所述的基于机器学习模型的特征分析方法，其特征在于，所述基于所述第二训练样本集，对所述特征分析模型进行准确性验证的步骤包括：

6.一种基于机器学习模型的特征分析装置，其特征在于，所述基于机器学习模型的特征分析装置包括：

7.如权利要求6所述的基于机器学习模型的特征分析装置，其特征在于，所述第二训练样本集包括多个第二训练样本，所述提取模块包括：

8.如权利要求7所述的基于机器学习模型的特征分析装置，其特征在于，所述训练模块包括：

9.如权利要求6-8中任一项所述的基于机器学习模型的特征分析装置，其特征在于，所述装置还包括：

10.如权利要求9所述的基于机器学习模型的特征分析装置，其特征在于，所述验证模块包括：

11.一种基于机器学习模型的特征分析设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于机器学习模型的特征分析程序，所述基于机器学习模型的特征分析程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于机器学习模型的特征分析方法的步骤。

12.一种介质，其特征在于，应用于计算机，所述介质上存储有基于机器学习模型的特征分析程序，所述基于机器学习模型的特征分析程序被处理器执行时实现如权利要求1至5中任一项所述的基于机器学习模型的特征分析方法的步骤。