CN116934470A

CN116934470A - 一种基于聚类采样和元集成的金融交易风险评估方法

Info

Publication number: CN116934470A
Application number: CN202310679550.XA
Authority: CN
Inventors: 高英; 肖皓朗; 梁凌睿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-24

Abstract

本发明公开了一种基于聚类采样和元集成的金融交易风险评估方法，所述方法包括以下步骤：通过基于监督模糊聚类的采样机制，构建多样化的训练子集，使子集中风险交易与正常交易的数量达到平衡，并且子集的并集能尽量覆盖原始完整金融交易数据集，然后训练基分类器；通过基于分类困难和模型多样性的指标计算提取元特征，同时考虑类别重叠等问题导致的分类困难以及基分类器的多样性来做出集成选择判断；基于自注意网络和卷积神经网络构建元聚合器，使其能同时考虑多个基分类器的相对表现，而不仅仅只是根据单个基分类器的表现为其赋予权重。本发明在提高模型对风险交易的识别能力上有更好的表现，并且能够尽量不影响模型对正常交易的预测能力。

Description

一种基于聚类采样和元集成的金融交易风险评估方法

技术领域

本发明涉及金融交易风险评估领域，具体涉及一种基于聚类采样和元集成的金融交易风险评估方法。

背景技术

在现实生活中的许多分类问题(包括金融交易风险评估)中，属于正类的观测数目明显小于属于负类的观测数目。例如，信用欺诈检测依赖于包含大量真实***交易的数据集，但其中只有一小部分是欺诈交易。在类别不平衡数据集上训练模型，一方面，由于正负样本分布不均衡，多数类样本的数量过多，模型的分类结果可能会偏向多数，而少数类通常被忽略，导致对少数类分类表现不佳。当数据集很大且有噪声时，情况可能会更糟。另一方面，少数类通常携带比多数类更多让人感兴趣的信息。到目前为止，许多研究都集中在最小化类别不平衡对金融交易风险评估模型最终预测的影响。这些工作可以分为三类：数据级、算法级以及成本敏感分析。

1.数据级

数据集的不平衡比定义为多数类样本的数量除以少数类样本的数量。不平衡学***衡各类别分布，使数据集的不平衡比近似于1。随机欠抽样和随机过采样是两项经典的重采样方法，前者随机地选择或丢弃多数类样本，后者随机复制少数类样本。然而，传统的重采样方法由于其采样模式极为简单，可能存在一定的不足。例如，随机欠采样无法根据样本的重要程度来选择样本，因此抽取的样本子集很可能会遗漏某些重要信息；随机过采样多次复制已有样本并将其添加到原始数据集，因此分类器可能会过拟合。

合成少数类过采样技术利用少数类样本的最近邻生成合成少数类样本，是经典的合成技术。一些研究采用合成少数过采样技术或其变体作为数据预处理步骤，以增强分类算法在预测高度类别不平衡信贷数据集时的鲁棒性。近年来，生成对抗网络在计算机视觉领域的应用中取得不少进展，如图像生成、风格转换以及从文本到图像等。同时，将其作为一种类似于合成少数过采样技术的合成方法来处理类别不平衡问题也引起了金融交易风险评估研究人员的关注。然而，合成方法大多基于距离设计，例如合成少数类过采样技术、自适应合成采样以及和Tomek链接等，在应用于大规模数据时存在计算量大的问题。

2.算法级

算法级方法从模型的角度进行调整，以克服输出偏差，提高其在类别不平衡环境中的性能。对单体模型进行修改是算法级方法的一种。比如有研究提出一种模糊支持向量机，可以在含有异常值和噪声的情况下有效地处理类别不平衡数据集的分类问题。然而，对单体模型进行修改的算法级方法可能只适用于目标模型，不具有普适性。

另一种算法级方法是集成学习，它将不同的、准确的且多样的分类模型(称为基分类器)的决策聚合在一起。不同的分类器在分类相同的数据时，由于其固有的局限性，往往会犯不同的错误。如果将这些分类器的决策聚合在一起，它们可以在做出最终预测时弥补彼此的错误。然而，一些集成方法在现实任务中存在着巨大的训练成本和较差的适用性。此外，当数据集具有较多噪声样本时，这些模型可能会导致欠拟合或过拟合。

3.成本敏感分析

在机器学***衡数据集上，许多分类算法都假定多数类和少数类的误分类代价相等。成本敏感分析将误分类代价纳入分类器的训练阶段，以提高模型对误分类少数类样本的关注程度。然而，成本敏感分析方法中代价矩阵的设置可能需要事先得到领域专家的帮助。在与神经网络等分批训练的模型合作时，该方法也可能会失败，因为没有平衡各批训练数据上的数据分布。

除上述问题外，目前流行的方法由于忽略了不平衡学***衡、数据规模大和噪声样本的分类问题。不仅类别不平衡本身，噪声样本的存在以及类别之间的潜在分布重叠等因素也会显著降低分类性能，而高不平衡比会进一步扩大这些影响。Hou等人(Hou W h,Wang X k,ZhangH y,et al.A Novel Dynamic Ensemble Selection Classifier for an ImbalancedData Set:An Application for Credit Risk Assessment[J].Knowledge-BasedSystems,2020,208:106462.)在Cruz等人(Cruz R M,Sabourin R,Cavalcanti G D,etal.META-DES:A Dynamic Ensemble Selection Framework Using Meta-Learning[J].Pattern Recognition,2015,48(5):1925-1935.)的工作基础上改进，在生成阶段引入合成少数类过采样(synthetic minority over-sampling technique,SMOTE)算法构建平衡数据集，在选择阶段融合Soares等人(Soares R G,Santana A,Canuto A M,et al.Usingaccuracy and diversity to select classifiers to build ensembles[C].The2006IEEE International Joint Conference on Neural Network Proceedings.NewYork:IEEE,2006:1310-1316.)和等人(/>S,Zhang Z L,Altalhi A,etal.Dynamic ensemble selection for multi-class imbalanced datasets[J].Information Sciences,2018,445:22-37.)工作中使用的元特征，提出结合元学***衡问题，引入了额外的噪声样本，导致模型对少数类样本过拟合，影响模型整体表现。此外，该方法虽然设计了几项考虑类别不平衡的元特征，然而没有考虑实际的分类困难程度，导致元特征对模型表现的描述不够准确。最后，该方法单独考虑各基分类器的表现是否足以被选择作为集成模型的一部分，没有考虑各基分类器的相对表现以设置更细粒度的集成权重。

发明内容

对于金融交易数据集中的类别不平衡、噪声样本等问题导致的分类困难，如何在不引入额外噪声样本、不丢失或扩充大量样本的情况下设计一套通用且泛化能力强的方法，是一个值得思考的问题。本方法设计了一个能应用在金融交易风险防控领域中，对金融交易(如信用贷款、在线支付)进行风险评估的方法，可以减少数据类别不平衡对分类模型的影响，提高模型对高风险交易的识别能力，并且尽量不影响模型对正常交易的预测能力。

本发明的目的至少通过如下技术方案之一实现。

一种基于聚类采样和元集成的金融交易风险评估方法，包括以下步骤：

S1、基于模糊聚类的类别平衡，获取金融交易数据集，通过监督核模糊聚类和自助法采样构建多个平衡样本子集，并分别训练分类模型作为集成模型的候选基分类器池；

S2、基于分类困难的元特征提取，通过k近邻算法划定模型能力区域，计算与分类困难和模型多样性的相关指标，以提取描述模型分类能力的元特征；

S3、基于元学习的动态集成，使用自注意网络与卷积神经网络构建元聚合器，从提取的元特征矩阵中学习基分类器表现的相关性，针对预测目标分配集成权重，通过动态集成分类器获得预测目标的风险评估结果。

进一步地，步骤S1中，对于金融交易数据集X，将其划分为正常交易集合X_Maj以及风险交易集合X_Min。

进一步地，步骤S1中，根据金融交易数据集X的不平衡度K，对其中的正常交易集合进行模糊聚类，具体包括以下步骤：

A1、统计正常交易集合元素数量N_Maj＝|X_Maj|和风险交易集合元素数量N_Min＝|X_Min|，并计算金融交易数据集的不平衡度K：

K＝Ceil(N_Maj/N_Min)，

其中，Ceil(·)为向上取整；

A2、将不平衡度设置为模糊聚类的目标簇数量，使用基于高斯核函数f_Kernel(·，·)的模糊c均值聚类，并在目标函数中引入簇间分离目标Inter，模糊聚类的目标函数J(·，·)由如下公式确定：

其中，表示第i_Maj个正常交易样本，C是所有簇中心向量组成的矩阵，c_k和c_k′分别是第k和k′个簇的中心，U是隶属度矩阵，/>表示正常交易样本/>对第k个簇的模糊隶属度，m是模糊程度；

A3、通过隶属度矩阵的约束转换目标函数，得到聚簇中心和模糊隶属度的更新公式如下：

进一步地，完成模糊聚类后，基于所有正常交易样本对簇中心的隶属度u_k设置采样率，分别为每个簇用自助法采样N_Min个正常交易样本，并与风险交易样本组成共K个平衡数据集，对于簇k的各正常交易样本采样率计算公式如下：

进一步地，步骤S1中，使用K个平衡数据子集训练基分类模型，得到含有K个模型的候选基分类器池。

进一步地，步骤S2中，通过k近邻算法kNN(·)为模型划分针对预测目标x_Test的能力区域R(·)，所述能力区域R(·)为金融交易数据中部分交易样本组成的集合，计算公式如下：

其中X为金融交易数据集。

进一步地，步骤S2中，引入分类困难概念的元特征，具体包括如下特征：

假设P(·)表示完成训练的分类器的概率预测函数，使用绝对值误差作为分类困难函数将能力区域中的样本/>根据分类困难得分切割为L_B个桶，假设样本对应的标签为/>B_l为第l个桶，用如下公式表示：

统计各桶的交易样本数量以衡量不同程度的分类困难，假设将桶数量设置为5，则分类困难特征f_Hard的特征维度为5，第l个元素的分类困难特征表示如下：

计算分类模型在能力区域的准确率作为第二组元特征，假设用能力区域中各样本的预测结果构建混淆矩阵，则局部准确率特征f_Accuracy计算公式如下：

其中，TP表示实际存在风险且被评估为风险的交易样本；FP表示实际正常但被评估为风险的交易样本；TN表示实际正常且被评估为正常的交易样本；FN表示实际存在风险但被评估为正常的交易样本；

假设能力区域中类别为风险的交易样本数量为N_Risk，类别为正常的交易样本数量为N_Normal，则相应的类别权重以及加权局部准确率f_Weigh的计算公式如下：

其中，σ_s(·)为Sigmoid函数，为能力区域中第i_Region个交易样本是否是存在风险的且被基分类器正确预测，/>为能力区域中第i_Region个交易样本是否是正常的且被基分类器正确预测；/>为正常的样本的权重；/>为风险的样本的权重；

计算分类模型在能力区域的召回率作为第四组元特征，则局部召回率f_Rec的计算公式如下：

计算分类模型在能力区域的精准率作为第五组元特征，则局部精准率f_Precision的计算公式如下：

计算分类模型在能力区域的F得分作为第六组元特征，则局部F得分f_Fscore的计算公式如下：

计算分类模型在能力区域的G-mean得分作为第七组元特征，则局部G-mean得分f_Gmean的计算公式如下：

计算分类模型在能力区域的马修斯相关系数作为第八组元特征，则局部马修斯相关系数f_Mc的计算公式如下：

进一步地，步骤S2中，除分类困难外，引入模型多样性元特征，根据两个分类器预测结果正确与否来构建混淆矩阵，度量预测结果的相关性。假设选取第k和k′两个分类器，则表示两个分类器都预测错误的交易样本数量，/>和/>分别表示其中一个分类器预测错误而另一个分类器预测正确的交易样本数量，/>表示两个分类器都预测正确的交易样本数量。多样性元特征具体包括如下4组：

双重错误用于衡量两个分类器之间的差异性，用误分类同一个模式的概率进行计算，将与池内其它基分类器的双重错误平均得到第九组元特征，则第k个分类器的平均双重错误f_Double计算如下：

其中K表示金融交易数据集X的不平衡度；

Q统计在两个分类模型的相关误差和不相关误差之间提供平衡，将与池内其它基分类器的Q统计平均得到第十组元特征，则第k个分类器的平均Q统计f_Qstatistics计算如下：

分歧指标用于衡量两个分类器之间的差异性，用一个分类器正确而另一个分类器错误的概率进行计算，将与池内其它基分类器的分歧平均得到第十一组元特征，则第k个分类器的平均分歧f_Disagree计算如下：

ρ相关系数与Q统计相似，并且证明该系数不大于Q统计，将与池内其它基分类器的ρ相关系数平均得到第十二组元特征，则第k个分类器的平均ρ相关系数f_Correlation计算如下：

进一步地，步骤S3中，将根据各基分类器表现提取的元特征向量拼接，得到针对单个预测目标提取的元特征矩阵

进一步地，步骤S3中，通过自注意网络学习各元特征向量之间的相关性，具体计算如下：

通过权重矩阵将元特征矩阵分别映射为询问矩阵V_Query、键矩阵V_Key和值矩阵V_Value：

V_Query＝VW_Qu，

V_Key＝VW_Key，

V_Value＝VW_Value，

其中，和为相应的权重矩阵；/>表示实数域；

通过自注意力机制获得转换后的元特征矩阵

其中，Soffmax(·)表示Softmax函数；

通过卷积神经网络网络进一步学习各基分类器之间的相对表现，然后输出各基分类器针对当前预测目标的集成权重w_Ensemble，具体计算如下：

其中，Conv(·)表示卷积模型函数；

将元聚合器输出的集成权重与各基分类器的预测结果计算加权和，得到动态集成分类器的预测结果/>具体计算如下：

通过交叉熵损失函数作为元聚合器的损失函数进行训练，使元聚合器能够以更准确地识别出风险金融交易和正常金融交易为目标来集成各基分类模型。

与现有的技术相比，本发明的有益效果为：

在适用性方面，所提取的元特征与具体模型以及具体任务无关，因此训练好的元聚合器可以在其他分类模型和任务中适用。在性能方面，相比现有用于金融交易风险评估的方法，本发明在提高模型对风险交易的识别能力上有更好的表现，并且能够尽量不影响模型对正常交易的预测能力。

附图说明

图1为本发明实施例中一种基于聚类采样和元集成的金融交易风险评估方法的步骤流程图；

图2为本发明实施例中基于模糊聚类的类别平衡步骤流程图；

图3为本发明实施例中基于分类困难的元特征提取步骤流程图；

图4为本发明实施例中分类困难示意图；

图5为本发明实施例中基于元学习的动态集成步骤流程图；

图6为本发明实施例中元聚合器架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

实施例1

一种基于聚类采样和元集成的金融交易风险评估方法，如图1所示，包括以下步骤：

S1、基于模糊聚类的类别平衡，如图2所示，获取金融交易数据集，通过监督核模糊聚类和自助法采样构建多个平衡样本子集，并训练基分类器；

对于金融交易数据集X，将其划分为正常交易集合X_Maj以及风险交易集合X_Min。

进一步地，为使平衡子集的并集能尽量覆盖原始数据集，根据金融交易数据集X的不平衡度K，对其中的正常交易集合进行模糊聚类，具体包括以下步骤：

K＝Ceil(N_Mai/N_Min)，

其中，Ceil(·)为向上取整；

A2、将不平衡度设置为模糊聚类的目标簇数量，考虑金融交易数据分布的复杂性和不规则性，相比使用欧氏距离度量特征空间中元素距离的原始模糊c均值聚类算法，优选地，使用基于高斯核函数f_Kernel(·，·)的模糊c均值聚类。此外，在目标函数中引入簇间分离目标Inter，使采样子集中的风险交易样本能尽量靠近，不同子集中的风险交易样本能尽量远离。模糊聚类的目标函数J(·，·)由如下公式确定：

其中，表示第i_Maj个正常交易样本，C是所有簇中心向量组成的矩阵，c_k和c_k′分别是第k和k′个簇的中心，U是隶属度矩阵，/>表示正常交易样本/>对第k个簇的模糊隶属度，m是模糊程度。

进一步地，使用K个平衡数据子集训练基分类模型，得到含有K个模型的候选基分类器池。

作为一种实施例，基分类器可以为多种分类模型，包括但不限于决策树、逻辑回归、支持向量机等。在本实施例中，选取梯度提升树模型作为演示基分类模型；

S2、基于分类困难的元特征提取，如图3所示，通过k近邻算法划定模型能力区域，计算与分类困难和模型多样性的相关指标，以提取可以描述模型分类能力的元特征；

使用R(·)表示获取模型对预测目标的能力区域，所述能力区域R(·)为金融交易数据中部分交易样本组成的集合，该区域通常用于衡量分类器对预测目标的分类能力。该区域通常基于k近邻算法kNN(·)计算，以选择预测目标x_Test最近的几个邻居交易样本组成能力区域，即

在能力区域中计算相应指标以衡量模型性能，这些指标可以是准确率、召回率和精确率等。

进一步地，仅从类别不平衡角度优化模型可能是不足够的。如图4所示，两个数据集的不平衡比都是3，然而图4的a中数据集由于类别重叠和噪声样本等问题，模型在该数据集上的分类困难明显要比图4的b中的数据集大得多。因此，引入分类困难概念。使用表示分类困难函数，该函数可以是任意可拆解的误差函数，如绝对值误差、平方误差和交叉熵等。根据分类困难概念设计元特征，具体包括如下8组特征：

f_Hard分类困难特征：假设P(·)表示完成训练的分类器的概率预测函数，使用绝对值误差作为分类困难函数将能力区域中的样本/>根据分类困难得分切割为L_B个桶，假设样本对应的标签为/>B_l为第l个桶，用如下公式表示：

统计各桶的交易样本数量以衡量不同程度的分类困难，假设将桶数量设置为5，则f_Hard的特征维度为5，第l个元素的分类困难特征表示如下：

f_Accuracy局部准确率特征：准确率能够从整体的角度衡量分类困难。计算分类模型在能力区域的准确率作为第二组元特征。假设用能力区域中各样本的预测结果构建混淆矩阵，则f_Accuracy计算公式如下：

f_Weight加权局部准确率特征：由于能力区域是从完整金融交易数据集中提取的，因此能力区域中大概率存在类别不平衡问题。假设能力区域中类别为风险的交易样本数量为N_Risk，类别为正常的交易样本数量为N_Normal，则相应的类别权重以及f_Weight的计算公式如下：

f_Rec局部召回率特征：召回率能够从识别风险交易的角度衡量模型分类困难。计算分类模型在能力区域的召回率作为第四组元特征，则f_Recall的计算公式如下：

f_Precision局部精准率特征：精准率能够从风险交易预测准确率的角度衡量模型分类困难。计算分类模型在能力区域的精准率作为第五组元特征，则f_Precisio的计算公式如下：

f_Fscore局部F得分特征：F得分能够从风险交易的角度衡量模型分类困难。计算分类模型在能力区域的F得分作为第六组元特征，则f_Fscore的计算公式如下：

f_Gmean局部G-mean得分特征：G-mean得分能够从识别能力的角度衡量模型分类困难。计算分类模型在能力区域的G-mean得分作为第七组元特征，则f_Gmean的计算公式如下：

f_Mcc局部马修斯相关系数特征：马修斯相关系数能够从整体的角度衡量模型分类困难。计算分类模型在能力区域的马修斯相关系数作为第八组元特征，则f_Mcc的计算公式如下：

进一步地，除分类困难外，引入模型多样性元特征。根据两个分类器预测结果正确与否来构建混淆矩阵，度量预测结果的相关性。假设选取第k和k′两个分类器，则表示两个分类器都预测错误的交易样本数量，/>和/>分别表示其中一个分类器预测错误而另一个分类器预测正确的交易样本数量，/>表示两个分类器都预测正确的交易样本数量。多样性元特征具体包括如下4组：

f_Double平均双重错误特征：双重错误用于衡量两个分类器之间的差异性，可以用误分类同一个模式的概率进行计算。将与池内其它基分类器的双重错误平均可以得到第九组元特征。以第k个分类器为例，f_Double的计算如下：

f_Qstatistics平均Q统计特征：Q统计在两个分类模型的相关误差和不相关误差之间提供了一个很好的平衡，这种平衡可以在动态集成方法的选择过程中产生重要的影响。将与池内其它基分类器的Q统计平均可以得到第十组元特征。以第k个分类器为例，f_Qstatistics的计算如下：

f_Disagree平均分歧特征：分歧指标用于衡量两个分类器之间的差异性，可以用一个分类器正确而另一个分类器错误的概率进行计算。将与池内其它基分类器的分歧平均可以得到第十一组元特征。以第k个分类器为例，f_Disagree的计算如下：

f_Correlation平均ρ相关系数特征：ρ相关系数与Q统计相似，并且可以证明该系数不大于Q统计。将与池内其它基分类器的ρ相关系数平均可以得到第十二组元特征。以第k个分类器为例，f_Correlation的计算如下：

S3、基于元学习的动态集成，如图5所示，使用自注意网络与卷积神经网络构建元聚合器，从提取的元特征矩阵中学习基分类器表现的相关性，针对预测目标分配集成权重，通过动态集成分类器获得预测目标的风险评估结果。

如图6所示，为使元聚合器在选择时能够考虑各基分类器的相对表现，将根据各基分类器表现提取的元特征向量拼接，得到针对单个预测目标提取的元特征矩阵

进一步地，自注意机制在建模向量之间的相关性方面取得了显著的性能。该机制是注意机制的一种变体，减少了对外部信息的依赖，能够更有效地捕获特征的内部相关性。由于金融交易数据中没有外部信息对各基分类器之间的表现相关性进行建模，使用自注意机制对潜在的相关性进行建模。通过自注意网络学习各元特征向量之间的相关性，具体计算如下：

V_Que＝VW_Quer，

V_Key＝VW_Key，

V_Value＝VW_Val，

其中，和为相应的权重矩阵；/>表示实数域；

通过自注意力机制获得转换后的元特征矩阵

其中，Softmax(·)表示Softmax函数；

进一步地，通过卷积神经网络网络进一步学习各基分类器之间的相对表现，然后输出各基分类器针对当前预测目标的集成权重w_Ensemble，具体计算如下：

其中，Conv(·)表示卷积模型函数；

通过交叉熵损失函数作为元聚合器的损失函数进行训练，使元聚合器能够以更准确地识别出风险金融交易和正常金融交易为目标来集成各基分类模型

从整体上看，基于聚类采样和元集成的金融交易风险评估方法由两个级联模型组成。首先，预训练候选基分类器池，在各平衡金融交易数据子集上拟合基分类器。然后在完整训练集上提取元特征，利用小批量梯度下降法结合Adam算法对基于元学习的集成模型进行优化。由于提取的元特征与模型以及具体任务无关，所以训练好的元聚合器可以在其他分类模型和任务中适用。

在信贷交易数据集上进行标准模型比较试验。

本实施例中，Australia数据集来自UCI数据库(https：//archive.ics.uci.edu/ml/datasets/Statlog+\％28Australian+Credit+Approval\％29)，包含690条发生在澳大利亚的***申请记录，每个样本包含14个特征，其中包括5个定量特征，9个定性特征。

实施例2

与实施例1的不同之处在于，本实施例中，German数据集也来自UCI数据库(https：//archive.ics.uci.edu/ml/datasets/Statlog+\％28German+Credit+Data\％29)，包含1000条在德国发生的信贷交易，每个样本包含20个特征，其中7个是定量特征，13个是定性特征。

实施例3

与实施例1的不同之处在于，本实施例中，ChineseLoan数据集来源于datafountain平台(https://www.datafountain.cn/datasets/6218)，包含10,000条关于国内个人信贷违约预测的数据，每个样本包含34个特征，其中29个是定量特征，5个是定性特征。

实施例4

与实施例1的不同之处在于，本实施例中，Prosper数据集来源于美国Prosper网络借贷平台(https://www.kaggle.com/datasets/yousuf28/prosper-loan)，包含41,541条数据，每个样本包含47个特征，其中39个是定量特征，8个是定性特征。

实施例5

与实施例1的不同之处在于，本实施例中，Give数据集是Kaggle竞赛平台发布的信用评估数据集(https://www.kaggle.com/c/GiveMeSomeCredit/overview)，包含116,557条数据，每个样本包含10个特征，10个都是定量特征。

实施例6

与实施例1的不同之处在于，本实施例中，CarLoan数据集来源于迅飞开放平台的开发者竞赛(https://challenge.xfyun.cn/topic/info？type＝car-loan)，包含149,988条数据，每个样本包含49个特征，其中45个是定量特征，4个是定性特征。

表1给出了四个数据集的概要。

每个数据集由信用良好的客户与信用不良的客户组成两类的样本，从表1中可以看出，它们都是不平衡数据集。

表1六个数据集的概要表

数据集	特征数量	数值特征	类别特征	样本数量	违约样本	违约率
							Australia	14	5	9	690	307	44.49％
German	20	7	13	1,000	300	30.00％
							ChineseLoan	34	29	5	10,000	1,683	16.83％
Prosper	47	39	8	41,541	11,878	28.59％
							Give	10	10	0	116,557	7,983	6.85％
CarLoan	49	45	4	149,988	26,544	17.70％

本实施例采用金融交易风险评估领域广泛认可的评估指标来衡量提出模型的有效性。这些指标包括召回率(recall,Rec)、平衡F分数(F-score)、G-mean、准确率(accuracy,Acc)、平衡准确率(balanced accuracy,BAcc)、马修斯相关系数(matthewscorrelation coefficient,MCC)和ROC(receiver operating characteristic)曲线下面积((area under the curve,AUC)。

Rec越高，说明模型对违约样本的识别能力越强；F-score是精确率和召回率的谐波平均，是权衡模型对风险交易样本识别能力与评估准确率的指标，其取值越高，说明模型对风险交易样本的评估能力越强；G-mean衡量了模型的整体识别能力。该值越大，表明模型对风险交易样本和正常交易样本的识别能力相对较高；AUC值越高，表明模型对不同类别的交易样本的区分能力越强；BAcc与G-mean类似，它反映了均衡风险交易样本和正常交易样本的整体评估准确率；MCC本质上是一个取值在区间$[-1,1]$的相关系数，表示预测结果与实际标签之间的关系。其中，取值1表示完美模型，取值0表示随机预测，取值-1表示完全相反的预测；总的来说，这些指标的值越高，表明分类模型的鲁棒性越强，表现越好。

为验证发明方法的有效性，本实施例采用4种单体分类模型(LR,DT,SVM,NN)以及4种集成模型(AdaBoost,Bagging,GBDT,RF)作为基准模型进行对比实验。此外，为更好地验证提出模型在类别不平衡学***衡子集，然后通过自编码和分类两个目标优化模型。MDM(META-DESKNN-MI)融合多项工作，在生成阶段引入合成少数类过采样算法构建平衡数据集，在选择阶段融合多样性准则，是一个适用于信用评估的动态集成选择模型。在本实施中，BSAS构建的平衡子集数量与本文提出方法构建的平衡子集数量相同。MDM选择LR、LDA、DT、Gaussian NB、RF以及GBDT组成候选基分类器池。本发明方法以MESC作为简称。

表2小型数据集模型性能比较

表2展示了各种模型在小型信用评估数据集上的性能比较。对于Australia数据集，MESC在各项指标上的表现均优于其它信用评估模型。由于该数据集的样本量较小，而且正常交易样本与风险交易样本的比例接近一比一，类别不平衡问题并不严重。因此，大部分模型在该数据集上都能取得不错的表现。

对于German数据集，LGBMF、BSAE、MDM、MESC模型对风险交易样本的预测能力都有所提升。其中，LGBMF模型的提升最小，这是因为成本敏感分析方法本质上并没有改变数据的类别不平衡，而且由于损失函数减少了对误分类正常交易样本的重视程度，模型的整体表现有所下降。MDM模型在Rec指标上取得最优的表现，但是在AUC指标上的表现并不好，这是因为SMOTE算法带来了额外的噪声样本。这种方法虽然使数据集的类别得到平衡，但容易导致模型将大部分特征空间都划分给风险类交易，从而将过多目标预测为风险交易，削弱了模型对正常交易样本的预测能力和将两种类别的交易样本区分的能力。MESC模型虽然在Rec指标上取得排名第二的表现，但是在AUC指标上的表现比LR、SVM、Bagging、GBDT以及RF都略低，这说明聚类采样和元集成机制虽然能使模型更容易识别出风险交易，但是当训练样本数量不足时，模型可能难以将两类交易样本尽量区分开来。

表3中型数据集模型性能比较

表3展示了各种模型在中型信用评估数据集上的性能比较。对于ChineseLoan、Prosper两项数据集，MESC在各项指标上的表现均明显优于其它模型。显著的性能改进表明，MESC是在一定规模的不平衡数据集上进行金融交易风险评估的良好选择。值得注意的是，RF在ChineseLoan数据集上有四项指标得分为0，可以视为RF将所有样本都预测为正常交易样本。这说明在该数据集上，样本是否存在风险与部分特征存在较强的相关性，而RF模型在随机选取特征时可能丢失了这些特征，导致其无法识别出风险交易样本。

表4大型数据集模型性能比较

表4展示了各种模型在大型信用评估数据集上的性能比较。对于Give数据集，由于存在噪声样本，除了DT、AdaBoost、Bagging、GBDT和RF等基于树的模型外，LR、SVM和NN模型的表现都有不同程度的下降。MESC模型在各项指标上都取得最好表现，这说明即使在极端不平衡的金融交易数据集中，聚类采样和元集成机制依然可以提高模型对风险交易样本的识别能力，而且不会过多影响模型对正常交易样本的预测能力。

对于存在类别重叠的CarLoan数据集，SMOTE算法对模型识别少数类样本能力的提升更为显著，所以MDM在Rec指标上取得非常高的得分。然而，在这种类型的数据集上生成风险交易样本是十分危险的，更容易导致模型将正常交易样本误分类为风险交易。因此，MDM在G-mean和BAcc指标上的表现反而比BSAE和MESC差许多。MESC模型除了在Rec指标上表现比MDM差外，在其它指标上都取得最好表现，这说明对于存在类别不平衡和类别重叠等分类困难的金融交易数据集中，聚类采样和元集成机制依然适用。

在六个数据集上的实验结果表明，LGBMF、BSAE、MDM与MESC模型对风险交易样本的识别能力都有不同程度的提升。而MESC取得最好的均衡效果，即在尽量不影响模型对正常交易样本预测能力的情况下提升对风险交易样本的预测能力。这些发现表明，MESC模型是针对类别不平衡数据集的一种有效的金融交易风险评估模型。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S1中，对于金融交易数据集X，将其划分为正常交易集合X_Maj以及风险交易集合X_Min。

3.根据权利要求2所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S1中，根据金融交易数据集X的不平衡度K，对其中的正常交易集合进行模糊聚类，具体包括以下步骤：

K＝Ceil(N_Maj/N_Min)，

其中，Ceil(·)为向上取整；

4.根据权利要求3所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，完成模糊聚类后，基于所有正常交易样本对簇中心的隶属度u_k设置采样率，分别为每个簇用自助法采样N_Min个正常交易样本，并与风险交易样本组成共K个平衡数据集，对于簇k的各正常交易样本采样率计算公式如下：

5.根据权利要求1所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S1中，使用K个平衡数据子集训练基分类模型，得到含有K个模型的候选基分类器池。

6.根据权利要求1所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S2中，通过k近邻算法kNN(·)为模型划分针对预测目标x_Test的能力区域R(·)，所述能力区域R(·)为金融交易数据中部分交易样本组成的集合，计算公式如下：

其中X为金融交易数据集。

7.根据权利要求6所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S2中，引入分类困难概念的元特征，具体包括如下特征：

计算分类模型在能力区域的召回率作为第四组元特征，则局部召回率f_Recall的计算公式如下：

计算分类模型在能力区域的马修斯相关系数作为第八组元特征，则局部马修斯相关系数f_Mcc的计算公式如下：

8.根据权利要求1所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S2中，除分类困难外，引入模型多样性元特征，根据两个分类器预测结果正确与否来构建混淆矩阵，度量预测结果的相关性；假设选取第k和k′两个分类器，则表示两个分类器都预测错误的交易样本数量，/>和/>分别表示其中一个分类器预测错误而另一个分类器预测正确的交易样本数量，/>表示两个分类器都预测正确的交易样本数量；多样性元特征具体包括如下4组：

其中K表示金融交易数据集X的不平衡度；

9.根据权利要求8所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S3中，将根据各基分类器表现提取的元特征向量拼接，得到针对单个预测目标提取的元特征矩阵

10.根据权利要求9所述的一种基于聚类采样和元集成的金融交易风险评估方法，其特征在于，步骤S3中，通过自注意网络学习各元特征向量之间的相关性，具体计算如下：

V_Query＝VW_Que，

V_Key＝VW_Ke，

V_Value＝VW_Valu，

其中，和/> 为相应的权重矩阵；/>表示实数域；

通过自注意力机制获得转换后的元特征矩阵

其中，Soffmax(·)表示Softmax函数；

其中，Conv(·)表示卷积模型函数；