CN116757702A

CN116757702A - 交易数据的确定方法和装置、处理器及电子设备

Info

Publication number: CN116757702A
Application number: CN202310807655.9A
Authority: CN
Inventors: 谭宗麟; 曾炜; 李杰一; 温卓宇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-15

Abstract

本申请公开了一种交易数据的确定方法和装置、处理器及电子设备。涉及人工智能领域，该方法包括：获取目标对象的交易数据，并确定交易数据对应的特征数据；将特征数据输入至预先训练好的交易模型中，以使交易模型输出交易数据的投票结果，其中，交易模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；根据投票结果确定交易数据是否为异常交易数据。通过本申请，解决了现有技术中，对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题。

Description

交易数据的确定方法和装置、处理器及电子设备

技术领域

本申请涉及人工智能领域，具体而言，涉及一种交易数据的确定方法和装置、处理器及电子设备。

背景技术

异常交易易造成伪造与掩盖交易信息，导致金融机构在交易和贷款决策中出现失误，增加金融风险。而异常交易导致的异常资金积累也会破坏金融市场平衡。

现有异常交易数据的识别方案是基于固定规则进行对交易数据进行识别。通过制定一系列规则和阈值，对交易数据进行筛查和识别，如单笔交易金额超过一定阈值、一定时间内交易次数超过限制、交易账号与使用账号不一致等。当交易行为触发了规则和阈值时，***会自动识别为异常交易数据并进行相应的处理。

基于规则判断的异常交易数据的方式简单易行，实现成本较低，但是缺点同样明显：1)难以覆盖所有异常交易数据：由于规则的设定是基于已知的异常交易数据，因此难以覆盖所有的异常情况。当新的异常交易数据出现时，需要不断更新规则，增加了维护和更新成本；2)容易出现误判和漏判：由于规则的设定是基于已知的交易数据，而且规则的设定是静态的，无法灵活地根据不同的情况进行调整；3)不易扩展：基于规则判断的方案无法扩展到其他领域。想要识别其他类型的异常交易数据，需要重新设计新的规则；4)难以处理复杂情况：当出现多个异常交易数据交织在一起的情况时，基于规则判断的方案难以进行有效的判断和处理。

针对现有技术中，对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种交易数据的确定方法和装置、处理器及电子设备，以解决相关技术中对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种交易数据的确定方法。该方法包括：获取目标对象的交易数据，并确定所述交易数据对应的特征数据；将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，其中，所述交易模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；根据所述投票结果确定所述交易数据是否为异常交易数据。

可选的，在所述交易模型为随机森林模型的情况下，将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，包括：通过所述随机森林模型中的每一决策树确定所述交易数据的分类结果；将多个分类结果划分为多个分组，其中，每个分组中的分类结果一致；确定所述每个分组中的分类结果的数量，并确定所述数量最多的分组对应的分类结果为所述投票结果。

可选的，将所述特征数据输入至预先训练好的交易模型中之前，所述方法还包括：循环执行构建步骤，直至构建完成所述随机森林模型中的每一决策树，其中，所述构建步骤包括：计算所述决策树中的每个非叶子节点对应的特征的信息增益比；将信息增益比最大的特征作为划分特征，并将所述划分特征对应的节点作为***节点；根据所述划分特征将特征样本数据划分成多个子数据集，并根据所述多个子数据集构建所述***节点的子节点。

可选的，循环执行构建步骤，直至构建完成所述随机森林模型的每一决策树之后，所述方法还包括：将特征验证数据输入至所述随机森林模型中，并获取所述随机森林模型输出的预测结果；根据所述预测结果和所述特征验证数据数值对应的标签数据确定所述随机森林模型的指标信息，其中，所述指标信息包括：准确率、精确度、召回率、F1值、特异度和假正率；根据所述指标信息确定所述随机森林模型是否通过验证。

可选的，根据所述指标信息确定所述随机森林模型是否通过验证，包括：在所述准确率大于等于第一阈值，所述精确度大于等于第二阈值，所述召回率大于等于第三阈值，所述F1值大于等于第四阈值，所述特异度大于等于第五阈值，所述假正率小于等于第六阈值的情况下，确定所述随机森林模型通过验证；在所述准确率小于所述第一阈值，和/或，或所述精确度小于所述第二阈值，和/或，所述召回率小于所述第三阈值，和/或，所述F1值小于所述第四阈值，和/或，所述特异度小于所述第五阈值，和/或，所述假正率大于所述第六阈值的情况下，确定所述随机森林模型未通过验证。

可选的，根据所述投票结果确定所述交易数据是否为异常交易数据之后，所述方法还包括：在确定所述交易数据为异常交易数据的情况下，对所述交易数据进行差分隐私计算，以获取加密后的交易数据；将所述加密后的交易数据发送送至终端设备，以使所述终端设备根据所述加密后的交易数据输出分析结果。

可选的，将所述特征数据输入至预先训练好的交易模型中，包括：根据所述交易数据确定所述目标对象的交易数值，以及所述目标对象的交易频率；根据所述交易数据和所述交易频率确定所述目标对象所述交易数据是否为异常交易数据；在确定所述交易数据为正常交易数据的情况下，将所述特征数据输入至预先训练好的交易模型中。

为了实现上述目的，根据本申请的另一方面，提供了一种交易数据的确定装置。该装置包括：获取模块，用于获取目标对象的交易数据，并确定所述交易数据对应的特征数据；输入模块，用于将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，其中，所述交易模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；确定模块，用于根据所述投票结果确定所述交易数据是否为异常交易数据。

通过本申请，采用以下步骤：获取目标对象的交易数据，并确定交易数据对应的特征数据；将特征数据输入至预先训练好的交易模型中，以使交易模型输出交易数据的投票结果；根据投票结果确定交易数据是否为异常交易数据。解决了现有技术中，对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题，进而提高了金融稳定性，守护了金融安全。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的交易数据的确定方法的流程图；

图2是根据本申请实施例提供的交易数据的确定装置的结构框图(一)；

图3是根据本申请实施例提供的一种可选的电子设备示意图；

图4是根据本申请实施例的一种交易数据的确定装置的结构框图(二)；

图5是根据本申请实施例的随机森林模型训练流程图；

图6是根据本申请实施例的交易行为判别流程图；

图7是根据本申请实施例的数据报送流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

随机森林：随机森林算法属于Bagging算法的扩展之一，它是以决策树模型为基学习器，通过构建多棵决策树的组合模型。为了构建多样化的决策树，随机森林算法在模型训练过程中引入随机属性。随机分为两重随机：第一重随机是数据采样的随机，第二重随机是特征的随机抽取，即每棵决策树随机抽取部分特征来进行训练。

下面结合优选的实施步骤对本发明进行说明，图1是根据本申请实施例提供的交易数据的确定方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取目标对象的交易数据，并确定所述交易数据对应的特征数据；

需要说明的是，上述交易数据包括但不限于：充值数据、转账数据。

步骤S102，将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果；

步骤S103，根据所述投票结果确定所述交易数据是否为异常交易数据。

本申请实施例提供的交易数据的确定方法，先获取目标对象的交易数据，并确定所述交易数据对应的特征数据；然后将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果；根据所述投票结果确定所述交易数据是否为异常交易数据，从而解决了现有技术中，对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题，进而达到了提高金融稳定性，守护金融安全的技术效果。

可选的，上述实施例中，在所述交易模型为随机森林模型的情况下，将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，包括：通过所述随机森林模型中的每一决策树确定所述交易数据的分类结果；将多个分类结果划分为多个分组，其中，每个分组中的分类结果一致；确定所述每个分组中的分类结果的数量，并确定所述数量最多的分组对应的分类结果为所述投票结果。

本发明实施例中，将交易数据通过随机森林模型进行决策，由训练好的随机森林模型中所有决策树投票，根据投票结果占比判断该笔交易的投票结果，具体的，将占比最高的分类结果作为所述投票结果。

可选的，上述实施例中，将所述特征数据输入至预先训练好的交易模型中之前：循环执行构建步骤，直至构建完成所述随机森林模型中的每一决策树，其中，所述构建步骤包括：计算所述决策树中的每个非叶子节点对应的特征的信息增益比；将信息增益比最大的特征作为划分特征，并将所述划分特征对应的节点作为***节点；根据所述划分特征将特征样本数据划分成多个子数据集，并根据所述多个子数据集构建所述***节点的子节点。

可以理解的是，本发明实施例中构建决策树的方式为：选择一个特征作为根节点的划分特征；对于每个非叶子节点，计算其下每个特征的信息增益比，选择信息增益比最大的特征作为划分特征；根据选定的划分特征将数据集划分成多个子数据集，每个子数据集对应一个特征值；对每个子数据集，递归地构建子树，直到满足终止条件，如所有样本都属于同一类别。通过循环执行构建步骤，直至构建完成所述随机森林模型中的每一决策可以增加随机森林模型可以最大程度特征提高验证数据数值对应的标签数据的准确性。

可选的，上述实施例中，循环执行构建步骤，直至构建完成所述随机森林模型的每一决策树之后：将特征验证数据输入至所述随机森林模型中，并获取所述随机森林模型输出的预测结果；根据所述预测结果和所述特征验证数据数值对应的标签数据确定所述随机森林模型的指标信息，其中，所述指标信息包括：准确率、精确度、召回率、F1值、特异度和假正率；根据所述指标信息确定所述随机森林模型是否通过验证。

可以理解的是，所述准确率是指所有预测正确的样本占总样本的比例；所述精确度是指正确预测为异常交易数据的样本占所有预测为异常交易数据的比例；所述召回率是指正确预测为异常交易数据的占全部实际为异常交易数据的比例；所述F1值是指兼顾精确度与召回率，使两者的调和平均数作为考量的两者平衡的综合性指标；所述特异度是指正确被预测为正常交易数据的样本占所有被预测为正常交易数据样本所占的比例；所述假正率是指错误被预测为正常交易数据的样本占所有被预测为正常交易数据样本所占的比例。

可选的，上述实施例中，根据所述指标信息确定所述随机森林模型是否通过验证，包括：在所述准确率大于等于第一阈值，所述精确度大于等于第二阈值，所述召回率大于等于第三阈值，所述F1值大于等于第四阈值，所述特异度大于等于第五阈值，所述假正率小于等于第六阈值的情况下，确定所述随机森林模型通过验证；在所述准确率小于所述第一阈值，和/或，或所述精确度小于所述第二阈值，和/或，所述召回率小于所述第三阈值，和/或，所述F1值小于所述第四阈值，和/或，所述特异度小于所述第五阈值，和/或，所述假正率大于所述第六阈值的情况下，确定所述随机森林模型未通过验证。

可以理解的是，上述实施例中，正确预测的样本为分子的指标越接近1代表模型预测效果越好，例如，可以在此实施例中制定：在第一阈值、第二阈值、第三阈值、第四阈值第五阈值均为0.80，第六阈值为0.20的情况下，准确率≥0.80，精确度≥0.80，召回率≥0.80，F1值≥0.80，特异度≥0.80，假正率≤0.20即为模型验证通过，模型验证通过后可以将模型进行输出，未通过验证的模型将不予输出。

可选的，上述实施例中，根据所述投票结果确定所述交易数据是否为异常交易数据之后，所述方法还包括：在确定所述交易数据为异常交易数据的情况下，对所述交易数据进行差分隐私计算，以获取加密后的交易数据；将所述加密后的交易数据发送送至终端设备，以使所述终端设备根据所述加密后的交易数据输出分析结果。

可以理解的是，根据模型判别的异常交易数据可以以一定时间为单位，定期统计判别为异常交易数据并将已成功阻止的交易数据进行报送。其中，统计的交易数据可以但不限于异常交易金额、异常交易扣款银行卡账户信息等。以便于终端设备准确了解交易数据是否为异常并执行进一步操作。

需要说明的是，差分隐私是一种隐私保护技术，用于在个人数据的统计分析过程中保护个人隐私。差分隐私计算的方法包括：

1.噪声添加：在统计分析过程中，对于每个个体的数据，添加一定的噪声来保护隐私。例如，对于一个二进制属性，可以使用拉普拉斯噪声或高斯噪声来添加噪声。噪声的大小可以根据差分隐私参数进行调整。

2.数据扰动：将个体数据进行扰动，使得分析结果不会泄露个体的敏感信息。例如，将数据进行随机化、脱敏或泛化等操作，以保护个体隐私。

3.查询限制：限制对数据的查询操作，以减少对个体隐私的泄露。例如，限制查询的结果只能是预定义的一些统计信息，而不能提供关于具体个体的信息。

4.随机化响应：对于查询结果，通过对结果进行随机化处理，以保护个体隐私。例如，在返回查询结果时，对结果进行随机化处理，使得查询者无法确定具体个体的信息。

5.差分隐私算法：差分隐私算法是一种专门用于保护隐私的计算方法。它提供了一系列的隐私保护机制，例如局部敏感哈希(LSH)、泛化和聚合等，以保护个体数据的隐私。

需要说明的是，交易数据可以根据具体的应用场景和需求进行选择和组合使用，以实现对交易数据的差分隐私计算。同时，还需要根据具体的差分隐私需求和风险评估，进行差分隐私参数的设置和隐私保护效果的评估。

可选的，上述实施例中，将所述特征数据输入至预先训练好的交易模型中，包括：根据所述交易数据确定所述目标对象的交易数值，以及所述目标对象的交易频率；根据所述交易数据和所述交易频率确定所述目标对象所述交易数据是否为异常交易数据；在确定所述交易数据为正常交易数据的情况下，将所述特征数据输入至预先训练好的交易模型中。

为了加快确定交易数据是否为异常交易数据，因此在将特征数据输入至预先训练好的交易模型之前，先根据目标对象的交易数值和交易频率确定交易数据是否为异常交易数据，具体的，在交易数值大于第七阈值，交易频率大于第八阈值的情况下，确定交易数据为异常交易数据，在交易数值小于等于第七阈值，和/或，交易频率小于等于第八阈值的情况下，将所述特征数据输入至预先训练好的交易模型中。

本发明实施例中，在将特征数据输入至预先训练好的交易模型之前，先根据目标对象的交易数值和交易频率确定交易数据是否为异常交易数据，因此，可以提高确定交易数据是否为异常交易数据的速度。

可以理解的是，所述目标对象的交易数值可以进行离散化划分，例如划分为小额交易0-50，中额交易50-100，大额交易100及以上；所述目标对象的交易频率是截至当前该笔交易，可以以月度为单位进行次数统计划分交易频率，例如，可以划分为划分低频、中频和高频三类。

本申请实施例还提供了一种交易数据的确定装置，需要说明的是，本申请实施例的交易数据的确定装置可以用于执行本申请实施例所提供的交易数据的确定方法。以下对本申请实施例提供的交易数据的确定装置进行介绍。

图2是根据本申请实施例的交易数据的确定装置的结构框图(一)。如图2所示，该装置包括：

获取模块22，用于获取目标对象的交易数据，并确定所述交易数据对应的特征数据；

输入模块24，用于将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果；

确定模块26，用于根据所述投票结果确定所述交易数据是否为异常交易数据。

通过本申请，采用上述装置：获取目标对象的交易数据，并确定交易数据对应的特征数据；将特征数据输入至预先训练好的交易模型中，以使交易模型输出交易数据的投票结果；根据投票结果确定交易数据是否为异常交易数据。解决了现有技术中，对交易数据进行筛查和识别的过程中由于规则的设定是静态的且是基于已知的交易数据，无法灵活地根据不同的情况进行调整的问题，进而达到了提高金融稳定性，守护金融安全的技术效果。

可选的，上述输入模块24，还用于通过所述随机森林模型中的每一决策树确定所述交易数据的分类结果；将多个分类结果划分为多个分组，其中，每个分组中的分类结果一致；确定所述每个分组中的分类结果的数量，并确定所述数量最多的分组对应的分类结果为所述投票结果。

可选的，上述装置还包括：循环模块，用于将所述特征数据输入至预先训练好的交易模型中之前，循环执行构建步骤，直至构建完成所述随机森林模型中的每一决策树，其中，所述构建步骤包括：计算所述决策树中的每个非叶子节点对应的特征的信息增益比；将信息增益比最大的特征作为划分特征，并将所述划分特征对应的节点作为***节点；根据所述划分特征将特征样本数据划分成多个子数据集，并根据所述多个子数据集构建所述***节点的子节点。

可选的，上述装置还包括：验证模块，用于在循环执行构建步骤，直至构建完成所述随机森林模型的每一决策树之后，将特征验证数据输入至所述随机森林模型中，并获取所述随机森林模型输出的预测结果；根据所述预测结果和所述特征验证数据数值对应的标签数据确定所述随机森林模型的指标信息，其中，所述指标信息包括：准确率、精确度、召回率、F1值、特异度和假正率；根据所述指标信息确定所述随机森林模型是否通过验证。

可选的，上述验证模块还用于，在所述准确率大于等于第一阈值，所述精确度大于等于第二阈值，所述召回率大于等于第三阈值，所述F1值大于等于第四阈值，所述特异度大于等于第五阈值，所述假正率小于等于第六阈值的情况下，确定所述随机森林模型通过验证；在所述准确率小于所述第一阈值，和/或，或所述精确度小于所述第二阈值，和/或，所述召回率小于所述第三阈值，和/或，所述F1值小于所述第四阈值，和/或，所述特异度小于所述第五阈值，和/或，所述假正率大于所述第六阈值的情况下，确定所述随机森林模型未通过验证。

可选的，上述输入模块还用于，在确定所述交易数据为异常交易数据的情况下，对所述交易数据进行差分隐私计算，以获取加密后的交易数据；将所述加密后的交易数据发送送至终端设备，以使所述终端设备根据所述加密后的交易数据输出分析结果。

可选的，上述输入模块还用于，根据所述交易数据确定所述目标对象的交易数值，以及所述目标对象的交易频率；根据所述交易数据和所述交易频率确定所述目标对象所述交易数据是否为异常交易数据；在确定所述交易数据为正常交易数据的情况下，将所述特征数据输入至预先训练好的交易模型中。

为了更好的理解上述交易数据的确定方法的过程，以下再结合可选实施例对上述交易数据的确定方法的实现流程进行说明，但不用于限定本申请实施例的技术方案。

本可选实施例建立一种交易数据的确定方法，适用场景为手机话费充值。如图4所示，图4是根据本申请实施例的一种交易数据的确定装置的结构框图(二)，其***的模块结构包含数据采集模块400、数据预处理模块401、数据缓存模块402、模型训练模块403、模型生成模块404、模型调优模块405、模型评价模块406、数据拦截模块407、模型预测模块408、结果执行模块409、数据报送模块410。

1)数据采集模块400：负责采集多来源的历史交易数据。从数据库中读取的交易数据包含：交易订单ID、交易手机号、交易时间、交易金额、交易类型、交易方式、支付渠道、距离上一笔交易间隔、交易前账户余额、截至该笔记录交易频率、是否跨运营商结算、交易是否异常等属性。

2)数据预处理模块401：

(1)处理数据形成数据集。将交易数据转换为多属性的数据集，对于连续数据依据事先制定好的规则将连续的数据离散化划分和分类，并以历史判断结果确定该交易数据的异常属性，将交易数据的异常属性作为该条交易数据的标签。

交易订单ID：对每一条交易订单进行编号，每个ID对应每一笔交易订单。

交易手机号：按照手机号中的4-7位划分出所属地区。

交易源IP地址：划分境内交易与跨境交易。

交易时间：将交易的时间进行离散划分，划分为上午、下午、晚上、凌晨四个时间段。

交易金额：将交易金额离散化划分，划分小额交易(0-40)，中额交易(40-100)、大额交易(>100)三个等级。

交易类型：包含预付费与后支付交易两种类型。

交易方式：包含电子支付交易、空中交易。

支付渠道：包含银行卡支付、第三方支付平台支付、预存话费划扣和线下结付。

距离上一笔交易间隔：离散划分为瞬时间隔，短暂间隔，日内间隔、周内间隔、月内间隔与长期间隔。

交易前账户余额：对账户余额进行离散化划分，账户余额类型包括：低余额、一般余额与富足余额。

交易频率：截至当前该笔交易，以月度为单位进行次数统计划分交易频率。划分低频、中频和高频三类。

是否跨运营商结算：当前该笔交易是否存在有跨运营商结算的情况进行划分。

是否境外手机号：当前该笔交易对应手机号是否为境外手机号划分。

是否虚拟手机号：当前该笔交易对应手机号是否为虚拟手机号划分。

并最终历史判断结果确定该交易数据的异常属性为每一笔交易记录打上是否为异常交易数据的标签。形成多条数据记录集合的数据集。如：“[属性1，属性2，……，属性n]-正常/异常交易”的形式。

(2)残缺数据与空数据处理。对于数据存在残缺不全与空数据的数据记录，对该条数据记录进行删除操作，从数据集中进行剔除。

3)数据存储模块402：用于存储经过预处理后待训练的数据集和已经过模型判断的新的交易记录，更新训练模型时可随机从该模块中抽取对应数量数据集进行训练。

4)模型训练模块403：对经过数据预处理过的数据进行划分，其中70％的数据用于训练模型，30％数据用于对模型进行评估。

5)模型生成模块404、模型调优模块405：对训练集使用Bagging方法采样训练，并利用K折交叉验证对模型进行调优。先把数据集等分为K份、1份作为验证集，K-1份作为训练集，每个训练集包含X个样本，Y个特征，则每轮训练有(K-1)*X个样本参与。对于一个需求为生成具备G棵决策树的随机森林：

(1)依据采样随机：需要对样本进行G/K轮随机抽样，每轮抽样的数据记录数为(K-1)*X条，采集(K-1)*X次，用于训练G/K棵决策树。

(2)依据特征选取随机：每棵决策树从数据记录的所有特征中抽取a个特征，其中

本发明实施例通过计算C4.5算法来对完成对每G/K颗决策树的构建。依据信息增益率大小来选择决策树特征划分的先后节点，信息增益率大的属性作为优先***节点：

a.信息量(熵)：熵表示事务不确定性的程度，也就是信息量的大小。在本场景中D代表训练集，Pi表示训练集D中交易数据是否异常的分类所出现的概率，m表示分类的数量：

b.信息熵：假定按照属性A划分训练集D，且属性A将D划分成v个不同的类。Info(Dj)表示按照属性A进行划分训练集D后划分后计算各部分的信息量，属性A的信息熵如下：

c.信息增益：原来的信息需求与新需求(即对A划分之后得到的)的信息之间的差：

Gain(A)＝Info(D)-Info_A(D)。

d.信息***：信息增益率使用“***信息”值将信息增益规范化：

e.信息增益率：通过将训练数据集D划分成对应于属性A测试的v个输出的v个划分产生的信息，选择具有最大增益率的属性作为优先***属性：

最终构建出G/K棵决策树，利用1份验证集验证构建出来的G/K棵决策树，按需对决策树超参数进行调整，这样一轮即可以产生G/K棵决策树。接着选取另一组数据用作验证集，剩余K-1组数据用作训练集，将以上步骤重复K轮，最终得到一个经过K折交叉验证的G棵决策树组成的随机森林模型。

6)模型评估模块406：将之前区分出来的30％数据对训练出来的随机森林模型进行评估，将评估的数据集通过随机森林模型，由森林的所有决策树投票共同决定结果，计算模型的准确率、精确度、召回率、F1值、特异度和假正率六项指标。

在交易场景中，把异常交易数据记为正类、正常交易数据记为负类。则混淆矩阵如表1混淆矩阵所示：

表1、混淆矩阵

基于建立的混淆矩阵，通过计算模型的准确率、精确度、召回率、F1值、特异度和假正率六项指标并划定阈值来判断模型是否通过验证。

(1)准确率：所有预测正确的样本(包含正类与负类)占总样本的比例：

(2)精确度：正确预测为正类(异常交易数据)的样本，占所有预测为正类样本的比例：

(3)召回率：正确预测为正类(异常交易数据)的占全部实际为正类的比例：

(4)F1值：兼顾精确度与召回率，使两者的调和平均数作为考量的两者平衡的综合性指标：

(5)特异度：正确被预测为负类(正常交易数据)的样本，占所有被预测为负类样本所占的比例：

(6)假正率：错误被预测为负类(正常交易数据)的样本，占所有被预测为负类样本所占的比例：

在以上六个模型评价指标中，TP和TN为正确预测的样本，FN和FP为错误预测的样本，以TP和TN为分子的指标越接近于1代表模型预测效果越好，以此本发明中制定：准确率≥0.80，精确度≥0.80，召回率≥0.80，F1值≥0.80，特异度≥0.80，假正率≤0.2即模型验证通过，将模型输出。

7)数据拦截模块507：对于用户的交易数据先进行拦截处理，并不直接进行交易，将数据记录通过数据预处理模块501进行处理后形成不带标签的数据记录，如[属性1，属性2，...，属性n]，将数据转发通过数据预测模块508进行预测判断。

8)数据预测模块508：存储训练好的随机森林模型，以便进行交易行为记录即时判断。将拦截的用户交易数据通过随机森林模型进行决策，由训练好的随机森林模型中所有决策树投票，根据投票结果占比判断该笔交易是否为异常交易。对新的交易数据进行判断后回送到数据存储模块502，由数据存储模块502等待新判断的交易数据累积一定量时再随机抽取足够样本数更新所训练的模型。

9)结果执行模块509：根据模型判断的结果执行对应操作。若为正常交易，则交易数据放行上送，接受该笔交易数据；若为异常交易，则交易数据不放行，拒绝该笔交易服务并返回交易失败。

10)数据报送模块510：根据模型判别的异常交易结果，定期以月为单位统计判别为异常的交易并已成功阻止的订单数据进行报送。数据包括对其进行交易涉及的金额数据进行汇总统计，异常交易扣款银行卡账户信息。

本可选实施例的流程分为随机森林模型训练流程、交易数据判别流程和数据报送流程，其流程图分别为图5、图6、图7。

(1)随机森林模型训练流程：

步骤S500：数据采集来源于运营商自身的数据库，数据库中存在历史收集的手机话费交易记录，这部分历史交易记录已经存在经过判断验证是否为异常交易，是否为异常交易作为该交易记录的分类标签。

步骤S501：对采集的数据进行预处理，提取交易记录的多个属性，包含但不限于交易订单ID、交易手机号、交易源IP地址、交易时间、交易金额、交易类型、交易方式、支付渠道、距离上一笔交易间隔、交易前账户余额、交易频率、是否跨运营商结算、是否境外手机号、是否虚拟手机号、是否异常交易。根据连续分布的属性将其进行离散划分，并将数据残缺和空值的记录进行删除，最终提示是否异常交易属性形成带标签的多属***易记录数据集用于模型训练。

步骤S502：该步骤实现存储待训练的数据集，以供下一步模型训练取用。

步骤S503：对取出的训练数据进行划分，70％用于训练模型，30％用于评价模型。该步骤进行模型训练，使用Bagging方法进行采样，采用K折交叉验证对模型进行调优，随机抽取样本与特征使用C4.5算法进行构建决策树，形成的所有决策树组成随机森林。

步骤S504：将30％的数据对训练的随机森林模型进行评价，数据通过模型判断的结果与自带的标签对比，比较真实值与预测值，计算模型的准确率、召回率、F1值等指标，根据指标的阈值判断模型是否通过。若是，则将模型进行输出，随机森林模型训练流程结束，若否，则重新进行模型训练，再次进行评价直至通过，输出模型。

步骤S505：输出训练好的模型，以供拦截到新的待识别的交易记录引入模型，完成识别是否异常交易。

(2)交易行为判别流程

步骤S600：统一拦截客户交易数据，对用户交易数据进行后续步骤操作。

步骤S601：对新拦截的客户订单进行处理，按照数据预处理中要求的数据属性从交易数据中进行提取，形成包含所需属性的多维数据记录。

步骤S602：将处理好的数据输入训练好的模型进行预测判断，根据模型中所有决策树是投票的结果输出判定结果。正常交易则对交易数据放行上送，异常交易则中止该笔交易，返回异常。

步骤S603：放行交易数据，上送订单，完成交易。

步骤S604：中止交易数据，返回交易异常，交易失败。

步骤S605：经过随机森林模型判别的交易数据打上是否属于异常交易的分类标签，并将该新的数据记录添加到训练集，待增量达到一定数量再随机抽取足够多的数据记录作为新的训练集更新模型。

步骤S606：数据记录增量达到一定量时从数据存储模块402中随机取出足够的数据，训练更新随机森林模型。

(3)数据报送流程

步骤S701：判断是否到达报送时间点，报送时间点以月为单位，定为每月最后一天为数据报送日。

步骤S702：对本月内被随机森林模型判定为异常交易数据并成功阻止的交易数据进行汇总，数据包含汇总统计的金额，利用银行卡交易的扣款银行卡账号。

步骤S703：将数据汇总统计后，对数据在本地进行差分隐私计算，将数据公布给金融***。

步骤S704：金融***接收报送过来的数据，通过分析整合报送数据分析交易数据中所阻止的流入正规市场的异常资金规模，敏感银行账户信息，利用这些数据促进金融***的反欺诈联合研究。

可以理解的是，本可选实施例是通过机器学习的方法对于交易数据是否异常。在交易数据属于异常交易数据的情况下，切断交易行为，进而维护金融***稳定性，守护金融安全。

可以理解的是，本可选实施例通过训练机器学习模型算法将一笔交易数据提取其多维的数据属性，输入模型快速判断其是否为异常交易。其相对传统规则判断和人工判断具备强拓展性、易维护性、高效性和低误判率的特点。

可以理解的是，本可选实施例采用随机森林训练模型对交易数据进行判断，采样随机，特征选取随机，通过多棵决策树投票决定输出判定结果。随机森林分类能减少过拟合，分类准确率高，能够处理高维数据，适应交易数据判断需要多维特征判断场景，允许快速训练模型，适合实际业务运行。

可以理解的是，本可选实施例定期对于***的模型对交易数据的判别结果进行汇总，统计被判别为异常交易的交易数据，并将异常交易数据定期发送至金融***。公布数据包括被成功判断为异常交易并阻止的涉及异常交易金额、异常交易扣款银行卡账户信息，以定期不断反馈的方式帮助金融***完善资金管理，促进反欺诈的联合研究。

所述交易数据的确定装置包括处理器和存储器，处理器用于运行程序，程序运行的数据均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中现有的模型特征分析方法会忽略特征之间的复杂关系，导致进行模型特征分析是，会消耗大量的时间和人力资源，用户体验差的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现所述交易数据的确定方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述交易数据的确定方法。

如图3所示，本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：将特征数据输入至预先训练好的交易模型中，以使交易模型输出交易数据的投票结果，其中，交易模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；根据投票结果确定交易数据是否为异常交易数据。

本申请中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标对象的交易数据，并确定所述交易数据对应的特征数据；将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，其中，所述交易模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；根据所述投票结果确定所述交易数据是否为异常交易数据

可选的，将所述特征数据输入至预先训练好的交易模型中，包括：根据所述交易数据确定所述目标对象的交易数值，以及所述目标对象的交易频率；根据所述交易数据和所述交易频率确定所述目标对象所述交易数据是否为异常交易数据；在确定所述交易数据为正常交易数据的情况下，将所述特征数据输入至预先训练好的交易模型中。本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种交易数据的确定方法，其特征在于，包括：

获取目标对象的交易数据，并确定所述交易数据对应的特征数据；

将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，其中，所述交易模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；

根据所述投票结果确定所述交易数据是否为异常交易数据。

2.根据权利要求1所述的方法，其特征在于，在所述交易模型为随机森林模型的情况下，将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，包括：

通过所述随机森林模型中的每一决策树确定所述交易数据的分类结果；

将多个分类结果划分为多个分组，其中，每个分组中的分类结果一致；

确定所述每个分组中的分类结果的数量，并确定所述数量最多的分组对应的分类结果为所述投票结果。

3.根据权利要求2所述的方法，其特征在于，将所述特征数据输入至预先训练好的交易模型中之前，所述方法还包括：

循环执行构建步骤，直至构建完成所述随机森林模型中的每一决策树，

其中，所述构建步骤包括：计算所述决策树中的每个非叶子节点对应的特征的信息增益比；将信息增益比最大的特征作为划分特征，并将所述划分特征对应的节点作为***节点；根据所述划分特征将特征样本数据划分成多个子数据集，并根据所述多个子数据集构建所述***节点的子节点。

4.根据权利要求3所述的方法，其特征在于，循环执行构建步骤，直至构建完成所述随机森林模型的每一决策树之后，所述方法还包括：

将特征验证数据输入至所述随机森林模型中，并获取所述随机森林模型输出的预测结果；

根据所述预测结果和所述特征验证数据数值对应的标签数据确定所述随机森林模型的指标信息，其中，所述指标信息包括：准确率、精确度、召回率、F1值、特异度和假正率；

根据所述指标信息确定所述随机森林模型是否通过验证。

5.根据权利要求4所述的方法，其特征在于，根据所述指标信息确定所述随机森林模型是否通过验证，包括：

在所述准确率大于等于第一阈值，所述精确度大于等于第二阈值，所述召回率大于等于第三阈值，所述F1值大于等于第四阈值，所述特异度大于等于第五阈值，所述假正率小于等于第六阈值的情况下，确定所述随机森林模型通过验证；

在所述准确率小于所述第一阈值，和/或，或所述精确度小于所述第二阈值，和/或，所述召回率小于所述第三阈值，和/或，所述F1值小于所述第四阈值，和/或，所述特异度小于所述第五阈值，和/或，所述假正率大于所述第六阈值的情况下，确定所述随机森林模型未通过验证。

6.根据权利要求1所述的方法，其特征在于，根据所述投票结果确定所述交易数据是否为异常交易数据之后，所述方法还包括：

在确定所述交易数据为异常交易数据的情况下，对所述交易数据进行差分隐私计算，以获取加密后的交易数据；

将所述加密后的交易数据发送送至终端设备，以使所述终端设备根据所述加密后的交易数据输出分析结果。

7.根据权利要求1所述的方法，其特征在于，将所述特征数据输入至预先训练好的交易模型中，包括：

根据所述交易数据确定所述目标对象的交易数值，以及所述目标对象的交易频率；

根据所述交易数据和所述交易频率确定所述目标对象所述交易数据是否为异常交易数据；

在确定所述交易数据为正常交易数据的情况下，将所述特征数据输入至预先训练好的交易模型中。

8.一种交易数据的确定装置，其特征在于，包括：

获取模块，用于获取目标对象的交易数据，并确定所述交易数据对应的特征数据；

输入模块，用于将所述特征数据输入至预先训练好的交易模型中，以使所述交易模型输出所述交易数据的投票结果，其中，所述交易模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：特征样本数据和特征样本数据对应的交易数据是否为异常交易数据的标签；

确定模块，用于根据所述投票结果确定所述交易数据是否为异常交易数据。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的方法。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的方法。