CN111401906A

CN111401906A - 转账风险检测方法及***

Info

Publication number: CN111401906A
Application number: CN202010146496.9A
Authority: CN
Inventors: 黄琼; 暨光耀; 文幸亮; 丘士丹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-10

Abstract

本发明提供了一种转账风险检测方法及***，所述方法包含：获取历史电信诈骗数据和标准电信交易数据；根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

Description

转账风险检测方法及***

技术领域

本发明涉及电信交易领域，尤指一种转账风险检测方法及***。

背景技术

近几年来，得益于电信领域的高速发展，移动通讯已经成为了人们生活和工作中不可缺少的一部分。然而，伴随着移动通讯带来的不仅是便利，也同样带来了诸多问题。

移动通讯技术在给我们工作生活带来便利的同时，也给不法分子的行骗打开了方便之门，这其中就以通讯诈骗最为普遍。通讯诈骗指不法分子通过电话、短信等移动通讯方式，设计骗局，通过编造的虚假内容骗取受骗人的信任后，向受骗人索取个人隐私信息或诱导受骗人执行特定的指令，最终给受骗人带来相应的损失。通讯诈骗直接威胁到了民众的信息与财产的安全，给我们的生活造成了极大的安全隐患。大部分通讯诈骗的案例当中，当行骗人诈骗成功后，相关机构很难从诈骗案件中留下的线索去追回损失，因为诈骗人通常通过一些无记名、冒名或公共电话行骗，并且留下的信息也是经过层层设计，很难从中追查到具体的线索。

在电信诈骗“新套路”层出不穷的当今社会，防诈骗手段主要集中于提高民众自身警惕性和提升防诈骗打击力度两方面。其中，提高民众自身警惕性的主要方法是公安机构及相关电信机构，通过电视、讲座等宣传方式去提醒、教育民众，以此提高民众的防诈骗意识，使得民众在收到类似诈骗电话时能够保持足够的警惕性，减少不必要的损失。而在提升打击力度方面，主要是电信机构配合相关政府部门，利用立法、建立黑名单等手段，加强监测机制。

然而，面对通讯诈骗手段的层出不穷和手法的不断更新，上述现有方案都不能及时有效的跟上行骗者的步伐。同时，民众自身的文化修养层次不齐，难以保证每一个人都能有一个较高的警惕性。而在提升打击力度方面，现有的方法依赖于政府机构和商业公司的配合，且需要投入大量的人力物力，如果要通过该方法快速且有效的打击通讯诈骗，需要消耗大量的社会资源，而如果在此投入过多的资源，则会严重影响整个电信行业的正常发展。因此，目前尚缺乏防通讯诈骗的技术解决方案，能够快速有效且不需要消耗较多社会资源，实现对日益猖狂的通讯诈骗进行有力打击。

发明内容

本发明目的在于提供一种转账风险检测方法及***，予以高效准确的识别电信诈骗手段，避免辨别能力较低的用户直接转账到骗子指定账户。

为达上述目的，本发明所提供的一种转账风险检测方法，所述方法包含：获取历史电信诈骗数据和标准电信交易数据；根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

在上述转账风险检测方法中，优选的，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值包含：根据所述诈骗特征数据中多个特征建立决策树，通过所述决策树生成随机森林；通过所述随机森林对所述待检测交易数据进行特征比对，获得待测特征数据的相似度值。

在上述转账风险检测方法中，优选的，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理包含：获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；根据所述诈骗样本数据获得电信诈骗样本数据。

在上述转账风险检测方法中，优选的，根据所述诈骗样本数据获得电信诈骗样本数据包含：根据所述诈骗样本数据和所述标准电信交易数据，根据正态分布理论计算所述诈骗样本数据中各诈骗样本的标准差；根据各诈骗样本的标准差与噪声阈值之间的比对结果，获得去噪后的电信诈骗样本数据。

在上述转账风险检测方法中，优选的，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合。

在上述转账风险检测方法中，优选的，所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。

本发明还提供一种转账风险检测***，所述***包含采集模块、特征分析模块、算法处理模块和风险确定模块；所述采集模块用于获取历史电信诈骗数据和标准电信交易数据；所述特征分析模块用于根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；所述算法处理模块用于获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；所述风险确定模块用于根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

在上述转账风险检测***中，优选的，所述算法处理模块包含：根据所述诈骗特征数据中多个特征建立决策树，通过所述决策树生成随机森林；通过所述随机森林对所述待检测交易数据进行特征比对，获得待测特征数据的相似度值。

在上述转账风险检测***中，优选的，所述特征分析模块还包含预处理单元，所述预处理单元用于获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；根据所述诈骗样本数据获得电信诈骗样本数据。

在上述转账风险检测***中，优选的，所述预处理单元还包含：根据所述诈骗样本数据和所述标准电信交易数据，根据正态分布理论计算所述诈骗样本数据中各诈骗样本的标准差；根据各诈骗样本的标准差与噪声阈值之间的比对结果，获得去噪后的电信诈骗样本数据。

在上述转账风险检测***中，优选的，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合；所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益技术效果在于：通过随机森林算法分析得到电信诈骗转账交易的强势特征，并计算待预测交易的相似度得分，最后根据相似度得分预测交易风险，能够有效阻止由于电信诈骗手段层出不穷，辨别能力较低的用户直接转账到骗子指定账户，通过预测转账交易的风险概率，降低电信诈骗的成功率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所提供的转账风险检测方法的流程示意图；

图2为本发明一实施例所提供的随机森林算法的流程示意图；

图3为本发明一实施例所提供的转账风险检测方法的应用流程示意图；

图4为本发明一实施例所提供的转账风险检测方法的预处理流程示意图；

图5为本发明一实施例所提供的转账风险检测***的结构示意图；

图6为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

请参考图1所示，本发明所提供的一种转账风险检测方法，所述方法包含：

S101获取历史电信诈骗数据和标准电信交易数据；

S102根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；

S103通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；

S104获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；

S105根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

在上述实施例中，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合。所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。实际工作中，所述历史电信诈骗数据可利用随机森林算法做全量或局部特征分析，本领域相关技术人员可根据实际数据量大小、针对诈骗类型或当前需求予以确定，本发明对其不做进一步限定。

在上述实施例中，随机森林(Random Forests)算法是一种比较新的机器学习模型，是Bagging集成方法里具有代表性的算法，它首先从样本集中采样选出n个样本，然后从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立决策树，重复上述两步m次，也就是建立了m棵决策树，最后这m棵树形成随机森林，通过投票表决结果，得出输入数据属于哪一类。经典的机器学习模型应属神经网络，神经网络虽能做到精确预测，但是计算量大。随机森林对于多维特征的数据集分类有很高的效率，还可以做特征重要性的选择，而且在运算量没有显著增大的前提下提高了预测精度。随机森林简单来说就是随机生成一个森林，森林里面由多棵决策树组成，并且每一棵决策树之间没有关联。得到森林之后，当有一个新的输入样本进入时，森林中的每一棵决策树就会判断该样本应该属于哪一类，最后通过投票决定预测这个样本为哪一类。

为此，在本发明一实施例中，上述步骤S104中根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值还可包含：根据所述诈骗特征数据中多个特征建立决策树，通过所述决策树生成随机森林；通过所述随机森林对所述待检测交易数据进行特征比对，获得待测特征数据的相似度值。其实现原理请参考图2所示，随机森林算法根据m个样本训练集构造了m棵决策树，每棵决策树随机从原始训练样本集中随机抽取n个样本生成新的训练样本集合。假设每个样本所有特征数目为K，对n个样本选择K中的k个特征，用建立决策树的方式获得最佳分割点，新数据的分类结果按决策树投票多少形成分数而定，再根据数据分类的好坏筛选出具有最好特征值的集合。随机森林实质是对决策树算法的一种改进，合并多个决策树，每棵树的建立依赖于一个独立的样本，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去***每一个节点，然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择哪些有价值的特征值。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类与最有价值的特征值。决策树构建的关键在于分割点的选取，通过采用贪心算法考虑当前分割点纯度差的大小作为要素进行从大到小优先排序。

对于纯度的量化使用ID3算法，以信息增益度量属性选择，选择***后信息增益最大的属性进行***。

公式1：

公式2：

公式3：gain(A)＝info(D)-info_A(D)

如上公式1是在集合D中信息熵的表示，p_i为第i类别在集合D中出现的概率p_i＝D_i/D。在公式2中假设将训练集合D按照A特征属性进行划分，则表示A对D所划分的期望信息熵，那么在按照A特征属性划分后所得到的信息增益gain(A)如公式3所表示，所有的特征值都按照信息增益来进行递归排序，从而构建整个决策树，在随机森林体系所构建的决策树中不需要进行减枝，这样对训练数据就会表现很精确，尽管对其他数据没有那么精确会出现过拟合，但对于集成学习来说可以通过多个决策树共同决策来避免单个决策树的过拟合。

请参考图3所示，在本发明一实施例中，上述步骤S103在实际工作中可分为样本准备、特征字段准备、生成随机森林、投票、特征输出五部分；具体的：

1、样本准备：

在交易风险预测***随机森林模块中，历史电诈案例交易数据中的交易金额、转账方年龄(是否退休、学生或无业)、职业、转账***与收款方***归属地是否匹配、二者是否有过交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近三天收入合计值、收款方近三天支出和距离上次交易时长(天)、近5天交易次数等信息，形成样本集N。

2、特征字段准备：

将所有字段送入到随机森林模块中(即特征字段准备)，每个样本含K个特征。

3、生成随机森林：

从样本集N中采样选出n个样本。

从K特征中随机选择k个特征，对选出的样本利用这些特征建立决策树。

重复以上两步m次，即生成m棵决策树，形成随机森林。

在第1棵决策树中，有n个样本，特征为(K₁、K₂...K_k)。

在第2棵决策树中，有n个样本，特征为(K₂、K₃...K_k+1)。

......

在第m棵决策树中，有n个样本，特征为(K_m、K_m+1...K_k+m-1)。

4、投票：

将样本数据送入分别送入m棵决策树中，其中：

第1棵决策树投票,如表1所示：

表1

第2棵决策树投票,如表2所示：

表2

......

第m棵决策树投票,如表3所示：

表3

5、特征输出：

根据每个决策树对分类结果进行评估，筛选出最好的特征类型集合：随机森林算法根据特征字段在表现优秀的决策树中所含有比例进行分类排名，在排名中越靠前的特征表现为越强相关特征。

其后，即可执行步骤S104等后续步骤，即：

6、获取待检测交易数据：

交易风险预测模块构建需实时获取转账交易中的交易金额、转账方年龄、职业(是否退休、学生或无业)、转账***与收款方***归属地是否匹配、二者是否有过交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近三天收入合计值、收款方近三天支出和距离上次交易时长(天)、近5天交易次数等数据。

7、生成随机森林：

仿照第三步将历史诈骗交易、强势特征、待预测交易生成一个新的随机森林。

8、投票：

仿照第四步对待预测交易进行投票。

9、输出相似度值：

输出算法结果，待预测交易会有一个相似度值，得分介于[0,1]之间，分数越接近1表示转账交易存在风险的可能性越大。当然，实际工作中也可设置为0到100，或其他区间表示方式，本发明对其并不做进一步限定。

10、检测结果：

在第9步中待预测交易有一个相似度值，可以设定风险阀值，如相似度得分在0.9以上的交易则判定为存在风险交易。本领域相关技术人员在实际使用时，可根据实际需要选择设置风险阈值，本发明对其并不做进一步限定。

请参考图4所示，在本发明一实施例中，步骤S102的通过正态分布原理对所述历史电信诈骗数据进行去噪预处理还包含：S401获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；S402将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；S403通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；S404根据所述诈骗样本数据获得电信诈骗样本数据。进一步的，步骤S404根据所述诈骗样本数据获得电信诈骗样本数据还包含：根据所述诈骗样本数据和所述标准电信交易数据，根据正态分布理论计算所述诈骗样本数据中各诈骗样本的标准差；根据各诈骗样本的标准差与噪声阈值之间的比对结果，获得去噪后的电信诈骗样本数据。在实际工作中，因前期数据的采集可能存在噪声或者缺失，从而对后期预测结果产生影响，因此在数据特征分析之前还可分别对电诈案例数据以及正常交易数据进行预处理；该过程主要分为两步即数据填充和筛选；具体的，数据填充则是对样本集合中缺失超过设定阈值的样本进行删除；对于存在缺省少量特征数据的样本，用零值进行填充；而筛选过程则包含如下流程：数据去噪：此时把电诈样本数据以及正常交易数据的质量分布均理想化为正态分布。它会随着随机变量的平均数、标准差与单位的不同而呈现出不同的正态分布，如公式4所示。

公式4：

其中，σ表示数据集的标准差，μ表示数据集的均值，x是指数据集的特征数据。相对于大概率数据，噪声数据可以理解为小概率数据。其后，用正态分布具有“(μ-3σ,μ+3σ)落在以外的概率小于千分之三”的特点，对样本的每一个特征数据进行处理，通过计算出各个特征数据的标准差，将落在以外的数据点设想为噪声进行排除。

请参考图5所示，本发明还提供一种转账风险检测***，所述***包含采集模块、特征分析模块、算法处理模块和风险确定模块；所述采集模块用于获取历史电信诈骗数据和标准电信交易数据；所述特征分析模块用于根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；所述算法处理模块用于获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；所述风险确定模块用于根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。其中，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合；所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。

在上述实施例中，所述算法处理模块包含：根据所述诈骗特征数据中多个特征建立决策树，通过所述决策树生成随机森林；通过所述随机森林对所述待检测交易数据进行特征比对，获得待测特征数据的相似度值。具体处理流程已在前述实施例中予以详述，在此就不再详细说明。

在本发明一实施例中，所述特征分析模块还包含预处理单元，所述预处理单元用于获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；根据所述诈骗样本数据获得电信诈骗样本数据。进一步的，所述预处理单元还可包含：根据所述诈骗样本数据和所述标准电信交易数据，根据正态分布理论计算所述诈骗样本数据中各诈骗样本的标准差；根据各诈骗样本的标准差与噪声阈值之间的比对结果，获得去噪后的电信诈骗样本数据。

如图6所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图6中所示的所有部件；此外，电子设备600还可以包括图6中没有示出的部件，可以参考现有技术。

如图6所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种转账风险检测方法，其特征在于，所述方法包含：

获取历史电信诈骗数据和标准电信交易数据；

根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；

通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；

获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；

根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

2.根据权利要求1所述的转账风险检测方法，其特征在于，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值包含：

根据所述诈骗特征数据中多个特征建立决策树，通过所述决策树生成随机森林；

通过所述随机森林对所述待检测交易数据进行特征比对，获得待测特征数据的相似度值。

3.根据权利要求1所述的转账风险检测方法，其特征在于，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理包含：

获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；

将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；

通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；

根据所述诈骗样本数据获得电信诈骗样本数据。

4.根据权利要求3所述的转账风险检测方法，其特征在于，根据所述诈骗样本数据获得电信诈骗样本数据包含：

根据所述诈骗样本数据和所述标准电信交易数据，根据正态分布理论计算所述诈骗样本数据中各诈骗样本的标准差；

根据各诈骗样本的标准差与噪声阈值之间的比对结果，获得去噪后的电信诈骗样本数据。

5.根据权利要求1至4中任一项所述的转账风险检测方法，其特征在于，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合。

6.根据权利要求5所述的转账风险检测方法，其特征在于，所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。

7.一种转账风险检测***，其特征在于，所述***包含采集模块、特征分析模块、算法处理模块和风险确定模块；

所述采集模块用于获取历史电信诈骗数据和标准电信交易数据；

所述特征分析模块用于根据所述历史电信诈骗数据和所述标准电信交易数据，通过正态分布原理对所述历史电信诈骗数据进行去噪预处理，获得电信诈骗样本数据；通过随机森林算法对所述电信诈骗样本数据进行强势特征提取，获得诈骗特征数据；

所述算法处理模块用于获取待检测交易数据，根据所述诈骗特征数据和所述待检测交易数据通过随机森林算法获得待测特征数据的相似度值；

所述风险确定模块用于根据所述相似度值与预定风险阈值的比较结果获得待检测交易数据的风险检测结果。

8.根据权利要求7所述的转账风险检测***，其特征在于，所述算法处理模块包含：

9.根据权利要求7所述的转账风险检测***，其特征在于，所述特征分析模块还包含预处理单元，所述预处理单元用于获取所述历史电信诈骗数据中多个诈骗数据的缺失情况；将各诈骗数据的缺失情况分别与预设缺失阈值，筛选获得小于预设缺失阈值的诈骗样本；通过零值填充所述诈骗样本中缺失内容获得诈骗样本数据；根据所述诈骗样本数据获得电信诈骗样本数据。

10.根据权利要求9所述的转账风险检测***，其特征在于，所述预处理单元还包含：

11.根据权利要求7至10中任一项所述的转账风险检测***，其特征在于，所述历史电信诈骗数据包含交易金额、转账方年龄、职业、转账***与收款方***归属地匹配情况、二者交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近一预设周期收入合计值、收款方近一预设周期支出和距离上次交易时长、近一预设周期交易次数中一个或多个的组合；所述待检测交易数据与所述历史电信诈骗数据的数据类型相同。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。