CN115409518A - 用户交易风险预警方法及装置 - Google Patents

用户交易风险预警方法及装置 Download PDF

Info

Publication number
CN115409518A
CN115409518A CN202211225975.5A CN202211225975A CN115409518A CN 115409518 A CN115409518 A CN 115409518A CN 202211225975 A CN202211225975 A CN 202211225975A CN 115409518 A CN115409518 A CN 115409518A
Authority
CN
China
Prior art keywords
transaction
risk
abnormal
payment
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211225975.5A
Other languages
English (en)
Inventor
李维志
罗伟
胡兴源
陈立宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211225975.5A priority Critical patent/CN115409518A/zh
Publication of CN115409518A publication Critical patent/CN115409518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种用户交易风险预警方法及装置,涉及数据安全领域,可应用于金融领域和其他领域,所述方法包含:获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;根据所述第一比较结果和所述第二比较结果生成预警信息。

Description

用户交易风险预警方法及装置
技术领域
本申请涉及数据安全领域,可应用于金融领域和其他领域,尤指一种用户交易风险预警方法及装置。
背景技术
随着电子移动支付方式在大众中广泛普及,人们日常消费及资金转账变得简单快捷,但与此同时也为不法分子的犯罪活动都打开了一条途径。用户信息遗失、网络诈骗等诈骗现象层出不穷,犯罪分子通过电话、网络和短信等方式,编造虚假信息,设置骗局,对用户实施远程、非接触式诈骗,诱使用户给犯罪分支打款和转账等犯罪行为,使用户资金大量流失。犯罪分子作案手法翻新层出,千方百计编造各种虚假事实进行诈骗犯罪,没有接触过诈骗信息的群众非常容易上当受骗。当今互联网计算的发达同时导致网络用户信息遗失行为查出、打击困难,且犯罪分支依靠技术手段,具有较强的反侦察能力。诈骗人通常通过一些无记名、冒名或公共电话行骗,并且留下的信息也是经过层层设计,很难从中追查到具体的线索。用户信息遗失的受害对象可以遍及社会各个阶层、各个行业、各个群体,对于资金风险敏感程度不够的用户,容易产生过度消费或轻信骗局有大笔现金转账的行为,造成财产流失。这些犯活动具有广泛性,受害群体大,对整个社会都构成严重危害;另一方面,其诈骗数额大,动辄就是几十上百万甚至数千万,严重扰乱了社会秩序,对社会的危害及其严重。目前缺乏一种有效的预警措施可以针对异常资金交易对用户提供警示,且能够快速有效的对用户信息遗失信息进行快速识别。
发明内容
本申请目的在于提供一种用户交易风险预警方法及装置,基于用户的支付类型通过孤立森林以及随机森林算法分别进行预测,根据预测结果有效判断用户的风险情况并予以预警。
为达上述目的,本申请所提供的用户交易风险预警方法,具体包含:获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;根据所述第一比较结果和所述第二比较结果生成预警信息。
在上述用户交易风险预警方法中,可选的,获取用户的支付信息包含:监测用户的支付交易,根据所述支付交易解析获得支付金额和对应的账户信息;根据所述账户信息获得用户预设周期内的历史支付金额和历史收入金额;当所述支付金额与所述历史支付金额之和高于所述历史收入金额和/或所述支付金额高于所述历史收入金额时,根据所述支付交易生成支付信息。
在上述用户交易风险预警方法中,可选的,根据所述交易类别通过孤立森林算法分析所述支付信息获得异常预测值包含:当所述交易类别为非消费类型时,通过孤立森林算法对所述支付信息的全量/局部特征进行分析构建获得对应的决策树;根据所述决策树生成对应的孤立森林,通过所述孤立森林分析获得所述支付信息对应的异常预测值。
在上述用户交易风险预警方法中,可选的,所述支付信息包含交易金额、支付方年龄、投资金额、股权投资金额、理财金额、生产经营、历史平均交易金额、历史资金转出标准差、预设周期内资金转移次数。
在上述用户交易风险预警方法中,可选的,根据所述交易类别通过随机森林算法分析所述支付信息获得风险预测值包含:当所述交易类别为消费类型时,通过随机森林算法对历史异常消费数据的全量/局部特征进行分析获得异常强势特征;根据所述历史异常消费数据、所述支付信息和异常强势特征通过随机森林算法分生成随机森林;通过所述随机森林分析所述支付信息的相似性获得风险预测值。
在上述用户交易风险预警方法中,可选的,所述支付信息包含交易金额、支付方年龄、职业、支付***与接收***归属地匹配结果、支付方与接收方之间的交易记录、支付***历史最高交易金额、支付***历史平均交易金额、支付***历史交易金额标准差、接收***在预设周期的收入合计值、预设周期内的交易次数。
在上述用户交易风险预警方法中,可选的,根据所述第一比较结果和所述第二比较结果生成预警信息包含:当异常预测值大于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第一告警策略进行风险预警;当异常预测值小于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第二告警策略进行风险预警;当异常预测值大于或等于预设异常阈值,且风险预测值小于预设风险阈值时,生成预警信息并通过第三告警策略进行风险预警。
本申请还提供一种用户交易风险预警装置,所述装置包含采集模块、分析模块、比较模块和预警模块;所述采集模块用于获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;所述分析模块用于根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;所述比较模块用于将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;所述预警模块用于根据所述第一比较结果和所述第二比较结果生成预警信息。
本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本申请的有益技术效果在于:基于孤立森林算法以及随机森林算法得出非消费交易行为的异常值以及消费行为的阈值,通过综合分析这两个值的得分情况,用户资金风险预警***进行判断用户是否具有高危行为以及预警行为;有效地克服了由于用户信息遗失产生的交易样本集中而存在类别不平衡问题,通过双重算法分析提高了转账存在风险的判定的准确度,克服单一算法针对不同风险预测的局限性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。在附图中:
图1为本申请一实施例所提供的用户交易风险预警方法的流程示意图;
图2为本申请一实施例所提供的支付信息的获取流程示意图;
图3为本申请一实施例所提供的异常预测值的获取流程示意图;
图4为本申请一实施例所提供的孤立森林算法的原理示意图;
图5为本申请一实施例所提供的孤立森林算法的逻辑示意图;
图6为本申请一实施例所提供的孤立森林算法的应用流程示意图;
图7为本申请一实施例所提供的风险预测值的获取流程示意图;
图8为本申请一实施例所提供的随机森林算法的应用流程示意图;
图9为本申请一实施例所提供的用户交易风险预警装置的结构示意图;
图10为本申请一实施例所提供的电子设备的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本申请的实施方式,借此对本申请如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本申请中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本申请的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参考图1所示,本申请提供了一种用户交易风险预警方法,所述方法包含:
S101获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;
S102根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;
S103将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;
S104根据所述第一比较结果和所述第二比较结果生成预警信息。
由此,本申请通过孤立森林得出的非消费行为异常值以及通过随机森林得出消费行为阈值。将得分都低于阈值以及异常值的行为定义为安全行为,将得分都高于阈值以及异常值的行为进行报警高危行为,阈值或者异常值有且只有一个高于正常值时,进行预警危险行为。综合分析,得出用户资金风险预测,及时给予提醒,降低用户不必要的交易风险。
请参考图2所示,在本申请一实施例中,获取用户的支付信息包含:
S201监测用户的支付交易,根据所述支付交易解析获得支付金额和对应的账户信息;
S202根据所述账户信息获得用户预设周期内的历史支付金额和历史收入金额;
S203当所述支付金额与所述历史支付金额之和高于所述历史收入金额和/或所述支付金额高于所述历史收入金额时,根据所述支付交易生成支付信息。
具体的,在实际工作中,为避免明显的正常交易行为也进行不必要的风险预警,在该实施例中可进行一初步风险检测,即当所述支付金额与所述历史支付金额之和高于所述历史收入金额和/或所述支付金额高于所述历史收入金额时才确认该支付交易有可能存在风险,需要进行后续识别;当然,实际工作中,也可采用其他方式进行初步异常识别,将可能存在风险的支付交易提取出来进行深度分析,本申请在此并不对其初步识别方式做任何限定。
请参考图3所示,在本申请一实施例中,根据所述交易类别通过孤立森林算法分析所述支付信息获得异常预测值包含:
S301当所述交易类别为非消费类型时,通过孤立森林算法对所述支付信息的全量/局部特征进行分析构建获得对应的决策树;
S302根据所述决策树生成对应的孤立森林,通过所述孤立森林分析获得所述支付信息对应的异常预测值。
其中,所述支付信息包含交易金额、支付方年龄、投资金额、股权投资金额、理财金额、生产经营、历史平均交易金额、历史资金转出标准差、预设周期内资金转移次数。在实际工作中,针对非消费类型的交易支出,本申请根据孤立森林算法对用户待预测交易全量/局部特征进行分析,构建出对应的决策树进而得到孤立森林;根据所述孤立森林算法对非消费类型统计平均路径长度,得到非消费类型的异常得分;将异常得分接近阀值的交易确定为存在风险交易。
在上述实施例中,孤立森林算法对用户待预测交易全量/局部特征进行分析,构建出对应的决策树进而得到孤立森林可包含根据待预测交易的若干个特征建立决策树,由所有的决策树生成孤立森林,其中,所述特征均在各决策树中;根据所述孤立森林计算待预测交易的异常得分。
由上述技术方案可知,本申请实施例通过孤立森林算法分析得到用户待预测交易中特征明显且相对稀少的异常交易,并计算待预测交易的异常得分,最后根据异常得分预测交易风险,能够有效预测和识别风险交易,及时提醒用户确认,降低用户因冲动消费或诈骗所造成的资金损失,提高用户用卡安全。
请参考图4所示,在实际工作中,针对非消费类型的支付信息的分析流程主要包含如下三步:
1、根据孤立森林算法对用户待预测交易的全量/局部特征进行分析,构建对应的决策树,进而生成孤立森林。
其中,待预测交易数据为交易金额、用户年龄、投资金额、股权投资金额、理财金额、生产经营、历史平均交易金额、历史资金转出标准差、近5天资金转移次数。
2、根据所述孤立森林算法对孤立森林进行处理,得到待预测交易的异常得分。
3、将异常得分接近阀值的交易确定为风险交易。
具体地,本实施例首先采用孤立森林算法对用户待预测交易的全量/局部特征进行分析,构建对应孤立森林;进而对待预测交易进行异常打分,并将得分接近某个阀值的交易定义为存在风险交易。
其中,孤立森林(Isolation Forests)算法是一个基于Ensemble(通过聚合多个分类器的预测来提高分类的准确率,通过反复的抽样训练新的模型,最终在这些模型的基础上取平均)的快速异常检测方法,具有线性的时间复杂度,且精准度较高,在处理大数据时速度较快。孤立森林中的“孤立”指的是“把异常点从所有样本中孤立出来”。大多数基于模型的异常检测算法会先“规定”正常点的范围或模式,如果某个点不符合这个模式,或者说不在正常范围内,那么模型会将其判定为异常点。孤立森林算法的理论基础有两点:1)异常数据占总样本量的比例很小;2)异常点的特征值与正常点的差异很大。基于这两个理论,通过数学方法对待检测数据进行建模并计算分值,得到最终的检测结果;本实施例通过孤立森林算法分析用户待预测交易的孤立程度,并计算待预测交易的异常得分,最后根据异常得分预测交易的风险,能够采用客观科学的方法快速预测用户交易的风险概率,避免用户资金损失。
请参考图5所示,孤立森林算法根据m个样本训练集构造了n棵决策树,每棵决策树均采用相同的样本集合。假设每个样本所有特征数目为K,对n个样本选择K中的k个特征,用随机方式选取其中一个特征值进行分割,新数据的分类结果按小于特征值或大于等于特征值分解为2个子节点,之后按相同方法在子节点上继续递归分割。在大数据样本支持下,异常数据能够较快被分割出来,与决策树的根节点的距离较短,通过比较样本数据的分割次数均值与孤立森林所有节点平均分割次数均值,可以快速得到异常得分,进来判定数据异常与否。决策树构建时,分割点选取完全随机,需要用ensemble的方法来使结果收敛,即反复从头开始切,然后计算每次切分结果的平均值。具体的可参考图6所示,整体流程包含特征筛选以进行样本、孤立森林构建和风险预测三个方面。
一、特征筛选-样本准备:(历史用户资金遗失案例交易数据准备)
在交易风险预测***孤立森林模块中,历史用户资金遗失案例交易数据中的交易金额、用户年龄、投资金额、股权投资金额、理财金额、生产经营、历史平均交易金额、历史资金转出标准差、近5天资金转移次数,形成样本集n。
二、孤立树的构建
1.从数据样本中随机选取N个点作为子样本,放在一棵孤立树的根节点;
2.随机指定一个维度,在当前节点数据-范围内,随机产生一个切割点p---切割点产生于当前节点数据中指定维度的最大值与最小值之间;
3.此切割点的选取生成了一个超平面,将当前节点数据空间切分为2个子空间:把当前所选维度下小于p的点放在当前节点的左分支,把大于等于p的点放在当前节点的右分支;
4.在节点的左分支和右分支节点递归步骤2、3,不断构造新的叶子节点,直到叶子节点上只有一个数据(无法再继续切割)或树已经生长到所设定的高度
整合全部孤立树的结果,x为节点掉落的坐标
由于切割过程是完全随机的,所以需要用ensemble的方法来使结果收敛,即反复从头开始切,然后计算每次切分结果的平均值。
对于n个数据样本,将其路径长度记为h(n),则其平均路径长度c(n)为:
Figure BDA0003879678040000071
其中H(i)为谐波数,等于ln(i)+欧拉常数
通过对孤立二叉树的长度进行归一化处理,可以得到介于0~1之间的数即为被检测样本的异常分值。记s(x,n)为异常分数为:
接下来用生成的孤立树来计算异常分数s:
Figure BDA0003879678040000072
h(x)为x在每棵树的高度,c(N)为给定样本数N时路径长度的平均值,用于对样本x的路径长度h(x)进行标准化处理
5.获得t个孤立树后,单棵树的训练就结束了。由于孤立二叉树的形成具有一定的随机性,单独一棵树的结果并不可靠,因此对于待检测的数据样本,令其遍历孤立森林的每一棵树,计算数据样本中的每一个样本值落在每棵孤立二叉树的第几层,最后得出样本x在每棵树的平均深度h(x)。异常分值与样本在孤立二叉树的深度有关,当样本在孤立二叉树中的深度越小,则异常分值越高,即该样本为异常样本的概率越大。如果异常得分接近1,那大概率为异常点;如果异常得分远小于0.5,那么一定不是异常点;如果异常得分所有点的得分都在0.5左右,那么样本中很可能不存在异常点。
三、阀值设定预测风险
在上一步中待预测交易有一个异常得分,可以设定风险阀值,如异常得分在0.9以上的交易则判定为存在风险交易。
请参考图7所示,在本申请一实施例中,根据所述交易类别通过随机森林算法分析所述支付信息获得风险预测值包含:
S701当所述交易类别为消费类型时,通过随机森林算法对历史异常消费数据的全量/局部特征进行分析获得异常强势特征;
S702根据所述历史异常消费数据、所述支付信息和异常强势特征通过随机森林算法分生成随机森林;
S703通过所述随机森林分析所述支付信息的相似性获得风险预测值。
其中,所述支付信息包含交易金额、支付方年龄、职业、支付***与接收***归属地匹配结果、支付方与接收方之间的交易记录、支付***历史最高交易金额、支付***历史平均交易金额、支付***历史交易金额标准差、接收***在预设周期的收入合计值、预设周期内的交易次数。
具体的,本申请中针对消费类型的交易支出进行风险预测的整体流程包括:根据随机森林算法对以往用户资金遗失案例数据的全量/局部特征进行分析,得到所述用户信息遗失案例数据强势特征;根据所述随机森林算法对所述电诈案例数据、待预测交易和所述强势特征进行处理,得到待预测交易的相似度得分;将相似度得分小于阀值的交易确定正常消费交易。其中,所述根据所述随机森林算法对所述电诈案例数据、待预测交易和所述强势特征进行处理,得到待预测交易的相似度得分可包括:根据所述强势特征中的若干个特征建立待预测交易的决策树,由所有的决策树生成随机森林,其中,所述强势特征中的所有特征均在各决策树中;根据所述随机森林计算待预测交易的相似度得分。所述电诈案例数据信息包括:交易金额、转账方年龄、职业(是否退休、学生或无业)、转账***与收款方***归属地是否匹配、二者是否有过交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近三天收入合计值、收款方近三天支出和距离上次交易时长(天)、近5天交易次数。本申请通过随机森林算法分析得到用户风险交易的强势特征,并计算待预测交易的相似度得分,最后根据相似度得分预测交易风险,能够有效阻止由于用户信息遗失手段层出不穷,辨别能力较低的用户直接转账到骗子指定账户,通过预测转账交易的风险概率,降低用户信息遗失的成功率。
请参考图8所示,在通过随机森林预测消费类型数据过程中,其实现原理如下:
1、根据随机森林算法对电诈案例交易的全量/局部特征进行分析,得到所述电诈案例交易的强势特征。
2、根据所述随机森林算法对所述历史电诈案例交易、待预测交易和所述强势特征进行处理,得到待预测交易的相似度得分。
3、将相似度得分小于阀值的交易确定正常消费类型交易。
具体地,本实施例首先采用随机森林算法对历史电诈案例交易的全量/局部特征进行分析,自动找出历史电诈案例交易的强势特征;再将历史电诈案例交易、待预测实时交易、强势特征字段送入到随机森林算法中,对待预测交易进行相似度打分,并将得分在某个阀值以上的交易定义为存在风险交易。其中,随机森林(Random Forests)算法是一种比较新的机器学习模型,是Bagging集成方法里具有代表性的算法,它首先从样本集中采样选出n个样本,然后从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立决策树,重复上述两步m次,也就是建立了m棵决策树,最后这m棵树形成随机森林,通过投票表决结果,得出输入数据属于哪一类。经典的机器学习模型应属神经网络,神经网络虽能做到精确预测,但是计算量大。随机森林对于多维特征的数据集分类有很高的效率,还可以做特征重要性的选择,而且在运算量没有显著增大的前提下提高了预测精度。随机森林简单来说就是随机生成一个森林,森林里面由多棵决策树组成,并且每一棵决策树之间没有关联。得到森林之后,当有一个新的输入样本进入时,森林中的每一棵决策树就会判断该样本应该属于哪一类,最后通过投票决定预测这个样本为哪一类。
本实施例通过随机森林算法分析得到用户资金遗失案例交易的强势特征,并计算待预测交易的相似度得分,最后根据相似度得分预测交易的风险,能够采用客观科学的方法快速预测转账交易的风险概率,降低用户信息遗失的成功率。其中,上述随机森林算法主要是根据m个样本训练集构造了m棵决策树,每棵决策树随机从原始训练样本集中随机抽取n个样本生成新的训练样本集合。假设每个样本所有特征数目为K,对n个样本选择K中的k个特征,用建立决策树的方式获得最佳分割点,新数据的分类结果按决策树投票多少形成分数而定,再根据数据分类的好坏筛选出具有最好特征值的集合。随机森林实质是对决策树算法的一种改进,合并多个决策树,每棵树的建立依赖于一个独立的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去***每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择哪些有价值的特征值。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类与最有价值的特征值。
决策树构建的关键在于分割点的选取,通过采用贪心算法考虑当前分割点纯度差的大小作为要素进行从大到小优先排序。对于纯度的量化使用ID3算法,以信息增益度量属性选择,选择***后信息增益最大的属性进行***。
Figure BDA0003879678040000101
Figure BDA0003879678040000102
公式3:gain(A)=info(D)-infoA(D);
如上公式1是在集合D中信息熵的表示,为第i类别在集合D中出现的概率。在公式2中假设将训练集合D按照A特征属性进行划分,则表示A对D所划分的期望信息熵,那么在按照A特征属性划分后所得到的信息增益gain(A)如公式3所表示,所有的特征值都按照信息增益来进行递归排序,从而构建整个决策树,在随机森林体系所构建的决策树中不需要进行减枝,这样对训练数据就会表现很精确,尽管对其他数据没有那么精确会出现过拟合,但对于集成学习来说可以通过多个决策树共同决策来避免单个决策树的过拟合。
进一步的,将上述随机森林算法应用于实际工作中,其实施流程如下:
1、强势特征筛选-样本准备(历史电诈案例交易数据准备)
在交易风险预测***随机森林模块中,历史用户风险交易数据中的交易金额、转账方年龄(是否退休、学生或无业)、职业、转账***与收款方***归属地是否匹配、二者是否有过交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近三天收入合计值、收款方近三天支出和距离上次交易时长(天)、近5天交易次数等信息,形成样本集N。
2、强势特征筛选-特征字段准备
将所有字段送入到随机森林模块中(即特征字段准备),每个样本含K个特征。
3、强势特征筛选-生成随机森林
从样本集N中采样选出n个样本。
从K特征中随机选择k个特征,对选出的样本利用这些特征建立决策树。
重复以上两步m次,即生成m棵决策树,形成随机森林。
在第1棵决策树中,有n个样本,特征为(K1、K2...Kk)。
在第2棵决策树中,有n个样本,特征为(K2、K3...Kk+1)。
......
在第m棵决策树中,有n个样本,特征为(Km、Km+1...Kk+m-1)。
4、强势特征筛选-投票
将样本数据送入分别送入m棵决策树中,其中:
第1棵决策树投票:
Figure BDA0003879678040000111
第2棵决策树投票:
Figure BDA0003879678040000112
第m棵决策树投票:
Figure BDA0003879678040000121
...
5、强势特征筛选-强势特征输出
根据每个决策树对分类结果进行评估,筛选出最好的特征类型集合:随机森林算法根据特征字段在表现优秀的决策树中所含有比例进行分类排名,在排名中越靠前的特征表现为越强相关特征。
6、待预测交易数据准备
交易风险预测模块构建需实时获取转账交易中的交易金额、转账方年龄、职业(是否退休、学生或无业)、转账***与收款方***归属地是否匹配、二者是否有过交易记录、转账***历史最高交易金额、历史平均交易金额、历史交易金额标准差、收款方近三天收入合计值、收款方近三天支出和距离上次交易时长(天)、近5天交易次数等数据。
7、历史风险交易筛选-生成随机森林
仿照第三步将历史风险交易、强势特征、待预测交易生成一个新的随机森林。
8、历史风险交易筛选-投票
仿照第四步对待预测交易进行投票。
9、历史风险交易-待预测交易相似得分输出
输出算法结果,待预测交易会有一个相似度得分,得分介于[0,1]之间,分数越接近1表示转账交易存在风险的可能性越大。
10、阀值设定预测风险
在第九步中待预测交易有一个相似度得分,可以设定风险阀值,如相似度得分在0.9以上的交易则判定为存在风险交易。
在本申请一实施例中,根据所述第一比较结果和所述第二比较结果生成预警信息包含:
当异常预测值大于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第一告警策略进行风险预警;
当异常预测值小于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第二告警策略进行风险预警;当
异常预测值大于或等于预设异常阈值,且风险预测值小于预设风险阈值时,生成预警信息并通过第三告警策略进行风险预警。
在上述实施例中,第一告警策略、第二告警策略和第三告警策略可由工作人员根据技术需求提前设定,本申请对此并不做进一步限定。
请参考图9所示,本申请还提供一种用户交易风险预警装置,所述装置包含采集模块、分析模块、比较模块和预警模块;所述采集模块用于获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;所述分析模块用于根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;所述比较模块用于将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;所述预警模块用于根据所述第一比较结果和所述第二比较结果生成预警信息。各组件具体实现逻辑已在前述实施例中详细说明,在此就不再一一详述。
本申请的有益技术效果在于:基于孤立森林算法以及随机森林算法得出非消费交易行为的异常值以及消费行为的阈值,通过综合分析这两个值的得分情况,用户资金风险预警***进行判断用户是否具有高危行为以及预警行为;有效地克服了由于用户信息遗失产生的交易样本集中而存在类别不平衡问题,通过双重算法分析提高了转账存在风险的判定的准确度,克服单一算法针对不同风险预测的局限性。
本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
如图10所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图10中所示的所有部件;此外,电子设备600还可以包括图10中没有示出的部件,可以参考现有技术。
如图10所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种用户交易风险预警方法,其特征在于,所述方法包含:
获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;
根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;
将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;
根据所述第一比较结果和所述第二比较结果生成预警信息。
2.根据权利要求1所述的用户交易风险预警方法,其特征在于,获取用户的支付信息包含:
监测用户的支付交易,根据所述支付交易解析获得支付金额和对应的账户信息;
根据所述账户信息获得用户预设周期内的历史支付金额和历史收入金额;
当所述支付金额与所述历史支付金额之和高于所述历史收入金额和/或所述支付金额高于所述历史收入金额时,根据所述支付交易生成支付信息。
3.根据权利要求1所述的用户交易风险预警方法,其特征在于,根据所述交易类别通过孤立森林算法分析所述支付信息获得异常预测值包含:
当所述交易类别为非消费类型时,通过孤立森林算法对所述支付信息的全量/局部特征进行分析构建获得对应的决策树;
根据所述决策树生成对应的孤立森林,通过所述孤立森林分析获得所述支付信息对应的异常预测值。
4.根据权利要求3所述的用户交易风险预警方法,其特征在于,所述支付信息包含交易金额、支付方年龄、投资金额、股权投资金额、理财金额、生产经营、历史平均交易金额、历史资金转出标准差、预设周期内资金转移次数。
5.根据权利要求1所述的用户交易风险预警方法,其特征在于,根据所述交易类别通过随机森林算法分析所述支付信息获得风险预测值包含:
当所述交易类别为消费类型时,通过随机森林算法对历史异常消费数据的全量/局部特征进行分析获得异常强势特征;
根据所述历史异常消费数据、所述支付信息和异常强势特征通过随机森林算法分生成随机森林;
通过所述随机森林分析所述支付信息的相似性获得风险预测值。
6.根据权利要求5所述的用户交易风险预警方法,其特征在于,所述支付信息包含交易金额、支付方年龄、职业、支付***与接收***归属地匹配结果、支付方与接收方之间的交易记录、支付***历史最高交易金额、支付***历史平均交易金额、支付***历史交易金额标准差、接收***在预设周期的收入合计值、预设周期内的交易次数。
7.根据权利要求1所述的用户交易风险预警方法,其特征在于,根据所述第一比较结果和所述第二比较结果生成预警信息包含:
当异常预测值大于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第一告警策略进行风险预警;
当异常预测值小于预设异常阈值,且风险预测值大于预设风险阈值时,生成预警信息并通过第二告警策略进行风险预警;
当异常预测值大于或等于预设异常阈值,且风险预测值小于预设风险阈值时,生成预警信息并通过第三告警策略进行风险预警。
8.一种用户交易风险预警装置,其特征在于,所述装置包含采集模块、分析模块、比较模块和预警模块;
所述采集模块用于获取用户的支付信息,根据所述支付信息分析获得对应的交易类别;
所述分析模块用于根据所述交易类别通过孤立森林算法和随机森林算法分析所述支付信息获得异常预测值和风险预测值;
所述比较模块用于将异常预测值与预设异常阈值比较获得第一比较结果,将风险预测值与预设风险阈值比较获得第二比较结果;
所述预警模块用于根据所述第一比较结果和所述第二比较结果生成预警信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有由计算机执行权利要求1至7任一所述方法的计算机程序。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任一所述方法的步骤。
CN202211225975.5A 2022-10-09 2022-10-09 用户交易风险预警方法及装置 Pending CN115409518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211225975.5A CN115409518A (zh) 2022-10-09 2022-10-09 用户交易风险预警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211225975.5A CN115409518A (zh) 2022-10-09 2022-10-09 用户交易风险预警方法及装置

Publications (1)

Publication Number Publication Date
CN115409518A true CN115409518A (zh) 2022-11-29

Family

ID=84167379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211225975.5A Pending CN115409518A (zh) 2022-10-09 2022-10-09 用户交易风险预警方法及装置

Country Status (1)

Country Link
CN (1) CN115409518A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994763A (zh) * 2023-03-23 2023-04-21 深圳市德卡科技股份有限公司 一种可信智能支付方法及***
CN116645097A (zh) * 2023-03-30 2023-08-25 广东盛迪嘉电子商务股份有限公司 一种支付清算平台监控预警***
CN117273749A (zh) * 2023-11-21 2023-12-22 青岛巨商汇网络科技有限公司 一种基于智能交互的交易管理方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994763A (zh) * 2023-03-23 2023-04-21 深圳市德卡科技股份有限公司 一种可信智能支付方法及***
CN115994763B (zh) * 2023-03-23 2023-09-01 深圳市德卡科技股份有限公司 一种可信智能支付方法及***
CN116645097A (zh) * 2023-03-30 2023-08-25 广东盛迪嘉电子商务股份有限公司 一种支付清算平台监控预警***
CN117273749A (zh) * 2023-11-21 2023-12-22 青岛巨商汇网络科技有限公司 一种基于智能交互的交易管理方法及***

Similar Documents

Publication Publication Date Title
CN115409518A (zh) 用户交易风险预警方法及装置
CN111275546B (zh) 金融客户欺诈风险识别方法及装置
WO2022095352A1 (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
CN111932269B (zh) 设备信息处理方法及装置
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN112785086A (zh) 信贷逾期风险预测方法及装置
CN111401906A (zh) 转账风险检测方法及***
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN112215702A (zh) 信用风险的评估方法、移动终端及计算机存储介质
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN111767319A (zh) 基于资金流向的客户挖掘方法及装置
CN112801775A (zh) 客户信用评价方法及装置
CN114154672A (zh) 一种用于客户流失预测的数据挖掘方法
CN113836360B (zh) 数据检测方法及装置
CN112734565B (zh) 流动性覆盖率预测方法及装置
EP3879418B1 (en) Identity verification method and device
CN113706258B (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN111026991B (zh) 数据展示方法及装置、计算机设备
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN113515577A (zh) 数据预处理方法及装置
CN113205409A (zh) 贷款业务处理方法及装置
CN111429144A (zh) 非正常汇款交易识别方法及装置
CN111768306A (zh) 基于智能数据分析的风险识别方法及***
CN111932018B (zh) 银行业务绩效贡献信息预测方法及装置
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination