CN111784502A - 异常交易账户群体识别方法及装置 - Google Patents

异常交易账户群体识别方法及装置 Download PDF

Info

Publication number
CN111784502A
CN111784502A CN202010608903.3A CN202010608903A CN111784502A CN 111784502 A CN111784502 A CN 111784502A CN 202010608903 A CN202010608903 A CN 202010608903A CN 111784502 A CN111784502 A CN 111784502A
Authority
CN
China
Prior art keywords
account
risk
community
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010608903.3A
Other languages
English (en)
Inventor
纪耀宗
贾玉红
李晓萍
赖昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010608903.3A priority Critical patent/CN111784502A/zh
Publication of CN111784502A publication Critical patent/CN111784502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请实施例提供一种异常交易账户群体识别方法及装置,方法包括:将各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并将至少一个账户确定为高风险账户;针对每个高风险账户分别执行局部社区挖掘步骤:以当前的高风险账户作为发起节点,在图数据中分别确定其他各个节点与该发起节点之间的关联值,并确定高风险账户对应的风险账户社区;若获取到多个风险账户社区,且各个风险账户社区之间均满足预设的非相似要求,则将各个风险账户社区分别确定为目标金融机构的异常交易账户群体。本申请能够有效提高异常交易账户群体识别的效率、可靠性及准确性,进而能够提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。

Description

异常交易账户群体识别方法及装置
技术领域
本申请涉及数据处理技术领域,具体涉及异常交易账户群体识别方法及装置。
背景技术
异常金融活动对金融机构和地区安全等已经构成了越来越严重的威胁。尽管反异常金融工作已经受到了各方的高度关注,针对异常金融手段的复杂、多变,多以群体账户的形式存在且群体内账户转账频繁的实际情况,如何有效地检测异常金融活动仍然是一个巨大挑战。
当前,绝大多数反异常金融活动的方法通常为基于规则或者基于账户的特征信息建立识别模型。一方面,基于规则的异常金融账户识别方法虽然能够帮助发现一些异常的交易行为,但规则大多是根据历史数据总结出来的,过于依赖人工经验,难免疏漏。而且犯罪分子也多多少少掌握了一些反异常金融活动的规则,故意地去规避检测,因此基于规则的异常金融账户识别方式难以达到大规模、高效识别的要求。另一方面,基于账户的特征信息建立机器学习或者人工神经网络识别模型,如GDBT和全连接神经网络模型,虽然大大提高了异常金融账户的识别准确率,但是,当前的异常金融活动往往涉及到群体犯罪。现有的反异常金融模型只利用了账户的特征信息作为训练样本,只适用于识别单个账户的异常金融行为,不能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,而往往这些账户是资金的最后接收账户。
近年来,随着电子通信技术、社会媒体技术等新技术的快速发展,社区发现算法吸引了国内外众多学者的关注。社区是指,在图数据中,社区内节点链接紧密,而与社区外节点链接稀疏的节点集合。社区发现是指,把图中的节点划分成内部连接紧密、与外部链接稀疏的节点集合。以群体账户的形式发生的异常金融行为,群体内账户转账频繁,而与群体外账户转账较少,符合社区的定义。社区发现分为局部挖掘和全图挖掘,如,尽管有很多社区发现的算法,但是无法直接应用于群体式异常金融交易账户的识别。第一,银行的账户数目巨大,并不适用于计算量大的全图社区发现算法,会导致因计算量过大而造成的识别效率低的问题;第二,局部社区发现算法,相较于全图挖掘算法,尽管计算量少,但对于社区发现的发起节点没有明确的选择,或者选择的节点不符合群体式进行异常金融行为的业务解释,则会影响异常金融行为识别的准确性。也就是说,现有的异常交易账户社区识别方法无法同时满足识别效率及识别准确性的要求。
发明内容
针对现有技术中的问题,本申请提供一种异常交易账户群体识别方法及装置,能够有效提高异常交易账户群体识别的效率、可靠性及准确性,进而能够提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种异常交易账户群体识别方法,包括:
将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;
针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
进一步地,所述将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户,包括:
将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户;
其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
进一步地,在所述将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户之前,还包括:
获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息;
其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
进一步地,在所述针对每个所述高风险账户分别执行局部社区挖掘步骤之前,还包括:
应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
进一步地,所述以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区,包括:
以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值;
在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
进一步地,所述以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,包括:
以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
进一步地,所述在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区,包括:
按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区;
导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值;
判断所述账户社区当前的导率值是否连续预设次数下降,若是,则将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点;若否,则返回执行所述导率获取步骤;
应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
进一步地,还包括:
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点;
针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
进一步地,还包括:
若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
第二方面,本申请还提供一种异常交易账户群体识别装置,包括:
高风险账户确定模块,用于将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;
局部挖掘模块,用于针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;
第一群体确定模块,用于若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
进一步地,所述高风险账户确定模块用于执行下述内容:
将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户;
其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
进一步地,还包括:
账户信息获取模块,用于获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息;
其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
进一步地,还包括:
图数据构建模块,用于应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
进一步地,所述局部挖掘模块包括:
初始关系确定子模块,用于以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值;
密切关系确定子模块,用于在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
进一步地,所述初始关系确定子模块包括:近似page-rank计算单元,所述近似page-rank计算单元用于执行下述内容:
以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
进一步地,所述密切关系确定子模块包括:导率计算单元,所述导率计算单元用于执行下述内容:
按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区;
导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值;
判断所述账户社区当前的导率值是否连续预设次数下降,若是,则将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点;若否,则返回执行所述导率获取步骤;
应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
进一步地,还包括:第二群体确定模块,所述第二群体确定模块用于执行下述内容:
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点;
针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
进一步地,还包括:第三群体确定模块,所述第三群体确定模块用于执行下述内容:
若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的异常交易账户群体识别方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的异常交易账户群体识别方法。
由上述技术方案可知,本申请提供的一种异常交易账户群体识别方法及装置,方法包括:将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式异常交易行为的银行账户社区,大大节省了人力,提高了识别异常金融账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的异常交易账户群体识别方法的流程示意图。
图2是本申请实施例中的包含有步骤110的异常交易账户群体识别方法的具体流程示意图。
图3是本申请实施例中的包含有步骤010的异常交易账户群体识别方法的具体流程示意图。
图4是本申请实施例中的包含有步骤020的异常交易账户群体识别方法的具体流程示意图。
图5是本申请实施例中的异常交易账户群体识别方法中步骤200的具体流程示意图。
图6是本申请实施例中的包含有步骤211的异常交易账户群体识别方法中步骤200的具体流程示意图。
图7是本申请实施例中的异常交易账户群体识别方法中步骤220的具体流程示意图。
图8是本申请实施例中的包含有步骤410和步骤420的异常交易账户群体识别方法的具体流程示意图。
图9是本申请实施例中的包含有步骤500的异常交易账户群体识别方法的具体流程示意图。
图10是本申请应用实例提供的应用异常交易账户群体识别***实现所述异常交易账户群体识别方法的具体流程示意图。
图11是本申请应用实例提供的图数据的举例示意图。
图12是本申请应用实例提供的第四模块提取账户社区的具体流程示意图。
图13是本申请应用实例提供的步骤2中的账户社区分割过程示意图。
图14是本申请实施例中的异常交易账户群体识别装置的第一种结构示意图。
图15是本申请实施例中的异常交易账户群体识别装置的第二种结构示意图。
图16是本申请实施例中的异常交易账户群体识别装置的第三种结构示意图。
图17是本申请实施例中的异常交易账户群体识别装置中局部挖掘模块的结构示意图。
图18是本申请实施例中的异常交易账户群体识别装置中初始关系确定子模块的结构示意图。
图19是本申请实施例中的异常交易账户群体识别装置中密切关系确定子模块的结构示意图。
图20是本申请实施例中的异常交易账户群体识别装置的第四种结构示意图。
图21是本申请实施例中的异常交易账户群体识别装置的第五种结构示意图。
图22是本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有的识别方式存在的无法兼顾效率及准确性的问题,本申请实施例提供一种异常交易账户群体识别方法、异常交易账户群体识别装置、电子设备和计算机可读存储介质,通过将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式进行异常金融行为的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
具体通过下述多个实施例分别进行说明。
在本申请的一个或多个实施例中,所述账户是指用户在目标金融机构设立的银行账户,所述账户的属性信息分为账户的属性特征信息和交易特征信息。账户的属性特征信息为账户所有者的属性信息,如公户的法人年龄、所属企业的地点等;账户的交易特征信息为账户的交易属性信息,如开户一定时期内账户交易的次数。所述账户的交易信息是账户之间的转账记录信息。
为了解决现有的识别方式无法兼顾效率及准确性的问题,本申请提供一种异常交易账户群体识别方法的实施例,参见图1,所述异常交易账户群体识别方法具体包含有如下内容:
步骤100:将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户。
在步骤100中,所述机器学习模型具体可以选用如决策树模型等进行账户风险的预测,且目标金融机构对应的各个账户可以预先在目标金融机构的一预设时段内获取,所述机器学习模型输出的内容包含有高风险识别结果和低风险识别结果,将高风险识别结果对应的账户确定为高风险账户。
步骤200:针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区。
可以理解的是,所述图数据是指用于表示各个账户之间关系的节点连接图,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
步骤300:若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
在步骤300中,在确定所述目标金融机构的异常交易账户群体之后,输出所述目标金融机构的异常交易账户群体,以使目标机构及时对所述目标金融机构的异常交易账户群体采取历史数据查证、实时交易监控取证以及上报风险控制***等操作,以有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式进行异常金融行为的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
为了进一步有效确定发起节点,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图2,所述异常交易账户群体识别方法中的步骤100具体包含有如下内容:
步骤110:将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户,其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
可以理解的是,LightGBM模型是GBDT模型的进化版本,LightGBM模型是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LightGBM模型主要有以下特点:基于Histogram的决策树算法、带深度限制的Leaf-wise的叶子生长策略、直方图做差加速、直接支持类别特征(Categorical Feature)、Cache命中率优化、基于直方图的稀疏特征优化及多线程优化。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够有效提高发起节点选定的准确性及效率,进而能够进一步提高应用发起节点进行局部社区挖掘的效率、有效性及准确性。
为了预先获取账户信息,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图3,所述异常交易账户群体识别方法中的步骤100之前还具体包含有如下内容:
步骤010:获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息,其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,为后续应用属性信息确定发起节点提供了可靠的数据基础,进而能够进一步提高发起节点获取的效率及准确性,以及,为后续构建图数据提供了准确且可靠的数据基础,进而能够进一步提高局部社区挖掘的效率及准确性。
为了预先构建图数据,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图4,所述异常交易账户群体识别方法中的步骤010之后以及200之前还具体包含有如下内容:
步骤020:应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够有效提高图数据构建的效率及可靠性,进而能够进一步提高局部社区挖掘的效率及准确性。
为了进一步对社区进行筛选,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图5,所述异常交易账户群体识别方法中的步骤200具体包含有如下内容:
步骤210:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值。
步骤220:在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够有效提高应用发起节点进行局部社区挖掘的可靠性、准确性及有效性,进而能够有效保证获取的高风险账户的账户社区的可靠性。
为了进一步确定关联值,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图6,所述异常交易账户群体识别方法中的步骤210具体包含有如下内容:
步骤211:以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
可以理解的是,所述近似page-rank算法是谷歌搜索引擎的进行网页排名算法,它是把所有网页都构成一张图,每个网页是一个节点,如果一个网页中有链向其他网页的链接,那么就有一条有向边连接这两个点。page-rank算法的计算过程就类似于马尔科夫链。page-rank算法也有一个概率转移矩阵。
在步骤211中,所述异常交易账户群体识别装置可以基于获取的所述图数据中的各个节点各自对应的对角矩阵和相邻的节点之间的链接矩阵来计算得到所述图数据中除所述发起节点外的其他各个节点的page-rank值。然而,由于该种方式的矩阵计算过程较为费时,且对内存的需求也很高,因此在本申请的步骤211中的优选方式中,选取近似page-rank算法,能够快速地获取原基于惰性随机游走的page-rank算法迭代公式中的P的近似值
Figure BDA0002561657150000131
也即后续公式(2)中提及的p,进而能够在满足节点page-rank值的准确性要求的基础上,有效提高节点page-rank值的获取效率。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够有效提高获取图数据中各个节点与发起节点之间的关联值的准确性及可靠性,进而能够有效提高应用发起节点进行局部社区挖掘的可靠性及准确性。
为了进一步进行节点筛选,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图7,所述异常交易账户群体识别方法中的步骤220具体包含有如下内容:
步骤221:按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区。
步骤222:导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值。
步骤223:判断所述账户社区当前的导率值是否连续预设次数下降,若是,则执行所述步骤224;若否,则返回步骤222。
步骤224:将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点。
步骤225:应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够有效提高账户社区分割的准确性及可靠性,进而能够有效提高应用发起节点进行局部社区挖掘的可靠性及准确性。
为了对相似社区进行合并后进行重新挖掘,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图8,所述异常交易账户群体识别方法中还具体包含有如下内容:
步骤410:若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点。
可以理解的是,所述各个所述风险账户社区之间不满足预设的非相似要求是指存在至少一对风险账户社区内包含有相同的发起节点。
步骤420:针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
可以理解的是,在步骤200的首次执行过程中,每次仅针对一个高风险账户执行所述局部社区挖掘步骤,而在步骤420中,当存在相似性的两个或两个以上的风险账户社区合并后,合并后的社区中会出现至少两个高风险账户,而此时再次执行步骤200时,需要将这至少两个高风险账户同时作为当前的发起节点来执行所述局部社区挖掘步骤,这样不但能够有效合并有重叠关系的风险账户社区,更有利于找到更为完整的异常交易账户群体,进而输出更为精炼、完整且准确的异常交易账户群体。这样既能够降低目标金融机构的工作人员的识别工作量,更能够有效提高目标金融机构的工作人员挖掘异常交易账户群体中的人员、账户或交易关系等关联关系内容的便捷性及效率,并能够有效提高目标金融机构的工作人员的用户体验。
在一个具体举例中,若经步骤200之后得到的风险账户社区有1000个,而经判断获知其中存在相似的风险账户社区,那么在经步骤410处理之后,合并后的风险账户社区有403个,且未经合并的风险账户社区仅有3个,则对这个3个风险账户社区暂不进行处理,并对合并后的403个风险账户社区分别执行步骤420。而后针对未处理的3个风险账户社区和经步骤420及重新执行的步骤200得到的403个风险账户社区,再次判断3+403个风险账户社区中是否存在相似的风险账户社区,依次类推,直至最后剩余的各个所述风险账户社区之间均满足预设的非相似要求,则针对最后剩余的各个所述风险账户社区执行步骤300。
其中,若两个风险账户社区之间存在相似性,也就是说,若风险账户社区A1中包含有作为风险账户社区A1中的发起节点的高风险账户的节点Z1,风险账户社区A2中也包含有作为非发起节点(普通节点)的节点Z1和作为风险账户社区A2中的发起节点Z2,则合并后的风险账户社区A1+A2中即存在两个高风险账户:节点Z1+节点Z2,此时则需要将节点Z1和节点Z2均作为发起节点来同时执行所述步骤200。
而若风险账户社区A1中包含有作为风险账户社区A1中的发起节点的高风险账户的节点Z1和非发起节点(普通节点)的节点Z2,风险账户社区A2中作为风险账户社区A2中的发起节点的高风险账户的节点Z3和非发起节点(普通节点)的节点Z2,且风险账户社区A3中包含有作为风险账户社区A3中的发起节点的高风险账户的节点Z2和非发起节点(普通节点)的节点Z4,由于风险账户社区A1和风险账户社区A2中的普通节点Z2是风险账户社区A3中的高风险账户,则合并后的风险账户社区A1+A2+A3中即存在三个高风险账户:节点Z1+节点Z3+节点Z2,此时则需要将节点Z1、节点Z2和节点Z3均作为发起节点来同时执行所述步骤200。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够进一步提高最终获取的异常交易账户群体识别结果的准确性。
为了提供仅有一个社区的处理方式,在本申请提供的异常交易账户群体识别方法的一个实施例中,参见图9,所述异常交易账户群体识别方法中还具体包含有如下内容:
步骤500:若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
从上述描述可知,本申请实施例提供的异常交易账户群体识别方法,能够全面且高适用性地提高最终获取的异常交易账户群体识别结果的准确性。
为了进一步说明本方案,本申请还提供一种应用异常交易账户群体识别***实现所述异常交易账户群体识别方法的具体应用实例,本申请应用实例克服了现有的异常交易账户识别方法的缺陷,提供了一种基于page-rank算法和和局部社区挖掘算法的异常交易账户群体识别方式,根据银行账户的自身属性数据和账户间的转账关系建立图数据,通过机器学习模型筛选出高风险账户社区,以高风险账户为起点进行局部社区挖掘,然后对挖掘的得到的社区进行合并,得到方便风险识别专家进行进一步异常交易账户群体处理的账户社区。旨在更好地利用银行账户的特征信息(账户属性)和结构信息(转账关系),为反异常金融检测人员提供参考和减小劳动量,提高异常交易账户识别效率和概率。
本申请应用实例为专家筛选了进一步识别的高风险账户群体,提高了识别团伙形式的异常交易的账户的效率。整个异常交易账户群体识别***的构建和应用步骤可以总结为:先搜集和整理银行账户的交易数据和属性数据;制作银行账户图数据;将page-rank应用于全体账户图数据;进行社区切割得到风险账户社区,以前风险检测专家进一步检测。
参见图10,应用异常交易账户群体识别***实现所述异常交易账户群体识别方法的具体流程如下:
(一)第一模块:收集银行账户一定时间内的交易数据和属性数据
第一模块收集得到一定时间段内的银行账户的交易数据和属性数据,为后续模块构建图数据之用。
银行账户的交易数据是账户之间的转账记录,作为后续的图数据的边。银行账户的属性数据分为账户的属性特征和交易特征。账户的属性特征为账户所有者的属性信息,如公户的法人年龄、所属企业的地点等;账户的交易特征为账户的交易属性信息,如开户一定时期内账户交易的次数。
(二)第二模块:生成图数据
第二模块由第一模块收集到的数据构建得到一个比较大的反应账户间关联的节点为N的图数据。
图(Graph)G数据由顶点集合(vertices)(或节点nodes)和边集合(edges)组成,可以表示为
G=(V,E) (1)
其中,V和E分别为顶点集合和边集合,参见图11,由银行账户节点1至银行账户节点13、以及银行账户节点15和银行账户节点16组成的图数据。所有银行账户构成了集合V={v1,v2,v3,...,vN}。账户间的所有边(具有转账记录)构成了集合E。d(v)表示为节点V的度,是指连接节点V的边的数目,如图11中的银行账户节点2连接了银行账户节点1和银行账户节点4,银行账户节点1和银行账户节点4是银行账户节点2的邻接节点,银行账户节点1的度为2。定义D为一个对角矩阵,其中,Di,i=d(vi)。A为图数据的链接矩阵,如果账户i和账户j之间有一条边(具有转账记录)Aij=1。图数据的结构形式表示了图数据的结构信息。
(三)第三模块:识别高风险账户
第三模块通过训练机器学习模型,预测得到全图中的M个高风险账户。
异常金融行为团伙式异常交易账户团伙表现为一部分账户进行异常金融行为,将钱“洗白”,而其他账户作为同伙,接受这些账户的不明款项,达到进行进一步操作(提现、消费等)而不好追查的目的。进行异常金融行为的账户表现出异常,容易被识别。本装置选取LightGBM模型,利用风险识别专家识别出的部分账户的属性数据为样本,训练LightGBM模型;利用训练好的模型预测识别出M个高风险账户作为黑种子,作为后续的近似page-rank和局部社区发现的起点。
(四)第四模块:挖掘高风险账户社区
第四模块分别以第三模块得到的M个高风险账户为起点,进行page-rank计算,每次计算中账户都得到一个page-rank值,对得到的值进行排序,以导率为标准,得到M个账户社区,根据相似度对社区进行合并,合并后,重复进行page-rank,和账户社区,直到任何社区的相似度都为0或者都低于一定阈值为止,停止迭代计算,得到K个社区。
高风险社区账户挖掘模块是一个局部社区挖掘算法,它的优势在于,账户的关联程度在计算时只会聚焦在预测的部分账户上(黑种子节点),而不会对全图进行计算,计算量减少的同时,具有针对性,符合团伙式异常交易账户的行为的理解。参见图12,第四模块提取账户社区的具体流程如下:
(1)步骤1:近似page-rank计算
以给定黑种子节点为初始值,进行近似page-rank值计算,图每个节点得到一个page-rank值。
对于给定的图G,进行公式(2)的表示的基于惰性随机游走的page-rank算法迭代计算
p=as+(1-a)pW
W=(I+D-1A) (2)
设起点高风险账户组成的集合为S,其他账户组成的集合为Sc。s是一个1*N的向量,若i∈S,则si=1,若
Figure BDA0002561657150000187
则si=0。D是一个对角矩阵,其中,Di,i=d(vi)。A为邻接矩阵,其中如果账户i和账户j之间有一条边(具有转账记录)Aij=1。I是单位矩阵,图数据的结构形式表示了图数据的结构信息。
矩阵计算不仅费时,对内存的需求也很高,有学者提出了近似page-rank算法,能快速计算出公式(2)中P的近似值。具体来说,设置初始向量
Figure BDA0002561657150000181
r=s,r和
Figure BDA0002561657150000182
都是1×N的向量,代表各节的page-rank残余值,
Figure BDA0002561657150000183
代表P的近似向量。每个节点vi
Figure BDA0002561657150000184
的值扩散到邻居节点vj
Figure BDA0002561657150000185
分量上,近似page-rank算法不停的寻找扩散值
Figure BDA0002561657150000186
大于某个阈值ε的节点,将它的page-rank值分配到它的邻居节点上。当全部节点的page-rank残余值都小于阈值时,算法结束。具体见表1所示的伪代码。
表1
Figure BDA0002561657150000191
以第三模块预测的部分高风险账户为出发点,经过近似page-rank计算,每个账户得到一个个性化page-rank值。每个账户的page-rank值反映了与高风险账户(黑种子账户)的关联程度。
(2)步骤2:账户社区分割
账户社区分割的得到与黑种子账户关系密切,且内部联系紧密的账户社区。
在现有的社区挖掘中,导率(Conductance)和模块度(Modularity)是较为广泛使用的指标,本***中运用导率作为指标,进行社区的分割。定义集合S的导率为:
Figure BDA0002561657150000192
其中,Aij为图的邻接矩阵,di和dj为分别节点vi和vj的度,Sc为除集合S内节点的其他节点组成的集合。一般来说
Figure BDA0002561657150000201
要远远大于
Figure BDA0002561657150000202
因此公式的分母可以写为
Figure BDA0002561657150000203
因此根据公式(3),导率可以理解为社区内节点间的紧密程度除以社区内节点与社区外节点间的紧密程度的值。另一方面,近似page-rank算法计算得到的账户的page-rank值代表了与高风险种子账户的紧密程度。因此,账户社区分割需要在选取与黑种子账户关系密切的账户的基础上,选择内部节点间联系密切,与社区外部节点间联系稀疏的集合作为社区。
其中,参见图13,步骤2中的账户社区分割过程可以细分为如下步骤:
S21.依据page-rank值对帐户排序,设置黑种子账户为初始社区:依据账户的page-rank值从大到小进行排序,得到序列L,设置初始社区为黑种子账户S={v1,v2,...,vn},节点v1,v2,...,vn为黑种子账户。
S22.扩展社区,并计算社区导率:从序列拿出page-rank值最大的账户加入到社区S中,得到新的账户社区S',序列L减少一个账户,社区S增加一个账户。并计算账户社区的导率Φ(S')。
S23.判断导率是否出现了w次连续下降:判断当导率连续下降小于w次时,跳到S22,否则跳到S24。
S24.输出账户社区:输出账户社区(集合),算法结束。
在步骤2中,K个初始账户社区,最终得到K个账户社区。
(3)步骤3:判断是否存在两个不同社区具有相同黑种子账户
判断是否存在两个不同社区同时具有相同的黑种子账户,以这两个社区内的重合的黑种子账户同时作为起点进行步骤1的近似page-rank计算,不断迭代直到不存在两个不同社区同时具有相同的黑种子账户,跳到步骤4。
(4)步骤4:输出账户社区
输出整个图数据挖掘到的Q个账户社区。
(五)第五模块:提取账户社区
输出高风险账户社区。
(六)第六模块:风险社区评分
从上述描述可知,本申请实施例提供的异常交易账户群体识别***及方法,基于近似page-rank算法和和局部社区挖掘算法的银行异常交易账户社区挖掘方式,以明确的高风险账户为起点进行局部账户社区挖掘,发现内部联系紧密、外部联系稀疏的账户团伙,在符合团伙式异常金融行为的同时,账户社区挖掘更有针对性,异常交易以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出团伙式异常交易的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。实际的应用效果表明,该方法能够帮助银行业务人员更高效的侦测团伙式异常金融行为,极大地提高反异常金融工作的效率。具体具有如下优点:挖掘得到账户社区,针对团伙式异常金融行为,能识别出团伙中隐蔽的而又与团伙中其他账户联系密切的账户,满足反异常金融需求。以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合团伙式异常金融行为。运用局部社区挖掘算法,计算消耗少,计算高效、快速。
从软件层面来说,为了解决现有的识别方式无法兼顾效率及准确性的问题,本申请提供一种用于执行所述异常交易账户群体识别方法中全部或部分内容的异常交易账户群体识别装置的实施例,参见图14,所述异常交易账户群体识别装置具体包含有如下内容:
高风险账户确定模块10,用于将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户。
局部挖掘模块20,用于针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区。
第一群体确定模块30,用于若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式进行异常金融行为的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
为了进一步有效确定发起节点,在本申请提供的异常交易账户群体识别装置的一个实施例中,所述异常交易账户群体识别装置中的所述高风险账户确定模块10用于执行下述内容:
步骤110:将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户,其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
可以理解的是,LightGBM模型是GBDT模型的进化版本,LightGBM模型是boosting集合模型中的新进成员,由微软提供,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LightGBM模型主要有以下特点:基于Histogram的决策树算法、带深度限制的Leaf-wise的叶子生长策略、直方图做差加速、直接支持类别特征(Categorical Feature)、Cache命中率优化、基于直方图的稀疏特征优化及多线程优化。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够有效提高发起节点选定的准确性及效率,进而能够进一步提高应用发起节点进行局部社区挖掘的效率、有效性及准确性。
为了预先获取账户信息,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图15,所述异常交易账户群体识别装置中的还具体包含有如下内容:
账户信息获取模块01,用于获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息;
其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,为后续应用属性信息确定发起节点提供了可靠的数据基础,进而能够进一步提高发起节点获取的效率及准确性,以及,为后续构建图数据提供了准确且可靠的数据基础,进而能够进一步提高局部社区挖掘的效率及准确性。
为了预先构建图数据,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图16,所述异常交易账户群体识别装置中的还具体包含有如下内容:
图数据构建模块02,用于应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够有效提高图数据构建的效率及可靠性,进而能够进一步提高局部社区挖掘的效率及准确性。
为了进一步对社区进行筛选,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图17,所述异常交易账户群体识别装置中的局部挖掘模块20具体包含有如下内容:
初始关系确定子模块21,用于以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值。
密切关系确定子模块22,用于在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够有效提高应用发起节点进行局部社区挖掘的可靠性、准确性及有效性,进而能够有效保证获取的高风险账户的账户社区的可靠性。
为了进一步确定关联值,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图18,所述异常交易账户群体识别装置中的初始关系确定子模块21具体包含有如下内容:
近似page-rank计算单元2101,所述近似page-rank计算单元2101用于执行下述内容:
步骤211:以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
可以理解的是,所述近似page-rank算法是谷歌搜索引擎的进行网页排名算法,它是把所有网页都构成一张图,每个网页是一个节点,如果一个网页中有链向其他网页的链接,那么就有一条有向边连接这两个点。page-rank算法的计算过程就类似于马尔科夫链。page-rank算法也有一个概率转移矩阵。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够有效提高获取图数据中各个节点与发起节点之间的关联值的准确性及可靠性,进而能够有效提高应用发起节点进行局部社区挖掘的可靠性及准确性。
为了进一步进行节点筛选,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图19,所述异常交易账户群体识别装置中的密切关系确定子模块22具体包含有如下内容:
导率计算单元2201,所述导率计算单元2201用于执行下述内容:
步骤221:按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区。
步骤222:导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值。
步骤223:判断所述账户社区当前的导率值是否连续预设次数下降,若是,则执行所述步骤224;若否,则返回步骤222。
步骤224:将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点。
步骤225:应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够有效提高账户社区分割的准确性及可靠性,进而能够有效提高应用发起节点进行局部社区挖掘的可靠性及准确性。
为了对相似社区进行合并后进行重新挖掘,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图20,所述异常交易账户群体识别装置中还具体包含有如下内容:
第二群体确定模块40,所述第二群体确定模块40用于执行下述内容:
步骤410:若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点。
步骤420:针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够进一步提高最终获取的异常交易账户群体识别结果的准确性。
为了提供仅有一个社区的处理方式,在本申请提供的异常交易账户群体识别装置的一个实施例中,参见图21,所述异常交易账户群体识别装置中还具体包含有如下内容:
第三群体确定模块50,所述第三群体确定模块50用于执行下述内容:
步骤500:若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
从上述描述可知,本申请实施例提供的异常交易账户群体识别装置,能够全面且高适用性地提高最终获取的异常交易账户群体识别结果的准确性。
从硬件层面来说,为了解决现有的识别方式无法兼顾效率及准确性的问题,本申请提供一种用于实现所述异常交易账户群体识别方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
图22为本申请实施例的电子设备9600的***构成的示意框图。如图22所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图22是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一实施例中,异常交易账户群体识别功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:
步骤100:将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户。
在步骤100中,所述机器学习模型具体可以选用如决策树模型等进行账户风险的预测,且目标金融机构对应的各个账户可以预先在目标金融机构的一预设时段内获取,所述机器学习模型输出的内容包含有高风险识别结果和低风险识别结果,将高风险识别结果对应的账户确定为高风险账户。
步骤200:针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区。
可以理解的是,所述图数据是指用于表示各个账户之间关系的节点连接图,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
步骤300:若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
在步骤300中,在确定所述目标金融机构的异常交易账户群体之后,输出所述目标金融机构的异常交易账户群体,以使目标机构及时对所述目标金融机构的异常交易账户群体采取历史数据查证、实时交易监控取证以及上报风险控制***等操作,以有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
从上述描述可知,本申请实施例提供的电子设备,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式进行异常金融行为的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
在另一个实施方式中,异常交易账户群体识别装置可以与中央处理器9100分开配置,例如可以将异常交易账户群体识别装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现异常交易账户群体识别功能。
如图22所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图22中所示的所有部件;此外,电子设备9600还可以包括图22中没有示出的部件,可以参考现有技术。
如图22所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的异常交易账户群体识别方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的异常交易账户群体识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户。
在步骤100中,所述机器学习模型具体可以选用如决策树模型等进行账户风险的预测,且目标金融机构对应的各个账户可以预先在目标金融机构的一预设时段内获取,所述机器学习模型输出的内容包含有高风险识别结果和低风险识别结果,将高风险识别结果对应的账户确定为高风险账户。
步骤200:针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区。
可以理解的是,所述图数据是指用于表示各个账户之间关系的节点连接图,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
步骤300:若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
在步骤300中,在确定所述目标金融机构的异常交易账户群体之后,输出所述目标金融机构的异常交易账户群体,以使目标机构及时对所述目标金融机构的异常交易账户群体采取历史数据查证、实时交易监控取证以及上报风险控制***等操作,以有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过应用机器学习模型确定用于进行局部社区挖掘的发起节点,以高风险账户为起点进行局部账户社区挖掘,具有针对性且目标社区符合群体式异常金融行为,并应用发起节点进行局部社区挖掘,能够有效提高局部社区挖掘的效率、有效性及准确性,能够有效降低高风险账户对应的风险账户社区挖掘所需的计算量,进而能够有效提高异常交易账户群体识别的效率、可靠性及准确性,在符合群体式异常金融行为的同时,针对群体式异常金融行为,能识别出群体中隐蔽的而又与群体中其他账户联系密切的账户,满足反异常金融需求,账户社区挖掘更有针对性,以明确的高风险账户为起点,计算消耗小,能快速、准确挖掘出群体式进行异常金融行为的银行账户社区,大大节省了人力,提高了识别异常交易账户的效率和概率。能够帮助银行业务人员更高效的侦测群体式异常金融行为,极大地提高反异常金融工作的效率,进而能够有效提高识别得到异常交易账户群体的金融机构的运转安全性及可靠性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种异常交易账户群体识别方法,其特征在于,包括:
将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;
针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
2.根据权利要求1所述的异常交易账户群体识别方法,其特征在于,所述将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户,包括:
将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户;
其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
3.根据权利要求1所述的异常交易账户群体识别方法,其特征在于,在所述将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户之前,还包括:
获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息;
其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
4.根据权利要求3所述的异常交易账户群体识别方法,其特征在于,在所述针对每个所述高风险账户分别执行局部社区挖掘步骤之前,还包括:
应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
5.根据权利要求1所述的异常交易账户群体识别方法,其特征在于,所述以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区,包括:
以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值;
在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
6.根据权利要求5所述的异常交易账户群体识别方法,其特征在于,所述以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,包括:
以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
7.根据权利要求5所述的异常交易账户群体识别方法,其特征在于,所述在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区,包括:
按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区;
导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值;
判断所述账户社区当前的导率值是否连续预设次数下降,若是,则将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点;若否,则返回执行所述导率获取步骤;
应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
8.根据权利要求1所述的异常交易账户群体识别方法,其特征在于,还包括:
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点;
针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
9.根据权利要求1所述的异常交易账户群体识别方法,其特征在于,还包括:
若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
10.一种异常交易账户群体识别装置,其特征在于,包括:
高风险账户确定模块,用于将目标金融机构对应的各个账户的属性信息分别输入用于预测账户风险的机器学习模型,并根据该机器学习模型的输出将至少一个账户确定为高风险账户;
局部挖掘模块,用于针对每个所述高风险账户分别执行局部社区挖掘步骤,其中,所述局部社区挖掘步骤包括:以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值,并根据各个所述节点与该发起节点之间的关联值以及预设的密切关联判定规则,确定当前的高风险账户对应的风险账户社区;
第一群体确定模块,用于若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间均满足预设的非相似要求,则将各个所述风险账户社区分别确定为所述目标金融机构的异常交易账户群体。
11.根据权利要求10所述的异常交易账户群体识别装置,其特征在于,所述高风险账户确定模块用于执行下述内容:
将目标金融机构对应的各个账户的属性信息分别输入LightGBM模型中,并根据该LightGBM模型的输出将至少一个账户确定为高风险账户;
其中,所述LightGBM模型为基于属性信息训练集预先训练得到的,该属性信息训练集包含有多个历史账户的属性信息以及各个所述历史账户对应的标签,该标签用于表示对应的历史账户是否为高风险账户。
12.根据权利要求10所述的异常交易账户群体识别装置,其特征在于,还包括:
账户信息获取模块,用于获取预设时间段内的目标金融机构的各个账户的属性信息以及用于构建图数据的交易信息;
其中,所述属性信息包括属性特征信息和交易特征信息,所述交易信息包括账户之间的转账记录信息。
13.根据权利要求12所述的异常交易账户群体识别装置,其特征在于,还包括:
图数据构建模块,用于应用各个账户的交易信息构建用于反映各个所述账户之间关联关系的图数据,其中,所述图数据中的各个节点分别与各个所述账户一一对应,且所述图数据中的边用于表示相邻的两个所述节点之间的交易信息。
14.根据权利要求10所述的异常交易账户群体识别装置,其特征在于,所述局部挖掘模块包括:
初始关系确定子模块,用于以当前的高风险账户作为发起节点,在包含有该发起节点的图数据中分别确定其他各个节点与该发起节点之间的关联值;
密切关系确定子模块,用于在图数据中的除所述发起节点以外的其他各个节点中,筛选得到内部关联关系满足预设的密切关联判定规则的节点,并根据内部关联关系满足预设的密切关联判定规则的节点和所述发起节点生成当前的高风险账户对应的风险账户社区。
15.根据权利要求14所述的异常交易账户群体识别装置,其特征在于,所述初始关系确定子模块包括:近似page-rank计算单元,所述近似page-rank计算单元用于执行下述内容:
以当前的高风险账户作为发起节点,对包含有该发起节点的图数据进行近似page-rank计算,得到所述图数据中除所述发起节点外的其他各个节点的page-rank值,其中,所述page-rank值用于表示对应节点与所述发起节点之间的关联程度。
16.根据权利要求14所述的异常交易账户群体识别装置,其特征在于,所述密切关系确定子模块包括:导率计算单元,所述导率计算单元用于执行下述内容:
按照从大到小的顺序对各个节点各自与所述发起节点之间的关联值进行排序,得到由排序后的各个节点组成的序列,以及,将所述发起节点作为初始的账户社区;
导率获取步骤:提取当前所述序列中的首个节点,将当前提取的节点加入所述账户社区中,并获取所述账户社区当前的导率值;
判断所述账户社区当前的导率值是否连续预设次数下降,若是,则将当前账户社区中的除所述发起节点之外的节点均确定为内部关联关系满足预设的密切关联判定规则的节点;若否,则返回执行所述导率获取步骤;
应用内部关联关系满足预设的密切关联判定规则的节点和所述发起节点组成当前的高风险账户对应的风险账户社区。
17.根据权利要求10所述的异常交易账户群体识别装置,其特征在于,还包括:第二群体确定模块,所述第二群体确定模块用于执行下述内容:
若经所述局部社区挖掘步骤获取多个所述风险账户社区,且各个所述风险账户社区之间不满足预设的非相似要求,则对存在相似关系的所述风险账户社区进行合并,其中,所述非相似要求包括:各个所述风险账户社区之间不包含有相同的发起节点;
针对合并后的风险账户社区中的至少两个高风险账户,同时执行所述局部社区挖掘步骤,其中,合并后的风险账户社区中的至少两个高风险账户均为当前所述局部社区挖掘步骤中的发起节点,直至剩余的各个所述风险账户社区之间均满足预设的非相似要求。
18.根据权利要求10所述的异常交易账户群体识别装置,其特征在于,还包括:第三群体确定模块,所述第三群体确定模块用于执行下述内容:
若经所述局部社区挖掘步骤获取一个所述风险账户社区,则将该风险账户社区确定为所述目标金融机构的异常交易账户群体。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述的异常交易账户群体识别方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述的异常交易账户群体识别方法。
CN202010608903.3A 2020-06-30 2020-06-30 异常交易账户群体识别方法及装置 Pending CN111784502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010608903.3A CN111784502A (zh) 2020-06-30 2020-06-30 异常交易账户群体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010608903.3A CN111784502A (zh) 2020-06-30 2020-06-30 异常交易账户群体识别方法及装置

Publications (1)

Publication Number Publication Date
CN111784502A true CN111784502A (zh) 2020-10-16

Family

ID=72761113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010608903.3A Pending CN111784502A (zh) 2020-06-30 2020-06-30 异常交易账户群体识别方法及装置

Country Status (1)

Country Link
CN (1) CN111784502A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215616A (zh) * 2020-11-30 2021-01-12 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和***
CN112330373A (zh) * 2020-11-30 2021-02-05 ***股份有限公司 用户行为分析方法、装置及计算机可读存储介质
CN112435126A (zh) * 2021-01-26 2021-03-02 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
CN112561698A (zh) * 2020-12-10 2021-03-26 中信银行股份有限公司 交易链的确定方法、装置、电子设备及可读存储介质
CN112651831A (zh) * 2020-12-11 2021-04-13 中信银行股份有限公司 可疑账户监测方法和装置
CN113159778A (zh) * 2020-12-24 2021-07-23 西安四叶草信息技术有限公司 一种金融欺诈的检测方法及装置
CN113159793A (zh) * 2020-12-09 2021-07-23 同盾控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113177841A (zh) * 2021-05-26 2021-07-27 中国工商银行股份有限公司 一种异常社区的识别方法、装置和设备
CN113191780A (zh) * 2021-05-31 2021-07-30 中国银行股份有限公司 基于区块链的高风险业务交易执行方法及装置
CN113222738A (zh) * 2021-05-25 2021-08-06 山东小葱数字科技有限公司 套现卡识别方法、装置、电子设备和计算机可读存储介质
CN113362157A (zh) * 2021-05-27 2021-09-07 ***股份有限公司 异常节点识别方法、模型的训练方法、装置及存储介质
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113420190A (zh) * 2021-08-23 2021-09-21 连连(杭州)信息技术有限公司 一种商户风险识别方法、装置、设备及存储介质
CN113570379A (zh) * 2021-08-04 2021-10-29 工银科技有限公司 异常交易团伙识别方法及装置
CN113689218A (zh) * 2021-08-06 2021-11-23 上海浦东发展银行股份有限公司 风险账户的识别方法、装置、计算机设备和存储介质
CN113807857A (zh) * 2021-09-23 2021-12-17 中国工商银行股份有限公司 一种资金交易异常的存款账户识别方法及装置
CN114723554A (zh) * 2022-06-09 2022-07-08 中国工商银行股份有限公司 异常账户识别方法及装置
CN114756716A (zh) * 2022-04-18 2022-07-15 马上消费金融股份有限公司 信息处理方法、装置、设备及存储介质
WO2022226910A1 (en) * 2021-04-29 2022-11-03 Paypal, Inc. Systems and methods for presenting and analyzing transaction flows using tube map format
WO2022237194A1 (zh) * 2021-05-10 2022-11-17 深圳前海微众银行股份有限公司 联邦学习***中账户的异常检测方法、装置及电子设备
CN115471041A (zh) * 2022-08-03 2022-12-13 中金支付有限公司 黑产账户的识别方法、装置、设备和存储介质
CN117764759A (zh) * 2023-12-29 2024-03-26 北京度友信息技术有限公司 主体集合的挖掘方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置
CN110046929A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 一种欺诈团伙识别方法、装置、可读存储介质及终端设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272378A (zh) * 2018-08-23 2019-01-25 阿里巴巴集团控股有限公司 一种风险群组的发现方法和装置
CN110046929A (zh) * 2019-03-12 2019-07-23 平安科技(深圳)有限公司 一种欺诈团伙识别方法、装置、可读存储介质及终端设备

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330373A (zh) * 2020-11-30 2021-02-05 ***股份有限公司 用户行为分析方法、装置及计算机可读存储介质
CN112215616B (zh) * 2020-11-30 2021-04-30 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和***
CN112215616A (zh) * 2020-11-30 2021-01-12 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和***
CN113159793A (zh) * 2020-12-09 2021-07-23 同盾控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN112561698A (zh) * 2020-12-10 2021-03-26 中信银行股份有限公司 交易链的确定方法、装置、电子设备及可读存储介质
CN112651831A (zh) * 2020-12-11 2021-04-13 中信银行股份有限公司 可疑账户监测方法和装置
CN113159778A (zh) * 2020-12-24 2021-07-23 西安四叶草信息技术有限公司 一种金融欺诈的检测方法及装置
CN113159778B (zh) * 2020-12-24 2023-11-24 西安四叶草信息技术有限公司 一种金融欺诈的检测方法及装置
CN112435126A (zh) * 2021-01-26 2021-03-02 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
CN112435126B (zh) * 2021-01-26 2021-06-18 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
WO2022226910A1 (en) * 2021-04-29 2022-11-03 Paypal, Inc. Systems and methods for presenting and analyzing transaction flows using tube map format
WO2022237194A1 (zh) * 2021-05-10 2022-11-17 深圳前海微众银行股份有限公司 联邦学习***中账户的异常检测方法、装置及电子设备
CN113222738A (zh) * 2021-05-25 2021-08-06 山东小葱数字科技有限公司 套现卡识别方法、装置、电子设备和计算机可读存储介质
CN113177841A (zh) * 2021-05-26 2021-07-27 中国工商银行股份有限公司 一种异常社区的识别方法、装置和设备
CN113362157B (zh) * 2021-05-27 2024-02-09 ***股份有限公司 异常节点识别方法、模型的训练方法、装置及存储介质
CN113362157A (zh) * 2021-05-27 2021-09-07 ***股份有限公司 异常节点识别方法、模型的训练方法、装置及存储介质
CN113191780A (zh) * 2021-05-31 2021-07-30 中国银行股份有限公司 基于区块链的高风险业务交易执行方法及装置
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113409139B (zh) * 2021-07-27 2024-05-28 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113570379A (zh) * 2021-08-04 2021-10-29 工银科技有限公司 异常交易团伙识别方法及装置
CN113570379B (zh) * 2021-08-04 2024-02-13 工银科技有限公司 异常交易团伙识别方法及装置
CN113689218A (zh) * 2021-08-06 2021-11-23 上海浦东发展银行股份有限公司 风险账户的识别方法、装置、计算机设备和存储介质
CN113420190A (zh) * 2021-08-23 2021-09-21 连连(杭州)信息技术有限公司 一种商户风险识别方法、装置、设备及存储介质
CN113807857A (zh) * 2021-09-23 2021-12-17 中国工商银行股份有限公司 一种资金交易异常的存款账户识别方法及装置
CN114756716A (zh) * 2022-04-18 2022-07-15 马上消费金融股份有限公司 信息处理方法、装置、设备及存储介质
CN114723554A (zh) * 2022-06-09 2022-07-08 中国工商银行股份有限公司 异常账户识别方法及装置
CN115471041A (zh) * 2022-08-03 2022-12-13 中金支付有限公司 黑产账户的识别方法、装置、设备和存储介质
CN115471041B (zh) * 2022-08-03 2024-05-28 中金支付有限公司 黑产账户的识别方法、装置、设备和存储介质
CN117764759A (zh) * 2023-12-29 2024-03-26 北京度友信息技术有限公司 主体集合的挖掘方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN111784502A (zh) 异常交易账户群体识别方法及装置
CN111476662A (zh) 反洗钱识别方法及装置
CN111275546B (zh) 金融客户欺诈风险识别方法及装置
CN113344562B (zh) 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置
CN111523677B (zh) 实现对机器学习模型的预测结果进行解释的方法及装置
CN112785086A (zh) 信贷逾期风险预测方法及装置
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
US20150262184A1 (en) Two stage risk model building and evaluation
CN111340240A (zh) 实现自动机器学习的方法及装置
CN108268785A (zh) 一种敏感数据识别和脱敏的装置及方法
KR20200075120A (ko) 기업 부도 예측 시스템 및 이의 동작 방법
CN110634060A (zh) 一种用户信用风险的评估方法、***、装置及存储介质
CN114881775B (zh) 一种基于半监督集成学习的欺诈检测方法及***
CN113282623A (zh) 数据处理方法及装置
CN114821825B (zh) 一种多粒度人脸伪造检测方法、***、设备和介质
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN110858326B (zh) 模型训练及获取附加特征数据的方法、装置、设备及介质
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN117009873A (zh) 支付风险识别模型的生成方法、支付风险识别方法及装置
CN111523604A (zh) 一种用户分类的方法和相关装置
CN112927719B (zh) 风险信息评估方法、装置、设备及存储介质
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN113095722A (zh) Atm取缔确定方法及装置
CN117058432B (zh) 图像查重方法、装置、电子设备及可读存储介质
CN112101952B (zh) 银行可疑交易评估、数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination