CN114049205A - 异常交易识别方法、装置、计算机设备和存储介质 - Google Patents
异常交易识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114049205A CN114049205A CN202111302440.9A CN202111302440A CN114049205A CN 114049205 A CN114049205 A CN 114049205A CN 202111302440 A CN202111302440 A CN 202111302440A CN 114049205 A CN114049205 A CN 114049205A
- Authority
- CN
- China
- Prior art keywords
- transaction
- category
- index
- abnormal
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种异常交易识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别交易对应的用户信息和交易信息;确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;所述先验概率基于样本交易和所述样本交易对应的类别标签得到;根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;基于所述后验概率,确定对所述待识别交易的识别结果。采用本方法能够通过对待识别交易的异常识别结果的客观性和准确性。
Description
技术领域
本申请涉及交易监测技术领域,特别是涉及一种异常交易识别方法、装置、计算机设备和存储介质。
背景技术
随着互联网时代的不断发展,各金融机构的业务范围也越来越广泛,随之洗钱活动也日益猖獗,洗钱手段的复杂性、隐蔽性和多边性,导致可疑交易有效监控比较困难。
传统的反洗钱可疑交易监控***一般是针对交易的某一特征进行匹配来筛查出可疑交易,或用简单的分类算法筛查出可疑交易,这种方法规则固定单一,识别的准确度较低。
发明内容
基于此,有必要针对上述可以交易识别方法存在的规则固定单一,识别的准确度较低的技术问题,提供一种异常交易识别方法、装置、计算机设备和存储介质。
一种异常交易识别方法,所述方法包括:
获取待识别交易对应的用户信息和交易信息;
确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;所述先验概率基于样本交易和所述样本交易对应的类别标签得到;
根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
基于所述后验概率,确定对所述待识别交易的识别结果。
在其中一个实施例中,所述确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果,包括:
获取各个所述异常检测指标对应的命中条件;
针对任一个异常检测指标,当所述用户信息或所述交易信息符合所述任一个异常检测指标对应的命中条件时,确定所述用户信息或所述交易信息命中所述任一个异常检测指标。
在其中一个实施例中,所述获取预设的各交易类别的先验概率,包括:
获取样本交易及对应的类别标签;
根据所述类别标签,分别获取属于各所述交易类别的样本交易,得到各所述交易类别的类别样本量;
获取各所述交易类别的类别样本量与所述样本交易的总样本量之间的比值,作为各所述交易类别的先验概率。
在其中一个实施例中,所述获取所述交易类别下每个所述异常检测指标的权重系数,包括:
获取目标交易类别下命中目标异常检测指标的样本交易的数目,作为指标样本量;
获取所述目标交易类别的所有样本交易的数目,作为类别样本量;
获取所述指标样本量与所述类别样本量之间的比值,作为所述目标交易类别下所述目标异常检测指标的权重系数。
在其中一个实施例中,所述根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率,包括:
基于所述指标命中结果,确定在目标交易类别下,所述待识别交易所命中的各个所述异常检测指标的权重系数;
获取所述待识别交易所命中的各个所述异常检测指标的权重系数之间的乘积,作为权重系数乘积;
获取所述目标交易类别的先验概率与所述权重系数乘积之间的乘积,得到所述待识别交易属于所述目标交易类别的后验概率。
在其中一个实施例中,所述基于所述后验概率,确定对所述待识别交易的识别结果,包括:
从所述待识别交易属于各种所述交易类别的后验概率中,确定出数值最大的后验概率,将所述数值最大的后验概率所对应的交易类别作为所述待识别交易对应的交易类别。
在其中一个实施例中,在确定出数值最大的后验概率之后,还包括:
当所述数值最大的后验概率所对应的交易类别为预设异常交易类别的交易时,生成预警信息;
发送所述预警信息至预警终端,以通过所述预警终端展示所述预警信息。
一种异常交易识别装置,所述装置包括:
第一获取模块,用于获取待识别交易对应的用户信息和交易信息;
指标确定模块,用于确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
第二获取模块,用于获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;
概率确定模块,用于根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
结果确定模块,用于基于所述后验概率,确定对所述待识别交易的识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别交易对应的用户信息和交易信息;
确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;所述先验概率基于样本交易和所述样本交易对应的类别标签得到;
根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
基于所述后验概率,确定对所述待识别交易的识别结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别交易对应的用户信息和交易信息;
确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;所述先验概率基于样本交易和所述样本交易对应的类别标签得到;
根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
基于所述后验概率,确定对所述待识别交易的识别结果。
上述异常交易识别方法、装置、计算机设备和存储介质,通过预设多个异常检测指标,在待识别交易对应的用户信息和交易信息后,确定用户信息和交易信息对预设的多个异常检测指标的指标命中结果,并基于指标命中结果、预设的各交易类别的先验概率,以及各交易类别下每个异常检测指标的权重系数,得到待识别交易分别属于各交易类别的后验概率,基于后验概率,确定对待识别交易的识别结果。该方法采用多项异常检测指标相结合,对待识别交易进行异常识别,可以增强识别结果的客观性和准确性,通过待识别交易对异常检测指标的指标命中结果对各交易类别的先验概率进行修正,进一步提高了基于修正后得到的后验概率确定的异常识别结果的准确性。
附图说明
图1为一个实施例中异常交易识别方法的流程示意图;
图2为另一个实施例中异常交易识别方法的流程示意图;
图3为一个实施例中异常交易识别和预警的装置结构图;
图4为一个实施例中指标计算模块的内部示意图;
图5为一个实施例中人工识别模块的内部示意图;
图6为一个实施例中异常交易识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
在一个实施例中,如图1所示,提供了一种异常交易识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S102,获取待识别交易对应的用户信息和交易信息。
其中,用户信息可包括自然人用户信息和非自然人用户信息。
其中,自然人用户信息可包括用户身份信息掌握程度、证件种类、证件有效期、年龄、业务存续时间、反洗钱监控情况等。
其中,非自然人用户信息可包括用户信息公开程度、证件种类、股权结构、业务存续时间、反洗钱监控情况等。
其中,交易信息可包括交易时间、地点、交易方式、金额、用户账户、对手方账户、交易方向等。
步骤S104,确定用户信息和交易信息对预设的多个异常检测指标的指标命中结果。
其中,异常检测指标用于表征异常交易行为的特征,具体地,异常检测指标可包括交易地点为高风险地区、用户账户资金快进快出、现金交易异常、用户来自高风险地区、用户职业与其交易额度异常等。
具体实现中,各个异常检测指标可设定有对应的命中条件,当用户信息或交易信息的特征符合某一个异常检测指标的命中条件时,则判定用户信息或交易信息命中该异常检测指标。
例如,对于交易地点为高风险地区的异常检测指标,对应的命中条件可以为交易地点处于预设的高风险地区范围内,当待识别交易的交易信息中的交易地点位于该预设的高风险地区范围内时,则可判定待识别交易命中了高风险地区的异常检测指标;又例如,对于用户账户资金快进快出的异常检测指标,对应的命中条件可以为用户账户在短时间内发生了多次入账和出账的情况,当待识别交易属于在短时间内快速入账或出账的交易,则可判定待识别交易命中了用户账户资金快进快出的异常检测指标。
步骤S106,获取预设的各交易类别的先验概率,以及各交易类别下每个异常检测指标的权重系数;先验概率基于样本交易和样本交易对应的类别标签得到。
其中,交易类别可包括异常交易、正常交易、跟踪后正常交易和跟踪后异常交易,其中,跟踪后正常交易表示在不确定交易是否异常的情况下,对该交易进行跟踪后发现为正常交易的交易,跟踪后异常交易表示在不确定交易是否异常的情况下,对该交易进行跟踪后发现为异常交易的交易。
其中,先验概率表示根据样本交易及样本交易的交易类别得到的概率。
其中,权重系数表示异常检测指标对交易类别的影响程度。
其中,样本交易可以为历史进所识别过的交易。
具体实现中,可以获取样本交易数据和预先确定的各样本交易的类别标签,通过计算样本交易数据中每种交易类别对应的样本量和样本交易数据的总样本量之间的比值,得到各种交易类别的先验概率。而针对交易类别下每个异常检测指标的权重系数的获取,则可以通过先获取交易类别下每个异常检测指标对应的指标样本量,以及获取该交易类别对应的类别样本量,通过计算各个异常检测指标对应的指标样本量与类别样本量之间的比值,得到该交易类别下每个异常检测指标的权重系数。具体地,指标样本量表示某一交易类别下命中了某个异常检测指标的样本交易的数目,类别样本量表示该交易类别下所有样本交易的数目。
步骤S108,根据指标命中结果、先验概率和权重系数,得到待识别交易分别属于各交易类别的后验概率。
其中,后验概率表示基于指标命中结果对先验概率进行修正后得到的概率。
具体实现中,指标命中结果包含有待识别交易所命中的异常检测指标的信息,因此,在得到指标命中结果后,可基于指标命中结果,从各交易类别下每个异常检测指标的权重系数中,确定出在任一种交易类别下,待识别交易所命中的各个所述异常检测指标的权重系数,基于待识别交易所命中的各个所述异常检测指标的权重系数和各交易类别的先验概率,计算得到待识别交易分别属于各交易类别的后验概率。
步骤S110,基于后验概率,确定对待识别交易的识别结果。
具体实现中,后验概率表示待识别交易属于某一交易类别的概率,后验概率越大,表明待识别交易属于该交易类别的可能性越大,因此,在得到待识别交易分别属于各个交易类别的后验概率后,可从各个后验概率中确定出数值最大的后验概率,将该数值最大的后验概率所对应的交易类别,作为待识别交易的交易类别。
上述异常交易识别方法,通过预设多个异常检测指标,在待识别交易对应的用户信息和交易信息后,确定用户信息和交易信息对预设的多个异常检测指标的指标命中结果,并基于指标命中结果、预设的各交易类别的先验概率,以及各交易类别下每个异常检测指标的权重系数,得到待识别交易分别属于各交易类别的后验概率,基于后验概率,确定对待识别交易的识别结果。该方法采用多项异常检测指标相结合,对待识别交易进行异常识别,可以增强识别结果的客观性和准确性,通过待识别交易对异常检测指标的指标命中结果对各交易类别的先验概率进行修正,进一步提高了基于修正后得到的后验概率确定的异常识别结果的准确性。
在一个实施例中,上述步骤S104可以通过下述步骤实现,包括:获取各个异常检测指标对应的命中条件;针对任一个异常检测指标,当用户信息或交易信息符合任一个异常检测指标对应的命中条件时,确定用户信息或交易信息命中任一个异常检测指标。
具体实现中,交易地点为高风险地区的异常检测指标对应的命中条件可以为交易地点处于预设的高风险地区范围内;用户账户资金快进快出对应的命中条件可以为用户账户在一段时间内发生了多次入账和出账的情况;现金交易异常的异常检测指标对应的命中条件可以为交易方式为采用现金进行交易;用户来自高风险地区的异常检测指标对应的命中条件可以为用户的居住地位于预设的高风险地区范围内;用户职业与其交易额度异常的异常检测指标对应的命中条件可以为用户的职业属于预设的异常职业且交易额度大于预设的交易金额阈值。
本实施例中,通过为每个异常检测指标设置对应的命中条件,以便于从用户信息和交易信息中提取对应的检测信息,针对性地进行命中识别,提高确定用户信息和交易信息对异常检测指标的指标命中结果的确定效率。
在一个实施例中,上述步骤S106中获取预设的各交易类别的先验概率可以通过下述步骤实现,包括:获取样本交易及对应的类别标签;根据类别标签,分别获取属于各所述交易类别的样本交易,得到各所述交易类别的类别样本量;获取各所述交易类别的类别样本量与所述样本交易的总样本量之间的比值,作为各所述交易类别的先验概率。
具体实现中,若记样本交易为xi,样本交易对应的类别标签为yi,则样本交易数据可表示为:T={(x1,y1),(x2,y2),…,(xN,yN)},其中,xi (j)表示第i个样本的第j个指标,ajl表示第j个指标可能取的第l个值,其中,i=1,2,…,N;j=1,2,…,n;l=1,2,…,Sj;yi∈{d1,d2,…dK},d1,d2,…,dK表示交易类别的不同取值,则各个交易类别的先验概率的关系式可表示为:
例如,以获取交易类别为异常交易的先验概率为例,在获取样本交易及对应的类别标签后,可获取样本交易中所有属于异常交易的类别样本量,计算该异常交易的类别样本量与样本交易的总样本量的比值,作为异常交易的先验概率。
本实施例中,通过样本交易中各个交易类别的类别样本量与样本交易的总样本量,计算得到各个交易类别的先验概率,并且可不断地根据新的样本交易对各个交易类别的先验概率进行更新,由此实现对先验概率的不断优化,从而提高后续对待识别交易识别结果的准确性。
在一个实施例中,上述步骤S106中获取交易类别下每个异常检测指标的权重系数,可以通过下述步骤实现,包括:获取目标交易类别下命中目标异常检测指标的样本交易的数目,作为指标样本量;获取目标交易类别下的所有样本交易的数目,作为类别样本量;获取指标样本量与类别样本量之间的比值,作为目标交易类别下目标异常检测指标的权重系数。
其中,目标交易类别为预设的各交易类别中的任意一种交易类别,即目标交易类别为正常交易、异常交易、跟踪后正常交易和跟踪后异常交易中的任一种。
其中,目标异常检测指标为预设的多个异常检测指标中的任意一个指标。
其中,指标样本量表示任一交易类别下命中任一异常检测指标的样本交易的数目,目标交易类别下命中目标异常检测指标的指标样本量则可以理解为命中目标异常检测指标,且对应的类别标签为目标交易类别的样本交易的数目。
其中,类别样本量表示任一类别下的所有样本交易的数目,目标交易类别下的类别样本量可以理解为不论命中哪一个异常检测指标,只要类别标签属于目标交易类别的样本交易的数目。
具体实现中,由于每一种异常检测指标所对应的取值可能有多个,例如,对于“交易地点为高风险地区”,对应的取值可以为地区A、地区B、地区C等,因此,获取目标交易类别下命中目标异常检测指标的样本交易的数目,包括获取目标交易类别下命中目标异常检测指标的各个取值的样本交易的数目,则目标交易类别下目标异常检测指标的权重系数可以通过先计算目标交易类别下命中目标异常检测指标的各个取值的样本交易的数目与目标交易类别的类别样本量之间的比值,得到目标交易类别下目标异常检测指标的各个取值的条件概率,计算各个取值的条件概率的和,得到目标交易类别下目标异常检测指标的权重系数。具体地,任一交易类别下任一个异常检测指标的权重系数的计算方式可用如下所示的关系式表示:
其中,ajl表示第j个指标可能取的第l个值,例如,对于指标j为“交易地点为高风险地区”,对应的ajl的取值可以为地区A、地区B、地区C等;其中, i=1,2,…,N;j=1,2,…,n;l=1,2,…,Sj;yi∈{d1,d2,…dK},d1,d2,…,dK表示交易类别的不同取值。其中,表示命中第j个指标的第l个值且交易类别(yi) 为dk的样本交易的数目,表示交易类别为dk的样本交易的数目,即类别样本量,则计算得到的P(X(j)=ajl|Y=dk)表示在交易类别为dk的条件下,命中第j个指标的第l个值的条件概率。
本实施例中,通过目标交易类别下命中目标异常检测指标的指标样本量与目标交易类别对应的类别样本量,计算得到目标交易类别下目标异常检测指标的权重系数,由此实现通过实例样本为不同的异常检测指标赋予权重系数,提高所确定的权重系数的客观性和准确性。
在一个实施例中,上述步骤S108具体通过下述方式实现,包括:基于所述指标命中结果,确定在目标交易类别下,所述待识别交易所命中的各个所述异常检测指标的权重系数;获取所述待识别交易所命中的各个所述异常检测指标的权重系数之间的乘积,作为权重系数乘积;获取所述目标交易类别的先验概率与所述权重系数乘积之间的乘积,得到所述待识别交易属于所述目标交易类别的后验概率。
具体实现中,设待识别交易为x,命中了异常检测指标x(1),x(2),…,x(n),待识别交易在交易类别dk下的各个异常检测指标的权重系数为: P(X(j)=x(j)|Y=dk),则待识别交易属于交易类别dk的后验概率可表示为:
其中,P(Y=dk)表示交易类别dk的先验概率。
例如,以获取待识别交易属于异常交易的后验概率为例,若待识别交易命中了用户账户资金快进快出和现金交易异常这两个异常检测指标,在异常交易下,这两个异常检测指标对应的权重系数分别为w1和w2,设异常交易的先验概率为P先验,则待识别交易属于异常交易的后验概率为P后验=P先验*w1*w2。
本实施例中,通过各个交易类别下待识别交易所命中的各个异常检测指标的权重系数,以及该交易类别的先验概率,计算得到待识别交易分别属于各个交易类别的后验概率,该方法通过待识别交易实际命中的异常检测指标的结果对属于各个交易类别的先验概率进行修正,从而提高了所确定的待识别交易对应交易类别的分类准确性。
在一个实施例中,上述步骤S110中基于所述后验概率,确定对所述待识别交易的识别结果可以通过下述方式实现:从所述待识别交易属于各种所述交易类别的后验概率中,确定出数值最大的后验概率,将数值最大的后验概率所对应的交易类别作为所述待识别交易对应的交易类别。
例如,设待识别交易属于正常交易、异常交易、跟踪后正常交易、跟踪后异常交易的后验概率分别为50%、80%、40%、60%,则数值最大的后验概率为 80%,所对应的交易类别为异常交易,则可确定待识别交易对应的交易类别为异常交易。
进一步地,在一个实施例中,在确定出数值最大的后验概率之后,还包括:当数值最大的后验概率所对应的交易类别为预设异常交易类别的交易时,生成预警信息;发送预警信息至预警终端,以通过预警终端展示预警信息。
其中,预设异常交易类别的交易可以为异常交易和跟踪后异常交易。
具体实现中,当确定待识别交易所属的各个交易类别的后验概率最大的为异常交易或跟踪后异常交易,则可生成包含待识别交易的用户信息和交易信息的预警信息,发送预警信息至预警终端,以通过预警终端展示预警信息,使预警终端人员对待识别交易进行处理。
本实施例中,通过将数值最大的后验概率所对应的交易类别,作为待识别交易的交易类别,并在后验概率最大的为异常交易或跟踪后异常交易时,进行预警,以便于通知监管人员及时进行处理。
在另一个实施例中,如图2所示,提供了一种异常交易识别方法,本实施例中,该方法包括以下步骤:
步骤S202,获取待识别交易对应的用户信息和交易信息,以及获取预设的多个异常检测指标对应的命中条件;
步骤S204,基于命中条件,确定待识别交易对预设的多个异常检测指标的指标命中结果;
步骤S206,获取样本交易及对应的类别标签;
步骤S208,根据类别标签,分别获取各交易类别的类别样本量与样本交易的总样本量之间的比值,作为各交易类别的先验概率;
步骤S210,基于指标命中结果,确定在各个交易类别下,待识别交易所命中的各个异常检测指标的权重系数;
步骤S212,分别计算各个交易类别的先验概率与对应的交易类别下,待识别交易所命中的各个异常检测指标的权重系数之间的乘积,得到待识别交易分别属于各个交易类别的后验概率;
步骤S214,从后验概率中确定出数值最大的后验概率,将数值最大的后验概率所对应的交易类别作为待识别交易对应的交易类别。
本实施例提供的异常交易识别方法,克服了现有反洗钱监测毒品类洗钱方法规则固定单一,精确度不高,优化空间小的问题,采用多项指标因子结合,更充分的分析不同交易行为特征与该类洗钱行为的相关性,并引入样本数据对各项指标不断调优,充分显现反洗钱监控价值。
在一个实施例中,为了便于本领域技术人员理解本申请实施例,以下将结合附图的具体示例进行说明。参考图3,示出了一种异常交易识别和预警的装置结构图,包括反洗钱指标计算模块301、模型计算模块302、人工识别模块303 和成效分析模块304,其中,
指标计算模块301,用于采集5项指标,分别是用户账户资金交易高风险地区、用户账户资金快进快出、现金交易异常、用户来自高风险地区、用户职业与其交易额度异常,确定交易各个指标的指标命中结果,并将指标命中结果输出到指标命中库,具体的指标计算模块的内部结构如图4所示,通过用户信息确定用户侧的异常检测指标是否命中,通过交易信息确定交易侧的异常检测指标是否命中。
模型计算模块302,用于对指标命中结果进行分析处理,按同一用户判断各指标命中结果情况,然后生成初步的模型命中结果,存储至数据库中。
人工识别模块303,用于识别数据库中的数据,确定为异常交易或者正常交易,如图5所示:
步骤501:对于识别结果为异常的交易,设置异常标志。
步骤502:对于识别结果为正常的交易,设置正常标志。
步骤503:对于识别结果不确定的交易,进入跟踪库持续分析,在得到新的交易信息后,再次进行异常分析,最终分两种情形,确认为跟踪后异常504和跟踪后正常505。
经过上述步骤得到4种风险度的确认结果,记为d1,d2,d3,d4。
成效分析模块304基于朴素贝叶斯算法结合异常检测指标、贝叶斯模型及人工识别结果进行模型效能分析,算法实施流程包括:
朴素贝叶斯算法:
算法输入:训练数据T={(x1,y1),(x2,y2),…,(xN,yN)},其中, xi (j)表示第i个样本的第j个指标,ajl表示第j个指标可能取的第l个值,其中,i=1,2,…,N;j=1,2,…,n;l=1,2,…,Sj;yi∈{d1,d2,…dK},d1,d2,…,dK表示交易类别的不同取值,实例x;
输出:实例x的命中结果
(1)计算先验概率及条件概率
j=1,2,…,n;l=1,2,…,Sj;k=1,2,…,K
(2)对于给定的实例x=(x(1),x(2),…x(n))T,计算
(3)确定实例x的类
S401,将生产环境上经业务人员人工识别确认的可疑数据作为训练样本,分析各指标效能,即使用朴素贝叶斯算法计算实际确认的风险程度下各结果(相当于各交易类别)的先验概率;
S402,使用朴素贝叶斯分类构建模型,根据某实例特征数据得到不同与***初步筛选指标结果比对分析后,反映出指标命中相对于实际确认结果的效能。通过该分析,转化得到后续***筛查的计算模型;
S403:使用朴素贝叶斯分类构建分类模型,使用训练好的模型根据某实例特征数据得到不同风险度(异常、跟踪后异常、跟踪后正常、正常)下的后验概率,选择后验概率最大的风险度,提供给业务可信度较高的参考;
S404:重复上述步骤,随时间不断推移,累计样本的增长,得到的计算结果会越精确。
本申请提供的异常交易识别方法,克服了现有方法中预警结果不精确,风险层次单一,缺乏优化机制,无法减轻人工判断工作的负担等一系列问题,进一步提升了反洗钱工作成效,具体具有以下有益效果:
(1)通过可拓展的指标规则对模型提供多方位的参考评价信息源,增强了计算结果的客观性,通过多个指标结合并基于贝叶斯定理训练分类模型输出较为准确对模型处理结果;(2)准确的分层次模型风险度,向用户提供预警,使用户将更多的资源投入到更有效的交易中去,极大地减少了人力资源成本,提升反洗钱工作时效性:(3)针对通过不断的实证反馈,自动优化计算模型,提升结果的准确性,模型的有效性随***实际使用的积累趋近于最优结果。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种异常交易识别装置,包括:第一获取模块602、指标确定模块604、第二获取模块606、概率确定模块608和结果确定模块610,其中:
第一获取模块602,用于获取待识别交易对应的用户信息和交易信息;
指标确定模块604,用于确定用户信息和交易信息对预设的多个异常检测指标的指标命中结果;
第二获取模块606,用于获取预设的各交易类别的先验概率,以及各交易类别下每个异常检测指标的权重系数;
概率确定模块608,用于根据指标命中结果、先验概率和权重系数,得到待识别交易分别属于各交易类别的后验概率;
结果确定模块610,用于基于后验概率,确定对待识别交易的识别结果。
在一个实施例中,上述指标确定模块604,具体用于获取各个异常检测指标对应的命中条件;针对任一个异常检测指标,当用户信息或交易信息符合任一个异常检测指标对应的命中条件时,确定用户信息或交易信息命中任一个异常检测指标。
在一个实施例中,上述第二获取模块606,具体用于获取样本交易及对应的类别标签;根据类别标签,分别获取属于各交易类别的样本交易,得到各交易类别的类别样本量;获取各交易类别的类别样本量与样本交易的总样本量之间的比值,作为各交易类别的先验概率。
在一个实施例中,上述第二获取模块606,还用于获取目标交易类别下命中目标异常检测指标的样本交易的数目,作为指标样本量;获取目标交易类别的所有样本交易的数目,作为类别样本量;获取指标样本量与类别样本量之间的比值,作为目标交易类别下目标异常检测指标的权重系数。
在一个实施例中,上述概率确定模块608,具体用于基于指标命中结果,确定在目标交易类别下,待识别交易所命中的各个异常检测指标的权重系数;获取待识别交易所命中的各个异常检测指标的权重系数之间的乘积,作为权重系数乘积;获取目标交易类别的先验概率与权重系数乘积之间的乘积,得到待识别交易属于目标交易类别的后验概率。
在一个实施例中,上述结果确定模块610,具体用于从待识别交易属于各种交易类别的后验概率中,确定出数值最大的后验概率,将数值最大的后验概率所对应的交易类别作为待识别交易对应的交易类别。
在一个实施例中,上述装置还包括预警模块,用于当数值最大的后验概率所对应的交易类别为预设异常交易类别的交易时,生成预警信息;发送预警信息至预警终端,以通过预警终端展示交易信息。
需要说明的是,本申请的异常交易识别装置与本申请的异常交易识别方法一一对应,在上述异常交易识别方法的实施例阐述的技术特征及其有益效果均适用于异常交易识别装置的实施例中,具体内容可参见本申请方法实施例中的叙述,此处不再赘述,特此声明。此外,上述异常交易识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种异常交易识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory, SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种异常交易识别方法,其特征在于,所述方法包括:
获取待识别交易对应的用户信息和交易信息;
确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;所述先验概率基于样本交易和所述样本交易对应的类别标签得到;
根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
基于所述后验概率,确定对所述待识别交易的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果,包括:
获取各个所述异常检测指标对应的命中条件;
针对任一个异常检测指标,当所述用户信息或所述交易信息符合所述任一个异常检测指标对应的命中条件时,确定所述用户信息或所述交易信息命中所述任一个异常检测指标。
3.根据权利要求1所述的方法,其特征在于,所述获取预设的各交易类别的先验概率,包括:
获取样本交易及对应的类别标签;
根据所述类别标签,分别获取属于各所述交易类别的样本交易,得到各所述交易类别的类别样本量;
获取各所述交易类别的类别样本量与所述样本交易的总样本量之间的比值,作为各所述交易类别的先验概率。
4.根据权利要求3所述的方法,其特征在于,所述获取所述交易类别下每个所述异常检测指标的权重系数,包括:
获取目标交易类别下命中目标异常检测指标的样本交易的数目,作为指标样本量;
获取所述目标交易类别下所有样本交易的数目,作为类别样本量;
获取所述指标样本量与所述类别样本量之间的比值,作为所述目标交易类别下所述目标异常检测指标的权重系数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率,包括:
基于所述指标命中结果,确定在目标交易类别下,所述待识别交易所命中的各个所述异常检测指标的权重系数;
获取所述待识别交易所命中的各个所述异常检测指标的权重系数之间的乘积,作为权重系数乘积;
获取所述目标交易类别的先验概率与所述权重系数乘积之间的乘积,得到所述待识别交易属于所述目标交易类别的后验概率。
6.根据权利要求1所述的方法,其特征在于,所述基于所述后验概率,确定对所述待识别交易的识别结果,包括:
从所述待识别交易属于各种所述交易类别的后验概率中,确定出数值最大的后验概率,将所述数值最大的后验概率所对应的交易类别作为所述待识别交易对应的交易类别。
7.根据权利要求6所述的方法,其特征在于,在确定出数值最大的后验概率之后,还包括:
当所述数值最大的后验概率所对应的交易类别为预设异常交易类别的交易时,生成预警信息;
发送所述预警信息至预警终端,以通过所述预警终端展示所述预警信息。
8.一种异常交易识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别交易对应的用户信息和交易信息;
指标确定模块,用于确定所述用户信息和所述交易信息对预设的多个异常检测指标的指标命中结果;
第二获取模块,用于获取预设的各交易类别的先验概率,以及所述各交易类别下每个所述异常检测指标的权重系数;
概率确定模块,用于根据所述指标命中结果、所述先验概率和所述权重系数,得到所述待识别交易分别属于各所述交易类别的后验概率;
结果确定模块,用于基于所述后验概率,确定对所述待识别交易的识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302440.9A CN114049205A (zh) | 2021-11-04 | 2021-11-04 | 异常交易识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302440.9A CN114049205A (zh) | 2021-11-04 | 2021-11-04 | 异常交易识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049205A true CN114049205A (zh) | 2022-02-15 |
Family
ID=80207274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111302440.9A Pending CN114049205A (zh) | 2021-11-04 | 2021-11-04 | 异常交易识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049205A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720864A (zh) * | 2023-06-26 | 2023-09-08 | 北京智思迪科技有限公司 | 一种具有虚假交易监控功能的在线交易***和方法 |
-
2021
- 2021-11-04 CN CN202111302440.9A patent/CN114049205A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720864A (zh) * | 2023-06-26 | 2023-09-08 | 北京智思迪科技有限公司 | 一种具有虚假交易监控功能的在线交易***和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
US20240078475A1 (en) | Attributing reasons to predictive model scores with local mutual information | |
US10579938B2 (en) | Real time autonomous archetype outlier analytics | |
US8346691B1 (en) | Computer-implemented semi-supervised learning systems and methods | |
US20190180379A1 (en) | Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof | |
US20170018030A1 (en) | System and Method for Determining Credit Worthiness of a User | |
US20030236652A1 (en) | System and method for anomaly detection | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及*** | |
CN112989621B (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
US20230328087A1 (en) | Method for training credit threshold, method for detecting ip address, computer device and storage medium | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
CN111105092A (zh) | 面向医院医保限额分配的数据交互***及方法 | |
Kolodiziev et al. | Automatic machine learning algorithms for fraud detection in digital payment systems | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN115311042A (zh) | 商品推荐方法、装置、计算机设备和存储介质 | |
CN114202417A (zh) | 异常交易检测方法、装置、设备、介质和程序产品 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
Sumalatha et al. | Mediclaim fraud detection and management using predictive analytics | |
CN114049205A (zh) | 异常交易识别方法、装置、计算机设备和存储介质 | |
Batool et al. | an ensemble architecture based on deep learning model for click fraud detection in Pay-Per-click advertisement campaign | |
Song et al. | The potential benefit of relevance vector machine to software effort estimation | |
Pratondo et al. | Prediction of payment modes for online taxi users using machine learning | |
Argyrou | Predicting financial distress using neural networks. Another episode to the serial | |
CN116664306A (zh) | 风控规则的智能推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |