CN112150153A - 电信诈骗用户识别方法和装置 - Google Patents

电信诈骗用户识别方法和装置 Download PDF

Info

Publication number
CN112150153A
CN112150153A CN202011083252.7A CN202011083252A CN112150153A CN 112150153 A CN112150153 A CN 112150153A CN 202011083252 A CN202011083252 A CN 202011083252A CN 112150153 A CN112150153 A CN 112150153A
Authority
CN
China
Prior art keywords
user
information
transaction detail
probability
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011083252.7A
Other languages
English (en)
Inventor
严欢
唐浩雲
梁奇
蒋洪伟
李科
汤浩
丁笑远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202011083252.7A priority Critical patent/CN112150153A/zh
Publication of CN112150153A publication Critical patent/CN112150153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Accounting & Taxation (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供了一种电信诈骗用户识别方法和装置,在该方法中,利用第一预测模型处理用户的交易明细时间序列,得到用户属于电信诈骗用户的第一特征信息,第一预测模型基于交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定第一特征信息;并利用第二预测模型基于用户的金融属性信息,确定用户属于电信诈骗用户的第二特征信息;基于第一特征信息和第二特征信息,确定用户属于电信诈骗用户的概率;在用户属于电信诈骗用户的概率大于设定阈值的情况下,确定用户存在电信诈骗风险。本申请的方案可以有效识别出存在电信诈骗风险的用户。

Description

电信诈骗用户识别方法和装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种电信诈骗用户识别方法和装置。
背景技术
电信诈骗是指指不法分子通过电话、网络和短信方式,编造虚假信息,对受害人实施远程、非接触式诈骗,诱使受害人给不法分子打款或转账的犯罪行为。
电信诈骗严重威胁了人们财产安全。为了减少电信诈骗行为,就需要较为有效的识别出存在电信诈骗风险的用户。因此,如何能够较为有效的识别出存在电信诈骗风险的用户是本领域迫切需要解决的技术问题。
发明内容
为解决上述技术问题,本申请实施例提供一种电信诈骗用户识别方法和装置,以较为有效的识别出存在电信诈骗风险的用户。
一方面,本申请提供了一种电信诈骗用户识别方法,包括:
获得待分析的用户的金融属性信息和交易明细时间序列,所述交易明细时间序列包括:所述用户对应的多个不同时间点的交易明细信息,所述金融属性信息为用于反映所述用户属性以及金融账户特征的信息;
将所述交易明细时间序列输入到训练出的第一预测模型,得到所述第一预测模型预测出的所述用户属于电信诈骗用户的第一特征信息,所述第一预测模型基于所述交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定所述第一特征信息;
将所述金融属性信息输入到训练出的第二预测模型,得到所述第二预测模型预测出的所述用户属于电信诈骗用户的第二特征信息;
基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率;
在所述用户属于电信诈骗用户的概率大于设定阈值的情况下,确定所述用户存在电信诈骗风险。
优选的,所述基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率,包括:
基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率。
优选的,所述第一特征信息为第一特征向量,且所述第二特征信息为第二特征向量;
所述基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率,包括:
将第一特征向量和第二特征向量求和,得到第三特征向量;
将第三特征向量输入到分类模型的全连接网络,得到用于表征所述用户属于电信诈骗用户的第四特征向量,所述分类模型包括全连接网络和归一化函数层;
将所述第四特征向量输入到分类模型的归一化函数层,得到所述归一化函数层输出的所述用户属于电信诈骗用户的概率。
优选的,所述第一预测模型、第二预测模型和分类模型为利用多个正样本用户的金融属性信息样本和交易明细时间序列样本以及多个负样本用户的金融属性信息样本和交易明细时间序列样本同步训练得到的;
其中,正样本用户为标注的电信诈骗用户,负样本用户为标注的非电信诈骗用户;
所述正样本用户和负样本用户的交易明细时间序列样本为所述第一预测模型的输入信息,所述正样本用户和负样本用户的金融属性信息样本为所述第二预测模型的输入信息,交易明细时间序列样本包括多个交易明细信息样本,所述金融属性信息样本用于反映用户属性以及金融账户特征的信息。
优选的,所述第一预测模型依次包括:至少一层双向长短期记忆网络以及与所述至少一层双向长短记忆网络相连的全连接网络层。
优选的,其特征在于,所述第一预测模型还包括:与所述至少一层双向长短期记忆网络中各双向长短期记忆网络的输出端相连的批标准化层。
优选的,在所述将所述交易明细时间序列输入到训练出的第一预测模型之前,还包括:
针对所述交易明细时间序列中每种类型的交易明细信息,如该种交易明细信息为数值型,则对所述交易明细时间序列中该种交易明细信息的数值进行标准化和平稳化处理;
如该种交易明细信息为非数值型,确定交易明细时间序列中各个时间点上该种交易明细信息的向量。
又一方面,本申请还提供了一种电信诈骗用户识别装置,包括:
信息获得单元,用于获得待分析的用户的金融属性信息和交易明细时间序列,所述交易明细时间序列包括:所述用户对应的多个不同时间点的交易明细信息,所述金融属性信息为用于反映所述用户属性以及金融账户特征的信息;
第一特征预测单元,用于将所述交易明细时间序列输入到训练出的第一预测模型,得到所述第一预测模型预测出的所述用户属于电信诈骗用户的第一特征信息,所述第一预测模型基于所述交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定所述第一特征信息;
第二特征预测单元,用于将所述金融属性信息输入到训练出的第二预测模型,得到所述第二预测模型预测出的所述用户属于电信诈骗用户的第二特征信息;
概率确定单元,用于基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率;
风险用户识别单元,用于在所述用户属于电信诈骗用户的概率大于设定阈值的情况下,确定所述用户存在电信诈骗风险。
优选的,所述概率确定单元具体为,用于基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率。
优选的,所述第一预测单元得到的第一特征信息为第一特征向量,且所述第二预测单元得到的第二特征信息为第二特征向量;
所述概率确定单元,包括:
向量求和子单元,用于将第一特征向量和第二特征向量求和,得到第三特征向量;
向量预测子单元,用于将第三特征向量输入到分类模型的全连接网络,得到用于表征所述用户属于电信诈骗用户的第四特征向量,分类模型包括全连接网络和归一化函数层;
概率确定子单元,用于将所述第四特征向量输入到分类模型的归一化函数层,得到所述归一化函数层输出的所述用户属于电信诈骗用户的概率。
由以上内容可知,本申请从用户的金融属性信息和金融相关的交易明细时间序列这两个维度上分析了用户存在电信诈骗风险的特征信息,有利于更为全面分析用户存在电信诈骗风险的可能性。
同时,结合这两个维度信息的不同特点,利用能够结合上下文特征的第一预测模型来分析该交易明细时间序列,使得预测出的第一特征信息更准确反映出该用户具有电信诈骗风险的情况;并利用第二预测模型分析该金融属性信息所反映出的电信诈骗风险的第二特征信息,在此基础上,依据从两个维度预测出的特征信息识别电信诈骗用户,实现了较为有效的识别电信诈骗用户,并提高了识别的可靠性和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的一种电信诈骗用户识别方法一个实施例的流程示意图;
图2为本申请提供的一种网络模型的组成架构示意图;
图3为本申请一种电信诈骗用户识别装置一个实施例的组成结构示意图。
具体实施方式
本申请的方案可以适用于对银行或者其他金融结构内的用户进行分析,以及时发现存在电信诈骗风险的用户。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,其示出了本申请一种电信诈骗用户识别方法又一个实施例的流程示意图,本实施例的方法可以包括:
S101,获得待分析的用户的金融属性信息和交易明细时间序列。
其中,该交易明细时间序列包括:该用户对应的多个不同时间点的交易明细信息。可以理解的是,时间序列是按照时间先后顺序对各个数据的排序,因此,该交易明细时间序列中多个交易明细信息同样是按照对应的时间点的先后顺序排列。如,可以获取最近半年内不同时间点交易的交易明细信息组成的交易明细时间序列
该交易明细信息是指用户涉及金融交易行为所产生的信息,每个时间点上的交易明细信息是指该时间点产生的一次交易行为的明细信息。
其中,用户在每个时间点的交易明细信息可以包括一种或者多种交易行为相关的一种或者多种明细信息,可选的,每个时间点可以对应多种类型的交易明细信息。
如,每个时间点对应的交易明细信息可以包括:交易金额、账户余额、交易渠道、交易地点、交易对手账号、交易类型以及交易后对手余额这七种。其中,金融机构的交易可以包括转账和接收转账等交易。
其中,交易渠道可以分为电子银行和自动取款机ATM等渠道。
交易地点记录本次交易发生的地点,如果交易渠道是电子银行,则记录交易设备的IP地址与媒体存取控制位址(Media Access Control Address,MAC);如果交易渠道是ATM,则记录该ATM的设备号。
其中,交易明细中的交易对手账号为该用户的交易行为所对应的另一方用户,如,转账交易行为中,交易对手账号可以为接受转账的用户的银行账号等金融账号。可以理解的是,交易对手账号可以关联有该交易对手账号相关的交易对象的年龄、学历以及账户余额等,这些信息与当前待分析的用户是否具有欺诈行为均较高的相关性。例如,当交易对手的年龄越高、学历越低、账户余额越高时,交易对手被欺诈的概率越高,相应的,当前对象具有欺诈行为的概率也越高。
交易类型可以包括网联与银联。网联主要包括网联协议、网联网关、网联商业委托、网联付款;银联主要包括银联分期支付、银联协议支付、银联商业委托。
作为一种可选方式,本申请可以对用户的转账交易行为进行分析。相应的,此处交易金额、交易渠道等等都属于转账交易的相关信息。
其中,用户的金融属性信息为用于反映该用户属性以及金融账户特征的信息。如,用户的金融属性信息可以包括银行等金融机构记录的该用户属性信息,以及金融机构存储的该用户相关的金融账户的特征信息。
如,金融机构记录的用户属性信息可以包括用户的年龄信息、学历信息以及信用信息等,还可以包括历史***信息、银行卡总持有数量以及换卡频率信息等与金融行为相关的用户属性信息。
金融账户特征可以包括该用户的银行账户等金融账户的历史冻结信息,历史扣划信息,交易频率信息,现金支取频率信息以及账户余额信息等。这些信息可以分析该用户的账户信息提取得到。
可以理解的是,当用户持有的卡总数越高,换卡频率越高,银行账户冻结、扣划历史纪录以及银行账户的现金支取频率越高,其具有的欺诈概率也越高。同时,诈骗分子的年龄与学历也呈现出一定的聚类关系,在新型网络诈骗的背景下,诈骗分子的年龄呈现年轻化,并且与学历有较大关系,因此,以上用户的金融属性信息可以反映出用户存在电信诈骗风险的特征。
S102,将该交易明细时间序列输入到训练出的第一预测模型,得到该第一预测模型预测出的该用户属于电信诈骗用户的第一特征信息。
其中,该第一预测模型基于该交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定该第一特征信息。如,第一预测模型可以包括至少一层双向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)网络(也称为双向长短时记忆网络)以及与该至少一层Bi-LSTM网络相连的全连接网络层。
可以理解的是,Bi-LSTM网络可以分析时间序列中各个时间点的数据之间的上下文关系,从而能够更为准确提取出时间序列中的特征信息,因此,基于Bi-LSTM网络能够更为准确的确定出用于表征用户属于电信诈骗用户的特征信息。其中,为了便于区分,将第一预测模型预测出的特征信息称为第一特征信息。
可以理解的是,交易明细时间序列中每个时间点上都可以有至少一种类型的交易明细信息,一般为多种类型的交易明细信息,如,前面提到每个时间点上可以有7种类型的交易明细信息。交易明细信息可以分为数值型和非数值型。如,交易明细信息为用户账户金额时,由于用户账户金额为数值,所以用户交易明细信息为数值型。而交易明细信息为交易对手账号时,由于该交易对手账号实际上包括了交易对象账号关联的交易对象性别以及学历等等,这些都不属于数值型,因此,该交易明细信息为非数值型。
为了能够提高第一预测模型的预测精准度,针对交易明细时间序列中任意一种类型的交易明细信息,如该种交易明细信息为数值型,可以对该交易明细时间序列中该种交易明细信息的数值进行标准化和平稳化处理。如果种交易明细信息为非数值型,确定交易明细时间序列中各个时间点上该种交易明细信息的向量。
其中,对于交易明细时间序列中某种属于数值型的交易明细信息,进行平稳化和标准化的方式可以有多种,本申请不加限制。
如,可以采用一阶差分方对交易时间序列中该种时间明细信息组成的时间序列进行平稳化处理。具体的,针对该种交易明细信息,提取出该交易明细时间序列中各个时间点上的该种交易明细信息,得到仅仅包含不同时间点上该种交易明细信息的时间序列。针对该中交易明细信息的时间序列,通过一阶差分可以计算出该时间序列中任意两个相邻的交易明细信息的差值,并利用得到的差值构成了一阶差分之后的序列。
其中,针对任意一种数值型的交易明细信息,对该交易明细信息的时间序列进行标准化是指将该时间序列中各个交易明细信息的数值按比例缩放到一定的范围,以消除量纲对结果的影响。
举例说明:
假设平稳化之前的时间序列为X(t)=[10,20,35,20,15],一阶差分之后的序列为X1(t)=[10,15,-15,-5]。
对于一阶差分后所得到的序列X1(t)=[10,15,-15,-5],如果序列中某个数值小于零,该数值的标准化为:该数值与一阶差分序列中最小的数值的比值与负一的乘积。如果数值不小于零,该数值的标准化为:该数值与一阶差分序列中最大的数值的比值。在此基础上,对该一阶差分后的序列进行标准化得到X2(t)=[0.67,1,-1,-0.33]。
S103,将该金融属性信息输入到训练出的第二预测模型,得到该第二预测模型预测出的该用户属于电信诈骗用户的第二特征信息。
其中,该第二预测模型可以为任意神经网络模型。
可选的,该第二预测模型可以为全连接网络。考虑到金融属性信息是独立的,没有前后关联的同种属性信息,因此,可以利用全连接网络较为高效的提取出该用户属于电信诈骗用户的特征信息。
为了便于区分,将第二预测模型提取出的特征信息称为第二特征信息。
需要说明的是,在实际应用中,该步骤S102和S103的顺序并不限于图1所示,在实际应用中这两个步骤的先后顺序可以互换,也可以同时执行。
S104,基于该第一特征信息和第二特征信息,确定该用户属于电信诈骗用户的概率。
其中,结合第一特征信息和第二特征信息确定用户对应概率的方式可以有多种可能的情况。
如,在第一特征信息和第二特征信息均为向量的情况下,即第一特征信息通过第一特征向量表示,而第二特征信息通过第二特征向量表示,那么可以针对这两个向量求取平均值,再利用归一化函数进行归一化,得到该用户属于电信诈骗用户的概率。
在又一种可能的情况下,可以基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出该用户属于电信诈骗用户的概率。
如,该分类模型可以有多种可能。
可选的,在分类模型为全连接网络和归一化函数层。在该种情况下,如第一特征信息为第一特征向量,且第二特征信息为第二特征向量,可以将第一特征向量和第二特征向量求和,得到第三特征向量,并将第三特征向量输入到分类模型的全连接网络,得到用于表征该用户属于电信诈骗用户的第四特征向量。然后,将该第四特征向量输入到分类模型的归一化函数层,得到该归一化函数层输出的该用户属于电信诈骗用户的概率。
可以理解的是,在实际应用中,归一化函数层可以输出该用户属于电信诈骗用户的概率以及用户不属于电信诈骗用户的概率,这两个概率的和为1,在本申请中仅仅需要基于用户属于电信诈骗用户的概率进行分析即可。
可以理解的是,结合两个维度上的用户相关信息从两个方向上预测出的特征信息,能够更为全面反映出用户具备电信诈骗风险的特征,因此,综合这两个维度的特征信息可以更为准确得到用户属于电信诈骗用户的概率。
S105,在该用户属于电信诈骗用户的概率大于设定阈值的情况下,确定该用户存在电信诈骗风险。
其中,该设定阈值可以根据需要设定,如设定阈值可以为0.8。
本申请从用户的金融属性信息和金融相关的交易明细时间序列这两个维度上分析了用户存在电信诈骗风险的特征信息,有利于更为全面分析用户存在电信诈骗风险的可能性。
同时,结合这两个维度信息的不同特点,利用能够结合上下文特征的第一预测模型来分析该交易明细时间序列,使得预测出的第一特征信息更准确反映出该用户具有电信诈骗风险的情况;并利用第二预测模型分析该金融属性信息所反映出的电信诈骗风险的第二特征信息,在此基础上,依据从两个维度预测出的特征信息识别电信诈骗用户,可以提高识别电信诈骗用户的可靠性和准确性。
可以理解的是,在本申请利用分类模型处理第一特征信息和第二特征信息的情况下,为了提高最终预测出的概率的准确性,本申请还可以对第一预测模型、第二预测模型和分类模型进行同步训练。
具体的,第一预测模型、第二预测模型和分类模型为利用多个正样本用户的金融属性信息样本和交易明细时间序列样本以及多个负样本用户的金融属性信息样本和交易明细时间序列样本同步训练得到的。
其中,正样本用户为标注的电信诈骗用户,负样本用户为标注的非电信诈骗用户。
该正样本用户和负样本用户的交易明细时间序列样本为所述第一预测模型的输入信息,所述正样本用户和负样本用户的金融属性信息样本为所述第二预测模型的输入信息。交易明细时间序列样本包括多个交易明细信息样本,所述金融属性信息样本用于反映用户属性以及金融账户特征的信息。
其中,交易明细信息样本与前面用户的交易明细信息的含义以及所包含的信息相同,而金融属性信息样本也可以参见前面金融属性信息的相关介绍,在此不再赘述。
可以理解的是,在该正样本用户和负样本用户的交易明细时间序列样本为所述第一预测模型的输入信息,所述正样本用户和负样本用户的金融属性信息样本为所述第二预测模型的输入信息的情况下,训练该第一预测模型、第二预测模型和分类模型的方式可以有多种可能,本申请对此不加限制。
如,针对任意一个样本用户(正样本用户或者负样本用户),可以将该样本用户的交易明细时间序列样本输入到第一预测模型,得到第一预测模型输出的第一预测特征信息;同时,将该样本用户的金融属性信息样本输入到第二预测模型,得到第二预测模型输出的第二预测特征信息。将第一预测特征信息和第二特征信息相加并输入到分类模型,得到分类模型预测出的该用户属于电信诈骗用户风险的概率。如果该概率大于设定阈值,则认为预测出该用户属于电信诈骗用户。
结合各个样本用户实际标注的信息以及预测出的结果,可以判断第一预测模型、第二预测模型和分类模型构成的整体模型是否收敛。如未收敛,则可以调整这三个模型的内部参数,并重新训练,直至收敛。
其中,在判断这三个模型是否收敛的时候,还可以利用损失函数计算损失函数值。如,损失函数可以为交叉熵损失函数,交叉熵损失函数值L可以表示为如下公式一:
Figure BDA0002719442610000111
其中,y为样本用户真实的结果向量,
Figure BDA0002719442610000112
为分类模型预测出的结果向量。如,用户属于电信诈骗用户,则真实的结果向量可以为(1,0),假设预测出用户属于电信诈骗用户的概率为0.8,而不属于电信诈骗用户的概率为0.2,则预测出的结果向量可以为(0.8,0.2)。
可以理解的是,为了避免模型产生过拟合,本申请除了获得验证集和测试集,验证集和测试集中同样包括正样本用户和负样本用户的交易明细时间序列样本和金融属性信息,并利用验证集来不断的调整这三个网络模型中的参数,例如采用正则化方法等。最后,用测试集来验证这三个模型构成的整体模型的分类精度。
为了便于理解本申请的方案,下面以本申请中第一预测模型、第二预测模型以及分类模型的一种组成结构为例进行说明。
如图2,其示出了本申请一种模型结构的示意图。
在图2中该模型包括第一预测模型201、第二预测模型202和分类模型203。其中,该第一预测模型包括:两层双向Bi-LSTM网络以及一个全连接网络层。为了便于区分,将第一预测模型中的全连接网络层称为第一全连接网络层。
为了提高加快了模型的收敛速度,同时提升了模型的泛化能力,有效避免网络模型在训练集上过拟合,图2的网络模型架构中第一预测模型还包括:与至少一层Bi-LSTM网络中各Bi-LSTM的输出端相连的批标准化BatchNormalization层。
如图2可见,每个Bi-LSTM网络的输出端都连接有一个BatchNormalization层,最后一个BatchNormalization层的输出结果会被输入到第一预测模型中的第一全连接网络层。
而第二预测模型为一个全连接网络层,为了便于区分,在图2中标示为第二全连接网络层。
其中,分类模型包括第三全连接网络层和归一化函数层。
在图2的基础上,将用户的交易明细时间序列(如交易明细信息已经过标准化和平稳化处理或者向量转换后的交易明细时间序列)输入到第一预测模型,如图2中交易明细时间序列包括时刻1(图中t1)到时刻N(tN)多个时间点上的交易明细信息,N为时间序列中时间点的总数量。该第一预测模型的第一个Bi-LSTM会对该交易明细时间序列进行转换,并将转换后的向量输入到BatchNormalization,类似的,后续依次经过另一个Bi-LSTM和BatchNormalization处理之后,可以得到交易明细时间序列中不同交易明细信息对应的风险向量,该风险向量为该交易明细向量与其他交易明细信息之间上下文关系向量,该上下文关系向量能够反映该用户存在电信诈骗风险的特征。该风险向量被输入到第一全连接网络,得到提取出的第一特征信息。
相应的,将用户的金融属性信息输入到第二全连接网络,当然,可以在输入该第二全连接网络之前,将用户的金融属性信息转换为向量,如,采用词编码方式将各个维度的金融属性信息分别转换为向量,并构建出包含各个向量的矩阵。第二全连接网络基于金融属性信息可以提取出第二特征信息。
由图2可以看出,第一全连接网络输出的第一特征信息和第二全连接网络输出的第二特征信息相加后输入到分类模型的第三全连接网络,第三全连接网络输出的向量再经过归一化。其中,该归一化层可以包括两个归一化神经元,从而可以得到该用户属于电信诈骗用户的概率(如,图2中的诈骗概率),以及用户不属于电信诈骗用户的概率(如图2中非诈骗概率)。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
对应本申请的一种电信诈骗用户识别方法,本申请还提供了一种电信诈骗用户识别装置,如图3所示,其示出了本申请一种电信诈骗用户识别方法一个实施例的组成结构示意图。
如图3可知,该装置可以包括:
信息获得单元301,用于获得待分析的用户的金融属性信息和交易明细时间序列,所述交易明细时间序列包括:所述用户对应的多个不同时间点的交易明细信息,所述金融属性信息为用于反映所述用户属性以及金融账户特征的信息;
第一特征预测单元302,用于将所述交易明细时间序列输入到训练出的第一预测模型,得到所述第一预测模型预测出的所述用户属于电信诈骗用户的第一特征信息,所述第一预测模型基于所述交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定所述第一特征信息;
第二特征预测单元303,用于将所述金融属性信息输入到训练出的第二预测模型,得到所述第二预测模型预测出的所述用户属于电信诈骗用户的第二特征信息;
概率确定单元304,用于基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率;
风险用户识别单元305,用于在所述用户属于电信诈骗用户的概率大于设定阈值的情况下,确定所述用户存在电信诈骗风险。
在一种可能的实现方式中,该装置中的概率确定单元具体为,用于基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率。
作为一种可选方式,该第一预测单元得到的第一特征信息为第一特征向量,且所述第二预测单元得到的第二特征信息为第二特征向量;
相应的,该概率确定单元,包括:
向量求和子单元,用于将第一特征向量和第二特征向量求和,得到第三特征向量;
向量预测子单元,用于将第三特征向量输入到分类模型的全连接网络,得到用于表征所述用户属于电信诈骗用户的第四特征向量,分类模型包括全连接网络和归一化函数层;
概率确定子单元,用于将所述第四特征向量输入到分类模型的归一化函数层,得到所述归一化函数层输出的所述用户属于电信诈骗用户的概率。
在一种可能的实现方式中,该第一预测模型、第二预测模型和分类模型为利用多个正样本用户的金融属性信息样本和交易明细时间序列样本以及多个负样本用户的金融属性信息样本和交易明细时间序列样本同步训练得到的;
其中,正样本用户为标注的电信诈骗用户,负样本用户为标注的非电信诈骗用户;
所述正样本用户和负样本用户的交易明细时间序列样本为所述第一预测模型的输入信息,所述正样本用户和负样本用户的金融属性信息样本为所述第二预测模型的输入信息,交易明细时间序列样本包括多个交易明细信息样本,所述金融属性信息样本用于反映用户属性以及金融账户特征的信息。
在一种可能的实现方式中,第一预测单元中的所述第一预测模型依次包括:至少一层双向长短期记忆网络以及与所述至少一层双向长短记忆网络相连的全连接网络层。
可选的,所述第一预测模型还包括:与所述至少一层双向长短期记忆网络中各双向长短期记忆网络的输出端相连的批标准化层。
在又一种可能的实现方式中,还包括:
第一数据处理单元,用于在第一特征预测单元将所述交易明细时间序列输入到训练出的第一预测模型之前,针对所述交易明细时间序列中每种类型的交易明细信息,如该种交易明细信息为数值型,则对所述交易明细时间序列中该种交易明细信息的数值进行标准化和平稳化处理;
第二数据处理单元,用于如该种交易明细信息为非数值型,确定交易明细时间序列中各个时间点上该种交易明细信息的向量。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种电信诈骗用户识别方法,其特征在于,包括:
获得待分析的用户的金融属性信息和交易明细时间序列,所述交易明细时间序列包括:所述用户对应的多个不同时间点的交易明细信息,所述金融属性信息为用于反映所述用户属性以及金融账户特征的信息;
将所述交易明细时间序列输入到训练出的第一预测模型,得到所述第一预测模型预测出的所述用户属于电信诈骗用户的第一特征信息,所述第一预测模型基于所述交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定所述第一特征信息;
将所述金融属性信息输入到训练出的第二预测模型,得到所述第二预测模型预测出的所述用户属于电信诈骗用户的第二特征信息;
基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率;
在所述用户属于电信诈骗用户的概率大于设定阈值的情况下,确定所述用户存在电信诈骗风险。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率,包括:
基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率。
3.根据权利要求2所述的方法,其特征在于,所述第一特征信息为第一特征向量,且所述第二特征信息为第二特征向量;
所述基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率,包括:
将第一特征向量和第二特征向量求和,得到第三特征向量;
将第三特征向量输入到分类模型的全连接网络,得到用于表征所述用户属于电信诈骗用户的第四特征向量,所述分类模型包括全连接网络和归一化函数层;
将所述第四特征向量输入到分类模型的归一化函数层,得到所述归一化函数层输出的所述用户属于电信诈骗用户的概率。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述第一预测模型、第二预测模型和分类模型为利用多个正样本用户的金融属性信息样本和交易明细时间序列样本以及多个负样本用户的金融属性信息样本和交易明细时间序列样本同步训练得到的;
其中,正样本用户为标注的电信诈骗用户,负样本用户为标注的非电信诈骗用户;
所述正样本用户和负样本用户的交易明细时间序列样本为所述第一预测模型的输入信息,所述正样本用户和负样本用户的金融属性信息样本为所述第二预测模型的输入信息,交易明细时间序列样本包括多个交易明细信息样本,所述金融属性信息样本用于反映用户属性以及金融账户特征的信息。
5.根据权利要求1所述的方法,其特征在于,所述第一预测模型依次包括:至少一层双向长短期记忆网络以及与所述至少一层双向长短记忆网络相连的全连接网络层。
6.根据权利要求5所述的方法,其特征在于,所述第一预测模型还包括:与所述至少一层双向长短期记忆网络中各双向长短期记忆网络的输出端相连的批标准化层。
7.根据权利要求1所述的方法,其特征在于,在所述将所述交易明细时间序列输入到训练出的第一预测模型之前,还包括:
针对所述交易明细时间序列中每种类型的交易明细信息,如该种交易明细信息为数值型,则对所述交易明细时间序列中该种交易明细信息的数值进行标准化和平稳化处理;
如该种交易明细信息为非数值型,确定交易明细时间序列中各个时间点上该种交易明细信息的向量。
8.一种电信诈骗用户识别装置,其特征在于,包括:
信息获得单元,用于获得待分析的用户的金融属性信息和交易明细时间序列,所述交易明细时间序列包括:所述用户对应的多个不同时间点的交易明细信息,所述金融属性信息为用于反映所述用户属性以及金融账户特征的信息;
第一特征预测单元,用于将所述交易明细时间序列输入到训练出的第一预测模型,得到所述第一预测模型预测出的所述用户属于电信诈骗用户的第一特征信息,所述第一预测模型基于所述交易明细时间序列中各个交易明细信息的特征以及各个交易明细信息之间的上下文特征确定所述第一特征信息;
第二特征预测单元,用于将所述金融属性信息输入到训练出的第二预测模型,得到所述第二预测模型预测出的所述用户属于电信诈骗用户的第二特征信息;
概率确定单元,用于基于所述第一特征信息和第二特征信息,确定所述用户属于电信诈骗用户的概率;
风险用户识别单元,用于在所述用户属于电信诈骗用户的概率大于设定阈值的情况下,确定所述用户存在电信诈骗风险。
9.根据权利要求8所述的装置,其特征在于,所述概率确定单元具体为,用于基于第一特征信息和第二特征信息,并利用训练出的分类模型,确定出所述用户属于电信诈骗用户的概率。
10.根据权利要求9所述的装置,其特征在于,所述第一预测单元得到的第一特征信息为第一特征向量,且所述第二预测单元得到的第二特征信息为第二特征向量;
所述概率确定单元,包括:
向量求和子单元,用于将第一特征向量和第二特征向量求和,得到第三特征向量;
向量预测子单元,用于将第三特征向量输入到分类模型的全连接网络,得到用于表征所述用户属于电信诈骗用户的第四特征向量,分类模型包括全连接网络和归一化函数层;
概率确定子单元,用于将所述第四特征向量输入到分类模型的归一化函数层,得到所述归一化函数层输出的所述用户属于电信诈骗用户的概率。
CN202011083252.7A 2020-10-12 2020-10-12 电信诈骗用户识别方法和装置 Pending CN112150153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011083252.7A CN112150153A (zh) 2020-10-12 2020-10-12 电信诈骗用户识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011083252.7A CN112150153A (zh) 2020-10-12 2020-10-12 电信诈骗用户识别方法和装置

Publications (1)

Publication Number Publication Date
CN112150153A true CN112150153A (zh) 2020-12-29

Family

ID=73951441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011083252.7A Pending CN112150153A (zh) 2020-10-12 2020-10-12 电信诈骗用户识别方法和装置

Country Status (1)

Country Link
CN (1) CN112150153A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011884A (zh) * 2021-01-29 2021-06-22 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN114066490A (zh) * 2022-01-17 2022-02-18 浙江鹏信信息科技股份有限公司 一种GoIP诈骗窝点的识别方法、***及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130104231A (ko) * 2012-03-13 2013-09-25 주식회사 한국프라임테크놀로지 금융사기 의심거래 모니터링 시스템 및 방법
CN109410036A (zh) * 2018-10-09 2019-03-01 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN110458576A (zh) * 2019-07-31 2019-11-15 同济大学 一种融合事前预测和事中检测的网络交易反欺诈方法
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN111222026A (zh) * 2020-01-09 2020-06-02 支付宝(杭州)信息技术有限公司 用户类别识别模型的训练方法和用户类别识别方法
CN111401906A (zh) * 2020-03-05 2020-07-10 中国工商银行股份有限公司 转账风险检测方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130104231A (ko) * 2012-03-13 2013-09-25 주식회사 한국프라임테크놀로지 금융사기 의심거래 모니터링 시스템 및 방법
CN109410036A (zh) * 2018-10-09 2019-03-01 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN110458576A (zh) * 2019-07-31 2019-11-15 同济大学 一种融合事前预测和事中检测的网络交易反欺诈方法
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN111222026A (zh) * 2020-01-09 2020-06-02 支付宝(杭州)信息技术有限公司 用户类别识别模型的训练方法和用户类别识别方法
CN111401906A (zh) * 2020-03-05 2020-07-10 中国工商银行股份有限公司 转账风险检测方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011884A (zh) * 2021-01-29 2021-06-22 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN113011884B (zh) * 2021-01-29 2023-08-04 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN114066490A (zh) * 2022-01-17 2022-02-18 浙江鹏信信息科技股份有限公司 一种GoIP诈骗窝点的识别方法、***及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CA3065807C (en) System and method for issuing a loan to a consumer determined to be creditworthy
US20220020026A1 (en) Anti-money laundering methods and systems for predicting suspicious transactions using artifical intelligence
US9185095B1 (en) Behavioral profiling method and system to authenticate a user
Shen et al. Application of classification models on credit card fraud detection
Kim et al. Classification cost: An empirical comparison among traditional classifier, Cost-Sensitive Classifier, and MetaCost
US20110166979A1 (en) Connecting decisions through customer transaction profiles
US20140279527A1 (en) Enterprise Cascade Models
CN112150153A (zh) 电信诈骗用户识别方法和装置
Ruiz et al. Credit scoring in microfinance using non-traditional data
Yeşilkanat et al. An adaptive approach on credit card fraud detection using transaction aggregation and word embeddings
Ashofteh et al. A non-parametric-based computationally efficient approach for credit scoring
EP4060563A1 (en) Automatic profile extraction in data streams using recurrent neural networks
Diwate et al. Loan approval prediction using machine learning
CN117391709B (zh) 一种互联网支付管理方法
Abdulghani et al. Credit card fraud detection using XGBoost algorithm
Devika et al. Credit card fraud detection using logistic regression
CN113269629A (zh) 授信额度确定方法、电子设备及相关产品
Hemachandran et al. Performance analysis of k-nearest neighbor classification algorithms for bank loan sectors
US11694208B2 (en) Self learning machine learning transaction scores adjustment via normalization thereof accounting for underlying transaction score bases relating to an occurrence of fraud in a transaction
US20230088840A1 (en) Dynamic assessment of cryptocurrency transactions and technology adaptation metrics
CN110458684A (zh) 一种基于双向长短期记忆神经网络的金融反欺诈检测方法
Makolo et al. Credit card fraud detection system using machine learning
Kang Fraud Detection in Mobile Money Transactions Using Machine Learning
US11900385B1 (en) Computerized-method and system for predicting a probability of fraudulent financial-account access
Smiles et al. Data mining based hybrid latent representation induced ensemble model towards fraud prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination