CN110705585A - 网络欺诈识别方法、装置、计算机装置及存储介质 - Google Patents
网络欺诈识别方法、装置、计算机装置及存储介质 Download PDFInfo
- Publication number
- CN110705585A CN110705585A CN201910776749.8A CN201910776749A CN110705585A CN 110705585 A CN110705585 A CN 110705585A CN 201910776749 A CN201910776749 A CN 201910776749A CN 110705585 A CN110705585 A CN 110705585A
- Authority
- CN
- China
- Prior art keywords
- users
- user
- network
- matrix
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 174
- 239000011159 matrix material Substances 0.000 claims abstract description 172
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 34
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种网络欺诈识别方法、装置、计算机装置及存储介质。所述方法包括:获取多个用户的网络注册信息,根据所述网络注册信息构建所述多个用户的网络图;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述多个用户中的训练集用户的特征向量训练网络欺诈识别模型;将所述多个用户中的待识别用户的特征向量输入所述网络欺诈识别模型进行识别。本发明根据用户的网络注册信息识别网络上的欺诈用户。
Description
技术领域
本发明涉及机器识别技术领域,具体涉及一种网络欺诈识别方法、装置、计算机装置及计算机存储介质。
背景技术
随着互联网的快速发展以及智能终端的普及,在线社交网络已经成为流行的社交服务。由于社交网络的开放性,欺诈者可以很容易地在社交网络中注册,并通过向社交网络中注入虚假内容进行网络欺诈。调查显示,包括网络欺诈在内的网络犯罪每年给全球带来高达4450亿美元的经济损失,日益复杂并向不同行业渗透。在国内,网络诈骗的黑色产业链规模超过1100亿元,从业人员超过160万人。
目前有许多基于内容的欺诈检测技术。基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。但是,基于内容的方法不能充分利用社交网络的图结构特征,不能够有效识别用户的欺诈行为的全局特性。
发明内容
鉴于以上内容,有必要提出一种网络欺诈识别方法、装置、计算机装置及计算机存储介质,其可以根据用户的网络注册信息识别网络上的欺诈用户。
本申请的第一方面提供一种网络欺诈识别方法,所述方法包括:
获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
根据所述网络图构建所述多个用户的邻接矩阵;
对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
另一种可能的实现方式中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边;
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
另一种可能的实现方式中,所述邻接矩阵中的各个元素的值根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。
另一种可能的实现方式中,所述网络注册信息包括IP地址和MAC地址。
另一种可能的实现方式中,所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
另一种可能的实现方式中,所述K按照如下方式确定:
从所述邻接矩阵的对角矩阵中获取所述特征矩阵的特征值,所述对角矩阵在对所述邻接矩阵进行谱分解时得到;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值,则取X为K。
另一种可能的实现方式中,所述卷积神经网络是LeNet卷积神经网络。
本申请的第二方面提供一种网络欺诈识别装置,所述装置包括:
获取模块,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述网络欺诈识别方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述网络欺诈识别方法。
本发明获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。本发明实现了根据用户的网络注册信息识别网络上的欺诈用户。
附图说明
图1是本发明实施例提供的网络欺诈识别方法的流程图。
图2是本发明实施例提供的网络欺诈识别装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的网络欺诈识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的网络欺诈识别方法的流程图。所述网络欺诈识别方法应用于计算机装置。
本发明网络欺诈识别方法可以根据用户的网络注册信息识别网络(例如社交平台)上的欺诈用户。
如图1所示,所述网络欺诈识别方法包括:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media Access ControlAddress,媒体访问控制地址)地址。
本步骤获取多个用户的网络注册信息,根据多个用户的网络注册信息构建所述多个用户的网络图。例如,本方法应用于社交平台(如***站),用于对社交平台上的欺诈用户进行识别,则本步骤获取所述社交平台上多个用户的网络注册信息,根据所述社交平台上多个用户的网络注册信息构建所述多个用户的网络图。
在一具体实施例中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边。
构建的网络图中,每个节点对应一个用户,每条边对应有相同的网络注册信息的两个用户。
所述多个用户中的任意两个用户可以有相同的一个或多个网络注册信息。
例如,所述网络图中有三个节点1、2、3,分别表示用户A、用户B、用户C,用户A与用户B有相同的IP地址,用户B与用户C有相同的IP地址和MAC地址,则连接节点1和节点2、节点2和节点3、节点1和节点3。
可以用预定格式标记所述网络图中各个节点的连接信息。例如,用户A(对应于节点1)与用户B(对应于节点2)有相同的IP地址,则节点1与节点2的连接信息可以标记为“1――connected by IP――2”;用户B与用户C(对应于节点3)有相同的IP地址和MAC地址,则节点2与节点3的连接信息可以标记为“2――connected by IP and MAC――3”。
所述根据多个用户的网络注册信息构建所述多个用户的网络图还包括:
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
具体地,根据所述多个用户的网络注册信息确定所述网络图中各条边的权值就是根据所述网络图中每条边对应的两个用户的相同的网络注册信息确定该条边的权值。
所述网络图中每条边的权值可以等于该条边对应的两个用户相同的网络注册信息的数量。例如,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为2。
或者,可以设置每个相同的网络注册信息对应的数值,根据每个相同的网络注册信息对应的数值和每条边对应的两个用户的相同的网络注册信息确定所述网络图中各条边的权值。例如,相同IP地址对应的数值为1,相同的MAC地址对应的数值为2,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为3(即1+2)。
所述训练集用户带有类别标签,所述类别标签用于标注所述训练集用户是否为欺诈用户。例如,若类别标签为1,则表示所述训练集用户是欺诈用户;若类别标签为0,则表示所述训练集用户不是欺诈用户。
可选的,所述网络注册信息还可以包括电话号码、通讯地址等。
102,根据所述网络图构建所述多个用户的邻接矩阵。
邻接矩阵用于表示所述网络图中各个节点之间的连接关系。例如,邻接矩阵中的元素p1,2表示所述网络图中节点1与节点2之间的连接关系。邻接矩阵的每一行(即每个行向量)对应网络图中的一个节点(对应于一个用户),表示该节点与其他节点(对应于其他用户)的连接关系。
所述邻接矩阵是N×N的方阵(即所述邻接矩阵的维数为N),N为所述网络图的节点数,即所述多个用户的用户个数。例如,101中获取100个用户的网络注册信息,则102中构建100×100的邻接矩阵。
邻接矩阵的各个元素的值可以根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。例如,所述邻接矩阵为PN×N,所述邻接矩阵的元素为pi,j,1≤i,j≤N。对于所述邻接矩阵中的非对角线元素(即i≠j,对应于所述网络图中两个不同的节点),若所述非对角线元素对应的节点i与节点j在所述网络图中相连接,则pi,j等于所述网络图中节点i与节点j相连的边的权值;若所述非对角线元素对应的节点i与节点j在所述网络图中不连接,则pi,j等于0。对于所述邻接矩阵中的对角线元素(即i=j,对应于所述网络图中同一节点),pi,j等于0。
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵。
谱分解也叫特征分解,对邻接矩阵进行谱分解是将邻接矩阵分解为由邻接矩阵的的特征值和特征向量表示的矩阵之积。
所述特征矩阵中的每一行(即每个行向量)对应一个用户(即一个节点)。
对所述邻接矩阵进行谱分解得到的特征矩阵为方阵,所述特征矩阵的维数与所述邻接矩阵的维数相同。例如,所述邻接矩阵的维数为N(即N*N的方阵),则所述特征矩阵的维数也为N。
所述邻接矩阵中的向量可以由所述特征矩阵中的向量近似描述。
假设邻接矩阵为P,将邻接矩阵P谱分解为P=Q∧Q-1,其中Q是所述特征矩阵,∧是对角矩阵。所述对角矩阵的对角线元素为所述邻接矩阵P的特征值,所述特征矩阵Q的列向量是与所述特征值相对应的特征向量。
对邻接矩阵进行谱分解的具体方法可以参考现有技术,此处不再赘述。
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量。
生成的特征向量包括所述训练集用户的特征向量和所述待识别用户的特征向量。
给定用户的预设邻居用户根据所述网络图确定。可选地,所述预设邻居用户可以是一步邻居用户。或者,所述预设邻居用户可以是二步邻居用户。所述一步邻居用户是在所述网络图中,与给定用户直接连接的用户(即与给定用户相距一跳);所述二步邻居用户是在所述网络图中,与给定用户通过另一用户间接相连的用户(即与给定用户相距两跳)。例如,用户A与用户B直接相连,用户B与用户C直接相连,用户A与用户C未直接相连,则用户B是用户A的一步邻居用户,用户C是用户A的二步邻居用户。
所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K可以按照如下方式确定:
从所述对角矩阵中获取所述特征矩阵的特征值;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值(例如2),则取X为K。
举例来说,若降序排序后的第5个特征值减去第6个特征值的差值为3,超过预设值2,则K取值为6。对于用户C,其一步邻居用户包括用户B、用户D,则:在所述特征矩阵中,取用户C对应的行向量的前6个元素,得到用户C的第一特征子向量;在所述特征矩阵中,取用户B对应的行向量的前6个元素,得到用户B的特征子向量;在所述特征矩阵中,取与用户D对应的行向量的前6个元素,得到用户D的特征子向量;计算用户B的特征子向量与用户D的特征子向量的平均值,得到用户C的第二特征子向量。将用户C的第一特征子向量与第二特征子向量进行组合,得到用户C的特征向量,即12维的特征子向量。
在其他的实施例中,所述K可以按照其他方式取值,例如,若所述邻接矩阵的维数N为偶数,K可以取为N/2;若所述邻接矩阵的维数N为偶数,K可以取为(N-1)/2或(N+1)/2。
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入。
所述网络欺诈模型根据用户的特征向量提取用户的深层网络连接信息,根据该深层网络连接信息识别用户是否为欺诈用户。
所述网络欺诈模型通过深度自编码器的编码器对用户的特征向量进行降维和特征提取,降维后的特征向量的维数等于卷积神经网络的输入向量的维数。再将经过降维和特征提取后的特征向量输入卷积神经网络,从而减小卷积神经网络的计算消耗。
所述卷积神经网络可以是LeNet卷积神经网络,所述LeNet卷积神经网络采用三个卷积层、两个下采样层和一个全连接层。
在对所述网络欺诈识别模型进行训练时,首先将所述训练集用户的特征向量输入所述深度自编码器进行训练。完成所述深度自编码器的训练后,将所述训练集用户的特征向量由所述深度自编码器输入至所述卷积神经网络,对所述卷积神经网络进行训练。根据所述训练集用户的标签与所述卷积神经网络输出的结果调整所述卷积神经网络的参数,完成所述卷积神经网络的训练。
可以使用神经网络训练算法,例如反向传播算法对所述卷积神经网络进行训练。使用神经网络训练算法训练卷积神经网络为公知技术,此处不再赘述。
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
所述网络欺诈识别模型的输出为预设值,根据所述网络欺诈模型的输出即可确定所述待识别用户是否为欺诈用户。例如,若所述网络欺诈识别模型的输出为0,则确定所述待识别用户不是欺诈用户;若所述网络欺诈识别模型的输出为1,则确定所述待识别用户是欺诈用户。
在本发明的技术方案中,可以采用不同的网络注册信息、不同的预设邻居用户进行网络欺诈识别。对于不同的网络注册信息、不同的预设邻居用户,可以训练得到识别准确率不同的网络欺诈识别模型,可以采用识别准确率最高的条件组合进行网络欺诈识别。
例如,本发明的网络欺诈识别方法中,网络注册信息可以采用IP地址、MAC地址,或者采用IP地址、MAC地址、电话号码;预设邻居用户可以采用二步邻居用户或三步邻居用户。经过多次训练、测试,当网络注册信息为IP地址、MAC地址,预设邻居用户为二步邻居用户的条件下,所述网络欺诈识别模型的识别准确率最高。
现有的基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。基于内容的欺诈识别方法不能充分利用网络用户的图结构特征,不能够有效识别用户的欺诈行为的全局特性。本发明的网络欺诈识别方法根据用户的网络注册信息构建网络图,根据网络图识别网络上的欺诈用户,实现了网络欺诈用户的有效识别。
实施例一的网络欺诈识别方法获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media Access Control Address,媒体访问控制地址)地址;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。实施例一实现了根据用户的网络注册信息识别网络上的欺诈用户。
实施例二
图2是本发明实施例二提供的网络欺诈识别装置的结构图。所述网络欺诈识别装置20应用于计算机装置。所述网络欺诈识别装置20可以根据用户的网络注册信息识别网络(例如社交平台)上的欺诈用户。如图2所示,所述网络欺诈识别装置20可以包括获取模块201、构建模块202、谱分解模块203、生成模块204、训练模块205、识别模块206。
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户,所述网络注册信息包括IP(Internet Protocol Address,互联网协议地址)地址、MAC(Media AccessControl Address,媒体访问控制地址)地址。
本步骤获取多个用户的网络注册信息,根据多个用户的网络注册信息构建所述多个用户的网络图。例如,本方法应用于社交平台(如***站),用于对社交平台上的欺诈用户进行识别,则本步骤获取所述社交平台上多个用户的网络注册信息,根据所述社交平台上多个用户的网络注册信息构建所述多个用户的网络图。
在一具体实施例中,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边。
构建的网络图中,每个节点对应一个用户,每条边对应有相同的网络注册信息的两个用户。
所述多个用户中的任意两个用户可以有相同的一个或多个网络注册信息。
例如,所述网络图中有三个节点1、2、3,分别表示用户A、用户B、用户C,用户A与用户B有相同的IP地址,用户B与用户C有相同的IP地址和MAC地址,则连接节点1和节点2、节点2和节点3、节点1和节点3。
可以用预定格式标记所述网络图中各个节点的连接信息。例如,用户A(对应于节点1)与用户B(对应于节点2)有相同的IP地址,则节点1与节点2的连接信息可以标记为“1――connected by IP――2”;用户B与用户C(对应于节点3)有相同的IP地址和MAC地址,则节点2与节点3的连接信息可以标记为“2――connected by IP and MAC――3”。
所述根据多个用户的网络注册信息构建所述多个用户的网络图还包括:
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
具体地,根据所述多个用户的网络注册信息确定所述网络图中各条边的权值就是根据所述网络图中每条边对应的两个用户的相同的网络注册信息确定该条边的权值。
所述网络图中每条边的权值可以等于该条边对应的两个用户相同的网络注册信息的数量。例如,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为2。
或者,可以设置每个相同的网络注册信息对应的数值,根据每个相同的网络注册信息对应的数值和每条边对应的两个用户的相同的网络注册信息确定所述网络图中各条边的权值。例如,相同IP地址对应的数值为1,相同的MAC地址对应的数值为2,用户A与用户B有相同的IP地址,则用户A与用户B对应的边的权值可以为1;用户B与用户C有相同的IP地址和MAC地址,则用户B与用户C对应的边的权值可以为3(即1+2)。
所述训练集用户带有类别标签,所述类别标签用于标注所述训练集用户是否为欺诈用户。例如,若类别标签为1,则表示所述训练集用户是欺诈用户;若类别标签为0,则表示所述训练集用户不是欺诈用户。
可选的,所述网络注册信息还可以包括电话号码、通讯地址等。
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵。
邻接矩阵用于表示所述网络图中各个节点之间的连接关系。例如,邻接矩阵中的元素p1,2表示所述网络图中节点1与节点2之间的连接关系。邻接矩阵的每一行(即每个行向量)对应网络图中的一个节点(对应于一个用户),表示该节点与其他节点(对应于其他用户)的连接关系。
所述邻接矩阵是N×N的方阵(即所述邻接矩阵的维数为N),N为所述网络图的节点数,即所述多个用户的用户个数。例如,获取模块201获取100个用户的网络注册信息,则构建模块202构建100×100的邻接矩阵。
邻接矩阵的各个元素的值可以根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。例如,所述邻接矩阵为PN×N,所述邻接矩阵的元素为pi,j,1≤i,j≤N。对于所述邻接矩阵中的非对角线元素(即i≠j,对应于所述网络图中两个不同的节点),若所述非对角线元素对应的节点i与节点j在所述网络图中相连接,则pi,j等于所述网络图中节点i与节点j相连的边的权值;若所述非对角线元素对应的节点i与节点j在所述网络图中不连接,则pi,j等于0。对于所述邻接矩阵中的对角线元素(即i=j,对应于所述网络图中同一节点),pi,j等于0。
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵。
谱分解也叫特征分解,对邻接矩阵进行谱分解是将邻接矩阵分解为由邻接矩阵的的特征值和特征向量表示的矩阵之积。
所述特征矩阵中的每一行(即每个行向量)对应一个用户(即一个节点)。
对所述邻接矩阵进行谱分解得到的特征矩阵为方阵,所述特征矩阵的维数与所述邻接矩阵的维数相同。例如,所述邻接矩阵的维数为N(即N*N的方阵),则所述特征矩阵的维数也为N。
所述邻接矩阵中的向量可以由所述特征矩阵中的向量近似描述。
假设邻接矩阵为P,将邻接矩阵P谱分解为P=Q∧Q-1,其中Q是所述特征矩阵,∧是对角矩阵。所述对角矩阵的对角线元素为所述邻接矩阵P的特征值,所述特征矩阵Q的列向量是与所述特征值相对应的特征向量。
对邻接矩阵进行谱分解的具体方法可以参考现有技术,此处不再赘述。
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量。
生成的特征向量包括所述训练集用户的特征向量和所述待识别用户的特征向量。
给定用户的预设邻居用户根据所述网络图确定。可选地,所述预设邻居用户可以是一步邻居用户。或者,所述预设邻居用户可以是二步邻居用户。所述一步邻居用户是在所述网络图中,与给定用户直接连接的用户(即与给定用户相距一跳);所述二步邻居用户是在所述网络图中,与给定用户通过另一用户间接相连的用户(即与给定用户相距两跳)。例如,用户A与用户B直接相连,用户B与用户C直接相连,用户A与用户C未直接相连,则用户B是用户A的一步邻居用户,用户C是用户A的二步邻居用户。
所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K可以按照如下方式确定:
从所述对角矩阵中获取所述特征矩阵的特征值;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值(例如2),则取X为K。
举例来说,若降序排序后的第5个特征值减去第6个特征值的差值为3,超过预设值2,则K取值为6。对于用户C,其一步邻居用户包括用户B、用户D,则:在所述特征矩阵中,取用户C对应的行向量的前6个元素,得到用户C的第一特征子向量;在所述特征矩阵中,取用户B对应的行向量的前6个元素,得到用户B的特征子向量;在所述特征矩阵中,取与用户D对应的行向量的前6个元素,得到用户D的特征子向量;计算用户B的特征子向量与用户D的特征子向量的平均值,得到用户C的第二特征子向量。将用户C的第一特征子向量与第二特征子向量进行组合,得到用户C的特征向量,即12维的特征子向量。
在其他的实施例中,所述K可以按照其他方式取值,例如,若所述邻接矩阵的维数N为偶数,K可以取为N/2;若所述邻接矩阵的维数N为偶数,K可以取为(N-1)/2或(N+1)/2。
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入。
所述网络欺诈模型根据用户的特征向量提取用户的深层网络连接信息,根据该深层网络连接信息识别用户是否为欺诈用户。
所述网络欺诈模型通过深度自编码器的编码器对用户的特征向量进行降维和特征提取,降维后的特征向量的维数等于卷积神经网络的输入向量的维数。再将经过降维和特征提取后的特征向量输入卷积神经网络,从而减小卷积神经网络的计算消耗。
所述卷积神经网络可以是LeNet卷积神经网络,所述LeNet卷积神经网络采用三个卷积层、两个下采样层和一个全连接层。
在对所述网络欺诈识别模型进行训练时,首先将所述训练集用户的特征向量输入所述深度自编码器进行训练。完成所述深度自编码器的训练后,将所述训练集用户的特征向量由所述深度自编码器输入至所述卷积神经网络,对所述卷积神经网络进行训练。根据所述训练集用户的标签与所述卷积神经网络输出的结果调整所述卷积神经网络的参数,完成所述卷积神经网络的训练。
可以使用神经网络训练算法,例如反向传播算法对所述卷积神经网络进行训练。使用神经网络训练算法训练卷积神经网络为公知技术,此处不再赘述。
识别模块206,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
所述网络欺诈识别模型的输出为预设值,根据所述网络欺诈模型的输出即可确定所述待识别用户是否为欺诈用户。例如,若所述网络欺诈识别模型的输出为0,则确定所述待识别用户不是欺诈用户;若所述网络欺诈识别模型的输出为1,则确定所述待识别用户是欺诈用户。
在本发明的技术方案中,可以采用不同的网络注册信息、不同的预设邻居用户进行网络欺诈识别。对于不同的网络注册信息、不同的预设邻居用户,可以训练得到识别准确率不同的网络欺诈识别模型,可以采用识别准确率最高的条件组合进行网络欺诈识别。
例如,本发明的网络欺诈识别方法中,网络注册信息可以采用IP地址、MAC地址,或者采用IP地址、MAC地址、电话号码;预设邻居用户可以采用二步邻居用户或三步邻居用户。经过多次训练、测试,当网络注册信息为IP地址、MAC地址,预设邻居用户为二步邻居用户的条件下,所述网络欺诈识别模型的识别准确率最高。
现有的基于内容的欺诈检测技术是从社交网络上的用户活动中提取内容特征(即文本、URL),然后进行欺诈识别。基于内容的欺诈识别方法不能充分利用网络用户的图结构特征,不能够有效识别用户的欺诈行为的全局特性。本发明的网络欺诈识别方法根据用户的网络注册信息构建网络图,根据网络图识别网络上的欺诈用户,实现了网络欺诈用户的有效识别。
实施例二的网络欺诈识别装置20获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;根据所述网络图构建所述多个用户的邻接矩阵;对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。实施例二实现了根据用户的网络注册信息识别网络上的欺诈用户。
实施例三
本实施例提供一种计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述网络欺诈识别方法实施例中的步骤,例如图1所示的101-106:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
102,根据所述网络图构建所述多个用户的邻接矩阵;
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-206:
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块206,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
实施例四
图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如网络欺诈识别程序。所述处理器302执行所述计算机程序303时实现上述网络欺诈识别方法实施例中的步骤,例如图1所示的101-106:
101,获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
102,根据所述网络图构建所述多个用户的邻接矩阵;
103,对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
104,对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
105,使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
106,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-206:
获取模块201,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块202,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块203,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块204,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块205,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块206,将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的获取模块201、构建模块202、谱分解模块203、生成模块204、训练模块205、识别模块206,各模块具体功能参见实施例二。
所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据)等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他非易失性固态存储器件。
所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种网络欺诈识别方法,其特征在于,所述方法包括:
获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
根据所述网络图构建所述多个用户的邻接矩阵;
对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
2.如权利要求1所述的方法,其特征在于,所述根据多个用户的网络注册信息构建所述多个用户的网络图包括:
以所述多个用户中的每个用户作为所述网络图的节点,若所述多个用户中的两个用户有相同的网络注册信息,则连接所述两个用户对应的节点,得到所述两个用户对应的边;
根据所述多个用户的网络注册信息确定所述网络图中各条边的权值。
3.如权利要求1所述的方法,其特征在于,所述邻接矩阵中的各个元素的值根据所述网络图中各个节点的连接关系和所述网络图中各条边的权值确定。
4.如权利要求1所述的方法,其特征在于,所述网络注册信息包括IP地址和MAC地址。
5.如权利要求1所述的方法,其特征在于,所述根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量包括:
在所述特征矩阵中,取所述给定用户对应的行向量的前K个元素,得到所述给定用户的第一特征子向量,K小于等于所述邻接矩阵的维数N;
在所述特征矩阵中,取所述给定用户的每个预设邻居用户对应的行向量的前K个元素,得到所述给定用户的每个预设邻居用户的特征子向量,取所述给定用户的所有预设邻居用户的特征子向量的平均值作为所述给定用户的第二特征子向量;
组合所述第一特征子向量和所述第二特征子向量,得到所述给定用户的特征向量。
6.如权利要求5所述的方法,其特征在于,对所述邻接矩阵进行谱分解还得到所述邻接矩阵的对角矩阵,所述K按照如下方式确定:
从所述邻接矩阵的对角矩阵中获取所述特征矩阵的特征值,所述对角矩阵在对所述邻接矩阵进行谱分解时得到;
将所述特征值进行降序排序;
若降序排序后的第X-1个特征值减去第X个特征值的差超过预设值,则取X为K。
7.如权利要求1所述的方法,其特征在于,所述卷积神经网络是LeNet卷积神经网络。
8.一种网络欺诈识别装置,其特征在于,所述装置包括:
获取模块,用于获取多个用户的网络注册信息,根据所述多个用户的网络注册信息构建所述多个用户的网络图,所述多个用户包括训练集用户和待识别用户;
构建模块,用于根据所述网络图构建所述多个用户的邻接矩阵;
谱分解模块,用于对所述邻接矩阵进行谱分解,得到所述多个用户的特征矩阵;
生成模块,用于对于所述多个用户中的每个给定用户,根据所述特征矩阵中所述给定用户对应的行向量和所述给定用户的预设邻居用户对应的行向量生成所述给定用户的特征向量;
训练模块,用于使用所述训练集用户的特征向量训练网络欺诈识别模型,所述网络欺诈识别模型包括深度自编码器和卷积神经网络,所述深度自编码器包括编码器和解码器,所述编码器的输出为所述卷积神经网络的输入;
识别模块,用于将所述待识别用户的特征向量输入训练后的所述网络欺诈识别模型进行识别,确定所述待识别用户是否为欺诈用户。
9.一种计算机装置,其特征在于:所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述网络欺诈识别方法。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述网络欺诈识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910776749.8A CN110705585A (zh) | 2019-08-22 | 2019-08-22 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
PCT/CN2020/105940 WO2021031825A1 (zh) | 2019-08-22 | 2020-07-30 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910776749.8A CN110705585A (zh) | 2019-08-22 | 2019-08-22 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705585A true CN110705585A (zh) | 2020-01-17 |
Family
ID=69193391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910776749.8A Pending CN110705585A (zh) | 2019-08-22 | 2019-08-22 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110705585A (zh) |
WO (1) | WO2021031825A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459780A (zh) * | 2020-04-01 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 用户识别方法、装置、可读介质及电子设备 |
CN112070422A (zh) * | 2020-11-05 | 2020-12-11 | 广州竞远安全技术股份有限公司 | 一种基于神经网络的安全测评师派工***及方法 |
CN112331230A (zh) * | 2020-11-17 | 2021-02-05 | 平安科技(深圳)有限公司 | 一种欺诈行为识别方法、装置、计算机设备及存储介质 |
CN112348519A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 一种欺诈用户识别方法、装置和电子设备 |
WO2021031825A1 (zh) * | 2019-08-22 | 2021-02-25 | 深圳壹账通智能科技有限公司 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011979A (zh) * | 2021-03-29 | 2021-06-22 | ***股份有限公司 | 交易检测方法、模型的训练方法、装置及计算机可读存储介质 |
CN113888211A (zh) * | 2021-09-23 | 2022-01-04 | 北京奇艺世纪科技有限公司 | 一种广告推送方法、装置、电子设备及存储介质 |
CN116155755B (zh) * | 2023-02-21 | 2024-04-26 | 湖南大学 | 一种基于线性优化封闭子图编码的链路符号预测方法 |
CN116433345B (zh) * | 2023-05-05 | 2024-05-24 | 意数信息技术(上海)有限公司 | 基于ai的欺诈活动分析方法及数字化金融产品服务*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7458508B1 (en) * | 2003-05-12 | 2008-12-02 | Id Analytics, Inc. | System and method for identity-based fraud detection |
KR20150120188A (ko) * | 2014-04-17 | 2015-10-27 | 주식회사 에스원 | 인증 방법 및 이를 이용한 인증 장치 |
CN108304865A (zh) * | 2018-01-19 | 2018-07-20 | 同济大学 | 一种基于循环神经网络的图节点分类方法 |
CN109544190A (zh) * | 2018-11-28 | 2019-03-29 | 北京芯盾时代科技有限公司 | 一种欺诈识别模型训练方法、欺诈识别方法及装置 |
US20190114649A1 (en) * | 2017-10-12 | 2019-04-18 | Yahoo Holdings, Inc. | Method and system for identifying fraudulent publisher networks |
WO2019085331A1 (zh) * | 2017-11-02 | 2019-05-09 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN110009486A (zh) * | 2019-04-09 | 2019-07-12 | 连连银通电子支付有限公司 | 一种欺诈检测的方法、***、设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109743286A (zh) * | 2018-11-29 | 2019-05-10 | 武汉极意网络科技有限公司 | 一种基于图卷积神经网络的ip类型标记方法及设备 |
CN110705585A (zh) * | 2019-08-22 | 2020-01-17 | 深圳壹账通智能科技有限公司 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
-
2019
- 2019-08-22 CN CN201910776749.8A patent/CN110705585A/zh active Pending
-
2020
- 2020-07-30 WO PCT/CN2020/105940 patent/WO2021031825A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7458508B1 (en) * | 2003-05-12 | 2008-12-02 | Id Analytics, Inc. | System and method for identity-based fraud detection |
KR20150120188A (ko) * | 2014-04-17 | 2015-10-27 | 주식회사 에스원 | 인증 방법 및 이를 이용한 인증 장치 |
US20190114649A1 (en) * | 2017-10-12 | 2019-04-18 | Yahoo Holdings, Inc. | Method and system for identifying fraudulent publisher networks |
WO2019085331A1 (zh) * | 2017-11-02 | 2019-05-09 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN108304865A (zh) * | 2018-01-19 | 2018-07-20 | 同济大学 | 一种基于循环神经网络的图节点分类方法 |
CN109544190A (zh) * | 2018-11-28 | 2019-03-29 | 北京芯盾时代科技有限公司 | 一种欺诈识别模型训练方法、欺诈识别方法及装置 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN110009486A (zh) * | 2019-04-09 | 2019-07-12 | 连连银通电子支付有限公司 | 一种欺诈检测的方法、***、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
刘枭;王晓国;: "基于概率图的银行电信诈骗检测方法", 计算机科学, no. 07 * |
黄晓辉, 张四海, 王煦法: "基于免疫网络的分类应用于审计欺诈检测", 计算机工程与应用, no. 29 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021031825A1 (zh) * | 2019-08-22 | 2021-02-25 | 深圳壹账通智能科技有限公司 | 网络欺诈识别方法、装置、计算机装置及存储介质 |
CN111459780A (zh) * | 2020-04-01 | 2020-07-28 | 北京字节跳动网络技术有限公司 | 用户识别方法、装置、可读介质及电子设备 |
CN111459780B (zh) * | 2020-04-01 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 用户识别方法、装置、可读介质及电子设备 |
CN112348519A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 一种欺诈用户识别方法、装置和电子设备 |
CN112070422A (zh) * | 2020-11-05 | 2020-12-11 | 广州竞远安全技术股份有限公司 | 一种基于神经网络的安全测评师派工***及方法 |
CN112331230A (zh) * | 2020-11-17 | 2021-02-05 | 平安科技(深圳)有限公司 | 一种欺诈行为识别方法、装置、计算机设备及存储介质 |
WO2022105169A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种欺诈行为识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021031825A1 (zh) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705585A (zh) | 网络欺诈识别方法、装置、计算机装置及存储介质 | |
JP7095140B2 (ja) | 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 | |
CN104951965B (zh) | 广告投放方法及装置 | |
CN110009486B (zh) | 一种欺诈检测的方法、***、设备及计算机可读存储介质 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN107204956B (zh) | 网站识别方法及装置 | |
CN111400504A (zh) | 企业关键人的识别方法和装置 | |
CN110110213B (zh) | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN110321394A (zh) | 基于知识图谱的网络安全数据组织方法及计算机存储介质 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN110837653A (zh) | 标签预测方法、装置以及计算机可读存储介质 | |
CN104392174A (zh) | 应用程序动态行为的特征向量的生成方法及装置 | |
CN110609958A (zh) | 数据推送方法、装置、电子设备及存储介质 | |
CN110674370A (zh) | 域名识别方法及装置、存储介质及电子设备 | |
CN113435196A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
CN103886238A (zh) | 一种基于掌纹的账户登录方法及装置 | |
CN113409157B (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN111667018B (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
CN107665307A (zh) | 一种应用识别方法、装置、电子设备以及存储介质 | |
CN112364198A (zh) | 一种跨模态哈希检索方法、终端设备及存储介质 | |
CN106779929A (zh) | 一种产品推荐方法、装置和计算设备 | |
CN116842949A (zh) | 事件提取方法、装置、电子设备和存储介质 | |
CN104933082B (zh) | 评价信息处理方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |