CN113537272B - 基于深度学习的半监督社交网络异常账号检测方法 - Google Patents
基于深度学习的半监督社交网络异常账号检测方法 Download PDFInfo
- Publication number
- CN113537272B CN113537272B CN202110332332.XA CN202110332332A CN113537272B CN 113537272 B CN113537272 B CN 113537272B CN 202110332332 A CN202110332332 A CN 202110332332A CN 113537272 B CN113537272 B CN 113537272B
- Authority
- CN
- China
- Prior art keywords
- account
- attribute
- structural
- accounts
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 46
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 86
- 238000013507 mapping Methods 0.000 claims abstract description 73
- 238000011156 evaluation Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002077 nanosphere Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的半监督社交网络异常账号检测方法,首先构建社交网络账号图,对部分账号进行标签标记,采用文本特征提取方法对每个账号的属性信息进行特征提取,得到账号属性的文本特征,同时获取社交网络的邻接矩阵,构建基于深度学习的属性特征映射网络和结构特征映射网络,采用账号属性的文本特征对属性特征映射网络进行训练,采用账号属性的文本特征和邻接矩阵对结构特征映射网络进行训练,在对账号进行异常检测时,根据该账号的属性向量和结构向量计算得到评价分数,与评价阈值比较得到异常检测结果。本发明可以实现对社交网络中相互关联的账号中的异常账号的自动发现。
Description
技术领域
本发明属于社交网络异常账号检测技术领域,更为具体地讲,涉及一种基于深度学习的半监督社交网络异常账号检测方法。
背景技术
现实世界中,随着微博、微信、QQ等社交工具的出现,越来越多的用户拥有了自己的社交账号,社交网络在人们的生活中扮演着重要的角色,它已成为人们生活的一部分,并对人们的信息获得、思考和生活产生不可低估的影响。社交网络成为人们获取信息、展现自我、营销推广的窗口。随着社交网络用户的不断增加,投资者、广告商、程序开发商等利益相关者也越来越多的将目光投向社交网站,与此同时,越来越多的恶意攻击者通过社交账号进行牟利,攻击者利用非法手段创立多个账号然后通过进行恶意信息发布以及直接和用户私信推荐商品从而达到盈利的目的。相比于普通人的正常账号,这些攻击者创立的异常账号严重影响了社交网络最初设立的和谐的交流环境。此外,由于社交网络平台的海量数据,直接利用人工的方法对账号的异常进行标注已经不可能实现,但是我们可以对整个网络平台的海量数据进行部分标注,为此,设计一个半监督的社交网络异常账号检测方法成为学术界和产业界共同关注的一个热点问题。
近年来,深度学习成为人工智能和机器学习中极为重要的部分,在提取数据中潜在复杂模式方面表现出优越的性能,并在音频、图像和自然语言处理等领域得到了广泛应用。深度学习方法能够合理处理复杂的属性信息,并且可以从数据中学习隐含的规律;此外,通过神经网络对图进行嵌入不仅可以很好地保留信息,还可以很好地处理用户账号或边的属性,同时保留结构信息,进而方便检查隐空间中用户账号/边表示的相似性。因此希望通过深度学习技术对社交网络中的账号进行分类(正常、异常类别),得到每个用户账号所属的类别,从而筛选出具有异常性的账号,即异常账号检测。但是这种方法的主要问题就是如何根据用户账号的属性信息以及网络结构信息提取用户账号的表示向量,以及如何根据极少量的人工标注信息去检测出社交网络中异常账号。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的半监督社交网络异常账号检测方法,实现对社交网络中相互关联的账号中的异常账号的自动发现。
为了实现上述发明目的,本发明基于深度学习的半监督社交网络异常账号检测方法包括以下步骤:
S1:当需要对某个社交网络中的账号进行异常检测时,获取该社交网络的账号信息,构建社交网络账号图G=(V,E,X),其中V表示社交网络中所有账号所构成的集合,E表示社交网络中账号之间的所有边构成的集合,当两个账号产生交互行为则在这两个账号之间产生边,X表示所有账号的属性信息所构成的集合,其中账号属性信息为文本信息;
S2:从社交网络中选取若干账号并进行异常账号判断,如果是正常账号则标记正常标签,如果是异常账号则标记异常标签,从而获取有标签账户;
S3:采用文本特征提取方法对每个账号的属性信息进行特征提取,得到账号属性的文本特征;
S4:根据社交网络账号图G=(V,E,X)生成社交网络的邻接矩阵;
S5:根据需要构建基于深度学习的属性特征映射网络和结构特征映射网络,其中属性特征映射网络用于将账号属性的文本特征映射得到账号属性向量,结构特征映射网络用于将账号属性的文本特征所构成的文本特征矩阵结合社交网络的邻接矩阵映射得到账号结构特征;
S6:设置属性特征映射网络输出属性向量的维数,并设置所有账户属性向量所构成的最小超球体的中心属性向量Ca,将各个账号属性的文本特征输入属性特征映射网络,得到各个账号对应的属性向量,然后将属性向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率;然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失,将两项损失进行加权求和作为训练的损失,对属性特征映射网络中的参数进行优化,实现对属性特征映射网络的训练;
S7:设置结构特征映射网络输出结构向量的维数,并设置所有账户结构向量所构成的最小超球体的中心结构向量Cb,将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从结构矩阵中提取出每个行向量作为对应账户的结构向量,然后将结构向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率;然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失,将两项损失进行加权求和作为训练的损失,对结构特征映射网络中的参数进行优化,实现对结构特征映射网络的训练;
S8:对于社交网络中的未标记标签账号,将步骤S3得到的账号属性信息的文本特征输入至步骤S6训练好的属性特征映射网络中,得到未标记标签账号对应的属性向量;
将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入步骤S7训练好的结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从中提取出未标记标签账号对应的结构向量;
S9:对于需要进行异常检测的账号,计算该账号的属性向量与中心属性向量Ca之间的距离作为属性评价分数,并计算该账号的结构向量与中心结构向量Cb之间的距离作为结构评价分数,将属性评价分数和结构评价分数进行加权求和作为该账号的评价分数,当该评价分数大于预设的评价阈值时,则判断该账号为异常账号,否则为正常账号。
本发明基于深度学习的半监督社交网络异常账号检测方法,首先构建社交网络账号图,对部分账号进行标签标记,采用文本特征提取方法对每个账号的属性信息进行特征提取,得到账号属性的文本特征,同时获取社交网络的邻接矩阵,构建基于深度学习的属性特征映射网络和结构特征映射网络,采用账号属性的文本特征对属性特征映射网络进行训练,采用账号属性的文本特征和邻接矩阵对结构特征映射网络进行训练,在对账号进行异常检测时,根据该账号的属性向量和结构向量计算得到评价分数,与评价阈值比较得到异常检测结果。
本发明具有以下有益效果:
1)本发明对于基于深度学习的属性特征映射网络和结构特征映射网络,采用少量标签信息进行半监督训练,可以提高训练效率和异常账号检测的准确性;
2)提取账号的属性向量和结构向量,综合考虑账号的整体异常性,进一步提高异常账号检测的准确度。
附图说明
图1是本发明基于深度学习的半监督社交网络异常账号检测方法的具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于深度学习的半监督社交网络异常账号检测方法的具体实施方式流程图。如图1所示,本发明基于深度学习的半监督社交网络异常账号检测方法的具体步骤包括:
S101:构建社交网络账号图:
当需要对某个社交网络中的账号进行异常检测时,获取该社交网络的账号信息,构建社交网络账号图G=(V,E,X),其中V表示社交网络中所有账号所构成的集合,E表示社交网络中账号之间的所有边构成的集合,当两个账号产生交互行为(例如点赞、转发等)则在这两个账号之间产生边,X表示所有账号的属性信息所构成的集合,其中账号属性信息为文本信息,其具体内容可以根据需要设置,例如可以包括账号的个人自我描述、个人留言、个人转发等。值得注意的是,账号的属性信息是不能直接作为深度学习模型的输入的,需要进行预处理。
S102:获取有标签账号:
从社交网络中选取若干账号并进行异常账号判断,此时一般是根据账号的历史行为进行判断的,例如发布内容、向其他用户发送的私信等,如果是正常账号则标记正常标签,如果是异常账号则标记异常标签,从而得到有标签账号。
S103:提取账号属性的文本特征:
根据步骤S101可知,社交网络中账号属性信息往往用文本或单词进行表示,而深度学习模型无法直接处理文本数据,因此本发明首先对原始账号属性处理成深度学习模型能够处理的特征向量表示,即采用文本特征提取方法对每个账号的属性信息进行特征提取,得到账号属性的文本特征。
在实际应用中文本特征提取方法可以根据实际需要设置,本实施例中采用基于词袋模型的文本特征提取方法。词袋模型(Bag-of-words model)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用技术。词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。词袋模型能够把一个句子转化为向量表示,是比较简单直白的一种方法,它不考虑句子中单词的顺序,只考虑词表(vocabulary)中单词在这个句子中的出现次数。词袋模型的第一步是构建单词表,统计文本中出现的所有单词后,然后去掉无用的符号和一些停用词后,获得一个单词表。下一步是在每个文档中记录单词,目的是将自由文本的每个文档转换为一个文本向量,假如相应单词出现在该用户账号的属性中,其对应的向量位置为1,这样就可以得到适合于输入后续深度学习模型的账号属性的文本特征。
S104:生成社交网络邻接矩阵:
除了根据社交网络账号图中账号属性信息提取到的账号属性特征,本发明还需要利用到社交网络的结构特征,即根据社交网络账号图G=(V,E,X)生成社交网络的邻接矩阵。
S105:构建属性特征映射网络和结构特征映射网络:
根据需要构建基于深度学习的属性特征映射网络和结构特征映射网络,其中属性特征映射网络用于将账号属性的文本特征映射得到账号属性向量,结构特征映射网络用于将账号属性的文本特征所构成的文本特征矩阵结合社交网络的邻接矩阵映射得到账号结构特征。
这两个映射网络的具体结构可以根据实际需要设置,本实施例中属性特征映射网络采用深度神经网络。深度神经网络(Deep Neural Networks,简称DNN)是一种具备至少一个隐藏层的神经网络,通过隐藏层的激活函数捕捉特征间的非线性关系,提供了更高的抽象层次,因而提高了模型的建模能力,更好地实现特征提取。
本实施例中结构特征映射网络采用图卷积神经网络。图卷积神经网络旨在将卷积推广到图领域,它拓展了现有的深度神经网络模型,用于处理以图的形式表示的数据。图卷积神经网络基本思想是利用图上的信息传播机制,通过信息构造、邻居聚集、表示更新三个步骤使用上一时刻相邻用户账号的状态信息,图神经网络基于同构性假设去更新每个用户账号的向量信息,图卷积神经网络模型的具体原理和更新过程可以参照论文“Kipf T Nand Welling M.Semi-supervised classification with graph convolutionalnetworks[J].arXiv preprint arXiv:1609.02907,2016”。
S106:属性特征映射网络训练:
接下来采用步骤S103得到的账号属性的文本特征对属性特征映射网络进行训练,其具体方法为:
设置属性特征映射网络输出属性向量的维数,并设置所有账户属性向量所构成的最小超球体的中心属性向量Ca,将各个账号属性的文本特征输入属性特征映射网络,得到各个账号对应的属性向量,然后将属性向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率。然后计算步骤S102中得到的有标签账号的交叉熵损失(CrossEntropy Loss)和最小超球体损失,将两项损失进行加权求和作为训练的损失,对属性特征映射网络中的参数进行优化,实现对属性特征映射网络的训练。
交叉熵损失主要用于度量两个概率分布间的差异性信息,是一种常用的损失函数,其具体计算方法在此不再赘述。
最小超球体损失基于最小超球体中心的中心向量Ca计算,一般假定正常账号的特征表示都位于一个超球体内,而异常账号的特征表示都远离超球体中心,因此最小超球体损失的计算公式可以表示如下:
其中,φ表示有标签账户中正常账号的集合,|φ|表示正常账号的数量,表示正常账号m的账号属性文本特征经属性特征映射网络得到的属性向量。
根据以上训练过程可知,本发明中属性特征映射网络的训练采用的是半监督的损失函数,交叉熵损失和最小超球体损失都是针对有标签账号来计算的。此外,在实际应用中,为了避免过拟合,可以采用早停策略进行训练(即当损失函数经过100轮不降低时,则停止训练)。
S107:结构特征映射网络训练:
接下来采用步骤S103得到的账号属性的文本特征和步骤S104得到的邻接矩阵对结构特征映射网络进行训练,其具体方法为:
设置结构特征映射网络输出结构向量的维数,并设置所有账户结构向量所构成的最小超球体的中心结构向量Cb,将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从结构矩阵中提取出每个行向量作为对应账户的结构向量,然后将结构向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率。然后计算步骤S102中得到的有标签账号的交叉熵损失(Cross Entropy Loss)和最小超球体损失,将两项损失进行加权求和作为训练的损失,对结构特征映射网络中的参数进行优化,实现对结构特征映射网络的训练。
结构特征映射网络的损失函数计算与属性特征映射网络类似,在此不再赘述。
S108:获取属性向量和结构向量:
对于社交网络中的未标记标签账号,将步骤S103得到的账号属性信息的文本特征输入至步骤S106训练好的属性特征映射网络中,得到未标记标签账号对应的属性向量。
将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入步骤S107训练好的结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从中提取出未标记标签账号对应的结构向量。
S109:账号检测:
对于需要进行异常检测的账号,计算该账号的属性向量与中心属性向量Ca之间的距离作为属性评价分数,并计算该账号的结构向量与中心结构向量Cb之间的距离作为结构评价分数,将属性评价分数和结构评价分数进行加权求和作为该账号的评价分数,当该评价分数大于预设的评价阈值时,则判断该账号为异常账号,否则为正常账号。两个评价分数的具体权值和评价阈值的具体值可以根据实验确定。
综上所述,本发明通过利用少量标签信息,基于深度学习技术,充分地利用了构建的社交网络账号图的拓扑结构和属性信息,分别利用了属性特征映射网络和结构特征映射网络的去学习节点的属性向量表示和结构向量表示,然后在属性向量和结构向量的基础上检测用户账户的整体异常性,从而实现在大规模社交网络中异常账号的自动检测。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种基于深度学习的半监督社交网络异常账号检测方法,其特征在于,包括以下步骤:
S1:当需要对某个社交网络中的账号进行异常检测时,获取该社交网络的账号信息,构建社交网络账号图G=(V,E,X),其中V表示社交网络中所有账号所构成的集合,E表示社交网络中账号之间的所有边构成的集合,当两个账号产生交互行为则在这两个账号之间产生边,X表示所有账号的属性信息所构成的集合,其中账号属性信息为文本信息;
S2:从社交网络中选取若干账号并进行异常账号判断,如果是正常账号则标记正常标签,如果是异常账号则标记异常标签,从而获取有标签账户;
S3:采用文本特征提取方法对每个账号的属性信息进行特征提取,得到账号属性的文本特征;
S4:根据社交网络账号图G=(V,E,X)生成社交网络的邻接矩阵;
S5:根据需要构建基于深度学习的属性特征映射网络和结构特征映射网络,其中属性特征映射网络用于将账号属性的文本特征映射得到账号属性向量,结构特征映射网络用于将账号属性的文本特征所构成的文本特征矩阵结合社交网络的邻接矩阵映射得到账号结构特征;
S6:设置属性特征映射网络输出属性向量的维数,并设置所有账户属性向量所构成的最小超球体的中心属性向量Ca,将各个账号属性的文本特征输入属性特征映射网络,得到各个账号对应的属性向量,然后将属性向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率;然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失,将两项损失进行加权求和作为训练的损失,对属性特征映射网络中的参数进行优化,实现对属性特征映射网络的训练;
S7:设置结构特征映射网络输出结构向量的维数,并设置所有账户结构向量所构成的最小超球体的中心结构向量Cb,将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从结构矩阵中提取出每个行向量作为对应账户的结构向量,然后将结构向量输入至预先设置好的分类器中,得到该账号为正常账号和异常账号的概率;然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失,将两项损失进行加权求和作为训练的损失,对结构特征映射网络中的参数进行优化,实现对结构特征映射网络的训练;
S8:对于社交网络中的未标记标签账号,将步骤S3得到的账号属性信息的文本特征输入至步骤S6训练好的属性特征映射网络中,得到未标记标签账号对应的属性向量;
将各个账号属性的文本特征作为行向量构建得到文本特征矩阵,和邻接矩阵一起输入步骤S7训练好的结构特征映射网络,得到所有账户的结构向量构成的结构矩阵,从中提取出未标记标签账号对应的结构向量;
S9:对于需要进行异常检测的账号,计算该账号的属性向量与中心属性向量Ca之间的距离作为属性评价分数,并计算该账号的结构向量与中心结构向量Cb之间的距离作为结构评价分数,将属性评价分数和结构评价分数进行加权求和作为该账号的评价分数,当该评价分数大于预设的评价阈值时,则判断该账号为异常账号,否则为正常账号。
2.根据权利要求1所述的半监督社交网络异常账号检测方法,其特征在于,所述步骤S3中文本特征提取方法采用基于词袋模型的文本特征提取方法。
3.根据权利要求1所述的半监督社交网络异常账号检测方法,其特征在于,所述步骤S5中属性特征映射网络采用深度神经网络,结构特征映射网络采用图卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332332.XA CN113537272B (zh) | 2021-03-29 | 2021-03-29 | 基于深度学习的半监督社交网络异常账号检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332332.XA CN113537272B (zh) | 2021-03-29 | 2021-03-29 | 基于深度学习的半监督社交网络异常账号检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537272A CN113537272A (zh) | 2021-10-22 |
CN113537272B true CN113537272B (zh) | 2024-03-19 |
Family
ID=78094495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110332332.XA Active CN113537272B (zh) | 2021-03-29 | 2021-03-29 | 基于深度学习的半监督社交网络异常账号检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537272B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115127192B (zh) * | 2022-05-20 | 2024-01-23 | 中南大学 | 基于图神经网络的半监督的冷水机组故障诊断方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2866421A1 (en) * | 2013-10-25 | 2015-04-29 | Huawei Technologies Co., Ltd. | Method and apparatus for identifying a same user in multiple social networks |
CN104866558A (zh) * | 2015-05-18 | 2015-08-26 | 中国科学院计算技术研究所 | 一种社交网络账号映射模型训练方法及映射方法和*** |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及*** |
CN111582872A (zh) * | 2020-05-06 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 异常账号检测模型训练、异常账号检测方法、装置及设备 |
WO2020192289A1 (zh) * | 2019-03-25 | 2020-10-01 | 阿里巴巴集团控股有限公司 | 确定关系网络图中图节点向量的方法及装置 |
CN111767472A (zh) * | 2020-07-08 | 2020-10-13 | 吉林大学 | 一种社交网络异常账号检测方法及*** |
CN112445957A (zh) * | 2020-11-05 | 2021-03-05 | 西安电子科技大学 | 社交网络异常用户检测方法、***、介质、设备、终端 |
-
2021
- 2021-03-29 CN CN202110332332.XA patent/CN113537272B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2866421A1 (en) * | 2013-10-25 | 2015-04-29 | Huawei Technologies Co., Ltd. | Method and apparatus for identifying a same user in multiple social networks |
CN104866558A (zh) * | 2015-05-18 | 2015-08-26 | 中国科学院计算技术研究所 | 一种社交网络账号映射模型训练方法及映射方法和*** |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
WO2020192289A1 (zh) * | 2019-03-25 | 2020-10-01 | 阿里巴巴集团控股有限公司 | 确定关系网络图中图节点向量的方法及装置 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及*** |
CN111582872A (zh) * | 2020-05-06 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 异常账号检测模型训练、异常账号检测方法、装置及设备 |
CN111767472A (zh) * | 2020-07-08 | 2020-10-13 | 吉林大学 | 一种社交网络异常账号检测方法及*** |
CN112445957A (zh) * | 2020-11-05 | 2021-03-05 | 西安电子科技大学 | 社交网络异常用户检测方法、***、介质、设备、终端 |
Non-Patent Citations (3)
Title |
---|
基于改进边权重的成对马尔可夫随机场模型的社交异常账号检测方法;宋畅;禹可;吴晓非;;计算机科学;20200215(02);257-261 * |
社交网络异常用户检测技术研究进展;曲强;于洪涛;黄瑞阳;;网络与信息安全学报;20180315(03);17-27 * |
融合多类型信息的社交网络用户表示学习方法;董祥祥;梁英;谢小杰;;重庆理工大学学报(自然科学);20200515(05);137-145 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537272A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Detect rumors on twitter by promoting information campaigns with generative adversarial learning | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及*** | |
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及*** | |
CN109831460B (zh) | 一种基于协同训练的Web攻击检测方法 | |
CN109450845B (zh) | 一种基于深度神经网络的算法生成恶意域名检测方法 | |
CN112231562A (zh) | 一种网络谣言识别方法及*** | |
CN109889436B (zh) | 一种社交网络中垃圾邮件发送者的发现方法 | |
CN112241456B (zh) | 基于关系网络与注意力机制的假新闻预测方法 | |
CN113269228B (zh) | 一种图网络分类模型的训练方法、装置、***及电子设备 | |
CN112884204B (zh) | 网络安全风险事件预测方法及装置 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
Jin et al. | Image credibility analysis with effective domain transferred deep networks | |
CN113537272B (zh) | 基于深度学习的半监督社交网络异常账号检测方法 | |
CN115860152A (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
CN112104602A (zh) | 一种基于cnn迁移学习的网络入侵检测方法 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
Chen et al. | Learning a general clause-to-clause relationships for enhancing emotion-cause pair extraction | |
CN113343123A (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN111274403B (zh) | 一种网络欺凌检测方法 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及*** | |
CN117009613A (zh) | 一种图数据分类方法、***、装置及介质 | |
CN115102783B (zh) | 一种基于集成学习的恶意域名检测方法 | |
CN116776889A (zh) | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 | |
CN111601314A (zh) | 预训练模型加短信地址双重判定不良短信的方法和装置 | |
CN115426194A (zh) | 数据处理方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |