CN113537272B

CN113537272B - 基于深度学习的半监督社交网络异常账号检测方法

Info

Publication number: CN113537272B
Application number: CN202110332332.XA
Authority: CN
Inventors: 陈波冯; 王晓玲; 卢兴见; 张吉
Original assignee: East China Normal University; Zhejiang Lab
Current assignee: East China Normal University; Zhejiang Lab
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2024-03-19
Anticipated expiration: 2041-03-29
Also published as: CN113537272A

Abstract

本发明公开了一种基于深度学习的半监督社交网络异常账号检测方法，首先构建社交网络账号图，对部分账号进行标签标记，采用文本特征提取方法对每个账号的属性信息进行特征提取，得到账号属性的文本特征，同时获取社交网络的邻接矩阵，构建基于深度学习的属性特征映射网络和结构特征映射网络，采用账号属性的文本特征对属性特征映射网络进行训练，采用账号属性的文本特征和邻接矩阵对结构特征映射网络进行训练，在对账号进行异常检测时，根据该账号的属性向量和结构向量计算得到评价分数，与评价阈值比较得到异常检测结果。本发明可以实现对社交网络中相互关联的账号中的异常账号的自动发现。

Description

基于深度学习的半监督社交网络异常账号检测方法

技术领域

本发明属于社交网络异常账号检测技术领域，更为具体地讲，涉及一种基于深度学习的半监督社交网络异常账号检测方法。

背景技术

现实世界中，随着微博、微信、QQ等社交工具的出现，越来越多的用户拥有了自己的社交账号，社交网络在人们的生活中扮演着重要的角色，它已成为人们生活的一部分，并对人们的信息获得、思考和生活产生不可低估的影响。社交网络成为人们获取信息、展现自我、营销推广的窗口。随着社交网络用户的不断增加，投资者、广告商、程序开发商等利益相关者也越来越多的将目光投向社交网站，与此同时，越来越多的恶意攻击者通过社交账号进行牟利，攻击者利用非法手段创立多个账号然后通过进行恶意信息发布以及直接和用户私信推荐商品从而达到盈利的目的。相比于普通人的正常账号，这些攻击者创立的异常账号严重影响了社交网络最初设立的和谐的交流环境。此外，由于社交网络平台的海量数据，直接利用人工的方法对账号的异常进行标注已经不可能实现，但是我们可以对整个网络平台的海量数据进行部分标注，为此，设计一个半监督的社交网络异常账号检测方法成为学术界和产业界共同关注的一个热点问题。

近年来，深度学习成为人工智能和机器学习中极为重要的部分，在提取数据中潜在复杂模式方面表现出优越的性能，并在音频、图像和自然语言处理等领域得到了广泛应用。深度学习方法能够合理处理复杂的属性信息，并且可以从数据中学习隐含的规律；此外，通过神经网络对图进行嵌入不仅可以很好地保留信息，还可以很好地处理用户账号或边的属性，同时保留结构信息，进而方便检查隐空间中用户账号/边表示的相似性。因此希望通过深度学习技术对社交网络中的账号进行分类(正常、异常类别)，得到每个用户账号所属的类别，从而筛选出具有异常性的账号，即异常账号检测。但是这种方法的主要问题就是如何根据用户账号的属性信息以及网络结构信息提取用户账号的表示向量，以及如何根据极少量的人工标注信息去检测出社交网络中异常账号。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的半监督社交网络异常账号检测方法，实现对社交网络中相互关联的账号中的异常账号的自动发现。

为了实现上述发明目的，本发明基于深度学习的半监督社交网络异常账号检测方法包括以下步骤：

S1：当需要对某个社交网络中的账号进行异常检测时，获取该社交网络的账号信息，构建社交网络账号图G＝(V,E,X)，其中V表示社交网络中所有账号所构成的集合，E表示社交网络中账号之间的所有边构成的集合，当两个账号产生交互行为则在这两个账号之间产生边，X表示所有账号的属性信息所构成的集合，其中账号属性信息为文本信息；

S2：从社交网络中选取若干账号并进行异常账号判断，如果是正常账号则标记正常标签，如果是异常账号则标记异常标签，从而获取有标签账户；

S3：采用文本特征提取方法对每个账号的属性信息进行特征提取，得到账号属性的文本特征；

S4：根据社交网络账号图G＝(V,E,X)生成社交网络的邻接矩阵；

S5：根据需要构建基于深度学习的属性特征映射网络和结构特征映射网络，其中属性特征映射网络用于将账号属性的文本特征映射得到账号属性向量，结构特征映射网络用于将账号属性的文本特征所构成的文本特征矩阵结合社交网络的邻接矩阵映射得到账号结构特征；

S6：设置属性特征映射网络输出属性向量的维数，并设置所有账户属性向量所构成的最小超球体的中心属性向量C_a，将各个账号属性的文本特征输入属性特征映射网络，得到各个账号对应的属性向量，然后将属性向量输入至预先设置好的分类器中，得到该账号为正常账号和异常账号的概率；然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失，将两项损失进行加权求和作为训练的损失，对属性特征映射网络中的参数进行优化，实现对属性特征映射网络的训练；

S7：设置结构特征映射网络输出结构向量的维数，并设置所有账户结构向量所构成的最小超球体的中心结构向量C_b，将各个账号属性的文本特征作为行向量构建得到文本特征矩阵，和邻接矩阵一起输入结构特征映射网络，得到所有账户的结构向量构成的结构矩阵，从结构矩阵中提取出每个行向量作为对应账户的结构向量，然后将结构向量输入至预先设置好的分类器中，得到该账号为正常账号和异常账号的概率；然后计算步骤S2中得到的有标签账号的交叉熵损失和最小超球体损失，将两项损失进行加权求和作为训练的损失，对结构特征映射网络中的参数进行优化，实现对结构特征映射网络的训练；

S8：对于社交网络中的未标记标签账号，将步骤S3得到的账号属性信息的文本特征输入至步骤S6训练好的属性特征映射网络中，得到未标记标签账号对应的属性向量；

将各个账号属性的文本特征作为行向量构建得到文本特征矩阵，和邻接矩阵一起输入步骤S7训练好的结构特征映射网络，得到所有账户的结构向量构成的结构矩阵，从中提取出未标记标签账号对应的结构向量；

S9：对于需要进行异常检测的账号，计算该账号的属性向量与中心属性向量C_a之间的距离作为属性评价分数，并计算该账号的结构向量与中心结构向量C_b之间的距离作为结构评价分数，将属性评价分数和结构评价分数进行加权求和作为该账号的评价分数，当该评价分数大于预设的评价阈值时，则判断该账号为异常账号，否则为正常账号。

本发明基于深度学习的半监督社交网络异常账号检测方法，首先构建社交网络账号图，对部分账号进行标签标记，采用文本特征提取方法对每个账号的属性信息进行特征提取，得到账号属性的文本特征，同时获取社交网络的邻接矩阵，构建基于深度学习的属性特征映射网络和结构特征映射网络，采用账号属性的文本特征对属性特征映射网络进行训练，采用账号属性的文本特征和邻接矩阵对结构特征映射网络进行训练，在对账号进行异常检测时，根据该账号的属性向量和结构向量计算得到评价分数，与评价阈值比较得到异常检测结果。

本发明具有以下有益效果：

1)本发明对于基于深度学习的属性特征映射网络和结构特征映射网络，采用少量标签信息进行半监督训练，可以提高训练效率和异常账号检测的准确性；

2)提取账号的属性向量和结构向量，综合考虑账号的整体异常性，进一步提高异常账号检测的准确度。

附图说明

图1是本发明基于深度学习的半监督社交网络异常账号检测方法的具体实施方式流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于深度学习的半监督社交网络异常账号检测方法的具体实施方式流程图。如图1所示，本发明基于深度学习的半监督社交网络异常账号检测方法的具体步骤包括：

S101：构建社交网络账号图：

当需要对某个社交网络中的账号进行异常检测时，获取该社交网络的账号信息，构建社交网络账号图G＝(V,E,X)，其中V表示社交网络中所有账号所构成的集合，E表示社交网络中账号之间的所有边构成的集合，当两个账号产生交互行为(例如点赞、转发等)则在这两个账号之间产生边，X表示所有账号的属性信息所构成的集合，其中账号属性信息为文本信息，其具体内容可以根据需要设置，例如可以包括账号的个人自我描述、个人留言、个人转发等。值得注意的是，账号的属性信息是不能直接作为深度学习模型的输入的，需要进行预处理。

S102：获取有标签账号：

从社交网络中选取若干账号并进行异常账号判断，此时一般是根据账号的历史行为进行判断的，例如发布内容、向其他用户发送的私信等，如果是正常账号则标记正常标签，如果是异常账号则标记异常标签，从而得到有标签账号。

S103：提取账号属性的文本特征：

根据步骤S101可知，社交网络中账号属性信息往往用文本或单词进行表示，而深度学习模型无法直接处理文本数据，因此本发明首先对原始账号属性处理成深度学习模型能够处理的特征向量表示，即采用文本特征提取方法对每个账号的属性信息进行特征提取，得到账号属性的文本特征。

在实际应用中文本特征提取方法可以根据实际需要设置，本实施例中采用基于词袋模型的文本特征提取方法。词袋模型(Bag-of-words model)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用技术。词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。此模型下，一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序。词袋模型能够把一个句子转化为向量表示，是比较简单直白的一种方法，它不考虑句子中单词的顺序，只考虑词表(vocabulary)中单词在这个句子中的出现次数。词袋模型的第一步是构建单词表，统计文本中出现的所有单词后，然后去掉无用的符号和一些停用词后，获得一个单词表。下一步是在每个文档中记录单词，目的是将自由文本的每个文档转换为一个文本向量，假如相应单词出现在该用户账号的属性中，其对应的向量位置为1，这样就可以得到适合于输入后续深度学习模型的账号属性的文本特征。

S104：生成社交网络邻接矩阵：

除了根据社交网络账号图中账号属性信息提取到的账号属性特征，本发明还需要利用到社交网络的结构特征，即根据社交网络账号图G＝(V,E,X)生成社交网络的邻接矩阵。

S105：构建属性特征映射网络和结构特征映射网络：

根据需要构建基于深度学习的属性特征映射网络和结构特征映射网络，其中属性特征映射网络用于将账号属性的文本特征映射得到账号属性向量，结构特征映射网络用于将账号属性的文本特征所构成的文本特征矩阵结合社交网络的邻接矩阵映射得到账号结构特征。

这两个映射网络的具体结构可以根据实际需要设置，本实施例中属性特征映射网络采用深度神经网络。深度神经网络(Deep Neural Networks，简称DNN)是一种具备至少一个隐藏层的神经网络，通过隐藏层的激活函数捕捉特征间的非线性关系，提供了更高的抽象层次，因而提高了模型的建模能力，更好地实现特征提取。

本实施例中结构特征映射网络采用图卷积神经网络。图卷积神经网络旨在将卷积推广到图领域，它拓展了现有的深度神经网络模型，用于处理以图的形式表示的数据。图卷积神经网络基本思想是利用图上的信息传播机制，通过信息构造、邻居聚集、表示更新三个步骤使用上一时刻相邻用户账号的状态信息，图神经网络基于同构性假设去更新每个用户账号的向量信息，图卷积神经网络模型的具体原理和更新过程可以参照论文“Kipf T Nand Welling M.Semi-supervised classification with graph convolutionalnetworks[J].arXiv preprint arXiv:1609.02907,2016”。

S106：属性特征映射网络训练：

接下来采用步骤S103得到的账号属性的文本特征对属性特征映射网络进行训练，其具体方法为：

设置属性特征映射网络输出属性向量的维数，并设置所有账户属性向量所构成的最小超球体的中心属性向量C_a，将各个账号属性的文本特征输入属性特征映射网络，得到各个账号对应的属性向量，然后将属性向量输入至预先设置好的分类器中，得到该账号为正常账号和异常账号的概率。然后计算步骤S102中得到的有标签账号的交叉熵损失(CrossEntropy Loss)和最小超球体损失，将两项损失进行加权求和作为训练的损失，对属性特征映射网络中的参数进行优化，实现对属性特征映射网络的训练。

交叉熵损失主要用于度量两个概率分布间的差异性信息，是一种常用的损失函数，其具体计算方法在此不再赘述。

最小超球体损失基于最小超球体中心的中心向量C_a计算，一般假定正常账号的特征表示都位于一个超球体内，而异常账号的特征表示都远离超球体中心，因此最小超球体损失的计算公式可以表示如下：

其中，φ表示有标签账户中正常账号的集合，|φ|表示正常账号的数量，表示正常账号m的账号属性文本特征经属性特征映射网络得到的属性向量。

根据以上训练过程可知，本发明中属性特征映射网络的训练采用的是半监督的损失函数，交叉熵损失和最小超球体损失都是针对有标签账号来计算的。此外，在实际应用中，为了避免过拟合，可以采用早停策略进行训练(即当损失函数经过100轮不降低时，则停止训练)。

S107：结构特征映射网络训练：

接下来采用步骤S103得到的账号属性的文本特征和步骤S104得到的邻接矩阵对结构特征映射网络进行训练，其具体方法为：

设置结构特征映射网络输出结构向量的维数，并设置所有账户结构向量所构成的最小超球体的中心结构向量C_b，将各个账号属性的文本特征作为行向量构建得到文本特征矩阵，和邻接矩阵一起输入结构特征映射网络，得到所有账户的结构向量构成的结构矩阵，从结构矩阵中提取出每个行向量作为对应账户的结构向量，然后将结构向量输入至预先设置好的分类器中，得到该账号为正常账号和异常账号的概率。然后计算步骤S102中得到的有标签账号的交叉熵损失(Cross Entropy Loss)和最小超球体损失，将两项损失进行加权求和作为训练的损失，对结构特征映射网络中的参数进行优化，实现对结构特征映射网络的训练。

结构特征映射网络的损失函数计算与属性特征映射网络类似，在此不再赘述。

S108：获取属性向量和结构向量：

对于社交网络中的未标记标签账号，将步骤S103得到的账号属性信息的文本特征输入至步骤S106训练好的属性特征映射网络中，得到未标记标签账号对应的属性向量。

将各个账号属性的文本特征作为行向量构建得到文本特征矩阵，和邻接矩阵一起输入步骤S107训练好的结构特征映射网络，得到所有账户的结构向量构成的结构矩阵，从中提取出未标记标签账号对应的结构向量。

S109：账号检测：

对于需要进行异常检测的账号，计算该账号的属性向量与中心属性向量C_a之间的距离作为属性评价分数，并计算该账号的结构向量与中心结构向量C_b之间的距离作为结构评价分数，将属性评价分数和结构评价分数进行加权求和作为该账号的评价分数，当该评价分数大于预设的评价阈值时，则判断该账号为异常账号，否则为正常账号。两个评价分数的具体权值和评价阈值的具体值可以根据实验确定。

综上所述，本发明通过利用少量标签信息，基于深度学习技术，充分地利用了构建的社交网络账号图的拓扑结构和属性信息，分别利用了属性特征映射网络和结构特征映射网络的去学习节点的属性向量表示和结构向量表示，然后在属性向量和结构向量的基础上检测用户账户的整体异常性，从而实现在大规模社交网络中异常账号的自动检测。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度学习的半监督社交网络异常账号检测方法，其特征在于，包括以下步骤：

S4：根据社交网络账号图G＝(V,E,X)生成社交网络的邻接矩阵；

2.根据权利要求1所述的半监督社交网络异常账号检测方法，其特征在于，所述步骤S3中文本特征提取方法采用基于词袋模型的文本特征提取方法。

3.根据权利要求1所述的半监督社交网络异常账号检测方法，其特征在于，所述步骤S5中属性特征映射网络采用深度神经网络，结构特征映射网络采用图卷积神经网络。