CN106557983B

CN106557983B - 一种基于模糊多类svm的微博垃圾用户检测方法

Info

Publication number: CN106557983B
Application number: CN201611016672.7A
Authority: CN
Inventors: 徐光侠; 高郭威; 宋洋洋; 刘宴兵; 常光辉; 齐锦; 蒋鹏; 李伟凤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2020-11-17
Anticipated expiration: 2036-11-18
Also published as: CN106557983A

Abstract

本发明公开了一种基于模糊多类SVM的微博垃圾用户检测方法，将一对多SVM多类分类器与模糊数学理论相结合用于微博垃圾用户检测。现有的微博垃圾用户研究，都是对全局的垃圾用户特征进行分析，分析力度不够，缺乏针对某类垃圾用户的特征分析，这样会使垃圾用户逃避检测***的检测。本发明通过对微博垃圾用户的特征进行分析，将垃圾用户分为三类，构造一对多SVM多类分类器，并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理，得到组合分类器，提高了检测精度。

Description

一种基于模糊多类SVM的微博垃圾用户检测方法

技术领域

本发明涉及社交网络安全领域，涉及利用机器学习算法和模糊数学对社交网络中的垃圾用户进行分析处理，特别是涉及一种基于模糊多类SVM的社交网络检测方法。

背景技术

微博(Weibo)，也称微博客(MicroBlog)，是一种简短实时信息分享的社交平台，用户通过相互关注实现短信息的共享，微博以其独特的弱关系链体系,***息分享方式赢得了广大网民的欢迎。近几年，新浪微博、Twitter等微博平台已经成为了互联网用户重要的信息分享平台。在这里，人们关注时事新闻，并分享关于实事和自身事件的看法和评论。随着微博用户的增长，垃圾信息(Spam)和垃圾用户(Spammer)的出现不可避免；例如：病毒网站的蠕虫病毒攻击了Twitter，大批用户发送垃圾Twitter消息，并诱骗更多用户访问病毒网站；新浪微博内的几万名用户由于点击了私信内的恶意链接，成为病毒受害者，并大量转发三俗微博；Facebook旗下照片分享服务Instagram也遭遇了大规模的垃圾信息攻击，受害用户主页上发布不雅照片，其个人简介上的链接也被修改；当正常用户点击了垃圾微博上的恶意URL时，很容易遭受钓鱼攻击或者感染病毒，造成账号被盗或者被劫持等等。

不断出现的微博垃圾问题，严重影响了微博用户的体验效果以及平台的持久发展，对微博上数据的挖掘与分析也造成了一定的干扰。此外，大量的垃圾问题导致了网络资源的严重耗费，给社交网络的运营带来了繁重的工作，造成生产力浪费，严重的会使个人以及公司蒙受巨大经济损失。

在现有的微博垃圾用户检测领域中，垃圾用户检测主要有三种检测方式：一是用户举报机制，用户可以向微博社区管理中心进行举报，其中要经过举证阶段、判定阶段、结果公示阶段，因此需要消耗一定人力成本；二是利用社区网络或图的检测方法，可以从用户的关注与粉丝关系所构成的社交网络入手构建垃圾信息过滤模型，但是垃圾用户为了逃避检测，现阶段的垃圾用户有意弱化其社交关系，因此存在局限性，只能对垃圾社交关系特征明显的垃圾用户有检测作用；三是基于特征分析+机器学习的检测方法，这种检测方法正确率高，是当前垃圾用户检测中很受欢迎的一种方法，该方法分析垃圾用户的特征，并基于这些分析提出了检测垃圾用户的算法。

现阶段的微博垃圾问题层出不穷，垃圾行为越来越多，使得剔除垃圾用户的难度大大增加。传统的特征分析+机器学习检测方法大多缺乏针对性的行为研究，全局的垃圾用户特征研究会使垃圾用户逃避检测***的检测，缺乏针对某种特定用户的垃圾行为研究。大多基于SVM方法的垃圾用户分类方法基本只考虑了二值分类，没有考虑进行多值分类。此外，多类分类器会产生混分样本，对检测精度有一定影响。

发明内容

为克服上述现有技术中存在的缺陷，本发明的目的是提供一种基于模糊多类SVM的微博垃圾用户检测方法。该方法通过对垃圾用户的特征进行分析，将垃圾用户分为三类，采用SVM的多值分类算法构造分类器，针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理，得到组合分类器，有效提高了微博垃圾用户的分类精度。

为了实现上述目的本发明采用如下技术方案：一种基于模糊多类SVM的微博垃圾用户检测方法，包括以下步骤：

步骤一，根据微博的行为模式将垃圾用户分为三类：广告型垃圾用户S₁，重复转发型垃圾用户S₂，过度关注型垃圾用户S₃，并根据所述三类垃圾用户得到微博垃圾特征V。

步骤二，根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据，得到未标记样本集U。

步骤三，根据S₁、S₂和S₃三类垃圾用户分类标准，对未标记样本集U进行人工标记得到标记样本集D。

步骤四，对S₁、S₂和S₃三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析，分别画出S₁、S₂和S₃的社会关系特征以及微博活跃性特征的CDF(CumulativeDistribution Function)曲线，利用CDF曲线，寻找每一类垃圾用户有区分度的特征向量集V₁、V₂、V₃。

步骤五，通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D₁,D₂,D₃,从三组训练样本集中分别提取广告型垃圾用户S₁有区分度的特征向量集V₁、重复转发型垃圾用户S₂有区分度的特征向量集V₂、过度关注型垃圾用户S₃有区分度的特征向量集V₃作为训练样本特征，然后根据一对多SVM分类算法(one-versus-rest)，得到广告型垃圾用户分类器C₁、重复转发型垃圾用户分类器C₂和过度关注型垃圾用户分类器C₃,将C₁、C₂和C₃构建为多类微博垃圾用户检测分类器C。

步骤六，将待检用户作为输入样本通过C₁、C₂和C₃三个分类器时，每一个分类器都会给出判断，结合这三个SVM的综合判断结果和模糊后处理得到最终结论，输出检测结果。

在上述方案中，微博垃圾特征V为，V＝[粉丝数量,关注数量，微博创建天数，微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率，微博被转发概率，平均每条微博被评论次数(只计算被评论过的微博)，平均每条微博被转发次数(只计算被转发过的微博)，单条微博被转发次数最大值(只计算被转发过的微博)，单条微博被评论次数最大值(只计算被评论过的微博)]。

具体地，上述广告型垃圾用户S₁有区分度的特征向量集V₁、重复转发型垃圾用户S₂有区分度的特征向量集V₂、过度关注型垃圾用户S₃有区分度的特征向量集V₃分别为：

V₁＝[关注数量，粉丝数量，平均每天微博数量，平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数]；

V₂＝[关注数量，粉丝数量，平均每天微博数量，重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量]；

V₃＝[关注数量，关注数/粉丝数，平均每天微博数量，微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。

为了更好地实现本发明。上述步骤六具体检测步骤为：

S1：输入待测数据。

S2：待测数据通过广告型垃圾用户分类器C₁，判断是否属于广告型垃圾用户，如果属于，R1等于1，否则令R1等于-1，R1表示广告型垃圾用户的判断结果。

S3：待测数据通过重复转发型垃圾用户分类器C₂，判断是否属于重复转发型垃圾用户，如果属于，R2等于1，否则令R2等于-1，R2表示重复转发型垃圾用户的判断结果。

S4：待测数据通过过度关注型垃圾用户分类器C₃，判断是否属于过度关注型垃圾用户，如果属于，R3等于1，否则令R3等于-1，R3表示过度关注型垃圾用户的判断结果。

S5：对R1，R2，R3进行模糊推理。

S6：输出模糊处理后的判定结果。

更进一步，上述模糊推理的过程为，分别计算广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D₁(E)、D₂(E)、D₃(E),如果D₁(E)、D₂(E)、D₃(E)都小于0，则将与待测数据对应的输入样本归为正常用户；如果D₁(E)、D₂(E)、D₃(E)只有某一个D_i(E)>0，则将输入样本归入该类垃圾用户；对于其余情况，采用高斯隶属函数的模糊处理方法，更新D₁(E)、D₂(E)、D₃(E)，得到新的D′₁(E)、D′₂(E)、D′₃(E)，将输入样本归入D′₁(E)、D′₂(E)、D′₃(E)中的最大值所属垃圾用户类别。高斯隶属函数为

c表示某类聚类中心，本方法中代表广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户这三类垃圾用户其中一类的聚类中心；σ为常数，本发明中取2σ²＝625；x表示元素自变量。

本发明的优点与有益效果如下：

本发明使用一种基于模糊多类SVM的微博垃圾用户检测方法对微博用户进行多方位检测和判定。由于现有的微博垃圾用户研究，都是对全局的垃圾用户特征进行分析，分析力度不够，缺乏针对某类垃圾用户的特征分析，这样会使垃圾用户逃避检测***的检测。为了保证微博垃圾用户的识别准确度，保证微博平台的良好环境，本发明提出了基于模糊多类SVM的微博垃圾用户检测方法。首先，对全网微博用户进行特征行为分析，将垃圾用户分为广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户，然后根据三类微博垃圾用户特征采用网页爬虫的方式爬取微博用户数据，得到未标记样本集，对未标注样本集进行数据标注、特征值提取等处理，利用模糊多类SVM方法构造多类分类器，对微博垃圾用户进行检测。这种多类垃圾用户检测机制，有效的提高了全网垃圾用户的检测准确率。本发明采用一种基于模糊多类SVM的微博垃圾用户检测方法，将垃圾用户分为三类，构造一对多SVM多类分类器，并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理，得到组合分类器，提高了检测精度。

附图说明

本发明的上述和/或附加的方面和优点，结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的***结构图；

图2是本发明的多类微博垃圾用户检测流程图；

图3是本发明的模糊多类SVM处理流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

图1是本发明的整体流程结构示意图。如图所示，本发明提供一种基于模糊多类SVM的微博垃圾用户检测方法。首先，对微博垃圾用户进行行为分析，将垃圾用户分为三类，利用CDF曲线选择区分度大的特征作为训练样本特征；构建一对多SVM多类分类器对用户进行分类；针对多类分类器产生的混分样本采用模糊处理的方法，将混分样本重新划分类别，提高分类精确度，最后对分类器性能进行测试。

具体步聚如下：

S1：分析微博现状，由于目的不同、控制方式不同、行动策略不同，垃圾用户所呈现出来的行为模式也不尽相同，根据其主要行为模式分为三类：广告型垃圾用户S₁，重复转发型垃圾用户S₂，过度关注型垃圾用户S₃

S2：通过对S1中三种用户行为的分析，得到微博垃圾特征V，根据特征V采用网页爬虫的方式爬取微博用户数据，得到未标记样本集U。

S3：根据S1中的垃圾用户分类标准，对未标记样本集U进行人工标记得到标记样本集D，标记样本集D中包含三类垃圾用户和正常用户。

S4：对垃圾用户特征进行分析，主要包括两类特征：社会关系特征以及微博活跃性特征，其中社会关系特征统计量主要是粉丝数量、好友数量、关注数量以及相互之间的比例，能够体现出微博用户在微博平台的社会关系，微博活跃性特征统计量主要是用户发布的微博总数、每日微博数量、近10天微博数量等，能够体现出微博用户的活跃程度。针对每一类用户(广告型垃圾用户S₁，重复转发型垃圾用户S₂，过度关注型垃圾用户S₃)，画出该特征的CDF(Cumulative Distribution Function)曲线，利用CDF曲线，寻找对每一类用户有区分度的特征向量V₁、V₂、V₃。

S5：通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D₁,D₂,D₃。从三组训练样本集中分别提取S4中的特征向量V₁、V₂、V₃作为训练样本特征，然后根据一对多SVM分类算法(one-versus-rest)，得到广告型垃圾用户分类器C₁、重复转发型垃圾用户分类器C₂和过度关注型垃圾用户分类器C₃,结合C₁、C₂和C₃构建为多类微博垃圾用户检测分类器C。

S6：对S5中多类微博垃圾用户检测分类器C产生的混分样本进行模糊后处理来提高分类精度。

S7：利用结合模糊理论的分类器对待测用户进行检测。

图2是本发明的多类微博垃圾用户检测流程图。检测过程用到一对多SVM算法，其思想是：用一类和剩下其它所有类判别分类，它的实现策略是针对N类分类问题构造N个二类SVM分类器，第i(1≤i≤N)个SVM分类器将第i个类中的训练样本作为正的训练样本，而将其它的训练样本作为负的训练样本，待分类样本通过所有的分类器分类，找出属于正类的一个，这就是分类结果。

对于本发明的三类垃圾用户，利用三类垃圾用户的特征向量V₁、V₂、V₃作为训练样本特征，构建三个SVM分类器，分别对应广告型垃圾用户分类器C₁、重复转发型垃圾用户分类器C₂和过度关注型垃圾用户分类器C₃。当待检用户通过这三个SVM分类器时，每一个SVM都会给出判断，结合这三个SVM的综合判断结果和模糊后处理得到最终结论。具体步聚如下：

S21：输入待测数据L，从存有微博用户数据的数据库中随机抽取一个用户数据放入分类器中；

S22：待测数据L通过广告型垃圾用户分类器C₁，判断是否属于广告型垃圾用户，如果属于，R1等于1，否则令R1等于-1；

S23：待测数据L通过重复转发型垃圾用户分类器C₂，判断是否属于重复转发型垃圾用户，如果属于，R2等于1，否则令R2等于-1；

S24：待测数据L通过过度关注型垃圾用户分类器C₃，判断是否属于过度关注型垃圾用户，如果属于，R3等于1，否则令R3等于-1；

S25：对R1，R2，R3进行模糊推理，具体模糊步骤如图3所示；

S26：输出模糊处理后的判定结果。

图3是本发明的模糊多类SVM处理流程图。假设将类别i和其它类相区分开的第i个决策函数为：

其中，w是超平面的法向量，b是超平面的常数项，t表示对法向量w的转置，超平面D_i(x)＝0形成最优分类面，那些属于第i类的支持向量满足D_i(x)＝1，而属于其它支持向量则满足D_i(x)＝-1，对于输入向量x，若：

D_i(x)>0 (2)

如果x只满足一个i，则x被划分为类别i。但是当公式2满足多个i(混分)的情况下，x是不可分的了。为了处理这样的情况，对满足公式2的数据点在得到相同分类结果的情况下引入模糊隶属度函数。

具体来说，对类别i在垂直于最优分类面D_i(x)＝0的方向上定义一个一维的隶属度函数m_i,j(x)，当i＝j时：

其中隶属度函数m(x)是高斯隶属函数：

c表示某类聚类中心，σ为常数。当i≠j时：

当D_i(x)≥1时，只有第i类的训练样本数据存在，那么可以假设此时i的隶属度为1，否则就是D_i(x)。这里因为数据点相对于分类面方向的关系，容许负隶属度的存在。在i≠j的情况下，类i的样本处于相对分类面D_j(x)＝0为负值的那一半区域，这种情况下，假设D_j(x)≤-1时类i的隶属度为1，其它情况下则为-D_j(x)。

通过对m_i,j(x)(j＝1,...,n)求最小值定义类i的隶属度函数：

现在可以将向量x归入类别：

如果从公式3和公式4，x满足：

且有m_i(x)>0和m_j(x)≤0(j≠i,j＝1,...,n)，那么就将向量x归入到类别i中。这等价于公式2只满足一个i值的情况。

具体流程如下：

S31：对于待测样本E，计算出广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D₁(E)、D₂(E)、D₃(E)；

S32：判断是否有混分情况，若没有混分情况，决策函数D₁(E)、D₂(E)、D₃(E)的和就会小于等于0，进入S33；否则进行S36；

S33：判断用户是否属于正常用户，即判断D₁(E)、D₂(E)、D₃(E)的值是否都小于0，若D₁(E)＝＝D₂(E)＝＝D₃(E)<0，此时用户类型M属于正常用户，进行S39；否则进行S34；

S34：判断用户是否属于广告型垃圾用户，即判断D₁(E)是否大于0，若D₁(E)>0，则用户类型M属于广告型垃圾用户，进行S39；否则进行S35；

S35：判断用户是否属于重复转发型垃圾用户，即判断D₂(E)是否大于0，若D₂(E)>0，则用户类型M属于重复转发型垃圾用户，否则属于过度关注型垃圾用户，进行S39；

S36：根据上述公式得到的模糊处理方法，更新D₁(E)、D₂(E)、D₃(E)，得到新的D′₁(E)、D′₂(E)、D′₃(E)；

S37：将D′₁(E)、D′₂(E)、D′₃(E)中的最大值赋给R；

S38：根据R的值判断用户类型M，即R为D′₁(E)，用户类型M为广告型垃圾用户；R为D′₂(E)，用户类型M为重复转发型垃圾用户；R为D′₃(E)，用户类型M为过度关注型垃圾用户；

S39：输出用户类型M。

Claims

1.一种基于模糊多类SVM的微博垃圾用户检测方法，包括以下步骤：

步骤一，根据微博的行为模式将垃圾用户分为三类：广告型垃圾用户S₁，重复转发型垃圾用户S₂，过度关注型垃圾用户S₃，并根据所述三类垃圾用户得到微博垃圾特征V；

步骤二，根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据，得到未标记样本集U；

步骤三，根据S₁、S₂和S₃三类垃圾用户分类标准，对未标记样本集U进行人工标记得到标记样本集D；

步骤四，对S₁、S₂和S₃三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析，分别画出S₁、S₂和S₃的社会关系特征以及微博活跃性特征的CDF曲线，利用CDF曲线，寻找每一类垃圾用户有区分度的特征向量集V₁、V₂、V₃；

步骤五，通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D₁,D₂,D₃,从三组训练样本集中分别提取广告型垃圾用户S₁有区分度的特征向量集V₁、重复转发型垃圾用户S₂有区分度的特征向量集V₂、过度关注型垃圾用户S₃有区分度的特征向量集V₃作为训练样本特征，然后根据一对多SVM分类算法，得到广告型垃圾用户分类器C₁、重复转发型垃圾用户分类器C₂和过度关注型垃圾用户分类器C₃,将C₁、C₂和C₃构建为多类微博垃圾用户检测分类器C；所述一对多SVM分类算法构造N个二类SVM分类器，第i(1≤i≤N)个SVM分类器将第i个类中的训练样本作为正的训练样本，而将其它的训练样本作为负的训练样本；

步骤六，将待检用户作为输入样本通过C₁、C₂和C₃三个分类器时，每一个分类器都会给出判断，结合这三个SVM的综合判断结果和模糊后处理得到最终结论，输出检测结果；所述模糊后处理的步骤如下：

S33：判断用户是否属于正常用户，即判断D₁(E)、D₂(E)、D₃(E)的值是否都小于0，若D₁(E)＝＝D₂(E)＝＝D₃(E)＜0，此时用户类型M属于正常用户，进行S39；否则进行S34；

S34：判断用户是否属于广告型垃圾用户，即判断D₁(E)是否大于0，若D₁(E)＞0，则用户类型M属于广告型垃圾用户，进行S39；否则进行S35；

S35：判断用户是否属于重复转发型垃圾用户，即判断D₂(E)是否大于0，若D₂(E)＞0，则用户类型M属于重复转发型垃圾用户，否则属于过度关注型垃圾用户，进行S39；

S36：根据高斯隶属函数的模糊处理方法，更新D₁(E)、D₂(E)、D₃(E)，得到新的D′₁(E)、D′₂(E)、D′₃(E)；

S37：将D′₁(E)、D′₂(E)、D′₃(E)中的最大值赋给R；

S39：输出用户类型M。

2.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法，其特征在于：所述微博垃圾特征V为，V＝[粉丝数量,关注数量，微博创建天数，微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率，微博被转发概率，平均每条微博被评论次数，平均每条微博被转发次数，单条微博被转发次数最大值，单条微博被评论次数最大值]。

3.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法，其特征在于：所述广告型垃圾用户S₁有区分度的特征向量集V₁、重复转发型垃圾用户S₂有区分度的特征向量集V₂、过度关注型垃圾用户S₃有区分度的特征向量集V₃分别为：

4.根据权利要求1或2或3所述一种基于模糊多类SVM的微博垃圾用户检测方法，其特征在于：所述步骤六具体步骤为：

S1：输入待测数据；

S2：待测数据通过广告型垃圾用户分类器C₁，判断是否属于广告型垃圾用户，如果属于，R1等于1，否则令R1等于-1，R1表示广告型垃圾用户的判断结果；

S3：待测数据通过重复转发型垃圾用户分类器C₂，判断是否属于重复转发型垃圾用户，如果属于，R2等于1，否则令R2等于-1，R2表示重复转发型垃圾用户的判断结果；

S4：待测数据通过过度关注型垃圾用户分类器C₃，判断是否属于过度关注型垃圾用户，如果属于，R3等于1，否则令R3等于-1，R3表示过度关注型垃圾用户的判断结果；

S5：对R1，R2，R3进行模糊推理；

S6：输出模糊处理后的判定结果。

5.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法，其特征在于：所述高斯隶属函数为

c表示某类聚类中心，σ为常数，x表示元素自变量。