CN106557983B - 一种基于模糊多类svm的微博垃圾用户检测方法 - Google Patents
一种基于模糊多类svm的微博垃圾用户检测方法 Download PDFInfo
- Publication number
- CN106557983B CN106557983B CN201611016672.7A CN201611016672A CN106557983B CN 106557983 B CN106557983 B CN 106557983B CN 201611016672 A CN201611016672 A CN 201611016672A CN 106557983 B CN106557983 B CN 106557983B
- Authority
- CN
- China
- Prior art keywords
- user
- microblog
- users
- type
- junk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 239000010813 municipal solid waste Substances 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims 1
- 239000007924 injection Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000011160 research Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 9
- 241000700605 Viruses Species 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于模糊多类SVM的微博垃圾用户检测方法,将一对多SVM多类分类器与模糊数学理论相结合用于微博垃圾用户检测。现有的微博垃圾用户研究,都是对全局的垃圾用户特征进行分析,分析力度不够,缺乏针对某类垃圾用户的特征分析,这样会使垃圾用户逃避检测***的检测。本发明通过对微博垃圾用户的特征进行分析,将垃圾用户分为三类,构造一对多SVM多类分类器,并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,提高了检测精度。
Description
技术领域
本发明涉及社交网络安全领域,涉及利用机器学习算法和模糊数学对社交网络中的垃圾用户进行分析处理,特别是涉及一种基于模糊多类SVM的社交网络检测方法。
背景技术
微博(Weibo),也称微博客(MicroBlog),是一种简短实时信息分享的社交平台,用户通过相互关注实现短信息的共享,微博以其独特的弱关系链体系,***息分享方式赢得了广大网民的欢迎。近几年,新浪微博、Twitter等微博平台已经成为了互联网用户重要的信息分享平台。在这里,人们关注时事新闻,并分享关于实事和自身事件的看法和评论。随着微博用户的增长,垃圾信息(Spam)和垃圾用户(Spammer)的出现不可避免;例如:病毒网站的蠕虫病毒攻击了Twitter,大批用户发送垃圾Twitter消息,并诱骗更多用户访问病毒网站;新浪微博内的几万名用户由于点击了私信内的恶意链接,成为病毒受害者,并大量转发三俗微博;Facebook旗下照片分享服务Instagram也遭遇了大规模的垃圾信息攻击,受害用户主页上发布不雅照片,其个人简介上的链接也被修改;当正常用户点击了垃圾微博上的恶意URL时,很容易遭受钓鱼攻击或者感染病毒,造成账号被盗或者被劫持等等。
不断出现的微博垃圾问题,严重影响了微博用户的体验效果以及平台的持久发展,对微博上数据的挖掘与分析也造成了一定的干扰。此外,大量的垃圾问题导致了网络资源的严重耗费,给社交网络的运营带来了繁重的工作,造成生产力浪费,严重的会使个人以及公司蒙受巨大经济损失。
在现有的微博垃圾用户检测领域中,垃圾用户检测主要有三种检测方式:一是用户举报机制,用户可以向微博社区管理中心进行举报,其中要经过举证阶段、判定阶段、结果公示阶段,因此需要消耗一定人力成本;二是利用社区网络或图的检测方法,可以从用户的关注与粉丝关系所构成的社交网络入手构建垃圾信息过滤模型,但是垃圾用户为了逃避检测,现阶段的垃圾用户有意弱化其社交关系,因此存在局限性,只能对垃圾社交关系特征明显的垃圾用户有检测作用;三是基于特征分析+机器学习的检测方法,这种检测方法正确率高,是当前垃圾用户检测中很受欢迎的一种方法,该方法分析垃圾用户的特征,并基于这些分析提出了检测垃圾用户的算法。
现阶段的微博垃圾问题层出不穷,垃圾行为越来越多,使得剔除垃圾用户的难度大大增加。传统的特征分析+机器学习检测方法大多缺乏针对性的行为研究,全局的垃圾用户特征研究会使垃圾用户逃避检测***的检测,缺乏针对某种特定用户的垃圾行为研究。大多基于SVM方法的垃圾用户分类方法基本只考虑了二值分类,没有考虑进行多值分类。此外,多类分类器会产生混分样本,对检测精度有一定影响。
发明内容
为克服上述现有技术中存在的缺陷,本发明的目的是提供一种基于模糊多类SVM的微博垃圾用户检测方法。该方法通过对垃圾用户的特征进行分析,将垃圾用户分为三类,采用SVM的多值分类算法构造分类器,针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,有效提高了微博垃圾用户的分类精度。
为了实现上述目的本发明采用如下技术方案:一种基于模糊多类SVM的微博垃圾用户检测方法,包括以下步骤:
步骤一,根据微博的行为模式将垃圾用户分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3,并根据所述三类垃圾用户得到微博垃圾特征V。
步骤二,根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U。
步骤三,根据S1、S2和S3三类垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D。
步骤四,对S1、S2和S3三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析,分别画出S1、S2和S3的社会关系特征以及微博活跃性特征的CDF(CumulativeDistribution Function)曲线,利用CDF曲线,寻找每一类垃圾用户有区分度的特征向量集V1、V2、V3。
步骤五,通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3,从三组训练样本集中分别提取广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3作为训练样本特征,然后根据一对多SVM分类算法(one-versus-rest),得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,将C1、C2和C3构建为多类微博垃圾用户检测分类器C。
步骤六,将待检用户作为输入样本通过C1、C2和C3三个分类器时,每一个分类器都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论,输出检测结果。
在上述方案中,微博垃圾特征V为,V=[粉丝数量,关注数量,微博创建天数,微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率,微博被转发概率,平均每条微博被评论次数(只计算被评论过的微博),平均每条微博被转发次数(只计算被转发过的微博),单条微博被转发次数最大值(只计算被转发过的微博),单条微博被评论次数最大值(只计算被评论过的微博)]。
具体地,上述广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3分别为:
V1=[关注数量,粉丝数量,平均每天微博数量,平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数];
V2=[关注数量,粉丝数量,平均每天微博数量,重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量];
V3=[关注数量,关注数/粉丝数,平均每天微博数量,微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。
为了更好地实现本发明。上述步骤六具体检测步骤为:
S1:输入待测数据。
S2:待测数据通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1,R1表示广告型垃圾用户的判断结果。
S3:待测数据通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1,R2表示重复转发型垃圾用户的判断结果。
S4:待测数据通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1,R3表示过度关注型垃圾用户的判断结果。
S5:对R1,R2,R3进行模糊推理。
S6:输出模糊处理后的判定结果。
更进一步,上述模糊推理的过程为,分别计算广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E),如果D1(E)、D2(E)、D3(E)都小于0,则将与待测数据对应的输入样本归为正常用户;如果D1(E)、D2(E)、D3(E)只有某一个Di(E)>0,则将输入样本归入该类垃圾用户;对于其余情况,采用高斯隶属函数的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E),将输入样本归入D′1(E)、D′2(E)、D′3(E)中的最大值所属垃圾用户类别。高斯隶属函数为c表示某类聚类中心,本方法中代表广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户这三类垃圾用户其中一类的聚类中心;σ为常数,本发明中取2σ2=625;x表示元素自变量。
本发明的优点与有益效果如下:
本发明使用一种基于模糊多类SVM的微博垃圾用户检测方法对微博用户进行多方位检测和判定。由于现有的微博垃圾用户研究,都是对全局的垃圾用户特征进行分析,分析力度不够,缺乏针对某类垃圾用户的特征分析,这样会使垃圾用户逃避检测***的检测。为了保证微博垃圾用户的识别准确度,保证微博平台的良好环境,本发明提出了基于模糊多类SVM的微博垃圾用户检测方法。首先,对全网微博用户进行特征行为分析,将垃圾用户分为广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户,然后根据三类微博垃圾用户特征采用网页爬虫的方式爬取微博用户数据,得到未标记样本集,对未标注样本集进行数据标注、特征值提取等处理,利用模糊多类SVM方法构造多类分类器,对微博垃圾用户进行检测。这种多类垃圾用户检测机制,有效的提高了全网垃圾用户的检测准确率。本发明采用一种基于模糊多类SVM的微博垃圾用户检测方法,将垃圾用户分为三类,构造一对多SVM多类分类器,并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,提高了检测精度。
附图说明
本发明的上述和/或附加的方面和优点,结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的***结构图;
图2是本发明的多类微博垃圾用户检测流程图;
图3是本发明的模糊多类SVM处理流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1是本发明的整体流程结构示意图。如图所示,本发明提供一种基于模糊多类SVM的微博垃圾用户检测方法。首先,对微博垃圾用户进行行为分析,将垃圾用户分为三类,利用CDF曲线选择区分度大的特征作为训练样本特征;构建一对多SVM多类分类器对用户进行分类;针对多类分类器产生的混分样本采用模糊处理的方法,将混分样本重新划分类别,提高分类精确度,最后对分类器性能进行测试。
具体步聚如下:
S1:分析微博现状,由于目的不同、控制方式不同、行动策略不同,垃圾用户所呈现出来的行为模式也不尽相同,根据其主要行为模式分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3
S2:通过对S1中三种用户行为的分析,得到微博垃圾特征V,根据特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U。
S3:根据S1中的垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D,标记样本集D中包含三类垃圾用户和正常用户。
S4:对垃圾用户特征进行分析,主要包括两类特征:社会关系特征以及微博活跃性特征,其中社会关系特征统计量主要是粉丝数量、好友数量、关注数量以及相互之间的比例,能够体现出微博用户在微博平台的社会关系,微博活跃性特征统计量主要是用户发布的微博总数、每日微博数量、近10天微博数量等,能够体现出微博用户的活跃程度。针对每一类用户(广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3),画出该特征的CDF(Cumulative Distribution Function)曲线,利用CDF曲线,寻找对每一类用户有区分度的特征向量V1、V2、V3。
S5:通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3。从三组训练样本集中分别提取S4中的特征向量V1、V2、V3作为训练样本特征,然后根据一对多SVM分类算法(one-versus-rest),得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,结合C1、C2和C3构建为多类微博垃圾用户检测分类器C。
S6:对S5中多类微博垃圾用户检测分类器C产生的混分样本进行模糊后处理来提高分类精度。
S7:利用结合模糊理论的分类器对待测用户进行检测。
图2是本发明的多类微博垃圾用户检测流程图。检测过程用到一对多SVM算法,其思想是:用一类和剩下其它所有类判别分类,它的实现策略是针对N类分类问题构造N个二类SVM分类器,第i(1≤i≤N)个SVM分类器将第i个类中的训练样本作为正的训练样本,而将其它的训练样本作为负的训练样本,待分类样本通过所有的分类器分类,找出属于正类的一个,这就是分类结果。
对于本发明的三类垃圾用户,利用三类垃圾用户的特征向量V1、V2、V3作为训练样本特征,构建三个SVM分类器,分别对应广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3。当待检用户通过这三个SVM分类器时,每一个SVM都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论。具体步聚如下:
S21:输入待测数据L,从存有微博用户数据的数据库中随机抽取一个用户数据放入分类器中;
S22:待测数据L通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1;
S23:待测数据L通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1;
S24:待测数据L通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1;
S25:对R1,R2,R3进行模糊推理,具体模糊步骤如图3所示;
S26:输出模糊处理后的判定结果。
图3是本发明的模糊多类SVM处理流程图。假设将类别i和其它类相区分开的第i个决策函数为:
其中,w是超平面的法向量,b是超平面的常数项,t表示对法向量w的转置,超平面Di(x)=0形成最优分类面,那些属于第i类的支持向量满足Di(x)=1,而属于其它支持向量则满足Di(x)=-1,对于输入向量x,若:
Di(x)>0 (2)
如果x只满足一个i,则x被划分为类别i。但是当公式2满足多个i(混分)的情况下,x是不可分的了。为了处理这样的情况,对满足公式2的数据点在得到相同分类结果的情况下引入模糊隶属度函数。
具体来说,对类别i在垂直于最优分类面Di(x)=0的方向上定义一个一维的隶属度函数mi,j(x),当i=j时:
当Di(x)≥1时,只有第i类的训练样本数据存在,那么可以假设此时i的隶属度为1,否则就是Di(x)。这里因为数据点相对于分类面方向的关系,容许负隶属度的存在。在i≠j的情况下,类i的样本处于相对分类面Dj(x)=0为负值的那一半区域,这种情况下,假设Dj(x)≤-1时类i的隶属度为1,其它情况下则为-Dj(x)。
通过对mi,j(x)(j=1,...,n)求最小值定义类i的隶属度函数:
现在可以将向量x归入类别:
如果从公式3和公式4,x满足:
且有mi(x)>0和mj(x)≤0(j≠i,j=1,...,n),那么就将向量x归入到类别i中。这等价于公式2只满足一个i值的情况。
具体流程如下:
S31:对于待测样本E,计算出广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E);
S32:判断是否有混分情况,若没有混分情况,决策函数D1(E)、D2(E)、D3(E)的和就会小于等于0,进入S33;否则进行S36;
S33:判断用户是否属于正常用户,即判断D1(E)、D2(E)、D3(E)的值是否都小于0,若D1(E)==D2(E)==D3(E)<0,此时用户类型M属于正常用户,进行S39;否则进行S34;
S34:判断用户是否属于广告型垃圾用户,即判断D1(E)是否大于0,若D1(E)>0,则用户类型M属于广告型垃圾用户,进行S39;否则进行S35;
S35:判断用户是否属于重复转发型垃圾用户,即判断D2(E)是否大于0,若D2(E)>0,则用户类型M属于重复转发型垃圾用户,否则属于过度关注型垃圾用户,进行S39;
S36:根据上述公式得到的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E);
S37:将D′1(E)、D′2(E)、D′3(E)中的最大值赋给R;
S38:根据R的值判断用户类型M,即R为D′1(E),用户类型M为广告型垃圾用户;R为D′2(E),用户类型M为重复转发型垃圾用户;R为D′3(E),用户类型M为过度关注型垃圾用户;
S39:输出用户类型M。
Claims (5)
1.一种基于模糊多类SVM的微博垃圾用户检测方法,包括以下步骤:
步骤一,根据微博的行为模式将垃圾用户分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3,并根据所述三类垃圾用户得到微博垃圾特征V;
步骤二,根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U;
步骤三,根据S1、S2和S3三类垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D;
步骤四,对S1、S2和S3三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析,分别画出S1、S2和S3的社会关系特征以及微博活跃性特征的CDF曲线,利用CDF曲线,寻找每一类垃圾用户有区分度的特征向量集V1、V2、V3;
步骤五,通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3,从三组训练样本集中分别提取广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3作为训练样本特征,然后根据一对多SVM分类算法,得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,将C1、C2和C3构建为多类微博垃圾用户检测分类器C;所述一对多SVM分类算法构造N个二类SVM分类器,第i(1≤i≤N)个SVM分类器将第i个类中的训练样本作为正的训练样本,而将其它的训练样本作为负的训练样本;
步骤六,将待检用户作为输入样本通过C1、C2和C3三个分类器时,每一个分类器都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论,输出检测结果;所述模糊后处理的步骤如下:
S31:对于待测样本E,计算出广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E);
S32:判断是否有混分情况,若没有混分情况,决策函数D1(E)、D2(E)、D3(E)的和就会小于等于0,进入S33;否则进行S36;
S33:判断用户是否属于正常用户,即判断D1(E)、D2(E)、D3(E)的值是否都小于0,若D1(E)==D2(E)==D3(E)<0,此时用户类型M属于正常用户,进行S39;否则进行S34;
S34:判断用户是否属于广告型垃圾用户,即判断D1(E)是否大于0,若D1(E)>0,则用户类型M属于广告型垃圾用户,进行S39;否则进行S35;
S35:判断用户是否属于重复转发型垃圾用户,即判断D2(E)是否大于0,若D2(E)>0,则用户类型M属于重复转发型垃圾用户,否则属于过度关注型垃圾用户,进行S39;
S36:根据高斯隶属函数的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E);
S37:将D′1(E)、D′2(E)、D′3(E)中的最大值赋给R;
S38:根据R的值判断用户类型M,即R为D′1(E),用户类型M为广告型垃圾用户;R为D′2(E),用户类型M为重复转发型垃圾用户;R为D′3(E),用户类型M为过度关注型垃圾用户;
S39:输出用户类型M。
2.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述微博垃圾特征V为,V=[粉丝数量,关注数量,微博创建天数,微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率,微博被转发概率,平均每条微博被评论次数,平均每条微博被转发次数,单条微博被转发次数最大值,单条微博被评论次数最大值]。
3.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3分别为:
V1=[关注数量,粉丝数量,平均每天微博数量,平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数];
V2=[关注数量,粉丝数量,平均每天微博数量,重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量];
V3=[关注数量,关注数/粉丝数,平均每天微博数量,微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。
4.根据权利要求1或2或3所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述步骤六具体步骤为:
S1:输入待测数据;
S2:待测数据通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1,R1表示广告型垃圾用户的判断结果;
S3:待测数据通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1,R2表示重复转发型垃圾用户的判断结果;
S4:待测数据通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1,R3表示过度关注型垃圾用户的判断结果;
S5:对R1,R2,R3进行模糊推理;
S6:输出模糊处理后的判定结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611016672.7A CN106557983B (zh) | 2016-11-18 | 2016-11-18 | 一种基于模糊多类svm的微博垃圾用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611016672.7A CN106557983B (zh) | 2016-11-18 | 2016-11-18 | 一种基于模糊多类svm的微博垃圾用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106557983A CN106557983A (zh) | 2017-04-05 |
CN106557983B true CN106557983B (zh) | 2020-11-17 |
Family
ID=58444836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611016672.7A Active CN106557983B (zh) | 2016-11-18 | 2016-11-18 | 一种基于模糊多类svm的微博垃圾用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106557983B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832413A (zh) * | 2017-11-07 | 2018-03-23 | 电子科技大学 | 一种微博无效用户的检测方法 |
CN109120592A (zh) * | 2018-07-09 | 2019-01-01 | 四川大学 | 一种基于用户行为的Web异常检测*** |
CN109102418A (zh) * | 2018-08-08 | 2018-12-28 | 电子科技大学 | 基于用户关系的社交网络垃圾账号识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294833A (zh) * | 2012-11-02 | 2013-09-11 | 中国人民解放军国防科学技术大学 | 基于用户的关注关系的垃圾用户发现方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
-
2016
- 2016-11-18 CN CN201611016672.7A patent/CN106557983B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294833A (zh) * | 2012-11-02 | 2013-09-11 | 中国人民解放军国防科学技术大学 | 基于用户的关注关系的垃圾用户发现方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
Non-Patent Citations (1)
Title |
---|
Spammer Detection Based on Comprehensive Features in Sina Microblog;Shanshan Gao 等;《IEEE》;20160626;第II-VI部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN106557983A (zh) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morstatter et al. | A new approach to bot detection: striking the balance between precision and recall | |
Tesfahun et al. | Intrusion detection using random forests classifier with SMOTE and feature reduction | |
CN103812872B (zh) | 一种基于混合狄利克雷过程的网络水军行为检测方法及*** | |
Sheikhi | An Efficient Method for Detection of Fake Accounts on the Instagram Platform. | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及*** | |
CN108768986A (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
Shen et al. | On robust image spam filtering via comprehensive visual modeling | |
Ma et al. | A deep learning-based DDoS detection framework for Internet of Things | |
CN106557983B (zh) | 一种基于模糊多类svm的微博垃圾用户检测方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
Ahmed et al. | Network sampling designs for relational classification | |
CN112818257A (zh) | 基于图神经网络的账户检测方法、装置和设备 | |
Zhao et al. | Intrusion detection based on clustering genetic algorithm | |
CN110377605A (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN107403007A (zh) | 一种基于网络的微博消息可信度判别模型的方法 | |
Feng et al. | BotFlowMon: Learning-based, content-agnostic identification of social bot traffic flows | |
CN112100515B (zh) | 一种用于社交媒体中假消息的检测方法 | |
CN108494620A (zh) | 基于多目标自适应演化算法的网络业务流特征选择与分类方法 | |
Long et al. | A method of machine learning for social bot detection combined with sentiment analysis | |
Jan et al. | Semi-supervised labeling: a proposed methodology for labeling the twitter datasets | |
Salehi et al. | Hybrid simple artificial immune system (SAIS) and particle swarm optimization (PSO) for spam detection | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
CN1612135A (zh) | 入侵检测(保护)产品与防火墙产品中的协议识别技术 | |
Kumar et al. | A recurrent neural network model for spam message detection | |
Shen et al. | RP-NBSR: A Novel Network Attack Detection Model Based on Machine Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |