CN102629904B - 一种网络水军的探测与判定方法 - Google Patents

一种网络水军的探测与判定方法 Download PDF

Info

Publication number
CN102629904B
CN102629904B CN201210050176.9A CN201210050176A CN102629904B CN 102629904 B CN102629904 B CN 102629904B CN 201210050176 A CN201210050176 A CN 201210050176A CN 102629904 B CN102629904 B CN 102629904B
Authority
CN
China
Prior art keywords
user behavior
network navy
user
behavior
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210050176.9A
Other languages
English (en)
Other versions
CN102629904A (zh
Inventor
张炜
郑中华
高威
帅志虎
周银行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui boyue information Polytron Technologies Inc
Original Assignee
ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD filed Critical ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority to CN201210050176.9A priority Critical patent/CN102629904B/zh
Publication of CN102629904A publication Critical patent/CN102629904A/zh
Application granted granted Critical
Publication of CN102629904B publication Critical patent/CN102629904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,其流程为:用户行为采集——用户行为统计——网络水军预测——网络水军判定。本发明通过获取用户行为样本后对用户行为进行统计,再使用机器学习的方法建立预测模型,最后对网络水军进行预测。本发明作为基于用户行为进行网络水军探测的方法,弥补了目前主流技术的不足,能绕过倾向性识别问题,从而解决了无明显倾向的水军探测和识别问题;同时,该方法不要求发表同一作者发表大量同主题的帖子,解决了群体网络水军探测的问题。另外,本发明也使得网络水军探测具有清晰的组织结构,便于后续的网络水军行为特征的扩充。

Description

一种网络水军的探测与判定方法
[技术领域]
本发明涉及网络分析技术领域,尤其涉及一种网络水军的探测与判定方法。
[背景技术]
互联网作为一种新的信息传播媒体,已成为思想文化信息的集散地和社会舆论的放大器。互联网时代,信息的传播和受众是无数个体散点,受众既是信息的接受者,又是信息的传播者,随之而产生了一些受雇于网络公关公司,为他人发帖回帖造势的网络人员,这些人互联网上集体炒作某个话题或人物,以达到宣传、推销或者攻击某些人或产品的目的。
“受雇佣的‘网络水军’在网络上发布虚假或诽谤信息,扰乱虚拟社会正常秩序,为了能够对网络水军的行为进行监管,有必要使用技术手段对网络水军进行探测和跟踪。
在目前虚拟社会管控领域,主要的网络水军探测技术是情感倾向分析方法,该方法的依据是网络水军在网上发布的帖子往往是非理性的、带有强烈感情色彩的,或是极力美化雇主的产品或服务,或是极力贬低雇主竞争对手的产品或服务,整体上倾向性比较强烈。通过倾向性分析可以明确网络传播者的意图和倾向。
采用情感倾向分析方法探测流程如下:
信息采集——信息提取——情感倾向性判定——同主题倾向性统计——网络水军预测和判定
上述方法主要是通过用户对某个主题的主观倾向性进行水军探测,即认为如果用户对某个主题发表的正面或负面信息比例过高,则认为该用户可能为网络水军。
目前主流的网络水军技术的具体做法是:先通过互联网采集信息,然后通过页面分析技术抽取元数据(比如信息发布者,发布时间,信息源)和正文,再使用机器学习的方法对正文进行情感分类,判断其为正面或负面信息,经过统计后,如果发现在一段时间内,某人发布的正面或负面信息的阈值超过一定的比例,则认为该人是网络水军。实际实施过程是采集到网页后,先使用正则表达式抽取元数据,再使用DOM树对正文进行解析,再使用基于机器学习的篇章倾向性分类器对正文进行情感分类,倾向性分类器需要事先经过训练,即先对文章进行正、负面标注,再使用文本特征选择算法和分类算法构建分类器。
在图2所示的现有技术网络过程中,现有技术在网络水军判定过程中,要先基于网页抽取出作者,正文信息,该抽取过程必须准确,不能引入噪音,否则会对后期的倾向性判定和统计造成影响;用户的观点必须要具有倾向性,这样才能够使用经过训练的倾向性分类器对用户观点进行判断;而且用户必须针对该主题发表多篇有倾向性的文章或回复,这样才能够进行统计判断。
上述现有技术的不足之处在于:
1、现有技术要求网络水军发表的文章必须具有明显倾向性,否则方法失效。而在现实社会中,很多网友观点并不具有明显倾向性。例如“贾君鹏”,“犀利哥”事件等,网络水军的观点只是恶搞,并无主观倾向;
2、现有技术要求在一定的时间段内,网络水军针对同一主题,必须发表多篇文章,否则无法识别。而事实上,网络水军往往由一个群体操纵某个主题的炒作,不大会出现同一个人对同一主题发布大量正负面言论的行为。
[发明内容]
本发明要解决的技术问题是提供一种网络水军的探测与判定方法。
为了解决上述技术问题,本发明采用的技术方案是,一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,具体步骤如下:
一、用户行为采集主要是通过网站日志或网页源码解析并获取用户的行为数据,具体获取过程是如下(1)至(4)的4个步骤:
(1)先确定要抽取的用户行为信息,编写配置文件,在配置文件中标识这些关键信息的位置;
(2)编写针对配置文件的解析程序;
(3)获取到网页源码或网站日志后,基于配置文件中的位置信息进行信息提取;
(4)将采集的用户行为信息发送给用户行为统计模块;
二、用户行为统计需要对周期性的对用户的行为进行统计,按照不同的周期,输出不同的行为统计值,主要为如下(5)至(7)的3个步骤:
(5)根据预先确定的统计时间间隔划分为若干个区间,并将每个统计区间的统计属性初始值置零;
(6)获取到用户行为后,获取该行为发生的时间,确定该属性的统计区间,并将该区间的响应统计属性值增1;
(7)输出每个统计区间相应的属性值;
三、网络水军分类器的训练由通过离线方式完成,先通过样本标注,再经过特征选择或分类算法构建,可以最终用于在线的对网络水军进行判定,包括如下(8)至(12)的5个步骤:
(8)先通过用户行为采集模块获得用户上网行为样本;
(9)由专家对这些用户进行标注,给出其是否为网络水军的判定;
(10)使用抽取程序抽取出这些样本的特征,使用信息增益的方法进行特征选择;
(11)使用机器学习方法,如支持向量机(SVM),对步骤(8)中所述的用户上网行为样本进行训练后,生成预测模型;
(12)收集新用户的上网行为,使用所述的预测模型对其预测,判定其是否为网络水军。
本发明基于如下考虑,网络水军的网上发帖或回帖行为不同于正常的互联网用户,具体表现在网络水军会频繁的使用同一个用户账号发帖和回帖;发帖或回帖的IP通常不改变;会登陆不同网站发布相同或相似内容;同一IP会使用大量不同账号进行登陆,且登陆的时间具有明显的周期性等。基于网络水军的异常行为特征可以建立网络水军预测模型,收集用户的网络行为后,经过统计后便能够进行预测,判定其是否为网络水军。
本发明绕过主题的倾向性判定,通过对用户行为的采集,分析,增加了网络水军探测的通用性,提高了可识别网络水军的比例。
本发明的网络水军判定流程如下:
用户行为采集——用户行为统计——网络水军预测——网络水军判定
本发明的有益效果是:
通过获取用户行为样本后对用户行为进行统计,再使用机器学习的方法建立预测模型,最后对网络水军进行预测。
作为基于用户行为进行网络水军探测的方法,弥补了目前主流技术的不足,能绕过倾向性识别问题,从而解决了无明显倾向的水军探测和识别问题;同时,该方法不要求发表同一作者发表大量同主题的帖子,解决了群体网络水军探测的问题。另外,本发明也使得网络水军探测具有清晰的组织结构,便于后续的网络水军行为特征的扩充。
[附图说明]
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明网络水军的探测与判定方法实施例的结构示意图。
图2是现有技术的网络过程简图。
图3是本发明网络水军的探测与判定方法实施例的用户行为统计示意图。
[具体实施方式]
图1是一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,具体步骤如下:
一、用户行为采集主要是通过网站日志或网页源码解析并获取用户的行为数据,具体获取过程包括如下几个步骤:
(1)先对获取的网页源码或网站日志(html格式)进行格式转换,将其转换为标准的xml格式,和html相比,xml具有可扩展性强,结构良好,语义性强等特点,因而特别便于网络信息的集成,提取,过滤,检索及挖掘分析。该过程需要先读取将html文本进行标签分隔,将<和>之间的文本形成xml标签段,>和<号之间形成数据段。再将html解析为一棵树,基于上述规则,按照先序遍历的方法生成xml。在格式转换前,可以先使用html tidy工具进行代码验证,旨在对不正确的html代码进行修复。
(2)确定要提取的用户行为信息,如时间,作者,ip,标题等。修改步骤(1)中的xml文件,在这个文件中找到要抽取的信息,将这些关键信息用标签代替,即使用标签标识这些关键信息的位置。该xml文件作为抽取用配置文件;
(3)使用DOM树解析器对步骤(1)输出的xml文档进行解析后,生成DOM树,在该DOM树中查找步骤(2)中的关键信息标签,再输出该标签的父节点,父节点的父节点,直到文档的根节点结束。将该节点列表保存到配置文件中,最后输出该节点在兄弟节点中的位置,同时将位置信息保存到配置文件中。
(4)当获取到新的网页源码或网站日志后,使用步骤(1)和(2)的方法将其转换为DOM树,再依次获取配置文件中的位置信息,根据位置信息提取到关键用户行为信息;
(5)将采集的用户行为信息发送给用户行为统计模块;
二、用户行为统计模块需要实时的对用户的行为特征进行处理,用户的行为可以按照不同的周期,输出不同的行为统计值。如图3所示,事件***负责接收输入的用户行为信息,根据要统计的数据类型,发送给负责该统计属性的统计单元,统计过程在统计单元中完成,统计单元主要包括和配置文件,配置文件存储该单元要处理的统计属性和统计区间,统计属性类型(统计的属性字段,如登录次数,发表次数,回复次数),统计区间(要统计的周期,如小时,天,周,……)。每个统计单元只负责处理自己所关心的统计类型和所关注的统计区间。
需要指出的是,如果存在合适的处理单元,则交由该处理单元处理,如果没有,则会创建一个新的处理单元。所以一个统计处理容器中的统计处理单元可能有许多个,可能会因为有过多的处理单元而导致***效率降低,因而应该定期对使用率较低的处理单元进行清除,但是由于数据存放在节点内存中,所以清除前应该对有必要的数据进行持久化处理,否则会永久性丢失。实施时会考虑在处理单元上添加优先级等属性,可以提升清除处理单元的准确率。
处理单元初始化时,统计属性初始值置零,获取到新的用户行为后,获取该行为发生的时间,确定该属性的统计区间,并将该区间的响应统计属性值增1;最后由处理单元输出统计区间对应的属性值。
三、网络水军分类器的训练由通过离线方式完成,先通过样本标注,再经过特征选择或分类算法构建,可以最终用于在线的对网络水军进行判定,具体包括以下几个步骤
(1)离线的获取用户上网行为样本,该样本可以通过用户行为采集模块获取,样本经过持续一段时间采集后(如一个月),由专家对这些用户进行标注,给出其是否为网络水军的判定,再使用抽取程序抽取样本中的关键属性(抽取方法参见用户行为采集模块),并统计出用户行为属性或特征(统计方法参见用户行为统计模块),最后输出属性或特征值到文件中。
(2)在机器学习实际应用中,特征数量往往较多,特征个数越多,分析特征、训练模型所需的时间就越长。而且容易引起“维度灾难”,模型也会越复杂,应用效果会越差,因而实施过程中可以选择信息增益法对步骤1中的用户行为属性进行特征选择,信息增益定义如下:
分类标记C的信息熵H(C)可表示为:
H ( C ) = - &Sigma; i = 1 m P i log 2 P i
将特征Fj用于分类后的分类C的条件信息熵H(C|Fj)表示为:
H ( C | F j ) = &Sigma; i = 1 m P F = F j H ( C | F = F j )
选用特征Fj前后的C的信息熵的变化成为C的信息增益(InformationGain),用IG表示,公式为:
IG(C|Fj)=H(C)-H(C|Fj)
假设存在特征子集A和特征子集B,分类变量为C,若IG(C|A)>IG(C|B),则认为选用特征子集A的分类结果比B好,那么倾向于选用特征子集A。
(3)完成特征选择后,运用机器学习的方法对步骤1中的训练样本进行训练后,可以生成预测模型。支持向量机(SVM)是一种统计机器学习的方法,是小样本学习方法,增删训练样本对模型没有影响,因而实施过程中,采用SVM作为训练方法,将特征文件按照LIBSVM(SVM开源项目)格式准备好后,指定训练参数(也可以使用默认参数)后,调用其训练程序生成训练模型
(4)如果采集到新用户的上网行为,基于上步生成的预测模型,调用LIBSVM预测程序对该行为进行预测,判定其是否为网络水军。
本实施例使用用户在某一个时间段发帖或回帖的次数;使用某一IP发表文章的次数;发表内容相同的次数;使用同一IP登录不同账号的次数,用户账号登陆的时间间隔等特征作为用户行为特征,然后使用机器学习的方法进行建模和预测。同样,使用其他的用户行为特征,进行建模和预测都可以实现本发明目的,但都没有改变获取用户行为,然后进行建模和预测的本质,因此这些方案是本实施例的替代方案,都属于本发明的保护范围。

Claims (1)

1.一种网络水军的探测与判定方法,其特征在于,采用用户行为采集,用户行为统计和网络水军分类器训练三个模块来实现,具体步骤如下:
一、用户行为采集是通过网站日志或网页源码解析并获取用户的行为数据,具体获取过程是如下(1)至(4)的4个步骤:
(1)先确定要抽取的用户行为信息,编写配置文件,在配置文件中标识这些用户行为信息的位置;
(2)编写针对配置文件的解析程序;
(3)获取到网页源码或网站日志后,基于配置文件中的位置信息进行信息提取;
(4)将采集的用户行为信息发送给用户行为统计模块;
二、用户行为统计需要周期性地对用户的行为进行统计,按照不同的周期,输出不同的行为统计值,为如下(5)至(7)的3个步骤:
(5)根据预先确定的统计时间间隔划分为若干个区间,并将每个统计区间的统计属性初始值置零;
(6)获取到用户行为后,获取该行为发生的时间,确定该用户行为的统计区间,并将该区间的响应统计属性值增1;
(7)输出每个统计区间相应的属性值;
三、网络水军分类器的训练通过离线方式完成,先通过样本标注,再经过特征选择或分类算法构建,可以最终用于在线的对网络水军进行判定,包括如下(8)至(12)的5个步骤:
(8)先通过用户行为采集模块获得用户上网行为样本;
(9)由专家对这些用户进行标注,给出其是否为网络水军的判定;
(10)使用抽取程序抽取出这些样本的特征,使用信息增益的方法进行特征选择;
(11)使用支持向量机(SVM)的机器学习方法,对步骤(8)中所述的用户上网行为样本进行训练后,生成预测模型;
(12)收集新用户的上网行为,使用所述的预测模型对其预测,判定其是否为网络水军。
CN201210050176.9A 2012-02-24 2012-02-24 一种网络水军的探测与判定方法 Active CN102629904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210050176.9A CN102629904B (zh) 2012-02-24 2012-02-24 一种网络水军的探测与判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210050176.9A CN102629904B (zh) 2012-02-24 2012-02-24 一种网络水军的探测与判定方法

Publications (2)

Publication Number Publication Date
CN102629904A CN102629904A (zh) 2012-08-08
CN102629904B true CN102629904B (zh) 2015-02-18

Family

ID=46588066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210050176.9A Active CN102629904B (zh) 2012-02-24 2012-02-24 一种网络水军的探测与判定方法

Country Status (1)

Country Link
CN (1) CN102629904B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580946B (zh) * 2012-08-09 2018-07-06 腾讯科技(深圳)有限公司 自动机行为检测方法和装置
CN102929918B (zh) * 2012-09-20 2015-11-18 西北工业大学 虚假网络舆情识别方法
CN102946331B (zh) * 2012-10-10 2016-01-20 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103095499B (zh) * 2013-01-17 2016-05-04 上海交通大学 一种在微博平台中捕获水军的方法
CN103412930A (zh) * 2013-08-17 2013-11-27 北京品友互动信息技术有限公司 一种互联网用户属性识别方法
CN103617235B (zh) * 2013-11-26 2017-01-25 中国科学院信息工程研究所 一种基于粒子群算法的网络水军账号识别方法及***
CN103729678B (zh) * 2013-12-12 2016-10-05 中国科学院信息工程研究所 一种基于改进dbn模型的水军检测方法及***
CN104731816A (zh) * 2013-12-23 2015-06-24 阿里巴巴集团控股有限公司 一种处理异常业务数据的方法和装置
CN103795592B (zh) * 2014-01-21 2017-01-25 中国科学院信息工程研究所 网络水军的检测方法及装置
CN103745002B (zh) * 2014-01-24 2017-01-18 中国科学院信息工程研究所 一种基于行为特征与内容特征融合的水军识别方法及***
CN103812872B (zh) * 2014-02-28 2016-11-23 中国科学院信息工程研究所 一种基于混合狄利克雷过程的网络水军行为检测方法及***
CN104573017B (zh) * 2015-01-09 2018-09-04 网智天元科技集团股份有限公司 识别网络水军团体的方法及***
CN105183914A (zh) * 2015-10-14 2015-12-23 合一网络技术(北京)有限公司 数据特征格式化方法及装置
CN106708871B (zh) * 2015-11-16 2020-08-11 阿里巴巴集团控股有限公司 一种社交业务特征用户的识别方法和装置
CN105550250B (zh) * 2015-12-09 2019-06-28 百度在线网络技术(北京)有限公司 一种访问日志的处理方法及装置
CN106780060A (zh) * 2016-11-30 2017-05-31 华南师范大学 基于信息熵的地方协商社交网络用户身份判别方法和装置
CN109255024A (zh) * 2017-07-12 2019-01-22 车伯乐(北京)信息科技有限公司 一种异常用户同党的搜索方法,装置,及***
CN107612882B (zh) * 2017-08-03 2020-09-29 奇安信科技集团股份有限公司 一种基于中间日志的用户行为识别方法及装置
CN109472027A (zh) * 2018-10-31 2019-03-15 北京邮电大学 一种基于博文相似性的社交机器人检测***及方法
CN111191037B (zh) * 2020-01-06 2023-11-24 新华网股份有限公司 基于新闻评论的网络水军识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214239A (zh) * 2011-07-02 2011-10-12 李杰波 一种互联网社交网站的认知信息处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214239A (zh) * 2011-07-02 2011-10-12 李杰波 一种互联网社交网站的认知信息处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本情感分类的网络推手识别;李纲等;《图书情报工作》;20100430;第54卷(第8期);第77-80页 *

Also Published As

Publication number Publication date
CN102629904A (zh) 2012-08-08

Similar Documents

Publication Publication Date Title
CN102629904B (zh) 一种网络水军的探测与判定方法
CN106776841B (zh) 一种互联网舆情事件传播指数的获取方法和***
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及***
Shi et al. Detecting malicious social bots based on clickstream sequences
Morstatter et al. A new approach to bot detection: striking the balance between precision and recall
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及***
CN110134849A (zh) 一种网络舆情监控方法及***
CN106453357A (zh) 一种网络购票异常行为的识别方法、***及设备
CN104967587B (zh) 一种恶意账号的识别方法,及装置
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN107491548A (zh) 一种网络舆情文本信息推荐及可视化方法
CN107315810A (zh) 一种物联网设备行为画像方法
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
CN105224608A (zh) 基于微博数据分析的热点新闻预测方法及***
CN107707541A (zh) 一种流式的基于机器学习的攻击行为日志实时检测方法
CN104156447A (zh) 一种智能社交平台广告预警及处理方法
CN102571487B (zh) 基于多数据源分布式的僵尸网络规模测量及追踪方法
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及***
CN103176984A (zh) 一种用户生成内容中欺骗性垃圾意见检测方法
CN104516962A (zh) 一种微博舆情监控方法及监控***
CN104901847A (zh) 一种社交网络僵尸账号检测方法及装置
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN103136331A (zh) 微博网络意见领袖识别方法
CN103853744A (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 230000 A509 room, Science Park, Hefei National University, 602 Mount Huangshan Road, hi tech Zone, Anhui, Hefei

Patentee after: Anhui boyue information Polytron Technologies Inc

Address before: 230000 C2008 room, University Science Park, 602 Mount Huangshan Road, Hefei hi tech Zone, Anhui, China

Patentee before: Anhui Boryou Information Technology Co.,Ltd.