CN106682118A - 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 - Google Patents

基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 Download PDF

Info

Publication number
CN106682118A
CN106682118A CN201611123200.1A CN201611123200A CN106682118A CN 106682118 A CN106682118 A CN 106682118A CN 201611123200 A CN201611123200 A CN 201611123200A CN 106682118 A CN106682118 A CN 106682118A
Authority
CN
China
Prior art keywords
social network
data
sample
vermicelli
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611123200.1A
Other languages
English (en)
Inventor
王博
王一博
袁巍
李佳桓
李珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201611123200.1A priority Critical patent/CN106682118A/zh
Publication of CN106682118A publication Critical patent/CN106682118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,利用网络爬虫自动获取微博或其它社交网络用户数据,同时还具有模拟登陆功能,从网络爬虫提取的数据中选取出特征字段,得到训练样本和测试样本,并采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,再利用测试样本对分类模型进行测试,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度,最后利用最佳分类模型对微博或其它社交网络用户进行检测,对虚假粉丝的检测精确度得到了极大地提高,而且运算量较小,处理速度快,数据在运算过程中不容易受干扰,特别适合于海量数据处理。

Description

基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
技术领域
本发明涉及一种虚假粉丝检测方法,尤其涉及一种基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,属于数据处理技术领域。
背景技术
现在世界各地的人们依靠在线社交网络(OSN)分享知识、意见和经验,寻求信息和资源,拓展人脉关系,但在社交网站中,用户的行为并不一定都是真实的。由于现在使用在线社交网络的用户非常之多,社交网站在对普通用户提供价值的同时,也成为各种形式的被利用获利的平台。例如:社交网站上的大量用户信息是广告推广者和进行诈骗的人所希望获取的;一些希望扩大自己账户的社交参与度的人会利用机器人进行点赞或转发;在社交网站上拥有很高人气的人则希望通过大量的虚假账户来提升自己账户的被关注数量,进而显示自己在社交网站的人气。一些企业希望通过社交网站中用户的详细信息来提取对自己有价值的业务信息,人们希望用真实人的信息来引导自己的数据库。但是20%到40%之间的Facebook账户是伪造的,推特和LinkedIn也面临不同程度的假账户问题。不管创造假账号的特殊动机是什么,大量的假账户的存在,都会破坏该社交网络的价值。例如,如果用户开始怀疑个人资料信息的真实性,就会削弱网络的可信度。他们也可能会对网络广告收入产生负面影响,因为如果他们中的许多人都不是真正的人,广告主可能会质疑他们对一定数量的用户支付的价格。一般而言,任何参与活动的网络社交账户如果没有反应用户的真正兴趣,则可以被视为虚假的社交账户。
由于社交网络粉丝数量在广告推广、娱乐节目等方面拥有巨大的经济价值,在利益驱动之下,当前社交网络***中出现了大量的异常用户,俗称“僵尸粉”。异常用户的存在既有损社交网络价值,也违背诚信社会之原则,造成了恶劣的社会影响。僵尸粉是指一些长期没有动态、也没有活动记录,不参与任何社交活动,同一IP地址申请多个微博账号的用户,也称为虚假粉丝或死粉丝。一般都用在商业领域发挥他的用处的,有商家会向需要增加自己粉丝数量的用户出售这样的僵尸粉。这样看起来用户的粉丝很多,受到很多微博用户的关注,但其实都只是根本没有人管理的虚假账户,这种虚假粉丝从不对该用户发布的信息进行评论、转发,除了增加粉丝的数字没有任何实际意义。微博上的虚假粉丝,通过花钱就可以买到很多的微博用户的“关注”,通常是由***自动产生的恶意注册用户,并不是由真是的人所使用的账户,因此实现僵尸粉的精确检测进而删除僵尸粉对微博具有重要意义。
目前检测社交网站虚假粉丝的方法也有一些研究,但是现有已经被提出的检测方法大多依赖于在线社交活动中具有相似行为模式的用户组进行行为聚类的方法,现有的检测方法对于数据来源大多依赖社交网站的安全团队所提供的数据,或与其他组织合作得到数据来源。对数据规模的要求很大,可能需要太多的集群来产生有用的结果,同时需要很大的计算量,运算复杂,处理速度慢,尤其是一些聚类算法对孤立分布的点或记录错误的数据敏感,孤立分布的点或记录错误的数据很容易干扰运算过程,导致聚类效果不佳,另外,现在的聚类算法对于不同的输入数据的顺序会导致不同的结果,以上弊端都会导致对虚假粉丝的检测不准确,很容易出现遗漏的现象。因此,如何准确的大规模检测并分类筛选出虚假粉丝和异常账户已经成为一个亟待解决的技术难题。
发明内容
本发明的目的是针对现有取微博或其它社交网络存在大量的虚假粉丝,现有的检测识别方法准确度不佳,运算量很大,运算复杂,处理速度慢,而且对孤立分布的点或记录错误的数据敏感,数据在运算过程中很容易受干扰的缺陷和不足,现提供一种运算量较小,处理速度快,数据在运算过程中不容易受干扰,对虚假粉丝检测精确度高的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法。
为实现上述目的,本发明的技术解决方案是:基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于包括以下步骤:
a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;
b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;
c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;
d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;
e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;
f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。
所述d步骤中SVM算法如下:假设有N个训练样本{(x1,y1),(x2,y2),…,(xN,yN)},x是N维向量,而yi∈{-1,+1}是样本的标签,分别代表两个分类的类别,需要用这些被标记过的训练样本去训练一个分类器:
f(x)=sgn(wTx+b) (3-1)
其中w表示系数向量,x表示n维向量,y表示样本的标签,b表示偏置量;当wTx+b结果小于0的时候,分类器输出-1;当wTx+b结果大于0的时候,分类器输出+1,g(x)=wTx+b=0就是我们要寻找的分类超平面。
所述b步骤中采用模拟登陆的方式,通过一个已知账户发送登录的cookie,从而用网络爬虫实现微博或其它社交网络账户的模拟登陆。
所述c步骤中的特征字段为5个以上,特征字段包括微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数以及转载数。
所述d步骤中分类模型为支持向量机模型。
本发明的有益效果是:
1.本发明构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,能够抓取特定网页上的数据,同时还具有模拟登陆功能,还可以设置爬取深度,使得所获取的信息量能够控制在所需要的范围内。
2.本发明从网络爬虫提取的数据中选取出特征字段,得到训练样本和测试样本,并采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,再利用测试样本对分类模型进行测试,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度。
3、本发明不再依赖于社交网站的安全团队所提供的数据,能够直接获取微博或其它社交网络用户数据,并利用机器学习的方式训练形成分类模型,最后利用最佳分类模型对微博或其它社交网络用户进行检测,对虚假粉丝的检测精确度得到了极大地提高,即使对于一些伪装很高级的虚假账户,也能达到较高的检测识别精度,而且运算量较小,处理速度快,数据在运算过程中不容易受干扰,特别适合于海量数据处理。
附图说明
图1是本发明网络爬虫的工作流程图。
图2是本发明SVM算法分类超平面示意图。
图3是本发明SVM算法中支持向量与H1和H2的距离图示。
图4是采用本发明网络爬虫运行截图。
具体实施方式
以下结合附图说明和具体实施方式对本发明作进一步的详细描述。
参见图1至图4,本发明的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,包括以下步骤:
a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;
b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;
c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;
d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;
e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;
f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。
所述d步骤中SVM算法如下:假设有N个训练样本{(x1,y1),(x2,y2),…,(xN,yN)},x是N维向量,而yi∈{-1,+1}是样本的标签,分别代表两个分类的类别,需要用这些被标记过的训练样本去训练一个分类器:
f(x)=sgn(wTx+b) (3-1)
其中w表示系数向量,x表示n维向量,y表示样本的标签,b表示偏置量;当wTx+b结果小于0的时候,分类器输出-1;当wTx+b结果大于0的时候,分类器输出+1,g(x)=wTx+b=0就是我们要寻找的分类超平面。
所述b步骤中采用模拟登陆的方式,通过一个已知账户发送登录的cookie,从而用网络爬虫实现微博或其它社交网络账户的模拟登陆。
所述c步骤中的特征字段为5个以上,特征字段包括微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数以及转载数。
所述d步骤中分类模型为支持向量机模型。
本发明采用了可以自动获取微博或其它社交网络用户数据的网络爬虫,也就是scrapy网络爬虫,网络爬虫能够抓取特定网页上的数据,可以采用Python语言编写的网络爬虫框架,它具有轻量级、简单轻巧的特点。网络爬虫是一个速度快、效率高的数据爬取框架,可以很快地速度爬取网站并完成从网页中提取结构化数据,用户只需对其中的几个模块进行操作就可以开发出一个功能强大的网络爬虫。对待爬取的网页进行分析是网络爬虫的关键之一,各种各样的网页有着复杂的HTML结构,很多的网页信息是由JavaScript动态生成,这使得对网页结构的分析更加的重要。由于不同的网页有不同的结构,因此在爬取网页前,要对网页的结构进行深入的分析,找到需要提取的有用信息。
首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据,item中定义相应的item字段用于保存所希望提取的结构性数据。例如,本发明中定义了9个item字段,用于用HTML中提取到的微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数和转载数。网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求,参见附图1。网络爬虫从一个初始的URL开始,Scrapy Engine将初始网页交给Scheduler模块,调度器将组装成的request传递给下载器对网页的HTML进行下载。下载模块将下载好的网页HTML传递给爬虫进行分析,根据爬虫分析出的两种不同的结果,进行不同的处理。如果是一个需要使用爬虫进一步抓取的URL,爬虫会将其传回调度器,重复上面的步骤生成新的request,如果得到了希望提取的数据,则会被送到item和pipeline模块,这两个模块会对数据进行进一步的处理。
用户在使用微博等其它社交网络时,需要使用自己的账号和密码进行登录,例如微博在客户端对用户的账号、密码进行了加密,只有登录后才能查看用户的微博信息和内容,像新浪微博WEIBO.COM这样的SNS网站必须事先登录之后才能访问到它的数据。为了在经过加密的社交网站获取希望得到的数据是需要使用密码登陆的,在利用网络爬虫获取微博或其它社交网络用户数据的过程中,也是需要用密码登陆的,而本发明采用的是合法的模拟登陆的方式来实现登陆,其实现过程及原理如下:通过一个已知账户发送登录的cookie,从而用网络爬虫实现微博的模拟登陆。在Scrapy中具体实现时,就是在爬取的spider类中,重载start_requests方法,生成一个带cookie的request,后续爬取的request同样需要带上cookie。在用scrapy爬虫模拟登陆之后,这样就可以利用xpath和正则表达式提取微博网页中我们希望获取的特定数据。
scrapy网络爬虫可以沿着网页中的超链接转入另一个URL,因此网络爬虫可以进入某一个用户的粉丝列表,从而获得大量的样本。同时,网络爬虫可以设置爬取深度,这样可以把获取的信息量控制在我们需要的范围。本发明通过网络爬虫实现了对数据样本的自动获取,自动获取样本对一个检测***来说是非常具有实用价值的,它摆脱了对其他数据来源的依赖,使我们的检测***更加的独立。
在提取的数据中选取出特征值,例如可以设定微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数和转载数这9个特征字段。另外,还可以增加微博账户首页的个人信息填写是否完整,真实的账户往往会填写个人信息,如出生年月,归属地,昵称,性别等,而僵尸粉往往不会填写个人信息,这也是判断一个账户是否是僵尸粉的一个因素。也还可以从微博内容中进行虚假账户的判断,发布的内容是真的有意义的还是仅仅是名人名言或广告信息。通过网络爬虫获取一定数量的训练样本数据,作为训练样本,并对训练样本进行人工标记,训练样本用于让分类器进行机器学习和训练,产生记忆,形成分类模型。为了提高分类器的学习效果,可以增大样本数据的容量,增加学习次数。以类似的方式,从某个拥有大量粉丝的账户的粉丝列表中,随机选取一定数量的账户作为测试集,也就是作为测试样本,测试样本的样本容量小于训练样本的样本容量,还需要对测试样本进行人工审核并进行标记,测试样本用于对形成的分类模型进行测试和预测,再对预测结果进行评估并输出精确度。
这些训练样本中既有正样本也有负样本,相比于负样本,正样本即普通用户的多样性非常大,需要给出足够多的样本来训练。例如:一些名人明星的粉丝数会达到几万甚至几千万,一些普通大学生的关注数和粉丝数会在几十到几千的范围。微博数的变化范围也很大,从一百条左右,到几千条上万条的情况都有。由于每个用户使用微博的方式和习惯差异很大,使得从样本中提取到的特征值区别也很大,绝大多数的普通用户的微博下会受到粉丝的点赞或评论,然而有些真实的用户仅仅是转发一些热门信息或某一类其所感兴趣的话题,或者微博的发布量很小,而没有任何的评论或点赞,或者评论和点赞二者仅有其一,这类情况也是我们在训练中重点去考虑的情况,在训练集中有很多这类的样本。
本发明建立了一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学***面的一个决策函数。把样本中的正例和反例用超平面分开,其原则是使正例和反例之间的间隔最大。假设有N个训练样本{(x1,y1),(x2,y2),…,(xN,yN)},x是N维向量,而yi∈{-1,+1}是样本的标签,分别代表两个分类的类别,需要用这些被标记过的训练样本去训练一个分类器:
f(x)=sgn(wTx+b) (3-1)
其中w表示系数向量,x表示n维向量,y表示样本的标签,b表示偏置量。当wTx+b结果小于0的时候,分类器输出-1;当wTx+b结果大于0的时候,分类器输出+1,g(x)=wTx+b=0就是我们要寻找的分类超平面。
需要这个超平面最大程度的分开这两类,也就是这个分类超平面到这两个类中最近的那个样本的距离相同,而且使这个距离最大。设两个与分类超平面平行且距离相等的超平面H1:y=wTx+b=+1和H2:y=wTx+b=-1。在分类时需要满足:1)在这两个平面之间没有样本;(2)获得最大距离,我们需要最大化这两个平面之间的距离,处于这两个超平面上的样本,称作支持向量。把H1和H2表示成:H1:w1x1+w2x2=+1和H2:w1x1+w2x2=-1,H1和H2的距离可以表示为
|1+1|/sqrt(w1 2+w1 2)=2/||w|| (3-2)
为了最大化这个距离,应使||w||达到最小值,而且要满足没有数据样本分布在H1和H2之间。
对于一个正样本yi=+1,y=wTx+b>=+1。对于一个负样本yi=-1,y=wTx+b<=-1。这两个约束,可以合并成同一个式子即yi(wTxi+b)>=1。这样得到我们的最优问题:
Min||w||2/2 (3-3)
yi(wTxi+b)>=1 (3-4)
这是个凸二次规划问题。凸集是指在一个点的集合中任取其中两个点连一条直线,这条线上的点仍然在这个集合内部。对于凸函数来说,局部最优解就是全局最优解,但对非凸函数来说局部最优解不一定是全局最优解。即SVM算法中可以得到目标函数的全局最优解,凸二次规划问题是指目标函数是自变量的二次函数。
根据拉格朗日函数的对偶性,求解该优化问题的最优解可以转化为求对偶问题的最优解。将线性可分的优化问题的最优解转化为求对偶问题最优解的优点在于:(1)对偶问题与原始问题相比更容易求解;(2)可以将核函数引入对偶问题,在解决非线性分类问题时,可以利用核函数进一步减少计算量。在对偶问题中求出优化问题的最大值对应着原始问题中的优化问题的最小值。对于不等式约束,其实是同样的操作。通过在每一个约束条件上加一个拉格朗日乘子,我们可以在目标函数中加入约束条件,应用拉格朗日乘子法使得优化问题可以得到更容易的处理。
在引入拉格朗日乘子后,根据KKT条件的理论,可以得到下面的拉格朗日函数:
α表示拉格朗日乘子,然后对L(w,b,α)分别求w和b的极值。也就是L(w,b,α)对w和b的梯度为0:还需要满足α>=0。
将所求出的极值代入上面的拉格朗日函数后,所求的优化问题变成:
这是所求优化问题的对偶问题,当求出上面优化问题表达式中最优的α*后,代入上面的对偶问题即可求出w*和b*,求出表达式中的参数后就可以得到决策函数和分类超平面。对SVM模型的训练结束后,对待预测的测试样本,决策函数可以表示为:
在上面的决策函数中很多的是0,w只是一些少量的不为0的样本的线性权重。这种很多样本没有参与决策函数的情况可以看作是KNN的数据压缩版本。在利用模型做预测时,对待预测的测试样本根据w和b做一次线性运算,根据输出结果是+1还是-1来判断是属于正类还是负类。在已知了后,我们不必求出w,只需将待预测的样本和训练数据中的所有样本做内积和即可。不为0的样本就是超平面上的支持向量,其他样本都为0。在预测分类结果时只需求出待预测样本和支持向量的内积,模型就可以对分类输出预测结果。
偏离所属类别位置很远的数据点产生的原因可能是噪声对采集训练样本数据的影响,也可能是标记时的失误。这类数据点会导致分隔超平面不得不因这类偏离正常位置的点时间隔距离变小,更严重的情况会无法构造出能将数据线性分开的超平面。对于由错误或噪声影响而不符合某些规律的数据点,允许一些点到分类平面的距离不满足原先的要求。为了引入容错性,我们给样本点到分类面的间隔距离阈值1加一个松弛变量。我们在目标函数中加入对离群点的惩罚项,
subject to yi(wTxi-b)+ζi-1≥0,1≤i≤N
ζi≥0,1<i≤N (3-10)
其中ξi是一个非负参数,表示松弛变量C表示离群点的权重,在目标函数中引入非负参数ξi,称之为松弛变量,一些样本点的间隔可以小于1,即有些样本点可以出现在最大间隔区间里。在目标函数中引入松弛变量后,间隔距离可以是负数,即有些样本点可以出现在另一类的区域中。在放松了限制条件以后,我们在目标函数中加入对离群点的惩罚项,目标函数的第二项表示离群点的数目越多,目标函数值越大。目标函数第二项中的C是离群点的权重,C越大表示离群点对目标函数的影响越大,也就是离群点偏离所属类别的程度越大。在目标函数中增加了离群点的程度及数目,放松了限制条件后大部分样本点会满足目标函数的限制条件。
优化问题变成了,
对于线性不可分的分类问题,可以使用一个非线性映射Φ(x)将低维空间的分类问题变换到一个高维空间,在高维特征空间中,对两类样本的分类问题可能会变成线性可分的问题了。然后在高维特征空间中使用SVM算法进行分类。在SVM优化问题中,训练SVM和使用SVM实现预测分类都需要使用样本间的内积,而且只用到样本间的内积。计算核函数投射到高维特征空间后两个样本内积的值,
K(xi,xj)=Φ(xi)TΦ(xj) (3-13)
对于核函数,我们选用径向基函数(RBF),RBF核函数的形式如下:
K(x,x’)=exp(-r‖x-x’‖2) (3-14)
超参数R称为内核的带宽,它基于交叉验证结果调整。
优化问题变成了如下形式:
决策函数变成了:
根据cover定理,低维空间线性不可分的分类问题通过一个非线性的变换投射到高维空间,在高维空间可能实现线性可分,但是直接使用SVM在高维空间对样本进行分类或回归存在很多问题,如选定非线性映射函数和映射函数中的参数,确定高维特征空间的维数等问题,而最大的难点是在高维特征空间直接SVM算法会在运算上带来大量的计算量,甚至无法得到分类决策函数。采用核函数既可以完成由低维空间向高维空间的映射又不会带来很大的计算量。核函数的计算量与原始低维空间数据的内积计算量相比并没有增加太多,大大简化了在高维空间分类的计算量,这样就充分体现了本发明SVM算法的优越性。
随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型。再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度,达到了所要求的精度阈值后分类模型的学习和优化完成,随后可以直接用于大规模的数据处理。最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户,采用本发明检测方法对虚假粉丝检测的准确率可以达到96%以上,可以较为精确的完成对微博账户等其它社交网站账户的分类,为虚假粉丝的清理删除、账户类别分选提供了准确的依据。
本发明社交网站虚假粉丝检测方法的第一个具体运用实例如下:
以新浪微博为例,具体针对范冰冰新浪微博,采用本发明的检测方法来检测分拣出虚假粉丝,也就是微博僵尸粉,首先利用爬虫框架构建一个可以自动获取用户微博数据的网络爬虫,网络爬虫能够自动获取新浪微博的网络数据。利用网络爬虫爬取范冰冰微博,获取的范冰冰的关注数、粉丝数、微博数以及每条微博的内容、评论数、点赞数,参见附图4。网络爬虫可以沿着网页中的超链接转入另一个URL,因此网络爬虫可以进入某一个用户的粉丝列表,从而获得大量的样本。同时,网络爬虫可以设置爬取深度,我们可以把获取的信息量控制在我们需要的范围。在提取的数据中选取出特征值,得到训练样本和测试样本,在实例中我们获取了500个注册超过半年的账户作为训练数据样本,并对训练样本进行手工标记。以类似的方式,我们从某个拥有大量粉丝的账户的粉丝列表中,随机选取100个账户作为测试集,形成测试样本,对测试样本进行人工审核并进行标记。
使用python语言建立一个采用经典的SVM算法的分类器,在python中引入libsvm库,来完成用svm算法实现分类。随机从500个训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果。然后对分类模型进行测试,用经过训练的模型对待分类的测试样本数据进行预测,再对预测结果进行评估并输出得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度。
利用经过人工标记的样本数据训练分类模型,并用一组随机的测试数据对分类模型的性能进行检测。对于我们选取的训练样本C-SVC的参数c和γ最优解为,c=8192.0,γ=0.000122,核函数中的g=0.0078125,决策函数中的常数项b=-0.0593671,支持向量个数总共有76个,其中正样本和负样本中支持向量的个数分别为39个和37个。交叉验证精度CV Rate=96.9849。在选取了最优的参数后,模型对分类结果的精确度为96%,达到了所要求的精度阈值。这就使得对虚假粉丝的检测精确度得到了极大地提高,即使对于一些伪装很高级的虚假账户,采用本发明的检测方法也能达到较高的检测识别精度,而且运算量较小,处理速度快,数据在运算过程中不容易受干扰,检测识别的精度高。

Claims (5)

1.基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于包括以下步骤:
a、首先利用爬虫框架构建一个可以自动获取微博或其它社交网络用户数据的网络爬虫,并定义了相应的item字段用于保存所希望提取的结构性数据;
b、然后网络爬虫自动获取微博或其它社交网络数据,提取所选定的特征值,网络爬虫从一个初始的URL开始,获取网页中所需要提取的数据,再提取新的URL进入下一轮爬取,直至满足停止要求;
c、在提取的数据中选取出特征字段,得到训练样本和测试样本,并对训练样本进行人工标记;
d、建立一个采用经典的SVM算法的分类器,随机从训练样本中抽取多组数据导入到分类器中,让分类器进行机器学习,形成训练分类模型,完成训练后的分类模型能够对测试样本进行预测分类结果;
e、再利用测试样本对分类模型进行测试,得到交叉验证精度,通过不断调整分类模型的各设定参数来达到最佳的交叉验证精度;
f、最后利用最佳分类模型对微博或其它社交网络用户进行检测,在预测分类结果时输出分类结果,也就检测区分出了虚假粉丝和正常用户。
2.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于:所述d步骤中SVM算法如下:假设有N个训练样本{(x1,y1),(x2,y2),…,(xN,yN)},x是N维向量,而yi∈{-1,+1}是样本的标签,分别代表两个分类的类别,需要用这些被标记过的训练样本去训练一个分类器:
f(x)=sgn(wTx+b) (3-1)
其中w表示系数向量,x表示n维向量,y表示样本的标签,b表示偏置量;当wTx+b结果小于0的时候,分类器输出-1;当wTx+b结果大于0的时候,分类器输出+1,g(x)=wTx+b=0就是我们要寻找的分类超平面。
3.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于:所述b步骤中采用模拟登陆的方式,通过一个已知账户发送登录的cookie,从而用网络爬虫实现微博或其它社交网络账户的模拟登陆。
4.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于:所述c步骤中的特征字段为5个以上,特征字段包括微博数、关注数、粉丝数、微博ID、用户ID、微博内容、点赞数以及转载数。
5.根据权利要求1所述的基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法,其特征在于:所述d步骤中分类模型为支持向量机模型。
CN201611123200.1A 2016-12-08 2016-12-08 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 Pending CN106682118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611123200.1A CN106682118A (zh) 2016-12-08 2016-12-08 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611123200.1A CN106682118A (zh) 2016-12-08 2016-12-08 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法

Publications (1)

Publication Number Publication Date
CN106682118A true CN106682118A (zh) 2017-05-17

Family

ID=58868553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611123200.1A Pending CN106682118A (zh) 2016-12-08 2016-12-08 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法

Country Status (1)

Country Link
CN (1) CN106682118A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核***和方法以及构建短信审核模型方法
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN108256573A (zh) * 2018-01-16 2018-07-06 成都寻道科技有限公司 一种Web Service用户端虚假申请识别方法
CN108710912A (zh) * 2018-05-21 2018-10-26 郑州大学 基于二分类机器学习的时序逻辑近似模型检测方法及***
CN108763313A (zh) * 2018-04-26 2018-11-06 平安科技(深圳)有限公司 模型的在线训练方法、服务器及存储介质
CN109214175A (zh) * 2018-07-23 2019-01-15 中国科学院计算机网络信息中心 基于样本特征训练分类器的方法、装置及存储介质
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN109255994A (zh) * 2018-10-26 2019-01-22 北京智能优学科技有限公司 一种外语教学自适应学习方法及计算机可读存储介质
WO2019057048A1 (zh) * 2017-09-20 2019-03-28 北京数安鑫云信息技术有限公司 一种低频爬虫识别方法、装置、可读存储介质及设备
CN109560960A (zh) * 2018-11-05 2019-04-02 杭州迪普科技股份有限公司 Waf暴力破解防护的参数配置方法及装置、waf***
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN110069617A (zh) * 2017-11-09 2019-07-30 北京嘀嘀无限科技发展有限公司 论坛帖的管理方法、装置、服务器和计算机可读存储介质
CN110378864A (zh) * 2018-04-10 2019-10-25 中南大学 一种基于Radon域特征表示的青光眼检测方法
CN110633726A (zh) * 2018-12-25 2019-12-31 北京时光荏苒科技有限公司 一种房源识别方法、装置、存储介质及电子设备
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法
CN112232774A (zh) * 2020-10-20 2021-01-15 国网河南省电力公司漯河供电公司 一种用于办公自动化***的账号清退与内存分配预测方法
CN112862195A (zh) * 2021-02-19 2021-05-28 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN113158076A (zh) * 2021-04-05 2021-07-23 北京工业大学 一种基于变分自编码和k近邻组合的社交机器人检测方法
WO2021258480A1 (zh) * 2020-06-22 2021-12-30 网宿科技股份有限公司 一种基于图神经网络的网络爬虫检测方法、***及装置
CN114897176A (zh) * 2022-03-11 2022-08-12 南京鼎傲科技有限公司 一种基于人工智能的互联网大数据处理***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268214A (zh) * 2014-09-24 2015-01-07 苏州大学 一种基于微博用户关系的用户性别识别方法及***
CN104484390A (zh) * 2014-12-11 2015-04-01 哈尔滨工程大学 一种面向微博的僵尸粉丝检测方法
CN104901847A (zh) * 2015-05-27 2015-09-09 国家计算机网络与信息安全管理中心 一种社交网络僵尸账号检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268214A (zh) * 2014-09-24 2015-01-07 苏州大学 一种基于微博用户关系的用户性别识别方法及***
CN104484390A (zh) * 2014-12-11 2015-04-01 哈尔滨工程大学 一种面向微博的僵尸粉丝检测方法
CN104901847A (zh) * 2015-05-27 2015-09-09 国家计算机网络与信息安全管理中心 一种社交网络僵尸账号检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙轶轩: "基于数据挖掘的道路交通事故分析研究", 《中国博士学位论文全文数据库工程科技II辑》 *
王一博: "基于Scrapy的社交网络异常用户检测***研究与开发", 《信息与电脑(理论版)》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612893B (zh) * 2017-09-01 2020-06-02 北京百悟科技有限公司 短信的审核***和方法以及构建短信审核模型方法
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核***和方法以及构建短信审核模型方法
WO2019057048A1 (zh) * 2017-09-20 2019-03-28 北京数安鑫云信息技术有限公司 一种低频爬虫识别方法、装置、可读存储介质及设备
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN110069617A (zh) * 2017-11-09 2019-07-30 北京嘀嘀无限科技发展有限公司 论坛帖的管理方法、装置、服务器和计算机可读存储介质
CN108256573A (zh) * 2018-01-16 2018-07-06 成都寻道科技有限公司 一种Web Service用户端虚假申请识别方法
CN108256573B (zh) * 2018-01-16 2021-06-25 成都寻道科技有限公司 一种Web Service用户端虚假申请识别方法
CN110378864B (zh) * 2018-04-10 2021-07-16 中南大学 一种基于Radon域特征表示的青光眼检测方法
CN110378864A (zh) * 2018-04-10 2019-10-25 中南大学 一种基于Radon域特征表示的青光眼检测方法
CN108763313A (zh) * 2018-04-26 2018-11-06 平安科技(深圳)有限公司 模型的在线训练方法、服务器及存储介质
CN108710912A (zh) * 2018-05-21 2018-10-26 郑州大学 基于二分类机器学习的时序逻辑近似模型检测方法及***
CN108710912B (zh) * 2018-05-21 2021-04-02 郑州大学 基于二分类机器学习的时序逻辑近似模型检测方法及***
CN110688273B (zh) * 2018-07-05 2021-02-19 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN109214175B (zh) * 2018-07-23 2021-11-16 中国科学院计算机网络信息中心 基于样本特征训练分类器的方法、装置及存储介质
CN109214175A (zh) * 2018-07-23 2019-01-15 中国科学院计算机网络信息中心 基于样本特征训练分类器的方法、装置及存储介质
CN109255101A (zh) * 2018-08-23 2019-01-22 北京学之途网络科技有限公司 基于机器学习和抽样算法的微博粉丝数获取方法及装置
CN109255994A (zh) * 2018-10-26 2019-01-22 北京智能优学科技有限公司 一种外语教学自适应学习方法及计算机可读存储介质
CN109560960B (zh) * 2018-11-05 2022-06-28 杭州迪普科技股份有限公司 Waf暴力破解防护的参数配置方法及装置、waf***
CN109560960A (zh) * 2018-11-05 2019-04-02 杭州迪普科技股份有限公司 Waf暴力破解防护的参数配置方法及装置、waf***
CN110633726A (zh) * 2018-12-25 2019-12-31 北京时光荏苒科技有限公司 一种房源识别方法、装置、存储介质及电子设备
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN109978020B (zh) * 2019-03-07 2022-04-01 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
WO2021258480A1 (zh) * 2020-06-22 2021-12-30 网宿科技股份有限公司 一种基于图神经网络的网络爬虫检测方法、***及装置
CN111953740A (zh) * 2020-07-21 2020-11-17 冠群信息技术(南京)有限公司 一种基于selenium检查统计微博博主不活跃粉丝的方法
CN112232774A (zh) * 2020-10-20 2021-01-15 国网河南省电力公司漯河供电公司 一种用于办公自动化***的账号清退与内存分配预测方法
CN112232774B (zh) * 2020-10-20 2022-09-09 国网河南省电力公司漯河供电公司 一种用于办公自动化***的账号清退与内存分配预测方法
CN112862195A (zh) * 2021-02-19 2021-05-28 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN112862195B (zh) * 2021-02-19 2023-06-20 金陵科技学院 基于sft-als的时间序列粉丝涨幅预测方法
CN113158076A (zh) * 2021-04-05 2021-07-23 北京工业大学 一种基于变分自编码和k近邻组合的社交机器人检测方法
CN113158076B (zh) * 2021-04-05 2022-07-22 北京工业大学 一种基于变分自编码和k近邻组合的社交机器人检测方法
CN114897176A (zh) * 2022-03-11 2022-08-12 南京鼎傲科技有限公司 一种基于人工智能的互联网大数据处理***及方法
CN114897176B (zh) * 2022-03-11 2023-11-07 内蒙古塞上明珠科技成果推广服务有限公司 一种基于人工智能的互联网大数据处理***及方法

Similar Documents

Publication Publication Date Title
CN106682118A (zh) 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
US10810317B2 (en) Sensitive data classification
US11797595B2 (en) Method, apparatus, and computer program product for user-specific contextual integration for a searchable enterprise platform
Wang et al. TM-LDA: efficient online modeling of latent topic transitions in social media
US20200026772A1 (en) Personalized user feed based on monitored activities
US11048712B2 (en) Real-time and adaptive data mining
WO2020061578A1 (en) Method and apparatus for collecting, detecting and visualizing fake news
Sharma et al. A document-level sentiment analysis approach using artificial neural network and sentiment lexicons
Mughaid et al. An intelligent cybersecurity system for detecting fake news in social media websites
US11263486B2 (en) Computer-based systems including machine learning models trained on distinct dataset types and methods of use thereof
Zhang et al. Phishing detection method based on borderline-smote deep belief network
Rodrigues et al. Real‐Time Twitter Trend Analysis Using Big Data Analytics and Machine Learning Techniques
Wang et al. A multidimensional nonnegative matrix factorization model for retweeting behavior prediction
Xu et al. Leveraging app usage contexts for app recommendation: a neural approach
Khullar et al. f-FNC: Privacy concerned efficient federated approach for fake news classification
Li Accurate digital marketing communication based on intelligent data analysis
Das et al. Exquisite analysis of popular machine learning–based phishing detection techniques for cyber systems
Bao et al. A topic-rank recommendation model based on Microblog topic relevance & user preference analysis
Sharma et al. Fake news detection using deep learning
Prieto et al. Knowledge-based approach to detect potentially risky websites
Zhao et al. [Retracted] Network Media Public Opinion and Social Governance Supported by the Internet‐of‐Things Big Data
Jain et al. Review on analysis of classifiers for fake news detection
Liu et al. Predicting Rumor veracity on social media with graph structured multi-task learning
Rana et al. Grouped ABC for feature selection and mean-variance optimization for rule mining: a hybrid framework
Fang et al. A collaborative trend prediction method using the crowdsourced wisdom of web search engines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517