CN111159399A - 一种汽车垂直网站水军甄别方法 - Google Patents

一种汽车垂直网站水军甄别方法 Download PDF

Info

Publication number
CN111159399A
CN111159399A CN201911285641.5A CN201911285641A CN111159399A CN 111159399 A CN111159399 A CN 111159399A CN 201911285641 A CN201911285641 A CN 201911285641A CN 111159399 A CN111159399 A CN 111159399A
Authority
CN
China
Prior art keywords
user
water army
automobile
characteristic
army
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911285641.5A
Other languages
English (en)
Inventor
娄子安
王磊
郭伟
陈晓帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911285641.5A priority Critical patent/CN111159399A/zh
Publication of CN111159399A publication Critical patent/CN111159399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种汽车垂直网站水军甄别方法,所述方法包括:采集汽车垂直网站的用户信息;深入分析正常用户和水军的区别,构建由用户名特征、粉丝关注比、精华帖特征、活跃度特征、车主特征、文本内容特征组成的六元组特征模型;在六元组特征模型的基础上结合逻辑回归对水军进行检测识别。本发明通过对汽车垂直网站的某些车型的论坛评论中的真实用户与水军的识别问题进行探究,去伪存真,剔除掉水军用户及其发表的评论,留下真实用户及其评论,为下一步的产品改进与设计提供了参考。

Description

一种汽车垂直网站水军甄别方法
技术领域
本发明涉及汽车垂直网站信息处理技术领域,尤其涉及一种汽车垂直网站水军甄别方法。
背景技术
随着互联网的迅速发展和普及,越来越多的人选择在线上浏览和购买汽车,所以会常常查看其它买主对已购车型的评价。另一方面,汽车产品的研发团队也会从用户评论中挖掘用户的使用体验。因此汽车类垂直网站的用户评论无论是从汽车产品改进迭代方面还是顾客购买决策方面都有着重要参考作用。然而,这些评论的发出者却并不都是正常用户,夹杂了很多的水军,发出大量的异常评论混淆视听、干扰买主。
李异平[1]等人分析了网络水军的产生、扩散特点以及影响,但并未提出具体的识别方法。但随着这一群体逐渐深入人们的视野,网络水军具体识别的研究也在逐步深入,范秀珍[2]最先明确提出对于水军影响事件的防范要从源头出发,即防范的对象是“水军”而不是“网络”。网络水军通过大量的评论加回复来刻意的引导舆论方向,其结果使得部分人群收益,其评论内容缺乏客观性和真实性,是在利益操控下的商业行为,造成了对设计研究机构的误导。再例如,莫倩[3]等人针对网络水军的特点和行为模式进行了研究,并且对水军的识别特征的进展进行了阐述,分析出了网络水军的识别方向;刘健男[4]等人在针对现在的电影评论的粉丝用户识别提出了一种用朴素贝叶斯算法来检测并对用户进行分类,其特征的选取主要针对黑粉和粉丝的行为模式来进行选取,该方法能够反映出不同种类的无效用户,但现如今的水军组成已不再限于专业团队,还有很多兼职水军,随着时间的积累,该方法的错误率是不能解决的一大难题。同样,基于相同的朴素贝叶斯算法原理,张艳梅[5]等人在微博领域对无效用户的识别进行了分析,并总结出了包括微博粉丝数、微博回复数等多条特征共同作用来对水军用户进行识别,其分析是在保证水军识别准确的前提下进行识别,其分析结果可能会造成水军的判断过量的问题。对于部分样本无法标准的情况,张慧杰[6]等人提出了一种基于多特征尺度空间模型的网络水军组织发现技术,通过模型的建立来甄别网络中存在的组织是否为网络水军。这种方法能够极大降低虚假评论识别的巨大人工标注工作量,然而在优选各个模型的过程中存在着不可避免的误差,使得最终的识别准确率受到影响。在设计决策方面,杨程[7]等人提出了一种基于主成分分析对产品的外观进行多目标决策的方法,通过求解其主成分及其贡献率来构建评价函数模型,这种方法提高了设计评价的客观性和科学性,但是数据量庞大,对于所用服务器的存储能力有一定要求,因而有一定的局限性。近年来,随着水军的行为模式及评论习惯的复杂化,单单仅凭监督学习进行水军识别难以达到预期效果,王梦华[8]提出了一种基于分歧的半监督学习方法来实现虚假评论的检测任务,效果显示更为准确良好。道如那[9]提出了一种基于文本与用户行为挖掘的方法对虚假评论进行了识别,利用SVM(支持向量机)、XGboost(极端梯度提升)分类算法搭建了识别模型,虽准确率较高,但是在特征选取方面不是很全面,难以适应兼职水军的大量涌入形势。
随着汽车网站用户评论的日益增多,水军的行为日趋正常化和隐蔽化,以及水军比例的加速扩展,仅仅通过记录和分析ID与IP地址的特征来识别评论的真实与否已不能满足当今的趋势,用户评论的识别亟需一个能够涵盖大数据特征的自动识别方法来提高识别的效率与准确率,进而能够及时对产品的改进提出合理的建议与措施,为汽车产品的产业发展增添活力。
参考文献:
[1]李异平,武鹏.网络水军的传播乱象评析[J].网络传播,2011(9):98-99
[2]范秀珍.网络水军的传播机制与治理对策[J].网络传播,2011(7):56-57
[3]莫倩,杨珂.网络水军识别研究[J].软件学报,2014,25(07):1505-1526.
[4]刘健男.基于机器学习的高级水军识别模型[A].中国计算机学会.第33次全国计算机安全学术交流会论文集[C].中国计算机学会:中国计算机学会计算机安全专业委员会,2018:4.
[5]张艳梅,黄莹莹,甘世杰,丁熠,马志龙.基于贝叶斯模型的微博网络水军识别算法研究[J].通信学报,2017,38(01):44-53.
[6]张慧杰.基于多特征尺度空间模型的网络水军组织发现技术研究[D].浙江工商大学,2015.
[7]杨程,孙守迁,刘征,柴春雷.基于主成分分析的产品外观设计决策模型[J].中国机械工程,2011,22(18):2218-2223.
[8]王梦华.基于半监督学习的虚假评论识别研究[D].南京财经大学,2018.
[9]道如那.基于文本与用户行为挖掘的虚假评论识别研究[D].内蒙古大学,2018.
发明内容
本发明提供了一种汽车垂直网站水军甄别方法,本发明通过对汽车垂直网站的某些车型的论坛评论中的真实用户与水军的识别问题进行探究,去伪存真,剔除掉水军用户及其发表的评论,留下真实用户及其评论,为下一步的产品改进与设计提供了参考,详见下文描述:
一种汽车垂直网站水军甄别方法,其特征在于,所述方法包括:
采集汽车垂直网站的用户信息;
深入分析正常用户和水军的区别,构建由用户名特征、粉丝关注比、精华帖特征、活跃度特征、车主特征、文本内容特征组成的六元组特征模型;
在六元组特征模型的基础上结合逻辑回归对水军进行检测识别;
所述用户名特征:
Figure BDA0002317905590000031
其中,len(number)表示用户昵称中数字的个数或长度,len(name)表示用户昵称的整体字符个数或长度。
所述粉丝关注比:
Figure BDA0002317905590000032
其中,num(fans)为用户所拥有的粉丝数目,num(observe)为用户的关注数,abs为差值的绝对值。
所述精华帖特征:
Figure BDA0002317905590000033
其中,num(jinghuatie)表示用户发布的精华帖的个数,num(zhutie)表示用户发布的全部帖子的个数。
所述活跃度特征:
Figure BDA0002317905590000034
其中,hi为用户对于他人发出的单个帖子的回复数,N为用户回复其他人发出的帖子的总数量。
所述车主特征:
Figure BDA0002317905590000035
其中,1表示该用户有认证车主的标志,0表示该用户没有认证车主的标志。
所述文本内容特征:T6=count*ad、senw、puc+
其中,ad是程度副词,senw是情感词(同时包括好或坏),puc是不常用的特殊的标点符号,count表示计数。
本发明提供的技术方案的有益效果是:
1、通过本发明可以很好的过滤掉水军留下真实用户,从而保证了信息的真实性,可以更好地服务于买主;
2、本发明还有助于汽车产品的研发团队从真实用户的各类信息中挖掘出最有价值的使用体验以及消费者的偏好等,以利于产品的更新迭代,做出最受消费者欢迎的各类汽车产品。
附图说明
图1是汽车垂直网站水军甄别方法的流程图;
图2是实验数据集部分截图;
图3是本发明识别准确率结果截图;
图4是不同文本分类方法的验证对比结果截图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明是这样实现的,具体包括以下步骤:
1)采集汽车垂直网站的用户信息,具体包括:用户名、发帖时间、发帖内容、所购车型、对车型的各方面评价打分、浏览数、支持数、评论数、购车目的、关注数、是否认证车主、粉丝数、主贴数、精华帖数以及回帖数等等信息,然后存至本地数据库。
2)深入分析正常用户和水军的区别,构建六元组特征模型(T1,T2,T3,T4,T5,T6);
2.1)用户名特征:
Figure BDA0002317905590000041
其中,len(number)表示用户昵称中数字的个数(或长度),len(name)表示用户昵称的整体字符个数(或长度)。
2.2)粉丝关注比:
Figure BDA0002317905590000042
其中,num(fans)为用户所拥有的粉丝数目,num(observe)为用户的关注数,abs为差值的绝对值。
2.3)精华帖特征:
Figure BDA0002317905590000051
其中,num(jinghuatie)表示用户发布的精华帖的个数,num(zhutie)表示用户发布的全部帖子的个数。
2.4)活跃度特征:
Figure BDA0002317905590000052
其中,hi为用户对于他人发出的单个帖子的回复数,N为用户回复其他人发出的帖子的总数量。
2.5)车主特征:
Figure BDA0002317905590000053
其中,1表示该用户有认证车主的标志,0表示该用户没有认证车主的标志。
2.6)文本内容特征:T6=count*ad、senw、puc+。
其中,ad是程度副词,senw是情感词(同时包括好或坏),puc是不常用的特殊的标点符号,count表示计数。
3)由于判断一个用户是否属于水军是一个二分类的问题,因此可以在六元组特征模型的基础上结合逻辑回归算法对水军进行检测识别。
其中,逻辑回归是一种广义的线性回归分析模型,尽管名称有回归,但实际上它是用于分类而非回归的线性模型。将整理好的数据集划分为训练集和测试集,将模型在训练集进行训练,然后在测试集上进行预测。
4)为了确保识别水军的有效性还需要进行验证,本发明在上述识别完水军之后将水军用户与真实用户的评论单独筛选抽取、分离了出来,然后采用了三种不同的方法加以对比的将评论文本进行分类,直到每一种方法的准确率均达到了百分之七十七以上才最终确定了本发明的识别方法。
实施例2
下面结合具体的实验对实施例1中的方案进行进一步地验证,详见下文描述:
实验运行环境为:Windows7操作***,3.70GHz,4核处理器,4GB内存,相关软件有Python3.6,MySQL5.7.17。
本文的实验数据源是采用Python软件爬取的汽车类垂直网站的数据,存储在MySQL数据库中。
在基于六元组特征模型借助逻辑回归算法识别水军时使用了Python软件里的sklearn机器学习模块,调用了该模块里的LogisticRegressionCV,使用交叉验证自动搜索出了识别准确率最高的正则化系数并且最终的识别率达到了97.8%。
在验证的过程中为了确保可信度本发明同时选用了三种文本分类的方法加以对比,最终结果表明每一种文本分类的方法准确率都不错,这三种文本分类的方法分别是朴素贝叶斯(
Figure BDA0002317905590000061
Bayes)、支持向量机(SVM)以及长短期记忆人工神经网络(LSTM)。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种汽车垂直网站水军甄别方法,其特征在于,所述方法包括:
采集汽车垂直网站的用户信息;
深入分析正常用户和水军的区别,构建由用户名特征、粉丝关注比、精华帖特征、活跃度特征、车主特征、文本内容特征组成的六元组特征模型;
在六元组特征模型的基础上结合逻辑回归对水军进行检测识别。
2.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,
所述用户名特征:
Figure FDA0002317905580000011
其中,len(number)表示用户昵称中数字的个数或长度,len(name)表示用户昵称的整体字符个数或长度。
3.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,
所述粉丝关注比:
Figure FDA0002317905580000012
其中,num(fans)为用户所拥有的粉丝数目,num(observe)为用户的关注数,abs为差值的绝对值。
4.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,
所述精华帖特征:
Figure FDA0002317905580000013
其中,num(jinghuatie)表示用户发布的精华帖的个数,num(zhutie)表示用户发布的全部帖子的个数。
5.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,
所述活跃度特征:
Figure FDA0002317905580000014
其中,hi为用户对于他人发出的单个帖子的回复数,N为用户回复其他人发出的帖子的总数量。
6.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,所述车主特征:
Figure FDA0002317905580000021
其中,1表示该用户有认证车主的标志,0表示该用户没有认证车主的标志。
7.根据权利要求1所述的一种汽车垂直网站水军甄别方法,其特征在于,
所述文本内容特征:T6=count{ad、senw、puc}
其中,ad是程度副词,senw是情感词,puc是标点符号,count表示计数。
CN201911285641.5A 2019-12-13 2019-12-13 一种汽车垂直网站水军甄别方法 Pending CN111159399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911285641.5A CN111159399A (zh) 2019-12-13 2019-12-13 一种汽车垂直网站水军甄别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911285641.5A CN111159399A (zh) 2019-12-13 2019-12-13 一种汽车垂直网站水军甄别方法

Publications (1)

Publication Number Publication Date
CN111159399A true CN111159399A (zh) 2020-05-15

Family

ID=70557106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911285641.5A Pending CN111159399A (zh) 2019-12-13 2019-12-13 一种汽车垂直网站水军甄别方法

Country Status (1)

Country Link
CN (1) CN111159399A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112861128A (zh) * 2021-01-21 2021-05-28 微梦创科网络科技(中国)有限公司 一种批量识别机器账号的方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法
CN109558555A (zh) * 2018-08-20 2019-04-02 湖北大学 基于人工免疫危险理论的微博水军检测方法及检测***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239539A (zh) * 2013-09-22 2014-12-24 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法
CN109558555A (zh) * 2018-08-20 2019-04-02 湖北大学 基于人工免疫危险理论的微博水军检测方法及检测***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
程传鹏: "基于特定话题的网络水军识别研究" *
谢忠红: "基于逻辑回归算法的微博水军识别" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112861128A (zh) * 2021-01-21 2021-05-28 微梦创科网络科技(中国)有限公司 一种批量识别机器账号的方法及***

Similar Documents

Publication Publication Date Title
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN110704572B (zh) 疑似非法集资风险的预警方法、装置、设备和存储介质
CN109087135B (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN107798571A (zh) 恶意地址/恶意订单的识别***、方法及装置
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN108241867B (zh) 一种分类方法及装置
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN107807941A (zh) 信息处理方法和装置
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN104750791A (zh) 一种图像检索方法及装置
CN113743111A (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
CN111046282A (zh) 文本标签设置方法、装置、介质以及电子设备
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN111159399A (zh) 一种汽车垂直网站水军甄别方法
CN116362811A (zh) 一种基于大数据的广告自动化投放管理***
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
Vu et al. Rumor detection by propagation embedding based on graph convolutional network
CN113360788A (zh) 一种地址推荐方法、装置、设备及存储介质
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN107330705A (zh) 一种根据多数据源防欺诈的方法和***
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
US10521727B2 (en) System, method, and storage medium for generating hypotheses in data sets
JP6511865B2 (ja) 情報処理装置及び情報処理プログラム
Rahman et al. An efficient deep learning technique for bangla fake news detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200515