CN104462509A - 垃圾评论检测方法及装置 - Google Patents

垃圾评论检测方法及装置 Download PDF

Info

Publication number
CN104462509A
CN104462509A CN201410806356.4A CN201410806356A CN104462509A CN 104462509 A CN104462509 A CN 104462509A CN 201410806356 A CN201410806356 A CN 201410806356A CN 104462509 A CN104462509 A CN 104462509A
Authority
CN
China
Prior art keywords
comment
information
review information
review
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410806356.4A
Other languages
English (en)
Inventor
李纪峰
吴明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410806356.4A priority Critical patent/CN104462509A/zh
Publication of CN104462509A publication Critical patent/CN104462509A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种垃圾评论检测方法及装置,该方法包括:位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息;采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。该方法通过检测所述网站服务器中的评论信息,并通过预设的评论策略判断该评论信息是否为垃圾评论的评论信息,在该评论信息为垃圾评论的评论信息时,将属于垃圾评论的评论信息进行拦截,该方法通过对垃圾评论的检测和拦截,提高了垃圾评论识别率和拦截效率,同时也降低了成本。

Description

垃圾评论检测方法及装置
技术领域
本发明涉及网络安全技术,具体涉及一种垃圾评论检测方法及装置。
背景技术
互联网的发展与普及深刻地改变了人们的生活和思维方式,网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。针对网站中的正常用户发布的内容,其中会有一些网友、商家、不良分子在正常用户发布的内容下发布大量的垃圾评论。例如,无关的广告评论、推销评论、含有政治、暴力、色情等内容的评论等。大量的垃圾评论既影响了网络用户对有用信息的获取,还会给一些用户带来负面影响。
目前,各网站服务器中没有统一的垃圾评论筛选机制,各网站服务器需要自己人工设置检测机制对垃圾评论进行过滤筛选,由此,导致无法实时准确的对各大网站的评论信息进行统一检测,此外采用人工检测垃圾评论,效率低、耗时长,而且在大量的评论中过滤垃圾评论通过人工检测也可能会导致错检或者漏检。
发明内容
针对现有技术中的缺陷,本发明提供了一种垃圾评论检测方法及装置,解决了现有技术中垃圾评论识别率低、拦截效率低,成本高的问题。
第一方面,本发明提供了一种垃圾评论检测装置,包括:
检测模块,用于检测网站服务器接收的评论信息;
判断模块,用于采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
第一拦截模块,用于在所述判断模块判断当前网站服务器中的评论信息为垃圾评论时,拦截所述评论信息中属于垃圾评论信息的评论信息。
可选的,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的IP地址。
可选的,所述装置还包括:
接收模块,用于在所述检测装置检测所述网站服务器中的评论信息之前,接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
可选的,所述装置还包括:
负向概率确定模块,用于在判断模块在判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
第二拦截模块,用于在所述负向概率符合预设范围时,将所述负向概率对应的评论信息进行拦截。
可选的,所述装置还包括:
发送模块,用于将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
第二方面,本发明还提供了一种垃圾评论检测方法,其特征在于,包括:
位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息;
采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。
可选的,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的IP地址。
可选的,所述评论策略为所述检测装置在检测所述网站服务器中的评论信息之前接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
可选的,所述方法还包括:
在采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论信息之后,采用预设模型确定该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
如果所述负向概率符合预设范围,则将所述负向概率对应的评论信息进行拦截。
可选的,所述方法还包括:
将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
由上述技术方案可知,本发明提供的垃圾评论检测方法及装置,该方法通过检测所述网站服务器中的评论信息,并通过预设的评论策略判断该评论信息是否属于垃圾评论信息,在该评论信息为垃圾评论信息时,将属于垃圾评论信息的评论信息进行拦截,该方法通过对垃圾评论信息的检测和拦截,提高了对垃圾评论信息的识别率和拦截效率,同时也降低了成本。
附图说明
图1为本发明一实施例提供的垃圾评论检测方法的流程示意图;
图2为本发明另一实施例提供的垃圾评论检测方法的流程示意图;
图3为本发明一实施例提供的垃圾评论检测装置的结构示意图。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
随着信息技术的发展,很多网站支持在用户之间进行互动。当一个人向网站进行了注册并且可能还通过了相关认证之后,则被称为该网站的“用户”。在网站中,用户可以在新鲜事***中展现其用户行为,这种展现其用户行为的操作在网站中通常被称为“发布”,该发布的内容可以被其他用户所看见。例如,在诸如社交网络服务网站、博客、微博、BBS论坛的各种网站中,都允许用户在新鲜事***中“发博客”“发微博”“发帖”等操作。此外这些网站中还允许用户针对其他用户发布的内容进行评论,其通常被称为“发布评论”。
针对上述发布评论的内容,某些用户可能发布垃圾评论,例如,无关的广告评论、推销评论、含有政治、暴力、色情等内容的评论等。本发明的下述实施例就是针对如何将上述垃圾评论检测出来并对其进行拦截。
图1示出了本发明实施例提供的一种垃圾评论检测方法,如图1所示,该垃圾评论检测方法具体包括如下步骤:
101、位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息。
上述网站服务器可以由第三方软件公司的服务器中的检测装置来执行。
上述评论信息包括下述的至少一项:文字信息、图片信息、字符串信息;和/或,发送所述评论的客户端的互联网协议(InternetProtocol,简称IP)地址。本实施例仅对评论信息进行举例说明,该评论信息还可包括其他信息,本实施例不对其进行限定。
102、采用预设的评论策略判断所述评论信息是否属于垃圾评论信息。
本实施例中的评论策略为所述检测装置在检测所述网站服务器中的评论信息之前接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
上述服务器可以为云端服务器。也就是说所有网站服务器侧的检测装置可连接云端服务器,在实时监控网站服务器中的评论信息的过程中可实时接收云服务器下载或更新的评论策略,以便保证较为准确的检测网站服务器的评论信息中的垃圾评论信息。
上述垃圾评论信息为通过上述预设的评论策略进行判断的。
103、如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。
也就是说,将所述评论信息中属于垃圾评论信息进行拦截。
当然,如果上述步骤102中采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论信息时,可不拦截当前检测的评论信息,即以使网站服务器展示该评论信息。
上述方法通过预设的评论策略判断该评论信息是否为垃圾评论信息,在该评论信息为垃圾评论信息时,将属于垃圾评论信息进行拦截,该方法通过对垃圾评论信息的检测和拦截,提高了垃圾评论识别率和拦截效率,同时也降低了成本。
图2示出了本发明实施例提供的一种垃圾评论检测方法,如图2所示,该垃圾评论检测方法具体包括如下步骤:
201、位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息。
202、采用预设的评论策略判断所述评论信息是否属于垃圾评论信息。
通常,评论策略可包括最近时间段内每一IP针对该评论信息的评论内容,或者,评论策略中还可包括最近时间段内的针对该评论信息的IP黑名单。
需要说明的是,上述预设的评论策略为预先接收云端服务器发送的评论策略;其中,云端服务器中的评论策略为根据多个检测装置上报的垃圾评论的评论信息统计的策略,上述评论策略可以根据上述评论信息的内容进行制定,上述评论策略可以对某评论信息是否为垃圾评论进行检测。
上述评论策略具体可以为评论信息的评论内容为属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。举例来说,特征词可以为“***”“出售”“公积金”等各种属于垃圾评论信息中出现频率较高的词汇,可以为动词、名词等;特征图片为带有暴力、色情的图片等;特征字符串可以为某些特征词加某些广告的电话号码等联系方式的句式,本实施例不对此进行详细举例说明。
上述评论策略为云端服务器根据多个检测装置上报的垃圾评论信息统计的。
在另一个可实现的方式中,云端服务器也可以将该评论实时或定时发送至检测装置,使该检测装置直接对获取的评论信息进行检测,本实施例不限定上述方式。
上述步骤202中评论信息是否为垃圾评论的判断过程具体包括图2中未示出的如下子步骤2021至子步骤2023:
2021、提取评论信息的特征,获得该特征中的关键词或关键信息等;
上述评论信息的特征可以理解为:评论信息的句式特征、评论信息的语义特征、评论信息的情感特征和评论信息的上下文特征等,本实施例不对提取的具体特征进行限定。
可以理解的是,上述评论信息的特征提取可以为如下过程,首先对某条评论的内容进行预处理,即将该条评论按照标点符号划分为句子,得到句子的集合;利用分词工具将句子集合中的每一条句子划分成词语,得到词语集合;再利用词性工具将词语集合中的每一个词语都标注词性,并进行词性分类,可得到名词集合、动词集合、形容词集合等。
在另一种可能的情况下,有些垃圾评论用户在评论时为了避免直接被拦截,故在评论中会加入一些特殊字符。在这种情况下,例如评论内容为“***&代#开,请#联!系158XXXXX”,则在提取评论信息的特征时需要剔除特殊字符,于是该评论文本内容变为“***代开,请联系158XXXXX”。
上述的分词处理可以从剔除特殊字符后的评论内容进行分词处理后,采用条件随机场模型获取所述分词处理后的评论内容的关键词/关键信息。可理解的是,上述评论内容中的没有实际意义的虚词(如标点、助动词、语气词、叹词、拟声词等)可不作为该评论信息内容的关键词。
本实施例中提取评论信息的特征可根据现有的方式实现,本实施例不对其进行限定。
2022、将评论信息的关键信息与评论策略中的特征信息进行匹配,或将评论信息的特征中的关键词与评论策略中的特征词进行匹配。
举例来说,该评论信息的句式特征为广告式评论信息,则上述评论信息的句式特征可以包括:“XXX,网址为http:XXXX”,“***代开,请联系158XXXXX”“公积金提取,请联系152XXXXX”
上述关键词可以包括:“***”“联系”“网址为”“公积金”“提取”。
2023、如果评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度超过预设阀值,则可确定当前评论信息为垃圾评论信息。
举例来说,如果评论策略中已存储有“***代开,请联系158XXXXX”的评论信息,则在提取某评论信息时,若发现某条评论信息为“***&代#开,请联系010-XXXXX”,则通过上述的内容,将特殊字符去掉后的信息为“***代开,请联系010-XXXXX”,由此可以看出,上述评论信息只是电话号码不同,但是评论信息的句式特征完全相同,可以理解为与上述评论策略已存储的特征匹配度为98%,此时将该条评论信息确定为垃圾评论信息。
在另一个可实现的方式中,上述关键词的匹配还包括与敏感词汇谐音相同的关键词,将此谐音的匹配也加入到匹配度的计算中,比如通过大写的数字“一、二、三”代替“1、2、3”。
举例来说,如果解析某条评论的内容为“需要开***,致电一五八XXXXX”其中包括关键词:“***”“致电”“158”,则再通过该关键词与上述评论策略中的关键词进行匹配,计算匹配度。
可理解的是,上述垃圾评论信息为通过上述预设的评论策略进行判断的,在另一种可能实施的情况下,如果该评论信息的IP地址与评论策略中的评论信息的IP黑名单匹配,则确定该评论信息为垃圾评论信息,直接对该评论信息进行拦截。
为了防止对一些新注册的IP为垃圾评论信息的IP,或者原来的一些黑名单IP,在一段时间内的垃圾评论的匹配度小于预设阀值时,采用原来的评论策略会将这些IP发表的评论信息直接拦截,故将云端服务器中的评论策略进行更新,防止把白名单IP直接当成黑名单IP对该IP对应的某条评论信息进行拦截。
上述匹配度计算包括诸多因素,比如某个IP在一段时间内评论的次数、垃圾评论的比率、某IP在评论信息中的关键词或关键信息与垃圾评论信息中的特征词或特征信息的匹配度等。
比如说某个评论信息的IP在一个月前经常在各大网站上进行垃圾评论,而在最近一个月内仅在个别网站进行评论,且垃圾评论的比率几乎为0,则会根据该评论信息的IP的评论次数、垃圾评论的次数以及获取该评论信息的IP的评论次数、垃圾评论的次数的时间段,综合计算的匹配度。
203、如果采用预设的评论策略判断当前网站服务器中的评论信息为垃圾评论信息,则拦截所述评论信息中属于垃圾评论信息的评论信息。
可以理解的是,当采用预设的评论策略判断当前网站服务器中的评论信息为垃圾评论信息,既评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度超过预设阀值时,则认为该评论信息为垃圾评论信息。
在具体应用中,比如上述评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度未超过预设阀值时,即有些用户为了避开上述拦截,故采取了各种各样的表述避开拦截。在这种情况下,为了检测这类的评论信息是否为垃圾评论的评论信息,故上述方法还包括如下步骤:
204、在步骤202中采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于垃圾评论信息的负向概率,所述负向概率为该评论属于垃圾评论信息的概率。
前述模型的垃圾评论信息的样本的建立过程可举例如下:
A01、预先获取多个垃圾评论信息,对该些评论信息进行分词处理,提取与该些评论信息对应的关键词或关键信息。
具体的,上述垃圾评论信息可以为通过蜘蛛或者爬虫算法定向抓取网页中的一些评论信息。可理解的是,网络爬虫又名为网络蜘蛛(Web spider),实现由技术中的一个自动提取网页的程序,是搜索引擎的重要组成,本发明对此不做详细介绍。
A02、将所述关键词与预先设定的垃圾评论特征词库中的特征词进行组合,或,将所述关键信息与垃圾评论特征信息库中的特征信息进行组合;根据各种组合建立判断垃圾评论信息的模型。
举例来说,上述垃圾特征词库可以根据词性、词义的褒贬进行归类,该词具体可以包括涉及广告宣传、推销、含有政治、暴力、色情等词汇;特征信息库可以包括一些涉及广告宣传、推销、含有政治、暴力、色情等的图片内容。本实施例中的特征词库和特征信息库仅用于举例说明,本实施例不对其具体内容进行限定。
通过获取大量的垃圾评论信息作为样本对所述模型进行训练,可以获知所有评论信息中每个词可以组合成垃圾评论信息的特征和规律。
上述预设模型的训练获取过程可为:针对预先获得评论信息,该些评论信息包括垃圾评论信息和非垃圾评论信息;根据该些评论信息建立判断垃圾评论信息的模型。
由此,在上述步骤204中,采用该模型计算当前垃圾信息的负向概率。
在具体应用中,根据上述步骤训练的模型,可以对某评论信息是否为垃圾评论信息进行检测。在另一个可实现的方式中,云端服务器也可以将该模型实时或定时发送至检测装置,使该检测装置直接对获取的评论信息进行检测,本实施例不限定上述方式。
可理解的是,在上述步骤202判断某评论信息中的IP与评论策略IP黑名单未匹配,且该评论信息的评论内容的关键词或关键信息与评论策略中的特征词或特征信息的匹配度未超过预设阀值时,则采用预设模型确定不属于垃圾评论信息的负向概率,所述负向概率为该评论属于垃圾评论信息的概率。
上述方法适用于对采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论的评论信息时,再通过上述预设模型进行计算该评论信息属于垃圾评论的评论信息的负向概率。故上述方法还包括以下步骤:
205、判断上述负向概率是否符合预设范围;
206、如果所述负向概率符合所述预设范围,则将所述负向概率对应的垃圾评论的评论信息进行拦截。
举例来说,若负向概率的预设范围为0.5~0.9,则根据该评论信息计算的负向概率为0.8,则将该评论信息进行拦截。
207、如果所述负向概率不符合预设范围,则将所述负向概率对应的评论信息放行。
在另一个可能实现的方式中,若负向概率的预设范围为0.5~0.9,则根据该评论信息计算的负向概率为0.45,则将该负向概率对应的评论信息的信息进行展示。
为了使上述步骤202中的评论策略为最新的评论策略,故上述方法还包括下述步骤208:
208、将所述评论信息中属于垃圾评论的评论信息和所述负向概率对应的评论信息发送云端服务器。
在具体应用中,通过检测装置将属于垃圾评论信息的评论信息和所述负向概率对应的评论信息发送服务器,实现了对上述云端服务器中的评论策略进行更新,该评论策略的更新可以实时的也可以定时的,例如每天更新一次等。
图3示出了本发明实施例提供的垃圾评论检测装置的结构示意图,如图3所示,该装置包括:检测模块31、判断模块32和第一拦截模块33。
检测模块31,用于检测网站服务器接收的评论信息;
具体的,上述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;和/或,发送所述评论的客户端的IP地址等。本实施例仅对评论信息进行举例说明,该评论信息还可包括其他信息,本实施例不对其进行限定。
判断模块32,用于采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
第一拦截模块33,用于在所述判断模块判断当前网站服务器中的评论信息为垃圾评论时,拦截所述评论信息中属于垃圾评论信息的评论信息。
具体的,上述装置还包括图3中未示出的接收模块34:
接收模块34,用于在所述检测装置检测所述网站服务器中的评论信息之前,接收服务器发送的评论策略;
所述服务器中的评论为所述服务器根据多个检测装置上报的垃圾评论的评论信息统计的策略。
在采用上述评论策略不能够直观判断该评论信息是否为垃圾评论的评论信息时,为了更加精准的将评论信息中为垃圾评论的评论信息负向概率较大的评论信息识别出来,上述装置还包括图中未示出的负向概率确定模块35和第二拦截模块36;
负向概率确定模块35,用于在判断模块在判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
第二拦截模块36,用于在所述负向概率符合预设范围时,将所述负向概率对应的评论信息进行拦截。
为了对上述云端服务器中的评论策略进行更新,上述装置还包括图中未示出的发送模块37:
发送模块37,用于将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
上述装置与上述方法是一一对应的,上述方法的详细例子说明也同样适用于该装置,本发明不对上述装置的实施细节进行详细说明。
由此,本实施例中的无线入侵检测***中服务器和传感器交互,可实时监测企业内无线网络中的热点信息,并有效保证企业内无线网络的安全。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在于该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种浏览器终端的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种垃圾评论检测装置,其特征在于,包括:
检测模块,用于检测网站服务器接收的评论信息;
判断模块,用于采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
第一拦截模块,用于在所述判断模块判断当前网站服务器中的评论信息为垃圾评论时,拦截所述评论信息中属于垃圾评论信息的评论信息。
2.根据权利要求1所述的装置,其特征在于,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的互联网协议IP地址。
3.根据权利要求1所述的装置,其特征在于,所述装置还包括:
接收模块,用于在所述检测装置检测所述网站服务器中的评论信息之前,接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
4.根据权利要求1所述的装置,其特征在于,所述装置还包括:
负向概率确定模块,用于在判断模块在判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
第二拦截模块,用于在所述负向概率符合预设范围时,将所述负向概率对应的评论信息进行拦截。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
发送模块,用于将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
6.一种垃圾评论检测方法,其特征在于,包括:
位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息;
采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。
7.根据权利要求6所述的方法,其特征在于,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的互联网协议IP地址。
8.根据权利要求6所述的方法,其特征在于,所述评论策略为所述检测装置在检测所述网站服务器中的评论信息之前接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论信息之后,采用预设模型确定该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
如果所述负向概率符合预设范围,则将所述负向概率对应的评论信息进行拦截。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
CN201410806356.4A 2014-12-22 2014-12-22 垃圾评论检测方法及装置 Pending CN104462509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410806356.4A CN104462509A (zh) 2014-12-22 2014-12-22 垃圾评论检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410806356.4A CN104462509A (zh) 2014-12-22 2014-12-22 垃圾评论检测方法及装置

Publications (1)

Publication Number Publication Date
CN104462509A true CN104462509A (zh) 2015-03-25

Family

ID=52908544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410806356.4A Pending CN104462509A (zh) 2014-12-22 2014-12-22 垃圾评论检测方法及装置

Country Status (1)

Country Link
CN (1) CN104462509A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824805A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 一种识别方法及装置
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及***
CN106649268A (zh) * 2016-11-30 2017-05-10 北京京东尚科信息技术有限公司 调研样本判断方法及***、灰名单生成方法及***
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置
CN106960012A (zh) * 2017-03-01 2017-07-18 云南大学 一种跨领域垃圾评价识别的方法
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN107766550A (zh) * 2017-10-31 2018-03-06 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN107833055A (zh) * 2017-10-19 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及设备
CN107832360A (zh) * 2017-10-24 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及相关设备
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN108055289A (zh) * 2018-01-30 2018-05-18 深圳市富途网络科技有限公司 一种基于互联网的对用户生成内容进行审核的方法及***
CN109271768A (zh) * 2018-10-26 2019-01-25 Oppo广东移动通信有限公司 发布信息管理方法、装置、存储介质及终端
CN109344176A (zh) * 2018-09-05 2019-02-15 浙江工业大学 基于双循环图的虚假评论检测方法
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN110688455A (zh) * 2019-09-09 2020-01-14 深圳壹账通智能科技有限公司 基于人工智能过滤无效评论的方法、介质及计算机设备
CN110971619A (zh) * 2020-01-02 2020-04-07 惠州学院 一种具有不良信息过滤处理的网络技术安全***及方法
CN111586469A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 弹幕显示方法、装置及电子设备
US10824721B2 (en) 2018-05-22 2020-11-03 International Business Machines Corporation Detecting and delaying effect of machine learning model attacks
WO2021036250A1 (zh) * 2019-08-29 2021-03-04 北京京东尚科信息技术有限公司 产品评论信息的展示方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852268A (zh) * 2005-10-19 2006-10-25 华为技术有限公司 防垃圾邮件方法及***
US20130173562A1 (en) * 2004-02-11 2013-07-04 Joshua Alspector Simplifying Lexicon Creation in Hybrid Duplicate Detection and Inductive Classifier System
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104123328A (zh) * 2013-04-28 2014-10-29 北京千橡网景科技发展有限公司 用于在网站中抑制垃圾评论的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173562A1 (en) * 2004-02-11 2013-07-04 Joshua Alspector Simplifying Lexicon Creation in Hybrid Duplicate Detection and Inductive Classifier System
CN1852268A (zh) * 2005-10-19 2006-10-25 华为技术有限公司 防垃圾邮件方法及***
CN104123328A (zh) * 2013-04-28 2014-10-29 北京千橡网景科技发展有限公司 用于在网站中抑制垃圾评论的方法和设备
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刁宇峰等: "基于LDA模型的博客垃圾评论发现", 《中文信息学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及***
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及***
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN105824805A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 一种识别方法及装置
CN105824805B (zh) * 2016-05-09 2024-04-23 腾讯科技(深圳)有限公司 一种识别方法及装置
CN106708966A (zh) * 2016-11-29 2017-05-24 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106708966B (zh) * 2016-11-29 2023-04-25 中国计量大学 基于相似度计算的垃圾评论检测方法
CN106649268A (zh) * 2016-11-30 2017-05-10 北京京东尚科信息技术有限公司 调研样本判断方法及***、灰名单生成方法及***
CN106960012A (zh) * 2017-03-01 2017-07-18 云南大学 一种跨领域垃圾评价识别的方法
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN107885768B (zh) * 2017-09-27 2021-08-20 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN107833055A (zh) * 2017-10-19 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及设备
CN107832360A (zh) * 2017-10-24 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及相关设备
CN107766550A (zh) * 2017-10-31 2018-03-06 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN109933775B (zh) * 2017-12-15 2022-02-18 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN108055289A (zh) * 2018-01-30 2018-05-18 深圳市富途网络科技有限公司 一种基于互联网的对用户生成内容进行审核的方法及***
US10824721B2 (en) 2018-05-22 2020-11-03 International Business Machines Corporation Detecting and delaying effect of machine learning model attacks
CN109344176A (zh) * 2018-09-05 2019-02-15 浙江工业大学 基于双循环图的虚假评论检测方法
CN109271768A (zh) * 2018-10-26 2019-01-25 Oppo广东移动通信有限公司 发布信息管理方法、装置、存储介质及终端
CN109582791B (zh) * 2018-11-13 2023-01-24 创新先进技术有限公司 文本的风险识别方法及装置
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
WO2021036250A1 (zh) * 2019-08-29 2021-03-04 北京京东尚科信息技术有限公司 产品评论信息的展示方法、装置、电子设备和存储介质
CN110688455A (zh) * 2019-09-09 2020-01-14 深圳壹账通智能科技有限公司 基于人工智能过滤无效评论的方法、介质及计算机设备
CN110971619A (zh) * 2020-01-02 2020-04-07 惠州学院 一种具有不良信息过滤处理的网络技术安全***及方法
CN111586469A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 弹幕显示方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN104462509A (zh) 垃圾评论检测方法及装置
CN102647422B (zh) 钓鱼网站检测方法及设备
KR102355973B1 (ko) 스미싱 메시지 판별장치 및 스미싱 메시지 판별방법
US11677783B2 (en) Analysis of potentially malicious emails
US8997229B1 (en) Anomaly detection for online endorsement event
CN104168548A (zh) 短信拦截方法及装置、云端服务器
CN103763690A (zh) 检测伪基站向移动终端发送短信息的方法和装置
CN102315953B (zh) 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN103415004B (zh) 一种检测垃圾短消息的方法及装置
CN107229638A (zh) 一种文本信息处理方法及装置
US20200074079A1 (en) Method and system for checking malicious hyperlink in email body
CN107480123A (zh) 一种垃圾弹幕的识别方法、装置及计算机设备
CN105335354A (zh) 欺诈信息识别方法和装置
CN103533522A (zh) 短信稽核的方法及***
CN103369486A (zh) 诈骗短信防范***与防范方法
CN108023868A (zh) 恶意资源地址检测方法和装置
CN109040097A (zh) 一种跨站脚本攻击的防御方法、装置、设备和存储介质
CN103218410A (zh) 互联网事件分析方法与装置
Tang et al. Clues in tweets: Twitter-guided discovery and analysis of SMS spam
CN102938785A (zh) 用于搜索引擎的不良信息举报和处理办法
CN107145780A (zh) 恶意软件检测方法及装置
WO2014194808A1 (zh) Pcb工程问题对比分析及其结果发送的方法和装置
CN103546449A (zh) 一种基于附件格式的邮件病毒检测方法和装置
CN104598595A (zh) 欺诈网页检测方法及相应装置
CN105391860A (zh) 用于处理通信请求的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161201

Address after: 100015 Chaoyang District Road, Jiuxianqiao, No. 10, building No. 3, floor 15, floor 17, 1701-26,

Applicant after: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

Applicant before: Qizhi Software (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20150325

RJ01 Rejection of invention patent application after publication