发明内容
针对现有技术中的缺陷,本发明提供了一种垃圾评论检测方法及装置,解决了现有技术中垃圾评论识别率低、拦截效率低,成本高的问题。
第一方面,本发明提供了一种垃圾评论检测装置,包括:
检测模块,用于检测网站服务器接收的评论信息;
判断模块,用于采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
第一拦截模块,用于在所述判断模块判断当前网站服务器中的评论信息为垃圾评论时,拦截所述评论信息中属于垃圾评论信息的评论信息。
可选的,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的IP地址。
可选的,所述装置还包括:
接收模块,用于在所述检测装置检测所述网站服务器中的评论信息之前,接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
可选的,所述装置还包括:
负向概率确定模块,用于在判断模块在判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
第二拦截模块,用于在所述负向概率符合预设范围时,将所述负向概率对应的评论信息进行拦截。
可选的,所述装置还包括:
发送模块,用于将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
第二方面,本发明还提供了一种垃圾评论检测方法,其特征在于,包括:
位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息;
采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。
可选的,所述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;
和/或,
所述评论信息还包括:发送所述评论的客户端的IP地址。
可选的,所述评论策略为所述检测装置在检测所述网站服务器中的评论信息之前接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
可选的,所述方法还包括:
在采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论信息之后,采用预设模型确定该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
如果所述负向概率符合预设范围,则将所述负向概率对应的评论信息进行拦截。
可选的,所述方法还包括:
将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
由上述技术方案可知,本发明提供的垃圾评论检测方法及装置,该方法通过检测所述网站服务器中的评论信息,并通过预设的评论策略判断该评论信息是否属于垃圾评论信息,在该评论信息为垃圾评论信息时,将属于垃圾评论信息的评论信息进行拦截,该方法通过对垃圾评论信息的检测和拦截,提高了对垃圾评论信息的识别率和拦截效率,同时也降低了成本。
具体实施方式
下面结合附图,对发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
随着信息技术的发展,很多网站支持在用户之间进行互动。当一个人向网站进行了注册并且可能还通过了相关认证之后,则被称为该网站的“用户”。在网站中,用户可以在新鲜事***中展现其用户行为,这种展现其用户行为的操作在网站中通常被称为“发布”,该发布的内容可以被其他用户所看见。例如,在诸如社交网络服务网站、博客、微博、BBS论坛的各种网站中,都允许用户在新鲜事***中“发博客”“发微博”“发帖”等操作。此外这些网站中还允许用户针对其他用户发布的内容进行评论,其通常被称为“发布评论”。
针对上述发布评论的内容,某些用户可能发布垃圾评论,例如,无关的广告评论、推销评论、含有政治、暴力、色情等内容的评论等。本发明的下述实施例就是针对如何将上述垃圾评论检测出来并对其进行拦截。
图1示出了本发明实施例提供的一种垃圾评论检测方法,如图1所示,该垃圾评论检测方法具体包括如下步骤:
101、位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息。
上述网站服务器可以由第三方软件公司的服务器中的检测装置来执行。
上述评论信息包括下述的至少一项:文字信息、图片信息、字符串信息;和/或,发送所述评论的客户端的互联网协议(InternetProtocol,简称IP)地址。本实施例仅对评论信息进行举例说明,该评论信息还可包括其他信息,本实施例不对其进行限定。
102、采用预设的评论策略判断所述评论信息是否属于垃圾评论信息。
本实施例中的评论策略为所述检测装置在检测所述网站服务器中的评论信息之前接收服务器发送的评论策略;
所述服务器中的评论策略为所述服务器根据多个检测装置上报的垃圾评论信息获取的策略;
所述评论策略包括下述的一项或多项:属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。
上述服务器可以为云端服务器。也就是说所有网站服务器侧的检测装置可连接云端服务器,在实时监控网站服务器中的评论信息的过程中可实时接收云服务器下载或更新的评论策略,以便保证较为准确的检测网站服务器的评论信息中的垃圾评论信息。
上述垃圾评论信息为通过上述预设的评论策略进行判断的。
103、如果是,则拦截所述评论信息中属于垃圾评论信息的评论信息。
也就是说,将所述评论信息中属于垃圾评论信息进行拦截。
当然,如果上述步骤102中采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论信息时,可不拦截当前检测的评论信息,即以使网站服务器展示该评论信息。
上述方法通过预设的评论策略判断该评论信息是否为垃圾评论信息,在该评论信息为垃圾评论信息时,将属于垃圾评论信息进行拦截,该方法通过对垃圾评论信息的检测和拦截,提高了垃圾评论识别率和拦截效率,同时也降低了成本。
图2示出了本发明实施例提供的一种垃圾评论检测方法,如图2所示,该垃圾评论检测方法具体包括如下步骤:
201、位于网站服务器侧的检测装置检测所述网站服务器接收的评论信息。
202、采用预设的评论策略判断所述评论信息是否属于垃圾评论信息。
通常,评论策略可包括最近时间段内每一IP针对该评论信息的评论内容,或者,评论策略中还可包括最近时间段内的针对该评论信息的IP黑名单。
需要说明的是,上述预设的评论策略为预先接收云端服务器发送的评论策略;其中,云端服务器中的评论策略为根据多个检测装置上报的垃圾评论的评论信息统计的策略,上述评论策略可以根据上述评论信息的内容进行制定,上述评论策略可以对某评论信息是否为垃圾评论进行检测。
上述评论策略具体可以为评论信息的评论内容为属于垃圾评论信息的特征词、特征字、特征图片、特征字符串。举例来说,特征词可以为“***”“出售”“公积金”等各种属于垃圾评论信息中出现频率较高的词汇,可以为动词、名词等;特征图片为带有暴力、色情的图片等;特征字符串可以为某些特征词加某些广告的电话号码等联系方式的句式,本实施例不对此进行详细举例说明。
上述评论策略为云端服务器根据多个检测装置上报的垃圾评论信息统计的。
在另一个可实现的方式中,云端服务器也可以将该评论实时或定时发送至检测装置,使该检测装置直接对获取的评论信息进行检测,本实施例不限定上述方式。
上述步骤202中评论信息是否为垃圾评论的判断过程具体包括图2中未示出的如下子步骤2021至子步骤2023:
2021、提取评论信息的特征,获得该特征中的关键词或关键信息等;
上述评论信息的特征可以理解为:评论信息的句式特征、评论信息的语义特征、评论信息的情感特征和评论信息的上下文特征等,本实施例不对提取的具体特征进行限定。
可以理解的是,上述评论信息的特征提取可以为如下过程,首先对某条评论的内容进行预处理,即将该条评论按照标点符号划分为句子,得到句子的集合;利用分词工具将句子集合中的每一条句子划分成词语,得到词语集合;再利用词性工具将词语集合中的每一个词语都标注词性,并进行词性分类,可得到名词集合、动词集合、形容词集合等。
在另一种可能的情况下,有些垃圾评论用户在评论时为了避免直接被拦截,故在评论中会加入一些特殊字符。在这种情况下,例如评论内容为“***&代#开,请#联!系158XXXXX”,则在提取评论信息的特征时需要剔除特殊字符,于是该评论文本内容变为“***代开,请联系158XXXXX”。
上述的分词处理可以从剔除特殊字符后的评论内容进行分词处理后,采用条件随机场模型获取所述分词处理后的评论内容的关键词/关键信息。可理解的是,上述评论内容中的没有实际意义的虚词(如标点、助动词、语气词、叹词、拟声词等)可不作为该评论信息内容的关键词。
本实施例中提取评论信息的特征可根据现有的方式实现,本实施例不对其进行限定。
2022、将评论信息的关键信息与评论策略中的特征信息进行匹配,或将评论信息的特征中的关键词与评论策略中的特征词进行匹配。
举例来说,该评论信息的句式特征为广告式评论信息,则上述评论信息的句式特征可以包括:“XXX,网址为http:XXXX”,“***代开,请联系158XXXXX”“公积金提取,请联系152XXXXX”
上述关键词可以包括:“***”“联系”“网址为”“公积金”“提取”。
2023、如果评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度超过预设阀值,则可确定当前评论信息为垃圾评论信息。
举例来说,如果评论策略中已存储有“***代开,请联系158XXXXX”的评论信息,则在提取某评论信息时,若发现某条评论信息为“***&代#开,请联系010-XXXXX”,则通过上述的内容,将特殊字符去掉后的信息为“***代开,请联系010-XXXXX”,由此可以看出,上述评论信息只是电话号码不同,但是评论信息的句式特征完全相同,可以理解为与上述评论策略已存储的特征匹配度为98%,此时将该条评论信息确定为垃圾评论信息。
在另一个可实现的方式中,上述关键词的匹配还包括与敏感词汇谐音相同的关键词,将此谐音的匹配也加入到匹配度的计算中,比如通过大写的数字“一、二、三”代替“1、2、3”。
举例来说,如果解析某条评论的内容为“需要开***,致电一五八XXXXX”其中包括关键词:“***”“致电”“158”,则再通过该关键词与上述评论策略中的关键词进行匹配,计算匹配度。
可理解的是,上述垃圾评论信息为通过上述预设的评论策略进行判断的,在另一种可能实施的情况下,如果该评论信息的IP地址与评论策略中的评论信息的IP黑名单匹配,则确定该评论信息为垃圾评论信息,直接对该评论信息进行拦截。
为了防止对一些新注册的IP为垃圾评论信息的IP,或者原来的一些黑名单IP,在一段时间内的垃圾评论的匹配度小于预设阀值时,采用原来的评论策略会将这些IP发表的评论信息直接拦截,故将云端服务器中的评论策略进行更新,防止把白名单IP直接当成黑名单IP对该IP对应的某条评论信息进行拦截。
上述匹配度计算包括诸多因素,比如某个IP在一段时间内评论的次数、垃圾评论的比率、某IP在评论信息中的关键词或关键信息与垃圾评论信息中的特征词或特征信息的匹配度等。
比如说某个评论信息的IP在一个月前经常在各大网站上进行垃圾评论,而在最近一个月内仅在个别网站进行评论,且垃圾评论的比率几乎为0,则会根据该评论信息的IP的评论次数、垃圾评论的次数以及获取该评论信息的IP的评论次数、垃圾评论的次数的时间段,综合计算的匹配度。
203、如果采用预设的评论策略判断当前网站服务器中的评论信息为垃圾评论信息,则拦截所述评论信息中属于垃圾评论信息的评论信息。
可以理解的是,当采用预设的评论策略判断当前网站服务器中的评论信息为垃圾评论信息,既评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度超过预设阀值时,则认为该评论信息为垃圾评论信息。
在具体应用中,比如上述评论信息的关键词或关键信息与预设的评论策略中的特征词或特征信息匹配度未超过预设阀值时,即有些用户为了避开上述拦截,故采取了各种各样的表述避开拦截。在这种情况下,为了检测这类的评论信息是否为垃圾评论的评论信息,故上述方法还包括如下步骤:
204、在步骤202中采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于垃圾评论信息的负向概率,所述负向概率为该评论属于垃圾评论信息的概率。
前述模型的垃圾评论信息的样本的建立过程可举例如下:
A01、预先获取多个垃圾评论信息,对该些评论信息进行分词处理,提取与该些评论信息对应的关键词或关键信息。
具体的,上述垃圾评论信息可以为通过蜘蛛或者爬虫算法定向抓取网页中的一些评论信息。可理解的是,网络爬虫又名为网络蜘蛛(Web spider),实现由技术中的一个自动提取网页的程序,是搜索引擎的重要组成,本发明对此不做详细介绍。
A02、将所述关键词与预先设定的垃圾评论特征词库中的特征词进行组合,或,将所述关键信息与垃圾评论特征信息库中的特征信息进行组合;根据各种组合建立判断垃圾评论信息的模型。
举例来说,上述垃圾特征词库可以根据词性、词义的褒贬进行归类,该词具体可以包括涉及广告宣传、推销、含有政治、暴力、色情等词汇;特征信息库可以包括一些涉及广告宣传、推销、含有政治、暴力、色情等的图片内容。本实施例中的特征词库和特征信息库仅用于举例说明,本实施例不对其具体内容进行限定。
通过获取大量的垃圾评论信息作为样本对所述模型进行训练,可以获知所有评论信息中每个词可以组合成垃圾评论信息的特征和规律。
上述预设模型的训练获取过程可为:针对预先获得评论信息,该些评论信息包括垃圾评论信息和非垃圾评论信息;根据该些评论信息建立判断垃圾评论信息的模型。
由此,在上述步骤204中,采用该模型计算当前垃圾信息的负向概率。
在具体应用中,根据上述步骤训练的模型,可以对某评论信息是否为垃圾评论信息进行检测。在另一个可实现的方式中,云端服务器也可以将该模型实时或定时发送至检测装置,使该检测装置直接对获取的评论信息进行检测,本实施例不限定上述方式。
可理解的是,在上述步骤202判断某评论信息中的IP与评论策略IP黑名单未匹配,且该评论信息的评论内容的关键词或关键信息与评论策略中的特征词或特征信息的匹配度未超过预设阀值时,则采用预设模型确定不属于垃圾评论信息的负向概率,所述负向概率为该评论属于垃圾评论信息的概率。
上述方法适用于对采用预设的评论策略判断当前网站服务器中的评论信息不属于垃圾评论的评论信息时,再通过上述预设模型进行计算该评论信息属于垃圾评论的评论信息的负向概率。故上述方法还包括以下步骤:
205、判断上述负向概率是否符合预设范围;
206、如果所述负向概率符合所述预设范围,则将所述负向概率对应的垃圾评论的评论信息进行拦截。
举例来说,若负向概率的预设范围为0.5~0.9,则根据该评论信息计算的负向概率为0.8,则将该评论信息进行拦截。
207、如果所述负向概率不符合预设范围,则将所述负向概率对应的评论信息放行。
在另一个可能实现的方式中,若负向概率的预设范围为0.5~0.9,则根据该评论信息计算的负向概率为0.45,则将该负向概率对应的评论信息的信息进行展示。
为了使上述步骤202中的评论策略为最新的评论策略,故上述方法还包括下述步骤208:
208、将所述评论信息中属于垃圾评论的评论信息和所述负向概率对应的评论信息发送云端服务器。
在具体应用中,通过检测装置将属于垃圾评论信息的评论信息和所述负向概率对应的评论信息发送服务器,实现了对上述云端服务器中的评论策略进行更新,该评论策略的更新可以实时的也可以定时的,例如每天更新一次等。
图3示出了本发明实施例提供的垃圾评论检测装置的结构示意图,如图3所示,该装置包括:检测模块31、判断模块32和第一拦截模块33。
检测模块31,用于检测网站服务器接收的评论信息;
具体的,上述评论信息包括下述的一项或多项:
文字信息、图片信息、字符串信息;和/或,发送所述评论的客户端的IP地址等。本实施例仅对评论信息进行举例说明,该评论信息还可包括其他信息,本实施例不对其进行限定。
判断模块32,用于采用预设的评论策略判断所述评论信息是否属于垃圾评论信息;
第一拦截模块33,用于在所述判断模块判断当前网站服务器中的评论信息为垃圾评论时,拦截所述评论信息中属于垃圾评论信息的评论信息。
具体的,上述装置还包括图3中未示出的接收模块34:
接收模块34,用于在所述检测装置检测所述网站服务器中的评论信息之前,接收服务器发送的评论策略;
所述服务器中的评论为所述服务器根据多个检测装置上报的垃圾评论的评论信息统计的策略。
在采用上述评论策略不能够直观判断该评论信息是否为垃圾评论的评论信息时,为了更加精准的将评论信息中为垃圾评论的评论信息负向概率较大的评论信息识别出来,上述装置还包括图中未示出的负向概率确定模块35和第二拦截模块36;
负向概率确定模块35,用于在判断模块在判断当前网站服务器中的评论信息不属于垃圾评论的评论信息之后,采用预设模型确定不属于该评论信息的负向概率,所述负向概率为该评论信息属于垃圾评论信息的概率;
第二拦截模块36,用于在所述负向概率符合预设范围时,将所述负向概率对应的评论信息进行拦截。
为了对上述云端服务器中的评论策略进行更新,上述装置还包括图中未示出的发送模块37:
发送模块37,用于将拦截的评论信息实时或定时发送服务器,以使服务器根据接收的评论信息实时更新发送到检测装置中的评论策略。
上述装置与上述方法是一一对应的,上述方法的详细例子说明也同样适用于该装置,本发明不对上述装置的实施细节进行详细说明。
由此,本实施例中的无线入侵检测***中服务器和传感器交互,可实时监测企业内无线网络中的热点信息,并有效保证企业内无线网络的安全。