CN103324617A

CN103324617A - 一种历史垃圾消息的识别方法及***

Info

Publication number: CN103324617A
Application number: CN2012100744065A
Authority: CN
Inventors: 周斌; 刘婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-03-20
Filing date: 2012-03-20
Publication date: 2013-09-25

Abstract

本发明适用于互联网络技术领域，提供了一种历史垃圾消息的识别方法及***，所述方法包括下述步骤：当接收到浏览指定网页的请求时，提取所述指定网页的内容特征信息，根据预设知识库中存储的特征识别算法，将所述指定网页的内容特征信息与所述预设知识库中存储的特征信息进行匹配识别，获取识别结果，根据所述识别结果，识别所述指定网页中的信息是否属于历史垃圾消息，本发明通过基于读审核对网页中的历史垃圾消息进行识别，使得识别成本得到降低、识别率、实时性及自适应性得到提高。

Description

一种历史垃圾消息的识别方法及***

技术领域

本发明属于互联网络技术领域，尤其涉及一种历史垃圾消息的识别方法、装置及***。

背景技术

为了便于理解本发明技术方案，现对以下词语进行说明：

PV(网络浏览量)：PV是网页浏览量(Page View)的简称。标识一个访问者在24小时内(0点24点)访问网站的页面数。同一个访问者浏览网站的同一个页面，不计入PV值。

写操作：指在博客、论坛、留言板、评论等用户贡献内容的网络应用中，用户发布、更新文字、链接、视频、图片等内容的操作。

读操作：指在博客、论坛、留言板、评论等用户贡献内容的网络应用中，用户浏览网页产生PV(网络浏览量)的操作。

写审核：指在博客、论坛、留言板、评论等用户贡献内容的网络应用中，对用户写入的内容进行审核与过滤。写审核在用户更新内容时触发。

知识库：采用机器学习算法等，在博客、论坛、留言板、评论等网络应用中对文字、链接等内容进行垃圾消息过滤时，经过***训练得出的规则的集合。

历史垃圾消息：指在博客、论坛、留言板、评论等网络应用中对文字、链接等内容进行垃圾消息过滤时，由于知识库的更新速度滞后性造成的，在用户发表后未被及时识别出的垃圾消息。

随着网络的日益普及，由用户贡献内容的网络应用如博文、评论、留言等越来越受到网民与产品开发者的关注。在此背景下，也有部分恶意分子利用这些应用发布政治反动类、色情类、广告类等垃圾消息。

现有的技术主要使用一种基于写审核的方式对垃圾消息进行识别。这种方式利用自动识别算法，在用户更新内容时对其发布的消息进行审核与过滤，识别算法包括关键词识别、概率统计、机器学习等。然而，由于网络应用中的垃圾消息形态经常变化，不论哪种自动识别算法，都需要维护一个实时更新的知识库，才能确保新形态的垃圾消息不会漏过识别逻辑，以及正常消息不会被误识别，也即网络上的垃圾消息随着时间与打击力度会产生各种各样的变化，使得学习过程往往具有滞后性，对于滞后性造成的历史垃圾消息，现有技术往往通过手动或半自动的方式对全部网页中的数据或者称为历史数据进行扫描，以识别出历史垃圾消息，而这种方式存在成本高、反应慢、自适应性差等问题。

发明内容

本发明实施例的目的在于提供一种历史垃圾消息的识别方法及***，旨在解决由于现有技术无法实现自动识别基于写审核后留下的历史垃圾消息，导致识别成本高、识别率低、实时性及自适应性差的问题。

本发明实施例是这样实现的，一种历史垃圾消息的识别方法，所述方法包括下述步骤：

当接收到浏览指定网页的请求时，提取所述指定网页的内容特征信息；

根据预设知识库中存储的特征识别算法，将所述指定网页的内容特征信息与所述预设知识库中存储的特征信息进行匹配识别，获取识别结果；

根据所述识别结果，识别所述指定网页中的信息是否属于历史垃圾消息。

本发明实施例的另一目的在于提供一种历史垃圾消息的识别***，所述***包括：

特征提取单元，用于当接收到浏览指定网页的请求时，提取所述指定网页的内容特征信息；

匹配识别单元，用于根据预设知识库中存储的特征识别算法，将所述指定网页的内容特征信息与所述预设知识库中存储的特征信息进行匹配识别，获取识别结果；以及

识别单元，用于根据所述识别结果，识别所述指定网页中的信息是否属于历史垃圾消息。

本发明实施例通过当接收到浏览指定网页的请求时，实时提取该指定网页的内容特征信息，并根据预设知识库中存储的特征识别算法，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，根据获取的识别结果，识别出该指定网页中的信息是否属于历史垃圾消息，解决了现有技术仅是在贡献内容阶段实现部分垃圾消息清除，而对历史垃圾消息，必须全面扫描历史数据并进行手工或半自动的清除方式，导致识别成本高、识别率低、实时性及自适应性差的问题，降低了识别成本，提高了识别率，达到了较好的识别实时性及自适应性。

附图说明

图1是本发明第一实施例提供的历史垃圾消息的识别方法的实现流程图；

图2是本发明第二实施例提供的历史垃圾消息的识别***的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过在每次需要浏览某一的网页等，该历史垃圾消息识别方法都会对该网页进行审核，也即在创建该网页及网页中的信息进行写审核之后，再次进行一次或者多次读审核识别，使得对历史垃圾消息的过滤更有效，且相对于现有的人工审核等方法，识别成本更低，且实时性及自适应性更高。

以下结合具体实施例对本发明的具体实现进行详细描述：

读审核是指与写审核相对，指的是在博客、论坛、留言板、评论等网络应用中，对用户贡献的文字、链接等内容进行自动审核与过滤的方式。读审核在网页产生PV(网络浏览量)时自动触发，包括在浏览当前网页时进行点击等操作触发的新的内容等。

实施例一：

图1示出了本发明第一实施例提供的历史垃圾消息的识别方法的实现流程，详述如下：

在步骤S101中，当接收到浏览指定网页的请求时，提取该指定网页的内容特征信息。

其中，在执行步骤S101之前，需要利用现有技术创建该指定网页以及对该指定网页进行写审核，该指定网页即为经过写审核之后的网页。

具体地，用户可以在博客、论坛、留言板、评论等用户贡献内容的网络应用中，进行发布、更新内容的操作，当用户触发或者开始发布、更新的内容时，需要对用户写入的内容进行审核与过滤，也即写审核，以防止用户发布恶意、不良或者称垃圾消息。而对用户写入的内容进行审核与过滤的具体过程为利用现有技术，基于知识库与相关算法，对用户写操作发布的文字、链接、图片、视频等特征信息进行识别。同时还可以识别效果的好坏，选择能够对该特征信息具有较高识别率的算法或者最新的识别算法存储于知识库，促使知识库更新。另外，由于有些垃圾消息无法由自动识别算法判别，也可以由人工审核后提取的特征和规则对知识库进行更新。然而，在实际应用中，恶意用户往往会对发布的垃圾消息进行改造。知识库的更新往往会滞后于垃圾消息的变化。所以在知识库识别出新的垃圾消息变化之前的消息，无法进行自动处理，也即利用原有知识库，往往无法对新产生的垃圾消息进行审核、过滤，这部分未过滤掉或者未被识别出的垃圾消息即成为历史垃圾消息。

网络中的垃圾消息一般具有，但不限于以下特征：

1)具有非法链接。非法链接的含义是包含广告、色情、政治反动类内容的网站链接等；

2)具有明显的垃圾消息关键词。如：色情关键字、政治反动关键字、欺诈类关键字等；

3)具有明显的不符合正常消息的关键词。如：特殊字符←↑↓等。

在具体实施过程中，由于网页中一般会存在不容易提取特征信息的垃圾消息内容，为了防止漏掉待识别的垃圾消息，在该接收到浏览指定网页的请求的步骤之后，该提取该指定网页的内容特征信息的步骤之前，还可以对该指定网页的内容进行预处理，比如采用文字预处理方法，包括：去除空格、换行符，英文统一转换为小写、中文编码转换、繁转简，日文转空格，特殊符号转空格，全角数字转英文数字，全角字符转asci码字符，中文数字转英文数字等，从而实现了对指定网页的内容特征信息的全面提取，其中，该指定网页的内容特征信息包括网页链接、关键字、图片、视频等特征信息中的一种或者多种。进一步地，该步骤S101是对用户通过在博客、论坛、留言板、评论等网络应用中贡献的文字、链接等内容特征提取，该提取过程可以在网页产生PV(网络浏览量)时自动触发，包括在浏览该指定网页时进行点击网页中的内容等操作触发的新的内容等，从而只要检测到浏览网页的请求或者说在用户浏览网页之前等就实现识别，提高了识别的实时性。

在步骤S102中，根据预设知识库中存储的特征识别算法，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，获取识别结果。

其中，该预设知识库为对该指定网页进行写审核时使用的知识库进行更新后的知识库，该更新的内容可以包括新的垃圾消息的特征信息、新的特征识别算法等，该新的垃圾消息的特征信息可以为新的关键字/词、特殊字符、网络非法链接库等，该特征识别算法可以为机器学习、贝叶斯、支持向量机等识别算法。具体的更新方法可以为对人工审核出的垃圾消息等进行特征信息提取以及提取能用于自动识别算法的规则等，并存储与该预设知识库的特定位置处。

在具体实施过程中，基于预设知识库中预先存储的垃圾消息的特征识别算法或者识别规则，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，例如将该指定网页的内容特征信息中的关键字与该预设知识库中预先存储的所有关键字或词进行匹配，或者将该指定网页的内容特征信息中的网页链接与该预设知识库中预先存储的所有网页链接进行匹配等，判断该预设知识库中是否存在相同或者满足一定匹配条件的关键字、链接等，以获取识别结果，其中该识别结果包括匹配识别成功的该指定网页的内容特征信息的总个数、该匹配识别成功的该指定网页的内容特征信息中每一种类型内容特征信息的个数等，例如，匹配成功的该指定网页的关键字、网页链接、图片等类型中每一种匹配成功的个数等。

在步骤S103中，根据该识别结果，识别该指定网页中的信息是否属于历史垃圾消息。

在具体实施过程中，该步骤S103具体为：判断匹配识别成功的该指定网页的内容特征信息中指定类型的内容特征信息的个数是否超过第一预设阈值，和/或该匹配识别成功的该指定网页的内容特征信息的总个数是否超过第二预设阈值，是，则判定该指定网页中的信息属于历史垃圾消息，否则，判定该指定网页中的信息不属于历史垃圾消息。其中，该第一预设阈值与该第二预设阈值可以相同或者不相同，为用户根据实际情况预先设置的某一数值。该匹配识别成功的该指定网页的内容特征信息中指定类型的内容特征信息可以为指定的某一种或者多种类型的内容特征消息，例如当匹配识别成功的该指定网页的内容特征信息出现某类图片的个数超过预设的第一预设阈值时，或者是出现匹配成功的该指定网页的内容特征信息的某类图片、视频的个数均超过第一预设阈值时等，则认为该指定网页中的信息属于历史垃圾消息，进一步地，可以对通过该历史垃圾识别方法识别出的历史垃圾消息或者该指定网页进行处理，以减少该指定网页中的垃圾消息或者完全禁止打开该指定网页等。

在本发明实施例中，该历史垃圾识别方法通过当接收到浏览指定网页的请求时，提取该指定网页的内容特征信息，根据预设知识库中存储的特征识别算法，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，进一步根据获取到的识别结果，识别该指定网页中的信息是否属于历史垃圾消息，解决了由于现有技术只是基于写审核清除部分垃圾消息，而对基于写审核后留下的历史垃圾消息，需扫描全部历史数据来进行人工或半自动识别清除，无法实现自动识别，使得识别成本高、识别率低、实时性及自适应性差的问题，从而只对用户浏览的网页进行审核，而不被浏览的网页一般无热点，可以不进行审核，实现了以较低的识别成本、较高的识别率、实时性及自适应性识别垃圾消息的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明第二实施例提供的历史垃圾消息的识别***的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该历史垃圾消息的识别***包括特征提取单元21、匹配识别单元22以及识别单元23，其中：

特征提取单元21，用于当接收到浏览指定网页的请求时，提取该指定网页的内容特征信息。

在本发明实施例中，在触发特征提取单元21之前，需要利用现有技术创建该指定网页以及对该指定网页进行写审核，该指定网页为经过写审核之后的网页，且该预设知识库为对该指定网页进行写审核时使用的知识库进行更新后的知识库；该指定网页的内容特征信息包括网页链接、关键字、图片、视频信息中的一种或者多种。本申请是只要检测到浏览网页的请求或者说在用户浏览网页之前等就实现提取该指定网页的内容特征信息及进一步地识别垃圾消息，能够提高垃圾消息识别的实时性。

另外，该历史垃圾消息的识别***还包括预处理单元，用于在提取该指定网页的内容特征信息之前，预先对该指定网页的内容进行预处理。比如采用文字预处理方法，包括：去除空格、换行符，英文统一转换为小写、中文编码转换、繁转简，日文转空格，特殊符号转空格，全角数字转英文数字，全角字符转asci码字符，中文数字转英文数字等，从而可以防止漏掉艰难识别的垃圾消息，实现对指定网页的内容特征信息的全面提取。

匹配识别单元22，用于根据预设知识库中存储的特征识别算法，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，获取识别结果。

其中，该预设知识库为对该指定网页进行写审核时使用的知识库进行更新后的知识库，该更新的内容可以包括新的垃圾消息的特征信息、新的特征识别算法等，该新的垃圾消息的特征信息可以为新的关键字/词、特殊字符、网络非法链接库等，该特征识别算法可以为机器学习、贝叶斯、支持向量机等识别算法。具体的更新方法可以为对人工审核出的垃圾消息等进行特征信息提取以及提取能用于自动识别算法的规则等，并存储与该预设知识库的特定位置处。而该识别结果包括匹配识别成功的该指定网页的内容特征信息的总个数和/或匹配识别成功的该指定网页的内容特征信息中每一种类型内容特征信息的个数。

识别单元23，用于根据该识别结果，识别该指定网页中的信息是否属于历史垃圾消息。

该识别单元23具体包括匹配识别单元231及判定单元232，其中：

匹配识别单元231，用于判断该匹配识别成功的该指定网页的内容特征信息中指定类型的内容特征信息的个数是否超过第一预设阈值，和/或该匹配识别成功的该指定网页的内容特征信息的总个数是否超过第二预设阈值；以及

判定单元232，用于当该匹配识别单元输出结果为是时，判定该指定网页中的信息属于历史垃圾消息。

在本发明实施例中，可以利用现有的特征识别算法，比如机器学习算法，再基于知识库中预先存储的垃圾消息，对该指定网页中的内容特征信息进行识别，获取识别结果，比如可以获取识别出的属于垃圾消息的内容特征信息的总个数，每一种类型的垃圾消息的内容特征信息的个数等，另外，该处识别出的该指定网页的垃圾消息是基于写审核留下的历史垃圾消息。接着利用匹配识别单元231对该识别结果进行判断，也即判断该匹配识别成功的该指定网页的内容特征信息中指定类型的内容特征信息的个数是否超过第一预设阈值，和/或该匹配识别成功的该指定网页的内容特征信息的总个数是否超过第二预设阈值等，从而当识别结果输出为是时，判定单元232可以判定该指定网页中的信息属于历史垃圾消息，否则，该指定网页中的信息不属于历史垃圾消息，

在本发明实施例中，该历史垃圾消息识别***通过特征提取单元21根据预设知识库中存储的特征识别算法，将该指定网页的内容特征信息与该预设知识库中存储的特征信息进行匹配识别，获取识别结果，从而识别单元23根据该识别结果，识别该指定网页中的信息是否属于历史垃圾消息，也即在创建该网页及网页中的信息进行写审核之后，再次进行读审核识别，使得对历史垃圾消息的过滤更有效，且相对于现有的人工审核等方法，识别成本更低，且实时性及自适应性更高。

本发明实施例通过提取需要浏览的某指定网页的内容特征信息，对该内容特征信息进行历史垃圾消息的识别，判断该指定网页中的消息是否属于历史垃圾消息，从而对该指定网页进行相应处理，解决了现有技术往往通过扫描全部历史数据，并利用手动或半自动的方式对历史垃圾消息进行识别，无法进行自动识别，导致出现识别成本高、反应慢、自适应性差等问题，使得在不提高识别成本的前提下，实现了提高自适应性、实时性以及识别率等的目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种历史垃圾消息的识别方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，所述指定网页为经过写审核之后的网页，且所述预设知识库为对所述指定网页进行写审核时使用的知识库进行更新后的知识库。

3.如权利要求2所述的方法，其特征在于，所述指定网页的内容特征信息包括网页链接、关键字、图片、视频信息中的一种或者多种。

4.如权利要求3所述的方法，其特征在于，所述识别结果包括匹配识别成功的所述指定网页的内容特征信息的总个数和/或匹配识别成功的所述指定网页的内容特征信息中每一种类型内容特征信息的个数。

5.如权利要求4所述的方法，其特征在于，所述根据所述识别结果，识别所述指定网页中的信息是否为历史垃圾消息的步骤具体为：

判断所述匹配识别成功的所述指定网页的内容特征信息中指定类型的内容特征信息的个数是否超过第一预设阈值，和/或所述匹配识别成功的所述指定网页的内容特征信息的总个数是否超过第二预设阈值；

是，则判定所述指定网页中的信息属于历史垃圾消息，否，则判定所述指定网页中的信息不属于历史垃圾消息。

6.一种历史垃圾消息的识别***，其特征在于，所述***包括：

7.如权利要求6所述的***，其特征在于，所述指定网页为经过写审核之后的网页，且所述预设知识库为对所述指定网页进行写审核时使用的知识库进行更新后的知识库。

8.如权利要求7所述的***，其特征在于，所述指定网页的内容特征信息包括网页链接、关键字、图片、视频信息中的一种或者多种。

9.如权利要求8所述的***，其特征在于，所述识别结果包括匹配识别成功的所述指定网页的内容特征信息的总个数和/或匹配识别成功的所述指定网页的内容特征信息中每一种类型内容特征信息的个数。

10.如权利要求9所述的***，其特征在于，所述识别单元具体包括：

匹配识别单元，用于判断所述匹配识别成功的所述指定网页的内容特征信息中指定类型的内容特征信息的个数是否超过第一预设阈值，和/或所述匹配识别成功的所述指定网页的内容特征信息的总个数是否超过第二预设阈值；以及

判定单元，用于当所述匹配识别单元输出结果为是时，判定所述指定网页中的信息属于历史垃圾消息。