CN104361059A

CN104361059A - 一种基于多示例学习的有害信息识别和网页分类方法

Info

Publication number: CN104361059A
Application number: CN201410609728.4A
Authority: CN
Inventors: 胡卫明; 胡瑞光
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Renmin Zhongke Beijing Intelligent Technology Co ltd
Priority date: 2014-11-03
Filing date: 2014-11-03
Publication date: 2015-02-18
Anticipated expiration: 2034-11-03
Also published as: CN104361059B

Abstract

本发明公开了一种基于多示例学习的网页分类方法，该方法包括：设计了相对大小排序前向比较法来提取网页内有效图像，并根据网页树状结构提取有效图像的相关文本；将一幅有效图像及其相关文本作为网页包中的一个示例，分别采用图像词包模型和文本词包模型生成有效图像及其相关文本的描述，并将二者合并起来作为示例的描述；采用多示例核对毒品网页进行分类。本发明的方法，通过将网页中内含的图像及其相关文本作为网页包中的示例，使算法更符合网页内容的实际分布，并能够充分利用网页的有效信息，深入挖掘图像信息与文本信息的互补性，最终取得比只利用单模态信息进行分类更好的效果。

Description

一种基于多示例学习的有害信息识别和网页分类方法

技术领域

本发明涉及网络内容安全领域，更具体地涉及一种基于多示例学习的有害信息识别和网页分类方法。

背景技术

互联网在促进社会进步与发展的同时，也为各种有害信息的传播提供了极大的便利。这些有害信息日益危害着正常的社会活动和健康的价值体系，对青少年的健康成长尤为不利。最大限度地发挥互联网的积极作用，抑制或消除它的消极作用，将有利于净化互联网环境，促进社会进步，呵护青少年的健康成长。互联网有害信息包括色情、毒品、暴力、恐怖、反动等，其中毒品信息的危害与其他有害信息的危害相比，有过之而无不及。

在互联网中，网页以超文本标记语言(Hyper Text Mark-up Language，HTML)文件的形式存在，HTML文件本质上是文本文件，因此，通常的网页分类方法主要利用文本信息，其中最主要的就是词包模型。词包模型的原理是：首先选择一些关键词(key)，组成文本词典；然后统计每一个关键词在文档或网页中的频数，并组成一个向量；采用合适的分类器对该向量进行分类。

随着各种数字设备的广泛普及，网页中的图像数量越来越多，文本数量越来越少，只利用文本信息对网页进行分类已经不能很好地符合网页的实际形态。因此，非常有必要综合利用图像信息与文本信息来提高实际网页分类性能。

作为一个示例，图1为两个毒品网页，左图为贩卖吸毒工具的网页，右图为贩卖***的网页。可以看出，两个网页中均包含了大量的图像和少量的文本，而且图像与文本排列得非常整齐。对于这种情况，只利用文本信息已经不能很好地对其进行分类。另外，目前针对互联网上的毒品信息进行处理的相关专利或文献还非常少，迫切需要一种对毒品等有害信息进行识别处理的方法，来方便各国政府加强对互联网的监管，保护人们免受相关信息的诱惑。

发明内容

有鉴于此，本发明的目的在于提出一种符合网页内图像与本文数量实际分布情况的网页分类方法和有害信息识别方法，解决网页中有害信息的识别和自动分类的技术问题。

为实现上述目的，作为本发明的一个方面，本发明提出了一种网页分类方法，包括以下步骤：

步骤1：提取选定网页内的有效图像，并提取所述有效图像的相关文本；

步骤2：将一幅有效图像及其相关文本作为网页包中的一个示例，生成所述有效图像及其相关文本的描述，并将二者合并起来作为示例的描述；

步骤3：采用多示例核对得到的所述示例进行计算，根据计算的结果对所述选定网页进行分类。

其中，所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像，以及

根据网页树状结构来提取所述有效图像的相关文本。

其中，所述步骤2包括以下步骤：

步骤2a：构建网页训练集，提取所述网页训练集中有效图像的RGB-SIFT特征，聚类生成视觉词典，并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征向量；

步骤2b：利用文本词典，采用文本词包模型生成相关文本的特征向量；

步骤2c：将所述有效图像的特征向量与所述相关文本的特征向量合并起来，作为示例描述。

其中，步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法，得到包含1500个视觉单词的视觉词典。

其中，步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词；

所述采用文本词包模型生成相关文本的特征向量的步骤包括：

对于所述相关文本，根据所述文本词典统计生成其100维的特征向量；

步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包括：

将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接串起来，得到1600维的特征向量；以及

如果一个网页没有有效图像，则将一个1500维的零向量与所述相关文本的特征向量合并起来。

其中，所述步骤3包括：

步骤3a：采用多示例核对得到的所述示例进行计算；

步骤3b：将上述步骤得到的多示例核与支持向量机结合，对所述选定网页进行分类。

其中，所述步骤3a包括：

将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例，一个网页作为一个包，对于步骤2中生成的包和包其中x为相应的示例表述，采用如下方式度量包B_i和包B_j之间的相似性：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

其中，K_MI(.，.)是多示例核，K(.，.)是传统核，p是一个正整数。

其中，所述步骤3a还包括以下步骤：

对所述的多示例核按照下式进行归一化处理：

K_{NMI} (B_{i}, B_{j}) = \frac{K_{MI} (B_{i}, B_{j})}{\sqrt{K_{MI} (B_{i}, B_{i}) K_{MI} (B_{j}, B_{j})}},

其中，K_NMI(.，.)是归一化后的多示例核。

其中，所述步骤3b进一步包括：

将K_NMI(B_i，B_j)与支持向量机结合，对所述选定网页进行分类，其中所述支持向量机的判别式如下：

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

其中，SV为支持向量索引集，y_i(+1或-1)是特征向量x_i的类别标签，α_i是相应的权重，b是偏置，α_i的值和b的值皆通过训练得到；K(.，.)是传统核；以及

用K_NMI(.，.)代替K(.，.)后，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b

作为本发明的另一个方面，本发明提出了一种网页有害信息识别方法，包括以下步骤：

步骤1：提取一个网页内的有效图像，并提取所述有效图像的相关文本；

步骤3：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

其中，K_MI(.，.)是多示例核，K(.，.)是传统核，p是一个正整数；

将K_NMI(B_i，B_j)与支持向量机结合，对所述选定网页中的有害信息进行识别，其中所述支持向量机的判别式如下：

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

其中，SV为支持向量索引集，y_i(+1或-1)是特征向量x_i的类别标签，α_i是相应的权重，b是偏置，α_i的值和b的值皆通过训练得到；以及

用K_NMI(.，.)代替K(.，.)后，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b

本发明所提出的基于多示例学习的网页分类方法，通过将网页中内含的图像及其相关文本作为网页包中的示例，使算法更符合网页内容的实际分布，并能够充分利用网页的有效信息，深入挖掘图像信息与文本信息的互补性，最终取得比只利用单模态信息进行分类更好的效果。

附图说明

图1为作为示范的两个毒品网页的截图；

图2为本发明的FOCARSS算法的Matlab风格的伪代码示意图；

图3为一幅有效图像截图及其相关文本的示意图；

图4为本发明的一个示例的描述的生成方式的流程图；

图5为作为本发明一个具体实施例的本发明的文本词典的全部关键词列表。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的方法并不受具体硬件和编程语言的限制，用任何语言编写都可以实现本发明的方法。作为举例，本发明采用了一台具有2.83GHz中央处理器和2GB内存的计算机，并用Matlab语言实现了本发明的方法。

本发明的基于多示例学习的网页分类方法的基本流程为：

步骤1：首先进行有效信息提取，采用相对大小排序前向比较法来提取网页内有效图像，并根据网页树状结构提取有效图像的相关文本；

步骤2：根据网页内有效图像及相关文本的排列形式，将一幅有效图像及其相关文本作为网页包中的一个示例，分别采用图像词包模型和文本词包模型生成有效图像及其相关文本的描述，并将二者合并起来作为示例的描述；

步骤3：采用多示例核对网页进行分类。

下面结合附图对本发明的各个步骤进行详细的描述，其中以毒品网页作为示范进行说明。

对于步骤1，包括如下步骤：

步骤1a：采用相对大小排序前向比较法(FOrwardCompArison ofRelative Sizes Sorting，FOCARSS)来提取网页内有效图像。FOCARSS算法的Matlab风格的伪代码如图2所示。FOCARSS算法是本发明独创的算法，采用图像的相对大小，而不是绝对大小来进行排序。FOCARSS算法首先将图像大小按照由大到小的顺序排序，并计算比值矩阵；接着使用阈值β确定有效图像候选集；然后采用阈值γ对候选集进行精细分析，最终确定网页内的有效图像。阈值β和阈值γ是两个经验性阈值；通过对大量网页进行分析可以发现，阈值β取0.5、阈值γ取0.95即可达到比较满意的提取效果。

步骤1b：根据网页树状结构提取有效图像的相关文本。对于一个网页的HTML文件，通过标签提取和标签匹配，并根据标签之间的父子关系生成对应的树状结构。对于一幅有效图像，根据其名字查找其在树状结构中的对应节点，并采用局部遍历的方式查找其周围文本，以200个单词作为局部遍历的收敛条件。将有效图像的周围文本及其标签文本合并在一起作为该有效图像的相关文本。图3为一幅有效图像的截图及其相关文本的示意图。

步骤2如图4所示，包括如下步骤：

步骤2a：采用图像词包模型生成一幅有效图像的特征向量。构建训练网页集，在一个优选实施例中，共包含2243个网页，这些网页均匀地取自一些大型购物网站和新闻网站；训练网页集中所有训练网页中的共6219幅有效图像，都被用来生成视觉词典：提取每一幅有效图像的RGB-SIFT(密集采样，采样间隔为16)，并对所有RGB-SIFT进行K-means聚类，得到1500个聚类中心；将每一个聚类中心作为一个视觉单词，从而可以得到包含1500个视觉单词的视觉词典。对于每幅有效图像(不管是来自训练网页还是测试网页)，我们首先提取该图像的RGB-SIFT(密集采样，采样间隔为16)，并根据上述视觉词典，采用硬编码结合和聚合方式生成其特征向量；具体地，硬编码指的是一个RGB-SIFT只在与其距离最近的视觉单词上有响应，且响应值为1，其余视觉单词上的响应为0；和聚合指的是对一幅有效图像的所有RGB-SIFT进行编码以后，将每一个视觉单词上的所有响应加起来，作为该单词上的最终响应；经过硬编码以及和聚合，就可以得到一幅有效图像的1500维的特征向量。特殊情况下，如果一个网页没有有效图像，我们将一个1500维的零向量作为该网页的图像特征向量。

步骤2b：采用文本词包模型来生成每幅有效图像的相关文本的特征向量。从有害信息网页和非有害信息网页，例如毒品网页和非毒品网页中精心挑选了100个有代表性的关键词，组成文本词典，如图5所示；挑选的原则是某个关键词在毒品网页中出现的次数很多，而在非毒品网页中出现的次数很少，甚至为零；这样做可以使该文本词典具有很好的代表性。对于每幅有效图像的相关文本，根据上述文本词典统计生成其100维的特征向量。特殊情况下，如果一个网页没有有效图像，则提取其正文文本，然后根据上述文本词典统计生成其特征向量。

步骤2c：对于网页中的一个示例，将其1500维的图像特征向量与100维的文本特征向量直接串起来，得到该示例的1600维的特征向量；如果一个网页中有N(N＞0)个示例，就可以得到N(N＞0)个1600维的特征向量。特殊情况下，如果一个网页没有有效图像，则将一个1500维的零向量与正文文本的特征向量合并起来，也可以得到一个1600维的特征向量。将其作为该网页的示例，并且该网页只有这么一个示例。

步骤3将步骤2计算所得示例作为输入，计算多示例核并进行最终的分类任务，具体包括如下步骤：

步骤3a：计算多示例核(Multi-Instance Kernel，MIK)。

多示例核用来度量包之间的相似性。设有包和包其中x为相应的示例表述。MIK采用如下方式度量包B_i和包B_j之间的相似性：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

其中，K_MI(.，.)是多示例核，K(.，.)是某种传统核，p是一个正整数。因为RBF核的p次方依然是RBF核，所以本方法选择径向基函数核(RBF核)作为K(.，.)，RBF核是一种被广泛应用的核，性能良好。类似于一般的核方法，MIK也需要被归一化：

K_{NMI} (B_{i}, B_{j}) = \frac{K_{MI} (B_{i}, B_{j})}{\sqrt{K_{MI} (B_{i}, B_{i}) K_{MI} (B_{j}, B_{j})}},

将一个网页作为一个包，并将该网页中的有效图像的特征向量作为包中的示例，即可直接使用上述公式。

步骤3b：将K_NMI(B_i，B_j)与支持向量机结合，对毒品网页进行分类。支持向量机是一种性能很好的分类器，应用场合非常广泛，其判别式如下：

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

其中，SV为支持向量索引集，y_i(+1或-1)是特征向量x_i的类别标签，α_i是相应的权重，K(.，.)是某种传统核，b是偏置；根据支持向量机的基本原理，α_i的值和b的值皆通过训练得到。用K_NMI(.，.)代替K(.，.)，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b

这样就可以很自然地利用支持向量机对网页进行分类：在分类时，若某个包的输出标签为+1，则该包代表的网页即为毒品网页；否则为正常网页。

作为本发明的另一个方面，本发明还提供了一种基于多示例学习的网页有害信息识别方法，基于与上面分类方法相同的原理，对含有有害信息的网页进行识别并标记，具体步骤包括：

步骤3：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

用K_NMI(.，.)代替K(.，.)后，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b .

通过对本发明方法的技术方案的描述可知，本发明的方法能够充分利用网页的有效信息，取得比只利用单模态信息进行识别和分类更好的效果，经过对实际网站中一定数量网页的实际测试检验，本发明的方法准确度高，识别速度快，达到了很好的实用效果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页分类方法，包括以下步骤：

2.根据权利要求1所述的网页分类方法，其中所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像，以及

根据网页树状结构来提取所述有效图像的相关文本。

3.根据权利要求1所述的网页分类方法，其中所述步骤2包括以下步骤：

4.根据权利要求3所述的网页分类方法，其中步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法，得到包含1500个视觉单词的视觉词典。

5.根据权利要求3所述的网页分类方法，其中步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词；

6.根据权利要求1所述的网页分类方法，其中所述步骤3包括：

步骤3a：采用多示例核对得到的所述示例进行计算；

7.根据权利要求6所述的网页分类方法，其中所述步骤3a包括：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

8.根据权利要求7所述的网页分类方法，其中所述步骤3a还包括以下步骤：

对所述的多示例核按照下式进行归一化处理：

K_{NMI} (B_{i}, B_{j}) = \frac{K_{MI} (B_{i}, B_{j})}{\sqrt{K_{MI} (B_{i}, B_{i}) K_{MI} (B_{j}, B_{j})}},

其中，K_NMI(.，.)是归一化后的多示例核。

9.根据权利要求6所述的网页分类方法，其中所述步骤3b进一步包括：

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

用K_NMI(.，.)代替K(.，.)后，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b

10.一种网页有害信息识别方法，包括以下步骤：

步骤3：

K_{MI} (B_{i}, B_{j}) = Σ_{a = 1}^{n_{i}} Σ_{b = 1}^{n_{j}} K^{p} (x_{ia}, x_{jb})

f (x) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (x_{i}, x) + b

用K_NMI(.，.)代替K(.，.)后，得到：

f (B) = \underset{i &Element; SV}{Σ} α_{i} y_{i} K (B_{i}, B) + b