CN105447161A

CN105447161A - 一种基于数据特征的智能信息分类方法

Info

Publication number: CN105447161A
Application number: CN201510866092.6A
Authority: CN
Inventors: 刘治; 张胜; 章云
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2015-11-26
Filing date: 2015-11-26
Publication date: 2016-03-30

Abstract

本发明属于数据挖掘领域，涉及一种基于数据特征的智能信息分类方法。本发明主要包括对已经标记好的网页进行训练和对待分类网页进行分类两个阶段。训练阶段包括的主要步骤有：对网页进行预处理；对网页正文进行中文分词和去停止词；根据数据特征创建知识库；对网页进行特征选择和生成特征向量；生成SVM分类器。分类阶段的主要步骤有：对网页进行预分类；用SVM分类器进行精确分类。通过本发明，解决了现有信息分类方法无法对中文网页进行高速和高效分类的不足。

Description

一种基于数据特征的智能信息分类方法

技术领域

本发明属于数据挖掘领域，涉及一种基于数据特征的智能信息分类方法。

背景技术

随着互联网的飞速发展，网络信息呈***式增长。面对如此海量的Web信息，如何快速、准确地获取有用信息，是当今互联网技术面临的挑战之一。网页自动分类是高效处理海量Web信息的一种重要技术。它是指对于待分类网页，根据其内容由计算机根据某种自动分类算法，把网页分为预先定义好的类别。

目前，已经出现了多种基于统计理论和机器学习方法的文本自动分类算法。但是与普通文本文档相比，网页具有以下特点：(1)网页采用超文本设计，网页内包含HTML标签，这使得它比普通文本表现能力更强，可以利用的结构化信息和编辑信息更多；(2)Web上的网页之间通过超链接互相关联，超链接所蕴含的内容推荐与内容相关关系给网页分类带来很多启发信息；(3)网页通常包含大量噪音，如广告、导航条、推荐栏、作者信息等与主题内容无关的信息；(4)中文网页使用中文表达，不像英语那样使用空白符间隔每个单词，中文网页需要分词处理。正是上面这些原因使得网页分类比普通文本分类要复杂得多。

发明内容

针对上述问题，本发明在深入研究中文网页的特点之后，根据网页标题、关键字等部分对分类结果有较高权重的特点，提出了根据数据特征以预置关键词表和标题内容为知识库来进行预先分类，再将网页转化成特征向量结合SVM算法作为补充的分类方法。该方法极大地提高了分类器的综合性能。

具体技术方案如下：一种基于数据特征的智能信息分类方法，包括训练和分类两个阶段：

训练阶段具体按照如下步骤进行：步骤一、对待训练网页进行预处理，去除与网页分类无关的html标记，从中抽取出正文文本。步骤二、对抽取的文本进行中文分词处理，并去掉分词后对网页分类没有多大意义的停止词。例如‘的’、‘了’等在汉语中没有实际意义的字或词，此外还有一些生僻字和特殊符号，都必须作为停止词去掉。步骤三、对分词和去停止词后的结果进行词频统计。步骤四、对词频统计后的结果进行特征选择。具体做法是设置词频阈值，过滤掉词频低于阈值的词。步骤五、对余下的高频词进行权重值计算，生成特征向量。步骤六、创建行业知识库，为每个待训练类别预置该领域的关键词表。步骤七、创建SVM分类器。

分类阶段具体按照如下步骤进行：步骤一、对待分类练网页进行预处理，去除与网页分类无关的html标记，从中抽取出正文文本。步骤二、对抽取后的文本进行中文分词和去停止词处理，具体实施方法和训练时一样。步骤三、预分类。提取待分类网页的标题类容，与预置行业知识库中的关键词表进行对比，确定网页的所属类别。若预分类成功，则直接返回分类结果；若预分类失败，则继续以下步骤。步骤四、将网页文本分词和去停止词后的文本转成特征向量。步骤五、使用SVM分类器对该特征向量进行分类，并返回分类结果。

基于以上技术方案的公开，本发明具备如下有益效果：

1、本发明中根据网页标题、关键字等部分对分类结果有较高权重的特点，提出以预置关键词表和标题内容作为知识库来进行预先分类，大大提高了对中文网页的分类速度。

2、本发明中提出以数据特征建立知识库进行预分类，再结合SVM算法作为补充的分类方法，极大地提高了分类器的综合性能。

附图说明

图1是本发明提出的一种基于数据特征的智能信息分类方法的***流程图。

图2是本发明提出的一种基于数据特征的智能信息分类方法的训练阶段流程图。

图3是本发明提出的一种基于数据特征的智能信息分类方法的分类阶段流程图。

具体实施方式

如图1所示，为本发明提出的一种基于数据特征的智能信息分类方法的***流程图。参照图1，本发明提出的一种基于数据特征的智能信息分类方法包括：步骤S1，对已经标记好的网页进行训练；步骤S2，对待分类的网页进行分类。

参照图2，步骤S1中所述对已经标记好的网页进行训练包括：

步骤S11，对待训练网页进行预处理，去除与网页分类无关的html标记，从中抽取出正文文本。首先，除去<style>、<script>、<applet>等标记所嵌的html源码；其次，将<title>、<meta>标签中内容提取出来，单独保存；最后，过滤掉上述html标签后，提取出网页正文文本。

步骤S12，对抽取的网页正文文本进行中文分词处理，并去掉分词后对网页分类没有多大意义的停止词。例如‘的’、‘了’等在汉语中没有实际意义的字或词，此外还有一些生僻字和特殊符号，都必须作为停止词去掉。

步骤S13，对分词和去停止词后的结果进行词频统计。

步骤S14，对词频统计后的结果进行特征选择。具体做法是设置词频阈值，过滤掉词频低于阈值的词。

步骤S15，使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量。在该模型中，每个文本文档被表示成如下的特征向量：

V(d)＝(t₁，ω₁(d)；t₂，ω₂(d)；…；t_n，ω_n(d)；)

其中t_i为特征项，ω_i(d)为t_i在文档中的权重。

根据步骤S15所述，为了便于后续计算，需要减小特征向量的维度。步骤S12、S13、S14减少了特征项的个数，即减少了特征向量的维度。

根据步骤S15所述，特征项在文档中的权重ω_i(d)可以使用基于TF-IDF的传统权重算法进行计算，计算公式如下：

ω_{i} (d) = \frac{{tf}_{i} (d) \times \log (N / n_{k} + 0.01)}{\sqrt{Σ_{i = 1}^{n} {({tf}_{i} (d))}^{2} \times {[\log (N / n_{k} + 0.01)]}^{2}}}

其中，tf_i(d)为t_i在文档d中出现的频率，N为文档集中的总文档数，n_K为出现特征项t_K的文档数。

根据步骤S15所述，在网页表示中，有两个因素影响特征项的权重值：一是特征项在文档中出现的频率，一是特征项在文档中出现的位置。采用对不同位置特征词赋予不同权重因子的方法，权重因子计算公式如下：

λ = \frac{\overset{&OverBar;}{d_{k}}}{d_{0}} = \frac{(Σ d_{k}) / N_{k}}{(Σ d_{k}) / N_{0}}

其中，表示核心词平均词频，表示非核心词平均词频，d_K和N_K分别为核心词词频和核心词数，d_O和N_O分别为非核心词词频和非核心词词数。核心词包括<title>内的词和<meta>标记中keywords，description位置出现的词，其余为非核心词。

可选的，一般来说，核心词的词数少而出现次数多，且较为集中，所以λ≥1，当遇到小于1的情况时就取λ＝1。对于核心词，特征向量公式就变为：

ω′_i(d)＝λ×ω_i(d)

步骤S16，创建知识库，为每个待训练类别预置该领域的关键词表。

根据步骤S16所述，知识库的具体创建方法为：首先按各个类别提取训练集中所有网页的<title>标记包含的内容，并对其进行分词处理，然后分别统计词频，并按词频降序排列。下一步，将从这些词中选取部分作为预先分类的知识库，选取的原则是从每个类别中词频最高的词开始，检查它是否在其他类别中出现过，如果没有在其他类别中出现，则将它选取为该类别的知识库。

优选的，根据上述所述，若严格要求一个词语只在某个类别标题中出现，则所得到的关键词较少，并不能显著提高分类效率。所以，在实际过程中适当降低要求，如果某个词在一个类别中有较高的词频，而在其他类别中出现的次数不超过某一固定阀值，或者在其他类别中出现次数占总网页数的比例在一定范围内(如1％)，仍然选择该词条作为本类的预分类关键词。

步骤S17，对生成的特征向量进行训练，创建SVM分类器。

根据S17所述，SVM分类器的原理为：

(1)设给定的训练集

T∈{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)}∈(X*Y)^l

其中，x_i∈X＝Rⁿ，y_i∈Y＝{-1，1}，i＝1，2，…，l

(2)选择适合的核函数K(x，x′)和惩罚参数C，构造并求解如下最优化问题

\begin{matrix} S . t . & Σ_{i = 1}^{l} y_{i} α_{i} = 0 \end{matrix}

0≤a_i≤Ci＝1，2，3…l

得到最优解

α^{*} = {(α_{1}^{*}, α_{2}^{*}, ..., α_{i}^{*})}^{T}

(3)选择α^*的一个小于C的正分量并据此计算

b^{*} = y_{i} - Σ_{i = 1}^{l} y_{i} α_{i}^{*} K (x_{i}, x_{j})

(4)构造决策函数

f (x) = sgn (Σ_{i = 1}^{l} y_{i} α_{i}^{*} K (x_{i}, x) + b^{*})

参照图3，步骤S2中对待分类网页进行分类包括：

步骤S21，对待分类网页进行预处理，具体实施方法和S11相同。

步骤S22，对抽取后的文本进行中文分词和去停止词处理，具体实施方法步骤S12一样。

步骤S23，对网页进行预分类。

根据步骤S23所述，预分类的具体实施方法为：(1)提取网页标题内容，与知识库中关键词表比较，判断单词所属类别，统计标题中的单词在各类别中的出现频度；(2)若属于某个类别的单词频度最大，则认为网页属于该类别；(3)若属于两个类别的单词频度相等，则比较类别优先级，将其划分为优先级较大的类别。(4)若优先级相同，则预分类失败，需要继续以下的步骤。

步骤S24，对分词和去停止词后的结果进行词频统计，具体实施方法和S13一样。

步骤S25，对词频统计后的结果进行特征选择。具体实施方法和步骤S14一样。

步骤S26，使用空间向量模型(VectorSpaceModel)将待分类网页正文文本转换成特征向量。具体实施方法和步骤S15一样。

步骤S27，使用SVM分类器对生成的特征向量进行分类，获取分类结果。

基于以上技术方案的公开，本发明具备如下有益效果：

1、本发明中根据网页标题、关键字等部分对分类结果有较高权重的特点，提出以预置关键词表和标题内容作为数据特征建立知识库来进行预先分类，大大提高了中文网页的分类速度。

2、本发明中提出以数据特征作为知识库进行预分类，再结合SVM算法作为补充的分类方法，极大地提高了分类器的综合性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种基于数据特征的智能信息分类方法，其特征在于，该方法包括：

根据数据特征创建知识库，对待分类的中文网页进行预分类，大大加速了网页的分类速度。

2.根据权利要求1所述的方法，其特征在于，所述的预分类方法包括：

(1)提取网页标题内容，与知识库中关键词表比较，判断单词所属类别，统计标题中的单词在各类别中的出现频度；(2)若属于某个类别的单词频度最大，则认为网页属于该类别；(3)若属于两个类别的单词频度相等，则比较类别优先级，将其划分为优先级较大的类别；(4)若优先级相同，则预分类失败，需要使用SVM分类器继续分类。

3.根据权利要求1所述的方法，其特征在于，所述的知识库创建包括：

(1)按各个类别提取训练集中所有网页的<title>标记包含的内容，并对其进行分词处理，然后分别统计词频，并按词频降序排列；(2)将从这些词中选取部分作为预先分类的知识库，选取的原则是从每个类别中词频最高的词开始，检查它是否在其他类别中出现过，如果没有在其他类别中出现，则将它选取为该类别的知识库。

4.根据权利要求1所述的方法，其特征在于，所述的SVM分类器的创建原理包括：

(1)设给定的训练集

T∈{(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)}∈(X*Y)^l

其中，x_i∈X＝Rⁿ，y_i∈Y＝{-1，1}，i＝1，2，…，l

(2)选择适合的核函数K(x，x′)和惩罚参数C，构造并求解如下最优化问题：

0≤α_i≤Ci＝1，2，3…l

得到最优解

(3)选择α^*的一个小于C的正分量并据此计算

(4)构造决策函数

。

5.根据权利要求4所述方法，其特征在于，所述特征向量的构造方法包括：

(1)使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量；在该模型中，每个文本文档被表示成如下的特征向量：

V(d)＝(t₁，ω₁(d)；t₂，ω₂(d)；…；t_n，ω_n(d)；)

其中t_i为特征项，ω_i(d)为t_i在文档中的权重；

(2)特征项在文档中的权重ω_i(d)可以使用基于TF-IDF的传统权重算法进行计算，计算公式如下：

其中，tf_i(d)为t_i在文档d中出现的频率，N为文档集中的总文档数，n_k为出现特征项t_k的文档数；

(3)在网页表示中，有两个因素影响特征项的权重值：一是特征项在文档中出现的频率，一是特征项在文档中出现的位置；采用对不同位置特征词赋予不同权重因子的方法，权重因子计算公式如下：

其中，表示核心词平均词频，表示非核心词平均词频，d_k和N_k分别为核心词词频和核心词数，d₀和N₀分别为非核心词词频和非核心词词数；核心词包括<title>内的词和<meta>标记中keywords，description位置出现的词，其余为非核心词。