CN103810264B

CN103810264B - 基于特征选择的网页文本分类方法

Info

Publication number: CN103810264B
Application number: CN201410038614.9A
Authority: CN
Inventors: 周红芳; 郭杰; 王鹏; 张国荣; 段文聪; 王心怡; 何馨依
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2017-06-06
Anticipated expiration: 2034-01-27
Also published as: CN103810264A

Abstract

基于特征选择的网页文本分类方法，首先，把由大量的网页构成的数据集分为训练集和测试集两部分；然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计算训练集中每个网页内特征词的权重（归一化后的词频与反文档频率之积）；在所得权重的基础上结合类内分布率和类间偏差，计算训练集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的所属类,得到分类结果。

Description

基于特征选择的网页文本分类方法

技术领域

本发明属于数据挖掘方法技术领域，涉及一种基于特征选择的网页文本分类方法。

背景技术

随着计算机与通讯技术的快速发展、互联网迅速普及应用，网络上的网页正以几何级数的速度增长。面对这些***式增长的海量网络信息，如何从中快速、有效地获得有用的、感兴趣的信息变得越来越重要。因此，有效地组织和管理网页资源，缩短用户获取所需信息的时间，成为了目前急需解决的问题。网页分类技术应运而生，并逐渐成为继文本分类之后机器学习领域的研究热点。

传统上的网页分类是先由人工判断类别，即在分析网页的内容之后，人工手动选择一个合适的类别。但是，这种人工分类的做法存在着许多缺点：一是在网页文本数量急剧增长的情况下，用人工分类方法来进行分类变得不切实际，需要耗费大量的人力资源；二是人工对网页文本进行分类无法保证较高的分类准确率，主要是由于每个人的经验知识等主观因素不同，分类结果可能会出现不一致的情况。因此，急需一种有效的方法对网页文本进行管理，由此网页文本自动分类技术开始显示出其优越性。

网页文本自动分类技术来源于文本自动分类技术，其目标和文本分类技术一致，即在预先定义的网页分类体系下，把待分类的网页准确归属到一个或多个相应的类别。常用的网页文本分类算法有以下几种：KNN算法、NB(Naive Bayes)算法、支持向量机(SVM)、遗传算法(GA)、Rocchio算法等。这些网页文本自动分类技术仍然存在着许多问题，如网页文本特征空间的维数过高，导致存储空间大，分类速度慢；网页中包含有大量网站标记、广告等噪声信息，严重干扰了对网页类别的确定，从而降低了分类的准确率；同时网页中不同位置的信息表达网页的能力不同，对分类的准确性有一定的影响。因此，迫切需要找到一种有效的网页文本分类技术，来减少分类的时间，并提高分类的准确率。

发明内容

本发明的目的是提供一种基于特征选择的网页文本分类方法，解决现有技术存在的分类速度慢、准确率不高的问题。

本发明的技术方案是，基于特征选择的网页文本分类方法，首先，把由大量的网页构成的数据集分为训练集和测试集两部分；然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计算训练集中每个网页内特征词的权重（归一化后的词频与反文档频率之积）；在所得权重的基础上结合类内分布率和类间偏差，计算训练集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的所属类,得到分类结果。

本发明的特点还在于:

特征词为对网页进行预处理后得到的能表示网页内容的词。

训练集中的网页包含若干个不同的类，对每个类中的网页进行计算得到每个类的特征向量，然后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每个类的特征向量的相似度，采用相似度最大的类作为待分类网页的所属类,得到对网页进行分类的结果。数据集中的训练集进行一系列的计算构造网页分类器，测试集用于测试该网页分类器对网页进行分类的性能优劣。

具体步骤如下:

1.把由大量的网页构成的数据集分为训练集和测试集两部分，一般要求训练集取数据集的80%左右，测试集取剩余部分；

2.对数据集（包括训练集和测试集）进行预处理，主要是对网页进行分词，即将网页内的文本切分成单个的词语，去除网页中对分类无关的噪音信息，去除停用词即无实际含义或应用很广泛的词；

3.结合特征词的位置特征，计算训练集中每个网页内特征词的词频；

4.结合特征词的类内分布率和类间偏差，计算训练集中每个网页内特证词的权重（TFIDF）；

5.根据每个网页内特证词的权重，计算训练集中每个网页的文本特征向量；

6.根据每个类中各网页的文本特征向量，计算训练集中每个类的特征向量；

7.结合特征词的位置特征，计算测试集中每个网页内特征词的词频；

8.利用向量空间模型进行网页分类，采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度，并采用相似度最大的类作为待分类网页的所属类。

计算特征词的词频时，考虑其位置的影响，本发明根据实际经验并参考前人的研究成果，认为表示网页中心内容的标题，其权重最高；对概括和强调网页起关键作用的简介和关键字，其权重次之；网页正文，其权重最低。

计算特征词t_k的权重时结合特征词t_k的类间偏差ED_kj和类内分布率ID_kj，其中，类间偏差ED_kj的计算公式如下：

式中，N(t_k,C_j)表示类C_j中出现特征词t_k的文档个数，表示所有类中出现特征词t_k的文档个数，m为训练集中类别的个数。

类内分布率ID_kj的计算公式如下：

式中，M(t_k,C_j)表示类C_j中特征词t_k出现的总次数，M(C_j)表示类C_j中所有词出现的总次数。

权重的计算公式如下：

其中，tf_ik(d_i)是根据特征词t_k在网页中的位置进行修正后的新词频，N(D)为训练集中的总文档数，N(t_k,D)为文档集D中出现特征词t_k的文档数，n为文档d_i中特征词的总个数，ED_kj为特征词t_k的类间偏差，ID_kj为特征词t_k的类内分布律。

大量的网页为最少6000个。

本发明具有如下有益效果：

1.分类正确率上，对比传统TFIDF算法和遗传算法(GA)，本发明分类方法在分类正确率上优于其他2个对比算法。主要原因是：①在计算特征词的词频时，考虑了特征词在网页中的位置对词频的影响，对其进行了修正，有效的提高了分类的正确率；②在计算特征词权重时，综合了特征词的类内分布率和类间偏差，进一步提高了分类的正确率。

2.分类时间上，由于本发明分类方法在计算特征词权重时，考虑了特征词在网页中的位置、特征词在类内及类间的分布，所以,相比于同样具有较好分类效果的遗传算法，大大缩短了执行时间。

3.本发明召回率整体上比传统的TFIDF算法及遗传算法都高。

附图说明

图1是本发明基于特征选择的网页文本分类方法与现有技术的分类正确率的对比图；

图2是本发明基于特征选择的网页文本分类方法与现有技术的分类召回率的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明分类方法在计算特征词权重时结合了特征词的位置以及特征词的类间类内分布，从而避免了那些对分类没有贡献的特征词被赋予较大权值的不足，并最终提高了分类的准确率。

本发明中的相关定义如下：

定义1（词频）词频(TF，Term Frequency)是指特征词t_k在文档d_i中出现的次数，用tf_ik(d_i)表示。在排除停用词及个别高频词的前提下，特征词t_k在文档d_i中出现的次数越多，其表征文档d_i的能力越强。

定义2（文档频率）文档频率(DF，Document Frequency)是指文档集D中出现特征词t_k的文档数，用N(t_k,D)表示。特征词t_k出现的文档数N(t_k,D)越大，t_k对文档集D中的文档d_i的代表性越弱。

定义3（反文档频率）反文档频率(IDF，Inverse Document Frequency)是特征词t_k在文档集D中出现频繁程度的度量，用IDF_k表示：

其中，N(D)为训练集中的总文档数，N(t_k,D)为文档集D中出现特征词t_k的文档数。IDF_k随着N(t_k,D)的增大而减小，文档集D中出现t_k的文档数N(t_k,D)越小，t_k对文档集D中的文档d_i越具有代表性。

定义4（归一化）为降低个别高频特征词对低频特征词的抑制作用，对各分量进行归一化。归一化后的TFIDF计算如下：

其中，L为经验值，通常取L=0.01，tf_ik(d_i)为特征词t_k在文档d_i中出现的次数，N(D)为训练集中的总文档数，N(t_k,D)为文档集D中出现特征词t_k的文档数，n为文档d_i中特征词的总个数。

定义5（网页的VSM表示）网页d的表示形式为V(d)＝(t₁,w₁(d);…;t_k,w_k(d);…,t_n,w_n(d))，其中t_k表示网页中的特征词，w_k(d)表示t_k出现的词频。

定义6（类间偏差）类间偏差(ED，external deviation)表示特征词可能在有些类中出现，可能在有些类中不出现，它为一种类间不确定性度量,用ED_kj表示:

其中，N(t_k,C_j)表示类C_j中出现特征词t_k的文档个数，表示所有类中出现特征词t_k的文档个数，m为训练集中类别的个数。从上式可看出，ED_kj值越大，说明特征词t_k越集中在类C_j中，对类C_j的表征作用越强。

定义7（类内分布率）类内分布率(ID，internal distribution)表示类内所有文档中出现特征词的概率，它是特征词t_k在某具体类中分布均衡程度的度量。类内分布率用IDk_j表示：

其中，M(t_k,C_j)表示类C_j中特征词t_k出现的总次数，M(C_j)表示类C_j中所有词出现的总次数。从上式可看出，ID_kj值越大，说明特征词t_k在类C_j中越均匀分布，对类C_j的表征作用越强。

特征词为对网页进行预处理后得到的能表示网页内容的词。

具体步骤如下：

1.把大量的网页分为训练集和测试集两部分，一般要求训练集取总网页数的80%左右，测试集取剩下的部分；

2.对网页（包括训练集和测试集）进行预处理，主要是对网页进行分词，即将网页内的文本切分成单个的词语，去除网页中对分类无关的噪音信息，去除停用词（无实际含义或应用很广泛的词）等；

3.结合特征词（网页内所有能表示网页内容的词）的位置特征，计算训练集中每个网页内特征词的词频；

Web页面不同于一般的文本文件，它是一种半结构化的文件，含有大量的链接和标签，标签域中的信息表达网页内容的能力不同，因而对网页分类所起的作用也有所不同。本发明根据特征词t_k所在的位置对其词频进行修正，具体方法为在原词频基础上，根据其所在的位置乘以相应的权重，得到新词频。在实验中，我们认为Title是对网页主题的直接描述，表示网页的中心内容，赋予其权重为4；Description是对网页的简介，keywords表示网页内容中的关键字，这两部分内容对概括和强调网页起关键作用，赋予其权重为2；PlainText是普通的文本，即网页正文，它对网页的作用较前两者次之，赋予其权重为1。

本发明考虑包含特征词t_k的文档在每个类中的分布情况，以及特征词t_k在某个类的各个文档中的分布情况，在计算特征词t_k的权重时结合特征词t_k的类间偏差ED_kj和类内分布率ID_kj。其中，类间偏差ED_kj的计算公式如下：

式中，N(t_k,C_j)表示类C_j中出现特征词t_k的文档个数，表示所有类中出现特征词t_k的文档个数，m为训练集中类别的个数。类内分布率ID_kj的计算公式如下：

结合特征词的位置、类间偏差和类内分布率后计算权重的公式如下：

本发明中，如果某个词在一个文本中出现的频率越高，说明它在区分该文本内容属性方面的能力越强；如果一个词在某些文本中出现的范围越广，即每个类别中出现次数相当，说明该词区分文本内容的能力越低。考虑到Web页面是一种半结构化的文件，含有大量的链接和标签，标签域中的信息表达网页内容的能力有所差别，对网页分类所起的作用也有所不同，本发明定义最能反映页面内容的信息归为位置1，赋予其最高权值；较能反映页面内容的信息归为位置2，赋予其高权值；反映页面内容次于前两者的信息归为位置3，赋予其较低权值，即有：

weight(p＝1)＞weight(p＝2)＞weight(p＝3)

（6）

其中，p为位置特征。在具体实验过程中，本发明认为Title是对网页主题的直接描述，表示网页的中心内容，将其置于位置1，并赋予其权重为4；Description是对网页的简介，keywords表示网页内容中的关键字，这两部分内容对概括和强调网页起关键作用，将其置于位置2，并赋予其权重为2；Plain Text是普通的文本，即网页正文，它对网页的作用较前两者次之，将其置于位置3，并赋予其权重为1。本发明根据特征词t_k在网页中的位置对其词频进行修正，具体方法为在原词频基础上，根据其位置特征乘以相应的权重，得到新词频w_k(d)。

其次，考虑到网页文本分类算法中很少考虑特征词在类内及类间的分布情况，本发明又结合了特征词的类间偏差和类内分布率来调整特征词的权重。

最后，本发明提出了一种结合特征词的位置、类间偏差和类内分布率的TFIDF特征加权方法，公式如下:

一般情况下，经过上式求出来的权重就可以得到较好的分类结果，但是当多个类同时含有同一个特征词时，且计算出的特征权重比较大时，会对分类结果的准确性产生一定的影响，因此，本发明在上式求出的权重结果上又进行了修正，修正后的权重记为W′_ik(d_i)。修正方法是先统计特征词在各个类别中权重的总和sum（注：当特征词不出现在某一类别中时，其权重为0），然后用根据上式求出的权重除以sum，以此来降低其对分类结果的影响。即

根据式(7)计算出的权重，降低了同一特征词出现在不同类中且其权重太大时对分类结果的影响，同时又不影响不同类中独有特征词对分类的影响。

在分类器的选择上，本发明选用向量空间模型，首先计算出待分类网页与每一个类之间的相似度，然后采用相似度最大的类作为待分类网页的所属类。相似度的计算公式采用两个特征向量间的余弦夹角表示:

其中，W_ik、W_jk分别表示文档d_i和类C_j的第k个特征词的权值，n为特征词的总个数。

实施例，按照本发明提出的基于特征选择的网页文本分类方法的具体实施如下：

本发明所使用的网页是来自搜狗实验室的互联网语料库SougouCS。在实验中，由于网页中有些类别的网页个数太少，因此，我们只选取了汽车、财经、IT、健康、体育、旅游、教育、文化、军事、房产、娱乐、时尚共12个类别，将整理后的网页分成训练集和测试集两部分，其中每个类中训练集的网页个数为600个，测试集的网页个数为200个。

本实施例中共有12个类，每个类中训练集的网页数是600，测试集的网页数是200，所以总网页数是12*（600+200）=9600个。

对网页进行预处理，主要是对网页进行分词，去除网页中对分类无关的噪音信息，去除停用词等。例如，网页正文内容为“我是一个学生”，经过分词后得到的结果是“我是一个学生”这样一系列的词组，再经过去除噪音信息和停用词后所得的结果是“学生”。

结合特征词的位置特征，计算训练集中每个网页内特征词的词频。统计训练集内每个网页内特征词在该网页内出现的次数，如果该特征词位于“标题”处，则在计算出的次数之上乘以4；如果该特征词位于“简介”和“关键词”处，则在计算出的次数之上乘以2；如果该特征词位于“网页正文”处，则在计算出的次数之上乘以1。

结合特征词的类内分布率和类间偏差，计算训练集中每个网页内特证词的权重（TFIDF）。根据公式（1）计算出特征词的类间偏差，根据公式（2）计算出特征词的类内分布率，最后根据公式（3）计算出特征词的复合权重。

选择训练集中每个网页内特征词权重最高的前n个（n可以任意取值，一般偏大，在本发明中n取100）特征词及其权重构成该网页的文本特征向量。合并某一类中所有网页的文本特征向量，并按权重从大到小排列，选取前n个（n可以任意取值，一般偏大，在本发明中n取100）特征词及其权重构成该类的特征向量。当得到所有类的特征向量时，训练完成。

结合特征词的位置特征，计算测试集中每个网页内特征词的词频。统计测试集内每个网页内特征词在该网页内出现的次数，如果该特征词位于“标题”处，则在计算出的次数之上乘以4；如果该特征词位于“简介”和“关键词”处，则在计算出的次数之上乘以2；如果该特征词位于“网页正文”处，则在计算出的次数之上乘以1。

利用向量空间模型进行网页分类，根据公式（14）计算待分类网页与训练集中每一个类之间的相似度，并采用相似度最大的类作为待分类网页的所属类。此步完成后，按照本发明进行网页分类结束，其分类结果如下表的混淆矩阵所示：

表1 本发明的分类结果表

从表1中可以看出，本发明分类正确的网页个数总体上较多，但也存在着像健康、文化、时尚等这样正确分类数偏低的类别。这是由于这些类别和其他一些类别之间包含的相同特征词太多造成的，即这些不同类别的分类界限模糊。例如时尚类，分类结果中有31个网页被分到了娱乐类中。

为了验证本发明的准确性，分别使用传统TFIDF算法、遗传算法(GA)与本发明进行对比。本发明采用正确率和召回率评价网页分类的性能，其计算公式如下：

其正确率对比图如图1所示，召回率对比图如图2所示。从图1、图2可以看出，使用本发明的分类效果比使用传统的TFIDF算法及遗传算法要好，对于大多数类，其分类的准确率和召回率都有一定的提高。这说明特征词在类内及类间的分布对权重的计算有一定的影响，因此，考虑这两个因素能有效地提高分类的正确率和召回率。同时也说明在计算权重时考虑特征词在网页中的位置能明显提高网页分类的准确度。

Claims

1.基于特征选择的网页文本分类方法，其特征在于，首先，把由大量的网页构成的数据集分为训练集和测试集两部分；然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重，并计算训练集中每个网页内特征词的权重，所述权重为归一化后的词频与反文档频率之积；在所得权重的基础上结合类内分布率和类间偏差，计算训练集中每个网页的特征向量，继而计算训练集中每个类的特征向量；最后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每一个类之间的相似度，采用相似度最大的类作为待分类网页的所属类,得到分类结果；

所述训练集中的网页包含若干个不同的类，对每个类中的网页进行计算得到每个类的特征向量，然后，计算测试集中每个网页内特征词的词频，以及待分类网页与训练集中每个类的特征向量的相似度，采用相似度最大的类作为待分类网页的所属类,得到对网页进行分类的结果；数据集中的训练集进行一系列的计算构造网页分类器，测试集用于测试该网页分类器对网页进行分类的性能优劣；

{ED}_{k j} = \frac{N (t_{k}, C_{j})}{Σ_{x = 1}^{m} N (t_{k}, C_{x})} - - - (1)

式中，N(t_k,C_j)表示类C_j中出现特征词t_k的文档个数，表示所有类中出现特征词t_k的文档个数，m为训练集中类别的个数；

类内分布率ID_kj的计算公式如下：

{ID}_{k j} = \frac{M (t_{k}, C_{j})}{M (C_{j})} - - - (2)

式中，M(t_k,C_j)表示类C_j中特征词t_k出现的总次数，M(C_j)表示类C_j中所有词出现的总次数；

权重的计算公式如下：

W_{i k} (d_{i}) = \frac{{tf}_{i k} (d_{i}) \times l o g (\frac{N (D)}{N (t_{k}, D)} + 0.01)}{\sqrt{Σ_{k = 1}^{n} {({tf}_{i k} (d_{i}))}^{2} \times {[l o g (\frac{N (D)}{N (t_{k}, D)} + 0.01)]}^{2}}} \times {ED}_{k j} \times {ID}_{k j} - - - (3)

其中，tf_ik(d_i)是根据特征词t_k在网页中的位置进行修正后的新词频，N(D)为训练集中的总文档数，N(t_k,D)为文档集D中出现特征词t_k的文档数，n为文档d_i中特征词的总个数，ED_kj为特征词t_k的类间偏差，ID_kj为特征词t_k的类内分布率。

2.如权利要求1所述的基于特征选择的网页文本分类方法，其特征在于，特征词为对网页进行预处理后得到的能表示网页内容的词。

3.如权利要求1-2任一项所述的基于特征选择的网页文本分类方法，其特征在于，具体步骤如下:

1)把由大量的网页构成的数据集分为训练集和测试集两部分，一般要求训练集取数据集的80％左右，测试集取剩余部分；

2)对数据集进行预处理，主要是对网页进行分词，即将网页内的文本切分成单个的词语，去除网页中对分类无关的噪音信息，去除停用词即无实际含义或应用很广泛的词；

3)结合特征词的位置特征，计算训练集中每个网页内特征词的词频；

4)结合特征词的类内分布率和类间偏差，计算训练集中每个网页内特证词的权重；

5)根据每个网页内特证词的权重，计算训练集中每个网页的文本特征向量；

6)根据每个类中各网页的文本特征向量，计算训练集中每个类的特征向量；

7)结合特征词的位置特征，计算测试集中每个网页内特征词的词频；

8)利用向量空间模型进行网页分类，采用两个特征向量间的余弦夹角公式计算待分类网页与训练集中每一个类之间的相似度，并采用相似度最大的类作为待分类网页的所属类。

4.如权利要求1所述的基于特征选择的网页文本分类方法，其特征在于，表示网页中心内容的标题，其权重最高；对概括和强调网页起关键作用的简介和关键字，其权重次之；网页正文，其权重最低。

5.如权利要求1所述的基于特征选择的网页文本分类方法，其特征在于：大量的网页为最少6000个。