CN101706806A

CN101706806A - 一种基于特征选择的均值漂移文本分类方法

Info

Publication number: CN101706806A
Application number: CN200910237537A
Authority: CN
Inventors: 欧阳元新; 任捷; 辜玉; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2009-11-11
Filing date: 2009-11-11
Publication date: 2010-05-12

Abstract

本发明提出了一种基于特征选择的均值漂移文本分类方法。首先利用信息增益理论提取出对分类贡献最大的若干单词组成特征空间，然后使用一种改进的Mean Shift算法对训练样本进行计算得到各分类中心，最后基于各分类中心对测试样本进行预测实现文本的自动分类。实验表明，本发明提出的方法与一些经典的文本分类算法相比，具有良好的分类效果和较低的时间复杂度。

Description

一种基于特征选择的均值漂移文本分类方法

技术领域

本发明涉及一种基于特征选择的均值漂移文本分类方法，用于应用于信息检索、机器翻译、自动文摘、信息过滤、邮件分类等领域。

背景技术

为了在当前***式增长的海量数据中找到有价值的信息，文本自动分类成为了一个非常重要的研究课题。文本自动分类是指通过自动为文本标注类别，帮助人们组织管理文本信息。

对于数据分类而言，如果能够探测到各个分类的中心，在此基础上便可以实现对数据的分类，这种思想叫做基于质心(Centroid-based)的分类。而Mean Shift算法能够迅速准确的探测到局部极大值的特点非常适合用于寻找分类算法中的质心。在先前国内外的研究中，这一特点不但已经得到了理论证明，并在很多应用领域中进行了很好的实现。如果能够将Mean Shift算法应用于基于质心的分类，不但可以保证自动分类的准确性，同时能够继承基于质心分类的低时间复杂度。

Mean Shift这个概念最早是由Fukunaga等人于1975年在一篇关于概率密度梯度函数估计的论文中提出的，在90年代由Yizong Cheng，Comaniciu等人将其推广并运用在其他领域。目前，在目标跟踪、图像分割以及聚类的研究中，Mean Shift都得到了很好的应用。但是，在分类这一研究领域，还尚未有学者尝试应用Mean Shift。

发明内容

本发明的目的在于提供一种基于特征选择的均值漂移文本分类方法：本发明在尽可能少的损失文本相关度信息的基础上，基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维，使其分布于一个可以接受的较低维的空间。然后利用本文提出的改进的Mean Shift算法对其进行分类。

本发明的技术方案为：提供一种基于特征选择的均值漂移文本分类方法，包括以下阶段：

(一)基于信息增益的特征选取，根据如下公式：

IG (t) = - Σ_{i = 1}^{m} P (c_{i}) \log P (c_{i}) + P (t) Σ_{i = 1}^{m} P (c_{i} | t) \log P (c_{i} | t) + P (\overset{&OverBar;}{t}) Σ_{i = 1}^{m} P (c_{i} | \overset{&OverBar;}{t}) \log P (c_{i} | \overset{&OverBar;}{t})

其中P(c_i)表示c_i类文本在样本空间中出现的概率，P(t)表示样本空间中包含单词t的文本的概率，P(c_i|t)表示文本包含单词t时属于c_i类的条件概率，P(t)表示样本空间中不包含单词t的文本的概率，P(c_i|t)表示文本不包含单词t时属于c_i类的条件概率，m表示类别数。

计算样本空间中各单词的信息增益，选取信息增益最大的N个单词构成新的N维特征空间。在此R^N空间中，每一个文本都可表示为一个N维的特征向量f(N)。考虑到各特征的信息增益和出现频度应能够较好的反映其重要性，提出了以下的特征向量表示方法：

f(N)＝(f₁，f₂，...，f_N)

f_i＝freq_i×IG_i

其中，freq_i表示第i个特征在此文本中出现的频度，IG_i表示第i个特征的信息增益；

(二)改进的均值漂移算法，对带宽自适应算法进行改进，针对每一个不同的点x_i，选取其k个最近邻x_i，k通过计算欧氏范数来估计h_i，如下公式所示：

h_{i} = \frac{1}{k} Σ_{j = 1}^{k} {| | x_{i} - x_{i, j} | |}_{Euclidean}

与全局统一的带宽值不同，本方法提出根据每一点的若干最近邻点的分布情况选择一个相应的带宽值。在密度较大的区域，各点位置相对集中，样本点与k个最近邻点的间距较小，通过上述公式计算所得的带宽值也较小，符合密度分布的情况；反之在密度较低的区域，各点分布稀疏，间距较大，对应的带宽值也较大。这种带宽值的计算方法考虑到了每一点周围的密度分布情况，根据不同的情况选择适合的带宽值，从而更加准确的估计MeanShift向量，提高了计算的精确度。利用该均值漂移算法对训练样本空间中的每一个分类进行计算，找出每一个分类的中心。最终，得到的若干个分类中心的集合就是训练的结果；

(三)对测试样本进行分类阶段，依次计算每一个样本与各分类中心的距离，将其归入距离最近的分类；

对于数据集中的任一分类，本分类方法都可以达到良好的效果，平均准确率为0.948，平均F1值为0.805，这两项数据与经典的文本分类算法不相上下，证明了本方法的确是一个行之有效的方法。

本发明一种基于特征选择的均值漂移文本分类方法，其优点在于：本方法与一些经典的文本分类法相比，具有良好的分类效果和更低的时间消耗。

附图说明

图1是基于特征选择的均值漂移文本分类方法步骤

图2是MSBC算法，Rocchio算法及KNN算法在数据集20NewsGroup上进行分类的结果；

图3是MSBC算法，Rocchio算法及KNN算法在数据集Reuters-21578上进行分类的结果；

图4是MSBC算法，Rocchio算法及KNN算法对来自数据集20NewsGroup的测试样本的分类时间；

图5是MSBC算法，Rocchio算法及KNN算法对来自数据集Reuters-21578的测试样本的分类时间；

具体实施方式

基于特征选择的均值漂移文本分类方法(Mean Shift Based Classification，MSBC)，作为一种基于质心的分类方法，主要分为三个阶段：首先基于信息增益选择若干单词构造一个较低维的特征空间，此空间去除了对文本相关度贡献较低的特征，保留了对分类有重要指导意义的特征；然后基于此特征空间，对训练样本的每一个分类分别使用改进的均值漂移算法进行计算，得到若干个分类的中心，完成训练过程；最后，对测试样本进行分类，计算每一个测试样本点与各分类中心的距离，并将其归入与其距离最近的分类.图1对MSBC方法的三个阶段进行了概括的介绍.

本发明选择了当前本领域研究中最权威的两个数据集Reuters-21578和20NewsGroup为基础，分别提取出其中6个和8个主要分类，进行文本分类实验，并与经典方法KNN和Rocchio方法结果进行比较。

衡量分类质量的方式有数种，其中使用最为广泛的为F-1指标：F-1指标是一种衡量簇间差异的计算方式，该方式综合查准率和查全率来衡量分类质量。F-1值越大，说明分类质量越好。任一类别i的F-1值按如下方式计算：

F_{i} = \frac{2 \times {precision}_{i} \times {recall}_{i}}{{precision}_{i} + {recall}_{i}}

其中precision和recall是两个常用的评估参数，其定义如下所示：若对于任一类别，分类结果用表1表示：

表1分类结果表示

则有：

{recall}_{i} = \frac{{TP}_{i}}{{TP}_{i} + {FP}_{i}}

{precision}_{i} = \frac{{TP}_{i}}{{TP}_{i} + {FN}_{i}}

其中，recall用于测量被正确提取的信息的比例，precision用于测量提取出的信息中有多少是正确的。

实验包括两部分内容：实验1考查了利用本发明方法的分类效果；实验2考查了应用本发明方法对未知样本进行自动分类的时间消耗。同时，在两个实验中选择了文本分类的经典算法KNN和Rocchio作为对比参考。

第一部分以各数据集F-1的平均值作为衡量标准，考查本发明方法的分类准确性。实验结果如图2和图3所示。

从图2我们可以看出，当特征数量小于150时，分类效果明显降低，这说明特征数量过少则不能反映出样本空间的特点以及各分类之间的差别，从而影响分类的准确性；而当特征数量增长到一定的范围，特征空间已经能够表达并替代原始样本空间，算法取得了良好的效果；此后，由于现有的特征已经能够很好的代替原始样本空间，所以特征数量的继续增加对分类效果便没有太大影响了.由此可以得出，对于任一数据集，我们仅需要选择某个适当的特征数量N，若N太小，不足以反映原始样本空间的状况，若N太大，则没有必要，提高了计算成本的同时并不能提高分类效果.

通过图2和图3可以看出，对于测试的两个数据集，本发明的分类方法都可以达到良好的效果，平均F-1值为0.805，与经典的文本分类算法不相上下，证明了本方法的确是一个行之有效的方法。

第二部分选取同样数量的测试样本，对三种文本分类方法的分类时间进行了比较，实验结果如图4和图5所示。

从第二部分实验的结果可以看出，在对同样数量的测试样本进行自动分类时，KNN算法消耗了较多的时间。而同属于基于质心的分类算法，Rocchio和本发明方法不相上下，都达到了较为理想的分类速度。

由于KNN算法对每一个测试样本都需要提取所有的训练样本与之进行计算，时间复杂度非常高。若数据集共分为C个类别，每个类别平均拥有M个训练样本，测试样本总数为N，那么利用KNN算法进行分类的时间复杂度为O(CMN)；而同属基于质心的分类算法，Rocchio和本发明方法的分类时间复杂度仅为O(CN)，远低于KNN算法。因此尽管KNN算法达到了理想的分类准确性，但较高的时间消耗成为了实际应用中海量数据处理的瓶颈；而Rocchio算法虽然时间复杂度低，但分类效果却不理想；本发明方法，不但能够保证出色的分类效果，同时具有与Rocchio算法相同的低时间复杂度，可以说是一个高效快速的文本分类方法。

Claims

1.一种基于特征选择的均值漂移文本分类方法，在减少的损失文本相关度信息的基础上，基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维，使其分布于一个可以接受的低维空间；然后利用一种改进的Mean Shift方法对其进行分类，其特征在于：该文档分类方法包括三个阶段：基于信息增益的特征选取、改进的均值漂移算法、对测试样本进行分类。

2.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法，其特征在于：将均值漂移算法应用于文本分类。

3.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法，其特征在于：利用信息增益进行特征选取以达到降维目的；根据信息增益公式：

IG (t) = - Σ_{i = 1}^{m} P (c_{i}) \log P (c_{i})

(t) Σ_{i = 1}^{m} P (c_{i} | t) \log P (c_{i} | t)

+ P (\overset{&OverBar;}{t}) Σ_{i = 1}^{m} P (c_{i} | \overset{&OverBar;}{t}) \log P (c_{i} | \overset{&OverBar;}{t})

计算样本空间中各单词的信息增益，选取信息增益最大的N个单词构成新的N维特征空间。

4.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法，特征在于：进行特征选取的特征向量表示方法如下：

f(N)＝(f₁，f₂，...，f_N)

f_i＝freq_i×IG_i

其中，freq_i表示第i个特征在此文本中出现的频度，IG_i表示第i个特征的信息增益。

5.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法，其特征在于：对带宽自适应的均值漂移算法进行改进，针对每一个不同的点x_i，选取其k个最近邻x_i，k通过计算欧氏范数来估计h_i，如下所示：

h_{i} = \frac{1}{k} Σ_{j = 1}^{k} | | x_{i} - x_{i, j} {| |}_{Euclidean} .