CN101706806A - 一种基于特征选择的均值漂移文本分类方法 - Google Patents
一种基于特征选择的均值漂移文本分类方法 Download PDFInfo
- Publication number
- CN101706806A CN101706806A CN200910237537A CN200910237537A CN101706806A CN 101706806 A CN101706806 A CN 101706806A CN 200910237537 A CN200910237537 A CN 200910237537A CN 200910237537 A CN200910237537 A CN 200910237537A CN 101706806 A CN101706806 A CN 101706806A
- Authority
- CN
- China
- Prior art keywords
- feature
- mean shift
- classification
- text
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于特征选择的均值漂移文本分类方法。首先利用信息增益理论提取出对分类贡献最大的若干单词组成特征空间,然后使用一种改进的Mean Shift算法对训练样本进行计算得到各分类中心,最后基于各分类中心对测试样本进行预测实现文本的自动分类。实验表明,本发明提出的方法与一些经典的文本分类算法相比,具有良好的分类效果和较低的时间复杂度。
Description
技术领域
本发明涉及一种基于特征选择的均值漂移文本分类方法,用于应用于信息检索、机器翻译、自动文摘、信息过滤、邮件分类等领域。
背景技术
为了在当前***式增长的海量数据中找到有价值的信息,文本自动分类成为了一个非常重要的研究课题。文本自动分类是指通过自动为文本标注类别,帮助人们组织管理文本信息。
对于数据分类而言,如果能够探测到各个分类的中心,在此基础上便可以实现对数据的分类,这种思想叫做基于质心(Centroid-based)的分类。而Mean Shift算法能够迅速准确的探测到局部极大值的特点非常适合用于寻找分类算法中的质心。在先前国内外的研究中,这一特点不但已经得到了理论证明,并在很多应用领域中进行了很好的实现。如果能够将Mean Shift算法应用于基于质心的分类,不但可以保证自动分类的准确性,同时能够继承基于质心分类的低时间复杂度。
Mean Shift这个概念最早是由Fukunaga等人于1975年在一篇关于概率密度梯度函数估计的论文中提出的,在90年代由Yizong Cheng,Comaniciu等人将其推广并运用在其他领域。目前,在目标跟踪、图像分割以及聚类的研究中,Mean Shift都得到了很好的应用。但是,在分类这一研究领域,还尚未有学者尝试应用Mean Shift。
发明内容
本发明的目的在于提供一种基于特征选择的均值漂移文本分类方法:本发明在尽可能少的损失文本相关度信息的基础上,基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维,使其分布于一个可以接受的较低维的空间。然后利用本文提出的改进的Mean Shift算法对其进行分类。
本发明的技术方案为:提供一种基于特征选择的均值漂移文本分类方法,包括以下阶段:
(一)基于信息增益的特征选取,根据如下公式:
其中P(ci)表示ci类文本在样本空间中出现的概率,P(t)表示样本空间中包含单词t的文本的概率,P(ci|t)表示文本包含单词t时属于ci类的条件概率,P(t)表示样本空间中不包含单词t的文本的概率,P(ci|t)表示文本不包含单词t时属于ci类的条件概率,m表示类别数。
计算样本空间中各单词的信息增益,选取信息增益最大的N个单词构成新的N维特征空间。在此RN空间中,每一个文本都可表示为一个N维的特征向量f(N)。考虑到各特征的信息增益和出现频度应能够较好的反映其重要性,提出了以下的特征向量表示方法:
f(N)=(f1,f2,...,fN)
fi=freqi×IGi
其中,freqi表示第i个特征在此文本中出现的频度,IGi表示第i个特征的信息增益;
(二)改进的均值漂移算法,对带宽自适应算法进行改进,针对每一个不同的点xi,选取其k个最近邻xi,k通过计算欧氏范数来估计hi,如下公式所示:
与全局统一的带宽值不同,本方法提出根据每一点的若干最近邻点的分布情况选择一个相应的带宽值。在密度较大的区域,各点位置相对集中,样本点与k个最近邻点的间距较小,通过上述公式计算所得的带宽值也较小,符合密度分布的情况;反之在密度较低的区域,各点分布稀疏,间距较大,对应的带宽值也较大。这种带宽值的计算方法考虑到了每一点周围的密度分布情况,根据不同的情况选择适合的带宽值,从而更加准确的估计MeanShift向量,提高了计算的精确度。利用该均值漂移算法对训练样本空间中的每一个分类进行计算,找出每一个分类的中心。最终,得到的若干个分类中心的集合就是训练的结果;
(三)对测试样本进行分类阶段,依次计算每一个样本与各分类中心的距离,将其归入距离最近的分类;
对于数据集中的任一分类,本分类方法都可以达到良好的效果,平均准确率为0.948,平均F1值为0.805,这两项数据与经典的文本分类算法不相上下,证明了本方法的确是一个行之有效的方法。
本发明一种基于特征选择的均值漂移文本分类方法,其优点在于:本方法与一些经典的文本分类法相比,具有良好的分类效果和更低的时间消耗。
附图说明
图1是基于特征选择的均值漂移文本分类方法步骤
图2是MSBC算法,Rocchio算法及KNN算法在数据集20NewsGroup上进行分类的结果;
图3是MSBC算法,Rocchio算法及KNN算法在数据集Reuters-21578上进行分类的结果;
图4是MSBC算法,Rocchio算法及KNN算法对来自数据集20NewsGroup的测试样本的分类时间;
图5是MSBC算法,Rocchio算法及KNN算法对来自数据集Reuters-21578的测试样本的分类时间;
具体实施方式
基于特征选择的均值漂移文本分类方法(Mean Shift Based Classification,MSBC),作为一种基于质心的分类方法,主要分为三个阶段:首先基于信息增益选择若干单词构造一个较低维的特征空间,此空间去除了对文本相关度贡献较低的特征,保留了对分类有重要指导意义的特征;然后基于此特征空间,对训练样本的每一个分类分别使用改进的均值漂移算法进行计算,得到若干个分类的中心,完成训练过程;最后,对测试样本进行分类,计算每一个测试样本点与各分类中心的距离,并将其归入与其距离最近的分类.图1对MSBC方法的三个阶段进行了概括的介绍.
本发明选择了当前本领域研究中最权威的两个数据集Reuters-21578和20NewsGroup为基础,分别提取出其中6个和8个主要分类,进行文本分类实验,并与经典方法KNN和Rocchio方法结果进行比较。
衡量分类质量的方式有数种,其中使用最为广泛的为F-1指标:F-1指标是一种衡量簇间差异的计算方式,该方式综合查准率和查全率来衡量分类质量。F-1值越大,说明分类质量越好。任一类别i的F-1值按如下方式计算:
其中precision和recall是两个常用的评估参数,其定义如下所示:若对于任一类别,分类结果用表1表示:
表1分类结果表示
则有:
其中,recall用于测量被正确提取的信息的比例,precision用于测量提取出的信息中有多少是正确的。
实验包括两部分内容:实验1考查了利用本发明方法的分类效果;实验2考查了应用本发明方法对未知样本进行自动分类的时间消耗。同时,在两个实验中选择了文本分类的经典算法KNN和Rocchio作为对比参考。
第一部分以各数据集F-1的平均值作为衡量标准,考查本发明方法的分类准确性。实验结果如图2和图3所示。
从图2我们可以看出,当特征数量小于150时,分类效果明显降低,这说明特征数量过少则不能反映出样本空间的特点以及各分类之间的差别,从而影响分类的准确性;而当特征数量增长到一定的范围,特征空间已经能够表达并替代原始样本空间,算法取得了良好的效果;此后,由于现有的特征已经能够很好的代替原始样本空间,所以特征数量的继续增加对分类效果便没有太大影响了.由此可以得出,对于任一数据集,我们仅需要选择某个适当的特征数量N,若N太小,不足以反映原始样本空间的状况,若N太大,则没有必要,提高了计算成本的同时并不能提高分类效果.
通过图2和图3可以看出,对于测试的两个数据集,本发明的分类方法都可以达到良好的效果,平均F-1值为0.805,与经典的文本分类算法不相上下,证明了本方法的确是一个行之有效的方法。
第二部分选取同样数量的测试样本,对三种文本分类方法的分类时间进行了比较,实验结果如图4和图5所示。
从第二部分实验的结果可以看出,在对同样数量的测试样本进行自动分类时,KNN算法消耗了较多的时间。而同属于基于质心的分类算法,Rocchio和本发明方法不相上下,都达到了较为理想的分类速度。
由于KNN算法对每一个测试样本都需要提取所有的训练样本与之进行计算,时间复杂度非常高。若数据集共分为C个类别,每个类别平均拥有M个训练样本,测试样本总数为N,那么利用KNN算法进行分类的时间复杂度为O(CMN);而同属基于质心的分类算法,Rocchio和本发明方法的分类时间复杂度仅为O(CN),远低于KNN算法。因此尽管KNN算法达到了理想的分类准确性,但较高的时间消耗成为了实际应用中海量数据处理的瓶颈;而Rocchio算法虽然时间复杂度低,但分类效果却不理想;本发明方法,不但能够保证出色的分类效果,同时具有与Rocchio算法相同的低时间复杂度,可以说是一个高效快速的文本分类方法。
Claims (5)
1.一种基于特征选择的均值漂移文本分类方法,在减少的损失文本相关度信息的基础上,基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维,使其分布于一个可以接受的低维空间;然后利用一种改进的Mean Shift方法对其进行分类,其特征在于:该文档分类方法包括三个阶段:基于信息增益的特征选取、改进的均值漂移算法、对测试样本进行分类。
2.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,其特征在于:将均值漂移算法应用于文本分类。
3.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,其特征在于:利用信息增益进行特征选取以达到降维目的;根据信息增益公式:
计算样本空间中各单词的信息增益,选取信息增益最大的N个单词构成新的N维特征空间。
4.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,特征在于:进行特征选取的特征向量表示方法如下:
f(N)=(f1,f2,...,fN)
fi=freqi×IGi
其中,freqi表示第i个特征在此文本中出现的频度,IGi表示第i个特征的信息增益。
5.如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,其特征在于:对带宽自适应的均值漂移算法进行改进,针对每一个不同的点xi,选取其k个最近邻xi,k通过计算欧氏范数来估计hi,如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910237537A CN101706806A (zh) | 2009-11-11 | 2009-11-11 | 一种基于特征选择的均值漂移文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910237537A CN101706806A (zh) | 2009-11-11 | 2009-11-11 | 一种基于特征选择的均值漂移文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101706806A true CN101706806A (zh) | 2010-05-12 |
Family
ID=42377031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910237537A Pending CN101706806A (zh) | 2009-11-11 | 2009-11-11 | 一种基于特征选择的均值漂移文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101706806A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN103778146A (zh) * | 2012-10-23 | 2014-05-07 | 富士通株式会社 | 图像聚类装置以及方法 |
CN105760888A (zh) * | 2016-02-23 | 2016-07-13 | 重庆邮电大学 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
CN104391835B (zh) * | 2014-09-30 | 2017-09-29 | 中南大学 | 文本中特征词选择方法及装置 |
CN108830336A (zh) * | 2018-06-27 | 2018-11-16 | 重庆交通大学 | 一种面向高分影像的地物特征筛选方法 |
CN109543739A (zh) * | 2018-11-15 | 2019-03-29 | 杭州安恒信息技术股份有限公司 | 一种日志分类方法、装置、设备及可读存储介质 |
CN110503133A (zh) * | 2019-07-26 | 2019-11-26 | 东北大学 | 一种基于深度学习的离心式压缩机故障预测方法 |
-
2009
- 2009-11-11 CN CN200910237537A patent/CN101706806A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN102298646B (zh) * | 2011-09-21 | 2014-04-09 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN103778146A (zh) * | 2012-10-23 | 2014-05-07 | 富士通株式会社 | 图像聚类装置以及方法 |
CN103778146B (zh) * | 2012-10-23 | 2017-03-01 | 富士通株式会社 | 图像聚类装置以及方法 |
CN104391835B (zh) * | 2014-09-30 | 2017-09-29 | 中南大学 | 文本中特征词选择方法及装置 |
CN105760888A (zh) * | 2016-02-23 | 2016-07-13 | 重庆邮电大学 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
CN105760888B (zh) * | 2016-02-23 | 2019-03-08 | 重庆邮电大学 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
CN108830336A (zh) * | 2018-06-27 | 2018-11-16 | 重庆交通大学 | 一种面向高分影像的地物特征筛选方法 |
CN108830336B (zh) * | 2018-06-27 | 2021-08-13 | 重庆交通大学 | 一种面向高分影像的地物特征筛选方法 |
CN109543739A (zh) * | 2018-11-15 | 2019-03-29 | 杭州安恒信息技术股份有限公司 | 一种日志分类方法、装置、设备及可读存储介质 |
CN110503133A (zh) * | 2019-07-26 | 2019-11-26 | 东北大学 | 一种基于深度学习的离心式压缩机故障预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101706806A (zh) | 一种基于特征选择的均值漂移文本分类方法 | |
CN106202124B (zh) | 网页分类方法及装置 | |
CN103473262B (zh) | 一种基于关联规则的Web评论观点自动分类***及分类方法 | |
CN103955489A (zh) | 基于信息熵特征权重量化的海量短文本分布式knn分类算法及*** | |
CN104731954A (zh) | 基于群透视音乐推荐方法与*** | |
CN109670014A (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及*** | |
EP1932154B1 (en) | Method and apparatus for automatically generating a playlist by segmental feature comparison | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
CN110659367A (zh) | 文本分类号的确定方法、装置以及电子设备 | |
Untoro et al. | Evaluation of decision tree, k-NN, Naive Bayes and SVM with MWMOTE on UCI dataset | |
Hussain et al. | Design and analysis of news category predictor | |
CN109376235A (zh) | 基于文档层词频重排序的特征选择方法 | |
CN112836731A (zh) | 基于决策树准确率和相关性度量的信号随机森林分类方法、***及装置 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
Lo et al. | Content-based music classification | |
KR20110062274A (ko) | 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법 | |
CN114511027B (zh) | 通过大数据网络进行英语远程数据提取方法 | |
CN103207893A (zh) | 基于向量组映射的两类文本的分类方法 | |
CN113792141A (zh) | 基于协方差度量因子的特征选择方法 | |
KR20020064821A (ko) | 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법 | |
CN112559668A (zh) | 一种基于聚类的专利地图制作与表示方法 | |
Tesic et al. | Data modeling strategies for imbalanced learning in visual search | |
Zhang et al. | Exploring the limits of 2D template matching for detecting targets in cellular cryo-EM images | |
Li et al. | Multi-label classification based on association rules with application to scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20100512 |