CN104750844B - 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 - Google Patents

基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 Download PDF

Info

Publication number
CN104750844B
CN104750844B CN201510165395.5A CN201510165395A CN104750844B CN 104750844 B CN104750844 B CN 104750844B CN 201510165395 A CN201510165395 A CN 201510165395A CN 104750844 B CN104750844 B CN 104750844B
Authority
CN
China
Prior art keywords
text
classification
document
feature words
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510165395.5A
Other languages
English (en)
Other versions
CN104750844A (zh
Inventor
龙军
陈科文
张祖平
杨柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201510165395.5A priority Critical patent/CN104750844B/zh
Publication of CN104750844A publication Critical patent/CN104750844A/zh
Application granted granted Critical
Publication of CN104750844B publication Critical patent/CN104750844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。

Description

基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置
技术领域
本发明属于文本挖掘与机器学习技术领域,特别涉及一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置。
背景技术
随着计算机的广泛应用和互联网规模的不断发展,电子文本文档数量急剧增加,因此对海量文本数据进行有效地组织、检索和挖掘变得越来越重要。自动文本分类就是应用广泛的技术手段之一,它常采用向量空间模型(VSM)来表示文本,再用有监督的机器学习方法进行分类。通过从文本中提取一定数量的特征词并计算其权重,VSM模型把文本表示成由多个特征词的权重值所组成的向量,称为特征向量。在生成文本特征向量时,特征词权重计算方法是否科学决定了文本分类的性能。
传统的权重计算方法有二值法(或布尔法,Boolean)、TF(词频,TermFrequency)法和TF-IDF(词频-反文档频率,TermFrequency&InverseDocumentFrequency)法等,其中TF-IDF法综合考虑了特征词在单个文档中的局部权重因子(即词频,TF)和在整个文档集合中的全局权重因子(即反文档频率,IDF),因此计算更加科学而被广泛采用。实际上,自动文本分类需要在预先已分类的文本集上进行训练学习,但是TF-IDF法并没有考虑特征词出现的文本类别,不能充分反映特征词在文本分类中的重要性。于是,人们又提出了利用特征词的类别分布信息来计算权重的一些新方法,统称为有监督的词加权,其中典型代表就是TF-RF(词频-相关性频率,TermFrequency&RelevanceFrequency)方法,它利用特征词在正类文本和反类文本中出现的文档数之比来计算权重。虽然在解决某些两类文本分类问题上表现出较好性能,但是TF-RF方法在多类别文本分类中存在一个主要问题:它把多个类别的文本合并成单个反类来处理,而没有考虑特征词在这些文本类别中的详细分布信息,导致权重计算存在偏差。另外,TF-RF等有监督词加权方法所计算的特征词权重与具体文本的类别有关,而待分类的新文本或测试文本的类别是未知的,当把待分类文本表示成特征向量时,要么采用TF-IDF等传统方法计算权重,要么针对所有类别逐一用TF-RF方法计算权重,前者需要在训练学习时增加额外的统计信息,后者则在分类或测试时增加了计算量和多种变数。
发明内容
本发明提供了一种基于TF-IGM(词频-反重力矩,TermFrequency&InverseGravityMoment)的文本特征向量生成方法和装置及文本分类方法和装置,通过充分利用特征词在不同类别文本中出现的详细分布信息,并建立一种称为反重力矩(IGM)的模型来度量特征词的类间分布集中度,使得权重计算更加合理有效,从而提高文本分类器的性能,以克服现有技术中特征词权重计算偏差大的问题;所提供的上述方法和装置具备多个可调节的选项参数,能根据文本分类性能测试结果进行优化调节,从而获得最优的文本分类效果。
一种用于文本分类的特征向量生成方法,包括以下步骤:
步骤1:将已分类的训练文本集和待分类的文本集进行预处理;
所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;
所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;
所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词;
步骤2:从预处理后的训练集中提取不同的词条,构建由不同的词条组成的初始词表;
并且统计训练集中的每个文本类别的文档数目、每个词条的类别文档频率;所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目;
同时,统计训练集与待分类的文本集中每个文档包含的每个词条的词频,所述每个文档包括训练文档和待分类文档,所述词频是指某词条在一篇文档中的出现频次;
步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的词条作为文本的特征词,构建新的特征词表;
待分类的文本集和训练集使用相同的特征词表;
所述特征选择指标包括卡方统计量或信息增益;
所述筛选方法是先计算每个词条的特征选择指标,将所有词条的特征选择指标计算值按照从大到小排序,选择排列在前面的600~6000个词条作为特征词;
根据需要,选择的特征词数量范围也可进一步扩大,以便在分类准确度和分类速度之间进行权衡。
步骤4:用TF-IGM方法计算每个特征词在文档中的权重,并生成文档特征向量;
所述TF-IGM方法是先按照以下公式计算特征词tk在文档di中的权重W(tk,di),再按照以下公式对特征词权重进行归一化处理;最后用每个特征词的归一化权重值w(tk,di)组成文档di的特征向量
W ( t k , d i ) = W l o c a l t f ( t k , d i ) · W g l o b a l c i c d ( t k )
w ‾ ( t k , d i ) = W ( t k , d i ) Σ t j ∈ d i W ( t j , d i ) 2
其中,k,j=1,2,…,n,n为经过步骤3筛选后保留的不同特征词的数量;为基于词频的局部权重因子,为基于类间分布集中度的全局权重因子;
tfki为特征词tk在文档di中的原始词频,log(tfki+1)是对数词频,是开方词频,取三者中的任意一个值;
根据文本分类性能测试结果的好坏而定;
所述基于类间分布集中度的全局权重因子采用类间分布集中度、类间分布集中度与类内分布均匀度结合、类间分布集中度与反文档频率结合、或者类间分布集中度与反词频结合进行计算获得。
所述基于类间分布集中度的全局权重因子采用以下公式计算获得:
W g l o b a l c i c d ( t k ) = 1 + λ · C i c d ( t k )
λ为可调节系数,取6~7,Cicd(tk)为特征词tk的类间分布集中度。
所述特征词tk的类间分布集中度Cicd(tk)采用以下的反重力矩(IGM)模型公式计算获得:
C i c d ( t k ) = F 1 Σ r = 1 m ( F r · r )
特征词tk在各个文本类别中的出现频次按从大到小排序为F1≥F2≥……≥Fm;m表示文本类别数,Fr(r=1,2,...,m)为排序后特征词tk在第r个文本类别中的出现频次,取值为词条类别文档频率DFr或词条类别平均词频avgTFr,(Fr·r)是第r个文本类别对应的重力矩(GravityMoment,GM);
重力矩的倒数就是反重力矩(InverseGravityMoment,IGM);
所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目;
所述词条类别平均词频是指某词条在训练集某个文本类别的任一训练文档中出现的平均次数,等于该词条在某个文本类别的所有训练文档中的词频之和除以这个类别的文档数目。
所述基于类间分布集中度的全局权重因子使用了特征词在训练集中的详细类别分布信息(包括词条类别文档频率、词条类别平均词频)以及每个类别的文档数目,并且所述全局权重因子是预先统一计算的,而在把每个文档转换为特征向量时只需查表确定,因为不论是在训练文档中,还是在待分类的文档中,同一个特征词的全局权重因子都是相同的。
一种基于TF-IGM权重的文本分类方法,基于所述的一种用于文本分类的特征向量生成方法,首先,计算已知类别的每个训练文档和待分类的每个文档中所有特征词的TF-IGM权重,得到对应的文档特征向量;然后,将已知类别的文本训练集对应的文档特征向量集输入分类器,进行分类训练,得到已训练好的分类器;最后,再将待分类的文本集对应的文档特征向量集输入已训练好的分类器,完成对文档的分类。
对测试文档分类结果进行评估,得到分类性能指标;基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子类型、调节全局权重因子的可调节系数λ或优化分类器参数,直到测试集文本分类结果的宏平均F1值和微平均F1值达到最优;
所述分类性能指标包括每个类别的准确率、召回率、综合性能F1值,以及所有类别的宏平均F1值和微平均F1值;
微平均F1值=2P*R/(P+R)
宏平均F1值=sum(F1j)/m
其中,P为整个测试文本集分类结果的准确率,R为整个测试文本集被正确分类的召回率;F1j=2Pj*Rj/(Pj+Rj)为第j个文本类别(j=1,2,…,m)的分类性能指标F1值,m为类别数,Pj和Rj为第j类文本分类的准确率和召回率,sum()是求和函数。
一种用于文本分类的特征向量生成装置,基于所述的一种用于文本分类的特征向量生成方法,包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块及特征词的TF-IGM权重计算模块。
一种基于TF-IGM权重的文本分类装置,利用所述的用于文本分类的特征向量生成装置与任何一种分类器和相应的性能评估器组成文本分类装置;
所述特征向量生成装置将从输入的文本集生成的特征向量输出到分类器进行训练和分类,并可根据分类性能评估结果反馈调节它的各选项参数输入值,从而获得最优的文本分类性能。
有益效果
本发明所提供的一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,TF-IGM(词频-反重力矩)特征词权重计算新方法考虑到文本中比其它词具有更强类别区分能力的特征词在不同类别文本中分布不均衡,通常集中出现在单个或很少类别的文本中,建立了一种称为“反重力矩(IGM)”的独特模型来计算特征词的类间分布集中度,并在此基础上计算特征词的权重。与现有技术相比,用上述TF-IGM方法计算所得权重更能逼真地反映特征词在文本分类中的重要性,使得具有强类别区分能力的特征词被分配更大的权重,使得权重计算更加合理有效,从而提高了文本分类的准确度;而且计算所得特征词权重与具体文本的类别无关,克服了前述TF-RF等有监督词加权方法在多类别文本分类中的不足。
另外,本发明所提供的特征向量生成方法与装置及文本分类方法与装置还具备多个不同的选项参数,比如特征选择方法、选择保留的特征词数目、局部权重因子类型、基于反重力矩(IGM)的全局权重因子中的可调节系数等,可根据分类性能测试结果进行优化调节,以便适应具有不同特点的文本数据集,从而获得最佳的文本分类性能。
在国内外研究人员广泛使用的公共英文数据集和中文数据集上的反复实验表明,本发明提出的TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,本发明提供的特征向量生成装置生成的特征向量能应用于多种分类器,尤其适合多类别文本分类应用。
附图说明
图1为本发明所述用于文本分类的特征向量生成方法的工作流程图;
图2为本发明所述文本分类装置的工作流程图。
具体实施方式
下面结合附图和具体案例对本发明的具体实施方式进行详细描述,并提供有关实验结果。为了突出本发明的创新之处,将忽略本领域众所周知的一些技术的细节。
如图1和图2所示,用TF-IGM(词频-反重力矩)方法计算特征词权重并进行文本分类的具体实施步骤如下:
步骤(1):生成文本特征向量;
输入文本集(包括训练集和测试集),基于TF-IGM方法按顺序执行如下步骤s1至步骤s4,生成每个文本文档的特征向量。
步骤s1:文本预处理;
准备一批预先已分类的文本集,并按一定比例分割为训练集和测试集;导入已分类和待分类的文本集,对所有文本进行分词和去噪;所述去噪就是去除文本中的一些噪声信息,包括常见的标点符号、数字、停用词、等等。
步骤s2:训练集词表构建与统计处理;
从预处理后的训练集中提取不同的词条,构建初始词表;并且统计每个文本类别的文档数目、每个词条的类别文档频率,以及每个训练文档和待分类文档中包含的每个词条的出现频次,即词频。
本实施案例使用两个具有不同特点的公共数据集:20Newsgroups英文语料库和TanCorp中文语料库,并且使用前者的20news-bydate版本和后者的TanCorp-12预处理格式版本。20News-bydate英文语料库是准平衡数据集,共有18846篇文档,分为20类,各类文档数相等或接近,已按日期排序并分割为训练集(有11314篇文档,占60%)和测试集(有7532篇文档,占40%),其中重复文档和某些消息头部已被删除(以防止它们对分类结果产生误导效应),预处理时去除英文停用词、数字、标点符号和其它单字符,以及出现频次少于两次的罕见词,并把大写字母转换为小写、用词根分析器提取英语单词的词根,从训练集文本中共提取出35642个特征词。TanCorp-12中文语料库是非平衡数据集,共有14150篇文档,分为12类,各类文档数不等,最大类(电脑类)有2943篇文档,而最小类(地域类)只有150篇文档,不存在异类重复文档,所有文本已用中文分词工具ICTCLAS进行分词,并去掉了数字与标点符号,提取出72601个独立的特征词(其中停用词和其它不重要的词将使用步骤s2中的特征选择方法去除),把语料库按类别随机分割为训练集(有9345篇文档,占66%)和测试集(有4805篇文档,占34%)。
步骤s3:特征选择;
使用卡方统计量(CHI或χ2)、信息增益(IG)或其它方法,对初始词表中所有特征词的重要性进行评估,选择保留一定数量的评分较高的特征词,组成新的特征词表;待分类文本集和训练集使用相同的特征词表。
本实施案例的实验中使用流行的卡方统计量(CHI或χ2)方法进行特征选择,须计算特征词的类别相关的CHI评分,其计算公式为:
其中,A和B分别为特征词在正类和反类中的文档频率,C和D分别为正类和反类中没有包含该特征词的文档数,N=A+B+C+D为总文档数。取各类别CHI评分的最大值作为该特征词的总评分(简称为CHImax),对所有词的总评分排序,选择保留一定数量的高分特征词。本实施案例用CHImax方法分别从语料库中提取低维特征集和高维特征集用于实验,具体就是,从20Newsgroups英文语料库中分别选择2000和9000个特征词,从TanCorp中文语料库中分别选择1000和6000个特征词。
步骤s4:特征词权重计算;
用TF-IGM方法计算每个特征词在文档中的归一化权重,把每个文本文档(训练文本、测试文本或待分类文本)都转换成特征向量,具体实现步骤如下:
步骤s4.1:统计每个特征词tk(k=1,2,...,n)在不同类别Cj(j=1,2,...,m)训练文本中出现的频次,有2个选项:类别文档频率DFj和类别平均词频avgTFj,其中DFj表示Cj类中含有特征词tk的文档数,这里TFij表示tk在Cj类的某文档di中的词频,Nj表示Cj类文档数。
步骤s4.2:对特征词在各类别文本中的出现频次按从大到小排序,排序结果为F1≥F2≥…≥Fm,这里Fr(r=1,2,...,m)=DFj或avgTFj,为排序后在第r位的Cj类别频次。
在本实验中,选择Fr=DFj(类别文档频率),因此对特征词tk在各类别中的文档频率排序。
步骤s4.3:计算特征词的各类别频次按最大值归一化后的重力矩之和,取其倒数即得到反重力矩(IGM),用它来表示特征词的类间分布集中度,为
步骤s4.4:按公式计算特征词tk的全局权重因子,其中的系数λ可调节,通常取6~7。在本实验中,选择系数值为:λ=7.0。预先在扫描训练集时计算出所有特征词的全局权重因子并保存备用。
步骤s4.5:当把某个文本文档di转换成特征向量时,利用如下公式
W ( t k , d i ) = W l o c a l t f ( t k , d i ) · W g l o b a l c i c d ( t k )
计算特征词的权重W(tk,di),其中局部权重因子有3个选项可取:
W l o c a l t f ( t k , d i ) = { tf k i , l o g ( tf k i + 1 ) , tf k i }
{}内的三个选项分别为特征词tk在被转换文档di内的原始词频、对数词频和开方词频,计算权重时可以任选其中之一,根据文本分类性能测试结果的好坏而定。
步骤s4.6:计算文档di内所有特征词tk(k=1,2,...,n)的权重W(tk,di),组合成为特征词权重向量,再按向量长度对所有权重值进行归一化(即余弦归一化),其公式如下:
w ‾ ( t k , d i ) = W ( t k , d i ) Σ t j ∈ d i W ( t j , d i ) 2 ,
这样就把一个文本文档di转换成为最终的归一化特征向量Di,如下:
D i = [ w ‾ ( t 1 , d i ) , w ‾ ( t 2 , d i ) , ... , w ‾ ( t n , d i ) ] .
本实施案例的实验中除了采用上述TF-IGM方法计算特征词权重以外,为了比较性能,还使用了TF-IDF和TF-RF方法计算权重,其计算公式分别为:TF-IDF权重=TF*log2(N/DF),TF-RF权重=TF*log2(2+DFP/DFN)。其中,TF和DF分别为词频和文档频率,N为训练集的文档数,DFP和DFN分别为特征词在正类和反类中的文档频率,当DFN=0时,取其值为1。
步骤(2):训练分类器和对文本分类;
将文档特征向量集(包括训练集、测试集或待分类集)输入分类器进行训练和分类,可用的分类器有K近邻(kNN)分类器、支持向量机(SVM)等等。
本实施案例中使用了kNN和SVM两种分类器,kNN分类器的“近邻”数设置为K=30,任意两个文档之间的相似度表示为两者的特征向量夹角余弦值(通常称为余弦相似度)。kNN分类器支持多类别分类。SVM(支持向量机)的实现使用广泛流行的开源的LibSVM分类器,并设置它使用线性核和默认参数。原始SVM只支持两类分类,但是LibSVM已经扩展成能够支持多类别分类。
步骤(3):评估分类性能;
对测试集的分类结果进行评估,得到分类性能综合指标微平均F1值(micro-F1)和宏平均F1值(macro-F1)。
根据性能评估结果,可以调节上述步骤S1至步骤S4中的选项参数,直至用户满意为止,比如在大多数情况下达到最优或兼顾分类处理速度时接近最优。
分类性能综合指标有两个,分别定义为:
微平均F1值:micro-F1=2P*R/(P+R)
宏平均F1值:macro-F1=sum(F1j)/m
其中,P为整个测试集分类结果的准确率,R为整个测试集被正确分类的召回率;F1j=2Pj*Rj/(Pj+Rj)为第j类(j=1,2,…,m)的性能指标F1值,m为类别数,Pj和Rj为第j类文本分类的准确率和召回率,sum()是求和函数。
步骤(4):对新文本集分类;
当各步骤或模块的选项参数确定好了之后,用新文本集取代测试集,重复上述步骤(1)至步骤(2),输出分类结果。
本实验主要目的是验证所提出的特征词权重计算方法TF-IGM是否有效,因此只对测试集进行分类和评估。
实验结果:
首先用K近邻(kNN,k=30)分类器对20Newsgroups英文语料库进行文本分类实验。这里,使用三种特征词权重计算方法,其公式分别如下:
公式(1):TF-IDF权重=TF*log2(N/DF)
公式(2):TF-RF权重=TF*log2(2+DFP/max(DFN,1))
公式(3):TF-IGM权重=TF*(1+7*DF1/sum(DFi*i)),系数λ=7
其中,TF为某特征词在文档内的词频,N为训练集中总文档数,DF为特征词的总文档频率,DFi为按从大到小排序后第i类(i=1,2,…,m)对应的某特征词的文档频率(即第i类中包含某特征词的文档数),DFp和DFN分别为正类和反类中特征词的文档频率,max(DFN,1)表示当DFN=0时其值为1,否则为DFN,sum()是求和函数。对于公式(1)和(3),训练集和测试集使用相同方法计算权重,但是对于公式(2),当训练集用TF-RF方法计算权重时,测试集用TF-IDF方法计算权重,因为TF-RF权重与文本类别相关,而待分类文本或测试集文本的类别是未知的,而TF-IDF权重是与文本类别无关的。
表1在20Newsgroups英文语料库上的K近邻(kNN,K=30)分类结果
实验结果如表1所示,可见TF-IGM方法明显优于TF-IDF和TF-RF方法。
接下来,用性能优良的支持向量机LibSVM(线性核)分类器进行文本分类实验,并将TF-IGM方法中的局部权重因子改为开方词频sqrt(TF),对应的特征词权重计算公式如下:
公式(4):TF-IGM权重=sqrt(TF)*(1+7*DF1/sum(DFi*i))
其中,sqrt()是求平方根的函数,sum()是求和的函数。
分别在20Newsgroups英文语料库(含20类文本)和TanCorp中文语料库(含12类文本)上进行多类别文本分类实验,实验结果如表2和表3所示,与表1相同,其中TF-RF方法仅用于计算训练集文档中特征词的权重,而相应的测试集文档中特征词的权重则用TF-IDF方法计算。
表2在20Newsgroups英文语料库上的支持向量机(SVM,线性核)分类结果
表3在TanCorp中文语料库上的支持向量机(SVM,线性核)分类结果
从表2和表3中的实验结果可以看出:TF-IGM方法明显优于TF-IDF和TF-RF方法。
实验数据集:
英文文本分类语料库20Newsgroups的下载地址:http://qwone.com/~jason/20Newsgroups
中文文本分类语料库TanCorpV1.0的下载地址:
http://www.searchforum.org.cn/tansongbo/corpus.htm
(注:本实施案例的实验中,分别使用前者的20news-bydate版本和后者的TanCorp-12预处理格式版本。)
参考文献:
ManLan,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,vol.31,No.4,pp.721-735.
(注:该文献介绍了TF-RF方法,并与TF-IDF等其它方法进行了比较)。

Claims (7)

1.一种用于文本分类的特征向量生成方法,其特征在于,包括以下步骤:
步骤1:将已分类的训练文本集和待分类的文本集进行预处理;
所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;
所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;
所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词;
步骤2:从预处理后的训练集中提取不同的词条,构建由不同的词条组成的初始词表;
并且统计训练集中的每个文本类别的文档数目、每个词条的类别文档频率;所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目;
同时,统计训练集与待分类的文本集中每个文档包含的每个词条的词频,所述每个文档包括训练文档和待分类文档,所述词频是指某词条在一篇文档中的出现频次;
步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的词条作为文本的特征词,构建新的特征词表;
待分类的文本集和训练集使用相同的特征词表;
所述特征选择指标包括卡方统计量或信息增益;
所述筛选方法是先计算每个词条的特征选择指标,将所有词条的特征选择指标计算值按照从大到小排序,选择排列在前面的600~6000个词条作为特征词;
步骤4:用TF-IGM方法计算每个特征词在文档中的权重,并生成文档特征向量;
所述TF-IGM方法是先按照以下公式计算特征词tk在文档di中的权重W(tk,di);再按照以下公式对特征词权重进行归一化处理;最后用每个特征词的归一化权重值组成文档di的特征向量 D i = [ w ‾ ( t 1 , d i ) , w ‾ ( t 2 , d i ) , ... , w ‾ ( t n , d i ) ] ;
W ( t k , d i ) = W l o c a l t f ( t k , d i ) · W g l o b a l c i c d ( t k )
w ‾ ( t k , d i ) = W ( t k , d i ) Σ t j ∈ d i W ( t j , d i ) 2
其中,k,j=1,2,…,n,n为经过步骤3筛选后保留的不同特征词的数量;为基于词频的局部权重因子,为基于类间分布集中度的全局权重因子;
tfki为特征词tk在文档di中的原始词频,log(tfki+1)是对数词频,是开方词频,取三者中的任意一个值;
所述基于类间分布集中度的全局权重因子采用类间分布集中度、类间分布集中度与类内分布均匀度结合、类间分布集中度与反文档频率结合、或者类间分布集中度与反词频结合进行计算获得。
2.根据权利要求1所述的一种用于文本分类的特征向量生成方法,其特征在于,所述基于类间分布集中度的全局权重因子采用以下公式计算获得:
W g l o b a l c i c d ( t k ) = 1 + λ · C i c d ( t k )
λ为可调节系数,取6~7,Cicd(tk)为特征词tk的类间分布集中度。
3.根据权利要求2所述的一种用于文本分类的特征向量生成方法,其特征在于,所述特征词tk的类间分布集中度Cicd(tk)采用以下的反重力矩模型公式计算获得:
C i c d ( t k ) = F 1 Σ r = 1 m ( F r · r )
特征词tk在各个文本类别中的出现频次按从大到小排序为F1≥F2≥……≥Fm;m表示文本类别数,Fr(r=1,2,...,m)为排序后特征词tk在第r个文本类别中的出现频次,取值为词条类别文档频率DFr或词条类别平均词频avgTFr,(Fr·r)是第r个文本类别对应的重力矩;
所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目;
所述词条类别平均词频是指某词条在训练集某个文本类别的任一训练文档中出现的平均次数,等于该词条在某个文本类别的所有训练文档中的词频之和除以这个类别的文档数目。
4.一种基于TF-IGM权重的文本分类方法,其特征在于,基于权利要求1-3任一项所述的一种用于文本分类的特征向量生成方法,首先,计算已知类别的每个训练文档和待分类的每个文档中所有特征词的TF-IGM权重,得到对应的文档特征向量;然后,将已知类别的文本训练集对应的文档特征向量集输入分类器,进行分类训练,得到已训练好的分类器;最后,再将待分类的文本集对应的文档特征向量集输入已训练好的分类器,完成对文档的分类。
5.根据权利要求4所述的一种基于TF-IGM权重的文本分类方法,其特征在于,对测试文档分类结果进行评估,得到分类性能指标,基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子类型、调节全局权重因子的可调节系数λ或优化分类器参数,直到测试文本集分类结果的宏平均F1值和微平均F1值达到最优;
所述分类性能指标包括每个类别的准确率、召回率、综合性能F1值,以及所有类别的宏平均F1值和微平均F1值;
微平均F1值=2P*R/(P+R)
宏平均F1值=sum(F1j)/m
其中,P为整个测试文本集分类结果的准确率,R为整个测试文本集被正确分类的召回率;F1j=2Pj*Rj/(Pj+Rj)为第j个文本类别(j=1,2,…,m)的分类性能指标F1值,m为类别数,Pj和Rj为第j类文本分类的准确率和召回率,sum()是求和函数。
6.一种用于文本分类的特征向量生成装置,其特征在于,基于权利要求1-3任一项所述的一种用于文本分类的特征向量生成方法,包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块及特征词的TF-IGM权重计算模块。
7.一种基于TF-IGM权重的文本分类装置,其特征在于,利用权利要求6所述的用于文本分类的特征向量生成装置与任何一种分类器和相应的性能评估器组成文本分类装置;
所述特征向量生成装置将从输入的文本集生成的特征向量输出到分类器进行训练和分类,并可根据性能评估结果反馈调节它的各选项参数输入值,从而获得最优的文本分类性能。
CN201510165395.5A 2015-04-09 2015-04-09 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 Active CN104750844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510165395.5A CN104750844B (zh) 2015-04-09 2015-04-09 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510165395.5A CN104750844B (zh) 2015-04-09 2015-04-09 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN104750844A CN104750844A (zh) 2015-07-01
CN104750844B true CN104750844B (zh) 2016-03-02

Family

ID=53590528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510165395.5A Active CN104750844B (zh) 2015-04-09 2015-04-09 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN104750844B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845220B (zh) * 2015-12-07 2020-08-25 深圳先进技术研究院 一种Android恶意软件检测***及方法
CN105512311B (zh) * 2015-12-14 2019-02-26 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105760493A (zh) * 2016-02-18 2016-07-13 国网江苏省电力公司电力科学研究院 一种电力营销服务热点95598工单自动分类方法
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类***
CN105956179B (zh) * 2016-05-30 2020-05-26 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN106095996B (zh) * 2016-06-22 2020-02-21 量子云未来(北京)信息科技有限公司 用于文本分类的方法
CN106202481A (zh) * 2016-07-18 2016-12-07 量子云未来(北京)信息科技有限公司 一种感知数据的评价方法和***
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN108268461A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于混合分类器的文本分类装置
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN108509471A (zh) * 2017-05-19 2018-09-07 苏州纯青智能科技有限公司 一种中文文本分类方法
CN110019654A (zh) * 2017-07-20 2019-07-16 南方电网传媒有限公司 一种不平衡网络文本分类优化***
CN107609160B (zh) * 2017-09-26 2020-02-21 联想(北京)有限公司 一种文本分类方法和装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN108304509B (zh) * 2018-01-19 2021-12-21 华南理工大学 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN108427720B (zh) * 2018-02-08 2020-12-29 中国科学院计算技术研究所 ***日志分类方法
CN108416355B (zh) * 2018-03-09 2021-07-30 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108346474B (zh) * 2018-03-14 2021-09-28 湖南省蓝蜻蜓网络科技有限公司 基于单词的类内分布与类间分布的电子病历特征选择方法
CN109376235B (zh) * 2018-07-24 2021-11-16 西安理工大学 基于文档层词频重排序的特征选择方法
CN109271517B (zh) * 2018-09-29 2021-12-31 东北大学 Ig tf-idf文本特征向量生成及文本分类方法
CN111694948B (zh) * 2019-03-12 2024-05-17 北京京东尚科信息技术有限公司 文本的分类方法及***、电子设备、存储介质
CN110110328B (zh) * 2019-04-26 2023-09-01 北京零秒科技有限公司 文本处理方法及装置
CN110135592B (zh) * 2019-05-16 2023-09-19 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN111090997B (zh) * 2019-12-20 2021-07-20 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN111309904A (zh) * 2020-01-20 2020-06-19 上海市大数据中心 一种基于广义特征词库的公共数据分级方法
CN113515623B (zh) * 2021-04-28 2022-12-06 西安理工大学 基于词频差值因子的特征选择方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100353361C (zh) * 2004-07-09 2007-12-05 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法
CN103020167B (zh) * 2012-11-26 2016-09-28 南京大学 一种计算机中文文本分类方法

Also Published As

Publication number Publication date
CN104750844A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
Jiang et al. Text Classification Using Novel Term Weighting Scheme‐Based Improved TF‐IDF for Internet Media Reports
CN103207913B (zh) 商品细粒度语义关系的获取方法和***
CN103810264B (zh) 基于特征选择的网页文本分类方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类***及方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN105224695A (zh) 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN105069141A (zh) 一种股票标准新闻库的构建方法及构建***
CN103365997A (zh) 一种基于集成学习的观点挖掘方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
US8560466B2 (en) Method and arrangement for automatic charset detection
CN102567308A (zh) 一种信息处理特征提取方法
Wei et al. Text classification using support vector machine with mixture of kernel
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN103593431A (zh) 网络舆情分析方法和装置
CN102436512B (zh) 一种基于偏好度的网页文本内容管控方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant