CN104391835B - 文本中特征词选择方法及装置 - Google Patents
文本中特征词选择方法及装置 Download PDFInfo
- Publication number
- CN104391835B CN104391835B CN201410521030.7A CN201410521030A CN104391835B CN 104391835 B CN104391835 B CN 104391835B CN 201410521030 A CN201410521030 A CN 201410521030A CN 104391835 B CN104391835 B CN 104391835B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- candidate feature
- feature word
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本中特征词选择方法及装置,其中该方法包括利用评价函数FCD确定总文本中候选特征词的重要性值,其中,该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,平均频度ATF为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。通过本发明,解决了相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种文本中特征词选择方法及装置。
背景技术
随着计算机技术和互联网的发展,大量的信息开始以计算机可读的文字形式存在,并且其数量与日俱增。如何从这些海量数据中获取用户所需的信息成为关键问题。自动文本分类是组织和处理大规模文本数据的关键技术之一,广泛应用于搜索引擎、Web分类、信息推介和信息过滤等领域。自动文本分类是根据内容把文本划分到一个或多个预先定义的类别,是一种有监督的学习,涉及预处理、文本表示、特征降维、分类方法等关键技术。文本特征的高维性及文本向量数据的稀疏性是影响文本分类效率的主要瓶颈,因而特征降维是自动文本分类中的一个重要环节,对分类的准确性和效率起决定性作用。特征选择是其中一种有效的特征降维方法,也是目前的研究热点。
特征选择是指从特征全集中选取一部分对于分类有贡献的特征子集,不同的特征选取方法按不同的评估函数对特征进行评价。常用的特征选择方法有文本频率(DF)、信息增益(IG)、互信息(MI)、χ2统计量(CHI)、期望交叉熵(ECE)、文本证据权(WET)和几率比(OR)等。随着机器学习、信息检索从发展到成熟,非均衡数据集(imbalance)或类偏斜(skewed)问题成为文本分类技术发展面临的重要难题之一。非均衡数据集问题,即数据集中各个类别包含的样本数或者文本长度存在很大差异,是导致文本分类效果不理想的一个重要原因。传统特征选择方法都是基于数据集均衡假设而提出,而现实应用中数据集往往是不均衡的。相关研究表明,虽然传统特征选择方法在均衡语料上效果不错,但是它们在非均衡语料上效果并不理想;这是因为这些方法一般倾向于选择高频词,在数据集非均衡情况下,大类中文本数量远远多于稀有类别(小类),在大类中出现次数较少的词由于文本数量较多其频率可能远远大于稀有类别中出现次数较多的词,因此特征选择方法倾向于选择大类中出现的词,那些对稀有类别判别具有重要作用的特征可能被去掉,导致分类器预测容易偏向于大类而忽略稀有类别,稀有类别的分类误差大。因此,在相关技术中存在着文本分类***在非均衡数据集情况下分类性能较差的问题。
针对相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种文本中特征词选择方法及装置,以至少解决相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题。
根据本发明的一个方面,提供了一种文本中特征词选择方法,包括:利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数FCD为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述平均频度ATF为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度;根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词。
优选地,所述候选特征词的所述隶属度μ为根据所述候选特征词的类间集中度和所述候选特征词的类内分散度确定的,其中,所述候选特征词的类间集中度为所述候选特征词在所述预定文本类别中集中出现的程度,所述候选特征词的类内分散度为所述候选特征词在所述预定文本类别的所有文档中出现的均匀程度。
优选地,在利用所述评价函数确定所述候选特征词的重要性值之前,还包括:对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
优选地,所述评价函数FCD关于候选特征词fi、类cj的计算公式为:其中,所述ATF(fi,cj)表示候选特征词fi在类cj中的频度;所述C为文本预定类别的集合,所述C={C1,C2,C3,……,C|C|};所述R为候选特征词集合F到C上的模糊关系,所述F={f1,f2,f3,……,fm};所述|cj|为类cj中的文本总数,所述|C|为总文本数,所述表示总文本数|C|与类cj内的文本数的比例,所述μR(fi,cj)为R的隶属度,表示所述fi与所述cj的相关关系,其中,所述R为F×C上的模糊集,用于表示所述F到所述C上的一个模糊关系。
优选地,所述候选特征词fi在类cj中的频度ATF(fi,cj)的计算公式为:其中所述TF(fi,dk)表示候选特征词fi在文本dk中出现的词频,所述dk为类cj内的文本,所述DF(fi,cj)表示候选特征词fi在类cj中出现的文本频率,M表示在文本dk中出现的候选特征词的种类之和。
优选地,所述候选特征词fi在类cj中的隶属度μR(fi,cj)的计算公式为:μR(fi,cj)=DAC(fi,cj)×DIC(fi,cj),其中,所述DAC(fi,cj)为候选特征词fi在类cj中的类间集中度,所述DIC(fi,cj)为候选特征词fi在类cj中的类内分散度。
优选地,所述候选特征词fi在类cj中的类间集中度其中,所述CF(fi)表示出现候选特征词fi的类别数,所述DF(fi)表示候选特征词fi平均在每个类别中出现的文本频率;所述TF(fi)表示候选特征词fi在总文本数中出现的词频。
优选地,所述候选特征词fi在类cj中的类内分散度其中,所述|cj|为类cj中的文本总数,所述TF(f,cj)表示类cj中总的词频数。
优选地,所述R为候选特征词集合F到类集合C上的模糊集,其中,所述F={f1,f2,f3,……,fm},所述C={C1,C2,C3,……,C|C|},所述候选特征词fi在类cj中的隶属度μR(fi,cj):F×C→[0,1]。
根据本发明的另一方面,提供了一种文本中特征词选择装置,包括:确定模块,用于利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述频度为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度;第一选择模块,用于根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词。
优选地,所述文本中特征词选择装置还包括:处理模块,用于对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;第二选择模块,用于选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
通过本发明,采用利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述频度为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度;根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词,解决了相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文本中特征词选择方法的流程图;
图2是根据本发明实施例的文本中特征词选择装置的结构框图;
图3是根据本发明实施例的文本中特征词选择装置的优选结构框图;
图4是根据本发明实施例的特征选择和文本分类的流程图;
图5是根据本发明实施例的文本分类器装置图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种文本中特征词选择方法,图1是根据本发明实施例的文本中特征词选择方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,利用评价函数FCD确定总文本中候选特征词的重要性值,其中,该评价函数FCD为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,该平均频度ATF为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;
步骤S104,根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。
通过上述步骤,利用评价函数FCD确定总文本中候选特征词的重要性值,其中,评价函数为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,频度为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词,其中,该隶属度μ是模糊数学的一个重要概念,它是用0-1之间的一个实数来表示对象属于某个事物的程度。例如若存在一个论域U,R为论域上的一个模糊集,则对于U中的任意元素x,R都有一个隶属度μ(x)∈(0,1))与之对应,μ(x)越接近1,则x属于R的程度越高。实现了利用评价函数FCD从候选特征词中选择特征词。解决了相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题,进而达到了提高文本分类器的性能的效果。
其中,候选特征词的隶属度μ为根据候选特征词的类间集中度和候选特征词的类内分散度确定的,其中,候选特征词的类间集中度为候选特征词在预定文本类别中集中出现的程度,并且,当该候选特征词越是集中出现在预定文本类别中的某一类别文档中,而较少出现在其他类别文档中时,则表示该候选特征词的分类贡献越大,其类间集中度越大;候选特征词的类内分散度为候选特征词在预定文本类别的所有文档中出现的均匀程度,该均匀程度为候选特征词在某一类别文档中出现的次数越多,则表示该候选特征词越能代表该类别,其分类贡献越大。
在一个优选地实施例中,在利用评价函数确定候选特征词的重要性值之前,还包括:对文本进行预处理,该预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;选择文本中经过上述预处理后剩余的词语作为候选特征词。经过上述预处理,可以将不符合预定规则的词句去除掉,保存符合预定规则的候选特征词,从而方便进行文本分类。
其中,评价函数FCD关于候选特征词fi、类cj的计算公式为:其中,ATF(fi,cj)表示候选特征词fi在类cj中的频度;C为文本预定类别的集合,C={C1,C2,C3,……,C|C|};R为候选特征词集合F到C上的模糊关系,F={f1,f2,f3,……,fm};|cj|为类cj中的文本总数,|C|为总文本数,表示总文本数|C|与类cj内的文本数的比例,μR(fi,cj)为R的隶属度,表示fi与cj的相关关系,其中,所述R为F×C上的模糊集,用于表示所述F到所述C上的一个模糊关系。
其中,候选特征词fi在类cj中的频度ATF(fi,cj)的计算公式为:其中TF(fi,dk)表示候选特征词fi在文本dk中出现的词频,dk为类cj内的文本,其中k表示类cj里的第k个文本,DF(fi,cj)表示候选特征词fi在类cj中出现的文本频率,M表示在文本dk中出现的候选特征词的种类之和。
其中,候选特征词fi在类cj中的隶属度μR(fi,cj)的计算公式为:μR(fi,cj)=DAC(fi,cj)×DIC(fi,cj),其中,DAC(fi,cj)为候选特征词fi在类cj中的类间集中度,DIC(fi,cj)为候选特征词fi在类cj中的类内分散度。
其中,候选特征词fi在类cj中的类间集中度其中,CF(fi)表示出现候选特征词fi的类别数,DF(fi)表示候选特征词fi平均在每个类别中出现的文本频率;TF(fi)表示候选特征词fi在总文本数中出现的词频。
其中,候选特征词fi在类cj中的类内分散度其中,|cj|为类cj中的文本总数,TF(f,cj)表示类cj中总的词频数。
其中,F×C上的模糊集R为候选特征词集合F到类集合C上的一个模糊关系,其中,F={f1,f2,f3,……,fm},C={C1,C2,C3,……,C|C|},候选特征词fi在类cj中的隶属度μR(fi,cj):F×C→[0,1]。
在本实施例中还提供了一种文本中特征词选择装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的文本中特征词选择装置的结构框图,如图2所示,该装置包括确定模块22和第一选择模块24,下面对该装置进行说明。
确定模块22,用于利用评价函数FCD确定总文本中候选特征词的重要性值,其中,评价函数为根据候选特征词的平均频度ATF、候选特征词的隶属度μ计算得到的,频度为候选特征词在预定文本类别中平均出现的次数,隶属度μ为候选特征词对预定文本类别的隶属度;第一选择模块24,连接至上述确定模块22,用于根据确定的候选特征词的重要性值,从候选特征词中选择预定数量的特征词。
图3是根据本发明实施例的文本中特征词选择装置的优选结构框图,如图3所示,该装置除包括图2所示的所有模块外,还包括处理模块32和第二选择模块34,下面对该装置进行说明。
处理模块32,用于对文本进行预处理,该预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;第二选择模块34,连接至上述处理模块32和确定模块22,用于选择文本中经过预处理后剩余的词语作为候选特征词。
为了解决相关技术中存在的文本分类***在非均衡数据集情况下分类性能较差的问题,本发明实施例中还提供了一种基于隶属度的文本分类特征选择方法及装置,以解决数据集非均衡时稀有类别分类效果差的问题。
在该实施例中,是以计算机为工具,根据新提出的特征选择方法,建立了包含文本预处理、特征选择、文本表示、自动分类,再到分类结果后处理的一整套功能的自动文本分类装置。
在本发明实施例中实现了一种基于隶属度的文本分类特征选择方法,该方法首先通过文本预处理获得候选特征词;然后利用了对分类具有重要作用的特征在类别中的分布统计规律,定义了基于平均频度、隶属度特征重要性评价函数,对于每个候选特征词,按照重要性评价函数先计算其在各个类别中的重要性值,接着通过最大值方法计算其在整个数据集中的重要性值,以此选择重要性值较大的候选特征词;最后利用支持向量机学习方法,建立分类模型,实现文本分类。实验证明,该实施例中的技术方案能快速、有效地实现特征选择,提高分类器的分类精度和效率。
面向文本分类、基于模糊类别分布信息的特征选择分类器装置,由语料收集及预处理装置、特征选择装置、文本表示装置、分类器、后处理装置依次串连组成。
图4是根据本发明实施例的特征选择和文本分类的流程图,如图4所示,用基于隶属度的特征选择方法进行特征选择和文本分类的步骤包括:
步骤S402,语料收集。
实验采用了两个基准语料库:Reuters-2158英文语料库和复旦大学中文文本分类语料库,分别选取其中的文本数量较多的前10个类别的文本用于实验,两个语料库都包含训练集和测试集两部分,也是典型的非均匀数据集,文本的类别分布如表1和表2所示,其中,表1为Reuters-2158语料库中前10个类别的文本分布表,表2为复旦大学中文文本分类语料库前10类的文本分布表。
表1
表2
步骤S404,文本预处理。
对Reuters-2158语料库前10个类别文本的预处理包括以下步骤:
①去除格式标记,提取每篇文本中的<TOPICS>部分的类别信息、<TITLE>部分的标题信息和<BODY>部分的正文内容,其他部分的内容去除。
②过滤文本中的数字、特殊符号、单个英文字母等非法字符,只保留需要的英文单词,将其中的大写字母全部转换为小写。
③利用英文停用词表,去除文本中的停用词。
④根据Porter Stemmer词干化算法对文本中的英文单词进行快速词干化处理。
去除一些信息残缺的文本后,采用Reuters-2158中包含文本篇数最多的前10个类别的文本集合进行文本分类试验,这10个类别分别是:Earn、Acq、Crude、Grain、Interest、Money-fx、Ship、Trade、Wheat、Corn10类,并采用ModApte划分,训练集文本数量为5785篇,测试集为文本数量为2299篇。
对复旦大学中文文本分类语料库前10个类别文本的预处理包括以下步骤:
①去除格式标记根据每篇文本存放的目录结构,提取出文本所对应的类别。
②过滤文本中的标点符号、单个字母等非法字符,只保留需要的中文汉字和英文单词,并将其中英文大写字母全部转换为小写。
③采用中科院计算所开发的“汉语词法分析***”(ICTCLAS***)接口对文本进行分词处理。
④分别根据英文停用词表和哈工大中文停用词表去除文本中的英文停用词和中文停用词。
选取复旦大学语料库中文本数量最多的前10个类别(Economy、Sports、Computer、Politics、Agriculture、Environment、Art、Space、History、Military)的文本集合作为实验数据源,实验中删掉一些已损坏文本和重复文本后,训练集中共保留7810篇,测试集中保留5770篇,共13580篇文本。对两个语料库中的文本分别进行预处理:去除格式标记,采用ICTCLAS***进行中文分词或采用Stemmer算法进行词干化,把英文大写字母转换为小写,采用stop list去除停用词和非法字符,扫描文档统计出每个词的词频、文档频等,去除总词频小于3的词。
步骤S406,特征选择。
下面采用对比的方法来说明本发明实施例中的基于类别分布信息的特征选择方法FCD。在相关技术中,常用的两种特征选择方法为信息增益(IG)和χ2统计量(CHI),其中:
(1)信息增益(IG):
信息增益特征选择方法基于信息论中熵(entropy)的概念,考察一个候选特征词在一篇文本中出现与否对类别的信息量的贡献。候选特征词fi的信息增益计算如下:
采用上述公式评价候选特征词fi对整个训练集分类的重要性,其中P(ci)表示文本集中出现属于类别ci文本的概率,P(fi)表示文本集中出现候选特征词fi的概率,P(cj|fi)表示文本在出现候选特征词fi的条件下属于ci类的概率,表示文本集中不出现候选特征词fi的概率,表示文本在不出现候选特征词fi的条件下属于类别ci的概率,|C|表示类别数。
(2)χ2统计量特征选择方法(CHI):
χ2统计量是一种常用的统计量,可以用来检验候选特征词fi和类别ci之间的相关性。候选特征词fi和类别ci的相关度与它们之间的χ2统计量值的大小呈正相关,χ2统计量值越大,表示该特征越能对该类别的表示能力越强,则被选择的几率就越大。χ2统计量计算公式如下:
利用上述公式评价候选特征词fi对类别cj的分类重要程度,采用公式评价候选特征词fi对整个训练集分类的重要程度。其中,N为训练集中的总文本数,A表示训练集中出现候选特征词fi且属于类别cj的文本数量,B表示训练集中出现候选特征词fi且不属于类别cj的文本数量,C表示训练集中不出现候选特征词fi且属于类别cj的文本数量,D表示训练集中不出现候选特征词fi且不属于类别cj的文本数量。
本发明实施例中的基于隶属度的特征选择方法FCD:
通常认为特征对分类精度的贡献度与以下因素关联性最强:频度、类别分布(类间集中度和类内分散度),FCD方法综合考虑了这2个因素。
类间集中度(Distribution Among Class,简称为DAC)表示特征在整个训练集中集中分布在某个类别中的程度。特征出现的类别数越少,在类间出现的文本频率和词频越不均匀,即特征的类间集中度越大,表示特征对分类越重要。因此,特征的类间集中度应该从三个方面综合反映:类别层次、文本频率层次和词频层次。在类别层次,通过出现候选特征词fi的类别数表示,候选特征词fi出现在越多的类别中,其类间集中度越小,因此计算时采用倒数形式;在文本频率层次,在文本频率比例方面,通过类别cj内含有候选特征词fi的文本数与总训练集内含有fi的文本数比例表示;在词频层次,采用候选特征词fi在类别cj出现频率与在训练集内的fi总频数相比。因此,类间集中度计算公式如下:
其中,CF(fi)表示出现候选特征词fi的类别数;DF(fi,cj)是候选特征词fi在类别cj中出现的文本频率;表示候选特征词fi在训练集中出现的总文本频率;DF(fi)表示候选特征词fi平均在每个类别中出现的文本频率;TF(fi,cj)表示候选特征词fi在类别cj出现的词频;TF(fi)表示候选特征词fi在整个训练集中出现的词频。
类内分散度(Intra-class Dispersion,简称为ICD)表示特征在某一类别中均匀分布的程度,其值越大表示特征越能够表示该类别,分类重要性越大。如果候选特征词fi在类别cj中出现的文本频率越高,词频分布越均匀,即类内分散度越高,那么候选特征词fi就越能表示类别cj的特点,对分类的重要性也就越大。因此类内分散度指标可以从文本频率和词频两个层次上反映:在文本频率层次,通过类别cj中出现候选特征词fi的文本数占类别cj中的文本总数的比例来表示,比例越高表示候选特征词fi在类别cj中分布越分散,即类内分散度越大;在词频层次,采用候选特征词fi在类别cj内的词频与类别cj内的总词频数的比例表示,其值越大则表示候选特征词fi在类别cj中的类内分散度越大。候选特征词fi在类别cj中的类内分散度的计算公式如下:
其中,|cj|表示类cj中的文本总个数,TF(f,cj)表示类cj中总的词频数。
综合以上两个方面,可以确定候选特征词fi对类别cj的隶属度。首先可以定义候选特征词与类别之间的模糊关系。
定义1:假设候选特征词集合为F={f1,f2,f3,……,fm},类别集合为C={C1,C2,C3,……,C|C|},我们称F×C上的模糊集R为F到C上的一个模糊关系。即并对定义R的隶属度为μR(fi,cj):F×C→[0,1]。
其中μR(fi,cj)表明候选特征词fi与类别cj的相关关系。这里隶属度通过特征项在文档中的类别分布来确定,即通过类间集中度与类内分散度共同确定。
定义2:R隶属度的计算为:
μR(fi,cj)=DAC(fi,cj)×DIC(fi,cj) (5)
从该式可以看出集中出现在某个类别中,且均匀出现在该类别的文档中的特征词具有更好的类别识别能力,但是为了考虑到高频词的分类贡献能力及不均衡文本集各类别内文档数的不同,我们考虑了类内平均词频。
频度表示特征在某一类文本中出现的次数,出现的次数越多也就是频度值越大时,特征对该类别的表示能力越强,对分类的重要性越高。在FCD方法中,频度用考虑文本长度影响的类内平均频度表示,特征fi在类别cj中的频度计算方法如下:
其中|cj|表示类cj中的文本总个数,TF(fi,dk)表示候选特征词fi在文本dk中出现的词频,DF(fi,cj)表示候选特征词fi在类cj中出现的文本频率,M表示在文本dk中所有特征出现多少种候选特征词。
为了克服非均匀数据集中各个类别中包含文本数量相差很大给特征选择造成的干扰,提高稀有类别中特征的重要性,同时考虑了各类别的文档数。
定义3:特征重要性评估函数FCD:
其中表示训练集内总文本数与类别cj内的文本数的比例。公式(7)中μR(fi,cj)越大表明特征项的类别分布信息具有越好的类别识别能力,同时,实验证明高频特征词对分类的贡献较大,即ATF(fi,cj)越大,特征词的类别识别能力越大。
综合以上三个方面,FCD方法评价候选特征词fi对整个训练集的分类重要程度。
通过不同特征选择算法的公式计算出每个候选特征的分值后,按照分值大小对候选特征进行排序,分别选取评分值最高的不同数量(100、500、1000、1500、2000、2500、3000、3500、4000)的特征,组成9个特征集合。
步骤S408,文本表示。
文本表示是通过文本表示模型,把文档用计算机容易存储和处理的方式表示。目前文本的表示模型有多种,包括向量空间型、潜在语义索引模型、概率模型、布尔逻辑型以及混合型等。这里采用最常用的向量空间模型(VSM)和TF-IDF权重计算方法,把词作为特征,将文本转换为向量形式。
向量空间模型把一篇文本表示为:
V(d)=((f1,w1),(f2,w2),...,(fi,wi),...,(fn,wn)) (8)
fi表示第i个特征,wi是候选特征词fi在文本d中的权重,n表示特征集合的大小。
根据TF-IDF权重,候选特征词fi在文本dj中的权重通过以下公式来计算:
其中TF(fi,dj)表示候选特征词fi在文本dj中出现的频率(次数),N表示训练文本集合的总文本数,ni表示候选特征词fi在文本集中出现的文本频率,这样,语料库中的文本集合表示为一个矩阵。
步骤S410,分类模型构建。
采用支持向量机(SVM)分类算法进行文本分类。SVM方法是建立在统计学***面把正例和反例样本文本分割开来,使两个类别文本间的分界边缘最大化,以保证分类错误率最小。实验采用怀卡智能分析环境(Waikato Environment for Knowledge Analysis,简称为Weka)数据挖掘软件中的SMO(Sequential Minimal Optimization)分类器来实现基于SVM方法的文本分类,即,将用矩阵表示文本集合转化为Weka数据挖掘软件能够识别的.arff格式文件,即把特征作为属性,类别作为判断属性,每一篇文档相当于一条记录,用一系列属性值即对应特征的权重表示。然后,将.arff文件数据导入Weka软件,使用软件中的Experimenter实验界面,采用SMO分类器实现训练和分类。
步骤S412,分类效果评价与分析。
对分类结果进行统计,计算出在不同特征选择算法下和不同特征个数情况下得到的分类结果(宏平均Fl值和微平均Fl值)。对比分类结果,比较不同特征选择算法的性能,确定性能最优的特征选择算法,同时得到不同特征选择算法下的最优特征个数。
目前在评价分类器分类效果优劣时,使用较多的指标是微平均F1值(Micro-F1)和宏平均F1值(Macro-F1)。F1值综合了准确率和召回率两个指标。准确率是指被分类***正确地划分到某个类别的文本数占被分类***划分到该类别的文本总数的比例。准确率评价指标考察的是分类算法的正确性,其值越高则表示分类***在这个类别上分类错误的概率越小。召回率也称为查全率,是指分类***正确地划分到某一类别的文本数占实际属于该类别的文本数的比例。召回率评价指标考察的是分类算法的完备性,其值越高则表示分类***在这个类别上漏掉文本的概率越小。分类***在类别ci上的准确率Pi和召回率Ri的计算公式如下:
F1值的定义如下:
其中TPi表示原本就是属于类别ci且被分类***正确地判断为类别ci的文本数量,FPi表示不属于类别ci但被分类***错误地判断为类别ci的文本数量,FNi表示属于类别ci但被分类***错误地判断为其他类别的文本数量,TNi表示不属于类别ci且被正确地判断为其他类别的文本数量。
以上介绍的准确率、召回率及F1值都是评价分类算法在单个类别分类情况的指标,当处理多类别分类问题时,要评价分类算法在整个语料库中的分类性能时,就必需将所有类别的分类情况评价结果综合起来。可以采用微平均或宏平均方法进行综合。
微平均方法先把所有类别对应的TPi、FPi和FNi分别加总,再计算精确率、召回率和F1值。微平均精确率(Micro-Precision)、微平均召回率(Micro-Precision)和微平均F1值(Micro-F1)的计算公式如下,其中,μ代表微平均:
宏平均方法先计算出每个类别的准确率和召回率,再求平均值。宏平均准确率(Macro-Precision)、宏平均召回率(Macro-Precision)和宏平均F1值(Macro-F1)的计算公式如下,其中,M代表宏平均:
步骤S414,输出实验结果。
本实施例的结果如表3至表6所示,其中表3是SVM分类器在Ruters-21578语料库上的宏平均Fl值(单位:%),表4是SVM分类器在Ruters-21578语料库上的微平均Fl值(单位:%),表5是SVM分类器在复旦大学中文语料库上的宏平均Fl值(单位:%),表6是SVM分类器在复旦大学中文语料库上的微平均Fl值(单位:%)。
表3
表4
表5
表6
从实验结果可以看出,在不同的数据集中,在不同的特征数量情况FCD方法都要好于IG和CHI两种方法,证明了该方法的有效性。同时可以看出,采用FCD特征选择方法时,在特征个数为1500或2000时,分类效果就能达到最佳,而其他方法两种方法在特征个数为2500或3000时分类效果才能达到最佳,这说明在保证分类效果最佳的条件下,采用FCD方法时需要的特征个数较少,即采用FCD方法能够减少分类器的计算复杂度。
图5是根据本发明实施例的文本分类器装置图,如图5所示,该装置是实现本发明实施例中的基于类别分布信息的文本分类特征选择方法的装置结构。该装置由语料收集及预处理装置502、特征选择装置504、文本表示装置506、分类器508、后处理装置510依次串连组成。
在不影响整体分类性能的基础上,提高稀有类别的分类准确性是解决非均衡数据集问题的基本要求。而选择与稀有类别的相关性较强的特征是提高稀有类别分类效果的关键,所以选择有丰富类别分布信息的特征是解决非均衡问题的一个途径。为了提高在数据集非均衡情况下,计算机对文本进行自动分类的准确性,本发明从统计的角度分析了含有丰富类别分布信息特征的分布特点,把类别分布信息分为类间集中度、类内分散度2个方面,在本发明的上述实施例中,从频度与由类别分布确定的隶属度两个方面综合评价特征对分类的贡献,并考虑文档的长度,提出了一种不依赖于传统方法的特征选择方法——FCD。并且,从上述的实验可以表明,不管是在英文语料集合中,还是在中文语料集合中,FCD方法与IG、CHI相比,准确率都有较大的提高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种文本中特征词选择方法,其特征在于,包括:
利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数FCD为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述平均频度ATF为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度;
根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词;
所述利用评价函数FCD确定总文本中候选特征词的重要性值的步骤包括:
利用对分类具有重要作用的特征在类别中的分布统计规律,定义基于平均频度、隶属度特征重要性评价函数;
对于每个候选特征词,按照重要性评价函数计算其在各个类别中的重要性值;
所述根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词的步骤包括:
通过最大值方法计算其在整个数据集中的重要性值,以此选择重要性值较大的候选特征词;
所述根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词的步骤之后还包括:
通过文本表示模型,把文档用计算机容易存储和处理的方式表示;
利用支持向量机学习方法,建立分类模型,实现文本分类;
对分类结果进行统计,计算出在不同特征选择算法下和不同特征个数情况下得到的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述候选特征词的所述隶属度μ为根据所述候选特征词的类间集中度和所述候选特征词的类内分散度确定的,其中,所述候选特征词的类间集中度为所述候选特征词在所述预定文本类别中集中出现的程度,所述候选特征词的类内分散度为所述候选特征词在所述预定文本类别的所有文档中出现的均匀程度。
3.根据权利要求1所述的方法,其特征在于,在利用所述评价函数确定所述候选特征词的重要性值之前,还包括:
对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;
选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
4.根据权利要求1所述的方法,其特征在于,所述评价函数FCD关于候选特征词fi、类cj的计算公式为:
其中,所述ATF(fi,cj)表示候选特征词fi在类cj中的频度;C为文本预定类别的集合,所述C={C1,C2,C3,……,C|C|};所述R为候选特征词集合F到C上的模糊关系,所述F={f1,f2,f3,……,fm};所述|cj|为类cj中的文本总数,所述|C|为总文本数,所述表示总文本数|C|与类cj内的文本数的比例,所述μR(fi,cj)为R的隶属度,表示所述fi与所述cj的相关关系,其中,所述R为F×C上的模糊集,用于表示所述F到所述C上的一个模糊关系。
5.根据权利要求4所述的方法,其特征在于,所述候选特征词fi在类cj中的频度ATF(fi,cj)的计算公式为:
其中,所述TF(fi,dk)表示候选特征词且fi在文本dk中出现的词频,所述dk为类cj内的文本,所述DF(fi,cj)表示候选特征词fi在类cj中出现的文本频率,M表示在文本dk中出现的候选特征词的种类之和。
6.根据权利要求4所述的方法,其特征在于,所述候选特征词fi在类cj中的隶属度μR(fi,cj)的计算公式为:
μR(fi,cj)=DAC(fi,cj)×DIC(fi,cj),其中,所述DAC(fi,cj)为候选特征词fi在类cj中的类间集中度,所述DIC(fi,cj)为候选特征词fi在类cj中的类内分散度。
7.根据权利要求6所述的方法,其特征在于,所述候选特征词fi在类cj中的类间集中度其中,所述CF(fi)表示出现候选特征词fi的类别数,所述DF(fi)表示候选特征词fi平均在每个类别中出现的文本频率;所述TF(fi)表示候选特征词fi在总文本数中出现的词频。
8.根据权利要求6所述的方法,其特征在于,所述候选特征词fi在类cj中的类内分散度其中,所述|cj|为类cj中的文本总数,所述TF(f,cj)表示类cj中总的词频数。
9.根据权利要求6所述的方法,其特征在于,所述R为候选特征词集合F到类集合C上的模糊集,其中,所述F={f1,f2,f3,……,fm},所述C={C1,C2,C3,……,C|C|},所述候选特征词fi在类cj中的隶属度μR(fi,cj):F×C→[0,1]。
10.一种文本中特征词选择装置,其特征在于,包括:
确定模块,用于利用评价函数FCD确定总文本中候选特征词的重要性值,其中,所述评价函数为根据所述候选特征词的平均频度ATF、所述候选特征词的隶属度μ计算得到的,所述频度为所述候选特征词在预定文本类别中平均出现的次数,所述隶属度μ为所述候选特征词对所述预定文本类别的隶属度;还用于利用对分类具有重要作用的特征在类别中的分布统计规律,定义基于平均频度、隶属度特征重要性评价函数;对于每个候选特征词,按照重要性评价函数计算其在各个类别中的重要性值;
第一选择模块,用于根据确定的所述候选特征词的重要性值,从所述候选特征词中选择预定数量的特征词;还用于通过最大值方法计算其在整个数据集中的重要性值,以此选择重要性值较大的候选特征词;
文本表示模块,用于通过文本表示模型,把文档用计算机容易存储和处理的方式表示;
分类模块,用于利用支持向量机学习方法,建立分类模型,实现文本分类;
分类性能评价模块,用于对分类结果进行统计,计算出在不同特征选择算法下和不同特征个数情况下得到的分类结果。
11.根据权利要求10所述的装置,其特征在于,还包括:
处理模块,用于对文本进行预处理,所述预处理包括以下处理至少之一:删除已损坏文本、删除重复文本、去除格式标记、进行中文分词、利用预定算法进行词干化、将英文大写字母转换为英文小写字母、去除停用词和非法字符、去除词频小于预订数量的词语;
第二选择模块,用于选择所述文本中经过所述预处理后剩余的词语作为候选特征词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410521030.7A CN104391835B (zh) | 2014-09-30 | 2014-09-30 | 文本中特征词选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410521030.7A CN104391835B (zh) | 2014-09-30 | 2014-09-30 | 文本中特征词选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104391835A CN104391835A (zh) | 2015-03-04 |
CN104391835B true CN104391835B (zh) | 2017-09-29 |
Family
ID=52609741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410521030.7A Active CN104391835B (zh) | 2014-09-30 | 2014-09-30 | 文本中特征词选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104391835B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794187A (zh) * | 2015-04-13 | 2015-07-22 | 西安理工大学 | 一种基于词条分布的特征选择方法 |
CN105740388B (zh) * | 2016-01-27 | 2019-03-05 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
CN107045511B (zh) * | 2016-02-05 | 2021-03-02 | 阿里巴巴集团控股有限公司 | 一种目标特征数据的挖掘方法和装置 |
CN106372640A (zh) * | 2016-08-19 | 2017-02-01 | 中山大学 | 一种字频文本分类方法 |
CN108073567B (zh) * | 2016-11-16 | 2021-12-28 | 北京嘀嘀无限科技发展有限公司 | 一种特征词提取处理方法、***及服务器 |
CN106777937A (zh) * | 2016-12-05 | 2017-05-31 | 深圳大图科创技术开发有限公司 | 一种智能医疗综合检测*** |
CN106780065A (zh) * | 2016-12-05 | 2017-05-31 | 深圳万发创新进出口贸易有限公司 | 一种社交网络资源分享*** |
CN106779830A (zh) * | 2016-12-05 | 2017-05-31 | 深圳万发创新进出口贸易有限公司 | 一种社区电子商务公共服务平台 |
CN106776972A (zh) * | 2016-12-05 | 2017-05-31 | 深圳万智联合科技有限公司 | 一种云计算网络中的虚拟化资源整合平台 |
CN106373560A (zh) * | 2016-12-05 | 2017-02-01 | 深圳大图科创技术开发有限公司 | 一种网络教学实时语音分析*** |
CN106528869A (zh) * | 2016-12-05 | 2017-03-22 | 深圳大图科创技术开发有限公司 | 一种话题检测装置 |
CN106611057B (zh) * | 2016-12-27 | 2019-08-13 | 上海利连信息科技有限公司 | 重要性加权的文本分类特征选择方法 |
CN107180075A (zh) * | 2017-04-17 | 2017-09-19 | 浙江工商大学 | 文本分类集成层次聚类分析的标签自动生成方法 |
CN107368611B (zh) * | 2017-08-11 | 2018-06-26 | 同济大学 | 一种短文本分类方法 |
CN108491429A (zh) * | 2018-02-09 | 2018-09-04 | 湖北工业大学 | 一种基于类内类间文档频和词频统计的特征选择方法 |
CN108346474B (zh) * | 2018-03-14 | 2021-09-28 | 湖南省蓝蜻蜓网络科技有限公司 | 基于单词的类内分布与类间分布的电子病历特征选择方法 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110069630B (zh) * | 2019-03-20 | 2023-07-21 | 重庆信科设计有限公司 | 一种改进的互信息特征选择方法 |
CN110222180B (zh) * | 2019-06-04 | 2021-05-28 | 江南大学 | 一种文本数据分类与信息挖掘方法 |
CN111090997B (zh) * | 2019-12-20 | 2021-07-20 | 中南大学 | 一种基于分级词项的地质文档特征词项排序方法与装置 |
CN111209735B (zh) * | 2020-01-03 | 2023-06-02 | 广州杰赛科技股份有限公司 | 一种文档敏感度的计算方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748973A (en) * | 1994-07-15 | 1998-05-05 | George Mason University | Advanced integrated requirements engineering system for CE-based requirements assessment |
WO2003005235A1 (en) * | 2001-07-04 | 2003-01-16 | Cogisum Intermedia Ag | Category based, extensible and interactive system for document retrieval |
CN101706806A (zh) * | 2009-11-11 | 2010-05-12 | 北京航空航天大学 | 一种基于特征选择的均值漂移文本分类方法 |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类***及方法 |
-
2014
- 2014-09-30 CN CN201410521030.7A patent/CN104391835B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748973A (en) * | 1994-07-15 | 1998-05-05 | George Mason University | Advanced integrated requirements engineering system for CE-based requirements assessment |
WO2003005235A1 (en) * | 2001-07-04 | 2003-01-16 | Cogisum Intermedia Ag | Category based, extensible and interactive system for document retrieval |
CN101706806A (zh) * | 2009-11-11 | 2010-05-12 | 北京航空航天大学 | 一种基于特征选择的均值漂移文本分类方法 |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类***及方法 |
Non-Patent Citations (3)
Title |
---|
Classification of Text Documents;Li Y H等;《The Computer Journal》;19981231;第41卷(第8期);第537-546页 * |
基于VPRS理论的一种混合分类算法;洪智勇等;《计算机工程与应用》;20101231;第46卷(第9期);第23-25页 * |
基于文本分类的海外矿业投资项目动态风险评价方法研究;徐丽华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05期);摘要,第14页,第22页,第26-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104391835A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104391835B (zh) | 文本中特征词选择方法及装置 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
Li et al. | Multi-window based ensemble learning for classification of imbalanced streaming data | |
US7043468B2 (en) | Method and system for measuring the quality of a hierarchy | |
CN102622373B (zh) | 一种基于tf*idf算法的统计学文本分类***及方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和*** | |
CN109189926B (zh) | 一种科技论文语料库的构建方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN108304371B (zh) | 热点内容挖掘的方法、装置、计算机设备及存储介质 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN106202518A (zh) | 基于chi和分类别关联规则算法的短文本分类方法 | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类***及方法 | |
Jerzak et al. | An improved method of automated nonparametric content analysis for social science | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
Wei et al. | Text classification using support vector machine with mixture of kernel | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN107729917A (zh) | 一种标题的分类方法及装置 | |
CN106570076A (zh) | 一种计算机文本分类*** | |
CN107562928B (zh) | 一种ccmi文本特征选择方法 | |
CN111539451A (zh) | 样本数据优化方法、装置、设备及存储介质 | |
CN103268346A (zh) | 半监督分类方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |