CN109885682B - 基于fcbf的自定义特征维数文本特征选择算法 - Google Patents

基于fcbf的自定义特征维数文本特征选择算法 Download PDF

Info

Publication number
CN109885682B
CN109885682B CN201910071963.3A CN201910071963A CN109885682B CN 109885682 B CN109885682 B CN 109885682B CN 201910071963 A CN201910071963 A CN 201910071963A CN 109885682 B CN109885682 B CN 109885682B
Authority
CN
China
Prior art keywords
feature
word
text
dimension
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910071963.3A
Other languages
English (en)
Other versions
CN109885682A (zh
Inventor
于舒娟
张昀
徐前川
何伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910071963.3A priority Critical patent/CN109885682B/zh
Publication of CN109885682A publication Critical patent/CN109885682A/zh
Application granted granted Critical
Publication of CN109885682B publication Critical patent/CN109885682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于FCBF的自定义特征维数文本特征选择算法,包括步骤:步骤一,初始化;步骤二,利用FCBF算法对特征词集合中的特征词进行进一步的筛选,得到初始特征词集合;步骤三,若初始特征词集合的维度小于设定的维度时,选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合直至其维度等于设定的特征维度;若初始特征词集合的维度刚好大于或等于设定的特征维度时,则初始特征词集合中即可获取到自定义特征维数的特征词。本发明对FCBF原始算法相关性计算公式进行改进,能够更加准确的选择文本特征,改进算法能够得到自定义的特征维度。

Description

基于FCBF的自定义特征维数文本特征选择算法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于FCBF的自定义特征维数文本特征选择算法。
背景技术
随着互联网不断发展,文本信息及其多样化不断的增加使得文本分类任务越来越受到研究界的关注。随着文本数的增加,文本中的特征数也会增加甚至达到上万的数量,并非所有的特征对于文本分类都是有帮助的,甚至有些冗余特征可能会大大降低分类精度,因此文本分类中的特征选择显得尤为重要。
为了便于实际操作,首先要将计算机难以处理的文本数据转换为计算机可以处理的结构化数据,一般采用VSM(向量空间模型)和词频法来表示文本,具体见文献所述:[Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the Acm,1974,18(11):613-620.]。
机器学习中主要有两种特征选择方法:过滤器法和包装器法。过滤器法选择一个特征子集作为预处理步骤,它独立于分类算法工作。相反,包装器法需要分类器的精确度作为依据来进行特征选择。包装器法往往能够得到更好的效果,因为对于预定义的算法它能够更好地选择特征子集。但是包装器法具有更高的复杂度,在选择特征时也需要更多的时间,对于文本分类任务显然是不可取的。因此把关注点聚焦在过滤器法上。研究者们提出了许多特征过滤方法用于文本分类任务中,值得关注的包括文档频率方法(DF),信息增益方法(IG)。然而文档频率特征选择并不能取得好的效果,虽然信息增益能够很好的进行特征选择,但Shang等人发现它也有一个缺点,IG(基于信息增益的文本特征选择方法)只是根据特定的IG值进行筛选没有考虑特征之间的冗余:文献[Shang C, Li M,Feng S,etal.Feature selection via maximizing global information gain for textclassification[J].Knowledge-Based Systems,2013,54(4):298-309.];为了能够有效的消除特征间的冗余,Peng等人提出了消除冗余性的MRMR(最大相关-最小冗余度特征选择方法),因其巨大的时间复杂度很难将其应用于文本分类中:文献 [Peng H,Long F,DingC.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on pattern analysis andmachine intelligence,2005,27(8):1226-1238.];Lee等人提出了改进信息增益特征选择算法:文献[Lee C,Lee G G.Information gain and divergence-based featureselection for machine learning-based text categorization[M]. Pergamon Press,Inc.2006,42(1):155-165]。Uysal等人提出了基于特征概率性的选择方法:区别性特征选择算法(DFS):文献[Uysal A K,Gunal S.A novel probabilistic feature selectionmethod for text classification[J].Knowledge-Based Systems,2012,36(6):226-235.]。虽然这些算法能够比较有效的去除冗余,但都具有很高的复杂度,不能快速的进行特征选择。为了能更加快速的进行特征提取,本发明重点研究了快速相关性过滤算法(FCBF,Fast Correlation-Basd Filter Solution)。针对文本特征的特点,对FCBF原始算法相关性计算公式进行改进,即提出一种基于FCBF的自定义特征维数特征选择算法IFSC-FCBF(IFSC, Improved feature size customed)。
发明内容
为解决现有技术中的不足,本发明提供一种基于FCBF的自定义特征维数文本特征选择算法,解决了在采用VSM和词频法来表示文本的前提下,面对大量的训练文本时急剧增加的特征数所带来的影响分类效率乃至降低分类精度的问题。
为了实现上述目标,本发明采用如下技术方案:一种基于FCBF的自定义特征维数文本特征选择算法,其特征在于:包括步骤:
步骤一,设向量化文本矩阵为X,文本类别矩阵为C={C1,C2...Cj},Cj是训练文本Dj的类别,j=1,2...V,V是文本类别总个数,根据文本矩阵X初始化所有特征词集合T={t1,t2...tm},为特征词与类别相关性符合要求的特征词集合Slist={}赋值,为经过算法选择后的特征词集合Sbest赋初值,tm为第m个特征词;
步骤二,利用FCBF算法对特征词集合Slist中的特征词进行进一步的筛选,得到初始特征词集合Sbest
步骤三,若初始特征词集合Sbest的维度小于设定的维度时,选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合Sbest直至其维度等于设定的特征维度;若初始特征词集合Sbest的维度刚好大于或等于设定的特征维度时,则初始特征词集合Sbest中即可获取到自定义特征维数的特征词。
前述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述步骤一中,具体为:
为Slist赋值:对tk∈T,计算文本第k个特征词tk与文本类别C的相关性 Corr(tk,C),当Corr(tk,C)≥thresh时添加tk进Slist,T为所有特征词的集合,thresh是阈值,k=1~m,m为特征词总个数;
将Slist按照特征词tk与文本类别的相关性Corr(tk,C)值从大到小排Sbest序, tp=getFirst(Slist),Sbest={tp};特征词tp为排序后的的首个参数,将tp赋值给Sbest
前述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述步骤二,具体步骤为:
1)利用特征词变量tq依次读取Slist里的参数,如果tq不为空则计算tq与tp的相关性Corr(tp,tq),如果tq为空则本循环算法结束;
2)比较相关性Corr(tp,tq)与的Corr(tq,C)大小,若前者大于或等于后者,则将 tq从Slist中去除,否则将其加入Sbest
3)如果Sbest长度刚好大于或等于自定义特征维数size则算法结束,否则变量 tp向后依次读取Slist,继续步骤1)-3)。
前述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述文本第k个特征词tk与文本类别C的相关性Corr(tk,C),计算方法为:设Di为任意一篇训练文档:
Figure RE-GDA0002005055870000041
Figure RE-GDA0002005055870000042
Figure RE-GDA0002005055870000043
Figure RE-GDA0002005055870000044
式中,H(C)表示文本类别信息熵,P(Cj)表示文本类别Cj的概率,δ()表示二值函数,L是为了抑制概率P(Cj)为0的情况所加入的平滑因子;n表示训练文档总数,i=1,2...n,Ci表示训练文档Dj的类别,Cj表示训练文档Dj的类别;H(tk)表示特征词tk的信息熵,P(tk)表示特征词tk出现的概率;tf(tk,i)表示特征词tk在训练文档中出Di现的频数;
对于单个特征来说,在已知类别Cj分布的情况下的条件信息熵为:
Figure RE-GDA0002005055870000045
Figure RE-GDA0002005055870000046
式中,H(tk|C)表示已知文本类别分布时的特征词tk的信息熵,P(tk|Cj)表示已知类别Cj分布时特征词tk出现的概率;tf(tk|Cj)表示特征词tk在Cj类别中的频数;
在已知类别C的分布情况下特征词tk信息熵的变化量即为特征信息增益,计算公式如下:
IG(tk|C)=H(tk)-H(tk|C)
式中,IG(tk|C)表示在已知类别的分布情况下特征词tk信息熵的变化量,即为特征信息增益;
由此,文本特征词tk与文本类别C的相关性为:
Figure RE-GDA0002005055870000051
前述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述特征词tp与特征词tq的相关性的计算为:
对于tp来说,在已知tq在各类别中的分布情况下的条件信息熵H(tp|tq)为:
Figure RE-GDA0002005055870000052
Figure RE-GDA0002005055870000053
其中,P(tp,tq)表示特征词tq出现时特征词tp也出现的概率;df(tp,tq|Cj)表示在类别Cj中特征词tq和tp同时出现的文档数;df(tq|Cj)表示在类别Cj中特征词tq出现的文档数;
tq存在时与不存在时相比,特征词tp在类别矩阵C中信息熵的变化量即为:
IG(tp|tq)=H(tp|C)-H(tp|tq)
H(tp|C)表示已知文本类别C时的特征词tq的信息熵;
特征词tp和tq之间的相关性可计算为:
Figure RE-GDA0002005055870000054
H(tp)表示特征词tp的信息熵,H(tq)表示特征词tq的信息熵。
前述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述二值函数,其公式如下:
Figure RE-GDA0002005055870000055
x,y为二值函数变量。
本发明所达到的有益效果:本发明针对文本特征的特点,对FCBF原始算法相关性计算公式进行改进,能够更加准确的选择文本特征,改进算法能够得到自定义的特征维度,将本发明特征选择算法与朴素贝叶斯分类算法相结合进行验证,在英文语料库和中文语料库数据集上与其他特征选择算法进行对比,结果显示本发明算法在相同的特征维数下,能具有更高的准确率,同时具有更低的运行时间,能够更加有效的去除冗余特征;
本发明在复杂度方面在FCBF算法基础上增加了两个判断,所以复杂度与 FCBF算法相同。
附图说明
图1是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在20newsgroup数据集中的算法性能比较;
图2是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在Ruster21678数据集中的算法性能比较;
图3是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在复旦语料库中的算法性能比较;
图4是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在搜狗语料库中的算法性能比较。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种基于FCBF的自定义特征维数文本特征选择算法,包括如下步骤:
步骤一,向量化文本矩阵为X,文本类别矩阵为C,根据文本矩阵X初始化T={t1,t2...tm},设Slist={},Sbest
为Slist赋值:Slist初始为空集,对tk∈T,计算文本第k个特征词tk与文本类别 C的相关性Corr(tk,C),当Corr(tk,C)≥thresh时添加tk进Slist,T为所有特征词的集合,Slist为特征词与类别相关性符合上述要求的特征词集合,thresh是个小数(0~1 之间的数),k=1~m,m为特征词总个数;
将Slist按照特征词tk与文本类别的相关性Corr(tk,C)值从大到小排序, tp=getFirst(Slist),Sbest={tp};特征词tp为Slist的首个参数,将tp赋值给Sbest,Sbest为经过算法选择后的特征词集合;
步骤二,利用FCBF算法对特征词集合Slist中的特征词进行进一步的筛选,具体包括步骤:
1)利用特征词变量tq依次读取Slist里的参数,如果tq不为空则计算tq与tp的相关性Corr(tp,tq),如果tq为空则本循环算法结束;;
2)比较相关性Corr(tp,tq)与Corr(tq,C)的大小,若前者大于或等于后者,则将 tq从Slist中去除,否则将其加入Sbest
3)如果Sbest长度大于或等于size(为一整数,自定)则本循环算法结束,否则变量tp向后依次读取Slist,继续步骤1)-3);
所述文本特征词与文本类别的相关性的计算方法为:
设文本类别为C={C1,C2...Cj},j=1,2...V,Cj是文本Dj的类别,V是文本类别总个数,设Di为任意一篇训练文本;
信息熵是反应一个变量不确定性程度的物理量,在文本分类中信息熵反应的就是变量在语料库中的分布均匀的程度,对于文本类别和特征词来说,其信息熵可定义分别为:
Figure RE-GDA0002005055870000071
Figure RE-GDA0002005055870000072
Figure RE-GDA0002005055870000073
Figure RE-GDA0002005055870000074
式中,H(C)表示文本类别信息熵,P(Cj)表示文本类别Cj的概率,δ()表示二值函数,其公式如下:
Figure RE-GDA0002005055870000081
x,y为二值函数变量;
L是为了抑制概率P(Cj)为0的情况所加入的平滑因子,本实施例中取 L=0.001n表示训练文档总数,i=1,2...n,Ci表示训练文档Dj的类别,;H(tk)表示特征词tk的信息熵,P(tk)表示特征词tk出现的概率;tf(tk,i)表示特征词tk在训练文档中出Di现的频数;
对于单个特征来说,在已知类别Cj分布的情况下的条件信息熵为:
Figure RE-GDA0002005055870000082
Figure RE-GDA0002005055870000083
式中,H(tk|C)表示已知文本类别分布时的特征词tk的信息熵,P(tk|Cj)表示已知类别Cj分布时特征词tk出现的概率;tf(tk|Cj)表示特征词tk在Cj类别中的频数;
在已知类别C的分布情况下特征词tk信息熵的变化量即为特征信息增益,计算公式如下:
IG(tk|C)=H(tk)-H(tk|C)
式中,IG(tk|C)表示在已知类别的分布情况下特征词tk信息熵的变化量,即为特征信息增益;
由此文本特征词tk与文本类别C的相关性为:
Figure RE-GDA0002005055870000084
特征词tp与特征词tq的相关性的计算为:
对于tp来说,在已知tq在各类别中的分布情况下的条件信息熵H(tp|tq)为:
Figure RE-GDA0002005055870000085
Figure RE-GDA0002005055870000091
tq存在时与不存在时相比,特征词tp在类别矩阵C中信息熵的变化量即为:
IG(tp|tq)=H(tp|C)-H(tp|tq)
H(tp|C)表示已知文本类别C时的特征词tq的信息熵;
特征词tp和tq之间的相关性可计算为:
Figure RE-GDA0002005055870000092
H(tp)表示特征词tp的信息熵,H(tq)表示特征词tq的信息熵。
特征词tq和tq之间的相关性可计算为:
Figure RE-GDA0002005055870000093
H(tp)表示特征词tp的信息熵,H(tq)表示特征词tq的信息熵。
步骤三,为了保证本发明的IFSC-FCBF特征选择算法能够得到自定义维度的特征,对算法的流程也进行了改进,需要进行两种情况的判断:当所有特征词都经过筛选后,最终输出的特征列表Sbest的维度小于设定的维度size时,认为特征词与类别的相关性Corr(tk,C)作为显著相关性,这意味着更看重Corr(tk,C)的值,选择出具有较大Corr(tk,C)值的特征去补足特征词列表Sbest直至特征词列表的维度等于设定的特征维度size;当最终输出的特征词列表的维度刚好大于或等于设定的特征维度size时,直接从最终输出特征词列表Sbest获取到设定维数的特征词;
实验指标使用常用的查准率(P),召回率(R),F1值以及宏F1值(Macro_F1) 作为参考,其计算公式如下:
查准率:
Figure RE-GDA0002005055870000094
宏查准率:
Figure RE-GDA0002005055870000095
召回率:
Figure RE-GDA0002005055870000101
宏召回率:
Figure RE-GDA0002005055870000102
F1值:
Figure RE-GDA0002005055870000103
宏F1值:
Figure RE-GDA0002005055870000104
其中V表示类别数;TP:预测为真,实际为真;TN:预测为假,实际为假;
FP:预测为真;实际为假;FN:预测为假,实际为真
F1值(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。宏F1值更加科学。所以在算法复杂度相同的情况下,宏F1值越高则意味着算法的准确率和召回率越高,算法越优越。
图1是四种算法在20newsgroup数据集上的算法性能比较,图2是四种算法在Ruster21678数据集上的算法性能比较,由图1和图2可以看出,在上述两个英文数据集上,随着特征词数量的增加,宏F1值会有略微的增加,在特征数量到达300时,宏F1值趋于平稳。可以看到两个图的共同点,IFSC-FCBF特征选择算法能够更加有效的选择特征,获得了最大的宏F1值。一方面,由于原始的 FCBF算法会出现消除特征过度的情况,所以在文本分类中并不能得到很好的结果,在四个算法中其性能是最差的。另一方面,区别性特征选择算法DFS要优于信息增益方法IG算法,特别是在20newsgroup数据集上。可以看出在特征数目在300时,DFS的F1值要比IG的F1值高出3%左右。虽然在20newsgroup 数据集上,IFSC-FCBF算法结果和DFS很接近甚至有时候会落后于DFS,但在 Ruster21578数据集上,IFSC-FCBF的性能一直都是优于DFS。总的来说,在英文数据集上,IFSC-FCBF比他的算法具有更好的性能,宏F1值比DFS算法平均高出1%,比IG算法平均高出2%到3%。拥有更高的准确率和召回率,算法更为优越。
由图3和图4可以看出,随着特征数增加到300时,宏F1值基本趋向平稳,与在英文数据集上的结果类似。这意味着当特征维数达到300时,特征已经不再是影响算法性能的因素。对于FCBF算法来说,在英文数据集和中文语料库上的表现都不是很好。DFS算法在在复旦语料库中宏F1值比IG算法平均高出 1.4%,在搜狗语料库中平均高出0.8%。而IFSC-FCBF算法比DFS平均高出1.3%和1.5%。拥有更高的准确率和召回率,算法更为优越。
为了看出各特征选择算法对每个类别的分类效果,我们在特征维数为300 时,对每个类别的分类效果做了统计:
表1.20newsgroup数据集各类别分类效果比较
Figure RE-GDA0002005055870000111
表2.Ruster21578数据集各类别分类效果比较
Figure RE-GDA0002005055870000112
表3.复旦大学语料库各类别分类效果比较
Figure RE-GDA0002005055870000121
表4.搜狗实验室语料库各类别分类效果比较
Figure RE-GDA0002005055870000122
表1显示的是特征选择算法在20newsgroup上对每个类别的分类效果的比较,如表格中的粗体所示,在大部分类别中IFSC-FCBF都具有最高的F1值,其次是DFS算法。因为每种特征选择算法对于特征的关注不同,导致选取的特征也不同,这样就会导致不同特征选择算法有自己擅长的类别特征,这也是造成 IFSC-FCBF算法并不能保证对每个类别的F1值都高于其他算法的原因之一。但通过比较P,R,F1的平均值可以看出依然是IFSC-FCBF算法最优。
表2中可以看出,正如上面所述的原因FCBF算法能够选择出对crude类别更有利的特征词,所以对于crude类别其F1值要优于其他算法。但是另外四个类别FCBF的分类效果都不理想。money-fx类别的特征词可以看出IFSC-FCBF 的查准率,查全率和F1值得平均值比DFS高出1%,比IG高出2%。总的来说,在两个英文数据集上,我们提出的算法在宏F1值较高时,对于每个类别的分类也是最理想的。
表3中可以看出,对于复旦大学语料库,有趣的是IFSC-FCBF和DFS特征选择算法的几乎相同,IG算法次之。表4中,IFSC-FCBF算法对health,education 和tourism三个类别的选择的特征更加有效,DFS则对sport类更加有效,最后, IG和DFS得到了几乎相同的平均值,但是由图4的宏F1值对比可知,此时IG 算法要略胜DFS。总的来说,在中文数据集上,我们的算法同样能更有效的选择特征。
本发明中提出了一个改进的自定义特征维数的快速相关性过滤算法。因为大部分的特征选择算法都很少考虑特征之间的冗余性,这样在进行特征选择时可能会选择一些噪音特征,并降低分类精确度。并且原始的FCBF算法在特征之间的相关性较强时,很容易移除太多的特征。为了解决上述问题,我们提出了 IFSC-FCBF。根据实验结果显示,IFSC-FCBF算法能够在保证运行时间较低的情况下选择更加有效的特征,对文本分类任务具有明显的提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于FCBF的自定义特征维数文本特征选择算法,其特征在于:包括步骤:
步骤一,设向量化文本矩阵为X,文本类别矩阵为C={C1,C2...Cj},Cj是训练文本Dj的类别,j=1,2...V,V是文本类别总个数,根据文本矩阵X初始化所有特征词集合T={t1,t2...tm},为特征词与类别相关性符合要求的特征词集合Slist={}赋值,为经过算法选择后的特征词集合Slist赋初值,tm为第m个特征词;
步骤二,利用FCBF算法对特征词集合Slist中的特征词进行筛选,得到初始特征词集合Sbest
步骤三,若初始特征词集合Sbest的维度小于设定的维度时,选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合Sbest直至其维度等于设定的特征维度;若初始特征词集合Sbest的维度大于或等于设定的特征维度时,则初始特征词集合Sbest中即获取到自定义特征维数的特征词;
所述步骤一中,具体为:
为Slist赋值:对tk∈T,计算文本第k个特征词tk与文本类别C的相关性Corr(tk,C),当Corr(tk,C)≥thresh时添加tk进Slist,T为所有特征词的集合,thresh是阈值,k=1~m,m为特征词总个数;
将Slist按照特征词tk与文本类别的相关性Corr(tk,C)值从大到小排序,tp=getFirst(Slist),Sbest={tp};特征词tp为排序后的首个参数,将tp赋值给Sbest
2.根据权利要求1所述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述步骤二,具体步骤为:
1)利用特征词变量tq依次读取Slist里的参数,如果tq不为空则计算tq与tp的相关性Corr(tp,tq),如果tq为空则本循环算法结束;
2)比较相关性Corr(tp,tq)与的Corr(tq,C)大小,若前者大于或等于后者,则将tq从Slist中去除,否则将其加入Sbest
3)如果Sbest长度大于或等于自定义特征维数size则算法结束,否则变量tp向后依次读取Slist,继续步骤1)-3)。
3.根据权利要求1所述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述文本第k个特征词tk与文本类别C的相关性Corr(tk,C),计算方法为:设Di为任意一篇训练文档:
Figure FDA0003727853880000021
Figure FDA0003727853880000022
Figure FDA0003727853880000023
Figure FDA0003727853880000024
式中,H(C)表示文本类别信息熵,P(Cj)表示文本类别Cj的概率,δ()表示二值函数,L是为了抑制概率P(Cj)为0的情况所加入的平滑因子;n表示训练文档总数,i=1,2...n,Ci表示训练文档Dj的类别,Cj表示训练文档Dj的类别;H(tk)表示特征词tk的信息熵,P(tk)表示特征词tk出现的概率;tf(tk,i)表示特征词tk在训练文档中出Di现的频数;
对于单个特征来说,在已知类别Cj分布的情况下的条件信息熵为:
Figure FDA0003727853880000025
Figure FDA0003727853880000026
式中,H(tk|C)表示已知文本类别分布时的特征词tk的信息熵,P(tk|Cj)表示已知类别Cj分布时特征词tk出现的概率;tf(tk|Cj)表示特征词tk在Cj类别中的频数;
在已知类别C的分布情况下特征词tk信息熵的变化量即为特征信息增益,计算公式如下:
IG(tk|C)=H(tk)-H(tk|C)
式中,IG(tk|C)表示在已知类别的分布情况下特征词tk信息熵的变化量,即为特征信息增益;
由此,文本特征词tk与文本类别C的相关性为:
Figure FDA0003727853880000031
4.根据权利要求2所述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述特征词tp与特征词tq的相关性的计算为:
对于tp来说,在已知tq在各类别中的分布情况下的条件信息熵H(tp|tq)为:
Figure FDA0003727853880000032
Figure FDA0003727853880000033
其中,P(tp,tq)表示特征词tq出现时特征词tp也出现的概率;df(tp,tq|Cj)表示在类别Cj中特征词tq和tp同时出现的文档数;df(tq|Cj)表示在类别Cj中特征词tq出现的文档数;
tq存在时与不存在时相比,特征词tp在类别矩阵C中信息熵的变化量即为:
IG(tp|tq)=H(tp|C)-H(tp|tq)
H(tp|C)表示已知文本类别C时的特征词tq的信息熵;
特征词tp和tq之间的相关性计算为:
Figure FDA0003727853880000034
H(tp)表示特征词tp的信息熵,H(tq)表示特征词tq的信息熵。
5.根据权利要求3所述的一种基于FCBF的自定义特征维数文本特征选择算法,其特征是:所述二值函数,其公式如下:
Figure FDA0003727853880000041
x,y为二值函数变量。
CN201910071963.3A 2019-01-25 2019-01-25 基于fcbf的自定义特征维数文本特征选择算法 Active CN109885682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071963.3A CN109885682B (zh) 2019-01-25 2019-01-25 基于fcbf的自定义特征维数文本特征选择算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071963.3A CN109885682B (zh) 2019-01-25 2019-01-25 基于fcbf的自定义特征维数文本特征选择算法

Publications (2)

Publication Number Publication Date
CN109885682A CN109885682A (zh) 2019-06-14
CN109885682B true CN109885682B (zh) 2022-08-16

Family

ID=66926831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071963.3A Active CN109885682B (zh) 2019-01-25 2019-01-25 基于fcbf的自定义特征维数文本特征选择算法

Country Status (1)

Country Link
CN (1) CN109885682B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220346A (zh) * 2017-05-27 2017-09-29 荣科科技股份有限公司 一种高维不完整数据特征选择方法
CN108647259A (zh) * 2018-04-26 2018-10-12 南京邮电大学 基于改进深度特征加权的朴素贝叶斯文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220346A (zh) * 2017-05-27 2017-09-29 荣科科技股份有限公司 一种高维不完整数据特征选择方法
CN108647259A (zh) * 2018-04-26 2018-10-12 南京邮电大学 基于改进深度特征加权的朴素贝叶斯文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于归一化互信息的FCBF特征选择算法;段宏湘等;《华中科技大学学报(自然科学版)》;20170131;第45卷(第1期);第52-56页 *

Also Published As

Publication number Publication date
CN109885682A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
US6253169B1 (en) Method for improvement accuracy of decision tree based text categorization
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US8024331B2 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US5819258A (en) Method and apparatus for automatically generating hierarchical categories from large document collections
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN108228541B (zh) 生成文档摘要的方法和装置
Yi et al. A hidden Markov model-based text classification of medical documents
CN101404015A (zh) 自动生成词条层次
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
CN110909116B (zh) 一种面向社交媒体的实体集合扩展方法及***
CN115686432B (zh) 一种用于检索排序的文献评价方法、存储介质及终端
JP4967705B2 (ja) クラスタ生成装置およびクラスタ生成プログラム
Yoshioka et al. The classification of the documents based on Word2Vec and 2-layer self organizing maps
CN109885682B (zh) 基于fcbf的自定义特征维数文本特征选择算法
CN112115256A (zh) 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN112463894B (zh) 一种基于条件互信息和交互信息的多标签特征选择方法
CN111899832B (zh) 基于上下文语义分析的医疗主题管理***与方法
Triwijoyo et al. Analysis of Document Clustering based on Cosine Similarity and K-Main Algorithms
CN114443820A (zh) 一种文本聚合方法以及文本推荐方法
Zhang et al. Improved feature size customized fast correlation-based filter for Naive Bayes text classification
CN111881678A (zh) 一种基于无监督学习的领域词发现方法
Sheng et al. An information retrieval system based on automatic query expansion and hopfield network
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置
Karakos et al. Cross-instance tuning of unsupervised document clustering algorithms
CN111159393B (zh) 一种基于lda和d2v进行摘要抽取的文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant