CN109885682B

CN109885682B - 基于fcbf的自定义特征维数文本特征选择算法

Info

Publication number: CN109885682B
Application number: CN201910071963.3A
Authority: CN
Inventors: 于舒娟; 张昀; 徐前川; 何伟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2022-08-16
Anticipated expiration: 2039-01-25
Also published as: CN109885682A

Abstract

本发明公开了一种基于FCBF的自定义特征维数文本特征选择算法，包括步骤：步骤一，初始化；步骤二，利用FCBF算法对特征词集合中的特征词进行进一步的筛选，得到初始特征词集合；步骤三，若初始特征词集合的维度小于设定的维度时，选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合直至其维度等于设定的特征维度；若初始特征词集合的维度刚好大于或等于设定的特征维度时，则初始特征词集合中即可获取到自定义特征维数的特征词。本发明对FCBF原始算法相关性计算公式进行改进，能够更加准确的选择文本特征，改进算法能够得到自定义的特征维度。

Description

基于FCBF的自定义特征维数文本特征选择算法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于FCBF的自定义特征维数文本特征选择算法。

背景技术

随着互联网不断发展，文本信息及其多样化不断的增加使得文本分类任务越来越受到研究界的关注。随着文本数的增加，文本中的特征数也会增加甚至达到上万的数量，并非所有的特征对于文本分类都是有帮助的，甚至有些冗余特征可能会大大降低分类精度，因此文本分类中的特征选择显得尤为重要。

为了便于实际操作，首先要将计算机难以处理的文本数据转换为计算机可以处理的结构化数据，一般采用VSM(向量空间模型)和词频法来表示文本，具体见文献所述：[Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the Acm,1974,18(11):613-620.]。

机器学习中主要有两种特征选择方法：过滤器法和包装器法。过滤器法选择一个特征子集作为预处理步骤，它独立于分类算法工作。相反，包装器法需要分类器的精确度作为依据来进行特征选择。包装器法往往能够得到更好的效果，因为对于预定义的算法它能够更好地选择特征子集。但是包装器法具有更高的复杂度，在选择特征时也需要更多的时间，对于文本分类任务显然是不可取的。因此把关注点聚焦在过滤器法上。研究者们提出了许多特征过滤方法用于文本分类任务中，值得关注的包括文档频率方法(DF)，信息增益方法(IG)。然而文档频率特征选择并不能取得好的效果，虽然信息增益能够很好的进行特征选择，但Shang等人发现它也有一个缺点，IG(基于信息增益的文本特征选择方法)只是根据特定的IG值进行筛选没有考虑特征之间的冗余：文献[Shang C, Li M,Feng S,etal.Feature selection via maximizing global information gain for textclassification[J].Knowledge-Based Systems,2013,54(4):298-309.]；为了能够有效的消除特征间的冗余，Peng等人提出了消除冗余性的MRMR(最大相关-最小冗余度特征选择方法)，因其巨大的时间复杂度很难将其应用于文本分类中：文献 [Peng H,Long F,DingC.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on pattern analysis andmachine intelligence,2005,27(8):1226-1238.]；Lee等人提出了改进信息增益特征选择算法：文献[Lee C,Lee G G.Information gain and divergence-based featureselection for machine learning-based text categorization[M]. Pergamon Press,Inc.2006,42(1):155-165]。Uysal等人提出了基于特征概率性的选择方法：区别性特征选择算法(DFS)：文献[Uysal A K,Gunal S.A novel probabilistic feature selectionmethod for text classification[J].Knowledge-Based Systems,2012,36(6):226-235.]。虽然这些算法能够比较有效的去除冗余，但都具有很高的复杂度，不能快速的进行特征选择。为了能更加快速的进行特征提取，本发明重点研究了快速相关性过滤算法(FCBF，Fast Correlation-Basd Filter Solution)。针对文本特征的特点，对FCBF原始算法相关性计算公式进行改进，即提出一种基于FCBF的自定义特征维数特征选择算法IFSC-FCBF(IFSC， Improved feature size customed)。

发明内容

为解决现有技术中的不足，本发明提供一种基于FCBF的自定义特征维数文本特征选择算法，解决了在采用VSM和词频法来表示文本的前提下，面对大量的训练文本时急剧增加的特征数所带来的影响分类效率乃至降低分类精度的问题。

为了实现上述目标，本发明采用如下技术方案：一种基于FCBF的自定义特征维数文本特征选择算法，其特征在于：包括步骤：

步骤一，设向量化文本矩阵为X，文本类别矩阵为C＝{C₁,C₂...C_j}，C_j是训练文本D_j的类别，j＝1,2...V，V是文本类别总个数，根据文本矩阵X初始化所有特征词集合T＝{t₁,t₂...t_m}，为特征词与类别相关性符合要求的特征词集合S_list＝{}赋值，为经过算法选择后的特征词集合S_best赋初值，t_m为第m个特征词；

步骤二，利用FCBF算法对特征词集合S_list中的特征词进行进一步的筛选，得到初始特征词集合S_best；

步骤三，若初始特征词集合S_best的维度小于设定的维度时，选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合S_best直至其维度等于设定的特征维度；若初始特征词集合S_best的维度刚好大于或等于设定的特征维度时，则初始特征词集合S_best中即可获取到自定义特征维数的特征词。

前述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述步骤一中，具体为：

为S_list赋值：对t_k∈T，计算文本第k个特征词t_k与文本类别C的相关性 Corr(t_k,C)，当Corr(t_k,C)≥thresh时添加t_k进S_list，T为所有特征词的集合，thresh是阈值，k＝1～m，m为特征词总个数；

将S_list按照特征词t_k与文本类别的相关性Corr(t_k,C)值从大到小排S_best序， t_p＝getFirst(S_list)，S_best＝{t_p}；特征词t_p为排序后的的首个参数，将t_p赋值给S_best。

前述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述步骤二，具体步骤为：

1)利用特征词变量t_q依次读取S_list里的参数，如果t_q不为空则计算t_q与t_p的相关性Corr(t_p,t_q)，如果t_q为空则本循环算法结束；

2)比较相关性Corr(t_p,t_q)与的Corr(t_q,C)大小，若前者大于或等于后者，则将 t_q从S_list中去除，否则将其加入S_best；

3)如果S_best长度刚好大于或等于自定义特征维数size则算法结束，否则变量 t_p向后依次读取S_list，继续步骤1)-3)。

前述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述文本第k个特征词t_k与文本类别C的相关性Corr(t_k,C)，计算方法为：设D_i为任意一篇训练文档：

式中，H(C)表示文本类别信息熵，P(C_j)表示文本类别C_j的概率，δ()表示二值函数，L是为了抑制概率P(C_j)为0的情况所加入的平滑因子；n表示训练文档总数，i＝1,2...n，C_i表示训练文档D_j的类别,C_j表示训练文档D_j的类别；H(t_k)表示特征词t_k的信息熵，P(t_k)表示特征词t_k出现的概率；tf(t_k,i)表示特征词t_k在训练文档中出D_i现的频数；

对于单个特征来说，在已知类别C_j分布的情况下的条件信息熵为：

式中，H(t_k|C)表示已知文本类别分布时的特征词t_k的信息熵，P(t_k|C_j)表示已知类别C_j分布时特征词t_k出现的概率；tf(t_k|C_j)表示特征词t_k在C_j类别中的频数；

在已知类别C的分布情况下特征词t_k信息熵的变化量即为特征信息增益，计算公式如下：

IG(t_k|C)＝H(t_k)-H(t_k|C)

式中，IG(t_k|C)表示在已知类别的分布情况下特征词t_k信息熵的变化量，即为特征信息增益；

由此，文本特征词t_k与文本类别C的相关性为：

前述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述特征词t_p与特征词t_q的相关性的计算为：

对于t_p来说，在已知t_q在各类别中的分布情况下的条件信息熵H(t_p|t_q)为：

其中，P(t_p,t_q)表示特征词t_q出现时特征词t_p也出现的概率；df(t_p,t_q|C_j)表示在类别C_j中特征词t_q和t_p同时出现的文档数；df(t_q|C_j)表示在类别C_j中特征词t_q出现的文档数；

t_q存在时与不存在时相比，特征词t_p在类别矩阵C中信息熵的变化量即为：

IG(t_p|t_q)＝H(t_p|C)-H(t_p|t_q)

H(t_p|C)表示已知文本类别C时的特征词t_q的信息熵；

特征词t_p和t_q之间的相关性可计算为：

H(t_p)表示特征词t_p的信息熵，H(t_q)表示特征词t_q的信息熵。

前述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述二值函数，其公式如下：

x,y为二值函数变量。

本发明所达到的有益效果：本发明针对文本特征的特点，对FCBF原始算法相关性计算公式进行改进，能够更加准确的选择文本特征，改进算法能够得到自定义的特征维度，将本发明特征选择算法与朴素贝叶斯分类算法相结合进行验证，在英文语料库和中文语料库数据集上与其他特征选择算法进行对比，结果显示本发明算法在相同的特征维数下，能具有更高的准确率，同时具有更低的运行时间，能够更加有效的去除冗余特征；

本发明在复杂度方面在FCBF算法基础上增加了两个判断，所以复杂度与 FCBF算法相同。

附图说明

图1是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在20newsgroup数据集中的算法性能比较；

图2是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在Ruster21678数据集中的算法性能比较；

图3是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在复旦语料库中的算法性能比较；

图4是分别利用FCBF,IG,DFS,IFSC-FCBF算法提取特征后结合朴素贝叶斯分类算法在搜狗语料库中的算法性能比较。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种基于FCBF的自定义特征维数文本特征选择算法，包括如下步骤：

步骤一，向量化文本矩阵为X，文本类别矩阵为C，根据文本矩阵X初始化T＝{t₁,t₂...t_m}，设S_list＝{}，S_best；

为S_list赋值：S_list初始为空集，对t_k∈T，计算文本第k个特征词t_k与文本类别 C的相关性Corr(t_k,C)，当Corr(t_k,C)≥thresh时添加t_k进S_list，T为所有特征词的集合，S_list为特征词与类别相关性符合上述要求的特征词集合，thresh是个小数(0～1 之间的数)，k＝1～m，m为特征词总个数；

将S_list按照特征词t_k与文本类别的相关性Corr(t_k,C)值从大到小排序， t_p＝getFirst(S_list)，S_best＝{t_p}；特征词t_p为S_list的首个参数，将t_p赋值给S_best，S_best为经过算法选择后的特征词集合；

步骤二，利用FCBF算法对特征词集合S_list中的特征词进行进一步的筛选，具体包括步骤：

1)利用特征词变量t_q依次读取S_list里的参数，如果t_q不为空则计算t_q与t_p的相关性Corr(t_p,t_q)，如果t_q为空则本循环算法结束；；

2)比较相关性Corr(t_p,t_q)与Corr(t_q,C)的大小，若前者大于或等于后者，则将 t_q从S_list中去除，否则将其加入S_best；

3)如果S_best长度大于或等于size(为一整数，自定)则本循环算法结束，否则变量t_p向后依次读取S_list，继续步骤1)-3)；

所述文本特征词与文本类别的相关性的计算方法为：

设文本类别为C＝{C₁,C₂...C_j}，j＝1,2...V，C_j是文本D_j的类别，V是文本类别总个数，设D_i为任意一篇训练文本；

信息熵是反应一个变量不确定性程度的物理量，在文本分类中信息熵反应的就是变量在语料库中的分布均匀的程度，对于文本类别和特征词来说，其信息熵可定义分别为：

式中，H(C)表示文本类别信息熵，P(C_j)表示文本类别C_j的概率，δ()表示二值函数，其公式如下：

x,y为二值函数变量；

L是为了抑制概率P(C_j)为0的情况所加入的平滑因子，本实施例中取 L＝0.001n表示训练文档总数，i＝1,2...n，C_i表示训练文档D_j的类别,；H(t_k)表示特征词t_k的信息熵，P(t_k)表示特征词t_k出现的概率；tf(t_k,i)表示特征词t_k在训练文档中出D_i现的频数；

IG(t_k|C)＝H(t_k)-H(t_k|C)

由此文本特征词t_k与文本类别C的相关性为：

特征词t_p与特征词t_q的相关性的计算为：

IG(t_p|t_q)＝H(t_p|C)-H(t_p|t_q)

H(t_p|C)表示已知文本类别C时的特征词t_q的信息熵；

特征词t_p和t_q之间的相关性可计算为：

H(t_p)表示特征词t_p的信息熵，H(t_q)表示特征词t_q的信息熵。

特征词t_q和t_q之间的相关性可计算为：

H(t_p)表示特征词t_p的信息熵，H(t_q)表示特征词t_q的信息熵。

步骤三，为了保证本发明的IFSC-FCBF特征选择算法能够得到自定义维度的特征，对算法的流程也进行了改进，需要进行两种情况的判断：当所有特征词都经过筛选后，最终输出的特征列表S_best的维度小于设定的维度size时，认为特征词与类别的相关性Corr(t_k,C)作为显著相关性，这意味着更看重Corr(t_k,C)的值，选择出具有较大Corr(t_k,C)值的特征去补足特征词列表S_best直至特征词列表的维度等于设定的特征维度size；当最终输出的特征词列表的维度刚好大于或等于设定的特征维度size时，直接从最终输出特征词列表S_best获取到设定维数的特征词；

实验指标使用常用的查准率(P)，召回率(R)，F1值以及宏F1值(Macro_F1) 作为参考，其计算公式如下：

查准率:

宏查准率：

召回率:

宏召回率：

F1值：

宏F1值：

其中V表示类别数；TP：预测为真，实际为真；TN：预测为假，实际为假；

FP：预测为真；实际为假；FN：预测为假，实际为真

F1值(F1 Score)，是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。宏F1值更加科学。所以在算法复杂度相同的情况下，宏F1值越高则意味着算法的准确率和召回率越高，算法越优越。

图1是四种算法在20newsgroup数据集上的算法性能比较，图2是四种算法在Ruster21678数据集上的算法性能比较，由图1和图2可以看出，在上述两个英文数据集上，随着特征词数量的增加，宏F1值会有略微的增加，在特征数量到达300时，宏F1值趋于平稳。可以看到两个图的共同点，IFSC-FCBF特征选择算法能够更加有效的选择特征，获得了最大的宏F1值。一方面，由于原始的 FCBF算法会出现消除特征过度的情况，所以在文本分类中并不能得到很好的结果，在四个算法中其性能是最差的。另一方面，区别性特征选择算法DFS要优于信息增益方法IG算法，特别是在20newsgroup数据集上。可以看出在特征数目在300时，DFS的F1值要比IG的F1值高出3％左右。虽然在20newsgroup 数据集上，IFSC-FCBF算法结果和DFS很接近甚至有时候会落后于DFS，但在 Ruster21578数据集上，IFSC-FCBF的性能一直都是优于DFS。总的来说，在英文数据集上，IFSC-FCBF比他的算法具有更好的性能，宏F1值比DFS算法平均高出1％，比IG算法平均高出2％到3％。拥有更高的准确率和召回率，算法更为优越。

由图3和图4可以看出，随着特征数增加到300时，宏F1值基本趋向平稳，与在英文数据集上的结果类似。这意味着当特征维数达到300时，特征已经不再是影响算法性能的因素。对于FCBF算法来说，在英文数据集和中文语料库上的表现都不是很好。DFS算法在在复旦语料库中宏F1值比IG算法平均高出 1.4％，在搜狗语料库中平均高出0.8％。而IFSC-FCBF算法比DFS平均高出1.3％和1.5％。拥有更高的准确率和召回率，算法更为优越。

为了看出各特征选择算法对每个类别的分类效果，我们在特征维数为300 时，对每个类别的分类效果做了统计：

表1.20newsgroup数据集各类别分类效果比较

表2.Ruster21578数据集各类别分类效果比较

表3.复旦大学语料库各类别分类效果比较

表4.搜狗实验室语料库各类别分类效果比较

表1显示的是特征选择算法在20newsgroup上对每个类别的分类效果的比较，如表格中的粗体所示，在大部分类别中IFSC-FCBF都具有最高的F1值，其次是DFS算法。因为每种特征选择算法对于特征的关注不同，导致选取的特征也不同，这样就会导致不同特征选择算法有自己擅长的类别特征，这也是造成 IFSC-FCBF算法并不能保证对每个类别的F1值都高于其他算法的原因之一。但通过比较P，R，F1的平均值可以看出依然是IFSC-FCBF算法最优。

表2中可以看出，正如上面所述的原因FCBF算法能够选择出对crude类别更有利的特征词，所以对于crude类别其F1值要优于其他算法。但是另外四个类别FCBF的分类效果都不理想。money-fx类别的特征词可以看出IFSC-FCBF 的查准率，查全率和F1值得平均值比DFS高出1％，比IG高出2％。总的来说，在两个英文数据集上，我们提出的算法在宏F1值较高时，对于每个类别的分类也是最理想的。

表3中可以看出，对于复旦大学语料库，有趣的是IFSC-FCBF和DFS特征选择算法的几乎相同，IG算法次之。表4中，IFSC-FCBF算法对health，education 和tourism三个类别的选择的特征更加有效，DFS则对sport类更加有效，最后， IG和DFS得到了几乎相同的平均值，但是由图4的宏F1值对比可知，此时IG 算法要略胜DFS。总的来说，在中文数据集上，我们的算法同样能更有效的选择特征。

本发明中提出了一个改进的自定义特征维数的快速相关性过滤算法。因为大部分的特征选择算法都很少考虑特征之间的冗余性，这样在进行特征选择时可能会选择一些噪音特征，并降低分类精确度。并且原始的FCBF算法在特征之间的相关性较强时，很容易移除太多的特征。为了解决上述问题，我们提出了 IFSC-FCBF。根据实验结果显示，IFSC-FCBF算法能够在保证运行时间较低的情况下选择更加有效的特征，对文本分类任务具有明显的提升。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于FCBF的自定义特征维数文本特征选择算法，其特征在于：包括步骤：

步骤一，设向量化文本矩阵为X，文本类别矩阵为C＝{C₁,C₂...C_j}，C_j是训练文本D_j的类别，j＝1,2...V，V是文本类别总个数，根据文本矩阵X初始化所有特征词集合T＝{t₁,t₂...t_m}，为特征词与类别相关性符合要求的特征词集合S_list＝{}赋值，为经过算法选择后的特征词集合S_list赋初值，t_m为第m个特征词；

步骤二，利用FCBF算法对特征词集合S_list中的特征词进行筛选，得到初始特征词集合S_best；

步骤三，若初始特征词集合S_best的维度小于设定的维度时，选择特征词与类别的相关性值排名靠前的特征去补足初始特征词集合S_best直至其维度等于设定的特征维度；若初始特征词集合S_best的维度大于或等于设定的特征维度时，则初始特征词集合S_best中即获取到自定义特征维数的特征词；

所述步骤一中，具体为：

为S_list赋值：对t_k∈T，计算文本第k个特征词t_k与文本类别C的相关性Corr(t_k,C)，当Corr(t_k,C)≥thresh时添加t_k进S_list，T为所有特征词的集合，thresh是阈值，k＝1～m，m为特征词总个数；

将S_list按照特征词t_k与文本类别的相关性Corr(t_k,C)值从大到小排序，t_p＝getFirst(S_list)，S_best＝{t_p}；特征词t_p为排序后的首个参数，将t_p赋值给S_best。

2.根据权利要求1所述的一种基于FCBF的自定义特征维数文本特征选择算法，其特征是：所述步骤二，具体步骤为：