CN106570178A

CN106570178A - 一种基于图聚类的高维文本数据特征选择方法

Info

Publication number: CN106570178A
Application number: CN201610991719.5A
Authority: CN
Inventors: 王进; 谢水宁; 欧阳卫华; 张登峰; 颉小凤; 邓欣; 陈乔松; 雷大江; 李智星; 胡峰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2017-04-19
Anticipated expiration: 2036-11-10
Also published as: CN106570178B

Abstract

本发明请求保护一种基于图聚类的高维文本数据特征选择方法，该方法包括：剔除不相关特征，并构造加权无向图；再结合社区发现算法快速地将特征聚类；并以“最大相关最小冗余”原则搜索类簇空间，剔除类簇内的冗余特征；最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性，结合高效的社区发现进行特征聚类，选取出具有代表性的特征，并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性，使得文本分类结果具有更高的准确性和稳定性。

Description

一种基于图聚类的高维文本数据特征选择方法

技术领域

本发明涉及机器学习、数据挖掘技术领域，尤其涉及一种基于图聚类的高维文本数据特征选择方法。

背景技术

文本分类成为处理和组织大量文档数据的关键技术，但其高维特征空间不仅增加了分类的时间复杂度和空间复杂度，同时还可能会导致分类精度的降低。因此，需要对高维数据进行特征选择降低特征空间维度以及去除噪声特征，提高分类器的分类效率和分类精度。

常见的文本特征方法主要有文档频率(DF)、信息增益(IG)、互信息(MI)等，这些方法基本思想都是对每个特征计算某种统计度量值，再设定一个阈值T，把度量值小于阈值T的特征过滤掉，剩下的即为文本特征。DF通过统计文档频率较高的词在文本中出现的次数进行提取，但是其可能会遗漏低频高信息量的词；IG只适用于全局变量；MI则性能表现不稳定。近年来，聚类分析也已广泛应用于文本特征选择领域，旨在依据聚类的判断准则，寻求一个更优的特征子集，使其能够更好地涵盖数据的分类能力，反映数据潜在的空间结构并提高聚类的准确性。但现有的大多数特征聚类算法都存在一定程度上的缺陷，例如类簇数需事先人为设定；忽略类簇的数据分布情况；忽略类簇中每个特征和类别都具有不同程度的重要性。

为了解决上述问题，本发明提出了一种基于图聚类的高维文本数据特征选择方法，旨在利用图能表示特征空间分布的特性，以及高效的社区发现聚类算法，从而能在一定程度上避免过拟合现象，并消除聚类过程中忽略数据分布情况，以及解决聚类时的盲目性问题，从而选出更具有代表性的特征词，进而提高分类准确性和稳定性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种能有效地去除噪声数据、使分类结果具有更高的准确性和稳定性的基于图聚类的高维文本数据特征选择方法。本发明的技术方案如下：

一种基于图聚类的高维文本数据特征选择方法，其包括以下步骤：101、获取高维文本数据，并采用筛选法得到高维文本数据的相关特征，根据相关特征构造加权无向图；102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类；103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间，剔除类簇内的冗余特征；104、最后根据剩余相关特征与类别间的关系，评价分类性能挑选出最佳特征子集。

进一步的，步骤101采用筛选法得到高维文本数据的相关特征的步骤为：

步骤1：首先计算特征与类别间的相关性Sim(f_i,C)，并进行降序排序；

步骤2：采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征。

进一步的，所述步骤1计算特征与类别间的相关性Sim(f_i,C)具体包括：假设存在数据集D＝{F,C}，其中F＝{f₁,f₂,…,f_n}为特征集，n为特征维度，C为类别标签集，每个特征f_i∈F，对于类别标签集C，可用如下Sim(x,y)表示：

其中μ，δ分别表示均值和标准差；H(x)和H(y)分别表示一个随机变量x和y的不确定性，即熵；IG(x,y)为信息增益。

进一步的，采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征具体包括：设定两个阈值T₁，T₂，其中T₁用于控制算法性能，T₂体现特征相关性的分布情况，分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m₁，m₂，则最终保留的特征个数为m＝min{m₁，m₂}，其中m<＝n，阈值T₁，T₂分别设为和μ+δ，筛选得到相关特征集F＝{f₁,f₂,…,f_m}。

进一步的，步骤101根据相关特征构造加权无向图具体包括：

将留下的相关特征集F＝{f₁,f₂,…,f_m}，构造加权无向图G＝{V,E,W}，其中V＝{v₁,v₂,…,v_m}为顶点集合，E＝{e₁,e₂,…,e_q}为q条加权边集合，W＝{w₁,w₂,…,w_q}为q条加权边的权值集合。

进一步的，所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤；初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s₁,s₂,…,s_k}，其中k表示形成k个类簇；

依据Sim(f_i,C)降序排序，选取max(Sim(f_i,C))的特征作为起始点，搜索特征f_i所有邻近特征所在的类簇s_j，并分别计算该特征和各个邻近类簇的关联性增益ΔLoc_Sim_fi，如果ΔLoc_Sim_fi大于阈值T₃，且为最大值，则将特征合并到该类簇中，形成新的类簇，反之，则不变：

直到所有特征都被划分到新的类簇中，并更新G；直到各个类簇间的差异度ΔGlo_Sim最大。

进一步的，所述特征f_i和各个邻近类簇的关联性增益计算公式为：

其中ΣSim(f_i,s_j)表示特征f_i与类簇s_j中所关联边的权重之和；∑Sim(s_j,)为所有与类簇s_j相关联的边之权重和；∑Sim(f_i,)为所有与特征f_i相关联的边总权重；ΣSim为图G中所有特征边的权重总和。

进一步的，所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间，剔除类簇内的冗余特征具体包括：

假设聚类后每个类簇s_l，其中l∈[1,k]，如果对于f_i∈s_l，存在Sim(f_i,f_j)<μ+δ&&Sim(f_i,C)<Sim(f_j,C)，那么f_i对f_j而言是冗余的特征，此时需剔除冗余特征f_i。

进一步的，步骤104评价分类性能挑选出最佳特征子集包括：

剔除冗余特征后，在每个类簇内根据相关性Sim(f_i,C)选择出Topw个特征组成最优特征子集，考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

进一步的，所述分类精确度的计算公式为：

其中Acc表示分类准确度，TP：被判定为正样本，事实上也是正样本，TN：被判定为负样本，事实上也是负样本，FP：被判定为正样本，但事实上是负样本，FN：被判定为负样本，但事实上是正样本。

本发明的优点及有益效果如下：

本发明中，由于不相关特征会影响聚类算法效率以及分类精度，因此剔除不相关特征能有效地去除噪声数据。同时构造加权图体现特征间内部分布情况，有利于社区发现对特征进行聚类，并在一定程度上消除聚类的盲目性。进而以“最大相关最小冗余”原则搜索类簇空间，剔除冗余特征，最后依据特征与类别的关系组合最佳特征子集，从而能在一定程度上避免过拟合现象，解决选择最佳特征子集个数的盲目性问题，使分类结果具有更高的准确性和稳定性。

附图说明

图1是本发明提供优选实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图；

图2为本发明实施例提供的高维文本数据特征选择方法流程图；

图3为本发明实施例提供的加权图G；

图4为本发明实施例提供最佳的特征子集选择流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明的技术方案如下：

参考图1，图1为本发明实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图，具体包括：

文本数据集具有高维小样本、高噪声、高冗余以及样本分布不均衡等特点，这些特点为相应的分析方法和工具的开发带来了极大的挑战。因此，本实施例中，主要采用文本数据来展开讨论。参考图2，图2为本发明实施例提供的高维文本数据特征选择方法流程图。

如何评价待选特征是特征降维的关键问题之一。所述特征与类别间的关系，主要是利用改进的信息增益IG作为相关性度量准则。由于信息增益IG偏向于具有更多取值的特征，因此可通过规范化信息增益来确保其具有可比性。

根据基于熵的信息理论概念，一个随机变量x的不确定性可以用熵H(x)衡量，如公式(1)所示，其中p(x_i)为x的先验概率。

两个变量x和y，当y已知的条件下，变量x中剩余的不确定性用公式(2)条件熵H(x|y)表示，其中p(x_i|y_i)为x的条件概率。

x熵值的变化反映了在给定y的条件下x的额外信息，并将其称为信息增益IG(x|y)，计算公式如(3)所示。

为了弥补信息增益对多值特征的偏差，并试图消除其随机性，可通过均值和标准差进行修正。其计算公式如(4)所示，其中μ，δ分别表示均值和标准差。其中Sim(x,y)∈[0,1]，对于任意的两个变量都具有对称性。当取值为1时，表明任一值的信息都可以完全预测出另外一个值，即两者完全相关，在数据集中所包含的信息量相同；当取值为0时，表示两者完全独立。由此可见，其值越大，表明两个特征间的依赖性越大，冗余性越大，所包含的相同信息也越多。用该公式能够分别计算出特征与类别间，以及特征间的相关性。

步骤1：首先计算特征与类别间的相关性。假设存在数据集D＝{F,C}，其中F＝{f₁,f₂,…,f_n}特征集，n为特征维度，C为类别标签集。每个特征f_i∈F，对于类别标签集C，利用相关性Sim(f_i,C)衡量特征与类别间的关系，并进行降序排序；

步骤2：剔除不相关特征。为了既能够选取适量的特征个数，降低时间复杂度提高算法性能，又兼顾特征相关性的分布情况，本发明采用双重阈值法剔除特征。即设定两个阈值T₁，T₂，其中T₁用于控制算法性能，T₂体现特征相关性的分布情况。阈值T₁，T₂分别设为和μ+δ。分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m₁，m₂，则最终保留的特征个数为m＝min{m₁，m₂}，其中m<＝n；

步骤3：构造无向加权图：参考图3，图3为本发明实施例提供的加权图G。将留下的特征集F＝{f₁,f₂,…,f_m}，构造加权无向图G＝{V,E,W}。V＝{v₁,v₂,…,v_m}为m个特征集合构成的顶点集，E＝{e₁,e₂,…,e_q}为q条特征间边的集合构成加权边集，W＝{w₁,w₂,…,w_q}为q条特征边的相关性Sim(f_i,f_j)集合构成的权值集。

通过步骤3构建加权图G后，为了能快速构造出类簇间相关度低，类簇内相关度高的特征子集，并在一定程度上消除聚类的盲目性，本实施例采用社区发现算法进行聚类。该算法是基于图理论知识，能够反映特征内部分布结构，并在一定程度上消除聚类的盲目性。

步骤4：对于社区网络加权图G＝{V,E,W}，其中V＝{v₁,v₂,…,v_m}为顶点集合，E＝{e₁,e₂,…,e_q}为q条加权边集合，W＝{w₁,w₂,…,w_q}为q条加权边的权值集合。初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s₁,s₂,…,s_k}，其中k表示形成k个类簇；

步骤5：依据Sim(f_i,C)降序排序，选取max(Sim(f_i,C))的特征作为起始点，搜索特征f_i所有邻近特征所在的类簇s_j，并分别计算该特征和各个邻近类簇的关联性增益如果大于阈值T₃，且为最大值，则将特征合并到该类簇中，形成新的类簇。此处设置T₃＝0.5，该取值可视实验数据而定；反之，则不变：

其中∑Sim(f_i,s_j)表示特征f_i与类簇s_j中所关联边的权重之和；ΣSim(s_j,)为所有与类簇s_j相关联的边之权重和；ΣSim(f_i,)为所有与特征f_i相关联的边总权重；∑Sim为图G中所有特征边的权重总和；

步骤6：重复执行步骤5，直到所有特征都被划分到新的类簇中，并更新G；

步骤7：继续执行步骤4～6，直到各个类簇间的差异度ΔGlo_Sim最大。

其中为特征f_i所在的类簇号；表示特征f_i与f_j是否同在一个类簇内，是则返回值为1，否则为0。用其来衡量聚类的质量，其值越大则说明聚类效果越好。

步骤8：剔除冗余数据。通过步骤4～7将特征集F＝{f₁,f₂,…,f_m}聚类得到类簇集合S＝{s₁,s₂,…,s_k}，并进一步剔除每个类簇内的冗余特征。所述以“最大相关最小冗余”原则搜索类簇空间，剔除类簇内冗余特征。由于剔除冗余特征可提高数据质量和数据泛化能力。因此聚类后对于每个类簇s_l，其中l∈[1,k]，分别依据“最大相关最小冗余”原则剔除冗余特征，旨在结合特征与类别综合评价冗余特征，从而有效地避免异常特征对分类结果的影响。换言之，如果对于f_i∈s_l，存在Sim(f_i,f_j)<μ+δ&&Sim(f_i,C)<Sim(f_j,C)，那么f_i对f_j而言是冗余的特征，此时需剔除冗余特征f_i。

步骤9：挑选最佳特征子集。参考图4，图4为本发明实施例提供的最佳特征子集选择流程图。为了消除选择最佳特征子集个数的盲目性，所述根据特征与类别间的关系组合出最佳特征子集，主要是在剔除冗余特征后，在每个类簇内根据相关性Sim(f_i,C)选择出Top w个特征组成最优特征子集。本实施例中设定w的取值大小为[1,10]，步长为1。所述w值的选取影响数据的分类精确度，同时不同的数据集所选取的w值也不同。据此，本实施例中考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

所述分类精确度计算公式如下，其能够定量地评价算法的准确定和有效性。

其中TP：被判定为正样本，事实上也是正样本。TN：被判定为负样本，事实上也是负样本。FP：被判定为正样本，但事实上是负样本。FN：被判定为负样本，但事实上是正样本。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于图聚类的高维文本数据特征选择方法，其特征在于，包括以下步骤：101、获取高维文本数据，并采用筛选法得到高维文本数据的相关特征，根据相关特征构造加权无向图；102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类；103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间，剔除类簇内的冗余特征；104、最后根据剩余相关特征与类别间的关系，评价分类性能挑选出最佳特征子集。

2.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法，其特征在于，步骤101采用筛选法得到高维文本数据的相关特征的步骤为：

3.根据权利要求2所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤1计算特征与类别间的相关性Sim(f_i,C)具体包括：假设存在数据集D＝{F,C}，其中F＝{f₁,f₂,…,f_n}为特征集，n为特征维度，C为类别标签集，每个特征f_i∈F，对于类别标签集C，可用如下Sim(x,y)表示：

S i m (x, y) = \frac{2 I G (x, y) - μ / δ}{H (x) + H (y) - μ / δ}

4.根据权利要求2或3所述的基于图聚类的高维文本数据特征选择方法，其特征在于，采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征具体包括：设定两个阈值T₁，T₂，其中T₁用于控制算法性能，T₂体现特征相关性的分布情况，分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m₁，m₂，则最终保留的特征个数为m＝min{m₁，m₂}，其中m<＝n，阈值T₁，T₂分别设为和μ+δ，筛选得到相关特征集F＝{f₁,f₂,…,f_m}。

5.根据权利要求4所述的基于图聚类的高维文本数据特征选择方法，其特征在于，步骤101根据相关特征构造加权无向图具体包括：

6.根据权利要求5所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤；初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s₁,s₂,…,s_k}，其中k表示形成k个类簇；

7.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述特征f_i和各个邻近类簇的关联性增益计算公式为：

Δ L o c_{Sim}_{f_{i}} = Σ S i m (f_{i}, s_{j}) - \frac{Σ S i m (s_{j},) Σ S i m (f_{i},)}{Σ S i m}

其中∑Sim(f_i,s_j)表示特征f_i与类簇s_j中所关联边的权重之和；ΣSim(s_j,)为所有与类簇s_j相关联的边之权重和；ΣSim(f_i,)为所有与特征f_i相关联的边总权重；ΣSim为图G中所有特征边的权重总和。

8.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间，剔除类簇内的冗余特征具体包括：

9.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法，其特征在于，步骤104评价分类性能挑选出最佳特征子集包括：

剔除冗余特征后，在每个类簇内根据相关性Sim(f_i,C)选择出Top w个特征组成最优特征子集，Top w指相关性最高的前w个特征，考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

10.根据权利要求9所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述分类精确度的计算公式为：

A c c = \frac{T P + T N}{T P + T N + F P + F N}

其中Acc表示分类准确度，TP：被判定为正样本，事实上也是正样本，TN：

被判定为负样本，事实上也是负样本，FP：被判定为正样本，但事实上是负样本，FN：被判定为负样本，但事实上是正样本。