CN103886108A

CN103886108A - 一种不均衡文本集的特征选择和权重计算方法

Info

Publication number: CN103886108A
Application number: CN201410149441.8A
Authority: CN
Inventors: 刘磊
Original assignee: Beijing University of Technology
Current assignee: Goonie International Software (Beijing) Co.,Ltd.
Priority date: 2014-04-13
Filing date: 2014-04-13
Publication date: 2014-06-25
Anticipated expiration: 2034-04-13
Also published as: CN103886108B

Abstract

本发明提出了一种不均衡文本集的特征选择和权重计算方法，属于文本信息处理领域，具体是涉及不均衡文本集的特征选择和权重计算方法。针对不均衡文本数据的分类问题，本发明提出一种特征选取和权重计算方法与***。本发明结合类别区分度和平均词频因素，通过改进卡方统计量方法进行特征选取，同时对常用的特征权重计算方法进行改进，并在其基础上提出了TF-IDF的权重计算方法，本发明提供的方法在处理不均衡数据集问题时效果要优于传统的特征选择方法，对于有效提高分类准确率是有效可行的。

Description

一种不均衡文本集的特征选择和权重计算方法

技术领域

本发明属于文本信息处理领域，具体是涉及不均衡文本集的特征选择和权重计算方法。

背景技术

随着信息技术的飞速发展和互联网的普及，文本信息资源出现了迅速的膨胀。这些信息资源在为丰富人们知识和提供了便利，但是这其中也含有大量的垃圾信息。作为信息检索技术的主要技术之一，文本分类技术在提高信息检索和过滤***性能等方面具有很高的应用价值。

通常情况下，文本的来源不仅包括网页、邮件，还包括短信、微博和论坛帖子等等。在文本分类过程中，如果将文本表示成向量形式，训练集中的特征可能数以万计。在大量的特征中，很多不相关和冗余的特征需要去除，干扰分类准确性的噪声特征也需要去除。庞大的特征空间维数会降低分类器的性能和泛化能力，同时处理高维向量需要极高的时间复杂度。特征选择作为文本分类技术的重要环节，通过对特征进行降维处理来提高分类器的效率和精度。由于类别信息是文本分类的重要组成部分，文本分类存在类别关系复杂、分布不均衡和类别不确定等问题，这些问题为特征选择研究提出了很多的挑战。

很多传统的机器学习方法都是基于数据集均衡情况下的，但是现实应用中，绝大多数据是不均衡的，传统机器学习方法对不均衡数据集的处理效果通常较差。如何有效对不均衡数据集进行处理是数据挖掘领域的一个研究热点。对于不均衡数据集的处理在医疗诊断、金融贷款管理和邮件过滤等领域中有着广阔的前景和实际意义。在对于不均衡问题的处理有两个层面，一是取样层面，二是算法层面。本发明给出了特征选取将集中基于不均衡数据集的特征选择方面。

发明人通过综合考虑不均衡数据集的特征选取方法，给出一种不均衡文本集的特征选择和权重计算方法，克服了传统分类方法面对不均衡数据集的局限性。

发明内容

本发明的目的在于针对不均衡文本数据的分类问题，提出一种特征选取和权重计算方法与***。本发明结合类别区分度和平均词频因素，通过改进卡方统计量方法进行特征选取。同时还对常用的特征权重计算方法进行改进，并在其基础上提出了TF-IDF的权重计算方法，实验表明，改进方法在处理不均衡数据集问题时效果要优于传统的特征选择方法，对于提高分类准确率是有效可行的。

本发明是采用以下技术手段实现的：

步骤1：对文本集进行文本预处理，提取语义信息，方法如下：

步骤1.1：利用中文词法处理软件，对文件集合进行分词和词性标注处理。

步骤1.2：过滤掉分词处理后的停用词，包括：语气助词、介词、副词。

步骤2：进行文本集的特征选择计算，方法如下：

对每条预处理后的文本数据集进行如下处理

步骤2.1：计算特征t与类别c的CHI统计量

包含特征t且属于类别c_i，记为A。

包含特征t且不属于类别

，记为B。

不包含特征

且属于类别c_i，记为C。

不包含特征且不属于类别，记为D。

特征t与类别c的CHI统计量计算公式为：

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix} - - - (1)

步骤2.2：计算倒转类别频率ICF

其中M是文本集类别的总数，m_t是文档集中出现特征t的类别的数目。

{ECF}_{t, C} = In \frac{M}{m_{t}} + 1

其中M>0,0≤m_t≤M

步骤2.3：进行改进的卡方统计量计算

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} \times {ICF}_{t, C} \times \frac{{TC}_{i}}{T \overset{&OverBar;}{C_{i}}}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix} - - - (2)

其中特征t在正类中出现的平均词频TC_i和其在负类中出现的平均词频的比值衡量了特征与类别的相关度，其值越大说明特征t与正类的相关度越大。这里χ²(t,c)取值范围为[0,+∞)之间。

步骤3：特征词权重计算，方法如下：

对每个文本中的特征词进行权重计算

步骤3.1：计算λ因子，方法如下：

λ (t, c_{i}) = \frac{DF (t, c_{i})}{D (c_{i})} - - - (3)

其中，DF(t,c_i)表示c_i类中包含特征项t的文本数，D(c_i)表示c_i类中的文本总数，λ即为某一类别中包含特征词t的文本数占该类文本总数的比例，λ(t,c_i)取值范围为[0,1]之间；

步骤3.2：计算TF-IDF*λIG数值

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG]}^{2}}} - - - (4)

步骤3.3：计算TF-IDF*λCHI

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * λCHI}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * CHI]}^{2}}} - - - (5)

步骤3.2和步骤3.3中公式的参数t表示特征项，其中N是文本集中类别的总数，n_i是文本集中出现特征t的类别的数目。tf_ij表示一个特征词t_i在某个文本d_j中出现的次数。W(t_i,d_j)取值范围为[0,1]之间。

步骤4：分类结果输出。

本发明与现有技术相比，具有以下明显的优势和有益效果：

发明方法综合考虑了特征在正负类别中的分布情况，能够综合的选择代表性和鉴别性比较强的特征，避免传统特征选择方法在不均衡数据集上的不适应性。基于特征结合模式的权重计算方法更好的解决了向量空间维数高和关联特征词的提取问题，提高了分类程序的效率和分类的精度。

附图说明

图1实现不均衡文本数据集特征选取和权重计算方法及***的流程图；

图2非平衡比下正类的F1值折线图；

图3卡方统计量特征选择下的改进后TF-IDF权重计算的实验结果；

图4信息增益特征选择下的改进后TF-IDF权重计算的对比结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。根据图1所示，本发明提出的方法是依次按以下步骤实现的：

步骤1：对不均衡文本集进行文本预处理，提取含有语义信息的词。

实验分词处理采用汉语词法分析***ICTCLAS（Institute of ComputingTechnology,Chinese Lexical Analysis System）。

步骤1.2：过滤掉分词处理后的停用词。如语气助词、介词、副词等。

文本中如果大量存在停用词会对其有效信息造成噪音干扰。删除停用词后能够达到粗降维的效果，目的是为了提高分类程序的效率和分类的精度。

步骤2：进行文本集的特征选择计算

对每条预处理后的不均衡文本数据集进行如下处理：

步骤2.1：计算特征t与类别c的CHI统计量，这里

(t,c_i)：包含特征t且属于类别c_i，记为A。

包含特征t且不属于类别

，记为B。

不包含特征

且属于类别c_i，记为C。

不包含特征

且不属于类别

记为D。

A和D表现了特征t和类别c_i的正依赖性，B和D表现了特征t和类别c_i的负依赖性。CHI统计特征选择方法中特征t与类别c的CHI统计量计算公式为：

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix} - - - (1)

步骤2.2：计算不均衡文本集合的倒转类别频率ICF；

由于不同的特征对类别的区分度存在着差异，显然正类中的特征具有较好的类别区分度。倒转类别频率ICF（Inverse Category Frequency）计算公式如下：

{ICF}_{t, C} = In \frac{M}{m_{t}} + 1 - - - (2)

其中M是文本集C中类别的总数，m_i是C中出现特征t的类别的数目。加1是为了避免ICF为0，

步骤2.3：进行改进的卡方统计量计算

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} \times {ICF}_{t, C} \times \frac{{TC}_{i}}{T \overset{&OverBar;}{C_{i}}}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix} - - - (3)

其中特征t在正类中出现的平均词频TC_i和其在负类中出现的平均词频

的比值衡量了特征与类别的相关度，其值越大说明特征t与正类的相关度越大。

步骤3：进行不均衡文本集中特征词权重计算

计算特征词权重通过特征词在文本中出现的频率和数目来确定此特征词的权重。本发明使用TF‐IDF函数计算特征权重。

词频用TF表示，即一个特征词在文本中出现的次数。一个特征词的TF值越大表明其类别代表能力越强。反文本频率用IDF表示，其含义为：如果包含某个特征词的文本数越少，该特征词代表某类文本的能力越强，其权重也越大。

TF‐IDF公式是将词频与反文本频率相乘，标准化后的TF‐IDF函数公式为：

T F_{i} * ID F_{j} = \frac{{tf}_{i} * \log (\frac{N}{n_{j}} + L)}{\sqrt{\underset{t &Element; d_{k}}{Σ} {[{tf}_{j} * \log (\frac{N}{n_{j}} + L)]}^{2}}} - - - (4)

其中L为常数，根据实验确定。N为总文本数，n_j为出现特征词t_j的文本数。

发明人对每个文本中的特征词权重计算方法进行了改进。在基于TF‐IDF的改进过程中加入了特征词对文本类别判别的考虑。使用TF‐IDF表现特征项在文本中出现的频数，用特征选择函数表现特征项与文本类别之间的关系。

步骤3.1：计算λ因子

在数据不均衡情况下，即使“大类”包含特征词的文本数很少，也可能会大于“小类”中包含该特征词的文本数。通过引入λ因子进行调节，如下表示：

λ (t, c_{i}) = \frac{DF (t, c_{i})}{D (c_{i})} - - - (5)

其中，DF(t,c_i)表示c_i类中包含特征项t的文本数，D(c_i)表示c_i类中的文本总数，λ即为某一类别中包含特征词t的文本数占该类文本总数的比例；

步骤3.2：加入信息增益，计算TF‐IDF*λIG数值

信息增益(Information Gain)衡量特征出现与否为分类提供的信息量。对于每个特征t，增益差值越大，该特征对分类作用越重要。特征t信息增益如下所示：

IG (t) = - Σ_{i = 1}^{n} P (c_{i}) \log P (c_{i}) + P (t) Σ_{i = 1}^{n} P (c_{i} | t) \log P (c_{i} | t) \log P (c_{i} | t) + P (\overset{&OverBar;}{t}) Σ_{i = 1}^{n} P (c_{i} | \overset{&OverBar;}{t}) \log P (c_{i} | \overset{&OverBar;}{t}) - - - (6)

其中，P(c_i)为文本属于类别c_i的概率，P(t)为特征t出现在文本集中的概率，P(c_i|t)表示包含特征t时，文本属于c_i的概率，

表示文本集中不包含特征t的文本的概率，

表示文本不包含特征t是属于c_i的概率，n为类别数。

首先用TF‐IDF选出在单个文本中出现的频率较高，但在其它文本中出现的频率较少的特征词。再通过信息增益找出未在样本中出现，但是可以表达该文本含义，且对判别文本类别有很大贡献的词。最后引入λ因子进行结合，改进公式为：

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG]}^{2}}} - - - (7)

步骤3.3：引入改进的卡方统计量，计算TF-IDF*λCHI

CHI表现特征词与类别之间的关系，引入λ因子将其与TF-IDF进行结合，改进后算法偏重于出现频率较多且能含有大量类别信息的特征词。改进后公式为：

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * λCHI}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * CHI]}^{2}}} - - - (8)

步骤4：根据改进的特征选取和权重计算方法进行分类效果对比测试。

为了检验本发明的方法相对于传统方法有所改进，本发明进行了如下实验。

步骤4.1：不均衡数据集文本分类的特征选择实验

实验数据来源于科研数据共享平台网站上获取的复旦大学中文语料库，并采用开放性测试方法。复旦大学中文语料库包含20个类别，分为训练集和测试集两部分，两部分的样本数大致相等且没有重叠，全部文本为txt格式。训练集和测试集的类别分布情况如表1所示：

表1训练集和测试集的类别分布情况

对应类别名称对应如下：

C3‐艺术,C4‐文学,C5‐教育,C6‐哲学,C7‐历史,C11‐空间,C15‐能量,C16‐电子学,C17‐通信,C19‐计算机,C23‐采矿,C29‐运输,C31‐环境,C32‐农用,C34‐经济,C35‐法律,C36‐医学,C37‐军事,C38‐政治,C39‐体育。

在文本分类实验中，根据实际应用将两部分合并和选取样本。本文选取复旦大学中文语料库中样本数量相差较大C5和C34作为不均衡数据集进行实验，正类C5中随机选取60篇文本，负类C34根据特定比例随机选取6组。不均衡数据集的实验数据如表2所示：

表2不均衡数据集的实验数据

这里使用3倍交叉验证的方法（3‐fold cross validation），将上面选取的样本集等分为3组，其中2组作为训练集，1组作为测试集，并将此过程重复三次，最后取这三次实验结果的平均值。

实验分词处理采用汉语词法分析***ICTCLAS，选择的特征为1000维。分类算法采用支持向量机。性能评估方法采用查准率和查全率的综合指标F1值，其公式为：

F_{1} = \frac{2 precision * recall}{precision + recall} - - - (9)

下面是不同非平衡比下CHI、IG和改进后CHI特征选择方法的实验结果对比，该实验的加权方法采用TF‐IDF特征加权方法，实验结果如下：

表3TF‐IDF特征加权方法实验结果

由于更加关注不均衡数据集中正类的分类效果，同时为了便于实验数据的对比分析，将不同的不均衡比下正类F1值用折线图来表示，如图4所示。通过观察可以看出，随着正负两类非平衡比的不断增大，三种特征选择方法中，负类的F1值均呈现出小幅度的增长，而改进后CHI方法中负类的F1值要优于CHI和IG。

从正类F1值变化曲线可以发现，在不同特征选择方法下，正类F1值的变化相差较大。随着非平衡比的不断增大，改进后CHI方法中正类F1值取得了比其他方法更好的效果，并于1：10之后达到比较稳定的值，即改进后CHI方法在不降低负类分类效果同时，使正类样本得到了应有重视，取得了令人满意的效果。

改进后的CHI方法综合考虑了特征在正负类别中的分布情况，能够综合的选择代表性和鉴别性比较强的特征。同时从实验数据中可以看出，改进后的方法受数据集不均衡度的影响很小，在不同的不均衡比下，改进后的CHI方法在不降低负类分类性能的同时，其正类的分类性能可以保持在一个相对理想的状态。

综上所述，改进后的CHI方法很好的避免传统特征选择方法在不均衡数据集上的不适应性，并在不降低负类分类性能的同时，较大幅度提升了正类分类性能。

步骤4.2：不均衡数据集文本分类的权重计算实验

实验数据来源于科研数据共享平台网站上获取的复旦大学中文语料库，并采用开放性测试方法。复旦大学中文语料库包含20个类别，分为训练集和测试集两部分，两部分的样本数大致相等且没有重叠，全部文本为txt格式。从中选取10个类别，用于训练和测试的样本数分布情况如表4所示。

表4训练和测试的样本数分布

选取KNN分类算法进行模型训练，测试当特征选择函数相同时，权值计算公式分别选择TF‐IDF和TF‐IDF*λ特征选择函数时的分类效果。K取值为10。

（1）使用信息增益IG作为特征选择方法，特征权值计算方法分别为TF‐IDF和TF‐IDF‐λIG。实验结果见表5，总体的对比结果如图3所示。

表5信息增益特征选择下的改进后TF-IDF权重计算的实验结果

从中可以看出，改进后的TF‐IDF*λIG方法在宏平均召回率、准确率和微平均准确率三方面都有了比较显著的提升。从类别准确率角度看，改进后的方法在C7和C11两个类别有了较大的提升，其中C7为一个样本数相对较少的类别，在其余类别也有一定提升，但是幅度有限。

（2）使用卡方统计量CHI作为特征选择方法，特征权值计算方法分别为TF‐IDF，TF‐IDF‐λCHI。实验结果见表6，总体的对比结果如图4所示。

表6卡方统计量特征选择下的改进后TF-IDF权重计算的实验结果

从中可以看出，虽然改进后的TF‐IDF*λCHI方法在宏平均召回率上有小幅度的下降，但是在宏平均和微平均准确率上有了明显的提高。大部分类别的准确率都有一定提升，C39和C7提升幅度比较明显。

通过以上实施例，在使用KNN分类模型进行测试基于特征结合的权重方法改进中，改进后的TF‐IDF方法分类效果要明显的好于传统TF‐IDF方法，在个别类别中样本较小情况下也表现出了较好的分类效果。这种基于特征结合模式的权重计算方法能够更好的解决向量空间维数高和关联特征词的提取的问题。

实验结果表明，本发明提出的利用特征结合的权重改进方法相比于传统方法有明显改进。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的示例对本发明已进行了详细的说明，但是本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种不均衡文本集的特征选择和权重计算方法及***，按以下步骤实现：

步骤1.1：利用中文词法处理软件，对文件集合进行分词和词性标注处理；

步骤1.2：过滤掉分词处理后的停用词,语气助词、介词、副词；

步骤2：进行文本集的特征选择计算，方法如下：

对每条预处理后的文本数据集进行如下处理

步骤2.1：计算特征t与类别c的CHI统计量

包含特征t且属于类别c_i，记为A；

包含特征t且不属于类别

，记为B；

不包含特征

且属于类别c_i，记为C；

不包含特征

且不属于类别

，记为D；

特征t与类别c的CHI统计量计算公式为：

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix}

步骤2.2：计算倒转类别频率ICF；

其中M是文本集C中类别的总数，m_t是C中出现特征t的类别的数目；

{ECF}_{t, C} = In \frac{M}{m_{t}} + 1

步骤2.3：进行改进的卡方统计量计算,方法如下：

χ^{2} (t, c) = {\begin{matrix} \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)} \times {ICF}_{t, C} \times \frac{{TC}_{i}}{T \overset{&OverBar;}{C_{i}}}, AD - BC > 0 \\ 0, AD - BC \leq 0 \end{matrix}

的比值衡量了特征与类别的相关度，其值越大说明特征t与正类的相关度越大；

步骤3：特征词权重计算

对每个文本中的特征词进行权重计算

步骤3.1：计算λ因子，方法如下：

λ (t, c_{i}) = \frac{DF (t, c_{i})}{D (c_{i})}

步骤3.2：计算TF-IDF*λIG数值，方法如下：

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}}) * λIG]}^{2}}}

步骤3.3：计算TF-IDF*λCHI，方法如下：

w (t_{i}, d_{j}) = \frac{{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * λCHI}{\sqrt{\underset{i &Element; d_{j}}{Σ} {[{tf}_{ij} * \log (\frac{N}{n_{i}} + L) * CHI]}^{2}}}

步骤4：分类结果输出。