CN102567308A

CN102567308A - 一种信息处理特征提取方法

Info

Publication number: CN102567308A
Application number: CN2011104310713A
Authority: CN
Inventors: 赵孟德
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2012-07-11

Abstract

本发明提出一种信息处理特征提取方法，包括下列步骤：建立包含所有原始特征项的特征项集合；对于每个类别，计算所有特征项和该类别的权重；对于每个类别，从大到小排序所述计算得到的特征项的权重，并提取前K个特征项；合并所有类提取到的特征项，统一特征空间。本发明提出的信息处理特征提取的算法，并且实现一种采用词频空间特征提取的方法。在选择特征提取算法时，对算法的时间、空间复杂度和特征提取效果进行了综合的考虑，设计并实现了一种简单易行的特征提取算法。

Description

一种信息处理特征提取方法

技术领域

本发明涉及信息处理算法领域，且特别涉及一种信息处理特征提取方法。

背景技术

文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据，要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量，但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维，那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销，使整个处理过程的效率非常低下，而且会损害分类、聚类算法的精确性，从而使所得到的结果很难令人满意。因此，必须对文本向量做进一步净化处理，在保证原文含义的基础上，找出对文本特征类别最具代表性的文本特征。为了解决这个问题，最有效的办法就是通过特征选择来降维。

目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性：1)特征项要能够确实标识文本内容；2)特征项具有将目标文本与其他文本相区分的能力；3)特征项的个数不能太多；4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类***都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词，这就是特征抽取(Feature Selection)。

现有的特征选取的方式有4种：(I)用映射或变换的方法把原始特征变换为较少的新特征；(2)从原始特征中挑选出一些最具代表性的特征；(3)根据专家的知识挑选最有影响的特征；(4)用数学的方法进行选取，找出最具分类信息的特征，这种方法是一种比较精确的方法，人为因素的干扰较少，尤其适合于文本自动分类挖掘***的应用。

词频空间特征提取方法，这类型算法通过构造评估函数，对特征集合中的每个特征进行评估，并对每个特征打分，这样每个词语都获得一个评估值，又称为权值。然后将所有特征按权值大小排序，提取预定数目的最优特征作为提取结果的特征子集。显然，对于这类型算法，决定文本特征提取效果的主要因素是评估函数的质量。

1、TF-IDF：

单词权重最为有效的实现方法就是TF*IDF，它是由Salton在1988年提出的。其中TF称为词频，用于计算该词描述文档内容的能力；IDF称为反文档频率，用于计算该词区分文档的能力。TF*IDF的指导思想建立在这样一条基本假设之上：在一个文本中出现很多次的单词，在另一个同类文本中出现次数也会很多，反之亦然。所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力，TF*IDF法认为一个单词出现的文本频率越小，它区别不同类别的能力就越大，所以引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度。

TFIDF法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重，即其中，Wi表示第i个特征词的权重，TFi(t，d)表示词t在文档d中的出现频率，N表示总的文档数，DF(t)表示包含t的文档数。用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高，同时在其他文档中出现的次数越少，则表明该词对于表示这篇文档的区分能力越强，所以其权重值就应该越大。将所有词的权值排序，根据需要可以有两种选择方式：(1)选择权值最大的某一固定数n个关键词；(2)选择权值大于某一阈值的关键词。一些实验表示，人工选择关键词，4～7个比较合适，机选关键词10～15通常具有最好的覆盖度和专指度。

TFIDF算法是建立在这样一个假设之上的：对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力，TFIDF法认为一个单词出现的文本频数越小，它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，调整权值的目的在于突出重要单词，抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频数小的单词就越重要，文本频数大的单词就越无用，显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TFIDF法的精度并不是很高。

此外，在TFIDF算法中并没有体现出单词的位置信息，对于Web文档而言，权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同，其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果。

2、互信息(MutualInformation)：

互信息衡量的是某个词和类别之间的统计独立关系，某个词t和某个类别Ci传统的互信息定义如下：

互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉嫡近似。互信息本来是信息论中的一个概念，用于表示信息之间的关系，是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设：在某个特定类别出现频率高，但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度，如果特征词属于该类的话，它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设，因此非常适合于文本分类的特征和类别的配准工作。

特征项和类别的互信息体现了特征项与类别的相关程度，是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率，这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲，特征t的互信息越大，说明它与该主题的共现概率越大，因此，以互信息作为提取特征的评价时应选互信息最大的若干个特征。

互信息计算的时间复杂度类似于信息增益，互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。

实验数据显示，互信息分类效果最差，其次是文档频率、CC统计，CHI统计分类效果最好。

对互信息而言，提高分类精度的方法有：1)可以增加特征空间的维数，以提取足够多的特征信息，这样就会带来了时间和空间上的额外开销；2)根据互信息函数的定义，认为这些低频词携带着较为强烈的类别信息，从而对它们有不同程度的倚重.当训练语料库没有达到一定规模的时候，特征空间中必然会存在大量的出现文档频率很低(比如低于3次)的词条，他们较低的文档频率导致了他们必然只属于少数类别.但是从抽取出来的特征词观察发现，大多数为生僻词，很少一部分确实带有较强的类别信息，多数词携带少量的类别信息，甚至是噪音词.

3、期望交叉熵(ExpectedCrossEntropy)：

交叉嫡，也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离，词汇w的交叉嫡越大，对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况，只计算出现在文本中的特征项。如果特征项和类别强相关，P(Ci|w)就大，若P(Ci)又很小的话，则说明该特征对分类的影响大。

交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离，特征词t的交叉熵越大，对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。

4、二次信息熵(QEMI)：

将二次熵函数应用于互信息评估方法中，取代互信息中的Shannon熵，就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性，是一个确定的量，因此可以作为信息的整体测度，另外它还比互信息最大化的计算复杂度要小，所以可以比较高效地用在基于分类的特征选取上。

5、信息增益方法(InformationGain)：

信息增益方法是机器学习的常用方法，在过滤问题中用于度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征，以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。信息增益是一种基于熵的评估方法，涉及较多的数学理论和复杂的熵理论公式，定义为某特征项为整个分类所能提供的信息量，不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据，计算出各个特征项的信息增益，删除信息增益很小的项，其余的按照信息增益从大到小排序。

信息增益是信息论中的一个重要概念，它表示了某一个特征项的存在与否对类别预测的影响，定义为考虑某一特征项在文本中出现前后的信息熵之差。某个特征项的信息增益值越大，贡献越大，对分类也越重要。信息增益方法的不足之处在于它考虑了特征未发生的情况。特别是在类分布和特征值分布高度不平衡的情况下，绝大多数类都是负类，绝大多数特征都不出现。此时的函数值由不出现的特征决定，因此，信息增益的效果就会大大降低。信息增益表现出的分类性能偏低。因为信息增益考虑了文本特征未发生的情况，虽然特征不出现的情况肿可能对文本类别具有贡献，但这种贡献往往小于考虑这种情况时对特征分值带来的干扰。

上述几种评价函数都是试图通过概率找出特征与主题类之间的联系，信息增益的定义过于复杂，因此应用较多的是交叉嫡和互信息。其中互信息的效果要好于交又嫡，这是因为互信息是对不同的主题类分别抽取特征词，而交叉嫡跟特征在全部主题类内的分布有关，是对全部主题类来抽取特征词。这些方法，在英文特征提取方面都有各自的优势，但用于中文文本，并没有很高的效率。主要有2个方面的原因：1)特征提取的计算量太大，特征提取效率太低，而特征提取的效率直接影响到整个文本分类***的效率。2)经过特征提取后生成的特征向量维数太高，而且不能直接计算出特征向量中各个特征词的权重。

发明内容

本发明提出一种信息处理特征提取的算法，并且实现一种采用词频空间特征提取的方法。在选择特征提取算法时，对算法的时间、空间复杂度和特征提取效果进行了综合的考虑，设计并实现了一种简单易行的特征提取算法。

为了实现上述目的，本发明提出一种信息处理特征提取方法，包括下列步骤：

建立包含所有原始特征项的特征项集合；

对于每个类别，计算所有特征项和该类别的权重；

对于每个类别，从大到小排序所述计算得到的特征项的权重，并提取前K个特征项；

合并所有类提取到的特征项，统一特征空间。

进一步的，所述权重计算步骤采用了以词频法取局部权值，以信息熵法取全局权值。

进一步的，所述权重计算公式为：

a_{ij} = {tf}_{ij} \times (1 - \underset{j}{Σ} \frac{({tf}_{ij} / {gf}_{i}) \log ({tf}_{ij} / {gf}_{i})}{\log (N)}),

其中，tf_ij和gf_i分别表示词i在文档j和整个文档集中出现的频度，N为文档集中的文档总数目。

进一步的，为了消除由于文本长度不一致造成的词出现数量的不一致，给权重评价带来区分度的不一致，对权重a_ij进行归一化处理，计算公式为：

a_{ij} = \frac{a_{ij}}{\sqrt{Σ_{i = 1}^{M} {a_{ij}}^{2}}},

其中a_ij表示第i个词在第j篇文档中的权重，M为词的个数。

进一步的，K的取值采用预设初始值，其范围为1000～10000。

本发明的有益效果为：

(1)改进了基于词频统计的特征提取方法。权重计算公式采用了以词频法取局部权值，以信息熵法取全局权值的方案。这样既保证了原来的非零项仍然为零，又保证了在某一类文档中分布较均匀的特征项取得较高的权重。

(2)设计基于词频统计的特征提取***。通过实验验证了本发明所提方法和算法的正确性和有效性，并对***性能的准确性进行了实验验证，结果证明***可以高效地进行特征提取。

本发明通过以改进后的特征提取算法设计的特征提取***对语料的实际分析，本算法使提取速度大大提高。另外，提取出的关键字也能较准确的表达文本的重点。

附图说明

图1所示为本发明较佳实施例的信息处理特征提取方法流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

本发明通过对词频矩阵中的每个项的出现频率(词频)进行统计，按照词频的大小选出预定数目的特征项构成为特征子集(即关键字)，设计出词频空间特征提取方法。

按照一定的算法选出特征项，可以通过词频或者特征评价函数，此外还需要考虑词条的位置信息，比如文章标题、副标题、关键字表中出现的词条，应全部保留下来。

预处理后，文本的特征向量维数仍然很高，如此高维的特征对于分类未必是有益的，高维的特征会加大分类运算的时间，因此在分类前需要进行特征子集的选取。对于特征项的选取依据就是词频矩阵，选取算法一般是构造一个评价函数，按照评估分的大小进行排序，选取预定数目的最佳特征作为结果的特征子集。本实验通过对词频矩阵中的每个项的出现频率(词频)进行统计，按照词频的大小选出预定数目的特征项构成为特征子集。

本发明主要研究文本特征提取的算法，并且实现一种采用词频空间特征提取的方法。在选择特征提取算法时，本文对算法的时间、空间复杂度和特征提取效果进行了综合的考虑，设计并实现了一种简单易行的特征提取算法。其基本思想是特征项对类Ci的有效性与该特征项在Ci中所占的比重成正比，与该特征项在所有类中所占的比重成反比。

直观上看，特征项在某一类的训练样本中出现的次数越多，它就越能代表该类，在分类过程中贡献就越大，同样，如果特征项在所有类的训练样本中出现的次数越多，它就越不具有代个性，在类别区分上贡献就越小。

请参考图1，图1所示为本发明较佳实施例的信息处理特征提取方法流程图。本发明提出一种信息处理特征提取方法，包括下列步骤：

步骤S100：建立包含所有原始特征项的特征项集合；

步骤S200：对于每个类别，计算所有特征项和该类别的权重；

步骤S300：对于每个类别，从大到小排序所述计算得到的特征项的权重，并提取前K个特征项；

步骤S400：合并所有类提取到的特征项，统一特征空间。

根据本发明较佳实施例，权重计算公式采用了以词频法取局部权值，以信息熵法取全局权值的方案。这样既保证了原来的非零项仍然为零，又保证了在某一类文档中分布较均匀的特征项取得较高的权重。计算公式如下：

a_{ij} = {tf}_{ij} \times (1 - \underset{j}{Σ} \frac{({tf}_{ij} / {gf}_{i}) \log ({tf}_{ij} / {gf}_{i})}{\log (N)}) - - - (1 - 1)

其中，tf_ij和gf_i分别表示词i在文档j和整个文档集中出现的频度；N为文档集中的文档总数目。

为了消除由于文本长度不一致造成的词出现数量的不一致，给权重评价带来区分度的不一致，作者对权重a_ij。进行了归一化处理，计算公式为：

a_{ij} = \frac{a_{ij}}{\sqrt{Σ_{i = 1}^{M} {a_{ij}}^{2}}} - - - (1 - 2)

其中a_ij表示第i个词在第j篇文档中的权重，M为词的个数。

对于每个类别，从大到小排序上面计算得到的特征项的权重，取前K个特征项，K的取值问题目前没有很好的解决方法，一般采用先定初始值，其范围为1000～10000，然后根据实验测试和统计结果确定最佳值，一般初始值定在几千左右。

以下给出词频统计的C++实现代码：

综上所述，本发明通过以改进后的特征提取算法设计的特征提取***对语料的实际分析，本算法使提取速度大大提高。另外，提取出的关键字也能较准确的表达文本的重点。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种信息处理特征提取方法，其特征在于，包括下列步骤：

建立包含所有原始特征项的特征项集合；

对于每个类别，计算所有特征项和该类别的权重；

合并所有类提取到的特征项，统一特征空间。

2.根据权利要求1所述的信息处理特征提取方法，其特征在于，所述权重计算步骤采用了以词频法取局部权值，以信息熵法取全局权值。

3.根据权利要求1所述的信息处理特征提取方法，其特征在于，所述权重计算公式为：

a_{ij} = {tf}_{ij} \times (1 - \underset{j}{Σ} \frac{({tf}_{ij} / {gf}_{i}) \log ({tf}_{ij} / {gf}_{i})}{\log (N)}),

4.根据权利要求3所述的信息处理特征提取方法，其特征在于，为了消除由于文本长度不一致造成的词出现数量的不一致，给权重评价带来区分度的不一致，对权重a_ij进行归一化处理，计算公式为：

a_{ij} = \frac{a_{ij}}{\sqrt{Σ_{i = 1}^{M} {a_{ij}}^{2}}},

其中a_ij表示第i个词在第j篇文档中的权重，M为词的个数。

5.根据权利要求1所述的信息处理特征提取方法，其特征在于，K的取值采用预设初始值，其范围为1000～10000。