CN102332012B

CN102332012B - 基于类别之间相关性学习的中文文本分类方法

Info

Publication number: CN102332012B
Application number: CN201110268825.8A
Authority: CN
Inventors: 吴娴; 杨兴锋; 张东明; 何崑
Original assignee: NANFANG DAILY GROUP
Current assignee: NANFANG DAILY GROUP
Priority date: 2011-09-13
Filing date: 2011-09-13
Publication date: 2014-10-22
Anticipated expiration: 2031-09-13
Also published as: CN102332012A

Abstract

本发明公开了一种基于类别之间相关性学习的中文文本分类方法，首先对文档进行分词，通过统计词频进行特征粗选择，然后根据词项和类别之间的辨别指数进一步确定具有代表性的词项构成精选择后的特征词项。根据特征词项索引，训练文档采用tfidf权重和辨别指数权重共同表示。接着，分别构建一组对应于不同投影向量的两类分类器，并训练得到表示两两类别之间相关性的码矩阵。最后，将新文档的多向量表示投影到所有两类分类器，引入码矩阵，计算每个类别与文档的相似度，将相似度最大输出作为新文档的类别判定结果。本发明基于类别之间的相关性学习结果进行新文档的分类，在保证分类性能的同时，提升算法的运行效率。

Description

基于类别之间相关性学习的中文文本分类方法

技术领域

本发明属于中文文本分类算法研究领域，特别涉及一种采用词项与类别之间的辨别指数选取特征、基于类别之间相关性学习的中文文本分类方法。

背景技术

随着中国出版业的迅速发展，电子格式的中文文档数量不断攀升。文档分类的工作愈发繁琐，因此，利用先进的机器学习和模式分类方法辅助传统的人工分类变得十分必要。

中文文本分类方法主要有特征选择和分类算法两部分构成。文档集的特征一般采用词袋模型(Bag-of-Words)和文档向量模型(Vector Space Model)的形式表示，其关键区别在于权重的计算方式不同，词袋模型的权重是用概率表示由词生成文档的概率，文档向量模型的权重可以看作是词项频率统计的函数映射。文档的表示必须选取具有代表性的词项作为特征索引。词项的粒度可以选择字、词、短语、概念、N-Gram以及其它规律性模式，根据频率统计选择特征，并对剩余特征项计算不同权重用于文档表示。将文档集中所有文档的表示向量接连起来即可构成文档集的特征表示，但是此类特征表示方法容易遭遇维数灾难，同时也面临着小样本问题。因此，在文本分类中，常采用概念索引(Concept Index)、互信息量(Mutual Information)、信息增益(Information Gain)、交叉熵(Cross Entropy)、CHI统计(CHI Statistics)和几率比(Odds Ratio)等方法来降低特征向量的维数。常用的分类方法有贝叶斯、K近邻、决策树和SVM方法。但是，以上现有的方法效果仍不尽如人意。其原因除了客观上训练样本的不均匀分布和样本文档类别间的复分性之外，更可能的原因有以下：特征选择的硬判决割断了文档连续词项之间的语义关联；文本分类算法中大多忽略了不同类别文档之间的相关性，而类别之间的相关性对于改善文本分类性能有着积极作用。

目前，最新的主流算法主要有以下几种：

(1)Z.Guo等(Z.Guo，L.Lu，S.Xi and F.Sun，An effective dimensionreduction approach to Chinese document classification using genetic algorithm.Lecture Notes in Computer Science，5552/2009：480-489，2008)提出基于遗传算法的中文文档分类方法；

(2)M.Y.Jia等(M.Y.Jia，D.Q.Zheng，B.R.Yang and Q.X.Chen，Hierarchical text categorization based on multiple feature selection and fusion ofmultiple classifiers approaches.International Conference on Fuzzy Systems andKnowledge Discovery,2009)提出基于多特征选择和多分类器的层次文本分类方法；

(3)Cheng等(X.Cheng，S.Tan and L. Tang，Using dragpushing to refineconcept index for text categorization，Journal of Computer Science and Technology，21(4)：592-596，2006)采用Concept Index方法进行文本分类。

以上算法均需采用SVM等方法训练构造分类器，算法运行量大，运行所需时间很长，在实际应用中存在诸多局限。

因此，研究如何在考虑同类别文档之间的相关性的情况下提高分类精确度且同时降低算法复杂度的中文文本分类算法是一个极具实际意义的课题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于类别之间相关性学习的中文文本分类方法。该方法在特征选择环节，分别统计全部词项与类别的辨别指数并将其作为权重筛选特征词项，同时在一对多分类框架下，计算出不同类别文档之间的相关性矩阵，对于新文本的分类精确度提高，同时计算复杂度降低，运行所需时间减少，具有很好的应用前景。

本发明的目的通过以下的技术方案实现：基于类别之间相关性学习的中文文本分类方法，具体包括以下步骤：

(1)训练过程：

(1-1)特征选择：对于所有的中文词项，存在一本标准词典，词典中包含完备的词项集合，词项集合的全部词项依据拼音音序的先后顺序构成词项索引。特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项，同样依据拼音音序构成特征索引。具体过程是：读入所有的训练文档，对文档进行分词。将训练文档分词后，根据标准词典中的词项索引顺序依次统计出每个词项的词频。挑选出训练文档中出现频繁的词项，构成粗选择后的特征子集，根据粗选择特征子集中各个词项与类别之间有关概率的指数，进一步确定精选择后的代表性词项，所有类别中的代表性词项构成特征集合，并且根据拼音音序构成特征索引；

(1-2)训练文档的表示：将每一个训练文档用一个向量表示，向量的维数即特征选择后词项索引大小，向量中的每一个元素由tfidf(termfrequency-inverse document frequency，词频-逆向文本频率)权重和辨别指数权重的乘积构成，tfidf是文档中词项的词频和类别中词项的文频的统计表示，辨别指数权重是根据步骤(1-1)所述的有关频率的指数所做的一个平滑函数，值在0-1之间；

(1-3)训练文档类别之间的相关性学习：首先将多类之间的文本分类问题分解为多个两类文本分类问题，即对于某一类别c_k，将属于类别c_k的训练样本作为正样本，不属于类别c_k的训练样本作为负样本，然后采用脊回归方法训练两类分类器；对所有类别文档分别训练即得到一组两类分类器，同时计算类别之间的相关性构成已知样本训练码矩阵CM，其中码矩阵的第k行第k′列表示类别c_k和c_k′之间的相关性；

(2)新文档的类别判定过程：

(2-1)新文档的表示：假设语料中的文档分为K个类别，对于一个新文档，它的类别未知，将其投影到所有的K个类别，并对应于步骤(1-1)提取的特征词项按拼音音序构成的特征词项索引，将新文档用矩阵形式表示，矩阵的行表示所有可能K个类别的索引，矩阵的列代表特征词项索引，元素值采用步骤(1-2)所述训练文档中值的计算方法表示；

(2-2)新文档的类别判定：将步骤(2-1)中得到的表示新文档的矩阵投影到步骤(1-3)所得到的那组两类分类器中，并根据已知样本训练码矩阵CM计算新文档属于每个类别的相似度，将相似度最大的类别赋予新文档，作为其判定类别。

所述步骤(1-1)具体包括以下步骤：

(1-1-1)特征粗选择：读入全部训练文档，对于词项t_j，将出现t_j的文档数量除以训练集合中所有文档数量得到t_j在整个训练集合中的相对文频Total-Rel-DF_j，当Total-Rel-DF_j大于阈值α，则说明t_j在全部文档中出现频繁，将t_j归入集合Term₁；然后对于已知类别的某一类c_k，将该类中包含t_j的文档个数除以该类总的文档数量得到t_j在该类中的相对文频Class-Rel-DF_jk，当Class-Rel-DF_jk大于阈值β，则说明t_j在该类中出现频繁，将t_j归入集合Term₂；取Term₁和Term₂的交集，即得到特征粗选择后的词项子集：Term′＝{Term₁，Term₂}；

(1-1-2)特征精选择：设t是步骤(1-1-1)得到的特征粗选择后词项子集Term′中的一个候选词项，对于一个已知的类别g，计算t与g之间的辨别指数W(t，g)，W(t，g)的计算公式如下：

W (t, g) = \frac{P (t &Element; g)}{\max_{c_{k} &NotEqual; g} P (t &Element; c_{k})}

其中：P(t∈g)表示词项t在类别g中的发生概率，表示词项t在除类别g之外的其他所有类别中发生概率的最大值，P(t∈g)由以下公式表示：

P (t &Element; g) = \frac{tf (t &Element; g) + 1}{Σ_{t^{'}} tf (t^{'} &Element; g) + 1}

其中tf(t∈g)表示词项t出现在属于类别g的文档中的频率，词项t′∈Term′且t′≠t，∑_t′tf(t′∈g)表示所有词项t′出现在属于类别g的文档中的频率的总和；

同样，由以下公式表示：

\max P (t &Element; c_{k}) = \max \frac{tf (t &Element; c_{k}) + 1}{Σ_{t^{'}} tf (t^{'} &Element; c_{k}) + 1}, c_{k} &NotEqual; g

若得到的W(t，g)大于阈值γ，则判定在g类中词项t是代表性词项，记录该词项，按照上述方法，从所有类别中提取代表性词项，最终构成特征集合。

为了排除不可能作为特征的词项，节省计算时间，所述步骤(1-1)中的阈值α、β、γ以最终选出完全词项集合中10％-20％的词项为确定标准，从而通过阈值α、β控制特征粗选择后的输出词项数目，通过阈值γ控制特征精选择后的输出词项数目。

所述步骤(1-1-2)中辨别指数的有效阈值范围在0.6-0.9之间，阈值选择需以分类性能做一个参照，取最高分类性能的对应阈值控制输出特征词项的数目。

所述步骤(1-2)中训练文档的表示方法具体如下：设所有训练文档共有K个类别，每个类别c_k对应有N_k个文档(1≤k≤K)，则类别c_k中的第i(1≤i≤N_k)个文档D_k，i用以下方式表示：

D_k，i=<d_k，i，1，d_k，i，2，...，d_k，i，n>

其中：n表示特征索引的大小，即是步骤(1-1-2)中得到的代表性词项的个数；d_k，i，j由以下公式表示：

d_k，i，j=tfidf(t_j，D_k，i)·F(W(t_j，g(D_k，i)))

其中：

tfidf (t_{j}, D_{k, i}) = tf (t_{j}, D_{k, i}) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})});

F (W (\cdot)) = \frac{1}{1 + \frac{1}{W (\cdot) - ζ}} = \frac{W (\cdot) - ζ}{W (\cdot) - ζ + 1};

tf(t_j，D_k，i)为词项t_j在文档D_k，i中出现的次数，df(t_j，c_k)是在类别为c_k的文档集合中至少出现过一次词频t_j的文档个数；F(W(·))是一个平滑函数，用于将词项权重分布转换到0与1之间的固定区间，其中W(·)为步骤(1-1-2)所得到的辨别指数，ζ是一个小于等于0.1的常数，用于控制辨别指数高低的比例。

所述步骤(1-3)具体方法如下：

(1-3-1)对于某一类别c_k，将属于类别c_k的训练文档作为正样本，类别标记记为1，反之作为负样本，类别标记记为-1，根据步骤(1-2)所得到的表示每个训练文档的向量，将所有的训练文档接连起来构成矩阵X，而对应的转变后的类别标记可以构成向量y；

(1-3-2)每一类中最佳投影采用脊回归方法求得：

{\tilde{p}}_{k} = \arg \min_{p_{k}} {| | y - p_{k}^{T} X | |}^{2} + θ {| | p_{k} | |}^{2}

其中θ是一个正数，用于控制p_k的估计方差，可在实验中具体调整。以上最小化问题中，p_k表示每个类别的投影向量，是通过问题求解后获得的p_k的最佳形式。对上式求导使结果为0可得最佳投影为：其中I表示全1的矩阵。

(1-3-3)设全部训练文档共有K个类别，构造码矩阵CM记录它们之间的相关性学习结果，具体如下：根据上述步骤，K个类别可得到一组投影向量假设属于类别c_k的有N_k个训练样本x_l，其中1≤l≤N_k，则类别c_k和类别c_k′之间的相关性即码矩阵中的元素CM_kk′计算如下：

{CM}_{{kk}^{'}} = \frac{1}{N_{k}} Σ_{l = 1}^{N_{k}} sgn (< {\tilde{p}}_{k^{'}}, x_{l} >)

其中是对应于类别c_k′两类分类器的投影向量，<·，·>表示两个向量的内积运算，函数sgn是返回整型变量，如果大于0则返回1；否则返回0；将所有的元素CM_kk′(1≤k≤K，1≤k′≤K)堆叠起来即构造出表示类别之间相关性的码矩阵。

所述步骤(2-1)新文档的表示方法具体如下：对于给定新文档A，在类别未知的前提下，对应于某可能类别c_k，新文档表示如下：

A_k=<a_k，1，a_k，2，...，a_k，n>

其中，n是步骤(1-2)中特征词项索引的大小，对应于所有可能的类别1≤k≤K，新文档被表示成为K×n大小的矩阵，其中第k行的第j个元素a_k，j的值由以下公式计算：

a_{k, j} = tfidf (t_{j}, A) \cdot F (W (t_{j}, c_{k}))

(t_{j}, A) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})}) F (W (t_{j}, c_{k}))

其中各项的含义和计算同步骤(1-2)，每个元素均计算完成后即得到新文档A相对于该类的矩阵表示。

所述步骤(2-2)中新文档类别判定的算法具体如下：根据步骤(2-1)，新文档A表示为A={A₁，A₂，...，A_K}，给定一组投影向量和码矩阵CM，新文档的表示和判定通过以下步骤实现：

(2-2-1)将新文档中的K个向量表示分别投影于对应的两类分类器，得到变换向量集合Q={Q₁，Q₂，...，Q_k，...，Q_K}，其中，对于类别c_k有：

Q_{k} = sgn (< A_{k}, {\tilde{p}}_{k} >);

(2-2-2)计算新文档A属于类别c_k的相似度，如下：

ρ (A, c_{k}) = Σ_{k^{'} = 1}^{K} {CM}_{{kk}^{'}} Q_{k^{'}}

其中CM_kk′表示类别c_k和类别c_k′之间的相关性，Q_k′表示新文档A对应的第c_k′个向量表示A_k′投影到第c_k′个两类分类器的输出；

(2-2-3)根据步骤(2-2-2)分别计算新文档与每个类别c_k的相似度，将相似度最大的类别作为新文档的最后判定类别，如下：

category (A) = \arg \max_{c_{k}} ρ (A, c_{k}) .

本发明与现有技术相比，具有如下优点和有益效果：

1、传统的文本分类方法是对文档进行分词并统计各词项的文频和词频等，根据阈值硬判决选定特征词项，因此，阈值的选定将对特征词项的构成有决定性的影响，阈值选择不当容易导致特征词项集合的错选和漏选。

本发明提出的方法将传统方法中的文频和词频统计作为特征选择的粗阶段，减小阈值选定所带来的影响，通过计算词项与类别之间的辨别指数进一步筛选出代表性词项构成特征词项集合。辨别指数以在某类别文档中该词项出现概率与其它词项的比值作为统计对象，比值较高代表该词项与此类别的依赖性强，将其作为特征选择标准，比传统方法得到更具辨别性的特征词项集合。

2、文本分类方法属于多类分类问题，传统的解决方案是构造多层次分类器进行分类，但由于中文文本的不同类别之间很可能存在着某种意义上的相关性，甚至有着复分的可能，因此忽略类别之间的这种相关性会导致分类精度的下降。

本发明将多类的文本分类问题分解为多个两类文本分类问题，并计算不同类别之间的相关性构成相似码矩阵，基于不同类别之间的相关性计算结果将两类文本分类组合起来，解决多类文本分类下的新文档的类别判定问题。基于类别之间相关性的文本分类相比多层次分类方法，能够提升分类性能，减少类别之间的错检。

3、传统的分类算法在训练分类模型中往往需要调整多个参数，模型训练也可能出现过拟合或欠拟合的问题。而在本发明中仅依据两类分类器的训练和相关性学习结果，从而构造简单的判决函数，通过向量之间的乘法和最大值判断即可判定新文档所属类别，避免分类模型中的复杂问题，同时大幅度地缩短了运算时间。

附图说明

图1是本发明方法的算法流程图；

图2是实施例1中特征粗选择时训练集合中相对文频的阈值α的选择示意图；

图3是实施例1中特征粗选择时类别文档中相对文频的阈值β的选择示意图；

图4是实施例1中特征精选择中辨别指数的阈值γ的选择示意图；

图5是阈值γ与分类性能之间关系的示意图；

图6是表示类别之间相关性的码矩阵的示意图；

图7是TanCorp数据库中第一层次12类文本分类结果的表格示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，基于类别之间相关性学习的中文文本分类方法，具体包括以下步骤：

(1)训练过程：

(1-1)特征选择：对于所有的中文词项，存在一本标准词典，词典中包含完备的词项集合，词项集合的全部词项依据拼音音序的先后顺序构成词项索引。特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项，同样依据拼音音序构成特征索引。具体过程是：读入所有的训练文档，对文档进行分词。将训练文档分词后，根据词典中的词项索引顺序依次统计出每个词项的词频。挑选出训练文档中出现频繁的词项，构成粗选择后的特征子集，根据粗选择特征子集中各个词项与类别之间有关概率的指数，进一步确定精选择后的代表性词项，所有类别中的代表性词项构成特征集合，并且根据拼音音序构成特征索引；

(1-2)训练文档的表示：将每一个训练文档用一个向量表示，向量的维数即特征选择后词项索引大小，向量中的每一个元素由tfidf权重和辨别指数权重的乘积构成，tfidf是文档中词项的词频和类别中词项的文频的统计表示，辨别指数权重是根据步骤(1-1)所述的有关频率的指数所做的一个平滑函数，值在0-1之间；

(2)新文档的类别判定过程：

(2-1)新文档的表示：假设语料中的文档分为K个类别，对于一个新文档，它的类别未知，可以将其投影到所有可能的K个类别，并对应于步骤(1-2)提取的特征词项按拼音音序构成的特征词项索引，，将新文档用矩阵形式表示，矩阵的行表示所有K个可能类别的索引，矩阵的列代表特征词项索引，元素值采用步骤(1-2)所述训练文档中值的计算方法表示；

所述步骤(1-1)具体包括以下步骤：

(1-1-1)特征粗选择：读入全部训练文档，对于词项t_j，将出现t_j的文档数量除以训练集合中所有文档数量得到t_j在整个训练集合中的相对文频Total-Rel-DF_j，当Total-Rel-DF_j大于阈值α，则说明t_j在全部文档中出现频繁，将t_j归入集合Term₁；然后对于已知类别的某一类c_k，将该类中包含t_j的文档个数除以该类总的文档数量得到t_j在该类中的相对文频Class-Rel-DF_jk，当Class-Rel-DF_jk大于阈值β，则说明t_j在该类中出现频繁，将t_j归入集合Term₂；取Term₁和Term₂的交集，即得到特征粗选择后的词项子集：Term′{Term₁，Term₂}.

本实施例中文档集合分词后得到的词项总数是72641，根据图2和图3所示，为了包括尽可能多的特征词项，根据阈值与筛选词项数量的比例关系，我们选择α＝0.01、β＝0.1，筛选后得到词项个数为9868，特征粗选择的目的是排除不可能作为特征的词项，对计算效率的贡献大于计算性能。

W (t, g) = \frac{P (t &Element; g)}{\max_{c_{k} &NotEqual; g} P (t &Element; c_{k})}

P (t &Element; g) = \frac{tf (t &Element; g) + 1}{Σ_{t^{'}} tf (t^{'} &Element; g) + 1}

同样，由以下公式表示：

\max P (t &Element; c_{k}) = \max \frac{tf (t &Element; c_{k}) + 1}{Σ_{t^{'}} tf (t^{'} &Element; c_{k}) + 1}, c_{k} &NotEqual; g

若得到的W(t，g)大于阈值γ，则判定在g类中词项t是代表性词项，记录该词项，按照上述方法，从所有类别中提取代表性词项，最终构成特征集合。如图4所示，辨别指数的有效阈值范围在0.6-0.9之间，阈值选择需以分类性能做一个参照，取最高分类性能的对应阈值控制输出特征词项的数目，一般对应于完备词项集合中10％-20％的词项数目。为找到最高分类性能所对应的阈值，在阈值范围内每隔0.05对阈值大小和分类性能之间的关系做了一个统计，如图5，γ＝0.85时能够覆盖89.76％的正确分类率，将其作为阈值从所有类别中采集代表性词项最终构成特征集合，特征集合中共包含1177项特征词项。

D_k，i＝<d_k，i，1，d_k，i，2，…，d_k，i，n>

其中：n表示特征索引的大小；d_k，i，j由以下公式表示：

d_k，i，j＝tfidf(t_j，D_k，i)·F(W(t_j，g(D_k，i)))

其中：

tfidf (t_{j}, D_{k, i}) = tf (t_{j}, D_{k, i}) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})});

F (W (\cdot)) = \frac{1}{1 + \frac{1}{W (\cdot) - ζ}} = \frac{W (\cdot) - ζ}{W (\cdot) - ζ + 1};

tf(t_j，D_k，i)为词项t_j在文档D_k，i中出现的次数，df(t_j，c_k)是在类别为c_k的文档集合中至少出现过一次词频t_j的文档个数；F(W(·))是一个平滑函数，用于将词项权重分布转换到0与1之间的固定区间，其中W(·)为步骤(1-1-2)所得到的辨别指数，ζ是一个很小的常数，范围小于等于0.1，用于控制辨别指数高低的比例，实例中可取ζ=0.1。

所述步骤(1-3)具体方法如下：

(1-3-1)文本分类是一个典型的多类分类问题，c_k∈C，1≤k≤K，假设有K个需要分类的类别，可以将其分解为K个一对多的两类分类问题。对于某一类别c_k，将属于类别c_k的训练文档作为正样本，类别标记记为1，反之作为负样本，类别标记记为-1，假定每个训练文档均可以使用步骤(1-2)所述的向量表示，则所有的训练文档可以接连起来构成矩阵X，而对应的转变后的类别标记也可以根据训练文档的顺序构成向量y。

(1-3-2)对于类别c_k，给定文档矩阵X和类别向量y，每一类中最佳投影采用脊回归方法求得：

{\tilde{p}}_{k} = \arg \min_{p_{k}} {| | y - p_{k}^{T} X | |}^{2} + θ {| | p_{k} | |}^{2}

其中θ是一个经验确定的正数，用于控制p_k的估计方差，在本实例中θ=0.02。对上式求导使结果为0可得p_k的最佳形式：其中I表示全1的矩阵。

{CM}_{{kk}^{'}} = \frac{1}{N_{k}} Σ_{l = 1}^{N_{k}} sgn (< {\tilde{p}}_{k^{'}}, x_{l} >)

其中是对应于类别c_k′两类分类器的投影向量，<·，·>表示两个向量的内积运算，函数sgn是返回整型变量，如果大于0则返回1；否则返回0；将所有的元素CM_kk′(1≤k≤K，1≤k′≤K)堆叠起来即构造出表示类别之间相关性的码矩阵，码矩阵的图像示意图如图6所示。

A_k=<a_k,1，a_k，2，...，a_k，n>

其中，n是步骤(1-2)中特征词项索引的大小，对应于所有可能的类别1≤k≤K，新文档被表示成为K×n大小的矩阵，其中第k行的第j个元素a_k，j的值可以由tfidf权重和辨别指数权重的乘积构成：

a_{k, j} = tfidf (t_{j}, A) \cdot F (W (t_{j}, c_{k}))

= tf (t_{j}, A) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})}) \cdot F (W (t_{j}, c_{k}))

新文档A可以根据特征词项索引统计词频tf(t_j，A)，而上式中的最后两项可以由步骤(1-2)计算得到，从而可以得到每个元素的计算值，形成新文档A的矩阵表示。

Q_{k} = sgn (< A_{k}, {\tilde{p}}_{k} >);

(2-2-2)计算新文档A属于类别c_k的相似度，如下：

ρ (A, c_{k}) = Σ_{k^{'} = 1}^{K} {CM}_{{kk}^{'}} Q_{k^{'}}

其中CM_kk′表示类别c_k和类别c_k′之间的相关性，Q_k′，表示新文档A对应的第c_k′个向量表示A_k′投影到第c_k′个两类分类器的输出；

category (A) = \arg \max_{c_{k}} ρ (A, c_{k}) .

当输入一个新文档，首先根据(5-1)得到其K个向量表示，并且投影到对应的K个两类分类器，引入类别之间的相关性学习结果——码矩阵，计算每个类别与文档的相似度，将最大相似度输出作为新文档的类别判定结果。

图7给出了本发明在中文语料库TanCorp-12中的实验结果。TanCorp共收集文本14150篇，第一层有12个类别，含人才、体育、卫生、地域、娱乐、房产、教育、汽车、电脑、科技、艺术、财经。实验将语料大致平分为三份，两份用于训练，一份用于测试，取三次交叉验证的平均值作为最后统计。表格中对角元素分别表示12个类别的正确分类率，而其它元素则表示一类错分为另一类的结果统计。科技、艺术和地域的正确分类率相对较低，是由语料库中“类别不平衡”的训练样本造成。

在TanCorp-12语料库中，本发明获得MicroF₁＝94.60％和MacroF₁＝83.29％的最终结果统计。其中，微平均MicroF₁是合并所有的分类结果由此统计基于文本的均值，宏平均MacroF₁是分别对每类的分类结果进行度量由此统计基于类别的均值。Z.Guo等提出基于遗传算法的中文文档分类方法，最高的识别性能是90.50％；M.Y.Jia等提出基于多特征选择和多分类器的层次文本分类方法，最高的分类性能是MicroF₁＝86.80％和MacroF₁＝80.30％；Cheng等采用Concept Index方法进行文本分类，获得MicroF₁＝93.89％和MacroF₁＝90.58％。以上算法均需采用SVM等方法训练构造分类器，算法运行量大。与已有方法相比，基于类别之间相关性学习的中文文本分类精确度相当，但计算复杂度大幅度降低，运行所需时间少，具有很好的应用前景。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于类别之间相关性学习的中文文本分类方法，其特征在于，具体包括以下步骤：

(1)训练过程：

(1-1)特征选择：对于所有的中文词项，存在一本标准词典，词典中包含完备的词项集合，词项集合的全部词项依据拼音音序的先后顺序构成词项索引，特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项，同样依据拼音音序构成特征索引，具体过程是：读入所有的训练文档，对文档进行分词，将训练文档分词后，根据标准词典中的词项索引顺序依次统计出每个词项的词频；挑选出训练文档中出现频繁的词项，构成粗选择后的特征子集，根据粗选择特征子集中各个词项与类别之间有关概率的指数，进一步确定精选择后的代表性词项，所有类别中的代表性词项构成特征集合，并且根据拼音音序构成特征索引；

(1-2)训练文档的表示：将每一个训练文档用一个向量表示，向量的维数即特征选择后词项索引大小，向量中的每一个元素由tfidf权重和辨别指数权重的乘积构成，tfidf是文档中词项的词频和类别中词项的文频的统计表示，tfidf权重是指词频-逆向文本频率权重，辨别指数权重是根据步骤(1-1)所述的有关概率的指数所做的一个平滑函数，向量中每一个元素的值在0-1之间；

(1-3)训练文档类别之间的相关性学习：首先将多类之间的文本分类问题分解为多个两类文本分类问题，即对于某一类别c_k，将属于类别c_k的训练样本作为正样本，不属于类别c_k的训练样本作为负样本，然后采用脊回归方法训练两类分类器；对所有类别文档分别训练即得到一组两类分类器，同时计算类别之间的相关性构成已知样本训练码矩阵CM，其中码矩阵的第k行第k'列表示类别c_k和c_k'之间的相关性；

(2)新文档的类别判定过程：

(2-1)新文档的表示：假设语料中的文档分为K个类别，对于一个新文档，它的类别未知，将其投影到所有的K个类别，并对应于步骤(1-1)提取的特征词项按拼音音序构成的特征索引，将新文档用矩阵形式表示，矩阵的行表示所有可能K个类别的索引，矩阵的列代表特征索引，元素值采用步骤(1-2)所述训练文档中值的计算方法表示；

2.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1)具体包括以下步骤：

(1-1-1)特征粗选择：读入全部训练文档，对于词项t_j，将出现t_j的文档数量除以训练集合中所有文档数量得到t_j在整个训练集合中的相对文频Total-Rel-DF_j，当Total-Rel-DF_j大于阈值α，则将t_j归入集合Term₁；然后对于已知类别的某一类c_k，将该类中包含t_j的文档个数除以该类总的文档数量得到t_j在该类中的相对文频Class-Rel-DF_jk，当Class-Rel-DF_jk大于阈值β，则将t_j归入集合Term₂；取Term₁和Term₂的交集，即得到特征粗选择后的特征子集：Term'＝{Term₁,Term₂}；

(1-1-2)特征精选择：设t是步骤(1-1-1)得到的特征粗选择后特征子集Term'中的一个候选词项，对于一个已知的类别g，计算t与g之间的辨别指数W(t,g)，W(t,g)的计算公式如下：

W (t, g) = \frac{P (t &Element; g)}{\max_{c_{k} &NotEqual; g} P (t &Element; c_{k})}

P (t &Element; g) = \frac{tf (t &Element; g) + 1}{Σ_{t^{'}} tf (t^{'} &Element; g) + 1}

其中tf(t∈g)表示词项t出现在属于类别g的文档中的频率，词项t'∈Term'且t'≠t，∑_t'tf(t'∈g)表示所有词项t'出现在属于类别g的文档中的频率的总和；

同样，由以下公式表示：

\max P (t &Element; c_{k}) = \max \frac{tf (t &Element; c_{k}) + 1}{Σ_{t^{'}} tf (t^{'} &Element; c_{k}) + 1}, c_{k} &NotEqual; g

若得到的W(t,g)大于阈值γ，则判定在g类中词项t是代表性词项，记录该词项，按照上述方法，从所有类别中提取代表性词项，最终构成特征集合。

3.根据权利要求2所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1)中的阈值α、β、γ以最终选出完全词项集合中10％-20％数量的词项为确定标准。

4.根据权利要求2所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-1-2)中辨别指数的有效阈值范围在0.6-0.9之间，阈值选择需以分类性能做一个参照，取最高分类性能的对应阈值控制输出特征词项的数目。

5.根据权利要求2所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-2)中训练文档的表示方法具体如下：设所有训练文档共有K个类别，每个类别c_k对应有N_k个文档(1≤k≤K)，则类别c_k中的第i(1≤i≤N_k)个文档D_k,i用以下方式表示：

D_k,i＝<d_k,i,1,d_k,i,2,...,d_k,i,n>

其中：n表示特征索引的大小，即是步骤(1-1-2)中得到的代表性词项的个数；d_k,i,j由以下公式表示：

d_k,i,j＝tfidf(t_j,D_k,i)·F(W(t_j,g(D_k,i)))

其中：

tfidf (t_{j}, D_{k, i}) = tf (t_{j}, D_{k, i}) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})});

F (w (\cdot)) = \frac{1}{1 + \frac{1}{W (\cdot) - ζ}} = \frac{W (\cdot) - ζ}{W (\cdot) - ζ + 1};

tf(t_j,D_k,i)为词项t_j在文档D_k,i中出现的次数，df(t_j,c_k)是在类别为c_k的文档集合中至少出现过一次词频t_j的文档个数；F(W(·))是一个平滑函数，用于将词项权重分布转换到0与1之间的固定区间，其中W(·)为步骤(1-1-2)所得到的辨别指数，ζ是一个小于等于0.1的常数，用于控制辨别指数高低的比例。

6.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(1-3)具体方法如下：

(1-3-2)每一类中最佳投影采用脊回归方法求得，它的目标函数表达为：

{\tilde{P}}_{k} = \arg \min_{P_{k}} {| | y - p_{k}^{T} X | |}^{2} + θ {| | p_{k} | |}^{2}

其中θ是一个正数，用于控制p_k的估计方差，p_k表示每个类别的投影向量，对上式求导后使结果为0，得到p_k的最佳形式为：其中I表示全1的矩阵；

(1-3-3)设全部训练文档共有K个类别，构造码矩阵CM记录它们之间的相关性学习结果，具体如下：根据上述步骤，K个类别可得到一组投影向量假设属于类别c_k的有N_k个训练样本x_l，其中1≤l≤N_k，则类别c_k和类别c_k'之间的相关性即码矩阵中的元素CM_kk'计算如下：

{CM}_{{kk}^{'}} = \frac{1}{N} Σ_{l = 1}^{N_{k}} sgn (< {\tilde{p}}_{k^{'}}, x_{l} >)

其中是对应于类别c_k'两类分类器的投影向量，<·,·>表示两个向量的内积运算，函数sgn是返回整型变量，如果大于0则返回1；否则返回0；将所有的元素CM_kk'(1≤k≤K，1≤k'≤K)堆叠起来即构造出表示类别之间相关性的码矩阵。

7.根据权利要求5所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(2-1)新文档的表示方法具体如下：对于给定新文档A，在类别未知的前提下，对应于某可能类别c_k，新文档表示如下：

A_k＝<a_k,1,a_k,2,...,a_k,n>

其中，n是步骤(1-2)中的特征索引的大小，对应于所有可能的类别1≤k≤K，新文档表示成为K×n大小的矩阵，其中第k行的第j个元素a_k,j的值由以下公式计算：

\begin{matrix} a_{k, j} = tfidf (t_{j}, A) \cdot F (W (t_{j}, c_{k})) \\ = tf (t_{j}, A) \cdot \log (\frac{N_{k}}{df (t_{j}, c_{k})}) \cdot F (W (t_{j}, c_{k})) \end{matrix}

8.根据权利要求1所述的基于类别之间相关性学习的中文文本分类方法，其特征在于，所述步骤(2-2)中新文档类别判定的算法具体如下：根据步骤(2-1)，新文档A表示为A＝{A₁,A₂,...,A_K}，给定一组投影向量和码矩阵CM，新文档的表示和判定通过以下步骤实现：

(2-2-1)将新文档中的K个向量表示分别投影于对应的两类分类器，得到变换向量集合Q＝{Q₁,Q₂,...,Q_k,...,Q_K}，其中，对于类别c_k有：

Q_{k} = sgn (< A_{k}, {\tilde{p}}_{k} >);

其中，函数sgn是返回整型变量，如果大于0则返回1；否则返回0；

(2-2-2)计算新文档A属于类别c_k的相似度，如下：

ρ (A, c_{k}) = Σ_{k^{'} = 1}^{K} {CM}_{{kk}^{'}} Q_{k^{'}}

其中CM_kk'表示类别c_k和类别c_k'之间的相关性，Q_k'表示新文档A对应的第c_k'个向量表示A_k'投影到第c_k'个两类分类器的输出；

category (A) = \arg \max_{c_{k}} ρ (A, c_{k}) .