CN101021838A

CN101021838A - 文本处理方法和***

Info

Publication number: CN101021838A
Application number: CN 200710080047
Authority: CN
Inventors: 尚明生; 林劼; ***; 邵刚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-03-02
Filing date: 2007-03-02
Publication date: 2007-08-22

Abstract

本发明公开了一种文本处理方法，应用于文本特征提取技术中，该方法包括：在文本训练过程中，基于训练后的模型参数对训练文本进行分类，并删除分类错误的训练文本，使新的训练文本集中只保留分类正确的训练文本，再基于分类正确的训练文本构建新的特征集；基于所述新的训练文本集和新的特征集训练模型参数。本发明还提供了一种文本处理***。本发明中通过在文本训练过程中，训练模型参数后，基于新的模型参数进行分类去除分类错误的训练文本，再基于正确分类的文本训练模型参数，从而降低了噪声文本对训练特征集的影响，提高了训练特征集的可靠性，也提高了文本特征提取的准确度。

Description

文本处理方法和***

技术领域

本发明涉及智能文本信息处理技术领域，特别涉及一种文本处理方法和一种文本处理***。

背景技术

手机短信作为一种广告宣传的方式有很大的潜力和前景，但从目前的情况看，手机短信中的垃圾短信造成了严重的扰民问题。为解决该问题，广告发布者需要采取有效的方法获得广告受众的相关信息，以定向投放有针对性、应变性的***。

为获取广告受众的相关信息，需要从大量的用户短信中挖掘出用户的兴趣点。如何从大量的用户短信中快速而有效地获得用户的兴趣点，是当前所面临的问题，对短信进行文本挖掘正是用来解决这一问题的方法。而短信文本挖掘的好坏直接由短信文本特征提取的效果所决定，短信文本特征提取的可靠性和分类能力越高，短信文本挖掘的效果越好。

现有的短信文本挖掘中，与传统的文档型文本挖掘技术相同，将文本作为无结构的数据，以词条为单位进行处理，所采用的文本特征提取方法包括特征抽取和特征选择两部分。特征抽取主要完成分词、预处理去噪和特征表示；目前的特征表示方法主要有以下三种：布尔模型、概率模型和向量空间模型。特征选择可以采用过滤法、映射法、粗糙集法等；其中过滤法是对特征集中的每个特征进行独立的评估，通过构造的算法对每个特征进行权值调整，然后按权值大小排序，根据权阈值或预定的特征数据，选取最佳特征子集作为特征选择结果；进行权值调整的算法包括：互信息、期望交叉熵和信息增益等。

上述现有技术中，在传统文本特征提取方法中，训练文档集中的每篇文档与相对应的类别多具有较强的相关性。而对短信文本，在进行训练时，需要大量的短信文本作为训练数据集对模型进行训练，但由于训练文本数量巨大，无法人工对每条训练数据均精确分类，导致训练文本集本身中就包括大量的噪声数据，其可靠性较低，再用传统的特征提取方法依据该训练集提取短信特征，就会造成提取的特征集中包含更多的噪声特征，降低了从训练文本中提取的训练特征集的可靠性，也进一步降低了分类的准确性。

另外，由于短信文本与传统的文档型文本不同，其中常常包括一些变异和不规范的文本，称为奇异词，如：QQ、SG、MM，并且常常出现很多间隔符或使用不同的分隔符，称为奇异符号，因此短信文本掺杂的干扰信息过多，导致在文本特征抽取和特征选择时，提取了大量的错误特征，或称为噪声特征，也进一步降低了从训练文本中提取的训练特征集的可靠性和分类***的分类能力。

发明内容

本发明实施例提供了一种文本处理方法和一种文本处理***，能够提高训练特征集的可靠性。

本发明实施例提供的一种文本处理方法，应用于文本特征提取技术中，该方法包括：

在对文本进行训练过程中，基于训练后的模型参数对训练文本进行分类，并删除分类错误的训练文本，使新的训练文本集中只保留分类正确的训练文本，再基于分类正确的训练文本构建新的特征集；

基于所述新的训练文本集和新的特征集训练模型参数。

本发明提供的一种文本处理***，应用于文本特征提取技术中，该***包括：训练模块、分类模块和存储模块；

所述存储模块用于存储训练文本集、特征集和模型参数；

所述训练模块用于获取所述存储的训练文本集和特征集，基于获取的训练文本集和特征集训练模型参数，并将训练后的模型参数存储至所述存储模块；

所述分类模块用于获取所述存储模块中的模型参数和训练文本集，基于该模型参数对训练文本集中的训练文本进行分类，将分类错误的训练文本从存储模块的训练文本集中删除，基于分类正确的训练文本构建特征集，并将构建的特征集存储到所述存储模块。

本发明实施例中通过在对文本训练的过程中，训练模型参数后，基于新的模型参数进行分类去除分类错误的文本，再基于正确分类的文本训练模型参数，从而降低了噪声文本对训练特征集的影响，提高了训练特征集的可靠性，也提高了文本特征提取的准确度。

附图说明

图1为本发明具体实施例中一种文本处理***的组成示意图；

图2为本发明具体实施例中另一种文本处理***的组成示意图；

图3为本发明具体实施例中又一种文本处理***的组成示意图；

图4为本发明具体实施例中短信文本的训练流程图；

图5为本发明具体实施例中分词处理流程图；

图6为本发明具体实施例中疑错窗口队列示意图；

图7为本发明具体实施例中文本校对流程图；

图8为本发明具体实施例中进行特征选择时所采用的EM算法流程图；

图9为本发明具体实施例中短信文本的分类流程图。

具体实施方式

本发明实施例中，自适应地对文本特征提取过程中提取的特征向量空间进行优化，去除噪声特征，最终得到最优的低维特征空间。

具体地，本发明实施例提供的一种文本处理方法，应用于文本特征提取技术中，该方法包括：

步骤A、在文本训练过程中，基于训练后的模型参数对训练文本进行分类，并删除分类错误的训练文本，使新的训练文本集中只保留分类正确的训练文本，再基于分类正确的训练文本构建新的特征集；本步骤可以在基于训练文本集，和特征表示得到的特征集训练模型参数后执行。

步骤B、基于所述新的训练文本集和新的特征集训练模型参数。

本发明实施例在上述步骤A中基于分类正确的训练文本构建特征集之后，进一步可以包括：根据特征选择算法计算所构建的特征集中每个特征的相关度分数，删除相关度分数小于预先设定的第一门限的特征，然后执行上述步骤B。则通过进一步对步骤A中删除了分类错误训练文本后构建的特征集，基于相关度分数进行特征选择，从而进一步删除了噪声特征，进一步提高了特征选择的准确性，也进一步提高了训练特征集的可靠性。上述第一门限的取值范围可以为0.4-1。

上述特征选择算法可以为监督型特征选择算法(IG)。上述步骤B中训练模型参数可以采用支撑向量机(SVM)训练算法。

上述步骤B后进一步可以包括，判断是否：连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确文档的比例大于预先设定的第三门限，如果是，则跳出本流程；否则，返回执行步骤A。即，上述步骤A和步骤B可以循环执行，直至满足这样的结束条件：连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确的文档的比例大于预先设定的第三门限。则通过对训练文本重复执行训练和特征筛选过程，得到了更加精确的训练结果。

上述所述第二门限的取值范围为：0.001至0.01；上述第三门限的取值范围为：0.85至0.9。

本发明具体实施例中，在对文本进行分类过程中，可以基于预先设置的兴趣特征词表，对待分类文本的特征向量集中的特征进行权重调整。

基于预先设置的兴趣特征词表对待分类文本的特征向量进行权重调整具体可以包括：

C1、将待分类文本的特征向量中属于兴趣特征词表特征组成兴趣特征集M，剩余的组成非兴趣特征集C-M；

C2、计算所述C-M属于各个类别的概率，和M中特征所述的类，并根据得到的概率、M中特征所属的类、M的势和C-M的势，调整所述M中特征的权重。

较佳地，步骤C2具体包括：

当M中的多个特征全部属于类j，且：

M的势远小于C-M的势，且根据计算的C-M属于各个类别的概率中，属于类j的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时；或者，M的势接近于C-M的势时；

或者，当M中的多个特征属于多个类，且：

M的势远小于C-M的势，且根据计算的C-M属于各个类别的概率中，存在对应于M所属的类的概率与所计算的概率的最大值之差的绝对值小于预先设定的第四门限时；或者，M的势接近于C-M的势时；

对M中权重小于M中全部特征权重均值的特征，将其权重增大为所述均值。

上述第四门限的取值范围可以为：0.25至0.4。

本实施例中进一步可以包括：

步骤A11、在对文本进行训练和分类过程中，进行文本校对时，根据分词后文本中各个词之间是否具有连续性，定位包括非连续词的疑错窗口，并针对定位出的疑错窗口进行文本校对。

上述根据分词后文本中各个词之间是否具有连续性，定位包括非连续词的疑错窗口具体可以包括：

步骤A111、将分词后文本的第一个词设置为疑错窗口的开始位置，

步骤A112、根据预先设定的疑错窗口初始大小n，确定从该开始位置起前n个词的词间连续性，以及第n和n+1个词的词间连续性：

如果全部连续，则将第n+1个词设置为疑错窗口的开始位置，然后执行步骤A113；

如果所述前n个词不连续，而第n和n+1个词连续，则设置第n+1个词为该疑错窗口的结束位置，并记录该疑错窗口，将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置，然后执行步骤A113；

如果所述前n个词不连续，且第n和n+1个词也不连续，则继续确定后续词的词间连续性，直至确定出连续的词，然后将该连续词中前一个词的位置设置为疑错窗口的结束位置，记录该疑错窗口，将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置，然后执行步骤A113；

步骤A113、判断当前疑错窗口的开始位置是否为对应文本中最后一个词，如果是，则完成疑错窗口定位；否则返回执行步骤A112。

本发明实施例中，在对文本进行训练和分类过程中进行文本规范化和分词处理时，可以执行下述步骤：

步骤A01、读取待处理文本，去除文本中的奇异符号；

步骤A02、使用分词算法对文本进行分词处理；

步骤A03、基于预先设定的奇异词表，采用正规词替换文本中的奇异词。

上述文本可以是短信文本，也可以是其他的文档文本。

本发明实施例还提供了一种文本处理***，如图1所示，该***包括：训练模块、分类模块和存储模块；其中，存储模块用于存储训练文本集、特征集和模型参数；训练模块用于获取所述存储的训练文本集和特征集，基于获取的训练文本集和特征集训练模型参数，并将训练后的模型参数存储至所述存储模块；分类模块用于获取所述存储模块中的模型参数和训练文本集，基于该模型参数对训练文本集中的训练文本进行分类，将分类错误的训练文本从存储模块的训练文本集中删除，基于分类正确的训练文本构建特征集，并将构建的特征集存储到所述存储模块。

如图2所示，本发明实施例提供的文本处理***中进一步可以包括：特征选择模块，用于获取所述存储模块中存储的特征集，采用特征选择算法计算特征集中每个特征的相关度分数，并删除所述存储的特征集中相关度分数小于预先设定的第一门限的特征。

本发明实施例提供的文本处理***中，上述训练模块和分类模块顺序循环执行所述工作，则如图3所示，本发明实施例提供的文本处理***中进一步还可以包括：循环判断模块，用于获取所述训练模块训练前的模型参数和训练后的模型参数，计算两个模型参数的距离，并在确定出该距离小于设定的第二门限后，通知所述分类模块停止上述进行的工作，从而结束循环；或，获取分类模块的分类结果，计算分类正确文档的比例，并在确定出该比例大于预先设定的第三门限后，通知所述训练模块停止上述进行的工作，从而结束循环；在其他情况下，循环判断模块可以通知分类模块和训练模块继续进行上述循环，也可以不执行任何动作，则分类模块和训练模块顺序循环进行上述工作，从而重复训练模块参数，和重复删除训练文本集和特征集中会降低精度的噪声文本和噪声特征。

以下以对短信文本的训练流程和对短信文本的分类流程为例进一步阐述本发明具体实施例，对于其他文本的训练流程和分类流程与对短信文本的对应处理基本相同。

对短信文本的训练流程如图4所示，包括如下步骤：

步骤401、首先读入所有训练短信文本，并对每条训练短信文本进行规范化处理，去除奇异符号。

本步骤主要清除所有的干扰字符，即奇异符号。这里的干扰字符包括诸如标点、特殊字符等，比如^*&^^*，因为这些字符对于文本特征提取来说没有什么实际意义，而且还会造成对分类的干扰。所以在分词前，对短信文本进行检查，去除所有奇异符号。例如：“我————好想；)回家！！！”，将所有的非法字符去掉，得到“我好想回家”。

步骤402、使用N-Gram算法对规范化处理后的每条短信文本进行分词处理。

步骤403、对分词后的每条短信文本进行奇异词规范化处理。

奇异词规范化处理对短信中的奇异词，如FQ(夫妻)，gf(女朋友)等进行规范化。本实施例中采用奇异词表的方式进行奇异词规范化。如图5所示，本步骤中，在每次分词处理后，把分词过程所得词与预先存储的奇异词表中各词进行比较，判断所得词是否在奇异词表中，如果在奇异词表中，则用奇异词表中相应正规词替换短信文本中的奇异词。奇异词表可以如表1所示：

奇异词	正规词
奇异词	正规词	gf	女朋友
大虾	大侠	gf	女朋友
大虾	大侠	gg	哥哥
.......	........	gg	哥哥

表1奇异词表

步骤404、对经过步骤403处理后的短信文本进行文本校对，得到校对后的每条短信的词条集。

本实施例中提出了一种预加窗的中文文本校对方法。该方法中，窗口称为疑错窗口；每个疑错窗口内包含了一或多个怀疑是错误的词。如图6所示，每个短信文本包含一个疑错窗口队列，队列中每一个疑错窗口由开始和结束位置确定。疑错窗口数据结构如下：

struct ErrorWindow//疑错窗口结构

{

interrorbegin；//疑错词串的开始位置

interrorend；//疑错词串的结束位置

}

如图7所示，本步骤中，首先在步骤40401至步骤40414，利用词间连续性判断来定位疑错窗口，把有可能出现错误的地方局限在获得的M个疑错窗口内；然后在步骤40415至步骤40420，在获得的M个疑错窗口内进行文本定错和纠错。具体如下：

在步骤40401，获得文本长度，即每条短信文本所包括的词的数量，假设为N，在步骤40402，设置循环参数Lp初始值为1，即标识从第一个词开始进行疑错窗口定位，在步骤40403，判断循环参数值是否小于N，如果是，则执行步骤40404，设置疑错窗口的开始位置为当前的Lp值，即第Lp个词，然后执行步骤40405；否则跳出循环，在步骤40414得到疑错窗口队列和疑错窗口数目M。

在步骤40405，对从疑错窗口的开始位置起的3个词的词间连续性，和第3、4(3+1)个词的词间连续性进行判断，如果判断出全部连续，执行步骤40407，将Lp的值设置为当前值加3，然后返回执行步骤40403；否则如果判断出不是全部连续，则执行步骤40408。在图7所示的流程中，以设定的疑错窗口的初始大小n＝3为例进行说明；当然，本发明实施例中，这里的n也可以设定为其他的值，如4、5等。

在步骤40405中，在进行连续性判断时，如果剩余词已经不足，则用空词补足，认为空词和任何词都连续。

在步骤40408，判断从疑错窗口的开始位置起的第3和第4个词是否连续，如果是，则执行步骤40409，设置疑错窗口的结束位置为第Lp+3个词，然后执行步骤40412；否则，执行步骤40410，继续对第4个词开始的词间连续性进行判断，直到搜索到连续词为止，然后在步骤40411，将所搜索到的连续词中前一个词位置设置为疑错窗口的结束位置，然后执行步骤40412。在步骤40412，把疑错窗口加入疑错窗口队列，然后在步骤40413，将Lp的值设置为疑错窗口结束位置的下一个词的位置后，返回执行步骤40403。

上述步骤40405至步骤40411中所提及的判断词间连续性的方法包括：

假设W＝{w₁，w₂，....，w_N}是***中预先设置的词表中所有词的集合，C＝{c₁，c₂，....，c_M}是短信文本中所有汉字的集合；短信文本S＝c₁c₂....c_ic_i+1....c_k＝w₁w₂...w_jw_j+1.....w_N；则c_i、c_i+1是相邻的汉字；w_j、w_j+1是相邻的词；i＝1...k，j＝1...N；w_j∈W，c_i∈C；并设定阈值t_w和t_θ。如词w_j和w_j+1其中一个为英文单词，则默认词w_j和w_j+1连续，如词w_j和w_j+1都为中文单词，则用下式判断词w_j和w_j+1的连续性：

当ZJ(w_i，w_i+1)为1时，词w_j和w_j+1连续；ZJ(w_i，w_i+1)为0，则词w_j和w_j+1不连续。这里：

MI(w_j，w_j+1)＝αI(w_j·c_k，w_j+1·c₁)+(1-α)I(w_j，w_j+1) (2)

I(w_j·c_k，w_j+1·c₁)＝log₂[P(w_j·c_k，w_j+1·c₁)/p(w_j·c_k)p(w_j+1·c₁)] (3)

I(w_j，w_j+1)＝log₂[P(w_j，w_j+1)/p(w_j)p(w_j+1)] (4)

其中p(w_j·c_k)为w_j词的最后一个字c_k在语料库中的出现频率，语料库由***预先设定，其中可以包括某个特定领域的文本，也可以包括非特定领域的文本，如前面提及的词表或字典；p(w_j+1·c₁)为词w_j+1的第一个汉字在语料库中出现的频率，p(w_i·c_k，w_i+1·c₁)为这两个汉字在语料库中连续出现的频率。I(w_j·c_k，w_j+1·c₁)为这两个汉字的互信息。p(w_j)为w_j词在语料库中的出现频率，p(w_j+1·)为词w_j+1在语料库中出现的频率，p(w_i·，w_i+1)为这两个词在语料库中连续出现的频率，I(w_j·，w_j+1)为这两个词的互信息。α为权值，可设为0.4-0.7。

MX²(w_j，w_j+1)定义如下：

MX²(w_j，w_j+1)＝αX²(w_j·c_k，w_j+1·c₁)+(1-α)X²(w_j，w_j+1) (5)

这里X²(w_j·c_k，w_j+1·c₁)为w_j词的最后一个字c_k与词w_j+1的第一个汉字的x²统计量；X²(w_j，w_j+1)为w_j，w_j+1的x²统计量。令n12表示语料库中出现词w_j但不出现词w_j+1的连续词个数；n21表示不出现词w_j，出现词w_j+1的连续词个数；n22表示两个词都不出现的连接词个数；n11表示两个词连续出现的个数；记ni.＝ni1+ni2，n.j＝n1j+n2j(i＝1，2；j＝1，2)，有n＝n11+n12+n21+n22，则X²(w_j，w_j+1)定义为：

X^{2} (w_{j}, w_{j + 1}) = \frac{n \times {(n_{11} \times n_{22} - n_{12} \times n_{22})}^{2}}{n_{1 .} \times n_{2 .} \times n_{. 1} \times n_{. 2}} - - - (6)

同样设n12表示语料库中出现w_j的最后一个字c_k但不出现词w_j+1的第一个字的连续字个数；n21表示不出现词w_j最后一个字c_k，出现词w_j+1的第一个字的连续字个数；n22表示两个字都不出现的连接字个数；n11表示两个字连续出现的个数；记ni.＝ni1+ni2，n.j＝n1j+n2j(i＝1，2；j＝1，2)，有n＝n11+n12+n21+n22，则X²(w_j·c_k，w_j+1·c₁)同样可用(6)式得到。α为权值，可设为0.4-0.7。

通过上述对步骤40401至步骤40414的描述可知，本步骤中使用变长窗口模型作为疑错窗口模型，疑错窗口最小距离为3个词。例如给定一个语句S，首先对该语句进行分词处理，得到词条集合w₁w₂...w_jw_j+1.....w_φ，然后在此词条上定位疑错窗口。定位过程从第一个词开始，此时标记第一个疑错窗口的开始位置为1，然后计算随后的每相邻两个词的词间连续性，疑错窗口定位过程分为以下4种情况：

1.如果在这搜索的3个词中没有词间连续性小于阈值的情况，即第1至第3个词连续，同时第3个词和第4个词也连续，则更新这个疑错窗口的开始位置为第4个词的位置，并计算从该位置起再判断连续的3个词的词间连续性，以及第4个词和第5个词的词间连续性。

2.如果在这搜索的3个词中出现词间连续性小于阈值的情况，即(词1、词2)或(词2、词3)或(词1、词2、词3)不连续，而第3个词与第4个词连续，则定位该疑错窗口的结束位置为第4个词的位置，并把该窗口的开始位置与结束位置加入到疑错窗口队列中。然后把第4个词的位置作为下一个疑错窗口的开始位置，并计算下一个疑错窗口内3个词的词间连续性，以及第3个词和第4个词的连续性。

3.如果在这搜索的3个词中没有出现词间连续性小于阈值的情况，但第3个词与第4个词不连续，则继续计算后续两两词的连续性，如果后续词的连续性仍然小于阈值，则继续计算，直到词间连续性大于阈值为止。然后把该词间连续性大于阈值的两个词中前一个词的位置作为该疑错窗口的结束位置，并把该疑错窗口的开始位置与结束位置加入到疑错窗口队列中。然后把该疑错窗口的结束位置的下一个词作为下一个疑错窗口的开始位置继续搜索过程。

4.如果在这搜索得3个词中出现词间连续性小于阈值的情况，且第3个词与第4个词也不连续，则按第3种情况处理。

疑错窗口定位过程直到到达该待校对文本最后一个词为止。

如图4所示，在得到文本的疑错窗口队列后，在步骤40415至步骤40420，用Markov模型算法对每个疑错窗口中的字词进行定错和校对，其中，首先构造疑错窗口中的各词的字候选矩阵，然后利用Viterbi算法寻找最佳候选字序列，最后当搜索到的最佳字序列的概率大于阈值β(取0.6-0.8)时，将搜索到的最佳字序列与原字序列对照，不一致者作为发现的文本错误输出，并将最佳字序列中的对应字词作为第一候选词条并对错误进行改正。具体步骤描述如下：

步骤40415、设置窗口循环参数J的初始值为1，然后在步骤40416，判断J是否小于或等于M，如果是，则执行步骤40417；否则，完成纠错得到纠错后的词条集。

在步骤40417，构建待校对疑错窗口，即第J个疑错窗口中包括的词组S的基字序列Baseword＝＜c₁，c₂，...，c_n＞，这里的n为词组S中的字数。

在步骤40418，根据***词典，构件第J个疑错窗口的基字序列的候选矩阵，包括：依据预先设置的***字典，对词组S中每个字选择5个高频同音字，构造Baseword中的每个字的候选向量Z_i，然后形成S的字候选矩阵Matrix(S)＝Z₁Z₂....Z_n，Z_i＝<c_j，1c_i，2，...c_i，5>，c_i，j为基字c_i的字候选向量Z_i中c_i的同音字，5为候选向量的长度，即候选同音词个数。

在步骤40419，依据下述公式(7)，利用Viterbi算法寻找最佳候选字序列，对应于最佳候选字序列的评价函数为

f^{*} (wordlist) = \arg \max Π λ_{i} P ({c_{i}}_{i = 1}^{n} | c_{i - 1}),

同时保留前几个具有较高评价函数的字序列。

f (Wordlist) = Π_{i = 1}^{n} λ_{i} p (c_{i} | c_{i - 1}) - - - (7)

公式中的λ_i为规则的权值调整系数，本***中λ_i＝1(i＝1，...，n)`。

步骤40420、判断搜索到的最佳字序列Wordlist^*的概率是否大于阈值β(β取0.6-0.8)，如果是，在步骤40421，用最佳字序列将搜索到的最佳字序列Wordlist^*与Baseword对照，不一致者作为发现的文本错误输出，并将Wordlist^*中的对应字词作为第一候选词组并对错误加以改正，然后返回执行步骤40416。

通过上述步骤401至404，有效地消除了短信文本中的变异符号、变异文本、错字和错词对***的训练和分类过程带来的影响。同时由于步骤404中的文本校对技术采用预加窗处理，最终的定错和纠错只在每个疑错窗口内进行，因此有效的缩短了待定错和纠错字段长度，减小了计算复杂度。

步骤405、对步骤404得到的词条集进行去噪预处理。

去噪处理主要完成去除稀有词、停用词工作。本实施例中的去除稀有词和停用词方法分别采用词频比较与停用词表方法。

(1)稀有词处理：

***首先对步骤404所得的各个词条，在所有训练短信文本的词条集中出现的频率进行统计，并设定一个词频阈值，只要是词条频度低于这个词频阈值的词就从词条空间中删除。

(2)停用词表：

***首先构造并设置停用词表，在文本校对处理后把校对后的文本中的各词条分别和设置的停用词表中词进行比较，如果该词条在停用词表中，则删除该词条。

步骤406、用向量表示方法对每个短信文本进行特征表示，得到每个短信文本的初始特征向量集。

这里一条短信文本d_i＝{t₁，t₂，....，t_k，...，t_m}，t_k为第文本d_i中第k个词条，m为短信文本d_i的词条总数。文本d_i的特征向量表示为：

V(d_i)＝(W_i1，W_i2，.....，W_ik，.....，W_im)

其中W_ik数据结构为：

Struct W

{Nname；//特征代表的词

Weight；//特征权重

}

W_ik.Weight为第k个特征在文档d_i中的权重，反映特征t_k决定文档d_i是否属于类c_j的重要性。这里所述W_ik.Weight＝Weight(t_k，d_i)采用TF-IDF公式进行计算。TF-IDF公式如下：

Weight (t_{k}, d_{i}) = \frac{tf (t_{k}, d_{i}) \times \log (N / n_{t_{k}} + 0.01)}{\sqrt{Σ_{t_{k} &Element; d_{i}} [tf (t_{k}, d_{i}) \times \log (N / n_{t_{k}} + 0.01)]^{2}}} - - - (8)

其中，Weight(t_k，d_i)为词t_k在文本d_i中的权重；tf(t_k，d_i)为词t_k在文本d_i中的词频，N为文本的总数，n_tk为文本集中出现t_k的文本数。

步骤407、对步骤406得到的短信文本初始特征向量集进行特征选择，降低特征向量维数，得到经过特征选择的训练特征空间，即训练特征集。

特征选择过程包括：

分类***中训练过程的目标是调整模型参数θ，从而使似然概率值

最大化。假设训练文本集中各文本相互独立的情况下，似然概率

可写为下式：

p (D | θ) = Π_{i = 1}^{N} p (d_{i} | θ) - - - (9)

p (d_{i} | θ) = Σ_{j = 1}^{β} p (c_{j} | θ) p (d_{i} | c_{j}, θ) - - - (10)

其中，D＝{d₁，d₂，....，d_N)为训练文本集，d_i是训练文本集中第i个文本；C＝{c₁，c₂，....，c_β}是类别集合，c_j是第j类；t＝{t₁，t₂，....t_L)是这些类的特征集合；θ＝{θ₁，θ₂，....，θ_c)是模型参数空间θ_α是第α类的模型参数。公式(10)中p(c_j|θ)是类j的先验概率，p(d_i|c_j，θ)是给定模型参数θ时，文本i在类j中的概率。进一步假设特征集中的特征也相互独立的情况下，似然函数可以重写为下式：

p (D | θ) = Π_{i = 1}^{N} Σ_{j = 1}^{β} p (c_{j} | θ) \underset{t_{l} &Element; d_{i}}{Π} p (t_{l} | c_{j}, θ) - - - (11)

这里p(t_l|c_j，θ)是在给定模型参数θ时，类j中文本d_i中特征t_l的概率。并不是所有特征都与类有相同的相关度，所以全概率公式，p(t_l|c_j，θ)可以看为相关分布和不相关分布的加权和，如下式所示。

p(t_l，|c_j，θ)＝z(t_l)p(t_l is relevant|c_j，θ)+(1-z(t_l))p(t_l is irrelevant|c_j，θ) (12)

这里z(t_l)p(t_l is relevant)被定义为特征t_l是相关的概率。因此似然函数(11)可以重写为式(13)：

p (D | θ) = Π_{i = 1}^{N} Σ_{j = 1}^{β} p (c_{j} | θ) \underset{t_{l} &Element; d_{i}}{Π} z (t_{l}) p (t_{l} isrelevant | c_{j}, θ) + (1 - z (t_{l})) p (t_{l} isirrelevant | c_{j}, θ) - - - (13)

本步骤中，具体可以用EM算法通过循环以下两步来最大化似然函数值。

(1), E - step : {\hat{z}}^{(k + 1)} = E (z | D, {\hat{θ}}^{(k)})

(2), M - step : {\hat{θ}}^{(k + 1)} = {\arg \max}_{θ} p (D | θ, {\hat{z}}^{(k)})

这里z＝{z(1)，z(2)，.....z(u)}，u是特征个数；其中的k为循环次数。

在E-step中，在给定第k次循环后的模型参数θ^k的情况下，相应的计算期望的特征集

在M-step中，根据E-step中的到的新的特征空间，相应计算一个新的模型参数

这个模型参数使似然函数最大化。

具体地，E-step中，首先对上次循环得到的训练集进行重新分类，并且把错误分类结果从训练集中删除。然后根据分类后正确的训练集中的每个短信文本得到新的特征向量空间，即特征集z′，并且用监督型的特征选择算法IG计算新特征向量空间中每个特征的相关度分数。如果特征t_l的相关度分数大于一预设门限T，则记z′(t_l)＝1，否则记为z′(t_l)＝0。如果z′(t_l)＝0，则将该特征从新特征向量空间中删除得到，并根据所得到的特征集，对训练集中每个训练短信文本进行特征标定，删除每个训练短信文本中不属于特征集的特征。最后用z′更新z得到

则在每次循环过程中，通过移除错误分类

训练文档和相关度分数判断的方法，去掉了噪声训练文本和噪声训练特征，从而自适应的最优化了特征集。

上述根据所得到的特征集

对训练集中每个训练短信文本进行特征标定，删除不属于特征集中的特征时，具体可以使用Bool法对文本中的特征进行标定。标定过程描述如下：

设特征选择后的训练特征集为T＝{t₁，t₂，....，t_k，...，t_n}，第i个训练文档向量为d_i＝{k₁，k₂，...，k_j}

1.l＝1

2.如果k_l∈T，则特征k_l保留，否则从训练文档向量中删除k_l。

3.重复比对直到l＝j

4.得到第i个文档的新文档向量d_i′。

M-step中，可以根据重构的训练短信文本集使用任意的训练算法对模型进行重新训练得到新模型参数

具体可以使用支撑向量机(SVM)训练算法对模型进行训练。

如图8所示，EM算法流程如下：

给定初始训练数据集D

初始化z¹＝{1，1.....1}，k＝1

do

Step1.读取特征集和训练文本集，基于读取的特征集

和训练文本集训练模型参数

Step2.用分类算法对训练文本进行重新分类，并得到正确和错误的分类结果集

Step3.删除训练文本集中的错误分类结果

Step4.更新Z

根据正确分类结果集构建新文本特征向量z′，然后计算新特征向量集中每个特征的相关度分数α_l，然后根据相关度分数更新得到

if(α_l＞T)

z′(t_l)＝1

else

z′(t_l)＝0

{\hat{z}}^{(k + 1)} = z^{'}

k＝k+1

while(not IEnd())

end

其中，T的取值范围为0.4～1之间，具体根据实际的相关度要求确定。另外，这里的IEnd()为循环结束判断函数，定义如下。

IEnd () = \{\begin{matrix} 1 & (dis (θ^{(k)}, θ^{(k + 1)}) < ψormiroP > η) \\ 0 & otherwise \end{matrix} - - - (14)

miroP = \frac{Σ_{i = 1}^{β} α_{i}}{Σ_{i = 1}^{β} γ_{i}} - - - (15)

式(14)和(15)中，η和ψ是预先设定的门限值，根据试验结果η可以取0.85～0.90之间，ψ取0.01-0.001之间。α_i是第c_i类中被正确分类的文档数；γ_i是类c_i的文档总数；上述dis()为距离函数，具体可以是欧式距离函数或其他距离函数。

上述方法中特征t_l的相关度分数α_l采用信息增益(IG)公式计算，该公式具体描述如下：

α_{i} = - Σ_{i = 1}^{m} P (c_{i}) \log P (c_{i}) + P (t_{l}) Σ_{i = 1}^{m} P (c_{i} | t_{l}) + \log P (c_{i} | t_{l}) +

P ({\overset{&OverBar;}{t}}_{l}) Σ_{i = 1}^{m} P (c_{i} | {\overset{&OverBar;}{t}}_{l}) \log P (c_{i} | {\overset{&OverBar;}{t}}_{l}) - - - (16)

其中，P(t_l)为短信文本集中出现特征t_l的文本数除以所有短信文本的文本数，P(c_i|t_l)为类型c_i中出现t_l的文本数除以所有短信集中出现t_l的文本数。为短信文本集中不出现特征t_l的文本数除以所有短信文本的文本数。

为类型c_i中不出现t_l的文本数除以所有短信集中不出现t_l的文本数。P(c_i)为类c_i的先验概率。

本步骤中所描述的自适应的基于EM(最大期望值)算法的最优化特征选择方法，自适应的对特征空间进行改变，去除噪声特征，最终得到最优的低维特征空间，同时也有效的解决了训练集含有噪声训练元素情况下的最优特征提取问题。

经过上述流程，就完成了对训练短信文本的训练，并得到了用于分类的训练特征集。

其中对短信文本的分类流程如图9所示，其中步骤901至步骤906中，对待分类短信文本的处理与图4中对训练短信文本的处理基本相同，这里不再赘述。图9所示流程中，在步骤906后执行下述步骤：

步骤907、把步骤906中得到的待分类文档初始特征集中的特征，和训练时产生的训练特征集进行匹配处理，从而删除掉初始特征集中不在训练特征集中的特征，形成每篇待分类短信文本的特征向量集。具体过程如下

设训练特征集为T＝{t₁，t₂，....，t_k，...，t_n}，第i个待分类文档向量为d_i＝{k₁，k₂，...，k_j}

1.首先初始化l＝1

2.如果k_l∈T，则特征k_l保留，否则从文档特征集中删除k_l。

3.将1值加一，然后执行步骤2，进行重复比对，直到1＝j，对k_j按步骤2中的方式处理后，得到第i个待分类文档的新文档向量d_i′，即待分类短信文本的文本特征。

步骤908、根据兴趣特征词表，对经过步骤907处理后的每个待分类短信文本的特征向量集中的文本特征进行权重调整。

由于特征提取的目的是为了最好的挖掘用户兴趣点。而针对每个兴趣点，有些词较为关键，如对手机兴趣点，词“手机”、“摩托罗拉”等词就较关键。当短信中出现这些关键词时，不失一般性，可以认为发送短信用户对相关兴趣点有一定的兴趣程度。因此本实施例在***中预先设定兴趣特征词表，则本步骤中基于兴趣特征词表进行特征权重调整，更有效的反映了用户兴趣点。本步骤的具体处理如下：

假设待分类文本的特征向量集为C，其中属于兴趣特征词表中的词集为M，则不属于该兴趣特征词表的词集表示为C-M。

首先计算M中各个特征所属的类，并计算除去属于兴趣特征词表中词集M后的待分类文本属于各个类别的概率P_i(i＝1，...，n)，n为类数。然后根据计算得到的P_i序列来判断是否对属于词集M的特征词的权重进行调整，具体包括：

P_i计算公式为：

P_{i} (d | c_{i}) = \underset{l &Element; C - M}{Π} p (t_{l} | c_{i}) - - - (17)

根据计算得到M中各个特征所述的类和P_i序列，可以分以下几种情况对特征权重进行调整：

1.当兴趣特征词集M中包含不止一个词时，M＝{t₁，...，t_m}，各个特征词都属于一个类j，并且M的势远小于C-M的势时，这里的势表示集合中元素的个数，则当|P_j-P_max|＝T＜T_l时，且存在属于兴趣特征词集M中的特征词的权重小于该文本特征向量集C中权重的均值时，用均值取代该特征词原有的权重。这里T_l是预设定的门限值，可取(0.25-0.4)。这里，P_j为文本属于j类的概率，P_max＝max{P_i|i＝1，...，N}。

2.当兴趣特征词集M中包含不止一个词时M＝{t₁，...，t_m}，各个特征词都属于一个类j，并且M的势远小于C-M的势时。则当| P_j-P_max|＝T＞T_l时，则表示该待分类文本不属于类j，为了保证权重调整不会完全掩盖其它特征词在文本中所起的作用，因此对兴趣特征词表中的词的权重不作调整。

3.当兴趣特征词集M中包含不止一个词时M＝{t₁，...，t_m}，各个特征词都属于一个类j，并且M的势接近于C-M的势时，则直接用该文本特征向量集权重均值，取代属于兴趣特征词集M中的，权重小于该文本特征向量集中权重均值的特征词的权重。

4.当兴趣特征词集M中包含不止一个词时M＝{t₁，...，t_m}，M中特征词属于多个类{c_i，...，c_i+p}，并且M的势远小于C-M的势时。同样首先计算|P_k-P_max|＝T_k(k＝i，...，i+p)，如果存在T_k＜T_l(k＝i，...，i+p)的k集合为{j，...，j+O}，且存在k(k＝j，...，j+O)类所对应的兴趣特征词集M中的特征词的权重小于该文本特征词权重均值时，用均值取代该特征词原有的权重，且对拥有最大P_k的k类所对应的所有特征词再相应增大均值的20％，以保证分类正确性。

5.当兴趣特征词集M中包含不止一个词时M＝{t₁，...，t_m}，M中特征词属于多个类{c_i，...，c_i+p}，并且M的势接近于C-M的势时。则直接用该文本特征词权重均值取代属于兴趣特征词集M中的权重小于该文本特征词权重均值的特征词的权重。

步骤909、对每篇文档的特征向量集中的文本特征进行正交化处理，使特征向量数据标准化，同时进一步压缩特征数据。

本实施例中，正交化处理使用离散余弦变换，其变换方式如下：

给定N维特征矢量序列x(n)，n＝0，1，...，N-1，其离散余弦变换定义为

X_{c} (0) = \frac{1}{\sqrt{N}} Σ_{n = 0}^{N - 1} x (n) - - - (18)

X_{c} (k) = \sqrt{\frac{2}{N}} Σ_{n = 0}^{N - 1} x (n) \cos \frac{(2 n + 1) kπ}{2 N}, k = 1,2, . . ., N - 1 - - - (19)

其中X_c(k)为变换后标准化的第k维特征量。

步骤910、基于模型参数进行特征分类。

以下通过测试实验对本发明实施例所产生的效果进行进一步说明：

本测试试验中，将现有的SVMCLS***作为对照与我们的新算法作了对比测试。实验使用6类文本数据(教育，经济，计算机，军事，环境，交通)，每类数据的训练集由2000篇文档组成，测试集由500篇文本组成。各文本从论坛和网上的一些新闻中获得。测试平台为WindowsXP***。

试验选用SVM作为分类器；本发明实施例使用IG作为基本的特征选择函数；SVMCLS***选用了CHI和IG算法作为特征选择函数。将实验选择精度，召回率和miroF1作为评估标准。这些标准定义为下式。

R_{i} = \frac{α_{i}}{μ_{i}},

p_{i} = \frac{α_{i}}{γ_{i}},

miroR = \frac{Σ_{i = 1}^{m} α_{i}}{Σ_{i = 1}^{m} μ_{i}},

miroP = \frac{Σ_{i = 1}^{m} α_{i}}{Σ_{i = 1}^{m} γ_{i}},

miroF 1 = \frac{2 \times miroR \times miroP}{miroR + miroP}

这里α_i是第c_i类中被正确分类的文档数；γ_i是类c_i的文档总数；μ_i是被***分类到c_i类的文档总数。

实验中以不同的百分比用噪声训练数据替换了原有的训练数据的方法构建了含噪训练数据集。表2，3，4分别显示了***SVMCLS采用CHI、IG作为特征选择标准的试验结果和新***的测试结果。其中表1是对干净训练集进行特征提取得到的测试结果，表2和表3分别是对含有20％噪声和35％噪声数据的训练集进行特征提取而得到的测试结果。

种类	精度			召回率
种类	精度			召回率				CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.988	0.984	0.984	0.976	0.964	0.964		CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.988	0.984	0.984	0.976	0.964	0.964	教育	0.978	0.980	0.980	0.950	0.962	0.962
经济	0.968	0.972	0.972	0.918	0.927	0.927	教育	0.978	0.980	0.980	0.950	0.962	0.962
经济	0.968	0.972	0.972	0.918	0.927	0.927	环境	0.974	0.982	0.982	0.951	0.966	0.966
交通	0.982	0.988	0.988	0.972	0.978	0.978	环境	0.974	0.982	0.982	0.951	0.966	0.966
交通	0.982	0.988	0.988	0.972	0.978	0.978	军事	0.976	0.974	0.974	0.966	0.966	0.966
MiroF1	0.966	0.969	0.969				军事	0.976	0.974	0.974	0.966	0.966	0.966

表1

种类	精度			召回率
种类	精度			召回率				CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.964	0.964	0.980	0.914	0.924	0.958		CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.964	0.964	0.980	0.914	0.924	0.958	教育	0.962	0.968	0.980	0.928	0.934	0.962
经济	0.938	0.942	0.968	0.854	0.862	0.916	教育	0.962	0.968	0.980	0.928	0.934	0.962
经济	0.938	0.942	0.968	0.854	0.862	0.916	环境	0.948	0.962	0.978	0.911	0.928	0.964
交通	0.944	0.940	0.982	0.914	0.910	0.974	环境	0.948	0.962	0.978	0.911	0.928	0.964

军事	0.952	0.958	0.974	0.924	0.931	0.966
军事	0.952	0.958	0.974	0.924	0.931	0.966	MiroF1	0.928	0.934	0.965

表2

种类	精度			召回率
种类	精度			召回率				CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.912	0.918	0.972	0.829	0.833	0.940		CHI	IG	本发明实施例	CHI	IG	本发明实施例
计算机	0.912	0.918	0.972	0.829	0.833	0.940	教育	0.922	0.924	0.974	0.856	0.858	0.947
经济	0.904	0.898	0.962	0.758	0.761	0.902	教育	0.922	0.924	0.974	0.856	0.858	0.947
经济	0.904	0.898	0.962	0.758	0.761	0.902	环境	0.896	0.902	0.972	0.845	0.850	0.952
交通	0.918	0.924	0.962	0.872	0.878	0.956	环境	0.896	0.902	0.972	0.845	0.850	0.952
交通	0.918	0.924	0.962	0.872	0.878	0.956	军事	0.928	0.928	0.968	0.882	0.895	0.954
MiroF1	0.874	0.878	0.954				军事	0.928	0.928	0.968	0.882	0.895	0.954

表3

从表1到表3我们可以看出：

1)在干净训练集的情况下，每个特征提取算法都有较高的分类效果。

2)随着噪声训练数据的增加使用CHI和IG作为特征选择算法的SVMCLS***分类能力随之下降。这是因为CHI和IG算法不能很好的去除掉噪声训练文本带来的噪声特征。相比之下，本发明有更好的分类效果，同时***的性能也校对稳定。这是由于本发明实施例中自适应重复特征选择减少了噪声训练数据和噪声特征，从而得到了较精确的特征集。

综上所述，在训练数据集存在一些噪声数据的情况下，本发明实施例相比SVMCLS***有更好特征选择能力，因此有搞好的分类效果。

以上是对本发明具体实施例的说明，在具体的实施过程中可对本发明的方法进行适当的改进，以适应具体情况的具体需要。因此可以理解，根据本发明的具体实施方式只是起示范作用，并不用以限制本发明的保护范围。

Claims

1、一种文本处理方法，应用于文本特征提取技术中，其特征在于，该方法包括：

在文本训练过程中，基于训练后的模型参数对训练文本集中的训练文本进行分类，并删除分类错误的训练文本，使新的训练文本集中只保留分类正确的训练文本，再基于分类正确的训练文本构建新的特征集；

基于所述新的训练文本集和新的特征集训练模型参数。

2、根据权利要求1所述的方法，其特征在于，所述基于分类正确的训练文本构建新的特征集之后，进一步包括：

根据特征选择算法计算所构建的新的特征集中每个特征的相关度分数，删除相关度分数小于预先设定的第一门限的特征。

3、根据权利要求2所述的方法，其特征在于，所述特征选择算法为监督型特征选择算法IG。

4、根据权利要求1所述的方法，其特征在于，所述训练模型参数采用支撑向量机SVM训练算法。

5、根据权利要求1或2所述的方法，其特征在于，所述基于所述新的训练文本集和新的特征集训练模型参数后，进一步包括，判断是否：连续两次训练得到的模型参数的距离小于预先设定的第二门限或分类正确文档的比例大于预先设定的第三门限，如果是，则跳出本流程；否则，返回执行所述基于训练后的模型参数对训练文本集中的训练文本进行分类的步骤。

6、根据权利要求1所述的方法，其特征在于，该方法进一步包括：

在文本分类过程中，基于预先设置的兴趣特征词表，对获得的待分类文本的特征向量集中的特征进行权重调整。

7、根据权利要求6所述的方法，其特征在于，所述基于预先设置的兴趣特征词表，对获得的待分类文本的特征向量集中的特征进行权重调整，包括：

将待分类文本的特征向量集中属于兴趣特征词表特征组成兴趣特征集M，剩余的特征组成非兴趣特征集C-M；

计算所述C-M属于各个类别的概率和M中的特征所属的类，并根据得到的概率、M中特征所属的类、M的势和C-M的势，调整所述M中特征的权重。

8、根据权利要求7所述的方法，其特征在于，所述计算所述C-M属于各个类别的概率和M中的特征所属的类，并根据得到的概率、M中特征所属的类、M的势和C-M的势，调整所述M中特征的权重，具体包括：

当M中的多个特征全部属于类j，且：

或者，当M中的多个特征属于多个类，且：

9、根据权利要求1所述的方法，其特征在于，该方法进一步包括：

在文本训练和文本分类过程中，进行文本校对时，根据分词后文本中各个词之间是否具有连续性，定位包括非连续词的疑错窗口，并针对定位出的疑错窗口进行文本校对。

10、根据权利要求9所述的方法，其特征在于，所述根据分词后文本中各个词之间是否具有连续性，定位包括非连续词的疑错窗口包括：

将分词后文本的第一个词设置为疑错窗口的开始位置，

根据预先设定的疑错窗口初始大小n，确定从该开始位置起前n个词的词间连续性，以及第n和n+1个词的词间连续性：

如果全部连续，则将第n+1个词设置为疑错窗口的开始位置，然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词，如果是，则完成疑错窗口定位；否则，返回执行所述根据预先设定的疑错窗口初始大小n，确定从该开始位置起前n个词的词间连续性，以及第n和n+1个词的词间连续性的步骤；

如果所述前n个词不连续，而第n和n+1个词连续，则设置第n+1个词为该疑错窗口的结束位置，并记录该疑错窗口，将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置，然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词，如果是，则完成疑错窗口定位；否则，返回执行所述根据预先设定的疑错窗口初始大小n，确定从该开始位置起前n个词的词间连续性，以及第n和n+1个词的词间连续性的步骤；

如果所述前n个词不连续，且第n和n+1个词也不连续，则继续确定后续词的词间连续性，直至确定出连续的词，然后将该连续词中前一个词的位置设置为疑错窗口的结束位置，记录该疑错窗口，将该疑错窗口的结束位置的下一个词设置为下一疑错窗口的开始位置，然后判断当前疑错窗口的开始位置是否为对应文本中最后一个词，如果是，则完成疑错窗口定位；否则，返回执行所述根据预先设定的疑错窗口初始大小n，确定从该开始位置起前n个词的词间连续性，以及第n和n+1个词的词间连续性的步骤。

11、根据权利要求1所述的方法，其特征在于，该方法进一步包括：

在文本训练和文本分类过程中，进行文本规范化和分词处理时，执行下述步骤：

读取待处理文本，去除文本中的奇异符号；

使用分词算法对文本进行分词处理；

基于预先设定的奇异词表，采用正规词替换文本中的奇异词。

12、根据权利要求1至11中任一所述的方法，其特征在于，所述文本为：短信文本。

13、一种文本处理***，其特征在于，该***包括：训练模块、分类模块和存储模块；

所述存储模块用于存储训练文本集、特征集和模型参数；

14、根据权利要求13所述的***，其特征在于，该***中进一步包括：特征选择模块，用于获取所述存储模块中存储的特征集，采用特征选择算法计算特征集中每个特征的相关度分数，并删除所述存储的特征集中相关度分数小于预先设定的第一门限的特征。

15、根据权利要求13或14所述的***，其特征在于，所述训练模块和所述分类模块顺序循环执行所述工作，则所述***中进一步包括：循环判断模块，用于获取所述训练模块训练前的模型参数和训练后的模型参数，计算两个模型参数的距离，并在确定出该距离小于设定的第二门限后，通知所述分类模块停止所述工作，从而结束循环；或，获取分类模块的分类结果，计算分类正确文档的比例，并在确定出该比例大于预先设定的第三门限后，通知所述训练模块停止所述工作，从而结束循环。