CN107016073A

CN107016073A - 一种文本分类特征选择方法

Info

Publication number: CN107016073A
Application number: CN201710181572.8A
Authority: CN
Inventors: 张晓彤; 余伟伟; 刘喆; 王璇
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-08-04
Anticipated expiration: 2037-03-24
Also published as: CN107016073B

Abstract

本发明提供一种文本分类特征选择方法，能够降低特征维度和分类复杂度、并提高分类准确性。所述方法包括：获取特征集S和目标类别C，计算特征集S中每一个特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)，并按照关联度R_c(x⁽ⁱ⁾)大小对特征集S进行降序排序；计算特征集S中每两个特征之间的冗余度R_x和协同度S_x，结合特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)计算特征的灵敏度Sen，并将其与预先设定的阈值th比较，结合对特征集S的降序排序结果，按照阈值th将特征集S划分为候选集S_sel和排除集S_exc；计算候选集S_sel和排除集S_exc中的特征之间的灵敏度Sen，并将其与预先设定的阈值th比较，按照阈值th对候选集S_sel和排除集S_exc进行调整。本发明适用于机器学习文本分类领域。

Description

一种文本分类特征选择方法

技术领域

本发明涉及机器学习文本分类领域，特别是指一种文本分类特征选择方法。

背景技术

随着互联网规模的不断扩大，汇聚在互联网中的信息资源也不断增多。为了有效的管理和方便的利用这些信息资源，基于内容的信息检索和数据挖掘一直以来备受关注。文本分类技术是信息检索和文本数据挖掘的重要基础，其主要任务是根据未知类别的文字和文档的内容，将它们判别为预先给定类别中的一个或多个。然而，训练样本数量大和向量维数高这两大特点，决定了文本分类是一个运算时间和空间复杂度都很高的机器学习问题。因此，我们需要进行特征选择，在尽可能保证分类性能的同时降低特征维度。

特征选择是一个重要的数据预处理过程，在常用的文本分类特征选择方法中，卡方检验(Chi-Square)通过建立零假说，假定词与目标类别不相关，选择偏离假设程度大的词作为特征。但它只统计文档中是否出现某词，而不管出现了几次，这使得它对低频词有所偏袒。互信息(Mutual Information)方法通过度量词的存在给目标类别带来的信息量来选择特征。但它只考虑了词与目标类别之间的关联度，忽视了词与词之间可能存在的依赖。TF-IDF(Term Frequency-Inverse Document Frequency)方法综合考虑词在文件中出现的频率和词在所有文件中的分布来评估词的重要程度，从而进行特征选取。但是它只是单纯的认为文本频率小的词就越重要而文本频率大的词就越无用，因此精度并不是很高。此外还有信息增益、优势率、文本证据权、期望交叉熵等特征选择方法，它们大多都是只考虑了词与目标类别之间的相关程度或词与词之间的相关程度，容易出现降维程度不够或分类精度不高的问题。

发明内容

本发明要解决的技术问题是提供一种文本分类特征选择方法，以解决现有技术所存在的特征维度高或分类精度低的问题。

为解决上述技术问题，本发明实施例提供一种文本分类特征选择方法，包括：

步骤1：获取特征集S和目标类别C，计算特征集S中每一个特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)，并按照关联度R_c大小对特征集S进行降序排序；

步骤2：计算特征集S中每两个特征之间的冗余度R_x和协同度S_x，结合特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)计算特征的灵敏度Sen，并将其与预先设定的阈值th比较，结合对特征集S的降序排序结果，按照阈值th将特征集S划分为候选集S_sel和排除集S_exc；

步骤3：计算候选集S_sel和排除集S_exc中的特征之间的灵敏度Sen，并将其与预先设定的阈值th比较，按照阈值th对候选集S_sel和排除集S_exc进行调整。

进一步地，所述步骤1包括：

步骤11，对于特征集S中每一个特征x⁽ⁱ⁾，按照公式R_c(x⁽ⁱ⁾)＝I(x⁽ⁱ⁾；C)计算特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)，其中，I(x⁽ⁱ⁾；C)表示特征x⁽ⁱ⁾与目标类别C之间的互信息；

步骤12，按照关联度R_c(x⁽ⁱ⁾)的大小将特征集S中的特征从大到小排序，得到排序后的特征集S；

其中，x⁽ⁱ⁾表示特征集S中第i个特征，R_c(x⁽ⁱ⁾)表示特征x⁽ⁱ⁾与目标类别C之间的关联度。

进一步地，所述I(x⁽ⁱ⁾；C)表示为：

其中，c_k表示目标类别C的第k个类别，p(x⁽ⁱ⁾，c_k)表示特征x⁽ⁱ⁾和类别c_k同时出现的概率，p(x⁽ⁱ⁾|c_k)表示在c_k类别中特征x⁽ⁱ⁾出现的概率，p(x⁽ⁱ⁾)表示特征x⁽ⁱ⁾在特征集S中出现的概率。

进一步地，所述冗余度R_x表示为：

R_x(x⁽ⁱ⁾；x^(j))＝min(0，IG(x⁽ⁱ⁾；x^(j)；C))，i≠j

其中，IG(x⁽ⁱ⁾；x^(j)；C)表示特征集S中第i个特征x⁽ⁱ⁾与第j个特征x^(j)之间的相关度增益，R_x(x⁽ⁱ⁾；x^(j))表示特征x⁽ⁱ⁾与特征x^(j)之间冗余度，R_x(x⁽ⁱ⁾；x^(j))的值为0和相关度增益中的较小值。

进一步地，所述协同度S_x表示为：

S_x(x⁽ⁱ⁾；x^(j))＝max(0，IG(x⁽ⁱ⁾；x^(j)；C))，i≠j

其中，IG(x⁽ⁱ⁾；x^(j)；C)表示特征集S中第i个特征x⁽ⁱ⁾与第j个特征x^(j)之间的相关度增益，S_x(x⁽ⁱ⁾；x^(j))表示特征x⁽ⁱ⁾与特征x^(j)之间协同度，S_x(x⁽ⁱ⁾；x^(j))的值为0和相关度增益中的较大值。

进一步地，所述IG(x⁽ⁱ⁾；x^(j)；C)表示为：

IG(x⁽ⁱ⁾；x^(j)；C)＝I[(x⁽ⁱ⁾，x^(j))；C]-I(x⁽ⁱ⁾；C)-I(x^(j)；C)

其中，I(x⁽ⁱ⁾；C)表示特征x⁽ⁱ⁾与目标类别C之间的互信息；I(x^(j)；C）表示特征x^(j)与目标类别C之间的互信息；I((x⁽ⁱ⁾，x^(j)；C)表示特征x⁽ⁱ⁾、特征x^(j)与目标类别C之间的互信息。

进一步地，所述I((x⁽ⁱ⁾，x^(j)；C)表示为：

其中，c_k表示目标类别C的第k个类别，p(x⁽ⁱ⁾，x^(j)，c_k)表示特征x⁽ⁱ⁾、特征x^(j)和类别c_k同时出现的概率，p((x⁽ⁱ⁾，x^(j))|c_k)表示在c_k类别中特征x⁽ⁱ⁾和特征x^(j)同时出现的概率，p(x⁽ⁱ⁾，x^(j))表示特征x⁽ⁱ⁾和特征x^(j)同时在特征集S中出现的概率。

进一步地，所述步骤2包括：

步骤21：将特征集S中第一个特征添加到候选集S_sel，将排除集S_exc置为空集，即S_sel＝{x⁽¹⁾}，S_exc＝{ }，所述第一个特征对应的关联度R_c(x⁽ⁱ⁾)最大；

步骤22：从特征集S中第二个特征开始，用x⁽ⁱ⁾表示所述第二个特征，计算特征x⁽ⁱ⁾与候选集S_sel中所有特征之间的冗余度R_x和协同度S_x，并结合特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)计算特征x⁽ⁱ⁾的灵敏度Sen(x⁽ⁱ⁾)；

步骤23：将灵敏度Sen(x⁽ⁱ⁾)与预先设定的阈值th比较，若Sen(x⁽ⁱ⁾)＞th，则将特征x⁽ⁱ⁾加入候选集S_sel；否则将特征x⁽ⁱ⁾加入排除集S_exc；

步骤24：若x⁽ⁱ⁾为特征集S中最后一个特征，则结束划分；否则，将x⁽ⁱ⁾置为特征集S中下一个特征，回到步骤22。

进一步地，所述灵敏度Sen(x⁽ⁱ⁾)表示为：

Sen(x⁽ⁱ⁾)＝R_c(x⁽ⁱ⁾)+αmin(R_x(x⁽ⁱ⁾；x^(j)))

+βmax(S_x(x⁽ⁱ⁾；x^(j)))，j≠i

其中，α和β分别是冗余度R_x和协同度S_x的权值，min(R_x(x⁽ⁱ⁾；x^(j)))表示特征x⁽ⁱ⁾与其余特征之间冗余度的最小值，max(S_x(x⁽ⁱ⁾；x^(j)))表示特征x⁽ⁱ⁾与其余特征之间协同度的最大值，Sen(x⁽ⁱ⁾)表示特征x⁽ⁱ⁾对目标类别C的灵敏度，R_c(x⁽ⁱ⁾)表示特征x⁽ⁱ⁾与目标类别C之间的关联度。

进一步地，所述步骤3包括：

步骤31：令待定集S_tbd为空，即S_tbd＝{}，设x^(k)为排除集S_exc中的第一个特征，设x^(m)为候选集S_sel中的第一个特征；

步骤32：对于排除集S_exc中的特征x^(k)，计算候选集S_sel中的特征x^(m)与特征集S中除x^(m)之外的所有特征之间的协同度的最大值，即max(S_x(x^(m)；x⁽ⁱ⁾))，x⁽ⁱ⁾∈S，i≠m；

步骤33：若特征x^(m)的最大协同度对应的特征是x^(k)，则将x^(m)加入待定集S_tbd；

步骤34：若特征x^(m)是候选集S_sel中最后一个特征，且待定集S_tbd为空，则进入步骤36；若待定集S_tbd不为空，设x^(j)为待定集S_tbd中的第一个特征，进入步骤35；若特征x^(m)不是候选集S_sel中最后一个特征，则将特征x^(m)置为候选集S_sel中下一个特征，回到步骤32；

步骤35：对于待定集S_tbd中的特征x^(j)，按以下公式更新特征x^(j)的灵敏度：

Sen(x^(j))＝R_c(x^(j))+αmin(R_x(x^(j)；x⁽ⁿ⁾))

+βmax(S_x(x^(j)；x⁽ⁿ⁾))，x⁽ⁿ⁾∈S，n≠j，n≠k

将特征x^(j)的灵敏度Sen(x^(j))与预先设定的阈值th比较，若Sen(x^(j))＜th且则将特征x^(k)从排除集S_exc中移除，添加到候选集S_sel，进入步骤36；否则，若特征x^(j)是待定集S_tbd中最后一个元素，则直接进入步骤36；否则，将特征x^(j)置为待定集S_tbd中下一个元素，回到步骤35；

步骤36：若特征x^(k)是排除集S_exc中最后一个元素，则返回当前候选集S_sel和排除集S_exc作为最终特征选择的结果；否则，将特征x^(k)置为排除集S_exc中下一个元素，回到步骤31。

本发明的上述技术方案的有益效果如下：

上述方案中，通过特征集S和目标类别C，计算特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)及特征与特征之间的冗余度R_x和协同度S_x，从而计算出特征的灵敏度Sen；按照预先设定的阈值th对特征进行筛选，将特征集划分为候选集和排除集，且在后续过程中继续对候选集和排除集进行调整优化。这样，综合考虑了特征与目标类别之间及特征与特征之间的相互关系，通过关联度、冗余度和协同度，对特征进行选择，保留了对分类起关键作用的特征，有助于降低特征维度和分类复杂度，且能够提高分类准确性。

附图说明

图1为本发明实施例提供的文本分类特征选择方法的流程示意图；

图2为本发明实施例提供的文本分类特征选择方法的详细流程示意图；

图3为本发明实施例提供的特征选择方法划分候选集和排除集的流程示意图；

图4为本发明实施例提供的特征选择方法调整候选集和排除集的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的特征维度高或分类精度低的问题，提供一种文本分类特征选择方法。

如图1所示，本发明实施例提供的文本分类特征选择方法，包括：

步骤1：获取特征集S和目标类别C，计算特征集S中每一个特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)，并按照关联度R_c(x⁽ⁱ⁾)大小对特征集S进行降序排序；

本发明实施例所述的文本分类特征选择方法，通过特征集S和目标类别C，计算特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)及特征与特征之间的冗余度R_x和协同度S_x，从而计算出特征的灵敏度Sen；按照预先设定的阈值th对特征进行筛选，将特征集划分为候选集和排除集，且在后续过程中继续对候选集和排除集进行调整优化。这样，综合考虑了特征与目标类别之间及特征与特征之间的相互关系，通过关联度、冗余度和协同度，对特征进行选择，保留了对分类起关键作用的特征，有助于降低特征维度和分类复杂度，且能够提高分类准确性。

本实施例中，如图2所示，为了获取到特征集S和目标类别C，需先输入特征集S＝(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾)和目标类别C。

本实施例中，所述特征集S表示在文本分类过程中，所有特征(单个特征用x⁽ⁱ⁾表示，即单词向量)的集合，即S＝(x⁽¹⁾，x⁽²⁾，...，x⁽ⁿ⁾)，n表示特征集S中特征的数目；特征x⁽ⁱ⁾表示特征所对应单词在每个文本文件中出现的次数所构成的列向量，即目标类别C表示每个文本文件所对应的类别所构成的列向量，目标类别C是类别集合。

本实施例中，所述特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)为特征x⁽ⁱ⁾与目标类别C之间的互信息。

本实施例中，作为一可选实施例，所述计算特征集S中每一个特征x⁽ⁱ⁾与目标类别C之间的关联度R_c(x⁽ⁱ⁾)，并按照关联度R_c(x⁽ⁱ⁾)大小对特征集S进行降序排序(步骤1)包括：

本实施例中，所述

其中，I(x⁽ⁱ⁾；C)表示特征x⁽ⁱ⁾与目标类别C之间的互信息，c_k表示所述目标类别C第k个类别，p(x⁽ⁱ⁾，c_k)表示特征x⁽ⁱ⁾和类别c_k同时出现的概率，p(x⁽ⁱ⁾|c_k)表示在c_k类别中特征x⁽ⁱ⁾出现的概率，p(x⁽ⁱ⁾)表示特征x⁽ⁱ⁾在特征集S中出现的概率。

本实施例中，优选地，所述特征x⁽ⁱ⁾和类别c_k同时出现的概率p(x⁽ⁱ⁾，c_k)，由c_k类别文件中特征x⁽ⁱ⁾所对应的单词在所有文件中出现的频率来近似，即：

其中，表示特征x⁽ⁱ⁾的第j个元素(即特征x⁽ⁱ⁾所对应单词在第j个文件中出现的次数)；表示特征x⁽ⁱ⁾中对应目标类别是c_k的第m个元素(即特征x⁽ⁱ⁾所对应单词在第m个c_k类别文件中出现的次数)。

本实施例中，优选地，所述在c_k类别中特征x⁽ⁱ⁾出现的概率p(x⁽ⁱ⁾|c_k)，由特征x⁽ⁱ⁾所对应单词在c_k类别文件中出现的频率来近似，即：

本实施例中，优选地，所述特征x⁽ⁱ⁾在特征集S中出现的概率p(x⁽ⁱ⁾)，由特征x⁽ⁱ⁾所对应单词在所有文件中出现的频率来近似，即：

本实施例中，作为再一可选实施例，如图3所示，所述计算特征集S中每两个特征之间的冗余度R_x和协同度S_x，结合特征与目标类别之间的关联度R_c(x⁽ⁱ⁾)计算特征的灵敏度Sen，并将其与预先设定的阈值th比较，按照阈值th将特征集S划分为候选集S_sel和排除集S_exc(步骤2)包括：

在前述文本分类特征选择方法的具体实施方式中，进一步的，所述冗余度R_x表示为：

R_x(x⁽ⁱ⁾；x^(j))＝min(0，IG(x⁽ⁱ⁾；x^(j)；C))，i≠j

在前述文本分类特征选择方法的具体实施方式中，进一步的，所述协同度S_x表示为：

S_x(x⁽ⁱ⁾；x^(j))＝max(0，IG(x⁽ⁱ⁾；x^(j)；C))，i≠j

在前述文本分类特征选择方法的具体实施方式中，进一步地，所述IG(x⁽ⁱ⁾；x^(j)；C)表示为：

其中，I(x⁽ⁱ⁾；C)和I(x^(j)；C)与所述特征x⁽ⁱ⁾与目标类别C之间的互信息计算公式相同，I(x⁽ⁱ⁾；C)表示特征x⁽ⁱ⁾与目标类别C之间的互信息；I(x^(j)；C)表示特征x^(j)与目标类别C之间的互信息；I((x⁽ⁱ⁾，x^(j)；C)表示特征x⁽ⁱ⁾、特征x^(j)与目标类别C之间的互信息。

在前述文本分类特征选择方法的具体实施方式中，进一步地，所述I((x⁽ⁱ⁾，x^(j)；C)表示为：

其中，c_k表示目标类别C的第k个类别，p(x⁽ⁱ⁾，x^(j)，ck)表示特征x⁽ⁱ⁾、特征x^(j)和类别c_k同时出现的概率，p((x⁽ⁱ⁾，x^(j))|c_k)表示在c_k类别中特征x⁽ⁱ⁾和特征x^(j)同时出现的概率，p(x⁽ⁱ⁾，x^(j))表示特征x⁽ⁱ⁾和特征x^(j)同时在特征集S中出现的概率。

本实施例中，优选地，所述特征x⁽ⁱ⁾、特征x^(j)和类别c_k同时出现的概率p(x⁽ⁱ⁾，x^(j)，c_k)，由c_k类别文件中特征x⁽ⁱ⁾和特征x^(j)所对应的单词在所有文件中同时出现的频率来近似，即：

其中，表示特征x⁽ⁱ⁾和特征x^(j)中对应目标类别是c_k的第m个元素中的较小值(即特征x⁽ⁱ⁾和特征x^(j)二者所对应的单词在第m个c_k类别文件中出现的次数的较小值)。

本实施例中，优选地，所述在c_k类别中特征x⁽ⁱ⁾和特征x^(j)同时出现的概率p((x⁽ⁱ⁾，x^(j))|c_k)，由特征x⁽ⁱ⁾和特征x^(j)所对应的单词在c_k类别文件中同时出现的频率来近似，即：

本实施例中，优选地，所述特征x⁽ⁱ⁾和特征x^(j)在特征集S中同时出现的概率p(x⁽ⁱ⁾)，由特征x⁽ⁱ⁾和特征x^(j)所对应的单词在所有文件中同时出现的频率来近似，即：

在前述文本分类特征选择方法的具体实施方式中，进一步地，所述灵敏度Sen(x⁽ⁱ⁾)表示为：

Sen(x⁽ⁱ⁾)＝R_c(x⁽ⁱ⁾)+αmin(R_x(x⁽ⁱ⁾；x^(j)))

+βmax(S_x(x⁽ⁱ⁾；x^(j)))，j≠i

本实施例中，如图4所示，作为一可选实施例，所述计算候选集S_sel和排除集S_exc中的特征之间的灵敏度Sen，并将其与预先设定的阈值th比较，按照阈值th对候选集S_sel和排除集S_exc进行调整(步骤3)包括：

步骤34：若特征x^(m)是候选集S_sel中最后一个特征，且待定集S_tbd为空，则进入步骤36；若待定集S_tbd不为空，设x^(j)为待定集S_tbd中的第一个特征，进入步骤35；若特征x^(m)不是候选集S_sel中最后一个特征，则将特征x^(m)置为候选集Sse_l中下一个特征，回到步骤32；

Sen(x^(j))＝R_c(x^(j))+αmin(R_x(x^(j)；x⁽ⁿ⁾))

+βmax(S_x(x^(j)；x⁽ⁿ⁾))，x⁽ⁿ⁾∈S，n≠j，n≠k

本实施例中，根据步骤31-36，计算候选集S_sel和排除集S_exc中的特征之间的灵敏度Sen，并将其与预先设定的阈值th比较，按照阈值th对候选集S_sel和排除集S_exc进行调整，得到新的候选集S_sel和排除集S_exc，能够减小特征的移除或增加对分类结果的影响。

本实施例中，所述冗余度R_x权值α默认值可以为0.5；所述协同度S_x权值β默认值可以为0.5；所述预先设定的阈值th默认为可以为0.01。所述冗余度R_x权值α、协同度S_x权值β和预先设定的阈值th均在后续训练和测试过程中通过遗传算法优化与更新。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本分类特征选择方法，其特征在于，包括：

2.根据权利要求1所述的文本分类特征选择方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的文本分类特征选择方法，其特征在于，所述I(x⁽ⁱ⁾；C)表示为：

4.根据权利要求1所述的文本分类特征选择方法，其特征在于，所述冗余度R_x表示为：

R_x(x⁽ⁱ⁾；x^(j))＝min(0，IG(x⁽ⁱ⁾；x^(j)；C))；i≠j

5.根据权利要求1所述的文本分类特征选择方法，其特征在于，所述协同度S_x表示为：

S_x(x⁽ⁱ⁾；x^(j))＝max(0，IG(x⁽ⁱ⁾；x^(j)；C))；i≠j

6.根据权利要求4或5所述的文本分类特征选择方法，其特征在于，所述IG(x⁽ⁱ⁾；x^(j)；C)表示为：

其中，I(x⁽ⁱ⁾；C)表示特征x⁽ⁱ⁾与目标类别C之间的互信息；I(x^(j)；C)表示特征x^(j)与目标类别C之间的互信息；I((x⁽ⁱ⁾，x^(j)；C)表示特征x⁽ⁱ⁾、特征x^(j)与目标类别C之间的互信息。

7.根据权利要求6所述的文本分类特征选择方法，其特征在于，所述I((x⁽ⁱ⁾，x^(j)；C)表示为：

其中，c_k表示目标类别C的第k个类别，p(x⁽ⁱ⁾，x^(j)，c_k)表示特征x⁽ⁱ⁾、特征x^(j)和类别c_k同时出现的概率，p((x⁽ⁱ⁾，x^(j)|c_k)表示在c_k类别中特征x⁽ⁱ⁾和特征x^(j)同时出现的概率，p(x⁽ⁱ⁾，x^(j))表示特征x⁽ⁱ⁾和特征x^(j)同时在特征集S中出现的概率。

8.根据权利要求1所述的文本分类特征选择方法，其特征在于，所述步骤2包括：

步骤21：将特征集S中第一个特征添加到候选集S_sel，将排除集S_exc置为空集，即S_sel＝{x⁽¹⁾}，S_exc＝{}，所述第一个特征对应的关联度R_c(x⁽ⁱ⁾)最大；

步骤23：将灵敏度Sen(x⁽ⁱ⁾)与预先设定的阈值th比较，若Ssen(x⁽ⁱ⁾)＞th，则将特征x⁽ⁱ⁾加入候选集S_sel；否则将特征x⁽ⁱ⁾加入排除集S_exc；

9.根据权利要求8所述的文本分类特征选择方法，其特征在于，所述灵敏度Sen(x⁽ⁱ⁾)表示为：

Sen(x⁽ⁱ⁾)＝R_c(x⁽ⁱ⁾)+αmin(R_x(x⁽ⁱ⁾；x^(j)))

+βmax(S_x(x⁽ⁱ⁾；x^(j)))，j≠i

10.根据权利要求1所述的文本分类特征选择方法，其特征在于，所述步骤3包括：

步骤31：令待定集S_tbd为空，即S_tbd＝{ }，设x^(k)为排除集S_exc中的第一个特征，设x^(m)为候选集S_sel中的第一个特征；

步骤32：对于排除集S_exc中的特征s^(k)，计算候选集S_sel中的特征x^(m)与特征集S中除x^(m)之外的所有特征之间的协同度的最大值，即max(S_x(x^(m)；x⁽ⁱ⁾))，x⁽ⁱ⁾∈S，i≠m；

Sen(x^(j))＝R_c(x^(j))+αmin(R_x(x^(j)；x⁽ⁿ⁾))

+βmax(S_x(x^(j)；x⁽ⁿ⁾))，x⁽ⁿ⁾∈S，n≠j，n≠k