CN107016073A - 一种文本分类特征选择方法 - Google Patents

一种文本分类特征选择方法 Download PDF

Info

Publication number
CN107016073A
CN107016073A CN201710181572.8A CN201710181572A CN107016073A CN 107016073 A CN107016073 A CN 107016073A CN 201710181572 A CN201710181572 A CN 201710181572A CN 107016073 A CN107016073 A CN 107016073A
Authority
CN
China
Prior art keywords
feature
classification
sel
degree
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710181572.8A
Other languages
English (en)
Other versions
CN107016073B (zh
Inventor
张晓彤
余伟伟
刘喆
王璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201710181572.8A priority Critical patent/CN107016073B/zh
Publication of CN107016073A publication Critical patent/CN107016073A/zh
Application granted granted Critical
Publication of CN107016073B publication Critical patent/CN107016073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类特征选择方法,能够降低特征维度和分类复杂度、并提高分类准确性。所述方法包括:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。本发明适用于机器学习文本分类领域。

Description

一种文本分类特征选择方法
技术领域
本发明涉及机器学习文本分类领域,特别是指一种文本分类特征选择方法。
背景技术
随着互联网规模的不断扩大,汇聚在互联网中的信息资源也不断增多。为了有效的管理和方便的利用这些信息资源,基于内容的信息检索和数据挖掘一直以来备受关注。文本分类技术是信息检索和文本数据挖掘的重要基础,其主要任务是根据未知类别的文字和文档的内容,将它们判别为预先给定类别中的一个或多个。然而,训练样本数量大和向量维数高这两大特点,决定了文本分类是一个运算时间和空间复杂度都很高的机器学习问题。因此,我们需要进行特征选择,在尽可能保证分类性能的同时降低特征维度。
特征选择是一个重要的数据预处理过程,在常用的文本分类特征选择方法中,卡方检验(Chi-Square)通过建立零假说,假定词与目标类别不相关,选择偏离假设程度大的词作为特征。但它只统计文档中是否出现某词,而不管出现了几次,这使得它对低频词有所偏袒。互信息(Mutual Information)方法通过度量词的存在给目标类别带来的信息量来选择特征。但它只考虑了词与目标类别之间的关联度,忽视了词与词之间可能存在的依赖。TF-IDF(Term Frequency-Inverse Document Frequency)方法综合考虑词在文件中出现的频率和词在所有文件中的分布来评估词的重要程度,从而进行特征选取。但是它只是单纯的认为文本频率小的词就越重要而文本频率大的词就越无用,因此精度并不是很高。此外还有信息增益、优势率、文本证据权、期望交叉熵等特征选择方法,它们大多都是只考虑了词与目标类别之间的相关程度或词与词之间的相关程度,容易出现降维程度不够或分类精度不高的问题。
发明内容
本发明要解决的技术问题是提供一种文本分类特征选择方法,以解决现有技术所存在的特征维度高或分类精度低的问题。
为解决上述技术问题,本发明实施例提供一种文本分类特征选择方法,包括:
步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc大小对特征集S进行降序排序;
步骤2:计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc
步骤3:计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。
进一步地,所述步骤1包括:
步骤11,对于特征集S中每一个特征x(i),按照公式Rc(x(i))=I(x(i);C)计算特征x(i)与目标类别C之间的关联度Rc(x(i)),其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;
步骤12,按照关联度Rc(x(i))的大小将特征集S中的特征从大到小排序,得到排序后的特征集S;
其中,x(i)表示特征集S中第i个特征,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
进一步地,所述I(x(i);C)表示为:
其中,ck表示目标类别C的第k个类别,p(x(i),ck)表示特征x(i)和类别ck同时出现的概率,p(x(i)|ck)表示在ck类别中特征x(i)出现的概率,p(x(i))表示特征x(i)在特征集S中出现的概率。
进一步地,所述冗余度Rx表示为:
Rx(x(i);x(j))=min(0,IG(x(i);x(j);C)),i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Rx(x(i);x(j))表示特征x(i)与特征x(j)之间冗余度,Rx(x(i);x(j))的值为0和相关度增益中的较小值。
进一步地,所述协同度Sx表示为:
Sx(x(i);x(j))=max(0,IG(x(i);x(j);C)),i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Sx(x(i);x(j))表示特征x(i)与特征x(j)之间协同度,Sx(x(i);x(j))的值为0和相关度增益中的较大值。
进一步地,所述IG(x(i);x(j);C)表示为:
IG(x(i);x(j);C)=I[(x(i),x(j));C]-I(x(i);C)-I(x(j);C)
其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;I(x(j);C)表示特征x(j)与目标类别C之间的互信息;I((x(i),x(j);C)表示特征x(i)、特征x(j)与目标类别C之间的互信息。
进一步地,所述I((x(i),x(j);C)表示为:
其中,ck表示目标类别C的第k个类别,p(x(i),x(j),ck)表示特征x(i)、特征x(j)和类别ck同时出现的概率,p((x(i),x(j))|ck)表示在ck类别中特征x(i)和特征x(j)同时出现的概率,p(x(i),x(j))表示特征x(i)和特征x(j)同时在特征集S中出现的概率。
进一步地,所述步骤2包括:
步骤21:将特征集S中第一个特征添加到候选集Ssel,将排除集Sexc置为空集,即Ssel={x(1)},Sexc={ },所述第一个特征对应的关联度Rc(x(i))最大;
步骤22:从特征集S中第二个特征开始,用x(i)表示所述第二个特征,计算特征x(i)与候选集Ssel中所有特征之间的冗余度Rx和协同度Sx,并结合特征与目标类别之间的关联度Rc(x(i))计算特征x(i)的灵敏度Sen(x(i));
步骤23:将灵敏度Sen(x(i))与预先设定的阈值th比较,若Sen(x(i))>th,则将特征x(i)加入候选集Ssel;否则将特征x(i)加入排除集Sexc
步骤24:若x(i)为特征集S中最后一个特征,则结束划分;否则,将x(i)置为特征集S中下一个特征,回到步骤22。
进一步地,所述灵敏度Sen(x(i))表示为:
Sen(x(i))=Rc(x(i))+αmin(Rx(x(i);x(j)))
+βmax(Sx(x(i);x(j))),j≠i
其中,α和β分别是冗余度Rx和协同度Sx的权值,min(Rx(x(i);x(j)))表示特征x(i)与其余特征之间冗余度的最小值,max(Sx(x(i);x(j)))表示特征x(i)与其余特征之间协同度的最大值,Sen(x(i))表示特征x(i)对目标类别C的灵敏度,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
进一步地,所述步骤3包括:
步骤31:令待定集Stbd为空,即Stbd={},设x(k)为排除集Sexc中的第一个特征,设x(m)为候选集Ssel中的第一个特征;
步骤32:对于排除集Sexc中的特征x(k),计算候选集Ssel中的特征x(m)与特征集S中除x(m)之外的所有特征之间的协同度的最大值,即max(Sx(x(m);x(i))),x(i)∈S,i≠m;
步骤33:若特征x(m)的最大协同度对应的特征是x(k),则将x(m)加入待定集Stbd
步骤34:若特征x(m)是候选集Ssel中最后一个特征,且待定集Stbd为空,则进入步骤36;若待定集Stbd不为空,设x(j)为待定集Stbd中的第一个特征,进入步骤35;若特征x(m)不是候选集Ssel中最后一个特征,则将特征x(m)置为候选集Ssel中下一个特征,回到步骤32;
步骤35:对于待定集Stbd中的特征x(j),按以下公式更新特征x(j)的灵敏度:
Sen(x(j))=Rc(x(j))+αmin(Rx(x(j);x(n)))
+βmax(Sx(x(j);x(n))),x(n)∈S,n≠j,n≠k
将特征x(j)的灵敏度Sen(x(j))与预先设定的阈值th比较,若Sen(x(j))<th且则将特征x(k)从排除集Sexc中移除,添加到候选集Ssel,进入步骤36;否则,若特征x(j)是待定集Stbd中最后一个元素,则直接进入步骤36;否则,将特征x(j)置为待定集Stbd中下一个元素,回到步骤35;
步骤36:若特征x(k)是排除集Sexc中最后一个元素,则返回当前候选集Ssel和排除集Sexc作为最终特征选择的结果;否则,将特征x(k)置为排除集Sexc中下一个元素,回到步骤31。
本发明的上述技术方案的有益效果如下:
上述方案中,通过特征集S和目标类别C,计算特征与目标类别之间的关联度Rc(x(i))及特征与特征之间的冗余度Rx和协同度Sx,从而计算出特征的灵敏度Sen;按照预先设定的阈值th对特征进行筛选,将特征集划分为候选集和排除集,且在后续过程中继续对候选集和排除集进行调整优化。这样,综合考虑了特征与目标类别之间及特征与特征之间的相互关系,通过关联度、冗余度和协同度,对特征进行选择,保留了对分类起关键作用的特征,有助于降低特征维度和分类复杂度,且能够提高分类准确性。
附图说明
图1为本发明实施例提供的文本分类特征选择方法的流程示意图;
图2为本发明实施例提供的文本分类特征选择方法的详细流程示意图;
图3为本发明实施例提供的特征选择方法划分候选集和排除集的流程示意图;
图4为本发明实施例提供的特征选择方法调整候选集和排除集的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的特征维度高或分类精度低的问题,提供一种文本分类特征选择方法。
如图1所示,本发明实施例提供的文本分类特征选择方法,包括:
步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;
步骤2:计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc
步骤3:计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。
本发明实施例所述的文本分类特征选择方法,通过特征集S和目标类别C,计算特征与目标类别之间的关联度Rc(x(i))及特征与特征之间的冗余度Rx和协同度Sx,从而计算出特征的灵敏度Sen;按照预先设定的阈值th对特征进行筛选,将特征集划分为候选集和排除集,且在后续过程中继续对候选集和排除集进行调整优化。这样,综合考虑了特征与目标类别之间及特征与特征之间的相互关系,通过关联度、冗余度和协同度,对特征进行选择,保留了对分类起关键作用的特征,有助于降低特征维度和分类复杂度,且能够提高分类准确性。
本实施例中,如图2所示,为了获取到特征集S和目标类别C,需先输入特征集S=(x(1),x(2),...,x(n))和目标类别C。
本实施例中,所述特征集S表示在文本分类过程中,所有特征(单个特征用x(i)表示,即单词向量)的集合,即S=(x(1),x(2),...,x(n)),n表示特征集S中特征的数目;特征x(i)表示特征所对应单词在每个文本文件中出现的次数所构成的列向量,即目标类别C表示每个文本文件所对应的类别所构成的列向量,目标类别C是类别集合。
本实施例中,所述特征x(i)与目标类别C之间的关联度Rc(x(i))为特征x(i)与目标类别C之间的互信息。
本实施例中,作为一可选实施例,所述计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序(步骤1)包括:
步骤11,对于特征集S中每一个特征x(i),按照公式Rc(x(i))=I(x(i);C)计算特征x(i)与目标类别C之间的关联度Rc(x(i)),其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;
步骤12,按照关联度Rc(x(i))的大小将特征集S中的特征从大到小排序,得到排序后的特征集S;
其中,x(i)表示特征集S中第i个特征,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
本实施例中,所述
其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息,ck表示所述目标类别C第k个类别,p(x(i),ck)表示特征x(i)和类别ck同时出现的概率,p(x(i)|ck)表示在ck类别中特征x(i)出现的概率,p(x(i))表示特征x(i)在特征集S中出现的概率。
本实施例中,优选地,所述特征x(i)和类别ck同时出现的概率p(x(i),ck),由ck类别文件中特征x(i)所对应的单词在所有文件中出现的频率来近似,即:
其中,表示特征x(i)的第j个元素(即特征x(i)所对应单词在第j个文件中出现的次数);表示特征x(i)中对应目标类别是ck的第m个元素(即特征x(i)所对应单词在第m个ck类别文件中出现的次数)。
本实施例中,优选地,所述在ck类别中特征x(i)出现的概率p(x(i)|ck),由特征x(i)所对应单词在ck类别文件中出现的频率来近似,即:
本实施例中,优选地,所述特征x(i)在特征集S中出现的概率p(x(i)),由特征x(i)所对应单词在所有文件中出现的频率来近似,即:
本实施例中,作为再一可选实施例,如图3所示,所述计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc(步骤2)包括:
步骤21:将特征集S中第一个特征添加到候选集Ssel,将排除集Sexc置为空集,即Ssel={x(1)},Sexc={ },所述第一个特征对应的关联度Rc(x(i))最大;
步骤22:从特征集S中第二个特征开始,用x(i)表示所述第二个特征,计算特征x(i)与候选集Ssel中所有特征之间的冗余度Rx和协同度Sx,并结合特征与目标类别之间的关联度Rc(x(i))计算特征x(i)的灵敏度Sen(x(i));
步骤23:将灵敏度Sen(x(i))与预先设定的阈值th比较,若Sen(x(i))>th,则将特征x(i)加入候选集Ssel;否则将特征x(i)加入排除集Sexc
步骤24:若x(i)为特征集S中最后一个特征,则结束划分;否则,将x(i)置为特征集S中下一个特征,回到步骤22。
在前述文本分类特征选择方法的具体实施方式中,进一步的,所述冗余度Rx表示为:
Rx(x(i);x(j))=min(0,IG(x(i);x(j);C)),i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Rx(x(i);x(j))表示特征x(i)与特征x(j)之间冗余度,Rx(x(i);x(j))的值为0和相关度增益中的较小值。
在前述文本分类特征选择方法的具体实施方式中,进一步的,所述协同度Sx表示为:
Sx(x(i);x(j))=max(0,IG(x(i);x(j);C)),i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Sx(x(i);x(j))表示特征x(i)与特征x(j)之间协同度,Sx(x(i);x(j))的值为0和相关度增益中的较大值。
在前述文本分类特征选择方法的具体实施方式中,进一步地,所述IG(x(i);x(j);C)表示为:
IG(x(i);x(j);C)=I[(x(i),x(j));C]-I(x(i);C)-I(x(j);C)
其中,I(x(i);C)和I(x(j);C)与所述特征x(i)与目标类别C之间的互信息计算公式相同,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;I(x(j);C)表示特征x(j)与目标类别C之间的互信息;I((x(i),x(j);C)表示特征x(i)、特征x(j)与目标类别C之间的互信息。
在前述文本分类特征选择方法的具体实施方式中,进一步地,所述I((x(i),x(j);C)表示为:
其中,ck表示目标类别C的第k个类别,p(x(i),x(j),ck)表示特征x(i)、特征x(j)和类别ck同时出现的概率,p((x(i),x(j))|ck)表示在ck类别中特征x(i)和特征x(j)同时出现的概率,p(x(i),x(j))表示特征x(i)和特征x(j)同时在特征集S中出现的概率。
本实施例中,优选地,所述特征x(i)、特征x(j)和类别ck同时出现的概率p(x(i),x(j),ck),由ck类别文件中特征x(i)和特征x(j)所对应的单词在所有文件中同时出现的频率来近似,即:
其中,表示特征x(i)和特征x(j)中对应目标类别是ck的第m个元素中的较小值(即特征x(i)和特征x(j)二者所对应的单词在第m个ck类别文件中出现的次数的较小值)。
本实施例中,优选地,所述在ck类别中特征x(i)和特征x(j)同时出现的概率p((x(i),x(j))|ck),由特征x(i)和特征x(j)所对应的单词在ck类别文件中同时出现的频率来近似,即:
本实施例中,优选地,所述特征x(i)和特征x(j)在特征集S中同时出现的概率p(x(i)),由特征x(i)和特征x(j)所对应的单词在所有文件中同时出现的频率来近似,即:
在前述文本分类特征选择方法的具体实施方式中,进一步地,所述灵敏度Sen(x(i))表示为:
Sen(x(i))=Rc(x(i))+αmin(Rx(x(i);x(j)))
+βmax(Sx(x(i);x(j))),j≠i
其中,α和β分别是冗余度Rx和协同度Sx的权值,min(Rx(x(i);x(j)))表示特征x(i)与其余特征之间冗余度的最小值,max(Sx(x(i);x(j)))表示特征x(i)与其余特征之间协同度的最大值,Sen(x(i))表示特征x(i)对目标类别C的灵敏度,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
本实施例中,如图4所示,作为一可选实施例,所述计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整(步骤3)包括:
步骤31:令待定集Stbd为空,即Stbd={},设x(k)为排除集Sexc中的第一个特征,设x(m)为候选集Ssel中的第一个特征;
步骤32:对于排除集Sexc中的特征x(k),计算候选集Ssel中的特征x(m)与特征集S中除x(m)之外的所有特征之间的协同度的最大值,即max(Sx(x(m);x(i))),x(i)∈S,i≠m;
步骤33:若特征x(m)的最大协同度对应的特征是x(k),则将x(m)加入待定集Stbd
步骤34:若特征x(m)是候选集Ssel中最后一个特征,且待定集Stbd为空,则进入步骤36;若待定集Stbd不为空,设x(j)为待定集Stbd中的第一个特征,进入步骤35;若特征x(m)不是候选集Ssel中最后一个特征,则将特征x(m)置为候选集Ssel中下一个特征,回到步骤32;
步骤35:对于待定集Stbd中的特征x(j),按以下公式更新特征x(j)的灵敏度:
Sen(x(j))=Rc(x(j))+αmin(Rx(x(j);x(n)))
+βmax(Sx(x(j);x(n))),x(n)∈S,n≠j,n≠k
将特征x(j)的灵敏度Sen(x(j))与预先设定的阈值th比较,若Sen(x(j))<th且则将特征x(k)从排除集Sexc中移除,添加到候选集Ssel,进入步骤36;否则,若特征x(j)是待定集Stbd中最后一个元素,则直接进入步骤36;否则,将特征x(j)置为待定集Stbd中下一个元素,回到步骤35;
步骤36:若特征x(k)是排除集Sexc中最后一个元素,则返回当前候选集Ssel和排除集Sexc作为最终特征选择的结果;否则,将特征x(k)置为排除集Sexc中下一个元素,回到步骤31。
本实施例中,根据步骤31-36,计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整,得到新的候选集Ssel和排除集Sexc,能够减小特征的移除或增加对分类结果的影响。
本实施例中,所述冗余度Rx权值α默认值可以为0.5;所述协同度Sx权值β默认值可以为0.5;所述预先设定的阈值th默认为可以为0.01。所述冗余度Rx权值α、协同度Sx权值β和预先设定的阈值th均在后续训练和测试过程中通过遗传算法优化与更新。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本分类特征选择方法,其特征在于,包括:
步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;
步骤2:计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc
步骤3:计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。
2.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述步骤1包括:
步骤11,对于特征集S中每一个特征x(i),按照公式Rc(x(i))=I(x(i);C)计算特征x(i)与目标类别C之间的关联度Rc(x(i)),其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;
步骤12,按照关联度Rc(x(i))的大小将特征集S中的特征从大到小排序,得到排序后的特征集S;
其中,x(i)表示特征集S中第i个特征,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
3.根据权利要求2所述的文本分类特征选择方法,其特征在于,所述I(x(i);C)表示为:
其中,ck表示目标类别C的第k个类别,p(x(i),ck)表示特征x(i)和类别ck同时出现的概率,p(x(i)|ck)表示在ck类别中特征x(i)出现的概率,p(x(i))表示特征x(i)在特征集S中出现的概率。
4.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述冗余度Rx表示为:
Rx(x(i);x(j))=min(0,IG(x(i);x(j);C));i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Rx(x(i);x(j))表示特征x(i)与特征x(j)之间冗余度,Rx(x(i);x(j))的值为0和相关度增益中的较小值。
5.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述协同度Sx表示为:
Sx(x(i);x(j))=max(0,IG(x(i);x(j);C));i≠j
其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Sx(x(i);x(j))表示特征x(i)与特征x(j)之间协同度,Sx(x(i);x(j))的值为0和相关度增益中的较大值。
6.根据权利要求4或5所述的文本分类特征选择方法,其特征在于,所述IG(x(i);x(j);C)表示为:
IG(x(i);x(j);C)=I[(x(i),x(j));C]-I(x(i);C)-I(x(j);C)
其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;I(x(j);C)表示特征x(j)与目标类别C之间的互信息;I((x(i),x(j);C)表示特征x(i)、特征x(j)与目标类别C之间的互信息。
7.根据权利要求6所述的文本分类特征选择方法,其特征在于,所述I((x(i),x(j);C)表示为:
其中,ck表示目标类别C的第k个类别,p(x(i),x(j),ck)表示特征x(i)、特征x(j)和类别ck同时出现的概率,p((x(i),x(j)|ck)表示在ck类别中特征x(i)和特征x(j)同时出现的概率,p(x(i),x(j))表示特征x(i)和特征x(j)同时在特征集S中出现的概率。
8.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述步骤2包括:
步骤21:将特征集S中第一个特征添加到候选集Ssel,将排除集Sexc置为空集,即Ssel={x(1)},Sexc={},所述第一个特征对应的关联度Rc(x(i))最大;
步骤22:从特征集S中第二个特征开始,用x(i)表示所述第二个特征,计算特征x(i)与候选集Ssel中所有特征之间的冗余度Rx和协同度Sx,并结合特征与目标类别之间的关联度Rc(x(i))计算特征x(i)的灵敏度Sen(x(i));
步骤23:将灵敏度Sen(x(i))与预先设定的阈值th比较,若Ssen(x(i))>th,则将特征x(i)加入候选集Ssel;否则将特征x(i)加入排除集Sexc
步骤24:若x(i)为特征集S中最后一个特征,则结束划分;否则,将x(i)置为特征集S中下一个特征,回到步骤22。
9.根据权利要求8所述的文本分类特征选择方法,其特征在于,所述灵敏度Sen(x(i))表示为:
Sen(x(i))=Rc(x(i))+αmin(Rx(x(i);x(j)))
+βmax(Sx(x(i);x(j))),j≠i
其中,α和β分别是冗余度Rx和协同度Sx的权值,min(Rx(x(i);x(j)))表示特征x(i)与其余特征之间冗余度的最小值,max(Sx(x(i);x(j)))表示特征x(i)与其余特征之间协同度的最大值,Sen(x(i))表示特征x(i)对目标类别C的灵敏度,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。
10.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述步骤3包括:
步骤31:令待定集Stbd为空,即Stbd={ },设x(k)为排除集Sexc中的第一个特征,设x(m)为候选集Ssel中的第一个特征;
步骤32:对于排除集Sexc中的特征s(k),计算候选集Ssel中的特征x(m)与特征集S中除x(m)之外的所有特征之间的协同度的最大值,即max(Sx(x(m);x(i))),x(i)∈S,i≠m;
步骤33:若特征x(m)的最大协同度对应的特征是x(k),则将x(m)加入待定集Stbd
步骤34:若特征x(m)是候选集Ssel中最后一个特征,且待定集Stbd为空,则进入步骤36;若待定集Stbd不为空,设x(j)为待定集Stbd中的第一个特征,进入步骤35;若特征x(m)不是候选集Ssel中最后一个特征,则将特征x(m)置为候选集Ssel中下一个特征,回到步骤32;
步骤35:对于待定集Stbd中的特征x(j),按以下公式更新特征x(j)的灵敏度:
Sen(x(j))=Rc(x(j))+αmin(Rx(x(j);x(n)))
+βmax(Sx(x(j);x(n))),x(n)∈S,n≠j,n≠k
将特征x(j)的灵敏度Sen(x(j))与预先设定的阈值th比较,若Sen(x(j))<th且则将特征x(k)从排除集Sexc中移除,添加到候选集Ssel,进入步骤36;否则,若特征x(j)是待定集Stbd中最后一个元素,则直接进入步骤36;否则,将特征x(j)置为待定集Stbd中下一个元素,回到步骤35;
步骤36:若特征x(k)是排除集Sexc中最后一个元素,则返回当前候选集Ssel和排除集Sexc作为最终特征选择的结果;否则,将特征x(k)置为排除集Sexc中下一个元素,回到步骤31。
CN201710181572.8A 2017-03-24 2017-03-24 一种文本分类特征选择方法 Active CN107016073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710181572.8A CN107016073B (zh) 2017-03-24 2017-03-24 一种文本分类特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710181572.8A CN107016073B (zh) 2017-03-24 2017-03-24 一种文本分类特征选择方法

Publications (2)

Publication Number Publication Date
CN107016073A true CN107016073A (zh) 2017-08-04
CN107016073B CN107016073B (zh) 2019-06-28

Family

ID=59445053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710181572.8A Active CN107016073B (zh) 2017-03-24 2017-03-24 一种文本分类特征选择方法

Country Status (1)

Country Link
CN (1) CN107016073B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN111612385A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种对待配送物品进行聚类的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278409A1 (en) * 2004-07-30 2014-09-18 At&T Intellectual Property Ii, L.P. Preserving privacy in natural langauge databases
CN105184323A (zh) * 2015-09-15 2015-12-23 广州唯品会信息科技有限公司 特征选择方法及***
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278409A1 (en) * 2004-07-30 2014-09-18 At&T Intellectual Property Ii, L.P. Preserving privacy in natural langauge databases
CN105184323A (zh) * 2015-09-15 2015-12-23 广州唯品会信息科技有限公司 特征选择方法及***
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周茜 等: "中文文本分类中的特征选择研究", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN109934251B (zh) * 2018-12-27 2021-08-06 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN111612385A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种对待配送物品进行聚类的方法和装置
CN111612385B (zh) * 2019-02-22 2024-04-16 北京京东振世信息技术有限公司 一种对待配送物品进行聚类的方法和装置

Also Published As

Publication number Publication date
CN107016073B (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
US20200293924A1 (en) Gbdt model feature interpretation method and apparatus
CN110555717A (zh) 基于用户行为特征挖掘用户潜在购买商品和品类的方法
Al Qadi et al. Arabic text classification of news articles using classical supervised classifiers
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN103617429A (zh) 一种主动学习分类方法和***
US10387805B2 (en) System and method for ranking news feeds
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类***
CN109933644B (zh) 一种字符串匹配方法及装置
CN103838798A (zh) 页面分类***及页面分类方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN109933619A (zh) 一种半监督分类预测方法
CN112085086A (zh) 一种基于图卷积神经网络的多源迁移学习方法
US20230325632A1 (en) Automated anomaly detection using a hybrid machine learning system
CN105359172A (zh) 计算企业存在拖欠的概率
US20230138491A1 (en) Continuous learning for document processing and analysis
CN107016073A (zh) 一种文本分类特征选择方法
CN109101574B (zh) 一种数据防泄漏***的任务审批方法和***
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
US20230134218A1 (en) Continuous learning for document processing and analysis
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN113033170B (zh) 表格标准化处理方法、装置、设备及存储介质
CN104778478A (zh) 一种手写数字识别方法
CN103207893A (zh) 基于向量组映射的两类文本的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant