CN114896398A - 一种基于特征选择的文本分类***及方法 - Google Patents

一种基于特征选择的文本分类***及方法 Download PDF

Info

Publication number
CN114896398A
CN114896398A CN202210479218.4A CN202210479218A CN114896398A CN 114896398 A CN114896398 A CN 114896398A CN 202210479218 A CN202210479218 A CN 202210479218A CN 114896398 A CN114896398 A CN 114896398A
Authority
CN
China
Prior art keywords
text
feature
chi
category
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210479218.4A
Other languages
English (en)
Inventor
陆音
胡洁
吴珞铖
郭永安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210479218.4A priority Critical patent/CN114896398A/zh
Publication of CN114896398A publication Critical patent/CN114896398A/zh
Priority to US18/097,329 priority patent/US11960521B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了自然语言处理和短文本分类技术领域的一种基于特征选择的文本分类***及方法,包括:获取文本分类数据集;将文本分类数据集分为训练文本集和测试文本集后,进行预处理;将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;使用TF‑IWF算法赋予已经提取的特征词条的权重;基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;通过短文本分类模型对预处理后的测试文本集进行分类。本发明一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。

Description

一种基于特征选择的文本分类***及方法
技术领域
本发明涉及一种基于特征选择的文本分类***及方法,属于自然语言处理和短文本分类技术领域。
背景技术
随着互联网的飞速发展,中国的网民人数也在持续不断地增加,再加上社交网络电商平台的兴起,让信息数据呈指数级***式增长,这其中尤指短文本数据。
庞大的信息量是一把双刃剑,既方便我们获取信息,也给人们带来了前所未有的挑战,处于冗余的信息当中的我们,如何快速准确找到自己需要的信息是亟待解决的难题。这些数据主要是以短文本的形式出现,并且在各行各业当中也扮演着越来越重要的角色了,我们也越来越离不开短文本式信息。而且这些短文本能直接反映出人们对事件的态度,在舆情分析方面有意义,逐渐演变成自然语言处理的一个分支。
这些信息以短小为主,与普通的文本有很大的不同,长度可以短到几个字。短文本的特点是什么?信息更新快,实时性高,用词重复率不高,总量大、新词出现频繁且不规则,语义特征稀疏,在分类过程中特征不显著,目前流行的分类算法适用在长文本分类,直接应用在短文本上,效果不佳。
想要提高对短文本的精准分类,一般是有两种方法,一是引入外部语料库,拓展语料,增强语义,以便提高分类精度,但是缺点是依赖语料库的质量。另一种是基于文本的自身特征,通过挖掘词频等关键信息获得特征,这也是特征选择,从而提高短文本分类效果。特征选择本质上也是特征降维,因为经过向量化的文本通常会出现“维数灾难”现象。降维后的特征词对于分类作用的大小还需体现在分类权重上。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于特征选择的文本分类***及方法,旨在解决特征选择不足和特征值权重范围小的问题,从而提升短文本分类的准确率。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于特征选择的文本分类方法,包括:
获取文本分类数据集;
将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
使用TF-IWF算法赋予已经提取的特征词条的权重;
基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
通过短文本分类模型对测试文本集进行分类。
进一步的,所述预处理包括先对文本进行包括去除停用词的规范处理,再选择Jieba分词工具对处理后的短文本内容进行分词,得到分词后的训练文本集和测试文本集,并存放到文本数据库。
进一步的,将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集,包括:
将文本数据库中每个特征项及其相关类别信息提取出来;
计算特征词t相对于每个类别的词频调节参数α(t,cj)、类内位置参数β和负相关修正因子γ;
运用改进后的公式计算词条对于每个类别的IMP_CHI值;
根据改进的卡方统计,得到特征项t对于整个训练集的IMP_CHI值;
计算整个训练集的IMP_CHI值后,按照IMP_CHI值从大到小排列,选取前M个词作为文档表示的特征构成最终的特征子集。
进一步的,所述改进的卡方统计式为:
IMP_CHI(t,cj)=x2(t,ci)×α(t,cj)×β×γ
其中,α(t,cj)为词频调节参数,β为类内位置参数,γ为负相关修正因子,x2(t,ci)为传统的卡方统计的计算公式,表示为:
Figure BDA0003627017430000031
其中,N表示训练集中所有文本总数,A是属于类别ci且包含特征t的文本,B是不属于类别ci且包含特征t的文本,C是属于类别ci且不包含特征t的文本,D是不属于类别ci且也不包含特征t的文本;
对于多类问题,特征项对于整个训练集的统计量计算方法表达式为:
Figure BDA0003627017430000032
其中,m为类别数。
进一步的,所述词频调节参数α(t,cj)的计算公式如下:
Figure BDA0003627017430000033
其中,N表示训练集中所有文本总数,n表示在文本集中包含特征词t的文档数量,tf(t,ci)表示在类别ci文本中出现的次数,
Figure BDA0003627017430000034
表示在所有类别文档中全部出现的次数,词频调节参数α(t,ci)表示,计算特征项在每个类别中的词频数与其在所有类别中的词频总数的比值;α(t,ci)值越大,表示特征项在文本集某类别中出现得越频繁,对相应类别的区分能力就越强;
所述类内位置参数β的计算公式如下:
Figure BDA0003627017430000041
归一化为:
Figure BDA0003627017430000042
其中,m表示总类别的数量,tfj(t)代表特征词t在类别j中的词频;
所述负相关修正因子γ的计算公式如下:
Figure BDA0003627017430000043
其中,N(t,ci)为类别cj出现特征t的文本数,
Figure BDA0003627017430000044
为文本集中出现t的文本总数,m为类别数。
进一步的,使用TF-IWF算法赋予已经提取的特征词条的权重,其中,词频TF指某个词条ti在文档dj中出现的频数,一般做归一化处理,计算过程如下:
Figure BDA0003627017430000045
其中,ni,j表示词条ti在文档dj中出现的次,∑knk,j表示文本dj中所有词条出现的总次数;
逆特征频率IWF指词的总数占总文档数的比重的倒数,计算过程如下:
Figure BDA0003627017430000046
其中,∑mniti表示m类中所有文档出现词条ti的总数量,niti表示文档dj中出现词条ti的数量;
由词频TFij值和逆特征频率IWFi值相乘得到TF-IWF值Wi,j,计算式为:
Wi,j=TFij×IWFi
第二方面,本发明提供了一种基于特征选择的文本分类***,包括:
数据获取模块:用于获取文本分类数据集;
预处理模块:用于将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
卡方统计模块:用于将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
权重赋予模块:用于使用TF-IWF算法赋予已经提取的特征词条的权重;
建模模块:用于基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
分类模块:用于通过短文本分类模型对测试文本集进行分类。
第三方面,本发明提供了一种基于特征选择的文本分类装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提出一种基于特征选择的文本分类方法,与传统的CHI方法相比,一方面本文引入词频调节参数,降低低频词缺陷带来的影响;引入类内位置参数以提高特征子集中特征词的类别区分度;引入负相关修正因子,避免特征词更倾向于低频噪音词,对分类造成影响。另一方面结合TF-IWF特征加权算法,给分类能力强的特征词赋以不同权重,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。
附图说明
图1是本发明实施例一提供的方法流程图;
图2是本发明实施例一提供的特征加权流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
请参阅图1-2,本实施例公开了一种基于特征选择的文本分类方法,下面通过具体实施方案对本发明作进一步详细描述:
S1:从互联网上下载清华大学自然语言处理实验室,公开的中文文本分类数据集THUCNews,分为训练文本集和测试文本集,并对其进行预处理,预处理包括中文分词、去除停用词,得到分词后的训练集和测试集,并存放到文本数据库;
对文本进行预处理,其过程如下:先对文本进行去除停用词等一些列的规范处理,再选择Jieba分词工具对处理后的短文本内容进行分词,得到分词后的训练集和测试集,并存放到文本数据库。
S2:针对传统的卡方统计的不足,引入词频调节因子、类内位置参数以及负相关修正因子;
传统的卡方统计公式,即特征项t和类别ci的CHI值为:
Figure BDA0003627017430000071
其中,N表示训练集中所有文本总数,A是属于类别ci且包含特征t的文本,B是不属于类别ci且包含特征t的文本,C是属于类别ci且不包含特征t的文本,D是不属于类别ci且也不包含特征t的文本。由上式可知,当特征t与类别ci相互独立时,有AD-CB=0,此时x2(t,ci)=0;x2(t,ci)的值越大,特征项t与类别ci越相关。
针对传统的卡方统计的不足,有三点:
1.传统的卡方统计只考虑文档集中出现的文档数,没有考虑特征词在文本中出现的次数,夸大低频词作用,产生缺陷问题;
2.传统的卡方统计方法没有考虑特征词在类别内部分布均匀状况;
3.传统的卡方统计方法更倾向于选择与类别负相关的特征词;
引入词频调节参数、类内位置参数以及负相关修正因子:
1.词频调节参数,计算公式如下:
Figure BDA0003627017430000072
其中,N表示训练集中所有文本总数,n表示在文本集中包含特征词t的文档数量,tf(t,ci)表示在类别ci文本中出现的次数,
Figure BDA0003627017430000073
表示在所有类别文档中全部出现的次数,词频调节参数α(t,ci)表示,计算特征项在每个类别中的词频数与其在所有类别中的词频总数的比值。α(t,ci)值越大,表示特征项在文本集某类别中出现得越频繁,对相应类别的区分能力就越强。
2.类内位置参数,计算公式如下:
Figure BDA0003627017430000081
归一化为:
Figure BDA0003627017430000082
其中,m表示总类别的数量,tfj(t)代表特征词t在类别j中的词频。以方差的思想,类内分布越均匀,β越大。通过引入类内位置参数,使得在CHI特征选择时就考虑到特征词的类内分布状况,提高特征子集中特征词的类别区分度。
负相关修正因子,计算公式如下:
Figure BDA0003627017430000083
N(t,ci)为类别cj出现特征t的文本数,
Figure BDA0003627017430000084
为文本集中出现t的文本总数,m为类别数。于是,类别cj中出现特征t的文本数小于平均每个类中出现t的文本数时,γ值为负数,CHI值就会是负数,此时删除与类别cj负相关的特征即可避免负相关对分类的影响。
S3:通过改进的卡方统计形成特征子集;
在传统的卡方统计中,引入了词频调节参数、类内位置参数和负相关修正因子三个概念,提出了卡方统计的改进方法,命名为IMP-CHI(Improved-CHIsquare),公式表达如下:
IMP_CHI(t,cj)=x2(t,ci)×α(t,cj)×β×γ
其中,x2(t,ci)为传统的卡方统计的计算公式,α(t,cj)为词频调节参数,β为类内位置参数,γ为负相关修正因子。
对于多类问题,特征项对于整个训练集的统计量计算方法:
Figure BDA0003627017430000091
其中m为类别数。上式采用求最大值的思路,这可以避免这样的问题:t1在c1类的相关性评估值很高,对该类文本有很强的类别信息,但它在其他类的评估值很低,最终却因为没有得到较高的总评分而被筛选掉,使得分类效果受到不利影响。
IMP_CHI方法的具体流程可归纳如下:
对文本语料库中的文本进行预处理,包括分词、词性标注、去除特殊符号以及停用词等,获取文本词语(标题、关键词、摘要、正文和类别)放入初始集合中;
依次将每个特征项及其相关类别信息提取出来;
计算特征词t相对于每个类别的α(t,cj)、β、γ;
运用改进后的公式计算词条c对于每个类别的IMP_CHI值;
根据改进的卡方统计,得到特征项t对于整个训练集的IMP_CHI值;
计算整个训练集的IMP_CHI值后,按照IMP_CHI值从大到小排列,选取前M个词作为文档表示的特征构成最终的特征子集。
S4:使用TF-IWF算法赋予已经提取的特征词条的权重;
使用TF-IWF算法赋予已经提取的特征词条的权重,其计算过程如下:
词频TF指某个词条ti在文档dj中出现的频数,一般做归一化处理,计算过程如下:
Figure BDA0003627017430000092
其中,ni,j表示词条ti在文档dj中出现的次数,∑knk,j表示文本dj中所有词条出现的总次数;
逆特征频率IWFi(inversewordfrequency)是指词的总数占总文档数的比重的倒数。IWFi的作用是避免高频但对文档作用小的词汇获得较高的权重。计算过程如下:
Figure BDA0003627017430000101
其中,∑mniti表示m类中所有文档出现词条ti的总数量;niti表示文档dj中出现词条ti的数量。
使用改进的TF-IDF算法——TF-IWF算法,TF-IWF值Wi,j由TFij值和IWFi值相乘得到,用wi,j表示,计算过程如下:
Wi,j=TFij×IWFi
TF-IWF用来过滤常见的词条,给更能体现语料的词条赋予更大的权重。如果一个文本内部的高频词条在文本集合中呈现低频状态,则该词条的TF-IWF值有高的权重值。
S5:选择支持向量机分类器对待测试文本进行分类。
建立基于支持向量机的短文本分类模型,根据已训练好的分类模型,输入测试集的文本数据,得出分类的结果,评估其性能。实验表明,与传统的卡方统计方法相比,本文提出的改进的卡方统计方法IMP_CHI,结合TF-IWF特征提取,通过SVM分类器能取得更好的特征选择效果,显著提高分类器的性能。
实施例二:
一种基于特征选择的文本分类***,可实现实施例一所述的一种基于特征选择的文本分类方法,包括:
数据获取模块:用于获取文本分类数据集;
预处理模块:用于将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
卡方统计模块:用于将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
权重赋予模块:用于使用TF-IWF算法赋予已经提取的特征词条的权重;
建模模块:用于基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
分类模块:用于通过短文本分类模型对测试文本集进行分类。
实施例三:
本发明实施例还提供了一种基于特征选择的文本分类装置,可实现实施例一所述的一种基于特征选择的文本分类方法,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
获取文本分类数据集;
将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
使用TF-IWF算法赋予已经提取的特征词条的权重;
基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
通过短文本分类模型对预处理后的测试文本集进行分类。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,可实现实施例一所述的一种基于特征选择的文本分类方法,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:
获取文本分类数据集;
将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
使用TF-IWF算法赋予已经提取的特征词条的权重;
基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
通过短文本分类模型对预处理后的测试文本集进行分类。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种基于特征选择的文本分类方法,其特征是,包括:
获取文本分类数据集;
将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
使用TF-IWF算法赋予已经提取的特征词条的权重;
基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
通过短文本分类模型对预处理后的测试文本集进行分类。
2.根据权利要求1所述的基于特征选择的文本分类方法,其特征是,所述预处理包括先对文本进行包括去除停用词的规范处理,再选择Jieba分词工具对处理后的短文本内容进行分词,得到分词后的训练文本集和测试文本集,并存放到文本数据库。
3.根据权利要求2所述的基于特征选择的文本分类方法,其特征是,将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集,包括:
将文本数据库中每个特征项及其相关类别信息提取出来;
计算特征词t相对于每个类别的词频调节参数α(t,ci)、类间位置参数β和负相关修正因子γ;
运用改进后的公式计算词条对于每个类别的IMP_CHI值;
根据改进的卡方统计,得到特征项t对于整个训练集的IMP_CHI值;
计算整个训练集的IMP_CHI值后,按照IMP_CHI值从大到小排列,选取前M个词作为文档表示的特征构成最终的特征子集。
4.根据权利要求3所述的基于特征选择的文本分类方法,其特征是,所述改进的卡方统计式为:
IMP_CHI(t,cj)=x2(t,ci)×α(t,cj)×β×γ
其中,θ(t,cj)为词频调节参数,β为类内位置参数,γ为负相关修正因子,x2(t,ci)为传统的卡方统计的计算公式,表示为:
Figure FDA0003627017420000021
其中,N表示训练集中所有文本总数,A是属于类别ci且包含特征t的文本,B是不属于类别ci且包含特征t的文本,C是属于类别ci且不包含特征t的文本,D是不属于类别ci且也不包含特征t的文本;
对于多类问题,特征项对于整个训练集的统计量计算方法表达式为:
Figure FDA0003627017420000022
其中,m为类别数。
5.根据权利要求4所述的基于特征选择的文本分类方法,其特征是,所述词频调节参数α(t,cj)的计算公式如下:
Figure FDA0003627017420000023
其中,N表示训练集中所有文本总数,n表示在文本集中包含特征词t的文档数量,tf(t,ci)表示在类别ci文本中出现的次数,
Figure FDA0003627017420000024
表示在所有类别文档中全部出现的次数,词频调节参数α(t,ci)表示,计算特征项在每个类别中的词频数与其在所有类别中的词频总数的比值,α(t,ci)值越大,表示特征项在文本集某类别中出现得越频繁,对相应类别的区分能力就越强;
所述类内位置参数β的计算公式如下:
Figure FDA0003627017420000031
归一化为:
Figure FDA0003627017420000032
其中,m表示总类别的数量,tfj(t)代表特征词t在类别j中的词频;
所述负相关修正因子γ的计算公式如下:
Figure FDA0003627017420000033
其中,N(t,ci)为类别cj出现特征t的文本数,
Figure FDA0003627017420000034
为文本集中出现t的文本总数,m为类别数。
6.根据权利要求1所述的基于特征选择的文本分类方法,其特征是,使用TF-IWF算法赋予已经提取的特征词条的权重,其中,词频TF指某个词条ti在文档dj中出现的频数,一般做归一化处理,计算过程如下:
Figure FDA0003627017420000035
其中,ni,j表示词条ti在文档dj中出现的次,∑knk,j表示文本dj中所有词条出现的总次数;
逆特征频率IWF指词的总数占总文档数的比重的倒数,计算过程如下:
Figure FDA0003627017420000036
其中,∑mniti表示m类中所有文档出现词条ti的总数量,niti表示文档dj中出现词条ti的数量;
由词频TFij值和逆特征频率IWFi值相乘得到TF-IWF值Wi,j,计算式为:
Wi,j=TFij×IWFi
7.一种基于特征选择的文本分类***,其特征是,包括:
数据获取模块:用于获取文本分类数据集;
预处理模块:用于将文本分类数据集分为训练文本集和测试文本集后,进行预处理;
卡方统计模块:用于将预处理后的训练文本集通过改进的卡方统计提取特征词条,形成特征子集;
权重赋予模块:用于使用TF-IWF算法赋予已经提取的特征词条的权重;
建模模块:用于基于赋予权重后的特征词条,建立基于支持向量机的短文本分类模型;
分类模块:用于通过短文本分类模型对测试文本集进行分类。
8.一种基于特征选择的文本分类装置,其特征是,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~6任一项所述方法的步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1~6任一项所述方法的步骤。
CN202210479218.4A 2022-05-05 2022-05-05 一种基于特征选择的文本分类***及方法 Pending CN114896398A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210479218.4A CN114896398A (zh) 2022-05-05 2022-05-05 一种基于特征选择的文本分类***及方法
US18/097,329 US11960521B2 (en) 2022-05-05 2023-01-16 Text classification system based on feature selection and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210479218.4A CN114896398A (zh) 2022-05-05 2022-05-05 一种基于特征选择的文本分类***及方法

Publications (1)

Publication Number Publication Date
CN114896398A true CN114896398A (zh) 2022-08-12

Family

ID=82718793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210479218.4A Pending CN114896398A (zh) 2022-05-05 2022-05-05 一种基于特征选择的文本分类***及方法

Country Status (2)

Country Link
US (1) US11960521B2 (zh)
CN (1) CN114896398A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759072A (zh) * 2022-11-21 2023-03-07 时趣互动(北京)科技有限公司 一种特征词分类方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117910875A (zh) * 2024-01-22 2024-04-19 青海省科技发展服务中心 一种披碱草属资源抗逆性评价***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533194B1 (en) * 2009-04-22 2013-09-10 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US9245191B2 (en) 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US20180357531A1 (en) 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
US10460257B2 (en) * 2016-09-08 2019-10-29 Conduent Business Services, Llc Method and system for training a target domain classifier to label text segments
US11087179B2 (en) * 2018-12-19 2021-08-10 Netskope, Inc. Multi-label classification of text documents
CN110032639B (zh) * 2018-12-27 2023-10-31 ***股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
US11216619B2 (en) * 2020-04-28 2022-01-04 International Business Machines Corporation Feature reweighting in text classifier generation using unlabeled data
US20230057706A1 (en) * 2021-08-20 2023-02-23 Oracle International Corporation System and method for use of text analytics to transform, analyze, and visualize data
US20220035877A1 (en) * 2021-10-19 2022-02-03 Intel Corporation Hardware-aware machine learning model search mechanisms

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759072A (zh) * 2022-11-21 2023-03-07 时趣互动(北京)科技有限公司 一种特征词分类方法、装置、电子设备及存储介质
CN115759072B (zh) * 2022-11-21 2024-03-12 时趣互动(北京)科技有限公司 一种特征词分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US11960521B2 (en) 2024-04-16
US20230214415A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN109241530B (zh) 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN106202518B (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN108509629B (zh) 一种基于情感词典和支持向量机的文本情感分析方法
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN108228541B (zh) 生成文档摘要的方法和装置
CN111538828B (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN102567308A (zh) 一种信息处理特征提取方法
CN114896398A (zh) 一种基于特征选择的文本分类***及方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN106372640A (zh) 一种字频文本分类方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115080973B (zh) 一种基于多模态特征融合的恶意代码检测方法及***
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110347833B (zh) 一种多轮对话的分类方法
CN115098690A (zh) 一种基于聚类分析的多数据文档分类方法及***
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN113190681B (zh) 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN110162629B (zh) 一种基于多基模型框架的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination