CN114896398A

CN114896398A - 一种基于特征选择的文本分类***及方法

Info

Publication number: CN114896398A
Application number: CN202210479218.4A
Authority: CN
Inventors: 陆音; 胡洁; 吴珞铖; 郭永安
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-12
Also published as: US11960521B2; US20230214415A1

Abstract

本发明公开了自然语言处理和短文本分类技术领域的一种基于特征选择的文本分类***及方法，包括：获取文本分类数据集；将文本分类数据集分为训练文本集和测试文本集后，进行预处理；将预处理后的训练文本集通过改进的卡方统计提取特征词条，形成特征子集；使用TF‑IWF算法赋予已经提取的特征词条的权重；基于赋予权重后的特征词条，建立基于支持向量机的短文本分类模型；通过短文本分类模型对预处理后的测试文本集进行分类。本发明一定程度上解决了短文本内容稀疏性的问题，从而提高短文本分类的性能。

Description

一种基于特征选择的文本分类***及方法

技术领域

本发明涉及一种基于特征选择的文本分类***及方法，属于自然语言处理和短文本分类技术领域。

背景技术

随着互联网的飞速发展，中国的网民人数也在持续不断地增加，再加上社交网络电商平台的兴起，让信息数据呈指数级***式增长，这其中尤指短文本数据。

庞大的信息量是一把双刃剑，既方便我们获取信息，也给人们带来了前所未有的挑战，处于冗余的信息当中的我们，如何快速准确找到自己需要的信息是亟待解决的难题。这些数据主要是以短文本的形式出现，并且在各行各业当中也扮演着越来越重要的角色了，我们也越来越离不开短文本式信息。而且这些短文本能直接反映出人们对事件的态度，在舆情分析方面有意义，逐渐演变成自然语言处理的一个分支。

这些信息以短小为主，与普通的文本有很大的不同，长度可以短到几个字。短文本的特点是什么？信息更新快，实时性高，用词重复率不高，总量大、新词出现频繁且不规则，语义特征稀疏，在分类过程中特征不显著，目前流行的分类算法适用在长文本分类，直接应用在短文本上，效果不佳。

想要提高对短文本的精准分类，一般是有两种方法，一是引入外部语料库，拓展语料，增强语义，以便提高分类精度，但是缺点是依赖语料库的质量。另一种是基于文本的自身特征，通过挖掘词频等关键信息获得特征，这也是特征选择，从而提高短文本分类效果。特征选择本质上也是特征降维，因为经过向量化的文本通常会出现“维数灾难”现象。降维后的特征词对于分类作用的大小还需体现在分类权重上。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于特征选择的文本分类***及方法，旨在解决特征选择不足和特征值权重范围小的问题，从而提升短文本分类的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于特征选择的文本分类方法，包括：

获取文本分类数据集；

将文本分类数据集分为训练文本集和测试文本集后，进行预处理；

将预处理后的训练文本集通过改进的卡方统计提取特征词条，形成特征子集；

使用TF-IWF算法赋予已经提取的特征词条的权重；

基于赋予权重后的特征词条，建立基于支持向量机的短文本分类模型；

通过短文本分类模型对测试文本集进行分类。

进一步的，所述预处理包括先对文本进行包括去除停用词的规范处理，再选择Jieba分词工具对处理后的短文本内容进行分词，得到分词后的训练文本集和测试文本集，并存放到文本数据库。

进一步的，将预处理后的训练文本集通过改进的卡方统计提取特征词条，形成特征子集，包括：

将文本数据库中每个特征项及其相关类别信息提取出来；

计算特征词t相对于每个类别的词频调节参数α(t,c_j)、类内位置参数β和负相关修正因子γ；

运用改进后的公式计算词条对于每个类别的IMP_CHI值；

根据改进的卡方统计，得到特征项t对于整个训练集的IMP_CHI值；

计算整个训练集的IMP_CHI值后，按照IMP_CHI值从大到小排列，选取前M个词作为文档表示的特征构成最终的特征子集。

进一步的，所述改进的卡方统计式为：

IMP_CHI(t,c_j)＝x²(t,c_i)×α(t,c_j)×β×γ

其中，α(t,c_j)为词频调节参数，β为类内位置参数，γ为负相关修正因子，x²(t,c_i)为传统的卡方统计的计算公式，表示为：

其中，N表示训练集中所有文本总数，A是属于类别c_i且包含特征t的文本，B是不属于类别c_i且包含特征t的文本，C是属于类别c_i且不包含特征t的文本，D是不属于类别c_i且也不包含特征t的文本；

对于多类问题，特征项对于整个训练集的统计量计算方法表达式为：

其中，m为类别数。

进一步的，所述词频调节参数α(t,c_j)的计算公式如下：

其中，N表示训练集中所有文本总数，n表示在文本集中包含特征词t的文档数量，tf(t,c_i)表示在类别c_i文本中出现的次数，

表示在所有类别文档中全部出现的次数，词频调节参数α(t,c_i)表示，计算特征项在每个类别中的词频数与其在所有类别中的词频总数的比值；α(t,c_i)值越大，表示特征项在文本集某类别中出现得越频繁，对相应类别的区分能力就越强；

所述类内位置参数β的计算公式如下：

归一化为：

其中，m表示总类别的数量，tf_j(t)代表特征词t在类别j中的词频；

所述负相关修正因子γ的计算公式如下：

其中，N(t,c_i)为类别c_j出现特征t的文本数，

为文本集中出现t的文本总数，m为类别数。

进一步的，使用TF-IWF算法赋予已经提取的特征词条的权重，其中，词频TF指某个词条t_i在文档d_j中出现的频数，一般做归一化处理，计算过程如下：

其中，n_i,j表示词条t_i在文档d_j中出现的次，∑_kn_k,j表示文本d_j中所有词条出现的总次数；

逆特征频率IWF指词的总数占总文档数的比重的倒数，计算过程如下：

其中，∑_mn_it_i表示m类中所有文档出现词条t_i的总数量，n_it_i表示文档d_j中出现词条t_i的数量；

由词频TF_ij值和逆特征频率IWF_i值相乘得到TF-IWF值W_i,j，计算式为：

W_i,j＝TF_ij×IWF_i

第二方面，本发明提供了一种基于特征选择的文本分类***，包括：

数据获取模块：用于获取文本分类数据集；

预处理模块：用于将文本分类数据集分为训练文本集和测试文本集后，进行预处理；

卡方统计模块：用于将预处理后的训练文本集通过改进的卡方统计提取特征词条，形成特征子集；

权重赋予模块：用于使用TF-IWF算法赋予已经提取的特征词条的权重；

建模模块：用于基于赋予权重后的特征词条，建立基于支持向量机的短文本分类模型；

分类模块：用于通过短文本分类模型对测试文本集进行分类。

第三方面，本发明提供了一种基于特征选择的文本分类装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提出一种基于特征选择的文本分类方法，与传统的CHI方法相比，一方面本文引入词频调节参数，降低低频词缺陷带来的影响；引入类内位置参数以提高特征子集中特征词的类别区分度；引入负相关修正因子，避免特征词更倾向于低频噪音词，对分类造成影响。另一方面结合TF-IWF特征加权算法，给分类能力强的特征词赋以不同权重，一定程度上解决了短文本内容稀疏性的问题，从而提高短文本分类的性能。

附图说明

图1是本发明实施例一提供的方法流程图；

图2是本发明实施例一提供的特征加权流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

请参阅图1-2，本实施例公开了一种基于特征选择的文本分类方法，下面通过具体实施方案对本发明作进一步详细描述：

S1：从互联网上下载清华大学自然语言处理实验室，公开的中文文本分类数据集THUCNews，分为训练文本集和测试文本集，并对其进行预处理，预处理包括中文分词、去除停用词，得到分词后的训练集和测试集，并存放到文本数据库；

对文本进行预处理，其过程如下：先对文本进行去除停用词等一些列的规范处理，再选择Jieba分词工具对处理后的短文本内容进行分词，得到分词后的训练集和测试集，并存放到文本数据库。

S2：针对传统的卡方统计的不足，引入词频调节因子、类内位置参数以及负相关修正因子；

传统的卡方统计公式，即特征项t和类别c_i的CHI值为：

其中，N表示训练集中所有文本总数，A是属于类别c_i且包含特征t的文本，B是不属于类别c_i且包含特征t的文本，C是属于类别c_i且不包含特征t的文本，D是不属于类别c_i且也不包含特征t的文本。由上式可知，当特征t与类别c_i相互独立时，有AD-CB＝0，此时x²(t，c_i)＝0；x²(t，c_i)的值越大，特征项t与类别c_i越相关。

针对传统的卡方统计的不足，有三点：

1.传统的卡方统计只考虑文档集中出现的文档数，没有考虑特征词在文本中出现的次数，夸大低频词作用，产生缺陷问题；

2.传统的卡方统计方法没有考虑特征词在类别内部分布均匀状况；

3.传统的卡方统计方法更倾向于选择与类别负相关的特征词；

引入词频调节参数、类内位置参数以及负相关修正因子：

1.词频调节参数，计算公式如下：

表示在所有类别文档中全部出现的次数，词频调节参数α(t,c_i)表示，计算特征项在每个类别中的词频数与其在所有类别中的词频总数的比值。α(t,c_i)值越大，表示特征项在文本集某类别中出现得越频繁，对相应类别的区分能力就越强。

2.类内位置参数，计算公式如下：

归一化为：

其中，m表示总类别的数量，tf_j(t)代表特征词t在类别j中的词频。以方差的思想，类内分布越均匀，β越大。通过引入类内位置参数，使得在CHI特征选择时就考虑到特征词的类内分布状况，提高特征子集中特征词的类别区分度。

负相关修正因子，计算公式如下：

N(t,c_i)为类别c_j出现特征t的文本数，

为文本集中出现t的文本总数，m为类别数。于是，类别c_j中出现特征t的文本数小于平均每个类中出现t的文本数时，γ值为负数，CHI值就会是负数，此时删除与类别c_j负相关的特征即可避免负相关对分类的影响。

S3：通过改进的卡方统计形成特征子集；

在传统的卡方统计中，引入了词频调节参数、类内位置参数和负相关修正因子三个概念，提出了卡方统计的改进方法，命名为IMP-CHI(Improved-CHIsquare)，公式表达如下：

IMP_CHI(t,c_j)＝x²(t,c_i)×α(t,c_j)×β×γ

其中，x²(t,c_i)为传统的卡方统计的计算公式，α(t,c_j)为词频调节参数，β为类内位置参数，γ为负相关修正因子。

对于多类问题，特征项对于整个训练集的统计量计算方法：

其中m为类别数。上式采用求最大值的思路，这可以避免这样的问题：t₁在c₁类的相关性评估值很高，对该类文本有很强的类别信息，但它在其他类的评估值很低，最终却因为没有得到较高的总评分而被筛选掉，使得分类效果受到不利影响。

IMP_CHI方法的具体流程可归纳如下：

对文本语料库中的文本进行预处理，包括分词、词性标注、去除特殊符号以及停用词等，获取文本词语(标题、关键词、摘要、正文和类别)放入初始集合中；

依次将每个特征项及其相关类别信息提取出来；

计算特征词t相对于每个类别的α(t,c_j)、β、γ；

运用改进后的公式计算词条c对于每个类别的IMP_CHI值；

S4：使用TF-IWF算法赋予已经提取的特征词条的权重；

使用TF-IWF算法赋予已经提取的特征词条的权重，其计算过程如下：

词频TF指某个词条t_i在文档d_j中出现的频数，一般做归一化处理，计算过程如下：

其中，n_i,j表示词条t_i在文档d_j中出现的次数，∑_kn_k,j表示文本d_j中所有词条出现的总次数；

逆特征频率IWF_i(inversewordfrequency)是指词的总数占总文档数的比重的倒数。IWF_i的作用是避免高频但对文档作用小的词汇获得较高的权重。计算过程如下：

其中，∑_mn_it_i表示m类中所有文档出现词条t_i的总数量；n_it_i表示文档d_j中出现词条t_i的数量。

使用改进的TF-IDF算法——TF-IWF算法，TF-IWF值W_i,j由TF_ij值和IWF_i值相乘得到，用w_i,j表示，计算过程如下：

W_i,j＝TF_ij×IWF_i

TF-IWF用来过滤常见的词条，给更能体现语料的词条赋予更大的权重。如果一个文本内部的高频词条在文本集合中呈现低频状态，则该词条的TF-IWF值有高的权重值。

S5：选择支持向量机分类器对待测试文本进行分类。

建立基于支持向量机的短文本分类模型，根据已训练好的分类模型，输入测试集的文本数据，得出分类的结果，评估其性能。实验表明，与传统的卡方统计方法相比，本文提出的改进的卡方统计方法IMP_CHI，结合TF-IWF特征提取，通过SVM分类器能取得更好的特征选择效果，显著提高分类器的性能。

实施例二：

一种基于特征选择的文本分类***，可实现实施例一所述的一种基于特征选择的文本分类方法，包括：

数据获取模块：用于获取文本分类数据集；

实施例三：

本发明实施例还提供了一种基于特征选择的文本分类装置，可实现实施例一所述的一种基于特征选择的文本分类方法，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行下述方法的步骤：

获取文本分类数据集；

使用TF-IWF算法赋予已经提取的特征词条的权重；

通过短文本分类模型对预处理后的测试文本集进行分类。

实施例四：

本发明实施例还提供了一种计算机可读存储介质，可实现实施例一所述的一种基于特征选择的文本分类方法，其上存储有计算机程序，该程序被处理器执行时实现下述方法的步骤：

获取文本分类数据集；

使用TF-IWF算法赋予已经提取的特征词条的权重；

通过短文本分类模型对预处理后的测试文本集进行分类。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。