CN111159410A

CN111159410A - 一种文本情感分类方法、***、装置及存储介质

Info

Publication number: CN111159410A
Application number: CN201911410177.8A
Authority: CN
Inventors: 寇永娴; 占太雄; 陈惠芳; 黄娇燕; 余嘉昇
Original assignee: GRG Banking Equipment Co Ltd; GRG Banking IT Co Ltd
Current assignee: GRG Banking Equipment Co Ltd; GRG Banking IT Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15

Abstract

本发明公开了一种文本情感分类方法、***、装置及存储介质，该方法包括：对文本进行预处理；对预处理后的文本进行统计量计算，得到文本向量；采用卡方统计方法对文本向量进行特征选择，提取出特征向量；对特征向量进行权重计算，得到各个特征向量的权重；结合各个特征向量的权重，基于支持向量机对文本进行分类。该***包括：预处理模块，统计模块、特征模块、权重模块和分类模块。该装置包括存储器以及用于执行上述文本情感分类方法的处理器。通过使用本发明，可提高文本分类的准确率。本发明作为一种文本情感分类方法、***、装置及存储介质，可广泛应用于文本分类领域。

Description

一种文本情感分类方法、***、装置及存储介质

技术领域

本发明涉及文本分类领域，尤其涉及一种文本情感分类方法、***、装置及存储介质。

背景技术

情感分类是自然语言处理领域的一个任务，又称倾向性分析，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。它可以分析文本中作者对特定主体的情感偏好和观点，用于预测电影票房、股票趋势、舆情分析、改进服务及产品、及了解用户的体验等，文本情感分类目前主要研究方法分为基于字典和基于语料库两种，对语料库或字典进行信息挖掘，识别词语的情感倾向，从而得到统计数据并对其极性做出判断，但这两种方法对新词没有词性判别能力，而且由于不是从语义层面判断，分类得到的结果准确率低。

发明内容

为了解决上述技术问题，本发明的目的是提供一种文本情感分类方法、***、装置及存储介质，可提高文本分类的准确率。

本发明所采用的第一技术方案是：一种文本情感分类方法，包括以下步骤：

对文本进行预处理；

对预处理后的文本进行统计量计算，得到文本向量；

采用卡方统计方法对文本向量进行特征选择，提取出特征向量；

对特征向量进行权重计算，得到各个特征向量的权重；

结合各个特征向量的权重，基于支持向量机对文本进行分类。

进一步，所述对文本进行预处理这一步骤，其具体包括：

获取文本，过滤文本的非法字符并对文本进行分词处理；

去除无关词并统计词频，得到预处理后的文本。

进一步，所述采用卡方统计方法对文本向量进行特征选择具体采用下述公式：

所述t_i是特征项，所述C_j是类别，所述N是文本总数，所述A是包含t_i且属于C_j的数量，所述B是包含t_i但不属于C_j的数量，所述C是属于C_j但不包含t_i的数量，所述D是不属于C_j且不包含t_i的数量。

进一步，所述对特征向量进行权重计算，得到各个特征向量的权重具体采用下述公式：

所述w_ij表示权重，所述tf_ij表示t_i在文本出现的次数，所述n_i表示包含t_i的文本数。

进一步，所述对特征向量进行权重计算，得到各个特征向量的权重还包括对权重进行归一化处理，具体采用下述公式：

所述M表示向量数。

进一步，所述采用卡方统计方法对文本向量进行特征选择，提取出特征向量这一步骤，其具体包括：

对文本向量的特征项进行评分并按照评分大小对特征项进行排序；

按照预设数量获得文本特征项，采用卡方统计方法提取该文本的特征向量。

进一步，所述无关词包括停用词、代词、量词、助词、连词和拟声词。

本发明所采用的第二技术方案是：一种文本情感分类***，包括：

预处理模块，用于对文本进行预处理；

统计模块，用于对预处理后的文本进行统计量计算，得到文本向量；

特征模块，用于采用卡方统计方法对文本向量进行特征选择，提取出特征向量；

权重模块，用于对特征向量进行权重计算，得到各个特征向量的权重；

分类模块，用于结合各个特征向量的权重，基于支持向量机对文本进行分类。

本发明所采用的第三技术方案是：一种文本情感分类装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述所述一种文本情感分类方法。

本发明所采用的第四技术方案是：一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种文本情感分类方法。

本发明方法、***、装置及存储介质的有益效果是：本发明将文本以向量形式表示，通过对文本的特征提取和对提取出来的特征进行权重计算，实现对文本的情感分类，并通过将文本的向量空间模型结合特征权重输入到支持向量机进行分类，进而提高文本情感分类的准确率。

附图说明

图1是本发明一种文本情感分类方法的步骤流程图；

图2是本发明一种文本情感分类***的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

对文本进行情感分类，有利于企业改进服务及产品，例如在某些针对产品的评论，企业直接提取所有用户的评论文本，将这些大量的评论文本通过本方法进行情感分类，有利于企业快速指导用户是否认可该产品。

如图1所示，本发明提供了一种文本情感分类方法，该方法包括以下步骤：

S101、对文本进行预处理；

具体地，文本预处理的目的是从文本语料库中规范地提取出主要内容，去除与文本情感分类不相关的信息，主要操作包括过滤非法字符，分词处理，去除停用词等步骤，分词处理后可对词语进行情感标识。

S102、对预处理后的文本进行统计量计算，得到文本向量；

具体地，文本是一种非结构化的数据，由大量字符构成，计算机无法直接处理字符类型的数据，因此需要将普通文本的内容转变为计算机能够读懂的数据形式，即将文本进行形式化表示，本发明采用向量来表示文本，向量空间模型对文本的表示效果较好，可以将文本表示成空间向量进行运算，且具有较强的可计算性和可操作性。

S103、采用卡方统计方法对文本向量进行特征选择，提取出特征向量；

S104、对特征向量进行权重计算，得到各个特征向量的权重；

S105、结合各个特征向量的权重，基于支持向量机对文本进行分类。

具体地，对特征向量进行权重计算即根据特征项对分类的贡献程度赋予一定权值的过程，本算法中主要使用支持向量机来进行分类，是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。

进一步作为本方法的优选实施例，所述对文本进行预处理这一步骤，其具体包括：

获取文本，过滤文本的非法字符并对文本进行分词处理；

去除无关词并统计词频，得到预处理后的文本。

具体地，对过滤非法字符的文本数据进行分词，将一系列的长句分割成词语，可对这些词语进行情感标识。

进一步作为本方法的优选实施例，采用卡方统计方法对文本向量进行特征选择具体采用下述公式：

具体地，本算法采用卡方统计方法来进行特征选择。卡方统计方法用来衡量特征t_i和文档类别C_j之间的统计相关强度，统计值越高，则其含有的信息量越多，与该类的相关性越大。

进一步作为本方法优选实施例，所述对特征向量进行权重计算，得到各个特征向量的权重具体采用下述公式：

具体地，特征选择过程中选择了最能代表文本内容的特征向量，但是这些特征对文本分类的影响不尽相同，有必要对经过选择的特征进行加权，对表征能力强的特征赋予较大权重，对具有较弱类别区分能力的特征赋予较小的权重，这样可以有效抑制噪声。

进一步作为本方法优选实施例，所述对特征向量进行权重计算，得到各个特征向量的权重还包括对权重进行归一化处理，具体采用下述公式：

所述M表示向量数。

具体地，为了消除文本长度对特征权重的影响，要对特征的权重进行归一化处理。

进一步作为本方法优选实施例，所述采用卡方统计方法对文本向量进行特征选择，提取出特征向量这一步骤，其具体包括：

具体地，特征的数量可以达到几万维，不仅使得运算时间变长，而且会在很大程度上降低分类的准确度。特征选择就是从原始的高维特征集合中选择一小部分特征作为分类器的分类特征，特征选择过程需要通过构造好的评估函数对每个特征进行评分，然后按照评分的大小对特征向量进行降序排序，最后选择一定数量的特征作为分类特征集合

进一步作为本方法优选实施例，所述无关词包括停用词、代词、量词、助词、连词和拟声词。

具体地，还可根据需要设置无关词的类型，增加介词、纯数字等选项。

本发明的具体实施例如下：

获取用户的评论文本，将评论文本进行过滤非法字符和分词处理，并去除无关词，得到主要的文本数据信息，并统计文本中的出现的词语的次数，对这些词语进行情感标识，结合预处理结果、词频信息以及情感标签，使用卡方统计方法对文本进行特征选择并对这些特征进行评分，按照评分的大小对特征向量进行降序排序，按照预设数量选择特征，对选择出来的特征进行权值计算并归一化权值，最后以向量空间模型的形式表示文本，结合归一化后的特征权值向量，利用支持向量机分类器对大批量的文本进行分类。

如图2所示，一种文本情感分类***，包括：

预处理模块，用于对文本进行预处理；

进一步作为本***的优选实施例，所述预处理模块还包括：

分词子模块，用于获取文本，过滤文本的非法字符并对文本进行分词处理；

去除子模块，用于去除无关词并统计词频，得到预处理后的文本；

进一步作为本***的优选实施例，所述特征模块还包括：

排序子模块，用于对文本向量的特征项进行评分并按照评分大小对特征项进行排序；

提取子模块，用于按照预设数量获得文本特征项，采用卡方统计方法提取该文本的特征向量。

上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种认证文本情感分类装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种文本情感分类方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种文本情感分类方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种文本情感分类方法，其特征在于，包括：

对文本进行预处理；

对预处理后的文本进行统计量计算，得到文本向量；

对特征向量进行权重计算，得到各个特征向量的权重；

2.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述对文本进行预处理这一步骤，其具体包括：

获取文本，过滤文本的非法字符并对文本进行分词处理；

去除无关词并统计词频，得到预处理后的文本。

3.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述采用卡方统计方法对文本向量进行特征选择具体采用下述公式：

4.根据权利要求3所述的一种文本情感分类方法，其特征在于，所述对特征向量进行权重计算，得到各个特征向量的权重具体采用下述公式：

5.根据权利要求4所述的一种文本情感分类方法，其特征在于，所述对特征向量进行权重计算，得到各个特征向量的权重还包括对权重进行归一化处理，具体采用下述公式：

所述M表示向量数。

6.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述采用卡方统计方法对文本向量进行特征选择，提取出特征向量这一步骤，其具体包括：

7.根据权利要求1所述的一种文本情感分类方法，其特征在于：所述无关词包括停用词、代词、量词、助词、连词和拟声词。

8.一种文本情感分类***，其特征在于，包括：

预处理模块，用于对文本进行预处理；

9.一种文本情感分类装置，其特征在于，还包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述一种文本情感分类方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述一种文本情感分类方法。