CN114911942A

CN114911942A - 基于置信度的可解释性的文本情感分析方法、***及设备

Info

Publication number: CN114911942A
Application number: CN202210607887.5A
Authority: CN
Inventors: 张思; 翟佩云; 惠柠; 徐佳丽; 刘清堂
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-16
Anticipated expiration: 2042-05-31
Also published as: CN114911942B

Abstract

本发明公开了一种基于置信度的可解释性的文本情感分析方法、***及设备，首先对预分析文本数据，进行数据预处理；然后将处理后的数据输入深度学习网络进行分类；接着构造置信分割器，定义置信函数，设置置信度阈值，将深度学习网络分类结果分为置信度强弱两部分；根据置信度强弱之分，置信度强的数据由深度学习网络分类，置信度弱的数据由增强网络分类；最后结合两个网络分类结果，输出最终的分类结果。本发明构建一种新网络模型框架RTS‑CF，通过RAKE快速抽取较长的关键词，简单高效；通过置信函数，将测试集分为置信度强弱两部分，结合增强网络对置信度弱的数据进行重新分类。利用增强网络优化神经网络的集成方法，可解释性强，提高整体分类性能。

Description

基于置信度的可解释性的文本情感分析方法、***及设备

技术领域

本发明属于文本数据挖掘技术领域，涉及一种文本情感分析方法、***及设备，具体涉及一种基于置信度的可解释性强的文本情感分析方法、***及设备。

背景技术

随着互联网技术的发展以及模型化深度学习的兴起，文本情感分析的研究越来越热门，相关研究不仅对科研人员，而且对日常生活也有着非常重要的实际意义，例如政府部门可以通过分析网络舆论情感倾向引导舆论发展，电商商家可以通过分析用户评论情感倾向了解用户偏好等。通过对各个领域的文本进行深入挖掘和分析，能更好地了解用户的兴趣爱好和情感偏向。

目前常用的文本情感分析方法包括基于词典的情感分类、基于传统机器学习的情感分析和基于深度学习的情感分析方法。深度神经网络模型在情感分类方面取得了显著效果。基于传统机器学习的分类方法虽在分类准确性方面略逊于深度学习方法，但是可解释性和时间复杂度方面有着自身的优势。采用深度学习方法与传统机器学习方法的集成方法，能提高整体的分类性能，可解释性强，并能实现对个人的情感倾向的掌握与了解，这样的一种分析建模方法是目前很少使用的，值得探索与尝试。采用RAKE能快速抽取一些较长的专业术语关键词，简单高效，在文本分类上取得不错的效果。

发明内容

本发明的目的在于提出一种基于置信度的可解释性强的文本情感分析方法、***及设备，利用增强模型优化深度神经网络的集成方法，提高整体的文本分类性能。

本发明的方法所采用的技术方案是：一种基于置信度的可解释性的文本情感分析方法，包括以下步骤：

步骤1：针对预分析文本数据，进行数据预处理；

步骤2：将预处理后的数据输入深度学习网络进行分类；

步骤3：构造置信分割器，定义置信函数，设置置信度阈值，将深度学习网络分类结果分为置信度强和置信度弱两部分；

所述置信函数

其中，d为预设值；mean(*)为均值函数；y₁，y₂表示深度学习网络softmax层的输出值，分别视为置信度强和置信度弱两部分的得分，其中

0<y_i<1，∑y_i＝1；z_i为第i个节点的输出值，作为softmax的输入值；n为输出节点的个数，即分类的类别个数；

表示所有预测结果之和；

步骤4：根据置信度的强弱之分，置信度强的数据由深度学习网络进行分类，置信度弱的数据由增强网络重新分类；

步骤5：结合深度学习网络和增强网络的结果，输出最终的分类结果。

本发明的***所采用的技术方案是：一种基于置信度的可解释性的文本情感分析***，包括以下模块：

模块1，用于针对预分析文本数据，进行数据预处理；

模块2，用于将预处理后的数据输入深度学习网络进行分类；

模块3，用于构造置信分割器，定义置信函数，设置置信度阈值，将深度学习网络分类结果分为置信度强和置信度弱两部分；

所述置信函数

其中，d为预设值；mean(*)为均值函数；y₁，y₂表示深度学习网络softmax层的输出值，可分别视为置信度强和置信度弱两部分的得分，其中

表示所有预测结果之和；

模块4，用于根据置信度的强弱之分，置信度强的数据由深度学习网络进行分类，置信度弱的数据由增强网络重新分类；

模块5，用于结合深度学习网络和增强网络的结果，输出最终的分类结果。

本发明的设备所采用的技术方案是：一种基于置信度的可解释性的文本情感分析设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于置信度的可解释性的文本情感分析方法。

本发明包括如下技术效果：

(1)整个训练集训练过的深度学习模型R-TextCNN可以在情感分类方面取得显著效果。

(2)通过RAKE抽取关键词，可以提取到一些较长的专业术语关键词，且取得不错的效果。

(3)通过置信函数，可以将测试集分为置信度强和置信度弱两部分，结合传统机器学习模型对置信度弱的那部分数据进行重新分类。

(4)采用GridSearchCV自动调参，得到最优化参数。

(5)利用增强网络模型优化神经网络的集成方法，可解释性强，又可以提高整体分类性能。

附图说明

图1为本发明实施例的方法的流程图；

图2为本发明实例的深度学习网络结构图；

图3为本发明实例的softmax函数的计算过程图；

图4为本发明实例的增强网络结构图；

图5为本发明实例的增强网络的超平面图；

图6为本发明实例的RTS-CF网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

教育文本挖掘是文本挖掘中不可忽视的领域。从简单的文本中挖掘和发现学***台起着重要的教学辅助手段，允许学习者自由发表个人观点和主观感受，以及和他人进行社会性互动。文本是其中最简单也最普遍的交互方式。在这里，站在情感角度，可以通过发表的观点，从文本中分析学习者的情感倾向，及时了解学习者整个学习状态，为教师反馈和干预提供可能。

请见图1，本发明提供的一种基于置信度的可解释性的文本情感分析方法，包括以下步骤：

步骤1：针对预分析文本数据，进行数据预处理；

本实施例中，步骤1的具体实现包括以下子步骤：

步骤1.1：将获取的文本数据整理成所需的数据类型，存储在txt文件中；

步骤1.2：读写文本文件内容，去除空格及其他无用的符号，以备后续使用；

本实施例中，为了后续的分类工作，需要将数据处理成txt文件，用于读取文本内容，去除除中文、指定标点符号以外的符号，并存入新的txt文件中。

步骤2：将预处理后的数据输入深度学习网络进行分类；

请见图2，本实施例的深度学习网络R-TextCNN，包括RAKE抽取关键词层、关键词嵌入层、卷积层、最大池化层和全连接的softmax层；

本实施例的RAKE抽取关键词层，是一种快速自动抽取关键词的方法。利用指定的标点符号，如句号、问号、感叹号、逗号等将文本分成若干句；对于每一个分句，使用停用词作为分隔符将句子分成若干个短语，这些短语即为待排序的候选词；每个短语由若干个字组成，为每个字赋予一个得分，通过累加得到每个短语的得分，

其中deg为每个字的度，指该字在文本中所有字在候选关键词中的共现次数，freq为每个字的词频；对这些提取的候选关键词从大到小排序；最后输出排序得分靠前的几个短语作为关键词；

本实施例的关键词嵌入层，将抽取到关键词转化成embedding表示。将n个映射为词向量的单词连接成一句话。长度为n的句子表示为：x_1:n＝x₁⊕x₂⊕...⊕x_n；其中，x_i∈R^K为句子中第i个单词对应的k维单词向量；⊕是连接操作；x_i:i+j表示单词x_i，x_i+1，...，x_i+j的连接；

本实施例的卷积层，使用一个宽度为d，高度为h的卷积核w与x_i:i+h-1(h个词)进行卷积操作后，再使用激活函数激活得到相应的特征c_i，则卷积操作表示为c_i＝f(w.x_i:i+h-1+b)；其中，w为初始化权重，b为偏置项，h为滤波器窗口长度；经过卷积操作后，得到一个n-h+1维的向量c：c＝[c₁,c₂,...,c_i,...,c_n-h+1]；其中，n为每句话的词数；

本实施例的最大池化层，对卷积后得到的若干个一维向量取最大值，然后拼接在一块，作为本层的输出值：z＝{z₁,z₂,z₃,...,z_i,...,z_m}；其中，z_i＝max{c_i}；

本实施例的全连接的softmax层，将z送入全连接的softmax层，得出句子的标签概率分布：

其中，y_i为label_i对应的预测分值，w_i为全连接层的权重；label_i为第i个分类标签。

本实施例采用的深度学习网络，是训练好的深度学习网络；其训练过程包括以下子步骤：

(1)采集训练数据文本集，并将文本和标签按照样本占比，分为训练集和测试集；

本实施例通过train_test_split()函数将数据集分为训练集和测试集，设置样本占比test_size。例如，有100个数据，test_size＝0.2，那么训练集占80％，为80个，测试集占20％，为20个。

(2)创建嵌入矩阵，通过嵌入索引，得到嵌入向量，将其赋值到嵌入矩阵中，并加载预训练的词嵌入到嵌入层；

(3)使用训练集训练深度学习网络；

(4)训练完数据后，将深度学习网络保存，用于对测试集的预测分类。

本实施例采用的置信函数

其中，d为深度学***稳时的迭代次数为基准，在此基础上每增加一个迭代间隔训练一次模型用于测试数据；若最小间隔＝5，迭代次数基准＝50，训练次数d＝3，则深度学习网络需要在迭代次数为55，60，65时分别进行训练并测试；mean(*)为均值函数；y₁，y₂表示深度学习网络softmax层的输出值，可分别视为置信度强和置信度弱两部分的得分，其中

表示所有预测结果之和；

请见图3，本实施例采用的softmax函数，又称归一化指数函数，是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来，计算过程包括以下子步骤：

(1)将预测结果转化为非负数：将模型的预测结果z＝{z₁,z₂,...,z_i,...,z_n}转化到指数函数f(x)＝exp(x)上，保证概率的非负性。

(2)各种预测结果概率之和等于1：为确保概率之和等于1，需将转换后的结果进行归一化处理。方法是将转化后的结果exp(z_i)除以所有转化后结果之和

得到近似的概率

本实施例中，softmax层得到两个分类得分后，自定义一个直观的置信函数，通过置信度强弱，分成两类数据，一类为置信度强的数据，即两类得分差距大，分类效果好的数据；一类为置信度弱的数据，即两类得分差距不大，不好分类的一部分数据。

请见图4，本实施例的由增强网络进行分类，包括设置调参起点、GridSearchCV、训练SVM、分类结果；

本实施例的设置调参起点，先设置惩罚参数C和核函数参数gamma值在0.1～100之间，根据增强网络模型表现，每次乘以0.1或者10作为一个步长；当确定大致范围后，再细化搜索区间；

本实施例的GridSearchCV，在细化后搜索区间的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。最终表现的好坏与初始数据的划分的结果有很大关系，所以采用交叉验证法减少偶然性；

本实施例的训练SVM，参数调优之后，调用sklearn.svm中的SVC来训练增强网络模型，训练的时候同时要设置之前参数调优得到的结果，最终得到一个训练好的增强网络模型；

本实施例的分类结果，加载训练好的增强网络模型，使用训练好的SVM对置信度弱的数据预测分类，得到分类结果。

请见图5，本实施例的增强网络的超平面图；

本实施例中，在特征空间中找到一个最大的超平面，使得所有样本到该平面的距离最大(求样本集合到平面的距离，也就是求最近的样本点到超平面的距离)，我们的学***面，让这个距离最大。求解参数α采用SMO算法，每次循环中选择两个α进行优化处理，一旦找到一对在间隔边界之外且还没有进行过区间化处理或者不在边界上的α，那么就增大其中一个同时减小另一个，直到全部的α_i满足此优化问题的KKT条件以及约束条件。

下面进一步阐述其分类实现过程；

D＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}

给定样本集：y_i＝{-1，+1}；其中，x_i为属性，y_i为类标签。目的：寻找一个最优(泛化能力最强)的超平面，将不同类别的样本分开。

待训练的目标超平面：w_s ^Tx+b_s＝0；其中，w_s为法向量，b_s为位移项。

任意点x到超平面(w_s,b_s)的距离为：

如果超平面将样本成功分类，则下式成立：

使等号成立的几个样本点称为“支持向量”，两个异类支持向量到超平面的距离之和为：

其被称为“间隔”。

找到具有“最大间隔”的超平面，即

可以知道，最大化||w_s||^-1等价于最小化||w_s||²，将上式重写为：

该式为SVM的“基本型”。

求解上式来得到模型：f(x)＝w_s ^Tx+b_s；

对式子中的每条约束加上拉格朗日乘子α_i(α_i大于等于0)，得到：

令L分别对w_s和b_s的偏导为0，得：

代入上式中，得到SVM“基本型”的对偶问题：

求w_s(即求α)和b_s，得模型：

上述过程需满足KKT条件。

使用SMO算法求取α，使用支持向量的性质求b_s。

本实施例中，对于置信度弱的那部分数据，采用传统机器学习的方法，作为增强模型，为其重新分类。传统机器学习方法具有可解释性强的特点。

请见图6，为RTS-CF网络结构图；

本实施例中，首先，对文本数据进行数据类型及内容的处理；其次，RAKE抽取关键词，依次进入关键词嵌入层、卷积层、最大池化层以及全连接的softmax层进行分类；然后，进入置信分割器，通过置信函数

分为置信度强和置信度弱的结果，通过索引找到对应的文本以及标签，得到置信度强的列表数据和置信度弱的列表数据；接着，置信度强的数据进入深度学习网络进行分类，置信度弱的数据进入增强网络进行分类；最后，将两个网络的分类结果通过concatenate()函数合并，得到最终预测结果。

本发明的方法是对个人发出的文本进行情感分类。首先，加载数据，对数据预处理；利用整个训练数据训练深度学习网络模型(也可以采用现有的TextCNN、RNN等模型)，并对测试数据进行分类；构造一个置信分割器，定义一个置信函数，将深度学习网络模型分类结果分为置信度强和置信度弱两部分；根据置信度的强弱之分，置信度高的数据由深度学习网络模型进行分类，置信度弱的数据由增强网络模型(也可以采用现有的朴素贝叶斯、SVM、具有朴素贝叶斯特征的SVM等)将其重新分类，该增强模型是传统机器学习模型；最后，结合深度学习网络模型和增强网络模型的结果，输出最终的分类结果。本发明可以获得个人发出文本的情感倾向以及了解个人的兴趣主题。本发明采用深度学习方法与机器学习方法的集成方法，以提高整体的分类性能为目的，实现对个人的情感倾向的掌握与了解，这样的一种建模方法是目前很少使用的，值得探索与尝试。采用RAKE快速提取关键词，简单高效，能够提取一些较长的专业术语关键词，且属于无监督方法，不需要大量标注数据。在今后的探究工作中，可以尝试寻找其他有效的置信函数，并将该框架应用于其他模型，研究其有效性和适用性。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于置信度的可解释性的文本情感分析方法，其特征在于，包括以下步骤：

步骤1：针对预分析文本数据，进行数据预处理；

步骤2：将预处理后的数据输入深度学习网络进行分类；

所述置信函数

z_i为第i个节点的输出值，作为softmax的输入值；n为输出节点的个数，即分类的类别个数；

表示所有预测结果之和；

2.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法，其特征在于：步骤1中数据预处理，首先，将获取的文本数据整理成所需的数据类型，存储在txt文件中；读写文本文件内容，去除空格及其他无用的符号，以备后续使用。

3.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法，其特征在于：步骤2中所述深度学习网络R-TextCNN包括RAKE抽取关键词层、关键词嵌入层、卷积层、最大池化层和全连接的softmax层；

所述RAKE抽取关键词层，利用指定的标点符号，将文本分成若干句；对于每一个分句，使用停用词作为分隔符将句子分成若干个短语，这些短语即为待排序的候选词；每个短语由若干个字组成，为每个字赋予一个得分，通过累加得到每个短语的得分，

其中deg为每个字的度，指该字与文本中所有字在候选关键词中的共现次数，freq为每个字的词频；对这些提取的候选关键词从大到小排序；最后输出排序得分靠前的几个短语作为关键词；

所述关键词嵌入层，将抽取到关键词转化成embedding表示；将n个映射为词向量的单词连接成一句话；长度为n的句子表示为：

其中，x_i∈R^K为句子中第i个单词对应的k维单词向量；

是连接操作；x_i:i+j表示单词x_i，x_i+1，...，x_i+j的连接；

所述卷积层，使用宽度为d，高度为h的卷积核w与x_i:i+h-1进行卷积操作后，再使用激活函数激活得到相应的特征c_i，则卷积操作表示为c_i＝f(w.x_i:i+h-1+b)；其中，f为激活函数，w为初始化权重，b为偏置项，h为滤波器窗口长度；经过卷积操作后，得到一个n-h+1维的向量c：c＝[c₁,c₂,...,c_i,...,c_n-h+1]；其中，n为每句话的词数；

所述最大池化层，对卷积后得到的若干个一维向量取最大值，然后拼接在一块，作为本层的输出值：z＝{z₁,z₂,z₃,...,z_i,...,z_m}；其中，z_i＝max{c_i}；

所述全连接的softmax层，将z送入全连接的softmax层，得出句子的标签概率分布

4.根据权利要求1所述的基于置信度的可解释性的文本情感分析方法，其特征在于：步骤4中所述由增强网络重新分类，包括设置调参起点、GridSearchCV、训练SVM、分类结果；

所述设置调参起点，先设置惩罚参数C和核函数参数gamma值在0.1～100之间，根据增强网络模型表现，每次乘以0.1或者10作为一个步长；当确定大致范围后，再细化搜索区间；

所述GridSearchCV，在细化后搜索区间的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果；

所述训练SVM，参数调优之后，调用sklearn.svm中的SVC来训练增强网络模型，训练的时候同时要设置之前参数调优得到的结果，最终得到一个训练好的增强网络模型；

所述分类结果，加载训练好的增强网络模型，使用训练好的SVM对置信度弱的数据预测分类，得到分类结果。

5.根据权利要求1-4任意一项所述的基于置信度的可解释性的文本情感分析方法，其特征在于：步骤5中将两个网络的分类结果通过concatenate()函数合并，得到最终预测结果。

6.一种基于置信度的可解释性的文本情感分析***，其特征在于，包括以下模块：

模块1，用于针对预分析文本数据，进行数据预处理；

模块2，用于将预处理后的数据输入深度学习网络进行分类；

所述置信函数

表示所有预测结果之和；

7.一种基于置信度的可解释性的文本情感分析设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于置信度的可解释性的文本情感分析方法。