CN116484004B

CN116484004B - 一种对话情绪识别分类方法

Info

Publication number: CN116484004B
Application number: CN202310607292.4A
Authority: CN
Inventors: 徐博; 李龙娇
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2024-06-07
Anticipated expiration: 2043-05-26
Also published as: CN116484004A

Abstract

本发明提出一种对话情绪识别分类方法，包括对对话情绪识别数据集进行预处理；对预处理后的对话情绪识别数据集中的语句进行语句级特征提取，得到语句级特征；对预处理后的对话情绪识别数据集中的语句进行情绪引发事件提取，得到情绪引发事件的语义表示；通过语句的语句级特征和情绪引发事件的语义表示构建情绪‑心理表征异构会话图，得到每个节点输入特征的特征矩阵和节点之间边的连接关系的邻接矩阵；通过图编码器对特征矩阵和邻接矩阵进行会话级特征提取，得到会话级特征；全连接语句级特征和会话级特征，把全连接得到的结果输入到前馈神经网络得到情绪分类。本发明可以更好的识别对话中的情绪类别，提高了对话情绪识别的准确性。

Description

一种对话情绪识别分类方法

技术领域

本发明属于智能识别技术领域，具体公开了一种对话情绪识别分类方法。

背景技术

自然语言作为人类主要的交流媒介，在情感产生过程中起着非常重要的作用，因此，情感识别在意见挖掘、社交媒体、推荐***等领域具有广阔的应用前景。近年来，为了开发能够理解人类情感的人工智能，会话情感识别(ERC)引起了自然语言处理研究者的关注，成为了一个热门的研究领域。会话情感识别旨在识别对话中每个话语的情绪，这有助于生成情绪感知对话，并开发用于心理治疗的共情对话代理或聊天机器人。此外，ERC在社交媒体线索、辩论挖掘、实时对话中的消费者反馈、法律裁决、电子健康服务医疗***、教育等方面也有潜在的应用。会话情感识别不同于句子、文档等传统文本，它不仅需要话语本身的语义信息，还需要每个话语的语境建模。会话情绪识别的初步研究，如基于词汇和基于深度学习的情绪识别研究方法，忽略了会话的具体因素，如上下文线索、话语的时间顺序或说话人的具体信息。最近关于会话情绪识别的研究使用基于序列或基于图的方法来尽可能地模拟话语的上下文和说话者之间的互动。在上述研究的基础上，有研究者将常识知识、心理学知识、对话行为、话题等影响对话情绪的变量纳入模型。

尽管之前的研究在会话情绪识别任务上取得了巨大的进展，但是忽略了引发说话者产生情绪的心理表征对情绪识别的作用。使用外部常识知识库的方法建模心理状态很大程度上依赖知识库的规模、覆盖范围和构造质量。虽然预训练模型有助于对知识库的未见事件生成常识知识，但是现实生活中每个人的常识未必一样。心理学专家RainerReisenzein从可计算的情绪的心理表征理论来研究语言-情绪的相互作用，了解到情绪不仅依赖于认知心理表征(即认知或信息状态)，而且依赖于动机心理表征(即动机状态)。可以说，可计算的情绪的心理表征理论所基于的情感心理表征理论本身就是对语言中隐含的情感常识心理学的解释。人类有复杂的心理表征，在日常对话交流中从言语可以得知说话者“某个心理表征刚刚被某个事件所证实”或“某个心理表征刚刚被某一事件所实现”，所以针对事务状态的情绪源于对心理表征的确认或不确认和心理表征的满足或挫败。可以说，心理表征和情感不仅作为因果关系，而且在语义上与情感有关：相信p、对p的渴望和关于p的快乐是一个共同的事件，它们都涉及到p。因此一个基于情绪的心理表征理论的含有语句、说话者、情绪引发事件的异构图神经网络对语句进行情绪分类方法可以更好的识别对话中的情绪。

发明内容

本发明为解决现有对话情绪识别分类方法忽略了引发说话者产生情绪的心理表征对情绪识别的作用且分类精度低的问题，提出了一种对话情绪识别分类方法。

本发明提供了一种对话情绪识别分类方法，包括如下步骤：

S1.对对话情绪识别数据集进行预处理，去除所述对话情绪识别数据集中语句的无关信息，提高文本的质量；

S2.对步骤S1中预处理后的所述对话情绪识别数据集中的语句进行语句级特征提取，得到语句的语句级特征；

S3.对步骤S1中预处理后的所述对话情绪识别数据集中的语句进行情绪引发事件提取，得到情绪引发事件的语义表示；

S4.通过步骤S2获得的语句的语句级特征和步骤S3获得的所述情绪引发事件的语义表示构建情绪-心理表征异构会话图，得到每个节点输入特征的特征矩阵和节点之间边的连接关系的邻接矩阵；

S5.通过图编码器对步骤S4获得的所述特征矩阵和邻接矩阵进行会话级特征提取，得到会话级特征；

S6.全连接步骤S2中得到的所述语句级特征和步骤S5中得到的所述会话级特征，把全连接得到的结果输入到前馈神经网络得到情绪分类。

更进一步的，所述步骤S1中，所述对话情绪识别数据集包括IEMOCAP、DailyDialog、MELD和EmoryNLP中的一个或多个；所述预处理包括去除缩写、去除非字母符号、去除特殊符号、去除专有名词的缩写和去除多余的空格符中的一个或多个。

更进一步的，所述步骤S2中，使用语言模型Roberta-Large对所述对话情绪识别数据集中的语句进行语句级特征提取，在所述对话情绪识别数据集中的每个语句u_i的开头加标记[CLS]，使输入的序列为[CLS]，w₁,w₂，···，w_L并输入到Roberta中，得到语句级特征如公式(1)所示：

其中，w_L表示语句u_i的第L个单词。

更进一步的，所述步骤S2中使用的语言模型Roberta-Large架构为24层，每个块中有16个自注意头，隐藏维度为1024，总共有355M个参数。

更进一步的，所述步骤S3包括：

S301.根据从属连词和连接词将所述对话情绪识别数据集中的语句分割成简单的子句；

S302.设计多个事件模式来匹配提取情绪引发事件，找到句子u_i中包含每个动词v的简单子句的依赖关系，然后将依赖关系与设计好的多个事件模式一一匹配，对于每个模式，将动词v作为起点，找到所有积极依赖关系边，这些积极依赖关系边和由这些积极依赖关系边连接起来的单词为潜在的边和有效情绪引发事件的单词；

S303.通过依赖关系添加可选依赖关系边和由这些可选依赖关系边连接起来的单词形成依赖图；

S304.检查是否能够在依赖图中找到消极依赖关系边，若没有找到，则保留当前的依赖关系边和单词作为有效的情绪引发事件，反之则不保留；

S305.对提取的有效的情绪引发事件使用RoBERTa进行编码，获取最后一层隐藏状态的最大池化，得到情绪引发事件的语义表示如公式(2)所示：

其中，e为有效的情绪引发事件。

更进一步的，所述步骤S4包括：

S401.构建情绪-心理表征异构会话图的语句节点、说话者节点和情绪引发事件节点；将对话中的每个目标语句作为一个语句节点，语句节点的特征初始化为语句的语句级特征，如公式(3)所示：

将对话中每个说话者作为一个说话者节点，说话者节点的特征初始化为对话中该说话者所有表达的语句的语义特征平均值，如公式(4)所示：

其中，avg()为取平均值函数；

将从对话中每个语句提取出来的情绪引发事件作为一个情绪引发事件节点，情绪引发事件节点的特征初始化如公式(5)所示：

节点合集如公式(6)所示：

V＝u_i∪Unique(s_j)∪Unique(e_y) (6)

其中，V为节点合集，u_i为第i个语句节点，s_j为第j个说话者节点，e_y为第y个情绪引发事件节点，Unique()为去重函数；

S402.构建情绪-心理表征异构会话图的语句—语句边、语句—说话者边和语句—情绪引发事件边；连接每个目标语句和它之前所有说话者的最后一个语句，所述语句-语句边建模过去语句对当前语句的影响，所述语句—语句边E_uu如公式(7)所示：

E_uu＝(u_i，u_t)，t＞i (7)

其中，u_i为第i个语句节点，u_t为第t个语句节点；

连接每个目标语句和该语句对应的说话者，所述语句-说话者边建模说话者对语句的影响，所述语句-说话者边E_su如公式(8)所示：

E_su＝(s_j，u_i) (8)

其中，s_j为第j个说话者节点，u_i为第i个语句节点；

连接每个目标语句和从该语句提取出来的情绪引发事件，所述语句-情绪引发事件边建模情绪引发事件的心理表征信息对情绪产生的影响，所述语句-情绪引发事件边如公式(9)所示：

E_eu＝(e_t，u_i) (9)

其中，e_t为第t个情绪引发事件节点，u_i为第i个语句节点；

边合集如公式(10)所示：

E＝E_uu∪E_su∪E_eu (10)

其中，E为边合集；

S403.构建异构会话图之后，获得表示每个节点输入特征的特征矩阵X和节点之间边的连接关系的邻接矩阵{A_k}，所述特征矩阵X为各个节点的特征组成的一个N×d维的矩阵，N为所有节点数量，d为每个节点特征向量维度，所述邻接矩阵{A_k}为表示各个节点之间边关系的N×N维的矩阵集合，A_k为第k种依赖关系边的邻接矩阵。

更进一步的，所述步骤S5包括：

S501.应用l层图转换层从异构图G的邻接矩阵集A中软性地选择邻接矩阵，并通过两个选定的邻接矩阵A₁和A₂的矩阵乘法，学习一个新的元路径图，通过多个不同的异构图G结构学习不同的节点表示，在堆叠l层图转换层后，学习多个元路径图，在每个元路径图执行图卷积神经网络进行图卷积，图卷积神经网络层与层之间的传播方式如公式(11)所示：

其中，X^(l+1)为第l+1层的特征矩阵，σ为非线性激活函数，A为邻接矩阵，I为单位矩阵，/>是/>的度矩阵，W为共享跨通道的可训练的权重矩阵，W∈R^d×d是d×d维的实数矩阵，d为每个节点特征向量维度；

S502.全连接多个元路径图上来自相同图卷积神经网络的多个节点表示，得到语句节点的会话级特征，如公式(12)所示：

其中，H为会话级特征，||为全连接操作，C为通道数，为来自/>的第i个通道的邻接矩阵，/>为第l层的邻接矩阵，/>为/>的度矩阵，W为共享跨通道的可训练的权重矩阵。

更进一步的，所述步骤S6中，全连接语句级特征和语句节点的会话级特征，公式(13)所示：

其中，||为全连接操作，为语句u_i的语句级特征，H_i为语句u_i的会话级特征，

把全连接得到的结果输入到前馈神经网络，使用交叉熵损失函数和Adam优化器进行训练优化前馈神经网络，最终得到情绪分类结果，如公式(14)和公式(15)所示：

p_x，i＝Softmax(W_zz_i+b_z) (14)

y_x，i＝Argmax(p_x，i) (15)

其中，y_x，i为对话x中第i个语句的实际标签，z_i为最后的语句表示，W_z和b_z为可训练的参数，p_x，i为为对话x中第i个语句情绪标签的预测概率分布。

本发明提出的一种对话情绪识别分类方法，建模了语句的语义信息、对话的上下文和顺序信息、说话者的全局信息和与情绪引发事件相关的心理表征，将引发说话者产生情绪的心理表征对情绪识别的作用考虑进方法中，可以更好的识别对话种语句的情绪类别，提高了对话情绪识别的准确性。

附图说明

图1为本发明一种对话情绪识别分类方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

一种对话情绪识别分类方法如图1所示，包括如下步骤：

S1.对对话情绪识别数据集进行预处理，去除对话情绪识别数据集中语句的无关信息，提高文本的质量；

具体的，对话情绪识别数据集包括IEMOCAP、DailyDialog、MELD和EmoryNLP中的一个或多个；预处理包括去除缩写、去除非字母符号、去除特殊符号、去除专有名词的缩写和去除多余的空格符中的一个或多个。

S2.对步骤S1中预处理后的对话情绪识别数据集中的语句进行语句级特征提取，得到语句的语句级特征；

具体的，使用RoBERTa-Large对对话情绪识别数据集中的语句进行语句级特征提取，具体实施为：将对话情绪识别数据集中的语句以字典类型进行存储，对话中每个语句的键有text、speaker，分别对应语句文本和相应的说话者名字。使用语言模型Roberta-Large在对话情绪识别数据集中的每个语句u_i的开头加标记[CLS]，使输入的序列为[CLS]，w₁,w₂，···，w_L并输入到Roberta中，使用Huggingface的Transformers库进行RoBERTa-Large提取语句的语义级表示，使用RobertaTokenizer类及其from_pretrained()方法进行分词预处理返回PyTorch张量；使用RobertaModel类及其from_pretrained方法进行输出得到[CLS]在最后一层隐藏状态1024维的池化嵌入作为语句的语句级特征，得到语句级特征如公式(1)所示：

其中，w_L表示语句u_i的第L个单词。

使用的语言模型Roberta-Large架构为24层，每个块中有16个自注意头，隐藏维度为1024，总共有355M个参数。

S3.对步骤S1中预处理后的对话情绪识别数据集中的语句进行情绪引发事件提取，得到情绪引发事件的语义表示；

言语交流是计算具体情绪引发事件的心理表征所需的一般和特定背景心理表征的主要来源，心理表征在语义上和情感有关，因此从目标话语提取引发情绪事件来判断对心理表征的确认或不确认和心理表征的满足或挫败。为了确保所有提取的情绪引发事件在语义上都是完整的，而且不过于复杂，使用了18个设计好的事件模式来通过模式匹配提取情绪引发事件，18个事件模式如表1所示：

表1 18种事件模式

每个模式都包含三种依赖关系边：积极依赖关系边、可选依赖关系边和消极依赖关系边。另外六个依赖关系advmod、amod、nummod、aux、compound和neg是可选依赖关系边，可以与任何选定的模式相关联。所有积极依赖关系边和可选依赖关系边之外的其他依赖边都被认为是消极依赖关系边，旨在确保所提取的所有情绪引发事件在语义上是完整的，并且所有模式彼此独立互斥。

具体的，步骤S3包括：

S301.考虑到语句中可能包含多个情绪引发事件，所以根据成分树将其分割成简单的子句，遵循话语解析***使用连接分类器来检测可能的分隔符，因此，根据从属连词和连接词将对话情绪识别数据集中的语句分割成简单的子句；

其中，e为有效的情绪引发事件。

S4.通过步骤S2获得的语句的语句级特征和步骤S3获得的情绪引发事件的语义表示构建情绪-心理表征异构会话图，得到每个节点输入特征的特征矩阵和节点之间边的连接关系的邻接矩阵；

具体的，步骤S4包括：

其中，avg()为取平均值函数；

节点合集如公式(6)所示：

V＝u_i∪Unique(s_j)∪Unique(e_y) (6)

S402.构建情绪-心理表征异构会话图的语句—语句边、语句—说话者边和语句—情绪引发事件边；我们认为在目标语句之前的每个说话者的最后一句话对目标语句的上下文影响最大，其他的影响较小，此外，值得注意的是，语句之间的边是单向的，现实生活中，当前话语所表达的情感只受前面的话语影响。所以在构建语句—语句边时，连接每个目标语句和它之前所有说话者的最后一个语句，语句—语句边建模过去语句对当前语句的影响，语句—语句边E_uu如公式(7)所示：

E_uu＝(u_i，u_t)，t＞i (7)

其中，u_i为第i个语句节点，u_t为第t个语句节点；

连接每个目标语句和该语句对应的说话者，语句-说话者边建模说话者对语句的影响，语句-说话者边E_su如公式(8)所示：

E_su＝(s_j，u_i) (8)

其中，s_j为第j个说话者节点，u_i为第i个语句节点；

连接每个目标语句和从该语句提取出来的情绪引发事件，语句-情绪引发事件边建模情绪引发事件的心理表征信息对情绪产生的影响，语句-情绪引发事件边如公式(9)所示：

E_eu＝(e_t，u_i) (9)

其中，e_t为第t个情绪引发事件节点，u_i为第i个语句节点；

边合集如公式(10)所示：

E＝E_uu∪E_su∪E_eu (10)

其中，E为边合集；

S5.通过图编码器对步骤S4获得的特征矩阵和邻接矩阵进行会话级特征提取，得到会话级特征；

具体的，步骤S5包括：

S501.使用PyToch框架搭建Graph Transformer Network，设置C个卷积的输出通道来同时考虑多种元路径，应用l层图转换层从异构图G的邻接矩阵集A中软性地选择邻接矩阵，并通过两个选定的邻接矩阵A₁和A₂的矩阵乘法，学习一个新的元路径图，通过多个不同的异构图G结构学习不同的节点表示，在堆叠l层图转换层后，学习多个元路径图，在每个元路径图执行图卷积神经网络进行图卷积，图卷积神经网络层与层之间的传播方式如公式(11)所示：

具体的，全连接语句级特征和语句节点的会话级特征，公式(13)所示：

p_x，i＝Softmax(W_zz_i+b_z) (14)

Y_x，i＝Argmax(p_x，i) (15)

利用本实施例的方法对训练集数据进行训练，并通过验证集和测试集实验结果进行验证，将本实施例的方法与基于序列的对话情绪识别分类方法DialogueRNN、基于图的对话情绪识别分类方法RGAT-POS、DAG-ERC和基于常识知识的对话情绪识别算法COSMIC、SKAIG-ERC进行对比，获得表2的结果：

表2不同算法实验结果对比

在数据集IEMOCAP和EmoryNLP上使用weighted-F1作为评估指标进行方法性能的评估，weighted-F1数值越高表示方法对样本进行分类的效果越好，本实施例的方法在IEMOCAP、EmoryNLP两个数据集上的weighted-F1数值获得了优于DialogueRNN、RGAT-POS、DAG-ERC、COSMIC、SKAIG-ERC的结果，在数据集IEMOCAP上比最好的算法DAG-ERC高0.19，在数据集EmoryNLP上比最好的算法DAG-ERC高1.3。由于DailyDialog数据集含有大量标签为中性的数据，所以在DailyDialog使用排除标记为中性的语句的micro-F1作为评估指标进行方法性能的评估，micro-F1是计算所有样本中正确分类的比例，micro-F1数值越高表示方法对样本进行分类的效果越好，本实施例的方法在数据集DailyDialog上的micro-F1数值获得了优于DialogueRNN、RGAT-POS、DAG-ERC、COSMIC、SKAIG-ERC的结果，在数据集DailyDialog上最好的算法SKAIG-ERC高0.05。所以可以看出，本实施例给出的方法可以获得更好的分类效果，即可以使情绪识别分类的结果更加准确。

本实施例的方法受心理学中的情绪的心理表征理论的启发，考虑到心理表征对情绪的作用，将对话数据进行预处理，使用预训练模型对语句进行语句级特征提取，提取语句中的情绪引发事件将对话中的语句、说话者、情绪引发事件构建成一个异构图建模对话的上下文交互、顺序信息、说话者信息和情绪引发事件的心理表征信息，使用图变压器网络进行对语句进行会话级特征提取，最后结合语句的语句级特征和会话级特征进行情绪分类，从而实现对对话中语句的情绪识别。建模了语句的语义信息、对话的上下文和顺序信息、说话者的特定信息和与情绪引发事件相关的心理表征，可以更好的识别对话中语句的情绪类别，保证了对话情绪识别结果的准确性。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种对话情绪识别分类方法，其特征在于，包括如下步骤：

S1.对对话情绪识别数据集进行预处理，去除所述对话情绪识别数据集中语句的无关信息；

S6.全连接步骤S2中得到的所述语句级特征和步骤S5中得到的所述会话级特征，把全连接得到的结果输入到前馈神经网络得到情绪分类；

所述步骤S2中，使用语言模型Roberta-Large对所述对话情绪识别数据集中的语句进行语句级特征提取，在所述对话情绪识别数据集中的每个语句u_i的开头加标记[CLS]，使输入的序列为[CLS]，w₁,w₂，···，w_L并输入到Roberta中，得到语句级特征如公式(1)所示：

其中，w_L表示语句u_i的第L个单词；

所述步骤S3包括：

其中，e为有效的情绪引发事件；

所述步骤S4包括：

其中，avg()为取平均值函数；

节点合集如公式(6)所示：

S402.构建情绪-心理表征异构会话图的语句—语句边、语句—说话者边和语句—情绪引发事件边；连接每个目标语句和它之前所有说话者的最后一个语句，所述语句—语句边建模过去语句对当前语句的影响，所述语句—语句边E_uu如公式(7)所示：

E_uu＝(u_i,u_t),t>i (7)

其中，u_i为第i个语句节点，u_t为第t个语句节点；

连接每个目标语句和该语句对应的说话者，所述语句—说话者边建模说话者对语句的影响，所述语句—说话者边E_su如公式(8)所示：

E_su＝(s_j,u_i) (8)

其中，s_j为第j个说话者节点，u_i为第i个语句节点；

连接每个目标语句和从该语句提取出来的情绪引发事件，所述语句—情绪引发事件边建模情绪引发事件的心理表征信息对情绪产生的影响，所述语句—情绪引发事件边如公式(9)所示：

E_eu＝(e_t,u_i) (9)

其中，e_t为第t个情绪引发事件节点，u_i为第i个语句节点；

边合集如公式(10)所示：

E＝E_uu∪E_su∪E_eu (10)

其中，E为边合集；

S403.构建异构会话图之后，获得表示每个节点输入特征的特征矩阵X和节点之间边的连接关系的邻接矩阵集A＝{A_k}，所述特征矩阵X为各个节点的特征组成的一个N×d维的矩阵，N为所有节点数量，d为每个节点特征向量维度，所述邻接矩阵集A＝{A_k}为表示各个节点之间边关系的N×N维的矩阵集合，A_k为第k种依赖关系边的邻接矩阵；

所述步骤S5包括：

S501.应用l层图转换层从异构图G的邻接矩阵集A中选择邻接矩阵，并通过两个选定的邻接矩阵A₁和A₂的矩阵乘法，学习一个新的元路径图，通过多个不同的异构图G结构学习不同的节点表示，在堆叠l层图转换层后，学习多个元路径图，在每个元路径图执行图卷积神经网络进行图卷积，图卷积神经网络层与层之间的传播方式如公式(11)所示：

其中，X^(l+1)为第l+1层的特征矩阵，σ为非线性激活函数，A为邻接矩阵集，I为单位矩阵，/>是/>的度矩阵，W^(l)为第l层的实数矩阵，且W^(l)∈R^d×d是d×d维的实数矩阵，d为每个节点特征向量维度；

2.根据权利要求1所述的一种对话情绪识别分类方法，其特征在于，所述步骤S1中，所述对话情绪识别数据集包括IEMOCAP、DailyDialog、MELD和EmoryNLP中的一个或多个；所述预处理包括去除缩写、去除非字母符号、去除特殊符号、去除专有名词的缩写和去除多余的空格符中的一个或多个。

3.根据权利要求1所述的一种对话情绪识别分类方法，其特征在于，所述步骤S2中使用的语言模型Roberta-Large架构为24层，每个块中有16个自注意头，隐藏维度为1024，总共有355M个参数。

4.根据权利要求1所述的一种对话情绪识别分类方法，其特征在于，所述步骤S6中，全连接语句级特征和语句节点的会话级特征，公式(13)所示：

其中，||为全连接操作，为语句u_i的语句级特征，G_i为语句u_i的会话级特征，

p_x,i＝Softmax(W_zz_i+b_z) (14)

y_x,i＝Argmax(p_x,i) (15)

其中，y_x,i为对话x中第i个语句的实际标签，z_i为最后的语句表示，W_z和b_z为可训练的参数，p_x,i为对话x中第i个语句情绪标签的预测概率分布。