CN112100337A

CN112100337A - 交互对话中的情绪识别方法及装置

Info

Publication number: CN112100337A
Application number: CN202011100575.2A
Authority: CN
Inventors: 王彦; 张加语; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2020-12-18
Anticipated expiration: 2040-10-15
Also published as: CN112100337B

Abstract

本发明涉及人工智能，揭露一种交互对话中的情绪识别方法，包括：提取交互对话中句子的文本特征；利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码；利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码；将所述第一句子编码与所述第二句子编码拼接后输入至条件随机场层，得到所述交互对话中所述句子对应的情绪标签。本发明还涉及区块链技术，所述网络模型文件存储于区块链中。本发明能够考虑交互对话中情绪连贯性，准确捕获较长句子的上下文信息，提高情绪识别的准确率。

Description

交互对话中的情绪识别方法及装置

技术领域

本发明涉及人工智能，尤其是涉及到交互对话中的情绪识别方法、装置、计算机设备及计算机存储介质。

背景技术

随着基于交互对话的服务兴起，交互对话中情绪识别技术得到越来越多的关注。赋予机器理解说话人情绪能力，在电商客服、在线问诊等场景中有很大的应用价值。

早期交互对话的情绪识别主要利用基于词典的方法和音频恩正，在交互对话中每个句子的基础上识别情绪。由于忽略了上下文信息，基于句子的情绪识别模型无法达到较高的准确率。近年来，一些包含音频、视频、文本等多模态的对话数据集被公开，同时越来越多的深度学习方法被应用于交互对话的情绪识别领域，例如，使用长短记忆网络捕获上下文信息，使用两个门控循环单元建模交互对话的上下文，分别描述说话人之间的依赖关系和说话人自身的依赖关系。但是，这些深度学习方法都忽略了交互对话中情绪标签之间的依赖关系，并且在捕获较长句子的上下文信息时表现欠佳，使得交互对话中情绪识别准确率较低，影响情绪分类效果。

发明内容

有鉴于此，本发明提供了一种交互对话中的情绪识别方法、装置、计算机设备及计算机存储介质，主要目的在于解决目前交互对话中情绪识别准确率较低，影响情绪分类效果的问题。

依据本发明一个方面，提供了一种交互对话中的情绪识别方法，该方法包括：

提取交互对话中句子的文本特征；

利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码；

利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码；

将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到所述交互对话中所述句子对应的情绪标签。

在本发明另一实施例中，所述上下文编码器包括自注意力编码器和网络模型，所述利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码，具体包括：

利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量；

利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有所述上下文信息的第一句子编码。

在本发明另一实施例中，所述利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量，具体包括：

利用所述自注意力编码器对所述句子的文本特征进行解析，获取所述句子的文本特征之间的影响权重；

基于所述句子的文本特征之间的影响权重，更新所述句子的文本特征；

将更新后的所述句子的文本特征输入至逐点全连接前馈层，生成交互对话中上下文相关的句子表示向量。

在本发明另一实施例中，所述网络模型文件存储于区块链中，所述网络模型为双向长短期记忆网络模型，所述双向长短记忆网络模型包含多层网络结构，所述利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有所述上下文信息的第一句子编码，包括：

利用所述双向长短期记忆网络模型中查表层内预先嵌入的词向量矩阵，将所述上下文相关的句子表示向量转换为文本分词序列；

利用所述双向长短期记忆网络模型中双向时序记忆层提取所述文本分词序列中各个分词向量之间的关联关系；

利用所述双向长短期记忆网络模型中分类层基于所述关联关系对所述文本分词序列中的文本分词进行处理，得到融合有所述上下文信息的第一句子编码。

在本发明另一实施例中，所述利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码，具体包括：

对所述句子的文本特征进行标签映射，得到包含有参与对象标识的句子文本特征；

利用参与对象编码器向所述包含有参与对象标识的句子文本特征中增加参与对象的状态信息，得到融合有参与对象状态的第二句子编码。

在本发明另一实施例中，所述将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到所述交互对话中所述句子对应的情绪标签，具体包括：

利用所述条件随机场框架在计算所述交互对话中句子向量在不同情绪标签上的概率值同时，利用预先为交互对话中句子向量标注的位置信息，设置句子向量的转移矩阵；

基于所述句子向量的转移矩阵，调整所述句子向量在不同情绪标签上的概率值，得到所述交互对话中所述句子对应的情绪标签。

在本发明另一实施例中，所述基于所述句子向量的转移矩阵，调整所述句子向量在不同情绪标签上的概率值，得到所述交互对话中所述句子对应的情绪标签，具体包括：

按照预先为所述交互对话中句子向量标注的顺序，将所述句子向量在不同情绪标签上概率值形成多个情绪识别结果；

以所述句子向量的转移矩阵作为所述多个情绪识别结果的约束条件，计算所述多个情绪识别结果对应的评估分数；

选取评估分数最高的情绪识别结果作为交互对话中句子对应的情绪标签。

依据本发明另一个方面，提供了一种交互对话中的情绪识别装置，所述装置包括：

提取单元，用于提取交互对话中句子的文本特征；

第一捕获单元，用于利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码；

第二捕获单元，用于利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码；

识别单元，用于将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到所述交互对话中所述句子对应的情绪标签。

在本发明另一实施例中，所述上下文编码器包括自注意力编码器和网络模型，所述第一捕获单元包括：

生成模块，用于利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量；

学习模块，用于利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有所述上下文信息的第一句子编码。

在本发明另一实施例中，所述生成模块包括：

获取子模块，用于利用所述自注意力编码器对所述句子的文本特征进行解析，获取所述句子的文本特征之间的影响权重；

更新子模块，用于基于所述句子的文本特征之间的影响权重，更新所述句子的文本特征；

生成子模块，用于将更新后的所述句子的文本特征输入至逐点全连接前馈层，生成交互对话中上下文相关的句子表示向量。

在本发明另一实施例中，所述网络模型文件存储于区块链中，所述网络模型为双向长短期记忆网络模型，所述双向长短记忆网络模型包含多层网络结构，所述学习模块包括：

转换子模块，用于利用所述双向长短期记忆网络模型中查表层内预先嵌入的词向量矩阵，将所述上下文相关的句子表示向量转换为文本分词序列；

提取子模块，用于利用所述双向长短期记忆网络模型中双向时序记忆层提取所述文本分词序列中各个分词向量之间的关联关系；

处理子模块，用于利用所述双向长短期记忆网络模型中分类层基于所述关联关系对所述文本分词序列中的文本分词进行处理，得到融合有所述上下文信息的第一句子编码。

在本发明另一实施例中，所述第二捕获单元包括：

映射模块，用于对所述句子的文本特征进行标签映射，得到包含有参与对象标识的句子文本特征；

增加模块，用于利用参与对象编码器向所述包含有参与对象标识的句子文本特征中增加参与对象的状态信息，得到融合有参与对象状态的第二句子编码。

在本发明另一实施例中，所述识别单元包括：

设置模块，用于利用所述条件随机场框架在计算所述交互对话中句子向量在不同情绪标签上的概率值同时，利用预先为交互对话中句子向量标注的位置信息，设置句子向量的转移矩阵；

调整模块，用于基于所述句子向量的转移矩阵，调整所述句子向量在不同情绪标签上的概率值，得到所述交互对话中所述句子对应的情绪标签。

在本发明另一实施例中，所述调整模块包括：

生成子模块，用于按照预先为所述交互对话中句子向量标注的顺序，将所述句子向量在不同情绪标签上概率值形成多个情绪识别结果；

计算子模块，用于以所述句子向量的转移矩阵作为所述多个情绪识别结果的约束条件，计算所述多个情绪识别结果对应的评估分数；

选取子模块，用于选取评估分数最高的情绪识别结果作为交互对话中句子对应的情绪标签。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现交互对话中的情绪识别方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现交互对话中的情绪识别方法的步骤。

借由上述技术方案，本发明提供一种交互对话中的情绪识别方法及装置，通过提取交互对话中句子的文本特征，利用上下文编码器，捕获句子的文本特征中句子的上下文信息，得到融合有上下文信息的第一句子编码，利用参与对象编码器，捕获句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码，充分考虑交互对话中上下文信息加强情绪识别效果，使得模型对长句中历史信息捕捉能力更强，更加准确建立说话人之间的依赖关系，进而将对话情绪的识别任务定义为序列标签任务，将第一句子编码与的第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签，使用条件随机场学习标签级的上下文信息，充分利用情绪连贯性特征，在判断句子的情绪标签同时考虑其前后标签，找到全局最优标签序列，提高情绪识别的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种交互对话中的情绪识别方法的流程示意图；

图2示出了本发明实施例提供的另一种交互对话中的情绪识别方法的流程示意图；

图3示出了本发明实施例提供的交互对话中情绪识别的模型框图；

图4示出了本发明实施例提供的一种交互对话中的情绪识别装置的结构示意图；

图5示出了本发明实施例提供的另一种交互对话中的情绪识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种交互对话中的情绪识别方法，能够考虑交互对话中情绪连贯性，准确捕获较长句子的上下文信息，提高情绪识别准确率，如图1所示，该方法包括：

101、提取交互对话中句子的文本特征。

其中，交互对话可以为用户与交互终端之间的智能对话，还可以为多个用户之间的场景对话，这里的交互终端可以为外呼机器人、客服机器人等，例如，用户通过智能终端与单个或多个智能客服机器人之间的智能对话，用户通过移动电话与单个语音机器人之间的智能对话等，以单个语音机器人为例，可以为用户A1、A2、…、AJ和语音机器人B的智能对话。

在本发明实施例中，由于交互终端需要了解各种场景下的用户情绪，并根据用户情绪来判断用户意图，需要在交互终端内设置用于识别用户情绪的模块，并根据用户意图来实现与用户的交互。而在提取用户情绪的过程中，交互对话中句子的文本特征作为识别用户情绪的依据，可以利用网络模型来提取交互对话中句子的文本特征。

在本发明实施例中，执行主体可以为交互会话中的情绪识别装置，具体应用在交互终端侧，用于接收会话请求，该会话请求可以为用户向交互终端发送的会话请求，还可以为交互终端向用户发起的会话请求，以使得用户可以与交互终端进行智能对话。

102、利用上下文编码器，捕获所述句子的文本特征中句子的上下文信息，得到融合有上下文信息的第一句子编码。

可以理解的是，为了建立交互对话中上下文对当前句子的影响，也就是说话人之间的依赖关系，可以利用上下文编码器来增强上下文信息的捕捉能力，

在本发明实施例中，上下文编码器可以由两部分构成，一部分是多层自注意力编码器，另一部分是网络模型，在处理较长对话时，网络模型不易捕获交互对话中句子的上下文信息，多层自注意力编码器可以增强网络模型获取交互对话中句子上下文信息的能力，并建立交互对话中当前句子与其他句子之间的依赖关系。具体可以将提取得到交互对话中句子的文本特征通过多层自注意力编码器对其进行多头自注意力操作，该多头注意力操作能够针对句子的文本特征来动态生成文本特征之间不同的影响权重，并利用影响权重来更新文本特征，然后输入到逐点全连接前馈层，生成交互对话上下文相关的句子表示向量，最后将句子表示向量输入到网络模型，输出融合有上下文信息的第一句子编码。需要强调的是，为进一步保证上述网络模型文件的私密和安全性，上述网络模型文件还可以存储于一区块链的节点中。

103、利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码。

这里参与对象编码器相当于说话人编码器，为了建模交互对话中说话人之间的依赖关系，使用参与对象编码器对每个句子设置相应的参与对象状态，每个句子的参与对象状态仅由该参与对象自己所说的句子更新，例如，参与对象说的句子编号为A1、A2、A3，句子编号A2的参与对象状态由句子编码A1更新，句子编号A3的参与对象状态由句子编码A1和A2更新，进而捕获句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码。这里参与对象的状态信息主要用于表明参与对象自己所说句子的情感表达，可以为生气的状态、兴奋的状态、高兴的状态等，具体可以由参与对象当前说话语境以及上一时刻的状态进行更新。

104、将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签。

在本发明实施例中，条件随机场框架的输入为第一句子编码与第二句子编码拼接后形成的句子向量，输出为交互对话中句子对应的标签序列。这里条件随机场框架可以使网络模型在识别当前句子情绪标签的同时，充分利用交互对话中当前句子上一个句子的标签信息和下一个句子的标签信息，保证了情绪识别的连贯性。

本发明实施例提供的一种交互对话中的情绪识别方法，通过提取交互对话中句子的文本特征，利用上下文编码器，捕获句子的文本特征中句子的上下文信息，得到融合有上下文信息的第一句子编码，利用参与对象编码器，捕获句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码，充分考虑交互对话中上下文信息加强情绪识别效果，使得模型对长句中历史信息捕捉能力更强，更加准确建立说话人之间的依赖关系，进而将对话情绪的识别任务定义为序列标签任务，将第一句子编码与的第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签，使用条件随机场学习标签级的上下文信息，充分利用情绪连贯性特征，在判断句子的情绪标签同时考虑其前后标签，找到全局最优标签序列，提高情绪识别的准确率。

本发明实施例提供了另一种交互对话中的情绪识别方法，能够考虑交互对话中情绪连贯性，准确捕获较长句子的上下文信息，提高情绪识别准确率，如图2所示，所述方法包括：

201、提取交互对话中句子的文本特征。

为了提取句子的文本特征，可以采用卷积神经网络作为句子编码器。该句子编码器对应的网络模型包含一个卷积层(convolutional layer)，一个池化层(pooling layer)和一个全连接层(fully connected layer)。具体可以使用预训练的840B GloVe作为词向量，词向量维数为300。网络模型的输入为交互对话中一个句子的所有单词的词向量，卷积层使用三种尺寸不同的过滤器，高度分别为3，4，5，每种过滤器对应100个特征图(featuremap)，池化层以卷积层输出的特征图作为输入，经过最大池化(max-pooling)操作和修正线性单元(ReLU)，将结果输入到一个包含100个单元的全连接层。全连接层的输出就是这个句子的文本特征，即句向量u_t。

202、利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量。

在本发明实施例中，可以通过利用自注意力编码器对句子的文本特征进行解析，获取句子的文本特征之间的影响权重，然后基于句子的文本特征之间的影响权重，更新句子的文本特征，进一步将更新后句子的文本特征输入至逐点全连接前馈层，生成交互对话中上下文相关的句子表示向量。

其中，逐点全连接层相当于自注意力编码器中分类器的作用，可以将更新后句子的文本特征进行加权处理，形成交互对话中上下文相关的句子表示向量。

具体多层自注意力编码器可以针对交互对话中句子的文本特征，建立三元组(key、query、value)的形式，将文本特征被描述为(查询向量query)到一系列(键向量key-值向量value)对的映射，将query和每个key进行相似度计算得到的权重作为文本特征之间的影响权重，该影响权重能够感知文本特征之间的依赖关系，常用的相似度计算函数有点积、拼接和感知机等，然后使用分类函数对影响权重进行归一化，最后将影响权重和相应键值value进行加权求和，得到更新后句子的文本特征。

203、利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有上下文信息的第一句子编码。

其中，网络模型可以为双向长短期记忆网络模型，双向长短记忆网络模型包含多层网络结构，具体可以利用双向长短期记忆网络模型中查表层内预先嵌入的词向量矩阵，将上下文相关的句子表示向量转换为文本分词序列；利用双向长短期记忆网络模型中双向时序记忆层提取文本分词序列中各个分词向量之间的关联关系；利用双向长短期记忆网络模型中分类层基于关联关系对文本分词序列中的文本分词进行处理，得到融合有上下文信息的第一句子编码。

具体在实际应用过程中，对于输入至自注意力编码器中句子的文本特征h₀＝(u₁，...，u_T)，基于句子的文本特征h₀之间的影响权重对句子的文本特征h₀进行加权求和，得到句子的文本特征h_l＝TransformerBlock(h_l-1)，l∈[1，N]，进一步将更新后句子的文本特征h_l输入至逐点全连接前馈层，并利用双向长短期记忆网络模型对上下文相关的句子表示向量进行上下文信息的学习，得到融合有上下文信息的第一句子编码

其中，N是自注意力编码器的层数，T是交互对话的长度。实验表明，使用自注意力编码器增强的双向长短期记忆网络可以有效捕获上下文信息，建模当前句子和交互对话中其他句子之间的依赖关系，特别是在较长对话中具有明显优势。

204、对所述句子的文本特征进行标签映射，得到包含有参与对象标识的句子文本特征。

这里可以通过对参与对象进行编码或者标号等形式，得到参与对象标识，进一步将参与对象标识与句子的文本特征进行标签映射，得到包含有参与对象标识的句子文本特征。

205、利用参与对象编码器向所述包含有参与对象标识的句子文本特征中增加参与对象的状态信息，得到融合有参与对象状态的第二句子编码。

这里参与对象编码器相当于说话人编码器，可以为长短期记忆网络模型，为了建模交互对话中参与对象的自身依赖关系，可以使用参与对象编码器设置参与对象的状态信息，每个参与对象的状态信息由参与对象自己所说的句子进行更新，例如，设对话中的第t个句子为u_t(为了描述简单，下文使也用该符号表示该句的句向量)，该句子的参与对象为q＝q(u_t)，则参与对象q在t时刻的状态信息为s_q，t＝LSTM_q，t(u_t)。

其中，s_q，0初始化为零向量，不同于现有技术中相对复杂的、需要考虑其参与对象所说句子的编码器，这里参与对象编码器实现更加简单，效果同样出色。

206、将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签。

具体地，可以在计算交互对话中句子向量在不同情绪标签上的概率值同时，利用条件随机场框架预先为交互对话中句子向量标注位置信息，设置句子向量的转移矩阵，基于句子向量的转移矩阵，调整句子向量在不同情绪标签上的概率值，得到交互对话中句子对应的情绪标签。

具体在基于句子向量的转移矩阵，调整句子向量在不同情绪标签上的概率值，得到交互对话中句子对应的情绪标签的过程中，可以按照预先为交互对话中句子向量标注的顺序，将句子向量在不同情绪标签上概率值形成多个情绪识别结果，以句子向量的转移矩阵作为多个情绪识别结果的约束条件，计算多个情绪识别结果对应的评估分数，选取评估分数最高的情绪识别结果作为交互对话中句子对应的情绪标签。

示例性的，句子向量在开心情绪标签上的概率值为0.1，句子向量在难过情绪标签上的概率值为0.31，句子向量在愤怒情绪标签上的概率值为0.35，那么每个情绪标签上的概率值都会形成一个情绪识别结果，多个情绪标签会形成多个情绪识别结果，进一步利用条件随机场框架设置句子向量的转移矩阵作为多个情绪识别结果的约束条件，该转移矩阵可以表明句子向量之间的依赖关系，考虑相邻语句之间情绪的连贯性，进一步对情绪识别结果进行打分，将评估分数最高的情绪识别结果作为句子对应的情绪标签，以避免相邻语句之间出现情绪突变的情况。

为了充分利用交互对话的情绪连贯性，使用条件随机场将对话情绪识别转化为序列标注，对于交互对话中的每一句话，条件随机场框架在充分考虑其附近句子情绪标签的基础上输出当前句子的情绪标签。

这里条件随机场框架的输入是上下文编码编码器输出的第一句子编码和参与对象编码输出的第二句子编码的拼接。具体地，令U＝(u₁，...，u_T)表示条件随机场框架输入的句子序列，输出的标签序列为y＝(y₁，...，y_T)，Y(U)表示输入U对应的所有可能的标签序列，则标签序列y的概率由以下公式计算：

其中，s(U，y)表示标签序列y的分数，它由两个矩阵确定：K×K的转移矩阵和T×K的分数矩阵，后者由上下文编码编码器输出的第一句子编码和参与对象编码输出的第二句子编码拼接的

得到，K表示不同标签的个数。

训练时需要最大化正确标签序列的对数似然，对数似然按照如下公式计算：

解码时需利用Viterbi算法搜索分数最大的标签序列：

y^*＝argmax_y∈Y(U)s(U，y)

此外，在将上下文编码编码器输出的第一句子编码和参与对象编码输出的第二句子编码拼接的句子向量输入条件随机场框架之前，加入了一个隐层，以对句子向量进行非线性变换，然后再输入至条件随机场框架，可以提升情绪识别效果。

具体交互对话中情绪识别的模型框图，如图3所示，首先，提取交互对话中句子的文本特征u₁，...，u_T，将句子的文本特征U₁，...，U_T分别输入至上下文编码器和说话人编码器，在上下文编码器中，句子的文本特征通过自注意力操作，然后输入到逐点全连接前馈层，并在每一次操作后对文本特征进行相加归一化操作，生成交互对话上下文相关的句子向量表示，然后将句子向量表示输入至双向长短期记忆网络模型中，得到第一句子编码C₁，...，C_T，在说话人编码器中，对句子的文本向量进行标签映射，得到包含有说话人标识的句子文本特征

将包含有说话人标识的句子文本特征

输入至长短期记忆网络模型，得到第二句子编码S₁，...，S_T，然后将第一句子编码C₁，...，C_T与第二句子编码S₁，...，S_T拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签，如生气、悲伤、快乐等。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种交互对话中的情绪识别装置，如图4所示，所述装置包括：提取单元31、第一捕获单元32、第二捕获单元33、识别单元34。

提取单元31，可以用于提取交互对话中句子的文本特征；

第一捕获单元32，可以用于利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码；

第二捕获单元33，可以用于利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码；

识别单元34，可以用于将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到所述交互对话中所述句子对应的情绪标签。

本发明实施例提供的一种交互对话中的情绪识别装置，通过提取交互对话中句子的文本特征，利用上下文编码器，捕获句子的文本特征中句子的上下文信息，得到融合有上下文信息的第一句子编码，利用参与对象编码器，捕获句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码，充分考虑交互对话中上下文信息加强情绪识别效果，使得模型对长句中历史信息捕捉能力更强，更加准确建立说话人之间的依赖关系，进而将对话情绪的识别任务定义为序列标签任务，将第一句子编码与的第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到交互对话中句子对应的情绪标签，使用条件随机场学习标签级的上下文信息，充分利用情绪连贯性特征，在判断句子的情绪标签同时考虑其前后标签，找到全局最优标签序列，提高情绪识别的准确率。

作为图4中所示交互对话中的情绪识别装置的进一步说明，图5是根据本发明实施例另一种交互对话中的情绪识别装置的结构示意图，如图5所示，所述上下文编码器包括自注意力编码器和网络模型，所述第一捕获单元32包括：

生成模块321，可以用于利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量；

学习模块322，可以用于利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有所述上下文信息的第一句子编码。需要强调的是，为进一步保证上述网络模型文件的私密和安全性，上述网络模型文件还可以存储于一区块链的节点中。

在具体的应用场景中，如图5所示，所述生成模块321包括：

获取子模块3211，可以用于利用所述自注意力编码器对所述句子的文本特征进行解析，获取所述句子的文本特征之间的影响权重；

更新子模块3212，可以用于基于所述句子的文本特征之间的影响权重，更新所述句子的文本特征；

生成子模块3213，可以用于将更新后的所述句子的文本特征输入至逐点全连接前馈层，生成交互对话中上下文相关的句子表示向量。

在具体的应用场景中，如图5所示，所述网络模型为双向长短期记忆网络模型，所述双向长短记忆网络模型包含多层网络结构，所述学习模块322包括：

转换子模块3221，可以用于利用所述双向长短期记忆网络模型中查表层内预先嵌入的词向量矩阵，将所述上下文相关的句子表示向量转换为文本分词序列；

提取子模块3222，可以用于利用所述双向长短期记忆网络模型中双向时序记忆层提取所述文本分词序列中各个分词向量之间的关联关系；

处理子模块3223，可以用于利用所述双向长短期记忆网络模型中分类层基于所述关联关系对所述文本分词序列中的文本分词进行处理，得到融合有所述上下文信息的第一句子编码。

在具体的应用场景中，如图5所示，所述第二捕获单元33包括：

映射模块331，可以用于对所述句子的文本特征进行标签映射，得到包含有参与对象标识的句子文本特征；

增加模块332，可以用于利用参与对象编码器向所述包含有参与对象标识的句子文本特征中增加参与对象的状态信息，得到融合有参与对象状态的第二句子编码。

在具体的应用场景中，如图5所示，所述识别单元34包括：

设置模块341，可以用于利用所述条件随机场框架在计算所述交互对话中句子向量在不同情绪标签上的概率值同时，利用预先为交互对话中句子向量标注的位置信息，设置句子向量的转移矩阵；

调整模块342，可以用于基于所述句子向量的转移矩阵，调整所述句子向量在不同情绪标签上的概率值，得到所述交互对话中所述句子对应的情绪标签。

在具体的应用场景中，如图5所示，所述调整模块342包括：

生成子模块3421，可以用于按照预先为所述交互对话中句子向量标注的顺序，将所述句子向量在不同情绪标签上概率值形成多个情绪识别结果；

计算子模块3422，可以用于以所述句子向量的转移矩阵作为所述多个情绪识别结果的约束条件，计算所述多个情绪识别结果对应的评估分数；

选取子模块3423，可以用于选取评估分数最高的情绪识别结果作为交互对话中句子对应的情绪标签。

需要说明的是，本实施例提供的一种交互对话中的情绪识别装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的交互对话中的情绪识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图4、图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的交互对话中的情绪识别方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的交互对话中的情绪识别装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作***、网络通信模块。操作***是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请通过上下文编码器捕获文本特征中句子的上下文信息，充分考虑交互对话中上下文信息加强情绪识别效果，使得模型对长句中历史信息捕捉能力更强，更加准确建立说话人之间的依赖关系，进而将对话情绪的识别任务定义为序列标签任务，使用条件随机场学习标签级的上下文信息，充分利用情绪连贯性特征，在判断句子的情绪标签同时考虑其前后标签，找到全局最优标签序列，提高情绪识别的准确率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种交互对话中的情绪识别方法，其特征在于，所述方法包括：

提取交互对话中句子的文本特征；

2.根据权利要求1所述的方法，其特征在于，所述上下文编码器包括自注意力编码器和网络模型，所述利用上下文编码器，捕获所述句子的文本特征中所述句子的上下文信息，得到融合有所述上下文信息的第一句子编码，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述自注意力编码器对所述句子的文本特征进行多头自注意力操作，生成交互对话中上下文相关的句子表示向量，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述网络模型文件存储于区块链中，所述网络模型为双向长短期记忆网络模型，所述双向长短记忆网络模型包含多层网络结构，所述利用网络模型对所述上下文相关的句子表示向量进行上下文信息的学习，得到融合有所述上下文信息的第一句子编码，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用参与对象编码器，捕获所述句子的文本特征中参与对象的状态信息，得到融合有参与对象状态的第二句子编码，具体包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述将所述第一句子编码与所述第二句子编码拼接后形成的句子向量输入至条件随机场框架，得到所述交互对话中所述句子对应的情绪标签，具体包括：

在计算所述交互对话中句子向量在不同情绪标签上的概率值同时，利用条件随机场框架预先为交互对话中句子向量标注位置信息，设置句子向量的转移矩阵；

7.根据权利要求6所述的方法，其特征在于，所述基于所述句子向量的转移矩阵，调整所述句子向量在不同情绪标签上的概率值，得到所述交互对话中所述句子对应的情绪标签，具体包括：

8.一种交互对话中的情绪识别装置，其特征在于，所述装置包括：

提取单元，用于提取交互对话中句子的文本特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。