CN111986687B

CN111986687B - 基于交互式解码的双语情感对话生成***

Info

Publication number: CN111986687B
Application number: CN202010577720.XA
Authority: CN
Inventors: 孙晓; 王佳敏; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2022-08-02
Anticipated expiration: 2040-06-23
Also published as: CN111986687A

Abstract

本发明涉及一种交互式解码的双语情感对话生成***。本发明采用多语种信息互补，可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试，本发明使用双语料(中文和英文)来训练和测试模型，在生成情感回复的过程中，中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中，内部交互借助语言之间冗余信息的辅助作用，挖掘不同语种回答之间的动态上下文信息，利用更充足的信息生成回复，从而降低困惑度，提高回答内容的质量，生成高质量的情感回复；外部交互在充分考虑另一解码器的上下文信息后，通过类型选择器来选择生成情感单词或者普通单词，平衡了回复的语法合理性和情感自然性。

Description

基于交互式解码的双语情感对话生成***

技术领域

本发明实施例涉及语言处理技术领域，具体涉及一种基于交互式解码的双语情感对话生成***。

背景技术

目前，人机对话***的应用范围越来越广。例如，在医疗领域，对话***可以更便捷地为患者和消费者提供健康信息服务；在电子商务领域，面向任务的对话***能协助客户完成网上购物。

随着情感在提高会话质量上的重要性的凸显，情感对话生成领域逐渐引起了人们的注意。研究者发现在对话过程中引入情感因素更能提升用户的体验感。为了让对话***更加智能、生成的回复能更全面地满足人们需求，引入情感是必不可少的。因此，在对话生成过程中合理地引入情感因素，并生成高质量的文本内容是提高人机对话体验的关键，也是实现真正自然的人机交互的必经之路。

通过增加回复的多样性、引入外部知识库等方法可以提高生成回复的文本质量。然而，情感对话生成的一个难点在于如何以一种自然的、连贯的方式表达情感。

目前已提出的对话***包括：1)通过预测情感关键词和主题关键词来指导回答的生成，增强主题相关度和情感相关度；2)通过引入情感编辑机制去生成高质量的情感回复；3)通过一种基于Transformer机制的多维度生成网络，使用贝叶斯深度学习，提升情感对话生成模型的多样性。

以上对话生成模型虽然注意到情感因素在对话***中的重要性，但取得的效果却不尽人意，不能够很好的挖掘对话内容中的情感要素，生成的回答情感强度不可控、不细致，难以充分发挥情感在对话中的作用，生成的句子显得十分生硬和呆板。因此，目前已提出的对话***有待改进。

发明内容

本发明实施例提供了一种基于交互式解码的双语情感对话生成***，用以解决上述至少一个技术问题。

本发明实施例提供一种基于交互式解码的双语情感对话生成***，包括：一个编码器和两个解码器；

所述编码器包括6个相同的网络块，每个网络块由2个子层组成，分别是Multi-HeadAttention层和FeedForward层，每个网络块的内部结构和Transformer相同；所述编码器的输出同时传递给所述两个解码器；

所述两个解码器分别为中文解码器和英文解码器，所述两个解码器的结构相同，每个解码器包括6个相同的网络块，每个网络块由3个子层组成，分别是MaskedMulti-HeadAttention层、Multi-Head Attention 层以及FeedForward层，每个网络块的内部结构和Transformer相同，每个解码器的输入由三部分组成：已生成的子句、所述编码器的输出和来自另一解码器的上下文信息；所述两个解码器之间通过内部交互和外部交互来传递信息，并行生成原语言的情感回复和辅助语言的情感回复，其中，中文回复为原语言的情感回复，英文回复为辅助语言的情感回复。

可选地，所述两个解码器各自执行的内部交互操作的流程相同且同步进行，其中，内部交互操作的流程为：

在时间步t时，根据所述两个解码器在t-1时刻各自输出的已经生成的文本

和

，得到所述两个解码器各自的输入queries(Q₁、Q₂)、keys(K₁、 K₂)和values(V₁、V₂)；

针对所述两个解码器中的第i个解码器，使用内部交互机制，将该解码器的当前状态更新为H′_i：

H′₁＝Inter(Q₁，[K₁；K₂]，[V₁；V₂])

H′₂＝Inter(Q₂，[K₁；K₂]，[V₁；V₂])

其中[；]表示连接操作，Inter()表示内部交互机制。

可选地，所述两个解码器中的第i个解码器采用内部交互机制Inter ()得到更新后的当前状态H′_i的具体描述如下：

H′_i＝r_i⊙H_i+f_i⊙z_i

H₁＝Attention(Q₁，K₁，V₁)

H₂＝Attention(Q₂，K₂，V₂)

其中[；]表示连接操作，tanh和σ是激活函数，⊙表示元素点积，

均是可训练的参数，z_i表示来自另一解码器的上下文信息，r_i是第i个解码器的保留门，f_i是第i个解码器的遗忘门，Attention()表示注意力机制，指transformer的Scaled Dot-ProductAttention。

可选地，所述两个解码器各自执行的外部交互操作的流程相同且同步进行，其中，外部交互操作的流程为：

通过匹配层对所述两个解码器各自在在时间步t时的上下文信息

进行融合，得到特征向量v；

通过类型选择器确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α；

分别使用情感softmax和普通softmax，获得情感词典和普通词典上的概率分布P_e和P_g，其中，情感词典和普通词典没有交集；

将P_e和P_g两个概率分布进行加权、连接操作，得到所述两个解码器中每个解码器各自输出的下一单词y_t。

可选地，特征向量v符合以下公式：

其中，[；]表示连接操作，σ是激活函数，⊙表示元素点积，用来衡量所述两个解码器各自在t时刻的上下文信息

之间的相似度。

可选地，所述两个解码器中第i个解码器输出的下一单词

符合以下公式：

其中，[；]表示连接操作，e是情感嵌入向量，

是用来衡量当前单词是情感单词w_e还是普通单词w_g的标量，P_g、P_e分别是普通词典和情感词典上的概率分布，

均是可训练的参数，

是P_g和P_e两个概率分布的连接。

可选地，所述交互式解码的双语情感对话生成***输出的双语情感回复满足三方面的约束：流畅度、连贯度和情感度；

通过最小化以下损失函数值L(θ)，同时优化所述编码器和所述两个解码器：

L(θ)＝-(l_f+l_c+l_e)

其中，θ表示可训练的参数，l_f表示所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度，l_c表示所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度，l_e表示所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度。

可选地，所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度l_f满足以下公式：

y₁表示所述交互式解码的双语情感对话生成***输出的中文情感回复，

y₂所述交互式解码的双语情感对话生成***输出的英文情感回复，

N₁代表y₁的长度，N₂代表y₂的长度，P_Ch代表中文语言模型，P_En代表英文语言模型，P_Ch和P_En是两个预训练的N-Gram语言模型。

可选地，所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度l_c满足以下公式：

其中，y₁表示所述交互式解码的双语情感对话生成***输出的中文情感回复，y₂所述交互式解码的双语情感对话生成***输出的英文情感回复， x代表给定问句，P_seq2seq(y_i|x)代表表示给定问句x时生成回复y_i的概率，

代表基于回复y_i生成问句x的概率，P_seq2seq和

是两个预训练的Seq2Seq模型。

可选地，所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度l_e满足以下公式：

其中，

为针对所述两个解码器中第i个解码器定义的期望的情感类别，

表示情感分类器D^et针对所述两个解码器中第i个解码器预测的概率分布，N_et定义为情感类别的数量，其中，所述情感分类器D^et是预训练的BERT模型，训练样本为人工标注情感类别的文本语料。

本发明的有益效果如下：

1、本发明采用多语种信息互补，可以生成高质量的情感回复。以往的情感对话生成模型都是使用单语料进行训练和测试，本发明使用双语料(中文和英文)来训练和测试模型，在生成情感回复的过程中充分利用了不同语言之间的互补信息来提高回复质量。具体地，中文解码器和英文解码器通过内部、外部交互机制进行信息的互补。其中，内部交互借助语言之间冗余信息的辅助作用，挖掘不同语种回答之间的动态上下文信息，利用更充足的信息生成回复，从而降低困惑度，提高回答内容的质量，生成高质量的情感回复；外部交互在充分考虑另一解码器的上下文信息后，通过类型选择器来选择生成情感单词或者普通单词，平衡了回复的语法合理性和情感自然性。

2、本发明可以生成双语情感回复。在本发明的情感对话生成***中，能同时生成多种语言的情感回复，让模型能不限制于特定语言的约束，满足更多场景的需求。最终获取中文、英文情感回复，中文是使用人数最多的母语，英文是通用的语言，两者结合的情感对话生成模型能够丰富使用场景。

3、本发明克服目前已提出的对话***生成的回答的情感强度不可控的缺点。在本发明的情感对话生成***中，采用外部交互机制来根据不同解码器上下文信息选择更合适的情感单词或普通单词生成回答，能明显地提升生成情感回复的情感相关性，保证文本生成过程中受到准确的约束。

4、本发明克服目前已提出的对话***的生成的回答不能兼顾语法合理性和情感准确度的缺点。从流畅度、连贯度和情感度三方面综合考虑来设计损失函数，来进一步降低了文本的困惑度，提高情感的准确率和强度。

5、本发明可以做到真正的“情感交互”。目前已提出的对话***只能做到检测情感、分析情感，但无法做到在对话中反馈用户的情感。本发明在分析用户情感的同时，生成合适的情感关键词，再以此为基础扩展出带有情感色彩的回复，使***与用户做到“情感交互”。此外，生成的回答较目前已提出的对话***具有更强的情感相关度、情感强度，更能够提升用户体验感。这是本发明相比于目前已提出的对话***最大的优势。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是transformer模型的示意图；

图2是本发明实施例中一种基于交互式解码的双语情感对话生成***的示意图；

图3是本发明实施例中内部交互机制的示意图；

图4是本发明实施例中外部交互机制的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例发现目前已提出的对话***存在的问题至少包括：没有考虑使用多语料库进行训练时，在生成回复过程中不同语言之间补充信息的辅助作用；只依靠单一的约束无法满足实际需求。因此，本发明实施例提出需要同时从文本流畅度、文本连贯度和情感相关度来进行全面的约束，指导情感文本的生成。此外，本发明实施例提出使用类型选择器在生成回复的过程中选择生成情感单词或普通单词，指导生成的回复更好地平衡语法和情感强度。

基于此，本发明的一个实施例提供了一种基于交互式解码的双语情感对话生成***。参考图1和图2，图1是transformer模型的示意图，图2是本发明实施例提供的一种基于交互式解码的双语情感对话生成***的示意图。本发明实施例提供的一种基于交互式解码的双语情感对话生成***遵循Transformer的总体架构，包括：一个编码器和两个解码器，一个编码器和两个解码器使用堆叠式自注意力和逐点全连接层实现。

编码器包括6个相同的网络块，参考图1，图1示出了一个网络块的具体结构，图1中“N×”表示N个相同的网络块，示例地，N为6。如图1所示，每个网络块由2个子层组成，分别是Multi-Head Attention 层(多头注意力层)和Feed Forward层(前馈层)，每个网络块的内部结构和Transformer相同。编码器的输出同时传递给两个解码器。

两个解码器分别为中文解码器和英文解码器，两个解码器的结构相同，每个解码器包括6个相同的网络块。参考图1，图1示出了一个网络块的具体结构，图1中“N×”表示N个相同的网络块，示例地， N为6。如图1所示，每个网络块由3个子层组成，分别是MaskedMulti-Head Attention层(带掩码操作的多头注意力层)、Multi-Head Attention层(多头注意力层)以及Feed Forward层(前馈层)，每个网络块的内部结构和Transformer相同。

参考图2，每个解码器的输入由三部分组成：已生成的子句、所述编码器的输出和来自另一解码器的上下文信息，两个解码器之间通过内部交互和外部交互来传递信息，并行生成原语言的情感回复和辅助语言的情感回复，其中，中文回复为原语言的情感回复，英文回复为辅助语言的情感回复。

在具体实施时，所述两个解码器各自执行的内部交互操作的流程相同且同步进行。参考图3，图3是是本发明实施例中内部交互机制的示意图。内部交互操作的流程为：

和

H′₁＝Inter(Q₁，[K₁；K₂]，[V₁；V₂])

H′₂＝Inter(Q₂，[K₁；K₂]，[V₁；V₂])

其中[；]表示连接操作，Inter()表示内部交互机制。本发明中，“连接操作”代表两个向量的连接，连接可以按照行或列，在此不做具体限定。例如：维度为2×1的向量A和维度是3×1的向量B，对两个向量进行连接操作，得到的是维度为5×1的向量C(即，对两个向量按行拼接)。

本发明中，如未特别说明，t表示时间步t。

在具体实施时，所述两个解码器采用内部交互机制Inter()得到更新后的当前隐藏状态H′_i的具体描述如下：

H′_i＝r_i⊙H_i+f_i⊙z_i

H₁＝Attention(Q₁，K₁，V₁)

H₂＝Attention(Q₂，K₂，V₂)

均是可训练的参数，z_i表示来自另一解码器的上下文信息，r_i是第i个解码器的保留门，f_i是第i个解码器的遗忘门，Attention()表示注意力机制，指transformer的Scaled Dot-Product Attention。

在具体实施时，所述两个解码器各自执行的外部交互操作的流程相同且同步进行。参考图4，图4是是本发明实施例中内部交互机制的示意图。外部交互操作的流程为：

通过匹配层(Matching Layer)对所述两个解码器各自在时间步t 的上下文信息

进行融合，得到特征向量v；

通过分类层(ClassificationLayer)执行以下操作：

通过类型选择器(Type Layer)确定所述两个解码器中每个解码器生成情感单词的权重α和普通单词的权重1-α；

分别使用情感softmax(Emotion softmax)和普通softmax(Generic softmax)，获得情感词典和普通词典上的概率分布P_e和P_g，其中，情感词典和普通词典没有交集；

在具体实施时，特征向量v符合以下公式：

之间的相似度。

在具体实施时，所述两个解码器中第i个解码器输出的下一单词

符合以下公式：

其中，[；]表示连接操作，e是情感嵌入向量，

均是可训练的参数，

是P_g和P_e两个概率分布的连接。

其中，

代表根据概率

进行采样，获取

中，[]表示概率之间的连接，代表上述的“将两个概率进行加权、连接操作”中针对两个概率的连接操作。

代表将按照权重(1-α)加权后的P_g和按照权重α加权后的P_e两个概率分布连起来，共同采样。连接后获取的即所有单词的概率(包含了情感词典里的情感单词和普通词典里的普通单词)。

在具体实施时，所述交互式解码的双语情感对话生成***的输出双语情感回复满足三方面的约束：流畅度、连贯度和情感度；

L(θ)＝-(l_f+l_c+l_e)

在具体实施时，所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度l_f满足以下公式：

本发明考虑到过短的回复通常是无意义的回复，而过长的回复常存在冗余。所以在语言模型的基础上按回复的长度进行缩放，从而控制回复的长度。

在具体实施时，所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度l_c满足以下公式：

代表基于回复y_i生成问句x的概率，P_seq2seq和

是两个预训练的Seq2Seq模型。

在具体实施时，所述交互式解码的双语情感对话生成***输出的双语情感回复的情感度l_e满足以下公式：

其中，

本发明的有益效果如下：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

Claims

1.一种基于交互式解码的双语情感对话生成***，其特征在于，包括：一个编码器和两个解码器；

所述编码器包括6个相同的网络块，每个网络块由2个子层组成，分别是Multi-HeadAttention层和Feed Forward层，每个网络块的内部结构和Transformer相同；所述编码器的输出同时传递给所述两个解码器；

所述两个解码器分别为中文解码器和英文解码器，所述两个解码器的结构相同，每个解码器包括6个相同的网络块，每个网络块由3个子层组成，分别是Masked Multi-HeadAttention层、Multi-Head Attention层以及Feed Forward层，每个网络块的内部结构和Transformer相同，每个解码器的输入由三部分组成：已生成的子句、所述编码器的输出和来自另一解码器的上下文信息；所述两个解码器之间通过内部交互和外部交互来传递信息，并行生成原语言的情感回复和辅助语言的情感回复，其中，中文回复为原语言的情感回复，英文回复为辅助语言的情感回复。

2.根据权利要求1所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述两个解码器各自执行的内部交互操作的流程相同且同步进行，其中，内部交互操作的流程为：

在时间步t时，根据所述两个解码器在t-1时刻各自输出的已经生成的文本y1_t-1和y2_t-1，得到所述两个解码器各自的输入queries(Q₁、Q₂)、keys(K₁、K₂)和values(V₁、V₂)；

H′₁＝Inter(Q₁，[K₁；K₂]，[V₁；V₂])

H′₂＝Inter(Q₂，[K₁；K₂]，[V₁；V₂])

其中[；]表示连接操作，Inter()表示内部交互机制。

3.根据权利要求2所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述两个解码器采用内部交互机制Inter()得到更新后的当前隐藏状态H′_i的具体描述如下：

H′_i＝r_i⊙H_i+f_i⊙z_i

H₁＝Attention(Q₁，K₁，y₁)

H₂＝Attention(Q₂，K₂，V₂)

4.根据权利要求1所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述两个解码器各自执行的外部交互操作的流程相同且同步进行，其中，外部交互操作的流程为：

通过匹配层对所述两个解码器各自在t时刻的上下文信息

进行融合，得到特征向量v；

5.根据权利要求4所述的一种基于交互式解码的双语情感对话生成***，其特征在于，特征向量v符合以下公式：

其中，[；]表示连接操作，σ是激活函数，⊙表示元素点积，用来衡量所述两个解码器各自在时间步t时的上下文信息

之间的相似度。

6.根据权利要求4所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述两个解码器中第i个解码器输出的下一单词

符合以下公式：

其中，[；]表示连接操作，e是情感嵌入向量，

均是可训练的参数，

是P_g和P_e两个概率分布的连接。

7.根据权利要求1所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述交互式解码的双语情感对话生成***输出的双语情感回复满足三方面的约束：流畅度、连贯度和情感度；

L(θ)＝-(l_f+l_c+l_e)

8.根据权利要求7所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述交互式解码的双语情感对话生成***输出的双语情感回复的流畅度l_f满足以下公式：

9.根据权利要求7所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述交互式解码的双语情感对话生成***输出的双语情感回复的连贯度l_c满足以下公式：

其中，y₁表示所述交互式解码的双语情感对话生成***输出的中文情感回复，y₂所述交互式解码的双语情感对话生成***输出的英文情感回复，x代表给定问句，P_seq2seq(y_i|x)代表表示给定问句x时生成回复y_i的概率，

代表基于回复y_i生成问句x的概率，P_seq2seq和

是两个预训练的Seq2Seq模型。

10.根据权利要求7所述的一种基于交互式解码的双语情感对话生成***，其特征在于，所述交互式解码的双语情感对话生成***的输出双语情感回复的情感度l_e满足以下公式：

其中，