CN111563148A

CN111563148A - 一种基于词组多样性的对话生成方法

Info

Publication number: CN111563148A
Application number: CN202010304195.4A
Authority: CN
Inventors: 蔡毅; 李灿光
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-21
Anticipated expiration: 2040-04-17
Also published as: CN111563148B

Abstract

本发明公开了一种基于词组多样性的对话生成方法，构造对话生成模型，包括句子编码器、上下文编码器、转化层、条件变分自编码器、解码器以及词袋层，包括步骤：将对话上下文编码为一个上下文向量；将上下文向量映射为符合解码器输入大小的隐含状态，并将得到的隐含状态作为解码器的初始隐含状态；获取随机潜在变量；将得到的随机潜在变量、上下文向量、前一个词的词向量以及前一个时间步的隐含状态输入解码器的循环神经网络单元，得到循环神经网络单元输出的当前时间步的隐含状态；将解码器输出的当前时间步的隐含状态输入到词分类器，得到词分类器输出的一个词表大小的概率分布向量。本发明能够生成较为流畅且具词组层级多样性的对话回复。

Description

一种基于词组多样性的对话生成方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于词组多样性的对话生成方法。

背景技术

随着互联网与自然语言处理技术的发展，对话***作为一种全新的人机交互方式，正逐步走进人们的生活。各大企业瞄准对话***的巨大商业价值，纷纷围绕其进行平台布局，其中便有阿里巴巴的“阿里小蜜”，苹果的“Siri”以及微软的“小冰”等等。

对话***依据不同的目标可以大致分为两类——面向任务型对话***和非面向任务型对话***。面向任务型对话***旨在帮助人们完成某项具体的任务(例如订购机票、订餐、购物等)，而非面向任务型对话***则更关注于与人们进行开放式的对话。

当前，对话***的实现方式主要分为基于检索和基于生成两种方法。基于检索的方法需要事先利用语料集构造一个候选回复库，当用户输入一个对话上下文时，该方法通过匹配算法，计算对话上下文与候选回复之间的匹配分数，之后再根据匹配分数挑选出合适的候选回复作为对话回复，返回给用户。基于检索的方法的一大优点是得到的对话回复一般比较精确，但是缺点也很明显，就是无法得到候选回复库中没有的对话回复。相比于基于检索的方法，基于生成的方法能生成语料集中没有的回复。基于生成的方法利用了深度学习的方法以及大量的训练语料来构建有效的语言模型，使得构建的模型能够根据输入的对话上下文，逐词逐字地生成一个对话回复。比较经典的基于生成的方法是2014年GoogleBrain团队提出的序列到序列模型，该模型包含两个模块，一个称为编码器，另一个称为解码器。其中，编码器负责将输入的对话上下文编码为一个上下文向量，解码器则负责将这个上下文向量解码为一个对话回复。序列到序列模型生成的对话回复可能是语料集中未出现的，但是该方法也有缺陷，那就是其生成的回复一般是比较通用和枯燥的回复(例如“是的”、“我不知道”等)。

针对以上问题，许多研究者致力于改进序列到序列模型，以提高其生成的对话回复的多样性。其中，有研究者尝试在序列到序列对话生成模型中引入随机潜在变量。他们认为，对于同一对话上下文，对话回复是因人而异的，存在多种可能，然而普通的序列到序列对话生成模型生成的回复是相对确定的，其倾向于生成在数据集中出现概率较高的回复，因此会倾向于生成通用的回复。通过在生成模型引入随机潜在变量，模型在生成对话回复之前先通过采样得到随机潜在变量，再解码这个随机潜在变量来生成回复，这样模型便可以借助随机潜在变量的随机性生成不同的、多样的回复。

基于以上思想，Tiancheng Zhao等人于2017年提出了一种基于条件变分自编码器的对话生成模型——kgCVAE。该模型改进了序列到序列模型的编码器，引入了条件变分自编码器的方法，通过一个随机潜在变量隐式地捕获多样的对话意图，并利用该随机潜在变量在句子层级上指导对话回复的生成。虽然该方法能够在句子层面上为对话回复的生成提供全局指导，提高对话回复在句子层级上的多样性，但是其没有对回复内的词组多样性进行建模，因此无法很好地捕获对话回复在词组层级上的多样性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于词组多样性的对话生成方法。本发明通过在序列到序列模型中的解码器的每一个时间步中引入条件变分自编码器，从而捕获对话回复在词组层级上的多样性，提高对话回复在词组层级上的多样性。此外，本发明还加入了一种称为“词袋损失”的辅助损失作为辅助优化目标，提高了模型生成的对话回复的流畅性。

本发明的目的能够通过以下技术方案实现：

一种基于词组多样性的对话生成方法，构造对话生成模型，所述模型包括句子编码器、上下文编码器、转化层、条件变分自编码器、解码器以及词袋层，包括步骤：

通过编码器将对话上下文编码为一个上下文向量；

通过转化层将上下文向量映射为符合解码器输入大小的向量；

在解码器的每个时间步，将上下文向量、解码器前一个时间步的隐含状态输入到条件变分自编码器的先验网络，获得先验网络输出的一个随机潜在变量；若处于训练阶段，则将上下文向量、当前要预测的词的词向量以及解码器前一个时间步的隐含状态输入到条件变分自编码器的识别网络，识别网络会输出一个随机潜在变量；

将得到的随机潜在变量(训练阶段使用识别网络输出的随机潜在变量，测试阶段使用先验网络输出的随机潜在变量)、上下文向量、前一个词的词向量以及前一个时间步的隐含状态输入解码器的循环神经网络单元，循环神经网络单元会输出当前时间步的隐含状态；

将解码器输出的当前时间步的隐含状态输入到词分类器，词分类器会输出一个词表大小的概率分布向量。概率分布向量的每一维度分别对应词表中的一个词，表示当前时间步预测为这个词的概率，最终当前时间步输出的词为这些概率值中最大的那一维度对应的词。此外，概率分布向量与先验网络、识别网络的中间结果会被用于计算变分自编码器的变分下界。

若为训练阶段，还需将识别网络输出的随机潜在变量输入词袋层，词袋层会输出一个词袋向量，词袋向量会被用于计算“词袋损失”。

具体地，所述通过编码器将对话上下文编码为一个上下文向量的步骤中，若对话为单轮对话，则通过句子编码器将输入的对话上下文编码为一个上下文向量；若对话为多轮对话，则通过一个层次结构的循环神经网络编码器将对话上下文编码为一个上下文向量。其中，层次结构的循环神经网络编码器包含两个子模块，一个句子编码器和一个上下文编码器。句子编码器负责将对话上下文中的每个句子编码为句子向量，上下文编码器负责将所有句子向量编码为一个上下文向量。

本发明相较于现有技术，具有以下的有益效果：

1、本发明通过在序列到序列模型的解码器的每一个时间步中引入条件变分自编码器，从而捕获对话回复在词组层级上的多样性。

2、本发明还加入了一种称为“词袋损失”的辅助损失作为辅助优化目标，提高了模型生成的对话回复的流畅性。相比于其他的对话生成模型，本发明能够生成较为流畅且具词组层级多样性的对话回复。

附图说明

图1为本发明中对话生成模型的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例提供了一种基于词组多样性的对话生成方法，构造对话生成模型，所述模型的结构如图1所示，包括句子编码器、上下文编码器、转化层、条件变分自编码器、解码器以及词袋层，所述方法包括步骤：

(1)采用编码器将对话上下文编码为一个上下文向量。

其中，若对话为单轮对话，则通过句子编码器将输入的对话上下文编码为一个上下文向量；若对话为多轮对话，则通过一个层次结构的循环神经网络编码器将对话上下文编码为一个上下文向量。如图1所示，层次结构的循环神经网络编码器包含两个子模块，一个句子编码器和一个上下文编码器。句子编码器负责将对话上下文中的每个句子编码为句子向量，上下文编码器负责将所有句子向量编码为一个上下文向量。

设对话上下文为u＝{u₁,u₂,…,u_k-1}，其中，u_i＝{x₀,x₁…,x_n}表示一个对话上下文句子。

所述步骤(1)包括：

(1-1)编码器开始编码之前，先将句子u_i中的词转化为词向量，记为

(1-2)若上下文u只包含一个句子，即为单轮对话，句子编码器将其编码为上下文向量c^t。若上下文u不止包含一个句子，即多轮对话，则句子编码器先将每一个对话上下文句子的词向量表示

编码为句子向量

上下文编码器再将所有的句子向量

编码为上下文向量c^t。

(2)通过转化层将上下文向量映射为符合解码器输入大小的隐含状态，并将得到的隐含状态作为解码器的初始隐含状态。

由于编码器的输出大小与解码器的输入大小设置不一定相同，因此本发明在编码器与解码器之间增加一个转化层，其作用是将编码器输出的上下文向量的大小映射为解码器的输入大小。其中，转化层为单层的前向神经网络，用MLP_d表示。

将上下文向量c^t输入转化层MLP_d后，转化层输出的解码器初始隐含状态

表示为：

(3)若处于对话生成阶段，则在解码器的每个时间步，将上下文向量以及解码器前一个时间步的隐含状态输入到条件变分自编码器的先验网络，得到先验网络输出的一个随机潜在变量；

若处于训练阶段，则在解码器的每个时间步，将上下文向量、当前要预测的词的词向量以及解码器前一个时间步的隐含状态输入到条件变分自编码器的识别网络中，得到识别网络输出的一个随机潜在变量。

先验网络为单层的前向神经网络，用MLP_p表示先验网络，c^t表示上下文向量，

表示解码器前一个时间步的隐含状态。

识别网络也为单层的前向神经网络，用MLP_q表示识别网络，

表示当前要预测的词的词向量。

所述步骤(3)包括：

(3-1)若处于对话生成阶段，在解码器的每个时间步，将c^t与

输入先验网络，可得：

其中，[*,*]表示两个向量拼接。利用重参数技巧，可以得到随机潜在变量z_t：

z_t＝μ′_t+σ′_t*∈

其中，∈服从标准高斯分布N(0,I)。

(3-2)若处于训练阶段，则将c^t，

和

输入到识别网络，可得：

同样利用重参数技巧，可以得到随机潜在变量z_t：

z_t＝μ_t+σ_t*ε

上述先验网络与识别网络输出过程中的中间结果，即μ′_t,

和μ_t,

会与解码器输出的概率分布向量一起被用于计算条件变分自编码器的变分下界。

(4)将步骤(3)得到的随机潜在变量，包括训练阶段使用识别网络输出的随机潜在变量以及测试阶段使用先验网络输出的随机潜在变量、上下文向量、前一个词的词向量以及前一个时间步的隐含状态输入解码器的循环神经网络单元，循环神经网络单元会输出当前时间步的隐含状态。

具体地，用GRU表示门控循环单元即解码器的循环神经网络单元，

表示前一个词的词向量。在解码器的每一个时间步，将z_t，c^t，

以及

输入门控循环单元，可得当前时间步的隐含状态：

(5)将步骤(4)解码器输出的当前时间步的隐含状态输入到词分类器，所述词分类器为单层的前向神经网络，包含在解码器中，得到词分类器输出的一个词表大小的概率分布向量。所述概率分布向量的每一维度分别对应词表中的一个词，表示当前时间步预测为这个词的概率，最终当前时间步输出的词为这些概率值中最大的那一维度对应的词。此外，概率分布向量与先验网络、识别网络的中间结果会被用于计算变分自编码器的变分下界。所述词分类器为单层的前向神经网络，其本质上是将解码器的循环神经网络单元输出的隐含状态映射为一个词表大小的概率分布向量。

所述步骤(5)包括：

(5-1)用MLP_o表示词分类器，则词分类器输出的概率分布向量为：

(5-2)得到概率分布向量后，通过softmax函数对概率分布向量进行归一化，使其各维度概率值之和为1，最终取概率值最大的维度对应的词作为当前时间步的输出。

概率分布向量与先验网络、识别网络的中间结果(μ′_t,

和μ_t,

)会被用于条件变分自编码器的变分下界，变分下界是损失函数的一部分：

具体地，若为训练阶段，还需将步骤(3)中识别网络输出的随机潜在变量输入词袋层，词袋层会输出一个词袋向量，词袋向量会被用于计算“词袋损失”。

词袋层为单层的前向神经网络，用MLP_b表示词袋层，将随机潜在变量z_t输入词袋层，可得词袋向量：

b_t＝MLP_b(z_t)

词袋向量会被用于计算“词袋损失”：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于词组多样性的对话生成方法，其特征在于，构造对话生成模型，所述模型包括句子编码器、上下文编码器、转化层、条件变分自编码器、解码器以及词袋层，所述方法包括步骤：

采用编码器将对话上下文编码为一个上下文向量；

通过转化层将上下文向量映射为符合解码器输入大小的隐含状态，并将得到的隐含状态作为解码器的初始隐含状态；

将得到的隐含状态输入条件变分自编码器中，获取随机潜在变量；

将得到的随机潜在变量，包括训练阶段使用识别网络输出的随机潜在变量以及测试阶段使用先验网络输出的随机潜在变量、上下文向量、前一个词的词向量以及前一个时间步的隐含状态输入解码器的循环神经网络单元，得到循环神经网络单元输出的当前时间步的隐含状态；

将解码器输出的当前时间步的隐含状态输入到词分类器，得到词分类器输出的一个词表大小的概率分布向量。

2.根据权利要求1所述的方法，其特征在于，所述采用编码器将对话上下文编码为一个上下文向量的步骤中，设对话上下文为u＝{u₁,u₂,…,u_k-1}，其中，u_i＝{x₀,x₁…,x_n}表示一个对话上下文句子，包括步骤：

编码器开始编码之前，先将句子u_i中的词转化为词向量，记为

若上下文u只包含一个句子，则采用句子编码器将其编码为上下文向量c^t；

若上下文u不止包含一个句子，则采用句子编码器先将每一个对话上下文句子的词向量表示

编码为句子向量

再采用上下文编码器将所有的句子向量

编码为上下文向量c^t。

3.根据权利要求1所述的方法，其特征在于，由于编码器的输出大小与解码器的输入大小设置不一定相同，因此在编码器与解码器之间增加一个转化层，用于将编码器输出的上下文向量的大小映射为解码器的输入大小；其中，转化层为单层的前向神经网络，用MLP_d表示；

表示为：

4.根据权利要求1所述的方法，其特征在于，所述将得到的隐含状态输入条件变分自编码器中，获取随机潜在变量的步骤中，

若处于对话生成阶段，则在解码器的每个时间步，将上下文向量以及解码器前一个时间步的隐含状态输入到条件变分自编码器的先验网络，得到先验网络输出的一个随机潜在变量；

若处于训练阶段，则在解码器的每个时间步，将上下文向量、当前要预测的词的词向量以及解码器前一个时间步的隐含状态输入到条件变分自编码器的识别网络中，得到识别网络输出的一个随机潜在变量；

具体为：先验网络为单层的前向神经网络，用MLP_p表示先验网络，c^t表示上下文向量，

表示解码器前一个时间步的隐含状态；

识别网络也为单层的前向神经网络，用MLP_q表示识别网络，

表示当前要预测的词的词向量；

若处于对话生成阶段，在解码器的每个时间步，将c^t与

输入先验网络，可得：

z_t＝μ′_t+σ′_t*∈

其中，∈服从标准高斯分布N(0,I)；

若处于训练阶段，则将c^t，

和

输入到识别网络，可得：

同样利用重参数技巧，可以得到随机潜在变量z_t：

z_t＝μ_t+σ_t*∈。

5.根据权利要求1所述的方法，其特征在于，所述将解码器输出的当前时间步的隐含状态输入到词分类器，得到词分类器输出的一个词表大小的概率分布向量的步骤中，包括：

所述词分类器为单层的前向神经网络，包含在解码器中，用MLP_o表示词分类器，则词分类器输出的概率分布向量为：

得到概率分布向量后，通过softmax函数对概率分布向量进行归一化，使其各维度概率值之和为1，最终取概率值最大的维度对应的词作为当前时间步的输出。

6.根据权利要求4所述的方法，其特征在于，概率分布向量与先验网络、识别网络的中间结果(μ′_t,

和μ_t,

7.根据权利要求4所述的方法，其特征在于，若为训练阶段，还需将识别网络输出的随机潜在变量输入词袋层，词袋层会输出一个词袋向量，词袋向量会被用于计算“词袋损失”。

8.根据权利要求7所述的方法，其特征在于，词袋层为单层的前向神经网络，用MLP_b表示词袋层，将随机潜在变量z_t输入词袋层，可得词袋向量：

b_t＝MLP_b(z_t)

词袋向量会被用于计算“词袋损失”，计算公式为：