CN110866403A

CN110866403A - 基于卷积循环实体网络的端对端对话状态跟踪方法及***

Info

Publication number: CN110866403A
Application number: CN201810916744.6A
Authority: CN
Inventors: 颜永红; 何峻青; 赵学敏
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2020-03-06
Anticipated expiration: 2038-08-13
Also published as: CN110866403B

Abstract

本发明提出了基于卷积循环实体网络的端对端对话状态跟踪方法和***，包括：步骤1)将对话表示成多个句子矩阵集合D＝{S₁,...S_t}，S_i,1≤i≤t为第i个由若干词向量组成的句子矩阵；步骤2)该矩阵集合D经过一个可训练的卷积神经网络模块，最大池化后得到固定长度的句子向量；步骤3)使用动态记忆将各个固定长度的句子向量进行编码，使用动态记忆的最后一个隐层h_t表示整个对话；步骤4)对于每个预先定义的语义槽，建立一层从h_t到该语义槽所有可能值的全连接的神经网络，得到各个语义槽在各个值上的概率分布；步骤5)取最大概率所在的值作为该语义槽的预测结果，得到该对话当前的对话状态。本发明可自动学习和语义槽相关的文本表示，提高了对话状态跟踪的性能。

Description

基于卷积循环实体网络的端对端对话状态跟踪方法及***

技术领域

本发明涉及在对话***对话状态跟踪领域，具体而言，涉及基于卷积循环实体网络的端对端对话状态跟踪方法及***。

背景技术

对话状态跟踪是任务型对话***中的一个重要组成部分，它的目标是时刻维护并更新用户的目标，即特定任务中的各个语义槽的值。例如，在预定餐馆任务中，查询一个餐馆需要三个语义槽：菜系，价格和餐馆位置，那么对话状态跟踪即在多轮对话中时刻根据用户输入更新这三个语义槽的值。

给定一个用户输入文本和对话历史文本，如何表示和更新对话状态是一个由来已久的研究领域，并在最近与深度学习和神经网络相结合来消除人工劳动。目前的基于神经网络的方法主要有卷积神经网络(Convolutional Neural Network,CNN)，循环神经网络(Recurrent Neural Network,RNN)，长短时记忆单元(Long Short Term Memory,LSTM)，记忆网络(Memory Network,MemNN)，及神经信念***(Neural Belief Tracker,NBT)。前四种方法并没针对状态追踪这一特殊任务对网络结构进行改进，直接使用到本任务中，缺乏针对性。最后一种方法NBT需要根据语义槽进行预处理，并对每个语义槽的值构建分类器，并不适用于大量可能值的语义槽。另外，这些端对端方法在行业通用的的标准数据集——DSTC2上效果仍然不够理想，最高的性能只达到73.4％的正确率。

发明内容

本发明的目的在于解决目前的方法没有针对状态追踪这一特殊任务对网络结构进行改进，缺乏针对性，不适用于大量可能值的语义槽以及这些端对端方法在行业通用的标准数据集——DSTC2上效果仍然不够理想的问题。

为实现上述目的，本发明提出基于卷积循环实体网络的端对端对话状态跟踪方法，所述方法包括：

步骤1)将对话表示成多个句子矩阵集合D＝{S₁,...S_t}，S_i,1≤i≤t为第i个由若干词向量组成的句子矩阵；

步骤2)所述矩阵集合D经过一个可训练的卷积神经网络CNN模块，最大池化后得到固定长度的句子向量；

步骤3)使用动态记忆将所述各个固定长度的句子向量进行编码，并使用动态记忆的最后一个隐层h_t表示整个对话；

步骤4)对于每个预先定义的语义槽，建立一层从h_t到该语义槽所有可能值的一个全连接的神经网络，得到各个语义槽在各个值上的概率分布；

步骤5)取最大概率所在的值作为该语义槽的预测结果，得到该对话当前的对话状态。

作为上述方法的一种改进，所述步骤1)包括：

步骤1-1)将对话数据按照每轮对话进行切割成t个语句，第i,1≤i≤t个语句中包含若干个词，将每个词用固定长度的词向量表示，则第i,1≤i≤t个语句表示成一个句子矩阵S_i，对于每一个句子矩阵S_i，所述句子矩阵S_i的行数是该语句所包含的词向量的个数，句子矩阵S_i的列数是词向量的维度；

步骤1-2)将对话数据表示成多个句子矩阵集合D＝{S₁,...S_t}。

作为上述方法的一种改进，所述步骤2)包括：

步骤2-1)对于高度为z的一个卷积核W_m，用它以1为滑动步长，在句子矩阵S_i中从上至下滑动，每一步计算重合部分的两个矩阵的点积和x_i，得到一个长度为N-z+1的向量X：

x_i＝ReLU(W_m·S_i:i+z-1+b_m) (1)

X＝[x₁,x₂,...,x_N-z+1] (2)

其中，·为点积操作，S_i:i+z-1表示句子矩阵的第i行到第i+z-1行，[...]表示元素拼接，ReLU表示规整线性运算，b_m为对应卷积核的偏置，N为句子所包含的词的数目；i为卷积核滑动的第i步；m为卷积核的序号；

步骤2-2)对向量X使用最大池化，取其中最大值得到一个元素c_m；

c_m＝max(X) (3)

步骤2-3)使用不同的多个卷积核进行卷积，所述卷积核的高度、宽度都为词向量长度，多次执行步骤2-1)和步骤2-2)，将每次卷积得到的向量X的最大值c_m拼接得到一个句子向量s：

s＝[c₁,c₂,...,c_k] (4)

其中，k为卷积核的总数。

作为上述方法的一种改进，所述步骤3)包括：

步骤3-1)将每句话得到的句子向量s输入动态记忆；

步骤3-2)输入第t个句子向量s_t的动态记忆某个区块j的隐层

计算公式如下：

其中，

为更新门，σ为sigmoid函数，w_j为各个区块的可训练key向量，

为更新后的候选状态，

为任意非线性激活函数，

为第j个句子的隐层，U，V，W表示可训练的矩阵参数；T表示矩阵转置；

步骤3-3)将该时刻所有区块的隐层向量

进行拼接得到该时刻的隐层h^t：

步骤3-4)取最后一句话的动态记忆隐层h_t表示该轮对话。

作为上述方法的一种改进，所述步骤4)包括：

步骤4-1)对于隐层h_t每个语义槽的所有可能值包括None和Dontcare两个外部选择，建立一层神经网络；

步骤4-2)使用Softmax进行归一化，得到各个可能值的概率y'，公式如下：

y'＝Softmax(Rh_t) (10)

其中，R为从该时刻的动态记忆隐层h^t映射到该语义槽的参数矩阵，y′为在该语义槽上所有值的概率估计。

作为上述方法的一种改进，所述步骤5)包括：

在训练时，使用真实概率分布y与预测概率分布y′的交叉熵作为损失函数loss，最小化损失函数来调整所有可训练的参数，包括卷积网络中的卷积核；使用反向传播算法进行参数的调整；

其中，M为预定义的语义槽的数量，i为第i个语义槽，y′_i表示第i个语义槽上所有值的概率估计，y_i为第i个语义槽上所有值真实概率分布，V_i表示第i个语义槽包含的值的数量，j表示语义槽中第j个值，

分别表示真实概率分布和估计的概率分布中第i个语义槽中的第j个元素所对应的概率；

测试时，所有可训练的参数都从训练好的模型中载入对应值；对于每个语义槽，取概率最大值所对应的选项作为预测结果，得到预测的对话状态。

本发明还提出了基于卷积循环实体网络的端对端对话状态跟踪***，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优势在于：

1、本发明可自动学习和语义槽相关的文本表示，能够在语义表示上通过卷积神经网络得到与语义槽相关的文本表示；

2、本发明在状态追踪上，使用具有区块的(Block)的循环实体网络来编码语义槽相关的信息，从而进行状态更新，实现比常用的RNN，LSTM等更好的效果；

3、本发明在时间复杂度和空间复杂度上，使用的参数更少，优于现有模型；

4、本发明使用针对对话跟踪任务设计的卷积循环实体网络，提高了对话状态跟踪的性能。

附图说明

图1为本发明的方法的框架图；

图2为本发明的方法的结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

目前，循环神经网络(Recurrent Entity Network)被提出，在给定故事进行问答任务上，可以有效跟踪问题的答案；与LSTM，MemNN相比，性能具有极大优势。因此，本发明针对对话状态跟踪任务，对模型进行改进，提出卷积循环实体网络(ConvolutionalRecurrent Entity Network，CREN)。该网络***包含3大部分：卷积神经网络、动态记忆、以及语义槽分类器。卷积神经网络负责对每句话进行语义槽相关的表示，动态记忆对整个对话所有句子表示进一步编码并更新，语义槽分类器对预先定义好的每个语义槽的值进行概率估计。该模型可自动学习和语义槽相关的文本表示，所使用的动态记忆可用不同的区块(Block)编码语义槽的值，从而进行状态更新。

本发明的基于卷积循环实体网络的端对端对话状态跟踪方法，输入会话的一个从开始到目前为止的对话文本，使用卷积神经网络进行特征表示，然后使用循环实体网络对句子层级的特征进行状态跟踪，最后使用多个分类器对各个不同的语义槽进行分类，得到各个语义槽各个值的概率分布作为对话状态，输出各个语义槽的值。例如，假设我们定义一个餐馆领域的对话***有两个语义槽：food,location。输入一通对话：{“How can I helpyou？”“find a Chinese restaurant in the south part of town”},经过卷积循环实体网络之后，输出{food:Chinese，location:south}。

整个卷积循环实体网络的结构如图1所示，对于一个对话D＝{S₁,...S_t},其中t为句子数量，S_t为一个句子。对于每个句子的每个词，首先表示为词矢量，然后整个句子矩阵经过一个可训练的CNN模块，Max-pooling得到一个固定长度的向量。随后使用一种RNN变体——动态记忆(Dynamic Memory)，将输入的各个句子向量进行编码，并使用动态记忆的最后一个隐层h_t表示整个对话。最后对于每个语义槽，都建立一层从h_t到该语义槽所有可能值的一个全连接的神经网络，得到各个语义槽各个值的概率分布。我们取最大概率所对在的值作为该语义槽的预测结果，即可得到该对话当前的对话状态。

其中，所述动态记忆分为不同的区块，分别计算隐层，最后再拼接起来。

如图2所示，所述动态记忆中的每个区块都有各自的key向量w_i。对于某一区块i，对输入的句子向量s_t，首先和key以及上一个时刻的隐层h_t-1一起计算出更新门的值g_i以及候选隐层状态

然后计算该区块的隐层状态，将所有区块的隐层状态拼接得到完整的h_t。图中f_θ表示更新公式。

上述技术方案中，所述方法具体包括：

步骤S1)将对话数据按照每轮对话进行切割，表示为从对话开始到当前对话语句集合D和对应的对话状态Slot的形式。对于每一轮对话语句集合D＝{u₁,u₂,…,u_i}的多个语句，将每个语句的中的每个词用固定长度的词向量表示，那么一个对话则表示成多个句子矩阵集合D＝{S₁,S₂,…,S_i}，每个句子矩阵S_i的高度是设定的最大句子长度，所述句子长度就是该句子所包含的词向量的个数，S_i的宽度是词向量的维度；

步骤S2)对每个句子矩阵S_t经过一个卷积神经网络的过程如下：对于高度为z的一个卷积核Wm，用它以1为滑动步长，在整个矩阵中从上至下滑动，每一步计算重合部分的两个矩阵的点积及经过激活的值x_i：

x_i＝ReLU(W_m·S_i:i+z-1+b_m) (1)

最后得到一个长度为N-z+1的向量X，N为句子所包含的词的数目：

X＝[x₁,x₂,...,x_N-z+1] (2)

然后使用最大池化，取其中最大值得到一个元素c_m：

c_m＝max(X) (3)

使用多个不同高度的卷积核进行卷积，所述卷积核的宽度都为词向量长度，将每次卷积得到的向量X的最大值c_m拼接得到一个句子向量s：

s＝[c₁,c₂,...,c_k] (4)

其中，·为点积操作，[...]表示元素拼接，ReLU表示规整线性单元(RectifiedLinear Unit)，k为卷积核的总数，m为第m个卷积，b_m为对应卷积核的偏置；

步骤S3)将每句话得到的句子向量s输入动态记忆，取最后一句话的动态记忆隐层作为该轮对话的表示。

输入第t个句子向量的动态记忆某个区块j的隐层

计算公式如下：

其中，

为更新门，σ为sigmoid函数，w_j为各个区块的key向量(可训练)；

为任意非线性激活函数(这里使用的是ReLU)，

为更新后的候选状态，

然后将该时刻所有区块的隐层向量

进行拼接得到该时刻的隐层h^t：

步骤S4)对于每个语义槽的所有可能值(包括None和Dontcare两个外部选择)，建立一层神经网络，然后使用Softmax进行归一化，得到各个可能值的概率，公式如下：

y'＝Softmax(Rh_t) (10)

其中，R为从该时刻的动态记忆隐层映h^t射到该语义槽的参数矩阵，y′为在该语义槽上所有值的概率估计。

步骤S5)在训练时，使用真实概率分布y与预测概率分布y′的交叉熵作为损失函数loss，最小化损失函数来调整所有可训练的参数，包括卷积网络中的卷积核：

和

分别表示真实概率分布和估计的概率分布中第i个语义槽中的第j个元素所对应的概率。

测试时，所有可训练的参数都从训练好的模型中载入对应值。对于每个语义槽，取概率最大值所对应的选项作为预测结果，得到预测的对话状态。

本发明的回答生成方法不仅可有效控制生成的回答的内容，还提高了回答的质量。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。