CN109522545B

CN109522545B - 一种对多轮对话连贯性质量的评估方法

Info

Publication number: CN109522545B
Application number: CN201811181214.8A
Authority: CN
Inventors: 兰曼; 周云晓
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-08-23
Anticipated expiration: 2038-10-11
Also published as: CN109522545A

Abstract

本发明公开了一种对多轮对话连贯性质量的评估方法，其特点是以多轮对话文本为输入，采用分层注意力机制，分别在单个话语层面和多轮对话的整体层面，融合对话的语义信息和意图信息，实现多轮对话连贯性质量的自动评估。本发明与现有技术相比训练速度快，分析准确率高，不需要从文本中抽取实体，避免了实体抽取误差的传播，尤其适合大规模和实时性语料，结合对话蕴含的语义信息和意图信息，有效地自动评估多轮对话的连贯性质量，指导多轮对话生成***生成更加高质量的对话文本，促进对话生成***更好更快地发展。

Description

一种对多轮对话连贯性质量的评估方法

技术领域

本发明涉及互联网深度学习模型技术领域，尤其是一种利用深度学习对多轮对话连贯性质量的评估方法。

背景技术

近年来，人机对话***，例如苹果Siri、微软小冰等聊天/客服机器人(Chatbot)越来越多出现在日常生活中。对话(Dialogue)是人类社交活动中的基本信息交互方式，包括电视访谈、问答对话、微信聊天等，人机对话中的一个关键核心技术是多轮对话生成(Multi-turn Dialogue Generation)，这是人工智能发展水平的标志，也是自然语言处理领域的研究热点，受到越来越多科研人员的关注。多轮对话生成的质量评估通常采用以下两种方式：1)借用其他文本生成任务(例如机器翻译或自动摘要等)中的BLEU和ROUGE等客观评估度量，这种客观自动评估度量基于词重叠，忽略了对话天然具有多样性和交互性的特点，不能很好地适用于对话的质量评估；2)人工评估，虽然这种评估方式具有较高的准确性，但人工和时间成本大，无法适用大规模和实时性对话的质量评估。考虑到对话通常发生在两方或多方之间，多轮对话生成的内容质量高低取决于前后对话间的文本连贯性(TextCoherence)，如果缺乏连贯性，往往使得对话容易陷入逻辑混乱，造成对话无法继续。因此，无论是客观自动评估方式，还是人工评估方式，多轮对话的连贯性评估是对话质量评估的一个关键指标。

文本连贯性评估多采用基于实体网格(Entity Grid)或实体序列(EntitySequence)的方法，该方法首先抽取文本中的人名、地名等实体(Entity)及其语法角色(如主语、谓语等)，并将其填入网格节点(即格点)中，相邻句子间的实体语法角色的转换则成为格点间的连线，然后通过人工抽取特征或利用卷积神经网络(Convolutional NeuralNetwork，CNN)的方法进行文本的连贯性评估。

以下表1的两个多轮对话的示例，对现有技术存在的问题作进一步阐述：

表1两个多轮对话的示例

表1中左、右两列分别是连贯的和不连贯的多轮对话示例(对话的轮数都是6)，其中H表示对话中的人类(Human)，C表示聊天机器人(Chatbot)。每一个H或C的句子就是一个话语(Utterance)，例如H1和C1都是一个话语。表1中左边的话语H1“我想给我的妻子买些花”，表明说话人想买花的意愿，话语C1合理的回复是推荐合适的花。对话的意图(Intention)信息通常使用对话行为(Dialog Act)来表示，这里左边H1的对话行为标记就是指示，连贯的多轮对话中存在合理的对话意图转换，即对话行为转换，引导对话有逻辑地围绕主题和意图展开。

现有对话连贯性质量评估技术有以下不足：(1)忽略了对话天然具有语言多样性和多轮交互性的特点，因此对话质量评估的准确性较低；(2)缺少多轮对话的整体语义信息；(3)缺少多轮对话中蕴含的意图信息；(4)缺少多轮对话语义信息和意图信息的深度融合；(5)人工和时间成本大，无法适用大规模和实时性对话的质量评估；(6)基于实体网格或序列的方法依赖实体抽取的性能，抽取误差会直接影响后续步骤的性能。

发明内容

本发明的目的是针对现有技术的不足而设计的一种对多轮对话连贯性质量评估的方法，以多轮对话文本为输入，采用分层注意力机制，分别在单个话语层面和多轮对话的整体层面，融合对话的语义信息和意图信息，实现多轮对话连贯性质量的自动评估。通过对多轮对话连贯性质量的自动评估，可以指导多轮对话生成***生成更加高质量的对话文本，促进对话生成***更好更快地发展，不需要从文本中抽取实体，避免了实体抽取误差的传播，无需人工设计特征，节省成本，训练速度快，尤其适合大规模和实时性语料，从单个对话和整体对话层面分别结合对话蕴含的语义信息和意图信息，有效评估多轮对话的连贯性质量，大大提高了分析准确率。

本发明的目的是这样实现的：一种对多轮对话连贯性质量评估的方法，其特点是采用深度学习对多轮对话进行分层语义建模，在得到各个话语的语义向量表示后对话语序列进行建模，进而得到多轮对话的整体语义信息，其连贯性质量评估按下述步骤进行：

步骤一：利用预训练的词向量，通过查表将单个话语中的每个词初始化为词向量，并以单个话语的词向量序列为输入，利用深度学习模型(如LSTM模型)对单个话语进行语义学习，得到每个话语的语义向量。

步骤二：将单个话语的对话行为类型初始化为对话行为向量表示，然后采用注意力机制，融合单个话语的对话行为向量和单个话语语义向量，得到单个话语的语义意图融合向量。

步骤三：针对多轮对话的话语序列，利用单个话语的语义意图融合向量，构建多轮对话的语义意图融合向量序列，并以多轮对话的语义意图融合向量序列为输入，利用深度学习模型(如LSTM模型)对多轮对话进行学习，得到多轮对话的整体向量。

步骤四：将多轮对话的话语语义向量序列，作为深度学习模型(如LSTM模型)的输入，对多轮对话进行语义建模，得到多轮对话的整体语义向量，并以多轮对话的对话行为序列为输入，采用深度学习模型(如CNN模型)对多轮对话的整体意图进行学习，得到多轮对话的整体意图向量。

步骤五：采用注意力机制，融合多轮对话的整体语义向量和整体意图向量，得到对话整体语义意图融合向量。

步骤六：将分别在不同层面融合对话语义信息和意图信息得到的对话向量进行综合(如简单拼接)，得到对话的整体连贯性向量，并以对话的整体连贯性向量为输入，利用打分函数，得到多轮对话的连贯性质量评估得分，然后利用交叉熵损失函数计算训练数据的连贯性得分误差，通过反向传播更新模型参数进行模型训练。

步骤七：将待评估的多轮对话及其对话行为序列输入已训练的多轮对话连贯性质量自动评估模型，进行对话的连贯性质量评估和预测得分。

本发明与现有技术相比具有训练速度快，分析准确率高，无需人工设计特征，节省成本，不需要从文本中抽取实体，避免了实体抽取误差的传播，尤其适合大规模和实时性语料，利用分层注意力机制，分别在单个话语层面和多轮对话的整体层面，结合对话蕴含的语义信息和意图信息，有效地自动评估多轮对话的连贯性质量，指导多轮对话生成***生成更高质量的对话文本，促进对话生成***更好更快地发展。

附图说明

图1为本发明操作流程图。

具体实施方式

下面以具体实施的过程、条件以及实验方法，对本发明作进一步的详细说明，其中所涉及的专业术语的定义如下：

多轮对话(Multi-turn Dialogue)：多轮对话由两轮或两轮以上的有序对话组成，每轮对话中包含一个话语(Utterance)，即单个对话者单次所讲的文本内容。如下表2所示的多轮对话共包括6轮对话，即6个话语，H1“我想给我的妻子买些花。”为该多轮对话的第一个话语。

对话行为(Dialog Act)：对话行为反应每个对话的意图，共有42类，包括陈述、疑问、指示、主张、解释等。如下表2所示每个话语的对话行为类型，其中话语H2“红玫瑰要多少钱？”的对话行为类型是疑问，表达了对话者的疑惑，而话语C2“一支5元，十支40元。”则通过陈述红玫瑰的价格，解答了上述疑问。

表2六轮对话文本及每轮对话的行为类型例子

词向量(Word Vector)：使用低维连续性数值的向量表示文本中的每个词。词向量采用预训练的方式从语料库获得。

深度学习模型(Deep Learning Model)：深度学习模型分为三个部分：输入层，隐藏层和输出层。其中，隐藏层可以扩展成为多层结构，相邻两层之间的神经元相互连接，层内部神经元没有连接。常用的深度学习模型有卷积神经网络模型(Convolutional NeuralNetwork，CNN)、循环神经网络模型(Recurrent Neural Network，RNN)、长短期记忆神经网络模型(Long-Short Term Memory，LSTM)等。

参阅附图1，本发明中的输入为一个包含N个话语u的多轮对话D，表示为D＝{u₁,u₂,…,u_i,…,u_N}，i＝[1,2,…,N]，其中u_i代表第i个话语。每个话语u包含n个词，则话语u表示为字符串序列u＝{w₁,w₂,…,w_j,…,w_n}，j＝[1,2,…,n]。为了得到多轮对话整体的语义向量表示，首先需要获取单个话语的语义向量表示。

本发明采用深度学习对多轮对话进行分层语义建模，在得到各个话语的语义向量表示后对话语序列进行建模，进而得到多轮对话的整体语义信息，其连贯性质量评估按下述步骤进行：

步骤一：在单个话语层，利用深度学习模型(如CNN,RNN或LSTM模型)，对多轮对话D中每个话语u进行语义建模，得到单个话语的语义向量表示，具体过程描述如下：

输入：一个包含N个话语u的多轮对话D，词向量词典，深度学习模型及相关参数；

输出：单个话语的语义向量表示；

过程：步骤a₁：每个话语通常包含多个词，为了对单个话语进行语义建模，首先通过在预训练的词向量词典中查表，将单个话语中的每个词转化为其对应的词向量表示。话语u包含n个词，即字符串序列u＝{w₁,w₂,…,w_j,…,w_n}，j＝[1,2,…,n]，通过查表预训练的词向量词典，将话语u中的每个词w_j初始化为词向量，得到话语u的词向量序列s＝{x₁,x₂,…,x_j,…,x_n}，j＝[1,2,…,n]，其中x_j表示话语u的第j个词的词向量。

步骤a₂：以话语u的词向量序列s为输入，利用深度学习模型(如CNN,RNN或LSTM模型)对话语u进行语义建模，得到单个话语的语义向量表示。以LSTM模型为例，过程描述如下：

(1)、输入话语的词向量序列s＝{x₁,x₂,…,x_j,…,x_n}；

(2)、对词向量序列中的每个词向量，依次采用LSTM模型中的重复模块按下述公式a～e进行处理：

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (a)

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (b)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (c)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1+b_c) (d)

h_t＝o_t*tanh(c_t) (e)

其中，x_t为词向量序列s中第t个词向量(t＝[1,2,…,n])，作为t时间步的输入向量；f_t，i_t，o_t分别表示t时间步的遗忘门、输入门和输出门；W_f,W_i,W_o,W_c和U_f,U_i,U_o,U_c都是权重参数，b_f,b_i,b_o,b_c都是偏置项；σ为S型曲线激活函数(sigmoid)，tanh为双曲正切函数；*表示两个向量的对应元素相乘(Element-wise Multiplication)操作；h_t为t时间步的隐藏层状态。

(3)输出最后一个时间步n的隐藏层状态h_n，作为话语u的语义向量表示h。第一步骤通过深度学习模型对每个话语进行的语义建模只获取了单个话语的语义信息，没有考虑到话语的意图信息。

步骤二：在单个话语层，利用步骤一得到的单个话语的语义向量表示，采用注意力机制融合单个话语的意图信息，输出得到单个话语的语义意图融合向量，具体过程描述如下：

输入：步骤一得到的单个话语的语义向量表示，话语对应的对话行为类型，深度学习模型及相关参数；

输出：单个话语的语义意图融合向量；

过程：步骤b₁：将话语的对话行为类型初始化为对话行为向量表示后，采用注意力机制，融合单个话语的对话行为向量和步骤一得到的单个话语的语义向量表示，得到单个话语的语义意图融合向量，过程描述如下：

(1)、针对42种对话行为类型，通过随机初始化，得到每一种对话行为类型所对应的固定维度的向量表示(以200维为例)，构成对话行为向量词典E∈R^42×200。

(2)、针对单个话语u，通过查表对话行为向量词典E，将其对话行为类型初始化为向量v_da。

(3)、利用注意力机制，融合单个话语的对话行为向量v_da和步骤一得到的语义向量表示h，得到话语的语义意图融合向量h_da，以5次线性变换为例，按下述公式i～k进行计算：

z_i＝W_ih+b_i(i＝[1,2,...,5]) (i)

其中，W_i为权重，b_i为偏置项，z_i为对语义向量h的第i次线性变换的结果；α_i为标量值，表示利用对话行为向量v_da计算得到的z_i的权重值；h_da即话语的语义意图融合向量，是对各个z_i的加权求和结果，融合了话语u的语义信息和意图信息。

步骤三：针对多轮对话的话语序列，利用步骤二得到的话语的语义意图融合向量，构建多轮对话整体的语义意图融合向量序列，采用深度学习模型(如LSTM)，得到多轮对话的整体向量表示。多轮对话的连贯性质量是对多轮对话的整体进行连贯性评估，因此，本发明的第三步骤针对多轮对话的话语序列，利用步骤二得到的话语的语义意图融合向量h_da，构建多轮对话整体的语义意图融合向量序列，利用深度学习模型(以LSTM模型为例)，对多轮对话的话语序列进行建模，得到多轮对话的整体向量表示h_d，具体过程描述如下：

输入：步骤二得到的每个话语的语义意图融合向量h_da构成的多轮对话的语义意图融合向量序列，深度学习模型及相关参数；

输出：多轮对话的整体向量表示；

过程：步骤c₁：针对多轮对话D的话语序列{u₁,u₂,…,u_i,…,u_N}，利用步骤二得到的单个话语的语义意图融合向量h_da，构建多轮对话的语义意图融合向量序列{h_da1,h_da2,...,h_dai,...,h_daN}，i＝[1,2,…,N]，其中h_dai表示对话中第i个话语u_i的语义意图融合向量。

步骤c₂：以多轮对话的语义意图融合向量序列为输入，利用LSTM模型对多轮对话进行建模，得到多轮对话的整体向量表示h_d，LSTM模型的过程描述参考步骤a₂。

步骤四：对多轮对话的话语序列和对话行为序列，分别进行深度学习(如LSTM或CNN)建模，得到多轮对话的整体语义向量表示和整体意图向量表示。上述步骤二和步骤三是在单个话语层面利用注意力机制融合语义和意图信息，然后利用融合后的序列得到对话的整体表示。为了在多轮对话的整体层面利用注意力机制来融合对话的语义信息和意图信息，首先需要对多轮对话进行整体的语义建模和意图建模，因此，本发明的第四步骤使用深度学习模型(如CNN,RNN或LSTM模型)，对多轮对话的话语序列和对话行为序列分别建模，得到多轮对话的整体语义向量表示和整体意图向量表示，具体过程描述如下：

输入：步骤一得到的单个话语的语义向量构成多轮对话的语义向量序列，多轮对话的对话行为序列，深度学习模型及相关参数；

输出：多轮对话的整体语义向量表示和整体意图向量表示；

过程：步骤d₁：针对多轮对话D的话语序列{u₁,u₂,…,u_i,…,u_N}，利用步骤一得到每个话语的语义向量表示h，构成D的话语语义向量序列s_h＝{h₁,h₂,...,h_i,...,h_N}，i＝[1,2,…,N]，将其作为LSTM模型的输入，对多轮对话进行语义建模得到多轮对话的整体语义向量表示h_sem，LSTM模型具体过程参考步骤a₂；

步骤d₂：以多轮对话的对话行为序列为输入，采用深度学习模型(如CNN,RNN或LSTM模型)，对多轮对话的整体意图进行建模，得到多轮对话的整体意图向量表示，过程如下：

(1)、针对多轮对话D的话语序列{u₁,u₂,…,u_i,…,u_N}和每个话语的对话行为类型，得到D的对话行为序列s_da＝{da₁,da₂,...,da_i,...,da_N}，i＝[1,2,…,N]，其中da_i为第i个话语u_i的对话行为类型。

(2)、采用深度学习模型，对对话行为序列进行建模，得到对话整体的对话行为表示，以CNN模型为例，过程描述如下：

(I)针对对话行为序列s_da＝{da₁,da₂,...,da_i,...,da_N}，对每一个对话行为da_i(i＝[1,2,…,N])，通过在步骤二中构建的对话行为向量词典E中查表，得到其对应的向量表示，则对话行为序列转化为包含N个向量的向量序列{v₁,v₂,...,v_i,...,v_N}，作为CNN模型的输入。

(II)卷积层将输入的向量v进行卷积操作，其计算按下述公式f进行：

c_j＝f(u^Tv_j-k+1:j+b) (f)

其中，f为非线性函数，如双曲正切激活函数(hyperbolic tangent)、S型曲线激活函数(sigmoid)等，b为偏置项，u表示窗口大小为k的卷积滤波器，v_(j-k+1:j)表示对话行为序列中的第j-k+1个对话行为到第j个对话行为(共k个对话行为)的向量表示。滤波器数量为m，在大小为k的滑动窗口下，得到m个特征值序列C＝{C₁,C₂,…,C_m}，其中每个特征值序列C_i＝[c₁,c₂,…,c_N-k+1]，C_i∈R^N-k+1，i＝[1,…,m]。

(III)为了提取重要特征和控制输出的一致性，池化层将这m个特征值序列C进行池化操作得到一个m维的特征向量作为多轮对话的整体意图向量表示v_d。

步骤五：在对话整体层面，采用注意力机制融合步骤四中得到的两个向量表示，获得对话整体语义意图融合向量。为了在多轮对话的整体层面融合对话的语义信息和意图信息，本发明的第五步骤为采用注意力机制，融合步骤d₁中得到的整体语义向量表示h_sem和步骤d₂中得到的整体意图向量表示v_d，得到对话整体语义意图融合向量具体过程描述如下：

输入：多轮对话的整体语义向量表示h_sem，多轮对话的整体意图向量表示v_d，深度学习模型及相关参数；

输出：多轮对话的整体语义意图融合向量；

过程：步骤e₁：采用注意力机制，融合多轮对话的整体语义向量表示h_sem和整体意图向量表示v_d，以5次线性变换为例，其具体计算按下述公式g、l和n进行：

g_i＝W_dih_sem+b_di(i＝[1,2,...,5]) (g)

其中，W_di为权重，b_di为偏置项，g_i为对语义向量h_sem的第i次线性变换的结果；β_i为标量值，表示利用对话行为表示v_d计算得到的g_i的权重值，则是对各个g_i的加权求和结果，即融合了多轮对话语义信息和意图信息的对话整体语义意图融合向量。

步骤六：上述这些步骤采用分层注意力机制，在单个话语和多轮对话的整体这两个层面分别融合对话的语义信息和意图信息，得到多轮对话的两种整体向量表示h_d和本发明的第六步骤是综合这两种整体向量表示，利用打分函数(如softmax，sigmoid函数)得到对话的连贯性质量评估得分，其中，多轮对话连贯性质量自动评估模型的训练是通过交叉熵损失函数和反向传播(backpropagation)来进行的，具体过程描述如下：

输入：步骤三得到的多轮对话的整体向量表示h_d和步骤五得到的多轮对话的整体语义意图融合向量深度学习模型及相关参数；

输出：多轮对话的连贯性质量评估得分；

过程：步骤f₁：将步骤三和步骤五分别在不同层面融合对话语义信息和意图信息得到的两个对话向量表示h_d和进行综合(以简单拼接为例)，得到对话的整体连贯性向量：其中，表示拼接操作。

步骤f₂：以向量h_c为输入，利用打分函数(如softmax，sigmoid函数)，对多轮对话的整体连贯性质量进行打分，得到对话的连贯性概率分布h_s。以softmax函数为例，整体计算按下述公式m进行：

h_s＝softmax(W_sh_c+b_s) (m)

其中，W_s为权重，b_s为偏置项，用于将多轮对话的整体连贯性向量h_c映射到二维目标空间，得到二维向量h_o，作为softmax函数的输入，softmax函数具体计算按下述公式p进行：

其中，表示向量h_s的第j维数值，j＝[0,1]，和为0-1之间的实数值，相加和为1，其中表示对话的连贯性概率，即对话的连贯性质量评估得分。

步骤f₃：多轮对话的连贯性质量自动评估模型的训练是有监督的学习过程，在得到多轮对话的连贯性质量评估得分后，针对训练数据T，其交叉熵损失函数的计算按下述公式q进行：

其中，θ为模型中需要训练更新的参数集合，包括各个步骤中涉及的权重与偏置项参数，以及步骤二中构建的对话行为向量词典E，|T|表示训练数据集中的对话个数，y_i代表训练数据集中第i条多轮对话的连贯性得分，若该多轮对话为连贯的对话，则其为1，否则为0。

为了对多轮对话的连贯性质量自动评估模型进行训练和学习，本步骤对上述损失函数进行求导，将连贯性误差进行反向传播，更新模型参数，直到loss(θ)小于预定阈值τ，则停止更新，完成模型训练。

步骤七：将待评估的多轮对话及其对话行为序列输入已训练的多轮对话连贯性质量自动评估模型，预测对话的连贯性质量评估得分。本发明的第七步骤是将待评估的多轮对话及其对话行为序列输入到步骤六中已训练得到的多轮对话连贯性质量自动评估模型中，得到表征对话连贯程度的实数值(介于[0-1]之间)，并输出这个实数值作为该多轮对话的连贯性质量评估得分。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种对多轮对话连贯性质量的评估方法，其特征在于采用深度学习对多轮对话进行分层语义建模，在得到各个话语的语义向量表示后对话语序列进行建模，进而得到多轮对话的整体语义信息，其连贯性质量评估按下述步骤进行：

步骤一：利用预训练的词向量，通过查表将单个话语中的每个词初始化为词向量，并以单个话语的词向量序列为输入，利用深度学习模型对单个话语进行语义学习，得到每个话语的语义向量；

步骤二：将单个话语的对话行为类型初始化为对话行为向量表示，然后采用注意力机制，融合单个话语的对话行为向量和单个话语的语义向量，得到单个话语的语义意图融合向量；

步骤三：针对多轮对话的话语序列，利用单个话语的语义意图融合向量，构建多轮对话的语义意图融合向量序列，并以多轮对话的语义意图融合向量序列为输入，利用深度学习模型对多轮对话进行学习，得到多轮对话的整体向量；

步骤四：将多轮对话的话语语义向量序列，作为深度学习模型的输入，对多轮对话进行语义建模，得到多轮对话的整体语义向量，并以多轮对话的对话行为序列为输入，采用深度学习模型对多轮对话的整体意图进行学习，得到多轮对话的整体意图向量；

步骤五：采用注意力机制，融合多轮对话的整体语义向量和整体意图向量，得到对话整体语义意图融合向量；

步骤六：综合步骤三和步骤五分别在不同层面融合对话语义信息和意图信息得到的对话向量表示，得到对话的整体连贯性向量，并以对话的整体连贯性向量为输入，利用打分函数，得到多轮对话的连贯性质量评估得分，然后利用交叉熵损失函数计算训练数据的连贯性得分误差，通过反向传播更新模型参数进行模型训练；