CN113495943B

CN113495943B - 一种基于知识追踪与转移的人机对话方法

Info

Publication number: CN113495943B
Application number: CN202010253520.9A
Authority: CN
Inventors: 陈竹敏; 孟川; 任鹏杰; 孙维纬; 任昭春
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-07-14
Anticipated expiration: 2040-04-02
Also published as: CN113495943A

Abstract

本发明公开了一种基于知识追踪与转移的人机对话方法，包括如下步骤：步骤一，构建具备知识追踪与转移功能的模型；所述模型采用基于深度学习的编码‑解码框架，包含编码层、知识追踪转移层和解码层；步骤二，根据所构建的模型，使用先验‑后验对偶学习机制训练模型参数；步骤三，训练完成后，模型参数全部固定，然后进行实际对话应用。本发明所公开的方法进一步提升了知识选择的合适性，帮助模型生成更高用户体验的回复；其次，无监督的先验‑后验对偶学习机制不但增强进了知识追踪与转移之间的交互，保证二者的预测精度同时提升，而且显著减少了模型对人工标注数据的依赖。

Description

一种基于知识追踪与转移的人机对话方法

技术领域

本发明属于智能人机对话领域，特别涉及一种基于知识追踪与转移的人机对话方法。

背景技术

人机对话，即人类可以通过自然语言(即人类语言)的形式与机器进行自然交互。人机对话***的智能程度往往可以被用来衡量当今人工智能技术的发展程度，所以构建足够智能的人机对话模型是人工智能时代的长期目标。目前，人机对话的相关产品已在人类现实生活中逐渐应用，给人类生活带来了巨大便利。

对话模型有很多亟待解决的挑战，保证模型生成回复的信息性就是其中之一。目前，很多研究方法通过引入包含大量知识文本片段的外界知识库(文本片段可从百度百科等线上资源中爬取)的方式来提升回复的“信息量”，此种方法为基于知识的对话方法。具体而言，基于知识的对话方法要解决两个任务：1.知识选择，根据对话环境，从知识库中选择一条将要聊的知识片段；2.回复生成，根据所选的知识片段生成最终回复。因为选择的知识内容直接决定了回复内容的主题，不恰当的知识会直接导致不恰当的回复，所以提升基于知识的对话方法的知识选择合适性是重中之重。

但是，在知识选择上，当前的主流方法仍旧有两点显著不足。首先，在模型构建方面，几乎所有方法都仅仅拿对话上下文(用户当前的输入和之前的对话历史)去知识库里匹配知识，没有显式建模知识追踪与转移。知识追踪与转移即先定位在对话历史中已经聊过的知识(知识追踪)，然后根据聊过的知识和对话上下文共同推理下一步将要去聊的知识(知识转移)。知识追踪与转移可以额外地捕捉已经聊过的和将要聊的知识之间的交互与推理关系，相较于仅仅使用单一的上下文信息，这些额外的线索可以进一步提升知识选择的合适性。

其次，在模型训练方面，当前的主流方法都是数据驱动，无论是知识选择和回复生成，都十分依赖大规模的人工标注数据进行监督学习，这造成数据的获取成本十分高昂。然而目前很少有研究去探索使用无监督学习方法去提升知识选择，进而减少对标注数据的依赖。

发明内容

为解决上述技术问题，本发明提供了一种基于知识追踪与转移的人机对话方法，进一步提升了知识选择的合适性，帮助模型生成更高用户体验的回复；其次，无监督的先验-后验对偶学习机制不但增强进了知识追踪与转移之间的交互，保证二者的预测精度同时提升，而且显著减少了模型对人工标注数据的依赖。

为达到上述目的，本发明的技术方案如下：

一种基于知识追踪与转移的人机对话方法，包括如下步骤：

步骤一，构建具备知识追踪与转移功能的模型；

所述模型采用基于深度学习的编码-解码框架，包含编码层、知识追踪转移层和解码层；

步骤二，根据所构建的模型，使用先验-后验对偶学习机制训练模型参数；

步骤三，训练完成后，模型参数全部固定，然后进行实际对话应用。

上述方案中，所述编码层包含一个BERT编码器，分别把知识库和对话上下文编码成隐状态表示；

所述知识追踪转移层包含一个先验知识追踪器pri、一个知识转移器shi和一个后验知识追踪器pos，先验知识追踪器pri把对话上下文的隐状态表示作为输入，预测一个在知识库中所有文本片段上的先验知识追踪分布，从该分布中可采样一个追踪到的知识(即“已经聊过的知识”)及其隐状态表示；知识转移器shi把追踪到的知识与对话上下文的隐状态表示共同作为输入，预测一个在知识库中所有文本片段上的知识转移分布，从该分布中可采样一个转移到的知识(即“将要聊的知识”)及其隐状态表示；后验知识追踪器pos额外地把转移到的知识的隐状态表示作为输入，预测一个在知识库中所有文本片段上的后验知识追踪分布，从该分布中可采样一个追踪到的知识及其隐状态表示；

所述解码层包含一个Transformer解码器，其将转移到的知识与对话上下文的隐状态表示共同作为输入，逐词生成最终回复。

上述方案中，后验知识追踪器pos与知识转移器shi之间形成一个对偶闭环，且后验知识追踪器pos仅在模型训练时执行，在模型应用时不执行。

上述方案中，步骤二的训练过程中，使后验知识追踪器pos和知识转移器shi互为对偶任务，使二者以无监督的方式互相指导提升，多轮迭代直至收敛，并且使先验知识追踪器pri同时从二者的对偶交互中获益；具体训练过程如下:

Step1：热身训练，使用极大似然估计最大化训练集中标注数据的概率，训练至参数收敛后，热身训练结束；

Step2：单轮迭代开始，首先通过后验知识追踪器pos去指导提升知识转移器shi；

Step3：通过知识转移器shi指导提升后验知识追踪器pos；

Step4：使用KL散度损失，令先验知识追踪分布模拟并逼近后验知识追踪分布，确保先验知识追踪器pri即使不在对偶学习的闭环中，也能从对偶学习中获取收益；至此，单轮迭代结束；

Step5：重复执行Step2-Step4，形成多轮迭代，直至模型参数进一步收敛。

上述方案中，步骤三在实际对话应用中，给定知识库和包含用户输入的对话上下文，先执行BERT编码器获取二者的隐状态表示，而后按顺序执行先验知识追踪器pri和知识转移器shi，完成知识追踪与转移，最后将知识转移器shi推出的转移到的知识表示喂给Transformer解码器生成最终回复。

通过上述技术方案，本发明提供的基于知识追踪与转移的人机对话方法在模型构建方面，其显式地建模了知识追踪与知识转移；在模型训练方面，其使用一种无监督的先验-后验对偶学习机制来训练模型参数，该学习机制将知识追踪与转移视为对偶任务，以无监督的方式使二者自动相互指导，共同提升，多轮迭代直至收敛。相较现有方法，具有如下有益效果：

1、显式建模知识追踪与知识转移可以额外地捕捉已经聊过的和将要聊的知识之间的交互与推理关系，相较于仅仅使用单一的上下文信息，额外的线索可以进一步提升知识选择的合适性，继而帮助模型生成更高用户体验的回复。

2、先验-后验对偶学习机制以无监督的方式使知识追踪与转移自动相互指导，共同提升。该方法不但增强了知识追踪与转移之间的交互，保证二者的预测精度同时提升，而且显著减少了模型对人工标注数据的依赖。

3、本发明将知识追踪进一步区分为先验与后验知识追踪，并使用先验-后验对偶学习机制配套优化，这成功解决了模型训练时与应用时存在的对偶不兼容问题(在模型应用时，后验知识追踪无法获得转移到的知识作为输入，因此只能执行先验知识追踪)，确保先验知识追踪即使不在对偶学习的闭环中也能从对偶学习中获取收益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于知识追踪与转移的人机对话方法流程示意图；

图2为本发明方法在模型训练时的示意图；

图3为本发明方法在模型训练时的单轮迭代中优化知识转移器的示意图；

图4为本发明方法在模型训练时的单轮迭代中优化后验知识追踪器的示意图；

图5为本发明方法在模型训练时先验知识追踪分布逼近后验知识追踪分布的示意图；

图6为本发明方法在模型应用时的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于知识追踪与转移的人机对话方法，具体包括如下步骤：

步骤1：构建具备知识追踪与转移功能的模型。

在对话第τ轮，给定由|K|条文本片段组成知识库

(文本片段K_i由|K_i|个词组成)，给定对话上下文C_τ＝(X_τ-1,Y_τ-1,X_τ)(X为用户的输入，Y为模型的回复，这里将在τ-1轮用户和模型的交互记录和第τ轮用户的输入定义为上下文)，模型的任务是先从知识库K中选择一条合适的文本片段，然后依据所选文本片段产生由|Y_τ|个词组成的回复

在编码层，对于对话上下文C_τ，使用BERT_base编码器和平均池化操作来获取其隐状态表示

其中，d代表768维的隐状态维度，p代表平均池化操作。用相同的方法将知识库

编码为隐状态表示/>

在知识追踪与转移层，先验知识追踪器pri把τ-1轮的对话上下文的隐状态表示

作为输入，预测一个在知识库K上的先验知识追踪分布P(K|pri)：

其中，Mlp(·)＝·W+b代表多层感知机(Multilayer Perceptron)，W和b是可训练的参数。[·；·]代表向量拼接操作，T代表矩阵转置操作。

知识转移器shi把对话上下文的隐状态表示

和追踪到的知识的隐状态表示

作为输入，预测一个在知识库K上的知识转移分布P(K|K_tra,shi)：

后验知识追踪器pos把τ-1轮的对话上下文的隐状态表示

和转移到的知识的隐状态表示/>

作为输入，预测一个在知识库K上的后验知识追踪分布P(K|K_shi,pos):

在解码层，使用Transformer作为解码器逐词生成Y_τ。解码器将对话上下文X_τ和转移到的知识K_shi所对应的未经平均池化的隐状态表示

与/>

作为输入。在模型训练时，K_shi为训练集中标注的转移到的知识；在模型应用时，K_shi则为知识转移器shi预测的知识转移分布P(K|K_tra,shi)中概率最大的知识文本片段。

因为解码过程是一个多时间步的循环过程，接下来详述解码器在第t个解码时间步生成词y_τ,t的详细过程。给定第t个解码时间步的隐状态向量

其中emb(·)代表取·的词嵌入表示，将h_τ,t映射到预先定义的词表V＝{v₁,v₂,…,v_|V|}上，形成概率分布P(y_τ,t)：

P(y_τ,t)＝softmax(Mlp(hτ_,t))∈R^|V|, (13)

在模型应用时，取P(y_τ,t)分布中对应概率最大的词v作为第t个时间步的生成词y_τ,t。至此，第t个时间步的计算结束，解码器更新得到第t+1个时间步的解码器隐状态hτ_,t+1开始新一轮循环：

在模型应用时，解码循环结束后，每一步输出的词按序组成完整的最终回复Y_τ。

步骤2：使用目前工业界和学术界内公开的基于知识的对话数据集，并根据步骤1得到的模型，使用先验-后验对偶学习机制训练模型参数。具体而言，该训练机制使后验知识追踪器pos和知识转移器shi互为对偶任务，使二者以无监督的方式互相指导提升，多轮迭代直至收敛(在每一轮迭代中，后验知识追踪器pos和知识转移器shi都将交替优化)，同时保证先验知识追踪器pri也能从对偶交互中获益。图2展示了本发明方法在模型训练时的示意图。

本步骤通过以下过程实现。

Step1：热身训练的目标是用极大似然估计(简称为MLE)最大化训练集中标注数据的概率，在此定义以下损失函数：

L_pri(θ)＝-logP(K_{tra_label}|pri), (15)

L_pos(θ)＝-logP(K_{tra_label}|K_{shi_label},pos), (16)

L_shi(θ)＝-logP(K_{shi_label}|K_{tra_label},shi), (17)

其中，θ为模型中的所有可训练的参数，tra_label与shi_label分别对应训练集中标注的追踪到的知识和转移到的知识。L_pri(θ)是先验知识追踪损失，L_pos(θ)是后验知识追踪损失，L_shi(θ)是知识转移损失，L_g(θ)是回复生成损失。

得到最终的损失函数L(θ)：

L(θ)＝L_pri(θ)+L_pos(θ)+L_shi(θ)+L_g(θ). (19)

随后用深度学习常用的反向传播算法(简称为BP算法)对模型的所有参数以及词嵌入矩阵更新以减小损失。训练至收敛后，热身训练阶段结束。

Step2：单轮迭代开始。先从训练集中采样一个训练样例，然后通过后验知识追踪器pos去指导提升知识转移器shi。如图3所示，将标注的追踪到的知识表示

作为知识转移器shi的输入，知识转移器shi产生知识转移分布P(K|K_{tra_label},shi)。从该分布中采样一条知识作为转移到的知识K_{shi_sample}，并将其表示/>

喂给后验知识追踪器pos获得标注的追踪到的知识K_{tra_label}的反推概率P(K_{tra_label}|K_{shi_sample},pos)，将反推概率视为一个“奖励”：

E(R)＝E[RlogP(K_{shi_sample}|K_{tra_label},shi)], (20)

R＝log[P(K_{tra_label}|K_{shi_sample},pos)], (21)

其中，R即为对从shi的输出分布P(K|K_{tra_label},shi)中采样得到的转移到的知识K_{shi_sample}的“奖励”。E[·]为求·的期望。随后，用策略梯度(policy gradients)方法最大化奖励的期望E(R)并计算参数θ₁＝[θ_embedding,θ_encoder,θ_shi](θ_embedding为词嵌入矩阵，θ_encoder为编码器的参数，θ_sｈi为知识转移器shi的参数)的梯度：

然后，根据梯度

更新参数θ₁。

Step3：类似于Step2，如图4所示，将以相似的方式通过知识转移器shi去提升后验知识追踪器ｐｏｓ，最终优化参数θ₂＝[θ_embedding,θ_encoder,θ_pos](θ_pos为后验知识追踪器pos的参数)。

Step4：经过上述对知识转移器shi和后验知识追踪器pos的对偶优化后，需要将后验知识追踪器pos从该过程中的收益传递到先验知识追踪器pri。如图5所示，将训练集中标注的转移到的知识K_{shi_label}的隐状态表示

作为已经优化过的后验知识追踪器pos的输入，得到后验知识追踪分布P(K|K_{shi_label},pos)。促使分布P(K|pri)逼近P(K|K_{shi_label},pos)，通过KL散度损失：/>

因为训练是以无监督的方式进行，不准确的“奖励”难以避免。为了减弱这一现象带来的不利影响，将KL散度损失L_kl(θ)与MLE损失[L_pos(θ),L_shi(θ),L_g(θ)]线性加和进行联合训练：

L(θ)＝L_kl(θ)+γ[L_pos(θ)+L_sｈi(θ)+L_g(θ)] (24)

其中，γ是一个超参数，其作用是控制MLE损失的比例。γ在本方法中的设置值为0.5。至此，单轮迭代结束。

Step5：重复执行Step2-Step4，形成多轮迭代，直至模型参数进一步收敛。收敛则整个训练过程结束。

步骤3：实际对话应用。

模型训练完成后，模型的参数便全部固定。此时，模型就可以应用到实际的对话场景中去。

如图6所示，给定知识库K与包含用户输入的对话上下文C_τ，先执行编码器获取二者的隐状态表示，而后按顺序执行先验知识追踪器pｒi和知识转移器shi完成知识追踪与转移，最后将知识转移器shi推出的转移到的知识表示喂给解码器生成最终回复Y_τ。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于知识追踪与转移的人机对话方法，其特征在于，该方法包括如下步骤：

步骤一，构建具备知识追踪与转移功能的模型；

步骤三，训练完成后，模型参数全部固定，然后进行实际对话应用；

所述编码层包含一个BERT编码器，分别把知识库和对话上下文编码成隐状态表示；

所述知识追踪转移层包含一个先验知识追踪器pri、一个知识转移器shi和一个后验知识追踪器pos，先验知识追踪器pri把对话上下文的隐状态表示作为输入，预测一个在知识库中所有文本片段上的先验知识追踪分布，从该分布中可采样一个追踪到的知识及其隐状态表示；知识转移器shi把追踪到的知识与对话上下文的隐状态表示共同作为输入，预测一个在知识库中所有文本片段上的知识转移分布，从该分布中可采样一个转移到的知识及其隐状态表示；后验知识追踪器pos额外地把转移到的知识的隐状态表示作为输入，预测一个在知识库中所有文本片段上的后验知识追踪分布，从该分布中可采样一个追踪到的知识及其隐状态表示；

所述解码层包含一个Transformer解码器，其将转移到的知识与对话上下文的隐状态表示共同作为输入，逐词生成最终回复；

步骤二的训练过程中，使后验知识追踪器pos和知识转移器shi互为对偶任务，使二者以无监督的方式互相指导提升，多轮迭代直至收敛，并且使先验知识追踪器pri同时从二者的对偶交互中获益；具体训练过程如下:

Step3：通过知识转移器shi指导提升后验知识追踪器pos；

Step4：将KL散度损失与MLE损失线性加和进行联合训练，令先验知识追踪分布模拟并逼近后验知识追踪分布；至此，单轮迭代结束；

2.根据权利要求1所述的一种基于知识追踪与转移的人机对话方法，其特征在于，后验知识追踪器pos与知识转移器shi之间形成一个对偶闭环，且后验知识追踪器pos仅在模型训练时执行，在模型应用时不执行。

3.根据权利要求1所述的一种基于知识追踪与转移的人机对话方法，其特征在于，步骤三在实际对话应用中，给定知识库和包含用户输入的对话上下文，先执行BERT编码器获取二者的隐状态表示，而后按顺序执行先验知识追踪器pri和知识转移器shi，完成知识追踪与转移，最后将知识转移器shi推出的转移到的知识喂给Transformer解码器生成最终回复。