CN116127051B

CN116127051B - 基于深度学习的对话生成方法、电子设备及存储介质

Info

Publication number: CN116127051B
Application number: CN202310428793.6A
Authority: CN
Inventors: 万之蕴; 何向南
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-07-11
Anticipated expiration: 2043-04-20
Also published as: CN116127051A

Abstract

本发明公开了一种基于深度学习的对话生成方法、电子设备及存储介质，该方法包括：1、构建基于检索编辑的对话生成数据集；2、构建由骨架生成器、骨架响应生成器、干扰响应生成器和响应融合模块组成的对话生成模型并进行训练；3、利用训练好的模型对用户输入的任何查询生成相应的回复。本发明先通过检索获得模板响应并构建响应骨架，以排除该模板响应中无用信息的干扰，而后对响应骨架进行编辑以生成最终的响应，从而使得对话***能够生成与语境更为贴合且语义更为丰富的响应，缓解“安全响应”问题。

Description

基于深度学习的对话生成方法、电子设备及存储介质

技术领域

本发明属于自然语言处理领域，涉及到对话***，深度学习等技术领域，具体地说是一种基于深度学习的对话生成方法、电子设备及存储介质。

背景技术

随着人工智能和人机交互的快速发展，越来越多的服务场景中应用了对话***或是对话机器人，并在一定程度上代替了人工服务。根据使用场景的不同，目前的对话***可以分为开放域对话***和任务型对话***。任务型对话***要为了完成某一特定任务或目标而设计的，例如客服机器人小蜜和智能助理siri；开放域对话一般以闲聊式对话为主，其目的并非在于完成特定的任务，而是为了和人类进行自然流畅的交流。

相较于任务型对话***，开放域对话***的对话主题是开放的，涵盖了更广的话题以及更为复杂的句式。按照构建方法，现有的开放域对话***可以被分为基于生成的对话***和基于检索的对话***两种类型。其中，基于检索的方法从现有语料库中选择响应，因而其性能受到预定义的索引规则的严重限制。而随着深度学习的发展，近几年来基于生成的对话***愈加流行。基于序列到序列（seq2seq）的深度学习模型在单轮对话生成中已经得到了广泛的应用。然而，传统的基于序列到序列的对话生成模型往往无法生成字数较多、内容丰富并且信息量较大的响应。在实际应用中，此类模型通常倾向于生成普适但乏味的回复，诸如“我不知道”，或是“我也这样认为”。这一问题也被称为“安全响应”问题。

最近的一些工作尝试利用信息检索技术填补对话生成中的信息量不足的缺陷。在传统的基于检索的对话***中，数据集是基于人类对话构建的，因而从中检索得到回复通常语法正确且语义丰富。对于给定的上下文，从语料库中检索类似的对话，并将其视为生成式对话***中额外的信息源，在一定程度上引入了更为丰富的语义及句式，使得生成的回复得以在一定程度上改善生成式模型所具有的“安全响应”问题。然而在使用检索得到的回复与原始回复相似时，生成模型倾向于进行复制参考回复，而不对该回复进行必要的修改。而在相反的情况中，即检索得到的回复与原始回复无关时，在获取了大量信息的同时也引入了与当前对话语境无关的干扰，导致模型性能不理想。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于深度学习的对话生成方法、电子设备及存储介质，以期能结合检索式对话模型和生成式对话模型，为对话生成引入外部信息，以缓解生成式对话***的“安全响应”问题，从而能得到流畅且信息丰富的响应生成结果。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的对话生成方法的特点在于，是按如下步骤进行：

步骤1、构建基于检索编辑的对话生成数据集；

步骤1.1、获取查询文本集合Q及其对应的响应文本集合R，令q表示查询文本集合Q中的任意一个查询，令r表示查询q对应的响应；

步骤1.2、检索与响应r相似的模板响应r’，并得到与r’对应的模板查询q’，从而组成对话数据集D中的一个四元组(r, q, r’, q’)；

步骤2、构建由骨架生成器G、骨架响应生成器G _T、干扰响应生成器G _S和响应融合模块组成的对话生成模型并进行训练；

步骤2.1、使用骨架生成器G从模板响应r’中分离响应骨架t与干扰词汇s，从而得到所有模板响应的干扰词汇并组成向量表示集S；并从所述向量表示集S中随机选取干扰词汇s’的向量表示Hs _’；

步骤2.2、基于响应r、干扰词汇s’及查询q，利用干扰响应生成器G _S得到响应生成结果干扰响应r _s’；

步骤2.3、基于响应r、响应骨架t及查询q，使用与所述干扰响应生成器G _S结构相同的骨架响应生成器G _T得到响应生成结果骨架响应r _t；

步骤2.4、所述响应融合模块利用式(8)对干扰响应r _s’和骨架响应r _t进行融合，得到融合响应r _s,t：

r _s,t = r _t⊙σ(r _s’) (8)

式(8)中，σ表示sigmoid函数，⊙表示点积；

步骤2.5、利用式(9)构建骨架生成器G及骨架响应生成器G _T的损失函数R _DIR：

R _DIR = E[L(r _s,t , r)] +λ Var[L(r _s,t , r)] (9)

式(9)中，E表示期望，Var表示方差，λ为超参数，L(•)表示交叉熵损失；

步骤2.6、利用式(10)构建干扰响应生成器G _S的损失函数R _S：

R _S = E[L(r _s’ , r)] (10)

步骤2.7、利用随机梯度下降法对所述对话生成模型进行训练，并计算所述损失函数R _S及R _DIR以更新网络参数，当损失函数收敛或达到最大训练次数时，停止训练并得到最优参数的对话生成模型，用于对用户输入的任何查询生成相应的回复。

本发明所述的基于深度学习的对话生成方法的特点也在于，所述步骤2.1中的骨架生成器G由Transformer编码器及交叉注意力层组成，并按如下过程分离响应骨架t与干扰词汇s；

步骤2.1.1、所述Transformer编码器对的查询q和模板响应r’分别进行处理，得到查询q的向量表示H _q={h _q ¹,…,h _q ⁱ, …,h _q ^m}和模板响应r’的向量表示H _r’={h ¹ _r’,…,h ^j _r’,…,h ⁿ _r’}，其中，h _q ⁱ为查询q中第i个字符的隐向量，m为查询q中的字符数，h ^j _r’表示模板响应r’中第j个字符的隐向量，n为模板响应r’中的字符数；

步骤2.1.2、所述交叉注意力层利用式(1)计算模板响应r’中第j个字符对查询q中第i个字符的注意力权重M _i,j：

(1)

式(1)中，h _q ^k为查询q中第k个字符的隐向量，score(•)为注意力分数，并有：

score (h ^j _r’,h _q ^k) = (h ^j _r’)^T W _att h _q ^k(2)

式(2)中，W _att为交叉注意力层的待学习参数，T为转置；

步骤2.1.3、所述交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H _t={h _t ¹,…,h _t ^j, …,h _t ⁿ}及干扰词汇s的向量表示H _s= {h _s ¹,…,h _s ^j, …,h _s ⁿ}：

(3)

(4)

式(3)和式(4)中，h _t ^j和h _s ^j,分别表示响应骨架t以及干扰词汇s中第j个字符的隐向量。

所述步骤2.2中的干扰响应生成器G _S由Transformer解码器和控制器组成；其中，所述Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成；所述Transformer解码器是按如下过程得到响应生成结果干扰响应r _s’：

步骤2.2.1、所述Transformer解码器利用编码层，位置编码层，自注意力层和第一标准化层对响应r进行处理，得到响应r的向量表示H _r；

步骤2.2.2、所述Transformer解码器通过交叉注意力层和第二标准化层将响应r的向量表示H _r与查询q进行融合，得到融合后的响应查询向量表示H _r,q；

步骤2.2.3、所述控制器利用式(5)将干扰词汇s’的向量表示H _s’与H _r,q进行融合，得到融合后的干扰融合向量表示H ^s’ _r,q：

H ^s’ _r,q=β•LN(H _s’) + (1-β)•H _r,q (5)

式(5)中，LN(•)表示控制器中的标准化层；β表示融合权重，并由式(6)得到；

β = σ(W _s• [W _s’;H _r,q]) (6)

式(6)中，W _s表示所述控制器的待学习参数，σ表示sigmoid函数；

步骤2.2.4、所述Transformer解码器的响应生成器利用式(7)得到响应生成结果干扰响应r _s’：

r _s’ = Linear(LN’ (FFN (H ^s’ _r,q) +H ^s’ _r,q)) (7)

式(7)中，Linear(•)表示响应生成器中的线性层，LN’(•)表示响应生成器中的标准化层，FFN(•)表示响应生成器中的前向传播层。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行任一所述对话生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行任一所述对话生成方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明提出了一种新的对话生成方法，即先通过检索获得模板响应而后在其基础上进行响应生成，模板响应的引入使得对话***得以利用外部信息，并使用人类的历史对话作为参考，从而提高了生成结果的流畅性和信息量，在一定程度上缓解了安全响应问题。

2、本发明提出了一种两阶段的基于检索编辑的对话生成模型，即先通过检索获得模板响应构建响应骨架，以排除其中无用信息的干扰，而后对响应骨架进行编辑生成最终的回复。相较于过往工作，本发明在继承了检索结果的流畅性和丰富的信息量的基础上，同时保持了生成式模型的灵活性。同时，通过响应骨架生成，使得生成模型得以排除检索到的模板响应中无关信息的干扰，生成更为贴合语境的响应。

3、本发明引入了因果干预的方法，使得模型得以学习到具有环境不变性的因果模式，并能从检索到的模板响应中提取响应骨架帮助响应生成，改善了过往研究中，模型无法恰当利用模板响应中信息的缺陷，并得以排除模板响应中干扰词汇的影响，从而更好的利用了外部信息，提高了生成响应与查询的相关性。

附图说明

图1为本发明方法流程示意图；

图2为本发明中干扰响应生成器结构示意图；

图3为本发明中响应融合模块所使用的因果图。

具体实施方式

本实施例中，如图1所示，一种基于深度学习的对话生成方法是按如下步骤进行：

步骤1、构建基于检索编辑的对话生成数据集；

步骤1.1、获取查询文本集合Q及其对应的响应文本集合R，令q表示查询文本集合Q中的任意一个查询，令r表示查询q对应的响应；在本实施例中，数据来源为中国较大的网络社交平台豆瓣和微博；

步骤1.2、检索与响应r相似的模板响应r’，并得到与r’对应的模板查询q’，从而组成对话数据集D中的一个四元组(r, q, r’, q’)。

步骤2.1、使用骨架生成器G从模板响应r’中分离响应骨架t与干扰词汇s，从而得到所有模板响应的干扰词汇并组成向量表示集S；并从向量表示集S中随机选取干扰词汇s’的向量表示Hs _’；

骨架生成器G由Transformer编码器及交叉注意力层组成，并按如下过程分离响应骨架t与干扰词汇s；

步骤2.1.1、Transformer编码器对查询q和模板响应r’分别进行处理，得到查询q的向量表示H _q={h _q ¹,…,h _q ⁱ, …,h _q ^m}和模板响应r’的向量表示H _r’={h ¹ _r’,…,h ^j _r’, …,h ⁿ _r’}，其中，h _q ⁱ为查询q中第i个字符的隐向量，m为查询q中的字符数，h ^j _r’表示模板响应r’中第j个字符的隐向量，n为模板响应r’中的字符数；

步骤2.1.2、交叉注意力层利用式(1)计算模板响应r’中第j个字符对查询q中第i个字符的注意力权重M _i,j：

(1)

score (h ^j _r’,h _q ^k) = (h ^j _r’)^T W _att h _q ^k(2)

式(2)中，W _att为交叉注意力层的待学习参数，T为转置；

步骤2.1.3、交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H _t={h _t ¹,…,h _t ^j, …,h _t ⁿ}及干扰词汇s的向量表示H _s= {h _s ¹,…,h _s ^j, …,h _s ⁿ}：

(3)

(4)

步骤2.2、如图2所示，基于响应r、干扰词汇s’及查询q，利用干扰响应生成器G _S得到响应生成结果干扰响应r _s’；

干扰响应生成器G _S由Transformer解码器和控制器组成；其中，Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成；Transformer解码器是按如下过程得到响应生成结果干扰响应r _s’；

步骤2.2.1、Transformer解码器利用编码层，位置编码层，自注意力层和第一标准化层对响应r进行处理，得到响应r的向量表示H _r；

步骤2.2.2、Transformer解码器通过交叉注意力层和第二标准化层将响应r的向量表示H _r与查询q进行融合，得到融合后的响应查询向量表示H _r,q；

步骤2.2.3、控制器利用式(5)将干扰词汇s’的向量表示H _s’与H _r,q进行融合，得到融合后的干扰融合向量表示H ^s’ _r,q：

H ^s’ _r,q=β•LN(H _s’) + (1-β)•H _r,q (5)

β = σ(W _s• [W _s’;H _r,q]) (6)

式(6)中，W _s表示控制器的待学习参数，σ表示sigmoid函数；

步骤2.2.4、Transformer解码器的响应生成器利用式(7)得到响应生成结果干扰响应r _s’：

r _s’ = Linear(LN’ (FFN (H ^s’ _r,q) +H ^s’ _r,q)) (7)

步骤2.3、基于响应r、响应骨架t及查询q，使用与干扰响应生成器G _S结构相同的骨架响应生成器G _T得到响应生成结果骨架响应r _t。

步骤2.4、响应融合模块基于图3所示的因果图进行对骨架响应r _t因果干预；具体而言，响应融合模块利用式(8)对干扰响应r _s’和骨架响应r _t进行融合，得到融合响应r：

r _s , _t = r _t⊙σ(r _s’) (8)

式(8)中，σ表示sigmoid函数，⊙表示点积；因果图是一个有向无环图，由用于表示变量的点和用于表示变量之间因果关系的边组成；因果图通常被用于描述一组变量之间的相互作用机制，它展示了数据背后的因果关系；本发明的对话生成过程可以由图3所示的因果图表示；在步骤2.4中，通过因果干预，人为地给定干扰响应r _s’，但在其他方面依旧遵循图3中所示的原始的数据生成过程。

R _DIR = E[L(r _s , _t , r)] +λ Var[L(r _s , _t , r)] (9)

式(9)中，E表示期望，Var表示方差，λ为超参数，L(•)表示交叉熵损失；损失函数R _DIR含义为模型在减小生成的响应r _s , _t与响应r的误差的同时，也试图减小外部干扰信息对于生成结果的影响。

步骤2.6、利用式(10)构建干扰响应生成器G _S的损失函数R _S：

R _S = E[L(r _s’ , r)] (10)

利用式(10)所得到的损失函数R _S仅用于对干扰响应生成器G _S中的参数进行更新；通过将该模块的训练与本方法中的其他模块的训练分离，避免其对表示学习的干扰；同时，这种参数更新的方式，也促使干扰响应生成器G _S仅学习仅基于给定干扰词汇的非因果特征。

步骤2.7、利用随机梯度下降法对对话生成模型进行训练，并计算损失函数R _S及R _DIR以更新网络参数，当损失函数收敛或达到最大训练次数时，停止训练并得到最优参数的对话生成模型，用于对用户输入的任何查询生成相应的回复。

结合下列图表进一步描述本发明的测试结果：

为了验证本发明所提出的方法的有效性，进行了对比试验。实验结果如表1所示。其中，Retrieval为检索***，Seq2Seq为基本的序列到序列模型，BART为一种预训练语言模型，BART-cat在BART的基础上接受模板响应作为输入，Ske2Re为一种基于检索***的对话生成模型，TSLF为一种基于Transformer的引入外部知识的对话生成模型，DG为本发明所提出的方法。表1中，BLUE-1是一种基于词重叠的评价指标，用于比较生成文本与参考文本间的字符重合度，dist-1和dist-2则是两个用于衡量词汇多样性的评价指标。

表1

通过表1中的实验结果可以看出，本发明的方法在各指标上均优于其它模型，该方法可以更好地从检索到的模板响应种获取信息，并生成更多样的文本。

Claims

1.一种基于深度学习的对话生成方法，其特征在于，是按如下步骤进行：

步骤1、构建基于检索编辑的对话生成数据集；

r _s,t = r _t⊙σ(r _s’) (8)

式(8)中，σ表示sigmoid函数，⊙表示点积；

R _DIR = E[L(r _s,t , r)] + λ Var[L(r _s,t , r)] (9)

步骤2.6、利用式(10)构建干扰响应生成器G _S的损失函数R _S：

R _S = E[L(r _s’ , r)] (10)

2.根据权利要求1所述的基于深度学习的对话生成方法，其特征在于，步骤2.1中的骨架生成器G由Transformer编码器及交叉注意力层组成，并按如下过程分离响应骨架t与干扰词汇s；

步骤2.1.1、所述Transformer编码器对查询q和模板响应r’分别进行处理，得到查询q的向量表示H _q={h _q ¹, …, h _q ⁱ, …, h _q ^m}和模板响应r’的向量表示H _r’={h ¹ _r’, …, h ^j _r’,…, h ⁿ _r’}，其中，h _q ⁱ为查询q中第i个字符的隐向量，m为查询q中的字符数，h ^j _r’表示模板响应r’中第j个字符的隐向量，n为模板响应r’中的字符数；

(1)

score (h ^j _r’, h _q ^k) = (h ^j _r’)^T W _att h _q ^k(2)

式(2)中，W _att为交叉注意力层的待学习参数，T为转置；

步骤2.1.3、所述交叉注意力层利用式(3)和式(4)计算响应骨架t的向量表示H _t= {h _t ¹,…, h _t ^j, …, h _t ⁿ}及干扰词汇s的向量表示H _s= {h _s ¹, …, h _s ^j, …, h _s ⁿ}：

(3)

(4)

3.根据权利要求1所述的基于深度学习的对话生成方法，其特征在于，步骤2.2中的干扰响应生成器G _S由Transformer解码器和控制器组成；其中，所述Transformer解码器由编码层、位置编码层、自注意力层、交叉注意力层、两个标准化层、控制器和响应生成器组成；所述Transformer解码器是按如下过程得到响应生成结果干扰响应r _s’：

H ^s’ _r,q= β•LN(H _s’) + (1-β)•H _r,q (5)

β = σ(W _s• [W _s’; H _r,q]) (6)

r _s’ = Linear( LN’ ( FFN ( H ^s’ _r,q) + H ^s’ _r,q)) (7)

4.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-3中任一所述对话生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

5.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-3中任一所述对话生成方法的步骤。