CN112199485B

CN112199485B - 一种基于个性化开放领域的对话生成方法

Info

Publication number: CN112199485B
Application number: CN202011097238.2A
Authority: CN
Inventors: 郎大鹏; 李子豫; 程俊杰; 张鹏伟; 赵国冬; 刘翔宇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-10-14
Anticipated expiration: 2040-10-14
Also published as: CN112199485A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于个性化开放领域的对话生成方法。用户输入问句；在检索库中检索，采用结合词嵌入技术衡量句子形式上的相似度以及句子在语义上的相似度，若输入的句子与检索库中的问题的相似度达到了某一阈值，则将该句子输入到个性化模型中进行处理，不然，则将其输入到通用模型中。本发明在基于深度学习技术使用大规模语料数据训练得到开放领域生成式对话模型的同时，可以实现让模型保持个性从而对特定问题拥有一致性回答。

Description

一种基于个性化开放领域的对话生成方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于个性化开放领域的对话生成方法。

背景技术

对话***一直是自然语言处理领域的一大研究热点。传统的基于检索式的对话***存在泛化能力较差、不具备人们期待的情感等诸多问题。近年来随着深度学习相关理论与技术的发展，对话***的实现开始从基于检索式的逐渐向基于生成式的过度。

基于深度学习技术实现的对话生成算法通常需要借助大规模的语料数据，Serban等人提出了基于RNN的方法让模型从数据中自动学习特征的表示，节省特征提取工作的人力成本，取得了优于特征工程方法的结果。Seq2Seq模型是机器翻译领域一种端到端的编码器—解码器(Encoder-Decoder)模型较好地解决了深度神经网络只能刻画等长映射的问题。鉴于人机对话与机器翻译实际上是很相似的任务，2015年谷歌团队的Vinyals首次提出将Seq2Seq模型应用在对话生成任务上，取得了很好的效果。基于深度学习的对话生成技术目前仍然存在很多问题，如难以进行多轮对话、生成的回复前后不一致等，但相比于各种检索式实现方案，它的最大优点在于，对于任何问题它都能给出一个适当的回复，综合来看，这是目前实现开放领域对话生成任务的首选方案。

针对一致性问题，Iulian V.Serban团队在2015年提出了一种利用三轮对话提高对话一致性的模型，不过作者也表示其模型对预训练的语料库有很高要求。2016年，Li等人在Seq2Seq 模型中引入了SPEAKER MODEL以及SPEAKER-ADDRESSEE MODEL，新模型着重刻画了人物的一些角色信息(persona)等，并没有涉及情绪与情感等方面的内容，在一致性问题上的表现效果较基础模型有所提升但并不惊人。2017年，Sutskever提出一种涉及人物情感的模型，通过对解码器输入部分进行一些改造，使模型生成的对话具有一定的情绪，取得了不错的效果，后续有研究者从这个角度尝试处理一致性问题。2018年，Facebook团队的Zhang等人通过特制的数据集以及向模型中嵌入有利信息等方法为模型赋予了可配置但持久的角色，在个性化的对话生成方向上取得很大进展。总的来讲，生成式的对话***由于技术限制等原因一直以来受到的关注度并不高，所以对于这个领域的子课题——对话生成一致性的问题，目前的相关研究还比较有限。

发明内容

本发明的目的在于提供一种基于个性化开放领域的对话生成方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：用户输入问句；

步骤2：在检索库中检索，获取用户输入的问句的向量表示，并计算用户输入的问句与检索库中问题的向量相似度；所述的获取用户输入的问句的向量表示的方法具体为：

步骤2.1：基于词嵌入和Skip-gram模型的词向量计算；

将用户输入的问句输入到Skip-gram模型中，模型会通过查词向量表映射的方式确定对应的词向量，中心词的词向量确定之后，通过隐藏层进一步映射出中心词上下文的词向量表示，之后对整体输出进行一步Softmax处理，从而获得输出的上下文中对应单词的概率，根据此处得到的概率与实际的词做交叉熵计算从而得到目标损失，最后再利用反向传播算法获取参数梯度并进行参数的更新；

步骤2.2：通过词嵌入技术获得当前语料库下的词向量，再对句子中所有词的词向量求平均，即可获得一个句子的向量表示；

步骤3：若用户输入的问句与检索库中的问题的相似度达到了设定的阈值，则将该用户输入的问句输入到个性化模型中进行处理；否则，将用户输入的问句输入到通用模型中进行处理；

使用引入注意力机制以及DROP OUT机制的Seq2Seq模型，通过较小规模的个性化语料数据以及较大规模的通用语料数据构建个性化模型和通用模型，并将所有个性化语料数据中的问句作为一个检索库，用于分别处理涉及个性化信息的以及不涉及个性化信息的两类问题；

所述的引入注意力机制的Seq2Seq模型具体为：

在未引入注意力机制时，解码器的输入仅由上下文向量C以及前一时刻的隐含层状态共同组成，并且每一步中的上下文向量C都会被更新，引入注意力机制之后，解码器在解码过程中使用的上下文向量C均为针对当前时刻输出所选择的最适合的上下文向量；解码器输出层用于预测单词概率的公式如下所示：

p(y_i|y₁，…，y_i-1，x)＝g(y_i-1，s_i，c_i)

其中y_i-1表示i-1时刻的输出；s_i为网络模型在i时刻的隐含层状态，计算公式如下：

s_i＝f(s_i-1，y_i-1，c_i)

注意力机制为每个单元分配的权重函数α_ij作用是衡量编码器输入序列在j时刻的隐含层状态与解码器在i时刻的输出之间的关联性，此时对于i时刻的上下文向量c_i，其值为隐含层状态与权重函数α_ij的乘积：

其中权重函数的计算公式如下：

e_ij＝f(s_i-1，h_j)

步骤4：个性化模型或通用模型输出答复句，完成对话。

本发明的有益效果在于：

本发明在基于深度学习技术使用大规模语料数据训练得到开放领域生成式对话模型的同时，可以实现让模型保持个性从而对特定问题拥有一致性回答。

附图说明

图1为本发明的总体流程示意图。

图2Seq2Seq模型引入attention机制后的工作流程图。

图3Drop out机制示意图。

图4网络模型抽象结构示意图。

图5词向量可视化展示示意图。

图6混合模型的模型架构示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明属于问答模型领域，尤其涉及一种基于个性化开放领域的对话生成方法。本发明的目的在于提出一种基于个性化开放领域的对话生成方法，使得在基于深度学习技术使用大规模语料数据训练得到开放领域生成式对话模型的同时，也能实现让模型保持个性从而对特定问题拥有一致性回答的方法。

基于词嵌入和Skip-gram模型的词向量计算：模型会通过查词向量表映射的方式确定对应的词向量，中心词的词向量确定之后，通过隐藏层进一步映射出中心词上下文的词向量表示，之后对整体输出进行一步Softmax处理，从而获得输出的上下文中对应单词的概率，根据此处得到的概率与实际的词做交叉熵计算从而得到目标损失，最后再利用反向传播算法获取参数梯度并进行参数的更新。本发明使用的fastText提供的以中文***为语料训练而来的词向量。

使用基于词向量的词袋模型的句子相似度计算：通过词嵌入技术获得当前语料库下的词向量，再对句子中所有词的词向量求平均，即可获得一个句子的向量表示，通过这种句向量来计算两个句子之间的向量相似度，已经可以较好的表示两个句子之间的相关性。

用于个性化对话生成的混合模型：使用引入注意力机制以及DROP OUT机制的Seq2Seq 模型来制作两个生成式模型组成的混合模型：通过较小规模的个性化语料数据以及较大规模的通用语料数据构建两个不同的模型，并将所有个性化语料数据中的问句作为一个检索库，用于分别处理涉及个性化信息的以及不涉及个性化信息的两类问题。见图6。

个性化开放领域的对话生成：用户输入问句；在检索库中检索，采用结合词嵌入技术衡量句子形式上的相似度以及句子在语义上的相似度，若输入的句子与检索库中的问题的相似度达到了某一阈值，则将该句子输入到个性化模型中进行处理，不然，则将其输入到通用模型中。阈值是一个0到1的小数，其设定则需要根据实验效果手动调整确定，阈值的大小将影响句子匹配的宽容度，若阈值为0则意味着任何问题都与检索库相匹配，句子将交由个性化模型进行处理，若阈值为1则任何问题都无法命中检索库，所有句子都将交由通用模型进行处理。过程见图1。

用于个性化对话生成的混合模型：

1.使用引入注意力机制的Seq2Seq模型：

在未引入注意力机制时，解码器的输入仅由上下文向量C以及前一时刻的隐含层状态共同组成，并且每一步中的上下文向量C都会被更新，引入注意力机制之后，解码器在解码过程中使用的上下文向量C均为针对当前时刻输出所选择的最适合的上下文向量。解码器输出层用于预测单词概率的公式如下所示：

p(y_i|y₁，…，y_i-1，x)＝g(y_i-1，s_i，c_i)

其中y_i-1表示i-1时刻的输出，s_i-1为网络模型在i-1时刻的隐含层状态，s_i的计算公式如下：

s_i＝f(s_i-1，y_i-1，c_i)

注意力机制为每个单元分配的权重函数α_ij作用是衡量编码器输入序列在j时刻的隐含层状态与解码器在i时刻的输出之间的关联性，此时对于i时刻的上下文向量c_i，其值为隐含层状态与权重函数α_ij的乘积，公式如式X-X所示：

其中权重函数的计算公式如下：

e_ij＝f(s_i-1，h_j)

引入attention机制之后的Seq2Seq模型结构如图2所示。

2.使用DROP OUT机制的Seq2Seq模型：在神经网络训练过程中，按照一定的几率直接将一部分网络单元暂时性地忽略掉。从而在应对大量非标准数据时有效防止过拟合的出现。引入Drop out机制前后神经网络模型的对比如图3所示，可以直观地看到，随着网络单元的减少，模型训练将耗费更少的计算资源并且其拟合能力也得到提升。引入注意力机制和DROP OUT机制后的Seq2Seq模型如图4所示。

3.来制作两个生成式模型组成的混合模型：混合模型中一个是使用大规模语料数据训练的高维通用模型，另一个则是使用优质的具有一致性人格的个性化语料数据训练而来的低维个性化模型；并将所有个性化语料数据中的问句作为一个检索库。见图6。

个性化开放领域的对话生成：

1.用户输入问句；

2.在检索库中检索:

通过使用的fastText提供的以中文***为语料训练而来的词向量，一份典型的词向量文件本发明内容如图5所示，其完全由中文词语及对应的词向量构成词嵌入技术获得当前语料库下的词向量，再对句子中所有词的词向量求平均，即可获得一个句子的向量表示，通过这种句向量来计算两个句子之间的向量相似度。

3.若输入的句子与检索库中的问题的相似度达到了某一阈值，则将该句子输入到个性化模型中进行处理，不然，则将其输入到通用模型中。阈值是一个0到1的小数，其设定则需要根据实验效果手动调整确定，阈值的大小将影响句子匹配的宽容度，若阈值为0则意味着任何问题都与检索库相匹配，句子将交由个性化模型进行处理，若阈值为1则任何问题都无法命中检索库，所有句子都将交由通用模型进行处理。过程见图1。

与现有技术相比，本算法在基于深度学习技术使用大规模语料数据训练得到开放领域生成式对话模型的同时，让模型保持个性从而对特定问题拥有一致性回答。

1、对话生成的一致性分析

本发明的混合模型是由基线模型与个性化模型共同组成的，表1展示了两种模型对应的生成效果，并标识出由混合模型选择的结果。其中对比展示了10组人机对话效果，前5个问题的选择倾向于涉及角色信息的问题，而后5个问题则是对应的前五个问题的同义句。

表1对话生成效果

上述10组对话对应的在检索库中检索到的最高句子相似度的值以及混合模型选择的回复如下表2所示。

表2句子命中及模型选择结果

在表1中，序号1与序号6的问题是同义句，序号2与序号7的问题是同义句，如此类推。综合表1与表2的信息可以发现，混合模型对于类似问题具有较好的前后一致性，且从混合模型中两种子模型的对比中可以发现，相比于基线模型，混合模型给出的回复更加符合问题所谈论的语境。

2、对话生成的个性化效果分析

本发明的个性化效果验证实验找到了10名志愿者为混合模型的对话生成效果进行评价，在实验之前每名志愿者都被告知，其将与两个聊天机器人分别进行对话，聊天机器人将试图模仿笔者本人，实验过程就是志愿者与聊天机器人进行对话并评价该聊天机器人是否跟笔者的个性相像。实验中与志愿者对话的两个聊天机器人分别采用了普通的基线模型以及本发明实现的混合模型，评价范围分别是完全不像、有一点像、比较像、非常像。

经过每位志愿者与***进行适当的对话之后，获得了志愿者的评价如表3所示。

表3志愿者评价分布表

让四个评价等级分别对应25、50、75、100分，计算可得两种模型对应的平均得分如表 4所示

表4两种模型得分表

由上述表格数据可以发现，相比于基线模型，本发明所构建的混合模型得到了志愿者们更多的认可，大家普遍认为该模型能够在一定程度上体现笔者本人的个性。为进一步探究个性化模型对于个性的刻画能力，本发明分析了10名志愿者所有与混合模型进行的对话在检索库中的命中率，结果如表5所示。

表5命中率分析表

由表中数据可以发现，命中率较低的志愿者对应给出的评价也较低，命中率较高的志愿者对应的评价则较高，由此我们得出结论，个性化模型拥有一定程度上的对用户个性的刻画能力，当然，表中也有例外的数据，这与志愿者提出的问题有很大关系。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。