CN113220856A

CN113220856A - 一种基于中文预训练模型的多轮对话***

Info

Publication number: CN113220856A
Application number: CN202110588492.0A
Authority: CN
Inventors: 孙迎超; 陈世展; 冯志勇; 薛霄; 吴洪越
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-06

Abstract

本发明涉及一种基于中文预训练模型的多轮对话***，包括：数据处理模块；检索模块，利用向量内积相似度检索问答数据集；生成模块，改进中文预训练模型NEZHA预训练模型，使其能够用于生成任务；压缩模块，利用可替换策略对生成模块的NEZHA模型进行知识蒸馏；对话管理模块，用于管理高频用户问题。

Description

一种基于中文预训练模型的多轮对话***

技术领域

本发明属于智能对话领域，主要涉及一种基于中文预训练模型的多轮对话***。

背景技术

随着深度学习技术以及网络技术的快速发展，数据驱动模型也越来越流行。构建一个类人对话代理被认为是人工智能中最具挑战性的任务之一。对于特定任务的对话***，可以看作是一个连续的决策过程。它依赖大量的信息来使对话继续下去，如对话上下文、意图、外部知识、常识、情绪、参与者的背景和人物角色等。所有这些都可能对对话中的响应产生影响，这些不确定性使对话变得极为艰巨。

此外，随着计算机算力的提高，日常生活中产生了大量的真实会话数据，一些大型预训练神经网络模型(如NEZHA等)取得了很大的进展，在此基础上的很多自然语言理解类的任务甚至超过了人类水平。然而，目前直接基于中文预训练神经网络打造任务型多轮对话类的工作相对较少，并且对话质量和多样性有待提高。

对于特定场景(如电商平台)的对话***，往往聚焦于其领域内的对话数据，虽然能够解决高频的用户问题，然而，因其对话数据的局限性针对一些长尾型问题却缺乏泛化以及语义理解能力。尽管端到端模型已经成为当前研究的热点，但在实际对话***中，特别是在一个新的领域的预热阶段，我们仍然需要依赖传统的流水线式对话***。

检索式和生成式对话***的实现原理不同，也有着各自的优缺点。检索式对话可以提供更流畅和相关的答复，生成式对话则能够建模更复杂的上下文语义(比如，用户情感)。因此，本发明探索检索式和生成式方法相结合的策略来寻求更好的对话***性能。

参考文献：

[1]ScaNN向量检索工具:

https://github.com/***-research/***-research/tree/master/scann

[2]Wei J,Ren X,Li X,et al.NEZHA:Neural contextualized representationfor chinese language understanding[J].arXiv preprint arXiv:1909.00204,2019.

[3]Guo R,Sun P,Lindgren E,et al.Accelerating large-scale inferencewith anisotropic vector quantization[C].In International Conference onMachine Learning,2020:3887–3896.

[4]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural InformationProcessing Systems.2017:6000-6010.

发明内容

本发明的目的是提供一种基于中文预训练模型的多轮对话***，采用如下的技术方案：

一种基于中文预训练模型的多轮对话***，包括：

数据处理模块，用于将对话数据通过适当的方法对对话数据进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库，构建句向量索引数据库具体过程如下，

第一步，使用Jieba中文分词工具对用户问题进行分词；

第二步，加载开源的中文词向量，将分词后的用户问题映射成多个词向量；

第三步，将多个词向量加权求和取平均转化成句向量，构建用户问题句向量索引数据库；

检索模块，利用向量内积相似度检索问答数据集，具体过程如下，

第一步，将用户输入问题利用Jieba中文分词工具进行分词；

第二步，将分词后的用户问题输入到FastText文本分类模型中进行用户意图识别，判断该问题是否属于闲聊；

第三步，如果该问题属于闲聊，就把它最近两轮的历史对话问题添加到后面作为用户问题；

第四步，将用户问题转化成句向量，与数据处理模块构建的句向量索引数据库利用ScaNN向量检索工具进行向量内积相似度计算；

第五步，得到相似度得分最高的问题对应的多个候选答复；

第六步，将问题和多个候选答复输入到中文预训练语言模型NEZHA中进行重排序得到最高得分对应的答复；

生成模块，改进中文预训练模型NEZHA预训练模型，使其能够用于生成任务，具体过程如下，

第一步，将数据处理模块得到的问答数据集载入生成模块中，并加载中文预训练模型NEZHA的预训练权重，用来训练针对问答数据的生成模型；

第二步，将问答数据中不同角色，如用户说的话记为全0，客服说的话记为全1，作为段落嵌入；

第三步，根据第二步的段落嵌入，得到问答数据的长度m，然后构造行和列均为m的自注意力矩阵；

第四步，将第三步的自注意力矩阵上三角部分设为-∞，矩阵其它位置元素设为0作为输入的问答对的注意力矩阵；

第五步，将嵌入后的序列输入到12层的Transformer网络中进行训练；

第六步，使用topK随机解码生成10个候选答复；

压缩模块，利用可替换策略对生成模块的NEZHA模型进行知识蒸馏，具体过程如下，

第一步，输入数据处理模块得到的问答数据集，并加载生成模块微调好的NEZHA模型权重，记为前辈层；

第二步，设定继承者层替换前辈层的概率rr＝0.5，把前辈层的层数压缩为原来的一半；

第三步，使用数据处理模块构建的问答对继续训练，然后使用压缩后的继承者层生成候选答复；

对话管理模块，用于管理高频用户问题。

本发明提供了一种基于中文预训练模型的检索与生成相结合，并辅以任务模板的电商客服对话***。将当前先进的预训练模型与对话***相结合，并且为了提升用户满意度，将知识蒸馏应用在生成模型中，优化了预训练模型的推理效率，使得***在答复生成质量和运行效率方面均达到不错的表现。本发明为多轮对话***与当前先进的中文预训练语言模型相结合开拓了新的思路，为提高对话***答复生成质量和效率做出了贡献。

附图说明

图1是多轮对话***框架图；

图2是检索模块示意图；

图3是预训练模型基本组成Transformer编码器图；

图4是生成模块示意图；

具体实施方式

下面结合实验过程及实验结果对本发明做进一步详细地描述和证明。

本发明设计了一种基于中文预训练模型的多轮对话***。所述的***包括：数据处理模块，检索模块，生成模块，压缩模块和对话管理模块。本发明将当前先进的预训练模型与对话***相结合，并且为了提升用户满意度，将知识蒸馏应用在生成模型中，优化了预训练模型的推理效率，使得***在答复生成质量和运行效率方面均达到不错的表现。图1给出了所提对话***的整体框架。具体技术方案要点分为以下五部分：

(1)数据处理模块

本专利所提方法首先将对话数据通过适当的方法对对话数据进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库。构建句向量索引数据库具体过程如下，

第一步，使用Jieba中文分词工具对用户问题进行分词，

第二步，加载开源的中文词向量，将分词后的用户问题映射成多个词向量，

第三步，将多个词向量加权求和取平均转化成句向量，构建用户问题句向量索引数据库。

(2)检索模块

检索模块主要利用向量内积相似度检索问答数据，图2给出了检索模块的主要流程图，具体过程如下，

第一步，将用户输入问题利用Jieba中文分词工具进行分词，

第二步，将分词后的用户问题输入到FastText文本分类模型中进行用户意图识别，判断该问题是否属于闲聊，

第三步，如果该问题属于闲聊，就把它最近两轮的历史对话问题添加到后面作为用户问题

第四步，将用户问题转化成句向量，与数据处理模块构建的句向量索引数据库利用ScaNN[1,3]向量检索工具进行近邻相似度计算

第五步，得到相似度得分最高的问题对应的10个候选答复

第六步，将问题和10个候选答复输入到中文预训练语言模型NEZHA[2]中进行重排序得到最高得分对应的答复

(3)生成模块

对于生成模块，我们改进了中文预训练模型NEZHA预训练模型的改进使其能够用于生成任务。图3展示了NEZHA编码器的基本组成即Transformer[4]模块。如图4所示，NEZHA正是由12层Transformer所构成，具体过程如下，

第一步，将数据处理模块得到的问答数据集载入生成模块中，并加载中文预训练模型NEZHA的预训练权重，用来训练针对问答数据的生成模型。

第二步，将问答数据中不同角色，如用户说的话记为全0，客服说的话记为全1，作为段落嵌入(Segment Embedding)。

第三步，根据第二步的段落嵌入，得到问答数据的长度m，然后构造行和列均为m的自注意力矩阵。

第四步，将第三步的自注意力矩阵上三角部分设为-∞，矩阵其它位置元素设为0作为输入的问答对的注意力矩阵。

第五步，将嵌入后的序列输入到12层的Transformer网络中进行训练。

第六步，使用topK随机解码生成10个候选答复

(4)压缩模块

我们采用可替换策略对生成模块的NEZHA模型进行知识蒸馏。具体过程如下，

第一步，输入数据处理模块得到的问答数据集，并加载生成模块微调好的NEZHA模型权重，记为前辈层。

第二步，设定继承者层(Suc layer)替换前辈层的概率rr＝0.5，把前辈层的层数压缩为原来的一半。

第三步，使用数据处理模块构建的问答对继续训练，然后使用压缩后的继承者层生成候选答复。

(5)对话管理模块

数据处理模块构建的问答数据集中一些高频用户问题(比如退换货、订单修改和价格保护等)，这些问题应该有相应的流程化的答复来处理。如图1所示，我们整理了这些问题并增加了任务对话模块。具体过程如下，

第一步，***对用户输入问题进行预处理后，首先输入到任务模块进行任务匹配，如果匹配到响应任务，直接返回预定义模板对应的答复

第二步，如果没有匹配到预先定义的任务模板，会去执行后面的检索模块。

第三步，如果检索模块得到的候选答复中的语义匹配得分大于设定的阈值0.5，则表示检索成功，返回得分最高的候选答复。

第四步，如果检索模块候选答复得分小于阈值0.5，则执行生成模块，将生成候选和检索候选一同进行重排序，返回得分最高的答复。

选取原始数据集中对话session大于2轮的对话，且选取其中的三轮用于训练模型。另外，我们过滤掉了一些答复字数小于4的session，因为它们往往是通用的答复。数据划分情况如表1所示。

表1实验数据库划分及其基本情况

如表2所示，我们对前述各个组件从前述的5个指标进行了详细的实验，并分别对比了当前主流的模型在构造的数据集上的表现。表中c_a是copy with attention的缩写，即在seq2seq中引入注意力和拷贝机制，l2r表示前面提到NEZHA作为生成模型的注意力掩码方案，而t_l则表示生成模型的知识蒸馏。

表2各模块模型对比结果

相比于传统的模型，我们的模型在单个组件以及整体上都有不错的效果，这也表明了我们设计的***框架的有效性。

尽管上述文字结合图表对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于中文预训练模型的多轮对话***，包括：

第一步，使用Jieba中文分词工具对用户问题进行分词；

第一步，将用户输入问题利用Jieba中文分词工具进行分词；

第五步，得到相似度得分最高的问题对应的多个候选答复；

第六步，使用topK随机解码生成候选答复；

对话管理模块，用于管理高频用户问题。