CN112131861A

CN112131861A - 基于层次化多头交互注意力的对话状态生成方法

Info

Publication number: CN112131861A
Application number: CN202011341577.0A
Authority: CN
Inventors: 周玉; 李梅; 向露; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2020-12-25
Anticipated expiration: 2040-11-25
Also published as: CN112131861B

Abstract

本发明属于任务型对话技术领域，具体涉及了一种基于层次化多头交互注意力的对话状态生成方法，旨在解决现有技术精度和准确度低以及成本高、效率低的问题。本发明包括：基于文本词典进行对话文本预处理；通过编码器进行各句子的独立编码，获得对话文本的上下文表示；对解码器输入应用自我注意力机制，获得当前时刻的解码器输入向量；应用多头交互式注意力机制，融合字级别和句子级别的上下文表示，获得对话文本当前时刻的上下文向量表示；结合当前时刻的解码器输入向量，通过非线性映射获得实体和状态作为对话文本的对话状态。本发明可以在无字级别标注信息的情况下取得非常好的效果，不仅节约了数据标注的成本，也提高了模型的精确性与精度。

Description

基于层次化多头交互注意力的对话状态生成方法

技术领域

本发明属于任务型对话技术领域，具体涉及了一种基于层次化多头交互注意力的对话状态生成方法。

背景技术

任务型对话***是在某一特定领域，通过自然语言交互的形式，辅助用户完成某种特定任务的人机交互***。目前任务型对话***在各个垂直领域中都有很大的需求，尤其医疗领域。在医疗对话***中，对用户对话文本的分析和理解是构建医疗对话***的第一步。首先需要识别出用户文本以及对话历史中出现的症状、检查、药物等疾病相关的实体，然后推断出这些实体的状态信息。

在医疗对话文本中，语法结构不规范，口语化严重的现象普遍存在。同一种症状或检查会有各种不同的口语化的表述形式或习惯性的缩写形式。甚至，有些实体知识是隐含在一段对话中的，需要对一部分对话进行推断才能判断实体类型。因此在医疗领域的对话理解模块中不可或缺的一步是进行实体归一化操作，将口语化不规范的文本转化为医疗领域专业的实体文本。传统实体识别的方法是基于序列标注的方法，需要先识别出文本中的实体，然后再进行归一化处理。这种两阶段式的方法会有错误的累积，并且序列标注的方法需要字级别的标注信息，耗时耗力，另外在对话中，还存在大量冗余的与疾病无关的信息。此外，这种标注方式不能处理隐式的实体类型。

为了避免两阶段带来的累积错误的问题，现有技术也提出了端到端生成的医疗对话文本的实体归一化方法，可以直接根据对话历史文本生成归一化后的实体和状态，避免了中间的错误累积和过程。然而这些现有技术将上下文看作一段文本，而忽略了对话文本信息具有多轮交互性的最大的特点，因而医疗对话文本的实体归一化结果的精度和准确度还达不到预期，并且很多实体归一化方法也需要提供字级别标注信息，成本高、效率低。

发明内容

为了解决现有技术中的上述问题，即现有端到端方法忽略了对话文本信息具有多轮交互性的特点，对话状态生成的精度和准确度低以及对文字级别标注信息依赖较大，从而成本高、效率低的问题，本发明提供了一种基于层次化多头交互注意力的对话状态生成方法，该方法包括：

步骤S10，基于文本词典对获取的待处理对话文本进行预处理，获得待处理对话文本对应的词向量；所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系；

步骤S20，基于所述待处理对话文本对应的词向量，通过编码器进行各个句子的独立编码，获得待处理对话文本的上下文表示；

以解码器上一时刻输出作为当前时刻输入，并通过自注意力机制编码当前时刻输入的历史向量化表示，将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量；所述解码器，其第0时刻的输入为设定字符；

步骤S30，基于待处理对话文本的上下文表示和当前时刻的解码器输入向量，通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示，获取待处理对话文本当前时刻的上下文向量表示；

步骤S40，基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量，进行非线性映射获得实体和状态作为待处理对话文本的对话状态；

其中，所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。

在一些优选的实施例中，所述待处理对话文本的上下文表示，其计算方法为：

其中，

表示编码器的层归一化模块，

表示编码器的前馈网络，

是编码器的多头自注意力机制，

和

分别代表待处理对话文本

中第

个句子在编码器的第

层和第

网络的输出；所述待处理对话文本

中所有句子在编码器的最后一层的输出构成待处理对话文本的上下文表示。

在一些优选的实施例中，所述历史向量化表示，其计算方法为：

其中，

表示解码器的层归一化模块，

表示解码器的前馈网络，

是解码器的多头自注意力机制，

和

分别代表解码器的历史输入在当前时刻解码器的第

层和第

网络的输出。

在一些优选的实施例中，步骤S30包括：

步骤S31，将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列，并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算，获得待处理对话文本的多头注意力权重；

步骤S32，基于所述多头注意力权重以及拼接序列，获得待处理对话文本的字级别上下文表示；基于所述多头注意力权重，分别在句子内计算加权的句子向量，获得句子的加权向量化表示；

步骤S33，基于所述句子的加权向量化表示，在多头内进行自我注意力机制的计算，获得待处理对话文本的句子级别的上下文表示；

步骤S34，进行待处理对话文本的字级别和句子级别的上下文表示的融合，并对融合后的上下文进行层归一化和线性化，获得待处理对话文本当前时刻的上下文向量表示。

在一些优选的实施例中，步骤S31中进行拼接序列的多头注意力权重的计算，其方法为：

其中，

表示在

时刻的第

个头的注意力权重，

为解码器经过自注意力机制后得到的向量化表示，

表示拼接的文本序列的向量，

表示第

个头内向量的维度，

是稀疏归一化函数，

和

为可训练的参数，

和

分别表示第

个头的query矩阵和key矩阵。

在一些优选的实施例中，步骤S32中基于所述多头注意力权重以及拼接序列，获得待处理对话文本的字级别上下文表示，其方法为：

其中，

表示第

个头的value矩阵表示，

表示第

个头的加权的值表示，

代表拼接操作，

是将多个头的表示连接在一起的经过线性映射获得的待处理对话文本的字级别上下文表示，

和

为可训练的参数。

在一些优选的实施例中，步骤S32中基于所述多头注意力权重，分别在句子内计算加权的句子向量，获得句子的加权向量化表示，其方法为：

其中，

为第

个头中第

个句子的加权表示，

为对话文本每个句子中字的个数，

表示对话文本的第

个句子的第

个字的权重，

表示线性映射的参数。

在一些优选的实施例中，步骤S33中基于所述句子的加权向量化表示，在多头内进行自我注意力机制的计算，获得待处理对话文本的句子级别的上下文表示，其方法为：

其中，

表示自注意力机制，

为句子的个数，

是最大化池化机制，

为可训练的参数，

为获取的待处理对话文本的句子级别的上下文表示。

在一些优选的实施例中，步骤S34中进行待处理对话文本的字级别和句子级别的上下文表示的融合，其方法为：

其中，

为融合后的上下文，

代表待处理对话文本的字级别上下文表示，

代表待处理对话文本的句子级别上下文表示，

为超参数。

在一些优选的实施例中，步骤S34中对融合后的上下文进行层归一化和线性化，获得待处理对话文本的上下文向量表示，其方法为：

其中，

代表待处理对话文本的上下文向量表示，

为融合后的上下文，

为解码器自注意力机制之后的输出。

本发明的有益效果：

（1）本发明基于层次化多头交互注意力的对话状态生成方法，通过层次化多头交互式注意力机制充分利用了对话文本信息的多轮交互性的特点，通过端到端的方法直接根据对话文本生成归一化后的实体，避免了现有技术两阶段式的方法可能带来的累积误差，医疗实体和状态生成的准确度和精度高。

（2）本发明基于层次化多头交互注意力的对话状态生成方法，只需少量的标注信息，无需提供字级别标注信息，就可以生成准确的实体状态信息，从而提升了模型训练和应用的效率，并且进一步降低了成本和资源的占用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的网络结构示意图；

图2是基于层次化多头交互注意力的对话状态生成方法一种实施例的样例数据、字级别及轮次级别的注意力机制的可视化图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于层次化多头交互注意力的对话状态生成方法，采用端到端的生成式方法，直接根据对话历史文本生成归一化之后的实体，避免了中间的错误累积的过程。并且，通过层次化的多头交互式注意力机制来获取基于对话交互的相关的上下文信息，从而为实体的生成和状态的推断找到可靠的背景依据，避开了传统端到端生成的方法将上下文看作一段文本，而忽略对话文本最大的特点是信息具有多轮交互性的问题。

医疗任务型对话中，医疗对话文本的口语化、不规范以及信息冗余的特点，导致传统基于序列标注的实体识别方法需要再经过归一化处理的操作得到最终的实体识别的结果，且对于实体状态的推断需要单独的模型来处理。这种两阶段式的方法不仅需要更多的标注信息，且容易误差累积。本发明基于层次化多头交互注意力的对话状态生成方法，根据医疗对话文本的对话片段，直接端到端的生成对话片段中所包含的所有实体及其对应的状态信息，并且针对多轮对话的信息交互的特点，通过层次化的多头交互式注意力机制在每个生成时刻都去捕获基于当前时刻的字级别以及轮次级别的上下文信息，来共同判断当前时刻的文本，避免了字级别的标注信息以及错误累积，可以生成更准确的实体状态信息，成本低、效率高。

本发明的一种基于层次化多头交互注意力的对话状态生成方法，该方法包括：

为了更清晰地对本发明基于层次化多头交互注意力的对话状态生成方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于层次化多头交互注意力的对话状态生成方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，基于文本词典对获取的待处理对话文本进行预处理，获得待处理对话文本对应的词向量；所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系。

在基于层次化多头交互注意力的对话状态生成方法的训练过程中，词典包括文本词典和标签词典。文本词典即统计获取的文本中不重复的字/词形成的列表，列表中每一个字/词对应一个唯一的id，通过id可以获取对应的字/词，也可以通过字/词获取对应的id。标签词典即统计获取的标签中不重复的字/词形成的列表，同样地，列表中每一个字/词对应一个唯一的id，通过id可以获取对应的字/词，也可以通过字/词获取对应的id。标签词典对应了对话文本生成的对话状态的实体和状态。

对话文本如果有不同轮次的对话，可以将其划分为各个对话片段，其中每相邻

轮对话记作

，

包含了连续

轮对话，其中包括用户提问和相应的回复，即对话上下文，如式（1）所示：

步骤S20，基于所述待处理对话文本对应的词向量，通过编码器进行各个句子的独立编码，获得待处理对话文本的上下文表示。

通过编码器将对话文本编码为向量表示，其中，对话文本中的各个句子独立编码，每个单词都有其独立的编码表示，将编码器输出表示作为待处理对话文本表示；在解码器端，以解码器上一时刻的输出作为当前时刻的输入（0时刻输入特定字符）通过自注意力机制编码当前时刻输入历史的向量化表示，将当前时刻输入与历史编码向量相加作为解码器输入向量。

对于

中任意一个句子

，采用一个多层的基于Transformer的神经网络结构构建的编码器，对每个时刻的句子进行独立编码，如式（2）和（3）所示：

其中，

表示编码器的层归一化模块，

表示编码器的前馈网络，

是编码器的多头自注意力机制，

和

分别代表待处理对话文本

中第

个句子在编码器的第

层和第

网络的输出；所述待处理对话文本

以解码器上一时刻输出作为当前时刻输入，并通过自注意力机制编码当前时刻输入的历史向量化表示，将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量；所述解码器，其第0时刻的输入为设定字符。

解码器的结构与编码器一样，也是一个多层的基于Transformer的神经网络结构，在基于层次化多头交互注意力的对话状态生成方法的训练过程中，解码器的第一层网络输入为对话文本对应的标注信息，其他层的输入为上一层的输出；而在测试和应用过程中，解码器的第一层网络输入为设定字符，其他层的输入为上一层的输出。

历史向量化表示，其计算方法如式（4）和式（5）所示：

其中，

表示解码器的层归一化模块，

表示解码器的前馈网络，

是解码器的多头自注意力机制，

和

分别代表解码器的历史输入在当前时刻解码器的第

层和第

网络的输出（0层为当前时刻解码器输入历史的词向量）。

步骤S30，基于待处理对话文本的上下文表示和当前时刻的解码器输入向量，通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示，获取待处理对话文本当前时刻的上下文向量表示。

步骤S31，将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列，并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算，获得待处理对话文本的多头注意力权重，如式（6）-式（8）所示：

其中，

表示在

时刻的第

个头的注意力权重，

为解码器经过自注意力机制后得到的向量化表示，

表示拼接的文本序列的向量，

表示第

个头内向量的维度，

是稀疏归一化函数，

和

为可训练的参数，

和

分别表示第

个头的query矩阵和key矩阵。

步骤S32，基于所述多头注意力权重以及拼接序列，获得待处理对话文本的字级别上下文表示；基于所述多头注意力权重，分别在句子内计算加权的句子向量，获得句子的加权向量化表示。

基于所述多头注意力权重以及拼接序列，获得待处理对话文本的字级别上下文表示，如式（9）-式（11）所示：

其中，

表示第

个头的value矩阵表示，

表示第

个头的加权的值表示，

代表拼接操作，

和

为可训练的参数。

基于所述多头注意力权重，分别在句子内计算加权的句子向量，获得句子的加权向量化表示，如式（12）所示：

其中，

为第

个头中第

个句子的加权表示，

为对话文本每个句子中字的个数，

表示对话文本的第

个句子的第

个字的权重，

表示线性映射的参数。

步骤S33，基于所述句子的加权向量化表示，在多头内进行自我注意力机制的计算，获得待处理对话文本的句子级别的上下文表示，如式（13）-式（16）所示：

其中，

表示自注意力机制,

为句子的个数，

是最大化池化机制，

为可训练的参数，

为获取的待处理对话文本的句子级别的上下文表示。

进行待处理对话文本的字级别和句子级别的上下文表示的融合，如式（17）所示：

其中，

为融合后的上下文，

代表待处理对话文本的字级别上下文表示，

代表待处理对话文本的句子级别上下文表示，

为超参数。

对融合后的上下文进行层归一化和线性化，获得待处理对话文本的上下文向量表示，如式（18）所示：

其中，

代表待处理对话文本的上下文向量表示，

为融合后的上下文，

为解码器自注意力机制之后的输出。

步骤S40，基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量，进行非线性映射获得实体和状态作为待处理对话文本的对话状态。

为了验证本发明方法，选用两个开放的高质量的数据集Chunyu和CMDD作为测试数据集，Chunyu和CMDD数据集都是从国内医疗平台爬取的医疗对话数据。Chunyu数据集实体类别包括症状、检查、手术以及一般信息，状态包括医生阳性、医生阴性、阴性、阳性和未知5个类别。CMDD数据的标注相对较简单，实体类别只有症状，状态只有阴性、阳性和未知。

实验选用基于匹配的MIE模型、基于两阶段法的SA-T模型、传统端到端Transformer模型和基于层次化注意力机制的Transformer模型与本发明方法进行对比，表1和表2分别为几个模型在Chunyu和CMDD数据集上的测试结果：

表1

表2

从表1和表2中可以看出：（1）本发明的方法在两个数据集中的效果都要好于基线***；（2）相比较于基于匹配的模型MIE来说，本发明的方法有更高的召回率，相比较于两阶段法的SA-T模型来说，本发明的方法有更高的精确度；（3）相比较于传统端到端Transformer模型，本发明的方法效果更好，因为本发明的方法充分考虑到对话中信息交互的特点。Hier-Transformer模型是层次化的注意力机制但没有多头交互的模块，与该模型对比，进一步验证了本发明的多头交互的注意力机制的有效性。

如表3所述，为本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的样例数据、字级别的可视化图表：

表3

表3中的时刻是针对已生成的症状“感冒”生成其对应状态的时刻，黑色加粗斜体是字级别的注意力机制的权重的top5个权重所对应的词，可见根据注意力所关注到的信息可以很好的推断出感冒的状态是阴性，Turn-0、Turn-1、Turn-2、Turn-3和Turn-4分别代表对话轮次的序号。

如图2所示，为本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的轮次级别的注意力机制的可视化图，对应于表3中的Turn-0、Turn-1、Turn-2、Turn-3和Turn-4的对话轮次，图中可视化了轮次级别注意力权重，从图中可以看出本发明的方法可以很好的注意到关键信息的句子和单词。

本发明第二实施例的基于层次化多头交互注意力的对话状态生成***，基于上述的基于层次化多头交互注意力的对话状态生成方法，该***包括以下模块：

预处理模块，基于文本词典对获取的待处理对话文本进行预处理，获得待处理对话文本对应的词向量；所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系；

编码模块，基于所述待处理对话文本对应的词向量，通过编码器进行各个句子的独立编码，获得待处理对话文本的上下文表示；

解码模块，以解码器上一时刻输出作为当前时刻输入，并通过自注意力机制编码当前时刻输入的历史向量化表示，将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量；所述解码器，其第0时刻的输入为设定字符；

多头注意力模块，基于待处理对话文本的上下文表示和当前时刻的解码器输入向量，通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示，获取待处理对话文本当前时刻的上下文向量表示；

映射模块，基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量，进行非线性映射获得实体和状态作为待处理对话文本的对话状态；

输出模块，将获取的待处理对话文本的对话状态输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于层次化多头交互注意力的医疗实体和状态生成***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于层次化多头交互注意力的对话状态生成方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于层次化多头交互注意力的对话状态生成方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、 “第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。