CN116245114B

CN116245114B - 一种基于对话状态指导的端到端任务型对话***

Info

Publication number: CN116245114B
Application number: CN202211470721.XA
Authority: CN
Inventors: 方明弘; 万里
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-09-12
Anticipated expiration: 2042-11-23
Also published as: CN116245114A

Abstract

本发明提出了一种基于对话状态指导的端到端任务型对话***，包括：信息存储结构：用于存储对话内容和与对话相关的知识库信息；层次型编码器：对对话进行编码，获得对话内容的语义表示；对话状态***：用于根据对话内容获得对话状态向量，并根据对话状态向量对信息存储结构的知识库信息进行检索；复制增强解码器：用于将信息存储结构中的知识融入到生成的回复中，得到最终回复。本发明将对话状态跟踪模块与Seq2Seq模型结合，采用一组可学习的向量表示对话状态，向量组表示的对话状态不破坏***端到端可学习的特性。

Description

一种基于对话状态指导的端到端任务型对话***

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于对话状态指导的端到端任务型对话***。

背景技术

流水线式任务型对话***一般由自然语言理解、对话状态跟踪、对话决策、自然语言生成四大模块构成，分别实现意图识别、槽位填充、策略学习、回复生成等工作。每个模块需要单独训练，并且都需要大量特定格式的人工标注数据，模块的输出会作为下一模块的输入，最后由自然语言模块生成最终的回复。对话状态跟踪模块是流水线式任务型对话***中很重要的一部分，它的任务是跟踪隐藏在对话内容中的对话状态，有效的对话状态跟踪模块可以辅助***检索外部知识库。流水线式任务型对话方法使用多个槽-值对来表示对话状态，指导后续模块发起API进行外部知识库检索。但这种对话状态跟踪组件需要特定的数据和单独训练，难以用于端到端的***中。基于Seq2Seq的端到端任务型对话方法将对话视为从对话内容到回复的映射问题，这种方法虽然结构简单但难以将外部知识融入到回复生成过程中。Seq2Seq模型的编码器在编码时将多轮对话拼接成一个词序列作为编码器的输入，忽略了对话的多轮结构信息。模型在解码过程中只考虑将外部知识库信息融入生成的回复中，然而对话内容通常也会包含一定的知识，这一部分信息对解码器的解码过程同样十分重要。此外，对话状态指导为解决OOV问题，将对话历史和知识库中的所有词汇引入词汇表，解码时词源选择也是一个棘手的问题。

因此当前对话状态指导的端到端任务型对话方法主要存在以下挑战：①端到端模型无法显示检索外部知识库，所以外部知识难以有效地融入生成的回复中。②编码器忽略了对话的多轮结构信息。③对话状态指导的任务型对话***在解码过程中没有充分利用对话内容中的知识信息。④解码器在生成过程中难以从多个词源中进行选择。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于对话状态指导的端到端任务型对话***。

为了实现本发明的上述目的，本发明提供了一种基于对话状态指导的端到端任务型对话***，包括：

信息存储结构：用于存储对话内容和与对话相关的知识库信息；

层次型编码器：对对话进行编码，获得对话内容的语义表示；

对话状态***：用于根据对话内容获得对话状态向量，并根据对话状态向量对信息存储结构的知识库信息进行检索；

复制增强解码器：用于将信息存储结构中的知识融入到生成的回复中，得到最终回复。

进一步地，所述信息存储结构包括：

知识存储模块，用于存储与对话相关的结构化知识，每一行存储着知识库中某个主题结点相关的所有属性信息；

对话内容存储模块，用于存储对话内容，所述对话内容包括对话中的每个词，以及该词对应的所属者、时间信息、位置信息中的之一或者任意组合。

进一步地，所述知识存储模块的每个单元为知识库中的每个词，可表示为：

其中，w_i,j表示存储结构中第i行j列存储的词；

a_j表示w_i,j对应的属性名即第j列的列名；

对话内容存储模块中每个存储单元为对话内容存储模块中的每一行，表示为：

其中，J表示存储单元的总个数；

Emb(·)表示使用一个嵌入矩阵进行编码。

进一步地，所述层次型编码器包括若干层：

第一层是句子级编码器，负责对单个句子进行编码并提取句子级语义：

其中w_m表示句子中的m步的某个词，通过一个嵌入函数变成嵌入向量；

是句子级编码器上一时刻的隐藏层状态向量；

Φ^emd(·)表示嵌入函数；

表示/>通过GRU模型得到句子级编码器m时刻的隐藏层状态向量；

句子级编码器在结束时间步M时刻的输出将作为句子s_n的语义表示，将其表示为e_{s_n}：

第二层是对话级编码器，负责对整个对话进行编码，获取整个对话过程的语义表示：

表示对话级编码器上一时刻的隐藏状态；

对话级编码器在最后一个时间步N的向量输出是整个对话的语义表示。

进一步地，所述对话状态***的输入为层次型编码器中句子级编码器生成的隐藏向量序列其中L表示整个对话序列的长度，即对话包含的词汇数量，/>是由句子级编码器生成的位于对话过程中第l个词汇的向量表示；这样可以最大限度地保留对话中词汇的原始词义。

通过计算槽位与对话历史中每个词的注意力来获取槽值的概率分布，然后通过一个softmax层对该概率分布进行归一化：

其中，表示第j个槽位的槽值在整个对话历史上的概率分布；

u_j表示第j个可学习的槽位信息矩阵；

softmax()表示softmax函数；

再通过计算对应槽位下各序列的加权和来获得每个槽位对应的槽值表示：

表示表示第j个槽位取对话历史中第l个词为槽值的概率；

是由句子级编码器生成的位于对话过程中第l个词汇的向量表示；

得到所述对话状态向量，其中向量的个数等于对话包含的槽位个数，也是知识库中每条信息的属性个数。

通过所述对话状态***能让外部知识有效地融入生成的回复中。

进一步地，所述根据对话状态向量对信息存储结构的知识库信息进行检索包括：

首先通过公式(8)计算知识库中各属性值被对应状态向量选中的概率，然后通过求和操作计算各知识行与当前对话相关的概率：

v_j表示第j个对话状态；

然后将知识库中所有行的概率分布通过一个激活函数进行转换，转换后概率分布的值越接近1越表示该知识行与当前对话相关，否则越不相关；

最后，将知识存储模块中所有知识行的加权和整合成一个知识向量o：

其中，o表示与对话相关的知识库信息；

表示总行数；

表示知识库中第i行与当前对话相关的概率；

|S|是对话包含的槽位数量；

c_i,j表示第i行第j列的词的向量表示。

进一步地，所述复制增强解码器包括骨架解码器和实体解析器；

首先由一个骨架解码器从词汇表中进行预测目标，生成回复；

若骨架解码器在某一时刻生成了特定的实体标签，则由实体解析器从信息存储结构中复制相应的实体替代原有实体标签，得到最终回复。

通过将解码器与复制机制结合，在某些时刻直接从信息存储结构中复制相关词汇作为解码器的输出，即使出现未登录词OOV也可通过复制机制也可使其出现在生成的回复中。复制增强解码器考虑了对话的多轮结构信息，且任务型对话***在解码过程中能充分利用对话内容中的知识信息。

进一步地，基于所述***的方法包括以下步骤：

首先通过层次型编码器获得对话内容的语义表示，

然后对话状态***根据对话内容获得一组对话状态向量，并在对话状态***中根据对话状态向量对信息存储结构的知识库信息进行检索；

最后通过复制增强解码器将信息存储结构中的知识融入到骨架解码器生成的回复中，得到对话***最终的回复。

综上所述，由于采用了上述技术方案，本发明将对话状态跟踪模块与Seq2Seq模型结合，采用一组可学习的向量表示对话状态，向量组表示的对话状态不破坏***端到端可学习的特性。

此外，使用层次型编码器分别提取对话的句子级和对话级的语义信息；采用一个信息存储结构存储对话内容和知识库信息，使得解码器在解码时会将对话内容与知识库中的知识信息都融入到***回复中；以及采用一个复制增强的解码器进行词源选择，均能够有效提高端到端任务型对话***中回复的准确性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明DS2Seq的基本结构示意图。

图2是本发明一个对话的信息存储结构示意图。

图3是本发明层次型编码器的网络结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本专利提出了对话状态指导的端到端任务型对话***DS2Seq，其结构如图1所示，主要包含四个部分：信息存储结构、层次型编码器、对话状态***以及复制增强解码器。信息存储结构负责存储对话内容和结构化的知识库，首先通过层次型编码器获得对话内容的语义表示，然后对话状态***根据对话内容获得一组对话状态向量，并根据对话状态向量对信息存储结构的知识库信息进行检索。最后通过复制增强解码器将信息存储结构中的知识融入到生成的回复中。

所述信息存储结构如图2所示，采用图2中的信息存储结构存储对话内容和与对话相关的知识库信息，将对话历史与知识信息分别存储于两个子模块中。其中一个子模块为知识存储模块，负责存储与对话相关的结构化知识，如图2中上部分所示，每一行存储着知识库中某个主题结点相关的所有属性信息。另一个子模块为对话内容存储模块，负责存储对话内容，主要包括对话中的每个词，以及该词对应的所属者、时间信息、位置信息，如图2中下部分所示。信息存储结构使用一个嵌入矩阵Emb来对对话内容和知识信息中的所有词进行编码并生成每个词的词向量表示。知识存储模块的每个单元为知识库中的每个词，可表示为：

其中，w_i,j表示存储结构中第i行j列存储的词，a_j表示w_i,j对应的属性名即第j列的列名。对话内容存储模块中每个存储单元为对话内容存储模块中的每一行，表示为：

在Seq2Seq模型中，编码器的任务是进行语义抽取，大多数编码器将多轮对话整合成一个对话序列作为编码器的输入，通过单个GRU或LSTM进行语义抽取。虽然这些网络在许多序列化结构的问题中取得了不错的结果，但多轮对话通常具有复杂的序列内依赖关系和层次结构。自然语言对话通常是两个对象之间的多轮对话过程，至少包含两个层次结构。其中一个是句子级结构，表示对象在对话的某个轮次中表达的语义信息。另一个是对话级结构，对话一般是多轮的，这个结构包含整个对话从开始到现在这个时刻表达的语义信息。因此，本发明将使用一种层次型的编码器来对整个对话进行编码，层次型编码器的结构如图3中所示。对于一个N轮的对话过程(s₁,s₂,…,s_2N-1)，奇数位的语句s表示用户的话语，偶数位的语句s表示***回复。并且s_n＝(w₁,w₂,…,w_M),每个w_m表示句子中的某个词，M为结束时间步。第一层是句子级编码器，负责对单个句子进行编码并提取句子级语义：

是句子级编码器上一时刻的隐藏层状态向量；

Φ^emd(·)表示嵌入函数；

流水线式任务型对话***的对话状态跟踪模块将先前的对话历史表示成对话状态，该对话状态由多个槽-值对构成。对话状态跟踪模块是流水线模型的核心组成部分，有助于帮助***从外部知识库中检索相关知识信息并生成准确的回复。为了将传统流水线模型中的对话跟踪组件引入端到端的任务型对话***中，本发明的对话状态***不采用槽-值对的结构显示表示对话状态，而是根据对话历史计算出一组隐藏向量表示对话状态，其中每个向量表示对应槽位的槽值信息，向量的个数等于对话包含的槽位个数，也是知识库中每条信息的属性个数。

本发明使用层次型编码器中句子级编码器生成的隐藏向量序列作为对话状态***的输入，这样可以最大限度地保留对话中词汇的原始词义。其中L表示整个对话序列的长度，即对话包含的词汇数量，/>是由句子级编码器生成的位于对话过程中第l个词汇的向量表示。由于槽值一般会出现在对话历史中，所以通过计算槽位与对话历史中每个词的注意力来获取槽值的概率分布，最后通过一个softmax层对该概率分布进行归一化：

其中，表示第j个槽位的槽值在整个对话历史上的概率分布。并且U＝[u₁,u₂,…,u_|S|]是一个可学习的槽位信息矩阵，其中|S|表示槽位的数量。然后可通过计算对应槽位下各序列的加权和来获得每个槽位对应的槽值表示：

其中，表示第j个槽位取对话历史中第l个词为槽值的概率，/>是由句子级编码器生成的位于对话过程中第l个词汇的向量表示，L表示整个对话历史词序列的长度，并且计算后的对话状态为V＝[v₁,v₂,…,v_|S|]。根据计算后的槽值即为对话状态向量组，可以对信息存储结构中的结构化知识存储模块进行检索和查询，通过对话状态向量与知识信息间的注意力实现***与外部知识库的交互。首先通过公式(8)计算知识库中各属性值被对应状态向量选中的概率，然后通过求和操作计算各知识行与当前对话相关的概率：

其中/>表示知识库中第i行与当前对话相关的概率，c_i,j表示第i行第j列的词的向量表示，v_j表示第j个对话状态。考虑到可能有多个知识行同时与该对话相关，知识库中所有行的概率分布p^dst将通过一个激活函数sigmoid对其进行转换，使p^dst的值处于[0,1]，值越接近1越表示该知识行与当前对话相关，否则越不相关。对于该概率分布，定义标签/>以辅助对话状态***的学习。定义该标签时认为若一个知识记忆行出现在真实回复中，则其与当前对话相关。并且若多个知识记忆行同时拥有相同的最多数量，则认为它们都与该对话相关，其中相关的行为1，不相关的行为0。然后使用二元交叉熵损失函数作为对话状态***的目标函数：

其中，/>是知识存储模块的总行数，/>表示第i个标签，/>表示知识库中第i行与当前对话相关的概率。最后，将知识存储模块中所有知识行的加权和整合成一个知识向量o，复制增强解码器完成回复生成工作：

其中，o表示与对话相关的知识库信息，/>表示总行数，表示知识库中第i行与当前对话相关的概率，|S|是对话包含的槽位数量，c_i,j表示第i行第j列的词的向量表示。

对话状态指导的任务型对话***选择GRU作为解码器的整体结构，完成最终的回复生成工作。非任务型对话***以最大化用户的参与度为目的，尽量增加用户与***的对话轮次。对于一个任务型对话***来说，它的使命是尽量在最短对话轮次内完成用户提出的任务，这些任务通常涉及到信息的告知。所以一个任务型对话***必须具有强大的实体生成能力，使产生的回复具有信息性。而相关实体通常出现在对话历史或者相关知识库中，本发明使用复制增强的解码器来解决此问题，将解码器与复制机制结合，在某些时刻直接从信息存储结构中复制相关词汇作为解码器的输出，即使出现未登录词OOV也可通过复制机制也可使其出现在生成的回复中。此外，解码器在生成过程中将在词汇表、知识库、对话过程的三个词源中进行选择，复制增强解码器采用骨架解码器联合实体解析器的结构来完成生成回复这个任务。首先由一个骨架解码器生成粗略回复，该解码器负责从词汇表预测目标输出。若骨架解码器在某一时刻生成了特定的实体标签，则由实体解析器从信息存储结构中复制相应的实体替代原有实体标签。

1.骨架解码器

与LSTM相比，GRU使用更少的参数，训练速度相对更快，所以本章选择GRU作为骨架解码器的基本结构。骨架解码器的输入包括两项内容：其一是对话级编码器生成的最后一个隐藏向量该向量包含了整个对话的语义信息；其二是根据对话状态跟踪模块查询到的相关知识库信息o。这两项内容可以作为解码器的上下文辅助其完成对话生成。首先将两个向量压缩成一个向量表示：

其中，W₁是一个可学习的线性矩阵，[·,·]表示拼接操作；压缩后的向量将作为骨架解码器的第一个时间步的隐藏向量骨架解码器的生成过程如下：

其中，GRU(·)表示门控单元循环神经网络，Φ^emd是一个嵌入函数，作用是获得解码器在上一时刻生成的词的词向量表示。/>表示在t时刻解码器生成词的向量表示，然后通过另一个线性矩阵W₂将其转换为该词在词汇表中的概率分布：

为了训练骨架解码器，将真实回复中的实体替换成知识库中的属性名作为标签供其学习。例如，骨架解码器将会生成回复“@poi is@distance away”，而不是生成“chef_chu_s is 5_miles away”。对于任务型对话***来说，实体类型是外部知识库中主题结点的各个属性，通常结点的属性数量固定且比较少，但属性值却十分庞大，先预测类型再根据类型解析具体的实体可以降低生成器的生成难度并提高其准确性。骨架解码器使用与真实回复的粗略表达/>之间的交叉熵损失作为学习目标：

其中表示真实回复在t时刻的粗略表达，/>表示真实回复在t时刻的粗略表达的概率,m表示生成词语的长度。

2.实体解析器

实体解析器的任务是将骨架解码器生成的特殊标签解析成信息存储结构中的具体实体。比如生成标签“@distance”时，需要将其替换成具体的实体“5_miles”。首先，根据当前时刻的解码器状态获取生成词在所有属性上的概率分布：

其中，φ^emb(a_j)是第j个属性名的向量表示。通过与φ^emb(a_j)之间的点积/>作为当前生成词所属第j个属性的概率。由于p^dst是计算了使用知识信息存储结构中所有知识行的概率分布，因此，当前时刻生成词在知识信息存储结构中的概率可以表示为：

其中,P^dst和P^attri,t分别是p^dst与p^attri,t扩展成大小后的矩阵。定义实体解析器在知识信息存储结构中的标签时，考虑记忆网络中第i行j列的实体w_i,j若满足w_i,j＝y_t，且满足/>则认为该位置的实体被选中：

其中,w_i,j表示第i行j列的实体，y_t表示t时刻的真实回复，表示知识库在第i行的标签，/>表示信息存储结构中知识库信息的行数，|S|表示列数，/>则指向知识库信息的结尾位置，表示要生成的词没有出现在该存储结构中。使用层次型编码器的对话级编码器结果/>计算对话内容信息存储结构中所有词被选中的概率分布/>

其中，/>为对话信息存储结构中第i个词的词向量表示，/>为对话历史中第i个词被选中的概率。定义实体解析器在对话信息存储结构中的标签为：其中，v_i,0表示第i行第0列的词语，/>表示对话记忆存储结构的行数，/>指向末尾位置。

实体解析器使用交叉熵损失函数作为学习的目标函数：

其中/>表示知识库在t时刻实体被选中；/>表示在t时刻知识库中个实体被选中的概率，/>表示对于对话记忆网络t时刻定义其标签，/>表示对话内容信息存储结构中所有词被选中的概率分布。

在生成具体的实体时，实体解析器将从知识存储模块与对话内容存储模块中选择概率最大的实体。DS2Seq通过最小化以下损失来训练整个模型，其中α，β，γ为三个损失函数的超参数：

Loss＝αLoss_dst+βLoss_v+γLoss_ent(21)其中Loss为整个模型的目标函数，Loss_dst为对话状态***的目标函数，Loss_v为骨架解码器与真实回复的目标函数，Loss_ent为实体解析器使用交叉熵损失函数作为学习的目标函数。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于对话状态指导的端到端任务型对话***，其特征在于，包括：

所述层次型编码器包括若干层：

是句子级编码器上一时刻的隐藏层状态向量；

Φ^emd(·)表示嵌入函数；

表示对话级编码器上一时刻的隐藏状态；

对话级编码器在最后一个时间步N的向量输出是整个对话的语义表示；

2.根据权利要求1所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，所述信息存储结构包括：

3.根据权利要求2所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，所述知识存储模块的每个单元为知识库中的每个词，可表示为：

其中，w_i,j表示存储结构中第i行j列存储的词；

a_j表示w_i,j对应的属性名即第j列的列名；

其中，J表示存储单元的总个数；

Emb(·)表示使用一个嵌入矩阵进行编码。

4.根据权利要求1所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，所述对话状态***的输入为层次型编码器中句子级编码器生成的隐藏向量序列其中L表示整个对话序列的长度，即对话包含的词汇数量，是由句子级编码器生成的位于对话过程中第l个词汇的向量表示；

其中，表示第j个槽位的槽值在整个对话历史上的概率分布；

u_j表示第j个可学习的槽位信息矩阵；

softmax()表示softmax函数；

表示表示第j个槽位取对话历史中第l个词为槽值的概率；

得到所述对话状态向量。

5.根据权利要求1所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，所述根据对话状态向量对信息存储结构的知识库信息进行检索包括：

首先通过以下公式计算知识库中各属性值被对应状态向量选中的概率，然后通过求和操作计算各知识行与当前对话相关的概率：

v_j表示第j个对话状态；

其中，o表示与对话相关的知识库信息；

表示总行数；

表示知识库中第i行与当前对话相关的概率；

|S|是对话包含的槽位数量；

c_i,j表示第i行第j列的词的向量表示。

6.根据权利要求1所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，所述复制增强解码器包括骨架解码器和实体解析器；

7.根据权利要求1所述的一种基于对话状态指导的端到端任务型对话***，其特征在于，基于所述***的方法包括以下步骤：

首先通过层次型编码器获得对话内容的语义表示，