CN115238691A

CN115238691A - 基于知识融合的嵌入的多意图识别与槽位填充模型

Info

Publication number: CN115238691A
Application number: CN202210621742.0A
Authority: CN
Inventors: 黄金杰; 曹玉峰
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-25

Abstract

一种基于知识融合嵌入的多意图识别与槽位填充方法，本发明公开了一种基于知识融合嵌入的槽位门意图识别方法：包括以下步骤：在字符‑向量的基础上，将数据库中的实体处理为实体向量，并与实体对应的属性向量一起拼接到字‑词向量中构成知识融合向量，作为WordEmbedding输入到模型中；将得到的知识融合向量输入槽位门控网络来进行槽位填充以及意图预测。实验表明，此方法可以让输入带有丰富的语义信息知识，同时，应用槽位门机制来影响意图预测的准确率，使得短文本意图识别效果较明显，从而更准确的完成文本分类任务。本发明应用于问答***中的文本分类任务，尤其是对于短文本的缺乏上下文语境，特征不明显等问题。

Description

基于知识融合的嵌入的多意图识别与槽位填充模型

(一)技术领域

本发明属于人工智能领域，设计一种基于知识融合嵌入的多意图识别与槽位填充模型。

(二)背景技术

目前，问答***的在市面上可以说是相当广泛，但是，在上世纪中叶，图灵就提出了利用自然语言来实现人机交互的想法及相关技术，也正是因为这一想法的提出使问答***的诞生以及后期问答***的快速发展变成了现实。在数据***的环境下，人们越来越难以在网上获取有效信息，获取有效信息的成本也越来越高。随着信息越来越繁琐，传统的检索算法很难满足搜索者的需求，主要原因是基于传统检索的算法只是作用在表面，模型对于更深层次的语义信息很难更好把握，也正是如此，这样的检索方式并不能真正地理解用户想要表达的真实意图，从而无法正确地回馈给用户真正想要的信息，所以，如何准确快速地获取信息为我们所用就显得尤为重要。

在过去大多数研究中，意图识别是一个单分类任务。但是在现实场景对话中，一个句子可能包含多个意图，所以可以将意图识别看做一个多分类任务，并提出了不同的神经网络模型来获得多意图标签；由于意图识别和槽位填充之间相互关联，将意图信息引入槽位填充任务来建模二者之间的关联，联合训练意图识别和槽填充任务来取得更好的性能；一个槽位标签可能会对应多个意图，所以本实验的模型不仅从句子级来预测意图标签，还在词级进行意图识别，即预测一个槽位标签所对应的多个标签。

因此为了准确快速地理解人机交互中用户的真正意图，我们可以将意图识别当作文本分类任务来处理，首先，确定好有哪几类意图标签；其次，通过训练使文本数据按照对应的意图标签进行自动分类。我们可以利用这种方式来处理人机交互中用户提出的问题文本，以此来判断用户的真实意图。

(三)发明内容

本发明是为了解决短文本存在的文本语句较短，包含大量信息，数据特征较长文本而言更为稀疏等问题，并且增强模型文本特征信息提取和模型的鲁棒性，而提出的一种基于知识融合嵌入的槽位门意图识别模型。为实现以上目的，本发明采用如下技术方案：

步骤1：通过一种分词和命名实体识别联合模型，模型如图(1)所示，识别并标记文本中领域实体，分词模块将文本中字符进行标注，然后将序列送入bert字编码层中学习词语之间的关系，最后通过使用CRF输出领域实体标签序列。在实体识别模块对文本数据使用BIO 标注方法进行标注，随后通过TreeLSTM编码器学习上下文信息如图(2)所示，感知相邻实体信息，对文本序列进行建模，再通过注意力机制CNN提取实体特征，输出文本向量表示，并最终传递给CRF，得到文本的序列标注结果；

步骤2：把字向量、词向量以及关键词对应的属性向量结合在一起，如图(3)所示，组成包含词语特征的字-词向量，同时，将数据库中的实体进行处理得到实体向量，与前面提到的字-词向量进行拼接，构成知识融合向量；

步骤3：将知识融合向量处理后，生成隐藏状态，对于每个隐藏状态，通过学习得到的注意力权重计算上下文向量利用隐藏状态和槽位上下文向量进行槽位填充，利用带有双向长短时记忆网络模型生成的最后时刻的隐含状态来完成意图预测；

与现有技术相比，本发明的有益效果是：

(1)本发明将特征融合与槽位门机制结合起来，不仅让输入带有丰富的语义信息知识，还能够应用槽位门机制来影响意图检测的准确率，从而使模型具有更好的短文本意图识别效果；

(2)本发明可以同时在词级和句子级进行多意图识别；

(3)本发明增强了对于文本的特征信息的提取能力，并且增强了整个模型的鲁棒性。

(四)附图说明

图1为联合实体识别模型图；

图2为TreeLSTM网络示意图；

图3为知识融合向量图；

图4为意图识别模型图；

图5为槽位门结构图。

(五)具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施案例仅用于解释本发明，并不用于限定本发明。

步骤1：通过Bert训练词表示向量，在预训练过程中，Bert使用掩码[mask]替换文本中部分词，让Transformer编码器根据上下文来预测这些词。随机遮住15％的词作为训练样本，并将其中80％词用掩码代替，10％的词替换成随机词，另外10％词不变。通过Transformer编码器不断进行预测，Bert预训练模型可充分利用词级上下文信息，获得了文本中每个词的表示向量。将得到的词向量输入到TreeLSTM网络层中，树形结构神经网络TreeLSTM不同于长短时记忆网络LSTM，是一种接收线性序列输入为树状结构的递归神经网络随着时间序列的增加，短文本中单次顺序进入网络中，进行线性拼接，完成上下文信息的编码，来表示深层语义信息。TreeLSTM层通过学习长距离领域实体的语义搭配关系，根据树型分支结构追踪方向传播，线性表示领域实体隐层输出。在短文本中，领域名词通过多层分支排列在树状结构的左子树中，通过对领域名词进行语义增强，使得这个名词与上下文关联度比其他词与上下文的关联度更高。再经过一个CNN层进一步提取词的特征，然后将特征输入到CRF层中，对于给定的输入的序列，使用BIEO标注法，将每个字符标注为“B-X”、“I-X”、“E-X”或者“O”，其中B、I、E分别表述领域实体的开头、中间和结尾，X表示这个领域实体所属的类型。同样在分词模型中，使用BMES标注，将每个字标注为“B”、“M”、“E”或者“O”。其中B、M、E同样分别表述为领域实体的开头、中间和结尾。根据输出的标签相关性，计算序列的标签得分，选取概率得分最大的标记作为当前标记。标记序列得分公式如公式(1)所示：

其中T为序列的长度，t为标记位置，A为转移得分矩阵，A_i,j表示第i个标签到第j个标签的转移得分，P_i,j表示文本中第i个单词在第j个标签下的得分，y₀和y_t+1表示输入文本的起始和结束标签。整个输入文本的序列标签得分，等于所有字符位置标签之和，其中每个位置标签由CRF层转移概率得分决定的。

步骤2：把上面经过Bert得到的字向量、词向量以及关键词对应的属性向量结合在一起，组成包含词语特征的字-词向量，同时，将数据库中的实体进行处理得到实体向量，与前面提到的字-词向量进行拼接，构成知识融合向量，并将其作为模型的输入，为模型提供一定的语义信息。针对实体向量，利用4-gram的方法依次对字符、包含字符的词语以及在4-gram范围内的字符串进行检索，判断其中是否存在知识库中的实体，如果存在，那么就在对应的 4-gram字符串上做标记，进而生成实体向量。

步骤3：将得到的知识融合向量处理后，生成正向隐藏状态

与反向隐藏状态

时间步长的最终隐藏状态是h_i，它是

和

在时间步长为i时的关联，即：

将上面得到的融合向量输入模型中，句子级意图识别利用BiLSTM最后一个隐层状态来计算上下文向量c^I, 再将c^I和

通过一个全连接层来预测包含每一个意图的概率，模型如图(4)所示。

槽位标签使用LSTM对编码器的隐状态进行解码，在每一个step i，解码状态

的计算如公式(2)：

其中

是编码器隐状态

的加权平均，计算方式如公式(3)(4)：

在得到LSTM解码器的输出状态后，将其送入一个softmax层来预测槽位标签。然后将意图信息引入到槽位填充任务中。

对于槽位填充来说，知识融合向量x是映射到其对应的槽位标签

的输入顺序。对于每个隐藏状态h_i，我们通过学习得到的注意力权重

计算上下文向量

作为 LSTM隐藏状态h₁,h₂,…,h_t的加权和，公式(5)为槽位上下文向量表示：

其中：槽位注意力权重的计算公式如(6)(7)所示：

其中：σ代表的是激活函数，

的含义是前馈神经网络的权重矩阵。接下来，利用隐藏状态和槽位上下文向量进行槽位填充，计算过程如公式(8)所示：

其中：

是输入第I个字的槽标签，

是权重矩阵。用与求取

一样的方法得到意图上下文向量c^I，利用BiLSTM模型生成的最后时刻的隐含状态来完成意图预测，公式(9)表示为意图预测的建模过程：

槽位门机制模型中应用了一个新的门控机制，这个新的门控机制的作用是通过意图上下文向量对槽位与意图之间的关系进行建模，从而达到提高槽位填充性能的目的。首先，我们要对在时间维度上具有相同尺寸的槽位上下文向量

以及意图上下文向量c^I进行合并；其次通过槽位门对合并过的结果进行处理。槽位门的结构图如图(5)所示。

对应的输入输出关系如公式(10)所示：

其中：v和W分别为可训练的向量和矩阵。在同一个时间步长内对意图上下文向量与槽位上下文向量进行求和。G可以被看作是联合上下文向量的加权特征，我们可以用g来调整h_i与

之间的权重，从而影响

我们可以修改公式(8)为(11)：

g值越大，表示槽位上下文向量与意图上下文向量关注的输入序列的位置越相似，从而也能推断槽位和意图之间的关联性越强，上下文向量对预测结果的影响越可靠。

为了同时获得槽位填充和意图预测，目标公式如公式(12)所示：

其中：p(y^S,y^I|x)是给定输入序列的理解结果(意图预测和槽位填充)的条件概率。

相较于单纯的特征融合以及槽位门机制的应用，将二者结合不仅能让输入带有丰富的语义信息知识，同时，能够应用槽位门机制来影响意图预测的准确率，使得模型具有更好的短文本意图识别效果，提高意图识别准确率。

本发明的上述实验室里仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上诉说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于知识融合嵌入的多意图识别与槽位填充模型，其特征在于，包括以下步骤：

步骤1：将文本输入到分词和命名识别联合模型，输出得到文本向量表示；

步骤2：根据上面分词和命名实体识别得到的实体字、词向量和对应的属性向量结合在一起，再将数据库中的实体向量和字、词向量拼接成知识融合向量；

步骤3：将得到的知识融合向量输入到BiLSTM层中生成隐藏状态，取双向长短时记忆网络的前向和后向的输出的拼接向量，然后接一个全连接层，再接多个sigmoid做多标签意图分类；

所述步骤3的多意图识别和槽位填充模型的原理和计算公式如下：

将得到的知识融合向量处理后，生成正向隐藏状态

与反向隐藏状态

时间步长的最终隐藏状态是h_i，它是

和

在时间步长为i时的关联，即：

将上面得到的融合向量输入模型中，句子级意图识别利用BiLST最后一个隐层状态来计算上下文向量c^I,再将c^I和

通过一个全连接层来预测包含每一个意图的概率；

的计算如公式如下：

其中

是编码器隐状态

的加权平均，计算方式如公式(2)(3)：

在得到LSTM解码器的输出状态后，将其送入一个softmax层来预测槽位标签，然后将意图信息引入到槽位填充任务中；

的输入顺序，对于每个隐藏状态h_i，我们通过学习得到的注意力权重

计算上下文向量

作为LSTM隐藏状态h₁，h₂，...，h_t的加权和，公式(4)为槽位上下文向量表示：

其中：槽位注意力权重的计算公式如(5)(6)所示：

其中：σ代表的是激活函数，

的含义是前馈神经网络的权重矩阵，接下来，利用隐藏状态和槽位上下文向量进行槽位填充，计算过程如公式(7)所示：

其中：

是输入第I个字的槽标签，

是权重矩阵，用与求取

一样的方法得到意图上下文向量c^I，利用BiLSTM模型生成的最后时刻的隐含状态来完成意图预测，公式(8)表示为意图预测的建模过程：

2.如权利要求1所述的基于知识向量融合的多意图识别和槽位填充，其特征在于：

利用字向量、词向量以及关键词对应的属性向量结合在一起，组成包含词语特征的字-词向量，同时，将数据库中的实体进行处理得到实体向量，与前面的字-词向量进行拼接，构成信息融合向量，将其作为模型的输入，为模型提供丰富的语义信息。