CN110134771A

CN110134771A - 一种基于多注意力机制融合网络问答***的实现方法

Info

Publication number: CN110134771A
Application number: CN201910281835.1A
Authority: CN
Inventors: 杨祖元; 陈松灿; 梁乃耀; 李珍妮
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-08-16
Anticipated expiration: 2039-04-09
Also published as: CN110134771B

Abstract

本发明公开了一种基于多注意力机制融合网络问答***的实现方法，包括以下步骤：构建问答***网络模型，对原始数据集预处理后得到待用数据集，进行文本长度分布分析；将待用数据集中文本进行one‑hot向量表示，使用CBOW模型训练one‑hot词向量，并组成word2vec词表；调整文本中每一条句子的序列长度，并加入句子结束符；使用ELMO语言模型训练word2vec向量得到ELMO词向量；对ELMO向量进行编码得到句子向量；分别对句子向量进行粗细粒度的关注分别得到记忆向量和基于每个词的关注向量；进行向量拼接得到基于词和句子的表示向量；解码表示向量生成问题句子的答案。本发明通过ELMO语言模型提高了句子的表征能力；融合多种注意力机制，提高了***做决策的准确率，增强了***的可解释性。

Description

一种基于多注意力机制融合网络问答***的实现方法

技术领域

本发明涉及问答***领域，更具体地，涉及一种基于多注意力机制融合网络问答***的实现方法。

背景技术

问答是人类交流的主要方式之一，随着数据规模的不断增长，越来越多的人开始关注如何从海量的信息中快速的获取自己想要的答案，而传统的搜索引擎***已经跟不上时代的步伐，其搜索结果的精确度和多样化都需要作出巨大的改变才能满足用户的需求。国外研究人员认为以直接而准确的方式回答用户自然语言提问的自动问答***将构成下一代搜索引擎的基本形态。区别于传统的搜索引擎***，问答***通过自然语言输入问句，经过一系列的语义解析，句法分析，句子理解，知识推理等处理手段，用自然语言回答用户问题，直接给出用户所需要的答案，而不是返回一系列相关文档排序的形态。当前，人工智能正式上升为国家战略，业界认为自然语言处理领域应该重点突破自然语言的语法逻辑、字符概念表征和深度语义分析的核心技术，推进人类与机器的有效沟通和自由交互，实现多风格多语言多领域的自然语言智能理解和自动生成。问答***有很多种分类，根据答案的范围分类，可以分为面向限定领域和面向开放领域的问答***。根据方法技术的不同分类，可以分为基于规则的、基于相似度计算的和基于深度学习的问答***。根据答案生成的反馈机制的不同分类，问答***也可以分为基于检索式的和基于生成式的问答***。此外，根据支持问答***产生答案的知识库以及实现的技术分类，可将问答***分为社区问答***、知识图谱问答***、阅读理解问答***等。当前基于注意力机制的阅读理解问答***值得进一步研究。

发明内容

本发明为克服上述现有技术中问答***采用端到端的模型数据压缩时出现数据丢失导致***的表征能力不足、可解释性低的缺陷，提供一种基于多注意力机制融合网络问答***的实现方法。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于多注意力机制融合网络问答***的实现方法，所述方法包括以下步骤：

S1：构建问答***网络模型，所述问答***网络模型包括有：输入层、词嵌入层、编码层、关注层、解码输出层；采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集，根据待用数据集中各文本长度分布，确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度，所述文本包括：问题句子文本、答案句子文本、文章文本；同时将待用数据集按设定的比例划分为训练集和验证集；

S2：在输入层对待用数据集中文本进行one-hot编码得到one-hot词向量；在词嵌入层采用word2vec的CBOW模型训练one-hot词向量，得到word2vec词表；

S3：从训练的word2vec词表中获取文本每个词的向量表示，并根据S1得到的文本平均长度进行补零或裁剪处理，使文本中每一条句子的序列长度一致，并加入句子结束符；

S4：使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量，得到ELMO词向量；使文本的每个词向量具有不同的语义；

S5：在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量；所述句子向量包括：文章句子向量和问题句子向量；

S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆，分别得到对文章句子和问题句子关注程度的记忆向量；

S7：在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注，将所述关注函数的输出信息集成得到基于每个词的关注向量；

S8：将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为r^q向量，将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量，将拼接后得到的向量与r^q向量进行Concat attention拼接，得到基于词和基于句子的表示向量；

S9：在解码输出层对步骤S8得到的表示向量进行解码，生成问题句子的答案。本发明通过将将问答***和注意力机制结合，在文本数据的上下文中根据词和句子短语的重要性在文档中进行加权，提取对预测有用的最相关的信息。一方面解决了词或者句子语义消失的问题来增强***的有效性，另一方面在词层面上运用注意力机制增强了输入文档与问题之间的交互作用，达到更好的句子理解，使模型具有更好的推理能力，同时使得***的可解释性增强。

进一步地，步骤S1所述的预处理具体过程为：首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1，再去除数据集D1文本中的停用词得到数据集D2，删除数据集D2文本中的非法字符得到数据集D3，对数据集D3进行各文本进行长度分布分析得到待用数据集。本发明通过预处理实现了统一文本格式、消除噪音数据目的，生成更丰富、更深层次的信息。

进一步地，每个文本的最大长度具体为：

计算待用数据集中所有问题句子文本的平均长度作为句子文本的最大文本长度；

计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。选择适合的长度能够减少丢失语义信息，同时节省计算机资源。

进一步地，将所述one-hot编码得到one-hot词向量作为CBOW模型的输入，所述CBOW模型输出层输出目标词概率最大的one-hot词向量；所述CBOW模型的目标函数为：

其中，w表示语料库C中任意一个词的one-hot词向量；将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。本发明中CBOW模型是将已知上下文作为输入，映射层在所有的词间共享，输出层为一个分类器，目标是使当前词的概率最大。

进一步地，所述ELMO语言模型为一个双向的LSTM语言模型，所述的ELMO语言模型目标函数为：

其中，k、N表示序号，t表示每个词的word2vec表示，p表示概率；CBOW模型训练后的Word2vec向量作为ELMO语言模型的输入；

对每个词，L-layer双向LSTM计算一组表征，所述一组表征为一组经过双向LSTM得到的句子向量：

其中，k表示每个词，j表示层序号，表示从左至右第j层的第k个词的隐藏层状态，L表示双向GRU的层数；表示从右至左第j层的第k个词的隐藏层状态；是每个双向LSTM输出的结果，R_k表示ELMO模型每一层的输出；并将ELMO模型所有输出层中最上层的输出作为词的表示。本发明通过使用word2vec语言模型学习一个词的词嵌入，然后再根据上下文词的语义去调整词的词嵌入表示，这样经过调整后的词嵌入更好的表达在这个上下文中的具体含义，同时解决了多义词的问题。

进一步地，所述双向循环神经网络数学表示如下：

其中，GRU()表示RNN神经网络的变种，x_t表示输入的上下文词的ELMO词向量表示，分别表示当前时刻和前一刻的从左到右隐藏层状态，分别表示是当前时刻和前一刻的从右向左隐藏层状态，表示双向循环神经网络最终的隐藏层状态。

进一步地，所述神经网络中进行若干次阅读输入的句子，每次只关注fact句子向量的一个子集；所述fact句子向量为输入至神经网络的问题句子向量；编码后的文章句子向量和问题句子向量输入至神经网络中，通过动态神经网络中的双向循环神经网络模块产生记忆向量m，记双向循环神经网络模块的第i个pass产生的记忆表示为mⁱ，

mⁱ＝GRU(eⁱ,m^i-1)

其中m⁰＝q，q为问题句子向量question向量，eⁱ表示由神经网络的注意力机制产生的，所述eⁱ通过神经网络隐藏状态及fact句子向量c_t进行更新，更新公式如下：

其中，GRU()表示RNN神经网络的变种，表示记忆网络的最后隐藏层，表示t时刻隐含层状态，表示t-1时刻隐含层状态；g是注意力机制，公式如下所示：

G(c,m,q)＝σ(W⁽²⁾tanh(W⁽¹⁾z(c,m,q)+b⁽¹⁾)+b⁽²⁾)

z(c,m,q)＝[c,m,q,cοq,cοm,|c-q|,|c-m|,c^TW^(b)q,c^TW^(b)m]

其中W是权重，b是偏置参数，z表示关注程度，通过句子向量c、问题向量q、上一次记忆向量m之间的点乘和线性乘积方式按行拼接后输入至神经网络的非线性激活传播一层，通过softmax函数进行分类输出得到g，所述g表示每次阅读对每个时刻每个句子的关注程度。

进一步地，所述细粒度的关注函数包括有：Concat attention函数、Bilinearattention函数、Dot attention函数、Minus attention函数，

所述Concat attention函数表示如下：

所述Bilinear attention函数表示如下：

所述Dot attention函数表示如下：

所述Minus attention函数表示如下：

其中，所述Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数中函数参数的含义具体如下：W表示权重，表示概率，表示的是输入的文章文本的第t个单词，表示的是输入的问题文本的第j个单词，表示问题文本的第j个单词对文章文本的第t个单词的关注分数，表示对问题文本的每个单词对文章文本的每个单词的关注得分进行归一化处理。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过ELMO语言模型提高了句子的表征能力；本发明融合了多种注意力机制，建立端到端的模型，同时提取对预测有用的最相关的信息，提高***做决策的准确率，增强了***的可解释性。

附图说明

图1为本发明方法流程图。

图2为预处理流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于多注意力机制融合网络问答***的实现方法，所述方法包括以下步骤：

S1：构建问答***网络模型，所述问答***网络模型包括有：输入层、词嵌入层、编码层、关注层、解码输出层；采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集，根据待用数据集中各文本长度分布，确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度，所述文本包括：问题句子文本、答案句子文本、文章文本；同时将待用数据集按设定的比例划分为训练集和验证集；本实施例中训练集和验证集的比例设为6比4。

如图2所示，步骤S1所述的预处理具体过程为：首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1，再去除数据集D1文本中的停用词得到数据集D2，删除数据集D2文本中的非法字符得到数据集D3，对数据集D3进行各文本进行长度分布分析得到待用数据集。本发明通过预处理实现了统一文本格式、消除噪音数据目的，生成更丰富、更深层次的信息。

每个文本的最大长度具体为：

将所述one-hot编码得到one-hot词向量作为CBOW模型的输入，所述CBOW模型输出层输出目标词概率最大的one-hot词向量；所述CBOW模型的目标函数为：

所述ELMO语言模型为一个双向的LSTM语言模型，所述的ELMO语言模型目标函数为：

其中，k表示每个词，j表示层序号，表示从左至右第j层的第k个词的隐藏层状态，L表示双向GRU的层数；

表示从右至左第j层的第k个词的隐藏层状态；是每个双向LSTM输出的结果，R_k表示ELMO模型每一层的输出；并将ELMO模型所有输出层中最上层的输出作为词的表示。本发明通过使用word2vec语言模型学习一个词的词嵌入，然后再根据上下文词的语义去调整词的词嵌入表示，这样经过调整后的词嵌入更好的表达在这个上下文中的具体含义，同时解决了多义词的问题。

所述双向循环神经网络数学表示如下：

所述神经网络中进行若干次阅读输入的句子，每次只关注fact句子向量的一个子集；所述fact句子向量为输入至神经网络的问题句子向量；编码后的文章句子向量和问题句子向量输入至神经网络中，通过动态神经网络中的双向循环神经网络模块产生记忆向量m，记双向循环神经网络模块的第i个pass产生的记忆表示为mⁱ，

mⁱ＝GRU(eⁱ,m^i-1)

G(c,m,q)＝σ(W⁽²⁾tanh(W⁽¹⁾z(c,m,q)+b⁽¹⁾)+b⁽²⁾)

z(c,m,q)＝[c,m,q,cοq,cοm,|c-q|,|c-m|,c^TW^(b)q,c^TW^(b)m]

所述细粒度的关注函数包括有：Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数，

所述Concat attention函数表示如下：

所述Bilinear attention函数表示如下：

所述Dot attention函数表示如下：

所述Minus attention函数表示如下：

S9：在解码输出层对步骤S8得到的表示向量进行解码，生成问题句子的答案。本发明通过将将问答***和注意力机制结合，在文本数据的上下文中根据词和子短语的重要性在文档中进行加权，提取对预测有用的最相关的信息。一方面解决了词或者句子语义消失的问题来增强***的有效性，另一方面在词层面上运用注意力机制增强了输入文档与问题之间的交互作用，达到更好的句子理解，使模型具有更好的推理能力，同时使得问答***的可解释性增强。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多注意力机制融合网络问答***的实现方法，其特征在于，所述方法包括以下步骤：

S4：使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量，得到ELMO词向量；

S9：在解码输出层对步骤S8得到的表示向量进行解码，生成问题句子的答案。

2.根据权利要求1所述的一种基于多注意力机制融合网络问答***的实现方法，其特在在于，步骤S1所述的预处理具体过程为：首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1，再去除数据集D1文本中的停用词得到数据集D2，删除数据集D2文本中的非法字符得到数据集D3，对数据集D3进行各文本进行长度分布分析得到待用数据集。

3.根据权利要求1所述的一种基于多注意力机制融合网络问答***的实现方法，其特在在于，每个文本的最大长度具体为：

计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。

4.根据权利要求1所述的一种基于多注意力机制融合网络问答***的实现方法，其特在于，将所述one-hot编码得到one-hot词向量作为CBOW模型的输入，所述CBOW模型输出层输出目标词概率最大的one-hot词向量；所述CBOW模型的目标函数为：

其中，w表示语料库C中任意一个词的one-hot词向量；将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。

5.根据权利要求1所述的一种基于多注意力机制融合网络问答***的实现方法，其特在在于，所述ELMO语言模型为一个双向的LSTM语言模型，所述的ELMO语言模型目标函数为：

表示从右至左第j层的第k个词的隐藏层状态；是每个双向LSTM输出的结果，R_k表示ELMO模型每一层的输出；并将ELMO模型所有输出层中最上层的输出作为词的表示。

6.根据权利要求1所述的一种基于多注意力机制融合网络问答***的实现方法，其特在在于，所述双向循环神经网络数学表示如下：

7.根据权利要求1-6任一项所述的一种基于多注意力机制融合网络问答***的实现方法，其特征在于，在所述神经网网络的输入层对每一文章文本按照中文结束符进行断句，形成多个fact句子向量c_t，所述神经网络中进行若干次阅读输入的句子，每次只关注fact句子向量的一个子集；编码后的文章句子向量和问题句子向量输入至神经网络中，通过动态神经网络中的双向循环神经网络模块产生记忆向量m，记双向循环神经网络模块的第i个pass产生的记忆表示为mⁱ，

mⁱ＝GRU(eⁱ,m^i-1)

其中，GRU()表示RNN神经网络的变种，表示记忆网络的最后隐藏层，表示t时刻隐含层状态，表示t-1时刻隐含层状态；是注意力机制，公式如下所示：

G(c,m,q)＝σ(W⁽²⁾tanh(W⁽¹⁾z(c,m,q)+b⁽¹⁾)+b⁽²⁾)

8.根据权利要求7所述的一种基于多注意力机制融合网络问答***的实现方法，其特在在于，所述细粒度的关注函数包括有：Concat attention函数、Bilinear attention函数、Dot attention函数、Minus attention函数，

所述Concat attention函数表示如下：

所述Bilinear attention函数表示如下：

所述Dot attention函数表示如下：

所述Minus attention函数表示如下：