CN115358289A

CN115358289A - 一种融合多类型知识库和推理技术的文本生成算法

Info

Publication number: CN115358289A
Application number: CN202210857061.4A
Authority: CN
Inventors: 李丕绩; 高璇
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-18

Abstract

本发明公开了融合多类型知识库和推理技术的文本生成算法：训练COMET来生成推理的常识知识以及事件；提取对话生成数据集中对话文本的事件集合与关键词集合；将事件集合与关键词集合分别作为COMET模型的输入输出相应的常识知识与推理知识；对预训练模型GPT‑2进行微调，应用于下游任务；将对话文本与提取出的事件集合与关键词集合的内部知识，或COMET生成的外部知识作为GPT‑2编码器的输入，并结合注意力机制生成输出文本。本发明通过结合生成式常识模型与预训练模型，完成了两种不同类型知识库的融合和知识推理的过程，为对话生成引入了简洁清晰的内部知识和丰富多样的外部知识，有助于GPT‑2生成更连贯和多样的回复。

Description

一种融合多类型知识库和推理技术的文本生成算法

技术领域

本发明涉及一种融合多类型知识库和推理技术的文本生成算法，属于计算机领域中自然语言处理领域。

背景技术

2013年，Thomas等人提出了词向量表示模型，由此，自然语言生成进入了神经网络和深度学习的时代。2017年，Google机器翻译团队提出了注意力模型和基于Transformer的一系列深度学习模型。在诞生至今仅仅五年的时间内，Transformer已经成为自然语言处理领域的主流模型，基于Transformer的预训练模型在各项任务中都有最优的表现，注意力机制也成为了近几年基于神经网络模型的任务的研究热点。

文本生成在实际应用中具有丰富的场景，如对话生成、故事补全和机器翻译等。长期以来，人们为了提升文本生成的效果和性能做了许多努力，向着机器在实际应用中能够像人类一样流利地表达这一目标不断靠近。

在对话***或问答***中，仅仅根据输入文本的信息来生成人类满意的答复往往是非常困难的。为了生成具有一定信息量、有意义的输出文本，引入输入序列之外的知识成为文本生成任中的热门方向。将知识纳入文本生成的研究方向被称为知识增强型文本生成。

人类能够不断地从广泛的来源获取和储存知识，在大脑中构建自己的知识库。除此之外，人类在阅读文本或对话交流时往往会做出常识性的推断，形成自己的理解。在问答***和对话***中，为了生成更好的回答，还可能需要根据一些事实和常识进行推理和推论。面向知识图谱的知识推理旨在根据已有的知识推理出新的知识，通过规则挖掘对知识图谱进行关联关系推理，基于图谱中已有的事实或关系推断出未知的事实或关系。目前，面向知识图谱的知识推理在众多应用中发挥了重要作用。

在对话***中，知识增强的Seq2Seq方法可以让模型更好地理解输入序列的语义含义以生成更有含义的回复。同样，在摘要生成、问题回答和故事生成的过程中，知识图谱的参与能够让机器生成更具细节的语言，提升文本生成方面的表现。

发明内容

本发明的目的是设计一种融合多类型知识库和推理技术的文本生成算法，以提升现有文本生成算法的生成效果。本发明提供了针对自然语言处理的各种下游任务(对话生成、故事生成)的知识增强方法，在文本生成数据集上能够给出具有知识性、逻辑性、连贯性的回答。

本发明为解决其技术问题采用如下技术方案：

一种融合多类型知识库和推理技术的文本生成算法，包括以下步骤：

(1)生成式常识模型COMET的训练：

(2)对话文本的事件集合与关键词集合的提取；

(3)外部知识的生成；

(4)知识增强型对话的生成；

将步骤(2)中对话文本与提取出的事件集合与关键词集合的内部知识，或步骤(3)中COMET生成的外部知识作为GPT-2编码器的输入，并结合注意力机制生成输出文本。

进一步的，步骤(1)所述COMET模型的训练，包括以下步骤：

(14)采用ATOMIC知识库和ConceptNet知识库作为知识种子集训练COMET；

(15)COMET采用GPT语言模型架构，使用多头缩放点积注意的多个Tansformer块和全连接层来编码输入文本；

(16)COMET在将输入文本的每个单词传入神经网络层之前，自注意力机制为输入文本序列中每一个单词赋予一个相关度得分，再对他们的向量表征求和，得到最终自注意力层的输出。

进一步的，步骤(2)所述对话文本的事件提取与关键词提取，包括以下步骤：

(21)采用ASER事件提取工具抽取对话生成数据集EmpatheticDialogue中所有句子的事件，构成事件集合；

(22)在ConceptNet知识库中检索数据集上对话文本context中出现的单词，提取出关键词集合。

进一步的，步骤(3)所述外部知识的生成，包括以下步骤：

(33)将抽取出的事件集合和关键词集合分别作为COMET模型的输入；输出相应的常识知识与推理知识；

(34)在步骤(31)的解码过程中，采用集束搜索策略选取COMET生成的事件或关键词作为文本生成的外部知识。

进一步的，步骤(4)所述注意力机制中，注意力矢量的公式为：

m＝MLP([MHA(x)；MHA(r)])

其中，MHA(x)是原始Transformer层的多头注意函数的输出，MHA(r)是事件与关键词查询层的输出。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

提出了一种融合多类型知识库和推理技术的文本生成算法，以提高开放式文本生成响应的一致性和多样性。本文使用生成式常识模型来自动完成常识性知识库的构建，采用基于COMET的知识融合和知识推理策略，以ATOMIC推理知识库和ConceptNet常识知识库作为知识种子集训练COMET，为文本生成下游应用提供丰富多样的开放式常识性知识。本文将COMET生成的知识与预训练语言模型相结合，采用基于集束搜索的解码算法，可以更好地帮助模型理解输入文本及上下文信息。在对话生成这一开放式文本生成任务上对本文提出的方法进行评估，实验结果表明，引入COMET生成的常识性事件和关键词有助于GPT-2生成更连贯和多样的文本。

附图说明

图1是提出的算法框架示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

为了提高开放式文本生成响应的一致性和多样性，本发明提出的文本生成算法总体框架如图1所示，分为四个部分：1.生成式常识模型COMET的训练。2.对话文本的事件提取与关键词提取。3.外部知识的生成。4.知识增强型对话生成。

(1)生成式常识模型COMET的训练

生成式常识模型COMET的任务是由给定知识元组的对象和关系生成属性或值，模型接受和所包含的连续单词序列作为编码器的输入，输出属性或值的连续单词序列。使用HuggingFace提供的GPT模型作为实现COMET的基础，采用Radford等人的初始语言模型权重作为初始化参数，并按照Radford等人的GPT模型设计，采用12层、768维隐藏状态和12个注意头初始化COMET，使用0.1的dropout率，并使用GeLU作为激活函数。另外，在训练时，将批大小设置为64。对于ATOMIC数据集，采用6.25e-5的最大学习率，对于ConceptNet数据集，采用1e-5的最大学习率。

(2)对话文本的事件提取与关键词提取

采用ASER事件提取工具来抽取数据集中所有句子的事件，以确保所提取的事件具有完整的语义，并与ATOMIC数据集中的事件保持一致的格式。对数据集上句子中出现的所有单词在ConceptNet知识库中进行检索，提取出关键词集合。

(3)外部知识的生成

生成式常识模型COMET的任务是由给定知识元组的对象s和关系r生成属性或值o，模型接受s和r所包含的连续单词序列[X^s，X^r]作为编码器的输入，输出属性或值o的连续单词序列。

将抽取出的事件和提取的关键词分别作为COMET模型的输入，采用集束搜索策略选取生成的事件或关键词，将这些生成的事件或关键词作为文本生成的外部知识。

集束搜索算法以较小的代价在相对受限的搜索空间中找出最优解，得出的解接近于整个搜索空间的最优解。集束搜索算法根据条件概率在每个时间步为输入序列选择多个备选序列，备选序列的数量取决于集束宽度k。在每个时间步，集束搜索选择k个具有最高条件概率的序列作为该时间步可能的选择。

(4)知识增强型对话生成

本方法基于大量无监督样本的预训练和少量对话生成任务的有监督样本对GPT-2进行微调。首先从输入文本中提取出凝聚了文本核心内容的关键词和事件，作为输入到GPT-2中的内部知识，然后将提取的事件和关键词输入到COMET生成式常识模型中，选取对对话生成更有帮助的关系维度，生成对应的事件和关键词，并将其作为外部知识也添加到GPT-2的输入编码器中，同时，使用注意力机制过滤质量较差、噪声较多的知识。最后，采用集束搜索的解码策略生成输入序列的回复。

注意力矢量的公式为：

m＝MLP([MHA(x)；MHA(r)])

在采用EmpatheticDialogues数据集的对话生成任务中，序列编码器输入的顺序依次为输入文本序列，[MASK]序列，从输入文本中提取的事件序列，[MASK]序列以及COMET生成的新知识，生成的知识可以是来源于ATOMIC或ConceptNet的事件或关键词。

GPT-2一次输出一个单词序列，在生成每个单词后，将该单词添加到输入序列中，成为模型下一步的输入。训练后的GPT-2模型包含嵌入矩阵和位置编码矩阵两个权值矩阵。GPT-2从嵌入矩阵中查找单词对应的嵌入向量，这些嵌入向量对相应的单词进行表征，其长度与GPT-2模型的大小有关，本实验中使用的GPT-2small版本使用了长度为768的嵌入向量来表征一个单词。而位置编码矩阵在输入单词进入Transformer模块时指明序列中的单词顺序。在每一个Transformer模块中，输入单词经过自注意力层和神经网络层处理后得到的结果向量依次传入下一个Transformer模块。

采用了HuggingFace提供的GPT-2模型的小版本作为对话生成实验的基础，该版本采用12层、768维隐藏状态和12个注意头的Transformer架构，使用预先训练好的GPT-2字节对编码(BPE)分词器，它有一个50,282个单词的扩展词汇表，对文本进行分词。

Claims

1.一种融合多类型知识库和推理技术的文本生成算法，其特征在于，包括以下步骤：

(1)生成式常识模型COMET的训练：

(2)对话文本的事件集合与关键词集合的提取；

(3)外部知识的生成；

(4)知识增强型对话的生成；

2.如权利要求1所述的融合多类型知识库和推理技术的文本生成算法，其特征在于，步骤(1)所述COMET模型的训练，包括以下步骤：

(11)采用ATOMIC知识库和ConceptNet知识库作为知识种子集训练COMET；

(12)COMET采用GPT语言模型架构，使用多头缩放点积注意的多个Tansformer块和全连接层来编码输入文本；

(13)COMET在将输入文本的每个单词传入神经网络层之前，自注意力机制为输入文本序列中每一个单词赋予一个相关度得分，再对他们的向量表征求和，得到最终自注意力层的输出。

3.如权利要求1所述的融合多类型知识库和推理技术的文本生成算法，其特征在于，步骤(2)所述对话文本的事件提取与关键词提取，包括以下步骤：

4.如权利要求1所述的融合多类型知识库和推理技术的文本生成算法，其特征在于，步骤(3)所述外部知识的生成，包括以下步骤：

(31)将抽取出的事件集合和关键词集合分别作为COMET模型的输入；输出相应的常识知识与推理知识；

(32)在步骤(31)的解码过程中，采用集束搜索策略选取COMET生成的事件或关键词作为文本生成的外部知识。

5.如权利要求1所述的融合多类型知识库和推理技术的文本生成算法，其特征在于，步骤(4)所述注意力机制中，注意力矢量的公式为：

m＝MLP([MHA(x)；MHA(r)])