CN116127095A

CN116127095A - 一种序列模型与知识图谱结合的问答方法

Info

Publication number: CN116127095A
Application number: CN202310010370.2A
Authority: CN
Inventors: 林绍福; 郭朝晖; 韩宗旺
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-16

Abstract

本发明公开了一种序列模型与知识图谱结合的问答方法，包括：知识获取处理方法、知识图谱构建方法、模型构建方法、问题判断与答案生成方法。针对不同类型的数据集设计了相应的问答策略，从领域专业知识数据集构建“领域专业知识语义数据”，通过关键词提取和模板匹配获得知识图谱中的专业答案。从领域知识基本问答数据集构建“领域知识基本问答语义数据”，并使用句向量相似度算法获得领域知识聊天数据集的最佳答案，以训练Seq2seq模型，作为知识图谱的补充。结合上述问答策略，本方法既可以回答专业的领域知识，还可以回答日常聊天***。该方法能够准确、高效地回答不同领域的问题，在一定程度上使得问答***能够理解用户的意图，更加智能化。

Description

一种序列模型与知识图谱结合的问答方法

技术领域

本发明涉及自然语言处理领域，尤其是一种基于Seq2Seq模型和知识图谱技术的领域知识中文问答方法。

背景技术

随着互联网信息的爆发式增长，传统的搜索引擎很难满足用户精确检索信息的需求，问答***将问题进行语义化分类，能够更加准确直观的返回对应的答案，提高了用户体验以及使用效率。但是大部分问答***是基于规则构建的，灵活性较差，且需要较多人工干预。知识图谱是Google公司于2012年提出的概念，目标是通过描述真实世界中的各种实体和概念，以及这些实体、概念之间的关系，改善搜索结果。通过构建知识图谱，形成了一个语义网络，在这个基础上，问答***便可以根据知识图谱的实体和关系在一定程度上理解用户的意图，寻找用户真正需要的信息。知识问答往往将用户的提问语句映射到一个结构化查询语句，最终的定位目标是某个知识库中的实体，实体上包含丰富的相关信息，因此，只要准确定位到知识库中的实体，就可以很方便地返回给用户一个精准而简洁的回答。与传统搜索引擎相比，问答***可以更准确、更高效地提供可靠的信息。

目前，国内外已有相当多的学者将基于知识图谱的问答***应用于各种领域。如Wu等人利用自建的精神咨询知识图谱建立了问答***，并利用BiLSTM模型对有***倾向的用户进行检测和干预。Zhang等采用基于Ro Berta-Lattice_LSTM-CRF的问句实体识别方法和基于Ro Berta-Text CNN的问句语义分类方法进行语义分析，实现了一个中文查询平台。WenpenY等人基于卷积神经网络实现了问答，通过深度学习模型将问题和知识图谱元素映射到一个共同的嵌入空间，通过嵌入向量的相似性和相关性获得答案。Yan G等人提出了MCQA问答模型，利用深度学习算法对问题进行分类，构建了具有自动领域词典抽取和问题自动标注的移动医疗问答***。Xing Z等将医学背景信息与Seq2Seq问答模型相结合，选取独立的递归神经网络作为模型的编码器和解码器，建立了医学导诊站自动问答***。以上学者都将问答***与医疗健康领域很好的结合起来，有各自的应用领域。

大量研究提出知识图谱与问答***结合的策略，上述研究大多局限于实现领域专业知识的问答，从而促使本研究探究深度学习模型与知识图谱技术相结合用于基础知识问答，通过针对不同类型的数据集采用不同的策略进行回答，无疑是更加符合用户的需求，问答***的答案更加准确、高效。

发明内容

本发明的目的在于提供一种基于Seq2Seq模型和知识图谱技术结合的领域知识中文问答方法，提供一种自然语言问答的解决方案，针对领域知识不同类型的数据集，设计研发出基于深度学习和知识图谱实现自然语言的问答方法。

本发明通过对三元组抽取、命名实体识别、语义匹配等自然语言处理技术的应用，结合本发明所采用的的Seq2Seq模型、Bert模型以及余弦相似度算法，设计一种领域知识中文问答方法。

为了达到上述目的，本发明采用一下技术方案：为了更好地实现整个方法，选择Python作为方法编写语言。数据预处理阶段使用Pandas和规则匹配实现数据集清洗、数据集划分，模型的搭建与训练主要使用Tensorflow框架进行实现。首先收集并处理领域知识的三类数据集：领域专业知识数据集、领域基础知识问答数据集和领域知识聊天数据集，并将处理后的数据存储起来。通过问题判断中的匹配规则对问题文本进行分类。根据问题的类别制定不同的答案检索方法，从领域专业知识数据集构建“领域专业知识语义数据”。通过关键词提取和模板匹配获得知识图谱中的专业答案。从领域基础知识问答数据集构建“领域基础知识问答语义数据”，并使用句向量相似度算法获得领域知识聊天数据集的最佳答案，以训练Seq2Seq模型，作为知识图谱问答策略的补充。本发明的整体结构图如图1所示。

一种序列模型与知识图谱结合的问答方法，主要包括：

步骤1、知识获取方法

通过DBpedia、Ownthink等大型公开知识图谱，获取已有的领域知识。使用Scrapy+Redis和Selenium工具获取公开数据，进行知识扩展，用以补全知识图谱，通过问答社区关键字搜索，获取一问一答的训练数据。

如图2所示为领域知识获取的爬虫策略。首先向问答社区或其他公开数据提出爬虫请求，利用Selenium工具获取公开数据，使用该工具在网页中自动搜索领域专业知识和领域基础知识的关键词，使用Redis服务器对获取的数据进行调度去重。对得到的数据进行标准化处理后，进行转换转成RDF格式，存储在"领域知识中文知识图谱"中。

步骤2、数据预处理

为了使模型具有更好的训练效果，需要对数据进行预处理。由于聊天数据集会包含大量无效数据，因此需要对其进行数据清理工作。本发明主要清理数据集中的非文本内容、特殊标题和重复文本等。经过清理后的数据集可能包含大量不连续信息。通过编写规则，本发明合并了符合规则的信息。具体规则如下：

1)消息ID一致；

2)用户身份相同；

3)在多条消息之间没有身份切换；

4)多条消息的最大时间间隔不超过1小时；

5)同一对提问者和回答者之间的对话被组合成一对问答。

在上诉操作之后，可以获得可用于模型训练的数据集。

步骤3、构建Seq2Seq中文对话模型

基于Transformer模型的双向编码器表示的Bert模型在自然语言处理中取得了十分显著的结果。Bert是一种预训练语言模型，可以将文本中无法直接计算的词语转换为向量或矩阵。通过这种方式，向量化的数字反映了文本中词语的含义。同时，它突破了以往的语言模型将一个词对应于一个向量的问题，导致无法正确表示多义词。Bert的体系结构是一种多层双向Transformer编码器，输入特定格式的数据后，输出由多个Transformer组成的黑盒模型的训练结果。因此，Bert模型可以联合左右上下文条件来获得多义词的当前含义。

Bert模型的第一阶段称为“预训练”，即使用未标记的语料库训练语言模型。第二阶段称为“微调”。本阶段将使用预先训练的语言模型来完成特定的NLP下游任务。Bert模型的最后一层的值与训练任务的目标值太接近，并且Bert模型的前几层可能没有完全学习语义特征。因此，本实验选择Bert倒数第二层作为句子向量。本发明使用领域基础知识问答数据集对Bert进行微调。使用微调后的Bert模型对领域基础知识问答数据集中的问题进行向量化，并将句向量存储在现有的领域基础知识问答语义数据中，通过句向量相似度匹配的方法找到最佳答案。

在专业领域中，日常问答不仅包括专业和基本问题，还包括闲聊的业余问题。知识图谱在存储有限和固定的专业知识方面表现突出。然而，这意味着知识图谱很难灵活处理闲聊的业余问题。为了解决这个问题，本发明引入了Seq2Seq模型。Seq2seq模型是传统递归神经网络(RNN)的变体，其框架包含编码器和解码器。该模型接受输入句子，即向量序列，其输出也是向量序列。在编码器-解码器框架中，编码器将序列转换为固定长度向量，然后解码器将该向量转换为所需序列并输出。在本发明中，LSTM模型用于模型的编码器和解码器部分。

简单的Seq2Seq模型具有处理短句的显著能力，但在处理长句时存在问题。这是因为编码器将所有输入序列编码为统一的语义向量，然后由解码器解码。因此，由于语义向量包含原始序列中的所有信息，其有限的长度将降低模型的准确性。此外，如果以上述方式实现，则仅使用最后一个隐藏层状态，并且信息利用率低。为了克服这个问题，本发明添加了注意力机制。该注意力机制允许编码器所编译的向量根据解码器当前解码的内容进行实时动态调整。语义向量不再固定，而是不断调整权重以输入不同的语义向量。这可以增强神经网络的记忆能力，来完成复杂的序列到序列的学习任务。

余弦相似算法用于比较两个事物的相似性，本发明使用该算法计算问题文本与知识图谱中现有问题之间的相似度。向量空间中两个向量之间角度的余弦值用于测量两个个体之间的差异。值越接近1，即夹脚越接近0°，表明两个向量更相似；相反，余弦度越接近0，也就是说，夹角越接近90°，两个向量就越不相似。因此，本发明通过计算句子向量之间的余弦距离来获得句子之间的相似性。计算二维向量a和b的余弦的方程如式1所示：

将式1中的向量a和b扩展到n维，向量之间夹角的余弦计算如式2所示:

步骤4、模型训练

本实验对660万个专业领域的脱敏聊天数据集进行预处理后得到了49万对问答文本数据，为确保在具有足够数据进行模型训练的前提下保留一定数据进行测试，本实验选取70％的聊天数据作为训练集。将训练集输入到编写好的程序中，通过运行得到了经过训练的模型。

步骤5、构建知识图谱

知识图谱可以存储大量固定的专业领域知识，从根本上保证内容的准确性。通过知识图谱推理和查询得到的答案来自这些准确的数据，保证了答案的权威性。知识图谱技术的应用可以提高问答***的智能性。本发明中的知识图谱以三元组的形式描述事物，由实体及其相互关系组成。

为了增加知识图谱的数据多样性，进而增加对话***的灵活性，本发明通过整合“领域专业知识语义数据”和“领域基础知识问答语义数据”构建了“领域基本问答知识图谱”。另外，本发明在预训练过程后使用Bert中文模型，计算"领域基本问答知识图谱"中问题的句向量。并且计算得到的问题句向量将以语义数据的形式存储在知识图谱中。“领域基本问答知识图谱”的总体架构如图3所示。

知识图谱构建过程：

步骤1：对于使用爬虫获取的知识以及从大型公开知识图谱获取的数据进行三元组数据标注。

步骤2：训练三元组抽取模型。

步骤3：调用三元组抽取接口进行抽取，并将抽取之后的结果进行存储。

步骤4：对抽取的三元组数据进行审核。

步骤5：将审核之后的数据存储进图数据库对应的space，作为该数据对应的知识库。

步骤6、生成序列模型

将领域基本问答知识图谱和Seq2Seq中文对话模型结合，构建非连续序列对抗生成模型，使用非平衡训练数据集进行模型训练，得到训练好的模型。

步骤7、问题判断与答案生成

传统搜索引擎可以根据用户的请求从可用的网络资源中检索用户最有价值的信息。与之相比，基于人工智能技术的领域知识问答***可以实时分析问题，准确定位用户所需的知识，减少用户的判断和试错成本。

本发明通过字典查询、模板匹配文本和相似度算法计算判断用户所输入的问题文本类型。针对不同的问题类型使用知识图谱推理技术和文本生成技术获得最终答案。为了提高问答***的准确性，本发明将用户提出的问题分为两类，即领域的专业问题和非专业问题。本发明使用领域词典结合模板匹配来判断问题是否涉及专业知识。提取并整合知识图谱中的领域知识属性的关键词，以构建领域专业知识的关键词词典。

通过所构建的词典结合问题类型判断模板，可以实现对问题类型的判断。如果问题涉及领域的专业知识，将关键字与SPARQL模板相结合，在知识图谱中查询最佳答案。使用微调后的Bert模型对领域基础知识问答数据集中的问题进行向量化，并将句子向量存储在现有的“领域基础知识语义数据”中，通过句子向量相似度匹配的方法找到最佳答案。余弦相似度算法用于计算问题文本与知识图谱中现有问题之间的相似度。将小于相似度阈值的问题文本输入训练后的Seq2Seq模型以生成答案文本。本实验的相似度阈值是通过Bert模型结合相似度算法计算100对问题文本的相似度得到的，通过手动检查将阈值设置为0.985。本发明的领域知识问答***架构图如图4。

本发明的创造性主要体现在：

针对目前领域知识问答方法的研究还处于针对回答专业问题方面，专业问题与非专业问题分类回答的研究还不成熟。本发明将知识图谱的逻辑推理语言与深度学习的概率计算技术相结合，为用户灵活地回答两类问题。结合知识图谱技术和深度学习模型的问答***扩展了可以回答的问题类型，同时确保专业性。借助知识图谱中准确可靠的知识，可以回答用户提出的专业问题。使用深度学习模型的文本生成技术作为知识图谱的补充，回答非正式聊天中的非专业问题。通过对用户的问题进行预处理得到问题的类别，进一步提高了问答***获取答案的效率。

附图说明

图1为本发明的基于序列模型与知识图谱结合的问答方法整体结构图

图2为领域知识获取的爬虫策略图

图3为“领域基本问答知识图谱”的总体架构图

图4为本发明的领域知识问答***架构图

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清晰，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供一种序列模型与知识图谱结合的问答方法，具体包括以下步骤：

步骤1、数据收集

通过DBpedia、Ownthink等大型公开知识图谱，下载已有的领域知识。使用Scrapy+Redis和Selenium工具爬取大型公开知识图谱中没有的领域知识，作为知识图谱的扩展，通过问答社区关键字搜索，获取一问一答的训练数据。

步骤2、数据预处理

爬取到的数据是非结构化的数据，在讲这些数据扩展到知识图谱之前，根据实际需求，需要对待索引数据进行一些处理，使用Redis服务器对获取的数据进行调度去重。对得到的数据进行标准化处理后，将其转换转成RDF格式，存储在"领域知识中文知识图谱"中。

同时，获取到的聊天数据集会包含大量无效数据，因此需要对其进行数据清理工作。本发明主要清理数据集中的非文本内容、特殊标题和重复文本等。本发明通过编写规则，将清理后的数据集所包含的不连续信息进行合并。具体规则如下：

1)消息ID一致；

2)用户身份相同；

3)在多条消息之间没有身份切换；

4)多条消息的最大时间间隔不超过1小时；

5)同一对提问者和回答者之间的对话被组合成一对问答。

在上诉操作之后，可以获得可用于模型训练的数据集。

步骤3、数据集划分与训练模型

将收集并处理过的领域知识划分为三类数据集：领域专业知识数据集、领域基础知识问答数据集和领域知识聊天数据集。

本实验对660万个专业领域的脱敏聊天数据集进行预处理后得到了49万问答文本数据。将领域知识聊天数据集以7：3的比例划分为训练集与测试集，即使用34.3万对问答文本数据作为模型训练集，14.7万对问答文本数据作为测试集。

使用Python语言搭建Bert模型和Seq2Seq模型，并将训练集输入到模型中，经过训练后构建完成序列模型。通过测试集检验当前模型对于数据的处理能力。

步骤4、知识图谱构建

本发明通过整合“领域专业知识语义数据”和“领域基础知识问答语义数据”构建“领域基本问答知识图谱”。

本***知识图谱构建过程如下几个步骤：

1、对于使用爬虫获取的知识以及从大型公开知识图谱获取的数据进行三元组数据标注。

2、通过训练集进行三元组抽取模型的训练。

3、对待抽取的数据进行分句。

4、调用三元组抽取接口进行抽取，并将抽取之后的结果进行存储。

5、审核三元组抽取、清洗，重新标注，并将重新标注好的训练数据写入到训练文件。

6、将审核之后的数据存储进图数据库对应的space，作为该数据对应的知识库。

步骤5、生成序列模型

步骤6、问题判断与答案生成

本发明将用户提出的问题分为两类，即领域的专业问题和非专业问题。通过字典查询、模板匹配文本和相似度算法计算判断用户所输入的问题是否为专业问题。

余弦相似度算法用于计算问题文本与知识图谱中现有问题之间的相似度。本发明通过Bert模型结合相似度算法计算100对问题文本的相似度得到相似度阈值，通过手动检查将阈值设置为0.985。使用微调后的Bert模型对领域基础知识问答数据集中的问题进行向量化，并将句子向量存储在现有的“领域基础知识语义数据”中，通过句子向量相似度匹配的方法找到最佳答案。如果该问题与知识图谱中现有问题之间的相似度大于相似度阈值，则该问题涉及领域的专业知识，将关键字与SPARQL模板相结合，在知识图谱中查询最佳答案。如果该问题与知识图谱中现有问题之间的相似度小于相似度阈值，则该问题为非专业问题，即聊天数据，将该问题文本输入训练后的Seq2Seq模型以生成答案文本。

综上所述，本发明通过对Seq2S2q模型和Bert模型的研究和应用，实现了NLP下游任务，例如句子对分类任务、问答任务、命名实体识别任务等。通过对NLP技术的应用，以及通过对专业领域的数据构建的知识图谱，将知识图谱的逻辑推理语言与深度学习的概率计算技术相结合，在一定程度上，使得问答***能够准确地判断问题的类型，并针对不同的问题类型灵活地回答专业问题和非专业问题，使得领域知识问答***更加智能化。

显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例，本发明的保护范围由权利要求书限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种序列模型与知识图谱结合的问答方法，其特征在于，该方法的实施过程如下：

数据预处理阶段使用Pandas和规则匹配实现数据集清洗、数据集划分，模型的搭建与训练使用Tensorflow框架进行实现；收集并处理领域知识的三类数据集：领域专业知识数据集、领域基础知识问答数据集和领域知识聊天数据集，并将处理后的数据存储起来；通过问题判断中的匹配规则对问题文本进行分类；根据问题的类别制定不同的答案检索方法，从领域专业知识数据集构建“领域专业知识语义数据”；通过关键词提取和模板匹配获得知识图谱中的专业答案；从领域基础知识问答数据集构建“领域基础知识问答语义数据”，并使用句向量相似度算法获得领域知识聊天数据集的最佳答案，以训练Seq2Seq模型，作为知识图谱问答策略的补充。

2.根据权利要求1所述的一种序列模型与知识图谱结合的问答方法，其特征在于，知识获取方法如下：

通过DBpedia、Ownthink知识图谱获取已有领域知识；使用Scrapy+Redis和Selenium工具获取公开数据，进行知识扩展，用以补全知识图谱，通过问答社区关键字搜索，获取一问一答的训练数据；

向问答社区或其他公开数据提出爬虫请求，利用Selenium工具获取公开数据，并在网页中自动搜索领域专业知识和领域基础知识的关键词，使用Redis服务器对获取的数据进行调度去重；对得到的数据进行标准化处理后，进行转换转成RDF格式，存储在"领域知识中文知识图谱"中。

3.根据权利要求1所述的一种序列模型与知识图谱结合的问答方法，其特征在于，数据预处理过程如下：

清理数据集中的非文本内容、特殊标题和重复文本；经过清理后的数据集可能包含不连续信息；通过编写规则，合并符合规则的信息；具体规则如下：

1)消息ID一致；

2)用户身份相同；

3)在多条消息之间没有身份切换；

4)多条消息的最大时间间隔不超过1小时；

5)同一对提问者和回答者之间的对话被组合成一对问答；获得用于模型训练的数据集。

4.根据权利要求1所述的一种序列模型与知识图谱结合的问答方法，其特征在于，构建Seq2Seq中文对话模型如下：

基于Transformer模型的双向编码器表示Bert模型将文本中无法直接计算的词语转换为向量或矩阵；

Bert模型的第一阶段称为“预训练”，即使用未标记的语料库训练语言模型；第二阶段称为“微调”；使用预先训练的语言模型来完成特定的NLP下游任务；Bert模型的最后一层的值与训练任务的目标值接近，选择Bert倒数第二层作为句子向量；使用领域基础知识问答数据集对Bert进行微调；

引入Seq2Seq模型接受输入句子，即向量序列，其输出也是向量序列；在编码器-解码器框架中，编码器将序列转换为固定长度向量，然后解码器将该向量转换为所需序列并输出；LSTM模型用于编码器和解码器；

添加注意力机制，允许编码器所编译的向量根据解码器当前解码的内容进行实时动态调整；语义向量不断调整权重以输入不同的语义向量，增强神经网络的记忆能力，来完成复杂的序列到序列的学习任务；

向量空间中两个向量之间角度的余弦值用于测量两个个体之间的差异；余弦值越接近1，即夹脚越接近0°，表明两个向量更相似；相反，余弦度越接近0，也就是说，夹角越接近90°，两个向量就越不相似；通过计算句子向量之间的余弦距离来获得句子之间的相似性；计算二维向量a和b的余弦的方程如式1所示：

5.根据权利要求1所述的一种序列模型与知识图谱结合的问答方法，其特征在于，模型训练过程如下：对660万个专业领域的脱敏聊天数据集进行预处理后得到了49万对问答文本数据，选取70％的聊天数据作为训练集；将训练集输入到编写好的程序中，通过运行得到经过训练的模型。

6.根据权利要求1所述的一种序列模型与知识图谱结合的问答方法，其特征在于，构建知识图谱过程如下：

知识图谱以三元组的形式描述事物，由实体及其相互关系组成；通过整合“领域专业知识语义数据”和“领域基础知识问答语义数据”构建了“领域基本问答知识图谱”；在预训练过程后使用Bert中文模型，计算"领域基本问答知识图谱"中问题的句向量；并且计算得到的问题句向量将以语义数据的形式存储在知识图谱中；

知识图谱构建过程：

步骤1：对于使用爬虫获取的知识以及从大型公开知识图谱获取的数据进行三元组数据标注；

步骤2：训练三元组抽取模型；

步骤3：调用三元组抽取接口进行抽取，并将抽取之后的结果进行存储；

步骤4：对抽取的三元组数据进行审核；

步骤5：将审核之后的数据存储进图数据库对应的space作为对应的知识库；

步骤6、生成序列模型；

将领域基本问答知识图谱和Seq2Seq中文对话模型结合，构建非连续序列对抗生成模型，使用非平衡训练数据集进行模型训练，得到训练好的模型；

步骤7、问题判断与答案生成；

通过字典查询、模板匹配文本和相似度算法计算判断用户所输入的问题文本类型；针对不同的问题类型使用知识图谱推理技术和文本生成技术获得最终答案；为了提高问答***的准确性，将用户提出的问题分为两类，即领域的专业问题和非专业问题；使用领域词典结合模板匹配来判断问题是否涉及专业知识；提取并整合知识图谱中的领域知识属性的关键词，以构建领域专业知识的关键词词典。