CN112115238B

CN112115238B - 一种基于bert和知识库的问答方法和***

Info

Publication number: CN112115238B
Application number: CN202011177960.7A
Authority: CN
Inventors: 廖伟智; 黄明彤; 阴艳超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-11-15
Anticipated expiration: 2040-10-29
Also published as: CN112115238A

Abstract

本发明公开一种基于BERT和知识库的问答方法和***，应用于信息检索领域，针对现有的知识库问答***存在的缺陷，本发明构分别建基于BERT‑CRF和语言模型的命名实体识别模型，与基于BERT和语言模型的文本相似度二分类模型；并对两个模型进行训练，采用训练完成的两个模型对待解答的问题语料进行处理，能得到该问题的正确答案，并自动改写回答。

Description

一种基于BERT和知识库的问答方法和***

技术领域

本发明属于信息检索领域，特别涉及一种问答搜索技术。

背景技术

传统的问答搜索，基于关键字检索，未考虑到问题文本的语义信息。知识库问答***，提问者通过输入具体的问题文本，对问题文本在线分析处理，随后进行检索输出最匹配的答案文本，得到对提问的快速、精准回答。

知识库问答***和方法主要分为三类：

1)基于信息检索的方法

通过从问题文本中提取问题实体以及属性关系，随后在知识库中进行检索。

2)基于语义分析的方法

通过在知识库中检索问题文本的逻辑表达式，得到检索结果再转换为答案。

3)基于深度学习的方法

通过对问题文本的预处理，得到向量化的输入，同时将知识库中的三元组文本，映射到向量空间，通过相似度的分析计算，得到相似度最高的三元组结果。

现有技术缺陷：

1、基于语义分析的方法，在逻辑表达式和自然语言语义之间存在障碍；

2、基于信息检索的方法，不能分析问题文本中的语义信息，尤其不能对上下文的信息进行充分利用，得到对实体的歧义消除；

3、现有模型如CNN、RNN、Bi-LSTM等，其模型训练效果，准确度、F1值等没有BERT、Transformer等前沿模型的效果好，缺少对问题文本内部的字或词之间的相关性分析。

发明内容

为解决上述技术问题，本发明提出一种基于BERT(Bidirectional EncoderRepresentations from Transformers)和知识库的问答方法和***。

本发明采用的技术方案之一为：一种基于BERT和知识库的问答方法，包括：

A、获取用于构建知识库以及用于BERT下游任务训练的问答语料，并进行预处理；

B、根据步骤A预处理后的问答语料，构建问答知识库；

C、根据步骤A预处理后的问答语料，构建基于BERT的语言模型；

D、根据步骤C获取BERT语言模型的训练问答语料数据，进行标注，形成标注语料；

E、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料，构建基于BERT-CRF和语言模型的命名实体识别模型；

F、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT和语言模型的文本相似度二分类模型；

G、利用步骤E得到的BERT-CRF(Conditional Random Fields)模型和步骤F得到的BERT和语言模型的文本属性二分类模型，使用标注的语料分别进行训练，分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型；

H、利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型，再结合步骤B得到的问答知识库，对待解答的问题语料进行处理，得到该问题的正确答案，并自动改写回答。

所述步骤A预处理后的问答语料包括：实体标注数据集合、根据实体标注数据集合得到的用来匹配句子相似度的样本集合、三元数组集合，所述三元数组集合包括问题实体、属性实体和答案文本。

步骤B采用三元数组结合构建问答知识库。

本发明采用的方案之二为：一种基于BERT和知识库的问答***，包含有:问题文本输入模块，用于输入问题文本，并将文本向量化；BERT-CRF命名实体识别模块，用于对问题文本进行命名实体识别，识别出问题实体；知识库检索模块，用于对问题实体进行检索，得到候选的三元组实体，将候选属性反馈给BERT文本属性识别模块，同时将BERT文本属性识别模块反馈回来的最佳属性结合问题实体，得到最后的最佳三元组；BERT属性识别模块，用于对候选的属性和问题文本进行相关性分析，得到最佳属性，反馈回知识库；回答生成模块，用于对知识库检索模块得到的最佳三元组改写为答案文本，输出给提问者。

本发明的有益效果：本发明的基于BERT和知识库的问答方法即***，通过结合BERT-CRF命名实体模型和BERT文本相似度二分类模型，利用多头注意力机制，更好的利用了字与字或词与词之间的关系，通过BERT词嵌入得到了更多层次的语义表示，其中BERT-CRF在命名实体识别模型在NLPCC-ICCPOL 2016KBQA公开数据集上测试的平均F1值达到了99.4％，提高了在问答过程中的识别准确性，结合检索知识库，得到更为准确的回答。

附图说明

图1为本发明的方案流程图；

图2为本发明实施例提供的BERT预训练语言模型总体构架示意图；

图3为本发明实施例提供的双向Transformer层结构示意图；

图4为本发明实施例提供的基于BERT-CRF和语言模型的命名实体识别模型；

图5为本发明实施例提供的基于BERT和语言模型的文本相似度二分类模型；

图6为本发明实施例提供的基于BERT和知识库的问答***结构框图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示，本发明的一种基于BERT和知识库的问答方法，包括以下步骤：

B、根据步骤A预处理后的问答语料，构建问答知识库，由问题实体，属性实体，答案文本组成三元组，存放为问答知识库；

E、根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT-CRF和语言模型的命名实体识别模型；

G、利用步骤E得到的BERT-CRF模型和步骤F得到的BERT和语言模型的文本属性二分类模型，使用标注的语料分别进行训练，分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型；

所述步骤A中，对获取用于构建知识库以及用于BERT下游任务训练的问答语料，并进行预处理。具体包括以下步骤：

A1、将原始问答对数据切分为训练集、验证集、测试集，其中每一对数据包含有问题文本、问题实体、属性实体、答案文本这四个组成部分；

原始数据示例：

专利有哪些类型？(问题文本)；专利(问题实体)；类型(属性实体)；发明、实用新型和外观设计(答案文本)；

A2、将原始问答对数据自动生成训练集、验证集、测试集生成实体标注数据，即构建用来训练实体识别的样本集合，构造实体识别训练集、验证集、测试集，实体序列标注，用于训练BERT-CRF模型；

A3、将A2步骤中通过实体识别训练集、验证集、测试集中的数据，构建出用来匹配句子相似度的样本集合构造属性关联训练集、验证集、测试集，用于二分类任务，即用于训练BERT二分类模型；

A4、处理用于构建问答知识库的原始数据，将原始的包含有问题文本、问题实体、属性实体、答案文本的数据，处理成为干净的三元组数据集合，处理后的三元组数据集合包括有问题实体、属性实体和答案文本。

三元组数据示例：

{(问题实体)，(属性实体)，(答案文本)}

{专利，类型，发明、实用新型和外观设计}

将A4中处理后的三元组数据集合，加载存放进数据库中。

如步骤C所述，通过步骤A预处理后的问答语料，构建基于BERT的语言模型。步骤如下：

构建BERT预训练语言模型，该模型有着强大的语言特征提取能力，方便下游任务在线提取特征，BERT预训练语言模型总体构架如图2所示，其构建过程包括以下分步骤：

C1、构建Embedding层，所述Embedding层由三种Embedding(Token Embeddings、Segment Embeddings、Position Embeddings)求和而成：

Token Embeddings是词向量，第一个单词是CLS标志，可以用于之后的分类任务

Segment Embeddings用来区别两种句子，因为预训练不光做LM还要做以两个句子为输入的分类任务

Position Embeddings是三角函数学习出来的

C2、Masked LM，用于训练深度双向的语言表示，即遮盖住原始语料的一部分，之后再预测被遮盖住的部分词或字，随机mask每一个句子中15％的字，用其上下文来做预测，其中，80％是采用[mask]，例如“专利有哪些类型？”→“专利有哪些[mask][mask]？”，10％是随机取一个词来代替mask的词，“专利有哪些类型？”→“专利有哪些地方？”，10％保持不变，“专利有哪些类型？”→“专利有哪些类型？”。

C3、构建双向Transformer层结构，是基于自注意力机制的深度网络，结构如图3所示；

该层结构的关键部分就是自注意力机制，它主要是通过同一个句子中的词与词之间的关联程度调整权重系数矩阵来获取词的表征：

其中：Q表示表Query向量，K表示Key向量，V表示Value向量，

R表示全体实数的集合，d_k为Q、K的输入向量维度，

为惩罚因子，通过自注意力机制，关联了一个句子内的字或词语的，一定程度上表示了一句话中不同词或字的相关性。

其中每一个子层(自注意力机制层、前馈神经网络层)都会接一个残差Add模块和一个Normailize层归一化模块，即为图3中的Add&Normailize层，残差连接是为了解决网络训练困难的问题，层归一化是在最后一维上做归一化，可以防止层内的数值变化过大，加速模型的训练过程，使其更快的收敛。

步骤D获取BERT语言模型的训练问答语料数据，进行标注，形成标注语料。

D1、BERT-CRF实体识别处理语料部分采用BIO标注，因为只需标注出问题实体，不用分多个实体类型标注，统一使用一种基于字的BIO标注。示例：

专/利/有/哪/些/类/型？→B-NER/I-NER/O/O/O/O/O

D2、标注BERT属性相似度模型训练语料，采用0、1标注，同时随机自动采样5条负样本，示例如下，由“问题+属性+0/1”组成。

步骤E根据步骤C得到的BERT语言模型和步骤D预处理后的标注语料构建基于BERT-CRF和语言模型的命名实体识别模型，如图4所示，包括以下分步骤：

E1、构建用于下游实体识别任务的实体识别模型，BERT原理同步骤C。

E2、CRF层，通过考虑标签之间的相邻关系获得全局最优标签序列，用来分割和标记序列数据，是一种根据输入序列预测输出序列的判别式方法。CRF应用到命名实体识别中是在给定需要预测的文本序列X＝{x1,x2,···,xn}，根据BERT模型的输出预测序列Y＝{y1,y2,···,yn}，定义评估分数计算公式如:

其中，W表示标签迁移矩阵，W_i,j表示标签i转移为标签j的分数，n为序列长度，

表示该位置的第y_i个标签的得分。

P计算概率公式表示原始序列基于预测序列的对应概率。

F1、构建Bert下游任务用于属性相似度训练以及测试问题属性。结构如图5所示。

步骤G利用步骤E得到的BERT-CRF模型和步骤F得到的BERT和语言模型的文本属性二分类模型，使用标注的语料分别进行训练，分别得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型；

步骤H利用步骤E、F得到带有参数权重的BERT-CRF语言模型和BERT文本相似度二分类模型，再结合步骤A得到的问答知识库，对待解答的问题语料进行处理，得到该问题的正确答案，并自动改写回答。

H1、问题文本通过带有参数权重的BERT-CRF模型，在线提取实体，查询知识库得到候选三元组{(问题实体)，(属性实体)，(答案文本)}。

H2、问题文本通过BERT文本属性相似度二分类模型，将属性实体与问题文本进行相关性预测，得到标签为1的匹配。

H3、得到准确的三元组文本，进行正确答案的改写，输出问题的答案。

如图6所示为本发明的***部分，包含：问题文本输入模块，用于输入问题文本，并将文本向量化；BERT-CRF命名实体识别模块，用于对问题文本进行命名实体识别，识别出问题实体；知识库检索模块，用于对问题实体进行检索，得到候选的三元组实体，将候选属性反馈给BERT文本属性识别模块，同时将BERT文本属性识别模块反馈回来的最佳属性结合问题实体，得到最后的最佳三元组；BERT属性识别模块，用于对候选的属性和问题文本进行相关性分析，得到最佳属性，反馈回知识库；回答生成模块，用于对知识库检索模块得到的最佳三元组改写为答案文本，输出给提问者。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于BERT和知识库的问答方法，其特征在于，包括：

B、根据步骤A预处理后的问答语料，构建问答知识库；

C、根据步骤A预处理后的问答语料，构建基于BERT的语言模型；所述步骤C包括以下分步骤：

C1、构建Embedding层，所述Embedding层由三种Embedding求和而成，所述三种Embedding包括：Token Embeddings、Segment Embeddings、Position Embeddings；

C2、Masked LM，用于训练深度双向的语言表示，具体的：遮盖住原始语料的一部分，之后再预测被遮盖住的部分词或字，随机mask每一个句子中15％的字，用其上下文来做预测，所有原始语料中，80％是采用[mask]，10％是随机取一个词来代替mask的词，剩下的10％保持不变；

C3、基于自注意力机制构建双向Transformer层结构；

2.根据权利要求1所述的一种基于BERT和知识库的问答方法，其特征在于，所述步骤A预处理后的问答语料包括：实体标注数据集合、根据实体标注数据集合得到的用来匹配句子相似度的样本集合、三元数组集合，所述三元数组集合包括问题实体、属性实体和答案文本。

3.根据权利要求1所述的一种基于BERT和知识库的问答方法，其特征在于，步骤B采用三元数组结合构建问答知识库。

4.根据权利要求1所述的一种基于BERT和知识库的问答方法，其特征在于，所述自注意力机制，通过同一个句子中的词与词之间的关联程度调整权重系数矩阵来获取词的表征：

其中：Q表示表Query向量，K表示Key向量，V表示Value向量，d_k为Q、K的输入向量维度，

为惩罚因子。

5.根据权利要求1所述的一种基于BERT和知识库的问答方法，其特征在于，步骤D包括：

D1、BERT-CRF实体识别处理语料部分采用BIO标注；

D2、标注BERT属性相似度模型训练语料，采用0、1标注。

6.一种基于BERT和知识库的问答***，其特征在于，包括：问题文本输入模块、BERT-CRF命名实体识别模块、知识库检索模块、BERT属性识别模块、回答生成模块；

BERT-CRF命名实体识别模块的构建过程为：

C3、基于自注意力机制构建双向Transformer层结构；

所述问题文本输入模块，用于输入问题文本，并将文本向量化；BERT-CRF命名实体识别模块，用于对问题文本进行命名实体识别，识别出问题实体；知识库检索模块，用于对问题实体进行检索，得到候选的三元组实体，将候选属性反馈给BERT属性识别模块，同时将BERT属性识别模块反馈回来的最佳属性结合问题实体，得到最后的最佳三元组；BERT属性识别模块，用于对候选的属性和问题文本进行相关性分析，得到最佳属性，反馈回知识库；回答生成模块，用于对知识库检索模块得到的最佳三元组改写为答案文本，输出给提问者。