CN115130465A

CN115130465A - 文献数据集上知识图谱实体标注错误识别方法和***

Info

Publication number: CN115130465A
Application number: CN202210839625.1A
Authority: CN
Inventors: 明朝燕; 刘世壮; 吴明晖
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-09-30
Also published as: WO2024016516A1

Abstract

本发明提出了一种文献数据集上知识图谱实体标注错误识别方法，包括如下步骤：对进行了实体标注的文献数据集进行数据预处理；选择预设数量的采用SentencePiece分词器的预训练模型；基于选取的预训练模型建立相应数量的深度学习网络模型进行训练，记录并保存整个训练过程中的模型及参数作为待选取评委模型；基于模型准确率从待选取评委模型中选取2k个模型作为评委模型，并为它们设置可信参数，k为所选择的预训练模型个数；基于投票机制，使用选取的评委模型选出所述文本数据集中的争议实体；搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，根据重合度和频率对争议实体进行打分，将得分小于判别阈值的争议实体判别为错误实体。

Description

文献数据集上知识图谱实体标注错误识别方法和***

技术领域

本发明涉及计算机自然语言处理技术领域，特别是涉及一种文献数据集上知识图谱实体标注错误识别方法和***。

背景技术

知识图谱已被证明在结构化信息和概念知识建模方面是有效的，构建一个知识图谱通常需要命名实体识别(NER)和关系提取(RE)两个任务，命名实体识别是指从文本数据中识别出命名实体，关系提取是指从一系列离散的命名实体中提取出实体之间的关联关系，通过关系将实体联系起来形成网状的知识网络。高质量的实体标注信息是构建知识图谱的关键一步，保证实体识别的准确率是关系提取的基础。但是在现如今各个领域数据库愈发庞大的背景下，维护一个数据集并保证其中实体标注信息的准确率并非易事。

发明内容

基于上述背景，本发明提出了一种文献数据集上知识图谱实体标注错误识别方法，可用于在专业领域构建高质量的知识图谱，具体采用了如下技术方案：

本发明的第一方面为一种文献数据集上知识图谱实体标注错误识别方法，包括如下步骤：

S1、对进行了实体标注的文献数据集进行数据预处理；

S2、选择预设数量的采用SentencePiece分词器的预训练模型；

S3、基于选取的预训练模型建立相应数量的深度学习网络模型进行训练，记录并保存整个训练过程中的模型及参数作为待选取评委模型；

S4、基于模型准确率从待选取评委模型中选取2k个模型作为评委模型，并为它们设置可信参数，k为所选择的预训练模型个数；

S5、基于投票机制，使用选取的评委模型选出所述文本数据集中的争议实体；

S6、搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，根据重合度和频率对争议实体进行打分，将得分小于判别阈值的争议实体判别为错误实体。

进一步的，步骤S1中，所述数据预处理包括对文献数据集中存在的实体嵌套问题进行处理，具体包括将传统的BIO标签转换成机器阅读理解标签格式，包括上下文、是否包含实体、实体标签、实体开始位置、实体结束位置、文本标识、实体标识qas_id和问题query。

进一步的，步骤S2中，所述的SentencePiece分词器的预训练模型包括XLNet、ELMo、RoBERTa和ALBERT模型。

进一步的，步骤S3具体包括：

S31、通过BertModel和BertPreTrainedModel模块加载各个预训练模型，形成多个下游神经网络；

S32、向所述多个上游神经网络分别输入预处理后的数据，得到多个上下文的语义表示，再通过多个全连接层设置与上游神经网络对应的多个下游神经网络，构成多个深度学习网络模型；

S33、记录并保存各个深度学习网络模型每个epoch学习到的参数，得到整个训练过程中的模型及参数作为待选取评委模型。

进一步的，步骤S4中，所述可信参数的计算公式为:

T＝Softmax(P₁,P₂,...,P_2k)

其中，P_i为第i个评委模型的准确率，T为可信参数。

进一步的，步骤S5具体包括：

S51、将文献数据集的各个实体标注输入评委模型，得到与标签不符的实体标注，记为待投票争议实体；

S52、基于各个评委模型的可信参数，对待投票争议实体进行投票，基于预设得分阈值选出争议实体，其中每个评委模型的可信参数即为对每个实体的票数。

进一步的，步骤S6具体包括：

S61、搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，作为查询实体；

S62、根据n个查询实体对应的重合度D_i和实体频率F_i，以及争议实体本身在文献数据集中的频率μ，对争议实体进行打分，打分计算方式为:

Score_i＝F_i/μ×D_i，i＝(1,2,...,n)

S63、进行n次计算，得到争议实体对应的得分集(Score₁,Score₂,…,Score_n)，若得分集中任意得分小于判别阈值，则将该争议实体判别为错误实体。

进一步的，本发明的方法还包括：

S0、搜集特定领域的文献数据构成文献数据集，并对文献数据集进行实体标注，具体包括：将一整篇文章切成一段段小于256个字符的文本片，采用BIO标注方法，通过人工对每个文本片进行实体标注。

本发明的第二方面为一种文献数据集上知识图谱实体标注错误识别***，包括：

数据预处理模块，其用于对进行了实体标注的文献数据集进行数据预处理；

预训练模型配置模块，其用于配置预设数量的采用SentencePiece分词器的预训练模型；

模型训练模块，其用于基于选取的预训练模型建立相应数量的深度学习网络模型进行训练，记录并保存整个训练过程中的模型及参数作为待选取评委模型；

评委模型生成模块，其用于基于模型准确率从待选取评委模型中选取2k个模型作为评委模型，并为它们设置可信参数，k为所选择的预训练模型个数；

争议实体选择模块，其用于基于投票机制，使用选取的评委模型选出所述文本数据集中的争议实体；

错误查找模块，其用于搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，根据重合度和频率对争议实体进行打分，将得分小于判别阈值的争议实体判别为错误实体。

进一步的，该***还包括：

标注生成模块，其用于对搜集的特定领域的文献数据构成的文献数据集进行实体标注，具体包括：将一整篇文章切成一段段小于256个字符的文本片，采用BIO标注方法，通过人工对每个文本片进行实体标注。

本发明的有益效果在于独创了一种文献数据集上知识图谱实体标注错误识别方法及相应***。它结合了自然语言处理领域中的命名实体识别和机器阅读理解来解决文献数据集中经常会出现的实体嵌套问题，首次提出了一种独特的数据集维护方法，即将多个深度学习模型的训练结果以及它们准确率最高的两个参数模型保留，作为判断数据集是否存在错误的“评委”，并且提出了信任参数的设置方法。既保证了在进行纠错的过程中“评委”拥有不同的可信度和对文本语义信息的熟识度，又保证了拥有足够数量的“评委”。本法发明的方法和相应***在医学领域文献数据集DiaKG上表现良好，同时，这种方法可以很好的扩展到其他的文献数据集上，更高效的构建各个领域高质量知识图谱。

附图说明

图1图1为本发明方法实施例的的基本流程示意图。

图2为本发明一示出实施例的具体流程示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

本发明专注于构建文献数据集知识图谱任务中的命名实体识别和纠错环节。自然语言处理领域中常规的命名实体识别通常不会有实体嵌套的问题，然而在专业领域的文献数据集上，通常会有一段文本包含多个实体这样的情况出现，同时领域专业词句缩写在字典中难以查询，中文文献数据库常常出现中英文混杂的问题。因此本发明在介绍过程中，默认会遇到以上问题，所采用的方法可以解决上面这些问题，同时通用于没有这些问题的文献数据库。

深度学习拥有广泛的应用场景，诸如计算机视觉、自然语言处理、语音分析等领域，本发明采用前沿的深度学习预训练模型，例如XLNet、RoBERTa、ALBERT等，首次提出了一种多模型“投票”纠错的方法，节约了数据标注环节的时间成本和人力成本。

需要说明的是，实施本发明的方案时，深度学习预训练模型的选择未必要局限于本发明所列举的那些模型，专业人员可根据自身需求关注深度学习领域发布的最新预训练模型，来选择适合自身数据集的模型。本说明书中各个超参数的设计也可以在专业人员自身对问题的理解上进行一定的修改。

在深度学习领域中，有些技术和方法已经做得非常模块化了，因此对本领域技术人员来说，附图中某些公知结构及其说明省略是可以理解的。

下面结合附图1-2和具体实施例对本发明的方法和相应***作进一步详细说明。

参见附图1-2，在一示出实施例中，一种文献数据集上知识图谱实体标注错误识别方法，包括如下步骤：

第一步，搜集并建立医学领域糖尿病文献数据集DiaKG，数据集来源于41篇糖尿病指南和共识，均来自权威中文期刊，涵盖了近年来最广泛的研究内容和热点领域，包括临床研究、药物使用、临床病例、诊断和治疗方法等。对其中的文本信息进行标注，具体为：

将一整篇的文章切成一段段小于256个字符的文本片，由AI专家和领域专家采用BIO标注方法对每个文本片进行实体标注，形成进行了实体标注的文献数据集。

需要说明的是，上述步骤仅用于给出产生进行了实体标注的文献数据集的一个示例，而并非本发明的必要步骤。本发明的方法适用于所有的采用类似手段或其它手段生成的已进行了实体标注的文献数据集。

第二步，对进行了实体标注的文献数据集进行数据预处理。

以上述的医学领域糖尿病文献数据集DiaKG为例，该数据集总共包含22050个实体，其类别有:

“Disease”、“Class”、“Reason”、“Pathogenesis”、“Symptom”、“Test”、“Test_items”、“Test_Value”、“Drug”、“Total”、“Frequency”、“Method”、“Treatment”、“Operaction”、“ADE”、“Anatomy”、“Level”。

其中，实体之间相互嵌套，例如“2型糖尿病”，其中“2型糖尿病”是“Disease”类别的实体，“2型”是“Class”类别的实体，可以发现在同一段文本中出现了两中不同类别的实体，这种情况即为实体嵌套，这在文献数据集中非常常见，是必须要面对的问题。

并且在此数据集中，有很多的领域专业语句和英文缩写，例如“HbA1c”是“Test_items”类别，指医学领域中的糖化血红蛋白测试，如果并非医学领域的研究人员很难知道其中含义，也没有刚好完全对应此词的词表。

因此，需要对文献数据集中存在的实体嵌套问题进行预处理。实体嵌套通过机器阅读理解的方法来解决，将传统的命名实体识别BIO标签转换成机器阅读理解标签格式，包括上下文context、是否包含实体impossible、实体标签entity_label、实体开始位置start_position、实体结束位置end_position、文本和实体标识qas_id和问题query。

上述数据集实例中，实体类别总共为17个，则对每个上下文文本片设置17个query，query主要帮助机器确立查询范围，确定此文本片中有无相关的实体，同时query中包含文本信息，可以帮助模型更快的收敛。

query的设置可以参考***，也可以根据研究人员自身对数据集的理解自行设置问题，例如，针对“Disease”实体设置query为“下文是否包含关于疾病的描述，例如1型糖尿病、2型糖尿病等”。具体的预处理格式如下表1所示：

表1

因为在文本"第2次抽血应在服糖后2h整，前臂采血标本测定血糖(从服糖第一口开始计时，到2h整，为2hPG)。"中没有“Disease”实体，所以它关于entity_label＝"Disease"的设置中，start_position＝[]，end_position＝[]，impossible＝true。而文本中有关于“Test_items”的实体，所以impossible＝false，impossible可以在训练过程中帮助机器快速过滤掉不重要的数据，节约时间，qas_id具体构成是“文本id”+"."+“实体id”。

预处理完成后，送入深度学习神经网络中训练时，将query和context组成[CLS]+query+[SEP]+context+[SEP]的格式，标签为start_position和end_position，采用此方法可以存储一段文本信息所有可能的实体标签，有效的解决了实体嵌套问题。

第三步，选择预设数量的采用SentencePiece分词器的预训练模型。

经过数据预处理后得到标注好的输入数据，发现在医学领域糖尿病文献数据集中拥有很多其领域的专业术语英文缩写，导致中文文献数据集实际情况是中英文混杂的，例如在上述context中的"2hPG"，在通常的BERT词表中，这些词语会被映射到"unknown"这种未登录词标识。

因此，应该选择使用SentencePiece分词器的预训练模型，例如RoBERTa、ALBERT、XLNet、ELMo等，这种字节级别BPE词表的好处是能够编码任意输入文本，不会出现未登录词的情况。

在此对RoBERTa、ALBERT、XLNet进行简单的介绍，为实施本发明的技术人员在选择模型时提供一些思路。RoBERTa在BERT的基础上引入动态掩码技术，即决定掩码[MASK]位置和方法是在模型训练阶段实时计算的，同时此预训练模型引用了更多的数据进行训练；ALBERT为了解决训练时参数过大的问题，引入词向量参数因式分解，即隐含层维度≠词向量维度，通过添加全连接层减少了词向量维度，同时引入更复杂的句子顺序预测(SOP)替代传统BERT中的下一句子预测(NSP)任务，能够使预训练模型学习到更多细微的语义差别和语篇连贯性；XLNet使用Transformer-XL作为主体框架，使用双向的自回归语言模型结构，即输入一个字符输出预测的下个字符，这种做法可以避免传统BERT引入人造[MASK]的问题。

第四步，基于选取的预训练模型建立相应数量的深度学习网络模型进行训练，记录并保存整个训练过程中的模型及参数作为待选取评委模型。

在得到预处理后的数据和选择预训练模型后，从transformers包中导入BertModel和BertPreTrainedModel模块来加载选取的各个预训练模型，形成多个上游神经网络。然后向多个上游神经网络分别输入预处理后的数据，得到多个上下文的语义表示，再通过多个全连接层设置与上游神经网络对应的多个下游神经网络，构成多个深度学习网络模型。最后记录并保存各个深度学习网络模型每个epoch学习到的参数，得到整个训练过程中的模型及参数作为待选取评委模型。

此步骤中，数据经过上游神经网络得到文本语义信息，再送入下游网络中，最终通过两个全连接层，分别输出实体开始位置start_prediction和结束位置end_prediction，通过标签start_position和end_position与标签的掩码start_position_mask和end_position_mask计算损失，采用pytorch中的BCEWithLogitsLoss模块，分别得到start_loss和end_loss。start_loss和end_loss可以分别设置不同的权重，这里采用0.5和0.5作为参考，即开始位置和结束位置在计算损失过程中所占权重相同，得到计算合计损失total_loss的公式：

start_loss＝BCEWithLogitsLoss(start_prediction，start_position)*start_position_mask

end_loss＝BCEWithLogitsLoss(end_prediction，end_position)*end_position_mask

total_loss＝(start_loss+end_loss)/2

当然，不同轮次，同一个预训练模型所学习到的语义信息并不相同；不同的预训练模型，所学到的语义信息也不同；因此每个预训练模型都要单独进行一次训练，并且选择保留准确率最高的两个模型。

第五步，基于模型准确率从待选取评委模型中选取2k个模型作为评委模型，并为它们设置可信参数，k为所选择的预训练模型个数。

本示例中，设置6个“评委”，即从分别以RoBERTa、ALBERT、XLNet作为预训练模型的训练结果中选准确率最高的两个模型作为“评委”，根据准确率[P₁，P₂，P₃，P₄，P₅，P₆]通过使用softmax设置不同的可信参数，保证了在对预测错误的数据进行评估时，模型训练得越好其影响程度也越大。本示例中，可信参数的计算公式为：

T＝Softmax(P₁，P₂，...，P_2k)

其中，P_i为第i个评委模型的准确率，T为可信参数。

第六步，基于投票机制，使用选取的评委模型选出所述文本数据集中的争议实体。

首先，将文献数据集的各个实体标注输入评委模型，得到与标签不符的实体标注，记为待投票争议实体。然后，基于各个评委模型的可信参数，对待投票争议实体进行投票，基于预设得分阈值选出争议实体，其中每个评委模型的可信参数即为对每个实体的票数。

本示例中，6个评委模型对实体进行“投票”，每个评委模型的可信参数就是对每个实体的“票数”，每个评委模型的投票对象就是预测结果与标签结果不符的实体，最终得分高过所设阈值的实体被称为“争议”实体。实践中，阈值设置为3.5时，表现最好，可以找出93％的错误实体，同时也不会产生过多的条数，导致判别器判别时间过久。

第七步，搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，根据重合度和频率对争议实体进行打分，将得分小于判别阈值的争议实体判别为错误实体。

首先，搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体，作为查询实体。然后，根据n个查询实体对应的重合度D_i和实体频率F_i，以及争议实体本身在文献数据集中的频率μ，对争议实体进行打分，打分计算方式为:Score_i＝F_i/μ×D_i，i＝(1,2,...,n)。最后，进行n次计算，得到争议实体对应的得分集(Score₁,Score₂,…,Score_n)，若得分集中任意得分小于判别阈值，则将该争议实体判别为错误实体。

具体的，本示例中，获得了经由评委模型“投票”选出的最高争议度实体，将这些实体记录下来，此时这些实体只是“争议”实体，里面仍有不少标签本身是正确的、但是模型能力有限判别错误的实体，因此还要做进一步的筛选。此步骤中，使用到的判别器的时间复杂度为(n×total×log(length))，其中n是“争议”实体个数，total是所有数据条数，length是单条数据长度。因此在上一步中要注意阈值的设计，不要设置太低的阈值导致判别环节时间过长。判别器根据“争议”实体的文本信息，搜索数据集中与其文本信息重合度大于90％的前五个实体，若不足五个就仅取重合度大于90％的实体。根据重合度D、重合度大于90％的该实体频率F和“争议”实体本身在数据集中的频率μ，使用上述打分计算公式进行打分，得到min(num，5)个Score结果，其中num为重合度大于90％的实体个数。实践中，Score<0.045，即代表“争议”实体在整体数据集中并不符合常规，在实验中判别器判别准确率高达98％。

本发明的方法在实施过程中，识别出错误实体后，还可以由AI专家和领域专家进一步审查并在原数据集上修改错误，得到更准确的数据集。

本发明的另一实施例还提供了一种一种文献数据集上知识图谱实体标注错误识别***，包括：

上述***中各模块的具体实现可参加前述方法实施例中的各个步骤，在此不作详细说明。

上述***在应用时，在使用***进行错误实体识别和人工复查的一次次循环中，原数据集在不断的改善修正，因而***中各模型的训练结果也越来越好，找出的错误实体也越来越准确，期间可以调整***中模型的超参数来设置更严苛的判别器。

使用本发明的方法和相应***后，研究人员不需要再去一条条的反复检查整个文献数据集来实现纠错，而只需要等待***将特定的错误实体输出，再确认修改数据集即可，减轻了维护一个庞大的文献数据集知识图谱实体的负担。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种文献数据集上知识图谱实体标注错误识别方法，其特征在于，包括如下步骤：

S1、对进行了实体标注的文献数据集进行数据预处理；

S2、选择预设数量的采用SentencePiece分词器的预训练模型；

2.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S1中，所述数据预处理包括对文献数据集中存在的实体嵌套问题进行处理，具体包括将传统的BIO标签转换成机器阅读理解标签格式，包括上下文、是否包含实体、实体标签、实体开始位置、实体结束位置、文本标识、实体标识qas_id和问题query。

3.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S2中，所述的SentencePiece分词器的预训练模型包括XLNet、ELMo、RoBERTa和ALBERT模型。

4.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S3具体包括：

S31、通过BertModel和BertPreTrainedModel模块加载各个预训练模型，形成多个上游神经网络；

5.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S4中，所述可信参数的计算公式为:

T＝Softmax(P₁,P₂,...,P_2k)

其中，P_i为第i个评委模型的准确率，T为可信参数。

6.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S5具体包括：

7.如权利要求1所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，步骤S6具体包括：

Score_i＝F_i/v×D_i，i＝(1,2,...,n)

8.如权利要求1-7任一项所述的文献数据集上知识图谱实体标注错误识别方法，其特征在于，还包括：

9.一种文献数据集上知识图谱实体标注错误识别***，其特征在于，包括：

10.如权利要求9所述的文献数据集上知识图谱实体标注错误识别***，其特征在于，还包括：