CN116227594A

CN116227594A - 面向多源数据的医疗行业高可信度知识图谱的构建方法

Info

Publication number: CN116227594A
Application number: CN202211742343.6A
Authority: CN
Inventors: 田野; 高勇; 程龙龙; 袁丁
Original assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Current assignee: Zhongdian Yunnao Tianjin Technology Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-06

Abstract

本发明公开了面向多源数据的医疗行业高可信度知识图谱的构建方法，涉及到医疗信息化技术领域，包括以下步骤：S1，可信知识源评估；S2，知识源采集；S3，知识源分析；S4，知识抽取；S5，知识质量评估和融合；S6，知识图谱构建。本发明中面向多源数据的医疗行业高可信度知识图谱的构建方法，方法流程更加优化，增加了知识源可信度评估、知识源结构分析、知识图谱本体设计和知识抽取模型训练等步骤，细化了知识源评估、知识可信度计算方法和基于预处理的知识抽取模型等技术细节，调整了知识融合和知识质量评估的先后关系，最终完成了面向医疗领域高可信度知识图谱构建的全流程方案。

Description

面向多源数据的医疗行业高可信度知识图谱的构建方法

技术领域

本发明涉及医疗信息化技术领域，特别涉及面向多源数据的医疗行业高可信度知识图谱的构建方法。

背景技术

随着大数据、AI(人工智能)与医疗行业的结合，基于知识化数据的认知智能越来越受到业界的关注，基于知识推理进行导诊、辅诊已开始在一些医教进行试用，基于AI的病案、处方的辅诊检查也成为医疗智能化的必然趋势。医疗AI要求准确性高，容错性差，AI模型的认知基础就是通过知识处理技术建立的知识图谱。构建医疗领域的知识图谱，其核心在于知识图谱中信息的高可靠性，这与其他领域追求知识的完整性有较大差别。

现有关于“医疗领域知识图谱构建方法、装置、设备及存储介质”的技术方案(专利申请号为：CN20201059233.3)，此方案描述了医疗领域知识图谱构建方法的方法和过程，其中大体流程包括知识源采集，知识抽取形成知识库，知识数据加工，知识数据质量评估，知识图谱构建和知识图谱医学相关知识的智能问答应用。

但医疗领域知识图谱构建方法依旧有待优化提升。

因此，提出面向多源数据的医疗行业高可信度知识图谱的构建方法来解决上述问题很有必要。

发明内容

本发明的目的在于提供面向多源数据的医疗行业高可信度知识图谱的构建方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：面向多源数据的医疗行业高可信度知识图谱的构建方法，包括以下步骤：

S1，可信知识源评估：对知识源的可信度进行评估，分离出可信度较高的知识源；

S2，知识源采集：对完成可信度较高的知识源的知识采集和存储；

S3，知识源分析，半结构化文本处理：对知识源进行知识结构分析和知识元素的半结构化文本处理；

S4，知识抽取：基于知识结构分析的结果，对半结构化文本的文本使用NLP技术进行文本抽取，形成以知识三元组为表示形式的基础知识结构；

S5，知识质量评估和融合，基于业内标准对医疗实体进行标准化，完成知识的融合；

S6，知识图谱构建，对抽取的知识三元组进行知识质量的评估，利于知识溯源技术降低众包人员的知识要求，提高知识评估的效率和质量，将存在异议的知识将被进行标记或去除，基于融合后的知识三元组和知识图谱的本体设计，利用图计算技术形成高可信度的医疗行业知识图谱，可用于导诊、辅诊等的智能推理辅助应用的基础支撑。

优选的，S2中知识源采集的同时开展对医疗领域知识图谱的本体设计。

优选的，S2中基于知识图谱的本体设计的需求，开发对于的NLP模型，用于S4中知识三元组的抽取。

优选的，S1中对知识源的可信度进行评估，知识源可信度评估的结果是一个后续知识可信度评估过程中需要用到的一个系数，每个知识源的可信度系数按如下三个维度标准进行评估。

优选的，S4中知识三元组为每个段落形成一个存储单元，每个知识点形成一个至少三层的树状结构存储形式，即知识点-知识描述结构-文本段落。

优选的，医疗领域知识图谱的本体设计包括对实体、实体属性、关系、关系属性的设计。

优选的，基于现有知识抽取模型，对第三步形式的半结构化文本数据进行知识抽取，获取以“知识点-知识描述结构-文本段落”为知识表达方式的知识三元组，并对抽取的每个三元组记录具体的出处和位置。

本发明的技术效果和优点：

本发明中面向多源数据的医疗行业高可信度知识图谱的构建方法，方法流程更加优化，增加了知识源可信度评估、知识源结构分析、知识图谱本体设计和知识抽取模型训练等步骤，细化了知识源评估、知识可信度计算方法和基于预处理的知识抽取模型等技术细节，调整了知识融合和知识质量评估的先后关系，最终完成了面向医疗领域高可信度知识图谱构建的全流程方案。

本发明技术方案的优化，知识抽取作为知识图谱构建的核心技术，基于传统机器学习的实体识别方法取得了很大的成功，可以借助丰富的外部知识。

本发明更加聚焦知识图谱的高可信度和质量，具体区别如：在整个工程前期增加了知识图谱设计过程，提高了方案的可用性；在知识源采集的过程中，增加知识源的评价方法，从根本上保障知识来源的可靠性；知识源采集后进行知识结构分析，形成原始知识库，知识抽取的过程基于原始知识库进行，充分利用原始知识源的知识架构，提高了知识抽取效率和准确度；知识数据加工算法基于最新技术方案进行了优化；知识质量评估增加了知识“三元组”的回溯验证，极大降低了“众包”验证的成本；在知识图谱构建过程中采用实体标准化技术，增加了构建的知识图谱标准性和一致性。

附图说明

图1为本发明面向多源数据的医疗行业高可信度知识图谱的构建方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1所示的面向多源数据的医疗行业高可信度知识图谱的构建方法，本发明中提出面向医疗行业的高可信度知识图谱构建方法和流程，其中关于知识源评估和可信度计算部分是方案的重点内容；

本发明中提出高可信度知识源的获取、知识源结构分析、知识抽取、知识图谱元素溯源的方法，这些方法可以大大降低知识图谱的构建成本，是技术优化的核心内容。

首先对多元医疗知识数据源进行可信度评估，形成各个知识源的可信度系数；

对完成可信度较高的知识源的知识采集和存储；

对知识源进行知识结构分析和知识元素的半结构化文本处理；

同时开展对医疗领域知识图谱的本体设计；

基于知识图谱的本体设计的需求，开发对于的NLP(自然语言处理)模型，用于知识三元组的抽取；

基于知识结构分析的结果，对半结构化文本的文本使用NLP技术进行文本抽取，形成以三元组为表示形式的基础知识结构；

基于业内标准对医疗实体进行标准化，完成知识的融合；

对抽取的知识三元组进行知识质量的评估，利于知识溯源技术降低众包人员的知识要求，提高知识评估的效率和质量，将存在异议的知识将被进行标记或去除；

基于融合后的知识三元组和知识图谱的本体设计，利用图计算技术形成高可信度的医疗行业知识图谱，可用于导诊、辅诊等的智能推理辅助应用的基础支撑。

为进一步更加详细的阐述本方案，下面结合方法流程图，对每一步骤进行详细说明：

第一步，对多个知识源进行可信度评估，知识源可信度评估的结果是一个后续知识可信度评估过程中需要用到的一个系数(Rn)，每个知识源的可信度系数按如下三个维度标准进行评估：医疗相关性、发表机构的权威性和内容的完整性。对知识源的评估采用专家法，具体原则如：在医疗相关性判断中，医疗文献数据的行业相关性应高于医疗百科数据，医疗百科数据的行业相关性应高于医疗健康养身类数据等；权威性判断过程中，医疗教科书和临床诊疗指南的权威性应高于专病领域的分析报告，高于领域论文、文献；在完整性上，包含医疗全科数据的知识源的价值高于专科疾病的数据库的价值，专病专科数据库的价值高于单独几种疾病的文献。基于以上原则，通过专家讨论，完成知识源n的可信度系数(Rn)的评估，系数的取值范围Rn＝{x|0<x<1}，n表示任意知识源的编号。

第二步，知识源采集，根据第一步知识源的系数的评估，对可信度较高的知识源进行数据采集，具体应参考专家建议。目前医疗行业描述知识的方式以文字形式为主，因此知识源采集之后的存储应采用文档形式进行统一管理。

第三步，知识源的结构分析和文本的半结构化处理，绝大多数的知识源本身就对其记录的知识进行了分类处理，给个独立的知识点也大多保留了一种特有的知识结构，充分利用这些先验知识，可以大大提高首先知识抽取的效率和质量。因此，本方案增加了知识源的结构解析内容，将各个知识源的结构解析之后，应进行相互映射，如：知识源A和知识源B都有关于疾病的知识描述，知识源A的知识描述结构包括了基本信息、病因、临床表现、检查、诊断、鉴别诊断、治疗等内容；知识源B则包括了综述、历史、类型和病因、临床表现、诊断、并发症、疾病自测、治疗、护理等内容。其中A的基本信息、病因、临床表现、诊断、治疗等内容与B的综述、类型和病因、临床表现、诊断、治疗等部分的内容相近或相似，应建立一定的映射关系。基于这些存在映射关系的内容，后续知识三元组的抽取结构应该相近或相同，可以作为知识可靠性评估的重要依据。完成知识源的结构解析之后，将知识源的每个结构内容中的文字进行段落分割，每个段落形成一个存储单元，每个知识点形成一个至少三层的树状结构存储形式，即知识点(根节点)-知识描述结构(二、三级节点)-文本段落(叶子节点)。以便于后续应用NLP技术对文本内容进行知识抽取。

第四步，面向医疗领域知识图谱的本体设计，医疗领域的知识图谱的设计包括对实体、实体属性、关系、关系属性的设计，如实体可包括：疾病、药物、检查和检验等，关系中类比较多样，需根据业务需要进行具体实体和关系的设计。

第五步，根据知识图谱设计需求，开展基于NLP技术的知识抽取模型的开发。目前，在自然语言处理研究领域，由于硬件算力的逐渐增强，语言表征越来越通用。使得自然语言处理任务获得了非常有助力，直接免除了从零开始训练新模型的任务环节。采用预训练模型，研发人员可专注于学习基于上下文的词嵌入，编码器在下游任务中仍会用于词在上下文中的语义表示。对于大多数的自然语言处理任务而言，如何构建一个大规模的，正确率高的，有标签的数据集是一项很大的挑战。相反，大规模的无标签语料是相对容易构建的。那么，如何充分利用这些无标签数据，通过它们获取一个好的语言表示，再将这些表示用于其他任务是研究的重点。现有语言模型领域最流行的是预训练任务，同时也可以有效地解决很多自然语言处理问题。针对预训练模型的使用，可以采用特征提取和模型微调进行模型迁移。当采用特征提取时，预训练模型可以被看作是一个特征提取器。除此之外，应该采用内部层作为特征，因为它们通常是最适合迁移的特征。尽管两种不同方式都能对大多数自然语言处理任务效果有显著提升，但以特征提取的方式需要更复杂的特定任务的架构。因此，微调是一种更加通用和方便的处理下游任务的方式。在这一部分，选用BERT作为预训练模型。BERT采用了多层双向Transformer编码器。在BERT中，令L为Transformer块的层数，H为隐层大小，A为自注意力头的数量。一般情况下，设置前馈层的大小为4H，BERT为科研者提供了两种不同大小的预训练模型：

BERT_BASE:L＝12,H＝768,A＝12参数总量为100M

BERT_LARGE：L＝24,H＝1024,A＝16参数总量为340M

在此问题中，使用BERT，使得序列标注的准确率以及相应的训练效率均达到新的水平。通过实践经验表明，“BERT+CRF”组合模型，可同时解决中文分词和部分词性标注两项任务，并且在训练速度和准确率均高于其他模型。因此该方法能够高质量的完成中文文本的序列标注任务。

第六步，基于现有知识抽取模型，对第三步形式的半结构化文本数据进行知识抽取，获取以“实体-关系-实体”(知识点-知识描述结构-文本段落)为知识表达方式的知识三元组。并对抽取的每个三元组记录具体的出处和位置。

第七步，对第六步抽取的三元组进行实体标准化。实体标准化的依据可参考如下，疾病类按ICD-10/ICD-11的标准进行标准；药品可依据国家药监局提供的药品名录进行标准化；检查、检验可参考XX进行标准化等等。标准化的目的是将知识源中统一概念的不同描述方式进行统一，以便于后续知识验证和知识质量评估的需要。

第八步，知识质量评估，知识质量评估是构建高可信度知识图谱的重要环节，本方案采用算法评估和人工核验两种方式进行质量评估。算法核验的方式，包括对三元组数量统计、可信度计算和可信阈值设计。通过知识的标准化，可以统计从不同知识源提起到相同的三元组的数量，其中单一知识源中任意三元组x出现的次数可记为Xn＝cnt(x)；则面向单一知识源的知识信任度看定义为P(x)

r(Xn)＝{0|Xn＝0；0.8|Xn＝1；1|Xn>1}

因此可得出面向多知识源的任意三元组x的可信度公式如下：

m为相关知识源的总数，在相关性较高的一组知识源中，出现相似知识点给概率较高，利用这一特点可通过算法阈值评估任意三元组的知识可信度，C(x)的值即为该三元组基于多知识源的数据可信性度，通过设置阈值，可判断可信度高于阈值的知识三元组可以信任，无需再由人工进行判断；C(x)过低的，也可以直接舍去，或几种交与专业度较高的人员审核；C(x)值属于中间区域的，可才采用众包的形式由人工进行审核。人工审核的过程，可以通过查阅三元组出处的方式，并根据相关映射关系的对比，提供人工审核的效率和准确率，大大降低人工审核的成本。

第九步，根据第四步知识图谱的本体模型设计，将质量评估后的可信三元组按本体设计结构进行映射与构建。可以采用同数据库技术或图计算引擎完成知识图谱的构建，并提供相应的知识检索、推理和算法服务。

本发明技术方案的优化，知识抽取作为知识图谱构建的核心技术，基于传统机器学习的实体识别方法取得了很大的成功，可以借助丰富的外部知识，包括***和网站页面，构建了30个字典，并添加了很多非局部特征，研究结果在CoNLL-2003数据集进行评测，F1值达到90.80％。但是，这类方法过多依赖于外部字典以及复杂的特征工程。基于神经网络可以有效处理许多自然语言处理任务。Long Short Term Memory网络一般叫做LSTM，是RNN的一种特殊类型，可以学习长距离依赖信息。LSTM由Hochreiter&Schmidhuber于1997年提出，并在近期被Alex Graves进行了改良和推广。在很多问题上，LSTM都取得了相当巨大的成功，并得到了广泛的使用。LSTM通过巧妙的设计来解决长距离依赖问题。应用于命名实体识别中的“双向LSTM+条件随机场”模型主要由词嵌入层(主要有词向量，字向量以及一些额外特征)，双向LSTM层，以及最后的条件随机场层构成。实验结果表明“双向LSTM+条件随机场”已经达到或者超过了基于丰富特征的条件随机场模型，成为目前基于深度学习的命名实体识别方法中的最主流模型。在特征方面，该模型继承了深度学习方法的优势，无需特征工程，使用词向量以及字符向量就可以达到很好的效果，如果有高质量的词典特征，能够进一步获得提高。语言模型是最流行的预训练任务，同时也可以有效地解决很多自然语言处理问题。针对预训练模型的使用，我们主要有两种方式进行模型迁移：特征提取和模型微调。当采用特征提取时，预训练模型可以被看作是一个特征提取器。除此之外，我们应该采用内部层作为特征，因为它们通常是最适合迁移的特征。尽管两种不同方式都能对大多数自然语言处理任务效果有显著提升，但以特征提取的方式需要更复杂的特定任务的架构。因此，微调是一种更加通用和方便的处理下游任务的方式。在这一部分，本方案选用BERT作为预训练模型。BERT采用了多层双向Transformer编码器。

上述的众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。(就是通过网络做产品的开发需求调研，以用户的真实使用感受为出发点)。众包的任务通常是由个人来承担，但如果涉及到需要多人协作完成的任务，也有可能以依靠开源的个体生产的形式出现。

上述的信息抽取是自然语言处理的一个任务，是指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。是自然语言处理中非常重要的一个子领域。它涉及到信息结构化的提取，可以从简单的非结构化文本中轻松地被机器或程序所理解。在从大规模非结构或半结构的自然语言文本中抽取结构化信息。例如从新闻中抽取时间、地点、关键人物，或者从技术文档中抽取产品名称、开发时间、性能指标等。能从自然语言中抽取用户感兴趣的事实信息，无论是在知识图谱、信息检索、问答***还是在情感分析、文本挖掘中，信息抽取都有广泛应用。由于因特网以文本的形式拥有大量的数据，所以信息抽取***非常重要。他们可以从本文中提取有意义的信息，然后可以用于搜索和问答等应用程序。信息抽取的主要任务有：命名实体识别、实体关系抽取、事件抽取等。其中，实体关系抽取是信息抽取的关键任务之一。

上述的实体关系抽取作为信息抽取的重要任务，是指在实体识别的基础上，从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组。关系抽取的任务是从自然语言文本中抽取出关系三元组，从而提取文本信息。实体关系抽取作为级联任务，分为两个子任务：关系抽取和实体抽取。

上述的实体抽取，又称命名实体识别。主要任务是识别命名实体的文本范围，并将其分类为预定义的类别，学术上所涉及一般包含三大类：“实体类”、“时间类”、“数字类”和7个小类，比如“人”、“地名”、“时间”、“组织”、“日期”、“货币”、“百分比”等。实际研究中，命名实体的确切含义需要根据具体应用来确定，比如，可能需要把产品名称、旅游景点名称等作为命名实体。在面向生物命名实体信息提取时，还包括蛋白质、基因、核糖核酸、脱氧核糖核酸、细胞等特殊生物实体。实体抽取是问答***、翻译***、知识图谱的基础。

关系抽取是实体关系抽取的重要子任务之一，目的是识别文本中实体的目标关系。关系定义为两个或多个实体之间的某种联系，实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系，也称为关系抽取。简单的关系抽取目的是从文本中识别两个实体之间的关系，一般这样的关系抽取称之为二元关系抽取。关系抽取的输出通常是一个三元组(实体1，关系，实体2)。例如，句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国，首都，北京)，(中国，政治中心，北京)和(中国，文化中心，北京)。关系抽取的主要目的，是从文本中识别实体并抽取实体之间的语义关系。是知识图谱构建和信息抽取中的一个关键环节，具有重要的理论意义和广阔的应用前景，为多种应用提供重要的支持。

Claims

1.面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：所述S2中知识源采集的同时开展对医疗领域知识图谱的本体设计。

3.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：所述S2中基于知识图谱的本体设计的需求，开发对于的NLP模型，用于S4中知识三元组的抽取。

4.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：所述S1中对知识源的可信度进行评估，知识源可信度评估的结果是一个后续知识可信度评估过程中需要用到的一个系数，每个知识源的可信度系数按如下三个维度标准进行评估。

5.根据权利要求1所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：所述S4中知识三元组为每个段落形成一个存储单元，每个知识点形成一个至少三层的树状结构存储形式，即知识点-知识描述结构-文本段落。

6.根据权利要求2所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：所述医疗领域知识图谱的本体设计包括对实体、实体属性、关系、关系属性的设计。

7.根据权利要求5所述的面向多源数据的医疗行业高可信度知识图谱的构建方法，其特征在于：基于现有知识抽取模型，对第三步形式的半结构化文本数据进行知识抽取，获取以“知识点-知识描述结构-文本段落”为知识表达方式的知识三元组，并对抽取的每个三元组记录具体的出处和位置。