CN109670054A

CN109670054A - 知识图谱构建方法、装置、存储介质及电子设备

Info

Publication number: CN109670054A
Application number: CN201811601675.6A
Authority: CN
Inventors: 王尧; 李林峰
Original assignee: Golden Panda Co Ltd; Medical Cross Cloud (beijing) Technology Co Ltd
Current assignee: Golden Panda Co Ltd; Medical Cross Cloud (beijing) Technology Co Ltd; Yidu Cloud Beijing Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-23
Anticipated expiration: 2038-12-26
Also published as: CN109670054B

Abstract

本公开是关于一种知识图谱构建方法、装置、存储介质和电子设备，属于医疗大数据技术领域。该方法包括：将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。本公开能够准确计算实体组成的关系对数据的关系权重，从而准确构建医学知识图谱。

Description

知识图谱构建方法、装置、存储介质及电子设备

技术领域

本公开涉及医疗大数据技术领域，具体而言，涉及一种知识图谱构建方法、知识图谱构建装置、计算机可读存储介质以及电子设备。

背景技术

知识图谱可以用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，在信息检索和信息整合等领域扮演着越来越重要的角色，可以为用户提供更广度、更深度的知识体系。

在医学领域中建立知识图谱时，需要计算医疗实体之间关联关系的权重。相关技术中，使用某项疾病的病历中终止实体出现的总次数以及某项疾病的病历总数目的比值来计算权重。或者是使用某一个医疗关键词计算权重，而不考虑与该医疗关键词存在关联关系的其他医疗关键词。

在上述第一种方式中，利用比值计算时对于常用辅助药物而言，可能常用辅助药物与每种疾病强关联，准确性较差，且不符合医学常识。第二种方式中，基本逆文档频率的计算只考虑一个医疗关键词。若某一类疾病数据占比较大，当出现该疾病的典型症状时，由第二种方式得到该疾病与典型症状之间的权重较小，导致数据挖掘结果与实际情况差别较大，准确率较低。另外，由于权重计算公式固定，不能适用于不同场景，其应用效果无法得到最优，因此灵活性较差，且计算结果不准确。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种知识图谱构建方法、知识图谱构建装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的医疗实体之间的关系权重计算不准确等问题。

根据本公开的一个方面，提供一种知识图谱构建方法，包括：将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

在本公开的一种示例性实施例中，计算所述关系对数据的词频包括：确定包括所述起始实体且与所述终止实体的类型对应的所有实体组成的关系对数据的出现次数；根据所述关系对数据的出现次数以及所有实体组成的关系对数据的出现次数的比值，计算所述关系对数据的所述词频。

在本公开的一种示例性实施例中，根据所述关系对数据中的起始实体和终止实体计算所述终止实体的基本逆文档频率包括：确定与所述终止实体相关的起始实体的类别数量；确定属于所述起始实体的类型的所有实体的类别数量；根据所述起始实体的类别数量以及所述所有实体的类别数量计算所述终止实体的所述基本逆文档频率。

在本公开的一种示例性实施例中，根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重包括：将所述词频和所述基本逆文档频率输入所述权重计算模型，以得到所述关系对数据中的实体之间的关系权重，所述权重计算模型为人工设定模型或训练好的机器学习模型。

在本公开的一种示例性实施例中，所述方法还包括：通过预设数据集对机器学习模型进行训练，得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中，所述终止实体包括症状、检验结果或药物类型的实体，所述起始实体包括诊断名称类型的实体。

在本公开的一种示例性实施例中，将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据包括：将所述病历数据中包含的所述终止实体与所述起始实体进行映射，以形成所述关系对数据。

根据本公开的一个方面，提供一种知识图谱构建装置，包括：关系对生成模块，用于将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；参数计算模块，用于计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；权重计算模块，用于根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的知识图谱构建方法。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的知识图谱构建方法。

本公开提供的知识图谱构建方法、装置、电子设备以及计算机存储介质中，通过将病历知识图谱构建为包括多个实体以及所述多个实体的类型的关系对数据，并计算关系对数据的词频，以及终止实体的基本逆文档频率，从而根据词频和基本逆文档频率确定关系对数据的关系权重，以根据关系权重构建医学知识图谱。一方面，通过关系对数据中实体之间的关联关系得到词频和基本逆文档频率，进而根据权重计算模型得到关系权重，由于考虑到了所有实体，能够使得计算的关系权重更准确，进而能够根据关系权重准确区分实体之间的关系，使得其更符合实际情况。另一方面，由于结合终止实体的词频、基本逆文档频率以及权重计算模型得到实体间的关系权重，而权重计算模型是可以根据实际数据的特点进行调整和训练的，避免了计算公式固定不变的问题，能够针对数据特点调整权重计算模型，从而使得计算的实体之间的关系权重更准确、更符合实际情况，从而更准确地构建知识图谱。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出一种知识图谱构建方法的流程图；

图2示意性示出计算词频的流程图；

图3示意性示出计算基本逆文档频率的流程图；

图4示意性示出一种知识图谱构建装置的结构框图；

图5示意性示出一种用于实现上述知识图谱构建方法的电子设备示例框图；

图6示意性示出一种用于实现上述知识图谱构建方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本领域的相关技术中，对于医学相关工作者而言，知识一般来自两方面，一方面是学习教科书、临床指南、专著与论文等文献知识，另一方面是在临床诊疗工作中积累的经验知识。文献知识和经验知识之间是不可割裂或替代的，而是相辅相成的关系。随着医疗行业对真实世界临床数据的价值有了进一步认识，以“真实世界数据”(Real World Data,RWD)这一专有名词来描述临床产生的大量数据，并且基于真实世界数据来修正诊疗方法。

但是相关技术中，提出了使用z＝x/y的方式计算实体之间关联关系的权重。其中y为某项疾病的病历总数目，x表示某项疾病的病历中终止实体出现的总次数，所述终止实体为症状实体、体征实体、处理实体、科室实体中的任一个。例如，对于常用辅助药物(氯化钠注射液)，频繁出现在几乎每一种疾病的每一次治疗中，这就导致挖掘出的知识图谱认为氯化钠注射液与每种疾病都是关系最强的，这个结果在医学常识上是不成立的。

另外，相关技术中还描述了一种使用TF×IDF方式计算有向边权重的方式，正向关联强度＝TF(起点，终点)×IDF(起点)，其中TF(起点，终点)＝起点和终点的共现样本数据的数据量/样本总数N，而IDF(起点)＝log(N/n(起点))的方式计算权重。起点指的是存在关联关系的各医疗关键词中的任意一个词语，终点指的是与起点直接关联的其他医疗关键词。其中，IDF的计算只考虑起点，不考虑终点。假设存在这样一个数据集，数据集中疾病分布并不均匀，大量(例如超过50％)数据集中在某一类疾病D上。假设存在一种针对这几种疾病的典型症状S，一旦出现症状S，就有很大概率推出患者患有D，即在医学上S与D强相关。但是由于D在数据集中占比很大，IDF(D)将是一个很小的数值，导致挖掘出来的权重很弱。这样，数据挖掘结果与医学上S、D的关系不符。除此之外，权重计算公式固定，不能适用于不同场景。作者给出的基于对数的IDF算法和IDF*TF是广泛用于文档主题词识别领域的一般算法，并没有针对医疗数据特点和数据集特点做调整，其应用效果无法得到最优。

针对相关技术中存在的问题，本示例实施方式中首先提供了一种知识图谱构建方法，该知识图谱构建方法可以运行于服务器侧。服务器可以是本地服务器、服务器集群或云服务器等，当然，本领域技术人员也可以根据需求在其他平台运行本公开的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该知识图谱构建方法可以包括以下步骤：

步骤S110，将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；

步骤S120，计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；

步骤S130，根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

本公开示例性实施例中提供的知识图谱构建方法，一方面，通过关联关系对得到词频和基本逆文档频率，进而根据权重计算模型得到关系权重，由于考虑到了所有实体的类型，能够使得计算的关系权重更准确，进而能够根据关系权重准确区分实体之间的关系，使得其更符合实际情况。另一方面，由于结合终止实体的词频、基本逆文档频率以及权重计算模型得到实体间的关系权重，而权重计算模型是可以根据实际数据的特点进行调整和训练的，避免了计算公式固定不变的问题，能够针对数据特点调整权重计算模型，从而使得计算的实体之间的关系权重更准确、更符合实际情况，从而更准确地构建知识图谱。

接下来，结合附图对本公开示例性实施例中的知识图谱构建方法的各个步骤进行说明。

在步骤S110中，将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体。

在本公开的示例性实施例中，病历数据指的是患者就医的过程中所产生的病历中的数据，具体可以包括存储于电子病历数据库中的临床病历数据。该电子病历数据库可以是设置于终端设备中的用于存储医疗数据的数据仓库，也可以设于用于存储医疗数据的服务器。服务器可以从终端设备的数据仓库中获取病历数据，也可以从存储数据的服务器中获取病历数据。由于就诊患者的数量很大，并且对于每个患者而言，根据症状的不同，需要进行多种检查，相应地会产生很多检查数据，因此电子病历数据库中的医疗数据的数量是巨大的，为了提高数据处理的准确率，可以根据预设条件获取病历数据。例如，可以获取预设时长内的一家医院或者是多家医院的结构化临床病历数据，预设时长例如可以为一年或者是半年，也可以为其他数值。结构化临床病历数据指的是经过病历结构化的临床病历。病历结构化指的是针对业务场景抽取相应的知识点让计算机能够进一步分析和推理病历的过程，在结构化之后的病历结果中，可以显示出疾病名称、患病时间、个人史、实验室检查等多项抽取出的知识点，且结构化之后的病历数据可以用表格、XML文件或者JSON文件的形式存储，便于用户进行查看。

在得到结构化病历数据之后，可对病历数据进行清洗。例如，去除病例数据异常、重复和缺失等，也可以对某些数据进行合并等等。通过数据清洗，可以去除无效数据对后续过程的影响，从而提高数据处理的准确率，提高数据质量。

在数据清洗之后，可将病历数据处理或者是整理成关系对数据。关系对数据指的是用于描述数据之间的关联关系的数据，例如可以为一对一关系对数据或者是一对多关系对数据，此处以一对一关系对数据为例进行说明。关系对数据中可以包括多个实体，例如可以为两个。实体指的是医疗实体，具体可以包括但不限于疾病，症状，药品，治疗方法和检查等类型的实体，本示例性实施例中，以实体的类型为症状、检验结果、药物以及诊断名称为例进行说明，其中，在关系对数据中，诊断名称用诊断名来表示。

关系对数据中可以包括两个实体，两个实体中的任意一个实体均可以作为起始实体，起始实体也可称为起点；另一个可作为终止实体，终止实体也可以称为终点。每个实体为症状、检验结果、药物以及诊断名称中的具体一种表现形式或具体举例。例如，诊断名称对应的实体可以为胃恶性肿瘤或者是2型糖尿病；症状对应的实体可以为腹痛或者是呼吸困难等；检验结果对应实体可以为血糖高或者是血压高等等；药物对应的实体可以为氯化钠注射液或者是二甲双胍的实体等等。

在此基础上，可将病历数据整理成预设形式的关系对数据。本示例性实施例中，可将起始实体与终止实体进行映射，得到关系对数据。具体地，可将诊断名称类型的实体作为起始实体，将其他类型的实体作为终止实体。进一步地，将每个类型的实体均与诊断名称类型的实体进行映射和关联，从而得到诊断名称类型的实体对应的多个不同的关系对数据。也就是说，关系对数据中可以包括一个诊断名称类型的实体和类型为症状、检验结果、药物类型中任意一个类型的实体，同时还可以包括实体的类型。具体而言，整理成的关系对数据的表现形式可以为<实体1:类型-实体2:类型2>。其中，可将实体1作为起点，具体可以为诊断名称类型的实体；可将实体2作为终点，具体可以为上述除诊断名称类型的实体之外的任意类型的实体。例如，关系对数据具体可以为<胃恶性肿瘤:诊断名-腹痛:症状>，也可以为<2型糖尿病:诊断名-血糖高:检验结果>，还可以为<2型糖尿病:诊断名-氯化钠注射液:药物>。

本示例性实施例中，通过将结构化病历数据整理成包含实体以及实体类型的关系对数据的形式，以便于根据实体之间的关联关系和映射关系，能够更准确地进行数据处理。

在步骤S120中，计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率。

本示例性实施例中，可以将步骤S110中整理成的关系对数据中，不属于诊断名称类型的实体作为终止实体，而将诊断名称类型的实体作为起始实体，即将<实体1:类型-实体2:类型>中的实体2作为终止实体。例如，对于<胃恶性肿瘤:诊断名-腹痛:症状>而言，终止实体为腹痛；对于<2型糖尿病:诊断名-血糖高:检验结果>而言，终止实体为血糖高；对于<2型糖尿病:诊断名-氯化钠注射液:药物>而言，终止实体为氯化钠注射液。

TF-IDF(term frequency–inverse document frequency)词频-基本逆文档频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

其中，词频(term frequency，TF)指的是在给定的病历数据中某一个给定的词语出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)对于在某一特定文件里的词语A来说，它的重要性可表示为该词语A在文件中的出现次数与文件中所有词语出现的次数之和。

除此之外，基本逆文档频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

为了解决相关技术中存在的问题，本示例性实施例中，可以结合关系对数据来确定词频和基本逆文档频率。图2中示意性示出了计算某一个关系对数据的词频的步骤，参考图2所示，主要包括步骤S210和步骤S220，其中：

在步骤S210中，确定包括所述关系对数据中的起始实体且与所述终止实体的类型对应的所有实体组成的关系对数据的出现次数；在步骤S220中，根据所述关系对数据的出现次数以及所有实体组成的关系对数据的出现次数的比值，计算所述关系对数据的所述词频。

详细而言，计算某一个关系对数据，例如<实体1:类型-实体2:类型>的词频TF时，首先可确定该关系对数据在临床病历数据中的出现次数。然后可以计算与实体1相同，与实体2同类型但是具体内容不同或者是相同的其他所有关系对数据在病历数据中的出现次数，即实体1与属于实体2的类型的任意实体在病历数据中的出现次数。在此基础上，可以根据二者的比值来计算词频，具体地，可通过以下方式计算TF：

TF＝<实体1:类型1-实体2:类型2>出现次数/所有<实体1:类型1-:类型2>关系的出现次数。

举例而言，关系对数据<胃恶性肿瘤:诊断名-腹痛:症状>的词频TF＝<胃恶性肿瘤:诊断名-腹痛:症状>的数量/<胃恶性肿瘤:诊断名-任意症状名:症状>的数量。其中，任意症状名例如可以包括诊断名为胃恶性肿瘤的所有症状名，<胃恶性肿瘤:诊断名-任意症状名:症状>的数量指的即是属于胃恶性肿瘤的所有症状的关系对数据的数量。

除此之外，还可以计算终止实体的基本逆文档频率。图3中示意性示出了计算基本逆文档频率的具体过程，主要包括步骤S310至步骤S330，其中：在步骤S310中，确定与所述终止实体相关的起始实体的类别数量；在步骤S320中，确定属于所述起始实体的类型的所有实体的类别数量；在步骤S330中，根据所述起始实体的类别数量以及所述所有实体的类别数量计算所述终止实体的所述基本逆文档频率。

详细而言，计算某一个关系对数据中，例如<实体1:类型-实体2:类型>中实体2的基本逆文档频率IDF时，首先可确定与该实体2关联的类型1对应的所有实体的类别数量(种类)，例如与实体2的类型2关联的所有诊断名称类型的实体的种类。然后可以计算属于起始实体的类型的所有实体的种类，即与实体2关联或者是不关联的所有诊断名称类型的实体1的种类。基于此，可通过二者的比值或者是对二者进行其他运算，以确定终止实体的IDF。具体地，以比值为例，可通过以下方式计算终止实体的IDF：

IDF＝类型1的实体种类总数目/与实体2有关的类型1实体种类数目。

例如，关系对数据<2型糖尿病:诊断名-血糖高:检验结果>的IDF＝所有诊断实体的数量/<血糖高:检验结果>与多少种诊断相关。经过分析发现，血糖高相关的诊断集中在1型糖尿病、2型糖尿病及其他相关疾病这样一个较小的范围，所以这个例子中IDF计算公式分母较小，分数值远远大于1。

再例如，关系对数据<2型糖尿病:诊断名-氯化钠注射液:药物>中，实体2即氯化钠注射液的IDF＝所有诊断实体的数量/<氯化钠注射液：药物>与多少种诊断相关的数量。由于几乎每一种疾病治疗中都可能用到氯化钠注射液，由于IDF分母的数目与分子几乎一致，所以IDF接近于1。

需要补充说明的是，本示例性实施例中，在计算实体2的基本逆文档频率时，考虑了实体2，也考虑了与实体2存在关联关系的其他实体，避免了相关技术中只通过一个医疗关键词计算IDF的情况，由于考虑了实体之间的关联关系，因此能够更准确地区分和确定医疗实体之间的强关联关系和弱关联关系。

在步骤S130中，根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

本示例性实施例中，在步骤S120的基础上，得到某一个关系对数据的词频和终止实体的基本逆文档频率之后，可根据这两个参数得到该关系对数据的关系权重。此处的关系权重指的是关系对数据中包含的两个实体之间的关系权重，即有向边的权重。本示例性实施例中，为了避免相关技术中权重计算公式固定不变的问题，使用权重计算模型来计算每一个关系对数据中起始实体与终止实体之间的关系权重，即计算有向边的权重。

具体而言，在计算关系权重时，可将所述词频和所述基本逆文档频率输入所述权重计算模型，以得到所述关系对数据中的实体之间的关系权重。权重计算模型指的是用于计算起始实体与终止实体组成的关系对数据的权重的具体数值的模型，具体可以包括人工设定模型。人工设定模型可以为指定的数学模型，具体可以为对词频TF和基本逆文档频率IDF两个变量都是定义域内的单调递增函数。人工设定模型得到的数值，即关系权重可随词频TF和基本逆文档频率IDF两个变量的增加而增加。人工设定模型例如可以包含平方根函数，具体可以表现为f(TF,IDF)＝TF×sqrt(IDF)。

除此之外，权重计算模型还可以为训练好的机器学习模型。此处的机器学习模型包括但不限于卷积神经网络模型、回归模型等等，此处以卷积神经网络模型为例进行说明。卷积神经网络模型一般包括输入层、映射层以及输出层，训练数据可以为已知关系权重的具体数值的多个关系对数据。本示例实施方式中，对于每个关系对数据而言，卷积神经网络模型的输入层的输入可以为已知关系权重的多个关系对数据中的实体1和实体2，神经网络模型的输出层的输出可以为实体1和实体2的关联系数，即关系权重。本示例性实施例中，为了提高通过卷积神经网络模型计算的起始实体与终止实体之间的关系权重的准确率，可根据预设数据集对模型进行训练，预设数据集可以为已经确定关系权重的多个关系对数据。具体可将预设数据集输入卷积神经网络模型，得到一个预测的关系权重；将该预测的关系权重与实际的关系权重进行对比，在二者不匹配时调整卷积神经网络模型的参数，直至得到的预测的关系权重与实际的关系权重匹配为止，以得到稳定的训练好的卷积神经网络模型，使得模型性能更优。

进一步地，可将需要计算关系权重的关系对数据输入训练好的卷积神经网络模型中，以通过性能更优的卷积神经网络模型，准确得到关系对数据中起始实体与终止实体之间的关系权重。本示例性实施例中，通过训练好的机器学习模型来计算关系对数据中起始实体与终止实体之间的关系权重，由于机器学习模型可以按照实际数据特点训练和调整，避免了相关技术中权重计算公式固定而导致的关系权重无法灵活准确计算的问题，提高了计算关系权重的准确率。

在计算出由起始实体与终止实体组成的关系对数据中的关系权重的基础上，可基于该关系权重确定每条有向边的权重，从而根据有向边的权重和有向边构建可视化的医学知识图谱。由于得到的关系权重较准确，因此提高了构建的医学知识图谱的准确率。

医学知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。基于医学知识图谱可实现辅助诊疗、病历质控、智能导诊、自动化核保等多种任务。

本公开还提供了一种知识图谱构建装置。图4示出了知识图谱构建装置的结构示意图，参考图4所示，该知识图谱构建装置400可以包括：关系对生成模块401、参数计算模块402以及权重计算模块403。其中：

关系对生成模块401，用于将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；

参数计算模块402，用于计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；

权重计算模块403，用于根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

在本公开的一种示例性实施例中，参数计算模块包括：次数确定模块，用于确定包括所述起始实体且与所述终止实体的类型对应的所有实体组成的关系对数据的出现次数；词频计算模块，用于根据所述关系对数据的出现次数以及所有实体组成的关系对数据的出现次数的比值，计算所述关系对数据的所述词频。

在本公开的一种示例性实施例中，参数计算模块包括：第一数量确定模块，用于确定与所述终止实体相关的起始实体的类别数量；第二数量确定模块，用于确定属于所述起始实体的类型的所有实体的类别数量；频率计算模块，用于根据所述起始实体的类别数量以及所述所有实体的类别数量计算所述终止实体的所述基本逆文档频率。

在本公开的一种示例性实施例中，权重计算模块包括：计算控制模块，用于将所述词频和所述基本逆文档频率输入所述权重计算模型，以得到所述关系对数据中的实体之间的关系权重，所述权重计算模型为人工设定模型或训练好的机器学习模型。

在本公开的一种示例性实施例中，所述装置还包括：模型训练模块，用于通过预设数据集对机器学习模型进行训练，得到所述训练好的机器学习模型。

在本公开的一种示例性实施例中，关系对生成模块包括：映射关系建立模块，用于将所述病历数据中包含的所述终止实体与所述起始实体进行映射，以形成所述关系对数据。

需要说明的是，上述知识图谱构建装置中各模块的具体细节已经在对应的知识图谱构建方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同***组件(包括存储单元520和处理单元510)的总线550。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图1中所示的步骤：步骤S110，将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；步骤S120，计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；步骤S130，根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

显示单元540可以为具有显示功能的显示器，以通过该显示器展示由处理单元510执行本示例性实施例中的方法而得到的处理结果。显示器包括但不限于液晶显示器或者是其它显示器。

电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；

计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；

根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

2.根据权利要求1所述的知识图谱构建方法，其特征在于，计算所述关系对数据的词频包括：

确定包括所述起始实体且与所述终止实体的类型对应的所有实体组成的关系对数据的出现次数；

根据所述关系对数据的出现次数以及所有实体组成的关系对数据的出现次数的比值，计算所述关系对数据的所述词频。

3.根据权利要求1所述的知识图谱构建方法，其特征在于，根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率包括：

确定与所述终止实体相关的起始实体的类别数量；

确定属于所述起始实体的类型的所有实体的类别数量；

根据所述起始实体的类别数量以及所述所有实体的类别数量计算所述终止实体的所述基本逆文档频率。

4.根据权利要求1所述的知识图谱构建方法，其特征在于，根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重包括：

将所述词频和所述基本逆文档频率输入所述权重计算模型，以得到所述关系对数据中的实体之间的关系权重，所述权重计算模型为人工设定模型或训练好的机器学习模型。

5.根据权利要求4所述的知识图谱构建方法，其特征在于，所述方法还包括：

通过预设数据集对机器学习模型进行训练，得到所述训练好的机器学习模型。

6.根据权利要求1所述的知识图谱构建方法，其特征在于，所述终止实体包括症状、检验结果或药物类型的实体，所述起始实体包括诊断名称类型的实体。

7.根据权利要求6所述的知识图谱构建方法，其特征在于，将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据包括：

将所述病历数据中包含的所述终止实体与所述起始实体进行映射，以形成所述关系对数据。

8.一种知识图谱构建装置，其特征在于，包括：

关系对生成模块，用于将病历数据处理为包括多个实体以及所述多个实体的类型的关系对数据，所述多个实体包括起始实体和终止实体；

参数计算模块，用于计算所述关系对数据的词频，并根据所述关系对数据中的所述起始实体和所述终止实体计算所述终止实体的基本逆文档频率；

权重计算模块，用于根据所述词频、所述基本逆文档频率以及权重计算模型确定所述关系对数据的关系权重，以根据所述关系权重构建医学知识图谱。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的知识图谱构建方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的知识图谱构建方法。