CN113434626A

CN113434626A - 一种多中心医学诊断知识图谱表示学习方法及***

Info

Publication number: CN113434626A
Application number: CN202110995013.7A
Authority: CN
Inventors: 李劲松; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-09-24
Anticipated expiration: 2041-08-27
Also published as: CN113434626B; JP2023547562A; JP7433541B2; WO2023025255A1

Abstract

本发明公开了一种多中心医学诊断知识图谱表示学习方法及***，本发明基于已有的医学诊断本体，以有向无环图的形式表示医学诊断概念的层级结构，构建全局医学诊断知识图谱；利用全局医学诊断知识图谱，构建所有疾病分类编码的共现矩阵，计算每对编码的共现信息，同时出现越多且距离越近的编码对，具有更大的共现信息；基于联邦学习，在保护各医疗机构参与方数据隐私和安全的前提下，利用多中心数据，加和共现信息，提高数据密度，解决数据稀疏问题；在对大规模知识图谱及原始数据进行学习的过程中，融入了知识源中符合人类认知的层级信息和复杂关联关系，挖掘数据之间的相关关系，丰富语义信息，学习知识的高质量表示形式，便于知识的计算与推理。

Description

一种多中心医学诊断知识图谱表示学习方法及***

技术领域

本发明属于医疗信息技术领域，尤其涉及一种多中心医学诊断知识图谱表示学习方法及***。

背景技术

知识图谱是以结构化的形式描述客观世界中概念、实体及其关系，将信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解信息的能力，可以用于知识的挖掘、分析及构建、绘制和显示知识之间的相互联系。表示学习旨在将研究对象的语义信息表示为稠密低维实体向量。知识图谱表示学习主要是面对知识图谱中的实体和关系进行表示学习，通过对大规模知识图谱及原始数据的学习与训练，能够获得知识在低维稠密空间的分布向量表示，表达实体和关系的语义信息，便于知识的计算与推理。

利用医学本体对分层临床结构和医学概念之间的关系进行编码，可以减少对大量数据的需求，在不丢失信息的情况下有效减少搜索空间。幸运的是，在医疗保健领域有许多组织良好的本体，如国际疾病分类（ICD）、临床分类软件（CCS）或医学临床术语***化命名（SNOMED）。在医学本体中，相互接近的结点（即医学概念）很可能与类似的患者相关联，从而允许我们在它们之间传递知识。当数据量不足以训练深度学习模型时，使用医学本体可能是有用的。甚至在数据量足够的情况下，也可以在不损失信息的前提下，作为一种精简模型的方法，通过学习更多符合本体结构的可解释表征。

基于医疗知识图谱结构信息的知识表示学习模型不能解决复杂关系建模和数据稀疏所带来的语义表示能力低下等问题。已有研究工作利用知识图谱本身结构外的海量文本信息，扩充知识图谱结构信息来减少数据稀疏所造成的影响。现有方法忽略了数据中固有的结构和相关性信息。此外，缺少在隐私保护和数据安全前提下扩大数据量，用于知识表示学习的方法。

发明内容

本发明针对现有技术的不足，提出一种多中心医学诊断知识图谱表示学习方法及***，在保护各医疗机构参与方数据隐私和安全的前提下，利用多中心数据，提高数据密度，此外，在对大规模知识图谱及原始数据进行学习的过程中，融入了知识源中符合人类认知的层级信息和复杂关联关系，挖掘数据之间的相关关系，丰富语义信息，从而解决数据稀疏带来的语义表示能力低下问题。

本发明的目的是通过以下技术方案来实现的：

本发明一方面公开了一种多中心医学诊断知识图谱表示学习方法，该方法基于联邦学习与同态加密，利用多中心数据，结合层级信息和复杂关联关系，实现结构信息的知识表示学习，具体包括以下步骤：

(1)第一服务器构建全局医学诊断知识图谱，所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构，由叶子结点和祖先结点两部分组成，所述叶子结点为最小的疾病分类编码，其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码；

(2)第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方；

(3)各医疗机构参与方内部进行疾病诊断共现信息统计，具体为：

将医疗机构参与方电子病历中所有疾病分类编码的集合记为

，共有

种疾病分类编码，医疗机构参与方每个患者的病历记录看作是多次就诊，记为

，共就诊

次，每次就诊的疾病分类编码集记为

，将

中每个疾病分类编码的上层疾病分类编码加入

，得到增强疾病分类编码集记为

；将

中的编码两两组合构成编码对，计算编码对的共现信息；

医学诊断知识图谱中所有疾病分类编码的集合记为

，共有

种疾病分类编码，

；该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵

，共现矩阵

的第

行第

列元素

表示两编码

和

的共现信息，

，

表示该医疗机构参与方中患者总数，

表示两编码

和

在患者

单次就诊的增强疾病分类编码集

中的共现信息；

(4)数据加密计算：第二服务器生成加密算法、加密密钥、解密算法和解密密钥，并将加密算法和加密密钥分发给各医疗机构参与方；各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器；第一服务器在密文状态下，对两编码的共现信息进行加和，得到密文状态下的全局共现矩阵，发送给第二服务器；第二服务器通过解密算法和解密密钥得到全局共现矩阵，返回给第一服务器；

(5)知识表示学习：在第一服务器中，将每个疾病分类编码表达成一个由实数组成的表示向量，构造如下目标函数

：

其中，

和

分别是编码

和

的表示向量，

和

分别是两个表示向量的偏置项，

表示全局共现矩阵中编码

和

的共现信息，

为加权函数；

优化目标函数直至收敛，得到两个表示向量

和

。

进一步地，所述第一服务器和第二服务器均为第三方服务器，第三方服务器需要是诚实的，第三方服务器之间能够相互通信，各医疗机构参与方内部部署各自的电子病历数据库，电子病历数据库中的原始数据不允许离开各医疗机构参与方，各医疗机构参与方之间无法直接进行相互通信，只能与第三方服务器进行通信。

进一步地，在构建全局医学诊断知识图谱过程中，使用的医学诊断本体包括ICD、CCS、SNOMED。

进一步地，构建的医学诊断知识图谱以字典形式存储，字典中的每个元素记录一种疾病的层级结构信息。

进一步地，增强疾病分类编码集

的构建具体为：在医学诊断知识图谱中查找叶子结点对应的祖先结点，共同祖先结点对应的上层疾病分类编码需要重复加入

中。

进一步地，所述步骤(3)中，对于编码对中的两编码

，编码对的共现信息计算公式为：

其中，

为

在

中出现的次数，

为

在

中出现的次数，

为两编码

之间的距离，

为编码对的共现信息。

进一步地，所述步骤(3)中，

的计算具体为：如果两编码

和

在患者

单次就诊的增强疾病分类编码集

中同时出现过，就能够在该患者此次的

中找到编码

等于编码

，找到编码

等于编码

，则

等于

；否则

等于0。

进一步地，所述步骤(4)具体为：

将

个医疗机构参与方的

个共现矩阵记为

，任意两编码

和

的共现信息记为

；

第二服务器利用加法同态加密算法得到加密算法

、解密算法

、加密密钥

和解密密钥

，将加密算法

和加密密钥

发送给各医疗机构参与方；

在实现安全加法聚合的过程中，对于任意两个编码的共现信息，各医疗机构参与方首先将共现信息加密为密文，记为

，然后将密文发给第一服务器；

第一服务器直接对密文进行操作；根据加法同态性，只需计算密文的乘积即可，两编码

和

加密后的共现信息

公式如下：

针对医学诊断知识图谱中的任意两个疾病分类编码，均计算密文状态下的两编码共现信息，最终得到密文状态下的全局共现矩阵

；

第一服务器将

发给第二服务器，第二服务器解密得到全局共现矩阵

，即

，返回给第一服务器。

进一步地，所述步骤(5)中，

采用以下分段函数：

其中，

和

均为超参数，根据实验结果设定最优取值，在共现信息超过

后，

维持在1的不变水平。

本发明另一方面公开了一种多中心医学诊断知识图谱表示学习***，该***包括：

全局医学诊断知识图谱构建模块：用于在第一服务器上构建全局医学诊断知识图谱，所述全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构，由叶子结点和祖先结点两部分组成，所述叶子结点为最小的疾病分类编码，其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码；

医学诊断知识图谱分发模块：用于将第一服务器构建的全局医学诊断知识图谱分发给各医疗机构参与方；

疾病诊断共现信息统计模块：部署在各医疗机构参与方；将医疗机构参与方电子病历中所有疾病分类编码的集合记为

，共有

，共就诊

次，每次就诊的疾病分类编码集记为

，将

中每个疾病分类编码的上层疾病分类编码加入

，得到增强疾病分类编码集记为

；将

中的编码两两组合构成编码对，计算编码对的共现信息；医学诊断知识图谱中所有疾病分类编码的集合记为

，共有

种疾病分类编码，

，共现矩阵

的第

行第

列元素

表示两编码

和

的共现信息，

，

表示该医疗机构参与方中患者总数，

表示两编码

和

在患者

单次就诊的增强疾病分类编码集

中的共现信息；

数据加密计算模块：第二服务器生成加密算法、加密密钥、解密算法和解密密钥，并将加密算法和加密密钥分发给各医疗机构参与方；各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器；第一服务器在密文状态下，对两编码的共现信息进行加和，得到密文状态下的全局共现矩阵，发送给第二服务器；第二服务器通过解密算法和解密密钥得到全局共现矩阵，返回给第一服务器；

知识表示学习模块：部署在第一服务器，将每个疾病分类编码表达成一个由实数组成的表示向量，构造如下目标函数

：

其中，

和

分别是编码

和

的表示向量，

和

分别是两个表示向量的偏置项，

表示全局共现矩阵中编码

和

的共现信息，

为加权函数；

优化目标函数直至收敛，得到两个表示向量

和

。

本发明的有益效果是：

1. 基于已有的医学诊断本体（ICD、CCS、SNOMED等），以有向无环图的形式表示医学诊断概念的层级结构，构建全局医学诊断知识图谱；利用全局医学诊断知识图谱，构建所有疾病分类编码的共现矩阵，计算每对编码的共现信息，同时出现越多且距离越近的编码对，具有更大的共现信息。

2. 基于联邦学习，在保护各医疗机构参与方数据隐私和安全的前提下，利用多中心数据，加和共现信息，提高数据密度，解决数据稀疏问题；

3. 在对大规模知识图谱及原始数据进行学习的过程中，融入了知识源中符合人类认知的层级信息和复杂关联关系，挖掘数据之间的相关关系，丰富语义信息，学习知识的高质量表示形式，便于知识的计算与推理。

附图说明

图1为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的网络架构示意图；

图2为本发明实施例提供的多中心医学诊断知识图谱表示学习方法的实现流程图；

图3为本发明实施例提供的医学诊断知识图谱结构示例。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提供一种多中心医学诊断知识图谱表示学习方法，该方法基于联邦学习与同态加密，利用多中心数据，结合层级信息和复杂关联关系，实现结构信息的知识表示学习。该方法基于如图1所示网络架构，包括两个第三方服务器（第一服务器和第二服务器）和多个医疗机构参与方，第三方服务器需要是诚实的，第三方服务器之间可以相互通信。各医疗机构参与方内部部署各自的电子病历数据库，电子病历数据库中的原始数据不允许离开各医疗机构参与方。各医疗机构参与方之间无法直接进行相互通信，只能与第三方服务器进行通信。

如图2所示，本实施例提供的一种多中心医学诊断知识图谱表示学习方法，步骤如下：

1.全局医学诊断知识图谱构建

第一服务器负责构建全局医学诊断知识图谱。全局医学诊断知识图谱以有向无环图的形式表示医学诊断概念的层级结构。全局医学诊断知识图谱由叶子结点和祖先结点两部分组成，其中叶子结点为最小的疾病分类编码，其祖先结点为叶子结点疾病分类编码对应的上层疾病分类编码。

本实施例中使用ICD10作为医学诊断本体，构建全局医学诊断知识图谱。其中，医学诊断本体还可以选择CCS、SNOMED等医学领域常用的知识源。以病毒性咽炎为例，病毒性咽炎J02.801为叶子结点，根据ICD10中的疾病层级信息，构建其祖先结点：呼吸***疾病J00-J99、急性上呼吸道感染J00-J06、急性咽炎J02，如图3所示。

构建的医学诊断知识图谱以字典形式存储，字典中的每个元素记录一种疾病的层级结构信息。以病毒性咽炎为例，层级结构信息存储为：{J02.801: [J02.801, root, J00-J99, J00-J06, J02]}，root代表根结点。

2.医学诊断知识图谱分发

第一服务器将构建的全局医学诊断知识图谱分发给各医疗机构参与方，因为知识图谱是公开获取的，可以不加密。

3.每个医疗机构参与方内部进行疾病诊断共现信息统计

将每个医疗机构参与方电子病历中所有疾病分类编码的集合记为

，总共有

种疾病分类编码。该医疗机构参与方每个患者的病历记录可以看作是多次就诊，记为

，总共就诊

次，每次就诊的疾病分类编码集记为

。

医疗机构参与方以单次就诊

为单位，通过加入

中每个疾病分类编码的上层疾病分类编码，得到增强疾病分类编码集记为

，即在医学诊断知识图谱中查找叶子结点对应的祖先结点，共同祖先结点对应的上层疾病分类编码需要重复加入。

计算每个疾病分类编码及其上层疾病分类编码在

中的出现次数。将

中的编码两两组合构成编码对，通过相乘编码对中两编码的出现次数，计算该编码对的共现信息。同时，计算编码对中两编码之间的距离，即连接两个结点的最短路径所包含的边的数量，将距离的倒数作为权重。

对于编码对中的两编码

，编码对的共现信息为：

其中，

为

在

中出现的次数，

为

在

中出现的次数，

为两编码

之间的距离，

为编码对的共现信息。

医学诊断知识图谱中所有疾病分类编码的集合记为

，总共有

种疾病分类编码，

。该医疗机构参与方基于医学诊断知识图谱中的所有疾病分类编码构建共现矩阵

，如表1所示。

表示两编码

和

的共现信息，

，

表示该医疗机构参与方中患者的总数，

表示两编码

和

在患者

单次就诊的增强疾病分类编码集

中的共现信息，如果两编码

和

在患者

单次就诊的增强疾病分类编码集

中同时出现过，就可以在该患者此次的

中找到编码

等于编码

，找到编码

等于编码

，则

等于

；如果没有，记为0。共现矩阵

对称，

和

相等，对角线上是相同疾病分类编码的共现信息，记为0。

表1共现矩阵结构示例

以图3的医学诊断知识图谱为例，假设患者单次就诊的疾病诊断为病毒性咽炎和急性喉炎，

= [J02.801,J04.000]，通过加入上层疾病分类编码，增强为

= [J02.801, J02, J00-J06, J00-J99, root, J04.000, J04, J00-J06, J00-J99, root]，编码 J02.801的出现次数为1，J00-J06的出现次数为2，两者间的距离为2，共现信息取值为1。

4.数据加密计算

第二服务器生成加密算法、加密密钥、解密算法和解密密钥，并将加密算法和加密密钥分发给各医疗机构参与方。各医疗机构参与方使用加密算法和加密密钥对其共现矩阵进行加密并上传至第一服务器。第一服务器在密文状态下，对两编码的共现信息进行加和，得到密文状态下的全局共现矩阵，发送给第二服务器。第二服务器通过解密算法和解密密钥得到全局共现矩阵，返回给第一服务器。整个过程没有数据泄露风险。具体实现流程如下：

将

个医疗机构参与方的

个共现矩阵记为

，任意两编码

和

的共现信息记为

。

第二服务器利用加法同态加密算法得到加密算法

、解密算法

、加密密钥

和解密密钥

，将加密算法

和加密密钥

发送给各医疗机构参与方。

其次，在实现安全加法聚合的过程中，对于任意两个编码的共现信息，各医疗机构参与方首先将共现信息加密为密文，记为

，然后将密文发给第一服务器。

第一服务器不进行解密操作，直接对密文进行操作。根据加法同态性，只需计算密文的乘积即可，两编码

和

加密后的共现信息

公式如下：

。

针对医学诊断知识图谱中的任意两个疾病分类编码，均按照上述步骤，计算密文状态下的两编码共现信息，最终得到密文状态下的全局共现矩阵

。第一服务器将

发给第二服务器，第二服务器解密得到全局共现矩阵

，即

，返回给第一服务器。

5.知识表示学习

在第一服务器中，根据GloVe算法原理，将每个疾病分类编码表达成一个由实数组成的表示向量，该表示向量和全局共现矩阵之间的关系表示为：

其中，

和

分别是最终需要求解的疾病分类编码

和

的表示向量，随机初始化为一个128维的、取值在-0.1到0.1之间的随机向量；上标T表示转置操作；

和

分别是两个表示向量的偏置项，初始值为0；

表示全局共现矩阵X中编码

和

的共现信息。

基于上述公式，构造目标函数

：

其中，

为加权函数。为了让共现多的编码对获得更高权重，

为非递减函数，同时，这个权重不能过大，当到达一定程度之后应该不再增加。如果两个编码

和

没有一起出现，即

，那么它们不参与目标函数的计算，即

。基于以上要求，

采用以下分段函数：

即在共现信息超过阈值

后，其权重维持在1的不变水平。超参数

和

根据实验结果设定最优取值，可分别设置为100和0.75。

优化目标函数过程采用AdaDelta梯度下降算法，对全局共现矩阵X中的元素进行随机采样，学习率设为0.05，迭代50次，直至收敛，得到两个表示向量

和

。

通过知识图谱表示学习得到的表示向量，不仅可以用于计算疾病之间的相似性，还可以将其和患者病历相结合，融入到深度学习模型中完成预测任务。比如，根据患者的历史就诊记录，预测下次就诊可能会出现的疾病。在电子病历中，每个患者的病历记录可以看作是多次就诊，而每次就诊中又包含着一系列的疾病分类编码，即

的子集。患者单次就诊的疾病分类编码集可以表示为二进制向量

，

，其中第i个元素代表该患者的这次就诊是否出现编码

，出现则为1，反之则为0。在深度学习模型训练中，可以将患者每次就诊的二进制向量

与表示向量做点乘再经非线性转换，作为RNN预测模型的输入，预测得到下一次就诊的疾病分类编码，从而预测可能会出现的疾病。

本发明实施例还提供一种多中心医学诊断知识图谱表示学习***，该***包括：

，共有

，共就诊

次，每次就诊的疾病分类编码集记为

，将

中每个疾病分类编码的上层疾病分类编码加入

，得到增强疾病分类编码集记为

；将

，共有

种疾病分类编码，

，共现矩阵

的第

行第

列元素

表示两编码

和

的共现信息，

，

表示该医疗机构参与方中患者总数，

表示两编码

和

在患者

单次就诊的增强疾病分类编码集

中的共现信息；

：

其中，

和

分别是编码

和

的表示向量，

和

分别是两个表示向量的偏置项，

表示全局共现矩阵中编码

和

的共现信息，

为加权函数；

优化目标函数直至收敛，得到两个表示向量

和

。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种多中心医学诊断知识图谱表示学习方法，其特征在于，该方法包括：

将医疗机构参与方电子病历中所有疾病分类编码的集合记为

，共有

，共就诊

次，每次就诊的疾病分类编码集记为

，将

中每个疾病分类编码的上层疾病分类编码加入

，得到增强疾病分类编码集记为

；将

中的编码两两组合构成编码对，计算编码对的共现信息；

医学诊断知识图谱中所有疾病分类编码的集合记为

，共有

种疾病分类编码，

，共现矩阵

的第

行第

列元素

表示两编码

和

的共现信息，

，

表示该医疗机构参与方中患者总数，

表示两编码

和

在患者

单次就诊的增强疾病分类编码集

中的共现信息；

：

其中，

和

分别是编码

和

的表示向量，

和

分别是两个表示向量的偏置项，

表示全局共现矩阵中编码

和

的共现信息，

为加权函数；

优化目标函数直至收敛，得到两个表示向量

和

。

2.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法，其特征在于，所述第一服务器和第二服务器均为第三方服务器，第三方服务器需要是诚实的，第三方服务器之间能够相互通信，各医疗机构参与方内部部署各自的电子病历数据库，电子病历数据库中的原始数据不允许离开各医疗机构参与方，各医疗机构参与方之间无法直接进行相互通信，只能与第三方服务器进行通信。

3.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法，其特征在于，在构建全局医学诊断知识图谱过程中，使用的医学诊断本体包括ICD、CCS、SNOMED。

4.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法，其特征在于，构建的医学诊断知识图谱以字典形式存储，字典中的每个元素记录一种疾病的层级结构信息。

5.根据权利要求1所述的一种多中心医学诊断知识图谱表示学习方法，其特征在于，增强疾病分类编码集