CN113990495B - 一种基于图神经网络的疾病诊断预测*** - Google Patents

一种基于图神经网络的疾病诊断预测*** Download PDF

Info

Publication number
CN113990495B
CN113990495B CN202111609275.1A CN202111609275A CN113990495B CN 113990495 B CN113990495 B CN 113990495B CN 202111609275 A CN202111609275 A CN 202111609275A CN 113990495 B CN113990495 B CN 113990495B
Authority
CN
China
Prior art keywords
disease
symptom
patient
graph
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111609275.1A
Other languages
English (en)
Other versions
CN113990495A (zh
Inventor
李劲松
池胜强
王宇清
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111609275.1A priority Critical patent/CN113990495B/zh
Publication of CN113990495A publication Critical patent/CN113990495A/zh
Application granted granted Critical
Publication of CN113990495B publication Critical patent/CN113990495B/zh
Priority to JP2023536567A priority patent/JP7459386B2/ja
Priority to PCT/CN2022/116970 priority patent/WO2023124190A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于图神经网络的疾病诊断预测***,该***包括知识图谱构建模块、数据提取与预处理模块、疾病诊断模型构建模块和疾病诊断模型应用模块。本发明有效整合知识图谱中的专家知识和电子病历数据,构建异构图网络。在异构图网络上,利用图卷积神经网络方法,学习异构图网络的局部信息和全局信息。疾病诊断模型可以对知识和数据同时进行端到端的训练。在模型优化目标中,除了优化疾病预测任务,同时加入对知识关系的监督信息,从而保证疾病预测任务可以有效利用知识,也保证知识表示不受数据噪声的影响。针对预测疾病数量多,部分疾病对应患者数量有限的问题,设计多标签层次分类,用于提高少样本类别疾病的预测效果。

Description

一种基于图神经网络的疾病诊断预测***
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于图神经网络的疾病诊断预测***。
背景技术
在医疗保健领域有许多组织良好的知识图谱,如国际疾病分类、DrugBank、临床指南与共识等,具有符合人类认知的层级信息、复杂关联关系。知识图谱是一种包含多种关系的异构图网络。如何同时利用知识图谱中的专家知识和电子病历数据,整合知识与数据进行建模,用于疾病诊断预测,具有重要作用。
现有基于图神经网络模型进行疾病预测的方法,缺少有效融合医学知识图谱与电子病历数据构建异构图网络的方法。目前主要的方法有以下几种:(1)基于数据的图网络建模:基于电子病历数据构建图网络,利用图神经网络模型进行疾病预测;该方法没有充分利用现有的医学知识源。(2)知识表示学习和疾病预测的分阶段建模方法:对医学知识图谱进行表示学习,得到知识的向量表示,再融入到电子病历数据中,进行疾病预测;分阶段的训练方法不能获得最适合疾病预测的知识表示。(3)只关注疾病预测任务的端到端建模方法:融合医学知识图谱和电子病历数据,构建异构图网络,利用图神经网络模型进行疾病预测;该方法虽然解决了上述两种方法中存在的不足,但是,由于模型只优化疾病预测任务,可能导致学习到的知识表示受到数据中噪声的影响。
发明内容
本发明针对现有技术的不足,提出一种基于图神经网络的疾病诊断预测***。
本发明的目的是通过以下技术方案实现的:一种基于图神经网络的疾病诊断预测***,该***包括:
(1)知识图谱构建模块:基于医学知识源构建疾病-症状知识图谱;
(2)数据提取与预处理模块:从电子病历***中抽取患者电子病历数据,包括患者疾病诊断和症状数据,用三元组形式保存;
(3)疾病诊断模型构建模块:对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模,包括:
构建异构图网络,所述异构图网络包括从疾病-症状知识图谱中提取疾病-症状关系构建的疾病-症状子图,以及利用三元组形式的患者疾病诊断和症状数据构建的患者-症状子图;
构建疾病诊断模型,所述疾病诊断模型由图编码器和图解码器两部分组成;
所述图编码器基于图卷积神经网络实现,输入为利用疾病-症状共现矩阵得到的疾病、症状、患者的节点初始嵌入表示,以及疾病-症状邻接矩阵和患者-症状邻接矩阵,不同类型的节点通过连接边传递信息,通过节点嵌入表示更新操作得到疾病、症状、患者节点嵌入表示,输入图解码器;
所述图解码器利用节点嵌入表示进行多任务学习,包括三个部分:
a)患者疾病诊断预测的多标签层次分类:利用疾病的层级结构构建疾病层级关系,包括需要进行诊断预测的疾病层和根据医学知识得到的疾病***分类层;构建多标签层次分类器,设计多标签层次分类的损失函数;
b)疾病对比学习:构建疾病对***类别判别器,计算疾病对中两种疾病之间的距离,设计疾病对比学习的损失函数;
c)疾病-症状关系学习:构建疾病-症状关系学习器,计算疾病-症状对中疾病与症状存在关联关系的概率,设计疾病-症状关系学习的损失函数;
将所述多标签层次分类的损失函数、所述疾病对比学习的损失函数和所述疾病-症状关系学习的损失函数加和得到疾病诊断模型的损失函数;
(4)疾病诊断模型应用模块:利用疾病诊断模型,对新患者的输入症状进行疾病诊断预测。
进一步地,所述知识图谱构建模块中,所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。
进一步地,所述异构图网络基于疾病-症状知识图谱和电子病历数据构建,包含疾病、症状及患者三种节点类型,其中症状是疾病与患者之间连接的中间节点,所述异构图网络集成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相关的关系子图。
进一步地,所述异构图网络
Figure 100002_DEST_PATH_IMAGE001
表示为:
Figure DEST_PATH_IMAGE002
其中,节点集
Figure 100002_DEST_PATH_IMAGE003
,D、S、P分别为给定的疾病集、症状集和患 者集,
Figure DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
分别表示疾病种类、症状种类和患者数量;边集
Figure DEST_PATH_IMAGE010
, 集合R包括疾病-症状关系
Figure 100002_DEST_PATH_IMAGE011
和患者-症状关系
Figure DEST_PATH_IMAGE012
,所述疾病-症状关系存储在疾病-症状 邻接矩阵中,所述患者-症状关系存储在患者-症状邻接矩阵中。
进一步地,所述节点初始嵌入表示的生成包括:
构建疾病-症状共现矩阵
Figure 100002_DEST_PATH_IMAGE013
,矩阵
Figure DEST_PATH_IMAGE014
的第
Figure 100002_DEST_PATH_IMAGE015
行、第
Figure DEST_PATH_IMAGE016
列记为
Figure 100002_DEST_PATH_IMAGE017
,表示电子 病历数据中诊断为疾病
Figure DEST_PATH_IMAGE018
的患者中出现症状
Figure 100002_DEST_PATH_IMAGE019
的数量;
Figure 310296DEST_PATH_IMAGE014
进行行归一化,得到
Figure DEST_PATH_IMAGE020
,疾病
Figure 100002_DEST_PATH_IMAGE021
的初始嵌入表示为
Figure DEST_PATH_IMAGE022
,即
Figure 100002_DEST_PATH_IMAGE023
的第
Figure 771364DEST_PATH_IMAGE015
行;
Figure 935629DEST_PATH_IMAGE014
进行列归一化,得到
Figure DEST_PATH_IMAGE024
,症状
Figure 100002_DEST_PATH_IMAGE025
的初始嵌入表示为
Figure DEST_PATH_IMAGE026
,即
Figure 380517DEST_PATH_IMAGE024
的第
Figure 655641DEST_PATH_IMAGE015
列;
计算患者
Figure DEST_PATH_IMAGE027
的初始嵌入表示
Figure 100002_DEST_PATH_IMAGE028
,计算公式如下:
Figure DEST_PATH_IMAGE029
其中,
Figure 100002_DEST_PATH_IMAGE030
为患者
Figure 236795DEST_PATH_IMAGE027
的症状数量。
进一步地,将不同类型的节点初始嵌入表示分别输入一个多层感知器,得到相同维度的初始嵌入表示,再输入图编码器中。
进一步地,所述图编码器中,对于疾病
Figure 70496DEST_PATH_IMAGE021
,第
Figure DEST_PATH_IMAGE031
层的节点嵌入表示
Figure 100002_DEST_PATH_IMAGE032
计算公式为:
Figure DEST_PATH_IMAGE033
对于症状
Figure 2680DEST_PATH_IMAGE025
,第
Figure 81495DEST_PATH_IMAGE031
层的节点嵌入表示
Figure 100002_DEST_PATH_IMAGE034
计算公式为:
Figure DEST_PATH_IMAGE035
对于患者
Figure 100002_DEST_PATH_IMAGE036
,第
Figure 782734DEST_PATH_IMAGE031
层的节点嵌入表示
Figure DEST_PATH_IMAGE037
计算公式为:
Figure 100002_DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
是激活函数,
Figure 100002_DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
分别是第
Figure 492064DEST_PATH_IMAGE031
层疾病诊断模型训练得到的疾病-症状 关联权重矩阵和患者-症状关联权重矩阵;
Figure 100002_DEST_PATH_IMAGE042
分别是疾病
Figure 442703DEST_PATH_IMAGE021
、症状
Figure 59629DEST_PATH_IMAGE025
、患者
Figure DEST_PATH_IMAGE043
在第
Figure 100002_DEST_PATH_IMAGE044
层的节点嵌入表示;
Figure DEST_PATH_IMAGE045
表示疾病
Figure 880954DEST_PATH_IMAGE021
相邻症状节点的集合,
Figure 100002_DEST_PATH_IMAGE046
表示症状
Figure 292344DEST_PATH_IMAGE025
相邻疾病节点的集合,
Figure DEST_PATH_IMAGE047
表示症状
Figure 464700DEST_PATH_IMAGE025
相邻患者节点的集合,
Figure 100002_DEST_PATH_IMAGE048
表示患者
Figure 118273DEST_PATH_IMAGE043
相 邻症状节点的集合。
进一步地,所述图解码器中,所述患者疾病诊断预测的多标签层次分类包括:
构建疾病层级关系,疾病层的疾病种类记为
Figure DEST_PATH_IMAGE049
,疾病***分类层记为
Figure 100002_DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
Figure 100002_DEST_PATH_IMAGE052
为疾病***分类数量;
构建包含
Figure DEST_PATH_IMAGE053
个二分类器的多标签层次分类器,
Figure 528525DEST_PATH_IMAGE053
个二分类器记为
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
Figure 100002_DEST_PATH_IMAGE056
;将患者
Figure 845237DEST_PATH_IMAGE043
的节点嵌入表示分别输入
Figure 770468DEST_PATH_IMAGE053
个二分类 器,得到
Figure 729197DEST_PATH_IMAGE053
个预测概率,记为
Figure DEST_PATH_IMAGE057
,其中,二分类器
Figure 100002_DEST_PATH_IMAGE058
对应的标签为患者的疾病***分类;二分类器
Figure DEST_PATH_IMAGE059
对应的标签为患者的疾病诊断,对应的模型 参数为
Figure 100002_DEST_PATH_IMAGE060
计算患者
Figure 259535DEST_PATH_IMAGE036
出现疾病
Figure DEST_PATH_IMAGE061
的概率
Figure 100002_DEST_PATH_IMAGE062
,其中,
Figure DEST_PATH_IMAGE063
Figure 100002_DEST_PATH_IMAGE064
为二 分类器
Figure DEST_PATH_IMAGE065
预测患者是否出现疾病
Figure 481569DEST_PATH_IMAGE061
的概率;假设疾病
Figure 628516DEST_PATH_IMAGE061
的***分类为
Figure 100002_DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
为二分类器
Figure 100002_DEST_PATH_IMAGE068
预测患者是否出现疾病***分类
Figure 358313DEST_PATH_IMAGE066
的概率;
计算多标签层次分类的损失函数
Figure DEST_PATH_IMAGE069
,公式如下:
Figure 100002_DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
Figure 100002_DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
其中,
Figure 100002_DEST_PATH_IMAGE074
为患者
Figure DEST_PATH_IMAGE075
出现疾病
Figure 477579DEST_PATH_IMAGE061
的真实标签,
Figure 100002_DEST_PATH_IMAGE076
为患者
Figure 667251DEST_PATH_IMAGE075
的疾病诊断对应的疾 病***分类的真实标签,
Figure DEST_PATH_IMAGE077
表示L1范数,
Figure 100002_DEST_PATH_IMAGE078
为疾病
Figure DEST_PATH_IMAGE079
和疾病
Figure 100002_DEST_PATH_IMAGE080
之间的相似性,计算公式 如下:
Figure DEST_PATH_IMAGE081
其中,
Figure 100002_DEST_PATH_IMAGE082
分别表示疾病
Figure 239178DEST_PATH_IMAGE079
和疾病
Figure 805289DEST_PATH_IMAGE080
的真实标签分布,
Figure DEST_PATH_IMAGE083
Figure 100002_DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
分别表示患者
Figure 44640DEST_PATH_IMAGE075
出 现疾病
Figure 670794DEST_PATH_IMAGE079
和疾病
Figure 37008DEST_PATH_IMAGE080
的真实标签。
进一步地,所述图解码器中,所述疾病对比学习包括:
将疾病集D中的疾病进行两两组合,得到疾病对集合DD,疾病对数量为
Figure 100002_DEST_PATH_IMAGE086
;对DD 中的任意一个疾病对
Figure DEST_PATH_IMAGE087
,如果两种疾病属于同一个***分类,则疾病对标签
Figure 100002_DEST_PATH_IMAGE088
,如 果两种疾病属于不同的***分类,则
Figure DEST_PATH_IMAGE089
构建疾病对***类别判别器
Figure 100002_DEST_PATH_IMAGE090
,将疾病对
Figure 344493DEST_PATH_IMAGE087
中两种疾病的节点嵌入表示
Figure DEST_PATH_IMAGE091
输入
Figure 235088DEST_PATH_IMAGE090
中,计算两种疾病之间的距离
Figure 100002_DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
其中,
Figure DEST_PATH_IMAGE094
表示L2范数;
计算疾病对比学习的损失函数
Figure 100002_DEST_PATH_IMAGE095
,公式如下:
Figure DEST_PATH_IMAGE096
其中,m为不同疾病***类别嵌入表示之间距离的下界。
进一步地,所述图解码器中,所述疾病-症状关系学习包括:
从疾病集D和症状集S中分别选取一种疾病和一种症状,得到疾病-症状对集合DS, 疾病-症状对数量为
Figure 100002_DEST_PATH_IMAGE097
;对DS中的任意一个疾病-症状对
Figure DEST_PATH_IMAGE098
,如果疾病-症状在疾病-症 状知识图谱中存在关联关系,则疾病-症状对标签
Figure 100002_DEST_PATH_IMAGE099
,如果不存在关联关系,则
Figure DEST_PATH_IMAGE100
构建疾病-症状关系学习器
Figure 100002_DEST_PATH_IMAGE101
,将
Figure DEST_PATH_IMAGE102
中的疾病和症状的节点嵌入表示
Figure 100002_DEST_PATH_IMAGE103
输入
Figure 907509DEST_PATH_IMAGE101
中,计算
Figure 516345DEST_PATH_IMAGE102
中疾病与症状存在关联关系的概率
Figure DEST_PATH_IMAGE104
Figure 100002_DEST_PATH_IMAGE105
其中,
Figure DEST_PATH_IMAGE106
表示sigmoid函数;
计算疾病-症状关系学习的损失函数
Figure 100002_DEST_PATH_IMAGE107
,公式如下:
Figure DEST_PATH_IMAGE108
本发明的有益效果是:本发明有效整合知识图谱中的专家知识和电子病历数据,构建异构图网络。在异构图网络上,利用图卷积神经网络方法,学习异构图网络的局部信息和全局信息。疾病诊断模型可以对知识和数据同时进行端到端的训练。在模型优化目标中,除了优化疾病预测任务,同时加入对知识关系的监督信息(疾病对比学习部分和疾病-症状关系学习部分),从而保证疾病预测任务可以有效利用知识,也保证知识表示不受数据噪声的影响。针对预测疾病数量多,部分疾病对应患者数量有限的问题,设计多标签层次分类,用于提高少样本类别疾病的预测效果。
附图说明
图1为本发明实施例提供的基于图神经网络的疾病诊断预测***结构图;
图2为本发明实施例提供的异构图网络结构图;
图3为本发明实施例提供的疾病诊断模型结构图;
图4为本发明实施例提供的疾病的层级结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施例提供一种基于图神经网络的疾病诊断预测***,如图1所示,该***包括知识图谱构建模块、数据提取与预处理模块、疾病诊断模型构建模块和疾病诊断模型应用模块,下面详细阐述每个模块的实现过程。
知识图谱构建模块:基于SNOMED-CT、HPO等医学知识源构建疾病-症状知识图谱,所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。
数据提取与预处理模块:从电子病历***中抽取患者的电子病历数据,包括患者疾病诊断和症状数据,用三元组形式保存。
疾病诊断模型构建模块:对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模。
疾病诊断模型应用模块:利用疾病诊断模型,对新患者的输入症状进行疾病诊断预测。
疾病诊断模型构建模块的具体功能为:给定疾病集
Figure DEST_PATH_IMAGE109
、症 状集
Figure DEST_PATH_IMAGE110
和患者集
Figure 594897DEST_PATH_IMAGE006
,其中,
Figure DEST_PATH_IMAGE111
Figure DEST_PATH_IMAGE112
Figure DEST_PATH_IMAGE113
分别 表示疾病种类、症状种类和患者数量。将疾病诊断预测看作是多标签分类问题,即在给定患 者症状的情况下,疾病诊断模型能够预测患者的疾病诊断。
疾病诊断模型的实现包括:
(1)异构图网络构建
利用疾病-症状知识图谱和电子病历数据,构建一个包含疾病、症状以及患者三种 节点类型的异构图网络
Figure DEST_PATH_IMAGE114
,其中症状是疾病与患者之间连接的中间节点。该异构图网络集 成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相 关的关系子图,包括疾病-症状子图
Figure DEST_PATH_IMAGE115
和患者-症状子图
Figure DEST_PATH_IMAGE116
异构图网络
Figure 543262DEST_PATH_IMAGE114
可以表示为:
Figure 245638DEST_PATH_IMAGE002
其中,节点集
Figure DEST_PATH_IMAGE117
,边集
Figure 76191DEST_PATH_IMAGE010
, 集合R包括疾病-症状关系
Figure DEST_PATH_IMAGE118
和患者-症状关系
Figure 522216DEST_PATH_IMAGE012
,疾病-症状关系存储在疾病-症状邻接 矩阵中,患者-症状关系存储在患者-症状邻接矩阵中。
图2为一异构图网络结构示例,包括4个患者
Figure DEST_PATH_IMAGE119
、4种疾病
Figure DEST_PATH_IMAGE120
、 4种症状
Figure DEST_PATH_IMAGE121
,以及患者-症状关系、疾病-症状关系。
(2)子图构建
疾病-症状子图
Figure 856245DEST_PATH_IMAGE115
:从疾病-症状知识图谱中提取疾病-症状关系构建疾病-症状 子图。
患者-症状子图
Figure 995103DEST_PATH_IMAGE116
:利用三元组形式的患者疾病诊断和症状数据,构建患者-症状 子图。
(3)疾病诊断模型结构
图3为疾病诊断模型结构示例。利用疾病-症状共现矩阵,得到疾病、症状、患者的节点初始嵌入表示。将节点初始嵌入表示和邻接矩阵作为疾病诊断模型的输入。疾病诊断模型由图编码器和图解码器两部分组成。节点初始嵌入表示的生成、图编码器和图解码器的具体步骤见(4)-(6)。
(4)节点初始嵌入表示的生成
首先,构建一个疾病-症状共现矩阵
Figure 47372DEST_PATH_IMAGE013
,矩阵
Figure 562667DEST_PATH_IMAGE014
的第
Figure 282362DEST_PATH_IMAGE015
行、第
Figure 326541DEST_PATH_IMAGE016
列记为
Figure 131686DEST_PATH_IMAGE017
, 表示电子病历数据中诊断为疾病
Figure 418049DEST_PATH_IMAGE021
的患者中,出现症状
Figure 992249DEST_PATH_IMAGE019
的数量。接着,对
Figure 472909DEST_PATH_IMAGE014
进行行归一 化,得到
Figure 765350DEST_PATH_IMAGE023
,疾病
Figure 356869DEST_PATH_IMAGE021
的初始嵌入表示为
Figure 51155DEST_PATH_IMAGE022
,即
Figure 437137DEST_PATH_IMAGE020
的第
Figure 216874DEST_PATH_IMAGE015
行;对
Figure 346504DEST_PATH_IMAGE014
进行列归一化,得到
Figure 895297DEST_PATH_IMAGE024
,症状
Figure 717760DEST_PATH_IMAGE025
的初始嵌入表示为
Figure DEST_PATH_IMAGE122
,即
Figure 719214DEST_PATH_IMAGE024
的第
Figure 652535DEST_PATH_IMAGE015
列。然后,计算患者
Figure DEST_PATH_IMAGE123
的初始嵌入表示
Figure 55834DEST_PATH_IMAGE028
,计算公式如下:
Figure DEST_PATH_IMAGE124
其中,
Figure 783619DEST_PATH_IMAGE030
为患者
Figure 272369DEST_PATH_IMAGE123
的症状数量。
(5)图编码器
首先,不同类型的节点初始嵌入表示分别输入一个多层感知器,得到相同维度的初始嵌入表示,随后输入图编码器中。图编码器基于图卷积神经网络实现。
在图编码器中,不同类型的节点可以通过图中的连接边传递信息,来整合其他类 型节点的信息。对于疾病
Figure 274960DEST_PATH_IMAGE021
,第
Figure 532766DEST_PATH_IMAGE031
层的节点嵌入表示
Figure 431452DEST_PATH_IMAGE032
计算公式为:
Figure DEST_PATH_IMAGE125
对于症状
Figure 407498DEST_PATH_IMAGE025
,第
Figure 948201DEST_PATH_IMAGE031
层的节点嵌入表示
Figure 60514DEST_PATH_IMAGE034
计算公式为:
Figure 894215DEST_PATH_IMAGE035
对于患者
Figure DEST_PATH_IMAGE126
,第
Figure 91978DEST_PATH_IMAGE031
层的节点嵌入表示
Figure 436372DEST_PATH_IMAGE037
计算公式为:
Figure 403191DEST_PATH_IMAGE038
其中,
Figure 909259DEST_PATH_IMAGE039
是激活函数,
Figure 859897DEST_PATH_IMAGE040
Figure 476823DEST_PATH_IMAGE041
分别是第
Figure 829307DEST_PATH_IMAGE031
层疾病诊断模型训练得到的疾病-症状 关联权重矩阵和患者-症状关联权重矩阵;
Figure 506276DEST_PATH_IMAGE042
分别是疾病节点
Figure 678632DEST_PATH_IMAGE021
、症状节点
Figure 364828DEST_PATH_IMAGE025
、 患者节点
Figure 306239DEST_PATH_IMAGE075
在第
Figure DEST_PATH_IMAGE127
层的节点嵌入表示,图编码器的总层数为
Figure DEST_PATH_IMAGE128
Figure 888530DEST_PATH_IMAGE045
表示疾病节点
Figure 813761DEST_PATH_IMAGE021
相邻症状节点的集合,
Figure DEST_PATH_IMAGE129
表示症状节点
Figure 772490DEST_PATH_IMAGE025
相邻疾病节点的集合,
Figure DEST_PATH_IMAGE130
表示症状 节点
Figure 568407DEST_PATH_IMAGE025
相邻患者节点的集合,
Figure 587179DEST_PATH_IMAGE048
表示患者节点
Figure 734126DEST_PATH_IMAGE075
相邻症状节点的集合。
Figure 762125DEST_PATH_IMAGE045
Figure 678129DEST_PATH_IMAGE129
通过疾病-症状邻接矩阵获得,
Figure 867802DEST_PATH_IMAGE130
Figure 502045DEST_PATH_IMAGE048
通过患者-症状邻接矩阵获得。通 过反复执行上述节点嵌入表示更新操作
Figure 301112DEST_PATH_IMAGE128
次,得到能够充分捕获关联关系的疾病、症状、患 者节点嵌入表示。
(6)图解码器
将图编码器得到的节点嵌入表示输入图解码器中。在图解码器中,利用节点嵌入表示进行多任务学习。
第一,进行患者疾病诊断预测的多标签层次分类。
首先,利用疾病的层级结构构建疾病层级关系,示例如图4所示。其中,
Figure DEST_PATH_IMAGE131
层是疾病 集D中的疾病,即需要进行诊断预测的疾病,疾病种类如前所述为
Figure 337201DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE132
层是根据医学知 识对疾病进行的***分类,记为
Figure DEST_PATH_IMAGE133
Figure 432196DEST_PATH_IMAGE052
Figure 553736DEST_PATH_IMAGE132
层的疾病***分类数量。
接着,构建包含
Figure DEST_PATH_IMAGE134
个二分类器的多标签层次分类器,
Figure 392379DEST_PATH_IMAGE134
个二分类器记为
Figure 548553DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE135
。将患者
Figure 80029DEST_PATH_IMAGE036
的节点嵌入表示分别输入
Figure 423286DEST_PATH_IMAGE134
个二分类器,得到
Figure 65619DEST_PATH_IMAGE134
个预测概 率,记为
Figure DEST_PATH_IMAGE136
。其中,
Figure 810722DEST_PATH_IMAGE056
,分类器
Figure 778678DEST_PATH_IMAGE058
对应的标签为患者的疾病***分类;分类器
Figure DEST_PATH_IMAGE137
对应的标签为患者的疾病诊断,对应的模型参数为
Figure 609230DEST_PATH_IMAGE060
然后,计算患者
Figure 55255DEST_PATH_IMAGE043
出现疾病
Figure 654864DEST_PATH_IMAGE061
的概率
Figure 793721DEST_PATH_IMAGE062
,其中,
Figure DEST_PATH_IMAGE138
Figure 111570DEST_PATH_IMAGE064
为分类器
Figure DEST_PATH_IMAGE139
预测患者是否出现疾病
Figure 95706DEST_PATH_IMAGE061
的概率;假设疾病
Figure 815401DEST_PATH_IMAGE061
的***分类为
Figure 358115DEST_PATH_IMAGE066
Figure 163260DEST_PATH_IMAGE067
为分类器
Figure 216667DEST_PATH_IMAGE068
预测患者是否出现疾病***分类
Figure 790868DEST_PATH_IMAGE066
的概率。
最后,计算多标签层次分类的损失函数
Figure 271528DEST_PATH_IMAGE069
,公式如下:
Figure 563969DEST_PATH_IMAGE070
Figure 889908DEST_PATH_IMAGE071
Figure 584194DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE140
其中,
Figure 970176DEST_PATH_IMAGE074
为患者
Figure 749914DEST_PATH_IMAGE043
出现疾病
Figure 879544DEST_PATH_IMAGE061
的真实标签,
Figure 693916DEST_PATH_IMAGE076
为患者
Figure 250799DEST_PATH_IMAGE043
的疾病诊断对应的系 统分类的真实标签,
Figure 252253DEST_PATH_IMAGE077
表示L1范数,
Figure 451153DEST_PATH_IMAGE078
为疾病
Figure 854453DEST_PATH_IMAGE079
和疾病
Figure 847817DEST_PATH_IMAGE080
之间的相似性,计算公式如下:
Figure 336567DEST_PATH_IMAGE081
其中,
Figure 807999DEST_PATH_IMAGE082
分别表示疾病
Figure 331385DEST_PATH_IMAGE079
和疾病
Figure 495650DEST_PATH_IMAGE080
的真实标签分布,
Figure 737275DEST_PATH_IMAGE083
Figure 746819DEST_PATH_IMAGE084
Figure 390290DEST_PATH_IMAGE085
分别表示患者
Figure DEST_PATH_IMAGE141
出 现疾病
Figure 692834DEST_PATH_IMAGE079
和疾病
Figure 421755DEST_PATH_IMAGE080
的真实标签。
第二,进行疾病对比学习。
首先,将疾病集D中的疾病进行两两组合,得到疾病对集合DD,疾病对数量为
Figure 234990DEST_PATH_IMAGE086
。 对DD中的任意一个疾病对
Figure 467389DEST_PATH_IMAGE087
,如果两种疾病属于同一个***分类,则疾病对标签
Figure DEST_PATH_IMAGE142
, 如果两种疾病属于不同的***分类,则
Figure 973456DEST_PATH_IMAGE089
接着,构建疾病对***类别判别器
Figure 924095DEST_PATH_IMAGE090
。将疾病对
Figure 541021DEST_PATH_IMAGE087
中两种疾病的节点嵌 入表示
Figure 893505DEST_PATH_IMAGE091
输入
Figure DEST_PATH_IMAGE143
中,计算两种疾病之间的距离
Figure DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE145
其中,
Figure 39315DEST_PATH_IMAGE094
表示L2范数。
最后,计算疾病对比学习的损失函数
Figure DEST_PATH_IMAGE146
,公式如下:
Figure DEST_PATH_IMAGE147
其中,m为不同疾病***类别嵌入表示之间距离的下界。
第三,进行疾病-症状关系学习。
首先,从疾病集D和症状集S中分别选取一种疾病和一种症状,得到疾病-症状对集 合DS,疾病-症状对数量为
Figure 946091DEST_PATH_IMAGE097
。对DS中的任意一个疾病-症状对
Figure 101129DEST_PATH_IMAGE098
,如果该疾病-症状在 疾病-症状知识图谱中存在关联关系,则疾病-症状对标签
Figure DEST_PATH_IMAGE148
,如果不存在关联关 系,则
Figure 308120DEST_PATH_IMAGE100
接着,构建疾病-症状关系学习器
Figure 155990DEST_PATH_IMAGE101
,将
Figure 81221DEST_PATH_IMAGE102
中的疾病和症状的节点嵌入表示
Figure 39949DEST_PATH_IMAGE103
输入
Figure 835867DEST_PATH_IMAGE101
中,计算疾病-症状对
Figure 120218DEST_PATH_IMAGE102
中疾病与症状存在关联关系的概率
Figure 267165DEST_PATH_IMAGE104
Figure 295164DEST_PATH_IMAGE105
其中,
Figure 709703DEST_PATH_IMAGE106
表示sigmoid函数。
最后,计算疾病-症状关系学习的损失函数
Figure 633797DEST_PATH_IMAGE107
,公式如下:
Figure DEST_PATH_IMAGE149
疾病诊断模型的损失函数
Figure DEST_PATH_IMAGE150
定义如下:
Figure DEST_PATH_IMAGE151
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种基于图神经网络的疾病诊断预测***,其特征在于,包括:
(1)知识图谱构建模块:基于医学知识源构建疾病-症状知识图谱;
(2)数据提取与预处理模块:从电子病历***中抽取患者电子病历数据,包括患者疾病诊断和症状数据,用三元组形式保存;
(3)疾病诊断模型构建模块:对疾病-症状知识图谱和电子病历数据进行图神经网络学习和预测建模,包括:
构建异构图网络,所述异构图网络包括从疾病-症状知识图谱中提取疾病-症状关系构建的疾病-症状子图,以及利用三元组形式的患者疾病诊断和症状数据构建的患者-症状子图;
构建疾病诊断模型,所述疾病诊断模型由图编码器和图解码器两部分组成;
所述图编码器基于图卷积神经网络实现,输入为利用疾病-症状共现矩阵得到的疾病、症状、患者的节点初始嵌入表示,以及疾病-症状邻接矩阵和患者-症状邻接矩阵,不同类型的节点通过连接边传递信息,通过节点嵌入表示更新操作得到疾病、症状、患者节点嵌入表示,输入图解码器;
所述图解码器利用节点嵌入表示进行多任务学习,包括三个部分:
a)患者疾病诊断预测的多标签层次分类:
利用疾病的层级结构构建疾病层级关系,包括需要进行诊断预测的疾病层和根据医学 知识得到的疾病***分类层,疾病层的疾病种类记为
Figure DEST_PATH_IMAGE001
,疾病***分类层记为
Figure 854497DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 623869DEST_PATH_IMAGE004
为疾病***分类数量;
构建包含
Figure DEST_PATH_IMAGE005
个二分类器的多标签层次分类器,
Figure 394379DEST_PATH_IMAGE005
个二分类器记为
Figure 754954DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 610914DEST_PATH_IMAGE008
;将患者
Figure DEST_PATH_IMAGE009
的节点嵌入表示分别输入
Figure 246295DEST_PATH_IMAGE005
个二分类 器,得到
Figure 136890DEST_PATH_IMAGE005
个预测概率,记为
Figure 635743DEST_PATH_IMAGE010
,其中,二分类器
Figure DEST_PATH_IMAGE011
对应的标签为患者的疾病***分类;二分类器
Figure 510158DEST_PATH_IMAGE012
对应的标签为患者的疾病诊断,对应的模型 参数为
Figure DEST_PATH_IMAGE013
计算患者
Figure 886912DEST_PATH_IMAGE014
出现疾病
Figure DEST_PATH_IMAGE015
的概率
Figure 163173DEST_PATH_IMAGE016
,其中,
Figure DEST_PATH_IMAGE017
Figure 599970DEST_PATH_IMAGE018
为二分类 器
Figure DEST_PATH_IMAGE019
预测患者是否出现疾病
Figure 899365DEST_PATH_IMAGE015
的概率;假设疾病
Figure 610969DEST_PATH_IMAGE015
的***分类为
Figure 741736DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
为二分类器
Figure 83856DEST_PATH_IMAGE022
预测患者是否出现疾病***分类
Figure 932863DEST_PATH_IMAGE020
的概率;
计算多标签层次分类的损失函数
Figure DEST_PATH_IMAGE023
,公式如下:
Figure 385841DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure 636694DEST_PATH_IMAGE026
Figure 149715DEST_PATH_IMAGE027
其中,
Figure DEST_PATH_IMAGE028
表示患者数量,
Figure 486018DEST_PATH_IMAGE029
为患者
Figure 539425DEST_PATH_IMAGE009
出现疾病
Figure 582467DEST_PATH_IMAGE015
的真实标签,
Figure DEST_PATH_IMAGE030
为患者
Figure 328706DEST_PATH_IMAGE009
的疾病诊 断对应的疾病***分类的真实标签,
Figure 322945DEST_PATH_IMAGE031
表示L1范数,
Figure DEST_PATH_IMAGE032
为疾病
Figure 445621DEST_PATH_IMAGE033
和疾病
Figure DEST_PATH_IMAGE034
之间的相似 性,计算公式如下:
Figure 343170DEST_PATH_IMAGE035
其中,
Figure DEST_PATH_IMAGE036
分别表示疾病
Figure 260311DEST_PATH_IMAGE033
和疾病
Figure 508889DEST_PATH_IMAGE034
的真实标签分布,
Figure 169678DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure 921733DEST_PATH_IMAGE039
分别表示患者
Figure 9775DEST_PATH_IMAGE009
出 现疾病
Figure 542388DEST_PATH_IMAGE033
和疾病
Figure 944550DEST_PATH_IMAGE034
的真实标签;
b)疾病对比学习:构建疾病对***类别判别器,计算疾病对中两种疾病之间的距离,设计疾病对比学习的损失函数;
c)疾病-症状关系学习:构建疾病-症状关系学习器,计算疾病-症状对中疾病与症状存在关联关系的概率,设计疾病-症状关系学习的损失函数;
将所述多标签层次分类的损失函数、所述疾病对比学习的损失函数和所述疾病-症状关系学习的损失函数加和得到疾病诊断模型的损失函数;
(4)疾病诊断模型应用模块:利用疾病诊断模型,对新患者的输入症状进行疾病诊断预测。
2.根据权利要求1所述的基于图神经网络的疾病诊断预测***,其特征在于,所述知识图谱构建模块中,所述疾病-症状知识图谱包括疾病、症状两种节点类型和疾病-症状一种关系。
3.根据权利要求1所述的基于图神经网络的疾病诊断预测***,其特征在于,所述异构图网络基于疾病-症状知识图谱和电子病历数据构建,包含疾病、症状及患者三种节点类型,其中症状是疾病与患者之间连接的中间节点,所述异构图网络集成了疾病-症状知识图谱中与疾病、症状相关的关系子图和电子病历数据中与患者、症状相关的关系子图。
4.根据权利要求1所述的基于图神经网络的疾病诊断预测***,其特征在于,所述异构 图网络
Figure DEST_PATH_IMAGE040
表示为:
Figure 613429DEST_PATH_IMAGE041
其中,节点集
Figure DEST_PATH_IMAGE042
,D、S、P分别为给定的疾病集、症状集和患者 集,
Figure 75634DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE044
Figure 95543DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
Figure 35817DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
分别表示疾病种类、症状种类和患者数量;边集
Figure 824781DEST_PATH_IMAGE049
, 集合R包括表示疾病-症状关系
Figure DEST_PATH_IMAGE050
和患者-症状关系
Figure 723467DEST_PATH_IMAGE051
,所述疾病-症状关系存储在疾病- 症状邻接矩阵中,所述患者-症状关系存储在患者-症状邻接矩阵中。
5.根据权利要求4所述的基于图神经网络的疾病诊断预测***,其特征在于,所述节点初始嵌入表示的生成包括:
构建疾病-症状共现矩阵
Figure DEST_PATH_IMAGE052
,矩阵
Figure 401311DEST_PATH_IMAGE053
的第
Figure 942014DEST_PATH_IMAGE055
行、第
Figure DEST_PATH_IMAGE056
列记为
Figure 54326DEST_PATH_IMAGE057
,表示电子病历 数据中诊断为疾病
Figure DEST_PATH_IMAGE058
的患者中出现症状
Figure 655072DEST_PATH_IMAGE059
的数量;
Figure DEST_PATH_IMAGE060
进行行归一化,得到
Figure 587256DEST_PATH_IMAGE061
,疾病
Figure 666070DEST_PATH_IMAGE058
的初始嵌入表示为
Figure DEST_PATH_IMAGE062
,即
Figure 632889DEST_PATH_IMAGE061
的第
Figure 138957DEST_PATH_IMAGE055
行;
Figure 620754DEST_PATH_IMAGE060
进行列归一化,得到
Figure 503259DEST_PATH_IMAGE063
,症状
Figure DEST_PATH_IMAGE064
的初始嵌入表示为
Figure 324585DEST_PATH_IMAGE065
,即
Figure 267133DEST_PATH_IMAGE063
的第
Figure 908330DEST_PATH_IMAGE055
列;
计算患者
Figure DEST_PATH_IMAGE066
的初始嵌入表示
Figure 594526DEST_PATH_IMAGE067
,计算公式如下:
Figure DEST_PATH_IMAGE068
其中,
Figure 270358DEST_PATH_IMAGE069
为患者
Figure 383808DEST_PATH_IMAGE066
的症状数量。
6.根据权利要求1所述的基于图神经网络的疾病诊断预测***,其特征在于,将不同类型的节点初始嵌入表示分别输入一个多层感知器,得到相同维度的初始嵌入表示,再输入图编码器中。
7.根据权利要求5所述的基于图神经网络的疾病诊断预测***,其特征在于,所述图编 码器中,对于疾病
Figure 309038DEST_PATH_IMAGE058
,第
Figure DEST_PATH_IMAGE070
层的节点嵌入表示
Figure 2188DEST_PATH_IMAGE071
计算公式为:
Figure DEST_PATH_IMAGE072
对于症状
Figure 42780DEST_PATH_IMAGE064
,第
Figure 327131DEST_PATH_IMAGE070
层的节点嵌入表示
Figure 5237DEST_PATH_IMAGE073
计算公式为:
Figure DEST_PATH_IMAGE074
对于患者
Figure 970919DEST_PATH_IMAGE014
,第
Figure 418081DEST_PATH_IMAGE070
层的节点嵌入表示
Figure 873333DEST_PATH_IMAGE075
计算公式为:
Figure DEST_PATH_IMAGE076
其中,
Figure 976418DEST_PATH_IMAGE077
是激活函数,
Figure DEST_PATH_IMAGE078
Figure 11370DEST_PATH_IMAGE079
分别是第
Figure 47459DEST_PATH_IMAGE070
层疾病诊断模型训练得到的疾病-症状关联 权重矩阵和患者-症状关联权重矩阵;
Figure DEST_PATH_IMAGE080
分别是疾病
Figure 142454DEST_PATH_IMAGE058
、症状
Figure 529573DEST_PATH_IMAGE064
、患者
Figure 899375DEST_PATH_IMAGE009
在第
Figure 55550DEST_PATH_IMAGE081
层的节点嵌入表示;
Figure DEST_PATH_IMAGE082
表示疾病
Figure 55867DEST_PATH_IMAGE058
相邻症状节点的集合,
Figure 930282DEST_PATH_IMAGE083
表示症状
Figure 307036DEST_PATH_IMAGE064
相 邻疾病节点的集合,
Figure DEST_PATH_IMAGE084
表示症状
Figure 583297DEST_PATH_IMAGE064
相邻患者节点的集合,
Figure 551253DEST_PATH_IMAGE085
表示患者
Figure 850647DEST_PATH_IMAGE009
相邻症 状节点的集合。
8.根据权利要求7所述的基于图神经网络的疾病诊断预测***,其特征在于,所述图解码器中,所述疾病对比学习包括:
将疾病集D中的疾病进行两两组合,得到疾病对集合DD,疾病对数量为
Figure DEST_PATH_IMAGE086
;对DD中的 任意一个疾病对
Figure 562251DEST_PATH_IMAGE087
,如果两种疾病属于同一个***分类,则疾病对标签
Figure DEST_PATH_IMAGE088
,如果两 种疾病属于不同的***分类,则
Figure 394816DEST_PATH_IMAGE089
构建疾病对***类别判别器
Figure DEST_PATH_IMAGE090
,将疾病对
Figure 799252DEST_PATH_IMAGE087
中两种疾病的节点嵌入表示
Figure 585943DEST_PATH_IMAGE091
输入
Figure 101238DEST_PATH_IMAGE090
中,计算两种疾病之间的距离
Figure DEST_PATH_IMAGE092
Figure 289774DEST_PATH_IMAGE093
其中,
Figure 599532DEST_PATH_IMAGE094
表示L2范数;
计算疾病对比学习的损失函数
Figure DEST_PATH_IMAGE095
,公式如下:
Figure 139098DEST_PATH_IMAGE096
其中,m为不同疾病***类别嵌入表示之间距离的下界。
9.根据权利要求7所述的基于图神经网络的疾病诊断预测***,其特征在于,所述图解码器中,所述疾病-症状关系学习包括:
从疾病集D和症状集S中分别选取一种疾病和一种症状,得到疾病-症状对集合DS,疾 病-症状对数量为
Figure DEST_PATH_IMAGE097
;对DS中的任意一个疾病-症状对
Figure 458084DEST_PATH_IMAGE098
,如果疾病-症状在疾病-症状 知识图谱中存在关联关系,则疾病-症状对标签
Figure DEST_PATH_IMAGE099
,如果不存在关联关系,则
Figure 501126DEST_PATH_IMAGE100
构建疾病-症状关系学习器
Figure DEST_PATH_IMAGE101
,将
Figure 247365DEST_PATH_IMAGE102
中的疾病和症状的节点嵌入表示
Figure DEST_PATH_IMAGE103
输入
Figure 743069DEST_PATH_IMAGE101
中,计算
Figure 865746DEST_PATH_IMAGE102
中疾病与症状存在关联关系的概率
Figure 763294DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE105
其中,
Figure 680435DEST_PATH_IMAGE106
表示sigmoid函数;
计算疾病-症状关系学习的损失函数
Figure DEST_PATH_IMAGE107
,公式如下:
Figure 929014DEST_PATH_IMAGE108
CN202111609275.1A 2021-12-27 2021-12-27 一种基于图神经网络的疾病诊断预测*** Active CN113990495B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111609275.1A CN113990495B (zh) 2021-12-27 2021-12-27 一种基于图神经网络的疾病诊断预测***
JP2023536567A JP7459386B2 (ja) 2021-12-27 2022-09-05 グラフニューラルネットワークに基づく疾患診断予測システム
PCT/CN2022/116970 WO2023124190A1 (zh) 2021-12-27 2022-09-05 一种基于图神经网络的疾病诊断预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609275.1A CN113990495B (zh) 2021-12-27 2021-12-27 一种基于图神经网络的疾病诊断预测***

Publications (2)

Publication Number Publication Date
CN113990495A CN113990495A (zh) 2022-01-28
CN113990495B true CN113990495B (zh) 2022-04-29

Family

ID=79734519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111609275.1A Active CN113990495B (zh) 2021-12-27 2021-12-27 一种基于图神经网络的疾病诊断预测***

Country Status (3)

Country Link
JP (1) JP7459386B2 (zh)
CN (1) CN113990495B (zh)
WO (1) WO2023124190A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测***
CN114496283A (zh) * 2022-02-15 2022-05-13 山东大学 一种基于路径推理的疾病预测***、存储介质及设备
CN114496234B (zh) * 2022-04-18 2022-07-19 浙江大学 一种基于认知图谱的全科患者个性化诊疗方案推荐***
CN114898879B (zh) * 2022-05-10 2023-04-21 电子科技大学 一种基于图表示学习的慢病风险预测方法
CN114664452B (zh) * 2022-05-20 2022-09-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测***
CN115019923B (zh) * 2022-07-11 2023-04-28 中南大学 一种基于对比学习的电子病历数据预训练方法
CN115359870B (zh) * 2022-10-20 2023-03-24 之江实验室 一种基于层次图神经网络的疾病诊疗过程异常识别***
CN115424724B (zh) * 2022-11-04 2023-01-24 之江实验室 一种多模态图森林的肺癌***转移辅助诊断***
CN115862848B (zh) * 2023-02-15 2023-05-30 之江实验室 基于临床数据筛选和医学知识图谱的疾病预测***和装置
CN116072298B (zh) * 2023-04-06 2023-08-15 之江实验室 一种基于层级标记分布学习的疾病预测***
CN116646072A (zh) * 2023-05-18 2023-08-25 肇庆医学高等专科学校 一种***诊断神经网络模型的训练方法及装置
CN116562266B (zh) * 2023-07-10 2023-09-15 中国医学科学院北京协和医院 文本分析方法、计算机设备及计算机可读存储介质
CN116631641B (zh) * 2023-07-21 2023-12-22 之江实验室 一种集成自适应相似患者图的疾病预测装置
CN116936108B (zh) * 2023-09-19 2024-01-02 之江实验室 一种面向不平衡数据的疾病预测***
CN117010494B (zh) * 2023-09-27 2024-01-05 之江实验室 一种基于因果表示学习的医学数据生成方法及***
CN117012374B (zh) * 2023-10-07 2024-01-26 之江实验室 一种融合事件图谱和深度强化学习的医疗随访***及方法
CN117235487B (zh) * 2023-10-12 2024-03-12 北京大学第三医院(北京大学第三临床医学院) 一种用于预测哮喘患者住院事件的特征提取方法和***
CN117409911B (zh) * 2023-10-13 2024-05-07 四川大学 一种基于多视图对比学习的电子病历表示学习方法
CN117438023B (zh) * 2023-10-31 2024-04-26 灌云县南岗镇卫生院 基于大数据的医院信息管理方法及***
CN117894422A (zh) * 2024-03-18 2024-04-16 攀枝花学院 一种基于icu重症监测的数据可视化方法及***
CN118193797A (zh) * 2024-05-17 2024-06-14 之江实验室 一种业务执行的方法、装置、存储介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154928A (zh) * 2017-12-27 2018-06-12 北京嘉和美康信息技术有限公司 一种疾病诊断方法及装置
CN109036553A (zh) * 2018-08-01 2018-12-18 北京理工大学 一种基于自动抽取医疗专家知识的疾病预测方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN111370127A (zh) * 2020-01-14 2020-07-03 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持***
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111834012A (zh) * 2020-07-14 2020-10-27 中国中医科学院中医药信息研究所 基于深度学习和注意力机制的中医证候诊断方法及装置
CN112037912A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基于医疗知识图谱的分诊模型训练方法、装置及设备
CN112263220A (zh) * 2020-10-23 2021-01-26 北京文通图像识别技术研究中心有限公司 一种内分泌疾病智能诊断***
CN113409892A (zh) * 2021-05-13 2021-09-17 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113434626A (zh) * 2021-08-27 2021-09-24 之江实验室 一种多中心医学诊断知识图谱表示学习方法及***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774143B2 (en) * 2002-04-25 2010-08-10 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states
US20130268290A1 (en) * 2012-04-02 2013-10-10 David Jackson Systems and methods for disease knowledge modeling
PL407244A1 (pl) * 2014-02-18 2015-08-31 Instytut Biochemii I Biofizyki Polskiej Akademii Nauk Bioczujnik elektrochemiczny do wykrywania białka S100B
US20150356272A1 (en) * 2014-06-10 2015-12-10 Taipei Medical University Prescription analysis system and method for applying probabilistic model based on medical big data
US20190155993A1 (en) * 2017-11-20 2019-05-23 ThinkGenetic Inc. Method and System Supporting Disease Diagnosis
CN108198620B (zh) * 2018-01-12 2022-03-22 洛阳飞来石软件开发有限公司 一种基于深度学习的皮肤疾病智能辅助诊断***
US11636949B2 (en) * 2018-08-10 2023-04-25 Kahun Medical Ltd. Hybrid knowledge graph for healthcare applications
CN109784387A (zh) * 2018-12-29 2019-05-21 天津南大通用数据技术股份有限公司 基于神经网络和贝叶斯模型的多层次递进分类方法及***
CN111666477B (zh) 2020-06-19 2023-10-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置、智能设备及介质
CN111914562B (zh) 2020-08-21 2022-10-14 腾讯科技(深圳)有限公司 电子信息分析方法、装置、设备及可读存储介质
CN113674856B (zh) 2021-04-15 2023-12-12 腾讯科技(深圳)有限公司 基于人工智能的医学数据处理方法、装置、设备及介质
CN113656589B (zh) 2021-04-19 2023-07-04 腾讯科技(深圳)有限公司 对象属性确定方法、装置、计算机设备及存储介质
CN113643821B (zh) * 2021-10-13 2022-02-11 浙江大学 一种多中心知识图谱联合决策支持方法与***
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154928A (zh) * 2017-12-27 2018-06-12 北京嘉和美康信息技术有限公司 一种疾病诊断方法及装置
CN109036553A (zh) * 2018-08-01 2018-12-18 北京理工大学 一种基于自动抽取医疗专家知识的疾病预测方法
CN110277165A (zh) * 2019-06-27 2019-09-24 清华大学 基于图神经网络的辅助诊断方法、装置、设备及存储介质
CN111370127A (zh) * 2020-01-14 2020-07-03 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持***
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111834012A (zh) * 2020-07-14 2020-10-27 中国中医科学院中医药信息研究所 基于深度学习和注意力机制的中医证候诊断方法及装置
CN112037912A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基于医疗知识图谱的分诊模型训练方法、装置及设备
CN112263220A (zh) * 2020-10-23 2021-01-26 北京文通图像识别技术研究中心有限公司 一种内分泌疾病智能诊断***
CN113409892A (zh) * 2021-05-13 2021-09-17 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113434626A (zh) * 2021-08-27 2021-09-24 之江实验室 一种多中心医学诊断知识图谱表示学习方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Disease prediction using graph convolutional networks :Application to Autisom Spectrum Disorder and Alzheimer"s disease;Saraah Parisot ET AL;《Medical Image Analysis》;20180831;第48卷;全文 *
基于异构信息网络的疾病辅助诊断方法研究;孙振超;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20211215;第2021年卷(第12期);第17-31页 *
基于本体的疾病分子标志物挖掘方法研究;王永天;《万方学位论文》;20211202;全文 *
基于深度学习的胸部常见疾病诊断方法;张驰名等;《计算机工程》;20200731;第46卷(第7期);全文 *

Also Published As

Publication number Publication date
JP7459386B2 (ja) 2024-04-01
JP2024503980A (ja) 2024-01-30
CN113990495A (zh) 2022-01-28
WO2023124190A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN113990495B (zh) 一种基于图神经网络的疾病诊断预测***
Sullivan Understanding from machine learning models
Buhrmester et al. Analysis of explainers of black box deep neural networks for computer vision: A survey
Zheng et al. The fusion of deep learning and fuzzy systems: A state-of-the-art survey
Li et al. A survey of data-driven and knowledge-aware explainable ai
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
Geetha et al. Fuzzy case-based reasoning approach for finding COVID-19 patients priority in hospitals at source shortage period
CN113553440A (zh) 一种基于层次推理的医学实体关系抽取方法
Ibrahim et al. Explainable convolutional neural networks: A taxonomy, review, and future directions
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
Haggag et al. A computer-aided diagnostic system for diabetic retinopathy based on local and global extracted features
CN117457192A (zh) 智能远程诊断方法及***
CN111143573B (zh) 基于用户反馈信息进行知识图谱目标节点预测的方法
Wang et al. Bb-gcn: A bi-modal bridged graph convolutional network for multi-label chest x-ray recognition
Anjana et al. Improving sepsis classification performance with artificial intelligence algorithms: A comprehensive overview of healthcare applications
Vergara et al. A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph
Abu et al. Approaches Of Deep Learning In Persuading The Contemporary Society For The Adoption Of New Trend Of AI Systems: A Review
Sudha Applied Computational Intelligence
Analide et al. Intelligent Data Engineering and Automated Learning–IDEAL 2020: 21st International Conference, Guimaraes, Portugal, November 4–6, 2020, Proceedings, Part II
Fujita et al. Trends in Artificial Intelligence Theory and Applications. Artificial Intelligence Practices: 33rd International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems, IEA/AIE 2020, Kitakyushu, Japan, September 22-25, 2020, Proceedings
CN116662554B (zh) 基于异构图卷积神经网络的传染病方面级情感分类方法
de Oliveira Producing Decisions and Explanations: A Joint Approach Towards Explainable CNNs
Yuanchuan et al. Auxiliary diagnosis study of integrated electronic medical record text and CT images
Deng et al. Deep multiple instance learning for forecasting stock trends using financial news

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant