CN112233798A - 基于病理模式与注意力机制的可解释疾病风险分析*** - Google Patents

基于病理模式与注意力机制的可解释疾病风险分析*** Download PDF

Info

Publication number
CN112233798A
CN112233798A CN202011479766.4A CN202011479766A CN112233798A CN 112233798 A CN112233798 A CN 112233798A CN 202011479766 A CN202011479766 A CN 202011479766A CN 112233798 A CN112233798 A CN 112233798A
Authority
CN
China
Prior art keywords
patient
module
pathological
server
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011479766.4A
Other languages
English (en)
Other versions
CN112233798B (zh
Inventor
吕明琪
王琦晖
曾大建
时毅
李文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Smart Strategy Technology Co ltd
Original Assignee
Hangzhou Smart Strategy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Smart Strategy Technology Co ltd filed Critical Hangzhou Smart Strategy Technology Co ltd
Priority to CN202011479766.4A priority Critical patent/CN112233798B/zh
Publication of CN112233798A publication Critical patent/CN112233798A/zh
Application granted granted Critical
Publication of CN112233798B publication Critical patent/CN112233798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于病理模式与注意力机制的疾病风险分析***,包括信息采集装置、服务器,信息采集装置与服务器通讯连接,由信息采集装置将获取的多个病人的人口统计学特征数据信息、目标疾病的电子病历数据信息传送至服务器,服务器中设置有画像构建模块、图嵌入算法模块、病历信息提取模块、训练集构建模块、决策树集成模型模块、向量化模块、注意力机制模块、表征向量计算模块、拼接模块、逻辑回归分析模块,由服务器基于上述模块获取健康预警所需结果。本发明为健康预警提供了大数据服务支持,并具有分析结果准确的优点。

Description

基于病理模式与注意力机制的可解释疾病风险分析***
技术领域
本发明涉及智慧医疗领域,具体是一种基于病理模式挖掘与注意力机制的疾病风险分析信息***。
背景技术
近年来,随着电子病历大数据的积累,以及人工智能技术的发展,数据驱动的疾病风险预测方法应运而生,即通过分析和挖掘电子病历大数据,建立疾病风险预测模型,实现对疾病潜在风险和发展趋势的早期预测。疾病风险预测可对某些疾病未来的患病风险做出预警,以辅助医生制定更有效的治疗方案,对疾病进行预防和控制。
按技术发展的趋势,数据驱动的疾病风险预测方法大致可分为统计学方法和机器学习方法两大类。早期的数据驱动疾病风险预测方法主要采用统计学方法对某种疾病与多种风险因素进行相关性分析,以发现诱发这种疾病的主要风险因素。然而,统计学分析只能对原始风险因素进行分析,无法发现隐性的风险因素。此外,基于统计学方法建立的预测模型大多是线性的,准确率通常较低。
机器学习方法可自动从电子病历数据中学习到知识,在此基础上对未来数据做出预测。机器学习方法又可以分为传统浅层学习方法和深度学习方法两类。浅层学习方法(如逻辑回归、决策树模型)的优势是具有较好的可解释性,但不足之处在于模型的性能过于依赖领域知识(即人工定义的特征),泛化能力不强;深度学习方法的优势是可自动学习复杂、隐藏的特征,且准确率较高,但不足之处在于模型是一个黑盒***,缺乏可解释性。
现有技术申请号为201510357827.2的中国专利:一种疾病风险调整模型建立方法,其公开了利用计算机统计模型,基于病人历史数据对疾病风险进行分析的方法,但其主要是利用传统的统计学模型进行风险分析,没有采用先进的深度学习技术,因此仍然存在准确率低的问题。
申请号为201610715985.5的中国专利:一种基于大数据云分析的健康预测***、智能终端和服务器,其公开了在计算机中利用健康状况参数对疾病的风险进行预测分析的方法,但其主要是基于大数据分析建立统计模型来预测疾病风险,因此也是使用传统的统计学进行疾病预测的方法,同样存在准确率低的问题。
可解释性对智慧医疗***(特别是疾病风险预测***)十分重要。例如,当疾病风险预测***判定一个病人有患某种疾病的风险,医生通常需要知道模型究竟是基于哪些风险因素、或哪些检测数据做出了该判断,才能给出可靠的诊断和治疗方案。如果一个模型难以解释,则实用价值会大大受限。
发明内容
针对现有技术的不足,本发明提供了基于病理模式挖掘与注意力机制的疾病风险分析信息***。
本发明所采用的技术方案为:
基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:包括信息采集装置、服务器,所述信息采集装置获取多个病人的人口统计学特征数据、多个病人目标疾病的电子病历数据,信息采集装置与服务器通讯连接,由信息采集装置将获取的多个病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器,并由服务器将多个病人的人口统计学特征数据、目标疾病的电子病历数据存储至自身集成的存储器中,所述服务器中以程序形式设置有画像构建模块、图嵌入算法模块、病历信息提取模块、训练集构建模块、决策树集成模型模块、向量化模块、注意力机制模块、表征向量计算模块、拼接模块、逻辑回归分析模块,其中:
画像构建模块调用多个病人的人口统计学特征数据,并基于目标疾病的多个病人的人口统计学特征数据构建病人画像图;
图嵌入算法模块从画像构建模块获取多个病人的病人画像图,并在病人画像图中以每个病人实体和每种人口统计学特征取值作为节点,以病人实体和人口统计学特征取值之间的对应关系作为边,采用图嵌入算法对病人画像图进行处理,得到每个病人实体节点的表征向量;
病历信息提取模块调用每个病人目标疾病的电子病历数据,并从每个病人目标疾病的电子病历数据中提取各类病理特征和目标疾病诊断结果;
训练集构建模块从病历信息提取模块中获取所有病人的各类病理特征和目标疾病诊断结果,并以所有病人的各类病理特征和目标疾病诊断结果构建训练样本集;
决策树集成模型模块从训练集构建模块获取训练样本集,并利用训练样本集对决策树集成模型进行训练;然后从病历信息提取模块获取每个病人的病理特征,以每个病人的病理特征作为输入数据输入至训练好的决策树集成模型,得到每个病人的所有病理模式;
向量化模块从决策树集成模型获取每个病人的所有病理模式,并将每个病人的所有病理模式向量化;
注意力机制模块从向量化模块获取每个病人的所有病理模式向量,并基于注意力机制计算得到每个病人的每个病理模式对于对应病人的注意力权重;
表征向量计算模块从注意力机制模块获取每个病人的每个病理模式对于对应病人的注意力权重,同时从向量化模块获取每个病人的所有病理模式向量,然后基于每个病人的各个病理模式向量及每个病理模式对应的注意力权重,计算得到每个病人所有病理模式的总体表征向量;
拼接模块从表征向量计算模块获取每个病人所有病理模式的总体表征向量,同时从图嵌入算法模块获取每个病人实体节点的表征向量,并将每个病人实体节点的表征向量和每个病人所有病理模式的总体表征向量进行拼接,形成新的特征向量;
逻辑回归分析模块从拼接模块获取新的表征向量,然后采用逻辑回归分析方法对新的特征向量进行分析,得到每个病人的目标疾病风险概率。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中画像构建模块构建病人画像图的过程为:选择多个病人的目标疾病相关的相同若干人口统计学特征作为病人画像信息,由此构建病人画像概念图,然后将其中的连续型特征转化为离散型特征,并基于离散型特征构建病人画像图G = (V, E),其中:V为节点的集合,代表病人实体和特征取值,E为关系的集合,代表病人实体和特征取值之间的对应关系。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中图嵌入算法模块对病人画像图处理过程如下:
首先,采用图嵌入算法对病人画像图进行处理,得到所有节点的d 1维稠密表征向量,记每个节点n i 的表征向量为e i
然后,设置可训练的权重矩阵W P 、偏移向量b P 和映射向量h P ,基于公式(1)计算每个病人实体节点n i 与其邻居节点n j 的关联度权重α ij ,公式(1)如下:
Figure 100002_DEST_PATH_IMAGE002
(1),
其中,病人实体节点n i 的邻居节点包括n i 在每个人口统计学特征上的取值节点以及n i 自己,σ(·)为激活函数,e j 表示邻居节点n j 的表征向量;
最后,基于公式(2)计算每个病人实体节点n i 的最终表征向量g i ,公式(2)如下:
Figure 100002_DEST_PATH_IMAGE004
(2),
其中,A(i)代表病人实体节点n i 的邻居节点的编号集合。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中决策树集成模型模块得到每个病人的多个病理模式的过程如下:
(1)、特征抽取:给定病人数据集D,D中每个病人u i ,从u i 的电子病历数据中抽取各类病理特征,并根据疾病诊断结果形成训练样本集S
(2)、决策树集成模型训练:基于训练样本集S训练一个包含N颗决策树的决策树集成模型TM,则TM的每颗决策树的每条分枝均代表一个病理模式;
(3)、病理模式抽取:给定一个病人u i ,首先将其病理特征输入决策树集成模型TM的每颗决策树,则会到达每颗决策树的至少一个叶子节点,每个被到达的叶子节点对应的分枝即为该病人u i 的一个病理模式。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中表征向量计算模块计算得到每个病人所有病理模式的总体表征向量过程如下:
(A1)、病理模式嵌入:将决策树集成模型中的每颗决策树看成一个类别型特征,每个病理模式看成该类别型特征的一种取值,将病理模式p j 表示为一个one-hot向量f j ,然后,采用一个多层感知机将每一个病理模式p j 的one-hot向量f j 转化为一个d 2维的稠密向量x j
(A2)、注意力加权:首先,设置可训练的权重矩阵W A 、偏移向量b A 和映射向量h A ,基于公式(3)计算病理模式p j 对于病人u i 的注意力权重β ij ,公式(3)如下:
Figure 100002_DEST_PATH_IMAGE006
(3),
公式(3)中,σ(·)为激活函数。
然后,基于公式(4)计算每个病人u i 抽取到的所有病理模式的总体表征向量y i ,公式(4)如下:
Figure 100002_DEST_PATH_IMAGE008
(4)。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中还以程序形式设置有结果分析模块,所述结果分析模块中设定有阈值,结果分析模块从所述逻辑回归分析模块获取病人的目标疾病风险概率,并将病人的目标疾病风险概率与设定的阈值进行比较,若病人的目标疾病风险概率大于设定的阈值,则由结果分析模块从注意力机制模块获取该病人所有病理模式的注意力权重,然后由结果分析模块选择注意力权重最高的若干个病理模式,作为该病人目标疾病风险分析结果原因的解释并向外输出。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为人机交互设备,人机交互设备通过通讯总线与服务器有线通讯连接,并采用人工录入方式使人机交互设备获取多个病人的人口统计学特征数据、多个病人目标疾病的电子病历数据。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为计算机,计算机中录入并存储有多个病人的人口统计学特征数据、目标疾病的电子病历数据,计算机通过自身集成的通讯模块与服务器通讯连接,由计算机将多个病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器。
所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为分配于每个病人的个人智能终端,由个人智能终端录入并存储每个病人的人口统计学特征数据、目标疾病的电子病历数据,所述个人智能终端分别通过自身集成的通讯模块与服务器通讯连接,由各个个人智能终端分别将各自对应的病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器。
本发明的有益效果主要表现在:1、本发明信息***能够充分利用人口统计学特征数据和电子病历数据进行大数据分析,具有智能化和分析结果准确性高的优点,为健康预警提供了大数据服务支持。2、本发明信息***的服务器采用深度学习模型和注意力机制,在保证模型预测准确率的同时获得对预测结果的解释能力。3、本发明信息***的服务器采用集成决策树挖掘病理模式作为解释依据,提高了模型解释的参考价值。4、本发明信息***的服务器基于病人表征和病理模式表征设计注意力机制,提高了模型解释的适应性。
附图说明
图1是本发明***结构框图。
图2a是本发明服务器中画像构建模块构建的病人画像概念图例。
图2b是本发明服务器中画像构建模块构建的最终病人画像图例。
图3是本发明服务器中注意力机制模块、表征向量计算模块、拼接模块、逻辑回归分析模块注的工作原理图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,基于病理模式与注意力机制的可解释疾病风险分析***,包括信息采集装置、服务器,所述信息采集装置为人机交互设备、或者为计算机、或者为个人智能终端如手机等。
当信息采集装置为人机交互设备时,人机交互设备通过通讯总线与服务器有线通讯连接,由人工录入方式通过人机交互设备录入多个病人的人口统计学特征数据、多个病人目标疾病的电子病历数据,并由服务器将多个病人的人口统计学特征数据、目标疾病的电子病历数据存储至自身集成的存储器中。
当信息采集装置为计算机时,通过计算机录入并存储多个病人的人口统计学特征数据、目标疾病的电子病历数据,计算机通过自身集成的有线或无线通讯模块与服务器通讯连接,由计算机将多个病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器,并由服务器将多个病人的人口统计学特征数据、目标疾病的电子病历数据存储至自身集成的存储器中。
当信息采集装置为分配于每个病人的个人智能终端时,可由病人自行将个人的人口统计学特征数据、目标疾病的电子病历数据录入至个人智能终端,然后由个人智能终端通过自身集成的通讯模块将各自对应的病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器,并由服务器将多个病人的人口统计学特征数据、目标疾病的电子病历数据存储至自身集成的存储器中。
服务器中以程序形式设置有画像构建模块、图嵌入算法模块、病历信息提取模块、训练集构建模块、决策树集成模型模块、向量化模块、注意力机制模块、表征向量计算模块、拼接模块、逻辑回归分析模块、结果分析模块,其中:
画像构建模块调用多个病人的人口统计学特征数据,并基于目标疾病的多个病人的人口统计学特征数据信息构建病人画像图,具体过程如下:
如图2 a所示,每个病人选择年龄、性别、体重等人口统计学特征构建病人画像概念图。然后采用等宽法将将其中的连续型特征转化为离散型特征,并基于离散型特征构建病人画像图G = (V, E),其中:V为节点的集合,代表病人实体和特征取值,E为关系的集合,代表病人实体和特征取值之间的对应关系。如图2 b所示,最终病人画像图中的实体节点为病人张三、李四,特征为病人张三、李四的离散型特征性别、年龄层次、体重层次等。
图嵌入算法模块从画像构建模块获取多个病人的病人画像图,并在病人画像图中以每个病人实体和每种人口统计学特征取值作为节点,以病人实体和人口统计学特征取值之间的对应关系作为边,采用图嵌入算法对病人画像图进行处理,得到每个病人实体节点的表征向量,具体过程如下:
首先,采用图嵌入算法对病人画像图进行处理,得到所有节点的d 1维稠密表征向量,记每个节点n i 的表征向量为e i
然后,设置可训练的权重矩阵W P 、偏移向量b P 和映射向量h P ,基于公式(1)计算每个病人实体节点n i 与其邻居节点n j 的关联度权重α ij ,公式(1)如下:
Figure DEST_PATH_IMAGE009
(1),
其中,病人实体节点n i 的邻居节点包括n i 在每个人口统计学特征上的取值节点以及n i 自己,σ(·)为激活函数,e j 表示邻居节点n j 的表征向量;
最后,基于公式(2)计算每个病人实体节点n i 的最终表征向量g i ,公式(2)如下:
Figure DEST_PATH_IMAGE010
(2),
其中,A(i)代表病人实体节点n i 的邻居节点的编号集合。
病历信息提取模块调用每个病人目标疾病的电子病历数据,并从每个病人目标疾病的电子病历数据中提取各类病理特征和目标疾病诊断结果。
训练集构建模块从病历信息提取模块中获取所有病人的各类病理特征和目标疾病诊断结果,并以所有病人的各类病理特征和目标疾病诊断结果构建训练样本集。
决策树集成模型模块从训练集构建模块获取训练样本集,并利用训练样本集对决策树集成模型进行训练;然后从病历信息提取模块获取每个病人的病理特征,以每个病人的病理特征作为输入数据输入至训练好的决策树集成模型,得到每个病人的所有病理模式,具体过程如下:
(1)、特征抽取:给定病人数据集D,D中每个病人u i ,从u i 的电子病历数据中抽取各类病理特征,并根据疾病诊断结果形成训练样本集S
(2)、决策树集成模型训练:基于训练样本集S训练一个包含N颗决策树的决策树集成模型TM,则TM的每颗决策树的每条分枝均代表一个病理模式;
(3)、病理模式抽取:给定一个病人u i ,首先将其病理特征输入决策树集成模型TM的每颗决策树,则会到达每颗决策树的至少一个叶子节点,每个被到达的叶子节点对应的分枝即为该病人u i 的一个病理模式。
向量化模块从决策树集成模型获取每个病人的所有病理模式,并将每个病人的所有病理模式向量化。
如图3所示,注意力机制模块从向量化模块获取每个病人的所有病理模式向量,并基于注意力机制计算得到每个病人的每个病理模式对于对应病人的注意力权重。
表征向量计算模块从注意力机制模块获取每个病人的每个病理模式对于对应病人的注意力权重,同时从向量化模块获取每个病人的所有病理模式向量,然后基于每个病人的各个病理模式向量及每个病理模式对应的注意力权重,计算得到每个病人所有病理模式的总体表征向量,具体过程如下:
(A1)、病理模式嵌入:将决策树集成模型中的每颗决策树看成一个类别型特征,每个病理模式看成该类别型特征的一种取值,将病理模式p j 表示为一个one-hot向量f j ,然后,采用一个多层感知机将每一个病理模式p j 的one-hot向量f j 转化为一个d 2维的稠密向量x j
(A2)、注意力加权:首先,设置可训练的权重矩阵W A 、偏移向量b A 和映射向量h A ,基于公式(3)计算病理模式p j 对于病人u i 的注意力权重β ij ,公式(3)如下:
Figure DEST_PATH_IMAGE011
(3),
公式(3)中,σ(·)为激活函数。
然后,基于公式(4)计算每个病人u i 抽取到的所有病理模式的总体表征向量y i ,公式(4)如下:
Figure 50808DEST_PATH_IMAGE008
(4)。
拼接模块从表征向量计算模块获取每个病人所有病理模式的总体表征向量,同时从图嵌入算法模块获取每个病人实体节点的表征向量,并将每个病人实体节点的表征向量和每个病人所有病理模式的总体表征向量进行拼接,形成新的特征向量。
逻辑回归分析模块从拼接模块获取新的表征向量,然后采用逻辑回归分析方法对新的特征向量进行分析,得到每个病人的目标疾病风险概率。
结果分析模块中设定有阈值,结果分析模块从所述逻辑回归分析模块获取病人的目标疾病风险概率,并将病人的目标疾病风险概率与设定的阈值进行比较,若病人的目标疾病风险概率大于设定的阈值,则由结果分析模块从注意力机制模块获取该病人所有病理模式的注意力权重,然后由结果分析模块选择注意力权重最高的若干个病理模式,作为该病人目标疾病风险分析结果原因的解释并向外输出。
本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中工程技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (9)

1.基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:包括信息采集装置、服务器,所述信息采集装置获取多个病人的人口统计学特征数据、多个病人目标疾病的电子病历数据,信息采集装置与服务器通讯连接,由信息采集装置将获取的多个病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器,并由服务器将多个病人的人口统计学特征数据、目标疾病的电子病历数据存储至自身集成的存储器中,所述服务器中以程序形式设置有画像构建模块、图嵌入算法模块、病历信息提取模块、训练集构建模块、决策树集成模型模块、向量化模块、注意力机制模块、表征向量计算模块、拼接模块、逻辑回归分析模块,其中:
画像构建模块调用多个病人的人口统计学特征数据,并基于目标疾病的多个病人的人口统计学特征数据构建病人画像图;
图嵌入算法模块从画像构建模块获取多个病人的病人画像图,并在病人画像图中以每个病人实体和每种人口统计学特征取值作为节点,以病人实体和人口统计学特征取值之间的对应关系作为边,采用图嵌入算法对病人画像图进行处理,得到每个病人实体节点的表征向量;
病历信息提取模块调用每个病人目标疾病的电子病历数据,并从每个病人目标疾病的电子病历数据中提取各类病理特征和目标疾病诊断结果;
训练集构建模块从病历信息提取模块中获取所有病人的各类病理特征和目标疾病诊断结果,并以所有病人的各类病理特征和目标疾病诊断结果构建训练样本集;
决策树集成模型模块从训练集构建模块获取训练样本集,并利用训练样本集对决策树集成模型进行训练;然后从病历信息提取模块获取每个病人的病理特征,以每个病人的病理特征作为输入数据输入至训练好的决策树集成模型,得到每个病人的所有病理模式;
向量化模块从决策树集成模型获取每个病人的所有病理模式,并将每个病人的所有病理模式向量化;
注意力机制模块从向量化模块获取每个病人的所有病理模式向量,并基于注意力机制计算得到每个病人的每个病理模式对于对应病人的注意力权重;
表征向量计算模块从注意力机制模块获取每个病人的每个病理模式对于对应病人的注意力权重,同时从向量化模块获取每个病人的所有病理模式向量,然后基于每个病人的各个病理模式向量及每个病理模式对应的注意力权重,计算得到每个病人所有病理模式的总体表征向量;
拼接模块从表征向量计算模块获取每个病人所有病理模式的总体表征向量,同时从图嵌入算法模块获取每个病人实体节点的表征向量,并将每个病人实体节点的表征向量和每个病人所有病理模式的总体表征向量进行拼接,形成新的特征向量;
逻辑回归分析模块从拼接模块获取新的表征向量,然后采用逻辑回归分析方法对新的特征向量进行分析,得到每个病人的目标疾病风险概率。
2. 根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中画像构建模块构建病人画像图的过程为:选择多个病人的目标疾病相关的相同若干人口统计学特征作为病人画像信息,由此构建病人画像概念图,然后将其中的连续型特征转化为离散型特征,并基于离散型特征构建病人画像图G = (V, E),其中:V为节点的集合,代表病人实体和特征取值,E为关系的集合,代表病人实体和特征取值之间的对应关系。
3.根据权利要求1或2所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中图嵌入算法模块对病人画像图处理过程如下:
首先,采用图嵌入算法对病人画像图进行处理,得到所有节点的d 1维稠密表征向量,记每个节点n i 的表征向量为e i
然后,设置可训练的权重矩阵W P 、偏移向量b P 和映射向量h P ,基于公式(1)计算每个病人实体节点n i 与其邻居节点n j 的关联度权重α ij ,公式(1)如下:
Figure DEST_PATH_IMAGE002
(1),
其中,病人实体节点n i 的邻居节点包括n i 在每个人口统计学特征上的取值节点以及n i 自己,σ(·)为激活函数,e j 表示邻居节点n j 的表征向量;
最后,基于公式(2)计算每个病人实体节点n i 的最终表征向量g i ,公式(2)如下:
Figure DEST_PATH_IMAGE004
(2),
其中,A(i)代表病人实体节点n i 的邻居节点的编号集合。
4.根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中决策树集成模型模块得到每个病人的多个病理模式的过程如下:
(1)、特征抽取:给定病人数据集D,D中每个病人u i ,从u i 的电子病历数据中抽取各类病理特征,并根据疾病诊断结果形成训练样本集S
(2)、决策树集成模型训练:基于训练样本集S训练一个包含N颗决策树的决策树集成模型TM,则TM的每颗决策树的每条分枝均代表一个病理模式;
(3)、病理模式抽取:给定一个病人u i ,首先将其病理特征输入决策树集成模型TM的每颗决策树,则会到达每颗决策树的至少一个叶子节点,每个被到达的叶子节点对应的分枝即为该病人u i 的一个病理模式。
5.根据权利要求1或4所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中表征向量计算模块计算得到每个病人所有病理模式的总体表征向量过程如下:
(A1)、病理模式嵌入:将决策树集成模型中的每颗决策树看成一个类别型特征,每个病理模式看成该类别型特征的一种取值,将病理模式p j 表示为一个one-hot向量f j ,然后,采用一个多层感知机将每一个病理模式p j 的one-hot向量f j 转化为一个d 2维的稠密向量x j
(A2)、注意力加权:首先,设置可训练的权重矩阵W A 、偏移向量b A 和映射向量h A ,基于公式(3)计算病理模式p j 对于病人u i 的注意力权重β ij ,公式(3)如下:
Figure DEST_PATH_IMAGE006
(3),
公式(3)中,σ(·)为激活函数;
然后,基于公式(4)计算每个病人u i 抽取到的所有病理模式的总体表征向量y i ,公式(4)如下:
Figure DEST_PATH_IMAGE008
(4)。
6.根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述服务器中还以程序形式设置有结果分析模块,所述结果分析模块中设定有阈值,结果分析模块从所述逻辑回归分析模块获取病人的目标疾病风险概率,并将病人的目标疾病风险概率与设定的阈值进行比较,若病人的目标疾病风险概率大于设定的阈值,则由结果分析模块从注意力机制模块获取该病人所有病理模式的注意力权重,然后由结果分析模块选择注意力权重最高的若干个病理模式,作为该病人目标疾病风险分析结果原因的解释并向外输出。
7.根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为人机交互设备,人机交互设备通过通讯总线与服务器有线通讯连接,并采用人工录入方式使人机交互设备获取多个病人的人口统计学特征数据、多个病人目标疾病的电子病历数据。
8.根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为计算机,计算机中录入并存储有多个病人的人口统计学特征数据、目标疾病的电子病历数据,计算机通过自身集成的通讯模块与服务器通讯连接,由计算机将多个病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器。
9.根据权利要求1所述的基于病理模式与注意力机制的可解释疾病风险分析***,其特征在于:所述信息采集装置为分配于每个病人的个人智能终端,由个人智能终端录入并存储每个病人的人口统计学特征数据、目标疾病的电子病历数据,所述个人智能终端分别通过自身集成的通讯模块与服务器通讯连接,由各个个人智能终端分别将各自对应的病人的人口统计学特征数据、目标疾病的电子病历数据传送至服务器。
CN202011479766.4A 2020-12-16 2020-12-16 基于病理模式与注意力机制的可解释疾病风险分析*** Active CN112233798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011479766.4A CN112233798B (zh) 2020-12-16 2020-12-16 基于病理模式与注意力机制的可解释疾病风险分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479766.4A CN112233798B (zh) 2020-12-16 2020-12-16 基于病理模式与注意力机制的可解释疾病风险分析***

Publications (2)

Publication Number Publication Date
CN112233798A true CN112233798A (zh) 2021-01-15
CN112233798B CN112233798B (zh) 2021-03-19

Family

ID=74124747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479766.4A Active CN112233798B (zh) 2020-12-16 2020-12-16 基于病理模式与注意力机制的可解释疾病风险分析***

Country Status (1)

Country Link
CN (1) CN112233798B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885480A (zh) * 2021-02-23 2021-06-01 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质
WO2022261345A1 (en) * 2021-06-10 2022-12-15 Visa International Service Association System, method, and computer program product for feature analysis using an embedding tree
CN117194802A (zh) * 2023-11-07 2023-12-08 中国人民武装警察部队北京市总队医院 医防协同平台关于居民健康画像和服务推荐***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN111370120A (zh) * 2020-02-17 2020-07-03 深圳大学 一种基于心音信号的心脏舒张功能障碍的检测方法
CN111370122A (zh) * 2020-02-27 2020-07-03 西安交通大学 一种基于知识指导的时序数据风险预测方法、***及其应用
CN111681726A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 电子病历数据的处理方法、装置、设备和介质
CN111859938A (zh) * 2020-07-22 2020-10-30 大连理工大学 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754852A (zh) * 2019-01-08 2019-05-14 中南大学 基于电子病历的心血管疾病风险预测方法
CN111370120A (zh) * 2020-02-17 2020-07-03 深圳大学 一种基于心音信号的心脏舒张功能障碍的检测方法
CN111370122A (zh) * 2020-02-27 2020-07-03 西安交通大学 一种基于知识指导的时序数据风险预测方法、***及其应用
CN111681726A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 电子病历数据的处理方法、装置、设备和介质
CN111859938A (zh) * 2020-07-22 2020-10-30 大连理工大学 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885480A (zh) * 2021-02-23 2021-06-01 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
WO2022261345A1 (en) * 2021-06-10 2022-12-15 Visa International Service Association System, method, and computer program product for feature analysis using an embedding tree
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质
CN114692785B (zh) * 2022-05-26 2022-09-09 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质
CN117194802A (zh) * 2023-11-07 2023-12-08 中国人民武装警察部队北京市总队医院 医防协同平台关于居民健康画像和服务推荐***及方法

Also Published As

Publication number Publication date
CN112233798B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112233798B (zh) 基于病理模式与注意力机制的可解释疾病风险分析***
CN110136103B (zh) 医学影像解释方法、装置、计算机设备及存储介质
CN110517256B (zh) 一种基于人工智能的早期癌辅助诊断***
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN115013298B (zh) 污水泵的实时性能在线监测***及其监测方法
CN116933046B (zh) 基于深度学习的多模态健康管理方案生成方法和***
CN113077434A (zh) 基于多模态信息的肺癌识别方法、装置及存储介质
CN112001894B (zh) 一种甲状腺边界平滑度检测装置
CN115579141A (zh) 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
CN110363072A (zh) 舌象识别方法、装置、计算机设备及计算机可读存储介质
CN117975170B (zh) 基于大数据的医疗信息处理方法及***
CN111798980A (zh) 基于深度学习网络的复杂医学生物信号处理方法和装置
CN117408946A (zh) 图像处理模型的训练方法、图像处理方法
CN117530684B (zh) 一种基于健康大数据的血糖异常检测与预警***及方法
CN114595725A (zh) 一种基于加法网络和监督对比学习的脑电信号分类方法
CN117010971B (zh) 一种基于人像识别的智能健康险提供方法及***
CN113590971A (zh) 一种基于类脑时空感知表征的兴趣点推荐方法及***
CN115115038B (zh) 一种基于单导联心电信号的模型构建方法及性别识别方法
CN117079017A (zh) 可信的小样本图像识别分类方法
CN108846327B (zh) 一种色素痣与黑素瘤的智能判别***及方法
CN116704609A (zh) 基于时序注意力的在线手卫生评估方法及***
CN112560784B (zh) 一种基于动态多尺度卷积神经网络的心电图分类方法
CN114998731A (zh) 智能终端导航场景感知识别的方法
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN112270996B (zh) 一种可用于多变量医疗传感数据流的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230808

Address after: 4th Floor, Building 1, No. 508 Yingxi North Road, Fuxi Street, Deqing County, Huzhou City, Zhejiang Province, 313200

Patentee after: Zhejiang love news Medical Technology Co.,Ltd.

Address before: Room 506-2, Block E, building 1, 1378 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou smart strategy Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240510

Address after: Room 506-2, Block E, Building 1, No. 1378 Wenyi West Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Patentee after: Hangzhou smart strategy Technology Co.,Ltd.

Country or region after: China

Address before: 4th Floor, Building 1, No. 508 Yingxi North Road, Fuxi Street, Deqing County, Huzhou City, Zhejiang Province, 313200

Patentee before: Zhejiang love news Medical Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right