CN112259232A - 一种基于深度学习的vte风险自动评估*** - Google Patents

一种基于深度学习的vte风险自动评估*** Download PDF

Info

Publication number
CN112259232A
CN112259232A CN202011155170.9A CN202011155170A CN112259232A CN 112259232 A CN112259232 A CN 112259232A CN 202011155170 A CN202011155170 A CN 202011155170A CN 112259232 A CN112259232 A CN 112259232A
Authority
CN
China
Prior art keywords
risk
unstructured
index
vte
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011155170.9A
Other languages
English (en)
Other versions
CN112259232B (zh
Inventor
孙钊
吴军
高希余
刘小梅
冯德杰
段惠斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN202011155170.9A priority Critical patent/CN112259232B/zh
Publication of CN112259232A publication Critical patent/CN112259232A/zh
Application granted granted Critical
Publication of CN112259232B publication Critical patent/CN112259232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供了一种基于深度学习的VTE风险自动评估***,包括:第一分析模块,根据预设的VTE知识图谱,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;第二分析模块,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;第一判断模块,基于第一分析模块和第二分析模块的结果,判断非结构化风险指标是否被选中;第二判断模块,判断结构化风险指标是否被选中;风险项目评估模块,基于第一判断模块和第二判断模块的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险;本公开大大降低了护理人员的工作量,提高了VTE风险评估的准确率。

Description

一种基于深度学习的VTE风险自动评估***
技术领域
本公开涉及健康风险评估技术领域,特别涉及一种基于深度学习的VTE风险自动评估***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
静脉血栓栓塞症(Venous Thromboembolism,VTE)是一种严重威胁住院患者生命安全的疾病。为了尽可能防止VTE的发生,住院患者在住院期间需要进行多次VTE的风险评估,医护人员根据患者风险评估的结果采取相应预防措施。因此,能够准确地对患者进行VTE风险评估具有重要的意义。目前,VTE风险评估的方法是由护理人员依据各种权威评估表(例如,Caprini、Rogers、Pauda、Wells等评估表)询问患者,手工填写评估表中各风险项目的评估结果(即是否选中该项目),基于各项目的评估结果,推断患者的VTE风险评分,关于风险项目、风险评分的概念的解释,见第3部分中的概念解释。
本公开发明人发现,现有技术存在如下缺陷:(1)目前的VTE评估大多由护理人员手工完成,工作量大,耗费大量时间。而且评估过程中涉及的很多风险项目,其判定需要专业医学知识,护理人员普遍缺乏相关的医学知识,导致判定结果不准确;(2)目前的VTE评估***不能全面分析医院信息***中患者各方面的数据,自动、准确地完成VTE风险评估,这对于患者VTE的预防造成了不良的影响。
发明内容
为了解决现有技术的不足,本公开提供了一种基于深度学习的VTE风险自动评估***,利用人工智能技术,通过自动全面分析医院信息***中患者的信息完成VTE风险评估,大大降低了护理人员的工作量;同时将患者的信息与相关医学知识有效结合,大大提高了VTE风险评估的准确率。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于深度学习的VTE风险自动评估***。
一种基于深度学习的VTE风险自动评估***,包括:
第一分析模块,被配置为:根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
第二分析模块,被配置为:根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
第一判断模块,被配置为:基于第一分析模块和第二分析模块的结果,判断非结构化风险指标是否被选中;
第二判断模块,被配置为:根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
风险项目评估模块,被配置为:基于第一判断模块和第二判断模块的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
作为可能的一些实现方式,还包括:
知识图谱构建模块,被配置为:根据获取的VTE相关数据构建知识图谱,所述知识图谱,包括:
第一知识图谱,被配置为:风险项目包含的风险指标以及该指标的类别;
第二知识图谱,被配置为:某风险指标对应的相关数据及判断的标准;
第三知识图谱,被配置为:非结构化风险指标的相关文本数据以及文本数据中包括的与该指标相关的关键字和词;
第四知识图谱,被配置为:非结构化风险指标的相关文本数据中的否定字和否定词。
作为进一步的限定,第一分析模块,被配置为:根据第一知识图谱,获取所有风险指标所对应的相关数据并输入到第一深度学习模型中,得到所有非结构化风险指标的被选中的概率向量。
作为更进一步的限定,还包括:
风险指标获取模块,被配置为:根据第一知识图谱,获取某一风险项目包含的所有风险指标及类别。
作为更进一步的限定,第二判断模块,被配置为:针对得到的某结构化风险指标,在第二知识图谱中找到对应的需要分析的结构化数据及判断标准,将该指标与判断标准进行比较,判断是否选取该指标。
作为更进一步的限定,第二分析模块,被配置为:针对得到的某非结构化风险指标,在第二知识图谱中找到其所对应的需要分析的非结构化精准数据以及判断标准,将非结构化数据输入到第二深度学习模型中,得到该指标被选中的概率。
作为更进一步的限定,第一判断模块,被配置为:对于风险项目对应的某非结构化指标,根据所有非结构化风险指标的被选中的概率和该指标被选中的概率的加权平均值与预设阈值的对比,判断是否选定该指标。
作为更进一步的限定,第二分析模块中,获取非结构化精准数据,具体为:
将第二知识图谱中对应的文本分成小句,将得到的小句按照出现的顺序依次加入第一集合;
从第一集合中的第一个小句开始,对第一集合中的每一个小句,检查是否含有第四知识图谱中的否定字和否定词,从第一集合中排除掉含有这些否定字和否定词的小句;
对第一集合中的每一个小句,检查是否含有第三知识图谱中某一指标所对应的关键字和关键词,从第一集合中排除掉不含有这些关键字和关键词的小句;
将第一集合中的小句拼接成一段文本,并输出该文本。
本公开第二方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
本公开第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
与现有技术相比,本公开的有益效果是:
1、本公开所述的***、计算机可读存储介质或电子设备,利用人工智能技术,自动全面分析医院信息***中患者的信息,完成VTE风险评估,大大降低了护理人员的工作量;同时将患者的信息与相关医学知识有效结合,大大提高了VTE风险评估的准确率。
2、本公开所述的***、计算机可读存储介质或电子设备,能够基于医院信息***,准确填写患者的VTE风险评估表,针对非结构化文本数据描述某一个指标时描述方式不固定的问题,采取了深度学习模型来解决这个难点。
3、本公开所述的***、计算机可读存储介质或电子设备,在分析非结构化指标的相关文本数据时,将知识图谱与深度学习模型深入结合;基于知识图谱,从大量医学文本中精准提取与该指标相关的文本,大大缩小了深度学习模型学要分析文本的长度,保证了深度学习模型分析的精度。
4、本公开所述的***、计算机可读存储介质或电子设备,在判断非结构化指标时,没有只局限于与该非结构化指标相关的数据,而是综合分析了所有与患者VTE风险评估相关的信息,提高了判断结果的准确率。
5、本公开所述的***、计算机可读存储介质或电子设备,引入了精确提取与非结构化指标相关文本数据的新方法,其中,专门针对病历文本中大量存在的否定表达进行了处理,大大提高了提取相关文本数据的准确性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的基于深度学习的VTE风险自动评估***的技术流程示意图。
图2为本公开实施例1提供的结构化风险指标分析流程示意图。
图3为本公开实施例1提供的非结构化风险指标分析流程示意图。
图4为本公开实施例1提供的第一深度学习模型的结构示意图。
图5为本公开实施例1提供的第二深度学习模型的结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于深度学习的VTE风险自动评估***,基于人工智能技术,自动分析患者在医院信息***中的各方面数据,自动填写目前医学界常见的几种VTE风险评估表(例如,Caprini、Rogers、Pauda、Wells等评估表),从而完成VTE风险评估。
具体的,包括非结构化风险指标综合分析模块(即第一分析模块)、结构化风险指标单项分析模块(即第二分析模块)、非结构化风险指标判断模块(即第一判断模块)、结构化风险指标判断模块(即第二判断模块)和风险项目判断模块;
在“非结构化风险指标综合分析模块”,基于患者与所有风险项目相关的信息,分析患者所有非结构化风险指标被选中的概率。
在“非结构化风险指标单项分析模块”,基于患者与某个非结构化风险指标相关的信息,分析患者的该非结构化风险指标被选中的概率。
在“非结构化风险指标判断模块”,基于“非结构化风险指标综合分析模块”和“非结构化风险指标单项分析模块”的分析结果,判断非结构化风险指标是否被选中。
在“结构化风险指标判断模块”,判断结构化风险指标是否被选中。
在“风险项目判断模块”,基于“非结构化风险指标判断模块”和“结构化风险指标判断模块”的判断结果,判断该风险项目是否被选中。
本实施例中涉及到的专业概念,解释如下:
VTE风险项目:在VTE风险评估过程中,需评估多个VTE风险项目(简称为风险项目),即对每一个风险项目进行评估,例如,在VTE风险评估过程中,需要对风险项目“是否患有活动性恶性肿瘤”进行评估。
VTE风险指标:每个VTE风险项目都对应一个或多个VTE风险指标(简称为风险指标),对于某风险项目,若判定其对应的某个风险指标成立,则该风险项目被判定为有风险,选中该风险项目。例如,风险项目“是否患有活动性恶性肿瘤”对应的风险指标包括“现病史中是否有关于活动性恶性肿瘤的描述”、“诊断中是否有关于恶性肿瘤的记录”等,在这些风险指标中只需某一个成立,则该风险项目便被判定为有风险。
结构化风险指标、非结构化风险指标:判定某项风险指标需要在医疗信息***中找到与其相关的数据。在判定某风险指标时,若只需分析结构化数据,称该指标为结构化风险指标;若只需分析非结构化数据,称该指标为非结构化风险指标。例如,风险指标“医嘱中是否包含长期卧床”是结构化风险指标(因为只需分析结构化的医嘱数据),而“现病史中是否有关于活动性恶性肿瘤的描述”是非结构化风险指标(因为只需分析非结构化病历文本数据)。
VTE风险评分:医院通过VTE风险评估***给每个患者进行VTE风险评分(简称为风险评分)。在VTE风险评估过程中,每个风险项目对应一定的分值,患者的VTE风险评分为所有被选中风险项目所对应评分的总和。
更具体的,包括以下内容:
一、构建知识图谱
S:风险项目→风险指标→指标类别,即某风险项目包含的风险指标,以及该指标的类别(即,结构化风险指标或非结构化风险指标)。
T:风险指标→相关数据→判断标准,即判定某风险指标,需要分析的相关数据及判断的标准,对结构化风险指标,相关数据是该指标所对应的数据库中某个字段的数据,例如,医嘱名称这个字段中的数据;对非结构化风险指标,相关数据指描述该指标的文本类型,例如,病历文本中的入院记录部分。
M:非结构化风险指标→相关数据→关键字、词,非结构化风险指标的相关数据指描述该指标的文本部分,这些文本中含有与该指标相关的关键字、词,知识图谱M记录了这些关键字、词。
N:否定字、词表;在非结构化风险指标的相关文本数据的描述中,有很多否定意义的描述,例如,“未见腹痛”,其中,“未见”就是一个否定词,知识图谱N记录了病历文本中的否定字、词。
二、实施步骤
首先,在步骤1中,综合判断所有风险项目所对应的所有非结构化风险指标。接下来,基于步骤1的结果,在步骤2-5中,判断某风险项目A的判断结果。对于某风险项目A:首先,在步骤2中获得风险项目A的所有风险指标;接下来,在步骤3中判断每一个结构化风险指标;在步骤4中判断每一个非结构化风险指标;在步骤5中综合分析步骤1-4中的判断结果,判断风险项目A的结果。步骤1、4中分别用到了深度学习模型G、H,分别在步骤6、步骤7中进行阐述。
步骤1:综合分析非结构化风险指标
在知识图谱S中找到所有风险项目和他们所对应的所有风险指标(包括结构化、非结构化风险指标)。在知识图谱T中找到所有风险指标所对应的相关数据,将所有的相关数据输入深度学习模型G(模型G的描述见步骤6),模型G会输出所有非结构化风险指标的被选中的概率向量(记为P,选中非结构化指标f的概率记为P(f)),输出该向量,进入步骤5。
步骤2:获得风险项目A的风险指标
在知识图谱S中找到风险项目A包含的所有风险指标及它们的类别,对于结构化风险指标,进入步骤3;对于非结构化风险指标,进入步骤4。
步骤3:分析结构化风险指标
对步骤2中找到的某结构化风险指标,在知识图谱T中找到其所对应的需要分析的结构化数据及判断标准,将该指标与判断标准进行比较,判断是否选取该指标。例如,对于风险指标“年龄大于70岁”,本实施例在医院信息***数据库的患者住院信息-年龄这个字段中,提取出患者的年龄,再与70岁这个判断标准进行比较,若年龄大于70岁,则选中该指标,进入步骤5;否则,不选中该指标,进入步骤5。工作流程如图2所示。
步骤4:分析非结构化风险指标
如图3所示,对步骤2中找到的非结构化风险指标f,在知识图谱T中找到其所对应的需要分析的非结构化“精准”数据F(提取非结构化“精准”数据F的方法见步骤8)以及判断标准,将F输入深度学习模型H(模型H的描述见步骤7)中,模型H会输出该指标被选中的概率u_f,输出该概率,进入步骤5。
步骤5:输出风险项目A的判断结果
判定风险项目A需要判断A对应的所有结构化、非结构化风险指标,只要有一个风险指标被选中,则判定A有风险。接下来,在步骤5.1、步骤5.2中分别得到结构化、非结构化风险指标的判断结果。
步骤5.1:对于风险项目A对应的某结构化指标,使用步骤3输出的判定结果进行判断。
步骤5.2:对于风险项目A对应的某非结构化指标f,综合考虑步骤1输出的选中指标f的概率P(f)和步骤4输出的选中指标f的概率u_f,分别赋予这两个概率0.3、0.7的权重,将它们的加权平均值作为选中指标f的概率。若此概率值高于0.5,选中该指标,否则,不选中该指标。
步骤6:深度学习模型G
步骤6.1:模型功能
本模型基于患者所有风险指标的相关数据,综合分析并输出所有非结构化风险指标被选中的概率向量。
步骤6.2:模型构建
步骤(1):构建包含所有风险指标的患者数据库K,针对各项风险指标,包含不同患者与指标相关的结构化数据、非结构化“精准”文本数据(关于获得“精准”文本数据的方法,详见步骤8)、指标判定结果等信息。
该步骤具体如下:
步骤(101):在医疗病例信息大数据库中,对知识图谱T中的每个风险指标,找到k个(例如,k=100)该指标被选中的“不同患者”(关于“不同患者”的定义,见步骤(102)),并找到k个该指标没有被选中的“不同患者”,将这些患者与所有风险指标相关的结构化数据、非结构化“精准”文本数据存储在信息库K中。
步骤(102):对于结构化风险指标,“不同患者”的定义是任意不同患者;对于非结构化风险指标,“不同患者”指每个患者的“精准”文本数据之间利用Levenshtein距离计算出的相似度小于某个阈值,如0.6。
步骤(2):构建深度学习模型G。
步骤(201):构建信息库K中每个患者所对应的信息向量。
对患者p,其数据信息主要包括两类,一类是结构化数据,另一类是非结构化文本数据。
(i)对于结构化数据,我们按照类别对应的0-1向量,将结构化数据转化为向量(称为类别向量),即可以用某个向量表示该结构化数据,举例如下:
例1、患者的性别一共两类(男和女),男性类别向量为(1,0),女性类别向量为(0,1),那么患者的性别信息就从“男或女”转化为向量“(1,0)或(0,1)”。
例2、假设信息库K中共有3000种西医疾病诊断名称,那么患者的疾病诊断名称所对应的类别向量共3000维,患者具有的疾病诊断所对应的维度数值为1,其余维度数值为0。
对患者p,将所有结构化信息转化为类别向量,对结构化风险指标j,其对应的类别向量记为L_p_j。
(ii)对于非结构化文本数据,完成文本数据的向量化表示,即,使用结巴分词技术、BERT预训练词向量技术将文本数据中的词语用词向量表示。
步骤(202):构建模型G的步骤如下。
(i)建立训练集、验证集、测试集
对信息库K中每个风险指标所对应的k个被选中患者、k个未被选中患者,分别将其中60%、20%、20%的患者所对应的结构化信息向量、“精准”文本词向量划入训练集、验证集、测试集。
(ii)深度学习模型G的结构
对患者p,对每一个结构化风险指标j,将其结构化信息向量L_p_j输入多层感知机模型(MLP),输出的向量记为T_p_j,利用线性回归的方法将向量T_p_j映射到代表患者p与所有风险指标关系的向量M_p_j,即M_p_j=a_1*T_p_j+a_2,M_p_j的维度是知识图谱S中所有风险指标的个数,其中a_1、a_2为该线性回归关系中的参数张量,需要下面步骤(iii)的训练来确定具体数值。
对患者p,对每一个非结构化风险指标f,将其非结构化“精准”文本信息词向量(可能是多个)输入双向长短时记忆循环神经网络模型(Bi-LSTM),将输出的结果经过最大池技术(Max-pooling),得到向量S_p_f。利用线性回归的方法将向量S_p_f映射到代表患者p与所有风险指标关系的向量C_p_f,即C_p_f=b_1*S_p_f+b_2,C_p_f的维度是知识图谱S中所有风险指标的个数,其中b_1、b_2为该线性回归关系中的参数张量,需要下面步骤(iii)的训练来确定具体数值。
考虑所有的结构化风险指标j、非结构化风险指标f,将所有的M_p_j、C_p_f组成向量W_p,即
W_p=[M_p_1,M_p_2,...,C_p_1,C_p_2,...]。
接下来,将W_p输入多层感知机模型(MLP),输出向量V_p。
利用线性回归的方法将向量V_p映射到代表患者p的信息与所有非结构化风险指标之间相似关系的指数向量ρ,即ρ=c_1*V_p+c_2,ρ的维度是知识图谱M中所有非结构化风险指标的个数,向量ρ中的第i个元素ρ(i)代表患者p的信息与知识图谱M中第i个非结构化风险指标的关系,其中c_1、c_2为该线性回归关系中的参数张量,需要下面步骤(iii)的训练来确定具体数值;
将ρ通过softmax函数转化为概率向量P,即若指标f是知识图谱S中第i个风险指标,则模型G推断出的f被选中的概率P(f)为:
Figure BDA0002742553170000141
将P与所有非结构化风险指标真实判断结果的0-1概率分布q的交叉熵作为模型G的损失函数。
模型G的结构如图4所示。
(iii)训练以获得模型G的参数
将训练集中的每个患者p的信息向量,通过步骤(ii)中的整个过程,将最小化损失函数作为目标进行训练。把训练集中的每个患者p的全部信息向量都按照步骤(ii)的过程进行一次训练,称为在训练集上训练了一次。整个训练过程为:
i、在训练集上每训练100次,保存一次得到的模型;
ii、保存一次模型后,使用该模型在验证集上进行一次验证,得到验证集中所有患者的损失函数的总和并保存;
iii、验证100次后,选择验证损失函数总和最小的模型所对应的参数,作为模型G的最终参数;
iv、在测试集上进行一次测试:对测试集中的所有患者,将步骤(ii)中推断选中的指标(对指标f,若P(f)>0.5,则选中该指标,否则,不选中该指标)与真实被选中指标进行对比,获得对测试集中所有患者非结构化指标的推断准确率,作为模型G的推断准确率。
步骤(203):模型G的使用方法。
对住院患者p,将其所有风险指标对应信息的向量输入模型G,输出知识图谱M中所有非结构化风险指标被选中的概率向量P。
步骤7:深度学习模型H
步骤7.1:模型功能
对于某非结构化指标f,本模型基于患者关于指标f的非结构化“精准”数据(关于如何获取指标f的非结构化“精准”数据,见步骤8),推断该指标被选中的概率。具体来说,模型的输入是由步骤8得到的非结构化“精准”文本数据,输出是指标f被选中的概率。
步骤7.2:模型H的构建
步骤(1):构建所有非结构化风险指标的患者数据库K,针对各项非结构化风险指标,包含不同患者与指标相关的“精准”文本数据、指标判定结果等信息。该步骤具体如下:
步骤(101):在医疗病例信息大数据库中,对知识图谱M中的每个非结构化风险指标,找到k个(例如,k=100)该指标被选中的“不同患者”(关于“不同患者”的定义,见步骤(102)),并找到k个该指标没有被选中的“不同患者”,将这些患者与该指标相关的“精准”文本数据、指标真实判断结果存储在信息库K中。
步骤(102):“不同患者”的定义是,每个患者的“精准”文本数据之间利用Levenshtein距离计算出的相似度小于某个阈值,如0.6。
步骤(2):构建深度学习模型H。
步骤(201):文本信息的向量化表示。对于非结构化“精准”文本数据,完成其向量化表示,使用结巴分词工具、BERT预训练词向量技术将非结构化“精准”文本数据中的词语用词向量表示。
步骤(202):构建模型H的具体步骤如下。
(i)建立训练集、验证集、测试集
对患者病情数据库K中每个非结构化风险指标所对应的k个被选中患者、k个未被选中患者,将其中60%、20%、20%的患者所对应的“精准”文本数据的文本向量划入训练集、验证集、测试集。
(ii)深度学习模型H的结构
对患者p,考虑非结构化指标f,将f对应的“精准”文本数据的(可能是多个)词向量输入双向长短时记忆循环神经网络(Bi-LSTM),将每个词向量输出的结果经过最大池技术(Max-Pooling),得到能表示患者p对应指标f的向量L_p;利用逻辑回归的方法将向量L_p映射到代表患者p是否有指标f的概率值u_f,
Figure BDA0002742553170000161
其中c_1、c_2为该逻辑回归关系中的参数张量,需要下面步骤(iii)的训练来确定具体数值。将u_f与指标f真实判定结果的0-1概率值q(即若指标被选中,q=1,否则,q=0)的交叉熵作为模型H的损失函数。模型H的整体结构如图5所示。
(iii)训练以获得模型H的参数
将训练集中的每个患者p的信息向量,通过步骤(ii)中的整个过程,将最小化损失函数作为目标进行训练。把训练集中的每个患者p的全部信息向量都按照步骤(ii)的过程进行一次训练,称为在训练集上训练了一次。
整个训练过程为:
i、在训练集上每训练200次,保存一次得到的模型;
ii、保存一次模型后,使用该模型在验证集上进行一次验证,得到验证集中所有患者的损失函数的总和并保存;
iii、验证100次后,选择验证损失函数总和最小的模型所对应的参数,作为模型H的最终参数(若模型推断出指标f被选中的概率值u_f>0.5,则判定为选中该指标,否则,判定为不选中该指标);
iv、在测试集上进行一次测试:对测试集中的所有患者,将步骤(ii)中推断出的指标判定结果与真实判定结果进行对比,获得对测试集中所有患者的推断准确率,作为模型H的推断准确率。
步骤(203):模型H的使用方法。
对患者p,针对非结构化指标f,将f对应的“精准”文本数据的(可能是多个)词向量输入模型H,输出概率值u_f。
步骤8:提取非结构化指标所对应相关非结构化“精准”数据的方法
假设需要提取非结构化指标f所对应的所有非结构化“精准”数据,在知识图谱M、T中,只记录了指标f所对应的文本,记为f_t(例如,入院记录)。若直接把f_t中的文本全部提取,则会引入大量无效信息,给模型G、H引入噪音数据,影响判断结果。因此,本申请创造了一种“精准”提取相关文本的方法,将提取出来的文本描述组成集合W,获得W的方法如下。
步骤8.1:将知识图谱T中对应的文本f_t分成小句,即,将f_t按照冒号、逗号、分号、句号进行分割,每一小段称为一个小句,将这些小句按照它们出现的顺序依次加入集合W,进入步骤8.2。
步骤8.2:从W中的第一个小句开始,对W中的每一个小句,检查是否含有知识图谱N中的否定字、词,从W中排除掉含有这些否定字、词的小句,进入步骤8.3。
步骤8.3:对W中的每一个小句,检查是否含有知识图谱M中指标f所对应的关键字、词,从W中排除掉不含有这些关键字、词的小句,进入步骤8.4。
步骤8.4:将集合W中的小句拼接成一段文本,输出该文本。
实施例2:
本公开实施例2提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
详细的方法与实施例1中提供的相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
详细的方法与实施例1中提供的相同,这里不再赘述。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于深度学习的VTE风险自动评估***,其特征在于,包括:
第一分析模块,被配置为:根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
第二分析模块,被配置为:根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
第一判断模块,被配置为:基于第一分析模块和第二分析模块的结果,判断非结构化风险指标是否被选中;
第二判断模块,被配置为:根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
风险项目评估模块,被配置为:基于第一判断模块和第二判断模块的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
2.如权利要求1所述的基于深度学习的VTE风险自动评估***,其特征在于,还包括:
知识图谱构建模块,被配置为:根据获取的VTE相关数据构建知识图谱,所述知识图谱,包括:
第一知识图谱,被配置为:风险项目包含的风险指标以及该指标的类别;
第二知识图谱,被配置为:某风险指标对应的相关数据及判断的标准;
第三知识图谱,被配置为:非结构化风险指标的相关文本数据以及文本数据中包括的与该指标相关的关键字和词;
第四知识图谱,被配置为:非结构化风险指标的相关文本数据中的否定字和否定词。
3.如权利要求2所述的基于深度学习的VTE风险自动评估***,其特征在于,
第一分析模块,被配置为:根据第一知识图谱,获取所有风险指标所对应的相关数据并输入到第一深度学习模型中,得到所有非结构化风险指标的被选中的概率向量。
4.如权利要求3所述的基于深度学习的VTE风险自动评估***,其特征在于,还包括:
风险指标获取模块,被配置为:根据第一知识图谱,获取某一风险项目包含的所有风险指标及类别。
5.如权利要求4所述的基于深度学习的VTE风险自动评估***,其特征在于,
第二判断模块,被配置为:针对得到的某结构化风险指标,在第二知识图谱中找到对应的需要分析的结构化数据及判断标准,将该指标与判断标准进行比较,判断是否选取该指标。
6.如权利要求4所述的基于深度学习的VTE风险自动评估***,其特征在于,
第二分析模块,被配置为:针对得到的某非结构化风险指标,在第二知识图谱中找到其所对应的需要分析的非结构化精准数据以及判断标准,将非结构化数据输入到第二深度学习模型中,得到该指标被选中的概率。
7.如权利要求6所述的基于深度学习的VTE风险自动评估***,其特征在于,
第一判断模块,被配置为:对于风险项目对应的某非结构化指标,根据所有非结构化风险指标的被选中的概率和该指标被选中的概率的加权平均值与预设阈值的对比,判断是否选定该指标。
8.如权利要求6所述的基于深度学习的VTE风险自动评估***,其特征在于,
第二分析模块中,获取非结构化精准数据,具体为:
将第二知识图谱中对应的文本分成小句,将得到的小句按照出现的顺序依次加入第一集合;
从第一集合中的第一个小句开始,对第一集合中的每一个小句,检查是否含有第四知识图谱中的否定字和否定词,从第一集合中排除掉含有这些否定字和否定词的小句;
对第一集合中的每一个小句,检查是否含有第三知识图谱中某一指标所对应的关键字和关键词,从第一集合中排除掉不含有这些关键字和关键词的小句;
将第一集合中的小句拼接成一段文本,并输出该文本。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如下步骤:
根据预设的VTE知识图谱和第一深度学习模型,基于患者与所有风险项目相关的信息,得到患者所有非结构化风险指标被选中的概率;
根据预设的VTE知识图谱和第二深度学习模型,基于患者与某个非结构化风险指标相关的信息,得到患者的某非结构化风险指标被选中的概率;
基于患者所有非结构化风险指标被选中的概率和患者的某非结构化风险指标被选中的概率,判断非结构化风险指标是否被选中;
根据预设的VTE知识图谱,判断结构化风险指标是否被选中;
基于结构化指标和非结构化指标的判断结果,当任意一个风险指标被选中时,判定该风险项目有风险。
CN202011155170.9A 2020-10-26 2020-10-26 一种基于深度学习的vte风险自动评估*** Active CN112259232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011155170.9A CN112259232B (zh) 2020-10-26 2020-10-26 一种基于深度学习的vte风险自动评估***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011155170.9A CN112259232B (zh) 2020-10-26 2020-10-26 一种基于深度学习的vte风险自动评估***

Publications (2)

Publication Number Publication Date
CN112259232A true CN112259232A (zh) 2021-01-22
CN112259232B CN112259232B (zh) 2022-11-01

Family

ID=74262478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011155170.9A Active CN112259232B (zh) 2020-10-26 2020-10-26 一种基于深度学习的vte风险自动评估***

Country Status (1)

Country Link
CN (1) CN112259232B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094476A (zh) * 2021-06-08 2021-07-09 明品云(北京)数据科技有限公司 基于自然语言处理风险预警方法、***、设备及介质
CN113470825A (zh) * 2021-07-23 2021-10-01 北京惠每云科技有限公司 一种静脉血栓栓塞预测***、方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247971A (zh) * 2017-06-28 2017-10-13 中国人民解放军总医院 一种超声甲状腺结节风险指标的智能分析方法及***
CN107705853A (zh) * 2017-09-21 2018-02-16 北京康爱营养科技股份有限公司 临床营养风险筛查方法及***
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN110223781A (zh) * 2019-06-03 2019-09-10 中国医科大学附属第一医院 一种多维度斑块破裂风险预警***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247971A (zh) * 2017-06-28 2017-10-13 中国人民解放军总医院 一种超声甲状腺结节风险指标的智能分析方法及***
CN107705853A (zh) * 2017-09-21 2018-02-16 北京康爱营养科技股份有限公司 临床营养风险筛查方法及***
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN110223781A (zh) * 2019-06-03 2019-09-10 中国医科大学附属第一医院 一种多维度斑块破裂风险预警***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094476A (zh) * 2021-06-08 2021-07-09 明品云(北京)数据科技有限公司 基于自然语言处理风险预警方法、***、设备及介质
CN113470825A (zh) * 2021-07-23 2021-10-01 北京惠每云科技有限公司 一种静脉血栓栓塞预测***、方法、设备及介质
CN113470825B (zh) * 2021-07-23 2024-02-06 北京惠每云科技有限公司 一种静脉血栓栓塞预测***、方法、设备及介质

Also Published As

Publication number Publication date
CN112259232B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110491465B (zh) 基于深度学习的疾病分类编码方法、***、设备及介质
Simmons Clinical reasoning: concept analysis
EP3234823B1 (en) Differential medical diagnosis apparatus adapted in order to determine an optimal sequence of diagnostic tests for identifying a pathology by adopting diagnostic appropriateness criteria
CN112149414B (zh) 文本相似度确定方法、装置、设备及存储介质
JP5977898B1 (ja) 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
US20230027526A1 (en) Method and apparatus for classifying document based on attention mechanism and semantic analysis
CN112259232B (zh) 一种基于深度学习的vte风险自动评估***
WO2021047473A1 (zh) 神经网络的训练方法及装置、语义分类方法及装置和介质
CN111477320B (zh) 治疗效果预测模型的构建***、治疗效果预测***及终端
US11170898B2 (en) Methods and systems for prioritizing user symptom complaint inputs
CN112069329B (zh) 文本语料的处理方法、装置、设备及存储介质
US20210312942A1 (en) System, method, and computer program for cognitive training
CN112185558A (zh) 基于深度学习的心理健康及康复评定方法、装置及介质
CN110532367A (zh) 一种信息提示方法及***
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及***
CN112102934A (zh) 一种护士规范化培训考核评分方法和***
CN111553140A (zh) 数据处理方法、数据处理设备及计算机存储介质
CN114724710A (zh) 突发事件的应急方案推荐方法、装置及存储介质
CN113096756A (zh) 病情演变分类方法、装置、电子设备和存储介质
CN117312514A (zh) 咨询答复方法、装置及计算机可读取存储介质
Ketpupong et al. Applying text mining for classifying disease from symptoms
CN113057588A (zh) 一种病症预警方法、装置、设备及介质
CN113761899A (zh) 一种医疗文本生成方法、装置、设备及存储介质
Dao et al. Patient Similarity using Electronic Health Records and Self-supervised Learning
Sulaiman et al. The Application of Facial Expression Recognition in Reducing Inaccuracy in Pain Scale Intensity Identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.