CN109036577B - 糖尿病并发症分析方法及装置 - Google Patents

糖尿病并发症分析方法及装置 Download PDF

Info

Publication number
CN109036577B
CN109036577B CN201810844798.6A CN201810844798A CN109036577B CN 109036577 B CN109036577 B CN 109036577B CN 201810844798 A CN201810844798 A CN 201810844798A CN 109036577 B CN109036577 B CN 109036577B
Authority
CN
China
Prior art keywords
medical record
document
record
course
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810844798.6A
Other languages
English (en)
Other versions
CN109036577A (zh
Inventor
丁帅
杨善林
金行
俞尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810844798.6A priority Critical patent/CN109036577B/zh
Publication of CN109036577A publication Critical patent/CN109036577A/zh
Application granted granted Critical
Publication of CN109036577B publication Critical patent/CN109036577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种糖尿病并发症分析方法及装置。所述方法包括:获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;获取所述至少一个病程记录的病程记录‑主题分布,得到每份病历文档的病程记录向量;获取所述病程记录向量的分类标签;利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。可见,本发明可以利用病程记录中实际发生的疾病演变,检测出入院诊断中未发现的并发症,有利于提升后续患者的诊疗准确度。

Description

糖尿病并发症分析方法及装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种糖尿病并发症分析方法及装置。
背景技术
患者在入院时,医师会做一个入院诊断,在后续诊疗过程中基于该入院诊断出具治疗方案,从而更好的解决患者的痛苦,因此入院诊断是一个非常重要的任务,其中一个重点就是疾病发现。
目前,疾病发现方法经过长时间的发展研究,已经成为医疗数据挖掘等领域的重要研究方向。传统的疾病发现主要有关联规则发现、分类分析以及聚类分析等,主要以结构化数据为研究基础,然而医疗信息数据多以Html形式的文本存储在医疗机构的信息***中,需要经过复杂的数据结构化处理工作。另外,不同疾病的特征属性繁杂多样,结构化处理后的数据同样包含大量噪声,容易对并发症发现的精确性造成重大影响。综上所述,数据结构化处理和特征工程大大增加了传统医疗数据挖掘前期工作。
发明内容
针对现有技术中的缺陷,本发明提供了一种糖尿病并发症分析方法及装置,用于解决相关技术中存在的技术问题。
第一方面,本发明实施例提供了一种糖尿病并发症分析方法,所述方法包括:
获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
获取所述病程记录向量的分类标签;
利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。
可选地,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
根据至少一个病程记录的病程记录-主题分布获取所述病历文档的多维时间序列主题;
利用奇异值分解对所述多维时间序列主题进行特征抽取,得到对角线位置的奇异值参数为所述病历文档的病程记录向量。
可选地,获取所述病程记录向量的分类标签包括:
获取病历文档集对应的疾病集;所述疾病集中包括多种疾病标签;
从所述疾病集中任选一个疾病标签,利用BP二元分类方法将所述疾病标签添加到包括所述疾病的病程记录向量,得到每份病历记录对应的多个分类标签。
可选地,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
计算所述病历文档集任意两个病历文档之间的相似度,得到所述相似度大于或等于相似度阈值的多个病历文档构成的相似性约束病历集合;
将所述相似性约束病历集合中各病历文档依次输入到预设LDA模型,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布;
根据所述文档-主题分布和主题-单词分布构建每份病历文档的病程记录向量。
可选地,计算初始病历中任意两个病历文档之间的相似度包括:
获取病历的多个相似性计算因素及各相似性计算因素的权重值;
分别计算任意两个病历文档关于各相似性计算因素的数值;所述相似性计算因素包括:性别属性的距离、年龄所属分段的距离、诊断结果的距离;
根据各相似性计算因素的数值和各相似性计算因素的权重值计算所述任意两个病历文档的相似度。
可选地,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布包括:
对所述相似性约束病历集合中各病历文档中每个单词随机赋予主题编号z;
重新扫描所述相似性约束病历集合,对每个单词按照
Figure GDA0003241824750000031
重新采样主题,使得到的新主题满足Gibbs Sampling收敛;
统计语料库中主题-单词共现频率矩阵,计算得到文档-主题分布和主题-单词分布。
可选地,所述预设LDA模型包括:
任意两个病历文档相似性约束采用主题分布距离dis(θrm,θrn)表示,公式为:
Figure GDA0003241824750000041
其中θrm={θm,1m,2,…,θm,Lm},表示每个病历文档包括Lm个病程记录;θm,Lm表示第Lm个病程记录的主题;d(θm,Lmn,Ln)表示为两个病程的主题向量之间的欧式距离;
所述预设LDA模型还包括Gibbs-EM迭代函数,为:
Figure GDA0003241824750000042
Figure GDA0003241824750000043
代表相似性约束病历集合中主题为k的单词i的数量。
第二方面,本发明实施例提供了一种糖尿病并发症分析装置,所述装置包括:
病历集获取模块,用于获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
向量空间获取模块,用于获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
分类标签获取模块,用于获取所述病程记录向量的分类标签;
发现模型获取模块,用于利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。
由上述技术方案可知,本发明实施例中通过获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;然后,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;之后,获取所述病程记录向量的分类标签;最后,利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。可见,本发明可以利用病程记录中实际发生的疾病演变,检测出入院诊断中未发现的并发症,有利于提升后续患者的诊疗准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的糖尿病并发症分析方法的流程示意图;
图2为病历文档中病程记录;
图3为病程记录数量分布图;
图4为不同分类模型的平均精度与主题数量的关系图;
图5为不同分类模型的平均特异性与主题数量的关系图;
图6为不同分类模型的平均敏感度与主题数量的关系图;
图7为本发明一实施例提供的基于病历相似性的文本主题分析装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,疾病发现方法经过长时间的发展研究,已经成为医疗数据挖掘等领域的重要研究方向。传统的疾病发现主要有关联规则发现、分类分析以及聚类分析等,主要以结构化数据为研究基础,然而医疗信息数据多以XML形式的文本存储在医疗机构的信息***中,需要经过复杂的数据结构化处理工作。另外,不同疾病的特征属性繁杂多样,结构化处理后的数据同样包含大量噪声,容易对并发症发现的精确性造成重大影响。综上所述,数据结构化处理和特征工程大大增加了传统医疗数据挖掘前期工作。
为此,本发明实施例提供了一种糖尿病并发症分析方法,图1为本发明一实施例提供的糖尿病并发症分析方法的流程示意图。参见图1,一种糖尿病并发症分析方法,包括:
101,获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
102,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
103,获取所述病程记录向量的分类标签;
104,利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。
下面结合附图和实施例对一种糖尿病并发症分析方法的各步骤作详细描述。
首先,介绍101,获取病历文档集的步骤。
患者在住院治疗过程中,会产生各种检测记录,例如入院记录、出院记录、病程记录、会诊记录等。若直接计算检测记录之间的相似性,则会极大的增加计算量。为方便说明,本实施例中将处理前的检测记录称之为初始病历。
为兼顾实时性和计算量,本发明实施例中获取第一数量份病历文档构成病历文档集。可理解的是,每份病历文档可以包括至少一个病程记录。
其中第一数量可以根据具体情况进行设定,例如1000、10000等,在此不作限定。
其次,介绍102,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量的步骤。
本实施例是利用预设LDA模型(后续称Medical Record Similarity basedLatent Dirichlet Allocation,MRS-LDA)来获取每个病历文档中至少一个病程记录的病程记录-主题分布。
本实施例中仅考虑病历文档中入院诊断部分的相似性。其中相似性即是计算任意两份初始病历的距离,并且病历相似性约束构建可理解为收集两两间距离小于某个阈值的病历集合。
实际应用中,初始病历中还会包括某个病症的多种并发症,例如糖尿病会导致多种并发症,如表1所示。
表1糖尿病患者并发症示例
Figure GDA0003241824750000071
Figure GDA0003241824750000081
分析表1可知,不同年龄段的患者对糖尿病及其并发症表征存在差异;加之,不同年龄段患者对药剂的承受能力不同,导致在临床诊疗过程中会存在表征、用药等方面的不同。因此,在计算病历文档的相似性时需要考虑患者的基本信息,本实施例中将患者姓名和年龄纳入病历文档的相似性计算因素。
在一实施例中,将相同性别之间性别属性的距离设置为1,不同性别之间性别属性的距离设置为0,如下式所示:
Figure GDA0003241824750000082
其中,sexi,sexj表示为不同两个人的性别。
在一实施例中,根据国际人口年龄结构将年龄划分为4个年龄段,分别为:少年,0~17岁,表示为1;青年,18~45岁,表示为2;中年,18~45岁,表示为3;老年,大于59岁,表示为4。这样,本实施例可以计算两个患者所属年龄段的距离,如下式表示:
Figure GDA0003241824750000083
其中,agei,agej表示为不同两个人的年龄,flagi,flagj表示不同年龄所属分段。并且,两个年龄所属分段越靠近则距离越小,所属分段越远则距离越大。
考虑到初始病历中采用离散型的文本化描述,本实施例中采用Jaccard距离计算不同初始病历中诊断结果之间的距离,如下式所示:
Figure GDA0003241824750000091
其中,diai,diaj表示病历i和病历j的出院诊断布尔向量空间,大量本文考虑糖尿病并发症之间的病症。
例如:diai={123},diaj={234},diai∩diaj={2,3};diai∪diaj={1,2,3,4},那么d(diai,diaj)=2/4=0.5。
需要说明的是,本实施例中仅考虑了所述相似性计算因素包括:性别属性的距离、年龄所属分段的距离、诊断结果的距离的情况,在文本主题分析方法的应用场景改变时,相似性计算因素的具体组成也可以作相应的调整,调整后的方案同样落入本申请的保护范围。
在确定出相似性计算因素后,分别设置权重调节调节参数μ123,并计算任意两个初始病历之间的相似度,如下式所示:
sim(Ti,Tj)=μ1*d(sexi,sexj)+μ2*d(agei,agej)+μ3*d(diai,diaj)(3)
μ123=1 (4)
0≤μ1,μ2,μ3≤1 (5)
将相似度与相似度阈值τ作比较,筛选出相似度值大于或者等于相似度阈值的多个初始病历,并得到多个初始病历构成的相似性约束病历集合,记做D={(Ti,Tj)|i,j∈[1,M]}。
本实施例中,预设LDA模型是在现有的LDA模型基础上改进得到的。为方便技术人更好的理解预设LDA模型,先描述一下LDA模型的基本原理:
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种主题模型,其目的是寻找文档主题,包含文档、主题和单词三层结构,并且每篇文档都有各自主题相关的概率分布,而文档中单词是由不同主题分布抽样,如下式(6)所示:
∑p(单词|文档)=∑p(单词|主题)*p(主题|文档) (6)
利用LDA模型对病历文档建模,设有病历文档总数M,第m个病历文档中存在Nm个临床描述单词,每个单词表示为ωm,n,根据词袋模型(bag of words)将文档和单词表示为文档-主题分布和主题-单词分布。在病历文本中主题可以理解为用药、观察、症状、手术等临床护理手段的统称,每个病历文本是多个主题的多项式分布,即每个病历文本是由临床护理过程中的多个步骤组合而成。
相关技术中,LDA模型生成病历文本的步骤,如表2所示。
Figure GDA0003241824750000101
Figure GDA0003241824750000111
可理解的是,由于每个主题是多个单词的多项式分布,对应每个临床护理步骤包含多个临床实际操作,并且文档-主题分布和主题-单词分布均符合狄利克雷参数为α和β先验分布,因此LDA模型能够很好模拟医生在诊疗过程中做出病历文本的思维过程。
基于上述分析可知,LDA模型推理目的在于:通过当前测试文档集计算出LDA模型中的未知参数
Figure GDA0003241824750000112
并根据
Figure GDA0003241824750000113
计算主题-单词分布和文档-主题分布。实际上,计算过程中可以直接推导出主题-单词分布和文档-主题分布,而无需计算
Figure GDA0003241824750000114
实际应用中,LDA模型的参数推理算法包括Gibbs抽样和EM变分两种。下面介绍两种方法。
第一,Gibbs Sampling核心思想是马尔科夫蒙特卡洛(MCMC)方法,在每一次迭代过程中只改变一个维度的参数值,直到收敛输出待估计参数值。根据狄利克雷参数估计,推理可得到:
Figure GDA0003241824750000115
Figure GDA0003241824750000116
Figure GDA0003241824750000117
其中:
Figure GDA0003241824750000118
表示文档-主题分布,
Figure GDA0003241824750000119
表示主题-单词分布,
Figure GDA00032418247500001110
表示单词
Figure GDA00032418247500001111
分布为k的概率,i为一个数据对(m,n),表示第m个文档中的第n个词。
由于共有K个主题,因此需要进行K次迭代,采用训练步骤如表3所示:
Figure GDA0003241824750000121
第二,EM变分算法在于寻找合适的参数,使得文本集中所观测到的主题-单词分布概率最大,类似于极大似然估计问题。EM变分算法分为两个迭代步骤:
变分E-step考虑原步骤中后验概率p(w|α,β)公式求导困难,引入变分参数
Figure GDA0003241824750000122
求得近似后验概率分布
Figure GDA0003241824750000123
变分M-step根据变分E-step的变分参数最大化近似函数
Figure GDA0003241824750000124
其中,先验狄利克雷分布参数(α,β)决定了主题-单词分布和文档-主题分布θ,w代表单词,z代表主题。
由于LDA模型的迭代目标是最大化词语出现概率p(Z,W|α,β),这样可以有效满足糖尿病病程记录的数据特征,同时也会导致相似病历的主题分布出现较大差异,从而导致无法根据病历主题分布对病历进行有效的统计分析。
为建立一个满足病历相似性约束的主题模型,本实施例中通过改变Gibbs抽样收敛条件策略来实现这一目标。
考虑到每个病历中会同时存在多个按时间排序的病程记录,病历文档相似性计算应该考虑各病历文档中不同病程记录集合之间的相似性,即相似性约束病历集合D中各病历文档的不同病程记录集合的文档-主题分布尽可能相似。
设Tm表示编号m的病历,包括Lm个病程记录,其病程记录的主题集合表示为θrm={θm,1,θm,2,…,θm,Lm}。存在两个病历文档的病程记录主题集合θrm,θrn,可以利用两两主题分布距离均值计算病历相似性约束,如下:
Figure GDA0003241824750000131
其中,d(θm,Lm,θn,Ln)表示为两个病程的主题向量之间的欧式距离,dis(θrm,θrn)越大表示相似度越低。
最大目标函数可以修改为:
Figure GDA0003241824750000132
本实施例中采用Gibbs-EM迭代方法进行LDA模型推导,将其将文档-主题分布αm修改为正态分布μm,得到预设LDA模型:
Figure GDA0003241824750000133
其中,μmk代表病历文档m属于主题k的概率,既然认为μm服从标准正态分布,则改进最大目标函数如下表达:
Figure GDA0003241824750000134
另外,本实施例中在采样过程中先固定文档主题分布αm,那么Gibbs-EM迭代函数表达式为:
Figure GDA0003241824750000141
其中,
Figure GDA0003241824750000142
代表相似性约束病历集合中主题为k的单词i的数量,由于采用正态分布来代替原来的α,所以公式(14)可以用随机梯度下降方法进行推导,模型训练过程如表4:
Figure GDA0003241824750000143
至此,本发明实施例中完成预设LDA(即MRS-LDA)模型的构建。本发明实施例中,在分析文本挖掘对医疗诊断的影响以及潜在狄利克雷主题模型的建模过程和推理方法的基础上,设计了基于病历相似度约束的预设LDA模型。该预设LDA模型不仅仅考虑到不同病历文档之间的相似性约束,而且确定了医疗文本主题建模目标、推理过程和模型相关度量指标,从而可以从设LDA模型能够清晰反映各个诊疗阶段的侧重点以及病情演化过程,有利于提升病历主题挖掘的科学性、有效性和准确性。
之后,本发明实施例中将相似性约束病历集合中各病历文档依次输入到预设LDA模型,通过所述预设LDA模型推导各病历文档中至少一个病程记录的文档-主题分布和主题-单词分布,进而可以得到每个病历文档的多维时间序列主题。
本发明实施例中利用奇异值分解对多维时间序列主题进行特征抽取,将多维时间序列主题映射到一个用奇异值做作为特征表示的子空间内。与特征向量求解不同,奇异值分解不要求被分解矩阵为方阵,假设存在一个矩阵Am*n,其奇异值分解表示为:
A=U∑VT (15)
其中,U和V被称为酉矩阵(Unitary Matrix),U是一个M*M的矩阵,V是一个N*N的矩阵,满足:UT*U=I,VT*V=I;∑是一个M*N的矩阵,∑={σ1,…,σr},r=rank(∑),为矩阵∑中不为零的子式的最大阶数,除了对角线外其他值为0,对角线位置的奇异值参数{σ1,…,σr}为病程记录的特征向量。
本实施例中利用奇异值分解对时间序列主题进行矩阵分解,因为不同患者病历的住院时长不一致,造成了不同患者的病历主题序列也是不一致的。但是,本实施例中由于疾病发现模型的存在,导致不同病历的主题序列的主题维度是相等的,因此利用奇异值分解可以将多维时间主题序列映射到长度为r的子空间内是可行的。
再次,介绍103,获取所述病程记录向量的分类标签的步骤。
由于不同患者可能同时不同的疾病,如表1所示的糖尿病并发症。因此,本实施例中疾病发现模型需要考虑到患者同时患有多种疾病的事实,即需要对同一患者的病历文档进行多标签分类。其中,多标签分类是指样本同时存在多个标签,并且标签之间可能存关联关系。比如一部电影既可以是文艺片又可以是爱情片,而文艺和爱情是是存在一定关系的,这样的分类问题被称之为多标签分类。
实际应用中,多标签分类问题解决方法主要包括两种:改进分类器和模型转换。其中,改进分类器是更改分类算法,使其能够满足多标签分类需求,并且能够不改变数据结构。常用的多标签分类算法有Boosting算法、BP神经网络、决策树和支持向量机等,改进分类器的优点在于能够适应数据结构,但通常会造成复杂的求解逻辑,增加算法复杂度。而模型转换的目的在于改变数据集合,使之能够适用现有的单一标签分类算法,现有的策略有BP二元关系法、RPC成对比较排序法和LP标签幂集法。
本实施例中采用的是ECC(Ensembles of Classifier Chains)组合分类器链,属于BP二元关系法的改进方法,即本实施例中将多标签分类问题转换为多组二分类问题:首先根据获取病历文档集对应的疾病集;所述疾病集中包括多种疾病标签。然后,从疾病集中选取一个疾病标签,将属于该疾病标签的病历文档划分为一个类别集合,剩余病历文档分为另一个类别集合,并且将标签代入该病历文档的特征数据中。这样可以得到每个病历文档的多个标签。
最后,介绍104,利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型的步骤。
本实施例中利用每份病历记录的多个分类标签对疾病发现模型进行训练,从而得到最终的疾病发现模型。
例如,现在有100份病历文档,其中每份病历文档包含一个或者多个出院诊断结果。根据BP二元分类思想,先建立一个完整的疾病集,取一种疾病(例如糖尿病肾病),针对病历文档集中每个疾病文档,出院诊断结果包含该疾病的病历文档分为正类,而其他病历文档划分为负类,同时按照实际出院诊断结果将其他类别疾病加入特征数据中,若包含该疾病标志为1,否则为0,将正类病历文档构成的集合作为对应该疾病的测试集。然后,继续选取另一种疾病作为正类标签,重新按照以上步骤构建测试集。以此类推,直到疾病集里的疾病都单独作为正类来构建测试集。之后,利用K近邻、支持向量机和随机森林等算法进行分类训练构建多个分类器。在预测阶段,本实施例以每个预测数据还没有产生疾病为基础,此时疾病特征标记为0,利用不同的分类器进行分类后,并将上一次分类结果计入下一次疾病特征(标记为1)中,直到遍历完所有分类器。这样,本实施例可以得到训练后的疾病发现模型。
本实施例中,将病历文档输入到疾病发现模型,即可发现入院诊断中有可能漏诊的疾病,有利于提升诊断的效率。
下面采用对比实验来说明本发明实施例提供的一种糖尿病并发症分析方法的有效性和优越性。
本实施例采用安徽医科大学第一附属医院内分泌科患者的住院病历,包括2015年至2017年总共1294个糖尿病患者的住院记录,每份病历文档主要包括入院记录、病程记录(如图2所示)、会诊记录和出院记录等。其中男女患者病历文档个数比例648:646,大致相同。
参见图3和图4,本实施例中使用安徽科大学第一附属医院内分泌科室糖尿病患者的病历文本作为原始数据,患者病历中病程记录数量通常为患者住院天数,其具体情况如图3所示。
考虑到不同患者由于所患并发症以及其他方面的相似性,使用步骤102中的MRS-LDA模型挖掘不同患者病程记录的主题特征,选取主题数量K=15,病历相似性约束阈值τ=0.5实验结果,可以获得基于病程记录的多维时间序列主题数据,经过奇异值分解处理之后将其映射到维度较小的特征空间。同时糖尿病并发症发现是一个多标签分类问题,因此需要对数据集合进行重新处理使其能够适用于传统的分类模型方法,本实施例中使用二元关系法将其处理为二元分类适用的样本数据集。
考虑不同分类器的性能在不同的主题挖掘方法下糖尿病并发症发现的性能存在差异,为了寻找能够适合基于主题的糖尿病并发症发现的分类器,选用K近邻、随机森林、逻辑回归以及支持向量机等进行分类训练。在本实验中调节主题个数参数K为15,将分别选取不同的分类算法进行传统LDA与本文模型分类实验,实验结果如下
参见图4(a)和图4(b),反映了在利用不同的分类模型对病历文档进行分类过程中,平均分类精确度随着主题数量的增加略有起伏并最终趋于0.8至0.82。其中在主题数量为7时平均分类精度波动明显,有较大的涨幅,精确度最高达到0.948,但是传统方法最高精确度为0.9。可以看出,本实施例中组合分类器链较于传统LDA模型在平均分类精确上有较好的表现,而支持向量机和逻辑回归模型在分类上也有更好的表现。
参见图5(a)和图5(b),反映了在利用不同的分类模型对病历文档进行分类过程中,平均分类特异性随着主题数量的增加而波动情况,其中在主题数量为15时有较大涨幅。同样本实施例中组合分类器链相较于传统LDA模型在平均分类特异性上有较好的表现,特异性能够达到1,而支持向量机和逻辑回归模型在并发症发现分类上也有更好的表现。
参见图6(a)和图6(b),描述了本实施例中组合分类器链以及LDA模型在随着主题数量增加时平均分类敏感度变化情况。本实施例中组合分类器链相比传统LDA模型在平均精度、平均特异性和平均敏感度等度量指标方面表现良好。这是因为,在计算文档-主题分布时考虑了相似病历约束,使诊断结果相似的病历在文档-主题分布上相近,从而导致分类器训练过程中被划分为一样的分类标签。
通过对比实验,本实施例中分析了糖尿病患者入院诊断的不准确性以及出院诊断的完备性等特点上阐述了基于主题的糖尿病并发症发现的现实意义,同时明确了多维时间序列主题模型的数据特征提取方法,以及利用二元关系法简化多种糖尿病并发症发现的实验方案,可以有效利用病程记录中实际发生的病症演变以及临床诊疗数据,对入院诊断中未发现的并发症具有良好的检出效果,肯定了基于主题的糖尿病并发症发现的科学性与重要性。
第二方面,本发明实施例提供了一种糖尿病并发症分析装置,参见图7,所述装置包括:
病历集获取模块701,用于获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
向量空间获取模块702,用于获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
分类标签获取模块703,用于获取所述病程记录向量的分类标签;
发现模型获取模块704,用于利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型。
需要说明的是,本发明实施例提供的糖尿病并发症分析装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述***进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种糖尿病并发症分析方法,其特征在于,所述方法包括:
获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
获取所述病程记录向量的分类标签;
利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
计算所述病历文档集任意两个病历文档之间的相似度,得到所述相似度大于或等于相似度阈值的多个病历文档构成的相似性约束病历集合;
将所述相似性约束病历集合中各病历文档依次输入到预设LDA模型,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布;
根据所述文档-主题分布和主题-单词分布构建每份病历文档的病程记录向量;
所述预设LDA模型通过改变Gibbs抽样收敛条件策略来获得,具体包括:
任意两个病历文档相似性约束采用主题分布距离dis(θrm,θrn)表示,公式为:
Figure FDA0003165495410000021
其中,θrm={θm,1m,2,…,θm,Lm}表示编号m的病例文档的病程记录的主题集合,病历文档包括Lm个病程记录;θm,Lm表示第Lm个病程记录的主题;θrn表示编号n的病例文档的病程记录的主题集合,病历文档包括Ln个病程记录;d(θm,Lmn,Ln)表示为两个病程的主题向量之间的欧式距离;
采用Gibbs-EM迭代方法进行LDA模型推导,将文档-主题分布αm修改为正态分布μm,得到预设LDA模型:
Figure FDA0003165495410000022
其中,αmk表示主题k的文档-主题分布;μmk代表病历文档m属于主题k的概率,当认为μm服从标准正态分布,则最大目标函数如下表达:
Figure FDA0003165495410000023
在采样过程中先固定文档-主题分布αm,那么Gibbs-EM迭代函数表达式为:
Figure FDA0003165495410000024
其中,
Figure FDA0003165495410000025
代表相似性约束病历集合中主题为k的单词i的数量;由于采用正态分布来代替原来的α,则上式可以用随机梯度下降方法进行推导;p(Z,W|μ,β)表示最大化词语出现概率;
Figure FDA0003165495410000026
表示单词
Figure FDA0003165495410000031
分布为k的概率;i为一个数据对。
2.根据权利要求1所述的方法,其特征在于,获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
根据至少一个病程记录的病程记录-主题分布获取所述病历文档的多维时间序列主题;
利用奇异值分解对所述多维时间序列主题进行特征抽取,得到对角线位置的奇异值参数为所述病历文档的病程记录向量。
3.根据权利要求1所述的方法,其特征在于,获取所述病程记录向量的分类标签包括:
获取病历文档集对应的疾病集;所述疾病集中包括多种疾病标签;
从所述疾病集中任选一个疾病标签,利用BP二元分类方法将所述疾病标签添加到包括所述疾病的病程记录向量。
4.根据权利要求1所述的方法,其特征在于,计算初始病历中任意两个病历文档之间的相似度包括:
获取病历的多个相似性计算因素及各相似性计算因素的权重值;
分别计算任意两个病历文档关于各相似性计算因素的数值;所述相似性计算因素包括:性别属性的距离、年龄所属分段的距离、诊断结果的距离;
根据各相似性计算因素的数值和各相似性计算因素的权重值计算所述任意两个病历文档的相似度。
5.根据权利要求1所述的方法,其特征在于,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布包括:
对所述相似性约束病历集合中各病历文档中每个单词随机赋予主题编号z;
重新扫描所述相似性约束病历集合,对每个单词按照
Figure FDA0003165495410000041
重新采样主题,使得到的新主题满足Gibbs Sampling收敛;
统计语料库中主题-单词共现频率矩阵,计算得到文档-主题分布和主题-单词分布。
6.一种糖尿病并发症分析装置,其特征在于,所述装置包括:
病历集获取模块,用于获取病历文档集;所述病历文档集包括第一数量份病历文档;每份病历文档包括至少一个病程记录;
向量空间获取模块,用于获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量;
分类标签获取模块,用于获取所述病程记录向量的分类标签;
发现模型获取模块,用于利用每份病历记录的多个分类标签对疾病发现模型进行训练,得到最终的疾病发现模型;
获取所述至少一个病程记录的病程记录-主题分布,得到每份病历文档的病程记录向量包括:
计算所述病历文档集任意两个病历文档之间的相似度,得到所述相似度大于或等于相似度阈值的多个病历文档构成的相似性约束病历集合;
将所述相似性约束病历集合中各病历文档依次输入到预设LDA模型,通过所述预设LDA模型推导各病历文档的文档-主题分布和主题-单词分布;
根据所述文档-主题分布和主题-单词分布构建每份病历文档的病程记录向量;
所述预设LDA模型通过改变Gibbs抽样收敛条件策略来获得,具体包括:
任意两个病历文档相似性约束采用主题分布距离dus(θrm,θrn)表示,公式为:
Figure FDA0003165495410000051
其中,θrm={θm,1m,2,…,θm,Lm}表示编号m的病例文档的病程记录的主题集合,病历文档包括Lm个病程记录;θm,Lm表示第Lm个病程记录的主题;θrn表示编号n的病例文档的病程记录的主题集合,病历文档包括Ln个病程记录;d(θm,Lmn,Ln)表示为两个病程的主题向量之间的欧式距离;
采用Gibbs-EM迭代方法进行LDA模型推导,将文档-主题分布αm修改为正态分布μm,得到预设LDA模型:
Figure FDA0003165495410000052
其中,αmk表示主题k的文档-主题分布;μmk代表病历文档m属于主题k的概率,当认为μm服从标准正态分布,则最大目标函数如下表达:
Figure FDA0003165495410000053
在采样过程中先固定文档-主题分布αm,那么Gibbs-EM迭代函数表达式为:
Figure FDA0003165495410000061
其中,
Figure FDA0003165495410000062
代表相似性约束病历集合中主题为k的单词i的数量;由于采用正态分布来代替原来的α,则上式可以用随机梯度下降方法进行推导;p(Z,W|μ,β)表示最大化词语出现概率;
Figure FDA0003165495410000063
表示单词
Figure FDA0003165495410000064
分布为k的概率;i为一个数据对。
CN201810844798.6A 2018-07-27 2018-07-27 糖尿病并发症分析方法及装置 Active CN109036577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810844798.6A CN109036577B (zh) 2018-07-27 2018-07-27 糖尿病并发症分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810844798.6A CN109036577B (zh) 2018-07-27 2018-07-27 糖尿病并发症分析方法及装置

Publications (2)

Publication Number Publication Date
CN109036577A CN109036577A (zh) 2018-12-18
CN109036577B true CN109036577B (zh) 2021-10-22

Family

ID=64646314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810844798.6A Active CN109036577B (zh) 2018-07-27 2018-07-27 糖尿病并发症分析方法及装置

Country Status (1)

Country Link
CN (1) CN109036577B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046339A (zh) * 2018-12-24 2019-07-23 北京字节跳动网络技术有限公司 确定文档主题的方法、装置、存储介质及电子设备
CN110232958A (zh) * 2019-06-15 2019-09-13 浙江爱多特大健康科技有限公司 糖尿病互联网一站式社区转诊管理方法及***
CN110246587A (zh) * 2019-06-15 2019-09-17 浙江爱多特大健康科技有限公司 糖尿病互联网一站式并发症会诊管理方法及***
CN110968693A (zh) * 2019-11-08 2020-04-07 华北电力大学 基于集成学习的多标签文本分类计算方法
CN111430037B (zh) * 2020-03-30 2024-04-09 讯飞医疗科技股份有限公司 相似病历查找方法及***
CN111462909B (zh) * 2020-03-30 2024-04-05 讯飞医疗科技股份有限公司 疾病演化跟踪和病情提示方法、装置及电子设备
CN111553442B (zh) * 2020-05-12 2024-03-12 国网智能电网研究院有限公司 一种分类器链标签序列的优化方法及***
CN111710420B (zh) * 2020-05-15 2024-03-19 深圳先进技术研究院 一种基于电子病历大数据的并发症发病风险预测方法、***、终端以及存储介质
CN111785386B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 时间区间段的划分方法、相关设备及可读存储介质
CN112117009A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 用于构建标签预测模型的方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228023A (zh) * 2016-08-01 2016-12-14 清华大学 一种基于本体和主题模型的临床路径挖掘方法
CN106295186A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 一种基于智能推理的辅助疾病诊断的方法与***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228023A (zh) * 2016-08-01 2016-12-14 清华大学 一种基于本体和主题模型的临床路径挖掘方法
CN106295186A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 一种基于智能推理的辅助疾病诊断的方法与***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
The Comparative Experimental Study of Multilabel Classification for Diagnosis Assistant Based on Chinese Obstetric EMRs;Kunli Zhang等;《Journal of Healthcare Engineering》;20180205;全文 *
基于特征融合的产科多标记辅助诊断研究;马鸿超等;《中文信息学报》;20180531;第32卷(第5期);摘要,第3-5页 *
多维时间序列的分类技术研究;谭海龙;《中国优秀硕士学位论文全文数据库基础科学辑》;20151231(第2015年第12期);第5-6页 *
马鸿超等.基于特征融合的产科多标记辅助诊断研究.《中文信息学报》.2018,第32卷(第5期), *

Also Published As

Publication number Publication date
CN109036577A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109036577B (zh) 糖尿病并发症分析方法及装置
Lan et al. A survey of data mining and deep learning in bioinformatics
Bashir et al. BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting
Zhang et al. Comparing data mining methods with logistic regression in childhood obesity prediction
CN109065174B (zh) 考虑相似约束的病历主题获取方法及装置
CN116364299B (zh) 一种基于异构信息网络的疾病诊疗路径聚类方法及***
Peng et al. Sequential diagnosis prediction with transformer and ontological representation
Chen et al. Unite: Uncertainty-based health risk prediction leveraging multi-sourced data
Ma et al. Constructing a semantic graph with depression symptoms extraction from twitter
Rustam et al. Automated disease diagnosis and precaution recommender system using supervised machine learning
Henriksson et al. Modeling heterogeneous clinical sequence data in semantic space for adverse drug event detection
Gencoglu Deep representation learning for clustering of health tweets
Hasan et al. Clinical Question Answering using Key-Value Memory Networks and Knowledge Graph.
Sudharson et al. Performance analysis of enhanced adaboost framework in multifacet medical dataset
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN112820400A (zh) 基于医疗知识图谱知识推理的疾病诊断方法、装置、设备
D'Souza et al. Diabetes Detection Using Machine Learning Algorithms
Tang et al. A deep learning approach to handling temporal variation in chronic obstructive pulmonary disease progression
Nasr et al. Natural Language Processing: Text Categorization and Classifications
Rong et al. Exploring network behavior using cluster analysis
Theodorou et al. Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model
Vivek et al. An ensemble learning model to predict mental depression disorder using Tweets
Apostol et al. Advancements in eHealth Data Analytics through Natural Language Processing and Deep Learning
Akhila et al. A review on sentiment analysis of Twitter data for diabetes classification and prediction
Tavabi et al. Pattern discovery in time series with byte pair encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant