CN106295229A - 一种基于医疗数据建模的川崎病分级预测方法 - Google Patents

一种基于医疗数据建模的川崎病分级预测方法 Download PDF

Info

Publication number
CN106295229A
CN106295229A CN201610766242.0A CN201610766242A CN106295229A CN 106295229 A CN106295229 A CN 106295229A CN 201610766242 A CN201610766242 A CN 201610766242A CN 106295229 A CN106295229 A CN 106295229A
Authority
CN
China
Prior art keywords
data
modeling
mucocutaneous lymphnode
lymphnode syndrome
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610766242.0A
Other languages
English (en)
Inventor
纪俊
喻海清
于滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN201610766242.0A priority Critical patent/CN106295229A/zh
Publication of CN106295229A publication Critical patent/CN106295229A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于医疗数据建模的川崎病分级预测方法,其包括以下步骤:步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;步骤3:川崎病分级模型构建与评价。本发明将川崎病相关数据进行***的分析、建模,并给出模型预测的评价方法,通过该模型能够基于川崎病数据,对病人川崎病进行有效的辅助诊断,使在发病前期进行有效的预防干预和治疗,为达到最佳治疗效果提供依据。

Description

一种基于医疗数据建模的川崎病分级预测方法
技术领域
本发明涉及医学预测技术领域,具体地说,涉及一种基于医疗数据建模的川崎病分级预测方法。
背景技术
川崎病(Kawasaki disease,KD)是一种急性、自限性且病因不明的急性炎症性血管炎,目前已经成为最常见的婴幼儿获得性心脏病。如果没能对川崎病婴儿及时诊断和静脉注射免疫球蛋白(IVIG)进行治疗,可导致冠状动脉扩张或动脉瘤。当前川崎病的发病机理未知,没有有效的诊断测试方法,很容易被误诊为普通发烧。此外,有心血管后遗症的川崎病患儿被误诊可能导致心肌梗死和死亡的概率是25%。
基于医疗数据建模的川崎病分级预测模型可以辅助诊断,有助于降低其误诊率,进一步改进其后续治疗过程。目前存在的基于数据的川崎病分类模型多采用线性方法,典型代表为线性判别分析方法。
线性方法构造的模型简单,结果易于被医生理解,但是不能有效利用数据样本特征的非线性因素,提高模型性能和准确度。
发明内容
为解决以上问题,本发明提供的一种基于医疗数据的川崎病分级预测方法,将待诊断病人分为高危、中危、低危三级,由于小样本等原因暂时无法以高置信度确定的诊断结果可以被归为中危级别以待进一步观察,而高危病人的预报准确率也得到保障。其具体的技术方案如下:
一种基于医疗数据建模的川崎病分级预测方法,其包括以下步骤:
步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;
步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;
步骤3:川崎病分级模型构建与评价,其步骤如下:
(3.1)使用随机划分的方式,将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1;
(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集,使用高斯核函数,建模过程使用十折交叉验证选取模型参数,记录最优模型参数和支持向量序号;
(3.3)根据回归模型使用导出集计算分级阈值tcase与tcontrol
(3.4)结合导出集分级阈值,进行测试集样本的分级预测。
进一步,步骤1中数据样本选择过程包括:
(1.1)对残缺、错误数据,将其值置为空;
(1.2)对重复数据进行删除;
(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。
进一步,步骤(3.3)中,tcase为正标签或者叫做病例(case)的阈值,tcontrol为负标签或者叫做对照(control)的阈值;大于tcase的被分级为高危病人,小于tcontrol的被分级为低危病人,其余的被划分为中危病人。
进一步,步骤(3.3)中,按如下步骤进行:
A.假设导出集中数据样本个数为S,根据回归模型计算导出集中数据样本是否川崎病的概率p,;
B.按照从大到小的顺序排列p,假设当时,tcase=p;当前顺序下大于等于此值的所有样本为病例;
C.按照从小到大的顺序排列p,当时,tcontrol=p,当前顺序下小于等于此值的所有样本为对照。
进一步,步骤2中所述19项特征为:
(2.1)临床特征:
A.是否发烧大于38.3摄氏度(Fever>38.3℃ or 100.5°F:)
B.是否有皮疹(Rash)
C.两眼是否发红(Red eyes)
D.是否咽红、红嘴唇、或草莓舌(Red pharynx,red lips,or strawberry tongue)
E.是否颈部***>1.5厘米(Cervical lymph node>1.5cm)
F.是否红或肿手/脚或手/脚脱皮(Red or swollen hands/feet or peeling ofhands/feet)
G.患病天数(Days of illness)
(2.2)实验数据:
A.白细胞浓度(WBC×103/mm3)
B.中性粒细胞浓度(POLYS%)
C.带状核浓度(BANDS%)
D.淋巴细胞浓度(Lymphs%)
E.单核细胞浓度(MONOS%)
F.嗜酸粒细胞浓度(EOS%)
G.血红蛋白浓度(HGB mg/dl)
H.血小板浓度(PLTS×103/mm3)
I.红细胞沉降率(ESR mm/h)
J.C-反应蛋白(CRP mg/dl)
K.丙氨酸氨基转移酶(ALT IU/L)
L.谷氨酰转肽酶(GGT IU/L)。
本发明所提供的一种基于医疗数据的川崎病分级预测方法,具有以下优点:
本发明使用与川崎病相关的医疗数据进行***的分析、建模,并给出模型评价方法,通过该模型能够基于医疗数据有效的辅助川崎病诊断,有助于降低其误诊率,进一步改进其后续治疗过程。
附图说明
图1为本发明一种基于医疗数据建模的川崎病分级预测方法的工作流示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的一种基于医疗数据建模的川崎病分级预测方法作进一步详细的说明。
本发明主要基于电子病历中的医疗数据进行建模,使用数据中蕴含的信息对病人是否患有川崎病进行预测,并将预测结果进行概率化描述。该发明包括针对医疗数据进行建模的数据处理流程和进行川崎病分类预测、分析、概率化等重要方法和结果。该发明结合了医疗数据和数据挖掘方法,是医疗数据与大数据分析方法结合的一种创新,该发明在一定程度上填补了国内医疗数据研究的空白,在利用医疗数据进行川崎病分类预测分析方面具有创新性。
该发明使用医疗数据来源于医院数据库中收集的小儿发热类电子病历信息,数据中主要信息包括临床数据和实验数据以及患者川崎病类别。如图1所示,基于医疗数据的川崎病分级预测方法具体步骤如下:
1.样本选择
原始数据集为dataset1,数据缺失严重病人被从数据集中移出,此时数据集为dataset2。
2.特征筛选
对于dataset2,进行特征筛选,计算每个特征对应特征值的方差,去掉方差接近0的特征,此时数据集为dataset3。
3.川崎病分类模型构建
1)将数据集分割为训练集Xtrain、测试集Xtest和导出集X derivation三部分,比例
为2:1:1;
2)在Xtrain上使用SVM回归方法进行建模,建模选择核函数为径向基核,调节参数为sigma、C,通过重复十次的十折交叉验证进行模型评估,选取最优模型。
4.根据导出集构建分级模型并对测试集数据预测
1)使用训练集和SVM回归方法建立回归预测模型,对导出集中每个病人预测其分类得分概率。
2)将川崎病分类得分概率按照升序排列,当分类得分大于某一值时,计算大于该值的记录中所占比例。假设存在阈值p,分类得分大于p的人群中川崎病人数比例大于90%,此时,得到分类得分大于p的患者有90%以上的概率患有川崎病,其患有川崎病的概率为90%以上。
3)对测试集进行川崎病分类预测,计算相应的分类得分。大于90分,预测其为川崎病高危病人,小于10%则为低危病人,其余为中危病人则需要医生根据实际情况再做后续观察。
概率化打分计算具体过程:根据测试集中川崎病分类得分,计算一系列的阈值p1、p2、p3…、p10,对应打分为10、20、30、…、100,对于导出集中的病人,计算其川崎病分类得分,该得分必定落在某个区间[pi,p(i+1)],根据川崎病分类得分值和pi、p(i+1)对应概率化打分,可通过线性计算出川崎病得分值。
实施例1:
为了验证本发明的一种基于医疗数据建模的川崎病分级预测方法的有效性,本实施例选取时间范围为2005.11-2013.6电子病历中的894个病人数据。
1、数据处理:
根据本发明采用数据集具有形式为:每行表示为一个病人的信息,每列表示其一方面信息,如ID,体检信息,川崎病类别等,数据集格式如表格1。原始数据集包含918个病人数据,19个特征,其中36个重复数据记录被从数据集中移出,最终剩余882个病人数据。
通过数据样本选择和特征筛选,最终生成数据集包含的882行,19列特征,如表1所示。
表1
2、最优模型参数
将数据集随机分为训练集(441),测试集(220)和导出集(221),比例2:1:1,得到模型参数如表2所示:
表2
3、对预测结果进行概率化打分
验证集结果如表3所示,本实验中,验证集包括121人。
表3
附注:关于分类问题一些指标解释,对于二分类问题,定义两个类别分别为正类和负类,正类中的每一个对象称为正实例,负类中的每一个对象称为负实例。通常,在预测川崎病时,川崎病样本为正类,普通发烧患者为负类。使用分类模型对测试样本进行预测,会有四种情况,如果一个实例是正类并被预测为真正类(True positive,TP),如果实例是负类被预测为正类,称之为假正类(False postive,FP)。相应的,相应地,如果实例是负类被预测成负类,称之为真负类(True negative,TN),正实例被预测成负类则为假负类(falsenegative,FN)。
TP:正实例预测为正类数目;
FN:正实例预测为负类数目;
FP:负实例预测为正类的数目;
TN:负实例预测为负类的数目;
敏感性(sensitivity):正类中正确预测为正类的实例比例,即TP/(TP+FN)
特异性(specificity):负类中被正确预测为负类的实例比例,即TN/(TN+FP)
阳性预测值(Positive Predictive Value,PPV):预测为正类的实例中,正实例占的比例,即TP/(TP+FP)。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (6)

1.一种基于医疗数据建模的川崎病分级预测方法,其特征在于:其包括以下步骤:
步骤1:数据样本选择;从样本数据集中抽取可供建模的有效样本;
步骤2:特征筛选;从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模;
步骤3:川崎病分级模型构建与评价,其步骤如下:
(3.1)使用随机划分的方式,将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1;
(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集,使用高斯核函数,建模过程使用十折交叉验证选取模型参数,记录最优模型参数和支持向量序号;
(3.3)根据回归模型使用导出集计算分级阈值tcase与tcontrol
(3.4)结合导出集分级阈值,进行测试集样本的分级预测。
2.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤1中数据样本选择过程包括:
(1.1)对残缺、错误数据,将其值置为空;
(1.2)对重复数据进行删除;
(1.3)对格式不标准数据,通过数值编码方式统一处理为数值格式。
3.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤(3.3)中,tcase为正标签或者叫做病例(case)的阈值,tcontrol为负标签或者叫做对照(control)的阈值;大于tcase的被分级为高危病人,小于tcontrol的被分级为低危病人,其余的被划分为中危病人。
4.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤(3.3)中,按如下步骤进行:
A.假设导出集中数据样本个数为S,根据回归模型计算导出集中数据样本是否川崎病的概率i∈S;
B.按照从大到小的顺序排列假设当时,当前顺序下大于等于此值的所有样本为病例;
C.按照从小到大的顺序排列时,当前顺序下小于等于此值的所有样本为对照。
5.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法,其特征在于:步骤(3.3)中,理论上被分为高危的病人有大约90%的概率是患病的,而低危病人则有大约10%的概率患病,中危病人则需要医生根据实际情况再做后续观察,这样算法的敏感度(sensitivity)虽然会降低,但是真阳性率(true positive rate)与真阴性率(truenegative rate)会大大提升,不至于在实际医疗诊断中误导医生做出错误判断。
6.根据权利要求3所述的一种基于医疗数据的川崎病分级预测方法,其特征在于:步骤2中所述19项特征为:
(2.1)临床特征:
A.是否发烧大于38.3摄氏度(Fever>38.3℃or100.5°F:)
B.是否有皮疹(Rash)
C.两眼是否发红(Red eyes)
D.是否咽红、红嘴唇、或草莓舌(Red pharynx,red lips,or strawberry tongue)
E.是否颈部***>1.5厘米(Cervical lymph node>1.5cm)
F.是否红或肿手/脚或手/脚脱皮(Red or swollen hands/feet or peeling ofhands/feet)
G.患病天数(Days of illness)
(2.2)实验数据:
A.白细胞浓度(WBC×103/mm3)
B.中性粒细胞浓度(POLYS%)
C.带状核浓度(BANDS%)
D.淋巴细胞浓度(Lymphs%)
E.单核细胞浓度(MONOS%)
F.嗜酸粒细胞浓度(EOS%)
G.血红蛋白浓度(HGB mg/dl)
H.血小板浓度(PLTS×103/mm3)
I.红细胞沉降率(ESR mm/h)
J.C-反应蛋白(CRP mg/dl)
K.丙氨酸氨基转移酶(ALT IU/L)
L.谷氨酰转肽酶(GGT IU/L)。
CN201610766242.0A 2016-08-30 2016-08-30 一种基于医疗数据建模的川崎病分级预测方法 Pending CN106295229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610766242.0A CN106295229A (zh) 2016-08-30 2016-08-30 一种基于医疗数据建模的川崎病分级预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610766242.0A CN106295229A (zh) 2016-08-30 2016-08-30 一种基于医疗数据建模的川崎病分级预测方法

Publications (1)

Publication Number Publication Date
CN106295229A true CN106295229A (zh) 2017-01-04

Family

ID=57675138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610766242.0A Pending CN106295229A (zh) 2016-08-30 2016-08-30 一种基于医疗数据建模的川崎病分级预测方法

Country Status (1)

Country Link
CN (1) CN106295229A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980757A (zh) * 2017-03-15 2017-07-25 重庆医科大学 川崎病并发冠状动脉病变危险因素管理***及挖掘方法
CN107122598A (zh) * 2017-04-14 2017-09-01 刘建亚 基于低差异度数列交叉检验的数据分类优化方法及***
CN107480436A (zh) * 2017-03-17 2017-12-15 苏州大学附属儿童医院 丙种球蛋白无反应型川崎病的预测方法及预测***
CN109215781A (zh) * 2018-09-14 2019-01-15 苏州贝斯派生物科技有限公司 一种基于logistic算法的川崎病风险评估模型的构建方法及构建***
CN109243604A (zh) * 2018-09-14 2019-01-18 苏州贝斯派生物科技有限公司 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建***
CN109273094A (zh) * 2018-09-14 2019-01-25 苏州贝斯派生物科技有限公司 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建***
CN111755129A (zh) * 2020-06-30 2020-10-09 山东大学 多模态骨质疏松分层预警方法及***
CN113035346A (zh) * 2021-02-22 2021-06-25 北京信息科技大学 基于医学知识图谱的疾病类别评估装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN104866713A (zh) * 2015-05-12 2015-08-26 南京霁云信息科技有限公司 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断***
CN105447322A (zh) * 2015-12-11 2016-03-30 北京工业大学 一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809335A (zh) * 2015-04-10 2015-07-29 上海卫生信息工程技术研究中心有限公司 一种环境变化对疾病发病影响的分析预测模型
CN104866713A (zh) * 2015-05-12 2015-08-26 南京霁云信息科技有限公司 基于增量局部鉴别子空间嵌入的川崎病和发烧诊断***
CN105447322A (zh) * 2015-12-11 2016-03-30 北京工业大学 一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张萍等: "支持向量机在肝纤维化模型诊断中的应用", 《数理医药学杂志》 *
张黎明等: "支持向量机预测结肠腺瘤高级别上皮内瘤变效果研究", 《中国实用内科杂志》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980757A (zh) * 2017-03-15 2017-07-25 重庆医科大学 川崎病并发冠状动脉病变危险因素管理***及挖掘方法
CN107480436A (zh) * 2017-03-17 2017-12-15 苏州大学附属儿童医院 丙种球蛋白无反应型川崎病的预测方法及预测***
CN107122598A (zh) * 2017-04-14 2017-09-01 刘建亚 基于低差异度数列交叉检验的数据分类优化方法及***
CN109215781A (zh) * 2018-09-14 2019-01-15 苏州贝斯派生物科技有限公司 一种基于logistic算法的川崎病风险评估模型的构建方法及构建***
CN109243604A (zh) * 2018-09-14 2019-01-18 苏州贝斯派生物科技有限公司 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建***
CN109273094A (zh) * 2018-09-14 2019-01-25 苏州贝斯派生物科技有限公司 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建***
CN109215781B (zh) * 2018-09-14 2021-11-12 道之精准医学科技(上海)有限公司 一种基于logistic算法的川崎病风险评估模型的构建方法及构建***
CN109243604B (zh) * 2018-09-14 2021-11-12 道之精准医学科技(上海)有限公司 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建***
CN111755129A (zh) * 2020-06-30 2020-10-09 山东大学 多模态骨质疏松分层预警方法及***
CN111755129B (zh) * 2020-06-30 2023-12-19 山东大学 多模态骨质疏松分层预警方法及***
CN113035346A (zh) * 2021-02-22 2021-06-25 北京信息科技大学 基于医学知识图谱的疾病类别评估装置及方法
CN113035346B (zh) * 2021-02-22 2023-09-22 北京信息科技大学 基于医学知识图谱的疾病类别评估装置及方法

Similar Documents

Publication Publication Date Title
CN106295229A (zh) 一种基于医疗数据建模的川崎病分级预测方法
CN106339593A (zh) 基于医疗数据建模的川崎病分类预测方法
Ahmadi et al. Diseases diagnosis using fuzzy logic methods: A systematic and meta-analysis review
Gjoreski et al. Machine learning and end-to-end deep learning for the detection of chronic heart failure from heart sounds
Pathan et al. Analyzing the impact of feature selection on the accuracy of heart disease prediction
LaFreniere et al. Using machine learning to predict hypertension from a clinical dataset
Hashem et al. Comparison of machine learning approaches for prediction of advanced liver fibrosis in chronic hepatitis C patients
Masethe et al. Prediction of heart disease using classification algorithms
CN107194138B (zh) 一种基于体检数据建模的空腹血糖预测方法
CN109920547A (zh) 一种基于电子病历数据挖掘的糖尿病预测模型构建方法
CN109273093B (zh) 一种川崎病风险评估模型的构建方法及构建***
CN109243604B (zh) 一种基于神经网络算法的川崎病风险评估模型的构建方法及构建***
CN106529110A (zh) 一种用户数据分类的方法和设备
CN109273094A (zh) 一种基于Boosting算法的川崎病风险评估模型的构建方法及构建***
CN110874409A (zh) 病情分级预测***、方法、电子设备及可读存储介质
CN112652361A (zh) 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用
Baidya et al. A deep prediction of chronic kidney disease by employing machine learning method
CN109215781A (zh) 一种基于logistic算法的川崎病风险评估模型的构建方法及构建***
CN117116477A (zh) 基于随机森林和XGBoost的***癌患病风险预测模型的构建方法及***
Praveen et al. Chronic kidney disease prediction using ML-based neuro-fuzzy model
Bajpai et al. Early prediction of cardiac arrest using hybrid machine learning models
Zhang et al. Exploring risk factors and predicting UPDRS score based on Parkinson's speech signals
CN117116475A (zh) 缺血性脑卒中的风险预测方法、***、终端及存储介质
Panda et al. Role of Predictive Modeling in Healthcare Research: A Scoping Review
Sang et al. Study on survival prediction of patients with heart failure based on support vector machine algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104