CN106295229A

CN106295229A - 一种基于医疗数据建模的川崎病分级预测方法

Info

Publication number: CN106295229A
Application number: CN201610766242.0A
Authority: CN
Inventors: 纪俊; 喻海清; 于滨
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-04

Abstract

本发明提供一种基于医疗数据建模的川崎病分级预测方法，其包括以下步骤:步骤１：数据样本选择；从样本数据集中抽取可供建模的有效样本；步骤2：特征筛选；从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模；步骤3：川崎病分级模型构建与评价。本发明将川崎病相关数据进行***的分析、建模，并给出模型预测的评价方法，通过该模型能够基于川崎病数据，对病人川崎病进行有效的辅助诊断，使在发病前期进行有效的预防干预和治疗，为达到最佳治疗效果提供依据。

Description

一种基于医疗数据建模的川崎病分级预测方法

技术领域

本发明涉及医学预测技术领域，具体地说，涉及一种基于医疗数据建模的川崎病分级预测方法。

背景技术

川崎病(Kawasaki disease，KD)是一种急性、自限性且病因不明的急性炎症性血管炎，目前已经成为最常见的婴幼儿获得性心脏病。如果没能对川崎病婴儿及时诊断和静脉注射免疫球蛋白(IVIG)进行治疗，可导致冠状动脉扩张或动脉瘤。当前川崎病的发病机理未知，没有有效的诊断测试方法，很容易被误诊为普通发烧。此外，有心血管后遗症的川崎病患儿被误诊可能导致心肌梗死和死亡的概率是25％。

基于医疗数据建模的川崎病分级预测模型可以辅助诊断，有助于降低其误诊率，进一步改进其后续治疗过程。目前存在的基于数据的川崎病分类模型多采用线性方法，典型代表为线性判别分析方法。

线性方法构造的模型简单，结果易于被医生理解，但是不能有效利用数据样本特征的非线性因素，提高模型性能和准确度。

发明内容

为解决以上问题，本发明提供的一种基于医疗数据的川崎病分级预测方法，将待诊断病人分为高危、中危、低危三级，由于小样本等原因暂时无法以高置信度确定的诊断结果可以被归为中危级别以待进一步观察，而高危病人的预报准确率也得到保障。其具体的技术方案如下：

一种基于医疗数据建模的川崎病分级预测方法，其包括以下步骤：

步骤1：数据样本选择；从样本数据集中抽取可供建模的有效样本；

步骤2：特征筛选；从构建样本数据的特征集合中筛选出符合现场医疗辅助诊断应用的19项特征进行建模；

步骤3：川崎病分级模型构建与评价，其步骤如下：

(3.1)使用随机划分的方式，将数据集分割为训练集Xtrain、测试集Xtest和验证集Xderivation三部分,比例为2:1:1；

(3.2)使用SVM回归方法在训练集上拟合Xtrain数据集，使用高斯核函数，建模过程使用十折交叉验证选取模型参数，记录最优模型参数和支持向量序号；

(3.3)根据回归模型使用导出集计算分级阈值t_case与t_control；

(3.4)结合导出集分级阈值，进行测试集样本的分级预测。

进一步，步骤1中数据样本选择过程包括：

(1.1)对残缺、错误数据，将其值置为空；

(1.2)对重复数据进行删除；

(1.3)对格式不标准数据，通过数值编码方式统一处理为数值格式。

进一步，步骤(3.3)中，t_case为正标签或者叫做病例(case)的阈值，t_control为负标签或者叫做对照(control)的阈值；大于t_case的被分级为高危病人，小于t_control的被分级为低危病人，其余的被划分为中危病人。

进一步，步骤(3.3)中，按如下步骤进行：

A.假设导出集中数据样本个数为S，根据回归模型计算导出集中数据样本是否川崎病的概率p，；

B.按照从大到小的顺序排列p，假设当时，t_case＝p；当前顺序下大于等于此值的所有样本为病例；

C.按照从小到大的顺序排列p，当时，t_control＝p，当前顺序下小于等于此值的所有样本为对照。

进一步，步骤2中所述19项特征为：

(2.1)临床特征：

A.是否发烧大于38.3摄氏度(Fever>38.3℃ or 100.5°F:)

B.是否有皮疹(Rash)

C.两眼是否发红(Red eyes)

D.是否咽红、红嘴唇、或草莓舌(Red pharynx,red lips,or strawberry tongue)

E.是否颈部***>1.5厘米(Cervical lymph node>1.5cm)

F.是否红或肿手/脚或手/脚脱皮(Red or swollen hands/feet or peeling ofhands/feet)

G.患病天数(Days of illness)

(2.2)实验数据：

A.白细胞浓度(WBC×103/mm3)

B.中性粒细胞浓度(POLYS％)

C.带状核浓度(BANDS％)

D.淋巴细胞浓度(Lymphs％)

E.单核细胞浓度(MONOS％)

F.嗜酸粒细胞浓度(EOS％)

G.血红蛋白浓度(HGB mg/dl)

H.血小板浓度(PLTS×103/mm3)

I.红细胞沉降率(ESR mm/h)

J.C-反应蛋白(CRP mg/dl)

K.丙氨酸氨基转移酶(ALT IU/L)

L.谷氨酰转肽酶(GGT IU/L)。

本发明所提供的一种基于医疗数据的川崎病分级预测方法，具有以下优点：

本发明使用与川崎病相关的医疗数据进行***的分析、建模，并给出模型评价方法，通过该模型能够基于医疗数据有效的辅助川崎病诊断，有助于降低其误诊率，进一步改进其后续治疗过程。

附图说明

图1为本发明一种基于医疗数据建模的川崎病分级预测方法的工作流示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的一种基于医疗数据建模的川崎病分级预测方法作进一步详细的说明。

本发明主要基于电子病历中的医疗数据进行建模，使用数据中蕴含的信息对病人是否患有川崎病进行预测，并将预测结果进行概率化描述。该发明包括针对医疗数据进行建模的数据处理流程和进行川崎病分类预测、分析、概率化等重要方法和结果。该发明结合了医疗数据和数据挖掘方法，是医疗数据与大数据分析方法结合的一种创新，该发明在一定程度上填补了国内医疗数据研究的空白，在利用医疗数据进行川崎病分类预测分析方面具有创新性。

该发明使用医疗数据来源于医院数据库中收集的小儿发热类电子病历信息，数据中主要信息包括临床数据和实验数据以及患者川崎病类别。如图1所示，基于医疗数据的川崎病分级预测方法具体步骤如下：

1.样本选择

原始数据集为dataset1，数据缺失严重病人被从数据集中移出，此时数据集为dataset2。

2.特征筛选

对于dataset2，进行特征筛选，计算每个特征对应特征值的方差，去掉方差接近0的特征，此时数据集为dataset3。

3.川崎病分类模型构建

1)将数据集分割为训练集Xtrain、测试集Xtest和导出集X derivation三部分,比例

为2:1:1；

2)在Xtrain上使用SVM回归方法进行建模，建模选择核函数为径向基核，调节参数为sigma、C，通过重复十次的十折交叉验证进行模型评估，选取最优模型。

4.根据导出集构建分级模型并对测试集数据预测

1)使用训练集和SVM回归方法建立回归预测模型，对导出集中每个病人预测其分类得分概率。

2)将川崎病分类得分概率按照升序排列，当分类得分大于某一值时，计算大于该值的记录中所占比例。假设存在阈值p，分类得分大于p的人群中川崎病人数比例大于90％，此时，得到分类得分大于p的患者有90％以上的概率患有川崎病，其患有川崎病的概率为90％以上。

3)对测试集进行川崎病分类预测，计算相应的分类得分。大于90分，预测其为川崎病高危病人，小于10％则为低危病人，其余为中危病人则需要医生根据实际情况再做后续观察。

概率化打分计算具体过程：根据测试集中川崎病分类得分，计算一系列的阈值p1、p2、p3…、p10，对应打分为10、20、30、…、100，对于导出集中的病人，计算其川崎病分类得分，该得分必定落在某个区间[pi,p(i+1)]，根据川崎病分类得分值和pi、p(i+1)对应概率化打分，可通过线性计算出川崎病得分值。

实施例1：

为了验证本发明的一种基于医疗数据建模的川崎病分级预测方法的有效性，本实施例选取时间范围为2005.11-2013.6电子病历中的894个病人数据。

1、数据处理：

根据本发明采用数据集具有形式为：每行表示为一个病人的信息，每列表示其一方面信息，如ID，体检信息，川崎病类别等，数据集格式如表格1。原始数据集包含918个病人数据，19个特征，其中36个重复数据记录被从数据集中移出，最终剩余882个病人数据。

通过数据样本选择和特征筛选，最终生成数据集包含的882行，19列特征，如表1所示。

表1

2、最优模型参数

将数据集随机分为训练集(441)，测试集(220)和导出集(221)，比例2:1:1，得到模型参数如表2所示：

表2

3、对预测结果进行概率化打分

验证集结果如表3所示，本实验中，验证集包括121人。

表3

附注：关于分类问题一些指标解释，对于二分类问题，定义两个类别分别为正类和负类，正类中的每一个对象称为正实例，负类中的每一个对象称为负实例。通常，在预测川崎病时，川崎病样本为正类，普通发烧患者为负类。使用分类模型对测试样本进行预测，会有四种情况，如果一个实例是正类并被预测为真正类(True positive，TP)，如果实例是负类被预测为正类，称之为假正类(False postive,FP)。相应的，相应地，如果实例是负类被预测成负类，称之为真负类(True negative,TN),正实例被预测成负类则为假负类(falsenegative,FN)。

TP：正实例预测为正类数目；

FN：正实例预测为负类数目；

FP：负实例预测为正类的数目；

TN：负实例预测为负类的数目；

敏感性(sensitivity)：正类中正确预测为正类的实例比例，即TP/(TP+FN)

特异性(specificity)：负类中被正确预测为负类的实例比例，即TN/(TN+FP)

阳性预测值(Positive Predictive Value,PPV)：预测为正类的实例中，正实例占的比例，即TP/(TP+FP)。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种基于医疗数据建模的川崎病分级预测方法，其特征在于：其包括以下步骤：

步骤3：川崎病分级模型构建与评价，其步骤如下：

(3.3)根据回归模型使用导出集计算分级阈值t_case与t_control；

(3.4)结合导出集分级阈值，进行测试集样本的分级预测。

2.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法，其特征在于：步骤1中数据样本选择过程包括：

(1.1)对残缺、错误数据，将其值置为空；

(1.2)对重复数据进行删除；

3.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法，其特征在于：步骤(3.3)中，t_case为正标签或者叫做病例(case)的阈值，t_control为负标签或者叫做对照(control)的阈值；大于t_case的被分级为高危病人，小于t_control的被分级为低危病人，其余的被划分为中危病人。

4.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法，其特征在于：步骤(3.3)中，按如下步骤进行：

A.假设导出集中数据样本个数为S，根据回归模型计算导出集中数据样本是否川崎病的概率i∈S；

B.按照从大到小的顺序排列假设当时，当前顺序下大于等于此值的所有样本为病例；

C.按照从小到大的顺序排列当时，当前顺序下小于等于此值的所有样本为对照。

5.根据权利要求1所述的一种基于医疗数据建模的川崎病分级预测方法，其特征在于：步骤(3.3)中，理论上被分为高危的病人有大约90％的概率是患病的，而低危病人则有大约10％的概率患病，中危病人则需要医生根据实际情况再做后续观察，这样算法的敏感度(sensitivity)虽然会降低，但是真阳性率(true positive rate)与真阴性率(truenegative rate)会大大提升，不至于在实际医疗诊断中误导医生做出错误判断。

6.根据权利要求3所述的一种基于医疗数据的川崎病分级预测方法，其特征在于：步骤2中所述19项特征为：

(2.1)临床特征：

A.是否发烧大于38.3摄氏度(Fever>38.3℃or100.5°F:)

B.是否有皮疹(Rash)

C.两眼是否发红(Red eyes)

E.是否颈部***>1.5厘米(Cervical lymph node>1.5cm)

G.患病天数(Days of illness)

(2.2)实验数据：

A.白细胞浓度(WBC×103/mm3)

B.中性粒细胞浓度(POLYS％)

C.带状核浓度(BANDS％)

D.淋巴细胞浓度(Lymphs％)

E.单核细胞浓度(MONOS％)

F.嗜酸粒细胞浓度(EOS％)

G.血红蛋白浓度(HGB mg/dl)

H.血小板浓度(PLTS×103/mm3)

I.红细胞沉降率(ESR mm/h)

J.C-反应蛋白(CRP mg/dl)

K.丙氨酸氨基转移酶(ALT IU/L)

L.谷氨酰转肽酶(GGT IU/L)。