CN109087712A - 一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、***和模型 - Google Patents

一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、***和模型 Download PDF

Info

Publication number
CN109087712A
CN109087712A CN201810712225.8A CN201810712225A CN109087712A CN 109087712 A CN109087712 A CN 109087712A CN 201810712225 A CN201810712225 A CN 201810712225A CN 109087712 A CN109087712 A CN 109087712A
Authority
CN
China
Prior art keywords
model
easyensemble
integrated
sample
aorta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810712225.8A
Other languages
English (en)
Other versions
CN109087712B (zh
Inventor
张国刚
刘丽珏
柏勇平
谭世洋
罗靖旻
穆阳
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zixing Artificial Intelligence Research Institute
Hunan Zixing Wisdom Medical Technology Co ltd
Xiangya Hospital of Central South University
Original Assignee
Hunan Zixing Artificial Intelligence Research Institute
Hunan Zixing Wisdom Medical Technology Co ltd
Xiangya Hospital of Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zixing Artificial Intelligence Research Institute, Hunan Zixing Wisdom Medical Technology Co ltd, Xiangya Hospital of Central South University filed Critical Hunan Zixing Artificial Intelligence Research Institute
Priority to CN201810712225.8A priority Critical patent/CN109087712B/zh
Publication of CN109087712A publication Critical patent/CN109087712A/zh
Application granted granted Critical
Publication of CN109087712B publication Critical patent/CN109087712B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、***和模型。本发明针对现有传统诊断方法对于主动脉夹层诊断的效率低、误诊率高、漏诊率低、成本高、过程复杂的缺点,提供一种基于随机子空间集成学习的主动脉夹层筛查方法。该方法利用机器学习的RS‑Ensemble算法建立RS模型,利用RS模型进行主动脉夹层的筛查和诊断,大大提高了诊断准确率,同时大大降低了误诊率和漏诊率,实现高效低成本的诊断。

Description

一种基于随机子空间集成学习的主动脉夹层筛查模型及其建 立方法、***和模型
技术领域
本发明涉及医学及人工智能领域,特别是一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、***和模型。
背景技术
主动脉夹层是临床上一种比较少见的急症,它的发病过程是主动脉腔内血液从在主动脉压力下从主动脉内膜破口进入主动脉壁内,然后在主动脉壁中形成夹层血肿,并延主动脉纵轴扩展形成”双腔主动脉”。这是一种非常凶险的心血管疾病,该疾病在发病的最初24小时内每小时的死亡率为1%~2%,一周内死亡率高达60%~70%,大多数没有经过治疗的患者都会在一年内死亡。
目前主动脉夹层的诊断方法主要是影像学方法和超声波方法。包括CT扫描、CT血管造影、超声心电图、磁共振血流成像数字、减影血管造影术等。这些方法都各有其优点和缺点。CT扫描速度相对较快,无创,但是如果患者血流动力学不稳定,这种技术就不适用。CT血管造影的准确率很高,欧洲心脏病学会推荐多层螺旋CT血管造影作为对疑似急性病人的第一道检查,但是CT血管造影需要使用潜在的肾毒性造影剂,并且会使检查者暴露在电离辐射下。超声心电图具有简单、操作方便的优点,即使在病床上也能够完成,但它的缺点是明显的,也就是准确率不太高。磁共振血流成像具有仅比CT血管造影低少许的准确率,并且它的造影剂相对于CT血管造影的造影剂对肾脏的毒性较弱,并且没有电离辐射,但是缺点包括它在幽闭恐惧症患者或身体中有金属设备患者群体中的应用有限。既往认为减影血管造影术(DSA)是主动脉夹层诊断的黄金标准,但是该检查会造成创伤并且一般都在手术中进行,另外存在操作步骤复杂、价格高昂、而且很可能会引起并发症。
随着电子病历的普及,我们拥有了越来多的关于患者的有价值的数字信息。如今,从数据中获取有用知识的知识收集和数据挖掘过程被认为是必要的。如果在病人诊断的过程中利用机器学习技术,则可以自动地计算出多种疾病的患病概率并及时给医生提供指导,这样将有效地降低病人的误诊率和漏诊率,并且极大地减轻了患者的经济负担。将机器学习应用到医疗诊断中已经不算什么新鲜事了,例如,曾经将机器学习算法用到了缺血性心脏病诊断中,也将机器学习应用到肺癌的预测中,等等。但是,目前还没有使用机器学习算法对主动脉夹层进行诊断和预测的研究。
本发明的目的就是利用患者的血常规检查、体格检查等检查项目及生活习惯、家族遗传病史、个人既往病史等数据训练基于随机子空间集成学习的RS模型,用以进行主动脉夹层疾病的诊断、筛查和预测。
名词解释:EasyEnsemble集成模型:即简单集成分类器模型。
发明内容
本发明所要解决的技术问题是,针对现有传统诊断方法对于主动脉夹层诊断的效率低、误诊率高、漏诊率低、成本高、过程复杂的缺点,提供一种基于随机子空间集成学习的主动脉夹层筛查方法。该方法利用机器学习的RS-Ensemble算法建立RS模型,利用RS模型进行主动脉夹层的筛查和诊断,大大提高了诊断准确率,同时大大降低了误诊率和漏诊率,实现高效低成本的诊断。
为了实现上述目的,本发明所采用的技术方案是:
一种基于随机子空间集成学习的主动脉夹层筛查方法,包括以下步骤:
步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型;
步骤五、用训练好的RS模型对新的患者进行分类,实现主动脉夹层的诊断和筛查。
进一步的改进,通过医学常规检查提取患者的基础信息。
进一步的改进,所述步骤四中随机子空间集成学习算法为将随机子空间与简单集成算法进行优化,利用随机子空间改进样本的特征空间的集成算法。
进一步的改进,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
k为下标序列号;其中П表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果,Hj为0表示患者未患有主动脉夹层,Hj为1表示患者患有主动脉夹层;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果,H(x)为0表示患者未得主动脉夹层,H(x)为1表示患者患有主动脉夹层;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
进一步的改进,所述正例集合即具有主动脉夹层的病人样本的集合;反例集合为不具有主动脉夹层的病人样本的集合。
一种基于随机子空间集成学习的主动脉夹层筛查模型的建立方法,包括如下步骤:
步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型。
进一步的改进,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
k为下标序列号;
其中П表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
一种基于随机子空间集成学习的主动脉夹层筛查***,包括数据输入单元、数据计算单元和数据输出单元;数据输入单元用于输入病人的基础信息,数据计算单元用于计算病人是否患有主动脉夹层,数据输出单元用于输出数据计算单元的输出结果;其中数据计算单元采用的计算模型为:H(x)表示取值为0或1,取值为0时表示未患有主动脉夹层,取值为1表示患有主动脉夹层,小于0.5时H(x)取值为0,否则取值为1;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型;M个不同的EasyEnsemble集成模型Hj(j=1,2...M)。
进一步的改进,还包括模型建立单元,模型建立单元用于建立和改进数据计算单元的计算模型;模型建立单元建立模型步骤为:步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型即数据计算单元适应的计算模型;步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
k为下标序列号;
其中Π表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
一种基于随机子空间集成学习的主动脉夹层筛查模型,所述模型如下所示:H(x)表示模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型;M个不同的EasyEnsemble集成模型。
步骤一)中基础信息包括患者的血常规检查、生化全套检查、凝血常规检查等的检查结果以及患者是否吸烟、是否喝酒、是否有高血压、是否有过外伤的信息。
步骤二)中提取的作为样本特征的部分项如表一所示。
表一
RS模型的框架图如图1所示。
对于模型的评估方法,使用F-measure值和Auc值。
因为获取的数据集是极度不平衡的,因此采用不平衡评价指标来评价模型。分类器对一个样本的输出结果有四种可能,评价指标就是建立在这四种可能的输出之上的,而这四种可能的输出构成了一个混淆矩阵对混淆矩阵的解释是:如果一个样本是正例,分类器输出也是正例,那么这算是一个TP;如果一个样本是正例,分类器输出是反例,这就是FN;如果一个样本是反例,分类器输出也是反例,这就是TP;如果一个样本是反例,分类器输出是正例,这就是FP。
召回率就是对于某一类样本,正确识别的样本数占该类样本总数的比例。召回率的计算公式如下所示。
(Recall)r表示召回率,TP表示正确识别的样本,FN表示错误识别的样本。
准确率可以理解为所有预测为正例的样本中真正正例所占的比例:
(Precision)P表示准确率,TP表示预测为正例的样本数,FP为为反例的样本数。
由于单一的准确率和召回率不能说明问题,所以才有了F-measure作为衡量指标。F-measure是准确率和召回率的调和平均值,它的值介于准确率和召回率之间:
F即F-measure表示衡量指标,r即(Recall)r,p即(Precision)P。
AUC的全称是Area Under Curve,这里的曲线说的就是ROC曲线,如图2所示。ROC曲线图是一种对分类器的性能做可视化的技术,由于只用精确度来评价分类器的性能是不够的,所以目前ROC在机器学***衡不敏感的特性而在类别不平衡的领域受到了重视。
在图2中的纵坐标true positive rate是召回率(recall或tpr),横坐标falsepositive rate是误报率(false alarm rate/fpr),也就是在所有预测为反例的样本中正例的比例。误报率的公式如下:
FP表示所有预测为反例(预测错误)的样本数,TN表示所有预测为正例(预测正确)的样本。
在图中,左下角的(0,0)点将所有的样本预测为反例;右上角的(1,1)点将所有的样本预测为正例;左上角的(0,1)点将所有的样本准确预测;右下角的点(1,0)错误预测所有的点,也就是将正例预测为反例,将反例预测为正例。AUC指的就是图中的曲线下方的面积,当曲线是(0,0)和(1,1)两点间的直线是AUC为0.5,此时表示分类器为随机分类器。为了保证模型足够好,需要曲线向左上偏移,也就是AUC的值越接近1越好。
基于以上评价指标,本发明采用以上两个指标F-measure值和Auc值评价模型的优劣。
与现有技术相比,本发明所具有的有益效果为:本发明利用随机子空间集成学习的方法去进行主动脉夹层的筛查、预测和诊断,为医生提供了有效的辅助诊断,减轻了医生负担,提高了工作效率;同时,利用机器模型进行诊断,大大提高了诊断的准确率,降低了诊断的误诊率和漏诊率,降低了患者检查成本,也克服了传统诊断手段可能具有其他伤害和副作用的弊端。
附图说明
图1 RS模型结构图
图2评价模型效果的ROC曲线图
具体实施方式
为进一步说明本发明的实施过程,现采用以下实验来验证本发明的有益效果:
本实验采用的数据集来自于湘雅一医院,该数据集包括收集的53213位患者的信息作为样本,主动脉患者总人数为802人,非患者52411人,即正例样本802个,反例样本52411个,正例与反例样本之比为1:65,提取到85个指标作为样本特征。
1)将数据集分成7个大小相似的互斥子集,每个子集尽可能保证分布一致性,即从数据集中分层采样得到,每次用其中6个子集的并集作为训练集,余下那个子集作为测试集,进行7次训练和测试;
2)在训练集中,设少数类即病人样本为P,多数类即非病人样本为N,|P|<<|N|,样本特征空间为S,样本特征数目为85,,随机子空间系数为0.5,训练一个RS模型H(x)的迭代次数为50,即简单集成分类器EasyEnsemble的个数为50;
3)将N分成65个子集,对于子集Ti,|Ti|=|P|,且将Ti和P取并集得到集合TSi(i=1,2,...,65);
4)从样本的特征空间中随机采样42个特征s1,s2,...,s42创建特征子空间Sj(j=1,2,...,50);
5)j=0;
6)j=j+1;
7)i=0;
8)i=i+1;
9)选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
其中Π表示投影操作,s1,s2,...,s42∈Sj
10)使用TS'j,i训练AdaBoost分类器Si
11)重复8)、9)、10)直到i=65;
12)将65个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型Hj,其中
13)重复6)、7)、8)、9)、10)、11)、12)直到j=50;
14)从50个EasyEnsemble模型中选取最好的M/2个模型进行算术平均,得到最终模型RS模型H(x),其中
15)使用RS模型H(x)测试测试集;
16)将7次测试结果平均,返回测试结果。
17)返回步骤3),重复执行5次,即得到一个五次七折交叉验证结果。
RS_EasyEnsemble算法构建的RS模型无论是在Auc值和Fmeaure值上均取得了很高值,Auc=0.8520,Fmeaure=0.5511,远远优于其他模型的结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于随机子空间集成学习的主动脉夹层筛查方法,其特征在于,包括以下步骤:
步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型;
步骤五、用训练好的RS模型对新的患者进行分类,实现主动脉夹层的诊断和筛查。
2.如权利要求1所述的基于随机子空间集成学习的主动脉夹层筛查方法,其特征在于,通过医学常规检查提取患者的基础信息。
3.根据权利要求1所述的基于随机子空间集成学习的主动脉夹层筛查方法,其特征在于,所述步骤四中随机子空间集成学习算法为将随机子空间与简单集成算法进行优化,利用随机子空间改进样本的特征空间的集成算法。
4.根据权利要求1所述的基于随机子空间集成学习的主动脉夹层筛查方法,其特征在于,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且Ti∩Tλ:λ≠i=Φ,将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
1≤k≤M,k为下标序列号;
其中Π表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
5.根据权利要求4所述的基于随机子空间集成学习的主动脉夹层筛查方法,其特征在于,所述正例集合即具有主动脉夹层的病人样本的集合;反例集合为不具有主动脉夹层的病人样本的集合。
6.一种基于随机子空间集成学习的主动脉夹层筛查模型的建立方法,其特征在于,包括如下步骤:
步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型。
7.如权利要求6所述的基于随机子空间集成学习的主动脉夹层筛查模型的建立方法,其特征在于,步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且Ti∩Tλ:λ≠i=Φ,将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
1≤k≤M,k为下标序列号;
其中Π表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
8.一种基于随机子空间集成学习的主动脉夹层筛查***,其特征在于,包括数据输入单元、数据计算单元和数据输出单元;数据输入单元用于输入病人的基础信息,数据计算单元用于计算病人是否患有主动脉夹层,数据输出单元用于输出数据计算单元的输出结果;其中数据计算单元采用的计算模型为:H(x)表示取值为0或1,取值为0时表示未患有主动脉夹层,取值为1表示患有主动脉夹层,小于0.5时H(x)取值为0,否则取值为1;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型;M个不同的EasyEnsemble集成模型Hj(j=1,2...M)。
9.如权利要求8所述的基于随机子空间集成学习的主动脉夹层筛查***,其特征在于,还包括模型建立单元,模型建立单元用于建立和改进数据计算单元的计算模型;模型建立单元建立模型步骤为:步骤一)、获得患者的基础信息;
步骤二)、提取基础信息的部分项作为样本特征;
步骤三)、根据确诊结果对是否为主动脉夹层患者的基础信息进行正负样本标定,得到样本数据;
步骤四)、利用随机子空间集成学习算法对得到的样本数据进行训练,得到训练好的分类模型——RS模型即数据计算单元适应的计算模型;步骤四)中利用随机子空间集成学习算法对得到的样本数据进行训练,得到RS模型的步骤包括:
步骤一、若样本的正例集合为P,为少数类集合,反例集合为N,为多数类集合,即|N|>>|P|,|N|表示集合N的基数,即集合N中元素的个数,将N分成t个子集,对于子集Ti,|Ti|=|P|,且Ti∩Tλ:λ≠i=Φ,将Ti和P取并集得到集合TSi(i=1,2...t);Φ表示空集,i和λ均为下标序列号;
步骤二、设样本的特征空间为S,样本特征数目为K,EasyEnsemble简单集成分类器的个数为M,随机子空间系数为α;
步骤三、从样本的特征空间中随机采样K*α数目的特征创建特征子空间Sj(j=1,2...M);j为下标序列号;
步骤四、选取特征子空间Sj的特征对集合TSi进行投影,得到新的集合TS'j,i,即
1≤k≤M,k为下标序列号;
其中Π表示投影操作,s1,s2,...,sk∈Sj
步骤五、使用TS'j,i训练AdaBoost分类器Si
步骤六、i从1到t,重复步骤三、四、五t次,得到t个不同的AdaBoost分类器Si(i=1,2...t),i表示下标序列号;
步骤七、将t个AdaBoost分类器求算术平均得到一个EasyEnsemble集成模型:
Hj表示EasyEnsemble集成模型结果;Round()表示Round函数返回一个数值,该数值是按照指定的小数位数进行四舍五入运算的结果;
步骤八、j从1到M,重复步骤二、三、四、五、六、七M次,得到M个不同的EasyEnsemble集成模型Hj(j=1,2...M);
步骤九、从M个EasyEnsemble模型中选取按照F-measure衡量指标从大到小排列的前M/2个模型进行算术平均,得到最终模型RS模型:
H(x)表示RS模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型。
10.一种基于随机子空间集成学习的主动脉夹层筛查模型,其特征在于,所述模型如下所示:H(x)表示模型的结果;M表示EasyEnsemble集成模型的个数,j表示EasyEnsemble集成模型的序列号,Hj表示第j个EasyEnsemble集成模型;M个不同的EasyEnsemble集成模型Hj(j=1,2...M)。
CN201810712225.8A 2018-06-29 2018-06-29 一种基于随机子空间集成学习的主动脉夹层筛查*** Expired - Fee Related CN109087712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810712225.8A CN109087712B (zh) 2018-06-29 2018-06-29 一种基于随机子空间集成学习的主动脉夹层筛查***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810712225.8A CN109087712B (zh) 2018-06-29 2018-06-29 一种基于随机子空间集成学习的主动脉夹层筛查***

Publications (2)

Publication Number Publication Date
CN109087712A true CN109087712A (zh) 2018-12-25
CN109087712B CN109087712B (zh) 2021-10-12

Family

ID=64837065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810712225.8A Expired - Fee Related CN109087712B (zh) 2018-06-29 2018-06-29 一种基于随机子空间集成学习的主动脉夹层筛查***

Country Status (1)

Country Link
CN (1) CN109087712B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189907A (zh) * 2022-12-05 2023-05-30 广州盛安医学检验有限公司 一种适用于新生儿的遗传代谢病智能筛查***
TWI817829B (zh) * 2022-11-15 2023-10-01 長庚醫療財團法人高雄長庚紀念醫院 通過機器學習演算法進行主動脈剝離評估的方法及系統

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103278326A (zh) * 2013-06-14 2013-09-04 上海电机学院 风力发电机组齿轮箱的故障诊断方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103278326A (zh) * 2013-06-14 2013-09-04 上海电机学院 风力发电机组齿轮箱的故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨明等: "一种基于局部随机子空间的分类集成算法", 《模式识别与人工智能》 *
魏吉勇: "B2B平台的反欺诈问题研究", 《中国优秀硕士学位论文全文数据库社会科学I辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817829B (zh) * 2022-11-15 2023-10-01 長庚醫療財團法人高雄長庚紀念醫院 通過機器學習演算法進行主動脈剝離評估的方法及系統
CN116189907A (zh) * 2022-12-05 2023-05-30 广州盛安医学检验有限公司 一种适用于新生儿的遗传代谢病智能筛查***
CN116189907B (zh) * 2022-12-05 2023-09-05 广州盛安医学检验有限公司 一种适用于新生儿的遗传代谢病智能筛查***

Also Published As

Publication number Publication date
CN109087712B (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
Mohammed et al. A Comprehensive Investigation of Machine Learning Feature Extraction and ClassificationMethods for Automated Diagnosis of COVID-19 Based on X-ray Images.
US8949079B2 (en) Patient data mining
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
CN110097975A (zh) 一种基于多模型融合的医院感染智能诊断方法及***
Sethy et al. Computer aid screening of COVID-19 using X-ray and CT scan images: An inner comparison
Kör et al. Diagnosing and differentiating viral pneumonia and COVID-19 using X-ray images
CN109087712A (zh) 一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、***和模型
CN116864062B (zh) 一种基于互联网的健康体检报告数据分析管理***
US20030191666A1 (en) System and method for evaluating pretest probabilities of life-threatening diseases
CN113763353A (zh) 一种肺部超声图像检测***
Yenurkar et al. Effective detection of COVID-19 outbreak in chest X-Rays using fusionnet model
CN116631558B (zh) 一种基于互联网的医学检测项目的构建方法
Rasheed et al. Heart disease prediction using machine learning method
Kifli et al. Brain Stroke Classification using One Dimensional Convolutional Neural Network
Tang et al. A neural network to pulmonary embolism aided diagnosis with a feature selection approach
Asif et al. Automatic COVID-19 Detection from chest radiographic images using Convolutional Neural Network
Zhang et al. Congestive heart failure detection via short-time electrocardiographic monitoring for fast reference advice in urgent medical conditions
Chavan et al. Estimation of Prediction for Heart Failure Chances Using Various Machine Learning Algorithms
Abbasa et al. The application of Hybrid deep learning Approach to evaluate chest ray images for the diagnosis of pneumonia in children
Floares Using computational intelligence to develop intelligent clinical decision support systems
Sharma et al. A Novel Heart Disease Prediction System Using XGBoost Classifier Coupled With ADASYN SMOTE
Khalaf et al. Predicting Acute Respiratory Failure Using Fuzzy Classifier
Wang et al. Prediction of sepsis from clinical data using long short-term memory and extreme gradient boosting
Abdulsamad et al. Cervical Cancer Screening Using Residual Learning
Lawal et al. Heart disease diagnosis using data mining techniques and a decision support system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211012

CF01 Termination of patent right due to non-payment of annual fee