CN113159132A - 一种基于多模型融合的高血压分级方法 - Google Patents

一种基于多模型融合的高血压分级方法 Download PDF

Info

Publication number
CN113159132A
CN113159132A CN202110327144.8A CN202110327144A CN113159132A CN 113159132 A CN113159132 A CN 113159132A CN 202110327144 A CN202110327144 A CN 202110327144A CN 113159132 A CN113159132 A CN 113159132A
Authority
CN
China
Prior art keywords
learner
data
hypertension
training set
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110327144.8A
Other languages
English (en)
Inventor
苏枫
郑鹏翔
王向文
李鹏博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yangpu Central Hospital
Original Assignee
Shanghai Yangpu Central Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yangpu Central Hospital filed Critical Shanghai Yangpu Central Hospital
Priority to CN202110327144.8A priority Critical patent/CN113159132A/zh
Publication of CN113159132A publication Critical patent/CN113159132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多模型融合的高血压分级方法,属于高血压分级技术领域。首先对采集的数据进行整理和清洗,即对一些类别列进行编码使得计算机能够识别和处理,另外还需要对数据中包含的空值和离群异常值进行处理。随后再构建堆栈集成学习模型,即利用K近邻、支持向量机和随机森林算法作为基学习器。将每个基学习器的经过K折交叉验证的结果来训练元学习器,使得元学习器能够利用基学习器组得到的不同结果来进行最后的结果总结和校准。该方法能够充分的利用不同基模型在数据上不同的归纳和偏置结果,提高整体模型的预测结果。

Description

一种基于多模型融合的高血压分级方法
技术领域
本发明涉及一种基于多模型融合的高血压分级方法,属于高血压分级技术领域。
背景技术
我国人群的高血压病患病率仍呈上升趋势,由此导致心脑血管疾病严重危害健康。男女、年龄、生活方式等均与高血压病患病率相关,目前国际上通用的高血压诊断及分级标准为高血压的诊断及危险程度提供了指导,但因条件限制,未能加入诸多因素进入诊断标准中。因此利用大数据和机器学习的相关算法来探索病人各项相关数据和高血压分类和危险程度之间的内在关系就显得很有必要。
目前有很多机器学***均的方式,在分类任务中采用投票法和学习法等,以此来获得更加准确和稳定的结果。
发明内容
本发明针对高血压分级的分类问题,提出利用多模型融合的方式来实现高血压危险等级的有效分类。基于堆叠的多模型融合方法,有效的避免了单模型原理导致的局部归纳和偏置问题,从而实现了更好的高血压分级效果。
本发明所要解决的技术问题采取以下技术方案来实现:
一种基于多模型融合的高血压分级方法,包括如下步骤:
步骤S1:数据预处理
步骤S1.1:对于收集到的数据,采用硬编码的方式,将每一个类别直接表示为特征数值;
步骤S1.2:计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
Figure BDA0002995087430000021
其中E(*)表示期望,cov(*)表示协方差;
步骤S1.3:根据S1.2中特征数值之间的Pearson相关系数,去掉一些相关度较低的冗余字段,从而降低特征维度;
步骤S1.4:针对特征数值中一些具有不同量纲且数值连续的字段采用z-score进行标准化,其计算方法如下所示:
Figure BDA0002995087430000022
其中x为原始数据,
Figure BDA0002995087430000023
为标准化后的值,μ和σ为原始数据分布中的均值和标准差;
步骤S2:堆叠集成学习模型
步骤S2.1:将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK};
步骤S2.2:每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数;
步骤S2.3:将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。
本发明的有益效果是:
通过基于堆叠集成学习的高血压分级模型能够最大限度的利用不同模型之间的优势,从而有效的提高高血压分级的准确率。
附图说明
图1为试验室生理各特征和高血压等级相关性分析;
图2为堆叠集成学习整体架构。
具体实施方式
为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示及实施例,进一步阐述本发明。
一种基于多模型融合的高血压分级方法,具体包括如下步骤:
步骤1:数据预处理:
1)对于收集到的数据中,很多字段通常以类别表示,例如“是”、“否”等,因此需要将这些字段进行数值编码。由于one-hot编码会导致特征矩阵过于稀疏,所以采用的是硬编码的方式。对于每一个以类别表示的字段,设置类别映射编码字典dict_mapping,然后利用dict_mapping将该字段的内容转化为数值。
其部分转换结果如表1和表2所示。
病历编号 左心室高电压 左心室肥厚 左房扩大
1
2
3
4
表1数值转换前
病历编号 左心室高电压 左心室肥厚 左房扩大
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 0
表2数值转换后
2)计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
Figure BDA0002995087430000031
其中E(*)表示期望,cov(*)表示协方差;得到各特征之间Pearson相关系数之后就可以得到特征之间的Pearson相关系数矩阵。通过的可视化,可以很清楚的观察到那些医学特征和高血压危险等级的关联程度。
3)根据特征之间的Pearson相关系数矩阵Mρ,去掉一些和高血压分级相关度比较低的冗余字段,从而有效降低特征维度。通过对实验室生理化验数据进行整理,图1为整理后计算得到的各特征之间Pearson相关系数矩阵。
4)针对数据中一些具有不同量纲且为连续型数值的字段采用z-score进行标准化,从而使得模型能够有效且更快的收敛。z-score标准化计算方法如下所示
Figure BDA0002995087430000041
其中x为原始数据,
Figure BDA0002995087430000042
为标准化后的值,μ和σ为原始数据分布中的均值和标准差。
步骤2:堆叠集成学习模型
5)将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK}。
6)每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数。
7)将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。通过如图2所示的堆叠集成学习的高血压分级模型,在处理好的数据集上进行训练和测试,其结果如表3所示。
Figure BDA0002995087430000043
表3结果分析
其中:
支持向量机(Support Vector Machine,SVM)是一类按监督学***面(maximum-marginhyperplane)。
邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。
Stacking是通过一个元分类器或者元回归器整合多个模型的集成学习技术。基础模型利用整个训练集做训练,元模型利用基础模型做特征进行训练。一般Stacking多使用不同类型的基础模型。
可以发现,相比于单模型,所提出的集成学习能够最大限度的利用不同模型之间的优势,从而有效的提高高血压分级的准确率。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (1)

1.一种基于多模型融合的高血压分级方法,其特征在于,包括如下步骤:
步骤S1:数据预处理
步骤S1.1:对于收集到的数据,采用硬编码的方式,将每一个类别直接表示为特征数值;
步骤S1.2:计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
Figure FDA0002995087420000011
其中E(*)表示期望,cov(*)表示协方差;
步骤S1.3:根据S1.2中特征数值之间的Pearson相关系数,去掉一些相关度较低的冗余字段,从而降低特征维度;
步骤S1.4:针对特征数值中一些具有不同量纲且数值连续的字段采用z-score进行标准化,其计算方法如下所示:
Figure FDA0002995087420000012
其中x为原始数据,x~为标准化后的值,μ和σ为原始数据分布中的均值和标准差;
步骤S2:堆叠集成学习模型
步骤S2.1:将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK};
步骤S2.2:每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数;
步骤S2.3:将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。
CN202110327144.8A 2021-03-26 2021-03-26 一种基于多模型融合的高血压分级方法 Pending CN113159132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110327144.8A CN113159132A (zh) 2021-03-26 2021-03-26 一种基于多模型融合的高血压分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110327144.8A CN113159132A (zh) 2021-03-26 2021-03-26 一种基于多模型融合的高血压分级方法

Publications (1)

Publication Number Publication Date
CN113159132A true CN113159132A (zh) 2021-07-23

Family

ID=76885043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110327144.8A Pending CN113159132A (zh) 2021-03-26 2021-03-26 一种基于多模型融合的高血压分级方法

Country Status (1)

Country Link
CN (1) CN113159132A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113288091A (zh) * 2021-05-06 2021-08-24 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082712A1 (en) * 2009-10-01 2011-04-07 DecisionQ Corporation Application of bayesian networks to patient screening and treatment
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及***
CN109303564A (zh) * 2018-10-24 2019-02-05 中山大学 一种sahs筛查、呼吸模态及睡眠状态的级联识别方法
CN109378072A (zh) * 2018-10-13 2019-02-22 中山大学 一种基于集成学习融合模型的异常空腹血糖值预警方法
CN111292853A (zh) * 2020-01-15 2020-06-16 长春理工大学 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN111968741A (zh) * 2020-07-15 2020-11-20 华南理工大学 基于深度学习与集成学习的糖尿病并发症高危预警***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110082712A1 (en) * 2009-10-01 2011-04-07 DecisionQ Corporation Application of bayesian networks to patient screening and treatment
CN109117864A (zh) * 2018-07-13 2019-01-01 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及***
CN109378072A (zh) * 2018-10-13 2019-02-22 中山大学 一种基于集成学习融合模型的异常空腹血糖值预警方法
CN109303564A (zh) * 2018-10-24 2019-02-05 中山大学 一种sahs筛查、呼吸模态及睡眠状态的级联识别方法
CN111292853A (zh) * 2020-01-15 2020-06-16 长春理工大学 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN111968741A (zh) * 2020-07-15 2020-11-20 华南理工大学 基于深度学习与集成学习的糖尿病并发症高危预警***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113288091A (zh) * 2021-05-06 2021-08-24 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备
CN113288091B (zh) * 2021-05-06 2023-10-03 广东工业大学 用于血压分类的模型训练方法、装置及可穿戴设备

Similar Documents

Publication Publication Date Title
Cui et al. Multi-scale convolutional neural networks for time series classification
Casalino et al. Data stream classification by dynamic incremental semi-supervised fuzzy clustering
Yang et al. On supervised feature selection from high dimensional feature spaces
Nejad et al. A new enhanced learning approach to automatic image classification based on Salp Swarm Algorithm
Yasmeen et al. Citrus diseases recognition using deep improved genetic algorithm
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
Liao et al. Worst-Case Discriminative Feature Selection.
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN113159132A (zh) 一种基于多模型融合的高血压分级方法
Dehghani et al. A machine learning-Jaya algorithm (ml-Ijaya) approach for rapid optimization using high performance computing
Salman et al. Gene expression analysis via spatial clustering and evaluation indexing
Olfati et al. Feature subset selection and parameters optimization for support vector machine in breast cancer diagnosis
Liu Interfruit: deep learning network for classifying fruit images
Sethi Analogizing of evolutionary and machine learning algorithms for prognosis of breast cancer
Zhao et al. Combining genetic algorithm and SVM for corn variety identification
Al-Awadi et al. MRI Brain Scans Classification Using Extreme Learning Machine on LBP and GLCM.
Lin et al. A 3D neuronal morphology classification approach based on convolutional neural networks
Liu The alexnet-resnet-inception network for classifying fruit images
Bharathi et al. The significance of feature selection techniques in machine learning
Sergienko et al. Michigan and Pittsburgh methods combination for fuzzy classifier design with coevolutionary algorithm
Li et al. Rapid and high-purity seed grading based on pruned deep convolutional neural network
Yao Application of Optimized SVM in Sample Classification
Ocheme et al. A deep neural network approach for cancer types classification using gene selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723