CN113159132A - 一种基于多模型融合的高血压分级方法 - Google Patents
一种基于多模型融合的高血压分级方法 Download PDFInfo
- Publication number
- CN113159132A CN113159132A CN202110327144.8A CN202110327144A CN113159132A CN 113159132 A CN113159132 A CN 113159132A CN 202110327144 A CN202110327144 A CN 202110327144A CN 113159132 A CN113159132 A CN 113159132A
- Authority
- CN
- China
- Prior art keywords
- learner
- data
- hypertension
- training set
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010020772 Hypertension Diseases 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000002790 cross-validation Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000012706 support-vector machine Methods 0.000 abstract description 5
- 230000006698 induction Effects 0.000 abstract description 3
- 238000007637 random forest analysis Methods 0.000 abstract 1
- 238000010801 machine learning Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 206010020880 Hypertrophy Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000005246 left atrium Anatomy 0.000 description 2
- 210000005240 left ventricle Anatomy 0.000 description 2
- 230000002861 ventricular Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多模型融合的高血压分级方法,属于高血压分级技术领域。首先对采集的数据进行整理和清洗,即对一些类别列进行编码使得计算机能够识别和处理,另外还需要对数据中包含的空值和离群异常值进行处理。随后再构建堆栈集成学习模型,即利用K近邻、支持向量机和随机森林算法作为基学习器。将每个基学习器的经过K折交叉验证的结果来训练元学习器,使得元学习器能够利用基学习器组得到的不同结果来进行最后的结果总结和校准。该方法能够充分的利用不同基模型在数据上不同的归纳和偏置结果,提高整体模型的预测结果。
Description
技术领域
本发明涉及一种基于多模型融合的高血压分级方法,属于高血压分级技术领域。
背景技术
我国人群的高血压病患病率仍呈上升趋势,由此导致心脑血管疾病严重危害健康。男女、年龄、生活方式等均与高血压病患病率相关,目前国际上通用的高血压诊断及分级标准为高血压的诊断及危险程度提供了指导,但因条件限制,未能加入诸多因素进入诊断标准中。因此利用大数据和机器学习的相关算法来探索病人各项相关数据和高血压分类和危险程度之间的内在关系就显得很有必要。
目前有很多机器学***均的方式,在分类任务中采用投票法和学习法等,以此来获得更加准确和稳定的结果。
发明内容
本发明针对高血压分级的分类问题,提出利用多模型融合的方式来实现高血压危险等级的有效分类。基于堆叠的多模型融合方法,有效的避免了单模型原理导致的局部归纳和偏置问题,从而实现了更好的高血压分级效果。
本发明所要解决的技术问题采取以下技术方案来实现:
一种基于多模型融合的高血压分级方法,包括如下步骤:
步骤S1:数据预处理
步骤S1.1:对于收集到的数据,采用硬编码的方式,将每一个类别直接表示为特征数值;
步骤S1.2:计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
其中E(*)表示期望,cov(*)表示协方差;
步骤S1.3:根据S1.2中特征数值之间的Pearson相关系数,去掉一些相关度较低的冗余字段,从而降低特征维度;
步骤S1.4:针对特征数值中一些具有不同量纲且数值连续的字段采用z-score进行标准化,其计算方法如下所示:
步骤S2:堆叠集成学习模型
步骤S2.1:将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK};
步骤S2.2:每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数;
步骤S2.3:将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。
本发明的有益效果是:
通过基于堆叠集成学习的高血压分级模型能够最大限度的利用不同模型之间的优势,从而有效的提高高血压分级的准确率。
附图说明
图1为试验室生理各特征和高血压等级相关性分析;
图2为堆叠集成学习整体架构。
具体实施方式
为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示及实施例,进一步阐述本发明。
一种基于多模型融合的高血压分级方法,具体包括如下步骤:
步骤1:数据预处理:
1)对于收集到的数据中,很多字段通常以类别表示,例如“是”、“否”等,因此需要将这些字段进行数值编码。由于one-hot编码会导致特征矩阵过于稀疏,所以采用的是硬编码的方式。对于每一个以类别表示的字段,设置类别映射编码字典dict_mapping,然后利用dict_mapping将该字段的内容转化为数值。
其部分转换结果如表1和表2所示。
病历编号 | 左心室高电压 | 左心室肥厚 | 左房扩大 |
1 | 否 | 否 | 否 |
2 | 是 | 否 | 否 |
3 | 否 | 是 | 否 |
4 | 否 | 否 | 否 |
表1数值转换前
病历编号 | 左心室高电压 | 左心室肥厚 | 左房扩大 |
1 | 0 | 0 | 0 |
2 | 1 | 0 | 0 |
3 | 0 | 1 | 0 |
4 | 0 | 0 | 0 |
表2数值转换后
2)计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
其中E(*)表示期望,cov(*)表示协方差;得到各特征之间Pearson相关系数之后就可以得到特征之间的Pearson相关系数矩阵。通过的可视化,可以很清楚的观察到那些医学特征和高血压危险等级的关联程度。
3)根据特征之间的Pearson相关系数矩阵Mρ,去掉一些和高血压分级相关度比较低的冗余字段,从而有效降低特征维度。通过对实验室生理化验数据进行整理,图1为整理后计算得到的各特征之间Pearson相关系数矩阵。
4)针对数据中一些具有不同量纲且为连续型数值的字段采用z-score进行标准化,从而使得模型能够有效且更快的收敛。z-score标准化计算方法如下所示
步骤2:堆叠集成学习模型
5)将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK}。
6)每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数。
7)将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。通过如图2所示的堆叠集成学习的高血压分级模型,在处理好的数据集上进行训练和测试,其结果如表3所示。
表3结果分析
其中:
支持向量机(Support Vector Machine,SVM)是一类按监督学***面(maximum-marginhyperplane)。
邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。
Stacking是通过一个元分类器或者元回归器整合多个模型的集成学习技术。基础模型利用整个训练集做训练,元模型利用基础模型做特征进行训练。一般Stacking多使用不同类型的基础模型。
可以发现,相比于单模型,所提出的集成学习能够最大限度的利用不同模型之间的优势,从而有效的提高高血压分级的准确率。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (1)
1.一种基于多模型融合的高血压分级方法,其特征在于,包括如下步骤:
步骤S1:数据预处理
步骤S1.1:对于收集到的数据,采用硬编码的方式,将每一个类别直接表示为特征数值;
步骤S1.2:计算步骤S1.1中所有特征数值之间的Pearson相关系数ρX,Y,其计算方式如下:
其中E(*)表示期望,cov(*)表示协方差;
步骤S1.3:根据S1.2中特征数值之间的Pearson相关系数,去掉一些相关度较低的冗余字段,从而降低特征维度;
步骤S1.4:针对特征数值中一些具有不同量纲且数值连续的字段采用z-score进行标准化,其计算方法如下所示:
其中x为原始数据,x~为标准化后的值,μ和σ为原始数据分布中的均值和标准差;
步骤S2:堆叠集成学习模型
步骤S2.1:将前面整理好的数据作为训练集S={(xn,yn),n=1,...N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,并且将S随机分为大小基本相同的K份,记为{S1,...,SK};
步骤S2.2:每一个基学习器K折交叉验证中第k折的训练集为S-k=S-Sk,则测试集为Sk,经过K折交叉验证后,每一个基学习器都会对训练集S中的xn预测一遍,则基学习器组产生的输出可以记为z(n,m),其中m为基学习器的个数;
步骤S2.3:将基学习器组的输出z(n,m)作为元学习器的训练集,从而产生最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327144.8A CN113159132A (zh) | 2021-03-26 | 2021-03-26 | 一种基于多模型融合的高血压分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110327144.8A CN113159132A (zh) | 2021-03-26 | 2021-03-26 | 一种基于多模型融合的高血压分级方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113159132A true CN113159132A (zh) | 2021-07-23 |
Family
ID=76885043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110327144.8A Pending CN113159132A (zh) | 2021-03-26 | 2021-03-26 | 一种基于多模型融合的高血压分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159132A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113288091A (zh) * | 2021-05-06 | 2021-08-24 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082712A1 (en) * | 2009-10-01 | 2011-04-07 | DecisionQ Corporation | Application of bayesian networks to patient screening and treatment |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及*** |
CN109303564A (zh) * | 2018-10-24 | 2019-02-05 | 中山大学 | 一种sahs筛查、呼吸模态及睡眠状态的级联识别方法 |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111968741A (zh) * | 2020-07-15 | 2020-11-20 | 华南理工大学 | 基于深度学习与集成学习的糖尿病并发症高危预警*** |
-
2021
- 2021-03-26 CN CN202110327144.8A patent/CN113159132A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110082712A1 (en) * | 2009-10-01 | 2011-04-07 | DecisionQ Corporation | Application of bayesian networks to patient screening and treatment |
CN109117864A (zh) * | 2018-07-13 | 2019-01-01 | 华南理工大学 | 基于异构特征融合的冠心病风险预测方法、模型及*** |
CN109378072A (zh) * | 2018-10-13 | 2019-02-22 | 中山大学 | 一种基于集成学习融合模型的异常空腹血糖值预警方法 |
CN109303564A (zh) * | 2018-10-24 | 2019-02-05 | 中山大学 | 一种sahs筛查、呼吸模态及睡眠状态的级联识别方法 |
CN111292853A (zh) * | 2020-01-15 | 2020-06-16 | 长春理工大学 | 基于多参数的心血管疾病风险预测网络模型及其构建方法 |
CN111968741A (zh) * | 2020-07-15 | 2020-11-20 | 华南理工大学 | 基于深度学习与集成学习的糖尿病并发症高危预警*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113288091A (zh) * | 2021-05-06 | 2021-08-24 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
CN113288091B (zh) * | 2021-05-06 | 2023-10-03 | 广东工业大学 | 用于血压分类的模型训练方法、装置及可穿戴设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | Multi-scale convolutional neural networks for time series classification | |
Casalino et al. | Data stream classification by dynamic incremental semi-supervised fuzzy clustering | |
Yang et al. | On supervised feature selection from high dimensional feature spaces | |
Nejad et al. | A new enhanced learning approach to automatic image classification based on Salp Swarm Algorithm | |
Yasmeen et al. | Citrus diseases recognition using deep improved genetic algorithm | |
Morovvat et al. | An ensemble of filters and wrappers for microarray data classification | |
Liao et al. | Worst-Case Discriminative Feature Selection. | |
CN111209939A (zh) | 一种具有智能参数优化模块的svm分类预测方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
Mandal et al. | Unsupervised non-redundant feature selection: a graph-theoretic approach | |
CN113159132A (zh) | 一种基于多模型融合的高血压分级方法 | |
Dehghani et al. | A machine learning-Jaya algorithm (ml-Ijaya) approach for rapid optimization using high performance computing | |
Salman et al. | Gene expression analysis via spatial clustering and evaluation indexing | |
Olfati et al. | Feature subset selection and parameters optimization for support vector machine in breast cancer diagnosis | |
Liu | Interfruit: deep learning network for classifying fruit images | |
Sethi | Analogizing of evolutionary and machine learning algorithms for prognosis of breast cancer | |
Zhao et al. | Combining genetic algorithm and SVM for corn variety identification | |
Al-Awadi et al. | MRI Brain Scans Classification Using Extreme Learning Machine on LBP and GLCM. | |
Lin et al. | A 3D neuronal morphology classification approach based on convolutional neural networks | |
Liu | The alexnet-resnet-inception network for classifying fruit images | |
Bharathi et al. | The significance of feature selection techniques in machine learning | |
Sergienko et al. | Michigan and Pittsburgh methods combination for fuzzy classifier design with coevolutionary algorithm | |
Li et al. | Rapid and high-purity seed grading based on pruned deep convolutional neural network | |
Yao | Application of Optimized SVM in Sample Classification | |
Ocheme et al. | A deep neural network approach for cancer types classification using gene selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |