CN113159132A

CN113159132A - 一种基于多模型融合的高血压分级方法

Info

Publication number: CN113159132A
Application number: CN202110327144.8A
Authority: CN
Inventors: 苏枫; 郑鹏翔; 王向文; 李鹏博
Original assignee: Shanghai Yangpu Central Hospital
Current assignee: Shanghai Yangpu Central Hospital
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-23

Abstract

本发明公开了一种基于多模型融合的高血压分级方法，属于高血压分级技术领域。首先对采集的数据进行整理和清洗，即对一些类别列进行编码使得计算机能够识别和处理，另外还需要对数据中包含的空值和离群异常值进行处理。随后再构建堆栈集成学习模型，即利用K近邻、支持向量机和随机森林算法作为基学习器。将每个基学习器的经过K折交叉验证的结果来训练元学习器，使得元学习器能够利用基学习器组得到的不同结果来进行最后的结果总结和校准。该方法能够充分的利用不同基模型在数据上不同的归纳和偏置结果，提高整体模型的预测结果。

Description

一种基于多模型融合的高血压分级方法

技术领域

本发明涉及一种基于多模型融合的高血压分级方法，属于高血压分级技术领域。

背景技术

我国人群的高血压病患病率仍呈上升趋势，由此导致心脑血管疾病严重危害健康。男女、年龄、生活方式等均与高血压病患病率相关，目前国际上通用的高血压诊断及分级标准为高血压的诊断及危险程度提供了指导，但因条件限制，未能加入诸多因素进入诊断标准中。因此利用大数据和机器学习的相关算法来探索病人各项相关数据和高血压分类和危险程度之间的内在关系就显得很有必要。

目前有很多机器学***均的方式，在分类任务中采用投票法和学习法等，以此来获得更加准确和稳定的结果。

发明内容

本发明针对高血压分级的分类问题，提出利用多模型融合的方式来实现高血压危险等级的有效分类。基于堆叠的多模型融合方法，有效的避免了单模型原理导致的局部归纳和偏置问题，从而实现了更好的高血压分级效果。

本发明所要解决的技术问题采取以下技术方案来实现：

一种基于多模型融合的高血压分级方法，包括如下步骤：

步骤S1：数据预处理

步骤S1.1：对于收集到的数据，采用硬编码的方式，将每一个类别直接表示为特征数值；

步骤S1.2：计算步骤S1.1中所有特征数值之间的Pearson相关系数ρ_X,Y，其计算方式如下：

其中E(*)表示期望，cov(*)表示协方差；

步骤S1.3：根据S1.2中特征数值之间的Pearson相关系数，去掉一些相关度较低的冗余字段，从而降低特征维度；

步骤S1.4：针对特征数值中一些具有不同量纲且数值连续的字段采用z-score进行标准化，其计算方法如下所示：

其中x为原始数据，

为标准化后的值，μ和σ为原始数据分布中的均值和标准差；

步骤S2：堆叠集成学习模型

步骤S2.1：将前面整理好的数据作为训练集S＝{(x_n,y_n),n＝1,...N}，其中x_n为第n个样本的特征向量，y_n为第n个样本对应的预测值，并且将S随机分为大小基本相同的K份,记为{S₁,...,S_K}；

步骤S2.2：每一个基学习器K折交叉验证中第k折的训练集为S_-k＝S-S_k,则测试集为S_k,经过K折交叉验证后，每一个基学习器都会对训练集S中的x_n预测一遍,则基学习器组产生的输出可以记为z_(n,m)，其中m为基学习器的个数；

步骤S2.3：将基学习器组的输出z_(n,m)作为元学习器的训练集，从而产生最终的预测结果。

本发明的有益效果是：

通过基于堆叠集成学习的高血压分级模型能够最大限度的利用不同模型之间的优势，从而有效的提高高血压分级的准确率。

附图说明

图1为试验室生理各特征和高血压等级相关性分析；

图2为堆叠集成学习整体架构。

具体实施方式

为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示及实施例，进一步阐述本发明。

一种基于多模型融合的高血压分级方法，具体包括如下步骤：

步骤1：数据预处理：

1)对于收集到的数据中，很多字段通常以类别表示，例如“是”、“否”等，因此需要将这些字段进行数值编码。由于one-hot编码会导致特征矩阵过于稀疏，所以采用的是硬编码的方式。对于每一个以类别表示的字段，设置类别映射编码字典dict_mapping，然后利用dict_mapping将该字段的内容转化为数值。

其部分转换结果如表1和表2所示。

病历编号	左心室高电压	左心室肥厚	左房扩大
				1	否	否	否
2	是	否	否
				3	否	是	否
4	否	否	否

表1数值转换前

病历编号	左心室高电压	左心室肥厚	左房扩大
				1	0	0	0
2	1	0	0
				3	0	1	0
4	0	0	0

表2数值转换后

2)计算步骤S1.1中所有特征数值之间的Pearson相关系数ρ_X,Y，其计算方式如下：

其中E(*)表示期望，cov(*)表示协方差；得到各特征之间Pearson相关系数之后就可以得到特征之间的Pearson相关系数矩阵。通过的可视化，可以很清楚的观察到那些医学特征和高血压危险等级的关联程度。

3)根据特征之间的Pearson相关系数矩阵M_ρ，去掉一些和高血压分级相关度比较低的冗余字段，从而有效降低特征维度。通过对实验室生理化验数据进行整理，图1为整理后计算得到的各特征之间Pearson相关系数矩阵。

4)针对数据中一些具有不同量纲且为连续型数值的字段采用z-score进行标准化，从而使得模型能够有效且更快的收敛。z-score标准化计算方法如下所示

其中x为原始数据，

为标准化后的值，μ和σ为原始数据分布中的均值和标准差。

步骤2：堆叠集成学习模型

5)将前面整理好的数据作为训练集S＝{(x_n,y_n),n＝1,...N}，其中x_n为第n个样本的特征向量，y_n为第n个样本对应的预测值，并且将S随机分为大小基本相同的K份,记为{S₁,...,S_K}。

6)每一个基学习器K折交叉验证中第k折的训练集为S_-k＝S-S_k,则测试集为S_k,经过K折交叉验证后，每一个基学习器都会对训练集S中的x_n预测一遍,则基学习器组产生的输出可以记为z_(n,m)，其中m为基学习器的个数。

7)将基学习器组的输出z_(n,m)作为元学习器的训练集，从而产生最终的预测结果。通过如图2所示的堆叠集成学习的高血压分级模型，在处理好的数据集上进行训练和测试，其结果如表3所示。

表3结果分析

其中：

支持向量机(Support Vector Machine,SVM)是一类按监督学***面(maximum-marginhyperplane)。

邻近算法，或者说K最近邻(KNN，K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT，GBM)，可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop，SGE，MPI)上运行，并且可以解决数十亿个示例之外的问题。

Stacking是通过一个元分类器或者元回归器整合多个模型的集成学习技术。基础模型利用整个训练集做训练，元模型利用基础模型做特征进行训练。一般Stacking多使用不同类型的基础模型。

可以发现，相比于单模型，所提出的集成学习能够最大限度的利用不同模型之间的优势，从而有效的提高高血压分级的准确率。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多模型融合的高血压分级方法，其特征在于，包括如下步骤：

步骤S1：数据预处理

其中E(*)表示期望，cov(*)表示协方差；

其中x为原始数据，x～为标准化后的值，μ和σ为原始数据分布中的均值和标准差；

步骤S2：堆叠集成学习模型