CN106777891B - 一种数据特征选择和预测方法及装置 - Google Patents
一种数据特征选择和预测方法及装置 Download PDFInfo
- Publication number
- CN106777891B CN106777891B CN201611043691.9A CN201611043691A CN106777891B CN 106777891 B CN106777891 B CN 106777891B CN 201611043691 A CN201611043691 A CN 201611043691A CN 106777891 B CN106777891 B CN 106777891B
- Authority
- CN
- China
- Prior art keywords
- blood pressure
- user
- data
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000036772 blood pressure Effects 0.000 claims abstract description 137
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000003066 decision tree Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000003814 drug Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 229940079593 drug Drugs 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 abstract description 2
- 238000012706 support-vector machine Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 26
- 238000012360 testing method Methods 0.000 description 9
- 238000009530 blood pressure measurement Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 239000008280 blood Substances 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 208000001953 Hypotension Diseases 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G06F19/32—
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了数据特征选择和预测方法及装置。方法包括:步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;步骤S2、从所述数据集中的用户信息中提取用户特征;步骤S3、从所述数据集中的血压观测数据提取血压特征;步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和/或梯度迭代决策树模型之中,训练得到预测模型。本发明利用医学知识指导数据的清洗和特征工程选取工作,有效提升模型的准确性。
Description
技术领域
本发明涉及机器学习和模式识别领域,主要是机器学习中的特征选择方法,并结合梯度迭代决策树和支持向量机模型,进行数据特征选择和预测的方法及装置。
背景技术
随着计算机技术的发展,目前计算机已经可以处理各种不同的数据,帮助人们更加高效的完成任务。尤其在人工智能领域,机器学习作为一项核心技术已经被广泛应用到了很多具体问题中去。支持向量机(SVM)是机器学习经典的模型之一,它很高效同时还能获得很好的预测结果。梯度迭代决策树(GBDT)是当前业界近年非常热门的机器学习方法,它源自经典的决策树(Decision Tree)模型。
近年来,移动医疗是近年来全球的一个市场热点,跨界融合是其基本特征,大数据的分析、预测和应用更是前景无限。
发明内容
基于上述问题,本发明开发建立有关用户血压数据序列的筛选模型,力争为个性化用户提供最优化策略和直观量化引导,协助实现最大效果的干预措施,为用户提供个性化的特征筛选服务。
根据本发明一方面,提供了一种数据特征选择和预测方法,该方法包括步骤:
步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
步骤S2、从所述数据集中的用户信息中提取用户特征;
步骤S3、从所述数据集中的血压观测数据提取血压特征;
步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和/或梯度迭代决策树模型之中,训练得到预测模型。
其中,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率和服药情况。
其中,步骤S3中所述血压特征的提取包括:提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
其中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型中,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;
将所述支持向量机模型的输出与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而更新所述支持向量机模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型的参数收敛,得到第一预测模型。
其中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第三预定采集时间内的血压特征的平均值,输入至梯度迭代决策树模型中,所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述梯度迭代决策树模型的输出与所述训练集中同一用户在第四预定采集时间内的血压特征进行比较,进而更新所述梯度迭代决策树模型的参数;所述第四预定采集时间晚于所述第三预定采集时间;
迭代执行上述步骤,直至所述梯度迭代决策树的参数收敛,得到第二预测模型。
其中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型和中梯度迭代决策树模型,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述支持向量机模型和所述梯度迭代决策树模型的输出分别与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而分别更新所述支持向量机模型和所述梯度迭代决策树模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型和所述梯度迭代决策树模型的参数收敛,得到第一预测模型。
其中,步骤S1还包括从所述数据集中剔除异常值点,包括:
去除用户的年龄不在预定年龄范围内的用户信息和对应的血压数据;
去除用户的身高不在预定身高范围内的用户信息和对应的血压数据;
去除用户的体重不在预定体重范围内的用户信息和对应的血压数据;
去除用户的血压值不在预定血压范围内的用户信息和对应的血压数据;
去除用户的心率不在预定心率范围内的用户信息和对应的血压数据。
根据本发明第二方面,提供了一种数据特征选择和预测装置,包括:
采集模块,用于采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
用户特征提取模块,用于从所述数据集中的用户信息中提取用户特征;
血压特征提取模块,用于从所述数据集中的血压观测数据提取血压特征;
训练模块,用于将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和/或梯度迭代决策树模型之中,训练得到预测模型。
其中,血压特征提取模块包括:
血压特征提取子模块,用于提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
本发明利用医学知识指导数据的清洗和特征工程选取工作,有效提升模型的准确性。
附图说明
图1是本发明提出的数据特征选择和预测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,本发明提出了一种数据特征选择和预测方法,该方法包括步骤:
步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
步骤S2、从所述数据集中的用户信息中提取用户特征;
步骤S3、从所述数据集中的血压观测数据提取血压特征;
步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和/或梯度迭代决策树模型之中,训练得到预测模型。
在一实施例中,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率。
步骤S3中所述血压特征的提取包括:提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
在一实施例中,本发明可以同时训练SVM模型和GBDT模型,并同时利用上述两个模型对用户血压进行预测;在另一实施例中,还可以单独训练SVM模型或GBDT模型,并利用训练好的SVM模型或GBDT模型进行预测。
在一本实施例中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型中,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;
将所述支持向量机模型的输出与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而更新所述支持向量机模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型的参数收敛,得到第一预测模型。
在另一实施例中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第三预定采集时间内的血压特征的平均值,输入至梯度迭代决策树模型中,所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述梯度迭代决策树模型的输出与所述训练集中同一用户在第四预定采集时间内的血压特征进行比较,进而更新所述梯度迭代决策树模型的参数;所述第四预定采集时间晚于所述第三预定采集时间;
迭代执行上述步骤,直至所述梯度迭代决策树的参数收敛,得到第二预测模型。
在其他实施例中,步骤S4中所述利用所述训练集中的训练样本输入至支持向量机和/或梯度迭代决策树模型之中,训练得到预测模型,包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型和中梯度迭代决策树模型,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述支持向量机模型和所述梯度迭代决策树模型的输出分别与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而分别更新所述支持向量机模型和所述梯度迭代决策树模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型和所述梯度迭代决策树模型的参数收敛,得到第一预测模型。
在一实施例中,步骤S1还包括从所述数据集中剔除异常值点,包括:
去除用户的年龄不在预定年龄范围内的用户信息和对应的血压数据;
去除用户的身高不在预定身高范围内的用户信息和对应的血压数据;
去除用户的体重不在预定体重范围内的用户信息和对应的血压数据;
去除用户的血压值不在预定血压范围内的用户信息和对应的血压数据;
去除用户的心率不在预定心率范围内的用户信息和对应的血压数据。
下面通过具体的实施例详细介绍本发明的技术方案。
在一实施例中,本发明提出了一种数据特征选择和预测方法,其包括:
步骤101,收集用户个人信息数据和血压观测数据,并将所收集的用户个人信息和血压观测数据导入数据库之中,所述用户个人数据包括用户年龄、性别、身高、体重、身体质量指数(BMI)、测量时间等;所述血压观测数据包括高压、低压、心率、服药情况、测量月份信息等。清洗数据,根据相关医学知识对用户个人信息数据和血压观测数据,删去异常值点(即异常的用户个人信息数据和血压观测数据),将数据集变为可以用于机器学习训练模型的目标数据。
异常值点的具体筛选规则:去除用户个人信息数据中年龄不在预定年龄范围内的数据,例如年龄大于110岁和小于10岁的用户;去除身高不在预定身高范围内的数据,例如身高小于120厘米或者大于200厘米的数据;去除体重不再预定体重范围内的数据,例如体重小于20kg或者大于130kg的数据;去除血压不在预定血压范围内的数据,例如低压小于和大于该用户历史血压测量平均值40的观测数据,去除高压小于和大于该用户历史血压测量平均值40的观测数据;去除心率为0的观测数据。
步骤102,从数据库中选取用户的特征,包括年龄、性别和身体质量指数。根据权威医学资料可知:用户年龄越大,血压越高;男性血压普遍略高于女性;身体质量指数(BMI)越高(近似代表越肥胖),血压越高。提取特征包含:用户个人信息数据中的年龄、性别(用0表示女性,1表示男性),并将身高、体重转化为BMI(体重/身高的平方)。
步骤S3,从数据库中选取血压特征,包括不同预测任务下的血压特征,不同预测任务包括长周期、短周期、粗粒度和细粒度等不同精度的预测任务,在不同预测任务下,所选取的血压特征包括高压、低压、心率、服药情况。血压观测数据包括用户高压、低压、心率、服药情况、测量月份信息。在此步骤中,进一步引入了不同的预测任务。例如长周期和短周期预测,分别表示将用户连续6个月或3个月的血压数据作为特征输入,若有当月无测量则用空缺值代替。粗粒度预测时,将2个月或3个月用户血压测量平均值作为特征输入,细粒度预测时,将一个月或半个用户血压测量平均值作为特征输入。
步骤103,对特征数据(包括测量的高压、低压、心率以及用户的BMI、年龄、性别等,即从训练数据中获取的预定时间内的特征数据)及目标数据(即从训练数据中得到的晚于所述预定时间的一段时间的血压值作为目标数据)做归一化处理,将数据的范围控制在0和1之间。归一化处理公式如下:
其中最小值指的是这个特征在数据库中存在的最小的一个值,最大值即是其中最大的一个值。对于月份信息的处理采用one-hot编码,将整型数据展开为0和1的编码,通过1在序列中的位置来表达编码的值,使得12个月份信息都转化成同等的地位。
步骤104,使用支持向量机(SVM)和梯度迭代决策树(GBDT)对处理后的特征数据(包括用户特征和血压测量特征)和目标数据进行回归学***方差函数(least square error),用predict函数将预测标签输出。
为了验证本发明的实施效果,接下来以在真实数据上的实验结果作进一步的说明。具体步骤如下:
步骤201,由于单次血压测量值无法准确描述该用户的血压情况,因为对于一个用户采集一个月的血压平均值整理到数据集中。
步骤202,首先将所述数据集中的原始数据转化为适合训练模型的特征,之后选取出连续六个月有观测数据的用户,这样可以保证用户测量的连续性,提升预测的准确度。例如选用连续七个月份(N-5月到N+1月)有观测记录的用户的数据做训练(例如采用8月份和9月份同时出现的用户做训练),最后一个月N+1月作为训练目标;采用连续七个月份(N-4月到N+2月)有观测记录的用户做测试(例如用9月和10月同时出现的用户做测试),最后一个月N+2月作为测试目标。
步骤S3,SVM实验训练集目标为N+1月的平均低压,将模型输出的预测结果与N+1月的数据进行对比来更新模型参数。我们接下来提取出1)和2)两种策略作为短周期和长周期的典型。具体的训练集特征提取规则如下:
1)N-2-N月:提取用户的身高和体重转化成的BMI(体重/身高的平方)、性别、年龄;N-2,N-1,N月单独的平均高压、低压、心率、服药情况;N-2,N-1,N月每半个月平均高压、低压、心率、服药情况;N-2,N-1,N三月平均高压、低压、心率、服药情况。
2)N-5-N月:提取用户的身高和体重转化成的BMI(体重/身高的平方)、性别、年龄;用户在N-5-N月单月的平均高压、低压、心率、服药情况;N-5-N每半个月平均高压、低压、心率,服药情况;每三个月的平均高压,低压,心率,服药情况。
步骤S4,SVM实验测试集提取规则如下:
1)N-1-N+1月:对应训练集N-2-N月,提取用户的身高和体重转化成的BMI(体重/身高的平方)、性别、年龄;N-1,N,N+1月单独的平均高压、低压、心率,N-1,N,N+1月每半个月平均高压、低压、心率;N-1,N,N+1三月平均高压、低压、心率。
2)N-4-N+1月:对应训练集N-5-N月,将用户的身高和体重转化为BMI(体重/身高的平方)、性别、年龄;用户在N-4-N+1月单月的平均高压、低压、心率、服药;N-4-N+1每半个月平均高压、低压、心率,服药;每三个月的平均高压,低压,心率,服药。
步骤S5,将训练集输入到lib-SVM模型之中,做训练直至模型收敛,优化模型参数。将特征输入到训练好的模型中即可输出预测结果,并与测试集目标比较,得出低压回归的平均误差。
SVM模型构建如下:
首先,定义超平面(w,b)关于训练数据集的函数间隔为:
其中,x是特征数据,y为目标数据;
因此最大间隔分类器目标函数可以定义为:
进一步改写为:
其中,n为样本个数,yi表示第i个样本的目标数据,xi表示第i个样本的特征数据;
之后可以通过拉格朗日算子法将目标函数与限制条件合并,改写成一般的凸优化问题以便于计算。根据这个目标函数可以得到一个最优回归超平面,通过此超平面可以进行预测。
需要在lib-SVM进行相应的设置,通过输入指令来选择合适的支持向量机核函数以及训练设置。-s表示SVM的设置类型,选择4(nu-SVR,regression)为回归模型,-t代表核函数的选择,选择0(linear kernel)为核函数,通过实验证明此设置效果最佳。
lib-SVM可以将训练所得的模型参数存储下来,利用svm_predict函数就可以对测试集进行预测并评价模型性能。步骤S6,GBDT实验采用与SVM实验相同的特征提取规则,重复S3,S4,S5步骤。将训练集特征及目标输入到GBDT模型之中。
采用开源机器学习工具scikit-learn里封装的GBDT工具包来实现GBDT回归,数据只需要用Python从文件中导入并存储成list格式。数据和标签分别对应一个list,相同位置相对应。
GBDT模型构建:
GBDT的核心为决策树(Decision Tree),决策树的总体流程是这样的:树的每一个节点都会得到一个预测值,这个预测值等于属于这个节点的所有特征的平均值。衡量最好的标准是最小化均方差。通过最小化均方差能够找到最靠谱的分枝依据。
梯度迭代(Gradient Boosting)的核心思想是通过迭代多棵树来共同决策。因此,可以得到GBDT的训练方法,即每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得到真实值的累加量。通过这种方法,GBDT可以综合多个决策树的预测并得到更加精确的预测结果。
调用scikit-learn中的GradientBoostingRegressot函数来训练模型,决策树的深度为3层,学习速率设为0.005。通过实验证明此设置效果最佳。训练完成后模型参数会被储存起来,通过调用predict函数就可以利用学出来的模型参数来对测试集进行预测,并评价模型性能。
步骤S7,将血压以10为区间划分得出分级误差,具体分级策略如表1所示。得到SVM与GBDT的实验结果分别如表2、表3所示,实验目标月份为10月。
评价指标说明:
平均误差:所有数据预测值与真实值差值的平均值。
分级误差:所有数据得到分级结果与真实分级结果差值的平均值。
相对准确率:平均预测值/平均真实值
表1血压低压值分类级别
低压值 | 分类级别 |
<80 | 1 |
80-90 | 2 |
90-100 | 3 |
100-110 | 4 |
>110 | 5 |
表2支持向量机(SVM)实验结果
SVM预测用户在2015年10月份的平均低压实验
表3梯度迭代决策树(GBDT)实验结果
GBDT预测用户在2015年10月份的平均低压实验
步骤S8,将表2、3中所得实验结果与拟合数值基础(Baseline)做比较。Baseline为直接用用户9月的低压数据拟合10月的数值,如表4所示。
表4拟合数值基础(Baseline)
月份 | 平均误差 | 平均误差率 | 分级误差 | 样本数 |
10月 | 5.27692 | 0.0638 | 0.43691 | 3012 |
通过表中的实验结果可以得出,与拟合数值基础baseline的比较下,在低压平均误差方面有明显的提升,SVM模型短周期和长周期预测分别提升了10.37%和11.14%;GBDT模型短周期和长周期的预测分别提升了10.75%和11.45%。在分级误差方面,与baseline相比,SVM模型短周期和长周期预测分别提升了2.85%和8.43%;GBDT模型短周期和长周期的预测分别提升了8.43%和10.48%。
以上所述的具体实施例,对本发明的目的、技术方案和效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种数据特征选择和预测方法,该方法包括步骤:
步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
步骤S2、从所述数据集中的用户信息中提取用户特征;
步骤S3、从所述数据集中的血压观测数据提取血压特征;
步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至梯度迭代决策树模型,具体包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第三预定采集时间内的血压特征的平均值,输入至梯度迭代决策树模型中,所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述梯度迭代决策树模型的输出与所述训练集中同一用户在第四预定采集时间内的血压特征进行比较,进而更新所述梯度迭代决策树模型的参数;所述第四预定采集时间晚于所述第三预定采集时间;
迭代执行上述步骤,直至所述梯度迭代决策树的参数收敛,得到第二预测模型。
2.根据权利要求1所述的方法,其特征在于,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率和服药情况。
3.根据权利要求2所述的方法,其特征在于,步骤S3中所述血压特征的提取包括:提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
4.如权利要求1所述的方法,其特征在于,步骤S1中从所述数据集中剔除异常值点,包括:
去除用户的年龄不在预定年龄范围内的用户信息和对应的血压数据;
去除用户的身高不在预定身高范围内的用户信息和对应的血压数据;
去除用户的体重不在预定体重范围内的用户信息和对应的血压数据;
去除用户的血压值不在预定血压范围内的用户信息和对应的血压数据;
去除用户的心率不在预定心率范围内的用户信息和对应的血压数据。
5.一种数据特征选择和预测方法,该方法包括步骤:
步骤S1、采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
步骤S2、从所述数据集中的用户信息中提取用户特征;
步骤S3、从所述数据集中的血压观测数据提取血压特征;
步骤S4、将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和梯度迭代决策树模型之中,训练得到预测模型,具体包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型和梯度迭代决策树模型,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述支持向量机模型和所述梯度迭代决策树模型的输出分别与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而分别更新所述支持向量机模型和所述梯度迭代决策树模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型和所述梯度迭代决策树模型的参数收敛,得到第一预测模型。
6.根据权利要求5所述的方法,其特征在于,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率和服药情况。
7.根据权利要求6所述的方法,其特征在于,步骤S3中所述血压特征的提取包括:提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
8.如权利要求5所述的方法,其特征在于,步骤S1中从所述数据集中剔除异常值点,包括:
去除用户的年龄不在预定年龄范围内的用户信息和对应的血压数据;
去除用户的身高不在预定身高范围内的用户信息和对应的血压数据;
去除用户的体重不在预定体重范围内的用户信息和对应的血压数据;
去除用户的血压值不在预定血压范围内的用户信息和对应的血压数据;
去除用户的心率不在预定心率范围内的用户信息和对应的血压数据。
9.一种数据特征选择和预测装置,其特征在于,包括:
采集模块,用于采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
用户特征提取模块,用于从所述数据集中的用户信息中提取用户特征;
血压特征提取模块,用于从所述数据集中的血压观测数据提取血压特征;
训练模块,用于将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至梯度迭代决策树模型之中,训练得到预测模型,具体包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第三预定采集时间内的血压特征的平均值,输入至梯度迭代决策树模型中,所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述梯度迭代决策树模型的输出与所述训练集中同一用户在第四预定采集时间内的血压特征进行比较,进而更新所述梯度迭代决策树模型的参数;所述第四预定采集时间晚于所述第三预定采集时间;
迭代执行上述步骤,直至所述梯度迭代决策树的参数收敛,得到第二预测模型。
10.根据权利要求9所述的装置,其特征在于,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率。
11.根据权利要求9所述的装置,其特征在于,血压特征提取模块包括:
血压特征提取子模块,用于提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
12.一种数据特征选择和预测装置,其特征在于,包括:
采集模块,用于采集用户信息和对应的血压观测数据,形成数据集,并从所述数据集中剔除异常值点;
用户特征提取模块,用于从所述数据集中的用户信息中提取用户特征;
血压特征提取模块,用于从所述数据集中的血压观测数据提取血压特征;
训练模块,用于将所提取的用户特征和血压特征进行归一化处理,处理结果作为训练样本形成训练集,利用所述训练集中的训练样本输入至支持向量机模型和梯度迭代决策树模型之中,训练得到预测模型,具体包括:
从所述训练集中提取同一用户的用户特征、单月的血压特征的平均值、半月的血压特征的平均值和第一预定采集时间内的血压特征的平均值,输入至支持向量机模型和梯度迭代决策树模型,所述支持向量机模型采用回归模型,所述回归模型的核函数采用线性核;所述梯度迭代决策树模型的损失函数采用为最小平方差函数;
将所述支持向量机模型和所述梯度迭代决策树模型的输出分别与所述训练集中同一用户在第二预定采集时间内的血压特征进行比较,进而分别更新所述支持向量机模型和所述梯度迭代决策树模型的参数;所述第二预定采集时间晚于所述第一预定采集时间;
迭代执行上述步骤,直至所述支持向量机模型和所述梯度迭代决策树模型的参数收敛,得到第一预测模型。
13.根据权利要求12所述的装置,其特征在于,所述用户特征包括用户的年龄、性别和身体质量指数;所述血压特征包括高压、低压、心率。
14.根据权利要求12所述的装置,其特征在于,血压特征提取模块包括:
血压特征提取子模块,用于提取不同预测任务下的血压特征;所述不同预测任务包括长周期、短周期、粗粒度和细粒度预测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611043691.9A CN106777891B (zh) | 2016-11-21 | 2016-11-21 | 一种数据特征选择和预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611043691.9A CN106777891B (zh) | 2016-11-21 | 2016-11-21 | 一种数据特征选择和预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777891A CN106777891A (zh) | 2017-05-31 |
CN106777891B true CN106777891B (zh) | 2019-06-07 |
Family
ID=58974807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611043691.9A Active CN106777891B (zh) | 2016-11-21 | 2016-11-21 | 一种数据特征选择和预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777891B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203700B (zh) * | 2017-07-14 | 2020-05-05 | 清华-伯克利深圳学院筹备办公室 | 一种基于连续血糖监测的方法及装置 |
US11062792B2 (en) | 2017-07-18 | 2021-07-13 | Analytics For Life Inc. | Discovering genomes to use in machine learning techniques |
US11139048B2 (en) | 2017-07-18 | 2021-10-05 | Analytics For Life Inc. | Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions |
CN109285075B (zh) * | 2017-07-19 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种理赔风险评估方法、装置及服务器 |
CN107688872A (zh) * | 2017-08-20 | 2018-02-13 | 平安科技(深圳)有限公司 | 预测模型建立装置、方法及计算机可读存储介质 |
CN107622236B (zh) * | 2017-09-15 | 2020-12-04 | 安徽农业大学 | 基于蜂群与梯度提升决策树算法农作物病害诊断预警方法 |
CN107590741A (zh) * | 2017-09-19 | 2018-01-16 | 广东工业大学 | 一种预测图片流行度的方法及*** |
CN107908819B (zh) * | 2017-10-19 | 2021-05-11 | 深圳和而泰智能控制股份有限公司 | 预测用户状态变化的方法和装置 |
CN109712708B (zh) * | 2017-10-26 | 2020-10-30 | 普天信息技术有限公司 | 一种基于数据挖掘的健康状况预测方法及装置 |
CN107910066A (zh) * | 2017-11-13 | 2018-04-13 | 医渡云(北京)技术有限公司 | 病历评估方法、装置、电子设备及存储介质 |
CN109947811A (zh) * | 2017-11-29 | 2019-06-28 | 北京京东金融科技控股有限公司 | 通用特征库生成方法及装置、存储介质、电子设备 |
CN108197654A (zh) * | 2018-01-03 | 2018-06-22 | 杭州贝嘟科技有限公司 | 基于svm算法的身材数据预测方法、装置、存储介质及设备 |
CN108511057A (zh) * | 2018-02-28 | 2018-09-07 | 北京和兴创联健康科技有限公司 | 输血量模型建立及预测方法、装置、设备及其存储介质 |
CN108509761A (zh) * | 2018-03-26 | 2018-09-07 | 中山大学 | 一种基于梯度提升决策树和特征选择的药物靶标预测方法 |
CN109192315B (zh) * | 2018-06-23 | 2020-10-20 | 重庆大学 | 基于加权核回归和封装式偏差搜索的综合年龄检测*** |
CN109047698B (zh) * | 2018-09-03 | 2021-01-15 | 中冶连铸技术工程有限责任公司 | 一种连铸坯定重定尺在线预测方法 |
CN109299732B (zh) | 2018-09-12 | 2020-05-05 | 北京三快在线科技有限公司 | 无人驾驶行为决策及模型训练的方法、装置及电子设备 |
CN109919196B (zh) * | 2019-02-01 | 2023-12-08 | 华南理工大学 | 一种基于特征选择和分类模型的体质识别方法 |
TWI693062B (zh) * | 2019-04-25 | 2020-05-11 | 緯創資通股份有限公司 | 預估血壓驟降的方法及電子裝置 |
CN110558960A (zh) * | 2019-09-10 | 2019-12-13 | 重庆大学 | 一种基于ptt和miv-ga-svr的连续血压无创监测方法 |
CN111428930A (zh) * | 2020-03-24 | 2020-07-17 | 中电药明数据科技(成都)有限公司 | 一种基于gbdt的药品患者使用人数的预测方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080808A1 (en) * | 2011-09-28 | 2013-03-28 | The Trustees Of Princeton University | Biomedical device for comprehensive and adaptive data-driven patient monitoring |
CN103876734A (zh) * | 2014-03-24 | 2014-06-25 | 北京工业大学 | 一种基于决策树的脑电信号特征选择方法 |
CN104274164A (zh) * | 2013-07-05 | 2015-01-14 | 广州华久信息科技有限公司 | 一种基于人脸图像的血压预测方法及手机 |
-
2016
- 2016-11-21 CN CN201611043691.9A patent/CN106777891B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130080808A1 (en) * | 2011-09-28 | 2013-03-28 | The Trustees Of Princeton University | Biomedical device for comprehensive and adaptive data-driven patient monitoring |
CN104274164A (zh) * | 2013-07-05 | 2015-01-14 | 广州华久信息科技有限公司 | 一种基于人脸图像的血压预测方法及手机 |
CN103876734A (zh) * | 2014-03-24 | 2014-06-25 | 北京工业大学 | 一种基于决策树的脑电信号特征选择方法 |
Non-Patent Citations (1)
Title |
---|
基于支持向量机的特征提取方法研究与应用;蒋琳;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20070615(第06期);论文摘要、第17-36页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106777891A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777891B (zh) | 一种数据特征选择和预测方法及装置 | |
CN106951499B (zh) | 一种基于翻译模型的知识图谱表示方法 | |
CN111967495B (zh) | 一种分类识别模型构建方法 | |
Karthiga et al. | Early prediction of heart disease using decision tree algorithm | |
CN104750819B (zh) | 一种基于词分组排序算法的生物医学文献检索方法及*** | |
CN109948647A (zh) | 一种基于深度残差网络的心电图分类方法及*** | |
CN109344250A (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN106202891A (zh) | 一种面向医疗质量评价的大数据挖掘方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与*** | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
CN113051404B (zh) | 一种基于张量分解的知识推理方法、装置、设备 | |
CN108416373A (zh) | 一种基于正则化Fisher阈值选择策略的不平衡数据分类*** | |
Weitschek et al. | Clinical data mining: problems, pitfalls and solutions | |
CN107766695B (zh) | 一种获取外周血基因模型训练数据的方法及装置 | |
CN102799627A (zh) | 一种基于一阶逻辑和神经网络的数据对应方法 | |
Soni | Chronic disease detection model using machine learning techniques | |
Balamurugan et al. | An integrated approach to performance measurement, analysis, improvements and knowledge management in healthcare sector | |
Azeem et al. | Mobile Big Data Analytics Using Deep Learning and Apache Spark | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及*** | |
CN111666748B (zh) | 一种自动化分类器的构造方法以及识别决策的方法 | |
CN117297606A (zh) | 情绪识别方法和装置、电子设备及存储介质 | |
CN110021386A (zh) | 特征提取方法及特征提取装置、设备、存储介质 | |
CN114048320B (zh) | 一种基于课程学习的多标签国际疾病分类训练方法 | |
CN112686306B (zh) | 基于图神经网络的icd手术分类自动匹配方法及*** | |
Yang et al. | Process mining the trauma resuscitation patient cohorts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |