CN110349673B - 一种基于高斯混合分布的群体体质评估方法 - Google Patents

一种基于高斯混合分布的群体体质评估方法 Download PDF

Info

Publication number
CN110349673B
CN110349673B CN201910570304.4A CN201910570304A CN110349673B CN 110349673 B CN110349673 B CN 110349673B CN 201910570304 A CN201910570304 A CN 201910570304A CN 110349673 B CN110349673 B CN 110349673B
Authority
CN
China
Prior art keywords
data
model
group
distribution
gaussian mixture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910570304.4A
Other languages
English (en)
Other versions
CN110349673A (zh
Inventor
赵宏伟
张宝亮
赵浩宇
范丽丽
胡黄水
李星
姚瑶
张原瑞
王万鹏
刘萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910570304.4A priority Critical patent/CN110349673B/zh
Publication of CN110349673A publication Critical patent/CN110349673A/zh
Application granted granted Critical
Publication of CN110349673B publication Critical patent/CN110349673B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于高斯混合分布的群体体质评估方法,所述方法包括如下步骤:步骤1:将未标记的体育测试数据随机分成若干段作为测试数据与训练数据;步骤2:对步骤1中的各段测试数据与训练数据进行预处理操作;步骤3:使用非监督学习算法提取各组特征数据;步骤4:拟合步骤3得到的各组特征数据,判断混合分布的个数;步骤5:利用EM算法计算各混合分布的权重、均值;步骤6:建立三级评价模型,将步骤4与步骤5的观察和计算结果代入三级评价模型和群体体质评估量化公式中,得出等级和评分结果。本发明完全独立于个体体质评价结果,不需要依靠个体评价的结果,即得出群体体质评估结果。

Description

一种基于高斯混合分布的群体体质评估方法
技术领域
本发明属于体质评估领域,涉及一种体质健康评估方法,具体涉及一种基于高斯混合分布的群体体质评估方法。
背景技术
体质是指人体的质量,是在遗传性和获得性的基础上表现出来的人体形态结构、生理功能、心理因素的综合及相对稳定的特征。体质健康评估一直以来都是健康研究领域的热点话题。体质评估能用科学的指标和方法评价国民体质与健康状况,进而不断改善和增强国民体质。截至目前,关于体质监测、评估***的研究,有很多国内的学者做了大量积极有益的探索与实践.也取得了不错的效果。这些已有研究成果大多是通过前期调研来获得专家知识从而得出各种评价指标及其权重系数,然后利用现成的统计公式或曲线拟合技术对个体体质进行评估。而在最近二十年的公开文献中,评估群体体质健康情况则是对个体评估结果的简单统计。
机器学习是人工智能的一个分支,在很多情况下几乎成为人工智能的代名词。机器学习***用于识别图像中的对象,将语音转录成文本,将新闻条目、帖子或产品与用户的兴趣进行匹配,并选择搜索的相关结果。它也是一种重要的医疗辅助手段,在医疗保健领域具有重要的应用价值。虽然评估模型在其他领域得到了广泛的应用,但复杂数据环境下的群体体质健康评估问题仍然是一个值得而未被深入研究的问题。
发明内容
为了解决现群体体质评估问题,本发明提供了一种基于高斯混合分布的群体体质评估方法。该方法的核心思想是应用卷积神经网络无监督地从原始体育测试数据中自动学习特征,并基于高斯混合分布提出群体体质三级评估模型,将学到的特征送入评估模型得出群体体质评估结果。
本发明的目的是通过以下技术方案实现的:
一种基于高斯混合分布的群体体质评估方法,包括如下步骤:
步骤1:将未标记的体育测试数据随机分成若干段作为测试数据与训练数据;
步骤2:对步骤1中的各段测试数据与训练数据进行预处理操作;
步骤3:将步骤2预处理后的训练数据作为卷积神经网络模型的每次输入,使用非监督学习算法提取各组特征数据;
步骤4:拟合步骤3得到的各组特征数据,判断混合分布的个数;
步骤5:根据步骤3得到的各组特征数据,利用EM算法计算各混合分布的权重、均值;
步骤6:建立三级评价模型,将步骤4与步骤5的观察和计算结果代入三级评价模型和群体体质评估量化公式中,得出等级和评分结果。
相比于现有技术,本发明具有如下优点:
1、本发明完全独立于个体体质评价结果,不需要依靠个体评价的结果,即得出群体体质评估结果。
2、本发明充分考虑了群体体质分布特征,可用于至各地区、各类别人群体质评估,具有全局性、广泛性的特点。
附图说明
图1是本发明基于高斯混合分布的群体体质评估方法的训练流程图;
图2是本发明中特征提取卷积神经网络图;
图3是本发明基于高斯混合分布的群体体质评估方法的测试数据特征分布图;
图4是本发明中测试数据下的两组高斯混合分布拆分图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明考虑到群体体质特征分布情况对群体体质评价有着重要的影响,提出了一种基于高斯混合分布的群体体质评估方法。该方法利用机器学习的方法提出主要由特征的学习和特征的评估两部分组成的体质健康的评估模型,旨在独立于个体评估结果,通过分析群体体质测试数据,建立群体体质健康状态评估模型,从而掌握群体健康状态。如图1所示,所述体质评价方法具体包括以下步骤:
步骤1:将未标记的体育测试数据分成若干段作为训练数据。
将未标记的体育测试数据分成若干段作为训练数据,训练数据将作为卷积神经网络的输入,输入至模型中。依据不同的测试项目,将数据分为7个维度,每个维度上随机抽出1800个数据项作为测试数据,剩下的数据作为训练数据。在这些训练数据中,每次随机抽取1800个数据项作为一个训练输入。
步骤2:为各段数据进行预处理操作。
在特征提取之前,我们需要对数据进行规范化处理。在特征提取中,规范化非常重要。这是因为不同样本可能有多个特征,而不同特征的取值尺度不同。如果不经过规范处理,量纲巨大的差异可能会导致整个模型失效。
在本步骤中,我们采用了7个维度的数据,为维持原始数据的分布特征,我们采用0-1规范化方法:
Figure GDA0003662649060000041
其中,X是输入数据项包括训练数据和测试数据,Xmax为这组数据的最大项,Xmin为这组数据的最小项。本发明中,max取1,min取0。数据规范化公式即可写为:
Figure GDA0003662649060000042
最终将所有数据规范至0-1之间。
步骤3:使用非监督学习算法提取特征信息。
本步骤中,使用了一个由两层卷积神经网络组成的模型,将大量的原始信号转化为约简集特征。如图2所示,卷积神经网络包括两个卷积层、两个激活层、两个池化层。卷积层中,卷积核大小设置为3×1,步长设计为1;激活层采用ReLu激活函数;池化层过滤器设置为2×1,使用最大池化函数。将步骤2的数据作为模型的每次输入,经过卷积层、激活层、池化层后,得到体质数据的特征映射。再结合自编码的思想,通过分析输入数据与重构输入之间的重构误差,反馈调节网络参数,最终可以得到较好的学习特征。步骤3需要进行5000次迭代,当误差趋于零时,即可取出对应的特征列。
步骤4:拟合特征数据,判断高斯混合分布的个数。
本步骤中,需要观察特征数据的混合分布情况。利用Python语言中拟合函数拟合出步骤3得到的特征数据,观察数据分布情况,记录此混合分布的分布个数。
步骤5:利用EM算法计算各混合分布的权重、均值。
本步骤中,利用步骤3得出的各组特征数据计算出对应组中各混合分布的权重、均值。EM算法过程如表1所示:
表1
Figure GDA0003662649060000051
Figure GDA0003662649060000061
步骤6:建立三级评价模型,将步骤5的计算结果代入群体体质评估量化公式,得出等级和评分结果。
步骤6.1:
本步骤建立的三级评价模型如表2所示:
表2
Figure GDA0003662649060000071
Figure GDA0003662649060000081
其中,K为分模型的个数,αmax为K个分模型中最大的权重,μn与μm分别为最大的两个权重分模型所对应的均值。a(0<a<1)是用来描述权重差的阈值,b(0<b<1)是用来描述权重最大的两个分布的距离阈值。本步骤中设置权重差阈值a=0.3,距离阈值b=0.3。将步骤4与步骤5中观察和计算出来的分布个数、权重、均值代入表2,可得出体质评价等级。
当特征表现为一个单高斯模型或多高斯模型且满足不等式αmax-(1-αmax)>α时,评定为A等级;
当特征表现为多高斯模型且满足不等式组
Figure GDA0003662649060000082
时,评定为B等级;
当特征表现为多高斯模型且满足不等式组
Figure GDA0003662649060000083
时,评定为C等级。
步骤6.2:计算评估结果。
依据分布个数、权重、均值,结合本发明中设计的群体体质评估量化公式可计算出所属群体的体质评价结果。群体体质评估量化公式如下:
Figure GDA0003662649060000091
公式中,函数h表示为当输入大于0时,函数值为输入本身,否则函数值为0,其余各项参数与步骤6.1相同。
在实验中,我们利用某高校网站公开的全校(女生)体育测试成绩测试了本方法。并依据中国***最新修订的《国家学生体质健康标准》,我们选取BIM、肺活量、立定跳远、坐位体前屈、50米跑、800米跑、一分钟仰卧起坐作为七项测试项目,得出各项特征概率分布图,如图3所示。
从此概率分布图可知,特征基本服从高斯分布。但是一些特征的概率分布不是服从单高斯分布,而是服从混合高斯分布,依据步骤6.1中建立的三级评价模型,利用群体体质评估量化公式得出结果,如表3所示。
表3
Figure GDA0003662649060000092
最后可将BIM与肺活量的高斯混合分布图拆分为单高斯分布图,如图4所示。

Claims (6)

1.一种基于高斯混合分布的群体体质评估方法,其特征在于所述方法包括如下步骤:
步骤1:将未标记的体育测试数据随机分成若干段作为测试数据与训练数据;
步骤2:对步骤1中的各段测试数据与训练数据进行预处理操作;
步骤3:将步骤2预处理后的训练数据作为卷积神经网络模型的每次输入,使用非监督学习算法提取各组特征数据;
步骤4:拟合步骤3得到的各组特征数据,判断混合分布的个数;
步骤5:根据步骤3得到的各组特征数据,利用EM算法计算各混合分布的权重、均值;
步骤6:建立三级评价模型,将步骤4与步骤5的观察和计算结果代入三级评价模型和群体体质评估量化公式中,得出等级和评分结果,三级评价模型包括A等级、B等级和C等级,其中:
A等级满足以下条件之一:
①特征表现为一个单高斯模型,K=1;
②特征表现为混合高斯模型,K>=2,且满足:
αmax-(1-αmax)>a;
B等级特征表现为多高斯模型,K>=2,且满足不等式组:
Figure FDA0003662649050000011
C等级特征表现为多高斯模型,K>=2,且满足不等式组:
Figure FDA0003662649050000021
式中,K为分模型的个数,αmax为K个分模型中最大的权重,μn与μm分别为最大的两个权重分模型所对应的均值,a用来描述权重差的阈值,b用来描述权重最大的两个分布的距离阈值,群体体质评估量化公式定义为:
Figure FDA0003662649050000022
式中,K为分模型的个数,αmax为K个分模型中最大的权重,μn与μm分别为最大的两个权重分模型所对应的均值,a用来描述权重差的阈值,b用来描述权重最大的两个分布的距离阈值,函数h表示为当输入大于0时,函数值为输入本身,否则函数值为0。
2.根据权利要求1所述的基于高斯混合分布的群体体质评估方法,其特征在于所述步骤1中,测试数据与训练数据的每组数据包括1800个数据项。
3.根据权利要求1所述的基于高斯混合分布的群体体质评估方法,其特征在于所述步骤2中,采用0-1规范化方法对各段测试数据与训练数据进行预处理操作,其中:数据规范化公式为:
Figure FDA0003662649050000023
式中,X是输入数据项,Xmax为这组数据的最大项,Xmin为这组数据的最小项。
4.根据权利要求1所述的基于高斯混合分布的群体体质评估方法,其特征在于所述步骤3中,卷积神经网络包括两个卷积层、两个激活层、两个池化层,其中:卷积层中,卷积核大小设置为3×1,步长设计为1;激活层采用ReLu激活函数;池化层过滤器设置为2×1,使用最大池化函数。
5.根据权利要求1所述的基于高斯混合分布的群体体质评估方法,其特征在于所述步骤4中,利用Python拟合函数拟合出步骤3得到的各组特征数据,观察数据分布情况,记录此混合分布的分布个数。
6.根据权利要求1所述的基于高斯混合分布的群体体质评估方法,其特征在于所述步骤5中,EM算法的E步为:
依据当前模型参数,计算分模型k对观测数据yi的响应度,公式如下:
Figure FDA0003662649050000031
其中,αk是系数,αk≥0,
Figure FDA0003662649050000032
φ(yik)是高斯分布密度,
Figure FDA0003662649050000033
μk是第k个分模型的均差,
Figure FDA0003662649050000034
是第k个分模型的方差;
EM算法的M步为:
计算新一轮迭代的模型参数,公式如下所示:
Figure FDA0003662649050000035
Figure FDA0003662649050000041
Figure FDA0003662649050000042
其中,
Figure FDA0003662649050000043
是新一轮迭代模型中的均值;
Figure FDA0003662649050000044
是新一轮迭代模型中的方差;
Figure FDA0003662649050000045
是新一轮迭代模型中的权重;
Figure FDA0003662649050000046
是模型k对观测数据yi的响应度,N是观测数据的总数。
CN201910570304.4A 2019-06-27 2019-06-27 一种基于高斯混合分布的群体体质评估方法 Expired - Fee Related CN110349673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570304.4A CN110349673B (zh) 2019-06-27 2019-06-27 一种基于高斯混合分布的群体体质评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570304.4A CN110349673B (zh) 2019-06-27 2019-06-27 一种基于高斯混合分布的群体体质评估方法

Publications (2)

Publication Number Publication Date
CN110349673A CN110349673A (zh) 2019-10-18
CN110349673B true CN110349673B (zh) 2022-08-05

Family

ID=68177158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570304.4A Expired - Fee Related CN110349673B (zh) 2019-06-27 2019-06-27 一种基于高斯混合分布的群体体质评估方法

Country Status (1)

Country Link
CN (1) CN110349673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114436B (zh) * 2023-07-27 2024-07-09 中冶建筑研究总院有限公司 一种基于实测数据的既有预应力混凝土构件性能评价方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745122A (zh) * 2014-01-23 2014-04-23 山东农业大学 ***处方的计算机处理方法
CN104391987A (zh) * 2014-12-13 2015-03-04 吉林大学 基于移动平台下大规模目标识别的方法
CN104504296A (zh) * 2015-01-16 2015-04-08 湖南科技大学 高斯混合隐马尔可夫模型和回归分析的剩余寿命预测方法
CN105338343A (zh) * 2015-10-20 2016-02-17 北京理工大学 一种基于双目感知的无参考立体图像质量评价方法
CN105956392A (zh) * 2016-04-28 2016-09-21 南京师范大学 一种学生体质健康评价管理***及方法
CN107832716A (zh) * 2017-11-15 2018-03-23 中国科学技术大学 基于主动被动高斯在线学习的异常检测方法
CN108038300A (zh) * 2017-12-07 2018-05-15 长春理工大学 基于改进的隶属度函数结合神经网络的光纤状态评估方法
CN108172297A (zh) * 2018-01-29 2018-06-15 广东工业大学 一种上肢康复训练机器人康复训练功能的评估方法
CN108563806A (zh) * 2018-01-05 2018-09-21 哈尔滨工业大学(威海) 基于相似性的发动机气路参数长期预测方法及***
CN109101738A (zh) * 2018-08-24 2018-12-28 河北工业大学 一种igbt模块老化程度评估方法
CN109583500A (zh) * 2018-11-30 2019-04-05 中共中央办公厅电子科技学院 一种基于深度漂移-扩散方法的美学图像质量预测***及方法
CN109710763A (zh) * 2018-12-27 2019-05-03 郑州云海信息技术有限公司 一种文本数据的分类方法、装置以及***
CN109859110A (zh) * 2018-11-19 2019-06-07 华南理工大学 基于光谱维控制卷积神经网络的高光谱图像全色锐化方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745122A (zh) * 2014-01-23 2014-04-23 山东农业大学 ***处方的计算机处理方法
CN104391987A (zh) * 2014-12-13 2015-03-04 吉林大学 基于移动平台下大规模目标识别的方法
CN104504296A (zh) * 2015-01-16 2015-04-08 湖南科技大学 高斯混合隐马尔可夫模型和回归分析的剩余寿命预测方法
CN105338343A (zh) * 2015-10-20 2016-02-17 北京理工大学 一种基于双目感知的无参考立体图像质量评价方法
CN105956392A (zh) * 2016-04-28 2016-09-21 南京师范大学 一种学生体质健康评价管理***及方法
CN107832716A (zh) * 2017-11-15 2018-03-23 中国科学技术大学 基于主动被动高斯在线学习的异常检测方法
CN108038300A (zh) * 2017-12-07 2018-05-15 长春理工大学 基于改进的隶属度函数结合神经网络的光纤状态评估方法
CN108563806A (zh) * 2018-01-05 2018-09-21 哈尔滨工业大学(威海) 基于相似性的发动机气路参数长期预测方法及***
CN108172297A (zh) * 2018-01-29 2018-06-15 广东工业大学 一种上肢康复训练机器人康复训练功能的评估方法
CN109101738A (zh) * 2018-08-24 2018-12-28 河北工业大学 一种igbt模块老化程度评估方法
CN109859110A (zh) * 2018-11-19 2019-06-07 华南理工大学 基于光谱维控制卷积神经网络的高光谱图像全色锐化方法
CN109583500A (zh) * 2018-11-30 2019-04-05 中共中央办公厅电子科技学院 一种基于深度漂移-扩散方法的美学图像质量预测***及方法
CN109710763A (zh) * 2018-12-27 2019-05-03 郑州云海信息技术有限公司 一种文本数据的分类方法、装置以及***

Also Published As

Publication number Publication date
CN110349673A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN110781298B (zh) 药品分类方法、装置、计算机设备及存储介质
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN109620152B (zh) 一种基于MutiFacolLoss-Densenet的心电信号分类方法
CN109165692B (zh) 一种基于弱监督学习的用户性格预测装置及方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109657011A (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘方法及***
CN104636580A (zh) 一种基于人脸的健康监控手机
CN109994201B (zh) 一种基于深度学习的糖尿病与高血压概率计算***
CN112784856A (zh) 胸部x射线图像的通道注意力特征提取方法和识别方法
CN108567418A (zh) 一种基于PCANet的脉搏信号亚健康检测方法及检测***
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN110751216A (zh) 一种基于改进卷积神经网络的裁判文书行业分类方法
CN116701871A (zh) 基于因果特征加权网络的滚动轴承复合故障特征选择方法
CN110349673B (zh) 一种基于高斯混合分布的群体体质评估方法
CN111312394A (zh) 一种基于组合情感的心理健康状况评估***及其处理方法
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
Choudhury et al. Enhanced complex human activity recognition system: A proficient deep learning framework exploiting physiological sensors and feature learning
CN112466284B (zh) 一种口罩语音鉴别方法
CN113796873A (zh) 穿戴式动态心电信号分类方法及***
CN113255789A (zh) 基于对抗网络和多被试脑电信号的视频质量评价方法
Hu et al. Automatic heart sound classification using one dimension deep neural network
Peng et al. The effect of pets on happiness: A large-scale multi-factor analysis using social multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220805

CF01 Termination of patent right due to non-payment of annual fee