CN111161879B - 一种基于大数据的疾病预测*** - Google Patents

一种基于大数据的疾病预测*** Download PDF

Info

Publication number
CN111161879B
CN111161879B CN202010112710.9A CN202010112710A CN111161879B CN 111161879 B CN111161879 B CN 111161879B CN 202010112710 A CN202010112710 A CN 202010112710A CN 111161879 B CN111161879 B CN 111161879B
Authority
CN
China
Prior art keywords
sample data
data
cluster
sample
disease prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010112710.9A
Other languages
English (en)
Other versions
CN111161879A (zh
Inventor
王奔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuzheng Intelligent Technology (Beijing) Co.,Ltd.
Original Assignee
Wuzheng Intelligent Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuzheng Intelligent Technology Beijing Co ltd filed Critical Wuzheng Intelligent Technology Beijing Co ltd
Priority to CN202010850524.5A priority Critical patent/CN111986811B/zh
Priority to CN202010112710.9A priority patent/CN111161879B/zh
Publication of CN111161879A publication Critical patent/CN111161879A/zh
Application granted granted Critical
Publication of CN111161879B publication Critical patent/CN111161879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于大数据的疾病预测***,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块用于获取人体生理参数样本数据和患者的生理参数数据,所述数据处理模块分别对获取的样本数据和患者的生理参数数据进行处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示预测结果。本发明创造的有益效果:将大数据技术结合支持向量机应用于疾病预测中,提高了疾病预测的精度。

Description

一种基于大数据的疾病预测***
技术领域
本发明创造涉及疾病预测领域,具体涉及一种基于大数据的疾病预测***。
背景技术
人体的生理参数数据反应了人体的身体状况,如果能够对获取的生理参数进行有效的分析,就能够更加准确地对疾病进行预测,但是这些生理参数数据的范围较大,涉及的专业领域也较多,如果单纯的通过医生对这些生理参数数据进行分析,不仅要耗费医生大量的精力,还会出现准确率较低的情况。为了使患者对自身的人体状况更加的了解,使医生更加准确地对疾病进行诊断,将大数据技术应用于疾病预测***中,让其多维化、准确化的处理人体生理参数数据,从而实现了疾病的有效预测。
发明内容
针对上述问题,本发明旨在提供一种基于大数据的疾病预测***。
本发明创造的目的通过以下技术方案实现:
一种基于大数据的疾病预测***,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第二数据处理单元用于对采集的患者的生理参数数据进行平滑处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
本发明创造的有益效果:本发明将大数据技术结合支持向量机应用于疾病预测中,采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机学习的复杂性和过拟合;采用粒子群算法对支持向量机的参数进行优化,提高了支持向量机的预测精度。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种基于大数据的疾病预测***,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第二数据处理单元用于对采集的患者的生理参数数据进行平滑处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
本优选实施例将大数据技术结合支持向量机应用于疾病预测中,采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机学习的复杂性和过拟合;采用粒子群算法对支持向量机的参数进行优化,提高了支持向量机的预测精度。
优选地,所述第一数据处理单元采用K均值聚类算法将收集的人体生理参数样本数据划分为L个样本子集,设收集的人体生理参数样本数据组成的样本集为X,且X={X1,X2,…,Xn},其中,n为样本数,Xi为样本集X中的第i个样本数据,设Ω(Xi,Ri)为样本数据Xi的有效局部邻域,其中,Ri表示样本数据Xi的有效局部邻域半径,Ω(Xi,Ri)为以样本数据Xi为球心,以Ri为半径的球形区域,采用迭代的方式确定样本数据Xi的有效局部邻域半径Ri的值:
设ri(t)表示第t次迭代时样本数据Xi的局部邻域半径,令ri(t)以步长1进行迭代增加,且样本数据Xi的初始邻域半径
Figure GDA0002619252320000021
其中,Xj表示样本集X中的第j个数据,每一次迭代后,对样本数据Xi进行检测,定义样本数据Xi在局部邻域Ω(Xi,ri(t))中的邻域检测系数为P(ri(t)),且P(ri(t))的表达式为:
Figure GDA0002619252320000031
其中,Xg表示局部邻域Ω(Xi,ri(t))中的第g个样本数据,Xa和Xb分别表示样本集X中的第a和第b个样本数据,Ω(Xi,ri(t))表示以样本数据Xi为球心,以ri(t)为半径的球形区域;X(max)表示样本集X中的样本数据的最大值,
Figure GDA0002619252320000032
表示局部邻域Ω(Xi,ri(t))中样本数据的平均值,M(Xi,ri(t))表示局部邻域Ω(Xi,ri(t))中的样本数据个数:
给定邻域检测阈值T(ri(t)),且
Figure GDA0002619252320000033
其中,P(ri(j′))表示样本数据Xi在局部邻域Ω(Xi,ri(j′))中的邻域检测系数,ri(j′)表示第j′次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j′))表示以样本数据Xi为球心,以ri(j′)为半径的球形区域,P(ri(j′-1))表示样本数据Xi在局部邻域Ω(Xi,ri(j′-1))中的邻域检测系数,ri(j′-1)表示第(j′-1)次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j′-1))表示以样本数据Xi为球心,以ri(j′-1)为半径的球形区域;
当样本数据Xi在第t次迭代时的邻域检测系数P(ri(t))满足:
Figure GDA0002619252320000034
Figure GDA0002619252320000035
时,令Ri=ri(t),其中,ri(t+1)表示第(t+1)次迭代时样本数据Xi的局部邻域半径,P(ri(t+1))表示样本数据Xi在局部邻域Ω(Xi,ri(t+1))中的邻域检测系数,Ω(Xi,ri(t+1))为以样本数据Xi为球心,以ri(t+1)为半径的球形区域。
本优选实施例采用K均值聚类算法将样本集划分为具有不同聚类中心的样本子集,采用样本子集分别对支持向量机进行训练,避免了由于人体生理参数样本数据的复杂性,而造成的支持向量机训练过程的复杂性和过拟合;在采用K均值聚类算法进行聚类时,首先在样本集X中选取L个聚类中心,在考虑样本数据集中的样本数据是否担任聚类中心时,为了减小噪声样本数据对聚类中心选取结果的影响,本优选实施例通过综合考虑样本数据和其局部邻域中的样本数据确定该样本数据是否担任聚类中心,在传统的方式中,对样本集中的所有样本数据都采用统一大小的局部邻域半径,容易造成和样本数据并不属于同一类的邻域样本数据也被归于所述样本数据的局部邻域中,这样选取的聚类中心会影响聚类结果的准确性,针对上述情况,本优选实施例通过定义邻域检测系数对样本数据和其局部邻域内的邻域样本数据进行检测,从而确定所述样本数据的有效局部邻域半径,保证了样本数据和其有效局部邻域内的邻域样本数据属性的统一性,为选取有效的聚类中心奠定了基础。
优选地,在样本集X中选取L个聚类中心,具体包括:
(1)选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心l1
(2)在样本集中剩余的样本数据中选取剩余的(L-1)个聚类中心,定义样本数据Xi的信息值为Q(i),则Q(i)的表达式为:
Figure GDA0002619252320000041
式中,P(Ri)表示样本数据Xi在有效局部邻域Ω(Xi,Ri)中的邻域检测系数,P(Ri+1)表示样本数据Xi在局部邻域Ω(Xi,Ri+1)中的邻域检测系数,Ω(Xi,Ri+1)表示以样本数据Xi为球心,以(Ri+1)为半径的球形区域,M(Xi,Ri)表示有效局部邻域Ω(Xi,Ri)中样本数据的个数,Xs表示有效局部邻域Ω(Xi,Ri)中的第s个数据,lj″表示第j″个聚类中心,l表示当前已选取的聚类中心数,Rj″表示聚类中心lj″的有效局部邻域半径,Ω(lj″,Rj″)表示以聚类中心lj″为球心、以Rj″为半径的球形区域,Xk为有效局部区域Ω(lj″,Rj″)中的第k个数据,M(lj″,Rj″)表示有效局部邻域Ω(lj″,Rj″)中样本数据的个数;
计算样本集X中未选取为聚类中心的样本数据的信息值,选取信息值最大的样本数据为第二个聚类中心l2
(3)重复步骤(2)中的选取方式,直到选取了L个聚类中心后停止。
本优选实施例用于在样本集中选取聚类中心,选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心,通过定义样本数据的信息值进行剩余聚类中心的选取,在计算样本数据的信息值时,综合引入了样本数据的有效局部邻域中邻域样本数据的个数,样本数据和其有效局部邻域的***样本数据之间的分离性,以及样本数据和已选取的聚类中心之间的分离性,保证了选取的聚类中心具有较高的数据密度以及和其他聚类中心之间具有较高的分离性,从而提高了聚类结果的准确性。
优选地,所述疾病预测构建模块采用聚类所得的样本子集分别对支持向量机进行训练,并采用粒子群算法对支持向量机的惩罚参数和核函数参数进行优化,所述核函数采用的是径向基函数,设Cj″′(j″′=1,2,…,L)表示第一数据处理单元聚类所得的第j″′个样本子集,且Cj″′={Xj″′(i′),i′=1,2,…,M(Cj″′)},其中,Xj″′(i′)表示样本子集Cj″′中的第i′个样本数据,M(Cj″′)表示样本子集Cj″′中的样本数据个数,设Cj″′组成的训练样本集为A,且A={(Xj″′(i′),Qj″′(i′)),i′=1,2,…,M(Cj″′)},设Y={Yj″′(i′),i′=1,2,…,M(Cj″′)}为训练样本集A在支持向量机中的实际输出,定义粒子群算法的适应度函数f的表达式为:
Figure GDA0002619252320000051
式中,Qj″′(i′)为样本数据Xj″′(i′)在支持向量机中的期望输出,Yj″′(i′)为样本数据Xj″′(i′)在支持向量机中的实际输出。
本优选实施例设置均方误差MSE为粒子群算法的适应度函数,适应度函数值越小,表明粒子的寻优结果越好。
优选地,设粒子群的规模为N,在粒子群中随机选取NA个粒子组成集群A,粒子群中剩余的的粒子组成集群B,设NB表示集群B中的粒子数,NA+NB=N,且0<NA<NB;设置集群A中的粒子采用下式决定下一代的位置:
Figure GDA0002619252320000052
式中,
Figure GDA0002619252320000053
表示集群A中粒子i″在(t′+1)时刻的位置,
Figure GDA0002619252320000054
表示集群A中粒子i″在t′时刻的位置,
Figure GDA0002619252320000055
表示生成服从均值为0,标准差为
Figure GDA0002619252320000056
的正态分布的随机数,设fm(t′)表示在t′时刻粒子群中粒子适应度值的中值,
Figure GDA0002619252320000057
表示集群A中粒子i″在t′时刻的位置
Figure GDA0002619252320000058
对应的适应度值,当
Figure GDA0002619252320000059
时,
Figure GDA00026192523200000510
Figure GDA00026192523200000511
fm(t′)时,
Figure GDA00026192523200000512
所述疾病预测构建模块设置寻优检测单元,用于在粒子群算法的每一次迭代后对集群B中的粒子进行检测,定义集群B中粒子i″′在t′时刻的检测系数为
Figure GDA00026192523200000513
Figure GDA00026192523200000514
的表达式为:
Figure GDA0002619252320000061
式中,
Figure GDA0002619252320000062
表示集群B中粒子i″′在t′时刻的位置
Figure GDA0002619252320000063
对应的适应度值,
Figure GDA0002619252320000064
表示集群B中粒子j″″在t′时刻的位置
Figure GDA0002619252320000065
对应的适应度值,f(gB(t′))表示集群B中粒子在t′时刻的全局最优位置gB(t′)对应的适应度值,f(gA(t′))表示集群A中粒子在t′时刻的全局最优位置gA(t′)对应的适应度值;
当f(gA(t′))≥f(gB(t′))或{(f(gA(t′))<f(gB(t′)))且
Figure GDA0002619252320000066
时,其中,
Figure GDA0002619252320000067
为给定的检测阈值,且
Figure GDA0002619252320000068
集群B中的粒子i″′采用下式决定下一代的位置:
Figure GDA0002619252320000069
Figure GDA00026192523200000610
式中,
Figure GDA00026192523200000611
Figure GDA00026192523200000612
分别表示集群B中粒子i″′在t′时刻的位置和速度,
Figure GDA00026192523200000613
Figure GDA00026192523200000614
分别表示集群B中粒子i″′在(t′+1)时刻的位置和速度,
Figure GDA00026192523200000615
表示集群B中粒子i″′在t′时刻的个体最优位置,gB(t′)表示集群B中粒子在t′时刻的全局最优位置,c1和c2为学习因子,且c1和c2的值均取2,rand()为(0,1)之间的随机数,ω为惯性权重因子;
当f(gA(t′))<f(gB(t′))且
Figure GDA00026192523200000620
时,集群B中的粒子i″′采用下式决定下一代的位置:
Figure GDA00026192523200000616
Figure GDA00026192523200000617
式中,
Figure GDA00026192523200000618
为随机从集群A中选取的适应度值小于
Figure GDA00026192523200000619
的粒子j″″在t′时刻的位置。
本优选实施例采用粒子群算法对支持向量机的参数进行优化,能够有效的提高支持向量机的预测精度;在所述粒子群的寻优过程中,将粒子群分为集群A和集群B,集群A中的粒子具有较高的全局搜索能力,设置的粒子决定下一代位置的公式中,通过引入
Figure GDA0002619252320000071
从而生成服从均值为0,标准差为
Figure GDA0002619252320000072
的正态分布的随机数对粒子的位置进行更新,将集群A中的粒子和粒子群中粒子的适应度中值进行比较,从而判断其当前位置的好坏,集群A中的粒子当前的位置越差,其对应的标准差
Figure GDA0002619252320000073
的值越小,即增加随机数的选取范围,使得集群A中的粒子在下一代时远离当前的较差位置,从而增加了粒子的多样性,提高了粒子群的全局搜索能力;设置寻优检测单元,用于在粒子群每一次迭代后对集群B中的粒子进行检测,当集群B中的全局最优位置优于集群A中的全局最优位置时,集群B中的粒子保持传统的方式决定下一代的位置,当集群A中的全局最优位置优于集群B中的全局最优位置时,在集群B中选取部分粒子向集群A的全局最优位置的方向进行搜索,根据定义的检测系数在集群B中选取向集群A的全局最优位置学***衡了粒子群算法的全局搜索能量和局部开发能力,避免了粒子群算法易陷入局部最优的缺陷。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (3)

1.一种基于大数据的疾病预测***,其特征是,包括数据获取模块、数据处理模块、疾病预测构建模块、疾病预测模块和信息显示模块,所述数据获取模块包括样本数据获取单元和人体数据采集单元,所述样本数据获取单元用于收集人体生理参数样本数据,所述人体数据采集单元用于采集患者的生理参数数据,所述数据处理模块包括第一数据处理单元和第二数据处理单元,所述第一数据处理单元用于对收集的人体生理参数样本数据进行处理,所述第一数据处理单元采用K均值聚类算法将收集的人体生理参数样本数据划分为L个样本子集,设收集的人体生理参数样本数据组成的样本集为X,且X={X1,X2,...,Xn},其中,n为样本数,Xi为样本集X中的第i个样本数据,设Ω(Xi,Ri)为样本数据Xi的有效局部邻域,其中,Ri表示样本数据Xi的有效局部邻域半径,Ω(Xi,Ri)为以样本数据Xi为球心,以Ri为半径的球形区域,采用迭代的方式确定样本数据Xi的有效局部邻域半径Ri的值:
设ri(t)表示第t次迭代时样本数据Xi的局部邻域半径,令ri(t)以步长1进行迭代增加,且样本数据Xi的初始邻域半径
Figure FDA0002619252310000011
其中,Xj表示样本集X中的第j个数据,每一次迭代后,对样本数据Xi进行检测,定义样本数据Xi在局部邻域Ω(Xi,ri(t))中的邻域检测系数为P(ri(t)),且P(ri(t))的表达式为:
Figure FDA0002619252310000012
其中,Xg表示局部邻域Ω(Xi,ri(t))中的第g个样本数据,Xa和Xb分别表示样本集X中的第a和第b个样本数据,Ω(Xi,ri(t))表示以样本数据Xi为球心,以ri(t)为半径的球形区域,X(max)表示样本集X中的样本数据的最大值,
Figure FDA0002619252310000013
表示局部邻域Ω(Xi,ri(t))中样本数据的平均值,M(Xi,ri(t))表示局部邻域Ω(Xi,ri(t))中的样本数据个数:
给定邻域检测阈值T(ri(t)),且
Figure FDA0002619252310000014
其中,P(ri(j′))表示样本数据Xi在局部邻域Ω(Xi,ri(j′))中的邻域检测系数,ri(j′)表示第j′次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j′))表示以样本数据Xi为球心,以ri(j′)为半径的球形区域,P(ri(j′-1))表示样本数据Xi在局部邻域Ω(Xi,ri(j′-1))中的邻域检测系数,ri(j′-1)表示第(j′-1)次迭代时样本数据Xi的局部邻域半径,Ω(Xi,ri(j′-1))表示以样本数据Xi为球心,以ri(j′-1)为半径的球形区域;
当样本数据Xi在第t次迭代时的邻域检测系数P(ri(t))满足:
Figure FDA0002619252310000021
Figure FDA0002619252310000022
时,令Ri=ri(t),其中,ri(t+1)表示第(t+1)次迭代时样本数据Xi的局部邻域半径,P(ri(t+1))表示样本数据Xi在局部邻域Ω(Xi,ri(t+1))中的邻域检测系数,Ω(Xi,ri(t+1))为以样本数据Xi为球心,以ri(t+1)为半径的球形区域;在样本集X中选取L个聚类中心,具体包括:
(1)选取样本数据的有效局部邻域中拥有样本数据个数最多的样本数据为第一个聚类中心l1
(2)在样本集X的剩余的样本数据中选取剩余的(L-1)个聚类中心,定义样本数据Xi的信息值为Q(i),则Q(i)的表达式为:
Figure FDA0002619252310000023
式中,P(Ri)表示样本数据Xi在有效局部邻域Ω(Xi,Ri)中的邻域检测系数,P(Ri+1)表示样本数据Xi在局部邻域Ω(Xi,Ri+1)中的邻域检测系数,Ω(Xi,Ri+1)表示以样本数据Xi为球心,以(Ri+1)为半径的球形区域,M(Xi,Ri)表示有效局部邻域Ω(Xi,Ri)中样本数据的个数,Xs表示有效局部邻域Ω(Xi,Ri)中的第s个数据,lj″表示第j″个聚类中心,l表示当前已选取的聚类中心数,Rj″表示聚类中心lj″的有效局部邻域半径,Ω(lj″,Rj″)表示以聚类中心lj″为球心、以Rj″为半径的球形区域,Xk为有效局部区域Ω(lj″,Rj″)中的第k个数据,M(lj″,Rj″)表示有效局部邻域Ω(lj″,Rj″)中样本数据的个数;
计算样本集X中未选取为聚类中心的样本数据的信息值,选取信息值最大的样本数据为第二个聚类中心l2
(3)重复步骤(2)中的选取方式,直到选取了L个聚类中心后停止;所述第二数据处理单元用于对采集的患者的生理参数数据进行处理,所述疾病预测构建模块采用处理后的人体生理参数样本数据对支持向量机进行训练,获得用于根据人体的生理参数数据进行疾病预测的支持向量机模型,所述疾病预测模块采用构建的支持向量机模型根据处理后的患者的生理参数数据进行疾病预测,所述信息显示模块用于显示疾病预测模块的预测结果。
2.根据权利要求1所述的一种基于大数据的疾病预测***,其特征是,所述疾病预测构建模块采用聚类所得的样本子集分别对支持向量机进行训练,并采用粒子群算法对支持向量机的惩罚参数和核函数参数进行优化,设Cj″′(j″′=1,2,...,L)表示第一数据处理单元聚类所得的第j″′个样本子集,且Cj″′={Xj″′(i′),i′=1,2,...,M(Cj″′)},其中,Xj″′(i′)表示样本子集Cj″′中的第i′个样本数据,M(Cj″′)表示样本子集Cj″′中的样本数据个数,设样本子集Cj″′组成的训练样本集为A,且A={(Xj″′(i′),Qj″′(i′)),i′=1,2,...,M(Cj″′)},设Y={Yj″′(i′),i′=1,2,...,M(Cj″′)}为训练样本集A在支持向量机中的实际输出,定义粒子群算法的适应度函数f的表达式为:
Figure FDA0002619252310000031
式中,Qj″′(i′)为样本数据Xj″′(i′)在支持向量机中的期望输出,Yj″′(i′)为样本数据Xj″′(i′)在支持向量机中的实际输出。
3.根据权利要求2所述的一种基于大数据的疾病预测***,其特征是,设粒子群的规模为N,在粒子群中随机选取NA个粒子组成集群A,粒子群中剩余的的粒子组成集群B,设NB表示集群B中的粒子数,NA+NB=N,且0<NA<NB;设置集群A中的粒子采用下式决定下一代的位置:
Figure FDA0002619252310000032
式中,
Figure FDA0002619252310000033
表示集群A中粒子i″在(t′+1)时刻的位置,
Figure FDA0002619252310000034
表示集群A中粒子i″在t′时刻的位置,
Figure FDA0002619252310000035
表示生成服从均值为0,标准差为
Figure FDA0002619252310000036
的正态分布的随机数,设fm(t′)表示在t′时刻粒子群中粒子适应度值的中值,
Figure FDA0002619252310000037
表示集群A中粒子i″在t′时刻的位置
Figure FDA0002619252310000038
对应的适应度值,当
Figure FDA0002619252310000039
时,
Figure FDA00026192523100000310
Figure FDA00026192523100000311
Figure FDA00026192523100000312
时,
Figure FDA00026192523100000313
所述疾病预测构建模块设置寻优检测单元,用于在粒子群算法的每一次迭代后对集群B中的粒子进行检测,定义集群B中粒子i″′在t′时刻的检测系数为
Figure FDA00026192523100000315
的表达式为:
Figure FDA0002619252310000041
式中,
Figure FDA0002619252310000042
表示集群B中粒子i″′在t′时刻的位置
Figure FDA0002619252310000043
对应的适应度值,
Figure FDA0002619252310000044
表示集群B中粒子j″″在t′时刻的位置
Figure FDA0002619252310000045
对应的适应度值,f(gB(t′))表示集群B中粒子在t′时刻的全局最优位置gB(t′)对应的适应度值,f(gA(t′))表示集群A中粒子在t′时刻的全局最优位置gA(t′)对应的适应度值;
当f(gA(t′))≥f(gB(t′))或
Figure FDA0002619252310000046
时,其中,
Figure FDA0002619252310000047
为给定的检测阈值,且
Figure FDA0002619252310000048
集群B中的粒子i″′采用下式决定下一代的位置:
Figure FDA0002619252310000049
Figure FDA00026192523100000410
式中,
Figure FDA00026192523100000411
Figure FDA00026192523100000412
分别表示集群B中粒子i″′在t′时刻的位置和速度,
Figure FDA00026192523100000413
Figure FDA00026192523100000414
分别表示集群B中粒子i″′在(t′+1)时刻的位置和速度,
Figure FDA00026192523100000415
表示集群B中粒子i″′在t′时刻的个体最优位置,gB(t′)表示集群B中粒子在t′时刻的全局最优位置,c1和c2为学习因子,且c1和c2的值均取2,rand()为(0,1)之间的随机数,ω为惯性权重因子;
当f(gA(t′))<f(gB(t′))且
Figure FDA00026192523100000416
时,集群B中的粒子i″′采用下式决定下一代的位置:
Figure FDA00026192523100000417
Figure FDA00026192523100000418
式中,
Figure FDA00026192523100000419
为随机从集群A中选取的适应度值小于
Figure FDA00026192523100000420
的粒子j″″在t′时刻的位置。
CN202010112710.9A 2020-02-24 2020-02-24 一种基于大数据的疾病预测*** Active CN111161879B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010850524.5A CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测***
CN202010112710.9A CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010112710.9A CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测***

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010850524.5A Division CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测***

Publications (2)

Publication Number Publication Date
CN111161879A CN111161879A (zh) 2020-05-15
CN111161879B true CN111161879B (zh) 2020-10-09

Family

ID=70566367

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010850524.5A Active CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测***
CN202010112710.9A Active CN111161879B (zh) 2020-02-24 2020-02-24 一种基于大数据的疾病预测***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010850524.5A Active CN111986811B (zh) 2020-02-24 2020-02-24 一种基于算法和大数据的疾病预测***

Country Status (1)

Country Link
CN (2) CN111986811B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612261B (zh) * 2020-05-28 2021-04-09 链博(成都)科技有限公司 基于区块链的金融大数据分析***
CN111710410A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 一种基于青筋固定部位征兆的疾病推测***
CN111863232B (zh) * 2020-08-06 2021-02-19 深圳市柯尼达巨茂医疗设备有限公司 基于区块链和医学影像的远程疾病智能诊断***
CN112259220B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的***、设备、存储介质
CN112532630B (zh) * 2020-11-30 2021-09-24 广州瘦吧网络科技有限公司 基于算法、5g和区块链的基因大数据疾病预测***
CN112687393A (zh) * 2020-12-29 2021-04-20 康奥生物科技(天津)股份有限公司 一种基于大数据的疾病预测***
CN112869722B (zh) * 2021-01-11 2022-07-19 北京择天众康科技有限公司 基于物联网的智慧医疗养老用5g智能采集终端及采集方法
CN113096806A (zh) * 2021-04-15 2021-07-09 王小娟 基于医学影像算法和区块链的疾病预测***
CN113327674A (zh) * 2021-06-24 2021-08-31 广东德澳智慧医疗科技有限公司 基于人工智能、大数据和算法的创伤信息***
CN116432064B (zh) * 2023-03-06 2023-10-27 北京车讯互联网股份有限公司 一种数据预处理***及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682219A (zh) * 2012-05-17 2012-09-19 鲁东大学 一种支持向量机短期负荷预测方法
CN106340008A (zh) * 2016-08-09 2017-01-18 杭州健培科技有限公司 基于特征值选择及svm参数优化的肺部影像识别方法
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107153837A (zh) * 2017-04-14 2017-09-12 中国科学技术大学苏州研究院 深度结合K‑means和PSO的聚类方法
CN108549912A (zh) * 2018-04-19 2018-09-18 北京工业大学 一种基于机器学习的医学图像肺结节检测方法
CN109344492A (zh) * 2018-09-27 2019-02-15 中国人民解放军海军航空大学 一种基于k-均值聚类与粒子群核极限学习机的航空发动机推力估计方法
CN109411093A (zh) * 2018-10-16 2019-03-01 烟台翰宁信息科技有限公司 一种基于云计算的智慧医疗大数据分析处理方法
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200759A (zh) * 2011-05-28 2011-09-28 东华大学 一种非线性核化自适应预测方法
CA2965564C (en) * 2014-11-10 2024-01-02 Ventana Medical Systems, Inc. Classifying nuclei in histology images
US10722115B2 (en) * 2015-08-20 2020-07-28 Ohio University Devices and methods for classifying diabetic and macular degeneration
US20170124280A1 (en) * 2015-10-28 2017-05-04 Wisconsin Alumni Research Foundation Determining a class type of a sample by clustering locally optimal model parameters
CN105930663B (zh) * 2016-04-26 2020-06-19 北京科技大学 一种基于演化模糊规则的手部震颤信号及音频信号分类方法
CN106599913B (zh) * 2016-12-07 2019-08-06 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN108597601B (zh) * 2018-04-20 2021-06-25 山东师范大学 基于支持向量机的慢性阻塞性肺疾病诊断辅助***及方法
CN108875365B (zh) * 2018-04-22 2023-04-07 湖南省金盾信息安全等级保护评估中心有限公司 一种入侵检测方法及入侵检测检测装置
CN109102884A (zh) * 2018-07-19 2018-12-28 南京邮电大学 基于混合核函数支持向量机模型的帕金森疾病诊断方法
CN110085322A (zh) * 2019-04-18 2019-08-02 岭南师范学院 一种k-means聚类糖尿病预警模型的改进方法
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682219A (zh) * 2012-05-17 2012-09-19 鲁东大学 一种支持向量机短期负荷预测方法
CN106340008A (zh) * 2016-08-09 2017-01-18 杭州健培科技有限公司 基于特征值选择及svm参数优化的肺部影像识别方法
CN106845544A (zh) * 2017-01-17 2017-06-13 西北农林科技大学 一种基于粒子群与支持向量机的小麦条锈病预测方法
CN107153837A (zh) * 2017-04-14 2017-09-12 中国科学技术大学苏州研究院 深度结合K‑means和PSO的聚类方法
CN108549912A (zh) * 2018-04-19 2018-09-18 北京工业大学 一种基于机器学习的医学图像肺结节检测方法
CN109344492A (zh) * 2018-09-27 2019-02-15 中国人民解放军海军航空大学 一种基于k-均值聚类与粒子群核极限学习机的航空发动机推力估计方法
CN109411093A (zh) * 2018-10-16 2019-03-01 烟台翰宁信息科技有限公司 一种基于云计算的智慧医疗大数据分析处理方法
CN110660055A (zh) * 2019-09-25 2020-01-07 北京青燕祥云科技有限公司 疾病数据预测方法、装置、可读存储介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Intrusion Detection System using K- means, PSO with SVM Classifier: A Survey;Harshit Saxena等;《International Journal of Emerging Technology and Advanced Engineering》;20140228;全文 *
SVM-KM: speeding SVMs learning with a priori cluster selection and k-means;Marcelo Barros de Almeida;《Proceedings. Vol.1. Sixth Brazilian Symposium on Neural Networks》;20020806;全文 *
基于tlPSO-SVM模型的肿瘤进展预测;方丽英等;《计算机工程》;20140731;第40卷(第7期);全文 *
基于改进PSO_SVM算法的帕金森疾病诊断研究;张琼等;《计算机与数字工程》;20190831;第47卷(第8期);全文 *

Also Published As

Publication number Publication date
CN111986811B (zh) 2021-10-15
CN111161879A (zh) 2020-05-15
CN111986811A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111161879B (zh) 一种基于大数据的疾病预测***
CN110503187B (zh) 一种用于功能核磁共振成像数据生成的生成对抗网络模型的实现方法
KR101779800B1 (ko) 기계학습 기반 다면적 성장 평가 방법 및 시스템
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
EP2434434A2 (en) Method and system for training a landmark detector using multiple instance learning
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
CN104463916B (zh) 基于随机游走的眼动注视点测定方法
CN111079074A (zh) 一种基于改进的正弦余弦算法构建预测模型的方法
CN114093448B (zh) 一种疾病风险预测模型的构建方法
CN106601271B (zh) 一种语音异常信号检测***
CN113707317B (zh) 一种基于混合模型的疾病危险因素重要性分析方法
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN110957046B (zh) 医疗健康案例知识匹配方法和***
CN111583194B (zh) 基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法
CN111582330A (zh) 基于肺部肿瘤影像划分样本空间下的集成ResNet-NRC方法
CN108446740B (zh) 一种用于脑影像病历特征提取的多层一致协同方法
De Toro et al. Evolutionary algorithms for multiobjective and multimodal optimization of diagnostic schemes
CN116226629A (zh) 一种基于特征贡献的多模型特征选择方法及***
CN111368910A (zh) 一种物联网设备协同感知方法
CN113283465B (zh) 一种弥散张量成像数据分析方法及装置
CN114821157A (zh) 基于混合模型网络的多模态影像分类方法
CN112382382B (zh) 一种代价敏感的集成学习分类方法及***
CN113989543A (zh) 一种covid-19医学影像检测分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200908

Address after: Room 301-3045, 3 / F, building 1, 2, 3, QinChun home, Xisanqi, Haidian District, Beijing 100089

Applicant after: Wuzheng Intelligent Technology (Beijing) Co.,Ltd.

Address before: 578000 administration center building, No.8 Yantian Road, xinyingwan District, Yangpu Economic Development Zone

Applicant before: Meili medical technology (Yangpu) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant