CN116598012A - 一种基于联邦学习价值评估的慢性病医疗保健方法和*** - Google Patents
一种基于联邦学习价值评估的慢性病医疗保健方法和*** Download PDFInfo
- Publication number
- CN116598012A CN116598012A CN202310420641.1A CN202310420641A CN116598012A CN 116598012 A CN116598012 A CN 116598012A CN 202310420641 A CN202310420641 A CN 202310420641A CN 116598012 A CN116598012 A CN 116598012A
- Authority
- CN
- China
- Prior art keywords
- clients
- client
- server
- local
- federal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 208000017667 Chronic Disease Diseases 0.000 title claims abstract description 36
- 238000011156 evaluation Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000036541 health Effects 0.000 claims description 45
- 230000002776 aggregation Effects 0.000 claims description 31
- 238000004220 aggregation Methods 0.000 claims description 31
- 206010020772 Hypertension Diseases 0.000 claims description 17
- 230000001684 chronic effect Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 206010003246 arthritis Diseases 0.000 claims description 7
- 208000032928 Dyslipidaemia Diseases 0.000 claims description 6
- 208000017170 Lipid metabolism disease Diseases 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 230000000391 smoking effect Effects 0.000 claims description 4
- 208000035473 Communicable disease Diseases 0.000 claims description 3
- 208000016621 Hearing disease Diseases 0.000 claims description 3
- 208000019693 Lung disease Diseases 0.000 claims description 3
- 208000026139 Memory disease Diseases 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 claims description 3
- 206010039203 Road traffic accident Diseases 0.000 claims description 3
- 208000006011 Stroke Diseases 0.000 claims description 3
- 208000006673 asthma Diseases 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 3
- 206010012601 diabetes mellitus Diseases 0.000 claims description 3
- 230000035622 drinking Effects 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 235000006694 eating habits Nutrition 0.000 claims description 3
- 235000012631 food intake Nutrition 0.000 claims description 3
- 208000019622 heart disease Diseases 0.000 claims description 3
- 208000014674 injury Diseases 0.000 claims description 3
- 208000017169 kidney disease Diseases 0.000 claims description 3
- 208000019423 liver disease Diseases 0.000 claims description 3
- 208000018556 stomach disease Diseases 0.000 claims description 3
- 230000008733 trauma Effects 0.000 claims description 3
- 208000029257 vision disease Diseases 0.000 claims description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 claims description 2
- 208000027534 Emotional disease Diseases 0.000 claims description 2
- 208000012895 Gastric disease Diseases 0.000 claims description 2
- 239000008280 blood Substances 0.000 claims description 2
- 210000004369 blood Anatomy 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 201000010099 disease Diseases 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000031226 Hyperlipidaemia Diseases 0.000 description 1
- 208000002720 Malnutrition Diseases 0.000 description 1
- 208000031662 Noncommunicable disease Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 231100000749 chronicity Toxicity 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000001071 malnutrition Effects 0.000 description 1
- 235000000824 malnutrition Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 208000015380 nutritional deficiency disease Diseases 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于联邦学习价值评估的慢性病医疗保健方法和方法,属于智慧医疗技术领域。客户端利用本地私有样本数据集训练本地模型,服务器利用私有样本数据集测试所有客户端的本地模型,对全部客户端进行等级划分;服务器初始化全局模型参数,并发送到所有客户端进行本地训练;服务器根据客户端的等级选择部分客户端,被选中的客户端将本地模型参数上传到服务器,服务器更新全局模型参数并传输回全部客户端;循环联邦训练过程,直到整个训练过程收敛。本发明通过评估联邦学习中不同数据源的价值,将客户端划分为若干个级别并赋予不同的优先级,避免模型训练过程中低质量数据造成时间和计算资源浪费,提高联邦学习的性能和训练效率。
Description
技术领域
本发明属于智慧医疗技术领域,尤其涉及一种基于联邦学习价值评估的慢性病医疗保健方法和***。
背景技术
近年来,机器学习被广泛地应用于智慧医疗领域,利用大规模高质量的医疗数据进行训练得到的机器学习模型,能够对疾病进行准确预测,辅助医生进行疾病的诊断和预防。慢性病又被称为慢性非传染性疾病,慢性病的诱因复杂,除了先天因素外,吸烟、营养不良以及其他不良生活习惯也会导致慢性病的发生,这给慢性病的预防工作带来了巨大的困难。慢性病患者数据通常以电子健康档案的形式存在,存储在医院、诊所、药店等不同的医疗机构中。现实中,大多数机构无法为机器学习模型的训练提供足够的数据,而且由于对患者的隐私保护和法律限制,从多个医疗机构收集数据进行集中处理是不可行的。
联邦学***衡性为联邦学习在实际场景中的部署带来了很多困难。不同地区、不同规模的医疗机构所拥有的数据在质量上参差不齐,而低质量的数据会加剧模型训练过程中时间和计算资源的浪费,并导致模型性能的下降。
现有的联邦学习客户端价值评估方法往往通过改变训练数据,进行多组详尽的实验并观察全局模型的性能变化来量化数据源的价值。但这些方法所消耗的时间和计算资源与参与方的数量呈指数关系,当参与者数量很大时,计算成本将令人难以接受。此外,在实际医疗场景中,大部分慢性病的医疗健康数据分布在许多小型医疗机构中,如果每个机构所拥有的数据占全部训练数据的很小一部分,单个参与方对全局模型性能的影响将很难被通过实验观察到。
发明内容
为了解决大量分散的医疗健康数据难以利用,以及数据集中式机器学习中存在的患者隐私泄露的问题,本发明提出一种基于联邦学习价值评估的慢性病医疗保健方法。本发明通过评估联邦学习中不同数据源的价值,将客户端划分为若干个级别并赋予不同的优先级,避免模型训练过程中低质量数据造成的时间和计算资源浪费。本发明能够在大量规模不同的医疗机构参与的情况下,提高联邦学习的性能和训练效率,对于慢性病的预防具有重要意义。
本发明所要解决的技术问题是通过以下技术方案实现的:
第一方面,本发明公开了一种基于联邦学习价值评估的慢性病医疗保健方法,包括以下步骤:
步骤1:服务器和各客户端分别收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建私有样本数据集;
步骤2:客户端利用本地私有样本数据集训练本地模型,并将训练后的模型参数上传到服务器;
步骤3:服务器利用私有样本数据集测试所有客户端的本地模型,评估客户端的价值,并根据测试结果对客户端进行等级划分;
步骤4:服务器初始化全局模型参数,并发送到所有客户端;
步骤5:全部客户端使用从服务器接收到的全局模型初始化本地模型,并利用本地私有样本数据集继续训练本地模型;
步骤6:服务器根据客户端的等级选择部分客户端,被选中的客户端将本地模型参数上传到服务器,服务器使用聚合算法更新全局模型参数,并将更新后的的模型参数传输回全部客户端;
步骤7:重复步骤5至6,直到整个训练过程收敛。
进一步的,所述的人群基础信息包括年龄、性别、身高、体重、教育水平、居住地;所述的社会经济情况包括扩工作情况、住房类型和面积、婚姻状况、父母状况、子女状况、个人及家庭收支情况、个人及家庭医疗健康话费情况、参加医保及其他保险情况、金融资产、家用设备、食品消费;所述的行为习惯与健康状况包括饮酒情况、吸烟情况、日常体育锻炼情况、饮食习惯、药物使用情况、听力疾病、视力疾病、口腔健康状况、是否发生过交通事故、参与体检情况、情绪和心理状况、睡眠情况;所述的病史信息包括个人及家庭成员病史、家族病史、是否患有传染病、采取过的治疗措施、输血史、外伤手术史;所述的慢性病患病情况包括高血压、血脂异常、糖尿病、癌症、慢性肺病、肝病、心脏病、中风、肾脏疾病、胃病、情绪问题、记忆疾病、关节炎、哮喘。
进一步的,所述的步骤3包括:
3.1)服务器利用私有样本数据集测试所有客户端的本地模型,计算各客户端的本地模型的F-score指标作为客户端价值:
其中,β是用于控制准确率和召回率重要性的参数;Precision是准确率,Recall是召回率;
3.2)按照F-score从高到低对客户端进行排序,得到F-score降序的客户端编号序列L;
3.3)对客户端进行等级划分:
其中,τ(i)是编号为i的客户端被划分到的等级,是客户端i在序列L中的位置,/>是除最后一个等级外每个等级中包含的客户端数量,λ是划分的等级数量,n是客户端数量,/>表示向上取整。
进一步的,每轮迭代训练过程中,服务器通过约束参与当前联邦训练轮次的客户端等级,选择符合客户端等级约束的部分客户端;约束公式如下:
At={Cl|l≤(t-1)%λ+1}
其中,Cl指的是等级l的客户端集合,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合。
进一步的,所述的服务器使用聚合算法更新全局模型参数,公式如下:
其中,k表示参与模型聚合的第k个客户端,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合,Nk为客户端k的训练数据集中的样本数量,N为第t个联邦轮次选中的客户端,表示第t个联邦轮次时第k个客户端的模型参数,ωt+1是聚合后得到的模型参数。
第二方面,本发明公开了一种基于联邦学习价值评估的慢性病医疗保健***,包括客户端和服务器端;
所述的客户端包括:
客户端数据采集与处理模块,其用于收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建本地私有样本数据集;
传输模块,其用于本地模型参数和全局模型参数的传输,包括发送本地模型参数到服务器,并接收服务器发送的聚合后的全局模型参数至本地;
模型训练模块,其用于使用本地私有样本数据集训练本地模型;
客户端私有数据集模块,其用于存储本地私有样本数据集;
所述的服务器端包括:
服务器端数据采集与处理模块,其用于收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建服务器端私有样本数据集;
服务器端数据集模块,其用于存储服务器端私有样本数据集;
第一控制模块,其用于利用私有样本数据集测试所有客户端的本地模型,评估客户端的价值,并根据测试结果对客户端进行等级划分;
第二控制模块,其用于控制联邦训练过程,初始化全局模型参数,并发送到所有客户端,并依据客户端的等级选择部分客户端,接收被选中的客户端的本地模型参数并使用聚合算法更新全局模型参数,并将更新后的的模型参数传输回全部客户端。
进一步的,所述的第一控制模块包括:
F-score指标计算单元,其用于利用私有样本数据集测试所有客户端的本地模型,计算各客户端的本地模型的F-score指标作为客户端价值:
其中,β是用于控制准确率和召回率重要性的参数;Precision是准确率,Recall是召回率;
F-score指标排序单元,其用于按照F-score从高到低对客户端进行排序,得到F-score降序的客户端编号序列L;
对客户端等级划分单元,其用于利用客户端编号序列L对客户端进行等级划分,划分公式为:
其中,τ(i)是编号为i的客户端被划分到的等级,是客户端i在序列L中的位置,/>是除最后一个等级外每个等级中包含的客户端数量,λ是划分的等级数量,n是客户端数量,/>表示向上取整。
进一步的,所述的第二控制模块在每轮迭代训练过程中,服务器通过约束参与当前联邦训练轮次的客户端等级,选择符合客户端等级约束的部分客户端;约束公式如下:
At={Cl|l≤(t-1)%λ+1}
其中,Cl指的是等级l的客户端集合,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合。
进一步的,所述的第二控制模块使用聚合算法更新全局模型参数,公式如下:
其中,k表示参与模型聚合的第k个客户端,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合,Nk为客户端k的训练数据集中的样本数量,N为第t个联邦轮次选中的,表示第t个联邦轮次时第k个客户端的模型参数,ωt+1是聚合后得到的模型参数。
本发明具有的有益效果:
(1)本发明使用联邦学习进行慢性病的预测,在保护患者隐私的前提下,充分利用了分布在众多医疗机构中的医疗数据,通过对各客户端进行价值评估的方式能够高效协调大量规模不同的医疗机构合作进行联邦模型的训练,提高模型的性能并加快模型的训练速度。
(2)本发明提出了高效的客户端数据估值和等级划分方法,与其他联邦学习客户端价值评估方法相比,能够节省大量的时间和计算资源,参与联邦学习的客户端越多,该方法的优势越明显,这与传统的通过改变训练数据进行多组详尽的实验并观察全局模型的性能变化来量化客户端数据价值的方法截然不同,传统方法是参与联邦学习的客户端越多,每个客户端所拥有的数据占全部训练数据的比例越小,导致单个客户端对全局模型性能的影响将难以量化。
附图说明
图1为本发明所述基于联邦学习价值评估的慢性病医疗保健***的结构图。
图2为本发明所述基于联邦学习价值评估的慢性病医疗保健方法的控制流程图。
图3为本发明所述基于联邦学***均算法在高血压预测实验中的模型准确率和召回率收敛曲线图。
图4为本发明所述基于联邦学***均算法在高血压预测实验中当参数λ取不同值时性能变化折线图。
图5为本发明所述基于联邦学***均算法在高血压预测实验中当参数E1取不同值时性能变化折线图。
图6为本发明所述基于联邦学***均算法在高血压预测实验中当参数β取小于1的不同值时性能变化折线图。
图7为本发明所述基于联邦学***均算法在高血压预测实验中当参数β取大于1的不同值时性能变化折线图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明基于联邦学习的思想,在满足用户隐私保护、数据安全的要求下,使用医疗健康数据进行机器学习建模。
本发明提出的基于联邦学习价值评估的慢性病医疗保健***的结构如图1所示,包括:
a.客户端,即医院、诊所、药房等保存有患者医疗健康数据的医疗机构,作为联邦模型训练过程的众多参与方。客户端的数目设置为n。
b.服务器,其用于协调参与联邦学习的客户端,对客户端本地模型进行价值评估和参数聚合,得到共享的全局模型。
所述的客户端包括:
a1.数据采集与处理模块,其用于收集医疗健康数据,对数据进行预处理。本实施例中,数据的内容主要包括以下五个类别:
基础信息:年龄、性别、身高、体重、教育水平、居住地。
社会经济情况:工作情况、住房类型和面积、婚姻状况、父母状况、子女状况、个人及家庭收支情况、个人及家庭医疗健康话费情况、参加医保及其他保险情况、金融资产、家用设备、食品消费。
行为习惯与健康状况:饮酒情况、吸烟情况、日常体育锻炼情况、饮食习惯、药物使用情况、听力疾病、视力疾病、口腔健康状况、是否发生过交通事故、参与体检情况、情绪和心理状况、睡眠情况。
病史信息:个人及家庭成员病史、家族病史、是否患有传染病、采取过的治疗措施、输血史、外伤手术史。
慢性病患病情况:高血压、血脂异常、糖尿病、癌症、慢性肺病、肝病、心脏病、中风、肾脏疾病、胃病、情绪问题、记忆疾病、关节炎、哮喘。
本发明所需要的数据可通过专业数据库、问卷调查等方式获取。在本发明的一个实施例中,采用CHARLS数据库的数据集,即中国健康与养老追踪调查数据库,该数据库包括覆盖总计1.24万户家庭中的1.9万名受访者(大于45岁),数据项包括个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况。本实施例中,按照样本所在的社区对样本进行划分,每个社区的样本集合构成一个客户端的私有数据集,这符合现实世界中患者医疗健康数据与地理位置的相关性。
数据预处理是指对数据进行清洗和规格化等操作,主要包括:
将代表样本慢性病患病情况的属性列作为预测任务的标签,用0值填充标签列中的缺失项,表示样本未患病。对于其他的数据属性列,缺失项80%以上的属性列直接删除,缺失项80%以下的列用代表空值的特殊值-1进行数据填充。
对不同的特征指标进行编码,针对二类特征指标,采用二值变量的形式编码;针对多类特征指标,采用独热编码的形式编码;针对取值连续的特征指标,采用归一化的方式将其转化为0到1之间的数值。
a2.传输模块,负责本地模型参数和全局模型参数的传输,包括发送本地模型参数到服务器,并接收服务器发送的聚合后的全局模型参数至本地。客户端仅上传模型参数到服务器,避免用户隐私数据的泄露。因为网络参数数量较少,所以不会造成网络通信瓶颈,因而保证模型参数聚合能够顺利进行。
a3.模型训练模块,其使用客户端私有数据进行本地机器学习模型的训练。本地模型的训练分为两个阶段。第一阶段是客户端价值评估之前,所有客户端对本地模型训练E1个轮次,然后将本地模型参数上传至服务器,服务器基于接收到的各本地模型参数进行客户端的价值评估。第二阶段是联邦学习模型的训练,客户端接收到来自服务器的全局模型参数后使用本地数据对本地模型进行E2轮次的迭代更新。
在本发明的一个实施例中,采用三层的全连接神经网络作为要训练的机器学习模型,包括输入层、隐含层和输出层。
a4.客户端私有数据集模块,即每个参与方的私有样本数据。
所述的服务器包括:
b1.数据采集与处理模块,其用于收集医疗健康数据,对数据进行预处理,实施细节与客户端的数据采集与处理模块相同。
b2.服务器端数据集模块,在服务器端设置的数据集,用于在价值评估阶段测试客户端的本地模型。
b3.控制模块,其作用主要有两个:
第一,客户端价值评估。服务器通过测试所有客户端训练的本地模型来评估其数据质量,并根据评估结果将客户端划分为若干个等级。本发明将等级1设定为最高等级,等级1的客户端数据质量最高。为了避免联邦学习模型训练过程中由于数据质量不高而造成的计算资源浪费,级别较高的客户端被赋予更高的优先级,有更高的可能性参与全局模型的聚合。
第二,控制联邦学习模型的训练过程。客户端利用本地数据集进行模型训练,然后服务器按照客户端的等级,选择一批客户端;被选中的客户端将通过传输模块上传本地模型到服务器,并由服务器使用模型聚合算法得到聚合的全局模型。服务器将更新好的全局模型返回到各客户端,客户端开始下一次的迭代,重复以上的步骤,直到整个训练过程收敛。
本发明提出的基于联邦学习价值评估的慢性病医疗保健方法流程图如图2所示,包括如下步骤:
步骤1:客户端和服务器利用各自的数据采集和处理模块收集人群的基础信息、社会经济情况、行为习惯与健康状况、病史、慢性病的患病情况等信息数据,并对数据进行预处理,构建私有样本数据集。
步骤2:客户端利用本地数据对本地模型进行E1个轮次的训练,并由传输模块将本地模型上传到服务器。
步骤3:服务器控制模块使用其私有数据集测试所有客户端的本地模型,计算测试结果的准确率Precision、召回率Recall和F-score指标。其中,准确率=正确预测的正样本数/(正确预测的正样本数+错误预测的正样本数),召回率=正确预测的正样本数/(正确预测的正样本数+错误预测的负样本数)。
F-score由公式(1)计算:
其中,β是用于控制准确率和召回率重要性的参数,当β<1时,准确率对F-score的影响更大,当β>1时,召回率对F-score的影响更大。
根据测试结果,按照F-score从高到低对客户端进行排序,得到F-score降序的客户端编号序列L。L是由客户端编号按照F-score降序排列得到的编号序列,序列长度为n。然后,按照公式(2)将所有客户端划分到λ个等级:
其中,τ(i)是编号为i的客户端被划分到的等级,是客户端i在序列L中的位置,/>是除最后一个等级外每个等级中包含的客户端数量。由于n除以λ并不一定能够整除,因此最后一个等级中包含的客户端数目可能比其他等级中的客户端数目少。所有客户端的等级一旦确定,在后续步骤中不会改变。
步骤4:服务器初始化全局模型参数,并发送到所有客户端。
步骤5:客户端使用从服务器接收到的全局模型初始化本地模型,并利用模型训练模块继续训练该模型E2轮次。
步骤6:服务器控制模块根据客户端的等级,选择部分客户端,被选中的客户端通过传输模块将本地模型上传到服务器。以t来表示进行全局模型训练的联邦轮次,首先用公式(4)约束第t个联邦轮次中允许参与模型聚合的客户端:
At={Cl|l≤(t-1)%λ+1} (3)
其中,Cl指的是等级l的客户端集合,At指在第t个联邦轮次中有资格参与模型聚合的客户端集合。具体来说,在第1、λ+1、2λ+1…个联邦轮次中,只有等级1的客户端有机会被选中参与模型聚合,在第2,λ+2,2λ+2…个联邦轮次中,只有等级1和等级2的客户端有机会被选中参与模型聚合,以此类推。
服务器按照公式(4)将所有模型参数以本地数据量占总数据量的比重为权重进行加和,得到的计算结果作为更新后的全局模型参数,并将优化后的模型参数传输回全部客户端。
其中,k表示参与模型聚合的第k个客户端,Nk为客户端k的训练数据集中的样本数量,N为第t个联邦轮次选中的客户端,表示第t个联邦轮次时第k个客户端的模型参数(梯度),下标t+1表示下一个联邦轮次,ωt+1是聚合后得到的模型参数。在该步骤中,所有客户端均会收到服务器聚合之后的模型,即使一些客户端一直未被选中,其模型参数也会随着联邦学习的过程更新。
步骤7:重复步骤5至6,直到整个训练过程收敛。
在本发明的一项具体实施中,以样本所在的地理位置(样本的社区编号)为单位将CHARLS数据集中所有样本划分到455个子数据集,每个数据集代表一个联邦学***均算法(FedAvg)和本发明提出的基于客户端等级划分的联邦学习算法(LDFL)进行疾病预测实验。
在常规的联邦平均算法中,参与联邦学***均算法没有对客户端进行价值评估和等级划分的过程,对所有客户端平等对待。当客户端数量较多并且数据质量差异较大时,联邦平均算法的训练效率会降低,模型的性能也会因此下降。
测试结果如表1所示。在高血压、血脂异常、关节炎三种疾病的预测任务中,本发明提出的基于客户端等级划分的联邦学***均算法。从结果可以看出,两种算法在准确率上结果比较接近,LDFL有较小的优势,但在模型的召回率上,LDFL性能要远远好于联邦平均算法,在高血压、血脂异常、关节炎三种疾病预测任务上分别提升了7.45%、5.74%、5.57%,这说明客户端等级划分机制能够提高模型识别患病样本的能力。高血压预测任务的结果要远远好于另外两种疾病,可能的原因有两个,首先,在CHARLS数据集中,与高血压疾病相关的特征更多,其次,高血压的患病样本比例(15.07%)要高于血脂异常(11.01%)和关节炎(10.17%)。
表1
本发明提出的基于客户端等级划分的联邦学***均算法在高血压预测任务上的模型训练曲线如图3所示。图3中左图是随着联邦轮次的增加,模型准确率的变化情况,从图中可以看出,LDFL训练的模型在50轮之前就已经收敛,而联邦平均算法训练的模型在150轮之后收敛。右图是随着联邦轮次的增加,模型召回率的变化情况,从图中可以看出,LDFL训练的模型召回率更高,且模型达到最佳性能的速度更快。
选择高血压预测实验来验证本发明中的客户端等级划分方法的有效性。将所有客户端划分为3个等级(即λ=3),分别记录每个等级的客户端单独训练模型以及不同等级的客户端组合训练模型的准确率和召回率。选择将客户端划分为3个等级的原因是为了更清楚地展示不同等级之间的客户端训练出的模型性能差异。等级划分方法验证实验结果如表2。
表2
在所有单个等级客户端训练的联邦模型中,最高等级(等级1)客户端训练的模型比低等级客户端训练的模型表现更好。低等级客户端训练的模型在召回率上表现得非常差,说明模型无法正确预测患病样本。在不同等级组合的训练实验中,所有等级客户端均参与训练的情况下模型性能最好,这表明去除低质量的数据也可能会影响联邦模型的训练。实验结果说明本发明中的客户端划分方法是有效的。
选择高血压预测实验来验证本发明提出的基于客户端等级划分的联邦学***均算法。λ取1到12之间的所有整数进行实验,结果如图4所示,与联邦平均算法(即λ=1)相比,基于客户端等级划分的联邦学习总能提高模型的召回率,当λ的取值为4到8之间时,模型的召回率更高。对于参数E1,取值10到120之间所有10的整数倍进行实验。实验结果如图5所示,从图中可以看出,当E1的取值大于等于40时,算法可获得最佳性能,这是因为当E1的取值太小时,客户端价值评估的结果不够准确。参数β的值可以决定指标F-score中召回率和查准率的重要性。当β的取值小于1时,准确率对F-score的影响更大,当β取值大于1时,召回率的影响该更大。因此需要针对β>1和β≤1两种情况分别进行实验,以进一步考察β的取值对算法性能的影响。试验结果如图6和图7所示,联邦学习模型的准确率几乎不受β取值的影响。但当β的取值较高时,联合模型的召回率也会更高。这说明对于该实验任务来说,本地模型的召回率更能体现数据的价值,参数β应该取大于1的值。
最后应当说明的是,以上内容仅用于说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (9)
1.一种基于联邦学习价值评估的慢性病医疗保健方法,其特征在于,包括以下步骤:
步骤1:服务器和各客户端分别收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建私有样本数据集;
步骤2:客户端利用本地私有样本数据集训练本地模型,并将训练后的模型参数上传到服务器;
步骤3:服务器利用私有样本数据集测试所有客户端的本地模型,评估客户端的价值,并根据测试结果对客户端进行等级划分;
步骤4:服务器初始化全局模型参数,并发送到所有客户端;
步骤5:全部客户端使用从服务器接收到的全局模型初始化本地模型,并利用本地私有样本数据集继续训练本地模型;
步骤6:服务器根据客户端的等级选择部分客户端,被选中的客户端将本地模型参数上传到服务器,服务器使用聚合算法更新全局模型参数,并将更新后的的模型参数传输回全部客户端;
步骤7:重复步骤5至6,直到整个训练过程收敛。
2.根据权利要求1所述的一种基于联邦学***、居住地;所述的社会经济情况包括扩工作情况、住房类型和面积、婚姻状况、父母状况、子女状况、个人及家庭收支情况、个人及家庭医疗健康话费情况、参加医保及其他保险情况、金融资产、家用设备、食品消费;所述的行为习惯与健康状况包括饮酒情况、吸烟情况、日常体育锻炼情况、饮食习惯、药物使用情况、听力疾病、视力疾病、口腔健康状况、是否发生过交通事故、参与体检情况、情绪和心理状况、睡眠情况;所述的病史信息包括个人及家庭成员病史、家族病史、是否患有传染病、采取过的治疗措施、输血史、外伤手术史;所述的慢性病患病情况包括高血压、血脂异常、糖尿病、癌症、慢性肺病、肝病、心脏病、中风、肾脏疾病、胃病、情绪问题、记忆疾病、关节炎、哮喘。
3.根据权利要求1所述的一种基于联邦学习价值评估的慢性病医疗保健方法,其特征在于,所述的步骤3包括:
3.1)服务器利用私有样本数据集测试所有客户端的本地模型,计算各客户端的本地模型的F-score指标作为客户端价值:
其中,β是用于控制准确率和召回率重要性的参数;Precision是准确率,Recall是召回率;
3.2)按照F-score从高到低对客户端进行排序,得到F-score降序的客户端编号序列L;
3.3)对客户端进行等级划分:
其中,τ(i)是编号为i的客户端被划分到的等级,是客户端i在序列L中的位置,/>是除最后一个等级外每个等级中包含的客户端数量,λ是划分的等级数量,n是客户端数量,表示向上取整。
4.根据权利要求1所述的一种基于联邦学习价值评估的慢性病医疗保健方法,其特征在于,每轮迭代训练过程中,服务器通过约束参与当前联邦训练轮次的客户端等级,选择符合客户端等级约束的部分客户端;约束公式如下:
At={Cl|l≤(t-1)%λ+1}
其中,Cl指的是等级l的客户端集合,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合。
5.根据权利要求1所述的一种基于联邦学习价值评估的慢性病医疗保健方法,其特征在于,所述的服务器使用聚合算法更新全局模型参数,公式如下:
其中,k表示参与模型聚合的第k个客户端,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合,Nk为客户端k的训练数据集中的样本数量,N为第t个联邦轮次选中的客户端,表示第t个联邦轮次时第k个客户端的模型参数,ωt+1是聚合后得到的模型参数。
6.一种基于联邦学习价值评估的慢性病医疗保健***,其特征在于,包括客户端和服务器端;
所述的客户端包括:
客户端数据采集与处理模块,其用于收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建本地私有样本数据集;
传输模块,其用于本地模型参数和全局模型参数的传输,包括发送本地模型参数到服务器,并接收服务器发送的聚合后的全局模型参数至本地;
模型训练模块,其用于使用本地私有样本数据集训练本地模型;
客户端私有数据集模块,其用于存储本地私有样本数据集;
所述的服务器端包括:
服务器端数据采集与处理模块,其用于收集人群健康信息数据,所述的健康信息数据包括人群基础信息、社会经济情况、行为习惯与健康状况、病史信息、慢性病患病情况;对收集到的人群健康信息数据进行预处理,构建服务器端私有样本数据集;
服务器端数据集模块,其用于存储服务器端私有样本数据集;
第一控制模块,其用于利用私有样本数据集测试所有客户端的本地模型,评估客户端的价值,并根据测试结果对客户端进行等级划分;
第二控制模块,其用于控制联邦训练过程,初始化全局模型参数,并发送到所有客户端,并依据客户端的等级选择部分客户端,接收被选中的客户端的本地模型参数并使用聚合算法更新全局模型参数,并将更新后的的模型参数传输回全部客户端。
7.根据权利要求6所述的一种基于联邦学习价值评估的慢性病医疗保健***,其特征在于,所述的第一控制模块包括:
F-score指标计算单元,其用于利用私有样本数据集测试所有客户端的本地模型,计算各客户端的本地模型的F-score指标作为客户端价值:
其中,β是用于控制准确率和召回率重要性的参数;Precision是准确率,Recall是召回率;
F-score指标排序单元,其用于按照F-score从高到低对客户端进行排序,得到F-score降序的客户端编号序列L;
对客户端等级划分单元,其用于利用客户端编号序列L对客户端进行等级划分,划分公式为:
其中,τ(i)是编号为i的客户端被划分到的等级,是客户端i在序列L中的位置,/>是除最后一个等级外每个等级中包含的客户端数量,λ是划分的等级数量,n是客户端数量,表示向上取整。
8.根据权利要求6所述的一种基于联邦学习价值评估的慢性病医疗保健***,其特征在于,所述的第二控制模块在每轮迭代训练过程中,服务器通过约束参与当前联邦训练轮次的客户端等级,选择符合客户端等级约束的部分客户端;约束公式如下:
At={Cl|l≤(t-1)%λ+1}
其中,Cl指的是等级l的客户端集合,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合。
9.根据权利要求6所述的一种基于联邦学习价值评估的慢性病医疗保健***,其特征在于,所述的第二控制模块使用聚合算法更新全局模型参数,公式如下:
其中,k表示参与模型聚合的第k个客户端,At指在第t个联邦训练轮次中有资格参与模型聚合的客户端集合,Nk为客户端k的训练数据集中的样本数量,N为第t个联邦轮次选中的,表示第t个联邦轮次时第k个客户端的模型参数,ωt+1是聚合后得到的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420641.1A CN116598012A (zh) | 2023-04-19 | 2023-04-19 | 一种基于联邦学习价值评估的慢性病医疗保健方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420641.1A CN116598012A (zh) | 2023-04-19 | 2023-04-19 | 一种基于联邦学习价值评估的慢性病医疗保健方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116598012A true CN116598012A (zh) | 2023-08-15 |
Family
ID=87594579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310420641.1A Pending CN116598012A (zh) | 2023-04-19 | 2023-04-19 | 一种基于联邦学习价值评估的慢性病医疗保健方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116598012A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476217A (zh) * | 2023-12-26 | 2024-01-30 | 山东大学齐鲁医院 | 一种慢性心脏病病情发展趋势预测*** |
CN117954082A (zh) * | 2024-03-26 | 2024-04-30 | 中国人民解放军总医院 | 基于联邦大模型的复杂疾病间共病临床辅助决策方法及*** |
-
2023
- 2023-04-19 CN CN202310420641.1A patent/CN116598012A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476217A (zh) * | 2023-12-26 | 2024-01-30 | 山东大学齐鲁医院 | 一种慢性心脏病病情发展趋势预测*** |
CN117476217B (zh) * | 2023-12-26 | 2024-03-26 | 山东大学齐鲁医院 | 一种慢性心脏病病情发展趋势预测*** |
CN117954082A (zh) * | 2024-03-26 | 2024-04-30 | 中国人民解放军总医院 | 基于联邦大模型的复杂疾病间共病临床辅助决策方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khushi et al. | A comparative performance analysis of data resampling methods on imbalance medical data | |
KR102024375B1 (ko) | 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 | |
JP2022031730A (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
Ghazal et al. | Feature optimization and identification of ovarian cancer using internet of medical things | |
CN107785057B (zh) | 医疗数据处理方法、装置、存储介质和计算机设备 | |
CN116598012A (zh) | 一种基于联邦学习价值评估的慢性病医疗保健方法和*** | |
Chakradar et al. | A non-invasive approach to identify insulin resistance with triglycerides and HDL-c ratio using machine learning | |
CN113921141B (zh) | 一种个体慢病演进风险可视化评估方法及*** | |
CN106845147B (zh) | 医学经验总结模型的建立方法、装置 | |
CN108648827A (zh) | 心脑血管疾病风险预测方法及装置 | |
WO2014186387A1 (en) | Context-aware prediction in medical systems | |
WO2012145616A2 (en) | Predictive modeling | |
CN110197728A (zh) | 糖尿病的预测方法、装置及计算机设备 | |
CN110110008B (zh) | 一种基于夏普利值的区块链医疗数据共享激励方法 | |
KR20190063954A (ko) | 인공지능 클라우드 영양소 변화 예측 방법과 인공지능 클라우드 영양소 대사량 측정 방법 및 그를 사용하는 질병관리 방법 | |
Uddin et al. | Machine learning based diabetes detection model for false negative reduction | |
CN114783580B (zh) | 一种医疗数据质量评估方法及*** | |
CN115101160A (zh) | 药品销售数据挖掘和检索方法及装置 | |
CN109192312B (zh) | 一种心力衰竭患者不良事件智能管理***及方法 | |
Singh | Prediction of Thyroid Disease using Deep Learning Techniques | |
CN109192306A (zh) | 一种糖尿病的判断装置、设备及计算机可读存储介质 | |
CN117116482A (zh) | 基于多维度血糖趋势分析预警血糖疾病风险分析*** | |
Kaushik et al. | Disease management: clustering–based disease prediction | |
CN116504401A (zh) | 一种智能体检项目推荐方法和装置 | |
Sivasankar et al. | Identification of important biomarkers for detection of chronic kidney disease using feature selection and classification algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |