CN111477290B - 保护用户隐私的联邦学习和图像分类方法、***及终端 - Google Patents
保护用户隐私的联邦学习和图像分类方法、***及终端 Download PDFInfo
- Publication number
- CN111477290B CN111477290B CN202010151109.0A CN202010151109A CN111477290B CN 111477290 B CN111477290 B CN 111477290B CN 202010151109 A CN202010151109 A CN 202010151109A CN 111477290 B CN111477290 B CN 111477290B
- Authority
- CN
- China
- Prior art keywords
- model
- terminal
- terminals
- models
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002776 aggregation Effects 0.000 claims abstract description 76
- 238000004220 aggregation Methods 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 66
- 230000006399 behavior Effects 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims abstract description 6
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000013480 data collection Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种保护用户隐私的联邦学习和图像分类方法、***及终端,联邦学习方法包括:采集各终端上用户行为产生的数据,保存于该本地终端;服务器发送一个统一的模型给各终端,各终端利用采集到的所述数据训练所述模型;将各终端训练后的所述模型上传到所述服务器,所述服务器对所述模型先在不同终端之间进行交换后再全局聚合,或者,所述服务器对所述模型先进行部分聚合后再在不同终端之间交换,最后进行全局聚合。网络***包括:本地训练模块、模型通信模块、模型交换模块、模型聚合模块。本发明对各终端数据分布不相同的联邦学习场景能得到比传统方法更好的效果,且保证了整个***的隐私保护能力,使其能适应各种应用场景。
Description
技术领域
本发明涉及一种保护用户隐私的技术,具体涉及的是一种保护用户隐私的联邦学习方法、网络***及终端,以及相应的图像分类方法。
背景技术
在拥有大量数据的情况下,机器学习已经能够在诸如分类、检测等任务上表现出接近或超过人类的效果。这些数据可以从不同类型终端,如计算机、手机、智能家居等设备中收集得到。但是,数据收集行为往往会受到相关法律法规以及用户对隐私安全担心的限制。例如,欧盟于2019年开始执行《通用数据保护条例》(“General Data ProtectionRegulation”,GDPR),来限制企业对用户数据的收集;美国也有《健康保险流通与责任法案》(“Health Insurance Portability and Accountability Act”,HIPAA),限制医疗机构间对病人数据的共享。因此,在保护用户数据隐私的情况下进行机器学习,无法采用将用户数据上传到服务器进行中心化训练,亟需新方法。
经过对现有技术的文献检索发现,McMahan等人在2016年发表的“Communication-efficient learning of deep networks from decentralized data”一文中提出了一种方法FedAvg,首先将初始化模型下载到各终端,各终端利用本地数据训练更新模型参数,这些更新被送到服务器并进行聚合,得到一个更新后的模型,该模型将作为下一次的初始化模型被下载到各终端,重复这一操作直到模型收敛。然而,由于各终端数据分布不同,训练得到的模型也会有很大的差异,单纯的模型参数平均将会使聚合后模型整体效果有较为明显的下降。为了应对数据非独立同分布的问题,Zhao等人在论文“Federated learningwith non-iid data”中提出了在终端间共享一部分公共数据,使各终端数据的分布更接近真实分布,从而提升模型整体效果的方法。但是这种方法实际上违背了联邦学习对隐私保护的基本假设,不适用于严格要求隐私保护的联邦学习场景,限制了其使用领域。
发明内容
本发明针对现有技术不足,提供了一种保护用户隐私的联邦学习和图像分类方法、网络***及终端,可以在不需要终端间共享本地数据的情况下,提高模型学习整体效果,保证对数据隐私的保护。
根据本发明的第一方面,提供一种保护用户隐私的联邦学习方法,包括:
采集各终端上用户行为产生的数据,保存于该本地终端;
服务器发送一个统一的模型给各终端,各终端利用采集到的所述数据训练所述模型;
将各终端训练后的所述模型上传到所述服务器,所述服务器对所述模型先进行交换后再全局聚合,或者,所述服务器对所述模型先进行部分聚合后交换,再进行全局聚合。
可选地,所述服务器对所述模型先进行交换后再全局聚合,包括:
将所有终端上传的所述模型随机打乱,并将打乱后的所述模型发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;
将各终端交换后训练更新的所述模型再上传到所述服务器,所述服务器对所有终端的模型进行聚合。
可选地,所述服务器对所述模型先进行部分聚合后交换,再进行全局聚合,包括:
所述服务器选择其中一个或多个模型进行部分聚合,将部分聚合后的所述模型随机打乱顺序,并发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;
将各终端训练更新的所述模型再上传到所述服务器,所述服务器对训练更新后的所有模型进行全局聚合。
可选地,所述采集各终端上用户行为产生的数据,包括:各终端的数据采集独立进行,采集到的数据基于用户个人特征与个人行为。
可选地,各终端间采集的数据分布不相同,对应地,各终端训练得到的所述模型的参数也不相同。
可选地,所述模型在各终端之间的交换,使得各所述模型在全局聚合前能在更接近全体数据集的数据上得到训练,得到的各模型版本接近。交换前进行部分聚合,可以模糊模型参数,抵抗逆向攻击。
可选地,对所述模型先进行交换、对所述模型先进行部分聚合后再交换,其中交换、先进行部分聚合后再交换可重复进行,直至进行模型全局聚合。
可选地,对所述模型先进行交换后再全局聚合、对所述模型先进行部分聚合后交换再进行全局聚合记为一个全局训练轮次,其中全局训练轮次可重复进行,直至模型收敛。
根据本发明的第二方面,提供一种保护用户隐私的联邦学习网络***,包括:
数据采集模块,采集各终端上用户行为产生的数据,保存于本地终端;
本地训练模块,接收服务器发送的一个统一的模型,利用采集到的本地终端的数据训练所述模型;
模型通信模块,负责在各终端与所述服务器之间传输所述模型,包括将各终端训练的所述模型上传到所述服务器,以及从所述服务器将所述模型下载到各终端;
模型聚合模块,对所有终端上传到所述服务器的一个或多个模型进行部分聚合,或对终端上传到所述服务器的所有模型进行全局聚合;
模型交换模块,实现所述模型在不同终端间的随机交换,其中,所述模型交换模块将所述模型聚合模块部分聚合后的所述模型在不同终端间进行交换训练,再传给所述模型聚合模块进行全局聚合,或者,将所述模型在不同终端间进行交换训练后,再传给所述模型聚合模块进行全局聚合。
可选地,所述模型交换模块将所有终端上传的所述模型随机打乱,并将打乱后的所述模型发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;将各终端交换后训练更新的所述模型再传到所述模型聚合模块进行全局聚合。
可选地,所述模型交换模块选择其中一个或多个模型进行部分聚合,将部分聚合后的所述模型随机打乱顺序,并发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;各终端训练更新的所述模型再上传到所述模型聚合模块,所述模型聚合模块对训练更新后的所有模型进行全局聚合。
可选地,所述数据采集模块,其中:各终端的数据采集独立进行,采集到的数据基于用户个人特征与个人行为。各终端间采集的数据分布不相同,对应地,各终端训练得到的所述模型的参数也不相同。
根据本发明第三方面,提供一种保护用户隐私的图像分类方法,包括图像分类模型的训练,采用训练得到的模型对图像进行分类,其中:所述图像分类模型的训练采用上述的保护用户隐私的联邦学习方法,或者采用上述的保护用户隐私的联邦学习网络***实现。
根据本发明第四方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的保护用户隐私的联邦学习方法。
本发明上述的保护用户隐私的联邦学习方法和网络***为联邦学习场景提供了一种新的解决方案:通过在不同终端间交换模型,使得各个终端模型能够在更接近真实分布的(各终端收集的)全部数据上进行训练,而不需要共享各终端数据。训练得到的模型将会更加接近中心化训练得到的模型,聚合后的模型能够更快收敛,且能达到更好的学习效果。本发明上述的方法、***可以用于各个领域的模型构建,包括但不限于图像分类和检测等,保证了对数据隐私的保护。
与现有技术相比,本发明具有如下至少一种有益效果:
本发明上述的联邦学习方法及***,通过在不同终端间交换模型,同一模型可分发于不同终端进行训练,使得训练各个模型的数据更接近于真实数据分布,提高了模型整体表现与收敛速度。为了避免模型逆向攻击,保证模型对隐私数据保护的能力,本发明可结合模型交换和模型部分聚合操作,提高对隐私的保护能力。
本发明上述的图像分类方法,可以在不需要终端间共享本地数据的情况下,提高模型学习整体效果,不但保证对数据隐私的保护,同时图像分类的准确率也得到了提升。
本发明上述的联邦学习方法、***和图像分类方法,由于其隐私保护的特点,可以用于各个领域,包括但不限于图像分类和检测,尤其是能够应用于敏感场景(如医疗、监控等)的图像分析。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中的保护用户隐私的联邦学习方法流程图;
图2为本发明一实施例中的保护用户隐私的联邦学习网络***的模块框图;
图3为本发明一实施例中随机打乱模型的模型交换的原理图;
图4为本发明一实施例中将模型部分聚合后随机打乱的模型交换的原理图;
图5为本发明一实施例中使用随机打乱模型的模型交换的一个应用实例;
图6为本发明一实施例中使用将模型部分聚合后随机打乱的模型交换的一个应用实例;
图7为本发明在MNIST数据集上的一个测试例;
图8为本发明在CIFAR-10数据集上的一个测试例。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1为本发明一实施例中的保护用户隐私的联邦学习方法流程图。
参照图1所示,该实施例中的保护用户隐私的联邦学习方法,包括如下步骤:
S100,采集各终端上用户行为产生的数据,保存于该本地终端;
S200,服务器发送一个统一的模型给各终端,各终端利用采集到的数据训练其收到的模型;
S300,将各终端训练后的模型上传到服务器,服务器对模型先进行交换后再全局聚合,或者,服务器对模型先进行部分聚合后再交换、全局聚合。
上述实施例S100中,采集用户数据并保存在本地的用户终端,各个终端上的数据采集模块独立工作,采集到的数据基于用户个人特征与个人行为,各终端间的数据分布不相同,由于各终端上数据分布不同,各终端训练得到的模型参数也不相同。
在部分优选实施例中,S300中服务器对模型先进行交换后再全局聚合,包括:将所有终端上传的模型随机打乱,并将打乱后的模型发送给除本地终端之外的终端,实现模型在各终端之间的交换,使各模型在除本地终端之外的其它任意一个随机选定的终端上进行训练更新;将各终端交换后训练更新的模型再上传到服务器,服务器对所有终端的模型进行聚合。
在部分优选实施例中,S300中服务器对模型先进行部分聚合后交换,再进行全局聚合,包括:服务器选择其中一个或多个模型进行部分聚合,将部分聚合后的模型随机打乱顺序,并发送给除本地终端之外的终端,实现模型在各终端之间的交换,使各模型在除本地终端之外的其它任意一个随机选定的终端上进行训练更新;将各终端训练更新的模型再上传到服务器,服务器对训练更新后的所有模型进行全局聚合。
在上述优选实施例中,对模型先进行交换、对模型先进行部分聚合后再交换,其中交换、先进行部分聚合后再交换可重复进行,直至进行模型全局聚合。对模型先进行交换后再全局聚合、对模型先进行部分聚合后交换再进行全局聚合记为一个全局训练轮次,其中全局训练轮次可重复进行,直至模型收敛。比如服务器于所获得的各终端模型中,随机选取一个或多个终端的模型进行部分聚合。所选取的模型数L大于零且小于终端总数N。聚合方法可以通过线性或非线性方式组合选定模型,包括但不限于对相应位置的模型参数求取算术平均。将部分聚合后的模型随机打乱顺序,并发送给其他终端,各聚合后的模型在任意一个随机选定的终端上进行训练更新;更新后的模型再发送到服务器,服务器进行全局聚合。该部分聚合、交换的过程可以重复多次。模型在各终端之间的交换,使得各模型在全局聚合前能在更接近全体数据集的数据上得到训练,得到的各模型版本接近。
本发明上述实施例,通过在不同终端间交换模型,同一模型可分发于不同终端进行训练,使得训练各个模型的数据更接近于真实数据分布,提高了模型整体表现与收敛速度。能得到比传统方法更好的效果,且保证了隐私保护能力,能适应各种应用场景,尤其是严格要求隐私保护的场景。上述实施例中的模型可以是各种应用场景下的模型,比如可以是图像分类中的模型,也可以是图像检测中的模型等等。需要说明的是,本发明实施例并不是提供具体模型的训练,而是各种模型的一种通用的训练或建立技术。
图2为本发明一实施例中的保护用户隐私的联邦学习网络***的模块框图。
参照图2所示,该实施例中的保护用户隐私的联邦学习网络***,包括:数据采集模块、本地训练模块、模型通信模块、模型聚合模块;其中:数据采集模块采集各终端上用户行为产生的数据,保存于本地终端;本地训练模块接收服务器发送的一个统一的模型,利用采集到的本地终端的数据训练模型;模型通信模块负责在各终端与服务器之间传输模型,包括将各终端训练的模型上传到服务器,以及从服务器将模型下载到各终端;模型聚合模块对所有终端上传到服务器的一个或多个模型进行部分聚合,或者,对上传到服务器的所有模型进行全局聚合;模型交换模块实现模型在不同终端间的随机交换,其中,模型交换模块将模型聚合模块部分聚合后的模型在不同终端间进行交换训练,再将部分聚合后的训练更新的所有模型传给模型聚合模块进行全局聚合,或者,模型交换模块将模型在不同终端间进行交换训练,再将训练后的所有模型传给模型聚合模块进行全局聚合。
上述实施例中,数据采集模块中:各终端的数据采集独立进行,采集到的数据基于用户个人特征与个人行为。各终端间采集的数据分布不相同,对应地,各终端训练得到的模型的参数也不相同。
在一优选实施例中,模型交换模块将所有终端上传的模型随机打乱,并将打乱后的模型发送给除本地终端之外的终端,使各模型在除本地终端之外的其它任意一个随机选定的终端上进行训练更新,实现模型在各终端之间的交换;将各终端交换后训练的模型再上传到服务器,服务器进行全局聚合。具体的,如图3所示,将自1、2、3号终端获取的模型随机打乱,分别分配给2、3、1号终端。
在一优选实施例中,模型交换模块将部分聚合后的模型随机打乱顺序,并发送给除本地终端之外的终端,实现模型在各终端之间的交换,使各模型在除本地终端之外的其它任意一个随机选定的终端上进行训练更新。具体的,如图4所示,将终端模型先部分聚合后,再随机打乱。模型交换模块将每一终端上传的模型与其他一个或多个(L个)随机选取的终端的模型进行部分聚合,然后将聚合后的模型随机打乱分配给指定终端。具体的,如图4所示,模型交换模块将1、2、3号终端所上传模型分别与3,1,2号模型进行聚合,得到新的模型1⊕3、1⊕2、2⊕3,然后将模型1⊕3、1⊕2、2⊕3分别分配给2、1、3号终端。2、1、3号终端交换后训练的模型再上传到服务器,服务器进行全局聚合。
模型交换模块可以位于服务器上,通过上述的模型交换,各个模型的数据能够更接近全体数据集,使得各模型版本接近,从而使得聚合模型能够更快收敛,且得到更优的效果。
在一优选实施例中,上述保护用户隐私的联邦学习网络***还包括数据存储模块,用于存储数据采集模块采集的数据。数据存储模块可以位于各个终端上,用于存储本地的用户数据。
模型通信模块在终端与服务器间传递模型参数或梯度信息,模型交换模块实现在终端间交换模型,模型聚合模块将所有终端模型同一位置的参数进行聚合。模型聚合模块将所有终端上传模型进行聚合,生成一个统一的模型,该模型可以对应具体的应用,以解决该应用中具体的实际问题。联邦学习通过分布在多个终端的局部数据,训练一个全局的模型,因此各个终端根据所持有的局部数据,训练一个结构相同的模型,并进行全局聚合获得全局模型,因此模型聚合模块将模型同一位置的参数进行聚合。
在一实施例中,上述保护用户隐私的联邦学习网络***具体的使用如下:
(1)服务器发送一个统一的模型给各终端;
(2)各终端接收该模型,利用数据采集模块采集的本地数据训练更新模型,更新一定轮数后,各终端将训练后的模型发送给服务器;
(3)模型交换模块在不同终端间交换模型;
(4)重复(2)到(3)k次,k≥1,将最终得到的各终端模型上传到服务器;
(5)服务器将接收到的模型进行全局聚合,得到一个新的统一模型。
聚合方法通过线性或非线性方式组合选定模型,包括但不限于将将各个模型对应位置的参数进行算术平均。
(6)重复(1)到(5),直到模型收敛。
在另一实施例中,上述保护用户隐私的联邦学习网络***具体的使用如下:
(1)服务器发送一个统一的模型给各终端;
(2)各终端接收该模型,利用数据采集模块采集的本地数据训练更新模型,更新一定轮数后,各终端将训练后的模型发送给服务器;
(3)模型聚合模块针对每个终端,聚合一个或多个终端的模型;
(4)模型交换模块在不同终端间交换模型;
(5)重复(2)到(4)k次,k≥1,将最终得到的各终端模型上传到服务器;
(6)服务器将接收到的模型进行全局聚合,得到一个新的统一模型。
(7)重复(1)到(6),直到模型收敛。
在上述实施例基础上,本发明在另一实施例中还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一实施例中的保护用户隐私的联邦学习方法。
在另一实施例中,本发明提供一种保护用户隐私的图像分类方法,包括图像分类模型的训练,采用训练得到的模型对图像进行分类。其中图像分类模型的训练采用上述的保护用户隐私的联邦学***均所有终端的模型,并发送回各个终端。在每个全局训练轮次中,在各个终端局部训练了一定轮次(局部训练轮次)后,即将当前模型发送至服务器,由服务器随机交换或部分聚合各个终端的模型,并发送回其他各个终端。各个终端以所收到的模型,继续进行局部训练。上述过程可重复多次,直至完成一个全局训练轮次。最终通过上述包括模型交换和局部聚合的过程,加快模型训练的收敛速度,提升在所有终端的训练数据上的训练准确率(如在实施列中为图像分类),并能够保护用户隐私。
本发明实施例的数据隐私保护操作,包括模型交换和模型部分聚合,两者可以叠加组合以及重复。模型交换为服务器随机交换所收到的各个终端的模型,模型部分聚合为服务器聚合随机选择的一个或多个终端的模型。模型部分聚合的目的在于避免模型逆向攻击,避免从训练数据逆向推断出模型参数。因此,本发明实施例由于其隐私保护的特点,还能够应用于敏感场景(如医疗、监控等)的图像分析。
应用实例
本实例中从模型精度与收敛速度两个方面对本发明实施例图像分类的实施效果进行分析,其实现过程采用上述保护用户隐私的联邦学习方法、网络***进行实施,采用的图像数据集为MNIST和Cifar-10数据集。比较采用本发明上述实施例中的保护用户隐私的联邦学习方法和网络***、FedExg与McMahan等人在“Communication-efficient learningof deep networks from decentralized data”中的方法FedAvg,以及Zhao等人在“Federated learning with non-iid data”中的方法FedShare进行比较。其中,对不使用部分聚合操作的实施例记为FedExg-S;对使用部分聚合操作的实施例记为FedExg-A。三种方法均在每个终端上随机分配2个类别的数据进行训练。
分析模型分类准确度可得:
在MNIST数据集上,由于图像分类任务非常简单,图像特征较为单一,三种方法取得了较为一致的结果。
在CIFAR-10数据集上,本发明上述实施例在各个测试实例相较于FedAvg都取得了4%-5%的准确度提升。FedExg-S在20个终端的情况下和FedShare准确度相当,在50和100个终端的情况下相对FedShare能够取得1%-2%的增益。同时观察到,FedExg-A模型的图像分类准确度随着训练的增加不断上升。可以合理推断,当训练轮数足够多时,FedExg-A的图像分类准确度将大大超过FedAvg和FedShare方法,且逐渐逼近中心化训练结果。
如下表所示,为本发明实施例在MNIST和CIFAR-10数据集上图像分类准确率与收敛速度的统计结果。
分析模型收敛速度可得:
在本测试实例中,将收敛速度定义为模型到达预定分类准确率所需的训练轮数。在本测试实例中,对MNIST任务将预定图像分类准确率定为97%,对CIFAR-10任务将预定图像分类准确率定为69%。
在MNIST和CIFAR-10数据集上,在任意测试实例中,FedExg的收敛速度都优于FedAvg。尽管FedShare因为共享部分数据,在训练初始阶段就能取得较好的结果,收敛速度较快,但该方法在一定程度上违背了联邦学习不共享数据的基本假设。而本发明实施例隐式地扩大数据集,可以在不需要终端间共享本地数据的情况下,提高模型学习整体效果,保证对数据隐私的保护,可以用于各个领域,包括但不限于图像分类和检测,有更广泛的应用前景。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述***中对应的单元等予以实现,本领域技术人员可以参照所述***的技术方案实现所述方法的步骤流程,即,所述***中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种保护用户数据隐私的联邦学习方法,其特征在于,包括:
采集各终端上用户行为产生的数据,保存于该本地终端;
服务器发送一个统一的模型给各终端,各终端利用采集到的所述数据训练所述模型;
将各终端训练后的所述模型上传到所述服务器,所述服务器对所述模型先在不同终端之间进行交换后再全局聚合;
所述采集各终端上用户行为产生的数据,包括:各终端的数据采集独立进行,采集到的数据基于用户个人特征与个人行为;各终端间采集的数据分布不相同,对应地,各终端训练得到的所述模型的参数也不相同;
所述服务器对所述模型先在不同终端之间进行交换后再全局聚合,包括:
将所有终端上传的所述模型随机打乱,并将打乱后的所述模型发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;
将各终端交换后训练更新的所述模型再上传到所述服务器,所述服务器对所有终端的模型进行全局聚合。
2.根据权利要求1所述的保护用户数据隐私的联邦学习方法,其特征在于,所述服务器对模型进行聚合,其中聚合方法通过线性或非线性方式组合选定模型。
3.一种保护用户数据隐私的联邦学习网络***,其特征在于,包括:
数据采集模块,采集各终端上用户行为产生的数据,保存于本地终端;
本地训练模块,接收服务器发送的一个统一的模型,利用采集到的本地终端的数据训练所述模型;
模型通信模块,负责在各终端与所述服务器之间传输所述模型,包括将各终端训练的所述模型上传到所述服务器,以及从所述服务器将所述模型下载到各终端;
模型聚合模块,对所有终端上传到所述服务器的一个或多个模型进行部分聚合,或对终端上传到所述服务器的所有模型进行全局聚合;
模型交换模块,实现所述模型在不同终端间的随机交换,其中,所述模型交换模块将所述模型聚合模块部分聚合后的所述模型在不同终端间进行交换训练,再传给所述模型聚合模块进行全局聚合;
所述数据采集模块,采集各终端上用户行为产生的数据,包括:各终端的数据采集独立进行,采集到的数据基于用户个人特征与个人行为;各终端间采集的数据分布不相同,对应地,各终端训练得到的所述模型的参数也不相同;
所述模型交换模块将所有终端上传的所述模型随机打乱,并将打乱后的所述模型发送给除所述本地终端之外的终端,实现所述模型在各终端之间的交换,使各模型在除所述本地终端之外的其它任意一个随机选定的终端上进行训练更新;将各终端交换后训练更新的所述模型再传到所述模型聚合模块进行全局聚合。
4.根据权利要求3所述的保护用户数据隐私的联邦学习网络***,其特征在于,所述模型聚合模块,其中聚合方法通过线性或非线性方式组合选定模型。
5.一种保护用户数据隐私的图像分类方法,包括图像分类模型的训练,采用训练得到的模型对图像进行分类,其特征在于:所述图像分类模型的训练采用权利要求1-2任一项所述的保护用户数据隐私的联邦学习方法,或者采用权利要求3-4任一项所述的保护用户数据隐私的联邦学习网络***实现。
6.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-2任一所述的保护用户数据隐私的联邦学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151109.0A CN111477290B (zh) | 2020-03-05 | 2020-03-05 | 保护用户隐私的联邦学习和图像分类方法、***及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151109.0A CN111477290B (zh) | 2020-03-05 | 2020-03-05 | 保护用户隐私的联邦学习和图像分类方法、***及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111477290A CN111477290A (zh) | 2020-07-31 |
CN111477290B true CN111477290B (zh) | 2023-10-31 |
Family
ID=71747352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151109.0A Active CN111477290B (zh) | 2020-03-05 | 2020-03-05 | 保护用户隐私的联邦学习和图像分类方法、***及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111477290B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967910A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种用户客群分类方法和装置 |
CN114257386B (zh) * | 2020-09-10 | 2023-03-21 | 华为技术有限公司 | 检测模型的训练方法、***、设备及存储介质 |
US11494700B2 (en) * | 2020-09-16 | 2022-11-08 | International Business Machines Corporation | Semantic learning in a federated learning system |
CN114282678A (zh) * | 2020-09-18 | 2022-04-05 | 华为技术有限公司 | 一种机器学习模型的训练的方法以及相关设备 |
CN112164224A (zh) * | 2020-09-29 | 2021-01-01 | 杭州锘崴信息科技有限公司 | 信息安全的交通信息处理***、方法、设备及存储介质 |
CN112100295A (zh) * | 2020-10-12 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于联邦学习的用户数据分类方法、装置、设备及介质 |
CN112232518B (zh) * | 2020-10-15 | 2024-01-09 | 成都数融科技有限公司 | 一种轻量级分布式联邦学习***及方法 |
CN112232519B (zh) * | 2020-10-15 | 2024-01-09 | 成都数融科技有限公司 | 一种基于联邦学习的联合建模方法 |
CN112329940A (zh) * | 2020-11-02 | 2021-02-05 | 北京邮电大学 | 一种结合联邦学习与用户画像的个性化模型训练方法及*** |
CN112565331B (zh) * | 2020-11-02 | 2022-08-12 | 中山大学 | 一种基于边缘计算的端-边协同联邦学习优化方法 |
CN112732960B (zh) * | 2020-12-30 | 2022-09-27 | 北京理工大学 | 一种基于在线联邦学习的图像分类方法 |
CN113179244B (zh) * | 2021-03-10 | 2022-12-23 | 上海大学 | 一种面向工业互联网边界安全的联邦深度网络行为特征建模方法 |
CN113222169B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 结合大数据分析反馈的联邦机器组合服务方法与*** |
CN113033652B (zh) * | 2021-03-23 | 2023-03-24 | 电子科技大学 | 一种基于区块链与联邦学习的图像识别***及方法 |
CN113259363B (zh) * | 2021-05-26 | 2022-09-02 | 中国人民解放军战略支援部队信息工程大学 | 一种隐蔽通信方法及装置 |
CN113221105B (zh) * | 2021-06-07 | 2022-09-30 | 南开大学 | 一种基于部分参数聚合的鲁棒性联邦学习算法 |
CN113850396B (zh) * | 2021-09-28 | 2022-04-19 | 北京邮电大学 | 隐私增强型联邦决策方法、装置、***和存储介质 |
CN113935409A (zh) * | 2021-09-30 | 2022-01-14 | 光大科技有限公司 | 一种联邦学习处理方法及装置 |
CN114050976B (zh) * | 2021-10-18 | 2023-07-07 | 广州大学 | 一种面向隐私保护的iot设备通信方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN110378488A (zh) * | 2019-07-22 | 2019-10-25 | 深圳前海微众银行股份有限公司 | 客户端变化的联邦训练方法、装置、训练终端及存储介质 |
-
2020
- 2020-03-05 CN CN202010151109.0A patent/CN111477290B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN110378488A (zh) * | 2019-07-22 | 2019-10-25 | 深圳前海微众银行股份有限公司 | 客户端变化的联邦训练方法、装置、训练终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
HybridAlpha: An Effcient Approach for Privacy-Preserving Federated Learning;Runhua Xu et al.;《arXiv》;1-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN111477290A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477290B (zh) | 保护用户隐私的联邦学习和图像分类方法、***及终端 | |
CN110414567B (zh) | 数据处理方法、装置和电子设备 | |
EP3837627B1 (en) | Transaction system and method of operation thereof | |
CN110427969B (zh) | 数据处理方法、装置和电子设备 | |
CN110795477A (zh) | 数据的训练方法及装置、*** | |
CN110391895B (zh) | 数据预处理方法、密文数据获取方法、装置和电子设备 | |
CN104133765B (zh) | 网络活动的测试用例发送方法及测试用例服务器 | |
CN108537498A (zh) | 基于区块链的跨组织项目管理方法、***、设备及介质 | |
CN114118156A (zh) | 设备故障诊断方法、装置、电子设备及存储介质 | |
CN105991401A (zh) | 一种网络问答方法和*** | |
CN113988310A (zh) | 深度学习模型选择方法、装置、计算机设备和介质 | |
CN113469371A (zh) | 联邦学习方法和装置 | |
CN112307331A (zh) | 一种基于区块链高校毕业生智能招聘信息推送方法、***及终端设备 | |
CN113486584A (zh) | 设备故障的预测方法、装置、计算机设备及计算机可读存储介质 | |
CN113987941A (zh) | 时间序列预测方法、装置、计算机设备和可读存储介质 | |
Shah et al. | A survey on game theoretic approaches for privacy preservation in data mining and network security | |
CN103139136A (zh) | 一种密码的管理方法和设备 | |
WO2023071529A1 (zh) | 设备数据清洗方法、装置、计算机设备及介质 | |
Takbiri et al. | Statistical matching in the presence of anonymization and obfuscation: Non-asymptotic results in the discrete case | |
CN116340959A (zh) | 一种面向断点隐私保护的方法、装置、设备及介质 | |
CN113254989B (zh) | 目标数据的融合方法、装置和服务器 | |
Ge et al. | Mitigating the impacts of false data injection attacks in smart grids using deep convolutional neural networks | |
CN114580255A (zh) | 一种设备剩余寿命预测模型的构建方法及终端设备 | |
CN106326340B (zh) | 一种数据处理方法及装置 | |
CN114048804B (zh) | 一种分类模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |