CN113642034A

CN113642034A - 基于横纵向联邦学习的医疗大数据安全共享方法和***

Info

Publication number: CN113642034A
Application number: CN202110713157.9A
Authority: CN
Inventors: 顾东晓; 曹林; 李敏; 王晓玉; 杨雪洁; 赵旺; 谢懿; 鲍超
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-11-12

Abstract

本发明提供一种基于横纵向联邦学***台上搭建的第一模型参数；根据各个第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数；建立基于shapley值的分配模型，分别确定第一机构获取的第一模型和第二模型训练结果。既解决了不同区域医疗相关机构之间的数据共享问题，也解决了同一区域不同机构之间的数据共享；设置激励机制确保数据的可靠性以及鼓励更多的医疗相关机构参与共享过程。

Description

基于横纵向联邦学习的医疗大数据安全共享方法和***

技术领域

本发明涉及医疗大数据安全共享技术领域，具体涉及一种基于横纵向联邦学习的医疗大数据安全共享方法、***、存储介质和电子设备。

背景技术

近年来，数据隐私保护越来越受到全社会的关注，企业、机构之间的数据在没有用户授权的情况下禁止交换。不同企业、机构之间数据共享困难重重，形成了大大小小的“数据孤岛”，这给人工智能和机器学习带来了巨大的挑战。尤其在医疗方面，只有在对大量数据、大量病例分析之后才能获得准确的结果，而由于医疗大数据的特殊性、各个医院采用的信息采集***的差异性，造成各类医疗大数据交互不畅。医院之间的数据共享困难，与其他健康、养老等机构之间的数据共享更是难上加难。在不暴露用户数据和侵犯其个人隐私的基础上，共享不同机构之间的用户数据，可以提供更加全面的指标分析数据，帮助决策者做出正确的判断，有助于实现建设健康中国的战略目标。

联邦学习是一种分布式的机器学习算法，研究人员开始使用该项技术应用于医疗大数据共享领域。联邦学习模式包括横向联邦学习、纵向联邦学习、联邦迁移学习。其中，横向联邦学习，一般用于实体间用户特征重叠较多，而用户重叠较少的情况下。纵向联邦学习，一般适用于实体间具备相同或者类似的用户空间，但是却拥有不同的特征空间。联邦迁移学习则适用于各个参与方不仅样本维度而且特征空间完全不同。

但是，上述医疗大数据共享技术不能在保护用户的隐私前提下完成数据的互通互连。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于横纵向联邦学习的医疗大数据安全共享方法、***、存储介质和电子设备，解决了在医疗大数据共享过程中泄露用户隐私的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于横纵向联邦学习的医疗大数据安全共享方法，包括：

S1、根据第一机构在医疗大数据共享平台上发起的第一数据共享请求和第二数据共享请求，确定响应所述第一数据共享请求的第二机构，以及响应所述第二数据共享请求的第三机构；

S2、根据各个所述第二机构的相关医疗大数据，采用横向联邦学***台上搭建的第一模型参数；

S3、根据各个所述第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数；

S4、建立基于shapley值的分配模型，分别确定所述第一机构获取的第一模型和第二模型训练结果；

S5、根据所述第一模型和第二模型训练结果，结合所述第一机构的相关医疗大数据，实现各个机构之间的医疗大数据安全共享。

优选的，所述步骤S1中的医疗大数据共享平台包括基础层、中间层和应用层。

优选的，所述步骤S2具体包括：

S21、各个所述第二机构从所述医疗大数据共享平台下载所述第一模型及其模型哈希摘要后，将所述第二机构完成计算准备状态信息上链，所述完成计算准备状态是指所述第二机构完成将所述第一模型和对应的相关医疗大数据传输到各自的本地数据中心；

S22、所述计算准备状态信息上链完成后，发送启动本地模型训练的指令，将各自训练得到的模型参数加密后和第一模型哈希摘要上链；

S23、加密参数和哈希摘要上链完成后，验证所述第一模型哈希摘要，验证通过后解密所述加密参数，触发聚合计算的智能合约；

S24、根据聚合计算结果，更新所述第二机构的本地模型；直到模型误差小于可接受误差，完成所述第一模型的模型参数更新。

优选的，所述步骤S3包括:

S31、根据所述第一机构和第三机构的用户数据特征，采用RSA算法和哈希算法获取所述第一机构和第三机构的重叠用户；

S32、根据所述重叠用户在第一机构的用户数据标签和所述第二机构的相关医疗大数据，获取各个所述第三机构对应的各个双方联邦计算中间梯度；

S33、根据所述各个双方联邦计算中间梯度，更新所述第二模型；直到模型误差小于可接受误差，完成所述第二模型的模型参数更新。

优选的，所述步骤S4中分配模型中每个参与机构的激励参数表示为：

其中，

表示第i个参与机构的激励参数；N代表参与机构的总个数；S代表的是N个参与机构的子集；v_S表示子集S的单独贡献值；v_(S∪{i})表示集合S∪{i}的贡献值；N\{i}表示不包括第i个参与机构的子集。

一种基于横纵向联邦学习的医疗大数据安全共享***，包括：

响应确定模块，用于根据第一机构在医疗大数据共享平台上发起的第一数据共享请求和第二数据共享请求，确定响应所述第一数据共享请求的第二机构，以及响应所述第二数据共享请求的第三机构；

第一更新模块，用于根据各个所述第二机构的相关医疗大数据，采用横向联邦学***台上搭建的第一模型参数；

第二更新模块，用于根据各个所述第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数；

结果分配模块，用于建立基于shapley值的分配模型，分别确定所述第一机构获取的第一模型和第二模型训练结果；

数据共享模块，用于根据所述第一模型和第二模型训练结果，结合所述第一机构的相关医疗大数据，实现各个机构之间的医疗大数据安全共享。

一种存储介质，其存储有用于基于横纵向联邦学习的医疗大数据安全共享的计算机程序，其中，所述计算机程序使得计算机执行如上所述的医疗大数据安全共享方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的医疗大数据安全共享方法。

(三)有益效果

本发明提供了一种基于横纵向联邦学习的医疗大数据安全共享方法、***、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明中根据各个所述第二机构的相关医疗大数据，采用横向联邦学***台上搭建的第一模型参数；根据各个所述第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数；建立基于shapley值的分配模型，分别确定所述第一机构获取的第一模型和第二模型训练结果；根据所述第一模型和第二模型训练结果，结合所述第一机构的相关医疗大数据，实现各个机构之间的医疗大数据安全共享。在没有直接获取其他医疗相关机构的原始医疗大数据的情况下，既解决了不同区域医疗相关机构之间的数据共享问题，也解决了同一区域不同机构之间的数据共享；设置激励机制确保数据的可靠性以及鼓励更多的医疗相关机构参与共享过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于横纵向联邦学习的医疗大数据安全共享方法的流程示意图；

图2为本发明实施例提供的一种基于横纵向联邦学习的医疗大数据安全共享***的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于横纵向联邦学习的医疗大数据安全共享方法、***、存储介质和电子设备，解决了在医疗大数据共享过程中泄露用户隐私的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例中根据各个所述第二机构的相关医疗大数据，采用横向联邦学***台上搭建的第一模型参数；根据各个所述第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数；建立基于shapley值的分配模型，分别确定所述第一机构获取的第一模型和第二模型训练结果；根据所述第一模型和第二模型训练结果，结合所述第一机构的相关医疗大数据，实现各个机构之间的医疗大数据安全共享。在没有直接获取其他医疗相关机构的原始医疗大数据的情况下，既解决了不同区域医疗相关机构之间的数据共享问题，也解决了同一区域不同机构之间的数据共享；设置激励机制确保数据的可靠性以及鼓励更多的医疗相关机构参与共享过程。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

第一方面，如图1所示，本发明实施例提供了一种基于横纵向联邦学习的医疗大数据安全共享方法，包括：

本发明实施例在没有直接获取其他医疗相关机构的原始医疗大数据的情况下，既解决了不同区域医疗相关机构之间的数据共享问题，也解决了同一区域不同机构之间的数据共享；设置激励机制确保数据的可靠性以及鼓励更多的医疗相关机构参与共享过程。

下面结合具体内容分别对上述各个步骤进行详细介绍。

S1、根据第一机构在医疗大数据共享平台上发起的第一数据共享请求和第二数据共享请求，确定响应所述第一数据共享请求的第二机构，以及响应所述第二数据共享请求的第三机构。

需要注意的是，所述第一机构、第二机构是指位于不同领域内的医疗相关机构，特点为用户特征重叠较多，而用户重叠较少的情况；所述第一机构、第三机构是指位于相同领域内的医疗相关机构，特点为用户特征重叠较少，而用户重叠较多的情况。所述医疗相关机构包括医院以及其他健康、养老等机构。所述第二机构、第三机构均是指联邦学习中除第一机构之外的多个其他参与机构。

所述医疗大数据共享平台包括基础层、中间层和应用层。

其中，基础层为基础设施，包括计算、存储、通信网络等多种资源。

中间层包括区块链服务、加密组件、联邦学***台参数，实现一键式平台初始化，快速高效部署区块链节点。容器管理包括配置管理、镜像仓库、任务管理功能，支持隔离环境下的任务运行。运维管理则包括环境配置、组件升级和日志管理，用于检测和维护平台运作。

应用层包括区块链浏览器、机构管理、数据查询、数据监管、计算溯源和平台初始化多种应用。

S2、根据各个所述第二机构的相关医疗大数据，采用横向联邦学***台上搭建的第一模型参数。具体包括：

S21、各个所述第二机构从所述医疗大数据共享平台下载所述第一模型及其模型哈希摘要后，将所述第二机构完成计算准备状态信息上链，所述完成计算准备状态是指所述第二机构完成将所述第一模型和对应的相关医疗大数据传输到各自的本地数据中心。

假设存在所述第一机构为A医院，自身拥有的数据不能很好地训练模型，A医院可以在平台搭建模型、编写聚合计算的智能合约然后发起数据共享请求。存在第二机构：B、C、D三家医院想得到该模型的训练结果，则这三家医院可以在平台上响应A医院。B、C、D三家医院下载模型及模型哈希摘要，将模型和患者的生理数据、病例数据等相关医疗大数据传输到本地数据中心，做好计算准备后将状态信息上链。

S22、所述计算准备状态信息上链完成后，发送启动本地模型训练的指令，将各自训练得到的模型参数加密后和第一模型哈希摘要上链。

A医院通过链上查询实时非阻塞监听其他医院是否均处于计算准备状态，再发送启动本地模型训练的指令。模型训练每轮计算后，区块链节点对参数加密，将加密参数和模型哈希一起记录到区块链账本。

S23、加密参数和哈希摘要上链完成后，验证所述第一模型哈希摘要，验证通过后解密所述加密参数，触发聚合计算的智能合约。

区块链节点同时启动非阻塞监听机制，实时动态监测链上各节点的每轮迭代计算情况，当监听到所有医院均已上传本来计算的参数，则触发聚合计算的智能合约。

聚合计算前验证各医院的模型哈希值，以保证各医院是使用A医院搭建的模型，保证模型的一致性；聚合计算前链上查询聚合计算状态，只有处于计算状态才能进行。再访问A医院提供的Restful接口，查询到对应的备案后，对加密参数分别解密，进而执行聚合计算；将聚合计算结果(所有参与医院数据通过A医院提供的模型训练得到的结果)和计算状态(状态为结束计算)记录到区块链，并在此访问Restful接口注销本轮备案。

各医院通过链上查询实时非阻塞监听每轮聚合计算状态；监听到每轮聚合计算结果则更新本地模型，继续下一轮模型训练。直到模型误差E≤可接受误差E′，迭代停止，第一模型训练结束。

S3、根据各个所述第三机构的相关医疗大数据，采用纵向联邦学***台上搭建的第二模型参数。具体包括：

S31、根据所述第一机构和第三机构的用户数据特征，采用RSA算法和哈希算法获取所述第一机构和第三机构的重叠用户。

假设第三机构：养老机构A拥有用户u1、u2、u3、u4，第一机构：医疗机构B拥有用户u1、u2、u3、u5。要求在***露非公共用户的情况下求出双方的公共用户，即上述重叠用户。机构B由RSA算法产生n、e、d，并发送包含n、e的公钥给机构A。机构A对自身拥有的用户数据进行加密操作，哈希+Ri来实现，再将加密后的数据YA发送给机构B。机构B对YA取d次幂得到ZA，再对自身的用户数据进行加密操作，取哈希再d次幂再哈希，得到ZB，接着将ZA、ZB发送给机构A。机构A得到ZB后，再对自身的用户加密数据ZA除Ri再哈希，得到DA。根据DA，ZB求交集的结果，机构A可以判断出机构A和机构B的重叠用户为u1、u2、u3，最后再将结果I发送给B，样本对齐结束

S32、根据所述重叠用户在第一机构的用户数据标签和所述第二机构的相关医疗大数据，获取各个所述第三机构对应的各个双方联邦计算中间梯度。

假设养老机构A存在特征X1和X2，如表1所示：

表1

姓名	X1(睡眠时间)	X2(运动次数)
			u1	6	2
u2	8	1
			u3	7	3
u4	7	1

假设医疗机构B存在特征X3和标签Y，如表2所示：

表2

姓名	X3(体温)	Y(患有某疾病)
			u1	36.3	是
u2	37.1	否
			u3	36.8	否
u5	36.9	是

医疗大数据安全共享平台生成秘钥对并分发公钥给养老机构A和医疗机构B，用以对训练过程中需要交换的数据进行加密。

养老机构A和医疗机构B之间以加密形式交互用于计算双方联邦计算中间梯度。养老机构A和医疗机构B分别基于加密的梯度值进行计算，同时医疗机构B根据其标签数据(用户是否患有某疾病)计算损失，并把这些结果汇总到平台，平台通过汇总结果计算总梯度，再将解密后的梯度分别回传给养老机构A和医疗机构B。

医疗机构B根据所述各个双方联邦计算中间梯度更新第二模型的参数，不断迭代上述过程，直到模型误差小于可接受误差，完成所述第二模型的模型参数更新。

S4、建立基于shapley值的分配模型，分别确定所述第一机构获取的第一模型和第二模型训练结果。

不同医疗相关数据持有方提供数据量不同，数据的价值也不相同，各方获得的共享结果也应该不同，这样才会使数据量丰富的医疗相关机构愿意加入到该医疗大数据安全共享平台中。

在总模型训练的过程中，根据参与方的数据特征、数据和子模型对总模型效果的提升所做出的贡献进行激励奖励，通过以下公式计算不同机构的激励参数，即所述分配模型中每个参与机构的激励参数表示为：

其中，

设置激励机制解决了为什么不同机构要加入联邦共同建模的问题，即建立模型以后模型的效果会在实际应用中表现出来，并记录在永久数据记录机制(如区块链)上。提供的数据越多，价值越高，可靠性越高的机构会看到模型的效果也更好，以避免某些机构滥竽充数，同时也会吸引更多优质机构加入共享平台。

可以通过目标结合原则来实现判定各机构应该享有的模型效果，具体操作如下：将模型效果分为三等：上等、中等、下等，再以每次数据共享活动参与机构的最高激励参数T确定两个目标：α_T、β_T。(α、β为系数，且1>α>β，具体数值则由当次数据共享活动的参与方商议确定)激励参数大于等于α_T的机构能够看到上等的模型效果，激励参数大于等于β_T且小于α_T的机构则能够看到中等的模型效果，至于其他机构则只能看到下等的模型效果。

所述第一机构根据对应的激励参数享有不同程度的模型训练结果，如果激励参数高，则获取更优的模型训练结果。至此基于横纵向联邦学习的医疗大数据安全共享任务结束，实现了在***露用户数据的基础上完成了信息价值的共享。

第二方面，如图2所示，本发明实施例提供了一种基于横纵向联邦学习的医疗大数据安全共享***，包括：

可理解的是，本发明实施例提供的种基于横纵向联邦学习的医疗大数据安全共享***与本发明实施例提供的基于区块链的自助互助养老种基于横纵向联邦学习的医疗大数据安全共享方法相对应，其有关内容的解释、举例和有益效果等部分可以参考医疗大数据安全共享方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供了一种存储介质，其存储有用于基于横纵向联邦学习的医疗大数据安全共享的计算机程序，其中，所述计算机程序使得计算机执行如上所述的医疗大数据安全共享方法。

第四方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于横纵向联邦学习的医疗大数据安全共享方法，其特征在于，包括：

2.如权利要求1所述的医疗大数据安全共享方法，其特征在于，所述步骤S1中的医疗大数据共享平台包括基础层、中间层和应用层。

3.如权利要求2所述的医疗大数据安全共享方法，其特征在于，所述步骤S2具体包括：

4.如权利要求2所述的医疗大数据安全共享方法，其特征在于，所述步骤S3包括:

5.如权利要求1所述的医疗大数据安全共享方法，其特征在于，所述步骤S4中分配模型中每个参与机构的激励参数表示为：

其中，

6.一种基于横纵向联邦学习的医疗大数据安全共享***，其特征在于，包括：

7.一种存储介质，其特征在于，其存储有用于基于横纵向联邦学习的医疗大数据安全共享的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～5任一项所述的医疗大数据安全共享方法。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～5任一项所述的医疗大数据安全共享方法。