CN113779613B

CN113779613B - 用于联邦学习的安全数据网络的数据管理方法及装置

Info

Publication number: CN113779613B
Application number: CN202111305776.0A
Authority: CN
Inventors: 王寰; 陈沫
Original assignee: Shenzhen Zhixing Technology Co Ltd
Current assignee: Shenzhen Zhixing Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-08
Anticipated expiration: 2041-11-05
Also published as: CN113779613A

Abstract

本申请涉及一种用于联邦学习的安全数据网络的数据管理方法及装置。该方法在数据提供方执行，包括：发送数据提供方的至少一个数据集中每一个数据集的特征标识给与数据提供方连接的至少一个数据应用方，特征标识用于定位与特征标识对应的数据集；生成特定于至少一个数据应用方中每一个数据应用方的数据使用报告，特定于该数据应用方的数据使用报告指示该数据应用方分别针对至少一个数据集中每一个数据集的数据使用量；和针对至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整数据提供方为该数据应用方提供的资源配置。如此实现以数据使用量驱动的整体优化和改善数据运营效果。

Description

用于联邦学习的安全数据网络的数据管理方法及装置

技术领域

本申请涉及数据安全和隐私保护技术领域，具体涉及一种用于联邦学习的安全数据网络的数据管理方法及装置。

背景技术

随着人工智能和大数据挖掘分析等应用领域的发展，对数据量的需求越来越大。例如训练人工智能的应用模型需要使用大量带有合适的数据标签或者特征数值的训练数据。高质量的数据往往来源于经营活动中产生和积累的应用数据。但是应用数据往往分散在不同的组织和个体手上，例如交易数据分散在各个金融机构，医疗诊断数据分散在各个医疗机构。跨行业跨领域的应用数据往往也是分散的，例如互联网领域的社交属性数据和电商交易数据往往由不同实体掌控。随着数据所有权的重要性、用户隐私和数据安全等受到更多重视，也随着法律法规对数据收集处理提出更严格的约束和要求，掌握应用数据的各个组织或个体往往不愿意或者没有合适手段进行彼此之间的合作，从而很难让各自掌握的应用数据共同发挥作用。这种数据分享和协同合作方面的困境被称之为数据孤岛现象。为了解决跨行业跨组织的数据合作难题，尤其是关键的隐私保护及数据安全的问题，提出了联邦学习的概念。联邦学习指的是拥有数据的各个参与方，在不共享受保护的隐私数据且自有数据不传递到外部的前提下，通过加密的方式交换模型相关信息从而实现协同优化联邦学习模型。其中，联邦学习根据训练数据在不同参与方之间的数据特征空间和样本空间的分布情况，可以划分为在数据特征空间重叠较大而在样本空间重叠较小的横向联邦学习，在数据特征空间重叠较小而在样本空间重叠较大的纵向联邦学习，以及在数据特征空间和样本空间均重叠较小的联邦迁移学习。

随着《中华人民共和国数据安全法》以及其它相关法律法规的出台及施行，现有法律体系对如何使用个人数据以及加强数据安全和隐私保护提出了更高的监管要求。而许多持有应用数据的组织和个体缺乏足够的技术支撑来满足日益提高的数据隐私合规性要求，即使双方达成了合作协议也还面临隐私计算环境建设、数据传输、数据留存等方面的技术挑战，从而难以在满足数据隐私合规性要求的前提下做到数据互通利用，进而无法有效克服数据分享和协同合作方面的困境。另一方面，为这些组织或个体提供隐私计算能力和联邦学习产品的外部服务商，有的通过数据集中处理的方式从而面临加密后原始数据离开本地的隐私泄露风险，有的仅提供标准化的联邦学习产品从而无法有效针对数据提供方的实际情况和数据运营情况做出优化。

为此，需要一种用于联邦学习的安全数据网络的数据管理方法及装置，其不仅能够满足联邦学习应用场景下持有应用数据的各个数据提供方在满足数据隐私合规性要求前提下克服数据分享和协同合作方面的困境的需求，而且能够有效地根据这些数据提供方的复杂多变的实际情况和数据运营情况做出优化。

发明内容

第一方面，本申请实施例提供了一种数据管理方法，所述数据管理方法在数据提供方执行。所述数据管理方法包括：发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置。

第一方面所描述的技术方案，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述特征标识还包括：对与所述特征标识对应的数据集的数据进行加密操作后得到的加密信息和/或对与所述特征标识对应的数据集的数据进行标签特征提取操作后得到的特征信息。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，调整所述数据提供方为该数据应用方提供的资源配置，包括：中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在特定时间段内针对所述至少一个数据集中每一个数据集的数据使用量均为零或者小于设定值时，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，调整所述数据提供方为该数据应用方提供的资源配置，还包括：增加或减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，增加或减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在第一预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均低于第一预设阈值时，减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源；或者当特定于该数据应用方的数据使用报告指示该数据应用方在第二预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均高于第二预设阈值时，增加所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，包括：根据特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告以及所述至少一个数据应用方中每一个数据应用方各自的联邦学习框架版本、地理位置以及工作状态，确定相对于该数据应用方的可替换站点；根据特定于该数据应用方的数据使用报告，选择性地将所述数据提供方为该数据应用方提供的资源配置分配给该可替换站点。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：发送所述至少一个数据集中每一个数据集的评分给所述至少一个数据应用方，所述评分基于曾使用过与所述评分对应的数据集的数据应用方的反馈得出，并且提供反馈的数据应用方与所述至少一个数据应用方位于相同或相似的行业，或者相同或相似的业务场景。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：根据所述至少一个数据集中每一个数据集的数据使用报告，确定所述至少一个数据集中每一个数据集的贡献度；针对所述至少一个数据集中每一个数据集，根据所述至少一个数据集中每一个数据集的贡献度，设定特定于该数据集的运营策略。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，其中，根据该数据集的数据使用报告，调整该数据集的特征标识，包括：根据该数据集的数据使用报告，调整该数据集的特征标识的描述信息。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：根据所述至少一个数据集中每一个数据集的数据使用报告，确定所述至少一个数据集中每一个数据集的贡献度；针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告和该数据集的贡献度，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，特定于该数据应用方的数据使用报告还指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用时间，所述数据管理方法还包括：针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告所指示的数据使用量和数据使用时间，调整所述数据提供方为该数据应用方提供的资源配置。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：针对所述至少一个数据应用方中每一个数据应用方，设定特定于该数据应用方的授权配置以及根据该授权配置使得所述至少一个数据集中部分数据集对该数据应用方不可见。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据管理方法还包括：不发送所述至少一个数据集中对该数据应用方不可见的数据集的特征标识给该数据应用方；

所述数据提供方中止响应来自该数据应用方的针对所述至少一个数据集中对该数据应用方不可见的数据集的数据请求。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据提供方和所述至少一个数据应用方同属于一个安全数据网络。

根据第一方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据提供方和所述至少一个数据应用方预先互相添加对方为合作站点。

第二方面，本申请实施例提供了一种非瞬时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现根据第一方面中任一项所述的数据管理方法。

第二方面所描述的技术方案，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

第三方面，本申请实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现根据第一方面中任一项所述的数据管理方法。

第三方面所描述的技术方案，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

第四方面，本申请实施例提供了一种数据管理装置，所述数据管理装置部署在数据提供方，所述数据管理装置包括：通信单元，用于发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；数据使用报告生成单元，用于生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和资源配置单元，用于针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置。

第四方面所描述的技术方案，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

根据第四方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述资源配置单元用于，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。

根据第四方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述数据使用报告生成单元还用于：生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。

根据第四方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述资源配置单元还用于：针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

根据第四方面的技术方案的一种可能的实现方式，本申请实施例还提供了，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，所述资源配置单元还用于：根据该数据集的数据使用报告，调整该数据集的特征标识的描述信息。

第五方面，本申请实施例提供了一种数据管理***，所述数据管理***包括数据提供方和至少一个数据应用方，所述数据提供方包括第四方面中任一项所述的数据管理装置；所述数据应用方通过所述数据管理装置与所述数据提供方合作。

第五方面所描述的技术方案，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

附图说明

为了说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1示出了本申请实施例提供的用于联邦学习的安全数据网络的网络拓扑。

图2示出了本申请实施例提供的用于联邦学习的安全数据网络的数据管理方法的流程示意图。

图3示出了本申请实施例提供的用于数据管理方法的电子设备的框图。

图4示出了本申请实施例提供的数据管理装置的框图。

具体实施方式

本申请实施例为了解决如何不仅能够满足联邦学习应用场景下持有应用数据的各个数据提供方在满足数据隐私合规性要求前提下克服数据分享和协同合作方面的困境的需求，而且能够有效地根据这些数据提供方的复杂多变的实际情况和数据运营情况做出优化，这样的技术难题，而提供了一种用于联邦学习的安全数据网络的数据管理方法及装置。所述数据管理方法在数据提供方执行，包括：发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置。如此，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

本申请实施例可用于以下应用场景，包括但是不限于，多方安全计算、与联邦学习有关的机器学习模型训练、数据安全、隐私保护或者应用隐私计算框架或算法的其它应用场景等。

本申请实施例可以依据具体应用环境进行调整和改进，此处不做具体限定。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请的实施例进行描述。

图1示出了本申请实施例提供的用于联邦学习的安全数据网络的网络拓扑。如图1所示，安全数据网络（Security Data Network，SDN）由SDN服务器100，数据应用方102，数据应用方104，数据应用方106以及数据提供方110组成。应当理解的是，图1所示的SDN的结构以及其中的各参与方的数量仅为示例性，本申请实施例可以用于由任意数量的数据提供方和任意数量的数据应用方所组成的SDN。归属于同一个SDN的各个参与方之间通过安全合规高效的安全数据网络连接，其所采用的的具体网络连接方式以及相应的底层安全技术可以采用任意合适的技术手段，例如有线连接、无线连接或者有线连接与无线连接的组合，在此不做具体限定。其中，SDN服务器100仅用于提供必要的软件更新和维护功能，本身并不参与具体的数据管理，因此在一种可能的实施方式中，SDN可以不包括SDN服务器100而仅包括数据应用方和数据提供方。在另一种可能的实施方式中，可以针对不同的SDN提供各自对应的服务器也可以针对多个SDN提供统一的服务器。并且，这里所提及的数据提供方也可以理解为数据源方或者数据拥有方，可以对应任何持有应用数据或私有数据的个体或者组织。各个数据应用方，指的是向数据提供方发起合作请求或者提出数据请求，从而获得数据提供方所持有的数据。数据应用方也可以理解为数据使用方或者数据请求的发起方或者数据请求方。数据提供方和数据应用方之间可以是同一个联邦学习合作任务的参与方，或者可以是同一个联邦学习合作***的参与方，或者可以是同一个公司内的不同部门，或者可以是同一个集团下的不同子集团，或者可以是对应任意的一方请求获得另一方的数据从而实现数据分享和协同合作的场景。在一种可能的实施方式中，数据提供方和数据应用方之间事先达成合作协议例如通过线下或者合同方式，而本申请实施例所提及的用于联邦学习的安全数据网络的数据管理方法及装置，并不介入直接交易也不代为持有私有数据，而是通过下面描述的代运营相关的服务及功能从而协助各个数据提供方在满足数据隐私合规性要求前提下克服数据分享和协同合作方面的困境的需求，并且能够有效地根据这些数据提供方的复杂多变的实际情况和数据运营情况做出优化。

请继续参阅图1，SDN中的每个数据提供方部署有数据提供方客户端，例如图1所示的数据提供方110部署有数据提供方客户端112，用于将被部署的数据提供方作为运营维护角色，从而为被部署的数据提供方提供从数据授权、账单生成、日志监控到数据使用量监控的各种功能，进而为被部署的数据提供方建立能根据实际情况和数据运营情况做出优化的数据管理体系；还用于灵活地结合被部署的数据提供方的现成联邦学习产品并在此基础上提供上述优化后的数据管理体系，并且提供定制化的设定，从而有利于更好地推广。应当理解的是，在一些实施例中，可能包括两个或者更多个数据提供方，每个数据提供方部署有数据提供方客户端且具有与图1所示的数据提供方110的数据提供方客户端112类似的功能及结构。下面结合图1和图2详细说明数据提供方客户端的改进。

数据提供方110还具有联邦学习框架114，数据提供方客户端112与联邦学习框架114通过接口116连接。接口116也可以理解为数据提供方客户端112和联邦学习框架114之间进行交互的接口，数据提供方客户端112通过接口116从联邦学习框架114获得必要的信息。其中，联邦学习框架114对应任意合适的联邦学习框架或者产品，例如FATE（FederatedAI Technology Enabler）框架。FATE框架基于Python搭建出从数据求交、建模、预测到发布上线机器学习的一套全流程功能，从而实现数据可用不可见。此外，联邦学习框架114还可以对应各种用于联邦学习和隐私计算的基础框架。在一种可能的实施方式中，联邦学习框架114可以是与数据提供方客户端112一起配套提供的基础框架。在另一种可能的实施方式中，联邦学习框架114可以是已有的，或者说数据提供方110已经部署好的基础框架或产品。如此，通过结合用户已有的或者提供配套的基础框架，数据提供方客户端112可以无需改动现有架构就整合到现有架构上并为被部署的数据提供方提供从数据授权、账单生成、日志监控到数据使用量监控的各种功能，进而为被部署的数据提供方建立能根据实际情况和数据运营情况做出优化的数据管理体系。在一些实施例中，接口116是单独提供的也就是不作为数据提供方客户端112的一部分；在另一些实施例中，接口116可以是数据提供方客户端112的一部分。

请继续参阅图1，数据提供方客户端112包括多个服务模块，这些服务模块分别通过接口116从联邦学***台打通，这样就使得SDN可基于训练效果选择合适的数据提供方以及引入丰富合规的数据提供方。在一些示例性实施例中，运营模块120可以整合分析报告模块130的功能，也就是由同一个模块对数据使用量、账单、日志监控进行统计分析并且制定及执行运营策略。此外，数据提供方客户端112还可以包括模型服务模块（未示出），用于支持模型服务发布列表查询和审批。数据提供方客户端112还可以任务管理模块（未示出），用于支持如建模任务和联邦求交任务等，以及对任务生命周期管理、监控任务状态和进度，还用于支持随时取消任务。模型服务模块和任务管理模块的功能也可以整合到运营模块120，从而根据运营策略对模型发布、模型管理以及任务发布、任务管理都作出统筹管理。

应当理解的是，上述的数据提供方客户端112的各个服务模块分别通过接口116从联邦学习框架114获得必要的信息并实现相应的功能。联邦学习框架114例如FATE框架与各个数据方的数据交互中会产生数据流，例如基于远程过程调用（Remote Procedure Call，RPC）协议或者其它数据交互协议的数据流。通过解析从联邦学习框架114获得的这些数据交互信息以及其它信息，就可以获得必要的信息来实现上述各个服务模块的功能。例如，用户管理模块124可以通过解析数据交互信息来确认发出数据请求的数据应用方的身份验证信息，如网络地址或者标识符等，从而可以结合SDN用户管理服务以及协同运营模块120实现数据请求授权鉴权。再例如，账单模块128可以协同站点管理模块126以及运营模块120一起实现对特定站点或者说特定数据应用方在使用来自数据提供方110的数据的过程中所产生的费用并生成账单。因为是通过解析已有的或者配套的基础框架也就是联邦学习框架114在正常运行中所生成的数据流来获得必要信息，所以数据提供方客户端112可以无需改动现有架构就整合到现有架构上并为被部署的数据提供方提供从数据授权、账单生成、日志监控到数据使用量监控的各种功能，进而为被部署的数据提供方建立能根据实际情况和数据运营情况做出优化的数据管理体系。

在一种可能的实施方式中，数据应用方102，数据应用方104，数据应用方106各自具有数据应用方客户端（未示出）。数据应用方客户端用于跟数据提供方客户端112配合，从而让部署了数据应用方客户端的数据应用方可以通过数据提供方客户端112所提供的代运营服务获得被许可的信息，例如可以查看由数据提供方客户端112所生成的特定于该数据应用方的账单，从而保证了账单服务的公正公开。在另一种可能的实施方式中，数据应用方仅具有与数据提供方110的联邦学习框架114对应的基础框架。例如，当联邦学习框架114是FATE框架时，数据应用方也部署了FATE框架，从而可以通过FATE框架实现例如推理结果和加密中间数据的交换等；而数据提供方客户端112也可以通过FATE框架将某些基于代运营服务产生的被许可的信息传输给数据应用方，例如由数据提供方客户端112所生成的特定于该数据应用方的账单。此外，在数据提供方和数据应用方之间，可能还存在用于实现两者数据安全交互的交换节点、网关等，在此不做具体限定。

上面提到，站点管理模块126用于提供站点和服务的资源状态监控从而确保服务正常运行以及对站点进行连接和管理。这里，站点可以理解为相对于数据提供方110而言的有连接关系的计算节点或者网络节点，例如图1中所示的数据应用方102、数据应用方104和数据应用方106。在实际应用中，单个数据提供方，例如图1所示的数据提供方110，可能同时或者在较短时间内接到多个数据应用方的数据请求如通过FATE框架传输的元数据或任务请求；该单个数据提供方可以通过内建的算法或者排序机制对这些多个请求相关的进程进行排序、并行化或者进行其它处理从而优化整体效率。其中，一般情况下，该单个数据提供方每次只能对接一个数据应用方并将加密后数据，例如本地模型经过数据集训练后产生的模型参数，发送给该数据应用方，也就是必须执行单线程数据发送的操作。为此，需要通过站点管理模块126所提供的站点和服务的资源状态监控，提供资源中心管理并呈现包括多种维度的资源图，从而为对站点进行连接和管理提供参考，有利于改进数据运营。在一些实施例中，多种维度的资源图可以包括各种信息，例如站点名称、站点地址、参与方的ID、SDN版本、Fate框架版本、其它软件产品版本例如FateServing版本、站点状态以及当前执行中的操作等。通过站点管理模块126所提供的各种信息，可以结合站点管理，从而实现根据每个站点当前使用数据的情况调整配备给该站点的资源。其中，调整资源的方式包括：根据站点的活跃程度（特定时间段内是否没有任何数据使用量或者账单为零，或者数据使用量大于或者小于可设定的阈值）来启用或者停用站点，或者调整为站点配置的资源如计算资源或者网络资源等。

SDN中的每个数据提供方部署有数据提供方客户端，例如图1所示的数据提供方110部署有数据提供方客户端112，用于将被部署的数据提供方作为运营维护角色，从而为被部署的数据提供方提供从数据授权、账单生成、日志监控到数据使用量监控的各种功能，进而为被部署的数据提供方建立能根据实际情况和数据运营情况做出优化的数据管理体系；还用于灵活地结合被部署的数据提供方的现成联邦学习产品并在此基础上提供上述优化后的数据管理体系，并且提供定制化的设定，从而有利于更好地推广。并且，数据提供方客户端112为数据协作的运营管理，提供数据发布与审批、调用量统计、用户和权限、账单计费等核心模块的工具和服务，提升数据提供方企业对数据合作的管理效率。在数据发布模块122和运营模块120中，还支持将数据接入客户端计算节点，并生成数据描述信息，方便用户对对外提供的数据统一查询管理。对各数据的使用量进行实时统计，并根据不同合作方通过账单模块128按周期生成账单使得用户可第一时间获得数据变现的直观量化反馈。数据提供方客户端112还支持用户权限设置和对操作的审批，使管理***符合金融机构对数据隔离和数据管理权限的要求，保证跨企业数据合作安全合规。如此，数据提供方客户端112为数据提供方110提供代运营服务，通过数据提供方的运维角色准许的权限对数据授权、使用量、账单、日志等进行监控并提供技术支持。应当理解的是，数据提供方客户端112所提供的代运营服务意味着只作为中间方并且非双方许可不接收任何数据。而SDN服务器100用于提供对数据提供方客户端112的更新及后台支持，以确保数据提供方客户端112所提供的代运营服务正常运行。SDN服务器100本身并不介入上述的与数据提供方客户端112所提供的代运营服务相关的各种服务及管理。从应用场景及业务层面来说，本申请实施例所提供的数据提供方客户端112以及基于此组建的SDN，可以为联邦学习应用场景下持有应用数据的各个数据提供方提供数据导入、数据发布、联邦建模、调用量统计、周期出账功能，从而使得在满足数据隐私合规性要求前提下克服数据分享和协同合作方面的困境的需求；并且支持同态加密或者联邦学习或者任意现成联邦学习相关框架或产品，从而无需改动已经部署的框架就提供上述优化服务；通过提供基于数据隐私保护的安全计算框架，为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持，以及通过安全底层支持同态加密、秘密共享、哈希散列等多种多方安全计算机制，从而可以应用于各种场景，例如基于联邦学习的营销推荐场景、风控场景、保险领域的核保核赔场景。并且，通过站点管理功能实现了根据每个站点当前使用数据的情况调整资源，并结合账单生成功能，可以有利于实现联邦学习场景下的奖励机制，也就是鼓励数据应用方增加对数据提供方的数据集的使用程度，以及根据数据应用方的共享度、参与程度以及信用情况等作出相应调整，从而更好地改善数据运营。

图2示出了本申请实施例提供的用于联邦学习的安全数据网络的数据管理方法的流程示意图。该数据管理方法是在数据提供方执行，这里所提及的数据提供方也可以理解为数据源方或者数据拥有方，可以对应任何持有应用数据或私有数据的个体或者组织。这里所提及的数据应用方指的是向数据提供方发起合作请求或者提出数据请求，从而获得数据提供方所持有的数据。数据应用方也可以理解为数据使用方或者数据请求的发起方或者数据请求方。上面提到，单个数据提供方，例如图1所示的数据提供方110，可能同时或者在较短时间内接到多个数据应用方的数据请求如通过FATE框架传输的元数据或任务请求；该单个数据提供方可以通过内建的算法或者排序机制对这些多个请求相关的进程进行排序、并行化或者进行其它处理从而优化整体效率。其中，一般情况下，该单个数据提供方每次只能对接一个数据应用方并将加密后数据，例如本地模型经过数据集训练后产生的模型参数，发送给该数据应用方，也就是必须执行单线程数据发送的操作。为此，从改进数据运营的角度出发，为了更好地利用数据提供方所持有的应用数据或者私有数据，同时结合数据提供方的复杂多变的实际情况和数据运营情况，本申请实施例提供的数据管理方法及实施细节将在下面详细描述。如图2所示，数据管理方法200包括以下步骤。

步骤S202：发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集。

其中，根据特征标识进行定位的过程包括：数据应用方向数据提供方发送所述特征标识且根据该特征标识向数据提供方申请对应数据集的使用权；如果数据提供方授权，则数据应用方可进行使用该对应数据集，例如获得本地模型经过数据集训练后产生的模型参数，但是私有数据不会离开本地。因此，特征标识是由数据应用方提供给数据提供方从而使得数据提供方可以定位对应的数据集。而数据提供方可以事先通过数据发布或者公布或者共享等方式将特征标识提供给数据应用方。在一种可能的实施方式中，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息。如此，通过名称和描述信息，可以定位对应的数据集。在另一种可能的实施方式中，所述特征标识还包括：对与所述特征标识对应的数据集的数据进行加密操作后得到的加密信息和/或对与所述特征标识对应的数据集的数据进行标签特征提取操作后得到的特征信息。如此，通过对部分原始数据进行加密得到加密信息或者对标签特征进行特征提取得到特征信息，这些信息也可以作为特征标识用于定位对应的数据集。并且，与所述数据提供方连接的至少一个数据应用方可能跟数据提供方属于同一个安全数据网络，或者可能属于不同的安全数据网络例如分别属于两个网络但是彼此之间的连接满足执行数据管理方法200所必须的数据安全交互方面的需求，在此不做具体限定。

步骤S204：生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量。

其中，数据使用量可以根据数据条数或者特征维度定义或者通过其他合适方式定义量级。数据提供方将加密后数据，例如本地模型经过数据集训练后产生的模型参数，发送给数据应用方。在发送加密后数据或称密态数据的过程中，训练用数据条数或者特征维度可以用来体现数据使用量的量级。另外，针对某个数据集的数据使用量，可以理解为与该数据集相关的或者基于该数据集的数据使用量，例如将本地模型经过该数据集训练后产生的模型参数进行加密后发送出去。因此，某个数据应用方针对某个数据集的数据使用量，可以表示与该数据集相关的或者基于该数据集的且与该数据应用方有关的数据使用量，例如将本地模型经过该数据集训练后产生的模型参数进行加密后发送给该数据应用方。应当理解的是，在联邦学习的场景下，私有数据不会被发送出去也不会离开本地。因此，特定于该数据应用方的数据使用报告也必然符合这一数据安全和隐私保护的要求。数据使用量可以是针对一定时间段内的数据使用情况，例如预设的测量时间段，也可以是针对特定任务执行期间或者合作期间的数据使用情况。并且，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量。这意味着，假设有三个数据应用方，例如图1所示的数据应用方102、数据应用方104以及数据应用方106，这三个数据应用方各自有特定于该数据应用方的数据使用报告。其中，特定于数据应用方102的数据使用报告指示该数据应用方102分别针对所述至少一个数据集中每一个数据集的数据使用量。如此，通过步骤S204，为与所述数据提供方连接的至少一个数据应用方中的每一个数据应用方生成特定于该数据应用方的数据使用报告，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述数据提供方的的所述至少一个数据集中每一个数据集的数据使用量。这样有利于后续制定及执行运营策略。

步骤S206：针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置。

其中，上面提到，特定于数据应用方102的数据使用报告指示该数据应用方102分别针对所述至少一个数据集中每一个数据集的数据使用量，因此根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，可以实现通过数据使用量驱动的资源管理，这样能有效解决单个数据提供方同时或者在较短时间内应对来自多个数据应用方的数据请求的情况下如何改善数据运营情况。

结合步骤S202至步骤S206，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。下面结合表1进一步说明这些改进。

表1

	数据集1	数据集2	数据集3	数据集4	资源配置
						数据应用方A的数据使用报告	0	0	10	20	第二类
数据应用方B的数据使用报告	0	5	10	20	第二类
						数据应用方C的数据使用报告	2	10	20	40	第一类

表1中示意性示出了三个数据应用方各自的数据使用报告，分别是数据应用方A的数据使用报告、数据应用方B的数据使用报告以及数据应用方C的数据使用报告，这三个数据应用方可以对应例如图1中所示的数据应用方102、数据应用方104和数据应用方106。应当理解的是，表1以及图1中所示出的数据应用方的数量仅为说明性，本申请实施例所提及的用于联邦学习的安全数据网络的数据管理方法及装置包括图2所示的数据管理方法200，可以用于由任意数量的数据提供方和任意数量的数据应用方所组成的SDN。继续参阅表1，数据应用方A的数据使用报告、数据应用方B的数据使用报告以及数据应用方C的数据使用报告分别指示了相应的数据应用方针对数据集1、数据集2、数据集3以及数据集4的数据使用量。如上所述，数据使用量可以根据数据条数或者特征维度定义或者通过其他合适方式定义量级。数据提供方将加密后数据，例如本地模型经过数据集训练后产生的模型参数，发送给数据应用方。在发送加密后数据或称密态数据的过程中，发送的数据条数或者特征维度可以用来体现数据使用量的量级。数据使用量可以理解为根据给定客观标准测量并进行规范化后的量化数值，用于更好地为数据提供方提供以数据使用量来驱动的参考信息。数据使用量对应的数值越大，则意味着数据使用量越大，也就意味着例如经过该特定数据集训练后产生的加密后模型参数被发送给该特定数据应用方的数据条数越大。比如数据应用方A的数据使用报告指示了数据应用方A对数据集1的数据使用量为零或者说没有使用来自数据集1的数据，这可能是因为数据应用方A没有发出过针对数据集1的数据请求或者数据应用方A没有获得使用数据集1的授权。数据应用方B的数据使用报告指示了数据应用方B针对数据集4的数据使用量为20，而数据应用方C的数据使用报告指示了数据应用方C针对数据集4的数据使用量为40，这意味着数据应用方C针对数据集4的数据使用量远大于数据应用方B。因此，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，例如表1所示的针对三个数据应用方（数据应用方A、数据应用方B、数据应用方C）生成的特定于每个数据应用方的数据使用报告（指示了每个数据应用方针对数据集1、数据集2、数据集3以及数据集4中每一个数据集的数据使用量），可以为数据提供方提供以数据使用量来驱动的参考信息。表1还示出了如何调整数据提供方为每个数据应用方的资源配置。其中，数据应用方C的资源配置在调整后为第一类，数据应用方A和数据应用方B的资源配置在调整后均为第二类。这里，第一类资源配置可以理解为提供了相对更多的资源配置给数据应用方C以便更好地响应来自数据应用方C的数据请求；第二类资源配置可以理解为提供了相对更少的资源配置给数据应用方A和数据应用方B，以便在有限的资源下将更多的资源分配给数据应用方C。应当理解的是，表1所示的第一类资源配置和第二类资源配置只是一种示例性的调整方式。在一些示例性实施例中可以采用任意合适的资源配置的调整方式，只要能实现以数据使用量驱动的整体优化。

继续参阅表1，上面提到，单个数据提供方，例如图1所示的数据提供方110，可能同时或者在较短时间内接到多个数据应用方的数据请求如通过FATE框架传输的元数据或任务请求。并且，一般情况下，该单个数据提供方每次只能对接一个数据应用方并发送加密数据给该数据应用方，也就是必须执行单线程数据发送的操作。因此需要通过某种机制来优化使用数据提供方的资源，特别是用于数据发送的线程资源和带宽资源等。实际应用中，在联邦学习应用场景下，为了最小化给数据提供方带来的额外的控制成本和资源负担，需要设计该优化机制从而使得在能优化数据运营的同时又尽可能地降低负担。为此，以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告，可以做到尽可能降低监控成本和***负载，同时又为改善数据运营效果提供足够可靠的指引也就是为如何调整数据提供方为各个数据应用方提供的资源配置提供了客观的参考。并且，数据提供方为各个数据应用方提供的资源配置还有利于更进一步地由数据提供方对各个数据应用方或者说各个站点进行全面的监控，包括对站点和服务的资源状态进行监控，从而可以提供资源中心管理并呈现包括多种维度的资源图。这一点下面详细描述。

在一种可能的实施方式中，调整所述数据提供方为该数据应用方提供的资源配置，包括：中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。例如，以上面表1的数据应用方A为例，调整所述数据提供方为数据应用方A的资源配置的具体方式，可能是中止响应来自数据应用方A的数据请求，或者，中止发送所述至少一个数据集的特征标识给数据应用方A，或者两者皆有。这意味着，数据提供方可以通过例如切断连接或者默认拒绝回应等方式实现中止响应来自特定数据应用方的数据请求，从而将有限的资源更多地分配给其它数据应用方；另一方面，可以通过中止发送数据集的特征标识的方式，从而使得特定数据应用方没有收到新的数据集的特征标识或者更新后的数据集的特征标识，这样也能减少来自该数据应用方的数据请求从而节省了有限的资源。而如何选择中止响应或者中止发送特征标识的数据应用方，是基于数据应用方的数据使用报告，例如上面表1显示数据应用方A的数据使用量是最低的。如此，实现了以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在特定时间段内针对所述至少一个数据集中每一个数据集的数据使用量均为零或者小于设定值时，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。这里，设定值可以是预先设定的任意合适数值，当每个数据集的数据使用量均为零或者小于设定值，则意味着适合减少来自该数据应用方的数据请求从而节省了有限的资源，为此可以中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。如此，实现了以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，调整所述数据提供方为该数据应用方提供的资源配置，还包括：增加或减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。上面提到，可以采用任意合适的资源配置的调整方式，只要能实现以数据使用量驱动的整体优化。通过调整用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源，例如通过增加或者减少相应资源，实现了以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，增加或减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在第一预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均低于第一预设阈值时，减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源；或者当特定于该数据应用方的数据使用报告指示该数据应用方在第二预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均高于第二预设阈值时，增加所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。如此，通过设定第一预设阈值来鉴别数据使用量相对较低的数据应用方，以及通过设定第二预设阈值来鉴别数据使用量相对较高的数据应用方，并且提供相应的资源配置的调整，例如通过增加或者减少相应资源，实现了以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，包括：根据特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告以及所述至少一个数据应用方中每一个数据应用方各自的联邦学习框架版本、地理位置以及工作状态，确定相对于该数据应用方的可替换站点；根据特定于该数据应用方的数据使用报告，选择性地将所述数据提供方为该数据应用方提供的资源配置分配给该可替换站点。上面提到，数据提供方为各个数据应用方提供的资源配置还有利于更进一步地由数据提供方对各个数据应用方或者说各个站点进行全面的监控，包括对站点和服务的资源状态进行监控，从而可以提供资源中心管理并呈现包括多种维度的资源图。这里，通过确定相对于该数据应用方的可替换站点，并且是结合该数据应用方的联邦学习框架版本、地理位置以及工作状态，从而在保证替换后能顺利继续后续合作的前提下，将资源配置分配给可替换站点，实现了以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，数据管理方法200还包括：发送所述至少一个数据集中每一个数据集的评分给所述至少一个数据应用方，所述评分基于曾使用过与所述评分对应的数据集的数据应用方的反馈得出，并且提供反馈的数据应用方与所述至少一个数据应用方位于相同或相似的行业，或者相同或相似的业务场景。如此，通过发送评分，可以更好地体现数据使用量驱动的参考价值。并且所述评分基于曾使用过与所述评分对应的数据集的数据应用方的反馈得出，因此具有更好的参考价值。在一些示例性实施例中，提供反馈的数据应用方与所述至少一个数据应用方位于相同或相似的行业，或者相同或相似的业务场景，如此，通过限定业务场景和行业可以提高评分的参考价值。在另一些示例性实施例中，提供反馈的数据应用方与所述至少一个数据应用方也可以位于不同的行业，或者具有不同的业务场景，例如提供反馈的数据应用方可以是金融行业而被提供评分的数据应用方可以是电商行业。不同的行业或者不同的业务场景下的数据应用方的反馈以及基于此得出的数据集的评分可能仍具有参考价值，这些可以根据具体情况出调整或者改进，在此不做具体限定。

在一种可能的实施方式中，数据管理方法200还包括：生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。以上面表1为例，可以针对数据集1、数据集2、数据集3以及数据集4生成每一个数据集的数据使用报告，其中例如数据集4的数据使用报告指示了数据应用方A、数据应用方B、数据应用方C针对数据集4的数据使用量。如此，通过从数据集的维度进行分析和生成报告，可以提供更全面的参考，有利于实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，数据管理方法200还包括：根据所述至少一个数据集中每一个数据集的数据使用报告，确定所述至少一个数据集中每一个数据集的贡献度；针对所述至少一个数据集中每一个数据集，根据所述至少一个数据集中每一个数据集的贡献度，设定特定于该数据集的运营策略。如此，通过生成所述至少一个数据集中每一个数据集的数据使用报告以及基于此确定每个数据集的贡献度，可以提供更全面的参考，有利于实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，数据管理方法200还包括：针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。上面提到，根据特征标识进行定位的过程包括：数据应用方向数据提供方发送所述特征标识且根据该特征标识向数据提供方申请对应数据集的使用权；如果数据提供方授权，则数据应用方可进行使用该对应数据集。因此，特征标识是由数据应用方提供给数据提供方从而使得数据提供方可以定位对应的数据集。而数据提供方可以事先通过数据发布或者公布或者共享等方式将特征标识提供给数据应用方。这里，通过根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方，等效于根据该数据集的数据使用报告而对上述的根据特征标识进行定位的过程施加了影响。因此，可以通过调整特征标识的方式影响各个数据应用方的数据请求的发出，也因此有利于实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。以表1为例，根据数据集4的数据使用报告，可以将数据集4的特征标识如对数据集4的描述调整为“最受欢迎的”或者“流行的”，这样接收到数据集4的调整后的特征标识的数据应用方可能会更倾向于发出针对数据集4的数据请求，这样就达到了数据使用量驱动的目的。换句话说，某个数据集的数据使用报告如果指示了数据应用方针对该数据集的数据使用量相对较多，则意味着实际运营状况下该数据集较受欢迎，而通过调整该数据集的特征标识来反映其受欢迎情况，并将该数据集的调整后特征标识给各个数据应用方，某些本来对该数据集需求较少的数据应用方可能为因此而增加对该数据集的请求，另外新增的数据应用方也可以根据该数据集的调整后特征标识而倾向于发出对该数据集的请求，这样就更好地推动了以数据使用量驱动的整体优化。并且，本实施例所提及的调整该数据集的特征标识，可以结合上述步骤S206的调整所述数据提供方为该数据应用方提供的资源配置，也就是从数据集和数据应用方的资源配置两方面同时进行优化，一方面提高了某些数据集被请求的可能性，另一方面也提高了某些数据应用方发出请求的可能性，从而更好地实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。在一些实施例中，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，其中，根据该数据集的数据使用报告，调整该数据集的特征标识，包括：根据该数据集的数据使用报告，调整该数据集的特征标识的描述信息。以表1为例，根据数据集4的数据使用报告，可以将数据集4的特征标识如对数据集4的描述调整为“最受欢迎的”或者“流行的”。在一些实施例中，所述数据管理方法还包括：根据所述至少一个数据集中每一个数据集的数据使用报告，确定所述至少一个数据集中每一个数据集的贡献度；针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告和该数据集的贡献度，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。如此，通过生成所述至少一个数据集中每一个数据集的数据使用报告以及基于此确定每个数据集的贡献度，可以为如何调整该数据集的特征标识提供更全面的参考，有利于实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，特定于该数据应用方的数据使用报告还指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用时间，所述数据管理方法还包括：针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告所指示的数据使用量和数据使用时间，调整所述数据提供方为该数据应用方提供的资源配置。如此，通过数据使用量和数据使用时间，可以提供更全面的参考，有利于实现以数据使用量来驱动的参考信息以及以数据使用量驱动的整体优化机制。

在一种可能的实施方式中，数据管理方法200还包括：针对所述至少一个数据应用方中每一个数据应用方，设定特定于该数据应用方的授权配置以及根据该授权配置使得所述至少一个数据集中部分数据集对该数据应用方不可见。如此，可以针对每个数据应用方进行授权配置，提供精细化的数据访问控制。在一些实施例中，数据管理方法200还包括：不发送所述至少一个数据集中对该数据应用方不可见的数据集的特征标识给该数据应用方；所述数据提供方中止响应来自该数据应用方的针对所述至少一个数据集中对该数据应用方不可见的数据集的数据请求。如此，可以针对每个数据应用方进行授权配置，提供精细化的数据访问控制，包括中止响应数据请求。

在一种可能的实施方式中，所述数据提供方和所述至少一个数据应用方同属于一个安全数据网络。例如，图1所示的SDN包括数据应用方102，数据应用方104，数据应用方106以及数据提供方110。应当理解的是，归属于同一个SDN的各个参与方之间通过安全合规高效的安全数据网络连接，其所采用的的具体网络连接方式以及相应的底层安全技术可以采用任意合适的技术手段，例如有线连接、无线连接或者有线连接与无线连接的组合，在此不做具体限定。

在一种可能的实施方式中，所述数据提供方和所述至少一个数据应用方预先互相添加对方为合作站点。在一种可能的实施方式中，数据提供方和数据应用方之间事先达成合作协议例如通过线下或者合同方式，而本申请实施例所提及的用于联邦学习的安全数据网络的数据管理方法及装置，并不介入直接交易也不代为持有私有数据，而是通过所描述的代运营相关的服务及功能从而协助各个数据提供方在满足数据隐私合规性要求前提下克服数据分享和协同合作方面的困境的需求，并且能够有效地根据这些数据提供方的复杂多变的实际情况和数据运营情况做出优化。

应当理解的是，图2所示的数据管理方法200可以通过相应的执行主体或者载体来实现。在一些示例性实施例中，一种非瞬时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现数据管理方法200以及上述任意实施例、实施方式或者它们的组合。在一些示例性实施例中，一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现数据管理方法200以及上述任意实施例、实施方式或者它们的组合。

图3示出了本申请实施例提供的用于数据管理方法的电子设备的框图。如图3所示，电子设备300包括主处理器302，内部总线304，网络接口306，主存储器308，以及辅助处理器310和辅助内存312，还有辅助处理器320和辅助内存322。其中，主处理器302与主存储器308连接，主存储器308可用于存储主处理器302可执行的计算机指令，从而可以实现图2所示的数据管理方法200，包括其中部分或者全部步骤，也包括其中步骤的任意可能的组合或结合以及可能的替换或者变体。网络接口306用于提供网络连接以及通过网络收发数据。内部总线304用于提供在主处理器302、网络接口306、辅助处理器310以及辅助处理器320之间的内部的数据交互。其中，辅助处理器310与辅助内存312连接并一起提供辅助计算能力，而辅助处理器320与辅助内存322连接并一起提供辅助计算能力。辅助处理器310和辅助处理器320可以提供相同或者不同的辅助计算能力，包括但是不限于，针对特定计算需求进行优化的计算能力如并行处理能力或者张量计算能力，针对特定算法或者逻辑结构进行优化的计算能力例如迭代计算能力或者图计算能力等。辅助处理器310和辅助处理器320可以包括特定类型的一个或者多个处理器，如数字信号处理器（DSP），专用集成电路（ASIC），现场可编程门阵列（FPGA）等，从而可以提供定制化的功能和结构。在一些示例性实施例中，电子设备300可以不包括辅助处理器，可以包括仅一个辅助处理器，还可以包括任意数量的辅助处理器且各自具有相应的定制化功能及结构，在此不做具体限定。图3中所示出的两个辅助处理器的架构仅为说明性而不应解释为限制性。另外，主处理器302可以包括单核或者多核的计算单元，用于提供本申请实施例所必需的功能和操作。另外，主处理器302和辅助处理器（如图3中的辅助处理器310和辅助处理器320）可以具有不同的架构，也就是电子设备300可以是基于异构架构的***，例如主处理器302可以是基于指令集操作体系的通用型处理器如CPU，而辅助处理器可以是适合并行化计算的图形处理器GPU或者是适合神经网络模型相关运算的专用加速器。辅助内存（例如图3所示的辅助内存312和辅助内存322）可以用于配合各自对应的辅助处理器来实现定制化功能及结构。而主存储器308用于存储必要的指令、软件、配置、数据等从而可以配合主处理器302提供本申请实施例所必需的功能和操作。在一些示例性实施例中，电子设备300可以不包括辅助内存，可以包括仅一个辅助内存，还可以包括任意数量的辅助内存，在此不做具体限定。图3中所示出的两个辅助内存的架构仅为说明性而不应解释为限制性。主存储器308以及可能的辅助内存可以包括以下一个或多个特征：易失性，非易失性，动态，静态，可读/写，只读，随机访问，顺序访问，位置可寻址性，文件可寻址性和内容可寻址性，并且可以包括随机存取存储器（RAM），闪存，只读存储器（ROM），可擦可编程只读存储器（EPROM），电可擦可编程只读存储器（EEPROM），寄存器，硬盘，可移动磁盘，可记录和/或可重写光盘（CD），数字多功能光盘（DVD），大容量存储介质设备或任何其他形式的合适存储介质。内部总线304可以包括不同总线结构中的任何一种或不同总线结构的组合，例如存储器总线或存储器控制器，***总线，通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。应当理解的是，图3所示的电子设备300，其所示的结构并不构成对有关装置或***的具体限定，在一些示例性实施例中，电子设备300可以包括比具体实施例和附图更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者具有不同的部件布置。

图4示出了本申请实施例提供的数据管理装置的框图。该数据管理装置部署在数据提供方。如图4所示，所述数据管理装置400包括：通信单元402，用于发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；数据使用报告生成单元404，用于生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和资源配置单元406，用于针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置。在一些实施例中，所述资源配置单元406用于，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方。在一些实施例中，所述数据使用报告生成单元404还用于：生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。在一些实施例中，所述资源配置单元406还用于：针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。在一些实施例中，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，所述资源配置单元406还用于：根据该数据集的数据使用报告，调整该数据集的特征标识的描述信息。

图4所示的数据管理装置400，通过针对每个数据应用方生成特定于该数据应用方的数据使用报告并且特定于该数据应用方的数据使用报告指示了该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量，从而使得数据提供方可以建立起以数据使用量来驱动的参考信息，进而为根据特定于该数据应用方的数据使用报告来调整为该数据应用方提供的资源配置提供了客观的参考，有利于实现以数据使用量驱动的整体优化和改善数据运营效果。

在一种可能的实施方式中，本申请实施例还提供了一种数据管理***。所述数据管理***包括数据提供方和至少一个数据应用方，所述数据提供方包括如图4所示的数据管理装置400；所述数据应用方通过所述数据管理装置400与所述数据提供方合作。

本申请提供的具体实施例可以用硬件，软件，固件或固态逻辑电路中的任何一种或组合来实现，并且可以结合信号处理，控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器（例如，微处理器，控制器，数字信号处理器（DSP），专用集成电路（ASIC），现场可编程门阵列（FPGA）等），这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的***总线或数据传输***。***总线可以包括不同总线结构中的任何一种或不同总线结构的组合，例如存储器总线或存储器控制器，***总线，通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供，也可以是***的一部分，也可以是其它设备或装置的一部分。

本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合，例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据，程序器和/或指令，这些数据，程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征：易失性，非易失性，动态，静态，可读/写，只读，随机访问，顺序访问，位置可寻址性，文件可寻址性和内容可寻址性。在一个或多个示例性实施例中，计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共***。计算机可读存储介质/存储设备可以包括光存储设备，半导体存储设备和/或磁存储设备等等，也可以包括随机存取存储器（RAM），闪存，只读存储器（ROM），可擦可编程只读存储器（EPROM），电可擦可编程只读存储器（EEPROM），寄存器，硬盘，可移动磁盘，可记录和/或可重写光盘（CD），数字多功能光盘（DVD），大容量存储介质设备或任何其他形式的合适存储介质。

以上是本申请实施例的实施方式，应当指出，本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。可以理解的是，本申请实施例以及附图所示的结构并不构成对有关装置或***的具体限定。在本申请另一些实施例中，有关装置或***可以包括比具体实施例和附图更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者具有不同的部件布置。本领域技术人员将理解，在不脱离本申请具体实施例的精神和范围的情况下，可以对具体实施例记载的方法和设备的布置，操作和细节进行各种修改或变化；在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.一种数据管理方法，其特征在于，所述数据管理方法在数据提供方执行，包括：

发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；

生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和

针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，

其中，所述数据提供方和所述至少一个数据应用方参与同一联邦学习合作任务或者属于同一用于联邦学习的数据安全网络，

其中，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在特定时间段内针对所述至少一个数据集中每一个数据集的数据使用量均为零或者小于设定值时，中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方，

其中，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，还包括：当特定于该数据应用方的数据使用报告指示该数据应用方在第一预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均低于第一预设阈值时，减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源；或者当特定于该数据应用方的数据使用报告指示该数据应用方在第二预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均高于第二预设阈值时，增加所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。

2.根据权利要求1所述的数据管理方法，其特征在于，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息。

3.根据权利要求2所述的数据管理方法，其特征在于，所述特征标识还包括：对与所述特征标识对应的数据集的数据进行加密操作后得到的加密信息和/或对与所述特征标识对应的数据集的数据进行标签特征提取操作后得到的特征信息。

4.根据权利要求1所述的数据管理方法，其特征在于，针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，包括：

根据特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告以及所述至少一个数据应用方中每一个数据应用方各自的联邦学习框架版本、地理位置以及工作状态，确定相对于该数据应用方的可替换站点；

根据特定于该数据应用方的数据使用报告，选择性地将所述数据提供方为该数据应用方提供的资源配置分配给该可替换站点。

5.根据权利要求1所述的数据管理方法，其特征在于，所述数据管理方法还包括：

发送所述至少一个数据集中每一个数据集的评分给所述至少一个数据应用方，所述评分基于曾使用过与所述评分对应的数据集的数据应用方的反馈得出，并且提供反馈的数据应用方与所述至少一个数据应用方位于相同或相似的行业，或者相同或相似的业务场景。

6.根据权利要求1所述的数据管理方法，其特征在于，所述数据管理方法还包括：

生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。

7.根据权利要求6所述的数据管理方法，其特征在于，所述数据管理方法还包括：

根据所述至少一个数据集中每一个数据集的数据使用报告，确定所述至少一个数据集中每一个数据集的贡献度；

针对所述至少一个数据集中每一个数据集，根据所述至少一个数据集中每一个数据集的贡献度，设定特定于该数据集的运营策略。

8.根据权利要求6所述的数据管理方法，其特征在于，所述数据管理方法还包括：

针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

9.根据权利要求8所述的数据管理方法，其特征在于，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，其中，根据该数据集的数据使用报告，调整该数据集的特征标识，包括：

根据该数据集的数据使用报告，调整该数据集的特征标识的描述信息。

10.根据权利要求6所述的数据管理方法，其特征在于，所述数据管理方法还包括：

针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告和该数据集的贡献度，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

11.根据权利要求1所述的数据管理方法，其特征在于，特定于该数据应用方的数据使用报告还指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用时间，所述数据管理方法还包括：

针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告所指示的数据使用量和数据使用时间，调整所述数据提供方为该数据应用方提供的资源配置。

12.根据权利要求1所述的数据管理方法，其特征在于，所述数据管理方法还包括：

针对所述至少一个数据应用方中每一个数据应用方，设定特定于该数据应用方的授权配置以及根据该授权配置使得所述至少一个数据集中部分数据集对该数据应用方不可见。

13.根据权利要求12所述的数据管理方法，其特征在于，所述数据管理方法还包括：

不发送所述至少一个数据集中对该数据应用方不可见的数据集的特征标识给该数据应用方；

14.根据权利要求1所述的数据管理方法，其特征在于，所述数据提供方和所述至少一个数据应用方预先互相添加对方为合作站点。

15.一种非瞬时性计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现根据权利要求1至14中任一项所述的数据管理方法。

16.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现根据权利要求1至14中任一项所述的数据管理方法。

17.一种数据管理装置，其特征在于，所述数据管理装置部署在数据提供方，所述数据管理装置包括：

通信单元，用于发送所述数据提供方的至少一个数据集中每一个数据集的特征标识给与所述数据提供方连接的至少一个数据应用方，其中，所述特征标识用于定位与所述特征标识对应的数据集；

数据使用报告生成单元，用于生成特定于所述至少一个数据应用方中每一个数据应用方的数据使用报告，其中，特定于该数据应用方的数据使用报告指示该数据应用方分别针对所述至少一个数据集中每一个数据集的数据使用量；和

资源配置单元，用于针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，

其中，所述资源配置单元，用于针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，包括：当特定于该数据应用方的数据使用报告指示该数据应用方在特定时间段内针对所述至少一个数据集中每一个数据集的数据使用量均为零或者小于设定值时，所述资源配置单元用于中止响应来自该数据应用方的数据请求和/或中止发送所述至少一个数据集的特征标识给该数据应用方，

其中，所述资源配置单元，用于针对所述至少一个数据应用方中每一个数据应用方，根据特定于该数据应用方的数据使用报告，调整所述数据提供方为该数据应用方提供的资源配置，还包括：当特定于该数据应用方的数据使用报告指示该数据应用方在第一预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均低于第一预设阈值时，所述资源配置单元用于减少所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源；或者当特定于该数据应用方的数据使用报告指示该数据应用方在第二预设时间段内针对所述至少一个数据集中每一个数据集的数据使用量均高于第二预设阈值时，所述资源配置单元用于增加所述数据提供方用于响应来自该数据应用方的数据请求的网络资源、内存资源或者计算资源。

18.根据权利要求17所述的数据管理装置，其特征在于，所述数据使用报告生成单元还用于：生成所述至少一个数据集中每一个数据集的数据使用报告，其中，该数据集的数据使用报告指示所述至少一个数据应用方中每一个数据应用方针对该数据集的数据使用量。

19.根据权利要求18所述的数据管理装置，其特征在于，所述资源配置单元还用于：针对所述至少一个数据集中每一个数据集，根据该数据集的数据使用报告，调整该数据集的特征标识并发送该数据集的调整后特征标识给所述至少一个数据应用方。

20.根据权利要求19所述的数据管理装置，其特征在于，所述特征标识包括与所述特征标识对应的数据集的名称和描述信息，所述资源配置单元还用于：

21.一种数据管理***，其特征在于，所述数据管理***包括数据提供方和至少一个数据应用方，

所述数据提供方包括权利要求17至20中任一项所述的数据管理装置；

所述数据应用方通过所述数据管理装置与所述数据提供方合作。