CN110378749B

CN110378749B - 客户端相似性的评估方法、装置、终端设备及存储介质

Info

Publication number: CN110378749B
Application number: CN201910681352.0A
Authority: CN
Inventors: 魏锡光; 李�权; 曹祥; 刘洋; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-09-26
Anticipated expiration: 2039-07-25
Also published as: CN110378749A

Abstract

本发明公开了一种用户数据相似性的评估方法、装置、终端设备及存储介质，该用户数据相似性的评估方法包括：所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据；将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集，并对所述测试样本集进行测试；基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估。本发明实现了，在不接触到联邦学习客户端真实用户数据的情况下，对客户端用户数据的相似性进行评估，提升联邦学习***对用户的了解，既保证了用户数据的安全性，又促进了联邦学习***针对性的为用户提供优质服务。

Description

客户端相似性的评估方法、装置、终端设备及存储介质

技术领域

本发明涉及Fintech(金融科技)技术领域，尤其涉及一种客户端相似性的评估方法、装置、终端设备及存储介质。

背景技术

伴随着金融科技，尤其是互联网金融科技的快速发展，已经有越来越多的技术应用于金融领域，其中，联邦学习技术基于对用户隐私和数据的安全保障，正逐渐受到越来越多的重视。

联邦学习(federated learning)是指，通过联合不同的参与者(participant，或者party，也称为数据拥有者(data owner)、或者客户(client))进行机器学习建模的方法。在联邦学习中，参与者不需要向其它参与者和协调者(coordinator，也称为服务器(server)，参数服务器(parameter server)，或者聚合服务器(aggregation server))暴露自己所拥有的数据，因而联邦学习可以很好的保护用户隐私和保障数据安全，并可以解决数据孤岛问题。

然而，在现有的联邦学习中，尤其是在横向的联邦学习(横向联邦学习是在不同机构样本重叠较少，但特征维度重叠较多时，通过提取多方用户特征相同而用户不完全相同的那部分数据进行训练)中，基于联邦学习机制对于用户数据的安全性考虑，联邦学习的服务端无法接触到客户端用户原始的数据，因而极大程度的限制了联邦学习中服务端对客户端用户的了解，从而导致联邦学习的服务端难以针对性的为客户端用户提供优质服务。

发明内容

本发明的主要目的在于提供一种客户端相似性的评估方法、装置、终端设备及存储介质，旨在不接触联邦学习客户端用户数据的情况下，对客户端的相似性进行评估，从而提升联邦学习***对用户的了解，促进联邦学习***针对性的为用户提供优质服务。

为实现上述目的，本发明提供一种客户端相似性的评估方法，所述客户端相似性的评估方法应用于联邦学习***，所述联邦学习***包括：服务端和客户端，其中，所述客户端为多个，所述客户端相似性的评估方法包括以下步骤：

所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据；

将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集，并对所述测试样本集进行测试；

基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估。

可选地，所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据的步骤，包括：

所述服务端检测预先存储的样本数据集；

从所述样本数据集中，基于随机采样方式获取样本数据作为第一样本数据；或者，

所述服务端获取各客户端随机输入的样本数据作为所述第一样本数据。

可选地，在所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据的步骤之后，所述方法还包括：

所述服务端基于所述第一样本数据生成第二样本数据。

可选地，所述所述服务端基于所述第一样本数据生成第二样本数据的步骤，包括：

所述服务端在获取到的所述第一样本数据中随机添加噪声，和/或者对所述第一样本数据随机进行扰动，以生成所述第二样本数据。

可选地，所述将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集的步骤，包括：

从所述第一样本数据和所述第二样本数据中，按照预设比例提取第一目标样本数据和第二目标样本数据；

将提取出所述第一目标样本数据和所述第二目标样本数据进行组合，以得到所述第一样本数据与所述第二样本数据的测试样本集。

可选地，所述对所述测试样本集进行测试的步骤，包括：

所述服务端调取各所述客户端的机器学习模型；

基于各所述机器学习模型对所述测试样本集中的所述第一目标样本数据以及所述第二目标样本数据进行训练测试。

可选地，所述基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估的步骤，包括：

所述服务端对各所述机器学习模型进行训练测试的各测试结果进行记录；

逐次提取任意两个所述测试结果，基于相似性评估函数计算所述用户数据的相似性；或者，

对得到的各所述测试结果进行无监督聚类，以评估各所述用户数据的相似性。

此外，本发明还提供一种客户端相似性的评估装置，所述客户端相似性的评估装置应用于联邦学习***，所述联邦学习***包括：服务端和客户端，其中，所述客户端为多个，所述客户端相似性的评估装置包括：

获取模块，用于所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据；

测试模块，用于将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集，并对所述测试样本集进行测试；

评估模块，用于基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估。

此外，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的客户端相似性的评估程序，所述客户端相似性的评估程序被所述处理器执行时实现如上所述的客户端相似性的评估方法的步骤。

此外，本发明还提供一种存储介质，应用于计算机，所述存储介质上存储有客户端相似性的评估程序，所述客户端相似性的评估程序被处理器执行时实现如上所述的客户端相似性的评估方法的步骤。

本发明通过所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据；将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集，并对所述测试样本集进行测试；基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估。在联邦学习***中，基于服务端采集预先存储的与当前服务端所连接各客户端不相关的用户数据，或者服务端采集临时随机输入的用户数据，作为用于对各客户端客户端相似性进行评估的第一样本数据，并将采集到的第一样本数据与当前服务端生成的第二样本数据进行组合，形成等待服务端测试的测试样本集，在服务端通过调用模型对测试样本集进行测试以得出测试结果之后，运用现有任意数据相似性评估函数根据该测试结果对当前服务端所连接各客户端的用户数据的相似性进行评估，从而实现了，在不接触到联邦学习客户端真实用户数据的情况下，对客户端用户数据的相似性进行评估，提升联邦学习***对用户的了解，既保证了用户数据的安全性，又促进了联邦学习***针对性的为用户提供优质服务。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明客户端相似性的评估方法第一实施例的流程示意图；

图3为本发明客户端相似性的评估方法第二实施例的流程示意图；

图4为本发明客户端相似性的评估方法一实施例中应用场景示意图；

图5为本发明客户端相似性的评估***的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC，便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及客户端相似性的评估程序。其中，操作***是管理和控制样本终端设备硬件和软件资源的程序，支持客户端相似性的评估程序以及其它软件或程序的运行。

图1所示的终端设备，与其他终端共同组建成联邦学习***，该联邦学习***中至少包含一个服务端和多个客户端，在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的客户端相似性的评估程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的客户端相似性的评估程序，并执行以下步骤：

所述服务端检测预先存储的样本数据集；

进一步地，处理器1001还可以用于调用存储器1005中存储的客户端相似性的评估程序，在执行所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据之后，并执行以下步骤：

所述服务端基于所述第一样本数据生成第二样本数据。

所述服务端调取各所述客户端的机器学习模型；

所述服务端对各所述机器学习模型进行训练测试的各测试结果进行记录；逐次提取任意两个所述测试结果，基于相似性评估函数计算所述用户数据的相似性；或者，

基于上述的结构，提出本发明客户端相似性的评估方法的各个实施例。

请参照图2，图2为本发明客户端相似性的评估方法第一实施例的流程示意图。

本发明实施例提供了客户端相似性的评估方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例客户端相似性的评估方法应用于上述终端设备，本发明实施例终端设备可以是PC，便携计算机等终端设备，在此不做具体限制，进一步地，本发明客户端相似性的评估方法应用于联邦学习***，该联邦学习***如图4所示本发明客户端相似性的评估方法的一个应用场景，该场景所示的联邦学习***包括至少一个服务端和多个客户端。

本实施例客户端相似性的评估方法包括：

步骤S100，所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据。

联邦学习***中的服务端获取与当前联邦学习***中的服务端所连接的各客户端用户不相关的用户数据，以作为对当前各客户端用户数据的相似性进行测试评估的第一样本数据。

本实例中，本发明客户端相似性的评估方法应用于的联邦学习***，尤其适用于联邦学习中横向的联邦学习。横向的联邦学习是在各个客户端(用户)的数据特征重叠较多，而客户端(用户)重叠较少的情况下，取出客户端用户数据特征相同而用户不完全相同的那部分数据进行联合机器学习。例如，在两家不同地区的银行构成的联邦学习中，由于该两家银行的用户群体分别来自各自所在的地区，用户相互的交集很小，但由于银行的业务都很相似，所以两家银行所记录的用户数据特征大部分是相同的，则此时即可采用联邦学习中横向的联邦学习来构建联邦学习模型以预测两家银行各自的客户的行为，从而为该两家银行提供服务。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，服务端在接收到对当前联邦学习***中客户端1至客户端6，6个客户端用户的用户数据的相似性进行评估的指令时，服务端开始获取与当前6个客户端用户的数据特征均不相关的6个第一样本数据(例如，该6个客户端用户所属行业领域为银行领域，则当前服务端可以获取其他诸如电商行业领域内的6个用户数据作为第一样本数据)，以用于对当前6个客户端用户的用户数据的相似性进行评估。

进一步地，步骤S100，包括：

步骤S101，所述服务端检测预先存储的样本数据集。

服务端检测当前服务端上所预先存储的用于对联邦学习***中，各客户端的用户数据的相似性进行评估的样本数据集。

在本实施例中，服务端所预先存储的样本数据集中包含的可以是，与当前联邦学习***中服务端所连接的各客户端的用户数据不相关的用户数据，例如，当前联邦学习***中服务端所连接的各客户端所属行业领域为银行领域，则服务端所预先存储的样本数据集中，可以包含其他诸如电商行业领域内的用户数据。

步骤S102，从所述样本数据集中，基于随机采样方式获取样本数据作为各所述客户端的第一样本数据。

服务端从检测到的样本数据集中，基于随机采样方式，提取出与当前服务端所连接客户端数量相同数量的样本数据，以作为对各客户端用户数据的相似性进行评估的第一样本数据。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，当服务端检测到预先存储的样本数据集之后，从该样本数据集所包含的不同于当前各客户端用户所属银行领域的其他诸如电商行业领域内的用户数据中，或者，从当前联邦学习***的研发维护人员为对客户端用户数据的相似性进行评估，而临时随机输入的一定数量用户数据中，基于现有的随机采样方式，提出与当前6个客户端数量相同的6个数量的样本数据，并将提取出的该6个样本数据，作为对与当前服务端所连接的6个客户端，各自用户数据之间的相似性进行评估的第一样本数据。

步骤S103，所述服务端获取各客户端随机输入的样本数据作为所述第一样本数据。

服务端获取当前联邦学习***的研发维护人员为对客户端用户数据的相似性进行评估，而临时随机输入的一定数量的用户本数据，以作为第一样本数据。

步骤S200，将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集，并对所述测试样本集进行测试。

服务端生成与当前服务端所连接客户端数量相同数量的第二样本数据，并将获取到的第一样本数据与生成的第二样本数据进行混合，以形成测试样本集，并对测试样本集中的第一样本数据和第二样本数据进行测试。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，当服务端基于接收到的对当前联邦学习***中客户端1至客户端6，6个客户端用户的用户数据的相似性进行评估的指令，从服务端预先存储的样本数据集中，获取到与当前6个客户端用户的数据特征均不相关的6个第一样本数据之后，服务端生成与当前服务端所连接6个客户端数量相同数量的6个第二样本数据，并将获取到的6个第一样本数据与生成的6个第二样本数据进行混合，以形成对各客户端用户数据的相似性进行评估之前，对第一样本数据和第二样本数据进行测试所需的测试样本集，当前服务端在检测到测试样本集组合完成之后，随即对测试样本集中的第一样本数据和第二样本数据进行测试。

进一步地，步骤S200中，将所述第一样本数据与所述服务端生成的第二样本数据组合为测试样本集的步骤，包括：

步骤S201，从所述第一样本数据和所述第二样本数据中，按照预设比例提取第一目标样本数据和第二目标样本数据。

步骤S202，将提取出所述第一目标样本数据和所述第二目标样本数据进行组合，以得到所述第一样本数据与所述第二样本数据的测试样本集。

当服务端基于接收到的对联邦学习***中客户端的用户数据的相似性进行评估的指令，从服务端预先存储的样本数据集中，获取到与联邦学习***中服务端所连接的客户端数量相同数量的样本数据作为第一样本数据之后，从获取到的第一样本数据与当前服务端所生成的第二样本数据中，按照预设比例提取第一目标样本数据和第二目标样本数据(例如，以1：1的比例关系，提取全部获取到的第一样本数据作为第一目标样本数据，并提取全部生成的6个第二样本数据作为第二目标样本数据)，并将该提取出的第一目标样本数据与第二目标样本数据进行组合，从而得到第一样本数据与第二样本数据的数据集合，服务端将混合第一样本数据和第二样本数据得到的数据集合标记为测试样本集，以供当前服务端调用模型对第一样本数据和第二样本数据进行测试。

在本实施例中，预设比例为，服务端基于评估客户端相似性需求，预先设置的提取第一样本数据与第二样本数据的数量之间的比例关系，为了得出更加准确地对客户端相似性进行评估的结果，本发明同样可以采用其他数值比例作为预设比例，以提取第一目标样本数据和第二目标样本数据进行客户端相似性的评估，也就是说，本发明不应当对预设比例的具体数值大小进行限定。

进一步地，步骤S200中，对所述测试样本集进行测试的步骤，包括：

步骤S203，所述服务端调取各所述客户端的机器学习模型。

步骤S204，基于各所述机器学习模型对所述测试样本集中的所述第一目标样本数据以及所述第二目标样本数据进行训练测试。

服务端在当前联邦学习***中，收集调取与当前服务端建立连接的各客户终端的本地机器学习模型，并基于收集调取到的各客户端的本地机器学习模型，对测试样本集中的第一目标样本数据以及第二目标样本数据进行训练测试。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，服务端收集与服务端建立连接的6个客户端的6个本地机器训练模型，并依次调用该6个本地机器训练模型中的1个本地机器学习模型，随机选择测试样本集中1个第一目标样本数据和1个第二目标样本数据进行本地训练测试，直到该6个本地机器训练模型均完成对测试样本集中第一目标样本数据和第二目标样本数据进行本地训练测试。

步骤S300，基于所述测试样本集进行测试得到的测试结果，对各所述客户端的用户数据的相似性进行评估。

服务端生成与当前服务端所连接客户端数量相同数量的第二样本数据，对第一样本数据与第二样本数据进行组合，以形成测试样本集，并对测试样本集中的第一样本数据和第二样本数据进行测试，基于测试得出的测试结果，对各客户端的用户数据的相似性进行评估。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，当服务端基于接收到的对当前联邦学习***中客户端用户的用户数据的相似性进行评估的指令，从服务端预先存储的样本数据集中，获取到与当前6个客户端用户的数据特征均不相关的6个第一样本数据之后，服务端生成与当前服务端所连接6个客户端数量相同数量的6个第二样本数据，并按照1:1的数量比例关系提取6个第一目标样本数据和6个第二目标样本数据，将提取出的第一目标样本数据和第二目标样本数据进行组合，以形成对第一样本数据和第二样本数据进行测试所需的测试样本集，当前服务端在检测到测试样本集组合完成之后，随即对测试样本集中的第一目标样本数据和第二目标样本数据进行测试，并记录各本地训练模型对第一目标样本数据以及第二目标样本数据进行测试的测试结果，基于任意数据相似性评估函数或者对测试结果进行无监督聚类，以对各客户端的用户数据的相似性进行评估。

进一步地，步骤S300，包括：

步骤S301，所述服务端对各所述机器学习模型进行训练测试的各测试结果进行记录。

当前联邦学习***中的服务端，在各客户端的本地机器学习训练模型，对测试样本集中的第一样本数据以及第二样本数据进行训练测试的过程进行记录，从而记录到各本地机器学习训练模型对第一样本数据以及第二样本数据进行训练测试的测试结果。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，在服务端依次调用6个客户端的6个本地机器训练模型中的1个本地机器学习模型，随机选择测试样本集中1个第一目标样本数据和1个第二目标样本数据进行本地训练测试的过程中，将各本地机器训练模型对各目标第一样本数据以及目标随机样本进行训练测试的结果进行记录，从而在该6个本地机器训练模型均完成对测试样本集中第一目标样本数据和第二目标样本数据进行本地训练测试之后，得到6个本地机器学习训练模型逐次对测试样本集中第一目标样本数据以及第二目标样本数据进行训练测试的6个测试结果。

步骤S302，逐次提取任意两个所述测试结果，基于相似性评估函数计算所述用户数据的相似性。

服务端从所记录的各本地机器训练模型对第一样本数据以及第二样本数据进行训练测试的全部测试结果中，逐次任意提取出两个测试结果，运用现有的任意数据相似性评估函数进行计算，以得到的计算结果对该两个测试结果所对应客户端的用户数据的相似性进行评估。

具体地，例如，服务端从记录得到的6个本地机器学习训练模型，逐次对测试样本集中第一目标样本数据以及第二目标样本数据进行训练测试的6个测试结果中，以组合形式逐次提取出两个测试结果(逐次提取第一个测试结果和第二个、第一个测试结果第三个测试结果、第一个测试结果和第四个测试结果，直至每个测试结果均与其他测试结果获得组合)，运用现有的任意数据相似性评估函数对该两个测试结果进行计算，基于计算得出的15个结果大小，一一对应的评估出当前6个客户端的客户端相似性高低，即计算得出结果最大的一组测试结果所对应客户端的客户端相似性最高。

步骤S303，对得到的各所述测试结果进行无监督聚类，以评估各所述用户数据的相似性。

将记录的各本地机器训练模型对第一样本数据以及第二样本数据进行训练测试的全部测试结果进行无监督聚类，从而得出任意两个测试结果所对应客户端的用户数据的相似性高低。

具体地，例如，在联邦学习***的服务端所连接的客户端数量较多以致通过数据相似性评估函数组合测试结果进行计算，需要耗费大量资源或者时间时，直接对服务端从记录得到的本地机器学习训练模型逐次对测试样本集中第一目标样本数据以及第二目标样本数据进行训练测试的大量测试结果进行无监督聚类，从而评估出联邦学习***服务端所连接的较多数量客户端的用户数据之间的相似性高低。

本发明通过联邦学习***中的服务端获取与当前联邦学习***中的服务端所连接的各客户端用户不相关的用户数据，以作为对当前各客户端用户数据的相似性进行测试评估的第一样本数据，服务端生成与当前服务端所连接客户端数量相同数量的第二样本数据，并将获取到的第一样本数据与生成的第二样本数据进行混合，以形成测试样本集，并对测试样本集中的第一样本数据和第二样本数据进行测试，服务端生成与当前服务端所连接客户端数量相同数量的第二样本数据，并将获取到的第一样本数据与生成的第二样本数据进行混合，以形成测试样本集，并对测试样本集中的第一样本数据和第二样本数据进行测试，基于测试得出的测试结果，对各客户端的用户数据的相似性进行评估。

实现了，在联邦学习***中，在不接触到联邦学习客户端真实用户数据的情况下，对客户端用户数据的相似性进行评估，从而提升联邦学习***对用户的了解，既保证了用户数据的安全性，又促进了联邦学习***针对性的为用户提供优质服务。

进一步地，提出本发明客户端相似性的评估方法的第二实施例。

请参照图3，图3为本发明参数相似性的评估方法第二实施例的流程示意图，基于上述客户端相似性的评估方法第一实施例，本实施例中，在上述步骤S100，所述服务端获取预存的样本数据或者获取各客户端的样本数据作为第一样本数据的步骤之后，本发明客户端相似性的评估方法还包括：

步骤S400，所述服务端基于所述第一样本数据生成第二样本数据。

服务端在获取到与当前联邦学习***中的服务端所连接的各客户端用户不相关的用户数据，作为对当前各客户端用户数据的相似性进行测试评估的第一样本数据之后，依据获取到的各第一样本数据生成与第一样本数据相同数量的第二样本数据。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，在服务端基于接收到的对当前联邦学习***中客户端用户的用户数据的相似性进行评估的指令，获取到与当前6个客户端用户的数据特征均不相关的6个第一样本数据作为第一样本数据之后，服务器逐一依据该6个用户数据进一步生成6个第二样本数据。

进一步地，步骤S400，包括：

步骤S401，所述服务端在获取到的所述第一样本数据中随机添加噪声，和/或者对所述第一样本数据随机进行扰动，以生成所述第二样本数据。

服务端在从预先存储的样本数据集中获取到第一样本数据之后，在获取到的各第一样本数据中随机添加数据噪声，和/或者依次对获取到的各第一样本数据随机进行数据扰动，从而生成与各第一样本数据相同数量的第二样本数据。

具体地，例如，在如图4所示场景表示的一个联邦学习***中，在服务端从预先存储的样本数据集所包含的不同于当前各客户端用户所属银行领域的其他诸如电商行业领域内的用户数据中，或者，从当前联邦学习***的研发维护人员为对客户端用户数据的相似性进行评估，而临时随机输入的一定数量用户数据中，基于现有的随机采样方式，提出与客户端数量相同数量的样本数据，并将提取出的该样本数据，作为对与当前服务端所连接的客户端，各自用户数据之间的相似性进行评估的第一样本数据之后，服务端依次对提取出的样本数据随机添加数据噪声以对该样本数据进行冗余处理，或者，服务端依次对提取出的样本数据进行随机扰动，以对该样本数据进行扰乱处理，又或者，服务端在依次对提取出的样本数据随机添加数据噪声以对该样本数据进行冗余处理的同时对该样本数据进行随机扰动，以对样本数据进行扰乱处理，从而基于获取到的第一样本数据生成第二样本数据。

本实施例中，服务端生成第二样本数据的方式，并不仅仅限于通过对提取的样本数据添加数据噪声或者进行数据扰动，服务端还可通过对样本数据进行切割、乱序等处理，或者将各扰动、加噪(添加噪声)、切割或者乱序等处理进行组合操作以生成第二样本数据。

本发明通过联邦学习***的服务端，在获取到与当前联邦学习***中的服务端所连接的各客户端用户不相关的用户数据，作为对当前各客户端用户数据的相似性进行测试评估的第一样本数据之后，依据获取到的各第一样本数据进行数据切割、加噪、乱序和/或扰动等处理，以生成与第一样本数据相同数量的第二样本数据，从而将服务端采集到的第一样本数据与生成的第二样本数据进行组合形成测试样本集，以供服务端调用各客户端本地机器学习模型进行测试，进而评估各客户端用户数据的相似性。实现了，基于第一样本数据和随机生成的样本数据即可完成对联邦学习***中客户端相似性的评估，既提升了联邦学习***对客户端用户的了解，从而更具有针对性的为用户提供准确的服务，而且无需接触到用户真实的原始数据，保证了用户数据的安全。

此外，请参照图5，本发明实施例还提出一种客户端相似性的评估装置，所述客户端相似性的评估装置应用于联邦学习***，所述联邦学习***包括：服务端和客户端，其中，所述客户端为多个，所述客户端相似性的评估装置包括：

优选地，获取模块，包括：

第一获取单元，用于所述服务端检测预先存储的样本数据集；

所述第一获取单元，还用于从所述样本数据集中，基于随机采样方式获取样本数据作为各所述客户端的第一样本数据；或者，

第二获取单元，用于所述服务端获取各客户端随机输入的样本数据作为所述第一样本数据。

优选地，所述客户端相似性的评估装置，还包括：

生成模块，用于所述服务端基于所述第一样本数据生成第二样本数据。

优选地，生成模块，包括：

生成单元，用于所述服务端在获取到的所述第一样本数据中随机添加噪声和/或者对所述第一样本数据随机进行扰动，以生成所述第二样本数据。

优选地，测试模块，包括：

数据提取单元，用于从所述第一样本数据和所述第二样本数据中，按照预设比例提取第一目标样本数据和第二目标样本数据；

数据组合单元，用于将提取出所述第一目标样本数据和所述第二目标样本数据进行组合，以得到所述第一样本数据与所述第二样本数据的测试样本集。

优选地，测试模块，还包括：

调用单元，用于所述服务端调取各所述客户端的机器学习模型；

测试单元，用于基于各所述机器学习模型对所述测试样本集中的所述第一目标样本数据以及所述第二目标样本数据进行训练测试。

优选地，评估模块，包括：

测试结果获取单元，用于所述服务端对各所述机器学习模型进行训练测试的各测试结果进行记录；

第一评估单元，用于逐次提取任意两个所述测试结果，基于相似性评估函数计算所述用户数据的相似性；或者，

第二评估单元，用于对得到的各所述测试结果进行无监督聚类，以评估各所述用户数据的相似性。

本实施例提出的客户端相似性的评估装置各个模块运行时实现如上所述的参数相似性的评估方法的步骤，在此不再赘述。

此外，本发明实施例还提出一种存储介质，应用于计算机，即所述存储介质为计算机可读存储介质，所述介质上存储有客户端相似性的评估程序，所述客户端相似性的评估程序被处理器执行时实现如上所述的客户端相似性的评估方法的步骤。

其中，在所述处理器上运行的客户端相似性的评估程序被执行时所实现的方法可参照本发明基于客户端相似性的评估方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种客户端相似性的评估方法，其特征在于，所述客户端相似性的评估方法应用于联邦学习***，所述联邦学习***包括：服务端和客户端，其中，所述客户端为多个，所述客户端相似性的评估方法包括以下步骤：

所述服务端获取预存的样本数据或者获取各客户端随机输入的样本数据作为第一样本数据；所述样本数据是与所述服务端所连接的各客户端不相关的用户数据，且所述样本数据不是各所述客户端的真实用户数据；

将所述第一样本数据与所述服务端生成与所述服务端连接客户端相同数量的第二样本数据组合为测试样本集，并调用所述各客户端的本地机器学习训练模型对所述测试样本集进行本地训练测试；

利用相似性评估函数基于所述测试样本集进行测试得到的测试结果，对各所述客户端的相似性进行评估。

2.如权利要求1所述的客户端相似性的评估方法，其特征在于，所述服务端获取预存的样本数据或者获取各客户端随机输入的样本数据作为第一样本数据的步骤，包括：

所述服务端检测预先存储的样本数据集；

3.如权利要求1所述的客户端相似性的评估方法，其特征在于，在所述服务端获取预存的样本数据或者获取各客户端随机输入的样本数据作为第一样本数据的步骤之后，所述方法还包括：

所述服务端基于所述第一样本数据生成第二样本数据。

4.如权利要求3所述的客户端相似性的评估方法，其特征在于，所述服务端基于所述第一样本数据生成第二样本数据的步骤，包括：

5.如权利要求1所述的客户端相似性的评估方法，其特征在于，所述将所述第一样本数据与所述服务端生成与所述服务端连接客户端相同数量的第二样本数据组合为测试样本集的步骤，包括：

6.如权利要求5所述的客户端相似性的评估方法，其特征在于，所述对所述测试样本集进行本地训练测试的步骤，包括：

所述服务端调取各所述客户端的机器学习模型；

7.如权利要求6所述的客户端相似性的评估方法，其特征在于，所述基于所述测试样本集进行测试得到的测试结果，对各所述客户端的相似性进行评估的步骤，包括：

逐次提取任意两个所述测试结果，基于相似性评估函数计算所述客户端的相似性；或者，

对得到的各所述测试结果进行无监督聚类，以评估各所述客户端的相似性。

8.一种客户端相似性的评估装置，其特征在于，所述客户端相似性的评估装置应用于联邦学习***，所述联邦学习***包括：服务端和客户端，其中，所述客户端为多个，所述客户端相似性的评估装置包括：

获取模块，用于所述服务端获取预存的样本数据或者获取各客户端随机输入的样本数据作为第一样本数据；所述样本数据是与所述服务端所连接的各客户端不相关的用户数据，且所述样本数据不是各所述客户端的真实用户数据；

测试模块，用于将所述第一样本数据与所述服务端生成与所述服务端连接客户端相同数量的第二样本数据组合为测试样本集，并调用所述各客户端的本地机器学习训练模型对所述测试样本集进行本地训练测试；

评估模块，用于利用相似性评估函数基于所述测试样本集进行测试得到的测试结果，对各所述客户端的相似性进行评估。

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的客户端相似性的评估程序，所述客户端相似性的评估程序被所述处理器执行时实现如权利要求1至7中任一项所述的客户端相似性的评估方法的步骤。

10.一种存储介质，其特征在于，应用于计算机，所述存储介质上存储有客户端相似性的评估程序，所述客户端相似性的评估程序被处理器执行时实现如权利要求1至7中任一项所述的客户端相似性的评估方法的步骤。