CN114490704A

CN114490704A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN114490704A
Application number: CN202011271019.1A
Authority: CN
Inventors: 林江淼; 黄启军; 黄铭毅; 陈瑞钦; 刘玉德
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-13

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质，所述方法包括：获取数据库脚本语句，数据库脚本语句与第一样本数据和第二样本数据相关联，第一样本数据为第一客户终端本地数据库中的样本数据；根据数据库脚本语句，确定第二客户终端，第二样本数据为第二客户终端本地数据库中的样本数据；根据数据库脚本语句和加密算法，与第二客户终端进行第一样本数据和第二样本数据的数据对齐，获得第一样本数据和第二样本数据的交集数据，交集数据用于联邦学习。本发明能够实现联邦学习中不同客户终端上的样本数据进行对齐，降低联邦学习中样本数据对齐的复杂度，并提高联邦学习中样本数据对齐的效率。

Description

数据处理方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

联邦机器学习(Federated machine learning)，又称联邦学习(FederatedLearning)，能够在数据不出本地的前提下，联合各方进行数据使用和协同建模，成为隐私保护计算中的一种常用方法。

在联邦学习过程中，机器模型训练的多个参与者拥有不同但能够对齐的数据。为了使得联邦学习的建模效果与将各个参与者拥有的数据放在一起进行建模的效果相差不大，在模型训练前，不同参与者之间需要进行数据对齐。

联邦学***台或者跨网络的数据对齐，其复杂度还有待降低。

发明内容

本发明的主要目的在于提供一种数据处理方法、装置、设备及存储介质，旨在联邦学习中不同客户终端数据对齐的复杂度较高的技术问题。

为实现上述目的，本发明提供一种数据处理方法，应用于第一客户终端，所述方法包括：

获取数据库脚本语句，所述数据库脚本语句与第一样本数据和第二样本数据相关联，所述第一样本数据为所述第一客户终端本地数据库中的样本数据；

根据所述数据库脚本语句，确定第二客户终端，所述第二样本数据为所述第二客户终端本地数据库中的样本数据；

根据所述数据库脚本语句和加密算法，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐，获得所述第一样本数据与所述第二样本数据的交集数据，所述交集数据用于联邦学习。

可选的，所述数据库脚本语句包括所述第一样本数据的标识信息，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前，所述方法还包括：

根据所述第一样本数据的标识信息，在所述第一客户终端的本地数据库中获取所述第一样本数据。

可选的，所述数据库脚本语句还包括所述第二样本数据的标识信息，所述根据所述数据库脚本语句，确定第二客户终端，包括：

根据所述第二样本数据的标识信息和预设的样本数据分布信息，确定所述第二客户终端，所述样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。

可选的，所述数据库脚本语句还包括样本对齐参考信息，所述样本对齐参考信息包括如下一项或多项：样本ID、样本特征，所述根据所述数据库脚本语句和加密算法，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐，包括：

根据所述加密算法，与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐，获得所述交集数据；

其中，所述第一元素值为所述第一样本数据中与所述样本对齐参考信息对应的元素值，所述第二元素值为所述第二样本数据中与所述样本对齐参考信息对应的元素值。

可选的，所述根据所述加密算法，与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐，获得所述交集数据，包括：

对各所述第一元素值进行加密，获得所述第一加密数据；

将所述第一加密数据发送给所述第二客户终端，并接收所述第二客户返回的第二加密数据，所述第二加密数据与加密的各所述第二元素值相关联；

根据所述第一加密数据和所述第二加密数据，对加密的各所述第一元素值和加密的各所述第二元素值进行数据对齐，获得所述交集数据。

可选的，所述根据所述数据库脚本语句，确定第二客户终端之前，所述方法还包括：

对所述数据库脚本语句进行编译，获得编译后的语法单元；

根据所述编译后的语法单元，获得所述第一样本数据的标识信息、所述第二样本数据的标识信息和所述样本对齐参考信息。

可选的，所述数据库脚本语句为结构化查询语言SQL语句，所述结构化查询语言SQL语句包括所述第一样本数据的文件名、所述第二样本数据的文件名和所述样本对齐参考信息。

可选的，所述方法还包括：

将所述交集数据发送给所述第二客户终端。

可选的，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前，所述方法还包括：

将所述数据库脚本语句发送给所述第二客户终端。

本发明还提供一种数据处理装置，所述装置包括：

获取模块，用于获取数据库脚本语句，所述数据库脚本语句与第一样本数据和第二样本数据相关联，所述第一样本数据为所述第一客户终端本地数据库中的样本数据；

确定模块，用于根据所述数据库脚本语句，确定第二客户终端，所述第二样本数据为所述第二客户终端本地数据库中的样本数据；

交集模块，用于根据所述数据库脚本语句和加密算法，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐，获得所述第一样本数据与所述第二样本数据的交集数据，所述交集数据用于联邦学习。

本发明还提供一种数据处理设备，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如前述任一项所述的数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如前述任一项所述的数据处理方法的步骤。

本发明中，第一客户终端在获取与第一样本数据和第二样本数据相关联的数据库脚本语句之后，根据数据库脚本语句确定第二样本数据所在的第二客户终端，根据数据库脚本语句和加密算法，与第二客户终端进行第一样本数据和第二样本数据的数据对齐，得到第一样本数据和第二样本数据的交集数据。因此，在满足联邦学习的数据安全的前提下，利用数据库脚本语句实现联邦学习中不同客户终端之间的数据对齐，且有效地降低了不同客户终端之间数据对齐的复杂度，提高了不同客户终端之间数据对齐的效率。

附图说明

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种数据处理方法的流程示意图；

图3为本发明实施例提供的另一种数据处理方法的流程示意图；

图4为本发明实施例提供的机构A和机构B进行数据对齐的示例图；

图5为本发明提供的一种数据处理装置的结构示意图；

图6为本发明提供的一种数据处理设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1为本发明实施例提供的一种应用场景示例图。

如图1所示，联邦学习的参与者包括服务器和K个客户终端。在联邦学习过程中，服务器向各个客户终端下发全局模型，每个客户终端利用本地数据对服务器下发的全局模型进行训练，得到训练后的模型参数并上传至服务器，服务器将各个客户终端上传的模型参数进行聚合，得到更新后的全局模型，依次重复上述过程，直至聚合后的全局模型收敛为止。

其中，各个客户终端可以包括终端设备和/或服务器。

其中，联邦学习包括两种方式：横向联邦学习和纵向联邦学习。

在横向联邦学习中，参与联邦学习的不同客户终端的本地数据中，有着不同用户的用户数据，但在用户特征上重叠较多。例如，客户终端A拥有用户a、用户b、用户c、用户d的用户数据，这些用户数据中的用户特征包括用户的年龄、职业、收入等，客户终端B拥有客户e、客户f、客户g的用户数据，这些用户数据中的用户特征包括用户的年龄、收入、消费记录等。可见，客户终端A与客户终端B拥有不同用户的用户数据，但是客户终端A中的用户数据和客户终端B中的用户数据都包括年龄、收入这两项用户特征。

在纵向联邦学习中，参与联邦学习的不同客户终端的本地数据中，有着重叠的用户的用户数据，但是用户数据中的用户特征不同。例如，客户终端A拥有用户a、用户b、用户c、用户d的用户数据，这些用户数据中的用户特征包括用户的年龄、职业、收入等，客户终端C拥有用户b、用户c、用户d、用户f的用户数据，这些用户数据中的用户特征包括用户的消费记录、出行记录等。可见，客户终端A和客户终端C都拥有用户b、用户c和用户d的用户数据，但客户终端A中用户数据的用户特征与客户终端C中用户数据的用户特征不同。

在横向联邦学习或者纵向联邦学习中，进行联邦学习建模之前，需要先进行不同客户终端之间的数据对齐，也即进行“撞库”，得到不同客户终端之间的交集数据，基于交集数据，再进行横向联邦建模或者纵向联邦建模。

例如，基于图1所示的应用场景，在服务器向各个客户终端下发全局模型之前，或者在每个客户终端利用本地数据对服务器下发的全局模型进行训练之前，不同客户终端需要进行数据对齐，或者说需要进行撞库，得到各自之间的交集数据。基于本地数据和交集数据，各个客户终端对服务器下发的全局模型进行训练。

例如，前述客户终端A和客户终端B可以基于用户特征进行数据对齐，对其后，客户终端A和客户终端B的交集数据为年龄、收入这两项用户特征。则客户终端A可以基于自己拥有的用户的年龄和收入对服务器下发的全局模型进行训练，客户终端B也可以基于自己拥有的用户的年龄和收入对服务器下发的全局模型进行训练，使得最后经过服务器聚合的全局模型的效果，逼近将客户终端A的用户数据与客户终端B的用户数据放在一起进行建模的效果。

由于联邦学习的各个客户终端中的用户数据通常通过数据库的方式进行存储，不同的客户终端都有自己一套成熟的数据库脚本语言进行数据分析和数据处理，且都是数据不出本方。通过数据库脚本语言对数据进行交集求解的过程较为简单高效，但在对不同的客户终端的用户数据进行对齐时，需要在多方之间进行数据库操作，而且涉及数据加密。采用数据库脚本语言进行数据统计与分析的传统方式，通常仅适用于一方客户终端对本地的用户数据进行交集求解，很难直接应用于联邦学习中的数据对齐。

有鉴于此，本发明实施例提供一种数据处理方法，通过与第一样本数据和第二样本数据相关的数据库脚本语句，指示第一客户终端与第二客户终端进行第一样本数据与第二样本数据的对齐，第一客户终端在获取到数据库脚本语句后，第一客户端根据数据库脚本语句，确定第二客户终端，根据数据库脚本语句和加密算法，与第二客户终端进行第一样本数据和第二样本数据的对齐，得到最终的交集数据。其中，第一客户终端和第二客户终端为联邦学习中的不同客户终端。因此，本发明实施例利用联邦学习中客户终端采用数据库存储用户数据的特点，采用数据库脚本语句和加密算法，在确保客户终端上用户数据的数据安全的前提下，实现了联邦学习中不同客户终端之间样本数据的对齐，降低了联邦学习中不同客户终端进行样本数据对齐的复杂度，提高了联邦学习中不同客户终端之间样本数据对齐效率。

图2为本发明实施例提供的一种数据处理方法的流程示意图。应用于第一客户终端，如图2所示，所述方法可以包括：

步骤201、获取数据库脚本语句，数据库脚本语句与第一样本数据和第二样本数据相关联，第一样本数据为第一客户终端本地数据库中的样本数据。

其中，数据库脚本语句属于数据库脚本语言中的编程语句，数据库脚本语言是指用于对数据库进行操作(例如数据库中数据表创建、数据库查询、数据库更新等操作)的非过程化编程语言。

其中，数据库脚本语句可包括第一样本数据的标识信息(例如第一样本数据所在数据库的数据库名称、第一样本数据所在数据表的表名)和第二样本数据的标识信息(例如第二样本数据所在数据库的数据库名称、第二样本数据所在数据表的表名)，或者，可包括第一客户终端的标识信息(例如第一客户终端的设备标识、网络地址)和第二客户终端的标识信息(例如第二客户终端的设备标识、网络地址)，用于指示第一客户终端与第二客户终端进行第一样本数据和第二样本数据的数据对齐。

其中，第一样本数据为第一客户终端本地数据库中的样本数据，第二样本数据为第二客户终端本地数据库中的样本数据。第一样本数据包括一个或多个样本的样本数据，其中，样本数据包括样本的样本ID和样本特征，各样本的样本ID唯一。同样的，第二样本数据包括一个或多个样本的样本数据，样本数据包括样本的样本ID和样本特征，各样本的样本ID唯一。

在横向联邦学习中，第一样本数据与第二样本数据中的样本ID不同，但是样本的样本特征存在重叠，例如第一样本数据包括样本a的特征a1，第二样本数据包括样本e的样本特征a1。在纵向联邦学习中，第一样本数据与第二样本数据中的样本ID存在重叠，例如，第一样本数据包括样本d的样本特征a1，第二样本数据包括样本d的样本特征b1。

可选的，样本可以为用户，样本的样本数据可以为用户的用户数据，用户数据包括用户ID和用户特征，用户ID唯一。其中，用户ID例如包括如下的一项或多项：用户编号、身份证号、银行***、终端设备号等，用户特征例如包括如下的一项或多项：用户的姓名、年龄、职业、收入、消费记录等。

可选的，获取预先设置的数据库脚本语句。

可选的，获取用户输入的数据库脚本语句。例如，用户在第一客户终端的终端设备上输入数据库脚本语句，第一客户终端的终端设备将用户输入的数据库脚本语句发送给第一客户终端的服务器，以便第一客户终端的服务器与第二客户终端的服务器进行第一样本数据和第二样本数据的对齐。

可选的，接收第二客户终端发送的数据库脚本语句。

例如，在进行第一样本数据和第二样本数据的数据对齐之前，第一客户终端可以向第二客户终端发送进行数据对齐的请求，第二客户终端响应于接收到的数据对齐请求，将第二客户终端上预先设置的数据库脚本语句发送给第一客户终端。又如，在检测到当前时间为预设时间时，第二客户终端主动向第一客户终端发送数据库脚本语句。

步骤202、根据数据库脚本语句，确定第二客户终端。

具体的，在获得数据库脚本语句后，如果数据库脚本语句中包括第二样本数据的标识信息，则可根据第二样本数据的标识信息，确定第二样本数据所在的第二客户终端；或者，如果数据库脚本语句中包括第二客户终端的标识信息，则可根据第二客户终端的标识信息确定第二样本数据所在的第二客户终端；或者，如果数据库脚本语句为第二客户终端发送给第一客户终端，则可以根据数据库脚本语句的发送设备确定第二客户终端。

可选的，在根据第二样本数据的标识信息，确定第二样本数据所在的第二客户终端时，根据第二样本数据的标识信息和预设的样本数据分布信息，确定第二客户终端，其中，样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。在样本数据分布信息中，以第二样本数据的标识信息为索引，查找与第二样本数据的标识信息对应的客户终端，将该客户终端确定为第二客户终端。因此，通过样本数据分布信息记录不同样本数据所分布的客户终端，在进行数据对齐时可以准确且快速地确定另一客户终端。

步骤203、根据数据库脚本语句和加密算法，与第二客户终端进行第一样本数据和第二样本数据的数据对齐，获得第一样本数据与第二样本数据的交集数据，交集数据用于联邦学习。

其中，为确保数据安全性，加密算法采用为非对称加密算法。非对称加密算法例如为RSA算法、数据签名算法(Digital Signature Algorithm，DSA算法)、椭圆曲线密码编码学(Elliptic Curves Cryptography，ECC算法)等。

具体的，在获得数据库脚本语句后，根据数据库脚本语句在第一客户终端中获取第一样本数据。第一客户终端可根据加密算法对第一样本数据进行加密处理。第二客户终端可根据同样的数据库脚本语句，确定第二样本数据，并采用同样的加密算法对第二样本数据进行加密处理，将加密处理后的第二样本数据发送给第一客户终端。第一客户终端基于经过同样加密处理的第一样本数据和第二样本数据进行数据对齐，加密处理的第一样本数据与加密处理的第二样本数据的交集数据，进而基于第一样本数据与加密处理的第一样本数据的对应关系，得到第一样本数据与第二样本数据的交集数据，例如，得到第一样本数据与第二样本数据都拥有的用户ID。

其中，第一客户终端根据加密算法对第一样本数据进行加密处理时，可对第一样本数据中的部分数据或者全部数据进行加密，例如，对第一样本数据中各样本的样本ID进行加密，或者对第一样本数据中各样本的样本特征进行加密，或者对第一样本数据中各样本的样本ID和样本特征进行加密。同样的，第二客户终端根据加密算法对第二样本数据进行加密处理时，可对第二样本数据中的部分数据或者全部数据进行加密。

如果对第一样本数据中各样本的样本ID进行加密、对第二样本数据中各样本的样本ID进行加密，则第一客户终端和第二客户终端可以得到第一样本数据的样本ID与第二样本数据的样本ID的交集数据。如果对第一样本数据中各样本的样本特征进行加密、对第二样本数据中各样本的样本特征进行加密，则第一客户终端和第二客户终端可以得到第一样本数据的样本特征与第二样本数据的样本特征的交集数据。

可选的，第一客户终端和第二客户终端可分别进行加密处理后的第一样本数据和加密处理后的第二样本数据的数据对齐，各自都得到交集数据；或者，在第一客户终端上进行加密处理后的第一样本数据和加密处理后的第二样本数据的数据对齐，由第一客户终端将得到的交集数据发送给第二客户终端；或者，在第二客户终端上进行加密处理后的第一样本数据和加密处理后的第二样本数据的数据对齐，由第二客户终端将交集数据发送给第一客户终端。

可选的，在根据数据库脚本语句在第一客户终端中获取第一样本数据时，可获取第一客户终端上本地数据库中所有的本地样本数据，也可以获取第一客户终端上用户在本地数据库中预先设置的用于数据对齐的本地样本数据。或者，在根据数据库脚本语句在第一客户终端中获取第一样本数据时，可根据第一样本数据的标识信息，在第一客户终端中的本地数据库中查找第一样本数据的标识信息所对应的样本数据，即获得第一样本数据，因此，可以通过数据库脚本语句指定用于数据对齐的第一样本数据。

本实施例提供的数据处理方法，利用联邦学习中客户终端采用数据库存储用户数据的特点，采用数据库脚本语句和加密算法，实现第一客户终端与第二客户终端之间的样本数据对齐。因此，在确保客户终端上用户数据的数据安全的前提下，实现了联邦学习中不同客户终端之间样本数据的对齐，降低了联邦学习中不同客户终端进行样本数据对齐的复杂度，提高了联邦学习中不同客户终端之间样本数据对齐效率。

在一些实施例中，数据库脚本语句还包括样本对齐参考信息，样本对齐参考信息包括如下一项或多项：样本ID、样本特征，样本对齐参考信息用于确定第一样本数据与第二样本数据进行数据对齐的范围。如果样本对齐参考信息为样本ID，则数据库脚本语句用于表示第一样本数据中各样本的样本ID与第二样本数据中各样本的样本ID进行数据对齐。如果样本对齐参考信息为样本特征，则数据库脚本语句用于表示第一样本数据中各样本的样本特征与第二样本数据中各样本的样本特征进行数据对齐。因此，依据数据库脚本语句，实现对第一样本数据和第二样本数据进行样本ID和/或样本特征的对齐。

在数据库脚本语句包括样本对齐参考信息、且样本对齐参考信息包括样本ID和/或样本特征的情形下，根据加密算法，第一客户终端与第二客户终端进行至少一个第一元素值和至少第二元素值的数据对齐，获得交集数据。其中，第一元素值为第一样本数据中与样本对齐参考信息对应的元素值，第二元素值为第二样本数据中与样本对齐参考信息对应的元素值。

具体的，第一客户终端在数据库脚本语句中获取样本对齐参考信息，在第一样本数据中获取与样本对齐参考信息对应的第一元素值。第一客户终端通过加密算法对各第一元素值进行加密处理。第二客户终端在数据库脚本语句中获取样本对齐参考信息，在第二样本数据中获取与样本对齐参考信息对应的第二元素值，通过加密算法对各第二元素值进行加密处理。第一客户终端基于经过同样加密处理后的第一元素值和第二元素值的交集数据，可确定第一样本数据与第二样本数据之间的交集数据。

在数据库脚本语句包括第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息、且样本对齐参考信息包括样本ID和/或样本特征的情形下，图3为本发明实施例提供的一种数据处理方法的流程示意图。应用于第一客户终端，如图3所示，所述方法可以包括：

步骤301、第一客户终端获取数据库脚本语句。

步骤302、第二客户终端获取数据库脚本语句。

可选的，第一客户终端获取预先设置在第一客户终端的数据库脚本语句，第二客户终端获取预先设置在第二客户终端的数据库脚本语句，其中，第一客户终端的数据库脚本语句与第二客户终端的数据库脚本语句一致。

可选的，第一客户终端获取用户输入的数据库脚本语句，第二客户终端获取用户输入的数据库脚本语句。例如，第一客户终端的用户与第二客户终端的用户约定分别向第一客户终端和第二客户终端输入相同的数据库语句。

可选的，第一客户终端获取用户输入的数据库脚本语句，将该数据库脚本语句发送给第二客户终端；或者，第二客户终端获取用户输入的数据库脚本语句，将该数据库脚本语句发送给第二客户终端。因此，确保第一客户终端获取的数据库脚本语句与第二客户终端获取的数据库脚本语句一致。

其中，关于数据库脚本语句、第一样本数据、第二样本数据的内容可参照前述实施例，不再赘述。

需要说明的是，步骤301和步骤302可以同步执行，也可以不同步执行，在此对步骤301和步骤302的先后执行顺序不做限制。

步骤303、第一客户终端根据数据库脚本语句，获取第一样本数据中至少一个第一元素值，并对各第一元素值进行加密，获得第一加密数据。

具体的，第一客户终端可获取数据库脚本语句中第一样本数据的数据标识和样本对齐参考信息。根据第一样本数据的数据标识，第一客户终端从本地数据库中获取第一样本数据，在获得第一样本数据后，从第一样本数据中获取与样本对齐参考信息对应的至少一个元素值，得到至少一个第一元素值。

如果样本对齐参考信息包括样本ID，则为从第一样本数据中获取与样本ID对应的元素值。例如，第一样本数据中包括样本a、样本b、样本c、样本d的样本数据，样本a、样本b、样本c、样本d的样本ID分别为1、2、3、4，则在第一样本数据中与样本ID元素值包括1、2、3、4。

如果样本对齐参考信息包括样本特征，则从第一样本数据中获取与该样本特征对应的元素值。例如，样本对齐参考信息包括用户年龄，则需要从第一样本数据中获取各个样本的用户年龄。

具体的，由于非对称加密算法采用公钥和私钥，为确保数据安全性，第一客户终端和第二客户终端可分别持有公钥和私钥中的一个。例如，第一客户终端持有公钥，第二客户终端持有私钥；或者，第一客户终端持有私钥，第二客户终端持有公钥。以第一客户终端持有公钥为例，第一客户终端可根据公钥和加密算法，对各个第一元素值进行加密处理，得到第一加密数据。

步骤304、第一客户终端根据数据库脚本语句，确定第二客户终端。

具体的，第一客户终端可获取数据库脚本语句中第二样本数据的标识信息，根据第二样本数据的标识信息和预设的样本数据分布信息，确定第二客户终端。具体可参照前述实施例的相关内容，不再赘述。

可选的，第一客户终端在获得数据库脚本语句后，将数据库脚本语句输入编译器，以对数据库脚本语句进行编译，得到编译后的语法单元，根据编译后的语法单元，获得第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息。其中，语法单元为能够被计算机理解的机器语言，可从编译后的语法单元中直接读取第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息。

步骤305、第一客户终端将第一加密数据发送给第二客户终端。

具体的，在获得第一加密数据后，第一客户终端将第一加密数据发送给第二客户终端，第一加密数据用于第二客户终端的数据加密过程。

步骤306、第二客户终端根据数据库脚本语句，获取第二样本数据中至少一个第二元素值，并根据第一加密数据和各第二元素值，获得第二加密数据。

其中，第二加密数据与加密的各第二元素值相关联。

具体的，第二客户终端根据数据库脚本语句获取第二样本数据中至少一个第二元素值的过程，可参考第一客户终端根据数据库脚本语句获取第一样本数据中至少一个第一元素值的过程，不再赘述。

具体的，第二客户终端在得到第一加密数据后，可采用私钥和加密算法对第一加密数据进行处理，得到经过私钥加密的第一加密数据。第二客户终端采用私钥和加密算法对各第二元素值进行处理，得到经过私钥加密的各个第二元素值。由经过私钥加密的第一加密数据和经过私钥加密的各个第二元素值，得到第二加密数据。因此，通过在第一客户终端对第一样本数据进行加密处理、在第二客户终端对第二样本数据进行加密，确保了第一样本数据的数据安全和第二样本数据的数据安全。

可选的，第二客户终端在获得数据库脚本语句后，将数据库脚本语句输入编译器，以对数据库脚本语句进行编译，得到编译后的语法单元，根据编译后的语法单元，获得第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息。

步骤307、第二客户终端将第二加密数据发送给第一客户终端。

步骤308、第一客户终端根据第一加密数据和第二加密数据，获得加密的各第一元素值和加密的各第二元素值进行数据对齐，获得交集数据。

具体的，第一客户终端在得到第二加密数据后，由于第二加密数据中包括经过私钥加密的第一加密数据和经过私钥加密的第二元素值，由于第一加密数据是经过公钥加密的第一元素值，因此，基于第一加密数据和经过私钥加密的第一加密数据，对第一加密数据中公钥加密的部分进行还原，得到仅经过私钥加密的第一元素值。第一客户终端拿到经过私钥加密的第一元素值和经过私钥加密的第二元素值后，可对经过私钥加密的第一元素值和经过私钥加密的第二元素值进行交集运算，得到经过私钥加密的第一元素值和经过私钥加密的第二元素值的交集数据。由于第一客户终端上拥有第一元素值，基于经过私钥加密的第一元素值和经过私钥加密的第二元素值的交集数据，可以得到第一元素值与第二元素值的交集数据，也即基于数据库脚本语句得到的第一样本数据与第二样本数据的交集数据。因此，在第一客户终端和第二客户终端进行第一样本数据和第二样本数据的全程中，确保了第一样本数据和第二样本数据的数据安全，且确保了第一样本数据与第二样本数据的交集数据的数据安全，最终完成第一样本数据和第二样本数据之间的对齐。

本实施例提供的数据处理方法，通过包括第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息的数据库脚本语句和加密算法，在确保第一样本数据和第二样本数据的数据安全的前提下，实现第一客户终端和第二客户终端之间第一样本数据和第二样本数据的数据对齐，而且基于数据库脚本语句和数据加密将数据库脚本语言与数据加密进行结合，利用数据库脚本语言进行交集求解时简洁和高效的特点，提高了联邦学习中第一客户终端和第二客户终端数据对齐的效率。

在一些实施例中，第一客户终端在对各个第一元素值进行加密时，为避免第二客户终端可通过私钥对第一元素值进行解密，可先为各个第一元素值生成对应的随机数，不同的元素值对应的随机数不同。第一客户终端通过公钥对随机数据进行加密，得到各个第一元素值的混淆因子。通过哈希算法得到各个第一元素的哈希值。根据各个第一元素的混淆因子和各个第一元素的哈希值，得到各个第一元素对应的公钥加密值。有各个第一元素对应的公钥加密值构成第一加密数据。

相应的，第二客户终端在接收到第一加密数据后，可通过私钥对第一加密数据中各个公钥加密值进行处理，得到经过私钥加密的第一加密数据。由于第一加密数据中的各个公钥加密值中第一元素的哈希值并未经过公钥加密，仅混淆因子经过了公钥加密，因此第二客户终端通过私钥对第一加密数据中各个公钥加密值的处理，相当于对各个公钥加密值中的混淆因子进行了解密、同时对各个加密值中各个第一元素值的公钥哈希值进行了加密。

相应的，第二客户终端在通过私钥对各个第二元素值进行加密处理时，可先通过与第一客户终端相同的哈希算法得到各个第二元素值的哈希值。对各个第二元素值对应的哈希值进行私钥加密，得到各个第二元素值对应的私钥加密值。因此，第二加密数据包括各个第二元素值的私钥加密值和经过私钥加密的第一加密数据，经过私钥加密的第一加密数据中的各个私钥加密值为经过混淆因子和私钥加密的第一元素值。

相应的，第一客户终端在接收到第二加密数据后，由于第一客户终端上保存有各个第一元素值的混淆因子，能够对经过私钥加密的第一加密数据中的各个私钥加密值进行处理，以去除各个私钥加密值中的混淆因子，得到仅经过私钥加密的第一元素值。因此，第一客户终端得到经过私钥加密的第一元素值和经过私钥加密的第二元素值，能够进一步得到经过私钥加密的第一元素值和经过私钥加密的第二元素值的交集数据。

作为示例的，第一客户终端先为各第一元素值生成对应的随机数，通过公钥对随机数进行加密，得到各第一元素值的混淆因子。获取各第一元素值的哈希值，通过混淆因子对各第一元素值的哈希值进行混淆，得到各第一元素值的混淆结果。对各第一元素值的混淆结果进行取模，由取模后的各混淆结果组成第一加密数据。例如，第一加密数据Y_A可以表示为：

Y_A＝{ri^e％n*H(ui)％n}，其中，公钥表示为(n,e)，r_i为与第i个第一元素值对应的随机数，u_i∈X_A表示第i个第一元素值，X_A表示所有第一元素值的集合，H(u_i)表示u_i的哈希值。

作为示例的，第二客户终端在采用预设私钥对各第二元素值进行加密的过程中，先获取各第二元素值的哈希值，对该多个哈希值再进行哈希，得到最终的哈希值，根据私钥对最终的哈希值进行加密，得到各第二元素值对应的私钥加密值。例如，各第二元素值对应的私钥加密值的集合Z_B可以表示为：

Z_B＝{H(H(u_j))^d％n}，其中，u_j∈X_B表示第i个第二元素值，X_B表示所有第二元素值的集合，私钥表示为(n,d)。

作为示例的，第二客户端采用私钥对第一加密数据进行加密处，得到的经过私钥加密的第一加密数据Z_A可以表示为：

作为示例的，第一客户终端接收到第二子加密数据后，对经过公钥加密的第一加密数据进行处理，得到经过私钥加密的第一元素值的集合为：

D_A＝{H(ri*(H(ui))^d/ri％n)}＝{H(H(u_i))^d}。因此，第一客户终端可D_A和Z_B进行交集求解，得到的交集数据。在该公式中，第一客户终端对Z_A进行了模拟运算(即公式中的除法取模运算)，以去除随机数r_i的影响，也即混淆因子的影响，得到经过私钥加密的第一样本数据。

在一些实施例中，数据库脚本语句为结构化查询语言SQL语句，结构化查询语言SQL语句包括第一样本数据的文件名、第二样本数据的文件名和样本对齐参考信息。例如，SQL语句可以表示为：

“select featureA,featureB from A join B on ID_A＝ID_B”。

其中，A表示第一样本数据，B表示第二样本数据。ID_A和ID_B为样本对齐参考数据，ID_A表示第一样本数据中的样本ID，ID_B表示第二样本数据中观的样本ID。featureA表示第一样本数据中的样本特征，featureB表示第二样本数据中的样本特征，由于第二样本数据中的样本特征对于第一客户终端是未知的，所以featureB可以理解为第二样本数据中的所有样本特征。

具体的，由于SQL语句为数据库脚本语言，第一客户终端在获得SQL语言后，可将SQL语言输入编译器，以将SQL语言转换为机器语言，得到机器能够理解的语法单元。从语法单元中获取第一样本数据的标识信息、第二样本数据的标识信息以及样本对齐参考信息。

作为示例的，图4为机构A与机构B进行数据对齐的示例图。其中，机构A可以理解为上述第一客户终端，机构B可以理解为上述第二客户终端。数据表A为第一样本数据，数据表B为第二样本数据。目标SQL表示数据库脚本语句。联邦计算框架(Federated AITechnology Enabler，FATE)***为用于联邦学习的计算框架，FATE***包括了编译器和分布式计算***，还包括存储***，能够实现联邦学习过程中的编译、运算和存储等操作。

如图4所示，A机构和B机构对目标SQL进行编译，得到语法单元，根据语法单元和样本数据分布信息，得到数据表A和数据表B的分布信息，也即数据表A所在的客户终端和数据表B所在的客户终端，还可从语法单元中获取样本对齐参考信息。再根据样本参考对齐信息在分布式计算***中对数据表A和数据表B进行上述任一方法实施例描述的数据加密和对齐操作。

其中，FATE***可以位于A机构的服务器、B机构的服务器上，A机构的用户和B机构的用户可以在各自的终端设备上输入目标SQL语句。由终端设备将目标SQL语句发送给各自的服务器。

在一些实施例中，第二客户终端存储公钥和私钥，可由第二客户终端向第一客户终端发送公钥，或者，也可以第一客户终端存储公钥和私钥，可由第一客户终端向第二客户终端发送公钥，从而实现第一客户终端与第二客户终端之间通过统一的公钥和私钥进行上述数据加密操作。

图5为本发明实施例提供的一种数据处理装置的结构示意图。如图5所示，所述数据处理装置可以包括：

获取模块501，用于获取数据库脚本语句，数据库脚本语句与第一样本数据和第二样本数据相关联，第一样本数据为第一客户终端本地数据库中的样本数据；

确定模块502，用于根据数据库脚本语句，确定第二客户终端，第二样本数据为第二客户终端本地数据库中的样本数据；

交集模块503，用于根据数据库脚本语句和加密算法，与第二客户终端进行第一样本数据和第二样本数据的数据对齐，获得第一样本数据与第二样本数据的交集数据，交集数据用于联邦学习。

本实施例提供的数据处理装置，可以用于执行前述任一方法实施例提供的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的实现方式中，数据库脚本语句包括第一样本数据的标识信息，获取模块501还用于：根据第一样本数据的标识信息，在第一客户终端的本地数据库中获取第一样本数据。

在一种可能的实现方式中，数据库脚本语句还包括第二样本数据的标识信息，确定模块502具体用于：根据第二样本数据的标识信息和预设的样本数据分布信息，确定第二客户终端，样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。

在一种可能的实现方式中，数据库脚本语句还包括样本对齐参考信息，样本对齐参考信息包括如下一项或多项：样本ID、样本特征，交集模块503具体用于：根据加密算法，与第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐，获得交集数据；其中，第一元素值为第一样本数据中与样本对齐参考信息对应的元素值，第二元素值为第二样本数据中与样本对齐参考信息对应的元素值。

在一种可能的实现方式中，交集模块503具体用于：对各第一元素值进行加密，获得第一加密数据；将第一加密数据发送给第二客户终端，并接收第二客户返回的第二加密数据，第二加密数据与加密的各第二元素值相关联；根据第一加密数据和第二加密数据，对加密的各第一元素值和加密的各第二元素值进行数据对齐，获得交集数据。

在一种可能的实现方式中，数据处理装置还包括：编译单元，用于对数据库脚本语句进行编译，获得编译后的语法单元。其中，获取模块501还用于：根据编译后的语法单元，获得第一样本数据的标识信息、第二样本数据的标识信息和样本对齐参考信息。

在一种可能的实现方式中，数据库脚本语句为结构化查询语言SQL语句，结构化查询语言SQL语句包括第一样本数据的文件名、第二样本数据的文件名和样本对齐参考信息。

在一种可能的实现方式中，数据处理装置还包括：收发单元504，用于将交集数据发送给第二客户终端。

在一种可能的实现方式中，收发模块504，还用于：将数据库脚本语句发送给第二客户终端。

前述任一实施例提供的数据处理装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图6为本发明实施例提供的一种数据处理设备的结构示意图。如图6所示，所述设备可以包括：存储器601、处理器602及存储在所述存储器601上并可在所述处理器602上运行的数据处理程序，所述数据处理程序被所述处理器602执行时实现如前述任一实施例所述的数据处理方法的步骤。

可选的，存储器601既可以是独立的，也可以跟处理器602集成在一起。

本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如前述任一实施例所述的数据处理方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，应用于第一客户终端，包括：

2.根据权利要求1所述的方法，其特征在于，所述数据库脚本语句包括所述第一样本数据的标识信息，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述数据库脚本语句还包括所述第二样本数据的标识信息，所述根据所述数据库脚本语句，确定第二客户终端，包括：

4.根据权利要求3所述的方法，其特征在于，所述数据库脚本语句还包括样本对齐参考信息，所述样本对齐参考信息包括如下一项或多项：样本ID、样本特征，所述根据所述数据库脚本语句和加密算法，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述加密算法，与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐，获得所述交集数据，包括：

对各所述第一元素值进行加密，获得第一加密数据；

6.根据权利要求4所述的方法，其特征在于，所述根据所述数据库脚本语句，确定第二客户终端之前，所述方法还包括：

对所述数据库脚本语句进行编译，获得编译后的语法单元；

7.根据权利要求4所述的方法，其特征在于，所述数据库脚本语句为结构化查询语言SQL语句，所述结构化查询语言SQL语句包括所述第一样本数据的文件名、所述第二样本数据的文件名和所述样本对齐参考信息。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

将所述交集数据发送给所述第二客户终端。

9.根据权利要求1-7任一项所述的方法，其特征在于，与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前，所述方法还包括：

将所述数据库脚本语句发送给所述第二客户终端。

10.一种数据处理装置，其特征在于，包括：

获取模块，用于获取数据库脚本语句，所述数据库脚本语句与第一样本数据和第二样本数据相关联，所述第一样本数据为第一客户终端本地数据库中的样本数据；

11.一种数据处理设备，其特征在于，所述数据处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1-9中任一项所述的数据处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1-9中任一项所述的数据处理方法的步骤。