CN109241770A

CN109241770A - 基于同态加密的信息值计算方法、设备及可读存储介质

Info

Publication number: CN109241770A
Application number: CN201810918870.5A
Authority: CN
Inventors: 范涛; 马国强; 刘洋; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-01-18
Anticipated expiration: 2038-08-10
Also published as: CN109241770B

Abstract

本发明公开了一种基于同态加密的信息值计算方法、设备及可读存储介质，该方法包括步骤：当第二终端确定与第一终端携带相同数据标识的交集样本数据后，第二终端采用同态加密算法对交集样本数据对应的数据标签进行加密，得到数据标签值；将数据标签值对应的数据标识和数据标签值发送给第一终端，并检测是否接收到第一终端发送的信息数据，其中，信息数据是第一终端根据数据标识和数据标签值所得的；当接收到信息数据后，根据信息数据计算信息数据对应特征变量的信息值。本发明实现了在第一终端和第二终端***露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据中各个样本数据对应的信息值。

Description

基于同态加密的信息值计算方法、设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于同态加密的信息值计算方法、设备及可读存储介质。

背景技术

在对数据进行统计建模或机器学习之前，需要进行大量的特征工程工作，即需要在大量数据中选取对建模或者机器学习比较重要的数据。因此，计算数据特征的重要性尤为重要。

随着科学技术的发展，数据的隐私保护越来越重要。然而很多的建模任务，需要利用多方的数据一起联合学习才能完成建模。因此，如何在多方***露各自数据的情况下，通过联合学习的方法计算数据的信息值，是亟待解决的问题，其中，信息值(InformationValue，简称IV)是一种表示数据特征重要性的指标。

发明内容

本发明的主要目的在于提供一种基于同态加密的信息值计算方法、设备及可读存储介质，旨在解决现有的如何在多方***露各自数据的情况下，通过联合学习的方法计算数据的信息值的技术问题。

为实现上述目的，本发明提供一种基于同态加密的信息值计算方法，所述基于同态加密的信息值计算方法包括步骤：

当第二终端确定与第一终端携带相同数据标识的交集样本数据后，所述第二终端采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值；

将所述数据标签值对应的数据标识和所述数据标签值发送给第一终端，并检测是否接收到所述第一终端发送的信息数据，其中，所述信息数据是所述第一终端根据所述数据标识和所述数据标签值所得的；

当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。

优选地，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤包括：

当接收到所述信息数据后，解密所述信息数据，得到与所述信息数据对应样本数据的负样本个数和正样本个数；

根据所述负样本个数和所述正样本个数计算所述信息数据对应特征变量的权重值；

通过所述权重值和预设的信息值计算公式计算得到所述信息数据对应特征变量的信息值。

优选地，所述当第二终端确定与第一终端携带相同数据标识的交集样本数据后，所述第二终端采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值的步骤之前，还包括:

当所述第二终端接收到所述第一终端发送的加密后的第一数据标识后，所述第二终端采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值；

将采用所述预设公钥加密后的第二数据标识发送给所述第一终端，并检测是否接收到所述第一终端加密所述第二数据标识后返回的第二加密值；

当接收到所述第二加密值后，根据所述第一加密值和所述第二加密值确定与所述第一终端携带相同数据标识的交集样本数据。

优选地，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤之后，还包括：

当接收到建模指令后，根据所述信息值选取建模所需的特征变量。

此外，为实现上述目的，本发明还提供一种基于同态加密的信息值计算方法，所述基于同态加密的信息值计算方法包括步骤：

当第一终端接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，所述第一终端根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值；

对属于同一类别的所述数据标签值进行求和，得到求和后的所述数据标签值；

将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端，以供所述第二终端根据所述信息数据计算与所述信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。

优选地，所述当第一终端接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，所述第一终端根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值的步骤之前，还包括：

当所述第一终端确定与所述第二终端携带相同数据标识的交集样本数据后，所述第一终端按照预设方式对所述交集样本数据中的特征变量对应的特征值进行分类，以确定所述特征值所属类别；

所述当第一终端接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，所述第一终端根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值的步骤包括：

当第一终端接收到第二终端发送的数据标签值和数据标识后，所述第一终端根据所述特征值所属类别确定属于同一类别的所述数据标识，并根据属于同一类别的所述数据标识确定属于同一类别的所述数据标签值。

优选地，所述将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端的步骤之前，还包括：

将属于同一类别的所述数据标签值对应的数据标识记为目标数据标识；

对所述目标数据标识进行编码，得到编码后的所述数据标识；

所述将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端的步骤包括：

将求和后的所述数据标签值和编码后的所述数据标识作为信息数据发送给所述第二终端，以供所述第二终端根据所述信息数据计算与所述信息数据对应特征变量的信息值。

优选地，所述对属于同一类别的所述数据标签值进行求和，得到求和后的所述数据标签值的步骤包括：

确定属于同一类别的所述数据标签值中的第一标签值和第二标签值；

分别对所述第一标签值和所述第二标签值进行求和，得到求和后的所述数据标签值。

此外，为实现上述目的，本发明还提供一种基于同态加密的信息值计算设备，所述基于同态加密的信息值计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于同态加密的信息值计算程序，所述基于同态加密的信息值计算程序被所述处理器执行时实现如上所述的基于同态加密的信息值计算方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于同态加密的信息值计算程序，所述基于同态加密的信息值计算程序被处理器执行时实现如上所述的基于同态加密的信息值计算方法的步骤。

本发明通过当第二终端确定与第一终端携带相同数据标识的交集样本数据后，第二终端采用同态加密算法对交集样本数据对应的数据标签进行加密，得到数据标签值；将数据标签值对应的数据标识和数据标签值发送给第一终端，并检测是否接收到第一终端发送的信息数据；当接收到信息数据后，根据信息数据计算信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。实现了在第一终端和第二终端***露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据中各个样本数据对应的信息值。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于同态加密的信息值计算方法第一实施例的流程示意图；

图3为本发明基于同态加密的信息值计算方法第二实施例的流程示意图；

图4为本发明基于同态加密的信息值计算方法第三实施例的流程示意图；

图5为本发明基于同态加密的信息值计算方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为基于同态加密的信息值计算设备的硬件运行环境的结构示意图。本发明实施例基于同态加密的信息值计算设备可以是PC，便携计算机等终端设备。

如图1所示，该基于同态加密的信息值计算设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于同态加密的信息值计算设备结构并不构成对基于同态加密的信息值计算设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于同态加密的信息值计算程序。其中，操作***是管理和控制基于同态加密的信息值计算设备硬件和软件资源的程序，支持基于同态加密的信息值计算程序以及其它软件或程序的运行。

在图1所示的基于同态加密的信息值计算设备中，当基于同态加密的信息值计算设备为第一终端时，用户接口1003主要用于连接第二终端，与第二终端进行数据通信；当基于同态加密的信息值计算设备为第二终端时，用户接口1003主要用于连接第一终端，与第一终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信。当基于同态加密的信息值计算设备为第二终端时，处理器1001可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，并执行以下操作：

当确定与第一终端携带相同数据标识的交集样本数据后，采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值；

进一步地，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤包括：

进一步地，所述确定与第一终端携带相同数据标识的交集样本数据后，采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值的步骤之前，处理器1001还可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，并执行以下步骤：

当接收到所述第一终端发送的加密后的第一数据标识后，采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值；

进一步地，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤之后，处理器1001还可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，并执行以下步骤：

进一步地，当基于同态加密的信息值计算设备为第一终端时，处理器1001还可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，执行以下步骤：

当接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值；

进一步地，所述当接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值的步骤之前，处理器1001还可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，执行以下步骤：

当确定与所述第二终端携带相同数据标识的交集样本数据后，按照预设方式对所述交集样本数据中的特征变量对应的特征值进行分类，以确定所述特征值所属类别；

所述当接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值的步骤包括：

当接收到第二终端发送的数据标签值和数据标识后，根据所述特征值所属类别确定属于同一类别的所述数据标识，并根据属于同一类别的所述数据标识确定属于同一类别的所述数据标签值。

进一步地，所述将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端的步骤之前，处理器1001还可以用于调用存储器1005中存储的基于同态加密的信息值计算程序，执行以下步骤：

进一步地，所述对属于同一类别的所述数据标签值进行求和，得到求和后的所述数据标签值的步骤包括：

基于上述的结构，提出基于同态加密的信息值计算方法的各个实施例。

参照图2，图2为本发明基于同态加密的信息值计算方法第一实施例的流程示意图。

本发明实施例提供了基于同态加密的信息值计算方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同态加密的信息值计算方法应用于第二终端，第二终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、等移动终端，以及诸如数字TV、台式计算机等固定终端。基于同态加密的信息值计算方法包括：

步骤S10，当第二终端确定与第一终端携带相同数据标识的交集样本数据后，所述第二终端采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值。

当第二终端确定与第一终端携带相同数据标识的交集样本数据后，第二终端确定交集样本数据对应的数据标签，并采用同态加密算法对交集样本数据对应的数据标签进行加密，得到数据标签值。需要说明的是，在第一终端和第二终端中，都存在对应的样本数据，在第二终端中，一个样本数据都对应着一个数据标识和一个数据标签；在第一终端中，样本数据只存在对应的数据标识，不存在对应的数据标签。每个样本数据至少对应一个特征变量，每个特征变量至少对应一个特征值。样本数据的数据标识是由第一终端和第二终端根据相同的规则所设置的。

如若第一终端的样本数据为：{<id1：x1，x2>，<id2:x1，x2>，<id3:x1，x2>}，第二终端的样本数据为：{<id2:x3，x4>，<id3:x3，x4>，<id4:x3，x4>，则第二终端中交集样本数据为：{<id2:x3，x4>，<id3:x3，x4>}，第一终端中的交集样本数据为：{<id2:x1，x2>，<id3:x1，x2>}。其中，id1，id2，id3和id4为数据标识，x1，x2，x3和x4为对应样本数据的特征变量，每个特征变量都存在对应的特征值，如特征变量x1表示年龄，对应的特征值为0，5，16，25和50，记为x1＝{0，5，16，25，50}。

同态加密是基于数学难题的计算复杂性理论的密码学技术，对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。

在本实施例中，存在两种数据标签，用“0”表示第一种数据标签，用“1”表示第二种数据标签。在其它实施例中，也可以设置三种数据标签或者四种数据标签等。

步骤S20，将所述数据标签值对应的数据标识和所述数据标签值发送给第一终端，并检测是否接收到所述第一终端发送的信息数据，其中，所述信息数据是所述第一终端根据所述数据标识和所述数据标签值所得的。

当第二终端得到数据标签值后，第二终端获取交集样本数据对应的数据标识，将数据标签值和数据标识发送给第一终端，并检测是否接收到第一终端根据发送的信息数据，信息数据是第一终端根据数据标识和数据标签值所得的。其中，由于在第二终端中，一个数据样本对应一个数据标签和一个数据标识，一个数据标签对应一个数据标签值，因此，在第二终端中，一个数据标签值对应一个数据标识，第二终端获取交集样本数据对应的数据标识，即获取各个数据标签值对应的数据标识。需要说明的是，第二终端在将数据标识和数据标签值发送给第一终端过程中，可将数据标识与数据标签值对应发送给第一终端，即第一终端在接收到数据标签值后，即可根据该数据标签值对应的数据标识。

当第一终端接收到第二终端发送的数据标识和数据标签值后，第一终端确定属于同一类别的数据标签值，对属于同一类别的数据标签值进行求和，得到求和后的数据标签值，并将与属于同一类别的数据标签值对应的数据标识，以及对应的求和后的数据标签值作为信息数据发送给第二终端。

在本实施例中，用Encry(y)表示数据标签为“1”的数据标签值，用Encry(1-y)表示数据标签为“0”的数据标签值，用id表示对应的数据标识，则第二终端发送给第一终端的数据标识和数据标签值可表示为：{id，Encry(y)，Encry(1-y)}。

步骤S30，当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。

当第二终端接收到第一终端发送的信息数据后，第二终端根据该信息数据计算信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。需要说明的是，信息数据对应特征变量的信息值为属于同一类别数据标识对应特征变量的信息值。

进一步地，步骤S30包括：

步骤a，当接收到所述信息数据后，解密所述信息数据，得到与所述信息数据对应样本数据的负样本个数和正样本个数。

当第二终端接收到第一终端发送的信息数据后，第二终端解密该信息数据，得到与信息数据对应样本数据的负样本个数和正样本个数。其中，信息数据可标识为{id_set_i，sum_1,sum_2}，id_set_i表示信息数据中的数据标识，sum_1表示信息数据中，数据标签为“1”的数据标签值之和，sum_2表示信息数据中，数据标签为“0”的数据标签值之和。如若id_set_i＝{id3，id6，id7，id8}，且id3和id8对应的数据标签为“0”，id6和id7对应的数据标签为“1”，则sum_1＝sum(Encry(y6)+Encry(y7))，sum_2＝sum(Encry(1-y3)+Encry(1-y8))，Encry(y6)为id6对应的数据标签值，Encry(y7)为id7对应的数据标签值，Encry(1-y3)为id3对应的数据标签值，Encry(1-y8)为id8对应的数据标签值。

在本实施例中，负样本个数为第一终端中某个类别中携带数据标签为“0”的样本个数，正样本个数为第一终端中某个类别中携带数据标签“1”的样本个数。当解密信息数据后，即解密信息数据中的sum_1和sum_2后，会得到sum_1和sum_2中的数据标签值，根据sum_1和sum_2对应数据标签值的个数即可确定正样本个数和负样本个数。如当sum_1有3个数据标签值时，确定正样本个数为3个；当sum_2中有4个数据标签值时，确定负样本个数为4个。

进一步地，为了提高第一终端和第二终端所传输数据的安全性，第一终端可对信息数据中的数据标识进行编码，得到编码后的数据标识，并将该编码后的数据标识与sum_1和sum_2一起发送给第二终端。当第二终端接收到编码后的数据标识后，可对该数据标识进行解码，得到原始的数据标识。

步骤b，根据所述负样本个数和所述正样本个数计算所述信息数据对应特征变量的权重值。

当第二终端得到负样本个数和正样本个数后，第二终端根据负样本个数和正样本个数计算信息数据对应特征变量的权重值。具体地，第二终端将负样本个数除以其交集样本数据中携带与负样本相同数据标签的总样本个数，得到信息数据对应特征变量中，对应类别的负样本权重值；将正样本个数除以其交集样本数据中携带与正样本相同数据标签的总样本个数，得到信息数据对应特征变量中，对应类别的正样本权重值。当第二终端得到正样本对应的权重值和负样本对应的权重值后，第二终端通过预设的权重公式计算该特征变量对应类别的权重值。权重公式为：Woe_i＝100*log(distpos_i/distneg_i)，其中，distpos_i为正样本权重值，distneg_i为负样本权重值，Woe_i表示第一终端的交集样本数据中某个类别对应的权重值，即信息数据对应特征变量的权重值。

步骤c，通过所述权重值和预设的信息值计算公式计算得到所述信息数据对应特征变量的信息值。

当第二终端计算得到权重值后，第二终端根据计算所得的权重值和预设的信息值计算公式计算出信息数据对应特征变量所属类别的信息值。其中，预设的信息值计算公式为：即预设的信息值计算公式为IV表示对应的信息值。需要说明的是，本实施例中的IV值只是某个特征变量所属某个类别的信息值，该特征变量对应的信息值等于其对应所有类别的信息值之和。如当特征变量x1对应着4个类别，即特征变量x1对应特征值属于4个类别，这4个类别对应的信息值分别为IV1、IV2、IV3和IV4时，特征变量x1的信息值＝IV1+IV2+IV3+IV4。

本实施例通过当第二终端确定与第一终端携带相同数据标识的交集样本数据后，第二终端采用同态加密算法对交集样本数据对应的数据标签进行加密，得到数据标签值；将数据标签值对应的数据标识和数据标签值发送给第一终端，并检测是否接收到第一终端发送的信息数据；当接收到信息数据后，根据信息数据计算信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。实现了在第一终端和第二终端***露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据中各个样本数据对应的信息值。

进一步地，提出本发明基于同态加密的信息值计算方法第二实施例。

所述基于同态加密的信息值计算方法第二实施例与所述基于同态加密的信息值计算方法第一实施例的区别在于，参照图3，基于同态加密的信息值计算方法还包括：

步骤S40，当所述第二终端接收到所述第一终端发送的加密后的第一数据标识后，所述第二终端采用预设公钥对所述第一数据标识进行二次加密，得到第一加密值。

当第二终端接收到第一终端发送的加密后的第一数据标识后，第二终端采用预设公钥对第一数据标识进行第二次加密，得到经过二次加密后的第一数据标识，并将经过二次加密后的第一数据标识记为第一加密值。需要说明的是，第一终端发送的加密后的第一数据标识为第一终端加密其所持有的样本数据对应的数据标识后所得到的，具体地，第一终端可采用其预先生成的公钥加密第一数据标识。第一终端和第二终端加密所用的公钥是通过非对称加密算法生成的。

步骤S50，将采用所述预设公钥加密后的第二数据标识发送给所述第一终端，并检测是否接收到所述第一终端加密所述第二数据标识后返回的第二加密值。

第二终端将预设公钥加密后的第二数据标识发送给第一终端，并检测是否接收到第一终端加密第二数据标识后返回的第二加密值。其中，第二数据标识为第二终端样本数据对应的数据标识。当第一终端接收到第二终端发送的加密后的第二数据标识后，第一终端采用其公钥对第二数据标识进行二次加密，将经过二次加密后的第二数据标识记为第二加密值，并将该第二加密值发送给第二终端。

步骤S60，当接收到所述第二加密值后，根据所述第一加密值和所述第二加密值确定与所述第一终端携带相同数据标识的交集样本数据。

当第二终端接收到第一终端发送的第二加密值后，第二终端判断第一加密值与第二加密值是否相等。若确定第一加密值与第二加密值相等，第二终端则确定对应携带第二数据标识的样本数据为交集样本数据；若确定第一加密值与第二加密值不相等，第二终端则确定携带第二数据标识的样本数据不是交集样本数据。可以理解的是，当第一加密值与第二加密值相等时，表明第一加密值对应的第一数据标识与第二加密值对应的第二数据标识是相同的。

如当第一终端的公钥为pub_a，第二终端的公钥为pub_b时，确定交集样本数据的过程为：(1)第一终端采用其公钥pub_a对id_a(第一数据标识)加密：id_a_fa＝f(id_a,pub_a)，然后把id_a_fa发送给第二终端，第二终端采用公钥pub_b把该id_a加密串进行再次加密，得到id_a_fa_fb＝f(id_a_fa,pub_b)。(2)第二终端采用公钥pub_b对id_b(第二数据标识)加密：id_b_fb＝f(id_b,pub_b)，然后把id_b_fb发送给第一终端，第一终端采用公钥pub_a把该id_b加密串进行再次加密：id_b_fb_fa＝f(id_b_fb,pub_a)，然后把id_b_fb_fa发送第二终端。(3)第二终端比较id_a_fa_fb(第一加密值)和id_b_fb_fa(第二加密值)，如果这两个加密串相等，则表示id_a和id_b相同。

本实施例通过在第一终端和第二终端***露自己所拥有数据的情况下，得到第一终端和第二终端样本数据的交集样本数据，提高了计算数据信息值过程中，第一终端和第二终端数据的安全性。

进一步地，提出本发明基于同态加密的信息值计算方法第三实施例。

所述基于同态加密的信息值计算方法第三实施例与所述基于同态加密的信息值计算方法第一或第二实施例的区别在于，参照图4，基于同态加密的信息值计算方法还包括：

步骤S70，当接收到建模指令后，根据所述信息值选取建模所需的特征变量。

当第二终端接收到建模指令后，第二终端根据该信息值选取建模所需的特征变量。其中，该建模指令可由对应用户根据需要而触发。具体地，第二终端在建模所需特征变量的过程中，可判断该特征变量对应的信息值是否大于或者等于预设阈值。当确定某个特征变量的信息值大于或者等于预设阈值时，第二终端将该特征变量作为建模的数据源；当确定某个特征变量的信息值小于预设阈值中，第二终端在建模过程中，可不考虑该特征变量，或者降低将该特征变量在建模过程中权重。

本实施例通过信息值来选取建模所需的数据，提高了所建立模型的精确度，以及提高了建模的效率。

此外，本发明实施例还提出一种基于同态加密的信息值计算方法，本发明实施例提供了基于同态加密的信息值计算方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同态加密的信息值计算方法应用于第一终端，第一终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、等移动终端，以及诸如数字TV、台式计算机等固定终端。参照图5，基于同态加密的信息值计算包括：

步骤S110，当第一终端接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，所述第一终端根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值。

当第一终端接收到第二终端发送的数据标签值和与该数据标签值对应的数据标识后，第一终端确定其与第二终端携带相同数据标识的交集样本数据中各个特征值所属类别，根据各个特征值所属类别确定所接收的数据标签值中，属于同一类别的数据标签值，将属于同一类别的特征值对应的数据标签值划分为一类。需要说明的是，每个特征值都存在对应的数据标识，而每个数据标签值也存在对应的数据标识，因此通过数据标识即可确定属于同一类别的数据标签值。

如当第一终端交集样本数据中的特征值分别为a、b、c、d和e，对应的数据标识分别为id1、id2、id3、id4和id5，第一终端所接收的数据标签值为Encry(a)、Encry(b)、Encry(c)、Encry(d)和Encry(e)，对应的数据标识分别为id1、id2、id3、id4和id5时，若在第一终端中，a、b和e为一类，c和d为一类，则可确定Encry(a)、Encry(b)和Encry(e)为一类，Encry(c)和Encry(d)为一类。

需要说明的是，第一终端确定其交集样本数据的过程和第二终端确定其交集样本数据的过程原理一致，在本实施例不再详细赘述。可以理解的是，在第一终端和第二终端的交集样本数据中，对应的数据标识是相同，但是，相同数据标识所对应的特征变量可能不相同。

步骤S120，对属于同一类别的所述数据标签值进行求和，得到求和后的所述数据标签值。

当第一终端确定所接收的数据标签值中属于同一类别的数据标签值后，对属于同一类别的数据标签值进行求和，得到求和后的数据标签值。

进一步地，步骤S120包括：

步骤d，确定属于同一类别的所述数据标签值中的第一标签值和第二标签值。

具体地，第一终端确定属于同一类别的数据标签值中的第一标签值和第二标签值。需要说明的是，在本实施例中，由于只存在两种数据标签，因此，只存在第一标签值和第二标签值。若存在三种数据标签，则会存在第一标签值、第二标签值和第三标签值。在本实施例中，根据数据标签值对应数据标签的不同得到第一标签值和第二标签值。如可将数据标签为“0”的数据标签值作为第一标签值，将数据标签为“1”的数据标签作为第二标签值。

步骤e，分别对所述第一标签值和所述第二标签值进行求和，得到求和后的所述数据标签值。

当第一终端确定属于同一类别的数据标签值中的第一标签值和第二标签值后，第一终端分别对第一标签值和第二标签值进行求和，即将各个第一标签值相加，以及将各个第二标签值相加，以得到求和后的数据标签值。

步骤S130，将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端，以供所述第二终端根据所述信息数据计算与所述信息数据对应特征变量的信息值，其中，每一数据标识至少对应一个特征变量。

当第一终端得到求和后的数据标签值后，第一终端确定求和后数据标签值对应的数据标识，并将求和后的数据标签值对应的数据标识，以及求和后的数据标签值作为信息数据发送给第二终端，以供第二终端根据信息数据计算与信息数据对应特征变量的信息值，即第二终端根据求和后数据标签值对应数据标识的特征变量的信息值，其中，每一数据标识至少对应一个特征变量，一个特征变量至少对应一个特征值。需要说明的是，第一终端的样本数据只存在对应的数据标识，不存在对应的数据标签，第二终端的样本数据既存在对应的数据标识，也存在对应的数据标签。

本实施例的第一终端根据第二终端发送的数据标签值和数据标识得到信息数据，并将信息数据发送给第二终端，以供第二终端根据信息数据计算与信息数据对应特征变量的信息值，实现了在第一终端和第二终端***露各自数据的情况下，第二终端通过与第一终端联合学习的方法计算第一终端中与其交集样本数据中各个样本数据对应的信息值。

进一步地，提出本发明基于同态加密的信息值计算方法第五实施例。

所述基于同态加密的信息值计算方法第五实施例与所述基于同态加密的信息值计算方法第四实施例的区别在于，基于同态加密的信息值计算方法还包括：

步骤f，当所述第一终端确定与所述第二终端携带相同数据标识的交集样本数据后，所述第一终端按照预设方式对所述交集样本数据中的特征变量对应的特征值进行分类，以确定所述特征值所属类别。

当第一终端确定与第二终端携带相同数据标识的交集样本数据后，第一终端按照预设方式对交集样本数据中各个特征变量对应的特征值进行分类，以确定特征值所属类别。具体地，一个特征变量可对应一个或者多个特征值，第一终端可按照等距离或者等频率等方法对特征变量对应的特征值进行分类。需要说明的是，在第一终端中，一种特征变量对应的预设方式是一样的，如对于年龄这个特征变量对应特征值分类的方式都采用每间隔10岁进行分类，对于价格这个特征变量对应特征值分类的方式都采用每间隔1000元进行分类。

可以理解的是，第一终端也可以根据具体需要对特征变量对应的特征值进行分类。如特征变量x1对应的特征值有0，5，16，25和50，记为x1＝{0，5，16，25，50},分类为后变成x1＝{[0-10]，[0-10]，(10-20]，(20-40]，>40}形式，由此可知，0和5属于[0-10]这一类别，16属于(10-20]这一类别，25属于(20-40]这一类别，50属于大于40这一类别。

步骤S110包括：

步骤g，当第一终端接收到第二终端发送的数据标签值和数据标识后，所述第一终端根据所述特征值所属类别确定属于同一类别的所述数据标识，并根据属于同一类别的所述数据标识确定属于同一类别的所述数据标签值。

当第一终端接收到第二终端发送的数据标签值和数据标识后，第一终端根据特征值所属类别确定属于同一类别的数据标识，并根据属于同一类别的数据标识确定属于同一类别的数据标签值。可以理解的是，属于同一类别的特征值对应的数据标识也是属于同一类别的。

本实施例通过对第一终端交集样本数据中特征变量对应的特征值进行分类，然后根据特征值所属类别确定属于同一类别的数据标识和数据标签值，以便于在第一终端和第二终端不提供各自样本数据的基础上，实现第一终端和第二终端的联合学习。

进一步地，提出本发明基于同态加密的信息值计算方法第六实施例。

所述基于同态加密的信息值计算方法第六实施例与所述基于同态加密的信息值计算方法第四或第五实施例的区别在于，基于同态加密的信息值计算方法还包括：

步骤h，将属于同一类别的所述数据标签值对应的数据标识记为目标数据标识。

步骤i，对所述目标数据标识进行编码，得到编码后的所述数据标识。

当第一终端确定属于同一类别的数据标签值和数据标识后，第一终端将属于同一类别的数据标签值对应的数据标识记为目标数据标识，并对目标数据标识进行编码，得到编码后的数据标识，具体地，第一终端可对目标数据标识进行重排，以得到编码后的数据标识，或者按照其他编码规则对目标数据标识进行重排，得到编码后的数据标识。在本实施例中，对第一终端编码目标数据标识的编码方式不做具体限制。

步骤S130包括：

步骤j，将求和后的所述数据标签值和编码后的所述数据标识作为信息数据发送给所述第二终端，以供所述第二终端根据所述信息数据计算与所述信息数据对应特征变量的信息值。

当第一终端得到编码后的数据标识后，第一终端将求和后的数据标签值和编码后的数据标识作为信息数据发送给第二终端，以供第二终端根据信息数据计算与信息数据对应特征变量的信息值。

本实施例通过对某一类别的数据标识进行编码，将编码后的数据标识发送给第二终端，以对发送给第二终端的数据标识进行保护，提高了在计算特征变量信息值过程中，第一终端和第二终端数据传输的安全性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于同态加密的信息值计算程序，所述基于同态加密的信息值计算程序被处理器执行时实现如上所述的基于同态加密的信息值计算方法的步骤。

本发明计算机可读存储介质具体实施方式与上述基于同态加密的信息值计算方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于同态加密的信息值计算方法，其特征在于，所述基于同态加密的信息值计算方法包括以下步骤：

2.如权利要求1所述的基于同态加密的信息值计算方法，其特征在于，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤包括：

3.如权利要求1所述的基于同态加密的信息值计算方法，其特征在于，所述当第二终端确定与第一终端携带相同数据标识的交集样本数据后，所述第二终端采用同态加密算法对所述交集样本数据对应的数据标签进行加密，得到数据标签值的步骤之前，还包括:

4.如权利要求1至3任一项所述的基于同态加密的信息值计算方法，其特征在于，所述当接收到所述信息数据后，根据所述信息数据计算所述信息数据对应特征变量的信息值的步骤之后，还包括：

5.一种基于同态加密的信息值计算方法，其特征在于，所述基于同态加密的信息值计算方法包括以下步骤：

6.如权利要求5所述的基于同态加密的信息值计算方法，其特征在于，所述当第一终端接收到第二终端发送的数据标签值和与所述数据标签值对应的数据标识后，所述第一终端根据交集样本数据中各个特征值所属类别确定属于同一类别的所述数据标签值的步骤之前，还包括：

7.如权利要求5所述的基于同态加密的信息值计算方法，其特征在于，所述将求和后的所述数据标签值对应的数据标识，以及求和后的所述数据标签值作为信息数据发送给所述第二终端的步骤之前，还包括：

8.如权利要求5至7任一项所述的基于同态加密的信息值计算方法，其特征在于，所述对属于同一类别的所述数据标签值进行求和，得到求和后的所述数据标签值的步骤包括：

9.一种基于同态加密的信息值计算设备，其特征在于，所述基于同态加密的信息值计算设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的基于同态加密的信息值计算程序，所述基于同态加密的信息值计算程序被所述处理器执行时实现如权利要求1至4，或者权利要求5至8中任一项所述的基于同态加密的信息值计算方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于同态加密的信息值计算程序，所述基于同态加密的信息值计算程序被处理器执行时实现如权利要求1至4，或者权利要求5至8中任一项所述的基于同态加密的信息值计算方法的步骤。