CN112995076B

CN112995076B - 一种离散数据频率估计方法、用户端、数据中心及***

Info

Publication number: CN112995076B
Application number: CN201911298496.4A
Authority: CN
Inventors: 刘莹; 朱洪斌; 刘圣龙; 赵涛; 王衡; 周鑫; 王迪; 毛一凡; 崔硕
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-09-27
Anticipated expiration: 2039-12-17
Also published as: CN112995076A

Abstract

本发明涉及一种离散数据频率估计方法、用户端、数据中心及***，包括：用户端根据向数据中心发送的离散数据的种类生成离散数据编码；用户端获取离散数据编码对应的扰乱编码，并将该离散数据编码对应的扰乱编码发送至数据中心；数据中心接收各用户端的离散数据编码对应的扰乱编码；数据中心根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率。该方案中用户终端根据松散本地差分隐私的定义，在原始数据上减少噪声的注入，在满足本地差分隐私的基础上，尽可能的降低数据的失真度，提高扰乱后数据的可用性，进而提高统计结果的准确率。

Description

一种离散数据频率估计方法、用户端、数据中心及***

技术领域

本发明涉及电网信息控制领域，具体涉及一种离散数据频率估计方法、用户端、数据中心及***。

背景技术

在生产控制领域，包括但不限于电网信息控制领域，经常需要不同区域、不同部门的业务数据汇集至数据中心，并通过联合分析，得出某种业务事件的发生频率，开展业务分析。其中涉及到数据所有权和数据使用权分离的情况，即数据的所有全分别数据不同区域、不同部门，而分析结果可以共享，因此需要在保障各方数据秘密的情况下进行联合数据分析。

当前同区域、不同部门的业务数据直接汇集至数据中心，存在敏感数据泄露风险，而且数据中心作为各方联合工作的关键节点，数据安全防护责任巨大。此外，各方为了维护自身数据安全以及规避数据安全责任，共享数据的积极性也会大打折扣，不利于数据业务的开展。因此迫切需要一种由独立各方根据自由数据情况完成本地差分隐私处理，在保护自身数据隐私的条件下进行联合分析的技术。

发明内容

针对现有技术的不足，本发明的目的是用户终端根据松散本地差分隐私的定义，在原始数据上减少噪声的注入，在满足本地差分隐私的基础上，尽可能的降低数据的失真度，提高扰乱后数据的可用性，进而提高统计结果的准确率。

本发明的目的是采用下述技术方案实现的：

本发明提供一种离散数据频率估计方法，该方法应用于用户端，其改进之处在于，所述方法包括：

根据向数据中心发送的离散数据的种类生成离散数据编码；

获取离散数据编码对应的扰乱编码，并将该离散数据编码对应的扰乱编码发送至数据中心。

优选的，所述离散数据编码的长度与离散数据种类总数相等。

进一步的，所述离散数据编码为(v₁...v_i...v_n)，其中，n为离散数据种类总数，v_i为第i类离散数据对应的编码值，若用户端向数据中心发送的离散数据的种类为第i类离散数据，则v_i＝1，否则，v_i＝0。

优选的，所述获取离散数据编码对应的扰乱编码，包括：

获取离散数据编码中各类离散数据对应的编码值的转换概率；

基于所述离散数据编码中各类离散数据对应的编码值的转换概率确定所述离散数据编码对应的扰乱编码。

进一步的，所述获取离散数据编码中各类离散数据对应的编码值的转换概率，包括：

按下式确定离散数据编码中第i类离散数据对应的编码值转换为0的概率：

按下式确定离散数据编码中第i类离散数据对应的编码值转换为1的概率：

上式中，ε为隐私保护预算，δ为松散本地差分隐私下的参数，取值为0到1之间，

为离散数据编码对应的扰乱编码中第i类离散数据对应的扰乱编码值，

为离散数据编码中第i类离散数据对应的编码值转换为0的概率，

为离散数据编码中第i类离散数据对应的编码值转换为1的概率。

进一步的，所述基于所述离散数据编码中各类离散数据对应的编码值的转换概率确定所述离散数据编码对应的扰乱编码，包括：

在{0,1}集合中以

的概率抽取0，以

的概率抽取1，若抽中0，则

若抽中1，则

本发明提供一种应用于离散数据频率估计的用户端，其改进之处在于，所述用户端包括：

生成模块，用于根据向数据中心发送的离散数据的种类生成离散数据编码；

获取模块，用于获取离散数据编码对应的扰乱编码；

发送模块，用于将该离散数据编码对应的扰乱编码发送至数据中心。

优选的，所述获取模块，包括：

获取单元，用于获取离散数据编码中各类离散数据对应的编码值的转换概率；

确定单元，用于基于所述离散数据编码中各类离散数据对应的编码值的转换概率确定所述离散数据编码对应的扰乱编码。

进一步的，所述获取单元具体用于：

进一步的，所述确定单元具体用于：

在{0,1}集合中以

的概率抽取0，以

的概率抽取1，若抽中0，则

若抽中1，则

本发明提供一种离散数据频率估计方法，该方法应用于数据中心，其改进之处在于，所述方法包括：

接收各用户端的离散数据编码对应的扰乱编码；

根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率。

优选的，所述根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率，包括：

统计各用户端的离散数据编码对应的扰乱编码中第i类离散数据对应的扰乱编码值为0的频率

和扰乱编码值为1的频率

基于

和

建立第i类离散数据发生频率方程组；

求解所述第i类离散数据接收频率方程组，获取第i类离散数据的发生频率。

进一步的，所述第i类离散数据发生频率方程组为：

上式中，f₀(i)为第i类离散数据不发生频率，f₁(i)为第i类离散数据的发生频率，ε为隐私保护预算，δ为松散本地差分隐私下的参数，取值为0到1之间。

本发明提供一种应用于离散数据频率估计的数据中心，其改进之处在于，所述数据中心包括：

接收模块，用于接收各用户端的离散数据编码对应的扰乱编码；

确定模块，用于根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率。

优选的，所述确定模块，包括：

统计单元，用于统计各用户端的离散数据编码对应的扰乱编码中第i类离散数据对应的扰乱编码值为0的频率

和扰乱编码值为1的频率

建立单元，用于基于

和

建立第i类离散数据发生频率方程组；

求解单元，用于求解所述第i类离散数据接收频率方程组，获取第i类离散数据的发生频率。

进一步的，所述第i类离散数据发生频率方程组为：

本发明提供一种离散数据频率估计方法，其改进之处在于，所述方法包括：

用户端根据向数据中心发送的离散数据的种类生成离散数据编码；

用户端获取离散数据编码对应的扰乱编码，并将该离散数据编码对应的扰乱编码发送至数据中心；

数据中心接收各用户端的离散数据编码对应的扰乱编码；

数据中心根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率。

本发明提供一种离散数据频率估计***，其改进之处在于，所述***包括：上述用户端和数据中心。

与最接近的现有技术相比，本发明具有的有益效果：

本发明提供的技术方案中，用户终端根据向数据中心发送的离散数据的种类生成离散数据编码，并对离散数据编码中各类离散数据对应的编码值进行随机扰乱，再将扰乱后的扰乱编码发送给数据收集中心；通过上述方案处理后的数据满足隐私要求，避免了隐私的泄露的风险。

数据收集中心接收各用户端的离散数据编码对应的扰乱编码后，根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率，通过上述方案，能够在保证避免隐私泄露的同时，保证了估算的离散数据的频率结果具有较高的准确度。

附图说明

图1是本发明提供的离散数据频率估计方法流程图；

图2是本发明提供的应用于离散数据频率估计方法的用户端结构示意图；

图3是本发明提供的应用于离散数据频率估计方法的数据中心结构示意图；

图4是本发明提供的离散数据频率估计***结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了在保障各方数据秘密的情况下进行联合数据分析，本发明提供的离散数据频率估计方法在已有方案的基础上引入了松散本地差分隐私的定义，提出了满足松散本地差分隐私的离散数据频率估计方案。该方案的主要思想是用户终端根据松散本地差分隐私的定义，在原始数据上减少噪声的注入，在满足本地差分隐私的基础上，尽可能的降低数据的失真度，提高扰乱后数据的可用性，进而提高统计结果的准确率，如图1所示，所述方法包括：

101用户端根据向数据中心发送的离散数据的种类生成离散数据编码；

102用户端获取离散数据编码对应的扰乱编码，并将该离散数据编码对应的扰乱编码发送至数据中心；

103数据中心接收各用户端的离散数据编码对应的扰乱编码；

104数据中心根据所述各用户端的离散数据编码对应的扰乱编码确定各类离散数据的发生频率。

其中，所述离散数据编码的长度与离散数据种类总数相等。

所述离散数据编码为(v₁...v_i...v_n)，其中，n为离散数据种类总数，v_i为第i类离散数据对应的编码值，若用户端向数据中心发送的离散数据的种类为第i类离散数据，则v_i＝1，否则，v_i＝0。

例如：每个用户终端均拥有离散数据集合S中的某一个离散数据。每个用户终端首先对自身所拥有的数据d_i进行独热编码，即，得到一个长度为m的单位向量v_i，唯有自身数据d_i所对应的位置为1，其余位都为0。具体来说，若d_i是离散数据集合中的第j个数据(j≤m)，则单位向量v_i中的第j位为1，其余为0。

具体的，本发明提供的实施例中，可以将步骤101和步骤102应用于用户端，其中，所述步骤102中，获取离散数据编码对应的扰乱编码包括：

其中，δ一般取大于0，远小于1的数值，当δ取0时，该隐私保护机制则满足严格定义下的本地差分隐私。在该申请中，主要论述满足松散本地差分隐私的离散数据频率估计方法。

在{0,1}集合中以

的概率抽取0，以

的概率抽取1，若抽中0，则

若抽中1，则

基于步骤101和步骤102的技术方案，本发明提供一种应用于离散数据频率估计的用户端，如图2所示，所述用户端包括：

获取模块，用于获取离散数据编码对应的扰乱编码；

优选的，所述获取模块，包括：

进一步的，所述获取单元具体用于：

进一步的，所述确定单元具体用于：

在{0,1}集合中以

的概率抽取0，以

的概率抽取1，若抽中0，则

若抽中1，则

本发明提供的实施例中，可以将步骤103和步骤104应用于数据中心，其中，所述步骤104，包括：

和扰乱编码值为1的频率

基于

和

建立第i类离散数据发生频率方程组；

进一步的，所述第i类离散数据发生频率方程组为：

基于步骤103和步骤104的技术方案，本发明提供一种应用于离散数据频率估计的数据中心，如图3所示，所述数据中心包括：

优选的，所述确定模块，包括：

和扰乱编码值为1的频率

建立单元，用于基于

和

建立第i类离散数据发生频率方程组；

进一步的，所述第i类离散数据发生频率方程组为：

同时，本发明还提供一种离散数据频率估计***，如图4所示，所述***包括：上述用户端和数据中心。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。