CN112667712B

CN112667712B - 一种基于差分隐私的分组精准直方图数据发布方法

Info

Publication number: CN112667712B
Application number: CN202011637291.7A
Authority: CN
Inventors: 陶陶; 李思文
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-03-17
Anticipated expiration: 2040-12-31
Also published as: CN112667712A

Abstract

本发明公开了一种基于差分隐私的分组精准直方图数据发布方法，属于数据隐私保护技术领域。本发明提出的一种基于差分隐私的分组精准直方图数据发布方法(Accurate Grouping Histogram Publication，AGHP)，首先基于平滑分组思想，利用指数机制对原始直方图桶频数进行全局近似排序；其次提出动态规划算法，在有序直方图上实现具有最佳误差平衡的全局分组，均衡分组重构误差与噪音误差；最后对分组后的直方图添加拉普拉斯噪声后发布。该算法在满足差分隐私的前提下有效降低了直方图数据发布的误差，提高了直方图发布数据的可用性，扩充了差分隐私技术理论的实际应用。

Description

一种基于差分隐私的分组精准直方图数据发布方法

技术领域

本发明涉及数据隐私保护技术领域，更具体地说，涉及一种基于差分隐私的分组精准直方图数据发布方法。

背景技术

大数据时代背景下，每天都有大量的个人信息数据生成，信息数字化技术使得各种机构能够轻松收集大量信息数据，以多种形式发布统计结果，并进行数据分析研究。虽然这些数据的分析和挖掘结果可以帮助人们分析研究事物，但在信息实际发布过程中，会产生隐私信息被窃取的问题。

直方图作为一种直观展示数据分布特征的常用技术，常被用来进行统计数据的发布。该技术将数据按某种属性划分成不相交的桶，然后用桶频数来表示数据特征。如果我们在信息发布的过程中直接发布统计直方图而不加以隐私保护，则攻击者可以结合背景知识与直方图桶的真实计数推断出用户数据，导致用户隐私泄露。

目前，差分隐私作为一种新的隐私保护模型，在直方图发布技术上有很多的应用。它通过对原始数据的转换及对统计结果添加噪音来达到保护隐私的效果，目前基于差分隐私的直方图发布技术大都是对直方图进行加噪和重构，重构一般采取的方法是合并位置邻近的桶后取均值，以此来降低全局敏感度。但此方法无法度量全局范围内频数相近的桶，会导致重构分组时仍存在较大的重构误差。因此重构前考虑桶计数的顺序性是十分必要的。另外，目前常用的分组方法多为通过固定长度分组或贪心聚类分组，这些方法无法较好地均衡重构误差与噪音误差，会导致发布的直方图可用性降低。因此全局分组时达到重构误差与噪音误差等均衡，才能在满足差分隐私的同时，提高发布数据的可用性。

经检索，中国专利号：ZL201811273045.0，申请日为：2018年10月30日，发明名称为：一种数据发布的隐私保护方法。该申请案中根据用户向数据开放平台提交的批量查询请求，从数据库中获取相应的批量数据，并对批量数据添加满足给定的差分隐私保护要求的随机噪音，最后将噪音扰动结果通过直方图发布的方式返回给用户。但该方法对数据进行了二次加噪，导致数据误差较大，且没有对加噪后的数据进行滤波操作，虽然能够保证数据的隐私性，但其没有兼顾到数据的可用性。

又如，中国专利申请号：ZL202010573117.4，申请日为：2020年06月22日，发明名称为：一种基于差分隐私的数据发布方法。该申请案中对于输入的直方图数据，进行拉普拉斯加噪，然后将加噪后的数据进行滤波操作，接着通过重排序的方法对加噪后的直方图按照频数的值进行排序，最终根据动态规划思想的聚类策略来找到最小的SSE分组。但该方法其因先添加噪音过多导致隐私代价较大，其次该方法采用动态规划方法对有序直方图进行重构，只考虑了分组的重构误差，未顾及到分组造成的重构误差与噪音误差间的平衡。

基于以上分析，需要一种满足差分隐私且发布过程中产生误差更小的直方图数据发布方法。

发明内容

1.发明要解决的技术问题

鉴于现有的直方图发布加密方法不能兼顾直方图的差分隐私和可用性的问题，本发明的一种基于差分隐私的分组精准直方图数据发布方法，减小在直方图发布过程中添加的噪音误差，有效均衡分组重构误差与噪音误差，提高直方图的可用性，使得发布统计数据时，在***露隐私的前提下，提高了数据的可用性。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种基于差分隐私的分组精准直方图数据发布方法，其步骤为：

步骤一、获取数值型直方图统计数据字段，并将直方图频数输入到直方图数据集H＝(H₁,H₂,…H_n)中，同时给定隐私保护预算ε和Δf，Δf为数据集H与其相邻数据集的L₁距离；

步骤二、以第一个直方图桶H₁为基桶H_i，将其加入有序直方图序列H^*中，并将该桶从H中删除；

步骤三、计算基桶H_i的近邻桶集合L(H_i)及指数机制打分函数u(H_i)，根据打分函数u(H_i)，以正比于

的概率，从L(H_i)选择出H_j，其中隐私预算ε₁＝ε/2，将H_j添加到有序直方图序列H^*，再将H_j作为基桶；

步骤四、重复步骤三，直到原始直方图数据集H为空；

步骤五、对有序直方图序列H^*根据全局误差Err进行动态规划分组，选取全局误差最小的直方图分组结构H^G；

步骤六、用分组平均数描述分组的桶频数，向每个桶频数添加拉普拉斯噪音Lap(1/ε₂)，得到添加噪音后的直方图序列

并发布。

更进一步地，所述的步骤一中，每个H_i为单位区间的频数，隐私保护预算ε小于1。

更进一步地，所述的步骤三中，依据打分函数u(H_i)从基桶H_i的近邻桶集合L(H_i)中挑选出与基桶频数相近的桶，其中L(H_i)和u(H_i)分别根据式(1)和式(2)计算，

L(H_i)＝{H_j:|H_j-H_i|≤δ} (1)

u(H_i)＝-(|H_j-H_i|+|j-i|) (2)

其中，δ为控制近邻桶集合中桶数量的阈值。

更进一步地，所述的步骤五中，将动态规划的误差评价函数设为全局误差Err(*,H_l,H_r)，如式(3)所示，

其中

表示该组的频数均值，|G_i|表示该组中桶个数。

为重构误差AE，

为噪音误差。其中隐私预算ε₂＝ε/2，其决定向该组均值

添加的拉普拉斯噪音的大小，向

添加的拉普拉斯噪声的大小为Lap(1/ε₂)/|G_i|。

更进一步地，所述的步骤五中，对直方图H*采用动态规划思想的分组，记录每种分组结构的最小全局误差

选出其中T_Err最低的分组结构H^G，并记录最优分组个数k，如公式(6)所示：

其中，n是直方图桶的个数，k是所有可能的分组数量，1≤k≤n。

更进一步地，所述的步骤六中，对分组后的直方图H^G中的每组桶频数取组均值，组G_i中直方图桶频数为：

后对每桶频数添加拉普拉斯噪音Lap(b)，其中b＝1/ε₂，得到添加噪音后的直方图序列为

其中

更进一步地，所述的步骤六中，对原始数据集的加噪流程为构建服从拉普拉斯分布的概率密度函数，根据其概率密度函数求其逆累计分布函数，然后向该函数输入均匀分布的随机变量，即可得到拉普拉斯噪音。

更进一步地，获得拉普拉斯噪音的具体步骤为，

S1、设定构建服从位置参数μ为0，尺度参数为b的拉普拉斯分布为Lap(b)，则其概率密度函数p(x)如公式(7)所示，

S2、将满足均匀分布的随机变量α～U(0,1)带入到拉普拉斯累计分布函数的逆函数中，则可以得到满足条件的噪音值如公式(8)所示：

S3、取均匀分布α～U(-0.5,0.5)，将公式(8)的分段函数合并为公式(9)，如下所示：

F^-1(x)＝0-b*sign(α)*ln(1-2abs(α)) (9)其中，sign函数用来获取参数的正负，abs函数用来获取参数的绝对值。

3.有益效果

采用本发明提供的技术方案，与已有的公知技术相比，具有如下显著效果：

(1)由于传统的差分隐私直方图数据发布方法，对直方图分组时只是考虑位置近邻的相似桶计数，而无法度量全局范围内计数相近的桶，以至于分组时产生较大的重构误差。本发明的一种基于差分隐私的分组精准直方图数据发布方法，采用了基于指数机制的近似排序算法，根据桶计数之间差值的关系，利用指数机制对原始直方图桶的频数进行全局近似排序，提高分组时的准确率。

(2)传统的差分隐私直方图数据发布方法通过固定长度分组或贪心聚类分组来获得原始直方图的最佳误差平衡全局分组，容易陷入局部最优，无法较好地均衡近似误差与拉普拉斯误差，导致了发布直方图可用性降低。本发明对直方图进行分组时，采用优化的动态规划技术自适应分组，不需要确定分组个数。同时使用全局误差Err作为误差评价函数，根据动态规划递推公式进行自适应分组，从所有可能分组中得到全局误差最小的分组方案H^G，使得计数值相近的桶被合并到一个分组，从而提高了最终发布直方图的精确性，其中全局误差由近似误差与拉普拉斯误差两部分构成，使之在排序直方图上实现了具有最佳误差平衡的全局分组。

附图说明

图1是本发明的方法的理论架构图；

图2是本发明的方法流程框图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

现有的基于差分隐私的直方图发布方法，是直接在原始直方图的各个桶上面直接添加拉普拉斯噪音来达到保护隐私的目的。然而，这样直接添加噪音的方法虽然能够有效的保护隐私数据，但是由于其添加噪声过多，容易导致直方图的可用性下降，并且在长范围的计数查询时，会导致较高的累积误差。

一般来说，为了提高直方图发布的精度，减少噪音误差，提高数据的可用性，通常的策略有两种，策略1下的直方图发布方法，直接为每个桶的计数添加拉普拉斯噪音，进而达到扰动真实计数的效果，此策略由于噪音的累积，会产生较大的误差，需要采用后置处理技术优化加噪后的直方图。这类方法由于添加的噪音过多，导致其隐私代价较大。策略2下的直方图发布方法与策略1的顺序恰好相反，先对原始直方图进行重构降低其全局敏感性，然后对重构之后的计数结果添加噪音，虽然重构处理会产生重构误差，但其降低了添加的噪音量。此策略响应查询的精度一般较高，存在的问题是如何均衡重构误差与噪音误差，及保证直方图发布的隐私性同时提高可用性。

本发明采取策略2的方法，对于输入的直方图数据，先对其进行排序后重构分组，排序操作使得频数相近的桶排列在一起，为分组重构时降低误差，然后采用基于全局最小误差的动态规划分组，从所有可能分组中得到全局误差最小的分组方案，在排序直方图上实现具有最佳误差平衡的全局分组，均衡近似误差与拉普拉斯误差，最后对分组后的直方图添加拉普拉斯噪声并以原始顺序发布，显著地降低了添加的噪音值，同时有效提高了直方图发布数据的可用性。

同时，本发明对直方图进行分组时，采用优化的动态规划技术自适应分组，不需要确定分组个数。同时使用全局误差Err作为误差评价函数，根据动态规划递推公式进行自适应分组，从所有可能分组中得到全局误差最小的分组方案H^G，使得计数值相近的桶被合并到一个分组，从而提高了最终发布直方图的精确性，其中全局误差由近似误差与拉普拉斯误差两部分构成，使之在排序直方图上实现了具有最佳误差平衡的全局分组。

本发明改进了传统的基于差分隐私的直方图数据发布方法，在保护隐私数据的同时，达到了更高的可用性，

为进一步了解本发明的内容，结合附图和具体实施例对本发明作详细描述。

实施例1

结合图1，本实施例的一种基于差分隐私的分组精准直方图数据发布方法，其步骤为：

步骤一、获取数值型直方图统计数据字段，并将直方图频数输入到直方图数据集H＝(H₁,H₂,…H_n)中，同时给定隐私保护预算ε和Δf，Δf为数据集H与其相邻数据集的L₁距离：

首先选择从数据库或csv等数据源读取要进行发布的数值型直方图统计数据字段，将各个区间的统计数据(即直方图频数)输入到直方图数据集H中，完成原始直方图数据集H的输入，并给定隐私保护预算ε和Δf。其中，ε由人为指定，一般小于1，ε越小数据隐私保护程度越高，数据可用性越低；Δf为数据集H与其相邻数据集的L₁距离，Δf越大表示需要添加的噪音越多，对于直方图每个桶来说其L₁距离为1。

步骤二、以第一个直方图桶H₁为基桶H_i，将其加入有序直方图序列H^*中，并将该桶从H中删除。

的概率，从L(H_i)选择出H_j，其中隐私预算ε_i＝ε/2，将H_j添加到有序直方图序列H^*，再将H_j作为基桶：

为了使分组时得到更优的分组结果，对桶频数借助指数机制进行排序，以获得更精准的顺序序列。依据打分函数u(H_i)从基桶H_i的近邻桶集合L(H_i)中挑选出与基桶频数相近的桶，其中L(H_i)和u(H_i)分别根据式(1)和式(2)计算，

L(H_i)＝{H_j:|H_j-H_i|≤δ} (1)

u(H_i)＝-(|H_j-H_i|+|j-i|) (2)

其中，δ为控制近邻桶集合中桶数量的阈值，其可以根据整体桶计数值调整。本实施例取δ为50。若桶H_j频数与基桶H_i频数之差在阈值δ范围内，则桶H_j在基桶的近邻桶集合L(H_i)中。指数机制打分函数u(H_i)由H_j与H_i的频数差值绝对值和序列差值绝对值和的相反数共同组成，指数机制的定义如下：

设随机算法M输入数据集为H，输出为一个实体对象H_j∈R，u(H)为指数机制打分函数，Δu为函数u(H)的敏感度，若以正比于

的概率从输入中选择并输出H_j，则算法M提供ε-差分隐私保护。

由公式(2)及指数机制定义可知，指数机制利用打分函数u对每个输出进行评分，并将指数更大的概率分配给具有较高分数的输出，即打分函数的结果越大，被选择的可能性越大。所以打分函数u(H_i)＝-(|H_j-H_i|+|j-i|)利用指数机制可以不断从近邻桶集合L(H_i)中挑选出与上一个基桶H_i频数相近的桶，形成有序直方图H^*。

步骤四、重复步骤三，直到原始直方图数据集H为空。

步骤五、对有序直方图序列H^*根据全局误差Err进行动态规划分组，选取全局误差最小的直方图分组结构H^G：

将动态规划的误差评价函数设为全局误差Err(*,H_l,H_r)，如式(3)所示，

其中

表示该组的频数均值，|G_i|表示该组中桶个数。

为重构误差AE，

为噪音误差；其中隐私预算ε₂＝ε/2，其决定向该组均值

添加的拉普拉斯噪音的大小，向

添加的拉普拉斯噪声的大小为Lap(1/ε₂)/|G_i|。

之后，对排序后的直方图H*依据全局误差Err进行动态规划分组，

1)当分组数目k＝1时，计算H^*中前i项(1≤i≤n)分成1组的Err(*,H₁,H_i)，将其记为

计算方式如公式(4)所示：

上式中

表示D^*中第1个桶到第i个桶计数的均值；

2)当k>1的时候，可以根据动态规划的思想，计算H^*中前i项分成k组最小的全局误差，将其记为

状态转义公式如(5)所示

3)对H^*的重构为了减少运算量，提高效率，主要采用了动态规划思想的分组策略来实现，将总共n个桶的分组从1组，2组，…，k组，记录每个分组的最小全局误差

选出使得T_Err最小的分组，并记录在该分组数下的最优划分结构和最优分组个数k，如公式(6)所示：

其中，n是原始直方图桶的个数，k是所有可能的分组聚类数量1≤k≤n。

步骤六、对分组后的直方图H^G中的每组桶频数取组均值，组G_i中直方图桶频数为：

后对每桶频数添加拉普拉斯噪音Lap(b)，其中b＝1/ε₂，得到添加噪音后的直方图序列

并发布，其中

对原始数据集的加噪流程为构建服从拉普拉斯分布的概率密度函数，根据其概率密度函数求其逆累计分布函数，然后向该函数输入均匀分布的随机变量，即可得到拉普拉斯噪音；具体步骤为：

F^-1(x)＝0-b*sign(α)*ln(1-2abs(α)) (9)

其中，sign函数用来获取参数的正负，abs函数用来获取参数的绝对值。通过计算机生成的符合α～U(-0.5,0.5)的伪随机数，并将其带入式(9)中的α即可得到拉普拉斯的噪音误差，将该拉普拉斯噪音添加到桶频数中，得到加噪后的数据

结合图2，在进行指数机制排序，重构分组完成直方图后，对排序分组后的数据取均值加噪，添加合适的拉普拉斯噪声后，即可发布最终的直方图。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。