CN109804379B

CN109804379B - 通过并行语义微聚合的大数据k-匿名化

Info

Publication number: CN109804379B
Application number: CN201680089983.8A
Authority: CN
Inventors: M.莫克; A.哈普费尔迈尔; M.伊米希
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2016-08-10
Filing date: 2016-08-10
Publication date: 2023-12-29
Anticipated expiration: 2036-08-10
Also published as: EP3485419A1; EP3485419B1; WO2018028783A1; US11615209B2; CN109804379A; US20190213357A1

Abstract

本发明涉及一种用于匿名化具有敏感信息的数据集的方法，包括如下步骤：确定要分配给聚合集群（CLS）的记录（x）的数据集（R）；基于预定重复计数器来计算数据集（R）的平均记录（）；使用距离度量（dm）来查找与平均记录（）最远的第一记录（）；使用距离度量（dm）来查找距第一记录（）最远的第二记录（）；形成第一记录（）周围的第一聚合集群（cls1）和第二记录（）周围的第二聚合集群（cls2）；以及通过从先前的数据集（R）中减去第一集群（cls1）和第二集群（cls2）来生成新数据集（R）。

Description

通过并行语义微聚合的大数据K-匿名化

本发明涉及一种用于匿名化具有实体的敏感信息的大数据集(大数据)的方法、***、计算机集群和计算机程序产品。

保护实体(例如人员、引擎、工厂)的隐私是处理数据中的重要问题。更具体地说，保护由未经授权的人共享、分发或读取的数据中的隐私是重要的。用于保护隐私的常见措施是移除可能被用于直接识别个体实体的私人信息(属性)，比如姓名或电话号码。

然而，仅仅移除私人信息不足以保证完全隐私，这是因为外部信息可以与数据集的另外的非私人信息重新组合以便再次确定身份。可能被用于重构私人信息的这种非私人信息被称为准标识符。

例如，可以通过将包含姓名、年龄、性别和邮政编码的地址列表与包含年龄、性别和邮政编码的匿名化记录重新组合来重新识别患者，尽管姓名已从匿名化记录中移除。因此，有关年龄、性别和邮政编码的信息被视为准标识符。

用于防止数据的该重新组合的措施被称为k-匿名。在获得k-匿名时，该记录以下述方式而群集：准标识符的组合与至少数量k个实体相关联。

在前述示例中，准标识符的值可以以下述方式而被泛化(generalized)或聚合：形成了年龄“40-50”、邮政编码“8080*”和性别“M”的组合，数量k个人落入在其中。即使在通过使用准标识符来重构私人信息的尝试中，也将会发现数量k个人。因此，在k个人的组中不能识别单个个体。

企业的数字战略提供了大量的信息(大数据)。为了以开放的方式处理该大量信息，必须移除私人或机密信息。因此，大数据始终是隐私方法的挑战。特别地，k-匿名具有两个主要挑战，即提高用于处理大数据的速度，以及合理处理作为大数据的主要部分的标称属性。

文献US 7,269,578 B2涉及一种用于对输入数据源中的条目进行解标识或匿名化的***和方法。

文献“Ordinal,Continuous and Heterogeneous k-Anonymity ThroughMicroaggregation”，Josep Domingo-Ferrer，Vicenc Torra；2005，Data Mining andKnowledge Discovery，描述了一种如何通过数据的群集来获得k-匿名的方法。

虽然美国专利解释了k-匿名的属性，但Josep Domingo-Ferrer的文献示出了该概念通过使用微聚合的具体实现方式。然而，该方法较慢，这是因为必须执行大量的迭代。例如，对完整数据集进行迭代，以便在每次迭代中计算每个元素的多个距离比较。因此，该方法不能用于处理和匿名化大数据。

此外，标称属性是大数据中的主要元素。日志文件或文本段落的匿名化是用于大数据的匿名化算法的基本目标。尽管前述微聚合方法确实提供了基于标称值的距离方法和聚合方法，但是由于没有考虑语义相似性，因此这对于标称属性而言是不够的。例如，取决于标称值是否相等，距离仅由1或0给出。基于相似性的更细粒度的距离是不可能的。对于组的常见代表值，最频繁的值被用作聚合方法。

因此，可以获得提供匿名但是不能用于进一步分析所处理的数据的无效结果。基于最频繁的值的无效结果的示例是由人的居住地给出的。如果数据集的大多数人居住在特定城镇中，则所有人将以上述聚合方法被分配到该城镇。然而，该分配将不适用于所有人。

因此，本发明的目的是改进处理速度和标称属性的处理，以用于在k-匿名方面来匿名化大数据。

该目的通过根据独立权利要求的主题来解决。有益的实施例受从属权利要求、说明书和附图的限制。

根据第一方面，该目的通过一种用于匿名化具有敏感信息的数据集的方法来解决，该方法包括如下步骤：确定要分配给聚合集群的记录的数据集；基于预定重复计数器来计算数据集的平均记录；使用距离度量来查找与平均记录最远的第一记录；使用距离度量来查找距第一记录最远的第二记录；形成第一记录周围的第一聚合集群和第二记录周围的第二聚合集群；以及通过从先前的数据集中减去第一聚合集群和第二聚合集群来生成新数据集。该方法进一步包括将聚合方法在属性方面(attribute-wise)应用到集群中的记录上的步骤。该方法提供了下述技术优势：与已知的微聚合方法相比，数据集可以被更快地匿名化。可以通过以下优选实施例进一步提高执行速度。

在该方法的优选实施例中，第一聚合集群包括最接近第一记录的多个记录。

在该方法的进一步优选的实施例中，第二聚合集群包括最接近第二记录的多个记录。

在该方法的进一步优选的实施例中，基于预定重复计数器来执行查找最远的第一记录。

在该方法的进一步优选的实施例中，基于预定重复计数器来执行查找距第一记录最远的第二记录。

在该方法的进一步优选的实施例中，计算平均记录的步骤被并行地执行或分布在多个节点上。

在该方法的进一步优选的实施例中，查找最远的第一记录的步骤被并行地执行或分布在多个节点上。

在该方法的进一步优选的实施例中，查找最远的第二记录的步骤被并行地执行或分布在多个节点上。

在该方法的进一步优选的实施例中，基于聚合函数在属性方面计算平均记录。

在该方法的进一步优选的实施例中，具有多个泛化阶段(generalization stage)的分层泛化用于计算数据集的标称属性的平均记录或标称值之间的距离。

根据第二方面，该目的通过一种用于匿名化具有敏感信息的数据集的***来解决，该***包括：确定模块，用于确定要分配给聚合集群的记录的数据集；计算模块，用于基于预定重复计数器来计算数据集的平均记录；查找模块，用于使用距离度量来查找与平均记录最远的第一记录，并使用距离度量来查找距第一记录最远的第二记录；形成模块，其形成第一记录周围的第一聚合集群和第二记录周围的第二聚合集群；以及生成模块，用于通过从先前的数据集中减去第一聚合集群和第二聚合集群来生成新数据集。形成模块被适配成将聚合方法在属性方面应用到集群中的记录上。该***还提供了下述技术优势：与已知的微聚合方法相比，数据集可以被更快地匿名化。

根据第三方面，该目的通过一种具有多个节点以用于匿名化具有敏感信息的数据集的计算机集群来解决，每个节点包括：计算模块，用于基于预定重复计数器来计算数据集的平均记录；查找模块，用于使用距离度量来查找与平均记录最远的第一记录，并使用距离度量来查找距第一记录最远的第二记录；形成模块，其形成第一记录周围的第一聚合集群和第二记录周围的第二聚合集群；以及生成模块，用于通过从先前的数据集中减去第一聚合集群和第二聚合集群来生成新数据集。形成模块被适配成将聚合方法在属性方面应用到集群中的记录上。计算机集群还提供了下述技术优势：与已知的微聚合方法相比，数据集可以被更快地匿名化。

根据第四方面，该目的通过一种可加载到数字计算机的存储器中的计算机程序产品来解决，该计算机程序产品包括：软件代码部分，用于当计算机程序产品运行在计算机上时执行根据第一方面的方法。该***还提供了下述技术优势：与已知的微聚合方法相比，数据集可以被更快地匿名化。

本发明的实施例在附图中示出，并在以下描述中解释。

图1示出了关于要分配给聚合集群的记录集合的示意图；

图2示出了用于匿名化具有敏感信息的数据集的方法的框图；

图3示出了用于匿名化具有敏感信息的数据集的***；以及

图4示出了用于匿名化具有敏感信息的数据集的计算机集群；以及

图5示出了表示多个泛化阶段的树。

图1示出了关于要分配给聚合集群cls的记录集合R的示意图。用于匿名化具有敏感信息的数据集以实现k-匿名的方法可以基于以下步骤：

While|R|≥3k do(|R|是尚未分配给聚合集群的所有记录的集合的基数(cardinality))

a)计算R中所有记录的平均记录平均记录/>是基于聚合函数在属性方面计算的。

b)使用适当距离dm来考虑与平均记录最远的记录x_r。

c)查找距先前步骤中考虑的记录x_r最远的记录x_s。

d)分别在x_r和x_s周围形成两个集群。一个集群包含x_r和最接近x_r的k-1个记录。另一个集群包含x_s和最接近x_s的k-1个记录。

e)将先前的数据集R减去在步骤d)的最后实例中在x_r和x_s周围形成的集群中的记录作为新数据集R。

End While

IfR中存在3k-1个至2k个之间的记录：

f)计算R中剩余记录的平均记录

g)查找距最远的记录x_r。

h)形成包含x_r和最接近x_r的k-1个记录的集群。

i)形成包含其余记录的另一个集群。

Else(|R|中少于2k个的记录)利用剩余记录形成新的集群。

然而，基于该方法来匿名化大数据集是较慢的，这是因为在while循环的每次迭代中，都计算新的平均记录最远的记录x_r和最远的记录x_s。

当不在while循环的每次迭代中计算这些值时，可以大幅度地提高该方法的速度。因此，引入新的整数参数calcRevision作为预定重复计数器。该整数参数calcRevision定义了在while循环的多少次迭代之后执行平均记录x_r和x_s的重新计算。因此，用于计算x_r和x_s的迭代的数量减少到第calcRevision个，并且增加了该方法的处理速度。防止在循环的每次迭代中重新计算/>x_r和x_s，使得提高了该方法的效率。

直到循环计数器与calcRevision的预定值模数不一致为止，值x_r和x_s保持不变，并且搜索仅k个与x_r和x_s最接近的记录以形成k-匿名组。该计算更高效，这是因为距离度量是从预先执行的迭代得知的。

通过并行化或分布，可以在循环迭代内进一步提高计算速度。迭代内的每个计算(比如距离计算、排序或平均值计算)被实现为使得该计算可以以并行或分布式方式执行。因此，该方法的处理速度取决于处理节点的数量。

如例如Apache Hadoop和Spark的分布式框架是用于对由商用硬件构建的计算机集群上的非常大的数据集进行分布式存储和分布式处理的开源软件框架。计算跨所有节点而分布，并且结果是从这些节点中收集的。以这种方式可以大幅度地提高速度。

相对于先前的方法，新方法可以被表示如下(步骤a)至i)与前述步骤a)至i)相同，并且所有步骤a)至k)被并行化或分布在多个节点上)：

While|R|≥3k do

If#Iteration％calcRevision＝＝0(仅每第calcRevision个迭代)

执行步骤a)至e)

Else

j)分别在x_r和x_s周围形成两个集群。一个集群包含最接近x_r的k个记录。另一个集群包含最接近x_s的k个记录。

k)将先前的数据集R减去在步骤j)的最后实例中在x_r和x_s周围形成的集群中的记录作为新数据集R。

End While

If R中存在3k-1个至2k个之间的记录：执行步骤f)至i)

Else(|R|中少于2k个的记录)利用剩余记录形成新的集群。

标称属性包括文本或词。因此，常见的计算方法对于标称属性而言通常是不够的。然而，标称属性通常是大数据的基本和常见元素。该方法使用基于标称值的距离计算和平均值计算的步骤。

在传统方法中，计算两个标称值之间的距离，以便测试这些值是否相同。在传统方法中，在对标称值进行平均值计算的情况下选择最频繁的值。

因此，使用分层泛化，其可以被描述如下：

第一阶段泛化从每个记录中移除敏感信息，使得多个记录被泛化成单个目标值。例如，在具有五个数字的邮政编码的情况下，通过由通配符替换第五个数字来执行第一泛化。例如，在第一阶段泛化中，将53754和53757的邮政编码泛化成5375*并且使其相等。

泛化的层级是这种泛化阶段的序列。因此，在第二阶段泛化中，该邮政编码的最后两个数字被通配符替换。在泛化的最高阶段，移除所有信息，并利用通配符替换所有值。

对于前述微聚合，以下内容用于标称属性：

两个标称值之间的距离由针对相等所需的泛化的阶段(数量)确定。通过除以泛化阶段的最大数量来对距离进行归一化。以这种方式实现了具有接近语义相似性的值被分配给相同的组。

组的标称值的平均值是从其中所有值是相等的泛化的最低阶段产生的值。与采用最频繁的值的传统方法相比，以这种方式，在对标称属性进行平均中减少了信息的损失。

一旦标称属性的泛化逻辑由具有关于对应语义的专家知识的用户所确定，该算法就能够使用它。

图2示出了用于匿名化具有敏感信息的数据集的方法的框图。在如上所述的进一步的步骤当中，该方法至少包括：步骤S101，确定要分配给聚合集群CLS的记录x的数据集R；步骤S102，基于预定重复计数器calcRevision来计算数据集R的平均记录步骤S103，基于预定重复计数器calcRevision，使用距离度量dm来查找与平均记录/>最远的第一记录x_r；步骤S104，基于预定重复计数器calcRevision，使用距离度量dm来查找距第一记录x_r最远的第二记录x_s；步骤S105，形成第一记录x_r周围的第一聚合集群cls1和第二记录x_s周围的第二聚合集群cls2，并且将聚合方法在属性方面应用到集群中的记录上；以及步骤S106，通过从先前的数据集R中减去第一聚合集群cls1和第二聚合集群cls2来生成新数据集R。

所有步骤可以由计算机程序产品中的软件模块实现，或者由包括用于执行对应步骤的电路的硬连线数字模块实现。

该方法提供了处理速度的独特改进，使得大数据和大数据***内的匿名化是可能的。此外，可以通过标称属性的改进的处理而获得更合理的结果。对于数据分析或随后的处理而言，这些合理结果是必需的。

图3示出了用于匿名化具有敏感信息的数据集的***100。在其他模块当中，***100包括：确定模块101，用于确定要分配给聚合集群CLS的记录x的数据集R；计算模块102，用于基于预定重复计数器calcRevision来计算数据集R的平均记录查找模块103，用于基于预定重复计数器calcRevision、使用距离度量dm来查找与平均记录/>最远的第一记录x_r，并基于预定重复计数器calcRevision、使用距离度量dm来查找距第一记录x_r最远的第二记录x_s；形成模块104，其形成S105第一记录x_r周围的第一聚合集群cls1和第二记录x_s周围的第二聚合集群cls2，并且将聚合方法在属性方面应用到集群中的记录上；以及生成模块105，用于通过从先前的数据集R中减去第一聚合集群cls1和第二聚合集群cls2来生成S106新数据集R。

所有步骤可以是计算机程序产品中的软件模块，或包括用于执行对应步骤的电路的硬连线数字模块。

图4示出了用于匿名化具有敏感信息的数据集的计算机集群200。计算机集群200包括多个计算节点201-1、…、201-n，每个计算节点包括处理器和存储器。节点201-1、…、201-n用于前述步骤a)至k)中的一个、多个或全部的并行或分布式执行。为此目的，在计算节点201-1、…、201-n上提供模块101至105。计算节点201-1、…、201-n通过大数据集的并行或分布式处理和匿名化来实现，并且可以高效地用于大数据。

图5示出了表示多个泛化阶段GS的树。两个标称值之间的归一化距离通过针对两个标称值之间的相等所需的泛化阶段GS除以泛化阶段的最大数量来表示。在所描绘的情况中，从11111到55555的归一化距离是5/5＝1。从55511到55555的归一化距离是2/5＝0.4。通常，匿名化不仅对于处理和存储数据起重要作用，而且对于能够共享信息也起重要作用。匿名化对于用于处理和使用大量数据的大数据***而言是一块难题。

本发明特别适用于大量数据，并且使得能够快速并完全地实现对这些数据的伪属性(pseudo-attribute)的k-匿名。相比之下，传统方法不适用于处理大数据，并且不能被采用以处理大数据。附加地，处理大数据的标称属性在传统方法中不是最佳的。为了进一步改进结果的有用性以用于进一步处理，通过使用针对每个标称属性的泛化层级来改进关于标称属性的距离和平均值计算方法。

可以以各种组合提供关于本发明的特定实施例而讨论或示出的所有特征，以便同时实现它们的积极技术效果。

所有方法步骤可以由适于执行对应方法步骤的装置来实现。由特定装置执行的所有功能可以是方法的方法步骤。

本发明的范围由权利要求给出，并且不受说明书中讨论的或附图中示出的特征所限制。

Claims

1.一种用于k-匿名化具有敏感信息的数据集的方法，其中k是预定整数，所述方法包括以下步骤：

确定(S101)要分配给聚合集群(CLS)的来自所述数据集的记录x的数据集R；

迭代以下步骤：

1)当迭代数量是预定整数参数的倍数时：

计算(S102)数据集R的平均记录

使用距离度量dm来查找(S103)与所述平均记录最远的第一记录x_r；

使用距离度量dm来查找(S104)距所述第一记录x_r最远的第二记录x_s；

2)形成(S105)所述第一记录x_r周围的第一聚合集群(cls1)和所述第二记录x_s周围的第二聚合集群(cls2)，其中所述第一聚合集群(cls1)包括最接近所述第一记录x_r的k个记录x，以及所述第二聚合集群(cls2)包括最接近所述第二记录x_S的k个记录x；以及

通过从先前的数据集R中减去所述第一聚合集群(cls1)和所述第二聚合集群(cls2)来生成(S106)新数据集，

其中所述预定整数参数是大于1的预定重复计数器，以及所述重复计数器被适配为定义在多少次迭代之后执行平均记录最远的第一记录x_r和最远的第二记录x_S的重新计算。

2.根据权利要求1所述的方法，其中计算(S102)所述平均记录的步骤被并行地执行或分布在多个节点(201-1、…、201-n)上。

3.根据权利要求1或2所述的方法，其中查找(S103)所述最远的第一记录x_r的步骤被并行地执行或分布在多个节点(201-1、…、201-n)上。

4.根据权利要求1或2所述的方法，其中查找(S104)所述最远的第二记录x_S的步骤被并行地执行或分布在多个节点(201-1、…、201-n)上。

5.根据前述权利要求1或2所述的方法，其中基于聚合函数在属性方面计算所述平均记录

6.根据权利要求1或2所述的方法，其中具有多个泛化阶段的分层泛化用于计算数据集R的标称属性的平均记录或标称值之间的距离。

7.一种用于k-匿名化具有敏感信息的数据集的***(100)，其中k是预定整数，所述***包括：确定模块(101)、计算模块(102)、查找模块(103)、形成模块(104)和生成模块(105)，

其中所述确定模块(101)被适配为确定要分配给聚合集群(CLS)的来自所述数据集的记录x的数据集R；

其中所述***(100)被配置为迭代以下步骤：

1)当迭代数量是预定整数参数的倍数时：

由所述计算模块(102)计算数据集R的平均记录

由所述查找模块(103)使用距离度量dm来查找与所述平均记录最远的第一记录x_r；

由所述查找模块(103)使用距离度量dm来查找距所述第一记录x_r最远的第二记录x_S；

2)由所述形成模块(104)形成所述第一记录x_r周围的第一聚合集群(cls1)和所述第二记录x_S周围的第二聚合集群(cls2)，其中所述第一聚合集群(cls1)包括最接近所述第一记录x_r的k个记录x，以及所述第二聚合集群(cls2)包括最接近所述第二记录x_S的k个记录x；以及

由所述生成模块(105)通过从先前的数据集R中减去所述第一聚合集群(cls1)和所述第二聚合集群(cls2)来生成新数据集，

8.一种具有多个节点(201-1、…、201-n)以用于k-匿名化具有敏感信息的数据集的计算机集群(200)，其中k是预定整数，每个节点(201-1、…、201-n)包括计算模块(102)、查找模块(103)、形成模块(104)和生成模块(105)，其中所述节点被配置为通过并行或分布式处理来执行根据权利要求1所述的方法。

9.一种计算机可读介质，具有存储于其上的可加载到数字计算机的存储器中的计算机程序产品，所述数字计算机被配置为根据权利要求7的***(100)或配置为根据权利要求8所述的计算机集群(200)，所述计算机程序产品包括软件代码部分，其用于当所述计算机程序产品运行在计算机上时执行根据权利要求1至6之一所述的方法。