CN111868727A

CN111868727A - 数据匿名化

Info

Publication number: CN111868727A
Application number: CN201980018666.0A
Authority: CN
Inventors: M.奥伯霍弗; A.迈尔; Y.赛莱特
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-03-19
Filing date: 2019-03-19
Publication date: 2020-10-30
Anticipated expiration: 2039-03-19
Also published as: JP2021516811A; GB2586716B; US11106820B2; JP7266354B2; GB202015103D0; CN111868727B; US20190286849A1; DE112019001433T5; GB2586716A; WO2019180599A1

Abstract

本公开涉及一种用于数据库***的数据匿名化的方法。该方法包括：确定数据库***的第一数据集和第二数据集是否具有指示在这两个数据集中的至少一个数据集中具有值的实体的关系。可以接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求。在第一数据集和第二数据集具有所述关系的情况下，可以修改第一数据集和第二数据集中的至少一个数据集，使得对实体的指示不可由用户访问。并且可以提供所请求的数据集。

Description

数据匿名化

背景技术

本发明涉及数字计算机***的领域，更具体地，涉及一种用于数据匿名化的方法。

隐私法规不允许将个体的数据用于某种分析，除非他们明确声明他们同意这种使用。另一方面，收集和存储个人数据并且在分析中使用它可能是可接受的，只要数据是匿名的。例如，如果由控制器处理的数据不允许控制器识别出个人，则可以分析该数据。然而，这要求匿名化被正确地且充分地应用以防止识别出与私人数据相关联的实体。

发明内容

各种实施例提供了如独立权利要求的主题所述的用于数据匿名化的方法、计算机***和计算机程序产品。在从属权利要求中描述了有利的实施例。如果本发明的实施例不是相互排斥的，则它们可以彼此自由地组合。

在一个方面，本发明涉及一种用于数据库***的数据匿名化的方法。该方法包括：

(a)确定数据库***的第一数据集和第二数据集是否具有指示在这两个数据集中具有值(例如，属性值)的实体的关系；

(b)接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求；

(c)在第一数据集和第二数据集具有所述关系的情况下，修改第一数据集和第二数据集中的至少一个数据集，使得对实体的指示不可由用户访问；

(d)提供所请求的数据集。

在另一方面，本发明涉及一种包括计算机可读存储介质的计算机程序产品，该计算机可读存储介质具有随其体现的计算机可读程序代码，该计算机可读程序代码被配置为实施根据前述实施例所述的方法的所有步骤。

在另一方面，本发明涉及一种用于数据库***的数据匿名化的计算机***。该计算机***被配置为：

(a)确定数据库***的第一数据集和第二数据集是否具有指示在这两个数据集中具有值的实体的关系；

(d)提供所请求的数据集。

附图说明

下面，仅通过示例，参考附图更详细地解释本发明的实施例，其中：

图1描绘了根据本公开的存储***的框图；

图2是用于对数据库***的数据进行数据匿名化的方法的流程图；

图3描述了根据本发明实施例的云计算环境；以及

图4示出了根据本发明实施例的抽象模型层。

具体实施方式

本发明的各种实施例的描述将出于说明的目的而呈现，但这些描述并不旨在穷举或限于所公开的各实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术的技术改进，或使本领域的其他普通技术人员能够理解本文所公开的各实施例。

术语“数据集”或“信息资产”是指一个或多个数据元素的集合。数据元素可以是例如文档、数据值或数据记录。例如，可以以包含在文件中的相关记录的集合的形式提供数据集，例如，数据集可以是包含班级中所有学生的记录的文件。记录是相关数据项(例如，学生的学号、生日、班级)的集合。记录表示实体，其中实体具有诸如学生的不同且独立的存在。数据集可以是例如数据库的表格或Hadoop文件***的文件等。在另一示例中，数据集可以包括诸如HTML页面或其他文档类型的文档。文档可以包括例如患者的数据。

例如，在两个数据集中具有值的实体可以例如是在第一数据集和第二数据集中的至少一个数据集中具有至少一个记录的实体。例如，关系可以指示在第一数据集中具有记录的患者X在第二数据集中也具有另一相关记录(例如，患者X的两个记录可以通过他的地址而链接，其中第一记录没有患者X的全名而第二记录包含患者X的全名)。因此，患者X是由第一数据集和第二数据集之间的关系指示的实体。

两个数据集之间的关系可以是数据集的一个或多个列/属性与其他数据集的其他一个或多个列之间的链接。例如，关系可以是主外键(primary foreign key，PK-FK)关系。在另一示例中，关系可以包括从一个文档到另一文档的链接，诸如从XML文档指向包含关于相同实体的更多信息的另一文档的链接，或者来自包含相关信息的非结构化文档的链接。如果数据作为三元组而存储在三元组存储中(例如：RDF(Resource DescriptionFramework，资源描述框架)数据)，或者数据被存储在图形DB(database，数据库)中，则关系可以是一个实体与另一实体之间的链接。关系可以例如使得能够将第一数据集和第二数据集联合在一起，使得表示相同实体的第一数据集的记录和第二数据集的记录被合并在联合的数据集的新的单个记录中，该新的单个记录表示包含在两个数据集中的相同实体的组合信息。尽管两个数据集被各自匿名化，但是组合信息可能泄露该实体的机密数据。

术语“用户”是指实体，例如个体、计算机或在计算机上运行的应用、容器、文件***、目录。用户可以表示例如一组用户。数据库***可以包括用于存储数据集的一个或多个存储装置。数据库***可以包括例如文档存储、三元组存储、图形DB和关系数据库中的至少一个。第一数据集和第二数据集可以存储在数据库***的相同或不同存储装置上。

在访问信息资产以进行处理时，例如可以进行检查以查看资产是否包含敏感信息和是否需要匿名化。如果是，则应用使用预定义数据屏蔽(mask)技术的适当匿名化措施。如果两个或多个信息资产被标记为组合使用，则检查这是否将产生对匿名化的潜在破坏。如果是，则应用使用预定义屏蔽技术的适当匿名化措施。可以对已经为信息资产建立并在信息管控目录中注册的技术元数据实施检查。

本方法可以在两个或更多个信息资产被集合到一起的情况下防止数据匿名化的损失，其中每个信息资产单独地被充分匿名化，但是一起使用的信息资产破坏了数据匿名化。本方法在大数据和数据湖架构的情况下尤其有利，尤其是在像数据湖中的大规模Hadoop集群那样的单个***存储数以万计的信息资产的情况下，这些信息资产可供数据科学家一起分析并且具有可能无法提前迎合的许多组合。对于这种***，本方法可以提供一种方式来预期哪些信息资产可以在一个数据分析中一起使用。例如，本方法可以避免对匿名化的破坏，其中对匿名化的破坏可以具有以下特性。在两个或更多个信息资产之中，可以联合一个或多个属性。在两个或更多个信息资产之中，在一个信息资产中必须根据信息管控策略来对特定实体或属性组或属性进行屏蔽。并且，在两个或更多个信息资产之中，至少在一个信息资产中，不对其他资产之一中的受保护域进行屏蔽，从而允许一旦被联合就破坏匿名化。

另一优点可以在于，本方法可以通过在需要的情况下确保数据匿名化来实现积极主动的且自动化的数据保护措施，从而提供数据保护与数据可用性之间的最佳平衡。例如，如果两个数据集各自被彼此独立地访问，则这两个数据集可以各自被匿名化，并且不能是任何敏感信息的源。然而，由于用户可以组合第一数据集和第二数据集来访问实体，因此本方法通过在接收到对两个数据集之一的请求时已经执行修改来后验地行动，从而预期用户可能在稍后阶段单独请求第二数据集的情况。在其他方面，这可以防止数据科学家可能获得被匿名化的数据集的情况，其中每个数据集符合管控策略，但是其中可以通过将多个符合策略的数据集联合在一起来处理匿名化，从而获得不再符合策略的结果数据集。

本方法还可以防止可能导致声誉损失和/或罚款的无意的数据泄漏。

另一优点可以在于，本方法提供了对易于审计的规章的改进的合规性，因为该过程可以是基于包括完整数据世系(lineage)和其他审计轨迹的信息管控目录的元数据驱动的。根据一个实施例，第一数据集和第二数据集包括记录，每个记录是相应实体的属性值的组合，其中由关系指示的实体是第一数据集和/或第二数据集的至少一个记录的实体。例如，可以提供用于数据库***的数据匿名化的示例方法。示例方法包括：确定数据库***的第一数据集和第二数据集是否具有指示这两个数据集的至少一个记录的实体的关系；接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求；在第一数据集和第二数据集具有所述关系的情况下，修改第一数据集和第二数据集中的至少一个数据集，使得对实体的指示不可由用户访问；以及提供所请求的数据集。

根据一个实施例，该方法还包括确定数据库***的所有数据集之间的关系，以及提供包括关于所确定的关系的信息的元数据结构，其中使用元数据结构来确定第一数据集和第二数据集是否具有所述关系。以这种方式，该方法可以自动执行而不需要明确的按需关系确定。这在每个时间单位接收到许多数据请求的大型***中尤其有利。由于元数据结构被创建一次并且不针对每个接收到的请求进行重新处理，因此这可以节省处理时间。

根据一个实施例，该方法还包括：响应于数据库***中的改变，重新确定数据库***的数据集之间的关系，并且相应地更新元数据结构。这可以提供最新的信息源，并且因此可以通过执行准确的匿名化来进一步保护对数据的访问。

例如，可以使用预定义函数(例如，PK-FK关系发现算法)来确定数据库***中所有数据集之间的所有可能关系(例如，PK-FK关系)，并且将所有这些确定的关系存储在元数据结构中。当添加新的数据集时，可以重新运行相同的函数，从而集中于识别关系，其中关系的至少一侧在新的数据集中。元数据结构可以相应地更新。当移除数据集时，可以从列表中移除涉及所移除的数据集的可能关系或所有关系。该实施例可以在后台连续运行，以检测数据库***中可用的数据集列表中的改变，并且一检测到改变就触发PK-FK关系发现算法以更新关系列表。

根据一个实施例，响应于确定用户对实体的访问将违反预定义管控策略(或规则)来执行修改。这可以实现对数据的选择性访问，并且因此实现对数据访问的最佳控制。

作为示例，管控策略可以指定“如果用户具有角色A，并且数据集包含在目录中被标记为敏感的个人可识别信息的列，并且数据集还包含被标记为标识符或准标识符的列，则数据集需要被匿名化”。例如，对于给定(特许)的用户，可以不执行修改，并且可以提供数据而不进行修改。然而，对于其他(不可信)用户，执行修改。在这种情况下，管控策略要求实体(例如，个人全名)可以由给定类型的用户访问，但不能由其他类型的用户访问。

根据一个实施例，确定关系是否指示实体包括：识别第一数据集的一个或多个源列，该一个或多个源列引用第二数据集的相应目标列，组合源列和目标列，并且基于组合结果确定关系指示或不指示实体。根据一个实施例，使用一个或多个SQL联合操作来执行该组合。这可以实现这些实施例与现有数据库***的无缝集成，以保护对这种***中的数据的访问。

根据一个实施例，所确定的关系是主外键关系。PK-FK关系由一对列或一对列组构成，在这对列或这对列组之间存在包含依赖性(inclusion dependency)。另外，形成主键的列和列组可以是唯一的。例如，可以通过将一组数据集与MinHash或域签名技术组合，并且使用列的基数(cardinality)将搜索限制为关系的一侧是唯一或几乎唯一的组合，来执行对一组数据集中的包含依赖性的搜索。这可以实现一种机制，该机制允许以完全自动的方式和合理的时间量来确定一组数据集的所有可能的PK-FK关系，并且因此确定联合一组数据集中的数据的所有可能方式。

根据一个实施例，该方法还包括响应于接收到请求并且响应于确定第一数据集和第二数据集可由用户访问，确定第一数据集和第二数据集是否具有所述关系。这可以实现按需方法，其中仅在某些条件下执行对数据集的确定。这在***对数据的访问频率低的情况下可能尤其有利的，因为如果仅使用数据的一部分，则可能不需要自动确定所有数据的关系。这可以节省处理资源。

根据一个实施例，修改第一数据集和/或第二数据集包括屏蔽所请求的数据集的一个或多个列。使用匿名化算法来执行对第一数据集和/或第二数据集的修改。匿名化算法是以下各项中的至少一个：一般化、编校、抑制、采样、随机化、数据交换、屏蔽、枚举。

该实施例可以具有这样的益处，即感兴趣的数据集内的个人可识别信息可以以省略能够识别例如单个人的信息而同时可维持对于分析有用的信息的方式被修改。

根据一个实施例，自动执行对关系的确定。例如，可以基于时段来执行对关系的确定。

根据一个实施例，响应于检测到数据库***中的改变，自动执行关系的确定。例如，数据库***中的改变可以包括将第一和/或第二数据集中的至少一个添加到数据库***中或者第一和/或第二数据集的改变。

图1表示适于实施本公开中涉及的方法步骤的通用计算机化***100。

应当理解，本文所描述的方法至少部分是非交互式的，并且通过诸如服务器或嵌入式***的计算机化***来自动化。然而，在示例性实施例中，本文所描述的方法可以在(部分)交互式***中实施。这些方法还可以在软件112、122(包括固件122)、硬件(处理器)105或其组合中实施。在示例性实施例中，本文所描述的方法在软件中实施，作为可运行程序，并且由诸如个人计算机、工作站、小型计算机或大型计算机之类的专用或通用数字计算机来运行。因此，最通用的***100包括通用计算机101。

在示例性实施例中，就硬件架构而言，如图2所示，计算机101包括处理器105、耦合到存储器控制器115的存储器(主存储器)110、以及经由本地输入/输出控制器135通信地耦合的一个或多个输入和/或输出(I/O)设备(或***设备)20、145。输入/输出控制器135可以是，但不限于，一个或多个总线或其他有线或无线连接，如本领域已知的。输入/输出控制器135可以具有用于实现通信的附加元件，为了简单起见省略了这些附加元件，诸如控制器、缓冲器(高速缓存)、驱动器、中继器和接收器。此外，本地接口可以包括用于实现前述组件之间的适当通信的地址、控制和/或数据连接。如本文所述，I/O设备20、145通常可以包括本领域已知的任何通用加密卡或智能卡。

处理器105是用于运行软件、尤其是存储在存储器110中的软件的硬件设备。处理器105可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机101相关联的若干处理器中的辅助处理器、基于半导体的微处理器(微芯片或芯片组的形式)、宏处理器或通常用于运行软件指令的任何设备。

存储器110可以包括易失性存储器元件(例如，随机存取存储器(RAM，诸如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如，ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM))中的任何一个或组合。注意，存储器110可以具有分布式架构，其中各种组件彼此远离，但是可以由处理器105访问。

存储器110中的软件可以包括一个或多个单独的程序，每个程序包括用于实施逻辑功能(特别是本发明的实施例中涉及的功能)的可运行指令的有序列表。在图2的示例中，存储器110中的软件包括指令112，例如，用于管理诸如数据库管理***之类的数据库的指令。

存储器110中的软件典型地还应包括合适的操作***(OS)111。OS 111实质上控制其他计算机程序的运行，诸如可能是用于实施本文所描述的方法的软件112。

本文所描述的方法可以是源程序112、可运行程序112(目标代码)、脚本或包括要执行的指令集112的任何其他实体的形式。当是源程序时，则需要经由可以包括在或可以不包括在存储器110内的编译器、汇编器、解释器等来翻译该程序，以便结合OS 111正确地进行操作。此外，方法可以被写为具有数据类和方法类的面向对象的编程语言，或者具有例程、子例程和/或函数的过程编程语言。

在示例性实施例中，传统的键盘150和鼠标155可以耦合到输入/输出控制器135。诸如I/O设备145的其他输出设备可以包括输入设备，例如但不限于打印机、扫描仪、麦克风等。最后，I/O设备10、145还可以包括与输入和输出两者通信的设备，例如但不限于网络接口卡(NIC)或调制器/解调器(用于访问其他文件、设备、***或网络)、射频(RF)或其他收发器、电话接口、桥接器、路由器等。I/O设备10、145可以是本领域已知的任何通用加密卡或智能卡。***100还可以包括耦合到显示器130的显示控制器125。在示例性实施例中，***100还可以包括用于耦合到网络165的网络接口。网络165可以是用于经由宽带连接在计算机101和任何外部服务器、客户端等之间的通信的基于IP的网络。网络165在计算机101和外部***30之间发送和接收数据，外部***30可以被涉及以执行本文所讨论的方法的部分或全部步骤。在示例性实施例中，网络165可以是由服务提供商管理的受管IP网络。网络165可以以无线方式实施，例如，使用诸如WiFi、WiMax等无线协议和技术。网络165还可以是分组交换网络，诸如局域网、广域网、城域网、互联网或其他类似类型的网络环境。网络165可以是固定无线网络、无线局域网(LAN)、无线广域网(WAN)、个人区域网(PAN)、虚拟专用网(VPN)、内联网或其他合适的网络***，并且包括用于接收和发送信号的装备。

如果计算机101是PC、工作站、智能设备等，则存储器110中的软件还可以包括基本输入输出***(BIOS)122。BIOS是一组基本软件例程，其在启动时初始化和测试硬件，启动OS 111，并且支持硬件设备之间的数据传输。BIOS存储在ROM中，使得当计算机101被激活时可以运行BIOS。

当计算机101在操作中时，处理器105被配置为运行存储在存储器110内的软件112，以便向和从存储器110传送数据，并且通常根据软件来控制计算机101的操作。本文所描述的方法和OS 111，整体或部分地(但通常是后者)由处理器105读取，可能在处理器105内被缓冲，然后被运行。

当在软件112中实施本文所描述的***和方法时，如图1所示，方法可以存储在任何计算机可读介质(诸如存储装置120)上，以供任何计算机相关的***或方法使用或与之结合使用。存储装置120可以包括诸如HDD存储装置的盘存储装置。

***100还包括数据库***150。数据库***150包括数据集151.1-151.N。描述或指示数据集151.1-N的元数据可以被存储在目录153中。目录153可以包括例如数据集151.1-N的数据剖析(data profiling)。数据剖析可以指示特定属性或属性组属于哪个语义域。目录153还可以包括关于数据集151.1-N的分类信息。例如，预定义数据分类分析功能可以将数据集151.1-N的每一列分配到类别中，例如，每个类别可以由分类标识符来识别。目录153可以存储例如每个分类标识符和相关联的列。目录153还可以包括管控策略。例如，管控策略可以指示哪些属性需要通过匿名化进行保护(例如，信用***、人名和地址等)以及使用哪个匿名化算法。目录153还可以包括数据模型，其中数据模型提供关于如何对数据进行构造、映射和链接的细节。数据库***150被示为单个组件，仅用于示例目的。然而，可以使用数据库***的其他示例。例如，数据库***150可以包括多个存储装置。多个存储装置可以彼此连接或可以不彼此连接。

图2是用于对数据库***150的数据进行数据匿名化的方法的流程图。

在步骤201中，可以确定数据库***150的第一数据集(例如151.2)和至少一个第二数据集(例如151.4)是否具有指示这两个数据集的至少一个记录的实体(或者指示在这两个数据集中的至少一个数据集中具有值的实体)的关系。对实体的指示(例如，诸如个人的全名)可能不满足管控策略，因此可能需要匿名化。在数据库***包括多个存储装置的情况下，第一数据集和第二数据集可以存储在相同或不同的存储装置上。关系可以例如使得能够将第一数据集和第二数据集中的属性值联合在一起，使得联合结果表示相同的实体(例如，参见下面描述的呼叫详细记录的示例)。联合的属性值可以属于两个数据集中的所指示的实体，或者可以属于两个数据集中的一个数据集中的所指示的实体，并且另一数据集可以包括例如与所指示的实体相关的另一实体的属性值。例如，第一数据集是包括患者X的具有给定地址的属性值的患者文件，第二数据集(例如，社交媒体简档)可以包括患者X的与其第一姓名和相同给定地址相关联的亲属的属性值。两个数据集的组合可以揭示患者X的第一姓名。在该示例中，所指示的实体是患者X，而另一实体是亲戚。

例如，可以在接收到步骤203的请求时，例如按需对两个数据集151.2和152.4执行步骤201的确定。在另一示例中，步骤201的确定可以作为对数据库***150的所有数据集151.1-N的关系的总体确定的一部分来执行。这可以针对数据库***150的两个数据集151.2和152.4以及其他数据集自动执行。步骤301的自动运行可以例如基于时段(例如，每天)来执行，或者在检测到数据库***150中的改变时(例如，数据集已改变为已经添加的新的数据集)执行。

步骤201可以例如通过首先检查第一数据集151.2和第二数据集151.4中的至少一个数据集是否只能以匿名化方式使用来执行。可以针对目录153的预定义管控策略和/或数据模型来执行该检查。如果第一数据集151.2和第二数据集151.4中没有一个可以以匿名化方式使用，则该方法停止。

在一个示例中，步骤201的确定可以通过检查第一数据集151.2或第二数据集151.4的未被匿名化的至少一个属性是否在语义上表示相同的商业实体或属性组或属性来执行，这些相同的商业实体或属性组或属性可以用于联合两个数据集151.2和151.4之中的个体记录。这可以通过在数据集之中使用例如目录153的数据项分类信息确定是否在数据集之中使用相同的项分类器来完成，和/或通过在数据集151.2和151.4之中使用数据剖析结果确定是否在数据集之间找到PK/FK约束(例如，包含依赖性)来完成。这可以表明某些属性可以用于在关于某些属性的信息资产之间执行联合操作。

在另一示例中，步骤201的确定可以通过在数据集151.2和151.4之中检查它们中的任何一个是否包含具有与至少一个信息资产相同的商业含义的数据来执行，该至少一个信息资产具有仅允许以匿名化方式使用的一个或多个区域。这可以使用目录153的分类信息来执行。

步骤201的确定可以例如使用BINDER算法或Minhash技术来执行。

在步骤203中，可以从用户接收对第一数据集和第二数据集中的至少一个数据集的请求。可以在步骤201之前或之后接收请求。

在步骤205中，可以修改第一数据集和/或第二数据集的至少一部分，使得对实体的指示不可由用户访问。例如，如果这两个数据集中的一个数据集具有数据屏蔽要求，而另一数据集没有数据屏蔽要求，则可以修改另一数据集，尽管它可能不是所请求的数据集。

在步骤207中，可以将所请求的数据集提供给用户。所请求的数据集可以是或者可以不是步骤205中修改的数据集。

在PK-FK关系的情况下，可以如下执行示例方法。当数据科学家想要对一个数据集或一组数据集进行工作时，本方法可以检查这些数据集以及相同数据科学家可用的其他数据集之间的所有可能的PK-FK关系的预先计算的列表。在前一步骤中获得的所有可能关系的列表被用于得到所有结果集的元数据，这些结果集可以通过所有可能的联合而获得，这些联合可以利用所请求的数据集以及数据科学家可用的其他数据集之间的这些关系来建立。例如，可以根据最坏情况的场景通过模拟可以从相同的所请求的数据集中构建的最大联合组合来生成结果集。执行对可通过这些可能的联合获得的可能结果集与目录的管控策略的合规性的检查。基于先前检查的结果，数据科学家可以接收匿名化的所请求的数据集，使得它们符合管控策略(例如，以这样的方式，即使最坏情况的场景的联合结果也符合管控策略)，或者数据科学家可以接收建议：应当在新的所请求的数据集可以以较低级别的匿名化被加载之前移除也可用的一些数据集。

下面是指示本发明方法的优点的示例。

例如，管控策略仅需要存储呼叫详细记录(Call Detail Record，CDR)的匿名化详细信息。例如，假设第一数据集包括通过修改而被匿名化的以下CDR，例如，屏蔽属性客户姓名、客户地址和客户电话的值。

(a)客户ID：1122334455

(b)客户姓名：abc7878df343

(c)客户地址：fgh7878er90

(d)客户电话：iop7878tz11

(e)设备：苹果iPhone 6，其ID为xyz

(f)呼叫开始：2.40pm，2016年10月25日

(g)呼叫结束：2.50pm，2016年10月25日

(h)持续时间：10分钟

(i)被呼电话：0049-(0)7031-888-9911

(j)呼叫期间使用的天线：52.5200°N，13.4050°E

并且第二数据集包括发布在平台(例如，Twitter、Facebook、LinkedIn)上的、具有以下属性值的社交媒体帖子：

(a)发帖时间：2.39pm，2016年10月25日

(b)位置：52.5200°N，13.4050°E

(c)装置：苹果iPhone 6，其ID为xyz

(d)发帖ID：John Smith

(e)内容：“来看看这个很酷的关于……的东西”

研究已经显示，具有仅与呼叫的位置(天线位置)组合的发帖时间、位置等以及时间的社交媒体帖子中的元数据与匿名化版本的CDR的重叠，在许多情况下允许对80％或更多的CDR解除匿名化，从而能够通过将匿名化的CDR连接到允许识别的社交媒体简档来获悉CDR后面的个人。

因此，尽管提供了两个数据集，每个数据集本身是无害的，但是将它们放在一起打破了两个数据集之一的匿名化努力。利用本方法，如果请求第一数据集，那么尽管单独采用的第一数据集可能不包含呼叫者的身份，但是识别设备和呼叫时间的列可以被屏蔽或一般化，使其不能再被用于将第一数据集与第二数据集联合，这种联合将给出允许识别用户的附加信息。

在一个示例中，提供了另一示例方法。该方法包括：从用户接收对一组数据集中的数据集的请求；确定哪些另外的数据集对用户可用；为(i)该数据集或该组数据集与(ii)对用户可用的另外的数据集的组合确定所有可能的主/外键关系；为关于所有可能的主/外键关系的联合的可能结果集确定元数据；检查可能结果集与管控策略的合规性；在适当的情况下，在提供对所请求的数据集或一组数据集的访问之前，匿名化所请求的数据中的一些以符合管控策略。对所有可能的主/外键关系的确定可以例如如下执行：确定一组数据集中的所有可能的单列和多列包含依赖性(例如，使用BINDER算法)；使用基于列值计算的特性(签名)确定可能的列对以建立键关系；基于列的基数，识别列对，其中一个列是唯一的或几乎唯一的(即，它的所有的值是不同的)，从而产生所有可能的主/外键关系。

在以下编号的条款中指定了各种实施例。

1.一种用于数据库***的数据匿名化的方法，包括：

确定所述数据库***的第一数据集和第二数据集是否具有指示在这两个数据集中具有值的实体的关系；

接收来自用户的对第一数据集和第二数据集中的至少一个数据集的请求；

在第一数据集和第二数据集具有所述关系的情况下，修改第一数据集和第二数据集中的至少一个数据集，使得对所述实体的指示不可由所述用户访问；

提供所请求的数据集。

2.根据条款1所述的方法，其中，第一数据集和第二数据集包括记录，每个记录是相应实体的属性值的组合，其中，由所述关系指示的所述实体是第一数据集和/或第二数据集的至少一个记录的实体。

3.根据前述条款中任一项所述的方法，还包括确定所述数据库***的所有数据集之间的关系，以及提供包括关于所确定的关系的信息的元数据结构，其中，使用所述元数据结构来确定第一数据集和第二数据集是否具有所述关系。

4.根据条款3所述的方法，还包括：响应于所述数据库***中的改变，重新确定所述数据库***的数据集之间的关系，并且相应地更新所述元数据结构。

5.根据前述条款中任一项所述的方法，所述修改是响应于确定用户对实体的访问将违反预定义管控策略而执行的。

6.根据前述条款中任一项所述的方法，确定所述关系是否指示所述实体包括：识别第一数据集的一个或多个源列，所述一个或多个源列引用第二数据集的相应目标列，组合所述源列和所述目标列，并且基于所述组合结果确定所述关系指示或不指示所述实体。

7.根据条款6所述的方法，其中，所述组合是使用SQL联合操作而执行的。

8.根据前述条款中任一项所述的方法，其中，所确定的关系是主外键关系。

9.根据前述条款中任一项所述的方法，还包括响应于接收到所述请求并且响应于确定第一数据集和第二数据集可由所述用户访问，确定第一数据集和第二数据集是否具有所述关系。

10.根据前述条款中任一项所述的方法，其中，对所请求的数据集的修改包括对所请求的数据集的一个或多个列进行屏蔽。

11.根据前述条款中任一项所述的方法，对所述关系的确定是自动执行的。

12.根据条款11所述的方法，响应于检测到所述数据库***中的改变，自动执行对所述关系的确定。

本文参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实施。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令运行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下各项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如其上记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码设备，以及前述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，经过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述一种或多种编程语言包括面向对象的编程语言(诸如Smalltalk、C++等)以及常规的过程式编程语言(诸如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上运行，部分在用户的计算机上运行，作为独立的软件包运行，部分在用户的计算机上并且部分在远程计算机上运行，或者完全在远程计算机或服务器上运行。在后一种场景下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，为了执行本发明的各方面，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来运行计算机可读程序指令，以使电子电路个性化。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器运行的指令创建用于实施流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实施流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实施的过程，使得在计算机、其他可编程装置或其他设备上运行的指令实施流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的***、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实施指定的(多个)逻辑功能的一个或多个可运行指令。在一些替代实施方式中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时运行，或者这些框有时可以以相反的顺序运行，这取决于所涉及的功能。还应注意，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定的功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的***来实施。

预先理解的是，尽管本公开包括关于云计算的详细描述，但是在此记载的教导的实施不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实施。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云***通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作***、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作***或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(IaaS)：向消费者提供的能力是消费者能够在其中部署并运行包括操作***和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作***、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规性考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图3，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点100，本地计算设备例如可以是个人数字助理(PDA)或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机***54N。云计算节点100之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点100进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解，图3显示的各类计算设备54A-N仅仅是示意性的，云计算节点100以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图4，其中显示了云计算环境50提供的一组功能抽象层400。首先应当理解，图4所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和网络组件66。在一些实施例中，软件组件包括：网络应用服务器软件67；和数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的示例：虚拟服务器71；虚拟存储72；虚拟网络73(包括虚拟私有网络)；虚拟应用和操作***74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其他资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和***。在一个示例中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其他资源提供保护。用户门户功能83：为消费者和***管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及数据匿名化处理96。数据匿名化处理96可以通过确定数据库***的所有数据集之间的关系并提供包括关于所确定的关系的信息的元数据结构，来与数据库***的数据匿名化相关，其中，使用元数据结构来执行确定。响应于数据库***中的改变，数据匿名化处理96可以重新确定数据库***的数据集之间的关系，并相应地更新元数据结构。

以上已经描述了本技术的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其他普通技术人员能理解本文所公开的各实施例。

Claims

1.一种用于数据库***的数据匿名化的方法，所述方法包括：

确定所述数据库***的第一数据集和第二数据集是否具有指示在第一数据集和第二数据集中都具有值的实体的关系；

在第一数据集和第二数据集具有所述关系的情况下，通过修改第一数据集和第二数据集中的至少一个数据集使得所述实体不可由所述用户访问，来产生所请求的数据集；以及

提供所请求的数据集。

2.根据权利要求1所述的方法，其中，第一数据集和第二数据集包括记录，每个记录是相应实体的属性值的组合，其中所述相应实体具有指示第一数据集和第二数据集的至少一个记录的实体的关系。

3.根据前述权利要求中任一项所述的方法，还包括确定所述数据库***的所有数据集之间的关系，以及提供包括关于所确定的关系的信息的元数据结构，其中使用所述元数据结构来确定第一数据集和第二数据集是否具有所述关系。

4.根据权利要求3所述的方法，还包括响应于所述数据库***中的改变，重新确定所述数据库***的第一数据集和第二数据集之间的关系，并且相应地更新所述元数据结构。

5.根据前述权利要求中任一项所述的方法，其中，响应于确定所述用户对所述实体的访问将违反预定义的管控策略，修改第一数据集和第二数据集中的至少一个数据集。

6.根据前述权利要求中任一项所述的方法，其中，确定所述关系是否指示所述实体包括：

识别第一数据集中的一个或多个源列，所述一个或多个源列引用第二数据集中的相应目标列；

组合所述源列和所述目标列；以及

基于组合所述源列和所述目标列来确定所述关系指示或不指示所述实体。

7.根据权利要求6所述的方法，其中，组合所述源列和所述目标列是使用SQL联合操作来执行的。

8.根据前述权利要求中任一项所述的方法，其中，所确定的关系是主外键关系。

9.根据前述权利要求中任一项所述的方法，还包括响应于接收到所述请求并且响应于确定第一数据集和第二数据集可由所述用户访问，确定第一数据集和第二数据集是否具有所述关系。

10.根据前述权利要求中任一项所述的方法，对所请求的数据集的修改包括对所请求的数据集的一个或多个列进行屏蔽。

11.根据前述权利要求中任一项所述的方法，其中，对所述关系的确定是自动执行的。

12.根据权利要求11所述的方法，响应于检测到所述数据库***中的改变，自动执行对所述关系的确定。

13.一种包括计算机可读存储介质的计算机程序产品，所述计算机可读存储介质具有随其体现的计算机可读程序代码，所述计算机可读程序代码被配置为实施包括以下步骤的方法的所有步骤：

确定数据库***的第一数据集和第二数据集是否具有指示在第一数据集和第二数据集中都具有值的实体的关系；

提供所请求的数据集。

14.一种用于对数据库***的数据进行数据匿名化的计算机***，所述计算机***被配置为：

在第一数据集和第二数据集具有所述关系的情况下，通过修改第一数据集和第二数据集中的一个数据集使得所述实体不可由所述用户访问，来产生所请求的数据集；以及

提供所请求的数据集。

15.一种用于数据库***的数据匿名化的方法，所述方法包括：

接收来自用户的对所述数据库***的第一数据集的请求；

确定第一数据集和来自所述数据库***的第二数据集的至少一个实体是否具有指示第一数据集和第二数据集两者的至少一个记录的实体的关系；

在第一数据集和来自第二数据集的至少一个实体具有所述关系的情况下，通过修改第一数据集和第二数据集的至少一个实体使得所述实体不可由所述用户访问，来产生所请求的数据集；以及

提供所请求的数据集。