CN108885673A

CN108885673A - 用于计算数据隐私-效用折衷的***和方法

Info

Publication number: CN108885673A
Application number: CN201780018946.2A
Authority: CN
Inventors: D·托马斯; S·P·洛哈; V·M·巴纳哈蒂; K·帕德马纳汗; K·马什瓦尔
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2016-02-22
Filing date: 2017-02-20
Publication date: 2018-11-23
Anticipated expiration: 2037-02-20
Also published as: CA3015447A1; JP6892454B2; AU2017222475A1; AU2020202889A1; EP3420475A4; US11182502B2; MX2018010114A; WO2017145038A1; JP2019512128A; EP3420475A1; AU2020202889B2; CA3015447C; CN108885673B; SG11201807132WA; BR112018017269A2; EP3420475B1; US20190057225A1

Abstract

公开了用于计算数据隐私‑效用折衷的***和方法。诸如数据市场的大型数据中心是可能对数据购买方有用的数据源。然而，提供给数据销售方的输出数据需要满足数据销售方的隐私要求，同时保持数据购买方的效用水平。传统上已知的实现数据隐私的方法倾向于遮蔽可能导致数据效用降低的数据部分。本公开的***和方法在与数据销售方共享数据之前，计算这种折衷以建立对数据变换的需要(如果有的话)。

Description

用于计算数据隐私-效用折衷的***和方法

相关申请的交叉引用及优先权

本申请要求于2016年2月22日提交的第201621006136号印度临时专利申请的优先权，其全部内容通过引用合并于此。

技术领域

本文的实施例总体涉及信息安全，并且更具体地涉及用于评估数据的隐私和效用之间的折衷的***和方法。

背景技术

隐私通常是一种免受公众注意的状态，或者是一种不被其他人观察或干扰的状态。当链接来自分布式源的敏感数据时，必须考虑隐私威胁。在这个全球化时代，组织机构可能需要与商业伙伴一起公布微观数据，以保持竞争力。这会使个人隐私受到威胁。同样，今天人们对智能电话和平板电脑的依赖程度很高。这些设备包含大量个人信息，因为它们可以执行大量操作。人们访问他们的银行账户、购买和支付账单，使这些设备成为网络罪犯的潜在目标。行为方面也增加了隐私风险。人们并不总是知道谁在跟踪它们以及如何使用跟踪信息。因此，防止身份盗用是大多数行业的首要任务之一，包括健康、金融、政府、制造业、银行业、零售业、保险业、外包业。

为了克服隐私风险，传统上，通常通过随机值来消除或遮蔽清楚地识别个人的属性，诸如姓名、社会保险号码、驾驶证号码等。例如，考虑以下表格，这些表格是医疗数据库的一部分。表(a)与微观数据有关，并且表(b)与公共数据或投票登记数据有关。

表(a)：医疗数据(微观数据)

表(b)：投票登记数据(公开)

姓名	性别	出生日期	邮编
				Andre	男	21/7/79	52000
Beth	女	10/1/81	43000
				Carol	女	1/10/44	32000
Dan	男	21/2/84	27000
				Ellen	女	19/4/72	41000

表(a)的属性“疾病”是敏感属性。如果个人不愿意透露该属性，或者不允许攻击者发现该属性的值，则该属性称为敏感属性。属性集{性别、出生日期和邮编}称为准标识符(QI)属性；通过链接这两个表的QI属性，攻击者可以从投票登记数据中识别属性“姓名”。敏感属性本身不敏感，但特定值或其组合可能与外部信息相关联，以揭示个体的间接敏感信息。因此，准标识符在组合时可以成为个人标识信息。准标识符已成为对已发布数据的多次攻击的基础。因此，能够识别准标识符并向其应用适当的保护措施以缓解身份公开风险至关重要。

如果将自然结合应用于具有受遮蔽的医学数据的表(c)和上面的表(b)，则可以容易地借助于准标识符重新识别个体，如下文所解释的。

表(c)：受遮蔽的医疗数据(微观数据)

表(d)：受遮蔽的表(c)和表(b)的结合：从自然结合表(b)的表(c)中选择姓名、性别、出生日期、邮编、疾病

数据隐私在数据交易中起着重要作用。存在若干数据公布技术，其倾向于执行数据变换以维护隐私。然而，值得注意的是，数据的特定组成部分的一般性和遮蔽可能会影响消费者可以获得的数据的效用以及值。量化隐私和效用之间的折衷是一种需要解决的挑战，以便数据销售方和数据购买方做出明智的决策。

发明内容

本公开的实施例呈现技术改进作为本发明人在传统***中认识到的一个或多个上述技术问题的解决方案。

一方面，提供一种方法，包括：由数据连接器接收来自一个或多个数据源的数据，以使所述数据能够被一个或多个数据购买方使用；由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据；由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间；由攻击者模型生成器通过将所述搜索空间划分为贮体(bucket)集合来生成攻击者模型，每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的至少一种敏感属性；由所述攻击者模型生成器计算每个所述贮体集合的贮体计数，并且从所述贮体集合中创建所述贮体的贮体组合；由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据；由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数；由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数；以及由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据。

另一方面，提供一种***，包括：一个或多个处理器；和一个或多个内部数据存储设备，其可操作地耦合到一个或多个处理器，用于存储配置为由一个或多个处理器执行的指令，该指令包括在以下器件中：数据连接器，其配置为接收来自一个或多个数据源的数据以用于使数据可被一个或多个数据购买方使用；流入数据分析器，其配置为分析所接收的数据以提取并处理所接收的数据的元数据，以及基于与数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间；攻击者模型生成器，其配置为通过将搜索空间划分为贮体集合(每个集合对应于具有与至少一种敏感属性相关联的隐私数据的至少一种敏感属性)来生成攻击者模型，计算贮体集合中的每一者的贮体计数并从贮体集合中创建贮体的贮体组合，利用来自贮体的掩蔽贮体来替换与至少一种敏感属性中的每一者相关联的隐私数据，基于分配给隐私数据的掩蔽贮体来计算每个贮体组合的实体计数，基于计算出的实体计数和预定义隐私阈值来计算匿名指数，并且基于所接收的数据来不断学习并更新攻击者模型；数据掩蔽模块，其配置为基于计算出的匿名指数清理隐私数据以生成输出数据；决策助手模块，其配置为基于所接收的数据来向数据销售方提供推荐；流出数据分析器，其配置为评估输出数据以匹配一个或多个数据购买方的要求；数据发布管理模块，其配置为基于决策助手模块的推荐来确定发布计划；报告和警报管理模块，其配置为基于输出数据来生成评估报告和警报；以及事件记录模块，其配置为记录与输出数据相关联的事件。

在实施例中，本公开的***还可以包括数据隐私-效用折衷计算器，其配置为：基于平衡贮体的中点和隐私数据来计算效用指数；并且基于贮体和平衡贮体之间的变化数量来计算属性变化。

又一方面，提供一种计算机程序产品，其包括存储有计算机可读程序的非暂时性计算机可读介质，其中该计算机可读程序在计算设备上执行时使计算设备：接收来自一个或多个数据源的数据，以使数据可被一个或多个数据购买方使用；分析所接收的数据以提取并处理所接收的数据的元数据；基于与数据相关联的预定义知识库，从经处理的元数据中识别包括至少一个敏感属性的搜索空间；通过将搜索空间划分为贮体(bucket)集合来生成攻击者模型，每个集合对应于具有与至少一种敏感属性相关联的隐私数据的至少一种敏感属性；计算每个贮体集合的贮体计数，并从贮体集合中创建贮体的贮体组合；利用来自贮体的掩蔽贮体替换与至少一种敏感属性中的每一者相关联的隐私数据；基于分配给隐私数据的掩蔽贮体来计算每个贮体组合的实体计数；基于计算出的实体计数和预定义隐私阈值来计算匿名指数；以及基于计算出的匿名指数来清理隐私数据，以生成输出数据。

在本公开的实施例中，至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。

在本公开的实施例中，攻击者模型生成器还配置为针对基于预定义知识库的至少一种敏感属性中的每一者，基于(a)预定义值范围和(b)预定义上下限之一来生成贮体集合。

在本公开的实施例中，由流入数据分析器基于至少一种敏感属性来计算值范围以及上下限。

在本公开的实施例中，数据掩蔽模块还配置为通过(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术和(iv)混排(shuffle)技术之一来清理隐私数据。

在本公开的实施例中，执行混排技术以获得平衡贮体，其中，每个贮体组合具有平衡的实体计数。

附图说明

从以下参考附图的详细描述中将更好地理解本文的实施例，其中：

图1示出根据本公开的实施例的用于计算数据隐私-效用折衷的***的示例性框图；

图2是包括图1的***的功能模块的示例性表示；

图3是示出根据本公开的实施例的用于计算数据隐私-效用折衷的计算机实现的方法的示例性流程图；

图4是根据本公开的示例性数据集合的标准化匿名指数与隐私阈值的图解说明；

图5是属性“工作类”的示例性值泛化层级的示意性表示；

图6是根据本公开的示例性数据集合的标准化属性变化与隐私阈值的图解说明；

图7是根据本公开的示例性数据集合的标准化匿名指数和标准化属性变化与隐私阈值的图解说明；

图8是根据本公开的借助于曲线拟合的示例性数据集合的前向移位属性变化图的图解说明；以及

图9是根据本公开的借助于曲线拟合的示例性数据集合的后向移位属性变化图的图解说明。

本领域技术人员应当理解，本文的任何框图表示体现本主题的原理的说明性***的概念视图。类似地，应该理解，任何流程图、流程示图、状态转换图、伪代码等表示可以基本表示在计算机可读介质中并且因此由计算设备或处理器执行的各种工艺，而不管是否明确示出此类计算设备或处理器。

具体实施方式

参考在附图中示出并在以下描述中详述的非限制性实施例，更全面地解释本文的实施例及其各种特征和有利细节。本文使用的示例仅旨在便于理解可以实践本文的实施例的方式，并且进一步使本领域技术人员能够实践本文的实施例。因此，示例不应被解释为限制本文的实施例的范围。

词语“包括”、“具有”、“含有”和“包含”以及其他形式在意义上是等同的并且是开放式的，因为在这些词中的任何一个之后的一个或多个项目并不意味着是该项目的详尽列举或仅限于所列项目。

还必须注意，如本文和所附权利要求中所使用的，单数形式“一个”、“一种”和“所述”包括复数指代，除非上下文另有明确说明。尽管与本文描述的那些类似或等同的任何***和方法可以用于实践或测试本公开的实施例，但是现在描述优选的***和方法。

现在将详细讨论示出本公开的所有特征的一些实施例。所公开的实施例仅是本公开的示例，其可以以各种形式体现。在阐述详细说明之前，应当注意，不管所描述的具体实施方式如何，以下所有讨论本质上是示例性的，而不是限制性的。

考虑到数据隐私和数据效用之间的预期折衷，特别是在诸如数据市场的数据中心中的数据交换或交易是一种挑战。本公开的***和方法解决这一挑战并且有助于计算该折衷以建立数据转换的需要，使得数据购买方和数据销售方进行有意义的交易。

现在参考附图，更具体地参考图1至图9，相同的附图标记在整个附图中始终表示对应的特征，示出优选实施例，并且在以下示例性***和方法的上下文中描述这些实施例。

本公开的上下文中的表述“数据源”是指(i)想要通过列出包括数据富集和分析解决方案的产品和解决方案来货币化数据的一个或多个实体或供应商、(ii)通过投标和要约回应服务意图的一个或多个实体或供应商、(iii)通过API将数据从办公室推送到数据仓库的一个或多个实体或供应商以及(iv)通过一个或多个数据代理销售个人数据的实体中的至少一者。

在本公开的上下文中的表述“输出数据”是指以从数据源接收的形式提供给数据购买方的数据或者可以基于匿名指数选择性地变换的数据，如下文所解释的。

在本公开的上下文中的表述“数据攻击方”是指具有恶意意图的实体。

图1示出根据本公开的实施例的用于计算数据隐私-效用折衷的***100的框图，并且图2是包括***100的功能模块的示例性表示。

在实施例中，***100包括一个或多个处理器102、一个或多个通信接口设备或一个或多个输入/输出(I/O)接口104、以及存储器106或包括可操作地耦合到一个或多个处理器102的一个或多个模块108的一个或多个数据存储设备。一个或多个处理器是硬件处理器，其可以实现为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令操纵信号的任何设备。在其他能力中，一个或多个处理器配置为获取并执行存储在存储器中的计算机可读指令。在一个实施例中，***100可以在一个或多个计算***中实现，诸如膝上型计算机、台式计算机、笔记本、工作站、大型计算机、服务器、网络服务器、云、手持设备、可穿戴设备等。

一个或多个I/O接口设备104可以包括各种软件和硬件接口，例如，web接口、图形用户接口、IOT接口等，并且可以促进各种网络和协议类型内的多种通信，包括有线网络(例如LAN、电缆等)和无线网络(例如WLAN、蜂窝或卫星)。在实施例中，一个或多个I/O接口设备104可以包括一个或多个端口，用于将多个设备彼此连接或连接到另一服务器。

存储器106可以包括本领域中已知的任何计算机可读介质，包括例如易失性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(诸如只读存储器(ROM)、可擦除可编程ROM、闪存、硬盘、光盘和磁带)。在实施例中，***100的各种模块108A到108J(图2)可以存储在存储器106中，如图所示。

图3是示出根据本公开的实施例的用于计算数据隐私-效用折衷的计算机实现的方法200的示例性流程图。现在将参考图1和图2中描绘的***100的部件来解释计算机实现的方法200的步骤。在实施例中，在步骤202处，***100配置为经由数据连接器108A接收从一个或多个数据源(数据源1、数据源2、......数据源n)生成或捕获的数据，以使其可被一个或多个数据购买方使用。在实施例中，数据连接器108A还可以配置为随数据一起接收查询和其他参数。例如，查询可以是对与40-50岁年龄组中并患有糖尿病的人或在特定区域患有心脏病的人等有关的数据的请求的形式，其中，查询的参数可以包括年龄、性别、居住地等。根据本公开，分析或处理所接收的数据以使其适合于传播到一个或多个数据购买方而不会在保留与数据相关联的隐私的过程中损失其效用。在实施例中，数据连接器108A连接到一个或多个数据源以接收以批量格式或流式内容格式生成或捕获的数据。批量格式的数据可以以预定间隔上传或者由数据销售方随机上传。流式内容格式的数据可以是通过与诸如Fitbit^TM设备、加速度计设备、温度设备和耗电设备的一个或多个数据源连接而实时提供的数据。

在步骤204处，流入数据分析器108B配置为分析由数据连接器108A接收的数据，以提取并处理所接收的数据的元数据。在实施例中，在步骤206处，流入数据分析器108B处理元数据以基于平台的预定义知识库来识别包括至少一种敏感属性的搜索空间。在实施例中，预定义知识库可以是领域知识。在实施例中，知识库可以基于诸如HIPAA(HealthInsurance Portability and Accountability Act，健康保险可携性和可归责性法)的现行法律/法案的合规性要求以及其他公开可用的数据集合。根据本公开，敏感属性可以包括二元文本、分类文本、数字文本和描述性文本中的一者或多者。例如，敏感属性可以包括当前财年支付的税、心率、位置信息等、个体的个人标识信息(诸如姓名、地址、SSN(社会保险号码)、银行帐号、护照信息、医疗保健相关信息、***和借记***码、驾驶证和身份证信息、医疗保险信息、学生信息等)。如果以原始形式传播，包含此类敏感属性的数据可能会导致数据隐私泄露。

在步骤208处，攻击者模型生成器108C配置为通过将搜索空间划分为贮体集合来生成攻击者模型；每个集合对应于具有与敏感属性相关联的隐私数据的敏感属性。例如，贮体集合可以与年龄有关并且包括贮体[0-9]、[10-19]等。另一贮体集合可以与疾病有关并且包括[糖尿病]、[心脏病]、[肺病]等。数据的敏感属性可以与两种类型的公开相关联，即身份公开和值公开。身份公开意味着数据攻击方能够识别与该数据有关的数据主体。另外，数据攻击方还可以学习数据主体的PII，并且可能滥用它来进行欺诈、冒充等。值公开是数据攻击方能够使用可用数据估计敏感属性的值的能力。因此，必须保护可能导致身份或值公开的敏感属性。

在实施例中，攻击者模型生成器108C配置为从一个或多个数据源中识别与敏感属性有关的公共领域中可用的信息。在实施例中，攻击者模型生成器108C配置为从世界上的一个或多个公共可用资源中不断学习，包括社交媒体、协同过滤、众包、公共健康数据集合(诸如人口普查、医院数据等)，并且还从数据销售方提供的数据中学习。在实施例中，攻击者模型生成器108C配置为学习并向一个或多个数据源提供合适的默认模板以从中进行选择和编辑。

根据本公开，攻击者模型生成器108C配置为通过首先确定包括数据知识及其操作强度的攻击者强度来生成一个或多个攻击者模型。假设实体是更高维度真实空间R^d中的点，并且存在n个这样的实体€＝e₁,e₂,…,e_n，其为d维中的点。因此，所接收的数据包括n行和d列，这意味着每个e_i是d维的点。攻击者试图通过使用他/她的知识来挑出一个或多个实体。攻击者可能对攻击数据库感兴趣。例如，攻击者可能是糖尿病医生，并且可能想要向人们发送一些垃圾邮件以用于广告目的。比如说，在示例性情况下，攻击者可能想要向40岁以上的人群发送关于糖尿病的电子邮件。此外，攻击者可能想要将年龄组[40,50]中的人分类为低度倾向、将年龄组[50,60]中的人分类为中度倾向以及将年龄组60以上的人分类为高度倾向。在大多数情况下，攻击者对确切的年龄组或确切的性别不感兴趣。攻击者主要对一系列给定属性感兴趣。这有助于攻击者通过查找数据库中属于同一范围的元素来缩小搜索空间(40岁以上的人)。更确切地说，攻击者会找到感兴趣的人群，然后攻击他们，即她将在贮体(或组)中划分空间。

仅当攻击者具有所考虑的数据知识时才需要数据变换以防止隐私泄露。在示例性情况下，攻击者的强度取决于如下参数，诸如攻击者可以一起发送多少电子邮件、攻击者可以发送多少次电子邮件以及攻击者具有多少背景知识。如果攻击者可以一起发送的电子邮件数量是k，并且攻击者可以发送电子邮件的次数相当于数据库的分区或贮体的数量，则攻击者将在数据库中形成与她可以发送的诸多消息一样多的分区。

根据本公开的分组(bucketing)技术基于针对基于预定义知识库的每种敏感属性的预定义上下限。替代地，在实施例中，流入数据分析器108B扫描与每种敏感属性相关联的隐私数据以获得下限和上限。对于数字属性，可以在输入间隔后创建贮体。例如，在属性“年龄”的情况下，如果下限是4并且上限是87并且输入间隔是40，则针对属性“年龄”的贮体可以是[4,44]、[45,85]、[86,126]。

对于诸如属性“婚姻状况”的分类属性，贮体可以是[已婚]、[未婚]、[离婚]、[分居]、[丧偶]。

根据本公开，使用示例性情况来解释基于预定义值范围的另一种分组技术，其中，攻击者对于年龄组范围0到60的人感兴趣。假设表示列i处沿每种属性的贮体，其中，k_i表示第i列中贮体的数量。每个都与整数j相关联，使得其中，1≤j≤k_i。index_i(.)是第i维中实体的贮体号。例如，假设存在属性“年龄”、“性别”和“邮编”的三维表。在属性“年龄”的情况下，攻击者可能知道特定人属于[0-10]或[10-20]或[20-30]或[30-40]或[40-50]或[50-60]的年龄组。因此，属性“年龄”的k_i是6，并且它可以表示为r¹ _年龄，r² _年龄，...，r⁶ _年龄。在属性“性别”的情况下，攻击者可能知道该人是男性或女性。因此，属性“性别”的k_i是2，并且它可以表示为r¹ _性别，r² _性别(假设男＝1，女＝2)。在属性“邮编”的范围大约从1到10⁵的情况下，攻击者可能知道多达1000个贮体。为简单起见，10⁵除以1000，并且因此贮体为[0-1000]、[1000-2000]、......、[99900-100000]。因此，属性“邮编”的k_i是100，并且它可以表示为r¹ _邮编，r² _邮编，...，r¹⁰⁰ _邮编。针对每个实体，假设“年龄”作为第1维，“性别”作为第2维，并且“邮编”作为第3维。因此，代替在的后缀中使用年龄、性别、邮编，维度可以用作其中i＝1,2,3。在实施例中，考虑到攻击者的知识是分层的或者攻击者对属性的特定值感兴趣，上述分组技术会变得更复杂。

在另一示例性情况中，假设攻击者对信息可能如下的人感兴趣：该人的年龄在20到30之间，性别为女，并且邮编在7000到8000之间(假设这些是属于纽约市的所有邮编)。假设所有n个点绘制在d维空间中。然后，攻击者将搜索满足由上述信息范围形成的d维矩形的所有人。如果攻击者在该矩形中没有找到任何元素，那么他/她没有找到任何东西。如果攻击者在那里只找到一个人，则他/她就找到了这个人。同样，如果攻击者在那里找到多于一个人，则所有这些人的可能性相同并且攻击者将被混淆并且难以识别特定的人。在上述示例性情况中，对于年龄、性别和邮编分别为3、2、8。它意味着该人落入第1维中的第3贮体，第2维中的第2贮体，并且第3维中的第8贮体。因此，人的身份可以以指数格式的形式表示，其为多维搜索空间的单维表示。假设k_i对于给定数据库是恒定的，则可以在O(d)时间(其中时间与维数成比例)中使用同一搜索空间来搜寻人的指数格式。根据本公开，不同贮体的总数为这里，每个贮体是d维矩形，例如DR_i，其中1≤i≤B。对于大小为B的阵列A，阵列的每个条目包含整数p_i，并且p_i表示每个贮体DR_i中的实体的数量。

根据本公开，如果实体的指数格式是已知的，则下面的公式将把实体放在阵列位置的正确位置，比如由下式给出的阵列指数p：

根据本公开，阵列A被初始化为零。阵列A维持所有贮体DR_i的计数，其中实体的数量对应于每个贮体DR的第i个位置。在本示例中，DR_i包含在下面的表(f)中定义的180个贮体组合。计算实体的指数格式。使用上面的等式1计算实体的阵列指数ρ，并且对于阵列指数ρ，通过1将A[ρ]更新为A[ρ]+＝1。

根据本公开，在用于计算每个贮体DR_i中的实体计数的技术中，可以在数据库中仅使用一次遍历并且在阵列A中使用一次遍历来得到实体的数量。而且，在每个贮体DR_i中计算出的元素p_i的数量是正确的，这通过上面的公式表明不同指数格式的实体会落入不同贮体中的事实来验证。

在实施例中，在步骤210处，攻击者模型生成器108C配置为计算每个贮体集合的贮体计数，并且进一步从贮体集合中创建贮体的贮体组合。例如，假设存在属性“年龄”、“性别”、“婚姻状况”、“工资”和“邮编”的5维表，并且假设隐私数据可用于300人，如下表(e)所示。

表(e)：

可以根据本公开创建贮体组合，如下文表(f)中(部分地)示出。

表(f)：

在实施例中，在步骤212处，攻击者模型生成器108C配置为利用来自贮体的掩蔽贮体来替换与至少一种敏感属性中的每一者相关联的隐私数据。因此，利用表(e)中创建的贮体(现在用作掩蔽贮体)替换与至少一种敏感属性中的每一者相关联的隐私数据。例如，假设可用隐私数据如下文表(g)中(部分地)示出。

表(g)：

年龄	性别	婚姻状况	工资	邮编
					55	女	分居	27000	80003
67	女	已婚	37000	40001
					51	男	丧偶	56000	40009
67	男	已婚	80000	54003
					……	……	……	……	……
……	……	……	……	……

表(g)的隐私数据可以由掩蔽贮体替换，如下表(h)中(部分地)示出。

表(h)：

年龄	性别	婚姻状况	工资	邮编
					[45-85]	[女]	[分居]	[5000,105000]	[7000,507000]
[45-85]	[女]	[已婚]	[5000,105000]	[7000,507000]
					[45-85]	[男]	[丧偶]	[5000,105000]	[7000,507000]
[45-85]	[男]	[已婚]	[5000,105000]	[7000,507000]
					……	……	……	……	……
……	……	……	……	……

在实施例中，在步骤214处，攻击者模型生成器108C配置为基于分配给表(h)中的隐私数据的掩蔽贮体来计算表(f)的每个贮体组合的实体计数，如下表(i)所示。

表(i)：

如果表(f)中多于一行的比较相同，则实体计数加一。例如，表(i)示出有6个人的年龄在4-44范围内，性别为男，婚姻状况为已婚，工资在5000-105000范围内，邮编在7000-507000范围内。

数据库的隐私遵循以下列出的原则：

·如果实体周围的人口增加，则该特定实体的隐私会增加。

·如果攻击者的强度增加，则隐私会减少。

·如果攻击者了解的维度增加，则隐私减少。

·如果总人口增加，则整体隐私增加。

在实施例中，隐私基于K-匿名或在人群中混合。

在实施例中，在步骤216处，攻击者模型生成器108C配置为测量与所接收的数据相关联的每个实体的匿名指数。可以基于计算出的实体计数(表(i))和预定义隐私阈值来计算匿名指数。攻击者的知识最多仅限于贮体。位于同一贮体内的元素对于攻击者而言可能性相同。匿名指数越高，相关联隐私越高。因此，根据本公开，匿名指数是数据库的隐私度量。

匿名指数表明所接收的数据相对于攻击者而言的安全程度。为了计算匿名指数，首先设定预定义隐私阈值，其在本文呈现的示例情况中是要融入的人群的大小。可以遵守隐私法则以预先定义隐私阈值。例如，Health Insurance Portability andAccountability Act(HIPAA)隐私规则规定阈值应为20000，并且对于Family EducationalRights and Privacy Act(家庭教育权和隐私权法案，FERPA)，阈值为5。

根据本公开，

如果实体计数<隐私阈值，则

否则匿名指数＝1。

因此，对于隐私阈值＝10并且来自表(i)的实体计数＝5的情况，实体计数<预定义隐私阈值，

对于其中隐私阈值＝10并且来自表(i)的实体计数＝15的情况，实体计数>＝预定义隐私阈值，(舍入为1.0，因为它不能高于1.0)。

因此，对于隐私阈值＝10，可以针对所考虑的300个人的隐私数据计算匿名指数，如下文表(j)中(部分地)示出。

表(j)：

根据本公开，如果匿名指数<1，则将实体移动到另一贮体组合。可以对数据进行标准化以便于在标准化匿名指数和隐私阈值之间绘制匿名图，因为可能需要数据的标准化以将匿名指数值转换为公共比例并且便于比较两个或更多个曲线的形状或位置。因此，可以如下文所解释的那样执行匿名指数与属性变化的进一步比较。

对于总人数＝20，隐私阈值＝10，并且两个贮体组合的实体计数＝5和15的情况，这些实体计数的匿名指数分别为0.5和1。

图4是根据本公开的300个人的示例性隐私数据集合的标准化匿名指数与隐私阈值的图解说明。从图4的匿名图可以观察到，只要隐私阈值增加，匿名指数就持续减小。可以进一步注意到，如果匿名指数更高，则隐私将更高。图4中具有水平阴影图案的两列表示已经超过特定限制的标准化匿名指数的值，从而表明需要对特定示例性隐私数据集合进行数据清理。

在实施例中，在步骤218处，数据掩蔽模块108D配置为基于计算出的匿名指数来清理隐私数据以生成输出数据。在实施例中，数据掩蔽或数据清理可以通过以下中的一个或多个来执行：(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术以及(iv)混排技术。在实施例中，执行混排技术以获得平衡贮体，其中，每个贮体组合具有平衡的实体计数。根据本公开，数据掩蔽模块108D清理数据，使得掩蔽数据的效用被确保用于有意义的交易。效用是数据失真的度量。随机化技术可能过多地改变数据并且还可能生成接近原始数据的数据。

在实施例中，层级/贮体掩蔽技术使用户能够在保护隐私的同时控制所需的数据变化量。图5是属性“工作类”的示例性值泛化层级的示意性表示。在工作类层级的示例性实施例中，如果级别0的根节点指代工作类，则级别1的节点指代工作类，即个体户、政府、私企和失业，而级别2的节点指代更多子工作类，诸如：个体户类的公司或非公司，联邦、州或地方政府类，失业类的无薪或从未工作的类。在实施例中，对层级/贮体掩蔽技术的输入可以包括如上文工作类示例中所解释的泛化层级、每一类的预定义掩蔽级别以及相邻贮体(相邻标记)的合并或隔离。该技术配置为在合并级别2的叶节点的同类之后识别人计数是否满足隐私阈值。如果人计数不满足隐私阈值，则级别2处的叶节点可以与级别1处的节点合并，并且该合并可以继续，直到在级别0处满足要求。

根据本公开，效用指数是添加到每个单独数据点的失真之和的负数。在实施例中，数据掩蔽模块108D还配置为使用基于聚类的清理技术来最小化数据点的最大失真。根据本公开，当变换数据时，变换后的数据必须基于预定义隐私阈值τ保存隐私要求。对于给定的隐私阈值τ和数据库DB，必须将数据从DB转换为DB^T，使得每个贮体包含一部分数据或者贮体为空。根据本公开，在将DB变换为DB^T时，要满足的另一约束是数据失真必须相对于预定义度量尽可能最小。在实施例中，如果数据库中的实体被认为是真实空间R^d中的点，则要考虑欧几里得(Euclidean)度量。

在实施例中，用于最小化数据点的最大失真的基于聚类的清理技术提供相对于非常强的攻击者的恒定因子近似。使用本领域已知的用于r聚集的2因子近似算法，标识聚类C_i(C₁,C₂,...,C_k)，使得每个聚类C_i包含至少r个数据库点，并且聚类的半径被最小化。它类似于数据清理概念，其中每个平衡贮体包含大于或等于隐私阈值的值。随后，针对每个聚类C_i，标识贮体。假设是C_i内的贮体，使得属于C_i的所有数据点都被推入包含C_i中心c的贮体中。

在实施例中，基于聚类的清理技术可以是K-均值聚类以利用质心来替换实际值。欧几里得距离用于计算质心，并且它使用曼哈坦(Manhattan)距离来评估聚类。因此，可以使用用于异构数据集的K-中心点聚类算法。对于分类数据集，此算法使用基于共现(co-occurrence)的方法。对于数值数据集，K-中心点使用曼哈坦距离。对于二元数据集，曼哈坦使用汉明距离(0|1)。

在实施例中，数据掩蔽模块108D还配置为通过提供启发式技术以产生k-匿名并将其与朴素(naive)技术进行比较来最小化数据点的最大失真。在实施例中，朴素技术涉及用第一实体替换前k个实体的所有属性。然后，接下来的k个实体被第(k+1)个实体替换，依此类推。在实施例中，针对贮体DR_i，启发式技术涉及输入具有实体计数p_i的阵列A并输出具有实体计数(p_i＝0)或(p_i≥k)的阵列A^T。

在实施例中，基于混排的清理技术包括将实体计数移动到向前或向后方向上的最近位置。

前向移位示例：针对贮体DR_i，假设阵列A具有实体计数A(i)。

A＝{1,2,3,4,5,7,8}

假设隐私阈值＝10，元素沿向前方向从第一位置移动直到它变得大于或等于隐私阈值。如果实体计数是平衡的，则元素的移位将从下一位置继续。

继续前向移位直到获得所有平衡值。

后向移位示例：元素从最后位置移动直到它变得大于或等于隐私阈值。类似于前向移位，继续后向移位直到获得所有平衡值。

在隐私阈值＝10的情况下，下面的表(k)(部分地)描绘300个人的隐私数据的平衡实体计数。

表(k)：

对于元素之间的最小混排，可以基于属性对贮体值的顺序进行排序或改变。例如，它可以按属性“年龄”排序，按属性“性别”排序，按属性“婚姻状况”排序，按属性“工资”排序，按属性“邮编”排序。按属性“年龄”排序可以如下表(l)所示

表(l)：

可以针对所提供的示例性实施例中的属性“性别”、“婚姻状况”、“工资”和“邮编”执行对贮体值的顺序的类似排序。

在改变属性的顺序之后，如上所述应用前向和后向移位，这可以获得对于一些特定属性的数据的较小压力。因此，如果对属性变化的前向和后向移位执行曲线拟合，则R平方具有接近1的值，其中R平方是指示回归线近似于实际数据点的程度的确定的系数。如果R平方接近1，则曲线拟合被认为是最佳曲线拟合。

在实施例中，效用指数提供值从原始位置移动到平衡位置的距离。例如，假设一个人是纽约人，另一个人是华盛顿人。为了获得所需的隐私量，如果纽约人来到华盛顿，则效用指数指示纽约和华盛顿之间的距离。

根据本公开，在步骤220处，数据隐私-效用折衷计算器108E配置为计算数值属性的效用指数：效用指数＝平衡贮体的中点-隐私数据(原始贮体的主值)例如，假设属性“邮编”的贮体[6999,507000]已经从原始位置移动到平衡位置的贮体[507001,1007002]。

而且，[6999,507000]的主值为50001，[507001,1007002]的中点为757001((507001+1007002)/2)。

邮编的效用指数＝757001-50001＝707000

在分类属性的情况下，效用指数＝1。例如，如果属性“婚姻状况”[已婚]变为[未婚]，则效用指数＝1。

此外，为了最小化值的最大失真，将效用指数标准化，如下所示。

例如，在数字属性的情况下，假设属性“邮编”的效用指数的现有值＝707000，并且其最小值和最大值分别为264254和722978。

对于分类属性，标准化效用损失[0,1]＝1.000000。

在隐私阈值＝10的情况下，下面的表(m)(部分地)描绘300个人的隐私数据的效用指数。

表(m)：

在实施例中，在步骤222处，数据隐私-效用折衷计算器108E配置为基于贮体(原始贮体)和平衡贮体之间的变化数量来计算属性变化。

例如，如果属性的一个组合“年龄-性别-婚姻状况-工资-邮编”的值[3,44]-[男]-[已婚]-[105001,205002]-[507001,1007002]已被移至[3,44]-[男]-[未婚]-[4999,105000]-[6999,507000]，

则属性移动总数量＝3。

在隐私阈值＝10的情况下，表(n)(部分地)示出300个人的隐私数据的属性变化。

表(n)：

此外，为了使所有变量彼此成比例，将属性移动标准化为：

例如，如果四个贮体组合的属性移动是1、0、0、3，并且总人数是20，则属性移动的最小值是1，并且属性移动的最大值是3。

图6是根据本公开的300个人的示例性数据集合的标准化属性变化与隐私阈值的图解说明。从图6的属性变化图可以观察到，只要隐私阈值增大，属性变化就持续增大。因此，如果属性移动较低，则效用损失将是最小的，因为会存在较少的数据电文。

根据本公开，数据隐私-效用折衷计算器108E对属性变化和匿名指数的比较提供了数据隐私-效用折衷。根据本公开，数据隐私-效用折衷便于数据购买方决定输出数据的效用。例如，它可以是一些指定属性的泛化细节(例如，只有邮编的前2位可用，或者它可能只是SSN的最后4位，等等)。在实施例中，数据隐私-效用折衷计算器108E可以计算效用指数和效用损失，如表(m)所示。

图7是根据本公开的示例性数据集合的标准化匿名指数和标准化属性变化与隐私阈值的图解说明。从图7的比较图中可以观察到，只要隐私阈值增大，匿名指数就持续减小并且属性变化持续增大。

如果隐私阈值则匿名指数并且属性变化

图8是根据本公开的借助于曲线拟合的300个人的示例性数据集合的前向移位属性变化图的图解说明；并且图9是根据本公开的借助于曲线拟合的300个人的示例性数据集合的后向移位属性变化图的图解说明。可以观察到，属性移动的后向移位的R²(确定系数是回归线近似于真实数据点的程度的统计度量)是0.94，这比属性移动的前向移动(0.91)更好。因此，基于以上结果，对于示出的示例性数据集，可以注意到后向移位优于前向移位。可以注意到，属性变化的前向和后向移位完全取决于数据结构。

在实施例中，在步骤224处，攻击者模型108C基于所接收的数据不断学习并更新自己。在实施例中，信息收集可以由网络爬虫完成。因此，这些网络爬虫持续监测公共领域以获得关于人们的任何新可用信息，并因此丰富攻击者模型108C。

在实施例中，上文描述的方法200还可以包括步骤226，其中，决策助手模块108F配置为基于所接收的数据来向数据销售方提供推荐。可以根据数据销售方对来自所接收的数据(诸如年龄、人口统计、数据类型等)的类似数据的偏好设定来计算推荐。在实施例中，推荐还可以取决于领域和/或国家的规定。例如，HIPAA(美国的健康保险可携性和可归责性法)建议隐私阈值至少为20000。因此，决策助手模块108F可以在建议选项之前考虑这些方面。

在实施例中，上文描述的方法200还可以包括步骤228，其中，流出数据分析器108G配置为评估输出数据的质量和真实性。在发布之前，检查输出数据以验证数据购买方请求的元数据是否是数据销售方提供的内容。

在实施例中，上文描述的方法200还可以包括步骤230，其中，数据发布管理模块108H配置为基于由数据所有者/销售方配置的风险和奖励来决定发布计划。在实施例中，数据发布管理模块108H还可以咨询决策助手模块108F并向最终用户做出最终决定以进行手动发布。

在步骤232处，报告和警报管理模块108I配置为基于输出数据来生成报告和警报。

在步骤234处，事件记录模块108J配置为在记录文件中记录与输出数据相关联的所有事件，以用于监测和证据目的。

因此，基于计算出的数据隐私-效用折衷的数据变换有助于数据销售方和数据购买方进行有意义的交易。

书面说明描述了本文的主题，以使本领域技术人员能够制造和使用本发明的实施例。这里限定的主题实施例的范围可以包括本领域技术人员想到的其他修改。如果这些其他修改具有与权利要求的字面语言没有不同的类似元素，或者如果它们包括与字面语言无实质差异的等同元素，则这些修改旨在落入其范围内。

然而，应当理解，保护的范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外；当程序在服务器或移动设备或任何合适的可编程设备上运行时，这种计算机可读存储模块包含用于实现该方法的一个或多个步骤的程序代码模块。硬件设备可以是任何类型的可以编程的设备，包括例如任何类型的计算机，如服务器或个人计算机等或其任何组合。该装置还可以包括可以是例如硬件模块的模块，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或硬件和软件模块的组合，如ASIC和FPGA、或至少一个微处理器和至少一个存储器(其具有位于其中的软件模块)。因此，模块可以包括硬件模块和软件模块。本文描述的方法实施例可以用硬件和软件实现。该设备还可以包括软件模块。替代地，本发明可以在不同的硬件设备上实现，例如，使用多个CPU。

本文的实施例可以包括硬件和软件元素。以软件实现的实施例包括但不限于固件、驻留软件、微代码等。由包括本公开的和本文描述的***的各种模块实现的功能可以在其他模块或其他模块的组合中实现。出于本说明书的目的，计算机可用或计算机可读介质可以是能够包括、存储、传送、传播或传输程序以供指令执行***、装置或设备使用或与其结合使用的任何装置。本文描述的各种模块可以实现为软件和/或硬件模块，并且可以存储在任何类型的非暂时性计算机可读介质或其他存储设备中。非暂时性计算机可读介质的一些非限制性示例包括CD、DVD、BLU-RAY、闪存和硬盘驱动器。

适用于存储和/或执行程序代码的数据处理***将包括通过***总线直接或间接耦合到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储和高速缓存存储器，其提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储中检索代码的次数。

此外，尽管可以按顺序描述处理步骤、方法步骤、技术等，但是这样的处理、方法和技术可以配置为以交替顺序工作。换言之，可以描述的任何步骤序列或顺序不一定表示要求以该顺序执行步骤。本文描述的处理的步骤可以以任何实际顺序执行。此外，可以同时执行一些步骤。

已经参考各种实施例呈现了前面的描述。本申请所属领域的普通技术人员将理解，可以实践所描述的结构和操作方法的改变和变化而不会有意地脱离原理、精神和范围。

Claims

1.一种处理器实现的方法(200)，包括：

由数据连接器接收来自一个或多个数据源的数据，以使所述数据能够被一个或多个数据购买方使用(202)；

由流入数据分析器分析所接收的数据以提取并处理所接收的数据的元数据(204)；

由所述流入数据分析器基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间(206)；

由攻击者模型生成器通过将所述搜索空间划分为贮体集合来生成攻击者模型，每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的所述至少一种敏感属性(208)；

由所述攻击者模型生成器计算每个所述贮体集合的贮体计数，并且从所述贮体集合中创建所述贮体的贮体组合(210)；

由所述攻击者模型生成器利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据(212)；

由所述攻击者模型生成器基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数(214)；

由所述攻击者模型生成器基于计算出的实体计数和预定义隐私阈值来计算匿名指数(216)；以及

由数据掩蔽模块基于计算出的匿名指数来清理所述隐私数据以生成输出数据(218)。

2.根据权利要求1所述的处理器实现的方法，其中，所述至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。

3.根据权利要求1所述的处理器实现的方法，其中，生成所述攻击者模型包括：针对基于所述预定义知识库的所述至少一种敏感属性中的每一者，基于(a)预定义值范围和(b)预定义上下限之一来生成所述贮体集合。

4.根据权利要求3所述的处理器实现的方法，其中，由所述流入数据分析器基于所述至少一种敏感属性来计算所述值范围以及所述上下限。

5.根据权利要求1所述的处理器实现的方法，其中，清理所述隐私数据包括以下之一：(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术以及(iv)混排技术。

6.根据权利要求5所述的处理器实现的方法，其中，执行所述混排技术以获得平衡贮体，其中，每个贮体组合具有平衡的实体计数。

7.根据权利要求6所述的处理器实现的方法，还包括由数据隐私-效用折衷计算器基于所述平衡贮体的中点和所述隐私数据来计算效用指数(220)。

8.根据权利要求7所述的处理器实现的方法，还包括由所述数据隐私-效用折衷计算器基于所述贮体和所述平衡贮体之间的变化数量来计算属性变化(222)。

9.根据权利要求1所述的处理器实现的方法，还包括基于所接收的数据不断学习并更新所述攻击者模型(224)。

10.根据权利要求9所述的处理器实现的方法，还包括以下中的一者或多者：

由决策助手模块基于所接收的数据向数据销售方提供推荐(226)；

由流出数据分析器评估所述输出数据以匹配所述一个或多个数据购买方的要求(228)；和

由数据发布管理模块基于所述决策助手模块的推荐来确定发布计划(230)；

由报告和警报管理模块基于所述输出数据生成评估报告和警报(232)；以及

由事件记录模块记录与所述输出数据相关联的事件(234)。

11.一种***(100)，包括：

一个或多个处理器(102)；和

一个或多个内部数据存储设备(106)，其可操作地耦合到所述一个或多个处理器(102)，以用于存储配置为由所述一个或多个处理器(102)执行的指令，所述指令包括在以下器件中：

数据连接器(108A)，其配置为：

接收来自一个或多个数据源的数据，以使所述数据能够被一个或多个数据购买方使用；

流入数据分析器(108B)，其配置为：

分析所接收的数据以提取并处理所接收的数据的元数据；并且

基于与所述数据相关联的预定义知识库从经处理的元数据中识别包括至少一种敏感属性的搜索空间；

攻击者模型生成器(108C)，其配置为：

通过将所述搜索空间划分为贮体集合来生成攻击者模型，每个集合对应于具有与所述至少一种敏感属性相关联的隐私数据的至少一种敏感属性；

计算每个所述贮体集合的贮体计数，并且从所述贮体集合中创建所述贮体的贮体组合；

利用来自所述贮体的掩蔽贮体替换与所述至少一种敏感属性中的每一者相关联的隐私数据；

基于分配给所述隐私数据的掩蔽贮体来计算每个所述贮体组合的实体计数；

基于计算出的实体计数和预定义隐私阈值来计算匿名指数；并且

基于所接收的数据来不断学习并更新所述攻击者模型；

数据掩蔽模块(108D)，其配置为：

基于计算出的匿名指数来清理所述隐私数据以生成输出数据；

决策助手模块(108F)，其配置为：

基于所接收的数据向数据销售方提供推荐；

流出数据分析器(108G)，其配置为：

评估所述输出数据以匹配所述一个或多个数据购买方的要求；

数据发布管理模块(108H)，其配置为：

基于所述决策助手模块(108F)的推荐来确定发布计划；

报告和警报管理模块(108I)，其配置为：

基于所述输出数据来生成评估报告和警报；以及

事件记录模块(108J)，其配置为：

记录与所述输出数据相关联的事件。

12.根据权利要求11所述的***，其中，所述至少一种敏感属性包括二进制文本、分类文本、数字文本和描述性文本中的一者或多者。

13.根据权利要求11所述的***，其中，所述攻击者模型生成器(108C)还配置为针对基于所述预定义知识库的所述至少一种敏感属性中的每一者，基于(a)预定义值范围和(b)预定义上下限之一来生成所述贮体集合。

14.根据权利要求13所述的***，其中，由所述流入数据分析器(108B)基于所述至少一种敏感属性来计算所述值范围以及所述上下限。

15.根据权利要求11所述的***，其中，所述数据掩蔽模块(108D)还配置为通过(i)层级掩蔽技术、(ii)贮体掩蔽技术、(iii)聚类技术以及(iv)混排技术之一来清理所述隐私数据。

16.根据权利要求15所述的***，其中，执行所述混排技术以获得平衡贮体，其中，每个贮体组合具有平衡的实体计数。

17.根据权利要求16所述的***，还包括：

数据隐私-效用折衷计算器(108E)，其配置为：

基于所述平衡贮体的中点和所述隐私数据来计算效用指数；并且

基于所述贮体和所述平衡贮体之间的变化数量来计算属性变化。