CN108363928A

CN108363928A - 关联医疗数据中的自适应差分隐私保护方法

Info

Publication number: CN108363928A
Application number: CN201810129671.6A
Authority: CN
Inventors: 李先贤; 罗春枫; 王利娥; 刘鹏; 于东然; 赵华兴; 唐雨薇
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2018-08-03
Anticipated expiration: 2038-02-08
Also published as: CN108363928B

Abstract

本发明公开一种关联医疗数据中的自适应差分隐私保护方法，针对属性与属性之间的关联性导致的隐私问题，利用粗糙集理论对准标识符与敏感属性的关联性进行了分析，提出局部差分隐私的方法来实现对准标识符的保护，相比传统的差分隐私，保证了数据的效用性；针对记录与记录之间的关联性导致的隐私泄露问题以及不同疾病的敏感程度不同导致的数据效用性问题，提出全局差分隐私保护方法来实现对敏感属性的保护。本发明能够有效提高医疗数据的隐私保护的安全性。

Description

关联医疗数据中的自适应差分隐私保护方法

技术领域

本发明涉及数据隐私保护技术领域，具体涉及一种关联医疗数据中的自适应差分隐私保护方法。

背景技术

科技信息的进步促进了电子病历的发展，越来越多的医疗机构采用电子病例***，产生了海量的医疗数据，对电子病历进行分析挖掘为临床决策支持、临床路径优化和个性化医疗等应用提供证据。由于这些数据中包含许多敏感信息，因此隐私保护数据挖掘和隐私保护数据发布受到了广泛的关注。但是电子医疗数据存在复杂的关联特性，包括记录之间(比如遗传、并发症等关系)和属性之间(比如年龄与疾病的关系)的关联性，使得对其实施隐私保护变得更加困难。Kifer等在2011年首次提出如果记录之间的相关性被忽略，差分隐私不能提供足够的隐私保证，攻击者可以使用这些相关性改善对攻击目标的推论；如果属性之间存在关联性，比如，吸烟的人很容易有支气管炎，这样我们也需要对是否吸烟这个属性进行保护，因为它能增加攻击者推断病人是否患有支气管炎的概率。

在现有的隐私保护研究中，已经有许多医疗数据隐私保护的相关研究，但是目前考虑关联医疗数据隐私保护的研究领域还是空白。然而，由于医疗数据的关联性，能够增加攻击者推断某人得了某种疾病的成功率，所以考虑医疗数据的关联性实现隐私保护是非常有必要的，存在的隐私挑战主要有以下几个方面：

(1)由于电子医疗数据存在多维度属性、冗余记录与敏感度高等特点，直接套用针对关系型数据设计的主流k-匿名模型，存在信息损失大，数据效用性低等问题。

(2)由于记录之间存在关联性，比如遗传关系，并发症关系等，这大大增加了攻击者的背景知识，直接应用另一种隐私主流模型—差分隐私，无法达到预期的隐私要求。

(3)因为准标识符属性和敏感属性之间也存在关联性，除了要对敏感属性进行隐私保护之外，还应该对关联的准标识符属性进行隐私保护操作，但是如何在保护这些准标识符属性的同时确保数据的效用性目前也是一大挑战。

现在针对医疗行业的隐私保护方法研究中，除了对基因组关联数据有相关的隐私保护算法之外，电子医疗数据的隐私保护技术主要还是应用K-匿名，L-多样性，ρ-不确定性，差分隐私以及它们的扩展，但是并没有考虑数据之间的关联性。由于电子医疗数据中的关联性又确确实实是存在的，如果忽略这些关联性，这会大大增加攻击者的背景知识，造成隐私泄露。最近关于关联数据隐私保护的研究主要有：Yang et a提出的贝叶斯差分隐私，通过定义贝叶斯差分隐私泄露来确定隐私预算ε；Zhu et al提出的关联差分隐私，通过计算关联灵敏度来确定添加噪声的大小。但是由于电子医疗数据的特点，这些处理关联数据的隐私保护方法并不能直接运用到关联医疗数据。

发明内容

本发明所要解决的是现有关联数据的隐私保护方法并不能直接运用到关联医疗数据的问题，提供一种关联医疗数据中的自适应差分隐私保护方法。

为解决上述问题，本发明是通过以下技术方案实现的：

关联医疗数据中的自适应差分隐私保护方法，包括步骤如下：

步骤1、用户针对原始医疗数据集提出查询请求；

步骤2、判断用户查询的是准标识符属性还是查询敏感属性；当用户查询的是准标识符属性时，转至步骤3A，采用局部差分隐私保护策略；当用户查询的是敏感属性时，转至步骤3B，采用全局差分隐私保护策略；

步骤3A、局部差分隐私保护策略：

步骤3A-1、运用粗糙集理论对准标识符和敏感属性进行关联性分析，确定原始医疗数据集中所有准标识符属性是否与敏感属性有关系；

步骤3A-2、根据用户查询的准标识符属性，将原始医疗数据集中的满足查询请求的医疗记录进行分类：当该条满足查询请求的医疗记录中含有与敏感属性有关的准标识符属性时，将该条满足查询请求的医疗记录归入需要保护的数据子集中；否则，将该条满足查询请求的医疗记录归入不需要保护的数据子集中；

步骤3A-3、对需要保护的数据子集中的医疗记录加入拉普拉斯噪声后，返回给用户，对不需要保护的数据子集中的医疗记录直接返回给用户；

步骤3B、全局差分隐私保护策略：

步骤3B-1、计算原始医疗数据集中的满足查询请求的医疗记录的关联敏感度

步骤3B-2、根据给定的总的隐私预算确定每个敏感属性的隐私预算ε_i；

步骤3B-3、对原始医疗数据集中的满足查询请求的医疗记录加入噪声后，返回给用户。

与现有技术相比，本发明针对查询的属性类型进行不同的隐私保护策略：对于准标识符属性，考虑准标识符属性和敏感属性的关联性，我们运用粗糙集理论，分析准标识符属性和敏感属性的关联性，并根据关联性对准标识符属性进行局部差分隐私，提高了数据的效用性；对于敏感属性，考虑记录与记录之间的关联性，采用关联差分隐私计算敏感属性的相关敏感度然后根据敏感属性分配不同的隐私预算ε_i，在统计查询的时候加入拉普拉斯噪声实现自适应差分隐私。本发明能够有效提高医疗数据的隐私保护的安全性。

附图说明

图1为关联医疗数据中的自适应差分隐私保护方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。

本发明研究是面向交互式计数查询，即用户向***提出查询请求，***对需要的保护的对象添加噪声后，返回查询结果给用户。由于面向交互式查询都是针对原始医疗数据集进行查询，因此本发明对准标识符属性和敏感属性采取不同的保护策略：针对准标识符属性，本发明采用局部差分隐私保护策略；针对敏感属性，本发明采用自适应的差分隐私保护策略。

参见图1，一种关联医疗数据中的自适应差分隐私保护方法，具体包括步骤如下：

步骤1：用户提出查询请求。在表1所示的原始医疗数据集中，姓名为ID，性别、年龄和体温为准标识符属性，疾病为敏感属性。

	姓名	性别	年龄	体温	疾病
						1	Bob	F	25	高	流感
2	Alice	F	8	正常	癌症
						3	Mike	M	35	正常	心脏病
4	Lonia	M	21	高	癌症
						5	Jasper	F	13	正常	心脏病
6	Jake	F	41	非常高	流感
						7	Linda	M	56	高	癌症
8	Helen	F	60	正常	流感
						9	David	M	37	非常高	心脏病

表1原始表数据

步骤2：判断用户是查询准标识符属性还是查询敏感属性。如果查询准标识符属性，采用针对准标识符属性的局部差分隐私保护策略；如果查询的是敏感属性，采用针对敏感属性的全局差分隐私保护策略。

(1)针对准标识符属性采用局部差分隐私保护策略：

步骤3：虽然准标识符属性为非敏感属性，但是有的准标识符属性会增加敏感属性泄露的概率，此时就认为是敏感的。比如用户Bob患有流感，年龄这个属性与流感没有关联性，那么用户Bob年龄这个属性就是非敏感的，但是用户Alice患有癌症，年龄这个属性与癌症有很大关联性，那么用户Alice年龄这个属性是敏感的，因此，需要针对原始表数据中的每种疾病，运用粗糙集理论对准标识符属性和敏感属性进行关联性分析，得到和每种疾病有关的准标识符属性有哪些，比如我们查询表1中前3条医疗记录年龄在20-40岁之间的有多少人，我们首先根据每个用户所患的疾病，分析出哪些用户年龄这个属性是敏感的。首先分析的是第1条医疗记录，第1条医疗记录的用户Bob患有流感，我们要根据粗糙及理论确定年龄这个属性和流感有没有关联性，第2条医疗记录，第3条医疗记录做法相同，具体做法如下：

步骤3.1：对原始医疗数据集中的一些属性根据粗糙集理论定义。在粗糙集理论中，准标识符属性叫做条件属性，敏感属性叫做决策属性。在本实施例中，针对第1条医疗记录中流感这个疾病，原始表中用户集合为U＝{e₁,e₂,e₃,…,u₉}，条件属性集合为C＝{性别，年龄，体温}，决策属性为D＝{流感}，令C₁＝性别，C₂＝年龄，C₃＝体温。下面的步骤都是围绕流感这个属性进行处理，找到和流感有关的敏感属性有哪些。

步骤3.2：对每个属性进行分类。在本实施例中，性别可以分为两类(男性和女性)；年纪可以分为三类(0-20岁，21-40岁，41-60岁)；体温可以分为三类(正常，高，非常高)；疾病可以分为两类(患有流感，不患有流感)。得到U/C₁＝{{e₃,e₄,e₇,e₉},{e₁,e₂,e₅,e₆,e₈}}，U/C₂＝{{e₂,e₅},{e₁,e₃,e₄,e₉},{e₆,e₇,e₈}}，U/C₃＝{{e₂,e₃,e₅,e₈},{e₁,e₄,e₇},{e₆,e₉}}，U/D＝{{e₁,e₆,e₈},{e₂,e₃,e₄,e₅,e₇,e₉}}。

步骤3.3：获取知识库集合。这三个分类的交集的集合，表示为U/C＝{{e₁},{e₂},{e₃,e₄,e₉},{e₅},{e₇},{e₆,e₈}}，知识库就是U/C以及U/C中的集合的并集。比如：U/C₁中{e₁,e₂,e₅,e₆,e₈}表示女性，U/C₂中{e₂,e₅}表示年龄在0-20岁之间的人，那么这两个集合的并集{e₂,e₅}则表示年龄在0-20岁之间的女性，这就是一个知识。

步骤3.4：删除年龄这个属性，得到另一个知识库。步骤同上。

步骤3.5：判断年龄这个属性是否和流感有关联。在原始医疗数据集中，患流感这个疾病的记录的集合是{e₁,e₆,e₈}，如果在这两个知识库里{e₁,e₆,e₈}的上下近似都是{e₁,e₆,e₈}，那么说明年龄这个属性和敏感属性流感没有关系，反之，就是有关系。

上下近似是粗糙集里边的概念。有些集合在知识库中无论怎么求交集，并集都无法得到，所以就有了上近似，下近似的概念。下近似集是在知识库中的集合中求交得到的。上近似则是知识库中的集合求并得到的。比如：合{e₁,e₆,e₇}，不管在知识库如何交，并都没办法得到，那么通过交集运算得到它的下近似为{e₆,e₇}，通过并集运算得到它的上近似为{e₁,e₂,e₆,e₇}。

步骤4：根据用户查询的准标识符属性，将原始医疗数据集分为两类，一类是需要保护的数据子集，该数据子集中的医疗记录中含有与敏感属性有关的准标识符属性；一类是不需要保护的数据子集，该数据子集中的不含有与敏感属性有关的准标识符属性。

比如，查询表1中前3条医疗记录年龄在20-40岁之间的有多少人，由上面可知，第1条医疗记录的年龄是非敏感的，第2条医疗记录和第3条医疗记录的年龄是敏感的，所以第1条医疗记录是不需要保护的数据子集，第2条医疗记录和第3条医疗记录是需要保护的数据子集。

步骤5：局部加噪。对需要保护的集合的查询结果加入Laplace(拉普拉斯)噪声，对不需要保护的集合不加噪。

Laplace的参数有2个：一个是尺度参数，根据查询敏感度和隐私预算确定，等于查询敏感度除以隐私预算；一个是位置参数，默认为0。位置参数都默认为0，尺度参数是根据查询敏感度和隐私预算确定的，尺度参数为查询敏感度除以隐私预算。此处，查询敏感度为1，隐私预算是给定的。

步骤6：返回计数结果给用户。

(2)针对敏感属性采用全局差分隐私保护策略：

步骤3：获取关联度矩阵。获取关联度举证就是分析记录之间的关联程度。这个可以通过我们的背景知识和数据特征以各种方法完成，最典型的一种就是我们已经知道这个关联度矩阵，作为背景知识。

例如：用户查询表中患有心脏病的人数，通过背景知识知道了这些患有心脏病的人相互之间的关联度，得到一个关联度矩阵△，δ∈△。

这里有：1)δ_ij＝δ_ji，表示两条记录之间的关联性与它们的顺序无关；2)对角上的元素为1，表示每条记录与自己是完全相关的；3)阈值δ₀是为了来消除弱的关联性，在△中，|δ_ij|≥δ₀，如果|δ_ij|＜δ₀，则令δ_ij＝0；4)只有部分是相互关联的。

步骤4：计算关联敏感度。

步骤4.1：计算每条记录的记录敏感度。

对于一个关联度矩阵三角形和一个查询Q，第i条记录的记录敏感度为：

其中Q(D^j)表示对数据集D进行查询，Q(D^-j)表示对与数据集D相差一条记录j的删除数据集进行查询，n是数据集D的记录条数，δ_ij表示第i条记录与第j条记录的关联度，δ_ij∈△，记录敏感度表示当前记录r_i，对数据集中所有记录的影响。这个概念结合了相关记录的数量和相关程度，当数据集D是相互独立的，那么记录敏感度CS_i等于全局敏感度。

步骤4.2：计算所有记录的关联敏感度。

关联敏感度是所有记录敏感度的最大值。对于一个查询Q，关联敏感度等于最大记录敏感度：

其中q是查询Q的记录集合。

步骤5：计算每种疾病分配的隐私预算ε_i。

虽然敏感属性是需要被保护的，但由于敏感程度的不同，如果都加入相同的噪声，也就是都分配相同的隐私预算，那么可能对敏感程度低的造成过保护，对敏感程度高的保护力度不够。我们根据疾病的分布进行隐私预算分配，对于疾病属性，我们有理由相信疾病出现的频率越高，那么它的敏感程度越低。由此，我们假设总的隐私预算为ε，数据集大小为n，每种疾病出现的频数为m_i，那么对于第i种疾病所分得的隐私预算为：

式中，m_i为敏感属性在原始医疗数据集中出现的频数；n为原始医疗数据集中敏感属性的个数；ε为总的隐私预算。

从这里可以看出，疾病出现的频数越高，所分的隐私预算越大。这是因为疾病出现的频数越高，其敏感程度越低，根据差分隐私的定义，隐私预算越大，则隐私程度越低，所加的噪声越小。

步骤6：在准确计数结果上加入拉普拉斯噪声。

根据步骤4计算的关联敏感度和步骤5计算的隐私预算ε_i，确定加入的噪声为：

步骤7：返回计数结果给用户。

比如：我们查询前9条医疗记录中有多少人患有心脏病，通过步骤4计算得到它的关联敏感度为通过步骤5计算得到它所分得的隐私预算为ε_i，通过步骤6得到我们的计数查询结果为如表2所示：

表2计数查询

由于电子医疗数据之间的关联性是确实存在的，所以在实施隐私保护的时候考虑其关联性是有必要的。针对属性与属性之间的关联性导致的隐私问题，利用粗糙集理论对准标识符与敏感属性的关联性进行了分析，提出局部差分隐私的方法来实现对准标识符的保护，相比传统的差分隐私，保证了数据的效用性；针对记录与记录之间的关联性导致的隐私泄露问题以及不同疾病的敏感程度不同导致的数据效用性问题，提出自适应差分隐私保护方法来实现对敏感属性的保护。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.关联医疗数据中的自适应差分隐私保护方法，其特征是，包括步骤如下：

步骤1、用户针对原始医疗数据集提出查询请求；

步骤3A、局部差分隐私保护策略：

步骤3B、全局差分隐私保护策略：