CN111125736A

CN111125736A - 基于隐私保护交集计算协议的致病基因检测方法

Info

Publication number: CN111125736A
Application number: CN201911353298.3A
Authority: CN
Inventors: 翁健; 田美金; 刘志全; 马建峰; 杨雅希; 黄昱铭; 王伟聪; 张怡
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

本发明公开了一种基于隐私保护交集计算协议的致病基因检测方法，首先采用布隆过滤器过滤掉不存在于服务器和客户端两方所持有集合的交集中的元素；然后通过简单哈希映射将服务器的元素映射到哈希桶，通过布谷鸟哈希映射将客户端的元素映射到二维哈希表；接着对每个桶中的元素执行N选一ROT扩展协议，将服务器生成的加密序列发送给客户端，将客户端的输出与服务器的加密序列进行交集计算，将经过过滤和哈希映射的客户端集合与计算结果进行比对，最终得出两方的交集元素且***露任意方除交集之外的信息。本发明能够保证基因检测的安全性，减少运行时间和通信开销。

Description

基于隐私保护交集计算协议的致病基因检测方法

技术领域

本发明涉及安全多方计算技术领域，特别涉及一种基于隐私保护交集计算协议的致病基因检测方法。

背景技术

随着现代医学的进步，人类全基因组测序技术变得越来越高效、精确且低价，获取个人的基因组数据越来越容易。由于包含个人的重要敏感信息，如遗传、疾病、亲属、身份等，基因组数据被广泛用作生物学系列测试，如遗传相容性测试、个性化医疗、疾病检测、亲子鉴定等。此外，现阶段关于基因数据使用环境尚不完善，基因测序市场混乱不堪，使得基因数据共享过程中的隐私安全存在极大的隐患。

在现有的基因测序研究中，Baldi等人[P.Baldi,R.Baronio,E.De Cristofaro,P.Gasti,and G.Tsudik,“Countering GATTACA:Efficient and secure testing offully-sequenced human genomes,”in Proceedings of the 18th ACM conference onComputer and communications security,2011 ACM,pp.691-702.]提出基于非对称加密的隐私集合交集计算(Private Set Intersection,PSI)方案进行遗传相容性测试、亲子鉴定、个性化医疗等领域的隐私保护工作，但基于公钥加密的设计使得执行该方案需要较长的运行时间。Shen等人[L.Shen,R.Baronio,X.Chen,and D.Wang,“Efficient and PrivateSet Intersection of Human Genomes,”in 2018 IEEE International Conference onBioinformatics and Biomedicine,2018 BIBM,pp.761-764.]提出基于权衡的哈希和N选一随机不经意传输(Random Oblivious Transfer,ROT)扩展协议的PSI方案进行亲子鉴定遗传测试，该方案主要基于对称加密操作而仅含少量公钥加密操作，其运行时间和通信开销相比基于公钥加密的方案大幅下降，但该方案会泄露部分哈希桶的索引，可能存在潜在的安全问题。因此，有必要研究出能够克服上述问题的新的基因检测方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于隐私保护交集计算协议的致病基因检测方法，此方法能够保证基因检测的安全性，减少运行时间和通信开销。

本发明的目的通过下述技术方案实现：一种基于隐私保护交集计算协议的致病基因检测方法，包括步骤：

S1、将持有致病基因组序列集合的检测机构作为服务器S，所持有的集合用X表示，集合大小用n₁表示；将持有全基因组序列集合的被检测者作为客户端C，所持有的集合用Y表示，集合大小用n₂表示；

服务器S对集合X中所有元素编码后采用若干个不同的哈希函数映射到一维位向量表中，产生布隆过滤器B_X并发送给客户端C；客户端C对集合Y中所有元素编码进行相同的哈希映射，通过布隆过滤器B_X过滤掉不存在于集合X和集合Y这两个集合交集中的元素，客户端C过滤后的集合用Y'表示，集合大小用n₃表示；

S2、服务器S采用简单哈希的映射方式，使用e个随机均匀的哈希函数将集合X中每个元素映射到b个哈希桶中的e个位置上，而无视桶中是否已存在其他元素，即每个元素有e个位置；客户端C采用布谷鸟哈希的映射方式，使用相同的e个哈希函数将集合Y'中每个元素映射到含有b个哈希桶的二维哈希表中，每个元素在哈希表中仅有一个位置；

S3、映射完成之后，分别对每个桶中的元素执行m次N选一ROT扩展协议，执行完成后服务器S输出N个加密序列，客户端C输出N个加密序列中的一个加密序列；

S4、将服务器S生成的加密序列发送给客户端C，然后将客户端C的输出与服务器S的加密序列进行交集计算，从而获得集合X和集合Y'的交集的全部密文数据；将集合Y'中的元素采用与步骤S2中相同哈希映射方式进行映射并与密文数据进行比对，推得对应交集的明文元素；最终，服务器S输出为空，客户端C输出X∩Y'。

优选的，所述的全基因组序列集合存储在VCF文本中，该文本包含每条基因序列相对于公共参照序列所有的突变位点，将双方基因序列中的四种碱基分别编码为00、01、11、10，编码后的两方数据集合为规模不同的二进制序列集合。

优选的，所述的步骤S1中生成的布隆过滤器是一个位向量表示的数据结构，所有bit位均初始化为0，将元素通过若干哈希函数分别映射到位向量表中，并将对应bit位的0置为1；判断某元素是否存在集合中的决策如下：

(1)将该元素通过相同的哈希函数映射到位向量表中；

(2)若存在对应的bit位为0，则该元素一定不存在集合中；

(3)若所有对应的bit位均为1，则该元素可能存在集合中。

优选的，所述的布谷鸟哈希是采用e个哈希函数将每个元素映射到b个哈希桶中，每个元素只映射到b个桶中的一个位置上，具体的映射策略如下：

(1)若映射的e个位置全为无元素的空桶，则采用哈希函数在任选一个位置***；

(2)若e个位置有一个或多个为空桶，则采用哈希函数在任选一个空桶***；

(3)若e个位置全都存储了其他元素且存在未满4个元素的桶，则采用哈希函数在任选一个未满4个元素的桶***；

(4)若e个位置全都存储了4个元素，则任选一个桶踢出原来的某个元素，并通过对应的哈希函数***新元素，然后对被踢出的元素循环调用该算法，采用其他哈希函数***到新的位置，直到***成功。

优选的，在步骤S3中，当执行次数为i时，1≤i≤m，执行该次N选一ROT扩展协议的具体过程如下：

S31、服务器S向N选一ROT扩展协议接收方输入为空，客户端C向N选一ROT扩展协议接收方输入二维哈希表的每个桶中的元素r[i]∈{0,...,N-1}并作为N选一ROT扩展协议接收方的选择向量；

S32、执行κ次基础2选一OT协议，客户端C持有κ个随机密钥对

服务器S持有选择向量s←{0,1}^κ并输出

其中j表示执行基础2选一OT协议的次序，1≤j≤κ，s[j]表示第j次执行基础2选一OT协议时服务器S的选择向量，κ表示对称密码机制的安全参数，

和

分别表示第j次执行基础2选一OT协议时客户端C持有的随机密钥对之一；

S33、客户端C计算两个m×κ矩阵T、U，矩阵T的第j列元素

其中

表示伪随机生成器，m表示矩阵的行数，κ表示矩阵的列数；矩阵U的第j列元素

其中

表示异或运算；随后客户端C计算矩阵V，其第i行元素

其中，u_i表示矩阵U第i行元素，w_r[i]＝{w₀,...,w_N-1}为一组公开线性错误纠正码的集合，并将矩阵V发送给服务器S；

S34、服务器S计算m×κ矩阵Q，其第j列元素

表示矩阵V的第s[j]行、第j列元素，

表示第j次执行基础2选一OT协议时服务器S的输出；其第i行元素q_i满足

其中，t_i表示矩阵T第i行元素，s表示服务器S持有的选择向量，⊙表示同或运算；

服务器S输出N个加密序列

其中，加密序列

表示随机预言机，l表示执行协议后输出加密序列的二进制位数，客户端C输出一个加密序列R(t_i)，该加密序列为将矩阵T第i行元素进行随机预言机

运算的结果；

S35、当存在假设的整数d'∈{0,...,N-1}使得元素r[i]＝d'时，通过如下公式验证客户端C输出的加密序列R(t_i)是否等于服务器S输出的任意一个加密序列

优选的，在步骤S4中，将服务器S生成的加密序列发送给客户端C，然后将客户端C的输出与加密元素进行交集计算，从而获得集合X和集合Y'的交集的全部密文数据，过程如下：

S41、客户端C将相应桶中的二进制位长σ的元素y转换为十进制，然后作为第i次N选一ROT扩展协议的输入选择向量，其中N＝2^σ，1≤i≤m，m表示N选一ROT扩展协议的执行次数；执行完该次N选一ROT扩展协议后，客户端C输出序列

服务器S将其相应桶的每一个元素x均转换为十进制，然后将元素与服务器S所输出的对应加密序列协同计算，生成M_b个加密序列

计算公式如下：

其中，M_b表示哈希表中的最大桶容量；q_i表示矩阵Q第i行元素；w_x表示公开线性错误纠正码集合{w₀,...,w_N-1}中的某个元素；s表示服务器S持有的选择向量。

S42、服务器S将其生成的M_b个加密序列随机置换后发送给客户端C，客户端C通过逐个比较

与

是否相等，以此判断客户端C某个桶中的元素是否存在于服务器S的对应桶中以及判断元素y是否为双方交集元素，在相等的情况下元素y即为交集元素；当执行完比较步骤，即可得到交集的全部密文数据。

更进一步的，为了确保数据隐私，所述的步骤S41中桶的元素x包括哑元，服务器S采用哑元将生成的哈希表中每个桶填充至最大桶容量M_b。

更进一步的，所述哑元为随机数。

更进一步的，在判断元素x与元素y是否相等时，对于判断的正确性情况具体如下：

(1)当x＝y时，相同元素执行ROT扩展协议后产生的加密输出一致，因此交集计算能够正确判断两个元素相等；

(2)当x≠y时，错误判断两个元素加密输出相等的概率为1/2^l，其中，l表示执行N选一ROT扩展协议后输出加密序列的二进制位数；因而双方桶中任意元素相等的概率为en₁n₃/2^l，其中，e表示哈希函数的个数，n₁和n₃分别表示集合X和集合Y'的大小，即双方桶中任意元素不相等的概率为1-en₁n₃/2^l；为确保正确性，使得双方桶中任意元素不相等的概率为1-1/2^λ，其中，λ表示统计学意义上的安全参数，因此执行ROT扩展协议后加密元素的二进制位长l需满足如下公式：

l＝λ+log₂(en₁)+log₂(n₃)。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于隐私保护交集计算协议的致病基因检测方法，首先采用布隆过滤器过滤掉不存在于服务器和客户端两方所持有集合的交集中的元素；然后通过简单哈希映射将服务器的元素映射到哈希桶，通过布谷鸟哈希映射将客户端的元素映射到二维哈希表；接着对每个桶中的元素执行N选一ROT扩展协议，将服务器S生成的加密序列发送给客户端，将客户端C的输出与服务器S的加密序列进行交集计算，将经过过滤和哈希映射的客户端集合与计算结果进行比对，最终得出两方的交集元素。本发明方法采用基于N选一的ROT扩展协议的隐私集合交集计算方式，通过该隐私保护交集计算协议能够使客户端计算出本地数据和服务器端的数据的基因序列集合的交集结果，同时服务器端也不会知道客户端的序列集合，并且客户端也无法知道服务器端交集之外的基因序列内容，因此，被检测者除了致病基因之外的其他基因序列能够保证不被泄露出去，进一步保证基因数据的安全性和隐私保护，同时提升基因检测的综合性能。

(2)本发明方法可针对致病基因检测应用场景，在规模相差较大的服务器和客户端这两方数据集中采用布隆过滤器能过滤掉多余元素，减少绝大部分运行时间和通信开销。

(3)本发明方法采用布谷鸟哈希映射的方式将每个元素映射到二维哈希表，并且每个元素在哈希表中都有对应的唯一位置，因此可以避免哈希表的空间浪费，大大提高了哈希表的空间利用率。

附图说明

图1是本发明基于隐私保护交集计算协议的致病基因检测方法的过程示意图。

图2是本发明布隆过滤器的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种基于隐私保护交集计算协议的致病基因检测方法。其中，如图1所示，本实施例主要包括两方元素，即服务器(Server)和客户端(Client)。服务器端持有致病基因组序列集合，该集合中包括了疾病相关的基因序列，客户端持有全基因组序列集合，该集合中包括了被检测者自己的全基因组序列。基于客户端想要计算出本地数据和服务器端的数据的基因序列集合的交集结果，同时不能够让服务器端知道客户端的序列集合，并且客户端也无法知道服务器端交集之外的基因序列内容，本实施例致病基因检测方法的过程如下：

S1、将持有致病基因组序列集合的检测机构作为服务器S，所持有的集合用X表示，集合大小用n₁表示。将持有全基因组序列集合的被检测者作为客户端C，所持有的集合用Y表示，集合大小用n₂表示。

服务器S对集合X中所有元素编码后采用若干个不同的哈希函数映射到一维位向量表中，产生布隆过滤器B_X并发送给客户端C。

客户端C对集合Y中所有元素编码进行相同的哈希映射，通过布隆过滤器B_X可以过滤掉大部分不存在于集合X和集合Y这两个集合交集中的元素。客户端C过滤后的集合用Y'表示，集合大小用n₃表示。

所述的全基因组序列集合存储在变异识别格式(Variant Call Format，VCF)文本中，VCF文本包含每条基因序列相对于公共参照序列所有的突变位点，将双方基因序列中的四种碱基分别编码为00、01、11、10，编码后的两方数据集合为规模不同的二进制序列集合。

如图2所示，所述生成的布隆过滤器是一个位向量表示的数据结构，所有bit位均初始化为0，将元素例如x₁、x₂和y通过若干哈希函数例如Hash₁(x₁)、Hash₁(x₂)、Hash₁(y)、Hash₂(x₁)、Hash₂(x₂)、Hash₂(y)、Hash₃(x₁)和Hash₃(x₂)、Hash₃(y)分别映射到一维位向量表中，并将对应bit位的0置为1；判断某元素是否存在集合中的决策如下：

(1)将该元素通过相同的哈希函数映射到位向量表中；

(2)若存在对应的bit位为0，则该元素一定不存在集合中；

(3)若所有对应的bit位均为1，则该元素可能存在集合中。

在本实施例中，对于存在于服务器X集合中的元素，通过布隆过滤器一定不会漏报，即布隆过滤器的假阴性概率为0。采用布隆过滤器方法能够将集合Y的大小由n₂降为n₃，其中n₃与集合X的大小n₁相近，因而能够显著降低基因序列比对过程的运行时间和通信开销。

S2、服务器S采用简单哈希的映射方式，使用e个随机均匀的哈希函数将集合X中每个元素映射到b个哈希桶中的e个位置上，而无视桶中是否已存在其他元素，即每个元素有e个位置。

客户端C采用布谷鸟哈希的映射方式，使用相同的e个哈希函数将集合Y'中每个元素映射到含有b个哈希桶的二维哈希表中，每个元素在哈希表中仅有一个位置。具体的映射策略如下：

(4)若e个位置全都存储了4个元素，则任选一个桶踢出原来的某个元素，并通过对应的哈希函数***新元素，然后对被踢出的元素循环调用该算法，采用其他哈希函数***到新的位置，直到***成功。例如，如果第一个哈希函数映射成功，新元素成功***桶中，则无需再调用第二个哈希函数，如果该元素后来被踢出，才需要用第二个哈希函数重新找到它的新位置，以此类推调用第三、第四、第e个哈希函数。

S3、映射完成之后，分别对每个桶中的元素执行m次N选一ROT扩展协议，执行完成后服务器S输出N个加密序列，客户端C输出N个加密序列中的某一个加密序列。

在本实施例中，当执行次数为i时，1≤i≤m，执行该次N选一ROT扩展协议的具体过程如下：

S32、执行κ次基础2选一OT协议，客户端C持有κ个随机密钥对

服务器S持有选择向量s←{0,1}^κ并输出

和

分别表示第j次执行基础2选一OT协议时客户端持有的随机密钥对之一；

S33、客户端C计算两个m×κ矩阵T、U，矩阵T的第j列元素

其中

其中

表示异或运算；随后客户端C计算矩阵V，其第i行元素

S34、服务器S计算m×κ矩阵Q，其第j列元素

表示矩阵V的第s[j]行、第j列元素，

服务器S输出N个加密序列

其中，加密序列

运算的结果；

实际上，本实施例执行N选一ROT扩展协议的结果必然会使上述公式成立。

S4、将服务器S生成的加密序列发送给客户端C，然后将客户端C的输出与服务器S的加密序列进行交集计算，从而获得集合X和集合Y'的交集的全部密文数据；

将集合Y'中的元素采用与步骤S2中相同哈希映射方式进行映射并与密文数据进行比对，推得对应交集的明文元素；最终，服务器S输出为空，客户端C输出X∩Y'。

其中，将服务器S生成的加密序列发送给客户端C，然后将客户端C的输出与服务器S的加密序列进行交集计算，从而获得集合X和集合Y'的交集的全部密文数据的过程如下：

计算公式如下：

其中，M_b表示哈希表中的最大桶容量；w_x表示公开线性错误纠正码集合{w₀,...,w_N-1}中的某个元素。

为了确保数据隐私，桶的元素x包括哑元，服务器S采用哑元将生成的哈希表中每个桶填充至最大桶容量M_b。本实施例的哑元为随机数。

与

在判断元素x与元素y是否相等时，对于判断的正确性情况具体如下：

l＝λ+log₂(en₁)+log₂(n₃)。

可通过各种手段实施本发明描述的技术。举例来说，这些技术可实施在固件、软件或其组合中。对于固件和/或软件实施方案，可用执行本文描述的功能的模块(例如，过程、步骤、流程等)来实施所述技术。固件和/或软件代码可存储在存储器中并由处理器执行。存储器可实施在处理器内或处理器外部。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，所述的全基因组序列集合存储在VCF文本中，该文本包含每条基因序列相对于公共参照序列所有的突变位点，将双方基因序列中的四种碱基分别编码为00、01、11、10，编码后的两方数据集合为规模不同的二进制序列集合。

3.根据权利要求1所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，所述的步骤S1中生成的布隆过滤器是一个位向量表示的数据结构，所有bit位均初始化为0，将元素通过若干哈希函数分别映射到位向量表中，并将对应bit位的0置为1；判断某元素是否存在集合中的决策如下：

(1)将该元素通过相同的哈希函数映射到位向量表中；

(2)若存在对应的bit位为0，则该元素一定不存在集合中；

(3)若所有对应的bit位均为1，则该元素可能存在集合中。

4.根据权利要求1所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，所述的布谷鸟哈希是采用e个哈希函数将每个元素映射到b个哈希桶中，每个元素只映射到b个桶中的一个位置上，具体的映射策略如下：

5.根据权利要求1所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，在步骤S3中，当执行次数为i时，1≤i≤m，执行该次N选一ROT扩展协议的具体过程如下：

S32、执行κ次基础2选一OT协议，客户端C持有κ个随机密钥对

服务器S持有选择向量s←{0,1}^κ并输出

和

S33、客户端C计算两个m×κ矩阵T、U，矩阵T的第j列元素

其中G:

其中

表示异或运算；随后客户端C计算矩阵V，其第i行元素

S34、服务器S计算m×κ矩阵Q，其第j列元素

表示矩阵V的第s[j]行、第j列元素，

服务器S输出N个加密序列

其中，加密序列

0≤d＜N，R:

表示随机预言机，l表示执行协议后输出加密序列的二进制位数，客户端C输出一个加密序列R(t_i)，该加密序列为将矩阵T第i行元素进行随机预言机R:

运算的结果；

6.根据权利要求1所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，在步骤S4中，将服务器S生成的加密序列发送给客户端C，然后将客户端C的输出与加密元素进行交集计算，从而获得集合X和集合Y'的交集的全部密文数据，过程如下：

S41、客户端C将相应桶中的二进制位长σ的元素y转换为十进制，然后作为第i次N选一ROT扩展协议的输入选择向量，其中N＝2σ，1≤i≤m，m表示N选一ROT扩展协议的执行次数；执行完该次N选一ROT扩展协议后，客户端C输出序列

计算公式如下：

与

7.根据权利要求6所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，为了确保数据隐私，所述的步骤S41中桶的元素x包括哑元，服务器S采用哑元将生成的哈希表中每个桶填充至最大桶容量M_b。

8.根据权利要求7所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，所述哑元为随机数。

9.根据权利要求6所述的一种基于隐私保护交集计算协议的致病基因检测方法，其特征在于，在判断元素x与元素y是否相等时，对于判断的正确性情况具体如下：

l＝λ+log₂(en₁)+log₂(n₃)。