CN112328733A

CN112328733A - 基于MinHash函数的中文多关键字模糊排序可搜索加密方法

Info

Publication number: CN112328733A
Application number: CN202011174409.7A
Authority: CN
Inventors: 杨学康; 谢满德; 洪海波
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-05
Anticipated expiration: 2040-10-28
Also published as: CN112328733B

Abstract

本发明提供一种基于MinHash函数的中文多关键字模糊排序可搜索加密方法，节省了存储空间，增强了安全性，提高了效率和准确性。本发明包括如下步骤：步骤A、***建立与初始化；步骤B、加密阶段：建立（n+1）×（m+1）阶的反向索引表，生成n×m阶的反向索引表排序表，构造（Q+1）×（m+1）阶的模糊索引表，以及建立2×m阶的认证标签表，并将这些数据上传到云服务器；步骤C、搜索阶段：数据用户构造中文关键字的陷门，用会话密钥加密后上传云服务器，云服务器进行搜索对比后，返回搜索结果；步骤D、认证阶段：数据用户验证返回的搜索结果；步骤E、解密阶段：数据用户用主密钥解密加密文档集合，得到相关的加密文档。

Description

基于MinHash函数的中文多关键字模糊排序可搜索加密方法

技术领域

本发明涉及一种基于MinHash函数的中文多关键字模糊排序可搜索加密方法。

背景技术

随着云计算的快速发展，大量的敏感数据被存储在云中。云服务器提供高质量的数据存储服务，减少了用户端的数据存储和维护开销。为了保障数据的隐私性，常用的解决办法是对数据进行加密后上传到云服务器进行外包存储。

因此在云服务器上的加密数据的不可读性阻碍了数据的可用性，比如在加密数据上对关键字搜索，为了解决此类问题提出可搜索加密算法(SE)。在此基础上为了提高搜索的效率，由单关键字搜索改进成多关键字搜索。在实际情况下当数据用户在搜索时出现拼写错误时，基于精确关键字的可搜索方案无法返回数据用户感兴趣的搜索结果，基于此多关键字模糊可搜索加密被提出。考虑到返回的搜索结果的隐私性以及查询关键字与加密文档之间的相关性，提出多关键字模糊排序可搜索加密。这些方案的提出都是针对英文关键字的，因此中文多关键字模糊排序可搜索加密的提出解决了中文关键字可搜索加密的问题。此外，云服务器为了节省计算成本返回的搜索结果与查询关键字无关，用户需要对返回的搜索结果进行验证，可验证的中文多关键字模糊排序可搜索加密就是解决这一问题的。

与本发明相关的背景技术、背景算法包括：编辑距离用于标明两个关键字相互转化的操作数，根据操作数枚举出所有可能的模糊关键字构建模糊关键字集，基于编辑距离技术构建的模糊关键字集需要大量的存储空间。为了节省存储空间，利用通配符技术去构造模糊关键字集的方法被提出。相比于构造模糊关键字集，建立模糊索引表在效率上有很大的提高，因此，Locality-Sensitive Hashing函数、MinHash函数、Bloom filter以及自然语言处理模型都被用来处理向量生成的问题，目的就是提高模糊索引表的精确度和效率。三因素排序算法包括欧氏距离算法，关键字频率权重算法以及权重区域得分算法，欧氏距离计算两个向量之间的相识度，关键字频率权重计算关键字在文档中所占的权重，权重区域得分计算关键字在文档中的区域得分。此外，JS相似度算法计算两个集合之间的相识度。反向索引表被用来建立关键字和文档之间的相关性，在已有的方案中反向索引表通常与相关性分数结合排序文档，但是排序的文档不够准确，反向索引表与三因素算法结合使用提高了文档排序的准确性，使得返回的搜索结果更加符合数据用户的需求。因此，这些技术、算法的出现和应用，设计出安全高效的可搜索加密的方案已经成为密码学界关注的热点。

发明内容

本发明的目的在于克服现有技术中存在的上述不足，而提供一种设计合理的基于MinHash函数的中文多关键字模糊排序可搜索加密方法，节省了存储空间，增强了安全性，提高了效率和准确性。

本发明解决上述问题所采用的技术方案是：一种基于MinHash函数的中文多关键字模糊排序可搜索加密方法，其特征在于：包括如下步骤：

步骤A、***建立与初始化，包括如下步骤：

步骤A1、数据属主从文档集合D＝{D₁，D₂，D₃，…，D_n}中提取出中文关键字集合W＝{W₁，W₂，W₃，…，W_m}；

步骤A2、数据属主输入一个安全参数，生成主密钥、会话密钥和随机数；

步骤B、加密阶段：建立(n+1)×(m+1)阶的反向索引表，生成n×m阶的反向索引表排序表，构造(Q+1)×(m+1)阶的模糊索引表，以及建立2×m阶的认证标签表，并将这些数据上传到云服务器；

步骤C、搜索阶段：数据用户构造中文关键字的陷门，用会话密钥加密后上传云服务器，云服务器进行搜索对比后，返回搜索结果；

步骤D、认证阶段：数据用户验证返回的搜索结果；

步骤E、解密阶段：数据用户用主密钥解密加密文档集合，得到相关的加密文档。

本发明所述的反向索引表的建立步骤为：

(1)设定反向索引表第一列(i+1，1)坐标的元素为加密文档EncK(D_i)，1≤i≤n；

(2)设定反向索引表第一行(1，j+1)坐标的元素为加密中文关键字Enc_K(W_j),1≤j≤m；

(3)反向索引表中其余的(i+1，j+1)坐标的元素用相关性分数

填充；

(4)用随机数a乘以

得到掩码标识符

(5)生成反向索引表。

本发明所述的反向索引表排序表的生成步骤为：

(1)设定反向索引表排序表中每一列第一个元素为加密中文关键字Enc_K(W_i)，1≤i≤m；

(2)反向索引表排序表中其余的元素为加密文档Enc_K(D_i)，1≤i≤n；

(3)每一列所有加密文档Enc_K(D_i)按照相关性分数的大小排序；

(4)形成反向索引表排序表。

本发明所述的模糊索引表的构造步骤为：

(1)将中文关键字转化成向量S，使用LCG算法随机化向量S得到向量S′；

(2)用Q个MinHash函数对向量S′进行Q次最小哈希，形成签名向量SV；

(3)设定模糊索引表第一行(1，i)坐标的元素元素为加密中文关键字Enc_K(W_i),1≤i≤m；

(4)

表示的是对中文关键词w_i生成的向量S进行一次最小哈希，获得一个实数R；q表示的是MinHash函数的个数，m表示的是中文关键字的个数；

(5)生成模糊索引表。

本发明所述的认证标签表的建立步骤为：

(1)设定认证标签表第一行(1，i)坐标的元素为加密中文关键字Enc_K(W_i),1≤i≤m；

(2)使用消息认证函数MAC对中文关键字集合W＝{W₁，W₂，W₃，...，W_m}中的每一个中文关键字构造认证标签

设定认证标签表第二行(2，i)为依次排序的认证标签

(3)生成认证标签表。

本发明所述的陷门T_W的构造和加密步骤为：

(1)将中文关键字转化成向量S，使用LCG算法随机化向量S成S′；

(2)用Q个MinHash函数对向量S′进行Q次最小哈希，形成签名向量T；

(3)使用ProbT算法对签名向量T随机化成向量T′；

(4)计算向量T′和向量T之间的欧氏距离d；

(5)根据向量T′、欧氏距离d、需要返回的文档总数num生成陷门T_W；

(6)用会话密钥K_s加密陷门T_W,得到加密的陷门

本发明所述的搜索对比和返回搜索结果步骤为：

(1)使用会话密钥K_s解密加密的陷门

获得欧氏距离d、向量T′、所需文档总数num；

(2)使用Extendevector算法将随机化的签名向量T′转化成集合L；

(3)使用Extendevector算法将模糊索引表中的签名向量SV_i转化成集合L_i′,1≤i≤m；

(4)计算L和L_i′两个集合的相似度JS(L，L_i′)；JS(L，L_i′)≠0，两个集合相似，否则计算签名向量T′和签名向量SV_i之间的欧式距离d′，1≤i≤m；

(5)判断d和d′之间的差值；差值在[-α，α]之间，则相似，否则不相似；α是一个给定的预设值；

(6)如果陷门T_W中的签名向量T′和模糊索引表中的签名向量SV_i相似，则在模糊索引表中找到对应的加密中文关键字Enc_K(W_i)，根据该加密中文关键字Enc_K(W_i)在反向索引表中找到最相关的num个加密文档集合，以及根据加密中文关键字Enc_K(W_i)在认证标签表中找到认证标签

返回给数据用户。

本发明认证阶段的具体步骤为：

数据用户从返回加密文档集合中提取已排序好的num个加密文档D_i，与反向索引表排序表中已排序好的加密文档对比得出一个新的加密中文关键字Enc_K(W′)，在模糊索引表中找到对应的签名向量SV_i；用认证标签生成函数MAC生成查询关键字的认证标签tag_W，判断是否等于返回的认证标签

如果相等，数据用户接受返回的搜索结果，否则数据用户拒绝返回的搜索结果。

本发明与现有技术相比，具有以下优点和效果：

(1)本发明通过建立反向索引表和模糊索引表代替了构建模糊关键字集，并且是支持对搜索结果排序可认证的。基于自然语言处理模型Unigram的中文关键字向量生成算法将中文关键字转化成向量。使用三因素排序算法在关键字和文档之间建立反向索引表，根据反向索引表中计算的相关性分数生成反向索引表排序表。使用MinHash函数构建模糊关键字索引，如果输入的查询关键字和模糊索引表中的签名向量相似，输出的结果就会是用户感兴趣的文档，即使查询的中文关键字存在输入错误。此外，对返回的结果可以通过构建的认证标签表判断搜索结果是否准确。因此，本发明提出的方案是可以实现可认证的模糊中文多关键字排序可搜索加密的。

(2)更加准确的排序结果。本发明通过使用三因素排序算法在关键字和文档之间建立反向索引表，根据三因素算法计算出的相关性分数生成反向索引表排序表，这样极大的提高了排序的准确性。

(3)高效的关键字索引存储。本发明不需要提前构建一个很大的模糊关键字集，只需要将中文关键字转化成向量，然后利用MinHash函数将向量转化成签名向量，以此建立模糊索引表。每一个关键字向量是签名向量，这样极大的减少了计算和存储成本。

(4)搜索结果的可认证。本发明提前建立一个认证标签表，为每一个中文关键字生成一个认证标签，用于数据用户对搜索结果的认证，如果根据搜索结果生成的认证标签与返回的认证标签不符，则数据用户不接收返回的搜索结果，否则接收。这样避免接收无用的搜索结果而降低效率，实现了搜索结果的可认证。

(5)支持文档的动态更新。在现有的方案关键字索引加密算法中都会利用tf～idf值，这样会被文档的动态更新影响到，所以这些方案都不支持动态更新。本发明提出的方案利用关键字频率代替了tf～idf值，避免了文档更新带来的影响。所以方案是支持动态更新的。

(6)抵抗可区分攻击。本发明提出的方案在设计上是隐私保护的，因为是基于概率性陷门的，有助于抵抗可区分攻击，并且保护外包文档和搜索查询的隐私。

(7)仿真实验验证了该方案的有效性。仿真结果表明，该方案实现了基于MinHash函数的中文多关键字模糊排序可搜索加密方案，具有较高的效率和更准确的排序结果，同时支持搜索结果可认证。

具体实施方式

下面通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

本实施例中的一种基于MinHash函数的中文多关键字模糊排序可搜索加密方法，包括如下步骤：

步骤A、***建立与初始化：

步骤A1、数据属主从文档集合D＝{D₁，D₂，D₃，…，D_n}中提取出中文关键字集合W＝{W₁，W₂，W₃，…，W_m}。

步骤A2、数据属主输入一个安全参数r，生成主密钥K、会话密钥Ks和随机数a，其中会话密钥Ks为{0,1}^r—>Ks。

步骤B、加密阶段：数据属主输入随机化的中文关键字向量S′以及文档集合D，建立具有n+1行和m+1列的反向索引表，生成具有n行和m列的反向索引表排序表，构造具有Q+1行和m+1列的模糊索引表，以及建立具有2行和m列的认证标签表，并将这些数据上传到云服务器。

一、反向索引表的建立步骤为：在中文关键字集合和文档集合之间建立一个反向索引表；

(1)设定反向索引表第一列中(i+1，1)坐标的元素为加密文档Enc_K(D_i)，1≤i≤n；

(2)设定反向索引表第一行中(1，j+1)坐标的元素为加密中文关键字Enc_K(W_i),1≤j≤m；

(3)反向索引表中其余的(i+1，j+1)坐标的元素用相关性分数

填充；

关键字频率权重，表示的是关键字w_j在文档D_i中的频率；Z_ij为权重区域得分，表示的是关键字W_i在文档D_i中的权重区域得分；其

表示的是关键字w_j与文档D_i之间的相关性分数；

(4)为了提高安全性掩盖相关性分数

用随机数a乘以

得到掩码标识符

生成的反向索引表如下所示：

用三因素算法构建的反向索引表，文档和关键字之间的相关性计算的更加精确，相比于只用相关性分数构建反向索引表，使得排序结果更加准确。

二、反向索引表排序表的生成步骤为：

(3)每一列所有加密文档Enc_K(Di)按照相关性分数的大小排序；

(4)形成反向索引表排序表：

Enc<sub>K</sub>(W<sub>1</sub>)	Enc<sub>K</sub>(W<sub>2</sub>)	Enc<sub>K</sub>(W<sub>3</sub>)	……	Enc<sub>K</sub>(W<sub>m</sub>)
					Enc<sub>K</sub>(D<sub>1</sub>)	Enc<sub>K</sub>(D<sub>2</sub>)	Enc<sub>K</sub>(D<sub>n</sub>)	……	Enc<sub>K</sub>(D<sub>3</sub>)
Enc<sub>K</sub>(D<sub>2</sub>)	Enc<sub>K</sub>(D<sub>3</sub>)	Enc<sub>K</sub>(D<sub>4</sub>)	……	Enc<sub>K</sub>(D<sub>2</sub>)
					Enc<sub>K</sub>(D<sub>3</sub>)	Enc<sub>K</sub>(D<sub>1</sub>)	Enc<sub>K</sub>(D<sub>2</sub>)	……	Enc<sub>K</sub>(D<sub>n</sub>)
……	……	……	……	……
					Enc<sub>K</sub>(D<sub>n</sub>)	Enc<sub>K</sub>(D<sub>n</sub>)	Enc<sub>K</sub>(D<sub>1</sub>)	……	Enc<sub>K</sub>(D<sub>1</sub>)

。

三、模糊索引表的构造步骤为：

(1)用基于自然语言处理模型Unigram的中文关键字向量生成算法将中文关键字转化成向量S，使用LCG算法随机化向量S得到向量S′；

利用自然语言处理技术永字八法将中文关键字转化成笔画字符串，利用自然语言处理模型Unigram的中文关键字向量生成算法将笔画字符串转化成中文关键字向量S，使用LCG算法随机化向量S得到向量S′，这种解决办法节省了向量的存储空间，提升了转化的准确度。

(2)用Q个MinHash函数对向量S′进行Q次最小哈希，形成签名向量SV，Q∈q；

(3)设定模糊索引表第一行(1，i)坐标的元素为加密中文关键字Enc_K(W_i),1≤i≤m；

(4)

表示的是对中文关键词w_i生成的向量S进行一次最小哈希，获得一个实数；q表示的是MinHash函数的个数，m表示的是中文关键字的个数。

(5)生成的模糊索引表如下所示：

模糊索引表是使用MinHash函数构建的，MinHash函数可以随机化中文关键字向量，并且可以压缩中文关键字向量，因此提高了加密的安全性，节省了存储空间。

四、认证标签表的建立步骤为：

(1)设定认证标签表第一行(1，i)为加密中文关键字Enc_K(W_i),1≤i≤m；

设定认证标签表第二行(2，i)为依次排序的认证标签

(3)生成认证标签表：

认证标签

表示的是W_m的认证标签。

搜索结果的认证采用的技术是消息认证函数MAC，目的在于保证搜索结果的准确性，消息认证函数MAC由中文关键字W_i、签名向量SV_i、加密中文关键字Enc_K(W_i)、num个排序好的加密文档Enc_K(D_num)构成,1≤i≤m。

以上所采用的技术和算法节省了存储空间，增强了安全性，提高了效率和准确性。

步骤C、搜索阶段：数据用户构造中文关键字的陷门T_W，用会话密钥Ks加密后上传云服务器，云服务器进行搜索对比后，返回搜索结果。

一、陷门T_W的构造和加密步骤为：输入随机化向量S′、会话密钥K_s、关键字集合W以及整数num，输出加密的陷门

具体步骤为：

(1)用自然语言处理技术永字八法将查询中文关键字转化成笔画字符串，然后用基于自然语言处理模型Unigram的中文关键字向量生成算法将笔画字符串转化成向量S，使用LCG算法随机化向量S成S′；

(2)用Q个MinHash函数对向量S′进行Q次最小哈希(Q∈q)，形成签名向量，用T表示签名向量；

(3)增强安全性，使用ProbT算法对签名向量T随机化成向量T′；

(4)计算向量T′和向量T之间的d；

(5)根据向量T′、欧氏距离d、需要返回的文档总数num组合成陷门T_W；

(6)用会话密钥K_s加密陷门T_W,得到加密的陷门

发送给云服务器。

二、云服务器搜索对比和返回搜索结果步骤为：云服务器接收数据用户的加密陷门后，解密加密的陷门，计算查询关键字的签名向量与模糊索引表中的签名向量的相似度，如果相似，找到对应的加密的中文关键字，然后根据反向索引表中的相关性分数返回最相关的num个加密文档给数据用户。具体步骤为：

(1)使用会话密钥K_s解密加密的陷门

获得欧氏距离d、向量T′、所需文档总数num；

(2)使用Extendevector算法将随机化的签名向量T′转化成集合L；

(4)计算L和L_i′两个集合的相似度JS(L，L_i′)。JS(L，L_i′)≠0，两个集合相似，否则计算签名向量T′和签名向量SV_i之间的欧式距离d′，1≤i≤m；

(5)判断d和d′之间的差值。差值在[-α，α]之间，则相似，否则不相似；

(6)如果陷门T_W中的签名向量T′和模糊索引表中的签名向量SV_i相似，则在模糊索引表中找到对应的加密中文关键字Enc_K(W_i)，根据该加密中文关键字Enc_K(W_i)在反向索引表中找到最相关的num个加密文档集合X＝Enc_K(D_num)以及根据加密中文关键字Enc_K(W_i)在认证标签表中找到认证标签

返回给数据用户。

步骤D、认证阶段：数据用户验证返回的搜索结果。具体步骤为：

数据用户从返回加密文档集合X中提取已排序好的num个加密文档D_i，与反向索引表排序表中已排序好的加密文档对比得出一个新的加密中文关键字Enc_K(W′)，在模糊索引表中找到对应的签名向量SV_i。用认证标签生成函数生成查询关键字的认证标签tag_W＝MAC(W，SV_i，Enc_K(W′)，X)，判断是否等于返回的认证标签

如果相等，数据用户接受返回的搜索结果，否则数据用户拒绝返回的搜索结果。认证标签生成函数MAC：{0，1}^r×{0，1}^*→{0，1}ⁿ，具有不可逆转性和消息不可伪造性，可以抵抗特定的消息攻击。认证标签生成函数MAC由中文关键字W、签名向量SV_i、Enc_K(W′)、加密文档集合X构成。

步骤E、解密阶段：数据用户用主密钥K解密加密文档集合X＝Enc_K(Dnum)，得到num个最相关的加密文档D_i，1≤i≤n。

用到的算法：

一、关键字向量生成算法：

(1)将中文关键字用永字八法拆分开，变成笔画字符串，在用自然语言处理模型Unigram将笔画字符串拆分成单一的字符；

(2)使用128-bit长度的向量表示关键字笔画字符串。汉字笔画总共有28个，使用28-bit表示第一个字的笔画字符串；

(3)用1—28bit表示28个笔画丶1、丿1、丨1、一1、…，“1”表示的是第一个字；

(4)之后的第2个字，第3个字，第4个字的结构是和第1个字结构一样的；

(5)整个向量的最后16-bit(113—128bit)表示一个字在关键字中的位置和声调，“11”表示的是第一个字的声调是第一声，“22”表示的是第二个字的声调是第二声；

(6)如果单个字符存在于笔画字符串向量中，则将其在笔画字符串向量中的对应位置设置为1，否则对应位置设置为0。

二、LCG算法：

S＝{e₁，e₂，...，e_y}表示一个有y个元素的向量，V：S_y→S′_y表示的是将向量S随机排序成S’。

算法中用到的参数：

参数	m	a	c	X
					性质	模数	乘数	加数	随机数
作用	取模	移位	偏移	作为结果

算法公式：X_n+1＝((aX_n+c)modm)+1，n∈[1，y]，表示的是每下一个随机数是当前随机数向左移动a的倍速位，加上一个c，对m取余后加1，使随机数限制在0～m内，每一个随机数的产生表示的是向量S中元素的位置，第一个X_n是随机产生一个[1，y]之间的数。

k＝1、2、...、y；

X_n+1＝((aX_n+c)mod m)+1；

所以第一个元素是从y个元素中随机选择的，接下来的每一个元素都是根据算法公式从剩下的y-1个元素中选择的，直到y个元素都被选择。

三、ProbT算法：

T＝{t₁，t₂，...，t_y}表表示的是一个包含y个元素的向量，假设每一个元素代表一个与关键字w相关的MinHash值。

初始化向量T′，随机排序Q：T→T′：

对于j＝1，2，...，y：

令U是一个随机变量，取值范围[1，r^l]，

T′。

设定T′_j＝U。因此向量中没有任何元素是相等的。

四、关键字频率权重wf_w，D：

如果tf_w，D＞0，则tf_w，D＝1+logtf_w，D；如果tf_w，D＝0，则wf_w，D＝0，在这里tf_w，D表示的是关键字w在文档D中的频率。

五、权重区域得分Z_ij：

每一个文档有三个区域，分别是标题、摘要、正文。分别设定每一个区域的权重系数为g₁、g₂、g₃，满足条件g₁>g₂>g₃。令V₁＝1表示关键字在区域i中出现过，否则V_i＝0。计算关键字W_j的权重区域得分，如果关键字W_j出现在文档D_i的标题和正文中，而不出现在摘要中，设定V₁＝1，V₂＝0，V₃＝1。因此关键字W_j在文档D_i中的权重区域得分Z_ij＝g₁×V₁+g₂×V₂+g₃×V₃。

六、MinHash函数：

给定q个MinHash函数f_q：S→R，减少向量S的存储空间，并且分配一个实数R去形成签名向量SV。S_a和S_b表示两个不同关键字的向量，MinHash函数应该满足f_q(S_a)≠f_q(S_b)，因此MinHash函数是独立的。

七、欧式距离算法：

给定两个向量A＝{a₁，a₂，...，a_i}，B＝{b₁，b₂，...，b_i}，欧氏距离d表示的是两个向量(A，B)之间的距离。在两个i大小的向量A和B之间距离表示成：

八、JS相似度算法：

在两个集合X和Y之间的JS相识度计算方法：

当且仅当

时，JS(X，Y)＝0。

九、Extendedvector算法：

T＝{t₁，t₂，...，t_n}表示一个包含n个元素的向量。初始化一个空的集合L。算法ExtendedVector E：T→L产生方式如下：

对于j＝1，2，...，n，添加t_j到L中，

Extendedvector是将一个向量转化成一个集合的算法。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所作的举例说明。凡依据本发明专利构思所述的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。