CN106951411B

CN106951411B - 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法

Info

Publication number: CN106951411B
Application number: CN201710181664.6A
Authority: CN
Inventors: 杨旸; 刘佳; 叶少珍; 蔡圣暐; 杨书略; 邹剑
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2019-10-15
Anticipated expiration: 2037-03-24
Also published as: CN106951411A

Abstract

本发明涉及一种云计算中保护数据隐私的快速多关键词语义排序搜索方法，将域加权评分的概念引入文档的评分当中，对标题、摘要等不同域中的关键词赋予不同的权重加以区分；对检索关键词进行语义拓展，计算语义相似度，将语义相似度、域加权评分和相关度分数三者结合，设计了一种三因子排序方法，云服务器能够对搜索结果进行精确的排序并返回给搜索用户；针对可搜索加密方案查询效率不高的缺陷，设计了一种向量分块标记匹配算法，将向量空间模型创建的文档向量分块，生成维数较小的标记向量。本发明可以提高查询效率、降低索引创建时间，并实现语义的密文关键词搜索。

Description

一种云计算中保护数据隐私的快速多关键词语义排序搜索方法

技术领域

本发明涉及云计算领域，特别是一种云计算中保护数据隐私的快速多关键词语义排序搜索方法。

背景技术

随着云计算技术的飞速发展，敏感数据越来越多的存储到云中，如电子邮件、个人健康记录、私人视频和照片、公司财务数据和政府文件等。云服务器提供了高质量的数据存储服务，将数据存储到云中，可以减少用户的数据存储和维护开销。但是数据拥有者和云服务器不在同一个信任域中会使外包数据处于危险之中，为了保护用户的隐私安全，将数据加密后再存储到云服务器是一种常见的解决方法。然而数据经过加密后不再具有原有的特性，当用户需要某些数据时，无法直接在密文中分辨出所需要的数据，在数据量很小的情况下，可以将所有的密文数据下载至本地，解密后在明文中搜索自己想要的数据。然而随着云端数据规模的急剧增长，这种浪费了大量时间开销与带宽功耗的做法显然已经不能满足用户的实际需求，因此，如何在大量密文中搜索到需要的文档成为了一个难题。

在Song等提出通过密钥流加密数据并实现可搜索加密方案后，Wang等提出了单关键词排序搜索方案，通过保序加密对文档的tf-idf(词频-逆文档频率)进行加密，实现对搜索结果的精确排序。Cao等提出了多关键词排序可搜索加密方案，引入了向量空间模型和安全KNN(secure k-nearest neighbor)方法，通过矩阵对索引向量进行加密，并对索引向量和搜索向量计算内积相似度来实现了多关键词的排序搜索。Li等提出了支持布尔查询的可搜索加密方案，将执行“或”、“与”、“非”查询词的权重设置为三组正数递增序列a_i,b_j,c_k，并且序列间满足超递增，即∑a_i＜b₁,∑a_i+∑b_j＜c₁，接着将执行“非”查询词的权重c_k置换成对应的相反数-c_k，则相关度分数大于0的文档即为满足布尔查询的相关文档。但是上述方案没有考虑到文档向量的高度稀疏性，一篇文档中往往只会出现少量的关键词，因此文档向量中会出现大量的0，在检索时，云服务器无法知道哪些是相关文档，因而要对所有的文档进行相似度分数的计算和排序，浪费了大量的时间，降低了方案的查询效率。

用户输入的搜索请求经常会出现拼写错误或格式不匹配的情况，以上方案并不能满足用户的实际需求。因此，Li等实现了关键词的模糊搜索方案，用通配符的方法构造关键词模糊集合，并以编辑距离作为相似度度量标准。Liu等提出了节省存储空间的模糊搜索方案，通过字典来构造模糊集，但是搜索的精确度有所降低。Chai等人首次提出了“半诚实且好奇”的云服务器模型，服务器提供商为了节省计算量和带宽资源，可能仅仅执行了部分搜索操作并返回部分搜索结果，因此，文章提出了基于查找树索引结构的可验证的可搜索加密方案。Wang等利用通配符和索引树，实现了高效的模糊搜索方案。Chuah等为了提高搜索效率，实现了基于BedTree的多关键词模糊搜索方案。Wang等将局部敏感哈希和安全KNN方法(secure k-nearest neighbor)结合，实现了一种新的多关键词模糊搜索方案。Wang等人在关键词模糊搜索的基础上，通过构造符号索引树，提出了可验证的关键词模糊搜索方案。但是以上的模糊搜索方案仅仅考虑了关键词字符上的相似，并没有考虑到关键词语义上的相似。因此，Fu等对文档关键词进行同义词拓展，通过计算内积的方式，实现了支持同义词查询的多关键词排序搜索方案。Xia等为文档集创建倒排索引，利用语义库扩展查询关键词，并且通过一对多保序加密函数对相关度分数进行加密，实现了多关键词语义排序搜索方案。然而，这些语义模糊搜索方案没有将语义相似度参与到文档的评分中，并且忽略了不同域中的关键词的权重差异。

针对目前的密文关键词搜索方案中，查询效率低、索引创建时间长、排序结果不精确等问题，本发明提出了一种可以提高查询效率、降低索引创建时间，并实现语义的密文关键词搜索方案。

发明内容

有鉴于此，本发明的目的是提出一种云计算中保护数据隐私的快速多关键词语义排序搜索方法，可以提高查询效率、降低索引创建时间，并实现语义的密文关键词搜索。

本发明采用以下方案实现：一种云计算中保护数据隐私的快速多关键词语义排序搜索方法，包括数据拥有者、授权用户、私有云服务器以及公有云服务器，具体包括以下步骤：

步骤S1：数据拥有者从明文文档集合F＝(f₁,f₂,…,f_m)中抽取关键词，得到关键词集合W＝(w₁,w₂,…,w_n)；

步骤S2：数据拥有者随机产生一个(n+2)比特的向量S和两个(n+2)×(n+2)维的可逆矩阵{M₁,M₂}，密钥SK由四元组{S,M₁,M₂,u}组成，u是一个正整数并且u|n；接着，数据拥有者生成一个加密文档的密钥sk，将密钥SK、sk发送给授权用户；

步骤S3：创建索引：数据拥有者为每篇文档f_i生成文档向量

若文档f_i中包含关键词w_j，则令

否则令

接着将文档向量

分u块，得到文档标记向量b_i＝(bb₁,bb₂,…,bb_u)与e_i＝(b_i,sid_i)，然后计算关键词w_j在文档f_i中的词频权重wf_t,f、逆文档频率idf_t和域加权得分Z_ij后，将

中1的值置为Z_ij·(wf_t,f×idf_t)；接着对

进行维度扩展，其中第(n+1)位设置成一个随机数ε，第(n+2)位设置成1，那么

表示为

采用安全KNN算法加密文档向量

得到

I_i＝(sid_i,V_i)；其中，

为向量

的***向量；最后，数据拥有者将E＝(e₁,e₂,···,e_m)发送给私有云服务器，将索引集合

上传给公有云服务器；

步骤S4：数据拥有者使用对称加密算法对文档集合F＝(f₁,f₂,…,f_m)进行加密，得到密文集合C＝(c₁,c₂,…,c_m)并上传给公有云服务器；

步骤S5：构建陷门：当授权用户搜索时，首先输入η个搜索关键词Γ＝(q₁,q₂,…,q_s,…,q_η)，接着进行语义扩展，计算原单词q_s和拓展词之间的语义相似度并排序，选取最相关的前σ个拓展词作为最终拓展词，得到语义拓展集合Q＝(q₁,q₂,…,q_η,δ₁,…,δ_σ)及其对应的语义相似度分数SC＝(sc₁,sc₂,…,sc_η,sc_η+1,…,sc_η+σ)；根据语义扩展集Q创建查询向量

若w_j∈Q，则令

否则

将

分为u块，得到查询标记向量接着将查询向量

中的1置为对应的语义相似度分数sc_j，然后将扩展成(n+1)维且第(n+1)位设置为1，用大于0的随机数r对

缩放，并扩展成(n+2)维，第(n+2)位设置成η+σ，因此

表示为

采用安全KNN算法加密查询向量

得到陷门最后，授权用户将查询标记向量

发给私有云服务器，将陷门T_Q上传到公有云服务器；

步骤S6：私有云服务器接收到授权用户发送的查询标记向量

后，将其和文档标记向量b_i＝(bb₁,bb₂,…,bb_u)进行匹配，得到可能包含搜索关键词的候选索引标识符集合SID_∈＝(···,sid_i,···,sid_j,···,sid_z,···)；

私有云服务器将SID_∈上传给公有云服务器，公有云服务器根据索引的标识符sid_i找到对应的安全索引I_i，将对应的V_i和陷门T_Q计算文档的相似度分数，将所有分数排序后，返回前k篇文档给用户；

步骤S7：授权用户使用数据拥有者分发的密钥sk，对返回的top-k篇密文进行解密，获得所需的明文文档集。

进一步地，还包括分别对文档向量和查询向量进行分块，生成维数较小的文档标记向量和查询标记向量，通过文档标记向量和查询标记向量的匹配，快速过滤掉大量无关文档。

进一步地，对文档向量进行分块具体包括以下步骤：

步骤S11：文档向量分为u块，若某个块全为0，则标记值bb_s＝0，否则bb_s＝1，得到文档标记向量b_i＝(bb₁,bb₂,…,bb_u)；

步骤S12：遍历所有文档，得到文档标记向量集合B＝(b₁,b₂,...,b_m)。

进一步地，通过文档标记向量和查询标记向量的匹配具体包括以下步骤：

步骤S21：私有云服务器接收到授权用户发送的查询标记向量后，依次用

中每一位1去匹配e_i中对应的块，即块的标记值bb_s是否为0；

步骤S22：块的标记值bb_s若为0，则说明该文档对应的块没有搜索的关键词，如果为1则将对应的索引标识符sid_i记录下来，得到可能包含搜索关键词的候选索引标识符集合SID_∈＝(···,sid_i,···,sid_j,···,sid_z,···)；

步骤S23：私有云服务器将SID_∈上传给公有云服务器，公有云服务器根据索引的标识符sid_i找到对应的安全索引I_i，将对应的V_i和陷门T_Q计算文档的相似度分数，将所有分数排序后，返回前k篇文档给用户。

进一步地，还包括将文档向量分段，将每一段分别与维度减小的矩阵相乘，具体包括以下步骤：

步骤S31：数据拥有者随机产生一个(n+2)比特的向量S和两个(n+2)×(n+2)维的可逆矩阵{M₁,M₂}，密钥SK由四元组{S,M₁,M₂,u}组成，u是一个正整数并且u|n；

步骤S32：数据拥有者在构建索引时，根据安全KNN算法将文档向量***成

和后，将

和分别分成h段，得到

然后使用密钥SK进行加密，得到和对应的索引I_i＝(sid_i,V_i)；最后，数据拥有者将E＝(e₁,e₂,···,e_m)发送给私有云服务器，将索引集合上传给公有云服务器；

步骤S33：授权用户在生成陷门时也采用步骤S32中构建索引时类似的操作，得到陷门

最后，授权用户将查询标记向量

发给私有云服务器，将陷门T_Q上传到公有云服务器；

步骤S34：公有云服务器在计算相关度分数时，采用的公式如下：

。

进一步地，所述排序采用三因子排序方法，对处于文档不同域中的关键词赋予不同的权重，将语义相似度、域加权评分和相关度分数三者结合，具体包括以下步骤：

步骤S41：计算语义相似度：采用基于信息内容的Resnik算法；

步骤S42：计算域加权评分：给定一系列文档，假定每篇文档有l个域，其对应的权重系数分别是g₁,…g_l∈[0,1]，他们满足：

令s_i为查询和文档的第i个域的匹配得分，其中1和0分别表示是否匹配，于是，域加权评分定义为：

步骤S43：计算相关度分数:基于tf-idf权值计算方法以及tf的亚线性尺度变换方法计算相关度分数。

与现有技术相比，本发明有以下有益效果：

1、本发明能够实现高效的查询效率：本发明针对可搜索加密方案效率不高的缺陷，设计了一种向量分块标记匹配算法，分别对文档向量和查询向量进行分块，生成维数较小的文档标记向量和查询标记向量。通过文档标记向量和查询标记向量的匹配，快速过滤掉大量无关文档，减少了计算文档相似度分数和排序的时间，提高了检索的效率。

2、本发明能够减少索引创建时间：可搜索加密方案创建的文档向量的维度通常很大，所以方案构建索引的时间主要花费在文档向量和矩阵的相乘上。本发明设计了一种向量分段加密算法，将文档向量分段，将每一段分别与维度大大减小的矩阵相乘，这使得此方案的索引构建时间大大减少。

3、本发明能够精确返回排序结果：本发明首次将域加权评分的概念引入文档的评分当中，对处于文档不同域中的关键词赋予不同的权重，解决了现有方案中未考虑关键词位置信息的缺陷，同时实现了语义模糊检索。本发明将语义相似度、域加权评分和相关度分数三者结合，设计了一种三因子排序方法，云服务器能够对搜索结果进行精确的排序并返回给搜索用户。

附图说明

图1为本发明实施例的***框架图。

图2为本实施例索引的创建过程。

图3为本发明实施例中陷门的构建过程。

图4为本发明实施例中当文档数量m＝10，关键词数n＝100，标记向量维度u＝10时，向量分块标记算法的过程。

图5为本发明实施例中当文档数量m＝10时，文档标记向量与查询标记向量匹配算法的过程。

图6为本发明实施例中向量分段加密算法的主要过程。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

图1为本发明实施例的***框架，包含四个实体：数据拥有者，授权用户，私有云服务器和公有云服务器。本实施例的索引和陷门加密采用安全KNN算法加密(可以参考Wong WK,Cheung W L,Kao B,et al.Secure kNN computation on encrypted databases//Proceedings of the ACM Sigmod International Conference on Management ofData.New York,USA,2009:139-152.)。本实施例的基本流程如下：

(1)Setup：数据拥有者从明文文档集合F＝(f₁,f₂,…,f_m)中抽取关键词，得到关键词集合W＝(w₁,w₂,…,w_n)。

(2)KeyGen(n)：数据拥有者随机产生一个(n+2)比特的向量S和两个(n+2)×(n+2)维的可逆矩阵{M₁,M₂}，密钥SK由四元组{S,M₁,M₂,u}组成，u是一个正整数并且u|n。接着，数据拥有者生成一个加密文档的密钥sk，将密钥SK、sk发送给授权用户。

(3)BuildIndex(F,W,SK)：图2为本实施例索引的创建过程，基于向量空间模型，数据拥有者为每篇文档f_i生成文档向量

若文档f_i中包含关键词w_j，则

否则接着将文档向量

分u块，得到文档标记向量b_i＝(bb₁,bb₂,…,bb_u),e_i＝(b_i,sid_i)。然后计算关键词w_j在文档f_i中的词频权重wf_t,f、逆文档频率idf_t和域加权得分Z_ij后，将

中1的值置为(Z_ij·(wf_t,f×idf_t))。接着对

表示为

采用安全KNN算法加密文档向量得到I_i＝(sid_i,V_i)。最后，数据拥有者将E＝(e₁,e₂,···,e_m)发送给私有云服务器，将索引集合

上传给公有云服务器。

(4)Encrypt(F,sk)：数据拥有者使用对称加密算法对文档集合F＝(f₁,f₂,…,f_m)进行加密，得到密文集合C＝(c₁,c₂,…,c_m)并上传给公有云服务器。

(5)Trapdoor(Γ,SK)：图3为本发明实施例中陷门的构建过程，当授权用户搜索时，首先输入η个搜索关键词Γ＝(q₁,q₂,…,q_s,…,q_η)。接着进行语义扩展，计算原单词q_s和拓展词之间的语义相似度并排序，选取最相关的前σ个拓展词作为最终拓展词，得到语义拓展集合Q＝(q₁,q₂,…,q_η,δ₁,…,δ_σ)及其对应的语义相似度分数SC＝(sc₁,sc₂,…,sc_η,sc_η+1,…,sc_η+σ)。根据语义扩展集Q创建查询向量若w_j∈Q，则将

否则

将

分为u块，得到查询标记向量

接着将向量

中的1置为对应的语义相似度分数sc_j，然后将扩展成(n+1)维且(n+1)位设置为1，用大于0的随机数r对

缩放，并扩展成(n+2)维，第(n+2)位设置成(η+σ)，因此表示为

采用安全KNN算法加密查询向量

得到陷门

最后，授权用户将查询标记向量

发给私有云服务器，将陷门T_Q上传到公有云服务器。

(6)Query

私有云服务器接收到授权用户发送的查询标记向量后，将其和文档标记向量b_i＝(bb₁,bb₂,…,bb_u)进行匹配，得到可能包含搜索关键词的候选索引标识符集合SID_∈＝(···,sid_i,···,sid_j,···,sid_z,···)。

私有云服务器将SID_∈上传给公有云服务器，公有云服务器根据索引的标识符sid_i找到对应的安全索引I_i，将对应的V_i和陷门T_Q计算文档的相似度分数，将所有分数排序后，返回前k篇文档给用户。

(7)Decrypt(C,sk)：授权用户使用数据拥有者分发的密钥sk，对返回的top-k篇密文进行解密，获得所需的明文文档集。

较佳的，本实施例还采用了向量分块标记匹配算法，具体如下：

可搜索加密方案创建的字典集一般很大，这使得MRSE方案(Cao N,Wang C,Li M,et al.Privacy-preserving multi-keyword ranked search over encrypted clouddata.IEEE Transactions on Parallel and Distributed Systems,2014,25(1):829-837)中创建的文档向量的维度通常很大。在检索时，云服务器无法知道哪些是相关文档，因而要对所有文档进行相似度分数的计算和排序，浪费了大量的时间。

本实施例分别对文档向量和查询向量进行分块，生成维数较小的文档标记向量和查询标记向量。通过文档标记向量和查询标记向量的匹配，快速过滤掉大量无关文档，减少了计算文档相似度分数和排序的时间，提高了检索的效率。

(1)向量分块标记算法：

文档向量

分为u块，若某个块全为0，则标记值bb_s＝0，否则bb_s＝1，得到文档标记向量b_i＝(bb₁,bb₂,…,bb_u)；

遍历所有文档，得到文档标记向量集合B＝(b₁,b₂,...,b_m)。

图4表示当文档数量m＝10，关键词数n＝100，标记向量维度u＝10时，向量分块标记算法的过程。

关键词数n＝100，则文档向量

的维数为100维。将

分为u＝10块，每一块有10个元素，若10个元素全为0，则将此块标记为bb_s＝0，10个元素中只要有一个元素为1，此块的标记就为1，得到文档标记向量b₁＝(1,0,0,0,0,1,0,0,1,0)；

将10个文档依次按此操作得到文档标记向量b₁到b₁₀。

(2)查询标记向量和文档标记向量的匹配算法：

私有云服务器接收到授权用户发送的查询标记向量

后，依次用

中每一位1去匹配e_i中对应的块，即块的标记值bb_s是否为0；

块的标记值bb_s若为0，则说明该文档对应的块没有搜索的关键词，如果为1则将对应的索引标识符sid_i记录下来，得到可能包含搜索关键词的候选索引标识符集合SID_∈＝(···,sid_i,···,sid_j,···,sid_z,···)；

图5表示当文档数量m＝10时，文档标记向量与查询标记向量匹配算法的过程。

当查询关键词的标记向量为

时，将

中的第二位1同10篇文档标记向量对应位置的值比较，得到b₃所对应的文档可能包含查询的关键词，记录其索引的标识符sid₃；

依次将

中的1与10篇文档的标记向量对应位置的值比较得到候选的索引标识符的集合SID_∈＝(sid₃,sid₈,sid₅)；

私有云服务器将候选索引标识符集合SID_∈发送给公有云服务器，进行相似度分数的计算及排序操作。

较佳的，本实施例还采用了向量分段加密算法，具体如下：

MRSE方案(Cao N,Wang C,Li M,et al.Privacy-preserving multi-keywordranked search over encrypted cloud data.IEEE Transactions on Parallel andDistributed Systems,2014,25(1):829-837)创建的文档向量的维度通常很大，所以方案构建索引的时间主要花费在文档向量和矩阵的相乘上。本实施例将文档向量分段，将每一段分别与维度大大减小的矩阵相乘，这使得此方案的索引构建时间大大减少。

图6为向量分段加密算法的主要过程，步骤如下：

1)数据拥有者随机产生一个(n+2)比特的向量S和两个(n+2)×(n+2)维的可逆矩阵{M₁,M₂}，密钥SK由四元组{S,M₁,M₂,u}组成，u是一个正整数并且u|n。

2)数据拥有者在构建索引时，根据安全KNN算法将文档向量

***成和

后，将

和

分别分成h段，得到

然后使用密钥SK进行加密，得到

和对应的索引I_i＝(sid_i,V_i)。最后，数据拥有者将E＝(e₁,e₂,···,e_m)发送给私有云服务器，将索引集合

上传给公有云服务器。

3)授权用户在生成陷门时也采用构建索引时类似的操作，得到陷门

最后，授权用户将查询标记向量

发给私有云服务器，将陷门T_Q上传到公有云服务器。

4)公有云服务器在计算相关度分数时，采用的公式如下：

较佳的，本实施例还采用了三因子排序方法。具体如下：

本实施例实现了语义模糊检索，当授权用户希望搜索到查询关键词语义相关的文档，或者由于各种原因无法输入准确的关键词时，也可以匹配到语义相关的文档并返回给授权用户，满足用户的搜索需求。

本实施例首次将域加权评分的概念引入文档的评分当中，对处于文档不同域中的关键词赋予不同的权重，将语义相似度、域加权评分和相关度分数三者结合，提出了一种三因子排序方法，使得排序结果更加精确。

(1)语义相似度

本实施例采用基于信息内容的Resnik算法(可以参考Resnik P.UsingInformation Content to Evaluate Semantic Similarity in a Taxonomy.//Proceedings of the 14th International Joint Conference on ArtificialIntelligence.Montreal,Canada,1995:448-453.)计算语义相似度，步骤如下：

1)采用Resnik算法计算两个概念c₁和c₂相似度，计算公式如下：

sim(c₁，c₂)＝-log p(lso(c₁，c₂))＝IC(lso(c₁，c₂))

其中lso(c₁,c₂)表示概念c₁和c₂在WordNet is-a树中最深层的公共父节点。

p(c)是WordNet语料库中出现概念c的名词的概率，其计算方法如下：

其中，N表示WordNet语料库中名词的个数，freq(c)表示语料库中包含概念c的单词个数，其计算公式如下：

其中，words(c)表示包含概念c的单词集合。

2)Resnik算法计算两个单词w₁和w₂相似度，计算公式如下：

其中，s(w₁)和s(w₂)分别表示单词w₁和w₂包含的概念集合，一个单词可能包含若干个概念。

(2)域加权评分

本实施例首次将域加权评分(可以参考Manning C D,Raghavan P,SchützeH.Introduction to information retrieval.Cambridge:Cambridge University Press,2008.)的概念引入文档的评分当中，给定一系列文档，假定每篇文档有l个域，其对应的权重系数分别是g₁,…g_l∈[0,1]，它们满足：

令s_i为查询和文档的第i个域的匹配得分(1和0分别表示是否匹配)，于是，域加权评分方法可以定义为：

(3)相关度分数

基于tf-idf权值计算方法，并参考tf的亚线性尺度变换方法(可以参考Jin L I,Chen X.Efficient multi-user keyword search over encrypted data in cloudcomputing.Computing&Informatics,2013,32(4):723-738),步骤如下：

1)计算词频权重wf_t,f：

2)计算逆文档频率idf_t：

本实施例将语义相似度、域加权评分和相关度分数三者结合，设计一种三因子排序方法，使得排序结果更加精确。公有云服务器上文档得分的计算公式如下:

其中，Z_ij、(wf_t,f×idf_t)和sc_j分别为文档f_i中关键词w_j的域加权评分、相关度分数和语义相似度。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。