CN109902143A

CN109902143A - 一种基于密文的多关键字扩展检索方法

Info

Publication number: CN109902143A
Application number: CN201910160214.8A
Authority: CN
Inventors: 许建; 黄新宇; 戴华; 杨庚; 陈燕俐
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-06-18
Anticipated expiration: 2039-03-04
Also published as: CN109902143B

Abstract

本发明公开了一种基于密文的多关键字扩展检索方法，对数据源进行关键字集提取，然后基于关键字集合构建逆文档向量集并分组，再对每组向量集进行B+索引树构建，通过安全KNN算法进行加密，接着利用对称加密算法对数据源加密，将加密后的索引树组和数据源一块上传至云服务器中，对用户输入的检索关键字做模糊处理，针对用户输入错误的情况进行纠正；最后，对模糊处理后的查询关键字集合做语义分析操作，对查询关键字集进行扩展，根据经过语义分析后的关键字集合生成查询向量，利用加密算法处理后获得的陷门，对陷门做分组处理并上传至云服务器。本发明从陷门扩展的角度出发，对用户输入的检索关键字进行模糊处理以及语义分析，提升用户的使用体验。

Description

一种基于密文的多关键字扩展检索方法

技术领域

本发明涉及文字检索技术领域，具体涉及一种基于密文的多关键字扩展检索方法。

背景技术

在以隐私保护为目标的研究中，可搜索加密方案占据着重要的地位，基于这一领域的研究也得到了充分的丰富于发展。但是随着数据的***式增长与用户需求的日益多样化，该方案也面临着各种问题与挑战。目前的主流方案中大多是根据用户输入的查询关键字进行精确检索，并没有考虑到各种其它因素，当用户的查询关键字输入错误或者单一，并不能合理的返回给用户相应的结果。随着用户上传的数据量成线性增长，如何根据用户的喜爱和偏好进行结果过滤或者进行提升关键字优先级，减少用户的数据筛选，也是重要的改进之一。

随着个性化搜索的提出，这个问题得到了很好的解决，它的主要原理是对用户的信息进行采集，然后分析出用户的兴趣和偏好，然后根据分析对比将检索结果进行针对用户的个性化排序，使用户能够快速的找到想要的结果。但是由于该方案是在用户信息的基础上进行操作，对于密文检索这种注重隐私性的方案来说可能并不是一个很好的选择。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于密文的多关键字扩展检索方法，该方法可以解决在进行模糊多关键字排序检索中的效率低，准确率不高，查询结果单一，智能程度低的问题。

技术方案：本发明所述的基于密文的多关键字扩展检索方法，包括：

(1)构建B+索引树组：根据数据源中关键字集合KW构建逆文档向量集IDOC，利用逆文档向量集合IDOC构建对应的分组B+索引树组IO，并利用文档向量集合DOC构建对应的分组文档数据集IT；

(2)IT和IO加密：利用安全KNN算法对IO和IT进行加密，加密后的数据分别记为E_IO和E_IT，并将加密后的数据上传至云服务器；

(3)模糊处理查询关键字：将用户输入的查询关键字组成的集合W_q与关键字集合KW匹配，得到处理后的模糊关键字集合W_m；

(4)模糊查询关键字集合W_m的语义扩展：根据构建的语义树得到关键字间的语义相似度，对W_m进行遍历并和关键字集KW进行语义相似度计算，对每一个模糊集合中的关键字进行语义扩展，形成语义扩展集，然后将每一个关键字的语义扩展集添加到W_m，形成语义集合W_y；

(5)构建陷门：对W_y进行遍历，根据遍历的当前关键字是否存在KW中构建第一次查询向量QO和第二次查询向量QT，并采用安全KNN算法对QO和QT进行加密，得到陷门，并将加密数据上传至云服务器；

(6)E_QO和E_QT二次排序匹配：利用E_IO和E_QO中存储的加密后的TF值和IDF值进行相关度分数Score的计算，得到结果集Result；根据第一次检索结果Result，用E_QT和找到的文档向量进行二次相关度分数Score的计算和排序，得到E_QTi和E_ITi的最终相关度分数Score，并返回给用户分数最高的前k个密文文档。

优选的，步骤(3)中，所述将用户输入的查询关键字组成的集合W_q与关键字集合KW匹配，得到处理后的模糊关键字集合W_m，包括：设用户输入的查询关键字个数为t，则查询关键字集可以表示为W_q＝{W_q1,W_q2,…,W_qt}，对其进行遍历，若w_qi∈KW始终为真时，其中，1≤i≤t，表示用户输入的查询关键字无拼写错误，此时W_m＝W_q；若其中存在w_qi∈KW为假，说明用户输入的该关键字不存在于关键字集合KW中，将关键字w_qi与关键字集合KW中的每个关键字进行编辑距离ed的计算，若符合预设ed的阈值，则将关键字集合中KW中的该关键字添加到模糊关键字集合W_m中，遍历完成后，将所有符合条件的关键字添加模糊关键字集合中，获得最终的W_m。

优选的，步骤(3)中，所述模糊关键字集合W_m记为CM，公式表示为：

优选的，步骤(4)中，所述对每一个模糊关键字集合中的关键字进行语义扩展，形成语义扩展集，包括以下步骤：

(41)定义两个关键字w_i和w_j，用sim(w_i,w_j)表示为关键字w_i和关键字w_j的语义相似度，相似度运算公式如下所示：

其中，γ和δ是控制最短距离路径长度以及近公共祖先节点在运算中的影响权重，γ≥0，δ≥0，len(w_i,w_j)表示在语义树中从关键字w_i到关键字w_j所经过的最短路径，且：

lso(w_i，w_j)表示在语义树中关键字w_i和关键字w_j最近公共祖先节点，deep(w_i)表示关键字w_i到根节点所经过的路径长度；

(42)对W_m进行遍历并和关键字集合KW进行相似度计算，对每一个模糊关键字集合中的关键字进行语义扩展，取相似度最高的前τ个关键字形成语义扩展集。

优选的，步骤(5)中，具体包括以下步骤：

(51)对W_y进行遍历，如果遍历的当前关键字存在于KW中，则QO的对应位上存储该关键字的IDF值，否则，存储0进行占位处理；

(52)对W_y进行遍历，如果遍历的当前关键字存在于KW中，则QT的对应位上存储该关键字的IDF值，否则，存储0进行占位处理，QT和QO组成了完整的查询向量；

(53)采用安全KNN算法对QO进行加密，用QO_i[j]表示QO中第i组的第j位数据，若随机位为0时，QO′_i[j]+QO″_i[j]＝QO_i[j]；若随机位为1时，QO′_i[j]＝QO″_i[j]＝QO_i[j]，QO加密后的形式记为E_QO，QO_i[j]加密后产生的两个新向量为QO_i'[j]和QO_i”[j]；

(54)用安全KNN算法对QT进行加密，用QT_i[j]表示QT中第i组的第j位数据，QT_i[j]加密后产生的两个新向量为QT_i'[j]和QT_i”[j]。若随机位为0时，QT_i'[j]+QT_i”[j]＝QT_i[j]；若随机位为1时，QT_i'[j]＝QT_i”[j]＝QT_i[j]，QT加密后的形式记为E_QT。

优选的，所述步骤(6)具体包括以下步骤：

(61)将E_IO和E_QO采用基于TF-IDF模型进行匹配计算，当E_QO中有null标记时，直接跳过不予计算；否则，加密后的IO_i在加密后的QO_i上进行检索，获得每组相关性最高的前h个加密文档，形成结果集{Result₁,Result₂,…,Result_f}，其中Result_i的长度为h，且f≤b，去重后得到结果集Result；

(62)和的相关度分数Score的公式表示为：

(63)通过Result找到E_IT中有效的文档向量，用E_QT和找到的文档向量进行二次相关度分数Score的计算和排序，并将Score最高的前k个文档标识符返回给查询用户，用户根据文档标识符fid找到对应的密文文档，下载到本地解密后获取对应的明文信息；

(64)和的相关度分数Score的公式表示为：

有益效果：本发明与现有技术相比，其显著优点是：1、本发明从陷门扩展的角度出发，对用户输入的检索关键字进行模糊处理以及语义分析，提升用户的使用体验；2、在高效的多关键字可排序密文检索的基础之上，在陷门构建的步骤当中首先增加关键字模糊处理，丰富查询返回的结果，即使用户输入错误的关键字信息，也可以对其纠正从而返回正确的结果；3、本发明对用户查询关键字集合进行语义分析处理，扩大搜索条件，丰富查询返回的结果，使查询不再精确化，降低关键字的局限性，帮助用户更加深入的挖掘数据中有用的信息。

附图说明

图1为本发明所述方法实现框架；

图2为本发明所述的方法流程图；

图3为图2中的步骤1和2的具体流程图；

图4为图2中的步骤3的具体流程图；

图5为图2中的步骤3中的模糊处理方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明提供一种基于密文的多关键字扩展检索方法，首先通过IK分词器对数据提供者提供的数据源进行关键字集提取，形成关键字集合，然后基于关键字集合构建逆文档向量集并做分组处理操作，再对每组向量集进行B+索引树构建，通过安全KNN算法进行加密，然后利用对称加密算法对数据源加密，最后将加密后的索引树组和数据源一块上传至云服务器中，保证了检索的高效性。在陷门生成过程中，模糊多关键字排序检索方法首先对用户输入的检索关键字做模糊处理，针对用户输入错误的情况进行纠正；然后对模糊处理后的查询关键字集合做语义分析操作，对查询关键字集进行扩展；最后，根据经过语义分析后的关键字集合进行查询向量的生成，同样利用安全KNN算法加密处理后获得陷门，对陷门做分组处理并上传至云服务器。云服务器根据TF-IDF模型将分组陷门和B+索引树组做匹配，并按照相关度分数排序，最终返回给授权用户相关度最高的前k个密文文档。

具体包括：

如图2-5所示，步骤1、数据提供者提数据源，根据IK分词器对数据源做分词处理，获取关键字集合，构建逆文档向量集并对其分组，采用对称加密算法加密数据源。

步骤1.1生成文档向量集：在数据源中，通过IK分词器做关键字拆分处理，获取的关键字集合为KW，设定n为关键字集合中关键字的数量，则关键字集合可以表达为KW＝(kw₁,kw₂,…,kw_n)。通过KW可以将数据源中的文档集合转换为文档向量集合DOC，设定数据源中的文档个数为m，则文档向量集合可以表示为DOC＝(doc₁,doc₂,…,doc_m)，其中doc_i表示DOC中第i(0≤i≤m)个文档向量，其向量长度为n，向量中的每位对应KW中相应关键字，如果该关键字出现在当前文档中，则存储该关键字在当前文档中的TF值，否则对应位存储0做占位处理。

步骤1.2生成逆文档向量集：通过步骤1.1中的KW构建逆文档向量集IDOC，其长度和KW相等，同样位n，其构建原理是通过关键字找到包含该关键字的文档集，可以表示为IDOC＝{idoc(kw₁),idoc(kw₂),…,idoc(kw_n)}，其中，idoc(kw_i)表示IDOC中第i(0≤i≤n)个逆文档向量，存储包含关键字kw_i的所有doc，在本步骤中限定为所有idoc的长度为a，也即是存储包含kw_i且TF值最高的前a个文档向量。

步骤1.3逆文档向量集合分组：将步骤1.2中的IDOC进行分组处理，设定分为b组，则分组后的IDOC可以表示为IDOCG＝(idocg₁,idocg₂,…,idocg_b)，每组的关键字集个数为o，其中idocg_i为IDOCG中的第i(0≤i≤n)组，存储的为该组所有关键字的idoc。将KW同样分为b组，则分组后的关键字集合可以表示为KWG＝(kwg₁,kwg₂,…,kwg_b)。

步骤2、利用逆文档向量集构建B+索引树组，通过改进的安全KNN算法加密后，和加密后的数据源一同上传至云服务器；

步骤2.1：构建逆文档向量集合对应索引树组：根据步骤1.3中的IDOC构建对应的分组B+索引树组IO，表示为IO＝{IO₁,IO₂,…,IO_b}。B+树中的节点存储的关键字结构为为<fid,children[m],inf>，fid为密文索引对应的文档标识符，只出现在叶子节点中，非叶子节点该值为null，children[m]存储指向孩子节点的指针信息，m为B+树阶数，叶子节点的inf存储对应关键字组在文档的TF值，非叶子节点的inf为对应孩子节点存储的所有关键字的inf按位取最大值获得。设节点存储的其中一个关键字为key，其对应的孩子节点为child，KEY表示child所有存储的关键字信息，则该节点的inf的第c位可以由如下公式获得：

key.inf[c]＝max{child.key[c]|key∈KEY}

步骤2.2：构建分组文档数据集：根据步骤1.1中的DOC构建IT＝{IT₁,IT₂,…,IT_m}，用IT_i表示IT的其中一项，基于doc_i构建结构为IT_i＝<fid,inf₁,inf₂,…,inf_b>，其中inf_i是长度为o的向量，第j位存储的数据可以表示为inf_i[j]＝IT(doc_i<KWG_i,j>)(j＝1,…,o)。IO和IT组成完整的索引，IO用于步骤4.1中的第一次排序计算，IT用于步骤4.2中的第二次排序计算。

步骤2.3：加密IO和IT：利用安全KNN算法对步骤2.1中的IO和步骤2.2中的IT进行加密，也即是生成随机的0和1序列，将IO和IT加密成两个新的数据。

用IO_i[j]表示IO中第i组的第j位数据，当随机位为0时，IO′_i[j]＝IO″_i[j]＝IO_i[j]；当随机位为1时，IO′_i[j]＝IO″_i[j]＝IO_i[j]。IT的加密步骤与IO一致，最终获得加密后的E_IO和E_IT，并将这两组加密数据上传至云服务器。

步骤3、以授权用户输入的查询关键字为基础，首先进行模糊处理操作获取模糊查询关键字集，然后通过模糊查询关键字集做语义分析处理获取语义查询关键字集，并以此为基础构建查询向量，利用安全KNN加密后得到陷门，做分组处理后上传至云服务器。

步骤3.1：以提升检索健壮性为目的，防止出现用户输入检索关键字拼写错误而出现无检索结果的情况，对用户输入的查询关键字W_q做模糊处理。

设用户输入的查询关键字个数为t，则查询关键字集可以表示为W_q＝{W_q1,W_q2,…,W_qt}，对其进行遍历，

当w_qi∈KW(1≤i≤t)始终为true时，表示用户输入的查询关键字无拼写错误，用W_m表示处理后的模糊查询关键字集合，此时W_m＝W_q。

如果w_qi∈KW为false，说明用户输入的该关键字不存在于关键字集合KW中，因此需要对用户输入错误这种情况进行处理，用ed(S′,S)表示字符串S′和字符串S的编辑距离，针对上述错误情况，将关键字w_qi与关键字集合KW中的每个关键字进行编辑距离ed计算，获取与该关键字对应的模糊关键字集合，然后将w_qi从W_q中移除。

ed的大小影响关键字的语义相似度标准，可根据实际需求进行设置，本发明对关键字模糊处理设置ed＝1，则且由于目的是对用户在查询关键字拼写错误的情况下进行处理，所以采用基于字典的方式构建模糊关键字集合。关键字集合KW遍历完成后，将所有关键字w_qi与关键字集合KW中的ed＝1的关键字添加到模糊关键字集合中，遍历完成后，将所有模糊集合中的关键字添加到W_q中最终获得W_m，，且用CM表示通过错误关键字获取的模糊关键字集合，则CM可以用如下公式表示：

以下是查询关键字W_q做模糊处理算法的过程：

输入：查询关键字集W_q，关键字集KW，编辑距离α

输出：模糊关键字集W_m

步骤3.2模糊查询关键字集合语义扩展：利用步骤3.1中得到的W_m进行语义扩展操作，帮助授权用户完善查询关键字信息，更深层次的挖掘有价值的数据。

定义两个关键字w_i和w_j，用deep(w_i)表示关键字w_i在语义树中的层次，也即是到根节点所经过的路径长度，所以根节点层次的设定影响着其所有子节点层次的运算。

将根节点层次设定为1，因此子节点的深度也即是到根节点的距离加1。用len(w_i,w_j)表示在语义树中从关键字w_i到关键字w_j所经过的最短路径，也即是它们之间的距离长度。用lso(w_i,w_j)表示在语义树中关键字w_i和关键字w_j最近公共祖先节点。

用sim(w_i,w_j)表示为关键字w_i和关键字w_j的语义相似度，且满足：

两种计算方式，其中δ是非负数，则相似度运算公式如下所示：

在上述公式中，γ和δ是控制最短距离路径长度以及近公共祖先节点在运算中的影响权重，并采用γ＝0.2，δ＝0.6的最优设置。由上述公式可以看出，两个关键字的相似度与最短路径距离len成反比关系，与两个关键字的lso满足正比关系，且sim(w_i,w_j)的取值范围是0至1。

对W_m进行遍历并和关键字集KW进行相似度计算，对每一个模糊关键字集合中的关键字进行语义扩展，取相似度最高的前τ个关键字形成语义扩展集，然后将每一个关键字的语义扩展集添加到W_m，形成语义集合W_y。

步骤3.3：构建查询向量QO和QT：根据步骤3.2中的W_y构建第一次查询向量QO。构建过程为：首先对W_y进行遍历，如果遍历的当前关键字存在于KW中，则QO的对应位上存储该关键字的IDF值，否则，存储0进行占位处理。将QO同样分为b组，当一组存储的数据全为0时，说明该组不包含检索关键字，将该组做null标记，后续计算中可以直接跳过不予计算，提升检索效率。第二次查询向量QT的构建方法和最后的形式和QO相同，QT和QO组成了完整的查询向量。QO用于和IO计算做第一次排序，QT用于和IT进行计算做第二次排序。

步骤3.4：QO和QT加密：用安全KNN算法对步骤3.3中的QO和QT进行加密，加密过程基本同步骤2.3。用QO_i[j]表示QO中第i组的第j位数据，对QO_i[j]进行加密，产生的两个新向量为QO_i'[j]和QO_i”[j]。和索引加密的不同点是，当随机位为0时，QO′_i[j]＝QO″_i[j]＝QO_i[j]；当随机位为1时，QO′_i[j]＝QO″_i[j]＝QO_i[j]。QT的加密步骤与QO一致，QO和QT加密后的形式为E_QO和E_QT，然后将这两组加密数据上传至云服务器。

步骤4、通过TF-IDF模型，对步骤2中的分组B+索引树和步骤3中的分组陷门进行匹配，根据相关度分数对匹配结果进行排序，并返回给用户前top-k个密文文档。

具体如下：

步骤4.1：将E_IO和E_QO采用基于TF-IDF模型进行匹配计算，当E_QO中有null标记时，和对应B+索引树直接跳过不予计算，

否则，利用E_IO和E_QO中存储的加密后的TF值和IDF值进行相关度分数Score的计算，也就是说加密后的IO_i在加密后的QO_i上进行检索，然后获得每组相关性最高的前h(h为一个随机正整数)个加密文档，形成结果集{Result₁,Result₂,…,Result_f}，其中Result_i的长度为h，且f≤b，去重后得到结果集Result。

和的相关度分数Score的计算方式可以由如下公式表示：

步骤4.2：利用步骤4.1得到的第一次检索结果Result，进行二次排序计算，通过Result找到EIT中有效的文档向量，然后用EQT和找到的文档向量进行二次相关度分数Score的计算和排序，并将Score最高的前k个文档标识符返回给查询用户，用户根据文档标识符fid找到对应的密文文档，下载到本地解密后获取对应的明文信息。和的相关度分数Score的计算方式可以由如下公式表示：

Claims

1.一种基于密文的多关键字扩展检索方法，其特征在于，包括：

(1)构建B+索引树组：根据数据源中关键字集合KW构建逆文档向量集IDOC，利用逆文档向量集合IDOC构建对应的分组B+索引树组IO，并利用文档向量集合DOC构建对应的分组文档数据集IT，；

2.根据权利要求1所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(3)中，所述将用户输入的查询关键字组成的集合W_q与关键字集合KW匹配，得到处理后的模糊关键字集合W_m，包括：设用户输入的查询关键字个数为t，则查询关键字集可以表示为W_q＝{W_q1,W_q2,…,W_qt}，对其进行遍历，若w_qi∈KW始终为真时，其中，1≤i≤t，表示用户输入的查询关键字无拼写错误，此时W_m＝W_q；若其中存在w_qi∈KW为假，说明用户输入的该关键字不存在于关键字集合KW中，将关键字w_qi与关键字集合KW中的每个关键字进行编辑距离ed的计算，若符合预设ed的阈值，则将关键字集合中KW中的该关键字添加到模糊关键字集合W_m中，遍历完成后，将所有符合条件的关键字添加模糊关键字集合中，获得最终的W_m。

3.根据权利要求2所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(3)中，所述模糊关键字集合W_m记为CM，公式表示为：

4.根据权利要求2所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(4)中，所述对每一个模糊关键字集合中的关键字进行语义扩展，形成语义扩展集，包括以下步骤：

(42)对W_m进行遍历并和关键字集合KW进行相似度计算，对每一个模糊关键字集合W_m中的关键字进行语义扩展，取相似度最高的前τ个关键字形成语义扩展集。

5.根据权利要求1所述的基于密文的多关键字扩展检索方法，其特征在于，步骤(5)中，具体包括以下步骤：

(53)采用安全KNN算法对QO进行加密，用QO_i[j]表示QO中第i组的第j位数据，若随机位为0时，QO′_i[j]+QO″_i[j]＝QO_i[j]；若随机位为1时，QO′_i[j]+QO″_i[j]＝QO_i[j]，QO加密后的形式记为E_QO，QO_i[j]加密后产生的两个新向量为QO_i'[j]和QO_i”[j]；

6.根据权利要求5所述的基于密文的多关键字扩展检索方法，其特征在于，所述步骤(6)具体包括以下步骤：

(61)将E_IO和E_QO采用基于TF-IDF模型进行匹配计算，若E_QO中有null标记时，直接跳过不予计算；否则，加密后的IO_i在加密后的QO_i上进行检索，获得每组相关性最高的前h个加密文档，形成结果集{Result₁,Result₂,…,Result_f}，其中，Result_i的长度为h，且f≤b，去重后得到结果集Result；

(62)和的相关度分数Score的公式表示为：

(64)和的相关度分数Score的公式表示为：