CN111427998A - 一种云数据多关键字扩展权值的安全密文查询方法 - Google Patents
一种云数据多关键字扩展权值的安全密文查询方法 Download PDFInfo
- Publication number
- CN111427998A CN111427998A CN202010193751.5A CN202010193751A CN111427998A CN 111427998 A CN111427998 A CN 111427998A CN 202010193751 A CN202010193751 A CN 202010193751A CN 111427998 A CN111427998 A CN 111427998A
- Authority
- CN
- China
- Prior art keywords
- query
- vector
- keyword
- query vector
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 87
- 239000011159 matrix material Substances 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明属于信息安全领域技术领域,特别涉及一种云数据多关键字扩展权值的安全密文查询方法。
背景技术
云存储为用户的文件持久化提供了便捷可靠的实现方案,为了保护数据隐私,存储到云服务器的文件将会被转换为密文形式,安全性提高的同时,也带来了数据查询困难的问题。如何精确高效查询数据,同时又防止信息泄露,是当前研究面临的主要难点。
现有方法大多基于多关键字的模糊查询进行相应的改进优化,但却忽视了用户输入的多关键字彼此之间可能存在的主次和语法相关性。另外由于现有关键字扩展方法针对的是所有关键字,导致计算向量与构建时间大幅增加,查询结果精确性能下降。
发明内容
本发明的目的是提供一种云数据多关键字扩展权值的安全密文查询方法,通过关键字权值计算,能够控制查询的倾向;并且本发明设计了子矩阵加密与索引动态更新,在增加查询安全性的同时,能够有效控制算法复杂度。
本发明提供的技术方案为:
一种云数据多关键字扩展权值的安全密文查询方法,包括:
步骤一、针对关键字矩阵与向量产生相应的密钥,所述密钥描述为K(M1,M2,S);
式中,M1和M2为最近加入字典里的关键字组成的矩阵,S为对应的向量;
步骤三、筛选出初始查询向量中的核心词,搜索出所述核心词的近义词,并且将所述近义词添加到所述初始查询向量中,得到第一查询向量;
步骤五、计算所述索引向量与所述第二查询向量的内积,得到文件与查询关键字的匹配程度:
式中,εi为随机数,σi表示查询精度标准差,r表示相关系数,t表示索引项,v表示维度;
其中,当匹配程度为非0时,该文件中包含该关键字,匹配程度值越大包含所述查询关键字越多。
当si∈S且si=1时,拆分满足等式i′i=i″i=ii;
当si∈S且si=0时,拆分满足如下关系:
优选的是,在所述步骤三中,通过权值计算的方法筛选出所述初始向量中的核心词;其中,任一关键字ω的权值表达式可以描述为:
式中,W表示关键字ω的权值;δ表示增量;n表示查询关键字的累计权值。
步骤1、将所述第一查询向量与字典进行对比,当所述第一查询向量中的某元素出现在字典里时,采用文档频率与该关键字权值的乘积替换所述第一查询向量中的相应元素,得到更新后的第一查询向量;
当si∈S且si=0时,满足关系q′i=q″i=qi;
当si∈S且si=1时,应满足如下关系:
本发明的有益效果是:
本发明提供的云数据多关键字扩展权值的安全密文查询方法,针对用户输入的查询关键字,计算对应权值,用以衡量各关键字在查询过程中的重要程度;然后基于权值计算,筛选出关键字集中的核心词,并对核心词采取语义扩展,针对查询重点增加检索范围,也避免陷门无节制增加带来的开销问题;在加密过程中,提出了子矩阵计算密钥,同时引入索引的动态更新,有利于改善查询性能与安全;最后再利用查询与索引向量的内积计算,得到查询匹配度,实现数据查询。通过仿真实验结果,表明在对密文云数据进行查询时,提出的多关键字扩展权值方法具有显著的高效性与精确性,同时有效保证了数据查询的安全性。
附图说明
图1为本发明所述的查询精度实验结果曲线图。
图2为本发明所述的查询安全性实验曲线图。
图3为本发明所述的查询时间与文件数量之间的关系曲线图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了一种云数据多关键字扩展权值的安全密文查询方法,具体过程如下:
(1)初始化密钥:云存储***针对字典里的关键字矩阵与向量产生相应的密钥,描述为K(M1,M2,S),这里的M1和M2均为可逆矩阵,且维度为(n+u+1)×(n+u+,n代表关键字个数,u+1表示扩展的维度。
(2)建立安全索引:云存储***上的文件集可以表示为F={f1,f2,…,fd},从中搜索出的关键字集表示为W={ω1,ω2,…,ωn}。对于查询向量Ii,当比较发现其中关键字包含于W时,修改Ii相应元素位置为词频;同时根据相关性公式得到查询与索引之间的相关性,更新索引向量,更新后表示为随后为其进行加密处理,先将做拆分,得到向量集当si∈S且si=1条件成立时,使拆分满足等式i′i=i″i=ii;当si∈S且si=0条件成立时,使拆分满足如下关系:
(3)扩展查询向量:查询文档集内所有文档分别标记为具有nbit元素的向量Ii,n表示文档中包含的关键字数量;得到一组输入关键字时,将其标记为具有nbit元素的向量Q,针对***输入查询向量Q={ω1,ω2,…,ωi},采取权值计算,同时筛选出其中的核心词,搜索出其近义词构建得到新查询向量Q′={ω1,ω2,…,ωi+z}。
其中,任一关键字ω的权值表达式可以描述为:
式中,W表示关键字ω的权值;δ表示增量;n表示查询关键字的累计权值。
(4)构造陷门:将处理后的新查询向量与字典进行比对,当向量中某元素出现在字典里时,采用文档频率与该关键字权值的乘积替换Q中的相应元素,并对Q采取扩展操作,在其中任意抽取v个维度设置成1,从而令扩展后维度为(n+u+1),此时得到向量表示为将做加密处理,为了提高查询执行效率,利用子矩阵方法把拆分为若si∈S且si=0条件成立时,应满足关系q′i=q″i=qi;若si∈S且si=1条件成立时,应满足如下关系:
于是,经过加密处理后的查询向量表示为:
这里,采用加密后的Enc_sk(Q)构建安全陷门。
(5)查询:查询过程中,通过求解查询与索引的内积,得到查询的匹配程度,计算如下:
为了保证安全性,εi为随机数,且服从正态分布,σi表示标准差,它用于调剂查询精度与查询安全。根据该公式,可以判定文件与查询关键字的匹配性,从而完成查询任务;其中,当匹配程度为非0时,表示该文件中包含该关键字,匹配程度值越大包含所述查询关键字越多。
为了证明本文方法的有效性,仿真实验采用Enron数据集作为查询文件集,它具有的文件数量达到了11008个,并基于Java与大数据处理框架的Storm实现安全查询算法和功能。为了有效验证本文方法的性能,引入关键字模糊查询作为对比,分别从查询精度,安全性,以及时间效率三方面进行仿真实验与结果分析。
(1)查询精确度结果分析
查询精度是衡量查询性能的首要指标,因此首先通过仿真实验验证本文方法的查询精确度。假定以Pk代表查询精度,则它的计算公式为:
Pk=k′/k;
其中,k′为查询结果里的正确文件量,k为云存储***中的全部文件量。通过仿真实验,得到查询精度与文件规模之间的关系,如图1所示。根据结果曲线可知,本文方法的查询精度基本不受文件规模的影响,而且查询精度显著高于对比方法,始终在90%上下轻微波动。这是由于方法在查询过程中,采用了多关键字权值技术,通过权值确定核心词,并对其进行扩展,合理的分配了各关键字对查询结果的影响程度;同时还采用了匹配程度计算,通过该计算中的σ来调剂查询精度,当合理降低σ值时,即可避免精度受干扰。
(2)查询安全性结果分析
根据图2结果分析可知,随着文件规模的增加,各方法的安全性都受到相应的影响,但是本文方法的受影响程度最小,安全性始终保持最好,且下降很慢。其原因是由于加密过程中设计了匹配度计算,通过调节σ值,可以有效保护排序信息,而且设计了子矩阵拆分与动态索引更新,提高了加密处理速度,也使得索引能够符合各种情况的隐私需求。
(3)查询时间结果分析
为了验证本文方法对于云数据查询的高效性,在保证字典参数N=5000不变的前提下,首先只改变云存储文件规模的大小,仿真实验得到查询时间与文件数量之间的关系,如图3所示。根据实验曲线可知,各方法对于云数据的安全查询效率均受云存储数文件数量的多少影响,但是在同一文件规模下,本文方法的执行时间要优于对比方法。导致该结果的原因是:各方法都需要对文件建立索引,而文件规模的增加导致索引向量的增加,算法复杂度随之增加,但是由于本文方法提出了核心词扩展,无需像对比方法一样搜索出所有关键字的近义词,大幅度节省了查询时间;另外在查询加密的过程中设计了子矩阵拆分,直接将原始矩阵加密处理的复杂度降低了一半,从而有效提高了查询效率。
在只改变查询关键字数量的情况下,通过仿真实验得到查询时间与关键字数量之间的关系,如表1所示。根据表中结果数据可知,各方法对于云数据的查询效率基本不受查询关键字数量的影响,但是本文方法的执行时间具有明显优势。导致该结果的原因是:在查询过程中,各方法都是基于向量内积计算,由于关键字数量的改变并不影响向量维度,所以不会影响到查询执行的时间。
表1查询时间与关键字数量之间的关系
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (5)
1.一种云数据多关键字扩展权值的安全密文查询方法,其特征在于,包括如下步骤:
步骤一、针对关键字矩阵与向量产生相应的密钥,所述密钥描述为K(M1,M2,S);
式中,M1和M2为最近加入字典里的关键字组成的矩阵,S为对应的向量;
步骤三、筛选出初始查询向量中的核心词,搜索出所述核心词的近义词,并且将所述近义词添加到所述初始查询向量中,得到第一查询向量;
步骤五、计算所述索引向量与所述第二查询向量的内积,得到文件与查询关键字的匹配程度:
式中,εi为随机数,σi表示查询精度标准差,r表示相关系数,t表示索引项,v表示维度;
其中,当匹配程度为非0时,该文件中包含该关键字,匹配程度值越大包含所述查询关键字越多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010193751.5A CN111427998B (zh) | 2020-03-19 | 2020-03-19 | 一种云数据多关键字扩展权值的安全密文查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010193751.5A CN111427998B (zh) | 2020-03-19 | 2020-03-19 | 一种云数据多关键字扩展权值的安全密文查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111427998A true CN111427998A (zh) | 2020-07-17 |
CN111427998B CN111427998B (zh) | 2024-03-26 |
Family
ID=71548107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010193751.5A Active CN111427998B (zh) | 2020-03-19 | 2020-03-19 | 一种云数据多关键字扩展权值的安全密文查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111427998B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732790A (zh) * | 2021-01-12 | 2021-04-30 | 宁波云麟信息科技有限公司 | 基于区块链的加密搜索方法、电子设备和计算机存储介质 |
CN112837770A (zh) * | 2021-01-21 | 2021-05-25 | 北京理工大学 | 一种大规模电子医疗***中的隐私保护相似病历查询方法 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416037A (zh) * | 2018-03-14 | 2018-08-17 | 安徽大学 | 云环境中基于两级索引的中心关键词密文搜索方法 |
CN108549701A (zh) * | 2018-04-17 | 2018-09-18 | 上海海事大学 | 云环境加密外包数据语义扩展搜索方法及*** |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护***及方法 |
US20190121873A1 (en) * | 2017-10-24 | 2019-04-25 | University Of Louisiana At Lafayette | Architecture for semantic search over encrypted data in the cloud |
CN109902143A (zh) * | 2019-03-04 | 2019-06-18 | 南京邮电大学 | 一种基于密文的多关键字扩展检索方法 |
-
2020
- 2020-03-19 CN CN202010193751.5A patent/CN111427998B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190121873A1 (en) * | 2017-10-24 | 2019-04-25 | University Of Louisiana At Lafayette | Architecture for semantic search over encrypted data in the cloud |
CN108416037A (zh) * | 2018-03-14 | 2018-08-17 | 安徽大学 | 云环境中基于两级索引的中心关键词密文搜索方法 |
CN108549701A (zh) * | 2018-04-17 | 2018-09-18 | 上海海事大学 | 云环境加密外包数据语义扩展搜索方法及*** |
CN108647529A (zh) * | 2018-05-09 | 2018-10-12 | 上海海事大学 | 一种基于语义的多关键词排序搜索隐私保护***及方法 |
CN109902143A (zh) * | 2019-03-04 | 2019-06-18 | 南京邮电大学 | 一种基于密文的多关键字扩展检索方法 |
Non-Patent Citations (1)
Title |
---|
朱保平;张金康;: "云环境中基于本体语义扩展的密文检索方案" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732790A (zh) * | 2021-01-12 | 2021-04-30 | 宁波云麟信息科技有限公司 | 基于区块链的加密搜索方法、电子设备和计算机存储介质 |
CN112837770A (zh) * | 2021-01-21 | 2021-05-25 | 北京理工大学 | 一种大规模电子医疗***中的隐私保护相似病历查询方法 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111427998B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111427998B (zh) | 一种云数据多关键字扩展权值的安全密文查询方法 | |
Fu et al. | Enabling central keyword-based semantic extension search over encrypted outsourced data | |
CN108388807B (zh) | 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法 | |
Gollapalli et al. | Ranking authors in digital libraries | |
Cai et al. | Simultaneous ranking and clustering of sentences: A reinforcement approach to multi-document summarization | |
Hozhabr et al. | Dynamic secure multi-keyword ranked search over encrypted cloud data | |
Wang et al. | Towards efficient privacy-preserving encrypted image search in cloud computing | |
CN115438230A (zh) | 安全高效的动态加密云数据多维范围查询方法 | |
CN110222012B (zh) | 单一用户环境下基于细粒度排序的数据密文查询方法 | |
CN107273467A (zh) | 一种支持可搜索加密的安全索引结构及其构造方法 | |
JP2018180789A (ja) | クエリクラスタリング装置、方法、及びプログラム | |
CN113076319B (zh) | 基于离群值检测技术和位图索引的动态数据库填充方法 | |
Coşkun et al. | Indexed fast network proximity querying | |
Zhang et al. | A verifiable and dynamic multi-keyword ranked search scheme over encrypted cloud data with accuracy improvement | |
Zhao et al. | Privacy-preserving personalized search over encrypted cloud data supporting multi-keyword ranking | |
CN114398660A (zh) | 一种基于Word2vec和ASPE的高效模糊可搜索加密方法 | |
JP6698061B2 (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
JP6495206B2 (ja) | 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム | |
Zhang et al. | Efficient searchable symmetric encryption supporting dynamic multikeyword ranked search | |
Zamani et al. | Multivariate representation learning for information retrieval | |
Thangamani et al. | Ontology based fuzzy document clustering scheme | |
CN114201532A (zh) | 基于esop***的数据查询方法、装置、介质及设备 | |
Fu et al. | Privacy-Preserving Content-Aware Search Based on Two-Level Index. | |
Ge et al. | An efficient searchable scheme for encrypted high dimensional data | |
Marujo et al. | Privacy-preserving multi-document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |