CN117251879A

CN117251879A - 基于信任扩展的安全存储与查询方法、***及计算机储存介质

Info

Publication number: CN117251879A
Application number: CN202311250580.5A
Authority: CN
Inventors: 俞建业; 杨维永; 周小明; 刘苇; 祁龙云; 魏兴慎; 徐志超; 杨康乐; 孙柏颜; 张文杰; 宋为; 陈登洲; 王伟; 周剑
Original assignee: State Grid Liaoning Electric Power Co Ltd; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Liaoning Electric Power Co Ltd; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Liaoning Electric Power Co Ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-19

Abstract

本发明公开了基于信任扩展的安全存储与查询方法，包括以下步骤，文档预处理模块，负责在原始文档基础上生成元数据文档；倒排索引构建模块，负责为文档建立安全查询索引，并根据文档元数据生成密文倒排索引；信任扩展模块，负责根据用户提交的查询关键字利用本体知识对信任语义层进行扩展；步骤四：检索结果排序模块，负责根据提交的查询关键字进行搜索，并根据相关性进行排序，返回与查询最相关的前N个文档。本发明还公开了信任扩展安全存储***和计算机储存介质，使用该方法为工控终端协同安全管控***提供稳定、安全、可靠的数据存储环境。

Description

基于信任扩展的安全存储与查询方法、***及计算机储存介质

技术领域

本发明属于信息储存与查询技术领域，尤其是涉及基于信任扩展的安全存储与查询方法、***及计算机储存介质。

背景技术

随着信息技术的飞速发展，网络安全和用户隐私泄露问题日益严重，数据安全已成为社会面临的重大问题。传统的网络保护机制已经不能有效保证网络数据的安全，而网络的可信运行是数据安全的关键。在众多的网络安全问题中，数据存储的安全是关键。可信存储是指在可信平台控制模块的基础上，利用外部存储设备(如硬盘)实现的安全存储，保证硬件的物理安全。通过将可信平台控制模块与物理安全的外部存储绑定，可以形成可信存储***，可信存储***为数据的安全存储提供了支持和保障。

现有技术中，通过建立具有动态适应性的基于矢量的不确定性数学模型进行可信度度量，但缺乏相应的风险评估机制，不适用于大数据场景。针对云用户对云计算服务可信度的担忧，利用信息熵和马尔可夫链作为可信度评估方法，构建可信云服务属性模型，同时考虑了测量过程中可信度因素之间的不确定性和相关性。基于IaaS安全域动态策略和隐私保护的可信度量模型TMMDP，通过实时监控感知节点是否可信是必要的，但现有的可信认证机制缺乏对感知节点的实时测量和跟踪。

发明内容

发明目的：本发明的目的旨在提供安全性高、查询准确率高的基于信任扩展的安全存储与查询方法；本发明的另一目的旨在提供信任扩展安全存储与查询***，本发明的另一目的旨在提供信任扩展安全存储与查询计算机储存介质。

技术方案：本发明所述的基于信任扩展的安全存储与查询方法，包括以下步骤：

在原始文档基础上生成元数据文档并对其进行加密生成密文元数据；

为文档建立安全查询索引以供检索，并根据密文元数据生成密文倒排索引以供查询索引查询；

根据用户提交的查询关键字利用本体知识对信任语义层进行扩展，得到扩展关键字；

基于安全查询索引，根据扩展关键字利用密文倒排索引进行搜索，并根据相关性进行排序，返回与查询最相关的前N个文档。

其中，所述对文档预处理包括以下步骤：

将一个英文句子根据空格分隔分成若干个词，对未分词的文档加密上传；

将原语句中不影响语义的词过滤，包括标点、连词、助词、拟声词和语义词；

去除文档中出现频率低于预设值的单词，并上传关键字集；

使用文档中剩余的单词构建文档元数据，包括从文档中提取的关键词及其对应的词频信息、位置信息；

采用对称加密算法对文档元数据中的关键字进行加密。

其中，所述倒排索引构建包括以下步骤：

扫描密文元数据，按顺序提取关键字，形成密文关键字集；

对关键字提取包含改关键字的文档及其对应的词频信息和位置信息，作为元祖***到反向文档中；

对密文关键字与密文文档之间的逻辑指针连接使用与关键字加密同样的加密算法进行加密；

使用链表存储结构存储关键字与密文文档信息，形成链表密文索引结构，并对链表指针进行加密。

其中，所述信任扩展包括以下步骤：

使用信任扩展算法，接收用户的查询关键字，利用本体技术在信任语义上对关键字进行扩展，最后以原始查询关键字为中心输出一组新的查询关键字并提交给检索；

扩展结果过滤，可信语义相似度用来描述两个词之间的相似程度，取值范围在[0,1]之间，对扩展关键词进行从高到低的排序，并设置一个阈值，只有语义似是而非的相似度大于该阈值的词才能加入到最终的扩展关键词集中；

检索结果排序，使用构造的倒排索引对提交的查询关键字进行检索，并根据查询关键字与文档的相关性对文档进行排序，将排名靠前的N个文档返回给用户。

其中，所述信任扩展算法包括：

初始化可信语义树，以原始查询关键字为根节点；

对于根节点关键字多个意义项，执行将语义项上的同义词作为可信语义树的根节点的子节点，对存在该意义上的最高级，则将其添加到该意义作为根节点的子树中，对该意义上有一个较低的术语，将其添加到该意义的子树中作为根节点；

对于可信语义树上的每个节点，计算节点与原始查询关键字的相似度，对于设置阈值，当存在关键字大于阈值，则向扩展关键字集中添加该节点；

计算根节点与新根节点交集，作为新的查询关键字集；

使用加密算法对扩展关键字集进行加密，并提交给可信存储服务器。

根据本申请实施例的第二个方面，提供一种基于信任扩展的安全存储与查询方法的***，包括：数据预处理模块、索引与信任扩展模块以及数据储存模块；

数据预处理模块用于对文档预处理，在原始文档基础上生成元数据文档并对其进行加密生成密文元数据；

索引与信任扩展模块一方面用于倒排索引构建，为文档建立安全查询索引，并根据密文元数据生成密文倒排索引；

另一方面信任扩展，根据用户提交的查询关键字利用本体知识对信任语义层进行扩展；

数据储存模块用于检索结果排序，根据扩展关键字进行搜索，并根据相关性进行排序，返回与查询最相关的前N个文档。

其中，所述数据预处理模块包括数据提供单元，数据提供单元负责对文档一方面对原始文档进行加密，生成密文文档集合，并直接上传到可信服务器进行存储，另一方面进行预处理，包括为每个文档提取关键字，计算关键字的出现频率等信息，然后生成文档元数据，对文档元数据进行加密生成加密元数据，最后将加密元数据上传到安全芯片TPM进行索引构建。

其中，所述索引与信任扩展模块包括安全芯片TPM，安全芯片TPM一方面负责接收数据提供单元上传的加密元数据，然后基于该加密元数据构建一个安全的倒排索引，然后将索引上传到数据库中以进行后续的检索工作，另一方面负责接收到用户提交的查询关键字后，基于本体知识库对关键字进行可信扩展，生成一组新的查询关键字，并加密后向可信存储服务器提交查询请求。

其中，所述数据储存模块包括信任存储服务器，信任存储服务器负责存储密文文档集合和密文倒排索引文件，接收到安全芯片TPM提交的查询请求后，提取需要验证的数据块和元数据，检索密文文档，在检索中，计算关键字与文档的相关性，检索到的文档按照相关性进行排序，最后根据用户需求返回前N位的文档。

根据本申请实施例的第三个方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。

有益效果：与现有技术相比，本发明具有以下显著的进步：

(1)本发明在文档加密和上传过程中，通过对文档进行预处理，将文档进行分割筛选出关键字集并对关键字集的相关信息进行储存，这种对关键信息的加密和分散储存保证数据信息在上传和保存中的安全性；

(2)本发明在数据的索引和扩展的过程中，通过构件倒排索引加强了数据在检索过程中的安全性和效率；使用信任扩展算法，对查询的关键词进行扩展，扩展结果进行过滤和排序，提高了检索的效率和检索结果的准确率；

(3)本发明在结果检索过程中，引入本体技术在信任语义上对关键字进行扩展，最后以原始查询关键字为中心输出一组新的查询关键字并提交给检索，信任扩展算法通过设置阈值对扩展关键字集进行更新和加密，更好地表达用户的查询意图，提高查询准确率。

附图说明

图1为本发明的密文检索过程图；

图2为本发明基于信任扩展的安全存储与查询方法模型；

图3为本发明实施方案的密文索引与明文索引构建时间比较图；

图4为本发明实施方案的扩展尺度对精度的影响结果图；

图5为本发明实施方案的单关键字与可信扩展精度对比图。

具体实施方式

如图1所示，本发明中的基于信任扩展的安全存储与查询方法及装置操作步骤，包括以下步骤：

步骤1：文档预处理，负责在原始文档基础上生成元数据文档；

步骤2：倒排索引构建，负责为文档建立安全查询索引，并根据文档元数据生成密文倒排索引；

步骤3：信任扩展，负责根据用户提交的查询关键字利用本体知识对信任语义层进行扩展；

步骤4：检索结果排序，负责根据提交的查询关键字进行搜索，并根据相关性进行排序，返回与查询最相关的前N个文档。

步骤1中，文档预处理：

步骤1.1：分词，将一个英文句子根据空格分隔分成若干个词，对未分词的文档加密上传；

步骤1.2：停词过滤，将原语句中不影响语义的词过滤，包括标点、连词、助词、拟声词和语义词；

步骤1.3：词频计数，去除文档中出现频率低的单词，进一步缩小关键字集范围，并上传关键字集；

步骤1.4：生成文档元数据，使用文档中剩余的单词构建文档元数据，包括从文档中提取的关键词及其对应的词频信息、位置信息；

步骤1.5：生成密文元数据，采用对称加密算法对文档元数据中的关键字进行加密，加密解密速度更快。

步骤2中，倒排索引构建：

步骤2.1：扫描密文元数据，按顺序提取关键字，形成密文关键字集；

步骤2.2：对关键字提取包含改关键字的文档及其对应的词频信息和位置信息，作为元祖***到反向文档中；

步骤2.3：对密文关键字与密文文档之间的逻辑指针连接使用与关键字加密同样的加密算法进行加密；

步骤2.4：使用链表存储结构存储关键字与密文文档信息，形成链表密文索引结构，并对链表指针进行加密。

步骤3中，信任扩展：

步骤3.1：信任扩展算法，接收用户的查询关键字，利用本体技术在信任语义上对关键字进行扩展，最后以原始查询关键字为中心输出一组新的查询关键字并提交给检索；

步骤3.2：扩展结果过滤，可信语义相似度用来描述两个词之间的相似程度，取值范围在[0,1]之间，对扩展关键词进行从高到低的排序，并设置一个阈值，只有语义似是而非的相似度大于该阈值的词才能加入到最终的扩展关键词集中；

步骤3.3：检索结果排序，使用构造的倒排索引对提交的查询关键字进行检索，并根据查询关键字与文档的相关性对文档进行排序，将排名靠前的N个文档返回给用户。

步骤3.1.1：初始化可信语义树，以原始查询关键字为根节点；

步骤3.1.2：对于根节点关键字多个意义项，执行将语义项上的同义词作为可信语义树的根节点的子节点，对存在该意义上的最高级，则将其添加到该意义作为根节点的子树中，对该意义上有一个较低的术语，将其添加到该意义的子树中作为根节点；

步骤3.1.5：对于可信语义树上的每个节点，计算节点与原始查询关键字的相似度，对于设置阈值，当存在关键字大于阈值，则向扩展关键字集中添加该节点；

步骤3.1.6：计算根节点与新根节点交集，作为新的查询关键字集；

步骤3.1.7：使用加密算法对扩展关键字集进行加密，并提交给可信存储服务器。

步骤4中，检索结果排序：

步骤4.1：可信存储服务器接收到查询请求后，根据接收到的扩展关键字对整个索引文件进行搜索；

步骤4.2：计算查询关键字集与每个文档的综合相关性，并根据综合相关性值的大小对文档进行排序，返回用户最感兴趣的前N个文档。

如图2所示，是基于工控终端协同安全管控***基于信任扩展的安全存储与查询方法模型，包括数据所有者、安全芯片TPM、可信存储服务器以及用户。

数据所有者负责对文档一方面对原始文档进行加密，生成密文文档集合，并直接上传到可信服务器进行存储，另一方面进行预处理，包括为每个文档提取关键字，计算关键字的出现频率等信息，然后生成文档元数据，对文档元数据进行加密生成加密元数据，最后将加密元数据上传到安全芯片TPM进行索引构建。

安全芯片TPM一方面负责接收数据所有者上传的加密元数据，然后基于该加密元数据构建一个安全的倒排索引，然后将索引上传到数据库中以进行后续的检索工作，另一方面负责接收到用户提交的查询关键字后，基于本体知识库对关键字进行可信扩展，生成一组新的查询关键字，并加密后向可信存储服务器提交查询请求。

信任存储服务器负责存储密文文档集合和密文倒排索引文件，接收到安全芯片TPM提交的查询请求后，提取需要验证的数据块和元数据，检索密文文档，在检索中，计算关键字与文档的相关性，检索到的文档按照相关性进行排序，最后根据用户需求返回前N位的文档。

用户是被授权访问服务器中的数据的个人或组织，向安全芯片TPM提交查询关键字，并从可信存储服务器接收检索到的文档，在本地下载这些文档进行解密，然后使用。

图3是本发明实施方案的密文索引与明文索引构建时间比较图。分别构建文档集的明文索引和密文索引，并比较索引构建时间的变化。通过对比可以发现，密文索引和明文索引的构建时间随着文档集规模的扩大而增加，且呈正比例增加。密文索引和明文索引的构建时间相差不大。因为对于明文关键字和密文关键字，索引构建过程几乎相同。时间差主要是对关键字进行加密，加密时间的长短取决于加密算法本身的速度。

图4是本发明实施方案的扩展尺度对精度的影响结果图。通过设置不同的阈值来确定扩展关键字集中的关键字个数，从而找到最优的尺度范围。从图中可以看出，当扩展关键字的数量在16～24之间时，准确率较高。如果关键字数量太少，查询意图就不能完全表达出来。如果关键词数量过多，就会产生噪声，使查询的可信语义偏离初衷。因此，通过设置阈值来控制这个范围内关键字扩展的数量，以达到较高的精度。

如图5所示为本发明实施方案的单关键字与可信扩展精度对比图。对测试文档集分别进行单关键字检索和可信扩展检索。计算返回前10、15、20、25、30个文档的时间。由图可以发现，可信扩展方***率较单一关键字有明显提高，为用户提供了更准确的检索结果。通过分析，可以得出可信扩展提高精度方案在索引性能和检索性能方面是可行和有效的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.基于信任扩展的安全存储与查询方法，其特征在于：包括以下步骤：

为文档建立安全查询索引，并根据密文元数据生成密文倒排索引；

2.根据权利要求1所述的基于信任扩展的安全存储与查询方法，其特征在于，所述对文档预处理包括以下步骤：

去除文档中出现频率低于预设值的单词，并上传关键字集；

采用对称加密算法对文档元数据中的关键字进行加密。

3.根据权利要求1所述的基于信任扩展的安全存储与查询方法，其特征在于，所述倒排索引构建包括以下步骤：

扫描密文元数据，按顺序提取关键字，形成密文关键字集；

对关键字提取包含改关键字的文档及其对应的词频信息和位置信息，作为元组***到反向文档中；

4.根据权利要求1所述的基于信任扩展的安全存储与查询方法，其特征在于，所述信任扩展包括以下步骤：

5.根据权利要求4所述的基于信任扩展的安全存储与查询方法，其特征在于，所述信任扩展算法包括：

初始化可信语义树，以原始查询关键字为根节点；

计算根节点与新根节点交集，作为新的查询关键字集；

6.应用于根据权利要求1～5任意一项所述的基于信任扩展的安全存储与查询方法的***，其特征在于，包括：数据预处理模块、索引与信任扩展模块以及数据储存模块；

7.根据权利要求6所述的信任扩展安全存储***，其特征在于，所述数据预处理模块包括数据提供单元，数据提供单元负责对文档一方面对原始文档进行加密，生成密文文档集合，并直接上传到可信服务器进行存储，另一方面进行预处理，包括为每个文档提取关键字，计算关键字的出现频率等信息，然后生成文档元数据，对文档元数据进行加密生成加密元数据，最后将加密元数据上传到安全芯片TPM进行索引构建。

8.根据权利要求6所述的信任扩展安全存储***，其特征在于，所述索引与信任扩展模块包括安全芯片TPM，安全芯片TPM一方面负责接收数据提供单元上传的加密元数据，然后基于该加密元数据构建一个安全的倒排索引，然后将索引上传到数据库中以进行后续的检索工作，另一方面负责接收到用户提交的查询关键字后，基于本体知识库对关键字进行可信扩展，生成一组新的查询关键字，并加密后向可信存储服务器提交查询请求。

9.根据权利要求6所述的信任扩展安全存储***，其特征在于，所述数据储存模块包括信任存储服务器，信任存储服务器负责存储密文文档集合和密文倒排索引文件，接收到安全芯片TPM提交的查询请求后，提取需要验证的数据块和元数据，检索密文文档，在检索中，计算关键字与文档的相关性，检索到的文档按照相关性进行排序，最后根据用户需求返回前N位的文档。

10.计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。