CN113127421A

CN113127421A - 一种存储***检索文件内容的方法和设备

Info

Publication number: CN113127421A
Application number: CN202110354363.5A
Authority: CN
Inventors: 王勇
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-16

Abstract

本发明提供了一种存储***检索文件内容的方法和设备，该方法包括：将存储***中的每个文件内容按照预设大小划分成多个部分；计算每个部分的Hash值，并将计算得到的Hash值在存储***中进行匹配；响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值，将计算得到的Hash值保存到存储***中；基于文件内容和计算得到的Hash值建立文件Hash值链表；响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。通过使用本发明的方案，能够节省数据的存储空间，提高文件的检索效率，提高产品竞争力。

Description

一种存储***检索文件内容的方法和设备

技术领域

本领域涉及计算机领域，并且更具体地涉及一种存储***检索文件内容的方法和设备。

背景技术

在云计算时代，海量数据的产生即需要大容量的存储空间，也需要在海量的数据中快速的检索所目标文件内容。传统的文件检索采用目录树的方式，将文件的大小、时间信息甚至文件本身的结构化信息存入文件的元数据区域。这种方式可以很好的进行文件的文件名检索和文件内容特定关键信息的检索，但随着目录树的层数加深，文件的检索效率也将大大折扣，而且也不能对整个文件内容进行检索，也存在重复内容的文件占用存储空间的问题。

发明内容

有鉴于此，本发明实施例的目的在于提出一种存储***检索文件内容的方法和设备，通过使用本发明的技术方案，能够节省数据的存储空间，提高文件的检索效率，提高产品竞争力。

基于上述目的，本发明的实施例的一个方面提供了一种存储***检索文件内容的方法，包括以下步骤：

将存储***中的每个文件内容按照预设大小划分成多个部分；

计算每个部分的Hash值，并将计算得到的Hash值在存储***中进行匹配；

响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值，将计算得到的Hash值保存到存储***中；

基于文件内容和计算得到的Hash值建立文件Hash值链表；

响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。

根据本发明的一个实施例，还包括：

记录每个部分在文件中的顺序。

根据本发明的一个实施例，基于文件内容和计算得到的Hash值建立文件Hash值链表包括：

将文件中的每个部分的Hash值按照顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。

根据本发明的一个实施例，响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件包括：

将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配；

响应于第一个检索词的Hash值在文件Hash值链表中存在，返回第一个检索词的Hash值对应的文件名称；

将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配；

响应于第二个检索词的Hash值在文件Hash值链表中存在，返回第二个检索词的Hash值对应的文件名称；

继续依次匹配其他关键词的Hash值直到检索到目标文件。

根据本发明的一个实施例，还包括：

将计算得到的Hash值通过Base58进行编码。

本发明的实施例的另一个方面，还提供了一种存储***检索文件内容的设备，设备包括：

划分模块，划分模块配置为将存储***中的每个文件内容按照预设大小划分成多个部分；

计算模块，计算模块配置为计算每个部分的Hash值，并将计算得到的Hash值在存储***中进行匹配；

存储模块，存储模块配置为响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值，将计算得到的Hash值保存到存储***中；

创建模块，创建模块配置为基于文件内容和计算得到的Hash值建立文件Hash值链表；

匹配模块，匹配模块配置为响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。

根据本发明的一个实施例，还包括记录模块，记录模块配置为：

记录每个部分在文件中的顺序。

根据本发明的一个实施例，创建模块还配置为：

将文件中的每个部分的Hash值按照顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。

根据本发明的一个实施例，匹配模块还配置为：

继续依次匹配其他关键词的Hash值直到检索到目标文件。

根据本发明的一个实施例，还包括编码模块，编码模块配置为：

将计算得到的Hash值通过Base58进行编码。

本发明具有以下有益技术效果：本发明实施例提供的存储***检索文件内容的方法，通过将存储***中的每个文件内容按照预设大小划分成多个部分；计算每个部分的Hash值，并将计算得到的Hash值在存储***中进行匹配；响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值，将计算得到的Hash值保存到存储***中；基于文件内容和计算得到的Hash值建立文件Hash值链表；响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件的技术方案，能够节省数据的存储空间，提高文件的检索效率，提高产品竞争力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的存储***检索文件内容的方法的示意性流程图；

图2为根据本发明一个实施例的存储***检索文件内容的设备的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种存储***检索文件内容的方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

S1将存储***中的每个文件内容按照预设大小划分成多个部分。

如果文件内容是英文内容可以按照每个英文单词进行划分，但是检索词必须是以单个单词为检索词，如果文件内容是中文内容可以按照句号进行划分，但是检索词必须是以文件内容中的某个完整的句子作为检索词。

S2计算每个部分的Hash值，并将计算得到的Hash值在存储***中进行匹配。

将文件切割成多个部分后，计算每个部分的Hash值，然后查看新计算出来的Hash值是否已经在***中存在。

S3响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值，将计算得到的Hash值保存到存储***中。

如果新计算的Hash值没有在***中，则将新计算的Hash值保存到***中，如果新计算的Hash值已经在***中存在，则将新计算的Hash值删除以保证***中相同的内容只有一份Hash值，在大量数据的情况下，可以节省数据的存储空间。

S4基于文件内容和计算得到的Hash值建立文件Hash值链表。

在将文件切分成多个部分时需要记录每个部分在文件中的顺序，然后将文件中的每个部分的Hash值按照顺序进行排列，建立每个部分的Hash值与每个部分的文件内容的对应关系，在检索时，如果Hash值匹配还可以显示Hash值对应的内容以及该Hash值后面一定数量Hash值对应的内容，这样可以更快速的查看检索到的文件内容是否是目标文件。Hash值链表还可以设计成一种文件数据结构，该结构包含Hash值、data、Links，Hash值为该文件内容第一子部分的Hash值，data存放子文件内容，Links存放其他子内容的Hash值，每个文件的Links部分包含其子文件的Hash值链接信息，不同的完整文件，如果包含相同的子文件内容，则Links部分指向相同的子文件Hash值链接信息。

S5响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。

将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配；响应于第一个检索词的Hash值在文件Hash值链表中存在，返回第一个检索词的Hash值对应的文件名称；将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配；响应于第二个检索词的Hash值在文件Hash值链表中存在，返回第二个检索词的Hash值对应的文件名称；继续匹配其他关键词的Hash值直到检索到目标文件。如果没有检索到目标文件，则返回提示。

通过本发明的技术方案，能够节省数据的存储空间，提高文件的检索效率，提高产品竞争力。

在本发明的一个优选实施例中，还包括：

记录每个部分在文件中的顺序。该顺序为每个部分的内容在文件中的先后顺序。

在本发明的一个优选实施例中，基于文件内容和计算得到的Hash值建立文件Hash值链表包括：

将文件中的每个部分的Hash值按照顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。文件Hash值链表中还包含文件名称的信息，无论检索时匹配到了哪个部分的Hash值都会返回该部分对应的文件名。

在本发明的一个优选实施例中，响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件包括：

继续依次匹配其他关键词的Hash值直到检索到目标文件。

在本发明的一个优选实施例中，还包括：

将计算得到的Hash值通过Base58进行编码。利用Base58编码对Hash值进行转换可以使Hash值长度变小，如果文件存储时进行了编码转换，则检索的关键词也需要进行编码转换。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种存储***检索文件内容的设备，如图2所示，设备200包括：

在本发明的一个优选实施例中，还包括记录模块，记录模块配置为：

记录每个部分在文件中的顺序。

在本发明的一个优选实施例中，创建模块还配置为：

将文件中的每个部分的Hash值按照顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。

在本发明的一个优选实施例中，匹配模块还配置为：

继续依次匹配其他关键词的Hash值直到检索到目标文件。

在本发明的一个优选实施例中，还包括编码模块，编码模块配置为：

将计算得到的Hash值通过Base58进行编码。

上述实施例，特别是任何“优选”实施例是实现的可能示例，并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims

1.一种存储***检索文件内容的方法，其特征在于，包括以下步骤：

将存储***中的每个文件内容按照预设大小划分成多个部分；

计算每个部分的Hash值，并将计算得到的Hash值在所述存储***中进行匹配；

响应于所述存储***中没有匹配到与所述计算得到的Hash值相同的Hash值，将所述计算得到的Hash值保存到所述存储***中；

基于文件内容和所述计算得到的Hash值建立文件Hash值链表；

响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件。

2.根据权利要求1所述的方法，其特征在于，还包括：

记录每个部分在文件中的顺序。

3.根据权利要求2所述的方法，其特征在于，基于文件内容和所述计算得到的Hash值建立文件Hash值链表包括：

将文件中的每个部分的Hash值按照所述顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。

4.根据权利要求1所述的方法，其特征在于，响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件包括：

响应于第一个检索词的Hash值在文件Hash值链表中存在，返回所述第一个检索词的Hash值对应的文件名称；

响应于第二个检索词的Hash值在文件Hash值链表中存在，返回所述第二个检索词的Hash值对应的文件名称；

继续依次匹配其他关键词的Hash值直到检索到目标文件。

5.根据权利要求1所述的方法，其特征在于，还包括：

将计算得到的Hash值通过Base58进行编码。

6.一种存储***检索文件内容的设备，其特征在于，所述设备包括：

划分模块，所述划分模块配置为将存储***中的每个文件内容按照预设大小划分成多个部分；

计算模块，所述计算模块配置为计算每个部分的Hash值，并将计算得到的Hash值在所述存储***中进行匹配；

存储模块，所述存储模块配置为响应于所述存储***中没有匹配到与所述计算得到的Hash值相同的Hash值，将所述计算得到的Hash值保存到所述存储***中；

创建模块，所述创建模块配置为基于文件内容和所述计算得到的Hash值建立文件Hash值链表；

匹配模块，所述匹配模块配置为响应于接收到检索文件的指令，计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件。

7.根据权利要求6所述的设备，其特征在于，还包括记录模块，所述记录模块配置为：

记录每个部分在文件中的顺序。

8.根据权利要求7所述的设备，其特征在于，所述创建模块还配置为：

将文件中的每个部分的Hash值按照所述顺序进行排列；

建立每个部分的Hash值与每个部分的文件内容的对应关系。

9.根据权利要求6所述的设备，其特征在于，所述匹配模块还配置为：

继续依次匹配其他关键词的Hash值直到检索到目标文件。

10.根据权利要求6所述的设备，其特征在于，还包括编码模块，所述编码模块配置为：

将计算得到的Hash值通过Base58进行编码。