CN113127421A - 一种存储***检索文件内容的方法和设备 - Google Patents

一种存储***检索文件内容的方法和设备 Download PDF

Info

Publication number
CN113127421A
CN113127421A CN202110354363.5A CN202110354363A CN113127421A CN 113127421 A CN113127421 A CN 113127421A CN 202110354363 A CN202110354363 A CN 202110354363A CN 113127421 A CN113127421 A CN 113127421A
Authority
CN
China
Prior art keywords
hash value
file
storage system
search word
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110354363.5A
Other languages
English (en)
Inventor
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110354363.5A priority Critical patent/CN113127421A/zh
Publication of CN113127421A publication Critical patent/CN113127421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种存储***检索文件内容的方法和设备,该方法包括:将存储***中的每个文件内容按照预设大小划分成多个部分;计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配;响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中;基于文件内容和计算得到的Hash值建立文件Hash值链表;响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。通过使用本发明的方案,能够节省数据的存储空间,提高文件的检索效率,提高产品竞争力。

Description

一种存储***检索文件内容的方法和设备
技术领域
本领域涉及计算机领域,并且更具体地涉及一种存储***检索文件内容的方法和设备。
背景技术
在云计算时代,海量数据的产生即需要大容量的存储空间,也需要在海量的数据中快速的检索所目标文件内容。传统的文件检索采用目录树的方式,将文件的大小、时间信息甚至文件本身的结构化信息存入文件的元数据区域。这种方式可以很好的进行文件的文件名检索和文件内容特定关键信息的检索,但随着目录树的层数加深,文件的检索效率也将大大折扣,而且也不能对整个文件内容进行检索,也存在重复内容的文件占用存储空间的问题。
发明内容
有鉴于此,本发明实施例的目的在于提出一种存储***检索文件内容的方法和设备,通过使用本发明的技术方案,能够节省数据的存储空间,提高文件的检索效率,提高产品竞争力。
基于上述目的,本发明的实施例的一个方面提供了一种存储***检索文件内容的方法,包括以下步骤:
将存储***中的每个文件内容按照预设大小划分成多个部分;
计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配;
响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中;
基于文件内容和计算得到的Hash值建立文件Hash值链表;
响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。
根据本发明的一个实施例,还包括:
记录每个部分在文件中的顺序。
根据本发明的一个实施例,基于文件内容和计算得到的Hash值建立文件Hash值链表包括:
将文件中的每个部分的Hash值按照顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。
根据本发明的一个实施例,响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件包括:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
根据本发明的一个实施例,还包括:
将计算得到的Hash值通过Base58进行编码。
本发明的实施例的另一个方面,还提供了一种存储***检索文件内容的设备,设备包括:
划分模块,划分模块配置为将存储***中的每个文件内容按照预设大小划分成多个部分;
计算模块,计算模块配置为计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配;
存储模块,存储模块配置为响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中;
创建模块,创建模块配置为基于文件内容和计算得到的Hash值建立文件Hash值链表;
匹配模块,匹配模块配置为响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。
根据本发明的一个实施例,还包括记录模块,记录模块配置为:
记录每个部分在文件中的顺序。
根据本发明的一个实施例,创建模块还配置为:
将文件中的每个部分的Hash值按照顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。
根据本发明的一个实施例,匹配模块还配置为:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
根据本发明的一个实施例,还包括编码模块,编码模块配置为:
将计算得到的Hash值通过Base58进行编码。
本发明具有以下有益技术效果:本发明实施例提供的存储***检索文件内容的方法,通过将存储***中的每个文件内容按照预设大小划分成多个部分;计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配;响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中;基于文件内容和计算得到的Hash值建立文件Hash值链表;响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件的技术方案,能够节省数据的存储空间,提高文件的检索效率,提高产品竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的存储***检索文件内容的方法的示意性流程图;
图2为根据本发明一个实施例的存储***检索文件内容的设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种存储***检索文件内容的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1将存储***中的每个文件内容按照预设大小划分成多个部分。
如果文件内容是英文内容可以按照每个英文单词进行划分,但是检索词必须是以单个单词为检索词,如果文件内容是中文内容可以按照句号进行划分,但是检索词必须是以文件内容中的某个完整的句子作为检索词。
S2计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配。
将文件切割成多个部分后,计算每个部分的Hash值,然后查看新计算出来的Hash值是否已经在***中存在。
S3响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中。
如果新计算的Hash值没有在***中,则将新计算的Hash值保存到***中,如果新计算的Hash值已经在***中存在,则将新计算的Hash值删除以保证***中相同的内容只有一份Hash值,在大量数据的情况下,可以节省数据的存储空间。
S4基于文件内容和计算得到的Hash值建立文件Hash值链表。
在将文件切分成多个部分时需要记录每个部分在文件中的顺序,然后将文件中的每个部分的Hash值按照顺序进行排列,建立每个部分的Hash值与每个部分的文件内容的对应关系,在检索时,如果Hash值匹配还可以显示Hash值对应的内容以及该Hash值后面一定数量Hash值对应的内容,这样可以更快速的查看检索到的文件内容是否是目标文件。Hash值链表还可以设计成一种文件数据结构,该结构包含Hash值、data、Links,Hash值为该文件内容第一子部分的Hash值,data存放子文件内容,Links存放其他子内容的Hash值,每个文件的Links部分包含其子文件的Hash值链接信息,不同的完整文件,如果包含相同的子文件内容,则Links部分指向相同的子文件Hash值链接信息。
S5响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;响应于第一个检索词的Hash值在文件Hash值链表中存在,返回第一个检索词的Hash值对应的文件名称;将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;响应于第二个检索词的Hash值在文件Hash值链表中存在,返回第二个检索词的Hash值对应的文件名称;继续匹配其他关键词的Hash值直到检索到目标文件。如果没有检索到目标文件,则返回提示。
通过本发明的技术方案,能够节省数据的存储空间,提高文件的检索效率,提高产品竞争力。
在本发明的一个优选实施例中,还包括:
记录每个部分在文件中的顺序。该顺序为每个部分的内容在文件中的先后顺序。
在本发明的一个优选实施例中,基于文件内容和计算得到的Hash值建立文件Hash值链表包括:
将文件中的每个部分的Hash值按照顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。文件Hash值链表中还包含文件名称的信息,无论检索时匹配到了哪个部分的Hash值都会返回该部分对应的文件名。
在本发明的一个优选实施例中,响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件包括:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
在本发明的一个优选实施例中,还包括:
将计算得到的Hash值通过Base58进行编码。利用Base58编码对Hash值进行转换可以使Hash值长度变小,如果文件存储时进行了编码转换,则检索的关键词也需要进行编码转换。
通过本发明的技术方案,能够节省数据的存储空间,提高文件的检索效率,提高产品竞争力。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种存储***检索文件内容的设备,如图2所示,设备200包括:
划分模块,划分模块配置为将存储***中的每个文件内容按照预设大小划分成多个部分;
计算模块,计算模块配置为计算每个部分的Hash值,并将计算得到的Hash值在存储***中进行匹配;
存储模块,存储模块配置为响应于存储***中没有匹配到与计算得到的Hash值相同的Hash值,将计算得到的Hash值保存到存储***中;
创建模块,创建模块配置为基于文件内容和计算得到的Hash值建立文件Hash值链表;
匹配模块,匹配模块配置为响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在文件Hash值链表中进行匹配以检索文件。
在本发明的一个优选实施例中,还包括记录模块,记录模块配置为:
记录每个部分在文件中的顺序。
在本发明的一个优选实施例中,创建模块还配置为:
将文件中的每个部分的Hash值按照顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。
在本发明的一个优选实施例中,匹配模块还配置为:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
在本发明的一个优选实施例中,还包括编码模块,编码模块配置为:
将计算得到的Hash值通过Base58进行编码。
上述实施例,特别是任何“优选”实施例是实现的可能示例,并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (10)

1.一种存储***检索文件内容的方法,其特征在于,包括以下步骤:
将存储***中的每个文件内容按照预设大小划分成多个部分;
计算每个部分的Hash值,并将计算得到的Hash值在所述存储***中进行匹配;
响应于所述存储***中没有匹配到与所述计算得到的Hash值相同的Hash值,将所述计算得到的Hash值保存到所述存储***中;
基于文件内容和所述计算得到的Hash值建立文件Hash值链表;
响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件。
2.根据权利要求1所述的方法,其特征在于,还包括:
记录每个部分在文件中的顺序。
3.根据权利要求2所述的方法,其特征在于,基于文件内容和所述计算得到的Hash值建立文件Hash值链表包括:
将文件中的每个部分的Hash值按照所述顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。
4.根据权利要求1所述的方法,其特征在于,响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件包括:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回所述第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回所述第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
5.根据权利要求1所述的方法,其特征在于,还包括:
将计算得到的Hash值通过Base58进行编码。
6.一种存储***检索文件内容的设备,其特征在于,所述设备包括:
划分模块,所述划分模块配置为将存储***中的每个文件内容按照预设大小划分成多个部分;
计算模块,所述计算模块配置为计算每个部分的Hash值,并将计算得到的Hash值在所述存储***中进行匹配;
存储模块,所述存储模块配置为响应于所述存储***中没有匹配到与所述计算得到的Hash值相同的Hash值,将所述计算得到的Hash值保存到所述存储***中;
创建模块,所述创建模块配置为基于文件内容和所述计算得到的Hash值建立文件Hash值链表;
匹配模块,所述匹配模块配置为响应于接收到检索文件的指令,计算每个检索词的Hash值并将每个检索词的Hash值在所述文件Hash值链表中进行匹配以检索文件。
7.根据权利要求6所述的设备,其特征在于,还包括记录模块,所述记录模块配置为:
记录每个部分在文件中的顺序。
8.根据权利要求7所述的设备,其特征在于,所述创建模块还配置为:
将文件中的每个部分的Hash值按照所述顺序进行排列;
建立每个部分的Hash值与每个部分的文件内容的对应关系。
9.根据权利要求6所述的设备,其特征在于,所述匹配模块还配置为:
将检索词的Hash值中的第一个在所有的文件Hash值链表中进行匹配;
响应于第一个检索词的Hash值在文件Hash值链表中存在,返回所述第一个检索词的Hash值对应的文件名称;
将检索词的Hash值中的第二个在返回的文件名称的文件Hash值链表中进行匹配;
响应于第二个检索词的Hash值在文件Hash值链表中存在,返回所述第二个检索词的Hash值对应的文件名称;
继续依次匹配其他关键词的Hash值直到检索到目标文件。
10.根据权利要求6所述的设备,其特征在于,还包括编码模块,所述编码模块配置为:
将计算得到的Hash值通过Base58进行编码。
CN202110354363.5A 2021-04-01 2021-04-01 一种存储***检索文件内容的方法和设备 Pending CN113127421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110354363.5A CN113127421A (zh) 2021-04-01 2021-04-01 一种存储***检索文件内容的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110354363.5A CN113127421A (zh) 2021-04-01 2021-04-01 一种存储***检索文件内容的方法和设备

Publications (1)

Publication Number Publication Date
CN113127421A true CN113127421A (zh) 2021-07-16

Family

ID=76774536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110354363.5A Pending CN113127421A (zh) 2021-04-01 2021-04-01 一种存储***检索文件内容的方法和设备

Country Status (1)

Country Link
CN (1) CN113127421A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索***
CN103246730A (zh) * 2013-05-08 2013-08-14 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
CN103384256A (zh) * 2012-05-02 2013-11-06 天津书生投资有限公司 一种云存储方法及装置
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法
CN105279213A (zh) * 2015-03-13 2016-01-27 ***通信集团广东有限公司 一种日志数据库检索装置及检索方法
CN106202173A (zh) * 2016-06-26 2016-12-07 厦门天锐科技股份有限公司 一种文件仓库存储的智能排重方法及***
CN106484827A (zh) * 2016-09-28 2017-03-08 北京金山安全软件有限公司 检索方法以及装置、终端
CN107862061A (zh) * 2017-11-15 2018-03-30 深圳市华讯方舟软件信息有限公司 一种数据库的索引文件建立方法及检索方法
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN109241023A (zh) * 2018-09-21 2019-01-18 郑州云海信息技术有限公司 分布式存储***数据存储方法、装置、***及存储介质
CN111680198A (zh) * 2020-04-29 2020-09-18 浙江海洋大学 基于文件分割与特征提取的档案管理***及方法
CN112035598A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种智能语义检索方法、***和电子设备
CN112328548A (zh) * 2021-01-05 2021-02-05 统信软件技术有限公司 一种文件检索方法及计算设备
CN112506864A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 文件检索的方法、装置、电子设备及可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索***
CN103384256A (zh) * 2012-05-02 2013-11-06 天津书生投资有限公司 一种云存储方法及装置
CN103246730A (zh) * 2013-05-08 2013-08-14 网易(杭州)网络有限公司 文件存储方法和设备、文件发送方法和设备
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法
CN105279213A (zh) * 2015-03-13 2016-01-27 ***通信集团广东有限公司 一种日志数据库检索装置及检索方法
CN106202173A (zh) * 2016-06-26 2016-12-07 厦门天锐科技股份有限公司 一种文件仓库存储的智能排重方法及***
CN106484827A (zh) * 2016-09-28 2017-03-08 北京金山安全软件有限公司 检索方法以及装置、终端
CN107862061A (zh) * 2017-11-15 2018-03-30 深圳市华讯方舟软件信息有限公司 一种数据库的索引文件建立方法及检索方法
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN109241023A (zh) * 2018-09-21 2019-01-18 郑州云海信息技术有限公司 分布式存储***数据存储方法、装置、***及存储介质
CN111680198A (zh) * 2020-04-29 2020-09-18 浙江海洋大学 基于文件分割与特征提取的档案管理***及方法
CN112035598A (zh) * 2020-11-03 2020-12-04 北京淇瑀信息科技有限公司 一种智能语义检索方法、***和电子设备
CN112506864A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 文件检索的方法、装置、电子设备及可读存储介质
CN112328548A (zh) * 2021-01-05 2021-02-05 统信软件技术有限公司 一种文件检索方法及计算设备

Similar Documents

Publication Publication Date Title
US9195738B2 (en) Tokenization platform
US7130867B2 (en) Information component based data storage and management
US7788262B1 (en) Method and system for creating context based summary
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
US9298757B1 (en) Determining similarity of linguistic objects
CN103077199A (zh) 一种文件资源查找定位方法及装置
US20070174261A1 (en) Database retrieval apparatus, retrieval method, storage medium, and progam
CN107357843B (zh) 基于数据流结构的海量网络数据查找方法
CN110888837B (zh) 对象存储小文件归并方法及装置
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN112416880A (zh) 一种基于实时归并的海量小文件存储性能优化方法及装置
CN116431726A (zh) 一种图数据处理方法、装置、设备及计算机存储介质
US8914377B2 (en) Methods for prefix indexing
US8594239B2 (en) Estimating document similarity using bit-strings
CN113127421A (zh) 一种存储***检索文件内容的方法和设备
WO2013097065A1 (zh) 一种索引数据处理方法及设备
CN114416741A (zh) 基于多级索引的kv数据写入读取方法、装置及存储介质
CN114416676A (zh) 数据处理方法、装置、设备和存储介质
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质
CN115543993A (zh) 数据处理方法、装置、电子设备及存储介质
CN103891244B (zh) 一种进行数据存储和检索的方法及装置
CN113448957A (zh) 一种数据查询方法和装置
US20140081986A1 (en) Computing device and method for generating sequence indexes for data files
US11816158B2 (en) Metadata tagging of document within search engine
CN118312483A (zh) 文件检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716

RJ01 Rejection of invention patent application after publication