CN108038188A - 一种文件处理方法及装置 - Google Patents

一种文件处理方法及装置 Download PDF

Info

Publication number
CN108038188A
CN108038188A CN201711306239.1A CN201711306239A CN108038188A CN 108038188 A CN108038188 A CN 108038188A CN 201711306239 A CN201711306239 A CN 201711306239A CN 108038188 A CN108038188 A CN 108038188A
Authority
CN
China
Prior art keywords
file
blocks
files
information
index information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711306239.1A
Other languages
English (en)
Inventor
王同庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201711306239.1A priority Critical patent/CN108038188A/zh
Publication of CN108038188A publication Critical patent/CN108038188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的文件处理方法及装置,在对文件进行存储处理时,对文件进行内容分块并为分块所得的各文件块建立索引信息,在此基础上,对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件;后续具体通过对文件对应的各文件块索引信息进行查询,来实现所需的文件查询。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件,从而与存储原始文件的传统存储方式相比,可有效节约存储空间,同时,由于本发明对文件的各文件块索引信息而非原始文件进行查询,从而可提升文件查询效率,鉴于此,本发明可实现低成本、高效率地存储和查询各种数据文件。

Description

一种文件处理方法及装置
技术领域
本发明属于数据文件的存储、查询技术领域,尤其涉及一种文件处理方法及装置。
背景技术
在当前的互联网及信息化时代,产生了大量的文字信息,进而产生了大量的数据文件,其中word\excel\txt\html\java\xml\css是最基本和常用的形式。
对于这些大量的数据文件而言,必然面临着数据文件的存储和查询问题,目前市面上一般通过谷歌、百度等公司提供的商业化文件存储和查询服务,来进行数据文档的存储和查询,但是对于中小企业而言,目前的这些商业化存储和查询服务普遍存在费用较高,文件占用空间大,查询搜索速度慢等缺点。
因此,本领域亟需提供一种较优的数据文件处理方法,以满足中小企业在文件存储及查询方面的需求,实现低成本、高效率地存储和查询各种数据文件。
发明内容
有鉴于此,本发明的目的在于提供一种文件处理方法及装置,旨在实现能够低成本、高效率地存储和查询各种数据文件。
为此,本发明公开如下技术方案:
一种文件处理方法,用于实现文件存储,所述方法包括:
获得待处理文件;
对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息;
为每个文件块建立索引信息,得到每个文件块的文件块索引信息;
将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储;
对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
上述方法,优选的,所述获得待处理文件,包括:
获得用户向文件服务器上传的待处理文件。
上述方法,优选的,所述对所述待处理文件进行内容分块处理,包括:
基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块;其中,每个文件块的数据量不高于所述数据量阈值;
上述方法,优选的,所述为每个文件块建立索引信息,得到每个文件块的文件块索引信息,包括:
对每个文件块进行切词处理,得到所述每个文件块对应的关键字列表;
根据所述每个文件块对应的关键字列表,为所述每个文件块建立关键字索引。
一种文件处理方法,用于实现文件查询,所述用于实现文件查询的文件处理方法包括:
获得用户输入的文件查询信息;
利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果;
根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
上述方法,优选的,所述获得用户输入的文件查询信息,包括:
获得用户输入的用于进行文件查询的关键字。
上述方法,优选的,所述文件块索引信息为关键字索引,则所述利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果,包括:
在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,得到每个文件的文件块索引信息与所述关键字的匹配信息,并将所述匹配信息作为所述文件块索引信息查询结果。
上述方法,优选的,所述在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,包括:
基于用户输入的所述关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
上述方法,优选的,所述根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果,包括:
根据各个文件的文件块索引信息与所述关键字的匹配信息,获得各个文件与所述关键字的匹配度;
根据各个文件与所述关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行排序,并将文件目录排序结果作为文件查询结果输出。
上述方法,优选的,还包括:
在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
一种文件处理装置,用于实现文件存储,所述装置包括:
第一获取单元,用于获得待处理文件;
文件分块单元,用于对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息;
索引建立单元,用于为每个文件块建立索引信息,得到每个文件块的文件块索引信息;
存储单元,用于将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储;以及对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
上装装置,优选的,所述第一获取单元,具体用于:
获得用户向文件服务器上传的待处理文件。
上装装置,优选的,所述文件分块单元,具体用于:
基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块;其中,每个文件块的数据量不高于所述数据量阈值。
上装装置,优选的,所述索引建立单元,具体用于:
对每个文件块进行切词处理,得到所述每个文件块对应的关键字列表;根据所述每个文件块对应的关键字列表,为所述每个文件块建立关键字索引。
一种文件处理装置,用于实现文件查询,所述用于实现文件查询的文件处理装置包括:
第二获取单元,用于获得用户输入的文件查询信息;
查询单元,用于利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果;
查询结果生成单元,用于根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
上装装置,优选的,所述第二获取单元具体用于:
获得用户输入的用于进行文件查询的关键字。
上装装置,优选的,所述文件块索引信息为关键字索引,则所述查询单元,具体用于:
在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,得到每个文件的文件块索引信息与所述关键字的匹配信息,并将所述匹配信息作为所述文件块索引信息查询结果。
上装装置,优选的,所述查询单元,在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,具体包括:
基于用户输入的所述关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
上装装置,优选的,所述查询结果生成单元,具体用于:
根据各个文件的文件块索引信息与所述关键字的匹配信息,获得各个文件与所述关键字的匹配度;根据各个文件与所述关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行排序,并将文件目录排序结果作为文件查询结果输出。
上装装置,优选的,还包括:
文件下载单元,用于在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
由以上方案可知,本发明提供的文件处理方法及装置,在对文件进行存储处理时,对文件进行内容分块并为分块所得的各文件块建立索引信息,在此基础上,对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件;后续具体通过对文件对应的各文件块索引信息进行查询,来实现所需的文件查询。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件,从而与存储原始文件的传统存储方式相比,可有效节约存储空间,同时,由于本发明对文件的各文件块索引信息而非原始文件进行查询,从而可提升文件查询效率,鉴于此,本发明可实现低成本、高效率地存储和查询各种数据文件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的用于实现文件存储的文件处理方法流程图;
图2是本发明实施例提供的用户上传文件到文件服务器的示意图;
图3是本发明实施例提供的对文件内容进行分块并建立关键词索引的示意图;
图4是本发明实施例提供的将文件目录、文件分块信息和索引信息对应存入至数据库的示意图;
图5是本发明实施例提供的用于实现文件查询的一种文件处理方法流程图;
图6是本发明实施例提供的根据用户输入的关键字,对文件的各文件块索引信息进行查询的示意图;
图7是本发明实施例提供的将查询结果信息输出至用户终端的示意图;
图8是本发明实施例提供的用于实现文件查询的另一种文件处理方法流程图;
图9是本发明实施例提供的用于实现文件查询的又一种文件处理方法流程图;
图10是本发明实施例提供的用于实现文件存储的文件处理装置的结构示意图;
图11-图12是本发明实施例提供的用于实现文件查询的文件处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文件处理方法及装置,旨在实现能够低成本、高效率地存储和查询各种数据文件,以满足中小企业在文件存储及查询方面的需求,以下将通过多个实施例对本发明的文件处理方法及装置进行详细说明。
在本发明的一个实施例中,提供一种用于实现文件存储的文件处理方法,参考图1示出的本实施例中一种文件处理方法的流程图,该方法包括以下步骤:
步骤101、获得待处理文件。
所述待处理文件可以是但不限于用户上传至文件服务器的文件,例如,参考图2,具体可以是用户从其本地电脑中选择并上传至文件服务器的文件。实际应用中,在用户进行文件的选择及上传时,并不限于一次仅能选择并上传一个文件,一般还可支持用户同时选择多个文件,以使得用户可以一次上传多个文件,例如,具体可支持用户一次选择并上传10个文件等。
其中,文件服务器可支持多种类型文件的上传及存储,具体地,比如可以支持word\excel\txt\html\java\xml\css等各种可以按行读取内容的文件类型等,从而,在应用并实施本发明方案时,可由用户根据其实际需求,将上述任意类型的待处理文件上传至文件服务器,以使得文件服务器按本发明方法的各处理步骤对上传的待处理文件进行处理。
步骤102、对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息。
本步骤中,具体可基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块,从而得到各个文件块以及相应的文件分块信息;其中,每个文件块的数据量不高于所述数据量阈值。
所述文件分块信息可以包括但不限于文件的文件块数目、文件块编号以及文件块大小等等。
比如,假设将所述数据量阈值设定为64K(64X1024byte),同时假设所述待处理文件为一个500K的WORD文件,那么在基于所述数据量阈值,对该WORD文件进行分块处理时,参考图3示出的对文件进行分块的示意图,可具体将该WORD文件分为8个文件块,其中,1-7块每块大小为64K,第8块为52K。
步骤103、为每个文件块建立索引信息,得到每个文件块的文件块索引信息。
本步骤基于每个文件块的数据内容为每个文件块建立索引信息,具体地,本步骤基于每个文件块的数据内容中所包括的各个分词词语,来为每个文件块建立相对应的文件块索引信息。
由于在基于文件块的数据内容中所包括的各个分词词语,来为文件块建立相对应的文件块索引信息时,需要使用到文件块所包括的各个分词词语,从而在为每个文件块建立相对应的索引信息时,需首先对每个文件块进行切词/分词处理。实际应用中,由于每个文件块一般包括通过段落分隔符进行分割的多个段落,每个段落又包括通过标点符号(如,。;!等)进行分割的多个句子,因此,在对文件块进行切词/分词处理时,可首先按照段落分隔符将文件块切分为多个段落,并进而按标点符号将每个段落切分为多个句子,在此基础上,可继续将句子切分成单词,该过程称为切词/分词,其目的在于对文件块内容进行切分,形成与用户查询条件相匹配的以关键字为单位的信息列表。
切词/分词的方法有两种:匹配分词和统计分词。其中,匹配分词是指将文件块中的句子内容和预设的具有海量词汇的“辞典”中的词进行比较,如果有匹配的词,则为命中。统计分词是指根据相邻的2个或者多个字(词)出现的概率判断这2个字(词)是否会形成一个词。本发明支持对匹配分词中的“辞典”进行添加,例如随着人们生活内容的改变,“京东”、“微信”、“洪荒之力”等关键字都可以加入“辞典”中。在切词处理后,就形成了文件块的关键字列表。在此基础上,可根据关键字列表中各关键字在文件块中的布局情况,得到文件块的关键字索引信息,其中文件块的关键字索引信息中的每条记录可以包括:关键字、关键字编号、出现次数、文件块编号、在文件中的位置信息等。根据统计信息,关键字出现的次数与该文件总词汇量的比例一般是3%-8%,这样保存文件中各文件块的关键字信息以备查询即可,不用查询整个文件,就提高了文件查询效率。
步骤104、将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储。
所述预定的文件目录,可以是用户在选择并上传所述待处理文件时,所设定的用于保存所述待处理文件的目录。
本实施例中,文件服务器在接收到用户上传的待处理文件后,会将用户上传的文件保存在日期格式(年月日时分秒,例如20170302100834)的目录中,而用户在上传文件时所设定的用于保存文件的目录,文件服务器会把其放在日期格式目录的前面,从而最终可由用户设定的目录以及文件服务器提供的日期格式目录共同构成文件的最终目录,例如,假设用户设定的目录为wtq0952,而文件服务器提供的日期格式目录为20170302100834,则文件的最终目录为wtq0952/20170302100834/。
在文件服务器对用户上传的所述待处理文件进行分块处理,并为分块处理所得的每个文件块建立相应的文件块索引信息后,本步骤将文件的文件目录、文件分块信息(文件块数目、文件块编号以及文件块大小等)、以及文件的各文件块索引信息(关键字、关键字编号、出现次数、文件块编号、在文件中的位置信息等)进行对应存储。
具体地,参考图4,可将文件目录、文件分块信息与文件的各文件块索引信息的对应关系存储在文件服务器的数据库中等,以实现为后续的文件查询处理提供支持。
步骤105、对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
除了存储文件目录、文件分块信息与文件块索引信息的对应关系,本发明还对文件进行压缩存储,也就是说,在对所述待处理文件进行存储时,与直接存储原始文件的传统存储方式相区别,本发明是对所述待处理文件进行压缩存储。
即具体地,本发明对所述待处理文件进行压缩处理,并将压缩处理后所得的压缩文件保存在所述文件目录中,如具体将压缩文件保存在用户上传所述待处理文件时所设定的文件目录中等,且同时从文件服务器中删除用户上传的所述待处理文件的原始文件,这样就大幅地节省了文件服务器的存储空间,进而能够降低用户文件的存储成本。
本实施例提供的文件处理方法,在对文件进行存储处理时,对文件进行内容分块并为分块所得的各文件块建立索引信息,在此基础上,对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储,同时对文件进行压缩存储并删除原始文件,从而与存储原始文件的传统存储方式相比,可有效节约存储空间,因此,应用本发明方案,可实现低成本地存储各种数据文件。
在本发明接下来的另一实施例中,继续公开一种用于实现文件查询的文件处理方法,本实施例的文件处理方法与上一实施例中用于实现文件存储的文件处理方法相对应。参考图5示出的本实施例中一种用于实现文件查询的文件处理方法流程图,该方法可以包括以下步骤:
步骤501、获得用户输入的文件查询信息。
本步骤中,所述获得用户输入的文件查询信息,具体地,参考图6,可以是获得用户输入的用于进行文件查询的一个或多个关键字等。
步骤502、利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果。
在获得用户输入的关键字等文件查询信息后,可根据用户输入的关键字等文件查询信息,从文件服务器中查询与所述文件查询信息相匹配的文件。
本实施例中,在对用户输入的关键字进行匹配查询时,参考图6,并不是对文件服务器中存储的各文件进行文件的全文查询,而是对文件所对应包含的各文件块的文件块索引信息进行查询,即具体地,将各文件块对应的文件块索引信息中的关键字与用户输入的关键字进行匹配,从而得到相应的文件块索引信息查询结果。
其中,在根据用户输入的关键字进行文件块索引信息的查询时,具体可根据关键字匹配度、关键字密度、关键字位置等因素,得到文件块中是否包含关键字,关键字在文件中出现的次数,关键字出现的次数与该文件总词汇量的比例,关键字在文件中出现的位置等等匹配信息,并将该匹配信息作为文件块索引信息查询结果。
步骤503、根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
在对文件的文件块索引信息进行查询得到文件块索引信息查询结果的基础上,本步骤可根据所述文件块索引信息查询结果,获得各个文件与所述关键字的匹配度,并进一步按匹配度降序的顺序对各个文件的文件目录进行汇总及排序,并将文件目录排序结果作为文件查询结果输出。
具体地,实际应用中,可采用文件中关键字与用户输入的关键字的匹配数量(即文件中用户输入的关键字的出现次数),来衡量该文件与用户输入的关键字的匹配度,其中,文件中的关键字与用户输入的关键字的匹配数量越大,表示文件与用户输入的关键字的匹配度越高,反之,则越低。
比如,假设文件1的关键字匹配数量10,文件2的关键字匹配数量30,则文件2与用户输入的关键字的匹配度高于文件1与用户输入的关键字的匹配度。在获知各个文件与用户输入的关键字的匹配度基础上,可继续根据各个文件与用户输入的关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行汇总及排序(该排序过程也可称为倒排序),并将文件目录排序结果作为文件查询结果向用户输出,参考图7,具体可将该结果输出至用户的本地电脑、手机/PAD等各类终端,后续可使得用户根据输出的该查询结果信息,选择性地下载所需的文件。
由以上方案可知,本实施例提供的文件处理方法,在对文件进行查询处理时,具体通过对文件对应的各文件块索引信息进行查询,来实现所需的文件查询。由于本实施例的方案对文件的各文件块索引信息而非原始文件进行查询,从而可提升文件查询效率,鉴于此,本发明可实现低成本、高效率地查询各种数据文件。
在本发明接下来的再一个实施例中,参考图8示出的本实施例中一种用于实现文件查询的文件处理方法流程图,本实施例中,所述步骤202(利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询)可以通过以下的处理过程实现:
步骤5021、基于用户输入的关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
本实施例中,在基于用户输入的关键字,对每个文件所对应的各个文件块的关键字索引信息进行关键字匹配查询时,具体根据文件所包括的文件块数目,由***分配对应数目的进程来负责查询操作,例如,如果文件中所包括的文件块数目为8,则在对文件进行查询时,具体分配8个进程,8个进程并行执行,每一个进程根据用户输入的关键字查询一个文件块索引信息,最终通过汇总各个进程的执行结果来获得针对该整个文件的查询结果。
本实施例提供的根据文件所包括的文件块数目,分配对应数目的进程来对文件的各文件块索引信息进行并行查询的方案,能够进一步提升文件查询效率。
在本发明接下来的再一个实施例中,参考图9示出的本实施例中一种用于实现文件查询的文件处理方法流程图,本实施例中,所述文件处理方法还可以包括以下步骤:
步骤504、在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
在按倒排序方式向用户输出各个文件目录后,可由用户选择所需的文件目录,以进行该目录中所对应的文件的下载。
由于本发明在进行文件存储时,为节省存储空间的占用,在文件目录中具体存储的是文件压缩包而非原始文件,从而,在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从该文件目录中下载的内容具体是文件压缩包,后续可由用户通过对下载的文件压缩包执行解压缩操作,来获得所需的文件。
需要说明的是,在本发明实施例中,所述“关键字”包括由一个字组成的单字关键字,以及由多于一个的字所组成的关键词。
在本发明接下来的又一实施例中,提供一种用于实现文件存储的文件处理装置,参考图10示出的该文件处理装置的结构示意图,该用于实现文件存储的文件处理装置包括:
第一获取单元101,用于获得待处理文件;
文件分块单元102,用于对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息;
索引建立单元103,用于为每个文件块建立索引信息,得到每个文件块的文件块索引信息;
存储单元104,用于将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储;以及对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
在本发明实施例的一实施方式中,所述第一获取单元101,具体用于:获得用户向文件服务器上传的待处理文件。
在本发明实施例的一实施方式中,所述文件分块单元102,具体用于:基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块;其中,每个文件块的数据量不高于所述数据量阈值;
在本发明实施例的一实施方式中,所述索引建立单元103,具体用于:对每个文件块进行切词处理,得到所述每个文件块对应的关键字列表;根据所述每个文件块对应的关键字列表,为所述每个文件块建立关键字索引。
本实施例同时公开一种与以上的用于实现文件存储的文件处理装置相对应的用于实现文件查询的文件处理装置,参考图11示出的该文件处理装置的结构示意图,该用于实现文件查询的文件处理装置包括:
第二获取单元201,用于获得用户输入的文件查询信息;
查询单元202,用于利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果;
查询结果生成单元203,用于根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
在本发明实施例的一实施方式中,所述第二获取单元201具体用于:获得用户输入的用于进行文件查询的关键字。
在本发明实施例的一实施方式中,所述文件块索引信息为关键字索引,则所述查询单元202,具体用于:在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,得到每个文件的文件块索引信息与所述关键字的匹配信息,并将所述匹配信息作为所述文件块索引信息查询结果。
在本发明实施例的一实施方式中,所述查询单元202,在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,具体包括:基于用户输入的所述关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
在本发明实施例的一实施方式中,所述查询结果生成单元203,具体用于:根据各个文件的文件块索引信息与所述关键字的匹配信息,获得各个文件与所述关键字的匹配度;根据各个文件与所述关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行排序,并将文件目录排序结果作为文件查询结果输出。
在本发明实施例的一实施方式中,参考图12,所述用于实现文件查询的文件处理装置还可以包括:文件下载单元204,用于在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
对于本发明实施例三公开的用于实现文件存储及查询的文件处理装置而言,由于其与以上各实施例提供的用于实现文件存储及查询的文件处理方法相对应,所以描述的比较简单,相关相似之处请参见以上各实施例中用于实现文件存储及查询文件处理方法部分的说明即可,此处不再详述。
综上所述,相比于现有技术,本发明提供的文件处理方法及装置具有以下优势:本发明在文件服务器上对文件进行压缩存储而非存储原始文件,节省了用户资源,降低了用户成本,尤其适合中小企业。本发明对适用的环境要求很低,迁移性好,Windows或者Unix/Linux环境都能适用,且oracle/DB2/Sybase/MySql数据库也均能适用。从而,对于需要进行文件存储、查询等处理的中小企业而言,本发明能够节约文件处理成本,提高文件处理效率,对运行环境有很好的迁移性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上***或装置时以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种文件处理方法,其特征在于,用于实现文件存储,所述方法包括:
获得待处理文件;
对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息;
为每个文件块建立索引信息,得到每个文件块的文件块索引信息;
将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储;
对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
2.根据权利要求1所述的方法,其特征在于,所述获得待处理文件,包括:
获得用户向文件服务器上传的待处理文件。
3.根据权利要求1所述的方法,其特征在于,所述对所述待处理文件进行内容分块处理,包括:
基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块;其中,每个文件块的数据量不高于所述数据量阈值。
4.根据权利要求1所述的方法,其特征在于,所述为每个文件块建立索引信息,得到每个文件块的文件块索引信息,包括:
对每个文件块进行切词处理,得到所述每个文件块对应的关键字列表;
根据所述每个文件块对应的关键字列表,为所述每个文件块建立关键字索引。
5.一种文件处理方法,其特征在于,用于实现文件查询,基于如权利要求1-4任一项所述的方法,所述用于实现文件查询的文件处理方法包括:
获得用户输入的文件查询信息;
利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果;
根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
6.根据权利要求5所述的方法,其特征在于,所述获得用户输入的文件查询信息,包括:
获得用户输入的用于进行文件查询的关键字。
7.根据权利要求6所述的方法,其特征在于,所述文件块索引信息为关键字索引,则所述利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果,包括:
在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,得到每个文件的文件块索引信息与所述关键字的匹配信息,并将所述匹配信息作为所述文件块索引信息查询结果。
8.根据权利要求7所述的方法,其特征在于,所述在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,包括:
基于用户输入的所述关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
9.根据权利要求7或8所述的方法,其特征在于,所述根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果,包括:
根据各个文件的文件块索引信息与所述关键字的匹配信息,获得各个文件与所述关键字的匹配度;
根据各个文件与所述关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行排序,并将文件目录排序结果作为文件查询结果输出。
10.根据权利要求9所述的方法,其特征在于,还包括:
在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
11.一种文件处理装置,其特征在于,用于实现文件存储,所述装置包括:
第一获取单元,用于获得待处理文件;
文件分块单元,用于对所述待处理文件进行内容分块处理,得到各个文件块及文件分块信息;
索引建立单元,用于为每个文件块建立索引信息,得到每个文件块的文件块索引信息;
存储单元,用于将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储;以及对所述待处理文件进行压缩处理,将压缩处理后所得的压缩文件存储于所述预定的文件目录下,并删除所述待处理文件。
12.根据权利要求11所述的装置,其特征在于,所述第一获取单元,具体用于:
获得用户向文件服务器上传的待处理文件。
13.根据权利要求11所述的装置,其特征在于,所述文件分块单元,具体用于:
基于预定的数据量阈值,将所述待处理文件分为相应数量的文件块;其中,每个文件块的数据量不高于所述数据量阈值。
14.根据权利要求11所述的装置,其特征在于,所述索引建立单元,具体用于:
对每个文件块进行切词处理,得到所述每个文件块对应的关键字列表;根据所述每个文件块对应的关键字列表,为所述每个文件块建立关键字索引。
15.一种文件处理装置,其特征在于,用于实现文件查询,基于如权利要求1-4任一项所述的装置,所述用于实现文件查询的文件处理装置包括:
第二获取单元,用于获得用户输入的文件查询信息;
查询单元,用于利用所述文件查询信息,在各个文件所对应文件块的文件块索引信息中进行查询,得到文件块索引信息查询结果;
查询结果生成单元,用于根据所述文件块索引信息查询结果,生成与所述文件查询信息相匹配的文件查询结果。
16.根据权利要求15所述的装置,其特征在于,所述第二获取单元具体用于:
获得用户输入的用于进行文件查询的关键字。
17.根据权利要求16所述的装置,其特征在于,所述文件块索引信息为关键字索引,则所述查询单元,具体用于:
在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,得到每个文件的文件块索引信息与所述关键字的匹配信息,并将所述匹配信息作为所述文件块索引信息查询结果。
18.根据权利要求17所述的装置,其特征在于,所述查询单元,在每个文件所对应的各文件块的关键字索引中,对用户输入的所述关键字进行匹配查询,具体包括:
基于用户输入的所述关键字,对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。
19.根据权利要求17或18所述的装置,其特征在于,所述查询结果生成单元,具体用于:
根据各个文件的文件块索引信息与所述关键字的匹配信息,获得各个文件与所述关键字的匹配度;根据各个文件与所述关键字的匹配度,按匹配度降序的顺序对各个文件的文件目录进行排序,并将文件目录排序结果作为文件查询结果输出。
20.根据权利要求19所述的装置,其特征在于,还包括:
文件下载单元,用于在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时,从所述相应文件目录中下载文件压缩包。
CN201711306239.1A 2017-12-11 2017-12-11 一种文件处理方法及装置 Pending CN108038188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711306239.1A CN108038188A (zh) 2017-12-11 2017-12-11 一种文件处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711306239.1A CN108038188A (zh) 2017-12-11 2017-12-11 一种文件处理方法及装置

Publications (1)

Publication Number Publication Date
CN108038188A true CN108038188A (zh) 2018-05-15

Family

ID=62101528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711306239.1A Pending CN108038188A (zh) 2017-12-11 2017-12-11 一种文件处理方法及装置

Country Status (1)

Country Link
CN (1) CN108038188A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362578A (zh) * 2019-07-12 2019-10-22 西南大学 一种计算机信息数据快速查询***
CN111026827A (zh) * 2019-12-06 2020-04-17 北京地拓科技发展有限公司 一种土壤侵蚀因子的数据服务方法、装置和电子设备
CN111309678A (zh) * 2020-02-22 2020-06-19 呼和浩特市奥祥电力自动化有限公司 一种数据循环存储方法及网络报文记录分析装置
CN112734982A (zh) * 2021-01-15 2021-04-30 北京小马慧行科技有限公司 无人车驾驶行为数据的存储方法和***
CN116263792A (zh) * 2023-04-21 2023-06-16 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184211A (zh) * 2011-05-03 2011-09-14 成都市华为赛门铁克科技有限公司 文件***和检索、写入、修改或删除文件的方法与装置
CN102193917A (zh) * 2010-03-01 2011-09-21 ***通信集团公司 一种数据处理和查询方法和装置
CN102915365A (zh) * 2012-10-24 2013-02-06 苏州两江科技有限公司 基于Hadoop的分布式搜索引擎构建方法
CN104699815A (zh) * 2015-03-24 2015-06-10 北京嘀嘀无限科技发展有限公司 数据处理方法和***
US20150261783A1 (en) * 2013-01-07 2015-09-17 Tencent Technology (Shenzhen) Company Limited Method and apparatus for storing and reading files
CN106250409A (zh) * 2016-07-21 2016-12-21 中国农业银行股份有限公司 数据查询方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193917A (zh) * 2010-03-01 2011-09-21 ***通信集团公司 一种数据处理和查询方法和装置
CN102184211A (zh) * 2011-05-03 2011-09-14 成都市华为赛门铁克科技有限公司 文件***和检索、写入、修改或删除文件的方法与装置
CN102915365A (zh) * 2012-10-24 2013-02-06 苏州两江科技有限公司 基于Hadoop的分布式搜索引擎构建方法
US20150261783A1 (en) * 2013-01-07 2015-09-17 Tencent Technology (Shenzhen) Company Limited Method and apparatus for storing and reading files
CN104699815A (zh) * 2015-03-24 2015-06-10 北京嘀嘀无限科技发展有限公司 数据处理方法和***
CN106250409A (zh) * 2016-07-21 2016-12-21 中国农业银行股份有限公司 数据查询方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362578A (zh) * 2019-07-12 2019-10-22 西南大学 一种计算机信息数据快速查询***
CN111026827A (zh) * 2019-12-06 2020-04-17 北京地拓科技发展有限公司 一种土壤侵蚀因子的数据服务方法、装置和电子设备
CN111309678A (zh) * 2020-02-22 2020-06-19 呼和浩特市奥祥电力自动化有限公司 一种数据循环存储方法及网络报文记录分析装置
CN111309678B (zh) * 2020-02-22 2023-01-03 呼和浩特市奥祥电力自动化有限公司 一种数据循环存储方法及网络报文记录分析装置
CN112734982A (zh) * 2021-01-15 2021-04-30 北京小马慧行科技有限公司 无人车驾驶行为数据的存储方法和***
CN116263792A (zh) * 2023-04-21 2023-06-16 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及***
CN116263792B (zh) * 2023-04-21 2023-07-18 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及***

Similar Documents

Publication Publication Date Title
CN108038188A (zh) 一种文件处理方法及装置
CN108304444B (zh) 信息查询方法及装置
Spiliopoulou et al. A data miner analyzing the navigational behaviour of web users
US8266147B2 (en) Methods and systems for database organization
CN100456298C (zh) 广告信息检索***及广告信息检索方法
CN102929901B (zh) 提高数据仓库性能的方法和装置
US8171029B2 (en) Automatic generation of ontologies using word affinities
US20060041606A1 (en) Indexing system for a computer file store
CN105843841A (zh) 一种小文件存储方法和***
CN102667761A (zh) 可扩展的集群数据库
EP1342177A1 (en) Method for structuring and searching information
CN102375853A (zh) 分布式数据库***、在其中建立索引的方法和查询方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN112269816B (zh) 一种政务预约事项相关性检索方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN108701134A (zh) 数据库的存档方法及装置、存档的数据库的搜索方法及装置
CN101944116B (zh) 一种数据仓库中复杂多维层次的连接和聚集方法
US7089233B2 (en) Method and system for searching for web content
JP2003076715A (ja) ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体
CN108228663A (zh) 一种分页检索方法及装置
CN104809252A (zh) 互联网数据提取***
CN108604249A (zh) 生成索引信息的数据库的存档方法及装置、包含索引信息的存档的数据库的搜索方法及装置
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
CN102467544B (zh) 基于空间模糊编码的信息智能搜索方法及***
CN104834739A (zh) 互联网信息存储***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515

RJ01 Rejection of invention patent application after publication