CN108038188A

CN108038188A - 一种文件处理方法及装置

Info

Publication number: CN108038188A
Application number: CN201711306239.1A
Authority: CN
Inventors: 王同庆
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-15

Abstract

本发明提供的文件处理方法及装置，在对文件进行存储处理时，对文件进行内容分块并为分块所得的各文件块建立索引信息，在此基础上，对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件；后续具体通过对文件对应的各文件块索引信息进行查询，来实现所需的文件查询。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件，从而与存储原始文件的传统存储方式相比，可有效节约存储空间，同时，由于本发明对文件的各文件块索引信息而非原始文件进行查询，从而可提升文件查询效率，鉴于此，本发明可实现低成本、高效率地存储和查询各种数据文件。

Description

一种文件处理方法及装置

技术领域

本发明属于数据文件的存储、查询技术领域，尤其涉及一种文件处理方法及装置。

背景技术

在当前的互联网及信息化时代，产生了大量的文字信息，进而产生了大量的数据文件，其中word\excel\txt\html\java\xml\css是最基本和常用的形式。

对于这些大量的数据文件而言，必然面临着数据文件的存储和查询问题，目前市面上一般通过谷歌、百度等公司提供的商业化文件存储和查询服务，来进行数据文档的存储和查询，但是对于中小企业而言，目前的这些商业化存储和查询服务普遍存在费用较高，文件占用空间大，查询搜索速度慢等缺点。

因此，本领域亟需提供一种较优的数据文件处理方法，以满足中小企业在文件存储及查询方面的需求，实现低成本、高效率地存储和查询各种数据文件。

发明内容

有鉴于此，本发明的目的在于提供一种文件处理方法及装置，旨在实现能够低成本、高效率地存储和查询各种数据文件。

为此，本发明公开如下技术方案：

一种文件处理方法，用于实现文件存储，所述方法包括：

获得待处理文件；

对所述待处理文件进行内容分块处理，得到各个文件块及文件分块信息；

为每个文件块建立索引信息，得到每个文件块的文件块索引信息；

将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储；

对所述待处理文件进行压缩处理，将压缩处理后所得的压缩文件存储于所述预定的文件目录下，并删除所述待处理文件。

上述方法，优选的，所述获得待处理文件，包括：

获得用户向文件服务器上传的待处理文件。

上述方法，优选的，所述对所述待处理文件进行内容分块处理，包括：

基于预定的数据量阈值，将所述待处理文件分为相应数量的文件块；其中，每个文件块的数据量不高于所述数据量阈值；

上述方法，优选的，所述为每个文件块建立索引信息，得到每个文件块的文件块索引信息，包括：

对每个文件块进行切词处理，得到所述每个文件块对应的关键字列表；

根据所述每个文件块对应的关键字列表，为所述每个文件块建立关键字索引。

一种文件处理方法，用于实现文件查询，所述用于实现文件查询的文件处理方法包括：

获得用户输入的文件查询信息；

利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果；

根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果。

上述方法，优选的，所述获得用户输入的文件查询信息，包括：

获得用户输入的用于进行文件查询的关键字。

上述方法，优选的，所述文件块索引信息为关键字索引，则所述利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果，包括：

在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，得到每个文件的文件块索引信息与所述关键字的匹配信息，并将所述匹配信息作为所述文件块索引信息查询结果。

上述方法，优选的，所述在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，包括：

基于用户输入的所述关键字，对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。

上述方法，优选的，所述根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果，包括：

根据各个文件的文件块索引信息与所述关键字的匹配信息，获得各个文件与所述关键字的匹配度；

根据各个文件与所述关键字的匹配度，按匹配度降序的顺序对各个文件的文件目录进行排序，并将文件目录排序结果作为文件查询结果输出。

上述方法，优选的，还包括：

在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时，从所述相应文件目录中下载文件压缩包。

一种文件处理装置，用于实现文件存储，所述装置包括：

第一获取单元，用于获得待处理文件；

文件分块单元，用于对所述待处理文件进行内容分块处理，得到各个文件块及文件分块信息；

索引建立单元，用于为每个文件块建立索引信息，得到每个文件块的文件块索引信息；

存储单元，用于将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储；以及对所述待处理文件进行压缩处理，将压缩处理后所得的压缩文件存储于所述预定的文件目录下，并删除所述待处理文件。

上装装置，优选的，所述第一获取单元，具体用于：

获得用户向文件服务器上传的待处理文件。

上装装置，优选的，所述文件分块单元，具体用于：

基于预定的数据量阈值，将所述待处理文件分为相应数量的文件块；其中，每个文件块的数据量不高于所述数据量阈值。

上装装置，优选的，所述索引建立单元，具体用于：

对每个文件块进行切词处理，得到所述每个文件块对应的关键字列表；根据所述每个文件块对应的关键字列表，为所述每个文件块建立关键字索引。

一种文件处理装置，用于实现文件查询，所述用于实现文件查询的文件处理装置包括：

第二获取单元，用于获得用户输入的文件查询信息；

查询单元，用于利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果；

查询结果生成单元，用于根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果。

上装装置，优选的，所述第二获取单元具体用于：

获得用户输入的用于进行文件查询的关键字。

上装装置，优选的，所述文件块索引信息为关键字索引，则所述查询单元，具体用于：

上装装置，优选的，所述查询单元，在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，具体包括：

上装装置，优选的，所述查询结果生成单元，具体用于：

根据各个文件的文件块索引信息与所述关键字的匹配信息，获得各个文件与所述关键字的匹配度；根据各个文件与所述关键字的匹配度，按匹配度降序的顺序对各个文件的文件目录进行排序，并将文件目录排序结果作为文件查询结果输出。

上装装置，优选的，还包括：

文件下载单元，用于在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时，从所述相应文件目录中下载文件压缩包。

由以上方案可知，本发明提供的文件处理方法及装置，在对文件进行存储处理时，对文件进行内容分块并为分块所得的各文件块建立索引信息，在此基础上，对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件；后续具体通过对文件对应的各文件块索引信息进行查询，来实现所需的文件查询。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件，从而与存储原始文件的传统存储方式相比，可有效节约存储空间，同时，由于本发明对文件的各文件块索引信息而非原始文件进行查询，从而可提升文件查询效率，鉴于此，本发明可实现低成本、高效率地存储和查询各种数据文件。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的用于实现文件存储的文件处理方法流程图；

图2是本发明实施例提供的用户上传文件到文件服务器的示意图；

图3是本发明实施例提供的对文件内容进行分块并建立关键词索引的示意图；

图4是本发明实施例提供的将文件目录、文件分块信息和索引信息对应存入至数据库的示意图；

图5是本发明实施例提供的用于实现文件查询的一种文件处理方法流程图；

图6是本发明实施例提供的根据用户输入的关键字，对文件的各文件块索引信息进行查询的示意图；

图7是本发明实施例提供的将查询结果信息输出至用户终端的示意图；

图8是本发明实施例提供的用于实现文件查询的另一种文件处理方法流程图；

图9是本发明实施例提供的用于实现文件查询的又一种文件处理方法流程图；

图10是本发明实施例提供的用于实现文件存储的文件处理装置的结构示意图；

图11-图12是本发明实施例提供的用于实现文件查询的文件处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文件处理方法及装置，旨在实现能够低成本、高效率地存储和查询各种数据文件，以满足中小企业在文件存储及查询方面的需求，以下将通过多个实施例对本发明的文件处理方法及装置进行详细说明。

在本发明的一个实施例中，提供一种用于实现文件存储的文件处理方法，参考图1示出的本实施例中一种文件处理方法的流程图，该方法包括以下步骤：

步骤101、获得待处理文件。

所述待处理文件可以是但不限于用户上传至文件服务器的文件，例如，参考图2，具体可以是用户从其本地电脑中选择并上传至文件服务器的文件。实际应用中，在用户进行文件的选择及上传时，并不限于一次仅能选择并上传一个文件，一般还可支持用户同时选择多个文件，以使得用户可以一次上传多个文件，例如，具体可支持用户一次选择并上传10个文件等。

其中，文件服务器可支持多种类型文件的上传及存储，具体地，比如可以支持word\excel\txt\html\java\xml\css等各种可以按行读取内容的文件类型等，从而，在应用并实施本发明方案时，可由用户根据其实际需求，将上述任意类型的待处理文件上传至文件服务器，以使得文件服务器按本发明方法的各处理步骤对上传的待处理文件进行处理。

步骤102、对所述待处理文件进行内容分块处理，得到各个文件块及文件分块信息。

本步骤中，具体可基于预定的数据量阈值，将所述待处理文件分为相应数量的文件块，从而得到各个文件块以及相应的文件分块信息；其中，每个文件块的数据量不高于所述数据量阈值。

所述文件分块信息可以包括但不限于文件的文件块数目、文件块编号以及文件块大小等等。

比如，假设将所述数据量阈值设定为64K(64X1024byte)，同时假设所述待处理文件为一个500K的WORD文件，那么在基于所述数据量阈值，对该WORD文件进行分块处理时，参考图3示出的对文件进行分块的示意图，可具体将该WORD文件分为8个文件块，其中，1-7块每块大小为64K，第8块为52K。

步骤103、为每个文件块建立索引信息，得到每个文件块的文件块索引信息。

本步骤基于每个文件块的数据内容为每个文件块建立索引信息，具体地，本步骤基于每个文件块的数据内容中所包括的各个分词词语，来为每个文件块建立相对应的文件块索引信息。

由于在基于文件块的数据内容中所包括的各个分词词语，来为文件块建立相对应的文件块索引信息时，需要使用到文件块所包括的各个分词词语，从而在为每个文件块建立相对应的索引信息时，需首先对每个文件块进行切词/分词处理。实际应用中，由于每个文件块一般包括通过段落分隔符进行分割的多个段落，每个段落又包括通过标点符号(如，。；！等)进行分割的多个句子，因此，在对文件块进行切词/分词处理时，可首先按照段落分隔符将文件块切分为多个段落，并进而按标点符号将每个段落切分为多个句子，在此基础上，可继续将句子切分成单词，该过程称为切词/分词，其目的在于对文件块内容进行切分，形成与用户查询条件相匹配的以关键字为单位的信息列表。

切词/分词的方法有两种：匹配分词和统计分词。其中，匹配分词是指将文件块中的句子内容和预设的具有海量词汇的“辞典”中的词进行比较，如果有匹配的词，则为命中。统计分词是指根据相邻的2个或者多个字(词)出现的概率判断这2个字(词)是否会形成一个词。本发明支持对匹配分词中的“辞典”进行添加，例如随着人们生活内容的改变，“京东”、“微信”、“洪荒之力”等关键字都可以加入“辞典”中。在切词处理后，就形成了文件块的关键字列表。在此基础上，可根据关键字列表中各关键字在文件块中的布局情况，得到文件块的关键字索引信息，其中文件块的关键字索引信息中的每条记录可以包括：关键字、关键字编号、出现次数、文件块编号、在文件中的位置信息等。根据统计信息，关键字出现的次数与该文件总词汇量的比例一般是3％-8％，这样保存文件中各文件块的关键字信息以备查询即可，不用查询整个文件，就提高了文件查询效率。

步骤104、将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储。

所述预定的文件目录，可以是用户在选择并上传所述待处理文件时，所设定的用于保存所述待处理文件的目录。

本实施例中，文件服务器在接收到用户上传的待处理文件后，会将用户上传的文件保存在日期格式(年月日时分秒，例如20170302100834)的目录中，而用户在上传文件时所设定的用于保存文件的目录，文件服务器会把其放在日期格式目录的前面，从而最终可由用户设定的目录以及文件服务器提供的日期格式目录共同构成文件的最终目录，例如，假设用户设定的目录为wtq0952，而文件服务器提供的日期格式目录为20170302100834，则文件的最终目录为wtq0952/20170302100834/。

在文件服务器对用户上传的所述待处理文件进行分块处理，并为分块处理所得的每个文件块建立相应的文件块索引信息后，本步骤将文件的文件目录、文件分块信息(文件块数目、文件块编号以及文件块大小等)、以及文件的各文件块索引信息(关键字、关键字编号、出现次数、文件块编号、在文件中的位置信息等)进行对应存储。

具体地，参考图4，可将文件目录、文件分块信息与文件的各文件块索引信息的对应关系存储在文件服务器的数据库中等，以实现为后续的文件查询处理提供支持。

步骤105、对所述待处理文件进行压缩处理，将压缩处理后所得的压缩文件存储于所述预定的文件目录下，并删除所述待处理文件。

除了存储文件目录、文件分块信息与文件块索引信息的对应关系，本发明还对文件进行压缩存储，也就是说，在对所述待处理文件进行存储时，与直接存储原始文件的传统存储方式相区别，本发明是对所述待处理文件进行压缩存储。

即具体地，本发明对所述待处理文件进行压缩处理，并将压缩处理后所得的压缩文件保存在所述文件目录中，如具体将压缩文件保存在用户上传所述待处理文件时所设定的文件目录中等，且同时从文件服务器中删除用户上传的所述待处理文件的原始文件，这样就大幅地节省了文件服务器的存储空间，进而能够降低用户文件的存储成本。

本实施例提供的文件处理方法，在对文件进行存储处理时，对文件进行内容分块并为分块所得的各文件块建立索引信息，在此基础上，对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件。由于本发明方案对文件目录、文件分块信息及文件块索引信息进行对应存储，同时对文件进行压缩存储并删除原始文件，从而与存储原始文件的传统存储方式相比，可有效节约存储空间，因此，应用本发明方案，可实现低成本地存储各种数据文件。

在本发明接下来的另一实施例中，继续公开一种用于实现文件查询的文件处理方法，本实施例的文件处理方法与上一实施例中用于实现文件存储的文件处理方法相对应。参考图5示出的本实施例中一种用于实现文件查询的文件处理方法流程图，该方法可以包括以下步骤：

步骤501、获得用户输入的文件查询信息。

本步骤中，所述获得用户输入的文件查询信息，具体地，参考图6，可以是获得用户输入的用于进行文件查询的一个或多个关键字等。

步骤502、利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果。

在获得用户输入的关键字等文件查询信息后，可根据用户输入的关键字等文件查询信息，从文件服务器中查询与所述文件查询信息相匹配的文件。

本实施例中，在对用户输入的关键字进行匹配查询时，参考图6，并不是对文件服务器中存储的各文件进行文件的全文查询，而是对文件所对应包含的各文件块的文件块索引信息进行查询，即具体地，将各文件块对应的文件块索引信息中的关键字与用户输入的关键字进行匹配，从而得到相应的文件块索引信息查询结果。

其中，在根据用户输入的关键字进行文件块索引信息的查询时，具体可根据关键字匹配度、关键字密度、关键字位置等因素，得到文件块中是否包含关键字，关键字在文件中出现的次数，关键字出现的次数与该文件总词汇量的比例，关键字在文件中出现的位置等等匹配信息，并将该匹配信息作为文件块索引信息查询结果。

步骤503、根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果。

在对文件的文件块索引信息进行查询得到文件块索引信息查询结果的基础上，本步骤可根据所述文件块索引信息查询结果，获得各个文件与所述关键字的匹配度，并进一步按匹配度降序的顺序对各个文件的文件目录进行汇总及排序，并将文件目录排序结果作为文件查询结果输出。

具体地，实际应用中，可采用文件中关键字与用户输入的关键字的匹配数量(即文件中用户输入的关键字的出现次数)，来衡量该文件与用户输入的关键字的匹配度，其中，文件中的关键字与用户输入的关键字的匹配数量越大，表示文件与用户输入的关键字的匹配度越高，反之，则越低。

比如，假设文件1的关键字匹配数量10，文件2的关键字匹配数量30，则文件2与用户输入的关键字的匹配度高于文件1与用户输入的关键字的匹配度。在获知各个文件与用户输入的关键字的匹配度基础上，可继续根据各个文件与用户输入的关键字的匹配度，按匹配度降序的顺序对各个文件的文件目录进行汇总及排序(该排序过程也可称为倒排序)，并将文件目录排序结果作为文件查询结果向用户输出，参考图7，具体可将该结果输出至用户的本地电脑、手机/PAD等各类终端，后续可使得用户根据输出的该查询结果信息，选择性地下载所需的文件。

由以上方案可知，本实施例提供的文件处理方法，在对文件进行查询处理时，具体通过对文件对应的各文件块索引信息进行查询，来实现所需的文件查询。由于本实施例的方案对文件的各文件块索引信息而非原始文件进行查询，从而可提升文件查询效率，鉴于此，本发明可实现低成本、高效率地查询各种数据文件。

在本发明接下来的再一个实施例中，参考图8示出的本实施例中一种用于实现文件查询的文件处理方法流程图，本实施例中，所述步骤202(利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询)可以通过以下的处理过程实现：

步骤5021、基于用户输入的关键字，对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。

本实施例中，在基于用户输入的关键字，对每个文件所对应的各个文件块的关键字索引信息进行关键字匹配查询时，具体根据文件所包括的文件块数目，由***分配对应数目的进程来负责查询操作，例如，如果文件中所包括的文件块数目为8，则在对文件进行查询时，具体分配8个进程，8个进程并行执行，每一个进程根据用户输入的关键字查询一个文件块索引信息，最终通过汇总各个进程的执行结果来获得针对该整个文件的查询结果。

本实施例提供的根据文件所包括的文件块数目，分配对应数目的进程来对文件的各文件块索引信息进行并行查询的方案，能够进一步提升文件查询效率。

在本发明接下来的再一个实施例中，参考图9示出的本实施例中一种用于实现文件查询的文件处理方法流程图，本实施例中，所述文件处理方法还可以包括以下步骤：

步骤504、在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时，从所述相应文件目录中下载文件压缩包。

在按倒排序方式向用户输出各个文件目录后，可由用户选择所需的文件目录，以进行该目录中所对应的文件的下载。

由于本发明在进行文件存储时，为节省存储空间的占用，在文件目录中具体存储的是文件压缩包而非原始文件，从而，在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时，从该文件目录中下载的内容具体是文件压缩包，后续可由用户通过对下载的文件压缩包执行解压缩操作，来获得所需的文件。

需要说明的是，在本发明实施例中，所述“关键字”包括由一个字组成的单字关键字，以及由多于一个的字所组成的关键词。

在本发明接下来的又一实施例中，提供一种用于实现文件存储的文件处理装置，参考图10示出的该文件处理装置的结构示意图，该用于实现文件存储的文件处理装置包括：

第一获取单元101，用于获得待处理文件；

文件分块单元102，用于对所述待处理文件进行内容分块处理，得到各个文件块及文件分块信息；

索引建立单元103，用于为每个文件块建立索引信息，得到每个文件块的文件块索引信息；

存储单元104，用于将预定的文件目录、所述文件分块信息以及各个文件块的文件块索引信息进行对应存储；以及对所述待处理文件进行压缩处理，将压缩处理后所得的压缩文件存储于所述预定的文件目录下，并删除所述待处理文件。

在本发明实施例的一实施方式中，所述第一获取单元101，具体用于：获得用户向文件服务器上传的待处理文件。

在本发明实施例的一实施方式中，所述文件分块单元102，具体用于：基于预定的数据量阈值，将所述待处理文件分为相应数量的文件块；其中，每个文件块的数据量不高于所述数据量阈值；

在本发明实施例的一实施方式中，所述索引建立单元103，具体用于：对每个文件块进行切词处理，得到所述每个文件块对应的关键字列表；根据所述每个文件块对应的关键字列表，为所述每个文件块建立关键字索引。

本实施例同时公开一种与以上的用于实现文件存储的文件处理装置相对应的用于实现文件查询的文件处理装置，参考图11示出的该文件处理装置的结构示意图，该用于实现文件查询的文件处理装置包括：

第二获取单元201，用于获得用户输入的文件查询信息；

查询单元202，用于利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果；

查询结果生成单元203，用于根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果。

在本发明实施例的一实施方式中，所述第二获取单元201具体用于：获得用户输入的用于进行文件查询的关键字。

在本发明实施例的一实施方式中，所述文件块索引信息为关键字索引，则所述查询单元202，具体用于：在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，得到每个文件的文件块索引信息与所述关键字的匹配信息，并将所述匹配信息作为所述文件块索引信息查询结果。

在本发明实施例的一实施方式中，所述查询单元202，在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，具体包括：基于用户输入的所述关键字，对每个文件所对应的各个文件块的关键字索引进行并行的关键字匹配查询。

在本发明实施例的一实施方式中，所述查询结果生成单元203，具体用于：根据各个文件的文件块索引信息与所述关键字的匹配信息，获得各个文件与所述关键字的匹配度；根据各个文件与所述关键字的匹配度，按匹配度降序的顺序对各个文件的文件目录进行排序，并将文件目录排序结果作为文件查询结果输出。

在本发明实施例的一实施方式中，参考图12，所述用于实现文件查询的文件处理装置还可以包括：文件下载单元204，用于在接收到用户针对所述文件目录排序结果中相应文件目录的文件下载请求时，从所述相应文件目录中下载文件压缩包。

对于本发明实施例三公开的用于实现文件存储及查询的文件处理装置而言，由于其与以上各实施例提供的用于实现文件存储及查询的文件处理方法相对应，所以描述的比较简单，相关相似之处请参见以上各实施例中用于实现文件存储及查询文件处理方法部分的说明即可，此处不再详述。

综上所述，相比于现有技术，本发明提供的文件处理方法及装置具有以下优势：本发明在文件服务器上对文件进行压缩存储而非存储原始文件，节省了用户资源，降低了用户成本，尤其适合中小企业。本发明对适用的环境要求很低，迁移性好，Windows或者Unix/Linux环境都能适用，且oracle/DB2/Sybase/MySql数据库也均能适用。从而，对于需要进行文件存储、查询等处理的中小企业而言，本发明能够节约文件处理成本，提高文件处理效率，对运行环境有很好的迁移性。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上***或装置时以功能分为各种模块或单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文件处理方法，其特征在于，用于实现文件存储，所述方法包括：

获得待处理文件；

2.根据权利要求1所述的方法，其特征在于，所述获得待处理文件，包括：

获得用户向文件服务器上传的待处理文件。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理文件进行内容分块处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述为每个文件块建立索引信息，得到每个文件块的文件块索引信息，包括：

5.一种文件处理方法，其特征在于，用于实现文件查询，基于如权利要求1-4任一项所述的方法，所述用于实现文件查询的文件处理方法包括：

获得用户输入的文件查询信息；

6.根据权利要求5所述的方法，其特征在于，所述获得用户输入的文件查询信息，包括：

获得用户输入的用于进行文件查询的关键字。

7.根据权利要求6所述的方法，其特征在于，所述文件块索引信息为关键字索引，则所述利用所述文件查询信息，在各个文件所对应文件块的文件块索引信息中进行查询，得到文件块索引信息查询结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，包括：

9.根据权利要求7或8所述的方法，其特征在于，所述根据所述文件块索引信息查询结果，生成与所述文件查询信息相匹配的文件查询结果，包括：

10.根据权利要求9所述的方法，其特征在于，还包括：

11.一种文件处理装置，其特征在于，用于实现文件存储，所述装置包括：

第一获取单元，用于获得待处理文件；

12.根据权利要求11所述的装置，其特征在于，所述第一获取单元，具体用于：

获得用户向文件服务器上传的待处理文件。

13.根据权利要求11所述的装置，其特征在于，所述文件分块单元，具体用于：

14.根据权利要求11所述的装置，其特征在于，所述索引建立单元，具体用于：

15.一种文件处理装置，其特征在于，用于实现文件查询，基于如权利要求1-4任一项所述的装置，所述用于实现文件查询的文件处理装置包括：

第二获取单元，用于获得用户输入的文件查询信息；

16.根据权利要求15所述的装置，其特征在于，所述第二获取单元具体用于：

获得用户输入的用于进行文件查询的关键字。

17.根据权利要求16所述的装置，其特征在于，所述文件块索引信息为关键字索引，则所述查询单元，具体用于：

18.根据权利要求17所述的装置，其特征在于，所述查询单元，在每个文件所对应的各文件块的关键字索引中，对用户输入的所述关键字进行匹配查询，具体包括：

19.根据权利要求17或18所述的装置，其特征在于，所述查询结果生成单元，具体用于：

20.根据权利要求19所述的装置，其特征在于，还包括：