CN101533408B

CN101533408B - 一种海量数据的处理方法及处理装置

Info

Publication number: CN101533408B
Application number: CN200910082496.0A
Authority: CN
Inventors: 石清华; 刘盛理; 徐晋晖
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2009-04-21
Filing date: 2009-04-21
Publication date: 2015-02-04
Anticipated expiration: 2029-04-21
Also published as: CN101533408A

Abstract

本发明提供了一种海量数据的处理方法及处理装置，该方法包括：设置一数据文件及索引文件，数据文件包括至少一个文件数据块，每个文件数据块的长度相等；索引文件与数据文件相对应，包括各数据对象在数据文件中的地址偏移；在存入数据对象时，如果游标当前指向的文件数据块的剩余空间不够存储待存储的数据对象，则在待存储的数据对象将剩余空间填满后，数据文件向***申请一块或多块新文件数据块，并将待存储数据对象中还未存入的剩余数据存入到新文件数据块中，并在索引文件中记录新存入数据对象的地址偏移；通过将游标指向欲读取的数据对象的地址偏移来读取数据文件中存储的数据对象。利用该技术方案，提高了对海量数据的存取效率。

Description

一种海量数据的处理方法及处理装置

技术领域

本发明涉及数据处理领域，特别是涉及一种海量数据的处理方法及处理装置。

背景技术

在数据处理行业，需要处理的数据越来越多，数据文件越来越大。目前，针对海量数据的存取问题，一般归结为以下2种方法：

1)将海量数据纳入数据库进行管理；

2)将数据对象建立序列化存入普通的文件。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

方法1)是现在比较流行的海量数据管理方式，虽然数据库管理大文件海量数据有一定的优势，但由于该方法采用的是数据库来进行数据管理，对于海量数据来说，最大瓶颈是效率问题，对于效率要求比较高的***来说，数据库无法满足高效的需求；

而方法2)只能解决小数据量的问题，无法满足海量数据的存储需求。

所以，对大数据量文件的快速存取访问，越来越成为行业的技术瓶颈，而传统的通过I/O方式读写文件很难满足海量数据大文件的要求。

发明内容

为了解决上述问题，本发明的目的是提供一种海量数据的处理方法及处理装置，以提高对海量数据的存取效率。

为了实现上述目的，本发明提供了一种海量数据的处理方法，其中，包括：

设置一数据文件及索引文件，所述数据文件用于存储数据对象，所述数据文件包括至少一个文件数据块，所述数据文件中、每个文件数据块的长度相等；所述索引文件与所述数据文件相对应，所述索引文件包括所述数据文件中存储的每个数据对象在所述数据文件中的地址偏移；

在将数据对象存入所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象；如是，则将所述待存储的数据对象存入所述剩余空间，并在所述索引文件中记录所述新存入数据对象的地址偏移；否则，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移；

通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象。

优选地，所述的处理方法，其中，所述数据文件中的文件数据块的长度为：***设定的最小分配粒度的整数倍。

优选地，所述的处理方法，其中，所述数据对象为：二进制对象，或者数据流。

优选地，所述的处理方法，其中，所述存储在所述文件数据块中的数据对象包括：数据状态、数据长度及数据内容；所述数据状态包括：***状态和移除状态。

优选地，所述的处理方法，其中，所述方法还包括删除所述数据文件中的数据对象的步骤，具体为：

根据输入的、欲删除数据对象的索引号，从所述索引文件中获得所述欲删除数据对象的地址偏移，并将所述欲删除数据对象的数据状态设置为移除状态。

优选地，所述的处理方法，其中，还包括：遍历读取所述数据文件中数据对象的步骤，具体为：

步骤a，将所述数据文件的游标置为数据文件头；

步骤b，将所述游标移动至下一个数据对象的地址偏移，并获取游标当前指向的数据对象的数据内容、数据长度及数据状态；

步骤c，判断是否已读取完所有的数据对象；如是，则结束；否则，转入步骤b。

优选地，所述的处理方法，其中，还包括：随机读取所述数据文件中数据对象的步骤，具体为：

根据输入的、欲随机读取的数据对象的索引号，从所述索引文件中获取所述欲随机读取的数据对象在所述数据文件中的地址偏移；

将所述数据文件的游标指向所述获取的地址偏移，并读取该地址偏移对应的数据对象的数据内容、数据长度及数据状态。

另一方面，提供了一种海量数据的处理装置，其中，包括：

文件设置模块，用于设置一数据文件及索引文件，所述数据文件用于存储数据对象，所述数据文件包括至少一个文件数据块，所述数据文件中、每个文件数据块的长度相等；所述索引文件与所述数据文件相对应，所述索引文件包括所述数据文件中存储的每个数据对象在所述数据文件中的地址偏移；

存储模块，用于在将数据对象存入所述文件设置模块设置的所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象，并在所述索引文件中记录所述新存入数据对象的地址偏移；如是，则将所述待存储的数据对象存入所述剩余空间；否则，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移；

读取模块，用于通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象。

优选地，所述的处理装置，其中，所述数据文件中的文件数据块的长度为：***设定的最小分配粒度的整数倍。

优选地，所述的处理装置，其中，所述存储在所述文件数据块中的数据对象包括：数据状态、数据长度及数据内容；所述数据状态包括：***状态和移除状态。

上述技术方案中的至少一个技术方案具有如下有益效果：

通过设置数据文件和索引文件、在索引文件中存储数据文件中各数据对象对应的地址偏移、及由数据文件申请文件数据块，可实现文件映射内存的存取方式，从而可通过指针访问磁盘文件，在进程地址空间中将磁盘的文件部分或者全部映射到特定地址范围，然后通过指针就可以访问内存映射文件的内容，从而不必对文件执行I/O操作，这样对大数据量来说，存取效率极高。且由于数据文件中的文件数据块都是等长的，从而***每次分配相同长度的文件数据块。这样在数据文件映射到内存时，每次文件映射，都只映射了一块固定长度的文件块，从而不必记载每一次需要映射的文件长度，统一了规则，节约了大量的内存，也提高了效率。

附图说明

图1为本发明一实施例的海量数据的处理方法的流程示意图；

图2为本发明一实施例中，数据文件和索引文件具体文件结构的一个例子；

图3为本发明一实施例中，***操作的流程示意图；

图4为本发明一实施例中，遍历读取操作的流程示意图；

图5为本发明一实施例中，遍历读取操作的一种具体实现逻辑的流程示意图；

图6为本发明实施例的海量数据的处理装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明实施例中海量数据处理方法的流程示意图。如图1，本发明一实施例的海量数据处理方法包括：

步骤101，设置一数据文件及索引文件，该数据文件用于存储数据对象，所述数据文件包括至少一个文件数据块，所述数据文件中、每个文件数据块的长度相等；所述索引文件与所述数据文件相对应，所述索引文件包括所述数据文件中存储的每个数据对象在所述数据文件中的地址偏移；

步骤102，在将数据对象存入所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象；如是，则执行步骤103；否则，执行步骤104；

步骤103，将所述待存储的数据对象存入所述剩余空间，并在所述索引文件中记录所述新存入数据对象的地址偏移，结束流程；

步骤104，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移；

步骤105，通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象。

本发明的实施例中，数据对象为：任意二进制对象，或者数据流。

本发明实施例中，通过设置数据文件和索引文件、在索引文件中记录数据文件中各数据对象的地址偏移、及由数据文件申请文件数据块，可实现文件映射内存的存取方式，该存储方式提供了一种独特的内存管理特征，它能够通过指针访问磁盘文件，就像是访问动态内存一样。在进程地址空间中将磁盘的文件部分或者全部映射到特定地址范围，然后通过指针就可以访问内存映射文件的内容，从而不必对文件执行I/O操作，这样对大数据量来说，存取效率极高。且由于数据文件中的文件数据块都是等长的，从而***每次分配相同长度的文件数据块。这样在数据文件映射到内存时，每次文件映射，都只映射了一块固定长度的文件块，从而不必记载每一次需要映射的文件长度，统一了规则，节约了大量的内存，也提高了效率。

下面通过一个具体例子对本发明进行说明。

在该例中，通过设置数据文件和索引文件来实现数据如海量数据的存取。其中，数据文件的物理方式表现为一组定长的文件数据块(Block)，每个文件数据块的长度相等，且为***设定的最小分配粒度的整数倍。该例中，利用定长的文件数据块来存储变长的数据对象。示例性地，如Windows***中，***设定的最小分配粒度是64k，则数据文件中每个文件数据块的长度为64k的整数倍。数据文件的逻辑方式表现为一系列的变长数据对象。每个数据对象以预定的方式存储在文件数据块中。索引文件与数据文件相对应，用于记录每个数据对象在数据文件中的地址偏移(Offset)。示例性地，该地址偏移为数据对象的起始位置距离文件头的距离。示例性地，通过数据对象的索引号从该索引文件中获得对应Blob的地址偏移。示例性地，该索引号可对应于Blob在数据文件中的序号。

本发明的实施例中，数据文件的文件数据块的长度为***设定的最小分配粒度的整数倍，从而每次需要分配***设定的最小粒度整数倍的文件块长度，对于采用基于页(Page-based)的虚拟内存***，虚拟内存管理采用页的方式进行数据传输，统一以相同的方式执行存盘读写操作，减少了读写次数，极大地提高读写能力。。

图2示出了本发明的实施例中，数据文件和索引文件具体文件结构的一个例子。在该例中，数据对象为二进制大数据对象(Blob)。每个Blob包括：数据状态、数据长度和数据内容。数据状态包括：***状态和移除状态；所述***状态，用于标识所述数据状态为存入的有效数据；所述移除状态，用于标识所述数据状态为已删除的无效数据。物理上，数据文件中已删除的数据对象仍然存在，但在读取数据时，当读取的数据对象的数据状态为移除时，可判断出该数据为已删除的数据。如图2，示例性但不作为限制地，在数据文件中，每个Blob的记录方式可以为：一个字节即1Byte的数据状态+4Byte的数据长度+n Byte的数据内容，n为自然数。其中，数据状态包括：***状态和移除状态，用于标示该数据对象是***的数据对象还是已经删除的数据对象。该例的索引文件中，每4个字节记录一个地址偏移，不同数据对象的地址偏移按照数据对象在数据文件中的顺序依次排列。当然，上述用于记录数据状态、数据长度和地址偏移的字节数不限于上述提到的，所用的字节数可以更多也可以更少。

本发明的实施例中，通过对上述数据文件和/或索引文件进行操作可实现对海量数据的存储、删除和读取。下面对上述几个文件操作分别进行说明：

***操作：将欲存储的数据对象如Blob***数据文件。图3示出了本发明实施例的***操作的流程示意图。如图3，该***操作包括：

步骤301，在输入欲***的Blob的长度以及Blob的数据内容后，判断数据文件中游标当前指向的Block的剩余空间是否足够存储***的Blob；如是，则执行步骤302；否则，执行步骤303；

步骤302，将该Blob直接存入该剩余空间，并将该Blob的状态置为***状态，然后在索引文件中记录该Blob的地址偏移；

步骤303，首先用该Blob将上述剩余空间填满，然后，数据文件向***申请一块或多块新的Block，继续将未填入的Blob的剩余内容填充到上述新申请的Block中，然后将该Blob的状态置为***状态，并在填充动作完成后，在索引文件中记录该Blob的地址偏移。

删除操作：删除数据文件中的一个变长数据对象。具体包括：输入欲删除Blob的索引号；根据该索引号，从索引文件中获得该变长数据在数据文件中的地址偏移，并将该Blob的状态置为移除状态。

在本发明的实施例中，数据对象写入数据文件后，删除数据对象时，物理上并不将该删除的数据对象移除，而只是将该删除的数据对象的状态设置为移除状态。这样能提高海量数据的存取效率。

遍历获取操作：依次遍历数据文件中存储的所有变长数据对象。图4示出了本发明实施例的遍历读取操作的流程示意图。如图4，该操作包括：

步骤401，重置文件游标，将数据文件的游标设置为数据文件头；

步骤402，移动游标至下一个Blob的地址偏移，然后获取游标当前指向的Blob的数据内容、数据长度及数据状态；

步骤403，判断是否已读取完所有的数据对象；如是，则结束；否则，转入执行步骤402，继续读取尚未读取的Blob。

示例性地，图5为遍历获取的一个具体实现逻辑的流程示意图。如图5，该具体实现包括：

步骤501，重置文件游标；

步骤502，移动游标到下一个地址；

步骤503，判断该地址是否为文件尾；如是，则结束读取；否则，执行步骤504；

步骤504，读取游标当前指向地址对应的Blob的数据状态、数据长度及数据内容，并在读取完该Blob的内容后，转入执行步骤502。

随机读取操作，用于随机获取数据文件中指定的数据对象。该操作，具体包括：

将所述数据文件的游标指向所述获取的地址偏移；

判断该地址偏移是不是数据文件的文件尾；如是，则结束流程；否则，读取该地址偏移对应的数据对象的数据内容、数据长度及数据状态。

利用本发明上述实施例的文件结构和文件操作，在如下测试环境下，存储2千万个对象数据，存储时间是1281毫秒，全部读取时间406毫秒，文件大小是488320KB。

测试环境：

Window XP***

Intel Core2 Duo CPU 2.10HZ

2G内存，

Hitachi HTS542516K9A300磁盘

上述测试用例仅仅是用来说明利用本发明实施例的技术方案，大大提高了对海量数据的存取效率，并不用于对本发明作出限制。本发明实施例的技术方案也可应用于其它的操作***，和硬件环境。针对不同的应用环境，如对象数据，上述存储时间、读取时间和文件大小均可能有所不同。

本领域普通技术人员可以理解，实现上述事实的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机所可读取的存储介质中，该程序在执行时，包括如下步骤：

所述的存储介质，如ROM/RAM、磁盘、光盘等。

本发明还提供了一种海量数据的处理装置。如图6，本发明实施例的数据处理装置包括：文件设置模块601，用于设置一数据文件及索引文件，所述数据文件用于存储数据对象，所述数据文件包括至少一个文件数据块，所述数据文件中、每个文件数据块的长度相等；所述索引文件与所述数据文件相对应，所述索引文件包括所述数据文件中存储的每个数据对象在所述数据文件中的地址偏移；存储模块602，用于在将数据对象存入所述文件设置模块设置的所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象，并在所述索引文件中记录所述新存入数据对象的地址偏移；如是，则将所述待存储的数据对象存入所述剩余空间；否则，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移。读取模块603，用于通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象。

本发明实施例的数据处理装置中，所述数据文件中的文件数据块的长度为：***设定的最小分配粒度的整数倍。

本发明实施例的数据处理装置中，所述存储在所述文件数据块中的数据对象包括：数据状态、数据长度及数据内容；所述数据状态包括：***状态和移除状态。

利用本发明实施例的技术方案，可大大提高对海量数据的存取效率，从而可针对海量数据建立高速缓存文件、永久存储文件、和/或针对数据对象建立海量序列化文件。且利用本发明实施例的技术方案存储的数据，不易被破解。

上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种海量数据的处理方法，其特征在于，包括：

在将数据对象存入所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象；如是，则将所述待存储的数据对象存入所述剩余空间，并在所述索引文件中记录新存入数据对象的地址偏移；否则，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移；

通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象；

所述数据文件中的文件数据块的长度为：***设定的最小分配粒度的整数倍。

2.根据权利要求1所述的海量数据的处理方法，其特征在于，所述数据对象为：二进制对象，或者数据流。

3.根据权利要求1所述的海量数据的处理方法，其特征在于，所述存储在所述文件数据块中的数据对象包括：数据状态、数据长度及数据内容；所述数据状态包括：***状态和移除状态。

4.根据权利要求3所述的海量数据的处理方法，其特征在于，所述方法还包括删除所述数据文件中的数据对象的步骤，具体为：

5.根据权利要求3或4所述的海量数据的处理方法，其特征在于，还包括：遍历读取所述数据文件中数据对象的步骤，具体为：

步骤a，将所述数据文件的游标置为数据文件头；

6.根据权利要求4所述的海量数据的处理方法，其特征在于，还包括：随机读取所述数据文件中数据对象的步骤，具体为：

7.一种海量数据的处理装置，其特征在于，包括：

存储模块，用于在将数据对象存入所述文件设置模块设置的所述数据文件时，判断所述数据文件中、游标当前指向的文件数据块的剩余空间是否足够存储待存储的数据对象，并在所述索引文件中记录新存入数据对象的地址偏移；如是，则将所述待存储的数据对象存入所述剩余空间；否则，在所述待存储的数据对象将所述剩余空间填满后，所述数据文件向***申请一块或多块新文件数据块，并将所述待存储数据对象中还未存入的剩余数据存入到所述新文件数据块中，并在所述索引文件中记录所述新存入数据对象的地址偏移；

读取模块，用于通过将所述游标指向欲读取的数据对象的地址偏移来读取所述数据文件中存储的数据对象；

8.根据权利要求7所述的处理装置，其特征在于，所述存储在所述文件数据块中的数据对象包括：数据状态、数据长度及数据内容；所述数据状态包括：***状态和移除状态。