CN104714983A

CN104714983A - 分布式索引的生成方法及装置

Info

Publication number: CN104714983A
Application number: CN201310695615.6A
Authority: CN
Inventors: 韩丙卫
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-12-17
Filing date: 2013-12-17
Publication date: 2015-06-17
Anticipated expiration: 2033-12-17
Also published as: WO2014180411A1; CN104714983B

Abstract

本发明公开了一种分布式索引的生成方法及装置，在上述方法中，根据原始数据的数据量确定Hadoop中的map作业的数量；将经过各个map作业处理后的数据分配至多个reduce作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；对与每个reduce作业对应的索引库进行合并。根据本发明提供的技术方案，实现了对海量数据高效地、快速地进行索引。

Description

分布式索引的生成方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种分布式索引的生成方法及装置。

背景技术

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会耗费过多的时间和金钱。大数据分析常与云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。而大数据在互联网行业通常指代这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于无法采用G或T来衡量。

大数据到底有多大？仅通过一天的时间，互联网产生的全部内容即可刻满1.68亿张DVD；发送的邮件量可以达到2940亿封之多；发出的社区帖子能够达到200万个；销售的手机为37.8万台……

截止至2012年，数据量已经从TB（1TB=1024GB）级别跃升到PB（1PB=1024TB）、EB（1EB=1024PB）乃至ZB（1ZB=1024EB）级别。国际数据公司（IDC）的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年全球产生的数据量为0.8ZB，2010年全球产生的数据量增长为1.2ZB，而2011年全球产生的数据量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。到2012年为止，人类生产的所有印刷材料的数据量是200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究表明，整个人类文明所获得的全部数据中，有90%是过去两年内产生的。而到了2020年，全世界所产生的数据规模将达到今天的44倍。

目前，在大数据时代，如何从大数据中快速有效地搜索出用户所关心的数据已经成为日趋重要的问题。高效快速的创建索引是用户进行搜索的前提，而相关技术中通常采用的创建索引的技术方案均为单线程的，在面对海量数据时存在性能瓶颈，由于对***要求较高，并且***扩展能力有限，其已经无法满足用户在海量数据中快速有效地进行数据检索的需求。

发明内容

本发明提供了一种分布式索引的生成方法及装置，以至少解决相关技术中无法对海量数据创建高效快速的索引的问题。

根据本发明的一个方面，提供了一种分布式索引的生成方法。

根据本发明的分布式索引的生成方法包括：根据原始数据的数据量确定Hadoop中的映射（map）作业的数量；将经过各个map作业处理后的数据分配至多个规约（reduce）作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；对与每个reduce作业对应的索引库进行合并。

优选地，生成与每个reduce作业对应的索引库包括：获取当前支持的文件***的类型；根据文件***的类型确定与每个reduce作业对应的索引库的生成方式；按照生成方式生成与每个reduce作业对应的索引库。

优选地，按照生成方式生成与每个reduce作业对应的索引库包括：当文件***的类型为Hadoop分布式文件***（HDFS）时，在本地磁盘中生成与每个reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至HDFS；或者，当文件***的类型为除HDFS之外的其余支持共享的分布式文件***（DFS）时，直接在其余支持共享的DFS中生成与每个reduce作业对应的索引库。

优选地，对与每个reduce作业对应的索引库进行合并包括：当文件***的类型为HDFS时，将HDFS中的与每个reduce作业对应的索引库下载至本地磁盘；在本地磁盘对与每个reduce作业对应的索引库进行合并；将合并后得到的索引库上传至HDFS，并将本地磁盘中的与每个reduce作业对应的索引库进行删除。

优选地，对与每个reduce作业对应的索引库进行合并包括：当文件***的类型为其余支持共享的DFS时，对其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行合并；将其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行删除。

根据本发明的另一方面，提供了一种分布式索引的生成装置。

根据本发明的分布式索引的生成装置包括：确定模块，用于根据原始数据的数据量确定Hadoop中的映射map作业的数量；生成模块，用于将经过各个map作业处理后的数据分配至多个规约reduce作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；合并模块，用于对与每个reduce作业对应的索引库进行合并。

优选地，生成模块包括：获取单元，用于获取当前支持的文件***的类型；确定单元，用于根据文件***的类型确定与每个reduce作业对应的索引库的生成方式；生成单元，用于按照生成方式生成与每个reduce作业对应的索引库。

优选地，生成单元，用于当文件***的类型为Hadoop分布式文件***HDFS时，在本地磁盘中生成与每个reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至HDFS；或者，生成单元，用于当文件***的类型为除HDFS之外的其余支持共享的分布式文件***DFS时，直接在其余支持共享的DFS中生成与每个reduce作业对应的索引库。

优选地，合并模块包括：下载单元，用于当文件***的类型为HDFS时，将HDFS中的与每个reduce作业对应的索引库下载至本地磁盘；第一合并单元，用于在本地磁盘对与每个reduce作业对应的索引库进行合并；第一处理单元，用于将合并后得到的索引库上传至HDFS，并将本地磁盘中的与每个reduce作业对应的索引库进行删除。

优选地，合并模块包括：第二合并单元，用于当文件***的类型为其余支持共享的DFS时，对其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行合并；第二处理单元，用于将其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行删除。

通过本发明实施例，采用根据原始数据的数据量确定Hadoop中的map作业的数量；将经过各个map作业处理后的数据分配至多个reduce作业，并生成与每个reduce作业对应的索引库，该reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；对与每个reduce作业对应的索引库进行合并，即通过采用Hadoop中的map作业和reduce作业对原始数据进行处理，生成与每个reduce作业对应的索引库，然后对与每个reduce作业对应的索引库进行合并，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的分布式索引的生成方法的流程图；

图2是根据本发明优选实施例的分布式索引的生成方法的流程图；

图3是根据本发明实施例的分布式索引的生成装置的结构框图；

图4是根据本发明优选实施例的分布式索引的生成装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是根据本发明实施例的分布式索引的生成方法的流程图。如图1所示，该方法可以包括以下处理步骤：

步骤S102：根据原始数据的数据量确定Hadoop中的map作业的数量；

步骤S104：将经过各个map作业处理后的数据分配至多个reduce作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；

步骤S106：对与每个reduce作业对应的索引库进行合并。

相关技术中，无法对海量数据创建高效、快速的索引。采用如图1所示的方法，通过采用Hadoop中的map作业和reduce作业对原始数据进行处理，生成与每个reduce作业对应的索引库，然后对与每个reduce作业对应的索引库进行合并，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。

优选地，在步骤S104中，生成与每个reduce作业对应的索引库可以包括以下操作：

步骤S1：获取当前支持的文件***的类型；

步骤S2：根据文件***的类型确定与每个reduce作业对应的索引库的生成方式；

步骤S3：按照生成方式生成与每个reduce作业对应的索引库。

在优选实施例中，首先，需要确定待获取的原始数据的数据量的大小，并划分成M（M为正整数）份，其中，每份数据分别对应一个map作业。当然，每个map作业所处理的数据量是可以动态配置的。由此，设置map数据处理插件。此外，经过各个map作业处理后产生的中间键值对集合会定期写入本地磁盘，本地磁盘又可以被划分成N（N为正整数）个，N是用户自定义设置的，每个分区分别对应一个reduce作业。通过配置reduce作业的最大数目，以提高分布式索引的创建效率，并且按照用户配置的reduce作业的数量设置reduce数据处理插件。在该优选实施例中，创建索引能够支持Hadoop分布式文件***（HDFS）以及其它可支持共享的分布式文件***（DFS）。因此，可以根据创建索引过程中所支持的文件***的类型差异确定与每个reduce作业对应的索引库的生成方式，然后按照生成方式生成与每个reduce作业对应的索引库。

优选地，在步骤S3中，按照生成方式生成与每个reduce作业对应的索引库可以包括以下步骤之一：

步骤S31：当文件***的类型为Hadoop分布式文件***（HDFS）时，在本地磁盘中生成与每个reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至HDFS；

步骤S32：当文件***的类型为除HDFS之外的其余支持共享的分布式文件***（DFS）时，直接在其余支持共享的DFS中生成与每个reduce作业对应的索引库。

在优选实施例中，如果当前支持的文件***的类型为HDFS，那么每个reduce作业均在本地文件***（即本地磁盘）中生成临时索引库；然后，在reduce作业最后的清理过程中，可以将在本地文件***中生成的临时索引库上传至HDFS文件***中。如果当前支持的文件***的类型为其余支持共享的DFS，则可以直接在DFS文件***中生成临时索引库。

优选地，在步骤S106中，对与每个reduce作业对应的索引库进行合并可以包括以下操作：

步骤S4：当文件***的类型为HDFS时，将HDFS中的与每个reduce作业对应的索引库下载至本地磁盘；

步骤S5：在本地磁盘对与每个reduce作业对应的索引库进行合并；

步骤S6：将合并后得到的索引库上传至HDFS，并将本地磁盘中的与每个reduce作业对应的索引库进行删除。

在优选实施例中，如果当前支持的文件***的类型为HDFS，那么，首先由Hadoop的索引主节点（master）从HDFS文件***中将全部临时索引库下载至本地文件***；其次，在索引主节点上对本地文件***中的全部临时索引库进行合并，生成完整的索引库；再次，在索引主节点上将完整的索引库上传至HDFS文件***中；然后，在索引主节点上将本地文件***中的各个临时索引库进行删除；最后，Hadoop的索引从节点（slave）从HDFS文件***中将完整的索引库下载至本地文件***中，以便检索使用。

优选地，在步骤S106中，对与每个reduce作业对应的索引库进行合并可以包括以下步骤：

步骤S7：当文件***的类型为其余支持共享的DFS时，对其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行合并；

步骤S8：将其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行删除。

在优选实施例中，如果当前支持的文件***的类型为其余支持共享的DFS，那么先由Hadoop的索引主节点将DFS文件***中的临时索引库合并成完整的索引库，以便检索使用；再在索引主节点上将DFS文件***中的各个临时索引库进行删除。

下面将结合图2所示的优选实施方式对上述优选实施过程作进一步的描述。

图2是根据本发明优选实施例的分布式索引的生成方法的流程图。如图2所示，该流程可以包括以下处理阶段：

第一阶段：数据采集阶段，即Hadoop的map作业阶段，数据采集阶段是设置索引的前置准备阶段，其能够为创建索引提供数据支持。Hadoop的map作业阶段所采用的是分布式的实现方式，其可以并行地处理数据，其中，map作业的数量需要由采集的数据量动态确定。利用Hadoop的map作业的采集文本文件或者数据库文件对数据进行处理，生成创建索引所需要的各个字段（即键值对（key，value）集合）的内容，由此极大地提高了数据处理性能。而在采集时由于支持插件处理，因此可以根据数据量定制不同的处理方式。

第二阶段：创建索引阶段，即Hadoop的reduce作业阶段，创建分布式索引库。通过设置reduce作业的数目来确定reduce作业并行处理的最大数值reduceNum。在数据采集阶段生成的数据通过HashCode()%reduceNum来分配具体的数据到各个reduce作业作为索引，每个reduce作业分别生成自身的临时索引库文件。

需要说明的是，创建索引能够支持Hadoop分布式文件***（HDFS）以及其它可支持共享的分布式文件***（DFS）。

第三阶段：索引合并阶段，根据创建索引阶段得到的各个reduce作业生成的各个临时索引库，由索引主节点调用索引合并将各个临时索引库合并成一个完整索引库。在执行索引合并时，可以逐个读取各个临时索引库，将临时索引库合并至单独的主索引库，最后将各个临时索引库进行删除，而由主索引库提供检索服务。

图3是根据本发明实施例的分布式索引的生成装置的结构框图。如图3所示，该装置可以包括：确定模块10，用于根据原始数据的数据量确定Hadoop中的映射map作业的数量；生成模块20，用于将经过各个map作业处理后的数据分配至多个规约reduce作业，并生成与每个reduce作业对应的索引库，其中，reduce作业的数量以及每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；合并模块30，用于对与每个reduce作业对应的索引库进行合并。

采用如图3所示的装置，解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。

优选地，如图4所示，生成模块20可以包括：获取单元200，用于获取当前支持的文件***的类型；确定单元202，用于根据文件***的类型确定与每个reduce作业对应的索引库的生成方式；生成单元204，用于按照生成方式生成与每个reduce作业对应的索引库。

优选地，如图4所示，生成单元204，用于当文件***的类型为Hadoop分布式文件***HDFS时，在本地磁盘中生成与每个reduce作业对应的索引库，然后将在本地磁盘中生成的索引库均上传至HDFS；或者，生成单元204，用于当文件***的类型为除HDFS之外的其余支持共享的分布式文件***DFS时，直接在其余支持共享的DFS中生成与每个reduce作业对应的索引库。

优选地，如图4所示，合并模块30可以包括：下载单元300，用于当文件***的类型为HDFS时，将HDFS中的与每个reduce作业对应的索引库下载至本地磁盘；第一合并单元302，用于在本地磁盘对与每个reduce作业对应的索引库进行合并；第一处理单元304，用于将合并后得到的索引库上传至HDFS，并将本地磁盘中的与每个reduce作业对应的索引库进行删除。

优选地，如图4所示，合并模块30可以包括：第二合并单元306，用于当文件***的类型为其余支持共享的DFS时，对其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行合并；第二处理单元308，用于将其余支持共享的DFS中生成的与每个reduce作业对应的索引库进行删除。

从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：采用本发明实施例所提供的技术方案，能够通过采用Hadoop中的map-reduce编程模型对原始数据进行处理，生成与每个reduce作业对应的索引库，然后对与每个reduce作业对应的索引库加以合并，形成一个完整的索引库，以便检索使用，由此解决了相关技术中无法对海量数据创建高效快速的索引的问题，进而实现了对海量数据高效地、快速地进行索引。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式索引的生成方法，其特征在于，包括：

根据原始数据的数据量确定Hadoop中的映射map作业的数量；

将经过各个map作业处理后的数据分配至多个规约reduce作业，并生成与每个reduce作业对应的索引库，其中，所述reduce作业的数量以及所述每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；

对与所述每个reduce作业对应的索引库进行合并。

2.根据权利要求1所述的方法，其特征在于，生成与所述每个reduce作业对应的索引库包括：

获取当前支持的文件***的类型；

根据所述文件***的类型确定与所述每个reduce作业对应的索引库的生成方式；

按照所述生成方式生成与所述每个reduce作业对应的索引库。

3.根据权利要求2所述的方法，其特征在于，按照所述生成方式生成与所述每个reduce作业对应的索引库包括：

当所述文件***的类型为Hadoop分布式文件***HDFS时，在本地磁盘中生成与所述每个reduce作业对应的索引库，然后将在所述本地磁盘中生成的索引库均上传至所述HDFS；或者，

当所述文件***的类型为除所述HDFS之外的其余支持共享的分布式文件***DFS时，直接在所述其余支持共享的DFS中生成与所述每个reduce作业对应的索引库。

4.根据权利要求3所述的方法，其特征在于，对与所述每个reduce作业对应的索引库进行合并包括：

当所述文件***的类型为所述HDFS时，将所述HDFS中的与所述每个reduce作业对应的索引库下载至所述本地磁盘；

在所述本地磁盘对与所述每个reduce作业对应的索引库进行合并；

将合并后得到的索引库上传至所述HDFS，并将所述本地磁盘中的与所述每个reduce作业对应的索引库进行删除。

5.根据权利要求3所述的方法，其特征在于，对与所述每个reduce作业对应的索引库进行合并包括：

当所述文件***的类型为所述其余支持共享的DFS时，对所述其余支持共享的DFS中生成的与所述每个reduce作业对应的索引库进行合并；

将所述其余支持共享的DFS中生成的与所述每个reduce作业对应的索引库进行删除。

6.一种分布式索引的生成装置，其特征在于，包括：

确定模块，用于根据原始数据的数据量确定Hadoop中的映射map作业的数量；

生成模块，用于将经过各个map作业处理后的数据分配至多个规约reduce作业，并生成与每个reduce作业对应的索引库，其中，所述reduce作业的数量以及所述每个reduce作业与一个或多个map作业之间的对应关系均为预先配置完成的；

合并模块，用于对与所述每个reduce作业对应的索引库进行合并。

7.根据权利要求6所述的装置，其特征在于，所述生成模块包括：

获取单元，用于获取当前支持的文件***的类型；

确定单元，用于根据所述文件***的类型确定与所述每个reduce作业对应的索引库的生成方式；

生成单元，用于按照所述生成方式生成与所述每个reduce作业对应的索引库。

8.根据权利要求7所述的装置，其特征在于，所述生成单元，用于当所述文件***的类型为Hadoop分布式文件***HDFS时，在本地磁盘中生成与所述每个reduce作业对应的索引库，然后将在所述本地磁盘中生成的索引库均上传至所述HDFS；或者，所述生成单元，用于当所述文件***的类型为除所述HDFS之外的其余支持共享的分布式文件***DFS时，直接在所述其余支持共享的DFS中生成与所述每个reduce作业对应的索引库。

9.根据权利要求8所述的装置，其特征在于，所述合并模块包括：

下载单元，用于当所述文件***的类型为所述HDFS时，将所述HDFS中的与所述每个reduce作业对应的索引库下载至所述本地磁盘；

第一合并单元，用于在所述本地磁盘对与所述每个reduce作业对应的索引库进行合并；

第一处理单元，用于将合并后得到的索引库上传至所述HDFS，并将所述本地磁盘中的与所述每个reduce作业对应的索引库进行删除。

10.根据权利要求8所述的装置，其特征在于，所述合并模块包括：

第二合并单元，用于当所述文件***的类型为所述其余支持共享的DFS时，对所述其余支持共享的DFS中生成的与所述每个reduce作业对应的索引库进行合并；

第二处理单元，用于将所述其余支持共享的DFS中生成的与所述每个reduce作业对应的索引库进行删除。