CN102426609A

CN102426609A - 一种基于MapReduce编程架构的索引生成方法和装置

Info

Publication number: CN102426609A
Application number: CN2011104463259A
Authority: CN
Inventors: 兰轶伦; 汤伟宾; 章正道
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2012-04-25
Anticipated expiration: 2031-12-28
Also published as: CN102426609B

Abstract

本发明涉及一种基于MapReduce编程架构的索引生成方法和装置，其中方法包括步骤：获取数据，并将数据整理成统一的格式，以记录集合形式进行存储；对记录集合中的每条数据记录进行头部封装；向HBase集群批量***经头部封装的数据记录；调用Hadoop集群中的MapReduce服务和HBase服务，连接Solr集群；进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；进行Reduce操作，生成倒排索引文件；启动一个新的Map任务，对倒排索引文件进行分片操作，生成最终的索引。采用本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。

Description

一种基于MapReduce编程架构的索引生成方法和装置

技术领域

本发明涉及互联网信息技术领域，更具体地说，涉及一种基于MapReduce编程架构的索引生成方法和装置。

背景技术

传统的索引引擎(如：lucene及基于lucene的Solr)创建索引及管理索引的保存方式仍是基于文件的，该方式有多种弊端：

1、不适用与集群文件***保存，因为索引文件仍是大批量小文件，放在集群文件***上将使读写效率大幅下降；

2、不容易进行集群化扩展，在大量数据同时建立索引时，由于频繁的创建新分片、合并，易使索引引擎的响应时间提升，效率降低。

综合以上的分析可以发现：通过引进一种外部的管理方式来提升索引引擎本身的索引生成效率势在必行。

MapReduce(映射化简)***是一个最先由Google提出的分布式计算软件构架，通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理，可以用来解决大数据量的分布式计算问题，然后把计算后的结果放入文件***或者数据库中。

MapReduce***中，每一个map操作都是相对独立的，所有的map任务都是并行运行的，虽然实践中会受到数据源和中央处理器个数的影响。同样的，MapReduce***用一个reducer集合来执行reduce操作，所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效，但是MapReduce***能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能，当一个map操作或reduce操作失效时，整个工作就会被重新安排，从而不会影响数据处理工作的连续性。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于MapReduce编程架构的索引生成方法和装置，其能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。

本发明解决其技术问题所采用的技术方案是：

构造一种基于MapReduce编程架构的索引生成方法，其中，包括步骤：

获取数据，并将所述数据整理成统一的格式，以记录集合形式进行存储；

对所述记录集合中的每条数据记录进行头部封装；

并行向HBase集群批量***经头部封装的数据记录；

调用Hadoop集群中的MapReduce服务和HBase服务，连接Solr集群，确认集群状态；

对所述HBase集群中的数据记录进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；

对所述HBase集群中的数据记录进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件；

启动一个新的Map任务，对所述倒排索引文件进行分片操作，将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。

本发明所述的索引生成方法，其中，，所述步骤：对所述记录集合中的每条数据记录进行头部封装，具体包括：

读取所述记录集合中的数据记录；

在所述数据记录头部添加标示值；

在添加有所述标示值的数据记录头部添加主键值。

本发明所述的索引生成方法，其中，所述步骤：进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件，具体包括：

扫描所述HBase集群中每一条数据记录，运用分词方法，将所述数据记录切分为多个关键字的集合；

汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值，形成所述倒排索引中间文件。

本发明所述的索引生成方法，其中，所述步骤：进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件，具体包括：

读取所述倒排索引中间文件；

汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值，进行Reduce操作，形成所述倒排索引文件。

本发明所述的索引生成方法，其中，所述启动一个新的Map任务，对所述倒排索引文件进行分片操作，生成最终的索引具体包括：

对所述HBase集群中每一条数据记录的标示值进行运算；

根据所述标示值，将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。

本发明还提供了一种基于MapReduce编程架构的索引生成装置，其中，包括：

数据输入模块，用于获取数据，并将所述数据整理成统一的格式，以记录集合形式进行存储；

数据封装模块，用于对所述记录集合中的每条数据记录进行头部封装；

数据***模块，用于并行向HBase集群批量***经头部封装的数据记录；

事件通知模块，用于调用Hadoop集群中的MapReduce服务和HBase服务，连接Solr集群，确认集群状态；

Map并行预处理模块，用于对所述HBase集群中的数据记录进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；

Reduce并行预处理模块，用于对所述HBase集群中的数据记录进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件；

Solr集群Map调度模块，用于启动一个新的Map任务，对所述倒排索引文件进行分片操作，将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。

本发明所述的索引生成装置，其中，所述数据封装模块包括：

记录读取单元，用于读取所述记录集合中的数据记录；

标示值添加单元，用于在所述数据记录头部添加标示值；

主键值添加单元，用于在添加有所述标示值的数据记录头部添加主键值。

本发明所述的索引生成装置，其中，所述Map并行预处理模块包括：

扫描单元，用于扫描所述HBase集群中每一条数据记录，运用分词方法，将所述数据记录切分为多个关键字的集合；

第一汇总单元，用于汇总同一Map操作中具有相同关键字的所述数据记录对应的主键值，形成所述倒排索引中间文件。

本发明所述的索引生成装置，其中，所述Reduce并行预处理模块包括：

中间文件读取单元，用于读取所述倒排索引中间文件；

第二汇总单元，用于汇总所有Map操作中具有相同关键字的所述数据记录对应的主键值，进行Reduce操作，形成所述倒排索引文件。

本发明所述的索引生成装置，其中，所述Solr集群Map调度模块包括：

标示值运算单元，用于对所述HBas e集群中每一条数据记录的标示值进行运算；

索引生成单元，用于根据所述标示值，将所述倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。

本发明的有益效果在于：通过对数据记录进行头部封装，并将经过头部封装的数据记录***到HBase集群中进行存储，再利用MapReduce编程架构下的Map操作和Reduce操作来对HBase集群中的数据记录进行处理，生成最终索引。通过本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明较佳实施例的基于MapReduce编程架构的索引生成方法流程图；

图2是本发明较佳实施例的数据记录封装过程示意图；

图3是本发明较佳实施例的索引生成方法中Map操作和Reduce操作过程示意图；

图4是本发明较佳实施例的索引生成方法中Solr集群Map操作过程示意图；

图5是本发明较佳实施例的数据检索流程图；

图6是本发明较佳实施例的基于MapReduce编程架构的索引生成装置原理框图；

图7是本发明较佳实施例的索引生成装置中数据封装模块原理框图；

图8是本发明较佳实施例的索引生成装置中Map并行预处理模块原理框图；

图9是本发明较佳实施例的索引生成装置中Reduce并行预处理模块原理框图；

图10是本发明较佳实施例的索引生成装置中Solr集群Map调度模块原理框图。

具体实施方式

本发明较佳实施例的基于MapReduce编程架构的索引生成方法S100流程如图1所示，该方法S100可采用硬件、软件或软硬件结合的方式实现。其起始于步骤S110。在步骤S120中，获取数据，并将数据整理成统一的格式，以记录集合形式进行存储；在步骤S130中，对记录集合中的每条数据记录进行头部封装；在步骤S140中，并行向HBase集群批量***经头部封装的数据记录；在步骤S150中，调用Hadoop集群中的MapReduce服务和HBase服务，连接Solr集群，确认集群状态；在步骤S160中，对HBase集群中的数据记录进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；在步骤S170中，对HBase集群中的数据记录进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件；在步骤S180中，启动一个新的Map任务，对倒排索引文件进行分片操作，将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。上述方法结束于步骤S190。通过本发明的方法能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。

具体地，在上述步骤S120中，所获取的数据可以是任一种可转换成纯文本格式的数据。在接收到数据后，将其梳理成统一的与***关键字、保留字无冲突的纯文本格式，对***保留字符等特殊字符进行转义。例如：将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。

上述步骤S130具体包括：读取记录集合中的数据记录；在数据记录头部添加标示值；在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示，在原始数据记录的头部依次添加标示值和主键值，得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值，使其具有全局唯一性；标示值则使用通用唯一识别码(Universally Unique Identifier，UUID)，以设定数据记录在后续步骤中的索引生成位置。

在上述步骤S140中，用于进行数据存储的HBase集群是一种非关系型数据库，其数据表现形式为一张<关键字，主键值>型的大表，用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量，以便于应对海量数据，且并行向HBase集群批量***数据记录可以提高数据***速度，提高索引生成效率。

上述步骤S160具体包括：扫描HBase集群中每一条数据记录，运用分词方法，将数据记录切分为多个关键字K的集合；汇总同一Map操作中具有相同关键字的数据记录对应的主键值V，形成倒排索引中间文件。上述步骤S170具体包括：读取倒排索引中间文件；汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V，进行Reduce操作，形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中，HBase集群中包括n个数据记录：数据记录1、数据记录2、数据记录3……数据记录n，其中n为自然数。并行扫描HBase集群中每一条数据记录，对其中的n个数据记录进行n个并行的Map操作：Map操作1、Map操作2……Map操作n，再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn，K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn，V1x、V2y……Vnz)，生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V：如V＝(Value1，Value2，Value3……)，汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点，不同节点完成不同的工作，相互合作以共同完成任务；或者不同的节点都完成一样的工作，以保证可扩展性和容错性。

上述步骤S180过程如图4所示，具体包括：对HBase集群中每一条数据记录的标示值进行运算，即，启动一个新的Map服务，多个Map操作可并行执行，包括Map操作1、Map操作2……Map操作n，负责对倒排索引文件进行分片(split)操作，对标示值(id值)进行运算；根据标示值，将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上，生成最终的索引。而数据记录的详细内容仍保留在HBase集群上，这样可以提供所处理数据量，以及提高索引生成效率和数据查询效率。

当客户通过采用上述方法S100所生成的索引进行数据查询时，流程如图5所示，包括如下步骤：

步骤1，包括客户端输入搜索关键字步骤；在该步骤中，客户端输入查找关键字进行分词解析，以查找各个相关的数据记录内容，并访问Solr集群；

步骤2，包括数据记录的主键值及数据记录的标示值读取步骤；在该步骤中，返回每个关键字对应的数据记录的主键值及数据记录的标示值，以便读取HBase集群中的记录全文；

步骤3，包括全文内容集读取步骤；在该步骤中，通过上一步输出的数据记录的主键值及数据记录的标示值，读取HBase集群中的数据记录的全文内容集，并返回给客户端。

在本发明的另一实施例中，还提供了一种基于MapReduce编程架构的索引生成装置，如图6所示，其中包括：数据输入模块10，用于获取数据，并将数据整理成统一的格式，以记录集合形式进行存储；数据封装模块20，用于对记录集合中的每条数据记录进行头部封装；数据***模块30，用于并行向HBase集群批量***经头部封装的数据记录；事件通知模块40，用于调用Hadoop集群中的MapReduce服务和HBase服务，连接Solr集群，确认集群状态；Map并行预处理模块50，用于对HBase集群中的数据记录进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；Reduce并行预处理模块60，用于对HBase集群中的数据记录进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件；Solr集群Map调度模块70，用于启动一个新的Map任务，对倒排索引文件进行分片操作，将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点上，生成最终的索引。通过本发明的装置能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。

上述实施例中，数据输入模块10所获取的数据可以是任一种可转换成纯文本格式的数据，在接收数据后，将其梳理成统一的与***关键字、保留字无冲突的纯文本格式，对***保留字符等特殊字符进行转义。例如：将数据中的引号(″)转换成为(\″)、将回车符用(\n)标示等。

上述实施例中，用于进行数据存储的HBase集群是一种非关系型数据库，其数据表现形式为一张<关键字，主键值>型的大表，用于作为MapReduce的数据仓库和暂存地。因此采用HBase集群可以提高数据处理量，以便于应对海量数据，且并行向HBase集群批量***数据记录可以提高数据***速度，提高索引生成效率。

进一步地，如图7所示，上述实施例中索引生成装置的数据封装模块20包括：记录读取单元21，用于读取记录集合中的数据记录；标示值添加单元22，用于在数据记录头部添加标示值；主键值添加单元23，用于在添加有标示值的数据记录头部添加主键值。具体封装过程如图2所示，在原始数据记录的头部依次添加标示值和主键值，得到新数据记录。其中主键值是通过对整条数据记录进行哈希取值，使其具有全局唯一性；标示值则使用通用唯一识别码(Universally Unique Identifier，UUID)，以设定数据记录在后续步骤中的索引生成位置。

进一步地，如图8和图9所示，上述实施例中索引生成装置的Map并行预处理模块50包括：扫描单元51，用于扫描HBase集群中每一条数据记录，运用分词方法，将数据记录切分为多个关键字K的集合；第一汇总单元52，用于汇总同一Map操作中具有相同关键字的数据记录对应的主键值V，形成倒排索引中间文件。上述实施例中索引生成装置的Reduce并行预处理模块60包括：中间文件读取单元61，用于读取倒排索引中间文件；第二汇总单元62，用于汇总所有Map操作中具有相同关键字K的数据记录对应的主键值V，进行Reduce操作，形成倒排索引文件。Map操作和Reduce操作的过程如图3所示。图3中，HBase集群中包括n个数据记录：数据记录1、数据记录2、数据记录3……数据记录n，其中n为自然数。并行扫描HBase集群中每一条数据记录，对其中的n个数据记录进行n个并行的Map操作：Map操作1、Map操作2……Map操作n，再汇总同一Map操作中具有相同关键字K(包括K1、K2……Kn，K1x、K2y……Knz)的数据记录对应的主键值V(包括V1、V2……Vn，V1x、V2y……Vnz)，生成倒排索引中间文件。通过将所有倒排索引中间文件中相同关键字K的主键值V进行汇总形成一个单一的主键值V：如V＝(Value1，Value2，Value3……)，汇总为统一的倒排索引文件。这样可以充分利用MapReduce编程架构下的多个节点，不同节点完成不同的工作，相互合作以共同完成任务；或者不同的节点都完成一样的工作，以保证可扩展性和容错性。

更进一步地，如图10所示，上述实施例中索引生成装置的Solr集群Map调度模块70包括：标示值运算单元71，用于对HBase集群中每一条数据记录的标示值进行运算，即，启动一个新的Map服务，多个Map操作可并行执行，包括Map操作1、Map操作2……Map操作n，负责对倒排索引文件进行分片(split)操作，对数据记录的标示值(id值)进行运算；索引生成单元72，用于根据标示值，将倒排索引文件中每个倒排索引数据块对应到不同的Solr集群节点(Solr集群节点1、Solr集群节点2……Solr集群节点n)上，生成最终的索引。而数据记录的详细内容仍保留在HBase集群上，这样可以提高所处理数据量，以及提高索引生成效率和数据查询效率。

综上所述，本发明的方法和装置能实现高效分布式海量数据的存储与索引的建立，并具有可扩展、高容错、高性能等优点。且采用本发明的方法和装置，还可通过预写日志的方式来保证所有的操作在发生异常时都可回滚回正常状态，加强***的健壮性；通过异步消息队列的方式来传递信息，可使集群节点在异常中断后，可由其他节点接手工作。这样不仅提高了索引创建的效率，而且增强了索引的搜索能力，无论是文本匹配还是全文索引，都具有优秀的性能。

应当理解的是，上述实施例仅用来进一步说明本发明的一种基于MapReduce编程架构的索引生成方法和装置，但本发明并不局限于上述实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均落入本发明技术方案的保护范围内。

Claims

1.一种基于MapReduce编程架构的索引生成方法，其特征在于，包括步骤：

对所述记录集合中的每条数据记录进行头部封装；

并行向HBase集群批量***经头部封装的所述数据记录；

2.根据权利要求1所述的索引生成方法，其特征在于，所述步骤：对所述记录集合中的每条数据记录进行头部封装，具体包括：

读取所述记录集合中的数据记录；

在所述数据记录头部添加标示值；

在添加有所述标示值的数据记录头部添加主键值。

3.根据权利要求2所述的索引生成方法，其特征在于，所述步骤：进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件，具体包括：

4.根据权利要求3所述的索引生成方法，其特征在于，所述步骤：进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件，具体包括：

读取所述倒排索引中间文件；

5.根据权利要求4所述的索引生成方法，其特征在于，所述启动一个新的Map任务，对所述倒排索引文件进行分片操作，生成最终的索引具体包括：

对所述HBase集群中每一条数据记录的标示值进行运算；

6.一种基于MapReduce编程架构的索引生成装置，其特征在于，包括：

Map并行预处理模块，用于进行Map操作，提交运行索引并行生成任务，形成倒排索引中间文件；

Reduce并行预处理模块，用于进行Reduce操作，将多份经过Map操作的倒排索引中间文件汇总为统一的倒排索引文件；

7.根据权利要求6所述的索引生成装置，其特征在于，所述数据封装模块包括：

记录读取单元，用于读取所述记录集合中的数据记录；

标示值添加单元，用于在所述数据记录头部添加标示值；

8.根据权利要求7所述的索引生成装置，其特征在于，所述Map并行预处理模块包括：

9.根据权利要求8所述的索引生成装置，其特征在于，所述Reduce并行预处理模块包括：

中间文件读取单元，用于读取所述倒排索引中间文件；

10.根据权利要求9所述的索引生成装置，其特征在于，所述Solr集群Map调度模块包括：

标示值运算单元，用于对所述HBase集群中每一条数据记录的标示值进行运算；