CN109947559A

CN109947559A - 优化MapReduce计算的方法、装置、设备和计算机存储介质

Info

Publication number: CN109947559A
Application number: CN201910108974.4A
Authority: CN
Inventors: 侯志贞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-03
Filing date: 2019-02-03
Publication date: 2019-06-28
Anticipated expiration: 2039-02-03
Also published as: CN109947559B

Abstract

本发明提供了一种优化MapReduce计算的方法、装置、设备和计算机存储介质，其中所述方法包括：在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量；根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序；根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。本发明能够缩短MapReduce计算的运行时间、提高MapReduce计算的运行效率。

Description

优化MapReduce计算的方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及数据处理技术领域，尤其涉及一种优化MapReduce计算的方法、装置、设备和计算机存储介质。

【背景技术】

MapReduce一直是开源大数据平台Hadoop的组成部分，它是一种分布式计算模型，主要用于搜索领域，用于解决海量数据的计算问题。但是，现有技术在使用MapReduce进行计算时，尤其在MapReduce计算的Reduce阶段，通常会采用以随机顺序来启动各Reduce任务的方式。但由于Reduce阶段存在多个Reduce任务，采用随机顺序来启动各个Reduce任务的方式，会极容易导致MapReduce计算出现问题，且还会造成MapReduce计算的运行时间较长、运行效率较低的问题。

【发明内容】

有鉴于此，本发明提供了一种优化MapReduce计算的方法、装置、设备和计算机存储介质，用于缩短MapReduce计算的运行时间，提升MapReduce计算的运行效率。

本发明为解决技术问题所采用的技术方案是提供一种优化MapReduce计算的方法，所述方法包括：在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量；根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序；根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

根据本发明一优选实施例，在获取各Reduce任务需要处理的数据量之前，还包括：获取当前Reduce任务的数量；确定所述当前Reduce任务的数量是否超过预设阈值，若超过，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

根据本发明一优选实施例，在获取各Reduce任务需要处理的数据量之前，还包括：确定优化启用参数的值是否为预设值；若所述优化启用参数的值为预设值，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

根据本发明一优选实施例，所述根据排序结果依次启动各Reduce任务包括：确定各Reduce任务对应的内存资源；将所确定的内存资源分配至各Reduce任务之后，根据排序结果依次启动各Reduce任务。

根据本发明一优选实施例，所述确定各Reduce任务对应的内存资源包括：将预设的资源容量确定为各Reduce任务对应的内存资源；或者根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源。

根据本发明一优选实施例，所述根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源包括：根据所述排序结果依次取出一个Reduce任务；确定所取出的Reduce任务需要处理的数据量是否大于等于预设的数据量阈值，若是，则根据该Reduce任务需要处理的数据量计算其对应的内存资源；若否，则将该Reduce任务与其他Reduce任务进行合并，并根据合并得到的Reduce任务需要处理的数据量计算其对应的内存资源；依次处理完全部的Reduce任务后，得到各Reduce任务对应的内存资源。

根据本发明一优选实施例，将所取出的Reduce任务与其他Reduce任务进行合并包括：计算所述数据量阈值与所取出的Reduce任务需要处理的数据量之间的数据量差值，并确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量；若是，从剩余的Reduce任务中选择一个需要处理的数据量小于等于所述数据量差值的Reduce任务之后，再计算数据量阈值与所选择的两个Reduce任务需要处理的数据量之间的数据量差值；确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量，以此循环，直至计算得到的数据量差值小于排序结果中最后一个Reduce任务需要处理的数据量，则将选择出的多个Reduce任务合并为一个Reduce任务。

本方面为解决技术问题所采用的技术方案是提供一种优化MapReduce计算的装置，所述装置包括：获取单元，用于在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量；排序单元，用于根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序；处理单元，用于根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

根据本发明一优选实施例，所述获取单元在获取各Reduce任务需要处理的数据量之前，还执行：获取当前Reduce任务的数量；确定所述当前Reduce任务的数量是否超过预设阈值，若超过，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

根据本发明一优选实施例，所述获取单元在获取各Reduce任务需要处理的数据量之前，还执行：确定优化启用参数的值是否为预设值；若所述优化启用参数的值为预设值，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

根据本发明一优选实施例，所述处理单元在根据排序结果依次启动各Reduce任务时，具体执行：确定各Reduce任务对应的内存资源；将所确定的内存资源分配至各Reduce任务之后，根据排序结果依次启动各Reduce任务。

根据本发明一优选实施例，所述处理单元在确定各Reduce任务对应的内存资源时，具体执行：将预设的资源容量确定为各Reduce任务对应的内存资源；或者根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源。

根据本发明一优选实施例，所述处理单元在根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源时，具体执行：根据所述排序结果依次取出一个Reduce任务；确定所取出的Reduce任务需要处理的数据量是否大于等于预设的数据量阈值，若是，则根据该Reduce任务需要处理的数据量计算其对应的内存资源；若否，则将该Reduce任务与其他Reduce任务进行合并，并根据合并得到的Reduce任务需要处理的数据量计算其对应的内存资源；依次处理完全部的Reduce任务后，得到各Reduce任务对应的内存资源。

根据本发明一优选实施例，所述处理单元在将所取出的Reduce任务与其他Reduce任务进行合并时，具体执行：计算所述数据量阈值与所取出的Reduce任务需要处理的数据量之间的数据量差值，并确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量；若是，从剩余的Reduce任务中选择一个需要处理的数据量小于等于所述数据量差值的Reduce任务之后，再计算数据量阈值与所选择的两个Reduce任务需要处理的数据量之间的数据量差值；确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量，以此循环，直至计算得到的数据量差值小于排序结果中最后一个Reduce任务需要处理的数据量，则将选择出的多个Reduce任务合并为一个Reduce任务。

由以上内容可以看出，本发明通过获取各Reduce任务需要处理的数据量之后，根据数据量从大到小的顺序对各Reduce任务进行排序，从而根据排序结果依次启动各Reduce任务，能够有效地避免以随机顺序来启动Reduce任务造成的计算失败的问题，并能够缩短MapReduce计算的运行时间，从而提升MapReduce计算的运行效率。

【附图说明】

图1为本发明一实施例提供的一种优化MapReduce计算的方法流程图；

图2为本发明一实施例提供的一种优化MapReduce计算的装置结构图；

图3为本发明一实施例提供的计算机***/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明中的MapReduce是一种分布式计算模型，用于大规模数据集的并行运算。其中，MapReduce计算模型主要由Map阶段和Reduce阶段组成，用户只需通过map和reduce这两个函数，即可实现数据的分布式计算。

具体地，Map阶段：由各Map任务对输入数据进行处理得到输出数据；Shuffle阶段：对各Map任务得到的输出数据进行混洗，分别收集输出数据中需要由同一个Reduce任务进行处理的数据；Reduce阶段：数据收集完成后，根据Map输出与Reduce输入之间的对应关系，将所收集的数据发送至对应的Reduce任务，使得各Reduce任务对其所需要处理的数据进行处理，得到输出数据。

本发明对MapReduce计算过程中的Reduce阶段进行优化，通过根据各Reduce任务所需处理的数据量在Reduce阶段中依次启动各Reduce任务的方式，实现缩短MapReduce计算的运行时间、提升MapReduce计算的运行效率的目的。

图1为本发明一实施例提供的一种优化MapReduce计算的方法流程图，如图1中所示，所述方法应用在MapReduce计算过程中的Reduce阶段，包括：

在101中，在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量。

在本步骤中，在MapReduce的Map阶段完成之后，即各Map任务全部运行完毕后，获取MapReduce的Reduce阶段中各Reduce任务需要处理的数据量。

在获取各Reduce任务需要处理的数据量之前，本步骤可以包括以下内容：获取当前Reduce任务的数量，即获取MapReduce在执行当前作业时需要运行的Reduce任务的数量；确定当前Reduce任务的数量是否超过预设阈值，若超过，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。优选地，本发明中的预设阈值为可同时运行Reduce任务的数量。

也就是说，在当前Reduce任务的数量小于等于可同时运行Reduce任务的数量时，由于能够同时运行当前全部的Reduce任务，因此各Reduce任务的运行顺序不会影响MapReduce处理作业所需的时间；而在当前Reduce任务的数量大于可同时运行Reduce任务的数量时，由于无法同时运行当前全部的Reduce任务，因此各Reduce任务的运行顺序会影响MapReduce处理作业所需的时间。

因此，本步骤可以在确定当前Reduce任务的数量超过预设阈值之后，再执行获取各Reduce任务需要处理的数据量的操作，能够避免不必要的操作，从而进一步提升优化MapReduce计算的准确度。

另外，在获取各Reduce任务需要处理的数据量之前，本步骤还可以包括以下内容：确定优化启用参数的值是否为预设值，其中该优化启用参数是预先设置的，用于表明是否启用对MapReduce计算的优化；若优化启用参数的值为预设值，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。其中，预设值可以为“true”，也可以为“1”。

也就是说，当优化启用参数的值为“true”或“1”时，就表明需要启用本发明对MapReduce计算的优化；当优化启用参数的值不为预设值时，例如优化启用参数的值为“false”或者“0”时，则表明不需要启用本发明对MapReduce计算的优化。

可以理解的是，若本步骤采用根据优化启用参数的值是否为预设值的方式来确定是否启用对MapReduce计算的优化时，则无需再进行对当前Reduce任务的数量与可同时运行Reduce任务的数量比较的操作，当优化启用参数的值为预设值时，直接执行获取各Reduce任务需要处理的数据量的操作。

在102中，根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序。

在本步骤中，根据步骤101中所获取的各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对Reduce任务进行排序，从而获取MapReduce计算过程中各Reduce任务的排序结果。

现有技术在进行MapReduce计算时，通常不知道每个Reduce任务需要处理的数据量，因此现有技术在启动Reduce任务时的顺序比较随机。基于通常理解，在各Reduce任务的处理速度相同的情况下，若Reduce任务需要处理的数据量越大，则该Reduce任务所需要的处理时间就越长。而由于在MapReduce计算过程中，Reduce任务的启动顺序会影响MapReduce计算需要的时间，因此按照何种顺序来启动各Reduce任务对于MapReduce的计算效率来说至关重要。

举例来说，若当前有A、B、C、D四个Reduce任务，其处理时间分别为1、2、3、6分钟，假设可同时运行两个Reduce任务，则存在以下几种情况：

(1)先运行A任务和B任务，1分钟后A任务运行结束，再运行C任务，2分钟后B任务运行结束，再运行D任务，当D任务运行结束后，全部4个Reduce任务运行结束，总共需要8分钟；

(2)先运行A任务和C任务，1分钟后A任务运行结束，再运行B任务，3分钟后B任务和C任务运行结束，再运行D任务，当D任务运行结束后，全部4个Reduce任务运行结束，总共需要9分钟；

(3)先运行A任务和D任务，1分钟后A任务运行结束，再运行B任务，3分钟后B任务运行结束，再运行C任务，当D任务运行结束后，全部4个Reduce任务运行结束，总共需要6分钟；

(4)先运行C任务和D任务，3分钟后C任务运行结束，再运行B任务，5分钟后B任务运行结束，再运行A任务，当D任务运行结束后，全部4个Reduce任务运行结束，总共也需要6分钟。

从上面的举例可以看出，采用不同的顺序启动Reduce任务时，MapReduce计算的运行时间也不相同，而在先运行需要处理较大数据量的Reduce任务(相当于先运行处理时间较长的Reduce任务)时，能够明显地降低MapReduce计算的运行时间。因此，本步骤根据各Reduce任务需要处理的数据量对各Reduce任务进行排序，优先启动数据量较大的Reduce任务，从而实现降低MapReduce计算的运行时间的目的。

在103中，根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

在本步骤中，根据步骤102对各Reduce任务排序所得到的排序结果，依次启动各Reduce任务，从而在各Reduce任务全部运行完毕后，完成MapReduce计算。也就是说，本步骤按照数据量从大到小的顺序依次启动Reduce任务，能够避免花费较长时间来完成MapReduce计算，从而提升MapReduce计算的运行效率。

本步骤在根据排序结果依次启动各Reduce任务时，可以采用以下方式：确定各Reduce任务对应的内存资源；将所确定的内存资源分配至各Reduce任务之后，根据排序结果依次启动各Reduce任务。

具体地，本步骤在确定各Reduce任务对应的内存资源时，可以将预设的资源容量确定为各Reduce任务对应的内存资源。也就是说，本步骤为每个Reduce任务分配相同的内存资源。

其中，预设的资源容量可以为用户预先设置的，例如用户预先设置为每个Reduce任务分配16G的内存资源；预设的资源容量也可以为当前处理数据量最多的Reduce任务所需要的内存资源，例如当前处理数据量最多的Reduce任务需要8G的内存资源，则其他Reduce任务对应的内存资源也为8G。

可以理解的是，在每个Reduce任务需要处理的数据量都比较大的情况下，采用为每个Reduce任务分配相同的内存资源的方式，能够确保各Reduce任务都具有足够的内存资源，避免由于内存资源不足所导致的运行速度慢的问题。但当各Reduce任务需要处理的数据量之间相差较大时，若再采用为每个Reduce任务分配相同的内存资源的方式，则会造成内存资源浪费的问题。

因此，本步骤在确定各Reduce任务对应的内存资源时，还可以采用以下方式：根据各Reduce任务需要处理的数据量确定为各Reduce任务对应的内存资源。也就是说，本步骤可以根据各Reduce任务实际需要处理的数据量，来确定各Reduce任务实际需要的内存资源，从而避免内存资源的浪费。

其中，本步骤可以根据各Reduce任务需要处理的数据量，依次计算各Reduce任务实际需要的内存资源。也就是说，存在多少个Reduce任务，本步骤需要计算对应个数的Reduce任务实际需要的内存资源。

另外，本步骤在根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源时，还可以采用以下方式：根据排序结果依次取出一个Reduce任务；确定所取出的Reduce任务需要处理的数据量是否大于等于预设的数据量阈值；若是，则根据该Reduce任务需要处理的数据量计算其对应的内存资源；若否，则将该Reduce任务与其他Reduce任务进行合并，并根据合并得到的Reduce任务需要处理的数据量计算其对应的内存资源；依次处理完全部的Reduce任务之后，得到各Reduce任务对应的内存资源。

具体地，本步骤在将所取出的Reduce任务与其他Reduce任务进行合并时，可以采用以下方式：计算数据量阈值与该Reduce任务需要处理的数据量之间的数据量差值，并确定该数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量；若是，从剩余的Reduce任务中选择一个需要处理的数据量小于等于该数据量差值的Reduce任务之后，再计算数据量阈值与所选择的两个Reduce任务需要处理的数据量之间的数据量差值，并确定该数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量，以此循环，直至计算得到的数据量差值小于排序结果中最后一个Reduce任务需要处理的数据量，则将选择出的多个Reduce任务合并为一个Reduce任务。

另外可以理解的是，本步骤也可以采用其他的合并方式，例如说根据排序结果从多个MapReduce任务选取两个Reduce任务进行合并，所选取的这两个Reduce任务需要处理的数据量之和小于等于预设的数据量阈值。

因此，本步骤通过将多个Reduce任务合并为一个Reduce任务的方式，可以在避免内存资源浪费的基础上，进一步减少Reduce任务运行的数量。

举例来说，若预设的数据量阈值为500M，若根据排序结果有6个Reduce任务，各任务及其需要处理的数据量分别为Reduce1(600M)、Reduce2(500M)、Reduce3(400M)、Reduce4(300M)、Reduce5(100M)以及Reduce6(100M)，则确定各Reduce任务对应的内存资源的过程可以为：首先取出Reduce1，该Reduce任务需要处理的数据量(600M)大于数据量阈值(500M)，则根据600M的数据量计算Reduce1对应的内存资源可以为600M；再取出Reduce2，该Reduce任务需要处理的数据量(500M)等于数据量阈值(500M)，则根据500M的数据量计算Reduce2对应的内存资源可以为500M；接着取出Reduce3，该Reduce任务需要处理的数据量(400M)小于数据量阈值(500M)，则计算得到数据量阈值与Reduce3任务需要处理的数据量之间的数据量差值为100M，该数据量差值等于排序结果中最后一个Reduce任务需要处理的数据量，在将Reduce6取出后，计算得到数据量阈值与Reduce3任务以及Reduce6任务需要处理的数据量之间的数据量差值小于Reduce5需要处理的数据量，则将Reduce3任务以及Reduce6任务合并为一个Reduce任务，并根据合并的Reduce任务需要处理的数据量(500M)计算该合并的Reduce任务对应的内存资源可以为500M；同理可得，将Reduce3任务以及Reduce6任务合并，并根据合并的Reduce任务需要处理的数据量(400M)计算该合并的Reduce任务对应的内存资源可以为400M。

本步骤在确定各Reduce任务对应的内存资源之后，便能够根据排序结果依次运行已分配内存资源的各Reduce任务，在全部的Reduce任务运行完毕后便完成了MapReduce计算。

在现有技术中，每个Reduce任务分为3个阶段：第一个阶段为拷贝，即当前Reduce任务从各个Map任务所得到的输出数据中拷贝需要由该Reduce任务处理的数据；第二个阶段为合并，即当前Reduce任务对拷贝的数据进行合并；第三个阶段为调用Reduce方法，即当前Reduce任务利用Reduce方法对合并的数据进行处理，并将处理得到的的数据写在分布式文件***上。

可以理解的是，若本步骤采用了将多个Reduce任务合并为一个Reduce任务的处理方式，则在运行该合并Reduce任务时，可以对该合并Reduce任务中包含的每个Reduce分别执行拷贝、合并以及调用Reduce方法的操作，从而得到对应合并Reduce任务中各Reduce任务的输出结果，即合并Reduce任务中有多少个Reduce任务便得到对应个数的输出结果。举例来说，若将Reduce1任务以及Reduce2任务合并为一个Reduce任务，则在运行该合并Reduce任务时，可以首先对Reduce1任务执行拷贝、合并以及调用Reduce方法的操作，得到Reduce1任务的输出结果；然后再对Reduce2任务执行拷贝、合并以及调用Reduce方法的操作，得到Reduce2任务的输出结果。

若本步骤采用了将多个Reduce任务合并为一个Reduce任务的处理方式，则在运行该合并Reduce任务时，还可以采用以下方式：拷贝合并Reduce任务中所包含的全部Reduce任务需要处理的数据；对拷贝得到的数据进行合并后，调用Reduce方法对所得到的合并数据进行处理，得到输出结果，即对于一个合并Reduce任务能够得到一个输出结果。举例来说，若将Reduce1任务以及Reduce2任务合并为一个Reduce任务，则在运行该合并Reduce任务时，可以对Reduce1任务以及Reduce2任务需要处理的数据进行拷贝，在对拷贝得到的数据合并之后，调用Reduce方法对合并得到的数据进行处理，从而得到对应该合并Reduce任务的一个输出结果。

因此，本发明相比于现有技术来说，除了能够缩短MapReduce计算的运行时间、提升MapReduce计算的运行效率之外，还能够避免内存资源的浪费，且能够进一步缩减运行Reduce任务的数量，从而进一步提升MapReduce计算的运行性能。

图2为本发明一实施例提供的一种优化MapReduce计算的装置结构图，如图1中所示，所述装置包括：获取单元21、排序单元22以及处理单元23。

获取单元21，用于在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量。

获取单元21在MapReduce的Map阶段完成之后，即各Map任务全部运行完毕后，获取MapReduce的Reduce阶段中各Reduce任务需要处理的数据量。

在获取各Reduce任务需要处理的数据量之前，获取单元21可以执行以下操作：获取当前Reduce任务的数量；确定当前Reduce任务的数量是否超过预设阈值，若超过，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。优选地，本发明中的预设阈值为可同时运行Reduce任务的数量。

因此，获取单元21可以在确定当前Reduce任务的数量超过预设阈值之后，再执行获取各Reduce任务需要处理的数据量的操作，能够避免不必要的操作，从而进一步提升优化MapReduce计算的准确度。

另外，在获取各Reduce任务需要处理的数据量之前，获取单元21还可以执行以下操作：确定优化启用参数的值是否为预设值，其中该优化启用参数是预先设置的，用于表明是否启用对MapReduce计算的优化；若优化启用参数的值为预设值，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。其中，预设值可以为“true”，也可以为“1”。

可以理解的是，若获取单元21采用根据优化启用参数的值是否为预设值的方式来确定是否启用对MapReduce计算的优化时，则无需再进行对当前Reduce任务的数量与可同时运行Reduce任务的数量比较的操作，当优化启用参数的值为预设值时，直接执行获取各Reduce任务需要处理的数据量的操作。

排序单元22，用于根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序。

排序单元22根据获取单元21所获取的各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对Reduce任务进行排序，从而获取MapReduce计算过程中各Reduce任务的排序结果。

由于采用不同的顺序启动Reduce任务时，MapReduce计算的运行时间也不相同，而在先运行需要处理较大数据量的Reduce任务(相当于先运行处理时间较长的Reduce任务)时，能够明显地降低MapReduce计算的运行时间。因此，排序单元22根据各Reduce任务需要处理的数据量对各Reduce任务进行排序，优先启动数据量较大的Reduce任务，从而实现降低MapReduce计算的运行时间的目的。

处理单元23，用于根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

处理单元23根据排序单元22对各Reduce任务排序所得到的排序结果，依次启动各Reduce任务，从而在各Reduce任务全部运行完毕后，完成MapReduce计算。也就是说，处理单元23按照数据量从大到小的顺序依次启动Reduce任务，能够避免使用较长的时间完成MapReduce计算，从而提升MapReduce计算的运行效率。

处理单元23在根据排序结果依次启动各Reduce任务时，可以采用以下方式：确定各Reduce任务对应的内存资源；将所确定的内存资源分配至各Reduce任务之后，根据排序结果依次启动各Reduce任务。

具体地，处理单元23在确定各Reduce任务对应的内存资源时，可以将预设的资源容量确定为各Reduce任务对应的内存资源。也就是说，处理单元23为每个Reduce任务分配相同的内存资源。其中，预设的资源容量可以为用户预先设置的；预设的资源容量也可以为当前处理数据量最多的Reduce任务所需要的内存资源。

处理单元23在确定各Reduce任务对应的内存资源时，还可以采用以下方式：根据各Reduce任务需要处理的数据量确定为各Reduce任务对应的内存资源。也就是说，处理单元23可以根据各Reduce任务实际需要处理的数据量，来确定各Reduce任务实际需要的内存资源，从而避免内存资源的浪费。

其中，处理单元23可以根据各Reduce任务需要处理的数据量，依次计算各Reduce任务实际需要的内存资源。也就是说，存在多少个Reduce任务，处理单元23需要计算对应个数的Reduce任务实际需要的内存资源。

处理单元23在根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源时，还可以采用以下方式：根据排序结果依次取出一个Reduce任务；确定所取出的Reduce任务需要处理的数据量是否大于等于预设的数据量阈值；若是，则根据该Reduce任务需要处理的数据量计算其对应的内存资源；若否，则将该Reduce任务与其他Reduce任务进行合并，并根据合并得到的Reduce任务需要处理的数据量计算其对应的内存资源；依次处理完全部的Reduce任务之后，得到各Reduce任务对应的内存资源。

具体地，处理单元23在将所取出的Reduce任务与其他Reduce任务进行合并时，可以采用以下方式：计算数据量阈值与该Reduce任务需要处理的数据量之间的数据量差值，并确定该数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量；若是，从剩余的Reduce任务中选择一个需要处理的数据量小于等于该数据量差值的Reduce任务之后，再计算数据量阈值与所选择的两个Reduce任务需要处理的数据量之间的数据量差值，并确定该数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量，以此循环，直至计算得到的数据量差值小于排序结果中最后一个Reduce任务需要处理的数据量，则将选择出的多个Reduce任务合并为一个Reduce任务。

因此，处理单元23通过将多个Reduce任务合并为一个Reduce任务的方式，可以在避免内存资源浪费的基础上，进一步减少Reduce任务运行的数量。

处理单元23在确定各Reduce任务对应的内存资源之后，便能够根据排序结果依次运行已分配内存资源的各Reduce任务，在全部的Reduce任务运行完毕后便完成了MapReduce计算。

可以理解的是，若处理单元23采用了将多个Reduce任务合并为一个Reduce任务的处理方式，则在运行该合并Reduce任务时，处理单元23可以对该合并Reduce任务中的每个Reduce分别执行拷贝、合并以及调用Reduce方法的操作，从而得到对应合并Reduce任务中各Reduce任务的输出结果，即合并Reduce任务中有多少个Reduce任务便得到对应个数的输出结果。

若处理单元23采用了将多个Reduce任务合并为一个Reduce任务的处理方式，则在运行该合并Reduce任务时，处理单元23还可以采用以下方式：拷贝合并Reduce任务中所包含的全部Reduce任务需要处理的数据；对拷贝得到的数据进行合并后，调用Reduce方法对所得到的合并数据进行处理，得到输出结果，即对于一个合并Reduce任务能够得到一个输出结果。

图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。图3显示的计算机***/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，***存储器028，连接不同***组件(包括***存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器028可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机***/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信，和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机***/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元016通过运行存储在***存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行本发明实施例所提供的方法流程。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过所获取的各Reduce任务需要处理的数据量对各Reduce任务进行排序，从而根据排序结果依次启动各Reduce任务，能够有效地避免以随机顺序来启动Reduce任务造成的计算失败问题，并能够缩短MapReduce计算的运行时间、提升MapReduce计算的运行效率

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种优化MapReduce计算的方法，其特征在于，所述方法包括：

在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量；

根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序；

根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

2.根据权利要求1所述的方法，其特征在于，在获取各Reduce任务需要处理的数据量之前，还包括：

获取当前Reduce任务的数量；

确定所述当前Reduce任务的数量是否超过预设阈值，若超过，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

3.根据权利要求1所述的方法，其特征在于，在获取各Reduce任务需要处理的数据量之前，还包括：

确定优化启用参数的值是否为预设值；

若所述优化启用参数的值为预设值，则执行获取各Reduce任务需要处理的数据量的操作，否则不执行。

4.根据权利要求1所述的方法，其特征在于，所述根据排序结果依次启动各Reduce任务包括：

确定各Reduce任务对应的内存资源；

将所确定的内存资源分配至各Reduce任务之后，根据排序结果依次启动各Reduce任务。

5.根据权利要求4所述的方法，其特征在于，所述确定各Reduce任务对应的内存资源包括：

将预设的资源容量确定为各Reduce任务对应的内存资源；或者

根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源。

6.根据权利要求5所述的方法，其特征在于，所述根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源包括：

根据所述排序结果依次取出一个Reduce任务；

确定所取出的Reduce任务需要处理的数据量是否大于等于预设的数据量阈值，若是，则根据该Reduce任务需要处理的数据量计算其对应的内存资源；

若否，则将该Reduce任务与其他Reduce任务进行合并，并根据合并得到的Reduce任务需要处理的数据量计算其对应的内存资源；

依次处理完全部的Reduce任务后，得到各Reduce任务对应的内存资源。

7.根据权利要求6所述的方法，其特征在于，将所取出的Reduce任务与其他Reduce任务进行合并包括：

计算所述数据量阈值与所取出的Reduce任务需要处理的数据量之间的数据量差值，并确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量；

若是，从剩余的Reduce任务中选择一个需要处理的数据量小于等于所述数据量差值的Reduce任务之后，再计算数据量阈值与所选择的两个Reduce任务需要处理的数据量之间的数据量差值；

确定所述数据量差值是否大于等于排序结果中最后一个Reduce任务需要处理的数据量，以此循环，直至计算得到的数据量差值小于排序结果中最后一个Reduce任务需要处理的数据量，则将选择出的多个Reduce任务合并为一个Reduce任务。

8.一种优化MapReduce计算的装置，其特征在于，所述装置包括：

获取单元，用于在各Map任务全部运行完毕之后，获取各Reduce任务需要处理的数据量；

排序单元，用于根据所述各Reduce任务需要处理的数据量，按照数据量从大到小的顺序对各Reduce任务进行排序；

处理单元，用于根据排序结果依次启动各Reduce任务，在各Reduce任务全部运行完毕后完成MapReduce计算。

9.根据权利要求8所述的装置，其特征在于，所述获取单元在获取各Reduce任务需要处理的数据量之前，还执行：

获取当前Reduce任务的数量；

10.根据权利要求8所述的装置，其特征在于，所述获取单元在获取各Reduce任务需要处理的数据量之前，还执行：

确定优化启用参数的值是否为预设值；

11.根据权利要求8所述的装置，其特征在于，所述处理单元在根据排序结果依次启动各Reduce任务时，具体执行：

确定各Reduce任务对应的内存资源；

12.根据权利要求11所述的装置，其特征在于，所述处理单元在确定各Reduce任务对应的内存资源时，具体执行：

将预设的资源容量确定为各Reduce任务对应的内存资源；或者

13.根据权利要求12所述的装置，其特征在于，所述处理单元在根据各Reduce任务需要处理的数据量确定各Reduce任务对应的内存资源时，具体执行：

根据所述排序结果依次取出一个Reduce任务；

14.根据权利要求13所述的装置，其特征在于，所述处理单元在将所取出的Reduce任务与其他Reduce任务进行合并时，具体执行：

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的方法。