CN102479217A

CN102479217A - 一种分布式数据仓库中实现计算均衡的方法及装置

Info

Publication number: CN102479217A
Application number: CN2010105661426A
Authority: CN
Inventors: 李均; 王有为; 郭玮; 洪坤乾; 赵伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2010-11-23
Filing date: 2010-11-23
Publication date: 2012-05-30
Anticipated expiration: 2030-11-23
Also published as: CN102479217B

Abstract

本发明公开了一种分布式数据仓库中实现计算均衡的方法及装置，用于解决分布式数据仓库在执行Map/Reduce计算过程中由于数据自身的不均衡分布导致在执行SQL查询时，集群计算资源使用不均衡的技术问题。本发明在分布式数据仓库中，将对字段分布情况的感知功能与查询引擎结合，对查询引擎翻译的MR任务进行调整，根据字段值分布情况，进行查询语句的翻译，通过添加一个或者多个MR任务对数据进行打散操作，使得数据分散更加合理均衡，从而达到计算均衡，提高了集群内部计算资源的平均利用，加快了MR任务的执行速度。

Description

一种分布式数据仓库中实现计算均衡的方法及装置

技术领域

本发明涉及分布式数据仓库技术，尤其涉及一种分布式数据仓库中实现计算均衡的方法及装置。

背景技术

数据仓库之父Bill Inmon对数据仓库的定义为：数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合，用于支持管理决策(Decision Making Support)。

随着网络的发展，互联网信息呈现***式的增长，互联网用户也越来越庞大，一个基于互联网应用数据仓库的数据量通常都达到万亿字节(Trillion Byte，TB)级别。为了快速处理这些海量数据，人们提出了分布式数据仓库，分布式数据仓库采用了并行计算技术，可用于进行大规模数据的挖掘和统计，可将以前电信级别的数据仓库的运算速度提高很多倍。

基于Hadoop架构的分布式数据仓库采用基于谷歌文件***(Google FileSystem，GFS)和映射缩减(Map Reduce，MR)技术，GFS***是一个可扩展的分布式文件***，用于大型的、分布式的、对大量数据进行访问的应用。MapReduce技术是一种编程模型，也是一个处理和生成超大数据集的算法模型，用于大规模数据集的并行运算，其包括映射(Map)函数和缩减(Reduce)函数处理过程，Map函数用来处理一个基于键值对(key value pair)的数据集合，输出中间的基于键值对的数据集合，Reduce函数用来合并所有的具有相同中间key值的中间value值。

在对分布式数据仓库进行优化时，针对计算均衡性的优化是一个主要目标，通常查询引擎利用统计信息来制定合理的查询计划，解决计算过程中的不均衡性问题。在采用Hadoop架构的分布式数据仓库中提供一种Hive数据仓库工具，该工具可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

Hive现有方案提供了开启一阶段或者两阶段MR的机制，用户在提交的HiveQL使用注释的方式强制要求Hive对提交的HiveQL使用一阶段或者两阶段的MR查询计划。但只有非常明确知道需要处理的数据分布特征后才能决定是否开启该选项。对于高达数十亿条记录的表而言，在缺乏对表数据的全面了解的前提下，要做出正确的决策是及其困难的。如果Map阶段输出的大量Key被推向少数几个节点，可能导致超出这些节点的处理能力导致任务运行失败。Map/Reduce计算过程中由于数据自身的不均衡分布也会导致集群计算资源不均衡，从而导致无法充分发挥集群计算的整体性能。

发明内容

有鉴于此，本发明的主要目的在于提供一种分布式数据仓库中实现计算均衡的方法及装置，用于解决分布式数据仓库在执行Map/Reduce计算过程中由于数据自身的不均衡分布导致在执行结构化查询语句(SQL)时，集群计算资源使用不均衡的技术问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种分布式数据仓库中实现计算均衡的方法，该方法包括：

在查询语句入口***计算均衡性入口检测代码，通过该计算均衡性入口检测代码获得执行聚集操作的字段值分布情况；

若执行聚集操作的字段值分布不均衡，则对查询引擎翻译的映射缩减(MR)任务进行优化，增加一个或多个MR任务，对数据进行打散操作。

进一步地，获得执行聚集操作的字段值分布情况的方法包括静态方式和动态方式；

静态方式下，计算均衡性入口检测代码直接从数据字典表或表元数据表中读取所述执行聚集操作的字段的字段值分布情况；

动态方式下，计算均衡性入口检测代码在MR执行过程中对字段值分布规律进行统计，从而获得相应字段值的分布情况。

进一步地，采用动态方式获得执行聚集操作的字段值分布情况的方法具体为：

使用第一算子对输入数据进行全局信息统计，并从初始输入的数据中拆解出需要处理的字段；

使用第二算子对第一算子处理后的数据进行窗口采样；

将窗口采样获得的数据推送给多个映射器(Mapper)，在每个Mapper上使用第三算子对输入的字段统计出常用值，并计算出直方图；

在缩减(Reduce)处理阶段对Mapper输出的部分统计值进行合并，最终完成所述执行聚集操作的字段的全局直方图的统计。

进一步地，增加MR任务时，所采用的对数据进行打散的方式为哈希函数方式或固定步长取余的方式。

进一步地，在所述分布式数据仓库中增加计算均衡性开关，用于控制所述计算均衡性入口检测代码是否生效。

基于本发明的方法，本发明还提出一种分布式数据仓库中实现计算均衡的装置，该装置应用于查询引擎中，用于在查询语句入口对查询引擎翻译的MR任务进行优化，该装置包括：

字段值分布统计模块，用于获得执行聚集操作的字段值分布情况；

字段值均衡判断模块，用于根据所述执行聚集操作的字段值的分布情况判断字段值分布是否均衡；

查询计划优化模块，用于在所述执行聚集操作的字段值分布不均衡的情况下，对查询引擎翻译的MR任务进行优化，增加一个或多个MR任务，对数据进行打散操作。

进一步地，所述字段值分布统计模块包括：

静态获取模块，用于直接从数据字典表或表元数据表中读取所述执行聚集操作的字段的字段值分布情况；

动态获取模块，用于在MR执行过程中对所述执行聚集操作的字段的字段值分布规律进行统计，从而获得其字段值分布情况。

进一步地，所述动态获取模块包括：

全局统计模块，用于使用第一算子对输入数据进行全局信息统计，并从初始输入的数据中拆解出需要处理的字段；

采样模块，用于使用第二算子对第一算子处理后的数据进行窗口采样；

局部统计模块，用于将窗口采样获得的数据推送给多个Mapper，在每个Mapper上使用第三算子对输入的字段统计出常用值，并计算出直方图；

合并模块，用于对Mapper输出的部分统计值进行合并，最终完成所述执行聚集操作的字段的全局直方图的统计。

进一步地，所述查询计划优化模块增加MR任务时，所采用的打散方式为哈希函数方式或固定步长取余的方式。

进一步地，所述装置还包括：

均衡参数判断模块，用于判断计算均衡性开关是否打开，若所述计算均衡性开关打开，则所述装置生效，否则，所述装置不生效。

本发明在分布式数据仓库中，将对字段分布情况的感知功能与查询引擎结合，对查询引擎翻译的MR任务进行调整，根据字段值分布情况，进行查询语句的翻译，通过添加一个或者多个MR任务对数据进行打散操作，使得数据分散更加合理均衡，从而达到计算均衡，提高了集群内部计算资源的平均利用，加快了MR任务的执行速度。

附图说明

图1为本发明分布式数据仓库中实现计算均衡的方法的步骤流程图；

图2为本发明采用动态方式获取相应字段值分布情况的流程图；

图3A-3B为现有按性别执行访问量分组统计的MR任务及执行效果图；

图4为本发明对查询引擎翻译的MR任务进行优化后的任务流程图；

图5为本发明对查询引擎翻译的MR任务进行优化后的查询执行效果图；

图6为本发明对查询计划进行优化前和优化后的对比图；

图7为本发明分布式数据仓库中实现计算均衡的装置结构示意图。

具体实施方式

本发明的基本思想是：在SQL的Select语句入口***计算均衡性入口检测代码，在执行聚集操作(GroupBy)时，通过该计算均衡性入口检测代码获得执行聚集操作的字段值分布信息，在所述字段呈不均衡分布的情况下，对查询引擎翻译的MR任务进行调整，通过增加一个或多个MR任务的方式使得计算资源的使用更加均衡，使处理速度和处理大数据集的能力得到了显著提升。

为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

图1为本发明提供的分布式数据仓库中实现计算均衡的方法的步骤流程图，具体步骤如下：

步骤101、在查询(Select)语句入口***计算均衡性入口检测代码，通过该计算均衡性入口检测代码获得执行聚集操作的字段值分布情况；

处于兼容性的考虑看，本发明在分布式数据仓库中新增了计算均衡性开关配置参数，用于根据需要打开或关闭计算均衡性入口检测代码的功能。例如在Hive中，通过命令行接口打开计算均衡性开关。

获得执行聚集操作的字段值分布情况可以通过以下两种方式：

(1)静态方式，该方式下，计算均衡性入口检测代码可直接从数据字典表或表元数据表中读取相应字段值分布情况。

该方式主要用于所述字段为非临时性字段或表为非临时表，且在分布式数据仓库中存储有该字段值分布情况的表原数据的情况。分布式数据仓库在数据经过数据提取、转换和加载(Extraction Transformation Loading，ETL)集群加载到数据仓库时，可对表中的指定字段进行统计操作，记录这些字段值分布情况。这些信息作为分布式数据仓库的表元数据表保存在分布式数据仓库中，因此，计算均衡性入口检测代码即可直接读取相应的元数据信息，由于该方式不需要对键值分布情况进行动态的统计，所以命名为静态方式。

(2)动态方式，该方式下，计算均衡性入口检测代码需要动态执行相应字段值分布情况的统计信息搜集。

该方式主要用于处理来自于上一个MR任务的数据的情况，由于这些数据是计算过程中产生的临时数据，查询引擎不能静态感知其字段值的分布规律。但是，由于两个MR之间存在依赖关系，当前的MR任务需要等待上一个MR任务执行结束，才开始运行，待上一次MR任务执行结束时，分布式数据仓库可以根据上一次MR任务收集到相应字段值的分布情况，动态决策是否对查询引擎翻译的MR任务进行调整，从而选择一套最优的查询计划，以充分利用计算资源，达到计算均衡。

步骤102、判断执行聚集操作的字段值分布情况是否为不均衡分布，若是不均衡分布，则执行步骤103；否则，执行步骤104；

步骤103、当执行聚集操作的字段值为不均衡分布时，对查询引擎翻译的MR任务进行优化，增加一个或多个MR任务，对数据进行打散操作，在新增的MR任务上进行局部统计和归并操作，使得计算均衡分布到计算资源上。

新增的MR任务通过局部统计和合并操作使得数据量逐级急剧减少，在每一层MR任务的缩减器(Reducer)上进行归并统计，最终获得需要查询结果。

所述打散的方式可以采用哈希函数或以固定步长取余的方式使数据均衡分散给不同的MR任务。哈希函数的原理是构建从原字段(Key)到目标缩减(Reduce Key)的一个函数映射，具体做法是首先将原Key字符串的内容转换成ASCII码，然后用质数因子进行权重配比操作，最后将获得的数值等比例缩放到一个自然数区间，该区间代表了MR集群机器的代号数值。实践证明，哈希函数方式可以有效地将原来字段值分布较为密集的Key映射成密度较低的自然数分布。该方法在数据分布均衡性上更具优势。固定步长取余的原理是对输入MR的Key进行序号标记，假设集群中的机器数目为N，每个输入的Key均分配一个索引值，记为Index，该索引值根据输入的Key数目进行递增。那么该Key-Value对将分配到标号为(Index模N)的机器上执行计算，这种方法在计算速度上更具优势。

步骤104、当执行聚集操作的字段值为均衡分布时，由于查询引擎翻译的MR任务已经能够充分利用计算资源，所以不需要对查询引擎翻译的MR任务进行调整，按原有方式执行即可。

图2为本发明计算均衡性入口检测代码采用动态方式获取相应字段值分布情况的流程图，具体步骤如下：

步骤201、使用第一算子(Operator)对输入数据进行全局信息统计，并根据指定的统计信息搜集字段，从初始输入的数据中拆解出需要处理的字段，打包传送到下一个操作阶段。

所述统计信息包括两类，一类是表/分区级别的统计信息，一类是字段级别的统计信息。表级/分区级别的统计信息，主要包括记录数、使用的磁盘空间、文件数、文件块数等；字段级别的统计信息，主要包括字段的平均长度、去重(distinct)值以及字段(key)值的分布情况等。

所述第一算子执行的操作包括：统计全局的记录数目；统计每条记录中各个字段的长度；统计每条记录各个字段的空白记录数目等。

步骤202、使用第二算子对第一算子处理后的数据进行窗口采样；

因为需要处理的数据规模及其庞大，如果对全部数据进行统计，既无必要而且实际应用中性能开销也无法接受，再则通过采样获得的样本数据已经可以很好地反映全局空间的数据分布特征，因此，出于效率和性能上的考虑，本发明通过对输入数据进行窗口采样的方式来近似地反映相应字段的全局空间的数据分布特征，以提高执行效率。

窗口采样方式可以为：首先根据第一算子的统计结果，预估整张数据表的规模，然后根据需要进行采样的规模确定平均采样步长，采样命中的记录则传播到下一个阶段进行直方图的统计，未命中的记录则不做处理。

步骤203、将窗口采样获得的输入数据推送给多个映射器(Mapper)，在每个Mapper上使用第三算子对输入的字段(Key)以及对应的字段值(Value)统计出常用值，并计算出直方图。

在当前的Mapper阶段结束后，将对应的Key和Value组装完毕后推送到缩减器(Reducer)端，由Reducer端完成对当前字段的全局直方图统计。直方图统计的结果包括两部分：一个浮点值，该值根据特定区间确定该字段的分布特征；常用值统计列表。

步骤204、在Reducer端完成对相应字段的全局直方图统计，所述全局直方图能否反映相应字段的全局空间的数据分布情况。

在Mapper输出的是每个域的部分统计值，这些统计值将在Reduce阶段被合并，最终生成该字段的常用值列表以及分布特征值。这些信息最终被写到文件中，待以后制定查询计划时候使用。

在MR执行过程中对字段值分布规律进行收集的代价是很小的，因为MR框架在任务执行过程中也在收集一些***信息，可以使用MR框架的Counter机制获取字段值的分布信息。

以下举一个典型实例说明本发明提出的分布式数据仓库中实现计算均衡的方法的执行过程。该实施例中，分布式数据仓库中的表t用于存储用户的历史访问记录，该表包含用户账号(id)字段和性别(gender)字段，为了对业务***的访问量进行按性别的分组统计，需要执行如下SQL语句：“selectcount(distinct id)from table t group by gender”。在不使用本发明提出的计算均衡的算法的情况下，这条查询语句经过查询引擎的翻译后，形成Map/Reduce任务，如图3A所示，按照性别(gender)字段，将gender字段值相同的数据发送至相同的Reducer，在同一个Reducer中，对id字段进行去重(Distinct)操作并完成统计。由于gender字段只有男、女两个数值，该条查询语句最多只有两个Reducer，这样所有的数据将被推送至这两台机器上进行计算，导致计算资源利用的不均衡，如果表中的数据量非常庞大，推送到Reducer的数据量超出这些节点的处理能力，则会导致任务运行失败，图3B所示为该查询的执行效果。

导致该查询语句执行时计算不均衡的原因是由于gender字段的不均衡分布导致的，而不均衡的现象是与具体的操作逻辑相关的，例如同样的数据，按照性别进行统计和按照用户账号进行统计是不一样的。只有按照性别进行统计才会存在计算不均衡的问题。由于计算均衡性是与操作逻辑相关的现象，因此可以从操作逻辑的层面来规避计算不均衡的现象。仍然以“select count(distinct id)from table t group by gender”为例，该条查询是按照性别进行分组统计id字段去重后的数量，若表t为非临时表，且在分布式数据仓库中存储有gender字段值分布情况的表原数据，则查询引擎可采用静态方式获取该字段的字段值分布情况，若表t为临时表或gender为临时字段，则查询引擎可采用动态方式获取该字段的字段值分布情况。由于gender字段只有两个取值，该字段值的分布为不均衡分布，因此，按照现有查询引擎翻译MR任务的方式，只会将t表中的数据分为两组，分别交给两个Reducer处理。本发明通过计算均衡性入口检测代码对原有查询计划进行优化，如图4所示，本发明通过增加一个Map/Reduce任务，将原有的去重、统计操作分隔开来：首先，对原始数据按照id字段的哈希值不同分配到不同的Reducer上进行id字段的去重操作，并按照gender计算出局部的统计值(如图4中所示的任务1)；然后，第二个MR任务将第一个MR任务计算得来的局部统计值按照gender字段进行归并统计操作。由于第一个MR将数据按照id字段进行打散，使得计算比较均衡，并且局部统计使得数据急剧减少，在任务2中只需要按照gender进行统计即可，不会存在计算不均衡的现象，图5为优化后的查询执行效果。图6为针对该实施例对查询计划进行优化前和优化后的对比图，原始的查询计划只包含一个MR任务，优化后的查询计划增加了输入数据的字段值分布情况的判断步骤，且在字段值分布不均衡的情况下动态增加一个MR任务，用于执行打散操作，已达到计算均衡的目的。

通过上述实施例可以看出，本发明主要通过在查询引擎翻译SQL语句阶段，根据执行聚集操作字段值的分布情况翻译出合适的查询计划，通过动态地添加MR任务对数据进行打散操作，以达到计算的均衡性。

图7为本发明分布式数据仓库中实现计算均衡的装置的结构示意图，该装置应用于查询引擎中，用于在查询语句入口对查询引擎翻译的MR任务进行优化，该装置700包括：

字段值分布统计模块701，用于获得执行聚集操作的字段值分布情况；

字段值均衡判断模块702，用于根据所述执行聚集操作的字段值的分布情况判断字段值分布是否均衡；

查询计划优化模块703，用于在所述执行聚集操作的字段值分布不均衡的情况下，对查询引擎翻译的MR任务进行优化，增加一个或多个MR任务，对数据进行打散操作，所采用的打散方式可以为哈希函数方式或固定步长取余的方式。

所述字段值分布统计模块701进一步包括：

所述动态获取模块进一步包括：

所述装置700还进一步包括：均衡参数判断模块，该模块用于判断控制本发明提供的分布式数据仓库中实现计算均衡装置是否生效的计算均衡性开关是否打开，若所述计算均衡性开关打开，则所述装置生效，否则，所述装置不生效。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明保护范围。

Claims

1.一种分布式数据仓库中实现计算均衡的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，获得执行聚集操作的字段值分布情况的方法包括静态方式和动态方式；

3.根据权利要求2所述的方法，其特征在于，采用动态方式获得执行聚集操作的字段值分布情况的方法具体为：

使用第二算子对第一算子处理后的数据进行窗口采样；

4.根据权利要求1所述的方法，其特征在于，增加MR任务时，所采用的对数据进行打散的方式为哈希函数方式或固定步长取余的方式。

5.根据权利要求1所述的方法，其特征在于，在所述分布式数据仓库中增加计算均衡性开关，用于控制所述计算均衡性入口检测代码是否生效。

6.一种分布式数据仓库中实现计算均衡的装置，其特征在于，该装置应用于查询引擎中，用于在查询语句入口对查询引擎翻译的MR任务进行优化，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述字段值分布统计模块包括：

8.根据权利要求7所述的装置，其特征在于，所述动态获取模块包括：

9.根据权利要求6所述的装置，其特征在于，所述查询计划优化模块增加MR任务时，所采用的打散方式为哈希函数方式或固定步长取余的方式。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：均衡参数判断模块，用于判断计算均衡性开关是否打开，若所述计算均衡性开关打开，则所述装置生效，否则，所述装置不生效。