CN103399963A

CN103399963A - 基于Hive的优化器优化方法

Info

Publication number: CN103399963A
Application number: CN2013103730849A
Authority: CN
Inventors: 王一民
Original assignee: SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Current assignee: SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2013-11-20

Abstract

本发明公开了一种基于Hive的优化器优化方法，其步骤包括：将结构化查询语言数据发送至语义分析驱动模块；在语义分析驱动模块中，对结构化查询语言数据进行分析，并将语义分析数据发送至元数据分析器模块；基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据；基于规则的优化器接收并优化基于缓存的优化器的优化数据；获取元数据的关键词，并将其保存在关键词存储模块中；在自动建模功能模块中，接收基于规则的优化器的最优结构化查询语言数据并进行建模；元数据统计模型模块与自动建模功能模块进行数据交换；将建模数据传送至Hive客户端模块。本发明提供的基于Hive的优化器优化方法，不仅效率高，而且可以可以消除重复计算，方便使用。

Description

基于Hive的优化器优化方法

技术领域

本发明涉及了一种优化器方法，特别是涉及了一种基于Hive的优化器优化方法。

背景技术

在一些购物或咨询等网站和平台上，随着业务扩展和讯息的不断增加，数据需求也在不断增长，数据体系越来越庞大，常规的模型重构赶不上快速变化的业务，从而导致了需要不断的进行大型重构，但是这样不仅会浪费大量的人力和时间去进行重构，而且重构过程复杂，不方便使用。

大数据体系中，大规模数据处理的性能是最关键的指标之一，然而在现实环境中，大多数大数据应用，面临着性能瓶颈，尤其在数据挖掘和大数据分析层次，存在着大量的冗余计算和低效计算，所以人们需要更加满足需求的优化器***。

发明内容

本发明主要是针对现在市场的要求，提供了一种具有效率高、方便使用的基于Hive的优化器优化方法。

为了实现上述目的，本发明提供以下技术方案：

本发明提供了一种基于Hive的优化器优化方法，其步骤包括：在ETL自动化模块中，接收Hive客户端模块的结构化查询语言数据；将结构化查询语言数据发送至语义分析驱动模块；在语义分析驱动模块中，对结构化查询语言数据进行分析，并将语义分析数据发送至元数据分析器模块；基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据；基于规则的优化器接收并优化基于缓存的优化器的优化数据；获取元数据分析器模块的分析数据、Hive元数据、Hadoop元数据和优化数据中的关键词，并将其保存在关键词存储模块中；在自动建模功能模块中，接收基于规则的优化器的最优结构化查询语言数据；根据中间表、指标汇总表和最优结构化查询语言，进行建模；在元数据统计模型模块中，接收并统计建模数据；在自动建模功能模块中，接收统计数据，并根据统计数据进行建模；将建模数据传送至Hive客户端模块。

在本发明一个较佳实施例中，所述Hive客户端模块包括统一视图模块和订阅模块。

在本发明一个较佳实施例中，所述中间表包括用户中间表、商品中间表和成交中间表。

在本发明一个较佳实施例中，所述指标汇总表包括卖家指标表和商品指标表。

在本发明一个较佳实施例中，所述元数据包括天网元数据、云梯元数据和血缘分析元数据

本发明的有益效果是：本发明所述的基于Hive的优化器优化方法，不仅效率高，而且可以可以消除重复计算，方便使用。

附图说明

图1是本发明基于Hive的优化器优化方法一较佳实施例的流程示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1，图1是本发明基于Hive的优化器优化方法一较佳实施例的流程示意图。

通过大量业务场景分析，可扩展性的架构设计，对云计算和大数据基础设施Hadoop、hive等，通过优化器在上层进行了一套完整的优化，从而解决了目前大数据计算中，从在的速度瓶颈，该技术还有效的提高了数据使用率，为公司至少节省了50％的计算单元。

本发明的优化器是完全透明的，不需要工程师对上层的大数据应用做任何修改，也不用下层计算单元做适应，完全自动的让计算效率大幅度提升。该优化器还相当完美迎合目前对实时分析的需求，直接将已有的数据成果做出及时和实时反馈，这也弥补了Hadoop只适合批处理计算的弱点。

所述基于Hive的优化器优化方法，利用现有的产出数据，在其他代价不变的基础上，基本可以消除重复计算，提高数据优化效率，而且，基于Hive和Hadoop的特性，***可以自动设置参数，实现数据计算的高效执行，另外，***冗余处理能力强，可以及时的发现异常，防止任务重跑，方便使用。

所述Hive客户端模块包括统一视图模块和订阅模块等模块，按照实际使用的需要来增减模块，方便使用。

所述中间表包括用户中间表、商品中间表和成交中间表等，所述指标汇总表包括卖家指标表和商品指标表等，所述中间表和所述指标汇总表的种类和数量也必须参考用户和***的要求进行设置和管理，功能明确，方便管理和使用。

在***优化和升级的过程中，只要对中间表或指标汇总表进行改动，既按照需求添加或修改或删除中间表、指标汇总表即可，不需要改动代码，防止出现***漏洞和错误，而且，平常的***维护也比较简单，不需要过分维护，方便使用。

所述元数据包括天网元数据、云梯元数据、血缘分析元数据以及其他类型的元数据。

本发明所述的基于Hive的优化器优化方法，不仅效率高，而且可以可以消除重复计算，方便使用。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于Hive的优化器优化方法，其特征在于：步骤包括：

在ETL自动化模块中，接收Hive客户端模块的结构化查询语言数据；

将结构化查询语言数据发送至语义分析驱动模块；

在语义分析驱动模块中，对结构化查询语言数据进行分析，并将语义分析数据发送至元数据分析器模块；

基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据；

基于规则的优化器接收并优化基于缓存的优化器的优化数据；

获取元数据分析器模块的分析数据、Hive元数据、Hadoop元数据和优化数据中的关键词，并将其保存在关键词存储模块中；

在自动建模功能模块中，接收基于规则的优化器的最优结构化查询语言数据；

根据中间表、指标汇总表和最优结构化查询语言，进行建模；

在元数据统计模型模块中，接收并统计建模数据；

在自动建模功能模块中，接收统计数据，并根据统计数据进行建模；

将建模数据传送至Hive客户端模块。

2.根据权利要求1所述的基于Hive的优化器优化方法，其特征在于，所述Hive客户端模块包括统一视图模块和订阅模块。

3.根据权利要求1所述的基于Hive的优化器优化方法，其特征在于，所述中间表包括用户中间表、商品中间表和成交中间表。

4.根据权利要求1所述的基于Hive的优化器优化方法，其特征在于，所述指标汇总表包括卖家指标表和商品指标表。

5.根据权利要求1所述的基于Hive的优化器优化方法，其特征在于，所述元数据包括天网元数据、云梯元数据和血缘分析元数据。