CN103399963A - 基于Hive的优化器优化方法 - Google Patents
基于Hive的优化器优化方法 Download PDFInfo
- Publication number
- CN103399963A CN103399963A CN2013103730849A CN201310373084A CN103399963A CN 103399963 A CN103399963 A CN 103399963A CN 2013103730849 A CN2013103730849 A CN 2013103730849A CN 201310373084 A CN201310373084 A CN 201310373084A CN 103399963 A CN103399963 A CN 103399963A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- hive
- metadata
- optimizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Hive的优化器优化方法,其步骤包括:将结构化查询语言数据发送至语义分析驱动模块;在语义分析驱动模块中,对结构化查询语言数据进行分析,并将语义分析数据发送至元数据分析器模块;基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据;基于规则的优化器接收并优化基于缓存的优化器的优化数据;获取元数据的关键词,并将其保存在关键词存储模块中;在自动建模功能模块中,接收基于规则的优化器的最优结构化查询语言数据并进行建模;元数据统计模型模块与自动建模功能模块进行数据交换;将建模数据传送至Hive客户端模块。本发明提供的基于Hive的优化器优化方法,不仅效率高,而且可以可以消除重复计算,方便使用。
Description
技术领域
本发明涉及了一种优化器方法,特别是涉及了一种基于Hive的优化器优化方法。
背景技术
在一些购物或咨询等网站和平台上,随着业务扩展和讯息的不断增加,数据需求也在不断增长,数据体系越来越庞大,常规的模型重构赶不上快速变化的业务,从而导致了需要不断的进行大型重构,但是这样不仅会浪费大量的人力和时间去进行重构,而且重构过程复杂,不方便使用。
大数据体系中,大规模数据处理的性能是最关键的指标之一,然而在现实环境中,大多数大数据应用,面临着性能瓶颈,尤其在数据挖掘和大数据分析层次,存在着大量的冗余计算和低效计算,所以人们需要更加满足需求的优化器***。
发明内容
本发明主要是针对现在市场的要求,提供了一种具有效率高、方便使用的基于Hive的优化器优化方法。
为了实现上述目的,本发明提供以下技术方案:
本发明提供了一种基于Hive的优化器优化方法,其步骤包括:在ETL自动化模块中,接收Hive客户端模块的结构化查询语言数据;将结构化查询语言数据发送至语义分析驱动模块;在语义分析驱动模块中,对结构化查询语言数据进行分析,并将语义分析数据发送至元数据分析器模块;基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据;基于规则的优化器接收并优化基于缓存的优化器的优化数据;获取元数据分析器模块的分析数据、Hive元数据、Hadoop元数据和优化数据中的关键词,并将其保存在关键词存储模块中;在自动建模功能模块中,接收基于规则的优化器的最优结构化查询语言数据;根据中间表、指标汇总表和最优结构化查询语言,进行建模;在元数据统计模型模块中,接收并统计建模数据;在自动建模功能模块中,接收统计数据,并根据统计数据进行建模;将建模数据传送至Hive客户端模块。
在本发明一个较佳实施例中,所述Hive客户端模块包括统一视图模块和订阅模块。
在本发明一个较佳实施例中,所述中间表包括用户中间表、商品中间表和成交中间表。
在本发明一个较佳实施例中,所述指标汇总表包括卖家指标表和商品指标表。
在本发明一个较佳实施例中,所述元数据包括天网元数据、云梯元数据和血缘分析元数据
本发明的有益效果是:本发明所述的基于Hive的优化器优化方法,不仅效率高,而且可以可以消除重复计算,方便使用。
附图说明
图1是本发明基于Hive的优化器优化方法一较佳实施例的流程示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,图1是本发明基于Hive的优化器优化方法一较佳实施例的流程示意图。
本发明提供了一种基于Hive的优化器优化方法,其步骤包括:在ETL自动化模块中,接收Hive客户端模块的结构化查询语言数据;将结构化查询语言数据发送至语义分析驱动模块;在语义分析驱动模块中,对结构化查询语言数据进行分析,并将语义分析数据发送至元数据分析器模块;基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据;基于规则的优化器接收并优化基于缓存的优化器的优化数据;获取元数据分析器模块的分析数据、Hive元数据、Hadoop元数据和优化数据中的关键词,并将其保存在关键词存储模块中;在自动建模功能模块中,接收基于规则的优化器的最优结构化查询语言数据;根据中间表、指标汇总表和最优结构化查询语言,进行建模;在元数据统计模型模块中,接收并统计建模数据;在自动建模功能模块中,接收统计数据,并根据统计数据进行建模;将建模数据传送至Hive客户端模块。
通过大量业务场景分析,可扩展性的架构设计,对云计算和大数据基础设施Hadoop、hive等,通过优化器在上层进行了一套完整的优化,从而解决了目前大数据计算中,从在的速度瓶颈,该技术还有效的提高了数据使用率,为公司至少节省了50%的计算单元。
本发明的优化器是完全透明的,不需要工程师对上层的大数据应用做任何修改,也不用下层计算单元做适应,完全自动的让计算效率大幅度提升。该优化器还相当完美迎合目前对实时分析的需求,直接将已有的数据成果做出及时和实时反馈,这也弥补了Hadoop只适合批处理计算的弱点。
所述基于Hive的优化器优化方法,利用现有的产出数据,在其他代价不变的基础上,基本可以消除重复计算,提高数据优化效率,而且,基于Hive和Hadoop的特性,***可以自动设置参数,实现数据计算的高效执行,另外,***冗余处理能力强,可以及时的发现异常,防止任务重跑,方便使用。
所述Hive客户端模块包括统一视图模块和订阅模块等模块,按照实际使用的需要来增减模块,方便使用。
所述中间表包括用户中间表、商品中间表和成交中间表等,所述指标汇总表包括卖家指标表和商品指标表等,所述中间表和所述指标汇总表的种类和数量也必须参考用户和***的要求进行设置和管理,功能明确,方便管理和使用。
在***优化和升级的过程中,只要对中间表或指标汇总表进行改动,既按照需求添加或修改或删除中间表、指标汇总表即可,不需要改动代码,防止出现***漏洞和错误,而且,平常的***维护也比较简单,不需要过分维护,方便使用。
所述元数据包括天网元数据、云梯元数据、血缘分析元数据以及其他类型的元数据。
本发明所述的基于Hive的优化器优化方法,不仅效率高,而且可以可以消除重复计算,方便使用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于Hive的优化器优化方法,其特征在于:步骤包括:
在ETL自动化模块中,接收Hive客户端模块的结构化查询语言数据;
将结构化查询语言数据发送至语义分析驱动模块;
在语义分析驱动模块中,对结构化查询语言数据进行分析,并将语义分析数据发送至元数据分析器模块;
基于缓存的优化器接收并优化关键词数据和元数据分析器模块的分析数据;
基于规则的优化器接收并优化基于缓存的优化器的优化数据;
获取元数据分析器模块的分析数据、Hive元数据、Hadoop元数据和优化数据中的关键词,并将其保存在关键词存储模块中;
在自动建模功能模块中,接收基于规则的优化器的最优结构化查询语言数据;
根据中间表、指标汇总表和最优结构化查询语言,进行建模;
在元数据统计模型模块中,接收并统计建模数据;
在自动建模功能模块中,接收统计数据,并根据统计数据进行建模;
将建模数据传送至Hive客户端模块。
2.根据权利要求1所述的基于Hive的优化器优化方法,其特征在于,所述Hive客户端模块包括统一视图模块和订阅模块。
3.根据权利要求1所述的基于Hive的优化器优化方法,其特征在于,所述中间表包括用户中间表、商品中间表和成交中间表。
4.根据权利要求1所述的基于Hive的优化器优化方法,其特征在于,所述指标汇总表包括卖家指标表和商品指标表。
5.根据权利要求1所述的基于Hive的优化器优化方法,其特征在于,所述元数据包括天网元数据、云梯元数据和血缘分析元数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103730849A CN103399963A (zh) | 2013-08-26 | 2013-08-26 | 基于Hive的优化器优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103730849A CN103399963A (zh) | 2013-08-26 | 2013-08-26 | 基于Hive的优化器优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103399963A true CN103399963A (zh) | 2013-11-20 |
Family
ID=49563591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103730849A Pending CN103399963A (zh) | 2013-08-26 | 2013-08-26 | 基于Hive的优化器优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103399963A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析*** |
CN104899314A (zh) * | 2015-06-17 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 一种数据仓库的血统分析方法和装置 |
CN109308309A (zh) * | 2018-07-27 | 2019-02-05 | 网宿科技股份有限公司 | 一种数据服务质量评估方法和终端 |
CN109766368A (zh) * | 2018-11-14 | 2019-05-17 | 国云科技股份有限公司 | 一种基于Hive的数据查询多类型视图产出***及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021874A (zh) * | 2007-03-21 | 2007-08-22 | 金蝶软件(中国)有限公司 | 一种对查询sql请求进行优化的方法及装置 |
US20080040334A1 (en) * | 2006-08-09 | 2008-02-14 | Gad Haber | Operation of Relational Database Optimizers by Inserting Redundant Sub-Queries in Complex Queries |
US20110295839A1 (en) * | 2010-05-27 | 2011-12-01 | Salesforce.Com, Inc. | Optimizing queries in a multi-tenant database system environment |
CN102436494A (zh) * | 2011-11-11 | 2012-05-02 | 中国工商银行股份有限公司 | 基于实践检验的执行计划优化的装置及方法 |
CN102541884A (zh) * | 2010-12-10 | 2012-07-04 | ***通信集团贵州有限公司 | 数据库优化方法和装置 |
CN102902778A (zh) * | 2012-09-28 | 2013-01-30 | 用友软件股份有限公司 | 查询语句优化装置和查询语句优化方法 |
-
2013
- 2013-08-26 CN CN2013103730849A patent/CN103399963A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080040334A1 (en) * | 2006-08-09 | 2008-02-14 | Gad Haber | Operation of Relational Database Optimizers by Inserting Redundant Sub-Queries in Complex Queries |
CN101021874A (zh) * | 2007-03-21 | 2007-08-22 | 金蝶软件(中国)有限公司 | 一种对查询sql请求进行优化的方法及装置 |
US20110295839A1 (en) * | 2010-05-27 | 2011-12-01 | Salesforce.Com, Inc. | Optimizing queries in a multi-tenant database system environment |
CN102541884A (zh) * | 2010-12-10 | 2012-07-04 | ***通信集团贵州有限公司 | 数据库优化方法和装置 |
CN102436494A (zh) * | 2011-11-11 | 2012-05-02 | 中国工商银行股份有限公司 | 基于实践检验的执行计划优化的装置及方法 |
CN102902778A (zh) * | 2012-09-28 | 2013-01-30 | 用友软件股份有限公司 | 查询语句优化装置和查询语句优化方法 |
Non-Patent Citations (2)
Title |
---|
刘春艳: "基于关系数据库性能优化策略的研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
沙学府: "云存储中基于索引的结构化查询的研究与实现", 《万方学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析*** |
CN104899314A (zh) * | 2015-06-17 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 一种数据仓库的血统分析方法和装置 |
CN104899314B (zh) * | 2015-06-17 | 2018-10-19 | 北京京东尚科信息技术有限公司 | 一种数据仓库的血统分析方法和装置 |
CN109308309A (zh) * | 2018-07-27 | 2019-02-05 | 网宿科技股份有限公司 | 一种数据服务质量评估方法和终端 |
CN109308309B (zh) * | 2018-07-27 | 2021-04-16 | 网宿科技股份有限公司 | 一种数据服务质量评估方法和终端 |
CN109766368A (zh) * | 2018-11-14 | 2019-05-17 | 国云科技股份有限公司 | 一种基于Hive的数据查询多类型视图产出***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11036735B2 (en) | Dimension context propagation techniques for optimizing SQL query plans | |
US10754877B2 (en) | System and method for providing big data analytics on dynamically-changing data models | |
US20200184509A1 (en) | System and Method for Performing Cross-Platform Big Data Analytics | |
CN104820670A (zh) | 一种电力信息大数据的采集和存储方法 | |
JP2017157229A (ja) | 半構造データのためのスケーラブルな分析プラットフォーム | |
CN107577805A (zh) | 一种面向日志大数据分析的业务服务*** | |
CN106951552A (zh) | 一种基于Hadoop的用户行为数据处理方法 | |
CN107895046B (zh) | 一种异构数据集成平台 | |
CN102521246A (zh) | 一种云数据仓库*** | |
CN103699660A (zh) | 一种大规模网络流式数据缓存写入的方法 | |
CN106850258A (zh) | 一种日志管理***、方法及装置 | |
US20110225116A1 (en) | Systems and methods for policy based execution of time critical data warehouse triggers | |
CN103399963A (zh) | 基于Hive的优化器优化方法 | |
US10397326B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN108984547A (zh) | 数据处理的方法和装置 | |
CN109063017A (zh) | 一种云计算平台的数据持久化分布方法 | |
CN113420043A (zh) | 数据实时监控方法、装置、设备及存储介质 | |
Gligor et al. | Oracle exalytics: engineered for speed-of-thought analytics | |
CN103916368A (zh) | 一种实现不同数据源之间数据处理的方法及装置 | |
Ganchev et al. | Designing a cloud tier for the IoT platform EMULSION | |
Wang | Analysis on cloud computing-based logistics information network mode | |
Zhang | The design of regional medical cloud computing information platform based on deep learning | |
CN105808890A (zh) | 一种用于汽车企业产品设计的数据云*** | |
CN116089431A (zh) | 数据仓库的数据处理方法、装置、电子设备和存储介质 | |
US10248702B2 (en) | Integration management for structured and unstructured data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Ma Xiaodong Inventor before: Wang Yimin |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: WANG YIMIN TO: MA XIAODONG |
|
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131120 |