CN108363761A

CN108363761A - Hadoop awr自动负载分析信息库、分析方法及存储介质

Info

Publication number: CN108363761A
Application number: CN201810107603.XA
Authority: CN
Inventors: 周帅
Original assignee: Shenzhen Cct Software Information Co Ltd
Current assignee: Shenzhen Huaxun ark Photoelectric Technology Co., Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-03

Abstract

本发明提供Hadoop awr自动负载分析信息库、分析方法及存储介质。所述信息库包括数据采集模块、计算模块、Awr报表信息库，各模块通过网络连接，其中：所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块；所述计算模块用于根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。本发明在主机、机架、输入文件、输出文件、任务方面做了完整的分析，弥补了现有集群日志***的不足，提供了更全面的分析纬度，能非常明确和有效的指出集群的性能问题，帮助管理员针对自己的集群做出优化。

Description

Hadoop awr自动负载分析信息库、分析方法及存储介质

技术领域

本发明属于计算机大数据领域，主要是涉及Hadoop awr自动负载分析信息库、分析方法及存储介质。

背景技术

Hadoop是一个分布式***基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件***，其框架最核心的设计就是：HDFS(HadoopDistributed File System)和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理；Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度；Hadoop还是可伸缩的，能够处理PB级数据；此外，Hadoop依赖于社区服务，因此它的成本比较低，任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，比如C++。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载到数据仓库里。

AWR(Automatic Workload Repository)是自动负载信息库的英文缩写，AWR报告是Oracle 10g以后版本提供的一种性能收集和分析工具，能提供一个时间段内整个***资源使用情况的报告，通过报告可以了解一个***的整个运行情况，生成的报告包括多个部分。AWR每小时对内存中的采集信息进行采样一次，并将信息保存到磁盘中，并且保留7天，7天后旧的记录才会被覆盖。这些采样信息被保存写入AWR库中。而这个采样频率和保留时间是可以根据实际情况进行调整的，这就给DBA们提供了更加有效的***监测工具。

DBA(Database Administrator)对数据库运行状态及状况的监控了解、测试过程中发现数据库出现瓶颈但无法定位到具体原因时，可以借用AWR报告进行分析定位。数据库出现性能问题，一般都在三个地方：IO、内存、CPU，这三个地方又是息息相关的。假设这个三个地方都没有物理上的故障，当IO负载增大时，肯定需要更多的内存来存放，同时也需要CPU花费更多的时间来过滤这些数据。相反，CPU时间花费多的话，有可能是解析SQL(Structured Query Language)语句，也可能是过滤太多的数据，倒不一定是和IO或内存有关系。

图1是Hadoop集群的***组成示意图。如图1所示，Hadoop集群包括五个层，分别为数据采集、数据存储、数据调度、大数据计算、应用层。

数据采集是数据的接入层，这层级的框架负责将数据传输进入大数据集群，和将大数据集群的数据导出。Flume：异构数据采集框架；Sqoop：关系型数据库离线采集框架；Canal：关系型数据库在线采集框架。

数据存储是数据的存储层，这层框架主要对数据进行存储，提供各式数据接口供用户使用。Hdfs：Hadoop的默认分布式存储***；Hbase：hadoop的默认数据库，基于Hdfs，提供了Oltp(on-line transaction processing)，Olap(On-Line Analytical Processing)等访问方式，基于列式存储；Kafka：流式数据存储，供流式计算使用，是一个消息队列***。

数据调度是资源的管理和调度分配层，负责管理Cpu，内存等资源，并将不同的计算框架根据资源情况进行分配计算等。Yarn：Hadoop默认的调度***，兼容多种计算框架，多种调度算法。

大数据计算：各种不同的计算框架。Hive：大数据Sql查询引擎，将Sql解析成Mapreduce或者Spark等计算任务，进行计算；Spark：内存计算引擎，分布式算法；Mapreduce：Hadoop默认的计算引擎，分布式算法；Phoenix：基于Hbase的Sql计算引擎；Other：其他类型的计算框架。

应用层：各种大数据体系的客户端应用***。Oozie：大数据计算任务的调度***，将不同任务进行组合，根据依赖关系进行调度；Hue：大数据开发统一网关，开发人员借助这个工具进行大数据开发。

Hadoop集群运行一段时间后管理员无法发现以下问题：无法发现集群使用最多的文件；集群每个主机和机架的Cpu和内存分别分配给了哪些任务；每个文件分别暂用了多少计算资源；任务的计算和资源分配是否合理；Hdfs的文件平衡度是否合理；机架的划分是否合理。

为了解决以上问题，本发明拟提供Hadoop awr自动负载分析信息库分析方法及存储介质，通过Hadoop awr对大数据集群进行性能收集、分析和调优。

发明内容

本发明的目的在于提供一个Hadoop集群的性能收集和调优工具，提供一种方式去分析集群当前的负载情况，输出集群负载相关报表信息，用以指导管理人员了解集群的负载情况，是Hadoop集群调优的利器。

本发明提供一种Hadoop awr自动负载分析信息库，所述信息库包括数据采集模块、计算模块、Awr报表信息库，各模块通过网络连接，其中：

所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块；

所述计算模块用于根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；

所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。

进一步地，所述数据采集模块包括Hive查询引擎、Mapreduce计算引擎、Spark计算引擎、Other查询引擎，所述各单元通过网络连接到所述计算模块，其中：

所述Hive查询引擎用于对大数据集群的Sql进行查询并解析成计算任务送到所述计算模块；

所述Mapreduce计算引擎用于对大数据集群的计算节点进行分配和调度，解析成计算任务送到所述计算模块；

所述Spark计算引擎用于对大数据集群的内存单元的数据分成小的时间片断解析成计算任务送到所述计算模块；

所述Other查询引擎用于对大数据集群的其他未分类指标解析成计算任务送到所述计算模块。

进一步地，所述计算模块包括模式解析单元、输入单元、计算单元、输出单元，所述各单元网络连接，其中；

所述模式解析单元用于解析客户端选择的计算模式，用对应的计算模式进行数据的填充，将计算模式和数据送到所述输入单元；

所述输入单元用于对从所述数据进行格式化、解析、过滤和封装处理，将计算模式和处理过的数据送到所述计算单元；

所述计算单元用于接收所述计算模式和输入单元封装的数据，进行相关指标的聚合，分类计算，将计算结果送到所述输出单元；

所述输出单元用于对所述计算单元提供的计算结果进行格式化、封装，选择对应的输出报表模式输出到Awr报表信息库。

进一步地，所述模式解析单元解析的所述计算模式包括单机计算模式、集群计算模式、Mapreduce计算模式，其中；

所述单机计算模式用于数据量少的集群，提供非分布式算法给所述计算单元；

所述集群计算模式用于Yarn集群，提供Mapreduce、Spark等分布式算法给所述计算单元；

所述Mapreduce计算模式用于Hadoop 1.x版本集群，提供Mapreduce分布式算法给所述计算单元。

进一步地，所述输入单元包括输入格式化单元、解析单元、过滤单元、打包单元，其中：

所述输入格式化单元用于对来自所述模式解析单元的数据进行格式化后送到所述解析单元；

所述解析单元用于对来自所述输入格式化单元的数据进行数据解析后送到所述过滤单元；

所述过滤单元用于对来自所述解析单元的数据进行数据过滤后送到打包单元；

所述打包单元用于对来自所述过滤单元的数据进行打包后送到所述计算单元。

进一步地，所述计算单元包括全局统计单元、机架统计单元、主机统计单元、时间统计单元，所述各统计单元接收所述输入单元的计算模式和数据进行统计计算后，计算结果送到所述输出单元，其中；

所述全局统计单元用于对大数据集群进行全局纬度的统计计算；

所述机架统计单元用于对大数据集群进行机架纬度的统计计算；

所述主机统计单元用于对大数据集群进行主机纬度的统计计算；

所述时间统计单元用于对大数据集群进行时间维度的统计计算。

进一步地，所述输出单元包括输出格式化单元、封装单元、格式选择单元、格式化输出单元，其中：

所述输出格式化单元用于对来自所述计算单元的计算结果进行输出数据格式化，格式化的输出数据送到所述封装单元；

所述封装单元用于对来自输出格式化单元的数据进行数据封装后送到所述格式选择单元；

所述格式选择单元用于对来自所述封装单元的数据进行输出数据报表格式选择，把输出数据和报表格式送到所述格式化输出单元；

所述格式化输出单元用于对接收到的数据按照报表格式进行输出数据报表格式化，格式化的输出数据报表送到所述Awr报表信息库。

本发明还提供一种利用所述Hadoop awr自动负载分析信息库进行负载分析的方法，所述方法包括如下步骤：

步骤S1，利用所述数据采集模块采集大数据集群的信息送到所述计算模块；

步骤S2，所述计算模块根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；

步骤S3，运维人员利用所述Awr报表信息库帮助对集群硬件和软件进行调优。

进一步地，步骤S3中，所述利用所述Awr报表信息库对集群进行调优的方式包括以下步骤：

分析大数据集群每个主机和机架的Cpu和内存分别分配给了哪些任务；

分析每个任务分别暂用了多少计算资源；

分析上述任务的计算资源分配和文件平衡度是否合理；

分析机架的划分是否合理；

对不合理的集群硬件和软件进行优化。

本发明还提供一种计算机可读存储介质，其上存储有处理器程序，其特征在于，该程序被计算机执行时，实现以下步骤：

步骤S1，利用数据采集模块采集大数据集群的信息送到计算模块；

步骤S2，计算模块根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；

分析每个任务分别暂用了多少计算资源；

分析上述任务的计算资源分配和文件平衡度是否合理；

分析机架的划分是否合理；

对不合理的集群硬件和软件进行优化。

其中，集群Mapreduce模式能适应Hadoop 1.x的版本集群，而单机集群模式只支持Hadoopyarn集群。

本发明获得了非常明显的益处：

相比于官方监控和常规监控***来说，本发明的有益效果在于：在性能评估、主机、机架、输入文件、输出文件、任务方面做了全面完整的分析，提供了更全面的分析纬度，给出初步建议，对于机器规模在20台以上的集群，分析报告的数据指标能非常明确和有效的指出集群里面的性能问题，帮助管理员针对自己的集群做相应的调整；弥补了在现有的Hadoop集群的日志***的不足，能提供更有效的性能分析报告，使用者能更容易发现性能问题。

附图说明

图1是Hadoop集群的***组成示意图。

图2是本发明实施例的***组成示意图。

图3是本发明实施例的计算模块组成示意图。

具体实施方式

以下结合附图和实施例，对本发明的具体实施方式进行更加详细的说明，以便能够更好地理解本发明的方案以及其各个方面的优点。然而，以下描述的具体实施方式和实施例仅是说明的目的，而不是对本发明的限制。表1是本发明涉及的英文词汇的解释统计表，大小写通用。

表1

图2是本发明实施例的***组成示意图。如图2所示，一种Hadoop awr自动负载分析信息库，所述信息库包括数据采集模块1、计算模块2、Awr报表信息库3，各模块通过网络连接，其中：所述数据采集模块1用于采集Hadoop大数据集群的信息送到所述计算模块2；所述计算模块2用于根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库3；运维人员利用所述Awr报表信息库3帮助对集群硬件和软件进行调优。

所述数据采集模块1包括Hive查询引擎11、Mapreduce计算引擎12、Spark计算引擎13、Other查询引擎14，所述各单元通过网络连接到所述计算模块，其中：所述Hive查询引擎11用于对大数据集群的sql进行查询并解析成计算任务送到所述计算模块2；所述Mapreduce计算引擎12用于对大数据集群的计算节点进行分配和调度，解析成计算任务送到所述计算模块2；所述Spark计算引擎13用于对大数据集群的内存单元的数据分成小的时间片断解析成计算任务送到所述计算模块2；所述Other查询引擎14用于对大数据集群的其他未分类指标解析成计算任务送到所述计算模块。

图3是本发明实施例的计算模块组成示意图。如图3所示，所述计算模块2包括模式解析单元21、输入单元22、计算单元23、输出单元24，所述各单元网络连接，其中；所述模式解析单元21用于解析客户端选择的计算模式，用对应的计算模式进行数据的填充，将计算模式和数据送到所述输入单元22；所述输入单元22用于对从所述数据进行格式化、解析、过滤和封装处理，将计算模式和处理过的数据送到所述计算单元23；所述计算单元23用于接收所述计算模式和输入单元22封装的数据，进行相关指标的聚合，分类计算，将计算结果送到所述输出单元24；所述输出单元24用于对所述计算单元23提供的计算结果进行格式化、封装，选择对应的输出报表模式输出到Awr报表信息库3。

所述模式解析单元21解析的所述计算模式包括单机计算模式211、集群计算模式212、Mapreduce计算模式213，其中；所述单机计算模式211用于数据量少的集群，提供非分布式算法送到所述输入单元22；所述集群计算模式212用于Yarn集群，提供Mapreduce、Spark等分布式算法送到所述输入单元22；所述Mapreduce计算模式213用于Hadoop 1。x版本集群，提供Mapreduce分布式算法送到所述输入单元22。

所述输入单元22包括输入格式化单元221、解析单元222、过滤单元223、打包单元224，其中：所述输入格式化单元221用于对来自所述模式解析单元21的数据进行格式化后送到所述解析单元222；所述解析单元222用于对来自所述输入格式化单元221的数据进行数据解析后送到所述过滤单元223；所述过滤单元223用于对来自所述解析单元222的数据进行数据过滤后送到打包单元224；所述打包单元224用于对来自所述过滤单元223的数据进行打包后送到所述计算单元23。

所述计算单元包括全局统计单元231、机架统计单元232、主机统计单元233、时间统计单元234，所述各统计单元接收所述输入单元的计算模式和数据进行统计计算后，计算结果送到所述输出单元24，其中；

所述全局统计单元231用于对大数据集群进行全局纬度的统计计算；所述机架统计单元232用于对大数据集群进行机架纬度的统计计算；所述主机统计单元233用于对大数据集群进行主机纬度的统计计算；所述时间统计单元234用于对大数据集群进行时间维度的统计计算。

所述输出单元24包括输出格式化单元241、封装单元242、格式选择单元243、格式化输出单元244，其中：所述输出格式化单元241用于对来自所述计算单元23的计算结果进行输出数据格式化，格式化的输出数据送到所述封装单元242；所述封装单元242用于对来自所述输出格式化单元241的数据进行数据封装后送到所述格式选择单元243；所述格式选择单元243用于对来自所述封装单元242的数据进行输出数据报表格式选择，把输出数据和报表格式送到所述格式化输出单元244；所述格式化输出单元244用于对接收到的数据按照报表格式进行输出数据报表格式化，格式化的输出数据报表送到所述awr报表信息库3。

一种利用所述Hadoop awr自动负载分析信息库进行负载分析的方法，所述方法包括如下步骤：步骤S1，利用所述数据采集模块采集大数据集群的信息送到所述计算模块；步骤S2，所述计算模块根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；步骤S3，运维人员利用所述Awr报表信息库帮助对集群硬件和软件进行调优。

步骤S3中，所述利用所述Awr报表信息库对集群进行调优的方式包括以下步骤：分析大数据集群每个主机和机架的Cpu和内存分别分配给了哪些任务；分析每个任务分别暂用了多少计算资源；分析上述任务的计算资源分配和文件平衡度是否合理；分析机架的划分是否合理；对不合理的集群硬件和软件进行优化。

一种计算机可读存储介质，其上存储有处理器程序，其特征在于，该程序被计算机执行时，实现以下步骤：步骤S1，利用数据采集模块采集大数据集群的信息送到计算模块；步骤S2，计算模块根据客户端选择的计算模式，采用相应的算法进行相关指标的聚合、分类计算，将计算结果送到Awr报表信息库；步骤S3，运维人员利用所述Awr报表信息库帮助对集群硬件和软件进行调优。

Hadoop awr自动负载分析信息库、分析方法及存储介质，处于Hadoop集群的应用层。通过大数据分析的方式，将“计算”，“调度”，“存储”层的资源使用情况，进行汇总和分析，提供分析报告，供开发，管理，运维人员使用，便于发现集群性能问题，以及提供改进思路和方案。

Hadoop awr自动负载分析信息库是一个Hadoop集群的性能收集和调优工具，提供了一种方式去分析集群当前的负载情况，输出集群负载相关报表信息，用以指导管理人员了解集群的负载情况，是Hadoop集群调优的利器。这个报告就像一个全面的体检报告。可以对集群不同时间段建立快照，通过快照的对比分析集群的调整影响，以及发现是否存在性能问题。工具主要针对集群的计算资源以及存储资源、计算任务进行分析，输出详细性能报告，不同于Hadoop集群默认的metrics以及现有提供的监控软件。Hadoop awr的优势在于数据报表纬度更全面，在任务的分配、聚合数据、数据处理、容量、主机、机架、计算类型等纬度，都弥补了在现有的hadoop集群的日志***的不足，能提供更有效的性能分析报告，使用者能更容易发现性能问题。

最后应说明的是：上述实施方式仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于在上述说明的基础上做出其它不同形式的变化或变动，仍处于本发明的保护范围之中。

Claims

1.一种Hadoop awr自动负载分析信息库，所述信息库包括数据采集模块、计算模块、Awr报表信息库，各模块通过网络连接，其中：

2.根据权利要求1所述的Hadoop awr自动负载分析信息库，其特征在于，其中：

所述数据采集模块包括Hive查询引擎、Mapreduce计算引擎、Spark计算引擎、Other查询引擎，所述各单元通过网络连接到所述计算模块，其中：

所述计算模块包括模式解析单元、输入单元、计算单元、输出单元，所述各单元网络连接，其中；

所述输出单元用于对所述计算单元提供的计算结果进行格式化、封装，选择对应的输出报表模式输出到所述awr报表信息库。

3.根据权利要求2所述的Hadoop awr自动负载分析信息库，其特征在于，所述模式解析单元解析的所述计算模式包括单机计算模式、集群计算模式、Mapreduce计算模式，其中；

所述单机计算模式用于数据量少的集群，提供非分布式算法送到所述输入单元；

所述集群计算模式用于Yarn集群，提供Mapreduce、Spark等分布式算法送到所述输入单元；

所述Mapreduce计算模式用于Hadoop 1.x版本集群，提供Mapreduce分布式算法送到所述输入单元。

4.根据权利要求2所述的Hadoop awr自动负载分析信息库，其特征在于，所述输入单元包括输入格式化单元、解析单元、过滤单元、打包单元，其中：

5.根据权利要求2所述的Hadoop awr自动负载分析信息库，其特征在于，所述计算单元包括全局统计单元、机架统计单元、主机统计单元、时间统计单元，所述各统计单元接收所述输入单元的计算模式和数据进行统计计算后，计算结果送到所述输出单元，其中；

6.根据权利要求2所述的Hadoop awr自动负载分析信息库，其特征在于，所述输出单元包括输出格式化单元、封装单元、格式选择单元、格式化输出单元，其中：

7.一种利用权利要求1至权利要求6所述的Hadoop awr自动负载分析信息库进行负载分析的方法，所述方法包括如下步骤：

步骤S3，运维人员利用所述Awr报表信息库对集群硬件和软件进行调优。

8.根据权利要求7所述的方法，其特征在于，步骤S3中，利用所述Awr报表信息库对集群进行调优的方式包括以下步骤：

分析每个任务分别暂用了多少计算资源；

分析上述任务的计算资源分配和文件平衡度是否合理；

分析机架的划分是否合理；

对不合理的集群硬件和软件进行优化。

9.一种计算机可读存储介质，其上存储有处理器程序，其特征在于，该程序被计算机执行时，实现以下步骤：

步骤S3，运维人员利用Awr报表信息库对集群硬件和软件进行调优。

10.根据权利要求9所述的存储介质，其特征在于，步骤S3中，利用所述Awr报表信息库对集群进行调优的方式包括以下步骤：

分析每个任务分别占用了多少计算资源；

分析上述任务的计算资源分配和文件平衡度是否合理；

分析机架的划分是否合理；

对不合理的集群硬件和软件进行优化。