CN110222029A

CN110222029A - 一种大数据多维分析计算效率提升方法及***

Info

Publication number: CN110222029A
Application number: CN201910384295.XA
Authority: CN
Inventors: 张琦; 孙立华; 刘士进; 孟庆强; 郑浩泉; 杨志; 刘铭; 钱亚康; 周洁
Original assignee: State Grid Shanghai Electric Power Co Ltd; Nari Information and Communication Technology Co
Current assignee: State Grid Shanghai Electric Power Co Ltd; Nari Information and Communication Technology Co
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-10

Abstract

本发明公开了一种大数据多维分析计算效率提升方法，包括以下过程：确定某一业务场景的事实表和维度表，以及不同维度下的统计指标类型；将事实表与维度表进行关联构建数据模型；根据数据模型设计数据立方体Cube；针对Cube计算获得不同维度的统计指标；将统计指标值存储至HBase；当查询此业务场景的不同维度下统计指标时，直接查询HBase中存储的统计指标值。本发明基于大数据平台的计算能力和存储能力，快速构建数据立方体Cube，并将数据立方体存储在Key‑value数据库HBase中，有效解决了大数据中OLAP延迟高的问题，提高了运行效率，提升了业务应用服务质量。

Description

一种大数据多维分析计算效率提升方法及***

技术领域

本发明属于大数据分析技术领域，具体涉及一种大数据多维分析计算效率提升方法及***。

背景技术

随着电网运行信息化、数字化推进，积累的数据量持续增长。对积累的海量数据进行多维度分析有迫切需求。但是传统的OLAP(联机分析处理)技术难以满足效率要求，需要基于大数据平台实现数十亿级别的数据的OLAP分析。

但是直接采用大数据Map/Reduce技术也是很难保证计算效率，如直接采用Hive数据仓库，存在延迟较高、计算资源占用高的缺点。尤其在集中生成月度、季度、年度报表的时候，需要运行非常多的用来产生报表的SQL脚本，此时对大数据平台的运行效率有较明显的影响，极有可能导致部分任务失败。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种大数据多维分析计算效率提升方法，解决了现有技术中查询效率低的技术问题。

为解决上述技术问题，本发明提供了一种大数据多维分析计算效率提升方法，其特征是，包括以下过程：

确定某一业务场景的事实表和维度表，以及不同维度下的统计指标类型；

将事实表与维度表进行关联构建数据模型；

根据数据模型设计数据立方体Cube；

根据确定的不同维度下统计指标，针对Cube计算获得不同维度的统计指标；

将统计指标值存储至HBase；

当查询此业务场景的不同维度下统计指标时，直接查询HBase中存储的统计指标值。

进一步的，事实表和维度表存储在Hive中。

进一步的，统计指标包括求和、平均、TopN、计数、最大和最小。

进一步的，通过MapReduce计算不同维度的统计指标值。

进一步的，通过MapReduce计算不同维度的统计指标值包括：

按Cube中维度数逐渐减少来计算；

通过MapReduce计算每个维度数层级的统计指标值。

进一步的，Cube中所有层级的MapReduce计算过程串行执行。

相应的，本发明还提供了一种大数据多维分析计算效率提升***，其特征是，包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块；

场景数据确定模块，用于确定某一业务场景的事实表和维度表，以及不同维度下的统计指标；

模型构建模块，用于将事实表与维度表进行关联构建数据模型；

数据立方体设计模块，用于根据数据模型设计数据立方体Cube；

计算模块，用于根据确定的不同维度下统计指标，针对Cube计算获得不同维度的统计指标值；

存储模块，用于将统计指标值存储至HBase；

查询模块，用于当查询此业务场景的不同维度下统计指标时，直接查询HBase中存储的统计指标值。

进一步的，场景数据确定模块中，事实表和维度表存储在Hive中。

进一步的，场景数据确定模块中，统计指标包括求和、平均、TopN、计数、最大和最小。

本发明还提供了一种计算机存储介质，其特征在于，所述计算机存储介质存储有一种大数据多维分析计算效率提升方法的程序，所述一种大数据多维分析计算效率提升方法的程序被至少一个处理器执行时实现前述一种大数据多维分析计算效率提升方法的步骤。

与现有技术相比，本发明所达到的有益效果是：本发明创新地采用了预计算策略，基于大数据平台的计算能力和存储能力，快速构建数据立方体(Cube)，并将数据立方体存储在Key-value数据库HBase中，有效解决了大数据中OLAP延迟高的问题，提高了运行效率，提升了业务应用服务质量。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明的一种大数据多维分析计算效率提升方法，该方法的实现是基于Hadoop大数据环境，主要需要Hive组件、Hbase组件、MapReduce计算组件。通过预计算思想，以空间换时间。即多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。把高复杂度的聚合运算，多表连接等操作转换成对预计算结果的查询，以提高查询效率。

其方法具体包括以下步骤：

S1，对某一业务场景进行分析，确定该场景下采用数据立方体(Cube)描述其场景事件所需的事实表和用来描述事实表中特定属性信息的维度表，并明确不同维度下的统计指标类型(例如：求和、平均、TopN、计数等)。事实表和维度表，它们是存储在Hive中的。

S2，根据S1中分析出的事实表和维度表，将其同步至本***cube中，为后续计算做准备。

S3，根据S2同步完成的事实表与维度表设计数据模型。

具体设计是将事实表与各个维度表的关联字段确定，然后统计不同的维度根据维度表中对应的字段进行确定。多个维度表关联完成，不同维度字段选择完成，模型就构建完成。

S4，根据S3设计完成的数据模型，开始设计数据立方体Cube。

具体设计方法是，首先根据需要统计的业务指标，选择S3模型中所需的字段，然后设置对应字段所需计算的统计度量类型(例如：求和、平均、TopN、计数等)。

S5，根据S1中确定的指标及S4中设计出的Cube，通过MapReduce框架进行计算。

一个N维的完全Cube，是由：1个N维子立方体，N个(N-1)维子立方体，N*(N-1)/2个(N-2)维子立方体…,N个1维子立方体，1个0维子立方体，总共2^N个子立方体组成的。

其具体计算是，通过逐层计算法，在“逐层算法”中，按维度数逐渐减少来计算，每个层级的计算(除了第一层，它是从原始数据聚合而来)，是基于它上一层级的结果来计算的。此算法的Mapper和Reducer都比较简单。Mapper以上一层子立方体的结果(Key-Value对)作为输入。由于Key是由各维度值拼接在一起，从其中找出要聚合的维度，去掉它的值成新的Key，然后把新Key和Value输出，进而MapReduce对所有新Key进行排序、洗牌(shuffle)、再送到Reducer处；Reducer的输入会是一组有相同Key的Value集合，对这些Value做聚合计算，再结合Key输出就完成了一轮计算。每一轮的计算都是一个MapReduce任务，且串行执行；一个N维的Cube，至少需要N次MapReduce任务。

至此通过MapReduce任务，Cube的各个维度的不同统计指标值计算完成。

S6，通过S5的计算，Cube中各个维度的不同统计指标值计算完成，然后将统计指标值存储至HBase。

S7，通过S6中存储的数据立方体中的指标值，进行该业务场景数据指标的查询操作。例如上卷、下钻等查询操作。

实施例

现通过举例说明上述方法如下：

实施步骤包括：①启动引擎服务；②业务Cube配置。

1.基于大数据平台环境，启动本服务。配置JDK等环境变量，将大数据环境Hive、HBASE等环境变量配置完成，然后运行启动脚本即可启动引擎服务。

2.业务Cube配置包括以下步骤：

2.1新建一个项目

首先添加一个新的多维数据分析(OLAP)项目，填写项目描述信息并提交。

2.2同步Hive数据表

加载Hive表元数据，选择需要同步的表，进行同步，将源数据加入引擎管理。

2.3新建一个Cube

添加Cube，然后进行Cube设计，Cube设计主要包含以下步奏：

(1)填写Cube基本信息；

(2)建立事实表，即原始数据表；

(3)添加一个新的维度，可以选择不同类型的维度加入同一个Cube，通常从事实表或者维度表取维度；

(4)设置维度度量，添加一个新的度量，根据它的表达式共有若干种不同类型的度量：SUM(求和)、MAX(最大值)、MIN(最小值)、COUNT(计数)和TopN等。

2.4Cube创建完成后，进行Cube构建，主要基于大数据平台分布式计算框架生成Cube，生成的维度数据存储到Hbase中。

2.5更新Cube

配置定时任务将新增事实数据同步到事实表，执行Cube刷新操作，即重新计算各维度指标，并更新到Hbase中。

2.6访问Cube

通过Restful服务接口或JDBC接口执行SQL命令访问事实表、各维度数据，实现多维度关联、下钻等分析功能。

相应的，本发明还提供了一种大数据多维分析计算效率提升***，包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块；

存储模块，用于将统计指标值存储至HBase；

本发明创新地采用了预计算策略，基于大数据平台的计算能力和存储能力，快速构建数据立方体(Cube)，并将数据立方体存储在Key-value数据库HBase中，有效解决了大数据中OLAP延迟高的问题，提高了运行效率，提升了业务应用服务质量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种大数据多维分析计算效率提升方法，其特征是，包括以下过程：

确定某一业务场景的事实表和维度表，以及不同维度下的统计指标；

将事实表与维度表进行关联构建数据模型；

根据数据模型设计数据立方体Cube；

根据确定的不同维度下统计指标，针对Cube计算获得不同维度的统计指标值；

将统计指标值存储至HBase；

2.根据权利要求1所述的一种大数据多维分析计算效率提升方法，其特征是，事实表和维度表存储在Hive中。

3.根据权利要求1所述的一种大数据多维分析计算效率提升方法，其特征是，统计指标包括求和、平均、TopN、计数、最大和最小。

4.根据权利要求1所述的一种大数据多维分析计算效率提升方法，其特征是，计算获得不同维度的统计指标值的步骤包括：通过MapReduce计算不同维度的统计指标值。

5.根据权利要求4所述的一种大数据多维分析计算效率提升方法，其特征是，通过MapReduce计算不同维度的统计指标值包括：

按Cube中维度数逐渐减少来计算；

通过MapReduce计算每个维度数层级的统计指标值。

6.根据权利要求5所述的一种大数据多维分析计算效率提升方法，其特征是，Cube中所有层级的MapReduce计算过程串行执行。

7.一种大数据多维分析计算效率提升***，其特征是，包括场景数据确定模块、模型构建模块、数据立方体设计模块、计算模块、存储模块和查询模块；

存储模块，用于将统计指标值存储至HBase；

8.根据权利要求7所述的一种大数据多维分析计算效率提升***，其特征是，场景数据确定模块中，事实表和维度表存储在Hive中。

9.根据权利要求7所述的一种大数据多维分析计算效率提升***，其特征是，场景数据确定模块中，统计指标包括求和、平均、TopN、计数、最大和最小。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一种大数据多维分析计算效率提升方法的程序，所述一种大数据多维分析计算效率提升方法的程序被至少一个处理器执行时实现权利要求1-6任一项所述一种大数据多维分析计算效率提升方法的步骤。