CN113806606A

CN113806606A - 基于三维场景的电力大数据快速可视化分析方法及***

Info

Publication number: CN113806606A
Application number: CN202111046249.2A
Authority: CN
Inventors: 高菘; 姚明亮; 张龙浩; 付恩狄; 莫理; 梁宇柔; 刘永辉; 李德华; 胡道平; 陈远政
Original assignee: Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Current assignee: Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-17

Abstract

本发明涉及大数据分析技术领域，且公开了基于三维场景的电力大数据快速可视化分析方法及***，可视化分析方法的处理流程如下：S1：采集数据，序列化到大数据文件***HDFS中，并同时持久化到数据库HBase；S2：决定采用何种方案对数据进行挖掘与分析，采用相应的智能算法；S3：将输出的结果集映射到可视化模块成为图形信息，可视化引擎将结果集与场景集成，以三维空间场可视化的形式输出给用户。该基于三维场景的电力大数据快速可视化分析方法及***，通过将大数据生态***与可视化模块整合，使三维场景的图形计算和数据分析的数值计算集成在同一个框架内，使其存储模式、计算模式通用，从而实现多业务协同可视化分析工作。

Description

基于三维场景的电力大数据快速可视化分析方法及***

技术领域

本发明涉及大数据分析技术领域，具体为基于三维场景的电力大数据快速可视化分析方法及***。

背景技术

大数据是近年来兴起的新学科，在该领域的研究起步不久，在电力大数据可视化分析领域更是没有较为深入的研究和已成熟的应用。

将快速数据分析方法与快速场景绘制方法应用到电力大数据中，需要一个一体化的、专用于电力***的平台。目前已存在的大数据应用***尚无针对电力***专门设计的架构，已存在的国家电网业务***尚无针对大数据专门设计的应用，这使得各种数据与业务相互分离，用户无法在统一的平台进行可视化分析工作。在不同平台上分别处理不同的数据、然后设法综合到可视化分析***这种模式不仅为用户带来诸多不便，更无法在数据挖掘过程中得到多种数据间的相关性并直观展现。

发明内容

针对现有技术的不足，本发明提供了基于三维场景的电力大数据快速可视化分析方法及***，提出为电力大数据可视化分析设计一种一体化的模型，将大数据生态***与可视化模块整合，使三维场景的图形计算和数据分析的数值计算集成在同一个框架内，使其存储模式、计算模式通用，从而实现多业务协同可视化分析工作，无需采用传统的先进行数据挖掘并导出、后导入可视化***进行分析的处理模式。

为实现上述的基于三维场景的电力大数据快速可视化分析方法及***目的，本发明提供如下技术方案：基于三维场景的电力大数据快速可视化分析方法，可视化分析任务的处理流程如下：

步骤一：采集数据，序列化到大数据文件***HDFS中，并同时持久化到数据库HBase；

步骤二：决定采用何种方案对数据进行挖掘与分析，采用相应的智能算法；

步骤三：将输出的结果集映射到可视化模块成为图形信息，可视化引擎将结果集与场景集成，以三维空间场可视化的形式输出给用户。

所述可视化分析***具有如下功能模块，分别是：

(1)业务模块：提供高层抽象接口，实现用户层的业务需求；

(2)可视化引擎：作为模型的核心子***，应当实现数据与场景的集成方法，并实现大规模三维场景的快速渲染以达到实际应用的需求；

(3)计算模块：用于实施各种智能算法，完成数据挖掘工作；

(4)控制模块：用于完成大数据作业调度功能，实现合理的负载均衡控制；

(5)存储模块：用于存储数据，需要实现大数据文件***和数据库***。

优选的，所述将可能产生的业务结合以上模块对***进行分层，分别为接口层、引擎层、计算层、控制层和持久化层；

(1)持久化层

采用Hadoop文件***HDFS和数据库***HBase，用于存储所有类型的数据，包括场景数据、数值数据以及实际运行中产生的日志数据等；

(2)控制层

采用Hadoop任务调度模块ZooKeeper和芯片级并行技术MPI分别用于控制不同类型的计算任务，ZooKeeper用于控制数据密集型计算模式STORM，MPI用于控制计算密集型计算模式CUDA。这些控制模块完成任务调度、低层次的负载均衡和简单的容错处理；

(3)计算层

对计算任务分类，不以图形计算和数据计算区分，而是根据计算特点分为数据密集型和计算密集型，采用这种分类方法的目的是为了尽可能提高计算效率，针对两种类型的计算任务分别采用与之相适应的并行计算模式，对于待计算的数据，凡是数据密集型的计都分配到STORM模块执行；凡是计算密集型的计算都分配到CUDA模块执行；

(4)引擎层

引擎是模型中的核心子***，该模块实现一个快速渲染引擎，针对大数据环境下的大规模三维场景设计若干优化算法和策略，保证场景的实时渲染效率能够达到实际应用需求，大规模场景的实时渲染问题一直是研究的热点，本文针对此问题分别提出两种方法用于加速渲染：其一是基于八叉树的可见性剔除方法，其二是基于权重函数LOD的多分辨率绘制方法，这两种方法将在后续章节详细介绍算法与实施过程，并通过实验验证其效率。

(5)接口层

接口层作为高层抽象，需要对用户直接进行的操作定义一系列接口，这些接口应当包括对场景的操作和对数据的操作，以及其它操作，如场景导入、数据导入、数据分析、日志导出等，这些接口同时应当预留字段，指明所请求任务的计算类型是属于数据密集型还是属于计算密集型；对于不需要并行计算的任务，该字段应设为NULL，避免不必要的任务调度和节点间通信时间损耗。

优选的，在接口层收到计算任务请求时，对于数据密集型计算任务，应当考虑将数据量的并行度最大化，因此采用分布式实时计算框架STORM；对于计算密集型计算任务，应当考虑将函数线程的并行度最大化，因此采用超级计算框架CUDA；

STORM仅在CPU阵列上进行并行计算，CUDA仅在GPU阵列上进行并行计算，这两个中间层计算框架无需单独在集群硬件中划分自身的作用域，集群可采用多种机器作为节点，实现异构资源上的协同并行计算，计算层根据接口层定义的任务类型判断计算任务属于数据密集型还是计算密集型，将任务分解并分配到对应的计算框架，在不同类型的计算资源上进行并行处理，CUDA框架中的计算任务会被Hadoop分配到集群内所有的GPU资源进行并行计算处理，STORM框架中的计算任务则会被Hadoop分配到集群内所有的CPU资源进行并行计算处理。

优选的，所述STORM分布式计算框架使用单控制节点(Master)，名为Nimbus，接口层接收到业务请求时，首先根据接口类型分析是哪一类计算任务，如果是数据密集型，则提交到Nimbus进行拓扑生成操作，Nimbus将生成的任务拓扑序列发送到控制层的Zookeeper，由Zookeeper统一进行任务调度，STORM的计算节点(Slave)分为两种，一种是用来分配原语的spout(Supervisor)，一种是用来计算原语的bolt(Worker)，STORM不要求所有原语都进行相同的操作，更适合处理数据密集型任务，对于数值计算中的非迭代型任务(数据密集型任务)，STORM能实现较好的加速比；对于图形任务中不适合用CUDA加速的计算任务，STORM也能达到较好的效率。

优选的，所述CUDA架构基于SIMT(Single Instruction,Multiple Thread，单指令多线程)模型，是对SIMD(Single Instruction,Multiple Data，单指令多数据)模型的一种扩展，在GPU上执行的函数称为核函数(kernel)，运行时，核函数指令被并行地发射到阵列中的所有流处理器SP(Stream Processor)上，一个kernel仅是一个函数，不是完整的程序，在执行kernel前，需要CPU辅助完成数据预处理与设备初始化工作，CUDA计算过程分为输入、执行、输出三个阶段，第一阶段，主程序为输入和输出数据分配GPU内存空间，将输入数据从CPU内存传输到GPU内存；第二阶段，主程序启动GPU上的内核程序，并行地执行任务；第三阶段，当内核程序结束时，主程序将其输出数据从GPU内存传输到CPU内存，从而获得输出结果；

CUDA架构将计算资源分为两类：主机host(CPU)和设备device(GPU)，在同一阵列中主机只有一个，而设备可以有若干个，因此CUDA是单控制节点的并行模式，CUDA编程模式采取Grid-Block-Thread三层模型，每层具有不同的索引、同步方式、共享内存方式以及协同计算方式，计算任务逐步细粒度化，粒度最细的Thread并行度最高，CUDA适用于大规模的、均衡的高并发计算任务。

与现有技术相比，本发明提供了基于三维场景的电力大数据快速可视化分析方法及***，具备以下有益效果：

本基于三维场景的电力大数据快速可视化分析方法及***，***基于Hadoop生态***设计，Hadoop***因其在大数据处理领域具有广泛的实用性以及良好的易用性，自推出后很快得到了学术界的广泛关注和研究，同时在工业界也得到普及应用，Hadoop是目前最为成功、最被广泛接受的大数据处理主流技术和***平台，它提供了完整的分布式集群计算所需的各种功能模块，至今Hadoop平台已经演进为一个完整的生态***，Hadoop平台运行于一个由普通商用服务器甚至廉价机器组成的计算集群上，提供了廉价、便捷、可伸缩的大数据解决方案；

本发明提出为电力大数据可视化分析设计一种一体化的***，将大数据生态***与可视化模块整合，使三维场景的图形计算和数据分析的数值计算集成在同一个框架内，使其存储模式、计算模式通用，从而实现多业务协同可视化分析工作，无需采用传统的先进行数据挖掘并导出、后导入可视化***进行分析的处理模式。

附图说明

图1为本发明大数据环境下的电力***可视化分析任务流程图；

图2为本发明电力大数据可视化分析平台功能模块图；

图3为本发明电力大数据可视化分析模型层次架构图；

图4为本发明计算层中不同类型任务的资源分配图；

图5为本发明STORM计算框架图；

图6为本发明CUDA计算框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，基于三维场景的电力大数据快速可视化分析方法，可视化分析任务的处理流程如下：

在大数据环境下，数据、业务、场景均较为复杂，需要对整个任务处理流程进行合理的组织才能达到实际应用的需求，基于Hadoop生态***设计，Hadoop***因其在大数据处理领域具有广泛的实用性以及良好的易用性，自推出后很快得到了学术界的广泛关注和研究，同时在工业界也得到普及应用，Hadoop是目前最为成功、最被广泛接受的大数据处理主流技术和***平台，它提供了完整的分布式集群计算所需的各种功能模块，至今Hadoop平台已经演进为一个完整的生态***，Hadoop平台运行于一个由普通商用服务器甚至廉价机器组成的计算集群上，提供了廉价、便捷、可伸缩的大数据解决方案。

可视化分析***具有如下功能模块，分别是：

(1)业务模块：提供高层抽象接口，实现用户层的业务需求；

(3)计算模块：用于实施各种智能算法，完成数据挖掘工作；

请参阅图2-3，将可能产生的业务结合以上模块对***进行分层，分别为接口层、引擎层、计算层、控制层和持久化层；

(1)持久化层

(2)控制层

(3)计算层

(4)引擎层

(5)接口层

请参阅图4，在接口层收到计算任务请求时，对于数据密集型计算任务，应当考虑将数据量的并行度最大化，因此采用分布式实时计算框架STORM；对于计算密集型计算任务，应当考虑将函数线程的并行度最大化，因此采用超级计算框架CUDA；

请参阅图5，STORM分布式计算框架使用单控制节点(Master)，名为Nimbus，接口层接收到业务请求时，首先根据接口类型分析是哪一类计算任务，如果是数据密集型，则提交到Nimbus进行拓扑生成操作，Nimbus将生成的任务拓扑序列发送到控制层的Zookeeper，由Zookeeper统一进行任务调度，STORM的计算节点(Slave)分为两种，一种是用来分配原语的spout(Supervisor)，一种是用来计算原语的bolt(Worker)，STORM不要求所有原语都进行相同的操作，更适合处理数据密集型任务，对于数值计算中的非迭代型任务(数据密集型任务)，STORM能实现较好的加速比；对于图形任务中不适合用CUDA加速的计算任务，STORM也能达到较好的效率。

请参阅图6，CUDA架构基于SIMT(Single Instruction,Multiple Thread，单指令多线程)模型，是对SIMD(Single Instruction,Multiple Data，单指令多数据)模型的一种扩展，在GPU上执行的函数称为核函数(kernel)，运行时，核函数指令被并行地发射到阵列中的所有流处理器SP(Stream Processor)上，一个kernel仅是一个函数，不是完整的程序，在执行kernel前，需要CPU辅助完成数据预处理与设备初始化工作，CUDA计算过程分为输入、执行、输出三个阶段，第一阶段，主程序为输入和输出数据分配GPU内存空间，将输入数据从CPU内存传输到GPU内存；第二阶段，主程序启动GPU上的内核程序，并行地执行任务；第三阶段，当内核程序结束时，主程序将其输出数据从GPU内存传输到CPU内存，从而获得输出结果；

当接口层业务请求函数的计算类型字段设计正确时，STORM和CUDA协同工作将达到极高的效率。

本发明的工作使用流程以及安装方法为，本基于三维场景的电力大数据快速可视化分析方法及***在使用时，***基于Hadoop生态***设计，Hadoop***因其在大数据处理领域具有广泛的实用性以及良好的易用性，自推出后很快得到了学术界的广泛关注和研究，同时在工业界也得到普及应用，Hadoop是目前最为成功、最被广泛接受的大数据处理主流技术和***平台，它提供了完整的分布式集群计算所需的各种功能模块，至今Hadoop平台已经演进为一个完整的生态***，Hadoop平台运行于一个由普通商用服务器甚至廉价机器组成的计算集群上，提供了廉价、便捷、可伸缩的大数据解决方案；本发明提出为电力大数据可视化分析设计一种一体化的***，将大数据生态***与可视化模块整合，使三维场景的图形计算和数据分析的数值计算集成在同一个框架内，使其存储模式、计算模式通用，从而实现多业务协同可视化分析工作，无需采用传统的先进行数据挖掘并导出、后导入可视化***进行分析的处理模式。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于三维场景的电力大数据快速可视化分析方法，其特征在于：可视化分析方法的处理流程如下：

2.基于三维场景的电力大数据快速可视化分析***，其特征在于：所述可视化分析***具有如下功能模块，分别是：

(1)业务模块：提供高层抽象接口，实现用户层的业务需求；

(3)计算模块：用于实施各种智能算法，完成数据挖掘工作；

3.根据权利要求2所述的基于三维场景的电力大数据快速可视化分析***，其特征在于：所述将可能产生的业务结合以上模块对***进行分层，分别为接口层、引擎层、计算层、控制层和持久化层；

(1)持久化层

(2)控制层

(3)计算层

(4)引擎层

(5)接口层

4.根据权利要求3所述的基于三维场景的电力大数据快速可视化分析***，其特征在于：在接口层收到计算任务请求时，对于数据密集型计算任务，应当考虑将数据量的并行度最大化，因此采用分布式实时计算框架STORM；对于计算密集型计算任务，应当考虑将函数线程的并行度最大化，因此采用超级计算框架CUDA；

5.根据权利要求4所述的基于三维场景的电力大数据快速可视化分析***，其特征在于：所述STORM分布式计算框架使用单控制节点(Master)，名为Nimbus，接口层接收到业务请求时，首先根据接口类型分析是哪一类计算任务，如果是数据密集型，则提交到Nimbus进行拓扑生成操作，Nimbus将生成的任务拓扑序列发送到控制层的Zookeeper，由Zookeeper统一进行任务调度，STORM的计算节点(Slave)分为两种，一种是用来分配原语的spout(Supervisor)，一种是用来计算原语的bolt(Worker)，STORM不要求所有原语都进行相同的操作，更适合处理数据密集型任务，对于数值计算中的非迭代型任务(数据密集型任务)，STORM能实现较好的加速比；对于图形任务中不适合用CUDA加速的计算任务，STORM也能达到较好的效率。

6.根据权利要求4所述的基于三维场景的电力大数据快速可视化分析***，其特征在于：所述CUDA架构基于SIMT(Single Instruction,Multiple Thread，单指令多线程)模型，是对SIMD(Single Instruction,Multiple Data，单指令多数据)模型的一种扩展，在GPU上执行的函数称为核函数(kernel)，运行时，核函数指令被并行地发射到阵列中的所有流处理器SP(Stream Processor)上，一个kernel仅是一个函数，不是完整的程序，在执行kernel前，需要CPU辅助完成数据预处理与设备初始化工作，CUDA计算过程分为输入、执行、输出三个阶段，第一阶段，主程序为输入和输出数据分配GPU内存空间，将输入数据从CPU内存传输到GPU内存；第二阶段，主程序启动GPU上的内核程序，并行地执行任务；第三阶段，当内核程序结束时，主程序将其输出数据从GPU内存传输到CPU内存，从而获得输出结果；