CN114911876B

CN114911876B - 一种实现数字能源管理***的分布式计算方法

Info

Publication number: CN114911876B
Application number: CN202210538218.7A
Authority: CN
Inventors: 李锐; 滕以金; 段强; 张晖
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2024-05-31
Anticipated expiration: 2042-05-18
Also published as: CN114911876A

Abstract

本发明公开一种实现数字能源管理***的分布式计算方法，涉及分布式计算技术领域；基于数字能源管理***，利用NoSQL方式创建数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，搭建Hadoop分布式环境，所述主节点分为任务处理主节点和数据存储主节点，所述子节点分为任务处理子节点和数据存储子节点，根据数字能源管理***的计算任务，通过任务处理主节点将任务进行分片处理，将子任务分发至任务处理子节点，任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。

Description

一种实现数字能源管理***的分布式计算方法

技术领域

本发明公开一种方法，涉及分布式计算技术领域，具体地说是一种实现数字能源管理***的分布式计算方法。

背景技术

分布式计算将计算分解成许多小部分，分配给多台计算机进行处理，节约整体计算时间，提高计算的效率。分布式计算可以共享稀有资源，可以平衡多台计算机的运行负载，可以选择最适宜的主机进行计算。

Hadoop实现一个分布式的文件***，具有高容错性的特点。可以通过提高吞吐量来增加应用程序数据的访问，也可以以数据流的形式来访问文件***中的数据。

数字能源管理***一般较为分散，数据量大，应用时需要分析的数据较多，但还没有较为完善的方法能够应对数字能源管理***的数据访问及数据分析。

发明内容

本发明针对现有技术的问题，提供一种实现数字能源管理***的分布式计算方法，采用分布式方法利用NoSQL实现数字能源管理***的分布式计算，应对数字能源管理***数据量大，应用多，需要分析的数据较多等情况。

本发明提出的具体方案是：

一种实现数字能源管理***的分布式计算方法，基于数字能源管理***，利用NoSQL方式创建数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，

搭建Hadoop分布式环境，所述Hadoop分布式环境包括Hadoop的主节点和子节点，所述主节点分为任务处理主节点和数据存储主节点，所述子节点分为任务处理子节点和数据存储子节点，

根据数字能源管理***的计算任务，通过任务处理主节点将任务进行分片处理，将子任务分发至任务处理子节点，任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。

进一步，所述的一种实现数字能源管理***的分布式计算方法中所述利用NoSQL方式创建数据仓库，包括：

将数据源的数据通过定时任务或实时的方式接入所述数据仓库。

进一步，所述的一种实现数字能源管理***的分布式计算方法中所述任务处理子节点进行数据分析计算之前，包括：

从所述数据仓库取出相关增量数据，经过Map数据映射之后转存入HDFS，

将从HDFS中取出所述相关增量数据交给数据存储主节点，由数据存储主节点指定所述相关增量数据的存储位置，并通知任务处理主节点执行数据分析计算任务流程。

进一步，所述的一种实现数字能源管理***的分布式计算方法中所述任务处理子节点进行数据分析计算，包括：

任务处理主节点指定所述任务处理子节点执行数据分析计算任务，

进行所述数据分析计算任务的数据分析和数据挖掘的处理操作，

将处理操作的结果写回HDFS，并存入所述数据仓库。

本发明还提供一种实现数字能源管理***的分布式计算***，基于Hadoop***，在Hadoop分布式环境下，包括Hadoop的主节点和子节点，所述主节点分为任务处理主节点和数据存储主节点，所述子节点分为任务处理子节点和数据存储子节点，

所述分布式计算***还包括NoSQL数据仓库，所述NoSQL数据仓库根据数字能源管理***利用NoSQL方式创建，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，

所述分布式计算***根据数字能源管理***的计算任务，通过任务处理主节点将任务进行分片处理，将子任务分发至任务处理子节点，任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。

进一步，所述的一种实现数字能源管理***的分布式计算***中将数据源的数据通过定时任务或实时的方式接入所述NoSQL数据仓库。

进一步，所述的一种实现数字能源管理***的分布式计算***中所述任务处理子节点进行数据分析计算之前，包括：

从所述NoSQL数据仓库取出相关增量数据，经过Map数据映射之后转存入HDFS，

进一步，所述的一种实现数字能源管理***的分布式计算***中所述任务处理子节点进行数据分析计算，包括：

将处理操作的结果写回HDFS，并存入所述NoSQL数据仓库。

本发明的有益之处是：

本发明提供一种实现数字能源管理***的分布式计算方法，在分布式环境下，采用NoSQL方式创建数据仓库，采用Hadoop对存储数据进行处理，通过数据增量计算操作，计算对象只是NoSQL数据库的增量数据，减少计算任务量，提高计算效率，应对数字能源管理***数据量大，应用多，需要分析的数据较多等情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提供一种实现数字能源管理***的分布式计算方法，基于数字能源管理***，利用NoSQL方式创建数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，

本发明方法利用NoSQL方式创建数据仓库，利用Hadoop的数据处理能力，解决分布式计算在数据处理方面的欠缺，通过在Hadoop的文件***中运行数据处理操作，使得计算过程不用考虑数据处理的具体细节，能够应对数字能源管理***数据量大，应用多，需要分析的数据较多等情况。

具体应用中，在本发明方法的一些实施例中，基于数字能源管理***，利用NoSQL方式创建数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库。可以利用全文索引对数据仓库进行文本分析和数据挖掘。可将数据源的数据通过定时任务或实时的方式接入所述数据仓库。

进一步地，可以过程步骤可参考如下：基于搭建的master-node的服务器架构之上进行nosql数据仓库的创建，

①上传hadoop压缩包到服务器并解压，查看hadoop支持的压缩方式以及本地库，

②修改以下的配置文件：

hadoop-env.sh(jdk路径等)

core-site.xml，buffer.size缓冲区大小、trash.interval回收机制等进行配置，

hdfs-site.xml，例如：定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割，

mapred-site.xml，如mapreduce.jobhistory.address等mapreduce相关配置，

yarn-site.xml，例如：yarn.nodemanager.resource.memory-mb等相关配置，

④配置hadoop的环境变量，将PATH中添加上HADOOP_HOME下的bin和sbin目录，

⑤格式化集群，使用format命令，要启动Hadoop集群，需要启动HDFS和YARN两个集群，首次启动HDFS时，对其进行格式化操作。

⑥启动集群/停止集群，即stop-dfs.sh、stop-yarn.sh等。

进一步地，所述的一种实现数字能源管理***的分布式计算方法中在搭建Hadoop分布式环境，所述Hadoop分布式环境包括Hadoop的主节点和子节点，所述主节点分为任务处理主节点jobtracker和数据存储主节点namenode，所述子节点分为任务处理子节点tasktracker和数据存储子节点datanode，其中一台主机上一般存在一个datanode或namenode和多个tasktracker，Hadoop的存储任务由namenode统一调度，控制某块数据应该存放在哪个namenode中。其处理任务由jobTracker统一调度，控制某个任务由哪个tasktracker执行，

所述任务处理子节点进行数据分析计算之前，从所述数据仓库取出相关增量数据，经过Map数据映射之后转存入HDFS，

将从HDFS中取出所述相关增量数据交给数据存储主节点namenode，由数据存储主节点namenode指定所述相关增量数据的数据块的存储位置，并将执行任务提交给jobTracker，由其指定执行该数据分析任务的tasktracker执行数据分析计算任务流程，

所述任务处理子节点进行数据分析计算时，任务处理主节点指定所述任务处理子节点执行数据分析计算任务，进行所述数据分析计算任务的数据分析和数据挖掘的处理操作，将处理操作的结果写回HDFS，并存入所述数据仓库。

上述***内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

同样地，本发明***在分布式环境下，采用NoSQL方式创建数据仓库，采用Hadoop对存储数据进行处理，通过数据增量计算操作，计算对象只是NoSQL数据库的增量数据，减少计算任务量，提高计算效率，应对数字能源管理***数据量大，应用多，需要分析的数据较多等情况。

需要说明的是，上述各流程和各***结构中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种实现数字能源管理***的分布式计算方法，其特征是基于数字能源管理***，利用NoSQL方式创建数据仓库，将数据源的数据通过定时任务或实时的方式接入所述数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，

根据数字能源管理***的计算任务，通过任务处理主节点将任务进行分片处理，将子任务分发至任务处理子节点，任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算，其中任务处理子节点进行数据分析计算之前，包括：从所述数据仓库取出相关增量数据，经过Map数据映射之后转存入HDFS，将从HDFS中取出所述相关增量数据交给数据存储主节点，由数据存储主节点指定所述相关增量数据的存储位置，并通知任务处理主节点执行数据分析计算任务流程，

所述任务处理子节点进行数据分析计算，包括：任务处理主节点指定所述任务处理子节点执行数据分析计算任务，进行所述数据分析计算任务的数据分析和数据挖掘的处理操作，将处理操作的结果写回HDFS，并存入所述数据仓库。

2.一种实现数字能源管理***的分布式计算***，其特征是基于Hadoop***，在Hadoop分布式环境下，包括Hadoop的主节点和子节点，所述主节点分为任务处理主节点和数据存储主节点，所述子节点分为任务处理子节点和数据存储子节点，

所述分布式计算***还包括NoSQL数据仓库，所述NoSQL数据仓库根据数字能源管理***利用NoSQL方式创建，将数据源的数据通过定时任务或实时的方式接入所述数据仓库，其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式，并为组织好的每条数据建立全文索引，存入目标数据库，形成数据仓库，

所述分布式计算***根据数字能源管理***的计算任务，通过任务处理主节点将任务进行分片处理，将子任务分发至任务处理子节点，任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算，其中所述任务处理子节点进行数据分析计算之前，包括：从所述NoSQL数据仓库取出相关增量数据，经过Map数据映射之后转存入HDFS，将从HDFS中取出所述相关增量数据交给数据存储主节点，由数据存储主节点指定所述相关增量数据的存储位置，并通知任务处理主节点执行数据分析计算任务流程，

所述任务处理子节点进行数据分析计算，包括：任务处理主节点指定所述任务处理子节点执行数据分析计算任务，进行所述数据分析计算任务的数据分析和数据挖掘的处理操作，将处理操作的结果写回HDFS，并存入所述NoSQL数据仓库。