CN114911876B - 一种实现数字能源管理***的分布式计算方法 - Google Patents

一种实现数字能源管理***的分布式计算方法 Download PDF

Info

Publication number
CN114911876B
CN114911876B CN202210538218.7A CN202210538218A CN114911876B CN 114911876 B CN114911876 B CN 114911876B CN 202210538218 A CN202210538218 A CN 202210538218A CN 114911876 B CN114911876 B CN 114911876B
Authority
CN
China
Prior art keywords
data
node
task processing
task
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210538218.7A
Other languages
English (en)
Other versions
CN114911876A (zh
Inventor
李锐
滕以金
段强
张晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Science Research Institute Co Ltd
Original Assignee
Shandong Inspur Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Science Research Institute Co Ltd filed Critical Shandong Inspur Science Research Institute Co Ltd
Priority to CN202210538218.7A priority Critical patent/CN114911876B/zh
Publication of CN114911876A publication Critical patent/CN114911876A/zh
Application granted granted Critical
Publication of CN114911876B publication Critical patent/CN114911876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种实现数字能源管理***的分布式计算方法,涉及分布式计算技术领域;基于数字能源管理***,利用NoSQL方式创建数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,搭建Hadoop分布式环境,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。

Description

一种实现数字能源管理***的分布式计算方法
技术领域
本发明公开一种方法,涉及分布式计算技术领域,具体地说是一种实现数字能源管理***的分布式计算方法。
背景技术
分布式计算将计算分解成许多小部分,分配给多台计算机进行处理,节约整体计算时间,提高计算的效率。分布式计算可以共享稀有资源,可以平衡多台计算机的运行负载,可以选择最适宜的主机进行计算。
Hadoop实现一个分布式的文件***,具有高容错性的特点。可以通过提高吞吐量来增加应用程序数据的访问,也可以以数据流的形式来访问文件***中的数据。
数字能源管理***一般较为分散,数据量大,应用时需要分析的数据较多,但还没有较为完善的方法能够应对数字能源管理***的数据访问及数据分析。
发明内容
本发明针对现有技术的问题,提供一种实现数字能源管理***的分布式计算方法,采用分布式方法利用NoSQL实现数字能源管理***的分布式计算,应对数字能源管理***数据量大,应用多,需要分析的数据较多等情况。
本发明提出的具体方案是:
一种实现数字能源管理***的分布式计算方法,基于数字能源管理***,利用NoSQL方式创建数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
搭建Hadoop分布式环境,所述Hadoop分布式环境包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。
进一步,所述的一种实现数字能源管理***的分布式计算方法中所述利用NoSQL方式创建数据仓库,包括:
将数据源的数据通过定时任务或实时的方式接入所述数据仓库。
进一步,所述的一种实现数字能源管理***的分布式计算方法中所述任务处理子节点进行数据分析计算之前,包括:
从所述数据仓库取出相关增量数据,经过Map数据映射之后转存入HDFS,
将从HDFS中取出所述相关增量数据交给数据存储主节点,由数据存储主节点指定所述相关增量数据的存储位置,并通知任务处理主节点执行数据分析计算任务流程。
进一步,所述的一种实现数字能源管理***的分布式计算方法中所述任务处理子节点进行数据分析计算,包括:
任务处理主节点指定所述任务处理子节点执行数据分析计算任务,
进行所述数据分析计算任务的数据分析和数据挖掘的处理操作,
将处理操作的结果写回HDFS,并存入所述数据仓库。
本发明还提供一种实现数字能源管理***的分布式计算***,基于Hadoop***,在Hadoop分布式环境下,包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
所述分布式计算***还包括NoSQL数据仓库,所述NoSQL数据仓库根据数字能源管理***利用NoSQL方式创建,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
所述分布式计算***根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。
进一步,所述的一种实现数字能源管理***的分布式计算***中将数据源的数据通过定时任务或实时的方式接入所述NoSQL数据仓库。
进一步,所述的一种实现数字能源管理***的分布式计算***中所述任务处理子节点进行数据分析计算之前,包括:
从所述NoSQL数据仓库取出相关增量数据,经过Map数据映射之后转存入HDFS,
将从HDFS中取出所述相关增量数据交给数据存储主节点,由数据存储主节点指定所述相关增量数据的存储位置,并通知任务处理主节点执行数据分析计算任务流程。
进一步,所述的一种实现数字能源管理***的分布式计算***中所述任务处理子节点进行数据分析计算,包括:
任务处理主节点指定所述任务处理子节点执行数据分析计算任务,
进行所述数据分析计算任务的数据分析和数据挖掘的处理操作,
将处理操作的结果写回HDFS,并存入所述NoSQL数据仓库。
本发明的有益之处是:
本发明提供一种实现数字能源管理***的分布式计算方法,在分布式环境下,采用NoSQL方式创建数据仓库,采用Hadoop对存储数据进行处理,通过数据增量计算操作,计算对象只是NoSQL数据库的增量数据,减少计算任务量,提高计算效率,应对数字能源管理***数据量大,应用多,需要分析的数据较多等情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种实现数字能源管理***的分布式计算方法,基于数字能源管理***,利用NoSQL方式创建数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
搭建Hadoop分布式环境,所述Hadoop分布式环境包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。
本发明方法利用NoSQL方式创建数据仓库,利用Hadoop的数据处理能力,解决分布式计算在数据处理方面的欠缺,通过在Hadoop的文件***中运行数据处理操作,使得计算过程不用考虑数据处理的具体细节,能够应对数字能源管理***数据量大,应用多,需要分析的数据较多等情况。
具体应用中,在本发明方法的一些实施例中,基于数字能源管理***,利用NoSQL方式创建数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库。可以利用全文索引对数据仓库进行文本分析和数据挖掘。可将数据源的数据通过定时任务或实时的方式接入所述数据仓库。
进一步地,可以过程步骤可参考如下:基于搭建的master-node的服务器架构之上进行nosql数据仓库的创建,
①上传hadoop压缩包到服务器并解压,查看hadoop支持的压缩方式以及本地库,
②修改以下的配置文件:
hadoop-env.sh(jdk路径等)
core-site.xml,buffer.size缓冲区大小、trash.interval回收机制等进行配置,
hdfs-site.xml,例如:定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割,
mapred-site.xml,如mapreduce.jobhistory.address等mapreduce相关配置,
yarn-site.xml,例如:yarn.nodemanager.resource.memory-mb等相关配置,
④配置hadoop的环境变量,将PATH中添加上HADOOP_HOME下的bin和sbin目录,
⑤格式化集群,使用format命令,要启动Hadoop集群,需要启动HDFS和YARN两个集群,首次启动HDFS时,对其进行格式化操作。
⑥启动集群/停止集群,即stop-dfs.sh、stop-yarn.sh等。
进一步地,所述的一种实现数字能源管理***的分布式计算方法中在搭建Hadoop分布式环境,所述Hadoop分布式环境包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点jobtracker和数据存储主节点namenode,所述子节点分为任务处理子节点tasktracker和数据存储子节点datanode,其中一台主机上一般存在一个datanode或namenode和多个tasktracker,Hadoop的存储任务由namenode统一调度,控制某块数据应该存放在哪个namenode中。其处理任务由jobTracker统一调度,控制某个任务由哪个tasktracker执行,
所述任务处理子节点进行数据分析计算之前,从所述数据仓库取出相关增量数据,经过Map数据映射之后转存入HDFS,
将从HDFS中取出所述相关增量数据交给数据存储主节点namenode,由数据存储主节点namenode指定所述相关增量数据的数据块的存储位置,并将执行任务提交给jobTracker,由其指定执行该数据分析任务的tasktracker执行数据分析计算任务流程,
所述任务处理子节点进行数据分析计算时,任务处理主节点指定所述任务处理子节点执行数据分析计算任务,进行所述数据分析计算任务的数据分析和数据挖掘的处理操作,将处理操作的结果写回HDFS,并存入所述数据仓库。
本发明还提供一种实现数字能源管理***的分布式计算***,基于Hadoop***,在Hadoop分布式环境下,包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
所述分布式计算***还包括NoSQL数据仓库,所述NoSQL数据仓库根据数字能源管理***利用NoSQL方式创建,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
所述分布式计算***根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算。
上述***内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
同样地,本发明***在分布式环境下,采用NoSQL方式创建数据仓库,采用Hadoop对存储数据进行处理,通过数据增量计算操作,计算对象只是NoSQL数据库的增量数据,减少计算任务量,提高计算效率,应对数字能源管理***数据量大,应用多,需要分析的数据较多等情况。
需要说明的是,上述各流程和各***结构中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (2)

1.一种实现数字能源管理***的分布式计算方法,其特征是基于数字能源管理***,利用NoSQL方式创建数据仓库,将数据源的数据通过定时任务或实时的方式接入所述数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
搭建Hadoop分布式环境,所述Hadoop分布式环境包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算,其中任务处理子节点进行数据分析计算之前,包括:从所述数据仓库取出相关增量数据,经过Map数据映射之后转存入HDFS,将从HDFS中取出所述相关增量数据交给数据存储主节点,由数据存储主节点指定所述相关增量数据的存储位置,并通知任务处理主节点执行数据分析计算任务流程,
所述任务处理子节点进行数据分析计算,包括:任务处理主节点指定所述任务处理子节点执行数据分析计算任务,进行所述数据分析计算任务的数据分析和数据挖掘的处理操作,将处理操作的结果写回HDFS,并存入所述数据仓库。
2.一种实现数字能源管理***的分布式计算***,其特征是基于Hadoop***,在Hadoop分布式环境下,包括Hadoop的主节点和子节点,所述主节点分为任务处理主节点和数据存储主节点,所述子节点分为任务处理子节点和数据存储子节点,
所述分布式计算***还包括NoSQL数据仓库,所述NoSQL数据仓库根据数字能源管理***利用NoSQL方式创建,将数据源的数据通过定时任务或实时的方式接入所述数据仓库,其中利用非关系型数据库及数据库引擎将多种数据源的数据组织成目标数据库支持的格式,并为组织好的每条数据建立全文索引,存入目标数据库,形成数据仓库,
所述分布式计算***根据数字能源管理***的计算任务,通过任务处理主节点将任务进行分片处理,将子任务分发至任务处理子节点,任务处理子节点根据子任务获取所述数据仓库中相关增量数据进行数据分析计算,其中所述任务处理子节点进行数据分析计算之前,包括:从所述NoSQL数据仓库取出相关增量数据,经过Map数据映射之后转存入HDFS,将从HDFS中取出所述相关增量数据交给数据存储主节点,由数据存储主节点指定所述相关增量数据的存储位置,并通知任务处理主节点执行数据分析计算任务流程,
所述任务处理子节点进行数据分析计算,包括:任务处理主节点指定所述任务处理子节点执行数据分析计算任务,进行所述数据分析计算任务的数据分析和数据挖掘的处理操作,将处理操作的结果写回HDFS,并存入所述NoSQL数据仓库。
CN202210538218.7A 2022-05-18 2022-05-18 一种实现数字能源管理***的分布式计算方法 Active CN114911876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210538218.7A CN114911876B (zh) 2022-05-18 2022-05-18 一种实现数字能源管理***的分布式计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210538218.7A CN114911876B (zh) 2022-05-18 2022-05-18 一种实现数字能源管理***的分布式计算方法

Publications (2)

Publication Number Publication Date
CN114911876A CN114911876A (zh) 2022-08-16
CN114911876B true CN114911876B (zh) 2024-05-31

Family

ID=82769100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210538218.7A Active CN114911876B (zh) 2022-05-18 2022-05-18 一种实现数字能源管理***的分布式计算方法

Country Status (1)

Country Link
CN (1) CN114911876B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理***及访问方法
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN114416855A (zh) * 2021-12-14 2022-04-29 国网河北省电力有限公司经济技术研究院 一种基于电力大数据的可视化平台及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268716B2 (en) * 2015-04-30 2019-04-23 Hamoud ALSHAMMARI Enhanced hadoop framework for big-data applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理***及访问方法
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN114416855A (zh) * 2021-12-14 2022-04-29 国网河北省电力有限公司经济技术研究院 一种基于电力大数据的可视化平台及方法

Also Published As

Publication number Publication date
CN114911876A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
US11882054B2 (en) Terminating data server nodes
US9336288B2 (en) Workflow controller compatibility
US11455189B2 (en) Task scheduling simulation system
US8572575B2 (en) Debugging a map reduce application on a cluster
US6879984B2 (en) Analytical database system that models data to speed up and simplify data analysis
US8677366B2 (en) Systems and methods for processing hierarchical data in a map-reduce framework
US8868576B1 (en) Storing files in a parallel computing system based on user-specified parser function
CN102937964B (zh) 基于分布式***的智能数据服务方法
CN107066205B (zh) 一种数据存储***
CN105095255A (zh) 一种数据索引创建方法及装置
CN112000703B (zh) 数据入库处理方法、装置、计算机设备和存储介质
Feng et al. Review of hadoop performance optimization
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN111414422B (zh) 一种数据分布方法、装置、设备和存储介质
CN114911876B (zh) 一种实现数字能源管理***的分布式计算方法
CN116974994A (zh) 一种基于集群的高效能文件协作***
US20150268986A1 (en) Distributed batch job promotion within enterprise computing environments
Wang et al. A Cloud‐Computing‐Based Data Placement Strategy in High‐Speed Railway
Jamal et al. Performance Comparison between S3, HDFS and RDS storage technologies for real-time big-data applications
Park et al. KV-CSD: A Hardware-Accelerated Key-Value Store for Data-Intensive Applications
Xu et al. Ecosystem description of hadoop platform based on HDFS, MapReduce and data warehouse tool hive
CN112308317A (zh) 基于分布式架构的海量地震观测数据噪声功率谱计算方法及***
Zhai et al. Query optimization approach with shuffle intermediate cache layer for spark SQL
US9317546B2 (en) Storing changes made toward a limit
CN202084034U (zh) 分布式搜索***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant