CN113220674A - 一种基于能源大数据的数据清洗转换*** - Google Patents

一种基于能源大数据的数据清洗转换*** Download PDF

Info

Publication number
CN113220674A
CN113220674A CN202110524854.XA CN202110524854A CN113220674A CN 113220674 A CN113220674 A CN 113220674A CN 202110524854 A CN202110524854 A CN 202110524854A CN 113220674 A CN113220674 A CN 113220674A
Authority
CN
China
Prior art keywords
data
module
cleaning
converting
energy big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110524854.XA
Other languages
English (en)
Inventor
马瑞
刘佳
朱东歌
沙江波
夏绪卫
黄鸣宇
张爽
闫振华
张庆平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority to CN202110524854.XA priority Critical patent/CN113220674A/zh
Publication of CN113220674A publication Critical patent/CN113220674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于能源大数据的数据清洗转换***,包括:数据源管理模块、数据转换模块、数据质量核查模块、数据清洗转换任务管理模块、***审计日志模块、***基本配置模块。本发明的有益效果是,本发明提供的数据清洗转换***设有多个模块,分工明确,通过设置的数据清洗模块和数据转换模块这两个模块对能源大数据进行数据清洗和数据转换,在数据处理完后数据质量核查模块会对数据进行核查,保证数据完全符合要求,才会将数据输入能源大数据平台,有效提高数据清洗和转换效率,而数据清洗转换的全流程会由***审计日志模块形成日志,以供调阅,可为能源大数据自动化集成和分析提供可靠支持,***的智能化程度也较高。

Description

一种基于能源大数据的数据清洗转换***
技术领域
本发明涉及数据清洗转换技术领域,特别是一种基于能源大数据的数据清洗转换***。
背景技术
随着近年来以大数据技术为代表的新兴信息技术的飞速发展,越来越多的机构和组织渴望利用大数据技术进行精益化管理,从而实现经营效益的提升。数据的充分融合、共享和分析将为企业带来潜在的巨大商业价值,然而数据质量问题始终是困扰数据分析与应用的关键性问题。数据清洗(Data Cleaning)作为改善数据质量的关键技术,是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,是一种必不可少的数据预处理技术。
现今能源行业也引入了能源大数据***,用于统筹能源数据信息。在数据由生产***进入到数据仓库之前,需要对数据进行清洗转换等预处理,以便后续进行数据分析处理之用。现有的数据清洗***在生产***高峰期,由于数据清洗转换***无法抽取或只能以较低速率抽取数据,导致数据清洗转换***的数据装载效率较低,而且对数据的清洗和转换结果没有科学的检查,导致数据有一定的出错率,而且对数据的安全也没有得到有效保障。
发明内容
本发明的目的是为了解决上述问题,设计了一种基于能源大数据的数据清洗转换***。
实现上述目的本发明的技术方案为,一种基于能源大数据的数据清洗转换***,包括:
数据源管理模块:接入能源大数据平台,负责配置和管理待清洗的能源大数据平台***数据库和清洗及转换后数据的写入;
数据清洗模块:通过估算、整例删除、变量删除和成对删除等方法,对无效数据进行数据的合理替换,对空数据、缺失数据进行数据补缺等操作,并建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理;
数据转换模块:通过捕获字段空值,进行加载或替换为其他含义数据库,并可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式,依据业务需求,将数据特定字段进行拆分,以满足数据产品需求;
数据质量核查模块:从能源企业、政府和互联网数据的接入及时性、完整性、准确性方面制定数据质量规则,利用特殊算法对数据质量进行验证;
***审计日志模块:记录***中的数据清洗转换任务的具体情况,包括基本配置、执行时间、执行人;
***基本配置模块:对***的I P地址、安全策略、开关机策略部分进行基本配置。
作为本发明的进一步补充,其还包括数据清洗转换任务管理模块:包括对清洗转换任务的新建、修改、启动、停止、删除,在新建清洗转换任务时,可对数据清洗范围、清洗算法、数据转换各阶段的线程数、缓存队列大小信息进行配置。
作为本发明的进一步补充,所述数据清洗转换任务管理模块与所述数据源管理模块连接,所述数据清洗转换任务管理模块分别与所述数据清洗模块和数据转换模块连接,并将待清洗数据分配给数据清洗模块,将待转换数据分配给数据转换模块。
作为本发明的进一步补充,所述***基本配置模块与所述数据清洗任务管理模块连接。
作为本发明的进一步补充,所述数据质量核查模块分别与所述数据转换模块和数据转换模块连接,对清洗及转换后的数据进行质量核查,核查合格后将数据输送给所述数据源管理模块,由数据源管理模块将数据输送到能源大数据中心平台***内。
作为本发明的进一步补充,所述***审计日志模块内置于所述数据源管理模块内,记录***数据处理的具体情况。
作为本发明的进一步补充,所述数据清洗转换***还包括数据清洗转换可式化管理端,所述数据清洗模块和所述数据转换模块内置于数据清洗转换可式化管理端。
作为本发明的进一步补充,所述数据清洗模块通过数据清洗流程,对数据进行重新审查和校验,删除重复信息、纠正数据存在的错误,保证数据一致性,将源数据的数据格式转换成为便于进入能源大数据中心的目标数据格式。
其有益效果在于,本发明提供的数据清洗转换***设有多个模块,分工明确,通过设置的数据清洗模块和数据转换模块这两个模块对能源大数据进行数据清洗和数据转换,在数据处理完后数据质量核查模块会对数据进行核查,保证数据完全符合要求,才会将数据输入能源大数据平台,数据清洗转换任务管理模块会将数据源管理模块调出来的数据进行分析,如需数据清洗会将待清洗数据配置给数据清洗模块,如需转换会将待转换数据配置给数据转换模块,由此提高***的工作效率,而数据清洗转换的全流程会由***审计日志模块形成日志,以供调阅,可为能源大数据自动化集成和分析提供可靠支持,也提高了能源大数据中心数据清洗和转换能力,也提高了***的智能化。
附图说明
图1是本发明的***结构图。
具体实施方式
由于现今能源大数据的数据清洗和数据转换的处理,形式都比较单一,而且容易出现***紊乱,特别是在生产高峰期,大量数据集中进行数据清洗和转换,如不能及时对数据进行分析,辨别哪些需要数据清洗,哪些需要进行数据转换,会造成***运行效率低下,为此本发明提供了一种基于能源大数据的数据清洗转换***,下面结合附图对本发明进行具体描述:
如图1所示,该数据清洗转换***主要包括数据源管理模块、数据清洗模块、数据转换模块、数据质量核查模块、数据清洗转换任务管理模块、数据清洗转换可式化管理端、***审计日志模块以及***基本配置模块,下面将分别对各部分做说明。
其中数据清洗转换任务管理模块与数据源管理模块连接,数据清洗转换任务管理模块分别与数据清洗模块和数据转换模块连接,***基本配置模块与数据清洗任务管理模块连接,数据源管理模块接入能源大数据平台,负责配置和管理待清洗的能源大数据平台***数据库和清洗及转换后数据的写入;数据清洗模块会通过估算、整例删除、变量删除和成对删除等方法,对无效数据进行数据的合理替换,对空数据、缺失数据进行数据补缺等操作,并建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理,通过数据清洗流程,对数据进行重新审查和校验,删除重复信息、纠正数据存在的错误,保证数据一致性,将源数据的数据格式转换成为便于进入能源大数据中心的目标数据格式;数据转换模块会通过捕获字段空值,进行加载或替换为其他含义数据库,并可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式,依据业务需求,将数据特定字段进行拆分,以满足数据产品需求。
为了保证对清洗和转换后的数据符合规则,我们将数据质量核查模块分别与数据转换模块和数据转换模块连接,它可以从能源企业、政府和互联网数据的接入及时性、完整性、准确性方面制定数据质量规则,利用特殊算法对数据质量进行验证,会对清洗及转换后的数据进行质量核查,核查合格后将数据输送给数据源管理模块,由数据源管理模块将数据输送到能源大数据中心平台***内;数据清洗转换任务管理模块包括对清洗转换任务的新建、修改、启动、停止、删除,在新建清洗转换任务时,可对数据清洗范围、清洗算法、数据转换各阶段的线程数、缓存队列大小信息进行配置,而且它会将待清洗数据分配给数据清洗模块,将待转换数据分配给数据转换模块。
数据在处理时的全部流程都可通过数据清洗转换可式化管理端来查看,通过数据清洗可视化管理端进行可视化管理调度,数据清洗模块和数据转换模块内置于数据清洗转换可式化管理端内,上述的***审计日志模块内置于数据源管理模块内,通过***审计日志模块记录***中的数据清洗转换任务的具体情况,包括基本配置、执行时间、执行人等信息;***基本配置模块可以对***的I P地址、安全策略、开关机策略部分进行基本配置,保证***的安全性。
通过本***可以有效提高能源大数据的数据清洗和转换效率,由此保证数据的及时性和完整性,可为能源大数据自动化集成和分析提供可靠支持,也提升了***的智能化。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。

Claims (8)

1.一种基于能源大数据的数据清洗转换***,其特征在于,包括:
数据源管理模块:接入能源大数据平台,负责配置和管理待清洗的能源大数据平台***数据库和清洗及转换后数据的写入;
数据清洗模块:通过估算、整例删除、变量删除和成对删除等方法,对无效数据进行数据的合理替换,对空数据、缺失数据进行数据补缺等操作,并建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理;
数据转换模块:通过捕获字段空值,进行加载或替换为其他含义数据库,并可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式,依据业务需求,将数据特定字段进行拆分,以满足数据产品需求;
数据质量核查模块:从能源企业、政府和互联网数据的接入及时性、完整性、准确性方面制定数据质量规则,利用特殊算法对数据质量进行验证;
***审计日志模块:记录***中的数据清洗转换任务的具体情况,包括基本配置、执行时间、执行人;
***基本配置模块:对***的I P地址、安全策略、开关机策略部分进行基本配置。
2.根据权利要求1所述的一种基于能源大数据的数据清洗转换***,其特征在于,其还包括数据清洗转换任务管理模块:包括对清洗转换任务的新建、修改、启动、停止、删除,在新建清洗转换任务时,可对数据清洗范围、清洗算法、数据转换各阶段的线程数、缓存队列大小信息进行配置。
3.根据权利要求2所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述数据清洗转换任务管理模块与所述数据源管理模块连接,所述数据清洗转换任务管理模块分别与所述数据清洗模块和数据转换模块连接,并将待清洗数据分配给数据清洗模块,将待转换数据分配给数据转换模块。
4.根据权利要求2所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述***基本配置模块与所述数据清洗任务管理模块连接。
5.根据权利要求1所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述数据质量核查模块分别与所述数据转换模块和数据转换模块连接,对清洗及转换后的数据进行质量核查,核查合格后将数据输送给所述数据源管理模块,由数据源管理模块将数据输送到能源大数据中心平台***内。
6.根据权利要求1所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述***审计日志模块内置于所述数据源管理模块内,记录***数据处理的具体情况。
7.根据权利要求1所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述数据清洗转换***还包括数据清洗转换可式化管理端,所述数据清洗模块和所述数据转换模块内置于数据清洗转换可式化管理端。
8.根据权利要求1所述的一种基于能源大数据的数据清洗转换***,其特征在于,所述数据清洗模块通过数据清洗流程,对数据进行重新审查和校验,删除重复信息、纠正数据存在的错误,保证数据一致性,将源数据的数据格式转换成为便于进入能源大数据中心的目标数据格式。
CN202110524854.XA 2021-05-13 2021-05-13 一种基于能源大数据的数据清洗转换*** Pending CN113220674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110524854.XA CN113220674A (zh) 2021-05-13 2021-05-13 一种基于能源大数据的数据清洗转换***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110524854.XA CN113220674A (zh) 2021-05-13 2021-05-13 一种基于能源大数据的数据清洗转换***

Publications (1)

Publication Number Publication Date
CN113220674A true CN113220674A (zh) 2021-08-06

Family

ID=77095655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110524854.XA Pending CN113220674A (zh) 2021-05-13 2021-05-13 一种基于能源大数据的数据清洗转换***

Country Status (1)

Country Link
CN (1) CN113220674A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130055042A1 (en) * 2011-08-31 2013-02-28 Accenture Global Services Limited Data quality analysis and management system
CN104699735A (zh) * 2014-11-20 2015-06-10 国家电网公司 企业级数据中心的数据处理方法及装置
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析***
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和***
CN111597181A (zh) * 2020-05-19 2020-08-28 众创网(武汉)科技有限公司 一种基于可视化管理的分布式异源数据清洗***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130055042A1 (en) * 2011-08-31 2013-02-28 Accenture Global Services Limited Data quality analysis and management system
CN104699735A (zh) * 2014-11-20 2015-06-10 国家电网公司 企业级数据中心的数据处理方法及装置
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和***
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析***
CN111597181A (zh) * 2020-05-19 2020-08-28 众创网(武汉)科技有限公司 一种基于可视化管理的分布式异源数据清洗***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姜一等: "企业运营数据前置化质量核查与管理", 《经贸实践》 *
江疆等: "基于广东电网大数据的数据质量管理方法", 《现代计算机(专业版)》 *
潘腾辉等: "面向数据库清洗的数据质量控制设计", 《信息技术》 *

Similar Documents

Publication Publication Date Title
CN112256782B (zh) 基于Hadoop的电力大数据处理***
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN111177276A (zh) 一种基于Spark计算框架的动能数据处理***及方法
CN112965979B (zh) 一种用户行为分析方法、装置及电子设备
CN112100149B (zh) 日志自动化分析***
CN109308290B (zh) 一种基于cim的高效数据清洗转换方法
CN115329016B (zh) 一种金融资产交易数据处理方法、***及可读介质
CN114880405A (zh) 一种基于数据湖的数据处理方法及***
CN111813847A (zh) 企业运营数据的处理方法
CN111352982A (zh) 一种基于大数据的人力抽取分析***
CN113553295A (zh) 一种支持多种文件格式的数据预处理***
CN109829003A (zh) 数据库备份方法及装置
CN112241427A (zh) 一种企业运营监控***
CN113220674A (zh) 一种基于能源大数据的数据清洗转换***
CN109308606A (zh) 一种基于bim技术的建筑工程成本管理***及方法
CN113190544A (zh) 一种面向企业的mes数据抽取和清洗方法
CN115168297A (zh) 绕行日志审计方法及装置
CN112965948A (zh) 一种基于数据的管理服务中台***
CN117350643B (zh) 一种科研数据修改整合***
CN116681559A (zh) 社交媒体中诉求内容自动识别方法和***
Chen et al. Design and implementation of digital big data analysis platform based on substation maintenance full link
CN116775948A (zh) 一种用于yms***的数据仓库***及其构建方法
CN116257509A (zh) 一种实现数据治理的方法及装置
CN116955339A (zh) 一种生产运营数据资产管理***
CN104750017A (zh) 一种机场行李监控方法及机场行李监控***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806