CN114168573A - 一种基于可编排组件的数据质量治理技术 - Google Patents

一种基于可编排组件的数据质量治理技术 Download PDF

Info

Publication number
CN114168573A
CN114168573A CN202010949136.2A CN202010949136A CN114168573A CN 114168573 A CN114168573 A CN 114168573A CN 202010949136 A CN202010949136 A CN 202010949136A CN 114168573 A CN114168573 A CN 114168573A
Authority
CN
China
Prior art keywords
data
component
evaluation
quality
governance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010949136.2A
Other languages
English (en)
Inventor
吴钟飞
陈凤超
黎鸣
梅傲琪
何毅鹏
赵俊炜
李祺威
周立德
饶欢
张锐
徐睿烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Dongguan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202010949136.2A priority Critical patent/CN114168573A/zh
Publication of CN114168573A publication Critical patent/CN114168573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于可编排组件的数据质量治理技术,数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。本发明的有益效果是:将用于数据质量管理的各部分分拆成松散的组件,在进行数据质量管理时,根据在数据治理定义组件中制定的数据质量治理范围和质量治理目标对所需的组件进行编排使用,使组件之间相互协同合作,以避免流程浪费、时间浪费,提高数据质量治理效率;数据能够分散存储,提高数据的提取效率,避免出现处理海量数据时出现数据提取性能瓶颈。

Description

一种基于可编排组件的数据质量治理技术
技术领域
本发明涉及数据管理领域,尤其涉及一种基于可编排组件的数据质量治理技术。
背景技术
目前,对于数据质量优化领域,业界主流使用集中式数据质量管理***。传统集中式数据质量管理***实现了校验规则规范化管理、规则执行时间调度、数据质量报告统一管理等能力,提高了数据质量校验的效率和管理水平。
这种集中式数据质量管理***局限性在于质量管理流程固定,不能够根据不同数据质量治理范围和质量治理目标进行自由编排,造成流程的浪费、数据质量治理时间浪费;使用传统数据库集中式存储,当处理海量数据时容易出现性能瓶颈。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于可编排组件的数据质量治理技术。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于可编排组件的数据质量治理技术,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
所述数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
其中,所述数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
其中,所述数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
其中,所述数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
其中,所述数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
其中,所述流程改进组件包括流程反馈子组件、流程再造子组件。
其中,所述数据存储组件包括若干个独立的数据存储子组件。
本发明的有益效果是:将用于数据质量管理的各部分分拆成松散的组件,在进行数据质量管理时,根据在数据治理定义组件中制定的数据质量治理范围和质量治理目标对所需的组件进行编排使用,使组件之间相互协同合作,以避免流程浪费、时间浪费,提高数据质量治理效率;数据能够分散存储,提高数据的提取效率,避免出现处理海量数据时出现数据提取性能瓶颈。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明中数据质量治理技术的框架图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,一种基于可编排组件的数据质量治理技术,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
流程改进组件包括流程反馈子组件、流程再造子组件。
数据存储组件包括若干个独立的数据存储子组件。
实施例一,数据质量治理范围为居民用电千瓦数,质量治理目标为数据的完整性测评,数据治理定义组件将数据获取子组件、完整性测评子组件进行编排使用,数据获取子组件获取到居民的用电千瓦数数据形成居民用电千瓦数数据库,完整性测评子组件对居民用电千瓦数数据库中的数据进行完整性测评,测评完后形成数据完整性测评报告。
实施例二,数据质量治理范围为某一变压器送电区域,质量治理目标为用电情况分析,数据治理定义组件将数据获取子组件、数据测评组件、数据修改组件、数据分析组件进行编排使用,数据获取子组件获取某一变压器送电区域内的用电数据形成区域用电数据库,接着利用数据测评组件对区域用电数据库中的数据进行数据测评,将异常数据经数据修改组件进行修改,数据分析组件对修改后的区域用电数据库进行数据分析,并形成分析报告。
实施例三,数据质量治理范围为某市级电网调度区域,质量治理目标为电网调度质量优化,数据治理定义组件将数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件进行编排使用,数据获取组件获取某市级电网调度区域内的电网调度数据,形成该市的电网调度数据库,接着数据测评组件对电网调度数据库中的数据进行六性方面的测评,一方面测评数据的六性、另一方面找出异常数据,数据修改组件对电网调度数据库中的异常数据进行修改,数据分析组件对修改后的电网调度数据库进行数据分析,形成分析报告,流程改进组件对前面几个组件编排顺序、协同方式、处理结果作出反馈和/或改变,数据存储组件对需要保存的数据进行保存,而不需要保存的数据由数据销毁组件彻底销毁,以免被窃取盗用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (7)

1.一种基于可编排组件的数据质量治理技术,其特征在于,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
所述数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
2.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
3.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
4.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
5.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
6.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述流程改进组件包括流程反馈子组件、流程再造子组件。
7.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据存储组件包括若干个独立的数据存储子组件。
CN202010949136.2A 2020-09-10 2020-09-10 一种基于可编排组件的数据质量治理技术 Pending CN114168573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010949136.2A CN114168573A (zh) 2020-09-10 2020-09-10 一种基于可编排组件的数据质量治理技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010949136.2A CN114168573A (zh) 2020-09-10 2020-09-10 一种基于可编排组件的数据质量治理技术

Publications (1)

Publication Number Publication Date
CN114168573A true CN114168573A (zh) 2022-03-11

Family

ID=80475735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010949136.2A Pending CN114168573A (zh) 2020-09-10 2020-09-10 一种基于可编排组件的数据质量治理技术

Country Status (1)

Country Link
CN (1) CN114168573A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708149A (zh) * 2012-04-01 2012-10-03 河海大学 数据质量管理方法和***
CN102930023A (zh) * 2011-11-03 2013-02-13 微软公司 基于知识的数据质量解决方案
CN103401945A (zh) * 2013-08-14 2013-11-20 青岛大学 一种服务组合动态重构方法
CN104134121A (zh) * 2014-07-30 2014-11-05 国家电网公司 一种电网信息***业务数据可视化的实现方法
US20150180730A1 (en) * 2013-12-19 2015-06-25 Amdocs Software Systems Limited System, method, and computer program for inter-module communication in a network based on network function virtualization (nfv)
US20160253340A1 (en) * 2015-02-27 2016-09-01 Podium Data, Inc. Data management platform using metadata repository
CN108268997A (zh) * 2017-11-23 2018-07-10 国网陕西省电力公司经济技术研究院 一种电网变电站数据质量考核方法
EP3575980A2 (en) * 2018-05-29 2019-12-04 Accenture Global Solutions Limited Intelligent data quality
CN110704502A (zh) * 2019-11-20 2020-01-17 中电万维信息技术有限责任公司 一种组件化数据质量检核方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930023A (zh) * 2011-11-03 2013-02-13 微软公司 基于知识的数据质量解决方案
CN102708149A (zh) * 2012-04-01 2012-10-03 河海大学 数据质量管理方法和***
CN103401945A (zh) * 2013-08-14 2013-11-20 青岛大学 一种服务组合动态重构方法
US20150180730A1 (en) * 2013-12-19 2015-06-25 Amdocs Software Systems Limited System, method, and computer program for inter-module communication in a network based on network function virtualization (nfv)
CN104134121A (zh) * 2014-07-30 2014-11-05 国家电网公司 一种电网信息***业务数据可视化的实现方法
US20160253340A1 (en) * 2015-02-27 2016-09-01 Podium Data, Inc. Data management platform using metadata repository
CN108268997A (zh) * 2017-11-23 2018-07-10 国网陕西省电力公司经济技术研究院 一种电网变电站数据质量考核方法
EP3575980A2 (en) * 2018-05-29 2019-12-04 Accenture Global Solutions Limited Intelligent data quality
CN110704502A (zh) * 2019-11-20 2020-01-17 中电万维信息技术有限责任公司 一种组件化数据质量检核方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
姜晓鹏, 王润孝, 殷磊, 魏平: "基于组件的工具管理***研究", 组合机床与自动化加工技术, no. 03, 25 March 2005 (2005-03-25) *
李晶晶: "数据质量评估模型及评估工具研究", 信息科技, 15 June 2019 (2019-06-15) *
牛学敏;郝永平;刘凤丽;: "基于组件的车间级质量信息管理的技术研究与***实现", 中国制造业信息化, no. 17, 1 September 2007 (2007-09-01) *
邓耀国;姜美莲;: "基于ERP中质量控制模块的研究与开发", 广西大学学报(自然科学版), no. 1, 20 June 2008 (2008-06-20) *

Similar Documents

Publication Publication Date Title
CN105426292B (zh) 一种游戏日志实时处理***及方法
Liu et al. Efficient distributed query processing in large RFID-enabled supply chains
US10102039B2 (en) Converting a hybrid flow
CN103218360B (zh) 工业实时数据库采用内存池技术实现动态内存管理的方法
CN106780149A (zh) 一种基于定时任务调度的设备实时监测***
Gupta et al. Simulation modeling and analysis of a complex system of a thermal power plant
CN111459646B (zh) 基于管道模型与任务合并的大数据质量管理任务调度方法
CN105279269A (zh) 一种支持表自由关联的sql生成方法和***
US7185322B2 (en) Method and apparatus for parallel action processing
CN106502720A (zh) 一种数据处理方法和装置
CN105302915B (zh) 基于内存计算的高性能数据处理***
CN101706779B (zh) 基于oracle的伞状数据导入导出方法
CN114168573A (zh) 一种基于可编排组件的数据质量治理技术
CN108920110A (zh) 一种基于内存计算模式的并行处理大数据存储***及方法
CN117391499A (zh) 光伏电站可靠性评价方法及其装置
CN105279234A (zh) 一种输变电设备状态检修数据跨平台数据获取与转换方法
CN104346378A (zh) 一种实现复杂数据处理的方法、装置及***
CN114218216A (zh) 资源管理方法、装置、设备及存储介质
Purdilă et al. Single‐scan: a fast star‐join query processing algorithm
CN110781647B (zh) 一种基于Flink实现数据格式校验的方法
Arshad et al. Big Data testing techniques: taxonomy, challenges and future trends
Contreras‐Bolton et al. An effective two‐level solution approach for the prize‐collecting generalized minimum spanning tree problem by iterated local search
EP2781977B1 (en) Method and system for managing distributed computing in automation systems
Ren et al. An executable specification of map-join-reduce using haskell
Nakandalam et al. Taming model serving complexity, performance and cost: A compilation to tensor computations approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination