CN114168573A - 一种基于可编排组件的数据质量治理技术 - Google Patents
一种基于可编排组件的数据质量治理技术 Download PDFInfo
- Publication number
- CN114168573A CN114168573A CN202010949136.2A CN202010949136A CN114168573A CN 114168573 A CN114168573 A CN 114168573A CN 202010949136 A CN202010949136 A CN 202010949136A CN 114168573 A CN114168573 A CN 114168573A
- Authority
- CN
- China
- Prior art keywords
- data
- component
- evaluation
- quality
- governance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title abstract description 5
- 238000007405 data analysis Methods 0.000 claims abstract description 18
- 238000012986 modification Methods 0.000 claims abstract description 16
- 230000004048 modification Effects 0.000 claims abstract description 16
- 238000011157 data evaluation Methods 0.000 claims abstract description 15
- 238000013500 data storage Methods 0.000 claims abstract description 15
- 238000003908 quality control method Methods 0.000 claims abstract description 15
- 230000006378 damage Effects 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000000556 factor analysis Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000007726 management method Methods 0.000 abstract description 19
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000013523 data management Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013075 data extraction Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000003326 Quality management system Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于可编排组件的数据质量治理技术,数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。本发明的有益效果是:将用于数据质量管理的各部分分拆成松散的组件,在进行数据质量管理时,根据在数据治理定义组件中制定的数据质量治理范围和质量治理目标对所需的组件进行编排使用,使组件之间相互协同合作,以避免流程浪费、时间浪费,提高数据质量治理效率;数据能够分散存储,提高数据的提取效率,避免出现处理海量数据时出现数据提取性能瓶颈。
Description
技术领域
本发明涉及数据管理领域,尤其涉及一种基于可编排组件的数据质量治理技术。
背景技术
目前,对于数据质量优化领域,业界主流使用集中式数据质量管理***。传统集中式数据质量管理***实现了校验规则规范化管理、规则执行时间调度、数据质量报告统一管理等能力,提高了数据质量校验的效率和管理水平。
这种集中式数据质量管理***局限性在于质量管理流程固定,不能够根据不同数据质量治理范围和质量治理目标进行自由编排,造成流程的浪费、数据质量治理时间浪费;使用传统数据库集中式存储,当处理海量数据时容易出现性能瓶颈。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种基于可编排组件的数据质量治理技术。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种基于可编排组件的数据质量治理技术,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
所述数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
其中,所述数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
其中,所述数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
其中,所述数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
其中,所述数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
其中,所述流程改进组件包括流程反馈子组件、流程再造子组件。
其中,所述数据存储组件包括若干个独立的数据存储子组件。
本发明的有益效果是:将用于数据质量管理的各部分分拆成松散的组件,在进行数据质量管理时,根据在数据治理定义组件中制定的数据质量治理范围和质量治理目标对所需的组件进行编排使用,使组件之间相互协同合作,以避免流程浪费、时间浪费,提高数据质量治理效率;数据能够分散存储,提高数据的提取效率,避免出现处理海量数据时出现数据提取性能瓶颈。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明中数据质量治理技术的框架图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,一种基于可编排组件的数据质量治理技术,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
流程改进组件包括流程反馈子组件、流程再造子组件。
数据存储组件包括若干个独立的数据存储子组件。
实施例一,数据质量治理范围为居民用电千瓦数,质量治理目标为数据的完整性测评,数据治理定义组件将数据获取子组件、完整性测评子组件进行编排使用,数据获取子组件获取到居民的用电千瓦数数据形成居民用电千瓦数数据库,完整性测评子组件对居民用电千瓦数数据库中的数据进行完整性测评,测评完后形成数据完整性测评报告。
实施例二,数据质量治理范围为某一变压器送电区域,质量治理目标为用电情况分析,数据治理定义组件将数据获取子组件、数据测评组件、数据修改组件、数据分析组件进行编排使用,数据获取子组件获取某一变压器送电区域内的用电数据形成区域用电数据库,接着利用数据测评组件对区域用电数据库中的数据进行数据测评,将异常数据经数据修改组件进行修改,数据分析组件对修改后的区域用电数据库进行数据分析,并形成分析报告。
实施例三,数据质量治理范围为某市级电网调度区域,质量治理目标为电网调度质量优化,数据治理定义组件将数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件进行编排使用,数据获取组件获取某市级电网调度区域内的电网调度数据,形成该市的电网调度数据库,接着数据测评组件对电网调度数据库中的数据进行六性方面的测评,一方面测评数据的六性、另一方面找出异常数据,数据修改组件对电网调度数据库中的异常数据进行修改,数据分析组件对修改后的电网调度数据库进行数据分析,形成分析报告,流程改进组件对前面几个组件编排顺序、协同方式、处理结果作出反馈和/或改变,数据存储组件对需要保存的数据进行保存,而不需要保存的数据由数据销毁组件彻底销毁,以免被窃取盗用。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (7)
1.一种基于可编排组件的数据质量治理技术,其特征在于,包括:
用于制定数据质量治理范围和质量治理目标的数据治理定义组件,
用于获取数据的数据获取组件,
用于对数据进行测评的数据测评组件,
用于对异常数据进行修改的数据修改组件,
用于对数据进行分析的数据分析组件,
用于对数据质量治理流程进行改进的流程改进组件,
用于分散存储数据的数据存储组件,
用于销毁数据的数据销毁组件;
所述数据获取组件、数据测评组件、数据修改组件、数据分析组件、流程改进组件、数据存储组件、数据销毁组件根据数据定义组件制定的数据质量治理范围和质量治理目标进行编排。
2.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据获取组件包括多个根据数据来源不同分别进行采集的数据采集子组件。
3.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据测评组件包括唯一性测评子组件、完整性测评子组件、准确性测评子组件、一致性测评子组件、关联性测评子组件、及时性测评子组件。
4.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据修改组件包括用于修正错误数据和缺失数据的交叉验证法数据修正子组件、用于去除冗余数据的相似比较法数据去除子组件。
5.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据分析组件包括回归分析子组件、因子分析子组件、鱼骨图分析子组件、帕累托分析子组件、矩阵数据分析子组件。
6.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述流程改进组件包括流程反馈子组件、流程再造子组件。
7.根据权利要求1所述的基于可编排组件的数据质量治理技术,其特征在于:所述数据存储组件包括若干个独立的数据存储子组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010949136.2A CN114168573A (zh) | 2020-09-10 | 2020-09-10 | 一种基于可编排组件的数据质量治理技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010949136.2A CN114168573A (zh) | 2020-09-10 | 2020-09-10 | 一种基于可编排组件的数据质量治理技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168573A true CN114168573A (zh) | 2022-03-11 |
Family
ID=80475735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010949136.2A Pending CN114168573A (zh) | 2020-09-10 | 2020-09-10 | 一种基于可编排组件的数据质量治理技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168573A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和*** |
CN102930023A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 基于知识的数据质量解决方案 |
CN103401945A (zh) * | 2013-08-14 | 2013-11-20 | 青岛大学 | 一种服务组合动态重构方法 |
CN104134121A (zh) * | 2014-07-30 | 2014-11-05 | 国家电网公司 | 一种电网信息***业务数据可视化的实现方法 |
US20150180730A1 (en) * | 2013-12-19 | 2015-06-25 | Amdocs Software Systems Limited | System, method, and computer program for inter-module communication in a network based on network function virtualization (nfv) |
US20160253340A1 (en) * | 2015-02-27 | 2016-09-01 | Podium Data, Inc. | Data management platform using metadata repository |
CN108268997A (zh) * | 2017-11-23 | 2018-07-10 | 国网陕西省电力公司经济技术研究院 | 一种电网变电站数据质量考核方法 |
EP3575980A2 (en) * | 2018-05-29 | 2019-12-04 | Accenture Global Solutions Limited | Intelligent data quality |
CN110704502A (zh) * | 2019-11-20 | 2020-01-17 | 中电万维信息技术有限责任公司 | 一种组件化数据质量检核方法 |
-
2020
- 2020-09-10 CN CN202010949136.2A patent/CN114168573A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930023A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 基于知识的数据质量解决方案 |
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和*** |
CN103401945A (zh) * | 2013-08-14 | 2013-11-20 | 青岛大学 | 一种服务组合动态重构方法 |
US20150180730A1 (en) * | 2013-12-19 | 2015-06-25 | Amdocs Software Systems Limited | System, method, and computer program for inter-module communication in a network based on network function virtualization (nfv) |
CN104134121A (zh) * | 2014-07-30 | 2014-11-05 | 国家电网公司 | 一种电网信息***业务数据可视化的实现方法 |
US20160253340A1 (en) * | 2015-02-27 | 2016-09-01 | Podium Data, Inc. | Data management platform using metadata repository |
CN108268997A (zh) * | 2017-11-23 | 2018-07-10 | 国网陕西省电力公司经济技术研究院 | 一种电网变电站数据质量考核方法 |
EP3575980A2 (en) * | 2018-05-29 | 2019-12-04 | Accenture Global Solutions Limited | Intelligent data quality |
CN110704502A (zh) * | 2019-11-20 | 2020-01-17 | 中电万维信息技术有限责任公司 | 一种组件化数据质量检核方法 |
Non-Patent Citations (4)
Title |
---|
姜晓鹏, 王润孝, 殷磊, 魏平: "基于组件的工具管理***研究", 组合机床与自动化加工技术, no. 03, 25 March 2005 (2005-03-25) * |
李晶晶: "数据质量评估模型及评估工具研究", 信息科技, 15 June 2019 (2019-06-15) * |
牛学敏;郝永平;刘凤丽;: "基于组件的车间级质量信息管理的技术研究与***实现", 中国制造业信息化, no. 17, 1 September 2007 (2007-09-01) * |
邓耀国;姜美莲;: "基于ERP中质量控制模块的研究与开发", 广西大学学报(自然科学版), no. 1, 20 June 2008 (2008-06-20) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105426292B (zh) | 一种游戏日志实时处理***及方法 | |
Liu et al. | Efficient distributed query processing in large RFID-enabled supply chains | |
US10102039B2 (en) | Converting a hybrid flow | |
CN103218360B (zh) | 工业实时数据库采用内存池技术实现动态内存管理的方法 | |
CN106780149A (zh) | 一种基于定时任务调度的设备实时监测*** | |
Gupta et al. | Simulation modeling and analysis of a complex system of a thermal power plant | |
CN111459646B (zh) | 基于管道模型与任务合并的大数据质量管理任务调度方法 | |
CN105279269A (zh) | 一种支持表自由关联的sql生成方法和*** | |
US7185322B2 (en) | Method and apparatus for parallel action processing | |
CN106502720A (zh) | 一种数据处理方法和装置 | |
CN105302915B (zh) | 基于内存计算的高性能数据处理*** | |
CN101706779B (zh) | 基于oracle的伞状数据导入导出方法 | |
CN114168573A (zh) | 一种基于可编排组件的数据质量治理技术 | |
CN108920110A (zh) | 一种基于内存计算模式的并行处理大数据存储***及方法 | |
CN117391499A (zh) | 光伏电站可靠性评价方法及其装置 | |
CN105279234A (zh) | 一种输变电设备状态检修数据跨平台数据获取与转换方法 | |
CN104346378A (zh) | 一种实现复杂数据处理的方法、装置及*** | |
CN114218216A (zh) | 资源管理方法、装置、设备及存储介质 | |
Purdilă et al. | Single‐scan: a fast star‐join query processing algorithm | |
CN110781647B (zh) | 一种基于Flink实现数据格式校验的方法 | |
Arshad et al. | Big Data testing techniques: taxonomy, challenges and future trends | |
Contreras‐Bolton et al. | An effective two‐level solution approach for the prize‐collecting generalized minimum spanning tree problem by iterated local search | |
EP2781977B1 (en) | Method and system for managing distributed computing in automation systems | |
Ren et al. | An executable specification of map-join-reduce using haskell | |
Nakandalam et al. | Taming model serving complexity, performance and cost: A compilation to tensor computations approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |