CN111639850A - 多源异构数据的质量评估方法与*** - Google Patents
多源异构数据的质量评估方法与*** Download PDFInfo
- Publication number
- CN111639850A CN111639850A CN202010463043.9A CN202010463043A CN111639850A CN 111639850 A CN111639850 A CN 111639850A CN 202010463043 A CN202010463043 A CN 202010463043A CN 111639850 A CN111639850 A CN 111639850A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- data quality
- rule
- source heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000001303 quality assessment method Methods 0.000 claims abstract 5
- 238000005516 engineering process Methods 0.000 claims description 20
- 238000013210 evaluation model Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 abstract description 13
- 238000012545 processing Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种多源异构数据的质量评估方法与模型,通过实时或离线的方式获取待评估数据集,然后针对数据项配置质量规则参数,构建权重矩阵,计算数据集通过率,然后利用数据质量综合评估公式,得出对数据集质量的综合评估结果,不再局限于单一类型数据处理,满足了多源异构数据需求;降低数据质量评估计算的复杂度。
Description
技术领域
本发明涉及智能电网数据管理技术领域,特别涉及一种多源异构数据的质量评估方法与***。
背景技术
随着信息新技术与智能电网的深度融合,智能传感、自动控制***、物联网等技术在电网公司发、输、变、配、用等各个环节得到广泛应用,尤其是移动互联网、物联网、5G等新一代通信技术的应用,极大地提升了电网智能设备的数据采集频率和采集范围。伴随着综合能源、能源互联网的快速建设,电网中部署了数以亿计的智能电表设备,成为全链条数据采集和物联通信新技术融合的核心环节。智能电表支撑着电网公司生产运营、监测和管理等重要活动,采集的海量数据已广泛应用于电网公司的核心业务领域。而智能电表的质量对采集数据质量起着决定性作用,低质量的智能电表产生的数据准确性、可靠性均得不到保证,将严重影响电网公司的正常经营。在生产实践中,智能电表的质量往往与采集产生的数据质量呈正相关关系,也受到智能电表在运期间异常、故障等多种因素的影响。因此,通过对智能电表运行生命周期内采集生成的各类数据,结合关联影响的不同业务***,利用针对多源异构数据的质量评估方法,可实现对不同运行状态下智能电表质量的综合评价。
现有的数据质量评估实现方法分为以下两类:一是通过数据库脚本统计分析的手段来评估历史数据质量水平,在技术和实现上有一定的局限性;二是采用传统机器学习技术,结合神经网络算法来评估数据质量。这种方法需要准备样本数据集来训练神经网络,形成数据质量评估模型,当数据质量规则发生变化时,就需要重新训练新模型,过程比较繁杂。以上方法均基于静态结构化数据集,在面对多源异构数据的评估能力是非常有限的。
因此,需要一种数据质量评估方法和评估***。
发明内容
本发明的目的在于克服现有技术不足,提供一种多源异构数据的质量评估方法与模型,实现智能电表运行生命周期内采集生成的各类数据和关联业务***数据的质量评估,降低数据质量评估计算的复杂度。该方法的具体应用是,该方法在电力营销领域开展智能电表质量评价及异常诊断方面,利用智能电表数年产生的海量电流、电压、电能量、功率等电气量采集数据和终端事件数据构建评估模型,可辅助定量评价智能电表模块的质量水平,快速定位智能电表异常原因。
为此,本发明的一个目的在于提出一种多源异构数据的质量评估方法,包括以下步骤,包括以下步骤:S1、获取多源异构海量数据作为待评估数据集;S2、针对所述待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围;S3、利用预设的所述数据质量规则的维度参数分值和重要性权重,构建数据质量规则的权重矩阵;S4、通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵,对全部数据质量规则的通过率进行加权求和,得出待评估的数据集的综合评估结果。
优选的,在S1中,获取多源异构海量数据包括以标准化采集任务模板来快速接入各类数据;针对多源异构实时数据,采用消息队列技术获取;针对多源异构海量历史数据,采用数据总线技术获取;所述多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。
在上述任意一项实施例中优选的,在S2中,在预设多维度参数的数据质量规则时,所述维度参数包括所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性。
在上述任意一项实施例中优选的,在S3中数据质量规则权重矩阵,采用如下公式表示:
Wi=a%*Wa(i)+b%*Wb(i)+c%*Wc(i)+d%*Wd(i)+e%*We(i)+f%*Wf(i)
其中:Wi代表第i项数据质量规则的加权分值;Wa(i)代表第i项数据质量规则在“a”维度下的分值,Wb(i),Wc(i),Wd(i),We(i),Wf(i)含义与Wa(i)同,分别表示在各自对应维度下的分值;a%,b%,c%,d%,e%,f%分别代表权重矩阵中各个维度参数的占比,且a%+b%+c%+d%e%+f%=100%。
在上述任意一项实施例中优选的,在S4中对数据质量综合评估时,采用如下公式:
其中:S表示数据质量的综合得分;Wi表示第i个数据质量规则的加权分值;Rei表示第i个的数据质量规则的通过率;n表示全部数据质量规则的数量。
本发明还提出了一种多源异构数据的质量评估***,包括数据采集模块、数据质量规则预设模块、数据质量规则权重矩阵和数据质量综合评估模型;所述数据采集模块,用于获取多源异构海量数据作为待评估数据集;所述数据质量规则预设模块,用于根据所述待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围;所述数据质量规则权重矩阵,利用预设的所述数据质量规则的维度参数分值和重要性权重,构建而成;所述数据质量规则权重矩阵,用于对每条数据质量规则匹配权重;所述数据质量综合评估模型,通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵模型,对全部数据质量规则的通过率进行加权求和,对待评估的数据集的综合评估结果。
优选的,所述数据采集模块在获取多源异构海量数据时,以标准化采集任务模板来快速接入各类数据;针对多源异构实时数据,采用消息队列技术获取;针对多源异构海量历史数据,采用数据总线技术获取;所述数据采集模块获取的多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。
在上述任意一项实施例中优选的,所述数据质量规则预设模块,在预设多维度参数的数据质量规则时,所述维度参数包括所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性。
在上述任意一项实施例中优选的,所述数据质量规则权重矩阵,采用如下公式表示:
Wi=a%*Wa(i)+b%*Wb(i)+c%*Wc(i)+d%*Wd(i)+e%*We(i)+f%*Wf(i)
其中:Wi代表第i项数据质量规则的加权分值;Wa(i)代表第i项数据质量规则在“a”维度下的分值,Wb(i),Wc(i),Wd(i),We(i),Wf(i)含义与Wa(i)同,分别表示在各自对应维度下的分值;a%,b%,c%,d%,e%,f%分别代表权重矩阵中各个维度参数的占比,且a%+b%+c%+d%e%+f%=100%。
在上述任意一项实施例中优选的,所述数据质量综合评估模型,对数据质量综合评估时,采用如下公式:
其中:S表示数据质量的综合得分;Wi表示第i个数据质量规则的加权分值;Rei表示第i个的数据质量规则的通过率;n表示全部数据质量规则的数量。
本发明提出的多源异构数据的质量评估方法与***,相比于现有技术至少具有以下优点:采用消息队列法和数据总线法分别获取历史数据和实时数据,相比于传统技术,不再局限于单一类型数据处理,满足了多源异构数据需求;实现智能电表运行生命周期内采集生成的各类数据和关联业务***数据的质量评估,降低数据质量评估计算的复杂度。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明提供的一种多源异构数据的质量评估方法的流程图;
图2为本发明提供的一种多源异构数据的质量评估***的结构示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
如图1所示,本发明提出一种多源异构数据的质量评估方法,包括以下步骤:
S1、通过实时或离线的方式获取多源异构海量数据待评估数据集;其中,在建立数据集时,采用多源异构数据采集技术,以标准化采集任务模板来快速接入各类数据,满足海量实时和历史数据采集需求主要包括以下两方面,一方面,针对多源异构实时数据,采用消息队列技术获取;另一方面,针对多源异构海量历史数据,采用数据总线技术获取。根据评估时效需求,将多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。
S2、针对所述待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围;
针对待评估数据集特点、关联业务及数据归属,每条规则分别综合考虑数据项所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性六个维度参数配置,对数据质量规则进行综合全面的评估。其中,评估对象包括应用***和数据主题。针对每个参数说明如下:
1)所属***重要程度:数据项所属***的重要程度,一般分为核心信息***、重要信息***和非重要信息***,每类信息***有进一步的细分。
2)引用次数:各个数据项被其他***引用的次数,依据元数据的血缘分析,可以得到数据项被引用的情况,该数据项在数据流转中,被引用次数越高,该数据项下的数据质量规则的分值越高。
3)约束类型:数据项在所属表中的约束条件,若为主键或外键,建议该数据项下数据质量规则的分值较高;若该数据项非主键或外键,但存在其他约束或索引等,则建议分值参考中等;若无约束,则设置一个相对低的分值。
4)规则完备度:如果数据项下制定了相对全面的数据质量规则,各个数据质量度量属性上数据质量规则越多,说明规则完备度越高,建议该数据项的分值较高。
5)评估对象相关度:评估对象不同,关注重点也有所不同,以数据项应用范围来考量。在评分模型中关注度高的数据项,分值更高。
6)规则重要程度:按照数据质量规则的度量属性来配置,数据质量度量属性中重要程度最高的是完整性和准确性,其次是一致性,最后是时效性和规范性。
数据质量规则隶属于数据项,对数据质量规则的权重评定,可以从数据项的角度来评定每个维度参数的重要程度。六个维度参数对数据质量规则的影响与重要性不同,可以按照数据质量评估的需要,确定各个维度的权重占比。结合电网领域数据质量评估侧重,对六个维度参数所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性进行约定,依次分别为20%、10%、10%、10%、20%、30%。
针对每条数据质量规则的六个维度参数,给出评定的分值范围;根据维度参数浮动不宜过大的原则,结合电网领域数据质量评估侧重,各个维度参数分值建议范围为[80,120],平均分值[96,105],高于平均分值的建议分值范围为[106,120],低于平均值的建议分值范围为[80-95]。维度参数对应分值根据参数说明条件来给定,一个典型的维度参数分值配置条件如下表所示:
表1:维度参数分值配置表
S3、利用预设的所述数据质量规则的维度参数分值和重要性权重,构建数据质量规则的权重矩阵;
利用数据质量规则六个维度参数分值和重要性权重来构建权重矩阵模型,以综合评估一条数据质量规则的客观性。数据质量规则权重矩阵模型公式设计如(公式1)所示:
Wi=a%*Wa(i)+b%*Wb(i)+c%*Wc(i)+d%*Wd(i)+e%*We(i)+f%*Wf(i) (公式1)
其中:Wi代表第i项数据质量规则的加权分值;Wa(i)代表第i项数据质量规则在“所属***重要程度”维度下的分值,该分值由业务专家结合权重矩阵具体给出;Wb(i),Wc(i),Wd(i),We(i),Wf(i)含义与Wa(i)同,分别表示在各自对应维度下的分值;a%,b%,c%,d%,e%,f%分别代表权重矩阵中六个维度参数的占比,如a%用来表示“所属***重要程度”维度参数占全部维度的比例,且a%+b%+c%+d%e%+f%=100%。
S4、通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵,对全部数据质量规则的通过率进行加权求和,得出待评估的数据集的综合评估结果。
该模型由一系列评分公式组成,综合考虑评估对象下的数据质量规则的检查通过率、权重、分析维度等,形成可量化的综合得分,用于衡量评估对象数据质量水平。数据质量综合评估模型分三步来实现:
(1)计算数据质量规则得分
利用检查通过率指标来衡量,该指标定义为通过检查规则的记录数量与参与检查规则的记录总数的比值,换算成百分值,计算公式如(公式2)下:
其中:Re(Rule Estimation),表示数据质量规则的得分,Re的取值范围为[0,100]之间;Radopt表示该数据质量规则经检查得到的正确结果的数据集记录数;Rtotal表示该数据质量检查规则用于检查的数据集记录总数。
Re的计算还需考虑以下特殊情况:当Rtotal为0时,即表示待评估数据库表里没有记录,在此情况,该数据质量规则不参与计算;当数据集动态变化时,由评估模型***触发对Radopt、Rtotal数量进行调整。
若检查通过率在一定时期范围内均为100,可根据数据质量评估的需要来调整或取消检查,以提高评估计算效率。
(2)数据质量各维度评估得分
从数据完整性、准确性、一致性、时效性、规范性等维度,分别计算数据质量评估得分,可根据得分定位引起数据质量问题的主要维度。各维度得分计算公式如下式(公式3)所示:
其中:Sk表示按照数据质量第k个维度的数据质量得分;Wi表示第i个数据质量规则的加权分值;Reik表示该维度k下的第i个的数据质量规则的通过率;n表示该维度k下数据质量规则的数量。
(3)数据质量综合评估得分
数据质量综合评估得分的计算方法是对全部数据质量规则的通过率进行加权求和,从而得出待评估的数据集的综合评估结果。计算公式如下式(公式4)所示:
其中:S表示数据质量的综合得分;mi表示第i个数据质量规则的加权分值;Rei表示第i个的数据质量规则的通过率;n表示全部数据质量规则的数量。
从评估模型计算公式可以看出,数据集综合评估得分不等于各维度评估得分之和,评估结果与各维度的数据质量规则数量与分值有关。
该方法的具体应用是,该方法在电力营销领域开展智能电表质量评价及异常诊断方面,利用智能电表数年产生的海量电流、电压、电能量、功率等电气量采集数据和终端事件数据构建评估模型,可辅助定量评价智能电表模块的质量水平,快速定位智能电表异常原因。
如图2所示,与上述实施例相对应的,本发明还提供一种多源异构数据的质量评估***,包括数据采集模块、数据质量规则预设模块、数据质量规则权重矩阵和数据质量综合评估模型;其中,数据采集模块用于获取多源异构海量数据作为待评估数据集;数据采集模块在获取多源异构海量数据时,以标准化采集任务模板来快速接入各类数据;针对多源异构实时数据,采用消息队列技术获取;针对多源异构海量历史数据,采用数据总线技术获取;所述数据采集模块获取的多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。数据质量规则预设模块,根据待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围。
针对待评估数据集特点、关联业务及数据归属,每条规则分别综合考虑数据项所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性六个维度参数配置,对数据质量规则进行综合全面的评估。其中,评估对象包括应用***和数据主题。针对每个参数说明如下:
1)所属***重要程度:数据项所属***的重要程度,一般分为核心信息***、重要信息***和非重要信息***,每类信息***有进一步的细分。
2)引用次数:各个数据项被其他***引用的次数,依据元数据的血缘分析,可以得到数据项被引用的情况,该数据项在数据流转中,被引用次数越高,该数据项下的数据质量规则的分值越高。
3)约束类型:数据项在所属表中的约束条件,若为主键或外键,建议该数据项下数据质量规则的分值较高;若该数据项非主键或外键,但存在其他约束或索引等,则建议分值参考中等;若无约束,则设置一个相对低的分值。
4)规则完备度:如果数据项下制定了相对全面的数据质量规则,各个数据质量度量属性上数据质量规则越多,说明规则完备度越高,建议该数据项的分值较高。
5)评估对象相关度:评估对象不同,关注重点也有所不同,以数据项应用范围来考量。在评分模型中关注度高的数据项,分值更高。
6)规则重要程度:按照数据质量规则的度量属性来配置,数据质量度量属性中重要程度最高的是完整性和准确性,其次是一致性,最后是时效性和规范性。
数据质量规则隶属于数据项,对数据质量规则的权重评定,可以从数据项的角度来评定每个维度参数的重要程度。六个维度参数对数据质量规则的影响与重要性不同,可以按照数据质量评估的需要,确定各个维度的权重占比。结合电网领域数据质量评估侧重,对六个维度参数所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性进行约定,依次分别为20%、10%、10%、10%、20%、30%。
针对每条数据质量规则的六个维度参数,给出评定的分值范围;根据维度参数浮动不宜过大的原则,结合电网领域数据质量评估侧重,各个维度参数分值建议范围为[80,120],平均分值[96,105],高于平均分值的建议分值范围为[106,120],低于平均值的建议分值范围为[80-95]。维度参数对应分值根据参数说明条件来给定,具体参数配置,如上述表1所示。
所述数据质量规则权重矩阵,利用预设的所述数据质量规则的维度参数分值和重要性权重,构建而成;所述数据质量规则权重矩阵,用于对每条数据质量规则匹配权重;数据质量规则权重矩阵,采用上述公式3表示:
数据质量规则预设模块,在预设多维度参数的数据质量规则时,所述维度参数包括所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性。
所述数据质量综合评估模型,通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵模型,对全部数据质量规则的通过率进行加权求和,对待评估的数据集的综合评估结果。数据质量综合评估模型,对数据质量综合评估时,采用上述公式4进行评估计算。
从评估模型计算公式可以看出,数据集综合评估得分不等于各维度评估得分之和,评估结果与各维度的数据质量规则数量与分值有关。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
Claims (10)
1.一种多源异构数据的质量评估方法,包括以下步骤,其特征在于:包括以下步骤:
S1、获取多源异构海量数据作为待评估数据集;
S2、针对所述待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围;
S3、利用预设的所述数据质量规则的维度参数分值和重要性权重,构建数据质量规则的权重矩阵;
S4、通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵,对全部数据质量规则的通过率进行加权求和,得出待评估的数据集的综合评估结果。
2.根据权利要求1所述的多源异构数据的质量评估方法,其特征在于:在S1中,获取多源异构海量数据包括以标准化采集任务模板来快速接入各类数据;针对多源异构实时数据,采用消息队列技术获取;针对多源异构海量历史数据,采用数据总线技术获取;所述多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。
3.根据权利要求2所述的多源异构数据的质量评估方法,其特征在于:在S2中,在预设多维度参数的数据质量规则时,所述维度参数包括所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性。
4.根据权利要求1所述的多源异构数据的质量评估方法,其特征在于:在S3中数据质量规则权重矩阵采用如下公式表示:
Wi=a%*Wa(i)+b%*Wb(i)+c%*Wc(i)+d%*Wd(i)+e%*We(i)+f%*Wf(i)
其中:Wi代表第i项数据质量规则的加权分值;Wa(i)代表第i项数据质量规则在“a”维度下的分值,Wb(i),Wc(i),Wd(i),We(i),Wf(i)含义与Wa(i)同,分别表示在各自对应维度下的分值;a%,b%,c%,d%,e%,f%分别代表权重矩阵中各个维度参数的占比,且a%+b%+c%+d%e%+f%=100%。
6.一种多源异构数据的质量评估***,其特征在于:包括数据采集模块、数据质量规则预设模块、数据质量规则权重矩阵和数据质量综合评估模型;
所述数据采集模块,用于获取多源异构海量数据作为待评估数据集;
所述数据质量规则预设模块,用于根据所述待评估数据集的特点、关联业务以及数据归属,预设多维度参数的数据质量规则,并对每条数据质量规则的每个维度参数,预设评定的分值范围;
所述数据质量规则权重矩阵,利用预设的所述数据质量规则的维度参数分值和重要性权重,构建而成;所述数据质量规则权重矩阵,用于对每条数据质量规则匹配权重;
所述数据质量综合评估模型,通过计算数据质量规则的通过率,从数据的完整性、准确性、一致性、时效性、规范性多个维度,分别计算数据质量评估得分,结合数据质量规则的权重矩阵模型,对全部数据质量规则的通过率进行加权求和,对待评估的数据集的综合评估结果。
7.根据权利要求6所述的多源异构数据的质量评估***,其特征在于:所述数据采集模块在获取多源异构海量数据时,以标准化采集任务模板来快速接入各类数据;针对多源异构实时数据,采用消息队列技术获取;针对多源异构海量历史数据,采用数据总线技术获取;所述数据采集模块获取的多源异构数据存储至内存数据库或并行数据库,形成待评估数据集。
8.根据权利要求7所述的多源异构数据的质量评估***,其特征在于:所述数据质量规则预设模块,在预设多维度参数的数据质量规则时,所述维度参数包括所属***重要性、引用次数、约束类型、规则完备度、评估对象相关度、规则重要性。
9.根据权利要求6所述的多源异构数据的质量评估***,其特征在于:所述数据质量规则权重矩阵,采用如下公式表示:
Wi=a%*Wa(i)+b%*Wb(i)+c%*Wc(i)+d%*Wd(i)+e%*We(i)+f%*Wf(i)
其中:Wi代表第i项数据质量规则的加权分值;Wa(i)代表第i项数据质量规则在“a”维度下的分值,Wb(i),Wc(i),Wd(i),We(i),Wf(i)含义与Wa(i)同,分别表示在各自对应维度下的分值;a%,b%,c%,d%,e%,f%分别代表权重矩阵中各个维度参数的占比,且a%+b%+c%+d%e%+f%=100%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463043.9A CN111639850A (zh) | 2020-05-27 | 2020-05-27 | 多源异构数据的质量评估方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463043.9A CN111639850A (zh) | 2020-05-27 | 2020-05-27 | 多源异构数据的质量评估方法与*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111639850A true CN111639850A (zh) | 2020-09-08 |
Family
ID=72328753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010463043.9A Pending CN111639850A (zh) | 2020-05-27 | 2020-05-27 | 多源异构数据的质量评估方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639850A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989827A (zh) * | 2021-05-20 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
CN113177688A (zh) * | 2021-04-01 | 2021-07-27 | 柳城县迪森人造板有限公司 | 一种实木生态板的质量检测方法和装置 |
CN113448955A (zh) * | 2021-08-30 | 2021-09-28 | 上海观安信息技术股份有限公司 | 数据集质量评估方法、装置、计算机设备及存储介质 |
CN114034347A (zh) * | 2021-11-30 | 2022-02-11 | 广东鑫光智能***有限公司 | 板材质量检测方法及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估***及方法 |
US20170169380A1 (en) * | 2015-12-14 | 2017-06-15 | Wipro Limited | Method and System for Determining Quality Level of Performance Data Associated With an Enterprise |
CN108898311A (zh) * | 2018-06-28 | 2018-11-27 | 国网湖南省电力有限公司 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及*** |
-
2020
- 2020-05-27 CN CN202010463043.9A patent/CN111639850A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169380A1 (en) * | 2015-12-14 | 2017-06-15 | Wipro Limited | Method and System for Determining Quality Level of Performance Data Associated With an Enterprise |
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估***及方法 |
CN108898311A (zh) * | 2018-06-28 | 2018-11-27 | 国网湖南省电力有限公司 | 一种面向智能配电网抢修调度平台的数据质量检测方法 |
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及*** |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177688A (zh) * | 2021-04-01 | 2021-07-27 | 柳城县迪森人造板有限公司 | 一种实木生态板的质量检测方法和装置 |
CN112989827A (zh) * | 2021-05-20 | 2021-06-18 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
CN112989827B (zh) * | 2021-05-20 | 2021-08-27 | 江苏数兑科技有限公司 | 一种基于多源异构特征的文本数据集质量评估方法 |
CN113448955A (zh) * | 2021-08-30 | 2021-09-28 | 上海观安信息技术股份有限公司 | 数据集质量评估方法、装置、计算机设备及存储介质 |
CN114034347A (zh) * | 2021-11-30 | 2022-02-11 | 广东鑫光智能***有限公司 | 板材质量检测方法及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639850A (zh) | 多源异构数据的质量评估方法与*** | |
CN113779496B (zh) | 一种基于设备全景数据的电力设备状态评估方法及*** | |
CN108320043B (zh) | 一种基于电力大数据的配电网设备状态诊断预测方法 | |
CN105117602B (zh) | 一种计量装置运行状态预警方法 | |
CN116681187B (zh) | 一种基于企业经营数据的企业碳配额预测方法 | |
CN110879377B (zh) | 基于深度信念网络的计量装置故障溯源方法 | |
CN113435759B (zh) | 一种基于深度学习的一次设备风险智能评估方法 | |
CN114638476A (zh) | 一种水利一体化运维管理方法及*** | |
CN111429016A (zh) | 基于工业互联网平台的小微企业融资风控方法及*** | |
CN116011827A (zh) | 一种用于重点小区的停电监测分析与预警***及方法 | |
CN110738565A (zh) | 基于数据集合的房产金融人工智能复合风控模型 | |
CN110781959A (zh) | 基于birch算法和随机森林算法的电力客户分群方法 | |
CN112348220A (zh) | 一种基于企业行为模式的信用风险评估预测方法及*** | |
CN116151799A (zh) | 一种基于bp神经网络的配电线路多工况故障率快速评估方法 | |
CN115713027A (zh) | 一种变压器状态评估方法、装置及*** | |
CN114997888A (zh) | 一种融合多类型大数据的食品安全信用评估方法及*** | |
CN113886592A (zh) | 一种电力信息通信***运维数据的质量检测方法 | |
CN117311295B (zh) | 基于无线网络设备的生产质量提升方法及*** | |
CN117560300B (zh) | 一种智能物联网流量预测与优化*** | |
Zeng et al. | ATM transaction status feature analysis and anomaly detection | |
Zhang et al. | Data Cleaning for Prediction and its Evaluation of Building Energy Consumption | |
Dong et al. | Log fusion technology of power information system based on fuzzy reasoning | |
CN117035430A (zh) | 供应商风险预测方法及*** | |
Wang | Fuzzy Comprehensive Evaluation Model of Project Investment Risk Based on Computer Vision Technology | |
CN115936072A (zh) | 一种基于多通道卷积的***风险评估的计算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |