CN113469571A

CN113469571A - 数据质量评价方法、装置、计算机设备及可读存储介质

Info

Publication number: CN113469571A
Application number: CN202110829306.8A
Authority: CN
Inventors: 张尧; 李子森; 任炜
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-01

Abstract

本申请涉及一种数据质量评价方法、装置、计算机设备和存储介质。所述方法包括：根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，通过各数据质量评价指标的量化值和对应的综合权重系数，计算得到变电站数据的数据质量评价结果。采用本方法能够从多维度影响因素来评价数据质量，使得数据质量评价指标更加全面，并且通过组合赋权法对各数据质量评价质量进行赋权得到综合权重系数，减少了赋权的主观随意性，最后通过数据质量评价指标和对应的综合权重系数，计算得到变电站数据的数据质量评价结果，从而提高了数据质量评价结果的准确性。

Description

数据质量评价方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及变电站技术领域，特别是涉及一种数据质量评价方法、装置、计算机设备及可读存储介质。

背景技术

智能变电站是建设智能电网的关键环节，随着智能变电站建设的不断完善，其产生和储存的数据不断增多，逐渐呈现出大数据的趋势，在各***上传和储存这些数据时，经常会出现数据丢失和数据冗余等数据质量问题。在电力***中，数据质量不仅影响着变电站应用分析的准确性和有效性，而且会直接影响智能变电站的安全可靠运行。因此，合理的数据质量评价技术能够有效的体现变电站的运行状况。

传统技术中，先确定数据质量评价指标，再采用主观法对各数据质量评价指标进行赋权，之后通过数据质量评价指标以及对应的赋权结果得到数据质量评价结果。但是，采用传统的方法获取到的数据质量评价结果准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数据质量评价结果准确性的数据质量评价方法、装置、计算机设备及可读存储介质。

一种数据质量评价方法，所述方法包括：

根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，所述数据质量评价体系中数据质量评价指标的数量大于预设数量阈值；

通过组合赋权法对各所述数据质量评价指标进行赋权，得到各所述数据质量评价指标对应的综合权重系数，所述组合赋权法包括主观赋权法和客观赋权法；

通过各所述数据质量评价指标的量化值以及各所述数据质量评价指标对应的综合权重系数，计算得到所述变电站数据的数据质量评价结果。

在其中一个实施例中，所述通过组合赋权法对各所述数据质量评价指标进行赋权，得到各所述数据质量评价指标对应的综合权重系数，包括：

采用序关系法对各所述数据质量评价指标进行主观赋权，得到各所述数据质量评价指标的主观权重系数；

采用变异系数法对各所述数据质量评价指标进行客观赋权，得到各所述数据质量评价指标的客观权重系数；

通过所述主观权重系数以及所述客观权重系数，获取各所述数据质量评价指标对应的综合权重系数。

在其中一个实施例中，所述采用序关系法对各所述数据质量评价指标进行主观赋权，得到各所述数据质量评价指标的主观权重系数，包括：

对各所述数据质量评价指标的重要性进行排序，得到重要性序列；

对各所述数据质量评价指标进行赋权，得到各所述数据质量评价指标的初始权重系数；

根据所述重要性序列以及所述初始权重系数，计算权重评价标度；

根据所述权重评价标度确定各所述数据质量评价指标的主观权重系数。

在其中一个实施例中，所述采用变异系数法对各所述数据质量评价指标进行客观赋权，得到各所述数据质量评价指标的客观权重系数，包括：

根据各所述数据质量评价指标的量化值，获取各所述数据质量评价指标的平均值和标准差；

通过所述平均值和所述标准差，计算各所述数据质量评价指标的客观权重系数。

在其中一个实施例中，所述通过所述主观权重系数以及所述客观权重系数，获取各所述数据质量评价指标对应的综合权重系数，包括：

获取所述主观权重系数对应的第一相对重要性程度以及所述客观权重系数对应的第二相对重要性程度；

通过所述第一相对重要性程度、所述第二相对重要性程度、所述主观权重系数以及所述客观权重系数，利用组合赋权法计算所述综合权重系数。

在其中一个实施例中，所述根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，包括：

获取所述变电站数据；

通过改进的K-means算法对所述变电站数据进行聚类，得到多个数据集；

通过数据质量评价算法，计算各数据集的数据质量评价指标的量化值。

在其中一个实施例中，所述通过改进的K-means算法对所述变电站数据进行聚类，得到多个数据集，包括：

获取所述变电站数据中每个数据点的密度、平均距离和权重；

通过所述密度、所述平均距离以及所述权重，对所述变电站数据进行处理得到聚类中心和聚类数；

基于所述聚类中心和聚类数，采用K-means算法对所述变电站数据进行聚类，得到多个数据集。

在其中一个实施例中，所述数据质量评价指标包括变电站数据的准确度、完善度、一致度、及时度、正确度以及冗余度；

其中，所述准确度为根据所述数据集中的数据总数、精度不准确的数据数量、范围不符合阈值的数据数量、数据位无效的数据数量和记录冗余的数据数量确定的；

所述完善度为根据所述数据集中的数据总数、所述数据位无效的数据数量、空数据数量和所述记录冗余的数据数量确定的；

所述一致度为根据所述数据集中的数据总数、所述数据位无效的数据数量、所述记录冗余的数据数量、相同数据参照一致性异常的数据数量和不同数据逻辑一致性异常的数据数量确定的；

所述及时度为根据所述数据集中的数据总数、所述数据位无效的数据数量、所述记录冗余的数据数量和更新不及时的数据数量确定的；

所述正确度为根据所述数据集中的数据总数、所述数据位无效的数据数量、所述记录冗余的数据数量、格式不正确的数据数量和长度不正确的数据数量确定的；

所述冗余度为根据所述数据集中的数据总数、所述数据位无效的数据数量、所述记录冗余的数据数量、每行相同数据的总数量、每列相同数据的总数量确定的。

一种数据质量评价装置，所述装置包括：

指标量化值获取模块，用于根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，所述数据质量评价体系中数据质量评价指标的数量大于预设数量阈值；

赋权模块，用于通过组合赋权法对各所述数据质量评价指标进行赋权，得到各所述数据质量评价指标对应的综合权重系数，所述组合赋权法包括主观赋权法和客观赋权法；

评价结果计算模块，用于通过各所述数据质量评价指标的量化值以及各所述数据质量评价指标对应的综合权重系数，计算得到所述变电站数据的数据质量评价结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述数据质量评价方法、装置、计算机设备和可读存储介质，根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，通过各数据质量评价指标的量化值以及各数据质量评价指标对应的综合权重系数，计算得到所述变电站数据的数据质量评价结果；该方法可以从多维度影响因素来评价数据质量，使得数据质量评价指标更加全面，并且通过组合赋权法对各数据质量评价质量进行赋权得到综合权重系数，减少了赋权的主观随意性，以提高权重系数的准确性，最后通过数据质量评价指标的量化值和数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果，从而提高了数据质量评价结果的准确性。

附图说明

图1为一个实施例中数据质量评价方法的应用环境图；

图2为一个实施例中数据质量评价方法的流程示意图；

图3为一个实施例中计算数据质量评价指标量化值的方法流程示意图；

图4为另一个实施例中数据质量评价指标展示图；

图5为另一个实施例中数据质量评价体系结构示意图；

图6为另一个实施例中对数据质量评价指标进行赋权的方法流程示意图；

图7为另一个实施例中获取综合权重系数的方法流程示意图；

图8为另一个实施例中数据质量评价方法的详细流程示意图；

图9为另一个实施例中变电站数据分类成数据集的数据占比示意图；

图10为一个实施例中数据质量评价装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据质量评价方法，可以适用于如图1所示的应用环境中。该应用环境包括变电站一次设备、变电站二次设备和运维中心。其中，变电站二次设备通过网络分别与变电站一次设备和运维中心通过网络进行通信，实时获取变电站运行过程中的变电站数据，并将变电站数据存储在变电站二次设备中。计算机设备获取到变电站二次设备中的变电站数据后，可以对变电站数据进行数据质量评估，从而通过数据质量评价结果更有效分析变电站的运行状况。变电站一次设备可以为变压器及其附属设备、GIS设备、开关柜设备、接地变压器、站用变压器和动态无功补偿装置，还可以为其它附属设备；变电站二次设备可以为综合自动化设备、一体化电源***和通信设备等；运维中心可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。需要说明的是，本实施例对运维中心的具体形式不做限定。

在一个实施例中，如图2所示，提供了一种数据质量评价方法，以该方法应用于运维中心为例进行说明，包括以下步骤：

S100、根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，数据质量评价体系中数据质量评价指标的数量大于预设数量阈值。

具体的，变电站数据可以表征变电站一次设备在使用过程中产生的相关数据，如变压器的监测数据(三相电压、三相电流、变压器里面的气体含量等等)，还有温度、电压、电流、湿度、功率等等；变电站数据可以通过变电站二次设备测量得到。

为了评价数据质量，可以从变电站数据的多维度影响因素出发选取数据质量评价指标，数据质量评价指标的数量可以大于预设数量阈值，在本实施例中，预设数量阈值可以等于5。该数据质量评价指标可以从数据的重要性、区域性、差异性以及实时性等分析维度，分析数据质量评价的影响因素，因此，上述数据质量评价指标可以为变电站数据的准确度、完善度、一致度、及时度、正确度、冗余度、规范度、可访问性、关联性等等，对此不作限定。

S200、通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，组合赋权法包括主观赋权法和客观赋权法。

具体的，运维中心可以通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数。上述组合赋权法可以包括主观赋权法和客观赋权法，通过组合赋权法对各数据质量评价指标进行赋权，得到最优的权重系数，以提高各数据质量评价指标权重系数的准确性。其中，获取综合权重系数的方法可以为将主观赋权法获取到的权重系数与客观赋权法获取到的权重系数进行组合运算以得到综合权重系数。

S300、通过数据质量评价指标的量化值以及数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果。

具体的，运维中心可以对各数据质量评价指标的量化值与各数据质量评价指标对应的综合权重系数进行组合运算，得到变电站数据的数据质量评价结果。上述组合运算可以为算术运算、对数运算、指数运算、幂运算等等这些运算之间的组合运算，对此不作限定。

上述数据质量评价方法中，根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，通过各数据质量评价指标的量化值以及各数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果；该方法可以从多维度影响因素来评价数据质量，使得数据质量评价指标更加全面，并且通过组合赋权法对各数据质量评价质量进行赋权得到综合权重系数，避免了传统技术中通过单一赋权方法不能够充分考虑到指标的含义和相互关系，使得评价结果与实际不符的问题，通过组合赋权法既体现了决策者对评价指标的偏好，又减少了赋权的主观随意性，以提高权重系数的准确性，最后通过数据质量评价指标的量化值和数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果，从而提高了数据质量评价结果的准确性，使得评价结果真实、可靠，进而保证变电站二次设备的稳定运行。

在一些场景中，为了使得数据质量评价指标更加全面，可以从变电站数据的多维度考虑数据质量评价指标，因此，作为其中一个实施例，如图3所示，上述S100中根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值的步骤，可以通过以下步骤实现：

S110、获取变电站数据。

可以理解的是，运维中心可以从变电站二次设备中获取变电站数据。具体的，运维中心可以获取预设时间段内变电站二次设备中存储的变电站数据，该预设时间段可以为1小时、一周、一个月、两个月，对此时间段不作限定。

其中，变电站一次设备在使用过程中变电站二次设备会实时采集变电站一次设备运行过程中的电参数数据以及运行过程中变电站一次设备中相关设备的温度、所处环境的湿度数据等，并将这些数据存储在变电站二次设备的数据库中。当需要对预设时间段内的变电站数据进行质量评价时，可以直接从变电站二次设备中的数据库中提取出来，即获取到预设时间段内的变电站二次设备的数据。

S120、通过改进的K-means算法对变电站数据进行聚类，得到多个数据集。

具体的，上述变电站数据可以理解为一个大数据集。变电站数据具有规模大、密度低等特征，所以在变电站数据的质量评估之前，需要采用聚类算法将高维的变电站数据进行分类处理得到多个数据集，进而在海量数据中提取有价值的数据，从而实现降维以降低算法复杂度，因此，运维中心可以通过改进的K-means算法对变电站数据进行聚类，将变电站数据分成多个数据集。改进的K-means算法可以为基于优化聚类中心的K-means算法，还可以为基于剔除异常数据的K-means算法，当然，还可以为基于数据预处理的K-means算法。在本实施例中，改进的K-means算法可以为基于距离和权重加权改进的K-means算法。

其中，上述S120中通过改进的K-means算法对变电站数据进行聚类，得到多个数据集的步骤，具体可以包括：获取变电站数据中每个数据点的密度、平均距离和权重，通过密度、平均距离以及权重，对变电站数据进行处理得到聚类中心和聚类数，基于聚类中心和聚类数，采用K-means算法对变电站数据进行聚类，得到多个数据集。

设变电站数据为集合D，D中有n个数据点(即样本点)，即D＝{x₁,x₂,…,x_i,…,x_n}，其中每个样本点可以表示为x_i＝{x_i1,x_i2,…,x_im}，1≤i≤n，每个样本点的维度可以为m。在本实施例中，可以先计算集合D中每个样本点的密度、平均距离和权重，选择第一个密度最大的样本点作为初始聚类中心，将集合D中距离初始聚类中心小于样本平均距离Meandist(D)的样本点删除，计算删除处理后集合D中剩余的每个样本点的参数τ_i，选取最大的参数τ_i作为第二个聚类中心，将删除处理后的集合D中，距离初始聚类中心小于样本平均距离Meandist(D)的样本点删除，重复上述步骤，直到集合D中仅剩一个样本点为止，之后将得到的聚类中心和聚类簇的数量继续带入到传统的K-means算法中，直到聚类中心不再变化，该过程中涉及到的参数计算过程如下：

(1)计算每个样本点的距离权值ω_id，公式可以表示为：

(2)计算两两样本点之间的加权欧式距离d_ω(x_i,x_j)，公式可以表示为：

式(2)中x_id、x_jd分别是在第d维空间下的第i和第j个数据点，d_ω(x_i,x_j)表示x_id和x_jd在第d维空间下的第i和第j个数据点的加权欧式距离。

(3)计算变电站数据D的平均样本距离Meandist(D)，公式可以表示为：

(4)计算变电站数据D中样本点x_i的密度ρ(i)，公式可以表示为：

式(4)中，函数

ρ(i)表示样本点x_i在以平均样本距离Meandist(D)为半径的条件下可以包含的样本点数量。

(5)计算以每个样本点x_i为圆心，平均样本距离Meandist(D)为半径的圆内所包含样本点数量的平均距离a_i，公式可以表示为：

(6)计算类簇之间的距离，具体如：

若样本点x_i不是密度最大的样本点，则类簇的距离是样本点与类簇之中最小的距离，即s_i＝min(d_w(x_i,x_j))；若样本点x_i是密度最大的样本点，则定义类簇的距离是类簇中最大的距离，即s_i＝max(d_w(x_i,x_j))。

(7)计算样本点x_i的权重ω_i，公式可以表示为：

(8)计算参数τ_i，公式可以表示为：

τ_i＝ω_i·d_w(x_i,c_i-1) (7)；

式(7)中，d_w(x_i,c_i-1)表示样本点x_i与上一个聚类中心c_i-1之间的距离，参数τ_i表示下一个待选择样本点到上一个聚类中心点的距离和权重，其中，距离越远、权重越大、参数τ_i就越大，聚类中心在该样本点附近产生的概率越高，更能体现电力信息的全局特征。本实施例对变电站数据进行聚类，以实现将高维变电站数据处理成低维数据，从而能够降低数据质量评价算法的运算量，进一步提高数据质量评价算法的效率。

S130、通过数据质量评价算法，计算各数据集的数据质量评价指标的量化值。

在本实施例中，如图4所示，数据质量评价指标包括变电站数据的准确度、完善度、一致度、及时度、正确度以及冗余度；

准确度为根据数据集中的数据总数、精度不准确的数据数量、范围不符合阈值的数据数量、数据位无效的数据数量和记录冗余的数据数量确定的；

完善度为根据数据集中的数据总数、数据位无效的数据数量、空数据数量和记录冗余的数据数量确定的；

一致度为根据数据集中的数据总数、数据位无效的数据数量、记录冗余的数据数量、相同数据参照一致性异常的数据数量和不同数据逻辑一致性异常的数据数量确定的；

及时度为根据数据集中的数据总数、数据位无效的数据数量、记录冗余的数据数量和更新不及时的数据数量确定的；

正确度为根据数据集中的数据总数、数据位无效的数据数量、记录冗余的数据数量、格式不正确的数据数量和长度不正确的数据数量确定的；

冗余度为根据数据集中的数据总数、数据位无效的数据数量、记录冗余的数据数量、每行相同数据的总数量、每列相同数据的总数量确定的。

具体的，将数据质量评价体系可以分为五层，如图5所示，分别为数据层、方法层、准则层、指标层和评价层；数据层包括变电站二次设备采集到的变电站数据，方法层包括对指标层进行主客观赋权，准则层包括对评价指标层，每个指标有一个或者多个准则评价，指标层包括计算数据质量评价指标，评价层包括对变电站数据进行数据质量评价。本实施例可以通过指标层实现数据质量评价。运维中心可以计算每个数据集对应的这六个数据质量评价指标的量化值，每个数据集对应的数据质量评价指标的量化值可以相同，也可以不相同。运维中心对变电站数据进行分类后，可以得到多个数据集，进而通过数据质量评价算法计算各数据集的数据质量评价指标的量化值。数据质量评价算法可以理解为一种评价指标计算方法，即通过影响数据质量评价指标的一个或多个影响参数值进行计算得到数据质量评价指标的方法，影响参数可以根据具体数据质量评价指标确定，对此不作限定。

其中，运维中心通过数据质量评价算法计算各数据集的数据质量评价指标量化值的具体过程如下：

(1)准确度：

由于数据的精度和数据的范围都影响数据的准确度，所以数据集的准确度量化值的计算方法可以通过公式表示为：

式(8)中，S为数据集中的数据总数，S_B12为数据集中精度不准确的数据数量，S_B11为数据集中范围不符合阈值的数据数量，S_B21为数据集中数据位无效的数据数量，S_B61为数据集中记录冗余的数据数量。

根据变电站的运维要求，可以设置各数据集对应的最大数据阈值和最小数据阈值，以获取数据的范围不在最大数据阈值和最小数据阈值之间的数据数量S_B11；本实施例可以规定数据的小数点后有效位数据的位数，进而统计数据位无效的数据数量S_B21。

(2)完善度：

变电站在数据采集、数据传输和数据接收等过程中，会造成数据缺失和数据无效等情况，因此，数据的完善度可以表征数据集中的数据记录完善和数据完善，也就是受两个参数影响，即数据集中空数据数量S_B21和数据位无效(null)的数据数量S_B22，所以数据集的完善度量化值的计算方法可以通过公式表示为：

(3)一致度：

一方面，在邻近的时刻，同类数据一般不会产生很大的数据波动，即称为为相同数据参照一致；另一方面，不同数据同一时刻在数学上有一定的逻辑，表现为不同数据类型的逻辑一致；因此，数据集的一致度可以表征同类数据和某一时刻的数据是否存在偏离。

设数据集中，有N个不同类型的数据，即数据集表示为X＝{X₁,X₂,…,X_i,…,X_N}，其中X_i含有N个数据点X_i＝{x_i1,x_i2,…,x_iN}。

A、相同类型数据参照的一致检验：

先在坐标轴上将同类数据绘制成离散的点图，即离散图，然后用最小二乘法将这些离散的点进行拟合，具体可以使用多项式模型拟合得到y＝a₀+a₁x₁+…+a_nx_n，其中a₀、a₁、...、a_n为待定系数，在用拟合出来的模型预测同一数据类型的其它值，求偏离序列为：

其中，y_i、

分别为指标y的第i个实际值与拟合值；设置最小偏离容忍度K_c，如果|B_i|>K_c，则认为该数据为异常数据点，依次判断直到完成变电站数据相同数据参照一致性的检验。

B、不同类型数据逻辑一致性检验：

通过多元回归分析对数据集中每行数据建立回归方程，利用回归方程的结果与真实值的偏离度大小完成不同数据逻辑一致性的检验；选取某一类型的数据为自变量，其它数据为因变量，绘制因变量与各自变量离散图，根据离散图确定变量与因变量的之间关系，确定回归方程，如下：

借助回归方程对因变量进行预测，并求其偏离度，设置最小行偏离容忍度为K_r，如果|B_i|>K_r时，则认为该数据为异常点，依次判断直到完成智能变电站不同类型数据逻辑一致性的检验。通过检测相同数据的参照的一致性和检测不同数据逻辑一致性，把检测出来的问题数据统计，所以数据集的一致性量化值可以通过以下公式表示为：

其中，S_B31为数据集中相同数据参照一致性异常数据的数量，S_B32为数据集中不同数据逻辑一致性异常数据的数量。

示例性的，变压器的三相电压中其中一相电压，在t-1，t，t+1三个时刻所对应的电压值不可能产生很大的数据波动，这可以称为相同类型数据参照一致；变压器输出的电压与电流，都会存在一定的数学关系，如直流电流中R＝U/I一样，这可以称为不同类型数据逻辑一致。

(4)及时度：

变电站内各设备的数据来源具有唯一性，各设备会在预设时间点更新数据，若实际更新时间点与预设更新时间点不同，表示数据集中的数据更新不及时；根据变电站的运行状况，可以设置一个最大时间阈值，若一个数据的实际更新时间点与该数据预设更新时间点的差值大于最大时间阈值，视为该数据更新不及时；因此，数据的及时度主要表征在数据采集之后，经过数据传输和数据接收所用的时间是否能够满足变电站二次设备的要求，也就是数据集的更新是否及时，所以数据集的及时性量化值可以通过以下公式表示为：

其中，S_B41为数据集中更新不及时的数据数量。

(5)正确度：

数据集的正确度可以通过数据格式不正确和数据长度不正确这两个因素衡量。如数据的格式有“％”、“/”和数字小数点等，如45％、45/100和0.45等格式，在本实施例中，可以根据实际需求选择一种格式作为衡量标准，统计出不符合标准格式要求的数据数量，并且可以根据实际需求统计出不符合标准长度要求的数据数量，数据集的正确度量化值可以通过以下公式表示为：

其中，S_B51为数据集中格式不正确的数据数量，S_B52为数据集中长度不正确的数据数量。

(6)冗余度：

数据集的冗余度可以表征数据集中是否存在重复的数据，与参照数据集对比是否存在相同的数据，也就是冗余度包括与参照数据集相比的记录冗余和数据集的数据冗余。

A、与参照数据集相比的记录冗余：

由于在变电站采集数据时有两套检测装置，所以在实际情况下可以生成两个数据集，把一个数据集作为参照数据集，用于获取是否有重复记录的情况，统计重复数据的数量S_B61。

B、数据集的数据冗余：

数据冗余主要就是检测每行和每列数据是否相同，记录每行和每列数据相同的数量是否超过阈值，统计重复的数据的数量S_B62。因此，数据集的冗余度量化值可以通过以下公式表示为：

其中，S_B621为数据集中每行相同数据的总数量，S_B622为数据集中每列相同数据的总数量。

上述数据质量评价方法中，可以获取变电站数据的多个数据质量评价指标，使得数据质量评价指标更加全面，通过更全面的数据质量评价指标评价数据质量，进一步能够提高数据质量评价结果的准确性，使得评价结果真实、可靠，进而保证了变电站二次设备的稳定运行。

作为其中一个实施例，如图6所示，上述S200中通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数的步骤，可以通过以下步骤实现：

S210、采用序关系法对各数据质量评价指标进行主观赋权，得到各数据质量评价指标的主观权重系数。

具体的，运维中心可以采用主观赋权法对各数据质量评价指标进行主观赋权，得到各数据质量评价指标的主观权重系数。上述主观赋权法可以为二项系数法、层次分析法、专家调查法等，对此不作限定。在本实施例中，运维中心可以采用序关系法对各数据质量评价指标进行主观赋权，得到各数据质量评价指标的主观权重系数。

其中，上述S210中采用序关系法对各数据质量评价指标进行主观赋权，得到各数据质量评价指标的主观权重系数的步骤，具体可以包括：对各数据质量评价指标的重要性进行排序得到重要性序列，对各数据质量评价指标进行赋权得到各数据质量评价指标的初始权重系数，根据重要性序列以及初始权重系数计算权重评价标度，根据权重评价标度确定各数据质量评价指标的主观权重系数。

假设有n个数据质量评价指标，对于数据质量评价指标集T(T＝{T₁,T₂,…,T_n})，首先通过专家的意见和运行要求，按照重要性对n个数据质量评价指标进行排序，例如T_i>T_j>…>T_k；其次确定数据质量评价指标T_i的初始权重系数W_i与在重要性程度上相邻的数据质量评价指标T_j的初始权重系数W_j的比值，即权重评价标度r_i＝W_i/W_j，r_i先由专家独自判断然后取平均值，若数据质量评价指标在数值上同等重要，则取r_i＝1：最后根据权重系数的评价标度确定数据质量评价指标的主观权重系数：

其中，r_i为权重评价标度，W_j为第j个数据质量评价指标的主观权重系数。

S220、采用变异系数法对各数据质量评价指标进行客观赋权，得到各数据质量评价指标的客观权重系数。

具体的，运维中心可以采用客观赋权法对各数据质量评价指标进行客观赋权，得到各数据质量评价指标的客观权重系数。上述客观赋权法可以为主成分分析法、离差及均方差法、多目标规划法等，对此不作限定。在本实施例中，运维中心可以采用变异系数法对各数据质量评价指标进行客观赋权，得到各数据质量评价指标对应的客观权重系数。

其中，上述S220中采用变异系数法对各数据质量评价指标进行客观赋权，得到各数据质量评价指标的客观权重系数的步骤，具体可以包括：根据各所述数据质量评价指标的量化值，获取各数据质量评价指标的平均值和标准差，通过平均值和标准差计算各数据质量评价指标的客观权重系数。

设由n个数据质量评价指标，m个数据集构成m×n的判断矩阵U＝(u_ij)_m×n，其中u_ij是第i个数据集的第j个数据质量评价指标的量化值，生成的客观权重系数ω为ω＝{ω₁,ω₂,…,ω_k,…,ω_n}。首先计算第k个数据质量评价指标量化值的平均值P_k和标准差δ_k：

其中，j＝1,2,…,n；i＝1,2,…,m。

再根据平均值P_j和标准差δ_j计算出第j个数据质量评价指标量化值的变异系数z_j：

最后利用变异系数法得出第j个数据质量评价指标量化值的客观权重系数ω_k：

S230、通过主观权重系数以及客观权重系数，获取各数据质量评价指标对应的综合权重系数。

具体的，运维中心可以通过主观权重系数和客观权重系数进行组合运算，得到各数据质量评价指标对应的综合权重系数。组合运算可以为加法运算、减法运算、乘法运算或者除法运算，还可以为这些运算中的任意多种组合运算，当然，还可以为加权求和运算，具体的权重系数可以为自定义设置，也可以根据具体的算法计算求得。

上述数据质量评价方法通过主观赋权法和客观赋权法，综合对各数据质量评价指标赋权，并将主观权重系数和客观权重系数组合得到综合权重系数，既体现了决策者对评价指标的偏好，又减少了赋权的主观随意性，从而提高权重系数的准确性，进一步通过数据质量评价指标的量化值和数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果，提高了数据质量评价结果的准确性，使得评价结果真实、可靠。

其中，如图7所示，上述S230中通过客观权重系数以及主观权重系数，获取各数据质量评价指标对应的综合权重系数的步骤，具体可以包括：

S231、获取主观权重系数对应的第一相对重要性程度以及客观权重系数对应的第二相对重要性程度。

设主观权重系数对应的第一相对重要性程度为α，客观权重系数对应的第二相对重要性程度为β，由n个数据质量评价指标，m个数据集构成m×n的判断矩阵U＝(u_ij)_m×n，其中u_ij是第i个数据集的第j个数据质量评价指标的量化值，则主观权重系数对应的第一相对重要性程度α和客观权重系数对应的第二相对重要性程度β可以通过以下公式得到，即：

S232、通过第一相对重要性程度、第二相对重要性程度、主观权重系数以及客观权重系数，利用组合赋权法计算综合权重系数。

进一步地，运维中心可以通过第一相对重要性程度、第二相对重要性程度、主观权重系数和客观权重系数进行加权求和，得到综合权重系数。在本实施例中，通过第一相对重要性程度、第二相对重要性程度、主观权重系数和客观权重系数，并利用组合赋权法计算综合权重系数，计算综合权重系数具体的公式如下：

U_j＝αW_j+βω_j (23)；

其中，U_j为第j个数据质量评价指标的综合权重系数，变异系数法确定的客观权重为ω₁,ω₂,…,ω_k,…,ω_n，序关系法确定的主观权重W₁,W₂,…,W_k,…,W_n。

进一步地，运维中心可以对各数据质量评价指标的量化值与各数据质量评价指标对应的综合权重系数相乘后再求和，得到变电站数据的数据质量评价结果A_S，通过公式可以表示为：

上述数据质量评价结果可以表现为百分制的分数形式。其中，根据变电站的运维要求，设置数据质量评价结果的层次区间。如由于数据质量评价结果的得分为百分制，所以根据变电站的运维需求可以把百分制进行划分为“优、良好、一般、及格、差、极差”六个等级，如设定A∈[0,30]，则变电站数据的数据质量评价结果为“极差”；A∈[30,60]，则变电站数据的数据质量评价结果为“差”；A∈[60,75]，则变电站数据的数据质量评价结果为“及格”；A∈[75,85]，则变电站数据的数据质量评价结果为“一般”；A∈[85,95]，则变电站数据的数据质量评价结果为“良好”；A∈[95,100]，则变电站数据的数据质量评价结果为“优秀”。因此，本实施例可以根据得出的数据质量评价结果，评估其数据质量所在“优、良好、一般、及格、差、极差”中的层次。

为了便于本领域技术人员的理解，具体的，如图8所示，该方法包括：

S401、根据实际情况和业务要求，建立数据质量评价体系中多维数据质量评价指标；

S402、获取变电站二次设备采集到的变电站数据；

S403、用改进K-means算法对变电站数据进行聚类，得到多个数据集；

S404、利用指标评价算法，计算各数据集对应的数据质量评价指标的量化值；

S405、结合专家意见，给出数据质量评价指标重要度排序，并给出权重系数评价标度；

S406、用序关系法对各数据质量评价指标进行主观赋权，得到主观权重系数；

S407、根据数据质量评价指标的量化值计算数据质量评价指标的平均值和标准差；

S408、通过平均值和标准差计算各数据质量评价指标客观权重系数；

S409、根据主客观权重系数偏差平方和最小与决策方法评价值最大，对各数据质量评价指标进行综合赋权，得到综合权重系数；

S410、利用各数据质量评价指标的量化值和对应的综合权重系数，计算数据质量评价结果；

S411、根据数据质量评价结果得到变电站数据质量。

以上S401至S411的执行过程具体可以参见上述实施例的描述，其实现原理和技术效果类似，在此不再赘述。

示例性的，搭建仿真模型，并在获取到的仿真数据中，选取2000组数据作为样本数据(即变电站数据)，即得到一个2000×2的数据矩阵。采用上述实施例中的方法对变电站数据质量进行评价，具体可以为：

(1)基于距离和权重加权的K-means算法对变电站数据进行预处理：

首先对变电站数据进行归一化处理，得到无量纲的数据，然后采用距离和权重加权K-means算法的对无量纲的数据进行降维处理，共得到两个聚类中心，聚类后得到的两个数据集所占的数据比例为57％和43％，如图9所示。

(2)数据质量评价指标的量化值计算：

a、准确度量化值。根据变电站数据特征，设置了电压和电流正常值范围为U∈[67,10]，I∈[0,16]，检测小数点后面四位有效数字为标准数值，所得到数据集中不准确的数据数量S_B12＝56，数据集中范围不符合阈值的数据数量S_B11＝34。

b、完善度量化值。根据对各个数据集中空数据的检测和数据位无效(null)的检测，其空数据和数据位无效的数据数量分别为S_B21＝0，S_B22＝29。

c、一致度量化值。由于变电站数据经过数据聚类之后，把变电站数据分为了两个数据集，分别对这两个数据集进行一致度检验。设置同类数据偏离容忍度K_c＝0.1，不同类数据的偏离容忍度K_r＝0.2。分别对两个数据集的一致性检测之后，可以得到数据集中相同数据参照一致性异常个数S_B31＝39，不同数据逻辑一致性异常个数S_B32＝36。

d、及时度量化值。由于仿真***每2秒会自动上传数据，设置最大时间阈值为0.05s，根据数据的实际更新时间点与预期更新时间点间的差值大于0.05s的数量S_B41＝75。

e、选用小数点为正确方式，经过正确性检测后，数据集中数据格式不正确的数量S_B51＝50，数据集中数据长度不正确的数量S_B52＝86。

f、经过与另一参照数据集相比，记录冗余S_B61＝0，设置行阈值和列阈值都为15，经数据冗余检测后，数据集中每行相同数据的总数量为S_B621＝13，数据集中每列相同数据的总数量S_B622＝11。

通过上述实施例中的方法计算：准确度量化值S_B1＝0.9551，完善度量化值S_B2＝0.9857，一致度量化值S_B3＝0.9633，及时度量化值S_B4＝0.9622，正确度量化值S_B5＝0.9323，冗余度量化值S_B6＝0.9876。

通过计算出来的准确度量化值得出，变电站数据的正确度比较低，但是总体上变电站数据的质量水平比较高。

(3)组合赋权法进行赋权：

a、基于序关系法的主观赋权。邀请了5位专家对数据质量评价指标的重要性程度进行了商讨并对指标评价标度进行打分。数据质量评价指标的重要性程度可以表示为：准确性(B₁)>一致性(B₃)>完善性(B₂)>正确性(B₅)>及时性(B₄)>冗余度(B₆)，取五个专家的指标评价标度取平均值，最后得到r₁＝3，r₃＝4，r₂＝2，r₅＝4，r4＝2。计算得到的主观权重系数，如表1所示。

b、根据变异系数法得到评价矩阵，可得客观赋权法的客观权重系数，如表1所示。

c、根据主客观权重系数偏差平方和最小化和决策方案综合评价值最大化的原则，可得主观权重系数的相对重要性程度为α＝0.6142，客观权重系数的相对重要性程度为β＝0.3854，组合权重系数如表1所示。

表1

	主观权重系数	客观权重系数	组合权重系数
				准确度	0.1599	0.6784	0.3597
完善度	0.0536	0.0565	0.0547
				一致度	0.3324	0.2261	0.2915
及时度	0.0460	0.0071	0.0310
				正确度	0.3172	0.0283	0.2059
冗余度	0.0908	0.0035	0.0572

(4)计算数据质量评价结果：

根据数据质量评价指标的量化值和对应的综合权重系数，可以得到变电站二次设备数据质量的得分

由于数据质量的等级区间可以根据变电站二次设备各自的实际情况自由划分，若采用上述实施例设定的区间，由于96.2988∈[95,100]，所以该变电站二次设备数据质量为“优秀”。

上述数据质量评价方法可以将主观赋权法和客观赋权法结合在一起，通过组合赋权法对各数据质量评价质量进行赋权得到综合权重系数，避免了传统技术中通过单一赋权方法不能够充分考虑到指标的含义和相互关系，使得评价结果与实际不符的问题，通过组合赋权法既体现了决策者对评价指标的偏好，又减少了赋权的主观随意性，以提高权重系数的准确性，进一步提高数据质量评价结果的准确性，使得评价结果真实、可靠，进而保证变电站二次设备的稳定运行。

应该理解的是，虽然图2、3、6-8的流程图中的各步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、6-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种数据质量评价装置，包括：指标量化值获取模块11、赋权模块12和评价结果计算模块13，其中：

指标量化值获取模块11，用于根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，数据质量评价体系中数据质量评价指标的数量大于预设数量阈值；

赋权模块12，用于通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，组合赋权法包括主观赋权法和客观赋权法；

评价结果计算模块13，用于通过各数据质量评价指标的量化值以及各数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果。

本实施例提供的数据质量评价装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在其中一个实施例中，赋权模块12包括：主观赋权单元、客观赋权单元和综合权重计算单元，其中，

主观赋权单元，用于采用序关系法对各数据质量评价指标进行主观赋权，得到各数据质量评价指标的主观权重系数；

客观赋权单元，用于采用变异系数法对各数据质量评价指标进行客观赋权，得到各数据质量评价指标的客观权重系数；

综合权重计算单元，用于通过主观权重系数以及客观权重系数，获取各数据质量评价指标对应的综合权重系数。

在其中一个实施例中，主观赋权单元包括：排序子单元、赋权子单元、评价标度计算子单元和主观权重计算子单元，其中，

排序子单元，用于对各数据质量评价指标的重要性进行排序，得到重要性序列；

赋权子单元，用于对各数据质量评价指标进行赋权，得到各数据质量评价指标的初始权重系数；

评价标度计算子单元，用于根据重要性序列以及初始权重系数，计算权重评价标度；

主观权重计算子单元，用于根据权重评价标度确定各数据质量评价指标的主观权重系数。

在其中一个实施例中，客观赋权单元包括：第一计算子单元和客观权重计算子单元，其中：

第一计算子单元，用于根据各所述数据质量评价指标的量化值，获取各数据质量评价指标的平均值和标准差；

客观权重计算子单元，用于通过平均值和标准差，计算各数据质量评价指标的客观权重系数。

在其中一个实施例中，综合权重计算单元包括：第二计算子单元和第三计算子单元，其中：

第二计算子单元，用于主获取观权重系数对应的第一相对重要性程度以及客观权重系数对应的第二相对重要性程度；

第三计算子单元，用于通过第一相对重要性程度、第二相对重要性程度、主观权重系数以及客观权重系数，利用组合赋权法计算综合权重系数。

在其中一个实施例中，指标量化值获取模块11包括：变电站数据获取单元、聚类单元和指标量化值计算子单元，其中，

获取变电站数据；

通过改进的K-means算法对变电站数据进行聚类，得到多个数据集；

在其中一个实施例中，聚类单元包括：第四计算子单元、数据处理子单元和聚类子单元，其中，

第四计算子单元，用于获取变电站数据中每个数据点的密度、平均距离和权重；

数据处理子单元，用于通过密度、平均距离以及权重，对变电站数据进行处理得到聚类中心和聚类数；

聚类子单元，用于基于聚类中心和聚类数，采用K-means算法对变电站数据进行聚类，得到多个数据集。

在其中一个实施例中，数据质量评价指标包括变电站数据的准确度、完善度、一致度、及时度、正确度以及冗余度；

其中，准确度为根据数据集中的数据总数、精度不准确的数据数量、范围不符合阈值的数据数量、数据位无效的数据数量和记录冗余的数据数量确定的；

关于数据质量评价装置的具体限定可以参见上文中对于数据质量评价方法的限定，在此不再赘述。上述数据质量评价装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储变电站数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据质量评价方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，数据质量评价体系中数据质量评价指标的数量大于预设数量阈值；

通过组合赋权法对各数据质量评价指标进行赋权，得到各数据质量评价指标对应的综合权重系数，组合赋权法包括主观赋权法和客观赋权法；

通过各数据质量评价指标的量化值以及各数据质量评价指标对应的综合权重系数，计算得到变电站数据的数据质量评价结果。

在一个实施例中，提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来质量相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据质量评价方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过组合赋权法对各所述数据质量评价指标进行赋权，得到各所述数据质量评价指标对应的综合权重系数，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用序关系法对各所述数据质量评价指标进行主观赋权，得到各所述数据质量评价指标的主观权重系数，包括：

4.根据权利要求2所述的方法，其特征在于，所述采用变异系数法对各所述数据质量评价指标进行客观赋权，得到各所述数据质量评价指标的客观权重系数，包括：

5.根据权利要求2所述的方法，其特征在于，所述通过所述主观权重系数以及所述客观权重系数，获取所述数据质量评价指标对应的综合权重系数，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述根据变电站数据获取数据质量评价体系中各数据质量评价指标的量化值，包括：

获取所述变电站数据；

7.根据权利要求6所述的方法，其特征在于，所述通过改进的K-means算法对所述变电站数据进行聚类，得到多个数据集，包括：

8.根据权利要求6所述的方法，其特征在于，所述数据质量评价指标包括变电站数据的准确度、完善度、一致度、及时度、正确度以及冗余度；

9.一种数据质量评价装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。