CN112633679A

CN112633679A - 信息质量量化方法、装置、计算机设备和存储介质

Info

Publication number: CN112633679A
Application number: CN202011523318.XA
Authority: CN
Inventors: 孟令雯; 徐长宝; 席禹; 林呈辉; 高吉普; 陈浩敏; 汪明媚; 范强; 古庭赟
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd; Electric Power Research Institute of Guizhou Power Grid Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd; Electric Power Research Institute of Guizhou Power Grid Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-09

Abstract

本申请涉及一种信息质量量化方法、装置、计算机设备和存储介质。所述方法包括：获取预设时间段内的变电站二次***的数据，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，以及每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。采用本方法能够提高信息质量量化的准确度和效率。

Description

信息质量量化方法、装置、计算机设备和存储介质

技术领域

本申请涉及信息质量评价技术领域，特别是涉及一种信息质量量化方法、装置、设备和存储介质。

背景技术

随着日常生活和生产制造中的用电需求持续增加、电力***的飞速发展，智能变电站的使用更加普遍，从而导致智能变电站二次***采集的数据信息量也持续增长。因此，在厂站端运行维护人员需要对智能变电站进行数据信息维护时，需要采用有价值的数据信息作为运行维护的判断依据，这就需要对智能变电站二次***中海量的数据信息进行质量评价，得出有价值的数据信息。

现有技术中对于智能变电站二次***中的数据信息进行质量评价时，通常为专家根据经验对数据信息进行赋权评估，进而得到数据信息质量等级。

然而，现有技术中的信息质量评价方法具有评价效率低和准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够高效且准确评价信息质量的信息质量量化方法、装置、计算机设备和存储介质。

第一方面，本申请提供一种信息质量量化方法，该方法包括：

获取预设时间段内的变电站二次***的数据；

采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集；

根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比；

根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。

在其中一个实施例中，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集，包括：

获取数据的聚类特征；

根据聚类特征计算第一均值距离和第二均值距离；第一均值距离为聚类簇中所有点到中心点的均值距离，第二均值距离为聚类簇中任意两点之间的均值距离；

根据聚类簇中样本点的归属程度、聚合度、第一均值距离和第二均值距离，构建混合蛙跳算法的适应度函数；

对混合蛙跳算法的适应度函数进行最大值求解，得到多个数据集。

在其中一个实施例中，至少两个预设评价指标包括准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标中的至少两个。

在其中一个实施例中，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，包括以下指标中的至少两项：

根据每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数，计算准确度指标的占比；

根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数和空数据的个数，计算完整度指标的占比；

根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数、空数据个数和延迟更新的数据个数，计算及时度指标的占比；

根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到冗余度指标的占比；

根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比。

在其中一个实施例中，根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到冗余度指标的占比，包括：

根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数，计算记录冗余度占比；

根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、每行的相同数据个数、每列的相同数据个数，计算数据冗余占比。

在其中一个实施例中，根据每个数据集中数据总数、数据位无效个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比，包括：

获取每个数据集中相同种类的数据；

通过最小二乘法对每个数据集中相同种类的数据进行拟合，得到偏离序列；

将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为相同数据参照一致性的异常个数；

将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据自变量和因变量之间的关系，确定回归方程；

通过回归方程，得到自变量数据的偏离序列；

将偏离序列中小于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。

在其中一个实施例中，信息质量量化方法还包括：

获取每个评价指标的主观权重和客观权重；

根据每个评价指标的主观权重和客观权重，确定每个评价指标的目标权重。

在其中一个实施例中，获取每个评价指标的主观权重，包括：

将各评价指标进行两两比较，构建判断矩阵；

获取判断矩阵的最大特征值对应的特征向量；

对特征向量进行归一化处理，得到每个评价指标的主观权重。

在其中一个实施例中，信息质量量化方法还包括：

根据最大特征值和判断矩阵的阶数，确定一致性指标的值；

根据判断矩阵的阶数，查找随机一致性指标对照表，确定判断矩阵的随机一致性指标的值；

根据一致性指标的值和随机一致性指标的值，得到一致性比例；

将一致性比例与预设比例阈值进行比较；

若一致性比例小于预设比例阈值，则重新调整判断矩阵。

第二方面，本申请提供一种信息质量量化装置，装置包括：

第一获取模块，用于获取预设时间段内的变电站二次***的数据；

聚类模块，用于采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集；

分析模块，用于根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比；

第二获取模块，用于根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。

第三方面，本申请提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一项实施例中方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一项实施例中方法的步骤。

上述信息质量量化方法、装置、计算机设备和存储介质，通过获取预设时间段内的变电站二次***的数据，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，以及每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。采用本方法均由终端进行，将变电站二次***中的数据进行聚类，得到不同聚类结果的数据集，并针对各个数据集去计算各数据集在不同评价指标下的数据占比，同时计算各个评价指标对应的目标权重，结合数据占比和目标权重得到信息质量量化值，根据该量化值可以得到准确的信息质量量化值，提高了信息质量量化的准确度和效率。

附图说明

图1为一个实施例中信息质量量化方法的应用环境图；

图2为另一个实施例中信息质量量化方法的流程示意图；

图3为另一个实施例中信息质量量化方法的流程示意图；

图4为另一个实施例中信息质量量化方法的流程示意图；

图5为另一个实施例中信息质量量化方法的流程示意图；

图6为另一个实施例中信息质量量化方法的流程示意图；

图7为另一个实施例中信息质量量化方法的流程示意图；

图8为另一个实施例中信息质量量化方法的流程示意图；

图9为一个实施例中信息质量量化装置的结构框图；

图10为一个实施例中信息质量量化装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的信息质量量化方法，可以应用于如图1所示的应用环境中。该应用环境包括变电站11和变电站的二次***12。其中，变电站的二次***12通过网络与变电站11通过网络进行通信，实时获取变电站运行过程中的数据信息，并将数据信息存储在终端的变电站二次***中，通过获取变电站二次***中的数据信息，对数据信息进行分类量化，分析数据信息的质量，得出有价值的数据信息。

在一个实施例中，如图2所示，提供了一种信息质量量化方法，该方法包括以下步骤：

S202，获取预设时间段内的变电站二次***的数据。

其中，预设时间段是指需要分析的变电站二次数据产生的时间段，可以是一周、一个月、两个月，在此不加以限制。其中，变电站二次***的数据是指变电站在使用过程中，产生的相关数据，可以是温度、电压、电流、湿度等等，在此不加以限制。

具体地，变电站在使用过程中变电站的二次***会实时采集变电站运行过程中的电参数数据以及运行过程中变电站中相关设备的温度、所处环境的湿度数据等，并将这些数据存储在变电站二次***的数据库中。当需要对预设时间段内的数据进行评价时，可以直接从变电站二次***中的数据库中提取出来，即获取到预设时间段内的变电站二次***的数据。

S204，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集。

具体地，获取到预设时间段内的变电站二次***的数据后，可以对数据进行初始化和向量化，得到聚类样本，随机选取一组聚类样本作为原中心点集，将中心点集中的各个样本点作为中心点，并按照中心点划分聚类簇。计算每个聚类簇中的各样本点到各中心点的距离，将样本点放入距离中心点最近的聚类簇中，计算各聚类簇中各样本点两两之间距离，将各样本点两两之间距离的绝对误差最小的点更新为中心点，若更新后中心点集与原中心点集完全相同，算法停止，输出聚类结果，即得到多个数据集。

S206，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比。

其中，预设评价指标是指用户可以根据数据重要性、区域性、差异性、实时性等分析纬度分析数据评价的影响因素，选取数据的准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标等作为评价指标。可选地，至少两个预设评价指标包括准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标中的至少两个。

示例地，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，可以是，根据准确度指标、完整度指标对每个数据集进行量化分析，得到每个数据集在准确度指标、完整度指标的数据占比；也可以是根据准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标对每个数据集进行量化分析，得到每个数据集在准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标下的占比，在此不加以限制。

S208，根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。

其中，每个目标权重可以是对每个评价指标进行主观赋权后，得到的各个评价指标对应的权重，也可以是对每个评价指标进行客观赋权后，得到的各个指标对应的权重，还可以是经过主观赋权的方式结合客观赋权的方式，得到各个评价指标经过综合赋权得到的权重，在此不加以限制。

具体地，根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值，可以根据公式

计算，其中，C_Ri为每个数据集在每个评价指标下的数据占比；C_Wi为每个评价指标的目标权重，n为n个评价指标。

可选地，基于业务应用的需要，可以根据得出的数据质量评价得分，评估其信息质量所在“I、II、III、VI、V”级中的层次。其中，若质量得分A_S∈(0,60]，则评定该评估数据对象的数据质量水平为“V”级；若A_s∈(60,70]，则评定该评估数据对象的数据质量水平为“VI”级；若A_s∈(70,80]，则评定该评估数据对象的数据质量水平为“III”级；若A_s∈(80,90]，则评定该评估数据对象的数据质量水平为“II”级；若A_s∈(90,100]，则评定该评估数据对象的数据质量水平为“I”级。

在本实施例中，通过获取预设时间段内的变电站二次***的数据，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，以及每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。采用本方法将变电站二次***中的数据进行聚类，得到不同聚类结果的数据集，并针对各个数据集去计算各数据集在不同评价指标下的数据占比，同时计算各个评价指标对应的目标权重，结合数据占比和目标权重得到信息质量量化值，根据该量化值可以得到准确的信息质量量化值，提高了信息质量量化的准确度和效率。

在一个实施例中，如图3所示，采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集，包括：

S302，获取数据的聚类特征。

具体地，获取到变电站二次***的数据后，首先对数据进行初始化和向量化，此时有n个不同维度的信息样本x(x₁,x₂,…x_d)，则簇的聚类特征为：CF＝(n,LS,SS)，

其中，n为聚类特征中拥有的样本点的数量；LS为聚类特征中拥有的样本点各特征维度的和向量，SS为聚类特征中拥有的样本点各特征维度的平方和。

S304，根据聚类特征计算第一均值距离和第二均值距离；第一均值距离为聚类簇中所有点到中心点的均值距离，第二均值距离为聚类簇中任意两点之间的均值距离。

具体地，获取到聚类特征CF＝(n,LS,SS)，可以将

带入公式

中，计算得出聚类簇中心x₀的值。并根据公式

可以计算聚类簇中所有点到中心点x₀的均值距离，即第一均值距离。将

带入公式

中，可以计算得出聚类簇中任意两点之间的均值距离，即聚类簇中任意两点之间的均值距离。

S306，根据聚类簇中样本点的归属程度、聚合度、第一均值距离和第二均值距离，构建混合蛙跳算法的适应度函数。

具体地，参数α和β分别描述聚类簇内样本点的归属程度和聚合度，将第一均值距离R、第二均值距离D、聚类簇内样本点的归属程度α和聚合度β，构建混合蛙跳算法的适应度函数为：

其中，x_id表示第i个样本的第j个属性。

S308，对混合蛙跳算法的适应度函数进行最大值求解，得到多个数据集。

具体地，启动混合蛙跳算法的自适应函数，求解g(x)的最大值：G(X_b)＝Max(g(x))，得到的G(X_b)最大值即为蛙跳算法的最优解，从而得到聚类结果，得到多个数据集。

在本实施例中，通过获取数据的聚类特征，根据聚类特征计算第一均值距离和第二均值距离，根据聚类簇中样本点的归属程度、聚合度、第一均值距离和第二均值距离，构建混合蛙跳算法的适应度函数，对混合蛙跳算法的适应度函数进行最大值求解，得到多个数据集。通过基于混合蛙跳算法的聚类方法，无需重复计算样本点至中心点的距离，并且通过混合蛙跳算法的自适应函数，得到最优解，提高了聚类效率和聚类准确度。

在一个实施例中，根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，包括以下指标中的至少两项：

第一项，根据每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数，计算准确度指标的占比。

具体地，准确度指标的占比可以通过公式

计算得到，其中D为每个数据集中的数据量、D_B1为精确度小于预设阈值数据的个数、D_B21无效数据的个数和D_B51记录冗余数据的个数。

其中，每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数均可在进行聚类时进行统计。其中，精确度小于预设阈值数据的可以是将每个数据集中精确度小于预设阈值数据进行标记，将其被标记为准确度为否的数据。

第二项，根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数和空数据的个数，计算完整度指标的占比。

具体地，完整度指标的占比可以通过公式

计算得到，其中，D为每个数据集中的数据量、D_B21为无效数据的个数、D_B51为记录冗余数据的个数和D_B22为空数据的个数。

第三项，根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数、空数据个数和延迟更新的数据个数，计算及时度指标的占比。

具体地，及时度指标的占比可以通过公式

计算得到，其中，D为每个数据集中的数据量、D_B21为无效数据的个数、D_B51为记录冗余数据的个数、D_B22为空数据个数和D_B41为延迟更新的数据个数。

第四项，根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到冗余度指标的占比。

具体地，冗余度占比可以通过公式

得到，其中，γ为平衡度系数，C_R51为记录冗余度占比，C_R52为数据冗余占比。

第五项，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比。

具体地，一致性占比可以通过公式

计算得到，其中，D为每个数据集中数据量、D_B21为无效数据的个数、D_B51为记录冗余数据的个数、D_B31为相同数据参照一致性的异常个数、D_B32为不同数据逻辑一致性的异常个数、D_B30为同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数。

在本实施例中，通过统计各个数据集中的数据量、无效数据的个数、记录冗余数据的个数等等参数，计算准确度指标的占比、完整度指标的占比、及时度指标的占比、冗余度指标的占比和一致性指标的占比，为后续信息质量量化提供了依据。

在一个实施例中，如图4所示，根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到冗余度指标的占比，包括：

S402，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数，计算记录冗余度占比。

具体地，可通过公式

计算得到，其中，D为每个数据集中数据量、D_B21为无效数据的个数、D_B51为记录冗余数据的个数。

S404，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、每行的相同数据个数、每列的相同数据个数，计算数据冗余占比。

具体地，可通过数据冗余占比公式

计算，其中，D为每个数据集中数据量、D_B21为无效数据的个数、D_B51为记录冗余数据的个数、D_B521为每行的相同数据个数、D_B522为每列的相同数据个数。

在本实施例中，通过根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数，计算记录冗余度占比，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、每行的相同数据个数、每列的相同数据个数，计算数据冗余占比，能够根据记录冗余度占比和数据冗余占比计算冗余度占比，为信息质量量化提供基础。

在一个实施例中，如图5所示，根据每个数据集中数据总数、数据位无效个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比，包括：

S502，获取每个数据集中相同种类的数据。

具体地，每个数据集中相同种类的数据是指，在每个聚类后的数据集中，可能包括多种种类的数据，统计数据集中相同种类的数据，即获取每个数据集中相同种类的数据。例如，一个数据集中包括电压数据、电流数据、温度数据等，分别获取电压数据、电流数据、温度数据等。

S504，通过最小二乘法对每个数据集中相同种类的数据进行拟合，得到偏离序列。

具体地，用最小二乘法对每个数据集中相同种类的数据进行拟合，可以用多项式模型拟合，y＝a₀+a₁x₁+...+a_nx_n，其中，a₀，a₁...，a_n为待定系数，用拟合出来的模型预测同一数据类型的其他的值，求偏离序列：

其中，y_i，

为指标y的第i个实际值与预测值。

S506，将偏离序列中小于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为相同数据参照一致性的异常个数。

具体地，对偏离序列中的所有样本点依次和预设偏离容忍度进行比较，如果偏离序列中样本点的数值小于预设偏离容忍度，则认为该样本点为异常点，统计所有小于预设偏离容忍度异常样本点的个数，即为相同数据参照一致性的异常个数。

S508，将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据自变量和因变量之间的关系，确定回归方程。

具体地，选某一类型的数据为自变量，其他为因变量，绘制因变量与各个自变量离散的图；

根据离散的点确定变量与因变量的之间关系，确定回归方程，如下：

其中β₀为随机误差，β₁,，β₂，...，β_p为回归系数。

可选地，在建立多元回归模型后，需对多元回归方程组统计性检验，主要包括拟合优度检验和显著性检验两方面。其中，拟合优度检验依据复测定系数护，复测定系数越大，表明样本点与回归线越接近，拟合效果越理想，复测定系数的具体值可视用户的可接受程度而设定。显著性检验依据F检验，若F检验的检验值小于显著性水平0.05，说明方程中至少有一个回归系数显著不为0，该回归方程回归效果显著。

S510，通过回归方程，得到自变量数据的偏离序列。

具体地，根据回归方程以及数据集中的自变量数据，对因变量进行预测，并得到预测因变量数值，通过比较预测因变量和数据集中的因变量数据，得到因变量的偏离度，即可获得因变量的偏离序列。

S512，将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。

具体地，可以将偏离序列中的每个样本点与预设偏离容忍度进行比较，若偏离序列中的样本点数值大于预设偏离容忍度，则认为是一个异常点，统计数据集中异常点个数即为不同逻辑一致性的异常个数。

在本实施例中，通过获取每个数据集中相同种类的数据，通过最小二乘法对每个数据集中相同种类的数据进行拟合，得到偏离序列，将偏离序列中小于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为相同数据参照一致性的异常个数，将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据自变量和因变量之间的关系，确定回归方程，通过回归方程，得到自变量数据的偏离序列，将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。由于通过比较偏离序列中的样本点与预设偏离容忍度的关系，可以确定相同数据参照一致性的异常个数和不同数据逻辑一致性的异常个数，为计算一致性占比提供了数据基础，进而得到较为准确的一致性占比。

在一个实施例中，如图6所示，信息质量量化方法还包括：

S602，获取每个评价指标的主观权重和客观权重。

其中，主观权重是指专家根据经验对每个评价指标赋权得到的权重；客观权重是通过计算分析为每个评价指标赋权得到的权重，得到各个评价指标赋权的主观权重。

具体地，可以通过层次分析法对每个评价指标进行主观赋权，设由n个评价指标组成的评价指标集B＝{B₁,B₂,...,B_m}，通过层次分析法生成的主观权重为w＝{w₁,w₂,...,w_m}。还可以通过熵权发对客观权重进行赋权，得出各个评价指标的客观权重，设有n个待评测对象，m个评价指标，数据矩阵为D＝(d_ij)_m*n，其中d_ij是第i个待评测对象的第j个评价指标，生成的主观权重为ω＝{ω₁,ω₂,...,ω_m}。

S604，根据每个评价指标的主观权重和客观权重，确定每个评价指标的目标权重。

具体地，可以通过组合熵权法确定各指标的综合的权重：设t_i为第i个指标的主观权重的重要性系数，u_i为第i个指标的客观权重的重要性系数，所以就有

其中，1≤i≤m，利用计算出的主客观权重的重要性系数计算出综合权重：设Cwi为第i个指标的综合权重，则

在本实施例中，通过获取每个评价指标的主观权重和客观权重，根据每个评价指标的主观权重和客观权重，确定每个评价指标的目标权重，由于通过将主观权重和客观权重结合的方法，确定最终的目标权重，可以兼具主观性和客观性，得到准确的各评价指标的目标权重，进而使得信息质量量化更加准确。

在一个实施例中，如图7所示，获取每个评价指标的主观权重，包括：

S702，将各评价指标进行两两比较，构建判断矩阵。

具体地，根据层次结构的递阶模型，构造判断矩阵B＝(b_ij)_n*n。将指标层中指标作为判断矩阵的各类元素，并咨询有关专家，将两两指标进行比较，按照重要程度表进行赋值，得出判断矩阵。其中，重要程度表如表1所示。

表1

S704，获取判断矩阵的最大特征值对应的特征向量。

具体地，可以将判断矩阵展开计算判断矩阵的最大特征值λ_max，并由λ_max求得对应的特征向量w^*。

S706，对特征向量进行归一化处理，得到每个评价指标的主观权重。

具体地，对判断矩阵特征向量w^*，进行归一化处理，得出每个评价指标的主观权重w＝{w₁,w₂,...,w_m}。

在本实施例中，将各评价指标进行两两比较，构建判断矩阵，获取判断矩阵的最大特征值对应的特征向量，对特征向量进行归一化处理，得到每个评价指标的主观权重。能够通过专家根据经验对各评价指标进行打分，并根据重要性对评价指标进行赋值构造判断矩阵，根据判断矩阵计算特征向量，并得到主观权重，对信息质量量化标准提供依据。

上述实施例对利用层次分析法对各评价指标进行主权赋权进行了说明，由于指标是人为排序，所以含有一定的主观性和随意性，就可能造成指标与事实指标重要程度不一致的情况，所以我们需要检验是否合理，在以一个实施例对检验过程进行说明，如图8所示，获取每个评价指标的主观权重，还包括：

S802，根据最大特征值和判断矩阵的阶数，确定一致性指标的值。

具体地，根据最大特征值和判断矩阵的阶数，进行一致性指标(CI)的检验：

其中λ_max为B＝(b_ij)_n*n的最大特征值，n为判断矩阵的阶数。

S804，根据判断矩阵的阶数，查找随机一致性指标对照表，确定判断矩阵的随机一致性指标的值。

具体地，根据判断矩阵的阶数n，确定随机一致性指标RI的值，通过查找如表2的随机一致性对照表，找到对应阶数n的随机一致性指标RI的值。例如，阶数为4，对应的随机一致性指标RI的值为0.89。

表2

n	1	2	3	4	5	6	7	8	9	10	11
												RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46	1.49	1.52

S806，根据一致性指标的值和随机一致性指标的值，得到一致性比例。

具体地，通过公式

得到一致性比例。其中，CI为一致性指标的值，RI为随机一致性指标的值。

S808，将一致性比例与预设比例阈值进行比较。

具体地，一致性比例的预设比例阈值为0.1，将计算得到的一致性比例与0.1进行比较，判断一致性比例是大于还是小于预设比例阈值。

S810，若一致性比例小于预设比例阈值，则重新调整判断矩阵。

具体地，若一致性比例小于预设比例阈值，即CR＜0.1时，则各评价指标重要性排序不合理，需要重新根据重要性进行赋值构建判断矩阵。

在本实施例中，通过根据最大特征值和判断矩阵的阶数，确定一致性指标的值，根据判断矩阵的阶数，查找随机一致性指标对照表，确定判断矩阵的随机一致性指标的值，根据一致性指标的值和随机一致性指标的值，得到一致性比例，将一致性比例与预设比例阈值进行比较，若一致性比例小于预设比例阈值，则重新调整判断矩阵。能够消除人为排序，具有的主观性和随意性，使各评价指标与事实指标重要程度一致。

为了便于本领域技术人员的理解，以下对本申请提供的信息质量量化方法进行详细介绍，该方法可以包括：

S901，获取预设时间段内的变电站二次***的数据。

S902，获取数据的聚类特征。

S903，根据聚类特征计算第一均值距离和第二均值距离；第一均值距离为聚类簇中所有点到中心点的均值距离，第二均值距离为聚类簇中任意两点之间的均值距离。

S904，根据聚类簇中样本点的归属程度、聚合度、第一均值距离和第二均值距离，构建混合蛙跳算法的适应度函数。

S905，对混合蛙跳算法的适应度函数进行最大值求解，得到多个数据集。

S906，根据每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数，计算准确度指标的占比。

S907，根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数和空数据的个数，计算完整度指标的占比。

S908，根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数、空数据个数和延迟更新的数据个数，计算及时度指标的占比。

S909，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数，计算记录冗余度占比。

S910，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、每行的相同数据个数、每列的相同数据个数，计算数据冗余占比。

S911，获取每个数据集中相同种类的数据。

S912，通过最小二乘法对每个数据集中相同种类的数据进行拟合，得到偏离序列。

S913，将偏离序列中小于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为相同数据参照一致性的异常个数。

S914，将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据自变量和因变量之间的关系，确定回归方程。

S915，通过回归方程，得到自变量数据的偏离序列。

S916，将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。

S917，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比。

S918，将各评价指标进行两两比较，构建判断矩阵。

S919，获取判断矩阵的最大特征值对应的特征向量。

S920，根据最大特征值和判断矩阵的阶数，确定一致性指标的值。

S921，根据判断矩阵的阶数，查找随机一致性指标对照表，确定判断矩阵的随机一致性指标的值。

S922，根据一致性指标的值和随机一致性指标的值，得到一致性比例。

S923，将一致性比例与预设比例阈值进行比较。

S924，若一致性比例小于预设比例阈值，则重新调整判断矩阵。

S925，对特征向量进行归一化处理，得到每个评价指标的主观权重。

S926，获取每个评价指标的主观权重和客观权重。

S927，根据每个评价指标的主观权重和客观权重，确定每个评价指标的目标权重。

S928，根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。

在本实施例中，通过获取变电站二次***的数据，并利用基于混合蛙跳算法的聚类方法对数据进行分类，得到不同的数据集，提高了数据后续评价的处理效率，同时通过主观赋权和客观赋权的方式对各评价指标进行赋权，得到目标权重，使得信息质量量化兼具主观性和客观性，评价的准确度高。

应该理解的是，虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-8的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种信息质量量化装置，包括：第一获取模块901、聚类模块902、分析模块903和第二获取模块904，其中：

第一获取模块901，用于获取预设时间段内的变电站二次***的数据；

聚类模块902，用于采用基于混合蛙跳算法的聚类方法对数据进行聚类分析，得到多个数据集；

分析模块903，用于根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比；

第二获取模块904，用于根据每个数据集在每个评价指标下的数据占比和每个评价指标的目标权重，获取每个数据集的质量量化值。

在本实施例中，通过第一获取模块获取变电站二次***的数据，并利用聚类模块的基于混合蛙跳算法的聚类方法对数据进行分类，得到不同的数据集，提高了数据后续评价的处理效率，同时通过主观赋权和客观赋权的方式对各评价指标进行赋权，得到目标权重，使得信息质量量化兼具主观性和客观性，评价的准确度高。

在一个实施例中，如图10所示，聚类模块902包括：

第一获取单元1021，用于获取数据的聚类特征；

第一计算单元1022，用于根据聚类特征计算第一均值距离和第二均值距离；第一均值距离为聚类簇中所有点到中心点的均值距离，第二均值距离为聚类簇中任意两点之间的均值距离；

构建单元1023，用于根据聚类簇中样本点的归属程度、聚合度、第一均值距离和第二均值距离，构建混合蛙跳算法的适应度函数；

求解单元1024，用于对混合蛙跳算法的适应度函数进行最大值求解，得到多个数据集。

在一个实施例中，上述至少两个预设评价指标包括准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标中的至少两个。

在一个实施例中，参照图10所示，分析模块903包括

第二计算单元1031，用于根据每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数，计算准确度指标的占比；

第三计算单元1032，用于根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数和空数据的个数，计算完整度指标的占比；

第四计算单元1033，用于根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数、空数据个数和延迟更新的数据个数，计算及时度指标的占比；

第五计算单元1034，用于根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到冗余度指标的占比；

第六计算单元1035，用于根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算一致性指标的占比。

在一个实施例中，第五计算单元具体用于根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数，计算记录冗余度占比，根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、每行的相同数据个数、每列的相同数据个数，计算数据冗余占比。

在一个实施例中，第六计算单元具体应用于获取每个数据集中相同种类的数据，通过最小二乘法对每个数据集中相同种类的数据进行拟合，得到偏离序列，将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为相同数据参照一致性的异常个数，将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据自变量和因变量之间的关系，确定回归方程，通过回归方程，得到自变量数据的偏离序列，将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。

在一个实施例中，参照图10所示，信息质量量化装置还包括：

第三获取模块905，用于获取每个评价指标的主观权重和客观权重；

确定模块906，用于根据每个评价指标的主观权重和客观权重，确定每个评价指标的目标权重。

在一个实施例中，参照图10，第三获取模块905包括：

构建单元1051，用于将各评价指标进行两两比较，构建判断矩阵；

第三获取单元1052，用于获取判断矩阵的最大特征值对应的特征向量；

处理单元1053，用于对特征向量进行归一化处理，得到每个评价指标的主观权重。

在一个实施例中，参照图10所示，第二获取模块905还包括：

第一确定单元1054，用于根据最大特征值和判断矩阵的阶数，确定一致性指标的值；

第二确定单元1055，用于根据判断矩阵的阶数，查找随机一致性指标对照表，确定判断矩阵的随机一致性指标的值；

第七计算单元1056，用于根据一致性指标的值和随机一致性指标的值，得到一致性比例；

比较单元1057，用于将一致性比例与预设比例阈值进行比较；

调整单元1058，用于若一致性比例小于预设比例阈值，则重新调整判断矩阵。

关于信息质量量化装置的具体限定可以参见上文中对于信息质量量化方法的限定，在此不再赘述。上述信息质量量化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储变电站二次***中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息质量量化方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信息质量量化方法，其特征在于，所述方法包括：

获取预设时间段内的变电站二次***的数据；

采用基于混合蛙跳算法的聚类方法对所述数据进行聚类分析，得到多个数据集；

根据每个数据集在每个评价指标下的数据占比和每个所述评价指标的目标权重，获取每个所述数据集的质量量化值。

2.根据权利要求1所述的方法，其特征在于，所述采用基于混合蛙跳算法的聚类方法对所述数据进行聚类分析，得到多个数据集，包括：

获取所述数据的聚类特征；

根据所述聚类特征计算第一均值距离和第二均值距离；所述第一均值距离为聚类簇中所有点到中心点的均值距离，第二均值距离为聚类簇中任意两点之间的均值距离；

根据聚类簇中样本点的归属程度、聚合度、所述第一均值距离和所述第二均值距离，构建混合蛙跳算法的适应度函数；

对所述混合蛙跳算法的适应度函数进行最大值求解，得到所述多个数据集。

3.根据权利要求1或2所述的方法，其特征在于，所述至少两个预设评价指标包括准确度指标、完整度指标、及时度指标、冗余度指标和一致度指标中的至少两个。

4.根据权利要求3所述的方法，其特征在于，所述根据至少两个预设评价指标对每个数据集进行量化分析，得到每个数据集在每个评价指标下的数据占比，包括以下指标中的至少两项：

根据每个数据集中的数据量、精确度小于预设阈值数据的个数、无效数据的个数和记录冗余数据的个数，计算所述准确度指标的占比；

根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数和空数据的个数，计算所述完整度指标的占比；

根据每个数据集中的数据量、无效数据的个数、记录冗余数据的个数、空数据个数和延迟更新的数据个数，计算所述及时度指标的占比；

根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到所述冗余度指标的占比；

根据每个数据集中数据量、无效数据的个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算所述一致性指标的占比。

5.根据权利要求4所述的方法，其特征在于，所述根据记录冗余度占比、数据冗余占比和冗余度占比之间的线性关系，得到所述冗余度指标的占比，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据每个数据集中数据总数、数据位无效个数、记录冗余数据的个数、相同数据参照一致性的异常个数、不同数据逻辑一致性的异常个数、同时检测为相同数据参照一致性异常和不同数据逻辑一致性异常个数，计算所述一致性指标的占比，包括：

获取每个数据集中相同种类的数据；

通过最小二乘法对所述每个数据集中相同种类的数据进行拟合，得到偏离序列；

将每个数据集中的一种类型数据为作为自变量，其他类型的数据作为因变量，根据所述自变量和所述因变量之间的关系，确定回归方程；

通过回归方程，得到所述自变量数据的偏离序列；

将偏离序列中大于预设偏离容忍度的样本点，作为异常点，统计异常点个数作为不同数据逻辑一致性的异常个数。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取每个所述评价指标的主观权重和客观权重；

根据每个所述评价指标的主观权重和客观权重，确定每个所述评价指标的目标权重。

8.根据权利要求7所述的方法，其特征在于，所述获取每个所述评价指标的主观权重，包括：

将各所述评价指标进行两两比较，构建判断矩阵；

获取所述判断矩阵的最大特征值对应的特征向量；

对所述特征向量进行归一化处理，得到每个所述评价指标的主观权重。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述最大特征值和所述判断矩阵的阶数，确定一致性指标的值；

根据判断矩阵的阶数，查找随机一致性指标对照表，确定所述判断矩阵的随机一致性指标的值；

根据所述一致性指标的值和所述随机一致性指标的值，得到一致性比例；

将所述一致性比例与预设比例阈值进行比较；

若所述一致性比例小于预设比例阈值，则重新调整判断矩阵。

10.一种信息质量量化装置，其特征在于，所述装置包括：

聚类模块，用于采用基于混合蛙跳算法的聚类方法对所述数据进行聚类分析，得到多个数据集；

第二获取模块，用于根据每个数据集在每个评价指标下的数据占比和每个所述评价指标的目标权重，获取每个所述数据集的质量量化值。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。