CN117195505A

CN117195505A - 一种用于电能表信息化评价校准模型的测评方法及***

Info

Publication number: CN117195505A
Application number: CN202311048733.8A
Authority: CN
Inventors: 刘婧; 于海波; 陈天阳; 薛冰; 高欣; 谭煌; 陈昊; 陈文礼; 李媛; 刁新平; 乔文俞; 程瑛颖; 苏宇; 李亚杰; 田成明; 谷凯; 郜波; 郑安刚
Original assignee: State Grid Chongqing Electric Power Co Marketing Service Center; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Chongqing Electric Power Co Marketing Service Center; Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-12-08

Abstract

本发明公开了一种用于电能表信息化评价校准模型的测评方法及***，属于模型测评技术领域。本发明方法，包括：针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；基于层次分析法，根据所述模型准确度相关的测评指标和所述业务需求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。本发明能够通过测评结果确定电能表信息化评价校准模型的可信度。

Description

一种用于电能表信息化评价校准模型的测评方法及***

技术领域

本发明涉及模型测评技术领域，并且更具体地，涉及一种用于电能表信息化评价校准模型的测评方法及***。

背景技术

根据国家市场监管总局关于强制检定的相关规定，应变革生活用电能表(以下简称电能表)到期轮换的传统模式，逐步推行以“失准更换”替代“到期轮换”，构建依据电能表状态延期使用或更换的新模式。失准更换的推行对维护电力企业与电力客户之间的公平公正贸易结算、推动电能表法制监管模式变革，以及助力国家“双碳”目标等方面具有重要意义。要实现这一目标，亟需变革目前传统实物传递的电能表检定校准模式，针对新型的物理与数字有机融合的远程信息化校准模式，提出一种信息化校准模型的验证方法，从理论与实践对电能表信息化校准模型进行测评与验证，将信息化测量准确度和可信度提升到一个新高度。

在模型测评验证技术研究方面，国外起步较早。Rebba讨论了几种用于模型验证的统计学方法，重点提出了基于区间假设检验和模型可靠性的方法。Gray等人提出了用于评估和改进非线性实时直升机动力学模型的基于开环和逆仿真的非线性模型验证技术。他们通过使用相关的飞行数据作为模拟的开环输入来表示未建模的动力学，并模拟模型中的单个刚体状态方程揭示动力学效果，然后通过比较正常和反向模拟模式下的结果来评估和改进模型。Sankararamana扩展了贝叶斯因子法，将其应用于存在固有不确定性与认知不确定性的模型验证中。Magdevska等人提出了一种基于扩大验证数据集的蜂窝网络模糊动态模型验证方法。该方法通过添加随机初始状态扰动增加不准确计算模型预测的平均误差，同时保持准确模型预测的误差来消除不准确的模型。该方法有助于检测过度拟合的模型并显著提高模糊模型的准确度。Rehman等人提出了一种基于因子分析和普罗尼方法的模型验证方法。首先，通过因子分析，将仿真模型和实际***的多变量时间序列替换为少量具有物理意义的公共因子；其次，采用改进的自适应proony方法提取各公共因子的特征，保证非平稳信号的最佳拟合；然后基于能量比例、信息熵和贡献率方差建立仿真***的完整相似度评价模型。最后，根据提取的特征的物理意义，在评价过程中识别出错误位置。此外，近期也有学者关注到电力领域的模型验证方法。Torkzadeh提出了一种实用的电压暂降评估模型验证方法。所提出的方法应用于荷兰高压、超高压电网和传播到中压电网。通过荷兰电网中三个严重电压跌落事件的电能质量监测仪的数据对模型的有效性进行了研究。目前，国外的研究主要集中在其他领域的模型测评验证方法的理论和方法研究，在电能表评价校准模型方面的应用尚未开展。

在模型测评验证技术研究方面，国内有许多针对不同领域的理论模型的验证方法研究。针对如何更加高效的完成数学模型验证工作，高赛军等人提出了使用函数调用选择法来进行数学模型验证的方法，完成了针对嵌入式武控软件模型的验证。李金伟等人构建了船舶寿命预测的数学模型并对所构建的模型进行验证研究。采用多种方式获取船舶不同条件下的结构数据，减少数据源头干扰。在验证研究中引入两个对比模型，进行对同一船舶的寿命预测实验。左睿奇等人为了验证所建立的用于纤维缠绕动态张力校准的动态张力理论方程，提出了一套用于动态张力测量模型的可靠性验证的仿真试验平台，通过仿真模型调整和边界条件设置进行张力校准仿真，通过动态张力测量模型的理论分析与仿真实验的相互印证，实现动态张力测量模型的测评验证。此外国内在对电力***领域的模型结果测评验证技术方面也开展了较多的研究。华北电力大学的张进等人灵活分析模型评价和验证理论，并提出针对电力***模型验证的解耦原则，构建了电力***的评价体系，对电力***仿真模型进行了验证。安军等人研究了基于WAMS测量和戴维南等值的电力***动态仿真误差溯源及可信度验证方法，提出了一种基于戴维南等值模型的分块解耦动态仿真模型验证策略，降低了复杂电力***仿真模型的验证难度。Zhao等人提出了一种基于混合数据动态仿真的太阳能光伏电站模型验证方法。首先提出适用于DIgSILENT PowerFactory软件的混合数据动态仿真实现方案，然后建立基于IEEE 9***的太阳能光伏电站并网分析模型。最后，采用混合数据动态模拟方法实现了太阳能光伏电站的模型验证。结果表明了所提方法在太阳能光伏电站模型验证中的有效性。徐先勇等人针对供配电***中安装的并联无功补偿装置节约电力电量验证方法匮乏这一问题，提出了两种并联无功补偿装置投运后节约电力电量的验证方法：无功经济当量计算节约电力电量验证法和功率因数计算节约电力电量验证法，提高了针对节约电量的验证能力。梁纪峰等人针对电容式电压互感器(CVT)造成的谐波测量误差问题，提出一种适用于变电站现场运行CVT谐波测量误差的多判据融合验证方法，为复杂变电站现场进行CVT谐波误差验证提供了有效途径。在面向多工况条件下的电能表信息化评价校准模型结果测评验证技术方面，目前国内未见有针对该领域进行结果验证的相应方法。

发明内容

针对上述问题，本发明提出了一种用于电能表信息化评价校准模型的测评方法，包括：

针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；

基于层次分析法，根据所述模型准确度相关的测评指标和所述业务需求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；

获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。可选的，模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

可选的，业务需求相关的评测指标为用于计算电能表信息化评价校准模型的检出率、误检率和受试者工作特征曲线下面积的计算体系。

可选的，基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

基于所述层次分析法，针对所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建评测指标体系的递阶层次结构；

根据所述递阶层次结构，构架两两评测指标体系的比较判断矩阵；

根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量，根据各评测指标体系对于上层评测指标体系的归一化相对重要度向量，确定关键指标体系。

可选的，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量之前，所述方法还包括：

对所述比较判断矩阵进行一致性校验，校验通过后，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量。

可选的，获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

针对所述原始数据集，进行归一化处理，得到归一化的原始数据集；

确定所述归一化的原始数据集的关键因子，基于所述关键因子，对所述归一化的原始数据集进行规范化处理，得到规范化的验证样本数据集。

可选的，基于皮尔逊相关性分析方法和最大信息系数法确定关键因子。

可选的，对所述关键指标的值进行联合验证，包括：

针对验证样本数据集中的单个工况下的验证样本数据集所对应的关键指标的值进行单次假设检验，当单次假设检验完成后，对验证样本数据集中的多个工况下的验证样本数据集所对应的关键指标的值进行多重假设检验；

所述单次假设检验采用贝叶斯因子检验；

所述多重假设检验，包括：控制总体错误率检验、控制错误发现率检验和控制阳性错误发现率检验。

可选的，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

基于所述验证结果，建立电能表信息化评价校准模型的分数映射；

所述分数映射，包括：box-cox变换评分映射、逻辑回归的评分映射或集成树模型的评分映射；

基于所述分数映射，确定所述电能表信息化评价校准模型的可信度分数；

基于卡方分箱法或基于业务的等级划分法，对所述可信度分数，进行等级划分，得到一个模型等级，根据所述模型等级确定测评结果。再一方面，本发明还提出了一种用于电能表信息化评价校准模型的测评***，包括：

指标体系确定单元，用于针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；

关键指标体系确定单元，用于基于层次分析法，根据所述模型准确度相关的测评指标和所述业务需求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；

测评单元，用于获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。

可选的，模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

可选的，关键指标体系确定单元基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

可选的，关键指标体系确定单元还用于：对所述比较判断矩阵进行一致性校验，校验通过后，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量。

可选的，测评单元获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

可选的，基于皮尔逊相关性分析方法和最大信息系数法确定关键因子。可选的，测评单元对所述关键指标的值进行联合验证，包括：

所述单次假设检验采用贝叶斯因子检验；

可选的，测评单元将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

基于所述验证结果，建立电能表信息化评价校准模型的分数映射逻辑；

所述分数映射逻辑，包括：box-cox变换逻辑、逻辑回归的评分映射逻辑或集成树模型的评分映射逻辑；

基于所述分数映射逻辑，确定所述电能表信息化评价校准模型的可信度分数；

基于卡方分箱法或基于业务的等级划分法，对所述可信度分数，进行等级划分，得到一个模型等级，根据所述模型等级确定测评结果。

再一方面，本发明还提供了一种计算设备，包括：一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如上述所述的方法。

再一方面，本发明还提供了一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现如上述所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出了一种用于电能表信息化评价校准模型的测评方法，包括：针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；基于层次分析法，根据所述模型准确度相关的测评指标和所述业务需求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果本发明能够通过测评结果确定电能表信息化评价校准模型的可信度。

附图说明

图1为本发明方法的流程图；

图2为本发明方法构建关键指标的原理图；

图3为本发明方法各测评指标的递阶层次结构图；

图4为本发明方法验证流程原理图；

图5为本发明方法常用多重假设检验算法原理图；

图6为本发明***的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

实施例1：

本发明提出了一种用于电能表信息化评价校准模型的测评方法，如图1所示，包括：

步骤1、针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；

步骤2、求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；

步骤3、获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。其中，模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

其中，业务需求相关的评测指标为用于计算电能表信息化评价校准模型的检出率、误检率和受试者工作特征曲线下面积的计算体系。

其中，基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

其中，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量之前，所述方法还包括：

其中，获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

其中，基于皮尔逊相关性分析方法和最大信息系数法确定关键因子。

其中，对所述关键指标的值进行联合验证，包括：

所述单次假设检验采用贝叶斯因子检验；

其中，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

基于卡方分箱法或基于业务的等级划分法，对所述可信度分数，进行等级划分，得到一个模型等级，根据所述模型等级确定测评结果。下面结合具体案例对本发明进行进一步的说明：

具体案例的实施，包括：

电能表信息化评价校准模型可以解决长期以来用电设备测评验证多以传统实物传递的校准方法为主、无法适应信息化准确校准需求的现状。电能表信息化评价校准模型作为一项创新型技术，需要通过科学有效的技术手段综合多项性能指标来验证其输出结果的准确性。

电能表信息化评价校准模型测评关键指标分析与构建需要综合分析不同指标与业务实际需求的一致性，并遵循可操作、可量化原则，从模型的准确度和业务需求两方面确定多个测评指标。此部分研究内容通过层次分析法将多个测评指标进行结合，得到电能表信息化评价校准模型测评的关键指标，为后续开展评价校准模型的有效性验证奠定基础，其流程如图2所示，包括：

(1)模型准确度相关的测评指标；

在电能表信息化评价校准模型测评验证平台中，负荷数据发生器可以仿真不同误差值大小的电能表数据，通过比较电能表信息化评价校准模型输出的电能表误差值和仿真时设定的电能表误差值，可以直接评定电能表信息化评价校准模型自身的准确度。

1)平均绝对误差；

平均绝对误差(MAE)是机器学习中回归任务常用的性能度量指标，可以反映模型输出值与真实值的偏离程度，其计算方式如公式(1)所示：

其中n表示仿真台区中电能表的数量，y_i表示第i个电能表在仿真时设定的误差值，表示电能表信息化评价校准模型对第i个电能表输出的误差值。平均绝对误差的数值越小，说明评价校准模型输出的电能表误差值越接近电能表真实的误差值，即评价校准模型的性能越好。

2)最大误差；

最大误差(ME)同样为回归任务的性能度量指标之一，不同于平均绝对误差反应的是评价校准模型在全部模拟的电能表上的平均性能，最大误差反映的是评价校准模型在全部模拟的电能表上的最差性能。其计算方式如公式(2)所示：

其中y_i表示第i个电能表在仿真时设定的误差值，表示电能表信息化评价校准模型对第i个电能表输出的误差值。最大误差越小，说明评价校准模型输出的电能表误差值越接近电能表真实的误差值，即评价校准模型的性能越好。

3)解释方差分；

解释方差分(EVS)可以用来衡量模型对目标数值大小的稳定程度，其计算方式如公式(3)所示：

其中，y表示所有电能表在仿真时设定的误差值，表示电能表信息化评价校准模型对仿真台区中所有电能表输出的误差值，Var表示方差。解释方差分的数值越接近1，说明电能表误差值的大小对于评价校准模型性能的影响越小，即评价校准模型的性能越稳定。

(2)业务需求相关的测评指标；

在实际业务中，电能表信息化评价校准模型需要通过计算的误差值来判断电能表是否为失准电能表。在电能表信息化评价校准模型测评验证平台中，负荷数据发生器可以仿真正常和不同程度失准的电能表数据，通过比较电能表信息化评价校准模型所判断的失准电能表是否为仿真的失准电能表，可以评定电能表信息化评价校准模型在面对实际业务需求时的准确度。

1)混淆矩阵；

由于台区中正常工作的电能表数量一般远多于失准的电能表，评价校准模型即使认为所有电能表都为正常工作的电能表也能获得极高的准确率，所以分类问题中常用的准确率等指标并不直接适用于测评验证电能表信息化评价校准模型。将判断电能表是否为失准表视作二分类问题，混淆矩阵可以直观反映出评价校准模型在实际业务需求上的性能。混淆矩阵如表1所示，评价校准模型的检出、正检数量越多且漏检、误检数量越少，意味着评价校准模型的性能越好。

表1

2)检出率；

检出率(TPR)为电能表信息化评价校准模型正确判断出的失准电能表数量占全部仿真时设定的失准电能表数量的比例，其结合混淆矩阵的计算方式如公式(4)所示：

其中，TP表示电能表信息化评价校准模型正确判断出的失准电能表的数量，FN表示评价校准模型未能判断出的失准电能表的数量，检出率越高，说明评价校准模型能正确检出的失准电能表越多。

3)误检率；

误检率(FPR)为电能表信息化评价校准模型错误判断为失准的正常电能表数量占全部仿真时设定的正常电能表数量的比例，其结合混淆矩阵的计算方法如公式(5)所示：

其中FP表示电能表信息化评价校准模型错误判断为失准的正常电能表数量，TN表示评价校准模型正确判断为正常电能表的数量。误检率越低，说明评价校准模型将正常电能表错误判断为失准电能表的数量越少。

4)受试者工作特征曲线下面积；

遍历不同的阈值将电能表信息化评价校准模型输出的电能表误差值转换为电能表是否失准并计算此阈值下的检出率、误检率，可以绘制出评价校准模型的受试者工作特征曲线(ROC)。计算此曲线与坐标轴的曲线下面积(AUC)，可以反映评价校准模型不受阈值影响的期望泛化性能。曲线下面积的数值越接近1，则评价校准模型在实际业务需求上的性能越好。

(3)将多个指标综合为关键指标；

从电能表信息化评价校准模型的模型准确度和业务需求两方面可以分别确定平均绝对误差、解释方差分以及检出率、误检率、受试者工作特征曲线下面积等多个测评指标。这些测评指标虽然从不同角度分别反应了评价校准模型的性能，但是评价校准模型一般难以同时在所有指标上都取得较高的分数，而且不同指标对于实际需求的重要程度不同，科学地根据这些指标的重要程度计算权重并合成为一个综合的关键指标更加有利于后续测评验证电能表信息化评价校准模型的性能。

由于难以直接为平均绝对误差、解释方差分以及检出率、误检率、受试者工作特征曲线下面积等多个测评指标赋予权重，这时需要首先建立多指标、多层次的测评指标结构，并采用定性与定量有机结合的方法，使复杂的评价问题明朗化。层次分析法可以把复杂的关键性能指标分解成各个测评指标的组合，并将这些测评指标分组形成递阶层次结构，通过两两比较的方法确定层次中各指标的相对重要性，建立判断矩阵计算综合关键指标。

1)建立评测指标的递阶层次结构；

将电能表信息化评价校准模型的模型准确度、业务需求作为一级指标，平均绝对误差、解释方差分以及检出率、误检率、受试者工作特征曲线下面积等多个具体测评指标作为二级指标可以建立如图3所示的递阶层次结构：

2)构造两两比较判断矩阵；

在计算电能表信息化评价校准模型的某一高等级指标时，需要对其下的各低等级测评指标进行两两对比，并按其重要性程度评定等级。两两比较结果构成的矩阵称作判断矩阵，判断矩阵具有如下性质：

其中，a_ij为指标i与指标j的重要性比较结果，a_ji为指标j与指标i的重要性比较结果。判断矩阵中元素a_ij的标度方法如下表2所示：

表2

指标i比指标j	量化值
		同等重要	1
稍微重要	3
		较强重要	5
强烈重要	7
		极端重要	9
两相邻判断的中间值	2,4,6,8

根据专家经验得到的平均绝对误差、最大误差和解释方差分两两比较的判断矩阵如表3所示：

表3

根据专家经验得到的检出率、误检率和受试者工作特征曲线下面积两两比较的判断矩阵如表4所示：

表4

根据专家经验得到的模型准确度和业务需求的判断矩阵如表5所示：

表5

3)求取各评测指标对于上层评测指标的归一化相对重要度向量；

在两两构造比较判断矩阵之后，可以使用方根法求取各评测指标对于上层评测指标的归一化相对重要度向量W_i ⁰。方根法的计算方式如公式(7)和(8)所示，其中n为判断矩阵A的维度。

4)一致性检验；

在根据判断矩阵计算的模型的关键指标性能之前，还需要对判断矩阵进行一致性检验，以确保判断矩阵的合理性。一致性检验首先根据公式(9)和(10)计算判断矩阵A的一致性指标CI：

随后，需要根据公式(11)计算出CI所对应的检验系数CR：

其中RI可以通过查表得到：

表6

n	1	2	3	4	5	6	7	8	9	10
											RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46	1.49

如果CR<0.1，则认为此判断矩阵通过了一致性检验，否则需要对判断矩阵作适当修正，直至满足一致性要求。

5)计算模型的关键指标性能；

在计算得到了归一化相对重要度向量并通过了一致性检验之后，层次分析法将归一化相对重要度向量作为权重并根据电能表信息化评价校准模型的全部二级性能指标从低到高逐层计算得到模型的关键指标。通过层次分析法计算得到的关键性能指标，可以从电能表信息化评价校准模型的模型准确度、业务需求等角度综合考虑多个不同的性能指标，为后续开展评价校准模型的有效性测评验证奠定了基础。

针对电能表信息化评价校准模型的测评验证方法研究；

长期以来用电设备测评验证多以传统实物传递的校准方法为主，而与传统的实物传递的校准方法不同，电能表误差数据通过评价校准模型计算输出，其本质是信息化校准方法，目前尚无科学有效的技术手段测评验证模型的各项性能指标以及输出结果的准确性，现有方法无法适应信息化准确校准需求的现状，所以针对电能表信息化评价校准模型测评验证方法的研究十分必要。

基于电能表信息化评价校准模型，通过模拟评价校准模型的各种不同输入量和工况，得到对应的模型输出值，组成原始数据集；使用皮尔逊相关系数、最大信息系数等分析法检验评价校准模型的输入量和工况参数与模型输出结果的关联性，对输入量和工况参数进行筛选，确定影响评价校准模型输出准确度的关键因子并结合先验知识确定关键因子的范围，选取对应的样本数据组成参考数据样本集，用于后续对评价校准模型进行综合验证；对于单个工况下的所有电表，根据评价校准模型输出的结果和仿真模型的参考值计算各级指标，采用贝叶斯因子检验、t假设检验等技术并结合该工况的重要程度对模型的可信度进行验证；然后，使用多重假设检验理论对不同工况下评价校准模型输出的可信度进行联合验证；研究采用box-cox变换、逻辑回归、树模型评分映射逻辑等确定模型可信度分数与离散模型评价等级的映射逻辑，研究基于技术的最优等级划分、基于业务等级划分等阈值划分策略结合整个评价指标体系确定阈值切分的方法，分析不同工况下模型的评价等级和整体评价等级，实现模型评价校准结果的测评验证。主要研究内容的工作流图如图4所示。

(1)评价校准模型验证数据预处理及影响输出准确度的关键因子确定；

根据模型验证的需要，通过改变评价校准模型的不同输入值和工况参数来模拟现实不同情况，将不同输入值和工况参数与其对应的模型输出结果组成原始数据集。为了解决原始数据集中各变量尺度差异过大、存在冗余或者不相关变量的问题，提高数据的可重用性并为之后模型验证提供良好的数据基础，本研究将采用归一化等数据预处理方法对数据进行规范化描述，并通过皮尔逊相关系数、最大信息系数(MIC)等特征选择方法研究确定影响影响评价校准模型的关键因子，并结合先验知识确定关键因子的范围。以关键因子及其范围为依据对原始数据集中的样本数据进行筛选组成验证样本数据集，剔除对输出影响不显著的因子，以缩减实验空间、充分验证模型，并降低验证实验和参考***的运行成本。

1)归一化；

由于不同特征的量纲不同，取值范围差别较大，如果不对不同特征进行量纲的统一，可能会影响模型验证的效果。所以本研究中，我们将对所有特征采取min-max归一化的方法，将所有变量的取值范围限定在[0，1]区间内。归一化如公式(12)所示：

其中x^*为样本数据归一化后的值，x_max为样本数据最大值，x_min为样本数据最小值。

2)皮尔逊相关系数；

皮尔逊相关系数(Pearson Correlation)是用于度量两个变量X和Y之间的线性相关的一种方式。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。如公式(13)所示，两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

其中上式定义了总体相关系数，常用希腊小写字母ρ作为代表符号。σ_X，σ_Y表示X和Y的标准差，cov(X,Y)表示总体X和Y的协方差，协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反。虽然协方差能反映两个随机变量的相关程度，但是协方差值的大小并不能很好地度量两个随机变量的关联程度，所以引入了皮尔逊相关系数，其在协方差的基础上除以了两个随机变量的标准差，更好的度量两个随机变量的相关程度。如公式(14)所示，通过估算样本的协方差和标准差，可以得到皮尔逊相关系数，常用英文小写字母r表示：

其中n表示样本个数，X_i表示第i个样本。皮尔逊相关系数的输出范围为-1到+1，当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。

3)最大信息系数；

皮尔逊相关系数法可以很好的度量变量之间的线性关系，但变量间还可能存在复杂的非线性关系，所以，可以进一步采用最大信息系数法(The Maximal InformationCoefficient)进行分析。最大信息系数法是Reshef在2011在《Science》上提出的一种不需要对数据分布做任何假设的评估变量间函数关系和统计关系的相关性算法，拥有更广泛的适用性。MIC算法过程主要思想为：如果两变量间具有某种关联关系，则对该两变量联合样本的散点图中采取某种特定规模的网格划分后，根据网格中的边际概率密度函数和联合概率密度函数，可以计算两变量的互信息值(Mutual Information)，其归一化后结果能够检测两变量间的关联性。利用最大信息系数进行分析的具体步骤如下所示：

步骤1：给定一个有限有序对数据集D＝{(x_i,y_i),i＝1,2,...,n}，若X和Y轴分别被划分为x和y个格子，获得x*y网格G，D中的变量值落入G的网格中得到相应地概率分布D|_G，其中x和y是正整数，若固定网格划分数，则通过改变网格划分位置，会得到不同的互信息值，其中最大互信息值如公式(15)所示：

I^*(D,x,y)＝maxI(D|_G) (15)

步骤2：为了方便在不同的维数之间进行比较，对上式进行归一化，使其取值在区间[0,1]：

步骤3：已知样本量为n的有序对数据集D，则定义该集合中两变量X和Y的MIC公式如下：

其中，xy≤B(n){B(n)＝n^a,n为数据规模}是为了限制网格大小来划分区域，得到相关关系值，常数a的取值可根据经验或规模设置。设置合适的B(n)非常重要，B(n)的取值大小与最大信息系数MIC算法的普适性息息相关，若取值过小，则算法普适性降低使得其仅能检测简单的关联关系；若取值过大，在样本有限情况下则会导致虚假关联。

在步骤1中计算了数据集D中x和y互信息I(D|_G)，根据互信息的性质，可以推出MIC算法具有以下性质：

(1)对于一个x*y的格子划分G，由于0≤I(D|_G)≤log_min{x,y}，则矩阵中每个元素取值区间均为[0,1]，相关系数值MIC是所有最大互信息归一化后的结果，因此，该值也在[0,1]之间。

(2)由于互信息具有对称性，I(X；Y)＝I(Y；X)，因此，特征矩阵M(D)是对称矩阵即MIC(X,Y)＝MIC(Y,X)。

(3)由于数据分布D|_G的取值与变量值的排序分布有关，当两变量X和Y的数据进行变换但排序位置未变时，则特征矩阵不变，那么相关关系值MIC也不变。(MIC算法在保序变换下具有不变性)。

对于MIC算法的计算过程，难点就在于怎样才能获得两变量的所有网格划分中最大的互信息，即I*(D,x,y)，找到两变量间的互信息值，需要花费较多时间，导致计算效率低，因此，在Reshef等人设计的算法中，设计出一个多项式近似求解过程，虽不能求得精确值，但可求得较好的近似解。

(2)基于多重假设检验的多角度用户负荷特征的联合验证方法；

根据建立的各级指标体系，对预处理后的模型输出结果数据与数字空间与物理一致的仿真***参考数据进行相似性分析，计算台区单块电表上评价校准模型的结果可信度评分。综合研究包括t假设检验、贝叶斯因子检验法等统计学一致性定量验证方法，选择与评价校准模型相适应的测评验证方法，对台区多块电表上评价校准模型结果的可信度进行综合验证。

电能表信息化评价校准模型的有效性受到实际工况的影响，不同输入条件下模型结果可信度可能存在差异，对每一个输入条件下评价校准模型结果的可信度进行验证。进行多次单独的假设检验导致犯第一类错误的概率随着检验次数的增多而增大，研究使用多重假设检验理论对不同工况下评价校准模型输出的可信度进行多重假设检验验证，降低多次假设检验的错误率，实现在复杂多样的台区场景、多角度用户负荷特征下对评价校准模型结果进行联合验证。

1)单次独立评价校准模型测评验证方法；

单总体样本t检验：称Student's t test，主要用于样本含量较小，总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。单总体样本t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。首先，计算出样本均值；其次，根据经验或以往的调查结果，对总体的均值提出一个假设，即μ＝μ₀(μ₀为待检验的总体均值)；然后，分析计算出的样本均值来自均值为μ₀的总体的概率，如果概率很小，则认为总体的均值不是μ₀。单样本t检验步骤：

1、提出原假设和备择假设：原假设H₀认为总体均值与检验值之间不存在显著差异，即原假设H₀：μ＝μ₀，备择假设H₁：μ≠μ₀；

2、确定检验统计量：检验统计量为t统计量：

其中为样本平均数，s为样本标准偏差，n为样本数。该统计量t在零假设：μ＝μ₀为真的条件下服从自由度为n的t分布；

3、计算检验统计量的观测值和p值(p值指的是犯第一类错误的概率)；

4、确定显著性水平α，并做出决策：一般情况下使用最多的α值是0.05，也可结合具体情况使用0.001，0.005，0.0001等。如果p值小于或等于显著性水平α，就拒绝原假设，即认为总体均值与检验值之间存在显著差异；如果p值大于显著性水平α，就接受原假设，即认为总体均值与检验值之间无显著差异。

单总体样本t检验主要是用来检验某个变量的总体均值和某个指定值之间是否存在显著性差异。如果是大样本的单样本检验，一般在统计学中会被称为U检验，它主要是采用服从正态分布的U统计量作为检验统计量；如果是小样本并且样本服从正态分布，就采用t统计量进行单样本t检验。在统计学中，根据概率论的中心极限定理，在大样本的情况下，t分布和正态分布的密度函数是十分接近的。在实际的分析操作中，其实不管是大样本还是小样本，都是可以用t检验来进行单样本均值检验的。对于t检验来说，它的稳健性比较好，这个特性的意义是如果样本分布偏离正态分布不是特别严重的话，也是可以采用t检验进行分析的。因此，单总体样本t检验方法可能是与评价校准模型相适应的测评验证方法之一。

贝叶斯因子检验：斯学派对于假设检验问题的处理方法和检验法则不同于经典统计学派，不同的检验法则往往得到不同的检验结果。对于评价校准模型的测评验证，要综合分析两类检验方法，先选择适合评价校准模型的验证方法。

虽然经典统计学派的假设检验方法是目前广泛使用的统计推断方法,但它的缺陷是显而易见的。对于固定水平检验需要事先给定显著性水平α，进而确定原假设的拒绝域，但α到底应该给多大没有具体的标准，而根据不同的显著性水平有时会得出相反的检验结论。p值检验计算的p值是在原假设为真时，检验统计量在检验样本下取值的概率，是真实的显著水平。虽然运用值检验避免了因选取不同的而对检验结果的影响，但是运用p值进行检验判断仍存在一些问题，它具体表现在：(1)p值并不是原假设为真的概率。p值是原假设为真时，得到所观测样本的概率，是关于数据的概率，不是原假设为真概率的有效估计值。(2)当样本容量很大时，p值并不十分有效。当样本容量足够大时，几乎任何一个原假设都会对应一个非常小的p值，进而任何原假设都会被拒绝。有研究发现：一个以10^-10的p值拒绝H₀的经典结论，当n充分大时，此H₀的后验概率逐渐趋近于1，这个令人吃惊的结果被称为“Lindley悖论”。因此，在样本容量不断增大时，p值检验几乎失效。

相对于经典统计学派的假设检验方法，贝叶斯学派的检验方法是直截了当的。它是在获得后验分布后，直接计算原假设H₀和备择假设H₁的后验概率α₀和α₁，并计算后验概率比来比较两个后验概率的大小：

当时，接受H₀；

当时，接受H₁；

当时，进一步抽样或进一步获取先验信息进行判断。

在先验分布下，上述思想可以用决策函数表示为：

鉴于有时直接计算后验概率比较困难，可通过贝叶斯因子来推算后验概率比，即可以由已知信息方便地计算出贝叶斯因子的B^π(x)值，然后用贝叶斯因子乘以先验概率比，直接得到后验概率比。

贝叶斯假设检验相对于传统统计学假设检验的优势：

(1)方法相对简单。贝叶斯学派的假设检验直接根据后验概率的大小进行判断，避开了选择检验统计量确定统计量的抽样分布这一经典统计学派假设检验的难点，因此，贝叶斯学派的假设检验方法相对简单。

(2)先验信息利用的充分性。经典统计学派的假设检验只使用了样本的信息，而贝叶斯学派在假设检验时既利用了样本信息又利用了参数的先验信息，并将这些信息综合成后验分布并根据后验分布进行推断，因此，贝叶斯方法在信息的利用上更加充分，其判断过程也更符合人们实际的思维方式。

2)多重假设检验理论；

在复杂多样的台区场景、多角度用户负荷特征下需要对评价校准模型结果进行多次验证。在假设检验中，单个假设检验问题的理论是将犯第一类错误的概率控制在可接受的范围内时，使犯第二类错误的概率最小。在同时对多个研究对象进行假设检验时，对每个单独的假设检验而言都有可能犯第一类错误，如果不采取任何控制措施，那么对整体而言，犯第一类错误的概率将随着检验次数m的增多而增大。例如，当进行两次独立检验时，对总体而言犯一类错误的概率为1-(1-α)²；进行m次检验时总体犯一类错误的概率为1-(1-α)^m，取显著性水平α＝0.05，当检验的次数为100时，总体犯一类错误的概率接近于1，此时，检验结果本身变得非常不可靠。

表7

需要研究使用多重假设检验理论对不同工况下评价校准模型输出的可信度进行多重假设检验验证，降低多次假设检验的错误率，实现在复杂多样的台区场景、多角度用户负荷特征下对评价校准模型结果进行联合验证。多重假设检验是将许多个单重检验视为一个检验族，对这个检验族内每个假设同时进行检验。在多重假设检验中，可以借鉴单重检验的思想，考虑几种合理有效的方法来度量犯第一类错误的情形，通过某种检验方法将度量标准控制在合理范围，并使得检验功效尽可能大。

目前常用的错误度量标准主要有总体错误率(FWER)、错误发现率(FDR)和阳性错误发现率(pFDR)。在解决不同问题时，错误度量标准的选择也有差别。当多重检验中m的取值较小时，控制总体错误率具有实质的意义；m的取值较大，只有当p值很小时才能获得一个差异表达基因，此时对FWER的把控就会过于保守，可以选择控制FDR。常用多重假设检验算法梳理如图5所示：

控制总体错误率：控制总体错误的多重检验过程是一种传统的控制过程，主要有三类：单步过程、逐步向下过程和逐步向上过程。单步过程指在进行多重检验过程中每个假设的拒绝域都相同，不需要对原始p值进行排序；对于后两个控制过程，设m个假设检验H₁,…,H_m对应的原始p值为p₁,…,p_m，对其从小到大排序后依次为p₍₁₎,p₍₂₎,…,p_(m)。逐步向上过程指基于这样的排序后，从最小的p值开始向最大的p值进行；而逐步向下过程是从最大的p值向最小的p值进行。Bonferroin算法、Homl算法和Hochberg算法分别是采用这三种控制过程的经典算法，通过使用这些控制算法可以控制多次评价校准模型可信度检验的总体错误率。

控制错误发现率：在多重假设检验中，错误度量标准FDR已被广泛应用，其检验方法也都是基于p值进行检验。Benjamini和Hochberg首次提出了FDR的概念，并给出了BH算法流程。BH算法是在事先选定显著性水平α的条件下，利用p值来获得拒绝或者接受假设的分界点。为了便于应用Benjaminii和Hochberg又在此基础上提出了BH算法的等价方法，对p值进行调整，再将调整后的p值与显著性水平比较。Benjanimi和Yekutieli在推广BH算法结论的同时，也对算法过程进行修饰，得到BY算法。当检验统计量的联合分布为任意分布时，BY算法仍然可以使错误发现率得到控制。

控制阳性错误发现率：控制总体错误率和控制错误发现率的多重检验方法的基本思想都是依照p值序列对原假设进行判断，即给定显著性水平α，找到拒绝域，将错误率控制在α以下。Storey(2003)提出的检验算法是先根据经验确定拒绝域，然后计算pFDR的估计值并定义q值(FDR方法校正后的p值)，最后通过q值确定拒绝原假设的检验。

(3)基于先验信息与数据驱动结合的阈值划分及模型性能等级评定方法；

依据构建的完备的评价校准模型验证指标体系，获得了不同输入条件下模型结果的可信度指标，通常需要人为通过特定方法将其分数映射为0～1000之间的数值再划分为离散的几个级别。连续的分值虽然可以直接比较不同输入条件下评价校准模型输出结果可信度的差异，但在实际使用中，对于不同模型的可信度，需要采取不同的策略，给予每个可信度分数分配不同的模型使用策略的话开发成本会非常大，并且整个策略体系的稳定性非常差，因此需要将模型可信度划分为几个评价等级。在完成模拟标准台区的模型性能等级评价后，采用基于分类的方法对真实环境中可能出现的复杂工况进行性能等级划分。通常离散化评价等级分为确定分数映射逻辑和阈值等级划分两个步骤。

1)分数映射；

分数的映射最核心的需求，是将模型输出映射为某种业务人员较容易理解的指标。常用的分数映射逻辑有：box-cox变换、逻辑回归的评分映射和集成树模型的评分映射逻辑等。

box-cox变换：最简单的映射逻辑就是将0～1的分数乘以1000，可以得到0～1000的分数。但通常模型的评价结果是长尾分布，为了使得其分布更符合，通常会使用cox-box变换，将分数朝着正态分布的样式调整。

逻辑回归的评分映射：该方法是金融业务中用户评分卡换算常用的一种比率缩放的评分映射方法。

其中，score是评分卡映射之后的输出，P_正是模型结果可信的概率，P_负是模型结果不可信的概率。上式中的基础分(Base Score)650分和步长(Point of Double Odds，PDO)50分，需要根据业务需求进行调整。还有一种映射方式，是不考虑评分转换的真正含义，直接使得：

score＝650+50×log₂(pred-lag) (21)

其中pred是模型输出的可信度，lag通常设置为期望模型可信度等于基础分时对应的值。此外还可以将步长更改为随着pred变化的动态步长，从而使得评分映射后的分布更加密集。

集成树模型的评分映射逻辑：XGBoost/LightGBM的分数映射逻辑是原始得分较高映射分数越小，对应模型不可信的概率，其分数映射公式为：

2)阈值等级划分算法；

在确定验证模型输出可信度分数的映射逻辑后，选择合适的阈值等级划分算法对映射后的分数进行分级。分数分级本身是一个分箱问题。在风控领域有非常多的分箱方法，都有着优异的表现。可以借鉴一些变量处理过程中的分箱技术，对评价校准模型可信度等级进行划分。模型输出结果的可信度分数是一个连续变量。可以使用对连续变量进行离散化的算法获得合理的分层逻辑，并且结合整个评价指标体系的下各级指标的先验知识获得不同等级对应的划分阈值。

基于技术的最优等级划分：卡方分箱使用卡方检验确定最优分箱阈值。如果两个相邻的区间具有相似的标签分布，就将这两个区间进行合并。低卡方值表明它们具有相似的类分布。卡方检验就是对分类数据的频数进行分析。它的应用主要表现在两个方面：拟合优度检验和独立性检验。拟合优度是对一个分类变量的检验，即根据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异，从而达到对分类变量进行分析的目的。独立性检验是两个特征变量之间的计算，它可以用来分析两个分类变量是否独立，或者是否有关联。

卡方分箱就是利用独立性检验，来挑选划分节点的阈值。卡方分箱的过程可以拆分为初始化和合并两部分。(1)初始化：根据连续变量值大小进行排序，构建最初的离散化，即把每一个单独的值视为一个箱体。这样做的目的是从每个单独的个体开始逐渐合并。(2)合并：遍历相邻两项合并的卡方值，将卡方值最小的两组合并，不断重复直到满足分箱数目的限制。

基于业务的等级划分：基于业务划分等级的方法，是指希望保存当前划分等级后，每个等级的样本数量占比，与之前版本模型基本一致。是希望在模型迭代时，保证分数阈值不变，这样就不需要修改对应阈值的联动策略。此时需要通过调整基础分和步长，使得模型最终分级结果落在每个区间的占比相同。可以借用分段函数，采取组合的分数映射逻辑进行调整，这不影响最终模型的排序能力。

实施例2：

本发明还提出了一种用于电能表信息化评价校准模型的测评***200，如图6所示，包括：

指标体系确定单元201，用于针对电能表信息化评价校准模型，确定与所述电能表信息化评价校准模型的模型准确度相关的测评指标和业务需求相关的测评指标；

关键指标体系确定单元202，用于基于层次分析法，根据所述模型准确度相关的测评指标和所述业务需求相关的测评指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系；

测评单元203，用于获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。

其中，模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

其中，关键指标体系确定单元202基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

其中，关键指标体系确定单元202还用于：对所述比较判断矩阵进行一致性校验，校验通过后，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量。

其中，测评单元203获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

其中，测评单元203对所述关键指标的值进行联合验证，包括：

所述单次假设检验采用贝叶斯因子检验；

其中，测评单元203将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

基于卡方分箱法或基于业务的等级划分法，对所述可信度分数，进行等级划分，得到一个模型等级，根据所述模型等级确定测评结果。本发明实施的技术方案中，根据电表信息化评价校准模型的模型准确度和业务需求两方面的特点，提出了基于层次分析的模型测评关键指标分析与构建方法，确定了平均绝对误差、解释方差分以及检出率、误检率、受试者工作特征曲线下面积多个测评指标，并根据不同指标对于实际需求的不同重要程度，使用层次分析法构建了递阶层次结构，解决了多个单一指标难以有效合成关键指标的问题。考虑到电能表信息化评价校准模型的有效性受到实际工况的影响，不同输入条件下模型结果可信度可能存在差异，提出了基于多重假设检验的智能电能表信息化评价校准模型多工况联合验证方法，使用了多重假设检验理论对不同工况下评价校准模型输出的可信度进行多重假设检验验证，降低了多次假设检验的错误率，实现了在复杂多样的台区场景下综合考虑多指标多工况的评价校准模型结果联合验证。

实施例3：

基于同一种发明构思，本发明还提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能，以实现上述实施例中方法的步骤。

实施例4：

基于同一种发明构思，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于电能表信息化评价校准模型的测评方法，其特征在于，所述方法包括：

获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，根据确定的指标体系计算得到所述验证样本数据集中不同工况下的关键指标值，利用多重假设检验方法对多个工况下的关键指标值进行联合验证，将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果。

2.根据权利要求1所述的方法，其特征在于，所述模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

3.根据权利要求1所述的方法，其特征在于，所述业务需求相关的评测指标为用于计算电能表信息化评价校准模型的检出率、误检率和受试者工作特征曲线下面积的计算体系。

4.根据权利要求1所述的方法，其特征在于，所述基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

7.根据权利要求6所述的方法，其特征在于，基于皮尔逊相关性分析方法和最大信息系数法确定关键因子。

8.根据权利要求1所述的方法，其特征在于，所述对所述关键指标的值进行联合验证，包括：

所述单次假设检验采用贝叶斯因子检验；

9.根据权利要求1所述的方法，其特征在于，所述将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

10.一种用于电能表信息化评价校准模型的测评***，其特征在于，所述***包括：

11.根据权利要求10所述的***，其特征在于，所述模型准确度相关的评测指标为用于计算电能表信息化评价校准模型的平均绝对误差、最大误差和解释方差分的计算体系。

12.根据权利要求10所述的***，其特征在于，所述业务需求相关的评测指标为用于计算电能表信息化评价校准模型的检出率、误检率和受试者工作特征曲线下面积的计算体系。

13.根据权利要求10所述的***，其特征在于，所述关键指标体系确定单元基于层次分析法，根据所述模型准确度相关的评测指标和所述业务需求相关的评测指标，构建用于所述电能表信息化评价校准模型测评的关键指标体系，包括：

14.根据权利要求13所述的***，其特征在于，所述关键指标体系确定单元还用于：对所述比较判断矩阵进行一致性校验，校验通过后，根据所述比较判断矩阵，计算得到各评测指标体系对于上层评测指标体系的归一化相对重要度向量。

15.根据权利要求10所述的***，其特征在于，所述测评单元获取所述电能表信息化评价校准模型的原始数据集，对所述原始数据集进行预处理得到验证样本数据集，包括：

16.根据权利要求15所述的***，其特征在于，基于皮尔逊相关性分析方法和最大信息系数法确定关键因子。

17.根据权利要求10所述的***，其特征在于，所述测评单元对所述关键指标的值进行联合验证，包括：

所述单次假设检验采用贝叶斯因子检验；

18.根据权利要求10所述的***，其特征在于，所述测评单元将验证结果映射为一个模型等级，根据所述模型等级确定所述电能表信息化评价校准模型性能的测评结果包括：

19.一种计算机设备，其特征在于，包括：

一个或多个处理器；

处理器，用于执行一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1-9中任一所述的方法。

20.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1-9中任一所述的方法。