CN109472293A

CN109472293A - 一种基于机器学习的电网设备档案数据纠错方法

Info

Publication number: CN109472293A
Application number: CN201811187606.5A
Authority: CN
Inventors: 龙婧; 刘伟; 徐文峰
Original assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC
Current assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-03-15

Abstract

本发明提供一种基于机器学习的电网设备档案数据纠错方法，对现有的大量数据进行处理、挖掘其中隐藏的规律，自动生成判断规则，基于这些规则对数据进行自动诊断，能够大大降低工作难度，可以为数据质量筛查、数据整改、数据治理提供一份重要的依据；本发明利用大数据技术开展数据治理，对大量数据中异常的自动诊断，并为数据的整改提供建议，能够减少数据校验工作对业务人员的强依赖性，对于完全无规则可提炼的分散型数据异常情况，也可以机器学习实现自动处理，避免人力筛查带来的复杂工作量，本发明利用大数据对数据异常问题进行归类分析，提供给数据产生方进行整改，能够从源头上降低数据问题，为数据源头整改提供参考。

Description

一种基于机器学习的电网设备档案数据纠错方法

技术领域

本发明涉及电网设备数据纠错领域，具体是一种基于机器学习的电网设备档案数据纠错方法。

背景技术

电网生产设备台帐数据是电网生产工作开展的基础，目前各类生产设备台帐数据均存存储在设备(资产)运维精益管理***(PMS2.0)***中，总数据量超过60G，涉及到200余种设备，例如：母线、架空线路、开关柜、电容器、变压器、电缆等。

基层班组人员负责对设备数据及时进行更新维护，现场设备运维、检修、检测、试验等各项生产工作均需以设备数据为基础，只有保证设备数据准确性，相关运维检修业务记录才能准确无误登记PMS2.0***中，为设备状态检修评价和资产全寿命周期管理提供重要依据，也是运维检修精益化管理的重要体现。另外，设备规模是人资定员定编、成本核算的重要依据，因此设备数据准确性尤为重要。

目前电网生产设备台帐数据存在不完整、不准确等问题。设备参数异常不仅影响设备本身档案的管理，同时直接影响到运维检修工作的开展，例如：

1.设备台账关键参数不完整。

2.设备台账数据与GIS图形数据不对应。

3.设备台账参数填写错误。

4.***中设备台帐数据与现场存在差异。

其中问题3、4无法通过提炼错误规则开发程序来进行错误数据筛查，目前采用人工手段进行核对，每100条数据往往需要投入3人·天的工作量。工作难度大，而且效果欠佳。这些数据问题直接影响日常运维检修工作，不能正常登记运维检修记录，同时也影响营配贯通、同期线损等工作的开展，另外，设备台帐数据异常将导致人资定员定编和运维成本的核算不准确。

发明内容

针对现有技术存在的上述不足，本发明提出一种基于机器学习的电网设备档案数据纠错方法，对现有的大量数据进行处理、挖掘其中隐藏的规律，自动生成判断规则，基于这些规则对数据进行自动诊断，能够大大降低工作难度，可以为数据质量筛查、数据整改、数据治理提供一份重要的依据。

一种基于机器学习的电网设备档案数据纠错方法，包括如下步骤：

第一步：数据抽取，获取训练集：将公司保存的所有电网设备档案数据作为历史数据导入数据库中，将数据库中的历史数据作为训练集F；

第二步：对训练集F进行特征提取，通过字符串拆分的方式得到特征数据集合S＝{s₁,s₂,s₃,...,s_n}；

第三步：手动从特征数据集合S中挑选特征值选择作为特征向量S'，S'＝{s'₁,s'₂,s'₃…,s'_m}，其中

第四步：通过TF-IDF算法对特征向量S'加权，加权方式为特征向量中的特征值s'_m在训练集F中出现的频率，记为N_m，在训练集中每条数据记录包含特征词s'_m的频率为N'_m，那么该特征词s'_m的IDF值为

因此该特征词的权重ω_m可以表示为ω_m＝N_m*IDF(s'_m)，通过这种方式对特征向量S'中的每一个特征词进行计算权重，得到权重向量ω；

第五步：通过第三步和第四步选中的特征向量和得到的特征向量的权重，对原始数据通过分布式K-Means算法进行聚类，最终将训练集F分为k个类；

第六步：针对第五步得到的聚类结果，人工验证聚类中的数据，将异常数据和误判数据选出，验证每个类中的数据误判的情况，得到数据验证的准确率，对所有的类中的准确率求取平均值，得到模型的准确率，然后判断模型准确率是否达到预期的阈值，如果没有则转到第三步，重新选择特征值、特征向量、确定权重，直到准确率达到预期的阈值；

第七步：模型确定后，在使用阶段将数据聚类，然后将每一类的

异常数据返回给用户，并且将正常数据推荐给用户，由用户参考修改。

进一步的，包括第八步：模型修正：在用户使用过程中，通过用户的反馈来修正模型的特征值和权重。

进一步的，第五步中聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的，距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算，欧式距离计算公式为

本发明利用大数据技术开展数据治理，对大量数据中异常的自动诊断，并为数据的整改提供建议，能够减少数据校验工作对业务人员的强依赖性，对于完全无规则可提炼的分散型数据异常情况，也可以机器学习实现自动处理，避免人力筛查带来的复杂工作量，本发明利用大数据对数据异常问题进行归类分析，提供给数据产生方进行整改，能够从源头上降低数据问题，为数据源头整改提供参考。

附图说明

图1是本发明基于机器学习的电网设备档案数据纠错方法的流程示意图；

图2是聚类阶段的数据预处理流程示意图；

图3是K-means并行化运行流程示意图；

图4是通过分布式K-Means算法进行聚类时k值从20到1000的选取拟合图，图中横轴表示k值，纵轴表示损失函数值；

图5是采用分布式K-Means算法时某一类的聚类结果示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

由于电网生产设备台帐数据以前都是人工整合收集处理的，在这些数据中难免会出现各种错误和误差，这些误差和错误数据会极大的影响现场设备运维、检修、检测、试验的有效性。因此将这些数据中的异常数据更改为正常数据是十分有必要的。但是由于数据量过于庞大，仅仅靠人工手动进行筛选纠错是非常困难的，所以，本发明采用基于Spark的分布式K-Means算法来对异常数据的自动处理和纠正，可大大减小工作量。

本发明实施例提供一种基于机器学习的电网设备档案数据纠错方法的流程示意图，该方法主要是进行异常数据诊断业务，其目标有两个：一是诊断出异常的数据；二是对异常数据提供整改建议。本发明从整体上来说包含三大步骤：数据抽取、模型构建、模型修正，整体流程如图1所示，所述方法主要包括如下步骤：

第五步：通过第三步和第四步选中的特征向量和得到的特征向量的权重，对原始数据通过分布式K-Means算法进行聚类，聚类的目的就是为了将同种设备(同种设备由于不同的人员记录，命名方式也不同，所以需要挑选特征)的同类属性值聚和为一类，方便挑选出异常数据。聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的，距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算，欧式距离计算公式为

最终将训练集F分为k个类；

第六步：针对第五步得到的聚类结果，人工验证聚类中的数据，将异常数据和误判数据选出，验证每个类中的数据误判的情况，得到数据验证的准确率(数据分好类后，由于同种设备，相同属性的数据应该相差不会特别大，如果发现数据异常于整个类别中该属性数据的众数和均值，那么该数据就认定为异常数据)，对所有的类中的准确率求取平均值，得到模型的准确率，然后判断模型准确率是否达到预期的阈值(例如90％)，如果没有则转到第三步，重新选择特征值、特征向量、确定权重，直到准确率达到预期的阈值。

第七步：模型确定后，在使用阶段将数据聚类，然后将每一类的异常数据返回给用户，并且将正常数据推荐给用户，由用户参考修改；

第八步：模型修正

在用户使用过程中，通过用户的反馈来修正模型的特征值和权重。无论机器学习的学习任务采用的是何种算法，模型评估都是端到端机器学习流水线的一种环节。监控模型算法在生产环境下表现，客观评估模型准确度和诊断效果、客户体验、用户反馈等相关指标，通过调整模型及参数进而优化模型算法。

上述第五步中，在Spark集群中并行运行K-means算法可以分为2个阶段:数据预处理阶段和K-means聚类阶段。数据预处理阶段流程如图2所示。

在聚类阶段，经过预处理阶段后，数据集已经满足了聚类的要求，因此只要把预处理之后的结果使用K-means算法计算出k个聚类中心，该K个点就能作为整个数据集的k个聚类中心。聚类阶段并行化流程如图3所示:

下面以一个具体实例对本发明的技术方案进行详细说明：

问题描述：

在实际电网工作开展中，同一种设备往往大批量采购，批量使用，在***中应该以一定数量级存在，不可能只出现一次，而且同一种设备对应的特定属性值应该是一致的，在设备档案数据当中，型号作为识别该设备的唯一标识，可以根据型号来判断该设备特定属性的值是否正确。

表1实验样本数据表

Table 2 Sample data table

目前数据集中主要是以下问题:

1.型号填写不规范无法识别

基层班组人员负责对设备数据录入，由于每个基层班组人员按照自己习惯进行数据填写，导致同一种型号的设备在“型号”字段都呈现为不同。例如上表中S11-M-100/10、S11-100/10、S11-100、S11-100KVA其实是同一种设备，但是在数据库里面填写不一样，同一种型号可能有几十种填写方式。

2.同一种型号对应多种属性值

基层班组人员录入数据时时常填写错误，而数据使用人员不清楚现场设备的情况，这直接导致很多业务无法开展。目前数据库中往往同一种型号的设备的额定容量出现多种值。

具体实施：

1.特征值的提取

特征选择在机器学习中占有相当重要的地位。从“型号”字符串文本中提取特征，例如“型号”“S11-M-100/10”通过字符拆分可以提取为S、11、M、100、10共5个特征。这5种特征共呈种组合方式。在本实验中，通过反复测试并与真实对照，从这几个特征中筛选出无关或者冗余特征，将其去除后保留一个特征子集。

2.特征值的权重

由于在“型号”文本当中提取特征，每个特征对分类的贡献程度不一样，因此在运用这些特征前要进行加权。每个特征所占的权重值不能一概而论。在这里使用TF-IDF加权的方法，TF-IDF是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

3.k值的选取

对于k值的选取，我们基于业界常用的肘部法，定义一个函数，随着k的改变，认为在正确的k时会产生极值。即:给定一个合适的类簇指标，比如平均半径或直径，只要我们假设的类簇的数目等于或者高于真实的类簇的数目时，该指标上升会很缓慢，而一旦试图得到少于真实数目的类簇时，该指标会急剧上升。例如在本实验中，设置k∈(20，1000)从20开始，每次k值增加98，损失函数和k值关系曲线如图4所示。

根据聚类结果，结合业务对数据进行后续处理，由于“型号”能够唯一标识一种设备，而设备还具备很多其它的属性，例如“额定容量”、“电压等级”、“绝缘介质”等，同一种设备的属性值唯一。在这里以对“额定容量”进行纠错为例进行介绍，得出“正确数据”、“异常数据”、“错误数据”的纠错结果，对其中的错误数据、异常数据进行分析，提供修改建议，实现智能诊断。具体的分析过程如下所示:

(1)对聚类后的结果进行统计。在同一类数据中，基于正确的数据出现频次最多，错误数据属于少数的原则，认为“型号”和“额定容量”出现次数最多的组合为推荐的正确数据。

(2)“型号”和“额定容量”跟推荐的正确数据均不一致时，判断为错误数据。

(3)“型号”和“额定容量”跟推荐的正确数据某一项不一致时，判断为异常数据。“型号”和“额定容量”跟推荐的数据格式完全一致时，为正确数据。

聚类的效果实验图如图5所示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于机器学习的电网设备档案数据纠错方法，其特征在于包括如下步骤：

第三步：手动从特征数据集合S中挑选特征值选择作为特征向量S'，S'＝{s′₁,s′₂,s′₃…,s′_m}，其中

第七步：模型确定后，在使用阶段将数据聚类，然后将每一类的异常数据返回给用户，并且将正常数据推荐给用户，由用户参考修改。

2.如权利要求1所述的基于机器学习的电网设备档案数据纠错方法，其特征在于：还包括第八步：模型修正：在用户使用过程中，通过用户的反馈来修正模型的特征值和权重。

3.如权利要求1所述的基于机器学习的电网设备档案数据纠错方法，其特征在于：第五步中聚类算法中k的值根据训练集的样本数量和所有类中的距离和为最小时的k的值确定的，距离计算采用欧式距离计算公式对训练集F中的两条记录i,j的距离进行计算，欧式距离计算公式为