CN111415049A

CN111415049A - 一种基于神经网络及聚类的停电敏感性分析方法

Info

Publication number: CN111415049A
Application number: CN202010337394.5A
Authority: CN
Inventors: 武光华; 张世科; 刘二刚; 李倩; 柳长发
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-07-14

Abstract

本发明公开了一种基于神经网络及聚类的停电敏感性分析方法，包括数据预处理、聚类分析、构建神经网络模型、停电模拟预测、停电计划安排步骤。本发明通过停电计划对频繁停电的线路及对应的敏感型用户就行全面梳理，提取了用户停电敏感特征，并对区域特性进行了研究，有地域性有目标针对型的指定切实可行的改善优化措施，提高供电的服务水平。

Description

一种基于神经网络及聚类的停电敏感性分析方法

技术领域

本发明涉及一种停电敏感性分析方法，尤其是一种基于神经网络及聚类的停电敏感性分析方法，属于电力大数据应用技术领域。

背景技术

2018年全年某电力客户服务中心共计受理56万工单，其中因停电导致的投诉和报修工单占近15％。降低由停电导致的投诉可以大大压缩工单受理次数，对供电质量提升影响比较大。现有的停电敏感度研究，基本都是选中影响指标，通过测试数据建立测试模型，确定指标权重，计算得到是否属于敏感情况。杨恒程，帅春燕在“基于机器学***、吴广财针对非重要客户，搭建逻辑回归算法和决策树算法进行模型对比测试，最终应用逻辑回归模型进行探索研究，并针对电力用户的特色，制定出差异化服务的措施。敏感客户的研究不同于一般的定性分类问题，目前研究比较少，并没有明确的模型和可借鉴的方法。

因此基于当前工单信息，深入建模挖掘停电敏感的规律和影响因素，评估停电敏感性，从而确定计划停电的重要因素，实现每条线路停电计划的安排有科学理论支撑可遵循，具有重大意义。

发明内容

本发明要解决的技术问题是提供一种基于神经网络及聚类的停电敏感性分析方法。

本发明所采取的技术方案是：

一种基于神经网络及聚类的停电敏感性分析方法，包括以下具体步骤：

步骤1：数据预处理：采集停电计划表、停电工单表、报修工单表、客户诉求工单表，作为数据样本，计算各区域对应的停电工单数量，对停电计划表和停电工单中文本型分类变量进行数据标签化，使得数据样本平衡；

步骤2：聚类分析：对数据样本进行聚类分析，标注各地域的停电敏感性标签，将停电敏感性标签作为地域因素指标加入停电计划政策向导表；

步骤3：构建线路敏感性神经网络预测模型；根据投诉工单和报修工单量是否超过预设阈值，判分是否敏感特性；

步骤4：停电计划安排：对停电导致的投诉工单和报修工单向上追溯至地区和线路，精准定位客户的敏感度特性，为未来停电安排提供依据。

进一步，步骤1中采用欠采样技术解决数据样本的不平衡现象。

进一步，步骤1中采用调整权重技术解决数据样本的不平衡现象。

进一步，步骤1中采用过采样技术解决数据样本的不平衡现象。

进一步，步骤1中采用合成少数类过采样技术解决数据样本的不平衡现象。

进一步，采用合成少数类过采样技术解决数据样本的不平衡现象，正则化强调为0.01。

进一步，步骤2中采用两步聚类法；

1)预聚类阶段：采用BIRCH算法中CF树生长的方法，逐个读取数据集中数据点，在生成CF树的同时，预先聚类密集区域的数据点，形成诸多的小的子簇；

2)聚类(clustering)阶段：以所述子簇为对象，利用凝聚法逐个地合并子簇，直到预设的簇数量。

进一步，步骤2中采用模糊C均值聚类法；

步骤8-1：对于给定的训练样本{X₁，X₂，…，X_j,…,X_N}，设定K为分类的个数，W为初始的隶属度矩阵，W的每个数据w_ji采取计算机伪随机给定[0,1]之间的数值，并满足下式：

目标函数为：

步骤8-2：计算每一个聚类的中心点：

步骤8-3：根据公式(2)和(3)计算第t次和第t-1次迭代的目标函数值J^(t)和J^(t-1)，并计算J^(t)和J^(t-1)之间的差值；当这个差值小于设定的某个容忍的误差ε时，结束迭代运算过程，否则，执行步骤8-4；

E(t)＝||J^(t)-J^(t-1)||＜ε (5)

步骤8-4：重新计算隶属度矩阵W，公式如下式所示，并返回步骤8-2，

其中，C_s为本次迭代所得的每一个聚类中心。

进一步，步骤2中采用EM聚类法。

步骤9-1：样本服从k个混合高斯分布模型，初始化k个多元高斯分布参数μ_j，δ_j,其中j∈{1,2,…,k}；

步骤9-2：E-Step:遍历所有样本点，对于样本点x⁽ⁱ⁾，其中i∈{1,2,…,m}，计算其属于第j个多元高斯分布的概率，计算公式为：

其中，z⁽ⁱ⁾表示x⁽ⁱ⁾所属的类；

步骤9-3：M-Step:更新各多元高斯分布的参数：

步骤9-4：判断各高斯参数是否均达到预设的高斯参数收敛条件，如果未达到，转向步骤9-2；

步骤9-5：利用计算出的高斯参数，遍历所有样本，将样本归于概率最大的一类。

进一步，步骤2中采用3个类别的KMEANS聚类法；

步骤10-1：对于给定的训练样本{x⁽¹⁾，x⁽²⁾，…，x^(m)}每个x⁽ⁱ⁾∈R⁽ⁿ⁾,

选择K个点作为初始中心{c₁，c₂，…，c_k}；

步骤10-2：对于每个样本点计算{d(c₁,x_i),d(c₂,x_i)，…，d(c_k,x_i)}按最小距离原则分配到最邻近的聚类，形成K个簇；

距离计算公式：

步骤10-3：使用每个聚类中的样本均值作为新的聚类中心；

中心更新公式：

其中x_j为属于c_j类的样本点

步骤10-4：判断本次聚类中心与上次聚类中心距离是否大于预设距离，

如果是，转向步骤10-2，否则结束得到K个聚类。

采用上述技术方案所产生的有益效果在于：

本发明通过停电计划对频繁停电的线路及对应的敏感型用户就行全面梳理，提取了用户停电敏感特征，并对区域特性进行了研究，有地域性有目标针对型的指定切实可行的改善优化措施，提高供电的服务水平。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的流程图；

图2是本发明实施例的停电时长重要性图；

图3是本发明实施例的轮廓系数对比图；

图4是本发明实施例的神经网络变量重要性图。

具体实施方式

实施例1：

近几年因频繁停电造成的工单逐年攀升，而敏感型用户诉求在很大程度上能够反映出供电单位的服务质量的改善方向。本实施例基于95598停电工单样本数据，首先通过聚类分析研究停电时长的敏感特性，标签化百县用户。同时，结合用户对用电的敏感程度，确定影响停电敏感的因子，建立能够反映这些因子特征的线路敏感性神经网络模型，对线路的停电计划进行停电工单的预测，实现用户敏感与否的预估，从而因地制宜的制定相关停电计划，优化停电流程措施，来提升用户对供电单位的服务感知。

本实施例基于18年河北省国家电网客户服务中心工单数据对停电敏感性进行挖掘，研究停电的特征影响因子，生成停电理论支持，从而对未来计划停电安排进行策略规划；具体过程如图1所示。

一种基于神经网络及聚类的停电敏感性分析方法：包括以下具体步骤：

步骤1：数据预处理：数据包括停电计划表、停电工单表、报修工单表、客户诉求工单表；通过停电线路和停电时间字段关联停电计划表和停电工单表，得到各区域对应的停电工单数量；对停电计划表和停电工单中文本型分类变量进行数据标签化，并解决数据样本的不平衡现象；

(1)数据标签化

本实施例选取指标为：工单编号、地市、县区、月份、停电时长、停电时间点、工单类型、工单数、用户个数、季节因子。其中季节因子、停电时长，停电时间点、停电类型字段信息，需要进行一步的进行数据的标签化。标签化结果见表1。

表1

(2)样本不平衡处理

样本数据往往存在不平衡的现象，针对这种现象的处理办法一般分为三类：欠采样、过采样、调整权重。合成少数类过采样技术(Synthetic Minority OversamplingTechnique)，简称SMOTE是针对处理数据样本不平衡的一种方法，相比较于随机过采样处理技术，SMOTE的优势在于它能够利用少数类样本进行分析并根据这些少量样本进行人工合成，生成新样本并将其扩充到数据样本中。本次处理采用合成少数过采样技术进行数据不平衡处理；

步骤2：聚类分析：首先通过统计停电时长与工单数量之间的关系，随停电时长增加，工单数量呈现逐渐增加趋势，1-9小时会有激增，但15小时之后的停电，工单基本趋于稳定。可见，人们在短期停电上会做出反应，一定时间后，对停电的敏感性变稳定。

其次，将停电时长划分为13个字段类别，分别统计每个时间段来电数量，并通过用户数将工单量平均，实现地区可比性。各个停电时长类别对聚类的重要性如图2所示。

最后，对投诉工单编号、用户编号、受理时间、地市、县区、停电时长、用户数、所在台区、季节因子、停电时长、停电时间点、停电类型进行聚类分析，标注各地域的停电敏感性标签，将停电敏感性标签作为地域因素指标加入停电计划政策向导表，聚类结果见表3。这里采用了四种聚类分析方法，四种聚类评估结果见表4和图3；

表3

表4

步骤3：构建神经网络模型：构建线路敏感性神经网络预测模型选取指标有：季节因子(春、夏、秋、冬)、停电类型因子(计划停电、临时停电、电网故障停电、超电网供电能力)、停电时长、停电时段(早、中、晚)、现场送电类型、短信发送标志、总台区、停电台区、公变台区、专变用户、地域居民、低压非居民、工单量，共计21个指标。根据投诉工单和报修工单量的多少，划分为0-1是否敏感特性。分析结果见图4。

最终建立了基于神经网络的敏感度预测模型，模型共计分为4个神经网络层，包含一个输入层，两个隐层[50，10]和一个输出层。

预测结果见表5，本次基于神经网络的预测模型效果比较好，其预测的准确度高达83.9％，能够很好的通过停电计划描述，对该次停电计划做出敏感与否的定性预测。

表5

步骤4：停电计划安排：基于聚类分析和神经网络模型，构建敏感度特性研究，围绕影响停电敏感性的各类因子展开分析，对因停电导致的投诉工单和报修工单等客户诉求，向上追溯至地区和线路，精准定位客户反映强烈的敏感度特性，为未来停电安排提供决策支撑。

进一步，步骤2中采用两步聚类法。

进一步，步骤2中采用模糊C均值聚类法。

进一步，步骤2中采用EM聚类法。

进一步，步骤2中采用3个类别的KMEANS聚类法。

聚类分析是一种基于多维指标或多个样本定量分析的算法，依据分析对象的不同，可分为对样本的Q型聚类和对指标的R型聚类。大自然中存在物以类聚的现象，聚类分析就是以此为原则，即类似程度高的样本聚为一类。相似度是依据距离进行划分的。聚类涉及到的几类距离如表2所示。

表2

最终100个县区被分成了三类：敏感、一般、不敏感。其中，敏感类20 个，石家庄、保定、沧州等六个市区都集中在敏感类型当中，一般类有6个，其他74个地市或县区为不敏感类。具体分类结果见表3。

通过多种聚类方法和多种分类形式，最终选择了划分为3个类别的KMeans 聚类，聚类效果比较好，从聚类结果看，也基本符合河北电网南区地域停电敏感性的感知。本实施例将百县划分为3类，作为地域特色因子纳入后续的神经网络线路敏感性测评。

从聚类分析的原理来看，聚类分析分为四类，各类的逻辑如下：

划分聚类：先随机构建K个分类，再逐步迭代，使距离最小化，对样本重新进行分类；

层次聚类：将样本依照距离最小原则，分为从上到下分类和从下向上合并聚类两种；

密度聚类：当临近样本的相似性越过临界点时，增加分组，主要用于剔除孤立离群点；

网格聚类：首先将空间网格化，再将对象映射到网格中，对数据的处理，转化为处理每个网格上的单元个数。

本文应用的是对地区样本进行聚类的Q型聚类分析方法，通过对百县样本距离进行度量，采用划分聚类，K-mean均值方法研究停电指标的地域特性。

人类大脑是一个高速发达的大规模非线性自适应体系，神经网络便是计算机模拟人脑***进行数据处理和挖掘的一种算法结构。神经网络模型被大量应用于商业数据的分类预测当中。

神经网络包含输入层、加法器、激活函数、输出层等结构，三层及以上神经网络还包含中间隐层，神经网络的层数和每层的节点决定了神经网络的复杂程度。

如输入层用X表示，有n个输入节点，X＝{X₁，X₂......X_n}；中间层Z，有k个节点，Z＝{Z₁，Z₂......Z_k}，输出层Y，有m个输出节点，Y＝{Y₁，Y₂......Y_m}；第j个节点的加法器U_j定义如下：

其中，θ_j为常数项，w_ij为第i个输入节点到地j个节点的权重。U_j为输入变量的一个线性组合，代表了输入节点X到Z的映射；

从Z到Y的映射涉及到的是激活函数f，激活函数的作用是将加法器的值映射到最终的一个结果范围Y_j＝f(U_j)。目前有两种较为普遍，使用率较高的激活函数：一种是[0，1]或[-1，1]型阈值函数；另一类是(0，1)或(-1，1)型 Sigmoid函数。

(0，1)型Sigmoid函数为：

神经网络的逻辑就是通过不断的调整各个节点的权重，寻找最优的的权值 w_ij，最终通过激励函数将结果映射到相应的类或取相应类别值的概率上，前者依靠的是阈值函数，后者采用的是Sigmoid函数。因此寻找最优的权值w_ij成为神经网络不断学习和迭代的主要过程。迭代终止的条件遵循Delta原则，即评判寻找到最优的权值w_ij的依据为预测误差L达到指定最小值。其中

对于每一个输出节点j，将上述加法器函数和激活函数带入作为评判依据的误差函数，可得

由此函数可知，误差函数仅与权重和对应的常数项有关，将求误差函数最小值转化为，求导求极值问题，即可得最终的权重w_ij与误差L。

本实施例通过研究河北地区用户对用电信息的敏感度，定位特殊人群，找准发力点，方便停电计划更有针对性的通知和安排，降低运维类投诉，从而从大限度的争取用户的认可和满意。另外，对有可能形成频繁停电的，严格把控停电检修计划，同时加强巡视维护。建立优质服务工作预警机制和敏感用户档案，重点关注因故障或计划检修等原因停电线路和大型社区，加大对敏感用户的沟通；整合停电计划，加大计划停电宣传，拉近与用户的距离。本实施例结合95598历史停电相关工单与停电计划表，以停电线路为研究目标，创建停电敏感度模型，建立停电感知指标体系，从降低客户投诉次数及话务量的角度对停电计划开展优改工作。

首先，从停电时长方面，由于随着停电时长的增加，工单数量不断增加的，同时考虑前期剧增，后期增长速度逐渐放缓特点，所以在停电时长控制上应尽可能的缩短，以减少因停电导致的群众的不满意情况。2018年，停电时长在5 小时-7小时之间的投诉工单数量有6448件，而24小时以上的有12973件，可见如果将停电时长限制在7小时以内，或在7小时以内解决停电故障，可减少 50％的投诉，在很大程度上提高客户满意度。

其次，从地域上看，国网河北南区的特性也很明细，石家庄、保定、邢台、邯郸、沧州、衡水六市的市区，以及个别地级市和县区，用户对停电很敏感，需要做好这部分的运营工作，加大宣传力度、建立用户停电预警提醒，以降低高敏感用户的投诉情况。

最后，针对每条停电计划，通过神经网络模型，可以预估此次停电是否具有敏感特性，针对敏感计划停电线路，可以通过适当调整停电的时长、时段、覆盖范围等，来降低敏感。对于因实际情况无法调整的停电计划，通过预估敏感性，可以有准备的提前对维护、客服、宣传等人员做好安排。