CN111126429A

CN111126429A - 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Info

Publication number: CN111126429A
Application number: CN201911091514.1A
Authority: CN
Inventors: 王伟峰; 严华江; 胡瑛俊; 叶方彬; 姜莹; 姜驰; 戴磊华
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-11-10
Filing date: 2019-11-10
Publication date: 2020-05-08

Abstract

本发明公开了一种基于PCA降维和K‑Means聚类的低压台区用户接入点识别方法,涉及低压台区用户接入识别方法。目前，排查都需要人工上门排查，且无法事先进行预测，只能逐户进行排查，耗费大量人力物力。本发明对标准化处理的数据进行主成分分析法PCA降维处理，经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下，通过寻找新的向量基，将原有高维数据投影在低维空间，剔除方差较小的噪声，保留信息量最大的主成分；聚类分析；对所分析台区进行现场排查，验证分析结果的准确性。本技术方案事先进行预测，不需要逐户进行排查，减少大量人力物力，不影响台区下其他用户的正常用电，且不需要投入载波通信设备，无需增加电力企业的运营成本。

Description

一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

技术领域

本发明涉及低压台区用户接入识别方法，尤其涉及一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法。

背景技术

低压台区处于整个供电网络的最后一个环节，由于供电区域错综复杂，用户种类繁多，因此低压台区的用户拓扑档案往往存在错误多、排查难的问题。目前针对用户台区拓扑信息错误的排查方法主要有两种：人工现场排查和低压载波通信技术，前者主要依靠电力一线员工现场排查，有时还需要进行“拉闸验电”的工作；低压载波通信技术主要依靠新型采集电表装置和手持载波通信仪，通过用户与变压器之间的报文接受情况判断用户拓扑信息是否正确。

然而，这两种排查方式都需要人工上门排查，且无法事先进行预测，只能逐户进行排查，因此将耗费大量人力物力，且前者“拉闸验电”方式极大影响了台区下其他用户的正常用电，后者需要依靠目前新型的用户用电信息采集装置，这一条件在某些老小区中是不具备的，且需要投入载波通信设备，增加了电力企业的运营成本。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，以达到在降低成本的前提下，准确推断用户所属拓扑关系的目的。为此，本发明采取以下技术方案。

一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法包括以下步骤：

1)获取台区用户负荷数据；

2)对获取的台区用户负荷数据进行标准化处理；

3)对标准化处理的数据进行主成分分析法PCA降维处理，经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下，通过寻找新的向量基，将原有高维数据投影在低维空间，剔除方差较小的噪声，保留信息量最大的主成分；变换后的特征值大的维度即代表原有数据中方差较大的维数，取变换后最能反映原始数据方差特征的前五维数据，作为下一步聚类分析的输入数据；

4)聚类分析，对PCA降维后的数据采用K-Means方法进行聚类分析；最后得到各相下用户的接入点拓扑分析结果，并与***中现有拓扑档案进行比对；

5)对所分析台区进行现场排查，验证分析结果的准确性。

本技术方案采用了PCA降维与K-Means聚类技术，在得到用户的负荷原始数据后，进行特征标准化处理；采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析，减少无用信息的干扰，根据聚类结果分析用户之间的拓扑连接关系，从而可以完成台区内用户拓扑的分类预测；与***中已有的用户拓扑档案进行比对，可以发现是否有潜在的档案错误用户，从而为人工排查纠错提供参考；本技术方案事先进行预测，不需要逐户进行排查，减少大量人力物力，且避免“拉闸验电”方式，不影响台区下其他用户的正常用电，且不需要投入载波通信设备，无需增加电力企业的运营成本。

作为优选技术手段：在步骤1)，从采集***中选定待分析台区，提取待分析台区下所有用户的96点日负荷数据，根据采集率进行数据清洗，选取日负荷满96点日期的数据进行分析，由于日负荷在24小时内具有较大的波动性，而96点数据在模型中分析时应具有相同地位，对分析结果起到同等作用，因此需要对数据进行特征缩放，在步骤2)中采用z-score标准化方法，反映各数据在原始数据分布中的地位，同时以标准差为单位实现不同维度间数据的等距比较，z-score标准化公式如下：

其中，mean(x)表示用户该维度下特征的均值，std(x)表示该维度下用户特征的方差；

作为优选技术手段：在步骤3)中主成分分析法PCA降维处理包括以下步骤：

31)构建原始特征值矩阵[x₁,x₂,x₃...x_n]，其中n代表个样本的维数，x_i是第i维上各样本的特征值列向量；

32)计算各维样本均值ψ和差值向量d_i：

d_i＝x_i-ψ

33)构建协方差矩阵：

式中，A＝[d₁,d₂...d_n]；

34)奇异值分解(Singular Value Decomposition,SVD)求得AA^T的特征值，并按照单调递减的顺序排列λ₁≥λ₂≥...≥λ_p，与其对应的特征向量分别为：μ₁,μ₂,...μ_p(p≤n)；

35)根据降维目标维度选取前p个特征向量组成线性变换矩阵：

W＝[μ₁,μ₂...μ_p]

36)将原始差值特征投影到p维子空间：

PC_p＝W^Td_i(i＝1,2,...n)

式中，PC_p为所求的p维主成分降维特征。

作为优选技术手段：在步骤4)中，K-Means算法先根据预设聚类数随机初始化聚类中心，对所有样本按照其距离各中心的远近进行归类，计算各类内样本到中心的误差和，并将类内样本均值作为新的聚类中心，不断迭代，直到类内误差和达到最小值范围内，完成聚类分析；其中误差准则函数如下：

其中，k表示预设聚类数量，i代表聚类样本序号，C_i代表第i类样本集，x_i表示第i类样本的均值。

作为优选技术手段：在步骤3)中，采用主成分分析法进行降维处理，将原始数据降到2-10维，作为后续聚类分析的输入。

作为优选技术手段：采用主成分分析法进行降维处理，将原始数据降到7维后，将其作为后续聚类分析的输入。

作为优选技术手段：当在同一接入点下存在多相用户的情况下，需要预先对各相用户进行分类，或根据台区用户档案中的信息筛选各相用户后，再进行后续的主成分分析法PCA降维处理。

有益效果：本技术方案采用了PCA降维与K-Means聚类技术，在得到用户的负荷原始数据后，进行特征标准化处理；采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析，减少无用信息的干扰，根据聚类结果分析用户之间的拓扑连接关系，从而可以完成台区内用户拓扑的分类预测。与***中已有的用户拓扑档案进行比对，可以发现是否有潜在的档案错误用户，从而为人工排查纠错提供参考。本技术方案事先进行预测，不需要逐户进行排查，减少大量人力物力，且避免“拉闸验电”方式，不影响台区下其他用户的正常用电，且不需要投入载波通信设备，无需增加电力企业的运营成本。本技术方案不依赖于配电***中台区实际线路参数与拓扑信息，能够直接采用采集终端96点日负荷信息进行用户所属关系的判断，从而可以集成在用电采集***中，并可以实现对海量用户进行拓扑分析，最终可以实现大规模推广。

附图说明

图1是本发明的流程图。

图2是本发明的降维呈现图。

图3是不同降维维数的聚类效果比对图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,包括以下步骤：

1)获取台区用户负荷数据；

2)对获取的台区用户负荷数据进行标准化处理；

5)对所分析台区进行现场排查，验证分析结果的准确性。

本技术方案采用了PCA降维与K-Means聚类技术，在得到用户的负荷原始数据后，进行特征标准化处理；采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析，减少无用信息的干扰，根据聚类结果分析用户之间的拓扑连接关系，从而可以完成台区内用户拓扑的分类预测。与***中已有的用户拓扑档案进行比对，可以发现是否有潜在的档案错误用户，从而为人工排查纠错提供参考。本技术方案事先进行预测，不需要逐户进行排查，减少大量人力物力，且避免“拉闸验电”方式，不影响台区下其他用户的正常用电，且不需要投入载波通信设备，无需增加电力企业的运营成本。

以下就重要步骤进行具体说明：

首先从采集***中选定待分析台区，提取待分析台区下所有用户的96点日负荷数据，根据采集率进行数据清洗，选取日负荷满96点日期的数据进行分析。由于日负荷在24小时内具有较大的波动性，而96点数据在模型中分析时应具有相同地位，对分析结果起到同等作用，因此需要对数据进行特征缩放(Feature Scaling)，常用的特征缩放方法有最大最小规范化(min-max normalization)、均值归一化(mean normalization)和z-score标准化(standardization)，本模型采用z-score标准化方法，不仅可以反映各数据在原始数据分布中的地位，同时以标准差为单位可以实现不同维度间数据的等距比较。z-score标准化公式如下：

其中，mean(x)表示用户该维度下特征的均值，std(x)表示该维度下用户特征的方差。

在得到标准化数据后，由于原始数据维数过高，各维度内涵的用户特征信息量不等同，在后续模型中起到的作用也不相同，使用维数过高的特征值将会淹没其中的有用信息，达不到预期效果。因此采用PCA方法对预处理数据进行降维投影，PCA降维又称主成分分析法，思路是在保持各维数据维度内方差最大的前题下，通过寻找新的向量基，将原有高维数据投影在低维空间，剔除方差较小的噪声，保留信息量最大的主成分，此时，变换后的特征值大的维度即代表原有数据中方差较大的维数，取变换后最能反映原始数据方差特征的前五维数据，作为聚类分析的输入数据。经过比较，这样不仅能够提高运算效率，降低模型上线后线上分析的内存和计算资源压力，还能进一步提高聚类结果的准确率，PCA算法的流程如下：

1)构建原始特征值矩阵[x₁,x₂,x₃...x_n]，其中n代表个样本的维数，x_i是第i维上各样本的特征值列向量；

2)计算各维样本均值ψ和差值向量d_i：

d_i＝x_i-ψ

3)构建协方差矩阵：

式中，A＝[d₁,d₂...d_n]。

4)奇异值分解(Singular Value Decomposition,SVD)求得AA^T的特征值，并按照单调递减的顺序排列λ₁≥λ₂≥...≥λ_p，与其对应的特征向量分别为：μ₁,μ₂,...μ_p(p≤n)。

5)根据降维目标维度选取前p个特征向量组成线性变换矩阵：

W＝[μ₁,μ₂...μ_p]

6)将原始差值特征投影到p维子空间：

PC_p＝W^Td_i(i＝1,2,...n)

式中，PC_p为所求的p维主成分降维特征

对PCA降维后的数据采用K-Means方法进行聚类分析，K-Means聚类由于其出色的计算速度和分类性能，应用非常广泛，属于无监督聚类中最为常用的算法，由于用户负荷数据量大，待分类情况较多且属于无监督聚类，因此非常适合采用这一方法挖掘用电负荷信息中内在的用户拓扑信息。K-Means算法的核心点是聚类中心的迭代，先根据预设聚类数随机初始化聚类中心，对所有样本按照其距离各中心的远近进行归类，计算各类内样本到中心的误差和，并将类内样本均值作为新的聚类中心，不断迭代，直到类内误差和达到最小值范围内，完成聚类分析。其中误差准则函数如下：

由于实际拓扑中同一台区下的用户分属三相，因此，在分析时需要针对各相下的单相用户进行分析，最后得到各相下用户的接入点拓扑分析结果，并与***中现有拓扑档案进行比对。最后，派出专人对对所分析台区进行现场排查，验证分析结果的准确性。

以下就海宁市下辖某台区数据为例作具体说明：

1数据来源

数据主要来源于国家电网用电信息采集***，具体包括海宁市下辖某台区内所有用户的96点日负荷数据，台区用户数为152，总分析时段为一个月，总共包含四十余万条数据。

2数据预处理

筛选各用户都具有满数据的一日内负荷数据，且要求该日内不应出现明显异常数据，且方差保持在一月内均值水平附近，满足条件的分析日共有3天，后续针对3天的数据单独分析接入点归类情况，比较聚类结果。

3主成分分析

将原始数据与PCA降维数据进行对比，可以看出，如果使用原始数据分析用户负荷特性，需要将所有时段都考虑其中，不仅维数过高，造成较大计算压力，且会因为无用信息过多而淹没有价值信息。而使用PCA对数据进行降维后，用户特征曲线聚集程度加大，且明显可见地出现一定的区分度：相似特征曲线的用户间重合度更高，而拓扑相差较大的用户间趋势偏离也变大。这显然更有利于后续使用相关算法进行分析。

观察降维后的数据，可以看出随着维数的增大，后续主成分的绝对值逐渐减小，其在反应用户特性中的作用在逐渐降低，但如何选择才能兼顾分析速度与结果准确率，则需要进行一定的灵敏度分析。

4数据聚类分析与现场拓扑核对

根据采集***中待分析台区的GIS图信息确定拓扑分接点数量，经过查询，待分析台区的拓扑接入点共17个，设置K-Means无监督聚类的预设分组为17，将用户的归类情况与其实际现场排查得出的用户所属拓扑接入点关系进行比对，根据同一接入点下用户是否被归为一类，筛选出未被正确分类的用户占总用户数的比例，从而得出分析的准确率，比较降维后维数对分析结果准确性的影响，结果如图3所示：

表4降维数＝7时各种方法的聚类结果(部分)

由图3可以看出在小于10维的范围内，在降维数＝7时整体的识别效果最佳，这也说明这一维度在兼顾运行效率的同时，能够最大程度地保留用户负荷特性，并剔除无用特征，提取的用户由于拓扑差异而反应在负荷特性上的差异。表4为部分聚类结果，数字代表各聚类方法下的对应结果，最后三列中，ori代表使用原始数据聚类的结果，sca_tsne代表使用原始数据预处理并使用t-SNE进行降维后的聚类结果，sca_pca代表对原始数据进行预处理并使用PCA降维后的聚类结果，可以看出，t—SNE降维具有最佳的分类效果。

5模型适用条件分析

本发明针对目前低压台区用户拓扑档案关系纠错难的现状提出了一种解决方案，即利用PCA降维和K-Means聚类，线上分析采集***中的用户用电负荷信息，从而推断用户所属拓扑关系。现场排查的结果已经证明了这一方***性，经过灵敏度分析，得出当原始96点日负荷数据降维到7维时，有最佳的匹配率。

根据现场核对的结果，聚类得出的用户拓扑接入关系与现场核查结果并没有达到100％匹配，根据对实际情况的分析，可能存在以下原因：

1)实际拓扑中，接入点后仍有二级接入点，可能因此出现同一接入点下的用户被分为多类；

2)实际拓扑中可能出现个别用户的接线过长，导致其整体电压水平与同接入点下的其他用户存在较大差异，从而不能正确分类，这一情况可能在农村低压台区中出现较多。

由于本方法分析对象是同相用户，故只适用于同相用户的分类，在同一接入点下存在多相用户的情况下，需要预先对各相用户进行分类，或根据台区用户档案中的信息筛选各相用户，然后再利用PCA降维和K-Means聚类方法展开分析。

以上图1所示的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于包括以下步骤：

1)获取台区用户负荷数据；

2)对获取的台区用户负荷数据进行标准化处理；

5)对所分析台区进行现场排查，验证分析结果的准确性。

2.根据权利要求1所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：在步骤1)，从采集***中选定待分析台区，提取待分析台区下所有用户的96点日负荷数据，根据采集率进行数据清洗，选取日负荷满96点日期的数据进行分析，由于日负荷在24小时内具有较大的波动性，而96点数据在模型中分析时应具有相同地位，对分析结果起到同等作用，因此需要对数据进行特征缩放，在步骤2)中采用z-score标准化方法，反映各数据在原始数据分布中的地位，同时以标准差为单位实现不同维度间数据的等距比较，z-score标准化公式如下：

3.根据权利要求2所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：在步骤3)中主成分分析法PCA降维处理包括以下步骤：

32)计算各维样本均值ψ和差值向量d_i：

d_i＝x_i-ψ

33)构建协方差矩阵：

式中，A＝[d₁,d₂...d_n]；

35)根据降维目标维度选取前p个特征向量组成线性变换矩阵：

W＝[μ₁,μ₂...μ_p]

36)将原始差值特征投影到p维子空间：

PC_p＝W^Td_i(i＝1,2,...n)

式中，PC_p为所求的p维主成分降维特征。

4.根据权利要求3所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：在步骤4)中，K-Means算法先根据预设聚类数随机初始化聚类中心，对所有样本按照其距离各中心的远近进行归类，计算各类内样本到中心的误差和，并将类内样本均值作为新的聚类中心，不断迭代，直到类内误差和达到最小值范围内，完成聚类分析；其中误差准则函数如下：

5.根据权利要求4所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：在步骤3)中，采用主成分分析法进行降维处理，将原始数据降到2-10维，作为后续聚类分析的输入。

6.根据权利要求5所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：采用主成分分析法进行降维处理，将原始数据降到7维后，将其作为后续聚类分析的输入。

7.根据权利要求6所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法，其特征在于：当在同一接入点下存在多相用户的情况下，需要预先对各相用户进行分类，或根据台区用户档案中的信息筛选各相用户后，再进行后续的主成分分析法PCA降维处理。