CN113112177A

CN113112177A - 一种基于混合指标的台区线损处理方法及***

Info

Publication number: CN113112177A
Application number: CN202110466940.XA
Authority: CN
Inventors: 刘国明; 卢兆军; 袁飞; 谢洪涛; 代勇; 张伟; 高运兴; 荣鹏; 王蕾; 赵娜
Original assignee: State Grid Corp of China SGCC; TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; TaiAn Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-13

Abstract

本发明提供一种基于混合指标的台区线损处理方法及***，包括：对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇；将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据；根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度；将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPS IS方法计算异常用户线损数据的综合评价指标；筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。本发明实现了对线损率异常的准确辨识和精准定位。

Description

一种基于混合指标的台区线损处理方法及***

技术领域

本发明涉及线损计算技术领域，具体涉及一种基于混合指标的台区线损处理方法及***。

背景技术

随着国家能源资源高效开发和利用战略决策的实施，节能逐渐成为缓解能源供应矛盾的重要手段，降低电能在传输、分配和销售过程中的损耗与损失，是供电企业的重要工作之一。但目前台区线损异常、窃电等问题仍普遍存在，绝大部分的异常辨别主要依赖于人工，故针对目前供电台区的线损异常识别和关联用户精准定位等工作还有待完善。

现阶段，大多仅考虑运用数据挖掘方法对用户侧异常进行成因分析，并未涉及台区线损异常与配网侧用户负荷的映射关系，因此，在实际工程中存在一定局限性。随着智能电网发展的不断深入，监测终端的用户负荷数据也越来越复杂，传统的数据分析算法逐渐难以满足数据处理的要求，需要进一步探讨研究。

发明内容

针对现有技术的上述不足，本发明提供一种基于混合指标的台区线损处理方法及***，以解决上述技术问题。

第一方面，本发明提供一种基于混合指标的台区线损处理方法，包括：

对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇；

将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据；

根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度；

将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标；

筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。

进一步的，所述对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇，包括：

基于GSA-SC算法确定最佳聚类数；

利用二分K-means++聚类分析方法根据所述最佳聚类数对中间样本集合进行聚类。

进一步的，所述基于GSA-SC算法确定最佳聚类数，包括：

计算单个样本的轮廓系数s，计算公式为：

其中：

式中：a为类C_j中样本与所有其他点之间的平均距离，b为类C_l中样本与距离最近的类C_j中样本中所有点之间的平均距离，c_j为类C_j的质心，m和n分别表示类C_j、C_l中的样本个数；

定义K个簇的聚类离散度为：

间隙值Gap(K)定义如下式：

Gap(K)＝Eln[W_r(K)]-ln[W(K)]

式中：r为选取的参考数据集，E为参考数据集的数学期望；

基于Gap(K)与s构造聚类评价指标G：

选取聚类评价指标G最大时的K值作为最佳聚类数。

进一步的，所述将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据，包括：

选取标准簇的样本最小值和样本最大值，将样本最小值和样本最大值除以归一化系数得到的最小线损值和最大线损值分别作为标准库的数据下限和数据上限。

进一步的，所述根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度，包括：

计算异常库中各用户的线损数据与用电量的依赖性指标和欧式距离；

根据各用户的线损数据与用电量的依赖性指标和欧式距离构建关联度函数；

对所述关联度函数做同向化处理，选取依赖性指标和欧式距离具有正向线性关系的函数段作为具有强关联性的目标函数段。

进一步的，所述计算异常库中各用户的线损数据与用电量的依赖性指标和欧式距离，包括：

计算依赖性指标的公式为：

式中：N为样本量，d_i为数据x和y在异常时间段内用户电量和线损数据的等级差；r_xy的绝对值越大表明相关性越强；

用户电量序列分布为X(t)＝{x(1),x(2),…,x(N)}，线损序列分布为Y(t)＝{y(1),y(2),…,y(N)}，则此时对应的点对序列分布如下式：

σ(X,Y)＝{[x(1),y(1)],[x(2),y(2)],…,[x(m),y(m)]}

定义σ(X,Y)中序列对之间的长度‖L‖为各序列对中欧式距离最大的值：

欧式距离的具体表达式为：F(X,Y)＝min{‖L||}。

进一步的，所述根据各用户的线损数据与用电量的依赖性指标和欧式距离构建关联度函数，包括：

构建包含依赖性指标和欧式距离的指标集合P，指标集合P的表达式为：

P＝{F(SCC,E-DFD)}，其中，F(SCC,E-DFD)为关于依赖性指标SCC和欧式距离E-DFD的函数。

进一步的，所述将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标，包括：

将依赖性指标和欧式距离在目标函数段内的用户定位为待选用户；

对各待选用户的依赖性指标和欧式距离按用电量大小降序排列，构建初始决策矩阵：

其中SCC为依赖性指标，E-DFD为欧式距离，SCC_N为第N个待选用户的依赖性指标，E-DFD_N为第N个待选用户的欧式距离；

对初始决策矩阵进行同向化和规范化，生成规范化决策矩阵B＝(b_ij)_N×2：

式中，

选取规范化决策矩阵的最大依赖性指标和最大欧式距离构成理想最优向量，选取最小依赖性指标和最小欧式距离构成理想最劣向量：

理想最优向量：s⁺＝[max{b_i1|1≤i≤N},max{b_i2|1≤i≤N}]

理想最劣向量：s^-＝[min{b_i1|1≤i≤N},min{b_i2|1≤i≤N}]；

分别计算规范化决策矩阵中的各行向量与理想最优向量的范数

和各行向量与理想最劣向量的范数

构建综合评价指标S_i的表达式：

式中：S_i为第i个待选用户的异常判断的综合评价指标。

第二方面，本发明提供一种基于混合指标的台区线损处理***，包括：

数据聚类单元，用于对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇；

数据划分单元，用于将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据；

关联计算单元，用于根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度；

综合评价单元，用于将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标；

异常定位单元，用于筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。

进一步的，所述数据聚类单元包括：

第一计算模块，用于基于GSA-SC算法确定最佳聚类数；

第二计算模块，用于利用二分K-means++聚类分析方法根据所述最佳聚类数对中间样本集合进行聚类。

本发明的有益效果在于，

本发明提供的基于混合指标的台区线损处理方法及***，有效的改善了传统聚类算法最佳聚类数不易确定的问题，并提高了聚类收敛性和效率；构建了一种新的台区线损率标准库，该标准库相比传统人工制定的台区线损率标准更为精细，能更好的描述台区的特征，实现对线损率异常的准确辨识；给出了一种基于SCC和E-DFD的综合评判指标，能较为精确的分析台区线损率异常和用户的内在关联性，实现台区线损率异常关联用户的精准定位。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的方法的另一示意性流程图。

图3是本发明一个实施例的方法的数据聚类处理的示意性流程图。

图4是本发明一个实施例的方法的标准库划分的示意性原理图。

图5是本发明一个实施例的方法的异常时间段划分的示意性原理图。

图6是本发明一个实施例的方法的异常用户定位的示意性流程图。

图7是本发明一个实施例的***的示意性框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种基于混合指标的台区线损处理***。

如图1所示，该方法包括：

步骤110，对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇；

步骤120，将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据；

步骤130，根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度；

步骤140，将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标；

步骤150，筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。

为了便于对本发明的理解，下面以本发明基于混合指标的台区线损处理方法的原理，结合实施例对本发明提供的基于混合指标的台区线损处理方法做进一步的描述。

具体的，如图2所示，所述基于混合指标的台区线损处理方法包括：

S1、准备样本数据。本实施例以某公用变台区的历史用户数据作为样本，从采集***中记录该台区在2019年1月1日至2019年7月7日内所有的用户日负荷数据以及台区的线损变化规律。

S2、对样本数据进行归一化处理，选取样本数据中的最大线损值H，将1/H作为归一化系数，将所有线损值乘以归一化系数，将所有线损值转换为(0,1)之间的小数。

S3、请参考图3，对中间样本集合进行聚类得到多个聚类簇；将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据。

(1)基于GSA-SC算法确定最佳聚类数。

计算单个样本的轮廓系数s，计算公式为：

其中：

定义K个簇的聚类离散度为：

间隙值Gap(K)定义如下式：

Gap(K)＝Eln[W_r(K)]-ln[W(K)]

式中：r为选取的参考数据集，E为参考数据集的数学期望；

基于Gap(K)与s构造聚类评价指标G：

选取聚类评价指标G最大时的K值作为最佳聚类数。

例如，分别计算K≥1时的间隙值Gap(K)、轮廓系数s以及聚类评价指标G，计算结果如下表1。

表1 Gap(K)、s和G的计算结果

可以看出，当仅考虑GSA方法确定最佳聚类数时，Gap(4)>Gap(i)，i＝1,2,3，即K＝4时，Gap(K)首次出现极大值。当K≥5时，Gap(K)的变化逐渐趋于平稳，基于此，初步选取最佳聚类数为4。

结合上表，当K为2和3时，s值非常相近，不易判断。而采用本实施例所提的GSA-SC算法，容易判断K为3时，G值最大，且无相邻点值与之相似。综合上述分析，最终选取最佳聚类数K_best为3。

(2)利用二分K-means++聚类分析方法根据所述最佳聚类数对中间样本集合进行聚类。

基于最佳聚类数对台区线损样本进行聚类分析，将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，请参考图4，具体划分方法为：选取标准簇的样本最小值和样本最大值，将样本最小值和样本最大值除以归一化系数得到的最小线损值和最大线损值分别作为标准库的数据下限和数据上限。

例如，本实施例的聚类结果如下表所示：

表2最终簇类中心

表3每个簇类中的个案数目

可以看出个案数目最多的簇类为簇类2，共有172个样本数据；确定簇类2的聚类中心为0.018，计算该簇中样本到聚类中心的最大上限距离r_upper和最大下限距离r_low，构成该台区的历史线损标准库，不难求出此时r_upper为0.095，r_low为0.003，而标准库是由归一化之前***采集的真实值组成的，故其应为[0.6，3]。

(3)将不在标准库内的簇判定为异常，异常簇对应的线损数据均初步判定为异常数据。

S3、异常用户定位。

(1)参考图5，根据异常数据的分布连续性确定异常时间段。

台区线损异常库的生成规则与标准库完全一致，本实施例中台区的历史线损异常库由两部分组成：一部分是以0.167为聚类中心，个案数目为15个的簇类；另一部分是以1为聚类中心，个案数目为1的簇类，鉴于本实施例规定的T必须是连续的时间区间，故忽略线损波动小且周期为1-2天的时间段，故异常时间可初步判断为3月6日-3月19日。

(2)将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度。

分别计算异常时间段内各用户电量和对应线损的依赖性指标SCC和欧式距离E-DFD；

计算依赖性指标的公式为：

σ(X,Y)＝{[x(1),y(1)],[x(2),y(2)],…,[x(m),y(m)]}

定义σ(X,Y)中序列对之间的长度||L||为各序列对中欧式距离最大的值：

欧式距离的具体表达式为：F(X,Y)＝min{||L||}。

由于SCC范围在-1～1之间，其值越大，相似程度越高，而E-DFD越大相似度越低，因此SCC和E-DFD呈现反向状态，不利于计算，故需做同向化处理，具体公式如下所示：

P_i＝F_i(|r_xy|,e^-F(A,B))

针对SCC求绝对值，对E-DFD求e^-F(A,B)，使其变换形式后的值在0～1内，同时也满足E-DFD越大，相似度仍越小的关系。选取依赖性指标和欧式距离具有正向线性关系的函数段作为具有强关联性的目标函数段。

例如，分别计算异常时间段T内各用户电量和对应线损的SCC和E-DFD(SCC做绝对值化处理)。首先，需确定SCC的阈值α，其中，α的选择标准如表4所示。由表可以看出，当α≤0.6时，两个变量呈弱或无相关；而α≥0.6时，则呈中或强相关，说明了0.6为阈值设置的分界点。因此，本实施例设置SCC的阈值α为0.6。

表4 SCC阈值的选取标准

(3)请参考图6，将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标；筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。

采用TOPSIS算法对综合评判指标值进行排序，从而实现异常用户的精准定位，TOPSIS算法是一种常用的组内综合评价方法，常用于解决多属性决策问题，其结果能精确地反映各评价方案之间的差距。采用TOPSIS方法融合SCC和E-DFD确定台区异常用户，具体步骤如下：

将依赖性指标和欧式距离在目标函数段内的用户定位为待选用户。

式中，

理想最优向量：s⁺＝[max{b_i1|1≤i≤N},max{b_i2|1≤i≤N}]

理想最劣向量：s^-＝[min{b_i1|1≤i≤N},min{b_i2|1≤i≤N}]；

和各行向量与理想最劣向量的范数

其中bi为第i行的行向量。

构建综合评价指标S_i的表达式：

式中：S_i为第i个待选用户的异常判断的综合评价指标。

例如，选取SCC大于阈值0.6的用户并按用电量大小降序排列，计算结果如表5。

表5 SCC和E-DFD计算结果

基于上述的计算结果，求得规范化决策矩阵为

基于SCC和E-DFD的联合研判，综合评判指标分析用户关联性；

由于经正向化和标准化处理的规范化决策矩阵中的指标均是极大型数据，故只需取出每一列的最大值构成理想最优向量，每一列的最小值构成理想最劣向量，即：

s⁺＝[0.52454,0.63942]

s^-＝[0.41122,0.142]

采用TOPSIS方法对综合评判指标值进行排序，实现台区线损异常关联用户的精准定位。

可以求得表5中5个存在异常用电嫌疑的用户与理想最优、劣向量的L²范数

与台区异常判断的综合评判指标S_i值，具体结果如表6所示：

表6基于初始化决策矩阵求得的d⁺、d^—和S_i

由表6可知，编号为5xxxxxx158用户的综合评价指标值最大，为0.89941，说明该用户异常用电嫌疑最大。通过对台区下异常用户进行现场排查校验，结果表明本实施例所提方法较为准确。

如图7所示，该***700包括：

数据聚类单元710，用于对台区用户的线损数据进行归一化处理得到中间样本集合，并对中间样本集合进行聚类得到多个聚类簇；

数据划分单元720，用于将样本数量最大的聚类簇划分为标准簇并将标准簇的相关线损数据划分至标准库，将不属于标准库的线损数据划分为异常数据；

关联计算单元730，用于根据异常数据的分布连续性划分异常时间段，将异常时间段内的异常数据划分至异常库并计算异常库对应的用户线损数据与用电量的关联度；

综合评价单元740，用于将异常库内的强关联度的用户线损数据作为异常用户线损数据，利用TOPSIS方法计算异常用户线损数据的综合评价指标；

异常定位单元750，用于筛选出综合评价指标最大的异常用户线损数据，定位为异常用电用户。

可选地，作为本发明一个实施例，所述数据聚类单元包括：

第一计算模块，用于基于GSA-SC算法确定最佳聚类数；

本说明书中各个实施例之间相同相似的部分互相参见即可。在本发明所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。