CN110874381A - 一种基于空间密度聚类的用户侧负荷数据异常值识别方法 - Google Patents

一种基于空间密度聚类的用户侧负荷数据异常值识别方法 Download PDF

Info

Publication number
CN110874381A
CN110874381A CN201911046164.7A CN201911046164A CN110874381A CN 110874381 A CN110874381 A CN 110874381A CN 201911046164 A CN201911046164 A CN 201911046164A CN 110874381 A CN110874381 A CN 110874381A
Authority
CN
China
Prior art keywords
load
abnormal
curve
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911046164.7A
Other languages
English (en)
Other versions
CN110874381B (zh
Inventor
王建学
赵天辉
张耀
王珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911046164.7A priority Critical patent/CN110874381B/zh
Publication of CN110874381A publication Critical patent/CN110874381A/zh
Application granted granted Critical
Publication of CN110874381B publication Critical patent/CN110874381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于空间密度聚类的用户侧负荷数据异常值识别方法,针对负荷数据集,以日负荷曲线为分析对象,确定扫描半径和邻域内包含负荷曲线的最小数量,利用基于空间密度的聚类方法将日负荷曲线分为正常用电模式子数据集和异常用电模式子数据集;采用K‑medoids方法,对正常用电模式下负荷曲线的负荷水平进行分类,压缩负荷水平区间;针对正常用电模式下的不同负荷水平分类,对各时刻的负荷值的分布情况分别进行分析,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建异常负荷数据域,实现用户侧负荷数据异常值识别。

Description

一种基于空间密度聚类的用户侧负荷数据异常值识别方法
技术领域
本发明属于数据异常值识别技术领域,具体涉及一种基于空间密度聚类的用户侧负荷数据异常值识别方法。
背景技术
建设泛在电力物联网,实现了电力从生产-传输-消费各环节设备及用户状态的全面感知,终端用户的用电行为正在以电力大数据的形式被存储起来。在发展数字经济的背景下,电力负荷数据可在用户侧能量管理和电力零售市场中发挥重要的经济价值。通过分析用户的历史负荷数据,负荷聚集商可以有效整合和管理用户侧灵活负荷资源,一方面可以帮助其客户进行能量管理,以需求侧响应的方式获得收益;另一方面可以缓解电网调度与负荷侧资源响应不协调的问题。基于用户侧负荷数据,售电公司可以为其目标客户群体订制合适的售电套餐,提高客户用电效用和自身的市场竞争力。然而,由于数据采集***故障或者受到外界因素干扰,用户负荷数据记录中会有异常负荷数据出现。为了避免异常数据对整体数据的经济价值产生影响,需要对海量用户侧负荷数据实施异常值辨识和修正。
目前,国内外的负荷数据异常值识别方法是基于负荷曲线波动的相似性和平滑性提出的,由于异常值的出现会使得上述特性被破坏,故可利用上述特性进行识别。当前已有的异常值方法可以分为两个类别,分别是利用给定的经验阈值识别异常值和基于统计理论进行异常值识别,无论上述哪类方法,都需要引入专家经验和假设,使得所提方法对不同类型用户负荷数据的适用性有所降低,进而识别结果的准确性难以维持一贯的水平。
相较于依靠专家经验和假设的方法对负荷数据进行异常值识别,本发明从数据集自身的角度出发,挖掘数据的分布规律,进而构建异常负荷数据域,并对负荷数据集进行异常值识别。这样做的优势在于,以数据分析为核心,统计学理论为基础,采用数据驱动的思想完成对负荷数据集的异常值识别工作,无需引入专家经验和假设,可以实现对不同类型用户负荷数据的识别,使得方法具有很好的适用性。同时,常见的方法均适用于处理***负荷或者母线负荷,目前面向用户个体或者用户社区的负荷异常值识别方法较少。与***负荷相比,用户负荷曲线的波动性较大,需要在当前的基础上,提出新的异常值识别方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于空间密度聚类的用户侧负荷数据异常值识别方法,实现数据驱动的负荷异常值识别方法,提高方法对不同类型用户负荷数据集的适用性。
本发明采用以下技术方案:
一种基于空间密度聚类的用户侧负荷数据异常值识别方法,包括以下步骤:
S1、针对负荷数据集,以日负荷曲线为分析对象,确定扫描半径ε和邻域内包含负荷曲线的最小数量Nmin,利用基于空间密度的聚类方法将日负荷曲线分为正常用电模式子数据集和异常用电模式子数据集;
S2、采用K-medoids方法,对正常用电模式下负荷曲线的负荷水平进行分类,压缩负荷水平区间;
S3、针对正常用电模式下的不同负荷水平分类,对各时刻的负荷值的分布情况分别进行分析,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建异常负荷数据域,当负荷样本值属于异常数据域,识别为异常负荷值,否则为正常负荷值。
具体的,步骤S1具体为:
S101、准备历史负荷曲线集合D={y1,y2,…,yL},确定扫描半径ε和邻域内包含负荷曲线的最小数量Nmin
S102、初始化核心对象集合
Figure BDA0002254194790000031
分类数量c=0,未分类的样本集合Λ=D,类划分集合
Figure BDA0002254194790000032
S103、寻找样本yj(j=1,…,L)的核心对象;
S104、如果核心对象集合
Figure BDA0002254194790000033
停止分类,转入步骤S108,否则进入步骤S105;
S105、初始化类别序号c=c+1,从集合Ω中,随机挑选一个核心对象o,初始化当前核心对象队列Ωc={o},初始化当前分类集合Sc={o},更新未分类的样本集合Λ=Λ-{o};
S106、如果
Figure BDA0002254194790000034
则当前Sc生成完毕,更新S={S1,…Sc},Ω=Ω-Sc,跳转至步骤S104,否则进行下一步;
S107、从Ωc中取出核心对象o',形成ε邻域样本集合Zε(o'),获得未分类样本且只属于集合Zε(o')得样本集合
Figure BDA0002254194790000035
更新Ωc=Ωc∪(Δ∩Ω)-o'、Sc=Sc∪Δ和Λ=Λ-Δ,转入步骤S106;
S108、输出分类结果S={S1,…Sc}和未分类的样本集合Λ;未分类的样本集合Λ中剩下的负荷样本曲线即被认为是异常用电模式曲线。
进一步的,步骤S101中,用余弦距离对不同负荷曲线的用电模式差异程度进行度量;假设数据采集***每天的采样频率为n,对于负荷曲线ya和yb,建立用电模式差异程度函数d(ya,yb),用电模式差异程度函数d(ya,yb)的值越小,ya和yb的用电模式越相似,邻域内包含负荷曲线的最小数量Nmin取值大于负荷曲线向量的维度,计算各负荷曲线邻域内包含第Nmin条负荷曲线时的用电模式差异程度
Figure BDA0002254194790000049
选择用电模式差异程度最后一次出现阶跃变化的
Figure BDA0002254194790000043
作为扫描半径ε。
进一步的,步骤S103中,计算用电模式差异度,找到yj的ε邻域子集Zε(yj);如果Zε(yj)包含的样本数量大于Nmin,则将yj添加到核心对象集合Ω=Ω∪{yj}。
具体的,步骤S2中,假设正常用电模式子数据集中有L1条负荷曲线,由全部负荷曲线向量可构成数据集矩阵
Figure BDA00022541947900000410
使用欧氏距离表达两条负荷曲线负荷水平的相似程度,将数据集聚类为K个簇,每个簇为Vk;每个Vk有一个聚类中心曲线
Figure BDA0002254194790000044
中心负荷曲线集和为
Figure BDA0002254194790000045
将正常用电模式子数据集分为K类不同的负荷水平。
进一步的,属于Vk簇内的负荷曲线与同一簇内的其他曲线的负荷水平相似度高,与其他簇中负荷曲线的相似度低,具体为:
Figure BDA0002254194790000041
其中,1≤q≤K,
Figure BDA0002254194790000042
upk为负荷曲线yp的隶属度指示函数,
Figure BDA0002254194790000046
为负荷曲线yp与簇Vk的聚类中心曲线
Figure BDA0002254194790000047
的负荷水平相似程度,
Figure BDA0002254194790000048
为负荷曲线yp与簇Vq的聚类中心曲线
Figure BDA00022541947900000411
的负荷水平相似程度。
具体的,步骤S3中,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建适用于正常用电模式的异常负荷数据域,在适用于正常用电模式的异常负荷数据域的基础上,构建面向异常用电模式的异常负荷数据域。
进一步的,正常用电模式的异常负荷数据域为:
Figure BDA0002254194790000051
其中,ρ为显著性指标,
Figure BDA0002254194790000052
为随机变量
Figure BDA0002254194790000053
的样本均值,IQRt为t时刻ξj,t的四分位差,uα/2为标准正态分布的上侧α/2分位数,
Figure BDA00022541947900000511
代替标准差σt,Ns为t时刻负荷值的抽样次数。
更进一步的,令
Figure BDA0002254194790000054
表示异常负荷数据域中随机变量Xt的下界,随机变量Xt的上界可表示为
Figure BDA0002254194790000055
将上、下界分别按时间先后顺序进行排序,可以形成边界曲线,上界的向量为:
Figure BDA0002254194790000056
下界的向量为:
Figure BDA0002254194790000057
进一步的,构建面向异常用电模式的异常负荷数据域具体为:
首先选取正常用电模式各负荷水平的异常负荷数据域上界
Figure BDA0002254194790000058
k=1,2,…,K,K表示负荷水平类别数量;令
Figure BDA0002254194790000059
表示待确定的异常负荷数据域上界,
Figure BDA00022541947900000510
表示待确定的异常负荷数据域下界,利用构建的异常负荷数据域,对负荷数据集进行异常负荷值识别,若负荷样本值属于异常数据域,则将其识别为异常负荷值,否则为正常负荷值。
与现有技术相比,本发明至少具有以下有益效果:
本发明针对概率分布未知的海量电力负荷数据,提出了一种基于空间密度聚类的用户侧负荷数据异常值识别方法,首先,基于空间密度聚类方法将负荷曲线按照正常和异常两类用电模式进行分类,并对正常用电模式中的负荷曲线样本进行负荷水平分类;然后,在不同的负荷水平下,利用负荷期望值的置信区间和负荷样本与相应负荷水平聚类中心偏差的四分位差,初步构建异常负荷数据域;在此基础上,为了降低误识别率,考虑个别非典型用电行为在一定时间范围内出现的偶然性,引入用电时刻偏移量,对形成的异常负荷数据域进行修正。考虑到实际情况中,所有时刻的负荷值均为异常值的负荷曲线较为少见,大部分负荷曲线同时包含正常值和异常值。为了有效降低误识别率,针对异常用电模式,专门构建相应的异常负荷数据域。最后实现了较高的异常负荷值识别率,并有效降低异常值误识别概率。
进一步的,基于空间密度聚类方法将负荷曲线按照正常和异常两类用电模式进行分类,在进行用电模式分类的同时,异常的用电模式也会被识别出来,避免了大量异常负荷值对构建异常负荷数据域的不良影响。
进一步的,对正常用电模式中的负荷曲线样本进行负荷水平分类,使得各分类中的负荷曲线在用电模式和负荷水平上均保持相似,同时可以压缩负荷水平区间,使得各别被误分类到正常用电模式的异常负荷值更加易于识别。
进一步的,在不同的负荷水平下,利用负荷期望值的置信区间和负荷样本与相应负荷水平聚类中心偏差的四分位差,初步构建异常负荷数据域,依靠各时刻负荷数据自身的特点,来构建异常负荷数据域,避免了对专家经验和假设的依赖。
进一步的,考虑个别非典型用电行为在一定时间范围内出现的偶然性,引入用电时刻偏移量,对形成的异常负荷数据域进行修正,减少了因为个别非典型用电行为出现频率较低,难以通过数理统计理论加以考虑,导致其引起的负荷异常值被误识别的情况发生。
进一步的,针对异常用电模式,专门构建相应的异常负荷数据域,有效降低误识别率。
综上所述,本发明从用电模式、负荷水平和非典型用电行为发生偶然性的角度出发,可以排除异常负荷值对构建异常数据域的不良影响,避免概率分布假设不当对识别效果的影响,减少误识别的情况。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法流程图;
图2为工业用户的负荷数据集用电模式分类结果;
图3为工业用户的短期负荷数据集异常值识别结果。
具体实施方式
本发明提供了一种基于空间密度聚类的用户侧负荷数据异常值识别方法,先采用基于空间密度聚类法将负荷曲线按照正常和异常两类用电模式进行分类,并对正常用电模式中的负荷曲线样本进行负荷水平分类;然后,在不同的负荷水平下,利用负荷期望值的置信区间和负荷样本与相应负荷水平聚类中心偏差的四分位差,初步构建异常负荷数据域;在此基础上,为了降低误识别率,考虑个别非典型用电行为在一定时间范围内出现的偶然性,引入用电时刻偏移量,对形成的异常负荷数据域进行修正;考虑到实际情况中,所有时刻的负荷值均为异常值的负荷曲线较为少见,大部分负荷曲线同时包含正常值和异常值。为了有效降低误识别率,针对异常用电模式,专门构建相应的异常负荷数据域。最后实现了较高的异常负荷值识别率,并有效降低异常值误识别概率。
请参阅图1,本发明一种基于空间密度聚类的用户侧负荷数据异常值识别方法,包括以下步骤:
S1、针对负荷数据集,首先以日负荷曲线为分析对象,利用基于空间密度的聚类算法,对日负荷曲线进行用电模式分类,分为正常用电模式子数据集和异常用电模式子数据集;
在进行负荷曲线用电模式分类之前,有两个核心参数需要提前设定,分别是扫描半径ε和邻域内包含负荷曲线的最小数量Nmin
扫描半径ε的物理含义为用电模式差异程度的上限,本发明利用余弦距离对不同负荷曲线的用电模式差异程度进行度量。假设数据采集***每天的采样频率为n,日负荷曲线
Figure BDA0002254194790000081
的向量形式为y=(x1,x2,...,xn)T,其中,xi表示第i个时刻的负荷值。对于负荷曲线ya和yb,基于余弦距离的用电模式差异程度计算方法如(1)式所示:
Figure BDA0002254194790000082
其中,d(ya,yb)为用电模式差异程度函数,其值越小,表示ya和yb的用电模式越相似。
Nmin的取值通常不小于n+1,即必须大于负荷曲线向量的维度;选定Nmin之后,计算各负荷曲线邻域内包含第Nmin条负荷曲线时的用电模式差异程度
Figure BDA0002254194790000085
通常选择用电模式差异程度最后一次出现阶跃变化的
Figure BDA0002254194790000086
作为扫描半径ε;
基于空间密度的聚类算法进行用电模式分类的步骤如下:
S101、准备历史负荷曲线集合D={y1,y2,…,yL},确定邻域参数ε和Nmin
S102、初始化核心对象集合
Figure BDA0002254194790000083
分类数量c=0,未分类的样本集合Λ=D,类划分集合
Figure BDA0002254194790000084
S103、寻找样本yj(j=1,…,L)的核心对象;
计算用电模式差异度,找到yj的ε邻域子集Zε(yj);如果Zε(yj)包含的样本数量大于Nmin,则将yj添加到核心对象集合Ω=Ω∪{yj}。
S104、如果核心对象集合
Figure BDA0002254194790000091
则停止分类,转入步骤S108,否则进入步骤S105;
S105、初始化类别序号c=c+1,从集合Ω中,随机挑选一个核心对象o,初始化当前核心对象队列Ωc={o},初始化当前分类集合Sc={o},更新未分类的样本集合Λ=Λ-{o};
S106、如果
Figure BDA0002254194790000092
则当前Sc生成完毕,更新S={S1,…Sc},Ω=Ω-Sc,跳转至步骤S104,否则进行下一步;
S107、从Ωc中取出核心对象o',形成ε邻域样本集合Zε(o'),获得未分类样本且只属于集合Zε(o')得样本集合
Figure BDA0002254194790000093
更新Ωc=Ωc∪(Δ∩Ω)-o'、Sc=Sc∪Δ和Λ=Λ-Δ,转入步骤S106;
S108、输出分类结果S={S1,…Sc}和未分类的样本集合Λ;未分类的样本集合Λ中剩下的负荷样本曲线即被认为是异常用电模式曲线。
S2、采用K-medoids方法,对正常用电模式下负荷曲线的负荷水平进行分类,压缩负荷水平区间,使得异常负荷值易于识别;
假设正常用电模式子数据集中有L1条负荷曲线,由全部负荷曲线向量可构成数据集矩阵
Figure BDA0002254194790000095
K-medoids算法使用欧氏距离来表达两条负荷曲线负荷水平的相似程度,利用
Figure BDA0002254194790000094
来表示负荷曲线p和q的负荷水平相似程度,其中yp(i)表示曲线p的第i个时刻的负荷值。
K-medoids的目标是将数据集聚类为K个簇,每个簇用Vk表示。每个Vk有一个聚类中心曲线
Figure BDA0002254194790000096
中心负荷曲线集和用
Figure BDA0002254194790000097
表示。属于Vk簇内的负荷曲线与同一簇内的其他曲线的负荷水平相似度较高,与其他簇中负荷曲线的相似度较低,定义隶属函数如(2)式所示:
Figure BDA0002254194790000101
其中,1≤q≤K,
Figure BDA0002254194790000102
upk为负荷曲线yp的隶属度指示函数,1表示负荷曲线yp属于簇Vk,否者不属于;
Figure BDA0002254194790000105
为负荷曲线yp与簇Vk的聚类中心曲线
Figure BDA0002254194790000106
的负荷水平相似程度,
Figure BDA0002254194790000108
为负荷曲线yp与簇Vq的聚类中心曲线
Figure BDA0002254194790000107
的负荷水平相似程度;
K-medoids算法过程的数学模型为:
Figure BDA0002254194790000103
Figure BDA0002254194790000109
Figure BDA0002254194790000104
V=∪1≤k≤KVk (6)
通过利用K-medoids算法,可以将正常用电模式子数据集分为K类不同的负荷水平。
S3、针对正常用电模式下的不同负荷水平分类,对各时刻的负荷值的分布情况分别进行分析,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建异常负荷数据域。同时,在适用于正常用电模式的异常负荷数据域的基础上,构建面向异常用电模式的异常负荷数据域;根据各时刻用户侧负荷数据与异常负荷数据域的关系,若负荷样本值属于异常数据域,则将其识别为异常负荷值,否则为正常负荷值。
首先构建适用于正常用电模式的异常负荷数据域
考虑负荷幅值的不确定性,对于第k类负荷水平,t时刻的负荷值可表示为
Figure BDA00022541947900001114
其中,Nk为第k类负荷水平的负荷样本数量;
本发明利用Bootstrap方法对t时刻的负荷值进行Ns次抽样,每次抽取Nk个样本,通过计算样本均值获得随机变量
Figure BDA0002254194790000111
在相似的负荷水平下,随机变量
Figure BDA0002254194790000112
具有有限的数学期望μt和方差
Figure BDA0002254194790000113
根据中心极限定理,随机变量
Figure BDA0002254194790000114
的样本均值
Figure BDA0002254194790000115
在Ns无限增大时,服从参数为μt
Figure BDA0002254194790000116
的正态分布。在置信度1-α下,随机变量
Figure BDA00022541947900001115
的置信区间如(7)所示:
Figure BDA0002254194790000117
其中,uα/2为标准正态分布的上侧α/2分位数;在式(7)中,由于方差
Figure BDA0002254194790000118
未知,故需要先对方差进行估计。
考虑到修正样本方差
Figure BDA0002254194790000119
Figure BDA00022541947900001110
的无偏估计,故以
Figure BDA00022541947900001111
来代替标准差σt,则有
Figure BDA00022541947900001112
Figure BDA00022541947900001113
在第k类负荷水平中,t时刻的负荷值xj,t与聚类中心负荷值
Figure BDA00022541947900001116
的联系如(9)式所示:
Figure BDA00022541947900001117
其中,xj,t为第k类负荷水平下第j条负荷曲线yj在t时刻的负荷值,
Figure BDA00022541947900001118
为第k类负荷水平的聚类中心负荷曲线
Figure BDA00022541947900001119
在t时刻的负荷值,ξj,t为两者之间的偏差。
在用户负荷概率分布未知的情况下,基于负荷均值的置信区间和ξj,t的四分位差(inter-quartile range,IQR),构建异常负荷数据域
t时刻ξj,t的四分位差为IQRt=Q3,t-Q1,t,其中,Q1,t为ξj,t的第一个四分位值,Q3,t为ξj,t的第三个四分位值。在置信度1-α下,联合负荷均值的置信区间(2b),构建的异常负荷数据域,如(10)式所示:
Figure BDA0002254194790000121
其中,ρ为显著性指标,参考箱线图中异常值截断点的定义,当ρ=1.5时,识别的异常负荷值被称为温和异常值,当ρ=3时,识别的异常值称为极端异常值。
考虑非典型用电行为在一定时间范围内出现时刻的不确定性,令
Figure BDA0002254194790000122
表示异常负荷数据域中随机变量Xt的下界,随机变量Xt的上界可表示为
Figure BDA0002254194790000123
将上、下界分别按时间先后顺序进行排序,可以形成边界曲线,其向量形式如式(11)-(12)所示:
上界
Figure BDA0002254194790000124
(11)
下界
Figure BDA0002254194790000125
(12)
假设用户用电时刻偏移量为h∈[-m,m],其中m为用电时刻最大可能偏移量;以上界曲线为例,对于任意偏移量h,定义向量
Figure BDA0002254194790000126
为:
Figure BDA0002254194790000127
考虑所有可能的偏移量,以
Figure BDA0002254194790000128
为矩阵
Figure BDA0002254194790000129
的列元素,构建矩阵
Figure BDA00022541947900001210
异常数据域上界的修正公式如(14)式所示:
Figure BDA00022541947900001211
其中,max(·)对矩阵
Figure BDA0002254194790000131
的每一行元素分别取最大值,作为修正后的新上界。
同理可得异常数据域下界的修正公式如(15)式所示:
Figure BDA0002254194790000132
其中,min(·)对矩阵
Figure BDA0002254194790000133
中的每一行元素分别取最小值,作为修正后的新下界。
构建面向异常用电模式的异常负荷数据域,具体方法是:
首先选取正常用电模式各负荷水平的异常负荷数据域上界
Figure BDA0002254194790000134
K表示负荷水平类别数量。令
Figure BDA0002254194790000135
表示待确定的异常负荷数据域上界,
Figure BDA0002254194790000136
的构建方法如(16)式所示。
Figure BDA0002254194790000137
其中,max(·)对矩阵
Figure BDA0002254194790000138
中的每一行元素分别取最大值,作为异常数据域的上界。
同理,面向异常用电模式的异常数据域下界的构建方法如式(17)所示:
Figure BDA0002254194790000139
其中,min(·)对矩阵
Figure BDA00022541947900001310
中的每一行元素分别取最小值,作为异常数据域的下界。
最后,利用构建的异常负荷数据域,对负荷数据集进行异常负荷值识别。若负荷样本值属于异常数据域,则将其识别为异常负荷值,否则为正常负荷值。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图2和图3,使用某工业用户的实际夏季负荷数据,验证提出的用户侧负荷数据异常值识别算法的可行性和有效性。在数据集中,负荷数据的采样频率为每小时一次,故日负荷曲线包含24个负荷数据点,则Nmin选择为不小于25的整数,取Nmin=25,业用户的扫描半径取为ε=0.0023,设置α=0.05,此时识别的负荷异常值的置信度为95%。
利用参数对(Nmin,ε),对工业用户的负荷数据集进行用电模式分类,分类结果如图2所示。根据计算结果,由于工业负荷的负荷水平相对集中,可不分类,即取为1类,其聚类中心曲线如图2中红色曲线所示。左侧和右侧曲线分别为正常用电模式和异常用电模式的负荷曲线子集。对比正常用电模式中各负荷水平的聚类中心曲线与异常用电模式中负荷曲线的波动情况,可以看出异常用电模式中的负荷曲线在某些时刻的负荷波动存在畸变,使其难以划分为正常用电模式。在工业负荷中,冲击负荷和停电情况均有发生,使得负荷曲线发生畸变或者大段偏离正常轨迹。同时还可以发现,异常用电模式中的负荷曲线的负荷值并不全是异常值,所以将异常用电模式负荷曲线的负荷值直接认定为异常值是不合理的。
根据图2中工业用户负荷曲线相对于其负荷水平聚类中心曲线的用电时刻偏移情况,设置工业负荷的用电时刻偏移量范围为[-6,6],显著性指标ρ=1.5,将本发明方法的识别结果在负荷曲线上进行标记,结果如图3所示。由于异常负荷值是随机出现的,故含有异常负荷值的负荷曲线在时序上是离散分布的。在图3中,依据时间先后顺序,将含有异常负荷值的负荷曲线进行展示。由图3观察,本发明所提方法对由数据采集设备故障、停电以及冲击负荷产生的异常负荷值进行了充分地识别。其中,大部分异常负荷值源于异常用电模式的负荷曲线,比如图3中第18天、第20-21天、第26天、第28天、第57天和第88天中的异常负荷值。
为了降低异常负荷值的误识别率,针对非典型用电行为对异常值识别的干扰,本发明引入用电时刻偏移量,将非典型用电行为的影响,考虑到异常负荷数据域的构建过程中。由图3可见,本发明所提方法考虑了上述因素,在一定程度上有效地减少了误识别的情况。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,包括以下步骤:
S1、针对负荷数据集,以日负荷曲线为分析对象,确定扫描半径ε和邻域内包含负荷曲线的最小数量Nmin,利用基于空间密度的聚类方法将日负荷曲线分为正常用电模式子数据集和异常用电模式子数据集;
S2、采用K-medoids方法,对正常用电模式下负荷曲线的负荷水平进行分类,压缩负荷水平区间;
S3、针对正常用电模式下的不同负荷水平分类,对各时刻的负荷值的分布情况分别进行分析,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建异常负荷数据域,当负荷样本值属于异常数据域,识别为异常负荷值,否则为正常负荷值。
2.根据权利要求1所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,步骤S1具体为:
S101、准备历史负荷曲线集合D={y1,y2,…,yL},确定扫描半径ε和邻域内包含负荷曲线的最小数量Nmin
S102、初始化核心对象集合
Figure FDA0002254194780000011
分类数量c=0,未分类的样本集合Λ=D,类划分集合
Figure FDA0002254194780000012
S103、寻找样本yj的核心对象,j=1,…,L;
S104、如果核心对象集合
Figure FDA0002254194780000013
停止分类,转入步骤S108,否则进入步骤S105;
S105、初始化类别序号c=c+1,从集合Ω中,随机挑选一个核心对象o,初始化当前核心对象队列Ωc={o},初始化当前分类集合Sc={o},更新未分类的样本集合Λ=Λ-{o};
S106、如果
Figure FDA0002254194780000021
则当前Sc生成完毕,更新S={S1,…Sc},Ω=Ω-Sc,跳转至步骤S104,否则进行下一步;
S107、从Ωc中取出核心对象o',形成ε邻域样本集合Zε(o'),获得未分类样本且只属于集合Zε(o')得样本集合Δ=Zε(o')∩Λ,更新Ωc=Ωc∪(Δ∩Ω)-o'、Sc=Sc∪Δ和Λ=Λ-Δ,转入步骤S106;
S108、输出分类结果S={S1,…Sc}和未分类的样本集合Λ;未分类的样本集合Λ中剩下的负荷样本曲线即被认为是异常用电模式曲线。
3.根据权利要求2所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,步骤S101中,用余弦距离对不同负荷曲线的用电模式差异程度进行度量;假设数据采集***每天的采样频率为n,对于负荷曲线ya和yb,建立用电模式差异程度函数d(ya,yb),用电模式差异程度函数d(ya,yb)的值越小,ya和yb的用电模式越相似,邻域内包含负荷曲线的最小数量Nmin取值大于负荷曲线向量的维度,计算各负荷曲线邻域内包含第Nmin条负荷曲线时的用电模式差异程度
Figure FDA0002254194780000022
选择用电模式差异程度最后一次出现阶跃变化的
Figure FDA0002254194780000023
作为扫描半径ε。
4.根据权利要求2所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,步骤S103中,计算用电模式差异度,找到yj的ε邻域子集Zε(yj);如果Zε(yj)包含的样本数量大于Nmin,则将yj添加到核心对象集合Ω=Ω∪{yj}。
5.根据权利要求1所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,步骤S2中,假设正常用电模式子数据集中有L1条负荷曲线,由全部负荷曲线向量可构成数据集矩阵
Figure FDA0002254194780000024
使用欧氏距离表达两条负荷曲线负荷水平的相似程度,将数据集聚类为K个簇,每个簇为Vk;每个Vk有一个聚类中心曲线
Figure FDA0002254194780000031
中心负荷曲线集和为
Figure FDA0002254194780000032
将正常用电模式子数据集分为K类不同的负荷水平。
6.根据权利要求5所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,属于Vk簇内的负荷曲线与同一簇内的其他曲线的负荷水平相似度高,与其他簇中负荷曲线的相似度低,具体为:
Figure FDA0002254194780000033
其中,1≤q≤K,
Figure FDA0002254194780000034
upk为负荷曲线yp的隶属度指示函数,
Figure FDA0002254194780000035
为负荷曲线yp与簇Vk的聚类中心曲线
Figure FDA0002254194780000036
的负荷水平相似程度,
Figure FDA0002254194780000037
为负荷曲线yp与簇Vq的聚类中心曲线
Figure FDA0002254194780000038
的负荷水平相似程度。
7.根据权利要求1所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,步骤S3中,考虑负荷幅值和非典型用电行为在一定时间范围内出现时刻的不确定性,构建适用于正常用电模式的异常负荷数据域,在适用于正常用电模式的异常负荷数据域的基础上,构建面向异常用电模式的异常负荷数据域。
8.根据权利要求7所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,正常用电模式的异常负荷数据域为:
Figure FDA0002254194780000039
其中,ρ为显著性指标,
Figure FDA00022541947800000310
为随机变量
Figure FDA00022541947800000311
的样本均值,IQRt为t时刻ξj,t的四分位差,uα/2为标准正态分布的上侧α/2分位数,
Figure FDA00022541947800000312
代替标准差σt,Ns为t时刻负荷值的抽样次数。
9.根据权利要求8所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,令
Figure FDA0002254194780000041
表示异常负荷数据域中随机变量Xt的下界,随机变量Xt的上界可表示为
Figure FDA0002254194780000042
将上、下界分别按时间先后顺序进行排序,可以形成边界曲线,上界的向量为:
Figure FDA0002254194780000043
下界的向量为:
Figure FDA0002254194780000044
10.根据权利要求7所述的基于空间密度聚类的用户侧负荷数据异常值识别方法,其特征在于,构建面向异常用电模式的异常负荷数据域具体为:
首先选取正常用电模式各负荷水平的异常负荷数据域上界
Figure FDA0002254194780000045
K表示负荷水平类别数量;令
Figure FDA0002254194780000046
表示待确定的异常负荷数据域上界,
Figure FDA0002254194780000047
表示待确定的异常负荷数据域下界,利用构建的异常负荷数据域,对负荷数据集进行异常负荷值识别,若负荷样本值属于异常数据域,则将其识别为异常负荷值,否则为正常负荷值。
CN201911046164.7A 2019-10-30 2019-10-30 一种基于空间密度聚类的用户侧负荷数据异常值识别方法 Active CN110874381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046164.7A CN110874381B (zh) 2019-10-30 2019-10-30 一种基于空间密度聚类的用户侧负荷数据异常值识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046164.7A CN110874381B (zh) 2019-10-30 2019-10-30 一种基于空间密度聚类的用户侧负荷数据异常值识别方法

Publications (2)

Publication Number Publication Date
CN110874381A true CN110874381A (zh) 2020-03-10
CN110874381B CN110874381B (zh) 2022-05-20

Family

ID=69717966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046164.7A Active CN110874381B (zh) 2019-10-30 2019-10-30 一种基于空间密度聚类的用户侧负荷数据异常值识别方法

Country Status (1)

Country Link
CN (1) CN110874381B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046913A (zh) * 2019-11-18 2020-04-21 杭州海兴电力科技股份有限公司 一种负荷异常值识别方法
CN111461197A (zh) * 2020-03-27 2020-07-28 国网上海市电力公司 一种基于特征提取的空间负荷分布规律研究方法
CN111539654A (zh) * 2020-05-26 2020-08-14 国网湖南省电力有限公司 一种基于大数据的冲击型电力大客户识别方法
CN113762373A (zh) * 2021-08-30 2021-12-07 广东电网有限责任公司 一种负荷特性的异常识别方法、装置、电子设备及介质
CN114169631A (zh) * 2021-12-15 2022-03-11 中国石油大学胜利学院 一种基于数据分析的油田电力负荷管控***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529707A (zh) * 2016-11-01 2017-03-22 华北电力大学(保定) 一种负荷用电模式识别方法
CN106709816A (zh) * 2016-11-29 2017-05-24 国网陕西省电力公司电力科学研究院 基于非参数回归分析的电力负荷异常数据识别与修正方法
CN106780121A (zh) * 2016-12-06 2017-05-31 广州供电局有限公司 一种基于用电负荷模式分析的用电异常识别方法
CN106779129A (zh) * 2015-11-19 2017-05-31 华北电力大学(保定) 一种考虑气象因素的短期电力负荷预测方法
US20170169344A1 (en) * 2015-12-15 2017-06-15 The Trustees Of The University Of Pennsylvania Methods, systems, and computer readable media for a data-driven demand response (dr) recommender
CN108428055A (zh) * 2018-03-12 2018-08-21 华南理工大学 一种考虑负荷纵向特性的负荷聚类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779129A (zh) * 2015-11-19 2017-05-31 华北电力大学(保定) 一种考虑气象因素的短期电力负荷预测方法
US20170169344A1 (en) * 2015-12-15 2017-06-15 The Trustees Of The University Of Pennsylvania Methods, systems, and computer readable media for a data-driven demand response (dr) recommender
CN106529707A (zh) * 2016-11-01 2017-03-22 华北电力大学(保定) 一种负荷用电模式识别方法
CN106709816A (zh) * 2016-11-29 2017-05-24 国网陕西省电力公司电力科学研究院 基于非参数回归分析的电力负荷异常数据识别与修正方法
CN106780121A (zh) * 2016-12-06 2017-05-31 广州供电局有限公司 一种基于用电负荷模式分析的用电异常识别方法
CN108428055A (zh) * 2018-03-12 2018-08-21 华南理工大学 一种考虑负荷纵向特性的负荷聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵天辉 等: "基于非参数回归分析的工业负荷异常值识别与修正方法", 《电力***自动化》 *
邓明斌 等: "基于用户负荷的用电模式分析方法", 《计算机与数字工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046913A (zh) * 2019-11-18 2020-04-21 杭州海兴电力科技股份有限公司 一种负荷异常值识别方法
CN111046913B (zh) * 2019-11-18 2023-02-14 杭州海兴电力科技股份有限公司 一种负荷异常值识别方法
CN111461197A (zh) * 2020-03-27 2020-07-28 国网上海市电力公司 一种基于特征提取的空间负荷分布规律研究方法
CN111539654A (zh) * 2020-05-26 2020-08-14 国网湖南省电力有限公司 一种基于大数据的冲击型电力大客户识别方法
CN111539654B (zh) * 2020-05-26 2023-04-25 国网湖南省电力有限公司 一种基于大数据的冲击型电力大客户识别方法
CN113762373A (zh) * 2021-08-30 2021-12-07 广东电网有限责任公司 一种负荷特性的异常识别方法、装置、电子设备及介质
CN114169631A (zh) * 2021-12-15 2022-03-11 中国石油大学胜利学院 一种基于数据分析的油田电力负荷管控***
CN114169631B (zh) * 2021-12-15 2022-10-25 山东石油化工学院 一种基于数据分析的油田电力负荷管控***

Also Published As

Publication number Publication date
CN110874381B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN110874381B (zh) 一种基于空间密度聚类的用户侧负荷数据异常值识别方法
CN111428816B (zh) 一种非侵入式负荷分解方法
CN108280479B (zh) 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
López et al. Hopfield–K-Means clustering algorithm: A proposal for the segmentation of electricity customers
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
Wang et al. Federated clustering for electricity consumption pattern extraction
CN111046913B (zh) 一种负荷异常值识别方法
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
Ramos et al. Typical load profiles in the smart grid context—A clustering methods comparison
Du Toit et al. Customer segmentation using unsupervised learning on daily energy load profiles
CN117034043A (zh) 基于多能源物联网的智慧建筑综合能耗监测方法及***
CN101901251B (zh) 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法
CN110298552A (zh) 一种结合历史用电特征的配电网个体功率异常检测方法
CN115618249A (zh) 一种基于LargeVis降维与DBSCAN聚类的低压配电台区相位识别方法
Mujeeb et al. Electricity theft detection with automatic labeling and enhanced RUSBoost classification using differential evolution and Jaya algorithm
Huang et al. An algorithm for clustering heterogeneous data streams with uncertainty
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN113505465B (zh) 完全无监督的非侵入式电器状态模型自适应构建方法
CN113112177A (zh) 一种基于混合指标的台区线损处理方法及***
Yang et al. An electricity data cluster analysis method based on SAGA-FCM algorithm
CN113592533B (zh) 一种基于无监督学习的异常用电检测方法及***
CN111417132A (zh) 小区的划分方法、装置及设备
Maniar et al. Two-stage load profiling of HV feeders of a distribution system
CN112257923B (zh) 重过载预警方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant