CN114154617A - 一种基于vfl的低压居民用户异常用电识别方法及*** - Google Patents

一种基于vfl的低压居民用户异常用电识别方法及*** Download PDF

Info

Publication number
CN114154617A
CN114154617A CN202111256656.6A CN202111256656A CN114154617A CN 114154617 A CN114154617 A CN 114154617A CN 202111256656 A CN202111256656 A CN 202111256656A CN 114154617 A CN114154617 A CN 114154617A
Authority
CN
China
Prior art keywords
data
abnormal
user
electricity
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111256656.6A
Other languages
English (en)
Inventor
何维民
赵磊
邓君华
陈奕彤
许高俊
孙莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202111256656.6A priority Critical patent/CN114154617A/zh
Publication of CN114154617A publication Critical patent/CN114154617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于VFL的低压居民用户异常用电识别方法及***,方法包括以下步骤:步骤1,采集低压居民用户的设定时长的历史用电数据,导入至数据库中,并对用电数据进行预处理;步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的特征数据,步骤3,使用步骤2获得的特征数据提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;步骤4,构建卷积神经网络模型,对经过上述步骤处理过的数据进行分层抽样、描述神经网络结构以及配置训练方法,完成模型的训练;步骤5,使用模型进行工作,加载训练好的模型,输入待判断的用电数据即可完成判别用户异常用电情况。

Description

一种基于VFL的低压居民用户异常用电识别方法及***
技术领域
本发明属于配电技术领域,更具体地,涉及一种基于VFL的低压居民用户异常用电识别方法及***。
背景技术
随着电力***信息化程度的不断提高和配用电数据量的迅速增长,研究适用于配用电数据挖掘的算法并建立有效的知识发现模型,对配用电业务模式创新和智能电网的发展具有重要意义,基于现有的电力大数据建立数据挖掘模型更是现在智能电网的发展趋势。
然而,到目前为止,虽然随着智能电网的飞速发展,海量的用电数据得以采集,为用电环节的大数据分析提供了坚实的数据基础,但是只积累数据不利用数据仍然是电力企业面临的重要问题。面对海量用电数据的增加,目前大多数电力部门仅使用传统的统计方法进行异常分析,异常数据背后蕴藏的事件信息无法得到有效提炼。
近年来基于数据挖掘理论用电识别和用电欺诈检测相继被提出。现有的非技术性损失检测方法主要分为聚类和分类。前者是一种无监督的学习方法,不需要有类标号的训练数据集进行学习就可以直接学习给定数据的知识结构;后者一种有监督的学习方法,需要带有类标签。这里,通常是用电异常和用电正常的训练数据集先训练出模型,然后通过训练出来的模型识别现有用户是否异常。本发明专利属于后者。
现有技术文件1(CN110321934A)为采用聚类的用电识别技术方案,其提供了一种检测用户用电异常数据的方法,采用K-means算法聚类计算,满足噪声点数量大于预设限值的聚类中心的数据集合均作为异常用电数据集并输出。现有技术文件1的不足之处在于,首先使用K-means算法聚类计算需要首先设定K值,即划分数据集的种类数目,K的取值影响着聚类算法的准确性,用点数据集样本的分布状态的不确定性,对划分种类数目有着极大的困扰;其次迭代过程中样本中心初值的选择影响着最终结果的稳定性,不同的样本中心最终的聚类结果存在差异,且若初始样本中心选择已经偏移全局最优的计算区域,最终结果可能导致局部最优解的出现。
现有技术文件2(CN112101420A)为采用分类的用电识别技术方案,其提供了一种相异模型下Stacking集成算法的异常用电用户识别方法,用电信息采集***中单个用户用电负荷数据的记录情况、时间序列划分统计量以及用户用电相似度三个维度建立用电特征指标,提取用户用电特征集,更加有效挖掘数据深层次特征。现有技术文件2的不足之处在于,未重视用户数据隐私保护,且只能进行在本地进行模型训练,不能够使多个参与方进行协作,从而提升机器学习效果。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于VFL (VerticalFederated Learning,纵向联邦学习)的低压居民用户异常用电识别方法及***,根据电力用户的用电负荷信息,提出一种异常用电识别的有监督学习方法。可有效降低电力公司运营成本,一方面可以节省大量人力物力,另一方面可以减少窃电带来的损失。该模型中用到了支持向量机,局部异常因子分析,同台区用户的相似性度量,最相似用户的相关性变化率度量等算法模块。基于以上算法提取四维复合特征进行纵向联邦,分别从全局异常、局部异常、地域空间、时间序列四个角度描述用户异常程度。
本发明采用如下的技术方案。本发明的第一方面提供了一种基于VFL的低压居民用户异常用电识别方法,包括以下步骤:
步骤1,采集低压居民用户的设定时长的历史用电数据,导入至数据库中,并对用电数据进行预处理;
步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的特征数据,
步骤3,使用步骤2获得的特征数据提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;
步骤4,构建卷积神经网络模型,对经过上述步骤处理过的数据进行分层抽样、描述神经网络结构以及配置训练方法,完成模型的训练;
步骤5,使用模型进行工作,加载训练好的模型,输入待判断的用电数据即可完成判别用户异常用电情况。
优选地,所述预处理包括:缺失值处理,异常值处理和数据规范化,用于供后续使用。
优选地,步骤1具体包括:
步骤1.1,采集低压居民用户的设定时长的历史用电数据;
步骤1.2,进行数据缺失值处理,采用拉格朗日插值法处理缺失值;
步骤1.3,进行数据异常值处理,采用前后两个观测值的平均值来修正该异常值;
步骤1.4,进行规范化处理,采用标准差标准化方法。
优选地,步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的日特征数据和月特征数据,其中日特征数据是指低压居民用户的每日用电量,月特征数据是指低压居民用户每月的日平均用电量,即以低压居民用户的每个月的总用电量除以当月的天数。
优选地,步骤3具体包括:
使用步骤2获得的日特征数据提取全局异常特征,进行二元分类即可得出每个用户用电异常的标签,以及该用户异常程度的概率值,以如下公式表示
Figure RE-GDA0003473210730000031
式中:
x表示用户用电数据值,
y表示是否异常用电,1代表是异常用电,
Pr(y=1|x)表示条件概率,用电户是异常用电的概率,
PA,B[f(x)]表示sigmoid函数,
f(x)表示用户用电数据模型,
e表示自然常数。
优选地,步骤3具体包括:使用步骤2获得的日特征数据提取局部异常特征,用LOF算法提取局部异常因子特征,当某低压居民用户的用电数据的LOF 值高于设定值,则判定其为异常用电用户。
优选地,步骤3具体包括:使用步骤2获得的月特征数据提取地域空间异常特征,当某用户与相同区域下大多用户用电数据模式不一致时,则判定为异常用电用户。
优选地,步骤3具体包括:使用步骤2获得的月特征数据提取时间序列异常特征,当某一用户的用电负荷模式与初始最相关用户的用电负荷模式有较大差异,则判定为异常用电用户。
优选地,步骤5具体包括:
步骤5.1,模型运行,输入待验证的小区的编号以及用电数据文件,***会判别是否已有模型,若模型存在,则依次执行数据预处理、特征提取。
步骤5.2,若经判别,模型不存在,则提示未有模型,提示用户上传数据进行模型训练,训练完成后执行步骤5.1。
步骤5.3,从数据库中读取训练好的模型并且反序列化将加载至***中,从而运行模型得出结果。
本发明的第二方面提供了一种基于VFL的低压居民用户异常用电识别***,使用如权利要求1至9中任一项所述的基于VFL的低压居民用户异常用电识别方法,包括:数据采集模块,数据预处理模块,纵向联邦模块,
其特征在于:
数据采集模块,用于获得低压居民用户的用电数据;
数据预处理模块,用于对低压居民用户的用电数据实施预处理,包括缺失值处理,异常值处理和数据规范化;
纵向联邦模块,用于提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;
模型生成模块,用于构建卷积神经网络模型,使用接收纵向联邦模块的输出,完成卷积神经网络模型训练;
低压居民用户异常用电识别模块,用于加载完成训练的卷积神经网络模型,接收数据采集模块获得的带判断低压居民用户的用电数据,判断是否异常用电。
本发明的有益效果在于,与现有技术相比,为了保护用户隐私以及数据安全,本发明专利采用基于纵向联邦学习和卷积神经网路的模型。
其中,采用纵向联邦学习有助于减轻传统机器学习模型带来的风险和成本,本着集中收集和数据最小化的原则,联邦学习采用分布的数据,利用众多客户端在中央服务器的协调下协同训练模型。
同时,卷积神经网络是一种多层的监督学习神经网络,其实质为多层感知机,其中卷积层和池化层是其核心,可以实现对输入网络的特征向量提取。
本专利提取全局异常、局部异常、地域空间、时间序列四个用户特征维度进行纵向联邦,在保障大数据交换时的信息安全、保护终端数据和成员数据隐私、保证合法合规的前提下,实现多个数据拥有方进行联合训练。
相较于极度依赖用户举报、定期巡查的传统防窃电方法。基于纵向联邦学习的低压居民用户异常用电识别模型,工作方式相对主动,工作量较少。且在目的性、时效性上有着巨大的改善。大大降低了电力公司的人力物力成本,减少因窃电造成的损失。该发明具有重要的实际意义。
使用纵向联邦学习技术结合低压居民用户多维复合特征进行异常用电识别,由于单一数据模型无法准确分类正常用电用户和异常用电用户,因此使用不同模型提取多维复合特征可以从多个方面进行分类可以进一步提高准确率。本发明专利提出的模型可以充分利用海量的用电数据,有效提炼异常数据背后的事件信息。
采用本发明提供的基于纵向联邦学习的低压居民用户异常用电识别方法及***,识别出用户用电行为的异常,可以实现:
1)减轻反窃电工作所需要的工作量,并且增强反窃电工作的准确性以及时效性,快速定位异常用电嫌疑用户,提高案件处理速度术语定义;
2)通过卷积神经网络训练模型增加反窃电工作的准确性,,提高定位成功率,减少不必要的稽查;对于有窃电想法的用户具有威慑力,减少窃电偷电行为的发生。
3)利用联邦学习技术充分保护用户隐私,联合多个参与方进行协作,从而提升模型训练以及异常用电识别效果。
综上所述,快速准确的异常用电识别***对电力公司来说是必不可少的,相对于传统的现场检查,这种方法具有很好的及时性和准确性,能够有效降低电力公司运营成本,一方面可以节省大量人力物力,另一方面可以减少窃电带来的损失。这些都说明异常用电识别***具有重大的经济效益。
附图说明
图1为本发明提供的基于纵向联邦学习的低压居民用户异常用电识别方法流程图;
图2为本发明提供的异常用电识别方法中数据预处理的流程图;
图3为本发明提供的异常用电识别方法中复合特征提取的流程图;
图4为本发明提供的异常用电识别方法中模型训练的流程图;
图5为本发明提供的异常用电识别方法中模型运行的流程图;
图6为本发明提供的异常用电识别方法中使用的卷积神经网络结构图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的实施例1提供了一种基于VFL的低压居民用户异常用电识别方法,包括以下步骤:
步骤1,采集低压居民用户的设定时长的历史用电数据,导入至数据库中,并对用电数据进行预处理,包括:缺失值处理,异常值处理和数据规范化,用于供后续使用,如图2所示。
步骤1具体包括:
步骤1.1,采集低压居民用户的设定时长的历史用电数据,一个优选但非限制性的实施方式为,采集低压居民用户的以往2年的用电数据,将Excel格式的源数据导入至MySQL数据库,以电能表的日冻结示数获得低压居民用户的每日用电量数据。
步骤1.2,进行数据缺失值处理,海量的电力原始数据中存在部分不完整、有异常的数据,严重影响模型训练效率。在本发明进一步优选的实施方式中,采用拉格朗日插值法处理缺失值。
步骤1.3,进行数据异常值处理,针对低压居民用户的每日用电量数据的异常值,采用前后两个观测值的平均值来修正该异常值。
另一个优选但非限制性的实施方式为,删除无法用于训练模型的低压居民用户的用电数据,包括:按照低压居民用户删除,一个优选但非限制性的实施方式为,对于缺少用电数据达到设定比例的低压居民用户,或历史数据全部为零的的低压居民用户,删除该低压居民用户的全部历史用电数据,即删除该低压居民用户;还按照日期删除数据,对于缺少用电数据达到设定比例的单日,删除该单日的全部历史用电数据,即删除该单日。
步骤1.4,对低压居民用户的每日用电量数据进行规范化处理,一个优选但非限制性的实施方式为,采用标准差标准化方法,经过处理的数据符合标准正态分布,即均值为0,标准差为1。
步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的特征量,包括日特征数据和月特征数据,其中日特征数据是指低压居民用户的每日用电量,月特征数据是指低压居民用户每月的日平均用电量,即以低压居民用户的每个月的总用电量除以当月的天数。
步骤3,使用步骤2获得的日特征数据和月特征数据提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦。
在本发明的实施例中,联邦学习使众多客户端,例如但不限于,移动设备或整个组织,在中央服务器,例如但不限于,服务提供商的协调下协同训练模型,同时保持训练数据分散。这使得其在安全性和隐私方面有着质的提升。并且在满足了在隐私方面要求的同时,联邦学习的建模效果相较于传统方法也有着些许提升。
联邦学习又细分为横向联邦学习、纵向联邦学习、与联邦迁移学习。其中横向联邦学习适合2个数据集的用户特征重叠部分较大而用户重叠部分较小的情况、纵向联邦学习适合2个数据集的用户重叠部分较大而用户特征重叠部分较小的情况、联邦迁移学习适合2个数据集的用户与用户特征重叠部分都比较小的情况。而用电数据恰好具有2个数据集的用户重叠部分较大而用户特征重叠部分较小的数据分布情况,故应该进一步选择使用纵向联邦学习。
与此同时提取多维复合特征,从全局异常、局部异常、地域空间、时间序列四个特征进行特征融合。
步骤3具体包括:
使用步骤2获得的日特征数据提取全局异常特征,用LIBSVM库中的C- SVC模型对数据集进行二元分类即可得出每个用户用电异常的标签,以及该用户异常程度的概率值。以如下公式表示
Figure RE-GDA0003473210730000081
式中:
x表示用户用电数据值,
y表示是否异常用电,1代表是异常用电,
Pr(y=1|x)表示条件概率,用电户是异常用电的概率,
PA,B[f(x)]表示sigmoid函数,
f(x)表示用户用电数据模型,
e表示自然常数。
针对海量的用户数据,从全局异常角度出发,通常可以使用LR异常检测或SVM处理方法,相较于LR方法,SVM采用合页损失,具有较强的泛化能力且对于异常值敏感,可获得较为理想的结果。并且为了实现对于缺失数据的补偿,使用拉格朗日插值法实现。
使用步骤2获得的日特征数据提取局部异常特征,对提取全局异常特征进行增强与改善。由于SVM局限性,部分数据通过提取用户异常用电概率特征会将它们误分类为正常用户,实际上它们是异常用户。即SVM检测也存在弊端,对于部分数据,从整体看不存在异常,而从局部角度看,却显示异常。对此需要进一步对异常用电信息进行分析。
一个优选但非限制性的实施方式为,在本阶段使用LOF方法则能够识别出这种异常用户,即用LOF算法提取局部异常因子特征,当某低压居民用户的用电数据的LOF值高于设定值,则判定其为异常用电用户。本发明采用LOF算法实现局部异常检测,提升局部异常检测的精准度。
使用步骤2获得的月特征数据提取地域空间异常特征,提取相似用户用电数据的相关性度置特征,当存在用户与同地区的大部分用户的用电负荷有较大差异所时,则判定用户为异常用电。
更具体地,从地域空间角度出发,计算相似用户用电数据的相关性度量,从而反映用户的异常程度,当某户用电负荷与周围用电负荷有较大差异时,也可能存在异常用电的情况。故采用相关性系数原理计算相似用户用电数据的相关性度置特征。由于用电数据很难满足正态分布条件,所以本技术使用了 pearson相关性系数。当某用户与相同区域下大多用户用电数据模式不一致时,则判定为异常用电用户,以如下公式表示,
Figure RE-GDA0003473210730000091
式中:
similar_r表示被测用户用电数据与相同区域下的用户平均用电数据的相似度,
cov{x,xmean}表示被测用户用电数据与相同区域下的用户平均用电数据的协方差,
x表示被测用户的用电数据,
xmean表示相同区域下的用户平均用电数据,
σx表示被测用户的用电数据标准差,
σmean表示相同区域下的用户平均用电数据的标准差。
使用步骤2获得的月特征数据提取时间序列异常特征,由于数据呈非线性排列,同样通过pearson相关性系数计算最相关用户相关性的变化率,计算最相关用户的相关性变化率,通过该手段能够从时间序列角度出发,从而度量用电的异常程度,当存在用户的用电负荷模式与初始最相关用户有明显差异时,则判定用户为异常用电。
更具体地,从时间序列角度出发,将日期分为D1和D2两段序列,计算最相关用户的相关性变化率度量,其结果能表明用户的异常程度,例如当某一用户的用电负荷模式与初始最相关用户的用电负荷模式有较大差异,则判定为异常用电用户,以如下公式表示,
Figure RE-GDA0003473210730000092
式中:
change_rate表示前后时间序列,相关性系数的增长率或降低率,
Figure RE-GDA0003473210730000093
表示后半段时间序列中,用户i与最大相关用户j的相关性系数,
Figure RE-GDA0003473210730000101
表示前半段时间序列中,用户i与最大相关用户j的相关性系数。
根据上述四个特征维度得出的特征进行特征融合,通过早融合的方式,即先进行特征的多层融合然后在进行预测。本发明专利提出的技术方案可以充分利用海量的用电数据,在保证数据安全的提前下,开展多方的模型训练,减轻传统模式带来的隐私风险和成本,最大限度发挥各方平台优势,实现异常用电识别。
步骤4,构建卷积神经网络模型,对经过上述步骤处理过的数据进行分层抽样、描述神经网络结构以及配置训练方法;经过上述步骤即可完成模型的训练。具体如下:
分层抽样:将训练数据将训练数据分成train/test对的组数,可根据需要进行设置,默认为10。并且设置他们的所占比例,train_size=0.8,test_size=0.2,同时设置随机树种子random_state,这样有助于模型每次用相同的训练集训练结果是一样的,对测试集的预测结果也是一样的,否则准确度会存在波动。
通过model.summary()方法可得到神经网络结构如图6所示,其中第一列表示状态;第二列表示经过卷积后输出的尺寸,计算公式为:(输入尺寸-卷积核尺寸+2xpadding)/步长+1;第三列为输出参数,计算公式为:卷积核尺寸*2x通道数x过滤器数+过滤器数。
训练方法:本发明选择SGD作为训练优化器,学习率区0.1,SGD优点在于能够快速计算,并且能够自动逃离鞍点,自动逃离比较差的局部最优点。损失函数选择二值交叉熵,采用二值交叉熵时最后一层权重的梯度不再跟激活函数的导数相关,只跟输出值和真实值的差值成正比,此时收敛较快。又反向传播是连乘的,因此整个权重矩阵的更新都会加快。此外,多分类交叉熵损失求导更简单,损失仅与正确类别的概率有关。而且损失对于激活层的输入求导很简单。
更具体地,数据按照小区编号分类输入原始数据,原始数据经过预处理后,将以三维numpy数组形式据输入至卷积神经网络中,进行训练从而得到模型,由于季节变化,用电数据趋势分布也在变化,同一个小区的数据可以训练多个模型供选择使用。具体流程如图4所示。
步骤5,使用模型进行工作。加载训练好的模型,输入原始数据即可完成判别用户异常用电情况。
步骤5具体包括:
步骤5.1,模型运行,输入待验证的小区的编号以及用电数据文件,***会判别是否已有模型,若模型存在,则依次执行数据预处理、特征提取。
步骤5.2,若经判别,模型不存在,则提示未有模型,提示用户上传数据进行模型训练,训练完成后执行步骤5.1。
步骤5.3,从数据库中读取训练好的模型并且反序列化将加载至***中,从而运行模型得出结果。上述步骤如图5所示。
本发明的实施例2提供了一种基于VFL的低压居民用户异常用电识别***,使用实施例1所述的基于VFL的低压居民用户异常用电识别方法,包括:数据采集模块,数据预处理模块,纵向联邦模块。更具体地:
数据采集模块,用于获得低压居民用户的用电数据;
数据预处理模块,用于对低压居民用户的用电数据实施预处理,包括缺失值处理,异常值处理和数据规范化;
纵向联邦模块,用于提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;
模型生成模块,用于构建卷积神经网络模型,使用接收纵向联邦模块的输出,完成卷积神经网络模型训练;
低压居民用户异常用电识别模块,用于加载完成训练的卷积神经网络模型,接收数据采集模块获得的带判断低压居民用户的用电数据,判断是否异常用电。
本发明的有益效果在于,与现有技术相比,为了保护用户隐私以及数据安全,本发明专利采用基于纵向联邦学习和卷积神经网路的模型。
其中,采用纵向联邦学习有助于减轻传统机器学习模型带来的风险和成本,本着集中收集和数据最小化的原则,联邦学习采用分布的数据,利用众多客户端在中央服务器的协调下协同训练模型。
同时,卷积神经网络是一种多层的监督学习神经网络,其实质为多层感知机,其中卷积层和池化层是其核心,可以实现对输入网络的特征向量提取。
本专利提取全局异常、局部异常、地域空间、时间序列四个用户特征维度进行纵向联邦,在保障大数据交换时的信息安全、保护终端数据和成员数据隐私、保证合法合规的前提下,实现多个数据拥有方进行联合训练。
相较于极度依赖用户举报、定期巡查的传统防窃电方法。基于纵向联邦学习的低压居民用户异常用电识别模型,工作方式相对主动,工作量较少。且在目的性、时效性上有着巨大的改善。大大降低了电力公司的人力物力成本,减少因窃电造成的损失。该发明具有重要的实际意义。
使用纵向联邦学习技术结合低压居民用户多维复合特征进行异常用电识别,由于单一数据模型无法准确分类正常用电用户和异常用电用户,因此使用不同模型提取多维复合特征可以从多个方面进行分类可以进一步提高准确率。本发明专利提出的模型可以充分利用海量的用电数据,有效提炼异常数据背后的事件信息。
采用本发明提供的基于纵向联邦学习的低压居民用户异常用电识别方法及***,识别出用户用电行为的异常,可以实现:
1)减轻反窃电工作所需要的工作量,并且增强反窃电工作的准确性以及时效性,快速定位异常用电嫌疑用户,提高案件处理速度术语定义;
2)利用联邦学习技术充分挖掘异常信息,提高定位成功率,减少不必要的稽查;
3)通过卷积神经网络训练模型增加反窃电工作的准确性,对于有窃电想法的用户具有威慑力,减少窃电偷电行为的发生。
尤其是,与现有技术文件2相比,本发明中采用的VFL有以下几大特征:
(1)各方数据都保留在本地,***露隐私也不违反法规;
(2)多个参与者联合数据建立虚拟的共有模型,实现各自的使用目的共同获益;
(3)联邦学习的建模效果类似于传统深度学习;
(4)联邦就是数据联盟,不同的联邦有着不同的运算框架,服务于不同的运算目的。如电力行业内部就会形成不同的联盟,通过建模来探知客户各项业务需求。同时,跨行业也会形成不同目的的联邦,如电力行业与金融行业,通过建模既可服务电力行业客户业扩需求审批,也可以为银行提供对企业信贷的评估支撑。
综上所述,快速准确的异常用电识别***对电力公司来说是必不可少的,相对于传统的现场检查,这种方法具有很好的及时性和准确性,能够有效降低电力公司运营成本,一方面可以节省大量人力物力,另一方面可以减少窃电带来的损失。这些都说明异常用电识别***具有重大的经济效益。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (10)

1.一种基于VFL的低压居民用户异常用电识别方法,其特征在于,包括以下步骤:
步骤1,采集低压居民用户的设定时长的历史用电数据,导入至数据库中,并对用电数据进行预处理;
步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的特征数据,
步骤3,使用步骤2获得的特征数据提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;
步骤4,构建卷积神经网络模型,对经过上述步骤处理过的数据进行分层抽样、描述神经网络结构以及配置训练方法,完成模型的训练;
步骤5,使用模型进行工作,加载训练好的模型,输入待判断的用电数据即可完成判别用户异常用电情况。
2.如权利要求1所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
所述预处理包括:缺失值处理,异常值处理和数据规范化,用于供后续使用。
3.如权利要求1或2所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤1具体包括:
步骤1.1,采集低压居民用户的设定时长的历史用电数据;
步骤1.2,进行数据缺失值处理,采用拉格朗日插值法处理缺失值;
步骤1.3,进行数据异常值处理,采用前后两个观测值的平均值来修正该异常值;
步骤1.4,进行规范化处理,采用标准差标准化方法。
4.如权利要求3所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤2,以步骤1经过预处理获得的用电数据,提取能够代表低压居民用户用电模式的日特征数据和月特征数据,其中日特征数据是指低压居民用户的每日用电量,月特征数据是指低压居民用户每月的日平均用电量,即以低压居民用户的每个月的总用电量除以当月的天数。
5.如权利要求4所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤3具体包括:
使用步骤2获得的日特征数据提取全局异常特征,进行二元分类即可得出每个用户用电异常的标签,以及该用户异常程度的概率值,以如下公式表示
Figure FDA0003324091570000021
式中:
x表示用户用电数据值,
y表示是否异常用电,1代表是异常用电,
Pr(y=1|x)表示条件概率,用电户是异常用电的概率,
PA,B[f(x)]表示sigmoid函数,
f(x)表示用户用电数据模型,
e表示自然常数。
6.如权利要求4所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤3具体包括:使用步骤2获得的日特征数据提取局部异常特征,用LOF算法提取局部异常因子特征,当某低压居民用户的用电数据的LOF值高于设定值,则判定其为异常用电用户。
7.如权利要求4所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤3具体包括:使用步骤2获得的月特征数据提取地域空间异常特征,当某用户与相同区域下大多用户用电数据模式不一致时,则判定为异常用电用户。
8.如权利要求4所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤3具体包括:使用步骤2获得的月特征数据提取时间序列异常特征,当某一用户的用电负荷模式与初始最相关用户的用电负荷模式有较大差异,则判定为异常用电用户。
9.如权利要求5至8中任一项所述的一种基于VFL的低压居民用户异常用电识别方法,其特征在于:
步骤5具体包括:
步骤5.1,模型运行,输入待验证的小区的编号以及用电数据文件,***会判别是否已有模型,若模型存在,则依次执行数据预处理、特征提取。
步骤5.2,若经判别,模型不存在,则提示未有模型,提示用户上传数据进行模型训练,训练完成后执行步骤5.1。
步骤5.3,从数据库中读取训练好的模型并且反序列化将加载至***中,从而运行模型得出结果。
10.一种基于VFL的低压居民用户异常用电识别***,使用如权利要求1至9中任一项所述的基于VFL的低压居民用户异常用电识别方法,包括:数据采集模块,数据预处理模块,纵向联邦模块,
其特征在于:
数据采集模块,用于获得低压居民用户的用电数据;
数据预处理模块,用于对低压居民用户的用电数据实施预处理,包括缺失值处理,异常值处理和数据规范化;
纵向联邦模块,用于提取全局异常、局部异常、地域空间、时间序列四个维度的低压居民用户异常用电特征,进行纵向联邦;
模型生成模块,用于构建卷积神经网络模型,使用接收纵向联邦模块的输出,完成卷积神经网络模型训练;
低压居民用户异常用电识别模块,用于加载完成训练的卷积神经网络模型,接收数据采集模块获得的带判断低压居民用户的用电数据,判断是否异常用电。
CN202111256656.6A 2021-10-27 2021-10-27 一种基于vfl的低压居民用户异常用电识别方法及*** Pending CN114154617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256656.6A CN114154617A (zh) 2021-10-27 2021-10-27 一种基于vfl的低压居民用户异常用电识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111256656.6A CN114154617A (zh) 2021-10-27 2021-10-27 一种基于vfl的低压居民用户异常用电识别方法及***

Publications (1)

Publication Number Publication Date
CN114154617A true CN114154617A (zh) 2022-03-08

Family

ID=80458437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111256656.6A Pending CN114154617A (zh) 2021-10-27 2021-10-27 一种基于vfl的低压居民用户异常用电识别方法及***

Country Status (1)

Country Link
CN (1) CN114154617A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114331761A (zh) * 2022-03-15 2022-04-12 浙江万胜智能科技股份有限公司 一种专变采集终端的设备参数分析调整方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114331761A (zh) * 2022-03-15 2022-04-12 浙江万胜智能科技股份有限公司 一种专变采集终端的设备参数分析调整方法及***
CN114331761B (zh) * 2022-03-15 2022-07-08 浙江万胜智能科技股份有限公司 一种专变采集终端的设备参数分析调整方法及***

Similar Documents

Publication Publication Date Title
CN110097297B (zh) 一种多维度窃电态势智能感知方法、***、设备及介质
Buzau et al. Hybrid deep neural networks for detection of non-technical losses in electricity smart meters
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及***
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN110852856B (zh) 一种基于动态网络表征的***虚开识别方法
Alzate et al. Improved electricity load forecasting via kernel spectral clustering of smart meters
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及***
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111681022A (zh) 一种网络平台数据资源价值评估方法
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN110009427B (zh) 一种基于深度循环神经网络的电力销售金额智能预测方法
CN114154617A (zh) 一种基于vfl的低压居民用户异常用电识别方法及***
CN116401601B (zh) 基于逻辑回归模型的停电敏感用户处置方法
CN115905319B (zh) 一种海量用户电费异常的自动识别方法及***
CN116451125A (zh) 一种新能源车车主识别方法、装置、设备及存储介质
Aquize et al. Self-organizing maps for anomaly detection in fuel consumption. Case study: Illegal fuel storage in Bolivia
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN114723554B (zh) 异常账户识别方法及装置
CN114372835B (zh) 综合能源服务潜力客户识别方法、***及计算机设备
CN112256735B (zh) 一种用电监测方法、装置、计算机设备和存储介质
CN115147242A (zh) 一种基于数据挖掘的电网数据管理***
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113435494A (zh) 低压居民用户异常用电识别方法及仿真模拟***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination