CN114611976A - 一种电力用户行为画像方法、***及装置 - Google Patents

一种电力用户行为画像方法、***及装置 Download PDF

Info

Publication number
CN114611976A
CN114611976A CN202210288846.4A CN202210288846A CN114611976A CN 114611976 A CN114611976 A CN 114611976A CN 202210288846 A CN202210288846 A CN 202210288846A CN 114611976 A CN114611976 A CN 114611976A
Authority
CN
China
Prior art keywords
clustering
canopy
sample
class
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210288846.4A
Other languages
English (en)
Inventor
林文浩
姜绍艳
简玮侠
谢东霖
张永亮
熊力
陈昱
夏曼
梁丽丽
产启中
林尔迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202210288846.4A priority Critical patent/CN114611976A/zh
Publication of CN114611976A publication Critical patent/CN114611976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电力行业客户管理技术领域,公开了一种电力用户行为画像方法、***及装置。本发明对电力用户负荷数据进行修正及归一化处理,以处理后的数据作为样本集,采用Canopy‑K‑means算法对其进行聚类,并计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,以所述最优聚类数对应的聚类划分结果为目标聚类划分结果,进而确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像;本发明通过改进对样本集的聚类过程,提高了聚类算法的整体效率,并解决了初始聚类中心难以确定的问题,能够有效提高聚类精度。

Description

一种电力用户行为画像方法、***及装置
技术领域
本发明涉及电力行业客户管理技术领域,尤其涉及一种电力用户行为画像方法、***及装置。
背景技术
用户画像作为一种快速、精准再现消费者全貌的数据分析与服务设计工具,不仅能够反映消费者的消费行为模式、消费习惯等特征,而且为挖掘消费者需求与价值、促进企业精准营销、实施企业市场细化、提升用户体验提供了新思路。近年来,随着大数据技术的迅猛发展,不少电力企业基于用户画像,建立与大数据相关的营销体系,以进行精准营销和信息推荐。
聚类算法能够以无监督方式从海量数据中形成若干数据集合,包括基于划分的聚类、基于层次的聚类、基于密度的聚类、基于模糊的聚类以及高斯混合模型聚类。由于每个算法有其特有的优化准则,仅适用于特定的数据结构以及簇的形状,聚类效率、精度及鲁棒性往往难以兼顾。
现有技术中,通常基于层次聚类、密度聚类、模糊C均值聚类等聚类算法对电力用户负荷数据进行聚类,以用于进行关于电力用户用电行为的画像。电力负荷数据往往具有高维特征、数据量大的特点,上述的聚类算法虽然具有较好的算法成熟度,但存在初始聚类中心难以确定、聚类精度和效率一般的缺陷。
发明内容
本发明提供了一种电力用户行为画像方法、***及装置,解决了现有用于电力用户画像的聚类算法难以确定初始聚类中心、聚类精度和效率一般的技术问题。
本发明第一方面提供一种电力用户行为画像方法,包括:
获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
根据本发明第一方面的一种能够实现的方式,所述采用Canopy-K-means算法对所述样本集进行聚类,包括:
通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
根据本发明第一方面的一种能够实现的方式,所述通过Canopy算法对所述样本集进行预聚类,包括:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
根据本发明第一方面的一种能够实现的方式,所述计算每种聚类方案的聚类有效性指标,包括:
按照下式计算第一聚类有效性指标:
Figure BDA0003560908820000031
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
按照下式计算第二聚类有效性指标:
Figure BDA0003560908820000032
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
按照下式计算第三聚类有效性指标:
Figure BDA0003560908820000033
其中
Figure BDA0003560908820000034
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
根据本发明第一方面的一种能够实现的方式,所述确定用户用电行为的最优特征集,包括:
构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
根据本发明第一方面的一种能够实现的方式,所述根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像,包括:
采用打分制的方法来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
本发明第二方面提供一种电力用户行为画像***,包括:
样本集形成模块,用于获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
聚类模块,用于采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
画像生成模块,用于确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
根据本发明第二方面的一种能够实现的方式,所述聚类模块包括用于采用Canopy-K-means算法对所述样本集进行聚类的聚类子模块,所述聚类子模块包括:
预聚类单元,用于通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
再聚类单元,用于以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
根据本发明第二方面的一种能够实现的方式,所述预聚类单元具体用于:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
根据本发明第二方面的一种能够实现的方式,所述聚类模块包括用于计算每种聚类方案的聚类有效性指标的计算子模块,所述计算子模块包括:
第一计算单元,用于按照下式计算第一聚类有效性指标:
Figure BDA0003560908820000051
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
第二计算单元,用于按照下式计算第二聚类有效性指标:
Figure BDA0003560908820000052
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
第三计算单元,用于按照下式计算第三聚类有效性指标:
Figure BDA0003560908820000053
其中,
Figure BDA0003560908820000054
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
根据本发明第二方面的一种能够实现的方式,所述画像生成模块包括用于确定用户用电行为的最优特征集的特征确定子模块,所述特征确定子模块包括:
构建单元,用于构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
特征筛选单元,用于根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
根据本发明第二方面的一种能够实现的方式,所述画像生成模块包括用于根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像的生成子模块,所述生成子模块具体用于:
采用打分制的***来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
本发明第三方面提供了一种电力用户行为画像装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项能够实现的方式所述的电力用户行为画像方法;
处理器,用于执行所述存储器中的指令。
本发明第四方面一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项能够实现的方式所述的电力用户行为画像方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明对电力用户负荷数据进行修正及归一化处理,以处理后的数据作为样本集,采用Canopy-K-means算法对其进行聚类,并计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,以所述最优聚类数对应的聚类划分结果为目标聚类划分结果,进而确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像;本发明采用Canopy-K-means算法对样本集进行聚类,可以提高聚类算法的整体效率,并解决初始聚类中心难以确定的问题,且通过各聚类有效性指标的值确定最优聚类数,能够有效提高聚类精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一个可选实施例提供的一种电力用户行为画像方法的流程图;
图2为本发明一个可选实施例提供的一种电力用户行为画像***的原理框图。
附图标记:
1-样本集形成模块;2-聚类模块;3-画像生成模块。
具体实施方式
本发明实施例提供了一种电力用户行为画像方法、***及装置,用于解决现有用于电力用户画像的聚类算法难以确定初始聚类中心、聚类精度和效率一般的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种电力用户行为画像方法。
请参阅图1,图1示出了本发明实施例提供的一种电力用户行为画像方法的流程图。
本发明实施例提供的一种电力用户行为画像方法,包括:
步骤S1,获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集。
获取电力用户负荷数据时,可以通过安装于用户处的数据采集装置进行数据采集。其中,所采集的电力用户负荷数据往往存在着部分空缺值、负值和零值。由于很多聚类算法对于原始数据中的异常值都较为敏感,负荷数据中的异常数据会影响聚类结果的准确性,使得聚类效果不佳,甚至产生错误的分类。通过查找并修正原始数据中的异常数据,使得修正后的数据能够接近甚至还原原始数据,是聚类中必不可少的重要环节。
为了避免数据异常值和缺失值对聚类效果产生影响,对所述电力用户负荷数据进行修正时,可以由现场负荷预测人员根据长期积累的经验对数据进行修正,也可以通过数据横纵向对比法对数据进行修正。
其中,通过数据横纵向对比法对数据进行修正,具体为:
将某一时刻的负荷与其前后时刻的负荷进行比较,或将某一时刻的负荷值,分别与其前一两天相同时刻的负荷值进行比较,如果偏差大于某一闭值,则取平均值代替。
本发明实施例,通过对修正的数据进行归一化处理,能够保证聚类结果的有效性,降低算法的计算复杂度,从而发挥聚类算法的最佳效果。
作为一种实施方式,对修正的数据进行归一化处理,包括:
设修正后的电力用户负荷数据序列为Xi=(xi,1,xi,2,…,xi,ρ),采用下列归一化处理公式对数据进行处理:
Figure BDA0003560908820000081
式中,xi,j为序列Xi的第j个样本的负荷值,xi,j′为对xi,j进行归一化处理后的值,xi,min、xi,max分别为序列Xi中的负荷最小值、负荷最大值,ρ为序列Xi的数据数量。
步骤S2,采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标。
在一种能够实现的方式中,所述采用Canopy-K-means算法对所述样本集进行聚类,包括:
通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
Canopy算法是根据一种简单、计算量较小的方法来判断对象相似性,因此常用于海量的高维数据的初始聚类。Canopy算法与其他聚类算法不同之处在于,其聚类得到的Canopy子集之间允许重叠,即一个数据对象可能属于两个Canopy子集,聚类精度一般,因此其聚类结果通常不直接作为最终聚类结果,而是作为预处理,再进行其他精确聚类。Canopy聚类中不存在孤立点,即每个数据对象必属于某个Canopy子集,也可以一个数据对象单独属于一个Canopy子集。Canopy算法的特点决定了该算法的数据处理速度很快,可以快速高效的将数据对象分为若干个Canopy子集,并确定每个子集的质心,即聚类中心。
在一种能够实现的方式中,所述通过Canopy算法对所述样本集进行预聚类,包括:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
K-means算法是一种经典的传统聚类算法,K-means聚类算法通过距离计算,将多个样本对象分成若干类,该算法计算简单,效率高,且原理比较简单,但是该算法需要人为预设聚类数,并随机确定与聚类数对应的初始聚类中心,多个样本对象会根据距离公式计算到各聚类中心的距离,并选择最近的一类加入,结束后重新计算聚类中心,直到不再变化或者迭代次数完成为止,最终得出聚类结果,其聚类结果常用均方差作为判断指标。
本发明上述实施例,通过使用Canopy算法对数据进行预聚类,并在预聚类结果上进行K-means聚类,可以提高算法整体计算效率。将Canopy算法预聚类得到的Canopy子集,作为K-means算法初始聚类中心,同时确定聚类数,解决了K-means聚类初始聚类中心和聚类数不确定的问题。
在一种能够实现的方式中,所述计算每种聚类方案的聚类有效性指标,包括:
按照下式计算第一聚类有效性指标:
Figure BDA0003560908820000101
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
按照下式计算第二聚类有效性指标:
Figure BDA0003560908820000102
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
按照下式计算第三聚类有效性指标:
Figure BDA0003560908820000103
其中,
Figure BDA0003560908820000104
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
在根据各聚类方案的聚类有效性指标的值确定最优聚类数时,本发明实施例结合第一聚类有效性指标、第二聚类有效性指标以及第三聚类有效性指标来确定最优聚类数。
其中,第一聚类有效性指标是聚类中类内所有数据对象到聚类中心的距离度量。在聚类数一定时,该值越小,证明类内各数据对象到其聚类中心的距离越小,每一类的数据对象越集中,聚类效果越好;
第二聚类有效性指标的值越大,则认为聚类算法的聚类结果越好;
第三聚类有效性指标的值越小,则认为聚类算法的聚类结果越好。
步骤S3,确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
在一种能够实现的方式中,所述确定用户用电行为的最优特征集,包括:
构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
在电力用电行为分析中,通常会采用源于用电曲线的用电特征来表征用户用电行为。用户用电行为特征集的目标是快速掌握不同客户群体的用电特征,从而实现不同用电群体的差异化服务。因此,在用户用电行为特征集的选择上,需要考虑最能反映客户用电特征的指标。
本发明实施例中,基于用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征构建用户用电行为特征集。
各用电特征指标的说明及属性如表1所示。
表1:
Figure BDA0003560908820000111
Figure BDA0003560908820000121
最大相关最小冗余准则是一种滤波式特征选择方法。其核心思想为最大化特征与分类变量之间的相关性,最小化特征与特征之间的冗余性。本实施例将其应用于用户用电特征选取中,得到相关性最强、冗余度最低的特征集,用以表征用户用电特性。
特征与分类变量相关性以特征与分类变量之间的互信息值作为衡量指标,其表征的是已知该特征时类别不确定性减少程度。在求解过程中,为了让各项特征变量更具有统计学意义,需要对各个变量进行变量域离散化处理,即把各个变量的数值序列转化为概率分布区间。
本发明实施例,先对特征进行归一化处理,再将变量区间均匀离散,得到各特征变量的概率分布,继而完成对各个特征量与用户类别的互信息计算。
具体地,设置特征集与类别e的最大相关性指标D(Y,e)为:
Figure BDA0003560908820000131
式中,NY为特征集Y所包含的特征数量,di为特征集Y中的第i个特征,U(di;e)为di和用户类别e之间的互信息值。
两个特征间信息的冗余性可以用信息增益、基尼系数、相关系数等指标来衡量。作为一种实施方式,采用相关系数衡量两个特征间信息的冗余性:
Figure BDA0003560908820000132
式中,
Figure BDA0003560908820000133
为特征di与特征dj的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小;cov(di,dj)为特征di与特征dj的协方差,
Figure BDA0003560908820000134
为特征di的标准差,
Figure BDA0003560908820000135
为特征dj的标准差。
设置最小冗余性指标S(Y)为:
Figure BDA0003560908820000136
综合以上两个指标得到最大相关最小冗余准则,相应的公式如下:
Figure BDA0003560908820000137
式中,ImRMR表示最大相关最小冗余准则。
求解满足最大相关最小冗余准则的特征集Y即为最优特征集。
最优特征集的求解可转化为优化问题,考虑到用户用电行为的初始特征数量不大,作为一种实施方式,采用遍历法来得到全局最优解。令fi为集合隶属度指示函数,对其进行0-1编码,fi=1表示该特征存在于Y中,fi=0则表示在Y中不存在特征di。为简化公式表达,将互信息U(di;e)与相关系数
Figure BDA0003560908820000138
分别用ui与vij表示,则ImRMR的表达式为:
Figure BDA0003560908820000139
遍历f=(0,0,…,0)至f=(1,1,…,1)得到使ImRMR最大的f向量,解码后得到最优特征集。
在一种能够实现的方式中,所述根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像,包括:
采用打分制的方法来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
本发明实施例,通过雷达图进行各类用户用电特性的可视化表达,且通过柱状图进行不同类之间用户用电特性对比的可视化表达,便于业务人员更准确便捷地了解电力用户用电行为的共性与个性。
其中,用户用电行为数据大多为数值型数据,需要经过一定的转化规则才能转化为便于业务人员理解的标签。本实施例中,采用打分制,满分为10分,以每类用户每个标签的得分来衡量该类用户的用电特性。每类用户每个标签的得分由下式得到:
Figure BDA0003560908820000141
式中,Ti,j为第i类用户的第j个特征的得分;
Figure BDA0003560908820000142
为隶属于第i类的所有用户的第j个特征的平均值;tjmax、tjmin分别为第j个特征的最大值、最小值。
本发明还提供了一种电力用户行为画像***。
请参阅图2,图2示出了本发明实施例提供的一种电力用户行为画像***的原理框图。
本发明实施例提供了一种电力用户行为画像***,包括:
样本集形成模块1,用于获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
聚类模块2,用于采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
画像生成模块3,用于确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
在一种能够实现的方式中,所述聚类模块2包括用于采用Canopy-K-means算法对所述样本集进行聚类的聚类子模块,所述聚类子模块包括:
预聚类单元,用于通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
再聚类单元,用于以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
在一种能够实现的方式中,所述预聚类单元具体用于:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
在一种能够实现的方式中,所述聚类模块2包括用于计算每种聚类方案的聚类有效性指标的计算子模块,所述计算子模块包括:
第一计算单元,用于按照下式计算第一聚类有效性指标:
Figure BDA0003560908820000151
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
第二计算单元,用于按照下式计算第二聚类有效性指标:
Figure BDA0003560908820000152
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
第三计算单元,用于按照下式计算第三聚类有效性指标:
Figure BDA0003560908820000161
其中,
Figure BDA0003560908820000162
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
在一种能够实现的方式中,所述画像生成模块3包括用于确定用户用电行为的最优特征集的特征确定子模块,所述特征确定子模块包括:
构建单元,用于构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
特征筛选单元,用于根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
在一种能够实现的方式中,所述画像生成模块3包括用于根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像的生成子模块,所述生成子模块具体用于:
采用打分制的***来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
本发明还提供了一种电力用户行为画像装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项实施例所述的电力用户行为画像方法;
处理器,用于执行所述存储器中的指令。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项实施例所述的电力用户行为画像方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,上述描述的***、装置和模块的具体有益效果,可以参考前述方法实施例中的对应有益效果,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种电力用户行为画像方法,其特征在于,包括:
获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
2.根据权利要求1所述的电力用户行为画像方法,其特征在于,所述采用Canopy-K-means算法对所述样本集进行聚类,包括:
通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
3.根据权利要求2所述的电力用户行为画像方法,其特征在于,所述通过Canopy算法对所述样本集进行预聚类,包括:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
4.根据权利要求1所述的电力用户行为画像方法,其特征在于,所述计算每种聚类方案的聚类有效性指标,包括:
按照下式计算第一聚类有效性指标:
Figure FDA0003560908810000021
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
按照下式计算第二聚类有效性指标:
Figure FDA0003560908810000022
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
按照下式计算第三聚类有效性指标:
Figure FDA0003560908810000023
其中
Figure FDA0003560908810000024
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
5.根据权利要求1所述的电力用户行为画像方法,其特征在于,所述确定用户用电行为的最优特征集,包括:
构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
6.根据权利要求5所述的电力用户行为画像方法,其特征在于,所述根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像,包括:
采用打分制的方法来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
7.一种电力用户行为画像***,其特征在于,包括:
样本集形成模块,用于获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
聚类模块,用于采用Canopy-K-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
画像生成模块,用于确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
8.根据权利要求7所述的电力用户行为画像***,其特征在于,所述聚类模块包括用于采用Canopy-K-means算法对所述样本集进行聚类的聚类子模块,所述聚类子模块包括:
预聚类单元,用于通过Canopy算法对所述样本集进行预聚类,得到多个Canopy子集以及各Canopy子集的质心;
再聚类单元,用于以各Canopy子集的质心作为初始聚类中心,采用K-means算法对所述样本集进行聚类。
9.根据权利要求8所述的电力用户行为画像***,其特征在于,所述预聚类单元具体用于:
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值T1、T2,且T1>T2
从所述样本列表中随机选择一个样本点,作为第一个Canopy质心,并为所述第一个Canopy质心生成一个Canopy子集,记为S0
从样本列表剩余的样本点中再随机选择一个样本点,记为Q,设其到所述第一个Canopy质心的距离为D,若D≤T1,则视Q为弱标记样本点并放入S0,若D≤T2,则视Q为强标记样本点并放入S0,若D>T1,则以Q生成新的Canopy子集,将Q从样本列表中删除;其中,每个Canopy子集中所有强标记样本点的中心位置即为对应的质心;
重复第三步直到所述样本列表中元素个数为零,输出得到的Canopy子集及其质心。
10.根据权利要求7所述的电力用户行为画像***,其特征在于,所述聚类模块包括用于计算每种聚类方案的聚类有效性指标的计算子模块,所述计算子模块包括:
第一计算单元,用于按照下式计算第一聚类有效性指标:
Figure FDA0003560908810000041
式中,TQD为第一聚类有效性指标,TQD(i)为聚类中第i个类内数据对象到聚类中心的距离,N为聚类中类内数据对象的数量;
第二计算单元,用于按照下式计算第二聚类有效性指标:
Figure FDA0003560908810000042
式中,TPD为第二聚类有效性指标,Qij为Qi与Qj的聚类中心之间的距离,Qi为第i类对象集合,Qj为第j类对象集合,Di为Qi中数据对象到其聚类中心的平均距离,Dj为Qj中数据对象到其聚类中心的平均距离,K为聚类数;
第三计算单元,用于按照下式计算第三聚类有效性指标:
Figure FDA0003560908810000043
其中
Figure FDA0003560908810000051
式中,TYD为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δij为布尔值。
11.根据权利要求7所述的电力用户行为画像***,其特征在于,所述画像生成模块包括用于确定用户用电行为的最优特征集的特征确定子模块,所述特征确定子模块包括:
构建单元,用于构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
特征筛选单元,用于根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
12.根据权利要求11所述的电力用户行为画像***,其特征在于,所述画像生成模块包括用于根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像的生成子模块,所述生成子模块具体用于:
采用打分制的***来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
13.一种电力用户行为画像装置,其特征在于,包括:
存储器,用于存储指令;其中,所述指令用于实现如权利要求1-6任意一项所述的电力用户行为画像方法;
处理器,用于执行所述存储器中的指令。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的电力用户行为画像方法。
CN202210288846.4A 2022-03-23 2022-03-23 一种电力用户行为画像方法、***及装置 Pending CN114611976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210288846.4A CN114611976A (zh) 2022-03-23 2022-03-23 一种电力用户行为画像方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210288846.4A CN114611976A (zh) 2022-03-23 2022-03-23 一种电力用户行为画像方法、***及装置

Publications (1)

Publication Number Publication Date
CN114611976A true CN114611976A (zh) 2022-06-10

Family

ID=81865968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210288846.4A Pending CN114611976A (zh) 2022-03-23 2022-03-23 一种电力用户行为画像方法、***及装置

Country Status (1)

Country Link
CN (1) CN114611976A (zh)

Similar Documents

Publication Publication Date Title
Zhu et al. Fast and stable clustering analysis based on Grid-mapping K-means algorithm and new clustering validity index
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN112070125A (zh) 一种基于孤立森林学***衡数据集的预测方法
CN107230108A (zh) 业务数据的处理方法及装置
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
CN116109195B (zh) 一种基于图卷积神经网络的绩效评估方法及***
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
CN113111924A (zh) 电力客户分类方法及装置
Shi et al. Clustering framework based on multi-scale analysis of intraday financial time series
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
Diao et al. Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph
CN113450141A (zh) 一种基于电力大客户群体售电量特征的智能预测方法及装置
CN117034046A (zh) 一种基于isodata聚类的柔性负荷可调潜力评估方法
Wedashwara et al. Combination of genetic network programming and knapsack problem to support record clustering on distributed databases
CN106651630A (zh) 关键用电行业识别方法和***
CN113705920B (zh) 火电厂用水数据样本集的生成方法和终端设备
CN114611976A (zh) 一种电力用户行为画像方法、***及装置
CN109241146A (zh) 集群环境下的学生智助方法和***
CN114091961A (zh) 一种基于半监督svm的电力企业供应商评价方法
CN114372835A (zh) 综合能源服务潜力客户识别方法、***及计算机设备
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
Rong et al. Exploring network behavior using cluster analysis
Ding et al. Time-varying Gaussian Markov random fields learning for multivariate time series clustering
Sitepu et al. Analysis of Fuzzy C-Means and Analytical Hierarchy Process (AHP) Models Using Xie-Beni Index
Liu et al. [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination