CN109522934A - 一种基于聚类算法的电力用户聚类方法 - Google Patents

一种基于聚类算法的电力用户聚类方法 Download PDF

Info

Publication number
CN109522934A
CN109522934A CN201811230748.5A CN201811230748A CN109522934A CN 109522934 A CN109522934 A CN 109522934A CN 201811230748 A CN201811230748 A CN 201811230748A CN 109522934 A CN109522934 A CN 109522934A
Authority
CN
China
Prior art keywords
attribute
data
sample
electric power
property set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811230748.5A
Other languages
English (en)
Inventor
赵志宇
周源
高宇
吕维新
彭剑锋
郭超
李嫣然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Power Grid Co Ltd
Original Assignee
Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Power Grid Co Ltd filed Critical Yunnan Power Grid Co Ltd
Priority to CN201811230748.5A priority Critical patent/CN109522934A/zh
Publication of CN109522934A publication Critical patent/CN109522934A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Water Supply & Treatment (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于聚类算法的电力用户聚类方法,以电力营销***的业务数据作为分析对象,通过数据预处理、数据过滤、以及特征聚类等多个算法过程,把庞大且零散业务数据聚类成行为相似的用户群。电力企业的管理人员对聚类成的用户群进行分析,找出直观的、有价值的信息,快速发现电力业务各个属性值之间的关联性,为电力业务的管理提供更可靠的方法,为电力客户提供更优质的服务。

Description

一种基于聚类算法的电力用户聚类方法
技术领域
本申请涉及电力用户用电行为分析技术领域,尤其涉及一种基于聚类算法的电力用户聚类方法。
背景技术
随着电力行业信息化建设的发展,电网公司多年来积累下大量的电力数据,目前的电力数据主要包括生产数据、管理、运营及营销数据。其中,生产数据包括发电量和电压稳定性等方面的数据;管理数据包括营销***、ITSM***、一体化平台与协同办公等方面的数据;运营数据包括交易电价、售电量与用电客户等方面的数据。
利用现有的数据挖掘与分析技术,可对电力数据进行潜在规律与特征的挖掘,从而便于电力行业的业务发展、市场决策的定向以及服务质量的提升。其中,电力用户细分是电力企业实施客户管理中的重要方面,建立合理、高效的电力用户类型,不仅可以帮助电力企业识别用户群体的特征,更可以结合用户群体的特征,更人性的制定适合用户群体的供电以及电力用户方案,让电力用户获得更好的体验感。
但是,目前的电力用户的聚类方法工作效率低,电力数据中的潜在规律或特征等有价值信息不能被高效、准确的挖掘,造成聚类结果不够精确,从而影响了电力业务的发展。
发明内容
本申请提供了一种基于聚类算法的,以解决现有的电力用户的聚类方法工作效率低,电力数据中的潜在规律或特征等有价值信息不能被高效、准确的挖掘,造成聚类结果不够精确,从而影响了电力业务的发展的问题。
本申请提供了一种基于聚类算法的电力用户聚类方法,其特征在于,包括,
获取电力数据,所述电力数据为包含有P个样本、每个样本有Q个属性的矩阵;
对获取的电力数据进行预处理,获得初始群集;
对所述初始群集内的数据进行过滤,得到第一属性集R;
采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,并对获得的行为相似的用户群进行行为特征分析。
优选地,对获取的电力数据进行预处理,获得初始群集,具体包括,
对电力数据进行唯一属性去除、缺失值处理、特征编码、数据标准化以及数据正则化处理,获得初始群集。
优选地,所述唯一属性去除具体为,将电力数据中不能刻画电力数据本身分布规律的属性进行删除;
所述缺失值处理具体为,对有效值少的属性进行删除,对有效值多的属性的缺失值进行补全;
所述特征编码具体为,采用独热编码对各个属性进行编码;
所述数据标准化具体为,计算每个样本的P-范数,并将该样本的每个属性除以该样本的P-范数;
所述数据正则化具体为,将每个属性减去该属性对应的均值,然后,再除以该属性对应方差;
经上述处理后,获得的初始群集为P个样本、每个样本有q个属性的矩阵。
优选地,对所述初始群集内的数据进行过滤,得到第一属性集R,具体包括,
在q个属性中选择一属性作为分类属性,将其余的q-1个属性与分类属性进行关联性分析,去除与分类属性弱相关的属性,将与分类属性强相关的属性组成该分类属性对应的第一属性集R。
优选地,采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,具体包括,采用CURE算法,将第一属性集R内的P个样本聚成L类,得到第二属性集R*,其中,L为正整数;
采用基于密度可达的DBSCAN算法,将第二属性集R*中的每个样本,即每个用户或每条记录,进行聚类。
本申请提供了一种基于聚类算法的电力用户聚类方法,以电力营销***的业务数据作为分析对象,通过数据预处理、数据过滤、以及特征聚类等多个算法过程,把庞大且零散业务数据聚类成行为相似的用户群。电力企业的管理人员对聚类成的用户群进行分析,找出直观的、有价值的信息,快速发现电力业务各个属性值之间的关联性,为电力业务的管理提供更可靠的方法,为电力客户提供更优质的服务。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于聚类算法的电力用户聚类方法一个实施例的流程图;
图2为本申请基于聚类算法的电力用户聚类方法另一实施例的流程图。
具体实施方式
图1为本申请基于聚类算法的电力用户聚类方法的流程图,如图1所示,本申请的电力用户聚类方法包括:
步骤s100,获取电力数据,电力数据为包含有P个样本、每个样本有Q个属性的矩阵;
步骤s200,对获取的电力数据进行预处理,获得初始群集;
步骤s300,对初始群集内的数据进行过滤,得到第一属性集R;
步骤s400,采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,并对获得的行为相似的用户群进行行为特征分析。
图2为本申请基于聚类算法的电力用户聚类方法另一实施例的流程图,如图2所示,本申请的电力用户聚类方法具体包括:
首先,获取电力数据,电力数据为包含有P个样本、每个样本有Q个属性的矩阵。
一般情况下,电网公司营销***听过的数集包括数千或更多的样本,每个样本为一个电力用户。每个样本包括数十个或更多的属性,即涵盖该电力用户数个用电方面的信息,其中,常见的属性包括客户基本信息、总电价、电价等级、行业分类、电压等级、设备信息、电量、电费、线路信息以及变压器信息等。
然后,对获取的电力数据进行预处理,获得初始群集,其中,本实施例中,预处理过程具体包括对电力数据进行唯一属性去除、缺失值处理、特征编码、数据标准化以及数据正则化等处理,经上述处理后,获得的初始群集为P个样本、每个样本有q个属性的矩阵。
其中,唯一属性去除具体为,将电力数据中不能刻画电力数据本身分布规律的属性进行删除。例如,营销数据中的用户编号对之后的用户用电行为的分析过程并不产生影响,因此,可将用户编号对应的属性列进行删除。
缺失值处理具体为,对有效值少的属性进行删除,对有效值多的属性的缺失值进行补全。当然,在删除有效值少的属性时,可一并将冗余属性进行删除。
删除属性过程中,若删除n个属性,则剩余q个属性,其中,q=Q-n。另外,对缺失值进行补充的方式有多种,本申请中,对已有有效性取其平均作为缺失值的填充值。当然,本领域技术人员可根据选择其他补充方法,其不均不影响之后的分析过程。
特征编码具体为,采用独热编码对各个属性进行编码。独热编码采用N位寄存器对N个状态进行编码,其中,N不小于q,每个状态都与其独立的寄存器位,并在任意时候,其中只有一位有效。经过独热编码后,属性数据变为稀疏特征,解决了传统的分类器不好处理属性数据的问题。
数据标准化具体为,计算每个样本的P-范数,并将该样本的每个属性除以该样本的P-范数。经数据标准化处理后,每个样本的p-范数=1,其中,p-范数的计算公式为:||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p)。
数据正则化具体为,将每个属性减去该属性对应的均值,然后,再除以该属性对应方差。经过标准化与正则化处理后,每个属性的数据都聚集在0附近,且方差为1,即获得的样本数据具有零均值和单位方差。
之后,对初始群集内的数据进行过滤,得到第一属性集R。
本实施例中,该过程具体包括,在q个属性中选择一属性作为分类属性,将其余的q-1个属性与分类属性进行关联性分析,去除与分类属性弱相关的属性,将与分类属性强相关的属性组成该分类属性对应的第一属性集R。
当然,可根据不同的需要,选择多个分类属性,然后,依次获取每个分类属性对应的第一属性集R。
最后,采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,并对获得的行为相似的用户群进行行为特征分析。
本实施例中,采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,具体包括,首先,采用CURE算法,将第一属性集R内的P个样本聚成L类,得到第二属性集R*,按数据的数值由小到大划分为L个级别,原先的数据值将由这些级别代替,得到第二属性集R*,其中,L为正整数;然后,采用基于密度可达的DBSCAN算法,将第二属性集R*中每个样本,即每个用户或每条记录,进行聚类,获得行为相似的用户群。
本实施例中,DBSCAN算法的具体过程包括,首先,从第二属性集R*中找到任意一对象p,并查找第二属性集R*中关于ε(给定对象半径ε内的区域称为该对象的ε邻域)和Minpts(圈里的点的密度,即给定点在ε邻域内成为核心对象的最小邻域点数)的从p密度可达的所有对象。如果p是核心对象,则根据算法可以找到一个关于参数ε和Minpts的簇。如果p是一个边界点,即p的ε邻域包含的对象数小于Minpts,即没有对象从p密度可达,p被暂时标注为噪声点。然后,DBSCAN处理第二属性集R*中的下一个对象。同一个簇里的数据属性值相近或者相等,得出行为相似的用户群。每个行为相似的用户群称为一个簇,对获得的多个相似的用户群依次命名为簇1、簇2…簇n。
电力业务管理人员可根据获得的行为相似的用户群,分析该用户群的行为特征,然后,针对其行为特征,准备对应的营销办法。例如,对于存在偷、漏电记录的用户群,可对其内的用户进行用电量的监督与检查;对于按时缴电费,用电习惯良好的用户群,营销***管理人员可以减少对这类群体的关注,减轻工作量,实现聚焦。再例如,可以根据用户的用电情况来给用户进行分级,对于不同等级的用户可以进行相应的增值服务。
一种基于聚类算法的电力用户聚类方法,以电力营销***的业务数据作为分析对象,通过数据预处理、数据过滤、以及特征聚类等多个算法过程,把庞大且零散业务数据聚类成行为相似的用户群。电力企业的管理人员对聚类成的用户群进行分析,找出直观的、有价值的信息,快速发现电力业务各个属性值之间的关联性,为电力业务的管理提供更可靠的方法,为电力客户提供更优质的服务。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (5)

1.一种基于聚类算法的电力用户聚类方法,其特征在于,包括,
获取电力数据,所述电力数据为包含有P个样本、每个样本有Q个属性的矩阵;
对获取的电力数据进行预处理,获得初始群集;
对所述初始群集内的数据进行过滤,得到第一属性集R;
采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,并对获得的行为相似的用户群进行行为特征分析。
2.根据权利要求1所述的方法,其特征在于,对获取的电力数据进行预处理,获得初始群集,具体包括,
对电力数据进行唯一属性去除、缺失值处理、特征编码、数据标准化以及数据正则化处理,获得初始群集。
3.根据权利要求2所述的方法,其特征在于,所述唯一属性去除具体为,将电力数据中不能刻画电力数据本身分布规律的属性进行删除;
所述缺失值处理具体为,对有效值少的属性进行删除,对有效值多的属性的缺失值进行补全;
所述特征编码具体为,采用独热编码对各个属性进行编码;
所述数据标准化具体为,计算每个样本的P-范数,并将该样本的每个属性除以该样本的P-范数;
所述数据正则化具体为,将每个属性减去该属性对应的均值,然后,再除以该属性对应方差;
经上述处理后,获得的初始群集为P个样本、每个样本有q个属性的矩阵。
4.根据权利要求1所述的方法,其特征在于,对所述初始群集内的数据进行过滤,得到第一属性集R,具体包括,
在q个属性中选择一属性作为分类属性,将其余的q-1个属性与分类属性进行关联性分析,去除与分类属性弱相关的属性,将与分类属性强相关的属性组成该分类属性对应的第一属性集R。
5.根据权利要求1所述的方法,其特征在于,采用聚类算法,对第一属性集R内的数据进行聚类,获得行为相似的用户群,具体包括,采用CURE算法,将第一属性集R内的P个样本聚成L类,得到第二属性集R*,其中,L为正整数;
采用基于密度可达的DBSCAN算法,将第二属性集R*中的每个样本,即每个用户或每条记录,进行聚类。
CN201811230748.5A 2018-10-22 2018-10-22 一种基于聚类算法的电力用户聚类方法 Withdrawn CN109522934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811230748.5A CN109522934A (zh) 2018-10-22 2018-10-22 一种基于聚类算法的电力用户聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811230748.5A CN109522934A (zh) 2018-10-22 2018-10-22 一种基于聚类算法的电力用户聚类方法

Publications (1)

Publication Number Publication Date
CN109522934A true CN109522934A (zh) 2019-03-26

Family

ID=65772299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811230748.5A Withdrawn CN109522934A (zh) 2018-10-22 2018-10-22 一种基于聚类算法的电力用户聚类方法

Country Status (1)

Country Link
CN (1) CN109522934A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN110851502A (zh) * 2019-11-19 2020-02-28 国网吉林省电力有限公司 一种基于数据挖掘技术的负荷特征场景分类方法
CN111915116A (zh) * 2019-05-10 2020-11-10 国网能源研究院有限公司 一种基于K-means聚类的电力居民用户分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
CN104504127A (zh) * 2014-12-29 2015-04-08 广东电网有限责任公司茂名供电局 用于电力用户分类的隶属度确定方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法
CN104504127A (zh) * 2014-12-29 2015-04-08 广东电网有限责任公司茂名供电局 用于电力用户分类的隶属度确定方法和***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915116A (zh) * 2019-05-10 2020-11-10 国网能源研究院有限公司 一种基于K-means聚类的电力居民用户分类方法
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN110851502A (zh) * 2019-11-19 2020-02-28 国网吉林省电力有限公司 一种基于数据挖掘技术的负荷特征场景分类方法

Similar Documents

Publication Publication Date Title
CN108764984A (zh) 一种基于大数据的电力用户画像构建方法及***
CN110781332A (zh) 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN109522934A (zh) 一种基于聚类算法的电力用户聚类方法
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
US20150317573A1 (en) User-relevant statistical analytics using business intelligence semantic modeling
CN112100219A (zh) 基于数据库查询处理的报表生成方法、装置、设备和介质
CN104700190A (zh) 一种用于项目与专业人员匹配的方法和装置
US20180246951A1 (en) Database-management system comprising virtual dynamic representations of taxonomic groups
CN103440539A (zh) 一种用户用电数据处理方法
US20190361892A1 (en) System and method for multi-dimensional real time vector search and heuristics backed insight engine
CN110427418A (zh) 一种基于客户能源价值指标体系的客户分析分群方法
Münter Germany’s polycentric metropolitan regions in the world city network
CN105786810B (zh) 类目映射关系的建立方法与装置
Zhang et al. Logistics service supply chain order allocation mixed K-Means and Qos matching
Grigoras et al. Processing of smart meters data for peak load estimation of consumers
CN110851502B (zh) 一种基于数据挖掘技术的负荷特征场景分类方法
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN115687788A (zh) 一种智能化商机推荐方法和***
CN108132997A (zh) 一种电网数据管理归结结构及其归结方法
CN114997109A (zh) 单据转换方法、装置、计算机设备和存储介质
Xiaoman et al. Analysis of power large user segmentation based on affinity propagation and K-means algorithm
Li et al. iMiner: mining inventory data for intelligent management
CN112100246A (zh) 一种基于多维图码标签的客户用电价值挖掘方法
Xiahou et al. Customer profitability analysis of automobile insurance market based on data mining
Choe et al. Framework and workflows for spatial database generalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190326

WW01 Invention patent application withdrawn after publication