CN115358797A - 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 - Google Patents
基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 Download PDFInfo
- Publication number
- CN115358797A CN115358797A CN202211024433.1A CN202211024433A CN115358797A CN 115358797 A CN115358797 A CN 115358797A CN 202211024433 A CN202211024433 A CN 202211024433A CN 115358797 A CN115358797 A CN 115358797A
- Authority
- CN
- China
- Prior art keywords
- data
- energy
- user
- clustering
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims description 6
- 230000006399 behavior Effects 0.000 claims abstract description 72
- 238000005265 energy consumption Methods 0.000 claims abstract description 61
- 230000005611 electricity Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000001816 cooling Methods 0.000 claims description 8
- 238000004146 energy storage Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001932 seasonal effect Effects 0.000 claims description 6
- 238000001556 precipitation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000005485 electric heating Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims 2
- 238000002759 z-score normalization Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
- Y02P90/82—Energy audits or management systems therefor
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于能源互联网与人工智能行业应用领域,涉及一种基于聚类分析法的综合能源用户用能行为分析方法,包括获取包括电、热、气、冷能源在内的多个用户的用能数据;将上述用户用能数据进行预处理,按照一定离散序列形式储于数据集形成第一样本数据;根据k‑means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得最优聚类点以及其聚类结果图;根据聚类结果图使用描述性数据对用户用能行为进行簇别划分,得到用户的簇别标签;根据最大相关最小冗余准则基于特征性数据选取用户用能行为的特征标签;对用户簇别标签及特征标签进行可视化展示,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像。
Description
技术领域
本发明属于能源互联网与人工智能行业应用领域,涉及一种基于聚类分析法的综合能源用户用能行为分析方法及***。
背景技术
受市场环境、政策导向等因素的影响,在较长的时间尺度下,人们对不同形式能源的选择也并非一成不变,同时人们的能源消费需求往往相对稳定。不同形式能源间的转换关系存在物理意义不明确,统计学特征明显的特点,无法直接构建其能源转换的物理模型。
用户用能行为分析是近年来的研究热点,但目前的研究大多集中于对用户用电行为的分析方面,而从综合能源***角度对用户的综合用能行为分析建模的研究尚处于起步阶段。传统的用户用能行为分析方法是对日负荷曲线进行简单的分析,将负荷曲线的形态特征作为分析结果。从而单纯对用户用电行为进行分析这种方法实际可操作性差,信息量少,分析效果差;不仅如此传统分析方法主要是对用户的用电行为进行分析,并没有考虑到用户用能行为数据(例如,电、热、气、冷)间存在互补耦合关系,而气候、季节、节假日等因素也是同时交互影响用户用能行为的关键因素,因此,单纯对用户用电行为分析忽视了实际的用户用能行为模型的输入输出数据之间是具有复杂的耦合关系的,其分析数据缺乏准确性。
其次,随着各种分布式电源和储能装置的大量接入,用户逐渐从单一的能源消费者成为具有一定能源生产和消纳能力的产销者。对于企业、政府识别某一区域的能源消费情况以及制定相应的政策方面,产生较大的偏差。
此外,随着未来各类能源市场多元化进程的不断加深,综合能源服务商要在市场中占有一席之地,必须要满足用户的个性化需求,而用户用能行为规律分析成为了必要前提。
因此,急需一种考虑综合能源耦合的用户用能行为分析方法来实现综合能源***用户侧用能信息的有效挖掘利用,以满足用户个性化需求,同时实现节能减排,达到能源企业的利益最大化的目的。
发明内容
鉴于上述问题,本发明提供了基于聚类分析法的综合能源用户用能行为分析方法,包括如下步骤,
S1、获取包括电、热、气及冷能源在内的多个用户的用能数据;
S2、将上述用户用能数据分为分析性数据、特征性数据和描述性数据三类;
S3、根据k-means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得聚类结果图;
S4、根据聚类后的结果图使用描述性数据对用户用能行为进行簇别划分,得到用户的簇别标签;
S5、对特征性数据,根据最大相关最小冗余准则选取用户用能行为的特征标签;
S6、对用户簇别标签及特征标签进行可视化展示。
进一步的,步骤1中,用户用能数据包括:用户用能的能源市场交易结果数据,包括电热气冷能源的历史负荷数据;气象数据,包括温度、湿度、风速、降水量;季节数据,包括春季、夏季、秋季、冬季;节假日数据,包括周六、周天以及法定节假日;用户用能成本数据;分布式电源以及储能装置的输入负荷数据;其中电热气冷历史负荷数据为分析性数据,交易价格及气象数据、储能装置输出数据、分布式电源输出数据为特征性数据;季节数据及节假日数据为描述性数据。
进一步的,S2中,对用户用能数据中的分析性数据及特征性数据进行预处理,包括:
1)通过对采样间隔大于预设间隔时间a的分析数据及特征数据做拟合处理使之变为关于时间连续的用能数据,然后再对拟合处理后的连续的用能数据进行离散化,使之按照预设时间b采样一次;
2)通过归一化算法对上述离散化后的用户用能数据进行归一化处理,删除掉不具有样本意义的数据、不准确的数据、前后浮动较大的数据,分类存储于数据集中。
进一步的,Z-score归一化公式为:
式中xi,j为用户i中第j分钟的用能数据的值,i,mean为用户i中用能数据的平均值,σ为用户i中用能数据的标准差,x′i,j为用户i中第j分钟的用能数据归一化后的值。
进一步的,步骤S3中,将分析数据分为K组,则随机选取K个对象作为初始的聚类中心;计算其余每个对象与各个种子聚类中心之间的距离,并对应分配给距离它最近的聚类中心,每分配一个对象,聚类中心会根据聚类中现有的样本被重新计算,终止条件可以是没有对象被重新分配给不同的聚类或者没有聚类中心再发生变化,使得聚类结果对应的损失函数最小;其中,损失函数定义为各个样本距离所属簇中心点的误差平方和:
式中,xi代表第i个用户所包含的分析性数据,ci是xi所属的类,μci代表类对应的中心点,N是用户总数。
进一步的,步骤S5中,取第一样本数据中的特征性数据构成原始特征集,将原始特征集中已经归一化后的数据变量区间均匀离散,得到各个特征变量的概率分布;使用信息熵描述特征与分类变量之间的相关性,计算聚类后的每一簇别用户与某一特征的联合信息熵;通过最大相关最小冗余准则将上述数据进行迭代,从而得出满足指标的最优解,此时的最优解即为用户用能的最优特征标签,其中
式中,p(qi)为用能特征qi的概率密度函数,i为用能特征q的第i个特征
式中,Ni为用能特征qi在变量区间的数量;Mu为特征落在第u个区间的样本个数,M为变量区间的总的特征数量。
进一步的,步骤S6中,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像,完成对用户的行为分析。
根据本发明的另一方面,还提供了基于聚类分析法的综合能源用户用能行为分析***,包括,
数据采集模块,采集包括电、热、气及冷能源在内的多个用户的用能数据;
预处理模块,将上述用户用能数据分为分析性数据、特征性数据和描述性数据;
聚类算法模块,根据k-means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得聚类结果图;
簇别分析模块,用于通过对获得的聚类后的结果图使用描述性数据对用户用能行为进行簇别划分得到用户的簇别标签;
特征标签提取模块,根据最大相关最小冗余准则基于特征性数据选取用户用能行为的特征标签;
用户用能行为分析模块,对用户簇别标签及特征标签进行可视化展示。
进一步的,用户用能行为分析模块,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像,完成对用户的行为分析。
本发明还提供了一种计算机存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。本发明提供了一种基于聚类分析法的综合能源用户用能行为分析方法突破了传统用户用电行为分析提取信息有限,对多种能源之间的多能耦合、协同互补的重要特征缺乏考量,其分析数据缺乏准确性,与实际偏差较大的这一瓶颈,提高用户用能行为分析的准确性,为为需求管理终端和智慧用能方案提供准确的技术基础。
附图说明
图1为本发明某一实施例的基于聚类分析法的综合能源用户用能行为分析方法流程框图;
图2为本发明另一实施例的基于聚类分析法的综合能源用户用能行为分析方法流程框图;
图3为本发明实施例的基于聚类分析法的综合能源用户用能行为分析方法的聚类分析流程框图;
图4为本发明实施例的基于聚类分析法的综合能源用户用能行为分析***结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-4,本发明某一实施例提供了一种基于聚类分析法的综合能源用户用能行为分析方法,包括如下步骤:
S1、获取包括电、热、气、冷在内的N个用户用能的能源市场交易结果数据;获取用户用能的气象数据;获取季节数据;获取节假日数据;获取用户用能成本的数据;获取分布式电源以及储能装置的输入负荷数据,存储于数据集中;需要说明的是,用户用能的能源市场交易结果数据包括:电热气冷能源负荷的历史数据;用户用能的气象数据包括:温度、湿度、风速、降水量;节假日数据包括:周六、周天以及法定节假日;季节数据包括:春季3月-5月,夏季6-8月,秋季9-11月,冬季12-2月。
S2、将所述用户用能数据中的分析性数据及特征性数据进行预处理,得到用户用能的第一样本数据,并将所述的第一样本数据按照一定的离散序列形式分类存储于数据集。上述储存于数据集中的数据分为分析性数据、特征性数据和描述性数据三类。其中,分析性数据包括电热气冷历史负荷数据,特征性数据包括交易价格、气温、湿度、风速、降水量、储能装置输出数据、分布式电源输出数据;描述性数据包括季节、节假日等,其中分析性数据用于聚类分析,特征性数据用于用户用能特征提取;描述性数据用于聚类后辅助簇别分析。
在某一具体的实施方式中,所述的预处理包括:
通过对采样间隔太大,例如采用频率为15min/次的用户用能的离散数据做拟合处理使之变为关于时间连续的数据,然后再对连续的用户用能数据进行离散化,使之每1min采样一次;
通过归一化算法对所述的离散化后的用户用能数据进行归一化处理,对归一化处理后的数据删除掉不具有样本意义的数据、剔除掉不准确的数据、剔除掉前后浮动较大的数据,并将数据存储于数据集中。
S3、根据k-means聚类分析法和聚类有效性评价指标对用户用能的第一样本数据中的分析数据进行聚类分析,获得最优聚类点以及其聚类结果图。
在某一具体实施方式中,所述的最优聚类中心提取,包括:随机定义聚类中心k,用户的用能数据自动分配到距离聚类中心最近的类别之中,再从一类中选取最近的数据点,重新定义聚类中心k,当满足聚类有效性指标后,输出的聚类图像即为最优聚类点的聚类图像。
S4、通过获得的聚类后的用户用能数据对用户用能行为进行簇别分析。
在某一具体实施方式中,所述的簇别分析,包括:对获得的聚类后的结果图使用描述性数据对用户用能行为进行簇别划分,得到用户的簇别标签。
S5、根据最大相关最小冗余准则选取用户的特征标签。
根据最大相关最小冗余准则选取用户的特征标签,包括:对数据集中的用户用能数据提取特征性数据作为原始特征集,将原始特征集中已经归一化后的数据变量区间均匀离散,得到各个特征变量的概率分布;使用信息熵描述特征于分类变量之间的相关性,将聚类后的每一簇别的用户用能数据计算在某一特征下的联合信息熵;通过最大相关最小冗余准则将上述数据进行迭代,从而得出满足指标的最优解,此时的最优解即为用户用能的最优特征标签。
S6、将上述所有用户用能行为标签中的特征标签,采用赋分制的方法将获取的特征标签转化为便于理解的标签,最后对用户用能标签进行可视化展示,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为,完成对所述目标用户的行为画像分析。
根据本发明的另一方面,还提供了基于聚类分析法的综合能源用户用能行为分析***,包括,数据采集模块,采集包括电、热、气及冷能源在内的多个用户的用能数据;
预处理模块,对用能数据按照一定离散序列形式归一化处理储于数据集形成第一样本数据;
聚类算法模块,根据k-means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得最优聚类点以及其聚类结果图;
簇别分析模块,用于通过对获得的聚类后的结果图使用描述性数据对用户用能行为进行簇别划分得到用户的簇别标签;
特征标签提取模块,对数据集中的用户用能数据提取特征性数据作为原始特征集,根据最大相关最小冗余准则选取用户用能行为的特征标签;
用户用能行为分析模块,对用户簇别标签及特征标签进行可视化展示,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像,完成对用户的行为分析。
本发明还提供了一种计算机存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本发明提供的一种基于聚类分析法的综合能源用户用能行为分析方法突破了传统用户用电行为分析提取信息有限,对多种能源之间的多能耦合、协同互补的重要特征缺乏考量,其分析数据缺乏准确性,与实际偏差较大的这一瓶颈;k-means聚类分析、信息熵、最大相关最小冗余等多重算法的应用,不仅提高了运算的速度,而且还使得本方法具备复杂场景下的强适应能力与可解释性,进而满足作为需求管理终端和智慧用能方案基础技术的要求。
实施例1:
请参阅图2,本发明提供了一种基于聚类分析法的综合能源用户用能行为分析方法,包括:步骤1,采集N个用户的用能数据,包括:分析性数据,即用户的用能负荷序列为xi=[xi,1,xi,2,…,xi,k]
其中xi为四维向量,表示用户i的用能负荷序列(包含电热气冷四种负荷的离散时间序列),xi,k表示用户i的第k分钟负荷数据;
特征性数据:定义Q=[q1,q2,…,q10]T q1,q2,…,q10分别为电热气冷的成本数据(用电成本、用热成本、用气成本、用冷成本),气温、湿度、风速、降水量,分布式电源放电功率和分布式储能装置放电功率十大特征。
描述性数据:季节、节假日等。
步骤2,分析采集到的数据,进行数据预处理。所谓数据预处理是指,通过使用物理方法将原始数据转换为可以理解的格式或者符合挖掘的格式。主要是清理异常值、纠正错误数据,现实世界中数据大体上都是不完整、不一致的数据,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量产生了数据预处理技术。对采样数据进行预处理,其主要任务是数据归一化与缺失值的补充,重复值与异常值以及噪声数据的清除。所述的归一化处理公式:Z-score归一化公式
式中xi,j为用户i中第j分钟的分析性数据的值,i,mean为用户i中分析性数据的平均值,σ为用户i中分析性数据的标准差,x′i,j为用户i中第j分钟的分析性数据归一化后的值。
步骤3,对预处理后的分析数据进行聚类算法分析,所述的聚类算法是指一种迭代求解的聚类分析算法,其步骤是,先将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。.聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类算法的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,使得聚类结果对应的损失函数最小。其中,损失函数可以定义为各个样本距离所属簇中心点的误差平方和:
步骤4,簇别分析与用户用能行为画像,所述的簇别分析是对获得的聚类后的结果图使用描述性数据对用户用能行为进行簇别划分(划分为K类用户),得到用户的簇别标签。
步骤5,选取用户的特征标签
对数据集中的用户用能数据提取特征性数据作为原始特征集,将原始特征集中已经归一化后的数据变量区间均匀离散,得到各个特征变量的概率分布;使用信息熵描述特征于分类变量之间的相关性,将聚类后的每一簇别的用户用能数据计算在某一特征下的联合信息熵;通过最大相关最小冗余准则将上述数据进行迭代,从而得出满足指标的最优解,此时的最优解即为用户用能的最优特征标签。
式中,p(qi)为用能特征qi的概率密度函数,i为用能特征q的第i个特征
式中,Ni为用能特征qi在变量区间的数量;Mu为特征落在第u个区间的样本个数,M为变量区间的总的特征数量。
式中,其中Mv为第v个类别的样本数量,N为用户总类别数,经聚类后为K类。
用能特征qi与用户A的联合信息熵为:
式中:Muv为v类用户用能特征qi落在第u个区间的样本数量。
第i个用能特征qi与用户类别A的互信息为:I(qi,A)=H(x)+H(A)-H(q,A)
式中,设Q表示特征{qi}的集合,|Q|=m.为了选出m个最相关特征,使得X满足如下:D(Q,A)=maxD(Q,A),其主要目的为选出m个平均互信息最大的集合X。因选取的最优特征为相关度很大的特征,因此其特征间存在冗余,特征集X冗余的计算公式为:为了选取出m个最小无关特征,使Q满足:R(Q)=minR(Q),最终目标为找出m个相关性最大,冗余性最小的最优特征集Q,采用如下目标函数maxΦ(D,R)=Φ=D-R。
式中,Φ组成的集合即为最优特征集。
所述的用户用能行为画像,是指为了准确而又直白的描述用户的用能行为,利用打分制的方法定义特征标签。主要步骤为:
首先将每类用户的最优特征进行打分,公式如下:
其次通过雷达图绘制出最优特征的得分情况,对K个雷达图进行画像描述分析。
最后通过柱状图进行不同类别用户标签对比分析出不同类别用户的用电习惯。
本发明提供的一种基于聚类分析法的综合能源用户用能行为分析方法突破了传统用户用电行为分析提取信息有限,对多种能源之间的多能耦合、协同互补的重要特征缺乏考量,其分析数据缺乏准确性,与实际偏差较大的这一瓶颈;k-means聚类分析、信息熵、最大相关最小冗余等多重算法的应用,不仅提高了运算的速度,而且还使得本方法具备复杂场景下的强适应能力与可解释性,进而满足作为需求管理终端和智慧用能方案基础技术的要求。
请参阅图2,本发明提供了聚类分析算法与有效性指标的流程框图,包括:具体操作步骤:
(3)令t=0,1,2…为迭代步数,重复如下过程使得J收敛
最终输出最优聚类点及其聚类结果图。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.基于聚类分析法的综合能源用户用能行为分析方法,其特征在于:包括,
S1、获取包括电、热、气、冷能源在内的多个用户的用能数据;
S2、将上述用户用能数据分为分析性数据、特征性数据和描述性数据;
S3、根据k-means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得聚类结果图;
S4、根据聚类结果图使用描述性数据对用户用能行为进行簇别划分,得到用户的簇别标签;
S5、根据最大相关最小冗余准则基于特征性数据选取用户用能行为的特征标签;
S6、对用户簇别标签及特征标签进行可视化展示。
2.如权利要求1所述的基于聚类分析法的综合能源用户用能行为分析方法,其特征在于:步骤1中,用户用能数据包括:用户用能的能源市场交易结果数据,包括电热气冷能源的历史负荷数据;气象数据,包括温度、湿度、风速、降水量;季节数据,包括春季、夏季、秋季、冬季;节假日数据,包括周六、周天以及法定节假日;用户用能成本数据;分布式电源以及储能装置的输入负荷数据;其中电热气冷历史负荷数据为分析性数据,交易价格及气象数据、储能装置输出数据、分布式电源输出数据为特征性数据;季节数据及节假日数据为描述性数据。
3.如权利要求如权利要求1所述的基于聚类分析法的综合能源用户用能行为分析方法,其特征在于:
S2中,对用户用能数据中的分析性数据及特征性数据进行预处理,包括:
1)通过对采样间隔大于预设间隔时间a的分析数据及特征数据做拟合处理使之变为关于时间连续的用能数据,然后再对拟合处理后的连续的用能数据进行离散化,使之按照预设时间b采样一次;
2)通过归一化算法对上述离散化后的用户用能数据进行归一化处理,删除掉不具有样本意义的数据、不准确的数据、前后浮动较大的数据,分类存储于数据集中。
6.如权利要求如权利要求1所述的基于聚类分析法的综合能源用户用能行为分析方法,其特征在于:
步骤S5中,取特征性数据作为原始特征集,将原始特征集中已经归一化后的数据变量区间均匀离散,得到各个特征变量的概率分布;使用信息熵描述特征与分类变量之间的相关性,将聚类后的每一簇别的用户用能数据计算在某一特征下的联合信息熵;通过最大相关最小冗余准则将上述数据进行迭代,从而得出满足指标的最优解,此时的最优解即为用户用能的最优特征标签,其中
式中,p(qi)为用能特征qi的概率密度函数,i为用能特征q的第i个特征
式中,Ni为用能特征qi在变量区间的数量;Mu为特征落在第u个区间的样本个数,M为变量区间的总的特征数量。
7.如权利要求如权利要求1所述的基于聚类分析法的综合能源用户用能行为分析方法,其特征在于:步骤S6中,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像,完成对用户的行为分析。
8.基于聚类分析法的综合能源用户用能行为分析***,其特征在于:包括,
数据采集模块,获取包括电、热、气及冷能源在内的多个用户的用能数据;
预处理模块,将上述用户用能数据分为分析性数据、特征性数据和描述性数据;
聚类算法模块,根据k-means聚类分析法和聚类有效性评价指标对分析性数据进行聚类分析,获得聚类结果图;
簇别分析模块,根据聚类结果图使用描述性数据对用户用能行为进行簇别划分,得到用户的簇别标签;
特征标签提取模块,根据最大相关最小冗余准则基于特征性数据选取用户用能行为的特征标签;
用户用能行为分析模块,对用户簇别标签及特征标签进行可视化展示。
9.如权利要求8所述的基于聚类分析法的综合能源用户用能行为分析***,其特征在于:用户用能行为分析模块,通过类间绘制雷达图与类内绘制柱状图来展示用户用能行为的画像,完成对用户的行为分析。
10.一种计算机存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024433.1A CN115358797A (zh) | 2022-08-25 | 2022-08-25 | 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024433.1A CN115358797A (zh) | 2022-08-25 | 2022-08-25 | 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115358797A true CN115358797A (zh) | 2022-11-18 |
Family
ID=84003968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211024433.1A Pending CN115358797A (zh) | 2022-08-25 | 2022-08-25 | 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115358797A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186598A (zh) * | 2022-12-02 | 2023-05-30 | 国网山东省电力公司日照供电公司 | 一种基于用户数据的用能行为分析方法及*** |
-
2022
- 2022-08-25 CN CN202211024433.1A patent/CN115358797A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186598A (zh) * | 2022-12-02 | 2023-05-30 | 国网山东省电力公司日照供电公司 | 一种基于用户数据的用能行为分析方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11043808B2 (en) | Method for identifying pattern of load cycle | |
CN109063945B (zh) | 一种基于价值评估体系的售电公司360度客户画像构建方法 | |
CN111144468B (zh) | 电力用户信息标签化方法和装置、电子设备以及存储介质 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN111062757A (zh) | 基于多路径寻优匹配的信息推荐方法及*** | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及*** | |
CN108388955A (zh) | 基于随机森林和逻辑回归的客户服务策略制定方法、装置 | |
CN111832861A (zh) | 基于大数据平台的居民负荷变尺度画像方法和*** | |
CN111489201A (zh) | 一种客户价值分析的方法、设备、存储介质 | |
CN108734216A (zh) | 基于负荷曲线形态的电力用户分类方法、装置及存储介质 | |
CN108389069A (zh) | 基于随机森林和逻辑回归的优质客户识别方法及装置 | |
CN108364191A (zh) | 基于随机森林和逻辑回归的优质客户优化识别方法及装置 | |
CN108399553A (zh) | 一种考虑地理和线路从属关系的用户特征标签设定方法 | |
CN110046889A (zh) | 一种异常行为主体的检测方法、装置及服务器 | |
CN111339167A (zh) | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 | |
CN114611738A (zh) | 一种基于用户用电行为分析的负荷预测方法 | |
CN115358797A (zh) | 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 | |
WO2022137664A1 (ja) | データ分析システムおよび方法 | |
CN111798333A (zh) | 一种用能评估与用电安全分析方法和*** | |
CN113450141B (zh) | 一种基于电力大客户群体售电量特征的智能预测方法及装置 | |
CN113421056A (zh) | 一种互联网人力资源管理*** | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、***及计算机设备 | |
CN115081893A (zh) | 用户用电数据分析方法、装置、电子设备及可读存储介质 | |
CN111915116A (zh) | 一种基于K-means聚类的电力居民用户分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |