CN111723085A - 公共建筑空调用电能耗数据清洗方法及*** - Google Patents

公共建筑空调用电能耗数据清洗方法及*** Download PDF

Info

Publication number
CN111723085A
CN111723085A CN202010597461.7A CN202010597461A CN111723085A CN 111723085 A CN111723085 A CN 111723085A CN 202010597461 A CN202010597461 A CN 202010597461A CN 111723085 A CN111723085 A CN 111723085A
Authority
CN
China
Prior art keywords
data
energy consumption
electric energy
air conditioner
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010597461.7A
Other languages
English (en)
Other versions
CN111723085B (zh
Inventor
李慧
单明珠
陈鑫
谢林鸿
段培永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202010597461.7A priority Critical patent/CN111723085B/zh
Publication of CN111723085A publication Critical patent/CN111723085A/zh
Application granted granted Critical
Publication of CN111723085B publication Critical patent/CN111723085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了公共建筑空调用电能耗数据清洗方法及***,包括:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;对不同数据类型分别进行数据填补。

Description

公共建筑空调用电能耗数据清洗方法及***
技术领域
本公开涉及建筑数据清洗技术领域,特别是涉及公共建筑空调用电能耗数据清洗方法及***。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
目前,建筑能耗需求占全球能耗需求的比例较大。公共建筑是发展较快、能耗消耗量较大且难以降耗的建筑,而空调能耗比例在公共建筑中达到50%以上,公共建筑降耗的首要任务是从减少空调***的能耗入手。随着公共建筑能耗监测平台被应用于公共建筑中,该平台采集建筑能耗数据,但实际传到平台的建筑能耗数据存在大量的问题数据,该问题数据包括缺失数据和异常数据,所以数据预处理成为建筑数据挖掘分析前的重要工作。
数据清洗、集成、转换和简化是其他领域中广泛使用的数据预处理步骤。在建筑领域中,因为建筑能耗监控平台的方案定制,在平台数据库中会预先设定数据属性和精度,保证相关数据属性和精度的一致性。因此,构建建筑数据预处理任务主要包括数据简化(减少数据维等),数据清洗(识别缺失和异常数据、数据填补)和数据转换(数据离散化和缩减等)。由于数据简化和数据转换两个任务在数据填补算法中被应用。因此在数据预处理中,数据清洗成为相对重要的任务。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
目前公共建筑空调用电能耗数据清洗方法中,在识别问题数据方面,由于没有以实际空调用电能耗数据的特点为依据,数据中的异常数据类型不明确,无法准确的识别出异常数据,导致识别出很多正常数据。在填补问题数据方面,目前针对公共建筑空调用电能耗数据填补问题,大多只采用直接删除、单一的机器学习算法或统计学算法填补,填补时没有考虑整个空调用电能耗数据的特点,填补速度快但导致最终填补精度不高。
假如以不适当的方式进行数据清洗,数据填补精度不高,得到完整的数据质量较差,会导致数据分析挖掘出错误的知识和结论。
发明内容
针对目前公共建筑空调用电能耗数据清洗方法中无法准确识别异常数据、仅采用单一填补方法、填补精度不高、没有统一的处理方法体系等缺点,本公开提供了公共建筑空调用电能耗数据清洗方法及***;其中通过分析平台数据特点,对数据集中异常数据类型分类,并准确识别每种类型的异常数据,解决了无法准确识别异常数据的问题。依据数据判定实际空调运行模式,根据不同空调运行模式选择不同的填补算法,解决了仅采用单一填补方法且填补精度不高的问题。
第一方面,本公开提供了公共建筑空调用电能耗数据清洗方法;
公共建筑空调用电能耗数据清洗方法,包括:
获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
对不同数据类型分别进行数据填补。
第二方面,本公开提供了公共建筑空调用电能耗数据清洗***;
公共建筑空调用电能耗数据清洗***,包括:
获取模块,其被配置为:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
划分模块,其被配置为:将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
填补模块,其被配置为:对不同数据类型分别进行数据填补。
与现有技术相比,本公开的有益效果是:
(1)分析了建筑空调用电能耗数据的特点,将数据中的异常数据类型分为两类,包括长期连续重复数据和突变数据,并详细介绍了每一种异常数据的识别方法,解决了异常数据识别不准确的缺点;
(2)依据不同空调运行模式下的用电能耗数据,利用相关系数法计算用电能耗数据与室外环境参数之间的相关性,将数据分为与建筑冷热负荷相关和无关两类。与建筑冷热负荷相关的问题数据采用BP神经网络算法填补,与建筑冷热负荷无关的问题数据采用KNN回归插补,解决了不分析数据特点,只采用单一算法填补数据的缺陷。
(3)针对目前空调数据清洗方法,形成了建筑空调用电能耗数据清洗方法体系,优化了空调数据清洗方法,提高了问题数据的填补精度。在该填补算法的基础上稍加修改,可应用于建筑能耗监测平台中其它分项用电能耗数据清洗及修复中,同时对数据挖掘知识的准确性以及建筑节能提供了依据和保障。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例一的公共建筑空调用电能耗数据清洗方法流程图;
图2是本公开实施例一的问题数据(缺失和异常数据)识别流程图;
图3是本公开实施例一的每月空调运行模式识别流程图;
图4是本公开实施例一的问题数据填补算法选择流程图;
图5是本公开实施例一的某建筑制冷季两日空调用电能耗数据填补值与真实值对比图;
图6是本公开实施例一的某建筑过渡季两日空调用电能耗数据填补值与真实值对比图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了公共建筑空调用电能耗数据清洗方法;
公共建筑空调用电能耗数据清洗方法,包括:
S101:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
S102:将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
S103:对不同数据类型分别进行数据填补。
作为一个或多个实施,所述S101中,异常数据,包括:长期连续重复数据和突变数据两类;其中,长期连续重复数据,是指在设定时间段内相同数据连续出现的时间长度超过设定值;突变数据,是指在设定时间段内该数据大于设定阈值或小于设定阈值。
进一步地,对长期连续重复数据进行识别,首先识别出每个月空调用电能耗数据中的相同数据,然后,判断所述相同数据连续出现的时间长度是否超过设定值,如果是,就认为存在长期连续重复数据;否则,就认为不存在长期连续重复数据。
进一步地,对突变数据进行识别,是采用k-means算法识别。
进一步地,对突变数据进行识别,具体包括:
将12个月的空调用电能耗数据划分为12个组,每一组的数据为一列,,对原始空调用电能耗数据进行标准化处理;通过轮廓系数法确定聚类中心的个数;对每个月的空调用电能耗数据进行聚类识别;采用组间平方和与总距离平方和的商来评价聚类结果:若商大于设定阈值(例如0.9),则表示聚类结果满足要求,否则,在当前聚类中心个数的基础上加一,然后继续聚类,直至商值满足要求。
示例性的,所述对原始空调用电能耗数据进行标准化处理;具体步骤包括:
将原始空调用电能耗数据标准化:
Figure BDA0002557885050000061
式中:xi为原始空调用电能耗数据,
Figure BDA0002557885050000062
为标准化后数据,m为每一组数据的均值,σ为每一组数据的标准差。
示例性的,所述通过轮廓系数法确定聚类中心的个数;具体步骤包括:
计算出每组数据的轮廓系数:
Figure BDA0002557885050000063
式中:a(i)为组内相似度,b(i)为组间相似度,s(i)为轮廓系数。
示例性的,根据式(5)计算组间平方和,根据式(3)计算总距离平方和:
Figure BDA0002557885050000064
Figure BDA0002557885050000065
between_ss=total_ss-within_ss (5)
式中:μ为所有数据的平均值,k为组个数,μk为第k组数据的平均值,total_ss为总距离平方和,within_ss为组内总的距离平方和,between_ss为组间平方和。
作为一个或多个实施例,所述S102中,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:
根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型。
进一步地,不同空调运行模式,具体是指:制冷模式、供热模式和新风模式。
进一步地,不同空调运行模式,具体划分步骤包括:
通过聚类算法和每个月室外的环境温度,将预处理后的空调用电能耗数据按月划分到三个季度,所述三个季度分别为供暖季、过渡季和制冷季;供暖季对应空调的供热模式,过渡季对应空调的新风模式,制冷季对应空调的制冷模式;进而得到每种空调运行模式下的空调用电能耗数据。
示例性的,所述聚类算法为k-means聚类算法。
应理解的,k-means聚类算法聚类时,以每月的日平均空调用电能耗作为聚类原始数据。由于数据集中存在问题数据,需将问题数据删除,所以最终以除去问题数据后的每月日平均空调用电能耗数据作为算法的聚类原始数据。
进一步地,根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:
计算空调用电能耗数据与室外环境温度的第一相关性;
计算空调用电能耗数据与室外环境湿度、太阳辐射和风速的第二相关性;
当第一相关性或第二相关性大于设定阈值;将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷相关的数据;
否则,将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷无关的数据。
示例性的,所述第一相关性,采用Pearson相关系数法进行计算获取。
示例性的,所述第二相关性,采用Spearman相关系数法进行计算获取。
应理解的,建筑逐时负荷和逐时室外环境温度呈正态分布,建筑逐时负荷与逐时相对湿度、太阳辐射和风速不服从正态分布。
Pearson相关系数法主要适用于具有连续且符合正态分布的变量,采用该方法计算空调用电能耗数据与室外环境温度的相关性。
Spearman相关系数法主要适用于具有连续且不服从正态分布的变量,采用该方法计算空调用电能耗数据与相对湿度、太阳辐射和风速的相关性。
根据式(6)计算Pearson相关系数:
Figure BDA0002557885050000081
式中:yi为室外各环境参数的数据,N为变量取值的个数,r为Pearson相关系数。
根据式(7)计算Spearman相关系数:
Figure BDA0002557885050000082
式中:yi为室外各环境参数的数据,
Figure BDA0002557885050000083
Figure BDA0002557885050000084
为各数据的平均值,ρ为Spearman相关系数。
作为一个或多个实施例,所述S103中,对不同数据类型分别进行数据填补;具体步骤包括:
S1031:对于与建筑冷热负荷相关的数据,使用预训练的神经网络模型进行缺失数据的填补;
S1032:对于与建筑冷热负荷无关的数据,使用相邻日的空调用电能耗历史数据进行缺失数据的填补。
进一步地,所述预训练的神经网络模型;训练步骤包括:
构建训练集,所述训练集为已知的不存在问题数据的与建筑冷热负荷相关的数据;构建神经网络模型,将训练集输入到神经网络模型中,对神经网络模型进行训练,得到训练好的神经网络模型。
示例性的,训练集可表示为:Samp={[(toi,illi,ei,di),xi]}(i=1,2,…N),其中,(toi,illi,ei,di)为第i输入,4维;xi为第i输出:1维。to为室外温度,ill为太阳辐射、e为照明插座用电、d为人员在室率,x为空调用电能耗,N为训练集样本数。
示例性的,所述将训练集输入到神经网络模型中,例如,将该建筑某一时间段已知的不存在问题数据的空调用电能耗数据作为输出训练数据,室外温度、太阳辐射、照明插座用电以及人员在室率作为输入训练数据,对神经网络的内部参数进行训练。
示例性的,所述神经网络模型,可以采用BP神经网络、循环神经网络等,本领域技术人员可以根据实际需要进行选择,本申请对此不作任何限定。
进一步地,S1032中,对于与建筑冷热负荷无关的数据,使用相邻日的空调用电能耗历史数据进行问题数据的填补;具体采用KNN回归插补算法进行填补。
应理解的,与建筑冷热负荷相关的空调用电能耗数据与已知室外气象参数相关,所以在填补这类空调用电能耗问题数据时应利用影响建筑冷热负荷相关度较高的参数作为输入参数,问题空调用电能耗数据作为输出参数,填补算法采用BP神经网络。与建筑冷热负荷无关的空调用电能耗数据则与已知的室外气象参数几乎无关,但相同月相同时间段,但不同日内的空调用电能耗数据波动不大,以相邻日的空调用电能耗历史数据作为输入参数,填补算法采用KNN回归插补算法。
图1为公共建筑空调用电能耗数据清洗方法流程图,并依据流程图介绍简要步骤:首先识别问题数据(缺失和异常数据),然后删除其中问题数据,计算除去问题数据的每月空调日平均用电能耗数据为聚类原始数据,通过k-means算法得到聚类结果,结合当地的室外环境温度,识别空调的运行模式分别为供热模式、新风模式、制冷模式。依据相关系数法计算三种模式下的空调用电能耗数据与室外气象参数的相关性,从而将与建筑冷热负荷相关的问题数据采用BP神经网络填补,反之,则采用KNN回归插补算法填补问题数据。
图2是问题数据(缺失和异常数据)识别流程图。
识别缺失数据,先以月份为列名,每个月数据为一列,将文件格式保存为.csv格式,利用R语言中的read.csv函数访问保存文件的地址,将数据导入到程序中,读取数据会发现每个月数据中空值被“NA”代替,通过is.na函数直接识别读入的文件。通过table函数统计is.na函数中的数据情况,为了清楚每个月份缺失数据在各自月份数据总数中的占比,通过aggr函数进一步统计缺失数据占比图。
识别异常数据,包括长期连续重复数据识别和突变异常数据识别。先识别连续重复数据,采用duplicated函数主要是判断数据集中每个取值是否有重复数据。再采用“data[which(diff(data$某月)==0),]”语句判断这些重复数据中是否存在连续的重复数据,最终统计每个月份中空调用电数据中连续重复数据的个数并判定其时间长度是否超过设定值。对突变异常数据识别,采用k-means函数对数据进行聚类,分别导入每个月的用电能耗数据后,先利用na.omit函数删除每个月中的缺失数据,后将每个月的用电能耗数据利用scale函数对数据进行标准化,将数据标准化后的空调用电能耗数据分别通过fviz_nbclust函数实现轮廓系数法,得到轮廓系数图,找轮廓系数最大的点对应的坐标数作为聚类中心数目,同时需要组间平方和与总的距离平方和的商评价该聚类中心的聚类结果,满足大于90%时则为合格,以该结果为最终的聚类结果。
图3是每月空调运行模式识别流程图。先分别计算该建筑每月空调日平均用电能耗数据作为聚类的原始数据,根据该数据将每年12个月份分别归类到高、中、低三个能耗月类型。由于将12个月份空调用电能耗分为三种耗电类型,直接确定k-means聚类中心数目为3个,利用R语言编写程序得到聚类图。按照每个月日平均用电能耗的聚类结果,并结合每月的室外环境温度,将12个月分别归类到制冷季、供热季以及过渡季中,依次的空调运行模式为制冷模式、供热模式、新风模式。
图4是问题数据填补算法选择流程图。利用相关系数法,将三种模式下的空调用电能耗数据分别与室外环境参数做相关性分析。采用R语言cor函数中的Pearson相关系数法和Spearman相关系数法。通过计算相关系数,得知太阳辐射度、室外环境温度与制冷季、供热季的空调用电能耗数据呈强、中相关性,则该类空调用电能耗数据被称为与建筑冷热负荷相关空调用电能耗数据。所有参数与过渡季空调用电能耗数据之间呈弱、无相关性,则该类空调用电能耗数据被称为与建筑冷热负荷无关空调用电能耗数据。前者填补空调用电能耗问题数据时,应利用影响建筑冷热负荷相关度较高的参数作为输入参数,问题空调用电能耗数据作为输出参数,填补算法采用BP神经网络。在公共建筑的工作日和非工作日中,与冷热负荷无关的空调用电能耗的差距较大,所以将其分为两类。相同类型的空调用电能耗数据的变化规律基本保持稳定,相同时刻的用电能耗数据相差不大。相同月相同时间段,但不同日内的空调用电能耗数据波动不大,以相邻日的空调用电能耗历史数据作为输入参数,采用KNN回归插补算法填补。
图5是某建筑制冷季两日空调用电能耗数据填补值与真实值对比图。该图是采用BP神经网络算法,以太阳辐射度、室外环境温度、照明插座用电数据以及人员在室率作为输入参数,问题空调用电能耗数据作为输出参数,填补与建筑冷热负荷相关的制冷季两日空调用电能耗问题数据。
图6是某建筑过渡季两日空调用电能耗数据填补值与真实值对比图。该图是采用KNN回归插补方法,以问题数据邻近几日的不存在问题数据的用电能耗数据作为原始数据集,将每日空调用电能耗数据以日期为横坐标,以24小时时间点为纵坐标构建成数据矩阵,填补与建筑冷热负荷无关的过渡季两日空调用电能耗问题数据。
实施例二
本实施例提供了公共建筑空调用电能耗数据清洗***;
公共建筑空调用电能耗数据清洗***,包括:
获取模块,其被配置为:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
划分模块,其被配置为:将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
填补模块,其被配置为:对不同数据类型分别进行数据填补。
此处需要说明的是,上述获取模块、划分模块和填补模块对应于实施例一中的步骤S101至S103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.公共建筑空调用电能耗数据清洗方法,其特征是,包括:
获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
对不同数据类型分别进行数据填补。
2.如权利要求1所述的方法,其特征是,异常数据,包括:长期连续重复数据和突变数据两类;其中,长期连续重复数据,是指在设定时间段内相同数据连续出现的时间长度超过设定值;突变数据,是指在设定时间段内该数据大于设定阈值或小于设定阈值。
3.如权利要求2所述的方法,其特征是,对长期连续重复数据进行识别,首先识别出每个月空调用电能耗数据中的相同数据,然后,判断所述相同数据连续出现的时间长度是否超过设定值,如果是,就认为存在长期连续重复数据;否则,就认为不存在长期连续重复数据。
4.如权利要求2所述的方法,其特征是,对突变数据进行识别,具体包括:
将12个月的空调用电能耗数据划分为12个组,每一组的数据为一列,对原始空调用电能耗数据进行标准化处理;通过轮廓系数法确定聚类中心的个数;对每个月的空调用电能耗数据进行聚类识别;采用组间平方和与总距离平方和的商来评价聚类结果:若商大于设定阈值,则表示聚类结果满足要求,否则,在当前聚类中心个数的基础上加一,然后继续聚类,直至商值满足要求。
5.如权利要求1所述的方法,其特征是,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:
根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型。
6.如权利要求5所述的方法,其特征是,不同空调运行模式,具体划分步骤包括:
通过聚类算法和每个月室外的环境温度,将预处理后的空调用电能耗数据按月划分到三个季度,所述三个季度分别为供暖季、过渡季和制冷季;供暖季对应空调的供热模式,过渡季对应空调的新风模式,制冷季对应空调的制冷模式;进而得到每种空调运行模式下的空调用电能耗数据。
7.如权利要求4所述的方法,其特征是,根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:
计算空调用电能耗数据与室外环境温度的第一相关性;
计算空调用电能耗数据与室外环境湿度、太阳辐射和风速的第二相关性;
当第一相关性或第二相关性大于设定阈值;将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷相关的数据;
否则,将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷无关的数据。
8.如权利要求1所述的方法,其特征是,对不同数据类型分别进行数据填补;具体步骤包括:
对于与建筑冷热负荷相关的数据,使用预训练的神经网络模型进行问题数据的填补。
9.如权利要求1所述的方法,其特征是,对不同数据类型分别进行数据填补;具体步骤包括:
对于与建筑冷热负荷无关的数据,使用相邻日的不存在问题数据的空调用电能耗历史数据进行问题数据的填补。
10.公共建筑空调用电能耗数据清洗***,其特征是,包括:
获取模块,其被配置为:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;
划分模块,其被配置为:将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;
填补模块,其被配置为:对不同数据类型分别进行数据填补。
CN202010597461.7A 2020-06-28 2020-06-28 公共建筑空调用电能耗数据清洗方法及*** Active CN111723085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010597461.7A CN111723085B (zh) 2020-06-28 2020-06-28 公共建筑空调用电能耗数据清洗方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010597461.7A CN111723085B (zh) 2020-06-28 2020-06-28 公共建筑空调用电能耗数据清洗方法及***

Publications (2)

Publication Number Publication Date
CN111723085A true CN111723085A (zh) 2020-09-29
CN111723085B CN111723085B (zh) 2023-06-23

Family

ID=72569015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010597461.7A Active CN111723085B (zh) 2020-06-28 2020-06-28 公共建筑空调用电能耗数据清洗方法及***

Country Status (1)

Country Link
CN (1) CN111723085B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559501A (zh) * 2020-12-01 2021-03-26 大连理工大学 一种数据驱动的建筑空调电耗与照明插座电耗拆分方法
CN113850494A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据加载方法、装置、电子设备及存储介质
CN114881374A (zh) * 2022-07-11 2022-08-09 广东电网有限责任公司佛山供电局 用于建筑能耗预测的多元异构能耗数据融合方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009204195A (ja) * 2008-02-26 2009-09-10 Mitsubishi Heavy Ind Ltd 空調システム及びビル空調設備の消費電力量予測装置
CN104199961A (zh) * 2014-09-19 2014-12-10 北京建筑技术发展有限责任公司 一种基于数据挖掘的公共建筑能耗监管平台数据处理方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集***的数据处理方法
CN107704875A (zh) * 2017-09-30 2018-02-16 山东建筑大学 基于改进ihcmac神经网络的建筑负荷预测方法和装置
CN107944464A (zh) * 2017-10-12 2018-04-20 华南理工大学 一种办公建筑逐时能耗异常数据在线识别与填补方法
CN109508743A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于knn改进算法的建筑能耗监测异常数据的修复方法
CN110264004A (zh) * 2019-06-20 2019-09-20 西安建筑科技大学 一种基于PSO-BP与Markov链相结合的空调冷负荷动态预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009204195A (ja) * 2008-02-26 2009-09-10 Mitsubishi Heavy Ind Ltd 空調システム及びビル空調設備の消費電力量予測装置
CN104199961A (zh) * 2014-09-19 2014-12-10 北京建筑技术发展有限责任公司 一种基于数据挖掘的公共建筑能耗监管平台数据处理方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集***的数据处理方法
CN107704875A (zh) * 2017-09-30 2018-02-16 山东建筑大学 基于改进ihcmac神经网络的建筑负荷预测方法和装置
CN107944464A (zh) * 2017-10-12 2018-04-20 华南理工大学 一种办公建筑逐时能耗异常数据在线识别与填补方法
CN109508743A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于knn改进算法的建筑能耗监测异常数据的修复方法
CN110264004A (zh) * 2019-06-20 2019-09-20 西安建筑科技大学 一种基于PSO-BP与Markov链相结合的空调冷负荷动态预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔治国等,基于机器学习算法的建筑能耗监测数据预处理技术研究 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559501A (zh) * 2020-12-01 2021-03-26 大连理工大学 一种数据驱动的建筑空调电耗与照明插座电耗拆分方法
CN112559501B (zh) * 2020-12-01 2021-11-05 大连理工大学 一种数据驱动的建筑空调电耗与照明插座电耗拆分方法
CN113850494A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据加载方法、装置、电子设备及存储介质
CN114881374A (zh) * 2022-07-11 2022-08-09 广东电网有限责任公司佛山供电局 用于建筑能耗预测的多元异构能耗数据融合方法和***
CN114881374B (zh) * 2022-07-11 2022-10-04 广东电网有限责任公司佛山供电局 用于建筑能耗预测的多元异构能耗数据融合方法和***

Also Published As

Publication number Publication date
CN111723085B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN111723085B (zh) 公共建筑空调用电能耗数据清洗方法及***
CN111860979A (zh) 一种基于tcn与ipso-lssvm组合模型的短期负荷预测方法
CN111561734B (zh) 基于人工智能的供暖户阀调节方法、***及设备
CN109670670B (zh) 一种划分季节属性的电力负荷拆分方法
Yalcintas An energy benchmarking model based on artificial neural network method with a case example for tropical climates
CN110796307B (zh) 一种综合能源***分布式负荷预测方法及***
CN110689195A (zh) 一种电力日负荷预测方法
CN112365056A (zh) 一种电气负荷联合预测方法、装置、终端及存储介质
CN112651543A (zh) 一种基于vmd分解与lstm网络的日用电量预测方法
CN117043794A (zh) 基于多元线性回归和聚类分析的建筑能耗预测方法和***
CN112686442A (zh) 基于运行多样性空调末端能耗预测方法和***
CN116862129B (zh) 一种零耗能建筑数据分析方法及***
CN117113086A (zh) 一种储能机组负荷预测方法、***、电子设备及介质
CN115829418A (zh) 适用于负荷管理的电力用户负荷特性画像构建方法和***
CN109034453A (zh) 一种基于多标记神经网络的短期电力负荷预测方法
CN114819337A (zh) 基于多任务学习的综合能源***多元负荷预测方法
CN114611764A (zh) 一种特定区域内企业工业用水异常监测预警方法
CN110175705B (zh) 一种负荷预测方法及包含该方法的存储器、***
CN113850432A (zh) 一种电力负荷数据的预测方法、***、设备和介质
Ferreira et al. Unsupervised learning of load signatures to estimate energy-related building features using surrogate modelling techniques
Jalori Leveraging smart meter data through advanced analytics: Applications to building energy efficiency
Wang et al. Research on Daily Tourist Flow Prediction of Scenic Spots Based on Similar Day Clustering and LSSVM Model
Jaganathan et al. Performance analysis of demand forecasting in energy consumption based on ensemble model
Ning A Basic Evaluation Criterion of Data-driven Building Energy Model Transferability Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant