CN112579721B - 构建人群分布图的方法及***、终端设备、存储介质 - Google Patents
构建人群分布图的方法及***、终端设备、存储介质 Download PDFInfo
- Publication number
- CN112579721B CN112579721B CN202011526096.7A CN202011526096A CN112579721B CN 112579721 B CN112579721 B CN 112579721B CN 202011526096 A CN202011526096 A CN 202011526096A CN 112579721 B CN112579721 B CN 112579721B
- Authority
- CN
- China
- Prior art keywords
- class
- user
- data
- relation
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 69
- 230000005611 electricity Effects 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004043 dyeing Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000010276 construction Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Water Supply & Treatment (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Remote Sensing (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种构建人群分布图的方法及***、终端设备、存储介质,该方法先提取出电器数据,再从电器数据中提取特征量来构成特征量向量,能够精准地利用各种家庭类型的独特特征,而且获得的用电信息也更多,可以全面表达每个家庭类型的用电习惯,再对特征量向量进行降维处理,以减少后续处理的数据量,再通过训练好的神经网络基于降维后的特征量向量进行分类以得到每个用户的用电类别标签,基于每个用户的用电类别标签结合电表设备地理图进行对应标记,在地理图上标示出每个用户的用电习惯,精确地绘制出区域内处于不同生活方式下的人群分布图,可以直观地对城市人口结构进行分析,为智慧城市建设的人口分析和辅助决策提供了重要依据。
Description
技术领域
本发明涉及智慧城市建设技术领域,特别地,涉及一种构建人群分布图的方法、终端设备、计算机可读取的存储介质。
背景技术
自人类社会进入21世纪以来,在信息技术革命的推动下,以计算机、网络通信等信息通信技术逐渐融入日常生活中,对于城市的建设而言,也要求走向信息化、智能化的路线。近年来,随着电力***向着数字化、智能化方向的发展,电力大数据正在逐渐被应用于城市管理与决策。尤其是在疫情期间,电力大数据获得了更多的创新应用,但是,目前所应用的数据维度较低,且应用的场景仍局限于电力相关,电力大数据仍然有许多值得拓展挖掘的应用空间。
对于智慧城市来说,不同区域内人群的精准画像能够为城市决策者提供更多的关于城市布局、城市人口迁移、城市画像的信息,有较大的开发挖掘的价值。而在传统的方式中,人们能够挖掘出的信息只有用户的波形数据,然后基于波形数据进行城市用电画像,由于波形数据所能体现的特征有限,故而无法细致且精准地进行画像,对于智慧城市的建设帮助有限。另外,对于人口分析来说,可以分类的方式过多,且分类方式相互之间关联复杂,更加会导致基于波形数据进行城市用电画像的精准度较差。因此,目前基于电力波形数据(即负荷特性曲线)进行城市用电画像会存在精准度差、无法全面且细致地体现用户的用电习惯的问题。
随着下一代智能电表的逐渐普及,负荷识别技术的成熟与广泛应用,可以通过对海量的负荷数据进行识别,将电器种类与启停时间进行上传汇总,获得每只电表下的一户家庭的家用电器种类与启停时间,进而提取每个用户更细腻的、多尺度的电器种类和使用习惯的特征。并且,随着科技的发展,人们使用的电器种类的增多,人们的生活方式也愈加多样化,电力大数据中可值得挖掘的信息也越来越多。但是,对于电力数据来说,人们的用电信息所体现的信息不明显,人们的电器使用习惯与用户的其它特征之间关联复杂,对于选择合适的特征来说有一定的难度,因此,如何从识别出来的大量电力数据中筛选出合适的特征来进行表达是需要进一步解决的问题。
发明内容
本发明提供了一种构建人群分布图的方法、终端设备、计算机可读取的存储介质,以解决现有基于电力波形数据进行城市用电画像存在的精准度差、无法全面且细致地体现用户的用电习惯的技术问题。
根据本发明的一个方面,提供一种构建人群分布图的方法,包括以下步骤:
步骤S1:收集用户的用电数据,并从中提取出电器数据;
步骤S2:从电器数据中提取特征量以构建特征量向量;
步骤S3:对特征量向量进行降维处理;
步骤S4:利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
步骤S5:基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图。
进一步地,所述电器数据包括电器种类、电器的启停时间、电器的跳变功率,提取的特征量包括每种电器的用电总量、每种电器使用总时长、每种电器的特殊启停时刻、功能相似的多个电器之间的使用关系,提取的多个特征量组成一个特征量向量。
进一步地,所述步骤S2中对功能相似的多个电器之间的使用关系用编码表示,具体包括以下步骤:
提取大量已经贴好标签的样本,统计各类中每种使用关系的概率,计算得到每种使用关系的概率在各个类别中分布的标准差,进而计算得到每个使用关系概率的标准差占标准差总和的比例;
将每个使用关系按照比例值从小到大进行顺序排列并将其编码到0-1的数轴上,每一个使用关系q距离左边的使用关系p的距离为距离右边的使用关系l的距离为/>
计算修正系数再将每个使用关系的编码基于修正系数η进行修正,得到最终的编码,其中pmin所对应的使用关系的编码为0,pmax所对应的使用关系的编码为1,使用关系q距离左边的使用关系p的距离为/>距离右边的使用关系l的距离为/>
进一步地,所述步骤S5包括以下内容:
在表箱内电表密集的情况下,在电表设备地理图上对于每一栋楼房以一个多边形显示,并根据楼层的数量将该多边形自上至下分为面积相等的多个大图块,再按照每一层楼表箱的数量,将每个大图块自左至右分为面积相等的多个小图块,根据每一个表箱内电表的个数,将小图块分为面积大小相等的多个方形格,每个方形格代表一个用户,根据每一个用户的分类结果,对与该用户对应的方形格进行染色。
进一步地,所述步骤S3包括以下步骤:
步骤S31:采集多个样本的特征量向量并对样本进行分类贴标签,类别为classi,类别个数为C,ni表示第i个类型的样本个数,样本总个数为N,每个样本包含的特征量个数为m;
步骤S32:对提取的特征量向量进行分类贴标签,并计算每个特征量向量的类内均值和类间均值,类内均值为同一类型中各个样本的特征量向量的均值,类间均值为所有样本的特征量向量的均值;
步骤S33:计算类间散度矩阵和类内散度矩阵,类间散度矩阵为各类样本的类内均值与类间均值之间的距离乘样本个数的和,类内散度矩阵为各样本相对于各类内均值的方差和;
步骤S34:求最大化广义瑞利商以得到投影矩阵;
步骤S35:将提取的特征量向量与投影矩阵的转置相乘以得到降维后的特征量向量。
进一步地,所述步骤S4中的神经网络的训练过程包括:
以每个训练样本经过降维处理后的特征量向量Z=[Z1,Z2,...,Zn]作为输入,对训练样本所贴的n种类别进行独立编码,并以Y=[y1,y2,y3...yn]作为输出训练神经网络,其中,Zn表示特征向量,yn表示每种类别对应的输出值,直至误差值小于阈值或权值更新超过最大训练次数,结束训练。
进一步地,还包括以下步骤:
步骤S6:每日对人群分布图进行更新,具体基于以下公式计算更新值:
um+1=(1-β)ymk+β*ym(k+1)
其中,β为权重系数,取0.8,ymk表示神经网络在第k天关于类别m的输出值,ym(k+1)表示神经网络在第k+1天关于类别m的输出值,um+1表示第k+1天所采用的更新值。
另外,本发明还提供一种构建人群分布图的***,包括:
电器数据提取模块,用于收集用户的用电数据,并从中提取出电器数据;
特征量提取模块,用于从电器数据中提取特征量以构建特征量向量;
降维模块,用于对特征量向量进行降维处理;
分类模块,用于利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
绘图模块,用于基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图。
另外,本发明还提供一种终端设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明还提供一种计算机可读取的存储介质,用于存储构建人群分布图的计算机程序,该计算机程序在计算机上运行时执行如上所述的方法的步骤。
本发明具有以下效果:
本发明的构建人群分布图的方法,首先基于负荷识别技术从用户的用电数据中提取出电器数据,再从电器数据中提取特征量来构成特征量向量,能够更加精准地利用各种家庭类型的独特特征,而且获得的用电信息也更多,可以全面表达每个家庭类型的用电习惯,再对特征量向量进行降维处理,以减少后续处理的数据量,提高了计算效率,再通过训练好的神经网络基于降维后的特征量向量进行分类以得到每个用户的用电类别标签,最后基于每个用户的用电类别标签结合电表设备地理图进行对应标记,在地理图上标示出每个用户的用电习惯,从而精确地绘制出区域内处于不同生活方式下的人群分布图,可以直观地对城市人口结构进行分析,为智慧城市建设的人口分析和辅助决策提供了重要依据。
另外,本发明的构建人群分布图的***同样具有上述优点。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的构建人群分布图的方法的流程示意图。
图2是图1中步骤S3的子流程示意图。
图3是本发明优选实施例的构建人群分布图的方法所采用的BP神经网络的网络结构示意图。
图4是本发明优选实施例的构建人群分布图的方法的另一实施方式的流程示意图。
图5是本发明另一实施例的构建人群分布图的***的模块结构示意图。
图6是本发明另一实施例的构建人群分布图的***的另一实施方式的模块结构示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由下述所限定和覆盖的多种不同方式实施。
如图1所示,本发明的优选实施例提供一种构建人群分布图的方法,包括以下步骤:
步骤S1:收集用户的用电数据,并从中提取出电器数据;
步骤S2:从电器数据中提取特征量以构建特征量向量;
步骤S3:对特征量向量进行降维处理;
步骤S4:利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
步骤S5:基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图。
可以理解,在所述步骤S1中,具体采用负荷识别技术从用户的用电数据中提取出电器数据,例如空调、电脑、电视机、微波炉、电热毯、电饭煲等常用家电的相关数据,负荷识别所得的电器结果允许我们从更多的维度对用户电器数据进行分析提取,其中,具体的负荷识别算法属于现有技术,故在此不再赘述,本申请人之前也已经申请过相关专利并已授权。另外,由于电器的种类繁多,且对于同一个电器来说,一天的启停时间往往有多次,且启动时间一般负荷波动较大,因此,直接使用电器的启停时间作为特征量,每种电器的数据长度不确定,而且无法很好地表现用户的电器使用习惯。因此,作为优选的,本发明提取的电器数据包括电器种类、电器的启停时间、电器的跳变功率。
可以理解,本实施例的构建人群分布图的方法,首先基于负荷识别技术从用户的用电数据中提取出电器数据,再从电器数据中提取特征量来构成特征量向量,能够更加精准地利用各种家庭类型的独特特征,而且获得的用电信息也更多,可以全面表达每个家庭类型的用电习惯,再对特征量向量进行降维处理,以减少后续处理的数据量,提高了计算效率,再通过训练好的神经网络基于降维后的特征量向量进行分类以得到每个用户的用电类别标签,最后基于每个用户的用电类别标签结合电表设备地理图进行对应标记,在地理图上标示出每个用户的用电习惯,从而精确地绘制出区域内处于不同生活方式下的人群分布图,可以直观地对城市人口结构进行分析,为智慧城市建设的人口分析和辅助决策提供了重要依据。
可以理解,在所述步骤S2中,提取的特征量包括每种电器的用电总量、每种电器使用总时长、每种电器的特殊启停时刻、功能相似的多个电器之间的使用关系,提取的多个特征量组成一个特征量向量。本发明考虑到电器的种类繁多,且对于同一个电器来说,一天的启停时间往往有多次,且启动时间一般负荷波动较大,直接使用电器的启停时间作为特征量,每种电器的数据长度不确定,而且无法很好地表现用户的电器使用习惯。因此,负荷识别的结果不适合直接作为神经网络的输入,需要从负荷识别的电器数据中提取出合适的特征量来作为神经网络的输入。本发明中通过提取上述特征量可以从繁杂的启停时间中提取出能够全面地反应居民的用电特点、与居民用电相关的特征量序列,为接下来的数据降维和神经网络分类做准备。其中,负荷识别的结果如下表一所示:
表一、负荷识别的结果
具体地,所述步骤S2中将启停时间进行积分,获得每种电器的用电总量Wt(t代表电器类型),以表一中的电器B为例,电器B的用电总量为其中,电器使用功率Pi=电器的启停功率ΔP+电器上一时刻的功率Pi-1。
将启停时间进行相减,获得电器使用总时长TSUM。例如,若电器经过第i次启停后,电器的使用功率等于0,则判断此刻电器关闭,将电器关闭的时刻与上一次电器从0开始的时刻进行相减,获得电器的运行时长T1,运行一整天后,得到电器的总时长
提取电器的特殊启停时刻,例如电器在本日内的首次启停时刻Tts,电器在本日内的最后一次启停的时刻Tte。
提取出功能相似的多个电器之间的使用关系,因为功能相似的电器之间的使用关系,往往最能够对用户进行区分,但是,由于多个电器之间的使用关系较为复杂且为多样的离散值,如果按照传统的方式均匀地进行编码,难以很好地突出对于分类来说更重要的电器关系。因此,本发明提出了一种编码方式,可以在对多个离散值进行编码的同时,突出更有利于分类的电器使用关系,提高训练模型的鲁棒性。具体包括以下步骤:
提取大量已经贴好标签的样本,统计各类中每种使用关系的概率,计算得到每种使用关系的概率在各个类别中分布的标准差,进而计算得到每个使用关系概率的标准差占标准差总和的比例;
将每个使用关系按照比例值从小到大进行顺序排列并将其编码到0-1的数轴上,每一个使用关系q距离左边的使用关系p的距离为距离右边的使用关系l的距离为/>
计算修正系数再将每个使用关系的编码基于修正系数η进行修正,得到最终的编码,其中pmin所对应的使用关系的编码为0,pmax所对应的使用关系的编码为1,使用关系q距离左边的使用关系p的距离为/>距离右边的使用关系l的距离为/>
例如,电脑、电视机的功能相似但能够进行区分,二者之间共有五种使用关系:都不使用、只使用一种电器、两种电器都使用但使用其中一种电器比另一种电器多,这五种关系对于分类来说并不是同等重要,因此直接使用均匀地方式对五种关系进行表达并不合理,因此如何用一种特征量,既可以很好地表示这五种关系,又能突出对分类来说更重要的关系,具有较高的难度。
首先,取足够多的已经贴好标签的样本,然后统计各个类别中这五种使用关系在各个类别中的概率其中,/>代表关系i在种类m内的概率,再通过公式/>计算五种使用关系在各类中分布的标准差,M表示种类的数量,N表示概率值的数量。若一种使用关系概率的标准差越高,即表示该使用关系在各类别之间的分布越不均匀,则对于分类来说更加有利。
继续求得标准差和∑σi以及各个使用关系的标准差占标准差和的比例p越大,越说明该使用关系应当在编码中占据突出的位置。
按照各种使用关系对应的比例pi进行编码,将各使用关系对应的比例pi从小到大进行顺序排列,假设电脑和电视机的使用关系按照pi大小的排序结果为:两类电器都使用但使用电脑时间较长P1、只使用电脑P2、两类电器都使用但使用电视机时间较长P3、只使用电视机P4、两类电器都不使用P5,则按照以下规律在0-1的数轴上进行编码。两类电器都使用但使用电脑时间较长的编码位置为只使用电脑的编码位置为/>两类电器都使用但使用电视机时间较长的编码位置为/>只使用电视机的编码位置为/>两类电器都不使用的编码位置为因此,在0-1数轴上,每一个使用关系q距离左边的使用关系p的距离为/>距离右边的使用关系l的距离为/>
但是,0-1的数轴并没有完全运用,仍然会有部分区域没有得到应用,比如0~α1的区域、α5~1的区域,为了进一步地加大每种使用关系之间的距离以便于进行分类,还对编码进行优化处理。具体地,计算修正系数再将每一个编码进行修正其中,pmin=p1,β表示修正后的编码位置。进行修正后的编码,p1的编码位置为0,p5的编码位置为1,除此之外,每个使用关系q距离左边的使用关系p的距离为距离右边的使用关系l的距离为/>
采用这样的编码方式,可以保证每个关系i距离其它关系之间的距离至少为确保对分类越有利的关系距离其它关系的距离越远,以提高接下来神经网络分类的鲁棒性。
另外,作为优选的,是否为节假日、星期数、季节等,对于使用电器也都会有影响,也可以选择其作为特征量输入。
可以理解,对数据进行降维的方法有很多,比如主成分分析PCA、线性判别分析LDA、局部线性嵌入LLE、拉普拉斯特征映射(Laplacian Eigenmaps)等,但是本发明不仅考虑到数据降维,同时还考虑了如何将各个类别相关的数据更好地区分开,故而优选采用线性判别分析LDA对特征量向量进行降维处理。具体地,如图2所示,所述步骤S3包括以下步骤:
步骤S31:采集多个样本的特征量向量并对样本进行分类贴标签,类别为classi,类别个数为C,ni表示第i个类型的样本个数,样本总个数为N,每个样本包含的特征量个数为m;
步骤S32:对提取的特征量向量进行分类贴标签,并计算每个特征量向量的类内均值和类间均值,类内均值为同一类型中各个样本的特征量向量的均值,类间均值为所有样本的特征量向量的均值,其中,类内均值类间均值/>X表示特征量向量;
步骤S33:计算类间散度矩阵Sb和类内散度矩阵Sw,类间散度矩阵为各类样本的类内均值与类间均值之间的距离乘样本个数的和,类内散度矩阵为各样本相对于各类内均值的方差和,其中,类间散度矩阵类内散度矩阵
步骤S34:求最大化广义瑞利商以得到投影矩阵;
步骤S35:将提取的特征量向量与投影矩阵的转置相乘以得到降维后的特征量向量。
其中,在所述步骤S34中,求得的投影方向需要类间散度矩阵大,类内散度矩阵小。因此,将每一个样本的特征量向量X,通过基向量W=[w1,w2...wd]投影到一个d维的超平面中去(d为所要投影到的超平面的维度,最大值为C-1),在这个超平面中,各特征量向量经过投影后的类间散度矩阵大,类内散度矩阵小。
根据所要投影的超平面的特点,即投影后的超平面满足尽可能大,尽可能小,投影后的超平面,应满足/>为最大值。
运用拉格朗日乘子法求解该最大值,构造矩阵对矩阵S进行线性变换,得到矩阵的特征值λ1...λC-1。将特征值和所对应的特征向量按照特征值从大到小的顺序排序,得到前d个特征值λ1...λd即所对应的特征向量为v1...vd。其中,λ1...λd的乘积即为的最大值,v1...vd分别对应投影矩阵W的每一列w1,w2...wd。
在所述步骤S35中,新样本的特征量向量[Z1,Z2,...,Zn]=WT[X1,X2...,Xn]。
可以理解,对于不同类型的居民而言,用电习惯都各有不同。例如,在生活方式的区别上,不同生活方式的用户存在不同的用电高峰,通过对电器的监测,尤其通过对电器启停时段以及电器种类的监测,可以对用户的生活方式是否规律进行区分。另外,通过对家用电料理设备、家用健身设备的监测,也都可以对用户的生活方式有所体现。在月尺度上,不同类型的人群也都具有不同的用电习惯。而在人口数量的区分上,通过对用户的某些电器的数量是否有骤增和骤减,能够对人口的迁移进行了解和识别。在经济结构的区分上,主要通过对用户的电器特点进行分析,对于不同家庭来说,家电数目、种类、品牌、使用时段上都具有差距。在年龄结构的区分上,对于年轻人和老年人来说,用电习惯也有所不同,不光是在用电时段上,在用电量上,老年人的用电量也较少,尤其是在月尺度和年尺度上,不同年龄段的用电也具有独特的特点。可以看出,对于不同应用场景的不同分类方式而言,能够重点区分类别的特征都有所不同。因此,本发明采用LDA将数据向对应的投影矩阵的方向进行投影的方式,将数据投影到类别最容易区分的方向,使同类的数据之间距离尽可能近、不同类数据之间距离尽可能远,以使数据更好的配合相应的应用场景,并同时简化了数据集。
可以理解,所述步骤S4中的神经网络的训练过程包括以下内容:
以每个训练样本经过降维处理后的特征量向量Z=[Z1,Z2,...,Zn]作为输入,对训练样本所贴的n种类别进行独立编码,并以Y=[y1,y2,y3...yn]作为输出训练神经网络,Y表示每种类别对应的输出值,直至误差值小于阈值或权值更新超过最大训练次数,结束训练。其中,神经网络采用BP神经网络,其网络结构如图3所示。具体的训练过程为:
a、初始化神经网络的最大训练次数、学习精度、隐节点数、初始权值、阈值、初始学习速率等。
b、计算各层的输入和输出值。
c、计算损失函数y′i为第i个输出单元的预测值,yi为第i个输出单元实际的输出值,E为所得的误差值,判断所得的误差值是否小于所设定阈值。
d、若误差值大于阈值,则通过梯度下降算法和反向传播算法,对各层权值进行更新。
e、若误差值小于阈值或权值更新超过最大训练次数,结束训练。
可以理解,在所述步骤S5中,具体通过负荷识别构建台区线路拓扑的方式得到每个区域的电表设备地理图,对每个电表的类别进行标记,从而绘制人群分布图。而在实际应用中,难以确定用户的实际地址。但是,在通常情况下,每一块电表只对应同一户人家,且表箱位置距离用户距离较近,可以使用表箱的位置和箱内电表的个数来代替用户的位置和个数。因此,在本发明中,使用表箱的位置来代替用户的实际地址。但是,由于临近用户的电表往往在同一个表箱中,因此,往往会将多个用户的位置判定为同一点,在根据表箱地理拓扑绘制分布图时不易看出更为细致的人群分布情况。因此,作为优选的,所述步骤S5包括以下内容:
在表箱内电表密集的情况下,在电表设备地理图上对于每一栋楼房以一个多边形显示,并根据楼层的数量将该多边形自上至下分为面积相等的多个大图块,再按照每一层楼表箱的数量,将每个大图块自左至右分为面积相等的多个小图块,根据每一个表箱内电表的个数,将小图块分为面积大小相等的多个方形格,每个方形格代表一个用户,根据每一个用户的分类结果,对与该用户对应的方形格进行染色。通过采用上述染色方法,可以直观地查看居民类型的分布情况,并且避免了多个用户叠加在一起导致分布图不直观的问题。
可以理解,作为优选的,如图4所示,所述构建人群分布图的方法还包括以下步骤:
步骤S6:每日对人群分布图进行更新,具体基于以下公式计算更新值:
um+1=(1-β)ymk+β*ym(k+1)
其中,β为权重系数,取0.8,ymk表示神经网络在第k天关于类别m的输出值,ym(k+1)表示神经网络在第k+1天关于类别m的输出值,um+1表示第k+1天所采用的更新值。
具体地,根据神经网络识别出的输出Y,得到人群在第k天时,家庭A的人口结构为类型a的输出为yak,为类型b的输出为ybk...为类型m的输出为ymk,而在第k+1天时,家庭A的人口结构为类型a的输出为ya(k+1),为类型b的输出为yb(k+1)...为类型m的输出为ym(k+1)。设置β=0.8,更新值um+1=(1-β)ymk+β*ym(k+1),并按照更新值um+1更新人口分布图,以这种方式既可避免用户用电习惯偶然的变更与负荷识别错误导致的偶然误差,也可以能够保证人口分布更新的实时性。
由于用户使用电器的方式具有不稳定性,因此易出现识别结果变化较大的情况,本发明采用上述公式计算更新值,既允许人群分布图具有更新的性质,又减少偶然误差。
另外,如图5所示,本发明还提供一种构建人群分布图的***,优选采用如上所述的构建人群分布图的方法,该***包括:
电器数据提取模块,用于收集用户的用电数据,并从中提取出电器数据;
特征量提取模块,用于从电器数据中提取特征量以构建特征量向量;
降维模块,用于对特征量向量进行降维处理;
分类模块,用于利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
绘图模块,用于基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图。
另外,如图6所示,所述构建人群分布图的***还包括更新模块,用于每日对人群分布图进行更新。
可以理解,本实施例的***中的各个模块分别与上述方法实施例中的各个步骤相对应,故每个模块的工作过程在此不再赘述,参考上述方法实施例的各个步骤即可。
本发明的构建人群分布图的***,首先基于负荷识别技术从用户的用电数据中提取出电器数据,再从电器数据中提取特征量来构成特征量向量,能够更加精准地利用各种家庭类型的独特特征,而且获得的用电信息也更多,可以全面表达每个家庭类型的用电习惯,再对特征量向量进行降维处理,以减少后续处理的数据量,提高了计算效率,再通过训练好的神经网络基于降维后的特征量向量进行分类以得到每个用户的用电类别标签,最后基于每个用户的用电类别标签结合电表设备地理图进行对应标记,在地理图上标示出每个用户的用电习惯,从而精确地绘制出区域内处于不同生活方式下的人群分布图,可以直观地对城市人口结构进行分析,为智慧城市建设的人口分析和辅助决策提供了重要依据。
另外,本发明还提供一种终端设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。
另外,本发明还提供一种计算机可读取的存储介质,用于存储构建人群分布图的计算机程序,该计算机程序在计算机上运行时执行如上所述的方法的步骤。
一般计算机可读取介质的形式包括:软盘(floppy disk)、可挠性盘片(flexibledisk)、硬盘、磁带、任何其与的磁性介质、CD-ROM、任何其余的光学介质、打孔卡片(punchcards)、纸带(paper tape)、任何其余的带有洞的图案的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可抹除可编程只读存储器(EPROM)、快闪可抹除可编程只读存储器(FLASH-EPROM)、其余任何存储器芯片或卡匣、或任何其余可让计算机读取的介质。指令可进一步被一传输介质所传送或接收。传输介质这一术语可包含任何有形或无形的介质,其可用来存储、编码或承载用来给机器执行的指令,并且包含数字或模拟通信信号或其与促进上述指令的通信的无形介质。传输介质包含同轴电缆、铜线以及光纤,其包含了用来传输一计算机数据信号的总线的导线。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种构建人群分布图的方法,其特征在于,
包括以下步骤:
步骤S1:收集用户的用电数据,并从中提取出电器数据,所述电器数据包括电器种类、电器的启停时间、电器的跳变功率,提取的特征量包括每种电器的用电总量、每种电器使用总时长、每种电器的特殊启停时刻、功能相似的多个电器之间的使用关系,提取的多个特征量组成一个特征量向量;
步骤S2:从电器数据中提取特征量以构建特征量向量;
步骤S3:对特征量向量进行降维处理;
步骤S4:利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
步骤S5:基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图;
所述步骤S2中对功能相似的多个电器之间的使用关系用编码表示,具体包括以下步骤:
提取大量已经贴好标签的样本,统计各类中每种使用关系的概率,计算得到每种使用关系的概率在各个类别中分布的标准差,进而计算得到每个使用关系概率的标准差占标准差总和的比例;
将每个使用关系按照比例值从小到大进行顺序排列并将其编码到0-1的数轴上,每一个使用关系q距离左边的使用关系p的距离为距离右边的使用关系l的距离为
计算修正系数再将每个使用关系的编码基于修正系数η进行修正,得到最终的编码,其中pmin所对应的使用关系的编码为0,pmax所对应的使用关系的编码为1,使用关系q距离左边的使用关系p的距离为/>距离右边的使用关系l的距离为/>
2.如权利要求1所述的构建人群分布图的方法,其特征在于,
所述步骤S5包括以下内容:
在表箱内电表密集的情况下,在电表设备地理图上对于每一栋楼房以一个多边形显示,并根据楼层的数量将该多边形自上至下分为面积相等的多个大图块,再按照每一层楼表箱的数量,将每个大图块自左至右分为面积相等的多个小图块,根据每一个表箱内电表的个数,将小图块分为面积大小相等的多个方形格,每个方形格代表一个用户,根据每一个用户的分类结果,对与该用户对应的方形格进行染色。
3.如权利要求1所述的构建人群分布图的方法,其特征在于,
所述步骤S3包括以下步骤:
步骤S31:采集多个样本的特征量向量并对样本进行分类贴标签,类别为classi,类别个数为C,ni表示第i个类型的样本个数,样本总个数为N,每个样本包含的特征量个数为m;
步骤S32:对提取的特征量向量进行分类贴标签,并计算每个特征量向量的类内均值和类间均值,类内均值为同一类型中各个样本的特征量向量的均值,类间均值为所有样本的特征量向量的均值;
步骤S33:计算类间散度矩阵和类内散度矩阵,类间散度矩阵为各类样本的类内均值与类间均值之间的距离乘样本个数的和,类内散度矩阵为各样本相对于各类内均值的方差和;
步骤S34:求最大化广义瑞利商以得到投影矩阵;
步骤S35:将提取的特征量向量与投影矩阵的转置相乘以得到降维后的特征量向量。
4.如权利要求1所述的构建人群分布图的方法,其特征在于,
所述步骤S4中的神经网络的训练过程包括:
以每个训练样本经过降维处理后的特征量向量Z=[Z1,Z2,...,Zn]作为输入,对训练样本所贴的n种类别进行独立编码,并以Y=[y1,y2,y3...yn]作为输出训练神经网络,其中,Zn表示特征向量,yn表示每种类别对应的输出值,直至误差值小于阈值或权值更新超过最大训练次数,结束训练。
5.如权利要求4所述的构建人群分布图的方法,其特征在于,
还包括以下步骤:
步骤S6:每日对人群分布图进行更新,具体基于以下公式计算更新值:
um+1=(1-β)ymk+β*ym(k+1)
其中,β为权重系数,取0.8,ymk表示神经网络在第k天关于类别m的输出值,ym(k+1)表示神经网络在第k+1天关于类别m的输出值,um+1表示第k+1天所采用的更新值。
6.一种构建人群分布图的***,采用如权利要求1~5任一项所述的方法,其特征在于,包括:
电器数据提取模块,用于收集用户的用电数据,并从中提取出电器数据;
特征量提取模块,用于从电器数据中提取特征量以构建特征量向量;
降维模块,用于对特征量向量进行降维处理;
分类模块,用于利用预训练的神经网络对降维处理后的特征量向量进行分类以得到该用户的用电类别标签;
绘图模块,用于基于每个用户的用电类别标签在电表设备地理图上进行对应标记,以绘制人群分布图。
7.一种终端设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求1~5任一项所述的方法的步骤。
8.一种计算机可读取的存储介质,用于存储构建人群分布图的计算机程序,其特征在于,该计算机程序在计算机上运行时执行如权利要求1~5任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526096.7A CN112579721B (zh) | 2020-12-22 | 2020-12-22 | 构建人群分布图的方法及***、终端设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526096.7A CN112579721B (zh) | 2020-12-22 | 2020-12-22 | 构建人群分布图的方法及***、终端设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579721A CN112579721A (zh) | 2021-03-30 |
CN112579721B true CN112579721B (zh) | 2023-10-27 |
Family
ID=75136675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011526096.7A Active CN112579721B (zh) | 2020-12-22 | 2020-12-22 | 构建人群分布图的方法及***、终端设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579721B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116307642B (zh) * | 2023-05-19 | 2023-08-18 | 青岛奥利普奇智智能工业技术有限公司 | 一种能源调度分配的控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN109190890A (zh) * | 2018-07-27 | 2019-01-11 | 南京理工大学 | 一种基于用户电力消费数据的用户行为分析方法 |
CN109815994A (zh) * | 2019-01-04 | 2019-05-28 | 国网山西省电力公司长治供电公司 | 一种用户用电负荷特征分析方法 |
CN111126775A (zh) * | 2019-11-26 | 2020-05-08 | 国网浙江省电力有限公司电力科学研究院 | 一种基于层次分析法的居民客户价值分级模型构建方法 |
CN111144468A (zh) * | 2019-12-19 | 2020-05-12 | 国网冀北电力有限公司信息通信分公司 | 电力用户信息标签化方法和装置、电子设备以及存储介质 |
CN111461761A (zh) * | 2020-02-29 | 2020-07-28 | 国网江苏省电力有限公司苏州供电分公司 | 一种基于多维细粒度行为数据的居民用户画像方法 |
CN111724278A (zh) * | 2020-06-11 | 2020-09-29 | 国网吉林省电力有限公司 | 一种面向电力多元负荷用户的精细分类方法及*** |
CN111967723A (zh) * | 2020-07-24 | 2020-11-20 | 南昌大学 | 一种基于数据挖掘的用户调峰潜力分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140188613A1 (en) * | 2012-12-31 | 2014-07-03 | Cellco Partnership D/B/A Verizon Wireless | Providing promotional content |
-
2020
- 2020-12-22 CN CN202011526096.7A patent/CN112579721B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651424A (zh) * | 2016-09-28 | 2017-05-10 | 国网山东省电力公司电力科学研究院 | 基于大数据技术的电力用户画像建立与分析方法 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN109190890A (zh) * | 2018-07-27 | 2019-01-11 | 南京理工大学 | 一种基于用户电力消费数据的用户行为分析方法 |
CN109815994A (zh) * | 2019-01-04 | 2019-05-28 | 国网山西省电力公司长治供电公司 | 一种用户用电负荷特征分析方法 |
CN111126775A (zh) * | 2019-11-26 | 2020-05-08 | 国网浙江省电力有限公司电力科学研究院 | 一种基于层次分析法的居民客户价值分级模型构建方法 |
CN111144468A (zh) * | 2019-12-19 | 2020-05-12 | 国网冀北电力有限公司信息通信分公司 | 电力用户信息标签化方法和装置、电子设备以及存储介质 |
CN111461761A (zh) * | 2020-02-29 | 2020-07-28 | 国网江苏省电力有限公司苏州供电分公司 | 一种基于多维细粒度行为数据的居民用户画像方法 |
CN111724278A (zh) * | 2020-06-11 | 2020-09-29 | 国网吉林省电力有限公司 | 一种面向电力多元负荷用户的精细分类方法及*** |
CN111967723A (zh) * | 2020-07-24 | 2020-11-20 | 南昌大学 | 一种基于数据挖掘的用户调峰潜力分析方法 |
Non-Patent Citations (1)
Title |
---|
"基于大数据技术的电力用户画像分析";王飞飞 等;《山西电力》;第26-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112579721A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160617B (zh) | 一种电力日负荷预测方法及装置 | |
CN112633316B (zh) | 一种基于边界估值理论的负荷预测方法和装置 | |
CN103577883A (zh) | 一种网-荷智能互动方法及装置 | |
CN109117872A (zh) | 一种基于自动最优聚类算法的用户用电行为分析方法 | |
CN110717619A (zh) | 一种自下而上配电网多尺度时空负荷预测方法及*** | |
CN107248031B (zh) | 一种针对负荷曲线峰谷差的快速电力用户分类方法 | |
CN114202129A (zh) | 风电出力预测方法、电子设备、存储介质及*** | |
CN105045927A (zh) | 建设工程工料机数据自动编码方法及*** | |
CN110807547A (zh) | 家庭人口结构的预测方法及*** | |
CN112579721B (zh) | 构建人群分布图的方法及***、终端设备、存储介质 | |
CN116862454B (zh) | 一种室内建筑设计管理方法及*** | |
CN111798336A (zh) | 一种基于典型用户的居民电费套餐推荐方法及*** | |
CN113283924A (zh) | 需求预测方法以及需求预测装置 | |
CN112418485A (zh) | 基于负荷特性和用电行为模式的家庭负荷预测方法及*** | |
CN112686456A (zh) | 一种结合边缘计算与用能识别的电力负荷预测***和方法 | |
CN108346009A (zh) | 一种基于用户模型自学习的电力生产配置方法和装置 | |
CN113094448B (zh) | 住宅空置状态的分析方法及分析装置、电子设备 | |
US20230402846A1 (en) | Data analysis system and method | |
CN114118624A (zh) | 一种电力需求响应潜力评估方法、装置、设备及存储介质 | |
CN114297811A (zh) | 基于约束多目标优化的低压台区拓扑识别方法 | |
CN105447767A (zh) | 一种基于联合矩阵分解模型的电力用户细分方法 | |
CN114519651A (zh) | 基于电力大数据的智能配电方法 | |
CN110321389B (zh) | 一种基于时间序列聚类的电能表设备类别识别方法 | |
CN112508254A (zh) | 变电站工程项目投资预测数据的确定方法 | |
Biyun et al. | A Reliability Forecasting Method for Distribution Network Based on Data Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |