CN109241190A

CN109241190A - 电力大数据混合计算架构

Info

Publication number: CN109241190A
Application number: CN201811060313.0A
Authority: CN
Inventors: 马晓东; 顾杨青; 张军民; 何平; 李珏; 白锐
Original assignee: Jiangsu Xin Zhi He Electric Power Technology Co Ltd; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Jiangsu Xin Zhi He Electric Power Technology Co Ltd; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-01-18

Abstract

本发明涉及一种电力大数据混合计算架构，用于处理包括历史数据和实时数据的电力大数据，电力大数据混合计算架构包括：批量计算层，批量计算层用于对历史数据进行并行聚类迭代计算，从而获得对电力用户的初始用户分群情况；实时计算层，实时计算层用于结合初始用户分群情况对实时数据进行快速聚类迭代计算，从而获得电力用户的实时用户分群情况；服务层，服务层基于批量计算层的并行聚类迭代计算结果获得批量视图、基于实时计算层的快速聚类迭代计算结果获得实时视图，并对外提供查询批量视图和/或实时视图的查询接口。本发明解决了并行计算与高延时之间的问题，实现对电力大数据的低延时并行计算。

Description

电力大数据混合计算架构

技术领域

本发明属于电力信息处理领域，具体涉及一种电力大数据混合计算架构。

背景技术

对于电力大数据的处理，传统计算架构主要有Hadoop架构、Fourinone架构、Spark架构、Storm架构等。其中，Hadoop架构和Fourinone架构适合处理大规模、高并发的数据计算，但是一次计算所需耗费时间长，高延时限制了其在高实时性大数据应用中的应用。而Spark架构和Storm架构等高实时性的流式计算框架适用于处理高速、大型数据流的分布式实时计算，但其数据结构设计和对象关系不适用于大规模并行计算。

由此可见，需要一种能够均衡高延时和并行计算之间的问题、适用于电力大数据处理的新型计算架构。

发明内容

本发明的目的是提供一种延时较低、且适用于并行计算，从而解决电力大数据处理过程中所存在问题的电力大数据混合计算架构。

为达到上述目的，本发明采用的技术方案是：

一种电力大数据混合计算架构，用于处理包括历史数据和实时数据的电力大数据，所述电力大数据混合计算架构包括：

批量计算层，所述批量计算层用于对所述历史数据进行并行聚类迭代计算，从而获得对电力用户的初始用户分群情况；

实时计算层，所述实时计算层用于结合所述初始用户分群情况对所述实时数据进行快速聚类迭代计算，从而获得电力用户的实时用户分群情况；

服务层，所述服务层基于所述批量计算层的并行聚类迭代计算结果获得批量视图、基于所述实时计算层的快速聚类迭代计算结果获得实时视图，并对外提供查询所述批量视图和/或所述实时视图的查询接口。

所述批量计算层由历史数据库中获得所述历史数据并存储，再利用模糊C均值聚类方法对所存储的所述历史数据进行并行聚类迭代计算并输出初步聚类结果，从而基于所述初步聚类结果获得所述初始用户分群情况。

所述批量计算层中，确定所述模糊C均值聚类方法中所需的各个聚类和聚类个数c、各个聚类的初始聚类中心以及停止阀ε、迭代次数b后，在所述停止阀ε和迭代次数b的控制下通过以下步骤进行并行聚类迭代计算：

步骤(1)：基于所述初始聚类中心或上一次所述迭代计算获得的聚类中心，对所述历史数据构成的集合X＝{x₁,x₂,…,x_n}中的各个对象分布式地求解其对各个聚类的隶属度

其中，i为聚类编号，μ_ik表征所述集合X中的对象x_k对第i个聚类的隶属关系，1≤i≤c，1≤k≤n，隶属度μ_ik的取值范围为[0，1]，d_ik为所述集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离，d_jk为所述集合X中的对象x_k到第j个聚类的聚类中心p_i之间的距离，m为平滑因子；

步骤(2)：计算各个聚类的新的聚类中心

所述并行聚类迭代计算的优化目标为1≤m≤∞，求解J_m(U,P)的极小值解min{J_m(U,P)}；

所述并行聚类迭代计算后，得到由集合X中各个对象的隶属度构成的划分矩阵

和聚类中心矩阵

P＝{p_i,1≤i≤c}，

则基于所述划分矩阵和所述聚类中心矩阵得到所述初始用户分群情况。

所述集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离d_ik采用欧式距离表征：

其中，s为空间总维数，x_il为聚类中心p_i在第l维空间中的位置，x_kl为对象x_k在第l维空间中的位置。

m取值为2。

所述实时计算层由用电信息采集***中获得所述实时数据，将所述初始用户分群情况作为所述快速聚类迭代计算的初始样本数据，将所述实时数据和所述初始样本数据组成数据矩阵，对所述数据矩阵进行迭代聚类至收敛后得到隶属度矩阵，所述隶属度矩阵中包含所述实时数据对于所述初始用户分群情况中各聚类的隶属度，从而基于所述隶属度矩阵获得所述实时用户分群情况。

原始数据经过预处理后形成能够应用于所述电力大数据混合计算架构的所述历史数据和实时数据；所述预处理包括用于检测和消除无用数据的数据清洗、用于信息整合的数据融合。

所述数据清洗包括采集、准备、检测、定位、修正和验证六个部分；

所述数据融合包括数据级融合、特征级融合和决策级融合。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：本发明解决了并行计算与高延时之间的问题，实现对电力大数据的低延时并行计算。

附图说明

附图1为本发明的电力大数据混合计算架构的示意图。

附图2为本发明的电力大数据混合计算架构中涉及的数据清洗的流程示意图。

附图3为本发明的电力大数据混合计算架构中涉及的数据融合的架构示意图。

附图4为本发明的电力大数据混合计算架构中涉及的基于Map/Reduce的FCM并行计算过程示意图。

附图5为本发明的电力大数据混合计算架构中涉及的基于Storm的用电行为在线实时聚类过程示意图

附图6为居民用户聚类分析结果示意图。

具体实施方式

下面结合附图所示的实施例对本发明作进一步描述。

实施例一：用能信息采集***所获得的待处理的电力大数据包括历史数据和实时数据两类。历史数据样本量大，进行聚类分析、数据挖掘等计算后获得结果更为精确；而直接从智能电表、气表中获得的家庭用户和大用户用电、用气实时数据等呈现流数据的特征，数据需要进行实时处理。

如附图1所示，一种用于处理包括历史数据和实时数据的电力大数据的电力大数据混合计算架构，包括三层：

(1)批量计算层：批量计算层用于对历史数据进行并行聚类迭代计算，从而获得对电力用户的初始用户分群情况。批量计算层基于Apache Hadoop框架，主要具有两个功能，第一个功能是存储不变的、持续增长的批处理数据集(即历史数据构成的数据集)，该数据集的存储是基于分布式文件存储***HDFS；第二个是利用Map/Reduce计算持续产生数据视图，计算的对象是完整的数据集，因此计算的频率不会太高，对于有些大数据应用而言，考虑到可能的数据集大小和节点计算能力，一次Map/Reduce循环所需要的时间可能有几个小时。

初始用户分群情况包括若干类别、各个类别所对应的多项用电的特征数据所形成的聚类中心以及基于历史数据得到的各个用户对于每一类别的隶属度。各个类别是根据多项用电的特征数据而划分的，其对应各个聚类，例如空置房用类型、上班族类型、老人居住类型、大家庭类型、商用房类型等，每一类别均具有对应的一组用电特征数据，如用电量、负荷率、峰电系数、谷电系数等。从而根据用户对每一类别的隶属度可以得到其属于哪一类用户。

(2)实时计算层：实时计算层用于结合初始用户分群情况对实时数据进行快速聚类迭代计算，从而获得电力用户的实时用户分群情况。实时计算层基于Storm架构和ApacheHBase数据库，实时计算层的数据源是实时采集的用电数据，其主要作用是通过利用Storm框架来补偿批处理层的高延时性。由此获得的实时视图可用于补充批量视图的延时，但因为数据样本量小导致准确性不如批量视图，所以其生命周期结束后将被批量视图取代。

实时用户分群情况中包含基于用户的实时数据而计算的得到的用户对于每一聚类的隶属度，从而可以确定用户实时的隶属情况。

(3)服务层：服务层基于批量计算层的并行聚类迭代计算结果获得批量视图、基于实时计算层的快速聚类迭代计算结果获得实时视图，并对外提供查询批量视图和/或实时视图的查询接口。服务层基于Cloudera Impala引擎，负责向外部应用开放数据视图的查询接口，使外部应用可以根据实时性要求对批量视图和实时视图中的数据进行索引和查询。

以上具有批量并行计算和实时流计算功能的可伸缩性混合计算架构具有可扩展性：支持HDFS、HBase、Oracal等多数据源；数据加载时间：15.7min/14.5GB；数据处理速度：24.67s/14.5GB；查询时间：每万节点19.8ms；平均响应时间：200ms；数据压缩比：采用哈夫曼法压缩，对于1GB数据，压缩比为4.026；数据挖掘算法库：集成聚类、贝叶斯分类器、支持向量机等。上述架构利用Hive实现并行计算和流计算的数据交换，对外提供编程接口、数据调用接口和服务接口，并提供可视化交互界面。

上述电力大数据混合计算架构的具体计算流程如下：

首先，对于待处理的原始数据，需要进行预处理，原始数据经过预处理后形成能够应用于电力大数据混合计算架构的历史数据和实时数据。预处理包括数据清洗、数据融合。

数据清洗主要涉及数据仓库、数据挖掘、全面数据质量管理等应用领域。广义上的数据清洗，是将数据库精简以除去重复记录，并使剩余部分转换成负荷标准的过程；狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理，是数据实现准确性(accuracy)、完整性(completeness)、一致性(consistency)、实时性(timeliness)、有效性(validity)以适应后续操作的过程。实现数据清洗的典型技术是数据检测、分析和修正(detection，analysis and modification,DAM)，简称为数据DAM，即发现和定位错误，对错误进行分析，以及对错误进行修正的相关技术。数据清洗需在数据生命周期中定期进行，随着新数据的产生、进入或数据修改，一定时间后又产生实例层数据质量问题，还需要再一次的数据清洗。

如附图2所示，本实施例中数据清洗包括采集、准备、检测、定位、修正和验证六个部分，其目的在于检测和消除无用数据，从而提高数据质量，进而提高数据处理的质量。数据采集是指获得各种相关的数据；获取这些数据后，对其进行一定分析而确定数据清洗所要采取的方案，即数据准备；再对数据进行检测，根据数据的是否重复、是否不完整等获取数据的质量信息；接着对数据进行定位，确定其存在问题的性质和位置并确定数据修正方案；然后对数据进行修正，包括问题数据标记、不可用数据删除、重复数据记录合并、缺陷数据估计与填充等，从而获得修正后的数据；最后对数据进行验证，通过后输出清洗后的数据。

数据清洗主要是对来自不同数据源的数据，基于规划数据模型进行标准化处理，包括数据单位、格式、精度等的标准化，描述字段的统一。原始数据(经济统计数据、气象环境数据、电力数据、市政公用数据和冷热气数据)经过很小程度的处理后进行的，保留了尽可能多的原始信息，为上层特征级的整合与筛选提供尽可能多的、可靠地数据来源。

对于清洗后的数据，需进一步采用多级数据融合技术进行进一步处理。多场景的能源信息服务内的数据融合与数据的来源***密切相关，涉及多种数据处理功能。针对特定应用场景的需求，选择不同的数据融合方式，可以满足对于不同信息的获取要求。按照操作对象的特点，数据融合方式可以分为数据级融合、特征级融合(以数据级的整合与筛选出来的信息为基础)和决策级融合(以特征级融合后的信息为基础)，其目的在于信息整合。

基于多样化服务的数据融合方式的基本框架如附图3所示。

数据级融合：数据层融合的优点是能保持尽可能多的现场数据，提供其他整合层次所不能提供的细微信息。但它所要处理的基础数据量太大，处理代价高，处理时间长，实时性差。这种融合是在信息的最低层进行的，传感器原始信息的不确定性、不完全性和不稳定性要求在融合时有较高的纠错能力。数据级融合是在原始数据经过很小程度的处理后进行的，因此保留了尽可能多的原始信息。融合结果具有最好的精度，可以给人更加直观、全面的认识，但这种方式的数据处理量大。

特征级融合：从各个数据器提供的原始数据对有代表性的特征进行提取，把这些特征筛选成单一的特征向量，然后用模式识别的方法进行处理。因此，在整合筛选前进行了一定的信息压缩，有利于实时处理。同时，这种方式可以保持目标的重要特征，提供的整合筛选特征直接与决策推理有关，基于获得的联合特征矢量能够进行目标的属性估计。其融合精度比像素层差。

决策级融合：决策级融合方式是指在整合之前，各传感器数据源都经过变换并获得独立的身份估计。信息根据一定准则和决策的可信度对各自传感器的属性决策结果进行筛选，最终得到整体一致的决策。这种层次所使用的数据相对是一种最高的属性层次。

融合判断：作为决策判断的条件，预先设定好判断临界值，其方法如下所示：

1)当两个向量中有对某属性一致性的描述的，整合后的向量取其中一份数据。

2)当两个向量中有对某属性不一致的描述时，按照数据取用优先度准则进行取舍，一般对于不同规划版本的数据，新版本的数据取用优先于旧版本的数据。

3)当一个向量有另一个向量没有的属性描述时整合后的向量需要保留该项数据。

4)决策管理：若特征向量满足整合判断条件，则执行判断结果，将结果上传至能源信息服务平台供决策发布。反之，则默认当前操作。

一个***采用哪个层次上的数据融合方式，要由该***的具体要求来决定，不存在能够适用于所有情况或应用的普遍结构。对于整合与筛选***特定的工程应用，应综合考虑传感器的性能、***的计算能力、通信带宽、期望的准确率以及资金能力等因素，以确定哪种层次是最优的。另外，融合的级别越高则处理的速度也越快，信息的压缩量越大损失也越大。由于不同的多能源信息服务所需融合的数据来源、特征向量的选择等都是不同的，所以需要综合运用到数据级、特征级以及决策级的数据融合。

经过上述预处理后的数据即可利用电力大数据混合计算架构进行混合计算。数据预处理是物联网信息处理技术中必不可少的部分，服务电网运营的智慧用能主动服务技术实现的不仅是感知数据的采集与实时、可靠地传输，还是在原始采集数据的基础上，对其进行大量数据的预处理，使得传输到大数据分析混合计算架构中的数据信息是从海量的、杂乱的、存在问题的原始数据中经过预处理的可操作的数据。

批量计算层由历史数据库中获得历史数据并存储，再利用模糊C均值聚类方法对所存储的历史数据进行并行聚类迭代计算并输出初步聚类结果，从而基于初步聚类结果获得初始用户分群情况。本方案所提出的混合计算架构中的批量计算层，可以使用Hadoop平台对大规模数据进行批量并行计算，由于使用了分布式文件***HDFS和Map/Reduce计算模型，批量计算层可以对基于文件的海量历史能源数据进行直接计算并获得用户的用能行为特征。

基于所提出的支持批处理和流处理的混合计算架构，针对智能用电领域用电行为特征分析提出利用模糊C均值聚类(Fuzzy c-Means clustering，FCM)进行用户的用电数据进行分析统计实现对用户的用电模式进行快速、精确的判断。FCM算法的核心思想是通过求解J_m(U,P)的极小值解min{J_m(U,P)}，从而获得最佳的划分矩阵和聚类中心矩阵。

对于模式空间中包含n个成员的待分类对象集合X＝{x₁,x₂,…,x_n}而言，划分矩阵U可以标示为：

其中1≤i≤c，1≤k≤n (1)其中，i为聚类编号，μ_ik表征集合X中的对象x_k对第i个聚类的隶属关系，对于FCM而言，隶属度μ_ik的取值范围为[0，1]，即每个对象与一个聚类X_i之间的隶属关系可以由一个0～1之间的实数模糊表示。而P＝{p_i,1≤i≤c}则标示第i类聚类的聚类中心矩阵。则优化目标可以标示为：

其中，m为平滑因子，m控制模式在类子集之间的分享程度，m越大，得到的聚类结果越模糊，一般情况下，为了控制聚类结果不要太模糊，将m取值设置2。d_ik为集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离，可以用不同类型的范式距离表示，本算法使用欧式距离表征：

FCM算法通过迭代不断更新隶属度μ_ik和聚类中心p_i，当迭代收敛时，获得的隶属度和聚类中心可以用于对数据集进行分类并确定数据对象与分类之间的隶属关系，迭代过程通过在停止阀ε和迭代次数b的控制下，对下式进行求解进行：

基于以上模糊C均值聚类方法的原理，本方案的批量计算层中，首先确定模糊C均值聚类方法中所需的各个聚类和聚类个数c、各个聚类的初始聚类中心以及停止阀ε、迭代次数b。具体到电力大数据中，各个聚类即只具有不同用电特征的用户类型，如空置房用类型、上班族类型、老人居住类型、大家庭类型、商用房类型等，不同的用户类型具有不同的用电特征，用电特征可以包括用电量、负荷率、峰电系数、谷电系数等方面。因此，每一类聚类其电力数据均可以形成一个聚类中心。确定上述参数后，即可以在停止阀ε和迭代次数b的控制下通过以下步骤进行并行聚类迭代计算。

步骤(1)：基于初始聚类中心或上一次迭代计算获得的聚类中心，对历史数据构成的集合X＝{x₁,x₂,…,x_n}中的各个对象分布式地求解其对各个聚类的隶属度

其中，i为聚类编号，μ_ik表征集合X中的对象x_k对第i个聚类的隶属关系，1≤i≤c，1≤k≤n，隶属度μ_ik的取值范围为[0，1]，集合X中的对象x_k即为采集到的一个用户的一组用电数据，d_ik为集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离，d_jk为集合X中的对象x_k到第j个聚类的聚类中心p_i之间的距离，m为平滑因子m取值为2。在首次计算时采用的初始聚类中心可以根据经验确定。由此，根据对象x_k对各个聚类的隶属度，即可以确定其应属于哪个聚类。

步骤(2)：计算各个聚类的新的聚类中心

并将新的聚类中心应用到下一次并行聚类迭代计算中。

上述并行聚类迭代计算的优化目标为1≤m≤∞，求解J_m(U,P)的极小值解min{J_m(U,P)}。并行聚类迭代计算后，可以得到由集合X中各个对象的隶属度构成的划分矩阵

和聚类中心矩阵

P＝{p_i,1≤i≤c}

则基于划分矩阵和聚类中心矩阵得到初始用户分群情况，即每一用户应属于哪一个聚类，即应属于哪一类型的用户。

以上方案中，集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离d_ik采用欧式距离表征：

在批量计算层中，为了适应框架中的Map/Reduce计算模型，需要对基于FCM算法的用电行为特征分析算法进行并行化改造，将上述FCM的迭代过程分解为Map和Reduce两个阶段，Map阶段在不同的数据节点上将同一个函数作用于不同的数据集，输出的数据集以<key,value>形式保存在数据节点上，在Map阶段结束后，计算模型将传输至承担Reduce工作的节点，并对Map阶段输出的键值对进行合并等处理，并输出<key,value>形式的最终结果。所提出的基于Map/Reduce的FCM聚类算法流程如图4所示：

(1)将用电数据从关系数据库(如Oracle)拷贝到分布式文件***HDFS中，根据聚类的需要确定聚类个数c和停止域ε；

(2)根据上一次的聚类结果确定初始聚类中心，并将这些数据传输至参与分布式计算的数据节点；

(3)对用电数据进行预处理，并产生键值对<user,profile>，其中user为用户的唯一标识，profile中包含了数据对象的特征x_i1～x_i4，即键值对<user,profile>作为一组数据包含了用户及其用电的特征数据；

(4)将所有的键值对<user,profile>划分为若干个数据子集，并传输至Map函数，Map函数根据式(4)进行隶属度计算，产生的结果保存在中间键值对<i,μ_i>中，其中i为聚类编号，μ_i为数据子集中所有数据对象对第i个聚类的隶属度；

(5)将Map函数计算的结果传输至Reduce节点，Reduce任务将Map产生的中间键值根据聚类编号进行合并后，根据式(5)进行计算，获得新的聚类中心；

(6)重复步骤(2)～(6)，直到隶属度矩阵满足停止域条件，分布式FCM算法结束，输出聚类结果，包括聚类编号、聚类中心和每个用户对于各个聚类的最终隶属度。

基于Map/Reduce的FCM聚类算法适用于混合计算架构批量计算层对于海量历史用电数据进行聚类分析，并根据用电规律获得初始用户分群。而对于用电行为实时在线分析应用，要求从用电信息采集***中实时抽取在线电力用户用电特征的实时用电数据，并在已获得的初始用户分群基础上，对流式数据进行实时聚类，批量计算层的高延时特征难以满足上述要求。因此，需要实时计算层完成流式数据的快速分析计算。

实时计算层由用电信息采集***中获得实时数据，将初始用户分群情况作为快速聚类迭代计算的初始样本数据，将实时数据和初始样本数据组成数据矩阵，对数据矩阵进行迭代聚类至收敛后得到隶属度矩阵，隶属度矩阵中包含实时数据对于初始用户分群情况中各聚类的隶属度，从而基于隶属度矩阵获得实时用户分群情况。

具体的，从用电信息采集***中获得的实时用电数据的数据接口，通过Kafka的Producer服务接口，推送到Kafka Topic上进行缓存并等待数据的实时接入，Spout订阅Topic数据并在Zookeeper的调度下将数据传输至多个计算节点上的Clustering_Bolt组件进行快速分布式聚类计算，计算的结果可以通过DB_Bolt进行持久化，也可以通过KafkaTopic向客户端直接发布。由于已经获得了初始用户分群，因此在Clustering_Bolt中可以对实时数据进行快速聚类计算。

表1包含初始用户分群的聚类数据对象

序号	初始分群	x<sub>i1</sub>用电量	x<sub>i2</sub>负荷率	x<sub>i3</sub>峰电系数	x<sub>i4</sub>谷电系数
						1	空置房	0.5kWh	0.2％	17％	16％
2	上班族	150kWh	0.87％	30％	10％
						3	老人居住	50kWh	0.64％	15％	10％
4	大家庭	200kWh	0.91％	40％	15％
						5	商用房	400kWh	0.9％	50％	8％
6	待分析数据1	230kWh	0.94％	43％	18％
						7	待分析数据2	420kWh	0.82％	57％	7％

如表1所示，在进行用电行为实时聚类时，不需要对历史数据全体进行聚类，而是将已经获得的初始用户分群情况中各类别的特征作为聚类的初始样本数据，其行数等于聚类数量c，列对应每一聚类的特征数据。将待分析数据的k条用电数据(包括对应各项特征数据的实时数据)与初始样本数据共同编入数据矩阵，经过b次迭代并收敛后，得到隶属度矩阵Uc*(c+k)，隶属度矩阵中，第c+1至第c+k列的数据即为待分析的各条数据对于初始分群中各聚类的隶属度。通过对分布式FCM算法的上述优化，可以大大降低样本数据的规模，从而满足在线聚类分析的实时性要求。

对上述方法进行验证。为了验证本专利中用电特征大数据混合计算方法的有效性，收集了苏州智慧家庭5000个家庭用户的用电数据，采样间隔为15分钟，即每户居民每天采样96点数据，以此为基础对居民用户类型展开研究。在聚类分析之前，使用下式对数据进行了归一化处理：

其中，x_i为采集的每点数据，x_min为整体数据的最小值，x_max为整体数据的最大值，为归一化后的x_i'值。

利用图4基于Map/Reduce的FCM并行计算过程所示的算法流程对历史的居民用电数据进行并行聚类分析获得初始的用户分群后，以此为基础通过图5基于Storm的用电行为在线实时聚类方法进行实时分析，剔除因所包含样本量过小因而明显的不合理坏数据，获得了四类典型用户，如图6所示。

1、A类用户早晚高峰时期用电负荷量大，特别是晚间用电达到顶峰，其余时间用电量较小，为典型的上班族家庭用户。

2、B类用户白天整体用电量较高，而19:00后用电量开始回落，符合在小区中租用办公室白天办公的公司特征。

3、C类用户全天负荷处于较为平均的水平，中午和晚间略高，属于24小时营业的商户。

4、D类用户谷电系数高而峰电系数低，且谷时用电量处于较高水平，应为在小区中租用办公室夜间办公的公司。

本方案对于电力等大数据的利用，面临着数据结构多样、数据可能存在缺失、重复和错误等问题，因此需要在数据整合的基础上，利用数据预处理技术，完成对电力等能源大数据的数据清洗和修正。在此基础上，利用大数据混合计算架构对海量的历史数据和实时数据进行准确的运算，综合机器学习、聚类、数据挖掘等方法，对数据包含的深层次内涵进行分析，并通过所提出的用能特征大数据混合计算方法对用户进行准确的分析聚类，从而向其推送精准化服务。本方案具有以下有益效果：

(1)针对多能源大数据存在的结构多样、类型多样、数据缺失和重复等特点，设计数据清洗技术和多级数据融合技术，为后续的数据分析提供保障；

(2)针对大数据处理技术中，传统计算架构适用大规模、高并发计算但是存在高延时的问题以及流式计算架构实时性好但不适用于大规模并行计算的问题，提出了利用一种新型的可伸缩实时混合数据处理框架解决并行计算与高延时之间的问题，实现多能源数据分析的低延时并行计算；

(3)在大数据分析混合计算架构的基础上，本方案提出用能特征大数据混合计算方法对用户多能源数据进行分析，发布有序用电决策管理、能效预测预警、智慧用能等服务。在智慧城市公共能源信息服务平台中通过APP、OTT、HTML等形式将信息服务的精准化分析结果推送给用户。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种电力大数据混合计算架构，用于处理包括历史数据和实时数据的电力大数据，其特征在于：所述电力大数据混合计算架构包括：

2.根据权利要求1所述的电力大数据混合计算架构，其特征在于：所述批量计算层由历史数据库中获得所述历史数据并存储，再利用模糊C均值聚类方法对所存储的所述历史数据进行并行聚类迭代计算并输出初步聚类结果，从而基于所述初步聚类结果获得所述初始用户分群情况。

3.根据权利要求2所述的电力大数据混合计算架构，其特征在于：所述批量计算层中，确定所述模糊C均值聚类方法中所需的各个聚类和聚类个数c、各个聚类的初始聚类中心以及停止阀ε、迭代次数b后，在所述停止阀ε和迭代次数b的控制下通过以下步骤进行并行聚类迭代计算：

步骤(2)：计算各个聚类的新的聚类中心

所述并行聚类迭代计算的优化目标为求解J_m(U,P)的极小值解min{J_m(U,P)}；

和聚类中心矩阵

P＝{p_i,1≤i≤c}，

4.根据权利要求3所述的电力大数据混合计算架构，其特征在于：所述集合X中的对象x_k到第i个聚类的聚类中心p_i之间的距离d_ik采用欧式距离表征：

5.根据权利要求3所述的电力大数据混合计算架构，其特征在于：m取值为2。

6.根据权利要求3所述的电力大数据混合计算架构，其特征在于：所述实时计算层由用电信息采集***中获得所述实时数据，将所述初始用户分群情况作为所述快速聚类迭代计算的初始样本数据，将所述实时数据和所述初始样本数据组成数据矩阵，对所述数据矩阵进行迭代聚类至收敛后得到隶属度矩阵，所述隶属度矩阵中包含所述实时数据对于所述初始用户分群情况中各聚类的隶属度，从而基于所述隶属度矩阵获得所述实时用户分群情况。

7.根据权利要求1至6中任一项所述的电力大数据混合计算架构，其特征在于：原始数据经过预处理后形成能够应用于所述电力大数据混合计算架构的所述历史数据和实时数据；所述预处理包括用于检测和消除无用数据的数据清洗、用于信息整合的数据融合。

8.根据权利要求7所述的电力大数据混合计算架构，其特征在于：所述数据清洗包括采集、准备、检测、定位、修正和验证六个部分；

所述数据融合包括数据级融合、特征级融合和决策级融合。