CN113159137A

CN113159137A - 一种燃气负荷聚类方法及装置

Info

Publication number: CN113159137A
Application number: CN202110354433.7A
Authority: CN
Inventors: 黄冬虹; 刘丹; 王亮; 董妍; 赵兴昊
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-23

Abstract

本发明提供了一种燃气负荷聚类方法及装置。所述方法包括：对燃气负荷数据进行聚类；以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值。本发明通过改进SMOTE算法，将插值基点由原来的少数类数据点改为聚类中心，解决了SMOTE算法容易产生分布边缘化的问题，提高了聚类效果。本发明提出的聚类方法不仅适合于燃气负荷数据，还适合其它不平衡数据集。

Description

一种燃气负荷聚类方法及装置

技术领域

本发明涉及燃气负荷数据聚类分类技术领域，具体涉及一种燃气负荷聚类方法及装置。

背景技术

燃气锅炉***的负荷聚类研究就是对燃气负荷进行科学有效的划分，用户负荷聚类就是通过聚类分析挖掘出不同种类、不同地区的负荷之间的关系及其构成。在对燃气锅炉***进行规划设计时，不论是估算项目的经济性还是确定燃气锅炉***的建设规模，燃气锅炉的负荷都是设计过程中的重要基础数据。负荷的聚类分析，是结合了数据挖掘技术和燃气锅炉***的应用，通过数据挖据进行燃气负荷特性的分析，在大量无序无规律的负荷中，挖掘出潜藏的负荷模式，并对其进行归类，通过得到的典型负荷曲线，解决燃气锅炉***中的存在问题，如燃气负荷预测、需求侧响应分析等。不同类型的用户，如民用、商业、工业、农业等，在燃气消费模式上存在很大的差异，即使是同一类型的用户，他们的用气模式也可能不一样。基于负荷数据分类挖据不同燃气用户的燃气消费模式不仅可以支持燃气公司进行有序供暖、错峰管理、分时用气等市场竞争策略和提供更个性化的供暖服务，也有助于提高对不同燃气用户的燃气消费模式的理解，从而进行更高效的需求侧管理。此外，用户还可以根据负荷分类所发现的问题，更经济地、最优地调整消费策略，这样不仅可以降低成本，而且提高能源使用效率。

实际的燃气负荷数据是一个不平衡的数据集。不平衡数据集中，两类数据之间的数据数量差距较大，少数类数据远远少于多数类数据，而少数类样本识别比多数类样本识别更为困难。通过采用过采样增加少数类样本，可用于不平衡燃气负荷数据的聚类。SMOTE(Synthetic Minority Oversampling Technique，合成少数类过采样技术)算法是目前常用的过采样方法，能很好地解决了随机向上抽样时过于随机性的问题。但是该算法容易产生分布边缘化的问题，使类边界模糊化，从而影响聚类效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种燃气负荷聚类方法及装置，对聚类后的数据点基于改进的SMOTE算法进行插值，改进了不平衡燃气负荷数据的聚类效果。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种燃气负荷聚类方法，包括：

对燃气负荷数据进行聚类；

以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值。

进一步地，所述方法在聚类前还包括采用主成分分析法PCA(PrincipalComponent Analysis)对燃气负荷数据进行降维处理。

进一步地，所述方法采用FCM算法对燃气负荷数据进行聚类。

进一步地，在进行插值前还包括识别并剔除危险点步骤：

确定少数类边界点：对每个少数类数据点，求它的K个近邻，若所述K个近邻中包含多数类数据点，则所述少数类数据点为少数类边界点；

统计少数类边界点的数量，如果大于1，分别计算每个少数类边界点及其K个近邻中的多数类数据点与聚类中心的欧氏距离d1、d2；

如果某个少数类边界点的d1大于d2的最小值，且其K个近邻都是多数类数据点，则所述少数类边界点为危险点；

删除所有危险点，并重新进行聚类。

更进一步地，插值方法具体包括：

计算多数类数据点数与少数类数据点数的比值并取整得到插值倍率n；

计算少数类聚类中心u到该类所有数据点的欧氏距离的最大值D；

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)

式中，rand(0,H)为0与H之间的一个随机数，执行n-1次得到n-1个插值点。

第二方面，本发明提供一种燃气负荷聚类装置，包括：

聚类模块，用于对燃气负荷数据进行聚类；

插值模块，用于以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值。

进一步地，所述装置还包括降维模块，用于采用主成分分析法PCA对燃气负荷数据进行降维处理。

进一步地，所述聚类模块采用FCM算法对燃气负荷数据进行聚类。

进一步地，所述装置还包括危险点剔除模块，用于在进行插值前按下述方法识别并剔除危险点：

删除所有危险点，并重新进行聚类。

更进一步地，所述插值模块按照下述方法进行插值：

计算多数类数据点数量与少数类数据点数量的比值，取整后得到插值倍率n；

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)

与现有技术相比，本发明具有以下有益效果。

本发明通过对燃气负荷数据进行聚类，以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值，实现了对不平衡数据集的聚类。本发明通过改进SMOTE算法，将插值基点由原来的少数类数据点改为聚类中心，解决了SMOTE算法容易产生分布边缘化的问题，提高了聚类效果。另外，本发明提出的聚类方法不仅适合于燃气负荷数据，还适合其它不平衡数据集。

附图说明

图1为本发明实施例一种燃气负荷聚类方法的流程图。

图2为不平衡样本数据集的示意图，图中的圆为少数类数据点，五星为多数类数据点。

图3为聚类后的数据点经过采样后的示意图，图中空心圆为少数类数据点，实心圆为插值点，星号为聚类中心。

图4为本发明实施例一种燃气负荷聚类装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种燃气负荷聚类方法的流程图，包括以下步骤：

步骤101，对燃气负荷数据进行聚类；

步骤102，以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值。

本实施例中，步骤101主要用于对燃气负荷数据进行聚类。聚类是一种机器学习技术，它涉及到数据点的分组。给定一组数据点，可以使用聚类算法将每个数据点划分为一个特定的组。理论上，同一组中的数据点应该具有相似的属性和/或特征，而不同组中的数据点应该具有不同的属性和/或特征。聚类是一种无监督学习的方法，是许多领域中常用的统计数据分析技术。聚类算法很多，主要的聚类算法包括如下几类：划分方法，层次方法，基于密度的方法，基于网格的方法以及基于模型的方法。如划分方法中的k-means聚类算法，层次方法中的凝聚型层次聚类算法，基于模型方法中的神经网络聚类算法等。本实施例不对聚类算法进行具体限定。

本实施例中，步骤102主要用于针对少数类数据点进行插值。如前述，燃气负荷数据是一个不平衡的数据集，不平衡数据集中，两类数据之间的数据数量差距较大，少数类数据远远少于多数类数据。如图2所示，圆为少数类数据点，五星为多数类数据点，图中圆的数量明显少于五星的数量。由于用于分类的大多数机器学***衡数据集设计的，这导致模型对不平衡数据的预测性能较差，特别是针对样本较少类别的预测效果，因此少数类样本识别比多数类样本识别更为困难也更为重要。为此，本实施例主要针对少数类数据进行处理，具体地说是针对少数类数据点进行过采样(插值)，使不平衡数据集趋于平衡。

现有技术多采用SMOTE算法实现插值。下面介绍一下SMOTE算法的原理。SMOTE算法的主要目的是通过增加少数类数据的数量来使不平衡数据集变为平衡数据集。假设某一不平衡数据集，对少数类数据中的每一个燃气负荷数据x，在其周围搜索最近邻K个少数类数据。假设数据集的向上采样倍率为n(近似等于多数类的数据量与少数类数据量的比值)，则从K个最近邻数据中随机抽取n个数据y₁,y₂,...,y_n。按下式计算插值得到n个插值点：

p_i＝x+rand(0,1)×(y_i-x)

式中，rand(0,1)表示区间(0,1)内的一个随机数，i＝1,2,...,n。

通过上述插值操作，可以平衡多数类和少数类的数据点的数量，从而提高不平衡数据集分类的准确率。但是，由于该算法中以少数类数据为基点进行插值，少数类数据的分布决定了其可选择的近邻，如果一个少数类数据处在该类的分布边缘，则在此数据点和其近邻样数据点之间的插值也会处在这个边缘附近，且会越来越边缘化，从而模糊了少数类和多数类的边界,而且使边界变得越来越模糊。这种边界模糊性虽然使数据集的平衡性得到了改善，但却加大了聚类算法的难度且影响了聚类效果。为此，本实施例对SMOTE算法进行了改进：以少数类的聚类中心为基点，在基点与每个数据点之间插值，这样就避免了位于边界的少数类数据点的插值点仍然在边界附近，从而消除了边界模糊问题。

图3是采用本实施改进的插值方法得到的插值结果的示意图，图中空心圆为少数类数据点，实心圆为插值点，星号为聚类中心。由图可知，插值点几乎均落在了边界之内，没有产生边界模糊。

作为一可选实施例，所述方法在聚类前还包括采用主成分分析法PCA对燃气负荷数据进行降维处理。

在本实施例中，在聚类前对燃气负荷数据进行降维处理，目的是通过降低数据维数和数据的数量，降低数据集的不平衡程度和聚类运算的计算量，从而提高聚类速度和效果。降维算法有很多，常用的有PCA、Sammon映射、特性指标降维。

PCA在机器学习中经常用到，是数据预处理的步骤之一。PCA在对数据进行简化和降维的时候，主要基于以下两个因素：第一，高维特征空间中含有很多不必要的冗余信息，特征之间相互存在着相关性；第二，高维数据计算较复杂。PCA的目标是在有损的情况下，尽量保持原数据集的信息，将高维数据进行简化。PCA通过选取其中对数据样本信息量贡献最多的几个变量，最大限度地降低成本函数的方差。保留下来的主成分有以下特点：保留的主成分需要小于原数据集的维数；每个主成分是原来变量的线性组合，但是主成分之间无相关性；尽量减小损失的情况下保留原始数据样本的尽可能高的信息。

Sammon映射是一种距离保存技术。Sammon映射只有一个特定的目的，即减少有限数量点的维数。这种技术被认为是PCA的一种变体。Sammon算法的目标是最小化误差函数。使用这种技术的优点是它计算简单，即使对于非线性的数据集也能得到结果，只要数据集不太复杂。Sammon算法也适合非线性数据集。

特性指标降维，也是针对高维负荷数据的一种处理方式。常用的负荷特性指标包含平均负荷、峰谷差、负荷率以及负载率等指标。负荷曲线由于受时间、气温、季节、生活***期负载率，谷期负载率。从全天不同时期、不同负载率较全面地刻画用户的负荷模式。

实验表明，在数据降维方面，PCA算法运算效率高，降维效果好，得到的聚类结果基本与未降维的聚类结果一致；Sammon算法的缺点在于运算时间长；特征选取的降维算法得到的聚类效果偏差较大。为此，本实施例采用PCA算法对燃气负荷数据进行降维处理。

作为一可选实施例，所述方法采用FCM算法对燃气负荷数据进行聚类。

本实施例给出了一种具体的聚类算法，即模糊C均值聚类算法FCM。FCM是基于目标函数的聚类算法中应用非常广泛的算法之一。FCM由传统的硬聚类算法优化而来，硬聚类采用隶属度要么为0要么为1的原则，运用均方逼近方法来构造条件型非线性规划问题，并借助目标函数求解聚类问题。FCM算法是一种无监督学习方法，它首先随机地选取样本中c个对象作为初始的聚类中心，初始化模糊划分矩阵的值在[0,1]之间；计算模糊划分矩阵和类中心，计算目标函数值；不断地更新、重复以上过程，直到目标函数值最小或者迭代次数大于最大停止迭代次数，然后根据模糊划分矩阵大小将样本划分到每个类中去。FCM采用的是欧氏距离度量样本与聚类中心的距离的，距离越小对象之间相似度就越高，越容易被划分到同一个类中去。FCM是较成熟的现有技术，这里不再给出详细的算法流程。

作为一可选实施例，在进行插值前还包括识别并剔除危险点步骤：

删除所有危险点，并重新进行聚类。

本实施例给出了一种消除危险点的技术方案。“危险点”是一种形象的叫法，也可称为“干扰点”，由于它的存在会对聚类算法产生较大的影响或干扰。因此，为了提高聚类效果，必须识别并删除危险点，然后重新进行聚类。本实施例中的危险点满足以下条件：是少数类的边界点；其K个近邻全是多数类数据点；其到聚类中心的距离比K个近邻中某个多数类数据点与聚类中心的距离还要近。也就是说，危险点几乎被多数类数据点包围，它的存在当然会对聚类算法构成危险或干扰，使聚类算法的难度大大增加，从而影响聚类效果。根据危险点的上述特征，本实施例识别危险点的方法是：首先确定少数类边界点，然后判断每个边界点是否满足后两个条件。当然，也对少数类边界点的数量进行了限定，即必须大于等于1，否则，如果只有一个边界点且被判定为危险点，删除后就没有边界点了(或对少数类的整体分布造成很大影响)。确定边界点方法是求每个少数类数据点的K个近邻，若所述K个近邻中包含多数类数据点，则所述少数类数据点为少数类边界点。

作为一可选实施例，插值方法具体包括：

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)

本实施例给出了改进的SMOTE算法的一种技术方案。主要改进的地方是将原来以少数类数据点为基点进行插值，改为以聚类中心为基点进行插值。插值点计算方法如上式，与SMOTE算法的插值公式相比，除了将基点由x改为u外，还将1改为了H。H是所有少数类数据点与聚类中心u的欧氏距离的最大值D，与由于少数类数据点x与u的欧氏距离d的比值D/d，取整后的值。由于H大于或等于1，这样处理后使插值点的范围拓宽了，可避免因插值范围小而导致过拟合。这样处理有可能使某些边界点的插值点“过界”，但因这种情况毕竟是少数，少数点过界对聚类影响不大。当然，可对上面的插值公式做进一步改进：当x为边界点时，仍然将H改为1；只在x为非边界点时用H。这样会使“过界”概率更小。

图4为本发明实施例一种燃气负荷聚类装置的组成示意图，所述装置包括：

聚类模块11，用于对燃气负荷数据进行聚类；

插值模块22，用于以少数类的聚类中心为基点，在所述基点与该类的每个数据点的连线或其延长线上进行插值。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，所述装置还包括降维模块，用于采用主成分分析法PCA对燃气负荷数据进行降维处理。

作为一可选实施例，所述聚类模块11采用FCM算法对燃气负荷数据进行聚类。

作为一可选实施例，所述装置还包括危险点剔除模块，用于在进行插值前按下述方法识别并剔除危险点：

删除所有危险点，并重新进行聚类。

作为一可选实施例，所述插值模块22按照下述方法进行插值：

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种燃气负荷聚类方法，其特征在于，包括以下步骤：

对燃气负荷数据进行聚类；

2.如权利要求1所述的燃气负荷聚类方法，其特征在于，所述方法在聚类前还包括采用主成分分析法PCA对燃气负荷数据进行降维处理。

3.如权利要求1所述的燃气负荷聚类方法，其特征在于，所述方法采用FCM算法对燃气负荷数据进行聚类。

4.如权利要求1所述的燃气负荷聚类方法，其特征在于，在进行插值前还包括识别并剔除危险点步骤：

删除所有危险点，并重新进行聚类。

5.如权利要求4所述的燃气负荷聚类方法，其特征在于，插值方法具体包括：

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)

6.一种燃气负荷聚类装置，包括：

聚类模块，用于对燃气负荷数据进行聚类；

7.如权利要求6所述的燃气负荷聚类方法，其特征在于，所述装置还包括降维模块，用于采用主成分分析法PCA对燃气负荷数据进行降维处理。

8.如权利要求6所述的燃气负荷聚类方法，其特征在于，所述聚类模块采用FCM算法对燃气负荷数据进行聚类。

9.如权利要求6所述的燃气负荷聚类方法，其特征在于，所述装置还包括危险点剔除模块，用于在进行插值前按下述方法识别并剔除危险点：

删除所有危险点，并重新进行聚类。

10.如权利要求9所述的燃气负荷聚类方法，其特征在于，所述插值模块按照下述方法进行插值：

计算u与该类每个数据点x的欧氏距离d，对D/d取整得到H；

按下式计算针对每个数据点x的n-1个插值点x_new：

x_new＝u+rand(0,H)×(x-u)