CN116805037A

CN116805037A - 一种基于数据分析的能源消耗预测方法和***

Info

Publication number: CN116805037A
Application number: CN202311088961.8A
Authority: CN
Inventors: 徐明锋
Original assignee: Shenzhen Lan You Technology Co Ltd
Current assignee: Shenzhen Lan You Technology Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-09-26

Abstract

本发明公开了一种基于数据分析的能源消耗预测方法和***，属于能源技术领域，该方法包括：S1，采集车企历史生产信息和能耗信息作为原始数据；S2，按照业务规则对采集的原始数据进行数据清洗；S3，根据车型对清洗后的数据进行异常值过滤；S4，将异常值过滤后的数据作为样本集，各车型作为特征，训练预测模型；S5，通过R²决定系数算法计算训练出的预测模型的精度；S6，若模型精度达到预期目标，则可以进行应用，若不符合，则重复步骤S2‑S6；S7，定期采集数据，更新样本集，重新训练模型。该方案针对不同车型进行能源消耗细分、对历史能耗数据进行异常值过滤、引入非生产能耗，使得车企的能源消耗预测更加智能，预测精度更高。

Description

一种基于数据分析的能源消耗预测方法和***

技术领域

本发明涉及能源技术领域，尤其涉及一种基于数据分析的能源消耗预测方法和***。

背景技术

传统的整车能源消耗预测是依据历史产量和能耗数据进行统计，求取单台车的能耗，然后根据未来一段时间的计划产量和单台车的能耗得到对应的能源消耗预测值。这种做法得到的能源消耗预测值不够准确，原因如下：一是缺少针对车型的能耗分析，实际上生产不同车型的能耗存在差异；二是缺少对历史能耗数据的异常值过滤，比如某天出现了大型耗能设备故障，会导致单个产品能耗急剧增加，导致影响整体单个产品能耗平均值；三是没有考虑非生产能耗。

发明内容

本发明要解决的技术问题是：针对现有技术的上述弊端，提供一种能够针对不同车型进行能耗细分、对历史能耗数据进行异常值过滤、考虑非生产能耗的能源消耗预测方法和***，以解决整车制造企业能源消耗预测不够智能和准确的问题。

为实现上述目的，本发明提供了一种基于数据分析的能源消耗预测方法，包括以下步骤：

S1，采集车企历史生产信息和能耗信息作为原始数据，所述原始数据包括日期、各车型整车产量、各种能源的能源消耗量；

S2，按照业务规则对采集到的原始数据进行数据清洗；

S3，根据车型对清洗后的数据进行异常值过滤；

S4，将异常值过滤后的数据作为样本集，各车型作为特征，训练预测模型；

S5，通过R²决定系数算法计算训练出的预测模型的精度；

S6，若模型精度达到预期目标，则可以进行应用，若不符合，则重复步骤S2-S6；

S7，定期采集数据，更新样本集，重新训练模型。

本发明还提供了一种基于数据分析的能源消耗预测***，包括：

数据采集单元：用于采集车企历史生产信息和能耗信息；

数据清洗单元：用于对采集到的原始数据进行数据清洗；

异常值过滤单元：用于对清洗过的数据进行异常值过滤；

模型训练单元：用于根据异常值过滤后的数据构建样本集，训练预测模型；

模型评估单元：用于评估训练出的模型的精度；

模型应用单元：用于根据训练的模型进行能源消耗量预测；

模型更新单元：用于定期采集数据，更新样本集，重新训练模型。

采用本发明的技术方案，针对不同车型进行能源消耗细分、对历史能耗数据进行异常值过滤、引入非生产能耗，使得车企的能源消耗预测更加智能，预测精度更高，帮助车企识别潜在能源问题，从而促进企业优化能源使用，减少浪费并降低成本，进而显著减少碳足迹；也可以应用于重点设备的预防性维护，通过监控能源消耗和识别异常情况，在设备故障发生前向企业发出告警，防止设备故障停机，提高运营效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于数据分析的能源消耗预测方法和***一个实施例所提供的预测方法流程图。

图2为本发明一种基于数据分析的能源消耗预测方法和***一个实施例所提供的预测***框图。

图3为本发明一种基于数据分析的能源消耗预测方法和***一个实施例所提供的异常数据过滤前的数据散点图。

图4为本发明一种基于数据分析的能源消耗预测方法和***一个实施例所提供的异常数据过滤后的数据散点图。

图5为本发明一种基于数据分析的能源消耗预测方法和***一个实施例所提供的样本数据和预测数据散点图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明总的思路是：基于车企对应产品已有一定的历史产量和能耗历史数据的前提，获取历史产量和能耗数据后，首先按照一定的业务规则进行数据清洗，比如数据格式需要转化为正确的编码、空缺数据使用0或平均值或剔除的方式处理；数据清洗完毕后，利用异常值过滤算法进行异常值的过滤；过滤完成后的数据输入预测模型进行模型训练；使用训练出的模型对历史数据计算预测值；计算预测值和实际值的差异得到模型精度；如果精度满足要求，使用未来一段时间的生产计划进行能耗预测；通过数据清洗，过滤异常值，增加样本量的方式反复训练模型，以不断提高模型精度。

下面结合说明书附图对本发明实施例作进一步详细描述。应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明适用于整车生产制造企业，企业需具备对应产品的产量和能耗历史数据，以及有可明确的未来一段时间的生产计划。历史数据一般需要一年以上的，一年以上的数据量能涵盖大部分数据特征，比如季节变化特征，也具备预测模型训练的基本要求，少量数据也能训练预测模型，只是准确度相对较差。

图1所示为本发明一实施例提供的一种基于数据分析的能源消耗预测方法的流程图。如图1所示，该方法包括以下步骤：

S1，采集车企历史生产信息和能耗信息作为原始数据，所述原始数据包括日期、各车型整车产量、各种能源的能源消耗量。

车企的能源消耗主要为电、水、压缩空气等。通过企业内部能源管理***、第三方数据接口或者其它方式采集企业的历史生产信息及各种能源的消耗数据，具体数据包括日期、各车型整车产量、各种能源的能源消耗量，具体的采集方式在此不做限制。采集的时间粒度根据实际数据源的情况和能源消耗预测时间粒度来确定，比如可以选择小时、天、周、月等。

S2，按照业务规则对采集到的原始数据进行数据清洗。

根据具体数据情况和业务规则对采集到的原始数据进行清洗，比如转化数据文件的编码、空缺数据使用0或平均值或剔除的方式处理。

S3，根据车型对清洗后的数据进行异常值过滤，具体步骤如下：

S31，将数据分为两组：产量为0的数据和产量不为0的数据。

S32，使用异常值过滤算法根据能源消耗字段的异常情况，对产量为0的数据进行异常值过滤。

产量为0时，工厂仍然有人办公，比如设备巡检，保养，值班人员和管理人员也会产生生活耗能，所以在进行能源消耗预测的时候，不能忽略非生产能耗。

S33，对于产量不为0的数据，先根据车型进行分组，对每一种车型的数据，根据能源消耗字段的异常情况，分别进行异常值过滤。

S34，将经过异常值过滤后的多组数据合并。

在本发明的一个实施例中，所述步骤S32中的异常过滤算法为K-Sigma算法，使用能耗字段计算平均值mean和标准差sigma，根据K-Sigma算法过滤异常值，K的取值范围为1-3。

K-Sigma算法，也称为K倍标准差算法，是一种异常检测算法，可以用于发现数据中的异常点。该算法基于假设，即正常数据的值集中在一个均值附近，并且其方差稳定。因此，我们可以考虑在保持一定精度的同时，限制均值和标准差的范围，以便检测到异常值。

在本发明的一个实施例中，所述步骤S33中的异常过滤算法为K-Sigma算法，对每一种车型的数据，计算单台车能耗的平均值mean和标准差sigma，再根据K-Sigma算法过滤异常值。

在本发明的另一个实施例中，所述步骤S32和步骤S33中的异常过滤算法为箱线图过滤算法，通过比较数据是否超过了箱线图的极大值、极小值进行异常值过滤。

S4，将异常值过滤后的数据作为样本集，各车型作为特征，训练预测模型。

在本发明的一个实施例中，所述步骤S4中，使用如下的多元线性回归模型进行样本集训练：

其中，y为能耗，x1-xn为各车型对应的产量，θ0-θn为回归系数，θ0为与产量无关的能耗。

样本集的个数为p时，使用如下矩阵表示训练模型：

其中：

y为p x 1矩阵，是经过步骤S3处理后的一种具体的能源的消耗量数据的矩阵表示，p行对应样本集中的p个数据；X为p x (n+1)的矩阵，第一列的1是为了得到θ0，其余各列表示各车型在不同样本集中的数据值；θ是回归系数矩阵。

为了求出一组θ值，使预测值最准确，即预测值与实际值的方差均值达到最小，使用最小二乘法通过最小化误差的平方和的方式来寻找最佳函数。

通过矩阵运算求解系数矩阵：

。

在本发明的另一个实施例中，所述步骤S4中，使用梯度下降算法或者时间序列预测算法训练预测模型。

梯度下降是一种非常通用的优化算法，能够为大范围的问题找到最优解。梯度下降的中心思想就是迭代地调整参数θ从而使成本函数，即预测值与实际值的误差平方和的平均值最小化。成本函数的偏导数代表成本函数的梯度向量，为负数时表示成本函数在下降，以此确定θ如何变化能让成本函数收敛，首先使用一个随机的θ值，然后逐步改进，每次踏出一步，每一步都尝试降低一点成本函数，直到算法收敛出一个最小值。

当特征值比样本数据多时或者各个特征值之间不独立的时候，多元线性回归算法不适用，可以使用梯度下降算法训练预测模型，当样本数据量较大，比如超过两万时，也可以使用梯度下降算法代替多元线性回归算法。

时间序列是按照一定的时间间隔排列的一组数据，其时间间隔可以是任意的时间单位，步骤S1中采集的原始数据也是一种时间序列。通过对这些时间序列的分析，可以从中发现和揭示现象发展变化的规律，并将这些知识和信息用于预测。时间序列预测有很多成熟的分析方法和模型，需要基于数据分析选择合适的分析方法和模型。

如果样本有季节特征，可以使用时间序列预测算法训练预测模型。

S5，通过R²决定系数算法计算S4中训练的模型的精度，具体步骤如下：

S51，将历史数据输入训练模型得到每个历史数据的预测值h；

S52，计算预测值h和实际值y的误差平方和SSE；

S53，计算总平方和SST；

S54，计算模型精度，误差率=误差平方和/总平方和，模型精度=1-误差率。

当预测值越接近实际值时，误差平方和SSE越小，误差率越接近于0，模型精度越接近于1，模型精度越高。

S6，若模型精度达到预期目标，则可以进行应用，若不符合，则重复步骤S2-S6。

若模型精度低，需要分析原因，如果是数据质量原因，需要进行数据清洗，通用的方式有：

（1）处理缺失值，如删除，0填充，平均值填充等；

（2）删除重复项，如删除，保留首行，保留末行等；

（3）数据类型转换，如字符转数字；

（4）数据格式结构转化，如ANSI转UTF-8；

（5）数据归一，如Min-Max，Z-Score；

（6）数据集成；

（7）数据简化；

（8）调整数据采集时间区间。

如果是模型算法原因，可以基于对数据的分析，尝试调整模型算法，如将多元线性回归算法调整为梯度下降算法、时间序列预测算法、多项式回归算法或者其它的预测模型。

S7，定期采集数据，更新样本集，重新训练模型。

在模型精度仍有提升空间的情况下，需要对数据进行分析，对各个步骤进行复盘，定期采集数据，更新样本集，重新训练模型。

如图2所示，本发明一实施例还提供了一种基于数据分析的能源消耗预测***，所述***包括：

数据采集单元：用于采集车企历史生产信息和能耗信息。

数据清洗单元：用于对采集到的原始数据进行数据清洗。

异常值过滤单元：用于对清洗过的数据进行异常值过滤。

模型训练单元：用于根据异常值过滤后的数据构建样本集，训练预测模型。

模型评估单元：用于评估训练出的模型的精度。

模型应用单元：用于根据训练的模型进行能源消耗量预测。

数据采集单元通过企业内部能源管理***、第三方数据接口或者其它方式采集企业的历史生产信息及各种能源的消耗数据，具体数据包括日期、各车型整车产量、各种能源的能源消耗量。采集的时间粒度根据实际数据源的情况和能源消耗预测时间粒度来确定，比如可以选择小时、天、周、月等。

数据清洗单元根据具体数据情况和业务规则对采集到的原始数据进行清洗。

异常值过滤单元首先将数据分为两组：产量为0的数据和产量不为0的数据。对于产量为0的数据，使用异常值过滤算法根据能源消耗字段的异常情况，进行异常值过滤。对于产量不为0的数据，先根据车型进行分组，对每一种车型的数据，根据能源消耗字段的异常情况，分别进行异常值过滤。异常值过滤单元包括多种异常过滤算法，比如K-sigma过滤算法和箱线图过滤算法，对于K-sigma过滤算法，可以尝试不同的K值进行异常值过滤，根据对过滤的效果分析确定最终选用的过滤算法。

模型训练单元包括多种模型，比如多元线性回归模型、梯度下降模型、时间序列预测模型、多项式回归模型等，对比各种模型的效率和精度，确定模型的选型。

模型评估单元通过R²决定系数算法计算模型的精度。

模型应用单元根据未来的产量安排来预测能源消耗量，并结合各种能源的计费规则，计算能源使用成本。

模型更新单元用于持续更新数据样本，训练模型，以提高模型精度。

下面以某车企的电能消耗量预测为例，来对本发明的技术方案作进一步的详细描述。

本实施例基于Python开发，使用的代码库包括pandas、numpy。

针对该车企所进行的电能消耗量预测方法如下：

S1，采集车企历史生产信息和能耗信息作为原始数据。

从该车企的能源管理***数据库中采集2023年1月-6月的能源消耗数据，采集的时间粒度为天，维度为五座车和七座车两种车型，采集到的数据如表1所示：

表1 采集的原始数据

采集到的数据一共有181条，每一条数据包括日期、五座车产量、七座车产量、耗电量几个字段，将采集到的数据转为UTF8编码的CSV格式数据，使用pandas的read_csv()函数进行读取：

S2，按照业务规则对采集到的原始数据进行数据清洗。

对数据的清洗主要根据具体数据情况和业务规则进行，比如在本车企的能源消耗预测项目中，进行过以下清洗工作：

（1）数据提供方反馈前半年工厂在进行产品试做，生产线经常停下来调试，当时的能耗不具备参考意义，所以这部分数据可以直接删除；

（2）原始数据是ANSI格式，用pandas读取时乱码，使用记事本打开，另存为UTF-8格式可以正常读取；

（3）部分日期的产量和能耗数据缺失，不适合用0填充，直接删除。

S31，将数据分为两组：产量为0的数据和产量不为0的数据。

产量为0的数据直接使用能耗字段计算平均值mean和标准差sigma，再根据K-sigma算法过滤异常值，过滤掉耗电量在均值k倍的sigma范围外的数据，k的取值可以为1-3。

S33，对于产量不为0的数据，先根据车型进行分组，对每一种车型的数据，根据能源消耗字段的异常情况，分别进行异常值过滤，过滤掉耗电量在均值k倍的sigma范围外的数据，k的取值可以为1-3。

产量不为0的数据先根据车型分为五座车和七座车两组，计算各组中单台车能耗的平均值mean和标准差sigma，再根据K-sigma算法过滤异常值：

S34，将经过异常值过滤后的多组数据合并。

使用pandas的concat()函数将过滤后的数据合并。

图3所示为过滤前的数据散点图，图4所示为过滤后的数据散点图，被过滤掉的数据主要集中在图4中椭圆形标注区域。表1中采集到的181条数据经过数据清洗和异常过滤后，还剩余169条。

使用如下的多元线性回归模型进行样本集训练：

其中，y为耗电量，x1、x2分别为五座车和七座车对应的产量，θ0-θ2为回归系数，θ0为与产量无关的能耗。

将169条数据全部用于构建样本集，样本的个数p=169，使用如下矩阵表示训练模型：

其中：

y为169 x 1矩阵，是经过步骤S3处理后的一种具体的能源的消耗量数据的矩阵表示，169行对应样本集中的169个数据；X为169 x (2+1)的矩阵，第一列的1是为了得到θ0，其余各列表示各车型在不同样本集中的数据值；θ是回归系数矩阵。

通过矩阵运算求解系数矩阵：

。

使用numpy实现以上矩阵计算功能，计算得出：

θ=[[8.04566058],[0.15558339],[0.02149217]]，即训练出来的模型为：

y=8.04566058+0.15558339*x1+0.02149217*x2。

S51，将历史数据输入模型得到每个历史数据的预测值h；

S52，计算预测值h和实际值y的误差平方和SSE；

S53，计算总平方和SST；

使用numpy实现以上矩阵计算功能，计算得出模型精度=0.82018845。

以上模型精度基本能够满足前期生产要求，可以根据未来一段时间的生产计划来预测未来的能源消耗，结合各种能源的计费规则，即可以预测对应时间段的能源消耗成本。

下表2所示为使用以上模型对样本集中的全部数据进行预测的结果。

预测使用的多元线性回归模型中，回归系数θ0对应的是非生产能耗，取值为8.04566058，从表2可见，非生产耗能在总能耗中占比很高，因此在进行模型训练的时候考虑非生产耗能，能够有效提高模型精度。

表2 样本数据及用预测模型对样本数据进行预测的结果

/>

图5所示为样本数据和预测数据的散点图。

S7，定期采集数据，更新样本集，重新训练模型。

本实施例中，1月份处在半试产阶段，能耗还不够稳定，在后续能耗稳定的样本足够的情况下，可以从样本集中剔除掉试产阶段的数据。在样本数量不多，模型精度还有待提高的情况下，可以采用每天0点自动采集数据进行模型训练的方式不断提高模型精度。

对于水、压缩空气等能源的消耗量预测，可以使用和本实施例中电量的消耗相同的方法。

以上仅为本发明的具体实施方式，不能以此来限定本发明的范围，本技术领域内的一般技术人员根据本创作所作的均等变化，以及本领域内技术人员熟知的改变，都应仍属本发明涵盖的范围。

Claims

1.一种基于数据分析的能源消耗预测方法，其特征在于，包括以下步骤：

S2，按照业务规则对采集到的原始数据进行数据清洗；

S3，根据车型对清洗后的数据进行异常值过滤；

S5，通过R²决定系数算法计算训练出的预测模型的精度；

S7，定期采集数据，更新样本集，重新训练模型。

2.根据权利要求1所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S3中对异常值进行过滤的步骤如下：

S31，将数据分为两组：产量为0的数据和产量不为0的数据；

S32，使用异常值过滤算法根据能源消耗字段的异常情况，对产量为0的数据进行异常值过滤；

S33，对于产量不为0的数据，先根据车型进行分组，对每一种车型的数据，根据能源消耗字段的异常情况，分别进行异常值过滤；

S34，将经过异常值过滤后的多组数据合并。

3.根据权利要求2所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S32中的异常过滤算法为K-Sigma算法，使用能耗字段计算平均值mean和标准差sigma，根据K-Sigma算法过滤异常值，K的取值范围为1-3。

4.根据权利要求2所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S33中的异常过滤算法为K-Sigma算法，对每一种车型的数据，计算单台车能耗的平均值mean和标准差sigma，再根据K-Sigma算法过滤异常值。

5.根据权利要求2所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S32和步骤S33中的异常过滤算法为箱线图过滤算法，通过比较数据是否超过了箱线图的极大值、极小值进行异常值过滤。

6.根据权利要求1所述的基于数据分析的能源消耗预测方法，其特征在于，所述骤S4中，使用如下的多元线性回归模型进行样本集训练：

其中，y为能耗，x1-xn为各车型对应的产量，θ0-θn为回归系数，θ0为与产量无关的能耗；样本集的个数为p时，使用如下矩阵表示训练模型：

其中：

y为p x 1矩阵，是经过步骤S3处理后的一种具体的能源的消耗量数据的矩阵表示，p行对应样本集中的p个数据；X为p x (n+1)的矩阵，第一列的1是为了得到θ0，其余各列表示各车型在不同样本集中的数据值；θ是回归系数矩阵；

为了求出一组θ值，使预测值最准确，即预测值与实际值的方差均值达到最小，使用最小二乘法通过最小化误差的平方和的方式来寻找最佳函数，通过矩阵运算求解系数矩阵：

。

7.根据权利要求1所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S4中，使用梯度下降算法或者时间序列预测算法训练预测模型。

8.根据权利要求1所述的基于数据分析的能源消耗预测方法，其特征在于，所述步骤S5的具体步骤如下：

S51，将历史数据输入训练模型得到每个历史数据的预测值h；

S52，计算预测值h和实际值y的误差平方和SSE；

S53，计算总平方和SST；

9.一种基于数据分析的能源消耗预测***，其特征在于，包括：

数据采集单元：用于采集车企历史生产信息和能耗信息；

数据清洗单元：用于对采集到的原始数据进行数据清洗；

异常值过滤单元：用于对清洗过的数据进行异常值过滤；

模型评估单元：用于评估训练出的模型的精度；

模型应用单元：用于根据训练的模型进行能源消耗量预测；

10.根据权利要求9所述的基于数据分析的能源消耗预测***，其特征在于：

数据采集单元通过企业内部能源管理***、第三方数据接口或者其它方式采集企业的历史生产信息及各种能源的消耗数据，具体数据包括日期、各车型整车产量、各种能源的能源消耗量；

数据清洗单元根据具体数据情况和业务规则对采集到的原始数据进行清洗；

异常值过滤单元包括多种异常过滤算法，根据对过滤的效果分析确定最终选用的过滤算法；

模型训练单元包括多种模型，对比各种模型的效率和精度，确定模型的选型；

模型评估单元通过R²决定系数算法计算模型的精度；

模型应用单元根据未来的产量安排来预测能源消耗量，并结合各种能源的计费规则，计算能源使用成本；