CN110070145B - 基于增量聚类的lstm轮毂单品能耗预测 - Google Patents

基于增量聚类的lstm轮毂单品能耗预测 Download PDF

Info

Publication number
CN110070145B
CN110070145B CN201910364392.2A CN201910364392A CN110070145B CN 110070145 B CN110070145 B CN 110070145B CN 201910364392 A CN201910364392 A CN 201910364392A CN 110070145 B CN110070145 B CN 110070145B
Authority
CN
China
Prior art keywords
energy consumption
product
cluster
lstm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910364392.2A
Other languages
English (en)
Other versions
CN110070145A (zh
Inventor
陈珊珊
马东方
路海伦
焦正杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Development Zone Jingnuo Hanhai Data Technology Co ltd
Original Assignee
Tianjin Development Zone Jingnuo Hanhai Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Development Zone Jingnuo Hanhai Data Technology Co ltd filed Critical Tianjin Development Zone Jingnuo Hanhai Data Technology Co ltd
Priority to CN201910364392.2A priority Critical patent/CN110070145B/zh
Publication of CN110070145A publication Critical patent/CN110070145A/zh
Application granted granted Critical
Publication of CN110070145B publication Critical patent/CN110070145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于增量聚类的LSTM轮毂单品能耗预测,涉及轮毂单品能耗预测技术领域。本发明采用基于PCA的动态增量密度聚类实现了对轮毂特征参数的聚类分析,得出新增产品所属历史产品类别,并基于能耗影响因素体系利用Pearson系数和Adaptive‑Lasso算法筛选出单品能耗强解释性因素,利用BP实现新品强解释性变量的预测,为各聚簇产品构建LSTM能耗预测模型实现了新品单耗的有效预测,利用ADE实现了对LSTM的优化,同时引入增量学***均降低了0.013653,同时其ADE的搜索性能较优,训练集的RMSE比有增量学***均减小0.004089,且有效的缩短了运行时间。

Description

基于增量聚类的LSTM轮毂单品能耗预测
技术领域
本发明涉及轮毂单品能耗预测技术领域,尤其涉及一种基于增量聚类的LSTM轮毂单品能耗预测方法。
背景技术
在整车市场的旺盛需求下驱动国内轮毂行业实现快速发展,目前我国已有300多家轮毂制造商,汽车轮毂产量保持两位数的增长速度,预计2022年国内汽车售后市场轮毂需求量在604万只左右,可见轮毂产品已进入“中国制造时代”。因此为响应市场的需求以及满足顾客的个性化定制要求,轮毂制造企业逐渐发展为多品类小批量的生产模式。但当需要生产无生产经验的新产品时,由于无历史能耗数据的积累,传统模型无法预测新品能耗,而能耗直接影响轮毂的单品成本,故研究轮毂新产品的能耗具有重要意义。
目前在建立能耗预测模型方面,因智能化生产和物联网技术的深度融合,工业生产过程中数据获取方便快捷,各种智能预测技术已经被用于能源需求管理,以准确预测未来的能源需求,目前主要采用时间序列预测、灰色预测、支持向量机、神经网络预测等,均取得了较好的研究成果。文章[耿宏等.基于小波-ARIMA的航空运输企业能耗预测模型(英文)[J].机床与液压,2018,46(06):13-17+42.]提出一种基于二尺度小波分解的ARIMA预测模型;文章[苏维均等.造纸企业工艺过程能源消耗预测仿真[J].计算机仿真,2016,33(08):438-442+447.]通过对ARIMA模型中的极大似然参数估计法进行改进,提出基于贝叶斯的ARIMA模型进行能耗预测。文章[李立欣等.基于灰色马尔可夫模型的能源消耗预测[J].中国科技信息,2018(15):74-75.]针对我国能源消耗总量的预测,提出在灰色预测模型的基础上引入马尔可夫链的观点;文章[刘家学等.基于新陈代谢灰色马尔科夫-ARMA模型的航空公司能耗预测(英文)[J].机床与液压,2017,45(18):55-62.]将GM(1,1)的预测结果由马尔科夫修正,并用新陈代谢的方法剔除模型中失去时效性的旧数据,通过滑动时间窗和ARMA模型对残差校正;文章[杜瑞芝等.GM-WLSSVM模型在办公建筑电力能耗预测中的应用[J].计算机应用与软件,2018,35(09):44-49+55.]利用灰色模型选取不同的样本对同一时段进行多类型预测,接着利用加权最小二乘支持向量机模型将预测结果进行组合,实现了办公建筑电能的短期预测;文章[王坤等.基于EMD与果蝇参数寻优的LSSVM的机场能耗预测[J].计算机时代,2017(04):35-40.]提出一种结合经验模式分解和果蝇参数寻优的最小二乘支持向量机的能耗预测方法;文章[夏威钧等.基于PSO-LSSVR的造纸企业能耗预测模型的研究[J].计算机测量与控制,2013,21(12):3433-3435+3438.]提出一种基于粒子群优化的最小二乘支持向量回归的能耗预测模型;文章[郭晓静等.民航机场用电短期能耗优化预测仿真[J].计算机仿真,2018,35(09):31-36.]提出了改进的灰色深度信念网组合预测模型,提高了民航机场用电短期能耗模型预测精度;文章[陈周林等.改进PSO-BP网络预测模型在造纸能耗预测中的应用[J/OL].轻工科技,2018(11):91-94[2019-01-08.]建立了基于改进粒子群算法优化的BP神经网络能耗预测模型;文章[陈彦熹等.基于ANN的绿色办公建筑HVAC***运行能耗预测[J].建筑节能,2017,45(10):1-5.]建立了分类多层感知器神经网络预测模型,实现了办公建筑中暖通空调***的能耗预测;文章[张宇航等.一种基于LSTM神经网络的短期用电负荷预测方法[J].电力信息与通信技术,2017,15(09):19-25.]以电力负荷数据自身作为训练数据和输出标签,通过迭代训练的方法建立了基于LSTM的电力负荷预测模型。
从上述文献可以看出,目前没有研究分析单品能耗的预测问题,且混合预测模型更能够改进模型的整体性能。由于能耗与其影响因素之间的关系是非线性的,采用神经网络更能够实现准确的预测,但是传统的前馈神经网络的时间建模能力相当有限,在输出的预测值依赖于输入特征序列长历史的情况下,LSTM能够解决学习长期依赖性的问题。而如何获得能耗的强解释性影响因素是研究的难点和构建预测模型的基础,且伴随着时间推移,数据不断增多,上述这些预测方法均是传统批量预测,不适合数据量不断新增的场景,如何在原有学习基础上进行增量学习,也是目前急需解决的问题。
发明内容
本发明的目的在于提供一种基于增量聚类的LSTM轮毂单品能耗预测方法。旨在采用PCA对决定历史轮毂生产模式的特征参数降维后,利用聚类算法获得与新产品相似的历史单品类别;接着,基于订单数据、生产数据、关键耗件参数构建能耗影响因素体系,利用Pearson系数以及Adaptive-Lasso得出与单品能耗强关联的强解释性变量,并使用BP神经网络预测出新产品的强解释性因素值;最后在上述方法的基础上构建各聚簇轮毂的单品能耗预测模型,提出一种基于ADE的LSTM增量更新轮毂单耗预测模型,该模型采用ADE算法对LSTM模型的初始参数进行搜索,并当有新增样本时,对预测模型进行更新。该方法实现了对新轮毂单品能耗的有效预测和模型的增量式更新,不仅提高了预测精度,同时降低了数据存储空间和模型计算时间。
本发明所采取的技术方案为一种基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于包括下述步骤:
(1)收集不同型号轮毂的特征参数样本,包括12个特征参数:轮圈直径、轮圈宽度、中心孔距、螺栓孔数、节圆直径、偏距、重量、轮辐数目、轮辐正面造型、中心盘面造型、轮毂材质、制造工艺;
(2)收集不同型号轮毂的订单数据、生产数据、关键耗件参数、单品能耗数据组成的能耗样本;其中订单数据、生产数据、关键耗件参数构成能耗影响因素体系,订单数据包括单品型号、单品订单量、品类总数,生产数据包括生产时间、原材料投入量、设备运行时间、生产效率、废品率,其中生产效率由机加效率(件/小时)和光整效率(分钟/件)两方面来考虑,关键耗件参数包括钻头使用量、刀具使用量;
(3)将步骤(1)中历史轮毂特征参数样本的字符型参数进行标签化处理后,采用主成分分析将参数样本降至二维得到数据集P;
(4)接着使用动态增量密度聚类算法对P进行聚类操作,得到原始聚簇结果Ci(i=0,1,…,k)∈P和离群集O∈P;
(5)当有新增特征参数样本时,对其利用步骤(3)预处理后得ΔP,搜索O∪ΔP中与原聚簇密度可达的数据对象,更新聚类结果,输出聚簇C′i(i=0,1,…,k′)=Ci∪ΔCi、离群集O′和新增产品所属类别;
(6)根据步骤(2)中能耗影响因素体系分析单品能耗的强解释性因素,利用Pearson系数剔除能耗影响因素体系中的弱相关以及不相关因素,接着利用Adaptive-Lasso算法进行第二次变量选择得到轮毂单品能耗的强解释性变量;
(7)对经过步骤(3)标签化处理后的历史轮毂特征参数、步骤(6)获得的强解释性变量以及单品能耗值进行标准化处理;
(8)以经过步骤(7)标准化处理后的历史轮毂特征参数为输入,以经过步骤(7)标准化处理后的强解释性变量为输出,构建新轮毂强解释性变量的BP预测模型,得以预测新轮毂的强解释性变量值;
(9)根据步骤(4)的历史聚类结果构建各聚簇单品能耗预测模型,将各聚簇历史能耗样本均以3:1的比例随机划分成训练集和测试集,训练集均分为四组,其中一组进行步骤(9),剩余组依次作为一个样本增量集;
(10)构建各聚簇LSTM单品能耗预测模型,将训练集经过步骤(7)标准化处理后的强解释性变量为输入,经过步骤(7)标准化后的单品能耗为输出,在模型构建中利用ADE算法实现对LSTM参数的优化;
(11)在各聚簇LSTM单品能耗预测模型中,利用步骤(9)中样本增量集对模型进行增量更新;
(12)根据步骤(9)中各聚簇的测试集测试经过步骤(11)更新后的各聚簇的预测模型,并进行模型评估,同时对于待预测产品的特征参数样本经过步骤(3)-(5)处理,以及经过步骤(7)-(8)的BP预测模型得出新轮毂的强解释性变量,随后利用步骤(11)更新后的各聚簇LSTM单品能耗预测模型进行预测,输出新增产品能耗的预测值。
进一步的技术方案在于,所述步骤(4)中对降维后的特征参数样本集合P进行聚类过程,包括如下步骤:
1)对于降维后的原始数据集P,确定coefR的值,计算密度调整参数σ和密度可达距离R,并计算P中各个数据对象的密度值Density(Pi),得出P中Density(Pi)最大的局部密度吸引子Attractor:
Figure GDA0002950232510000051
Figure GDA0002950232510000061
Figure GDA0002950232510000062
式中,
Figure GDA0002950232510000063
表示点Pi到点Pj的欧式距离,
Figure GDA0002950232510000064
为样本中各点之间距离的平均值,coefR(0<coefR<1)为密度可达距离的原始调整系数,n为样本总数;
2)扫描原始数据集P中数据对象,将密度吸引子Attractor和其密度可达的数据对象分配到第一个簇C0,并从原始数据集中删除该聚簇对象;
3)对于剩余数据集,查找另一个密度吸引子Attractori,计算自适应密度可达距离Radap,i,将该密度吸引子和其密度可达的数据对象分配到另一个聚簇Ci,并从原始数据集中删除该聚簇对象,依次类推,最后将具有较少数据对象的簇放入异常值或噪声组中,此时得到原始聚簇结果Ci(i=0,1,…,k)∈P,离群集O∈P:
Radap,i=αR
式中α为调整系数,公式如下:
Figure GDA0002950232510000065
进一步的技术方案在于,所述步骤(5)中增量聚类方法为:
1)对于预处理后的增量数据集ΔP,将ΔP与原离群集O合并,搜索O∪ΔP中与原各聚簇Ci密度可达的数据对象,更新聚类结果Ci(i=0,1,…,k)∈(P∪ΔP),此时剩余数据集为
Figure GDA0002950232510000066
2)对剩余数据集
Figure GDA0002950232510000067
的数据对象进行聚类分析,得到可能存在于
Figure GDA0002950232510000068
中的簇ΔCi(i=k+1,…,k′,k′≥k),更新聚簇结果为C′i(i=0,1,…,k′)=Ci(i=0,1,…,k)∪ΔCi,和离群集O′;
3)若
Figure GDA0002950232510000069
则检测O′中是否含有增量样本ΔP中的数据对象,若含有新产品参数样本,则比较该新样本点到各聚簇中各点的距离,为了能够实现该新产品的能耗预测,将其先标记到距离其最近点所在簇;
4)对于其他增量数据集预处理后,删除现有离群集O′中的聚簇标记,重复执行步骤1)到3);
5)输出聚类结果C′i(i=0,1,…,k′)和离群集合O′,以及新产品所属类别。
进一步的技术方案在于,所述步骤(10)中单品能耗预测模型构建方法为:
1)ADE个体的维度等于LSTM神经网络的权重和阈值个数的总和,初始化进化次数G=0,种群规模N,交叉概率f,变异概率cr,并采用均方根误差RMSE作为适应度函数:
Figure GDA0002950232510000071
Figure GDA0002950232510000072
Figure GDA0002950232510000073
式中GenM为最大迭代次数,G为当前迭代次数,α、β是[0.5,1]范围内的常数,yt为真实值,k为数据对象的个数;
2)计算种群中各个体的适应度值即RMSE;
3)如果当前种群中最小RMSE满足要求或者当前迭代次数G=GenM,则ADE终止迭代,获得最佳个体并执行步骤5),否则继续执行步骤4);
4)根据自适应交叉、自适应变异和选择操作得到新群体,设置G=G+1,返回执行步骤3);
5)基于ADE优化获得最优个体作为LSTM的初始连接权重和阈值;并用训练样本对LSTM实施训练,进而获得最佳网络。
进一步的技术方案在于,所述步骤(11)中新增样本对LSTM预测模型的更新方法为:
1)对于各新增能耗样本,先判断属于哪个簇ci,第i个簇对应第i个LSTM模型;确定所属模型后,在该模型历史数据训练的基础上更新模型参数,即将历史数据训练后的参数来初始化网络,将新样本的强解释性变量输入到预测模型中,通过LSTM的前向计算得到新样本的预测值
Figure GDA0002950232510000081
将预测值
Figure GDA0002950232510000082
和实际值y的误差加到原来的误差函数J(θ)上;
Figure GDA0002950232510000083
式中,参数θ=(Wf,Wi,Wc,Wo,bf,bi,bc,bo)
2)根据更新的误差函数J(θ)反向传播更新模型参数值:
θ′=(Wf-λ*Δwf,…,Wo-λ*Δwo,bf-λ*Δbf,…,bo-λ*Δbo)
式中,λ是学习率,Δwf、Δwo和Δbf、Δbo分别是神经元的权重和偏移量的梯度矩阵和向量。
采用上述技术方案所产生的有益效果在于:
本发明提出的基于增量聚类的LSTM轮毂单品能耗预测方法,采用基于PCA的动态增量密度聚类实现了对轮毂特征参数的聚类分析,从而得出新增产品所属历史产品类别,并基于能耗影响因素体系利用Pearson系数和Adaptive-Lasso算法筛选出单品能耗强解释性因素,进而利用BP实现新品强解释性变量的预测,最后为各聚簇产品构建LSTM能耗预测模型实现了新品单耗的有效预测,利用ADE实现了对LSTM的优化,同时引入增量学***均降低了0.013653,同时其ADE的搜索性能较优,训练集的RMSE比有增量学***均减小0.004089,且有效的缩短了运行时间。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明基于增量聚类的LSTM轮毂单品能耗预测方法结构图;
图2是本发明基于PCA的动态增量密度聚类流程图;
图3是本发明基于ADE的LSTM增量更新轮毂单耗预测流程图;
图4是本发明聚类分析结果图;
图5、图6分别为隐藏层节点数与X8的RMSE变化图和隐藏层节点数与X9的RMSE变化图;
图7为LSTM层数与各聚簇预测模型的RMSE变化图;
图8为LSTM层节点数与各聚簇预测模型的RMSE变化图;
图9为簇C0的能耗增量数据于五种算法的训练精度对比图;
图10为簇C1的能耗增量数据于五种算法的训练精度对比图;
图11为簇C4的能耗增量数据于五种算法的训练精度对比图;
具体实施方式
本发明提出一种基于PCA的动态增量密度聚类算法,即基于象征轮毂生产模式的特征参数数据,利用聚类算法获得与新产品相似的历史单品类别;接着,利用Pearson系数和Adaptive-Lasso算法分析单品能耗的强解释性因素,并使用BP神经网络预测出新产品的强解释因素值;最后,提出一种基于ADE的LSTM增量更新轮毂单耗预测模型,该模型利用ADE算法减弱了初始化参数对模型精度的影响,并引入增量学习策略,实现模型的动态更新。
一、本发明方法的理论依据
1、主成分分析(Principal Component Analysis,PCA):通过线性变换将原始数据变换为一组各维度线性无关(单位正交)的表示,可用于提取数据的主要特征分量,同时保留尽可能多的可变性,常用于高维数据的降维。
2、基于密度的动态增量聚类:定义数据点密度最大的为密度吸引子,每次从未完成聚类的剩余数据集中寻找局部密度吸引子和其密度可达的样本点,从而聚为一类,并为了适用于动态的增量数据库,自适应调整密度可达距离。
3、皮尔森相关系数(Pearson系数):用来反映两个变量之间的相关程度,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。
4、Adaptive-Lasso算法:是对Lasso算法的改进,通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零,进而实现在变量众多的时候快速有效地提取出重要变量,从而简化模型。
5、长短期记忆神经网络(Long-Short Term Memory,LSTM):是对RNN的变形,即在普通RNN基础上,通过在隐藏层各神经单元中增加记忆单元,从而使时间序列上的记忆信息可控,每次在隐藏层各单元间传递时通过几个可控门(遗忘门、输入门、候选门、输出门),可以控制之前信息和当前信息的记忆和遗忘程度,从而使RNN网络具备了长期记忆功能。
6、自适应差分进化算法:(Adaptive differential evolution algorithm,ADE):通过在计算过程中自适应调整缩放因子和交叉概率,实现对标准差分进化算法的改进。
二、基于增量聚类的LSTM轮毂单品能耗预测方法设计:
基于增量聚类的LSTM轮毂单品能耗预测方法工作原理如下:当需要对新增产品实施单品能耗预测时,首先采用PCA对决定历史轮毂生产模式的特征参数降至二维后,利用动态增量密度聚类算法获得与新产品相似的历史单品类别;接着,基于订单数据、生产数据、关键耗件参数构建能耗影响因素体系,利用Pearson系数和Adaptive-Lasso算法得出与单品能耗强关联的强解释性变量,并将轮毂特征参数作为输入、强解释性变量作为输出,构建新品强解释性变量的BP预测模型;最后,在上述方法的基础上构建各聚簇轮毂的单品能耗预测模型,利用ADE算法减弱初始化参数对模型的影响,考虑到新增能耗样本的处理问题,引入了增量学习的策略,通过判断新样本所属聚簇确定要更新的预测模型,将所确定模型的历史参数作为该模型的初始参数,并将新样本预测值和实际值之间的误差添加到整体误差中,利用误差最小化方法来迭代更新模型参数,以此保证模型能够不断处理加入的新增样本。
1、基于增量聚类的LSTM轮毂单品能耗预测方法结构
本发明通过基于PCA的动态增量密度聚类得出与新增产品生产模式相似的历史产品类别,并基于聚簇结果为各聚簇构建基于ADE的LSTM增量更新轮毂单耗预测模型,实现单品能耗的预测。如图1所示,当有新增产品特征参数样本时,将其通过PCA降至二维后,通过动态增量密度聚类算法更新聚类结果得出其所属历史产品类别,同时通过Pearson系数和Adaptive-Lasso算法实现对能耗强解释性变量的筛选,并通过BP神经网络预测得出新增产品的强解释性因素,进而输入到相应ADE优化的LSTM模型,从而得出新增产品的单品能耗值,且当有新增能耗样本时,根据其预测值与真实值之间的误差更新模型误差函数,调整模型参数,实现模型的增量更新。
2、算法具体实现
基于增量聚类的LSTM轮毂单品能耗预测方法包括下述步骤:
(1)收集不同型号轮毂的特征参数样本,包括12个特征参数:轮圈直径(p1)、轮圈宽度(p2)、中心孔距(p3)、螺栓孔数(p4)、节圆直径(p5)、偏距(p6)、重量(p7)、轮辐数目(p8)、轮辐正面造型(p9)、中心盘面造型(p10)、轮毂材质(p11)、制造工艺(p12);
(2)收集不同型号轮毂的订单数据、生产数据、关键耗件参数、单品能耗数据组成的能耗样本;其中订单数据、生产数据、关键耗件参数构成能耗影响因素体系,订单数据包括单品型号(X1)、单品订单量(X2)、品类总数(X3),生产数据包括生产时间(X4)、原材料投入量(X5)、设备运行时间(X6)、生产效率(机加效率X7、光整效率X8)、废品率(X9),关键耗件参数包括钻头使用量(X10)、刀具使用量(X11);
(3)将步骤(1)中历史轮毂特征参数样本的字符型参数进行标签化处理后,采用主成分分析将参数样本降至二维得到数据集P;
(4)接着使用动态增量密度聚类算法对P进行聚类操作,得到原始聚簇结果Ci(i=0,1,…,k)∈P和离群集O∈P;
(5)当有新增特征参数样本时,对其利用步骤(3)预处理后得ΔP,搜索O∪ΔP中与原聚簇密度可达的数据对象,更新聚类结果,输出聚簇C′i(i=0,1,…,k′)=Ci∪ΔCi、离群集O′和新增产品所属类别;
(6)根据步骤(2)中能耗影响因素体系分析单品能耗的强解释性因素,利用Pearson系数剔除能耗影响因素体系中的弱相关以及不相关因素,接着利用Adaptive-Lasso算法进行第二次变量选择得到轮毂单品能耗的强解释性变量;
(7)对经过步骤(3)标签化处理后的历史轮毂特征参数、步骤(6)获得的强解释性变量以及单品能耗值进行标准化处理;
(8)以经过步骤(7)标准化处理后的历史轮毂特征参数为输入,以经过步骤(7)标准化处理后的强解释性变量为输出,构建新轮毂强解释性变量的BP预测模型,得以预测新轮毂的强解释性变量值;
(9)根据步骤(4)的历史聚类结果构建各聚簇单品能耗预测模型,将各聚簇历史能耗样本均以3:1的比例随机划分成训练集和测试集,训练集均分为四组,其中一组进行步骤(9),剩余组依次作为一个样本增量集;
(10)构建各聚簇LSTM单品能耗预测模型,将训练集经过步骤(7)标准化处理后的强解释性变量为输入,经过步骤(7)标准化后的单品能耗为输出,在模型构建中利用ADE算法实现对LSTM参数的优化;
(11)在各聚簇LSTM单品能耗预测模型中,利用步骤(9)中样本增量集对模型进行增量更新;
(12)根据步骤(9)中各聚簇的测试集测试经过步骤(11)更新后的各聚簇的预测模型,并进行模型评估,同时对于待预测产品的特征参数样本经过步骤(3)-(5)处理,以及经过步骤(7)-(8)的BP预测模型得出新轮毂的强解释性变量,随后利用步骤(11)更新后的各聚簇LSTM单品能耗预测模型进行预测,输出新增产品能耗的预测值。
本发明实施方式中,所述步骤(4)中对降维后的特征参数样本集合P进行聚类过程,包括如下步骤:
1)对于降维后的原始数据集P,确定coefR的值,计算密度调整参数σ和密度可达距离R,并计算P中各个数据对象的密度值Density(Pi),得出P中Density(Pi)最大的局部密度吸引子Attractor:
Figure GDA0002950232510000141
Figure GDA0002950232510000142
Figure GDA0002950232510000143
式中,
Figure GDA0002950232510000144
表示点Pi到点Pj的欧式距离,
Figure GDA0002950232510000145
为样本中各点之间距离的平均值,coefR(0<coefR<1)为密度可达距离的原始调整系数,n为样本总数;
2)扫描原始数据集P中数据对象,将密度吸引子Attractor和其密度可达的数据对象分配到第一个簇C0,并从原始数据集中删除该聚簇对象;
3)对于剩余数据集,查找另一个密度吸引子Attractori,计算自适应密度可达距离Radap,i,将该密度吸引子和其密度可达的数据对象分配到另一个聚簇Ci,并从原始数据集中删除该聚簇对象,依次类推,最后将具有较少数据对象的簇放入异常值或噪声组中,此时得到原始聚簇结果Ci(i=0,1,…,k)∈P,离群集O∈P:
Radap,i=αR
式中α为调整系数,公式如下:
Figure GDA0002950232510000146
本发明实施方式中,所述步骤(5)中增量聚类方法为:
1)对于预处理后的增量数据集ΔP,将ΔP与原离群集O合并,搜索O∪ΔP中与原各聚簇Ci密度可达的数据对象,更新聚类结果Ci(i=0,1,…,k)∈(P∪ΔP),此时剩余数据集为
Figure GDA0002950232510000151
2)对剩余数据集
Figure GDA0002950232510000152
的数据对象进行聚类分析,得到可能存在于
Figure GDA0002950232510000153
中的簇ΔCi(i=k+1,…,k′,k′≥k),更新聚簇结果为C′i(i=0,1,…,k′)=Ci(i=0,1,…,k)∪ΔCi,和离群集O′;
3)若
Figure GDA0002950232510000154
则检测O′中是否含有增量样本ΔP中的数据对象,若含有新产品参数样本,则比较该新样本点到各聚簇中各点的距离,为了能够实现该新产品的能耗预测,将其先标记到距离其最近点所在簇;
4)对于其他增量数据集预处理后,删除现有离群集O′中的聚簇标记,重复执行步骤1)到3);
5)输出聚类结果C′i(i=0,1,…,k′)和离群集合O′,以及新产品所属类别。
本发明实施方式中,所述步骤(9)中单品能耗预测模型构建方法为:
1)ADE个体的维度等于LSTM神经网络的权重和阈值个数的总和,初始化进化次数G=0,种群规模N,交叉概率f,变异概率cr,并采用均方根误差RMSE作为适应度函数:
Figure GDA0002950232510000155
Figure GDA0002950232510000156
Figure GDA0002950232510000161
式中GenM为最大迭代次数,G为当前迭代次数,α、β是[0.5,1]范围内的常数,yt为真实值,k为数据对象的个数;
2)计算种群中各个体的适应度值即RMSE;
3)如果当前种群中最小RMSE满足要求或者当前迭代次数G=GenM,则ADE终止迭代,获得最佳个体并执行步骤5),否则继续执行步骤4);
4)根据自适应交叉、自适应变异和选择操作得到新群体,设置G=G+1,返回执行步骤3);
5)基于ADE优化获得最优个体作为LSTM的初始连接权重和阈值;并用训练样本对LSTM实施训练,进而获得最佳网络。
本发明实施方式中,所述步骤(11)中新增样本对LSTM预测模型的更新方法为:
1)对于各新增能耗样本,先判断属于哪个簇ci,第i个簇对应第i个LSTM模型;确定所属模型后,在该模型历史数据训练的基础上更新模型参数,即将历史数据训练后的参数来初始化网络,将新样本的强解释性变量输入到预测模型中,通过LSTM的前向计算得到新样本的预测值
Figure GDA0002950232510000162
将预测值
Figure GDA0002950232510000163
和实际值y的误差加到原来的误差函数J(θ)上;
Figure GDA0002950232510000164
式中,参数θ=(Wf,Wi,Wc,Wo,bf,bi,bc,bo)
2)根据更新的误差函数J(θ)反向传播更新模型参数值:
θ′=(Wf-λ*Δwf,…,Wo-λ*Δwo,bf-λ*Δbf,…,bo-λ*Δbo)
式中,λ是学习率,Δwf、Δwo和Δbf、Δbo分别是神经元的权重和偏移量的梯度矩阵和向量。
三、数据描述
实验数据来源于某轮毂制造有限公司的数据,该公司在生产线中均安装了智能仪器,用来获得生产过程中所消耗的电能、水以及天然气。本次实验以预测单品耗电量为例,由于可用数据量较少,用Python仿真了部分数据,目前得到了2015年1月到2018年12月份中725个轮型的相关数据,在本次实验中,随机选择其中475个轮型用作历史产品样本,剩余的250个轮型视为新增产品用于验证模型的预测结果。
将所选取的475个轮型的特征参数样本做为原始数据集P,剩余的250个轮型的参数样本随机等量划分为五组,用于做增量数据集ΔP1、ΔP2、ΔP3、ΔP4、ΔP5进行增量聚类,具体特征参数样本描述如下表1所示。
表1特征参数数据描述
Figure GDA0002950232510000171
在聚类结果的基础上,构建基于ADE的LSTM增量更新轮毂单耗预测模型。725个轮型的订单数据、生产参数、关键耗件参数以及能耗数据组成能耗样本,其中能耗数据为单品耗电量,共计34,800个样本,其中475个历史产品包含22,800个样本。将历史产品各聚簇所含样本均按照3:1的比例随机划分为训练样本和测试样本,构建各个聚类的能耗预测模型。在训练过程中,将各聚簇的训练集等量划分为四组,其中一组用于构建预测模型,剩余的三组添加到已有模型进行增量学习。具体能耗数据及其相关影响因素如下表2所示。
表2能耗样本
Figure GDA0002950232510000181
1、模型参数与结构
(1)聚类分析
对于特征轮辐正面造型(p9)、中心盘面造型(p10)、轮毂材质(p11)、制造工艺(p12)均是字符型,需要将其标准化装换为数值型数据。
将样本采用随机抽样的方式划分成历史产品样本、新增产品样本,其中历史产品475个,剩余的即为新增产品分五次添加到聚类模型进行增量更新,coefR取值为0.6,此次实验进行了20次随机抽样,最终均可将轮毂分成5类,聚类结果如图4所示。
选择其中的一种实验结果进行说明:将随机抽取的475个轮型降维后的参数样本进行聚类分析,样本最终分为了6类C-1、C0、C1、C2、C3、C4,分别有13、261、53、27、32、89个样本点,其中C-1是包含噪声点的簇,将C-1作为离群集O。剩余的250个轮毂参数样本分5次对聚类结果进行增量更新,搜索增量样本中能够与聚簇C0、C1、C2、C3、C4密度可达的数据对象,最终聚簇C0、C1、C4分别包含303、78、185个样本,离群集O包含9个样本点,C2、C3无新样本加入。
(2)能耗关键影响因素分析
1)相关性分析
使用Pearson系数初步判断单品耗电与各影响因素之间是否具有线性相关性,计算结果表3所示。
表3 Person系数表
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
-0.015 0.804 0.637 0.003 0.004 0.612 -0.896 0.748 0.530 0.629 0.616
由此可知,X1、X4、X5与单品能耗几乎不相关,X7与单品能耗呈强负相关,剩余变量均呈现为正相关。因此通过该结果,可以去掉X1、X4、X5这三个弱相关因素。
2)Adaptive-Lasso变量选择
接着对剩余变量采用Adaptive-Lasso算法进行第二次变量筛选,结果表4所示:
表4 Adaptive-Lasso系数表
X2 X3 X6 X7 X8 X9 X10 X11
-0.1705 0.0776 0.0000 0.0000 0.4209 0.3929 0.0000 0.0000
可知,X6、X7、X11、X10的系数为0,则在构建模型时这几个变量被剔除了,剩余变量X2、X3、X8、X9则作为单品耗电的关键影响因素。
3)新品的强解释性因素预测
通过上述分析,得出X2、X3、X7、X9为能耗的强解释性因素,X2为订单量,X3为同一生产线在同一生产周期内生产的不同产品型号数,故对于新增产品的X2、X3可以根据实际情况人为设定,而X8、X9需要采用BP神经网络预测得出,将轮毂的12个特征参数作为输入变量,X8、X9即为输出。
实验过程均采用k-fold交叉验证的方式对模型进行训练,将原始数据分成k组(K-Fold),将每个子集数据分别做一次验证集,其余的k-1组子集数据作为训练集,得到k个模型。这k个模型分别在验证集中评估结果,最终选择误差最小的模型。在实验中k取为4,即将数据分为4份,选择其中的k-1=3份数据来训练,剩下一份用于校验,网络总共训练4次,每一份数据都有机会作为校验集。在实验过程中把每次训练的循环次数逐渐提高到300,即epoch=300,并把每次训练后对校验数据的误差记录下来。在每次的训练过程中,将学习率进行动态调整,当学习停滞时,学习率以0.1倍的形式被较少。
针对隐藏层数目的确定,通过设置BP其他参数相同,将隐藏层数目由1层逐渐增加至5层测试预测值的RMSE,如下表5所示,隐藏层为1层时X8、X9的RMSE值均较小,当隐藏层层数由2逐渐增加至5时,RMSE的值在较小范围内波动,故选择1个隐藏层即可。
表5隐藏层数对关键影响因素预测精度的影响
Figure GDA0002950232510000201
针对隐藏层节点数目的确定,同样设置BP其他参数相同,并根据公式
Figure GDA0002950232510000202
搜索,x为输入层节点数即12,y为输出层节点数即2,a为大于等于1的常数,z为隐藏层节点数,故可将隐藏层节点数初始值设置为5并逐渐增加,记录预测值的误差,实验结果如图5、6所示,当隐藏层节点由5增加至16时,光整效率和废品率的RMSE均逐渐减少,而当隐藏层节点数继续增加时,光整效率和废品率的RMSE均逐渐增加,故隐藏层节点数取为16。
由上述实验结果可知,预测新增产品关键影响因素的BP神经网络共3层结构,其中输入层节点数与轮毂特征参数维数相同即12,隐藏层节点数为16,输出层节点数为2。将此模型运行10次,得到的X8、X9的预测值的平均值做最终的预测值,同时设置各新增产品的X2、X3变量,用于做验证能耗预测模型的输入。
(3)各聚簇能耗预测模型
根据上述聚类分析的结果,将历史产品聚合成了5类,将历史产品各聚簇所含能耗样本均按照3:1的比例随机划分为训练样本和测试样本,构建各聚类的能耗预测模型。在训练过程中,将各聚簇的训练集等量划分为四组,其中一组用于构建预测模型,剩余的三组添加到已有模型进行增量学习。各模型的输入层节点数均与强解释性因素的维度相同即4,输出层节点数为1,即输出各特征影响下的单品能耗值。另外ADE搜索部分的种群规模设置为50,迭代次数为100,α、β分别取0.8、0.5。
1)确定LSTM层层数
根据聚簇C0、C1、C2、C3、C4所包含的单品能耗数据构建该类产品的单品能耗预测模型。设置模型的其他参数相同,将该神经网络的LSTM层从1层逐渐增加至10层,记录模型预测值的RMSE的变化情况,实验结果图7所示。对于类别C0与C4的预测模型来说,当LSTM层由1逐渐增加至3层时,RMSE的值均逐渐减小,而当LSTM层数继续增加时,RMSE在较小范围内出现波动,因此C0与C4的预测模型可确定为3层LSTM结构。而对于C1、C2、C3的预测模型来说,当LSTM由1层增加至2层时,RMSE的值均明显较小,而当LSTM层继续增多时,RMSE在较小范围内波动,没有明显较少的趋势,故C1、C2、C3的预测模型的LSTM层采用两层。
2)确定LSTM层节点数
对于各聚簇中LSTM层节点个数的确定,设置各模型的其他参数相同,仅改变节点个数,通过实验获得各聚簇C0、C1、C2、C3、C4预测模型的各层节点数比例分别为:4:2:1、2:1、5:2、5:2、4:3:1,首层节点由4逐渐增加至52,记录模型预测误差的变化,其余各层节点数通过比例设定,实验结果如图8所示。对于聚簇C0的预测模型来说,当节点数由4增加至24时,各误差指标均有明显减少,当节点数由28增加至36时,误差指标有减少的趋势,但是仅在较小范围内波动,当继续增加节点数量,误差指标均有上升趋势,故第一层采用24个节点。同理可知,C1、C2、C3、C4的预测模型第一层分别为16、20、20、20。
2、结果分析
簇C0、C1、C4有新增产品加入,故为分析新增产品单品能耗的预测精度,对比试验采用该三个聚簇所对应的预测模型。将簇C0、C1、C4所含历史产品能耗样本均按照3:1的比例随机划分为训练样本和测试样本。在训练过程中,训练集等量划分为四组,一组用于构建预测模型,剩余的三组添加到已有模型进行增量学***均值,对比结果如下表6所示。
表6模型预测精度比较
Figure GDA0002950232510000231
由上表可知,本发明所提出的基于增量聚类的LSTM轮毂单品能耗预测模型在预测精度和训练时间基本优于其他算法。从预测精度来看,该方法在训练阶段、测试阶段以及新增产品能耗预测值的RMSE均最小,训练集的RMSE最小低至0.016524,模型训练阶段的RMSE相比LSTM、BP、DE-LSTM平均降低了0.012545、0.015129、0.007131,相比SVR平均降低了0.019806,可见基于增量聚类的LSTM轮毂单品能耗预测模型由于采用了ADE对模型初始参数进行优化,更重要的是采用了增量学习策略,考虑了能耗特征的时序性特点,因此使模型的预测精度有了显著提高。从运行时间来看,该方法的运行时间多于SVR,这是由于该方法需要构建多层的LSTM神经网络,而相对于其他算法的训练时间和运行时间均较少,这是由于其他算法无法进行增量学习,每次添加训练集时需要重新训练因此增加了运行时间。
接下来针对每一次添加训练数据的训练情况进行分析,如图9-11表示各个聚簇所包含的历史能耗样本分四次依次加入到模型时,每一次加入时的训练精度变化图,同样与LSTM、BP、SVR、无增量学习的DE-LSTM算法进行对比,由图9-11可见该算法在第一次训练时RMSE的值无明显差异,随着增量数据的加入相对于其他无增量学习的算法RMSE的值降低明显。
四、结论
为解决传统机器学***均降低了0.013653,实现了对单品能耗的可靠预测。主要优势如下:
(1)针对复杂多变的轮毂特征参数繁多造成产品分类困难的问题,提出基于PCA的动态增量密度聚类,该方法通过PCA提取参数的主要特征分量,并保留产品的独特性,进而利用聚类算法获得与新产品相似的历史单品类别;
(2)针对轮毂生产过程中能耗影响因素重要性分析的问题,综合订单数据、生产数据、关键耗件参数构建能耗影响因素体系,通过Pearson系数和Adaptive-Lasso算法提取单品能耗的强解释性因素,减少了预测输入数据的维度,并使用BP神经网络预测出新产品的强解释性因素值;
(2)针对传统机器学习模型无法预测新品能耗和无法增量学习的问题,提出基于ADE的LSTM增量更新轮毂单耗预测模型,该模型利用ADE算法对模型参数进行优化,并将新样本的预测值和实际值之间的误差与历史模型的整体误差加和,依据误差最小化方法迭代更新模型参数,以保证模型的增量学习能力,使该模型能够适用于生产中数据不断增多的实际情况,节省了空间占用和时间成本。

Claims (5)

1.一种基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于,包括下述步骤:
(1)收集不同型号轮毂的特征参数样本,包括12个特征参数:轮圈直径、轮圈宽度、中心孔距、螺栓孔数、节圆直径、偏距、重量、轮辐数目、轮辐正面造型、中心盘面造型、轮毂材质、制造工艺;
(2)收集不同型号轮毂的订单数据、生产数据、关键耗件参数、单位产品能耗数据组成的能耗样本;其中订单数据、生产数据、关键耗件参数构成能耗影响因素体系,订单数据包括单品型号、单品订单量、品类总数,生产数据包括生产时间、原材料投入量、设备运行时间、生产效率、废品率,其中生产效率由机加效率和光整效率两方面来考虑,机加效率单位:件/小时;光整效率单位:分钟/件;关键耗件参数包括钻头使用量、刀具使用量;
(3)将步骤(1)中轮毂特征参数样本的字符型参数进行标签化处理后,采用主成分分析将特征参数样本降至二维得到数据集P;
(4)接着使用动态增量密度聚类算法对P进行聚类操作,得到原始聚簇结果Ci∈P,i=0,1,...,k,和离群集O∈P;
(5)当有新增特征参数样本时,采用增量聚类方法进行处理,对新增特征参数样本利用步骤(3)预处理后得增量数据集ΔP,搜索O∪ΔP中与原聚簇密度可达的数据对象,更新聚类结果,输出聚簇C′i=Ci∪ΔCi、其中Ci中i=0,1,...,k,C′i中i=0,1,...,k′,ΔCi中i=k+1,...,k′,k′≥k,离群集O′和新增产品所属类别;
(6)根据步骤(2)中能耗影响因素体系分析单品能耗的强解释性因素,利用Pearson系数剔除能耗影响因素体系中的弱相关以及不相关因素,接着利用Adaptive-Lasso算法进行变量选择得到轮毂单品能耗的强解释性变量;
(7)对经过步骤(3)标签化处理后的轮毂特征参数、步骤(6)获得的强解释性变量以及步骤(2)中单位产品能耗数据进行标准化处理;
(8)以经过步骤(7)标准化处理后的轮毂特征参数为输入,以经过步骤(7)标准化处理后的强解释性变量为输出,构建新轮毂强解释性变量的BP预测模型,得以预测新轮毂的强解释性变量值;
(9)根据步骤(4)的聚类结果构建各聚簇单品能耗预测模型,将各聚簇能耗样本均以3:1的比例随机划分成训练集和测试集,训练集均分为四组,其中一组进行步骤(10),剩余组依次作为一个样本增量集;
(10)构建各聚簇LSTM单品能耗预测模型,将训练集经过步骤(7)标准化处理后的强解释性变量为输入,经过步骤(7)标准化后的单品能耗为输出,在模型构建中利用ADE算法实现对LSTM参数的优化;
(11)在各聚簇LSTM单品能耗预测模型中,利用步骤(9)中样本增量集对模型进行增量更新;
(12)根据步骤(9)中各聚簇的测试集测试经过步骤(11)更新后的各聚簇的预测模型,并进行模型评估,同时对于待预测产品的特征参数样本经过步骤(3)—(5)处理,以及经过步骤(6)—(8)的BP预测模型得出新轮毂的强解释性变量,随后利用步骤(11)更新后的各聚簇LSTM单品能耗预测模型进行预测,输出新增产品能耗的预测值。
2.根据权利要求1所述基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于,所述步骤(4)中对降维后的特征参数样本集合P进行聚类过程,包括如下步骤:
1)对于降维后的原始数据集P,确定coefR的值,计算密度调整参数σ和密度可达距离R,并计算P中各个数据对象的密度值Density(Pi),得出P中密度值Density(Pi)最大的数据对象局部密度吸引子Attractor:
Figure FDA0002979836660000031
Figure FDA0002979836660000032
Figure FDA0002979836660000033
式中,
Figure FDA0002979836660000034
表示点Pi到点Pj的欧式距离,
Figure FDA0002979836660000036
为样本中各点之间距离的平均值,coefR,0<coefR<1为密度可达距离的原始调整系数,n为样本总数;
2)扫描原始数据集P中数据对象,将密度吸引子Attractor0和其密度可达的数据对象分配到第一个簇C0,并从原始数据集中删除该聚簇对象;
3)对于剩余数据集,查找另一个密度吸引子Attractori,计算自适应密度可达距离Radap,i,将该密度吸引子和其密度可达的数据对象分配到另一个聚簇Ci,并从原始数据集中删除该聚簇对象,依次类推,最后将具有较少数据对象的簇放入异常值或噪声组中,此时得到原始聚簇结果Ci∈P,离群集O∈P:
Radap,i=αR
式中α为调整系数,公式如下:
Figure FDA0002979836660000035
3.根据权利要求1所述基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于,所述步骤(5)中增量聚类方法为:
1)对于预处理后的增量数据集ΔP,将ΔP与原离群集O合并,搜索O∪ΔP中与原各聚簇Ci密度可达的数据对象,更新聚类结果Ci∈(P∪ΔP),此时剩余数据集为
Figure FDA0002979836660000041
2)对剩余数据集
Figure FDA0002979836660000042
的数据对象进行聚类分析,得到可能存在于
Figure FDA0002979836660000043
中的簇ΔCi,更新聚簇结果为C′i=Ci∪ΔCi,和离群集O′;
3)若
Figure FDA0002979836660000044
则检测O′中是否含有增量数据集ΔP中的数据对象,若含有新产品参数样本,则比较该数据对象到各聚簇中各点的距离,为了能够实现该新产品的能耗预测,将其先标记到距离其最近点所在簇;
4)对于其他增量数据集预处理后,删除现有离群集O′中的聚簇标记,重复执行步骤1)到3);
5)输出聚类结果C′i和离群集合O′,以及新产品所属类别。
4.根据权利要求1所述基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于,所述步骤(10)中单品能耗预测模型构建方法为:
1)ADE个体的维度等于LSTM神经网络的权重和阈值个数的总和,初始化进化次数G=0,种群规模N,交叉概率f,变异概率cr,并采用均方根误差RMSE作为适应度函数:
Figure FDA0002979836660000045
Figure FDA0002979836660000046
Figure FDA0002979836660000051
式中GenM为最大迭代次数,G为当前迭代次数,α、β是[0.5,1]范围内的常数,yt为真实值,k为数据对象的个数;
2)计算种群中各个体的适应度值即RMSE;
3)如果当前种群中最小RMSE满足要求或者当前迭代次数G=GenM,则ADE终止迭代,获得最佳个体并执行步骤5),否则继续执行步骤4);
4)根据自适应交叉、自适应变异和选择操作得到新群体,设置G=G+1,返回执行步骤3);
5)基于ADE优化获得最优个体作为LSTM的初始连接权重和阈值;并用训练样本对LSTM实施训练,进而获得最佳网络。
5.根据权利要求1所述基于增量聚类的LSTM轮毂单品能耗预测方法,其特征在于,所述步骤(11)中新增样本对LSTM预测模型的更新方法为:
1)对于各新增能耗样本,先判断属于哪个簇ci,第i个簇对应第i个LSTM模型;确定所属模型后,在该模型历史数据训练的基础上更新模型参数,即将历史数据训练后的参数来初始化网络,将新样本的强解释性变量输入到预测模型中,通过LSTM的前向计算得到新样本的预测值
Figure FDA0002979836660000052
将预测值
Figure FDA0002979836660000053
和实际值y的误差加到原来的误差函数J(θ)上;
Figure FDA0002979836660000054
式中,参数θ=(Wf,Wi,Wc,Wo,bf,bi,bc,bo)
2)根据更新的误差函数J(θ)反向传播更新模型参数值:
θ′=(Wf-λ*Δwf,...,Wo-λ*Δwo,bf-λ*Δbf,...,bo-λ*Δbo)
式中,λ是学习率,Δwf、Δwo和Δbf、Δbo分别是神经元的权重和偏移量的梯度矩阵和向量。
CN201910364392.2A 2019-04-30 2019-04-30 基于增量聚类的lstm轮毂单品能耗预测 Active CN110070145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910364392.2A CN110070145B (zh) 2019-04-30 2019-04-30 基于增量聚类的lstm轮毂单品能耗预测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910364392.2A CN110070145B (zh) 2019-04-30 2019-04-30 基于增量聚类的lstm轮毂单品能耗预测

Publications (2)

Publication Number Publication Date
CN110070145A CN110070145A (zh) 2019-07-30
CN110070145B true CN110070145B (zh) 2021-04-27

Family

ID=67369897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910364392.2A Active CN110070145B (zh) 2019-04-30 2019-04-30 基于增量聚类的lstm轮毂单品能耗预测

Country Status (1)

Country Link
CN (1) CN110070145B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633844B (zh) * 2019-08-25 2023-02-24 天津大学 基于emd和ann的建筑能源***模拟预测方法及应用
CN110717628B (zh) * 2019-10-09 2023-05-23 浪潮软件股份有限公司 一种货源优配模型构建方法、优配模型以及优配方法
CN110909818B (zh) * 2019-11-30 2022-08-09 航天科技控股集团股份有限公司 一种基于tbox的整车运行数据的降维***
CN111488924B (zh) * 2020-04-07 2024-04-26 中国农业科学院农业信息研究所 一种多变量时间序列数据聚类方法
CN111832839B (zh) * 2020-07-24 2021-04-30 河北工业大学 基于充分增量学习的能耗预测方法
CN111881263A (zh) * 2020-08-12 2020-11-03 福州大学 面向智能家居场景的服务推荐在线优化方法
CN112116140B (zh) * 2020-09-10 2022-09-20 同济大学 一种基于孪生模型的建筑能耗预测方法
CN112418482B (zh) * 2020-10-26 2022-08-26 南京邮电大学 一种基于时间序列聚类的云计算能耗预测方法
CN113155614B (zh) * 2021-04-25 2023-07-28 张启志 基于相似性判定的混凝土抗压强度检测方法及***
CN113780675B (zh) * 2021-09-23 2024-01-09 北方健康医疗大数据科技有限公司 一种消耗预测方法、装置、存储介质及电子设备
CN113935557A (zh) * 2021-12-21 2022-01-14 中船重工(武汉)凌久高科有限公司 一种基于深度学习的相同模式能耗大数据预测方法
CN114202065B (zh) * 2022-02-17 2022-06-24 之江实验室 一种基于增量式演化lstm的流数据预测方法及装置
CN114417734B (zh) * 2022-03-09 2022-07-12 深圳市信润富联数字科技有限公司 刀具寿命的预测方法及装置
CN115167279B (zh) * 2022-09-07 2022-11-29 中科航迈数控软件(深圳)有限公司 针对数控机床的能耗预测方法、***及相关设备
CN116028838B (zh) * 2023-01-09 2023-09-19 广东电网有限责任公司 一种基于聚类算法的能源数据处理方法、装置及终端设备
CN116823407B (zh) * 2023-08-29 2024-01-12 北京国电通网络技术有限公司 产品信息推送方法、装置、电子设备和计算机可读介质
CN117113127B (zh) * 2023-09-04 2024-03-29 大庆石油管理局有限公司 基于k均值聚类的抽油机井能耗分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN108694475A (zh) * 2018-06-26 2018-10-23 南京航空航天大学 基于混合模型的短时间尺度光伏电池发电量预测方法
CN109396576A (zh) * 2018-09-29 2019-03-01 郑州轻工业学院 基于深度学习的电火花加工稳定性与能耗状态优化决策***及决策方法
CN109523386A (zh) * 2018-10-18 2019-03-26 广东工业大学 一种gmm与lstm结合的投资组合风险预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10248332B2 (en) * 2016-10-07 2019-04-02 Prophetstor Data Services, Inc. Method for extending life expectancy of disks in cloud-based service system and system using the same
CN108960491A (zh) * 2018-06-15 2018-12-07 常州瑞信电子科技有限公司 基于rbf神经网络的光伏发电量预测方法
CN109063416B (zh) * 2018-07-23 2019-08-27 太原理工大学 基于lstm循环神经网络的基因表达预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967542A (zh) * 2017-12-21 2018-04-27 国网浙江省电力公司丽水供电公司 一种基于长短期记忆网络的售电量预测方法
CN108694475A (zh) * 2018-06-26 2018-10-23 南京航空航天大学 基于混合模型的短时间尺度光伏电池发电量预测方法
CN109396576A (zh) * 2018-09-29 2019-03-01 郑州轻工业学院 基于深度学习的电火花加工稳定性与能耗状态优化决策***及决策方法
CN109523386A (zh) * 2018-10-18 2019-03-26 广东工业大学 一种gmm与lstm结合的投资组合风险预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Energy Load Forecasting using Deep Learning Approach-LSTM and GRU in Spark Cluster;Sumit Kumar等;《2018 Fifth International Conference on Emerging Applications of Information Technology (EAIT)》;20180924;第1-4页 *
Short- Term Prediction of Wind Power Based on Adaptive LSTM;Gang Xu等;《2018 2nd IEEE Conference on Energy Internet and Energy System Integration (EI2)》;20181220;第1-5页 *
一种基于LSTM神经网络的短期用电负荷预测方法;陈佳等;《电力信息与通信技术》;20170930;第19-25页 *
基于 GAN 技术的自能源混合建模与参数辨识方法;孙秋野等;《自动化学报》;20180531;第901-914页 *
改进PSO-BP网络预测模型在造纸能耗预测中的应用;陈周林等;《轻工科技》;20190108;第91-94页 *

Also Published As

Publication number Publication date
CN110070145A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070145B (zh) 基于增量聚类的lstm轮毂单品能耗预测
CN109902953B (zh) 一种基于自适应粒子群聚类的电力用户分类方法
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN109583635B (zh) 一种面向运行可靠性的短期负荷预测建模方法
CN112364560B (zh) 矿山凿岩装备作业工时智能预测方法
CN110571792A (zh) 一种电网调控***运行状态的分析评估方法及***
CN109492748B (zh) 一种基于卷积神经网络的电力***的中长期负荷预测模型建立方法
CN111915092A (zh) 基于长短时记忆神经网络的超短期风电功率预测方法
CN106778838A (zh) 一种预测空气质量的方法
CN112330052A (zh) 一种配变负荷预测方法
CN111832839B (zh) 基于充分增量学习的能耗预测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN112288157A (zh) 一种基于模糊聚类与深度强化学习的风电场功率预测方法
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
Berneti Design of fuzzy subtractive clustering model using particle swarm optimization for the permeability prediction of the reservoir
CN109214610A (zh) 一种基于长短期记忆神经网络的饱和电力负荷预测方法
CN117076691A (zh) 一种面向智慧社区的商品资源知识图谱算法模型
Yang Combination forecast of economic chaos based on improved genetic algorithm
CN110059871B (zh) 光伏发电功率预测方法
CN117096860A (zh) 基于lssvm模型的架空输电线路载流量区间预测方法及设备
CN116303386A (zh) 一种基于关系图谱的缺失数据智能插补方法和***
CN113537553A (zh) 一种区域配电网负荷需求混合预测方法
CN111353523A (zh) 一种对铁路客户进行分类的方法
Du et al. Short-term power load forecasting based on spark platform and improved parallel ridge regression algorithm
Adesiyan Performance prediction of production lines using machine learning algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 300457 room 803, Ronghui building, No. 58, Dongting Road, economic and Technological Development Zone, Binhai New Area, Tianjin

Patentee after: Tianjin Development Zone Jingnuo Hanhai Data Technology Co.,Ltd.

Address before: 300401 door 9, building 1, Science Park, Hebei University of technology, Shuangkou Town, Beichen District, Tianjin

Patentee before: Tianjin Development Zone Jingnuo Hanhai Data Technology Co.,Ltd.

CP02 Change in the address of a patent holder