CN112381591A - 基于lstm深度学习模型的销售预测优化方法 - Google Patents

基于lstm深度学习模型的销售预测优化方法 Download PDF

Info

Publication number
CN112381591A
CN112381591A CN202011407174.1A CN202011407174A CN112381591A CN 112381591 A CN112381591 A CN 112381591A CN 202011407174 A CN202011407174 A CN 202011407174A CN 112381591 A CN112381591 A CN 112381591A
Authority
CN
China
Prior art keywords
gate
output
lstm
input
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011407174.1A
Other languages
English (en)
Inventor
唐军
孙永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011407174.1A priority Critical patent/CN112381591A/zh
Publication of CN112381591A publication Critical patent/CN112381591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于LSTM深度学习模型的销售预测优化方法,包括:步骤S1:采集销售预测数据;步骤S2:数据预处理,包括对异常数据进行离散点数据分析、补充缺失值数据和字段类型转换;步骤S3:将销售预测数据分解为一组性能较好的近似序列和若干组细节序列,分别对近似序列和细节序列进行预测;步骤S4:利用GRU框架实现自定义前向框架方法,采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题。本发明运用GRU实现自定义前向框架方法,并采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题,解决LSTM深度学习模型计算耗时导致销售预测***耗时较长的问题。

Description

基于LSTM深度学习模型的销售预测优化方法
技术领域
本发明涉及大数据技术领域,具体的说,是基于LSTM深度学习模型的销售预测优化方法。
背景技术
现有技术中销售预测***运用模型进行数据预测,从而为业务提供技术支持。模型分为机器学习、深度学习和时间序列等,一般模型构建流程为:获取数据、数据预处理、特征工程、训练模型、诊断、调优、模型验证、误差分析、模型融合和部署上线等。其中LSTM深度学习模型是最常用也是最重要的预测模型。
LSTM的特点就是在RNN结构以外添加了各层的阀门节点,阀门有3类:遗忘阀门(forget gate),输入阀门(input gate)和输出阀门(output gate)。这些阀门可以打开或关闭,用于将判断模型网络的记忆态(之前网络的状态)在该层输出的结果是否达到阈值从而加入到当前该层的计算中。阀门节点利用sigmoid函数将网络的记忆态作为输入计算;如果输出结果达到阈值则将该阀门输出与当前层的计算结果相乘作为下一层的输入;如果没有达到阈值则将该输出结果遗忘掉。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新。LSTM可以拟合序列数据,通过遗忘门和输出门忘记部分信息来解决梯度消失的问题,但是存在以下缺点:1、梯度问题,可以处理100个量级的序列,但是对于1000或者更长的序列处理起来很棘手;2、计算费时,每一个LSTM的cell里面都意味着有4个全连接层(MLP),如果LSTM的时间跨度很大,并且网络又很深,这个计算量会很大,很耗时3、过拟合,LSTM参数量过多就会存在过拟合风险,因此导致销售预测***耗时较长。
发明内容
本发明的目的在于提供一种基于LSTM深度学习模型的销售预测优化方法,运用GRU实现自定义前向框架方法,并在此基础上采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题,解决由于LSTM深度学习模型计算耗时导致销售预测***耗时较长的问题。
基于LSTM深度学习模型的销售预测优化方法,包括:
步骤S1:采集销售预测数据;
步骤S2:数据预处理,包括对异常数据进行离散点数据分析、补充缺失值数据和字段类型转换;
步骤S3:将销售预测数据分解为一组性能较好的近似序列和若干组细节序列,分别对近似序列和细节序列进行预测;
步骤S4:利用GRU框架实现自定义前向框架方法,采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题。
所述步骤S4具体包括:
LSTM前向计算:
LSTM网络的每个LSTM单元的计算公式如下:
ft=σ(Wf*[ht-1,xt]+bf)
it=σ(Wi*[ht-1,xt]+bi)
Figure BDA0002818949290000021
Figure BDA0002818949290000022
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ft表示遗忘门,it表示输入门,
Figure BDA0002818949290000023
表示当前输入的单元状态,Ct表示当前时刻的单元状态;表示ot表示输出门限,ht表示当前单元的输出,ht-1表示前一时刻单元的输出;σ是sigmoid函数;xt表示当前时刻网络的输入;Wf表示遗忘门的权重矩阵;Wi表示输入门的权重矩阵;WC表示输出门的权重矩阵;Wo表示计算单元状态的权重矩阵;bf表示遗忘门的偏置项;bi表示输入门的偏置项;bC表示输出门的偏置项;bo表示计算单元状态的偏置项;
LSTM网络的遗忘门决定了上一时刻的单元状态有多少保留到当前时刻;[ht-1,xt]表示把两个向量连接成一个更长的向量,其输入的维度是dh,单元状态的维度是dc,dc=dh,遗忘门的权重矩阵Wf维度是dc×(dh+dX);
权重矩阵Wf由矩阵Wfh和矩阵Wfx拼接而成,矩阵Wfh对应输入项ht-1,维度为dc×dh;矩阵Wfh对应输入项xt,维度为dc×dX;权重矩阵Wf表示为:
Figure BDA0002818949290000031
输入门决定了当前时刻网络的输入项xt有多少保存到单元状态Ct,输入门it
it=σ(Wi*[ht-1,xt]+bi)
当前输入的单元状态
Figure BDA0002818949290000032
Figure BDA0002818949290000033
计算当前时刻的单元状态Ct,它是由上一次的单元状态Ct-1按元素乘以遗忘门ft,再用当前输入的单元状态
Figure BDA0002818949290000034
按元素乘以输入门it再将两者相加得到:
Figure BDA0002818949290000035
由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆。
输出门控制当前时刻的单元状态Ct有多少输出到LSTM的当前单元输出ht
建立一个sigmoid层的输出门,将单元状态通过tanh之后与输出门相乘,输出预设输出的部分:
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)
通过增加输入门限,遗忘门限和输出门限,使得自循环的权重是变化的,这样一来在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。
在LSTM深度学习模型的输入门、遗忘门和输出门的基础上,GRU框架将忘记门和输入门合成一个单一的更新门,进行前向学习;由于GRU不能完全解决梯度消失问题,因此,以下从GRU层面进行优化。
采用自适应调节学习率的随机梯度下降adam算法解决梯度消失,具体包括:
计算和校正每轮梯度的一阶矩、二阶矩实时地调节调整超参数-学习率,其中:
衰减方式为:
mt=β1mt-1+(1-β1)gt
Figure BDA0002818949290000044
其中,mt为一阶动量,gt为梯度,ut为二阶动量,β1为经验值,β2为经验值;β1∈[0,1],β2∈[0,1];
偏差修正公式:
Figure BDA0002818949290000041
Figure BDA0002818949290000042
其中,
Figure BDA0002818949290000043
为一阶动量偏差修正,ut为二阶动量偏差修正,θt为某时刻的梯度分量,ε为常数,避免分母为0,θt+1为adam算法的更新公式;
自适应调节学***稳目标的时间序列数集,它融入了矩估计的思想,并通过计算和校正每轮梯度的一阶矩,二阶矩来实时地调整超参数-学习率,学习率控制着基于损失函数梯度来调整神经网络的权值参数的速度,是机器学习和深度学习中一个极其重要的超参数.当学习率设置的过小,将会减慢模型的收敛速度;而当学习率设置的过大时,导致梯度可能会在最小值的附近波动,最后无法收敛。
自适应调节学习率的随机梯度下降adam算法存在不收敛且错过全局最优解的问题,因此,在此基础上,融入遗传算法处理约束,跳出局部最优,最终得到全局最优解。
本发明与现有技术相比,具有以下优点及有益效果:
本发明运用GRU实现自定义前向框架方法,并在此基础上采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题,解决LSTM深度学习模型计算耗时导致销售预测***耗时较长的问题。
附图说明
图1为本发明的LSTM深度学习框架示例图;
图2为GRU深度学习计算框架示意图;
图3为LSTM深度学习框架图;
图4为GRU深度学习框架图;
图5为不同梯度下降算法比对图;
图6为遗传算法示意图;
图7为不同深度学习模型不同场景延时对比图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
一种基于LSTM深度学习模型的销售预测优化方法包括:
Step1:LSTM深度学习模型如图3所示
LSTM通过增加输入门限,遗忘门限和输出门限,使得自循环的权重是变化的,这样在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。
根据LSTM网络的结构,每个LSTM单元的计算公式如下所示:
ft=σ(Wf*[ht-1,xt]+bf)
it=σ(Wi*[ht-1,xt]+bi)
Figure BDA0002818949290000061
Figure BDA0002818949290000062
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ft表示遗忘门,it表示输入门,
Figure BDA0002818949290000063
表示当前输入的单元状态,Ct表示当前时刻的单元状态(这里就是循环发生的地方);ot表示输出门限,ht表示当前单元的输出,ht-1表示前一时刻单元的输出;σ是sigmoid函数;xt表示当前时刻网络的输入;Wf表示遗忘门的权重矩阵;Wi表示输入门的权重矩阵;WC表示输出门的权重矩阵;Wo表示计算单元状态的权重矩阵;bf表示遗忘门的偏置项;bi表示输入门的偏置项;bC表示输出门的偏置项;bo表示计算单元状态的偏置项;
Step2:遗忘门
它决定了上一时刻的单元状态Ct-1有多少保留到当前时刻Ct
ft=σ(Wf*[ht-1,xt]+bf)
上式中,Wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项,σ是sigmod函数,如果输入的维度是dh,单元状态的维度是dc,(通常dc=dh),则遗忘门的权重矩阵Wf维度是dc×(dh+dX)。事实上,权重矩阵Wf都是两个矩阵拼接而成的:一个是Wfh,它对应着输入项ht-1,其维度为dc×dh;一个是Wfh,它对应着输入项xt,其维度为dc×dX。Wf写为:
Figure BDA0002818949290000064
Step3:输入门
它决定了当前时刻网络的输入xt有多少保存到单元状态Ct
it=σ(Wi*[ht-1,xt]+bi)
接下来,计算用于描述当前输入的单元状态
Figure BDA0002818949290000065
它是根据上一次的输入和本次输入来计算的:
Figure BDA0002818949290000071
现在,计算当前时刻的单元状态Ct,它是由上一次的单元状态Ct-1按元素乘以遗忘门ft,再用当前输入的单元状态
Figure BDA0002818949290000072
按元素乘以输入门it,再将两个加和产生的:
Figure BDA0002818949290000073
这样,由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆。
Step4:输出门
控制单元状态Ct有多少输出到LSTM的当前输出值ht
最后,我们需要决定最终的输出。输出将会基于目前的元胞状态,并且会加入一些过滤。首先我们建立一个sigmoid层的输出门,来决定我们将输出元胞的哪些部分。然后我们将元胞状态通过tanh之后(使得输出值在-1到1之间),与输出门相乘,这样我们只会输出我们想输出的部分。
LSTM最终的输出,是由输出门和单元状态共同确定的:
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)。
以上公式为LSTM前向计算的全部公式。
Step5:LSTM深度学习框架解析
这里主要分析目前最主流的框架tensorflow中关于lstm op的实现,结合附图1所示,直观感受时间在15.94ms,MatMul,BiasAdd,Sigmoid等基础的运算,这些也正是LSTM这个计算单元会用到的基础操作。图1中只能看到tensorflow op层面的分析,深入到GPU内部和timeline的分析基本一致,basic lstm就是由很多分立的op实现的,在GPU这边表现为,由众多的kernel函数实现。放大来看看这些kernel之间的执行
从图1看到,kernel函数之间的间隙非常的大(kernel函数之间,间隙越小,计算密度越大),没能充分的利用GPU的计算资源。
为了完成input中64次的迭代,这个基础lstmop,采用了循环的方式实现,看似很合理,其实很不利于充分的利用GPU的并行性来进行计算
Step7:GRU框架解析,如图4所示
GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的LSTM模型要简单,也是非常流行的变体。如图2所示,其核心计算时间只有10多us,这说明如果我们直接从GRU层面进行优化,还有一定的提升空间。
Step8:adam与遗传算法组合算法
从Step7步骤我们可以看到GRU未达到最大优化,通过分析具体的原因,我们得知GRU仍然不能完全解决梯度消失问题。因此如何解决梯度的问题成为优化重点。
如图5所示,梯度下降有着三种不同的形式:批量梯度下降,随机梯度下降,小批量梯度下降。其中随机梯度下降与批量下降不同,它是每次通过使用一个样本迭代来对参数进行更新,进而加快训练速率。
学习率控制着基于损失函数梯度来调整神经网络的权值参数的速度,是机器学习和深度学习中一个极其重要的超参数.当学习率设置的过小,将会减慢模型的收敛速度;而当学习率设置的过大时,导致梯度可能会在最小值的附近波动,最后无法收敛,如参数更新公式所示:
Figure BDA0002818949290000081
自适应调节学***稳目标的时间序列数集,它融入了矩估计的思想,并通过计算和校正每轮梯度的一阶矩,二阶矩来实时地调整超参数-学习率,其衰减方式类似动量,如下:
mt=β1mt-1+(1-β1)gt
Figure BDA0002818949290000093
式中这些参数取值通常为:
β1=0.9,β2=0.999,β1∈[0,1],β2∈[0,1]
偏差修正公式为:
Figure BDA0002818949290000091
则adam算法的更新公式如下:
Figure BDA0002818949290000092
但是在实验过程中,我们发现adam存在不收敛且错过全局最优解的问题,因此,在此基数上,融入遗传算法解决以上问题。遗传算法优点是能很好的处理约束,能很好的跳出局部最优,最终得到全局最优解。
遗传算法(Genetic Algorithm,GA)如图6所示,是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向。
遗传算法以一种群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。
经过实验我们发现adam与遗传算法结合能够很好的弥补GRU的缺陷,能够使其在性能更进一步,其核心计算时间只有1us。如下表1所示:
对照项 LSTM GRU优化 GRU+adam优化 GRU+adam+遗传算法优化
tanh 36 57 88 100
Pm 1 1 0 0
Pa 1 1 0 0
Vc 1 0 1 0
train 1.39s 15.12ms 0.82ms 0.14ms
test 1.43s 15.57ms 0.98ms 0.12ms
sigmoid 100 87 54 3
延时 1.34s 159.4ms 7.2ms 0.14ms
加速比 X1 X0.84 X18.61 X957.1
表一不同深度学习框架优化延时结果比较
通过对比可以发现,GRU+adam+遗传算法优化延时低,加速比大,所以采用一种运用GRU实现自定义前向框架方法,并在此基础上采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题,解决LSTM深度学习模型计算耗时问题。
以下为实验过程:
Step1:选取数据
根据销售预测项目,选取冰洗2019年月度计划数据,单位:分别运用LSTM深度学习模型,CUDNN深度学习模型,GRU深度学习模型,自定义前向框架深度模型分别预测数据,对比模型延时时间。
数据如下:为了数据安全已对数据做相应处理。
Figure BDA0002818949290000101
表二:冰洗2019年月度计划数据
Step2:LSTM深度学习模型
Figure BDA0002818949290000102
Figure BDA0002818949290000111
表三:冰洗2019年月度计划数据LSTM深度学习模型数据
根据实际情况来看,运行LSTM深度学***均延时1354.4ms,这个在深度学习模型中算是较大的延时,会影响模型运行时间,当数据量很大的时候,计算会相应增加,计算时间也会随之增加。
Step3:GRU深度学习模型
Figure BDA0002818949290000112
表四:冰洗2019年月度计划数据CUDNN深度学习模型数据
根据实际情况来看,运行LSTM深度学***均延时160.8.4ms,,加速比8.4,这个相对于LSTM深度学习模型已经有了很大的提高。
Step4:GRU+adam深度学习模型
Figure BDA0002818949290000113
表五:冰洗2019年月度计划数据GRU深度学习模型数据
根据实际情况来看,运行LSTM深度学***均延时9.4ms,加速比144.1,这个相对于LSTM深度学习模型已经有了非常大的提高。
Step5:GRU+adam+遗传算法深度学习模型
Figure BDA0002818949290000121
表六:冰洗2019年月度计划数据自定义前向框架深度学习模型数据
根据实际情况来看,运行LSTM深度学***均延时0.8ms,加速比1693,至此,经过GRU,GRU+adam,GRU+adam+遗传算法,已经最大程度提高了LSTM延时问题。
不同深度学习模型不同场景延时对比如图7所示,可知,LSTM延时问题是可以优化的,经过GRU,GRU+adam,GRU+adam+遗传算法,已经最大程度提高了LSTM延时问题。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (2)

1.基于LSTM深度学习模型的销售预测优化方法,其特征在于,包括:
步骤S1:采集销售预测数据;
步骤S2:数据预处理,包括对异常数据进行离散点数据分析、补充缺失值数据和字段类型转换;
步骤S3:将销售预测数据分解为一组性能较好的近似序列和若干组细节序列,分别对近似序列和细节序列进行预测;
步骤S4:利用GRU框架实现自定义前向框架方法,采用自适应调节学习率的随机梯度下降算法adam与遗传算法组合算法解决最优解问题。
2.根据权利要求1所述的基于LSTM深度学习模型的销售预测优化方法,其特征在于,所述步骤S4具体包括:
LSTM前向计算:
LSTM网络的每个LSTM单元的计算公式如下:
ft=σ(Wf*[ht-1,xt]+bf)
it=σ(Wi*[ht-1,xt]+bi)
Figure FDA0002818949280000011
Figure FDA0002818949280000012
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ft表示遗忘门,it表示输入门,
Figure FDA0002818949280000013
表示当前输入的单元状态,Ct表示当前时刻的单元状态;ot表示输出门限,ht表示当前单元的输出,ht-1表示前一时刻单元的输出;σ是sigmoid函数;xt表示当前时刻细胞的输入;Wf表示遗忘门的权重矩阵;Wi表示输入门的权重矩阵;WC表示输出门的权重矩阵;Wo表示计算单元状态的权重矩阵;bf表示遗忘门的偏置项;bi表示输入门的偏置项;bC表示输出门的偏置项;bo表示计算单元状态的偏置项;
LSTM网络的遗忘门决定了上一时刻的单元状态有多少保留到当前时刻;[ht-1,xt]表示把两个向量连接成一个更长的向量,其输入的维度是dh,单元状态的维度是dc,dc=dh,遗忘门的权重矩阵Wf维度是dc×(dh+dX);
权重矩阵Wf由矩阵Wfh和矩阵Wfx拼接而成,矩阵Wfh对应输入项ht-1,维度为dc×dh;矩阵Wfh对应输入项xt,维度为dc×dX;权重矩阵Wf表示为:
Figure FDA0002818949280000021
输入门决定了当前时刻网络的输入项xt有多少保存到单元状态Ct,输入门it
it=σ(Wi*[ht-1,xt]+bi)
当前输入的单元状态
Figure FDA0002818949280000022
Figure FDA0002818949280000023
计算当前时刻的单元状态Ct,它是由上一次的单元状态Ct-1按元素乘以遗忘门ft,再用当前输入的单元状态
Figure FDA0002818949280000024
按元素乘以输入门it再将两者相加得到:
Figure FDA0002818949280000025
输出门控制当前时刻的单元状态Ct有多少输出到LSTM的当前单元输出ht
建立一个sigmoid层的输出门,将单元状态通过tanh之后与输出门相乘,输出预设输出的部分:
ot=σ(Wo*[ht-1,xt]+bo)
ht=ot*tanh(Ct)
在LSTM深度学习模型的输入门、遗忘门和输出门的基础上,GRU框架将忘记门和输入门合成一个单一的更新门,进行前向学习;
采用自适应调节学习率的随机梯度下降adam算法解决梯度消失,具体包括:
计算和校正每轮梯度的一阶矩、二阶矩实时地调节调整超参数-学习率,其中:
衰减方式为:
mt=β1mt-1+(1-β1)gt
Figure FDA0002818949280000031
其中,mt为一阶动量,gt为梯度,ut为二阶动量,β1为经验值,β2为经验值;β1∈[0,1],β2∈[0,1];
偏差修正公式:
Figure FDA0002818949280000032
Figure FDA0002818949280000033
其中,
Figure FDA0002818949280000034
为一阶动量偏差修正,ut为二阶动量偏差修正,θt为某时刻的梯度分量,ε为常数,避免分母为0,θt+1为adam算法的更新公式;
再采用遗传算法处理约束,跳出局部最优,最终得到全局最优解。
CN202011407174.1A 2020-12-04 2020-12-04 基于lstm深度学习模型的销售预测优化方法 Pending CN112381591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011407174.1A CN112381591A (zh) 2020-12-04 2020-12-04 基于lstm深度学习模型的销售预测优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011407174.1A CN112381591A (zh) 2020-12-04 2020-12-04 基于lstm深度学习模型的销售预测优化方法

Publications (1)

Publication Number Publication Date
CN112381591A true CN112381591A (zh) 2021-02-19

Family

ID=74589463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011407174.1A Pending CN112381591A (zh) 2020-12-04 2020-12-04 基于lstm深度学习模型的销售预测优化方法

Country Status (1)

Country Link
CN (1) CN112381591A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990439A (zh) * 2021-03-30 2021-06-18 太原理工大学 一种增强矿井下时间序列数据互相关联性的方法
WO2023142424A1 (zh) * 2022-01-25 2023-08-03 国网江苏省电力有限公司南京供电分公司 基于gru-lstm神经网络的电力金融业务风控方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990439A (zh) * 2021-03-30 2021-06-18 太原理工大学 一种增强矿井下时间序列数据互相关联性的方法
WO2023142424A1 (zh) * 2022-01-25 2023-08-03 国网江苏省电力有限公司南京供电分公司 基于gru-lstm神经网络的电力金融业务风控方法及***

Similar Documents

Publication Publication Date Title
CN110809772B (zh) 用于改进机器学习模型的优化的***和方法
Dash et al. Efficient stock price prediction using a self evolving recurrent neuro-fuzzy inference system optimized through a modified differential harmony search technique
US10460236B2 (en) Neural network learning device
Nguyen et al. Efficient sequential Monte-Carlo samplers for Bayesian inference
US20220383126A1 (en) Low-Rank Adaptation of Neural Network Models
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
CN114373101A (zh) 基于进化策略的神经网络架构搜索的图像分类方法
CN112381591A (zh) 基于lstm深度学习模型的销售预测优化方法
Gu et al. Self-boosting first-order autonomous learning neuro-fuzzy systems
CN114358197A (zh) 分类模型的训练方法及装置、电子设备、存储介质
CN112884236A (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及***
CN108876038B (zh) 大数据、人工智能、超算协同的材料性能预测方法
Mashinchi et al. An improvement on genetic-based learning method for fuzzy artificial neural networks
Basterrech et al. Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction
US20200372363A1 (en) Method of Training Artificial Neural Network Using Sparse Connectivity Learning
CN113537539B (zh) 一种基于注意力机制的多时间步供热用气量预测模型
US20230401454A1 (en) Method using weighted aggregated ensemble model for energy demand management of buildings
Liu et al. A new ART-counterpropagation neural network for solving a forecasting problem
Andersen et al. Towards model-based reinforcement learning for industry-near environments
CN111524348A (zh) 一种长短期交通流预测模型及方法
CN116070763A (zh) 基于梯度进化的新建风电场风电功率预测方法及***
CN115081323A (zh) 求解多目标约束优化问题的方法及其存储介质
Xue et al. An improved extreme learning machine based on variable-length particle swarm optimization
KR102090109B1 (ko) 학습 및 추론 장치 및 그 방법
Iba et al. GP-RVM: Genetic programing-based symbolic regression using relevance vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219