CN113393057A

CN113393057A - 一种基于深度融合机器学习模型的小麦产量集成预测方法

Info

Publication number: CN113393057A
Application number: CN202110790877.5A
Authority: CN
Inventors: 郭艳; 唐炜; 胡肖楠; 唐德钊; 张芳; 潘绯
Original assignee: Sichuan Agricultural University
Current assignee: Sichuan Agricultural University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-09-14

Abstract

本发明公开了一种基于深度融合机器学***均相对误差S₁和预测值；S4.通过LSTM网络得到产量数据拟合值的平均相对误差S₂和预测值；S5.建立多因素灰色预测模型对原始数据序列进行拟合，得到产量数据拟合值的平均相对误差S₃和预测值；S6.对模型进行加权融合；S7.在需要预测时，通过融合后的模型预测小麦产量。本发明能够有效增强预测模型的抗干扰能力，有助于缩小误差，使得小麦产量预测更加准确、可靠。

Description

一种基于深度融合机器学习模型的小麦产量集成预测方法

技术领域

本发明属于农作物产量的预测技术领域，涉及一种基于深度融合机器学习模型的小麦产量集成预测方法，特别涉及一种基于主成分分析的LSTM网络、多因素灰色预测模型和 ARIMA模型的小麦产量集成预测方法。

背景技术

小麦是我国主要的粮食作物之一，也是提供人们日常营养的重要来源之一，小麦的产量关乎我国14亿人民的生存问题，为了提前了解小麦的产量以及时调节指导小麦的生产作业过程，对一定时期小麦产量的预测研究显得尤为重要。使用科学的方法预测小麦的产量，对指导小麦生产，科学及时调控小麦产业发展，确保小麦稳步增产，保持农业持续稳定发展，促进社会发展等具有十分重要的意义。

小麦的产量受到诸多因素的影响，其最终产量是由多个影响因素共同作用的，在这其中，有些影响因素对产量的影响比较大，有些则比较小，这就需要科学的挖掘这些影响因素对小麦生长的影响程度。随着科学技术的不断进步，近些年来机器学习方法被广泛应用到作物产量预测研究中，在实际运用中取得较好的效果，但大多采用了单一的预测模型，总体的预测精度并不高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度融合机器学习模型的小麦产量集成预测方法，能够有效减轻单个模型预测精度不足和算法鲁棒性较差的问题，增强预测模型的抗干扰能力，有助于缩小误差，使得小麦产量预测更加准确、可靠。

本发明的目的是通过以下技术方案来实现的：一种基于深度融合机器学习模型的小麦产量集成预测方法，包括以下步骤：

S1.给定与小麦产量相关的若干个初始影响因素，选择历史数据：

从历史数据库中随机选择n年的历史数据；从选择的历史数据中提取每一个初始影响因素在n年内的因素值，同时从选择的历史数据中提取n年的小麦产量数据，形成小麦历史年产量数据序列；

S2.对设定年限内小麦产量的初始影响因素值作标准化处理，计算相关系数矩阵和特征向量，利用主成分分析方法提取主成分指标，得到小麦产量的显著影响因素作为特征数据；

S3.采用ARIMA模型对小麦历史年产量数据序列进行处理，得到产量数据拟合值的平均相对误差S₁和预测值；

选择ARIMA模型，首先采用ADF单位根检验法，对小麦历史年产量数据序列进行平稳性检验，如果未通过ADF检验，则可以认为该数据序列是非稳定的，应采用对原数据序列做一阶差分的方法使原始序列转化为平稳序列，直到差分序列通过ADF平稳性检验，同时确定模型ARIMA(p,d,q)的差分阶数d；结合一阶差分序列自相关函数ACF以及偏相关函数PACF，确定模型ARIMA(p,d,q)中的参数p,q，对于p,q不同的取值，从低阶到高阶分别建立ARIMA模型，计算所有模型的AIC值，选择使得AIC值达到最小的模型，即为最优模型。

其中，ARIMA模型的形式为：

u_t＝a+φ₁u_t-1+…+φ_pu_t-p+ε_t+θ₁ε_t-1+…+θ_qε_t-q

式中：p为自回归模型的阶数，d为差分次数，q为移动平均阶数；u_t为差分后的平稳序列； a为常数，φ为自回归模型系数，θ为移动平均模型系数，ε_t为零均值白噪声序列。

AIC值计算公式为：

其中k是参数的个数，N为观察者数，SSR为残差平方和。

将历史的每年小麦产量数据作为模型的输入数据，使用得到的最优模型进行运算得到最近T年的产量预测值，记为数组P₁，并计算最近T年产量的预测值的平均相对误差S₁。

S4.对主成分指标对应的数据序列进行差分处理，通过LSTM网络模型得到产量数据拟合值的平均相对误差S₂和预测值；

所述步骤S4中，LSTM是由多个同构单元格组成，每个单元格由4个主要元素构成：输入门、遗忘门、输出门和单元状态，LSTM模型描述为：

f_t＝σ(W_f×[h_t-1,x_t]+b_f)

i_t＝σ(W_i×[h_t-1,x_t]+b_i)

o_t＝σ(W_o×[h_t-1,x_t]+b_o)

h_t＝o_t tanh(C_t)

式中：x为LSTM单元的输入向量；h为单元格输出向量；f·i、o分别表示遗忘门、输入门和输出门；C表示单元状态；下标t表示时刻；σ、tanh分别为sigmoid、tanh激活函数；W和b分别表示权重和偏差矩阵；

LSTM的关键是单元状态C，它在t时刻保持单元状态的记忆，通过遗忘门f_t和输入门i_t进行调节；遗忘门的作用是让细胞记住或忘记它之前的状态C_t-1，输入门的作用是允许或阻止传入信号更新单元状态；输出门的作用是控制单元状态C输出和传输到下一个单元格；

在训练时，LSTM网络每个时刻都有对应的监督值s_t，一般情况下可以构建一个损失函数让相关网络参数可以得到不断的优化，损失函数表达为：

其中，j(θ)为目标函数，θ为需要优化的参数，优化的目的是取得最佳的θ值让j(θ)值最小，一般的优化方式采用梯度下降法；

LSTM训练方法采用反向传播算法；

在模型实际构建中，首先对经过主成分分析后的的数据序列进行数据归一化处理，归一化处理公式为：

其中，r为该数据序列的其中一个数值，r_max为该序列中的最大值，r_min为该序列中的最小值；

然后，采用多对一的LSTM神经网络模型，LSTM层神经单元的激活函数为tanh函数，输出层的激活函数使用线性函数；

通过实验寻找并选择合适的LSTM网络输入层、输出层、隐含层单元数和网络训练方法，建立LSTM模型；

将历史每年和小麦产量相关的影响因素数据和产量数据作为模型的训练集，最近T年内和小麦产量相关的影响因素数据作为测试集，使用训练过的LSTM模型进行运算得到最近T 年的产量预测值，记为数组P₂，并计算近几年产量的预测值的平均相对误差S₂。

S5.建立多因素灰色预测模型对原始数据序列进行拟合，得到产量数据拟合值的平均相对误差S₃和预测值；

S6.对模型进行加权融合：

设置误差阈值，根据平均相对误差确定ARIMA模型、LSTM网络模型、多因素灰色预测模型预测值的权重；按照确定的权重对三个模型的预测值进行加权融合得到的集成预测值；判断集成预测值与实际值的误差是否大于误差阈值，若是误差大于预测阈值，返回步骤S1，从历史数据库中选择更多的历史数据，再执行步骤S1～步骤S6，重新训练基于深度融合机器学习模型的小麦产量集成预测模型，直至由步骤S6计算得到的预测误差不大于误差阈值，保存此时的ARIMA模型、LSTM网络模型、多因素灰色预测模型和模型的权重信息，作为深度融合机器学习模型下的小麦产量集成预测模型；

S7.在需要预测时，基于深度融合机器学习模型下的小麦产量集成预测模型进行预测得到预测值，并按照保存的权重进行加权融合和得到最终的预测结果。

优选地，所述步骤S6中模型权重计算公式为：

式中：w_j表示第j个模型的权重，S_j表示第j个模型的平均相对误差的绝对值，m表示模型的数量。

优选地，所述步骤S3～S5中，平均相对误差的计算方式为：

式中，p_i为数组中的第i个预测值，y_i为与预测值p_i同一年份的实际值，T为数据个数, i＝1,2,3,...,T。

优选地，所述预测方法还包括自适应学习步骤S8：

在完成一次实际数据的预测后，将预测后的数据增加新的历史数据，随着数据的更新，每增加预定数量的历史数据后，按照步骤S1～S6重新进行训练，得到基于深度融合机器学习模型的小麦产量集成预测模型。

本发明的有益效果是：本发明在选取影响产量的影响因素时使用了主成分分析方法，深度挖掘小麦产量潜在的变化规律，使用与小麦产量关系密切的影响因素作为有关模型的输入数据，同时多原理、多角度地预测小麦产量；本发明选取ARIMA模型、LSTM网络、灰色模型3种在计算原理上差异较大的模型作为预测模型，对其进行拟合和测试，在最终预测产量时基于加权平均的思想，根据将3种模型的预测值依据不同的权重进行集成，能够有效减轻单个模型预测精度不足和算法鲁棒性较差的问题；同时，本发明设置了误差阈值对集成预测结果进行充分验证，增强预测模型的抗干扰能力，最大限度的缩小误差，使得小麦产量预测更加准确、可靠。

附图说明

图1为本发明的方法流程图；

图2为实施例中的预测流程示意图；

图3为为实例中各模型预测结果平均相对误差对比图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于深度融合机器学习模型的小麦产量集成预测方法，包括以下步骤：

S6.对模型进行加权融合：

在本申请的实施例中，采用某市1990～2018年间每年小麦作物播种面积、单位面积产量、有效灌溉面积、机耕面积、化肥使用量、农村用电量、乡村劳动者数量、第一产业比重、受灾面积、农用薄膜使用量、财政农业支出、小麦市场价格、农用机械总动力以及1～4月份、 11～12月份的平均温度、降雨量的数据进行实验，其中1990～2013年的相关数据作为后续模型的训练数据，2014～2018年的数据作为测试数据，小麦产量作为输出结果，预测方法流程图如图2所示：

步骤S1、获取该市1990～2018年与小麦产量相关的数据，包括每年小麦作物播种面积、单位面积产量、有效灌溉面积、机耕面积、化肥使用量、农村用电量、乡村劳动者数量、第一产业比重、受灾面积、农用薄膜使用量、财政农业支出、小麦市场价格、农用机械总动力以及1～4月份、11～12月份的平均温度、降雨量等15个影响因素。

步骤S2、将数据导入SPSS软件，使用SPSS软件，对原始数据进行标准化处理后，计算相关系数矩阵和特征向量，利用主成分分析方法提取主成分指标，将通过主成分分析后得到的影响产量较显著的影响因素对应的数据作为特征数据；

在主成分分析中，首先对原始数据作标准化处理：

设选取的产量初始值共有n个，影响产量的初始影响因素共有k个，这k个因素为x₁,x₂,x₃,…x_k，同时x_ij代表第i个样本在第j个指标上的取值，然后对各指标x_ij进行数据标准化过程，转换成标准化指标

标准化公式为：

其中

即

对应样本值S_j对应第j个指标的样本标准差。对应的，

可以称为标准化的指标变量。

标准化过程完成后，计算相关系数矩阵R，R＝(r_ij)_m×m其中第i个指标与第j个指标的相关系数表示为r_ij；再计算得到相关系数矩阵的特征值λ₁≥λ₂≥…≥λ_m≥0，及对应的特征向量u₁,u₂,…u_m，其中u_j＝(u_1j,u_2j,…，u_mj)^T。

通过得到的特征向量可以构造m个新的指标：

y_i＝u_i1x₁+u_i2x₂+…u_ikx_k,(i＝1,2,…m)

其中y₁,y₂,…y_m分别表示第1个到第m个主成分；再计算特征值λ_j(j＝1,2,…m)的信息贡献率a_j，从而得到累计信息贡献率b_p。

y_j的信息贡献率a_j计算公式为：

累计信息贡献率b_p计算公式为：

提取b_p值大于0.85的前p个主成分指标，

在本申请的实施例中，相关矩阵特征值的贡献率与累计贡献率如表1所示；由表1可知，前9个数据标准化后的数据主成分累计贡献率已经达到了86.42％，从而可以选定前9个成分作为影响该地区小麦产量的主成分y_i(i＝1,2,…,9)，即小麦作物播种面积、化肥使用量、第一产业比重、受灾面积、小麦市场价格、农用机械总动力以及1～4月份、11～12月份的平均温度、降雨量，相关数据作为后续模型的输入数据。

表1

步骤S3、自回归积分滑动平均模型ARIMA(p，d，q)模型的一般形式：

u_t＝a+φ₁u_t-1+…+φ_pu_t-p+ε_t+θ₁ε_t-1+…+θ_qε_t-q

使用Python软件导入数据并建立ARIMA模型，首先选择ARIMA模型，首先采用ADF单位根检验法，对1990～2013年小麦产量数据序列进行平稳性检验和差分处理，确定模型ARIMA(p,d,q)的差分阶数d＝1；结合一阶差分序列自相关函数ACF以及偏相关函数PACF，确定模型ARIMA(p,d,q)中的参数p,q，对于p,q不同的取值，从低阶到高阶分别建立ARIMA 模型，计算所有模型的AIC值，选择使得AIC值达到最小的模型，找到模型一步误差最小值对应的p＝3.q＝3，选定最优模型为ARIMA(3,1,3)。

将1990～2013年每年的小麦产量数据作为训练数据输入ARIMA(3,1,3)中，构建预测模型对1990～2013年的数据进行拟合，并进行运算。使用该模型得到2014～2018年产量数据拟合值的平均相对误差S₁和预测值，预测值记为数组P₁。

步骤S4、使用Python软件导入数据并建立LSTM模型，LSTM是由多个同构单元格组成，每个单元格由4个主要元素构成：输入门、遗忘门、输出门和单元状态。LSTM模型可以描述为：

f_t＝σ(W_f×[h_t-1,x_t]+b_f)

i_t＝σ(W_i×[h_t-1,x_t]+b_i)

o_t＝σ(W_o×[h_t-1,x_t]+b_o)

h_t＝o_t tanh(C_t)

式中：x为LSTM单元的输入向量；h为单元格输出向量；f·i、o分别表示遗忘门、输入门和输出门；C表示单元状态；下标t表示时刻；σ、tanh分别为sigmoid、tanh激活函数；W和b分别表示权重和偏差矩阵。

在模型构建中，首先对经过主成分分析后的的九大数据序列进行数据归一化处理，归一化处理公式为：

通过实验寻找并选择合适的LSTM网络输入层单元数为9，输出层单元数为1，隐含层单元数为30，网络训练方法采用梯度下降法，采用的是具有两层隐藏层的神经网络，建立LSTM模型；

将1990～2013年每年小麦产量相关的影响因素数据和产量数据作为模型的训练集， 2014～2018年和小麦产量相关的影响因素数据作为测试集，使用训练过的LSTM模型进行运算得到最近几年的产量预测值，记为数组P₂，并计算近几年产量的预测值的平均相对误差S₂。

步骤S5、使用Python软件导入数据并建立多因素灰色与预测模型，采用了GM(1，1)模型，可以描述为：

(1)设待研究事务的特征因素时间序列为y＝(y₁,y₂,…,y_n)，而影响其发展的因素有q个，设

其中

表示影响事务发展的第i个因素时间序列。又因

的一阶累加序列为

其中

其背景值序列为：

其中

(2)首先分别对

建立灰色预测GM(1,1)模型，从而可求得第i个因素在时刻k的模拟预测值为：

其中，a＝[a,u]^T＝(B^TB)^-1B^TY；Y＝[x⁽⁰⁾(2),x⁽⁰⁾(3),…,x⁽⁰⁾(n)]^T，

(3)然后，多因素灰色预测模型可以表示为：y(t)＝b₀+b₁x₁(t)+b₂x₂(t)+…+b_qx_q(t)

其中y(t)为事物在t时刻的预测值，

为第i个因素在t时刻的预测值， b_i,i＝1,2,…,q为估计参数，利用历史数据y(1),y(2),…,y(m)和 x_i(1),x_i(2),…,x_i(m),i＝1,2,…,q，可以求出多因素灰色预测模型估计参数 b＝[b₀,b₁,…,b_q]^T＝(X^TX)^- ¹X^TY₁

其中Y₁＝[y(1),y(2),…,y(m)]^T，

由于假设多因素灰色预测模型是一个线性回归模型，所以最后求出的各因素的预测值代入方程y(t)＝b₀+b₁x₁(t)+b₂x₂(t)+…+b_qx_q(t)，即可求出多因素灰色预测模型的预测值。

令y为小麦产量，经主成分分析后的九大影响指标分别用x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉表示，然后分别对1990～2013年9个因素建立灰色GM(1，1)预测模型并对原始数据序列进行拟合，得到2014～2018年产量数据拟合值的平均相对误差S₃和预测值，预测值记为数组P₃。

步骤S6、根据步骤S3、步骤S4、步骤S5得到的结果，得到以上三个模型的单独最优平均相对误差预测值。

根据以下公式：

计算出单一模型的权重，如表2所示；

表2

利用表2预测模型的权重进行加权计算，最后根据2014～2018年各模型的预测值以及相对应的权重进行加权，将所求得的结果作为最终的集成预测值。

设置误差阈值为2.6％，验证最终预测值是否准确。

步骤S7、对于实际数据，基于深度融合机器学习模型的小麦产量集成预测模型建立完毕，并且通过步骤S6验证预测模型的准确性：

若由步骤S6计算得到的预测误差不大于误差阈值，则以基于深度融合机器学习模型的小麦产量集成预测值作为最终预测值；

若由步骤S6计算得到的预测误差大于误差阈值，则采集更多历史数据，返回执行步骤 S1～步骤S6，重新训练基于深度融合机器学习模型的小麦产量集成预测模型，直至由步骤 S6计算得到的预测误差小于等于误差阈值。

本实例中集成预测值平均相对误差在2.6％以内，小于误差阈值，预测效果较好。

如图3所示，集成预测模型的预测平均相对误差低于单个的ARIMA、LSTM和灰色模型的平均相对误差，预测结果表明基于深度融合机器学习模型的小麦产量集成预测方法预测准确度更高，可以准确预测未来5年的小麦产量数据。

以上实施例仅用以说明本申请的技术方案，而非对其限制；以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有一定的修改或者替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims

1.一种基于深度融合机器学习模型的小麦产量集成预测方法，其特征在于：包括以下步骤：

S6.对模型进行加权融合：

2.根据权利要求1所述的一种基于深度融合机器学习模型的小麦产量集成预测方法，其特征在于：步骤S1中所述的历史数据库包含N的历史数据，N>n，每一年的历史数据包括该年内小麦的产量，以及该年内小麦各个初始影响因素的因素值。

3.根据权利要求1所述的一种基于深度融合机器学***均温度和降雨量。

4.根据权利要求1所述的一种基于深度融合机器学习模型的小麦产量集成预测方法，其特征在于：所述步骤S2包括：

S201.对小麦产量初始影响因素的因素值作标准化处理：

设小麦产量的初始影响因素共有k个，这k个因素为x₁,x₂,x₃,…x_k，同时，设x_ij代表第i年在第j个初始影响因素的因素值，然后对x_ij进行数据标准化过程，转换成标准化指标

标准化公式为：

其中，

为标准化的指标变量，

为第j个影响因素的因素值在n年内的平均数，s_j为第j个影响因素的因素值在n年内的标准差，

S202.标准化过程完成后，计算相关系数矩阵R，R＝(r_ij)_m×m，其中第i个初始影响因素与第j个初始影响因素的相关系数表示为r_ij；再计算得到相关系数矩阵的特征值λ₁≥λ₂≥…≥λ_m≥0，及对应的特征向量u₁,u₂,…u_m，其中u_j＝(u_1j,u_2j,…，u_mj)^T；

S203.通过得到的特征向量构造m个新的指标：

y_i＝u_i1x₁+u_i2x₂+…u_ikx_k,(i＝1,2,m)

其中y₁,y₂,…y_m分别表示第1个到第m个主成分；再计算特征值λ_j(j＝1,2,…m)的信息贡献率a_j，从而得到累计信息贡献率b_p；

y_j的信息贡献率a_j计算公式为：

累计信息贡献率b_p计算公式为：

提取b_p值大于0.85的前p个主成分指标作为特征数据。

5.根据权利要求1所述的一种基于深度融合机器学习模型的小麦产量集成预测方法，其特征在于：所述步骤S3包括：

选择ARIMA模型，首先采用ADF单位根检验法，对小麦历史年产量数据序列进行平稳性检验，如果未通过ADF检验，则认为该数据序列是非稳定的，采用对原数据序列做一阶差分的方法使原始序列转化为平稳序列，直到差分序列通过ADF平稳性检验，同时确定模型ARIMA(p,d,q)的差分阶数d；结合一阶差分序列自相关函数ACF以及偏相关函数PACF，确定模型ARIMA(p,d,q)中的参数p,q，对于p,q不同的取值，从低阶到高阶分别建立ARIMA模型，计算所有模型的AIC值，选择使得AIC值达到最小的模型，即为最优模型。

其中，ARIMA模型的形式为：

u_t＝a+φ₁u_t-1+…+φ_pu_t-p+ε_t+θ₁ε_t-1+…+θ_qε_t-q

式中：p为自回归模型的阶数，d为差分次数，q为移动平均阶数；u_t为差分后的平稳序列；a为常数，φ为自回归模型系数，θ为移动平均模型系数，ε_t为零均值白噪声序列。

AIC值计算公式为：