CN114444752A

CN114444752A - 一种单变量多尺度预测方法

Info

Publication number: CN114444752A
Application number: CN202011215030.6A
Authority: CN
Inventors: 泮海燕; 郭毅可; 万磊; 段新乙; 邵仁强; 高军; 李世群; 薛强强; 周彦葆; 高强强; 张颢頔; 朱相东; 罗昌; 王娜; 薛栋杰; 冯博; 潘卿; 王凯哲; 刘淑婷
Original assignee: Shanghai Jiuzhan Information Technology Co ltd
Current assignee: Shanghai Jiuzhan Information Technology Co ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-05-06
Anticipated expiration: 2040-11-04

Abstract

本发明涉及预测方法技术领域，且公开了单变量多尺度预测方法，包括界面层、应用逻辑层、数据分析算法层和平台层；对海量数据进行分析处理时通过界面层进行数据分析建模操作，生产数据分析模型。该单变量多尺度预测方法，通过将EEMD方法应用到时间序列分析中，克服了一些传统方法仅能处理线性、平稳时间序列的缺陷，建立基于EEMD的多尺度集成预测模型，不仅提高了序列的预测精度，还能赋予分解重构后的子序列一定的经济含义，是一个将“数据驱动”和“理论驱动”相结合的建模方法，为时间序列的预测提供了新的模型选择，EEMD去噪方法相比于传统的小波去噪方法，避免了小波基函数参数选择这一难题，可复制性也相对较低。

Description

一种单变量多尺度预测方法

技术领域

本发明涉及预测方法技术领域，具体为一种单变量多尺度预测方法。

背景技术

在信息化技术和互联网技术的迅速发展下，数据量呈喷井式增长，且复杂程度越来越高，现代社会已进入大数据时代。在这种背景下，充分发挥大数据的应用价值，进行数据挖掘变得尤为重要，多尺度现象普遍存在于客观世界中,近年来受到了学术界的广泛关注,并逐渐发展为一门独立的研究课题。数学、物理学、化学等领域的学者已将多尺度理论引入到本科学中进行了一系列相关研究。数据融合技术和关联模型应用的快速发展,很大程度上促进了多尺度领域的研究,多信息源的采集、传输、综合、过滤、关联及合成极大地降低了尺度转换的时间消耗,提高了数据结果精度。针对数据挖掘领域的多尺度研究,多尺度理论已被引入到数据挖掘领域。它主要涉及数据的多尺度实现和知识的多尺度发掘:前者属于数据预处理,利用数据尺度划分即可实现；后者则需要改进具体的挖掘技术,在数据多个尺度的表现形式中发掘知识,分析、推导知识间的相互联系。

ARIMA模型对线性时间序列有较好的拟合效果，但是对非线性时间序列拟合效果较差；GM(1，1)模型处理趋势性时间序列有较好的结果，对于周期性时间序列的处理效果不佳。神经网络和SVM在处理非线性且波动频率较大的序列均有各自的优势，但是在处理线性时间序列方面则不如ARIMA。

发明内容

本发明提供了一种单变量多尺度预测方法，具备通过加噪声辅助分析的EEMD(Ensemble Empirical Mode Decomposition)方法，将白噪声加入信号来补充一些缺失的尺度，有效地解决了模态混叠现象，利用高斯白噪声零均值的特性，使真实信号得到了保留，在信号分解中具有良好的表现的优点，解决了基于金融时间序列的非线性、非平稳性和多尺度的多重特性，提出一种基于EEMD的多尺度预测模型。使用EEMD方法将原始序列分解和重构成高频、低频和趋势三个子序列；再结合Elman神经网络、支持向量机(SVM)、GM(1,1)等模型对各部分进行拟合，集成模型左后的预测值为各部分预测值的和问题。

本发明提供如下技术方案：一种单变量多尺度预测方法，包括界面层、应用逻辑层、数据分析算法层和平台层；对海量数据进行分析处理时通过界面层进行数据分析建模操作，生产数据分析模型，通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务，最终通过平台层的计算和存储资源执行任务得到结果；本发明基于spark的设计理念，在用户进行流程化数据建模分析操作，来解析用户的数据分析操作步骤及流程，最终通过流程调用spark，将用户的数据分析操作步骤全部进行内存处理后，最终输出结果，从而达到高效的一体化流程，其步骤如下：

一、原始时间序列

获取原始时间序列值，时间序列是时间间隔不变的情况下收集的不同时间点数据集合，用来分析了解长期发展趋势及为了预测未来。

二、ADF平稳性检验

拿到观察值序列之后，要对它的平稳性进行检验，这个重要的检验称为序列的预处理。

三、训练集

从样本数据中随机抽取一部分数据作为训练集，用来估计模型。主要是用于监督学习中，利用一组已知类别的样本调整分类器的参数，使其达到所要求性能。

四、测试集

从样本数据中随机抽取一部分数据作为测试集，用来检验最终选择最优的模型的性能。

五、EEMD分解

利用集成经验模态分解法(EEMD)分解时间序列，将其复杂难描述的动力***分解为较为简单的模态分量。

六、单预测

使用分量预测技术极限学习机(ELM)预测各模态分量，得到预测结果。

七、加总

初始原始数据分解组成：N个IMF项+1个残差项。

八、最终预测值

对各个模态分量的预测结果进行集成，用简单加和(ADD)的方式得到最终预测结果。

***估

通过最终预测值与训练集评估模型的优劣性。

十、未通过评估，则进行模型调优

模型调优，首先解决欠拟合问题，其次再解决过拟合问题。否则即便是过拟合控制得很好(训练精度与测试精度非常接近)，但拟合程度却依然很低，达不到目的。模型调优主要从数据的特征入手，好的特征工程决定预测结果的上限。重复EEMD分解、单预测、加总、得到最终预测值，再次进行评估，直至评估通过。

十一、评估结果通过

则输出最终预测结果。

优选的，所述ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关，就违背了扰动项是独立同分布的假设。在这种情况下，可以使用增广的ADF检验方法(augmented Dickey-Fullertest)来检验含有高阶序列相关的序列的单位根。

优选的，所述在进行ADF检验时，必须注意以下两个实际问题：

(1)、必须为回归定义合理的滞后阶数，通常采用AIC准则来确定给定时间序列模型的滞后阶数。在实际应用中，还需要兼顾其他的因素，如***的稳定性、模型的拟合优度等。

(2)、可以选择常数和线性时间趋势，选择哪种形式很重要，因为检验显著性水平的t统计量在原假设下的逐渐分布依赖关于这些项的定义。

①、若原序列中不存在单位根，则检验回归形式选择含有常数，、意味着所检验的序列的均值不为0；若原序列中存在的单位根，则检验回归形式选择含有常数，意味着所检验的序列具有线性趋势，一个简单易行的办法是画出检验序列的曲线图，通过图形观察原序列是否在一个偏离0的位置随机变动或具有一个线性趋势，进而决定是否在检验时添加常数项。

②、若原序列中不存在单位根，则检验回归形式选择含有常数和趋势，意味着所检验的序列具有线性趋势；若原序列中存在单位根，则检验回归形式选择含有常数和趋势，意味着所检验的序列具有二次趋势。同样，决定是否在检验中添加时间趋势项，也可以通过画出原序列的曲线图来观察。如果图形中大致显示了被检验序列的波动趋势呈非线性变化，那么就可以添加时间趋势项。

优选的，所述EEMD分解对每一个观测到的时间序列中的数据加入干扰项，使得含有不同噪声水平的数据的均值能更逼近真实值。因此，为了尽可能地得到数据信号的真实形态，在将具有有限振幅的白噪声序列加入到原始序列之后，再对得到的数据信号进行EMD分解，得到相应的頂F分量。简单说就是将一个单变量时间序列，分解成多个不同频率的序列，从高频到低频，每个序列都调用elm算法进行预测，最后再将各个频率的结果合并成最终结果。

优选的，所述单预测通过以下步骤：

步骤一，找出原始数据局部极大值和极小值，基于局部极大值画出上包络线，基于局部极小值画出下包络线，基于上下包络线画出上下包络线的均线，原始数据减出上下包络线均值，得到残差序列。如果残差满足IMF的2个条件，则残差为第一个IMF；否则令残差等于原始序列，重复上述过程，直到满足IMF的2个条件。

步骤二，首原始数据减出第一个IMF则得到一个新残差序列，这个序列作为新原始数据进一步分解，步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件，则此残差为第二个IMF；否则令残差等于原始序列，重复上述过程，开始迭代，直到满足IMF的2个条件。

……

步骤N,原始数据减出第N-1个IMF则得到一个新残差序列，这个序列作为新原始数据进一步分解，步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件，则此残差为第N个IMF；否则令残差等于原始序列，重复上述过程，开始迭代，直到满足IMF的2个条件。

步骤N+1,最后的残差项要么是单调函数，要么是设定的阈值，则停止提取IMF，分解过程结束。

本发明具备以下有益效果：

1、该单变量多尺度预测方法，通过将EEMD方法应用到时间序列分析中，克服了一些传统方法仅能处理线性、平稳时间序列的缺陷，建立基于EEMD的多尺度集成预测模型，不仅提高了序列的预测精度，还能赋予分解重构后的子序列一定的经济含义，是一个将“数据驱动”和“理论驱动”相结合的建模方法，为时间序列的预测提供了新的模型选择，EEMD去噪方法相比于传统的小波去噪方法，避免了小波基函数参数选择这一难题，可复制性也相对较低。

2、该单变量多尺度预测方法，通过单变量多尺度的预测方法，主要通过对时间序列进行分析和建模，发现市场中潜在的信息和规律，从而为投资决策提供理论基础和技术支撑，是资产定价、投资策略制定、产品设计和风险管理等工作的基础，这种有效的分析具有现实意义。

附图说明

图1为本发明方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种单变量多尺度预测方法，包括界面层、应用逻辑层、数据分析算法层和平台层；对海量数据进行分析处理时通过界面层进行数据分析建模操作，生产数据分析模型，通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务，最终通过平台层的计算和存储资源执行任务得到结果；本发明基于spark的设计理念，在用户进行流程化数据建模分析操作，来解析用户的数据分析操作步骤及流程，最终通过流程调用spark，将用户的数据分析操作步骤全部进行内存处理后，最终输出结果，从而达到高效的一体化流程，其步骤如下：

一、原始时间序列

二、ADF平稳性检验

拿到观察值序列之后，要对它的平稳性进行检验，这个重要的检验称为序列的预处理，ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。

三、训练集

四、测试集

五、EEMD分解

利用集成经验模态分解法(EEMD)分解时间序列，将其复杂难描述的动力***分解为较为简单的模态分量，就是将一个单变量时间序列，分解成多个不同频率的序列，从高频到低频，每个序列都调用elm算法进行预测，最后再将各个频率的结果合并成最终结果。

六、单预测

使用分量预测技术极限学习机(ELM)预测各模态分量，得到预测结果，通过步骤N+1,最后的残差项要么是单调函数，要么是设定的阈值，则停止提取IMF，分解过程结束。

七、加总

初始原始数据分解组成：N个IMF项+1个残差项。

八、最终预测值

***估

通过最终预测值与训练集评估模型的优劣性。

十、未通过评估，则进行模型调优

十一、评估结果通过

则输出最终预测结果。

其中，ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关，就违背了扰动项是独立同分布的假设。在这种情况下，可以使用增广的ADF检验方法(augmented Dickey-Fuller test)来检验含有高阶序列相关的序列的单位根。

其中，在进行ADF检验时，必须注意以下两个实际问题：

其中，EEMD分解对每一个观测到的时间序列中的数据加入干扰项，使得含有不同噪声水平的数据的均值能更逼近真实值。因此，为了尽可能地得到数据信号的真实形态，在将具有有限振幅的白噪声序列加入到原始序列之后，再对得到的数据信号进行EMD分解，得到相应的頂F分量。简单说就是将一个单变量时间序列，分解成多个不同频率的序列，从高频到低频，每个序列都调用elm算法进行预测，最后再将各个频率的结果合并成最终结果。

其中，单预测通过以下步骤：

……

其中，基于spark的设计理念，通过流程化数据建模，解析数据分析操作步骤及流程，然后通过流程调用spark，将分析操作步骤进行内存处理，输出最终结果。它包括界面层、应用逻辑层、数据分析算法层和平台层；在界面层对海量数据进行分析建模操作，生产分析模型，在任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务，最终通过平台层的计算和存储资源执行任务得到结果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种单变量多尺度预测方法，包括界面层、应用逻辑层、数据分析算法层和平台层；对海量数据进行分析处理时通过界面层进行数据分析建模操作，生产数据分析模型，通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务，最终通过平台层的计算和存储资源执行任务得到结果；本发明基于spark的设计理念，在用户进行流程化数据建模分析操作，来解析用户的数据分析操作步骤及流程，最终通过流程调用spark，将用户的数据分析操作步骤全部进行内存处理后，最终输出结果，从而达到高效的一体化流程，其特征在于：其步骤如下：

一、原始时间序列

二、ADF平稳性检验

三、训练集

四、测试集

五、EEMD分解

六、单预测

七、加总

初始原始数据分解组成：N个IMF项+1个残差项。

八、最终预测值

***估

通过最终预测值与训练集评估模型的优劣性。

十、未通过评估，则进行模型调优

十一、评估结果通过

则输出最终预测结果。

2.根据权利要求1所述的一种单变量多尺度预测方法，其特征在于：所述ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关，就违背了扰动项是独立同分布的假设。在这种情况下，可以使用增广的ADF检验方法(augmented Dickey-Fuller test)来检验含有高阶序列相关的序列的单位根。

3.根据权利要求2所述的一种单变量多尺度预测方法，其特征在于：所述在进行ADF检验时，必须注意以下两个实际问题：

4.根据权利要求1所述的一种单变量多尺度预测方法，其特征在于：所述EEMD分解对每一个观测到的时间序列中的数据加入干扰项，使得含有不同噪声水平的数据的均值能更逼近真实值。因此，为了尽可能地得到数据信号的真实形态，在将具有有限振幅的白噪声序列加入到原始序列之后，再对得到的数据信号进行EMD分解，得到相应的頂F分量。简单说就是将一个单变量时间序列，分解成多个不同频率的序列，从高频到低频，每个序列都调用elm算法进行预测，最后再将各个频率的结果合并成最终结果。

5.根据权利要求1所述的一种单变量多尺度预测方法，其特征在于：所述单预测通过以下步骤：

……