CN114444752A - 一种单变量多尺度预测方法 - Google Patents
一种单变量多尺度预测方法 Download PDFInfo
- Publication number
- CN114444752A CN114444752A CN202011215030.6A CN202011215030A CN114444752A CN 114444752 A CN114444752 A CN 114444752A CN 202011215030 A CN202011215030 A CN 202011215030A CN 114444752 A CN114444752 A CN 114444752A
- Authority
- CN
- China
- Prior art keywords
- sequence
- data
- original
- prediction
- imf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000007405 data analysis Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 35
- 238000000354 decomposition reaction Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000007689 inspection Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000000977 Dickey–Fuller test Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001744 unit root test Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000000780 augmented Dickey–Fuller test Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012300 Sequence Analysis Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Strategic Management (AREA)
- Mathematical Analysis (AREA)
- Human Resources & Organizations (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及预测方法技术领域,且公开了单变量多尺度预测方法,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型。该单变量多尺度预测方法,通过将EEMD方法应用到时间序列分析中,克服了一些传统方法仅能处理线性、平稳时间序列的缺陷,建立基于EEMD的多尺度集成预测模型,不仅提高了序列的预测精度,还能赋予分解重构后的子序列一定的经济含义,是一个将“数据驱动”和“理论驱动”相结合的建模方法,为时间序列的预测提供了新的模型选择,EEMD去噪方法相比于传统的小波去噪方法,避免了小波基函数参数选择这一难题,可复制性也相对较低。
Description
技术领域
本发明涉及预测方法技术领域,具体为一种单变量多尺度预测方法。
背景技术
在信息化技术和互联网技术的迅速发展下,数据量呈喷井式增长,且复杂程度越来越高,现代社会已进入大数据时代。在这种背景下,充分发挥大数据的应用价值,进行数据挖掘变得尤为重要,多尺度现象普遍存在于客观世界中,近年来受到了学术界的广泛关注,并逐渐发展为一门独立的研究课题。数学、物理学、化学等领域的学者已将多尺度理论引入到本科学中进行了一系列相关研究。数据融合技术和关联模型应用的快速发展,很大程度上促进了多尺度领域的研究,多信息源的采集、传输、综合、过滤、关联及合成极大地降低了尺度转换的时间消耗,提高了数据结果精度。针对数据挖掘领域的多尺度研究,多尺度理论已被引入到数据挖掘领域。它主要涉及数据的多尺度实现和知识的多尺度发掘:前者属于数据预处理,利用数据尺度划分即可实现;后者则需要改进具体的挖掘技术,在数据多个尺度的表现形式中发掘知识,分析、推导知识间的相互联系。
ARIMA模型对线性时间序列有较好的拟合效果,但是对非线性时间序列拟合效果较差;GM(1,1)模型处理趋势性时间序列有较好的结果,对于周期性时间序列的处理效果不佳。神经网络和SVM在处理非线性且波动频率较大的序列均有各自的优势,但是在处理线性时间序列方面则不如ARIMA。
发明内容
本发明提供了一种单变量多尺度预测方法,具备通过加噪声辅助分析的EEMD(Ensemble Empirical Mode Decomposition)方法,将白噪声加入信号来补充一些缺失的尺度,有效地解决了模态混叠现象,利用高斯白噪声零均值的特性,使真实信号得到了保留,在信号分解中具有良好的表现的优点,解决了基于金融时间序列的非线性、非平稳性和多尺度的多重特性,提出一种基于EEMD的多尺度预测模型。使用EEMD方法将原始序列分解和重构成高频、低频和趋势三个子序列;再结合Elman神经网络、支持向量机(SVM)、GM(1,1)等模型对各部分进行拟合,集成模型左后的预测值为各部分预测值的和问题。
本发明提供如下技术方案:一种单变量多尺度预测方法,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果;本发明基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程,其步骤如下:
一、原始时间序列
获取原始时间序列值,时间序列是时间间隔不变的情况下收集的不同时间点数据集合,用来分析了解长期发展趋势及为了预测未来。
二、ADF平稳性检验
拿到观察值序列之后,要对它的平稳性进行检验,这个重要的检验称为序列的预处理。
三、训练集
从样本数据中随机抽取一部分数据作为训练集,用来估计模型。主要是用于监督学习中,利用一组已知类别的样本调整分类器的参数,使其达到所要求性能。
四、测试集
从样本数据中随机抽取一部分数据作为测试集,用来检验最终选择最优的模型的性能。
五、EEMD分解
利用集成经验模态分解法(EEMD)分解时间序列,将其复杂难描述的动力***分解为较为简单的模态分量。
六、单预测
使用分量预测技术极限学习机(ELM)预测各模态分量,得到预测结果。
七、加总
初始原始数据分解组成:N个IMF项+1个残差项。
八、最终预测值
对各个模态分量的预测结果进行集成,用简单加和(ADD)的方式得到最终预测结果。
***估
通过最终预测值与训练集评估模型的优劣性。
十、未通过评估,则进行模型调优
模型调优,首先解决欠拟合问题,其次再解决过拟合问题。否则即便是过拟合控制得很好(训练精度与测试精度非常接近),但拟合程度却依然很低,达不到目的。模型调优主要从数据的特征入手,好的特征工程决定预测结果的上限。重复EEMD分解、单预测、加总、得到最终预测值,再次进行评估,直至评估通过。
十一、评估结果通过
则输出最终预测结果。
优选的,所述ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关,就违背了扰动项是独立同分布的假设。在这种情况下,可以使用增广的ADF检验方法(augmented Dickey-Fullertest)来检验含有高阶序列相关的序列的单位根。
优选的,所述在进行ADF检验时,必须注意以下两个实际问题:
(1)、必须为回归定义合理的滞后阶数,通常采用AIC准则来确定给定时间序列模型的滞后阶数。在实际应用中,还需要兼顾其他的因素,如***的稳定性、模型的拟合优度等。
(2)、可以选择常数和线性时间趋势,选择哪种形式很重要,因为检验显著性水平的t统计量在原假设下的逐渐分布依赖关于这些项的定义。
①、若原序列中不存在单位根,则检验回归形式选择含有常数,、意味着所检验的序列的均值不为0;若原序列中存在的单位根,则检验回归形式选择含有常数,意味着所检验的序列具有线性趋势,一个简单易行的办法是画出检验序列的曲线图,通过图形观察原序列是否在一个偏离0的位置随机变动或具有一个线性趋势,进而决定是否在检验时添加常数项。
②、若原序列中不存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有线性趋势;若原序列中存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有二次趋势。同样,决定是否在检验中添加时间趋势项,也可以通过画出原序列的曲线图来观察。如果图形中大致显示了被检验序列的波动趋势呈非线性变化,那么就可以添加时间趋势项。
优选的,所述EEMD分解对每一个观测到的时间序列中的数据加入干扰项,使得含有不同噪声水平的数据的均值能更逼近真实值。因此,为了尽可能地得到数据信号的真实形态,在将具有有限振幅的白噪声序列加入到原始序列之后,再对得到的数据信号进行EMD分解,得到相应的頂F分量。简单说就是将一个单变量时间序列,分解成多个不同频率的序列,从高频到低频,每个序列都调用elm算法进行预测,最后再将各个频率的结果合并成最终结果。
优选的,所述单预测通过以下步骤:
步骤一,找出原始数据局部极大值和极小值,基于局部极大值画出上包络线,基于局部极小值画出下包络线,基于上下包络线画出上下包络线的均线,原始数据减出上下包络线均值,得到残差序列。如果残差满足IMF的2个条件,则残差为第一个IMF;否则令残差等于原始序列,重复上述过程,直到满足IMF的2个条件。
步骤二,首原始数据减出第一个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第二个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
……
步骤N,原始数据减出第N-1个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第N个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
步骤N+1,最后的残差项要么是单调函数,要么是设定的阈值,则停止提取IMF,分解过程结束。
本发明具备以下有益效果:
1、该单变量多尺度预测方法,通过将EEMD方法应用到时间序列分析中,克服了一些传统方法仅能处理线性、平稳时间序列的缺陷,建立基于EEMD的多尺度集成预测模型,不仅提高了序列的预测精度,还能赋予分解重构后的子序列一定的经济含义,是一个将“数据驱动”和“理论驱动”相结合的建模方法,为时间序列的预测提供了新的模型选择,EEMD去噪方法相比于传统的小波去噪方法,避免了小波基函数参数选择这一难题,可复制性也相对较低。
2、该单变量多尺度预测方法,通过单变量多尺度的预测方法,主要通过对时间序列进行分析和建模,发现市场中潜在的信息和规律,从而为投资决策提供理论基础和技术支撑,是资产定价、投资策略制定、产品设计和风险管理等工作的基础,这种有效的分析具有现实意义。
附图说明
图1为本发明方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种单变量多尺度预测方法,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果;本发明基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程,其步骤如下:
一、原始时间序列
获取原始时间序列值,时间序列是时间间隔不变的情况下收集的不同时间点数据集合,用来分析了解长期发展趋势及为了预测未来。
二、ADF平稳性检验
拿到观察值序列之后,要对它的平稳性进行检验,这个重要的检验称为序列的预处理,ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。
三、训练集
从样本数据中随机抽取一部分数据作为训练集,用来估计模型。主要是用于监督学习中,利用一组已知类别的样本调整分类器的参数,使其达到所要求性能。
四、测试集
从样本数据中随机抽取一部分数据作为测试集,用来检验最终选择最优的模型的性能。
五、EEMD分解
利用集成经验模态分解法(EEMD)分解时间序列,将其复杂难描述的动力***分解为较为简单的模态分量,就是将一个单变量时间序列,分解成多个不同频率的序列,从高频到低频,每个序列都调用elm算法进行预测,最后再将各个频率的结果合并成最终结果。
六、单预测
使用分量预测技术极限学习机(ELM)预测各模态分量,得到预测结果,通过步骤N+1,最后的残差项要么是单调函数,要么是设定的阈值,则停止提取IMF,分解过程结束。
七、加总
初始原始数据分解组成:N个IMF项+1个残差项。
八、最终预测值
对各个模态分量的预测结果进行集成,用简单加和(ADD)的方式得到最终预测结果。
***估
通过最终预测值与训练集评估模型的优劣性。
十、未通过评估,则进行模型调优
模型调优,首先解决欠拟合问题,其次再解决过拟合问题。否则即便是过拟合控制得很好(训练精度与测试精度非常接近),但拟合程度却依然很低,达不到目的。模型调优主要从数据的特征入手,好的特征工程决定预测结果的上限。重复EEMD分解、单预测、加总、得到最终预测值,再次进行评估,直至评估通过。
十一、评估结果通过
则输出最终预测结果。
其中,ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关,就违背了扰动项是独立同分布的假设。在这种情况下,可以使用增广的ADF检验方法(augmented Dickey-Fuller test)来检验含有高阶序列相关的序列的单位根。
其中,在进行ADF检验时,必须注意以下两个实际问题:
(1)、必须为回归定义合理的滞后阶数,通常采用AIC准则来确定给定时间序列模型的滞后阶数。在实际应用中,还需要兼顾其他的因素,如***的稳定性、模型的拟合优度等。
(2)、可以选择常数和线性时间趋势,选择哪种形式很重要,因为检验显著性水平的t统计量在原假设下的逐渐分布依赖关于这些项的定义。
①、若原序列中不存在单位根,则检验回归形式选择含有常数,、意味着所检验的序列的均值不为0;若原序列中存在的单位根,则检验回归形式选择含有常数,意味着所检验的序列具有线性趋势,一个简单易行的办法是画出检验序列的曲线图,通过图形观察原序列是否在一个偏离0的位置随机变动或具有一个线性趋势,进而决定是否在检验时添加常数项。
②、若原序列中不存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有线性趋势;若原序列中存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有二次趋势。同样,决定是否在检验中添加时间趋势项,也可以通过画出原序列的曲线图来观察。如果图形中大致显示了被检验序列的波动趋势呈非线性变化,那么就可以添加时间趋势项。
其中,EEMD分解对每一个观测到的时间序列中的数据加入干扰项,使得含有不同噪声水平的数据的均值能更逼近真实值。因此,为了尽可能地得到数据信号的真实形态,在将具有有限振幅的白噪声序列加入到原始序列之后,再对得到的数据信号进行EMD分解,得到相应的頂F分量。简单说就是将一个单变量时间序列,分解成多个不同频率的序列,从高频到低频,每个序列都调用elm算法进行预测,最后再将各个频率的结果合并成最终结果。
其中,单预测通过以下步骤:
步骤一,找出原始数据局部极大值和极小值,基于局部极大值画出上包络线,基于局部极小值画出下包络线,基于上下包络线画出上下包络线的均线,原始数据减出上下包络线均值,得到残差序列。如果残差满足IMF的2个条件,则残差为第一个IMF;否则令残差等于原始序列,重复上述过程,直到满足IMF的2个条件。
步骤二,首原始数据减出第一个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第二个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
……
步骤N,原始数据减出第N-1个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第N个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
步骤N+1,最后的残差项要么是单调函数,要么是设定的阈值,则停止提取IMF,分解过程结束。
其中,基于spark的设计理念,通过流程化数据建模,解析数据分析操作步骤及流程,然后通过流程调用spark,将分析操作步骤进行内存处理,输出最终结果。它包括界面层、应用逻辑层、数据分析算法层和平台层;在界面层对海量数据进行分析建模操作,生产分析模型,在任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种单变量多尺度预测方法,包括界面层、应用逻辑层、数据分析算法层和平台层;对海量数据进行分析处理时通过界面层进行数据分析建模操作,生产数据分析模型,通过任务调度层对数据分析模型进行解析并调取对应的算法包形成可执行的数据分析任务,最终通过平台层的计算和存储资源执行任务得到结果;本发明基于spark的设计理念,在用户进行流程化数据建模分析操作,来解析用户的数据分析操作步骤及流程,最终通过流程调用spark,将用户的数据分析操作步骤全部进行内存处理后,最终输出结果,从而达到高效的一体化流程,其特征在于:其步骤如下:
一、原始时间序列
获取原始时间序列值,时间序列是时间间隔不变的情况下收集的不同时间点数据集合,用来分析了解长期发展趋势及为了预测未来。
二、ADF平稳性检验
拿到观察值序列之后,要对它的平稳性进行检验,这个重要的检验称为序列的预处理。
三、训练集
从样本数据中随机抽取一部分数据作为训练集,用来估计模型。主要是用于监督学习中,利用一组已知类别的样本调整分类器的参数,使其达到所要求性能。
四、测试集
从样本数据中随机抽取一部分数据作为测试集,用来检验最终选择最优的模型的性能。
五、EEMD分解
利用集成经验模态分解法(EEMD)分解时间序列,将其复杂难描述的动力***分解为较为简单的模态分量。
六、单预测
使用分量预测技术极限学习机(ELM)预测各模态分量,得到预测结果。
七、加总
初始原始数据分解组成:N个IMF项+1个残差项。
八、最终预测值
对各个模态分量的预测结果进行集成,用简单加和(ADD)的方式得到最终预测结果。
***估
通过最终预测值与训练集评估模型的优劣性。
十、未通过评估,则进行模型调优
模型调优,首先解决欠拟合问题,其次再解决过拟合问题。否则即便是过拟合控制得很好(训练精度与测试精度非常接近),但拟合程度却依然很低,达不到目的。模型调优主要从数据的特征入手,好的特征工程决定预测结果的上限。重复EEMD分解、单预测、加总、得到最终预测值,再次进行评估,直至评估通过。
十一、评估结果通过
则输出最终预测结果。
2.根据权利要求1所述的一种单变量多尺度预测方法,其特征在于:所述ADF检验(单位根检验)是在Dickey-Fuller检验(DF检验)基础上发展而来的只有当序列为AR(1)时才有效。如果序列存在高阶滞后相关,就违背了扰动项是独立同分布的假设。在这种情况下,可以使用增广的ADF检验方法(augmented Dickey-Fuller test)来检验含有高阶序列相关的序列的单位根。
3.根据权利要求2所述的一种单变量多尺度预测方法,其特征在于:所述在进行ADF检验时,必须注意以下两个实际问题:
(1)、必须为回归定义合理的滞后阶数,通常采用AIC准则来确定给定时间序列模型的滞后阶数。在实际应用中,还需要兼顾其他的因素,如***的稳定性、模型的拟合优度等。
(2)、可以选择常数和线性时间趋势,选择哪种形式很重要,因为检验显著性水平的t统计量在原假设下的逐渐分布依赖关于这些项的定义。
①、若原序列中不存在单位根,则检验回归形式选择含有常数,、意味着所检验的序列的均值不为0;若原序列中存在的单位根,则检验回归形式选择含有常数,意味着所检验的序列具有线性趋势,一个简单易行的办法是画出检验序列的曲线图,通过图形观察原序列是否在一个偏离0的位置随机变动或具有一个线性趋势,进而决定是否在检验时添加常数项。
②、若原序列中不存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有线性趋势;若原序列中存在单位根,则检验回归形式选择含有常数和趋势,意味着所检验的序列具有二次趋势。同样,决定是否在检验中添加时间趋势项,也可以通过画出原序列的曲线图来观察。如果图形中大致显示了被检验序列的波动趋势呈非线性变化,那么就可以添加时间趋势项。
4.根据权利要求1所述的一种单变量多尺度预测方法,其特征在于:所述EEMD分解对每一个观测到的时间序列中的数据加入干扰项,使得含有不同噪声水平的数据的均值能更逼近真实值。因此,为了尽可能地得到数据信号的真实形态,在将具有有限振幅的白噪声序列加入到原始序列之后,再对得到的数据信号进行EMD分解,得到相应的頂F分量。简单说就是将一个单变量时间序列,分解成多个不同频率的序列,从高频到低频,每个序列都调用elm算法进行预测,最后再将各个频率的结果合并成最终结果。
5.根据权利要求1所述的一种单变量多尺度预测方法,其特征在于:所述单预测通过以下步骤:
步骤一,找出原始数据局部极大值和极小值,基于局部极大值画出上包络线,基于局部极小值画出下包络线,基于上下包络线画出上下包络线的均线,原始数据减出上下包络线均值,得到残差序列。如果残差满足IMF的2个条件,则残差为第一个IMF;否则令残差等于原始序列,重复上述过程,直到满足IMF的2个条件。
步骤二,首原始数据减出第一个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第二个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
……
步骤N,原始数据减出第N-1个IMF则得到一个新残差序列,这个序列作为新原始数据进一步分解,步骤同上原始数据减出均值得新残差序列。如果新残差序列满足IMF的2个条件,则此残差为第N个IMF;否则令残差等于原始序列,重复上述过程,开始迭代,直到满足IMF的2个条件。
步骤N+1,最后的残差项要么是单调函数,要么是设定的阈值,则停止提取IMF,分解过程结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011215030.6A CN114444752B (zh) | 2020-11-04 | 一种单变量多尺度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011215030.6A CN114444752B (zh) | 2020-11-04 | 一种单变量多尺度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444752A true CN114444752A (zh) | 2022-05-06 |
CN114444752B CN114444752B (zh) | 2024-07-12 |
Family
ID=
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716022B1 (en) * | 2005-05-09 | 2010-05-11 | Sas Institute Inc. | Computer-implemented systems and methods for processing time series data |
WO2016101690A1 (zh) * | 2014-12-22 | 2016-06-30 | 国家电网公司 | 基于时间序列分析的输变电设备的状态监测数据清洗方法 |
CN107392363A (zh) * | 2017-07-12 | 2017-11-24 | 河海大学 | 一种ceemd和随机森林的短期风功率预测方法 |
US20200285984A1 (en) * | 2019-03-06 | 2020-09-10 | Hcl Technologies Limited | System and method for generating a predictive model |
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716022B1 (en) * | 2005-05-09 | 2010-05-11 | Sas Institute Inc. | Computer-implemented systems and methods for processing time series data |
WO2016101690A1 (zh) * | 2014-12-22 | 2016-06-30 | 国家电网公司 | 基于时间序列分析的输变电设备的状态监测数据清洗方法 |
CN107392363A (zh) * | 2017-07-12 | 2017-11-24 | 河海大学 | 一种ceemd和随机森林的短期风功率预测方法 |
US20200285984A1 (en) * | 2019-03-06 | 2020-09-10 | Hcl Technologies Limited | System and method for generating a predictive model |
Non-Patent Citations (1)
Title |
---|
王琪;汪立新;田颖;: "基于改进时间序列方法的HRG输出建模预测", 电光与控制, no. 03, 31 December 2015 (2015-12-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | A novel probabilistic wind speed prediction approach using real time refined variational model decomposition and conditional kernel density estimation | |
Khoshgoftaar et al. | Classification tree models of software quality over multiple releases | |
CN110309603B (zh) | 一种基于风速特性的短期风速预测方法及*** | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
Lu | Research on GDP forecast analysis combining BP neural network and ARIMA model | |
CN114266416A (zh) | 基于相似日的光伏发电功率短期预测方法、装置及存储介质 | |
CN114546797A (zh) | 基于时序分解的云虚拟机老化预测方法 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及*** | |
Kovantsev et al. | Analysis of multivariate time series predictability based on their features | |
CN115034473A (zh) | 一种电价预测方法、***及装置 | |
CN113238908B (zh) | 一种服务器性能测试数据分析方法及相关装置 | |
Sun et al. | Short-term power load prediction based on VMD-SG-LSTM | |
CN113505877A (zh) | 一种基于多任务学习的回归预测方法及应用 | |
CN112991088A (zh) | 一种基于vmd-anfis-arima的月度电力需求预测方法 | |
CN114444752B (zh) | 一种单变量多尺度预测方法 | |
CN114444752A (zh) | 一种单变量多尺度预测方法 | |
Ling et al. | Maximum profit mining and its application in software development | |
Pajares et al. | Feature selection for time series forecasting: a case study | |
Fu et al. | Prediction of financial economic time series based on group intelligence algorithm based on machine learning | |
CN116933119A (zh) | 一种基于卷积神经网络的信号数据去除趋势方法 | |
CN114281658A (zh) | 一种集群资源使用率预测方法、装置、设备及存储介质 | |
Ruciński | Neural modelling of electricity prices quoted on the Day-Ahead Market of TGE SA shaped by environmental and economic factors | |
Amasaki et al. | On applicability of fixed-size moving windows for ANN-based effort estimation | |
Vika et al. | Forecasting the Albanian Time Series with Linear and Nonlinear Univariate Models | |
CN117827467B (zh) | 一种基于动态画像的虚拟机资源调配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |