CN116645132A - 基于多因子变量的时序预测方法、装置、电子设备及介质 - Google Patents
基于多因子变量的时序预测方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116645132A CN116645132A CN202310559065.9A CN202310559065A CN116645132A CN 116645132 A CN116645132 A CN 116645132A CN 202310559065 A CN202310559065 A CN 202310559065A CN 116645132 A CN116645132 A CN 116645132A
- Authority
- CN
- China
- Prior art keywords
- data
- variables
- historical data
- prediction
- influence factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000010801 machine learning Methods 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000001932 seasonal effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 4
- 108091026890 Coding region Proteins 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于多因子变量的时序预测方法、装置、电子设备及计算机可读存储介质,该方法包括:获取历史数据;基于历史数据,确定多个影响因子变量和目标变量;基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据;基于未来数据以及历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。解决了现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段的技术问题。
Description
技术领域
本申请属于数据处理领域,尤其涉及一种基于多因子变量的时序预测方法、装置、电子设备及计算机可读存储介质。
背景技术
在商品销售企业中,销量预测是企业营销决策和战略管理中的重要环节,比如,销售预测可以应用于商品补货策略、商品库存管理、商品生产计划规划等。
早期技术中,采用基于RNN类模型的时序预测模型包括DeepAR模型,LSTNet模型等,通过循环神经网络学习时间序列特征以及加入的因子特征。
但是RNN结构存在随长度增加梯度消失、以及远距离数据特征逐步减少消失的问题,同时多步滚动预测也存在误差累积问题。
现有技术中,采用Transformer类模型通过注意力机制学习时间序列特征,具有捕获全局相关性的能力,然而最初的transformer模型参数量大,时间复杂度高。之后提出的informer等模型通过稀疏注意力降低了时间复杂度,加快了模型训练速度。Autoformer模型在transformer基础上将注意力机制改为快速傅立叶变换计算序列相关性,并且通过分解趋势项和周期项学习时序特点。
但是,现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段。
基于此,特提出本发明。
发明内容
本申请实施例提供一种基于多因子变量的时序预测方法、装置、电子设备及计算机可读存储介质,现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段的技术问题。
根据本申请的第一方面,提供一种基于多因子变量的时序预测方法,该方法包括:
获取历史数据;
基于历史数据,确定多个影响因子变量和目标变量;
基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据;
基于未来数据以及历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。
可选的,方法还包括:
基于预设的预测模型,确定多个影响因子变量的重要性;
基于影响因子变量的重要性,对影响因子变量进行修改,得到第二预测结果;
将第一预测结果以及第二预测结果进行比对,生成比对结果图。
可选的,基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据,包括:
利用移动平均算法对多个影响因子变量的历史数据进行分解,得到趋势数据;
基于历史数据与趋势数据,确定季节数据;
将趋势数据以及季节数据分别输入到预设的预测模型中,得到第一输出结果以及第二输出结果;
基于第一输出结果与第二输出结果,得到未来数据。
可选的,基于预设的预测模型,确定多个影响因子变量的重要性,包括:
将未来数据与历史数据进行合并,得到目标数据集;
利用机器学习算法对目标数据集进行特征提取,得到多个维度的时序特征;
根据多个维度的时序特征,确定多个影响因子变量的重要性。
可选的,多个维度的时序特征包括第一时序特征、第二时序特征和第三时序特征,利用机器学习算法将目标数据集进行特征提取,得到多个维度的时序特征,包括:
将第一预设时间内的目标数据进行求和或平均,以确定多个影响因子变量的第一时序特征;
进行超参搜索,得到拟合结果的周期,提取与多个影响因子变量以及目标变量同周期的目标数据,以确定多个影响因子变量的第二时序特征;
提取多个影响因子变量在第二预设时间内的目标数据,以确定多个影响因子变量的第三时序特征;其中,第二预设时间包括:日、月、年、是否为周末中的任意一项。
可选的,基于历史数据,确定多个影响因子变量,包括:
基于历史数据,确定多个初始因子变量;
对多个初始因子变量进行相关性筛选,确定多个影响因子变量。
可选的,在获取历史数据之后,方法还包括:
对历史数据进行填补;
删除历史数据中分组内重复的数据;
过滤历史数据中序列长度小于预设序列长度的数据。
根据本申请的第二方面,提供一种基于多因子变量的时序预测装置,装置包括:获取模块,用于获取历史数据;第一确定模块,用于基于历史数据,确定多个影响因子变量和目标变量;第一预测模块,用于基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据;第二预测模块,用于基于未来数据以及历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。
可选的,装置还包括:第二确定模块,用于基于预设的预测模型,确定多个影响因子变量的重要性;修改模块,用于基于影响因子变量的重要性,对影响因子变量进行修改,得到第二预测结果;比对模块,用于将第一预测结果以及第二预测结果进行比对,生成比对结果图。
可选的,第一预测模块包括:分解单元,用于利用移动平均算法对多个影响因子变量的历史数据进行分解,得到趋势数据;第一确定单元,用于基于历史数据与趋势数据,确定季节数据;训练单元,用于将趋势数据以及季节数据分别输入到预设的预测模型中,得到第一输出结果以及第二输出结果;计算单元,用于基于第一输出结果与第二输出结果,得到未来数据。
可选的,第二确定模块包括:合并单元,用于将未来数据与历史数据进行合并,得到目标数据集;提取单元,用于利用机器学习算法对目标数据集进行特征提取,得到多个维度的时序特征;第二确定单元,用于根据多个维度的时序特征,确定多个影响因子变量的重要性。
可选的,多个维度的时序特征包括第一时序特征、第二时序特征和第三时序特征,其中,提取单元,用于将第一预设时间内的目标数据进行求和或平均,以确定多个影响因子变量的第一时序特征;提取与多个影响因子变量以及目标变量同周期的目标数据,以确定多个影响因子变量的第二时序特征;提取多个影响因子变量在第二预设时间内的目标数据,以确定多个影响因子变量的第三时序特征;其中,第二预设时间包括:日、月、年、是否为周末中的任意一项。
可选的,第一确定模块,用于基于历史数据,确定多个初始因子变量;对多个初始因子变量进行相关性筛选,确定多个影响因子变量。
可选的,装置还包括:填补模块,用于对历史数据进行填补;删除模块,用于删除历史数据中分组内重复的数据;过滤模块,用于过滤历史数据中序列长度小于预设序列长度的数据。
根据本申请的第三方面,提供一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现上述的任一种基于多因子变量的时序预测方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的任一种基于多因子变量的时序预测方法。
综上,本申请提供的基于多因子变量的时序预测方法及装置至少具有以下有益效果:
本申请的基于多因子变量的时序预测方法包括:获取历史数据;基于历史数据,确定多个影响因子变量和目标变量;基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据;基于未来数据以及历史数据,利用机器学习算法对影响因子变量进行预测,生成第一预测结果。由此,本申请根据历史数据以及未来数据的结合,通过机器学习算法对对目标变量进行预测,从而得到预测结果。解决了现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段的技术问题。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的实施例提供的一种基于多因子变量的时序预测方法的流程图;
图2为本申请的实施例提供的一种基于多因子变量的时序预测方法的流程图;
图3为本申请的实施例提供的一种基于多因子变量的时序预测装置的结构图;
图4为本申请的实施例提供的一种电子设备的结构图。
具体实施方式
为了使本申请的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本申请。应当理解,本文给出的具体实施例是出于向本领域的技术人员解释的目的,仅是示例性的,而非限制性的。
在以下描述中,阐述了许多具体细节以提供对本申请的透彻理解。然而,对于本领域的技术人员来说,明显的是,不需要采用具体细节来实践本申请。在其他情况下,未详细描述众所周知的步骤或操作,以避免模糊本申请。
本申请实施例提供的基于多因子变量的时序预测方法,可由本申请实施例提供的基于多因子变量的时序预测装置执行,该装置可配置于电子设备中。
参考图1,本申请提供了一种基于多因子变量的时序预测方法,该方法包括:
步骤S11,获取历史数据。
具体的,在本申请中,可以由中央处理器(Central Processing Unit,CPU)作为本申请的执行主体,CPU可以从数据库中获取历史数据。
可选的,历史数据可以包括销售数据、土壤酸碱度数据等,具体的历史数据的类型在此不做赘述,可由本领域常规技术人员实现为准。
步骤S13,基于历史数据,确定多个影响因子变量和目标变量。
具体的,在本申请中,在获取到历史数据之后,可以确定历史数据的多个影响因子变量和目标变量。需要说明的是,影响因子变量可以用于表征该历史数据能够随着影响因子变量的改变进行改变,也就是说,影响因子变量决定的历史数据的走向。
步骤S15,基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据。
具体的,在本申请中,预设的预测模型可以根据训练历史数据而形成的模型,然后可以在一定限制条件(比如时间条件),根据历史数据和预设的预测模型,预测多个影响因子变量的未来数据,也即根据限制条件,历史数据可以发生改变,从而形成未来数据。比如:限制条件为时间条件(未来一个月)时,历史数据包括销售数据,那么在1月-3月之间,销售数据为1月份销售饮料300杯、2月销售饮料200杯、3月销售饮料250杯,那么可以预测未来一个月的未来数据,其可以为450杯等,该未来数据的确定需要根据上述预设的预测模型决定。
步骤S17,基于未来数据以及历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。
具体的,在本申请中,得到历史数据以及未来数据之后,CPU或图形处理器(Graphic Processing Unit,GPU)可以利用机器学习算法对目标变量进行预测,生成第一预测结果。其中,关于机器学习算法的具体步骤在下文进行详细描述。
在一个可选的实施例中,方法还包括:
基于预设的预测模型,确定多个影响因子变量的重要性;
基于影响因子变量的重要性,对影响因子变量进行修改,得到第二预测结果;
将第一预测结果以及第二预测结果进行比对,生成比对结果图。
具体的,在本申请中,基于预设的预测模型,确定多个影响因子变量的重要性,并在得到上述多个影响因子变量的重要性之后,根据每一个影响因子变量的重要性,对影响因子变量进行修改,从而实现对目标变量进行预测,得到第二预测结果。本申请可根据影响因子变量的重要性来调整影响因子变量的大小并查看目标变量的预测情况,从而辅助业务决策。关于机器学习算法的具体步骤在下文进行详细描述。
此外,在得到第二预测结果以及第一预测结果之后,将二者进行比对,生成比对结果图,从而便于查看。
本申请根据历史数据以及未来数据的结合,通过机器学习算法对影响因子变量的重要性进行确定,在确定因子变量的重要性后,对目标变量进行预测,从而得到预测结果。解决了现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段的技术问题。
在一个可选的实施例中,多个影响因子变量包括已知因子和未知因子;已知因子包括节假日或者特殊活动日。
本实施例添加节假日或者特殊活动日作为因子变量时,能够有效地增加未来数据确定的准确性。比如:销售数据为销售饮料时,往往在节假日或者特殊活动日会增加销售饮料的数量,通过对节假日或者特殊活动日的重要性判断,从而有效地增加未来数据的准确性。
可选的,未知因子可以为过去已知但未来未知的变量,如温度、销量等。
可选的,已知因子可以为过去和未来都已知的变量,如时间、节假日或者公司已确定未来几年的商品定价等
如图2所示,在一个可选的实施例中,步骤S15中基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据,包括:
步骤S151,利用移动平均算法对多个影响因子变量的历史数据进行分解,得到趋势数据。
步骤S152,基于历史数据与趋势数据,确定季节数据。
步骤S153,将趋势数据以及季节数据分别输入到预设的预测模型中,得到第一输出结果以及第二输出结果。
步骤S154,基于第一输出结果与第二输出结果,得到未来数据。
需要说明的是,移动平均算法可以为:用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。移动平均算法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的。移动平均法根据预测时使用的各元素的权重不同。
本实施例利用移动平均算法可以将多个影响因子变量的历史数据进行分解,得到预期的趋势数据(也即产品的需求量),然后将历史数据减去趋势数据能够得到季节数据。最后分别将趋势数据以及季节数据输入到预设的预测模型中,通过模型训练的方式得到第一输出结果以及第二输出结果,也即预测的趋势数据以及季节数据,将二者结果相加,得到未来数据。通过这样的方式,能够有效地保证未来数据的准确性。
在一个可选的实施例中,可以通过是否搜参的方式确定预设的预测模型,其中,自动搜参可搜索最优预测模型,若选择否,可以根据先前知识调整默认模型训练的超参数。
在一个可选的实施例中,预设的预测模型可以为树模型,其中,可以利用STL计算目标变量趋势,返回目标趋势图以及根据输入数据的日期颗粒度返回周期性数据,从而便于用户有效地可查看数据的总体趋势以及周期性因素。
在一个可选的实施例中,基于预设的预测模型,确定多个影响因子变量的重要性,可以包括:
将未来数据与历史数据进行合并,得到目标数据集。
利用机器学习算法对目标数据集进行特征提取,得到多个维度的时序特征。
根据多个维度的时序特征,确定多个影响因子变量的重要性。
在本实施例中,得到未来数据与历史数据之后,将未来数据以及历史数据进行合并,以形成一个完整的数据链,也即目标数据集,然后利用机器学习算法对目标数据集进行特征提取,得到多个维度的时序特征,根据多个维度的时序特征,确定多个影响因子变量的重要性。
在一个可选的实施例中,合并方式可以为按照时间的顺序进行合并。
在一个可寻的实施例中,多个维度的时序特征包括第一时序特征、第二时序特征和第三时序特征;其中,利用机器学习算法将目标数据集进行特征提取,得到多个维度的时序特征,包括:
将第一预设时间内的目标数据进行求和或平均,以确定多个影响因子变量的第一时序特征;
提取与多个影响因子变量以及目标变量同周期的目标数据,以确定多个影响因子变量的第二时序特征;
提取多个影响因子变量在第二预设时间内的目标数据,以确定多个影响因子变量的第三时序特征;其中,第二预设时间包括:日、月、年、是否为周末中的任意一项。
在本实施例中,需要从三个方面对目标数据集的特征进行提取,具体为:局部特征、周期特征以及日历特征。
针对局部特征,本实施例将第一预设时间内的目标数据集进行求和或平均,以确定多个影响因子变量的第一时序特征(即局部特征)。比如:可以在某天的天气不好,销量突然下降的情况。为此,可对连续几天的目标数据求加或平均,用前一天的历史数据或者前两天历史数据的和等方法作为局部特征,来获取更稳定的局部特征。
针对周期特征,本实施例提取与多个影响因子变量以及目标变量同周期的目标数据,以确定多个影响因子变量的第二时序特征。需要说明的是,预设的预测模型可自动学习目标数据集的周期性,然后提取和因子变量以及目标数据同周期的历史数据。
针对日历特征,本实施例中的日历特征可以包括:日、月、年、是否为周末中的任意一项。提取多个影响因子变量在第二预设时间内的目标数据,以确定多个影响因子变量的第三时序特征。本实施例可利用这些变量来捕获一些时间类型的季节信息。
本实施例通过上述三个特征能够,提供数据平稳性检验功能,从而准确地确定未来数据的准确性。
在一个可选的实施例中,步骤S13中基于历史数据,确定多个影响因子变量,包括:
基于历史数据,确定多个初始因子变量。
对多个初始因子变量进行相关性筛选,确定多个影响因子变量。
在本实施例中,根据业务逻辑需求,可以对历史数据确定很多个初始因子变量,然而很多个初始因子变量之间会均有相关性,从而导致因子变量之间存在相似性,进而使得未来数据确定的不准确,本实施例需要对多个初始因子变量进行相关性筛选,确定多个影响因子变量,从而更准确地确定未来数据。
在一个可选的实施例中,对多个初始因子变量进行相关性筛选,包括:
将相关性满足预设条件的初始因子变量去除。
将相关性不满足预设条件的初始因子变量保留,得到多个影响因子变量。
在一个可选的实施例中,在步骤S11之后,方法还包括:
对历史数据进行填补。
删除历史数据中分组内重复的数据。
过滤历史数据中序列长度小于预设序列长度的数据。
在本实施例中,可以根据业务逻辑对空值的填补方法进行选择,对存在空值的数据基于指定方法进行填补。比如:针对销售数据以及温度数据,其中,温度数据缺失时,可以利用平均值、种树等方法进行填补,删除历史数据中分组内重复的数据,并过滤历史数据中序列长度小于预设序列长度的数据,可以避免数据太小无法得到结果。
在一个可选的实施例中,本申请还可以采用深度学习算法进行时序预测,其中,深度学习算法结构包括变量选择网络,LSTM(层)网络,Attention(层)网络。变量选择网络会通过训练来学习多因子对时序预测的影响力,此模型包含三种变量选择网络:静态变量选择网络、编码区动态变量选择网络、解码区动态选择网络,此模型可以处理未来未知的因子,以及未来已知的因子;未来未知的因子只在训练时送入编码区动态变量选择网络;未来已知的因子会同时送入编码区动态变量选择网络和解码区动态选择网络;静态因子只送入静态变量选择网络;LSTM网络编码区和解码区的输出会同时作为下一个网络输入,LSTM网络用于提取短距离的时序特征;Attention网络使用LSTM网络解码区的输出作为q的前身,使用LSTM网络编码区的输出作为k和v的前身;Attention网络用于学习长距离时序特征;此模型输出结果为分位数,损失函数为分位数损失函数。本申请可以提供多种可选择算法进行时序预测,可根据实际偏好以及先验知识来选择算法。
根据本申请提供一种基于多因子变量的时序预测装置,如图3所示,该装置包括:获取模块31,用于获取历史数据;第一确定模块32,用于基于历史数据,确定多个影响因子变量;第一预测模块33,用于基于历史数据和预设的预测模型,预测多个影响因子变量的未来数据;第二确定模块34,用于基于未来数据以及历史数据,利用机器学习算法确定多个影响因子变量的重要性;第二预测模块35,用于基于多个影响因子变量的重要性,对目标变量进行预测,得到预测结果。
本申请根据历史数据以及未来数据的结合,通过机器学习算法对影响因子变量的重要性进行确定,在确定因子变量的重要性后,对目标变量进行预测,从而得到预测结果。解决了现有技术中,没有提供不同因子对预测结果的影响能力,不利于实现对因子进行调整从而改变预测结果这一辅助策略决策的手段的技术问题。
可选的,装置还包括:第二确定模块,用于基于预设的预测模型,确定多个影响因子变量的重要性;修改模块,用于基于影响因子变量的重要性,对影响因子变量进行修改,得到第二预测结果;比对模块,用于将第一预测结果以及第二预测结果进行比对,生成比对结果图。
可选的,第一预测模块包括33:分解单元,用于利用移动平均算法对多个影响因子变量的历史数据进行分解,得到趋势数据;第一确定单元,用于基于历史数据与趋势数据,确定季节数据;训练单元,用于将趋势数据以及季节数据分别输入到预设的预测模型中,得到第一输出结果以及第二输出结果;计算单元,用于基于第一输出结果与第二输出结果,得到未来数据。
可选的,第二确定模块包括:合并单元,用于将未来数据与历史数据进行合并,得到目标数据集;提取单元,用于利用机器学习算法对目标数据集进行特征提取,得到多个维度的时序特征;第二确定单元,用于根据多个维度的时序特征,确定多个影响因子变量的重要性。
可选的,多个维度的时序特征包括第一时序特征、第二时序特征和第三时序特征,其中,提取单元,用于将第一预设时间内的目标数据进行求和或平均,以确定多个影响因子变量的第一时序特征;提取与多个影响因子变量以及目标变量同周期的目标数据,以确定多个影响因子变量的第二时序特征;提取多个影响因子变量在第二预设时间内的目标数据,以确定多个影响因子变量的第三时序特征;其中,第二预设时间包括:日、月、年、是否为周末中的任意一项。
可选的,第一确定模块32,用于基于历史数据,确定多个初始因子变量;对多个初始因子变量进行相关性筛选,确定多个影响因子变量。
可选的,装置还包括:填补模块,用于对历史数据进行填补;删除模块,用于删除历史数据中分组内重复的数据;过滤模块,用于过滤历史数据中序列长度小于预设序列长度的数据。
应理解,本文中前述关于本申请的方法所描述的具体特征、操作和细节也可类似地应用于本申请的装置和***,或者,反之亦然。另外,上文描述的本申请的方法的每个步骤可由本申请的装置或***的相应部件或单元执行。
应理解,本申请的装置的各个模块/单元可全部或部分地通过软件、硬件、固件或其组合来实现。各模块/单元各自可以硬件或固件形式内嵌于电子设备的处理器中或独立于处理器,也可以软件形式存储于电子设备的存储器中以供处理器调用来执行各模块/单元的操作。各模块/单元各自可以实现为独立的部件或模块,或者两个或更多个模块/单元可实现为单个部件或模块。
如图4所示,本申请提供了一种电子设备400,电子设备包括处理器401以及存储有计算机程序指令的存储器402。其中,处理器401执行计算机程序指令时实现上述的基于多因子变量的时序预测方法的各步骤。该电子设备400可以广义地为服务器、终端,或任何其他具有必要的计算和/或处理能力的电子设备。
在一个实施例中,该电子设备400可包括通过***总线连接的处理器、存储器、网络接口、通信接口等。该电子设备400的处理器可用于提供必要的计算、处理和/或控制能力。该电子设备400的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质可存储有操作***、计算机程序等。该内存储器可为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备400的网络接口和通信接口可用于与外部的设备通过网络连接和通信。该计算机程序被处理器执行时执行本申请的方法的步骤。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的基于多因子变量的时序预测方法。
本领域的技术人员可以理解,本申请的方法步骤可以通过计算机程序来指示相关的硬件如电子设备400或处理器完成,计算机程序可存储于非暂时性计算机可读存储介质中,该计算机程序被执行时导致本申请的步骤被执行。根据情况,本文中对存储器、存储或其它介质的任何引用可包括非易失性或易失性存储器。非易失性存储器的示例包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘等。易失性存储器的示例包括随机存取存储器(RAM)、外部高速缓冲存储器等。
以上描述的各技术特征可以任意地组合。尽管未对这些技术特征的所有可能组合进行描述,但这些技术特征的任何组合都应当被认为由本说明书涵盖,只要这样的组合不存在矛盾。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基于多因子变量的时序预测方法,其特征在于,所述时序预测方法包括:
获取历史数据;
基于所述历史数据,确定多个影响因子变量和目标变量;
基于所述历史数据和预设的预测模型,预测多个所述影响因子变量的未来数据;
基于所述未来数据以及所述历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。
2.根据权利要求1所述的基于多因子变量的时序预测方法,其特征在于,所述方法还包括:
基于预设的预测模型,确定多个所述影响因子变量的重要性;
基于所述影响因子变量的重要性,对所述影响因子变量进行修改,得到第二预测结果;
将第一预测结果以及所述第二预测结果进行比对,生成比对结果图。
3.根据权利要求1所述的基于多因子变量的时序预测方法,其特征在于,所述基于所述历史数据和预设的预测模型,预测多个所述影响因子变量的未来数据,包括:
利用移动平均算法对多个所述影响因子变量的历史数据进行分解,得到趋势数据;
基于所述历史数据与所述趋势数据,确定季节数据;
将所述趋势数据以及所述季节数据分别输入到预设的预测模型中,得到第一输出结果以及第二输出结果;
基于所述第一输出结果与第二输出结果,得到未来数据。
4.根据权利要求2所述的基于多因子变量的时序预测方法,其特征在于,所述基于预设的预测模型,确定多个所述影响因子变量的重要性,包括:
将所述未来数据与所述历史数据进行合并,得到目标数据集;
利用机器学习算法对所述目标数据集进行特征提取,得到多个维度的时序特征;
根据多个维度的时序特征,确定多个所述影响因子变量的重要性。
5.根据权利要求4所述的基于多因子变量的时序预测方法,其特征在于,多个维度的所述时序特征包括第一时序特征、第二时序特征和第三时序特征,所述利用机器学习算法将所述目标数据集进行特征提取,得到多个维度的时序特征,包括:
将第一预设时间内的目标数据进行求和或平均,以确定多个所述影响因子变量的第一时序特征;
进行超参搜索,得到拟合结果的周期,提取与多个所述影响因子变量以及目标变量同周期的目标数据,以确定多个所述影响因子变量的第二时序特征;
提取多个所述影响因子变量在第二预设时间内的目标数据,以确定多个所述影响因子变量的第三时序特征;其中,所述第二预设时间包括:日、月、年、是否为周末中的任意一项。
6.根据权利要求1所述的基于多因子变量的时序预测方法,其特征在于,所述基于所述历史数据,确定多个影响因子变量,包括:
基于所述历史数据,确定多个初始因子变量;
对多个所述初始因子变量进行相关性筛选,确定多个影响因子变量。
7.根据权利要求1所述的基于多因子变量的时序预测方法,其特征在于,在获取历史数据之后,所述方法还包括:
对所述历史数据进行填补;
删除历史数据中分组内重复的数据;
过滤历史数据中序列长度小于预设序列长度的数据。
8.一种基于多因子变量的时序预测装置,其特征在于,所述装置包括:
获取模块,用于获取历史数据;
第一确定模块,用于基于所述历史数据,确定多个影响因子变量和目标变量;
第一预测模块,用于基于所述历史数据和预设的预测模型,预测多个所述影响因子变量的未来数据;
第二预测模块,用于基于所述未来数据以及所述历史数据,利用机器学习算法对目标变量进行预测,生成第一预测结果。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的基于多因子变量的时序预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的基于多因子变量的时序预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559065.9A CN116645132A (zh) | 2023-05-17 | 2023-05-17 | 基于多因子变量的时序预测方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559065.9A CN116645132A (zh) | 2023-05-17 | 2023-05-17 | 基于多因子变量的时序预测方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645132A true CN116645132A (zh) | 2023-08-25 |
Family
ID=87623970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310559065.9A Pending CN116645132A (zh) | 2023-05-17 | 2023-05-17 | 基于多因子变量的时序预测方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645132A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648383A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军国防科技大学 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
CN118071179A (zh) * | 2024-04-19 | 2024-05-24 | 浪潮云洲工业互联网有限公司 | 一种多因子收猪数量预测方法、设备及存储介质 |
CN118158116A (zh) * | 2024-05-13 | 2024-06-07 | 南昌大学 | 基于Transformer时序预测模型的网络运行指标预测方法及*** |
-
2023
- 2023-05-17 CN CN202310559065.9A patent/CN116645132A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648383A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军国防科技大学 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
CN117648383B (zh) * | 2024-01-30 | 2024-06-11 | 中国人民解放军国防科技大学 | 一种异构数据库实时数据同步方法、装置、设备及介质 |
CN118071179A (zh) * | 2024-04-19 | 2024-05-24 | 浪潮云洲工业互联网有限公司 | 一种多因子收猪数量预测方法、设备及存储介质 |
CN118158116A (zh) * | 2024-05-13 | 2024-06-07 | 南昌大学 | 基于Transformer时序预测模型的网络运行指标预测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116645132A (zh) | 基于多因子变量的时序预测方法、装置、电子设备及介质 | |
CN110060144B (zh) | 额度模型训练方法、额度评估方法、装置、设备及介质 | |
CN110400021B (zh) | 银行网点现金用量预测方法及装置 | |
CN110390425A (zh) | 预测方法以及装置 | |
CN103778474A (zh) | 资源负载量预测方法、分析预测***及业务运营监控*** | |
CN110415036B (zh) | 用户等级的确定方法、装置、计算机设备和存储介质 | |
CN108182633A (zh) | 贷款数据处理方法、装置、计算机设备和存储介质 | |
CN116091118A (zh) | 电价预测方法、装置、设备、介质及产品 | |
CN111783487B (zh) | 一种读卡器设备的故障预警方法及装置 | |
CN117540336A (zh) | 时间序列预测方法、装置及电子设备 | |
CN114997879B (zh) | 一种支付路由方法、装置、设备和存储介质 | |
CN115511562A (zh) | 虚拟产品推荐方法、装置、计算机设备和存储介质 | |
CN116228284A (zh) | 货品需求预测方法、训练方法、装置、计算机***及介质 | |
CN112667394B (zh) | 一种计算机资源利用率优化方法 | |
US20230259846A1 (en) | Communications apparatus and method for estimating potential demand for improved forecasting and resource management | |
CN114648406A (zh) | 基于随机森林的用户信用积分预测方法和装置 | |
CN113837782B (zh) | 时间序列模型的周期项参数优化方法、装置、计算机设备 | |
CN115250182A (zh) | 一种防止区块链单链数据被篡改的方法及*** | |
CN111783486A (zh) | 一种读卡器设备的维护预警方法及装置 | |
CN114676167B (zh) | 用户存留模型的训练方法、用户存留预测方法和装置 | |
CN112862137A (zh) | 件量预测方法、装置、计算机设备和计算机可读存储介质 | |
US20240177074A1 (en) | Methods and systems for generating optimized planting schedule of crop to overcome storage capabilities | |
CN111339156B (zh) | 业务数据的长期确定方法、装置和计算机可读存储介质 | |
CN117974215B (zh) | 基于XGBoost模型的加氢销量预测方法及存储介质 | |
CN113326177B (zh) | 一种指标异常检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |