CN113836241B - 时序数据分类预测方法、装置、终端设备及存储介质 - Google Patents
时序数据分类预测方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113836241B CN113836241B CN202111047977.5A CN202111047977A CN113836241B CN 113836241 B CN113836241 B CN 113836241B CN 202111047977 A CN202111047977 A CN 202111047977A CN 113836241 B CN113836241 B CN 113836241B
- Authority
- CN
- China
- Prior art keywords
- sequence
- time
- value
- time sequence
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims description 102
- 230000008859 change Effects 0.000 claims description 37
- 238000007667 floating Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000000611 regression analysis Methods 0.000 claims description 7
- 238000013450 outlier detection Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000000712 assembly Effects 0.000 abstract description 3
- 238000000429 assembly Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000001788 irregular Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种时序数据分类预测方法,该方法包括:获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线。本发明还公开了一种时序数据分类预测装置、终端设备及存储介质。本发明通过设置多分类预测组件,针对不同类型时间序列的预测场景,利用不同的预测组件进行预测,能够全面的覆盖繁杂的时间序列类型,提高对时间序列进行预测的适用性和预测准确性。
Description
技术领域
本发明涉及金融科技的深度学习技术领域,尤其涉及一种时序数据分类预测方法、装置、终端设备及存储介质。
背景技术
时序数据分类预测旨在分析标准时间序列数据,基于历史时间序列走势预测未来趋势,生成预测基线,辅助异常点检测、业务决策等。当前时序数据预测方法大多针对单一场景,如网络技术、水文预报等,这些场景的时序数据表现规律、结构相对简单。
而在金融科技领域,特别是银行业务场景中,由于业务场景较为复杂,各业务过程中产生了类型繁杂的时间序列。目前同类预测应用多采用单一预测模型或简单数据分类与模型组合的方式所实现的预测功能,无法适用于无规则、离散、频繁波动等各类型时间序列的预测场景,在变化较为稳定的时间序列的预测场景中,也存在无法保留局部特征,且不能及时、精准捕捉趋势变化等问题,从而导致对时间序列的预测准确性不高。
发明内容
本发明的主要目的在于提供一种时序数据分类预测方法、装置、终端设备及存储介质,旨在解决现有的时序数据预测方法适用性和预测准确性不高的技术问题。
此外,为实现上述目的,本发明还提供一种时序数据分类预测方法,所述时序数据分类预测方法包括以下步骤:
获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线。
可选地,所述根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线的步骤,包括:
根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件,并利用所述目标预测组件构建所述时间序列的桶序列;
利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子;
将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列;
对所述预测值序列进行选择性滤波处理,生成并输出预测基线。
可选地,所述利用所述目标预测组件构建所述时间序列的桶序列的步骤,包括:
利用所述目标预测组件生成所述时间序列中各序列值对应的时间键值;
基于所述时间键值生成所述时间序列的邻域值序列;
对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列。
可选地,所述对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列的步骤,包括:
利用所述目标预测组件中的离群点检测模型计算所述邻域值序列中各序列值的局部可达密度;
根据所述局部可达密度计算所述邻域值序列中各序列值的可达距离,根据所述可达距离识别所述邻域值序列中的离群点并过滤,得到所述时间序列的桶序列。
可选地,所述利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子的步骤,包括:
获取所述桶序列中各时刻序列值的变异系数,根据所述变异系数确定所述时间序列中各时刻序列值的相对浮动率;
对所述时间序列进行趋势分解,生成所述时间序列的趋势项;
对所述趋势项进行低通滤波处理,生成滤波序列并对所述滤波序列进行回归分析,得到所述时间序列的预测趋势值;
对所述预测趋势值和所述滤波序列的序列特征值进行计算,得到所述时间序列中各时刻序列值的趋势因子。
可选地,所述对所述预测值序列进行选择性滤波处理的步骤,包括:
获取预设的零值区间的长度阈值,并对所述预测值序列中,序列长度大于所述长度阈值的零值区间进行标记,生成大零值区间标记;
对所述预测值序列分别进行标准滤波处理和宽松滤波处理,得到标准滤波序列和宽松滤波系列;
以所述标准滤波序列为基准,对所述宽松滤波序列进行对比计算,从所述宽松滤波序列中提取特征信息值;
根据所述大零值区间标记将所述特征信息值更新至所述标准滤波序列中,对所述标准滤波序列进行零值区间特征还原,以对所述预测值序列进行选择性滤波处理。
可选地,所述桶序列的桶单元中包括与所述时间序列的预测值同时刻的历史值,所述将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列的步骤之前,还包括:
基于所述桶序列的桶单元中与所述时间序列的预测值同时刻的历史值,分别计算所述桶序列中各时刻序列值对应的历史零值区间长度和历史变化速率;
基于所述相对浮动率和所述历史零值区间长度计算所述桶序列中各时刻序列值对应的零值区间长度预测值;
基于所述历史变化速率计算所述桶序列中各时刻序列值在序列窗口中的变化速率预测值,其中,所述窗口序列是根据预设的窗口参数对所述桶序列进行窗口截取得到的。
此外,为实现上述目的,本发明还提供一种时序数据分类预测装置,所述时序数据分类预测装置包括:
数据采集模块,用于获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
数据分类模块,用于根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
数据预测模块,用于根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的时序数据分类预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的时序数据分类预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的时序数据分类预测方法的步骤。
本发明实施例提出的一种时序数据分类预测方法、装置、终端设备及存储介质。与现有技术相比,本发明实施例中,通过获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;根据所述时间序列的时序类型,从预设的预测组件集合中选取目标预测组件对所述时间序列进行预测,并输出预测基线。通过设置多分类预测组件,针对不同类型时间序列的预测场景,利用不同的预测组件进行预测并有针对性的进行优化,能够全面的覆盖繁杂的时间序列类型,提高对时间序列进行预测的适用性和预测准确性。
附图说明
图1为本发明实施例提供的终端设备一种实施方式的硬件结构示意图;
图2为本发明时序数据分类预测方法第一实施例的流程示意图;
图3为本发明时序数据分类预测装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例终端设备(又叫终端或者设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示和数据处理功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及时序数据分类预测的计算机程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,所述计算机程序被处理器执行时实现下述实施例提供的时序数据分类预测方法中的操作。
基于上述设备硬件结构,提出了本发明时序数据分类预测方法的实施例。
需要说明的是,传统的时序数据分类预测方法,适用于数据规律和数据结构简单的预测场景,当有多种类型的时间序列时,通过模型简单组合,实现对不同类型时间序列的预测功能。但是,此方式不适用于银行等金融领域中普遍存在的,具有无规则、离散、频繁波动等特征的时间序列,对于波动不频繁的稳定型的时间序列也存在不能及时、精准捕捉趋势变化,容易忽略时间序列的局部特征等情况,导致对时间序列的预测准确性不高。
针对上述问题,本发明提出了一种时序数据分类预测方法,利用多分类预测模型组件,可以全面覆盖银行等金融领域繁杂的时间序列类型,针对离散、频繁波动、特殊波形等时间序列进行针对性优化,提高预测准确性。此外,除了可以在稳定、连续类时间序列场景中实现精准预测,还针对短期趋势大幅变化、频繁波动、离散时间序列等较难学习预测的场景提供了解决方案。
具体地,请参照图2,图2位本发明时序数据分类预测方法第一实施例的流程示意图,在本发明时序数据分类预测方法的第一实施例中,所述时序数据分类预测方法包括:
步骤S10,获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
在本实施例中,对时序数据进行分类预测时,首先获取待处理的时序数据,该时序数据可以是一个时间序列集合,其中包括多个时间序列,如公式1-2所示。时序数据即时间序列数据,时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以是时点数,也就是说,时序数据可以是以预设时长为周期,每周期记录一次或汇总记录一次形成的数据列,其中,时间序列的周期时长可以是每分钟也可以是每小时,或者是更长或更短的时长,或者细化或粗化周期时长的时间颗粒度,形成的数据列可以是月度数据也可以是季度或年度数据。可知地,同一时间段内利用不同的周期时长获取的时序数据中,时间序列的序列长度不同,例如,对于分钟级的时序数据来说,若周期时长为1分钟,每1分钟获取一次数据,以一天获取的数据为一个时间序列,每个时间序列的长度为1440个序列值,以一周获取的数据为一个时间序列,每个时间序列的长度为7×1440个序列值;若周期时长为2分钟,每2分钟获取一次数据,以一天获取的数据为一个时间序列,每个时间序列的长度为720个序列值。时间序列分析或预测的目的是通过找出样本内时间序列的统计特性和发展规律性,构建时间序列模型,进行样本外预测,即基于历史时序数据对未来同期或同时刻的数据进行预测。其中,时序数据的周期时长和序列长度可以根据不同来源的时序数据,或者根据对时序数据预测值的颗粒度细化需求进行自适应设置。
本实施例中获取的待处理的时序数据,可以是服务器数据,也可以是客户端的数据,或者是二者的结合,具体是与待预测的未来时刻的预测值相关的历史时序数据,包括历史相同时间点及其前后一段邻域时间点的时序数据。对时序数据进行分类预测,主要是根据不同服务器或客户端的业务性质,对不同时间段的数据流量或业务请求量进行预测,辅助对突发业务导致的流量异常进行检测和识别。
D={X1,X2,...,Xm} (1)
Xi=[x1,x2,...,xn],i=1,2,...,m (2)
其中,D是时间序列集合即获取的时序数据,Xi为时间序列集合中的一个时间序列,x1、x2...xn是时间序列中各时刻记录的序列值,在本实施例中,获取时序数据中,各个时间序列的序列值是以分钟为周期时长,每分钟记录一次的数据,以下仍以此为例进行说明。
步骤S20,根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
根据获取的时序数据中的各个时间序列的标签信息,确定各个时间序列的时序类型,其中,各个时间序列的标签信息是对获取的时序数据进行分类预处理得到的。在本实施例中,根据时序数据的分类预测的实际需求,按照不同类型的特征从不同的维度将时序数据中的时间序列分为大量级、中量级、小量级、微量级、上线型、下线型、稳定型、波动型、不规则型和常量型等十余种类型。可知地,在实际的业务场景中,可以根据实际需求,从不同维度将时间序列的类型划分为更多或更少的类型。
可以理解的是,由于是从不同维度根据不同类型的特征对时间序列进行的分类,因此,同一个时间序列可能同时有多个标签类型,从而对应不同的时序类型,例如,一个稳定型的时间序列,可能同时也是大量级时间序列。
步骤S30,根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线。
根据时序数据中各个时间序列的时序类型,从预设的预测组件集合中选取目标预测组件对各个时间序列进行预测,并输出预测基线。需要说明的是,由于一个时间序列可能对应多个时序类型,因此,从预设的预测组件库中选取的目标预测组件可以是一个或多个,生成的预测基线是未来一段时间内时间序列的发展趋势,表明了时间序列对应的数据流量在未来一段时间的发展趋势。
进一步地,当有多个预测组件对同一个时间序列进行预测时,生成的预测基线中的各个预测值可以是对各个预测组件的预测值进行整合处理得到的,该整合处理包括加权平均和拼接等。若多个预测组件对时间序列未来同一目标时刻的序列值进行预测,则可以对多个预测组件的预测值按照对应的时序类型等进行加权平均,作为未来目标时刻的最终预测值并生成预测基线;若多个预测组件分别对未来不同时刻的序列值进行预测,则可以将不同预测组件的预测值进行拼接,从而得到时间序列未来不同时刻的预测值,生成预测基线。
可以理解的是,本实施例中的整合处理方式并不限于此,多种整合处理方式也可以叠加使用,从而提高预测结果的准确性,达到结合时间序列不同维度的特征生成不同的预测值,提高时间序列的预测准确性的目的。
进一步地,步骤S30的细化,包括:
步骤S301,根据所述时间序列的时序类型,从预设的预测组件集合中选取目标预测组件,并利用所述目标预测组件构建所述时间序列的桶序列;
在本实施例中,通过将不同类型的时间序列映射到各类型时间序列对应的预测组件中,输出预测基线,实现了多分类预测组件通过多组件组合进行基线计算的预测功能。在对各类型的时间序列进行预测并生成预测基线时,用到的多分类预测组件包括节假日策略、邻域值策略、趋势因子、离群点过滤、选择性滤波、相对浮动率、零值区间策略、变化速率策略等。
具体地,首先根据时间序列的类型选择对应的目标预测组件,并利用选取的目标预测组件对时序数据进行预处理,进而构建时间序列集合中各时间序列的桶序列(buckets)。其中,预处理包括桶排序和离群点过滤处理,得到对应的桶序列,桶序列的构建是基于历史时序数据,按照节假日、工作日和周末等不同的时间策略分别进行特征提取的序列,在各个时间序列对应的桶序列中,按照节假日、工作日和周末等不同的时间策略对时间序列进行划分并进行桶排序和离群点过滤,得到对应的桶序列,基于同一个时间策略,在各个桶序列中分别存放了往期同时刻或同时期的历史数据,如构建的某个节假日的的桶序列中,存放的是往期该节假日的历史时序数据。对于某时刻i对应的桶序列,在往期同时刻时序数据的基础上,还包含该时刻邻域时间点的时序数据,其中,邻域时间点的时序数据可用于平滑序列波动性,从而使时序数据的周期性等特征更加明显。基于历史时序数据构建桶序列,可以使预测组件高效学习节假日、周末等特定时间段的时序特征和周期性,提高预测组件对特定时间段的序列值的预测准确性。
步骤S302,利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子;
在构建时间序列的桶序列之后,利用选取的目标预测组件计算各时间序列各个时刻序列值的相对浮动率和趋势因子,时间序列各个时刻序列值的相对浮动率表明了时间序列的波动程度,时间序列各时刻的趋势因子是时间序列未来时刻的序列值的发展趋势的权重系数,可以是一个,也可以是多个。在计算各时刻的相对浮动率时,根据时间序列中获取序列值的周期时长不同,基于构建的桶序列中的序列值进行计算,对时间序列中的序列值按照设定的时间单位进行聚合和拟合,计算各个时间单位对应的相对浮动率。可知地,在计算相对浮动率时,采用的单位时间颗粒度越小,相对浮动率精度越高,对时间序列的序列值未来总体的发展趋势的预测也就越精确。计算趋势因子时,可以以天为时间单位,也可以以周为时间单位,还可以以月为时间单位,分别计算多个不同时间颗粒度的趋势因子,以得到更加精确的预测值。
步骤S303,将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列;
在本实施例中,基于分钟级的时序数据,计算出的趋势因子至少包括通用趋势因子和月度趋势因子,其中,通用趋势因子的时间颗粒度与时序数据的时间颗粒度相同,月度趋势因子的时间颗粒度更加粗化。在生成预测值序列中的各个预测值时,具体地,首先基于计算出的各时刻的相对浮动率,遍历桶序列中的各个序列值,并生成各时刻序列值的初始预测值,在本实施例中,为得到更加精确的预测值,基于构建的桶序列对各桶内序列值进行排序后,取预设的百分位数中的最小值作为下标分位值,结合各时刻的相对浮动率生成各预测时刻的初始预测值,然后利用计算得到的各时刻的趋势因子对部分或全部初始预测值进行加权,将计算出的趋势因子叠加至桶序列的序列值中,对比生成预测值进而得到预测值序列。
具体地,若计算出的趋势因子包括多个,以通用趋势因子和月度趋势因子为例,在生成初始预测值后,首先叠加通用趋势因子,得到各时刻的预测值,然后在全部时刻预测值的基础上,叠加颗粒度更加粗化的月度趋势因子,对全部预测值的整体趋势进行调整从而生成预测值序列。本实施例中的通用趋势因子基于时序数据的周期时长,采用与时序数据相同的时间颗粒度对历史时刻的原始时间序列进行计算,根据时序数据当前和/或往期趋势,预测各序列值未来的变化趋势,变化趋势包括上升和下降,并基于构建的桶序列计算时间序列中各个序列值与其邻域内其他序列值之前的差异,计算各序列值的变异系数,即相对浮动率,该相对浮动率表征了时间序列的局部波动性或离散度。根据各序列值的相对浮动率,结合趋势因子的加权,可以对时间序列未来同时刻的数据进行预测。可知地,计算趋势因子的时间颗粒度以及趋势因子的数量,可以自定义设置,在此不再赘述。
进一步地,在叠加通用趋势因子生成的预测值上进一步叠加时间颗粒度更加粗化的月度趋势因子,可以作用于整体序列的趋势抬升或下降。若生成预测值的通用趋势因子是以周为周期进行趋势分解,生成分钟级的各时刻序列值的通用趋势因子,该通用趋势因子只能单独反映出未来同一时刻序列值的变化趋势,若叠加以天为时间颗粒度的月度趋势因子,相对于通用趋势因子,月度趋势因子基于较为粗化的时间颗粒度,可以结合序列值当前的变化趋势以及总体的变化趋势,对各时刻序列值的预测值进行调整。在计算月度趋势因子时,首先计算往期相近月度同时期的序列变异系数,衡量序列的变异程度,当月度变化较平稳时,计算当前月度趋势值,当前月度趋势值的一种计算方式如下列公式3所示:
其中,mean(corres)为历史同期数据过滤极值后的均值,xday=x1+x2+...+xa为当日预测值总量,若当前存在月度趋势,则在预测值序列中叠加当前月的月度趋势影响,利用相对浮动率和当前月度趋势因子加权的方式,对未来的发展趋势进行预测,可以提高预测准确度。可知地,当通用趋势因子的时间颗粒度变化时,叠加的趋势因子的时间颗粒度可以从月度变为季度或年度等。
步骤S304,对所述预测值序列进行选择性滤波处理,生成并输出预测基线。
根据生成的预测值生成预测基线并输出,在生成预测基线之前,要对生成的预测值进行选择性滤波,利用不同频率参数的低通滤波器组合,实现对原时间序列局部特征的保留。需要说明的是,在生成初始预测值时,基于计算出的各时刻的相对浮动率,对构建的桶序列中的历史同时刻的序列值进行计算,得到初始预测值,然后叠加基于原始时间序列中历史同期或同时刻的通用趋势因子,得到更加精确的预测值,在此基础上,还可以对全部的预测值叠加颗粒度更加粗化的趋势因子,对各时刻预测值的整体趋势进行调整,使各时刻序列值的预测值更加准确。
在本实施例中,通过获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;根据所述时间序列的时序类型,从预设的预测组件集合中选取目标预测组件对所述时间序列进行预测,并输出预测基线。通过设置多分类预测组件,针对不同类型时间序列的预测场景,利用不同的预测组件进行预测并有针对性的进行优化,能够全面的覆盖繁杂的时间序列类型,提高对时间序列进行预测的适用性和预测准确性。
进一步地,参照图3,在本发明上述第一实施例的基础上,提出了本发明时序数据分类预测方法的第二实施例。本实施例是第一实施例中步骤S301细化的步骤,步骤S301中,构建时间序列的桶序列的步骤包括:
步骤A1,利用所述目标预测组件生成所述时间序列中各序列值对应的时间键值;
基于上述实施例,本实施例中是利用选取的目标预测组件对输入的时间序列集合中的各个时间序列进行预处理,构建各时间序列的桶序列步骤的细化,在本实施例中任意上述实施例中的时序数据为例,在对时序数据进行预测时的预处理阶段,基于节假日和邻域策略分析历史时序数据,生成历史时序数据的桶序列。在本实施例中,生成的桶序列主要包括季节性桶序列(seasonal buckets)和临期桶序列(clst buckets),seasonal buckets是根据预测时刻的类型,映射到周末、工作日、节假日等特征,选取具有相同特征的历史数据构建的桶序列,clst buckets是利用预测时间点临近日期的时序数据构建的桶序列,如,近期28天的分钟级时序数据。定义桶序列中以周末、工作日、节假日等不同类型的时间键值,从时间序列集合的各个时间序列中提取节假日、工作日和周末等不同的时间特征并生成对应的时间键值,生成的时间键值包含了预测时间点历史相同时刻及其前后一段邻域时间点的数据。其中,不同类型的时间键值获取的历史时序数据,可以反映同期或同时刻的数据变化趋势,但同样的业务的数据量会随着时间发展产生或多或少的变化,因此,构建的桶序列中的序列值还需要包括预测时间点临近日期的时序数据,以叠加时序数据近期的变化趋势,结合往期时序数据反映出的总体的变化趋势,叠加近期数据变化趋势的影响,对预测时间点的预测值进行综合分析与预测,从而得到更加精确的预测值。
步骤A2,基于所述时间键值生成所述时间序列的邻域值序列;
基于生成的时间键值生成时间序列的邻域值序列,具体地,根据时间序列中记录的数据列的周期时长的颗粒度,生成周期时长的颗粒度相同或更加粗化的邻域值序列。例如,若时间序列的周期时长为1分钟,则生成以天为颗粒度的时间序列的邻域值序列。基于此,以邻域宽度为5为例进行详细说明,以每个时间序列中每分钟记录的数据为中心,根据生成的时间键值,通过节假日、周末等时间键值进行特征映射,从历史桶序列中获取参考数据生成以分钟为周期时长的邻域值序列,其中,邻域值序列单元中存储的,是以时间序列中每分钟记录的序列值为中心,邻域宽度为5的历史邻域值集合。
步骤A3,对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列。
进一步地,对生成的邻域值序列进行离群点过滤,排除噪声数据的干扰,稳定型或连续型的时间序列中可能存在异常、离群点等噪声数据,在计算过程中会导致局部预测基线的偏移误差。因此,需要对离群的噪声点进行过滤剔除,消除对预测值的影响,从而保证预测值的准确性。
具体地,对离群点进行过滤的步骤,可以包括:
步骤A301,利用所述目标预测组件中的离群点检测模型计算所述邻域值序列中各序列值的局部可达密度;
步骤A302,根据所述局部可达密度计算所述邻域值序列中各序列值的可达距离,根据所述可达距离识别所述邻域值序列中的离群点并过滤,得到所述时间序列的桶序列。
在本实施例中,应用离群点检测模型(LOF)过滤离群点数据。LOF通过比较每个点(时间序列的序列值)与邻域点的密度来判定离群点,密度越低越有可能为离群点。其中,密度由点之间的距离来衡量,由局部可达密度进行标识和区分,其中,各个序列值的局部可达密度的计算公式如下列公式4-5所示:
reach_distk(p,o)=max{k-distance(o),d(p,o)} (5)
在公式4至5可知,每个点的局部科达密度是该点与邻近点平均可达距离的倒数,其中,点p为时间序列中的点(即序列值),点o为点p的邻域集合Nk(p)中的点,lcdk为局部可达密度,点p到点o的可达距离reach_distk(p,o)为点o的K-邻近距离k-distance(o)和点p与点o之间的直接距离d(p,o)的最大值。
在桶序列中,LOF模型识别出的离群点数据将被清洗掉。从而消除噪声点对预测值的影响,保障预测准确率。
在本实施例中,通过在预测阶段对时间序列进行预处理,构建时间序列的桶序列,从而提取历史时间序列的特征信息,高效学习历史时间序列的周期特征、节假日和周末等特定时间段的特殊规律,保障预测准确率,进一步地,通过对离群点进行过滤,消除噪声点对预测值的影响,进一步保证预测值的准确性。
基于上述第一和/或第二实施例,提出本发明时序数据预测分类方法的第三实施例,本实施例是对上述实施例中,步骤S302和S304的细化,步骤S302中,从预设的预测组件库中选取目标预测组件对时间序列进行预测时,利用目标预测组件计算时间序列中各时刻序列值的相对浮动率和趋势因子的步骤包括:
步骤B1,获取所述桶序列中各时刻序列值的变异系数,根据所述变异系数确定所述时间序列中各时刻序列值的相对浮动率;
步骤B2,对所述时间序列进行趋势分解,生成所述时间序列的趋势项;
步骤B3,对所述趋势项进行低通滤波处理,生成滤波序列并对所述滤波序列进行回归分析,得到所述时间序列的预测趋势值;
步骤B4,对所述预测趋势值和所述滤波序列的序列值进行计算,得到所述时间序列中各时刻序列值的趋势因子。
在本实施例中,是对上述实施例中,计算时间序列各时刻相对浮动率和趋势因子步骤的细化,在计算相对浮动率时,首先根据获取的桶序列中,确定各时刻序列值的变异系数,根据各时刻的变异系数确定对应的相对浮动率,各时刻的变异系数的一种示例性计算方式如下列公式6所示:
其中,rsdi表示桶序列中第i时刻的相对浮动率,std(bucketi)表示桶序列中第i时刻的序列值的标准差,ave(bucketi)表示桶序列第i时刻的序列值的平均值,在本实施例中,以各时刻的标准差和平均值的比值作为相对浮动率。
进一步地,在计算趋势因子时,以通用趋势因子为例,首先对时间序列进行趋势分解,在分解时,需要获取周期参数,按照获取的周期参数对时间序列进行拆分并拟合,需要说明的是,周期参数的时间颗粒度或时长,应当不高于时间序列的序列长度对应的时长。在本实施例中,以周为周期参数,以按照分钟级获取的近期21天的时序数据作为一个时间序列进行趋势分解,其中时间序列的序列长度为21×1440,在计算通用趋势因子时,以7×1440为周期分解时间序列并计算趋势项。对计算出的各时刻的趋势项进行低通滤波处理,得到滤波序列,对滤波序列进行回归分析,得到时间序列各时刻的趋势预测值,对该趋势预测值和滤波序列的特征值进行计算,得到时间序列中各时刻序列值的通用趋势因子。
进一步地,在本实施例中,对滤波序列进行回归分析时,结合线性回归(LinearRegression)和自定义的逻辑回归(Logistic)算法模型,在滤波后,首先利用线性回归对时间序列中各时刻的序列值进行线性拟合,并根据拟合的趋势线区分出斜率为正和斜率为负的点,利用逻辑回归算法对其中斜率相同的点对应的序列值再次行拟合,根据拟合斜率和末端点位置预测未来趋势,得到各时刻的趋势预测值。各时刻通用趋势因子的一种计算方式如下列公式7-8所示:
在公式7-8中,ratios表示时间序列各时刻的通用趋势因子,F(X)为各时刻的趋势预测值,公式7中是将滤波序列的中位数median作为序列的特征值,通用趋势因子为逻辑回归算法模型输出的趋势预测值F(X)与滤波序列中位数的比值。进一步地,a,b为回归模型的模型参数,a,b的值及其系数在回归分析过程中均为可变参数。regressor是对斜率符号相同的点进行线性拟合训练的线性回归模型,k0为regressor输出的线性拟合序列linears的第一个序列值,y0为经过线性拟合后确定的时间序列中每个周期中斜率符号发声改变的过渡点,也即,在本实施例中,以线性回归模型的输出作为参考,确定逻辑回归模型的输入,首先对时间序列进行线性拟合,分别确定其中斜率为正和为负的点,以分解出的每个周期的序列值中前后序列值斜率符号不同的点作为参考,将每个周期中斜率符号相同的点分别输入至逻辑回归模型中,得到对应的趋势预测值。
进一步地,基于计算出的通用趋势因子和相对浮动率,遍历桶序列中各时刻的序列值,生成各时刻序列值的预测值,得到预测值序列,对得到的预测值序列进行选择性滤波处理,生成并输出预测基线,其中,对预测值序列进行选择性滤波处理的细化,包括:
步骤C1,获取预设的零值区间的长度阈值,并对所述预测值序列中,序列长度大于所述长度阈值的零值区间进行标记,生成大零值区间标记;
步骤C2,对所述预测值序列分别进行标准滤波处理和宽松滤波处理,得到标准滤波序列和宽松滤波系列;
步骤C3,以所述标准滤波序列为基准,对所述宽松滤波序列进行对比计算,从所述宽松滤波序列中提取特征信息值;
步骤C4,根据所述大零值区间标记将所述特征信息值更新至所述标准滤波序列中,对所述标准滤波序列进行零值区间特征还原,以对所述预测值序列进行选择性滤波处理。
基于信号滤波的原理,利用不同频率参数的低通滤波器组合,实现保留局部特征的序列平滑操作,在一定程度上保留序列突变型下陷的情形,提高对局部的预测准确度。首先,获取预设的零值区间的长度阈值,对时间序列中,零值区间的序列长度大于该长度阈值的区间进行标记,生成大零值区间(ZeroRangeMarks),例如,若长度阈值为10,当时间序列中存在连续为零的序列值,且数量超过10个,则将此区间标记为时间序列的大零值区间,具体的标记方式,包括但不限于记录序列值的下标。
对标记的大零值区间分别进行标准滤波和宽松滤波处理,得到标准滤波序列和宽松滤波序列,第一次标准滤波、严格滤波系数,生成较为平滑的标准滤波序列series,第二次宽松滤波,由于标准滤波过平滑可能会抹除下陷等部分特征,通过宽松滤波生成保留下陷等特征部分的宽松滤波序列refseries。
以series为标准,对比refseries计算,对符合特征的下陷区域及其邻域值进行提取,得到对应的特征信息值,参考大零值区间标记所标记的序列位置,将提取的特征信息值更新到标准滤波序列中,还原标准滤波序列中的零值区间特征,从而完成对预测值序列的选择性滤波。
进一步地,在对零值区间进行标记时,以记录下标为例,首先生成一个与预测值序列序列长度相同的大零值区间序列,遍历预测值序列中的各个序列值,序列值为0的,则在大零值区间序列中,将与0值下标位置相同的序列值设置为0,预测值序列中非0的序列值,则在大零值区间序列中将下标位置相同的序列值统一设置为1,以此来区分预测值序列中的0值和非0值。在对标准滤波序列进行特征还原时,根据大零值区间序列中0值的下标位置对标准滤波序列的序列值进行索引,从而将从宽松滤波序列中提取的特征信息值更新到标准滤波序列中,进而对标准滤波序列的特征还原,实现对预测值序列的选择性滤波处理。
在本实施例中,通过计算相对浮动率和通用趋势因子对时间序列的序列值进行预测,并对生成的预测值序列进行选择性滤波,在预测值序列中,保留历史时间序列的局部特征,提高对时间序列的预测准确性。
基于上述各实施例,提出了本发明时序数据分类预测方法的第四实施例,在本实施例中,构建的桶序列的桶单元中包括与时间序列的预测值同时刻的历史值,上述实施例中的预测基线的生成方式适用于大量级、重量级、连续型等类型的时间序列,小量级和微量级的时间序列多表现为不规则、离散或波动频繁,对于不规则、离散或波动频繁等微小量级的时间序列,在生成预测基线时,还要根据时间序列的类型标签信息,选择不同的预测组件叠加更多策略进行处理,进而生成预测基线。例如,对于微小量级等离散型、不规则型和波动型等类型的时间序列,在上述策略的基础上,可能还需要叠加零值区间策略和/或变化速率策略等,进行额外的处理以得到精确的预测值。
具体地,基于计算出的相对浮动率和趋势因子,生成时间序列各时刻序列值的预测值之前,还包括:
步骤D1,基于所述桶序列的桶单元中与所述时间序列的预测值同时刻的历史值,分别计算所述桶序列中各时刻序列值对应的历史零值区间长度和历史变化速率;
步骤D2,基于所述相对浮动率和所述历史零值区间长度计算所述桶序列中各时刻序列值对应的零值区间长度预测值;
步骤D3,基于所述历史变化速率计算所述桶序列中各时刻序列值在序列窗口中的变化速率预测值,其中,所述窗口序列是根据预设的窗口参数对所述桶序列进行窗口截取得到的。
如上所述,对于微小量级等离散型、不规则型和波动型的时间序列,需要额外叠加策略进行预测,主要是根据微小量级时间序列的零值区间进行计算,从而生成预测值。其中,零值区间策略针对微小量级序列的零值区间特征进行学习,输出预测的零值区间范围。此时,桶序列的ti时刻对应的桶单元bucketi,记录历史同期该点涉及的零值区间长度li值,若此时刻非0,则li=0,具体预测算法可以是下列公式9所示:
predi=max(rsdi×percentile(bucketi,90),default) (9)
公式9中,rsdi为桶序列中ti时刻序列值的相对浮动率,percentile(bucketi,90)即取值bucketi单元中90分位数的序列值,这里default为2,是可以根据经验进行自定义设置和自适应调整的,预测值描述未来时刻ti涉及的零值区间长度。可知地,bucketi单元的取值范围也可以根据经验设置,针对微小量级序列的零值区间特征进行学习,输出预测的零值区间范围。
进一步地,针对平稳型序列短期内断崖式上升或下降的异常检测场景,这种变化通常由严重等级的业务故障导致,因此需要进行检测识别,在本实施例中,采用变化速率策略,利用序列的变化速率对异常情况进行预测。
在变化速率策略中,桶序列buckets中的桶单元bucketi,存储历史同期时刻ti点所在窗口wi的变化速率值ratioi。wi是根据桶序列中各序列值的下标按照窗参数进行截取得到的序列窗口,ratioi计算方法如下列公式10-11所示:
其中,vmax、vmin分别为各个序列窗口中的最大值和最小值,distance为最大最小值的距离,该距离可以通过两者在序列中的下标计算,变化速率的预测值计算方法可以是下列公式12所示:
pedi=ave(bucketi)×α+median(bucketi)×β+mode(bucketi)×ε (12)
上述公式12中,α、β、ε为权重系数,需满足以下公式13所示的约束
条件,且α的值可以根据历史数据总结经验进行设置,这里α的值设置为0.5。
α+β+ε=1,α≥β+ε (13)
在本实施例中,通过窗口截取历史时间序列,根据窗口滑动计算历史序列各时刻的变化速率,然后按桶序列方式收集各时刻的变化速率,检测时间序列短期内断崖式上升或下降的异常场景。针对大量级和中量级等连续型时间序列的预测方法,无法对具有离散、无规则波动等特征的微小量级时间序列进行有效拟合,会影响后续预测值应用场景如异常检测等,利用零值区间策略和变化速率策略等方式,针对微小量级序列的零值区间特征和序列值的断崖式异常变化进行学习,进而提高对不同类型时序数据的特征学习,提高针对不同类型时序数据的预测灵活性。
本实施例中,通过增加零值区间策略和变化速率策略,可以提高对微小量级等具有不规则、频繁波动和离散等特征的时间序列的拟合效果,从而提高预测准确性,实现针对不同类型的时序数据,利用不同的预测组件对应的策略进行预测,提高对时序数据预测的适用性和灵活性。
此外,参照图3,本发明实施例还提出一种时序数据分类预测装置,所述时序数据分类预测装置包括:
数据采集模块10,用于获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
数据分类模块20,用于根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
数据预测模块30,用于根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线。
可选地,所述数据预测模块30包括:
桶序列构建单元,用于根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件,并利用所述目标预测组件构建所述时间序列的桶序列;
参数计算单元,用于利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子;
序列预测单元,用于将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列;
选择性滤波单元,用于对所述预测值序列进行选择性滤波处理,生成并输出预测基线。
可选地,所述桶序列构建单元,还用于:
利用所述目标预测组件生成所述时间序列中各序列值对应的时间键值;
基于所述时间键值生成所述时间序列的邻域值序列;
对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列。
可选地,所述桶序列构建单元,还用于:
利用所述目标预测组件中的离群点检测模型计算所述邻域值序列中各序列值的局部可达密度;
根据所述局部可达密度计算所述邻域值序列中各序列值的可达距离,根据所述可达距离识别所述邻域值序列中的离群点并过滤,得到所述时间序列的桶序列。
可选地,所述参数计算单元,还用于:
获取所述桶序列中各时刻序列值的变异系数,根据所述变异系数确定所述时间序列中各时刻序列值的相对浮动率;
对所述时间序列进行趋势分解,生成所述时间序列的趋势项;
对所述趋势项进行低通滤波处理,生成滤波序列并对所述滤波序列进行回归分析,得到所述时间序列的预测趋势值;
对所述预测趋势值和所述滤波序列的序列特征值进行计算,得到所述时间序列中各时刻序列值的趋势因子。
可选地,所述选择性滤波单元,还用于:
获取预设的零值区间的长度阈值,并对所述预测值序列中,序列长度大于所述长度阈值的零值区间进行标记,生成大零值区间标记;
对所述预测值序列分别进行标准滤波处理和宽松滤波处理,得到标准滤波序列和宽松滤波系列;
以所述标准滤波序列为基准,对所述宽松滤波序列进行对比计算,从所述宽松滤波序列中提取特征信息值;
根据所述大零值区间标记将所述特征信息值更新至所述标准滤波序列中,对所述标准滤波序列进行零值区间特征还原,以对所述预测值序列进行选择性滤波处理。
可选地,所述数据预测模块30,还包括:
历史数据处理单元,用于基于所述桶序列的桶单元中与所述时间序列的预测值同时刻的历史值,分别计算所述桶序列中各时刻序列值对应的历史零值区间长度和历史变化速率;
零值区间预测单元,用于基于所述相对浮动率和所述历史零值区间长度计算所述桶序列中各时刻序列值对应的零值区间长度预测值;
变化速率预测单元,用于基于所述历史变化速率计算所述桶序列中各时刻序列值在序列窗口中的变化速率预测值,其中,所述窗口序列是根据预设的窗口参数对所述桶序列进行窗口截取得到的。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的时序数据分类预测方法中的操作。
此外,本发明实施例还提出一种计算机程序产品,包括计算机程序,所述计算机被处理器执行时实现上述实施例提供的时序数据分类预测方法中的操作。
本发明设备、计算机程序产品和计算机可读存储介质各实施例,均可参照本发明时序数据分类预测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的时序数据分类预测方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种时序数据分类预测方法,其特征在于,所述时序数据分类预测方法包括以下步骤:
获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线;
所述根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线的步骤,包括:
根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件,并利用所述目标预测组件构建所述时间序列的桶序列;
利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子;
将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列;
对所述预测值序列进行选择性滤波处理,生成并输出预测基线。
2.如权利要求1所述的时序数据分类预测方法,其特征在于,所述利用所述目标预测组件构建所述时间序列的桶序列的步骤,包括:
利用所述目标预测组件生成所述时间序列中各序列值对应的时间键值;
基于所述时间键值生成所述时间序列的邻域值序列;
对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列。
3.如权利要求2所述的时序数据分类预测方法,其特征在于,所述对所述邻域值序列进行离群点过滤处理,得到所述时间序列的桶序列的步骤,包括:
利用所述目标预测组件中的离群点检测模型计算所述邻域值序列中各序列值的局部可达密度;
根据所述局部可达密度计算所述邻域值序列中各序列值的可达距离,根据所述可达距离识别所述邻域值序列中的离群点并过滤,得到所述时间序列的桶序列。
4.如权利要求1所述的时序数据分类预测方法,其特征在于,所述利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子的步骤,包括:
获取所述桶序列中各时刻序列值的变异系数,根据所述变异系数确定所述时间序列中各时刻序列值的相对浮动率;
对所述时间序列进行趋势分解,生成所述时间序列的趋势项;
对所述趋势项进行低通滤波处理,生成滤波序列并对所述滤波序列进行回归分析,得到所述时间序列的预测趋势值;
对所述预测趋势值和所述滤波序列的序列特征值进行计算,得到所述时间序列中各时刻序列值的趋势因子。
5.如权利要求1所述的时序数据分类预测方法,其特征在于,所述对所述预测值序列进行选择性滤波处理的步骤,包括:
获取预设的零值区间的长度阈值,并对所述预测值序列中,序列长度大于所述长度阈值的零值区间进行标记,生成大零值区间标记;
对所述预测值序列分别进行标准滤波处理和宽松滤波处理,得到标准滤波序列和宽松滤波序列;
以所述标准滤波序列为基准,对所述宽松滤波序列进行对比计算,从所述宽松滤波序列中提取特征信息值;
根据所述大零值区间标记将所述特征信息值更新至所述标准滤波序列中,对所述标准滤波序列进行零值区间特征还原,以对所述预测值序列进行选择性滤波处理。
6.如权利要求1所述的时序数据分类预测方法,其特征在于,所述桶序列的桶单元中包括与所述时间序列的预测值同时刻的历史值,所述将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列的步骤之前,还包括:
基于所述桶序列的桶单元中与所述时间序列的预测值同时刻的历史值,分别计算所述桶序列中各时刻序列值对应的历史零值区间长度和历史变化速率;
基于所述相对浮动率和所述历史零值区间长度计算所述桶序列中各时刻序列值对应的零值区间长度预测值;
基于所述历史变化速率计算所述桶序列中各时刻序列值在序列窗口中的变化速率预测值,其中,所述序列窗口是根据预设的窗口参数对所述桶序列进行窗口截取得到的。
7.一种时序数据分类预测装置,其特征在于,所述时序数据分类预测装置包括:
数据采集模块,用于获取待处理的时序数据,其中,所述时序数据中包括多个时间序列;
数据分类模块,用于根据所述时序数据中各个时间序列的标签信息,确定各所述时间序列的时序类型,其中,所述标签信息是对所述时序数据进行分类预处理得到的;
数据预测模块,用于根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线;
所述根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件对所述时间序列进行预测,并输出预测基线的步骤,包括:
根据所述时间序列的时序类型,从预设的预测组件库中选取目标预测组件,并利用所述目标预测组件构建所述时间序列的桶序列;
利用所述目标预测组件计算所述时间序列中各时刻序列值的相对浮动率和趋势因子;
将所述相对浮动率和所述趋势因子叠加至所述桶序列的序列值中,生成预测值序列;
对所述预测值序列进行选择性滤波处理,生成并输出预测基线。
8.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的时序数据分类预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的时序数据分类预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047977.5A CN113836241B (zh) | 2021-09-07 | 2021-09-07 | 时序数据分类预测方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047977.5A CN113836241B (zh) | 2021-09-07 | 2021-09-07 | 时序数据分类预测方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836241A CN113836241A (zh) | 2021-12-24 |
CN113836241B true CN113836241B (zh) | 2024-01-26 |
Family
ID=78958702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111047977.5A Active CN113836241B (zh) | 2021-09-07 | 2021-09-07 | 时序数据分类预测方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836241B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357037A (zh) * | 2022-03-22 | 2022-04-15 | 苏州浪潮智能科技有限公司 | 一种时序数据分析方法、装置及电子设备和存储介质 |
CN114626896A (zh) * | 2022-04-02 | 2022-06-14 | 北京京东振世信息技术有限公司 | 物品数量预测方法及装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN110263069A (zh) * | 2019-05-27 | 2019-09-20 | 华东师范大学 | 新能源使用行为的时序特征隐含因素抽取和刻画方法及*** |
CN112541745A (zh) * | 2020-12-22 | 2021-03-23 | 平安银行股份有限公司 | 用户行为数据分析方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10560313B2 (en) * | 2018-06-26 | 2020-02-11 | Sas Institute Inc. | Pipeline system for time-series data forecasting |
-
2021
- 2021-09-07 CN CN202111047977.5A patent/CN113836241B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294818A (zh) * | 2013-06-12 | 2013-09-11 | 北京航空航天大学 | 多信息融合的微博热点话题检测方法 |
CN110263069A (zh) * | 2019-05-27 | 2019-09-20 | 华东师范大学 | 新能源使用行为的时序特征隐含因素抽取和刻画方法及*** |
CN112541745A (zh) * | 2020-12-22 | 2021-03-23 | 平安银行股份有限公司 | 用户行为数据分析方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113836241A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220277225A1 (en) | Method and device for detecting anomalies, corresponding computer program and non-transitory computer-readable medium | |
CN106127363B (zh) | 一种用户信用评估方法和装置 | |
CN113836241B (zh) | 时序数据分类预测方法、装置、终端设备及存储介质 | |
US8180664B2 (en) | Methods and systems for forecasting with model-based PDF estimates | |
CN111726341B (zh) | 一种数据检测方法、装置、电子设备及存储介质 | |
CN105894372A (zh) | 预测群体信用的方法和装置 | |
CN112634170A (zh) | 一种模糊图像修正的方法、装置、计算机设备及存储介质 | |
CN112101520A (zh) | 风险评估模型训练方法、业务风险评估方法及其他设备 | |
CN110717509B (zh) | 基于树***算法的数据样本分析方法及装置 | |
CN116029395B (zh) | 商业区域的人流预警方法、装置、电子设备及存储介质 | |
CN113159615A (zh) | 一种工业控制***信息安全风险智能测定***及方法 | |
Li et al. | Credit scoring by incorporating dynamic networked information | |
CN114124460B (zh) | 工控***入侵检测方法、装置、计算机设备及存储介质 | |
CN113836240B (zh) | 时序数据分类方法、装置、终端设备及存储介质 | |
Mohammadi-Ghazi et al. | Conditional classifiers and boosted conditional Gaussian mixture model for novelty detection | |
CN113099475A (zh) | 网络质量检测方法、装置、电子设备及可读存储介质 | |
CN111259922A (zh) | 基于客户退单预警的订单数据处理方法、装置 | |
CN112990583A (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Jain et al. | A toy model study for long-term terror event time series prediction with CNN | |
CN110991079A (zh) | 基于神经网络的油气藏参数解释方法、装置及电子设备 | |
EP3192061A1 (en) | Measuring and diagnosing noise in urban environment | |
CN110399537B (zh) | 一种基于人工智能技术的警情时空预测方法 | |
Hammer et al. | Joint tracking of multiple quantiles through conditional quantiles | |
CN111797289A (zh) | 模型处理方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |