CN113836240B - 时序数据分类方法、装置、终端设备及存储介质 - Google Patents

时序数据分类方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN113836240B
CN113836240B CN202111047596.7A CN202111047596A CN113836240B CN 113836240 B CN113836240 B CN 113836240B CN 202111047596 A CN202111047596 A CN 202111047596A CN 113836240 B CN113836240 B CN 113836240B
Authority
CN
China
Prior art keywords
sequence
time sequence
time
time series
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111047596.7A
Other languages
English (en)
Other versions
CN113836240A (zh
Inventor
李晓颖
胡明艳
吴慧强
李苏璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202111047596.7A priority Critical patent/CN113836240B/zh
Publication of CN113836240A publication Critical patent/CN113836240A/zh
Application granted granted Critical
Publication of CN113836240B publication Critical patent/CN113836240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时序数据分类方法,该方法包括:获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。本发明还公开了一种时序数据分类装置、终端设备及存储介质。本发明通过对时间序列进行多维特征提取,结合时间序列的多维时序特征进行分类,可以有效提高对时序数据的分类精度,从而使对时序数据的分类精度能够满足金融领域复杂业务场景的预测需求。

Description

时序数据分类方法、装置、终端设备及存储介质
技术领域
本发明涉及金融科技的数据处理技术领域,尤其涉及一种时序数据分类方法、装置、终端设备及存储介质。
背景技术
时序数据分类旨在分析标准时间序列数据,根据历史序列的走势对时间序列进行分类,以辅助对未来趋势的预测,从而辅助异常点检测、业务决策等。当前的时序数据大多来源于如网络技术、水文预报等单一场景,这些场景的时序数据表现规律和结构都相对简单,因此,通过简单的数据分类即可满足预测需求。
但是,在银行等金融领域,业务场景较为复杂,各种业务过程产生了类型繁杂的时间序列,在对时序数据进行预测时,需要结合时间序列不同的维度的特征,给时序数据的预测带来极大的挑战。目前,适用于单一场景的时序数据的分类方法对时间序列的分类精度不足,无法满足金融领域复杂业务场景的预测需求。
发明内容
本发明的主要目的在于提供一种时序数据分类方法、装置、终端设备及存储介质,旨在解决现有的时序数据分类方法对时间序列的分类精度不足,无法满足复杂业务场景的预测需求的技术问题。
此外,为实现上述目的,本发明还提供一种时序数据分类方法,所述方法包括以下步骤:
获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。
可选地,所述对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征的步骤,包括:
将所述时间序列集合输入至预设的数据分类器中,其中,所述数据分类器中包括多个分类模型;
利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征。
可选地,所述数据分类器中包括量级分类模型,所述多维时序特征包括量级占比,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述量级分类模型统计各时间序列中序列值大于各量级预设的量级参考阈值的序列值数量,其中,所述量级参考阈值是利用所述量级分类模型对历史时间序列集合进行挖掘得到的;
计算所述序列值数量的量级占比,其中,所述量级占比为各量级对应的序列值的数量在时间序列中所占的比例。
可选地,所述数据分类器中包括上/下线分类模型,所述多维时序特征包括上/下线时刻点,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述上/下线分类模型对所述时间序列集合中的各时间序列进行极值滤波处理,得到多个特征序列;
获取所述特征序列的下标集合,根据所述下标集合遍历所述特征序列的序列值,从所述特征序列中计算上/下线时刻点,其中,所述下标集合中的下标为所述特征序列中各序列值的位置。
可选地,所述数据分类器中包括波动型分类模型,所述多维时序特征包括序列相似度,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤包括:
获取预设的序列样本集合,其中,所述序列样本集合是基于历史时间序列集合中具有特殊波形的时间序列构建的;
利用所述波动型分类模型遍历所述序列样本集合中的各样本序列,并计算所述时间序列集合中的各时间序列与各所述样本序列的序列相似度。
可选地,所述数据分类器中包括不规则型分类模型,所述多维时序特征包括序列波动因子,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
获取第一轮窗口参数并将所述第一轮窗口参数设置为目标窗参数,根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合;
计算各所述子序列集合中各子序列与所述子序列集合中其余子序列的距离,得到各所述时间序列的距离集合;
计算所述距离集合中大于预设的序列标准差阈值的距离值的目标数量,并根据所述目标数量计算第一距离特征值;
基于所述第一轮窗口参数计算第二轮窗口参数,并将所述第二轮窗口参数设置为目标窗参数,返回并执行所述根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合的步骤,得到第二距离特征值;
根据所述第一距离特征值和所述第二距离特征值计算各所述时间序列的波动因子。
可选地,所述数据分类器中包括平稳型分类模型,所述多维时序特征包括极值差序列,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述平稳型分类模型对所述时间序列集合中的各时间序列进行低通滤波处理,得到多个低通滤波序列;
基于所述低通滤波序列中的各序列值计算平稳型量级阈值;
以所述低通滤波序列中的各序列值为中心,对所述低通滤波序列进行滑动窗口处理,得到所述低通滤波序列的各窗口序列;
遍历各所述窗口序列,计算各所述窗口序列中的序列值的极大值与极小值的目标差值,并创建标记序列,其中,所述标记序列的序列长度与所述低通滤波序列的序列长度相同;
若所述目标差值大于所述平稳型量级阈值,则在所述标记序列中对所述目标差值对应的目标窗口序列的中心序列值进行标记,得到极值差序列。
此外,为实现上述目的,本发明还提供一种时序数据分类装置,所述时序数据分类装置包括:
数据获取模块,用于获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
特征提取模块,用于对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
数据分类模块,用于根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的时序数据分类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的时序数据分类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的时序数据分类方法的步骤。
本发明实施例提出的一种时序数据分类方法、装置、终端设备及存储介质。现有技术中,时序数据的分类方法大多针对单一场景进行简单分类,对时序数据的分类精度不足,无法满足金融领域复杂业务场景的预测需求,相比于现有技术,本发明实施例中,通过获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。通过对时间序列进行多维特征提取,结合时间序列的多维时序特征进行分类,可以有效提高对时序数据的分类精度,从而使对时序数据的分类精度能够满足金融领域复杂业务场景的预测需求。
附图说明
图1为本发明实施例提供的终端设备一种实施方式的硬件结构示意图;
图2为本发明时序数据分类方法第一实施例的流程示意图;
图3为本发明时序数据分类装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例时序数据分类终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示和数据处理功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及时序数据分类的计算机程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,所述计算机程序被处理器执行时实现下述实施例提供的时序数据分类方法中的操作。
基于上述设备硬件结构,提出了本发明时序数据分类方法的各个实施例。需要说明的是,时序数据即时间序列数据,是由同一统计指标的数值按其发生的时间先后顺序排列而成的数列,可以是时期数据也可以是时点数据,不同的时序数据具有不同的发展规律,时序数据的预测是基于历史数据的趋势进行分析,从而预测未来表现,不同的时序数据需要利用不同的方式进行预测,因此,在预测之前,首先需要对时序数据进行精准分类。而现有技术中的时序数据分类方法,大多针对网络技术、水文预报等较为单一的场景,对时序数据的分类方式较为简单。但金融领域的业务场景复杂,在各类业务中产生了各种类型的时序数据,不同类型的时序数据具有不同的特征,在进行预测时,一般利用多分类的预测模型结合时序数据不同维度的特征进行综合预测,简单的分类方式对时序数据的分类精度不足,无法确定在预测时需要使用哪些预测模型,因此,单一场景下的时序数据分类精度,无法满足复杂场景的预测需求。
基于此,本发明实施例提出了一种时序数据分类方法,通过对银行等金融领域经验累积的复杂业务场景下生成的类型丰富的时序数据进行分析,对具有不同特征的时间序列分别设计了不同的分类规则,可以全量表述各类型时间序列的表现,从而有效的辅助基线预测功能。
具体地,参照图2,图2是本发明时序数据分类方法的第一实施例的流程示意图,在本发明时序数据分类方法的第一实施例中,所述时序数据分类方法包括:
步骤S10,获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
在本实施例中,时序数据分类方法在时序数据分类终端中实施,该终端可以是个人电脑,也可以是平板电脑等具有显示和数据处理功能的移动式终端设备。可知地,对时序数据进行分类,主要是为了辅助基线预测,从而辅助业务决策和对异常点的检测,在对时序数据进行分类之前,首先要获取待分类的时序数据,该时序数据是时间序列集合,其中包括多个时间序列。
进一步地,获取的时间序列集合中的各时间序列的来源可以相同,也可以不同,不同的时间序列可以对应同一个统计指标,也可以是不同的统计指标。
步骤S20,对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
对时间序列集合中的各个时间序列进行分类时,首先对各个时间序列分别进行多维特征提取,得到各个时间序列的多维时序特征,在本实施例中,针对不同类型的时间序列,设计了包含多个特征提取规则的分类器。对各个时间序列进行特征提取时,可以是利用不同的规则对多个时间序列同时进行提取,具体地,根据分类器中设置的规则数量,对时间序列集合中的时间序列进行批次划分,每次将同一批次的时间序列发送至分类器中同时进行特征提取,在进行特征提取时,每个规则完成对当前时间序列的特征提取后,与其他规则交换时间序列,直到分类器中的各个规则对同一批次中需要处理的时间序列都进行了特征提取为止,然后输入下一批次的时间序列进行特征提取。
进一步地,也可以将时间序列集合中的各个时间序列逐一输入至分类器的各个规则中进行特征提取,分类器中的各个规则依次对时间序列进行特征提取,得到时间序列集合中各个时间序列的多维特征提取。
进一步地,步骤S20的细化,包括:
步骤S201,将所述时间序列集合输入至预设的数据分类器中,其中,所述数据分类器中包括多个分类模型;
步骤S202,利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取,得到多维时序特征。
对时间序列集合中的各个时间序列进行多维特征提取的分类器中,设置有多个特征提取规则,其中,每个特征提取规则为一个分类模型。结合实际的业务预测需求,基于历史时间序列,分析对时间序列进行预测时需要的特征信息,进而得到时间序列的分类需求。基于对时间序列的分类需求,设计不同的分类模型对获取的时间序列进行分类,从而根据不同类型的时间序列选择不同的预测模型,对各个类型的时间序列进行预测。
在对获取的时间序列集合中的各时间序列进行分类时,将获取的时间序列集合输入至预设的数据分类器中,数据分类器中的各个分类模型对时间序列集合中的各个时间序列分别进行特征提取处理,得到各时间序列的多维时序特征。
步骤S30,根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。
进一步地,根据各时间序列的多维时序特征,对各个时间序列进行分类,在本实施例中,从不同的维度根据各个时间序列的多维时序特征,将时间序列分为多个类型,其中,从数据量的量级维度,将时间序列划分为大量级、中量级、小量级和微量级;从时序数据的连续性的维度,将时间序列分为连续型和离散型;从时序数据的来源上,将上下线的业务***中的时序数据分为上线型和下线型;对于一些局部特征明显的时间序列,划分为波动型、不规则型及平稳型等。可以理解的是,根据实际的预测需要,可以将时间序列的类型划分为更多或更少的类型。
进一步地,一种优选的分类方式是根据各时间序列的类型,生成对应的标签信息,以供预测模型识别每个时间序列的类型,进而确定不同的预测模型进行预测。可以理解的是,同一个时间序列可以生成多个标签信息,从而对应多个不同的时序类型。例如,大量级的时间序列一般同时属于连续型的,微、小量级的时间序列,一般具有不规则、频繁波动和离散等特征,一般属于不规则型或者波动型或者离散型时间序列。更进一步地,同一个时间序列中,不同时间段的序列值可能也具有不同的规律和特征,因此,对于同一个时间序列,可以划分为多个不同类型的子序列分别进行分类。需要说明的是,各个分类模型也可以根据同一个时间序列的特征之间的关联性,从多个分类模型中有选择地进行特征提取,实际的分类方式并不限于此,在此不再一一赘述。
在本实施例中,通过获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。通过对时间序列进行多维特征提取,结合时间序列的多维时序特征进行分类,可以有效提高对时序数据的分类精度,从而使对时序数据的分类精度能够满足金融领域复杂业务场景的预测需求。
进一步地,在本发明上述实施例的基础上,提出了本发明时序数据分类方法的第二实施例。
本实施例是对第一实施例中步骤S202的细化,本实施例是对据分类器中不同的分类模型对时间序列进行特征提取处理过程的细化,其中,预设的数据分类器中的分类模型包括量级分类模型、上/下线分类模型、波动型分类模型各平稳型分类模型等,从不同的维度对时间序列进行分类。具体地,利用预设的数据分类器中的各分类模型对时间序列集合中的各时间序列分别进行特征提取处理,得到各时间序列的多维时序特征的步骤,包括:
步骤A1,利用所述量级分类模型统计各时间序列中序列值大于各量级预设的量级参考阈值的序列值数量,其中,所述量级参考阈值是利用所述量级分类模型对历史时间序列集合进行挖掘得到的;
步骤A2,计算所述序列值数量的量级占比,其中,所述量级占比为各量级对应的序列值的数量在时间序列中所占的比例。
在本实施例中,数据分类器中设有量级分类模型,根据时间序列的数量级将时间序列分为不同的量级类型,主要包括大量级、中量级、小量级和微量级,在特征提取处理时,主要是提取各量级序列值在时间序列中的量级占比,具体的提取方式为:
统计时间序列中不同百分位序列值的占比,根据各量级序列值的占比将各时间序列划分为不同的量级。其中,各量级序列值的量级参考阈值是基于历史时间序列进行分析得出的,在本实施例中,基于对历史时间序列集合的分析,得出大量级的量级参考阈值一般取50至70百分位值、中量级取10至30百分位值,以此为例,统计各时间序列中大于50至70百分位的序列值的数量在时间序列所有序列值数量中的占比,若占比大于30%,则为大量级时间序列。其中,时间序列的百分位值是对时间序列中的序列值按照从小的到大的顺序依次排列,各个序列值的排列顺序在总的排序中所占的比例。
以分钟级的时间序列为例,每分钟获取一次数据的数据列中,每天获取的数据为一个时间序列,该时间序列的序列长度为1440,即时间序列中有1440个序列值,对该1440个序列值按照从小到大的顺序进行排序,统计时间序列1440个序列值中,大于50至70百分位的序列值的数量,若数量超过432个,即占比超过30%,则认为该时间序列为大量级时间序列。基于历史一段时期内的时间序列,对时间序列的历史表现进行整体分类评估,从而确定时间序列的量级,大量级时间序列的特征表现为,整体量级较大,周期和趋势明显,相对波动较小。
若大量级序列值的占比没有超过预设的量级占比阈值,则统计序列值大于10至30百分位值的数量和量级占比,若占比大于30%,则认为该时间序列为中量级时间序列。中量级时间序列的特征表现为,整体量级一般,周期和趋势不如大量级明显,相对波动较大,在中量级类型的识别过程中,还需排除大量级条件,二者互斥。
若时间序列既不是大量级也不是中量级,则认为该时间序列可能为微小量级,微小量级的时间序列需要提取的量级占比与大量级和中量级不完全相同,在判定微小量级的特征时,是提取时间序列中非正常业务时间段的序列值,例如0至7点的夜间数据,然后统计提取的序列值中的零值数量,以统计的零值数量中连续的零值长度作为零值区间,并确定零值区间的量级占比。在对微小量级的时间序列进行分类时,若零值区间的量级占比大于微量级的量级占比阈值,且小于小量级的量级占比阈值,同时,大量级序列值的占比小于预设的第一量级占比阈值(如0.001),则认为该时间序列为小量级时间序列。若零值区间的量级占比大于或等于微量级占比阈值,且大量级序列值的占比小于预设的第二量级占比阈值(如0.0001),则认为该时间序列为微量级时间序列。小量级时间序列的特征表现为整体量级小,呈离散分布,从疏密上可看出周期。此类离散数据,在夜间时段特征更为明显,因此可以基于时间区间的角度提取特征信息进行计算识别。微量级时间序列的特征为整体量级很小,呈离散分布,无明显周期。
综上可知,从时间序列的量级维度对时间序列进行特征提取和分类时,提取的特征信息至少包括大量级占比、中量级占比、小量级的零值区间的量级占比和微量级的零值区间的量级占比。可知地,在进行量级分类时,一般是对历史某一个较长的时间段的时序数据统一进行特征提取,例如,对于分钟级的时序数据,不针对每日数据单独进行分类,而是统一计算历史21天的时序数据的特征比例,进而对序列表现进行整体分类评估,确定时间序列的量级分类。需要说明的是,在本实施例中,量级阈值或量级阈值占比等具体数值仅用于示例性说明,在实际应用中,各个阈值可以根据实际情况或根据经验进行自定义设置。
进一步地,预设的数据分类器中还包括上/下线型分类模型,提取的多维时序特征还包括上/下线时刻点,利用各分类模型对时间序列集合中的各时间序列进行特征提取处理,得到各时间序列的多维时序特征的步骤,还包括:
步骤B1,利用所述上/下线分类模型对所述时间序列集合中的各时间序列进行极值滤波处理,得到多个特征序列;
步骤B2,获取所述特征序列的下标集合,根据所述下标集合遍历所述特征序列的各序列值,从所述特征序列中计算上/下线时刻点,其中,所述下标集合中的下标为所述特征序列中各序列值的位置。
可以理解的是,上线型时间序列对应刚上线的时序数据形态,时序数据的量级突然增大,且在上线时刻前后的数据量级差别很大,下线型时间序列亦是如此,在下线时刻前后的数据量级差别很大。因此,上/下线时刻前后的数据量级突变,会经常被误检测为异常点而产生误报警,在本实施例中提供一种上/下线型分类模型,用于提取上/下线时刻点,从而对包含上/下线时刻的序列值的时间序列进行分类。具体地,首先利用上/下线分类模型对时间序列进行极值滤波处理,极值滤波的目的在于排除非上线型时间序列日常波动对分类的影响。在本实施例中,极值滤波处理以仅保留时间序列中小于85百分位的序列值为例,对各时间序列进行极值滤波处理后,得到多个特征序列,然后获取各特征序列的下标集合,该下标集合是各时间序列中的序列值在时间序列中的位置。根据下标集合中的下标遍历各特征序列中的序列值,从而提取上/下线时刻点。
进一步地,参照公式1-3:
ave_before<ave_after×α,ave_after>medium_thres (2)
ave_after<ave_before×β,ave_before>medium_thres (3)
一种优选的上/下线时刻点的提取方式为:对时间序列中的各个序列值进行遍历,根据时间序列中各个序列值的下标,分别将时间序列划分为前、后两个子序列,并分别计算两个子序列的序列均值ave_before和ave_after,然后根据公式1计算break_alpha的值并记录对应的序列值下标indexi,在遍历过程中,更新break_alpha的最小值。在遍历完成后,若存在break_alpha的最小值使两个序列均值满足公式2中的条件,则break_alpha的最小值对应的下标即为上线时刻break_index;若存在break_alpha的最小值使两个序列均值满足公式3中的条件,则break_alpha的最小值对应的下标即为下线时刻break_index。
进一步地,上述公式2-3中,medium_thres为中量级序列阈值,α和β分别为可调参数,可以根据对历史时间序列数据的分析进行自定义设置,在本实施例中,设置α=0.05,β=0.1。
进一步地,预设的数据分类器中还包括波动型分类模型,提取的多维时序特征还包括序列相似度,利用各分类模型对时间序列集合中的各时间序列进行特征提取处理,得到各时间序列的多维时序特征的步骤,还包括:
步骤C1,获取预设的序列样本集合,其中,所述序列样本集合是基于历史时间序列集合中具有特殊波形的时间序列构建的;
步骤C2,利用所述波动型分类模型遍历所述序列样本集合中的各样本序列,并计算所述时间序列集合中的各时间序列与各所述样本序列的序列相似度。
波动型时间序列主要用于识别特别形态的时间序列,即存在特殊波形特征和一定规律性,但在局部时刻随机波动的时间序列。通过构建特殊样本序列集合,计算输入的时间序列与样本序列的相似度,将相似度高于预设阈值定义为相似序列并归类为波动型时间序列。波动型时间序列在后续异常检测等阶段,可配置宽松告警策略。进一步地,在本实施例中,具有特殊波形的时间序列是指存在一定规律性的时间序列,包括根据实际需求自定义的样本序列、基于历史时序数据总结的具有一定规律性的序列等。
在本实施例中,利用FastDTW(Fast Dynamic Time Warping,动态时间归整加速算法)算法模型对序列延展和压缩不敏感,可以有效动态衡量长短不同,局部波动的相似序列。具体地,基于历史时间序列数据,事先构建特殊序列的序列样本集合,利用波动型分类模型遍历序列样本集合中的样本序列,计算输入的时间序列与各样本序列的相似度。
进一步地,预设的数据分类器中还包括不规则型分类模型,提取的多维时序特征还包括序列波动因子,利用各分类模型对时间序列集合中的各时间序列进行特征提取处理,得到各时间序列的多维时序特征的步骤,还包括:
步骤D1,获取第一轮窗口参数并将所述第一轮窗口参数设置为目标窗参数,根据所述不规则型分类模型和所述目标窗参数,将所述目标窗参数将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合;
步骤D2,计算各所述子序列集合中各子序列与所述子序列集合中其余子序列的距离,得到各所述时间序列的距离集合;
步骤D3,计算所述距离集合中大于预设的序列标准差阈值的距离值的目标数量,并根据所述目标数量计算第一距离特征值;
步骤D4,基于所述第一轮窗口参数计算第二轮窗口参数,并将所述第二轮窗口参数设置为目标窗参数,返回并执行所述根据所述目标窗参数将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合的步骤,得到第二距离特征值;
步骤D5,根据所述第一距离特征值和所述第二距离特征值计算各所述时间序列的波动因子。
不规则型针对整体状态混沌、波动不规律的时间序列类型。应用样本熵算法,计算序列波动因子即样本熵值,来度量序列不规则波动程度,基于大量历史时间序列数据的波动统计阈值,识别时间序列是否为不规则型时间序列。其中,序列波动因子的计算方法如下(公式4-8):
若时间序列X中的各个序列值为:X(t),t=1,2,3,...,n;
首先获取第一轮窗口参数,该窗参数包括窗口长度,首先获取第一轮窗口长度m,并将获取的第一轮窗口长度设置为目标窗参数,以m为窗口长度,按照固定窗口长度对时间序列进行滑窗处理,将时间序列划分为如公式4所示的k=n-m+1个子序列,得到子序列集合:
Xi(t)=(Xi(t),Xi+1(t),...,Xi+m-1(t)) (4)
计算子序列集合中各子序列与其余n-m个子序列之间的距离,得到各子序列的距离集合,该距离集合中的距离为两子序列对应序列值差值绝对值的最大值,即下列公式5所示:
dij=max|Xi+k(t)-Xj+k(t)|,k=0,1,2,...,m-1 (5)
定义序列标准差阈值:
F=r×SD (6)
其中,r为可调系数,可以根据实际容许偏差F进行调整,通过对历史时间序列的分析,r的取值范围在0.1至0.25之间,SD为时间序列标准差。遍历Xi(t),统计每个子序列对应的距离集合中,大于F的距离值的目标数量并根据该目标数量计算第一距离特征值,该距离特征值为目标数量在距离集合中的占比,记为根据k个/>按照下列公式7计算其平均值,得到第一距离特征值Φm(t)。
基于第一轮窗口参数m,计算第二轮窗口参数,例如,将窗口长度m增加为m+1,并将新的窗口长度m+1设置为目标窗参数,返回并执行根据不规则型分类模型和目标窗参数,将时间序列集合中的各时间序列划分为多个子序列的步骤,重复上述步骤直到计算出第二距离特征值Φm+1(t)。根据各时间序列的第一距离特征值和第二距离特征值计算波动因子,其中,波动因子的一种计算方式如下列公式8所示:
SampEn(t)=lnΦm(t)-lnΦm+1(t) (8)
波动因子即样本熵SampEn(t)的值越大,时间序列的波动程度就越大,特征表现就越不规则,因此,将样本熵值大于预设的样本熵阈值的时间序列分类为不规则型时间序列。可知地,在计算序列波动因子时,还可以对时间序列进行更多轮的滑动窗口处理,根据不同窗口长度的滑动窗口处理得到更多的距离特征值,并计算时间序列的样本熵,从而衡量时间序列的波动程度,在此不再赘述。
进一步地,预设的数据分类器中还包括平稳型分类模型,提取的多维时序特征还包括极值差序列,利用各分类模型对时间序列集合中的各时间序列进行特征提取处理,得到各时间序列的多维时序特征的步骤,还包括:
步骤E1,利用所述平稳型分类模型对所述时间序列集合中的各时间序列进行低通滤波处理,得到多个低通滤波序列;
步骤E2,基于所述低通滤波序列中的各序列值计算平稳型量级阈值;
步骤E3,以所述低通滤波序列中的各序列值为中心,对所述低通滤波序列进行滑动窗口处理,得到所述低通滤波序列的各窗口序列;
步骤E4,遍历各所述窗口序列,计算各所述窗口序列中的序列值的极大值与极小值的目标差值,并创建标记序列,其中,所述标记序列的序列长度与所述低通滤波序列的序列长度相同;
步骤E5,若所述目标差值大于所述平稳型量级阈值,则在所述标记序列中对所述目标差值对应的目标窗口序列的中心序列值进行标记,得到极值差序列。
利用数据分类器中的平稳型分类模型对时间序列进行特征提取处理时,首先判断时间序列是否为大量级时间序列,若不是,则非平稳类型,若是大量级时间序列,则需要进一步判断是否为平稳型时间序列。
具体地,首先对各时间序列进行低通滤波处理,除去低于预设频率的波形,得到多个低通滤波序列。基于各低通滤波序列的序列值,计算平稳型量级阈值,平稳型量级阈值的一种计算方式如下列公式9所示:
y_thres=max(200,ave(Xsmooth)×0.6)(9)
在公式9中,y_thres为平稳型量级阈值,Xsmooth为低通滤波序列,ave()为低通滤波序列的序列值均值,以0.6的系数计算加权后的序列均值,若加权后的序列均值大于200,则将加权后的序列均值作为平稳型量级阈值,若加权后的序列均值小于或等于200,则将平稳型量级阈值设置为200。其中,序列均值的加权系数0.6和200是根据历史时间序列进行分析得到的可调参数,在此仅作为示例性说明,在实际应用中可根据实际需要进行调整。
以低通滤波序列中的各个序列值所在的位置为中心,即以各序列值的下标i为中心,与固定窗口长度对低通滤波序列进行滑动窗口处理,得到各低通滤波序列的窗口序列,同时创建一个与输入的低通滤波序列等长的标记序列。按照低通滤波序列中各序列值的下标从前向后滑动窗口得到对应的窗口序列,并通过遍历窗口序列中的各个序列值计算各个窗口序列中的极大值和极小值的差值,若该差值大于平稳级量级阈值,则根据该窗口序列的下标中心i在标记序列中对该窗口序列进行标记,标记方式包括但不限于将标记序列中各序列值初始化为0后,将标记序列中与窗口序列中心相同下标i对应的序列值置位为1。最后,根据标记序列中被标记的序列值的数量占比,判断大量级时间序列是否为平稳型时间序列,以0.07为例,若标记序列中序列值为1的数量在序列长度中的占比小于0.07,则认为是平稳型时间序列,否则,则不属于平稳型时间序列。可知地,实际应用时,也可以采用其他的标记方式,例如,将标记序列中的所有序列值初始化为0后,将标记序列中与窗口序列中心序列值下标相同的序列值置位为一个非零值,然后通过下标遍历计算标记序列中,序列值不为0的序列值数量即可。因此,总的来说,基于标记序列对低通滤波序列进行标记,是利用标记序列中不同的序列值区分低通滤波序列中以相同下标的序列值为中心的窗口序列中的极值差是否大于平稳级量级阈值,进而判断大量级时间序列是否为平稳型时间序列。在本实施例中,滑窗处理的窗口长度可以根据历史经验或实际需要进行自定义设置,在此不再赘述。
更进一步地,预设的数据分类器中还包括常量型分类模型,提取的多维时序特征还包括常量特征值,利用各分类模型对时间序列集合中的各时间序列进行特征提取处理,得到各时间序列的多维时序特征的步骤,还包括:
对时间序列进行极值过滤,仅保留标准格式的时间序列的部分序列值,在此以保留时间序列中5至95百分位数之间的序列值为例,然后计算过滤极值后的极值滤波序列的标准差和均值作为常量特征值。
在判断时间序列是否为常量型时间序列时,根据计算出的常量特征值是否满足下列公式11所示的条件:
且ave(Xi)>50(11)
其中,Xi为标准格式的时间序列过滤极值后得到的极值滤波序列,std(Xi)为极值滤波序列的标准差,ave(Xi)为极值滤波序列的均值,0.5和50为可调参数,在此为示例性说明,满足以上条件的序列,为常量型时间序列,否则,则不属于常量型时间序列。
此外,不属于上述各种类型的时间序列,分类为特殊类型的时间序列。
在本实施例中,通过利用不同的分类模型对时间序列进行特征提取处理,得到各个时间序列的多维时序特征,综合提取的多维时序特征对各时间序列进行分类,可有效细化时间序列的分类精度,有利于满足复杂场景下的预测需求。
此外,参照图3,本发明实施例还提出一种时序数据分类装置,所述时序数据分类装置包括:
数据获取模块10,用于获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
特征提取模块20,用于对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
数据分类模块30,用于根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类。
可选地,特征提取模块20,还用于:
将所述时间序列集合输入至预设的数据分类器中,其中,所述数据分类器中包括多个分类模型;
利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征。
可选地,所述特征提取模块20,还用于:
利用所述量级分类模型统计各时间序列中序列值大于各量级预设的量级参考阈值的序列值数量,其中,所述量级参考阈值是利用所述量级分类模型对历史时间序列集合进行挖掘得到的;
计算所述序列值数量的量级占比,其中,所述量级占比为各量级对应的序列值的数量在时间序列中所占的比例。
可选地,所述特征提取模块20,还用于:
利用所述上/下线分类模型对所述时间序列集合中的各时间序列进行极值滤波处理,得到多个特征序列;
获取所述特征序列的下标集合,根据所述下标集合遍历所述特征序列的序列值,从所述特征序列中计算上/下线时刻点,其中,所述下标集合中的下标为所述特征序列中各序列值的位置。
可选地,所述特征提取模块20,还用于:
获取预设的序列样本集合,其中,所述序列样本集合是基于历史时间序列集合中具有特殊波形的时间序列构建的;
利用所述波动型分类模型遍历所述序列样本集合中的各样本序列,并计算所述时间序列集合中的各时间序列与各所述样本序列的序列相似度。
可选地,所述特征提取模块20,还用于:
获取第一轮窗口参数并将所述第一轮窗口参数设置为目标窗参数,根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合;
计算各所述子序列集合中各子序列与所述子序列集合中其余子序列的距离,得到各所述时间序列的距离集合;
计算所述距离集合中大于预设的序列标准差阈值的距离值的目标数量,并根据所述目标数量计算第一距离特征值;
基于所述第一轮窗口参数计算第二轮窗口参数,并将所述第二轮窗口参数设置为目标窗参数,返回并执行所述根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合的步骤,得到第二距离特征值;
根据所述第一距离特征值和所述第二距离特征值计算各所述时间序列的波动因子。
可选地,所述特征提取模块20,还用于:
基于所述低通滤波序列中的各序列值计算平稳型量级阈值;
以所述低通滤波序列中的各序列值为中心,对所述低通滤波序列进行滑动窗口处理,得到所述低通滤波序列的各窗口序列;
遍历各所述窗口序列,计算各所述窗口序列中的序列值的极大值与极小值的目标差值,并创建标记序列,其中,所述标记序列的序列长度与所述低通滤波序列的序列长度相同;
若所述目标差值大于所述平稳型量级阈值,则在所述标记序列中对所述目标差值对应的目标窗口序列的中心序列值进行标记,得到极值差序列。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的计算机方法中的操作。
此外,本发明实施例还提出一种计算机程序产品,包括计算机程序,所述计算机被处理器执行时实现上述实施例提供的计算机方法中的操作。
本发明设备、计算机程序产品和计算机可读存储介质各实施例,均可参照本发明计算机方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的计算机方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种时序数据分类方法,其特征在于,所述时序数据分类方法包括以下步骤:
获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类;
其中,所述对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征的步骤,包括:
将所述时间序列集合输入至预设的数据分类器中,其中,所述数据分类器中包括多个分类模型;
利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征。
2.如权利要求1所述的时序数据分类方法,其特征在于,所述数据分类器中包括量级分类模型,所述多维时序特征包括量级占比,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述量级分类模型统计各时间序列中序列值大于各量级预设的量级参考阈值的序列值数量,其中,所述量级参考阈值是利用所述量级分类模型对历史时间序列集合进行挖掘得到的;
计算所述序列值数量的量级占比,其中,所述量级占比为各量级对应的序列值的数量在时间序列中所占的比例。
3.如权利要求1所述的时序数据分类方法,其特征在于,所述数据分类器中包括上/下线分类模型,所述多维时序特征包括上/下线时刻点,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述上/下线分类模型对所述时间序列集合中的各时间序列进行极值滤波处理,得到多个特征序列;
获取所述特征序列的下标集合,根据所述下标集合遍历所述特征序列的序列值,从所述特征序列中计算上/下线时刻点,其中,所述下标集合中的下标为所述特征序列中各序列值的位置。
4.如权利要求1所述的时序数据分类方法,其特征在于,所述数据分类器中包括波动型分类模型,所述多维时序特征包括序列相似度,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤包括:
获取预设的序列样本集合,其中,所述序列样本集合是基于历史时间序列集合中具有特殊波形的时间序列构建的;
利用所述波动型分类模型遍历所述序列样本集合中的各样本序列,并计算所述时间序列集合中的各时间序列与各所述样本序列的序列相似度。
5.如权利要求1所述的时序数据分类方法,其特征在于,所述数据分类器中包括不规则型分类模型,所述多维时序特征包括序列波动因子,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
获取第一轮窗口参数并将所述第一轮窗口参数设置为目标窗参数,根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合;
计算各所述子序列集合中各子序列与所述子序列集合中其余子序列的距离,得到各所述时间序列的距离集合;
计算所述距离集合中大于预设的序列标准差阈值的距离值的目标数量,并根据所述目标数量计算第一距离特征值;
基于所述第一轮窗口参数计算第二轮窗口参数,并将所述第二轮窗口参数设置为目标窗参数,返回并执行所述根据所述不规则型分类模型和所述目标窗参数,将所述时间序列集合中的各时间序列划分为多个子序列,得到所述时间序列集合中各时间序列的子序列集合的步骤,得到第二距离特征值;
根据所述第一距离特征值和所述第二距离特征值计算各所述时间序列的波动因子。
6.如权利要求1所述的时序数据分类方法,其特征在于,所述数据分类器中包括平稳型分类模型,所述多维时序特征包括极值差序列,所述利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征的步骤,包括:
利用所述平稳型分类模型对所述时间序列集合中的各时间序列进行低通滤波处理,得到多个低通滤波序列;
基于所述低通滤波序列中的各序列值计算平稳型量级阈值;
以所述低通滤波序列中的各序列值为中心,对所述低通滤波序列进行滑动窗口处理,得到所述低通滤波序列的各窗口序列;
遍历各所述窗口序列,计算各所述窗口序列中的序列值的极大值与极小值的目标差值,并创建标记序列,其中,所述标记序列的序列长度与所述低通滤波序列的序列长度相同;
若所述目标差值大于所述平稳型量级阈值,则在所述标记序列中对所述目标差值对应的目标窗口序列的中心序列值进行标记,得到极值差序列。
7.一种时序数据分类装置,其特征在于,所述时序数据分类装置包括:
数据获取模块,用于获取待分类的时间序列集合,其中,所述时间序列集合中包括多个时间序列;
特征提取模块,用于对所述时间序列集合中的各时间序列分别进行多维特征提取,得到多维时序特征;
数据分类模块,用于根据所述多维时序特征对所述时间序列集合中的各时间序列进行分类;
所述特征提取模块,还用于将所述时间序列集合输入至预设的数据分类器中,其中,所述数据分类器中包括多个分类模型;利用各所述分类模型对所述时间序列集合中的各时间序列分别进行特征提取处理,得到各所述时间序列的多维时序特征。
8.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的时序数据分类方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的时序数据分类方法的步骤。
CN202111047596.7A 2021-09-07 2021-09-07 时序数据分类方法、装置、终端设备及存储介质 Active CN113836240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111047596.7A CN113836240B (zh) 2021-09-07 2021-09-07 时序数据分类方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111047596.7A CN113836240B (zh) 2021-09-07 2021-09-07 时序数据分类方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113836240A CN113836240A (zh) 2021-12-24
CN113836240B true CN113836240B (zh) 2024-02-20

Family

ID=78958660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111047596.7A Active CN113836240B (zh) 2021-09-07 2021-09-07 时序数据分类方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113836240B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357037A (zh) * 2022-03-22 2022-04-15 苏州浪潮智能科技有限公司 一种时序数据分析方法、装置及电子设备和存储介质
CN115271929A (zh) * 2022-08-17 2022-11-01 深圳前海微众银行股份有限公司 数据异常检测方法、装置、设备、介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229819A (zh) * 2017-05-03 2017-10-03 中国石油大学(北京) 一种催化裂化装置数据中离群数据识别方法及***
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN110472798A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 时间序列数据的预测方法、装置及计算机可读存储介质
CN111563560A (zh) * 2020-05-19 2020-08-21 上海飞旗网络技术股份有限公司 基于时序特征学习的数据流分类方法及装置
CN111814897A (zh) * 2020-07-20 2020-10-23 辽宁大学 一种基于多层次shapelet的时间序列数据分类方法
CN112131322A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 时间序列分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151748A1 (en) * 2018-11-14 2020-05-14 Walmart Apollo, Llc Feature-based item similarity and forecasting system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229819A (zh) * 2017-05-03 2017-10-03 中国石油大学(北京) 一种催化裂化装置数据中离群数据识别方法及***
CN110362612A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 由电子设备执行的异常数据检测方法、装置和电子设备
CN110472798A (zh) * 2019-08-22 2019-11-19 腾讯科技(深圳)有限公司 时间序列数据的预测方法、装置及计算机可读存储介质
CN111563560A (zh) * 2020-05-19 2020-08-21 上海飞旗网络技术股份有限公司 基于时序特征学习的数据流分类方法及装置
CN111814897A (zh) * 2020-07-20 2020-10-23 辽宁大学 一种基于多层次shapelet的时间序列数据分类方法
CN112131322A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 时间序列分类方法及装置

Also Published As

Publication number Publication date
CN113836240A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
JP6764488B2 (ja) 主題分類器の訓練方法、装置及びコンピュータ読み取り可能な記憶媒体
CN113836240B (zh) 时序数据分类方法、装置、终端设备及存储介质
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
WO2019037260A1 (zh) 预测模型建立装置、方法及计算机可读存储介质
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN109684302B (zh) 数据预测方法、装置、设备及计算机可读存储介质
CN112949710A (zh) 一种图像的聚类方法和装置
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN111210071B (zh) 业务对象预测方法、装置、设备及可读存储介质
CN109840413B (zh) 一种钓鱼网站检测方法及装置
CN113646758A (zh) 信息处理设备、个人识别设备、信息处理方法和存储介质
US20150186629A1 (en) Verification device and control method for verifiction device, as well as computer program
CN111797861A (zh) 信息处理方法、装置、存储介质及电子设备
CN112990318B (zh) 持续学习方法、装置、终端及存储介质
CN113836241B (zh) 时序数据分类预测方法、装置、终端设备及存储介质
CN112651442A (zh) 犯罪预测方法、装置、设备及计算机可读存储介质
CN111797849B (zh) 用户活动识别方法、装置、存储介质及电子设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN115690514A (zh) 图像识别方法及相关设备
CN118094118A (zh) 数据集质量评估方法、***、电子设备及存储介质
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN109241316B (zh) 图像检索方法、装置、电子设备及存储介质
CN112115182A (zh) 时序数据的处理方法、装置、设备及存储介质
CN117033956A (zh) 基于数据驱动的数据处理方法、***、电子设备及介质
CN108696722B (zh) 一种目标监测方法、***及设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant