CN115659411A

CN115659411A - 数据分析的方法和装置

Info

Publication number: CN115659411A
Application number: CN202211175296.1A
Authority: CN
Inventors: 张静; 张宪波
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-31

Abstract

本发明公开了数据分析的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取待分析指标的周期标签，在根据周期标签确定待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；基于待分析指标在第一历史时段内的时间序列数据确定预测时段内待分析指标的第一预测时间序列；基于待分析指标在历史周期内的时间序列数据确定预测时段内待分析指标的第二预测时间序列；根据第一预测时间序列和第二预测时间序列确定待分析指标在预测时段内的预测时间序列。该实施方式能够实现对各类指标的整体预测，提高预测效果的准确性，从而对于***性能能够做到事前预判，提前发现安全隐患，保证***稳定性。

Description

数据分析的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据分析的方法和装置。

背景技术

随着计算机和互联网技术的发展，网上业务产生极大的便利。业务***中往往涉及多个业务指标，业务指标数据往往有一个安全的上界，确保指标数据在安全上界以下，对业务***的稳定性是至关重要的。伴随业务的增长与数据量的增加，大数据下这类指标往往有可能会逐渐增加甚至超过安全上界，对于即将或者已经逼近安全上界的指标数据，管理员往往需要进行扩容、清理库等操作以保障***的安全稳定。

现有技术依赖于运维专家经验，普遍采用采用基于告警阈值的处理方法，往往在指标数据到达阈值或者接近安全上界时才能够发现扩容、清理的需要，此方法不仅不能控制获得预警的时间，而且不能留给管理员足够的操作时间。

发明内容

有鉴于此，本发明实施例提供一种数据分析的方法和装置，根据待分析指标的周期标签选择对应的预测方案，并且通过添加加权方法加大距离预测时段较近的对应时段内数据的权重，能够实现对各类指标的整体预测，提高预测效果的准确性，从而对于***性能能够做到事前预判，提前发现安全隐患，保证***稳定性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据分析的方法，包括：

获取待分析指标的周期标签，在根据所述周期标签确定所述待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；所述历史周期是指在所述预测时段之前的周期；

基于所述待分析指标在所述第一历史时段内的时间序列数据确定所述预测时段内所述待分析指标的第一预测时间序列；

基于所述待分析指标在所述历史周期内的时间序列数据确定所述预测时段内所述待分析指标的第二预测时间序列；

根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列。

可选地，获取待分析指标的周期标签，包括：采用聚合通道特征检测算法分析所述待分析指标的历史时间序列，得到所述待分析指标的候选周期集合；在所述候选周期集合中的元素无规律性的情况下，为所述待分析指标设置用于指示无周期的第一周期标签。

可选地，所述方法还包括：

在所述候选周期集合中的元素有规律性的情况下，按照所述候选周期集合中的每一个元素取值切割所述历史时间序列，去除所述历史时间序列中不足一个周期的时间序列；

识别出切割好的每段时间序列的波峰个数得到波峰个数序列，识别出切割好的每段时间序列的波谷个数得到波谷个数序列，对所述波峰个数序列和所述波谷个数序列分别进行平稳性检验；

在所述波峰个数序列和所述波谷个数序列均通过平稳性检验的情况下，为所述待分析指标设置用于指示强周期的第二周期标签；

在所述波峰个数序列或所述波谷个数序列未通过平稳性检验的情况下，为所述待分析指标设置用于指示弱周期的第三周期标签。

可选地，所述方法还包括：确定所述待分析指标的以下任意一种或多种特征，将确定出的特征输入预训练的分类模型，以确定所述待分析指标的形状标签：

SBD互相关距离特征、基于滑动窗口确定所述历史时间序列中值与均值的差的绝对值大于预设数值的占比、所述历史时间序列最小二乘法的线性回归特征、自回归模型滞后算子的自相关值、绝对傅里叶变换的谱统计量、样本熵。

可选地，所述方法还包括：获取所述待分析指标的形状标签；

确定历史周期内与预测时段对应的第一历史时段，包括：

在根据所述形状标签确定所述待分析指标在所述历史周期内存在多类时序曲线的情况下，以所述历史周期内与所述预测时段对应类的一个或多个时序曲线对应的时段作为所述第一历史时段；

在根据所述形状标签确定所述待分析指标在所述历史周期内仅存在一类时序曲线的情况下，以所述历史周期内与所述预测时段之间时间间隔较小的一个或多个统计时段作为所述第一历史时段。

可选地，所述方法还包括：

在根据所述周期标签确定所述待分析指标具有强周期性的情况下，运用Holt-Winters模型确定所述预测时段内所述待分析指标的第一预测时间序列和第二预测时间序列；

在根据所述周期标签确定所述待分析指标具有若周期性的情况下，运用DeepAR模型确定所述预测时段内所述待分析指标的第一预测时间序列和第二预测时间序列。

可选地，所述方法还包括：在根据所述周期标签确定所述待分析指标不具有周期性的情况下，利用SVR模型确定所述预测时段内所述待分析指标的预测时间序列。

可选地，所述方法还包括：获取所述待分析指标的量纲标签；其中，所述量纲标签是根据所述待分析指标的取值范围确定的；所述模型的模型输入包括：所述待分析指标的形状标签和量纲标签，以及所述待分析指标在所述历史周期内的时间序列数据。

根据本发明实施例的第二方面，提供一种数据分析的装置，包括：

标签获取模块，获取待分析指标的周期标签，在根据所述周期标签确定所述待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；所述历史周期是指在所述预测时段之前的周期；

序列预测模块，基于所述待分析指标在所述第一历史时段内的时间序列数据确定所述预测时段内所述待分析指标的第一预测时间序列；基于所述待分析指标在所述历史周期内的时间序列数据确定所述预测时段内所述待分析指标的第二预测时间序列；

结果拟合模块，根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列。

可选地，所述标签获取模块获取待分析指标的周期标签，包括：采用聚合通道特征检测算法分析所述待分析指标的历史时间序列，得到所述待分析指标的候选周期集合；在所述候选周期集合中的元素无规律性的情况下，为所述待分析指标设置用于指示无周期的第一周期标签。

可选地，所述标签获取模块还用于：

确定所述待分析指标的以下任意一种或多种特征，将确定出的特征输入预训练的分类模型，以确定所述待分析指标的形状标签：

可选地，所述标签获取模块还用于：获取所述待分析指标的形状标签；

可选地，所述序列预测模块还用于：

可选地，所述序列预测模块还用于：在根据所述周期标签确定所述待分析指标不具有周期性的情况下，利用SVR模型确定所述预测时段内所述待分析指标的预测时间序列。

可选地，所述标签获取模块还包括：获取所述待分析指标的量纲标签；其中，所述量纲标签是根据所述待分析指标的取值范围确定的；所述模型的模型输入包括：所述待分析指标的形状标签和量纲标签，以及所述待分析指标在所述历史周期内的时间序列数据。

根据本发明实施例的第三方面，提供一种数据分析的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据待分析指标的周期标签选择对应的预测方案，并且通过添加加权方法加大距离预测时段较近的对应时段内数据的权重，能够实现对各类指标的整体预测，提高预测效果的准确性，从而对于***性能能够做到事前预判，提前发现安全隐患，保证***稳定性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据分析的方法的主要流程的示意图；

图2是本发明一些实施例中数据分析的方法的主要流程示意图；

图3是可选本发明另一些实施例中数据分析的方法的示意图；

图4是SVM模型和SVR模型的对比示意图；

图5是根据本发明实施例的数据分析的装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性***架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的一个方面，提供了一种数据分析的方法。

图1是根据本发明实施例的数据分析的方法的主要流程的示意图，如图1所示，数据分析的方法包括步骤S101、步骤S102、步骤S103和步骤S104。

步骤S101，获取待分析指标的周期标签，在根据所述周期标签确定所述待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；所述历史周期是指在所述预测时段之前的周期。

磁盘空间是一种平台应用，磁盘(Disk)是指利用磁记录技术存储数据的存储器。磁盘是计算机主要的存储介质，可以存储大量的二进制数据，并且断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘(Floppy Disk，简称软盘)，如今常用的磁盘是硬磁盘(Hard disk，简称硬盘)。Oracle的表空间属于Oracle中的存储结构，是一种用于存储数据库对象(如数据文件)的逻辑空间，表空间是Oracle中信息存储的最大逻辑单元，其下还包含有段、区、数据块等逻辑数据类型。表空间是在数据库中开辟的一个空间，用于存放数据库的对象，一个数据库可以由多个表空间组成。可以通过表空间来实现对Oracle的调优。现有磁盘空间的告警预测技术效果一般，大多是单一的预测一个指标，没有综合算法的思想，预测效果的准确性较差。本发明实施例中的待分析指标根据实时应用场景而定，待分析指标可以是磁盘空间使用率、表空间使用率等，也可以是业务***的交易量、磁盘容量、文件***使用率、内存使用率、CPU使用率等。

周期标签用于指示待分析指标是否具有周期性、或者周期性强弱。周期标签的类型可以根据实际情况进行划分，例如根据是否具有周期性划分为无周期、有周期两种周期标签，或者根据周期性强弱划分为无周期、强周期、弱周期三种周期标签。

预测时段可以是过去的某个历史时段，例如利用去年前10个月的指标数据预测去年后2个月的指标数据，以便根据预测结果和实际指标数据判断预测准确性时，可以将去年后2个月可以作为预测时段。预测时段也可以是未来的某个时段，例如利用过去7天的数据预测未来一天的数据时，可以将未来一天作为预测时段。历史周期是指在预测时段之前的一个或多个周期，例如，历史周期是在预测时段之前、且距离预测时段时间最近的一个周期。

历史周期内与预测时段对应的第一历史时段，是指待分析指标在其中的时间曲线的形状类型，与待分析指标在预测时段内的时间曲线的形状类型相同的时段。在一些可选实施例中，第一历史时段可以是历史周期内与预测时段具有相同相位的时段(简称同相位时段)。例如，待分析指标的周期为7天，利用待分析指标前7天的数据预测第8天的数据时，若第8天为预测时段，则将第1天作为与预测时段对应的第一历史时段。在另一些可选实施例中，第一历史时段可以是历史周期内包含该同相位时段的时段。以前述示例为例，可以将第1天和第2天作为与预测时段对应的第一历史时段。在还一些可选实施例中，第一历史时段还可以是历史周期内与预测时段时间最近的时段。例如，在前述示例中，以第7天作为与预测时段对应的第一历史时段。

为例便于准确确定历史周期内与预测时段对应的第一历史时段，本发明实施例的方法还包括：获取所述待分析指标的形状标签。形状标签用于表示待分析指标的时间曲线的形状类型，不同形状类型的曲线形状不同。确定历史周期内与预测时段对应的第一历史时段，包括：在根据所述形状标签确定所述待分析指标在所述历史周期内存在多类时序曲线的情况下，以所述历史周期内与所述预测时段对应类的一个或多个时序曲线对应的时段作为所述第一历史时段；在根据所述形状标签确定所述待分析指标在所述历史周期内仅存在一类时序曲线的情况下，以所述历史周期内与所述预测时段之间时间间隔较小的一个或多个统计时段作为所述第一历史时段。统计时段可以根据实际情况选择性设定，例如一小时、一天、一周等。

示例性地，当待分析指标的周期为7天、且7天内每天的曲线形状无规律性、或者每天的曲线形状都相同时，可以将待分析指标的形状标签标记为“形状1*7”，利用待分析指标前7天的数据预测第8天的数据时，若第8天为预测时段，则将第7天或者第6-7天作为与预测时段对应的第一历史时段；当待分析指标的周期为7天、且其中前2天的曲线形状与后5天的曲线形状不同时，参见图3，可以将待分析指标的形状标签标记为“形状2+5”，利用待分析指标前7天的数据预测第8天的数据时，若第8天为预测时段，则将第1或2天或者第1-2天作为与预测时段对应的第一历史时段。

在本发明实一些施例中，周期标签是在执行本发明实施例的方法时实时确定出来的，从而使得周期标签实时性更好。在本发明另一些实施例中，周期标签是预先确定好的，例如步骤S101中从数据库中获取周期标签，实际应用过程中可以周期性地更新周期标签，从而降低计算量。本发明实施例中的周期标签可以通过如下方法获得：

采用聚合通道特征检测(Aggregate Channel Features，ACF)算法分析所述待分析指标的历史时间序列，得到所述待分析指标的候选周期集合；在所述候选周期集合中的元素无规律性的情况下，为所述待分析指标设置用于指示无周期的第一周期标签。

ACF算法是为了穷举所有可能的周期数，组成候选周期集合。对于ACF算法计算得到的候选周期集合，结合峰值检验和SBD互相关距离计算，基于L-BFGS最优化方法搜索使得目标函数RMSE取得最小值的最优周期数，此周期数由多个取值组成，即为多周期识别技术。多周期识别的重点是引入修正项，为历史数据上最有价值的“记忆周期”赋予更多的权重。搜索结果为多个值，比如两个指标的周期数搜索结果为{1,7}，{1,2,5,7}，其中{1,7}代表此指标的周期值有2个，分别为1天和7天；{2,5,7}代表此指标的周期值有3个，分别为2天、5天和7天。根据不同指标的周期数搜索结果，适配对应的基线模型。以{2,5,7}为例，输入序列的周期可以被识别为7＝5+2，如图3所示，7天是长周期，而5天和2天是两个短的子周期。对于ACF算法计算得到的候选周期集合中的取值无规律(例如取值大小不一，如5min、12min、30min、1天等)的指标判定为无周期。

在所述候选周期集合中的元素有规律性的情况下，可以进一步通过峰值检验确定待分析指标的周期性强弱。具体地，按照所述候选周期集合中的每一个元素取值切割所述历史时间序列，去除所述历史时间序列中不足一个周期的时间序列；识别出切割好的每段时间序列的波峰个数得到波峰个数序列，识别出切割好的每段时间序列的波谷个数得到波谷个数序列，对所述波峰个数序列和所述波谷个数序列分别进行平稳性检验；在所述波峰个数序列和所述波谷个数序列均通过平稳性检验的情况下，为所述待分析指标设置用于指示强周期的第二周期标签；在所述波峰个数序列或所述波谷个数序列未通过平稳性检验的情况下，为所述待分析指标设置用于指示弱周期的第三周期标签。其中，通过平稳性检验的条件可以根据实际情况进行选择性设定。

示例性地，待分析指标被等距离切分成7份，每一份序列里面包含波峰的个数都为2，波谷的个数都为3，则待分析指标衍生成的两个新序列为[2,2,2,2,2,2,2]和[3,3,3,3,3,3,3]，若两个新序列都可以通过平稳性检验，则将待分析指标判定为强周期，如果两个新序列为[2,1,1,3,2,1,2]和[3,1,1,3,2,3,2]，此时若两个新序列都不通过平稳性检验，则将待分析指标判定为弱周期。

本发明实施例中，还可以进一步获取待分析指标的形状标签，以便根据待分析指标的时间曲线确定与预测时段对应的曲线类型相同的第一历史时段，从而采用加权的方法确定待分析指标在预测时段内的时间序列。具体地，确定所述待分析指标的以下任意一种或多种特征，将确定出的特征输入预训练的分类模型，以确定所述待分析指标的形状标签：SBD互相关距离(一种基于形状的距离)特征、基于滑动窗口确定所述历史时间序列中值与均值的差的绝对值大于预设数值的占比、所述历史时间序列最小二乘法的线性回归特征、自回归模型滞后算子(AR(lag))的自相关值、绝对傅里叶变换的谱统计量、样本熵。其中，分类模型可以是SVM分类模型。

示例性地，将多种特征输入给SVM分类模型，区分形状类别为1*7和“5+2”两类，(7天内数据的形状标签会有“5+2”、1*7、“3+4”、“1+6”共计4种，若待分析指标在工作日和休息日的数据相差较远，可以将形状类别设置为1*7和“5+2”两类，若出现“3+4”和“1+6”，也按1*7处理，因为1*7代表最小周期为1，“3+4”和“1+6”的最小周期也是1，按最小周期进行拟合预测，可以达到预测效果。对于在工作日和休息日的数据相差较远的指标，模型的学习精度不高，采用本发明实施例的方法进行形状分类，进而进行后续预测，能够提升预测模型学习精度。

考虑到不同***中同一指标的取值范围可能不同，为了提高本发明实施例的方法的适应性，可以进一步获取待分析指标的量纲标签。示例性地，若待分析指标在一个***中的指标范围为0-100，在另一个***中的指标范围为0-1，则可以为两个不同指标范围的该待分析指标分别设置不同的量纲标签。

示例性地，获取待分析指标的10000条时间序列，将其中8000条时间序列的计算统计特征和指标标签传给SVM进行学***方和)，计算时间序列的一阶差分绝对值之和，计算方差是否大于偏差，计算时间序列中大于均值的计数，计算时间序列中小于均值的计数，计算时间序列中第一个最大值的位置(其中位置为index(索引号)/length(长度))，计算时间序列中第一个最小值的位置(其中位置为index/length)，计算时间序列中第一个最小值的位置(其中位置为(index+1)/length)，检查时间序列中的任何值是否重复出现，时间序列中的最大值是否多次出现，时间序列中的最小值是否多次出现、计算时间序列大于均值的最长连续子序列的长度，计算时间序列小于均值的最长连续子序列的长度，计算时间序列一阶差分绝对值的均值、计算时间序列一阶差分的均值，返回时间序列中存在的唯一值的百分比不止一次、如果时间序列中的所有值仅出现一次则返回因子为1，返回时间序列中存在的所有数据点的总和不止一次，返回时间序列中存在的所有数据值的总和不止一次，计算时间序列的和、极差，计算时间序列的分位数，计算时间序列的变异系数，计算时间序列的复杂性(尖峰低谷角度衡量)，计算时间序列中值与均值的差的绝对值大于r倍标准差的占比，计算时间序列最小二乘法的线性回归特征，计算时间序列ADF参数检验值，计算时间序列AR(lag)的自相关值，计算时间序列绝对傅里叶变换的谱统计量，计算时间序列标准差与极差的比值，计算时间序列同时大于左右n个数的峰值计数，计算时间序列的宽度为1到n的Ricker小波平滑后搜索出的满足高的信噪比(SNR)的峰值数量，计算时间序列穿过均值的计数，计算时间序列的样本熵，计算时间序列中大于均值的计数，计算时间序列基于快速傅里叶变换的一维离散傅立叶系数。

在本发明可选实施例中，待分析指标包括3个标签(周期、形状和量纲)，根据三个标签可以将指标划分为12类，参见下表：

周期	形状	量纲
			强周期	形状为1*7	1
强周期	形状为1*7	2
			强周期	形状为5(工作日)+2(休息日)	3
强周期	形状为5(工作日)+2(休息日)	4
			弱周期	形状为1*7	5
弱周期	形状为1*7	6
			弱周期	形状为5(工作日)+2(休息日)	7
弱周期	形状为5(工作日)+2(休息日)	8
			无周期	形状为1*7	9
无周期	形状为1*7	10
			无周期	形状为5(工作日)+2(休息日)	11
无周期	形状为5(工作日)+2(休息日)	12

步骤S102，基于所述待分析指标在所述第一历史时段内的时间序列数据确定所述预测时段内所述待分析指标的第一预测时间序列；

步骤S103，基于所述待分析指标在所述历史周期内的时间序列数据确定所述预测时段内所述待分析指标的第二预测时间序列。

步骤S103中利用待分析指标在历史周期内的时间序列数据确定待分析指标在预测时段内的时间序列，实际应用过程中，可以选择多个历史周期的时间序列数据进行预测。待分析指标在第一历史时段内的时间曲线的形状类型，与其在预测时段内的时间曲线的形状类型相同，步骤S102利用第一历史时段内的时间序列数据确定预测时段内的时间序列，能够增大第一历史时段内的时间序列数据在预测过程中的权重，与不添加权重的方式相比，本实施例能够提高预测效果的准确性。

步骤S102和步骤S103中，采用预训练的模型确定预测时段内待分析指标的第一预测时间序列和第二预测时间序列。可选地，在根据所述周期标签确定所述待分析指标具有强周期性的情况下，运用Holt-Winters模型确定所述预测时段内所述待分析指标的第一预测时间序列和第二预测时间序列；在根据所述周期标签确定所述待分析指标具有若周期性的情况下，运用DeepAR模型确定所述预测时段内所述待分析指标的第一预测时间序列和第二预测时间序列。本发明实施例中的Holt-Winters模型，根据传入指标的预测效果自适应选取最优拟合函数(贝叶斯岭回归/huber回归)，能够进一步提高模型预测效果。本发明实施例中，还可以获取待分析指标的量纲标签，采用预训练的模型确定预测时段内待分析指标的第一预测时间序列和第二预测时间序列时，模型的模型输入包括待分析指标的形状标签和量纲标签、以及待分析指标在历史周期内的时间序列数据。采用多种维度的模型输入，能够进一步提高预测结果的准确度。

霍尔特-温特(Holt-Winters)方法是一种时间序列分析和预报方法，该方法对含有线性趋势和周期波动的非平稳序列适用，利用指数平滑法(EMA)让模型参数不断适应非平稳序列的变化，并对未来趋势进行短期预报。Holt-Winters方法在Holt模型基础上引入了Winters周期项(也叫做季节项)，可以用来处理月度数据、季度数据、星期数据等时间序列中的固定周期的波动行为，引入多个Winters项还可以处理多种周期并存的情况。Holt-Winters方法适用于趋势线性且周期固定的非平稳序列，分为加法模型和乘法模型。

DeepAR是一种时间序列预测算法，是一个升级版的自回归模型(Autoregressivemodel)，给定过去一段时间的数据，对未来的数据进行预测，它输出的是未来数据的一个概率分布，此时需要通过采样的方法，用DeepAR递归地生成对于未来一段时间数据的预测，不过因为是从概率分布中采样得到的，这只是一条可能的“轨迹”，如若计算期望值的话，需要利用蒙特卡洛方法多次重复采样后取平均来得到。此种让模型输出概率分布的方法特别适用于具有较大不确定性的时间序列数据，这类数据往往带有一些噪声，此类数据若应用算法对未来数据进行直接预测，可能会导致不准确，而对于预测概率分布的DeepAR模型，最大化未来序列的似然函数的方式反而能够更好地反映出数据内在的随机性质，它不仅能够预测数值，还可以预测未来的波动，这一特点对于需要考虑风险的时序运维数据是非常有帮助的。相比较于LSTM等递归神经网络对未来数据预测，DeepAR并不是直接简单输出一个确定的值，而是输出预测值的概率分布，这样做的好处有以下两点：(1)很多过程本身就具有随机属性，相比较只输出一个数值的模型，输出一个概率分布更加贴近本质，预测的精度反而更高；(2)可以评估出预测的不确定性和相关风险。

采用DeepAR模型确定所述预测时段内所述待分析指标的第一预测时间序列和第二预测时间序列，具有如下优点：

(1)冷启动预测：当想要为一个历史数据很少或无任何历史数据的时间序列生成预测时，会出现冷启动情况。ARIMA(Autoregressive Integrated Moving Average Model，自回归积分滑动平均模型)或ES(evolutionary strategy，强化学习算法)等传统方法完全依赖于单个时间序列的历史数据，因此在冷启动情况下通常不太准确。以服装类商品(例如运动鞋)预测为例，基于神经网络的算法DeepAR可以根据其他类型运动鞋首次发布时的销售模式，学习新款运动鞋销售的典型行为，通过学习训练数据中多个相关时间序列的关系，因此，DeepAR可以提供比现有算法更精确的预测。

(2)概率预测：DeepAR还可生成点预测和概率预测。概率预测尤其适合运维数据等应用，在此类应用中，具体的预测分位数比可能性最大的结果更为重要。

(3)多维度自变量：可以额外加入一些自变量。

(4)预测多条时间序列时，论文中提到可以对每条时间序序列进行category的编码，训练时进行embedding的学习。

步骤S104，根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列。实际应用过程中，可以采用加权求和的方式确定待分析指标在预测时段内的预测时间序列。示例性地，假设待分析指标的周期为7天，利用前7天的数据预测第8天的数据，则：第一预测时间序列y′₁＝f(input＝[DATE₁])，第二预测时间序列y′₂＝f(input＝[DATE₂])，待分析指标在预测时段内的预测时间序列y′_final＝(y′₁×a_i+y′₂×b_i)_i∈[1,T]，其中：DATW₁代表待分析指标在第一历史时段内的时间序列，DATE₂代表待分析指标在历史周期内的时间序列；T代表历史周期内包含的统计时段数，即待分析指标的周期(当待分析指标有多个周期时，此处指最大的周期)；a_i代表第一预测时间序列在最终的预测时间序列中的第一权重，b_i代表第二预测时间序列在最终的预测时间序列中的第二权重，i的取值依实际情况而定，当第一历史时段为历史周期内的第一个统计时段时i＝1，当第一历史时段为历史周期内的第二个统计时段时i＝2，……，当第一历史时段为历史周期内的第T个统计时段时i＝T。需要说明的是，当第一历史时段对应历史周期内的多个统计时段时，可以将该多个统计时段对应的第一权重设为相同的值、将该多个统计时段对应的第二权重设为相同的值，也可以将该多个统计时段拆分成多个新的第一历史时段，每个新的第一历史时段对应一个统计时段，从而便于计算。

可选地，所述方法还包括：在根据所述周期标签确定所述待分析指标不具有周期性的情况下，利用SVR(Support Vactor Regression，支持向量回归机)模型确定所述预测时段内所述待分析指标的预测时间序列。SVR面向的是单指标的趋势预测。如图4所示，在SVM(Support Vector Machine，支持向量机)中的目标是通过最大化间隔，找到一个分离超平面(Hyperplane)，使得绝大多数的样本点位于两个决策边界(Decision boundary)的外侧；SVR同样是考虑最大化间隔，但是考虑的是决策边界内的点，使尽可能多的样本点位于间隔内。

现有技术中，在训练用于预测时间序列的模型时，若训练数据中存在异常值，则影响模型训练效果，进而影响后续预测的准确性。本发明实施例中，对于传入SVR模型的特征可以单独构造符合指标的时序特征库，对于传入数据的异常值处理方法为：根据异常点同周期位置下的真实值与预测值联合预测当前点的非异常状况数值。其中，预测值采用指数平滑方法得到，真实值通过同周期内余下点构建的正态分布随机数得到。本实施例能够降低异常数据的影响，提高预测结果的准确性。

对于数据整体平稳有周期性、但是在某些地方产生突变的情况，例如突然变得越来越高，传统单一预测算法无法处理这种特征；当训练数据内存在异常值时，会影响模型的学习和后续预测；在面对数据内存在促销日的情况时，传统算法无法保证准确度或无法处理；若指标数据近一段时间内发生了明显的模式变化(如概念漂移)，在较高的准确度要求下，传统算法预测指标资源消耗过多，时间过长，同时现有的算法验证效果较差，需要综合各类运算法的思想。本发明实施例能够分解数据的整体偏移性、周期性、趋势性和误差，稀疏点与密集点采用不同的预测模型，从而兼顾预测准确性和训练预测性能，实现稳定可靠的时序预测功能。

以对磁盘空间或表数据空间进行异常诊断和趋势预测为例，本发明实施例根据所采集的一万条磁盘空间数据与表空间数据(磁盘空间数据是指磁盘空间使用率，表空间数据是指表空间使用率。每一个数据库实例的磁盘空间数据是一条时间序列，表空间数据也是一条时间序列)进行指标分类，将所采集的磁盘空间数据传给随机森林分类算法得到形状分类标签，再进行量纲大小与波动特征计算，传给SVM分类算法得到量纲分类标签。表空间的指标同样进行以上计算。指标共分为无周期、弱周期和强周期三大类，十二小类。分类之后，根据对应的每一个标签映射对应的趋势预测模型，趋势预测模型包括三类：SVR单指标预测、DeepAR多指标预测、holtwinter季节性与周期性预测。无周期对应的模型为SVR模型，运用SVR模型进行单指标趋势预测；弱周期对应的模型为DeepAR模型，运用DeepAR模型进行多指标预测；强周期对应的模型为holtwinter模型，可对季节性与周期性数据进行预测。

本发明实施例提供的数据分析的方法是一套完整的且通用的趋势预测算法，能够轻量化部署。本发明实施例对指标进行分类时，不仅考虑了数据库磁盘/表空间指标的波动周期性，而且考虑到了时间序列形状及量纲波动范围，指标分类的准确性更高，不仅能够帮助数据库工程师对于不同的实例的磁盘/表空间指标分类管理，辅助分配不同的任务至对应的实例，而且指标分类模型能够使得指标更好地适配对应的趋势预测算法，提升趋势预测准确度。本发明实施例整体技术方案的设计对于数据库性能监控能够做到事前预判，提前发现安全隐患，保证***稳定性，帮助运维工程师和管理留有足够的时间，对故障磁盘或异常表数据空间进行发现和执行对应的操作，若未来发生故障则可以快速止损。

根据本发明实施例的第二方面，提供一种实现上述方法的装置。图5是根据本发明实施例的数据分析的装置的主要模块的示意图，如图5所示，数据分析的装置500包括：

标签获取模块501，获取待分析指标的周期标签，在根据所述周期标签确定所述待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；所述历史周期是指在所述预测时段之前的周期；

序列预测模块502，基于所述待分析指标在所述第一历史时段内的时间序列数据确定所述预测时段内所述待分析指标的第一预测时间序列；基于所述待分析指标在所述历史周期内的时间序列数据确定所述预测时段内所述待分析指标的第二预测时间序列；

结果拟合模块503，根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列。

可选地，所述标签获取模块还用于：

可选地，所述标签获取模块还用于：确定所述待分析指标的以下任意一种或多种特征，将确定出的特征输入预训练的分类模型，以确定所述待分析指标的形状标签：SBD互相关距离特征、基于滑动窗口确定所述历史时间序列中值与均值的差的绝对值大于预设数值的占比、所述历史时间序列最小二乘法的线性回归特征、自回归模型滞后算子的自相关值、绝对傅里叶变换的谱统计量、样本熵。

可选地，所述序列预测模块还用于：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

图6示出了可以应用本发明实施例的数据分析的方法或数据分析的装置的示例性***架构600。

如图6所示，***架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据分析的方法一般由服务器605执行，相应地，数据分析的装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括：标签获取模块、序列预测模块和结果拟合模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，标签获取模块还可以被描述为“根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取待分析指标的周期标签，在根据所述周期标签确定所述待分析指标具有周期性的情况下，确定历史周期内与预测时段对应的第一历史时段；所述历史周期是指在所述预测时段之前的周期；基于所述待分析指标在所述第一历史时段内的时间序列数据确定所述预测时段内所述待分析指标的第一预测时间序列；基于所述待分析指标在所述历史周期内的时间序列数据确定所述预测时段内所述待分析指标的第二预测时间序列；根据所述第一预测时间序列和所述第二预测时间序列确定所述待分析指标在所述预测时段内的预测时间序列。

根据本发明实施例的技术方案，根据待分析指标的周期标签选择对应的预测方案，并且通过添加加权方法加大距离预测时段较近的对应时段内数据的权重，能够实现对各类指标的整体预测，提高预测效果的准确性，从而对于***性能能够做到事前预判，提前发现安全隐患，保证***稳定性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据分析的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，获取待分析指标的周期标签，包括：

采用聚合通道特征检测算法分析所述待分析指标的历史时间序列，得到所述待分析指标的候选周期集合；在所述候选周期集合中的元素无规律性的情况下，为所述待分析指标设置用于指示无周期的第一周期标签。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求2或3所述的方法，其特征在于，所述方法还包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述方法还包括：获取所述待分析指标的形状标签；

确定历史周期内与预测时段对应的第一历史时段，包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

在根据所述周期标签确定所述待分析指标不具有周期性的情况下，利用SVR模型确定所述预测时段内所述待分析指标的预测时间序列。

8.如权利要求6或7所述的方法，其特征在于，所述方法还包括：获取所述待分析指标的量纲标签；其中，所述量纲标签是根据所述待分析指标的取值范围确定的；

所述模型的模型输入包括：所述待分析指标的形状标签和量纲标签，以及所述待分析指标在所述历史周期内的时间序列数据。

9.一种数据分析的装置，其特征在于，包括：

10.一种数据分析的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。