CN111767198A

CN111767198A - 基于分类标签序列匹配的***风险预测方法及装置

Info

Publication number: CN111767198A
Application number: CN202010578700.4A
Authority: CN
Inventors: 江聪颖; 漆英; 朱晓明; 陈思言
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-13

Abstract

本申请提供了一种基于分类标签序列匹配的***风险预测方法及装置，包括：对实时获取的***资源使用率数值匹配对应的标签；根据预设的时间窗口长度和标签生成当前标签序列字符串；从历史标签序列字符串中筛选与当前标签序列字符串一致的子标签序列字符串；利用子标签序列字符串进行***风险预测。本申请基于历史数据，通过特定的算法实现对未来时间段内的***资源使用率的预测，能够实现提前进行风险预警，以便开发运维团队提前介入风险评估，同时也能作为***扩容计划的重要评估依据。

Description

基于分类标签序列匹配的***风险预测方法及装置

技术领域

本申请属于***风险预警技术领域，具体地讲，涉及一种基于分类标签序列匹配的***风险预测方法及装置。

背景技术

随着银行分布式***建设的不断推进，越来越多业务应用已部署在分布式***上，因而对于迅速增长的业务量，开发运维团队需要密切关注***资源使用情况，防止***资源达到或超过限制，引发***宕机，影响业务交易。

目前***上部署了实时阈值监控，能一定程度上对资源使用率峰值进行预警，比如设置预警阈值为80％，但提前预警的程度有限，另外对于数值暴增，峰值同时刺穿预警阈值和实际限值的情况也缺乏预警作用。

对于传统的预测方法，由于***资源使用率对预测***来说是连续数据，而连续数据的数列能够精确匹配上的几率较低，因此预测成功率不高。另外由于存在噪音等随机因数，连续数匹配的抗干扰效果也不好。

发明内容

本申请提供了一种基于分类标签序列匹配的***风险预测方法及装置，以至少解决现有技术中对于***风险预测的精确度不高的问题。

根据本申请的一个方面，提供了一种基于分类标签序列匹配的***风险预测方法，包括：

对实时获取的***资源使用率数值匹配对应的标签；

根据预设的时间窗口长度和标签生成当前标签序列字符串；

从历史标签序列字符串中筛选与当前标签序列字符串一致的子标签序列字符串；

利用子标签序列字符串进行***风险预测。

在一实施例中，利用子标签序列字符串进行***风险预测，包括：

利用子标签序列字符串获得下一时刻的***资源使用率预测数值，并判断***资源使用率预测数值是否超过预设的风险值。

在一实施例中，对实时获取的***资源使用率数值匹配对应的标签，包括：

确定***资源使用率数值所处的数值区间；

根据预先生成的数值区间与标签映射关系表为***资源使用率数值匹配对应的标签。

在一实施例中，根据预设的时间窗口长度和标签生成当前标签序列字符串，包括：

获取时间窗口长度内的所有***资源使用率数值及对应的标签；

将标签按时间排序，生成标签序列字符串。

在一实施例中，根据子标签序列字符串预测下一时刻的***资源使用率预测数值，包括：

获取子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值；

对所有***资源使用率历史数值及当前***资源使用率数值求平均值获得***资源使用率预测数值。

根据本申请的另一个方面，还提供了一种基于分类标签序列匹配的***风险预测装置，包括：

标签匹配单元，用于对实时获取的***资源使用率数值匹配对应的标签；

当前标签序列字符串生成单元，用于根据预设的时间窗口长度和标签生成当前标签序列字符串；

筛选单元，用于从历史标签序列字符串中筛选与当前标签序列字符串一致的子标签序列字符串；

风险预测单元，用于利用子标签序列字符串进行***风险预测。

在一实施例中，风险预测单元包括：

判断模块，用于利用子标签序列字符串获得下一时刻的***资源使用率预测数值，并判断***资源使用率预测数值是否超过预设的风险值。

在一实施例中，标签匹配单元包括：

区间确定模块，用于确定***资源使用率数值所处的数值区间；

匹配模块，用于根据预先生成的数值区间与标签映射关系表为***资源使用率数值匹配对应的标签。

在一实施例中，当前标签序列字符串生成单元包括：

获取模块，用于获取时间窗口长度内的所有***资源使用率数值及对应的标签；

排序生成模块，用于将标签按时间排序，生成标签序列字符串。

在一实施例中，判断模块包括：

数值获取模块，用于获取子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值；

平均值计算模块，用于对所有***资源使用率历史数值及当前***资源使用率数值求平均值获得***资源使用率预测数值。

本申请基于历史数据，通过特定的算法实现对未来时间段内的***资源使用率的预测，能够实现提前进行风险预警，以便开发运维团队提前介入风险评估，同时也能作为***扩容计划的重要评估依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于分类标签序列匹配的***风险预测方法流程图。

图2为本申请实施例中某CPU一段时间内每小时的资源使用率趋势图。

图3为本申请实施例中对***资源使用率数值匹配对应的标签方法流程图。

图4为本申请实施例中生成当前标签序列字符串方法流程图。

图5为本申请实施例中***资源使用率预测数值计算方法流程图。

图6为本申请提供的一种基于分类标签序列匹配的***风险预测装置结构框图。

图7为本申请实施例中标签匹配单元的结构框图。

图8为本申请实施例中当前标签序列字符串生成单元的结构框图

图9为本申请实施例中判断模块的结构框图。

图10为本申请实施例中一种电子设备的具体实施方式。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，***上部署的实时阈值监控能够在一定程度上对资源使用率峰值进行预警，但是提前预警的程度有限，另外对于数值暴增、峰值同时刺穿预警阈值和实际限值的情况也缺乏预警作用。

为了解决上述问题，本申请提供了一种基于分类标签序列匹配的***风险预测方法，如图1所示，包括：

S101：对实时获取的***资源使用率数值匹配对应的标签。

在一具体实施例中，从需要进行预测的***中实时接收某个指标的历史数据，以供匹配预测进程进行预测，以CPU的资源使用率为例，如图2所示，为某CPU一段时间内每小时的资源使用率(百分比)趋势图。在实际中，需要预先设定一个合理的时间间隔T，每隔T时段获取一次当前的***资源使用率数值，并根据该数值所处的数值区间匹配相应的标签。

S102：根据预设的时间窗口长度和标签生成当前标签序列字符串。

在一具体实施例中，预先设置一个合理的时间窗口长度，比如时间窗口长度为K，然后从当前时刻n-1回溯至n-K，记录n-1、n-2…n-K每一个时刻的***资源使用率数值所对应的标签生成当前标签序列字符串。

S103：从历史标签序列字符串中筛选与当前标签序列字符串一致的子标签序列字符串。

在一具体实施例中，从历史标签序列字符串中寻找所有与当前标签序列字符串一致的标签序列字符串，称之为“子标签序列字符串”，这些子标签序列字符串即为对未来时刻的***资源使用率的预测基础。

S104：利用子标签序列字符串进行***风险预测。

利用S103中找到的字标签序列字符串的规律对未来时刻的***资源使用率进行预测，然后判断预测结果是否具有风险。

图1所示的方法的执行主体可以为PC、终端等，通过对数据按区间类型进行划分并匹配相应的标签，而非匹配连续数，能够有效排除噪音的干扰，不仅能够提高抗干扰性能，而且能够提高预测的成功率。本申请适用于对***指标方面的预测，技术人员可以通过预测结果提前对可能存在的风险采取手段。

在一具体实施例中，已经找到所有的子标签序列字符串，则可以寻找到该子标签序列字符串所对应的下一时刻的***资源使用率的数值(历史记录)，那么根据这些历史记录中的***资源使用率数值可以计算(预测)出当前的下一时刻***资源使用率。

在一实施例中，对实时获取的***资源使用率数值匹配对应的标签，如图3所示，包括：

S301：确定***资源使用率数值所处的数值区间。

在一具体实施例中，将数值X的变动范围分为若干区间，每区间视为一类，如下表1所示：

表1

区间	A<sub>1</sub>	A<sub>2</sub>	A<sub>3</sub>	...	A<sub>j</sub>	...	A<sub>m</sub>
								标签	1	2	3	...	j	...	m

若数X落在A_j区间内，则对该数据打上标签j，标记为[X]＝j。

这样数值序列就对应与标签序列如下表2所示，利用这两个序列来对n时刻的数值进行预测。

表2

X1

X2

X3

...

Xi

...

Xn-1

[X1]

[X2]

[X3]

...

[Xi]

...

[Xn-1]

S302：根据预先生成的数值区间与标签映射关系表为***资源使用率数值匹配对应的标签。

在一具体实施例中，假设获取的某段时间内的***资源使用率数值如下所示：

[29.78，29.99，31.06，30.75，32.04，31.09，29.73，31.15，32.37，32.47，28.86，29.88，31.1]，单位为％。

假设预先生成的数值区间与标签的映射关系表如下表3所示：

表3

根据以上数值区间与标签的映射关系表，当***资源使用率为29.78％时，其所处的数值区间对应的标签为J。因此，上述的某段时间内的***资源使用率对应的标签可转化为标签序列字符串S，S＝JJNMQNJNRSGJN。

在一实施例中，根据预设的时间窗口长度和标签生成当前标签序列字符串，如图4所示，包括：

S401：获取时间窗口长度内的所有***资源使用率数值及对应的标签。

S402：将标签按时间排序，生成标签序列字符串。

在一具体实施例中，设定时间窗口长度为2，时刻n-1为如下表4所示的时刻，从时刻n-1回溯2个时间单位为一个时间窗口，如下表4中边框内所示，得到该时间窗口长度内的标签序列字符串s，s＝JN。

表4

在一实施例中，根据子标签序列字符串预测下一时刻的***资源使用率预测数值，如图5所示，包括：

S501：获取子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值。

S502：对所有***资源使用率历史数值及当前***资源使用率数值求平均值获得***资源使用率预测数值。

在一具体实施例中，设当前的标签序列字符串s在历史标签序列字符串S中的匹配数量为N。设n时刻的预测值为

在时间轴上从时刻n-1起进行回溯，在S中寻找与当前标签序列字符串s相同的子标签字符串s’的位置。每找到一个s’的位置，即把s’下一时刻的数值作为预测值之一累加到

匹配次数N累加1。当时间轴回溯至起点，匹配结束。

对

取平均值:

(此处的“＝”为计算机语言中的“赋值”含义)，从而得到n时刻的预测值

匹配开始时，N初始化为1，

初始化为n-1时刻的数值，根据上述等式，得到初始化的

为n-1时刻的数值，含义为以当前时刻的预测下一时刻的值，以及该预测值对应的标签范围。

列举一个例子，假设当前标签序列字符串s＝JN(当前时刻为n-1，时间窗口长度为2)，从历史标签字符串中找到与s相同的子字符串，如下表5所示：

表5

在上述S标签字符串中，对s字符串进行匹配，可以找到在整个时间轴上，还有两个时间窗口的标签字符串能够与s相匹配，分别是时刻n-7至n-6，以及时刻n-12至n-11。

从上述匹配过程中得到匹配结果，时刻n-11、n-6、n-1三个时间窗口具备较相似的历史趋势。

在匹配过程中累加过程如下：

初始化

为n-1时刻的值，即

N＝1。

找到时间窗口n-7至n-6，累加n-5时刻的值，即

N＝2。

找到时间窗口n-12至n-11，累加n-10时刻的值，即

N＝3。

最终得到

即时刻n(下一个小时)的资源使用率的预测值为32.07，属于标签Q:31.8-32.1的范围区间内。

在另一具体实施例中，也可以获取每个子标签字符串s’下一时刻的数值，假设子标签字符串的数量为2，每个子标签字符串s’下一时刻的数值分别为X₁和X₂，那么***资源使用率预测值

即取平均值，本申请不以此为限。

基于同一发明构思，本申请实施例还提供了一种基于分类标签序列匹配的***风险预测装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于分类标签序列匹配的***风险预测装置解决问题的原理与基于分类标签序列匹配的***风险预测方法相似，因此基于分类标签序列匹配的***风险预测装置的实施可以参见基于分类标签序列匹配的***风险预测方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图6所示，本申请提供了一种基于分类标签序列匹配的***风险预测装置，包括：

标签匹配单元601，用于对实时获取的***资源使用率数值匹配对应的标签；

当前标签序列字符串生成单元602，用于根据预设的时间窗口长度和标签生成当前标签序列字符串；

筛选单元603，用于从历史标签序列字符串中筛选与当前标签序列字符串一致的子标签序列字符串；

风险预测单元604，用于利用子标签序列字符串进行***风险预测。

在一实施例中，风险预测单元604包括：

在一实施例中，如图7所示，标签匹配单元601包括：

区间确定模块701，用于确定***资源使用率数值所处的数值区间；

匹配模块702，用于根据预先生成的数值区间与标签映射关系表为***资源使用率数值匹配对应的标签。

在一实施例中，如图8所示，当前标签序列字符串生成单元602包括：

获取模块801，用于获取时间窗口长度内的所有***资源使用率数值及对应的标签；

排序生成模块802，用于将标签按时间排序，生成标签序列字符串。

在一实施例中，如图9所示，判断模块包括：

数值获取模块901，用于获取子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值；

平均值计算模块902，用于对所有***资源使用率历史数值及当前***资源使用率数值求平均值获得***资源使用率预测数值。

本申请中采样数据均为相同时间跨度的样本数据，实现对下一个时间跨度时刻的预测。通过调整时间跨度，能够调整预测值的提前量，以调整风险预警的提前量，例如预测下一小时的资源使用率峰值，或预测下一天的资源使用率峰值。

当采样数据源发生根本性变化时，预测成功率有所降低，例如作为预测对象的***的业务量上升导致资源使用率普遍上升。通过重新设定数值划分的区间范围，以及调整时间窗口长度k，能够重设预测成功率。因此在使用时，可以预先设置一定数量的参数设置预案。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图10，所述电子设备具体包括如下内容：

处理器(processor)1301、内存1302、通信接口(Communications Interface)1303、总线1304和非易失性存储器1305；

其中，所述处理器1301、内存1302、通信接口1303通过所述总线1304完成相互间的通信；

所述处理器1301用于调用所述内存1302和非易失性存储器1305中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S101：对实时获取的***资源使用率数值匹配对应的标签。

S104：利用子标签序列字符串进行***风险预测。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S101：对实时获取的***资源使用率数值匹配对应的标签。

S104：利用子标签序列字符串进行***风险预测。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一实施例”、“一具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种基于分类标签序列匹配的***风险预测方法，其特征在于，包括：

对实时获取的***资源使用率数值匹配对应的标签；

根据预设的时间窗口长度和所述标签生成当前标签序列字符串；

从历史标签序列字符串中筛选与所述当前标签序列字符串一致的子标签序列字符串；

利用所述子标签序列字符串进行***风险预测。

2.根据权利要求1所述的***风险预测方法，其特征在于，所述利用所述子标签序列字符串进行***风险预测，包括：

利用所述子标签序列字符串获得下一时刻的***资源使用率预测数值，并判断所述***资源使用率预测数值是否超过预设的风险值。

3.根据权利要求1所述的***风险预测方法，其特征在于，所述对实时获取的***资源使用率数值匹配对应的标签，包括：

确定所述***资源使用率数值所处的数值区间；

根据预先生成的数值区间与标签映射关系表为所述***资源使用率数值匹配对应的标签。

4.根据权利要求1所述的***风险预测方法，其特征在于，所述根据预设的时间窗口长度和所述标签生成当前标签序列字符串，包括：

将所述标签按时间排序，生成所述标签序列字符串。

5.根据权利要求2所述的***风险预测方法，其特征在于，所述根据所述子标签序列字符串预测下一时刻的***资源使用率预测数值，包括：

获取所述子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值；

6.一种基于分类标签序列匹配的***风险预测装置，其特征在于，包括：

当前标签序列字符串生成单元，用于根据预设的时间窗口长度和所述标签生成当前标签序列字符串；

筛选单元，用于从历史标签序列字符串中筛选与所述当前标签序列字符串一致的子标签序列字符串；

风险预测单元，用于利用所述子标签序列字符串进行***风险预测。

7.根据权利要求6所述的***风险预测装置，其特征在于，所述风险预测单元包括：

判断模块，用于利用所述子标签序列字符串获得下一时刻的***资源使用率预测数值，并判断所述***资源使用率预测数值是否超过预设的风险值。

8.根据权利要求6所述的***风险预测装置，其特征在于，所述标签匹配单元包括：

区间确定模块，用于确定所述***资源使用率数值所处的数值区间；

匹配模块，用于根据预先生成的数值区间与标签映射关系表为所述***资源使用率数值匹配对应的标签。

9.根据权利要求6所述的***风险预测装置，其特征在于，所述当前标签序列字符串生成单元包括：

排序生成模块，用于将所述标签按时间排序，生成所述标签序列字符串。

10.根据权利要求7所述的***风险预测装置，其特征在于，所述判断模块包括：

数值获取模块，用于获取所述子标签字符串下一时刻的***资源使用率历史数值及当前***资源使用率数值；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5中任意一项所述基于分类标签序列匹配的***风险预测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-5中任一项所述基于分类标签序列匹配的***风险预测方法。