CN114422392B

CN114422392B - 一种智能风险监控***及风险监控的方法

Info

Publication number: CN114422392B
Application number: CN202111554083.5A
Authority: CN
Inventors: 郭勇; 曾锦超; 黄裕; 宁伟赵; 马雪林; 唐继哲; 黄家亮
Original assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Current assignee: Guangxi Zhuang Autonomous Region Public Information Industry Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2024-03-15
Anticipated expiration: 2041-12-17
Also published as: CN114422392A

Abstract

本发明公开了一种智能风险监控***及风险监控的方法，包括业务基线层、智能基线层和用户端；所述业务基线层设有采集中心、告警通道和问题跟踪视图后端；所述智能基线层设有依次连接的指标数据库、感知中心、决策中心、执行中心；所述智能基线层还设有业务数据库；所述用户端设有问题跟踪视图web端。本发明可在海量指标数据中实时捕获异常数据，通过智能分析实现智能决策，执行正确的***调整，不需要人工介入，就能自动化处理***异常，将***风险始终维持在可控阶段，达到提高***稳定性和安全性的效果。

Description

一种智能风险监控***及风险监控的方法

技术领域

本发明涉及互联网技术领域，特别涉及一种智能风险监控***及风险监控的方法。

背景技术

随着中国电信电渠业务的发展，电渠的业务平台不断壮大，以欢Go APP为例，用户规模已达2个亿，当前业务峰值已达1.8万次/秒，月服务量达150亿次，业务平台及关联的上下游平台的服务器总数量已经超过1000台。在如此庞大的业务集群下每天会发生成千上万的***事件，例如突然的流量激增、程序的bug、硬件故障、软件故障、网络故障等，一个小的***事件可能会演变成为一次灾难甚至带来严重的损失。如何控制***风险，将灾难发生的几率降至最低成为***管理者的刚需。传统的方法是通过对***的监控，发现异常事件，通知***开发者处理。这种方式需要投入大量的人力成本，尤其是业务体量很大的平台，而且很可能错过风险的最佳处理时机。

发明内容

鉴于此，本发明提供了一种在海量指标数据中实时捕获异常数据，通过智能分析实现智能决策，执行正确的***调整，不需要人工介入，就能自动化处理***异常，将***风险始终维持在可控阶段的智能风险监控***及风险监控的方法。

本发明是通过以下技术方案实现的：

一种智能风险监控***，包括业务基线层、智能基线层和用户端；所述业务基线层设有采集中心、告警通道和问题跟踪视图后端；所述智能基线层设有依次连接的指标数据库、感知中心、决策中心、执行中心；所述智能基线层还设有业务数据库；所述用户端设有问题跟踪视图web端；所述采集中心与指标数据库连接；所述告警通道与执行中心连接；所述业务数据库分别与感知中心、决策中心、执行中心连接；所述问题跟踪视图后端分别与业务数据库和问题跟踪视图web端连接。

一种风险监控的方法，包括以下步骤：

1)集中心采集***所需的指标数据源,并把指标数据存储于数据库中，用于监控和训练AI模型；

2)感知中心每分钟对所有***指标进行一次检查，通过异常检测模型、趋势预测模型、关联分析模型执行对监控指标进行评估，对发生异常的指标进行记录，根据监控规则创建一个事件，并将这个事件向决策中心传递；

3)决策中心接收感知中心报告的事件，决策中心会对每分钟的事件进行识别、存储，并对每个事件进行跟踪处理，直到事件结束；

4)执行中心接受决策中心发来的指令，针对一个事件，执行指令操作，并将执行的日志存入业务数据库；

5)问题跟踪视图后台根据业务数据库中的信息动态生成异常跟踪链路视图；

6)问题跟踪视图web端通过异常跟踪链路视图查看异常事件、查看根因分析、查看趋势预测。

进一步的，所述风险监控的方法还包括将业务级指标受影响的n个关联指标进行加权求和，得出该业务告警级别；在得出告警级别之后，根据该业务级指标关联的所有指标的异常状态数据进行特征提取，通过加权移动平均算法处理后获得分类样本；将样本进行人工标注分类标记，不同的分类代表所进行的执行操作；通过大量的样本数据训练，获得统计模型；所述统计模型为AI决策模型，用于实现智能分析和智能决策。

进一步的，所述加权移动平均算法数学公式为：

其中，WMA(i)代表某个指标在时间点i的加权平均值，w代表加权平均的范围，x代表当前某个指标具体值。

具体计算方法为：以服务器CPU使用率为例，要计算时间点i和i之前w分钟之内的移动平均值，假设w为5，在时间点i的值为100，时间点i-1的值为90，时间点i-2的值为80，时间点i-w+2的值为70，时间点i-w+1的时值为60；

WMA(i)＝(5*100+4*90+3*80+2*70+1*60)/(5+4+3+2+1)＝86.67。

传统指标计算和阈值处理常用原始数据，本专利使用移动平均算法对样本进行处理，避免样本数据中的异常数据对样本有较大影响。

进一步的，所述执行中心根据指令执行的操作主要包括：

1)触发告警，将告警信息触达开发运维人员；

2)扩容，获得事件中业务集群预置的扩容脚本，进行扩容操作；

3)缩容，获得事件中业务集群预置的缩容脚本，进行缩容操作；

4)重启，获得事件中业务集群预置的重启脚本，进行重启操作；

5)调度，获得事件中两个业务集群的扩缩容脚本，依次执行，实现两个集群资源的调度划拨操作；

6)修改防火墙策略，获得事件中防火墙控制脚本，执行***防火墙策略调整；

7)熔断降级，获得***事件中业务集群实例的熔断降级脚本，执行。

所述采集中心主要负责采集***所需的数据源，包括业务级指标、***级指标、运维数据、业务***数据库指标、缓存指标等数据。以上数据存储于数据库中，用于监控和训练AI模型。业务级指标例如登录成功率，登录慢请求数、订单成功率等；运维级指标例如网络流量、网络解析速度等；***级指标例如服务器CPU使用率、内存使用率、JVM虚拟机可用内存、数据库连接数等。

所述感知中心每分钟会对所有***指标进行一次检查，通过异常检测模型、趋势预测模型、关联分析模型执行对监控指标进行评估，对发生异常的指标进行记录，根据监控规则创建一个事件，并将这个事件向决策中心传递。感知中心会对异常指标存入业务数据库。

所述决策中心接收感知中心报告的事件，决策中心会对每分钟的事件进行识别、存储，并对每个事件进行跟踪处理，直到事件结束。决策中心负责识别每一个事件的开始与结束、每分钟会对每一个事件与决策配置中的模型进行匹配，匹配结果将决定下一步动作。决策中心的决策结果发送给执行中心，执行下一步操作。决策中心会将发生的事件存入业务数据库。

所述执行中心接受决策中心发来的指令，针对一个事件，执行相关操作。执行中心会将执行的日志存入业务数据库。执行中心为了控制风险可以执行且不限制于以下操作：

A.触发告警，将告警信息触达开发运维人员。

B.扩容，获得事件中业务集群预置的扩容脚本，进行扩容操作。

C.缩容，获得事件中业务集群预置的缩容脚本，进行缩容操作。

D.重启，获得事件中业务集群预置的重启脚本，进行重启操作。

E.调度，获得事件中两个业务集群的扩缩容脚本，依次执行，实现两个集群资源的调度划拨操作。

F.修改防火墙策略，获得事件中防火墙控制脚本，执行***防火墙策略调整。

G.熔断降级，获得***事件中业务集群实例的熔断降级脚本，执行。

所述告警通道对接告警能力，主要通道有微信、钉钉、短信等，负责与相关的能力平台对接。同时对告警信息模板进行配置、管理。

所述问题跟踪视图后台主要面向配套的Web端提供平台服务。主要能力为：根据业务数据库中存储的异常指标、事件信息、决策配置、执行记录等信息动态生成异常跟踪链路视图，供开发及运维人员方便查看异常事件、定位根本原因、查看历史记录等。以接口的形式提供服务。

所述问题跟踪视图Web端主要提供WEB界面给运维及开发人员使用，支持时间、指标集、指标维度联合查询，支持支持曲线交互：查看大图、放缩、曲线选择等。通过异常跟踪链路视图查看异常事件、查看根因分析、查看趋势预测。通过执行历史记录，查看告警事件、扩容事件、缩容事件等经历过程以及决策依据。

本发明的有益效果：

1、本发明通过AI智能监控***风险、分析***缺陷、解决业务***故障的方法可以极大的节约人力成本，对异常检测的准确率可达95％以上，对故障发生时及时的处理可以避免***严重灾难发生。

2、本发明异常检测能力可达每分钟2000万个指标，可以在千万个指标中轻松捕获异常，具备很强的异常检测能力。

3、本发明不仅可用于业务***的风险监控及故障处理，通过指标的设计，数据积累样本足够的条件下，本***可以应用于其他应用领域的风控预警，具备较强的适配能力。

附图说明

图1为本发明***结构示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

实施例

如图所示，一种智能风险监控***，包括业务基线层、智能基线层和用户端；所述业务基线层设有采集中心、告警通道和问题跟踪视图后端；所述智能基线层设有依次连接的指标数据库、感知中心、决策中心、执行中心；所述智能基线层还设有业务数据库；所述用户端设有问题跟踪视图web端；所述采集中心与指标数据库连接；所述告警通道与执行中心连接；所述业务数据库分别与感知中心、决策中心、执行中心连接；所述问题跟踪视图后端分别与业务数据库和问题跟踪视图web端连接。

一种风险监控的方法，包括以下步骤：

进一步的，所述风险监控的方法还包括将业务级指标受影响的n个关联指标进行加权求和，得出该业务告警级别；在得出告警级别之后，根据该业务级指标关联的所有指标的异常状态数据进行特征提取，通过加权移动平均算法处理后获得分类样本；将样本进行人工标注分类标记，不同的分类代表所进行的执行操作；通过大量的样本数据训练，获得统计模型为AI决策模型，用于实现智能分析和智能决策。。

进一步的，所述所述加权移动平均算法数学公式为：

进一步的，所述执行中心根据指令执行的操作主要包括：

1)触发告警，将告警信息触达开发运维人员；

A.触发告警，将告警信息触达开发运维人员。

根据电信业务的特点，检测当前时刻某指标是否发生异常可以借助昨日此刻的前后3小时运行数据、上个月此刻的前后3小时运行数据进行学习。将“时间序列检测问题”简化为“分类问题”，通过上月数据、昨日数据帮助AI形成“经验”。

本发明使用JAVA编写服务端代码，使用Tomcat作为中间件搭建服务，使用CentOS作为服务器主要的操作***。通过caffe、Tensorflow或keras实现神经网络搭建和训练。通过MySQL数据库作为数据库软件。使用TypeScript编写Web端代码，使用CentOS作为服务器主要的操作***。

Claims

1.一种智能风险监控***进行风险监控的方法，其特征在于：所述***包括业务基线层、智能基线层和用户端；所述业务基线层设有采集中心、告警通道和问题跟踪视图后端；所述智能基线层设有依次连接的指标数据库、感知中心、决策中心、执行中心；所述智能基线层还设有业务数据库；所述用户端设有问题跟踪视图web端；所述采集中心与指标数据库连接；所述告警通道与执行中心连接；所述业务数据库分别与感知中心、决策中心、执行中心连接；所述问题跟踪视图后端分别与业务数据库和问题跟踪视图web端连接；

所述方法包括以下步骤：

1)采集中心采集***所需的指标数据源,并把指标数据存储于数据库中，用于监控和训练AI模型；

6)问题跟踪视图web端通过异常跟踪链路视图查看异常事件、查看根因分析、查看趋势预测；

所述方法还包括将业务级指标受影响的n个关联指标进行加权求和，得出该业务告警级别；在得出告警级别之后，根据该业务级指标关联的所有指标的异常状态数据进行特征提取，通过加权移动平均算法处理后获得分类样本；将样本进行人工标注分类标记，不同的分类代表所进行的执行操作；通过大量的样本数据训练，获得统计模型；所述统计模型为AI决策模型，用于实现智能分析和智能决策。

2.根据权利要求1所述的风险监控的方法，其特征在于：所述加权移动平均算法数学公式为：

3.根据权利要求1所述的风险监控的方法，其特征在于：所述执行中心根据指令执行的操作主要包括：

1)触发告警，将告警信息触达开发运维人员；