CN113946464B

CN113946464B - 一种结合模型及经验的预训练和并行推演的告警降噪方法

Info

Publication number: CN113946464B
Application number: CN202111217648.0A
Authority: CN
Inventors: 郭学威; 张永超; 梁卫星; 雷晓亮; 杨骏; 卢杨辉
Original assignee: Tengyun Yuezhi Technology Shenzhen Co ltd
Current assignee: Tengyun Yuezhi Technology Shenzhen Co ltd
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-08-12
Anticipated expiration: 2041-10-19
Also published as: CN113946464A

Abstract

本发明公开一种结合模型及经验的预训练和并行推演的告警降噪方法。本发明通过先对数据进行数据预处理和加工，利用通用规则将数据划分到相同的告警池，在将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验，确定哪个词或句子的重要性更高，将重要性最高的词所在的句子作为根因告警句，形成主从关系，最终整合输出主从关系，同时规则信息经过专家经验验证后，迭代到通用规则库。本发明提出通用性的降噪框架***，后续所有工作可以在同一个算法框架下解决，实现训练和预测，从而进行有效的智能降噪。

Description

一种结合模型及经验的预训练和并行推演的告警降噪方法

技术领域

本发明涉及一种结合模型及经验的预训练和并行推演的告警降噪方法。

背景技术

目前机器架构大多为分布式架构，且向微服务发展，各种关系错综复杂，当故障发生时，会伴随着一系列的告警，简称“告警风暴”，如内存不足不仅当前机器资源告警，同级资源可能也会受到影响，也会导致中间件告警甚至业务告警。当告警风暴来临时，运维人员往往需要花大量时间进行提取有效信息来进行根因定位，本专利借用人工智能学习方法，能有效提取告警风暴中的核心告警，一方面避免运维人员被告警轰炸，另外一方面能让运维人员聚焦在核心告警上，能及时有效的进行解决问题。当前运维上，智能降噪通用做法是使用规则进行压缩，而规则主要靠人为写入，面对少量业务足够应对，但是一旦面对大量业务告警，此项方法则无法有效应对。

告警智能降噪当前主要是聚焦于单点，比如寻根分析，主要是聚焦于寻找到根因告警，再比如规则合并，主要是聚焦于相同的告警进行合并，这样无法在一个框架下解决告警噪声问题，只能是根据已有例子来解决告警问题，面对新的例子没有解决的能力。

因此，现有技术存在缺陷，需要改进。

发明内容

本发明的目的是克服现有技术的不足，提供一种结合模型及经验的预训练和并行推演的告警降噪方法。

本发明的技术方案如下：提供一种结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，包括如下步骤：

步骤1：对告警信息数据库中的数据进行预处理和加工；

步骤2：根据初始规则库的规则信息以及专家经验验证内容形成的规则信息建立通用规则库；

步骤3：利用通用规则将数据划分到相同的告警池中；

步骤4：将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型进行训练；所述Experformer模型训练的具体步骤为：

步骤4.1：将告警信息数据库中的数据分为多个频域，即近期数据、当天数据以及周期数据；

步骤4.2：将预训练模型以及专家经验模型分别与不同频域的数据形成三层拼接两层填充网络层；

步骤4.3：不同网络层分别对数据进行制作专门针对根因搜寻的Encode以及制作专门针对时间序的Encode的处理，再将完成处理的各网络层的数据组成数据任务块，进入队列等待运行；

步骤5：训练模型时，使用预训练模型结合专家经验模型进行对抗校验，确认哪些词或句子的重要性更高，形成主从关系；

步骤6：整合并输出主从告警信息，根据告警重要性信息以及主从告警信息整合出规则信息，通过专家经验对规则信息进行验证后，迭代到通用规则库中；

步骤7：通过云平台与控制中心、第三方***以及算法平台进行信息交换；

步骤8：控制中心以及第三方***通过运营中心进行信息处理，并将信息发送至终端设备上进行输出显示；

步骤9：算法平台对终端的运行进行应用行为分析，并通过智能事件平台对终端运行过程中的事件进行智能化处理；

步骤10：当出现告警事件时，智能事件平台根据算法平台所输出的主从告警信息对告警事件进行分析处理。

进一步地，所述初始规则库中的规则信息包括Prometheus、Zabbix及专家经验。

进一步地，所述专家经验模型为运维人员、使用人员或运维领域专家的经验所形成的经验模型。

进一步地，专家经验验证为运维人员、使用人员或运维领域专家对最终结果进行间断性确认，确认模型辨别是否成功，以此来纠正模型。

进一步地，云平台分为公有云、私有云或混合云。

采用上述方案，本发明通过先对数据进行数据预处理和加工，利用通用规则将数据划分到相同的告警池，在将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验，确定哪个词或句子的重要性更高，将重要性最高的词所在的句子作为根因告警句，形成主从关系。最终整合输出主从关系，其中主从关系整合的规则信息经过专家经验验证后，迭代到通用规则库。本发明提出通用性的降噪框架***，后续所有工作都可以在同一个算法框架下进行解决，并实现真正的训练和预测，从而进行有效的智能降噪。无论是短时间的大量告警，还是长时间的小量告警，都能较好的解决该痛点。

附图说明

图1为本发明的结构框图。

图2为整体***的结构框图。

图3为Experformer模型训练的结构框图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

请参阅图1、图2，本发明提供一种结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，包括如下步骤：

步骤1：对告警信息数据库中的数据进行预处理和加工。

步骤2：根据初始规则库的规则信息以及专家经验验证内容形成的规则信息建立通用规则库。

步骤3：利用通用规则将数据划分到相同的告警池中。

步骤4：请参阅图3，将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型进行训练。输入数据包含时间、文本内容等，其中文本内容包含源IP、告警名词、对象名、数据格式和具体数据等。其中数据分为多个频域，即近期数据、当天数据和周期数据。基于专家经验模型中Attention机制，对Embeding后数据进行重要性确认，最终作为三组任务块进行结果输出。Experformer模型训练的具体步骤为：

步骤4.3：不同网络层分别对数据进行制作专门针对根因搜寻的Encode以及制作专门针对时间序的Encode的处理，再将完成处理的各网络层的数据组成数据任务块，进入队列等待运行。

先对数据进行数据预处理和加工，利用通用规则将数据划分到相同的告警池，在将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验，确定哪个词或句子的重要性更高，将重要性最高的词所在的句子作为根因告警句，形成主从关系。最终整合输出主从关系，其中主从关系整合的规则信息经过专家经验验证后，迭代到通用规则库。

步骤5：训练模型时，使用预训练模型结合专家经验模型进行对抗校验，确认哪些词或句子的重要性更高，形成主从关系。

步骤6：整合并输出主从告警信息，根据告警重要性信息以及主从告警信息整合出规则信息，通过专家经验对规则信息进行验证后，迭代到通用规则库中。

步骤7：通过云平台与控制中心、第三方***以及算法平台进行信息交换。云平台分为公有云、私有云或混合云。

步骤8：控制中心以及第三方***通过运营中心进行信息处理，并将信息发送至终端设备上进行输出显示。

步骤9：算法平台对终端的运行进行应用行为分析，并通过智能事件平台对终端运行过程中的事件进行智能化处理。通过训练以及推演后的模型在AIOps上作为核心模块之一，依托于算法平台输出所需结果。

在上述方法中：

数据处理：数据处理包含预处理，数据加工等。

初始规则库：指根据Prometheus、Zabbix及专家经验形成的初始规则库。

通用规则库：指对数据有较好适配能力的规则，具有高通用性，如同源IP、同云、同Zabbix采集工具、靠近的时间等。

规则告警池：通过规则将不同的告警信息归类的不同的告警池。

预训练模型：预先使用自有的告警数据库，来对专家模型进行预训练，使得专家经验模型在初期就具有一定的鉴别能力。

训练模型：对专家模型进行适配训练，使得模型对特定企业数据有独特的辨别能力。

专家经验模型对抗：专家主体为对应企业的运维人员、使用人员或运维领域专家等，其具有一定的辨别能力，且对自身所处企业的数据非常了解，对训练模型时的验证结果进行校验。大多数情况下，为了节省时间且企业大都有自身所形成的专家经验模型，在本发明中以专家经验模型来进行对抗验证。

告警重要性：所输出每个词、每句话的重要程度。

主从告警信息：基于告警重要性，将同一告警池中重要性最高的作为主，其它为从，并输出关联关系。

规则信息：基于特征重要性和关联关系，反哺通用规则库，去适配的修正规则库和专家经验模型，以达到最适合该企业的效果。

专家经验验证：企业的运维人员或使用人员等，对最终结果进行间断性确认，确认模型辨别是否成功，以此来纠正模型，实现模型和企业专家经验的有效集合。

输出结果：输出告警重要性以及告警的关联关系的特定字段。

云平台：包括服务器、路由器、交换机、数据库、存储、以及中间件等模块，为客户提供信息数据的云端互联。

公有云：第三方提供商为用户提供的能够使用的云。

私有云：为一个客户单独使用而构建的云。

混合云：既有第三方提供的也有客户单独构建的云。

控制中心：用于给超级管理员控制用户、资源使用等。包括对用户列表、角色列表、用户信息、权限配置、组织架构、角色分配、用户验证、以及菜单配置等信息的管理及控制。

第三方***：通过第三方***管理。

算法平台：专门用于处理算法等相关的资源平台。

运营中心：展示在前端可供使用的运营端。通过运营中心实现资源管理、指标统计、CI数据查询、资源架构设计、通知记录查询、***事件概览、资源规划设计、指标实时统计、历史事件查询、资源部署、总包速率、总流量速率等运营管理工作。

应用行为分析：智能降噪算法处理完后，用于前端展示的方式。实现业务关系、业务配置、业务面板等模块及任务的行为进行采集分析，并根据算法平台所训练的告警信息进行指标查询、指标异常检测以及根因定位，便于智能事件平台对告警事件进行处理。

智能事件平台：用于告警事件的处理。监控源接入的信息情况，并根据算法平台所训练的告警信息进行智能降噪或进行其他事件的处理。支持事件订阅，以快速对相应事件进行反应及处理。

本发明提供通用性的降噪框架***，后续所有工作都可以在同一个算法框架下进行解决，并实现真正的训练和预测，从而进行有效的智能降噪。无论是短时间的大量告警，还是长时间的小量告警，都能较好的解决该痛点。

综上所述，本发明通过先对数据进行数据预处理和加工，利用通用规则将数据划分到相同的告警池，在将同一告警池里的告警信息组合到一起，作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验，确定哪个词或句子的重要性更高，将重要性最高的词所在的句子作为根因告警句，形成主从关系。最终整合输出主从关系，其中主从关系整合的规则信息经过专家经验验证后，迭代到通用规则库。本发明提出通用性的降噪框架***，后续所有工作都可以在同一个算法框架下进行解决，并实现真正的训练和预测，从而进行有效的智能降噪。无论是短时间的大量告警，还是长时间的小量告警，都能较好的解决该痛点。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，包括如下步骤：

步骤1：对告警信息数据库中的数据进行预处理和加工；

步骤3：利用通用规则将数据划分到相同的告警池中；

2.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，所述初始规则库中的规则信息包括Prometheus、Zabbix及专家经验。

3.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，所述专家经验模型为运维人员、使用人员或运维领域专家的经验所形成的经验模型。

4.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，专家经验验证为运维人员、使用人员或运维领域专家对最终结果进行间断性确认，确认模型辨别是否成功，以此来纠正模型。

5.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法，其特征在于，云平台分为公有云、私有云或混合云。