CN113946464B - 一种结合模型及经验的预训练和并行推演的告警降噪方法 - Google Patents

一种结合模型及经验的预训练和并行推演的告警降噪方法 Download PDF

Info

Publication number
CN113946464B
CN113946464B CN202111217648.0A CN202111217648A CN113946464B CN 113946464 B CN113946464 B CN 113946464B CN 202111217648 A CN202111217648 A CN 202111217648A CN 113946464 B CN113946464 B CN 113946464B
Authority
CN
China
Prior art keywords
model
alarm
information
data
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111217648.0A
Other languages
English (en)
Other versions
CN113946464A (zh
Inventor
郭学威
张永超
梁卫星
雷晓亮
杨骏
卢杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tengyun Yuezhi Technology Shenzhen Co ltd
Original Assignee
Tengyun Yuezhi Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tengyun Yuezhi Technology Shenzhen Co ltd filed Critical Tengyun Yuezhi Technology Shenzhen Co ltd
Priority to CN202111217648.0A priority Critical patent/CN113946464B/zh
Publication of CN113946464A publication Critical patent/CN113946464A/zh
Application granted granted Critical
Publication of CN113946464B publication Critical patent/CN113946464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Alarm Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种结合模型及经验的预训练和并行推演的告警降噪方法。本发明通过先对数据进行数据预处理和加工,利用通用规则将数据划分到相同的告警池,在将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验,确定哪个词或句子的重要性更高,将重要性最高的词所在的句子作为根因告警句,形成主从关系,最终整合输出主从关系,同时规则信息经过专家经验验证后,迭代到通用规则库。本发明提出通用性的降噪框架***,后续所有工作可以在同一个算法框架下解决,实现训练和预测,从而进行有效的智能降噪。

Description

一种结合模型及经验的预训练和并行推演的告警降噪方法
技术领域
本发明涉及一种结合模型及经验的预训练和并行推演的告警降噪方法。
背景技术
目前机器架构大多为分布式架构,且向微服务发展,各种关系错综复杂,当故障发生时,会伴随着一系列的告警,简称“告警风暴”,如内存不足不仅当前机器资源告警,同级资源可能也会受到影响,也会导致中间件告警甚至业务告警。当告警风暴来临时,运维人员往往需要花大量时间进行提取有效信息来进行根因定位,本专利借用人工智能学习方法,能有效提取告警风暴中的核心告警,一方面避免运维人员被告警轰炸,另外一方面能让运维人员聚焦在核心告警上,能及时有效的进行解决问题。当前运维上,智能降噪通用做法是使用规则进行压缩,而规则主要靠人为写入,面对少量业务足够应对,但是一旦面对大量业务告警,此项方法则无法有效应对。
告警智能降噪当前主要是聚焦于单点,比如寻根分析,主要是聚焦于寻找到根因告警,再比如规则合并,主要是聚焦于相同的告警进行合并,这样无法在一个框架下解决告警噪声问题,只能是根据已有例子来解决告警问题,面对新的例子没有解决的能力。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明的目的是克服现有技术的不足,提供一种结合模型及经验的预训练和并行推演的告警降噪方法。
本发明的技术方案如下:提供一种结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,包括如下步骤:
步骤1:对告警信息数据库中的数据进行预处理和加工;
步骤2:根据初始规则库的规则信息以及专家经验验证内容形成的规则信息建立通用规则库;
步骤3:利用通用规则将数据划分到相同的告警池中;
步骤4:将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型进行训练;所述Experformer模型训练的具体步骤为:
步骤4.1:将告警信息数据库中的数据分为多个频域,即近期数据、当天数据以及周期数据;
步骤4.2:将预训练模型以及专家经验模型分别与不同频域的数据形成三层拼接两层填充网络层;
步骤4.3:不同网络层分别对数据进行制作专门针对根因搜寻的Encode以及制作专门针对时间序的Encode的处理,再将完成处理的各网络层的数据组成数据任务块,进入队列等待运行;
步骤5:训练模型时,使用预训练模型结合专家经验模型进行对抗校验,确认哪些词或句子的重要性更高,形成主从关系;
步骤6:整合并输出主从告警信息,根据告警重要性信息以及主从告警信息整合出规则信息,通过专家经验对规则信息进行验证后,迭代到通用规则库中;
步骤7:通过云平台与控制中心、第三方***以及算法平台进行信息交换;
步骤8:控制中心以及第三方***通过运营中心进行信息处理,并将信息发送至终端设备上进行输出显示;
步骤9:算法平台对终端的运行进行应用行为分析,并通过智能事件平台对终端运行过程中的事件进行智能化处理;
步骤10:当出现告警事件时,智能事件平台根据算法平台所输出的主从告警信息对告警事件进行分析处理。
进一步地,所述初始规则库中的规则信息包括Prometheus、Zabbix及专家经验。
进一步地,所述专家经验模型为运维人员、使用人员或运维领域专家的经验所形成的经验模型。
进一步地,专家经验验证为运维人员、使用人员或运维领域专家对最终结果进行间断性确认,确认模型辨别是否成功,以此来纠正模型。
进一步地,云平台分为公有云、私有云或混合云。
采用上述方案,本发明通过先对数据进行数据预处理和加工,利用通用规则将数据划分到相同的告警池,在将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验,确定哪个词或句子的重要性更高,将重要性最高的词所在的句子作为根因告警句,形成主从关系。最终整合输出主从关系,其中主从关系整合的规则信息经过专家经验验证后,迭代到通用规则库。本发明提出通用性的降噪框架***,后续所有工作都可以在同一个算法框架下进行解决,并实现真正的训练和预测,从而进行有效的智能降噪。无论是短时间的大量告警,还是长时间的小量告警,都能较好的解决该痛点。
附图说明
图1为本发明的结构框图。
图2为整体***的结构框图。
图3为Experformer模型训练的结构框图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
请参阅图1、图2,本发明提供一种结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,包括如下步骤:
步骤1:对告警信息数据库中的数据进行预处理和加工。
步骤2:根据初始规则库的规则信息以及专家经验验证内容形成的规则信息建立通用规则库。
步骤3:利用通用规则将数据划分到相同的告警池中。
步骤4:请参阅图3,将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型进行训练。输入数据包含时间、文本内容等,其中文本内容包含源IP、告警名词、对象名、数据格式和具体数据等。其中数据分为多个频域,即近期数据、当天数据和周期数据。基于专家经验模型中Attention机制,对Embeding后数据进行重要性确认,最终作为三组任务块进行结果输出。Experformer模型训练的具体步骤为:
步骤4.1:将告警信息数据库中的数据分为多个频域,即近期数据、当天数据以及周期数据;
步骤4.2:将预训练模型以及专家经验模型分别与不同频域的数据形成三层拼接两层填充网络层;
步骤4.3:不同网络层分别对数据进行制作专门针对根因搜寻的Encode以及制作专门针对时间序的Encode的处理,再将完成处理的各网络层的数据组成数据任务块,进入队列等待运行。
先对数据进行数据预处理和加工,利用通用规则将数据划分到相同的告警池,在将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验,确定哪个词或句子的重要性更高,将重要性最高的词所在的句子作为根因告警句,形成主从关系。最终整合输出主从关系,其中主从关系整合的规则信息经过专家经验验证后,迭代到通用规则库。
步骤5:训练模型时,使用预训练模型结合专家经验模型进行对抗校验,确认哪些词或句子的重要性更高,形成主从关系。
步骤6:整合并输出主从告警信息,根据告警重要性信息以及主从告警信息整合出规则信息,通过专家经验对规则信息进行验证后,迭代到通用规则库中。
步骤7:通过云平台与控制中心、第三方***以及算法平台进行信息交换。云平台分为公有云、私有云或混合云。
步骤8:控制中心以及第三方***通过运营中心进行信息处理,并将信息发送至终端设备上进行输出显示。
步骤9:算法平台对终端的运行进行应用行为分析,并通过智能事件平台对终端运行过程中的事件进行智能化处理。通过训练以及推演后的模型在AIOps上作为核心模块之一,依托于算法平台输出所需结果。
步骤10:当出现告警事件时,智能事件平台根据算法平台所输出的主从告警信息对告警事件进行分析处理。
在上述方法中:
数据处理:数据处理包含预处理,数据加工等。
初始规则库:指根据Prometheus、Zabbix及专家经验形成的初始规则库。
通用规则库:指对数据有较好适配能力的规则,具有高通用性,如同源IP、同云、同Zabbix采集工具、靠近的时间等。
规则告警池:通过规则将不同的告警信息归类的不同的告警池。
预训练模型:预先使用自有的告警数据库,来对专家模型进行预训练,使得专家经验模型在初期就具有一定的鉴别能力。
训练模型:对专家模型进行适配训练,使得模型对特定企业数据有独特的辨别能力。
专家经验模型对抗:专家主体为对应企业的运维人员、使用人员或运维领域专家等,其具有一定的辨别能力,且对自身所处企业的数据非常了解,对训练模型时的验证结果进行校验。大多数情况下,为了节省时间且企业大都有自身所形成的专家经验模型,在本发明中以专家经验模型来进行对抗验证。
告警重要性:所输出每个词、每句话的重要程度。
主从告警信息:基于告警重要性,将同一告警池中重要性最高的作为主,其它为从,并输出关联关系。
规则信息:基于特征重要性和关联关系,反哺通用规则库,去适配的修正规则库和专家经验模型,以达到最适合该企业的效果。
专家经验验证:企业的运维人员或使用人员等,对最终结果进行间断性确认,确认模型辨别是否成功,以此来纠正模型,实现模型和企业专家经验的有效集合。
输出结果:输出告警重要性以及告警的关联关系的特定字段。
云平台:包括服务器、路由器、交换机、数据库、存储、以及中间件等模块,为客户提供信息数据的云端互联。
公有云:第三方提供商为用户提供的能够使用的云。
私有云:为一个客户单独使用而构建的云。
混合云:既有第三方提供的也有客户单独构建的云。
控制中心:用于给超级管理员控制用户、资源使用等。包括对用户列表、角色列表、用户信息、权限配置、组织架构、角色分配、用户验证、以及菜单配置等信息的管理及控制。
第三方***:通过第三方***管理。
算法平台:专门用于处理算法等相关的资源平台。
运营中心:展示在前端可供使用的运营端。通过运营中心实现资源管理、指标统计、CI数据查询、资源架构设计、通知记录查询、***事件概览、资源规划设计、指标实时统计、历史事件查询、资源部署、总包速率、总流量速率等运营管理工作。
应用行为分析:智能降噪算法处理完后,用于前端展示的方式。实现业务关系、业务配置、业务面板等模块及任务的行为进行采集分析,并根据算法平台所训练的告警信息进行指标查询、指标异常检测以及根因定位,便于智能事件平台对告警事件进行处理。
智能事件平台:用于告警事件的处理。监控源接入的信息情况,并根据算法平台所训练的告警信息进行智能降噪或进行其他事件的处理。支持事件订阅,以快速对相应事件进行反应及处理。
本发明提供通用性的降噪框架***,后续所有工作都可以在同一个算法框架下进行解决,并实现真正的训练和预测,从而进行有效的智能降噪。无论是短时间的大量告警,还是长时间的小量告警,都能较好的解决该痛点。
综上所述,本发明通过先对数据进行数据预处理和加工,利用通用规则将数据划分到相同的告警池,在将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型。训练模型时使用预训练好的模型和专家经验做校验,确定哪个词或句子的重要性更高,将重要性最高的词所在的句子作为根因告警句,形成主从关系。最终整合输出主从关系,其中主从关系整合的规则信息经过专家经验验证后,迭代到通用规则库。本发明提出通用性的降噪框架***,后续所有工作都可以在同一个算法框架下进行解决,并实现真正的训练和预测,从而进行有效的智能降噪。无论是短时间的大量告警,还是长时间的小量告警,都能较好的解决该痛点。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,包括如下步骤:
步骤1:对告警信息数据库中的数据进行预处理和加工;
步骤2:根据初始规则库的规则信息以及专家经验验证内容形成的规则信息建立通用规则库;
步骤3:利用通用规则将数据划分到相同的告警池中;
步骤4:将同一告警池里的告警信息组合到一起,作为句子输入给Experformer模型进行训练;所述Experformer模型训练的具体步骤为:
步骤4.1:将告警信息数据库中的数据分为多个频域,即近期数据、当天数据以及周期数据;
步骤4.2:将预训练模型以及专家经验模型分别与不同频域的数据形成三层拼接两层填充网络层;
步骤4.3:不同网络层分别对数据进行制作专门针对根因搜寻的Encode以及制作专门针对时间序的Encode的处理,再将完成处理的各网络层的数据组成数据任务块,进入队列等待运行;
步骤5:训练模型时,使用预训练模型结合专家经验模型进行对抗校验,确认哪些词或句子的重要性更高,形成主从关系;
步骤6:整合并输出主从告警信息,根据告警重要性信息以及主从告警信息整合出规则信息,通过专家经验对规则信息进行验证后,迭代到通用规则库中;
步骤7:通过云平台与控制中心、第三方***以及算法平台进行信息交换;
步骤8:控制中心以及第三方***通过运营中心进行信息处理,并将信息发送至终端设备上进行输出显示;
步骤9:算法平台对终端的运行进行应用行为分析,并通过智能事件平台对终端运行过程中的事件进行智能化处理;
步骤10:当出现告警事件时,智能事件平台根据算法平台所输出的主从告警信息对告警事件进行分析处理。
2.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,所述初始规则库中的规则信息包括Prometheus、Zabbix及专家经验。
3.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,所述专家经验模型为运维人员、使用人员或运维领域专家的经验所形成的经验模型。
4.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,专家经验验证为运维人员、使用人员或运维领域专家对最终结果进行间断性确认,确认模型辨别是否成功,以此来纠正模型。
5.根据权利要求1所述的结合模型及经验的预训练和并行推演的告警降噪方法,其特征在于,云平台分为公有云、私有云或混合云。
CN202111217648.0A 2021-10-19 2021-10-19 一种结合模型及经验的预训练和并行推演的告警降噪方法 Active CN113946464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111217648.0A CN113946464B (zh) 2021-10-19 2021-10-19 一种结合模型及经验的预训练和并行推演的告警降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111217648.0A CN113946464B (zh) 2021-10-19 2021-10-19 一种结合模型及经验的预训练和并行推演的告警降噪方法

Publications (2)

Publication Number Publication Date
CN113946464A CN113946464A (zh) 2022-01-18
CN113946464B true CN113946464B (zh) 2022-08-12

Family

ID=79331469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111217648.0A Active CN113946464B (zh) 2021-10-19 2021-10-19 一种结合模型及经验的预训练和并行推演的告警降噪方法

Country Status (1)

Country Link
CN (1) CN113946464B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391151B (zh) * 2022-10-26 2023-04-07 腾云悦智科技(长沙)有限责任公司 一种基于对象关系进行智能发现告警标签的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987144B1 (en) * 2000-11-14 2011-07-26 International Business Machines Corporation Methods and apparatus for generating a data classification model using an adaptive learning algorithm
CN110263172B (zh) * 2019-06-26 2021-05-25 国网江苏省电力有限公司南京供电分公司 一种电网监控告警信息事件化自主识别方法
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110730100B (zh) * 2019-10-21 2022-03-08 中国民航信息网络股份有限公司 一种告警信息处理方法、装置及服务器
CN111352759B (zh) * 2019-12-31 2024-04-02 杭州亚信软件有限公司 一种告警根因的判定方法及装置
CN111475804B (zh) * 2020-03-05 2023-10-24 杭州未名信科科技有限公司 一种告警预测方法及***
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113946464A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
Chen et al. Application of computational intelligence technologies in emergency management: a literature review
KR102216034B1 (ko) 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱
AU2024203089A1 (en) Artificial intelligence applications for computer-aided dispatch systems
US9953517B2 (en) Risk early warning method and apparatus
US10742688B2 (en) Platform for automated regulatory compliance monitoring of messaging services
CN103744977A (zh) 一种云计算***平台中的监控方法及***
US20190018399A1 (en) Cognitive and adaptive telemetry
CN113946464B (zh) 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN115909692A (zh) 一种高速公路报警事件的管理方法、平台、设备和介质
CN109889776A (zh) 视频处理方法、装置、计算机装置及计算机可读存储介质
CN117273429A (zh) 事件监测方法、***、电子设备及存储介质
CN116308679A (zh) 供应链异常订单处理方法、装置、设备及存储介质
Romanowski et al. Information management and decision support in critical infrastructure emergencies at the local level
CN111553826B (zh) 智慧城市数据处理方法
CN115221892A (zh) 工单数据处理方法及装置、存储介质及电子设备
CN109409295A (zh) 多终端立体化智能人证核验***
CN112383435B (zh) 一种故障处理的方法和装置
CN114416673A (zh) 一种嵌入时态的用户行为异常检测方法及***
CN112884165A (zh) 面向联邦机器学习的全流程服务迁移方法与***
Jasso et al. Prediction of 9-1-1 call volumes for emergency event detection
CN111553600B (zh) 基于大数据的智慧城市业务分配***
US11706091B2 (en) Method and a system for retrieving and applying dynamic policy rules in a network
CN117692561A (zh) 调度语音***来电智能控制功能模块
Khan et al. Analysis, Design, Architecture Specification, and Formal Verification of a Smart Flood Monitoring System-of-Systems
CN117615343A (zh) 智慧海洋、港口领域的数据基台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant