CN117424797A - 一种实时大并发告警接收和处理方法 - Google Patents

一种实时大并发告警接收和处理方法 Download PDF

Info

Publication number
CN117424797A
CN117424797A CN202311749561.7A CN202311749561A CN117424797A CN 117424797 A CN117424797 A CN 117424797A CN 202311749561 A CN202311749561 A CN 202311749561A CN 117424797 A CN117424797 A CN 117424797A
Authority
CN
China
Prior art keywords
alarm
queue
processing
time
alarms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311749561.7A
Other languages
English (en)
Other versions
CN117424797B (zh
Inventor
于进海
马栓祥
童玲
陈华玮
邓华兵
黄耿亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tisson Regaltec Communications Tech Co Ltd
Original Assignee
Tisson Regaltec Communications Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tisson Regaltec Communications Tech Co Ltd filed Critical Tisson Regaltec Communications Tech Co Ltd
Priority to CN202311749561.7A priority Critical patent/CN117424797B/zh
Publication of CN117424797A publication Critical patent/CN117424797A/zh
Application granted granted Critical
Publication of CN117424797B publication Critical patent/CN117424797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0622Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0627Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络管理技术领域,尤指一种实时大并发告警接收和处理方法,主要指Snmp Trap告警,首先基于分布式队列实时接收告警信息,然后通过IP地址进行告警信息的第一次分片,创建原始告警队列。随后,原始告警队列经过解析处理和标准化,进一步根据告警设备IP和告警类别进行第二次分片,形成标准化告警队列。标准化告警队列将应用处理规则,并根据处理的拥挤度进行常态分析,以此捕捉拥挤队列中的告警特征。基于这些特征,***生成第三次分片规则,并据此匹配相应的处理规则。实现减少遍历过程和资源锁的使用,加快了告警处理速度和实现了在告警风暴中灵活有序的自动化处理,避免了重要告警的忽视或响应延迟。

Description

一种实时大并发告警接收和处理方法
技术领域
本发明涉及网络管理技术领域,尤指一种实时大并发告警接收和处理方法。
背景技术
在现代信息技术环境中,***和网络设备频繁地生成大量告警信息。这些告警信息关键于维持***安全、性能和可靠性。然而,随着网络环境的复杂化和数据流量的增加,传统的告警处理方法面临着诸多挑战,特别是在处理大规模并发告警时。常见问题包括告警信息的过载、重复告警、处理延迟以及难以快速识别重要告警。
现有的告警处理技术中,普遍采用的方法是通过计数器来统计告警信息。这种方法主要依赖于对告警事件的数量进行计数,从而为***管理员或自动化工具提供基本的告警管理功能。尽管这种方法在处理简单和单一来源的告警时相对有效,但在面对大规模并发告警情况时,有明显的局限性,首先,仅仅依靠计数器统计的方法难以处理和区分来自不同源的告警信息。在复杂的网络环境中,不同类型和来源的告警信息需要不同的处理策略和优先级。计数器方法无法提供足够的细节来支持这种差异化处理,导致重要告警的忽视或响应延迟。
发明内容
为解决上述问题,本发明提供一种实时大并发告警接收和处理方法。
为实现上述目的,本发明采用的技术方案是:
一种实时大并发告警接收和处理方法,包括:
基于分布式队列实时接收告警信息;
根据告警信息的IP进行第一次分片,得到原始告警队列,对原始告警队列进行解析处理和标准化处理,并根据告警设备IP和告警类别进行第二次分片,得到标准化告警队列;
对标准化告警队列实施处理规则,根据处理的拥挤度进行常态分析获得拥挤队列;
捕捉获取拥挤队列中的告警特征,根据告警特征生成第三次分片;
根据第三次分片匹配处理规则。
进一步地,所述处理规则包括告警的资源关联分析、重复告警压缩屏蔽、根告警的分析和告警的自动通知派单。
进一步地,所述基于分布式队列实时接收告警信息包括:
部署若干个接收节点,所述接收节点接收预设的告警信息源;所述接收节点按照时间序列发送告警信息到消息队列中。
进一步地,所述根据告警信息的IP进行第一次分片包括:
对告警信息进行IP地址信息提取;
根据提取的IP地址,将告警信息分发至若干个第一子队列中,其中每个子第一子队列对应一组IP地址范围;
对每个第一子队列中的告警信息进行时间戳标记;
根据时间戳顺序对每个第一子队列应用过滤规则,得到原始告警队列。
进一步地,所述对原始告警队列进行解析处理和标准化处理包括:
对原始队列的每条告警信息进行解构并分离元素,所述元素包括告警生成时间戳、告警级别标识、告警设备IP、告警类别和告警内容描述;
将解构后的元素标准化为同一数据格式,得到告警数据。
进一步地,所述根据告警设备IP和告警类别进行第二次分片包括:
基于告警设备的IP和告警类别将告警数据分类到若干个第二子队列;
在每个第二子队列中,根据告警类别对告警数据进行分组,得到标准化告警队列。
进一步地,所述处理规则根据告警类别进行确定。
进一步地,所述常态分析包括:
对标准化告警队列中的告警数据进行持续监控,识别处理流程中拥挤的标准化告警队列;
统计各告警类别在处理流程中的平均处理时间和等待时间,计算常态拥挤度;
对常态拥挤度高于预设值的第二子队列标记为拥挤队列;
对常态拥挤度低于或等于预设值的第二子队列不执行任何标记。
进一步地,所述捕捉获取拥挤队列中的告警特征包括:
识别具有重复性和模式化的告警行为;
提取告警数据的关键属性,包括告警信息的IP、告警频率和告警模式;
对具有共同关键属性的告警数据进行关键属性打包,生成告警特征。
进一步地,所述根据告警特征生成第三次分片包括:
在第二子队列中,对告警特征进行规则标准化,生成特征规则;
创建第三子队列并以特征规则为筛入条件,生成第三次分片。
本发明的有益效果在于:本发明首先通过基于分布式队列的架构,且不在此环节进行标准化和格式转换,实现了对告警信息的实时接收和高效处理,减小了面对告警风暴丢失告警的可能性,通过将告警信息根据其IP地址进行第一次分片,创建原始告警队列,并对这些队列进行解析处理和标准化,有效地管理了来自不同源的告警信息。避免了当遭受区域性的故障时,高并发的故障告警对其他区域的重要预警造成堵塞。通过进一步根据告警设备IP和告警类别进行第二次分片,生成更加精细化的标准化告警队列,以实现快速通过处理由于某一设施或某一累故障对服务器发送大量重复的预警。最后进一步通过对拥挤的队列进行识别,然后对拥挤队列中的告警进行特征提取进行自动生成第三次分片并匹配处理规则,减少了在第二次分片中的遍历过程以加快了处理速度和实现了在告警风暴中灵活有序的自动化处理,避免了重要告警的忽视或响应延迟。
附图说明
图1 是本发明中一种实时大并发告警接收和处理方法的步骤流程图。
图2 是本发明中根据告警信息的IP进行第一次分片的步骤流程图。
图3 是本发明中步骤S4的步骤流程图。
具体实施方式
请参阅图1-3所示,本发明关于一种实时大并发告警接收和处理方法;
具体地,参阅图1,本发明提供一种实时大并发告警接收和处理方法,包括以下步骤:
S1、基于分布式队列实时接收告警信息;
步骤S1包括:部署若干个接收节点,所述接收节点接收预设的告警信息源;所述接收节点按照时间序列发送告警信息到消息队列中。
在一些实施例中,***首先部署一系列接收节点,这些节点分布于不同的网络位置,每个节点专门负责接收来自特定预设告警信息源的数据。这种分布式的架构使得告警信息能够在多个点被同时收集,从而有效地分散处理负载,并增加***的容错性。在接收告警信息的过程中,每个接收节点还负责对接收到的告警数据进行时间序列排序。这意味着每条告警信息都会根据其生成的时间戳进行排序,确保了告警信息的时效性和逻辑连贯性。例如,如果一个网络设备发生故障,导致连续生成多条告警信息,这些告警信息将按照它们发生的顺序被相应节点捕获和排序。
通过这种方法,不仅能够实时捕获和记录告警信息,还能保证告警数据的顺序性和完整性,为后续的告警处理步骤提供了坚实和可靠的基础。这种基于分布式队列的方法在处理大规模并发告警时显示出更高的效率和准确性,相比于传统的集中式处理方法,能更好地应对现代复杂网络环境下的挑战。
S2、根据告警信息的IP进行第一次分片,得到原始告警队列,对原始告警队列进行解析处理和标准化处理,并根据告警设备IP和告警类别进行第二次分片,得到标准化告警队列;步骤S2包括:
S21、对告警信息进行IP地址信息提取;
需要说明的是,步骤S21是实时大并发告警接收和处理方法中的关键环节,它涉及对告警信息中IP地址的提取。在这一步骤中,***专门对接收到的每条告警信息进行分析,以识别和提取其中的IP地址信息。这一过程对于后续的告警信息处理至关重要,因为IP地址是识别和分类告警信息的关键标识符。
在一些实施例中,***首先扫描每条告警信息,提取其中包含的IP地址。这一操作涉及对告警信息的数据结构进行解析,识别出其中的网络地址部分。随后,这些提取出的IP地址用于对告警信息进行初步分类。例如,如果一个特定的网络设备发生故障,从该设备发出的所有告警信息将共享相同的IP地址,因此可以被归入同一类别。此外,IP地址的提取还有助于后续的分析和响应过程,因为它可以指示告警信息的来源,帮助确定告警的性质和紧急程度。通过精确地提取和利用IP地址信息,步骤S21有效地为进一步的告警处理流程奠定了基础,确保了告警信息能够被正确地识别、分类和处理。
S22、根据提取的IP地址,将告警信息分发至若干个第一子队列中,其中每个子第一子队列对应一组IP地址范围;
需要说明的是,步骤S22根据从告警信息中提取的IP地址,将告警信息进行有效分类。在此步骤中,***依据提取出的IP地址信息,将告警信息分配到不同的第一子队列中。每个第一子队列对应一组特定的IP地址范围,这样的分类机制使得告警信息的管理和处理更为有序和高效。
在一些实施例中,假设有多个网络设备分布在不同的IP地址段中,当这些设备产生告警信息时,***会根据每条告警的IP地址将其分配到相应的第一子队列中。这样,来自同一IP地址范围的告警被归类到同一队列,方便后续的处理和分析。例如,所有来自192.168.1.x范围的告警可能会被分配到一个子队列,而来自192.168.2.x范围的告警则被分配到另一个子队列。这种基于IP地址的告警信息分类不仅提高了告警处理的效率,而且有助于快速定位和响应特定来源的告警,尤其是在面对大量并发告警时。此外,通过将告警信息分类到不同的队列,***能够更有效地管理告警负载,避免单一处理点的过载问题,从而确保了整个告警处理***的稳定性和可靠性。
S23、对每个第一子队列中的告警信息进行时间戳标记;
在一些实施例中,***会检查每条进入第一子队列的告警信息,并为其分配一个时间戳。这个时间戳通常是告警信息生成的确切时间,反映了告警事件发生的时刻。例如,如果某个网络设备在上午10点发生故障并生成告警信息,该信息将被标记为10点的时间戳。通过这种方式,***能够记录告警事件的确切发生时间,并按照这个时间顺序来处理告警信息。这对于处理那些时间敏感的告警尤为重要,比如那些需要即时响应的网络安全事件或设备故障。时间戳标记确保了告警信息不会因为处理延迟或错误排序而被忽略或错误处理。此外,时间戳标记也为后续的告警分析提供了重要数据,如用于识别告警模式、预测潜在问题或优化告警响应策略。总之,步骤S23通过精确的时间戳标记,增强了告警处理的准确性和效率,为整个告警管理***的有效运作提供了重要支持。
S24、根据时间戳顺序对每个第一子队列应用过滤规则,得到原始告警队列;
S25、对原始队列的每条告警信息进行解构并分离元素,所述元素包括告警生成时间戳、告警级别标识、告警设备IP、告警类别和告警内容描述;
需要说明的是,步骤S25涉及对原始告警队列中的每条告警信息进行深入的解析和处理。在此步骤中,***针对每条告警信息执行解构操作,这意味着从每个告警中分离和提取关键信息元素。告警生成时间戳是告警发生的确切时间点,它对于理解告警的时效性和紧急程度至关重要。告警级别标识则提供了告警的严重性评估,它可以是严重、中等或低等级别,指导后续的处理优先级。告警设备IP是告警来源的网络地址,这对于追踪告警到具体设备和位置是必要的。而告警类别则进一步描述了告警的性质,比如它可能指示是***故障、安全威胁还是性能问题。最后,告警内容描述提供了关于告警情况的详细信息,如具体的错误代码或故障描述。
这一解构和元素分离的过程使得原始的、通常格式不一的告警信息被转换为一种更标准化和结构化的形式。这种转换为后续的告警处理流程,如告警分析、分类和响应提供了必要的基础。通过准确地提取和处理这些关键元素,步骤S25确保了告警信息能够被有效地理解和处理,提高了告警处理***的整体性能和响应能力。
S26、将解构后的元素标准化为同一数据格式,得到告警数据;
具体地,标准化的过程关键在于确保不同来源和类型的告警信息在数据结构和表达方式上具有一致性。例如,时间戳需要转换为标准的日期和时间格式,告警级别需要转换为统一的级别代码,IP地址需要以统一的网络地址格式表示,而告警类别和内容描述需要转换为符合预定模板的文本格式。
通过这种标准化处理,原本可能格式各异的告警信息被转换成具有一致性和可比性的数据,这对于后续的数据处理和分析至关重要。标准化的数据格式不仅使得***更容易自动化地处理告警信息,还为使用各种分析工具提供了便利,从而增强了告警信息的处理效率和准确性。
S27、基于告警设备的IP和告警类别将告警数据分类到若干个第二子队列;
在一些实施例中,***将标准化后的告警数据根据其来源的告警设备IP进行分类,而不仅仅是基于IP地址的范围。这意味着***会将相同或相似IP地址段的告警数据进一步细分,以反映不同设备或网络区域的具体情况。例如,即使两个告警来自同一IP地址范围,但如果它们来源于不同的设备或服务,***则会将它们分配到不同的第二子队列中。这种基于告警设备IP的细分处理方式使得告警信息管理更加精确和有效。它有助于区分来自不同设备或服务的告警,从而使得针对特定设备或网络区域的告警响应和处理更加有针对性。此外,这种分类方法也支持在处理过程中对不同类型的设备或服务采取不同的优先级或处理策略,从而提高告警处理的灵活性和效率。
S28、在每个第二子队列中,根据告警类别对告警数据进行分组,得到标准化告警队列;
具体地,在每个第二子队列中,告警信息将根据其类别被归入不同的分组。告警类别可能包括但不限于***故障、网络安全、性能问题、配置更改等。例如,来自同一IP地址段的不同类别告警,如***故障告警和安全告警,将被分别归入不同的分组。通过这种基于类别的分组,***可以更有效地处理和响应各种类型的告警。不同类别的告警需要不同的处理优先级和响应措施。例如,安全相关的告警可能需要紧急处理,而性能相关的告警则可能需要定期审查。这种分类方法还有利于后续的告警分析和决策支持,因为它为每种类别的告警提供了清晰的视图和管理路径。***管理员和自动化处理工具可以根据这些分组更快地识别出关键告警,制定更加精确和有效的响应策略。
S3、对标准化告警队列实施处理规则,根据处理的拥挤度进行常态分析获得拥挤队列;步骤S3包括:
S31、对标准化告警队列实施处理规则;
其中,所述处理规则包括告警的资源关联分析、重复告警压缩屏蔽、根告警的分析和告警的自动通知派单;所述处理规则根据告警类别进行确定;
在一些实施例中,***将这些处理规则应用于标准化告警队列中的每条告警信息。处理规则的范围广泛,包括但不限于告警的资源关联分析、重复告警的压缩屏蔽、根告警的深入分析,以及告警的自动通知和派单。每种规则都针对特定的告警类别设计,以确保最有效的响应和处理。资源关联分析可以帮助识别告警之间的潜在联系,比如多个告警可能源自同一根本问题。重复告警压缩屏蔽则用于减少冗余告警,提高处理效率。根告警分析旨在确定导致一系列告警的原始问题,而自动通知和派单则确保相关人员及时响应告警事件。这些处理规则的实施对于维护网络的稳定性和安全性至关重要。它们不仅提高了告警处理的效率,还增强了对关键问题的快速响应能力。通过根据告警类别确定具体的处理规则,步骤S31确保了告警信息被以最适合的方式处理,从而大大提高了整个告警管理***的性能和可靠性。
S32、对标准化告警队列中的告警数据进行持续监控,识别处理流程中拥挤的标准化告警队列;
需要说明的是,步骤的主要目的是识别在处理流程中出现拥挤现象的标准化告警队列。在此过程中,***不断审视各个标准化告警队列的处理状态,以便及时发现和应对可能的处理瓶颈或拥塞情况。
进行持续监控的行动包括跟踪每个告警队列的处理进度,检查告警信息的积压情况以及处理速度。***关注告警数量迅速增加或处理速度明显减慢的队列。例如,如果某个特定的告警类别突然出现大量告警积压,***会将其标记为潜在的拥挤点。这种监控是动态的,意味着***会根据实时数据不断调整其观察和分析。
S33、统计各告警类别在处理流程中的平均处理时间和等待时间,计算常态拥挤度;
在一些实施例中,***将针对每种告警类别分别计算其在处理过程中所花费的平均时间。这包括了从告警生成到被最终处理的整个周期。处理时间的统计可能会揭示某些告警类别的处理效率低下,而等待时间的统计则有助于识别告警信息在队列中滞留的时间长度。例如,如果发现某一类别的告警在***中的等待时间显著长于其他类别,这可能表明该类别的告警处理存在瓶颈。基于这些统计数据,***接着计算每个告警类别的常态拥挤度。常态拥挤度是一个重要的性能指标,它反映了告警处理***在常规运行条件下各类别告警的处理状况。一个高拥挤度可能预示着处理流程中的效率问题或资源分配不均。
通过执行这些统计和计算,步骤S33不仅能提供关于告警处理性能的洞察,还能够为***管理员或自动化决策引擎提供重要的数据支持。基于这些分析结果,可以采取相应的措施来优化处理流程,如调整资源分配、改进处理算法或重新设置告警处理的优先级,以提高整个***的响应速度和处理效率。
S34、对常态拥挤度高于预设值的第二子队列标记为拥挤队列;
具体地,***首先依据步骤S33中计算出的常态拥挤度数据,评估每个第二子队列的告警处理状态。常态拥挤度是衡量告警处理效率和负载的一个关键指标,它反映了告警在队列中的积压情况及处理速度。对于那些常态拥挤度超过预先设定的阈值的队列,***将它们识别为处理能力可能不足、需要优先关注的拥挤队列。
例如,如果一个特定的告警类别的队列持续显示出高于正常水平的拥挤度,这可能意味着告警的数量超出了当前处理能力,或者该类别的告警处理效率不佳。在这种情况下,该队列将被标记为拥挤队列,以便***管理员或自动化处理机制能够采取适当的行动。
通过这种标记机制,步骤S34为告警处理***的进一步优化提供了重要的指导。它使得***能够更有针对性地管理和优化告警处理流程,特别是在面对大量并发告警的情况下,从而确保告警信息得到及时且有效的处理,提高整个***的响应能力和稳定性。
S35、对常态拥挤度低于或等于预设值的第二子队列不执行任何标记;
需要说明的是,这一步骤的核心在于维持已经处于良好状态的告警处理流程的正常运行。对于那些常态拥挤度表现良好的队列,即意味着告警处理流程是高效的,告警信息没有积压,且处理速度符合预期。在这种情况下,***判断当前的资源分配和处理策略已足够应对这些队列的告警负载,因此无需进行额外的标记或调整。
例如,如果一个特定类别的告警队列显示其处理时间和等待时间均在可接受范围内,这表明该队列的处理能力与告警负载相匹配。因此,***会选择保持现状,不对这些队列采取额外的管理措施。这种做法有助于避免不必要的干预,保证了***资源的高效利用,并确保了那些当前运行良好的队列继续保持其高效率的处理性能。
总的来说,步骤S35通过对表现良好的告警队列采取“不干预”的策略,确保了告警处理***的整体效率和平衡。这种策略有助于***专注于那些确实需要优化和调整的队列,同时维持那些运行良好的队列的稳定性和高效性。
S4、捕捉获取拥挤队列中的告警特征,根据告警特征生成第三次分片;参阅图3,步骤S4包括:
S41、识别具有重复性和模式化的告警行为;
具体地,S41的任务是分析拥挤队列中的告警数据,以寻找可能的重复模式或行为趋势。这些重复性的模式可能表明了某些共同的根源或问题,例如,可能指向特定类型的设备故障、网络安全威胁或***配置错误。为了执行这一任务,***会分析告警内容、频率和其他相关属性,以确定是否存在特定的模式或趋势。例如,如果某一类型的告警在短时间内频繁出现,这可能暗示了一个更大的***问题。同样,如果多个告警来自同一设备或网络段,这可能表明该区域存在特定的挑战或问题。
S42、提取告警数据的关键属性,包括告警信息的IP、告警频率和告警模式;
具体地,告警信息的IP地址,这一属性帮助识别告警的来源,可以是特定的服务器、网络设备或其他IT资源。通过分析IP地址,***能够追踪告警的具体来源地点,从而更准确地定位问题和解决方案。告警频率,涉及告警发生的频次。高频率的告警可能表明了某种持续或加剧的问题,而低频率的告警可能指向偶发或间歇性的事件。告警模式,这包括告警发生的时间模式(如特定时间段的集中)、类型模式(如特定类别的告警频繁发生)等。体现潜在的问题趋势,如***漏洞、配置问题或安全威胁。
S43、对具有共同关键属性的告警数据进行关键属性打包,生成告警特征;
具体地,将精细地分析告警数据,寻找并提取那些在不同告警实例中反复出现的关键属性,如特定的IP地址、异常的访问频率或者某一类别的告警模式。例如,如果一系列来自同一网络区域的告警显示出了类似的异常模式,或者多个告警都指向了相同的***故障,这些就被视为共同的关键属性。接下来,将这些具有相同关键属性的告警聚集在一起,形成一个统一的告警特征集。这个过程类似于将具有相似特征的数据点集合到一个数据包中,以便于后续的分析和处理。例如,所有指向特定服务器故障的告警会被打包成一个特征集,这样就可以更快地识别和处理与该服务器相关的问题。
S44、在第二子队列中,对告警特征进行规则标准化,生成特征规则;
具体地,这一步骤包括分析和转换步骤S43中生成的告警特征集,以便形成一组标准化的处理规则。这些规则基于告警特征的共同点和模式,定义了对特定类型告警的处理方式。例如,如果一个告警特征集表明某一类别的告警频繁指向同一种网络安全问题,***将基于这一模式创建一个特定的处理规则,如自动将这些告警转发至安全分析团队或触发特定的安全响应协议。
S45、创建第三子队列并以特征规则为筛入条件,生成第三次分片;
在一些实施例中,首先涉及到第三子队列的创建。这个新队列的设计目的是为了专门处理那些符合特定特征规则的告警,这些特征规则是在先前步骤中基于告警数据的模式和趋势所建立的。一旦创建了第三子队列,***接着会将这些特征规则应用作为筛选条件,对经过第二子队列的告警数据进行进一步的筛选和分类。例如,如果某个特征规则是关于特定类型的网络攻击,那么所有符合这一模式的告警将被自动筛选进入第三子队列。这样,***便能集中处理这些具有共同特征的告警,从而提高处理效率和准确性。通过创建并使用第三子队列,步骤S45有效地将告警处理流程细化为更专注和更高效的子过程。这种策略不仅有助于减少处理时间和提高响应速度,还使得***能够更精确地定位和解决特定问题,从而提高整个告警处理***的性能和可靠性。
S5、根据第三次分片匹配处理规则;
具体地,评估每个在第三次分片中的告警,并将它们与一系列预定义的处理规则进行比对。这些处理规则可能包括告警的资源关联分析、重复告警压缩屏蔽、根告警的分析和告警的自动通知派单。例如,如果第三次分片中的告警主要与网络安全相关,***可能会将这些告警自动转发至网络安全团队,或触发特定的安全响应措施。同样,如果筛选出的告警与某个已知的***故障模式相符,相应的处理规则可能包括自动执行故障排除程序或通知相关的技术支持团队。通过精确匹配告警与适当的处理规则,步骤S5确保了每个告警都能得到快速且有效的处理。这种方法不仅加快了对告警的整体响应速度,也提高了处理的精度,减少了错误或延误的可能性。总之,步骤S5通过确保每个告警都能获得最适宜的处理,显著提升了告警处理***的效率和有效性。
以上实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (10)

1.一种实时大并发告警接收和处理方法,其特征在于,包括:
基于分布式队列实时接收告警信息;
根据告警信息的IP进行第一次分片,得到原始告警队列,对原始告警队列进行解析处理和标准化处理,并根据告警设备IP和告警类别进行第二次分片,得到标准化告警队列;
对标准化告警队列实施处理规则,根据处理的拥挤度进行常态分析获得拥挤队列;
捕捉获取拥挤队列中的告警特征,根据告警特征生成第三次分片;
根据第三次分片匹配处理规则。
2.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述处理规则包括告警的资源关联分析、重复告警压缩屏蔽、根告警的分析和告警的自动通知派单。
3.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述基于分布式队列实时接收告警信息包括:
部署若干个接收节点,所述接收节点接收预设的告警信息源;所述接收节点按照时间序列发送告警信息到消息队列中。
4.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述根据告警信息的IP进行第一次分片包括:
对告警信息进行IP地址信息提取;
根据提取的IP地址,将告警信息分发至若干个第一子队列中,其中每个子第一子队列对应一组IP地址范围;
对每个第一子队列中的告警信息进行时间戳标记;
根据时间戳顺序对每个第一子队列应用过滤规则,得到原始告警队列。
5.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述对原始告警队列进行解析处理和标准化处理包括:
对原始队列的每条告警信息进行解构并分离元素,所述元素包括告警生成时间戳、告警级别标识、告警设备IP、告警类别和告警内容描述;
将解构后的元素标准化为同一数据格式,得到告警数据。
6.根据权利要求4所述的一种实时大并发告警接收和处理方法,其特征在于,所述根据告警设备IP和告警类别进行第二次分片包括:
基于告警设备的IP和告警类别将告警数据分类到若干个第二子队列;
在每个第二子队列中,根据告警类别对告警数据进行分组,得到标准化告警队列。
7.根据权利要求2所述的一种实时大并发告警接收和处理方法,其特征在于,所述处理规则根据告警类别进行确定。
8.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述常态分析包括:
对标准化告警队列中的告警数据进行持续监控,识别处理流程中拥挤的标准化告警队列;
统计各告警类别在处理流程中的平均处理时间和等待时间,计算常态拥挤度;
对常态拥挤度高于预设值的第二子队列标记为拥挤队列;
对常态拥挤度低于或等于预设值的第二子队列不执行任何标记。
9.根据权利要求1所述的一种实时大并发告警接收和处理方法,其特征在于,所述捕捉获取拥挤队列中的告警特征包括:
识别具有重复性和模式化的告警行为;
提取告警数据的关键属性,包括告警信息的IP、告警频率和告警模式;
对具有共同关键属性的告警数据进行关键属性打包,生成告警特征。
10.根据权利要求9所述的一种实时大并发告警接收和处理方法,其特征在于,所述根据告警特征生成第三次分片包括:
在第二子队列中,对告警特征进行规则标准化,生成特征规则;
创建第三子队列并以特征规则为筛入条件,生成第三次分片。
CN202311749561.7A 2023-12-19 2023-12-19 一种实时大并发告警接收和处理方法 Active CN117424797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311749561.7A CN117424797B (zh) 2023-12-19 2023-12-19 一种实时大并发告警接收和处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311749561.7A CN117424797B (zh) 2023-12-19 2023-12-19 一种实时大并发告警接收和处理方法

Publications (2)

Publication Number Publication Date
CN117424797A true CN117424797A (zh) 2024-01-19
CN117424797B CN117424797B (zh) 2024-03-01

Family

ID=89523412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311749561.7A Active CN117424797B (zh) 2023-12-19 2023-12-19 一种实时大并发告警接收和处理方法

Country Status (1)

Country Link
CN (1) CN117424797B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105450445A (zh) * 2015-11-17 2016-03-30 武汉日电光通信工业有限公司 一种大容量分组传送***下的高性能告警处理***及方法
CN109218097A (zh) * 2018-09-19 2019-01-15 山东浪潮云投信息科技有限公司 一种云平台可配置告警规则的告警***及告警方法
CN112671560A (zh) * 2020-12-11 2021-04-16 广东电力通信科技有限公司 一种高可用的分布式实时告警处理方法及***
CN113448812A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 微服务场景下的监控告警方法及装置
CN113724100A (zh) * 2021-08-27 2021-11-30 广东电网有限责任公司 一种分布式集群的电网监控告警消息处理方法
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、***、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105450445A (zh) * 2015-11-17 2016-03-30 武汉日电光通信工业有限公司 一种大容量分组传送***下的高性能告警处理***及方法
CN109218097A (zh) * 2018-09-19 2019-01-15 山东浪潮云投信息科技有限公司 一种云平台可配置告警规则的告警***及告警方法
CN112671560A (zh) * 2020-12-11 2021-04-16 广东电力通信科技有限公司 一种高可用的分布式实时告警处理方法及***
CN113448812A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 微服务场景下的监控告警方法及装置
CN113724100A (zh) * 2021-08-27 2021-11-30 广东电网有限责任公司 一种分布式集群的电网监控告警消息处理方法
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、***、计算机设备及存储介质

Also Published As

Publication number Publication date
CN117424797B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及***
US10917420B2 (en) Anomaly detection in a data stream
WO2020238810A1 (zh) 一种告警分析方法及相关设备
EP2487860B1 (en) Method and system for improving security threats detection in communication networks
US6941367B2 (en) System for monitoring relevant events by comparing message relation key
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
CN113553210A (zh) 告警数据的处理方法、装置、设备及存储介质
US10652103B2 (en) System and method for handling events involving computing systems and networks using fabric monitoring system
CN107547228B (zh) 一种基于大数据的安全运维管理平台的实现架构
CN105051696A (zh) 用于处理网络元数据的改进的流式处理方法及***
CN112350854A (zh) 一种流量故障定位方法、装置、设备及存储介质
CN115001877A (zh) 一种基于大数据的信息安全运维管理***及方法
CN110929896A (zh) 一种***设备的安全分析方法及装置
CN117692345A (zh) 一种基于人工智能的it运营方法及***
Kim et al. Unsupervised anomaly detection and root cause analysis in mobile networks
CN117424797B (zh) 一种实时大并发告警接收和处理方法
CN115686381B (zh) 存储集群运行状态的预测方法及装置
CN116939589A (zh) 一种基于校园无线网的学生上网监控***
CN115549953B (zh) 一种网络安全告警方法及***
Chakor et al. Proposing a Layer to Integrate the Sub-classification of Monitoring Operations Based on AI and Big Data to Improve Efficiency of Information Technology Supervision
JP2019175070A (ja) アラート通知装置およびアラート通知方法
KR101520103B1 (ko) It서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법
CN117640748B (zh) 跨平台设备信息采集***
CN113890814B (zh) 故障感知模型构建和故障感知方法与***、设备、介质
CN112685214B (zh) 一种通过日志收集分析中毒机器并进行告警的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant