CN103220173A

CN103220173A - 一种报警监控方法及监控***

Info

Publication number: CN103220173A
Application number: CN201310121609XA
Authority: CN
Inventors: 王帅; 王蕾
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2013-04-09
Filing date: 2013-04-09
Publication date: 2013-07-24
Anticipated expiration: 2033-04-09
Also published as: CN103220173B

Abstract

本发明公开了一种报警监控方法，所述方法包括：当接收到报警信息时，在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则；根据所述对应的报警规则确定接收的报警信息的信息类型；如果所述信息类型为周期内的重复性信息，则丢弃接收的报警信息；如果所述信息类型为非周期内的重复性信息且接收的报警信息为报警风暴中的一条信息，则根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列。本发明还公开了一种报警监控***。

Description

一种报警监控方法及监控***

技术领域

本发明涉及控制技术领域，尤其涉及一种报警监控方法及监控***。

背景技术

随着互联网技术的快速发展，促使了互联网业务量的急剧增长，其中，对于由多个相互独立的服务器组成的服务器集群***，用户需要对各个服务器进行有效的监控管理，特别是随着集群中的服务器数量越来越多时，当集群***或集群***中的某个或多个服务器出现故障时，需要确定故障原因并及时排除故障，以保证集群***的正常工作。

现有技术中的故障报警***，需要将接收的被监控服务器的告警信息与所维护的发送策略进行匹配，找到与告警信息匹配的发送策略，基于为集群***定制灵活的发送策略，通过此发送策略能够将不同报警以不同的报警方式发送给用户，使管理员及时的了解网络故障原因，以便管理员及时采取措施排除故障。

虽然现有技术实现了定制化的监控报警策略，用户可以为不同的服务器绑定和设定不同的报警策略，但是，在服务器集群的监控活动中，如果服务器大面积产生故障，例如某个服务器集群网络出现问题时，假如出现网络中断、***掉电等大面积异常情况下，报警***会发送大量重复和无意义的报警，导致管理员收到大量报警信息而无法及时从中提取有效信息，不但增加了管理人员提取信息的工作量，甚至会由于大量报警信息的挤入而造成报警***的崩溃。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种报警监控方法及监控***，以避免发送重复性报警信息，从而提高报警信息的可用性和易读性。

为实现上述目的，本发明提供了一种报警监控方法，包括：

当接收到报警信息时，在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则；

根据所述对应的报警规则确定接收的报警信息的信息类型；

如果所述信息类型为周期内的重复性信息，则丢弃接收的报警信息；

如果所述信息类型为非周期内的重复性信息且接收的报警信息为报警风暴中的一条信息，则根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列。

优先的，在上述方法中，在接收报警信息前还包括：

从数据库中读取服务器信息和策略信息，所述服务器信息中携带了所有服务器的身份标识，所述策略信息中携带了预设的所有报警规则；

将每个服务器的身份标识与包括至少一个报警规则的规则队列相互绑定。

优先的，在上述方法中，所述在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则包括：

确定所述接收的报警信息所属的报警服务器；

查询所述报警服务器所绑定的规则队列，并在绑定的规则队列中确定与所述接收的报警信息对应的报警规则。

优先的，在上述方法中，所述规则队列包括与每个报警规则对应的规则表，所述规则表包括规则表标识、上次报警时间、报警间隔时间和规则标识；

所述规则标识指向一个策略实体表，所述策略实体表包括：策略标识、报警计数值、清零间隔、清零时间、服务器绑定数、报警频度、灵敏度、智能报警模板和报警缓冲队列。

优先的，在上述方法中，所述根据所述对应的报警规则确定接收的报警信息的信息类型包括：

确定所述对应的报警规则所对应的规则表；

计算所述对应规则表中记录的上次报警时间和报警间隔时间的和值；

如果所述和值大于当前时间，则确定所述接收的报警信息的信息类型为周期内的重复性信息；

如果所述和值小于或等于当前时间，则确定所述接收的报警信息的信息类型为非周期内的重复性信息，若智能报警功能处于开启状态，则查询所述对应规则表中规则标识所指向的策略实体表，以读取策略实体表中的清零时间；

如果所述读取的清零时间大于当前时间，则将所述接收的报警信息加入报警缓冲队列，并更新策略实体表中的报警计算值，以使当前报警计算值增加一个计数值；

计算所述更新的报警计数值与策略实体表中服务器绑定数的商值；

如果所述商值大于设定灵敏度，则确定接收的报警信息为报警风暴中的一条信息。

优先的，在上述方法中，如果所述和值小于或等于当前时间且智能报警功能处于关闭状态，则将所述报警信息放入报警队列中。

优先的，在上述方法中，如果所述读取的清零时间小于或等于当前时间，则将策略实体表中报警缓冲队列中的所有报警信息放入报警队列中。

优先的，在上述方法中，根据优先级顺序发送所述报警队列中的报警信息。

优先的，上述方法还包括：

接收用户输入的策略输入信息，并根据所述策略输入信息读取数据库中新增策略或更新策略；

查询所述新增策略或更新策略所绑定的所有服务器，并在所绑定的所有服务器对应的规则队列中添加携带新增策略的规则表，或在所绑定的所有服务器对应的规则队列中更新所述更新策略对应的规则表。

优先的，上述方法还包括：

接收用户输入的控制信息，并根据所述控制信息执行控制命令。

本发明还提供了一种报警监控***，包括：

信息接收单元，用于接收报警信息；

规则确定单元，用于当所述信息接收单元接收到报警信息时，在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则；

类型确定单元，用于根据所述对应的报警规则确定接收的报警信息的信息类型；

信息丢弃单元，用于在所述类型确定单元确定的所述信息类型为周期内的重复性信息时，丢弃接收的报警信息；

第一报警单元，用于在所述类型确定单元确定的所述信息类型为非周期内的重复性信息时，若接收的报警信息为报警风暴中的一条信息，则根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列。

优先的，上述***还包括：

信息读取单元，用于从数据库中读取服务器信息和策略信息，所述服务器信息中携带了所有服务器的身份标识，所述策略信息中携带了预设的所有报警规则；

规则绑定单元，用于将每个服务器的身份标识与包括至少一个报警规则的规则队列相互绑定。

优先的，在上述***中，所述规则确定单元包括：

归属确定子单元，用于确定所述接收的报警信息所属的报警服务器；

规则匹配子单元，用于查询所述报警服务器所绑定的规则队列，并在绑定的规则队列中确定与所述接收的报警信息对应的报警规则。

优先的，在上述***中，所述规则队列包括与每个报警规则对应的规则表，所述规则表包括规则表标识、上次报警时间、报警间隔时间和规则标识；

优先的，在上述***中，所述类型确定单元包括：

和值计算子单元，用于确定所述对应的报警规则所对应的规则表，并计算所述对应规则表中记录的上次报警时间和报警间隔时间的和值；

和值判断子单元，用于判断上次报警时间和报警间隔时间的和值是否大于当前时间；

第一类型确定子单元，用于在所述和值判断子单元判断得到的所述和值大于当前时间时，确定所述接收的报警信息的信息类型为周期内的重复性信息；

清零时间读取子单元，用于在所述和值判断子单元判断得到的所述和值小于或等于当前时间时，确定所述接收的报警信息的信息类型为非周期内的重复性信息，若智能报警功能处于开启状态，则查询所述对应规则表中规则标识所指向的策略实体表，以读取策略实体表中的清零时间；

清零时间判断子单元，用于判断所述读取的清零时间是否大于当前时间；

计算值更新子单元，用于在所述清零时间判断子单元判断得到的所述读取的清零时间大于当前时间时，将所述接收的报警信息加入报警缓冲队列，并更新策略实体表中的报警计算值，以使当前报警计算值增加一个计数值；

商值计算子单元，用于计算所述更新的报警计数值与策略实体表中服务器绑定数的商值；

第二类型确定子单元，用于在所述商值计算子单元计算得到的所述商值大于设定灵敏度时，确定接收的报警信息为报警风暴中的一条信息。

优先的，上述***还包括：

第二报警单元，用于在所述和值判断子单元判断得到的所述和值小于或等于当前时间时，若智能报警功能处于关闭状态，则将所述报警信息放入报警队列中。

优先的，上述***还包括：

第三报警单元，用于在所述清零时间判断子单元判断得到的所述读取的清零时间小于或等于当前时间时，将策略实体表中报警缓冲队列中的所有报警信息放入报警队列中。

优先的，上述***还包括：

报警信息发送单元，用于根据优先级顺序发送所述报警队列中的报警信息。

优先的，上述***还包括：

策略读取单元，用于接收用户输入的策略输入信息，并根据所述策略输入信息读取数据库中新增策略或更新策略；

规则更新单元，用于查询所述新增策略或更新策略所绑定的所有服务器，并在所绑定的所有服务器对应的规则队列中添加携带新增策略的规则表，或在所绑定的所有服务器对应的规则队列中更新所述更新策略对应的规则表。

优先的，上述***还包括：

控制执行单元，用于接收用户输入的控制信息，并根据所述控制信息执行控制命令。

本发明实施例提供的报警监控方法及监控***，通过为每个服务器配置多个报警规则，并将这些报警规则与对应的服务器相互绑定，当接收到某个报警服务器的报警信息时，可将接收的报警信息与该报警服务器所绑定的所有报警规则进行匹配，然后利用匹配出的报警规则将报警信息进行不同的处理，即通过设定一个报警周期，当接收的报警信息是在当前报警周期内的重复性的信息时，在产生下次报警前便丢弃该报警信息，这样可有效减少该报警服务器所产生的重复性同类报警。但当接收的报警信息为报警风暴中的一条信息时，虽然在报警周期内已经去除了大部分的重复报警信息，但是，当大量报警服务器同时产生大量的同类报警时，***还会不可避免的在周期外保留大量该类报警信息，此时，为了防止报警风暴引起的大量报警，可根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的一条联合报警信息放入报警队列以进行报警，由此合并了大量重复性的信息，有效解决了报警风暴的重复性且不间断的报警问题，提高了报警的可用性和易读性，减轻了运维和管理人员的工作量，同时减轻了***的报警负荷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例报警监控方法的实施例1的流程示意图；

图2为本发明实施例报警监控方法的实施例2的流程示意图

图3为本发明实施例服务器标识与报警规则的绑定示意图；

图4为本发明实施例策略实体表的结构示意图；

图5为本发明实施例报警风暴原因分析流程示意图；

图6为本发明实施例报警监控方法的实施例3的部分流程示意图；

图7为本发明实施例报警监控***的实施例1的结构示意图；

图8为本发明实施例报警监控***的实施例2的结构示意图；

图9为本发明实施例报警监控***的实施例3的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例所提供的报警监控方法及监控***，适用于分布式的服务器集群***，该集群***由大量的服务器组成，并由采集***采集所有服务器的报警信息，所述采集***将采集到的服务器的报警信息发送至报警控制***，以使报警监控***根据接收的报警信息类型决定报警方式。需要说明的是，本发明实施例包括但不限于适用上述集群***。

参见图1所示，图1为本发明实施例提供的一种报警监控方法的实施例1的流程示意图，实现该方法的步骤包括：

101：当接收到采集***发送的报警信息时，在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则。

在服务器集群***中，服务器种类众多，服务器所提供的服务不同，服务器的重要程度也不同，此时，需要针对提供不同服务的服务器定制不同的监控策略，即根据服务器的性质为每个服务器配置多个报警规则，并将每个服务器所配置的所有报警规则与该服务器相互绑定，其中，每个报警规则可绑定到多个不同的服务器。

在步骤101中，当接收到采集***发送的关于报警服务器的报警信息后，在该报警服务器所绑定的所有报警规则中，选取与接收的报警信息对应的报警规则，从而可利用该选取的报警规则确定报警方式。

102：根据所述对应的报警规则确定接收的报警信息的信息类型。

103：判断所述信息类型是否为周期内的重复性信息，如果是，则执行步骤104，如果否，则执行步骤105。

104：丢弃接收的报警信息。

为了便于理解，下面举例说明本实施：首先为每个服务器进行编号以标识不同的服务器，假设为N个服务器进行编号，即第一服务器、第二服务器......第N服务器；每个服务器所绑定的报警信息定义为第一报警信息、第二报警信息......第M报警信息，每条报警信息对应的报警规则定义为第一报警规则、第二报警规则......第M报警规则。对于每一条报警规则，将根据报警信息的重要程度设定报警频率(相同报警的报警频率)，假设报警频率为1分钟/次，如果在第1分钟利用第一报警规则实现了第一服务器(报警服务器)关于第一报警信息的报警，当在第2分钟前又一次接收了第一报警服务器的第一报警信息，按照报警频率，应该在第2分钟实现该第一报警信息的二次报警。由于当前接收到的第一报警信息是在第1分钟到第2分钟之间这个报警周期内接收的重复性的报警信息，在还未再次实现重复报警前去除当前接收的第一报警信息，以减少在短时间内实现同一服务器同一类型的报警，从而增强报警的易读性。

105：当接收的报警信息为报警风暴中的一条信息时，根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列。

如果当前接收的报警信息并非该报警服务器在周期内的重复性信息，所以暂时保留该报警信息，但还需对该报警信息作进一步的确定，以确定其是否为报警风暴中的一条信息，所谓报警风暴是***接收到的大量同一类型的报警信息，且这些报警信息是来自某一区域的大量服务器的报警信息。如果确定了当前产生了报警风暴，此时需要联合分析报警风暴的其它报警信息，分析产生报警风暴的原因，并将携带分析结果(产生报警风暴原因)的一条联合报警信息放入报警队列以实现报警，从而避免大量报警信息均实现一次报警。

参见图2所示，图2为本发明实施例提供的一种报警监控方法的实施例2的流程示意图，实现该方法的步骤包括：

201：报警***启动时，从数据库中读取服务器信息和策略信息，所述服务器信息中携带了所有服务器的身份标识，所述策略信息中携带了预设的所有报警规则。

202：将每个服务器的身份标识与包括至少一个报警规则的规则队列相互绑定。

在本实施例中，每个服务器都对应有一个唯一的ID(身份标识)，可利用不同的ID来标识不同的服务器。步骤201和步骤202是***初始化的过程，该过程是在***启动时完成的，即，从数据库读取所有的服务器数据，并按ID号的顺序hash(散列)生成图3所示的数据结构，其中，每个服务器ID都指向一个队列数组(规则队列)，该数队列组记录了该服务器绑定的所有报警规则。

具体参见图3所示的服务器标识与报警规则的绑定示意图，其中，服务器实体的ID组中记录了所有服务器ID(server_id_1、server_id_2、……server_id_N，N为整数，N≥1)，每个服务器分别绑定一个规则队列，所述规则队列包括与每个报警规则对应的规则表，不同服务器的规则队列中可以包括多个这样的规则表，所述规则表包括规则表标识(object1-1、object1-2、……object1-J，J为整数，J≥1)、上次报警时间、报警间隔时间和规则标识。其中，所述规则标识指向一个策略实体表，参见图4所示的策略实体表的结构示意图。所述策略实体表包含如下几个字段：

策略标识(strategey ID)：每个策略ID号唯一标识一个报警规则。

报警计数值(count)：该字段记录了在一个时间间隔内(该时间间隔由清零间隔字段决定)该报警共产生的报警总数，在到达清零时间后，该字段将自动被清零。

清零间隔(interval count)，是一个时间间隔，该字段表示多长时间内将报警计数值中记录的计数值清零一次，该字段可由用户自定义。

清零时间(clear_time count)，该时间戳记录了报警计数值count的清零时间，所述报警计数值count每次变更前均需要比较该时间是否达到清零时间。

服务器绑定数(server_num)，该字段记录了该报警规则所绑定的服务器总数，即每条报警规则可绑定多个服务器。

报警频度(frequency)，该字段记录了相同的报警以多少频度进行报警。

灵敏度(sensitivity)，该值由用户设定，是触发智能报警的阈值，该值是0-1之间的一个数，为0时关闭智能报警，为1时灵敏度最低。当灵敏度为1时，表示该报警规则绑定的全部服务器都报警时才触发智能报警。

智能报警模板(smart_rule)，该字段指向一个数组，数组中记录了该报警规则绑定的所有智能报警模板，当触发智能报警的时候，***会根据报警种类和特征，选取报警模块以获取最终的联合报警信息。

报警缓冲队列(alert_list)，该字段指向一个队列，该队列中记录了在一个时间间隔内(清零间隔interval count)的所有该报警规则对应的报警信息，在报警计数值count清零的时候要同时清空该报警缓冲队列(或是被送入报警队列，或是被丢弃)。利用该报警缓冲队列的功能可预防报警风暴以及合并去除重复报警，此外，使用该方式使得每个队列中的报警信息会最长缓冲一个时间间隔(interval字段，由用户设置)才可发送出去。

203：当接收到报警信息时，确定所述接收的报警信息所属的报警服务器，即确定当前接收的报警信息是关于哪台服务器(即报警服务器)的报警信息。

204：查询所述报警服务器所绑定的规则队列，并在绑定的规则队列中确定与所述接收的报警信息对应的报警规则。

205：确定所述对应的报警规则所对应的规则表。

利用该报警服务器对应的服务器标识，获取该报警服务器所绑定的规则队列，再根据报警信息的性质，在规则队列中查找该报警信息唯一对应的报警规则，其中，在***初始化时每条报警规则以规则表的形式给出，匹配报警规则的过程即为匹配规则表的过程。

206：计算所述对应规则表中记录的上次报警时间和报警间隔时间的和值。

207：判断上次报警时间和报警间隔时间的和值是否大于当前时间，如果是，则确定所述接收的报警信息的信息类型为周期内的重复性信息，执行步骤208；如果否，则确定所述接收的报警信息的信息类型为非周期内的重复性信息，执行步骤209。

208：丢弃接收的报警信息。

209：检测智能报警功能是否处于开启状态，如果是，则执行步骤210至步骤214；如果否，则执行步骤216。

210：查询所述对应规则表中规则标识所指向的策略实体表，以读取策略实体表中的清零时间。

211：判断所述读取的清零时间是否大于当前时间，如果是，说明还没到达计数值和报警缓冲队列的清零时间，还处于当前的清零间隔时间内，则执行步骤212至步骤214，如果否，说明清零时间小于或等于当前时间，需要清除计数值和报警缓冲队列中的内容，则执行步骤217。

212：将所述接收的报警信息加入报警缓冲队列，并更新策略实体表中的报警计算值，以使当前报警计算值增加一个计数值。

213：计算所述更新的报警计数值与策略实体表中服务器绑定数的商值Count/server_num。

count/server_num的值越大，表示发出该同类报警信息的服务器数越多，发生报警风暴的几率越大；count/server_num的值越小，表示发出该同类报警信息的服务器数越少，认为是少数服务器产生了该类报警所对应的故障。

214：判断所述商值是否大于设定灵敏度，如果是，则执行步骤215，如果否，则执行步骤203或步骤211。

其中，所述设定灵敏度由人工设定，并在0-1范围内进行设定，设定灵敏度是根据工作人员的经验和所绑定的服务器的规模决定的，即，当某一报警规则的策略实体表中服务器绑定数越大，所述设定灵敏度的值应相对越小，反之，当一报警规则的策略实体表中服务器绑定数越小，所述设定灵敏度的值应相对越大。例如当某一报警规绑定的服务器数量较小(假设绑定数量为10)时，可将所述设定灵敏度设定为0.7-0.8，当然，还可以设定更高的值；例如当某一报警规绑定的服务器数量较大(假设绑定数量为1000)时，可将所述设定灵敏度设定为0.4-0.6，当然，也可以按实际需要设置为0-1之间的其它值。

215：确定接收的报警信息为报警风暴中的一条信息，根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列，执行步骤218。

当大量服务器产生故障时，***会在短时间内接收大量的相同性质的报警信息，这种情况即为报警风暴，此时，从该报警信息对应的策略实体表中的智能报警模板中选取一个报警模板，通过该选取的报警模板确定产生报警风暴的原因，并生成一条携带报警原因的联合报警信息。

举例说明，假设***开启了智能报警功能，当***短时间内收到某区域内大量服务器的停机报警时，即可触发智能报警。其中，所述选取的报警模板包括分析探测单元和结果封装单元两部分，需要说明的是，所有的报警模板都至少包含分析探测单元和结果封装单元，部分复杂模板还包含一些其他处理单元。参见图5所示，示出了本发明实施例提供的报警风暴原因分析流程示意图，当收到批量服务器发送的大量报警信息后，利用所述分析探测单元执行以下探测分析步骤：

501：从报警风暴中的所有故障服务器中随机选取部分样点服务器，对选取的样点服务器执行PING操作(Packet Internet Groper，因特网包探索器，Ping在Windows系下是自带的一个可执行命令，利用它可以检查网络是否能够连通)。

502：判断是否能PING通，即判断网络是否能连接，如果是，则执行步骤503，如果否，则执行步骤504。

503：确定产生报警风暴的原因为***网络抖动，调用所述结果封装单元封装该报警，以生成携带所述网络抖动的联合报警信息，结束流程。

504：查找当前服务器集群的交换机等网络设备，尝试连接交换机。

505：判断交换机是否能连接上，如果是，则执行步骤510，如果否，则执行步骤506。

506：针对选取的各个样点服务器，利用IPMI(Intelligent Platf0rmManagement Interface，智能型平台管理接口)获取每台样点服务器的电源状态。

507：判断能否获取到电源状态参数，所述电源状态包括电压、电流、功率等参数，如果能，说明对应的样点服务器并没有停机，则执行步骤508，如果不能，则执行步骤509。

508：根据获取的电源状态参数，分析报警原因，如果分析结果是服务器瞬间负载过大，导致服务器出现假死的现象，此时调用所述结果封装单元封装该报警，以生成携带所述服务器负载短期增加的联合报警信息；如果分析结果是网络的频繁瞬间抖动，造成网络间断性的中断，此时调用所述结果封装单元封装该报警，以生成携带所述网络抖动的联合报警信息，流程结束。

509：读取机房供电设备状态等信息，根据读取的状态信息分析报警原因，假如报警原因是区域掉电、或是区域供电线路故障、或是区域电源设备故障等，此时调用所述结果封装单元封装该报警，以生成携带所述区域掉电、或区域供电线路故障、或区域电源设备故障的联合报警信息，流程结束。

510：读取交换机等状态信息，该状态信息包括交换机各个端口状态(是否接通)、流经各个端口的数据流量大小等，根据读取的状态信息分析故障原因，假如分析得到的故障原因是网络故障、或是网络抖动、或是网络超负荷等，此时调用所述结果封装单元封装该报警，以生成携带所述网络故障、或网络抖动、或网络超负荷的联合报警信息，流程结束。

216：此时智能报警功能处于关闭状态，则将所述接收的报警信息放入报警队列中，执行步骤218。

217：将策略实体表中报警缓冲队列中的所有报警信息放入报警队列中。

218：根据优先级顺序发送所述报警队列中的报警信息。

此外，可将报警队列中的报警信息写入数据库持久化，以对服务器***的每类报警进行相应的记录；还可将报警队列中的报警信息输入到其它功能单元或是外部调用接口。

本发明实施例提供的报警监控方法，通过为每个服务器配置多个报警规则，并将这些报警规则与对应的服务器相互绑定，当接收到某个报警服务器的报警信息时，可将接收的报警信息与该报警服务器所绑定的所有报警规则进行匹配，然后利用匹配出的报警规则将报警信息进行不同的处理，即通过设定一个报警周期，当接收的报警信息是在当前报警周期内的重复性的信息时，在产生下次报警前便丢弃该报警信息，这样可有效减少该报警服务器所产生的重复性同类报警。但当接收的报警信息为报警风暴中的一条信息时，虽然在报警周期内已经去除了大部分的重复报警信息，但是，当大量报警服务器同时产生大量的同类报警时，***还会不可避免的在周期外保留大量该类报警信息，此时，为了防止报警风暴引起的大量报警，可根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的一条联合报警信息放入报警队列以进行报警，由此合并了大量重复性的信息，有效解决了报警风暴的重复性且不间断的报警问题，提高了报警的可用性和易读性，减轻了运维和管理人员的工作量，同时减轻了***的报警负荷。

参见图6所示，图6为本发明实施例提供的一种报警监控方法的实施例3的流程示意图，在上述方法实施例1或方法实施例2的基础上，本实施例故障报警控制方法还包括以下步骤：

601：接收用户输入的策略输入信息，并根据所述策略输入信息读取数据库中新增策略或更新策略。

602：查询所述新增策略或更新策略所绑定的所有服务器，并在所绑定的所有服务器对应的规则队列中添加携带新增策略的规则表，或在所绑定的所有服务器对应的规则队列中更新所述更新策略对应的规则表。

在***运行过程中，可随时利用数据库中的新增或更新策略，在与服务器ID所绑定的规则队列中添加新的规则表，和/或在与服务器ID所绑定的规则队列中更新旧的规则表，由于每条报警规则所对应的策略可由多个服务器使用，所以需要对每个服务器的规则表进行策略添加或更新。

此外，本实施例3还包括：接收用户输入的控制信息，并根据所述控制信息执行控制命令。例如：这些控制信息是***管理员输入的关于启动***、关闭***、暂停***、或是初始化***等控制信息，当***接收到相关控制信息时，可执行对应的相关控制命令，并将执行相关控制命令所产生的控制结果(例如：所述控制结果为执行控制命令的时间、或是执行控制命令所产生的数据等相关内容)写入数据库持久化。

参见图7所示，图7为本发明实施例提供的一种报警监控***的实施例1的结构示意图，该***具体包括以下单元：

信息接收单元1，用于接收报警信息；

规则确定单元2，用于当所述信息接收单元1接收到报警信息时，在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则；

类型确定单元3，用于根据所述对应的报警规则确定接收的报警信息的信息类型；

信息丢弃单元4，用于在所述类型确定单元3确定的所述信息类型为周期内的重复性信息时，丢弃接收的报警信息；

第一报警单元5，用于在所述类型确定单元3确定的所述信息类型为非周期内的重复性信息时，若接收的报警信息为报警风暴中的一条信息，则根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的联合报警信息放入报警队列。

参见图8所示，图8为本发明实施例提供的一种报警监控***的实施例2的结构示意图，在上述***实施例1的基础上，该***实施例2还包括以下单元：

信息读取单元6，用于从数据库中读取服务器信息和策略信息，所述服务器信息中携带了所有服务器的身份标识，所述策略信息中携带了预设的所有报警规则；

规则绑定单元7，用于将每个服务器的身份标识与包括至少一个报警规则的规则队列相互绑定。

其中，所述规则确定单元2具体包括以下各个子单元：

归属确定子单元21，用于确定所述接收的报警信息所属的报警服务器；

规则匹配子单元22，用于查询所述报警服务器所绑定的规则队列，并在绑定的规则队列中确定与所述接收的报警信息对应的报警规则。

具体的，所述规则队列包括与每个报警规则对应的规则表，所述规则表包括规则表标识、上次报警时间、报警间隔时间和规则标识；

其中，所述类型确定单元3包括：

和值计算子单元31，用于确定所述对应的报警规则所对应的规则表，并计算所述对应规则表中记录的上次报警时间和报警间隔时间的和值；

和值判断子单元32，用于判断上次报警时间和报警间隔时间的和值是否大于当前时间；

第一类型确定子单元33，用于在所述和值判断子单元32判断得到的所述和值大于当前时间时，确定所述接收的报警信息的信息类型为周期内的重复性信息；

清零时间读取子单元34，用于在所述和值判断子单元32判断得到的所述和值小于或等于当前时间时，确定所述接收的报警信息的信息类型为非周期内的重复性信息，若智能报警功能处于开启状态，则查询所述对应规则表中规则标识所指向的策略实体表，以读取策略实体表中的清零时间；

清零时间判断子单元35，用于判断所述读取的清零时间是否大于当前时间；

计算值更新子单元36，用于在所述清零时间判断子单元35判断得到的所述读取的清零时间大于当前时间时，将所述接收的报警信息加入报警缓冲队列，并更新策略实体表中的报警计算值，以使当前报警计算值增加一个计数值；

商值计算子单元37，用于计算所述更新的报警计数值与策略实体表中服务器绑定数的商值；

第二类型确定子单元38，用于在所述商值计算子单元37计算得到的所述商值大于设定灵敏度时，确定接收的报警信息为报警风暴中的一条信息。

此外，本发明***实施例2还包括以下单元：

第二报警单元8，用于在所述和值判断子单元32判断得到的所述和值小于或等于当前时间时，若智能报警功能处于关闭状态，则将所述报警信息放入报警队列中。

第三报警单元9，用于在所述清零时间判断子单元35判断得到的所述读取的清零时间小于或等于当前时间时，将策略实体表中报警缓冲队列中的所有报警信息放入报警队列中。

报警信息发送单元10，用于根据优先级顺序发送所述报警队列中的报警信息。

本发明实施例报警监控***，通过为每个服务器配置多个报警规则，并将这些报警规则与对应的服务器相互绑定，当接收到某个报警服务器的报警信息时，可将接收的报警信息与该报警服务器所绑定的所有报警规则进行匹配，然后利用匹配出的报警规则将报警信息进行不同的处理，即通过设定一个报警周期，当接收的报警信息是在当前报警周期内的重复性的信息时，在产生下次报警前便丢弃该报警信息，这样可有效减少该报警服务器所产生的重复性同类报警。但当接收的报警信息为报警风暴中的一条信息时，虽然在报警周期内已经去除了大部分的重复报警信息，但是，当大量报警服务器同时产生大量的同类报警时，***还会不可避免的在周期外保留大量该类报警信息，此时，为了防止报警风暴引起的大量报警，可根据接收的报警信息与报警风暴中的其它信息确定产生报警风暴的原因，并将携带产生报警风暴原因的一条联合报警信息放入报警队列以进行报警，由此合并了大量重复性的信息，有效解决了报警风暴的重复性且不间断的报警问题，提高了报警的可用性和易读性，减轻了运维和管理人员的工作量，同时减轻了***的报警负荷。

参见图9所示，图9为本发明实施例提供的一种报警监控***的实施例3的结构示意图，结合上述***实施例1或***实施例2，本实施例3还包括：

策略读取单元11，用于接收用户输入的策略输入信息，并根据所述策略输入信息读取数据库中新增策略或更新策略；

规则更新单元12，用于查询所述新增策略或更新策略所绑定的所有服务器，并在所绑定的所有服务器对应的规则队列中添加携带新增策略的规则表，或在所绑定的所有服务器对应的规则队列中更新所述更新策略对应的规则表。

控制执行单元13，用于接收用户输入的控制信息，并根据所述控制信息执行控制命令。

本发明实施例报警监控***，可在***运行过程中随时利用数据库中新增或更新策略，在与服务器I D所绑定的规则队列中添加新的规则表，和/或在与服务器I D所绑定的规则队列中更新旧的规则表，由于每条报警规则所对应的策略可由多个服务器使用，所以需要对每个服务器的规则表进行策略添加或更新。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本发明各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的***相对应，所以描述的比较简单，相关之处参见***部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种报警监控方法，其特征在于，包括：

根据所述对应的报警规则确定接收的报警信息的信息类型；

2.根据权利要求1所述方法，其特征在于，在接收报警信息前还包括：

3.根据权利要求2所述方法，其特征在于，所述在报警服务器所绑定的所有报警规则中确定与接收的报警信息对应的报警规则包括：

确定所述接收的报警信息所属的报警服务器；

4.根据权利要求2所述方法，其特征在于，所述规则队列包括与每个报警规则对应的规则表，所述规则表包括规则表标识、上次报警时间、报警间隔时间和规则标识；

5.根据权利要求4所述方法，其特征在于，所述根据所述对应的报警规则确定接收的报警信息的信息类型包括：

确定所述对应的报警规则所对应的规则表；

6.根据权利要求5所述方法，其特征在于，如果所述和值小于或等于当前时间且智能报警功能处于关闭状态，则将所述报警信息放入报警队列中。

7.根据权利要求5所述方法，其特征在于，如果所述读取的清零时间小于或等于当前时间，则将策略实体表中报警缓冲队列中的所有报警信息放入报警队列中。

8.根据权利要求1至7任一项所述方法，其特征在于，根据优先级顺序发送所述报警队列中的报警信息。

9.根据权利要求4所述方法，其特征在于，所述方法还包括：

10.根据权利要求9所述方法，其特征在于，所述方法还包括：

11.一种报警监控***，其特征在于，包括：

信息接收单元，用于接收报警信息；

12.根据权利要求11所述***，其特征在于，所述***还包括：

13.根据权利要求12所述***，其特征在于，所述规则确定单元包括：

14.根据权利要求12所述***，其特征在于，所述规则队列包括与每个报警规则对应的规则表，所述规则表包括规则表标识、上次报警时间、报警间隔时间和规则标识；

15.根据权利要求14所述***，其特征在于，所述类型确定单元包括：

16.根据权利要求15所述***，其特征在于，所述***还包括：

17.根据权利要求15所述***，其特征在于，所述***还包括：

18.根据权利要求11至17任一项所述***，其特征在于，所述***还包括：

19.根据权利要求14所述***，其特征在于，所述***还包括：

20.根据权利要求19所述***，其特征在于，所述***还包括：