CN109783310A

CN109783310A - It设备的多维动态安全监控方法及其监控装置

Info

Publication number: CN109783310A
Application number: CN201811535298.0A
Authority: CN
Inventors: 李�浩
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-21

Abstract

本发明提供一种IT设备的多维动态安全监控方法、装置、计算机设备及存储介质，所述方法包括以下步骤：获取IT设备中的多个事件运行数据；设置事件关联规则，根据所述事件关联规则确定报警事件，其中所述事件关联规则用于表征所述事件运行数据与报警事件之间的关系；根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系；将属于同一监控对象的所有报警事件和对应的参考方案上报给远程监控服务器。

Description

IT设备的多维动态安全监控方法及其监控装置

技术领域

本发明涉及软件运维技术领域，尤其涉及一种IT设备的多维动态安全监控方法、装置、计算机设备及存储介质。

背景技术

目前市面上的大量开源或闭源监控软件报警都是单一类型报警，例如单一的网络流量监控报警、CPU占用资源监控报警等等，不具备智能判断的多维度报警策略。另外，现有技术中通常将运行数据超过某固定阈值的事件视为报警事件进行标记，然而发明人经过反复实践发现，现有的这种方案可能因为业务量正常增长变化而出现误报警。如果阈值不能根据实际情况灵活变化，就可能使得基于事件运行数据的分析结果发生错误。再者，现有的监控***没有对多个报警内容进行聚合的能力，无法从报警内容中提炼出有价值的解决方案。

发明内容

本发明的目的是提供一种IT设备的多维监控方法、装置、计算机设备及存储介质，用于解决现有技术存在的问题。

为实现上述目的，本发明提供一种IT设备的多维动态安全监控方法，包括以下步骤：

获取IT设备中的多个事件运行数据；

设置事件关联规则，根据所述事件关联规则确定报警事件，其中所述事件关联规则用于表征所述事件运行数据与报警事件之间的关系；

根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系；

上报属于同一监控对象的所有报警事件和对应的参考方案。

进一步地，所述事件关联规则包括多个，不同的事件运行数据对应不同的事件关联规则。

进一步地，所述事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测的。

进一步地，所述故障分类规则包括：将具有相同IP地址的报警事件分为一类，或者将具有相同字段的报警事件分为一类。

进一步地，还包括将故障对象信息发送至移动设备的步骤。

为实现上述目的，本发明还提供一种IT设备的多维动态安全监控装置，包括：

数据获取模块，适用于获取IT设备中的多个事件运行数据；

关联规则模块，适用于设置事件关联规则，所述事件关联规则用于表征所述事件运行数据与报警事件之间的关系；

报警确定模块，适用于根据所述事件关联规则确定报警事件；

报警分类模块，根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系；

故障对象模块，适用于将包含最多数目的报警事件的类所对应的监控对象作为故障对象。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的IT设备的多维动态安全监控方法、装置、计算机设备及存储介质，一方面能够对应用程序进行多维度报警，通过对多维度报警按照故障分类规则进行分组，将相对于不同监控对象的报警事件分成不同的组别，使维护人员能够准确定位故障源，为报警事件迅速提供解决按方案。另一方面，本发明采用事件运行数据和动态阈值相比较的方法，阈值随着运行周期进行灵活变动，从而避免由于阈值固定不变而造成误报警的情况。

附图说明

图1为本发明多维动态安全监控方法实施例一的流程图；

图2为本发明多维动态安全监控装置实施例一的程序模块示意图；

图3为本发明多维动态安全监控装置实施例一的硬件结构示意图；

图4为本发明多维动态安全监控方法实施例二的流程图；

图5为本发明多维动态安全监控装置实施例二的程序模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的IT设备的多维动态安全监控方法、装置、计算机设备及存储介质，适用于软件运维技术领域，为IT设备的运行状态提供一种多维动态的监控方法及其装置。本发明一方面能够对应用程序进行多维度报警，通过对多维度报警按照故障分类规则进行分组，将相对于不同监控对象的报警事件分成不同的组别，使维护人员能够准确定位故障源，为报警事件迅速提供解决按方案。另一方面，本发明采用事件运行数据和动态阈值相比较的方法，阈值随着运行周期进行灵活变动，从而避免由于阈值固定不变而造成误报警的情况。

实施例一

请参阅图1，本实施例的一种多维动态安全监控方法中，包括以下步骤：

S1：获取IT设备中的多个事件运行数据。

本步骤用于获取IT设备日常工作中的运行参数，例如，上述事件运行数据可以是当前消耗的CPU百分比、用户实际使用的内存量、***平均负载、磁盘已用存储空间、网卡每秒接收的数据包数、网页访问量监控数据、金融交易量监控数据或者其它类型的运维事件参量数据。

优选的，上述事件运行数据为24小时不间断实时获取，获取时刻根据实际需要自由设定。具体的，可规定每间隔一段时间获取一次，例如每分钟获取一次数据包量数据，或者每5秒钟获取一次流量监控数据；也可以规定获取每个固定周期内的固定时间段的数据，例如获取每个小时内前十五分钟的数据包量数据，或者获取每分钟前5秒的流量监控数据。

上述被监控的事件运行数据可以直接存储在本地服务器上，并定期传送给远程监控服务器；也可以直接通过网络传送至远程监控服务器。考虑到存储空间和实效性的问题，存储的事件运行数据可以定时清空覆盖，例如存储设备中只保存最近半年的事件运行数据，历史事件运行数据每半年清空一次。

S2：设置事件关联规则，根据所述事件关联规则确定报警事件，其中所述事件关联规则用于表征所述事件运行数据与报警事件之间的关系。

本步骤中的设置事件关联规则，也就是设置确定报警事件的条件。在具体实施时，事件关联规可以包括当事件运行数据大于预设阈值时将该事件作为报警事件，或者当事件运行数据大于预设阈值且持续接收时间大于等于预设时间时将该事件作为报警事件。另外在不同的运行环境，不同的IT设备上，相应的事件关联规则也各不相同。例如，设置当前消耗的CPU百分比超过80％为报警事件，设置网络数据流量超过1G时为报警事件，等等。

针对本步骤中的事件关联规则，可以包括进行创建、查看、修改、删除、启用和禁用等几种操作。用户可以新建一条需要监控的事件关联规则，例如新建规则描述为CPU使用率一分钟平均值大于等于90％则视为报警事件；用户可以根据需要随时查看已设置的所有事件关联规则项目；用户可以对不适合当前运行周期的事件关联规则的阈值进行手动修改或自动修改；用户可以对已经失去监控意义的事件关联规则进行删除；同时，用户还可以对设置好的事件关联规则进行启用和禁用等操作，以满足不同的应用环境。

S3：根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系。

本步骤中的监控对象主要指的是IT设备对象，包括应用层面的设备和网络层面的设备，每个层面的设备又包括硬件设备和软件设备。例如，应用层面的设备主要包括各个服务器、数据库、对象存储、缓存，网络层面的设备包括网关控制设备、用户终端设备等等。本步骤中的故障分类规则就是通过提取报警事件日志中的关键字，按照关键字中对应的设备名称对报警事件进行分类，以确定该报警事件究竟是属于服务器、数据库、对象存储、缓存、网关控制设备、用户终端设备等分类中的哪一类，从而提升运维效率。具体的，例如将具有相同IP地址的报警事件分为一类，或者将具有相同字段的报警事件分为一类。

对报警事件进行分类管理可以有效提高维护人员的工作效率。由于现有的监控***都是把监控到的所有报警事件在没有经过任何处理的基础上集中发送给运维管理人员，运维管理人员需要针对接收到的报警事件，从中分析判断出引起报警事件的故障原因，该分析过程本身需要耗费大量的时间。本提案预先设立故障分类规则，将存在于同一IT设备对象中的多个报警事件分为一类，按照类别发送给运维管理人员。这样可以免去管理人员从众多繁琐的报警事件中筛选彼此有关联的报警事件的步骤，可以直接从发送的同一类报警事件中轻松判定故障原因，可以有效节省工作时长。

上述故障分类规则可以进行修改。例如，当应用项目根据业务需要进行扩容、缩容或改进技术架构时，会涉及到对故障分类规则的修改。具体包括：将某资源从故障分类中移除后，之前设置的故障分类规则将不再适用被移除的实例；而对于新加入分类的实例，则可以设置新的故障分类规则。

在故障分类维度管理报警事件，查看监控数据，可以极大地降低管理复杂度，提高监控效率。

S4：上报属于同一监控对象的所有报警事件和对应的参考方案。

在设置了故障分类规则的基础上，本提案中的报警事件是按照多个分类进行发送的，每一个分类都以一个具体的IT设备对象为中心。例如和一金融业务程序相关的IT设备对象包括服务器、数据库、对象存储、缓存等分类，发送报警事件报告时，会按照上述故障分类将所有报警事件一同打包发送。

另外，IT设备中的报警事件往往包含的数量和种类繁多，有些报警事件属于不需要处理的事件，有些则属于需要立即处理的事件。本案对于不同的报警事件进行了标注，例如标注为紧急报警事件和非紧急报警事件，对于非紧急报警事件会将其暂时存储，但并不会触发报警机制；对于紧急报警事件将会触发上报机制，立即向维护***上报该紧急事件以及前期存储的所有非紧急事件。

上述报警事件在上报时是依照不同的IT设备对象进行的，即同时上报属于同一个IT设备对象的所有报警事件，同时提供对应的解决方案。该解决方案主要是依据往常的处理经验统计得出的，对于类似的报警事件，会给出与往期发生该报警事件时所采用的解决方案作为参考方案。例如，针对服务器中CPU利用率过高的问题，往期的处理经验是关闭占用CPU最多的进程，那么当再次发生服务器中CPU利用率过高的情况时，本案会同时给出“关闭占用CPU最多的进程”这一参考方案。当然，上述参考方案只是为了提供一个参考的处理意见，目的是尽量减轻维护人员的工作量，但是该参考方案并不保证总是正确，具体还需要维护人员根据情况自行选择是否采纳。

在具体实施例中，监测到某金融软件的交易活动中支付未完成，同时发现数据库繁忙。围绕该金融交易程序本发明设置的故障分类规则包括该金融交易程序所在的服务器、数据库和缓存，如果此时接收到的报警事件包括数据库连接数不够，数据库连接超时，则说明上述支付未完成是由于数据库的故障造成的，因此可以快速定位问题，提供有针对性的解决方案。

请继续参阅图2，示出了一种多维动态安全监控装置，在本实施例中，多维动态安全监控装置10可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述多维动态安全监控方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述多维动态安全监控装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

数据获取模块11，适用于获取IT设备中的多个事件运行数据；

关联规则模块12，设置事件关联规则，根据所述事件关联规则确定报警事件，其中所述事件关联规则用于表征所述事件运行数据与报警事件之间的关系；

报警确定模块13，适用于根据所述事件关联规则确定报警事件；

报警分类模块14，根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系；

故障上报模块15，适用于上报属于同一监控对象的所有报警事件和对应的参考方案。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过***总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作***和各类应用软件，例如实施例一的多维动态安全监控装置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行多维动态安全监控装置10，以实现实施例一的多维动态安全监控方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储多维动态安全监控装置10，被处理器执行时实现实施例一的多维动态安全监控方法。

实施例二

请参阅图4，本实施例的多维动态安全监控方法以实施例一为基础，包括以下步骤：

S1：获取IT设备中的多个事件运行数据。

S2：设置事件关联规则，根据所述事件关联规则确定报警事件；所述事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测的。

本步骤中的设置事件关联规则，也就是设置确定报警事件的条件。在具体实施时，事件关联规则可以包括当事件运行数据大于预设阈值时将该事件作为报警事件，或者当事件运行数据大于预设阈值且持续接收时间大于等于预设时间时将该事件作为报警事件。另外在不同的运行环境，不同的IT设备上，相应的事件关联规则也各不相同。例如，设置当前消耗的CPU百分比超过80％为报警事件，设置网络数据流量超过1G时为报警事件，等等。

具体的，本实施例中的事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测的。本实施例中的阈值并不是固定不变，而是动态变化的，从而有效防止由于周期性的业务量合理增长而引起的误报警情况。

本发明中的动态阈值可以按照项目的周期运行规律进行不同调整，根据监控累计起来的周期性的监控状态，统计每分/每小时/每日/每周等历史数据，通过模型算法，计算出同比/环比的数据作为参考。其中,同比增长率＝(本期数-同期数)/同期数*100％；环比增长率＝(本期数-上期数)/上期数*100％。根据上述计算公式，在已知参考的同比增长率和环比增长率下，根据往期数据便可预测出本期数据值，从而根据预测出的本期数据值来动态调整报警阈值。例如，针对某购物平台的金融支付行为，根据历史累计数据得知，每周的周日至周四该购物平台的日访问量偏低，而周五和周六的日访问量相对于周日至周四的日访问量要高出许多。基于这种情况，就可以在不同的日期设置不同的报警阈值。例如，在周日至周四设置CPU的占用率超过75％时为报警事件，在周五至周六设置CPU的占用率超过85％时为报警事件。又例如，针对一天24小时的支付行为监测数据显示，每日的0点至10点支付量处于第一数值范围，10点至16点的支付量处于第二数值范围，16点至24点的支付量处于第三数值范围，其中第三数值范围>第二数值范围>第一数值范围。基于这种情况，可以分时段设定：每日的0点至10点CPU占用率超过50％时为报警事件；每日10点至16点CPU占用率超过75％时为报警事件；每日16点至24点CPU占用率超过85％时为报警事件。

请继续参阅图5，本实施例的多维动态安全监控装置30以实施例一为基础，用以实现实施例二的多维动态安全监控方法，其包括的各程序模块的功能：

数据获取模块31，适用于获取IT设备中的多个事件运行数据；

关联规则模块32，适用于设置事件关联规则，根据所述事件关联规则确定报警事件；所述事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测的；

报警确定模块33，适用于根据所述事件关联规则确定报警事件；

报警分类模块34，根据故障分类规则对多个报警事件进行分类，所述故障分类规则用于表征报警事件与监控对象之间的关系；

故障上报模块35，适用于上报属于同一监控对象的所有报警事件和对应的参考方案。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解，实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种IT设备的多维动态安全监控方法，其特征在于，包括以下步骤：

获取IT设备中的多个事件运行数据；

将属于同一监控对象的所有报警事件和对应的参考方案上报给远程监控服务器。

2.根据权利要求1所述的多维动态安全监控方法，其特征在于，所述事件关联规则包括多个，不同的事件运行数据通过不同的事件关联规则确定为不同的报警事件。

3.根据权利要求1所述的多维动态安全监控方法，其特征在于，所述事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测得到的。

4.根据权利要求3所述的多维动态安全监控方法，其特征在于，所述故障分类规则包括：将具有相同IP地址的报警事件分为一类，或者将具有相同字段的报警事件分为一类。

5.根据权利要求1-4中任一项所述的多维动态安全监控方法，其特征在于，还包括将故障对象信息发送至移动设备的步骤。

6.一种IT设备的多维动态安全监控装置，其特征在于，包括：

数据获取模块，适用于获取IT设备中的多个事件运行数据；

7.根据权利要求6所述的多维动态安全监控装置，其特征在于，所述事件关联规则包括：当事件运行数据超过一动态阈值时，将所述事件作为报警事件；其中所述动态阈值是根据历史数据在运行周期内的规律性变化进行预测的。

8.根据权利要求7所述的多维动态安全监控装置，其特征在于，还包括信息发送模块，适用于将故障对象信息发送至移动设备。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。