CN116185787B - 自学习型的监控告警方法、装置、设备及存储介质 - Google Patents
自学习型的监控告警方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116185787B CN116185787B CN202310449640.XA CN202310449640A CN116185787B CN 116185787 B CN116185787 B CN 116185787B CN 202310449640 A CN202310449640 A CN 202310449640A CN 116185787 B CN116185787 B CN 116185787B
- Authority
- CN
- China
- Prior art keywords
- prompt information
- application layer
- sub
- self
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Alarm Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及数据处理领域,公开了一种自学习型的监控告警方法、装置、设备及存储介质。该方法包括:检测预设功能对应的应用层的是否出现异常;若应用层出现异常,在应用层中确定出现异常的异常应用层;确定异常应用层的数量;在数量大于预设数量时,获取异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;若存在目标解决方案,根据业务状态数据以及目标解决方案信息生成整合的提示信息;输出提示信息并根据提示信息更新历史解决方案数据库。本发明提高了工作人员的维修效率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种自学习型的监控告警方法、装置、设备及存储介质。
背景技术
当前对项目的监控环境不够精准不够细致,监控所给出的数据单一,没有关联性。运维收到模糊告警后还需要时间去检查相关程序、业务、基础资源状态,在工作人员的熟悉程度参差不齐的情况下,当前监控告警方法会使得工作人员浪费大量宝贵时间。
发明内容
本发明的主要目的在于解决当前监控告警方法会使得工作人员浪费大量宝贵时间的技术问题。
本发明第一方面提供了一种自学习型的监控告警方法,所述自学习型的监控告警方法包括:
检测预设功能对应的应用层的是否出现异常;
若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
确定所述异常应用层的数量;
在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;
输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。
可选的,在本发明第一方面的第一种实现方式中,所述根据所述提示信息更新所述历史解决方案数据库的步骤之后,所述方法还包括:
检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;
若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数并输出所述提示信息。
可选的,在本发明第一方面的第二种实现方式中,所述若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息的步骤包括:
若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
确定所述第一子提示信息是否存在内容重叠;
若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行去重,得到第二子提示信息;
根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,在本发明第一方面的第三种实现方式中,所述若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息的步骤包括:
若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
确定所述第一子提示信息是否存在内容重叠;
若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行合并,得到第二子提示信息;
根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,在本发明第一方面的第四种实现方式中,所述检测预设功能对应的应用层的是否出现异常的步骤包括:
获取所述预设功能对应的应用层;
根据所述应用层对应的调用链的程序状态确定所述应用层是否出现所述异常,所述调用链包括REDIS、MONGODB、MYSQL、CANAL、OTTER、CONTAINERD、APISERVER、ETCD、KUBELET、KUBE-PROXY、NODE、负载、CPU利用率、内存利用率、磁盘空间利用率、网络丢包率、网络使用率以及预设语言开发的程序。
可选的,在本发明第一方面的第五种实现方式中,所述在历史解决方案数据库中确定是否存在目标解决方案的步骤之后,所述方法还包括:
若不存在所述目标解决方案,根据所述业务状态数据生成整合的所述提示信息并执行所述输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库的步骤。
可选的,在本发明第一方面的第六种实现方式中,所述若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层的步骤之后,所述方法还包括:
在所述异常应用层中确定能自动修复的目标应用层;
执行自动修复所述目标应用层的操作。
本发明第二方面提供了一种自学习型的监控告警装置,包括:
检测模块,用于检测预设功能对应的应用层的是否出现异常;
异常确定模块,用于若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
数量确定模块,用于确定所述异常应用层的数量;
获取模块,用于在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
整合模块,用于若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;
输出模块,用于输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。
本发明第三方面提供了一种自学习型的监控告警设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述自学习型的监控告警设备执行上述的自学习型的监控告警方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的自学习型的监控告警方法。
本发明实施例中,自学习型的监控告警设备检测预设功能对应的应用层的是否出现异常;若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;确定所述异常应用层的数量;在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。由于自学习型的监控告警设备可以检测预设功能的异常并且输出提示信息,再基于提示信息更新历史解决方案数据库,实现了一种可自动学习的监控告警解决方法,随着异常数量增加,可以使得历史解决方案数据库越来越完备,运维可收到精确的告警,在此基础上,无需花费过多的时间去检查相关程序、业务、基础资源状态,在工作人员的熟悉程度参差不齐的情况下,可将对工作人员的要交降到最低,从而使得工作人员无需浪费大量宝贵时间进行维修,提高了工作人员的维修效率。
附图说明
图1为本发明实施例中自学习型的监控告警方法的一个实施例示意图;
图2为本发明实施例中自学习型的监控告警装置的一个实施例示意图;
图3为本发明实施例中自学习型的监控告警设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种自学习型的监控告警方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中自学习型的监控告警方法的一个实施例包括:
101、检测预设功能对应的应用层的是否出现异常;
可选的,获取所述预设功能对应的应用层;根据所述应用层对应的调用链的程序状态确定所述应用层是否出现所述异常,所述调用链包括REDIS、MONGODB、MYSQL、CANAL、OTTER、CONTAINERD、APISERVER、ETCD、KUBELET、KUBE-PROXY、NODE、负载、CPU利用率、内存利用率、磁盘空间利用率、网络丢包率、网络使用率以及预设语言开发的程序。
可选的,接收到异常处理请求时,根据所述异常处理请求确定所述预设功能。具体的,用户反馈无法登录时,自学习型的监控告警设备会将登录功能模块涉及到的应用层相关调用链JAVA、C、PYTHON、GO等各类语言开发的程序的状态,中间件相关的REDIS、MONGODB,数据层相关的MYSQL、CANAL、OTTER,云原生环境相关的CONTAINERD、APISERVER、ETCD、KUBELET、KUBE-PROXY、NODE,基础资源层相关的负载、CPU利用率、内存利用率、磁盘空间利用率、网络丢包率/使用率等进行自动检测。
102、若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
可选的,在所述异常应用层中确定能自动修复的目标应用层;执行自动修复所述目标应用层的操作。具体的,对于日常的一些例如:磁盘空间巡检、MYSQL慢查询SQL、死锁、REDIS缓存失效、OTTER通道异常、CANAL同步异常、程序假死等一些列问题。自学习型的监控告警设备可以自动进行修复处理,处理后会进行告警以及对应应用程序状态进行判断。告警处理结果自学习型的监控告警设备将会通过邮件的方式发给运维人员以及运维领导。
103、确定所述异常应用层的数量;
104、在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
105、若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;
可选的,若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;确定所述第一子提示信息是否存在内容重叠;若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行去重,得到第二子提示信息;根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;确定所述第一子提示信息是否存在内容重叠;若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行合并,得到第二子提示信息;根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,对于重复的子提示信息,还可通过以下方式进行处理:
1.设置告警级别:对告警信息进行分类,将重要性程度高的告警信息优先处理。这可以通过自学习型的监控告警设备中的级别设置来实现。
2.优化告警内容:对告警信息内容进行优化,避免冗余信息和重复信息的出现。这可以通过自学习型的监控告警设备中的模板设置和内容筛选来实现。
可选的,整合包括将各个子提示信息整合为一个整的提示信息。
可选的,检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数并输出所述提示信息。具体的,自学习型的监控告警设备异常通告发出后,会给予运维一定处理故障的时间阈值,处理时间如果超过阈值,例如:十分钟后自学习型的监控告警设备将会自动再次巡检业务状态是否恢复。若巡检发现故障依旧还未恢复,自学习型的监控告警设备将会将告警等级提升,并且拉取电话会议邀请相关领导以及研发测试等人员进行协同配合。
106、输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。
具体的,若发现异常将会一并整合告警给到对应运维人员,程序并行检测各项业务状态,仅需要数秒甚至毫秒。和常规监控告警处理流程相比杜绝了大量宝贵时间浪费,自学习型的监控告警设备能够精准找到问题点让运维人员及时处理快速恢复业务状态保持SLA。避免了当前告警处理的运维人员专注研究故障问题造成故障漏报以及人工进行协同会议发起造成耽误故障处理时间。告警顺利解决后自学习型的监控告警设备会通过邮件或企业微信等方式给与一个链接,用于填写分享此次故障的原因以及处理的过程,自学习型的监控告警设备会自动学习分享数据,在下次发生类似的故障时在发出告警的同时会给出对应的建议解决方案,更加方便经验稍差的运维人员进行故障定位。
可选的,检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数并输出所述提示信息。具体的,自学习型的监控告警设备还会启用告警分级制度以及自动处理告警功能,告警分为警告、紧急、严重三个等级,其中警告等级只会通过邮件发出,并且一小时只发送一次。紧急等级会通过邮件以及企业微信发出,并且每三十分钟就会发出一次。严重等级将会直接打电话,并需要接听电话的运维进行告警进行处理的确认并开始计时,在处理时间达到阈值例如十分钟时会再次进行告警巡检。若还未处理完毕将会拉取电话会议。若处理完毕将会要求运维人员分享处理过程。
可选的,对于复杂以及核心的告警,自学习型的监控告警设备将会不断进行自学习,在模型足够丰富的时候可以选择启用告警自动处理审核功能,自学习型的监控告警设备将会给出告警链路的详细以及将会采取的修复操作发送给对应运维人员以及运维领导进行审核。运维人员及运维领导审核没问题后程序将会自动进行修复操作,之后会再次进行业务状态的巡检。如果业务恢复正常,自学习型的监控告警设备将会通知并记录此次告警的处理过程以及处理结果。如果没有恢复,将会电话联系对应运维人员及运维领导进行进一步的处理。进一步的,在模型饱和即足够强大时,可以关闭审核功能,进行全自动的故障修复流程,第一时间修复故障恢复业务。保持高度SLA。
本发明实施例中,自学习型的监控告警设备检测预设功能对应的应用层的是否出现异常;若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;确定所述异常应用层的数量;在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。由于自学习型的监控告警设备可以检测预设功能的异常并且输出提示信息,再基于提示信息更新历史解决方案数据库,实现了一种可自动学习的监控告警解决方法,随着异常数量增加,可以使得历史解决方案数据库越来越完备,运维可收到精确的告警,在此基础上,无需花费过多的时间去检查相关程序、业务、基础资源状态,在工作人员的熟悉程度参差不齐的情况下,可将对工作人员的要交降到最低,从而使得工作人员无需浪费大量宝贵时间进行维修,提高了工作人员的维修效率。
上面对本发明实施例中自学习型的监控告警方法进行了描述,下面对本发明实施例中自学习型的监控告警装置进行描述,请参阅图2,本发明实施例中自学习型的监控告警装置一个实施例包括:
检测模块301,用于检测预设功能对应的应用层的是否出现异常;
异常确定模块302,用于若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
数量确定模块303,用于确定所述异常应用层的数量;
获取模块304,用于在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
整合模块305,用于若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;
输出模块306,用于输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。
可选的,输出模块306还可以具体用于:
检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;
若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数并输出所述提示信息。
可选的,整合模块305还可以具体用于:
若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
确定所述第一子提示信息是否存在内容重叠;
若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行去重,得到第二子提示信息;
根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,整合模块305还可以具体用于:
若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
确定所述第一子提示信息是否存在内容重叠;
若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行合并,得到第二子提示信息;
根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息。
可选的,检测模块301还可以具体用于:
获取所述预设功能对应的应用层;
根据所述应用层对应的调用链的程序状态确定所述应用层是否出现所述异常,所述调用链包括REDIS、MONGODB、MYSQL、CANAL、OTTER、CONTAINERD、APISERVER、ETCD、KUBELET、KUBE-PROXY、NODE、负载、CPU利用率、内存利用率、磁盘空间利用率、网络丢包率、网络使用率以及预设语言开发的程序。
可选的,输出模块306还可以具体用于:
若不存在所述目标解决方案,根据所述业务状态数据生成整合的所述提示信息并执行所述输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库的步骤。
可选的,异常确定模块302还可以具体用于:
在所述异常应用层中确定能自动修复的目标应用层;
执行自动修复所述目标应用层的操作。
本发明实施例中,自学习型的监控告警设备检测预设功能对应的应用层的是否出现异常;若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;确定所述异常应用层的数量;在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;若存在所述目标解决方案,根据所述业务状态数据以及所述目标解决方案信息生成整合的提示信息;输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库。由于自学习型的监控告警设备可以检测预设功能的异常并且输出提示信息,再基于提示信息更新历史解决方案数据库,实现了一种可自动学习的监控告警解决方法,随着异常数量增加,可以使得历史解决方案数据库越来越完备,运维可收到精确的告警,在此基础上,无需花费过多的时间去检查相关程序、业务、基础资源状态,在工作人员的熟悉程度参差不齐的情况下,可将对工作人员的要交降到最低,从而使得工作人员无需浪费大量宝贵时间进行维修,提高了工作人员的维修效率。
上面图2从模块化功能实体的角度对本发明实施例中的自学习型的监控告警装置进行详细描述,下面从硬件处理的角度对本发明实施例中自学习型的监控告警设备进行详细描述。
图3是本发明实施例提供的一种自学习型的监控告警设备的结构示意图,该自学习型的监控告警设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对自学习型的监控告警设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在自学习型的监控告警设备500上执行存储介质530中的一系列指令操作。
基于自学习型的监控告警设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作***531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3示出的自学习型的监控告警设备结构并不构成对基于自学习型的监控告警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述自学习型的监控告警方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种自学习型的监控告警方法,其特征在于,所述自学习型的监控告警方法包括:
检测预设功能对应的应用层是否出现异常;
若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
确定所述异常应用层的数量;
在所述异常应用层中确定能自动修复的目标应用层;
执行自动修复所述目标应用层的操作;
在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
确定所述第一子提示信息是否存在内容重叠;
若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行合并,得到第二子提示信息;
根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息;
输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库,其中,所述提示信息包括填写分享数据的链接,接收到响应于所述链接的所述分享数据时,根据所述分享数据更新所述历史解决方案数据库;
检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;
若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数、输出所述提示信息并发送会议邀请至所述提示信息对应的人员;
若不存在所述目标解决方案,根据所述业务状态数据生成整合的所述提示信息并执行所述输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库的步骤。
2.根据权利要求1所述的自学习型的监控告警方法,其特征在于,所述检测预设功能对应的应用层是否出现异常的步骤包括:
获取所述预设功能对应的应用层;
根据所述应用层对应的调用链的程序状态确定所述应用层是否出现所述异常,所述调用链包括REDIS、MONGODB、MYSQL、CANAL、OTTER、CONTAINERD、APISERVER、ETCD、KUBELET、KUBE-PROXY、NODE、负载、CPU利用率、内存利用率、磁盘空间利用率、网络丢包率、网络使用率以及预设语言开发的程序。
3.一种自学习型的监控告警装置,其特征在于,所述自学习型的监控告警装置包括:
检测模块,用于检测预设功能对应的应用层是否出现异常;
异常确定模块,用于若所述应用层出现所述异常,在所述应用层中确定出现所述异常的异常应用层;
数量确定模块,用于确定所述异常应用层的数量;
还用于在所述异常应用层中确定能自动修复的目标应用层;
还用于执行自动修复所述目标应用层的操作;
获取模块,用于在所述数量大于预设数量时,获取所述异常应用层的业务状态数据并在历史解决方案数据库中确定是否存在目标解决方案;
整合模块,用于若存在所述目标解决方案,根据所述业务状态数据生成第一子提示信息;
还用于确定所述第一子提示信息是否存在内容重叠;
还用于若所述第一子提示信息存在所述内容重叠,对所述第一子提示信息进行合并,得到第二子提示信息;
还用于根据所述第二子提示信息以及所述目标解决方案信息生成所述提示信息;
输出模块,用于输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库,其中,所述提示信息包括填写分享数据的链接,接收到响应于所述链接的所述分享数据时,根据所述分享数据更新所述历史解决方案数据库;
还用于检测所述业务状态数据是否在预设时间间隔内变换为预设正常值;
还用于若所述业务状态数据未在所述预设时间间隔内变换为所述预设正常值,提升所述提示信息对应的告警等级系数、输出所述提示信息并发送会议邀请至所述提示信息对应的人员;
还用于若不存在所述目标解决方案,根据所述业务状态数据生成整合的所述提示信息并执行所述输出所述提示信息并根据所述提示信息更新所述历史解决方案数据库的步骤。
4.一种自学习型的监控告警设备,其特征在于,所述自学习型的监控告警设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述自学习型的监控告警设备执行如权利要求1-2中任一项所述的自学习型的监控告警方法。
5.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的自学习型的监控告警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310449640.XA CN116185787B (zh) | 2023-04-25 | 2023-04-25 | 自学习型的监控告警方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310449640.XA CN116185787B (zh) | 2023-04-25 | 2023-04-25 | 自学习型的监控告警方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116185787A CN116185787A (zh) | 2023-05-30 |
CN116185787B true CN116185787B (zh) | 2023-08-15 |
Family
ID=86434806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310449640.XA Active CN116185787B (zh) | 2023-04-25 | 2023-04-25 | 自学习型的监控告警方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116185787B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015187134A1 (en) * | 2014-06-03 | 2015-12-10 | Nokia Solutions And Networks Oy | Functional status exchange between network nodes, failure detection and system functionality recovery |
CN109308252A (zh) * | 2017-07-27 | 2019-02-05 | ***通信集团浙江有限公司 | 一种故障定位处理方法及装置 |
CN110795267A (zh) * | 2019-10-29 | 2020-02-14 | Oppo(重庆)智能科技有限公司 | 分层自动恢复方法及相关设备 |
CN113704018A (zh) * | 2021-08-30 | 2021-11-26 | 平安普惠企业管理有限公司 | 应用运维数据处理方法、装置、计算机设备及存储介质 |
CN114443443A (zh) * | 2022-04-11 | 2022-05-06 | 北京优特捷信息技术有限公司 | 一种故障自愈方法、装置、设备及存储介质 |
CN115334178A (zh) * | 2022-07-08 | 2022-11-11 | 北京天融信网络安全技术有限公司 | 基于应用层数据分析方法及装置、电子设备、存储介质 |
CN115632928A (zh) * | 2022-10-20 | 2023-01-20 | 中国农业银行股份有限公司 | 基于***层级的告警方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459715A (zh) * | 2019-01-20 | 2020-07-28 | 华为技术有限公司 | 应用异常恢复 |
-
2023
- 2023-04-25 CN CN202310449640.XA patent/CN116185787B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015187134A1 (en) * | 2014-06-03 | 2015-12-10 | Nokia Solutions And Networks Oy | Functional status exchange between network nodes, failure detection and system functionality recovery |
CN109308252A (zh) * | 2017-07-27 | 2019-02-05 | ***通信集团浙江有限公司 | 一种故障定位处理方法及装置 |
CN110795267A (zh) * | 2019-10-29 | 2020-02-14 | Oppo(重庆)智能科技有限公司 | 分层自动恢复方法及相关设备 |
CN113704018A (zh) * | 2021-08-30 | 2021-11-26 | 平安普惠企业管理有限公司 | 应用运维数据处理方法、装置、计算机设备及存储介质 |
CN114443443A (zh) * | 2022-04-11 | 2022-05-06 | 北京优特捷信息技术有限公司 | 一种故障自愈方法、装置、设备及存储介质 |
CN115334178A (zh) * | 2022-07-08 | 2022-11-11 | 北京天融信网络安全技术有限公司 | 基于应用层数据分析方法及装置、电子设备、存储介质 |
CN115632928A (zh) * | 2022-10-20 | 2023-01-20 | 中国农业银行股份有限公司 | 基于***层级的告警方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116185787A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3798846B1 (en) | Operation and maintenance system and method | |
CN109271602B (zh) | 深度学习模型发布方法及装置 | |
CN107832196B (zh) | 一种用于实时日志异常内容的监测装置及监测方法 | |
CN105095056B (zh) | 一种数据仓库数据监控的方法 | |
CN106301823B (zh) | 一种关键组件的故障告警方法、装置及大数据管理*** | |
CN107515796A (zh) | 一种设备异常监控处理方法及装置 | |
CN110635950A (zh) | 一种双数据中心容灾*** | |
CN115529595A (zh) | 一种日志数据的异常检测方法、装置、设备及介质 | |
CN109684130B (zh) | 一种机房间数据备份的方法及装置 | |
CN116185787B (zh) | 自学习型的监控告警方法、装置、设备及存储介质 | |
CN110609761B (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN111680106A (zh) | 一种多应用***数据同步的方法及装置 | |
CN112686605A (zh) | 一种物流车辆故障应急匹配处理*** | |
CN113760634A (zh) | 一种数据处理方法和装置 | |
CN116107290A (zh) | 工业设备故障监测方法、装置、***及存储介质 | |
CN107590647A (zh) | 船舶管理***的伺服监管*** | |
RU2602393C2 (ru) | Система контроля выполнения технологических процессов | |
CN107147526A (zh) | 智能网络故障检测方法及*** | |
CN115705259A (zh) | 故障处理方法、相关设备及存储介质 | |
CN113179180A (zh) | 一种玄武盾客户端灾难故障修复方法、装置和存储介质 | |
CN111176876B (zh) | 一种故障恢复确定方法、装置、设备及可读存储介质 | |
CN108184141B (zh) | 一种监控视频任务的处理方法及服务器 | |
CN116260703A (zh) | 分布式消息服务节点cpu性能故障自恢复方法及装置 | |
CN117896232A (zh) | 一种设备运维的方法和装置 | |
CN115963792A (zh) | 一种工艺行为检测***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |