CN112491625A - 基于即时通讯平台的运维告警方法、装置及设备 - Google Patents

基于即时通讯平台的运维告警方法、装置及设备 Download PDF

Info

Publication number
CN112491625A
CN112491625A CN202011380668.5A CN202011380668A CN112491625A CN 112491625 A CN112491625 A CN 112491625A CN 202011380668 A CN202011380668 A CN 202011380668A CN 112491625 A CN112491625 A CN 112491625A
Authority
CN
China
Prior art keywords
message
maintenance
instruction
alarm
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011380668.5A
Other languages
English (en)
Inventor
肖雪
卢道和
谢波
朱敏毅
陈严
宁汉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011380668.5A priority Critical patent/CN112491625A/zh
Publication of CN112491625A publication Critical patent/CN112491625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开实施例提供一种基于即时通讯平台的运维告警方法、装置及设备,该方法包括:获取即时通讯平台中任一业务群组的指令消息,其中指令消息是业务群组中的机器人服务号监听业务群组中任一用户发送的消息得到的,任一业务群组为任一业务***的群组;对指令消息进行校验,若指令消息校验成功,则确定指令消息的类别;根据指令消息的类别,获取指令消息对应的查询信息,和/或执行指令消息对应的运维操作;将查询信息和/或运维操作的处理结果,发送至即时通讯平台的业务群组中。本公开实施例能够简化运维操、节省运维时间,以提高运维效率。

Description

基于即时通讯平台的运维告警方法、装置及设备
技术领域
本公开实施例涉及金融科技(Fintech)的运维技术领域,尤其涉及一种基于即时通讯平台的运维告警方法、装置及设备。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,运维技术也不例外,但由于金融行业的安全性、实时性要求,也对运维技术提出了更高的要求。随着技术和市场需求的发展,网络监控随着设备种类数量不断扩大,运维难度也不断升级,这不仅使得设备软件开发和网管监控的设计难度加大,还容易在后期维护造成多重人员的耗费。
目前,传统的运维方式,是采用人工操作进行监控和维护,一般是运维人员登录服务端获取必要的信息或进行一定的运维操作处理。然而这种方式,需要运维人员频繁登录服务器或频繁执行运维操作,使得运维时间较长、操作繁琐,运维效率较低。
发明内容
本公开实施例提供一种基于即时通讯平台的运维告警方法、装置及设备,能够简化运维操、节省运维时间,以提高运维效率。
第一方面,本公开实施例提供一种基于即时通讯平台的运维告警方法,包括:
获取即时通讯平台中任一业务群组的指令消息,其中所述指令消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
对所述指令消息进行校验,若所述指令消息校验成功,则确定所述指令消息的类别;
根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作;
将所述查询信息和/或所述运维操作的处理结果,发送至所述即时通讯平台的所述业务群组中。
在一种可能的设计中,所述指令消息的类别包括消息查询指令、监控告警指令、运维处理指令和操作指引指令;相应地,所述根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作,包括:若所述指令消息的类别为消息查询指令,则从所述运维问题数据库中获取所述消息查询指令对应的运维查询信息;若所述指令消息的类别为监控告警指令,则根据所述监控告警指令检测所述业务***的运维状态,获取所述业务***告警查询信息;若所述指令消息的类别为运维处理指令,则确定所述运维处理指令对应的运维处理执行文件,并在所述业务***中执行所述运维处理执行文件以完成运维操作;若所述指令消息的类别为操作指引指令,则从所述操作指引数据库中获取所述操作指引指令对应操作查询信息。
在一种可能的设计中,所述指令消息中包括所述业务群组的业务签名,其中所述业务签名是根据业务***的应用标识和应用密钥生成的;相应地,所述对所述指令消息进行校验,包括:获取所述指令消息中的业务签名;若所述业务签名满足预设签名规则,则确定所述指令消息校验成功。
在一种可能的设计中,所述方法还包括:定时检测任一业务***的运行情况;在检测到所述业务***触发告警时,获取所述业务***的告警消息;对所述告警消息进行行校验,若所述告警消息校验成功,则将所述告警信息发送至所述业务***对应时通讯平台中的业务群组中。
在一种可能的设计中,所述在检测到所述业务***触发告警时,获取所述业务***的告警消息,包括:根据自定义的告警规则,设置告警条件、告警消息内容和告警接收人;当检测到所述业务***有事件触发所述告警条件时,生成包含告警消息内容和告警接收人的告警消息。
在一种可能的设计中,所述检测到所述业务***触发所述告警条件,包括:获取所述业务***的运行数据;计算所述运行数据距离正常数据聚类中心的第一距离,以及所述运行数据距离异常数据聚类中心的第二距离;根据所述第一距离和所述第二距离,判断所述运行数据是否为异常数据;若是,则触发所述告警条件。
在一种可能的设计中,所述方法,还包括:获取正常数据的样本集;
确定所述正常数据的样本集的k个设定聚类中心,其中k为正整数;根据所述正常数据的样本集和所述k个设定聚类中心,计算所述正常数据的样本集的所述正常数据聚类中心。
在一种可能的设计中,所述方法,还包括:获取异常数据的样本集;确定所述异常数据的样本集的k个设定聚类中心,其中k为正整数;根据所述异常数据的样本集和所述k个设定聚类中心,计算所述异常数据的样本集的所述异常数据聚类中心。
在一种可能的设计中,所述方法,还包括:获取即时通讯平台中任一业务群组的问题消息,其中所述问题消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;对所述问题消息进行校验,若所述问题消息校验成功,则确定所述业务***对应的知识库;从所述知识库中获取所述问题消息对应的问答结果;将所述问答结果发送至所述即时通讯平台的所述业务群组。
在一种可能的设计中,所述方法,还包括:所述获取即时通讯平台中任一业务群组的指令消息之后,还包括:若所述业务群组相同的指令消息的出现频率达到预设阈值,则丢弃后出现的指令消息。
第二方面,本公开实施例提供一种基于即时通讯平台的运维告警装置,包括:
获取模块,用于获取即时通讯平台中任一业务群组的指令消息,其中所述指令消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
校验模块,用于对所述指令消息进行校验,若所述指令消息校验成功,则确定所述指令消息的类别;
处理模块,用于根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作;
发送模块,用于将所述查询信息和/或所述运维操作的处理结果,发送至所述即时通讯平台的所述业务群组中。
第三方面,本公开实施例提供一种基于即时通讯平台的运维告警设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的基于即时通讯平台的运维告警方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的基于即时通讯平台的运维告警方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的基于即时通讯平台的运维告警方法。
本公开实施例提供的基于即时通讯平台的运维告警方法、装置及设备,该方法基于即时通讯平台中建立任一业务***对应的业务群组,任一运维用户通过在业务群组发送运维的指令信息,业务群组中的机器人服务号获取该指令消息后提交到服务端,服务端首先对指令消息进行校验,若校验成功,则确定该指令消息的类别;并根据指令消息的类别,获取指令消息对应的查询信息,和/或执行指令消息对应的运维操作,将查询信息和/或运维操作的处理结果,发送至即时通讯平台的业务群组中,以完成用户的运维查询或运维处理操作。运维用户仅需要在即时通讯平台中发送指令消息,即能够实现获取运维的查询信息以及进行运维操作处理,操作简便、时间响应快速,运维效率高。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的基于即时通讯平台的运维告警应用的***架构示意图;
图2为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图一;
图3为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图二;
图4为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图三;
图5为本公开实施例提供的基于即时通讯平台的运维告警装置的结构示意图;
图6为本公开实施例提供的基于即时通讯平台的运维告警设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
传统的运维方式,是采用人工操作进行监控和维护,一般是运维人员登录服务端获取必要的信息或进行一定的运维操作处理。然而这种方式,需要运维人员频繁登录服务端或执行操作,使得运维时间较长、操作繁琐,运维效率较低。
为了解决上述技术问题,本公开提供了以下解决思路:通过在即时通讯平台中建立业务***对应的业务群组,运维用户通过在业务群组发送运维的指令信息,业务群组中的机器人服务号获取该指令消息后提交到后台服务端,服务端首先对指令消息进行校验,若校验成功,则确定该指令消息的类别;并根据指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作,将查询信息和/或运维操作的处理结果,发送至即时通讯平台的业务群组中,完成用户的运维操作。运维用户仅需要在即时通讯平台中发送指令消息,即能通过服务端够获取运维的查询信息以及进行运维操作处理的结果,该运维方式操作简便、响应快速,运维效率高。
图1为本公开实施例提供的基于即时通讯平台的运维告警应用的***架构示意图。如图1所示,本实施例提供的***包括终端101和服务端102。其中,终端101可以为手机、平板、个人电脑等。本实施例对终端101的实现方式不做特别限制,只要该终端101上能够运行即时通云平台的App,能够与用户进行输入输出交互即可。服务端102可以一台服务端或几台服务端组成的集群。
图2为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图一,本实施例的执行主体可以为图1所示的服务端,本实施例此处不做特别限制。如图2所示,该方法包括:
S201:获取即时通讯平台中任一业务群组的指令消息,其中指令消息是所述业务群组中的机器人服务号监听业务群组中任一用户发送的消息得到的,任一业务群组为任一业务***的群组。
在本实施例中,即时通讯平台可以是常用的即时通信平台。即时通信平台的业务群组为针对某一业务***建立的业务群组,业务***为本群组进行运维告警监控的***(例如为某一金融业务***),该业务群组的成员中包括运维人员用户以及机器人服务号。其中机器人服务号用于回复或响应其他运维人员用户在业务群组发送关于运维的指令消息。
可以针对不同的业务***建立不同的业务群组,每个业务群组中包括该业务***对应的机器人服务号。
在本公开的一个实施例中,机器人服务号也可以单独接收即时通讯平台中任一运维人员发送的指令消息的私信。
S202:对指令消息进行校验,若指令消息校验成功,则确定指令消息的类别。
在本实施例中,通过对指令消息进行校验以判断该指令消息中是否有使用机器人服务号的权限。
具体地,所述指令消息中包括所述业务群组的业务签名,其中所述业务签名是根据业务***的应用标识和应用密钥生成的;相应地,所述对所述指令消息进行校验,包括:获取所述指令消息中的业务签名;若所述业务签名满足预设签名规则,则确定所述指令消息校验成功。
其中,预设签名规则为常用的数字签名认证的过程,这里不再赘述。
在本实施例中,在服务端中的机器人管理平台中,通过对不同的业务***进行注册,得到不同的机器人服务号,进而得到每个机器人服务号的业务群组,每个业务群组中的指令信息中携带该业务群组的根据业务***的应用标识(Appid)和应用密钥(Appscret)生成的业务签名。
其中,根据业务***对应的应用标识(Appid)和应用密钥(Appscret)通过一定的加密规则生成业务签名。
通过对每个业务***的应用标识和应用密钥进行加密,使得后续进行运维告警时,每个业务***的业务签名都是唯一的,不同的业务***进行验证时,其业务签名都不同,避免所有业务***共用同一个业务签名,提高***运维的安全性。
S203:根据指令消息的类别,获取指令消息对应的查询信息,和/或执行指令消息对应的运维操作。
具体地,所述指令消息的类别包括消息查询指令、监控告警指令、运维处理指令和操作指引指令;相应地,所述根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作,包括:
S2031:若指令消息的类别为消息查询指令,则从运维问题数据库中获取消息查询指令对应的运维查询信息。
在本实施例中,通过查询常用的运维消息问题获取运维查询信息,避免运维运维人员重复性节点常见运维问题。
S2032:若指令消息的类别为监控告警指令,则根据监控告警指令检测业务***的运维状态,获取业务***告警查询信息。
在本实施例中,通过监控告警指令,检测业务***的运维问题,并获取得到的告警查询信息。
S2033:若指令消息的类别为运维处理指令,则确定运维处理指令对应的运维处理执行文件,并在业务***中执行运维处理执行文件以完成运维操作。
在本实施例中,运维处理执行文件可以是URL(Uniform Resource Locator,统一资源定位符)文件或URL。
具体地,通过调用URL文件或执行脚本文件,执行重启服务、清理磁盘或查询CPU(Central Processing Unit,中央处理器)使用信息等。
S2034:若指令消息的类别为操作指引指令,则从操作指引数据库中获取操作指引指令对应操作查询信息。
在本实施例中,操作指引指令对应的操作查询信息用于指导发送指令的运维人员一步一步解决常见的运维问题。
S204:将查询信息和/或运维操作的处理结果,发送至即时通讯平台的业务群组中。
在本实施例中,查询信息可以包括但不限于运维查询信息、告警查询信息和操作查询信息等。运维操作的处理结果可以是执行运维处理执行文件以完成运维操作后的处理结果。
从上述描述可知,基于即时通讯平台中建立任一业务***对应的业务群组,任一运维用户通过在业务群组发送运维的指令信息,业务群组中的机器人服务号获取该指令消息后提交到服务端,服务端首先对指令消息进行校验,若校验成功,则确定该指令消息的类别;并根据指令消息的类别,获取指令消息对应的查询信息,和/或执行指令消息对应的运维操作,将查询信息和/或运维操作的处理结果,发送至即时通讯平台的业务群组中,以完成用户的运维查询或运维处理操作。运维用户仅需要在即时通讯平台中发送指令消息,即能够实现获取运维的查询信息以及进行运维操作处理,操作简便、时间响应快速,运维效率高。同时,通过根据消息查询指令、监控告警指令、运维处理指令和操作指引指令进行查询,能够实现对运维查询信息、告警查询信息、操作查询信息的查询,以及完成运维处理指令对应的运维操作,满足各种场景查询需求,提高***的适用性。
图3为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图二,本实施例在图2实施例的基础上,本实施例对基于即时通讯平台告警查询过程进行了详细说明。如图3所示,该方法包括:
S301:定时检测任一业务***的运行情况。
在本实施例中,每隔预设间隔获取业务***的运行数据。该运行数据包括***的CPU使用信息,内存使用信息等等。
S302:在检测到任一业务***触发告警时,获取业务***的告警消息。
在本实施例中,通过运维***对业务***进行告警监控,以获取业务***的告警消息。
具体地,根据自定义的告警规则,设置告警条件、告警消息内容和告警接收人;当检测到所述业务***有事件触发所述告警条件时,生成包含告警消息内容和告警接收人的告警消息。
这里,可以由运维人员在业务***的Web端配置自定义的告警规则,配置项目包括但不限于告警条件、告警消息内容和告警接收人。
其中,告警条件包括业务***的运维脚本URL或指令、告警检测时间间隔、类型和阈值等信息;例如,运维人员在业务***Web端配置在某个时间段内,通过执行运维脚本URL或指令生成运维日志,在运维日志中某个告警字段出现超过n个时,即满足告警条件。告警消息内容可以包括告警类型、告警时间、告警内容字段以及告警紧急程度等。告警接收人可以是需要接收告警消息的运维人员。
对于每个业务***,运维人员可以为每个业务***单独配置自定义的告警规则,一个业务***对应一套自定义的告警规则。
目前传统的运维告警模型,通过预设告警规则,将告警规则预存在XML文件或缓存中;将事件与告警规则相匹配,如果匹配成功,则发送告警信息。可以看出,而本公开实施例,与传统的运维告警模型相比,通过自定义告警规则,提高了运维告警的灵活性和告警消息的准确性,有利于运维人员更快获取有效信息、定位问题原因。
S303:对告警消息进行行校验,若告警消息校验成功,则将告警信息发送至业务***对应时通讯平台中的业务群组中。
在本实施例中,对告警消息进行行校验的过程与上述对指令信息校验的过程一致这里不在赘述。
将告警信息发送至业务***对应时通讯平台中的业务群组中,以方便运维人员获得告警信息,运维人员利用告警信息进行运维监控或处理。
从上述描述可知,本实施例简化了告警的工作过程,仅需要业务***开发自己的告警规则即可,告警工作不需要对业务***进行改进,提高了告警的通用性,接入简单,能够对各种业务场景进行告警监控。
在本公开的一个实施例中,检测到所述业务***有事件触发所述告警条件,的过程包括:
步骤1,获取所述业务***的运行数据;
步骤2,计算所述运行数据距离正常数据聚类中心的第一距离,以及所述运行数据距离异常数据聚类中心的第二距离;
步骤3,根据所述第一距离和所述第二距离,判断所述运行数据是否为异常数据;
步骤4,若是,则触发所述告警条件。
其中,运行数据即上文所述的CPU使用信息,内存使用信息等等。正常数据聚类中心的确定过程如下:获取正常数据的样本集;确定所述正常数据的样本集的k个设定聚类中心,其中k为正整数;根据所述正常数据的样本集和所述k个设定聚类中心,计算所述正常数据的样本集的所述正常数据聚类中心。
具体地,S1,获取正常数据的样本集{X1,X2...Xn}。
S2,确定正常数据的样本集{X1,X2...Xn}的k个设定聚类中心。具体步骤包括:I、从正常数据的样本集中随机选择数据点作为聚类中心ur,其中r=1,2,3..kselected
II、对于正常数据的样本集{X1,X2...Xn}中的每一个点xi,计算它与已选择的聚类中心的距离,公式如下:
Figure BDA0002809232560000101
III、选择一个新的数据点作为新的聚类中心,选择原则是:D(xi)最大的点作为新的聚类中心。
IV、重复重复II和III操作,直到选择出k个聚类中心{u1,u2...uk}。
S3,计算所述正常数据的样本集的所述正常数据聚类中心。具体步骤包括:I、计算每个数据点xi=1,2...n到每个聚类中心的聚类{u1,u2...uk}的距离di,j=‖xi-uji=1,2..n;j=1,2...k,标记最小距离di,j,将xi归属于第j个簇(聚类中心为uj)。直至n个数据点全部计算完毕。得到k个簇{C1,C2...Ck},设定每个簇元素个数为
Figure BDA0002809232560000102
II、重新计算聚类中心,
Figure BDA0002809232560000103
得到新聚类中心{u′1,u′2...u′k}。
III、重复I和II操作直至聚类中心不再发生变化,输出最终的k个聚类中心和k个簇。正常数据聚类中心记为{Ci=1,2...n}。
其中,数据聚类中心的确定过程如下:异常获取异常数据的样本集;确定所述异常数据的样本集的k个设定聚类中心;根据所述异常数据的样本集和所述k个设定聚类中心,计算所述异常数据的样本集的所述异常数据聚类中心。
对异常数据的样本集{Y1,Y2...Ym}进行处理的具体过程与对正常数据的样本集进行处理的过程一致,异常数据聚类中心记为{Cj=1,2...m}。
其中,判断运行数据距离正常数据聚类中心{Ci=1,2...n}和异常数据聚类中心{Cj=1,2...m}那个聚类中心的距离更近,即该运行数据归属为对应的聚类中心。如果归属为异常数据聚类中心,则运行数据为异常数据。
需要说明的是:每天将当天的数据更新至正常数据的样本集和异常数据的样本集中,使得正常数据聚类中心{Ci=1,2...n}和异常数据聚类中心{Cj=1,2...m}不断得到更新,使得告警阈值更准确,告警更准确。
从上述描述可知,通过业务***的CPU使用信息,内存使用信息等运行数据,计算聚类的告警阈值,由于业务***在运行过程中,其运行数据的具体数值可能会发现变化,此时不再是按照传统的方式,仅仅设定一个固定阈值,本公开实施例针对不同数值的运行数据,其对应的告警阈值不同,实现了告警阈值的动态变化,提高了业务***在运行过程中,运维告警的准确性。
图4为本公开实施例提供的基于即时通讯平台的运维告警方法的流程示意图三,本实施例在图2或图3实施例的基础上,本实施例对基于即时通讯平台运维问题职能问答的过程进行了详细说明。如图4所示,该方法包括:
S401:获取即时通讯平台中任一业务群组的问题消息,其中问题消息是业务群组中的机器人服务号监听业务群组中任一用户发送的消息得到的,任一业务群组为任一业务***的群组。
在本实施例中,问题消息为业务群组中任一用户发送的关于运维的问题,该问题包括的信息可以包括:消息来源(群名称或者好友)、群ID(用户ID)、消息ID、消息内容、消息类型、创建时间等。消息类型包括:文本、图片或者超链接。
S402:对问题消息进行校验,若问题消息校验成功,则确定业务***对应的知识库。
在本实施例中,对问题消息进行校验的过程与上述实施例中对指令消息进行校验的过程一致,这里不再赘述。
S403:从知识库中获取问题消息对应的问答结果。
在本实施例中,不同的业务***对应不同的机器人服务号,不同的机器人服务号对应不同的业务***的产品ID,不同的业务***的产品ID对应不同的知识库。
S404:将问答结果发送至即时通讯平台的业务群组。
在本实施例中,服务端配置了多个知识库,根据对应的业务***的知识库匹配问题信息对应的问答键值对即为问答结果。
如果识库匹配没有查询到对应的问答键值对,则通过模糊匹配返回多个引导性答案指引用户再次输入问题消息。如果最终仍无结果,则返回默认提示消息告知用户(如:“暂未查询到结果”),以提醒用户去咨询指定运维人员。
从上述描述可知,将日常相关人员经常提问的问题和答案配置到知识库,减少日常运维问答工作量,提高运维问题解答效率。
需要说明的是:时通讯平台中一个机器人服务号可以绑定多个账号,可以先申请一个机器人服务号,并将机器人账号以及运维人员账号均作为该机器人服务号的坐席人员。然后将机器人服务号作为对外的机器人账号,此时机器人服务号后面的机器人账号和运维人员均能收到消息,以方便运维人员在机器人账号无法回复消息时第一时间回复用户的问题消息。
在本公开的一个实施例中,在所述获取即时通讯平台中任一业务群组的指令消息之后,还包括:若所述业务群组相同的指令消息的出现频率达到预设阈值,则丢弃后出现的指令消息。
在本实施例中,避免同请求的消息在一分钟内超过预设阈值,若超过预设阈值,则通知指定的负责人,且丢弃超出的指令消息。防止频繁指令消息请求超过即时通讯平台限定的消息收发频率。
图5为本公开实施例提供的基于即时通讯平台的运维告警装置的结构示意图。如图5所示,该基于即时通讯平台的运维告警装置50包括:获取模块501、校验模块502、处理模块503和发送模块504。
获取模块501,用于获取即时通讯平台中任一业务群组的指令消息,其中所述指令消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
校验模块502,用于对所述指令消息进行校验,若所述指令消息校验成功,则确定所述指令消息的类别;
处理模块503,用于根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作;
发送模块504,用于将所述查询信息和/或所述运维操作的处理结果,发送至所述即时通讯平台的所述业务群组中。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在本公开的一个实施例中,所述指令消息的类别包括消息查询指令、监控告警指令、运维处理指令和操作指引指令;所述处理模块503,具体用于若所述指令消息的类别为消息查询指令,则从所述运维问题数据库中获取所述消息查询指令对应的运维查询信息;若所述指令消息的类别为监控告警指令,则根据所述监控告警指令检测所述业务***的运维状态,获取所述业务***告警查询信息;若所述指令消息的类别为运维处理指令,则确定所述运维处理指令对应的运维处理执行文件,并在所述业务***中执行所述运维处理执行文件以完成运维操作;若所述指令消息的类别为操作指引指令,则从所述操作指引数据库中获取所述操作指引指令对应操作查询信息
在本公开的一个实施例中,所述指令消息中包括所述业务群组的业务签名,其中所述业务签名是根据业务***的应用标识和应用密钥生成的;所述校验模块502,具体用于获取所述指令消息中的业务签名;若所述业务签名满足预设签名规则,则确定所述指令消息校验成功。
在本公开的一个实施例中,所述装置还包括:告警模块505,用于定时检测任一业务***的运行情况;在检测到所述业务***触发告警时,获取所述业务***的告警消息;对所述告警消息进行行校验,若所述告警消息校验成功,则将所述告警信息发送至所述业务***对应时通讯平台中的业务群组中。
在本公开的一个实施例中,所述告警模块505,具体用于根据自定义的告警规则,设置告警条件、告警消息内容和告警接收人;当检测到所述业务***有事件触发所述告警条件时,生成包含告警消息内容和告警接收人的告警消息。
在本公开的一个实施例中,所述告警模块505,具体用于获取所述业务***的运行数据;计算所述运行数据距离正常数据聚类中心的第一距离,以及所述运行数据距离异常数据聚类中心的第二距离;根据所述第一距离和所述第二距离,判断所述运行数据是否为异常数据;若是,则触发所述告警条件。
在本公开的一个实施例中,所述装置还包括:聚类分析模块506,用于获取正常数据的样本集;确定所述正常数据的样本集的k个设定聚类中心;根据所述正常数据的样本集和所述k个设定聚类中心,计算所述正常数据的样本集的所述正常数据聚类中心。
在本公开的一个实施例中,所述装置还包括:聚类分析模块506,还用于获取异常数据的样本集;确定所述异常数据的样本集的k个设定聚类中心;根据所述异常数据的样本集和所述k个设定聚类中心,计算所述异常数据的样本集的所述异常数据聚类中心。
在本公开的一个实施例中,所述装置还包括:问答模块507,用于获取即时通讯平台中任一业务群组的问题消息,其中所述问题消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;对所述问题消息进行校验,若所述问题消息校验成功,则确定所述业务***对应的知识库;从所述知识库中获取所述问题消息对应的问答结果;将所述问答结果发送至所述即时通讯平台的所述业务群组。
在本公开的一个实施例中,校验模块502,还用于所述获取即时通讯平台中任一业务群组的指令消息之后,若所述业务群组相同的指令消息的出现频率达到预设阈值,则丢弃后出现的指令消息。
本实施例提供的装置的各模块,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本公开实施例提供的基于即时通讯平台的运维告警设备的硬件结构示意图。如图6所示,本实施例的基于即时通讯平台的运维告警设备60包括:处理器601以及存储器602;其中
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中服务端所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该基于即时通讯平台的运维告警设备还包括总线603,用于连接所述存储器602和处理器601。
本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的基于即时通讯平台的运维告警方法。
本公开实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上所述的基于即时通讯平台的运维告警方法。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (14)

1.一种基于即时通讯平台的运维告警方法,其特征在于,包括:
获取即时通讯平台中任一业务群组的指令消息,其中所述指令消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
对所述指令消息进行校验,若所述指令消息校验成功,则确定所述指令消息的类别;
根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作;
将所述查询信息和/或所述运维操作的处理结果,发送至所述即时通讯平台的所述业务群组中。
2.根据权利要求1所述的方法,其特征在于,所述指令消息的类别包括消息查询指令、监控告警指令、运维处理指令和操作指引指令;
相应地,所述根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作,包括:
若所述指令消息的类别为消息查询指令,则从所述运维问题数据库中获取所述消息查询指令对应的运维查询信息;
若所述指令消息的类别为监控告警指令,则根据所述监控告警指令检测所述业务***的运维状态,获取所述业务***告警查询信息;
若所述指令消息的类别为运维处理指令,则确定所述运维处理指令对应的运维处理执行文件,并在所述业务***中执行所述运维处理执行文件以完成运维操作;
若所述指令消息的类别为操作指引指令,则从所述操作指引数据库中获取所述操作指引指令对应操作查询信息。
3.根据权利要求1或2所述的方法,其特征在于,所述指令消息中包括所述业务群组的业务签名,其中所述业务签名是根据业务***的应用标识和应用密钥生成的;
相应地,所述对所述指令消息进行校验,包括:
获取所述指令消息中的业务签名;
若所述业务签名满足预设签名规则,则确定所述指令消息校验成功。
4.根据权利要求1所述的方法,其特征在于,还包括:
定时检测任一业务***的运行情况;
在检测到所述业务***触发告警时,获取所述业务***的告警消息;
对所述告警消息进行行校验,若所述告警消息校验成功,则将所述告警信息发送至所述业务***对应时通讯平台中的业务群组中。
5.根据权利要求4所述的方法,其特征在于,所述在检测到所述业务***触发告警时,获取所述业务***的告警消息,包括:
根据自定义的告警规则,设置告警条件、告警消息内容和告警接收人;
当检测到所述业务***有事件触发所述告警条件时,生成包含告警消息内容和告警接收人的告警消息。
6.根据权利要求5所述的方法,其特征在于,所述检测到所述业务***触发所述告警条件,包括:
获取所述业务***的运行数据;
计算所述运行数据距离正常数据聚类中心的第一距离,以及所述运行数据距离异常数据聚类中心的第二距离;
根据所述第一距离和所述第二距离,判断所述运行数据是否为异常数据;若是,则触发所述告警条件。
7.根据权利要求6所述的方法,其特征在于,还包括:
获取正常数据的样本集;
确定所述正常数据的样本集的k个设定聚类中心,其中k为正整数;
根据所述正常数据的样本集和所述k个设定聚类中心,计算所述正常数据的样本集的所述正常数据聚类中心。
8.根据权利要求6所述的方法,其特征在于,还包括:
获取异常数据的样本集;
确定所述异常数据的样本集的k个设定聚类中心,其中k为正整数;
根据所述异常数据的样本集和所述k个设定聚类中心,计算所述异常数据的样本集的所述异常数据聚类中心。
9.根据权利要求1、2、4至8任一项所述的方法,其特征在于,还包括:
获取即时通讯平台中任一业务群组的问题消息,其中所述问题消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
对所述问题消息进行校验,若所述问题消息校验成功,则确定所述业务***对应的知识库;
从所述知识库中获取所述问题消息对应的问答结果;
将所述问答结果发送至所述即时通讯平台的所述业务群组。
10.根据权利要求1、2、4至8任一项所述的方法,其特征在于,所述获取即时通讯平台中任一业务群组的指令消息之后,还包括:
若所述业务群组相同的指令消息的出现频率达到预设阈值,则丢弃后出现的指令消息。
11.一种基于即时通讯平台的运维告警装置,其特征在于,包括:
获取模块,用于获取即时通讯平台中任一业务群组的指令消息,其中所述指令消息是所述业务群组中的机器人服务号监听所述业务群组中任一用户发送的消息得到的,所述任一业务群组为任一业务***的群组;
校验模块,用于对所述指令消息进行校验,若所述指令消息校验成功,则确定所述指令消息的类别;
处理模块,用于根据所述指令消息的类别,获取所述指令消息对应的查询信息,和/或执行所述指令消息对应的运维操作;
发送模块,用于将所述查询信息和/或所述运维操作的处理结果,发送至所述即时通讯平台的所述业务群组中。
12.一种基于即时通讯平台的运维告警设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至10任一项所述的基于即时通讯平台的运维告警方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至10任一项所述的基于即时通讯平台的运维告警方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的基于即时通讯平台的运维告警方法。
CN202011380668.5A 2020-11-30 2020-11-30 基于即时通讯平台的运维告警方法、装置及设备 Pending CN112491625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011380668.5A CN112491625A (zh) 2020-11-30 2020-11-30 基于即时通讯平台的运维告警方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011380668.5A CN112491625A (zh) 2020-11-30 2020-11-30 基于即时通讯平台的运维告警方法、装置及设备

Publications (1)

Publication Number Publication Date
CN112491625A true CN112491625A (zh) 2021-03-12

Family

ID=74938429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011380668.5A Pending CN112491625A (zh) 2020-11-30 2020-11-30 基于即时通讯平台的运维告警方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112491625A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438093A (zh) * 2021-07-02 2021-09-24 成都新希望金融信息有限公司 一种告警方法、装置及设备
CN113537944A (zh) * 2021-08-02 2021-10-22 北京明略软件***有限公司 用于生成业务指令的方法及装置、电子设备、可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150236987A1 (en) * 2014-02-18 2015-08-20 Synology Incorporated Device, method and non-transitory computer readable storage medium for performing instant message communication
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN109063090A (zh) * 2018-07-26 2018-12-21 挖财网络技术有限公司 自动化运维管理***
CN110275795A (zh) * 2019-06-28 2019-09-24 深圳前海微众银行股份有限公司 一种基于告警的运维方法及装置
CN110417575A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 运维监控平台的告警方法、装置和计算机设备
CN110830270A (zh) * 2019-12-13 2020-02-21 李建军 用于智能设备控制的即时通讯平台、智能设备操控***
CN110929133A (zh) * 2019-11-29 2020-03-27 北京金山云网络技术有限公司 运维信息查询***及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150236987A1 (en) * 2014-02-18 2015-08-20 Synology Incorporated Device, method and non-transitory computer readable storage medium for performing instant message communication
CN109063090A (zh) * 2018-07-26 2018-12-21 挖财网络技术有限公司 自动化运维管理***
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN110417575A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 运维监控平台的告警方法、装置和计算机设备
CN110275795A (zh) * 2019-06-28 2019-09-24 深圳前海微众银行股份有限公司 一种基于告警的运维方法及装置
CN110929133A (zh) * 2019-11-29 2020-03-27 北京金山云网络技术有限公司 运维信息查询***及方法
CN110830270A (zh) * 2019-12-13 2020-02-21 李建军 用于智能设备控制的即时通讯平台、智能设备操控***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438093A (zh) * 2021-07-02 2021-09-24 成都新希望金融信息有限公司 一种告警方法、装置及设备
CN113537944A (zh) * 2021-08-02 2021-10-22 北京明略软件***有限公司 用于生成业务指令的方法及装置、电子设备、可读存储介质

Similar Documents

Publication Publication Date Title
CN112115026B (zh) 服务器集群监控方法、装置、电子设备及可读存储介质
US10797964B2 (en) System event notification service
CN112491625A (zh) 基于即时通讯平台的运维告警方法、装置及设备
CN109491733B (zh) 基于可视化的界面显示方法及相关设备
CN111475369A (zh) 日志监控的添加方法、装置、计算机设备及存储介质
CN114153688A (zh) 基于云平台的分布式监控方法及装置
CN110533503B (zh) 一种数据处理方法及装置
CN111756745A (zh) 告警方法、告警装置及终端设备
CN109040146B (zh) 账号登录授权方法、服务器、计算机设备及存储介质
CN112948224A (zh) 一种数据处理方法、装置、终端及存储介质
CN109544207B (zh) 一种信息处理方法、存储介质和服务器
CN111899018B (zh) 订单数据处理方法、装置、服务器及存储介质
CN113489714B (zh) 一种基于多模块的消息智能交叉处理方法及***
EP4092610A1 (en) Information processing method, device, system, and computer-readable storage medium
CN112395575A (zh) 权限管理方法、装置、设备及存储介质
CN110837454A (zh) 接口监控的处理方法及服务器
CN116028731B (zh) 目标事件完成度的显示方法及相关产品
CN115840677A (zh) 一种数据验证方法、装置、设备和存储介质
CN113806825B (zh) 一种校验方法、装置、存储介质和电子设备
CN110418020B (zh) 名单状态信息处理方法、装置、电子终端及存储介质
Ohtahara et al. Anomaly-based Intrusion Detection System Sharing Normal Behavior Databases among Different Machines
CN115906171A (zh) 一种脱敏验证方法、装置、电子设备和存储介质
CN117768541A (zh) 一种信息推送方法、***、装置、设备及存储介质
CN114943040A (zh) 对象排序方法、装置、设备、介质以及产品
CN115758300A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination