CN114996079A - 运维监控方法、装置、计算机设备及计算机可读存储介质 - Google Patents

运维监控方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114996079A
CN114996079A CN202210435769.0A CN202210435769A CN114996079A CN 114996079 A CN114996079 A CN 114996079A CN 202210435769 A CN202210435769 A CN 202210435769A CN 114996079 A CN114996079 A CN 114996079A
Authority
CN
China
Prior art keywords
monitoring
task
tasks
target task
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210435769.0A
Other languages
English (en)
Inventor
杨日升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210435769.0A priority Critical patent/CN114996079A/zh
Publication of CN114996079A publication Critical patent/CN114996079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明为软件监控技术领域,本发明提供了一种运维监控方法、装置、计算机设备及计算机可读存储介质,其中,所述方法包括:查询大数据平台在预设时间段内运维的至少两个任务,确定每个任务的重要值,根据重要值由高到低的顺序对任务进行排序,并筛选出重要值排在前N位的任务作为目标任务,根据目标任务的重要值确定监控策略,按照监控策略监控所述目标任务,获取监控结果,当根据监控结果确定满足预设条件时,生成告警信息,查询与目标任务相关的处理人,将告警信息发送给所述处理人所在终端。本发明实现了自动化高效运维监控,节省人力成本。

Description

运维监控方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及软件监控技术领域,具体而言,本发明涉及一种运维监控方法、装置、计算机设备及计算机可读存储介质。
背景技术
监控***是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详细的数据用于追查定位问题。
目前的大数据平台目前没有自动化运维功能,只能依靠运维人员手动检查调度任务是否正常执行,每天需要耗费大量人力,且效率较低。
发明内容
本发明的主要目的为提供一种运维监控方法、装置、计算机设备及计算机可读存储介质,以提高运维监控效率。
为了实现上述发明目的,本发明提供一种运维监控方法,其包括:
查询大数据平台在预设时间段内运维的至少两个任务;
确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
优选地,所述确定每个任务的重要值,包括:
获取预先为每个任务分配的任务标识;
根据所述任务标识从预先构建的对照表中查询每个任务对应的重要值。
优选地,所述确定每个任务的重要值,包括:
确定每个任务在历史周期内产生的经济损失值;
获取预先为每个任务设置的权重;
根据每个任务的经济损失值及对应的权重,计算得到每个任务的重要值。
优选地,所述将所述告警信息发送给所述处理人所在终端,包括:
确定所述目标任务执行失败的失败原因,根据所述失败原因查询相应的优化策略;
获取所述处理人的联系方式;
根据所述联系方式,将所述优化策略及所述告警信息发送给所述处理人所在终端。
进一步地,所述查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端之后,还包括:
获取所述目标任务的任务标识,得到目标任务标识;
根据所述目标任务标识查询相应的血缘关系;
根据所述目标任务标识和所述血缘关系构建血缘关系图;
将所述血缘关系图发送给所述处理人所在终端,以在所述终端的显示界面展示所述血缘关系图。
优选地,所述根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务,包括:
根据所述目标任务的重要值设置监控期数和监控间隔;其中,所述监控策略包括对所述目标任务监控的监控期数和监控间隔;
按照所述监控期数和监控间隔监控所述目标任务。
优选地,所述根据所述监控结果确定满足预设条件,包括:
根据所述监控结果确定所述目标任务在预设监控期限内执行失败的次数;
当判定所述目标任务在预设监控期限内执行失败的次数超过预设次数时,则确定满足预设条件。
本发明还提供一种运维监控装置,其包括:
查询模块,用于查询大数据平台在预设时间段内运维的至少两个任务;
确定模块,用于确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
监控模块,用于根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
生成模块,用于获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
发送模块,用于查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所提供的一种运维监控方法、装置、计算机设备及计算机可读存储介质,查询大数据平台在预设时间段内运维的至少两个任务,确定每个任务的重要值,根据重要值由高到低的顺序对任务进行排序,并筛选出重要值排在前N位的任务作为目标任务,根据目标任务的重要值确定监控策略,按照监控策略监控所述目标任务,获取监控结果,当根据监控结果确定满足预设条件时,生成告警信息,查询与目标任务相关的处理人,将告警信息发送给所述处理人所在终端,从而实现自动化高效运维监控,节省人力成本;此外,通过对重要值较高的目标任务实行监控,并根据目标任务的重要值确定监控策略,从而实现任务的重点监控,实现精准监控。
附图说明
图1为本发明一实施例的运维监控方法的流程示意图;
图2为本发明又一实施例的运维监控方法的流程示意图;
图3为本发明又一实施例的运维监控方法的流程示意图;
图4为本发明另一实施例的运维监控方法的流程示意图;
图5为本发明又一实施例的运维监控方法的流程示意图;
图6为本发明另一实施例的运维监控方法的流程示意图;
图7为本发明又一实施例的运维监控方法的流程示意图;
图8为本发明一实施例的运维监控装置的结构示意框图;
图9为本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提出一种运维监控方法,本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提出的一种运维监控方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参考图1,其中一个实施例中,该运维监控方法包括以下步骤S11-S15:
S11、查询大数据平台在预设时间段内运维的至少两个任务;
S12、确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
S13、根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
S14、获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
S15、查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
如上述步骤S11所述,大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及FlumeKafka等集群。大数据平台具有容纳海量数据、速度快、兼容传统工具、为数据科学家提供支持、提供数据分析功能等功能。
本实施例可查询大数据平台在预设时间段内运维的至少两个任务,该预设时间段可自定义设置,如查询大数据平台在5分钟内运维的至少两个任务,或查询大数据平台在当前时间正在运维的所有任务。大数据平台上运维的任务可包括大数据平台的应用作业,在大数据平台上,应用作业为一个用户请求的业务作业,例如查询该用户一段时间内的历史交易数据、历史操作数据等,如查询任务、数据请求任务及数据存储任务。
任务中通常可以包含多种信息,基于不同种类的信息可以实现对任务进行不同异常类型的异常诊断,例如根据任务的脚本可以检测任务是否存在语法异常、运行异常、根据任务的资源数据可以确定任务是否存在资源利用异常等。其中,语法异常是指任务的脚本中存在语法不符合预设的语法规则的脚本;运行异常是指任务在运行过程中出现卡顿导致任务中断;资源利用异常是指任务存在计算资源浪费的问题。
如上述步骤S12所述,本实施例可获取每个任务需要完成的剩余时间以及当前的完成进度,根据每个任务需要完成的剩余时间以及当前的完成进度确定每个任务的重要值,其中,重要值与剩余时间成反比,重要值与完成进度成正比,例如,当任务A需要完成的剩余时间为10分钟,完成进度为80%时,当任务B需要完成的剩余时间为30分钟,完成进度为80%时,则任务A的重要值大于任务B的重要值。
在一实施例中,该重要值也可自定义设置,例如,运维人员可自行标记哪些任务是重点关注任务,重点关注任务为重要值较高的任务,比如每天早上8点半给公司董事长发送的销售日报,涉及的后台任务就属于重点任务,如果任务运维较慢了,则会导致销售日报不能在8点半准时发出,会影响公司领导开早会,影响制定决策。
因此,本实施例可根据重要值由高到低的顺序对所有任务进行排序,将重要值较高的任务排在前列,将重要值较低的任务排在后列,并筛选出重要值排在前N位的任务作为目标任务,以重点关注重要任务,而无需服务器对每个任务都进行监控,节约服务器的资源。
如上述步骤S13-S15所述,本实施例可根据目标任务的重要值确定监控策略,监控策略包括了监控频率,即每隔多久对目标任务进行监控一次,当目标任务的重要值越高时,则监控频率也越高,反之则越低;此外,监控策略还可以包括监控时长,当目标任务的重要值越高时,则监控时长也越长,反之则越短。
在一实施例中,监控策略还可限定调用哪一类型的监控模块对目标任务进行监控,不同的重要值调用不同类型的监控模块。
本实施例可按照监控策略监控目标任务,生成监控结果,监控结果包括目标任务是否出现异常、异常点以及异常原因等信息,当根据监控结果确定满足预设条件时,如确定目标任务出现异常时,则生成告警信息,告警信息中含有异常点,同时查询与目标任务相关的处理人,将告警信息发送给处理人所在终端。
具体的,可以设置重点关注任务执行失败几次之后告警,大数据平台会针对脚本失败后进行重新执行,可以设置重新执行的次数,若目标任务执行3次仍然失败是,则认为目标任务的脚本存在异常,此时获取开发人员的电话或邮件,通过开发人员的电话或邮件,将生成的告警信息发送给开发人员所在终端,以使开发人员对目标任务的脚本进行修改。
在一实施例中,告警方式可包括打电话和发邮件,本实施例还可以配置多个处理人,如第一、第二、第三处理人等,服务器依次打电话或发邮件给各个处理人,直至接收到处理人的回复信息为止,以确保告警信息能及时通知给处理人,对目标任务及时处理。
此外,告警信息能够存储于区块链中,以使服务器需要使用时对区块链进行广播。该区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明所提供的一种运维监控方法,查询大数据平台在预设时间段内运维的至少两个任务,确定每个任务的重要值,根据重要值由高到低的顺序对任务进行排序,并筛选出重要值排在前N位的任务作为目标任务,根据目标任务的重要值确定监控策略,按照监控策略监控所述目标任务,获取监控结果,当根据监控结果确定满足预设条件时,生成告警信息,查询与目标任务相关的处理人,将告警信息发送给所述处理人所在终端,从而实现自动化高效运维监控,节省人力成本;此外,通过对重要值较高的目标任务实行监控,并根据目标任务的重要值确定监控策略,从而实现任务的重点监控,实现精准监控。
在一实施例中,参考图2所示,所述确定每个任务的重要值,可具体包括以下步骤S21-S22:
S21、获取预先为每个任务分配的任务标识;
S22、根据所述任务标识从预先构建的对照表中查询每个任务对应的重要值。
本实施例可预先为每个任务分配唯一的标识,该标识可以是字母、数字或字符串的形式,具有唯一性,因此可根据该标识查询得到相对应的任务。
此外,本实施例还可预先构建有对照表,该对照表记录了每个任务标识对应的重要值,因此当需要查询任务的重要值时,可通过任务的任务标识遍历该对照表,确定该任务标识对应的重要值,以查询得到每个任务对应的重要值。例如,在对照表中,任务标识为1、2、3、4等等之类的数字,对应的重要值为80%、90%、70%及60%等之类的数值,当目标任务的任务标识为1时,则目标任务对应的重要值为80%。
在一实施例中,参考图3所示,所述确定每个任务的重要值,可具体包括以下步骤S31-S33:
S31、确定每个任务在历史周期内产生的经济损失值;
S32、获取预先为每个任务设置的权重;
S33、根据每个任务的经济损失值及对应的权重,计算得到每个任务的重要值。
本实施例可统计每个任务在历史周期内产生的经济损失值,该经济损失值可以虚拟货币的形式进行表示,然后获取预先为每个任务设置的权重,根据每个任务的经济损失值及对应的权重,计算得到每个任务的重要值。如将每个任务的经济损失值乘以对应的权重后,计算得到每个任务的重要值。其中,该权重可基于任务的任务类型进行自定义设置,在此不做具体限定。
例如,运维人员可自行标记哪些任务是重点关注任务,重点关注任务为重要值较高的任务,比如设置了下午两点半买入或卖出基金的任务,涉及的后台任务就属于重点任务,如果任务运维较慢或中断了,则会给客户带来经济损失,因此可根据该任务可能带来的经济损失值及对应的权重计算该任务的重要值。
在一实施例中,参考图4所示,所述将所述告警信息发送给所述处理人所在终端,可具体包括以下步骤S41-S43:
S41、确定所述目标任务执行失败的失败原因,根据所述失败原因查询相应的优化策略;
S42、获取所述处理人的联系方式;
S43、根据所述联系方式,将所述优化策略及所述告警信息发送给所述处理人所在终端。
本实施例获取目标任务的关联信息,由于关联信息是与告警信息具有关联性的数据,又由于在目标任务出现异常时,这一故障可能会带来一系列连锁效应,同时这一故障也可能是由其他问题导致的,在这一连串的连锁效应中所产生的各种信息是相互关联的,基于具有关联关系的各种信息可以确定导致执行失败的失败原因,因此,根据关联信息能够确定触发产生执行失败的失败原因。其中,失败原因可以为语法异常或资源利用异常等。
服务器可根据失败原因查询相应的优化策略,例如,当目标任务多次执行失败时,则表明目标任务的脚本可能出现异常,此时优化策略可包含需要对目标任务的脚本的哪些参数进行修改。
获取处理人的联系方式,联系方式可以是联系电话或邮箱,根据联系方式,将优化策略及告警信息发送给处理人所在终端,以使处理人基于优化策略及告警信息对出现异常的目标任务进行及时修复,提高运维监控效率。
在一实施例中,处理人所在终端上设置有可视化界面,优化策略及告警信息可展示在该可视化界面,告警信息对应的告警形式包含屏幕显示,则可以以异常告警信息菜单的形式在可视化界面上进行展示,在可视化界面中大数据用户或大数据平台管理人员可以直接看到当日发生的大数据异常信息、异常信息所属的任务标识、异常信息对应的异常类型、异常信息的发现时间等信息。
在一实施例中,参考图5所示,所述查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端之后,还可包括以下步骤S51-S54:
S51、获取所述目标任务的任务标识,得到目标任务标识;
S52、根据所述目标任务标识查询相应的血缘关系;
S53、根据所述目标任务标识和所述血缘关系构建血缘关系图;
S54、将所述血缘关系图发送给所述处理人所在终端,以在所述终端的显示界面展示所述血缘关系图。
其中,血缘关系可以是指触发针对目标任务的任务调度操作的血缘关系,比如同时触发多个目标任务各自对应的任务调度操作,或者按照预设先后顺序依次触发该多个目标任务各自对应的任务调度操作(任务依赖调度,后一个任务调度操作的触发依赖于前一个任务调度操作的完成)。
血缘关系图是由存在血缘关系的多个目标任务各自对应的任务标识,以及该多个目标任务相互之间的血缘关系构成的血缘关系图。血缘关系图可以是将该多个任务标识和相应的血缘关系以图像的形式进行展示,以便于直观了解该多个目标任务之间的血缘关系。血缘关系图具体可以是树状图、网状图、或其他能够直观展示血缘关系的图示。
在一实施例中,处理人所在终端可显示血缘关系图,血缘关系图主要显示影响下游的表名和字段名,以及开发人员的身份标识,方便联系到开发人员。例如一张销售明细表,字段(放款日期)出现了异常,则对于后面使用了这张表的这个字段的其他表,需要在血缘关系图上进行展示,并标记失败原因,并显示这个字段的源头,和影响的下游表。
在一实施例中,参考图6所示,所述根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务,可具体包括以下步骤S61-S62:
S61、根据所述目标任务的重要值设置监控期数和监控间隔;其中,所述监控策略包括对所述目标任务监控的监控期数和监控间隔;
S62、按照所述监控期数和监控间隔监控所述目标任务。
本实施例的监控策略可包括监控期数和监控间隔等等,监控期数为需要对目标任务监控多少次,监控间隔为每隔多长时间监控一次目标任务,如将监控期数设置为10期,监控间隔为2,意为间隔两天运行一次监控任务,共运行10个监控周期。
本实施例按照设定的监控期数和监控间隔监控目标任务,实现监控任务的核心算法为定时器,在运行优化策略时,每5秒对比一次当前时间与任务开始时间,若当前时间进行到任务开始时间即开始运行监控任务。
在一实施例中,参考图7所示,所述根据所述监控结果确定满足预设条件,可具体包括以下步骤S71-S72:
S71、根据所述监控结果确定所述目标任务在预设监控期限内执行失败的次数;
S72、当判定所述目标任务在预设监控期限内执行失败的次数超过预设次数时,则确定满足预设条件。
本实施例可按照监控策略监控目标任务,生成监控结果,监控结果包括目标任务是否出现异常、异常点、异常原因以及所述目标任务在预设监控期限内执行失败的次数等信息,当根据监控结果确定目标任务在预设监控期限内执行失败的次数超过预设次数时,则确定满足预设条件,即目标任务出现异常,则生成告警信息,同时查询与目标任务相关的处理人,将告警信息发送给处理人所在终端。
参照图8,本发明实施例中还提供一种运维监控装置,所述装置包括:
查询模块11,用于查询大数据平台在预设时间段内运维的至少两个任务;
确定模块12,用于确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
监控模块13,用于根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
生成模块14,用于获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
发送模块15,用于查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
在本实施例中,大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及FlumeKafka等集群。大数据平台具有容纳海量数据、速度快、兼容传统工具、为数据科学家提供支持、提供数据分析功能等功能。
本实施例可查询大数据平台在预设时间段内运维的至少两个任务,该预设时间段可自定义设置,如查询大数据平台在5分钟内运维的至少两个任务,或查询大数据平台在当前时间正在运维的所有任务。大数据平台上运维的任务可包括大数据平台的应用作业,在大数据平台上,应用作业为一个用户请求的业务作业,例如查询该用户一段时间内的历史交易数据、历史操作数据等,如查询任务、数据请求任务及数据存储任务。
任务中通常可以包含多种信息,基于不同种类的信息可以实现对任务进行不同异常类型的异常诊断,例如根据任务的脚本可以检测任务是否存在语法异常、运行异常、根据任务的资源数据可以确定任务是否存在资源利用异常等。其中,语法异常是指任务的脚本中存在语法不符合预设的语法规则的脚本;运行异常是指任务在运行过程中出现卡顿导致任务中断;资源利用异常是指任务存在计算资源浪费的问题。
本实施例可获取每个任务需要完成的剩余时间以及当前的完成进度,根据每个任务需要完成的剩余时间以及当前的完成进度确定每个任务的重要值,其中,重要值与剩余时间成反比,重要值与完成进度成正比,例如,当任务A需要完成的剩余时间为10分钟,完成进度为80%时,当任务B需要完成的剩余时间为30分钟,完成进度为80%时,则任务A的重要值大于任务B的重要值。
在一实施例中,该重要值也可自定义设置,例如,运维人员可自行标记哪些任务是重点关注任务,重点关注任务为重要值较高的任务,比如每天早上8点半给公司董事长发送的销售日报,涉及的后台任务就属于重点任务,如果任务运维较慢了,则会导致销售日报不能在8点半准时发出,会影响公司领导开早会,影响制定决策。
因此,本实施例可根据重要值由高到低的顺序对所有任务进行排序,将重要值较高的任务排在前列,将重要值较低的任务排在后列,并筛选出重要值排在前N位的任务作为目标任务,以重点关注重要任务,而无需服务器对每个任务都进行监控,节约服务器的资源。
本实施例可根据目标任务的重要值确定监控策略,监控策略包括了监控频率,即每隔多久对目标任务进行监控一次,当目标任务的重要值越高时,则监控频率也越高,反之则越低;此外,监控策略还可以包括监控时长,当目标任务的重要值越高时,则监控时长也越长,反之则越短。
在一实施例中,监控策略还可限定调用哪一类型的监控模块对目标任务进行监控,不同的重要值调用不同类型的监控模块。
本实施例可按照监控策略监控目标任务,生成监控结果,监控结果包括目标任务是否出现异常、异常点以及异常原因等信息,当根据监控结果确定满足预设条件时,如确定目标任务出现异常时,则生成告警信息,告警信息中含有异常点,同时查询与目标任务相关的处理人,将告警信息发送给处理人所在终端。
具体的,可以设置重点关注任务执行失败几次之后告警,大数据平台会针对脚本失败后进行重新执行,可以设置重新执行的次数,若目标任务执行3次仍然失败是,则认为目标任务的脚本存在异常,此时获取开发人员的电话或邮件,通过开发人员的电话或邮件,将生成的告警信息发送给开发人员所在终端,以使开发人员对目标任务的脚本进行修改。
在一实施例中,告警方式可包括打电话和发邮件,本实施例还可以配置多个处理人,如第一、第二、第三处理人等,服务器依次打电话或发邮件给各个处理人,直至接收到处理人的回复信息为止,以确保告警信息能及时通知给处理人,对目标任务及时处理。
此外,告警信息能够存储于区块链中,以使服务器需要使用时对区块链进行广播。该区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
如上所述,可以理解地,本发明中提出的所述运维监控装置的各组成部分可以实现如上所述运维监控方法任一项的功能,具体结构不再赘述。
参照图9,本发明实施例中还提供一种计算机设备,其内部结构可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作***、计算机程序和数据库。该内存器为计算机可读存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述运维监控方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种运维监控方法。
上述处理器执行上述的运维监控方法,包括:
查询大数据平台在预设时间段内运维的至少两个任务;
确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种运维监控方法,包括步骤:
查询大数据平台在预设时间段内运维的至少两个任务;
确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明的最大有益效果在于:
本发明所提供的一种运维监控方法、装置、计算机设备及计算机可读存储介质,查询大数据平台在预设时间段内运维的至少两个任务,确定每个任务的重要值,根据重要值由高到低的顺序对任务进行排序,并筛选出重要值排在前N位的任务作为目标任务,根据目标任务的重要值确定监控策略,按照监控策略监控所述目标任务,获取监控结果,当根据监控结果确定满足预设条件时,生成告警信息,查询与目标任务相关的处理人,将告警信息发送给所述处理人所在终端,从而实现自动化高效运维监控,节省人力成本;此外,通过对重要值较高的目标任务实行监控,并根据目标任务的重要值确定监控策略,从而实现任务的重点监控,实现精准监控。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种运维监控方法,其特征在于,所述方法包括:
查询大数据平台在预设时间段内运维的至少两个任务;
确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
2.根据权利要求1所述的方法,其特征在于,所述确定每个任务的重要值,包括:
获取预先为每个任务分配的任务标识;
根据所述任务标识从预先构建的对照表中查询每个任务对应的重要值。
3.根据权利要求1所述的方法,其特征在于,所述确定每个任务的重要值,包括:
确定每个任务在历史周期内产生的经济损失值;
获取预先为每个任务设置的权重;
根据每个任务的经济损失值及对应的权重,计算得到每个任务的重要值。
4.根据权利要求1所述的方法,其特征在于,所述将所述告警信息发送给所述处理人所在终端,包括:
确定所述目标任务执行失败的失败原因,根据所述失败原因查询相应的优化策略;
获取所述处理人的联系方式;
根据所述联系方式,将所述优化策略及所述告警信息发送给所述处理人所在终端。
5.根据权利要求1所述的方法,其特征在于,所述查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端之后,还包括:
获取所述目标任务的任务标识,得到目标任务标识;
根据所述目标任务标识查询相应的血缘关系;
根据所述目标任务标识和所述血缘关系构建血缘关系图;
将所述血缘关系图发送给所述处理人所在终端,以在所述终端的显示界面展示所述血缘关系图。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务,包括:
根据所述目标任务的重要值设置监控期数和监控间隔;其中,所述监控策略包括对所述目标任务监控的监控期数和监控间隔;
按照所述监控期数和监控间隔监控所述目标任务。
7.根据权利要求1所述的方法,其特征在于,所述根据所述监控结果确定满足预设条件,包括:
根据所述监控结果确定所述目标任务在预设监控期限内执行失败的次数;
当判定所述目标任务在预设监控期限内执行失败的次数超过预设次数时,则确定满足预设条件。
8.一种运维监控装置,其特征在于,所述装置包括:
查询模块,用于查询大数据平台在预设时间段内运维的至少两个任务;
确定模块,用于确定每个任务的重要值,根据所述重要值由高到低的顺序对所述任务进行排序,并筛选出所述重要值排在前N位的任务作为目标任务;其中,所述重要值用于描述任务的重要程度,所述N为正整数;
监控模块,用于根据所述目标任务的重要值确定监控策略,按照所述监控策略监控所述目标任务;
生成模块,用于获取监控结果,当根据所述监控结果确定满足预设条件时,生成告警信息;
发送模块,用于查询与所述目标任务相关的处理人,将所述告警信息发送给所述处理人所在终端。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
其中,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的运维监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的运维监控方法。
CN202210435769.0A 2022-04-24 2022-04-24 运维监控方法、装置、计算机设备及计算机可读存储介质 Pending CN114996079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210435769.0A CN114996079A (zh) 2022-04-24 2022-04-24 运维监控方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210435769.0A CN114996079A (zh) 2022-04-24 2022-04-24 运维监控方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114996079A true CN114996079A (zh) 2022-09-02

Family

ID=83025208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210435769.0A Pending CN114996079A (zh) 2022-04-24 2022-04-24 运维监控方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114996079A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117270936A (zh) * 2023-10-10 2023-12-22 武汉碧涯科技有限公司 一种云平台运维方法及***
CN117331793A (zh) * 2023-11-27 2024-01-02 南京掌控网络科技有限公司 一种自动值守的进程监控方法与***
CN118260167A (zh) * 2024-05-08 2024-06-28 国家气象信息中心(中国气象局气象数据中心) 气象数据产品监控方法、***、设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117270936A (zh) * 2023-10-10 2023-12-22 武汉碧涯科技有限公司 一种云平台运维方法及***
CN117270936B (zh) * 2023-10-10 2024-03-19 武汉碧涯科技有限公司 一种云平台运维方法及***
CN117331793A (zh) * 2023-11-27 2024-01-02 南京掌控网络科技有限公司 一种自动值守的进程监控方法与***
CN117331793B (zh) * 2023-11-27 2024-02-23 南京掌控网络科技有限公司 一种自动值守的进程监控方法与***
CN118260167A (zh) * 2024-05-08 2024-06-28 国家气象信息中心(中国气象局气象数据中心) 气象数据产品监控方法、***、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN114996079A (zh) 运维监控方法、装置、计算机设备及计算机可读存储介质
CN109274526B (zh) 测试缺陷自动预警方法、装置、计算机设备及存储介质
CN106130786B (zh) 一种网络故障的检测方法及装置
US8823536B2 (en) Automated recovery and escalation in complex distributed applications
CN110796343A (zh) 智能派工方法及装置、***
CN110807595A (zh) 任务分发方法和***
CN107168844B (zh) 一种性能监控的方法及装置
CN111832943A (zh) 硬件设备故障管理方法、装置、电子设备及存储介质
CN114240053A (zh) 充电站自动故障上报***及方法
AU2023200227A1 (en) A model management system
US8032432B2 (en) System and method for tracking a billing cycle
CN111861418A (zh) 一种任务生成方法、装置及电子设备
CN115421950A (zh) 一种基于机器学习的自动化***运维管理方法及***
CN114461439A (zh) 一种故障诊断方法、装置、设备及存储介质
CN114237886A (zh) 任务处理方法、装置、计算机设备和存储介质
CN114238474A (zh) 基于排水***的数据处理方法、装置、设备及存储介质
US11288150B2 (en) Recovery maturity index (RMI)-based control of disaster recovery
EP3518156A1 (en) A method for collaborative machine learning of analytical models
CN111082964B (zh) 一种配置信息的分发方法和装置
EP1489499A1 (en) Tool and associated method for use in managed support for electronic devices
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN112395125A (zh) 页面报错的通知方法、装置、计算机设备及存储介质
CN112163154A (zh) 数据处理方法、装置、设备及存储介质
CN116450471A (zh) 异常日志的告警方法及装置、存储介质、计算机设备
CN105224333B (zh) 大机目标代码快速生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination