CN111752741A - 一种***性能检测的方法及装置 - Google Patents

一种***性能检测的方法及装置 Download PDF

Info

Publication number
CN111752741A
CN111752741A CN202010613893.2A CN202010613893A CN111752741A CN 111752741 A CN111752741 A CN 111752741A CN 202010613893 A CN202010613893 A CN 202010613893A CN 111752741 A CN111752741 A CN 111752741A
Authority
CN
China
Prior art keywords
data
detected
recovered
abnormal
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010613893.2A
Other languages
English (en)
Inventor
朱嘉伟
杨军
周杰
卢道和
陈刚
程志峰
罗海湾
李勋棋
汪晓雪
周琪
郭英亚
李兴龙
胡仲臣
周佳振
文玉茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010613893.2A priority Critical patent/CN111752741A/zh
Publication of CN111752741A publication Critical patent/CN111752741A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种***性能检测的方法及装置,包括:获取检测指令其中,检测指令包括待检测***的参数和待检测***的服务器IP,根据待检测***的参数和待检测***的服务器IP得到目标信息,再根据检测指令和所述目标信息执行预设脚本程序,得到待诊断数据,然后将待诊断数据进行诊断,得到结果数据,对结果数据进行解析得到待检测***的正常数据和异常数据,以此可以实时的检测出异常数据,降低***性能异常时对异常数据检测耗费的时间和人力,并实现异常数据的自动恢复,提升***性能检测效率。

Description

一种***性能检测的方法及装置
技术领域
本发明涉及金融科技(Fintech)领域,尤其涉及一种***性能检测的方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(例如:分布式、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出的更高的要求。
基于***性能监控,一般有两种方法,一个是通过安装agent完成对服务器CPU、内存、IO、业务交易等性能指标的监控,然后通过终端界面去配置各***相关告警策略和参数阈值,并将告警结果展示在终端。另一个是根据流水号捕获上下游***处理情况,通过分析交易通道消息,对各上下游***或各产品的数据流进行关联并做出多维监控,利用终端展示监控数据。
但上述两种方法存在的问题在于,前者是分钟级定时探测,缺乏实效性的同时,仅限于获取服务器性能及应用进程监控,缺少对***在实时运行性能方面的分析,同时缺失对虚拟机字节码解析处理,以至于***故障异常时,在终端展示的仅仅为服务器基础资源及业务交易的异常信息,无法***异常的线程、类、方法记性实时捕获展示。后者欠缺实效性,且主要关注各***关联数据流之间的异常,无法实时定位***线上性能异常所在。并在针对异常定位的问题上,需要运维人员在固定场所排查问题后,通过调整日志模式检查日志,亦或者通过打文件进行分析,整个异常定位耗费大量时间和人力,异常定位的效率低下且增加了异常定位时长,从而增大了故障时长,提升了风险和损失。
发明内容
本发明实施例提供一种***性能检测的方法及装置,用于提升***异常检测效率,实现异常数据的自动恢复。
第一方面,本发明实施例提供一种***性能检测的方法,包括:
获取检测指令;所述检测指令包括待检测***的参数和所述待检测***的服务器IP;
根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据;
将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
上述技术方案中,通过检测指令得到待检测***对应的目标信息,然后根据目标信息得到待诊断数据,以使诊断工具对待检测***的相关参数行检测,得到结果数据,并解析出结果数据的异常数据,以此可以实时的检测出异常数据,降低***性能异常时对异常数据检测耗费的时间和人力,提升***性能检测效率。
可选的,所述根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息,包括:
将所述待检测***的参数和所述待检测***的服务器IP转变为预设格式的数据;
将所述预设格式的数据发送至配置管理数据库,得到所述待检测***的对应的所述目标信息。
上述技术方案中,根据待检测***的参数和待检测***的服务器IP得到待检测***的数据和对应服务器的数据,可以将不同的待检测***的数据和对应服务器的数据格式统一,通过同一种方法检测不同待检测***的性能,增加了***性能检测的范围。
可选的,所述预设脚本程序中设有引入参数;
所述根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据,包括:
将所述检测指令和所述目标信息结合所述引入参数,得到所述预设脚本程序的输入参数,并将所述输入参数发送至所述预设脚本程序中,得到用于诊断工具进行诊断的对应格式的待诊断数据。
上述技术方案中,根据将检测指令和目标信息结合引入参数得到可用于诊断工具进行诊断的待诊断数据,以使诊断工具对待诊断数据进行诊断,诊断待检测***的相关数据,不再需要运维人员通过检查日志等方法排查***异常所在,降低***性能异常时对异常数据检测耗费的时间和人力,提升了***性能检测效率。
可选的,所述对所述结果数据进行解析得到所述待检测***的正常数据和异常数据,包括:
使用第一循环文本对所述结果数据进行逐行数据拆解并进行解析,得到每行数据的状态位标识;
若所述状态标识位为第一标识,将所述每行数据中的状态位标识属于所述第一标识的数据确定为所述正常数据;
若所述状态标识位为第二标识,将所述每行数据中的状态位标识属于所述第二标识的数据确定为所述异常数据。
上述技术方案中,根据预设的第一标识和第二标识,检测出结果数据中异常数据,降低异常数据检测时耗费的时间和人力,从而降低故障时长,提升了***性能检测效率。
可选的,所述得到待恢复数据之后,还包括:
将所述异常数据进行数据整编,得到待恢复数据;
将所述待恢复数据发送至告警平台,以使所述告警平台进行数据告警,并得到告警数据;
将所述告警数据和所述目标信息拼接为预设格式的数据,并匹配所述待恢复数据的标准操作程序;所述标准操作程序是用户预先设置的;
执行所述待恢复数据的标准操作程序,将所述待恢复数据进行异常数据恢复。
上述技术方案中,根据预先设置的标准操作程序针对异常数据对应的告警数据进行匹配,进而通过标准操作程序将待恢复数据恢复为正常数据,实现异常数据的自动恢复,提升了运维效率且缩短了从***异常到***恢复正常的时长,解放了人工劳动力。
可选的,所述将所述异常数据进行数据整编,得到待恢复数据,包括:
根据第二循环文本将所述异常数据的每行数据的每个元素使用分隔符进行分隔,得到所述待恢复数据。
上数据术方案中,根据第二循环文本对每行异常数据进行检测,通过将每行异常数据中的元素进行分隔并解析,得到每个元素的状态位标识,根据每个元素的状态位标识,确定出异常数据中正常的元素与待恢复数据,并且可以根据正常数据,得到待恢复数据的具***置,提高了异常数据检测的精度,提升了***性能检测效率。
可选的,所述将所述待恢复数据进行异常数据恢复之后,还包括:
发送告警停止信息至所述告警平台,以使所述告警平台根据所述告警停止信息停止告警。
上述技术方案中,在异常数据恢复之后,将对应的告警数据进行停止,缩短了从***异常到***恢复正常的时长。
第二方面,本发明实施例提供一种***性能检测的装置,包括:
获取模块,用于获取检测指令;所述检测指令包括待检测***的参数和所述待检测***的服务器IP;
处理模块,用于根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据;
将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
可选的,所述处理模块具体用于:
将所述待检测***的参数和所述待检测***的服务器IP转变为预设格式的数据;
将所述预设格式的数据发送至配置管理数据库,得到所述待检测***的对应的所述目标信息。
可选的,所述预设脚本程序中设有引入参数;
所述处理模块具体用于:
将所述检测指令和所述目标信息结合所述引入参数,得到所述预设脚本程序的输入参数,并将所述输入参数发送至所述预设脚本程序中,得到用于诊断工具进行诊断的对应格式的待诊断数据。
可选的,所述处理模块具体用于:
使用第一循环文本对所述结果数据进行逐行数据拆解并进行解析,得到每行数据的状态位标识;
若所述状态标识位为第一标识,将所述每行数据中的状态位标识属于所述第一标识的数据确定为所述正常数据;
若所述状态标识位为第二标识,将所述每行数据中的状态位标识属于所述第二标识的数据确定为所述异常数据。
可选的,所述处理模块具体用于:
所述得到待恢复数据之后,将所述异常数据进行数据整编,得到待恢复数据;
将所述待恢复数据发送至告警平台,以使所述告警平台进行数据告警,并得到告警数据;
将所述告警数据和所述目标信息拼接为预设格式的数据,并匹配所述待恢复数据的标准操作程序;所述标准操作程序是用户预先设置的;
执行所述待恢复数据的标准操作程序,将所述待恢复数据进行异常数据恢复。
可选的,所述处理模块具体用于:
根据第二循环文本将所述异常数据的每行数据的每个元素使用分隔符进行分隔,得到所述待恢复数据。
可选的,所述处理模块还用于:
所述将所述待恢复数据进行异常数据恢复之后,发送告警停止信息至所述告警平台,以使所述告警平台根据所述告警停止信息停止告警。
第三方面,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述***性能检测的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述***性能检测的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种***架构示意图;
图2为本发明实施例提供的一种***性能检测的方法的流程示意图;
图3为本发明实施例提供的一种***性能检测的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例所适用的一种***架构,该***架构包括终端100、性能检测***200、容器管理***300、虚拟机400和功能***500。
其中,终端100用于检测指令的收发管理,包括建立沟通群(如***性能分析微信沟通群)和检测指令的收发。例如,根据固定指令(如“install robot”)触发逻辑代码开关(如“robot flag”),激活待检测***的性能检测的沟通群,在接收到用户点击按钮触发提交的事件后,将待检测***的参数和服务器IP拼接成json的数据格式,推送至性能检测***200。
性能检测***200包括:管理模块210、透传模块220、整编模块230和恢复模块240。
管理模块210,用于根据传输协议(如HTTP协议的post方法)进行传输、转换数据,管理模块210是后端框架(如Spring Boot)构建的。
透传模块220,用于使用预设脚本程序执行目标信息,并得到待诊断数据,并将待诊断数据发送至容器管理***300或虚拟机400,以使容器管理***300或虚拟机400中的诊断工具(如arthas)进行诊断,得到结果数据。
整编模块230,用于使用第一循环文本(如while-r循环语句)对结果数据中的每行数据进行拆解和解析,根据每行数据的状态位标识,区分正常数据和异常数据,并对异常数据执行第二循环文本(如for循环语句),得到待恢复数据。
恢复模块240,用于将待恢复数据发送至功能***500,得到告警数据,根据告警数据匹配对应的标准操作程序,以使待恢复数据恢复为正常数据。
容器管理***300,用于根据透传模块220发送的待诊断数据,建立指令任务,然后根据部署的待检测***的诊断工具对待诊断数据进行诊断,得到数据结果,并发送至性能检测***200。还用于调用标准操作程序对异常数据进行恢复。
虚拟机400,用于根据透传模块220发送的待诊断数据,建立指令任务,然后根据部署的待检测***的诊断工具对待诊断数据进行诊断,得到数据结果,并发送至性能检测***200。还用于调用标准操作程序对异常数据进行恢复。
功能***500包括:配置管理数据库510、告警平台520和程序模块530。
其中,配置管理数据库510用于配置各***部署区域及服务器IP、各***的数据库等基础数据。
告警平台520用于根据异常数据进行告警,并在异常恢复消除告警。
程序模块530,用于提供各***、服务器、数据库和线程等异常数据恢复的标准操作程序。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种***性能检测的方法的流程,该流程可由***性能检测的装置的执行。
如图2所示,该流程具体包括:
步骤201,获取检测指令。
本发明实施例,检测指令包括待检测***的参数和所述待检测***的服务器IP,例如,检测指令包括@robot sys_name IP dashboard(检测当前待检测***的实时数据面板的指令)、@robot sys_name IP thread(检测当前虚拟机的线程堆栈信息的指令)和@robot sys_name IP jvm(检测当前虚拟机的信息的指令),其中,实时数据面板包括线程ID、线程名、内存以及运行时间等,线程堆栈信息包括查询线程、线程名、CPU消耗、堵塞的线程、中断的线程等。
步骤202,根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据。
本发明实施例,在接收到检测指令后,将检测指令发送至配置管理数据库得到目标信息,并将目标信息作为参数执行预设脚本程序,得到待诊断数据。
进一步地,将所述待检测***的参数和所述待检测***的服务器IP转变为预设格式的数据;将所述预设格式的数据发送至配置管理数据库,得到所述待检测***的对应的所述目标信息。
本发明实施例,在获取到检测指令后,先将检测指令转变为预设格式的数据,例如,把检测指令中的待检测***的参数和待检测***的服务器IP拼接成json数据格式(预设格式),然后将转换后的数据发送至配置管理数据库,得到转换后的数据对应的目标信息,例如使用HTTP协议的post方法请求配置管理数据库的应用程序编程接口,根据配置管理数据库确定待检测***的目标信息(部署区域、服务器编号等)。
进一步地,预设脚本程序中设有引入参数;将检测指令和目标信息结合引入参数,得到预设脚本程序的输入参数,并将输入参数发送至预设脚本程序中,得到用于诊断工具进行诊断的对应格式的待诊断数据。
本发明实施例,在预设脚本程序执行之前,需要先通过检测指令和目标信息得到预设脚本程序的输入参数,例如,用户点击按钮触发提交事件时,接收检测指令,检测指令为@robot sys_name IP dashboard、@robot sys_name IP thread和@robot sys_name IPjvm,然后将检测指令和目标信息结合shell脚本程序中的引入参数“-m”,得到预设脚本程序的输入参数为sh we_arthas_main.sh-m dashboard sysname IP、sh we_arthas_main.sh-m thread sysname IP和sh we_arthas_main.sh-m jvm sysname IP,然后将得到的输入参数发送至预设脚本程序中,预设脚本程序执行后得到输入参数对应的待诊断数据例如,预设脚本程序为shell脚本程序,将上述得到的输入参数发送至shell脚本程序,然后执行shell脚本程序,得到对应的待诊断数据为dashboard(实时面板数据)、thread(线程堆栈信息)和jvm(当前虚拟机活跃、最大活跃、死锁等线程信息)。
步骤203,将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
本发明实施例,通过容器管理***(如kubernetes,K8S容器编排引擎)或虚拟机部署的诊断工具对待诊断数据进行诊断,得到数据结果。例如,通过SSH(Secure Shell,网络服务程序)协议执行虚拟机或容器管理***中预先部署的诊断工具(如服务器初始化时预先部署未启动的agent),诊断工具在得到上述通过shell脚本程序得到的待诊断数据时,建立待诊断数据对应的指令任务,通过shell脚本程序抓取待诊断数据,并对待诊断数据进行分析检测,例如:在得到上述的待诊断数据为dashboard(实时面板数据)、thread(线程堆栈信息)和jvm(当前虚拟机活跃、最大活跃、死锁等线程信息)时,建立待诊断数据对应的指令任务为:sh we_arthas.sh dashboard(获取指定刷新次数的实时面板数据),sh we_arthas.sh thread(获取线程堆栈信息),sh we_arthas.sh jvm(获取当前虚拟机活跃、最大活跃、死锁等线程信息)。然后通过在通过shell脚本程序(we_arthas.sh)抓取待诊断数据,并进行分析检测,得到对应的结果,并将结果根据shell脚本程序进行整合和汇总,得到结果数据,并存放于本地文件。
其中,诊断工具是使用JAVA语言对开源诊断工具Arthas进行修改后得到的,具体的,通过断开诊断工具Arthas的telnet协议的交互模式,封装成诊断代理的模式,并开放协议传输接口接收参数指令进行数据抓取,以agent代理的方式部署在虚拟机或容器管理***中。
进一步地,使用第一循环文本对所述结果数据进行逐行数据拆解并进行解析,得到每行数据的状态位标识;
若所述状态标识位为第一标识,将所述每行数据中的状态位标识属于所述第一标识的数据确定为所述正常数据;
若所述状态标识位为第二标识,将所述每行数据中的状态位标识属于所述第二标识的数据确定为所述异常数据。
本发明实施例,根据第一循环文本对结果数据中的每行数据进行解析,根据预设的第一标识和第二标识以及每行数据自身的状态位标识,将结果数据中的异常数据区分出来。例如,使用while-r循环文本对结果数据文件进行逐行拆解和解析,根据每行数据的状态位标识ststus_flag以及第一标识和第二标识,区分出正常数据和异常数据,然后记录区分后的正常数据文件或者异常数据文件。
然后,在得到待恢复数据之后,将异常数据进行数据整编,得到待恢复数据;将待恢复数据发送至告警平台,以使告警平台进行数据告警,并得到告警数据;将告警数据和目标信息拼接为预设格式的数据,并匹配所述待恢复数据的标准操作程序;其中,标准操作程序是用户预先设置的;执行待恢复数据的标准操作程序,将待恢复数据进行异常数据恢复。
本发明实施例,在解析出异常数据后,将异常数据进行数据整编,得到待恢复数据,具体的,根据第二循环文本将所述异常数据的每行数据的每个元素使用分隔符进行分隔,得到所述待恢复数据。
示例性的,在得到正常数据和异常数据后,再对异常数据使用第二循环文本进行处理,将每行异常数据中的元素进行分隔,得到每行数据中的元素,以使诊断工具对每个元素进行诊断,确定出异常的元素,再结合正常文件,以定位异常数据中异常的元素的位置,得到待恢复数据。例如,使用for循环语句对异常数据进行循环,采用“|||”分隔符并用文本处理工具(如Awk)截取异常数据中每行数据的元素的状态位标识,针对每个元素的状态位标识进行分析,得到异常数据中的异常元素,然后再使用***语句(如insert)进行处理,将异常数据中如逗号格式等错误的异常元素进行修正并过滤,确定出过滤后的异常数据中的异常元素,将过滤后的异常元素整合存档,得到待恢复数据(如report_arthas),并存放至本地。
本发明实施例,通过待恢复数据得到对应的告警数据,然后再根据告警数据匹配待恢复数据对应的标准操作程序,以使标准操作程序对异常数据进行恢复。
需要说明的是,上述技术方案中的诊断工具还包括诊断工具btrace,告警平台还包括开源运维监控***Open-Falcon。
示例性的,在程序模块中存有用户预先设置的标准操作程序,在得到待恢复数据后,将其发送至告警平台,以使告警平台根据待恢复数据将待检测***中存在异常的区域进行告警,并得到告警平台生成的告警数据,然后将告警数据和上述待检测***的参数和待检测***的服务器IP对应的目标信息拼接为预设格式的数据,与标准操作程序进行匹配,然后执行匹配成功的标准操作程序,对待恢复数据进行异常数据恢复。例如,将待恢复数据转换为json数据格式,并使用HTTP协议的post方法请求告警平台的对外提供的应用程序接口(ims_alarm_collector_alarm.do)得到待恢复数据对应的告警数据,同时将待恢复数据和目标信息拼接为json数据格式,再使用HTTP协议的post方法请求程序模块的对外提供的应用程序接口(get_sop_collect.do)得到匹配的待恢复数据的标准操作程序,然后使用fastjson方法解析操作程序,如{"sysname":abcd,"ip":"ip_data","dcn":"dcn_data"},解析取出括号内的数据,数据以“key:value”的形式成对组成,数据与数据之间采用“,”号隔开,最后解析出标准操作程序,执行标准操作程序,使待恢复数据恢复至正常数据。
在待恢复数据进行异常数据恢复之后,发送告警停止信息至告警平台,以使告警平台根据告警停止信息停止告警。
本发明实施例,在异常数据恢复为正常数据之后,会通过传输协议使告警平台停止告警,例如,在异常数据恢复为正常数据之后,使用HTTP协议的post方法请求告警平台的对外提供的应用程序接口发送告警停止信息,以使告警平台停止告警。
本发明实施例,通过终端获得用户下发的检测指令,实时定位***性能,从检测指令下发到分析完成再到反馈结果由程序自动执行,***各项指标自动进行性能检测,结合告警平台和标准操作程序实现异常数据自动恢复,形成有效的闭环,减少了人为的参与,缩短了***异常故障影响时长,提升了***性能检测排查效率,并通过预设的诊断工具同时应用于虚拟机和容器配置管理***,扩大了使用范围。
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种的结构,该装置可以执行的流程。
如图3所示,该装置具体包括:
获取模块301,用于获取检测指令;所述检测指令包括待检测***的参数和所述待检测***的服务器IP;
处理模块302,用于根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据;
将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
可选的,所述处理模块302具体用于:
将所述待检测***的参数和所述待检测***的服务器IP转变为预设格式的数据;
将所述预设格式的数据发送至配置管理数据库,得到所述待检测***的对应的所述目标信息。
可选的,所述预设脚本程序中设有引入参数;
所述处理模块302具体用于:
将所述检测指令和所述目标信息结合所述引入参数,得到所述预设脚本程序的输入参数,并将所述输入参数发送至所述预设脚本程序中,得到用于诊断工具进行诊断的对应格式的待诊断数据。
可选的,所述处理模块302具体用于:
使用第一循环文本对所述结果数据进行逐行数据拆解并进行解析,得到每行数据的状态位标识;
若所述状态标识位为第一标识,将所述每行数据中的状态位标识属于所述第一标识的数据确定为所述正常数据;
若所述状态标识位为第二标识,将所述每行数据中的状态位标识属于所述第二标识的数据确定为所述异常数据。
可选的,所述处理模块302具体用于:
所述得到待恢复数据之后,将所述异常数据进行数据整编,得到待恢复数据;
将所述待恢复数据发送至告警平台,以使所述告警平台进行数据告警,并得到告警数据;
将所述告警数据和所述目标信息拼接为预设格式的数据,并匹配所述待恢复数据的标准操作程序;所述标准操作程序是用户预先设置的;
执行所述待恢复数据的标准操作程序,将所述待恢复数据进行异常数据恢复。
可选的,所述处理模块302具体用于:
根据第二循环文本将所述异常数据的每行数据的每个元素使用分隔符进行分隔,得到所述待恢复数据。
可选的,所述处理模块302还用于:
所述将所述待恢复数据进行异常数据恢复之后,发送告警停止信息至所述告警平台,以使所述告警平台根据所述告警停止信息停止告警。
基于相同的技术构思,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述***性能检测的方法。
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述***性能检测的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种***性能检测的方法,其特征在于,包括:
获取检测指令;所述检测指令包括待检测***的参数和所述待检测***的服务器IP;
根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据;
将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
2.如权利要求1所述的方法,其特征在于,所述根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息,包括:
将所述待检测***的参数和所述待检测***的服务器IP转变为预设格式的数据;
将所述预设格式的数据发送至配置管理数据库,得到所述待检测***的对应的所述目标信息。
3.如权利要求1所述的方法,其特征在于,所述预设脚本程序中设有引入参数;
所述根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据,包括:
将所述检测指令和所述目标信息结合所述引入参数,得到所述预设脚本程序的输入参数,并将所述输入参数发送至所述预设脚本程序中,得到用于诊断工具进行诊断的对应格式的待诊断数据。
4.如权利要求1所述的方法,其特征在于,所述对所述结果数据进行解析得到所述待检测***的正常数据和异常数据,包括:
使用第一循环文本对所述结果数据进行逐行数据拆解并进行解析,得到每行数据的状态位标识;
若所述状态标识位为第一标识,将所述每行数据中的状态位标识属于所述第一标识的数据确定为所述正常数据;
若所述状态标识位为第二标识,将所述每行数据中的状态位标识属于所述第二标识的数据确定为所述异常数据。
5.如权利要求1所述的方法,其特征在于,所述得到待恢复数据之后,还包括:
将所述异常数据进行数据整编,得到待恢复数据;
将所述待恢复数据发送至告警平台,以使所述告警平台进行数据告警,并得到告警数据;
将所述告警数据和所述目标信息拼接为预设格式的数据,并匹配所述待恢复数据的标准操作程序;所述标准操作程序是用户预先设置的;
执行所述待恢复数据的标准操作程序,将所述待恢复数据进行异常数据恢复。
6.如权利要求5所述的方法,其特征在于,所述将所述异常数据进行数据整编,得到待恢复数据,包括:
根据第二循环文本将所述异常数据的每行数据的每个元素使用分隔符进行分隔,得到所述待恢复数据。
7.如权利要求1至6任一项所述的方法,其特征在于,所述将所述待恢复数据进行异常数据恢复之后,还包括:
发送告警停止信息至所述告警平台,以使所述告警平台根据所述告警停止信息停止告警。
8.一种***性能检测的装置,其特征在于,包括:
获取模块,用于获取检测指令;所述检测指令包括待检测***的参数和所述待检测***的服务器IP;
处理模块,用于根据所述待检测***的参数和所述待检测***的服务器IP得到目标信息;根据所述检测指令和所述目标信息执行预设脚本程序,得到待诊断数据;
将所述待诊断数据进行诊断,得到结果数据,对所述结果数据进行解析得到所述待检测***的正常数据和异常数据。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至7任一项所述的方法。
CN202010613893.2A 2020-06-30 2020-06-30 一种***性能检测的方法及装置 Pending CN111752741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010613893.2A CN111752741A (zh) 2020-06-30 2020-06-30 一种***性能检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010613893.2A CN111752741A (zh) 2020-06-30 2020-06-30 一种***性能检测的方法及装置

Publications (1)

Publication Number Publication Date
CN111752741A true CN111752741A (zh) 2020-10-09

Family

ID=72676872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010613893.2A Pending CN111752741A (zh) 2020-06-30 2020-06-30 一种***性能检测的方法及装置

Country Status (1)

Country Link
CN (1) CN111752741A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112379926A (zh) * 2020-11-13 2021-02-19 上海商汤临港智能科技有限公司 业务***诊断方法、***以及相关产品
CN112948217A (zh) * 2021-03-29 2021-06-11 腾讯科技(深圳)有限公司 服务器修复查验方法和装置、存储介质及电子设备
CN113590369A (zh) * 2021-07-23 2021-11-02 上海淇玥信息技术有限公司 一种用于虚拟机诊断的方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372507A1 (en) * 2013-06-14 2014-12-18 Microsoft Corporation Reporting Exceptions from Executing Compressed Scripts
CN108737170A (zh) * 2018-05-09 2018-11-02 中国银行股份有限公司 一种批量日志异常数据告警方法及装置
CN109165143A (zh) * 2018-08-17 2019-01-08 张家港康得新光电材料有限公司 数据库检测方法、***、服务器及存储介质
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN111190832A (zh) * 2020-01-06 2020-05-22 成都库珀区块链科技有限公司 一种性能瓶颈定位和调优方法、装置及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372507A1 (en) * 2013-06-14 2014-12-18 Microsoft Corporation Reporting Exceptions from Executing Compressed Scripts
CN108737170A (zh) * 2018-05-09 2018-11-02 中国银行股份有限公司 一种批量日志异常数据告警方法及装置
CN109165143A (zh) * 2018-08-17 2019-01-08 张家港康得新光电材料有限公司 数据库检测方法、***、服务器及存储介质
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN111190832A (zh) * 2020-01-06 2020-05-22 成都库珀区块链科技有限公司 一种性能瓶颈定位和调优方法、装置及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112379926A (zh) * 2020-11-13 2021-02-19 上海商汤临港智能科技有限公司 业务***诊断方法、***以及相关产品
CN112948217A (zh) * 2021-03-29 2021-06-11 腾讯科技(深圳)有限公司 服务器修复查验方法和装置、存储介质及电子设备
CN113590369A (zh) * 2021-07-23 2021-11-02 上海淇玥信息技术有限公司 一种用于虚拟机诊断的方法、装置及电子设备
CN113590369B (zh) * 2021-07-23 2024-05-28 上海淇玥信息技术有限公司 一种用于虚拟机诊断的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111752741A (zh) 一种***性能检测的方法及装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
Lou et al. Software analytics for incident management of online services: An experience report
US8041996B2 (en) Method and apparatus for time-based event correlation
CN107807877B (zh) 一种代码性能测试的方法和装置
CN107632918B (zh) 计算存储设备的监控***及方法
US20130311977A1 (en) Arrangement and method for model-based testing
EP3591485B1 (en) Method and device for monitoring for equipment failure
WO2016188100A1 (zh) 信息***故障场景信息收集方法及***
US11740999B2 (en) Capturing transition stacks for evaluating server-side applications
CN109240851A (zh) 一种自主式实现批量bmc自恢复的方法及***
CN110489317A (zh) 基于工作流的云***任务运行故障诊断方法与***
CN115664939A (zh) 一种基于自动化技术的综合运维方法、装置和存储介质
CN113645095A (zh) 基于snmptrap告警信息的交换机自动化测试方法、设备及介质
CN109634175B (zh) 一种控制组态程序动态验证的方法及***
CN115114064A (zh) 一种微服务故障分析方法、***、设备及存储介质
CN116107794B (zh) 一种舰船软件故障自动诊断方法、***及存储介质
CN117220917A (zh) 一种基于云计算的网络实时监控方法
CN111813872B (zh) 一种故障排查模型的生成方法、装置、设备
CN116204386A (zh) 应用服务关系自动识别及监控方法、***、介质和设备
CN116302989A (zh) 压力测试方法及***、存储介质、计算机设备
CN115529227A (zh) 一种基于Web请求的链路跟踪和异常诊断方法
CN112181759A (zh) 一种微服务性能监视及异常诊断的方法
CN116414609A (zh) 故障分析方法、装置、电子设备及存储介质
CN113138872A (zh) 数据库***的异常处理装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination