CN107729205B - 用于业务***的故障处理方法和装置 - Google Patents

用于业务***的故障处理方法和装置 Download PDF

Info

Publication number
CN107729205B
CN107729205B CN201710728182.8A CN201710728182A CN107729205B CN 107729205 B CN107729205 B CN 107729205B CN 201710728182 A CN201710728182 A CN 201710728182A CN 107729205 B CN107729205 B CN 107729205B
Authority
CN
China
Prior art keywords
service system
session
service
data source
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710728182.8A
Other languages
English (en)
Other versions
CN107729205A (zh
Inventor
孙少华
杨林慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Qinghai Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201710728182.8A priority Critical patent/CN107729205B/zh
Publication of CN107729205A publication Critical patent/CN107729205A/zh
Application granted granted Critical
Publication of CN107729205B publication Critical patent/CN107729205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于业务***的故障处理方法和装置。其中,该方法包括:检测业务***当前的运行状态;根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;控制业务***释放会话占用的资源。本发明解决了现有的电力营销业务应用***中出现的各类故障容易影响客户服务质量的技术问题。

Description

用于业务***的故障处理方法和装置
技术领域
本发明涉及电力营销业务领域,具体而言,涉及一种用于业务***的故障处理方法和装置。
背景技术
随着电力信息网的发展,以及电力营销业务需求越来越多样化、精细化,大力促进了电力营销业务应用***的建设。由于电力营销业务应用是以用电客户为核心、直接面向客户的业务应用,在提升客户服务质量方面需要发挥主要作用,因而,如何实现对电力客户的高效服务、客户资源的高效管理是现代电力营销业务应用的重要课题。
在电力***中,由于电力资源网络结构复杂、设备种类繁多,容易导致电力营销业务出现故障,例如,数据库故障、业务故障、中间件故障、硬件故障以及接口故障等,这些故障会严重影响电力营销业务应用对客户服务质量,因而,如何能够快速定位电力营销业务应用***的各类故障,并及时采取相应的措施,是电力营销业务应用***亟待解决的一个问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种用于业务***的故障处理方法和装置,以至少解决现有的电力营销业务应用***中出现的各类故障容易影响客户服务质量的技术问题。
根据本发明实施例的一个方面,提供了一种用于业务***的故障处理方法,包括:检测业务***当前的运行状态;根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;控制业务***释放会话占用的资源。
根据本发明实施例的另一方面,还提供了一种用于业务***的故障处理装置,包括:第一检测模块,用于检测业务***当前的运行状态;获取模块,用于根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;查找模块,用于在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;第一控制模块,用于控制业务***释放会话占用的资源。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述的用于业务***的故障处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的用于业务***的故障处理方法。
在本发明实施例中,通过检测业务***当前的运行状态;根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;控制业务***释放会话占用的资源,达到了实时监控电力营销业务应用***运行情况,并在电力营销业务应用***运行异常的情况下,及时采取措施的目的,从而实现了提高电力营销业务***服务质量,提高用户体验的技术效果,进而解决了现有的电力营销业务应用***中出现的各类故障容易影响客户服务质量的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种用于业务***的故障处理方法流程图;
图2是根据本发明实施例的一种可选的用于业务***的故障处理方法流程图;
图3是根据本发明实施例的一种可选的用于业务***的故障处理方法流程图;
图4是根据本发明实施例的一种用于业务***的故障处理装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种用于业务***的故障处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种用于业务***的故障处理方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,检测业务***当前的运行状态。
作为一种可选的实施例,上述业务***可以是电力***中各级供电公司提供的电力营销业务应用***,该电力营销业务应用***可以提供的服务包括但不限于电能信息采集与监控、电量计费、95598客户服务、客户档案资料管理等;电力用户可以通过客户端访问该电力营销业务***,也可以以Web的形式访问该电力营销业务***。
步骤S104,根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度。
作为一种可选的实施例,上述运行参数包括但不限于如下任意一种或多种:服务器主机的CPU占用率、服务器主机的内存使用率、服务器主机的输入输出负载情况(即I/O负载量)、进程运行速度等;其中,进程运行速度包括但不限于:营销业务查询请求的响应时间、创建连接的时间、数据库查询请求的响应时间等。
步骤S106,在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话。
作为一种可选的实施例,上述第一预设阈值可以预先为业务***中各项运行参数设置的阈值,针对不同的运行参数,可以设置不同的阈值;上述第二预设阈值可以是为当前处于运行状态的业务会话所占用的各项资源设置的对应的阈值。上述会话可以是电力***中任意一台终端设备与电力营销应用***后台服务器之间进行的会话。
一种可选的实施例中,如果运行参数为CPU占用率,则上述第一预设阈值可以是90%~100%中的任意一个值;如果运行参数为内存使用率,则上述第一预设阈值可以是97%~100%中的任意一个值;如果运行参数为I/O负载量,则上述第一预设阈值可以是95%~100%中的任意一个值。
以内存使用率为例,可以通过glance名称查看占有内存较高的进程,判断该进程是否为goldengate的进程,如果是goldengate的进程,则停止该进程,查看goldengate的进程中是否有内存使用限制参数,如果没有,添加相关参数;如果有,为该参数设置合理值,各项配置检查完成后,重启goldenate进程。停止goldengate进程需要在goldengate控制台进行停止操作,不能直接用kill命令杀掉goldengate进程。
步骤S108,控制业务***释放会话占用的资源。
作为一种可选的实施例,在检测到业务***中某一运行参数的参数值超过第一预设阈值的情况下,查找占用***或设备资源超过第二预设阈值的会话,并断开占用***或设备资源超过第二预设阈值的会话连接。
由上可知,在本申请上述实施例中,在电力营销业务应用***运行的过程中,实时检测电力营销业务应用***的运行状态,并根据电力营销业务应用***当前的运行状态,获取电力营销业务应用***的一项或多项运行参数的参数值,并在获取到的运行参数的参数值超过第一预设阈值的情况下,查找电力营销业务应用***当前占用资源超过第二预设阈值的会话,控制电力营销业务应用***断开占用资源超过第二预设阈值的会话。容易注意的是,上述运行参数包括不限于:后台服务器主机的CPU占用率、内存使用率或I/O负载量,以及电力营销业务应用***各个业务会话中进程的运行速度,
通过上述实施例公开的方案,达到了实时监控电力营销业务应用***运行情况,并在电力营销业务应用***运行异常的情况下,及时采取措施的目的,从而实现了提高电力营销业务***服务质量,提高用户体验的技术效果,进而解决了现有的电力营销业务应用***中出现的各类故障容易影响客户服务质量的技术问题。
作为一种可选的实施例,上述业务***可以是电力***的电力营销业务应用***,该电力营销业务应用***可以
在一种可选的实施例中,上述业务***为电力信息网***的业务***。
在一种可选的实施例中,如图2所示,控制业务***释放会话占用的资源,可以包括如下步骤:
步骤S202,检测数据源与至少一个会话的连接状态;
步骤S204,控制业务***断开占用资源超过第二阈值的会话与数据源的连接,并维持数据源与后台数据库的连接。
具体地,在上述实施例中,数据源可以是weblogic数据源,是应用服务器与数据库之间的中间件,在查找到占用资源超过第二阈值的会话后,断开该会话所在的应用服务器与数据源之间的连接,而维持weblogic数据源与后台数据库之间的连接。上述后台数据库可以是oracle数据库。
此处需要说明的是,数据源可以是用于管理多个应用服务器访问数据库的一个中间设备,即所有的应用服务器要调用后台数据库中的资源,都需要经过数据源,当某一个业务会话调用数据源当前可用的资源而没有释放时,可能会导致数据源资源不足,进而导致无法创建应用服务器到数据源的连接。因而,当检测到某一会话的占用资源超过第二预设阈值的情况下,进一步检测数据源当前的连接状态,并将占用资源超过第二预设阈值的会话与数据源的连接断开,但是维持数据源与后台数据库的连接。
可选地,在断开占用资源超过第二预设阈值的会话与数据源的连接的同时,可以将与该占用资源超过第二预设阈值的会话相关的一类会话与数据源的连接都断开。
通过上述实施例,实现了关闭电力营销业务应用***中发生异常的会话,进而使得其他业务会话正常进行的目的。
在一种可选的实施例中,在控制业务***断开占用资源超过第二阈值的会话与数据源的连接,并维持数据源与后台数据库的连接之后,如图3所示,上述方法还可以包括如下步骤:
步骤S302,为数据源创建新的执行计划;
步骤S304,控制业务***按照新的执行计划运行。
作为一种可选的实施例,上述执行计划可以是SQL执行计划,由于SQL语句是按照SQL执行计划执行的,在控制业务***断开占用资源超过第二阈值的会话与数据源的连接后,分析SQL执行计划,得出正确的SQL执行计划(即新的执行计划),并控制电力营销业务应用***按照正确的SQL执行计划运行。
一种可选的实施例中,可以将新的SQL执行计划固化到电力营销业务应用***中。优选地,在将新的SQL执行计划固化到电力营销业务应用***后,进一步验证该新的SQL执行计划是否成功固化。
作为一种可选的实施方案,为数据源创建新的执行计划可以包括如下步骤:获取SQL语句的统计信息;使用添加索引、hint或outline等方式对SQL语句进行优化。
此处需要说明的是,在电力营销业务应用***中固化新的SQL执行计划之前,要判断该新的SQL执行计划的资源消耗是否较小。
下面以java为例,说明电力营销业务应用***中几种故障的处理方案。
作为一种优选的实施方案,在电力营销业务应用***出现95598客户服务没有提示音故障的情况下,可以通过下面的步骤来恢复正常:
1)通过ssh登录95598应用服务器;
2)查询应用进程ID;
3)终止应用服务
4)进入到应用主服务目录;
5)重新启动应用主服务;
6)观察动态应用日志;
7)登录业务***测试提示音功能是否恢复正常。
通过上述步骤,可以实现提示音恢复正常。
作为一种优选的实施方案,在电力营销业务应用***出现应用***表现缓慢(即weblogic无法启动或weblogic集群故障)的情况下,可以通过下面的步骤来恢复正常:
1)测试端口;
2)测试监听;
3)测试jdbct;
4)测试dns;
5)发现主dns已无法连接;
6)删除resolve.conf配置;
7)删除dns配置。
通过上述步骤,可以实现应用连接数据库恢复正常。
作为一种优选的实施方案,在电力营销业务应用***出现银电联网收费功能报数据库异常故障的情况下,可以通过下面的步骤来恢复正常:
1)通过ssh登录数据库服务器,并使用Oracle用户登录操作***;
2)查询数据库集群状态;
3)查询集群节点的监听状态;
4)查询数据库节点的监听状态;
5)重新启动数据库监听;
6)再次查看监听是否正常启动;
7)登录业务***,测试银电联网售电功能是否正常。
通过上述步骤,可以实现使得电力营销业务应用***中的银电联网售电***恢复正常。
作为一种优选的实施方案,在电力营销业务应用***出现数据库无响应的情况下,可以通过下面的步骤来恢复正常:
1)检查数据库alert日志;
2)检查操作***日志;
3)关闭相关数据同步软件;
4)关闭数据库;
5)关机;
6)更换光纤交换机;
7)开机;
8)开启数据库;
9)开启数据同步软件;
10)检查数据库状态,业务测试。
通过上述步骤,可以实现使得数据库恢复正常。
作为一种优选的实施方案,在电力营销业务应用***出现前台业务无法访问,后台进程存在故障的情况下,可以通过下面的步骤来恢复正常:
1)通过ssh登录应用服务器;
2)查找业务应用ID;
3)终止应用主服务;
4)使用cd命令进入到应用中间件业务主目录;
5)通过vi命令编辑bin目录下setDomainEnv.sh文件;
6)调整JVM配置参数并保存;
7)使用cd命令进入到中间件业务应用主目录,重启应用;
8)使用tail–f命令查询应用动态日志启动状态;
9)登录业务***,测试业务***是否能够正常登录。
通过上述步骤,可以使得电力营销业务应用***可以正常访问。
作为一种优选的实施方案,在电力营销业务应用***出现主机宕机,内存缺失,或主板故障、磁盘出现坏道等硬件故障的情况下,可以通过下面的步骤来恢复正常:
1)通过ssh登录主机服务器;
2)使用ping命令无法ping通服务器主机;
3)联系主机管理员重启服务器主机;
4)登录应用服务器,使用cd命令进入到中间件业务应用主目录,执行nohup./startWebLogic.sh&重启应用;
5)使用tail–f命令查询应用动态日志启动状态;
6)登录业务***,测试业务***是否能够正常登录。
通过上述步骤,可以使硬件恢复正常。
作为一种优选的实施方案,在电力营销业务应用***出现负载均衡器故障(即10.120.6.102无法访问,单个节点可以访问)的情况下,可以通过下面的步骤来恢复正常:
1)通过IE浏览器分别访问不同应用节点的URL;
2)确定故障应用的IP地址;
3)通知网络工程师排查F5负载均衡设备;
4)负载均衡器修复完毕后,登录应用服务器,使用cd命令进入到中间件业务应用主目录,重启应用;
5)使用tail–f命令查询应用动态日志启动状态;
6)通过访问不同应用节点URL登录业务***,测试业务***是否能够正常登录。
通过上述步骤,可以实现正常访问10.120.6.102的目的。
作为一种优选的实施方案,在电力营销业务应用***出现网络出现、震荡、丢包等问题的情况下,可以通过下面的步骤来恢复正常:
1)通过ssh登录主机服务器;
2)使用ping命令无法ping通服务器主机;
3)联系网络工程师对网络设备进行排查;
4)网络修复完毕后,登录应用服务器,使用cd命令进入到中间件业务应用主目录,重启应用;
5)使用tail–f命令查询应用动态日志启动状态;
6)登录业务***,测试业务***是否能够正常登录。
通过上述步骤,可以使得网络恢复正常。
实施例2
根据本发明实施例,还提供了一种用于实现上述用于业务***的故障处理方法的装置实施例,图4是根据本发明实施例的一种用于业务***的故障处理装置示意图,如图4所示,该装置包括:第一检测模块401、获取模块403、查找模块405和第一控制模块407。
其中,第一检测模块401,用于检测业务***当前的运行状态;
获取模块403,用于根据运行状态,获取业务***的如下至少一种运行参数的参数值,其中,运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;
查找模块405,用于在运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;
第一控制模块407,用于控制业务***释放会话占用的资源。
此处需要说明的是,上述第一检测模块401、获取模块403、查找模块405和第一控制模块407对应于实施例1中的步骤S102至S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
由上可知,在本申请上述实施例中,在电力营销业务应用***运行的过程中,通过第一检测模块401实时检测电力营销业务应用***的运行状态,并通过获取模块403根据电力营销业务应用***当前的运行状态,获取电力营销业务应用***的一项或多项运行参数的参数值,通过查找模块405在获取到的运行参数的参数值超过第一预设阈值的情况下,查找电力营销业务应用***当前占用资源超过第二预设阈值的会话,最后通过第一控制模块407控制电力营销业务应用***断开占用资源超过第二预设阈值的会话。容易注意的是,上述运行参数包括不限于:后台服务器主机的CPU占用率、内存使用率或I/O负载量,以及电力营销业务应用***各个业务会话中进程的运行速度,
通过上述实施例公开的方案,达到了实时监控电力营销业务应用***运行情况,并在电力营销业务应用***运行异常的情况下,及时采取措施的目的,从而实现了提高电力营销业务***服务质量,提高用户体验的技术效果,进而解决了现有的电力营销业务应用***中出现的各类故障容易影响客户服务质量的技术问题。
在一种可选的实施例中,上述业务***为电力信息网***的业务***。
在一种可选的实施例中,上述第一控制模块包括:第二检测模块,用于检测数据源与至少一个会话的连接状态;第二控制模块,用于控制业务***断开占用资源超过第二阈值的会话与数据源的连接,并维持数据源与后台数据库的连接。
此处需要说明的是,上述第二检测模块和第二控制模块对应于实施例1中的步骤S202至S204,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
在一种可选的实施例中,上述装置还包括:创建模块,用于为数据源创建新的执行计划;第三控制模块,用于控制业务***按照新的执行计划运行。
此处需要说明的是,上述创建模块和第三控制模块对应于实施例1中的步骤S302至S304,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
实施例3
根据本发明实施例,还提供了一种存储介质实施例,存储介质包括存储的程序,其中,程序执行实施例1中任意一项可选的或优选的用于业务***的故障处理方法。
实施例4
根据本发明实施例,还提供了一种处理器实施例,处理器用于运行程序,其中,程序运行时执行实施例1中任意一项可选的或优选的用于业务***的故障处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种用于业务***的故障处理方法,其特征在于,包括:
检测业务***当前的运行状态;
根据所述运行状态,获取所述业务***的如下至少一种运行参数的参数值,其中,所述运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;
在所述运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;
控制所述业务***释放所述会话占用的资源;
控制所述业务***释放所述会话占用的资源,包括:检测数据源与至少一个会话的连接状态;控制所述业务***断开占用资源超过第二阈值的会话与所述数据源的连接,并维持数据源与后台数据库的连接;
所述第一预设阈值是预先为业务***中各项运行参数设置的阈值,针对不同的运行参数,设置不同的阈值;所述第二预设阈值是为当前处于运行状态的业务会话所占用的各项资源设置的对应的阈值;所述会话是电力***中任意一台终端设备与电力营销应用***后台服务器之间进行的会话。
2.根据权利要求1所述的方法,其特征在于,所述业务***为电力信息网***的业务***。
3.根据权利要求1所述的方法,其特征在于,在控制所述业务***断开占用资源超过第二阈值的会话与所述数据源的连接,并维持数据源与后台数据库的连接之后,所述方法还包括:
为所述数据源创建新的执行计划;
控制所述业务***按照所述新的执行计划运行。
4.一种用于业务***的故障处理装置,其特征在于,包括:
第一检测模块,用于检测业务***当前的运行状态;
获取模块,用于根据所述运行状态,获取所述业务***的如下至少一种运行参数的参数值,其中,所述运行参数包括如下至少之一:CPU占用率、内存使用率、输入输出负载情况和进程运行速度;
查找模块,用于在所述运行参数的参数值超过第一预设阈值的情况下,查找占用资源超过第二预设阈值的会话;
第一控制模块,用于控制所述业务***释放所述会话占用的资源;
所述第一控制模块包括:第二检测模块,用于检测数据源与至少一个会话的连接状态;第二控制模块,用于控制所述业务***断开占用资源超过第二阈值的会话与所述数据源的连接,并维持数据源与后台数据库的连接;
所述第一预设阈值是预先为业务***中各项运行参数设置的阈值,针对不同的运行参数,设置不同的阈值;所述第二预设阈值是为当前处于运行状态的业务会话所占用的各项资源设置的对应的阈值;所述会话是电力***中任意一台终端设备与电力营销应用***后台服务器之间进行的会话。
5.根据权利要求4所述的装置,其特征在于,所述业务***为电力信息网***的业务***。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
创建模块,用于为所述数据源创建新的执行计划;
第三控制模块,用于控制所述业务***按照所述新的执行计划运行。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至3中任意一项所述的用于业务***的故障处理方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的用于业务***的故障处理方法。
CN201710728182.8A 2017-08-22 2017-08-22 用于业务***的故障处理方法和装置 Active CN107729205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710728182.8A CN107729205B (zh) 2017-08-22 2017-08-22 用于业务***的故障处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710728182.8A CN107729205B (zh) 2017-08-22 2017-08-22 用于业务***的故障处理方法和装置

Publications (2)

Publication Number Publication Date
CN107729205A CN107729205A (zh) 2018-02-23
CN107729205B true CN107729205B (zh) 2021-01-05

Family

ID=61204704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710728182.8A Active CN107729205B (zh) 2017-08-22 2017-08-22 用于业务***的故障处理方法和装置

Country Status (1)

Country Link
CN (1) CN107729205B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493891B (zh) * 2018-05-14 2021-05-11 杭州海康威视***技术有限公司 资源分配方法、装置及***
CN109766238B (zh) * 2018-12-15 2023-02-03 中国平安人寿保险股份有限公司 基于session数的运维平台性能监控方法、装置及相关设备
CN111435566B (zh) * 2019-01-11 2022-08-16 阿里巴巴集团控股有限公司 一种交通数据采集方法、装置及***
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质
CN110674149B (zh) * 2019-09-12 2022-03-11 金蝶软件(中国)有限公司 业务数据处理方法、装置、计算机设备和存储介质
CN115941028B (zh) * 2022-12-01 2024-01-19 中国人民解放军61096部队 地面站故障定位方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408861A (zh) * 2007-10-11 2009-04-15 鸿富锦精密工业(深圳)有限公司 应用程序实时监控***及方法
CN102946486A (zh) * 2012-11-20 2013-02-27 惠州Tcl移动通信有限公司 一种基于手机的后台应用自动清理方法及手机
WO2016062010A1 (zh) * 2014-10-20 2016-04-28 中兴通讯股份有限公司 用量监控方法及装置
CN105955869A (zh) * 2016-05-12 2016-09-21 捷开通讯科技(上海)有限公司 电子装置异常应用程序监控及处理***与方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408861A (zh) * 2007-10-11 2009-04-15 鸿富锦精密工业(深圳)有限公司 应用程序实时监控***及方法
CN102946486A (zh) * 2012-11-20 2013-02-27 惠州Tcl移动通信有限公司 一种基于手机的后台应用自动清理方法及手机
WO2016062010A1 (zh) * 2014-10-20 2016-04-28 中兴通讯股份有限公司 用量监控方法及装置
CN105955869A (zh) * 2016-05-12 2016-09-21 捷开通讯科技(上海)有限公司 电子装置异常应用程序监控及处理***与方法

Also Published As

Publication number Publication date
CN107729205A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729205B (zh) 用于业务***的故障处理方法和装置
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN107612787B (zh) 一种基于Openstack开源云平台的云主机故障检测方法
CN102355368B (zh) 一种网络设备的故障处理方法及***
CN107404522B (zh) 一种跨节点的虚拟机集群高可用实现方法和装置
CN103812699A (zh) 基于云计算的监控管理***
CN103853627A (zh) 由与物理机器相关地分析虚拟机器性能问题原因的方法和***
CN109787827B (zh) 一种cdn网络监控的方法及装置
CN110716842A (zh) 集群故障检测方法和装置
CN104580085A (zh) 业务数据更新方法、***、客户端及服务器
CN108390907B (zh) 一种基于Hadoop集群的管理监控***及方法
CN113760652B (zh) 基于应用的全链路监控的方法、***、设备和存储介质
CN104468283A (zh) 多主机管理***的监控方法、装置和***
WO2019242487A1 (zh) 一种故障管理方法和相关装置
CN112291075A (zh) 网络故障定位方法、装置、计算机设备及存储介质
JP2012059257A (ja) キャッシュクラウド構造を利用したキャッシュシステムおよびキャッシングサービスの提供方法
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
CN111342986B (zh) 分布式节点管理方法及装置、分布式***、存储介质
CN111062503B (zh) 一种电网监控告警处理方法、***、终端及存储介质
CN113765690A (zh) 集群切换方法、***、装置、终端、服务器及存储介质
CN112073499A (zh) 一种多机型云物理服务器的动态服务方法
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
CN116302790A (zh) 运行资源管理方法、云网关、电子设备及存储介质
CN111324504A (zh) 电力通信网络运行状态监测方法和装置
CN113852984A (zh) 一种无线终端接入监控***、方法、电子设备及可读存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant