CN110618864A - 一种中断任务恢复方法及装置 - Google Patents

一种中断任务恢复方法及装置 Download PDF

Info

Publication number
CN110618864A
CN110618864A CN201910888051.5A CN201910888051A CN110618864A CN 110618864 A CN110618864 A CN 110618864A CN 201910888051 A CN201910888051 A CN 201910888051A CN 110618864 A CN110618864 A CN 110618864A
Authority
CN
China
Prior art keywords
target task
target
task
state
process corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910888051.5A
Other languages
English (en)
Inventor
堵新政
张毅然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910888051.5A priority Critical patent/CN110618864A/zh
Publication of CN110618864A publication Critical patent/CN110618864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种中断任务恢复方法及装置,其中,该方法包括:以第一预定时间周期监控目标任务的进程和状态;根据所述目标任务的进程和状态确定目标任务是否发生异常中断;在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系,因此,可以解决相关技术中任务异常中断不能及时恢复,造成计算资源闲置、业务数据处理流程无法进行的问题,实现了及时恢复中断的任务,避免计算资源闲置,使得业务数据处理流程可以正常进行。

Description

一种中断任务恢复方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种中断任务恢复方法及装置。
背景技术
随着计算机网络技术的发展,以及数据处理量的增长,分布式数据处理***得到广泛应用。
分布式数据处理***包括多个任务节点,多个任务节点可以同时进行数据处理,大幅度提高了***的数据处理效率。
在大数据治理过程中,每个阶段都会产生不同量级的计算任务,如采集任务、转换任务、清洗任务、融合任务等。这些任务使用集群机器的计算资源(CPU、内存等),分工协作,完成整个业务数据的处理。这些任务有独立任务,也有依赖任务,无论哪一种任务,如果由于异常原因导致任务中断,这时如果不能及时恢复就会造成资源的闲置和浪费,甚至影响业务流程的正常进行。尤其对于依赖任务,当前置任务中断后,其所有的后置任务都无法进行。而依靠人工恢复,不仅耗时耗力,很难保障任务恢复的及时。
针对相关技术中任务异常中断不能及时恢复,造成计算资源闲置、业务数据处理流程无法进行的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种中断任务恢复方法及装置,以至少解决相关技术中任务异常中断不能及时恢复,造成计算资源闲置、业务数据处理流程无法进行的问题。
根据本发明的一个实施例,提供了一种中断任务恢复方法,包括:
以第一预定时间周期监控目标任务的进程和状态;
根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
可选地,根据所述目标任务的进程和状态信息确定目标任务是否发生异常中断包括:
检测是否存在与所述目标任务对应的第一目标进程;
在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
可选地,在以第二预定时间周期重新启动所述目标任务之前,所述方法还包括:
在存在所述目标任务对应的所述第一目标进程的情况下,将所述第一目标进程杀死。
可选地,在以第二预定时间周期重新启动所述目标任务之后,所述方法还包括:
若所述目标任务的状态为失败状态,将所述目标任务的状态由所述失败状态转换为所述运行状态。
可选地,在以第一预定时间周期监控目标任务的进程和状态之前,所述方法还包括:
接收设置所述第二预定时间周期和所述预定重启次数的设置指令;
根据所述设置指令设置所述第二预定时间周期和所述预定重启次数。
可选地,在以第一预定时间周期监控任务的进行和状态之前,所述方法还包括:
检测到所述目标任务启动;
创建与所述目标任务对应的所述第一目标进程,将所述目标任务的状态转换为所述运行状态;
维护所述目标任务与所述第一目标进程的映射关系。
根据本发明的另一个实施例,还提供了一种中断任务恢复装置,包括:
监控模块,用于以第一预定时间周期监控目标任务的进程和状态;
确定模块,用于根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
重启模块,用于在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
第一创建模块,用于在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
可选地,所述确定模块包括:
检测子模块,用于检测是否存在与所述目标任务对应的第一目标进程;
第一确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
第二确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
第三确定子模块,用于在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
可选地,所述装置还包括:
杀死模块,用于在存在所述目标任务对应的所述第一目标进程的情况下,将所述第一目标进程杀死。
可选地,所述装置还包括:
转换模块,用于若所述目标任务的状态为失败状态,将所述目标任务的状态由所述失败状态转换为所述运行状态。
可选地,所述装置还包括:
接收模块,用于接收设置所述第二预定时间周期和所述预定重启次数的设置指令;
设置模块,用于根据所述设置指令设置所述第二预定时间周期和所述预定重启次数。
可选地,所述装置还包括:
检测模块,用于检测到所述目标任务启动;
第二创建模块,用于创建与所述目标任务对应的所述第一目标进程,将所述目标任务的状态转换为所述运行状态;
维护模块,用于维护所述目标任务与所述第一目标进程的映射关系。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,以第一预定时间周期监控目标任务的进程和状态;根据所述目标任务的进程和状态确定目标任务是否发生异常中断;在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系,因此,可以解决相关技术中任务异常中断不能及时恢复,造成计算资源闲置、业务数据处理流程无法进行的问题,实现了及时恢复中断的任务,避免计算资源闲置,使得业务数据处理流程可以正常进行。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种中断任务恢复方法的移动终端的硬件结构框图;
图2是根据本发明实施例的中断任务恢复方法的流程图;
图3是根据本发明实施例的任务异常中断自动恢复机制的流程图;
图4是根据本发明实施例的中断任务恢复装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种中断任务恢复方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端,本实施例提供了一种中断任务恢复方法,图2是根据本发明实施例的中断任务恢复方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,以第一预定时间周期监控目标任务的进程和状态;
步骤S204,根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
本发明实施例中,任务异常中断又可分为:因任务节点的进程出现中断或僵死导致的异常中断,以及因任务节点本身宕机所导致的异常中断。或者,网络异常或其他原因导致失败的任务,服务挂掉或者机器故障等原因造成的任务中断。
为了检测数据处理任务的异常中断,中心服务器在每个任务节点上启动检测线程,用于对任务节点异常中断进行检测。检测线程每隔第一预定时间周期(如1分钟)对任务节点进程进行检测。
步骤S206,在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
步骤S208,在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
通过上述步骤S202至S208,以第一预定时间周期监控目标任务的进程和状态;根据所述目标任务的进程和状态确定目标任务是否发生异常中断;在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系,因此,可以解决相关技术中任务异常中断不能及时恢复,造成计算资源闲置、业务数据处理流程无法进行的问题,实现了及时恢复中断的任务,避免计算资源闲置,使得业务数据处理流程可以正常进行。
本发明实施例中,上述步骤S204具体可以包括:
检测是否存在与所述目标任务对应的第一目标进程;
在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
本发明实施例中,在以第二预定时间周期重新启动所述目标任务之前,在存在所述目标任务对应的所述第一目标进程的情况下,将所述第一目标进程杀死。具体的,可以通过进程句柄将进程杀死。
本发明实施例中,在以第二预定时间周期重新启动所述目标任务之后,若所述目标任务的状态为失败状态,将所述目标任务的状态由所述失败状态转换为所述运行状态。其中,第二预定时间周期可以预先进行设置,如,设置为0.5分钟等。
本发明实施例中,在以第一预定时间周期监控目标任务的进程和状态之前,接收设置所述第二预定时间周期和所述预定重启次数的设置指令;根据所述设置指令设置所述第二预定时间周期和所述预定重启次数。
本发明实施例中,在以第一预定时间周期监控任务的进行和状态之前,检测到所述目标任务启动;创建与所述目标任务对应的所述第一目标进程,将所述目标任务的状态转换为所述运行状态;维护所述目标任务与所述第一目标进程的映射关系。
本发明实施例的任务异常中断自动恢复机制,任务在启动后,会产生进程并更改任务状态为运行状态;任务异常中断有两种情况,一种是网络异常或者其他原因导致任务中断,任务的状态为失败状态,任务进程可能存在也可能不存在;另外一种是服务挂掉或者机器故障等原因,导致任务中断,任务状态没有更改,仍然为运行状态,但进程已经不存在。针对上面两种情况,实现任务的自动恢复,包括以下步骤:
1)用户设定最大重试次数N,即针对异常中断情况,可以尝试重新运行任务的最大次数;重试周期P,即隔多久重新运行一次;当达到最大尝试次数N,任务扔无法启动,就需要人工的干预;
2)任务启动后,维护任务的进程与任务的映射关系,同时记录任务的运行状态;
3)任务监控程序实时监控任务的进程与状态,是否存在异常中断的任务;
4)针对网络异常或其他原因导致失败的任务,监控程序先检查该任务的进程是否存在,如果存在则将其杀掉,然后重新运行任务,如果尝试运行失败,则按重试周期P,继续尝试,直至到达最大尝试次数N;如果重新启动成功,则更新进程与任务的映射关系,更改任务状态为运行状态;
5)针对服务挂掉或者机器故障等原因造成的任务中断,重新运行任务,如果尝试运行失败,则按重试周期P,继续尝试,直至到达最大尝试次数N;如果重新启动成功,则更新进程与任务的映射关系;
6)对于人工干预的恢复操作,由运维人员将恢复方法录入***,并维护诊断类型与恢复方法的映射关系,监控程序在达到最大重试次数仍无法启动时,会根据异常日志判断诊断类型,如果诊断类型在***上存在,则使用对应的恢复方法进一步尝试恢复任务;如果不存在,则为新的诊断类型,将异常状况通过邮件通知运维人员进行干预。
7)任务监控程序会将每次任务异常和修复结果以邮件形式通知运维人员。
方案具体实施包括以下步骤:
1)假设有任务Task-1,任务在启动后,产生进程Process-1,同时任务状态变成运行状态Running,维护任务与进程映射关系(Task-1,Process-1),同时记录任务状态为Running;
2)设定最大重试次数N为10,重新周期P为1分钟(1min);
3)假设任务Task-1由于网络故障,导致运行失败,任务状态变成失败状态Failed,同时进程Process-1退出,即(Task-1,Process-1)映射关系已不存在;
4)监控程序检查有失败的任务Task-1,同时检查该任务的进程是否存在;
5)发现进程不存在,重新启动任务Task-1,由于网络没有及时恢复,每隔1min,再次尝试重新启动;在尝试5次重新启动后,Task-1启动成功,并生成新的进程Process-2,维护Task-1与新进程Process-2的映射关系(Task-1,Process-2),同时将任务状态Failed状态更改为Running状态。
下面举例对本发明实施例进行详细说明。
图3是根据本发明实施例的任务异常中断自动恢复机制的流程图,如图3所示,方案实施流程如图:
步骤301,用户设定最大尝试次数N和尝试周期P,转到步骤302;
步骤302,维护任务和进程之间的映射关系,同步任务的状态,转到步骤303;
步骤303,监控程序实时监控任务的进程和状态;
步骤S304,检测是否有异常中断任务,如果没有,则转到步骤303继续监控,如果有则转到步骤305;
步骤305,遍历中断任务,获取其任务状态;
步骤306,判断状态是运行还是失败,如果是Running则转到步骤307,如果是Failed,则转到步骤308;
步骤307,重新启动任务;
步骤308,检测任务进程;
步骤309,监控程序检测中断任务的进程是否存在,如果存在则转到步骤310,否则转到步骤307;
步骤310,杀掉无效的旧的任务进程,转到步骤307;
步骤311,判断重新启动的结果是否成功,如果成功转到步骤302,重新维护新的进程与任务的映射关系,同时同步其任务状态;否则继续步骤S312;
步骤S312,判断是否达到最大尝试次数N,如果未达到,则转到步骤307,如果达到,则转到步骤313;
步骤313,任务在尝试最大次数N之后,仍然无法启动,需要人工干预,查找具体原因。
通过本发明实施例的任务异常中断自动恢复机制,能够在任务出现异常中断情况及时进行恢复,避免集群机器资源的闲置和浪费,保证业务数据处理流程的正常进行,同时也减少了人工干预的工作量和工时,大大节约了人力成本。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例,还提供了一种中断任务恢复装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的中断任务恢复装置的框图,如图4所示,包括:
监控模块42,用于以第一预定时间周期监控目标任务的进程和状态;
确定模块44,用于根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
重启模块46,用于在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
第一创建模块48,用于在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
可选地,所述确定模块44包括:
检测子模块,用于检测是否存在与所述目标任务对应的第一目标进程;
第一确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
第二确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
第三确定子模块,用于在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
可选地,所述装置还包括:
杀死模块,用于在存在所述目标任务对应的所述第一目标进程的情况下,将所述第一目标进程杀死。
可选地,所述装置还包括:
转换模块,用于若所述目标任务的状态为失败状态,将所述目标任务的状态由所述失败状态转换为所述运行状态。
可选地,所述装置还包括:
接收模块,用于接收设置所述第二预定时间周期和所述预定重启次数的设置指令;
设置模块,用于根据所述设置指令设置所述第二预定时间周期和所述预定重启次数。
可选地,所述装置还包括:
检测模块,用于检测到所述目标任务启动;
第二创建模块,用于创建与所述目标任务对应的所述第一目标进程,将所述目标任务的状态转换为所述运行状态;
维护模块,用于维护所述目标任务与所述第一目标进程的映射关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,以第一预定时间周期监控目标任务的进程和状态;
S12,根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
S13,在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
S14,在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,以第一预定时间周期监控目标任务的进程和状态;
S12,根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
S13,在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
S14,在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中断任务恢复方法,其特征在于,包括:
以第一预定时间周期监控目标任务的进程和状态;
根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
2.根据权利要求1所述的方法,其特征在于,根据所述目标任务的进程和状态信息确定目标任务是否发生异常中断包括:
检测是否存在与所述目标任务对应的第一目标进程;
在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
3.根据权利要求2所述的方法,其特征在于,在以第二预定时间周期重新启动所述目标任务之前,所述方法还包括:
在存在所述目标任务对应的所述第一目标进程的情况下,将所述第一目标进程杀死。
4.根据权利要求2所述的方法,其特征在于,在以第二预定时间周期重新启动所述目标任务之后,所述方法还包括:
若所述目标任务的状态为失败状态,将所述目标任务的状态由所述失败状态转换为所述运行状态。
5.根据权利要求1所述的方法,其特征在于,在以第一预定时间周期监控目标任务的进程和状态之前,所述方法还包括:
接收设置所述第二预定时间周期和所述预定重启次数的设置指令;
根据所述设置指令设置所述第二预定时间周期和所述预定重启次数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在以第一预定时间周期监控任务的进行和状态之前,所述方法还包括:
检测到所述目标任务启动;
创建与所述目标任务对应的所述第一目标进程,将所述目标任务的状态转换为所述运行状态;
维护所述目标任务与所述第一目标进程的映射关系。
7.一种中断任务恢复装置,其特征在于,包括:
监控模块,用于以第一预定时间周期监控目标任务的进程和状态;
确定模块,用于根据所述目标任务的进程和状态确定目标任务是否发生异常中断;
重启模块,用于在所述目标任务发生异常中断的情况下,以第二预定时间周期重新启动所述目标任务;
第一创建模块,用于在所述目标任务在预定重启次数之内重启成功的情况下,创建与所述目标任务对应的第二目标进程,并维护所述目标任务与所述第二目标进程的映射关系。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
检测子模块,用于检测是否存在与所述目标任务对应的第一目标进程;
第一确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程的情况下,确定所述目标任务发生异常中断;
第二确定子模块,用于在检测结果为存在所述目标任务对应的所述第一目标进程且所述目标任务的状态为失败状态的情况下,确定所述目标任务发生异常中断;
第三确定子模块,用于在所述目标任务对应的所述第一目标进程存在且所述目标任务的状态为运行状态的情况下,确定所述目标任务未发生异常中断。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。
CN201910888051.5A 2019-09-19 2019-09-19 一种中断任务恢复方法及装置 Pending CN110618864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910888051.5A CN110618864A (zh) 2019-09-19 2019-09-19 一种中断任务恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910888051.5A CN110618864A (zh) 2019-09-19 2019-09-19 一种中断任务恢复方法及装置

Publications (1)

Publication Number Publication Date
CN110618864A true CN110618864A (zh) 2019-12-27

Family

ID=68923699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910888051.5A Pending CN110618864A (zh) 2019-09-19 2019-09-19 一种中断任务恢复方法及装置

Country Status (1)

Country Link
CN (1) CN110618864A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111589107A (zh) * 2020-05-14 2020-08-28 北京代码乾坤科技有限公司 虚拟模型的行为预测方法和装置
CN111597032A (zh) * 2020-05-26 2020-08-28 北京学之途网络科技有限公司 任务调度管理方法、装置及电子设备
CN112105044A (zh) * 2020-09-22 2020-12-18 紫光展锐(重庆)科技有限公司 一种驻留状态检测方法、装置及设备
CN113242437A (zh) * 2021-04-01 2021-08-10 联通(广东)产业互联网有限公司 一种rtsp协议视频无插件播放方法、***、装置及存储介质
CN114356533A (zh) * 2022-03-15 2022-04-15 北京仁科互动网络技术有限公司 微服务无感知发布***、方法、电子设备及存储介质
CN115794550A (zh) * 2022-11-23 2023-03-14 广州汽车集团股份有限公司 进程管理方法、装置、交通工具以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484555A (zh) * 2016-09-29 2017-03-08 广东欧珀移动通信有限公司 异常检测与恢复的方法及移动终端
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN107967189A (zh) * 2016-10-20 2018-04-27 南京途牛科技有限公司 异常任务重试方法及装置
CN108052430A (zh) * 2017-11-30 2018-05-18 努比亚技术有限公司 移动终端重启定位方法、移动终端及计算机可读存储介质
CN109725998A (zh) * 2018-12-26 2019-05-07 亚信科技(中国)有限公司 一种任务重试方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484555A (zh) * 2016-09-29 2017-03-08 广东欧珀移动通信有限公司 异常检测与恢复的方法及移动终端
CN107967189A (zh) * 2016-10-20 2018-04-27 南京途牛科技有限公司 异常任务重试方法及装置
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置
CN108052430A (zh) * 2017-11-30 2018-05-18 努比亚技术有限公司 移动终端重启定位方法、移动终端及计算机可读存储介质
CN109725998A (zh) * 2018-12-26 2019-05-07 亚信科技(中国)有限公司 一种任务重试方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111589107A (zh) * 2020-05-14 2020-08-28 北京代码乾坤科技有限公司 虚拟模型的行为预测方法和装置
CN111597032A (zh) * 2020-05-26 2020-08-28 北京学之途网络科技有限公司 任务调度管理方法、装置及电子设备
CN111597032B (zh) * 2020-05-26 2024-03-26 北京明略昭辉科技有限公司 任务调度管理方法、装置及电子设备
CN112105044A (zh) * 2020-09-22 2020-12-18 紫光展锐(重庆)科技有限公司 一种驻留状态检测方法、装置及设备
CN112105044B (zh) * 2020-09-22 2022-08-02 紫光展锐(重庆)科技有限公司 一种驻留状态检测方法、装置及设备
CN113242437A (zh) * 2021-04-01 2021-08-10 联通(广东)产业互联网有限公司 一种rtsp协议视频无插件播放方法、***、装置及存储介质
CN114356533A (zh) * 2022-03-15 2022-04-15 北京仁科互动网络技术有限公司 微服务无感知发布***、方法、电子设备及存储介质
CN114356533B (zh) * 2022-03-15 2022-06-14 北京仁科互动网络技术有限公司 微服务无感知发布***、方法、电子设备及存储介质
CN115794550A (zh) * 2022-11-23 2023-03-14 广州汽车集团股份有限公司 进程管理方法、装置、交通工具以及存储介质
CN115794550B (zh) * 2022-11-23 2024-04-02 广州汽车集团股份有限公司 进程管理方法、装置、交通工具以及存储介质

Similar Documents

Publication Publication Date Title
CN110618864A (zh) 一种中断任务恢复方法及装置
CN109714202B (zh) 一种客户端离线原因判别方法和集群式安全管理***
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
JP2003022258A (ja) サーバーのバックアップシステム
CN110830283B (zh) 故障检测方法、装置、设备和***
US7093013B1 (en) High availability system for network elements
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN106330523A (zh) 一种集群服务器容灾***、方法和服务器节点
CN104486108A (zh) 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置***
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
CN115002013B (zh) 运行状态的确定方法、装置、存储介质及电子装置
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
CN113434327A (zh) 一种故障处理***、方法、设备和存储介质
CN112052095B (zh) 一种分布式高可用的大数据挖掘任务调度***
CN116055285B (zh) 一种工控***的进程管理方法及***
CN114615310A (zh) 一种维护tcp连接的方法、装置及电子设备
JP6421516B2 (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
CN113765690A (zh) 集群切换方法、***、装置、终端、服务器及存储介质
CN115686831A (zh) 基于分布式***的任务处理方法及装置、设备及介质
CN114116178A (zh) 集群框架任务管理方法以及相关装置
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN115705259A (zh) 故障处理方法、相关设备及存储介质
KR100832890B1 (ko) 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법
CN111083003A (zh) 监控***及方法、存储介质、处理器
CN111464357A (zh) 资源配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191227

RJ01 Rejection of invention patent application after publication