CN106789141A - 一种网关设备故障处理方法及装置 - Google Patents

一种网关设备故障处理方法及装置 Download PDF

Info

Publication number
CN106789141A
CN106789141A CN201510827711.0A CN201510827711A CN106789141A CN 106789141 A CN106789141 A CN 106789141A CN 201510827711 A CN201510827711 A CN 201510827711A CN 106789141 A CN106789141 A CN 106789141A
Authority
CN
China
Prior art keywords
task
calculating task
gateway device
allocated
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510827711.0A
Other languages
English (en)
Other versions
CN106789141B (zh
Inventor
曾文秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510827711.0A priority Critical patent/CN106789141B/zh
Priority to PCT/CN2016/105821 priority patent/WO2017088681A1/zh
Publication of CN106789141A publication Critical patent/CN106789141A/zh
Priority to US15/986,742 priority patent/US10831622B2/en
Application granted granted Critical
Publication of CN106789141B publication Critical patent/CN106789141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网关设备故障处理方法。当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务,根据下发计算任务时的参数筛选待分配计算任务,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将待分配计算任务调度至当前状态为正常的其他网关设备,最后恢复待分配计算任务的任务状态,并通过其他网关设备执行待分配计算任务。从而避免了由于网关设备发生故障而导致的计算任务失败问题,提高了整体的计算任务执行效率以及保障了***的稳定性。

Description

一种网关设备故障处理方法及装置
技术领域
本申请涉及通信技术领域,特别涉及一种网关设备故障处理方法。本申请同时还涉及一种网关设备故障处理装置。
背景技术
随着互联网的不断发展,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
对于目前互联网的大中型服务提供商或是平台运营商来说,为了能够通过大数据研究用户的行为,其一般都会部署专用的数据管理平台,这些数据管理平台一般由多个服务器组成集群共同处理数据,与服务器集群连接的同时还有网关设备(又称为网关设备),网关设备负责将相关的数据分析计算任务提交至服务器集群。
由于客观因素,网关设备有时会在数据分析过程中出现故障,此时需要进行Failover处理(失效转移)处理。Failover处理是一种备份操作模式,当主要组件由于失效或预定关机时间的原因而无法工作时,这种模式中的***组件(比如处理机、服务器、网络或数据库)的功能被转嫁到二级***组件。在针对数据进行分析的过程中,网关设备可能出现的故障情形包括以下几种:
情形1、网关设备发生宕机
在该情况下,网关设备将进行重启,由计算任务分发主控机进行Failover处理。
情形2、网关设备与***断开网络,但是网关设备本身的进程尚存活:
在该情况下,网关设备需要保证结束已经启动的进程,随后由计算任务分发主控机进行Failover处理。
情形3、网关设备的进程发生崩溃
这种情况下,需要使用一种机制保证能够结束网关设备上的进程,计算任务分发主控机进行Failover处理。
针对上述若干种故障情形,现有技术中所采取的Failover处理方案如图1所示,包括以下步骤:
S101,网关设备发生故障(包括宕机、断网、进程崩溃等);
S102,触发Failover处理;
S103,结束当前网关设备上的计算任务;
S104,结束当前网关设备提交到计算集群的作业;
S105,将计算任务重新调度到另一台网关设备;
S106,计算任务重新运行。
发明人在实现本申请的过程中发现,现有技术在当网关设备机器出现宕机、断网、进程崩溃等故障时,计算任务Failover处理的代价非常大,需要重头开始运行整个计算任务,既浪费计算资源,又延迟了计算任务本身的运行时间,从而导致效率十分低下。
发明内容
本发明提供了一种网关设备故障处理方法,用以在网关设备发生故障时保证已运行计算任务的正常运行,从而节省计算资源以及提高计算任务处理效率。该方法包括以下步骤:
当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;
根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理;
结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;
恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
优选地,当检测到网关设备发生故障时,获取发生故障的网关设备正在执行的计算任务,具体为:
对当前各网关设备在启动时注册的临时文件进行检测;
当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
优选地,根据下发所述计算任务时的参数筛选待分配计算任务,具体为:
确定所述参数的Failover处理取值是否为有效状态;
若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;
若所述Failover处理取值为无效状态,将所述计算任务置错。
优选地,结束发生故障的网关设备当前正在运行的计算任务,具体为:
若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
优选地,在通过所述其他网关设备执行所述待分配计算任务之后,还包括:
查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;
若所述待分配计算任务处于运行状态,获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务运行失败,重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务已运行结束,提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
相应地,本申请还提出了一种网关设备故障处理装置,包括:
获取模块,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;
筛选模块,根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行Failover处理;
结束模块,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;
恢复模块,恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
优选地,所述获取模块具体用于:
对当前各网关设备在启动时注册的临时文件进行检测;
当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
优选地,所述筛选模块具体用于:
确定所述参数的Failover处理取值是否为有效状态;
若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;
若所述Failover处理取值为无效状态,将所述计算任务置错。
优选地,所述结束模块具体用于:
若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
优选地,还包括:
查询模块,查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;
若所述待分配计算任务处于运行状态,所述查询模块获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务运行失败,所述查询模块重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务已运行结束,所述查询模块提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
由此可见,通过应用本申请的技术方案,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务,根据下发计算任务时的参数筛选待分配计算任务,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将待分配计算任务调度至当前状态为正常的其他网关设备,最后恢复待分配计算任务的任务状态,并通过其他网关设备执行待分配计算任务。从而避免了由于网关设备发生故障而导致的计算任务失败问题,提高了整体的计算任务执行效率以及保障了***的稳定性。
附图说明
图1为现有技术中针对网关设备进行Failover处理的方案示意图;
图2为本申请提出的一种网关设备故障处理方法的流程示意图;
图3为本申请具体实施例中进行Failover和续跑的总体流程图;
图4为本申请具体实施例中进行Failover的状态图;
图5为本申请具体实施例提出的一种网关设备故障处理装置的结构示意图。
具体实施方式
如背景技术所述,现有技术中的数据处理/调度平台往往会因为单台的网关设备发生宕机、断网、进程崩溃等故障而导致计算任务失败的情况发生,此时需要重启计算任务,极大地降低了数据处理效率。为此本申请提出了一种网关设备故障处理方法。该方法可以应用在由网关设备运行数据计算任务的数据处理/调度平台中,具体计算任务类型或是平台类型的不同并不影响本申请的保护范围。
如图2所示,为本申请提出的一种网关设备故障处理方法的流程示意图,包括如下步骤:
S201,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务。
基于网关设备运行计算任务的特性,在本申请的优选实施例中,将实时地对当前各网关设备在启动时注册的临时文件进行检测;当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
需要说明的是,以上判断网关设备发生故障的方式仅为本申请提出的一种优选事实方案,技术人员也可以通过额外地设置其他的检测设备或是检测方法对网关设备进行实时检测,在此基础上的其他变型或是改进均属于本申请的保护范围。
S202,根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理。
由于本申请旨在当网络设备发生故障时保证其中的计算任务不发生失败重启。因此本申请预先在向网关设备下发各个计算任务时,将为其配置一额外的参数,该参数与各个计算任务一一对应,用于指示该计算任务在面临网关设备故障的情况时是否需要进行Failover处理。因此在本申请的一个优选实施例中,当需要基于参数筛选待分配计算任务时,可确定参数的Failover处理取值是否为有效状态;若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;若所述Failover处理取值为无效状态,将所述计算任务置错,即针对该计算任务不再进行后续处理。
S203,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备。
在某些故障情况下,网关设备并非是出于完全不能运行的状态,此时其中的某些计算任务尚在运行,因此为了保证后续重新分配任务后不会发生冲突,需要将发生故障的网关设备当前正在运行的计算任务全部进行关闭处理。
在本申请的优选实施例中,基于网关设备故障类型的不同,关闭的方式亦存在以下区别:
(1)若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
(2)若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
以上尽管仅以两种故障情况进行了说明,技术人员可以根据实际的具体故障类型采取相应的进程结束方式。此外调度策略也可以按照实际的情况进行设置,例如通过负载均衡选择其他网关设备,或者是选择备份的正常网关设备,这些都属于本申请的保护范围。
S204,恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
在确定了用于处理待分配计算任务的其他网关设备且将计算任务分配完成后,即恢复待分配计算任务的任务状态以及令其重新运行。该过程可以通过其他网关设备之间的指示信令实现,也可由网关设备自发运行,这些均属于本申请的保护范围。
此外,为了确保待分配计算任务能够正常完成,本申请优选实施例在该步骤之后,主动或是按照周期查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行,并基于以下查询结果处理:
(1)若所述待分配计算任务处于运行状态,获取所述待分配计算任务的任务状态和计算任务日志;
(2)若所述待分配计算任务运行失败,重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
(3)若所述待分配计算任务已运行结束,提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
通过采用上述技术方案,可在网关设备出现宕机、断网、进程崩溃等故障后及时的恢复发生故障时的任务状态,避免任务失败,从而提高任务处理效率以及保证***稳定性。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。在目前的大型数据仓库中,一个典型的Etl任务会包含多条sql(任务),当作业正在运行sql2的时候若网关设备发生宕机将会触发failover机制。如图3所示,为本申请具体实施例在进行failover后续跑任务的总体流程图,包括如下流程:
一、网关设备发生故障(宕机、断网、进程崩溃)
当网关设备发生宕机、断网、进程crash等异常情况时,网关设备就会与程序协调平台失去连接,以图4中的步骤1和步骤2为例,程序协调平台会在session时间到期后删除node启动时注册的临时文件。
二、Failover机制触发
任务分发平台一直在监控/nodes目录,会感知到临时文件的消失,进而触发网关设备的failover机制。任务分发平台从程序协调平台获取被Failover的网关设备上的所有正在执行的任务。
针对每个任务是否要执行failover操作,是由下发任务的参数决定的:当failover=0,任务分发平台直接把任务置错,并回调给上游***。当failover=1,任务分发平台把任务重新放到优先级最高的队列(priority=1),等待调度器重新分配。
三、关闭当前网关设备的任务
1)、网关设备宕机,网关设备上的任务自然全部被kill,不需要额外kill
2)、网关设备断网,网关设备上的长驻进程通过程序协调平台感知,然后遍历机器上的所有进程,并且逐个关闭。
3)、网关设备长驻进程crash,长驻进程启动的时候,通过一个脚本杀掉网关设备启动的任务。
四、任务重新调度到新的网关设备
该具体实施例中,根据cpu、内存、带宽等综合情况把任务调度到负载最低的机器。
五、任务状态恢复、续跑
当任务被重新调度到新的网关设备后,新的任务进程被启动。
1)、任务启动后,从程序协调平台查询任务状态,后续以当前正在运行sql2进行说明。
2)、查询sql2是否还在服务器集群运行
从服务器集群获取某个sql的执行状态,从返回结果中可以获取提交sql的网关设备的标识以及sql的运行状态,基于状态不同进行不同的处理:
a)、如果sql2还在继续运行,持续获取任务状态和日志
b)、如果sql2运行失败,重新提交sql2,并获取任务状态和日志
c)、如果sql2已经运行结束(成功结束),提交sql3,并获取任务状态和日志。
通过上述具体实施例的方案,当触发failover机制时,整个任务被迁移到另外一台网关设备时,能够从sql2开始接着运行,保证了重要任务不因设备故障而失败。
为达到以上技术目的,本申请还提出了一种网关设备故障处理装置,如图5所示,包括:
获取模块510,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;
筛选模块520,根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行Failover处理;
结束模块530,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;
恢复模块540,恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
在具体的应用场景中,所述获取模块具体用于:
对当前各网关设备在启动时注册的临时文件进行检测;
当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
在具体的应用场景中,所述筛选模块具体用于:
确定所述参数的Failover处理取值是否为有效状态;
若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;
若所述Failover处理取值为无效状态,将所述计算任务置错。
在具体的应用场景中,所述结束模块具体用于:
若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
在具体的应用场景中,还包括:
查询模块,查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;
若所述待分配计算任务处于运行状态,所述查询模块获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务运行失败,所述查询模块重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务已运行结束,所述查询模块提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
通过应用本申请的技术方案,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务,根据下发计算任务时的参数筛选待分配计算任务,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将待分配计算任务调度至当前状态为正常的其他网关设备,最后恢复待分配计算任务的任务状态,并通过其他网关设备执行待分配计算任务。从而避免了由于网关设备发生故障而导致的计算任务失败问题,提高了整体的计算任务执行效率以及保障了***的稳定性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种网关设备故障处理方法,其特征在于,包括:
当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;
根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行失效转移Failover处理;
结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;
恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
2.如权利要求1所述的方法,其特征在于,当检测到网关设备发生故障时,获取发生故障的网关设备正在执行的计算任务,具体为:
对当前各网关设备在启动时注册的临时文件进行检测;
当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
3.如权利要求1所述的方法,其特征在于,根据下发所述计算任务时的参数筛选待分配计算任务,具体为:
确定所述参数的Failover处理取值是否为有效状态;
若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;
若所述Failover处理取值为无效状态,将所述计算任务置错。
4.如权利要求1所述的方法,其特征在于,结束发生故障的网关设备当前正在运行的计算任务,具体为:
若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
5.如权利要求1所述的方法,其特征在于,在通过所述其他网关设备执行所述待分配计算任务之后,还包括:
查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;
若所述待分配计算任务处于运行状态,获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务运行失败,重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务已运行结束,提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
6.一种网关设备故障处理装置,其特征在于,包括:
获取模块,当检测到网关设备发生故障时,获取发生故障的网关设备当前正在执行的计算任务;
筛选模块,根据下发所述计算任务时的参数筛选待分配计算任务,所述参数用于指示所述计算任务是否需要进行Failover处理;
结束模块,结束发生故障的网关设备当前正在运行的计算任务,并根据预设的调度策略将所述待分配计算任务调度至当前状态为正常的其他网关设备;
恢复模块,恢复所述待分配计算任务的任务状态,并通过所述其他网关设备执行所述待分配计算任务。
7.如权利要求6所述的装置,其特征在于,所述获取模块具体用于:
对当前各网关设备在启动时注册的临时文件进行检测;
当有临时文件被删除时,将与被删除临时文件对应的网关设备作为所述网关设备,并获取所述网关设备当前正在执行的计算任务。
8.如权利要求6所述的装置,其特征在于,所述筛选模块具体用于:
确定所述参数的Failover处理取值是否为有效状态;
若所述Failover处理取值为有效状态,将所述计算任务作为所述待分配计算任务置于优先级最高的队列;
若所述Failover处理取值为无效状态,将所述计算任务置错。
9.如权利要求6所述的装置,其特征在于,所述结束模块具体用于:
若所述网关设备当前的故障类型为断网,遍历所述网关设备当前所有的进程,并结束所述网关设备的长驻进程;
若所述网关设备当前的故障类型为进程崩溃,将所述网关设备启动的长驻进程结束。
10.如权利要求1所述的方法,其特征在于,还包括:
查询模块,查询所述待分配计算任务的任务状态,以及所述待分配计算任务是否在所述其他网关设备运行;
若所述待分配计算任务处于运行状态,所述查询模块获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务运行失败,所述查询模块重新提交所述待分配计算任务,并获取所述待分配计算任务的任务状态和计算任务日志;
若所述待分配计算任务已运行结束,所述查询模块提交在所述待分配计算任务之后的其他计算任务,并获取所述其他计算任务的任务状态和计算任务日志。
CN201510827711.0A 2015-11-24 2015-11-24 一种网关设备故障处理方法及装置 Active CN106789141B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510827711.0A CN106789141B (zh) 2015-11-24 2015-11-24 一种网关设备故障处理方法及装置
PCT/CN2016/105821 WO2017088681A1 (zh) 2015-11-24 2016-11-15 一种网关设备故障处理方法及装置
US15/986,742 US10831622B2 (en) 2015-11-24 2018-05-22 Method and apparatus for processing gateway device fault

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510827711.0A CN106789141B (zh) 2015-11-24 2015-11-24 一种网关设备故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN106789141A true CN106789141A (zh) 2017-05-31
CN106789141B CN106789141B (zh) 2020-12-11

Family

ID=58763018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510827711.0A Active CN106789141B (zh) 2015-11-24 2015-11-24 一种网关设备故障处理方法及装置

Country Status (3)

Country Link
US (1) US10831622B2 (zh)
CN (1) CN106789141B (zh)
WO (1) WO2017088681A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117311A (zh) * 2018-08-22 2019-01-01 郑州云海信息技术有限公司 一种故障恢复方法及装置
CN109710463A (zh) * 2018-12-27 2019-05-03 亚信科技(中国)有限公司 一种任务调度方法及装置
CN110245009A (zh) * 2019-05-14 2019-09-17 平安科技(深圳)有限公司 周期任务分配方法、装置、计算机设备和存储介质
CN110753002A (zh) * 2019-09-29 2020-02-04 北京浪潮数据技术有限公司 流量调度方法及装置
US10831622B2 (en) 2015-11-24 2020-11-10 Alibaba Group Holding Limited Method and apparatus for processing gateway device fault
CN113037562A (zh) * 2021-03-24 2021-06-25 中国建设银行股份有限公司 一种网关故障评估方法、装置及服务器
CN113852526A (zh) * 2021-08-24 2021-12-28 天翼数字生活科技有限公司 基于WiFi的家庭网络诊断方法和***

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737182A (zh) * 2018-05-22 2018-11-02 平安科技(深圳)有限公司 ***异常的处理方法及***
CN111585887B (zh) * 2020-03-18 2022-07-15 平安科技(深圳)有限公司 基于多个网络的通信方法、装置、电子设备及存储介质
CN111935752B (zh) * 2020-08-28 2024-01-02 广州市百果园信息技术有限公司 一种网关接入方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614936A (zh) * 2003-11-06 2005-05-11 西门子医疗健康服务公司 处理设备管理***
CN102098096A (zh) * 2009-12-11 2011-06-15 中兴通讯股份有限公司 一种无源光网络中的故障检测方法及***
US8127174B1 (en) * 2005-02-28 2012-02-28 Symantec Operating Corporation Method and apparatus for performing transparent in-memory checkpointing
CN102385536A (zh) * 2010-08-27 2012-03-21 中兴通讯股份有限公司 一种实现并行计算的方法及***
CN102411520A (zh) * 2011-09-21 2012-04-11 电子科技大学 一种基于数据单元的地震数据的灾难恢复方法
CN104461752A (zh) * 2014-11-21 2015-03-25 浙江宇视科技有限公司 一种两级故障容错的多媒体分布式任务处理方法
CN104536770A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种支持并行作业断点恢复的作业提交和恢复方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152179B1 (en) * 2002-09-19 2006-12-19 Cisco Technology, Inc. IP redundancy with improved failover notification
CN101335690A (zh) * 2007-06-29 2008-12-31 朗迅科技公司 用于ip通信网络中的无缝冗余***
US8135981B1 (en) * 2008-06-30 2012-03-13 Symantec Corporation Method, apparatus and system to automate detection of anomalies for storage and replication within a high availability disaster recovery environment
US7886196B2 (en) * 2008-12-01 2011-02-08 International Business Machines Corporation Fast detection of process outages
US8296419B1 (en) * 2009-03-31 2012-10-23 Amazon Technologies, Inc. Dynamically modifying a cluster of computing nodes used for distributed execution of a program
US8719415B1 (en) * 2010-06-28 2014-05-06 Amazon Technologies, Inc. Use of temporarily available computing nodes for dynamic scaling of a cluster
US9009196B2 (en) * 2011-03-16 2015-04-14 Microsoft Technology Licensing, Llc Discovery and client routing to database nodes
CN102801542A (zh) * 2011-05-23 2012-11-28 镇江金钛软件有限公司 一种基于通讯网关的通讯冗余容错***
US8856583B1 (en) * 2012-01-20 2014-10-07 Google Inc. Failover operation on a replicated distributed database system while maintaining access invariance
CN106789141B (zh) 2015-11-24 2020-12-11 阿里巴巴集团控股有限公司 一种网关设备故障处理方法及装置
US10146653B2 (en) * 2016-09-21 2018-12-04 Dell Products, L.P. Automated system-level failure and recovery
US10324811B2 (en) * 2017-05-09 2019-06-18 Vmware, Inc Opportunistic failover in a high availability cluster

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614936A (zh) * 2003-11-06 2005-05-11 西门子医疗健康服务公司 处理设备管理***
US8127174B1 (en) * 2005-02-28 2012-02-28 Symantec Operating Corporation Method and apparatus for performing transparent in-memory checkpointing
CN102098096A (zh) * 2009-12-11 2011-06-15 中兴通讯股份有限公司 一种无源光网络中的故障检测方法及***
CN102385536A (zh) * 2010-08-27 2012-03-21 中兴通讯股份有限公司 一种实现并行计算的方法及***
CN102411520A (zh) * 2011-09-21 2012-04-11 电子科技大学 一种基于数据单元的地震数据的灾难恢复方法
CN104461752A (zh) * 2014-11-21 2015-03-25 浙江宇视科技有限公司 一种两级故障容错的多媒体分布式任务处理方法
CN104536770A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种支持并行作业断点恢复的作业提交和恢复方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10831622B2 (en) 2015-11-24 2020-11-10 Alibaba Group Holding Limited Method and apparatus for processing gateway device fault
CN109117311A (zh) * 2018-08-22 2019-01-01 郑州云海信息技术有限公司 一种故障恢复方法及装置
CN109710463A (zh) * 2018-12-27 2019-05-03 亚信科技(中国)有限公司 一种任务调度方法及装置
CN110245009A (zh) * 2019-05-14 2019-09-17 平安科技(深圳)有限公司 周期任务分配方法、装置、计算机设备和存储介质
CN110245009B (zh) * 2019-05-14 2024-03-08 平安科技(深圳)有限公司 周期任务分配方法、装置、计算机设备和存储介质
CN110753002A (zh) * 2019-09-29 2020-02-04 北京浪潮数据技术有限公司 流量调度方法及装置
CN113037562A (zh) * 2021-03-24 2021-06-25 中国建设银行股份有限公司 一种网关故障评估方法、装置及服务器
CN113852526A (zh) * 2021-08-24 2021-12-28 天翼数字生活科技有限公司 基于WiFi的家庭网络诊断方法和***

Also Published As

Publication number Publication date
CN106789141B (zh) 2020-12-11
WO2017088681A1 (zh) 2017-06-01
US10831622B2 (en) 2020-11-10
US20180267869A1 (en) 2018-09-20

Similar Documents

Publication Publication Date Title
CN106789141A (zh) 一种网关设备故障处理方法及装置
US9053166B2 (en) Dynamically varying the number of database replicas
US9122595B2 (en) Fault tolerance for complex distributed computing operations
Yigitbasi et al. Analysis and modeling of time-correlated failures in large-scale distributed systems
WO2019182670A1 (en) Endpoint process state collector
CN102857371B (zh) 一种面向集群***的动态配置管理方法
WO2016169166A1 (zh) 虚拟机调度方法和装置
US11537943B2 (en) Data center disaster circuit breaker utilizing machine learning
CN110795284B (zh) 一种数据恢复方法、装置、设备及可读存储介质
CN110190991B (zh) 一种多应用场景下的分布式流处理***的容错方法
CN112199178B (zh) 一种基于轻量化容器的云服务动态调度方法及***
EP3809269B1 (en) Monitoring a distributed application server environment
CN111221700B (zh) 一种集群节点状态监控方法、装置、设备及可读存储介质
CN107402851A (zh) 一种数据恢复控制方法及装置
Chalermarrewong et al. The design of a fault management framework for cloud
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN103326880A (zh) Genesys呼叫***高可用性云计算监控***及方法
CN106959885A (zh) 一种虚拟机高可用实现***及其实现方法
CN108154343B (zh) 一种企业级信息***的应急处理方法及***
Lee et al. Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop
CN107122246B (zh) 智能数值模拟作业管理与反馈方法
CN104516778B (zh) 一种多任务环境下进程检查点的保存与恢复***及方法
US20200097308A1 (en) Managing virtualized computing resources in a cloud computing environment
CN106708656B (zh) 用户操作的恢复方法和装置
Nhway Reliability modeling and analysis of application servers using stochastic Petri Net Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant