CN111181774A - 一种MapReduce任务的高可用方法、***、终端及存储介质 - Google Patents

一种MapReduce任务的高可用方法、***、终端及存储介质 Download PDF

Info

Publication number
CN111181774A
CN111181774A CN201911283083.9A CN201911283083A CN111181774A CN 111181774 A CN111181774 A CN 111181774A CN 201911283083 A CN201911283083 A CN 201911283083A CN 111181774 A CN111181774 A CN 111181774A
Authority
CN
China
Prior art keywords
node
execution
standby
task
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911283083.9A
Other languages
English (en)
Inventor
道玉明
张东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911283083.9A priority Critical patent/CN111181774A/zh
Publication of CN111181774A publication Critical patent/CN111181774A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种MapReduce任务的高可用方法、***、终端及存储介质,包括:从集群中选取备用节点并存储所述备用节点;监控所述MapReduce任务的执行节点状态;若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。本发明可以确保任务正常执行,不被中断,即节约人力资源,且保证产品质量,且整个过程有log作为记录,后续复盘比较快捷方便。

Description

一种MapReduce任务的高可用方法、***、终端及存储介质
技术领域
本发明涉及大数据Insight平台技术领域,具体涉及一种MapReduce任务的高可用方法、***、终端及存储介质。
背景技术
在大数据Insight平台中,MapReduce是其核心组件之一。Insight若实现分布需要包括两部分,一个是分布式文件***HDFS,一个是分布式计算框架MapReduce,两者缺一不可。Insight组件执行任务所依赖的关键就是MapReduce,所以MapReduce对于大数据平台来说是重中之重。当前MapReduce任务在数据节点执行,但数据节点有宕机、网络不可用、性能不佳、等多种情况会影响任务执行导致执行失败,宕机则无日志可查的风险;无法追溯原因,浪费人力、时间,浪费集群资源。
发明内容
针对现有技术的上述不足,本发明提供一种MapReduce任务的高可用方法、***、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种MapReduce任务的高可用方法,包括:
从集群中选取备用节点并存储所述备用节点;
监控所述MapReduce任务的执行节点状态;
若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
进一步的,所述从集群中选取备用节点,包括:
采集集群所有节点的性能参数;
选取多个性能参数最优的空闲节点作为备用节点,所述备用节点的数量不少于执行节点数量。
进一步的,所述监控MapReduce任务的执行节点状态,包括:
获取执行节点性能参数,所述性能参数为I/O、Job、磁盘、CPU、网络、内存、电源和运行时间的加权求和;
判断所述执行节点的性能参数是否超过预设阈值:
若是,则判定所述执行节点状态异常。
进一步的,所述方法还包括:
保存执行节点的日志存储路径。
实时监控并保存执行节点的任务执行进度。
进一步的,所述将异常执行节点的任务转发至备用节点,包括:
将异常执行节点的任务执行进度和任务数据转发至备用节点;
将异常执行节点的日志存储路径设置为所述备用节点的日志存储路径。
第二方面,本发明提供一种MapReduce任务的高可用***,包括:
备用选取单元,配置用于从集群中选取备用节点并存储所述备用节点;
状态监控单元,配置用于监控所述MapReduce任务的执行节点状态;
任务转发单元,配置用于若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
进一步的,所述备用选取单元包括:
参数采集模块,配置用于采集集群所有节点的性能参数;
节点筛选模块,配置用于选取多个性能参数最优的空闲节点作为备用节点,所述备用节点的数量不少于执行节点数量。
进一步的,所述节点监控单元包括:
参数计算模块,配置用于获取执行节点性能参数,所述性能参数为I/O、Job、磁盘、CPU、网络、内存、电源和运行时间的加权求和;
参数判断模块,配置用于判断所述执行节点的性能参数是否超过预设阈值;
异常判定模块,配置用于若所述执行节点的性能参数超过预设阈值,则判定所述执行节点状态异常。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的MapReduce任务的高可用方法、***、终端及存储介质,通过从集群选取备用节点,并实时监控MapReduce任务的执行节点的状态,一旦发生执行节点状态异常则将异常执行节点的任务转移至备用节点,实现MapReduce任务的高可用。本发明可以确保任务正常执行,不被中断,即节约人力资源,且保证产品质量,且整个过程有log作为记录,后续复盘比较快捷方便。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的***的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种MapReduce任务的高可用***。
如图1所示,该方法100包括:
步骤110,从集群中选取备用节点并存储所述备用节点;
步骤120,监控所述MapReduce任务的执行节点状态;
步骤130,若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
为了便于对本发明的理解,下面以本发明MapReduce任务的高可用方法的原理,结合实施例中对MapReduce任务进行调度管理的过程,对本发明提供的MapReduce任务的高可用方法做进一步的描述。
具体的,所述MapReduce任务的高可用方法包括:
S1、从集群中选取备用节点并存储所述备用节点。
任务数据节点推荐模块:保存MapReduce任务数据节点推荐模块推荐的数据节点作为备用节点,所推荐节点为性能最优节点。且选取的备用节点数量不少于当前执行MapReduce任务的节点数总和。
本实施例设置的备用节点数量是最佳的实施方式,在其他实施方式中也可以根据需要自行设置备用节点数量。
S2、监控所述MapReduce任务的执行节点状态。
监控当前MapReduce任务执行节点的I/O、Job、磁盘、CPU、网络、内存、电源、运行时间各项指标,利用上述采集的各项指标参数计算执行节点的综合参数,计算方法为对各项指标参数进行加权求和,各指标参数的权值根据各项指标对服务器执行任务的性能需求进行设定。当执行节点的综合参数超出设定阈值则判定该执行节点的状态异常。
S3、若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
保存当前所有MapReduce任务执行日志的路径,提供当MapReduce任务转发模块触发后,MapReduce任务切换数据节点执行后,日志可继续在此路径下写入。
监控当前任务执行进度,保证MapReduce任务转发模块执行后,任务继续执行而不是从头开始执行。
当步骤S2中监控到存在异常状态的执行节点后,随机选取一个备用节点,将异常状态的执行节点的任务执行进度和任务数据转发至选取的备用节点并将异常执行节点的日志存储路径设置为该备用节点的日志存储路径。控制备用节点继续执行异常状态执行节点的任务。
如图2示,该***200包括:
备用选取单元210,配置用于从集群中选取备用节点并存储所述备用节点;
状态监控单元220,配置用于监控所述MapReduce任务的执行节点状态;
任务转发单元230,配置用于若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
可选地,作为本发明一个实施例,所述备用选取单元包括:
参数采集模块,配置用于采集集群所有节点的性能参数;
节点筛选模块,配置用于选取多个性能参数最优的空闲节点作为备用节点,所述备用节点的数量不少于执行节点数量。
可选地,作为本发明一个实施例,所述节点监控单元包括:
参数计算模块,配置用于获取执行节点性能参数,所述性能参数为I/O、Job、磁盘、CPU、网络、内存、电源和运行时间的加权求和;
参数判断模块,配置用于判断所述执行节点的性能参数是否超过预设阈值;
异常判定模块,配置用于若所述执行节点的性能参数超过预设阈值,则判定所述执行节点状态异常。
图3为本发明实施例提供的一种终端***300的结构示意图,该终端***300可以用于执行本发明实施例提供的MapReduce任务的高可用方法。
其中,该终端***300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过从集群选取备用节点,并实时监控MapReduce任务的执行节点的状态,一旦发生执行节点状态异常则将异常执行节点的任务转移至备用节点,实现MapReduce任务的高可用。本发明可以确保任务正常执行,不被中断,即节约人力资源,且保证产品质量,且整个过程有log作为记录,后续复盘比较快捷方便,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的***和方法,可以通过其它的方式实现。例如,以上所描述的***实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,***或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种MapReduce任务的高可用方法,其特征在于,包括:
从集群中选取备用节点并存储所述备用节点;
监控所述MapReduce任务的执行节点状态;
若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
2.根据权利要求1所述的方法,其特征在于,所述从集群中选取备用节点,包括:
采集集群所有节点的性能参数;
选取多个性能参数最优的空闲节点作为备用节点,所述备用节点的数量不少于执行节点数量。
3.根据权利要求1所述的方法,其特征在于,所述监控MapReduce任务的执行节点状态,包括:
获取执行节点性能参数,所述性能参数为I/O、Job、磁盘、CPU、网络、内存、电源和运行时间的加权求和;
判断所述执行节点的性能参数是否超过预设阈值:
若是,则判定所述执行节点状态异常。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
保存执行节点的日志存储路径。
实时监控并保存执行节点的任务执行进度。
5.根据权利要求4所述的方法,其特征在于,所述将异常执行节点的任务转发至备用节点,包括:
将异常执行节点的任务执行进度和任务数据转发至备用节点;
将异常执行节点的日志存储路径设置为所述备用节点的日志存储路径。
6.一种MapReduce任务的高可用***,其特征在于,包括:
备用选取单元,配置用于从集群中选取备用节点并存储所述备用节点;
状态监控单元,配置用于监控所述MapReduce任务的执行节点状态;
任务转发单元,配置用于若监控到所述执行节点状态异常,则将异常执行节点的任务转发至备用节点。
7.根据权利要求6所述的***,其特征在于,所述备用选取单元包括:
参数采集模块,配置用于采集集群所有节点的性能参数;
节点筛选模块,配置用于选取多个性能参数最优的空闲节点作为备用节点,所述备用节点的数量不少于执行节点数量。
8.根据权利要求6所述的***,其特征在于,所述节点监控单元包括:
参数计算模块,配置用于获取执行节点性能参数,所述性能参数为I/O、Job、磁盘、CPU、网络、内存、电源和运行时间的加权求和;
参数判断模块,配置用于判断所述执行节点的性能参数是否超过预设阈值;
异常判定模块,配置用于若所述执行节点的性能参数超过预设阈值,则判定所述执行节点状态异常。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201911283083.9A 2019-12-13 2019-12-13 一种MapReduce任务的高可用方法、***、终端及存储介质 Withdrawn CN111181774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911283083.9A CN111181774A (zh) 2019-12-13 2019-12-13 一种MapReduce任务的高可用方法、***、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911283083.9A CN111181774A (zh) 2019-12-13 2019-12-13 一种MapReduce任务的高可用方法、***、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111181774A true CN111181774A (zh) 2020-05-19

Family

ID=70648855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911283083.9A Withdrawn CN111181774A (zh) 2019-12-13 2019-12-13 一种MapReduce任务的高可用方法、***、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111181774A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813565A (zh) * 2020-09-15 2020-10-23 北京东方通科技股份有限公司 平衡网格计算环境中的工作负荷的方法和***
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN113127310A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN114039836A (zh) * 2021-11-05 2022-02-11 光大科技有限公司 Exporter采集器的故障处理方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN111813565A (zh) * 2020-09-15 2020-10-23 北京东方通科技股份有限公司 平衡网格计算环境中的工作负荷的方法和***
CN113127310A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN113127310B (zh) * 2021-04-30 2023-09-01 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN114039836A (zh) * 2021-11-05 2022-02-11 光大科技有限公司 Exporter采集器的故障处理方法及装置

Similar Documents

Publication Publication Date Title
CN111181774A (zh) 一种MapReduce任务的高可用方法、***、终端及存储介质
CN113014634B (zh) 集群选举处理方法、装置、设备及存储介质
US9800087B2 (en) Multi-level data center consolidated power control
CN104065741A (zh) 数据采集***和数据采集方法
EP3201717B1 (en) Monitoring of shared server set power supply units
CN110727556A (zh) 一种bmc健康状态监控方法、***、终端及存储介质
CN107451147A (zh) 一种kafka集群动态切换的方法和装置
CN110851320A (zh) 一种服务器宕机监管方法、***、终端及存储介质
CN113656168A (zh) 一种流量的自动容灾和调度的方法、***、介质和设备
CN111181780A (zh) 基于ha集群的主机池切换方法、***、终端及存储介质
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN115145769A (zh) 一种智能网卡及其供电方法、装置以及介质
CN103634167B (zh) 云环境中对目标主机进行安全配置检查的方法和***
CN108376110A (zh) 一种自动检测方法、***及终端设备
US10169138B2 (en) System and method for self-healing a database server in a cluster
CN112732408A (zh) 一种用于计算节点资源优化的方法
CN112492011A (zh) 分布式存储***故障切换方法、***、终端及存储介质
CN111062503A (zh) 一种电网监控告警处理方法、***、终端及存储介质
CN108154343B (zh) 一种企业级信息***的应急处理方法及***
Devi et al. Multi level fault tolerance in cloud environment
CN112363826B (zh) 一种项目资源综合管理***、方法、终端及存储介质
CN110703988B (zh) 一种分布式存储的存储池创建方法、***、终端及存储介质
CN113242302A (zh) 数据访问请求的处理方法、装置、计算机设备及介质
CN112131077A (zh) 故障节点的定位方法和定位装置、以及数据库集群***
CN111949216A (zh) 云平台存储卷自动扩容的方法、***、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200519