CN116841649B - 一种基于flink on yarn的热重启方法及装置 - Google Patents
一种基于flink on yarn的热重启方法及装置 Download PDFInfo
- Publication number
- CN116841649B CN116841649B CN202311087989.XA CN202311087989A CN116841649B CN 116841649 B CN116841649 B CN 116841649B CN 202311087989 A CN202311087989 A CN 202311087989A CN 116841649 B CN116841649 B CN 116841649B
- Authority
- CN
- China
- Prior art keywords
- task
- old
- new
- flink
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000012986 modification Methods 0.000 claims abstract description 6
- 230000004048 modification Effects 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44521—Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
- G06F9/44526—Plug-ins; Add-ons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于flink on yarn的热重启方法及装置,涉及大数据处理技术领域,包括以下步骤:在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;在分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将旧任务的当前信息保存到所述新任务对应的jobgraph中;修改任务管理器中旧任务对应slot的映射关系,并将jobgraph发送给映射关系修改完成后的slot进行运行。本申请通过使用热重启技术,可以复用per‑job模式下的相关资源,从而减少了重新创建集群以及申请资源等操作消耗的时间。
Description
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种基于flink on yarn的热重启方法及装置。
背景技术
flink作为大数据领域的数据处理引擎,支持在yarn、kubernetes等资源管理平台上进行调度与执行,尤其是在yarn的实时处理场景中,flink任务总是以per-job单作业提交模式运行,这种情况下,每个任务都有独立的集群和资源,因此每启动一个per-job任务都需要单独分配资源并启动一个flink集群。
而per-job任务在修改部分参数或者逻辑的时候,需要将运行的任务取消后,提交新的任务,并基于flink的checkpoint机制,在上次取消的状态下进行恢复,以保证数据处理的准确性,但这会导致新任务提交和运行的耗时非常长,且无法做到资源的复用,在复杂场景下还会造成业务阻塞。
发明内容
本申请提供的一种基于flink on yarn的热重启方法,旨在解决现有技术中per-job新任务提交和运行耗时长导致的业务阻塞问题。
为实现上述目的,本申请采用以下技术方案:
本申请的一种基于flink on yarn的热重启方法,应用于服务端,包括以下步骤:
在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中;
修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行。
作为优选,所述判断是否进行热重启,包括:
判断所述分发组件内部缓存的任务是否为空,若是,则为第一次提交任务,缓存所述新任务信息并执行任务提交逻辑,否则进行热重启。
作为优选,所述取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中,包括:
执行cancelWithSavepoint方法,根据所述cancelWithSavepoint方法取消旧任务并生成所述旧任务的savepoint信息;
于所述旧任务成功取消时,将所述旧任务的savepoint信息保存到所述新任务对应的jobGraph的SavepointRestoreSettings字段属性中。
作为优选,所述修改任务管理器中所述旧任务对应slot的映射关系,包括:
调用任务管理器中的rpc请求,根据所述rpc请求将所述任务管理器中所述旧任务与其对应slot的映射关系修改为所述新任务与所述slot的映射关系。
一种基于flink on yarn的热重启装置,应用于服务端,包括:
转发模块,用于在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
保存模块,用于在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中;
调整模块,用于修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行。
作为优选,所述保存模块包括:
判断单元,用于判断所述分发组件内部缓存的任务是否为空,若是,则为第一次提交任务,缓存所述新任务信息并执行任务提交逻辑,否则进行热重启。
作为优选,所述保存模块还包括:
取消单元,用于执行cancelWithSavepoint方法,根据所述cancelWithSavepoint方法取消旧任务并生成所述旧任务的savepoint信息;
保存单元,用于于所述旧任务成功取消时,将所述旧任务的savepoint信息保存到所述新任务对应的jobGraph的SavepointRestoreSettings字段属性中。
作为优选,所述调整模块包括:
修改单元,用于调用任务管理器中的rpc请求,根据所述rpc请求将所述任务管理器中所述旧任务与其对应slot的映射关系修改为所述新任务与所述slot的映射关系。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于flink on yarn的热重启方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种基于flink on yarn的热重启方法。
本发明具有如下有益效果:
本申请通过使用热重启技术,可以复用per-job模式下的相关资源,减少重新创建集群以及申请资源等操作消耗的时间,还通过Chechpoint机制保障了数据的正确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种基于flink on yarn的热重启装置的示意图;
图2是本申请一种基于flink on yarn的热重启方法的流程图;
图3是本申请新任务的提交方式图;
图4是本申请实现一种基于flink on yarn的热重启方法的电子设备示意图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
per-job模式下,任务重新恢复主要耗时在两方面:
1、Client客户端需要生成jobGraph、上传任务jar及文件等到分布式存储***hdfs中;
2、服务端需要启动一个flink集群,同时申请资源分配给flink算子以执行业务逻辑。
基于此,本申请提供一种基于flink on yarn的热重启装置,应用于服务端,如图1所示,包括:
转发模块,用于在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
保存模块,用于在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中;
调整模块,用于修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行。
在本实施例中,监控组件是指per-job模式下的WebMonitor组件,flink集群中的WebMonitor组件是一个http端点,主要接收客户端的各种操作请求并执行,如任务的取消和执行checkPoint,但per-job模式下的WebMonitor组件是不支持客户端执行提交请求的,为使其具有该功能,本实施例中转发模块会先将flink内置的jobSubmitHandler注册到per-job模式下的WebMonitor组件中,然后,令客户端向该WebMonitor组件发送新任务提交请求,WebMonitor组件接收到该请求后,则将其转发给分发组件。
进一步地,保存模块包括:
判断单元,用于判断所述分发组件内部缓存的任务是否为空,若是,则为第一次提交任务,缓存所述新任务信息并执行任务提交逻辑,否则进行热重启;
取消单元,用于执行cancelWithSavepoint方法,根据所述cancelWithSavepoint方法取消旧任务并生成所述旧任务的savepoint信息;
保存单元,用于于所述旧任务成功取消时,将所述旧任务的savepoint信息保存到所述新任务对应的jobGraph的SavepointRestoreSettings字段属性中。
该分发组件为flink集群中的Dispatch组件,其主要功能是将任务对应的操作分发到各个任务对应的jobMaster里进行处理或者创建新的jobMaster进行任务的运行,但本实施例中,Dispatch组件在接收到的新任务需要进行热重启时,不能创建新的jobMaster,而是要复用历史jobMaster组件,为此,保存模块在Dispatch组件接收到WebMonitor组件转发的新任务提交请求后,先由判断单元来判断该Dispatch组件内部缓存的任务是否为空,当其为空时,判定客户端为第一次提交任务,此时缓存该新任务信息并按照正常的任务提交逻辑提交该新任务即可,当其不为空时,则判定需要进行热重启,此时由取消单元来取消旧任务,并保存旧任务的当前信息,于旧任务取消成功时,则由保存单元将旧任务的当前信息保存到新任务对应的jobGraph中,其中,新任务对应的jobGraph由客户端在提交任务时生成。
进一步地,调整模块包括:
修改单元,用于调用任务管理器中的rpc请求,根据所述rpc请求将所述任务管理器中所述旧任务与其对应slot的映射关系修改为所述新任务与所述slot的映射关系。
同时,flink的每个算子都对应任务的一个业务逻辑,每个算子也都运行在flink集群的任务管理器TaskManager里,每一个TaskManager根据任务配置信息会包含若干个slot,每个算子就运行在TaskManager的slot里,在热重启中,旧任务取消之后,其申请到的TaskManager资源是不会立即关闭的,所以新任务可以复用此部分资源而不再重新申请资源从而节约初始化时间,同时,jobMaster内部维护slot资源的处理器是slotPool组件,slotPool组件还会缓存任务与其对应slot的映射关系,旧任务取消成功后,slotPool组件会将其管理的slot状态由已分配改为可用,但不会改变其记载的映射关系,如果此时通过jobMaster提交任务,会直接使用slotPool里缓存的旧任务对应的slot,这种情况下因新任务没经过resourcemanager分配slot,会导致TaskManager的slotTable中没有缓存新任务和slot的映射关系,进而使得TaskManager接收到新任务之后找不到其关联的slot,出现报错,为此,需要将旧任务JobMaster中slotPool组件里的缓存信息清理掉,以重新向resourcemanager申请slot资源,从而使TaskManager中的slotTable组件信息进行更新,即调整模块中的修改单元会将TaskManager中缓存的旧任务与其对应slot间的映射关系修改为该slot与新任务间的映射关系,再将jobGrapher发送给映射关系修改成功后的slot进行运行,这样既能保障TaskManager中slot的复用,又可避免新任务调度到此TaskManager上时,因映射关系没有更新造成任务失败的情况的发生。
与上述一种基于flink on yarn的热重启装置相对应的,本申请还提供一种基于flink on yarn的热重启方法,应用于服务端,如图2所示,包括以下步骤:
S110、在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
S120、在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中;
S130、修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行。
在本实施例中,per-job模式下的WebMonitor组件首先接收客户端发送的新任务提交请求,但在此之前,会将flink内置的jobSubmitHandler注册到该WebMonitor组件中,使其支持处理客户端的任务提交请求,因为submitHandler是flink内置的一个处理提交任务请求的handler,而per-job模式下的WebMonitor初始化handler中不包含这个handler,但热重启为了集群资源的复用,需要per-job模式下的WebMonitor端点支持新任务的提交,然后WebMonitor组件会将该新任务提交请求转发给Dispatch组件,Dispatch组件在接收需要进行热重启的新任务之后,不能创建新的jobMaster,需要复用历史的jobMaster组件,从而达到减少资源的申请与耗时,同时为了保证任务数据处理不会错误,需要先将旧任务取消并保存旧任务的当前运行信息,然后旧任务的当前运行信息保存到新任务里,以确保新任务运行是从旧任务取消那刻重新运行,具体地,如图3所示,在Dispatch组件接收到WebMonitor组件转发的新任务提交请求后,会先判断该Dispatch组件内部缓存的任务是否为空,若是,则判定此为客户端第一次提交任务,缓存该新任务信息后按照正常的任务提交流程提交该新任务即可,若不为空,则说明要进行热重启,此时,会先执行cancelWithSavepoint方法以取消旧任务,同时执行savePoint来保存旧任务的当前信息,于旧任务取消成功时,将旧任务的savePoint信息保存到新任务对应的jobGraph的SavepointRestoreSettings字段属性即新任务信息里,此时缓存中的任务信息也更新为新任务信息,同时将旧任务JobMaster中SlotPool组件里的缓存信息清理掉,并调用TaskManager中的rpc请求将该SlotPool中缓存的旧任务与其对应slot间的映射关系修改为新任务与该slot间的映射关系,然后将新任务对应的jobGraph发送给映射关系修改成功后的slot进行运行,即将新任务对应的jobGraph传递给旧任务的jobMaster对象来运行。本实施例通过使用热重启技术,可以复用per-job模式下的相关资源,减少重新创建集群以及申请资源等操作消耗的时间,还通过Chechpoint机制保障了数据的正确性。
如图4所示,本申请还提供一种电子设备,包括存储器401和处理器402,所述存储器401用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器402执行以实现上述的一种基于flink on yarn的热重启方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种基于flink on yarn的热重启方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器401中,并由处理器402执行,并由输入接口405和输出接口406完成数据的I/O接口传输,以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器401、处理器402,本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入器407、网络接入设备、总线等。
处理器402可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器402、数字信号处理器402(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器402可以是微处理器402或者该处理器402也可以是任何常规的处理器402等。
存储器401可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器401也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等,进一步地,存储器401还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器401用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器401还可以用于暂时地存储在输出器408,而前述的存储介质包括U盘、移动硬盘、只读存储器ROM403、随机存储器RAM404、碟盘或光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于flink on yarn的热重启方法,其特征在于,应用于服务端,包括以下步骤:
在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中,其中,热重启时,不创建新的jobMaster,而是要复用历史jobMaster组件,且在热重启中,旧任务取消之后,其申请到的任务管理器资源不会立即关闭,新任务可以复用此部分资源而不再重新申请资源从而节约初始化时间;
修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行,包括:
调用任务管理器中的rpc请求,根据所述rpc请求将所述任务管理器中所述旧任务与其对应slot的映射关系修改为所述新任务与所述slot的映射关系。
2.根据权利要求1所述的一种基于flink on yarn的热重启方法,其特征在于,所述判断是否进行热重启,包括:
判断所述分发组件内部缓存的任务是否为空,若是,则为第一次提交任务,缓存所述新任务信息并执行任务提交逻辑,否则进行热重启。
3.根据权利要求1所述的一种基于flink on yarn的热重启方法,其特征在于,所述取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中,包括:
执行cancelWithSavepoint方法,根据所述cancelWithSavepoint方法取消旧任务并生成所述旧任务的savepoint信息;
于所述旧任务成功取消时,将所述旧任务的savepoint信息保存到所述新任务对应的jobGraph的SavepointRestoreSettings字段属性中。
4.一种基于flink on yarn的热重启装置,其特征在于,应用于服务端,包括:
转发模块,用于在监控组件中注册flink内置的jobSubmitHandler,并通过注册完成的监控组件将客户端发送的新任务提交请求转发给分发组件;
保存模块,用于在所述分发组件接收到所述新任务提交请求后,判断是否进行热重启,若是,则取消旧任务,并将所述旧任务的当前信息保存到所述新任务对应的jobgraph中,其中,热重启时,不创建新的jobMaster,而是要复用历史jobMaster组件,且在热重启中,旧任务取消之后,其申请到的任务管理器资源不会立即关闭,新任务可以复用此部分资源而不再重新申请资源从而节约初始化时间;
调整模块,用于修改任务管理器中所述旧任务对应slot的映射关系,并将所述jobgraph发送给映射关系修改完成后的slot进行运行,包括:
修改单元,用于调用任务管理器中的rpc请求,根据所述rpc请求将所述任务管理器中所述旧任务与其对应slot的映射关系修改为所述新任务与所述slot的映射关系。
5.根据权利要求4所述的一种基于flink on yarn的热重启装置,其特征在于,所述保存模块包括:
判断单元,用于判断所述分发组件内部缓存的任务是否为空,若是,则为第一次提交任务,缓存所述新任务信息并执行任务提交逻辑,否则进行热重启。
6.根据权利要求4所述的一种基于flink on yarn的热重启装置,其特征在于,所述保存模块还包括:
取消单元,用于执行cancelWithSavepoint方法,根据所述cancelWithSavepoint方法取消旧任务并生成所述旧任务的savepoint信息;
保存单元,用于于所述旧任务成功取消时,将所述旧任务的savepoint信息保存到所述新任务对应的jobGraph的SavepointRestoreSettings字段属性中。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~3中任一项所述的一种基于flink on yarn的热重启方法。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1~3中任一项所述的一种基于flink on yarn的热重启方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087989.XA CN116841649B (zh) | 2023-08-28 | 2023-08-28 | 一种基于flink on yarn的热重启方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087989.XA CN116841649B (zh) | 2023-08-28 | 2023-08-28 | 一种基于flink on yarn的热重启方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116841649A CN116841649A (zh) | 2023-10-03 |
CN116841649B true CN116841649B (zh) | 2023-12-08 |
Family
ID=88162041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087989.XA Active CN116841649B (zh) | 2023-08-28 | 2023-08-28 | 一种基于flink on yarn的热重启方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116841649B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110618869A (zh) * | 2019-09-19 | 2019-12-27 | 北京思维造物信息科技股份有限公司 | 一种资源管理方法、装置及设备 |
CN111930561A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 流式任务自动化监控告警重启***及方法 |
CN112765166A (zh) * | 2021-01-06 | 2021-05-07 | 深圳市欢太科技有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN113391907A (zh) * | 2021-06-25 | 2021-09-14 | 中债金科信息技术有限公司 | 一种任务的放置方法、装置、设备和介质 |
CN113626192A (zh) * | 2021-08-10 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 用于对算子节点进行扩缩容调整的方法、装置及*** |
CN115237435A (zh) * | 2022-08-09 | 2022-10-25 | 杭州玳数科技有限公司 | 一种将PyFlink任务部署到yarn集群的方法 |
CN115328667A (zh) * | 2022-10-18 | 2022-11-11 | 杭州比智科技有限公司 | 基于flink任务指标监控实现任务资源弹性伸缩***及方法 |
CN115373835A (zh) * | 2022-07-15 | 2022-11-22 | 北京云思智学科技有限公司 | Flink集群的任务资源调整方法、装置及电子设备 |
CN115495202A (zh) * | 2022-11-17 | 2022-12-20 | 成都盛思睿信息技术有限公司 | 一种异构集群下的大数据任务实时弹性调度方法 |
CN115964151A (zh) * | 2023-01-02 | 2023-04-14 | 重庆长安汽车股份有限公司 | 一种面向大数据处理的流计算任务调度***及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9946593B2 (en) * | 2015-09-18 | 2018-04-17 | Salesforce.Com, Inc. | Recovery strategy for a stream processing system |
US10409650B2 (en) * | 2016-02-24 | 2019-09-10 | Salesforce.Com, Inc. | Efficient access scheduling for super scaled stream processing systems |
-
2023
- 2023-08-28 CN CN202311087989.XA patent/CN116841649B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110618869A (zh) * | 2019-09-19 | 2019-12-27 | 北京思维造物信息科技股份有限公司 | 一种资源管理方法、装置及设备 |
CN111930561A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 流式任务自动化监控告警重启***及方法 |
CN112765166A (zh) * | 2021-01-06 | 2021-05-07 | 深圳市欢太科技有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN113391907A (zh) * | 2021-06-25 | 2021-09-14 | 中债金科信息技术有限公司 | 一种任务的放置方法、装置、设备和介质 |
CN113626192A (zh) * | 2021-08-10 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 用于对算子节点进行扩缩容调整的方法、装置及*** |
CN115373835A (zh) * | 2022-07-15 | 2022-11-22 | 北京云思智学科技有限公司 | Flink集群的任务资源调整方法、装置及电子设备 |
CN115237435A (zh) * | 2022-08-09 | 2022-10-25 | 杭州玳数科技有限公司 | 一种将PyFlink任务部署到yarn集群的方法 |
CN115328667A (zh) * | 2022-10-18 | 2022-11-11 | 杭州比智科技有限公司 | 基于flink任务指标监控实现任务资源弹性伸缩***及方法 |
CN115495202A (zh) * | 2022-11-17 | 2022-12-20 | 成都盛思睿信息技术有限公司 | 一种异构集群下的大数据任务实时弹性调度方法 |
CN115964151A (zh) * | 2023-01-02 | 2023-04-14 | 重庆长安汽车股份有限公司 | 一种面向大数据处理的流计算任务调度***及方法 |
Non-Patent Citations (3)
Title |
---|
A Performance Analysis of Fault Recovery in Stream Processing Frameworks;van Dongen, Giselle等;《IEEE ACCESS》;第9卷;全文 * |
基于Flink实时计算的自动化流控制算法;樊春美;朱建生;单杏花;杨立鹏;李雯;;计算机技术与发展(第08期);全文 * |
基于Flink的实时计算平台的设计与实现;王玉真;《中国优秀硕士学位论文全文数据库(信息科技辑)》(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116841649A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200081745A1 (en) | System and method for reducing cold start latency of serverless functions | |
CA3000422C (en) | Workflow service using state transfer | |
US20190377604A1 (en) | Scalable function as a service platform | |
EP2746948A1 (en) | Device and method for optimization of data processing in a MapReduce framework | |
US9535754B1 (en) | Dynamic provisioning of computing resources | |
US11363117B2 (en) | Software-specific auto scaling | |
US11175901B2 (en) | Distribution and execution of instructions in a distributed computing environment | |
US20190187968A1 (en) | Distribution and execution of instructions in a distributed computing environment | |
CN110895483A (zh) | 任务恢复方法及装置 | |
CN108874549A (zh) | 资源复用方法、装置、终端和计算机可读存储介质 | |
CN110895488A (zh) | 任务调度方法及装置 | |
CN109597697B (zh) | 一种资源撮合处理方法及装置 | |
CN110659104A (zh) | 一种业务监控方法及相关设备 | |
CN116841649B (zh) | 一种基于flink on yarn的热重启方法及装置 | |
CN117076096A (zh) | 任务流程的执行方法、装置、计算机可读介质及电子设备 | |
US11321120B2 (en) | Data backup method, electronic device and computer program product | |
CN115858667A (zh) | 用于同步数据的方法、装置、设备和存储介质 | |
US20190163526A1 (en) | Workload management with delegated correction of execution issues for improving a functioning of computing machines | |
WO2018188958A1 (en) | A method and a host for managing events in a network that adopts event-driven programming framework | |
US11379268B1 (en) | Affinity-based routing and execution for workflow service | |
CN105282180A (zh) | 业务鉴权的处理方法及装置 | |
US20090019259A1 (en) | Multiprocessing method and multiprocessor system | |
CN114880103B (zh) | 一种flink任务适配hadoop生态的***和方法 | |
CN114650292B (zh) | 一种跨域数据传输方法、装置及存储介质 | |
US11681664B2 (en) | Journal parsing for object event generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |