CN112749042A - 一种应用运行方法和装置 - Google Patents
一种应用运行方法和装置 Download PDFInfo
- Publication number
- CN112749042A CN112749042A CN201911052617.7A CN201911052617A CN112749042A CN 112749042 A CN112749042 A CN 112749042A CN 201911052617 A CN201911052617 A CN 201911052617A CN 112749042 A CN112749042 A CN 112749042A
- Authority
- CN
- China
- Prior art keywords
- peripheral component
- computing process
- killing
- disk
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000002093 peripheral effect Effects 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 63
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 18
- 239000000523 sample Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Retry When Errors Occur (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了应用运行方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。从而,本发明的实施方式能够解决现有技术***组件异常导致整个应用失败的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种应用运行方法和装置。
背景技术
Spark是新一代分布式内存计算框架,Apache开源的顶级项目,能够更好地适用于数据挖掘、机器学习算法,极大提升开发效率。
而Spark on kubernetes是一种基于容器化的调度方案,基于kubernetes自身强大的容器管理和编排特性,spark可以和其他的容器服务混合部署。该方案从技术积累上比较新,也面临着一系列的问题,其中,external shuffle service是spark的一个***组件,其恢复方法是一个关键性问题,决定了spark on kubernetes的稳定和性能,externalshuffle service是Spark的一个***组件,负责存储spark的中间数据。
其中,Kubernetes是容器集群管理***,为容器化的应用提供部署运行、资源调度、负载均衡、服务发现和动态伸缩等一系列完整功能,提高了大规模容器集群管理的便捷性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
如果external shuffle service重启之后,内部注册的executors(executor是spark的计算进程)的shuffle文件位置信息会丢失,而本机器的executor并不会退出,继续执行task(任务)。task由于在external shuffle service找不到上一阶段的shuffle文件位置信息,会发生fetchfailed异常。根据spark自身框架规则,task会被重新调度。但由于executor始终正常工作,导致driver(spark的调度管理进程)维护的shuffle元数据始终没有更改(只有executor退出,发生executor lost才能够刷新driver的shuffle元数据)。后续的task仍然去重启后的external shuffle service寻找文件位置信息。由于该信息丢,task继续失败。一定重试次数之后,整个application(应用)会失败。
发明内容
有鉴于此,本发明实施例提供一种应用运行方法和装置,能够解决现有技术***组件异常导致整个应用失败的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种应用运行方法,包括接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
可选地,杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;
根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
可选地,杀掉所述***组件对应的计算进程之后,包括:
重新调度以启动计算进程,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。
可选地,将所述***组件注册的信息写入磁盘中之后,包括:
触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据;其中,***组件配置成容器集群管理***中DaemonSet的方式。
另外,根据本发明实施例的一个方面,提供了一种应用运行装置,包括接收模块,用于接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;处理模块,用于基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
可选地,所述处理模块杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;
根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
可选地,所述处理模块杀掉所述***组件对应的计算进程之后,包括:
重新调度以启动计算进程,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。
可选地,所述接收模块将所述***组件注册的信息写入磁盘中之后,包括:
触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据;其中,***组件配置成容器集群管理***中DaemonSet的方式。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一应用运行实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一基于应用运行实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明通过接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。从而,本发明能够实现***组件external shuffle service重启之后application应用能够正常继续运行直至完成。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的应用运行方法的主要流程的示意图
图2是根据本发明第二实施例的应用运行方法的主要流程的示意图;
图3是根据本发明第三实施例的应用运行方法的主要流程的示意图;
图4是根据本发明第四实施例的应用运行方法的主要流程的示意图;
图5是根据本发明第五实施例的应用运行方法的主要流程的示意图;
图6是根据本发明实施例的应用运行装置的主要模块的示意图;
图7是本发明实施例可以应用于其中的示例性***架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例的应用运行方法的主要流程的示意图,所述应用运行方法可以包括:
步骤S101,接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中。
较佳地,在将所述***组件注册的信息写入磁盘中之后,可以触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据。其中,***组件配置成容器集群管理***中DaemonSet的方式。其中,DaemonSet为保证在每个节点上都运行一个容器副本。
步骤S102,基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
较佳地,杀掉所述***组件对应的计算进程的具体实施过程可以包括:对计算进程添加探针检查,以监听***组件端口。之后,根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
值得说明的是,杀掉所述***组件对应的计算进程之后,还可以重新调度以启动计算进程,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。其中,Shuffle为描述数据从map task输出到reduce task输入的过程,包括Map阶段的数据准备和Reduce阶段的数据拷贝处理。
因此,本发明提出了一种应用运行方法,能够在令***组件重启之后,这台机器上的所有应用能够正常继续运行直至完成。其中,多个应用可以跑在同一台机器上。并且,使得***组件重启对应用的完成时间影响较小,能够在应用级别实现自动恢复,作业的性能会明显提高。
也就是说,本发明可以在应用级别做到高可用性,能够使得用户没有感知的情况下,完成整个应用。多个应用在同一台机器中运行情况下,使得每一个应用都能够正常运行下去。
图2是根据本发明第二实施例的应用运行方法的主要流程的示意图,所述应用运行方法可以包括:
步骤S201,接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中。
步骤S202,***组件配置成容器集群管理***中DaemonSet的方式。
步骤S203,触发***组件重启事件。
步骤S204,加载磁盘中的全部信息,以恢复所述***组件数据。
图3是根据本发明第三实施例的应用运行方法的主要流程的示意图,所述应用运行方法可以包括:
步骤S301,基于预设时间阈值,确定***组件重启事件失败。
步骤S302,对计算进程添加探针检查,以监听***组件端口。
步骤S303,根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
步骤S304,重新调度以启动计算进程。
步骤S305,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。
本发明基于上面所述的应用运行方法,下面以Spark on kubernetes中externalshuffle service工作为例,进一步说明。
Executor启动时需要将本地的shuffle存储路径(例如spark.local.dir)注册到external shuffle service中。Executor从功能逻辑上会执行两种类型的任务,分别是mapper task和reducer task。mapper task通过kubernetes提供的hostpath,将shuffle数据存入本地磁盘,存储路径是spark.local.dir。Reducer task会根据driver提供的shuffle元信息去指定机器的external shuffle service中读shuffle数据。externalshuffle service根据注册时候维护的信息找到存储路径spark.local.dir。externalshuffle service可以接受多个不同application(应用)的shuffle请求,每个不同的application通过app id来寻找自己的shuffle数据。该方案存在两个问题:1.如果external shuffle service重启,注册信息会丢失,导致application失败。2.如果external shuffle service意外退出后重启不了或者重启时间很长,由于executors并不退出,那么整个application也会失败。
其中,存储类型hostPath类型则是映射node文件***中的文件或者目录到pod里。
图4是根据本发明第三实施例的应用运行方法的主要流程的示意图,如果external shuffle service重启,所述应用运行方法可以包括:
步骤S401,接收external shuffle service重启事件,通过hostpath挂载文件,将所注册的信息写入磁盘中。
步骤S402,external shuffle service配置成kubernetes中DaemonSet的方式。
步骤S403,触发external shuffle service重启事件。
步骤S404,加载磁盘中的全部信息,以恢复external shuffle service数据。
图5是根据本发明第四实施例的应用运行方法的主要流程的示意图,如果external shuffle service意外退出后重启不了或者重启时间很长,所述应用运行方法可以包括:
步骤S501,基于预设时间阈值,确定external shuffle service重启事件失败。
步骤S502,对executor添加TCP--liveness/readiness探针检查,监听externalshuffle service服务端口。
步骤S503,根据预设检查次数阈值(例如参数failureThreshold),确定所述端口异常,由kubelet杀死该executor。
步骤S504,通过spark on kubernetes框架重新调度以启动executor。
步骤S505,接收executor lost消息,将executor对应的所有shuffle元信息全部删除掉。
值得说明的是,步骤S505之后重新调度的task可以完成该application。
另外,为了可以使得external shuffle service重启后,最快速度恢复,还设置了如下参数:
initialDelaySeconds为容器启动后第一次执行探测是需要等待多少秒。
periodSeconds为执行探测的频率。优选地,默认是10秒,最小1秒。
timeoutSeconds为探测超时时间。优选地,默认1秒,最小1秒。
successThreshold为探测失败后,最少连续探测成功多少次才被认定为成功。优选地,默认是1。对于liveness必须是1,最小值是1。
failureThreshold为探测成功后,最少连续探测失败多少次才被认定为失败。优选地,默认是3,最小值是1。
根据上面所述的各种实施例,可以看出本发明针对external shuffle service快速重启场景,通过持久化executors的注册信息,达到快速恢复注册信息的目的,使得application能够顺利进行下去。而且,载external shuffle service意外退出后启动慢或者启动不起来的场景下,通过配置kubernetes的探针方式,有效恢复整个application的运行。另外,通过设置一系列参数,能够使得整个application完成时间不受到很大延迟。
图6是根据本发明第一实施例的应用运行装置的主要模块的示意图,如图6所示,所述应用运行装置600包括接收模块601和处理模块602。其中,接收模块601接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中。处理模块602基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
较佳地,所述处理模块602杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
另外,所述处理模块602杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;
根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
作为另一实施例,所述接收模块601将所述***组件注册的信息写入磁盘中之后,包括:
触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据;其中,***组件配置成容器集群管理***中DaemonSet的方式。
需要说明的是,在本发明所述应用运行方法和所述应用运行装置在具体实施内容上具有相应关系,故重复内容不再说明。
图7示出了可以应用本发明实施例的应用运行方法或应用运行装置的示例性***架构700。
如图7所示,***架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的应用运行方法一般由服务器705执行,相应地,应用运行装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机***800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有***800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接收模块和处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
根据本发明实施例的技术方案,能够解决现有技术***组件异常导致整个应用失败的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种应用运行方法,其特征在于,包括:
接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;
基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
2.根据权利要求1所述的方法,其特征在于,杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;
根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
3.根据权利要求1或2所述的方法,其特征在于,杀掉所述***组件对应的计算进程之后,包括:
重新调度以启动计算进程,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。
4.根据权利要求1所述的方法,其特征在于,将所述***组件注册的信息写入磁盘中之后,包括:
触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据;其中,***组件配置成容器集群管理***中DaemonSet的方式。
5.一种应用运行装置,其特征在于,包括:
接收模块,用于接收***组件重启事件,通过挂载文件,将所述***组件注册的信息写入磁盘中;
处理模块,用于基于预设时间阈值,确定***组件重启事件失败,杀掉所述***组件对应的计算进程。
6.根据权利要求5所述的装置,其特征在于,所述处理模块杀掉所述***组件对应的计算进程,包括:
对计算进程添加探针检查,以监听***组件端口;
根据预设检查次数阈值,确定所述端口异常,杀掉对应的计算进程。
7.根据权利要求5或6所述的装置,其特征在于,所述处理模块杀掉所述***组件对应的计算进程之后,包括:
重新调度以启动计算进程,接收计算进程丢失消息,删除所述计算进程对应的所有shuffle元信息。
8.根据权利要求5所述的装置,其特征在于,所述接收模块将所述***组件注册的信息写入磁盘中之后,包括:
触发***组件重启事件,加载磁盘中的全部信息,以恢复所述***组件数据;其中,***组件配置成容器集群管理***中DaemonSet的方式。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052617.7A CN112749042B (zh) | 2019-10-31 | 2019-10-31 | 一种应用运行方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052617.7A CN112749042B (zh) | 2019-10-31 | 2019-10-31 | 一种应用运行方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749042A true CN112749042A (zh) | 2021-05-04 |
CN112749042B CN112749042B (zh) | 2024-03-01 |
Family
ID=75644594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911052617.7A Active CN112749042B (zh) | 2019-10-31 | 2019-10-31 | 一种应用运行方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749042B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120700A1 (en) * | 2001-09-11 | 2003-06-26 | Sun Microsystems, Inc. | Task grouping in a distributed processing framework system and methods for implementing the same |
CN101727629A (zh) * | 2008-10-10 | 2010-06-09 | 北京资和信担保有限公司 | 自组织分布式金融业务*** |
CN103023805A (zh) * | 2012-11-22 | 2013-04-03 | 北京航空航天大学 | 一种MapReduce*** |
CN103316472A (zh) * | 2013-05-17 | 2013-09-25 | 南京睿悦信息技术有限公司 | 一种基于蓝牙手柄的Android设备游戏平台***及其实现方法 |
CN105306964A (zh) * | 2015-10-23 | 2016-02-03 | 北京理工大学 | 一种视频流转码故障快速恢复***及恢复方法 |
US20170139816A1 (en) * | 2015-11-17 | 2017-05-18 | Alexey Sapozhnikov | Computerized method and end-to-end "pilot as a service" system for controlling start-up/enterprise interactions |
CN107832344A (zh) * | 2017-10-16 | 2018-03-23 | 广州大学 | 一种基于storm流计算框架的食品安全网络舆情分析方法 |
-
2019
- 2019-10-31 CN CN201911052617.7A patent/CN112749042B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120700A1 (en) * | 2001-09-11 | 2003-06-26 | Sun Microsystems, Inc. | Task grouping in a distributed processing framework system and methods for implementing the same |
CN101727629A (zh) * | 2008-10-10 | 2010-06-09 | 北京资和信担保有限公司 | 自组织分布式金融业务*** |
CN103023805A (zh) * | 2012-11-22 | 2013-04-03 | 北京航空航天大学 | 一种MapReduce*** |
CN103316472A (zh) * | 2013-05-17 | 2013-09-25 | 南京睿悦信息技术有限公司 | 一种基于蓝牙手柄的Android设备游戏平台***及其实现方法 |
CN105306964A (zh) * | 2015-10-23 | 2016-02-03 | 北京理工大学 | 一种视频流转码故障快速恢复***及恢复方法 |
US20170139816A1 (en) * | 2015-11-17 | 2017-05-18 | Alexey Sapozhnikov | Computerized method and end-to-end "pilot as a service" system for controlling start-up/enterprise interactions |
CN107832344A (zh) * | 2017-10-16 | 2018-03-23 | 广州大学 | 一种基于storm流计算框架的食品安全网络舆情分析方法 |
Non-Patent Citations (1)
Title |
---|
石俊;徐小伟;蔡富强;刘晓洁;陈恩;: "Linux高可用性***的改进方案", 计算机安全, no. 08 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749042B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12019652B2 (en) | Method and device for synchronizing node data | |
CN107729176B (zh) | 一种配置文件管理***的容灾方法及容灾*** | |
CN111897633A (zh) | 一种任务处理的方法和装置 | |
CN109245908B (zh) | 一种主从集群切换的方法和装置 | |
CN109783151B (zh) | 规则变更的方法和装置 | |
CN111338834B (zh) | 数据存储方法和装置 | |
CN111666134A (zh) | 一种分布式任务调度的方法和*** | |
CN112181942A (zh) | 时序数据库***和数据处理方法及装置 | |
CN114064438A (zh) | 数据库故障处理方法和装置 | |
CN107526838B (zh) | 数据库集群扩容的方法和装置 | |
CN111767126A (zh) | 分布式批量处理的***和方法 | |
CN117435569A (zh) | 缓存***动态扩容方法、装置、设备、介质和程序产品 | |
CN116319758A (zh) | 数据迁移方法、装置、电子设备及可读存储介质 | |
CN113541987A (zh) | 一种更新配置数据的方法和装置 | |
CN107818027B (zh) | 名字节点主备切换的方法、装置和分布式*** | |
CN114070889B (zh) | 配置方法、流量转发方法、设备、存储介质及程序产品 | |
CN112749042B (zh) | 一种应用运行方法和装置 | |
CN114756173A (zh) | 文件合并的方法、***、设备和计算机可读介质 | |
CN113760469A (zh) | 分布式计算的方法和装置 | |
CN112799863B (zh) | 用于输出信息的方法和装置 | |
CN113742376A (zh) | 一种同步数据的方法、第一服务器以及同步数据的*** | |
CN112463514A (zh) | 分布式缓存集群的监测方法和装置 | |
CN111767113A (zh) | 一种用于实现容器驱逐的方法和装置 | |
CN112052128B (zh) | 容灾方法、装置和电子设备 | |
CN114356214B (zh) | 一种针对kubernetes***提供本地存储卷的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |