CN111290917A - 基于yarn的资源监控方法、装置及终端设备 - Google Patents

基于yarn的资源监控方法、装置及终端设备 Download PDF

Info

Publication number
CN111290917A
CN111290917A CN202010120079.7A CN202010120079A CN111290917A CN 111290917 A CN111290917 A CN 111290917A CN 202010120079 A CN202010120079 A CN 202010120079A CN 111290917 A CN111290917 A CN 111290917A
Authority
CN
China
Prior art keywords
task
running
yarn
target
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010120079.7A
Other languages
English (en)
Inventor
程飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunzhirong Technology Co ltd
Original Assignee
Shenzhen Yunzhirong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunzhirong Technology Co ltd filed Critical Shenzhen Yunzhirong Technology Co ltd
Priority to CN202010120079.7A priority Critical patent/CN111290917A/zh
Publication of CN111290917A publication Critical patent/CN111290917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/481Exception handling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请适用于大数据技术领域,提供了基于YARN的资源监控方法、装置及终端设备,包括:在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。本申请实施例能够提高基于YARN的分布式***的资源利用率及任务运行效率。

Description

基于YARN的资源监控方法、装置及终端设备
技术领域
本申请属于大数据技术领域,尤其涉及一种基于YARN的资源监控方法、装置及终端设备。
背景技术
另一种资源协调者(Yet Another Resource Negotiator,YARN)是一种新的Hadoop资源管理器,它是一个通用资源管理***,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
虽然YARN能够优化Hadoop分布式***中的资源分配,但是在***繁忙时段仍可能导致任务无法执行或者执行过慢的问题。
发明内容
有鉴于此,本申请实施例提供了基于YARN的资源监控方法、装置及终端设备,以解决现有技术中基于YARN的分布式***中因***繁忙、运行资源不足而导致任务无法执行或执行过慢的问题。
本申请实施例的第一方面提供了一种基于YARN的资源监控方法,其特征在于,包括:
在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;
若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
进一步地,所述目标任务具体为任务白名单以外的任务,在所述在目标时间段内,每隔预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息之前,还包括:
设置任务白名单。
进一步地,在所述在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息之前,还包括:
接收设置指令,根据所述设置指令设置目标时间段和第一预设时长,以及,根据所述设置指令设置运行时长阈值和/或预设资源阈值。
进一步地,在所述若检测到所述目标任务中存在异常任务,则终止所述异常任务之后,还包括:
将所述异常任务的信息存储至待处理列表中;
在非目标时间段内,执行所述待处理列表中的任务。
进一步地,所述基于YARN的资源监控方法还包括:
若检测到执行结束的任务,则将所述执行结束的任务的运行日志信息存储至任务运行日志数据库,所述运行日志信息至少包括所述执行结束的任务的运行起始时间信息、运行总时长及资源使用信息,所述执行结束的任务包括运行完毕的任务及被终止的异常任务。
进一步地,所述基于YARN的资源监控方法还包括:
每隔第二预设时长,根据所述任务运行日志数据库中的运行日志信息,调整所述运行时长阈值和/或所述预设资源阈值的大小。
进一步地,所述基于YARN的资源监控方法还包括:
每隔第三预设时长,统计所述任务运行日志数据库中所述执行结束的任务的运行起始时间信息,调整所述目标时间段。
本申请实施例的第二方面提供了一种基于YARN的资源监控装置,其特征在于,包括:
运行状态信息获取单元,用于在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;
异常任务终止单元,用于若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,使得终端设备实现如所述基于YARN的资源监控方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得终端设备实现如所述基于YARN的资源监控方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的基于YARN的资源监控方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例中,在目标时间段内,由于能够利用YARN接口每隔一段时间自动获取每个执行中的目标任务的运行状态信息,并终止运行时长过长或者运行所占资源过大的异常任务,因此避免了异常任务对分布式***中的运行资源的长时间占据,保证在目标时间段内分布式***中有足够的运行资源供其它任务正常使用,提高了资源利用率及任务运行效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的第一种基于YARN的资源监控方法的实现流程示意图;
图2是本申请实施例提供的第二种基于YARN的资源监控方法的实现流程示意图;
图3是本申请实施例提供的基于YARN的资源监控装置的示意图;
图4是本申请实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一:
图1示出了本申请实施例提供的第一种基于YARN的资源监控方法的流程示意图,本申请实施例的执行主体为终端设备,该终端设备可以访问基于YARN的分布式***的YARN接口,详述如下:
在S101中,在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小。
本申请实施例的YARN接口具体指的是Hadoop YARN Web服务提供的表述性状态传递应用接口(Representational State Transfer API,REST API),用于获取基于YARN的分布式***的集群、节点和应用程序信息。其中,该基于YARN的分布式***包括Hadhoop集群和管理集群资源的YARN,提交给基于YARN的分布式***的所有任务(job)最终都是以应用程序(Application)的形式运行在集群中,因此通过YARN接口获取每个应用程序信息即可获取每个执行中的任务的信息。
本申请实施例中,在目标时间段内,具体通过批量工作流任务调度器AZKABAN每隔第一预设时长调用YARN接口,获取每个执行中的目标任务的运行状态信息,该运行状态信息包括运行时长及运行所占资源大小,具体地通过调用YARN接口,返回每个执行中的目标任务的应用程序标识(Application Identification,AppID)及对应的运行时长和所占资源大小。本申请实施例的目标时间段具体为根据任务处理繁忙时间而设置的时间段(例如每天早上九点到下午两点的业务繁忙时段),第一预设时长可以根据实际所需的监测频率进行设置,例如可以设置为5分钟。
在S102中,若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
在获取了每个执行中的目标任务的运行状态信息后,将每个目标任务的运行时长和预存的运行时长阈值作比较,和/或将每个目标任务的运行所占资源大小和预设资源阈值作比较,若目标任务的运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值,则将该目标任务判定为异常任务,并终止该异常任务。具体地,根据在获取目标任务的运行状态信息时返回的AppID信息确定异常任务的AppID,并根据该AppID调用YARN的kill指令,清理该异常任务的进程,从而终止该异常任务。本申请实施例中的运行时长阈值和预设资源阈值可以根据实际需要提前设置,例如该运行时长阈值可以为1小时、2小时等,该预设资源阈值可以为500M、1G等。
可选地,所述目标任务具体为任务白名单以外的任务,对应地在所述步骤S101之前,还包括:
设置任务白名单。
本申请实施例中,任务白名单中包含了若干个指定任务,这些指定任务为需保证稳定运行、不被***清理的重要任务,即无论这些任务是否会长时间运行、是否会占据较大的内存,都不将其视为异常任务,因此即使在目标时间段内,也不对任务白名单内的任务进行监测清理,即在目标时间段内监测的目标任务为任务白名单以外的任务。
在步骤S101之前,可以接收白名单设置指令,设置任务白名单。具体地,获取白名单设置指令中携带的任务标识,并将这些任务标识存储在任务白名单中,一个任务标识与一个指定任务唯一对应。
具体地,设置了任务白名单后,在S101中的目标时间段内,只扫描任务白名单以外的目标任务,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息。或者,在S101中,在目标时间段内扫描所有执行中的任务,并从所有执行中的任务中剔除任务标识符合任务白名单的任务,得到目标任务。
本申请实施例中,由于提前设置了任务白名单,并将任务白名单排除在被监测的目标任务之外,因此能够保证指定的重要任务能够稳定运行而不被当做异常任务进行清理。
可选地,在所述步骤S101之前,还包括:
接收设置指令,根据所述设置指令设置目标时间段和第一预设时长,以及,根据所述设置指令设置运行时长阈值和/或预设资源阈值。
接收设置指令,根据设置指令中携带的设置信息设置目标时间段和第一时长,并根据设置指令设置运行时长阈值和/或预设资源阈值。该设置指令中的目标时间段设置信息可以根据历史运行信息统计的运行任务数目超过预设数目的繁忙时间段确定(可将目标时间段设置为繁忙时间段),该运行时长阈值设置信息可以根据历史运行信息统计的任务完整运行所需的平均时长确定(设置的运行时长阈值可以略大于一般任务完整运行所需的平均时长),该预设资源阈值的设置信息可以根据历史运行信息统计的任务运行所占平均资源大小设置(设置的预设资源阈值可以略大于一般任务运行所占的平均资源大小)。
可选地,在所述步骤S102之后,还包括:
将所述异常任务的信息存储至待处理列表中;
在非目标时间段内,执行所述待处理列表中的任务。
在异常任务终止运行后,将异常任务的信息存储至待处理列表中,例如将异常任务的任务标识及异常任务的原始任务请求信息存储在待处理列表中。
之后,在非目标时间段内,即非繁忙时段,获取待处理列表中的异常任务的信息,根据该异常任务的信息,执行待处理列表中的任务。
本申请实施例中,由于将在目标时间段内终止运行的异常任务的信息存储至待处理列表中并在***不繁忙的非目标时间段内,执行待处理列表中存储的运行时长过长和/或占据资源过大的任务,因此能够保证这些需要消耗大量运行资源的任务错峰运行,从而既保证了繁忙的目标时间段内其它任务能够正常高效地运行,又能保证异常任务在空闲的非目标时间段内被有效地执行,极大提高了基于YARN的分布式***的资源利用率和任务运行效率。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例中,在目标时间段内,由于能够利用YARN接口每隔一段时间自动获取每个执行中的目标任务的运行状态信息,并终止运行时长过长或者运行所占资源过大的异常任务,因此避免了异常任务对分布式***中的运行资源的长时间占据,减少***的过载现象,保证在目标时间段内分布式***中有足够的运行资源供其它任务正常使用,提高了资源利用率及任务运行效率。
实施例二:
图2示出了本申请实施例提供的第二种基于YARN的资源监控方法的流程示意图,本申请实施例的执行主体为终端设备,该终端设备可以访问基于YARN的分布式***的YARN接口,详述如下:
本申请实施例中的基于YARN的资源监控方法既包含步骤如实施例一所述的步骤S101至步骤S102,又包含运行日志信息存储步骤。本申请实施例的步骤S101至步骤S102的详细内容和实施例一中的内容完全相同,此处不再赘述。本申请实施例的运行日志信息存储步骤详述如下:
S201:若检测到执行结束的任务,则将所述执行结束的任务的运行日志信息存储至任务运行日志数据库,所述运行日志信息至少包括所述执行结束的任务的运行起始时间信息、运行总时长及资源使用信息,所述执行结束的任务包括运行完毕的任务及被终止的异常任务。
本申请实施例中的步骤S201中在目标时间段和非目标时间段中都持续执行。当检测到***中存在执行结束的任务时,获取该执行结束的任务的运行日志信息并存储至任务运行日志数据库中。该运行日志信息至少包括该执行结束的任务的运行起始时间信息、运行总时长信息和资源使用信息,该资源使用信息可以包括运行时所占的资源大小、所用的具体资源的标识号、执行结束时刻整个***的剩余资源大小等。该执行结束的任务包括完整运行完毕的正常任务和被终止运行的异常任务,在存储时,可以将运行完毕的任务和被终止的异常任务分别加上不一样的标记信息,从而将二者区分开。
本申请实施例中,通过将执行结束的任务的运行日志信息存储至任务运行日志数据库中,从而能够将***中的所有历史任务执行信息进行存储,以方便之后的查询和统计。
可选地,本申请实施例的基于YARN的资源监控方法还包括:
S2021:每隔第二预设时长,根据所述任务运行日志数据库中的运行日志信息,调整所述运行时长阈值和/或所述预设资源阈值的大小。
在本申请实施例中,每隔第二预设时长,可以获取任务运行日志数据库中过去一段时间(该段时间的长度可以等于第二预设时长)的运行日志信息,对步骤S102中所用到的运行时长阈值和/或预设资源阈值的大小进行调整,这里的第二预设时长可以为一天、一周、两周或者一个月,此处不作限定。例如,每隔两周,获取任务运行日志数据库中过去两周内的运行日志信息,统计过去两周内所有运行完毕的正常任务的平均时长,并将运行时长阈值调整为略大于该平均时长的值;或者,统计过去两周内所有运行完毕的正常任务的平均所占资源大小,并将预设资源阈值调整为略大于该平均所占资源大小的值。或者,每隔两周,统计任务运行日志数据库中过去两周内的异常任务的数量和每个异常任务结束时刻整个***的剩余资源大小,若异常任务的数量大于第一预设阈值且异常任务结束时刻整个***的剩余资源大小的平均值小于第二预设阈值,说明当前的运行时长阈值设置过低或者预设资源阈值的大小设置过低,导致在***还有足够的剩余资源时就有大量的任务被判为异常任务,则适当地(按照预设步长值)提高运行时长阈值和/或预设资源阈值。
本申请实施例中,由于能够根据运行日志数据库中存储的运行日志信息来调整运行时长阈值和/或所述预设资源阈值的大小,因此能够使得之后的异常任务判定更加符合实际情况,从而更准确有效地提高基于YARN的分布式***的资源利用率和任务运行效率。
可选地,本申请实施例的基于YARN的资源监控方法还包括:
S2022:每隔第三预设时长,统计所述任务运行日志数据库中所述执行结束的任务的运行起始时间信息,调整所述目标时间段。
每隔第三预设时长,统计任务运行日志数据库中所有执行结束的任务的运行起始时间信息,确定运行任务数量大于第三预设阈值的时间段为繁忙时间段,将目标时间段调整为该繁忙时间段。这里的第三预设时长可以为一天、一周、两周或者一个月,可以与第二预设时长相同也可与第二预设时长不同,此处不作限定。
本申请实施例中,由于能够根据历史执行结束的任务的运行起始时间信息,准确地将目标时间段确定为繁忙时间段,因此能够准确地实现繁忙时间段内的资源使用监控,避免繁忙时间段内异常任务对分布式***中的运行资源的长时间占据,提高了资源利用率及任务运行效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例三:
图3示出了本申请实施例提供的一种基于YARN的资源监控装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分:
该基于YARN的资源监控装置包括:运行状态信息获取单元单元31、异常任务终止单元32。其中:
运行状态信息获取单元单元31,用于在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;
异常任务终止单元32,用于用于若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
可选地,所述目标任务具体为任务白名单以外的任务,所述基于YARN的资源监控装置还包括:
第一设置单元,用于设置任务白名单。
可选地,所述基于YARN的资源监控装置还包括:
第二设置单元,用于接收设置指令,根据所述设置指令设置目标时间段和第一预设时长,以及,根据所述设置指令设置运行时长阈值和/或预设资源阈值。
可选地,所述基于YARN的资源监控装置还包括:
异常任务处理单元,用于将所述异常任务的信息存储至待处理列表中;在非目标时间段内,执行所述待处理列表中的任务。
可选地,所述基于YARN的资源监控装置还包括:
运行日志信息存储单元,用于若检测到执行结束的任务,则将所述执行结束的任务的运行日志信息存储至任务运行日志数据库,所述运行日志信息至少包括所述执行结束的任务的运行起始时间信息、运行总时长及资源使用信息,所述执行结束的任务包括运行完毕的任务及被终止的异常任务。
可选地,所述基于YARN的资源监控装置还包括:
第一调整单元,用于每隔第二预设时长,根据所述任务运行日志数据库中的运行日志信息,调整所述运行时长阈值和/或所述预设资源阈值的大小。
可选地,所述基于YARN的资源监控装置还包括:
第二调整单元,每隔第三预设时长,统计所述任务运行日志数据库中所述执行结束的任务的运行起始时间信息,调整所述目标时间段。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例四:
图4是本申请一实施例提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42,例如基于YARN的资源监控程序。所述处理器40执行所述计算机程序42时实现上述各个基于YARN的资源监控方法实施例中的步骤,例如图1所示的步骤S101至S102。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示单元31至32的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。例如,所述计算机程序42可以被分割成运行状态信息获取单元、异常任务终止单元,各单元具体功能如下:
运行状态信息获取单元,用于在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小。
异常任务终止单元,用于若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于YARN的资源监控方法,其特征在于,包括:
在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;
若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
2.如权利要求1所述的基于YARN的资源监控方法,其特征在于,所述目标任务具体为任务白名单以外的任务,在所述在目标时间段内,每隔预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息之前,还包括:
设置任务白名单。
3.如权利要求1所述的基于YARN的资源监控方法,其特征在于,在所述在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息之前,还包括:
接收设置指令,根据所述设置指令设置目标时间段和第一预设时长,以及,根据所述设置指令设置运行时长阈值和/或预设资源阈值。
4.如权利要求1所述的基于YARN的资源监控方法,其特征在于,在所述若检测到所述目标任务中存在异常任务,则终止所述异常任务之后,还包括:
将所述异常任务的信息存储至待处理列表中;
在非目标时间段内,执行所述待处理列表中的任务。
5.如权利要求1所述的基于YARN的资源监控方法,其特征在于,所述方法还包括:
若检测到执行结束的任务,则将所述执行结束的任务的运行日志信息存储至任务运行日志数据库,所述运行日志信息至少包括所述执行结束的任务的运行起始时间信息、运行总时长及资源使用信息,所述执行结束的任务包括运行完毕的任务及被终止的异常任务。
6.如权利要求5所述的基于YARN的资源监控方法,其特征在于,所述方法还包括:
每隔第二预设时长,根据所述任务运行日志数据库中的运行日志信息,调整所述运行时长阈值和/或所述预设资源阈值的大小。
7.如权利要求5所述的基于YARN的资源监控方法,其特征在于,所述方法还包括:
每隔第三预设时长,统计所述任务运行日志数据库中所述执行结束的任务的运行起始时间信息,调整所述目标时间段。
8.一种基于YARN的资源监控装置,其特征在于,包括:
运行状态信息获取单元,用于在目标时间段内,每隔第一预设时长通过YARN接口获取每个执行中的目标任务的运行状态信息,所述运行状态信息包括运行时长及运行所占资源大小;
异常任务终止单元,用于若检测到所述目标任务中存在异常任务,则终止所述异常任务,其中所述异常任务为运行时长超过运行时长阈值和/或运行所占资源大小超过预设资源阈值的任务。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,使得终端设备实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,使得终端设备实现如权利要求1至7任一项所述方法的步骤。
CN202010120079.7A 2020-02-26 2020-02-26 基于yarn的资源监控方法、装置及终端设备 Pending CN111290917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010120079.7A CN111290917A (zh) 2020-02-26 2020-02-26 基于yarn的资源监控方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010120079.7A CN111290917A (zh) 2020-02-26 2020-02-26 基于yarn的资源监控方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN111290917A true CN111290917A (zh) 2020-06-16

Family

ID=71023219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010120079.7A Pending CN111290917A (zh) 2020-02-26 2020-02-26 基于yarn的资源监控方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN111290917A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488412A (zh) * 2020-12-11 2021-03-12 北京字跳网络技术有限公司 时长信息确定方法、装置、电子设备及计算机存储介质
CN112508449A (zh) * 2020-12-21 2021-03-16 北京元心科技有限公司 任务执行方法、装置、电子设备及计算机可读存储介质
CN112559859A (zh) * 2020-12-08 2021-03-26 杭州海康威视***技术有限公司 资源推荐方法、装置、电子设备及机器可读存储介质
CN112559292A (zh) * 2020-12-18 2021-03-26 北京北方华创微电子装备有限公司 设备应用监控方法、半导体工艺设备
CN113064723A (zh) * 2021-03-23 2021-07-02 瀚云科技有限公司 存储介质、电子设备、总线资源分配方法及装置
CN113094197A (zh) * 2021-04-09 2021-07-09 中国工商银行股份有限公司 一种指令提交异常的判断方法、装置、设备和存储介质
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
CN113268389A (zh) * 2021-06-09 2021-08-17 无锡炫我科技有限公司 异常节点监测的方法、装置、电子设备和可读存储介质
CN113468036A (zh) * 2021-07-15 2021-10-01 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN113778803A (zh) * 2021-09-13 2021-12-10 深圳市酷开网络科技股份有限公司 任务资源监控***、方法及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170084445A (ko) * 2016-01-12 2017-07-20 삼성에스디에스 주식회사 시계열 데이터를 이용한 이상 감지 방법 및 그 장치
CN108021450A (zh) * 2017-12-04 2018-05-11 北京小度信息科技有限公司 基于yarn的作业分析方法和装置
CN108874535A (zh) * 2018-05-14 2018-11-23 中国平安人寿保险股份有限公司 一种任务调节方法、计算机可读存储介质及终端设备
CN110297746A (zh) * 2019-07-05 2019-10-01 北京慧眼智行科技有限公司 一种数据处理方法及***
CN110489301A (zh) * 2019-08-22 2019-11-22 上海中通吉网络技术有限公司 mapreduce任务性能的分析方法、装置及设备
CN110597621A (zh) * 2019-08-09 2019-12-20 苏宁金融科技(南京)有限公司 集群资源的调度方法与***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170084445A (ko) * 2016-01-12 2017-07-20 삼성에스디에스 주식회사 시계열 데이터를 이용한 이상 감지 방법 및 그 장치
CN108021450A (zh) * 2017-12-04 2018-05-11 北京小度信息科技有限公司 基于yarn的作业分析方法和装置
CN108874535A (zh) * 2018-05-14 2018-11-23 中国平安人寿保险股份有限公司 一种任务调节方法、计算机可读存储介质及终端设备
CN110297746A (zh) * 2019-07-05 2019-10-01 北京慧眼智行科技有限公司 一种数据处理方法及***
CN110597621A (zh) * 2019-08-09 2019-12-20 苏宁金融科技(南京)有限公司 集群资源的调度方法与***
CN110489301A (zh) * 2019-08-22 2019-11-22 上海中通吉网络技术有限公司 mapreduce任务性能的分析方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘佳艺;王芳;杨静怡;谭支鹏;: "异构Hadoop集群下的负载自适应反馈调度策略", 计算机工程与科学, no. 03, 15 March 2017 (2017-03-15), pages 12 - 22 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559859A (zh) * 2020-12-08 2021-03-26 杭州海康威视***技术有限公司 资源推荐方法、装置、电子设备及机器可读存储介质
CN112488412A (zh) * 2020-12-11 2021-03-12 北京字跳网络技术有限公司 时长信息确定方法、装置、电子设备及计算机存储介质
CN112559292A (zh) * 2020-12-18 2021-03-26 北京北方华创微电子装备有限公司 设备应用监控方法、半导体工艺设备
CN112508449B (zh) * 2020-12-21 2023-06-30 北京元心科技有限公司 任务执行方法、装置、电子设备及计算机可读存储介质
CN112508449A (zh) * 2020-12-21 2021-03-16 北京元心科技有限公司 任务执行方法、装置、电子设备及计算机可读存储介质
CN113064723A (zh) * 2021-03-23 2021-07-02 瀚云科技有限公司 存储介质、电子设备、总线资源分配方法及装置
CN113064723B (zh) * 2021-03-23 2024-05-24 瀚云科技有限公司 存储介质、电子设备、总线资源分配方法及装置
CN113094197A (zh) * 2021-04-09 2021-07-09 中国工商银行股份有限公司 一种指令提交异常的判断方法、装置、设备和存储介质
CN113268389A (zh) * 2021-06-09 2021-08-17 无锡炫我科技有限公司 异常节点监测的方法、装置、电子设备和可读存储介质
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
CN113468036B (zh) * 2021-07-15 2023-11-24 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN113468036A (zh) * 2021-07-15 2021-10-01 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN113778803A (zh) * 2021-09-13 2021-12-10 深圳市酷开网络科技股份有限公司 任务资源监控***、方法及存储介质

Similar Documents

Publication Publication Date Title
CN111290917A (zh) 基于yarn的资源监控方法、装置及终端设备
CN107832126B (zh) 一种线程的调整方法及其终端
CN108848039B (zh) 服务器、消息分配的方法及存储介质
CN109766172B (zh) 一种异步任务调度方法以及装置
CN111858055B (zh) 任务处理方法、服务器及存储介质
CN108829512B (zh) 一种云中心硬件加速计算力的分配方法、***和云中心
CN111506398B (zh) 任务调度方法和装置、存储介质、电子装置
CN112506808B (zh) 测试任务执行方法、计算设备、计算***和存储介质
CN111061570A (zh) 一种图像计算请求处理方法、装置及终端设备
CN112100034A (zh) 一种业务监控方法和装置
CN111464331B (zh) 一种线程创建的控制方法、***及终端设备
CN112860387A (zh) 分布式任务调度方法、装置、计算机设备及存储介质
CN109165135B (zh) 一种数据管理方法、计算机可读存储介质及终端设备
CN109889406B (zh) 用于管理网络连接的方法、装置、设备和存储介质
CN110912949B (zh) 位点提交方法和装置
CN110716805A (zh) 图形处理器的任务分配方法、装置、电子设备及存储介质
CN108924128A (zh) 一种移动终端及其进程间通信的限制方法、存储介质
CN115712572A (zh) 任务的测试方法、装置、存储介质及电子装置
CN109086132A (zh) 一种人脸识别任务均衡调用方法、装置及终端设备
CN110460663B (zh) 分布式节点间的数据分配方法、装置、服务器及存储介质
CN114675973A (zh) 资源管理方法、设备、存储介质及程序产品
CN102611578A (zh) 一种多网络设备环境下的网络设备数据管理***
CN110968397B (zh) 一种虚拟机容量管理的分析方法及装置
CN109117340A (zh) 一种移动终端及其进程间通信的监控方法、存储介质
CN115391042B (zh) 一种资源分配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination