CN109117115A - 数据运算调度处理方法及装置、存储介质、处理器 - Google Patents

数据运算调度处理方法及装置、存储介质、处理器 Download PDF

Info

Publication number
CN109117115A
CN109117115A CN201810777760.1A CN201810777760A CN109117115A CN 109117115 A CN109117115 A CN 109117115A CN 201810777760 A CN201810777760 A CN 201810777760A CN 109117115 A CN109117115 A CN 109117115A
Authority
CN
China
Prior art keywords
failure
data
information
scheduling request
failure cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810777760.1A
Other languages
English (en)
Inventor
刘喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike (Beijing) Data Technology Co.,Ltd.
Original Assignee
Jing Shuo Technology (beijing) Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jing Shuo Technology (beijing) Ltd By Share Ltd filed Critical Jing Shuo Technology (beijing) Ltd By Share Ltd
Priority to CN201810777760.1A priority Critical patent/CN109117115A/zh
Publication of CN109117115A publication Critical patent/CN109117115A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/57Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5033Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据运算调度处理方法及装置、存储介质、处理器。其中,该数据运算调度处理方法包括:发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;从失败信息中获取运算的失败原因信息;根据失败原因对运算进行调整,并再次发起调度请求。本发明解决了数据运算调度无法自适应调节的技术问题。

Description

数据运算调度处理方法及装置、存储介质、处理器
技术领域
本发明涉及大数据运算处理领域,具体而言,涉及一种数据运算调度处理方法及装置、存储介质、处理器。
背景技术
现在开源大数据技术已经被越来越多的企业用来解决海量数据的问题.它们都有一个共同的特征,就是使用廉价的硬件组合成集群,从而提供更强大的存储或计算能力.由于这些廉价的硬件是容易出故障的,所以几乎使有的大数据***都需要对“操作失败怎么办”或“计算失败怎么办”这类问题提供自己的方案。
大数据技术一般都自带了错误处理的机制,如Hadoop/Spark/Flink等等。这种机制一般运行在***的调度器层面,对于计算中发生的错误,一般都是简单的重新计算,如图1所示一种数据调度调整示意图。图1中的1,2,3,4,n,2n+1等代表事件发生的次序。大数据***的调度器先调度了第一次的“试”计算,结果计算失败了,这时调度器会再调度一次,结果第二次又失败了,如此循环,直到调度到第n+1次“试”计算成功,计算结束。或者是,“试”计算了n次都不成功,***直接判断计算失败,不再尝试了。
通过“简单重算”,可以很好地解决硬件故障带来的计算问题,但是它也带来了新的问题:由于开源大数据***绝大多数是运行在JVM(Java虚拟机)之上的,而JVM是需要事先指定使用多少内存的,开发者在开发时,其实不知道真正要使用多少内存,如果设置得太多,会造成资源浪费,如果设置得较少,就会经历上图中的循环,最后需要人工多次调整才能得到一个合理的配置。所以,使用“简单重算”的方案,对于由JVM的内存不够而产生的失败,会浪费大量的资源和时间,数据运算调度无法自适应调节,直到最后计算失败才能通过人工的多次干预来解决,费时费力。
针对数据运算调度无法自适应调节的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据运算调度处理方法及装置、存储介质、处理器,以至少解决数据运算调度无法自适应调节的技术问题。
根据本发明实施例的一个方面,提供了一种数据运算调度处理方法,包括:发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;从失败信息中获取运算的失败原因信息;根据失败原因对运算进行调整,并再次发起调度请求。
进一步地,在接收到失败信息的情况下,循环执行获取失败原因信息的步骤以及根据失败原因对运算进行调整并再次发起调度请求的步骤,直到运算成功。
进一步地,在失败原因信息包括预先分配的内存无法满足运算的需要的情况下,根据失败原因对运算进行调整包括:对运算增加内存分配。
进一步地,对运算增加内存分配包括:根据预先配置的内存分配策略对运算增加对应的内存。
进一步地,上述方法还包括:在运算成功后,保存对运算进行的调整,其中,保存的内容作为调度下一次运算的参考,下一次运算为与运算相似度超过阈值的运算。
进一步地,上述方法还包括:在进行的运算出现失败的次数超过阈值的情况下,进行告警,并保留失败原因信息。
根据本发明实施例的另一方面,还提供了一种数据运算调度处理装置,包括:发送单元,用于发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收单元,用于接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;获取单元,用于从失败信息中获取运算的失败原因信息;处理单元,用于根据失败原因对运算进行调整,并再次发起调度请求。
进一步地,上述装置还包括:循环单元,用于在接收到失败信息的情况下,循环执行获取失败原因信息的步骤以及根据失败原因对运算进行调整并再次发起调度请求的步骤,直到运算成功。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述任一项所述的数据运算调度处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的数据运算调度处理方法。
在本发明实施例中,采用发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败,通过从失败信息中获取运算的失败原因信息;根据失败原因对运算进行调整,并再次发起调度请求的方式,达到了自适应调节数据运算调度的目的,从而实现了提高了数据运算效率的技术效果,进而解决了数据运算调度无法自适应调节的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是现有技术中一种数据调度调整示意图;
图2是根据本发明实施例的数据运算调度处理方法的硬件环境的示意图;
图3是根据本发明实施例的数据运算调度处理方法的流程图;
图4是根据本发明优选实施例的另一种数据调度调整示意图;
图5是根据本发明实施例的数据运算调度处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据运算调度处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可选的,在本实施例中,上述数据运算调度处理方法可以应用于如图2所示的由服务器102和终端104所构成的硬件环境中。如图2所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的数据运算调度处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的数据运算调度处理方法也可以是由安装在其上的客户端来执行。
可选的,服务器102执行本发明实施例的数据运算调度处理方法的过程可以描述为:服务器102发送调度请求,其中,所述调度请求用于对数据进行运算得到运算结果;服务器102接收到失败信息,其中,所述失败信息用于指示对所述数据进行的所述运算出现失败;服务器102从所述失败信息中获取所述运算的失败原因信息;根据所述失败原因对所述运算进行调整,并再次发起调度请求。
可选的,终端104或者客户端执行本发明实施例的数据运算调度处理方法的过程可以描述为:终端104或者客户端发送调度请求,其中,所述调度请求用于对数据进行运算得到运算结果;终端104或者客户端接收到失败信息,其中,所述失败信息用于指示对所述数据进行的所述运算出现失败;终端104或者客户端从所述失败信息中获取所述运算的失败原因信息;根据所述失败原因对所述运算进行调整,并再次发起调度请求。
可选的,由服务器102和终端104或者客户端共同执行本发明实施例的数据运算调度处理方法的过程可以描述为:终端104或者客户端接收到失败信息,其中,所述失败信息用于指示对所述数据进行的所述运算出现失败;终端104或者客户端从所述失败信息中获取所述运算的失败原因信息发送给服务器102;服务器102根据所述失败原因对所述运算进行调整,并再次发起调度请求。
下面以客户端为执行主体对本发明实施例的数据运算调度处理方法进行详细说明。
图3是根据本发明实施例的数据运算调度处理方法的流程图,如图3所示,该方法包括如下步骤:
步骤S102,发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;
步骤S104,接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;
步骤S106,从失败信息中获取运算的失败原因信息;
步骤S108,根据失败原因对运算进行调整,并再次发起调度请求。
通过上述步骤,发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;从失败信息中获取运算的失败原因信息;根据失败原因对运算进行调整,并再次发起调度请求,可以实现对数据运算进行调度处理,进而实现对数据调度的快速调整,提高用户体验。
在步骤S102提供的方案中,本发明实施例对发送调度请求的形式不做具体限定,例如发送的调度请求可以是通过触发操作指令、短信的形式、语音的形式等。在实际应用过程中,需要对数据运算调度处理,更好的适应所要求的调度,以便于提高用户的使用体验。
在步骤S104提供的方案中,本发明实施例对接收到失败信息的形式不做具体限定,例如失败信息可以是指令语句、提示框的形式等。其中,失败信息用于指示对数据进行的运算出现失败,进而获取失败信息。
在步骤S106提供的方案中,本发明实施例中从失败信息中获取运算的失败原因信息,可选的,在接收到失败信息的情况下,循环执行获取失败原因信息的步骤以及根据失败原因对运算进行调整并再次发起调度请求的步骤,直到运算成功。可选的,在失败原因信息包括预先分配的内存无法满足运算的需要的情况下,根据失败原因对运算进行调整包括:对运算增加内存分配。其中,对运算增加内存分配包括:根据预先配置的内存分配策略对运算增加对应的内存。
在步骤S106提供的方案中,本发明实施例中根据失败原因对运算进行调整,并再次发起调度请求。可选的,在运算成功后,保存对运算进行的调整,其中,保存的内容作为调度下一次运算的参考,下一次运算为与运算相似度超过阈值的运算。可选的,在进行的运算出现失败的次数超过阈值的情况下,进行告警,并保留失败原因信息。
本发明实施例通过发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;从失败信息中获取运算的失败原因信息;根据失败原因对运算进行调整,并再次发起调度请求,达到了自适应调节数据运算调度的目的,从而实现了提高了数据运算效率的技术效果,进而解决了数据运算调度无法自适应调节的技术问题。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于失败反馈的内存自适应调度策略。
如图4所示,另一种数据调度调整示意图,该优选实施例的具体步骤如下:
第一步,第一步的调度和第二步的失败,没有差别;
第二步,当计算一旦失败后,不是采用简单的重新计算,而是新增加了一个智能调度的插件到调度器中,其中,这个插件的作用有:a)判断上一次的失败信息中是不是有JVM内存不够用的日志,如果有,则动态增加下一次重试时的内存设置,比如调整为比上次失败的值多10%,然后用新的参数启动;b)如果没有关注的信息(比如JVM内存不够),则有可能是其它原因导致的计算失败,直接简单重试即可;
第三步,如果新的一次重试计算成功,即把修改后的参数反馈到计算日志中,可供开发者直接使用;如果还是因为内存不够而失败,即重复第二步,直到成功或达到最大失败次数。
此外,该优选实施例中,内存调大只是其中一个具体的用法,还有CPU时间限制调整,内存调小以提高资源利用率等。
如果是因为内存原因导致的计算失败,则调度器不仅可以自适应地调整参数,减少无用的失败重试次数,还有可能在几次自动调整参数后让计算成功,并把合适的参数反馈给开发者,大大减少了人力的投入和资源的浪费。
更进一步的,当前只是考虑了“内存不够用”这样的种简单的情况,对于其它一些已知的错误,也可以加入固定的处理策略,因为“智能调度”是作为一个插件存在的,它里面可以添加各种优化的逻辑,从而可以达到“根据不同场景,使用不同的重算方式”这样一种更普遍的状态。例如:
一般调度中都会对于一个作业的最长运行时间有限制,比如我们设置了60秒,那么对于一个需要65秒来完成的作业,按常见的调度重试算法,就会不断失败,重试多少次都一样,因为它只是简单地用原来的参数重算。这个因素也可以作为一个智能调度的插件,从日志中检查是否有运行超时的内容,从而实现自动适应。
增加内存,可以防止内存不够用,而实际工作中有很多工程师直接就设置了太大的内存,浪费严重。我们还设计了“梯度减少内存”的智能插件,通过分析完成作业的日志,一旦发现内存的浪费,可以自动地减少内存参数的设置,从而达到提高资源利用率的效果。
基于上述内容,并不限定“智能调度”中的其他插件,加入到这个“智能调度”的体系中来。
通过上述优选实施列可以知晓:
1、如果是因为非内存原因导致的计算失败,比如硬件故障,新的方案的表现将和原方案一样,智能调度就相当于原来的简单调度。
2、如果是因为内存原因导致的计算失败,则调度器不仅可以自适应地调整参数,减少无用的失败重试次数,还有可能在几次自动调整参数后让计算成功,并把合适的参数反馈给开发者,大大减少了人力的投入和资源的浪费。
3、更进一步的,当前只是考虑了“内存不够用”这样的一种简单的情况,对于其它一些已知的错误,也可以加入固定的处理策略,因为“智能调度”是作为一个插件存在的,它里面可以添加各种优化的逻辑,从而可以达到“根据不同场景,使用不同的重算方式”这样一种更普遍的状态。
此外,基于失败反馈的内存自适应调度策略包含了如下几个要点:
1、调度的开始起始于“失败反馈”。
2、内存自适应,是自动参数优化的一种具体表现,其实一些已知问题,也可以通过本方案来自动解决。
3、“智能调度”模块,不一定要以插件的形式存在,甚至可以直接在调度器中实现,采用插件的形式,只是为了让它更加独立,逻辑更加清晰。
该优选实施例的核心保护点:
1、基于“失败反馈”的调度方式。
2、把“内存自适应”等已有知识作到智能调度反馈***里的方案。
3、把***自动优化的结果记录并反馈给开发者的方案。
根据本发明实施例,还提供了一种数据运算调度处理的装置实施例,需要说明的是,该数据运算调度处理装置可以用于执行本发明实施例中的数据运算调度处理方法,也即本发明实施例中的数据运算调度处理方法可以在该数据运算调度处理装置中执行。
图5是根据本发明实施例的数据运算调度处理装置的示意图,如图5所示,该装置可以包括:发送单元50,用于发送调度请求,其中,调度请求用于对数据进行运算得到运算结果;接收单元52,用于接收到失败信息,其中,失败信息用于指示对数据进行的运算出现失败;获取单元54,用于从失败信息中获取运算的失败原因信息;处理单元56,用于根据失败原因对运算进行调整,并再次发起调度请求。
需要说明的是,该实施例中的发送单元50可以用于执行本发明实施例中的步骤S102,该实施例中的接收单元52可以用于执行本发明实施例中的步骤S104,该实施例中的获取单元54可以用于执行本发明实施例中的步骤S106,该实施例中的处理单元56可以用于执行本发明实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
可选的,上述装置还包括:循环单元,用于在接收到失败信息的情况下,循环执行获取失败原因信息的步骤以及根据失败原因对运算进行调整并再次发起调度请求的步骤,直到运算成功。
可选的,上述处理单元包括:调整模块,用于在失败原因信息包括预先分配的内存无法满足运算的需要的情况下,对运算增加内存分配。
可选的,上述调整模块,还用于根据预先配置的内存分配策略对运算增加对应的内存。
可选地,上述装置还包括:保存单元,用于在运算成功后,保存对运算进行的调整,其中,保存的内容作为调度下一次运算的参考,下一次运算为与运算相似度超过阈值的运算。
可选地,上述装置还包括:告警单元,用于在进行的运算出现失败的次数超过阈值的情况下,进行告警,并保留失败原因信息。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的数据运算调度处理方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的数据运算调度处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据运算调度处理方法,其特征在于,包括:
发送调度请求,其中,所述调度请求用于对数据进行运算得到运算结果;
接收到失败信息,其中,所述失败信息用于指示对所述数据进行的所述运算出现失败;
从所述失败信息中获取所述运算的失败原因信息;
根据所述失败原因对所述运算进行调整,并再次发起调度请求。
2.根据权利要求1所述的方法,其特征在于,在接收到所述失败信息的情况下,循环执行获取所述失败原因信息的步骤以及根据所述失败原因对所述运算进行调整并再次发起调度请求的步骤,直到所述运算成功。
3.根据权利要求1所述的方法,其特征在于,在所述失败原因信息包括预先分配的内存无法满足所述运算的需要的情况下,根据所述失败原因对所述运算进行调整包括:
对所述运算增加内存分配。
4.根据权利要求3所述的方法,其特征在于,对所述运算增加内存分配包括:
根据预先配置的内存分配策略对所述运算增加对应的内存。
5.根据权利要求2至4中任一项所述的方法,其特征在于,在所述运算成功后,所述方法还包括:
保存对所述运算进行的调整,其中,保存的内容作为调度下一次运算的参考,所述下一次运算为与所述运算相似度超过阈值的运算。
6.根据权利要求2至4中任一项所述的方法,其特征在于,在进行的所述运算出现失败的次数超过阈值的情况下,所述方法还包括:
进行告警,并保留所述失败原因信息。
7.一种数据运算调度处理装置,其特征在于,包括:
发送单元,用于发送调度请求,其中,所述调度请求用于对数据进行运算得到运算结果;
接收单元,用于接收到失败信息,其中,所述失败信息用于指示对所述数据进行的所述运算出现失败;
获取单元,用于从所述失败信息中获取所述运算的失败原因信息;
处理单元,用于根据所述失败原因对所述运算进行调整,并再次发起调度请求。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
循环单元,用于在接收到所述失败信息的情况下,循环执行获取所述失败原因信息的步骤以及根据所述失败原因对所述运算进行调整并再次发起调度请求的步骤,直到所述运算成功。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任一项所述的方法。
CN201810777760.1A 2018-07-16 2018-07-16 数据运算调度处理方法及装置、存储介质、处理器 Pending CN109117115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810777760.1A CN109117115A (zh) 2018-07-16 2018-07-16 数据运算调度处理方法及装置、存储介质、处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810777760.1A CN109117115A (zh) 2018-07-16 2018-07-16 数据运算调度处理方法及装置、存储介质、处理器

Publications (1)

Publication Number Publication Date
CN109117115A true CN109117115A (zh) 2019-01-01

Family

ID=64862623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810777760.1A Pending CN109117115A (zh) 2018-07-16 2018-07-16 数据运算调度处理方法及装置、存储介质、处理器

Country Status (1)

Country Link
CN (1) CN109117115A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198370A1 (en) * 2010-05-14 2013-08-01 Hitachi, Ltd. Method for visualizing server reliability, computer system, and management server
US20140189689A1 (en) * 2012-12-28 2014-07-03 Fujitsu Limited Apparatus for controlling information processing system, computer-readable recording medium storing program thereof, and method thereof
CN104112056A (zh) * 2013-04-18 2014-10-22 腾讯科技(深圳)有限公司 数据处理的故障检测方法和***
CN105808346A (zh) * 2014-12-30 2016-07-27 华为技术有限公司 一种任务调度方法与装置
CN105893225A (zh) * 2015-08-25 2016-08-24 乐视网信息技术(北京)股份有限公司 一种错误自动处理方法及装置
CN106959895A (zh) * 2016-01-12 2017-07-18 阿里巴巴集团控股有限公司 快速释放线程的资源调度方法和***
CN107197017A (zh) * 2017-05-23 2017-09-22 努比亚技术有限公司 一种基于消费队列的消费方法、终端及计算机可读存储介质
CN107807845A (zh) * 2017-10-16 2018-03-16 昆仑智汇数据科技(北京)有限公司 一种增量式数据并行处理装置与方法
CN108196936A (zh) * 2017-12-26 2018-06-22 华为技术有限公司 一种资源调度方法、设备及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198370A1 (en) * 2010-05-14 2013-08-01 Hitachi, Ltd. Method for visualizing server reliability, computer system, and management server
US20140189689A1 (en) * 2012-12-28 2014-07-03 Fujitsu Limited Apparatus for controlling information processing system, computer-readable recording medium storing program thereof, and method thereof
CN104112056A (zh) * 2013-04-18 2014-10-22 腾讯科技(深圳)有限公司 数据处理的故障检测方法和***
CN105808346A (zh) * 2014-12-30 2016-07-27 华为技术有限公司 一种任务调度方法与装置
CN105893225A (zh) * 2015-08-25 2016-08-24 乐视网信息技术(北京)股份有限公司 一种错误自动处理方法及装置
CN106959895A (zh) * 2016-01-12 2017-07-18 阿里巴巴集团控股有限公司 快速释放线程的资源调度方法和***
CN107197017A (zh) * 2017-05-23 2017-09-22 努比亚技术有限公司 一种基于消费队列的消费方法、终端及计算机可读存储介质
CN107807845A (zh) * 2017-10-16 2018-03-16 昆仑智汇数据科技(北京)有限公司 一种增量式数据并行处理装置与方法
CN108196936A (zh) * 2017-12-26 2018-06-22 华为技术有限公司 一种资源调度方法、设备及***

Similar Documents

Publication Publication Date Title
CN108768877B (zh) 一种突发流量的分配方法、装置及代理服务器
CN109586952B (zh) 服务器扩容方法、装置
CN107992362B (zh) 自动化性能测试的方法、装置及***
CN106470123B (zh) 日志收集方法、客户端、服务器和电子设备
CN104199739B (zh) 一种基于负载均衡的推测式Hadoop调度方法
CN108829510B (zh) 线程绑定处理方法和装置
CN110601935A (zh) 智能家居操作***中任务的处理方法、装置及云平台***
CN112486642B (zh) 资源调度方法、装置、电子设备及计算机可读存储介质
US20220318065A1 (en) Managing computer workloads across distributed computing clusters
CN111147538A (zh) 服务功能链路径选择方法与***
CN106570011B (zh) 一种分布式爬虫url种子分发方法、调度节点及抓取节点
WO2021213365A1 (zh) 基于基站群的数据处理方法、基站、基站***及计算机可读介质
EP3672203A1 (en) Distribution method for distributed data computing, device, server and storage medium
CN108234617B (zh) 一种面向电力***混合云模式下的资源动态调度方法
CN109117115A (zh) 数据运算调度处理方法及装置、存储介质、处理器
CN114489963A (zh) 人工智能应用任务的管理方法、***、设备及存储介质
CN115601221B (zh) 一种资源的分配方法、装置和一种人工智能训练***
US10200510B2 (en) Method and apparatus for loading web page
CN113127179A (zh) 资源调度方法、装置、电子设备及计算机可读介质
CN105760215A (zh) 基于映射规约模型分布式文件***作业的运行方法
US11526784B2 (en) Real-time server capacity optimization tool using maximum predicted value of resource utilization determined based on historica data and confidence interval
CN114936089A (zh) 资源调度方法、***、设备及存储介质
CN102238022A (zh) 一种网络管理***及数据采集方法
CN112559148A (zh) 有序任务的执行方法、执行装置和执行***
CN111782364A (zh) 服务调用方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201221

Address after: 136a, 1st floor, D-1 building, Dongsheng Science Park, 66 xixiaokou Road, Haidian District, Beijing 100080 (Dongsheng area)

Applicant after: Enyike (Beijing) Data Technology Co.,Ltd.

Address before: Room 9014, 9 / F, building 3, yard 30, Shixing street, Shijingshan District, Beijing 100041

Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101

RJ01 Rejection of invention patent application after publication