CN113961327A - 一种针对大规模Hadoop集群资源调度管理办法 - Google Patents

一种针对大规模Hadoop集群资源调度管理办法 Download PDF

Info

Publication number
CN113961327A
CN113961327A CN202111256733.8A CN202111256733A CN113961327A CN 113961327 A CN113961327 A CN 113961327A CN 202111256733 A CN202111256733 A CN 202111256733A CN 113961327 A CN113961327 A CN 113961327A
Authority
CN
China
Prior art keywords
cluster
information
strategy
router
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111256733.8A
Other languages
English (en)
Inventor
于洋
高经郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kejie Technology Co ltd
Original Assignee
Beijing Kejie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kejie Technology Co ltd filed Critical Beijing Kejie Technology Co ltd
Priority to CN202111256733.8A priority Critical patent/CN113961327A/zh
Publication of CN113961327A publication Critical patent/CN113961327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对大规模Hadoop集群资源调度管理办法,通过设置一个全局控制各个RM的路由器,可获取并根据各个集群的状态信息来选择目标的子集群,实现集群资源的调度和管理,从而既可以方便各个子集群的管理,又可以提高资源的利用率。

Description

一种针对大规模Hadoop集群资源调度管理办法
技术领域
本发明涉及集群资源调度技术领域,具体涉及一种针对大规模Hadoop集群资源调度管理办法。
背景技术
随着企业内Hadoop集群持续使用,其节点规模不断扩张,不仅仅存储***会有性能瓶颈问题,计算***资源调度也存在性能瓶颈问题,比如ResourceManager服务,作为集群的资源管理器,基于应用程序对资源的需求进行调度。当ResourceManager下面管理着上千甚至上万个NodeManager节点时,会面临着许多性能问题,大量同时在跑的应用所触发的待处理的event数等待问题,导致任务运行获取资源效率差。一般这种情况,一个简单直接的方案是再搭建一个新的YARN集群。因为Hadoop中存储和计算是可以分离的,所以独立搭建YARN完全没有任何问题。之后引流一部分在线任务到新的YARN集群即可分担单集群的压力了。但是这套简单直接的方法会造成日后多个独立集群管理的不便,而且更为重要的一点是它无法保证资源的更高使用率,无法保证每个集群在资源空闲的时候能够及时地安排上任务执行。
发明内容
针对现有技术的不足,本发明旨在提供一种针对大规模Hadoop集群资源调度管理办法,解决ResourceManager的扩展性问题。
为了实现上述目的,本发明采用如下技术方案:
一种针对大规模Hadoop集群资源调度管理办法,具体过程为:
各个YARN子集群通过心跳汇报状态信息,各YARN子集群汇报的状态信息被持久化到了信息持久化存储器中;
策略生成角色根据集群的状态信息将相关调度策略信息写入策略信息存储器中;
客户端向路由器提交应用请求,路由器与策略信息存储器进行交互,获取策略信息,据此选择一个目标的子集群,然后将客户端的应用请求转发到目标的子集群上,同时提交的应用请求ID和目标子集群ID映射信息会被保存入信息持久化存储器中。
进一步地,所述信息持久化存储器是可选择的,基于memory、zk based或是SQLbased的都支持。
进一步地,路由器会对查询来的信息做高速缓冲处理。
本发明的有益效果在于:本发明通过设置一个全局控制各个RM的路由器,可获取并根据各个集群的状态信息来选择目标的子集群,实现集群资源的调度和管理,既可以方便各个子集群的管理,又可以提高资源的利用率。
附图说明
图1为本发明实施例中的方法实施的架构示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种针对大规模Hadoop集群资源调度管理办法,主要涉及两方面,多集群状态信息收集和存储以及客户端请求路由服务实现。
本年实施例的资源调度管理办法的一个重要目标是让众多独立小集群变为逻辑意义上的一个超大资源池。对于客户端来说,它直接面对的将不是众多具体的独立小集群。而要做到统一大集群资源,首先需要知道有哪些集群信息,包括集群id、地址、容量使用等等。而且需要将这些信息进行持久化操作,这样可以做到服务间的信息共享。另外,在客户端和背后多YARN小集群之间,需要有一个路由器Router的角色,实现智能的请求转发,这个角色有点load balancer的意思,又可以理解为是一个Proxy的role。Router需要用到之前持久化的多集群信息。其次,本实施例方法中,路由策略也会根据各个集群的状态信息实现目标集群的选择。
如图1所示,State Store部分即为信息持久化存储器。Policy Store为策略信息存储器,是由专门的策略生成类进行存放的。
一种针对大规模Hadoop集群资源调度管理办法的具体过程为:
各个YARN子集群(主要指ResourceManager)通过心跳汇报状态信息,各YARN子集群汇报的状态信息被持久化到了信息持久化存储器State Store中。所述State Store是可选择的,基于memory、zk based或是SQL based的都支持。
策略生成角色Policy Generator根据集群的状态信息将相关调度策略信息写入策略信息存储器Policy Store中。
客户端向路由器Router提交应用请求,路由器与策略信息存储器进行交互,获取策略信息,据此选择一个目标的子集群Cluster,然后将客户端的应用请求转发到目标的子集群上,同时提交的应用请求ID和目标子集群ID映射信息会被保存入信息持久化存储器State Store中。这是为了后续查询的方便,同样也是为了Router重启时应用状态的恢复。
本实施例方法中,为了性能上的考虑,减少频繁的信息获取,路由器Router会对查询来的信息做高速缓冲(cache)处理。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (3)

1.一种针对大规模Hadoop集群资源调度管理办法,其特征在于,具体过程为:
各个YARN子集群通过心跳汇报状态信息,各YARN子集群汇报的状态信息被持久化到了信息持久化存储器中;
策略生成角色根据集群的状态信息将相关调度策略信息写入策略信息存储器中;
客户端向路由器提交应用请求,路由器与策略信息存储器进行交互,获取策略信息,据此选择一个目标的子集群,然后将客户端的应用请求转发到目标的子集群上,同时提交的应用请求ID和目标子集群ID映射信息会被保存入信息持久化存储器中。
2.根据权利要求1所述的方法,其特征在于,所述信息持久化存储器是可选择的,基于memory、zk based或是SQL based的都支持。
3.根据权利要求1所述的方法,其特征在于,路由器会对查询来的信息做高速缓冲处理。
CN202111256733.8A 2021-10-27 2021-10-27 一种针对大规模Hadoop集群资源调度管理办法 Pending CN113961327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256733.8A CN113961327A (zh) 2021-10-27 2021-10-27 一种针对大规模Hadoop集群资源调度管理办法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111256733.8A CN113961327A (zh) 2021-10-27 2021-10-27 一种针对大规模Hadoop集群资源调度管理办法

Publications (1)

Publication Number Publication Date
CN113961327A true CN113961327A (zh) 2022-01-21

Family

ID=79467604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111256733.8A Pending CN113961327A (zh) 2021-10-27 2021-10-27 一种针对大规模Hadoop集群资源调度管理办法

Country Status (1)

Country Link
CN (1) CN113961327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114650170A (zh) * 2022-02-24 2022-06-21 京东科技信息技术有限公司 跨集群资源管理方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450977A (zh) * 2015-12-30 2017-12-08 北京典赞科技有限公司 基于yarn的面向gpgpu集群的资源管理调度方法
CN108737270A (zh) * 2018-05-07 2018-11-02 北京京东尚科信息技术有限公司 一种服务器集群的资源管理方法和装置
CN109117259A (zh) * 2018-07-25 2019-01-01 北京京东尚科信息技术有限公司 任务调度方法、平台、装置及计算机可读存储介质
CN109992407A (zh) * 2018-01-02 2019-07-09 ***通信有限公司研究院 一种yarn集群gpu资源调度方法、装置和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450977A (zh) * 2015-12-30 2017-12-08 北京典赞科技有限公司 基于yarn的面向gpgpu集群的资源管理调度方法
CN109992407A (zh) * 2018-01-02 2019-07-09 ***通信有限公司研究院 一种yarn集群gpu资源调度方法、装置和介质
CN108737270A (zh) * 2018-05-07 2018-11-02 北京京东尚科信息技术有限公司 一种服务器集群的资源管理方法和装置
CN109117259A (zh) * 2018-07-25 2019-01-01 北京京东尚科信息技术有限公司 任务调度方法、平台、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114650170A (zh) * 2022-02-24 2022-06-21 京东科技信息技术有限公司 跨集群资源管理方法、装置、设备和存储介质
CN114650170B (zh) * 2022-02-24 2024-02-02 京东科技信息技术有限公司 跨集群资源管理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
Guo et al. Improving mapreduce performance in heterogeneous network environments and resource utilization
CN105245617A (zh) 一种基于容器的服务器资源供给方法
CN109933631A (zh) 基于Infiniband网络的分布式并行数据库***及数据处理方法
CN104461740A (zh) 一种跨域集群计算资源聚合和分配的方法
CN102833289A (zh) 一种分布式云计算资源组织和任务分配方法
CN101753405A (zh) 集群服务器内存管理方法及其***
CN113961327A (zh) 一种针对大规模Hadoop集群资源调度管理办法
CN111404818B (zh) 一种面向通用多核网络处理器的路由协议优化方法
CN112612586A (zh) 一种基于反应式架构设计连接设备的方法及***
CN114063936B (zh) 一种优化定时任务的方法、***、设备和存储介质
Song et al. A triggering and scheduling approach for ETL in a real-time data warehouse
Shu et al. Dynamic load balancing and channel strategy for apache flume collecting real-time data stream
CN103176850A (zh) 一种基于负载均衡的电力***网络集群任务分配方法
Dabbagh et al. Online assignment and placement of cloud task requests with heterogeneous requirements
CN115665161B (zh) 一种clickhouse实时数据流负载均衡方法及***
CN113742073B (zh) 一种基于lsb接口的集群控制方法
CN111767305B (zh) 一种自适应的数据库混合查询方法
CN114238481A (zh) 一种分布式实时数据导入装置
Sun et al. Optimizing grid resource allocation by combining fuzzy clustering with application preference
Bao et al. Las: Logical-block affinity scheduling in big data analytics systems
JPH09179834A (ja) 並列システムにおけるプロセスのスケジューリング方法
Liu et al. Adapting State-Intensive Non-Blocking Queries over Distributed Environments
Cheng et al. Analysis on the Status of Big Data Processing Framework
CN117909061A (zh) 基于gpu混合集群的模型任务处理***和资源调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220121