CN117170812B - 一种基于研发运维一体化架构的数值预报计算云*** - Google Patents
一种基于研发运维一体化架构的数值预报计算云*** Download PDFInfo
- Publication number
- CN117170812B CN117170812B CN202311148883.6A CN202311148883A CN117170812B CN 117170812 B CN117170812 B CN 117170812B CN 202311148883 A CN202311148883 A CN 202311148883A CN 117170812 B CN117170812 B CN 117170812B
- Authority
- CN
- China
- Prior art keywords
- node
- application
- numerical forecasting
- target node
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012827 research and development Methods 0.000 title claims abstract description 41
- 238000012423 maintenance Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 title claims abstract description 9
- 238000011161 development Methods 0.000 claims abstract description 19
- 238000010397 one-hybrid screening Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于研发运维一体化架构的数值预报计算云***,包括:混合集群,包含至少一个混合节点;镜像仓库,用于存储多个Docker基础镜像及多个数值预报应用镜像;转换单元,用于将多个Docker应用镜像同步转换为多个Singularity应用镜像;节点调度单元,用于接收应用研发任务,从混合集群中确定第一目标节点,第一目标节点供K8S调度器调度,第一目标节点用于数值预报应用的研发;节点调度单元还用于接收业务作业任务,从混合集群中确定第二目标节点,第二目标节点供Slurm调度器调度,第二目标节点用于拉取数值预报应用并运行作业,具有整合数值预报的研发运维环境,提升硬件资源利用率的优点。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种基于研发运维一体化架构的数值预报计算云***。
背景技术
目前应用于数值预报领域的高性能集群的集群调度器主要为slurm,主流的高性能容器为Singularity容器,应用于计算的集群调度器主要是Kubernetes(简称K8S),主流的容器为Docker容器,容器技术能够实现计算环境的封装保存、快速部署、重复使用和安全隔离,在近几年获得了迅猛发展,其中技术更为成熟、隔离性更强的Docker容器及其主流编排***K8S,主要侧重于容器化应用的制作和管理,适用于数值预报研发***;而轻量化、弱隔离的Singularity容器及其主流作业调度***Slurm,则主要侧重于高性能计算集群的资源管理和作业调度,适用于数值预报业务***。然而,Slurm与K8S目前并不兼容,导致数值预报业务***难以快速部署研发***创建的容器化应用,并且二者也无法共享底层计算资源,这造成了研发环境与业务环境分离以及硬件计算资源的极大浪费。
因此,需要提供一种基于研发运维一体化架构的数值预报计算云***,用于实现Slrum节点和K8S节点的资源共享和混合调度,从而整合数值预报的研发运维环境,提升硬件资源利用率。
发明内容
本说明书实施例之一提供一种基于研发运维一体化架构的数值预报计算云***,包括:混合集群,包括Slurm集群和K8S集群,所述混合集群包括至少一个Slurm节点、至少一个混合节点及至少一个K8S节点,所述混合节点在同一时间供所述Slurm集群和所述K8S集群中的一个调度;镜像仓库,用于存储多个Docker基础镜像及多个数值预报应用镜像;转换单元,用于将所述多个Docker应用镜像同步转换为多个Singularity应用镜像;共享存储单元,用于存储所述转换单元转换的所述多个Singularity应用镜像;节点调度单元,用于接收应用研发任务,从所述混合集群中确定第一目标节点,其中,所述第一目标节点供所述K8S调度器调度,所述第一目标节点用于数值预报应用的研发;所述节点调度单元还用于接收业务作业任务,从所述混合集群中确定第二目标节点,其中,所述第二目标节点供所述Slurm调度器调度,所述第二目标节点用于拉取数值预报应用并运行作业。
在一些实施例中,所述第一目标节点进行数值预报应用的研发,包括:所述第一目标节点调度分配用于进行所述镜像制作任务的计算资源;从所述镜像仓库拉取目标Docker基础镜像;基于所述目标Docker基础镜像及用户指令制作数值预报应用镜像,并将制作的所述数值预报应用镜像固化上传至所述镜像仓库。
在一些实施例中,所述第二目标节点拉取数值预报应用并运行作业,包括:所述第二目标节点调度分配用于进行所述业务作业任务的计算资源;从所述共享存储单元拉取目标Singularity应用镜像;基于所述目标Singularity应用镜像及数值预报任务脚本运行数值预报应用程序。
在一些实施例中,所述多个Docker基础镜像至少包括MySQL应用镜像、编程语言镜像及操作***镜像。
在一些实施例中,所述多个数值预报应用镜像至少包括HPL应用镜像、Fvcom应用镜像及WRF应用镜像。
在一些实施例中,所述节点调度单元从所述混合集群中确定第一目标节点,包括:在Volcano调度器上安装节点组优先级插件;对所述至少一个混合节点及至少一个K8S节点按照资源类型进行分组,生成多个节点组,为每个所述节点组配置优先级;所述Volcano调度器基于每个所述节点组配置优先级,从所述至少一个混合节点及至少一个K8S节点中确定所述第一目标节点。
在一些实施例中,所述多个节点组至少包括Slurm节点组、混合CPU节点组、混合GPU节点组、K8S CPU节点组及K8S GPU节点组;所述Volcano调度器基于每个所述节点组配置优先级,从所述至少一个混合节点及至少一个K8S节点中确定所述第一目标节点,包括:判断所述K8S CPU节点组中是否存在所述第一目标节点;若所述K8S CPU节点组中不存在所述第一目标节点,判断所述混合CPU节点组中是否存在所述第一目标节点;若所述混合CPU节点组中不存在所述第一目标节点,判断所述K8S GPU节点组中是否存在所述第一目标节点;若所述K8S GPU节点组中不存在所述第一目标节点,判断所述混合GPU节点组是否存在所述第一目标节点。
在一些实施例中,所述节点调度单元还用于维护混合节点列表,其中,所述混合节点列表用于记录每个所述Slurm节点、每个所述混合节点及每个所述K8S节点的运行标识。
在一些实施例中,所述第一目标节点至少用于数值预报应用程序的研发、研发环境和资源的管理、数值预报应用镜像的创建和容器的管理;所述第二目标节点至少用于管理数值预报应用的运行环境、计算资源、运行结果和运行日记。
在一些实施例中,所述镜像制作任务由具备root权限的研发用户发起;所述业务作业任务由不具备root权限的业务用户发起。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的基于研发运维一体化架构的数值预报计算云***的模块图;
图2是根据本说明书一些实施例所示的研发运维环境一体化***架构的结构示意图;
图3是根据本说明书一些实施例所示的进行数值预报应用的研发及运行作业的流程示意图;
图4是根据本说明书一些实施例所示的从混合集群中确定第一目标节点的流程示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“***”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
先对本说明书涉及的名词进行说明。
数值预报,是HPC的一项应用,通过大型计算机进行数值运算,以求解大气运动基本方程组,从而预报未来时刻的大气运动状态和天气现象;
Kubernetes:是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。
Pod(容器组):是kubernetes管理的最小单元,多个容器组合在一起叫做Pod。
Volcano:Volcano是CNCF下首个也是唯一的基于Kubernetes的容器批量计算平台,主要用于高性能计算场景。它提供了Kubernetes目前缺少的一套机制,这些机制通常是机器学习大数据应用、科学计算、特效渲染等多种高性能工作负载所需的。
Volcano Job:简称VcJob,是Volcano自定义的Job资源类型。区别于KubernetesJob,VcJob提供了更多高级功能,如可指定调度器、支持最小运行Pod数、支持Task、支持生命周期管理、支持指定队列、支持优先级调度等。Volcano Job更加适用于机器学习、大数据、科学计算等高性能计算场景。
CPU:中央处理器(Central Processing Unit,简称CPU)作为计算机***的运算和控制核心,是信息处理、程序运行的最终执行单元。
GPU:图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
Volcano Controller:Volcano的控制器,在集群上管理Volcano Job。
Volcano Scheduler:Volcano Scheduler通过一系列的动作和插件调度VolcanoJob,并为它找到一个最适合的节点。
Slurm:Slurm工作调度工具是面向Linux和Unix类似内核的免费和开源工作调度程序,由世界上许多超级计算机和计算机集群使用。
Singularity:Singularity是一个容器平台。它允许您创建和运行以可移植和可重复的方式打包软件的容器。您可以在笔记本电脑上使用Singularity构建容器,然后在世界上许多最大的HPC集群、本地大学或公司集群、单个服务器、云中或大厅下的工作站上运行它。
Harbor,是一个用于存储和分发Docker镜像的企业级镜像仓库服务器,提供权限管理、日志审阅、分层传输、水平扩展、镜像复制、图形化界面等诸多实用功能。
容器镜像,使用Docker打包获得的只读容器,其内容在构建之后也不会被改变,可以被认为是标准化的容器模板,而容器则是镜像的运行实例。
基于研发运维一体化架构的数值预报计算云***可以用于实现研发运维环境一体化***架构,图2是根据本说明书一些实施例所示的研发运维环境一体化***架构的结构示意图,如图2所示,研发运维环境一体化***架构包括数值预报研发***和数值预报业务***两部分,分别应用于研发场景和业务场景。在数值预报研发***中,研发用户使用K8S和Docker技术,进行数值预报应用程序的研发、应用镜像的创建、容器的管理等工作;在数值预报业务***中,一般业务用户使用Slurm和Singularity技术,拉取研发***构建的预报应用程序并运行作业。容器是一种虚拟化技术,可以为应用程序提供隔离的运行空间,并将程序运行的***环境进行封装保存和快速移植。不同容器之间共享一个***内核,因而相比于虚拟机,容器具有资源占用更少、启动时间更短,迁移部署更便捷等特性。
架构同时构建数值预报研发***中的K8S集群和数值预报研发***中的Slurm集群,并且在二者间建立通讯机制,协同调度物理计算节点,通过动态获取和释放节点资源的方式,共享底层硬件计算资源。
架构中数值预报研发***中的Docker是目前使用最广泛的容器技术,但不适用于没有root权限的数值预报普通业务用户。
架构中数值预报业务***中的Singularity具有简单、可移植、易扩展、易分发、用户权限在容器内外一致等特征,比Docker更适用于数值预报应用的容器化部署,但缺乏Docker更成熟的社区支持以及高质量镜像,也无法使用K8S等高效的容器编排***。
在一些实施例中,在数值预报研发***中,可以在K8S集群基础上引入Volcano框架,用以处理数值预报批量任务。Volcano框架加强了K8S的作业调度能力,,能够弥补K8S调度能力的不足,并且支持机器学习、深度学习、大数据等领域的大量主流计算框架。
图1是根据本说明书一些实施例所示的基于研发运维一体化架构的数值预报计算云***的模块图,如图1所示,基于研发运维一体化架构的数值预报计算云***至少包括混合集群、镜像仓库、转换单元、共享存储单元及节点调度单元。
混合集群可以包括Slurm集群和K8S集群,混合集群包括至少一个Slurm节点、至少一个混合节点及至少一个K8S节点,混合节点在同一时间供Slurm集群和K8S集群中的一个调度。
镜像仓库可以用于存储多个Docker基础镜像及多个数值预报应用镜像。其中,多个Docker基础镜像至少包括MySQL应用镜像、编程语言(例如,Python等)镜像及操作***(例如,Centos等)镜像,多个数值预报应用镜像至少包括HPL应用镜像、Fvcom(Finite-Volume Coastal Ocean Model)应用镜像及WRF(Weather Research and Forecasting)应用镜像。
转换单元可以用于将多个Docker应用镜像同步转换为多个Singularity应用镜像。
共享存储单元可以用于存储转换单元转换的多个Singularity应用镜像。多个Singularity应用镜像可以被存储于云平台共享存储***中,共享存储***目录可以挂载到实例化的容器中实现数据持久化存储。云平台共享存储***将挂载到物理集群中,其上的Singularity应用镜像(SIF文件)可以被业务用户实例化后通过Slurm调度执行。
节点调度单元可以用于接收应用研发任务,从混合集群中确定第一目标节点,其中,第一目标节点供K8S调度器调度,第一目标节点至少用于数值预报应用程序的研发、研发环境和资源的管理、数值预报应用镜像的创建和容器的管理,镜像制作任务可以由具备root权限的研发用户发起。
节点调度单元还用于接收业务作业任务,从混合集群中确定第二目标节点,其中,第二目标节点供Slurm调度器调度,第二目标节点用于拉取数值预报应用并运行作业,第二目标节点还至少用于管理数值预报应用的运行环境、计算资源、运行结果和运行日记,业务作业任务可以由不具备root权限的业务用户发起。
图3是根据本说明书一些实施例所示的进行数值预报应用的研发及运行作业的流程示意图,如图3所示,在一些实施例中,第一目标节点进行数值预报应用的研发,包括:
第一目标节点调度分配用于进行镜像制作任务的计算资源;
从镜像仓库拉取目标Docker基础镜像;
基于目标Docker基础镜像及用户指令制作数值预报应用镜像,并将制作的数值预报应用镜像固化上传至镜像仓库。
如图3所示,在一些实施例中,第二目标节点拉取数值预报应用并运行作业,包括:
第二目标节点调度分配用于进行业务作业任务的计算资源;
从共享存储单元拉取目标Singularity应用镜像;
基于目标Singularity应用镜像及数值预报任务脚本运行数值预报应用程序。
在一些实施例中,节点调度单元从混合集群中确定第一目标节点,包括:
在Volcano调度器上安装节点组优先级插件;
对至少一个混合节点及至少一个K8S节点按照资源类型进行分组,生成多个节点组,为每个节点组配置优先级,其中,多个节点组至少包括Slurm节点组、混合CPU节点组、混合GPU节点组、K8S CPU节点组及K8S GPU节点组;
Volcano调度器基于每个节点组配置优先级,从至少一个混合节点及至少一个K8S节点中确定第一目标节点。
图4是根据本说明书一些实施例所示的从混合集群中确定第一目标节点的流程示意图,如图4所示,在一些实施例中,Volcano调度器基于每个节点组配置优先级,从至少一个混合节点及至少一个K8S节点中确定第一目标节点,包括:
判断K8S CPU节点组中是否存在第一目标节点;
若K8S CPU节点组中不存在第一目标节点,判断混合CPU节点组中是否存在第一目标节点;
若混合CPU节点组中不存在第一目标节点,判断K8S GPU节点组中是否存在第一目标节点;
若K8S GPU节点组中不存在第一目标节点,判断混合GPU节点组是否存在第一目标节点。
在一些实施例中,节点调度单元还用于维护混合节点列表,其中,混合节点列表用于记录每个Slurm节点、每个混合节点及每个K8S节点的运行标识。运行标识为idle时,则两类集群任务均可调度运行该节点。当节点运行了某一类集群任务时,将该运行标识设定为只能运行该任务。节点的任务完成后,将该节点的运行标识重新设定为idle。
可以理解的,基于研发运维一体化架构的数值预报计算云***可以至少包括以下有益效果:
1、能够实现研发环境的共享与快速构建,减少多用户安装部署数值预报***的时间;
2、能够实现研发环境的封装保存,通过封装的文件实现数值预报研发环境的快速恢复;
3、能够实现从研发环境到运行环境的高效迁移,避免传统数值预报***环境复杂、依赖众多、部署困难、可移植差等问题;
4、K8S和Slurm集群相互通讯,共享底层计算资源,提升资源利用效率;
5、Slurm直接调度物理节点,不再使用多级调度策略,调度效率极大提升;
6、容器实例环境直接被Slurm物理集群调度使用,仅使用一层容器,容器化性能损耗更小;
7、通过Singularity容器打包数值预报应用,进一步降低容器化性能损耗;
8、实现了Slurm集群的弹性伸缩,保障集群存算资源能够根据用户任务需求动态调度;
9、通过在共享环境下原生地运行Slurm和K8S,避免Slurm和K8S嵌套调度的复杂性和不确定性,保证了***稳定性。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (8)
1.一种基于研发运维一体化架构的数值预报计算云***,其特征在于,包括:
混合集群,包括Slurm集群和K8S集群,所述混合集群包括至少一个Slurm节点、至少一个混合节点及至少一个K8S节点,所述混合节点在同一时间供所述Slurm集群和所述K8S集群中的一个调度;
镜像仓库,用于存储多个Docker基础镜像及多个数值预报应用镜像;
转换单元,用于将所述多个Docker应用镜像同步转换为多个Singularity应用镜像;
共享存储单元,用于存储所述转换单元转换的所述多个Singularity应用镜像;
节点调度单元,用于接收应用研发任务,从所述混合集群中确定第一目标节点,其中,所述第一目标节点供所述K8S调度器调度,所述第一目标节点用于数值预报应用的研发;
所述节点调度单元还用于接收业务作业任务,从所述混合集群中确定第二目标节点,其中,所述第二目标节点供所述Slurm调度器调度,所述第二目标节点用于拉取数值预报应用并运行作业;
所述节点调度单元从所述混合集群中确定第一目标节点,包括:
在Volcano调度器上安装节点组优先级插件;
对所述至少一个混合节点及至少一个K8S节点按照资源类型进行分组,生成多个节点组,为每个所述节点组配置优先级;
所述Volcano调度器基于每个所述节点组配置优先级,从所述至少一个混合节点及至少一个K8S节点中确定所述第一目标节点;
所述多个节点组至少包括Slurm节点组、混合CPU节点组、混合GPU节点组、K8S CPU节点组及K8S GPU节点组;
所述Volcano调度器基于每个所述节点组配置优先级,从所述至少一个混合节点及至少一个K8S节点中确定所述第一目标节点,包括:
判断所述K8S CPU节点组中是否存在所述第一目标节点;
若所述K8S CPU节点组中不存在所述第一目标节点,判断所述混合CPU节点组中是否存在所述第一目标节点;
若所述混合CPU节点组中不存在所述第一目标节点,判断所述K8S GPU节点组中是否存在所述第一目标节点;
若所述K8S GPU节点组中不存在所述第一目标节点,判断所述混合GPU节点组是否存在所述第一目标节点。
2.根据权利要求1所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述第一目标节点进行数值预报应用的研发,包括:
所述第一目标节点调度分配用于进行所述镜像制作任务的计算资源;
从所述镜像仓库拉取目标Docker基础镜像;
基于所述目标Docker基础镜像及用户指令制作数值预报应用镜像,并将制作的所述数值预报应用镜像固化上传至所述镜像仓库。
3.根据权利要求1所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述第二目标节点拉取数值预报应用并运行作业,包括:
所述第二目标节点调度分配用于进行所述业务作业任务的计算资源;
从所述共享存储单元拉取目标Singularity应用镜像;
基于所述目标Singularity应用镜像及数值预报任务脚本运行数值预报应用程序。
4.根据权利要求1所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述多个Docker基础镜像至少包括MySQL应用镜像、编程语言镜像及操作***镜像。
5.根据权利要求4所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述多个数值预报应用镜像至少包括HPL应用镜像、Fvcom应用镜像及WRF应用镜像。
6.根据权利要求1-5中任意一项所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述节点调度单元还用于维护混合节点列表,其中,所述混合节点列表用于记录每个所述Slurm节点、每个所述混合节点及每个所述K8S节点的运行标识。
7.根据权利要求1-5中任意一项所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述第一目标节点至少用于数值预报应用程序的研发、研发环境和资源的管理、数值预报应用镜像的创建和容器的管理;
所述第二目标节点至少用于管理数值预报应用的运行环境、计算资源、运行结果和运行日记。
8.根据权利要求1-5中任意一项所述的一种基于研发运维一体化架构的数值预报计算云***,其特征在于,所述镜像制作任务由具备root权限的研发用户发起;
所述业务作业任务由不具备root权限的业务用户发起。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148883.6A CN117170812B (zh) | 2023-09-07 | 2023-09-07 | 一种基于研发运维一体化架构的数值预报计算云*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311148883.6A CN117170812B (zh) | 2023-09-07 | 2023-09-07 | 一种基于研发运维一体化架构的数值预报计算云*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117170812A CN117170812A (zh) | 2023-12-05 |
CN117170812B true CN117170812B (zh) | 2024-05-03 |
Family
ID=88944615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311148883.6A Active CN117170812B (zh) | 2023-09-07 | 2023-09-07 | 一种基于研发运维一体化架构的数值预报计算云*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117170812B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017045424A1 (zh) * | 2015-09-18 | 2017-03-23 | 乐视控股(北京)有限公司 | 一种应用程序部署***及部署方法 |
CN112835714A (zh) * | 2021-01-29 | 2021-05-25 | 中国人民解放军国防科技大学 | 云边环境中面向cpu异构集群的容器编排方法、***及介质 |
CN112965819A (zh) * | 2021-03-04 | 2021-06-15 | 山东英信计算机技术有限公司 | 一种容器资源跨处理器架构混合调度的方法及装置 |
WO2021208546A1 (zh) * | 2020-04-16 | 2021-10-21 | 南京邮电大学 | Kubernetes集群架构***下多维资源调度方法 |
CN114968601A (zh) * | 2022-07-28 | 2022-08-30 | 合肥中科类脑智能技术有限公司 | 一种按比例预留资源的ai训练作业的调度方法和调度*** |
CN115118723A (zh) * | 2022-05-31 | 2022-09-27 | 中科曙光国际信息产业有限公司 | 集群调度*** |
WO2022227447A1 (zh) * | 2021-04-27 | 2022-11-03 | 上海商汤科技开发有限公司 | 一种任务处理装置、方法、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377520B (zh) * | 2021-07-07 | 2023-03-24 | 北京百度网讯科技有限公司 | 资源调度方法、装置、设备以及存储介质 |
-
2023
- 2023-09-07 CN CN202311148883.6A patent/CN117170812B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017045424A1 (zh) * | 2015-09-18 | 2017-03-23 | 乐视控股(北京)有限公司 | 一种应用程序部署***及部署方法 |
WO2021208546A1 (zh) * | 2020-04-16 | 2021-10-21 | 南京邮电大学 | Kubernetes集群架构***下多维资源调度方法 |
CN112835714A (zh) * | 2021-01-29 | 2021-05-25 | 中国人民解放军国防科技大学 | 云边环境中面向cpu异构集群的容器编排方法、***及介质 |
CN112965819A (zh) * | 2021-03-04 | 2021-06-15 | 山东英信计算机技术有限公司 | 一种容器资源跨处理器架构混合调度的方法及装置 |
WO2022227447A1 (zh) * | 2021-04-27 | 2022-11-03 | 上海商汤科技开发有限公司 | 一种任务处理装置、方法、计算机设备及存储介质 |
CN115118723A (zh) * | 2022-05-31 | 2022-09-27 | 中科曙光国际信息产业有限公司 | 集群调度*** |
CN114968601A (zh) * | 2022-07-28 | 2022-08-30 | 合肥中科类脑智能技术有限公司 | 一种按比例预留资源的ai训练作业的调度方法和调度*** |
Non-Patent Citations (3)
Title |
---|
基于容器技术的电力***业务应用资源池***设计研究;耿贞伟;权鹏宇;李少华;;数字技术与应用;20170115(01);全文 * |
自定义任务调度***的快速构建;于连河;;电信快报;20200810(08);全文 * |
面向容器的集群资源管理***研究;李英华;;无线互联科技;20170410(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117170812A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262390B1 (en) | Managing access to a resource pool of graphics processing units under fine grain control | |
WO2020108303A1 (zh) | 一种基于异构计算的任务处理方法及软硬件框架*** | |
US9946563B2 (en) | Batch scheduler management of virtual machines | |
CN104794194B (zh) | 一种面向大规模多媒体检索的分布式异构并行计算*** | |
CN104123182B (zh) | 基于主从架构的MapReduce任务跨数据中心调度***及方法 | |
CN101599026A (zh) | 一种具有弹性架构的集群作业调度*** | |
US9104491B2 (en) | Batch scheduler management of speculative and non-speculative tasks based on conditions of tasks and compute resources | |
CN112395736B (zh) | 一种分布交互仿真***的并行仿真作业调度方法 | |
CN113504902B (zh) | 工业app集成开发***及相关设备 | |
CN111353609A (zh) | 一种机器学习*** | |
CN115686805A (zh) | Gpu资源共享的方法和装置、调度gpu资源共享的方法和装置 | |
CN113377493A (zh) | 一种容器云仿真***及其设计方法 | |
Ye et al. | SHWS: Stochastic hybrid workflows dynamic scheduling in cloud container services | |
Hu et al. | GPGPU cloud: A paradigm for general purpose computing | |
CN112860396B (zh) | 一种基于分布式深度学习的gpu调度方法及*** | |
CN117170812B (zh) | 一种基于研发运维一体化架构的数值预报计算云*** | |
CN116302581B (zh) | 一种新型智能配电终端及*** | |
CN117435324A (zh) | 基于容器化的任务调度方法 | |
CN103582877A (zh) | 计算机***中断处理 | |
US9898343B2 (en) | Application-level dispatcher control of application-level pseudo threads and operating system threads | |
CN111400021B (zh) | 一种深度学习方法、装置及*** | |
CN115080207A (zh) | 基于容器集群的任务处理方法及装置 | |
CN115269140A (zh) | 一种基于容器的云计算工作流调度方法、***及设备 | |
CN108762891A (zh) | 一种云平台资源调度方法和装置 | |
CN114298313A (zh) | 一种人工智能计算机视觉推理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |