CN105183554B - 高性能计算与云计算混合计算***及其资源管理方法 - Google Patents

高性能计算与云计算混合计算***及其资源管理方法 Download PDF

Info

Publication number
CN105183554B
CN105183554B CN201510466360.5A CN201510466360A CN105183554B CN 105183554 B CN105183554 B CN 105183554B CN 201510466360 A CN201510466360 A CN 201510466360A CN 105183554 B CN105183554 B CN 105183554B
Authority
CN
China
Prior art keywords
cloud computing
calculate node
performance calculation
resource
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510466360.5A
Other languages
English (en)
Other versions
CN105183554A (zh
Inventor
胡耀国
晏望龙
李鹏
常艺伟
张转转
刘孟博
陈开渠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Original Assignee
NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER) filed Critical NATIONAL SUPERCOMPUTING CENTER IN SHENZHEN (SHENZHEN CLOUD COMPUTING CENTER)
Priority to CN201510466360.5A priority Critical patent/CN105183554B/zh
Publication of CN105183554A publication Critical patent/CN105183554A/zh
Application granted granted Critical
Publication of CN105183554B publication Critical patent/CN105183554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种高性能计算与云计算混合计算***及其资源管理方法。该方法在高性能计算资源池的每一个计算节点中设置云计算代理服务模块同时与高性能计算调度***和云计算管理***连接。云计算资源不足时,由云计算管理***向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲计算节点信息向对应云计算代理服务模块发送第一清理命令以清理该空闲计算节点并将其加入到云计算资源池。云计算资源冗余时,由云计算管理***释放一部分计算节点,并向对应云计算代理服务模块发送第二清理命令以清理待释放的计算节点,然后由高性能计算调度***回收到高性能计算资源池。本发明避免资源闲置,提高资源利用率。

Description

高性能计算与云计算混合计算***及其资源管理方法
技术领域
本发明涉及计算技术,更具体地说,涉及一种高性能计算与云计算混合计算***及其资源管理方法。
背景技术
高性能计算(high performance computing,缩写HPC)在工程计算、科学研究、遗传基因以及金融风险分析中已经取得了巨大的成就。高性能计算历经几十年的发展,如今不仅是作为实验和理论以外的第三大科学研究手段,而且可以被当作是一个国家综合国力的主要评价标准。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
目前的中国对于云计算和高性能计算的支持力度非常大,建立了不少超级计算中心,组成大规模的计算集群。云计算采用的关键技术是虚拟化,这样可以使资源按需调度,但也势必导致一部分的性能损失,而高性能计算以计算速度为第一追求,因而在性能方面与云计算会有一定的冲突。各个超级计算中心一般都会根据业务、服务的不同将计算集群分为云计算分区和高性能计算分区,云计算分区运行云操作***,应用于云计算服务,而高性能计算分区则运行高性能作业调度***,应用于高性能计算服务。当高性能计算业务不忙而云计算业务比较紧张的时候,如果按照以往计算中心常规的分区划分方式,那么将会出现高性能计算资源闲置的情况,因此需要找到一个更好的合理分配使用超级计算中心计算资源的技术。
发明内容
本发明要解决的技术问题在于,针对传统的计算中心资源分配存在的上述不足之处,提供一种高性能计算与云计算混合计算***及其资源管理方法。
本发明在第一方面为解决其技术问题所采用的技术方案是:提出一种高性能计算与云计算混合计算***,包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度***和由其管理的多个计算节点,所述云计算资源池包括云计算管理***和由其管理的多个计算节点,所述高性能计算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度***和云计算管理***连接;
所述云计算管理***在监控到资源不足时向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点;
所述高性能计算调度***基于云计算管理***发送的节点资源申请调度空闲的计算节点并通知给云计算管理***,以及根据所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
根据本发明第一方面的一个实施例中,所述高性能计算调度***基于云计算管理***发送的节点资源申请调度空闲的计算节点并通知给云计算管理***,进一步包括:将所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理***。
根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第一清理命令清理空闲的计算节点包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件***;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理***获取云计算需要使用的分布式文件***或存储资源的连接数据,挂载对应的文件***或存储资源,并将连接信息反馈给云计算管理***;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理***。
根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点包括:
卸载云计算使用的分布式文件***或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理***以便云计算管理***将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件***;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度***以将该计算节点回收到高性能计算资源池中。
本发明在第二方面为解决其技术问题所采用的技术方案是:提出一种高性能计算与云计算混合计算***的资源管理方法,其中所述***包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度***和由其管理的多个计算节点,所述云计算资源池包括云计算管理***和由其管理的多个计算节点,所述方法包括如下步骤:
S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度***和云计算管理***连接;
S2、在云计算管理***监控到云计算资源池的资源不足时,由所述云计算管理***向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池;
S3、在云计算管理***监控到云计算资源池的资源冗余时,由所述云计算管理***释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度***根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
根据本发明第二方面的一个实施例中,所述步骤S2进一步包括:
由所述高性能计算调度***将所述云计算管理***发送的节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理***。
根据本发明第二方面的一个实施例中,所述步骤S2中由所述云计算代理服务模块清理该空闲的计算节点进一步包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件***;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理***获取云计算需要使用的分布式文件***或存储资源的连接数据,挂载对应的文件***或存储资源,并将连接信息反馈给云计算管理***;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理***。
根据本发明第二方面的一个实施例中,所述步骤S2中通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来监控资源是否不足。
根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算代理服务模块清理待释放的计算节点进一步包括:
卸载云计算使用的分布式文件***或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理***以便云计算管理***将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件***;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度***以将该计算节点回收到高性能计算资源池中。
根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算管理***释放从高性能计算资源池申请到的一部分计算节点进一步包括:
由所述云计算管理***通过统计云计算资源池中的剩余资源来确定可以释放的计算节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
本发明的高性能计算与云计算混合计算***及其资源管理方法,可以在高性能计算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资源池中,以满足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源池的计算节点释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。本发明的混合计算***结合高性能计算的应用特点和云计算平台的优势,通过虚拟化技术和自动化技术,同时支持物理机和虚拟机环境,实现硬件资源的统一管理、统一分配、统一部署、统一监控,打破单个业务对资源的独占,提供动态的计算服务平台。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一个实施例的高性能计算与云计算混合计算***的初始状态结构示意图;
图2是图1所示的高性能计算与云计算混合计算***进行资源调度后的结构示意图;
图3是本发明一个实施例的高性能计算与云计算混合计算***的资源管理方法的流程图;
图4是本发明另一具体实施例的高性能计算与云计算混合计算***的资源管理方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在的超级计算中心都会根据业务需求将整个计算资源池直接划分为两个大的分区:高性能计算分区和云计算分区,分别应对高性能和云计算业务。对于高性能计算,其资源一般相对固定,通常通过资源的合理调度提高资源的利用率。在一个高性能计算集群中,所有的计算节点使用linux,并由高性能计算调度***统一管理,每个计算节点都可以挂载分布式文件***。而对于云计算,所有计算节点部署虚拟化Hypervisor,所有Hypervisor由云计算管理***统一管理。Hypervisor是一种运行在物理服务器和操作***之间的中间软件层,可允许多个操作***和应用共享一套基础物理硬件,因此也可以看作是虚拟环境中的“元”操作***,它可以协调访问服务器上的所有物理设备和虚拟机,也叫虚拟机监视器(Virtual Machine Monitor)。Hypervisor是所有虚拟化技术的核心。非中断地支持多工作负载迁移的能力是Hypervisor的基本功能。当服务器启动并执行Hypervisor时,它会给每一台虚拟机分配适量的内存、CPU、网络和磁盘,并加载所有虚拟机的客户操作***。
当整个计算资源池存在高性能计算分区和云计算分区这种物理划分时,只要两者的业务量不均衡,都会造成资源的闲置。因此,本发明提出可以将闲置的高性能计算资源加入到云计算资源池中以满足云计算业务应用的混合计算***。
图1示出了根据本发明一个实施例的高性能计算与云计算混合计算***100的初始状态结构示意图。如图1所示,该混合计算***100包括高性能计算资源池110和云计算资源池120。高性能计算资源池110进一步包括高性能计算调度***111和由其管理的多个计算节点112。云计算资源池120包括云计算管理***121和由其管理的多个计算节点122。为了使高性能计算资源池110中空闲的计算节点112能够加入云计算资源池120中以满足云计算业务应用,本申请在高性能计算资源池110中的每一计算节点112内设置云计算代理服务模块1121,以便能够接收云计算管理***121发来的部署操作命令。每个云计算代理服务模块1121同时与高性能计算调度***111和云计算管理***121连接,例如同时通过高性能计算调度***111的API(Application Programming Interface,应用程序编程接口)和云计算管理***121的API进行通信连接。
高性能计算调度***111使用cgroup对高性能计算用户的作业严格控制资源使用。cgroups是Linux内核提供的一种可以限制、记录、隔离进程组(process groups)所使用物理资源(如cpu,memory,IO等等)的机制。为了使高性能计算资源池110中空闲的计算节点112能够加入云计算资源池120,高性能计算使用的Linux操作***(比如CentOS,SLES,Ubuntu)必须能支持云计算资源池120的Hypervisor。Linux操作***主流的Hypervisor有KVM和Xen,本申请优选KVM作为Hypervisor。KVM和xen的最大区别在于架构的不同,KVM直接构建在Linux kernel之上,把Linux kernel变成Hypervisor,利用kernel已有的功能开发KVM所需的功能。Xen的Hypervisor则是从零开始构建,对硬件资源的调度管理、虚拟机的管理,还有很多接口与Linux kernel不兼容,需对Linux kernel进行修改,这样的操作***不是很适合用于做高性能计算。
图1所示的混合计算***100中,当云计算资源池120的云计算管理***121监控到云计算资源不足(例如当前云计算资源池中的剩余资源小于预设的资源剩余量阈值或当前云计算资源池中的剩余资源不足以满足资源申请需求)时,向高性能计算资源池110的高性能计算调度***111发送节点资源申请。云计算管理***121可以调用高性能计算调度***111的API以普通作业形式申请节点资源。高性能计算调度***111基于该节点资源申请调度空闲的计算节点112给云计算管理***121。例如,高性能计算调度***111可将该节点资源申请设置为最高优先级,当出现空闲的计算节点112后,高性能计算调度***111锁定该空闲的计算节点112,并将该空闲的计算节点信息通知给云计算管理***121。云计算管理***121根据高性能计算调度***111通知的空闲的计算节点信息向空闲的计算节点112的云计算代理服务模块1121发送第一清理命令以由该云计算代理服务模块1121清理该空闲计算节点,清理完后将其加入到云计算资源池120中,如图2所示。
图2所示的混合计算***100中,当云计算管理***121监控到云计算资源冗余(例如云计算业务需求下降)时,将之前从高性能计算资源池110申请到的一部分计算节点112释放以返还给高性能计算资源池110。云计算管理***121向待释放的计算节点112的云计算代理服务模块1121发送第二清理命令以由云计算代理服务模块1121清理待释放的计算节点。然后高性能计算调度***111根据云计算代理服务模块1121清理相应的计算节点后返回的信息将该清理后的计算节点112回收到高性能计算资源池。
基于以上所介绍的高性能计算与云计算混合计算***,本发明还提出一种高性能计算与云计算混合计算***的资源管理方法。图3示出了根据本发明一个实施例的高性能计算与云计算混合计算***的资源管理方法200的流程图。如图3所示,该资源管理方法200包括如下步骤:
步骤S201中,在高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度***和云计算管理***连接。
步骤S202中,在云计算管理***监控到云计算资源池的资源不足时,由所述云计算管理***向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池。
步骤S203中,在云计算管理***监控到云计算资源池的资源冗余时,由所述云计算管理***释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度***根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。
通过以上所述的资源管理方法,本发明的高性能计算与云计算混合计算***可以在高性能计算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资源池中,以满足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源池的计算节点释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。
图4示出了根据本发明另一具体实施例的高性能计算与云计算混合计算***的资源管理方法300的流程图。如图4所示,该资源管理方法300的具体流程如下:
步骤S301中,云计算管理***监控云计算资源的使用情况。例如,云计算管理***可通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来判断资源是不足还是冗余。当云计算资源不足时,方法300执行步骤S302,当云计算资源冗余时,方法300执行步骤S308。
步骤S302中,当云计算资源不足时,云计算管理***向高性能计算调度***发送节点资源申请,以申请空闲的计算节点。例如,云计算管理***可以调用高性能计算调度***API以普通作业形式申请节点资源。
步骤S303中,高性能计算调度***调度空闲的计算节点。高性能计算调度***可将云计算管理***发送的节点资源申请设置为最高优先级。当前没有空闲的计算节点时,方法300接着执行步骤S304,等待出现空闲的计算节点。当出现空闲的计算节点时,方法300接着执行步骤S305,高性能计算调度***锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理***。
步骤S306中,云计算管理***根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由云计算代理服务模块清理该空闲的计算节点。具体实施例中,云计算代理服务模块执行以下清理工作:
1.结束所有的高性能计算作业进程。云计算代理服务模块将所有ssh登陆的用户(包含root)及ssh服务器子进程强制下线,防止对后面的操作造成影响;云计算代理服务模块遍历所有***进程,将非***内置程序的进程全部结束。
2.卸载高性能计算作业使用的分布式文件***。
3.设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该计算节点。
4.对计算节点进行服务切换,即将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务。
5.调用云计算管理***API从云计算管理***获取云计算需要使用的分布式文件***或IP-SAN、FC-SAN等存储资源的连接数据,挂载对应的文件***或存储资源,并将连接信息反馈给云计算管理***。
6.创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理***。
步骤S307中,云计算管理***将该清理后的计算节点的CPU、内存、本地磁盘等资源加入到云计算资源池中。
至此,云计算资源池从高性能计算资源池申请计算资源的过程结束。
当步骤S301中监控到云计算资源冗余(例如云计算业务需求下降)时,方法300执行步骤S308。
步骤S308中,云计算管理***释放从高性能计算资源池申请到的一部分计算节点。具体实施例中,云计算管理***统计云计算资源池中有多少CPU、内存剩余,通过计算剩余资源来确定可以返还给高性能计算资源池的计算节点数量。如果完全空闲的计算节点数量不够,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
步骤S309中,云计算管理***向待释放的计算节点的云计算代理服务模块发送第二清理命令以由云计算代理服务模块清理待释放的计算节点。具体实施例中,云计算代理服务模块执行以下清理工作:
1.卸载云计算使用的分布式文件***或存储资源。云计算代理服务模块确认无虚拟机在相应节点上运行后卸载云计算使用的分布式文件***或者IP-SAN、FC-SAN等存储资源。
2.对计算节点进行服务切换,即将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理***以便云计算管理***将该计算节点从云计算资源池中删除。
3.挂载高性能计算需要的分布式文件***。
4.设置防火墙和cgroup资源策略,以允许高性能计算用户通过高性能计算调度***正常访问该计算节点。
5.返回相应的信息给高性能计算调度***表示该计算节点当前已无作业,可以接受新的作业。
然后步骤S310中,高性能计算调度***将该清理后的计算节点回收到高性能计算资源池中,提供给高性能计算业务使用。
至此,云计算资源池将从高性能计算资源池申请的计算资源返还给高性能计算资源池的过程结束。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种高性能计算与云计算混合计算***,包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度***和由其管理的多个计算节点,所述云计算资源池包括云计算管理***和由其管理的多个计算节点,其特征在于,所述高性能计算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度***和云计算管理***连接;
所述云计算管理***在监控到资源不足时向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点;
所述高性能计算调度***基于云计算管理***发送的节点资源申请调度空闲的计算节点并通知给云计算管理***,以及根据所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池;
其中,所述云计算代理服务模块基于所述第一清理命令清理空闲的计算节点包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件***;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理***获取云计算需要使用的分布式文件***或存储资源的连接数据,挂载对应的文件***或存储资源,并将连接信息反馈给云计算管理***;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理***;
其中,所述云计算代理服务模块基于所述第二清理命令清理相应的计算节点包括:
卸载云计算使用的分布式文件***或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理***以便云计算管理***将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件***;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度***以将该计算节点回收到高性能计算资源池中。
2.根据权利要求1所述的***,其特征在于,所述高性能计算调度***基于云计算管理***发送的节点资源申请调度空闲的计算节点并通知给云计算管理***,进一步包括:将所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理***。
3.一种高性能计算与云计算混合计算***的资源管理方法,其中所述***包括高性能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度***和由其管理的多个计算节点,所述云计算资源池包括云计算管理***和由其管理的多个计算节点,其特征在于,所述方法包括如下步骤:
S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云计算代理服务模块同时与高性能计算调度***和云计算管理***连接;
S2、在云计算管理***监控到云计算资源池的资源不足时,由所述云计算管理***向高性能计算调度***发送节点资源申请,并根据高性能计算调度***通知的空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池;
S3、在云计算管理***监控到云计算资源池的资源冗余时,由所述云计算管理***释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所述高性能计算调度***根据所述云计算代理服务模块清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池;
其中,所述步骤S2中由所述云计算代理服务模块清理该空闲的计算节点进一步包括:
结束所有的高性能计算作业进程;
卸载高性能计算作业使用的分布式文件***;
设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节点;
将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;
从云计算管理***获取云计算需要使用的分布式文件***或存储资源的连接数据,挂载对应的文件***或存储资源,并将连接信息反馈给云计算管理***;
创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理***;
其中,所述步骤S3中由所述云计算代理服务模块清理待释放的计算节点进一步包括:
卸载云计算使用的分布式文件***或存储资源;
将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功后通知云计算管理***以便云计算管理***将该计算节点从云计算资源池中删除;
挂载高性能计算需要的分布式文件***;
设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;
返回相应的信息给高性能计算调度***以将该计算节点回收到高性能计算资源池中。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2进一步包括:
由所述高性能计算调度***将所述云计算管理***发送的节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通知给云计算管理***。
5.根据权利要求3所述的方法,其特征在于,所述步骤S2中通过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是否满足资源申请需求来监控资源是否不足。
6.根据权利要求3所述的方法,其特征在于,所述步骤S3中由所述云计算管理***释放从高性能计算资源池申请到的一部分计算节点进一步包括:
由所述云计算管理***通过统计云计算资源池中的剩余资源来确定可以释放的计算节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计算节点。
CN201510466360.5A 2015-07-31 2015-07-31 高性能计算与云计算混合计算***及其资源管理方法 Active CN105183554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510466360.5A CN105183554B (zh) 2015-07-31 2015-07-31 高性能计算与云计算混合计算***及其资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510466360.5A CN105183554B (zh) 2015-07-31 2015-07-31 高性能计算与云计算混合计算***及其资源管理方法

Publications (2)

Publication Number Publication Date
CN105183554A CN105183554A (zh) 2015-12-23
CN105183554B true CN105183554B (zh) 2019-07-09

Family

ID=54905650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510466360.5A Active CN105183554B (zh) 2015-07-31 2015-07-31 高性能计算与云计算混合计算***及其资源管理方法

Country Status (1)

Country Link
CN (1) CN105183554B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020969A (zh) * 2016-05-05 2016-10-12 云神科技投资股份有限公司 一种高性能云计算混合计算***及其方法
CN106199696B (zh) * 2016-06-29 2019-01-18 中国石油天然气股份有限公司 地震数据处理***和方法
CN106250562B (zh) * 2016-08-24 2019-08-23 苏州蓝海彤翔***科技有限公司 数据信息处理***
CN106453550B (zh) * 2016-10-09 2019-08-27 烽火通信科技股份有限公司 一种基于云计算的深度包检测***及方法
CN106803842A (zh) * 2017-02-15 2017-06-06 无锡十月中宸科技有限公司 一种基于可扩展和高性能计算的分布式管理架构及方法
CN108334409B (zh) * 2018-01-15 2020-10-09 北京大学 一种细粒度的高性能云资源管理调度方法
CN110119405B (zh) * 2019-03-28 2023-10-13 江苏瑞中数据股份有限公司 分布式并行数据库资源管理方法
CN110225111A (zh) * 2019-06-06 2019-09-10 武汉市智驾科技有限公司 一种高性能计算及云计算混合算法***及资源管理方法
CN110716790A (zh) * 2019-09-12 2020-01-21 中城智慧(北京)城市规划设计研究院有限公司 一种高性能混合云计算平台的搭建方法
CN113157429B (zh) * 2020-01-22 2024-04-09 中移智行网络科技有限公司 一种saas云服务实现方法及***
CN112532696A (zh) * 2020-11-16 2021-03-19 北京贝耀信科技有限公司 一种将数据上传到云服务器以进行云计算的方法及***
CN113507441B (zh) * 2021-06-08 2023-04-28 中国联合网络通信集团有限公司 安全资源扩充方法及安全防护管理平台、数据节点
CN114827236B (zh) * 2022-01-29 2023-07-14 ***股份有限公司 防火墙虚连接的处理方法、装置及计算机可读存储介质
CN114464269B (zh) * 2022-04-07 2022-07-08 国家超级计算天津中心 一种虚拟药物生成方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533086A (zh) * 2013-10-31 2014-01-22 中国科学院计算机网络信息中心 一种云计算***中的资源统一调度方法
CN104216782A (zh) * 2014-08-19 2014-12-17 东南大学 高性能计算和云计算混合环境中的动态资源管理方法
US9015708B2 (en) * 2011-07-28 2015-04-21 International Business Machines Corporation System for improving the performance of high performance computing applications on cloud using integrated load balancing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140196054A1 (en) * 2013-01-04 2014-07-10 International Business Machines Corporation Ensuring performance of a computing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015708B2 (en) * 2011-07-28 2015-04-21 International Business Machines Corporation System for improving the performance of high performance computing applications on cloud using integrated load balancing
CN103533086A (zh) * 2013-10-31 2014-01-22 中国科学院计算机网络信息中心 一种云计算***中的资源统一调度方法
CN104216782A (zh) * 2014-08-19 2014-12-17 东南大学 高性能计算和云计算混合环境中的动态资源管理方法

Also Published As

Publication number Publication date
CN105183554A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183554B (zh) 高性能计算与云计算混合计算***及其资源管理方法
US20210089344A1 (en) Methods and apparatus to deploy a hybrid workload domain
US10292044B2 (en) Apparatus for end-user transparent utilization of computational, storage, and network capacity of mobile devices, and associated methods
CN103873279B (zh) 一种服务器管理方法,及装置
CN106020969A (zh) 一种高性能云计算混合计算***及其方法
CN108632057A (zh) 一种云计算服务器的故障恢复方法、装置及管理***
CN106462450A (zh) 向vnf管理器的关于虚拟机实时迁移的通知
JP2010267009A (ja) ライセンス管理システム、ライセンス管理方法及びコンピュータプログラム
CN102594861A (zh) 一种多服务器负载均衡的云存储***
CN103473117A (zh) 云模式下的虚拟化方法
CN110427246A (zh) 多核虚拟分区重构***
CN106559441A (zh) 一种基于云计算服务的虚拟机监控方法、装置及***
CN103414712A (zh) 一种分布式虚拟桌面管理***和方法
CN107943559A (zh) 一种大数据资源调度***及其方法
CN106293933A (zh) 一种支持多大数据计算框架的集群资源配置与调度方法
CN104123183B (zh) 集群作业调度方法和装置
CN112948063A (zh) 云平台的创建方法、装置、云平台以及云平台实现***
CN113886089A (zh) 一种任务处理方法、装置、***、设备及介质
WO2012100545A1 (zh) 一种业务调度方法、***及设备
Lin et al. Research on building an innovative electric power marketing business application system based on cloud computing and microservices architecture technologies
US11656914B2 (en) Anticipating future resource consumption based on user sessions
CN105681424A (zh) 一种桌面云***
Sarmila et al. Survey on fault tolerant—Load balancing algorithmsin cloud computing
CN112732408A (zh) 一种用于计算节点资源优化的方法
CN105262801A (zh) 一种云平台消息分发的方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant