CN113986547A - 创建云主机的方法及vGPU的管理*** - Google Patents

创建云主机的方法及vGPU的管理*** Download PDF

Info

Publication number
CN113986547A
CN113986547A CN202111272881.9A CN202111272881A CN113986547A CN 113986547 A CN113986547 A CN 113986547A CN 202111272881 A CN202111272881 A CN 202111272881A CN 113986547 A CN113986547 A CN 113986547A
Authority
CN
China
Prior art keywords
vgpu
physical machine
cyborg
cloud host
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111272881.9A
Other languages
English (en)
Inventor
刘慧青
鲍国栋
张程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Anchao Cloud Software Co Ltd
Original Assignee
Jiangsu Anchao Cloud Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Anchao Cloud Software Co Ltd filed Critical Jiangsu Anchao Cloud Software Co Ltd
Priority to CN202111272881.9A priority Critical patent/CN113986547A/zh
Publication of CN113986547A publication Critical patent/CN113986547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供了一种创建云主机的方法,包括:获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,所述物理机包括至少一个GPU;所Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;利用云控制器接收云主机的创建请求,以创建云主机;从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。本申请实施例能够实现不同型号的vGPU适配,vGPU供多个云主机使用,提高物理机的使用率;Cyborg组件同步管理云控制器的信息,使得vGPU的操作便捷、高效。

Description

创建云主机的方法及vGPU的管理***
技术领域
本申请涉及云计算技术领域,尤其是涉及一种创建云主机的方法及vGPU的管理***。
背景技术
随着5G商用的渐近,通信行业也迎来了5G的机遇与挑战。大规模机器类通信、超可靠、低延迟通信需求场景(智能家居、智慧城市、增强现实、工业自动化、自动驾驶等)的兴起,对未来网络的计算和流量转发能力提出了更高的要求。通用CPU设备已经无法满足处理海量数据、图片、流量的需求。而另一方面,随着机器学习(machine learning)和机器视觉(compute vision)的快速发展,用户对GPU的需求也日益剧增。深度学习模型的训练和推理往往需要大量的显卡,用来支持更大的模型和数据集。如何更高效地利用GPU显卡资源、在一张卡或一台机器上同时承载更多的训练和预测任务、让有限的显卡资源支持多个用户同时执行各自的任务等难题是开发者努力攻关的方向。
随着OpenStack云主机使用范围的扩展,支持在创建云主机时指定GPU等加速器设备,以此来提升云主机图形图像处理的能力,同时也丰富了云主机设备使用的多样性。但是GPU数量有限,不能同时被多个云主机使用,如果将GPU分解成多个vGPU,就可以供更多的云主机使用,提高GPU的使用率。
Openstack从Q版本引入了Cyborg组件,利用该组件能够使得vGPU、FPGA、SSD、SR-IOV等智能设备在云平台上的使用变得更加便捷,并且有效地优化了这些设备在Nova项目中负责的配置,同时还使得这些设备的运维也变得更加透明方便。然而,社区原生的Cyborg架构中仅支持特定类型的处理器,不同型号的vGPU往往存在适配问题,导致物理机的使用效率降低,例如,目前尚未有同时支持NVIDIA和AMD的vGPU使用。
基于此,有必要对现有vGPU的管理方式进行改进。
发明内容
本申请的目的在于提供一种创建云主机的方法及vGPU的管理***,以能够实现不同型号的vGPU适配,提供物理机的使用率。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了一种创建云主机的方法,所述方法包括:获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,所述物理机包括至少一个GPU;所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;利用云控制器接收云主机的创建请求,以创建云主机;从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。该技术方案的有益效果在于,采用NVIDIA虚拟GPU技术支持的vGPU,能够实现不同型号的vGPU适配,基于云主机服务可提供实时、高速的并行计算和浮点数计算能力,适用于3D图形应用程序、视频解码、深度学习、科学计算等应用场景。
在一些可选的实施例中,所述云控制器为Nova组件,所述云主机包括NVIDIA和/或AMD显卡驱动。Cyborg组件中同步管理NVIDIA的PCI信息,使得vGPU的操作便捷和高效,云控制器可以直接调用Cyborg-api获取信息,支持批量创建vGPU云主机。
在一些可选的实施例中,所述物理机的硬件信息包括所述物理机支持的vGPU型号、所述物理机的GPU信息,对应的,所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU包括:
所述Cyborg组件根据所述物理机支持的vGPU型号、所述物理机的GPU信息及所述物理机可切分的数量,切分所述物理机的GPU为多个vGPU。
在一些可选的实施例中,所述获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件包括:
加载所述物理机的驱动程序,并通过加速设备配置中心收集所述物理机的硬件信息;
通过所述加速设备配置中心将所述物理机的硬件信息上报给Cyborg Agent;
通过Cyborg Agent将所述物理机的硬件信息上传至Cyborg控制端。
在一些可选的实施例中,所述从所述一个或多个vGPU中选定目标vGPU包括:
建立所述Nova组件与Cyborg组件的通讯;
所Cyborg组件根据云主机规格的扩展参数中vGPU的类型及vGPU的所需数量从所述一个或多个vGPU中选定目标vGPU,所述目标vGPU的状态从available置为claimed。
在一些可选的实施例中,所述利用云控制器接收云主机的创建请求,以创建云主机包括:
接收用户向所述Nova组件发起创建云主机的请求;
通过所述Nova组件向计算节点中的Nova-api发起创建命令。
在一些可选的实施例中,所述方法还包括:
通过Cyborg Agent配置vGPU,更新所述vGPU的状态;
向加速设备配置中心返回所述云主机的创建结果,并更新所述Cyborg组件的数据库。
第二方面,本申请提供了一种vGPU的管理***,所述***包括:硬件信息获取模块,用于获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,所述物理机包括至少一个GPU;vGPU划分模块,利用所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;云主机创建模块,用于接收云主机的创建请求,以创建云主机,以及从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。该技术方案的有益效果在于,采用Cyborg组件虚拟GPU技术支持的vGPU,能够实现不同型号的vGPU适配,基于云主机服务能够提供实时高速的并行计算和浮点数计算能力;Cyborg组件同步管理云控制器中的硬件信息,使得vGPU的操作便捷和高效。
第三方面,本申请提供了一种电子设备,所述电子设备包括存储器、处理器以及用于执行任务的硬件模组,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1为本申请一实施例的创建云主机的方法流程示意图;
图2本申请一实施例的Cyborg组件架构示意图;
图3为本申请一实施中物理机的硬件信息上报流程图;
图4为本申请另一实施例的Cyborg组件架构示意图;
图5为本申请一实施例的云主机创建过程中Nova组件与Cyborg组件交互示意图;
图6为本申请另一实施例的创建云主机的方法流程图;
图7为本申请一实施例的vGPU的管理***结构图
图8为本申请另一实施例的vGPU的管理***结构图;
图9是本申请实施例提供的一种电子设备的结构示意图;
图10是本申请实施例提供的一种用于实现选型方法的程序产品的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
参见图1,本申请实施例提供了创建云主机的方法,能够实现不同芯片所形成的GPU的发现、分割分配,实现基于不同型号GPU所组成的vGPU(虚拟图形处理单元或虚拟GPU)的适配,该方法适用于虚拟桌面、应用程序和工作站,从而加速图形和计算工作;该方法还适用于深度学习或大数据处理,以加速数据处理速度;又或者,该方法适用于游戏画面渲染,改善用户体验。创建云主机的方法包括步骤S101~S103。
步骤S101,获取物理机的硬件信息,并将物理机的硬件信息发送至Cyborg组件,物理机包括至少一个GPU。可选的,获取物理机的硬件信息即为物理机的设备发现操作,物理机能够提供给虚拟机以硬件环境,有时也称为“寄主”或“宿主”。物理机是放在机房运行的真实存在的物理设备,有独立的硬盘、内存、CPU、操作***等。
在一个实施例中,在物理机上***图形处理器(graphics processing unit,GPU)卡,当安装了GPU对应的驱动后,随着物理机的操作***启动,会自动加载GPU设备的驱动程序,***将能够检测到***的GPU卡设备。对应的,物理机的硬件信息可包括物理机的GPU信息。可选的,物理机的GPU信息包括GPU相关的厂商信息(vendor_id)、vGPU产品信息(product_id)、GPU所在节点的主机名(node_name)、GPU设备所在的nuna_node等等。
在一个实施例中,云组织采用openstack架构,Nova组件作为计算资源管理平台,Cyborg组件负责vGPU资源的管理:Cyborg组件会根据其上报的GPU设备信息,将其同步到Cyborg数据库的pci_devices表格中,并记录该GPU相关的厂商信息/运营商代码(vendor_id)、vGPU产品信息(product_id)、所在节点的主机名(node_name)以及GPU设备所在的非一致性内存访问所属组(non-uniform memory access node,NUMA_node)等等,同时生成唯一的PCI总线ID或UUID,作为后续vGPU创建时的参数索引。可选的,pci_devices表格可包括多种符合周边元件扩展接口总线(programmable communications cnterface,PCI)标准的设备的列表,pci_devices表格可包含有显卡、声卡、网卡、主板上与PCI总线有关的芯片和接口等。
步骤S102,Cyborg组件根据物理机的硬件信息,将物理机的GPU划分为一个或多个vGPU。在一个实施例中,物理机的硬件信息包括物理机支持的vGPU型号、物理机的GPU信息,对应的,Cyborg组件根据物理机的硬件信息,将物理机划分为一个或多个vGPU包括:Cyborg组件根据物理机支持的vGPU型号、物理机的GPU信息及物理机可切分的数量,切分物理机的GPU为多个vGPU。
在一个实施例中,还可增加加速器的数据库表acc_devices,以方便vGPU定义格式,从而优化社区中该部分的冗余结构,设计优先符合vGPU结构的数据库。示例性的,在对PCI设备进行分割之前,先对PCI设备的信息进行初始化,然后进行分割。在创建/分割vGPU时,Cyborg组件会根据PCI设备支持的vGPU型号及可切分的数量去切分单个GPU为多个vGPU,将设备号和名称分别写入一个固定路径,并将数据记录到Cyborg数据库acc_devices表格中。同时提供了查询vGPU信息的接口。
在一个实施例中,vGPU设备初始化完成后,将PCI设备状态置为initialized。同理,属于PCI的vGPU删除完,会将其状态设置成available。对于已经初始化过的PCI设备,再次被分割时会抛出异常,即不允许对已分割过的PCI进行二次分割。
步骤S103,利用云控制器接收云主机的创建请求,以创建云主机。
步骤S104,从一个或多个vGPU中选定目标vGPU,以应用于云主机。
本申请实施例的创建云主机的方法,采用Cyborg组件虚拟GPU技术支持的vGPU,能够实现不同型号的vGPU适配,基于云主机服务可提供实时、高速的并行计算和浮点数计算能力,适用于3D图形应用程序、视频解码、深度学习、科学计算等应用场景;Cyborg组件同步管理云控制器中的硬件信息,使得vGPU的操作便捷和高效;云控制器可以直接调用Cyborg-api获取信息,支持批量创建vGPU云主机。
在一个实施例中,Cyborg组件能够实现硬件资源的发现、上报、挂载\卸载等资源管理。用户可以通过Cyborg组件列出计算节点上已经被发现和上报的加速器、并创建带加速器的实例。对于一些特殊硬件的特殊功能或配置,也将在Cyborg组件实现。如图2所示为本申请实施例的Cyborg组件架构示意图,其包括:cyborg-api、cyborg-conductor、cyborg-Agent、cyborg-db等多个模块,其中:cyborg-Agent位于计算节点,用于监控加速器,向Cyborg服务器报告有关可用加速器,状态和利用率的数据,以及管理安装驱动程序,依赖关系和卸载驱动;cyborg-conductor位于控制节点,管理整个***和操作数据库,cyborg-db的数据库查询、更新操作均需要通过向cyborg-conductor服务发送RPC请求来实现,conductor负责数据库的访问权限控制,避免直接访问数据库;cyborg-api和cyborg-db分别为接口和数据库,均位于控制节点。
如图3所示为本申请一实施中物理机的硬件信息上报流程图,其包括:
步骤S301,***启动,即完成操作***的启动;
步骤S302,加载物理机驱动,通过加载vGPU设备/物理机驱动程序实现;
步骤S303,收集物理机上的硬件信息,通过加速设备配置中心收集物理机的硬件信息;
步骤S304,上报硬件信息到Cyborg Agent,示例性的,通过加速设备配置中心将物理机的硬件信息上报给Cyborg Agent;
步骤S305,Cyborg Agent将硬件信息上传至Cyborg控制端,即通过Cyborg Agent将物理机的硬件信息上传至Cyborg控制端。
在此实施例中,可增加加速器的数据库表acc_devices,方便vGPU定义格式,优化社区中该部分的冗余结构,设计优先符合vGPU结构的数据库。可选的,在对PCI设备进行分割之前,可先对该PCI设备信息进行初始化,然后进行分割。在创建vGPU时,Cyborg会根据PCI设备支持的vGPU型号及可切分的数量去切分单个GPU为多个vGPU,将设备号和名称分别写入一个固定路径,并将数据记录到Cyborg数据库acc_devices表格中。同时提供了查询vGPU信息的接口。在vGPU设备初始化完成后,将PCI设备状态置为initialized。同理,属于PCI的vGPU删除完,会将其状态设置成available。对于已经初始化过的PCI设备,再次被分割时会抛出异常,即不允许对已分割过的PCI进行二次分割。
社区原生的Cyborg架构中并未支持NVIDIA和AMD的vGPU使用。为了使得云主机能够使用NVIDIA以及AMD显卡的vGPU,本申请实施例中实施例中,能够涵盖NVIDIA和AMD GPU的发现、分割、vGPU的发现、分配使用,实现Nvidia及AMD不同型号的vGPU适配。具体的,云控制器为Nova组件,云主机包括NVIDIA和/或AMD显卡驱动。对于Nova组件,能够优化Nova端Cyborg调用规范,使得Nova可以直接调用cyborg-api获取信息,同时还支持批量创建vGPU云主机,增加支持vGPU云主机resize功能。而对于Cyborg组件而言,则可以做到自动发现主流的NVIDIA或者AMD显卡设备,并且能够自动将这些资源信息上报到Nova,以及Cyborg资源管理器中。让用户在在申请云主机时就可以尝试使用这些可用资源;优化后直接通过Cyborg服务,就可以列出、识别和发现加速器,连接和分离加速器实例,安装和卸载驱动;优化后的***,用户能够更方便地使用GPU等硬件设备,而且也使得GPU资源更便于管理。
如图4所示为本申请另一实施例的Cyborg组件架构示意图。该Cyborg组件支持NVIDIA和AMD的vGPU使用,其包括cyborg client(客户端)、cyborg-api、cyborg-conductor、cyborg-agent、cyborg-db等多个模块,同时还在计算节点连接了NVIDIADriver、NVIDIA Device以及AMD Driver和AMD Device等。通过上述设计,云主机能够使用NVIDIA以及AMD显卡的vGPU,扩展了查询列表的接口,涵盖NVIDIA和AMD GPU的发现、分割、vGPU的发现、分配使用,能够实现Nvidia及AMD不同型号的vGPU适配;提供对vGPU的挂卸载操作,本地变更规格等操作。进一步的,该***还增加了NVIDIA和AMD的vGPU驱动,分别负责将NVIDIA和AMD的GPU初始化成vGPU以供更多的云主机使用,提供GPU的使用率。
在一个实施例中,NVIDIA Driver和AMD Driver主要实现的是将各自类型的GPU虚拟化成vGPU,并提供了vGPU增删改查的方法,即创建、删除、更新和查询信息。示例性的,Nvidia driver实现是将vGPU设备的UUID写入特定路径,并在创建vGPU云主机的时候将该UUID写入到云主机XML配置中的<devices/>部分。
如图5为本申请一实施例的云主机创建过程中Nova组件与Cyborg组件交互示意图。
示例性的,Nova组件包括Nova-api、Nova-scheduler、Nova-compute、Nova-conductor等。
首先,物理机设备的驱动器为加速设备配置中心构造Cyborg中用于描述设备的数据结构,等待cyborg-agent轮询取走设备数据;cyborg-agent周期性扫描计算节点可用的driver;cyborg-agent获取到driver上报来的数据信息后,通过cyborg-conductor将资源信息写入cyborg-db(更新pci_devices表,记录下GPU的node_name,pci地址,vendor_id,product_id,支持的vGPU类型等信息)。然后可以通过向cyborg发送请求,根据特定的vGPU类型将某个GPU切分成多个vGPU,更同步更新cyborg-db(更新pci_devices表,将可用状态置为initialized,同时在acc_devices表中新增记录,vGPU的状态设置为released)
接着,Nova-api接受到创建vGPU云主机的请求以后,根据申请的vGPU类型向cyborg组件发起请求获取对应类型的vGPU信息,并将该信息合入request_spec,用于调度,调度过程中nova-scheduler向cybrog请求获取符合request_spec中要求的硬件加速资源,并返回满足要求的主机列表,同时,将acc_devices表中该vGPU的记录状态置为claimed。之后主机列表再通过nova-scheduler其他Filter的过滤,根据特定的策略选定某个主机节点;Nova-compute在选定的主机上部署实例,并向cyborg请求加速资源的挂载操作:
最后,将云主机信息与该vGPU记录绑定,并将acc_devices表中该vGPU的记录状态置为allocated。。
在一个实施例中,vGPU的分配和使用可通过增加acc_device、API和接口层的方法实现。当前默认初始化整个pci_device。即将pci_device支持的指定类型全部初始化,并且预留参数single,为以后实现一个一个的分配和初始化预留了空间。创建带vGPU的云主机时,在选择主机阶段,会根据增加的过滤器选择到服务要求的vGPU主机。在选定到主机后,claim具体资源时,将claim到的vGPU状态设置成claimed。最后在启动云主机时,会将vGPU的信息更新到云主机的XML文件中,并同步更新数据,将该vGPU状态置为allocated。正在被云主机使用的vGPU也不允许被删除。带vGPU的云主机通过resize操作支持vGPU云主机之间,或者非vGPU云主机之间的规格变化。vGPU删除时,会在创建vGPU同路径中,创建一个标志文件,记录该vGPU是否还可以正常使用。
在一个实施例中,当用户发起创建云主机的创建请求时,会根据云主机规格的扩展参数(extra_spcs)中vGPU的类型及需要的数量去申请vGPU,有可用资源时,即将vGPU的状态从available置为claimed;当云主机启动时,再将vGPU状态置为allocated,同时在云主机的XML文件中记录vGPU的型号等信息。此外,在vGPU设备被云主机使用后,会将云主机的UUID写入到Cyborg数据库的对应表中。对于成功创建起来的云主机,在其内部安装了对应的驱动后,即可正常使用该vGPU。本申请实施例中,能够在Cyborg组件中同步管理Nova组件中的PCI信息,使得vGPU的操作变得便捷和高效。
应当注意以上关于创建云主机的方法流程的描述仅仅是出于说明的目的而提供的,并不旨在限制本申请的范围。对于本领域的普通技术人员来说,根据本申请的教导可以做出多种变化和修改。然而,这些变化和修改不会背离本申请的范围。在一些实施例中,创建云主机的方法流程可以利用未描述的一个或以上附加操作和/或没有所讨论的一个或以上个操作来完成。
在一个实施例中,本申请提供了另一实施例的创建云主机的方法流程图,如图6所述方法包括:
步骤S501,获取物理机的硬件信息,并将物理机的硬件信息发送至Cyborg组件,物理机包括一个或多个GPU。
步骤S502,Cyborg组件根据物理机的硬件信息,将物理机的GPU划分为一个或多个vGPU。
步骤S503,利用云控制器接收云主机的创建请求,以创建云主机。
步骤S504,从一个或多个vGPU中选定目标vGPU,以应用于云主机。
步骤S505,通过Cyborg Agent配置vGPU,更新vGPU的状态。
步骤S506,向加速设备配置中心返回云主机的创建结果,并更新Cyborg组件的数据库。
本申请实施例中,采用NVIDIA虚拟GPU技术支持的vGPU,提供给云主机使用,基于此类型的云主机服务,可提供实时高速的并行计算和浮点数计算能力,适用于3D图形应用程序、视频解码、深度学习、科学计算等应用场景。
参见图7,本申请实施例还提供了一种vGPU的管理***,vGPU的管理******包括:硬件信息获取模块、vGPU划分模块和云主机创建模块。其中,硬件信息获取模块,用于获取物理机的硬件信息,并将物理机的硬件信息发送至Cyborg组件,物理机包括一个或多个GPU;vGPU划分模块,用于根据物理机的硬件信息,将物理机的GPU划分为一个或多个vGPU;云主机创建模块,用于接收云主机的创建请求,以创建云主机,以及从一个或多个vGPU中选定目标vGPU,以应用于云主机。
在一个实施例中,硬件信息获取模块在物理机上***GPU卡,当安装了对应的驱动后,随着物理机的操作***启动,会自动加载GPU设备的驱动程序,***将能够检测到***的GPU卡设备。硬件信息获取模块选择为Cyborg组件,Cyborg组件会根据其上报的GPU设备信息,将其同步到Cyborg组件的数据库的pci_devices表格中,并记录该GPU相关的厂商信息(vendor_id),vGPU产品信息(product_id),所在节点的主机名(node_name)GPU设备所在的nuna_node等等,同时生成唯一的pciuuid,作为后续vGPU创建时的参数索引。
在一个实施例中,云主机创建模块在创建带vGPU的云主机时,在选择主机阶段,会根据增加的过滤器选择到服务要求的vGPU主机。在选定到主机后,claim具体资源时,将claim到的vGPU状态设置成claimed。最后在启动云主机时,会将vGPU的信息更新到云主机的XML文件中,并同步更新数据,将该vGPU状态置为allocated。正在被云主机使用的vGPU也不允许被删除。带vGPU的云主机通过resize操作支持vGPU云主机之间,或者非vGPU云主机之间的规格变化。vGPU删除时,会在创建vGPU同路径中,创建一个标志文件,记录该vGPU是否还可以正常使用。
在一个实施例中,云主机创建模块用户发起创建云主机的创建请求时,会根据云主机规格的扩展参数(extra_spcs)中vGPU的类型及需要的数量去申请vGPU,有可用资源时,即将vGPU的状态从available置为claimed;当云主机启动时,再将vGPU状态置为allocated。同时在云主机的XML文件中记录vGPU的型号等信息。而且,在vGPU设备被云主机使用后,会将云主机的UUID写入到Cyborg数据库的对应表中。对于成功创建起来的云主机,在其内部安装了对应的驱动后,即可正常使用该vGPU。
参见图8,本申请实施例还提供了另一种vGPU的管理***,vGPU的管理******在前述基础上还包括更新模块,该更新模块用于通过Cyborg Agent配置vGPU,更新状态,用于向加速设备配置中心返回云主机的创建结果,并更新Cyborg组件的数据库。
参见图9,本申请实施例还提供了一种电子设备200,电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台***的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行创建云主机的方法。
创建云主机的方法包括:获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,物理机包括一个或多个GPU;Cyborg组件根据所述物理机的硬件信息,将物理机的GPU划分为一个或多个vGPU;利用云控制器接收云主机的创建请求,以创建云主机;从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。该技术方案的有益效果在于,采用Cyborg组件虚拟GPU技术支持的vGPU,能够实现不同型号的vGPU适配,基于云主机服务可提供实时、高速的并行计算和浮点数计算能力,适用于3D图形应用程序、视频解码、深度学习、科学计算等应用场景;Cyborg组件同步管理云控制器中的硬件信息,使得vGPU的操作便捷和高效;云控制器可以直接调用cyborg-api获取信息,支持批量创建vGPU云主机。
其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块215包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,所述计算机程序被执行时实现:
获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,物理机包括一个或多个GPU;所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;利用云控制器接收云主机的创建请求,以创建云主机;从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。
具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。图10示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,其设置有的实用进步性,已符合专利法所强调的功能增进及使用要件,本申请以上的说明及附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。

Claims (10)

1.一种创建云主机的方法,其特征在于,所述方法包括:
获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,所述物理机包括至少一个GPU;
所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;
利用云控制器接收云主机的创建请求,以创建云主机;
从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。
2.根据权利要求1所述的创建云主机的方法,其特征在于,所述云控制器为Nova组件,所述云主机包括NVIDIA和/或AMD显卡驱动。
3.根据权利要求1所述的创建云主机的方法,其特征在于,所述物理机的硬件信息包括所述物理机支持的vGPU型号、所述物理机的GPU信息,对应的,所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU包括:
所述Cyborg组件根据所述物理机支持的vGPU型号、所述物理机的GPU信息及所述物理机可切分的数量,切分所述物理机的GPU为多个vGPU。
4.根据权利要求3所述的创建云主机的方法,其特征在于,所述获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件包括:
加载所述物理机的驱动程序,并通过加速设备配置中心收集所述物理机的硬件信息;
通过所述加速设备配置中心将所述物理机的硬件信息上报给Cyborg Agent;
通过Cyborg Agent将所述物理机的硬件信息上传至Cyborg控制端。
5.根据权利要求2所述的创建云主机的方法,其特征在于,所述从所述一个或多个vGPU中选定目标vGPU包括:
建立所述Nova组件与Cyborg组件的通讯;
所Cyborg组件根据云主机规格的扩展参数中vGPU的类型及vGPU的所需数量从所述一个或多个vGPU中选定目标vGPU,所述目标vGPU的状态从avai lable置为claimed。
6.根据权利要求2所述的创建云主机的方法,其特征在于,所述利用云控制器接收云主机的创建请求,以创建云主机包括:
接收用户向所述Nova组件发起创建云主机的请求;
通过所述Nova组件向计算节点中的Nova-api发起创建命令。
7.根据权利要求4所述的创建云主机的方法,其特征在于,所述方法还包括:
通过Cyborg Agent配置vGPU,更新所述vGPU的状态;
向所述加速设备配置中心返回所述云主机的创建结果,并更新所Cyborg组件的数据库。
8.一种vGPU的管理***,其特征在于,所述***包括:
硬件信息获取模块,用于获取物理机的硬件信息,并将所述物理机的硬件信息发送至Cyborg组件,所述物理机包括至少一个GPU;
vGPU划分模块,利用所述Cyborg组件根据所述物理机的硬件信息,将所述物理机的GPU划分为一个或多个vGPU;
云主机创建模块,用于接收云主机的创建请求,以创建云主机,以及从所述一个或多个vGPU中选定目标vGPU,以应用于所述云主机。
9.一种电子设备,所述电子设备包括存储器、处理器以及用于执行任务的硬件模组,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项方法的步骤。
CN202111272881.9A 2021-10-29 2021-10-29 创建云主机的方法及vGPU的管理*** Pending CN113986547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111272881.9A CN113986547A (zh) 2021-10-29 2021-10-29 创建云主机的方法及vGPU的管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111272881.9A CN113986547A (zh) 2021-10-29 2021-10-29 创建云主机的方法及vGPU的管理***

Publications (1)

Publication Number Publication Date
CN113986547A true CN113986547A (zh) 2022-01-28

Family

ID=79744492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111272881.9A Pending CN113986547A (zh) 2021-10-29 2021-10-29 创建云主机的方法及vGPU的管理***

Country Status (1)

Country Link
CN (1) CN113986547A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269767A1 (en) * 2014-03-19 2015-09-24 Microsoft Corporation Configuring resources used by a graphics processing unit
CN105242957A (zh) * 2015-09-28 2016-01-13 广州云晫信息科技有限公司 一种云计算***调配gpu资源到虚拟机的方法及***
WO2016033435A1 (en) * 2014-08-29 2016-03-03 Westerngeco Llc Methods and computing systems for virtualization of graphical computing resources
CN108037977A (zh) * 2017-12-08 2018-05-15 上海市信息网络有限公司 虚拟计算机资源的管理方法、设备、计算机介质、及***
US20190102212A1 (en) * 2017-10-03 2019-04-04 Vmware, Inc. Platform independent gpu profiles for more efficient utilization of gpu resources
CN111966494A (zh) * 2020-08-18 2020-11-20 江苏安超云软件有限公司 一种资源编排的调度方法、装置、存储介质及电子设备
CN112286645A (zh) * 2020-12-29 2021-01-29 北京泽塔云科技股份有限公司 一种gpu资源池调度***及方法
CN112463294A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 一种物理gpu虚拟化管理方法、***、设备、产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269767A1 (en) * 2014-03-19 2015-09-24 Microsoft Corporation Configuring resources used by a graphics processing unit
WO2016033435A1 (en) * 2014-08-29 2016-03-03 Westerngeco Llc Methods and computing systems for virtualization of graphical computing resources
CN105242957A (zh) * 2015-09-28 2016-01-13 广州云晫信息科技有限公司 一种云计算***调配gpu资源到虚拟机的方法及***
US20190102212A1 (en) * 2017-10-03 2019-04-04 Vmware, Inc. Platform independent gpu profiles for more efficient utilization of gpu resources
CN108037977A (zh) * 2017-12-08 2018-05-15 上海市信息网络有限公司 虚拟计算机资源的管理方法、设备、计算机介质、及***
CN111966494A (zh) * 2020-08-18 2020-11-20 江苏安超云软件有限公司 一种资源编排的调度方法、装置、存储介质及电子设备
CN112463294A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 一种物理gpu虚拟化管理方法、***、设备、产品
CN112286645A (zh) * 2020-12-29 2021-01-29 北京泽塔云科技股份有限公司 一种gpu资源池调度***及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANSHUJ GARG ET AL: "Virtual Machine Placement solution for VGPU enabled Clouds", 《2019 INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING & SIMULATION (HPCS)》 *
孙友凯等: "基于Openstack 的混合架构资源池管理技术研究", 《计算机应用》 *
新浪科技: "《新浪科技:https://tech.sina.com.cn/roll/2019-11-06/doc-iicezuev7503332.shtml》", 16 November 2019 *
韩丽佳: "华为异构计算开源生态蓝图初显", 《软件和集成电路》 *

Similar Documents

Publication Publication Date Title
US11775335B2 (en) Platform independent GPU profiles for more efficient utilization of GPU resources
CN110196753B (zh) 基于容器的图形处理器gpu虚拟化方法、装置和可读介质
JP2022023772A (ja) Gpuを共有するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US11010859B2 (en) Display resource scheduling method and device for embedded system
CN101650660B (zh) 从中央存储装置引导计算机***
US10728169B1 (en) Instance upgrade migration
WO2002065281A1 (en) Method, system and computer program product for efficiently utilizing limited resources in a graphics device
CN111045786B (zh) 一种云环境下的基于镜像分层技术的容器创建***及方法
CN111679911B (zh) 云环境中gpu卡的管理方法、装置、设备及介质
US20220357974A1 (en) Container creation in a computing system
US20240143377A1 (en) Overlay container storage driver for microservice workloads
CN112000439A (zh) 一种实现云原生应用管理虚拟机的方法
CN114296953B (zh) 一种多云异构***及任务处理方法
CN114490062A (zh) 一种本地磁盘的调度方法、装置、电子设备及存储介质
CN115421787A (zh) 指令执行方法、装置、设备、***、程序产品及介质
CN114489954A (zh) 基于虚拟化平台的租户创建方法、租户访问方法及设备
US20190196846A1 (en) Information processing system, container management apparatus, and container management method
CN116467043A (zh) 一种基于k8s容器化差异化自动部署方法、装置及介质
US11252457B2 (en) Multimedia streaming and routing apparatus and operation method of the same
CN113127430A (zh) 镜像信息处理方法、装置、计算机可读介质及电子设备
CN111367472A (zh) 虚拟化方法和装置
CN114726657B (zh) 中断管理和数据收发管理的方法、装置及智能网卡
CN113986547A (zh) 创建云主机的方法及vGPU的管理***
JP6720357B2 (ja) ネットワークアクセス可能なデータボリューム変更
JP2021513137A (ja) 階層型ストレージ管理システムにおけるデータ・マイグレーション

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220128

RJ01 Rejection of invention patent application after publication