CN112130869B - 一种ai平台镜像处理的方法和装置 - Google Patents

一种ai平台镜像处理的方法和装置 Download PDF

Info

Publication number
CN112130869B
CN112130869B CN202010955468.1A CN202010955468A CN112130869B CN 112130869 B CN112130869 B CN 112130869B CN 202010955468 A CN202010955468 A CN 202010955468A CN 112130869 B CN112130869 B CN 112130869B
Authority
CN
China
Prior art keywords
mirror image
mirror
response
platform
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010955468.1A
Other languages
English (en)
Other versions
CN112130869A (zh
Inventor
王继玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010955468.1A priority Critical patent/CN112130869B/zh
Publication of CN112130869A publication Critical patent/CN112130869A/zh
Priority to US18/012,934 priority patent/US20230266956A1/en
Priority to PCT/CN2021/109216 priority patent/WO2022052657A1/zh
Application granted granted Critical
Publication of CN112130869B publication Critical patent/CN112130869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种AI平台镜像处理的方法,包括:响应于接收到制作镜像的请求,扫描制作镜像的文件以检测文件的语法和格式是否正确,响应于检测文件的语法和格式正确,根据文件制作镜像;响应于接收到向训练平台导入镜像的请求,根据镜像的镜像类型以及组件信息选择并安装镜像训练所需的组件;根据镜像的优先级调整待导入的镜像的排队位置,根据排队位置导入镜像;响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐镜像,并根据选择的镜像训练模型;响应于检测到镜像在本地磁盘空间的存储达到预设清理阈值,根据镜像的使用信息筛选并清理筛选出的镜像。本发明还公开了一种相应的装置。本发明可以提升AI平台的稳定性和可靠性。

Description

一种AI平台镜像处理的方法和装置
技术领域
本发明涉及计算机技术领域,更具体地,特别是指一种AI平台镜像处理的方法和装置。
背景技术
现阶段,AI训练平台,都是基于镜像,在容器中训练模型,如果是分布式任务,需要多个容器同时进行训练,这些容器可能在一台或者多台服务器上。同时,AI平台基本都是微服务,支持容器化部署,并且支持K8S的调度和管理,具备容错能力,如果服务的镜像和镜像仓库出现问题,运行各个服务的容器,都可能受到影响,导致AI平台的功能出现问题,所以,对AI平台的镜像、以及镜像仓库的管理和维护至关重要。
现阶段,进行模型训练,需要安装不同深度学***台可能拥有几十到上百个不同类型的镜像,对镜像的分类、检索、更新、数据迁移和备份,以及组件的升级维护,都需要花费大量的时间和精力。
针对高并发,分布式训练任务,需要在计算节点同时拉取多个镜像,高强度,高并发的镜像操作,需要镜像仓库具备更高的稳定性、可靠性以及容错能力。部署高可用的harbor镜像仓库,以及监控harbor仓库的健康状态,处理harbor仓库的各种异常,及时恢复harbor仓库的服务,需要AI平台具备良好的镜像处理策略和方法。
同时AI平台会根据训练需要,导入或者制作不同的镜像到AI平台,深度学***台的镜像管理具备高性能的同时,也具备易用性。
发明内容
有鉴于此,本发明实施例的目的在于提供一种使用镜像进行模型训练的AI平台,能够对服务镜像、深度学***台镜像的准确化和精细化管理,提升AI平台的稳定性和健壮性。实现Dockerfile文件语法检查,语法命令错误提示,格式错误提示等;实现高并发制作和导入镜像,可以根据docker服务器CPU、内存资源利用率,调整并发数量,同时可以根据优先级,调整操作的镜像,实时显示操作的镜像进度、排队位置和日志信息,支持删除排队状态的任务,及时终止不想制作和导入的镜像。制作和导入镜像的过程中,会自动安装推荐或手动选择的组件,比如jupyter,opencv,python等组件,保证导入的镜像,能够在AI平台进行模型训练。根据镜像管理策略和方法对AI训练平台的镜像进行多元化管理和维护,提升AI平台的稳定性和可靠性。
基于上述目的,本发明一方面提供了一种AI平台镜像处理的方法,该方法包括:
响应于接收到制作镜像的请求,扫描制作镜像的文件以检测文件的语法和格式是否正确,响应于检测文件的语法和格式正确,根据文件制作镜像;
响应于接收到向训练平台导入镜像的请求,根据镜像的镜像类型以及组件信息选择并安装镜像训练所需的组件;
根据镜像的优先级调整待导入的镜像的排队位置,根据排队位置导入镜像;
响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐镜像,并根据选择的镜像训练模型;
响应于检测到镜像在本地磁盘空间的存储达到预设清理阈值,根据镜像的使用信息筛选并清理筛选出的镜像。
在本发明的AI平台镜像处理的方法的一些实施方式中,方法还包括:
实时监控镜像仓库的健康状态,响应于监控到健康状态异常,判断镜像仓库是否部署高可用;
响应于判断镜像仓库部署了高可用,将镜像仓库中的业务转移至备用镜像仓库。
在本发明的AI平台镜像处理的方法的一些实施方式中,方法还包括:
响应于判断镜像仓库未部署高可用,每间隔预设时间检测镜像仓库的健康状态,响应于检测的次数达到预设次数且判断健康状态依旧异常,发送异常提示信息。
在本发明的AI平台镜像处理的方法的一些实施方式中,方法还包括:
在制作镜像的过程中,根据命令行数实时显示制作的进度信息,并通过日志实时显示执行命令的过程。
在本发明的AI平台镜像处理的方法的一些实施方式中,方法还包括:
响应于判断制作或导入镜像为高并发制作或导入,根据CPU和内存的资源利用率调整镜像的并发量。
在本发明的AI平台镜像处理的方法的一些实施方式中,方法还包括:
定时检测并处理训练平台和镜像仓库中不一致的镜像。
在本发明的AI平台镜像处理的方法的一些实施方式中,响应于接收到制作镜像的请求,扫描制作镜像的文件以检测文件的语法和格式是否正确还包括:
响应于检测到文件的语法和格式不正确,提示不正确信息,并反馈修改示例与修改建议。
本发明实施例的另一方面,还提供了一种AI平台镜像处理的装置,该装置包括:
文件检测模块,所述文件检测模块配置为响应于接收到制作镜像的请求,扫描制作所述镜像的文件以检测所述文件的语法和格式是否正确,响应于检测所述文件的语法和格式正确,根据所述文件制作所述镜像;
组件安装模块,所述组件安装模块配置为响应于接收到向训练平台导入所述镜像的请求,根据所述镜像的镜像类型以及组件信息选择并安装所述镜像训练所需的组件;
镜像导入模块,所述镜像导入模块配置为根据所述镜像的优先级调整待导入的所述镜像的排队位置,根据所述排队位置导入所述镜像;
模型训练模块,所述模型训练模块配置为响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐所述镜像,并根据选择的镜像训练所述模型;
镜像清理模块,所述镜像清理模块配置为响应于检测到所述镜像在本地磁盘空间的存储达到预设清理阈值,根据所述镜像的使用信息筛选并清理筛选出的所述镜像。
在本发明的AI平台镜像处理的装置的一些实施方式中,装置还包括:
健康状态监控模块,健康状态监控模块配置为实时监控镜像仓库的健康状态,响应于监控到健康状态异常,判断镜像仓库是否部署高可用;响应于判断镜像仓库部署了高可用,将镜像仓库中的业务转移至备用镜像仓库。
在本发明的AI平台镜像处理的装置的一些实施方式中,装置还包括:
并发量配置模块,并发量配置模块配置为响应于判断制作或导入镜像为高并发制作或导入,根据CPU和内存的资源利用率调整镜像的并发量。
本发明至少具有以下有益技术效果:本发明可以使用在AI平台上,对镜像进行管理,具备Dockerfile检测,导入镜像组件推荐和自动安装组件,监控和恢复harbor服务,节点镜像监控清理,训练镜像推荐等能力,在一定程度上,保证了AI平台的稳定性、健壮性和易用性,提高AI平台镜像的管理能力和模型训练的总体效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1示出了根据本发明的AI平台镜像处理的方法的实施例的示意性框图;
图2示出了根据本发明的AI平台镜像处理的装置的实施例的示意性框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”和“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种AI平台镜像处理的方法的实施例。图1示出的是根据本发明的AI平台镜像处理的方法的实施例的示意性框图。如图1所示的实施例中,该方法至少包括如下步骤:
S100、响应于接收到制作镜像的请求,扫描制作镜像的文件以检测文件的语法和格式是否正确,响应于检测文件的语法和格式正确,根据文件制作镜像;
S200、响应于接收到向训练平台导入镜像的请求,根据镜像的镜像类型以及组件信息选择并安装镜像训练所需的组件;
S300、根据镜像的优先级调整待导入的镜像的排队位置,根据排队位置导入镜像;
S400、响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐镜像,并根据选择的镜像训练模型;
S500、响应于检测到镜像在本地磁盘空间的存储达到预设清理阈值,根据镜像的使用信息筛选并清理筛选出的镜像。
在本发明的一些实施例中,计算节点进行模型训练,需要大数据集以及多种类型的镜像,对CPU、内存和硬盘的资源消耗比较高。当计算节点镜像仓库磁盘空间达到设置的预设清理阈值(可配置的清理阈值),根据计算节点,镜像的使用频率、拉取时间和最近使用时间,对镜像进行筛选,筛选出的镜像大小满足磁盘空间最低阈值(可配置)要求后,停止筛选,然后删除筛选出的镜像,实现节点本地镜像的自动清理,保证充足的训练资源。具体实施过程如下:
首先,该工具,配置文件支持灵活配置,具备一键部署能力,可以适配到AI平台,或者通过封装的API,对外提供使用,同时,具备容器化部署的能力。根据步骤S100,部署完成后,该方法和工具对外提供服务。使用Dockerfile制作镜像时,该工具会扫描Dockerfile文件,进行语法检测和格式检查,并给与提示和修改示例与建议。制作过程中,根据执行行数/命令总行数,实时显示进度信息,同时,日志实时显示执行命令过程。出现异常,会给出具体的异常原因,清理异常数据。
根据步骤S200,该工具可以实现内部导入和外部导入镜像功能,内部导入镜像tar包,可以自动甄别是export或save导出的tar包,然后进行导入;外部导入,可以在线拉取外网仓库镜像,并导入到AI平台。导入过程中,会自动检测镜像是否具备AI训练需要的组件,如果没有,根据镜像的类型、组件的使用频率、组件的安装次数,实现自动推荐和自动安装,同时,提供组件列表,支持手动选择安装。
根据步骤S300,可以根据优先级,调整导入的镜像,可以优先处理指定镜像,及时进行任务训练,缩短等待时间。同时,实时显示操作的镜像进度、排队位置和日志信息,让用户实时了解制作情况,支持删除排队状态的任务,及时终止不想制作和导入的镜像,提升AI平台的易用性和健壮性。支持删除排队状态的任务,及时终止导入的镜像。
根据步骤S400,AI平台,一般具备多种类型的镜像,有几十或者上百个镜像,进行模型训练时,应该选择哪个镜像,该工具,会根据镜像类型、镜像训练的任务、镜像的星级和使用次数进行分类和推荐,用户也可以自己检索和指定所需的训练镜像。提交训练任务时,如果harbor仓库中的镜像在同一时刻被删除,本工具会给予提示,并推荐类似的镜像,供其使用,提升平台的容错能力。
根据步骤S500,计算节点进行模型训练,需要大数据集,以及多种类型的镜像,对硬盘的资源消耗比较高。该工具具备检测和清理各个计算节点本地镜像的能力,当计算节点镜像仓库磁盘空间达到设置的删除阈值(可配置),会触发删除策略,根据计算节点本地镜像的使用频率、拉取时间和最近使用时间,对本地镜像进行筛选,筛选出的镜像大小满足磁盘空间最低阈值(可配置)要求后,停止筛选,然后删除筛选出的本地镜像,实现节点本地镜像的自动清理,保证充足的训练资源。
根据本发明的AI平台镜像处理的方法的一些实施方式,方法还包括:
实时监控镜像仓库的健康状态,响应于监控到健康状态异常,判断镜像仓库是否部署高可用;
响应于判断镜像仓库部署了高可用,将镜像仓库中的业务转移至备用镜像仓库。
在本发明的一些实施例中,该工具的监控服务实时监控harbor仓库服务健康状态,如果harbor服务的容器状态出现异常,导致harbor仓库无法使用,监控服务自动恢复异常服务。如果harbor仓库部署了高可用,在恢复期间,harbor VIP会自动漂移到备用的harbor服务器,不影响业务功能。
根据本发明的AI平台镜像处理的方法的一些实施方式,方法还包括:
响应于判断镜像仓库未部署高可用,每间隔预设时间检测镜像仓库的健康状态,响应于检测的次数达到预设次数且判断健康状态依旧异常,发送异常提示信息。
在本发明的一些实施例中,实时监控harbor服务健康状态,监控服务具备开机重启功能,自主处理和解决harbor服务网桥异常、harbor服务容器状态异常、harbor容器端口被占用、harbor容器异常、harbor镜像异常,以及重启服务器,导致harbor服务无法启动等问题,自动恢复harbor服务。与业务层进行协同工作,拥有检测等待机制,如果未部署高可用,在服务恢复期间,如果AI平台操作镜像,发现harbor仓库异常,会触发检测等待机制,每回检测等待时间都会增加(前一次等待时间*2,基础等待时间是30s),累积检测10次以后,发现harbor仓库还未恢复正常,则给出异常提示,如果恢复正常,继续进行正常的业务流程,提升平台的容错能力。监控服务,一般1分钟左右,就可以恢复harbor服务。监控服务具备开机重启,具备解决harbor服务网桥异常、harbor服务容器状态异常、harbor容器端口被占用、harbor容器出现问题、或者镜像出现问题,以及重启服务器,导致harbor服务无法启动等问题的能力,保障harbor仓库的健壮性。
根据本发明的AI平台镜像处理的方法的一些实施方式,方法还包括:
在制作镜像的过程中,根据命令行数实时显示制作的进度信息,并通过日志实时显示执行命令的过程。
在本发明的一些实施例中,本工具可以提取为组件和工具模块,嵌套进入不同的AI人工智能平台,支持可配置对外提供的API,通过API接口进行使用。本方法和工具,可以自动检测镜像的Dockerfile文件,检测Dockerfile文件中的命令是否符合语法命令规范,支持在线和离线Dockerfile制作镜像,同时提供实时日志界面,跟踪制作过程。提供外部导入和内部导入镜像功能,并在导入镜像的过程中,自动安装AI平台训练所需的组件,安装组件根据镜像的类型、组件的使用频率、组件的安装次数,实现自动推荐,同时,提供组件列表,支持手动选择。
在制作过程中,在AI平台的镜像管理模块,实时显示进度信息,以及实时显示制作过程日志。如果出现异常,日志会给出具体的异常原因,同时清理后台的异常数据,实现随时修改,随时重新制作。
根据本发明的AI平台镜像处理的方法的一些实施方式,方法还包括:
响应于判断制作或导入镜像为高并发制作或导入,根据CPU和内存的资源利用率调整镜像的并发量。
在本发明的一些实施例中,深度学***台资源消耗比较严重,该工具支持高并发,可以根据docker服务器CPU、内存资源利用率,调整并发数量。
根据本发明的AI平台镜像处理的方法的一些实施方式,方法还包括:
定时检测并处理训练平台和镜像仓库中不一致的镜像。
在本发明的一些实施例中,harbor仓库是AI平台镜像的根基,harbor仓库的稳定和可靠,对AI平台的镜像至关重要,本发明也针对harbor仓库,实现harbor的高可用,实现主备harbor节点镜像的同步,保证数据的一致性,通过虚拟VIP来使用harbor仓库中的镜像。本工具会定时检测AI平台和harbor仓库镜像的一致性,定时处理不一致的镜像记录。针对AI平台,选择镜像,提交训练任务时,如果harbor仓库中的镜像在同一时刻被删除,本工具会给予提示,并推荐类似的镜像,供其使用,提升平台的容错能力。
根据本发明的AI平台镜像处理的方法的一些实施方式,响应于接收到制作镜像的请求,扫描制作镜像的文件以检测文件的语法和格式是否正确还包括:
响应于检测到文件的语法和格式不正确,提示不正确信息,并反馈修改示例与修改建议。
在本发明的一些实施例中,该工具引入了Dockerfile语法库,以及命令说明文档,可以对Dockerfile进行语法检测,并给与提示,同时,会进行格式检查,并提示格式错误,支持在线修改和编辑Dockerfile。
本发明实施例的另一方面,提出了一种AI平台镜像处理的装置的实施例。该装置101包括:
文件检测模块11,所述文件检测模块配置为响应于接收到制作镜像的请求,扫描制作所述镜像的文件以检测所述文件的语法和格式是否正确,响应于检测所述文件的语法和格式正确,根据所述文件制作所述镜像;
组件安装模块12,所述组件安装模块配置为响应于接收到向训练平台导入所述镜像的请求,根据所述镜像的镜像类型以及组件信息选择并安装所述镜像训练所需的组件;
镜像导入模块13,所述镜像导入模块配置为根据所述镜像的优先级调整待导入的所述镜像的排队位置,根据所述排队位置导入所述镜像;
模型训练模块14,所述模型训练模块配置为响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐所述镜像,并根据选择的镜像训练所述模型;
镜像清理模块15,所述镜像清理模块配置为响应于检测到所述镜像在本地磁盘空间的存储达到预设清理阈值,根据所述镜像的使用信息筛选并清理筛选出的所述镜像。
根据本发明的AI平台镜像处理的装置的一些实施方式,装置101还包括:
健康状态监控模块,健康状态监控模块配置为实时监控镜像仓库的健康状态,响应于监控到健康状态异常,判断镜像仓库是否部署高可用;响应于判断镜像仓库部署了高可用,将镜像仓库中的业务转移至备用镜像仓库。
根据本发明的AI平台镜像处理的装置的一些实施方式,装置101还包括:
并发量配置模块,并发量配置模块配置为响应于判断制作或导入镜像为高并发制作或导入,根据CPU和内存的资源利用率调整镜像的并发量。
所以,通过本方法和工具,对AI模型训练镜像,在制作或导入时,自动进行检测和扫描,根据策略,自动推荐或手动选择安装训练需要的组件,并根据优先级,以及排队策略,优先处理导入或拉取优先级高的镜像,成功后,根据镜像类型进行分类处理。提交训练任务时,可以根据策略,选择自动分类、排序和推荐的训练镜像,也可以检索需要的镜像。同时对节点镜像进行管理,根据删除策略,自动清理计算节点镜像,保障计算节点的训练资源充足,并对harbor仓库进行监控,保障harbor仓库的高可用和服务的健康状态,对提升整个AI平台的稳定性和可靠性,具有重要意义。
同样地,本领域技术人员应当理解,以上针对根据本发明的AI平台镜像处理的方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的装置。为了本公开的简洁起见,在此不再重复阐述。
需要特别指出的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,AI平台镜像处理的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (7)

1.一种AI平台镜像处理的方法,其特征在于,所述方法包括:
响应于接收到制作镜像的请求,扫描制作所述镜像的文件以检测所述文件的语法和格式是否正确,响应于检测所述文件的语法和格式正确,根据所述文件制作所述镜像;
响应于接收到向训练平台导入所述镜像的请求,根据所述镜像的镜像类型以及组件信息选择并安装所述镜像训练所需的组件;
根据所述镜像的优先级调整待导入的所述镜像的排队位置,根据所述排队位置导入所述镜像;
响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐所述镜像,并根据选择的镜像训练所述模型;
响应于检测到所述镜像在本地磁盘空间的存储达到预设清理阈值,根据所述镜像的使用信息筛选并清理筛选出的所述镜像;
实时监控镜像仓库的健康状态,响应于监控到所述健康状态异常,判断所述镜像仓库是否部署高可用;响应于判断所述镜像仓库部署了所述高可用,将所述镜像仓库中的业务转移至备用镜像仓库;
响应于判断所述镜像仓库未部署所述高可用,每间隔预设时间检测所述镜像仓库的所述健康状态,响应于检测的次数达到预设次数且判断所述健康状态依旧异常,发送异常提示信息。
2.根据权利要求1所述的AI平台镜像处理的方法,其特征在于,所述方法还包括:
在制作所述镜像的过程中,根据命令行数实时显示制作的进度信息,并通过日志实时显示执行命令的过程。
3.根据权利要求1所述的AI平台镜像处理的方法,其特征在于,所述方法还包括:
响应于判断制作或导入所述镜像为高并发制作或导入,根据CPU和内存的资源利用率调整所述镜像的并发量。
4.根据权利要求1所述的AI平台镜像处理的方法,其特征在于,所述方法还包括:
定时检测并处理所述训练平台和所述镜像仓库中不一致的所述镜像。
5.根据权利要求1所述的AI平台镜像处理的方法,其特征在于,所述响应于接收到制作镜像的请求,扫描制作所述镜像的文件以检测所述文件的语法和格式是否正确还包括:
响应于检测到所述文件的语法和格式不正确,提示不正确信息,并反馈修改示例与修改建议。
6.一种AI平台镜像处理的装置,其特征在于,所述装置包括:
文件检测模块,所述文件检测模块配置为响应于接收到制作镜像的请求,扫描制作所述镜像的文件以检测所述文件的语法和格式是否正确,响应于检测所述文件的语法和格式正确,根据所述文件制作所述镜像;
组件安装模块,所述组件安装模块配置为响应于接收到向训练平台导入所述镜像的请求,根据所述镜像的镜像类型以及组件信息选择并安装所述镜像训练所需的组件;
镜像导入模块,所述镜像导入模块配置为根据所述镜像的优先级调整待导入的所述镜像的排队位置,根据所述排队位置导入所述镜像;
模型训练模块,所述模型训练模块配置为响应于接收到模型训练的请求,根据镜像信息和训练任务信息分类并推荐所述镜像,并根据选择的镜像训练所述模型;
镜像清理模块,所述镜像清理模块配置为响应于检测到所述镜像在本地磁盘空间的存储达到预设清理阈值,根据所述镜像的使用信息筛选并清理筛选出的所述镜像;
其中,所述装置还包括:健康状态监控模块,所述健康状态监控模块配置为实时监控镜像仓库的健康状态,响应于监控到所述健康状态异常,判断所述镜像仓库是否部署高可用;响应于判断所述镜像仓库部署了所述高可用,将所述镜像仓库中的业务转移至备用镜像仓库;
响应于判断所述镜像仓库未部署所述高可用,每间隔预设时间检测所述镜像仓库的所述健康状态,响应于检测的次数达到预设次数且判断所述健康状态依旧异常,发送异常提示信息。
7.根据权利要求6所述的AI平台镜像处理的装置,其特征在于,所述装置还包括:
并发量配置模块,所述并发量配置模块配置为响应于判断制作或导入所述镜像为高并发制作或导入,根据CPU和内存的资源利用率调整所述镜像的并发量。
CN202010955468.1A 2020-09-11 2020-09-11 一种ai平台镜像处理的方法和装置 Active CN112130869B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010955468.1A CN112130869B (zh) 2020-09-11 2020-09-11 一种ai平台镜像处理的方法和装置
US18/012,934 US20230266956A1 (en) 2020-09-11 2021-07-29 Method and apparatus for processing mirror images of ai platform
PCT/CN2021/109216 WO2022052657A1 (zh) 2020-09-11 2021-07-29 一种ai平台镜像处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010955468.1A CN112130869B (zh) 2020-09-11 2020-09-11 一种ai平台镜像处理的方法和装置

Publications (2)

Publication Number Publication Date
CN112130869A CN112130869A (zh) 2020-12-25
CN112130869B true CN112130869B (zh) 2022-11-29

Family

ID=73845254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955468.1A Active CN112130869B (zh) 2020-09-11 2020-09-11 一种ai平台镜像处理的方法和装置

Country Status (3)

Country Link
US (1) US20230266956A1 (zh)
CN (1) CN112130869B (zh)
WO (1) WO2022052657A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112130869B (zh) * 2020-09-11 2022-11-29 苏州浪潮智能科技有限公司 一种ai平台镜像处理的方法和装置
CN116302210B (zh) * 2023-05-17 2023-08-04 阿里云计算有限公司 一种镜像文件的导入方法、装置、电子设备及存储介质
CN116594647A (zh) * 2023-06-09 2023-08-15 中国水利水电科学研究院 一种基于Docker技术的软件适配方法
CN116842001A (zh) * 2023-08-29 2023-10-03 合肥中科类脑智能技术有限公司 镜像数据清理方法、装置及电子设备、人工智能平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401031A (zh) * 2018-03-13 2018-08-14 深圳市腾讯计算机***有限公司 一种镜像文件传输方法、装置及存储介质
CN109246234A (zh) * 2018-09-30 2019-01-18 北京金山云网络技术有限公司 一种镜像文件下载方法、装置、电子设备及存储介质
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理***及方法
CN111367869A (zh) * 2020-02-26 2020-07-03 北京三快在线科技有限公司 镜像文件处理方法、装置、存储介质及电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146617B2 (en) * 2001-09-29 2006-12-05 Siebel Systems, Inc. Method, apparatus, and system for implementing view caching in a framework to support web-based applications
US6745303B2 (en) * 2002-01-03 2004-06-01 Hitachi, Ltd. Data synchronization of multiple remote storage
US20080201705A1 (en) * 2007-02-15 2008-08-21 Sun Microsystems, Inc. Apparatus and method for generating a software dependency map
CN106302632B (zh) * 2016-07-21 2020-02-14 华为技术有限公司 一种基础镜像的下载方法以及管理节点
CN108089888B (zh) * 2016-11-21 2019-09-13 杨正 一种基于文件***的应用运行方法及***
US11539748B2 (en) * 2018-01-23 2022-12-27 Zeronorth, Inc. Monitoring and reporting enterprise level cybersecurity remediation
CN108390920A (zh) * 2018-02-02 2018-08-10 浙江臻善科技股份有限公司 基于web端的Docker镜像构建方法、装置、存储设备及终端设备
CN109032625A (zh) * 2018-09-04 2018-12-18 山东浪潮云投信息科技有限公司 一种软件持续集成方法及装置
WO2020068831A1 (en) * 2018-09-26 2020-04-02 Visa International Service Association Dynamic graph representation learning via attention networks
CN109586999B (zh) * 2018-11-12 2021-03-23 深圳先进技术研究院 一种容器云平台状态监控预警***、方法及电子设备
CN109857475B (zh) * 2018-12-27 2020-06-16 深圳云天励飞技术有限公司 一种框架管理的方法及装置
CN111381928B (zh) * 2018-12-28 2021-05-25 中兴通讯股份有限公司 一种虚拟机迁移方法、云计算管理平台和存储介质
US11093707B2 (en) * 2019-01-15 2021-08-17 International Business Machines Corporation Adversarial training data augmentation data for text classifiers
CN110096333B (zh) * 2019-04-18 2021-06-29 华中科技大学 一种基于非易失内存的容器性能加速方法
US11144754B2 (en) * 2019-08-19 2021-10-12 Nvidia Corporation Gaze detection using one or more neural networks
CN110647580B (zh) * 2019-09-05 2022-06-10 南京邮电大学 分布式容器集群镜像管理主节点、从节点、***及方法
CN110673860B (zh) * 2019-09-24 2023-06-16 南京先进计算产业发展有限公司 智能云数据中心建设与运营部署***及方法
CN112130869B (zh) * 2020-09-11 2022-11-29 苏州浪潮智能科技有限公司 一种ai平台镜像处理的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401031A (zh) * 2018-03-13 2018-08-14 深圳市腾讯计算机***有限公司 一种镜像文件传输方法、装置及存储介质
CN109246234A (zh) * 2018-09-30 2019-01-18 北京金山云网络技术有限公司 一种镜像文件下载方法、装置、电子设备及存储介质
CN109508238A (zh) * 2019-01-05 2019-03-22 咪付(广西)网络技术有限公司 一种用于深度学习的资源管理***及方法
CN111367869A (zh) * 2020-02-26 2020-07-03 北京三快在线科技有限公司 镜像文件处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112130869A (zh) 2020-12-25
US20230266956A1 (en) 2023-08-24
WO2022052657A1 (zh) 2022-03-17

Similar Documents

Publication Publication Date Title
CN112130869B (zh) 一种ai平台镜像处理的方法和装置
CN100465919C (zh) 应用服务器的健康监视和控制的技术
US8868441B2 (en) Non-disruptively changing a computing environment
US9049105B1 (en) Systems and methods for tracking and managing event records associated with network incidents
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN110138837A (zh) 请求处理方法、装置、计算机设备和存储介质
EP2008400B1 (en) Method, system and computer program for the centralized system management on endpoints of a distributed data processing system
CN111125444A (zh) 大数据任务调度管理方法、装置、设备及存储介质
US20090171730A1 (en) Non-disruptively changing scope of computer business applications based on detected changes in topology
WO2020248507A1 (zh) 基于容器云的***资源监控方法及相关设备
CN106951315B (zh) 一种基于etl的数据任务调度方法及***
US20110289354A1 (en) Distributed Batch Runner
CN110807064A (zh) Rac分布式数据库集群***中的数据恢复装置
CN113312153B (zh) 一种集群部署方法、装置、电子设备及存储介质
JP4918668B2 (ja) 仮想化環境運用支援システム及び仮想化環境運用支援プログラム
CN111327685A (zh) 分布式存储***数据处理方法、装置及设备和存储介质
CN109597764A (zh) 一种目录配额的测试方法及相关装置
CN114996006A (zh) 一种服务器编排配置执行方法、装置、设备及介质
CN100435105C (zh) 集群环境下的应用服务器的***再生方法
CN116737560B (zh) 基于智能导控的智慧训练***
CN110532105A (zh) 一种消息队列消费者进程的控制方法、***及装置
CN115964142A (zh) 应用服务的管理方法、设备及存储介质
CN115145693A (zh) 一种镜像清除方法、***、设备以及存储介质
JP2010009127A (ja) 管理プログラムおよび管理装置
CN108616397B (zh) 部署确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant