CN107659609B - 一种基于云计算的深度学***台及深度学习训练方法 - Google Patents
一种基于云计算的深度学***台及深度学习训练方法 Download PDFInfo
- Publication number
- CN107659609B CN107659609B CN201710617901.9A CN201710617901A CN107659609B CN 107659609 B CN107659609 B CN 107659609B CN 201710617901 A CN201710617901 A CN 201710617901A CN 107659609 B CN107659609 B CN 107659609B
- Authority
- CN
- China
- Prior art keywords
- deep learning
- subsystem
- platform
- cloud computing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/34—Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于云计算的深度学***台及深度学***台更加成熟可靠。
Description
技术领域
本发明属于信息处理领域,特别是涉及一种基于云计算的深度学***台及深度学习训练方法。
背景技术
目前深度学***台需要支持两类技术,平台基础资源方面需支持GPU的资源管控与GPU的调服分配,同时在软件层面需要支持深度学***台的用户直接面对的是深度学***台进行分配。
目前具备深度学***台的设计实现方式:
基于Kubernetes+docker,目前kubernetes在cpu、mem、网络、存储等的资源管控上具备了相当的成熟度,但是GPU调度仍然缺乏成熟度。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于云计算的深度学***台及深度学习训练方法。
为实现上述目的,本发明提供了一种基于云计算的深度学***台,其特征在于:包括日志子***、用户交互子***、监控子***、计算资源子***、深度学习子***及用户子***;
所述用户交互子***:用于申请深度学习框架服务,通过所述用户交互子***进行深度学习框架服务的发布、资源配置、普通用户请求的批准。
所述日志子***:用于日志的存储与检索。
所述计算资源子***:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架。
所述深度学***台镜像库中内置各种深度学习的框架,并将深度学习框架的配置进行编辑。
所述用户子***:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子***:用于对云计算平台本身的资源使用情况进行监控。
较佳的,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间。
较佳的,所述监控子***对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
较佳的,所述监控子***对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
较佳的,所述监控子***还对GPU、深度学习框架本身的运行状态进行监控。
本发明还提供了一种基于云计算深度学***台的深度学习模型训练方法,按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset;
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤五、依据用户的反馈或者新的数据启动第二次训练;
步骤六、第二次训练后的数据形成第二个版本的服务模型数据;
步骤七、云平台启动滚动升级技术,将serving服务进行升级。
本发明的有益效果是:本发明能够使得高GPU在长时间内具备很高利用率,整个平台更加成熟可靠。
附图说明
图1是深度学***台的示意图。
具体实施方式
下面结合实施例对本发明作进一步说明:
如图1所示,一种基于云计算的深度学***台,包括日志子***、用户交互子***、监控子***、计算资源子***、深度学习子***及用户子***;
所述用户交互子***是云计算平台的总体使用入口,用于申请深度学习框架服务,通过所述用户交互子***进行深度学习框架服务的发布、资源配置、普通用户请求的批准;用户交互子***是一个API总体集成展现的界面,通过node.js技术实现。
所述日志子***基于ELK技术实现,用于日志的存储与检索放入ElasticSearch;可以在出现问题时实时检索日志点,日志的存储空间可以横向扩展,进行全量日志的存储。
所述计算资源子***:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架,当用户使用完该环境以后,需要回收已经分配出去的GPU资源到资源池。目前云计算的CPU的调度已经比较成熟,FPGA不能完全做到通用。
所述深度学***台镜像库中内置各种深度学***台上完成部署,且直接可用。
所述用户子***:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子***:用于对云计算平台本身的资源使用情况进行监控。
本实施例中,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间。
本实施例中,所述监控子***对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
本实施例中,所述监控子***对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
本实施例中,所述监控子***还对GPU、深度学习框架本身的运行状态进行监控。
一种基于云计算的深度学***台的深度学习模型训练方法,按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset(原始数据);
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤六、依据用户的反馈或者新的数据启动第二次训练;
步骤七、第二次训练后的数据形成第二个版本的服务模型数据;
步骤八、云平台启动滚动升级技术,将serving服务进行升级。
针对深度学习监控主要有GPU的监控与深度学习任务状态的监控。GPU的
监控采取调用NVML(Nvdia针对GPU的可编程接口)开发实现,主要实时
监控GPU的显存使用、GPU的计算使用率、活跃的计算进程、温度已经风
扇速度等数据;
深度学习任务的监控主要是针对不同的深度学习框架运行的进程,同时利用深度学习框架开放的api,主要监控任务所占用的计算资源,任务的状态,任务的计算进度,任务是否正常结束等。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (5)
1.一种基于云计算的深度学***台,其特征在于:包括日志子***、用户交互子***、监控子***、计算资源子***、深度学习子***及用户子***;
所述用户交互子***:用于申请深度学习框架服务,通过所述用户交互子***进行深度学习框架服务的发布、资源配置、普通用户请求的批准;
所述日志子***:用于日志的存储与检索;
所述计算资源子***:用于分配CPU、GPU和FPGA的计算资源给该深度学习框架,所述GPU的计算资源分配按以下方式进行:每个计算单元在使用GPU显存与计算能力的时候分配独立的空间;
所述深度学***台镜像库中内置各种深度学习的框架,并将深度学习框架的配置进行编辑;
所述用户子***:用于用户、角色、租户角色等相关数据的存储、角色的授权、资源的判断;
所述监控子***:用于对云计算平台本身的资源使用情况进行监控。
2.如权利要求1所述的一种基于云计算的深度学***台,其特征是:所述监控子***对云计算平台本身的资源使用情况进行监控是实时状态监控与呈现,采取mongodb+ceilometer技术实现。
3.如权利要求1所述的一种基于云计算的深度学***台,其特征是:所述监控子***对云计算平台本身的资源使用情况进行监控是历史数据的分析,采取hbase+数据批处理实现。
4.如权利要求1所述的一种基于云计算的深度学***台,其特征是:所述监控子***还对GPU、深度学习框架本身的运行状态进行监控。
5.一种基于权利要求1所述的基于云计算的深度学***台的深度学习模型训练方法,其特征在于按以下步骤进行:
步骤一、从云平台申请一个training集群,开始模型的训练,训练时从初始的数据PV获取dataset;
步骤二、训练完成以后训练的模型数据保存到PV,形成第一个版本的模型数据;
步骤三、启动serving服务,serving服务基于第一版的模型数据开始对外提供服务;
步骤四、收集用户的反馈;
步骤六、依据用户的反馈或者新的数据启动第二次训练;
步骤七、第二次训练后的数据形成第二个版本的服务模型数据;
步骤八、云平台启动滚动升级技术,将serving服务进行升级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710617901.9A CN107659609B (zh) | 2017-07-26 | 2017-07-26 | 一种基于云计算的深度学***台及深度学习训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710617901.9A CN107659609B (zh) | 2017-07-26 | 2017-07-26 | 一种基于云计算的深度学***台及深度学习训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107659609A CN107659609A (zh) | 2018-02-02 |
CN107659609B true CN107659609B (zh) | 2021-01-12 |
Family
ID=61128105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710617901.9A Active CN107659609B (zh) | 2017-07-26 | 2017-07-26 | 一种基于云计算的深度学***台及深度学习训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107659609B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284184A (zh) * | 2018-03-07 | 2019-01-29 | 中山大学 | 一种基于容器化技术的分布式机器学习平台的搭建方法 |
CN109034394B (zh) * | 2018-07-02 | 2020-12-11 | 第四范式(北京)技术有限公司 | 一种机器学习模型的更新方法和装置 |
CN109919315B (zh) * | 2019-03-13 | 2021-10-01 | 科大讯飞股份有限公司 | 一种神经网络的前向推理方法、装置、设备及存储介质 |
CN110032449A (zh) * | 2019-04-16 | 2019-07-19 | 苏州浪潮智能科技有限公司 | 一种优化gpu服务器的性能的方法及装置 |
CN110413391B (zh) * | 2019-07-24 | 2022-02-25 | 上海交通大学 | 基于容器集群的深度学习任务服务质量保证方法和*** |
CN112311605B (zh) * | 2020-11-06 | 2023-12-22 | 北京格灵深瞳信息技术股份有限公司 | 提供机器学***台及方法 |
CN113703986B (zh) * | 2021-10-29 | 2022-03-11 | 苏州优鲜信网络生活服务科技有限公司 | 一种基于大数据的信息管理***与方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714852A (zh) * | 2015-03-17 | 2015-06-17 | 华中科技大学 | 一种适用于分布式机器学习的参数同步优化方法及其*** |
CN105357199A (zh) * | 2015-11-09 | 2016-02-24 | 南京邮电大学 | 一种云计算认知资源管理***及方法 |
CN105915438A (zh) * | 2016-04-15 | 2016-08-31 | 北京奇虎科技有限公司 | 消息推送方法、装置及*** |
CN106779084A (zh) * | 2016-09-30 | 2017-05-31 | 广州英康唯尔互联网服务有限公司 | 机器学习***及方法 |
CN106934497A (zh) * | 2017-03-08 | 2017-07-07 | 青岛卓迅电子科技有限公司 | 基于深度学习的智慧小区用电量实时预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089580B2 (en) * | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
-
2017
- 2017-07-26 CN CN201710617901.9A patent/CN107659609B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104714852A (zh) * | 2015-03-17 | 2015-06-17 | 华中科技大学 | 一种适用于分布式机器学习的参数同步优化方法及其*** |
CN105357199A (zh) * | 2015-11-09 | 2016-02-24 | 南京邮电大学 | 一种云计算认知资源管理***及方法 |
CN105915438A (zh) * | 2016-04-15 | 2016-08-31 | 北京奇虎科技有限公司 | 消息推送方法、装置及*** |
CN106779084A (zh) * | 2016-09-30 | 2017-05-31 | 广州英康唯尔互联网服务有限公司 | 机器学习***及方法 |
CN106934497A (zh) * | 2017-03-08 | 2017-07-07 | 青岛卓迅电子科技有限公司 | 基于深度学习的智慧小区用电量实时预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107659609A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107659609B (zh) | 一种基于云计算的深度学***台及深度学习训练方法 | |
US20200311573A1 (en) | Utilizing a machine learning model to predict a quantity of cloud resources to allocate to a customer | |
US10795711B2 (en) | Predictive allocation of virtual desktop infrastructure computing resources | |
CN105049268A (zh) | 分布式计算资源分配***和任务处理方法 | |
CN109213600A (zh) | 一种基于ai云的gpu资源调度方法和装置 | |
CN103795804A (zh) | 存储资源调度方法及存储计算*** | |
CN111143039B (zh) | 一种虚拟机的调度方法、装置及计算机存储介质 | |
CN105308553B (zh) | 动态提供存储 | |
CN107861796A (zh) | 一种支持云数据中心能耗优化的虚拟机调度方法 | |
CN104539672A (zh) | 一种基于云计算的移动应用程序消息推送代理*** | |
CN111209077A (zh) | 深度学习框架设计方法 | |
CN104410699A (zh) | 一种开放式云计算资源管理方法及*** | |
CN105302641A (zh) | 虚拟化集群中进行节点调度的方法及装置 | |
CN115373861B (zh) | Gpu资源调度方法、装置、电子设备及存储介质 | |
CN109960579B (zh) | 一种调整业务容器的方法及装置 | |
CN114138488A (zh) | 一种基于弹性高性能计算的云原生实现方法及*** | |
CN111338756A (zh) | Gpu池化的方法、装置、设备及计算机可读存储介质 | |
US11461147B2 (en) | Liaison system and method for cloud computing environment | |
CN115658311A (zh) | 一种资源的调度方法、装置、设备和介质 | |
CN116795520A (zh) | 资源调度方法、装置、电子设备和存储介质 | |
CN115952054A (zh) | 一种仿真任务资源管理方法、装置、设备及介质 | |
Surya et al. | Novel Approaches for Resource Management Across Edge Servers | |
CN112654077B (zh) | 节能方法及装置、计算机可存储介质 | |
CN114240395A (zh) | 一种资源交付方法、装置、计算机设备及存储介质 | |
CN114518798A (zh) | 设备集群的低功耗控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |