CN105224502A - 一种基于gpu的深度学习方法及*** - Google Patents

一种基于gpu的深度学习方法及*** Download PDF

Info

Publication number
CN105224502A
CN105224502A CN201510628858.7A CN201510628858A CN105224502A CN 105224502 A CN105224502 A CN 105224502A CN 201510628858 A CN201510628858 A CN 201510628858A CN 105224502 A CN105224502 A CN 105224502A
Authority
CN
China
Prior art keywords
gpu
cpu
neural network
network model
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510628858.7A
Other languages
English (en)
Inventor
张清
王娅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510628858.7A priority Critical patent/CN105224502A/zh
Publication of CN105224502A publication Critical patent/CN105224502A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于GPU的深度学习方法及***,所述***为单机***且包括CPU和至少一个GPU,该方法包括:CPU传输待训练数据至每个GPU;每个GPU利用所述待训练数据,前向后向计算得到神经网络模型的权重信息,并将权重信息反馈至CPU;CPU依据权重信息更新神经网络模型,并将更新后的神经网络模型传输至每个GPU,循环执行上述步骤直至完成神经网络模型的深度学习过程。以上方案由具有强大并行计算能力的GPU执行耗时的前向后向计算,且采用了CPU与多个GPU卡协同的部署方式,有效解决了现有技术中计算耗时长效率低,***部署复杂、成本高的问题。

Description

一种基于GPU的深度学习方法及***
技术领域
本发明涉及高性能计算、深度学习技术及互联网领域,特别是涉及一种基于GPU的深度学习方法及***。
背景技术
当今,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
2006年,加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经***的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。
如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。
目前,深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等,在这些应用的计算量十分巨大,其需要大规模深度学习计算,然而,现有技术中,通常仅利用CPU来实现深度学习过程中的计算,计算耗时长、效率低。并且,现有的深度学习***通常需要部署网络设备来实现联网,但是,部署网络设备很复杂且***成本高。
发明内容
有鉴于此,本发明提供了一种基于GPU的深度学习方法及***,以解决现有技术中计算耗时长效率低,***部署复杂、成本高的问题。
为解决上述技术问题,本发明提供一种基于GPU的深度学习方法,应用于基于GPU的深度学习***,所述***为单机***且所述***包括CPU和至少一个所述GPU,该方法包括:
所述CPU传输待训练数据至每个所述GPU;
每个所述GPU利用所述待训练数据,前向后向计算得到神经网络模型的权重信息,并将所述权重信息反馈至所述CPU;
所述CPU依据所述权重信息更新所述神经网络模型,并将更新后的神经网络模型传输至每个所述GPU,循环执行上述步骤直至完成所述神经网络模型的深度学习过程。
上述方法中,优选的,所述CPU传输待学习数据至每个所述GPU,包括:
从SSD硬盘中并行读取所述待训练数据至内存;
将所述内存中的所述待训练数据传输至每个所述GPU。
上述方法中,优选的,所述CPU与每个所述GPU之间通过PCIE接口进行数据传输。
本发明还提供了一种基于GPU的深度学习***,所述***为单机***,该***包括:
CPU和至少一个GPU;
其中,
所述CPU用于传输待训练数据至每个所述GPU,依据所述GPU反馈的权重信息更新神经网络模型,并将更新后的神经网络模型传输至每个所述GPU;
每个所述GPU用于利用所述待训练数据,前向后向计算得到所述神经网络模型的权重信息,并将所述权重信息反馈至所述CPU;循环执行上述步骤直至完成所述神经网络模型的深度学习过程。
上述***中,优选的,还包括:
SSD硬盘和内存;
所述CPU从所述SSD硬盘中并行读取所述待训练数据至所述内存;将所述内存中的所述待训练数据传输至每个所述GPU。
上述***中,优选的,还包括:
PCIE接口;
所述CPU与每个所述GPU之间通过所述PCIE接口进行数据传输。
上述***中,优选的,所述CPU的数量为两个,所述至少一个GPU包括八个GPU。
上述***中,优选的,所述八个GPU具体为四块GPU卡,每块所述GPU卡包括2个GPU芯片。
以上本发明提供的一种基于GPU的深度学习方法采用了CPU与多个GPU卡协同的高密度计算方式,具体地,由具有强大并行计算能力的GPU执行耗时的前向后向计算,其余的根据深度学习应用的算法特点的参数更新计算、数据读取和分发、神经网络模型更新计算则由CPU完成;从而加速了数据深度学习应用的处理时间,提升了计算效率。
以上本发明提供的一种基于GPU的深度学习***为单机***,不需要部署网络设备进行联网,具体地,采用了CPU与多个GPU卡协同的部署方式,单机***内***多个GPU卡,硬件部署方便、成本低。
综上,本发明提供了一种单机多GPU并行的基于GPU的深度学习方法及***,有效解决了现有技术中计算耗时长效率低,***部署复杂、成本高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于GPU的深度学习方法的流程图;
图2为本发明实施例提供的基于图1的数据交互图;
图3为本发明实施例提供的一种硬件设计架构图;
图4为本发明实施例提供的一种软件设计架构图;
图5为本发明实施例提供的一种基于GPU的深度学习***的结构框图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的核心是提供一种基于GPU的深度学习方法及***,以解决现有技术中计算耗时长效率低,***部署复杂、成本高的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
本发明以下技术方案以图片数据的深度学习为例进行说明,当然,这仅仅是举个例子,并不局限于图片数据,还可以是其它的比如语音数据、广告数据等等。
参考图1,图1示出了本发明实施例提供的一种基于GPU的深度学习方法的流程图,该方法承载于基于GPU的深度学习软件***,该软件***应用于基于GPU的深度学习***(即硬件***),***为单机***且***包括CPU和至少一个GPU,具体可以包括如下步骤:
步骤S100、CPU传输待训练数据至每个GPU;
本发明中,基于GPU的深度学习***还可以包括SSD硬盘和内存,参考图2,ReadData:CPU从SSD硬盘中并行读取待训练数据至内存;SendData:将内存中的待训练数据传输至每个GPU。
步骤S101、每个GPU利用待训练数据,前向后向计算得到神经网络模型的权重信息,并将权重信息反馈至CPU;
图2中,ForwardBackward:执行前向后向并行计算;
TransferWeight:将计算得到的权重信息反馈至CPU。
步骤S102、CPU依据权重信息更新神经网络模型,并将更新后的神经网络模型传输至每个GPU,循环执行上述步骤直至完成神经网络模型的深度学习过程。
图2中,ReciveNewWeightandSendNewNet:接收GPU反馈的权重信息,并将更新后的神经网络模型传输至每个GPU;
ComputeUpdateValueandNetUpdate:依据权重信息更新神经网络模型;
Send/ReciveNewNet:传输/接收更新后的神经网络模型。
以上本发明提供的一种基于GPU的深度学习方法采用了CPU与多个GPU卡协同的高密度计算方式,具体地,由具有强大并行计算能力的GPU执行耗时的前向后向计算,其余的根据深度学习应用的算法特点的参数更新计算、数据读取和分发、神经网络模型更新计算则由CPU完成;从而加速了数据深度学习应用的处理时间,提升了计算效率。
基于上述本发明实施例所公开的技术方案,本发明另一实施例中,针对上述步骤S100中CPU利用硬盘和内存将待训练数据传输至每个GPU,实际应用中,具体地,在硬件***设计中,CPU端采用二级模式,第一级为硬盘,可以采用快速SSD硬盘,大小可以为1TB,用于存放原始的待训练的图片数据;第二级为内存,可以配置256GB大内存,内存存放训练模型的参数数据和缓存图片数据。
另外,本实施例中,硬件***为高IO吞吐***:上述CPU与每个GPU之间通过PCIE接口进行数据传输,基于上述***配置的256GB大内存和1TBSSD硬盘,CPU能快速访问数据,CPU与每块GPU都是PCIE3.0通信,每块GPU卡内的两个GPU芯片也是PCIE3.0通信,GPU与GPU之间采用RDMA直接通信,这样CPU与GPU,GPU与GPU之间通信达到最高,以此实现了***的高IO吞吐。
最后,本发明中,上述CPU可以包含一个或多个CPU,多个CPU可以对数据处理量进行相互分担,本实施中,CPU的数量优选地为两个,软件***为Caffe应用单机多GPU卡并行软件,采用Cifar-10数据测试,软件框架采用MPI+Phread+CUDA混合并行计算模式,实现单机多GPU卡并行计算。CPU端起多个MPI进程,进程数为1+GPU数,其中第一个MPI进程控制两个CPU,其它的MPI进程数为GPU个数,每个MPI进程控制一个GPU,第一个MPI进程起多个PThread并行线程,每个CPUcore对应一个PThread线程。软件***处理过程采用主从模式,分为一个主进程,控制CPU端;多个从进程控制GPU端。
基于上述实施例中公开的技术方案,本发明再一实施例中,针对硬件***的设计,提出一种基于CPU+GPU异构架构的单机双路8GPU设计模式,具体地,在两个CPU的基础上,至少一个GPU包括八个GPU,进一步地,八个GPU具体为四块GPU卡,每块GPU卡包括两个GPU芯片。实际应用中,参考图3,***只采用一个节点,配置四块NvidiaK80GPU卡,每块K80有两个GPU芯片,一共八个GPU芯片,配置两个CPU为两个haswell架构E5-2670v3CPU,两个CPU与八个GPU协同,以此进一步实现高密度计算。
事实上,在实际应用中,上述至少一个GPU的数量除了八个,还可以是三个、五个或者六个等,本发明不做严格限定。上述优选地指出至少一个GPU包括八个GPU,是因为现实情况中上述至少一个GPU最多包括八个GPU,本实施例采用八个GPU是为了最大限度地提高计算效率。
关于硬盘、内存及通信模式的设置请参考上文。
另外,基于上述硬件***设计技术方案,基于实际应用,对软件***设计进行进一步的详细说明:
参考图4,软件***架构设计:软件***采用MPI+Phread+CUDA混合并行计算模式,实现单机多GPU卡并行计算。CPU端起9个MPI进程,进程数为1+GPU数,其中第一个MPI进程控制两块CPU,其它的MPI进程中每个MPI进程控制一个GPU芯片,第一个MPI进程起二十四个PThread并行线程,每个CPUcore对应一个PThread线程。
基于上述软件***构架,处理过程设计采用主从模式,分为一个主进程,控制CPU端;八个从进程分别控制八个GPU芯片。后续更具体内容可以参照上文。
基于上述本发明实施例提供的基于GPU的深度学习方法相对应,本发明实施例还提供了一种基于GPU的深度学习***,参考图5,***为单机***,该***500可以包括如下内容:
CPU501和至少一个GPU502;
其中,
CPU501用于传输待训练数据至每个GPU502,依据GPU502反馈的权重信息更新神经网络模型,并将更新后的神经网络模型传输至每个GPU502;
每个GPU502用于利用待训练数据,前向后向计算得到神经网络模型的权重信息,并将权重信息反馈至CPU501;循环执行上述步骤直至完成神经网络的深度学习过程。
上述***500还可以包括:SSD硬盘和内存;
CPU501从SSD硬盘中并行读取待学习数据至内存;将内存中的待训练数据传输至每个GPU502。
上述***500还可以包括:PCIE接口;
CPU501与每个GPU502之间通过PCIE接口进行数据传输。
上述***500中,CPU501的数量为两个,至少一个GPU502包括八个GPU502。
上述***500中,八个GPU502具体为四块GPU卡,每块GPU卡包括2个GPU芯片。
综上,本发明实现了一种基于GPU的高密度桌面型图像深度学习软硬件一体化***,该***具有高密度计算、高IO吞吐、低成本、易部署特点。此***根据图像深度学习应用计算特点进行专用定制化软硬件一体化设计,整个***为单机***,采用CPU与多块GPU卡协同高密度计算,从而加速图像深度学习应用处理时间,提升计算效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***类实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种基于GPU的深度学习方法及***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于GPU的深度学习方法,其特征在于,应用于基于GPU的深度学习***,所述***为单机***且所述***包括CPU和至少一个所述GPU,该方法包括:
所述CPU传输待训练数据至每个所述GPU;
每个所述GPU利用所述待训练数据,前向后向计算得到神经网络模型的权重信息,并将所述权重信息反馈至所述CPU;
所述CPU依据所述权重信息更新所述神经网络模型,并将更新后的神经网络模型传输至每个所述GPU,循环执行上述步骤直至完成所述神经网络模型的深度学习过程。
2.如权利要求1所述的方法,其特征在于,所述CPU传输所述待训练数据至每个所述GPU,包括:
从SSD硬盘中并行读取所述待训练数据至内存;
将所述内存中的所述待训练数据传输至每个所述GPU。
3.如权利要求1或2所述的方法,其特征在于,所述CPU与每个所述GPU之间通过PCIE接口进行数据传输。
4.一种基于GPU的深度学习***,其特征在于,所述***为单机***,该***包括:
CPU和至少一个GPU;
其中,
所述CPU用于传输待训练数据至每个所述GPU,依据所述GPU反馈的权重信息更新神经网络模型,并将更新后的神经网络模型传输至每个所述GPU;
每个所述GPU用于利用所述待训练数据,前向后向计算得到所述神经网络模型的权重信息,并将所述权重信息反馈至所述CPU;循环执行上述步骤直至完成所述神经网络模型的深度学习过程。
5.如权利要求4所述的***,其特征在于,还包括:
SSD硬盘和内存;
所述CPU从所述SSD硬盘中并行读取所述待训练数据至所述内存;将所述内存中的所述待训练数据传输至每个所述GPU。
6.如权利要求4或5所述的***,其特征在于,还包括:
PCIE接口;
所述CPU与每个所述GPU之间通过所述PCIE接口进行数据传输。
7.如权利要求6所述的***,其特征在于,所述CPU的数量为两个,所述至少一个GPU包括八个GPU。
8.如权利要求7所述的***,其特征在于,所述八个GPU具体为四块GPU卡,每块所述GPU卡包括2个GPU芯片。
CN201510628858.7A 2015-09-28 2015-09-28 一种基于gpu的深度学习方法及*** Pending CN105224502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510628858.7A CN105224502A (zh) 2015-09-28 2015-09-28 一种基于gpu的深度学习方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510628858.7A CN105224502A (zh) 2015-09-28 2015-09-28 一种基于gpu的深度学习方法及***

Publications (1)

Publication Number Publication Date
CN105224502A true CN105224502A (zh) 2016-01-06

Family

ID=54993481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510628858.7A Pending CN105224502A (zh) 2015-09-28 2015-09-28 一种基于gpu的深度学习方法及***

Country Status (1)

Country Link
CN (1) CN105224502A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201870A (zh) * 2016-07-01 2016-12-07 浪潮电子信息产业股份有限公司 一种测试gpu的方法及装置
WO2017148292A1 (zh) * 2016-03-01 2017-09-08 华为技术有限公司 一种级联板、ssd远程共享访问的***和方法
WO2018107934A1 (zh) * 2016-12-14 2018-06-21 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备
CN109074514A (zh) * 2016-05-13 2018-12-21 微软技术许可有限责任公司 通过示例和经验的机器人的深度学习
CN109213649A (zh) * 2018-09-18 2019-01-15 郑州云海信息技术有限公司 Gtx显卡深度学习优化测试方法、装置、终端及存储介质
WO2019079994A1 (zh) * 2017-10-25 2019-05-02 华为技术有限公司 核心调度方法和终端
CN109919310A (zh) * 2019-01-15 2019-06-21 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及***
CN110414668A (zh) * 2019-06-29 2019-11-05 苏州浪潮智能科技有限公司 一种基于aep内存的gpu深度学习方法,***及电子设备
CN110430444A (zh) * 2019-08-12 2019-11-08 北京中科寒武纪科技有限公司 一种视频流处理方法及***
CN110503194A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种分布式并行训练的方法和***
CN111722937A (zh) * 2019-03-21 2020-09-29 阿里巴巴集团控股有限公司 深度学习权重更新方法、装置
US11010681B2 (en) 2017-08-31 2021-05-18 Huawei Technologies Co., Ltd. Distributed computing system, and data transmission method and apparatus in distributed computing system
CN113033784A (zh) * 2021-04-18 2021-06-25 沈阳雅译网络技术有限公司 一种针对cpu和gpu设备搜索神经网络结构的方法
CN113168396A (zh) * 2018-11-05 2021-07-23 国际商业机器公司 深度学习中的大模型支持
WO2021208558A1 (zh) * 2020-04-16 2021-10-21 苏州浪潮智能科技有限公司 一种深度学习大模型训练的方法、***、设备及介质
US11687763B2 (en) 2018-10-19 2023-06-27 Fujitsu Limited Method, apparatus and computer program to carry out a training procedure in a convolutional neural network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120242672A1 (en) * 2011-03-21 2012-09-27 Apple Inc. Fast queries in a multithreaded queue of a graphics system
CN103488662A (zh) * 2013-04-01 2014-01-01 哈尔滨工业大学深圳研究生院 基于图形处理单元的自组织映射神经网络聚类方法及***
CN104036451A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机***有限公司 基于多图形处理器的模型并行处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120242672A1 (en) * 2011-03-21 2012-09-27 Apple Inc. Fast queries in a multithreaded queue of a graphics system
CN103488662A (zh) * 2013-04-01 2014-01-01 哈尔滨工业大学深圳研究生院 基于图形处理单元的自组织映射神经网络聚类方法及***
CN104036451A (zh) * 2014-06-20 2014-09-10 深圳市腾讯计算机***有限公司 基于多图形处理器的模型并行处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHANSHAN ZHANG ET AL.: "ASYNCHRONOUS STOCHASTIC GRADIENT DESCENT FOR DNN TRAINING", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017148292A1 (zh) * 2016-03-01 2017-09-08 华为技术有限公司 一种级联板、ssd远程共享访问的***和方法
US10901638B2 (en) 2016-03-01 2021-01-26 Huawei Technologies Co., Ltd. Cascading board and SSD shared remote access system and method
CN109074514A (zh) * 2016-05-13 2018-12-21 微软技术许可有限责任公司 通过示例和经验的机器人的深度学习
CN106201870A (zh) * 2016-07-01 2016-12-07 浪潮电子信息产业股份有限公司 一种测试gpu的方法及装置
WO2018107934A1 (zh) * 2016-12-14 2018-06-21 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备
US10943324B2 (en) 2016-12-14 2021-03-09 Tencent Technology (Shenzhen) Company Limited Data processing method, apparatus, and electronic device
US11010681B2 (en) 2017-08-31 2021-05-18 Huawei Technologies Co., Ltd. Distributed computing system, and data transmission method and apparatus in distributed computing system
WO2019079994A1 (zh) * 2017-10-25 2019-05-02 华为技术有限公司 核心调度方法和终端
CN109213649A (zh) * 2018-09-18 2019-01-15 郑州云海信息技术有限公司 Gtx显卡深度学习优化测试方法、装置、终端及存储介质
US11687763B2 (en) 2018-10-19 2023-06-27 Fujitsu Limited Method, apparatus and computer program to carry out a training procedure in a convolutional neural network
US11526759B2 (en) 2018-11-05 2022-12-13 International Business Machines Corporation Large model support in deep learning
CN113168396A (zh) * 2018-11-05 2021-07-23 国际商业机器公司 深度学习中的大模型支持
US11915147B2 (en) 2018-11-05 2024-02-27 International Business Machines Corporation Large model support in deep learning
CN109919310A (zh) * 2019-01-15 2019-06-21 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及***
CN109919310B (zh) * 2019-01-15 2021-05-18 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及***
CN111722937A (zh) * 2019-03-21 2020-09-29 阿里巴巴集团控股有限公司 深度学习权重更新方法、装置
CN111722937B (zh) * 2019-03-21 2024-05-10 阿里巴巴集团控股有限公司 深度学习权重更新方法、装置
CN110414668A (zh) * 2019-06-29 2019-11-05 苏州浪潮智能科技有限公司 一种基于aep内存的gpu深度学习方法,***及电子设备
CN110503194B (zh) * 2019-08-09 2022-05-24 苏州浪潮智能科技有限公司 一种分布式并行训练的方法和***
CN110503194A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种分布式并行训练的方法和***
CN110430444A (zh) * 2019-08-12 2019-11-08 北京中科寒武纪科技有限公司 一种视频流处理方法及***
WO2021208558A1 (zh) * 2020-04-16 2021-10-21 苏州浪潮智能科技有限公司 一种深度学习大模型训练的方法、***、设备及介质
CN113033784A (zh) * 2021-04-18 2021-06-25 沈阳雅译网络技术有限公司 一种针对cpu和gpu设备搜索神经网络结构的方法

Similar Documents

Publication Publication Date Title
CN105224502A (zh) 一种基于gpu的深度学习方法及***
Ding et al. Application of Internet of Things and virtual reality technology in college physical education
You et al. Scaling deep learning on GPU and knights landing clusters
US10614356B2 (en) Local multicast in single-host multi-GPU machine for distributed deep learning systems
CN106951926A (zh) 一种混合架构的深度学习***方法及装置
CN108460457A (zh) 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN113469355B (zh) 分布式***中的多模型训练管道
CN103853618A (zh) 基于截止日期驱动的云***代价最小化资源分配方法
EP4242844A3 (en) Distributing tensor computations across computing devices
Yilmaz et al. Panel: The future of research in modeling & simulation
Ivanovic et al. Elastic grid resource provisioning with WoBinGO: A parallel framework for genetic algorithm based optimization
Freniere et al. The feasibility of Amazon's cloud computing platform for parallel, GPU-accelerated, multiphase-flow simulations
CN105302526A (zh) 一种数据处理***及方法
Liu et al. Analysis of the Relation between Artificial Intelligence and the Internet from the Perspective of Brain Science
CN100531070C (zh) 网络资源调度仿真***
CN103714184A (zh) 一种遥感影像快速并行处理方法及装置
Souza et al. Edgesimpy: Python-based modeling and simulation of edge computing resource management policies
CN111695701B (zh) 基于联邦学习实现数据集构建处理的***及其构建生成方法
Shu et al. Design of deep learning accelerated algorithm for online recognition of industrial products defects
Cui et al. Cloud computing resource scheduling method research based on improved genetic algorithm
Ji et al. Optimized mapping spiking neural networks onto network-on-chip
CN103678888A (zh) 一种基于欧拉流体模拟算法的心脏血液流动示意显示方法
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
Matsuda et al. Benchmark for Personalized Federated Learning
Ge et al. Synthesizing brain-network-inspired interconnections for large-scale network-on-chips

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106