CN105224502A

CN105224502A - 一种基于gpu的深度学习方法及***

Info

Publication number: CN105224502A
Application number: CN201510628858.7A
Authority: CN
Inventors: 张清; 王娅娟
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2016-01-06

Abstract

本发明公开了一种基于GPU的深度学习方法及***，所述***为单机***且包括CPU和至少一个GPU，该方法包括：CPU传输待训练数据至每个GPU；每个GPU利用所述待训练数据，前向后向计算得到神经网络模型的权重信息，并将权重信息反馈至CPU；CPU依据权重信息更新神经网络模型，并将更新后的神经网络模型传输至每个GPU，循环执行上述步骤直至完成神经网络模型的深度学习过程。以上方案由具有强大并行计算能力的GPU执行耗时的前向后向计算，且采用了CPU与多个GPU卡协同的部署方式，有效解决了现有技术中计算耗时长效率低，***部署复杂、成本高的问题。

Description

一种基于GPU的深度学习方法及***

技术领域

本发明涉及高性能计算、深度学习技术及互联网领域，特别是涉及一种基于GPU的深度学习方法及***。

背景技术

当今，深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

2006年，加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生在顶尖学术刊物《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。自2006年以来，深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年，美国国防部DARPA计划首次资助深度学习项目，参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据，就是脑神经***的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型，由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。

如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，正是因为它们都看到了在大数据时代，更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息，并对未来或未知事件做更精准的预测。

目前，深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等，在这些应用的计算量十分巨大，其需要大规模深度学习计算，然而，现有技术中，通常仅利用CPU来实现深度学习过程中的计算，计算耗时长、效率低。并且，现有的深度学习***通常需要部署网络设备来实现联网，但是，部署网络设备很复杂且***成本高。

发明内容

有鉴于此，本发明提供了一种基于GPU的深度学习方法及***，以解决现有技术中计算耗时长效率低，***部署复杂、成本高的问题。

为解决上述技术问题，本发明提供一种基于GPU的深度学习方法，应用于基于GPU的深度学习***，所述***为单机***且所述***包括CPU和至少一个所述GPU，该方法包括：

所述CPU传输待训练数据至每个所述GPU；

每个所述GPU利用所述待训练数据，前向后向计算得到神经网络模型的权重信息，并将所述权重信息反馈至所述CPU；

所述CPU依据所述权重信息更新所述神经网络模型，并将更新后的神经网络模型传输至每个所述GPU，循环执行上述步骤直至完成所述神经网络模型的深度学习过程。

上述方法中，优选的，所述CPU传输待学习数据至每个所述GPU，包括：

从SSD硬盘中并行读取所述待训练数据至内存；

将所述内存中的所述待训练数据传输至每个所述GPU。

上述方法中，优选的，所述CPU与每个所述GPU之间通过PCIE接口进行数据传输。

本发明还提供了一种基于GPU的深度学习***，所述***为单机***，该***包括：

CPU和至少一个GPU；

其中，

所述CPU用于传输待训练数据至每个所述GPU，依据所述GPU反馈的权重信息更新神经网络模型，并将更新后的神经网络模型传输至每个所述GPU；

每个所述GPU用于利用所述待训练数据，前向后向计算得到所述神经网络模型的权重信息，并将所述权重信息反馈至所述CPU；循环执行上述步骤直至完成所述神经网络模型的深度学习过程。

上述***中，优选的，还包括：

SSD硬盘和内存；

所述CPU从所述SSD硬盘中并行读取所述待训练数据至所述内存；将所述内存中的所述待训练数据传输至每个所述GPU。

上述***中，优选的，还包括：

PCIE接口；

所述CPU与每个所述GPU之间通过所述PCIE接口进行数据传输。

上述***中，优选的，所述CPU的数量为两个，所述至少一个GPU包括八个GPU。

上述***中，优选的，所述八个GPU具体为四块GPU卡，每块所述GPU卡包括2个GPU芯片。

以上本发明提供的一种基于GPU的深度学习方法采用了CPU与多个GPU卡协同的高密度计算方式，具体地，由具有强大并行计算能力的GPU执行耗时的前向后向计算，其余的根据深度学习应用的算法特点的参数更新计算、数据读取和分发、神经网络模型更新计算则由CPU完成；从而加速了数据深度学习应用的处理时间，提升了计算效率。

以上本发明提供的一种基于GPU的深度学习***为单机***，不需要部署网络设备进行联网，具体地，采用了CPU与多个GPU卡协同的部署方式，单机***内***多个GPU卡，硬件部署方便、成本低。

综上，本发明提供了一种单机多GPU并行的基于GPU的深度学习方法及***，有效解决了现有技术中计算耗时长效率低，***部署复杂、成本高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于GPU的深度学习方法的流程图；

图2为本发明实施例提供的基于图1的数据交互图；

图3为本发明实施例提供的一种硬件设计架构图；

图4为本发明实施例提供的一种软件设计架构图；

图5为本发明实施例提供的一种基于GPU的深度学习***的结构框图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的核心是提供一种基于GPU的深度学习方法及***，以解决现有技术中计算耗时长效率低，***部署复杂、成本高的问题。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

本发明以下技术方案以图片数据的深度学习为例进行说明，当然，这仅仅是举个例子，并不局限于图片数据，还可以是其它的比如语音数据、广告数据等等。

参考图1，图1示出了本发明实施例提供的一种基于GPU的深度学习方法的流程图，该方法承载于基于GPU的深度学习软件***，该软件***应用于基于GPU的深度学习***(即硬件***)，***为单机***且***包括CPU和至少一个GPU，具体可以包括如下步骤：

步骤S100、CPU传输待训练数据至每个GPU；

本发明中，基于GPU的深度学习***还可以包括SSD硬盘和内存，参考图2，ReadData：CPU从SSD硬盘中并行读取待训练数据至内存；SendData：将内存中的待训练数据传输至每个GPU。

步骤S101、每个GPU利用待训练数据，前向后向计算得到神经网络模型的权重信息，并将权重信息反馈至CPU；

图2中，ForwardBackward：执行前向后向并行计算；

TransferWeight：将计算得到的权重信息反馈至CPU。

步骤S102、CPU依据权重信息更新神经网络模型，并将更新后的神经网络模型传输至每个GPU，循环执行上述步骤直至完成神经网络模型的深度学习过程。

图2中，ReciveNewWeightandSendNewNet：接收GPU反馈的权重信息，并将更新后的神经网络模型传输至每个GPU；

ComputeUpdateValueandNetUpdate：依据权重信息更新神经网络模型；

Send/ReciveNewNet：传输/接收更新后的神经网络模型。

基于上述本发明实施例所公开的技术方案，本发明另一实施例中，针对上述步骤S100中CPU利用硬盘和内存将待训练数据传输至每个GPU，实际应用中，具体地，在硬件***设计中，CPU端采用二级模式，第一级为硬盘，可以采用快速SSD硬盘，大小可以为1TB，用于存放原始的待训练的图片数据；第二级为内存，可以配置256GB大内存，内存存放训练模型的参数数据和缓存图片数据。

另外，本实施例中，硬件***为高IO吞吐***：上述CPU与每个GPU之间通过PCIE接口进行数据传输，基于上述***配置的256GB大内存和1TBSSD硬盘，CPU能快速访问数据，CPU与每块GPU都是PCIE3.0通信，每块GPU卡内的两个GPU芯片也是PCIE3.0通信，GPU与GPU之间采用RDMA直接通信，这样CPU与GPU，GPU与GPU之间通信达到最高，以此实现了***的高IO吞吐。

最后，本发明中，上述CPU可以包含一个或多个CPU，多个CPU可以对数据处理量进行相互分担，本实施中，CPU的数量优选地为两个，软件***为Caffe应用单机多GPU卡并行软件，采用Cifar-10数据测试，软件框架采用MPI+Phread+CUDA混合并行计算模式，实现单机多GPU卡并行计算。CPU端起多个MPI进程，进程数为1+GPU数，其中第一个MPI进程控制两个CPU，其它的MPI进程数为GPU个数，每个MPI进程控制一个GPU，第一个MPI进程起多个PThread并行线程，每个CPUcore对应一个PThread线程。软件***处理过程采用主从模式，分为一个主进程，控制CPU端；多个从进程控制GPU端。

基于上述实施例中公开的技术方案，本发明再一实施例中，针对硬件***的设计，提出一种基于CPU+GPU异构架构的单机双路8GPU设计模式，具体地，在两个CPU的基础上，至少一个GPU包括八个GPU，进一步地，八个GPU具体为四块GPU卡，每块GPU卡包括两个GPU芯片。实际应用中，参考图3，***只采用一个节点，配置四块NvidiaK80GPU卡，每块K80有两个GPU芯片，一共八个GPU芯片，配置两个CPU为两个haswell架构E5-2670v3CPU，两个CPU与八个GPU协同，以此进一步实现高密度计算。

事实上，在实际应用中，上述至少一个GPU的数量除了八个，还可以是三个、五个或者六个等，本发明不做严格限定。上述优选地指出至少一个GPU包括八个GPU，是因为现实情况中上述至少一个GPU最多包括八个GPU，本实施例采用八个GPU是为了最大限度地提高计算效率。

关于硬盘、内存及通信模式的设置请参考上文。

另外，基于上述硬件***设计技术方案，基于实际应用，对软件***设计进行进一步的详细说明：

参考图4，软件***架构设计：软件***采用MPI+Phread+CUDA混合并行计算模式，实现单机多GPU卡并行计算。CPU端起9个MPI进程，进程数为1+GPU数，其中第一个MPI进程控制两块CPU，其它的MPI进程中每个MPI进程控制一个GPU芯片，第一个MPI进程起二十四个PThread并行线程，每个CPUcore对应一个PThread线程。

基于上述软件***构架，处理过程设计采用主从模式，分为一个主进程，控制CPU端；八个从进程分别控制八个GPU芯片。后续更具体内容可以参照上文。

基于上述本发明实施例提供的基于GPU的深度学习方法相对应，本发明实施例还提供了一种基于GPU的深度学习***，参考图5，***为单机***，该***500可以包括如下内容：

CPU501和至少一个GPU502；

其中，

CPU501用于传输待训练数据至每个GPU502，依据GPU502反馈的权重信息更新神经网络模型，并将更新后的神经网络模型传输至每个GPU502；

每个GPU502用于利用待训练数据，前向后向计算得到神经网络模型的权重信息，并将权重信息反馈至CPU501；循环执行上述步骤直至完成神经网络的深度学习过程。

上述***500还可以包括：SSD硬盘和内存；

CPU501从SSD硬盘中并行读取待学习数据至内存；将内存中的待训练数据传输至每个GPU502。

上述***500还可以包括：PCIE接口；

CPU501与每个GPU502之间通过PCIE接口进行数据传输。

上述***500中，CPU501的数量为两个，至少一个GPU502包括八个GPU502。

上述***500中，八个GPU502具体为四块GPU卡，每块GPU卡包括2个GPU芯片。

综上，本发明实现了一种基于GPU的高密度桌面型图像深度学习软硬件一体化***，该***具有高密度计算、高IO吞吐、低成本、易部署特点。此***根据图像深度学习应用计算特点进行专用定制化软硬件一体化设计，整个***为单机***，采用CPU与多块GPU卡协同高密度计算，从而加速图像深度学习应用处理时间，提升计算效率。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于***类实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种基于GPU的深度学习方法及***进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于GPU的深度学习方法，其特征在于，应用于基于GPU的深度学习***，所述***为单机***且所述***包括CPU和至少一个所述GPU，该方法包括：

所述CPU传输待训练数据至每个所述GPU；

2.如权利要求1所述的方法，其特征在于，所述CPU传输所述待训练数据至每个所述GPU，包括：

从SSD硬盘中并行读取所述待训练数据至内存；

将所述内存中的所述待训练数据传输至每个所述GPU。

3.如权利要求1或2所述的方法，其特征在于，所述CPU与每个所述GPU之间通过PCIE接口进行数据传输。

4.一种基于GPU的深度学习***，其特征在于，所述***为单机***，该***包括：

CPU和至少一个GPU；

其中，

5.如权利要求4所述的***，其特征在于，还包括：

SSD硬盘和内存；

6.如权利要求4或5所述的***，其特征在于，还包括：

PCIE接口；

所述CPU与每个所述GPU之间通过所述PCIE接口进行数据传输。

7.如权利要求6所述的***，其特征在于，所述CPU的数量为两个，所述至少一个GPU包括八个GPU。

8.如权利要求7所述的***，其特征在于，所述八个GPU具体为四块GPU卡，每块所述GPU卡包括2个GPU芯片。