CN106951926A

CN106951926A - 一种混合架构的深度学习***方法及装置

Info

Publication number: CN106951926A
Application number: CN201710196532.0A
Authority: CN
Inventors: 程归鹏; 卢飞; 江涛
Original assignee: Shandong Intelligent Data Technology Co Ltd
Current assignee: Shandong Intelligent Data Technology Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2017-07-14
Anticipated expiration: 2037-03-29
Also published as: CN106951926B

Abstract

本发明公开了一种混合架构的深度学习***方法及装置，其特征是包括如下步骤：训练数据集更新时，训练模块重新进行深度学习网络模型训练并存储权值和偏置参数；服务器端监测进程监测到参数文件变化，将其封装到预先设定的数据结构中并通知推理模块；推理模块中断推理服务，从服务器侧读取权值和偏置文件内容并更新网络模型；服务器端监测进程同时处理需要推理的输入文件并通知推理模块；该***装置包括服务器模块、训练模块、推理模块、总线接口；本发明的训练和推理混合CPU+GPU+CAPI异构深度学习***，能充分利用资源，获得更高的能效比，实现CAPI直接访问服务器内存，实时在线迭代更新推理模型权值等参数。

Description

一种混合架构的深度学习***方法及装置

技术领域

本发明涉及电路设计及机器学习的技术领域，特别是涉及一种混合架构的深度学习***方法及装置。

背景技术

21世纪信息技术产业的飞速发展，带给人们巨大的利益和便利。深度学***台普遍采用的是NVIDIA的高性能的GPU如Tesla P100、Titan X、GTX1080等加速训练过程。当得到可用的模型后，部署到另外一个平台用于推理并对外提供服务，由于推理过程只做一遍前向运算，故而对计算的要求会低一些，更多的要求是体现在时延上，目前用于推理的平台有基于CPU的云服务平台的，也有基于低功耗GPU服务器集群，还有采用FPGA或专用ASIC集群等等。从低延时和高效能上来讲，使用FPGA和专用ASIC会更胜一筹。且FPGA相比ASIC更具有架构的灵活性，获得了越来越多的关注。CAPI 即一致性加速处理器接口(Coherent Accelerator ProcessorInterface)，是IBM在POWER处理器上推出的高速总线接口协议，物理接口形式是PCI-E或者IBM推出的BlueLink。CAPI内部实现了PSL层，保证了与服务器之间的访存一致性，即可以通过虚拟地址直接访问到CPU内存，从而大大降低了访问时延。且IBM推出的SNAP Framework编程环境，可以使用C/C++方便的实现算法模型。

为此人们开发研究了各种深度学习方法及装置，如公开号为CN106022472A的中国专利一种嵌入式深度学习处理器，该发明属于集成电路技术领域，具体为一种基于FPGA的嵌入式深度学习处理器；该深度学习处理器包括：中央处理器（CPU），完成处理器学习和运行过程中必要的逻辑运算、控制及存储工作；深度学习单元，深度学习算法的硬件实现单元，是进行深度学习处理的核心部件；该深度学习处理器结合传统CPU与深度学习组合单元，其中深度学习组合单元可由多个深度学习单元任意组合，具有可扩展性，可针对不同的计算规模，作为人工智能应用的核心处理器。如图5所示，公开号为CN106156851A的中国专利一种面向深度学习业务的加速装置及方法，用于对服务器中的待处理数据进行深度学习计算，包括设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器；所述计算控制模块为可编程逻辑器件，包括控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口；所述逻辑存储单元用于存储深度学习控制逻辑；所述第一存储器用于存储网络各层的权重数据和偏置数据；利用本发明，可以有效提高计算效率，提升性能功耗比。

现有技术存在以下不足：1）一般方法采用训练与推理分离，需要维护两套平台环境，资源得不到充分利用；2）完全采用FPGA/CPLD做深度学习计算，计算能力不够强大，目前并不适用于大规模的训练场景；3）FPGA/CPLD与服务器之间通信一般通过DMA方式，数据与CPU服务器之间交互的时延较大。因此有必要提出新的一种深度学习***方法及装置。

发明内容

为了要解决的现有技术问题的不足，本发明提供了一种混合架构的深度学习***方法及装置，发挥了各自模块的优势和特点，获得了更高的能效比，充分利用了资源；CAPI实现了对服务器内存的直接访问，降低了时延和编程复杂度；本发明解决其技术问题的技术方案为：

一种混合架构的深度学习***方法，用于实现对深度学习训练和推理，包括如下步骤：

S1，训练数据集有更新变化，训练模块重新进行深度学习网络模型训练，结束后，网络模型的权值和偏置参数存储至预先设定的文件；

S2，服务器端监测进程监测到参数文件变化，将权值和偏置参数存储空间的虚拟地址、长度信息封装到预先设定的数据结构中，并通知推理模块；

S3，推理模块中断推理服务，通过总线接口从服务器侧读取权值和偏置文件内容，并更新网络模型；

S4，服务器端监测进程同时处理需要推理的输入文件，并通知推理模块，推理模块完成后将结果返回到服务端监测进程。

所述的步骤S1具体包括以下子步骤：

S11，训练数据集的更新变化时，不改变网络模型，需要重新训练，从而得到更新后的网络权值和偏置参数；

S12，训练完成后，需要将网络各层的权值和偏置参数以与推理模块约定好的格式存储到预先设定的文件；

所述的步骤S2具体包括以下子步骤：

S21，服务端运行监测进程，通过调用推理模块在服务器内核库函数接口及驱动，控制推理模块的运行、停止及参数更新；

S22，服务端监测进程时刻监测是否有权值偏置参数需更新，并获取最新参数信息；

S23，当有更新发生，需要向推理模块发送停止命令及更新的参数文件信息；

所述的步骤S3具体包括以下子步骤：

S31，推理模块直接通过虚拟地址从服务端读取相应的权值、偏置信息至内部RAM；

S32，推理模块读取完成后通知监测进程，监测进程向其发送运行命令；

S33，推理模块更新网络模型参数，继续进行推理服务。

所述的混合架构的深度学习***网络模型采用针对图片分类的深度学习网络模型。

一种混合架构的深度学习***装置，用于实现对深度学习训练和推理的并行化操作，所述装置包括服务器模块、训练模块、推理模块、总线接口；所述服务器模块包括CPU处理器、DDR内存、网络；所述训练模块、推理模块均与所述服务器模块通过总线接口连接，并能够进行连接通信。

所述的服务器模块具有包括用于深度学习的控制、数据处理、网络交互、参数存储的功能。

所述的CPU处理器为POWER处理器；所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块；所述的推理模块为能预先装载预先设定的深度学习网络模型且用于深度学习推理过程的CAPI推理模块。

与现有技术相比，本发明的有益效果体现在：本发明所述一种混合架构的深度学***台将训练和推理混合的CPU+GPU+CAPI异构深度学习***，发挥各自模块的优势和特点，获得更高的能效比，充分利用了资源；CAPI实现了对服务器内存的直接访问，降低了时延和编程复杂度；对推理模型的权值等参数能实时在线迭代更新。

附图说明

图1 为本发明混合架构的深度学习***方法的流程示意图。

图2 为本发明混合架构的深度学习装置的架构图。

图3 为本发明实施例混合架构的深度学习装置的架构图。

图4 为本发明采用Alexnet深度学习网络模型为例的工作原理图。

图5 为现有技术实施例面向深度学习业务的加速装置的结构框图。

具体实施方式

结合附图1至图5对本发明进一步详细描述，以便公众更好地掌握本发明的实施方法，本发明具体的实施方案为：

如图 1所示，本发明所述的一种混合架构的深度学习***方法，用于实现对深度学习训练和推理，包括如下步骤：

所述的步骤S1具体包括以下子步骤：

所述的步骤S2具体包括以下子步骤：

所述的步骤S3具体包括以下子步骤：

S32，推理模块读取完成后通知监测进程，守护进程向其发送运行命令；

S33，推理模块更新网络模型参数，继续进行推理服务。

如图 2所示，所述的混合架构的深度学习***装置，用于实现对深度学习训练和推理的并行化操作，其特征在于：所述装置包括服务器模块、训练模块、推理模块、总线接口；所述服务器模块CPU处理器、DDR内存、网络；所述训练模块、推理模块均与所述服务器模块通过总线接口连接，并能够进行连接通信；所述的服务器模块为包括用于深度学习的控制、数据处理、网络交互、参数存储功能的服务器模块；所述的CPU处理器为POWER处理器；所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块；所述的推理模块为能预先装载预先设定的深度学习网络模型且用于深度学习推理过程的CAPI推理模块；所述服务器模块与训练模块的总线接口为PCI-E或者Nvlink总线；所述服务器模块与推理模块的硬件接口为PCI-E或BlueLink，总线协议为CAPI。

优选的，如图 4所示，所述的混合架构的深度学习***网络模型采用一种针对图片分类的Alexnet深度学习网络模型。为了便于本发明方案的理解，下面以采用Alexnet深度学习网络模型为例，简要说明本发明的工作原理：所述的Alexnet深度学习网络模型由5层卷积层和3层全连接层组成，部分卷积层中还加入了Relu、Pooling和Normalization操作，最后一层全连接层输出1000个分类的Softmax层。Alexnet模型可以用于广泛的图片分类，根据训练数据集的不同，可以针对不同的情形做分类训练，并提供图片分类服务。

实施例1

如图3所示，作为优选最佳实施方式，如实现一个Alexnet的图片分类问题：所述混合架构的深度学习装置，用于实现对深度学习训练和推理的并行化操作，包括POWER8处理器、DDR内存、网络等组成的服务器模块；与所述服务器通过总线连接的GPU加速训练模块GTX1080；与所述服务器通过总线连接的CAPI推理模块ADM-PCIE-KU3 加速卡。所述的GPU训练模块用于加速深度学习模型的训练过程；所述的推理模块预先装载AlexNet网络模型，用于深度学习的推理过程；所述的服务器模块用于深度学习的控制、数据处理、网络交互、参数存储等；所述服务器模块与训练模块的总线接口为PCI-E或者Nvlink总线；所述服务器模块与推理模块的硬件接口为PCI-E或BlueLink，总线协议为CAPI。

该装置混合架构的深度学习***方法，实现步骤如下：

S1，使用SNAP Framework工具（一种使用C/C++来实现在CAPI卡中运行的算法模型工具）实现Alexnet 8层网络模型，并刷写至CAPI推理模块中；

S2，基于Tensorflow深度框架，获取到例如已标记的300种鸟类的300万张图片的TFRecrods图片集，作为训练数据集提供给两块GTX1080 GPU做分布式训练；

S3，监测进程得到最新的训练结果pb文件，解析其中的权值和偏置参数至文件A，并获取参数存储的虚拟地址和长度信息；

S4，监测程序调用CAPI内核库函数接口及驱动，向ADM-PCIE-KU3 CAPI模块发送封装了参数信息的数据结构；

S5，CAPI卡从结构中解析参数地址，从而获取参数信息并对应更新储存的网络模型权值和偏置的参数变量；

S6，CAPI卡接收监测程序发送的图片推理请求，并将网络输出的Top5结果返回，可对外提供该类别的图片识别服务；

S7，在CAPI卡提供服务的同时，训练网络也可以不断进行新增分类的训练，并将训练完成的参数同步更新到CAPI卡中。从而实现了训练和推理的同步更新和迭代。

以上所述仅为本发明的较佳实施例而已，但本发明的保护范围并不限制于本发明的具体实施方式，凡在本发明的精神和原则、揭露技术范围之内，所作的任何修改、等同替换、改进、改型等，均应包含在本发明的保护范围之内。

Claims

1.一种混合架构的深度学习***方法，用于实现对深度学习训练和推理，其特征在于：包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述的步骤S1具体包括以下子步骤：

S12，训练完成后，需要将网络各层的权值和偏置参数以与推理模块约定好的格式存储到预先设定的文件。

3.根据权利要求1所述的方法，其特征在于：所述的步骤S2具体包括以下子步骤：

S23，当有更新发生，需要向推理模块发送停止命令及更新的参数文件信息。

4.根据权利要求1所述的方法，其特征在于：所述的步骤S3具体包括以下子步骤：

S33，推理模块更新网络模型参数，继续进行推理服务。

5.根据权利要求1所述的方法，其特征在于：所述的网络模型采用一种针对图片分类的深度学习模型。

6.一种如权利要求1～5任一项所述混合架构的深度学习***的装置，用于实现对深度学习训练和推理的并行化操作，其特征在于：所述装置包括服务器、训练模块、推理模块、总线接口；所述服务器模块包括CPU处理器、DDR内存、网络；所述训练模块、推理模块均与服务器模块通过总线接口连接，并能够进行连接通信。

7.根据权利要求6所述的装置，其特征在于：所述的服务器模块具有包括用于深度学习的控制、数据处理、网络交互、参数存储功能。

8.根据权利要求6所述的装置，其特征在于：所述的CPU处理器为POWER处理器；所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块。

9.根据权利要求6所述的装置，其特征在于：所述的推理模块为能预先装载深度学习网络模型，且用于深度学习推理过程的CAPI推理模块。