CN106951926A - 一种混合架构的深度学习***方法及装置 - Google Patents

一种混合架构的深度学习***方法及装置 Download PDF

Info

Publication number
CN106951926A
CN106951926A CN201710196532.0A CN201710196532A CN106951926A CN 106951926 A CN106951926 A CN 106951926A CN 201710196532 A CN201710196532 A CN 201710196532A CN 106951926 A CN106951926 A CN 106951926A
Authority
CN
China
Prior art keywords
module
reasoning
training
deep learning
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710196532.0A
Other languages
English (en)
Other versions
CN106951926B (zh
Inventor
程归鹏
卢飞
江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Intelligent Data Technology Co Ltd
Original Assignee
Shandong Intelligent Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Intelligent Data Technology Co Ltd filed Critical Shandong Intelligent Data Technology Co Ltd
Priority to CN201710196532.0A priority Critical patent/CN106951926B/zh
Publication of CN106951926A publication Critical patent/CN106951926A/zh
Application granted granted Critical
Publication of CN106951926B publication Critical patent/CN106951926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种混合架构的深度学习***方法及装置,其特征是包括如下步骤:训练数据集更新时,训练模块重新进行深度学习网络模型训练并存储权值和偏置参数;服务器端监测进程监测到参数文件变化,将其封装到预先设定的数据结构中并通知推理模块;推理模块中断推理服务,从服务器侧读取权值和偏置文件内容并更新网络模型;服务器端监测进程同时处理需要推理的输入文件并通知推理模块;该***装置包括服务器模块、训练模块、推理模块、总线接口;本发明的训练和推理混合CPU+GPU+CAPI异构深度学习***,能充分利用资源,获得更高的能效比,实现CAPI直接访问服务器内存,实时在线迭代更新推理模型权值等参数。

Description

一种混合架构的深度学习***方法及装置
技术领域
本发明涉及电路设计及机器学习的技术领域,特别是涉及一种混合架构的深度学习***方法及装置。
背景技术
21世纪信息技术产业的飞速发展,带给人们巨大的利益和便利。深度学***台普遍采用的是NVIDIA的高性能的GPU如Tesla P100、Titan X、GTX1080等加速训练过程。当得到可用的模型后,部署到另外一个平台用于推理并对外提供服务,由于推理过程只做一遍前向运算,故而对计算的要求会低一些,更多的要求是体现在时延上,目前用于推理的平台有基于CPU的云服务平台的,也有基于低功耗GPU服务器集群,还有采用FPGA或专用ASIC集群等等。从低延时和高效能上来讲,使用FPGA和专用ASIC会更胜一筹。且FPGA相比ASIC更具有架构的灵活性,获得了越来越多的关注。CAPI 即一致性加速处理器接口(Coherent Accelerator ProcessorInterface),是IBM在POWER处理器上推出的高速总线接口协议,物理接口形式是PCI-E或者IBM推出的BlueLink。CAPI内部实现了PSL层,保证了与服务器之间的访存一致性,即可以通过虚拟地址直接访问到CPU内存,从而大大降低了访问时延。且IBM推出的SNAP Framework编程环境,可以使用C/C++方便的实现算法模型。
为此人们开发研究了各种深度学习方法及装置,如公开号为CN106022472A的中国专利一种嵌入式深度学习处理器,该发明属于集成电路技术领域,具体为一种基于FPGA的嵌入式深度学习处理器;该深度学习处理器包括:中央处理器(CPU),完成处理器学习和运行过程中必要的逻辑运算、控制及存储工作;深度学习单元,深度学习算法的硬件实现单元,是进行深度学习处理的核心部件;该深度学习处理器结合传统CPU与深度学习组合单元,其中深度学习组合单元可由多个深度学习单元任意组合,具有可扩展性,可针对不同的计算规模,作为人工智能应用的核心处理器。如图5所示,公开号为CN106156851A的中国专利一种面向深度学习业务的加速装置及方法,用于对服务器中的待处理数据进行深度学习计算,包括设置于服务器端的网卡、与所述服务器通过总线连接的计算控制模块、以及第一存储器和第二存储器;所述计算控制模块为可编程逻辑器件,包括控制单元、数据存储单元、逻辑存储单元、以及分别与所述网卡、第一存储器和第二存储器通信的总线接口、第一通信接口和第二通信接口;所述逻辑存储单元用于存储深度学习控制逻辑;所述第一存储器用于存储网络各层的权重数据和偏置数据;利用本发明,可以有效提高计算效率,提升性能功耗比。
现有技术存在以下不足:1)一般方法采用训练与推理分离,需要维护两套平台环境,资源得不到充分利用;2)完全采用FPGA/CPLD做深度学习计算,计算能力不够强大,目前并不适用于大规模的训练场景;3)FPGA/CPLD与服务器之间通信一般通过DMA方式,数据与CPU服务器之间交互的时延较大。 因此有必要提出新的一种深度学习***方法及装置。
发明内容
为了要解决的现有技术问题的不足,本发明提供了一种混合架构的深度学习***方法及装置,发挥了各自模块的优势和特点,获得了更高的能效比,充分利用了资源;CAPI实现了对服务器内存的直接访问,降低了时延和编程复杂度;本发明解决其技术问题的技术方案为:
一种混合架构的深度学习***方法,用于实现对深度学习训练和推理,包括如下步骤:
S1,训练数据集有更新变化,训练模块重新进行深度学习网络模型训练,结束后,网络模型的权值和偏置参数存储至预先设定的文件;
S2,服务器端监测进程监测到参数文件变化,将权值和偏置参数存储空间的虚拟地址、长度信息封装到预先设定的数据结构中,并通知推理模块;
S3,推理模块中断推理服务,通过总线接口从服务器侧读取权值和偏置文件内容,并更新网络模型;
S4,服务器端监测进程同时处理需要推理的输入文件,并通知推理模块,推理模块完成后将结果返回到服务端监测进程。
所述的步骤S1具体包括以下子步骤:
S11,训练数据集的更新变化时,不改变网络模型,需要重新训练,从而得到更新后的网络权值和偏置参数;
S12,训练完成后,需要将网络各层的权值和偏置参数以与推理模块约定好的格式存储到预先设定的文件;
所述的步骤S2具体包括以下子步骤:
S21,服务端运行监测进程,通过调用推理模块在服务器内核库函数接口及驱动,控制推理模块的运行、停止及参数更新;
S22,服务端监测进程时刻监测是否有权值偏置参数需更新,并获取最新参数信息;
S23,当有更新发生,需要向推理模块发送停止命令及更新的参数文件信息;
所述的步骤S3具体包括以下子步骤:
S31,推理模块直接通过虚拟地址从服务端读取相应的权值、偏置信息至内部RAM;
S32,推理模块读取完成后通知监测进程,监测进程向其发送运行命令;
S33,推理模块更新网络模型参数,继续进行推理服务。
所述的混合架构的深度学习***网络模型采用针对图片分类的深度学习网络模型。
一种混合架构的深度学习***装置,用于实现对深度学习训练和推理的并行化操作,所述装置包括服务器模块、训练模块、推理模块、总线接口;所述服务器模块包括CPU处理器、DDR内存、网络;所述训练模块、推理模块均与所述服务器模块通过总线接口连接,并能够进行连接通信。
所述的服务器模块具有包括用于深度学习的控制、数据处理、网络交互、参数存储的功能。
所述的CPU处理器为POWER处理器;所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块;所述的推理模块为能预先装载预先设定的深度学习网络模型且用于深度学习推理过程的CAPI推理模块。
与现有技术相比,本发明的有益效果体现在:本发明所述一种混合架构的深度学***台将训练和推理混合的CPU+GPU+CAPI异构深度学习***,发挥各自模块的优势和特点,获得更高的能效比,充分利用了资源;CAPI实现了对服务器内存的直接访问,降低了时延和编程复杂度;对推理模型的权值等参数能实时在线迭代更新。
附图说明
图1 为本发明混合架构的深度学习***方法的流程示意图。
图2 为本发明混合架构的深度学习装置的架构图。
图3 为本发明实施例混合架构的深度学习装置的架构图。
图4 为本发明采用Alexnet深度学习网络模型为例的工作原理图。
图5 为现有技术实施例面向深度学习业务的加速装置的结构框图。
具体实施方式
结合附图1至图5对本发明进一步详细描述,以便公众更好地掌握本发明的实施方法,本发明具体的实施方案为:
如图 1所示,本发明所述的一种混合架构的深度学习***方法,用于实现对深度学习训练和推理,包括如下步骤:
S1,训练数据集有更新变化,训练模块重新进行深度学习网络模型训练,结束后,网络模型的权值和偏置参数存储至预先设定的文件;
S2,服务器端监测进程监测到参数文件变化,将权值和偏置参数存储空间的虚拟地址、长度信息封装到预先设定的数据结构中,并通知推理模块;
S3,推理模块中断推理服务,通过总线接口从服务器侧读取权值和偏置文件内容,并更新网络模型;
S4,服务器端监测进程同时处理需要推理的输入文件,并通知推理模块,推理模块完成后将结果返回到服务端监测进程。
所述的步骤S1具体包括以下子步骤:
S11,训练数据集的更新变化时,不改变网络模型,需要重新训练,从而得到更新后的网络权值和偏置参数;
S12,训练完成后,需要将网络各层的权值和偏置参数以与推理模块约定好的格式存储到预先设定的文件;
所述的步骤S2具体包括以下子步骤:
S21,服务端运行监测进程,通过调用推理模块在服务器内核库函数接口及驱动,控制推理模块的运行、停止及参数更新;
S22,服务端监测进程时刻监测是否有权值偏置参数需更新,并获取最新参数信息;
S23,当有更新发生,需要向推理模块发送停止命令及更新的参数文件信息;
所述的步骤S3具体包括以下子步骤:
S31,推理模块直接通过虚拟地址从服务端读取相应的权值、偏置信息至内部RAM;
S32,推理模块读取完成后通知监测进程,守护进程向其发送运行命令;
S33,推理模块更新网络模型参数,继续进行推理服务。
如图 2所示,所述的混合架构的深度学习***装置,用于实现对深度学习训练和推理的并行化操作,其特征在于:所述装置包括服务器模块、训练模块、推理模块、总线接口;所述服务器模块CPU处理器、DDR内存、网络;所述训练模块、推理模块均与所述服务器模块通过总线接口连接,并能够进行连接通信;所述的服务器模块为包括用于深度学习的控制、数据处理、网络交互、参数存储功能的服务器模块;所述的CPU处理器为POWER处理器;所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块;所述的推理模块为能预先装载预先设定的深度学习网络模型且用于深度学习推理过程的CAPI推理模块;所述服务器模块与训练模块的总线接口为PCI-E或者Nvlink总线;所述服务器模块与推理模块的硬件接口为PCI-E或BlueLink,总线协议为CAPI。
优选的,如图 4所示,所述的混合架构的深度学习***网络模型采用一种针对图片分类的Alexnet深度学习网络模型。为了便于本发明方案的理解,下面以采用Alexnet深度学习网络模型为例,简要说明本发明的工作原理:所述的Alexnet深度学习网络模型由5层卷积层和3层全连接层组成,部分卷积层中还加入了Relu、Pooling和Normalization操作,最后一层全连接层输出1000个分类的Softmax层。Alexnet模型可以用于广泛的图片分类,根据训练数据集的不同,可以针对不同的情形做分类训练,并提供图片分类服务。
实施例1
如图3所示,作为优选最佳实施方式,如实现一个Alexnet的图片分类问题:所述混合架构的深度学习装置,用于实现对深度学习训练和推理的并行化操作,包括POWER8处理器、DDR内存、网络等组成的服务器模块;与所述服务器通过总线连接的GPU加速训练模块GTX1080;与所述服务器通过总线连接的CAPI推理模块ADM-PCIE-KU3 加速卡。所述的GPU训练模块用于加速深度学习模型的训练过程;所述的推理模块预先装载AlexNet网络模型,用于深度学习的推理过程;所述的服务器模块用于深度学习的控制、数据处理、网络交互、参数存储等;所述服务器模块与训练模块的总线接口为PCI-E或者Nvlink总线;所述服务器模块与推理模块的硬件接口为PCI-E或BlueLink,总线协议为CAPI。
该装置混合架构的深度学习***方法,实现步骤如下:
S1,使用SNAP Framework工具(一种使用C/C++来实现在CAPI卡中运行的算法模型工具)实现Alexnet 8层网络模型,并刷写至CAPI推理模块中;
S2,基于Tensorflow深度框架,获取到例如已标记的300种鸟类的300万张图片的TFRecrods图片集,作为训练数据集提供给两块GTX1080 GPU做分布式训练;
S3,监测进程得到最新的训练结果pb文件,解析其中的权值和偏置参数至文件A,并获取参数存储的虚拟地址和长度信息;
S4,监测程序调用CAPI内核库函数接口及驱动,向ADM-PCIE-KU3 CAPI模块发送封装了参数信息的数据结构;
S5,CAPI卡从结构中解析参数地址,从而获取参数信息并对应更新储存的网络模型权值和偏置的参数变量;
S6,CAPI卡接收监测程序发送的图片推理请求,并将网络输出的Top5结果返回,可对外提供该类别的图片识别服务;
S7,在CAPI卡提供服务的同时,训练网络也可以不断进行新增分类的训练,并将训练完成的参数同步更新到CAPI卡中。从而实现了训练和推理的同步更新和迭代。
与现有技术相比,本发明的有益效果体现在:本发明所述一种混合架构的深度学***台将训练和推理混合的CPU+GPU+CAPI异构深度学习***,发挥各自模块的优势和特点,获得更高的能效比,充分利用了资源;CAPI实现了对服务器内存的直接访问,降低了时延和编程复杂度;对推理模型的权值等参数能实时在线迭代更新。
以上所述仅为本发明的较佳实施例而已,但本发明的保护范围并不限制于本发明的具体实施方式,凡在本发明的精神和原则、揭露技术范围之内,所作的任何修改、等同替换、改进、改型等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种混合架构的深度学习***方法,用于实现对深度学习训练和推理,其特征在于:包括如下步骤:
S1,训练数据集有更新变化,训练模块重新进行深度学习网络模型训练,结束后,网络模型的权值和偏置参数存储至预先设定的文件;
S2,服务器端监测进程监测到参数文件变化,将权值和偏置参数存储空间的虚拟地址、长度信息封装到预先设定的数据结构中,并通知推理模块;
S3,推理模块中断推理服务,通过总线接口从服务器侧读取权值和偏置文件内容,并更新网络模型;
S4,服务器端监测进程同时处理需要推理的输入文件,并通知推理模块,推理模块完成后将结果返回到服务端监测进程。
2.根据权利要求1所述的方法,其特征在于:所述的步骤S1具体包括以下子步骤:
S11,训练数据集的更新变化时,不改变网络模型,需要重新训练,从而得到更新后的网络权值和偏置参数;
S12,训练完成后,需要将网络各层的权值和偏置参数以与推理模块约定好的格式存储到预先设定的文件。
3.根据权利要求1所述的方法,其特征在于:所述的步骤S2具体包括以下子步骤:
S21,服务端运行监测进程,通过调用推理模块在服务器内核库函数接口及驱动,控制推理模块的运行、停止及参数更新;
S22,服务端监测进程时刻监测是否有权值偏置参数需更新,并获取最新参数信息;
S23,当有更新发生,需要向推理模块发送停止命令及更新的参数文件信息。
4.根据权利要求1所述的方法,其特征在于:所述的步骤S3具体包括以下子步骤:
S31,推理模块直接通过虚拟地址从服务端读取相应的权值、偏置信息至内部RAM;
S32,推理模块读取完成后通知监测进程,监测进程向其发送运行命令;
S33,推理模块更新网络模型参数,继续进行推理服务。
5.根据权利要求1所述的方法,其特征在于:所述的网络模型采用一种针对图片分类的深度学习模型。
6.一种如权利要求1~5任一项所述混合架构的深度学习***的装置,用于实现对深度学习训练和推理的并行化操作,其特征在于:所述装置包括服务器、训练模块、推理模块、总线接口;所述服务器模块包括CPU处理器、DDR内存、网络;所述训练模块、推理模块均与服务器模块通过总线接口连接,并能够进行连接通信。
7.根据权利要求6所述的装置,其特征在于:所述的服务器模块具有包括用于深度学习的控制、数据处理、网络交互、参数存储功能。
8.根据权利要求6所述的装置,其特征在于:所述的CPU处理器为POWER处理器;所述的训练模块为用于加速深度学习模型训练过程的GPU加速训练模块。
9.根据权利要求6所述的装置,其特征在于:所述的推理模块为能预先装载深度学习网络模型,且用于深度学习推理过程的CAPI推理模块。
CN201710196532.0A 2017-03-29 2017-03-29 一种混合架构的深度学习方法及装置 Active CN106951926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710196532.0A CN106951926B (zh) 2017-03-29 2017-03-29 一种混合架构的深度学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710196532.0A CN106951926B (zh) 2017-03-29 2017-03-29 一种混合架构的深度学习方法及装置

Publications (2)

Publication Number Publication Date
CN106951926A true CN106951926A (zh) 2017-07-14
CN106951926B CN106951926B (zh) 2020-11-24

Family

ID=59474087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710196532.0A Active CN106951926B (zh) 2017-03-29 2017-03-29 一种混合架构的深度学习方法及装置

Country Status (1)

Country Link
CN (1) CN106951926B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563512A (zh) * 2017-08-24 2018-01-09 腾讯科技(上海)有限公司 一种数据处理方法、装置以及存储介质
CN107729268A (zh) * 2017-09-20 2018-02-23 山东英特力数据技术有限公司 一种基于capi接口的内存扩展装置与方法
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器
CN109460826A (zh) * 2018-10-31 2019-03-12 北京字节跳动网络技术有限公司 用于分发数据的方法、装置和模型更新***
TWI658365B (zh) * 2017-10-30 2019-05-01 緯創資通股份有限公司 連接模組
CN109726170A (zh) * 2018-12-26 2019-05-07 上海新储集成电路有限公司 一种人工智能的片上***芯片
CN109886408A (zh) * 2019-02-28 2019-06-14 北京百度网讯科技有限公司 一种深度学习方法及装置
CN109947682A (zh) * 2019-03-21 2019-06-28 浪潮商用机器有限公司 一种服务器主板及服务器
CN110399234A (zh) * 2019-07-10 2019-11-01 苏州浪潮智能科技有限公司 一种任务加速处理方法、装置、设备及可读存储介质
CN110533181A (zh) * 2019-07-25 2019-12-03 深圳市康拓普信息技术有限公司 一种深度学习模型的快速训练方法及***
CN110598855A (zh) * 2019-09-23 2019-12-20 Oppo广东移动通信有限公司 深度学习模型生成方法、装置、设备及存储介质
CN111052155A (zh) * 2017-09-04 2020-04-21 华为技术有限公司 异步梯度平均的分布式随机梯度下降法
CN111147603A (zh) * 2019-09-30 2020-05-12 华为技术有限公司 一种推理服务网络化的方法及装置
CN111860260A (zh) * 2020-07-10 2020-10-30 逢亿科技(上海)有限公司 基于fpga的高精度低算量目标检测网络***
CN112148470A (zh) * 2019-06-28 2020-12-29 鸿富锦精密电子(天津)有限公司 参数同步方法、计算机装置及可读存储介质
CN112465112A (zh) * 2020-11-19 2021-03-09 苏州浪潮智能科技有限公司 基于nGraph的GPU后端分布式训练方法和***
CN112541513A (zh) * 2019-09-20 2021-03-23 百度在线网络技术(北京)有限公司 一种模型训练方法、装置、设备及存储介质
CN112581353A (zh) * 2020-12-29 2021-03-30 浪潮云信息技术股份公司 一种面向深度学习模型的端到端图片推理***
CN112925533A (zh) * 2019-12-05 2021-06-08 新唐科技股份有限公司 微控制器更新***和方法
CN112949427A (zh) * 2021-02-09 2021-06-11 北京奇艺世纪科技有限公司 人物识别方法、电子设备、存储介质及装置
TWI741416B (zh) * 2019-04-29 2021-10-01 美商谷歌有限責任公司 將外部記憶體虛擬化為機器學習加速器之局部記憶體
CN113537284A (zh) * 2021-06-04 2021-10-22 中国人民解放军战略支援部队信息工程大学 基于拟态机制的深度学习实现方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其***
US20160098633A1 (en) * 2014-10-02 2016-04-07 Nec Laboratories America, Inc. Deep learning model for structured outputs with high-order interaction
CN105825235A (zh) * 2016-03-16 2016-08-03 博康智能网络科技股份有限公司 一种基于多特征图深度学习的图像识别方法
US20160267380A1 (en) * 2015-03-13 2016-09-15 Nuance Communications, Inc. Method and System for Training a Neural Network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098633A1 (en) * 2014-10-02 2016-04-07 Nec Laboratories America, Inc. Deep learning model for structured outputs with high-order interaction
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
US20160267380A1 (en) * 2015-03-13 2016-09-15 Nuance Communications, Inc. Method and System for Training a Neural Network
CN104714852A (zh) * 2015-03-17 2015-06-17 华中科技大学 一种适用于分布式机器学习的参数同步优化方法及其***
CN105825235A (zh) * 2016-03-16 2016-08-03 博康智能网络科技股份有限公司 一种基于多特征图深度学习的图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余子健等: "基于FPGA的卷积神经网络加速器", 《计算机工程》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563512A (zh) * 2017-08-24 2018-01-09 腾讯科技(上海)有限公司 一种数据处理方法、装置以及存储介质
CN107563512B (zh) * 2017-08-24 2023-10-17 腾讯科技(上海)有限公司 一种数据处理方法、装置以及存储介质
CN111052155A (zh) * 2017-09-04 2020-04-21 华为技术有限公司 异步梯度平均的分布式随机梯度下降法
CN111052155B (zh) * 2017-09-04 2024-04-16 华为技术有限公司 异步梯度平均的分布式随机梯度下降法
CN107729268A (zh) * 2017-09-20 2018-02-23 山东英特力数据技术有限公司 一种基于capi接口的内存扩展装置与方法
CN107729268B (zh) * 2017-09-20 2019-11-12 山东英特力数据技术有限公司 一种基于capi接口的内存扩展装置与方法
CN109726159A (zh) * 2017-10-30 2019-05-07 纬创资通股份有限公司 连接模块
TWI658365B (zh) * 2017-10-30 2019-05-01 緯創資通股份有限公司 連接模組
CN109726159B (zh) * 2017-10-30 2020-12-04 纬创资通股份有限公司 连接模块
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器
CN109064382B (zh) * 2018-06-21 2023-06-23 北京陌上花科技有限公司 图像信息处理方法及服务器
CN109460826A (zh) * 2018-10-31 2019-03-12 北京字节跳动网络技术有限公司 用于分发数据的方法、装置和模型更新***
CN109726170A (zh) * 2018-12-26 2019-05-07 上海新储集成电路有限公司 一种人工智能的片上***芯片
CN109886408A (zh) * 2019-02-28 2019-06-14 北京百度网讯科技有限公司 一种深度学习方法及装置
CN109947682A (zh) * 2019-03-21 2019-06-28 浪潮商用机器有限公司 一种服务器主板及服务器
CN109947682B (zh) * 2019-03-21 2021-03-09 浪潮商用机器有限公司 一种服务器主板及服务器
TWI741416B (zh) * 2019-04-29 2021-10-01 美商谷歌有限責任公司 將外部記憶體虛擬化為機器學習加速器之局部記憶體
TWI777775B (zh) * 2019-04-29 2022-09-11 美商谷歌有限責任公司 將外部記憶體虛擬化為機器學習加速器之局部記憶體
US11176493B2 (en) 2019-04-29 2021-11-16 Google Llc Virtualizing external memory as local to a machine learning accelerator
CN112148470B (zh) * 2019-06-28 2022-11-04 富联精密电子(天津)有限公司 参数同步方法、计算机装置及可读存储介质
CN112148470A (zh) * 2019-06-28 2020-12-29 鸿富锦精密电子(天津)有限公司 参数同步方法、计算机装置及可读存储介质
CN110399234A (zh) * 2019-07-10 2019-11-01 苏州浪潮智能科技有限公司 一种任务加速处理方法、装置、设备及可读存储介质
CN110533181A (zh) * 2019-07-25 2019-12-03 深圳市康拓普信息技术有限公司 一种深度学习模型的快速训练方法及***
CN110533181B (zh) * 2019-07-25 2023-07-18 南方电网数字平台科技(广东)有限公司 一种深度学习模型的快速训练方法及***
CN112541513A (zh) * 2019-09-20 2021-03-23 百度在线网络技术(北京)有限公司 一种模型训练方法、装置、设备及存储介质
CN110598855A (zh) * 2019-09-23 2019-12-20 Oppo广东移动通信有限公司 深度学习模型生成方法、装置、设备及存储介质
CN111147603A (zh) * 2019-09-30 2020-05-12 华为技术有限公司 一种推理服务网络化的方法及装置
CN112925533A (zh) * 2019-12-05 2021-06-08 新唐科技股份有限公司 微控制器更新***和方法
CN111860260B (zh) * 2020-07-10 2024-01-26 逢亿科技(上海)有限公司 基于fpga的高精度低算量目标检测网络***
CN111860260A (zh) * 2020-07-10 2020-10-30 逢亿科技(上海)有限公司 基于fpga的高精度低算量目标检测网络***
CN112465112A (zh) * 2020-11-19 2021-03-09 苏州浪潮智能科技有限公司 基于nGraph的GPU后端分布式训练方法和***
CN112465112B (zh) * 2020-11-19 2022-06-07 苏州浪潮智能科技有限公司 基于nGraph的GPU后端分布式训练方法和***
US12001960B2 (en) 2020-11-19 2024-06-04 Inspur Suzhou Intelligent Technology Co., Ltd. NGraph-based GPU backend distributed training method and system
CN112581353A (zh) * 2020-12-29 2021-03-30 浪潮云信息技术股份公司 一种面向深度学习模型的端到端图片推理***
CN112949427A (zh) * 2021-02-09 2021-06-11 北京奇艺世纪科技有限公司 人物识别方法、电子设备、存储介质及装置
CN113537284B (zh) * 2021-06-04 2023-01-24 中国人民解放军战略支援部队信息工程大学 基于拟态机制的深度学习实现方法及***
CN113537284A (zh) * 2021-06-04 2021-10-22 中国人民解放军战略支援部队信息工程大学 基于拟态机制的深度学习实现方法及***

Also Published As

Publication number Publication date
CN106951926B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN106951926A (zh) 一种混合架构的深度学习***方法及装置
CN107103113B (zh) 面向神经网络处理器的自动化设计方法、装置及优化方法
CN108460457A (zh) 一种面向卷积神经网络的多机多卡混合并行异步训练方法
CN104036451B (zh) 基于多图形处理器的模型并行处理方法及装置
CN108090565A (zh) 一种卷积神经网络并行化训练加速方法
CN107704922A (zh) 人工神经网络处理装置
CN109376843A (zh) 基于fpga的脑电信号快速分类方法、实现方法及装置
CN107679620A (zh) 人工神经网络处理装置
CN109472356A (zh) 一种可重构神经网络算法的加速装置及方法
CN108416436A (zh) 使用多核心处理模块进行神经网络划分的方法及其***
CN108268425A (zh) 可编程矩阵处理引擎
WO2022068663A1 (zh) 内存分配方法、相关设备及计算机可读存储介质
CN108829515A (zh) 一种云端平台计算***及其应用方法
CN108416433A (zh) 一种基于异步事件的神经网络异构加速方法和***
CN105718996B (zh) 细胞阵列计算***以及其中的通信方法
CN110163353A (zh) 一种计算装置及方法
CN113642734A (zh) 一种深度学习模型的分布式训练方法、装置以及计算设备
CN115828831B (zh) 基于深度强化学习的多芯粒芯片算子放置策略生成方法
CN110163350A (zh) 一种计算装置及方法
CN113449839A (zh) 一种分布式训练方法、梯度通信方法、装置以及计算设备
CN209231976U (zh) 一种可重构神经网络算法的加速装置
CN112686379B (zh) 集成电路装置、电子设备、板卡和计算方法
Banerjee et al. Re-designing CNTK deep learning framework on modern GPU enabled clusters
CN106776466A (zh) 一种fpga异构加速计算装置及***
CN109117949A (zh) 用于人工智能设备的灵活数据流处理器和处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant