CN111340185A - 一种卷积神经网络加速方法、***、终端及存储介质 - Google Patents

一种卷积神经网络加速方法、***、终端及存储介质 Download PDF

Info

Publication number
CN111340185A
CN111340185A CN202010094798.6A CN202010094798A CN111340185A CN 111340185 A CN111340185 A CN 111340185A CN 202010094798 A CN202010094798 A CN 202010094798A CN 111340185 A CN111340185 A CN 111340185A
Authority
CN
China
Prior art keywords
risc
core
neural network
convolutional neural
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010094798.6A
Other languages
English (en)
Inventor
邹晓峰
李拓
刘同强
周玉龙
王朝辉
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010094798.6A priority Critical patent/CN111340185A/zh
Publication of CN111340185A publication Critical patent/CN111340185A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Advance Control (AREA)

Abstract

本发明提供一种卷积神经网络加速方法、***、终端及存储介质,所述方法包括:利用源码生成器生成RISC‑V处理器软核;通过设置所述RISC‑V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC‑V单核;利用所述RISC‑V单核构造预设规格的众核加速阵列;将所述众核加速阵列接入卷积神经网络***,所述卷积神经网络***包括主处理器和卷积神经网络硬件。本发明能够大大提高计算过程中的访存带宽,降低访存延迟的同时,也会提高卷积神经网络的计算性能,实现卷积神经网络的计算加速。

Description

一种卷积神经网络加速方法、***、终端及存储介质
技术领域
本发明涉及卷积神经网络技术领域,具体涉及一种卷积神经网络加速方法、***、终端及存储介质。
背景技术
随着大数据时代的到来,海量数据随着计算机性能的提高呈现指数级的爆发式增长,以卷积神经网络为代表的各类深度学习算法得到了广泛应用。然而,基于神经网络层次式和卷积计算结构,带来的巨大计算量和参数越来越成为卷积神经网络的性能瓶颈,特别是大量的参数存储和访存延迟成为了计算瓶颈。
发明内容
针对现有技术的上述不足,本发明提供一种卷积神经网络加速方法、***、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种卷积神经网络加速方法,包括:
利用源码生成器生成RISC-V处理器软核;
通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核;
利用所述RISC-V单核构造预设规格的众核加速阵列;
将所述众核加速阵列接入卷积神经网络***,所述卷积神经网络***包括主处理器和卷积神经网络硬件。
进一步的,所述利用源码生成器生成RISC-V处理器软核,包括:
利用开源的RISC-V RocketChip生成器通过内核生成参数配置;
根据所述参数配置生成RISC-V 32位处理器的软核RTL源码。
进一步的,所述通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核,包括:
基于所述RISC-V处理器软核的AXI总线接口扩展直接内存存取模块、内存控制器和分布式内存模块,所述直接内存存取模块连接卷积神经网络硬件。
进一步的,所述利用RISC-V单核构造预设规格的众核加速阵列,包括:
根据卷积神经网络的计算量需求设置众核加速阵列的RISC-V单核数量;
构建设置数量的RISC-V单核组成众核加速阵列。
进一步的,所述方法还包括:
利用开源的RISC-V工具链生成64位RISC-V双核处理器;
向所述RISC-V双核处理器添加直接内存存取模块和内存设备;
利用RISC-V生态中开源固件和Linux***,配置双核RISC-V***;
在所述双核RISC-V***设置RoCC转换接口。
进一步的,所述在双核RISC-V***设置RoCC转换接口,包括:
利用开源的RISC-V工具链生成RoCC转换接口;
利用所述RoCC转换接口分别连接众核加速阵列和卷积神经网络硬件。
第二方面,本发明提供一种卷积神经网络加速***,包括:
主处理器、卷积神经网络硬件和众核加速阵列,所述主处理器与卷积神经网络通信连接;所述众核加速阵列分别与主处理器和卷积神经网络硬件互联;
所述众核加速阵列包括多个RISC-V单核,所述RISC-V单核RISC-V 32位处理器、直接内存存取模块、内存控制器和分布式内存模块。
进一步的,所述众核加速阵列通过RoCC转换接口与主处理器互联;所述众核加速阵列通过直接内存存取模块与卷积神经网络互联。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的卷积神经网络加速方法、***、终端及存储介质,通过构建基于RISC-V众核架构的众核加速序列,将众核加速序列接入卷积神经网络***,通过并行访存的方式,实现卷积神经网络中卷积计算的参数并发访存,为卷积神经网络的卷积计算提供高速的参数访存,以增大卷积计算中访存带宽,消除现有神经网络面临的访存带宽瓶颈。本发明能够大大提高计算过程中的访存带宽,降低访存延迟的同时,也会提高卷积神经网络的计算性能,实现卷积神经网络的计算加速。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的***的示意性架构图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
RISC-V架构是最新一代开放指令集架构(ISA),属于精简指令集,使用BSDLicense开源协议,具有轻量化、低功耗的特点。用户可以基于RISC-V指令集的开源软件和硬件生态快速设计实现基于RISC-V指令集的处理器,生态包括ISA规范、嵌入式和通用计算的完整软件堆栈、各种RISC-V处理器以及***级的硬件基础架构。RISC-V设计方式采用模块化设计,可以通过不同模块指令的组合满足不同应用需求,而且还具备扩展指令功能,用户可以根据实际需求进行定制指令功能和相应实现。基于上述特点,RISC-V特别适合轻量级、众核化的应用场景,尤其适合众核加速器的设计实现。
DMA(Direct Memory Access,直接内存存取),允许不同速度的硬件装置来沟通,而不需要依赖于CPU的大量中断负载,使得***设备可以通过DMA控制器直接访问内存。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种卷积神经网络加速***。
如图1所示,该方法100包括:
步骤110,利用源码生成器生成RISC-V处理器软核;
步骤120,通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核;
步骤130,利用所述RISC-V单核构造预设规格的众核加速阵列;
步骤140,将所述众核加速阵列接入卷积神经网络***,所述卷积神经网络***包括主处理器和卷积神经网络硬件。
为了便于对本发明的理解,下面以本发明卷积神经网络加速方法的原理,结合实施例中对卷积神经网络进行加速的过程,对本发明提供的卷积神经网络加速方法做进一步的描述。
具体的,所述卷积神经网络加速方法包括:
S1、利用源码生成器生成RISC-V处理器软核。
生成RISC-V处理器软核:利用开源的RISC-V RocketChip生成器(加州大学伯克利分校开发的一套基于RISC-V精简指令集的处理器源码生成器),通过内核生成参数配置,生成RISC-V 32位处理器的软核RTL源码。
S2、通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核。
对S1中生成的处理器源码,基于生成的AXI总线接口扩展DMA、内存控制器和分布式内存模块,构建最简的32位RISC-V单核处理***。
S3、利用所述RISC-V单核构造预设规格的众核加速阵列。
根据卷积神经网络计算量设置众核加速阵列规格,本实施例设置8×8的众核加速阵列,即创建64个32位RISC-V单核处理***,构成众核加速阵列。
S4、将所述众核加速阵列接入卷积神经网络***,所述卷积神经网络***包括主处理器和卷积神经网络硬件。
构建RISC-V主处理器***:利用开源的RISC-V工具链生成64位RISC-V双核处理器,并添加DDR控制器和内存设备,利用RISC-V生态中开源固件和Linux***,设计双核RISC-V***。主处理器***也可以采用现有的其他架构处理器,但最终需要设计RoCC转换接口,实现与加速阵列的互连。构建RoCC接口模块的方法为:利用开源的RISC-V工具链生成RoCC接口模块,并与神经网络和RV_32计算加速阵列互连。
构建神经网络处理模块:卷积神经网络可以采用普通的多层卷积神经网络架构实现,包括数据输入层、卷积计算层、激励层、池化层和全连接层等。本发明中,需要将卷积计算所有的存储和访存接口提取,并通过Buffer(数据缓存模块)由DMA接口与众核加速阵列互连。
将上述设计或生成的模块集成,加载***固件,启动***,并加载应用程序进行测试和调试。
如图2示,本实施例提供一种卷积神经网络加速***,包括:
主处理器、卷积神经网络硬件和众核加速阵列,所述主处理器与卷积神经网络通信连接;所述众核加速阵列分别与主处理器和卷积神经网络硬件互联;
所述众核加速阵列包括多个RISC-V单核,所述RISC-V单核RISC-V 32位处理器、直接内存存取模块、内存控制器和分布式内存模块。
具体的,主处理器包括:64位RISC-V双核处理器、DDR控制器、内存设备、开源固件和Linux***。还包括两个相同的RoCC转换接口,分别与卷积神经网络硬件和众核加速阵列互连。
众核加速阵列包括:8x8的RV_32阵列,即64个RV_32计算单元。RV_32计算单元包括:RISC-V 32位处理器、AXI总线接口扩展DMA、内存控制器和分布式内存模块。
卷积神经网络硬件包括:数据输入层、卷积计算层、激励层、池化层和全连接层等。本发明的卷积神经网络实现取决于用户实际的需要加速的神经网络类型,本发明中示例***采用普通的多层卷积神经网络。
本实施例中,采用普通的多层卷积神经网络硬件,将卷积神经网络硬件所有的存储和访存接口提取,并通过Buffer(数据缓存模块)由DMA接口与众核加速阵列互连。
图3为本发明实施例提供的一种终端***300的结构示意图,该终端***300可以用于执行本发明实施例提供的卷积神经网络加速方法。
其中,该终端***300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种卷积神经网络加速方法,其特征在于,包括:
利用源码生成器生成RISC-V处理器软核;
通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核;
利用所述RISC-V单核构造预设规格的众核加速阵列;
将所述众核加速阵列接入卷积神经网络***,所述卷积神经网络***包括主处理器和卷积神经网络硬件。
2.根据权利要求1所述的方法,其特征在于,所述利用源码生成器生成RISC-V处理器软核,包括:
利用开源的RISC-V RocketChip生成器通过内核生成参数配置;
根据所述参数配置生成RISC-V 32位处理器的软核RTL源码。
3.根据权利要求1所述的方法,其特征在于,所述通过设置所述RISC-V处理器软核的扩展DMA、内存控制器和分布式内存模块构建RISC-V单核,包括:
基于所述RISC-V处理器软核的AXI总线接口扩展直接内存存取模块、内存控制器和分布式内存模块,所述直接内存存取模块连接卷积神经网络硬件。
4.根据权利要求1所述的方法,其特征在于,所述利用RISC-V单核构造预设规格的众核加速阵列,包括:
根据卷积神经网络的计算量需求设置众核加速阵列的RISC-V单核数量;
构建设置数量的RISC-V单核组成众核加速阵列。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用开源的RISC-V工具链生成64位RISC-V双核处理器;
向所述RISC-V双核处理器添加直接内存存取模块和内存设备;
利用RISC-V生态中开源固件和Linux***,配置双核RISC-V***;
在所述双核RISC-V***设置RoCC转换接口。
6.根据权利要求5所述的方法,其特征在于,所述在双核RISC-V***设置RoCC转换接口,包括:
利用开源的RISC-V工具链生成RoCC转换接口;
利用所述RoCC转换接口分别连接众核加速阵列和卷积神经网络硬件。
7.一种卷积神经网络加速***,其特征在于,包括:
主处理器、卷积神经网络硬件和众核加速阵列,所述主处理器与卷积神经网络通信连接;所述众核加速阵列分别与主处理器和卷积神经网络硬件互联;
所述众核加速阵列包括多个RISC-V单核,所述RISC-V单核RISC-V 32位处理器、直接内存存取模块、内存控制器和分布式内存模块。
8.根据权利要求7所述的***,其特征在于,所述众核加速阵列通过RoCC转换接口与主处理器互联;所述众核加速阵列通过直接内存存取模块与卷积神经网络互联。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-6任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN202010094798.6A 2020-02-16 2020-02-16 一种卷积神经网络加速方法、***、终端及存储介质 Pending CN111340185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094798.6A CN111340185A (zh) 2020-02-16 2020-02-16 一种卷积神经网络加速方法、***、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094798.6A CN111340185A (zh) 2020-02-16 2020-02-16 一种卷积神经网络加速方法、***、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111340185A true CN111340185A (zh) 2020-06-26

Family

ID=71186291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094798.6A Pending CN111340185A (zh) 2020-02-16 2020-02-16 一种卷积神经网络加速方法、***、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111340185A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306663A (zh) * 2020-11-12 2021-02-02 山东云海国创云计算装备产业创新中心有限公司 一种并行计算加速器及嵌入式***
CN112988238A (zh) * 2021-05-06 2021-06-18 成都启英泰伦科技有限公司 一种基于可扩展指令集cpu内核的扩展运算装置及方法
CN113160062A (zh) * 2021-05-25 2021-07-23 烟台艾睿光电科技有限公司 一种红外图像目标检测方法、装置、设备及存储介质
WO2023092620A1 (zh) * 2021-11-29 2023-06-01 山东领能电子科技有限公司 基于risc-v的三维互联众核处理器架构及其工作方法
US11714649B2 (en) 2021-11-29 2023-08-01 Shandong Lingneng Electronic Technology Co., Ltd. RISC-V-based 3D interconnected multi-core processor architecture and working method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443214A (zh) * 2019-08-12 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于risc-v的人脸识别加速电路***及加速方法
CN110490311A (zh) * 2019-07-08 2019-11-22 华南理工大学 基于risc-v架构的卷积神经网络加速装置及其控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490311A (zh) * 2019-07-08 2019-11-22 华南理工大学 基于risc-v架构的卷积神经网络加速装置及其控制方法
CN110443214A (zh) * 2019-08-12 2019-11-12 山东浪潮人工智能研究院有限公司 一种基于risc-v的人脸识别加速电路***及加速方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国电子商情: "《兆易创新大胆启用双赛道策略,率先实现RISC-V通用MCU商用落地》", 《HTTPS://WWW.FX361.COM/PAGE/2019/0910/9764675.SHTML》 *
杨维科: "《基于RISC-V开源处理器的卷积神经网络加速器设计方法研究》", 《CNKI硕士论文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306663A (zh) * 2020-11-12 2021-02-02 山东云海国创云计算装备产业创新中心有限公司 一种并行计算加速器及嵌入式***
CN112988238A (zh) * 2021-05-06 2021-06-18 成都启英泰伦科技有限公司 一种基于可扩展指令集cpu内核的扩展运算装置及方法
CN113160062A (zh) * 2021-05-25 2021-07-23 烟台艾睿光电科技有限公司 一种红外图像目标检测方法、装置、设备及存储介质
WO2023092620A1 (zh) * 2021-11-29 2023-06-01 山东领能电子科技有限公司 基于risc-v的三维互联众核处理器架构及其工作方法
US11714649B2 (en) 2021-11-29 2023-08-01 Shandong Lingneng Electronic Technology Co., Ltd. RISC-V-based 3D interconnected multi-core processor architecture and working method thereof

Similar Documents

Publication Publication Date Title
CN111340185A (zh) 一种卷积神经网络加速方法、***、终端及存储介质
US11562213B2 (en) Methods and arrangements to manage memory in cascaded neural networks
CN110096309B (zh) 运算方法、装置、计算机设备和存储介质
US20230026006A1 (en) Convolution computation engine, artificial intelligence chip, and data processing method
US9460016B2 (en) Cache way prediction
CN109284824B (zh) 一种基于可重构技术的用于加速卷积和池化运算的装置
CN111275179B (zh) 一种基于分布式权值存储加速神经网络计算的架构及方法
CN112633505B (zh) 一种基于risc-v的人工智能推理方法和***
CN111399911B (zh) 一种基于多核异构计算的人工智能开发方法及装置
CN115456155A (zh) 一种多核存算处理器架构
US20220253668A1 (en) Data processing method and device, storage medium and electronic device
Colangelo et al. Application of convolutional neural networks on Intel® Xeon® processor with integrated FPGA
Li et al. HatRPC: Hint-accelerated thrift RPC over RDMA
Zong-ling et al. The design of lightweight and multi parallel CNN accelerator based on FPGA
US20190272460A1 (en) Configurable neural network processor for machine learning workloads
CN115600664B (zh) 算子处理方法、电子设备及存储介质
Afonso et al. Heterogeneous CPU/FPGA reconfigurable computing system for avionic test application
CN111722930B (zh) 一种数据预处理***
CN111832714B (zh) 运算方法及装置
Naruko et al. FOLCS: A lightweight implementation of a cycle-accurate NoC simulator on FPGAs
CN111105015A (zh) 一种通用cnn推理加速器及其控制方法、可读存储介质
Zhuang et al. SSR: Spatial Sequential Hybrid Architecture for Latency Throughput Tradeoff in Transformer Acceleration
Giefers et al. Extending the power architecture with transprecision co-processors
CN111338694B (zh) 运算方法、装置、计算机设备和存储介质
Ewo et al. Hardware mpi-2 functions for multi-processing reconfigurable system on chip

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626

RJ01 Rejection of invention patent application after publication