CN109447257B

CN109447257B - 一种通道自组织的深度神经网络加速芯片的运算装置

Info

Publication number: CN109447257B
Application number: CN201811090424.6A
Authority: CN
Inventors: 朱浩哲; 王彧; 张怡云; 史传进
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2021-08-17
Anticipated expiration: 2038-09-18
Also published as: CN109447257A

Abstract

本发明属于集成电路技术领域，具体为一种通道自组织的深度神经网络加速芯片的运算装置。本发明装置包括：多个片上存储模块，用于按通道存储特征值矩阵；一个多行多列的计算单元阵列，用于并行执行卷积、矩阵乘法等运算；一个中央控制单元，用于控制计算过程和数据流向、和同外界的数据交互。计算单元阵列中的同一列计算单元并行处理来自同一个输入通道的计算，同一行并行处理来自同一个输出通道的计算。该装置在计算过程中将数据流按通道与存储器的对应关系进行组织，避免计算单元在多个存储器间交叉访问，减少数据在存储器间的搬运次数，从而提高了芯片的能效。

Description

一种通道自组织的深度神经网络加速芯片的运算装置

技术领域

本发明属于集成电路技术领域，具体涉及一种深度神经网络加速芯片的运算装置。

背景技术

当今，深度神经网络算法被广泛地使用于自动驾驶、目标识别与检测、机器翻译等诸多领域之中。随着深度学习算法应用的日益复杂化，传统的CPU和GPU在能效上越发显得捉襟见肘，一系列的深度神经网络算法专用加速芯片应运而生。

深度神经网络算法由很多层组成，每一层的输入特征值和输出特征值都是多个通道组成的矩阵组。输入特征值经过一系列的线性运算（比如卷积、矩阵乘法）后，再通过一个非线性的激活函数，就获得了输出特征值。在神经网络的内部，每一层的输出特征值都是下一层的输入特征值。

由于每层的计算中，多个输入通道之间都存在很大的并行性，技术人员们开发了各种数据流优化技术来提高能效。将多个输入通道的数据存放于多个片上存储器中可以最大限度地提高数据读写的并行性。但是由于多个输入通道的特征值往往在得到最终的输出特征值之前，需要进行跨通道的叠加，这一限制导致了多个片上存储器之间需要相互交换数据，从而影响了最终的能效。

综上所述，如何充分地利用多个输入通道与多个输出通道的数据相关性来获得较高的加速芯片能效，是相关领域技术人员亟待解决的一个问题。

发明内容

本发明的目的在于，提供一种基于多个片上存储器的、数据通道自组织的深度神经网络加速芯片的运算装置。

本发明提出的深度神经网络加速芯片的运算装置，包括：

多个片上存储模块，用于存储参加计算的特征值；

一个深度神经网络计算单元阵列，用于深度神经网络算法中的卷积、和/或矩阵乘法、和/或池化层算法的运算；

中央控制单元，用于控制计算过程和数据流向，以及同外界的数据交互；

所述深度神经网络计算单元阵列，是由若干计算单元排列成的、多行多列的二维空间阵列；在所述中央控制单元的控制下，计算单元阵列以行或列为单位，从所述多个片上存储模块的全部或部分中并行地读取数据，计算后将结果并行地写入所述多个片上存储模块的全部或部分中，形成输入通道与输出通道的自组织。

本发明中，深度神经网络算法中的特征值按照通道序号依次存储于不同的所述存储模块中。

本发明中，计算单元阵列的行数和列数相同。具体地说，在所述计算单元阵列中，

同一列的多个计算单元，从同一个对应的片上存储模块接收用于计算的、来自同一个输入通道的数据，并行地执行同一个输入通道的计算；

同一行的多个计算单元，并行地执行多个输出通道的计算，其产生的输出数据，求和后写入、或直接写入同一个对应的片上存储模块。

本发明中，所述中央控制单元以广播的方式将指令发送给所有的所述计算单元。

本发明中，为了节约功耗，所述中央处理单元可以以行或列为单位关闭部分所述计算单元的时钟信号。

本发明中，所述多个片上存储模块中的每个存储模块，被配置成随机存储器、或多级存储器组成的缓存***。

本发明的技术效果是，该深度神经网络加速芯片的运算装置能够在计算过程中将数据流按通道与存储器的对应关系进行组织，避免计算单元在多个存储器间交叉访问，减少数据在存储器间的搬运次数，从而提高了芯片的能效。

附图说明

图1为本发明实施例的顶层模块框图。

图2为本发明实施例的乘累加计算单元的结构。

具体实施方式

以下结合具体实施例和附图对本发明的技术方案做进一步说明。应理解，以下描述的实施例是用于对本发明技术方案的说明而非限制。附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

实施例是一个深度神经网络卷积运算加速器的运算装置。图1其顶层模块框图。

所述装置包括16个两级片上存储模块11、一个16x16乘累加计算单元阵列12、中央控制单元13。

每个存储模块11包括一个二级缓存111和一个一级只读缓存112，它们都由片上SRAM实现。一级只读缓存中的数据是对二级缓存中数据的一个拷贝，只允许计算单元从中读取数据；二级缓存允许计算单元直接对其读或写。在计算中，输入特征值按照通道的标号依次存放在16个存储模块中，即第1个输入通道的数据存放在第1个存储模块中，第2个输入通道的数据存放在第2个存储模块中，以此类推。

如图2所示，本实施例中的计算单元121由乘累加器实现，每个计算单元都承担着一个二维卷积的计算。应理解，计算单元的具体实现可以根据需要加速的运算需要选取不同的实现，而不仅限于此。

计算单元阵列中的256个计算单元完全相同。同一列的16个计算单元分享来自同一个存储模块的特征值输入，因此同一时刻，它们的输入总是来自同一个输入通道。

单个计算单元每完成一次二维卷积的同时，同一行的计算单元将产生16个输出，这16个输出通过加法树122叠加产生输出特征值的其中一个通道的一个结果。由于计算单元阵列中有16行，因此同时输出16个输出通道的特征值，并写回对应的存储模块的二级缓存。

写回完成后，第1个输出通道的数据存放在第1个存储模块中，第2个输出通道的数据存放在第2个存储模块中，以此类推。由于输出特征值在16个存储模块中也是按照通道标号分别写回的，因此它们无需调整位置就可以作为下一层的输入特征值，呈现出了通道自组织的特性。

中央控制单元13在本实施例中包括：一个DDR3接口131与片外进行数据交换，和一个AXI4接口132接收来自上位机的指令。

Claims

1.一种通道自组织的深度神经网络加速芯片的运算装置，其特征在于，包括：

多个片上存储模块，用于存储参加计算的特征值；

所述深度神经网络计算单元阵列，是由若干计算单元排列成的、多行多列的二维空间阵列;在所述中央控制单元的控制下，计算单元阵列以行或列为单位，从所述多个片上存储模块的全部或部分中并行地读取数据，计算后将结果并行地写入所述多个片上存储模块的全部或部分中，形成输入通道与输出通道的自组织；

深度神经网络算法中的特征值按照通道序号依次存储于不同的所述存储模块中；

计算单元阵列的行数和列数相同；在所述计算单元阵列中：

2.根据权利要求1之一所述的深度神经网络加速芯片的运算装置，其特征在于，所述中央控制单元以广播的方式将指令发送给所有的所述计算单元。

3.根据权利要求2所述的深度神经网络加速芯片的运算装置，其特征在于，所述中央控制单元可以以行或列为单位关闭部分所述计算单元的时钟信号，以节约功耗。

4.根据权利要求2所述的深度神经网络加速芯片的运算装置，其特征在于，所述多个片上存储模块中的每个存储模块，被配置成随机存储器、或多级存储器组成的缓存***。