CN107578098B

CN107578098B - 基于脉动阵列的神经网络处理器

Info

Publication number: CN107578098B
Application number: CN201710777741.4A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2020-10-30
Anticipated expiration: 2037-09-01
Also published as: CN107578098A

Abstract

本发明提供一种神经网络处理器，包括控制单元、计算单元、数据存储单元和权重存储单元，所述计算单元在控制单元的控制下分别从数据存储单元和权重存储单元获取数据和权重进行神经网络相关的运算，其中所述计算单元包括阵列控制器和以脉动阵列方式连接的多个处理单元，数据和权重从不同方向至该由处理单元构成的脉动阵列中，各处理单元同时并行地对流经它的数据进行处理。该神经网络处理器可以达到很高的处理速度；同时多次重用了输入数据，由此可在消耗较小的访存带宽的情况下实现较高的运算吞吐率。

Description

基于脉动阵列的神经网络处理器

技术领域

本发明涉及神经网络技术，尤其涉及神经网络处理器体系结构。

背景技术

深度学习近些年来取得了重大突破，采用深度学习算法训练的神经网络模型在图像识别、语音处理、智能机器人等应用领域取得了令人瞩目的成果。深度神经网络通过建立模型来模拟人类大脑的神经连接结构，在处理图像、声音和文本等信号时，通过多个变换阶段分层对数据特征进行描述。随着神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题。采用硬件加速器替代传统软件计算的方法成为提高神经网络计算效率的行之有效方式，例如利用通用图形处理器、专用处理器芯片和现场可编程逻辑阵列(FPGA)实现的神经网络处理器。

然而，由于神经网络处理器属于计算密集型和访存密集型处理器，一方面，神经网络模型中包括大量乘法加法运算及其他非线性运算，需要神经网络处理器保持高负载运行，以保障神经网络模型的运算需求；另一方面，神经网络运算过程中存在大量的参数迭代，计算单元需要对存储器进行大量访问，这极大增加了对处理器的带宽设计需求，同时增加了访存功耗。

因此，需要对现有的神经网络处理器进行改进，以改善神经网络处理器的运算效率并降低硬件开销。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种基于脉动阵列的神经网络处理器。

本发明的目的是通过以下技术方案实现的：

根据本发明的一个实施例，提供了一种神经网络处理器，包括控制单元、计算单元、数据存储单元和权重存储单元，所述计算单元在控制单元的控制下分别从数据存储单元和权重存储单元获取数据和权重进行神经网络相关的运算；

其中所述计算单元包括阵列控制器和以脉动阵列方式连接的多个处理单元，阵列控制器将权重和数据从不同方向加载至处理单元阵列中，每个处理单元对收到的数据与权重进行运算并将数据与权重沿不同方向传递给下一处理单元。

在上述技术方案中，所述处理单元阵列可以为一维脉动阵列或二维脉动阵列。

在上述技术方案中，所述处理单元可包括数据寄存器、权重寄存器、乘法器和累加器；

其中权重寄存器接收来自处理单元阵列的列方向上一个处理单元的权重，将其发到乘法器并传递给该方向的下一个处理单元；

数据寄存器接收来自处理单元阵列的行方向上一个处理单元的数据，将其发到乘法器并传递给该方向的下一个处理单元；

乘法器对输入的数据和权重进行乘法运算，其输出接入至累加器中与累加器中的数据进行累加或与部分和输入信号进行加法操作后将计算结果作为部分和输出。

在上述技术方案中，所述阵列控制器可以从所述处理单元阵列的行方向加载数据，从所述处理单元阵列的列方向加载权重。

在上述技术方案中，所述控制单元可从存储单元中以行向量加载参与运算的数据序列，以列向量的形式加载与该数据序列对应的权重序列。

在上述技术方案中，所述阵列控制器可以分别按行号和列号从小到大的顺序依次将数据序列和权重序列加载到处理单元阵列对应的行和列中，相邻行和相邻列在进入阵列时在时间上相差1个时钟周期，并确保要进行计算的对应权重和数据是在同一时钟周期下进入处理单元阵列。

与现有技术相比，本发明的优点在于：

在神经网络处理器的计算单元中采用脉动阵列的结构，提升了神经网络处理器的运算效率，缓解了处理器设计的带宽需求。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1示出了神经网络常见的拓扑示意图；

图2示出了神经网络卷积操作示意框图；

图3示出了根据本发明实施例的神经网络处理器结构示意框图；

图4示出了根据本发明一个实施例的神经网络处理器的计算单元的结构示意图；

图5示出了根据本发明又一个实施例的神经网络处理器的计算单元的结构示意图；

图6示出了根据本发明一个实施例的脉动阵列结构中处理单元的结构示意图；

图7示出了根据本发明一个实施例的计算单元的计算过程示意图；

图8示出了根据本发明一个实施例的神经网络处理器执行流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

神经网络是对人脑结构和行为活动进行建模形成的数学模型，通常分为输入层、隐藏层和输出层等结构，每一层均由多个神经元节点构成，本层的神经元节点的输出值，会作为输入传递给下一层的神经元节点，逐层连接。神经网络本身具有仿生学特征，其多层抽象迭代的过程与人脑及其他感知器官有着类似的信息处理方式。

图1示出了神经网络的常见拓扑示意图。神经网络多层结构的第一层输入值为原始图像(在本发明中的“原始图像”指的是待处理的原始数据，不仅仅是狭义的通过拍摄照片获得的图像)，典型地，对于神经网络的每一层，可通过对该层的神经元节点值(在本文中也称为数据)和其对应的权重值进行计算来得到下一层的节点值。例如，假设

表示神经网络中某一层的几个神经元节点，它们与下一层的节点y相连，

表示对应连接的权重，则y的取值定义：y＝x×w。因此，对于神经网络的各层都存在大量的以乘加运算为主的卷积操作。神经网络中的卷积操作过程通常如图2所示：将一个K*K大小的二维权重卷积核对特征图进行扫描，在扫描过程中权重与特征图内对应的特征元素求内积，并将所有内积值求和，得到一个输出层特征元素。当每个卷积层具有N个特征图层时，会有N个K*K大小的卷积核与该卷积层内特征图进行卷积操作，N个内积值求和得到一个输出层特征元素。随着神经网络复杂度的不断提高，这样的计算无疑会消耗大量的资源。由此，通常采用专用的神经网络处理器来实现神经网络计算。

常见的神经网络处理器都基于存储-控制-计算的结构。存储结构用于存储参与计算的数据、神经网络权重及处理器的操作指令等；控制结构用于解析操作指令，生成控制信号以控制处理器内数据的调度和存储以及神经网络的计算过程；计算结构负责神经网络计算操作。其中存储单元可以存储神经网络处理器外部传来的数据(例如，原始特征图数据)、已经训练好的神经网络权重、计算过程中产生的处理结果或中间结果、参与计算的指令信息等。

图3示出了根据本发明实施例的神经网络处理器300的结构示意图。如图3所示，存储单元进一步细分为输入数据存储单元311、权重存储单元312、指令存储单元313和输出数据存储单元314，其中，输入数据存储单元311用于存储参与计算的数据，例如包括原始特征图数据和参与中间层计算的数据；权重存储单元312用于存储已经训练好的神经网络权重；指令存储单元313用于存储参与计算的指令信息，指令可被控制单元320 解析为控制流来调度神经网络的计算；输出数据存储单元314用于存储计算得到的神经元响应值。通过将存储单元进行细分，可将数据类型基本一致的数据集中存储，以便于选择合适的存储介质并可简化数据寻址等操作。应理解，输入数据存储单元311和输出数据存储单元314也可以是同一存储单元。

控制单元320负责指令译码、数据调度、过程控制等工作。例如获取保存在指令存储单元的指令并进行解析，进而根据解析得到的控制信号来调度数据并控制计算单元进行神经网络的相关运算。在本发明的实施例中，将参与神经网络运算的图层数据分割为不同的区域，每个区域作为一个矩阵，从而将数据与权重之间的运算划分为多个矩阵运算的形式(例如图2 所示)。这样，控制单元从存储单元中以适于矩阵运算的行向量或列向量的形式来加载参与运算的权重序列和数据序列。

在神经网络处理器中可以包括一个或多个计算单元(例如计算单元 330、331等)，每个计算单元可根据从控制单元320的控制信号来执行相应的神经网络计算，从各存储单元获取数据进行计算并将计算结果写入到存储单元。各个计算单元可以采用相同的结构或不同的结构，可以执行相同的计算，也可以进行不同的计算。在本发明的一个实施例中提供的计算单元包括阵列控制器和以脉动阵列形式组织的多个处理单元，每个处理单元具有相同的内部结构。阵列控制器负责将数据加载至脉动阵列中，各处理单元负责数据计算，权重从脉动阵列的上方输入，从上至下传播，数据从脉动阵列左侧输入，并从左至右传播，各处理单元对收到的数据和权重进行运算，结果从脉动阵列的右侧输出。脉动阵列可以是一维或二维结构。但应理解，神经网络处理器中也可以包括以其他方式进行计算的计算单元，可以由控制单元根据实际需求选择不同的计算单元来处理数据。

图4示出了根据本发明一个实施例的神经网络处理器中计算单元的结构示意图。如图4所示，脉动阵列为一维结构，各处理单元串行连接。对于待进行运算的对应权重序列和数据序列，阵列控制器将权重序列中各权重加载到不同的处理单元并保持到对应数据序列最后一个元素完成与相应权重的计算后再加载下一组权重；同时依次将数据序列中各个数据从左侧加载至脉动阵列中，经处理的数据从脉动阵列的另一侧传送会阵列控制器中。在这样的计算单元结构中，第一个数据首先进入第一个处理单元，经过处理以后被传递到下一个处理单元，同时第二个数据进入第一个处理单元。以此类推，当第一个数据到达最后一个处理单元，它已经被处理了多次。所以，这种脉动架构实际上是多次重用了输入数据，由此可以在消耗较小的访存带宽的情况下实现较高的运算吞吐率。

图5示出了根据本发明一个实施例的神经网络处理器中计算单元的结构示意图。在该实施例中，计算单元中采用二维阵列方式来组织多个计算单元，包括行阵列和列阵列，且每个处理单元只与相邻的处理单元相连，即处理单元只与相邻的处理单元进行通信。阵列控制器负责数据的调度，可以控制相关数据从计算单元的脉动阵列的上方和左方输入至处理单元中，不同的数据从不同的方向输入至处理单元中。例如，阵列控制器控制权重从处理单元阵列的上方输入，从上至下沿并列方向上进行传播；数据从处理单元阵列的左侧输入，并从左至右沿行方向上进行传播。本发明不对各种计算元素的输入方向和脉动传播方向进行限制，本文中提到的“左”，“右”，“上”，“下”等术语仅指图中示例的相应方向，不应解释为对本发明的物理实现的限制。

如上文指出，在本发明的实施例中，计算单元中各个处理单元是同构的且执行相同的操作。图6给出了根据本发明的一个实施例的处理单元的结构示意图。如图6所示，处理单元的输入信号包括数据、权重及部分和；输出信号包括数据输出、权重输出及部分和输出。处理单元主要内部包括数据寄存器、权重寄存器、乘法器和累加器。权重输入信号连接至权重寄存器和乘法器，数据输入信号接入至数据寄存器和乘法器，部分和输入信号接入至累加器。权重寄存器可以把数据发到乘法器进行处理，也可以直接传递给下方的计算单元；同样数据寄存器也可以把数据发到乘法器进行处理，或者直接传递给右侧的下一单元。输入的数据和权重在乘法器中进行乘法运算，乘法器的输出接入至累加器中与累加器中的数据进行累加或与部分和输入信号进行加法操作后将计算结果作为部分和输出。上述运算和传递可响应于来自阵列控制器的控制信号而进行灵活设置。例如，每个处理单元可以执行下列操作：

1)接收脉动方向的行和列的上一个节点的数据；

2)计算两个数据的乘积，并与原来寄存的结果进行累加；

3)保存累加后的值，将接收自行的输入数据输出到下一个行节点，将接收自列的输入数据输出到下一个列节点。

另外，对于一维阵列形式组织的处理单元，权重不必向下传播，因此当阵列控制器将待处理权重序列各元素分别加载至各处理单元的权重寄存器中后，权重寄存器不必进行输出，而是在权重寄存器中保留一段时间，阵列控制器待其中权重完成其相关计算任务之后，清空权重寄存器并继续加载后续待处理的权重。

下面结合图7，以下面以代表数据与权重的两个3*3矩阵相乘的例子阐述根据本发明实施例的采用二维阵列结构的计算单元的计算过程：

数据矩阵

权重矩阵

阵列控制器控制数据和权重分别从处理单元阵列的上方和左方输入至处理单元中。例如，通常可以将矩阵A的行向量按行号从小到大的顺序依次进入到处理单元阵列对应的行，并且相邻行向量进入处理单元阵列在时间上相差1个时钟周期，即矩阵A的第i行k列的数据与矩阵A的第i-1行k-1列的数据同时进入处理单元阵列；矩阵B的列向量按列号从小到大的顺序依次进入到处理单元阵列对应的列，并且相邻列向量进入处理单元阵列在时间上相差1个时钟周期，即矩阵B的第k行j列的数据与矩阵B的第k-1行j-1列的数据同时进入处理单元阵列。并且，数据矩阵A按行进入到脉动阵列与权重矩阵B按列进入到处理单元阵列在时间上并行，即矩阵A和矩阵B中要进行计算的对应元素A_i,k和B_k,j是在同一时钟周期下进入处理单元阵列，直至矩阵A和矩阵B的所有元素全部穿越处理单元阵列的整行和整列。由阵列控制器负责使各数据到达各个处于单元的输入控制满足时间对准。这样，阵列控制器将数据和权重从不同方向至该由处理单元构成的脉动阵列中，权重从上至下流动，数据从左至右流动。在数据流动的过程中，所有的处理单元同时并行地对流经它的数据进行处理，因而可以达到很高的处理速度。同时，通过预先确定的数据流动模式使数据从流进处理单元阵列到流出处理单元阵列的过程中完成所有对它应做的处理，无需再重新输入这些数据，由此也减少了访存操作。

如图7所示，在第一个周期，数据3和3同时接入至处理单元PE11 中，并在该处理单元中进行乘法运算；

在第二个周期，从左侧流动至处理单元PE11的数据3向右流动，和数据4同时接入至处理单元PE12，从上方流动至处理单元PE12的数据3 向下流动，和数据2同时接入至处理单元PE21中；

在第三个周期，数据3从PE11的上方流入至处理单元PE11，数据2 从左侧流入至处理单元P11，数据5和数据2流入至处理单元PE21，数据 4和数据5流入至处理单元PE12，数据3和数据2流入至处理单元PE13，数据2和数据4流入至计算单元PE22，数据3和数据3流入至计算单元 PE31。

在第四个周期，数据2和数据2接入至处理单元PE12，数据4和数据3接入至处理单元PE13，数据3和数据3接入至处理单元PE21，数据 5和数据5接入至处理单元PE22，数据2和数据2接入至处理单元PE23，数据2和数据2接入至处理单元PE31，数据3和数据4接入至处理单元 PE32。

在第五个周期，数据2和数据5流入至处理单元PE13中，数据3和数据2流入至处理单元PE22中，数据5和数据3流入至处理单元23中，数据5和数据3流入至处理单元PE31中，数据5和数据2流入至处理单元PE32中，数据3和数据2流入至处理单元PE33中。

在第六个周期，数据3和数据5流入至处理单元PE23中，数据5和数据2流入至处理单元PE32中，数据2和数据3流入至处理单元PE33 中，数据5和数据5流入至处理单元PE33中。

在第七个周期，数据5和数据5流入至处理单元PE33中。

其中，乘积结果在列方向进行累加，即PE11的乘积结果传递至PE21 中进行累加，再将累加计算结果传递至PE31中进行累加。

图8示出了根据本发明一个示例的采用上述计算单元的神经网络处理器执行流程示意图。在步骤S1，控制单元对存储单元寻址，读取并解析下一步需要执行的指令；步骤S2，根据解析指令得到的存储地址从存储单元中获取输入数据；步骤S3，将数据和权重分别从输入存储单元和权重存储单元载入至上文所述的根据本发明实施例的计算单元；步骤S4，该计算单元执行神经网络运算中的运算操作；步骤S5，将以神经网络计算结果存储在输出存储单元中。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种神经网络处理器，包括控制单元、计算单元、数据存储单元和权重存储单元，计算单元在控制单元的控制下分别从数据存储单元和权重存储单元获取数据和权重进行神经网络相关的运算；

其中所述计算单元包括阵列控制器和以脉动阵列方式连接的多个处理单元，阵列控制器将权重和数据从不同方向加载至处理单元阵列中，每个处理单元对收到的数据与权重进行运算并将数据与权重沿不同方向传递给下一处理单元；

其中所述处理单元阵列为二维脉动阵列；

其中所述处理单元包括数据寄存器、权重寄存器、乘法器和累加器；

乘法器对输入的数据和权重进行乘法运算，其输出接入至累加器中与部分和输入信号进行加法操作后将计算结果作为部分和输出。

2.根据权利要求1所述的神经网络处理器，其中所述阵列控制器从所述处理单元阵列的行方向加载数据，从所述处理单元阵列的列方向加载权重。

3.根据权利要求1所述的神经网络处理器，其中所述控制单元从存储单元中以行向量加载参与运算的数据序列，以列向量的形式加载与该数据序列对应的权重序列。

4.根据权利要求3所述的神经网络处理器，其中所述阵列控制器分别按行号和列号从小到大的顺序依次将数据序列和权重序列加载到处理单元阵列对应的行和列中，相邻行和相邻列在进入阵列时在时间上相差1个时钟周期，并确保要进行计算的对应权重和数据是在同一时钟周期下进入处理单元阵列。