CN107729995A

CN107729995A - 用于加速神经网络处理器的方法和***及神经网络处理器

Info

Publication number: CN107729995A
Application number: CN201711054139.4A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-02-23

Abstract

本发明提供了用于加速神经网络处理器的方法及相应神经网络处理器，其中从待处理的神经网络模型的原始数据分组和权重分组中，提取非零元素并设置各分组的位置标记，每个分组的位置标记指示该分组中相应位置的元素是否为零；在计算时基于位置标记选择处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。这样，可有效降低神经网络处理器所处理的数据规模，从而减少片上存储开销，加快了运算速度并降低了能耗，使得神经网络处理***性能更高效。

Description

用于加速神经网络处理器的方法和***及神经网络处理器

技术领域

本发明涉及神经网络处理器，尤其涉及加速神经网络模型计算的方法。

背景技术

深度学习近些年来取得了重大突破，采用深度学习算法训练的神经网络模型在图像识别、语音处理、智能机器人等应用领域取得了令人瞩目的成果。深度神经网络通过建立模型来模拟人类大脑的神经连接结构，在处理图像、声音和文本等信号时，通过多个变换阶段分层对数据特征进行描述。随着神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题。采用硬件加速器替代传统软件计算的方法成为提高神经网络计算效率的行之有效方式，例如利用通用图形处理器、专用处理器芯片和现场可编程逻辑阵列(FPGA)实现的神经网络处理器。

目前神经网络处理器通常将已训练好的权重数据作为输入信号与数据信号一起进行片上运算操作。神经网络处理器属于计算密集型和访存密集型处理器。神经网络运算过程中存在大量的参数迭代，计算单元需要对存储器进行大量访问。随着神经网络数据规模的不断增长，密集访存操作不仅占用神经网络处理器的大量片上资源，还降低了其运算速度。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种改善神经网络处理器运算速度的方法及对应的神经网络处理器。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于加速神经网络处理器的方法，所述方法包括：

步骤1)对于待加载的神经网络模型的数据分组和权重分组，提取非零元素并设置各分组的位置标记，每个分组的位置标记指示该分组中相应位置的元素是否为零；

步骤2)将各数据分组和权重分组的非零元素及位置标记加载至神经网络处理器的存储单元中；

步骤3)基于所述位置标记对数据和权重进行匹配，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。

上述方法中，还可包括从来自神经网络处理器的计算单元的输出数据中提取非零元素及其位置标记，并将其保存到数据存储单元。

上述方法中，步骤3)可包括：

将数据分组的位置标记的二进制形式中各个位与权重分组的位置标记的二进制形式中各个位进行顺序比对；

将位置相同且同为1的位所对应位置的数据和权重加载至神经网络处理器的计算单元参与运算。

又一方面，本发明提供了一种神经网络处理器，包括控制单元、计算单元、权重存储单元、数据存储单元，数据匹配单元，其中控制单元用于控制相关数据的调度、运算与存储；权重存储单元存储已经训练好的神经网络权重分组中非零元素及其位置标记；数据存储单元存储神经网络原始数据分组及中间结果数据中非零元素及其位置标记；数据匹配单元用于基于位置标记对来自所述权重存储单元的权重和来自数据存储单元的数据进行匹配，仅将相同位置且相应位置的元素都不为零的数据和权重加载至计算单元中。

在上述的神经网络处理器中，还可包括数据压缩单元，用于从来自计算单元的输出数据中提取非零元素和设置位置标记，并将其保存到数据存储单元。

在上述的神经网络处理器中，数据匹配单元可包括一个或多个比较器。

在上述的神经网络处理器中，数据压缩单元可包括输入寄存器、输出寄存器和比较器，输入寄存器接收来自计算单元的数据，通过比较器判断该数据是否为零值，如果不为零则将该数据及对应的寄存器编号载入至输出寄存器中同时将标记位记为1。

又一方面，本发明提供了一种用于加速神经网络处理器的***，所述***包括：

数据预处理装置，用于对待加载的神经网络模型的数据分组和权重分组，提取非零元素并设置各分组的位置标记，每个分组的位置标记指示该分组中相应位置的元素是否为零，以及用于将各数据分组和权重分组的非零元素及位置标记加载至神经网络处理器的存储单元中；

数据匹配装置，基于所述位置标记对数据和权重进行匹配，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。

上述***还可包括数据压缩装置，从来自神经网络处理器的计算单元的输出数据中提取非零元素及其位置标记，并将其保存到数据存储单元。

上述***中，所述数据匹配装置可被配置为：

与现有技术相比，本发明的优点在于：

本发明有效降低了神经网络处理器所处理的数据规模，从而减少片上存储开销，加快了运算速度并降低了能耗，使得神经网络处理***性能更高效。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的用于加速神经网络处理器的方法的流程示意图；

图2为根据本发明实施例的权重压缩存储格式示例示意图；

图3为根据本发明实施例的数据压缩存储格式示例示意图；

图4为根据本发明实施例的权重压缩过程示例示意图；

图5为根据本发明实施例的数据压缩过程示例示意图；

图6为根据本发明实施例的神经网络处理器的结构示意图；

图7为根据本发明实施例的数据匹配单元的结构示意图；

图8为根据本发明实施例的数据压缩单元的结构示意图；

图9为采用本发明实施例的神经网络处理器的计算流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

发明人在研究中发现参与神经网络计算的数据和权重中存在大量数值为0的现象，在计算过程中这样的数据与权重经过乘法和加法等运算后对运算结果不产生数值上的影响。但是，这些数值为0的数据和权重在存储、载入和运算等过程会占用大量片上资源、消耗多余的工作时间，难以满足神经网络处理器的性能要求。

在本发明的一个实施例中，提供了一种用于加速神经网络处理器的方法。如图1所示，该方法主要包括1)对于待加载的神经网络模型的原始数据分组和权重分组，提取非零元素并设置分组的位置标记，分组的位置标记指示该分组中相应位置的元素是否为零；2)将数据分组和权重分组的非零元素及位置标记加载至神经网络处理器的存储单元中；3)基于所述位置标记对数据和权重进行匹配，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。

更具体地，在步骤1)对于待加载的神经网络模型的原始数据分组和权重分组，提取非零元素并设置分组的位置标记。在神经网络计算中，通常会将待处理的权重和数据以相同的方式划分成多个分组或序列进行存储和加载的，每组内的元素可根据实际使用的神经网络处理器的计算单元的规模决定。这个提取非零元素并设置位置标记的过程也可以理解为对待处理的神经网络数据和权重进行重新编码或压缩，经重新编码或压缩之后得到的权重序列和数据序列中将不保留数值为零的元素。经步骤1)处理后权重的存储格式如图2所示，包括两个部分：<权重>和<标记>；数据的存储格式如图3所示，也包括两个部分：<数据非零元素>和<标记>。其中标记(也可称为位置标记)指示该分组中相应位置的元素是否为零，例如在分组中如果对应位置的元素的数值为0，可将该位置的标记设置0，如果相应位置的元素为非零元素，则可将该位置的标记值设置为1。

图4给出了对权重进行压缩处理的过程示意。图4中以每组包括四个元素为例来描述权重压缩的过程。如图4所示，线上方为原始权重，而线下方为经步骤1)处理后得到的权重。在第一组权重中，非零元素为1.5和2.5的元素，这两个元素在该分组的第1个位置和第4个位置，因此在重新编码或压缩后，线下方所示该组权重保留了这两个非零元素，并且该组权重对应的位置标记为1001；在第二组的原始权重中包含三个非零元素，在该组权重中为第1个、第3个和第4个元素，因此在重新编码或压缩后，该组权重保留了这两个非零元素，且该组权重对应的位置标记设置为1011。在第三组权重值中，包含两个非零元素3和4，其对应的位置标记设置为0011。

图5示出的数据压缩过程与图4所示的权重压缩过程类似，以每组数据包含四个元素为例，线上方为原始数据，而线下方为经步骤1)处理后得到的数据。在第一组数据中，数值为1和2的元素分别为第1个和第4个元素，因此在重新编码后，该组数据保留了两个非零元素，并且该组数据对应的位置标记为1001；在第二组的原始数据中包含三个非零元素，在该组数据中为第1个、第2个和第4个元素，该组权重对应的位置标记设置为1101。在第三组数据中，压缩后保留了三个非零元素，其位置标记设置为1011。

继续参考图1，在经上述处理后，在步骤2)将权重和数据分组中非零元素及位置标记加载至神经网络处理器的存储单元中，例如可分别加载至神经网络处理器的权重存储单元和数据存储单元。接着在步骤3)在进行计算时，从数据存储单元读取数据并从权重存储单元读取权重，基于所述位置标记对数据和权重进行匹配，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。例如，对于数据分组的位置标记和权重分组的位置标记中各个位进行顺序比对，如果相同位置且标记同时为1，则将相应位置的权重和数据加载至计算单元中。可以看出，对于包含4个元素的分组，每个分组对应的位置标记实际上只是一个整数(其数值范围在2⁰-2⁴之间)，该数值的二进制形式的各个位依次指示该分组中各元素是否为0。因此对于神经网络处理器而言，仅存储数据分组和权重分组中的非零元素及一个位置标记，可以大大减少内存占用；而且只将非零数据和权重载入到计算单元中，既提升了计算速度并提高了计算单元利用率。

在又一个实施例中，该方法还包括对于来自神经网络处理器的计算单元的输出的每组数据进行同样的重新编码或压缩，与上述对权重和原始数据的处理方式相同，只将该组数据中的非零元素及其位置标记保存到存储单元。这是因为在神经网络计算中会产生很多中间计算结果，从这些中间计算结果也仅保存其中非零元素可以进一步优化神经网络处理器中存储和计算资源的利用率。

图6为根据本发明的一个实施例的神经网络处理器的结构示意图。该神经网络处理基于存储-控制-计算的结构，其中存储结构用于存储参与计算的数据及处理器操作指令；控制结构包括译码电路，用于解析操作指令，生成控制信号以控制片上数据的调度与存储以及神经网络计算过程；计算结构包括算术逻辑单元，用于参与该处理器中的神经网络计算操作。如图6所示，控制单元可与数据存储单元、权重存储单元、指令存储单元、计算单元通信，控制单元获得保存在指令存储单元中的指令并且解析该指令，产生控制信号控制计算单元进行神经网络计算。权重存储单元用于存储已经训练好的神经网络权重，数据存储单元用于存储与神经网络计算相关的各种数据，该数据可包括神经网络模型的原始特征数据和参与中间层计算的参数以及来自计算单元的输出的数据等。计算单元用于根据控制单元的产生的控制信号来执行相应的神经网络计算。计算单元与一个或多个存储单元相关联，计算单元可以从数据存储单元和权重存储单元中获得数据和权重以进行计算，并且可以向数据存储单元写入数据。

但与现有神经网络处理器不同，在图6所示的权重存储单元和数据存储单元中存储的是如上文介绍的经过重新编码或压缩的数据，仅保存了各数据分组和权重分组中的非零元素及其位置标记。除此之外，还在计算单元的输入与存储单元的输出之间增加了数据匹配单元，并在计算单元的输出与存储单元的输入之间增加了数据压缩单元。其中，数据匹配单元对于权重存储单元和数据存储单元中采用重新编码或压缩后的格式存储的权重和数据进行匹配，例如，读取数据分组和权重分组的位置标记，将该位置标记的二进制形式中各个位顺序进行比对，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算，从而保证压缩的权重可以与之对应的压缩数据进行正确的计算。图7给出了示例的数据匹配单元的结构示意图。该数据匹配单元中包含一个或多个比较器，比较器的作用是将数据的位置标记和权重的位置标记进行比对，仅允许相同位置且标记同时为1的数据和权重加载至计算单元的阵列的缓存队列中等待计算。

图6中示出的仅是各个计算单元共享数据匹配单元的一个示例。在又一个实施例中，也可以是在各个计算单元中设置相应的数据匹配单元。这样，在神经网络模型在计算过程中，来自数据存储单元的数据共享到各个计算单元中，而来自权重存储单元的不同的权重值接入到各个计算单元中，每个计算单元通过自己的数据匹配单元对权重的位置标记和数据的位置标记进行匹配，仅对相匹配的对应位置数据和权重执行后续计算操作，而各个计算单元可并行工作。

继续参考图6，位于计算单元的输出与存储单元的输入之间的数据压缩单元用于在神经网络处理器片上对计算单元输出的中间计算结果进行压缩，只保留非零元素，不存储零值元素。采用与上文介绍的对权重和原始数据的处理相同的方式，只将计算单元输出的一组数据中的非零元素及其位置标记保存到存储单元，从而进一步优化神经网络处理器中存储和计算资源的利用率。图8给出了示例的数据压缩单元的结构示意图。该数据压缩单元由输入寄存器、输出寄存器和比较器组成，需要被压缩的数据接入至压缩单元中的输入寄存器组中，接着通过比较器判断接入的数据是否为零值，若不为零值则将数据和对应的寄存器编号载入至输出寄存器中，同时将比较结果记录在标记位中，若为零值，标记位为0，若不为零值，标记位为1。

图9示出了采用根据本发明实施例的神经网络处理器进行神经网络计算的过程的流程示意图。其中该神经网络处理器的各个计算单元包含各自的数据匹配单元。如图9所示，控制单元对存储单元寻址，读取并解析需要执行的指令，根据解析指令得到的存储地址从存储单元中获取输入数据，将数据和权重以分组为单位分别从数据存储单元和权重存储单元载入至计算单元。在神经网络模型在计算过程中，根据控制指令将来自数据存储单元的数据分组共享到各个计算单元中，而来自权重存储单元的权重分组接入到各个相应计算单元中。接着，每个计算单元中设置的数据匹配单元基于收到权重分组和数据分组的位置标记进行数据与权重匹配，仅对相同位置且标记同时为1的数据和权重执行神经网络运算中相关的运算操作。各计算单元的相关运算结果提供至数据压缩单元，由数据压缩单元从中提取出非零元素并设置位置标记，将其输出至数据存储单元。

在又一个实施例中，还提供了一种用于加速神经网络处理器的***，包括片外压缩装置和上文介绍的神经网络处理器。其中，该片外压缩装置从对待处理的神经网络模型的原始数据分组和权重分组中提取非零值并设置位置标记，然后将处理后的数据和权重分别加载至神经网络处理器的数据存储单元和权重存储单元。

在又一个实施例中，还提供了一种用于加速神经网络处理器的***，所述***包括数据预处理装置和数据匹配装置。其中数据预处理装置用于对于待加载的神经网络模型的原始数据分组和权重分组，提取非零元素并设置分组的位置标记，并将其加载至神经网络处理器的存储单元中。数据匹配装置用于根据位置标记对数据和权重进行匹配，仅将处于相同位置且相应位置的元素都不为零的数据和权重加载至神经网络处理器的计算单元参与运算。在另一个实施例中，该***还可以包括：数据压缩装置，对于来自神经网络处理器的计算单元的输出数据中提取非零元素并设置位置标记，然后将其保存到神经网络处理器的数据存储单元中。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种用于加速神经网络处理器的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括从来自神经网络处理器的计算单元的输出数据中提取非零元素及其位置标记，并将其保存到数据存储单元。

3.根据权利要求1所述的方法，步骤3)包括：

将位置相同且标记同为1的位所对应位置的数据和权重加载至神经网络处理器的计算单元参与运算。

4.一种神经网络处理器，包括控制单元、计算单元、权重存储单元、数据存储单元，数据匹配单元，其中控制单元用于控制相关数据的调度、运算与存储；权重存储单元存储已经训练好的神经网络权重分组中非零元素及其位置标记；数据存储单元存储神经网络原始数据分组及中间结果数据中非零元素及其位置标记；数据匹配单元用于基于位置标记对来自所述权重存储单元的权重和来自数据存储单元的数据进行匹配，仅将相同位置且相应位置的元素都不为零的数据和权重加载至计算单元中。

5.根据权利要求4所述的神经网络处理器，还包括数据压缩单元，用于从来自计算单元的输出数据中提取非零元素和设置位置标记，并将其保存到数据存储单元。

6.根据权利要求4或5所述的神经网络处理器，其中数据匹配单元包括一个或多个比较器。

7.根据权利要求4或5中任一项所述的神经网络处理器，其中数据压缩单元包括输入寄存器、输出寄存器和比较器，输入寄存器接收来自计算单元的数据，通过比较器判断该数据是否为零值，如果不为零则将该数据及对应的寄存器编号载入至输出寄存器中同时将标记位记为1。

8.一种用于加速神经网络处理器的***，所述***包括：

9.根据权利要求8所述的***，还包括：

数据压缩装置，从来自神经网络处理器的计算单元的输出数据中提取非零元素及其位置标记，并将其保存到数据存储单元。

10.根据权利要求8所述的***，所述数据匹配装置被配置为：