CN106529670A

CN106529670A - 一种基于权重压缩的神经网络处理器、设计方法、芯片

Info

Publication number: CN106529670A
Application number: CN201610958305.2A
Authority: CN
Inventors: 韩银和; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Zhongke Times Shenzhen Computer System Co ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-03-22
Anticipated expiration: 2036-10-27
Also published as: CN106529670B

Abstract

本发明提出一种基于权重压缩的神经网络处理器、设计方法、芯片，该处理器包括至少一个存储单元，用于存储操作指令与参与计算的数据；至少一个存储单元控制器，用于对所述存储单元进行控制；至少一个计算单元，用于执行神经网络的计算操作；控制单元，与所述存储单元控制器与所述计算单元相连，用于经由所述存储单元控制器获得所述存储单元存储的指令，并且解析所述指令以控制所述计算单元；至少一个权重检索单元，用于对权重进行检索，其中每个所述权重检索单元与所述计算单元相连，保证被压缩的权重与对应数据正确运算。本发明降低了神经网络处理器中权重资源的占用，提高了运算速度，提升了能量效率。

Description

一种基于权重压缩的神经网络处理器、设计方法、芯片

技术领域

本发明涉及神经网络模型计算的硬件加速领域，特别涉及一种基于权重压缩的神经网络处理器、设计方法、芯片。

背景技术

深度学习是机器学习领域的重要分支，在近些年来取得了重大突破。采用深度学习算法训练的神经网络模型自提出以来在图像识别、语音处理、智能机器人等应用领域上取得了令人瞩目的成果。

深度神经网络通过建立模型模拟人类大脑的神经连接结构,在处理图像、声音和文本等信号时,通过多个变换阶段分层对数据特征进行描述。伴随神经网络复杂度的不断提高，神经网络技术在实际应用过程中存在占用资源多、运算速度慢、能量消耗大等问题，因此该技术在嵌入式设备或低开销数据中心等领域应用时存在严重的能效问题和运算速度瓶颈。采用硬件加速替代传统软件计算的方法成为了提高神经网络计算效率的一种行之有效方式。主流的硬件加速方式包括通用图形处理器、专用处理器芯片和现场可编程逻辑阵列(FPGA)等。

在现有神经网络技术中，神经网络模型根据训练集，按照样本顺序进行多轮训练得到神经网络权重值。神经网络权重具有一定的稀疏性，存在大量数值为0的权重，这些权重与数据经过乘法和加法等运算后对运算结果不产生数值上的影响。这些神经网络中权重为0的权重值与深度神经网络的固有特性有关，由多次训练得到，且不易从算法角度消除。这些数值为0的权重在存储、载入和运算等过程会占用大量片上资源、消耗多余的工作时间，难以满足神经网络处理器的性能要求。

因此无论在学术界还是工业界，针对上述神经网络中数值为0元素，开展了大量研究。文献“Albericio J,Judd P,Hetherington T,et al.Cnvlutin:ineffectual-neuron-free deep neural network computing[C]//Computer Architecture(ISCA),2016ACM/IEEE 43rd Annual International Symposium on.IEEE,2016:1-13.”通过在片上提供大规模的存储单元实现大规模并行计算并以此为基础实现了对数据元素的压缩，但是依赖片上大规模的存储单元，来满足在并行计算的需求，不适用于嵌入式设备；文献“Chen Y H,Emer J,Sze V.Eyeriss:A Spatial Architecture for Energy-Efficient Dataflow forConvolutional Neural Networks[J].2016.”通过共享数据和权重实现数据重用并采用电源门控的方法关闭元素0的计算，可以有效提高能量效率，但是该方法只能降低运算功耗无法跳过数据0进而加快计算速度。

发明“一种神经网络加速器及其运算方法”，该发明适用于神经网络算法领域，提供了一种神经网络加速器及其运算方法，该神经网络加速器包括片内存储介质、片内地址索引模块、核心计算模块以及多ALU装置，片内存储介质，用于存储外部传来的数据或用于存储计算过程中产生的数据；片内数据索引模块，用于执行运算时根据输入的索引映射至正确的存储地址；核心计算模块用于执行神经网络运算；多ALU装置用于从核心计算模块或片内存储介质获取输入数据执行核心计算模块无法完成的非线性运算。该发明在神经网络加速器中引入多ALU设计，从而提升非线性运算的运算速度，使得神经网络加速器更加高效。本发明与该发明的最大区别是在神经网络加速器中引入了权重压缩存储结构，提高了神经网络运算速度并降低了能量损耗。

发明“加速深度神经网络算法的加速芯片的运算装置及方法”，该发明提供一种加速深度神经网络算法的加速芯片的运算装置及方法，所述装置包括：向量加法处理器模块，进行向量的加法或减法、和/或深度神经网络算法中的pooling层算法的向量化的运算；向量函数值运算器模块，深度神经网络算法中的非线性求值的向量化运算；向量乘加器模块，进行向量的乘加运算；所述三个模块执行可编程指令，互相交互以计算神经网络的神经元值和网络输出结果、以及、代表输入层神经元对输出层神经元作用强度的突触权重变化量；所述三个模块中均设置有中间值存储区域，并对主存储器进行读取与写入操作。由此，能够减少对主存储器的中间值读取和写入次数，降低加速器芯片的能量消耗，避免数据处理过程中的数据缺失和替换问题。本发明与该发明的最大区别是在神经网络加速器中引入了权重压缩存储结构，提高了神经网络运算速度并降低了能量损耗。

发明内容

针对现有神经网络处理器的上述缺陷，本发明提出一种基于权重压缩的神经网络处理器、设计方法、芯片，该***在现有神经网络处理器***中引入权重检索结构，进而提升了神经网络加速的运算速度及能量损耗。

本发明提出一种基于权重压缩的神经网络处理器，包括：

至少一个存储单元，用于存储操作指令与参与计算的数据；

至少一个存储单元控制器，用于对所述存储单元进行控制；

至少一个计算单元，用于执行神经网络的计算操作；

控制单元，与所述存储单元控制器与所述计算单元相连，用于经由所述存储单元控制器获得所述存储单元存储的指令，并且解析所述指令以控制所述计算单元；

至少一个权重检索单元，用于对权重进行检索，其中每个所述权重检索单元与所述计算单元相连，保证被压缩的权重与对应数据正确运算。

所述存储单元包括输入数据存储单元、输出数据存储单元、权重存储单元、指令存储单元。

所述输入数据存储单元用于存储所述参与计算的数据，所述参与计算的数据包括原始特征图数据与参与中间层计算的数据；所述输出数据存储单元包括计算获得的神经元响应值；所述权重存储单元用于存储已经训练好的神经网络权重；所述指令存储单元用于存储参与计算的指令信息。

通过片下离线压缩的方法对所述参与计算的数据进行重编码，通过权重压缩格式实现权重压缩。

所述权重压缩格式包括<权重，偏移量>。

所述权重压缩格式中的权重为神经网络权重在被压缩前的原始值，所述偏移量为一组权重值中当前非零权重的相对位置。

在权重压缩过程中，经过重新编码获得的权重值序列将不保留数值为零的元素，只保留非零元素。

所述计算单元从与其相关联的所述输入数据存储单元中获得数据以进行计算，并且向与其相关联的所述输出数据存储单元写入数据。

本发明还提出一种设计所述基于权重压缩的神经网络处理器的设计方法，包括：

步骤1，所述控制单元对所述存储单元进行寻址，读取并解析下一步需要执行的指令；

步骤2，根据解析出的指令获得存储地址，并从所述存储单元中获取所述参与计算的数据与权重；

步骤3，将所述参与计算的数据与权重分别从所述输入存储单元与所述权重存储单元载入至所述计算单元；

步骤4，所述计算单元执行神经网络运算中的运算操作，其中通过所述权重检索单元保证了被压缩的数据可以与权重数据正确计算；

步骤5，将神经网络计算结果存储在所述输出存储单元中。

本发明还提出一种包括所述基于权重压缩的神经网络处理器的芯片。

由以上方案可知，本发明的优点在于：

本发明针对神经网络处理器中存在的运算速度差、能量效率低这一问题，通过离线压缩的方式，在片外将神经网络权重压缩为权重压缩格式，降低了神经网络处理器中权重资源的占用，提高了运算速度，提升了能量效率。

附图说明

图1为本发明提供的神经网络处理器结构框图；

图2为本发明提出的一种权重压缩存储格式图；

图3为本发明单计算单元实施例中权重压缩单元示意图；

图4为本发明多运算单元实施例中权重压缩单元示意图；

图5为本发明计算单元的结构示意图；

图6为本发明提出的神经网络处理器进行神经网络运算的流程图。

具体实施方式

在对神经网络处理器研究时，发现神经网络权重具有一定的稀疏性，存在大量数值为0的权重，这些权重与数据经过乘法和加法等运算后对运算结果不产生数值上的影响，这些数值为0的权重在存储、载入和运算等过程会占用大量片上资源、消耗多余的工作时间，难以满足神经网络处理器的性能要求。

经过对现有神经网络处理器的计算结构进行分析发现，可以对神经网络权重值进行压缩，实现加快运算速度、降低能量损耗的目的，现有技术提供了神经网络加速器基本架构，本发明在现有技术基础上提出一种权重压缩存储格式，权重数据经过重编码后，在存储、传输和计算过程中采用权重压缩存储格式，并在神经网络计算单元增加权重检索结构，确保了被压缩后的权重可以和数据元素正确运算。

为实现上述目的，本发明提出一种基于权重压缩的神经网络处理器，包括：

至少一个存储单元，用于存储操作指令和参与计算的数据；

至少一个计算单元，用于执行神经网络计算；以及控制单元，与至少一个存储单元控制器和所述至少一个计算单元相连，用于经由所述至少一个存储单元控制器获得所述至少一个存储单元存储的指令，并且解析该指令以控制所述至少一个计算单元；

至少一个权重检索单元，其中每个权重检索单元与所述至少一个计算单元相连，保证被压缩的权重与对应数据正确运算；

根据本发明的神经网络处理器***，所述权重为已经训练好的神经网络权重。

根据本发明的神经网络处理器，所述神经网络处理器进行神经网络计算时，已经训练好的神经网络权重会在片外被压缩为权重压缩格式，并存储在存储单元中。

本发明采用离线压缩的方式在片下将神经网络权重压缩为权重压缩格式，并通过输入接口传输至片上的存储单元。

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明旨在提供一种基于权重压缩的神经网络处理器，其在神经网络处理***中引入权重检索单元并采用权重压缩存储格式存储神经网络权重，从而减少片上存储开销，降低运算电路规模并提高运算效率，使得神经网络处理***性能更高高效。

本发明提供的神经网络处理基于存储-控制-计算的结构；

存储结构用于存储参与计算的数据及处理器操作指令；

控制结构包括译码电路，用于解析操作指令，生成控制信号以控制片上数据的调度与存储以及神经网络计算过程；

计算结构包括算术逻辑单元，用于参与该处理器中的神经网络计算操作，压缩数据在计算结构中实现计算操作。

本发明还提出一种包含基于权重压缩的神经网络处理器的芯片

图1为本发明提供的一种神经网络处理器101，该***架构由六个部分构成，包括输入数据存储单元102、控制单元103、输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107。

输入数据存储单元102用于存储参与计算的数据，该数据包括原始特征图数据和参与中间层计算的数据；输出数据存储单元104包括计算得到的神经元响应值；权重存储单元105用于存储已经训练好的神经网络权重；指令存储单元106存储参与计算的指令信息，指令被解析来实现神经网络计算。

控制单元103分别与输出数据存储单元104、权重存储单元105、指令存储单元106、计算单元107相连，控制单元103获得保存在指令存储单元106中的指令并且解析该指令，控制单元103可根据解析指令得到的控制信号控制计算单元进行神经网络计算。

计算单元107用于根据控制单元103产生的控制信号来执行相应的神经网络计算。计算单元107与一个或多个存储单元相关联，计算单元107可以从与其相关联的输入数据存储单元102中的数据存储部件获得数据以进行计算，并且可以向该相关联的输出数据存储单元104写入数据。计算单元107完成神经网络算法中的大部分运算，即向量乘加操作等，此外，由于载入到计算单元107中参与计算的权重格式为权重压缩格式，因此在计算单元107中还应包括权重检索子单元，该子单元用于保证被压缩的权重可以与权重正确计算。

图2为本发明提出的一种权重压缩格式，通过片下离线压缩的方法对原始数据进行重编码，进而实现权重压缩。该权重压缩格式包括<权重，偏移量>两部分组成，权重为神经网络权重在被压缩前的原始值，偏移量为一组权重值中当前非零权重的相对位置。在压缩过程中，经过重新编码得到权重值序列将不保留数值为零的元素，只保留非零元素，该方法保证了只有非零权重值参与神经网络计算，通过权重压缩，有效减少了数据中权重数量，减少了神经网络计算量，提高了***整体运算速度。

通过图3详细描述该权重压缩过程。将权重进行分组，每组内的元素数由计算单元的规模决定。现以每组权重包含四个元素为例详细描述权重压缩过程，在第一组权重中，数值为1.5和2.5的元素分别为第0个和第1个元素，因此在重新编码后，该组权重保留了两个非零元素，标示元素位置的偏移量分别为0和1；在第二组的原始权重数据中包含三个非零元素，在该组数据中为第0个、第3个和第4个元素，因此偏移量分别为0、3和4。在第三组权重值中，包含3和4两个非零元素，偏移量分别为2和3。

当计算单元资源足够时，即同时拥有多个计算单元时，多个不同队列的权重值可同时载入到不同计算单元中，不同队列中相同次序位置的元素并行工作，互不影响，分组方式与单个计算单元相同，各个队列中处于相同相对位置的元素被划分为一个组，在计算过程中，每个队列内不同队列的数据并行载入到计算单元中。

为方便描述，图4以两个计算单元为例阐述多计算单元情形，图4中包含两个权重队列，每个队列权重分别接入至相应的计算单元中，各个计算单元独立工作。根据计算单元容量大小，权重被分为四组，在每组权重内，各个队列的权重值依据相同的组内元素长度分别压缩。

以权重压缩格式存储权重具有两点优势，首先只存储权重中的非零元素，会大大减少内存占用；其次，只将非零元素载入到计算单元中，提升了计算速度并提高了计算单元利用率。

图5是计算单元结构示意图,描述了权重与数据进行卷积神经网络计算时的对应关系，在该计算过程中，数据共享到各个计算单元中，不同的权重值接入到各个计算单元中，各个计算单元并行工作。

图6是本发明一种神经网络计算过程的流程图，该方法包括：

步骤S1，控制单元对存储单元寻址，读取并解析下一步需要执行的指令；

步骤S2，根据解析指令得到的存储地址从存储单元中获取输入数据；

步骤S3，将数据和权重分别从输入存储单元和权重存储单元载入至计算单元；

步骤S4，计算单元执行神经网络运算中的运算操作，其中数据检索结构保证了被压缩的数据可以与权重数据正确计算；

步骤S5，将以神经网络计算结果存储在输出存储单元中。

综上所述，本发明针对神经网络处理器中存在的运算速度差、能量效率低这一问题，通过离线压缩的方式，在片外将神经网络权重压缩为权重压缩格式，降低了神经网络处理器中权重资源的占用，提高了运算速度，提升了能量效率。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

1.一种基于权重压缩的神经网络处理器，其特征在于，包括：

至少一个存储单元，用于存储操作指令与参与计算的数据；

至少一个存储单元控制器，用于对所述存储单元进行控制；

至少一个计算单元，用于执行神经网络的计算操作；

2.如权利要求1所述的基于权重压缩的神经网络处理器，其特征在于，所述存储单元包括输入数据存储单元、输出数据存储单元、权重存储单元、指令存储单元。

3.如权利要求2所述的基于权重压缩的神经网络处理器，其特征在于，所述输入数据存储单元用于存储所述参与计算的数据，所述参与计算的数据包括原始特征图数据与参与中间层计算的数据；所述输出数据存储单元包括计算获得的神经元响应值；所述权重存储单元用于存储已经训练好的神经网络权重；所述指令存储单元用于存储参与计算的指令信息。

4.如权利要求1所述的基于权重压缩的神经网络处理器，其特征在于，通过片下离线压缩的方法对所述参与计算的数据进行重编码，通过权重压缩格式实现权重压缩。

5.如权利要求4所述的基于权重压缩的神经网络处理器，其特征在于，所述权重压缩格式包括<权重，偏移量>。

6.如权利要求5所述的基于权重压缩的神经网络处理器，其特征在于，所述权重压缩格式中的权重为神经网络权重在被压缩前的原始值，所述偏移量为一组权重值中当前非零权重的相对位置。

7.如权利要求4所述的基于权重压缩的神经网络处理器，其特征在于，在权重压缩过程中，经过重新编码获得的权重值序列将不保留数值为零的元素，只保留非零元素。

8.如权利要求2所述的基于权重压缩的神经网络处理器，其特征在于，所述计算单元从与其相关联的所述输入数据存储单元中获得数据以进行计算，并且向与其相关联的所述输出数据存储单元写入数据。

9.一种设计如权利要求1-8任意一项所述基于权重压缩的神经网络处理器的设计方法，其特征在于，包括：

步骤5，将神经网络计算结果存储在所述输出存储单元中。

10.一种包括如权利要求1-8任意一项所述基于权重压缩的神经网络处理器的芯片。