CN109978143B

CN109978143B - 一种基于simd架构的堆栈式自编码器及编码方法

Info

Publication number: CN109978143B
Application number: CN201910251530.6A
Authority: CN
Inventors: 李丽; 马博涵; 傅玉祥; 张衡; 李伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-07-18
Anticipated expiration: 2039-03-29
Also published as: CN109978143A

Abstract

本发明的基于SIMD架构的堆栈式自编码器及编码方法，自编码器包括DMA接口模块、神经网络推理模块以及神经网络训练模块；DMA接口模块主要通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM，并将最后的运算结果通过DMA方式写回DDR；神经网络的推理运算模块使用已经训练好的权重与偏置对新的样本进行分类推理运算；神经网络的训练模块主要负责从神经网络最后一层逐层向前更新神经网络的权重和偏置。有益效果：本发明的自编码器支持的神经网络层数没有限制，因此支持大规模神经网络的推理与训练，并且通过乒乓操作实现部分计算时间和访存时间的掩盖，有着良好的实用意义和广泛的应用前景。

Description

一种基于SIMD架构的堆栈式自编码器及编码方法

技术领域

本发明涉及人工智能算法的硬件实现领域，尤其涉及一种基于SIMD架构的堆栈式自编码器及编码方法。

背景技术

随着1941年以来电子计算机的发展，技术已经可以创造出机器智能，“人工智能”(Artificial Intelligence)一词最初是在1956年DARTMOUTH学会上提出的，从那以后，研究者们发展了众多理论和原理，人工智能的概念也随之扩展。2007年以前，受限于当时算法和数据等因素，人工智能对芯片还没有特别强烈的需求，通用的CPU芯片即可提供足够的计算能力。之后由于高清视频以及游戏产业的快速发展，图形处理器(GPU)芯片取得了迅速的发展。因为GPU有更多的逻辑运算单元用于处理数据，属于高并行结构，在处理图形数据和复杂算法方面比CPU更有优势，又因为AI深度学习的模型参数多、数据规模大、计算量大，此后一段时间内GPU代替了CPU，成为当时AI芯片的主流。在人工智能的巨大浪潮下，也有很多厂商处理机器学习算法使用的是现场可编程门阵列(FPGA)，FPGA凭借其灵活性高，在工业互联网和工业机器人设备领域有着巨大的发展市场。除了GPU和FPGA两种人工智能算法加速芯片，谷歌推出了一款为特定人工智能算法设计的专用处理器TPU，其芯片面积相对FPGA和GPU更小，功耗也更低。

通信网络是人工智能爆发的基础，随着5G通信时代的来临，万物互联将产生海量的数据，大规模的神经网络需要强大的算力。作为一种重要的神经网络算法，堆栈式自编码算法在人脸识别、地理信息测绘等多种应用场景有着广泛的应用。本发明基于一款可重构智能加速核，提出了一种SIMD架构的堆栈式自编码算法的硬件实现，与GPU、FPGA等一些硬件加速方式相比，该实现方式资源利用率高，硬件实现速度快。作为人工智能算法中的典型算法，该实现方法有着良好的借鉴意义和广泛的应用前景。

发明内容

本发明目的在于克服上述现有技术的不足，有效降低神经网络的训练时间，充分利用存储资源，加快训练以及推理的计算速度，提供了一种基于SIMD架构的堆栈式自编码器及编码方法，具体由以下技术方案实现：

所述基于SIMD架构的堆栈式自编码器，基于神经网络包括：

DMA接口模块，通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM，并将最后的运算结果通过DMA方式写回DDR；

神经网络推理模块，使用已经训练好的权重与偏置对新的样本进行分类推理运算；神经网络训练模块，根据梯度下降算法将训练样本前向传播后；从神经网络的最后一层反向传播，更新神经网络的权重和偏置。

所述基于SIMD架构的堆栈式自编码器的进一步设计在于，每层神经网络的存储SRAM均含有有4N个源数据存储bank，则将所述SRAM划分为四个部分，每个部分有N个bank，分别为：

SRAM的第一部分，存储输入x_j；

SRAM的第二部分以及第三部分，存储权重W_ij；

SRAM的第四部分，存储每层神经网络的计算结果。

常数memory，存放偏置b_i。

根据上述基于SIMD架构的堆栈式自编码器，提供一种基于SIMD架构的堆栈式自编码方法，该方法包括算法推理过程与算法训练过程，算法推理过程包括：

步骤1-1)初始化第一层所有神经元的输入x_j、偏置b_i、第一层第一个神经元以及神经网络第二层的所有神经元间的权重W_ij；

步骤1-2)根据式(1)计算出第二层神经网络第一个神经元的输出，该乘累加的计算过程由32路并行的乘加树的结构完成计算，计算完成后，将第二个神经元的权重W_ij搬入SRAM的第三部分；

式(1)中h_i表示每层神经网络的计算结果，a_i表示的是权重和输入的乘累加和，h_is()表示的是sigmoid激活函数；

步骤1-3)进行乒乓操作搬入权重，完成神经网络第二层的输出计算，并将计算结果存入SRAM的第四部分；

步骤1-4)将神经网络第二层的输出作为第三层的输入，计算神经网络第三层的输出，覆盖存入SRAM的第一部分。

步骤1-5)按照此存取以及计算方式，得到神经网络最后一层的结果，并将结果从SRAM中读取按照DMA方式写回DDR；

算法训练过程包括前向传播与反向传播，所述前向传播包括如下步骤：

步骤2-1-1)初始化第一层的输入x_j以及偏置b_i，第一层第一个神经元的权重W_ij；

步骤2-1-2)根据以及h_i＝s(a_i)计算出第二层第一个神经元的输出，该乘累加的计算过程由32路并行的乘加树的结构完成/>计算，计算完成后，将第二个神经元的权重W_ij搬入SRAM的第三部分中，计算第二个神经元的输出结果；

步骤2-1-3)采用乒乓操作搬入权重，将神经网络第二层512个神经元的输出计算完成，存入SRAM的第四部分，并按照DMA方式将数据写回DDR；

步骤2-1-4)将神经网络第二层的输出作为第三层的输入，计算神经网络第三层的输出，覆盖存入SRAM的第一部分；

步骤2-1-5)完成上述步骤，得到神经网络最后一层的结果，并将结果从SRAM中读取并按照DMA方式写回DDR；

所述反向传播中，将标签数据定义为Std，对冲值定义为delta，具体包括如下步骤：

步骤2-2-1)从DDR按照DMA方式读入神经网络标签数据Std，与计算所得的神经网络最后一层数据相减得到神经网络最后一层的误差delta；

步骤2-2-2)将神经网络倒数第二层的转置权重按照DMA方式乒乓读入每个神经元的权重W_ji，将权重W_ji存入SRAM的第二部分和第三部分，根据式(2)更新偏置和权重，直至最后一层的权重和偏置完成更新；

更新完成后覆盖存入原权重和偏置所在的SRAM的部分，将已更新完毕的偏置和权重按照DMA方式写入DDR；

步骤2-2-3)按照同样的方式计算前一层的对冲值delta，计算更新权重以及偏置，将已更新完毕的偏置和权重按照DMA方式写入DDR；

步骤2-2-4)依次向前一层传播，更新神经网络所有层的权重以及偏置，并写回DDR，完成神经网络的一次训练。

所述基于SIMD架构的堆栈式自编码方法的进一步设计在于，所述步骤1-5)如果神经网络总层数为奇数层，则从SRAM的第一部分中读取最后一层的结果；如果神经网络总层数为偶数层，则从SRAM的第四部分中读取最后一层的结果。本发明的优点如下：

本发明的基于SIMD架构的堆栈式自编码器支持的神经网络层数没有限制，因此支持大规模神经网络的推理与训练，并且通过乒乓操作实现部分计算时间和访存时间的掩盖，有着良好的实用意义和广泛的应用前景。

附图说明

图1是堆栈式自编码算法中单个自编码器示意图。

图2是多个单一的自编码器堆叠成为自编码器整体的示意图。

图3是基于SIMD架构的堆栈式自编码方法的流程图。

图4是堆栈式自编码算法推理部分以及训练部分前向传播部分计算实现示意图。

图5是堆栈式自编码算法存储方式示意图。

具体实施方式

以下结合附图，对本发明的技术方案进行详细说明。

本实施例的自编码器如图1所示，分为输入层、隐藏层、输出层，多个单一的自编码器堆栈后将形成如图2所示的堆栈式自编码器，堆栈式自编码器由一层输入、多层隐藏层和一层输出层组成，最后是否需要Softmax分类器根据实际需求定义。

该自编码器主要由DMA接口模块、神经网络推理模块以及神经网络训练模块组成。本发明通过对神经网络每层运算结果的乒乓存储以及对神经网络每层各个神经元权重的乒乓存储，使得资源可以获得最大化利用，同时根据SRAM的分区进行数据搬运，整合计算结果，提高算法运算速度。

下面以本发明的一个实施例实现进行详细说明，并搭建了一款基于SystemC语言的周期精确***级仿真模型进行验证。实施例中神经网络共有7层，神经网络从前往后每层的神经元个数分别为：1024、512、256、128、256、512、1024个，神经网络的输入、权重、偏置等数据均为IEEE754标准的32位浮点数，若以4PE(Processing Element，其中含有4个复数乘法器、4个复数加法器、1个实数加法器、1个实数乘法器、1一个超越函数)计算阵列为例(对应32个bank，每个bank深度假定设为4K，bank位宽为64位)，则一个bank的一个地址存储2个源数据。以下将以此实施例并结合附图对本发明的技术方案作进一步的介绍。

算法硬件实现流程图如图3所示，在该算法开始前，需要先将所有层与层间的权重转置后存储于DDR中，以便于训练更新权重使用，训练与推理过程详细步骤如下：

堆栈式自编码算法的推理环节过程如下：

S1：初始化第一层的1024个神经元的输入x_j、偏置b_i，第一层第一个神经元与神经网络第二层的512个神经元间的权重W_ij，如图5所示，将输入x_j存储于第0-7个bank中，权重存储于8-15个bank中，偏置b_i存储于常数存储器中。

S2：根据以及h_i＝s(a_i)计算出第二层第一个神经元的输出，该乘累加的计算过程整体硬件架构如图4所示，由32路并行的乘加树的结构完成计算。计算完成后，将第二个神经元的权重W_ij搬入第三部分bank_3。

S3：乒乓搬入权重，将神经网络第二层的输出计算完成。存入SRAM的第四部分bank_4。

S4：神经网络第二层的输出作为第三层的输入，计算神经网络第三层的输出，覆盖存入SRAM的第一部分bank_1。

S5：按照此存取以及计算方式，得到神经网络最后一层的结果，并将结果从SRAM中读取按照DMA方式写回DDR(如果神经网络总层数为奇数层，则从SRAM的第一部分bank_1中读取；如果神经网络总层数为偶数层，则从SRAM的第四部分bank_4中读取)。

堆栈式自编码算法的训练环节过程如下：

算法训练环节分为前向传播与反向传播，前向传播与算法推理环节唯一的不同是需要将每层的计算结果通过DMA方式写回DDR，以用于反向传播使用，反向传播使用的是梯度下降算法。

前向传播：

S1：初始化第一层的输入x_j以及偏置b_i，第一层第一个神经元的权重W_ij。

S2：根据以及h_i＝s(a_i)计算出第二层第一个神经元的输出，该乘累加的计算过程整体硬件架构如图4所示，由32路并行的乘加树的结构完成计算。计算完成后，将第二个神经元的权重W_ij搬入第三部分bank_3中，计算第二个神经元的输出结果。

S3：乒乓搬入权重，将神经网络第二层512个神经元的输出计算完成。存入SRAM的第四部分bank_4即第24-31个bank中，并按照DMA方式将数据写回DDR。

S4：神经网络第二层的输出作为第三层的输入，计算神经网络第三层的输出，覆盖存入SRAM的第一部分bank_1即第0-7个bank中。

S5：按照此存取以及计算方式，得到神经网络最后一层即神经网络第7层的结果，并将结果从SRAM中读取按照DMA方式写回DDR，本例神经网络总层数是7层，为奇数层，则从SRAM的第一部分bank_1即0-7个bank中读取。

反向传播(梯度下降)：

将标签数据定义为Std，对冲值定义为delta。

S6：从DDR按照DMA方式读入神经网络标签数据Std，与计算所得的神经网络最后一层第7层数据相减得到神经网络最后一层的误差delta。

S7：将神经网络倒数第二层的转置权重按照DMA方式乒乓读入每个神经元的权重W_ji，将其存入SRAM的第二部分bank_2和第三部分bank_3，根据偏置和权重的更新方法，更新最后一层的权重和偏置。

更新完成后覆盖存入原权重和偏置所在的SRAM的部分，将已更新完毕的偏置和权重按照DMA方式写入DDR。

S8：按照同样的方式计算前一层的对冲值delta，并计算更新权重以及偏置，同样的方式写入DDR。

S9：依次向前一层传播，更新神经网络所有层的权重以及偏置，并写回DDR，完成神经网络的一次训练。

本发明将堆栈式自编码算法中的输入和权重存储于SRAM划分的不同区域中，能够无冲突的访存计算所需的变量，并通过乒乓操作以及计算资源的分时复用，实现了该算法计算过程的快速实现，从而大大提高了资源利用率与硬件实现速度，因此该实现方式应用前景广泛。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于SIMD架构的堆栈式自编码器，基于神经网络，其特征在于包括：

神经网络推理模块，使用已经训练好的权重与偏置对新的样本进行分类推理运算；

神经网络训练模块，根据梯度下降算法将训练样本前向传播后；从神经网络的最后一层反向传播，更新神经网络的权重和偏置；每层神经网络的存储SRAM均含有4N个源数据存储bank，则将所述SRAM划分为四个部分，每个部分有N个bank，分别为：

SRAM的第一部分，存储输入x_j；

SRAM的第二部分以及第三部分，存储权重W_ij；

SRAM的第四部分，存储每层神经网络的计算结果；

常数memory，存放偏置b_i；

所述自编码器分为输入层、隐藏层、输出层，堆栈式自编码器由一层输入、多层隐藏层和一层输出层组成，最后是否需要Softmax分类器根据实际需求定义。

2.如权利要求1所述的基于SIMD架构的堆栈式自编码器的编码方法，其特征在于包括算法推理过程与算法训练过程，算法推理过程包括：

步骤1-2)根据式(1)计算出第二层神经网络第一个神经元的输出，乘累加的计算过程由32路并行的乘加树的结构完成计算，计算完成后，将第二个神经元的权重W_ij搬入SRAM的第三部分；

步骤1-4)将神经网络第二层的输出作为第三层的输入，计算神经网络第三层的输出，覆盖存入SRAM的第一部分；

3.根据权利要求2所述的基于SIMD架构的堆栈式自编码器的编码方法，其特征在于：所述步骤1-5)如果神经网络总层数为奇数层，则从SRAM的第一部分中读取最后一层的结果；如果神经网络总层数为偶数层，则从SRAM的第四部分中读取最后一层的结果。