CN108205706B

CN108205706B - 人工神经网络反向训练装置和方法

Info

Publication number: CN108205706B
Application number: CN201611180607.8A
Authority: CN
Inventors: 陈云霁; 郝一帆; 刘少礼; 陈天石
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2021-04-23
Anticipated expiration: 2036-12-19
Also published as: CN108205706A

Abstract

本发明提供了一种人工神经网络反向训练装置和方法，其中装置包括控制器单元、存储单元、学习率调整单元和运算单元，存储单元用于存储神经网络数据，包括指令、权值、激活函数的导数、学习率、梯度向量和学习率调整数据；控制器单元，用于从存储单元中读取指令，并将指令译码成控制存储单元、学习率调整单元和运算单元行为的微指令；学习率调整单元，每代训练开始前，根据上一代学习率和学习率调整数据，运算后得出用于本代学习率；运算单元，根据梯度向量、本代学习率、激活函数的导数和上一代权值计算本代权值。本发明的装置和方法使得训练迭代过程更加稳定，而且减少了神经网络训练至稳定所需的时间，提升了训练效率。

Description

人工神经网络反向训练装置和方法

技术领域

本发明涉及人工神经网络，具体地涉及一种人工神经网络反向训练装置，以及一种人工神经网络反向训练方法。

背景技术

人工神经网络(Artificial Neural Networks，ANNs)简称为神经网络(NNs)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠***的复杂程度，通过调整内部大量节点之间的相互连接关系，从而达到处理信息的目的。神经网络用到的算法就是向量乘法，并且广泛采用符号函数及其各种逼近。

一种支持多层人工神经网络反向训练的已知方法是使用通用处理器。该方法的缺点之一是单个通用处理器的运算性能较低，无法满足通常的多层人工神经网络运算的性能需求。而多个通用处理器并行执行时，通用处理器之间相互通信又成为了性能瓶颈。另外，通用处理器需要把多层人工神经网络反向运算译码成一长列运算及访存指令序列，处理器前端译码带来了较大的功耗开销。

另一种支持多层人工神经网络反向训练的已知方法是使用图形处理器(GPU)。GPU只有较小的片上缓存，多层人工神经网络的模型数据(权值)需要反复从片外搬运，片外带宽成为了主要性能瓶颈，同时带来了巨大的功耗开销。

发明内容

(一)要解决的技术问题

本发明的目的在于，提供一种支持自适应性学习率的人工神经网络反向训练的装置和方法，解决以上所述现有技术中的至少一项技术问题。

(二)技术方案

根据本发明的一方面，提供一种人工神经网络反向训练装置，包括控制器单元、存储单元、学习率调整单元和运算单元，其中，

存储单元，用于存储神经网络数据，包括指令、权值、激活函数的导数、学习率、梯度向量和学习率调整数据；

控制器单元，用于从存储单元中读取指令，并将指令译码成控制存储单元、学习率调整单元和运算单元行为的微指令；

学习率调整单元，每代训练开始前，根据上一代学习率和学习率调整数据，运算后得出用于本代训练的学习率；

运算单元，根据梯度向量、本代学习率、激活函数的导数和上一代权值计算本代权值。

进一步的，所述运算单元包括主运算单元、互联单元和多个从运算单元，所述梯度向量包括输入梯度向量和输出梯度向量，其中：主运算单元，用于在每一层的计算过程中，利用本层的输出梯度向量完成后续计算；互联单元，用于在每层神经网络反向训练开始计算的阶段，主运算单元通过互联单元向所有的从运算单元传输本层的输入梯度向量，在从运算单元的计算过程完成后，互联单元逐级将各从运算单元的输出梯度向量部分和两两相加得到本层的输出梯度向量；多个从运算单元，利用相同的输入梯度向量和各自的权值数据，并行地计算出相应的输出梯度向量部分和。

进一步的，所述存储单元为片上缓存。

进一步的，所述指令为SIMD指令。

进一步的，所述学习率调整数据包括权值变化量和误差函数。

根据本发明的另一方面，提供一种人工神经网络反向训练方法，包括步骤：

S1：每代训练开始前，根据上一代学习率和学习率调整数据，计算得到用于本代训练的学习率；

S2：训练开始，依据本代训练的学习率，逐层更新权值；

S3：所有权值更新完毕后，计算本代网络的学习率调整数据，进行存储；

S4：判断神经网络是否收敛，如果是，运算结束，否则，转步骤S1。

进一步的，步骤S2包括：

S21：对于网络的每一层，输入梯度向量进行加权求和计算出本层的输出梯度向量，其中加权求和的权重为本层待更新的权值；

S22：本层的输出梯度向量乘以下一层在正向运算时的激活函数的导数值得到下一层的输入梯度向量；

S23：将输入梯度向量与正向运算时的输入神经元对位相乘得到本层权值的梯度；

S24：根据所得到的本层权值的梯度和学习率来更新本层的权值；

S25：判断是否所有层更新完毕，如果是，进入步骤S3；否则，转步骤S21。

进一步的，本代训练时，权值采用非统一学习率。

进一步的，本代训练时，权值采用统一学习率。

(三)有益效果

(1)通过设置学习率调整单元，采用自适应性学习率训练网络，更加恰当的决定了每次循环训练中所产生的权值变化量，不仅使得训练迭代过程更加稳定，而且减少了神经网络训练至稳定所需的时间，提升了训练效率；

(2)通过采用针对多层人工神经网络运算算法的专用片上缓存，充分挖掘了输入神经元和权值数据的重用性，避免了反复向内存读取这些数据，降低了内存访问带宽，避免了内存带宽成为多层人工神经网络运算及其训练算法性能瓶颈的问题。

(3)通过采用针对多层人工神经网络运算的专用SIMD指令和定制的运算单元，解决了CPU和GPU运算性能不足，前端译码开销大的问题，有效提高了对多层人工神经网络运算算法的支持。

附图说明

图1是根据本发明一实施例的人工神经网络反向训练装置的整体结构示例框图；

图2是图1中的人工神经网络反向训练装置中互联单元的结构示意图；

图3是根据本发明一实施例的人工神经网络反向调节过程示意图；

图4是根据本发明一实施例的采用人工神经网络反向调节过程示意图；

图5是根据本发明一实施例的采用人工神经网络反向训练方法的运算流程图。

图6是根据本发明另一实施例的采用人工神经网络反向训练方法的运算流程图。

具体实施方式

传统的人工神经网络采用的训练方法是反向传播算法，两代之间权值的变化量为误差函数对权值的梯度乘以一个常数，这个常数称为学习率。学习率决定每次循环训练中所产生的权值变化量。取值过小，每次迭代中权值的有效更新太小，小的学习率导致较长的训练时间，收敛的速度相当慢；取值过大，迭代过程会振荡以致发散。本发明的人工神经网络反向训练装置，其中设置有学习率调整单元，在每代训练开始前，根据上一代学习率和学习率调整数据，运算后得出用于本代学习率。更加恰当的决定了每次循环训练中所产生的权值变化量，使得训练迭代过程更加稳定，减少神经网络训练至稳定所需的时间，提升训练效率。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是根据本发明一实施例的一种人工神经网络反向训练装置的整体结构示例框图。本发明实施例提供了一种支持自适应性学习率的人工神经网络反向训练的装置，包括：

存储单元A，用于存储神经网络数据，包括指令、权值、激活函数的导数、学习率、梯度向量(可包括输入梯度向量和输出梯度向量)和学习率调整数据(可包括网络误差值、取值变化量等)；所述存储单元可以为片上缓存，避免了反复向内存读取这些数据以及内存带宽成为多层人工神经网络运算及其训练算法性能瓶颈。

控制器单元B，用于从存储单元A中读取指令，并将指令译码成控制存储单元、学习率调整单元和运算单元行为的微指令；

对于存储单元A和控制器单元B存取和读取的指令，可以为SIMD指令，通过采用针对多层人工神经网络运算的专用SIMD指令，解决现有CPU和GPU运算性能不足，前端译码开销大的问题。

学习率调整单元E，每代训练开始前，根据上一代学习率和学习率调整数据，运算后得出用于本代学习率；

运算单元(D，C，F)，根据梯度向量、本代学习率、激活函数的导数和上一代权值计算本代权值。

其中，对于存储单元A，用于存储包括指令以及存储神经元输入、权值、神经元输出、学习率、权值变化量、激活函数导数、各层梯度向量等的神经网络数据；

对于控制器单元B，其用于从存储单元A中读取指令，并将该指令译码成控制各个单元行为的微指令；

对于运算单元，其可以包括主运算单元C、互联单元D和多个从运算单元F。

互连单元D用于连接主运算模块和从运算模块，可以实现成不同的互连拓扑(如树状结构、环状结构、网格状结构、分级互连、总线结构等)。

其中，互联单元D，用于在每层神经网络反向训练开始计算的阶段，主运算单元C通过互联单元D向所有的从运算单元F传输本层的输入梯度向量，在从运算单元F的计算过程完成后，互联单元D逐级将各从运算单元F的输出梯度向量部分和两两相加得到本层的输出梯度向量。

主运算单元C，用于在每一层的计算过程中，利用本层的输出梯度向量完成后续计算；

多个从运算单元F，利用相同的输入梯度向量和各自的权值数据，并行地计算出相应的输出梯度向量部分和；

对于学习率调整单元E，用于在每代训练开始前，根据上一代的学习率、权值、网络误差值、权值变化量等信息(这些信息事先存储在存储单元中，可以被调用)，运算后得出用于这一代训练的学习率。

图2示意性示出了互连单元4的一种实施方式：互联结构。互联单元D构成主运算单元C和多个从运算单元F之间的数据通路，并具有互联型的结构。互联包括多个节点，该多个节点构成二叉树通路，即每个节点都有一个父(parent)节点和2个子(child)节点。每个节点将上游的数据通过父节点同样地发给下游的两个子节点，将下游的两个子节点返回的数据进行合并，并返回给上游的父节点。

例如，在神经网络反向运算过程中，下游两个节点返回的向量会在当前节点相加成一个向量并返回给上游节点。在每层人工神经网络开始计算的阶段，主运算单元C内的输入梯度通过互联单元D发送给各从运算单元F；当从运算单元F的计算过程完成后，每个从运算单元F输出的输出梯度向量部分和会在互联单元D中逐级两两相加，即对所有输出梯度向量部分和求和，作为最终的输出梯度向量。

学习率调整单元E中，根据自适应性学习率调整方法的不同，数据在其中进行的运算也不同。

首先，在标准的反向传播算法中：

w(k+1)＝w(k)-ηg(w(k)) (1)

式(1)中，w(k)是当前的训练权值，即本代权值，w(k+1)是下一代权值，η是固定的学习率，是一个事先确定的常数，g(w)是梯度向量。

这里，我们允许学习率像其他网络参数一样，进行逐代的更新。调整学习率的方法是：当训练误差增大时，减小学习率；当训练误差减小时，增大学习率。下面给出几种具体的自适应性学习率调整规则例子，但不仅限于这几种。

方法一：

式(2)中，η(k)为本代学习率，η(k+1)为下一代学习率，ΔE＝E(k)-E(k-1)是误差函数E的变化量，a＞0，b＞0，a，b为适当的常数。

方法二：

η(k+1)＝η(k)(1-ΔE) (3)

式(3)中，η(k)为本代学习率，η(k+1)为下一代学习率，ΔE＝E(k)-E(k-1)是误差函数E的变化量。

方法三：

式(4)中，η(k)为本代学习率，η(k+1)为下一代学习率，ΔE＝E(k)-E(k-1)是误差函数E的变化量，a＞1，0＜b＜1，c＞0，a，b，c为适当的常数。

方法四：

式(5)中，η(k)为本代学习率，η(k+1)为下一代学习率，ΔE＝E(k)-E(k-1)是误差函数E的变化量，0＜a＜1，b＞1，0＜α＜1，a，b，α为适当的常数，

以上四种方法中的学习率η，可以是对所有的权值通用的，即每一层的各个权值在每一代的训练时，用的是同一个学习率，我们记这种方法为统一自适应性学习率训练方法；也可以不是通用的，即对每个权值采用不同的学习率，我们记这种方法为各自自适应性学习率训练方法。各自自适应性学习率训练方法能进一步提高训练精度，减少训练时间。

为了对比更加清晰，我们分别给出了两种方法的示意图，统一自适应性学习率训练方法和各自自适应性学习率训练方法分别对应图3和图4。

图3中，输出层P与隐含层J之间的连接权值w_jp1，w_jp2，…，w_jpn在反向调节时，统一采用学习率η进行调整；图4中，输出层P与隐含层J之间的连接权值w_jp1，w_jp2，...，w_jpn在反向调节时，分别采用学习率η₁，η₂，...，η_n进行调整。不同节点间的差异性反向调节，可以最大限度地调动学习率的自适应能力，最大程度地满足权重在学习中的多变要求。

至于各自的自适应性学习率的调整方法，在取完各个学习率的初始值后，各个学习率的迭代更新依然可以依照方法一到方法四，同样不仅限于这四种。此时式中的学习率η是各个权值所对应的各自的学习率。

基于同一发明构思，本发明还提供了一种人工神经网络反向训练方法，运算流程图如图5所示，包括步骤：

S2：训练开始，依据本代训练的学习率，逐层更新权值；

S4：判断神经网络是否收敛，如果是，运算结束，否则，转步骤S1

对于步骤S1，每代训练开始前，学习率调整单元E调用存储单元A中学习率调整数据以调整学习率，得到用于本代训练的学习率。

对于步骤S2：此后本代训练开始，依据本代训练的学习率，逐层更新权值逐层更新权值。步骤S2可以包括以下子步骤(参见图6所示)：

步骤S21，对于每一层来说，首先，对输入梯度向量进行加权求和计算出本层的输出梯度向量，其中加权求和的权重为本层待更新的权值，这一过程由主运算单元C、互联单元D和各从运算单元F共同完成；

步骤S22，主运算单元C中，该输出梯度向量乘以下一层在正向运算时的激活函数的导数值可以得到下一层的输入梯度向量；

步骤S23，主运算单元C中，将输入梯度向量与正向运算时的输入神经元对位相乘得到本层权值的梯度；

步骤S24，最后，主运算单元C中，根据所得到的本层权值的梯度和学习率来更新本层的权值；

步骤S25：判断是否所有层的权值都更新完毕，如果是，进行步骤S3，否则，转步骤S21。

对于步骤S3，所有权值更新完毕后，主运算单元C计算本代网络误差等用于调整学习率的其他数据，并放入存储单元A，此代训练结束。

步骤S4：判断网络是否收敛，如果是，运算结束，否则，转步骤S1。

权值采用非统一学习率或者统一学习率，具体介绍参照上文所述内容，在此不予赘述。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人工神经网络反向训练装置，包括存储单元、学习率调整单元和运算单元，其中，

存储单元，用于存储神经网络数据，神经网络数据包括指令、权值、激活函数的导数、学习率、梯度向量和学习率调整数据；

学习率调整单元，每代训练开始前，根据上一代学习率和学习率调整数据，运算后得出用于本代学习率；

运算单元，根据梯度向量、本代学习率、激活函数的导数和上一代权值计算本代权值；

所述运算单元包括主运算单元、互联单元和多个从运算单元，所述梯度向量包括输入梯度向量和输出梯度向量，其中：

主运算单元，用于在每一层的计算过程中，利用本层的输出梯度向量完成后续计算；

互联单元，用于在每层神经网络反向训练开始计算的阶段，主运算单元通过互联单元向所有的从运算单元传输本层的输入梯度向量，在从运算单元的计算过程完成后，互联单元逐级将各从运算单元的输出梯度向量部分和两两相加得到本层的输出梯度向量，以互连拓扑；

多个从运算单元，利用相同的输入梯度向量和各自的权值数据，并行地计算出相应的输出梯度向量部分和。

2.根据权利要求1所述的装置，其特征在于还包括：

控制器单元，用于从存储单元中读取指令，并将指令译码成控制存储单元、学习率调整单元和运算单元行为的微指令。

3.根据权利要求1所述的装置，其特征在于，所述互连拓扑为以下至少一种：

树状结构、环状结构、网格状结构、分级互连和总线结构。

4.根据权利要求1所述的装置，其特征在于，所述互联包括多个节点，该多个节点构成二叉树通路，即每个节点都有一个父节点和2个子节点，每个节点将上游的数据通过父节点同样地发给下游的两个子节点，将下游的两个子节点返回的数据进行合并，并返回给上游的父节点。

5.根据权利要求1所述的装置，其特征在于，所述存储单元为片上缓存。

6.根据权利要求1所述的装置，其特征在于，所述指令为SIMD指令。

7.根据权利要求1所述的装置，其特征在于，所述学习率调整数据包括权值变化量和误差函数。

8.一种人工神经网络反向训练方法，包括步骤：

每代训练开始前，学习率调整单元根据上一代学习率和学习率调整数据，计算得到用于本代训练的学习率；

训练开始，依据本代训练的学习率，运算单元逐层更新权值；

所有权值更新完毕后，学习率调整单元计算本代网络的学习率调整数据，存储单元进行存储；

运算单元判断神经网络是否收敛，如果是，运算结束，否则，继续执行以上各步骤；

所述运算单元执行运算的步骤包括：

使用主运算单元，在每一层的计算过程中，利用本层的输出梯度向量完成后续计算；

使用互联单元，在每层神经网络反向训练开始计算的阶段，主运算单元通过互联单元向所有的从运算单元传输本层的输入梯度向量，在从运算单元的计算过程完成后，互联单元逐级将各从运算单元的输出梯度向量部分和两两相加得到本层的输出梯度向量，以互连拓扑；

使用多个从运算单元，利用相同的输入梯度向量和各自的权值数据，并行地计算出相应的输出梯度向量部分和。

9.根据权利要求8所述的方法，其特征在于，训练开始，依据本代训练的学习率，运算单元逐层更新权值，具体包括：

对于网络的每一层，输入梯度向量进行加权求和计算出本层的输出梯度向量，其中加权求和的权重为本层待更新的权值；

本层的输出梯度向量乘以下一层在正向运算时的激活函数的导数值得到下一层的输入梯度向量；

将输入梯度向量与正向运算时的输入神经元对位相乘得到本层权值的梯度；

根据所得到的本层权值的梯度和学习率来更新本层的权值；

判断是否所有层更新完毕，如果是，进入以下步骤；否则，继续进行上述各步骤。

10.根据权利要求9所述的方法，其特征在于，所述互连拓扑为以下至少一种：

树状结构、环状结构、网格状结构、分级互连和总线结构。

11.根据权利要求9所述的方法，其特征在于，所述互联包括多个节点，该多个节点构成二叉树通路，即每个节点都有一个父节点和2个子节点，每个节点将上游的数据通过父节点同样地发给下游的两个子节点，将下游的两个子节点返回的数据进行合并，并返回给上游的父节点。

12.根据权利要求8所述的方法，其特征在于，本代训练时，权值采用非统一学习率。

13.根据权利要求8所述的方法，其特征在于，本代训练时，权值采用统一学习率。

14.根据权利要求8所述的方法，其特征在于还包括：

使用控制器单元，从存储单元中读取指令，并将指令译码成控制存储单元、学习率调整单元和运算单元行为的微指令。

15.根据权利要求14所述的方法，其特征在于，所述指令为SIMD指令。