CN108710944A

CN108710944A - 一种可训练分段式线性激活函数生成方法

Info

Publication number: CN108710944A
Application number: CN201810412916.6A
Authority: CN
Inventors: 潘红兵; 郭良蛟; 秦子迪; 李丽; 何书专; 李伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-30
Filing date: 2018-04-30
Publication date: 2018-10-26

Abstract

本发明的生成可训练的分段式线性激活函数的方法，用于简化硬件加速过程中复杂的非线性激活函数的计算问题。该发明利用分段式的线性函数对非线性的激活函数进行替代，通过自身学习的办法不断更新系数，以达到利用线性函数替代非线性激活函数的目的。相比一般的线性激活函数而言，本方法更为接近原本非线性激活函数，相对误差较小，并在不断的逆向传播中更新系数，加快了学习的收敛速度，并在一定范围内尽可能的消除了梯度***和梯度消失的问题。

Description

一种可训练分段式线性激活函数生成方法

技术领域

本发明属于计算机领域，尤其涉及一种可训练分段式线性激活函数生成方法。

背景技术

近些年来，机器学习在计算机、互联网等多个领域得到实际运用，起到了巨大的作用，大大提升了包括图像识别，语言识别等功能的成功率。在神经网络中，每一层网络的结果都通过激活函数的处理后才作为最终输出，激活函数的不断发展是深度网络不断进步完善的一个重要环节，激活函数的不断进步使得神经网络输出结果更为精准。

只包含卷积层和全连接层的学***滑的曲线来分割平面，进行分类，不再单纯的使用复杂的线性组合逼***滑曲线以达到相同的目的。

伴随着深度网络的发展，多种多样的激活函数被利用在网络之中，但是在运用上，机器学习由于网络庞大，运用一般的硬件实现比较缓慢，因此通过硬件来对深度网络进行加速势在必行。在硬件加速的过程中，由于运算资源的缺乏，很难实现非线性激活函数复杂的运算。而现有的线性激活函数，如ReLU函数，PReLU函数等，这些线性函数的运用虽然简化了网络，但简单线性函数的运用依旧没有解决非线性映射的问题，深度网络的输出依旧滞留在线性映射的阶段。

发明内容

本发明的目的在于克服上述理论结果的不足，提供一种可训练分段式线性激活函数的生成方法利用固定的运算资源，在保证激活函数的各种特性的条件下，简化现已有的非线性激活函数的方法，具体由以下技术方案实现：

所述可训练分段式线性激活函数的生成方法，具体包括如下步骤：

步骤1)确定所需替代的非线性函数；

步骤2)将所选非线性函数进行分段，将每一段的斜率和偏移量以步骤1)的所述非线性函数为基准进行初始化；

步骤3)通过神经网络模型激活非线性函数的斜率和偏移量，并随着所述网络模型的迭代对非线性函数的斜率和偏移量进行训练更新。

所述可训练分段式线性激活函数的生成方法的进一步设计在于，所述步骤1)中的非线性函数为sigmoid函数或tanh函数。

所述可训练分段式线性激活函数的生成方法的进一步设计在于，所述步骤2)中的分段为八段，负半轴四段，分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0]；正半轴四段，分别为(0,2]、(2,4]、(4,6]、(6,+∞)，正半轴、负半轴均以y轴为中心对称轴，成轴对称分布。

所述可训练分段式线性激活函数的生成方法的进一步设计在于，所述步骤2)的初始化操作为：将分成八段区间的非线性激活函数进行逐段分析，将每一段的其中有代表性的一点的斜率作为可训练分段式线性激活函数的初始斜率k_i ⁰，再通过简单的数学关系求出函数的初始偏移量b_i ⁰，用于将多段函数链接起来，构成初始线性函数的其中一段y＝k_i ⁰x+b_i ⁰。

所述可训练分段式线性激活函数的生成方法的进一步设计在于，非线性激活函数八段中原点附近的两段区间的非线性激活函数没有偏移量b。

所述可训练分段式线性激活函数的生成方法的进一步设计在于，所述步骤3)中的训练更新包括如下步骤：

步骤3-1)将八段函数合并成一个完整的分段式激活函数，所述分段式激活函数的每一个斜率k随着神经网络的反向传播进行迭代更新，迭代更新根据式(1)采用带动量的更新方式，

其中，μ表示动量，ε表示学习率。

步骤3-2)通过简单的数学关系求出k所对应的新的偏移量b，使分段式线性函数连贯，形成新的分段式线性激活函数；

步骤3-3)重复迭代，得到训练完成的分段式线性激活函数。

本发明的优点如下：

本发明提供的生成激活函数的方法实现了现有两种激活函数的共同优点，既拥有普通激活函数的非线性，也可以利用其分段的线性函数减少对硬件运算资源的运用，从而加快了神经网络的运算速度。

该方法简化的非线性激活函数既具有了非线性函数非线性的特点，也具有简单的线性运算条件，在复杂网络的计算过程中，在利用少量运算资源的同时也使得数据拥有非线性映射的结果，合并了现有的两部分激活函数的优点。

附图说明

图1是可训练分段式线性激活函数生成方法的流程图。

具体实施方法

下面结合附图对本发明进行详细说明。

本实施案例以逼近tanh函数进行示例，公开了一种可训练式分段线性激活函数的生成方法，流程如图1所示，步骤如下：

步骤1)确定所需替代的非线性函数为tanh函数。

将所选非线性函数进行分段，本实施案例将非线性激活函数分为八段，负半轴四段，分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0]，正半轴四段，分别为(0,2]、(2,4]、(4,6]、(6,+∞)，正负半轴以y轴为中心，成轴对称。

步骤2)将分好成八段的非线性激活函数每段单独分析，将每一段的其中有代表性的一点的斜率，此案例中的代表性斜率分别为tanh函数在x＝-6，-5，-3，-1，1，3，5，6八处的斜率作为可训练分段式线性激活函数的初始斜率k_i ⁰，再利用简单的数学关系求出函数的偏移量b_i ⁰，目的是将多段函数衔接起来，构成初始线性函数其中一段y＝k_i ⁰x+b_i ⁰，其中原点附近的两段过原点，既没有偏移量b。并将八段合并成一个完整的连贯的分段式激活函数，形如：

步骤3)激活函数的每一个系数k随着神经网络的反向传播进行迭代更新，采用带动量的更新方式，具体公式如下：

其中μ和ε是本案例中训练时的动量和学习率。

每个k都利用带动量的更新方式进行更新，更新后利用简单的的数学关系求出所对应的的新的b值，形成新的激活函数。经过多次迭代，可得最后的训练完成的分段式线性激活函数，形如：

本实施例的的生成激活函数的方法实现了现有两种激活函数的共同优点，既拥有普通激活函数的非线性，也可以利用其分段的线性函数减少对硬件运算资源的运用，从而加快了神经网络的运算速度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种可训练分段式线性激活函数生成方法，其特征在于具体包括如下步骤：

步骤1)确定所需替代的非线性函数；

2.根据权利要求1所述的可训练分段式线性激活函数的生成方法，其特征在于，所述步骤1)中的非线性函数为sigmoid函数或tanh函数。

3.根据权利要求1所述的可训练分段式线性激活函数的生成方法，其特征在于，所述步骤2)中的分段为八段，负半轴四段，分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0]；正半轴四段，分别为(0,2]、(2,4]、(4,6]、(6,+∞)，正半轴、负半轴均以y轴为中心对称轴，成轴对称分布。

4.根据权利要求3所述的可训练分段式线性激活函数的生成方法，其特征在于，所述步骤2)的初始化操作为：将分成八段区间的非线性激活函数进行逐段分析，将每一段的其中有代表性的一点的斜率作为可训练分段式线性激活函数的初始斜率k_i ⁰，再通过简单的数学关系求出函数的初始偏移量b_i ⁰，用于将多段函数链接起来，构成初始线性函数的其中一段y＝k_i ⁰x+b_i ⁰。

5.根据权利要求1所述的可训练分段式线性激活函数的生成方法，其特征在于，非线性激活函数八段中原点附近的两段区间的非线性激活函数没有偏移量b。

6.根据权利要求1所述的可训练分段式线性激活函数的生成方法，其特征在于，所述步骤3)中的训练更新包括如下步骤：

其中，μ表示动量，ε表示学习率。

步骤3-3)重复迭代，得到训练完成的分段式线性激活函数。