CN108710944A - 一种可训练分段式线性激活函数生成方法 - Google Patents
一种可训练分段式线性激活函数生成方法 Download PDFInfo
- Publication number
- CN108710944A CN108710944A CN201810412916.6A CN201810412916A CN108710944A CN 108710944 A CN108710944 A CN 108710944A CN 201810412916 A CN201810412916 A CN 201810412916A CN 108710944 A CN108710944 A CN 108710944A
- Authority
- CN
- China
- Prior art keywords
- activation primitive
- function
- piece
- wise linear
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004913 activation Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012886 linear function Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000001427 coherent effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 230000008034 disappearance Effects 0.000 abstract 1
- 238000004880 explosion Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明的生成可训练的分段式线性激活函数的方法,用于简化硬件加速过程中复杂的非线性激活函数的计算问题。该发明利用分段式的线性函数对非线性的激活函数进行替代,通过自身学习的办法不断更新系数,以达到利用线性函数替代非线性激活函数的目的。相比一般的线性激活函数而言,本方法更为接近原本非线性激活函数,相对误差较小,并在不断的逆向传播中更新系数,加快了学习的收敛速度,并在一定范围内尽可能的消除了梯度***和梯度消失的问题。
Description
技术领域
本发明属于计算机领域,尤其涉及一种可训练分段式线性激活函数生成方法。
背景技术
近些年来,机器学习在计算机、互联网等多个领域得到实际运用,起到了巨大的作用,大大提升了包括图像识别,语言识别等功能的成功率。在神经网络中,每一层网络的结果都通过激活函数的处理后才作为最终输出,激活函数的不断发展是深度网络不断进步完善的一个重要环节,激活函数的不断进步使得神经网络输出结果更为精准。
只包含卷积层和全连接层的学***滑的曲线来分割平面,进行分类,不再单纯的使用复杂的线性组合逼***滑曲线以达到相同的目的。
伴随着深度网络的发展,多种多样的激活函数被利用在网络之中,但是在运用上,机器学习由于网络庞大,运用一般的硬件实现比较缓慢,因此通过硬件来对深度网络进行加速势在必行。在硬件加速的过程中,由于运算资源的缺乏,很难实现非线性激活函数复杂的运算。而现有的线性激活函数,如ReLU函数,PReLU函数等,这些线性函数的运用虽然简化了网络,但简单线性函数的运用依旧没有解决非线性映射的问题,深度网络的输出依旧滞留在线性映射的阶段。
发明内容
本发明的目的在于克服上述理论结果的不足,提供一种可训练分段式线性激活函数的生成方法利用固定的运算资源,在保证激活函数的各种特性的条件下,简化现已有的非线性激活函数的方法,具体由以下技术方案实现:
所述可训练分段式线性激活函数的生成方法,具体包括如下步骤:
步骤1)确定所需替代的非线性函数;
步骤2)将所选非线性函数进行分段,将每一段的斜率和偏移量以步骤1)的所述非线性函数为基准进行初始化;
步骤3)通过神经网络模型激活非线性函数的斜率和偏移量,并随着所述网络模型的迭代对非线性函数的斜率和偏移量进行训练更新。
所述可训练分段式线性激活函数的生成方法的进一步设计在于,所述步骤1)中的非线性函数为sigmoid函数或tanh函数。
所述可训练分段式线性激活函数的生成方法的进一步设计在于,所述步骤2)中的分段为八段,负半轴四段,分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0];正半轴四段,分别为(0,2]、(2,4]、(4,6]、(6,+∞),正半轴、负半轴均以y轴为中心对称轴,成轴对称分布。
所述可训练分段式线性激活函数的生成方法的进一步设计在于,所述步骤2)的初始化操作为:将分成八段区间的非线性激活函数进行逐段分析,将每一段的其中有代表性的一点的斜率作为可训练分段式线性激活函数的初始斜率ki 0,再通过简单的数学关系求出函数的初始偏移量bi 0,用于将多段函数链接起来,构成初始线性函数的其中一段y=ki 0x+bi 0。
所述可训练分段式线性激活函数的生成方法的进一步设计在于,非线性激活函数八段中原点附近的两段区间的非线性激活函数没有偏移量b。
所述可训练分段式线性激活函数的生成方法的进一步设计在于,所述步骤3)中的训练更新包括如下步骤:
步骤3-1)将八段函数合并成一个完整的分段式激活函数,所述分段式激活函数的每一个斜率k随着神经网络的反向传播进行迭代更新,迭代更新根据式(1)采用带动量的更新方式,
其中,μ表示动量,ε表示学习率。
步骤3-2)通过简单的数学关系求出k所对应的新的偏移量b,使分段式线性函数连贯,形成新的分段式线性激活函数;
步骤3-3)重复迭代,得到训练完成的分段式线性激活函数。
本发明的优点如下:
本发明提供的生成激活函数的方法实现了现有两种激活函数的共同优点,既拥有普通激活函数的非线性,也可以利用其分段的线性函数减少对硬件运算资源的运用,从而加快了神经网络的运算速度。
该方法简化的非线性激活函数既具有了非线性函数非线性的特点,也具有简单的线性运算条件,在复杂网络的计算过程中,在利用少量运算资源的同时也使得数据拥有非线性映射的结果,合并了现有的两部分激活函数的优点。
附图说明
图1是可训练分段式线性激活函数生成方法的流程图。
具体实施方法
下面结合附图对本发明进行详细说明。
本实施案例以逼近tanh函数进行示例,公开了一种可训练式分段线性激活函数的生成方法,流程如图1所示,步骤如下:
步骤1)确定所需替代的非线性函数为tanh函数。
将所选非线性函数进行分段,本实施案例将非线性激活函数分为八段,负半轴四段,分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0],正半轴四段,分别为(0,2]、(2,4]、(4,6]、(6,+∞),正负半轴以y轴为中心,成轴对称。
步骤2)将分好成八段的非线性激活函数每段单独分析,将每一段的其中有代表性的一点的斜率,此案例中的代表性斜率分别为tanh函数在x=-6,-5,-3,-1,1,3,5,6八处的斜率作为可训练分段式线性激活函数的初始斜率ki 0,再利用简单的数学关系求出函数的偏移量bi 0,目的是将多段函数衔接起来,构成初始线性函数其中一段y=ki 0x+bi 0,其中原点附近的两段过原点,既没有偏移量b。并将八段合并成一个完整的连贯的分段式激活函数,形如:
步骤3)激活函数的每一个系数k随着神经网络的反向传播进行迭代更新,采用带动量的更新方式,具体公式如下:
其中μ和ε是本案例中训练时的动量和学习率。
每个k都利用带动量的更新方式进行更新,更新后利用简单的的数学关系求出所对应的的新的b值,形成新的激活函数。经过多次迭代,可得最后的训练完成的分段式线性激活函数,形如:
本实施例的的生成激活函数的方法实现了现有两种激活函数的共同优点,既拥有普通激活函数的非线性,也可以利用其分段的线性函数减少对硬件运算资源的运用,从而加快了神经网络的运算速度。
该方法简化的非线性激活函数既具有了非线性函数非线性的特点,也具有简单的线性运算条件,在复杂网络的计算过程中,在利用少量运算资源的同时也使得数据拥有非线性映射的结果,合并了现有的两部分激活函数的优点。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种可训练分段式线性激活函数生成方法,其特征在于具体包括如下步骤:
步骤1)确定所需替代的非线性函数;
步骤2)将所选非线性函数进行分段,将每一段的斜率和偏移量以步骤1)的所述非线性函数为基准进行初始化;
步骤3)通过神经网络模型激活非线性函数的斜率和偏移量,并随着所述网络模型的迭代对非线性函数的斜率和偏移量进行训练更新。
2.根据权利要求1所述的可训练分段式线性激活函数的生成方法,其特征在于,所述步骤1)中的非线性函数为sigmoid函数或tanh函数。
3.根据权利要求1所述的可训练分段式线性激活函数的生成方法,其特征在于,所述步骤2)中的分段为八段,负半轴四段,分别为(-∞,-6]、(-6,-4]、(-4,-2]、(-2,0];正半轴四段,分别为(0,2]、(2,4]、(4,6]、(6,+∞),正半轴、负半轴均以y轴为中心对称轴,成轴对称分布。
4.根据权利要求3所述的可训练分段式线性激活函数的生成方法,其特征在于,所述步骤2)的初始化操作为:将分成八段区间的非线性激活函数进行逐段分析,将每一段的其中有代表性的一点的斜率作为可训练分段式线性激活函数的初始斜率ki 0,再通过简单的数学关系求出函数的初始偏移量bi 0,用于将多段函数链接起来,构成初始线性函数的其中一段y=ki 0x+bi 0。
5.根据权利要求1所述的可训练分段式线性激活函数的生成方法,其特征在于,非线性激活函数八段中原点附近的两段区间的非线性激活函数没有偏移量b。
6.根据权利要求1所述的可训练分段式线性激活函数的生成方法,其特征在于,所述步骤3)中的训练更新包括如下步骤:
步骤3-1)将八段函数合并成一个完整的分段式激活函数,所述分段式激活函数的每一个斜率k随着神经网络的反向传播进行迭代更新,迭代更新根据式(1)采用带动量的更新方式,
其中,μ表示动量,ε表示学习率。
步骤3-2)通过简单的数学关系求出k所对应的新的偏移量b,使分段式线性函数连贯,形成新的分段式线性激活函数;
步骤3-3)重复迭代,得到训练完成的分段式线性激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810412916.6A CN108710944A (zh) | 2018-04-30 | 2018-04-30 | 一种可训练分段式线性激活函数生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810412916.6A CN108710944A (zh) | 2018-04-30 | 2018-04-30 | 一种可训练分段式线性激活函数生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108710944A true CN108710944A (zh) | 2018-10-26 |
Family
ID=63867625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810412916.6A Pending CN108710944A (zh) | 2018-04-30 | 2018-04-30 | 一种可训练分段式线性激活函数生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108710944A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837885A (zh) * | 2019-10-11 | 2020-02-25 | 西安电子科技大学 | 一种基于概率分布的Sigmoid函数拟合方法 |
CN111126581A (zh) * | 2018-12-18 | 2020-05-08 | 中科寒武纪科技股份有限公司 | 数据处理方法、装置及相关产品 |
CN114880693A (zh) * | 2022-07-08 | 2022-08-09 | 蓝象智联(杭州)科技有限公司 | 生成激活函数方法、装置、电子设备和可读介质 |
-
2018
- 2018-04-30 CN CN201810412916.6A patent/CN108710944A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126581A (zh) * | 2018-12-18 | 2020-05-08 | 中科寒武纪科技股份有限公司 | 数据处理方法、装置及相关产品 |
CN110837885A (zh) * | 2019-10-11 | 2020-02-25 | 西安电子科技大学 | 一种基于概率分布的Sigmoid函数拟合方法 |
CN114880693A (zh) * | 2022-07-08 | 2022-08-09 | 蓝象智联(杭州)科技有限公司 | 生成激活函数方法、装置、电子设备和可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639710B (zh) | 图像识别模型训练方法、装置、设备以及存储介质 | |
CN108304826A (zh) | 基于卷积神经网络的人脸表情识别方法 | |
CN107180430A (zh) | 一种适用于语义分割的深度学习网络构建方法及*** | |
CN106504064A (zh) | 基于深度卷积神经网络的服装分类与搭配推荐方法及*** | |
CN111507993A (zh) | 一种基于生成对抗网络的图像分割方法、装置及存储介质 | |
CN108710944A (zh) | 一种可训练分段式线性激活函数生成方法 | |
CN110322529B (zh) | 一种基于深度学习辅助艺术绘画的方法 | |
CN108986101B (zh) | 基于循环“抠图-分割”优化的人体图像分割方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN112307714A (zh) | 一种基于双阶段深度网络的文字风格迁移方法 | |
CN109857871A (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN108171324A (zh) | 一种变分自编码混合模型 | |
CN109711411B (zh) | 一种基于胶囊神经元的图像分割识别方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN112884045A (zh) | 基于多视角的随机删边嵌入模型的分类方法 | |
CN108629374A (zh) | 一种基于卷积神经网络的无监督多模态子空间聚类方法 | |
CN110188791B (zh) | 基于自动估计的视觉情感标签分布预测方法 | |
CN117077671A (zh) | 一种交互数据生成方法及*** | |
CN110309696B (zh) | 基于深度学习及多聚类中心损失函数的摊贩物品分类方法 | |
CN113538472A (zh) | 一种基于编码-解码网络的向量场引导精细化分割方法 | |
CN112508108A (zh) | 一种基于字根的零样本汉字识别方法 | |
Gottemukkula | Polynomial activation functions | |
CN115588487A (zh) | 一种基于联邦学习和生成对抗网络的医学图像数据集制作方法 | |
CN112784909B (zh) | 基于自注意力机制和自适应子网络的图像分类识别方法 | |
CN115019053A (zh) | 一种用于点云分类分割的动态图语义特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181026 |
|
RJ01 | Rejection of invention patent application after publication |