CN109146000A - 一种基于冰冻权值改进卷积神经网络的方法及装置 - Google Patents

一种基于冰冻权值改进卷积神经网络的方法及装置 Download PDF

Info

Publication number
CN109146000A
CN109146000A CN201811044605.5A CN201811044605A CN109146000A CN 109146000 A CN109146000 A CN 109146000A CN 201811044605 A CN201811044605 A CN 201811044605A CN 109146000 A CN109146000 A CN 109146000A
Authority
CN
China
Prior art keywords
hidden layer
layer node
weight
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811044605.5A
Other languages
English (en)
Other versions
CN109146000B (zh
Inventor
韩宇铭
朱立东
冉普航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811044605.5A priority Critical patent/CN109146000B/zh
Publication of CN109146000A publication Critical patent/CN109146000A/zh
Application granted granted Critical
Publication of CN109146000B publication Critical patent/CN109146000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于冰冻权值改进卷积神经网络的方法及装置,该方法通过冰冻权值的理论改进传统BP卷积神经网络。该方法首先采集足够多的训练和测试样本数据,对其进行预处理,并建立卷积神经网络模型,根据冰冻权值理论对卷积神经网络进行优化处理,通过引入熵权值法对卷积神经网络中的隐含层节点进行分析,冻结卷积神经网络训练过程中对网络输出贡献不大的隐含层节点,合理优化卷积神经网络中隐含层节点的更新过程,有效地降低卷积神经网络的运算复杂度,缩短卷积神经网络的训练时长。该方法具有高效、可靠、精度较高的优点。

Description

一种基于冰冻权值改进卷积神经网络的方法及装置
技术领域
本发明属于神经网络技术算法领域,具体涉及一种基于冰冻权值改进卷积神经网络的方法及装置。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)是近年来应用于深度学习的一种神经网络,凭借卷积神经网络对图像处理的高性能,近些年来也被广泛应用于图像识别等领域。卷积神经网络的概念最早是由LeCun提出的,LeCun 等人在Fukushima所提出的神经认知机(Neocognitron)的基础上,采用简单细胞层(S-layer)与复杂细胞层(C-layer)交替叠加的结构,并使用BP(Back Propagation反向传播算法)算法成功设计出了经典的文字识别***LeNet-5模型。作为首个出现的卷积神经网络,该网络体系具有较强的鲁棒性,卷积神经网络通过将数据之间的空间特征放大,利用数据彼此间的空间相关性来达到缩短训练时间的目的。
但卷积神经网络同样也有很多的问题,其中的主要问题来自于卷积神经网络所使用的传统反向传播算法(Back Propagation,BP)。由于传统BP神经网络中的误差函数是相对于网络中每个隐含层节点权值的一阶导数,在现实中无法做到进行无限次的最小化问题,就会出现步长选取的问题。其次,传统BP神经网络所要优化的目标函数是非常复杂的,因此必然会出现“锯齿形现象”,这使得传统BP神经网络运算低效;又由于传统BP神经网络中优化的目标函数很复杂,它必然会在神经元输出接近0或1的情况下,出现一些平坦区,在这些区域内,节点权值改变很小,权值误差改变很小,使网络训练过程几乎停顿。这些问题都会造成卷积神经网络训练时间较长,对于本身构造复杂的神经网络***,这无疑是雪上加霜。
在公开号为CN103077267B的“一种基于改进BP神经网络的参量声源建模方法”中国专利中,公开了一种基于遗传算法对卷积神经网络模型中结构和参数进行优化的改进BP神经网络,通过找到较优的卷积神经网络隐含层数、隐含层节点之间的初始权值及阈值来优化卷积神经网络算法。该方法在一定程度上优化了卷积神经网络,但是该方法引入遗传算法实则增加了卷积神经网络的训练时长,并没有真正缩短卷积神经网络的训练时长。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种引入冰冻权值理论和熵权值数据处理方法改进传统BP卷积神经网络的方法,同时该方法能有效提升网络运输效率,减少训练时间,保证卷积神经网络具有较强的鲁棒性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于冰冻权值改进卷积神经网络的方法,包括以下步骤:
步骤101,预处理图像,得到多个批次训练图像数据;
步骤102,构建卷积神经网络,并对卷积神经网络中的隐含层节点权值量进行初始化赋值;
步骤103,输入一个批次的训练图像数据通过前向传导算法对卷积神经网络进行计算,得到卷积神经网络中每个隐含层节点的激活权值,根据所述激活权值计算每个隐含层节点的权值差值;
步骤104,基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值,基于隐含层节点的评价值对所述隐含层节点进行筛选,冻结评价值在评价值阈值以下的隐含层节点以维持其权值量为当前权值量,并传递未被冻结的隐含层节点;
步骤105,通过反向传导算法更新传递来的未被冻结的隐含层节点的权值量,得到未被冻结隐含层节点更新后的权值量,以获取到当前每个隐含层节点的权值量;
步骤106,根据当前的每个隐含层节点权值量进行误差判断,若误差不在第一预设范围内,则重复步骤103~105,直到误差在第一预设范围内停止本批次训练;
步骤107,换用多个批次训练图像数据对卷积神经网络进行训练,以使网络的误差指标在第二预设范围内。
进一步的,所述改进卷积神经网络的方法,所述预处理图像为归一化处理从手写体数据识别库中获取到的一定数量的图像数据,将所有图像数据大小缩放至统一尺度。
进一步的,所述改进卷积神经网络的方法中,所述卷积神经网络包含一个输入层,至少两个卷积层和至少两个采样层,一个输出层,其中输出层合并全连接层。
进一步的,所述改进卷积神经网络的方法中,所述权值差值为所得隐含层节点的激活权值与隐含层节点当前权值量的差的绝对值。
进一步的,所述改进卷积神经网络的方法中,步骤104中所述基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值的这一步具体包括:
根据隐含层节点个数和其权重差值,建立数据矩阵;归一化处理该数据矩阵,得到归一化矩阵;根据归一化矩阵,计算隐含层节点权值差值的熵;根据所得隐含层节点的熵计算差异系数;根据所得差异系数计算隐含层节点的熵权值;根据求得的熵权值计算隐含层节点的评价值。
进一步的,所述数据矩阵为:
其中,m为隐含层节点个数,n为隐含层节点权值差值。
进一步的,所述改进卷积神经网络的方法中,所述当前每个隐含层节点的权值量包括被冻结的隐含层节点的初始权值量与未被冻结隐含层节点更新后的权值量。
进一步的,所述误差判断公式为:
其中,E(w,v)为卷积神经网络当前的误差值,其中k是模式的数量,C是隐含层节点的数量,tpi是隐含层节点p的输出目标值,spi是隐含层节点p在卷积神经网络的实际输出值。
进一步的,所述改进卷积神经网络的方法,步骤107包括,将多个批次的训练图像数据分别输入到卷积神经网络中,重复步骤103-步骤106,执行多批次训练图像数据对网络的训练。
优选的,一种基于冰冻权值改进卷积神经网络的装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
与现有技术相比,本发明的有益效果:
1、优化了卷积神经网络的结构,合并了卷积神经网络中的全连接层与输出层,提高卷积神经网络运算效率。
2、引入冰冻权值理论,改进了原有的BP卷积神经网络模型。在BP卷积神经网络的每批次训练过程中,冰冻与输出结果相关程度差的隐含层节点,在后续的反向传导中不再更新被冰冻的隐含层节点的权值,从而改善卷积神经网络训练过程的复杂度,提升网络训练效率,简化每次反向传导更新隐含层节点权值的运算过程,以此降低网络训练时长。
3、引入了熵权值数据处理方法筛选出每批次训练中所需要冰冻的目标节点,利用每批次训练中的节点权值差值之间的熵权值作为评估参照,为原有相对模糊的冰冻理论中节点的选取提出了更好的解决手段。
4、实验结果表明,本发明改进的卷积神经网络不仅可以有效降低网络中训练过程的复杂度,缩短网络训练时长,还能避免网络训练中陷入步长问题和训练时间过长问题。
附图说明:
图1是根据本发明示例性实施例的卷积神经网络改进方法的流程图;
图2是LeNet-5卷积神经网络结构图;
图3是根据本发明示例性实施例的基于LeNet-5优化后的卷积神经网络结构图;
图4是根据本发明示例性实施例的熵权值法的流程图;
图5是根据本发明示例性实施例的卷积神经网络改进方法装置。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
一种基于冰冻权值改进卷积神经网络的方法,包括以下步骤:
步骤101,预处理图像,得到多个批次训练图像数据;
具体的,首先从MNIST手写体数据识别库中获取70000张图像数据,其中训练图像数据60000张,测试图像数据10000张。对所有图像数据(包括训练图像数据和测试图像数据)进行归一化的处理,将所有图像数据处理为28×28像素点的输入矩阵,将每批次训练图像数据样本大小设置为50,从而得到1200个训练批次的训练图像数据。
步骤102,构建卷积神经网络,并对卷积神经网络中的隐含层节点权值量进行初始化赋值;
具体的,在本实例中我们基于文字识别***LeNet-5构建卷积神经网络,并优化LeNet-5的网络结构,合并该网络的全连接层与输出层,以降低卷积神经网络运算复杂度。如图2所示,基础的LeNet-5网络架构由1个输入层、3个卷积层、2个池化层、1个全连接层和1个输出层构成,本发明中优化后的卷积神经网络如图3所示,包含1个输入层,2个卷积层,2个采样层(也可称作池化层), 1个输出层,其顺序为:输入层后依次连接第一卷积层、第一池化层、第二卷积层、第二池化层、输出层(输出层合并了全连接层)。
进一步的,本实例中构建的卷积神经网络的输入层依据测试图数据像和训练图像数据所设计,将输入层中隐含层节点个数设置为50,同时每个隐含层节点处理图像中的一个数据点,因而输入层的结构为28×28×50。在输入层后面的第一卷积层中有6个5×5的卷积核,从输入层传来的图像数据经过第一卷积层处理为为24×24的数据矩阵,并在每一个卷积核之后加入一个偏置。在第二卷积层中有6个1×12的卷积核,将图像处理为12个8×8的图像,同样加入12个偏置。
第一采样层和第二采样层的设计将会匹配前一个卷积层的架构,第一个采样层中,设置采样窗口为6个12×12的大小,偏置为0。第二个采样层设置窗口为12个4×4的大小,同样偏置为0。每个采样层都是针对前一个卷积层的数据结构,将卷积的结果在每一个维度都缩小一倍。最后的一个输出层同样为全连接层。
本实例中,我们在所述卷积神经网络的第一卷积层设置150个隐含层节点,在第二卷积层设置1800个隐含层节点。接着我们对卷积神经网络中所有隐含层节点的权值量进行初始化赋值,所述所有隐含层节点为卷积神经网络中输入层、卷积层、池化层、输出层(含全连接层)中所有的隐含层节点。这里的赋值是在确定范围内(一般为0-100)对所有隐含层节点进行随机赋值。此外,输入层、输出层中所有的隐含层节点的设置都在初始化赋值后不变,而池化层中的隐含层节点不是本算法训练的目标,因此,在本实例中,只有卷积层中的1950个隐含层节点会被本发明的改进算法训练。
步骤103,输入一个批次的训练图像数据通过前向传导算法对卷积神经网络进行计算,得到所述隐含层节点的激活权值,根据所述激活权值计算隐含层节点的权值差值信息;
具体的,将一个批次的训练图像数据(50张)输入所述卷积神经网络中,根据BP卷积神经网络中的前向传导训练方法对所述卷积神经网络进行计算,可以得到在本次计算中每个隐含层节点的激活权值(即激活该隐含层节点,使该隐含层节点得到最佳工作状态所需要的权值量)。接着用所求得的每个隐含层节点的激活权值与每个隐含层节点的初始权值量做减法,得到的差的绝对值即为该隐含层节点的权值差值信息(也就是常规定义中的残差)
传统的BP卷积神经网络的原理是:给定一个卷积神经网络,将一个批次训练图像数据输入卷积神经网络后,首先进行的是“前向传导”计算,根据前向传导计算方法运算出卷积神经网络中每个隐含层节点从卷积神经网络中的第二层 (第一层为输入层)到输出层的激活值,接着针对每一个隐含层节点i,计算其残差δi (l),该残差表明了每一个隐含层节点对网络最终输出产生了多少贡献。此时隐含层节点的残差信息从输出层进行反向传递,接着通过“反向传导更新算法”更新所有隐含层节点的权值量。在不同批次的训练中,所有隐含层节点的权值量会不断被更新,网络的输出结果会更趋近于我们所需要的结果,网络的稳定性和准确度也会随之相应增加,但与此同时,算法的相关复杂度和训练时长也会显著的提升。
大量研究结果表明,在对传统BP卷积神经网络进行训练的过程中,卷积神经网络的所有隐含层节点中一部分隐含层节点其实对一个批次训练图像数据其实并不敏感,即这部分隐含层节点在网络的前向传导训练中计算出来的残差值较小,相应的其对网络输出的影响也就较小。也就意味着随着训练时间的增加,这部分隐含层节点权值变化不大。因此如果在完成前向传导算法计算后直接利用反向传导算法进行隐含层节点的权值更新,这部分残差值较小的隐含层节点继续被更新的意义不大。继续对这部分隐含层节点进行更新实则是在做无用功,从而导致算法的相关复杂度和训练时长有明显的增长。
本发明即是在此基础上对传统BP卷积神经网络做出的改进,在网络经过前向传导训练计算出每个隐含层节点的残差后,进一步的,根据香农信息熵的理论思想,我们可以通过计算每个隐含层节点的残差的熵来对其进行评价,来决定是否对该节点进行后续的反向传导更新权值过程,在评价指标***指标权重时,熵是一个很理想的尺度。即基于熵权值法确定一个评价标准,以此评价标准将这部分继续更新无意义的隐含层节点筛选出来并进行冻结(即这部分节点不再进行权值量的更新),这样一来,只需对未被冻结的节点进行后续的反向传导计算更新其权值,大大降低了网络的运算复杂度,节省大量的网络训练时间。
步骤104,基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值,基于隐含层节点的评价值对所述隐含层节点进行筛选,冻结评价值在评价值阈值以下的隐含层节点以维持其权值量为当前权值量,并传递未被冻结的隐含层节点;
具体的,基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值的这一步具体包括:
首先建立一个指标评价体系,设其中有n个评价指标(隐含层节点的n个权值差值),m个被评价对象(隐含层节点个数),被评价对象的相应指标的原始数据矩阵,如下:
接着我们需要对原始数据矩阵进行归一化处理,记为矩阵S=(sij)m*n
对S进行归一化处理,记为
这样得到的所有S值将在[0,1]区间内。
此时第j个权值差值的熵为
其中,
第j个权值差值的差异系数为:
αj=1-Hj(j=1,2,···,n)
第j个权值差值的熵权值为:
在这样的熵权值的设定下,我们可以得出一个判断标准,当所求得的隐含层节点的熵越大时,则其熵权值就会越小,其对本批次的训练过程贡献也会相应减小。当所得熵值的最大值为1,熵权值为0的时候,可以认为该隐含层节点没有为本次训练提供任何有效的贡献。
如图4所示,可以将具体的熵权值分析法总结如下,
步骤401,根据隐含层节点个数和其权重差值,建立数据矩阵;
步骤402,归一化处理该数据矩阵,得到归一化矩阵;
步骤403,根据归一化矩阵,计算隐含层节点权值差值的熵;
步骤404,根据所得隐含层节点的熵计算差异系数;
步骤405,根据所得差异系数计算隐含层藏节点的熵权值;
步骤406,根据求得的熵权值用如下公式计算隐含层节点的评价值。
由此求出所有隐含层节点的评价值,X的值越小,则该节点对权重更新的贡献就越小。接着对每个隐含层节点的评价值进行分析,将隐含层节点评价值最小的百分之二十的隐含层节点筛选出来进行冻结,所述评价值阈值即为百分之二十这个分界点处的评价值,同时每批次训练中,评价值阈值会发生改变,一般为 0-0.05中的一个数。冻结熵权值在熵权值阈值以下的隐含层节点以维持其权值量为初始权值量,即在后续的算法中不再更新这部分被冻结的隐含层节点的权值量,这部分隐含层节点的权值量将维持在其初始权值量。同时从卷积神经网络的输出层向其前面的隐含层(是对输出层前面的卷积层和池化层的统称)反向传递未被冻结的隐含层节点。
步骤105,通过反向传导算法更新传递来的未被冻结的隐含层节点的权值量,得到未被冻结隐含层节点更新后的权值量,以获取到当前每个隐含层节点的权值量;
具体的,对未被冻结的隐含层节点利用反向传导公式,更新其权值量,此时已经冻结的隐含层节点保持其当前权值量,再加上未被冻结的隐含层节点更新后的权值量,即是当前每个隐含层节点的权值量。
步骤106,根据当前的每个隐含层节点权值量进行误差判断,若误差不在第一预设范围内,则重复步骤103~105,直到误差在第一预设范围内停止本批次训练;
具体的,根据当前的每个隐含层节点的权值量由以下公式计算当前次训练的网络误差E(w):
其中k是模式的数量,C是隐含层节点的数量,tpi是隐含层节点p的输出目标值。Spi是隐含层节点p在卷积神经网络的实际输出值。
其中,h是网络中的隐含层节点数,xi是一个n维输入模式,i=1,2,...,k, vm是连接第m个隐含层节点和输出层的弧的权重的C维向量。输出层的激活函数为sigmoid函数σ(y)=1/(1+e-y),隐含层的激活函数为双曲正切函数:
δ(y)=(ey-e-y)/(ey+e-y)
此时,若求得的误差值在第一预设范围(一般为0~0.05)之内,即此时隐含层节点p的输出目标值tpi与隐含层节点p在卷积神经网络的实际输出值Spi之间几乎没有偏差,说明本批次训练目标得以顺利完成,可结束本批次训练(步骤 103-步骤105为本批次训练的整体过程)。反之,若求得的误差值不在可接受范围之内,则本批次训练目标未达成,则重复步骤103-步骤105,即重新将本批次训练图像数据输入进卷积神经网络中,对卷积神经网络中的隐含层节点进行前向计算训练,基于熵权值法冻结部分隐含层节点,反向更新未被冻结隐含层节点的权值量,直到根据所有隐含层节点的权值量所求得的误差值在第一预设范围内结束本批次训练。
步骤107,换用多个批次训练数据对卷积神经网络进行训练,以使网络的误差指标在第二预设范围内。
具体的,在一个批次的训练结束后,输入第2、第3、第4…第120次的训练图像数据重复步骤103-步骤106,完成剩余批次训练图像数据的训练,以使以使网络的误差指标在第二预设范围内。本实例中的每一个图像数据都是从 MNIST手写体数据识别库中获取的一张手写数字的图像,由于不同人的字迹不同,所以如何通过卷积神经网络识别出字迹习惯差别较大的相同数字是我们需要解决的问题,即通过训练网络对,要能使网络对其进行正确识别。因此我们利用训练图像数据(60000张)对网络进行训练使网络性能趋于稳定后,利用测试图像数据(10000张)对网络进行性能测试,以得出测试结果(即网络能否正确识别字迹习惯差别较大的相同数字),通过测试结果求出网络的失误率。此时的第二预设误差范围即是对网络整体运行结果的失误率的一个限定,一般要求网络失误率在百分之十五以内。
进一步的,我们将原有BP卷积神经网络和改进BP卷积神经网络运行结果 (包括训练时间和失误率)进行比较,得到如表1所示的比较结果。
表1
从上述的图表中可以看出,通过本发明改进的BP卷积神经网络,平均每次训练时间可以减少25秒,大幅度缩短了卷积神经网络训练时长。同时本发明改进的BP卷积神经网络虽然误差率上有所提高(失误率提高2%左右,在可接受范围内)但总体上训练时间减少了13.9%。因此改进的卷积神经网络在牺牲部分可接受准确度的情况下,大幅度提升了网络的运算速度,使网络训练复杂度达到了预期的降低5%以上的目的。其次本发明改进的卷积神经网络能够工作正常,网络没有陷入死循环或者错误率过高,说明本发明有效避免了传统BP卷积神经网络中容易出现的步长和局部极小等问题,具有较强的鲁棒性。
实施例2
图5示出了根据本发明实施例的改进卷积神经网络的装置,即电子设备310 (例如具备程序执行功能的计算机服务器),其包括至少一个处理器311,电源 314,以及与所述至少一个处理器311通信连接的存储器312和输入输出接口313;所述存储器312存储有可被所述至少一个处理器311执行的指令,所述指令被所述至少一个处理器311执行,以使所述至少一个处理器311能够执行前述任一实施例所公开的方法;所述输入输出接口313可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源314用于为电子设备310提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、 ROM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于冰冻权值改进卷积神经网络的方法,其特征在于,包括以下步骤:
步骤101,预处理图像,得到多个批次训练图像数据;
步骤102,构建卷积神经网络,并对卷积神经网络中的隐含层节点权值量进行初始化赋值;
步骤103,输入一个批次的训练图像数据通过前向传导算法对卷积神经网络进行计算,得到卷积神经网络中每个隐含层节点的激活权值,根据所述激活权值计算每个隐含层节点的权值差值;
步骤104,基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值,基于隐含层节点的评价值对所述隐含层节点进行筛选,冻结评价值在评价值阈值以下的隐含层节点以维持其权值量为当前权值量,并传递未被冻结的隐含层节点;
步骤105,通过反向传导算法更新传递来的未被冻结的隐含层节点的权值量,得到未被冻结隐含层节点更新后的权值量,以获取到当前每个隐含层节点的权值量;
步骤106,根据当前的每个隐含层节点权值量进行误差判断,若误差不在第一预设范围内,则重复步骤103~105,直到误差在第一预设范围内停止本批次训练;
步骤107,换用多个批次训练图像数据对卷积神经网络进行训练,以使网络的误差指标在第二预设范围内。
2.如权利要求1所述的方法,其特征在于,所述预处理图像为归一化处理从手写体数据识别库中获取到的一定数量的图像数据,将所有图像数据大小缩放至统一尺度。
3.如权利要求1所述的方法,其特征在于,所述卷积神经网络包含一个输入层,至少两个卷积层和至少两个采样层,一个输出层,其中输出层合并全连接层。
4.如权利要求1所述的方法,其特征在于,所述权值差值为所得隐含层节点的激活权值与隐含层节点当前权值量的差的绝对值。
5.如权利要求1所述的方法,其特征在于,步骤104中所述基于熵权值法分析所述权值差值,以获取每个隐含层节点的熵权值,并以此确定隐含层节点的评价值的这一步具体包括:
根据隐含层节点个数和其权重差值,建立数据矩阵;归一化处理该数据矩阵,得到归一化矩阵;根据归一化矩阵,计算隐含层节点权值差值的熵;根据所得隐含层节点的熵计算差异系数;根据所得差异系数计算隐含层节点的熵权值;根据求得的熵权值计算隐含层节点的评价值。
6.如权利要求4所述的方法,其特征在于,所述数据矩阵为:
其中,m为隐含层节点个数,n为隐含层节点权值差值。
7.如权利要求1所述的方法,其特征在于,所述当前每个隐含层节点的权值量包括被冻结的隐含层节点的初始权值量与未被冻结隐含层节点更新后的权值量。
8.如权利要求1所述的方法,其特征在于,所述误差判断公式为:
其中,E(w,v)为卷积神经网络当前的误差值,其中k是模式的数量,C是隐含层节点的数量,tpi是隐含层节点p的输出目标值,spi是隐含层节点p在卷积神经网络的实际输出值。
9.如权利要求1所述的方法,其特征在于,步骤107包括,将多个批次的训练图像数据分别输入到卷积神经网络中,重复步骤103-步骤106,执行多批次训练图像数据对网络的训练。
10.一种基于冰冻权值改进卷积神经网络的装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。
CN201811044605.5A 2018-09-07 2018-09-07 一种基于冰冻权值改进卷积神经网络的方法及装置 Active CN109146000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811044605.5A CN109146000B (zh) 2018-09-07 2018-09-07 一种基于冰冻权值改进卷积神经网络的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811044605.5A CN109146000B (zh) 2018-09-07 2018-09-07 一种基于冰冻权值改进卷积神经网络的方法及装置

Publications (2)

Publication Number Publication Date
CN109146000A true CN109146000A (zh) 2019-01-04
CN109146000B CN109146000B (zh) 2022-03-08

Family

ID=64823890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811044605.5A Active CN109146000B (zh) 2018-09-07 2018-09-07 一种基于冰冻权值改进卷积神经网络的方法及装置

Country Status (1)

Country Link
CN (1) CN109146000B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263925A (zh) * 2019-06-04 2019-09-20 电子科技大学 一种基于fpga的卷积神经网络前向预测的硬件加速实现架构
CN111222465A (zh) * 2019-11-07 2020-06-02 深圳云天励飞技术有限公司 基于卷积神经网络的图像分析方法及相关设备
CN111624964A (zh) * 2020-05-27 2020-09-04 甬矽电子(宁波)股份有限公司 权限动态管控方法、装置、服务端和可读存储介质
TWI731511B (zh) * 2019-12-12 2021-06-21 國立中興大學 指/掌靜脈辨識處理及其神經網路訓練方法
CN116989510A (zh) * 2023-09-28 2023-11-03 广州冰泉制冷设备有限责任公司 一种结霜检测与热气融霜相结合的智能化制冷方法
CN118133929A (zh) * 2024-05-06 2024-06-04 浙江大学 一种基于节点冻结加速神经网络训练的方法及装置
CN118133929B (zh) * 2024-05-06 2024-08-02 浙江大学 一种基于节点冻结加速神经网络训练的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845051A (en) * 1995-09-15 1998-12-01 Electronics And Telecommunications Research Institute Learning method for multilayer perceptron neural network with N-bit data representation
US20130061114A1 (en) * 2011-09-02 2013-03-07 Samsung Electronics Co., Ltd. Freezing-based ldpc decoder and method
CN105654729A (zh) * 2016-03-28 2016-06-08 南京邮电大学 一种基于卷积神经网络的短时交通流量预测方法
US20170109243A1 (en) * 2015-10-16 2017-04-20 Business Objects Software, Ltd. Model-Based System and Method for Undoing Actions in an Application
CN107194376A (zh) * 2017-06-21 2017-09-22 北京市威富安防科技有限公司 面具造假卷积神经网络训练方法及人脸活体检测方法
CN107301396A (zh) * 2017-06-21 2017-10-27 北京市威富安防科技有限公司 视频造假卷积神经网络训练方法及人脸活体检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845051A (en) * 1995-09-15 1998-12-01 Electronics And Telecommunications Research Institute Learning method for multilayer perceptron neural network with N-bit data representation
US20130061114A1 (en) * 2011-09-02 2013-03-07 Samsung Electronics Co., Ltd. Freezing-based ldpc decoder and method
US20170109243A1 (en) * 2015-10-16 2017-04-20 Business Objects Software, Ltd. Model-Based System and Method for Undoing Actions in an Application
CN105654729A (zh) * 2016-03-28 2016-06-08 南京邮电大学 一种基于卷积神经网络的短时交通流量预测方法
CN107194376A (zh) * 2017-06-21 2017-09-22 北京市威富安防科技有限公司 面具造假卷积神经网络训练方法及人脸活体检测方法
CN107301396A (zh) * 2017-06-21 2017-10-27 北京市威富安防科技有限公司 视频造假卷积神经网络训练方法及人脸活体检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HINTON G E等: "Improving neural networks by preventing co-adaptation of feature detectors", 《COMPUTER SCIENCE》 *
RUI ZHANG等: "Extreme Learning Machine with Adaptive Growth of Hidden Nodes and Incremental Updating of Output Weights", 《AIS 2011: AUTONOMOUS AND INTELLIGENT SYSTEMS》 *
高大文等: "人工神经网络中隐含层节点与训练次数的优化", 《哈尔滨工业大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263925A (zh) * 2019-06-04 2019-09-20 电子科技大学 一种基于fpga的卷积神经网络前向预测的硬件加速实现架构
CN110263925B (zh) * 2019-06-04 2022-03-15 电子科技大学 一种基于fpga的卷积神经网络前向预测的硬件加速实现装置
CN111222465A (zh) * 2019-11-07 2020-06-02 深圳云天励飞技术有限公司 基于卷积神经网络的图像分析方法及相关设备
TWI731511B (zh) * 2019-12-12 2021-06-21 國立中興大學 指/掌靜脈辨識處理及其神經網路訓練方法
CN111624964A (zh) * 2020-05-27 2020-09-04 甬矽电子(宁波)股份有限公司 权限动态管控方法、装置、服务端和可读存储介质
CN116989510A (zh) * 2023-09-28 2023-11-03 广州冰泉制冷设备有限责任公司 一种结霜检测与热气融霜相结合的智能化制冷方法
CN118133929A (zh) * 2024-05-06 2024-06-04 浙江大学 一种基于节点冻结加速神经网络训练的方法及装置
CN118133929B (zh) * 2024-05-06 2024-08-02 浙江大学 一种基于节点冻结加速神经网络训练的方法及装置

Also Published As

Publication number Publication date
CN109146000B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN109146000A (zh) 一种基于冰冻权值改进卷积神经网络的方法及装置
Chen et al. Dynamical channel pruning by conditional accuracy change for deep neural networks
Cui et al. Efficient human motion prediction using temporal convolutional generative adversarial network
CN112613581B (zh) 一种图像识别方法、***、计算机设备和存储介质
Liu et al. CNN-FCM: System modeling promotes stability of deep learning in time series prediction
CN109299237A (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
CN110383299A (zh) 记忆增强的生成时间模型
CN105550749A (zh) 一种新型网络拓扑结构的卷积神经网络的构造方法
Maliar et al. Will artificial intelligence replace computational economists any time soon?
CN108596327A (zh) 一种基于深度学习的地震速度谱人工智能拾取方法
US11538178B2 (en) Machine learning-based 2D structured image generation
CN113343901A (zh) 基于多尺度注意力图卷积网络的人体行为识别方法
CN111199216A (zh) 面向人体骨架的运动预测方法及***
CN110033089A (zh) 基于分布式估计算法的深度神经网络参数优化方法及***
CN104766051B (zh) 基于结构化的特征图的人体行为识别方法
CN112529149A (zh) 一种数据处理方法及相关装置
de Prado et al. Automated design space exploration for optimized deployment of dnn on arm cortex-a cpus
US11568621B2 (en) Dynamic character model fitting of three-dimensional digital items
Jaiswal et al. Deep neural network compression via knowledge distillation for embedded applications
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN110288002A (zh) 一种基于稀疏正交神经网络的图像分类方法
CN113111308B (zh) 基于数据驱动遗传编程算法的符号回归方法及***
CN114863508A (zh) 自适应注意力机制的表情识别模型生成方法、介质及设备
Zheng et al. Group-teaching: Learning robust CNNs from extremely noisy labels
CN116720007B (zh) 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant