CN111967528B - 基于稀疏编码的深度学习网络结构搜索的图像识别方法 - Google Patents
基于稀疏编码的深度学习网络结构搜索的图像识别方法 Download PDFInfo
- Publication number
- CN111967528B CN111967528B CN202010876709.3A CN202010876709A CN111967528B CN 111967528 B CN111967528 B CN 111967528B CN 202010876709 A CN202010876709 A CN 202010876709A CN 111967528 B CN111967528 B CN 111967528B
- Authority
- CN
- China
- Prior art keywords
- network
- search
- dimensional space
- network model
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 230000006835 compression Effects 0.000 claims abstract 2
- 238000007906 compression Methods 0.000 claims abstract 2
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000013434 data augmentation Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000013461 design Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于稀疏编码的深度学习网络结构搜索的图像识别方法,将基于梯度的可微分网络模型结构进行优化,构造用于在原始高维空间经压缩后映射的低维空间上进行结构搜索的网络模型,再通过稀疏编码技术使得压缩后的低维空间的解对应于原始空间的稀疏解,搜索时优化的网络模型结构即为重训练时的结构,应用于搜索‑重训练两阶段图像识别以及搜索‑重训练合并一阶段图像识别。本发明在搜索阶段的网络即具有稀疏性,在搜索训练阶段最终收敛的结构即为最终搜到的结构,网络结构搜索更加高效合理,使得图像识别的性能优异。
Description
技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及深度学习网络结构搜索方法,具体涉及一种基于稀疏编码的深度学习网络结构搜索的图像识别方法。
背景技术
随着深度学习显著地提高了各个任务的性能,包括语音识别、图像识别、机器翻译等,这项技术被越来越广泛地应用于各个领域,成为机器学习、人工智能中十分重要的一项内容。相比传统方法,深度学习技术是一种可训练的特征学习方法。它通过构造一个深度网络,包含多个线性映射和非线性映射,引入该网络所需的所有参数,并设计损失函数,然后用基于梯度下降的优化方法对各个参数进行寻优训练,直到网络收敛,该模型即可完成相关的任务。由于包含了足够多的非线性层,深度学习可以学习非常复杂的函数关系。
尽管深度学习技术相比传统方法带来了很大的性能提升,但是深度网络的网络结构是一个很重要的环节。只有网络结构具有合理的设计,才能带来较好的性能,不同结构之间在性能上可能具有很大的差异。如果结构设计的不合理,可能会带来更差的性能、参数和计算量上的浪费。图像识别领域最早的网络结构是LeNet,该网络的规模较小,层数和通道数都比较少,应用在手写数字识别上。在2012年,AlexNet的提出,使得ImageNet数据集上的识别准确率相比以前有了质的提高。随后,网络结构朝着更深、更宽的方向发展,比如VGGNet,GoogLeNet,Inception等,这些网络结构通过增多分支,增大深度,从而具有更多的参数量,提高特征学习能力,在ImageNet数据集上逐渐取得了更优的性能。但此时,研究者发现简单的增加网络深度、宽度不能无限度的提高网络性能,并且会使得网络出现梯度消失等问题,使得模型难以训练,进而取得更差的效果。随后,Highway Network和ResidualNetwork(ResNet)提出引入跳连路径,很好的解决了梯度消失问题,从而能够训练非常深的网络,进一步提高性能。例如ResNet可以训练1000多层的网络,如果去掉跳连路径,就难以训练,无法达到相应的性能。后续DenseNet提出密连接,也可以取得相似的效果。
通过VGGNet,GoogLeNet,ResNet这些网络可以看出,网络结构对模型训练和最终性能有着很大的影响,一些操作,例如跳连路径,具有很大的帮助,而不恰当的设计可能会造成参数、计算量上的冗余。但是这些网络结构都是通过手工设计的,主要依赖于研究者的发现的经验规律和实验上的大量尝试。首先研究者的经验不一定是完全准确的,所作出的设计可能会和最优的性能代价权衡相差很大的距离;其次手工设计网络结构需要做大量的实验进行尝试,从而调整一些细节和超参数上的设计,这需要大量的计算资源和时间消耗。因此,最近研究者们更加希望能利用自动搜索的方法来搜出一个较好的网络结构,从而避免人为的设计。
最早研究者将确定网络结构的过程看做是在离散空间做决策的过程,所以通过增强学习和进化算法来处理。但是这些方法都需要大量的计算资源,才能完成搜索。基于梯度的可微分的网络结构搜索进来受到了更多的关注。这类方法引入可训练的结构参数,把这些参数当做权重作用在各个备选连接上。这样网络中各个连接自身的参数和这些结构变量一起训练。一般在训练集上对连接参数进行优化,在验证集上对结构变量进行优化。训练完毕时,将结构变量看做是各个连接的重要性,通过剪枝,保留重要的连接,来确定搜索出的网络结构。这种方式虽然便于操作,相比增强学习、进化算法具有很大的计算优势,可以在可接受的时间内完成搜索。但是这种方式也存在较大的问题。首先搜索时的网络是包含所有备选连接的,这样会使搜索阶段的网络训练很低效,造成较大的搜索代价;其次,搜索阶段的网络需要按照优化好的结构变量作为重要性进行剪枝来确定搜到的结构,搜索阶段优化的网络是各个连接都包含的结构,而给出搜到的结构是剪枝后的子结构,它们之间具有较低的相关性。尽管结构变量是优化完毕的,但是对子结构进行剪枝后,得到相应的结构不能保证依然具有优越性。其关键原因在于搜索阶段未能考虑目标结构具有稀疏性这一约束条件,造成搜索阶段的结构和剪枝后的子结构之间相关性较低,不能保证搜出的结构较优。所以,基于梯度的可微分的网络结构搜索,需要更加高效和一致的设计,从而在图像识别应用上达到更好的性能。
发明内容
为了克服上述现有技术的缺陷,本发明提供一种基于稀疏编码的深度学习网络结构搜索的图像识别方法。相比现有技术,本发明中的方法在搜索阶段的网络即具有稀疏性,使得搜索效率得到很大提高;本发明中的方法在搜索训练阶段最终收敛的结构即为最终搜到的结构,不需要任何后处理过程生成子结构,使得搜索阶段的用来训练的网络和最终确定的结构之间具有较高的一致性,保证搜到的结构具有优势,在图像识别任务上达到更优的性能。本发明使网络结构搜索更加的高效合理,将搜到的结构应用在图像识别任务上能够取得优异的性能。
本发明在现有的基于梯度的可微分的网络结构搜索的图像识别方案上,将结构变量映射到低维空间上,在低维空间上构建一个等价网络,和原始空间的解保持相同的前馈传播,这样可以在低维空间中进行搜索,再通过稀疏编码技术,将低维空间中的解恢复为原始空间的解。由于原始空间的解具有稀疏性,所以在搜索阶段可以只保留在支撑集内的连接,从而很大的提高搜索效率,并且不需要后处理来得到最终的稀疏结构,提高搜索和重训练之间的一致性。
本发明提供的技术方案是:
一种基于稀疏编码的深度学习网络结构搜索的图像识别方法,将基于梯度的可微分网络模型结构进行优化,构造用于在原始空间经压缩后映射的低维空间上进行结构搜索的网络模型,再通过稀疏编码技术使得压缩后的低维空间的解对应于原始空间的稀疏解,搜索时优化的网络模型结构即为重训练时的结构,应用于搜索-重训练两阶段图像识别以及搜索-重训练合并一阶段图像识别;
本发明将已有的基于梯度的可微分网络模型结构搜索应用到一个映射后的低维空间上进行搜索,再通过稀疏编码技术,使得压缩后的低维空间的解与原始空间的稀疏解得到对应。整个搜索过程高效,且搜索时优化的网络模型结构即为重训练时的网络模型结构,提高两者之间的一致性,从而可以得到更好的结构应用在图像识别任务上,进而取得更优的性能。本发明同时支持搜索、重训练分为两个阶段进行的图像识别方法,以及搜索、重训练合并为一个过程的一阶段图像识别方法;
本发明方法用于搜索、重训练分为两个阶段的两阶段图像识别,包括如下步骤:
1)将全部用于训练的图像数据集分为训练集和验证集两部分;
2)对图像数据集进行预处理;采用常用的方法进行图像标准化和图像数据增广;可采用减均值除以标准差的方式进行标准化,采用对图像每个边增加4个0值像素,再对原始图像或者其翻转进行随机剪裁;得到尺寸为32×32的图像,每张图像是通道数为3的彩色图像;在深度网络中,每张图像由一个32×32×3的数组来表示;
3)将基于梯度的可微分网络模型结构进行优化,构造用于结构搜索的网络模型;具体包含如下步骤:
31)用投影矩阵将原始高维空间的变量映射到压缩后的低维空间,即bj=Ajzj,其中j表示每个全连接图(cell)中的第j个中间结点,zj是原始高维空间的稀疏变量,包括非零的维度和为零的维度;其中非零的维度表示保留相应连接,为零的维度表示去掉相应的连接,Aj是投影矩阵将高维的zj压缩为低维的bj;bj为压缩后的空间的变量;
32)构造低维空间上等价的网络模型N:
其中,W是该网络模型中的所有操作中需要训练的参数,Z是所有变量zj组成的集合,B是所有变量bj组成的集合,xj表示全连接图中第j个中间结点的张量,oj表示输出到第j个中间结点的各个操作形成的向量;Aj TAj-Ej=I,这样当投影矩阵Aj满足有限等距性质(restricted isometry property,RIP)条件,且假设通过稀疏编码恢复到高维空间的解是精确的稀疏度为s的解,此时原始空间的最优解为当且仅当/>是压缩后的空间的最优解,Aj是投影矩阵。这样即可在压缩后的空间进行优化,再通过稀疏编码恢复高维空间的稀疏解,根据其支撑集(值为非0的维度组成的集合),得到相应的网络结构。
33)构造用于搜索的网络模型,由多个全连接图堆叠而成,每个全连接图包含各个可行的连接,全连接图中每两个节点之间包含多个可选操作,可采用3x3可分卷积层,5x5可分卷积层,3x3空洞卷积层,5x5空洞卷积层,3x3平均池化层,3x3最大池化层,同等连接层(跳跃连接);
34)构造如下优化的网络模型:
其中,λ为一个超参数,是一个标量值,用于平衡目标函数中两项的重要性,n是全连接图的中间结点的个数,W是该网络模型中的所有操作中需要训练的参数,B是所有变量bj组成的集合,z是原始高维空间的变量,b是压缩后空间的变量,A是投影矩阵。该模型中现有方法中的稀疏性的约束被隐式的包含在目标函数中,稀疏性的约束通过稀疏编码求解时得到满足;
4)初始化用于搜索的网络模型,包括各个连接中的参数,以及用来优化的变量bj,初始化投影矩阵Aj;
5)对用于搜索的网络模型进行训练,包括如下几个步骤:
51)通过稀疏编码,将各个变量bj恢复到高维空间得到zj,保留zj值最大的两个维度,得到其支撑集S;根据支撑集中包含的维度所对应的各个路径,前馈该网络并计算损失函数,然后反馈传播并更新各个参数;
52)按如下方式前馈用于搜索的网络模型:
其中表示支撑集/>中的元素、行或列,A是投影矩阵,并且Aj TAj-Ej=I,o是各个操作形成的向量,z是原始高维空间的变量,b是压缩后空间的变量。
53)在训练集上进行前馈,得到损失函数值,通过随机梯度下降(stochasitcgradient descent,SGD)优化器,优化相应连接中的参数;
54)在验证集上进行前馈,得到损失函数值,通过适应性动量估计(adaptivemoment estimation,Adam)优化器,对变量bj进行优化;
55)返回步骤51)进行迭代,直到迭代完毕,网络收敛;
6)将最终支撑集中包含的路径,作为最终的搜索到的结构,无需其他的剪枝等后处理操作;利用搜索好的结构,通过堆叠多层该结构,形成用于重训练的网络;重训练一般采取相比搜索阶段更多的迭代次数,更深的网络层数,更多的通道数,保证最终得到较优的识别能力;例如,可以采用600个迭代次数,网络层数为20,初始通道数为36;在训练集上进行重训练,采用随机梯度下降优化器,对网络各个参数进行更新;训练完毕后,将该网络在测试集上进行推理,得到测试集上的图像识别准确率,即完成图像识别。
本发明方法用于搜索、重训练合并为一个过程的一阶段图像识别,包括如下步骤:
1)在所有用于训练的数据上进行搜索,不再分离出验证集;
2)对数据集进行预处理,同两阶段方法的步骤2);
3)构造用于训练的网络,同两阶段方法的步骤3);不同的是在两阶段方法的步骤33)中各个可选操作最后都附加一个批归一化层,网络的深度和宽度按照两阶段方法中重训练时需要的深度和宽度来设置;
4)初始化该网络,同两阶段方法的步骤4);将各个附加的批归一化层中的权重初始化为1,偏置初始化为0;并在初始时冻结这些批归一化层,不参与训练;初始化停止搜索的阈值;
5)对该网络进行训练,包含如下几个步骤:
51)同两阶段方法的步骤51);
52)计算新的原始空间稀疏变量zj和上一次的该变量之间的L2距离;若该值小于停止搜索的阈值,则停止对变量bj的优化,并将相应的各个备选操作中附加的批归一化层中的权重和偏置设置为可训练;
53)按照两阶段方法的步骤52),在训练集上前馈该网络,得到相应的损失函数值;
54)用SGD优化器对各个连接中的权重参数进行更新;
55)若在步骤52)中已经停止了对变量bj的更新,则跳过该步骤;若未停止,则用Adam优化器,对bj进行更新;
56)返回步骤51)进行迭代,直到迭代完毕,网络收敛;
6)将备选操作附加的批归一化层的权重、偏置和这些操作相应的系数通过逐元素相乘,得到更新后的权重、偏置:
其中,A是投影矩阵,并且Aj TAj-Ej=I,°为逐元素相乘操作,γ,β分别为训练结束时这些批归一化层的权重和偏置,为和这些操作相应的系数做逐元素相乘后的权重和偏置,储存在模型参数中;这样通过一个训练过程,即给出需要搜索的网络结构,及其需要优化的所有参数,完成图像识别任务;和两阶段的方法不同,不需要单独重训练这一步骤。
本发明的有益效果是:
本发明在原始高维空间压缩后的空间上进行基于梯度的可微分的网络结构搜索,搜索过程和在原始高维空间进行搜索保持等价,并且可以利用原始空间高维变量的稀疏性,使得每次迭代的前馈反馈都是支撑集中的连接,相比于现有方法把所以连接都前馈反馈的做法,极大的提高了对结构的搜索效率;并且搜索结束后根据最终的支撑集即可确定最终的搜到的结构;现有的基于搜索网络结构的图像识别方法通过后处理进行剪枝,而我们的方法提高了结构搜索时需要优化的网络结构和最终确定的网络结构之间的一致性。
本发明支持两阶段和一阶段的搜索;两阶段的方法分为搜索和重训练两个阶段;一阶段的方法通过一个过程完成网络结构的搜索和其参数的优化,直接完成图像识别任务;一阶段的方法的运行时间相比二阶段需要的总运行时间会稍长,但是优化时采用的是重训练网络模型时需要的网络模型深度和宽度,可以减少网络模型深度、宽度这些因素造成的网络结构不一致性,保持结构搜索时优化的结构和最终确定的结构之间完全一致,从而可以达到更优的性能,提高图像识别精度和效率。
附图说明
图1是本发明中深度学习网路结构搜索进行图像识别的方法流程框图;其中,本发明的两阶段方法将网络结构搜索和重训练两个步骤分为两个阶段进行,本发明的一阶段方法将网络结构搜索和重训练两个步骤合为一个阶段进行;
图2是本发明中深度学习网络结构搜索过程的框图;
其中,Ω(z)和Ω(b)分别表示原始高维空间和压缩后的空间,W是该网络模型中的所有操作中需要训练的参数,A是投影矩阵,并且Aj TAj-Ej=I,o是各个操作形成的向量,z是原始高维空间的变量,b是压缩后空间的变量,表示根据z的非零维度得到的支撑集;本发明中的方法用压缩后的变量b构造操作的系数,在前馈时只传播支撑集中的相关连接,在反馈时分别对支撑集中相关连接的参数和结构变量b进行更新。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
图1是本发明用于图像识别的流程框图;其中本发明的两阶段方法将网络结构搜索和重训练两个步骤分为两个阶段进行,本发明的一阶段方法将网络结构搜索和重训练两个步骤合为一个阶段进行;
本发明提供一种基于稀疏编码的深度学习网络结构搜索的图像识别方法,用于高效地进行图像识别任务,可在图像识别任务上搜索合适的网络结构并取得较好的性能;图2是本发明中深度学习网络结构搜索过程的框图;其中,Ω(z)和Ω(b)分别表示原始高维空间和压缩后的空间,W是该网络模型中的所有操作中需要训练的参数,A是投影矩阵,并且Aj TAj-Ej=I,o是各个操作形成的向量,z是原始高维空间的变量,b是压缩后空间的变量,S表示根据z的非零维度得到的支撑集;如图2所示,本发明中的方法用压缩后的变量b构造操作的系数,在前馈时只传播支撑集中的相关连接,在反馈时分别对支撑集中相关连接的参数和结构变量b进行更新。
本实施例在CIFAR-10数据集上进行图像识别。实施采用本发明两阶段的方法包括如下步骤:
步骤1:将CIFAR-10数据集用于训练的50000张图片分为训练集25000张和验证集25000张;重训练时在50000全部训练数据上进行;测试集10000张不参与训练;这些图像大小为32x32,可以分为10个类别;
步骤2:对训练样本进行标准化和数据增广;计算该数据及的均值和标准差,将图像减去均值,除以标准差以标准化;在图片每个边上增加4个值为0的像素,然后对原始图像或其水平翻转进行随机剪裁32x32的区域,作为网络的输入;
步骤3:构造用于搜索的网络,由8个全连接图堆叠而成,2个下采样全连接图,6个标准全连接图;初始的通道数为16;每个全连接图包含6个节点,具体包含2个输入节点分别为前两个全连接图的输出,4个中间节点;每个全连接图的输出为所有中间节点的级联;每两个节点之间包含多个可选操作,可采用3x3可分卷积,5x5可分卷积,3x3空洞卷积,5x5空洞卷积,3x3平均池化,3x3最大池化,同等连接;
步骤4:按照发明内容中的二阶段方法进行搜索阶段的训练,共50轮训练,批数据量设置为256;随机梯度下降优化器采用0.9的动量,3e-4的权重衰减系数,以及0.2的初始学习率,按照余弦的方式逐渐衰减到0;适应性动量估计的优化器采用学习率为6e-4,(0.5,0.999)的动量,以及1e-3的权重衰减系数。采用MOSEK软件可以高效的通过ISTA算法求解稀疏编码问题;
步骤5;按照发明内容中的二阶段方法进行重训练阶段的训练,重训练阶段的网络由20个全连接图堆叠而成,包含18个标准全连接图,2个下采样全连接图;初始通道数为36;训练600轮迭代,批数据量设置为96;采用随机梯度下降优化器进行训练,初始学习率为0.025,按照余弦方式衰减到0,动量为0.9,权重衰减系数为3e-4;重训练后,在测试集上进行推理,得到该图像识别方法的准确率;
实施采用本发明一阶段的方法包括如下步骤:
步骤1:在CIFAR-10数据集的全部50000张训练图像上进行一阶段的训练;测试集10000张不参与训练;
步骤2:对训练样本进行标准化和数据增广,计算该数据集的均值和标准差,将图像减去均值,除以标准差以标准化;在图片每个边上增加4个值为0的像素,然后对原始图像或其水平翻转进行随机剪裁32x32的区域,作为网络的输入;
步骤3:构造一阶段方法的网络,由20个全连接图堆叠而成,包含18个标准全连接图,2个下采样全连接图,初始通道数为36;每个全连接图包含6个节点,具体包含2个输入节点分别为前两个全连接图的输出,4个中间节点;每个全连接图的输出为所有中间节点的级联;每两个节点之间包含多个可选操作,可采用3x3可分卷积,5x5可分卷积,3x3空洞卷积,5x5空洞卷积,3x3平均池化,3x3最大池化,同等连接;
步骤4:按照本发明内容中的一阶段方法进行训练,批数据量为96;随机梯度下降优化器的初始学习率为0.025,按照余弦的方式逐渐衰减,动量为0.9,权重衰减系数为3e-4;适应性动量估计优化器采用学习率为6e-4,动量为(0.5,0.999),权重衰减系数为1e-3;稀疏编码通过MOSEK软件调用ISTA算法求解;当停止搜索条件满足时,即相邻两次迭代原始空间稀疏变量zj的L2距离小于阈值时,停止对bj优化,此时结构不再改变,仅对结构内的各个连接的参数进行600轮迭代的优化;
步骤5:训练完成后,按照发明内容的方法,将各个操作的稀疏融合进批归一化层的权重和偏置中;此时需要搜索的网络结构及其需要优化的参数均已确定,图像识别任务已完成;在测试集上进行推理,得到该图像识别方法的准确率。
表1-3中给出实施的结果,包括两阶段(two-stage ISTA-NAS),一阶段(one-stageISTA-NAS)方法和现有方法之间的对比;
表1:DARTS,PC-DARTS以及本发明方法的在不同batchsize下显存和搜索时长的对比
方法 | Batchsize | 显存(G) | 搜索时长(GPU-day) |
DARTS(1st order) | 64 | 9.1 | 0.70 |
PC-DARTS | 256 | 11.6 | 0.14 |
Two-stage ISTA | 64 | 1.9 | 0.15 |
Two-stage ISTA | 356 | 5.5 | 0.05 |
Two-stage ISTA | 512 | 10.5 | 0.03 |
表2:DARTS,PC-DARTS以及本发明方法的Kendall指标比较
方法 | Kendall指标 |
DARTS(1st order) | -0.36 |
PC-DARTS | -0.21 |
Two-stage ISTA-NAS | 0.43 |
One-stage ISTA-NAS | 0.57 |
表2中,指标值越大,表明搜索阶段时优化的网络和最终确定的网络之间一致性越好。
表3:DARTS,PC-DARTS以及本发明方法的搜索结果比较
表3中,误差率为搜到的结构在CIFAR-10数据集测试集上的图像识别表现;本发明提出的基于稀疏编码的深度学习网络结构搜索的图像识别方法具有更好的识别准确率,并且搜索代价较低。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (5)
1.一种基于稀疏编码的深度学习网络结构搜索的图像识别方法,将基于梯度的可微分网络模型结构进行优化,构造用于在原始高维空间经压缩后映射的低维空间上进行结构搜索的网络模型,再通过稀疏编码技术使得压缩后的低维空间的解对应于原始空间的稀疏解,搜索时优化的网络模型结构即为重训练时的结构,不需要任何后处理过程生成子结构;所述基于稀疏编码的深度学习网络结构搜索的图像识别方法可应用于搜索-重训练两阶段图像识别以及搜索-重训练合并一阶段图像识别;
搜索-重训练两阶段图像识别包括如下步骤:
1)将全部用于训练的图像数据集分为训练集和验证集两部分;
2)对图像数据集进行预处理,包括进行图像标准化和图像数据增广;
3)将基于梯度的可微分网络模型结构进行优化,构造用于结构搜索的网络模型;具体包含如下步骤:
31)用投影矩阵将原始高维空间的变量映射到压缩后的低维空间,即
bj=Ajzj
其中,j表示每个全连接图中的第j个中间结点,zj是原始高维空间的稀疏变量,包括非零的维度和为零的维度;其中非零的维度表示保留相应连接,为零的维度表示去掉相应的连接;Aj是投影矩阵,将高维的zj压缩为低维的bj;bj为压缩后的低维空间的变量;
32)构造低维空间上等价的网络模型表示为:
其中,W是该网络模型中的所有操作中需要训练的参数,Z是所有变量zj组成的集合,B是所有变量bj组成的集合,xj表示全连接图中第j个中间结点的张量,oj表示输出到第j个中间结点的各个操作形成的向量;Aj TAj-Ej=I;
33)原始高维空间的最优解为z*,当且仅当b*=Az*是压缩后的低维空间的最优解,A是投影矩阵;即在压缩后的低维空间进行优化,再通过稀疏编码恢复高维空间的稀疏解,根据支撑集得到相应的网络结构;
构造用于搜索的网络模型,由多个全连接图堆叠而成,每个全连接图中任意两个节点之间包含多个可选操作,包括:可分卷积层、空洞卷积层、平均池化层、最大池化层、同等连接层;
34)构造如下优化网络模型,优化网络模型中将稀疏性的约束隐式包含在目标函数中,稀疏性的约束通过稀疏编码求解得到满足:
其中,λ为超参数,是一个标量值;n是全连接图的中间结点的个数;W是网络模型所有操作中需要训练的参数;B是所有变量bj组成的集合;z是原始高维空间的变量;b是压缩后低维空间的变量;A是投影矩阵;
4)初始化用于搜索的网络模型,包括各个连接中的参数、用来优化的变量bj、初始化投影矩阵Aj;
5)对用于搜索的网络模型进行训练,包括如下步骤:
51)通过稀疏编码,将各个变量bj恢复到高维空间得到zj,保留zj值最大的两个维度,得到其支撑集
52)按如下方式前馈用于搜索的网络模型:
其中,表示支撑集/>中的元素、行或列;A是投影矩阵,且Aj TAj-Ej=I;o是各个操作形成的向量;z是原始高维空间的变量;b是压缩后低维空间的变量;
53)在训练集上进行前馈,得到损失函数值,通过随机梯度下降优化器,优化相应连接中的参数;
54)在验证集上进行前馈,得到损失函数值,通过适应性动量估计优化器,对变量bj进行优化;
55)返回步骤51),进行迭代,直到迭代完毕,网络收敛,得到最终的搜索好的结构;
6)将最终支撑集中包含的路径作为最终的搜索好的结构,无需其他后处理操作;
利用搜索好的结构,通过堆叠多层该结构,构建用于重训练的网络模型;在训练集上进行重训练,采用随机梯度下降优化器,对网络各个参数进行更新;训练完毕后,将该网络在测试集上进行推理,得到测试集上的图像识别准确率,即完成图像识别;
搜索-重训练合并一阶段图像识别包括如下步骤:
A1)在所有用于训练的数据上进行搜索;
A2)对数据集进行预处理,包括进行图像标准化和图像数据增广;
A3)构造用于训练的网络,构造方法与步骤3)的方法不同的是在步骤33)中的各个可选操作最后都附加一个批归一化层;
A4)初始化步骤A3)构造的网络,方法采用步骤4);再将各个附加的批归一化层中的权重初始化为1,偏置初始化为0;并在初始时冻结批归一化层,不参与训练;初始化停止搜索的阈值;
A5)对网络进行训练,包含如下步骤:
A51)通过稀疏编码,将各个变量bj恢复到高维空间得到zj,保留zj值最大的两个维度,得到其支撑集
A52)计算新的原始空间稀疏变量zj和上一次的该变量之间的L2距离;若L2距离小于停止搜索的阈值,则停止对变量bj的优化,并将相应的各个备选操作中附加的批归一化层中的权重和偏置设置为可训练;
A53)按照步骤52)的方法,在训练集上前馈该网络,得到相应的损失函数值;
A54)用随机梯度下降优化器对各个连接中的权重参数进行更新;
A55)若在步骤A52)中未停止对变量bj的更新,则用Adam优化器对bj进行更新;
A56)返回步骤A51)进行迭代,直到迭代完毕,网络收敛;
A6)将备选操作附加的批归一化层的权重、偏置和操作相应的系数进行逐元素相乘:
其中,A是投影矩阵,并且Aj TAj-Ej=I;为逐元素相乘操作,γ,β分别为训练结束时批归一化层的权重和偏置;/>为与操作相应的系数相结合后的权重和偏置,储存在模型参数中;
步骤A1)~A6)通过一个训练过程,不需要单独重训练步骤,即得到需要搜索的网络结构及其需要优化的所有参数,完成搜索-重训练合并一阶段的图像识别。
2.如权利要求1所述基于稀疏编码的深度学习网络结构搜索的图像识别方法,其特征是,步骤2)和步骤A2)对图像数据集进行预处理,具体采用减均值除以标准差的方式进行标准化,采用对图像每个边增加4个0值像素,再对原始图像或者其翻转进行随机剪裁;得到尺寸为32×32的图像,每张图像是通道数为3的彩色图像;在深度网络模型中,每张图像由一个32×32×3的数组来表示。
3.如权利要求1所述基于稀疏编码的深度学***均池化层,3x3最大池化层,同等连接层。
4.如权利要求1所述基于稀疏编码的深度学习网络结构搜索的图像识别方法,其特征是,步骤6)利用搜索好的结构,通过堆叠多层该结构,形成用于重训练的网络模型,在相应数据集上进行重训练。
5.如权利要求4所述基于稀疏编码的深度学习网络结构搜索的图像识别方法,其特征是,重训练的网络模型有更深的网络层数,更多的通道数,采取更多的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010876709.3A CN111967528B (zh) | 2020-08-27 | 2020-08-27 | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010876709.3A CN111967528B (zh) | 2020-08-27 | 2020-08-27 | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967528A CN111967528A (zh) | 2020-11-20 |
CN111967528B true CN111967528B (zh) | 2023-12-26 |
Family
ID=73399780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010876709.3A Active CN111967528B (zh) | 2020-08-27 | 2020-08-27 | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967528B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313175B (zh) * | 2021-05-28 | 2024-02-27 | 北京大学 | 基于多元激活函数的稀疏正则化神经网络的图像分类方法 |
CN117115046B (zh) * | 2023-10-24 | 2024-02-09 | 中日友好医院(中日友好临床医学研究所) | 一种放疗cbct稀疏采样影像增强的方法、***及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227851A (zh) * | 2016-07-29 | 2016-12-14 | 汤平 | 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法 |
CN107871136A (zh) * | 2017-03-22 | 2018-04-03 | 中山大学 | 基于稀疏性随机池化的卷积神经网络的图像识别方法 |
CN109255381A (zh) * | 2018-09-06 | 2019-01-22 | 华南理工大学 | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 |
CN109344898A (zh) * | 2018-09-30 | 2019-02-15 | 北京工业大学 | 基于稀疏编码预训练的卷积神经网络图像分类方法 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
-
2020
- 2020-08-27 CN CN202010876709.3A patent/CN111967528B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227851A (zh) * | 2016-07-29 | 2016-12-14 | 汤平 | 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法 |
CN107871136A (zh) * | 2017-03-22 | 2018-04-03 | 中山大学 | 基于稀疏性随机池化的卷积神经网络的图像识别方法 |
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN109255381A (zh) * | 2018-09-06 | 2019-01-22 | 华南理工大学 | 一种基于二阶vlad稀疏自适应深度网络的图像分类方法 |
CN109344898A (zh) * | 2018-09-30 | 2019-02-15 | 北京工业大学 | 基于稀疏编码预训练的卷积神经网络图像分类方法 |
Non-Patent Citations (2)
Title |
---|
基于深度学习实现维吾尔族青少年左手腕关节骨龄自动化评估;胡婷鸿;火忠;刘太昂;王飞;万雷;汪茂文;陈腾;王亚辉;;法医学杂志(第01期);34-39 * |
基于稀疏深度置信网络的图像分类识别研究;刘梦溪;王征;宋久旭;巨永锋;武晓朦;;微电子学与计算机(第09期);65-69 * |
Also Published As
Publication number | Publication date |
---|---|
CN111967528A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948029B (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
US10929744B2 (en) | Fixed-point training method for deep neural networks based on dynamic fixed-point conversion scheme | |
US10762426B2 (en) | Multi-iteration compression for deep neural networks | |
CN107689224B (zh) | 合理使用掩码的深度神经网络压缩方法 | |
US20190050734A1 (en) | Compression method of deep neural networks | |
CN111461322B (zh) | 一种深度神经网络模型压缩方法 | |
US20180046914A1 (en) | Compression method for deep neural networks with load balance | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN111967528B (zh) | 基于稀疏编码的深度学习网络结构搜索的图像识别方法 | |
CN108985457B (zh) | 一种受优化算法启发的深度神经网络结构设计方法 | |
CN110135460B (zh) | 基于vlad卷积模块的图像信息强化方法 | |
CN109741364B (zh) | 目标跟踪方法及装置 | |
CN114610897A (zh) | 基于图注意力机制的医学知识图谱关系预测方法 | |
Peng et al. | Towards sparsification of graph neural networks | |
Singh et al. | Acceleration of deep convolutional neural networks using adaptive filter pruning | |
CN111476346A (zh) | 一种基于牛顿共轭梯度法的深度学习网络架构 | |
CN113469891A (zh) | 一种神经网络架构搜索方法、训练方法、图像补全方法 | |
CN111353534B (zh) | 一种基于自适应分数阶梯度的图数据类别预测方法 | |
CN111242285A (zh) | 一种深度学习模型的训练方法、***、装置及存储介质 | |
Massaroli et al. | Port–hamiltonian approach to neural network training | |
Yang et al. | Skeleton neural networks via low-rank guided filter pruning | |
CN114140641A (zh) | 面向图像分类的多参数自适应异构并行计算方法 | |
CN111461229A (zh) | 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法 | |
CN116303386A (zh) | 一种基于关系图谱的缺失数据智能插补方法和*** | |
CN113590748B (zh) | 基于迭代网络组合的情感分类持续学习方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |