CN106485324A

CN106485324A - 一种卷积神经网络优化方法

Info

Publication number: CN106485324A
Application number: CN201610881810.1A
Authority: CN
Inventors: 李宏亮; 陈啸宇; 黄超
Original assignee: Chengdu Quick Eye Technology Co Ltd
Current assignee: Chengdu Quick Eye Technology Co Ltd
Priority date: 2016-10-09
Filing date: 2016-10-09
Publication date: 2017-03-08

Abstract

本发明公开了一种卷积神经网络优化方法，在卷积神经网络训练过程中，通过选出效果较差的滤波器组和效果较好的滤波器组，通过把较差滤波器组中的部分系数用较好滤波器组中的部分系数进行替换，从而实现卷积层滤波器之间的参数更新，用修改之后的网络进行训练，训练一定次数后，对比修改后和修改前的网络产生的误差大小，判断先前实现的滤波器参数更新是否有效，从两个网络中进行选择，保留性能好的网络用于后面的训练，通过不断地重复这个过程，最终可以训练出一个性能优异的网络，该网络的特征提取能力比传统的网络要有所提升。

Description

一种卷积神经网络优化方法

技术领域

本发明涉及卷积神经网络研究领域，具体地，涉及一种卷积神经网络优化方法。

背景技术

深度学习是人工智能领域的一个研究热点。近几年，深度学习在机器视觉领域取得了突破性进展。在多种深度学习方法中，卷积神经网络的研究成果最为突出。自Alex等人凭借卷积神经网络在2012年的ILSVRC图像识别竞赛中以明显的性能优势超越传统方法获得第一名以来，卷积神经网络在机器视觉领域掀起了研究热潮。工业界也投入大量资金，将卷积神经网络相关的研究成果应用于机器视觉和人工智能相关的产品中。卷积神经网络对机器视觉领域相关的学术研究和工业应用产生了深远的影响。

卷积神经网络由多个交替的卷积层(convolutional layer)、池化层(poolinglayer)，以及最后的全连接层(fully connected layer)组成。卷积神经网络通过反向传播方法(Back Propagation,BP)将网络损失传递到网络的所有层，参数更新学***移、缩放、旋转等)具有一定程度的鲁棒性。由于其强大的数据特征提取能力和非线性学习能力，卷积神经网络在性能上超越了大多数传统的机器视觉算法。目前在图像分类、目标识别等领研究和应用领域，卷积神经网络已经成为主流方法。

卷积层的滤波器是卷积神经网络的核心部件之一，这些滤波器负责从输入中提取特征，滤波器的特性可以通过学习算法从数据中自动得到。浅层卷积层的滤波器用来提取图像的细节信息(边缘、颜色等)，深层卷积层的滤波器用来提取图像的语义信息(目标类别，目标位置等)。滤波器的特性决定了卷积神经网络提取到的输入特征，而这些特征最终会影响到卷积神经网络的工作性能。虽然卷积神经网络可以通过自主地从输入数据中学习数据特性来更新滤波器，不过这些滤波器中有一定数量的滤波器提取出来的信息是冗余的，此外还有一些滤波器会提取出不正确或不期望得到的特征。以上这些因素会干扰后面网络层的工作，进而影响到卷积神经网络的性能表现。传统的网络优化方法只能通过逐层传递误差值来更新滤波器的参数，这些优化方法对于解决刚才提到的滤波器特性具有的问题则无能为力，因而网络的性能无法得到进一步提升。

综上所述，发明人在实现本申请所阐述的发明技术方案的过程中，发现上述技术至少存在如下技术问题：

在现有技术中，现有的卷积神经网络存在性能无法进一步提升的技术问题。

发明内容

本发明提供了一种卷积神经网络优化方法，解决了现有的卷积神经网络存在性能无法进一步提升的技术问题，实现了对卷积神经网络进行了优化，提升了卷积神经网络性能的技术效果。

为解决上述技术问题，本申请提供了一种卷积神经网络优化方法，所述方法包括：

步骤1：构建卷积神经网络，并在卷积神经网络的末端添加用于计算损失函数的损失层；

步骤2：构建数据集，数据集包括：训练集、测试集，并设定卷积神经网络参数；

步骤3：开始训练卷积神经网络，当训练次数达到预设次数后，暂停训练，把当前的卷积神经网络作为第一卷积神经网络进行存储；

步骤4：将卷积神经网络损失层计算得到的损失传递到预设卷积层，然后计算每个滤波器对卷积神经网络损失的贡献度；

步骤5：将滤波器对卷积神经网络损失的贡献度，按照从小到大的顺序进行排序，基于排序结果，选取出特征提取效果最优的滤波器和特征提取效果最差的滤波器；

步骤6：分别从步骤5中选取的每个滤波器中随机选取出滤波器系数，然后进行滤波器系数更新；

步骤7：修改卷积神经网络每一层的学习率缩放因子，对修改之后的卷积神经网络进行训练，训练过程进行预设次数后暂停，然后然后存储修改之后的网络为第二卷积神经网络，并分别获得第一卷积神经网络和第二卷积神经网络的损失；

步骤8：通过损失比较第一卷积神经网络和第二卷积神经网络的性能，选择出较优的卷积神经网络。

进一步的，所述构建卷积神经网络具体包括：

构建卷积神经网络，将卷积层、池化层和全连接层按照一定的次序进行连接，并设置参数，具体参数如下：

卷积层：滤波器大小为[w_f,h_f]，滤波器移动步长为s_f，滤波器个数为n_f，滤波器初始化取值为H_init，滤波器系数学习率缩放因子为k_f；

池化层：池化区域大小为[w_p,h_p]，池化区域移动步长为s_p；

全连接层：输出值个数为n_c，连接参数学习率缩放因子为k_c，连接参数初始化值为W_init。

进一步的，损失函数选择softmaxloss，具体计算公式为：

其中，N为计算损失时所用的样本个数，K为数据类别个数，y⁽ⁿ⁾为第n个样本的预测类别(标签)；1{y⁽ⁿ⁾＝k}表示当第n个样本的预测结果为第k个类别时，取值为1，否则为0；为网络输出经softmax函数处理之后的取值，的计算公式为：

其中，为网络处理第n个样本时，针对第k个类别的输出值。

进一步的，设定卷积神经网络参数具体包括：卷积神经网络的学习率α、卷积神经网络最大训练次数n_max，计算损失时需要使用的数据个数N，以及需要进行滤波器优化的卷积层编号l_c。

进一步的，将卷积神经网络损失层计算得到的损失，通过反向传播方法传递到第l_c个卷积层，然后计算每个滤波器对网络损失的贡献度，第i个滤波器的贡献度计算公式为：

其中，|δ_ab|为第i个滤波器中位于第a行、第b列的滤波器系数的绝对值，X和Y分别为滤波器的行数和列数，其中，反向传播方法为BP算法，具体过程是：根据卷积神经网络中每个神经元之间的连接关系和连接权重，仿照卷积神经网络输出的计算方法，把卷积神经网络的损失在不同网络层的神经元之间进行加权求和，最终得到每个神经元连接权重的计算误差，然后利用神经元连接已有的权重值和计算误差，通过梯度下降法对权重值进行更新。

进一步的，对滤波器系数进行更新的具体操作是：将特征提取效果最差的滤波器中选出的系数替换为特征提取效果最优的滤波器中选出的系数。

进一步的，滤波器系数更新后修改卷积神经网络每一层的学习率缩放因子，具体包括：降低第l_c层以及l_c层前面所有网络层的k_f，增大第l_c层后面所有网络层的k_f。降低第l_c层以及l_c层前面网络层的k_f，可以防止第l_c层所包含的滤波器系数更新结果在后续的训练过程中被完全替换掉。增大第l_c层后面网络层的k_f可以使第l_c层后面网络层的系数对第l_c层的滤波器系数更新结果有快速的响应，这有助于网络的加速收敛。

进一步的，通过损失比较第一卷积神经网络和第二卷积神经网络的性能，具体包括：

若第一卷积神经网络的损失大于第二卷积神经网络的损失，则用第二卷积神经网络替换第一卷积神经网络，并且更新卷积神经网络训练次数为存储第二卷积神经网络时卷积神经网络的训练次数；

若第一卷积神经网络的损失小于第二卷积神经网络的损失，则保留若第一卷积神经网络，并且更新卷积神经网络训练次数为存储第一卷积神经网络时网络的训练次数。

进一步的，所述方法还包括步骤9：

若卷积神经网络训练总次数达到了最大次数，则停止训练，将步骤8选择出的积神经网络作为最终的输出；若卷积神经网络训练总次数没有达到了最大次数，则使用步骤8比较之后保留下来的卷积神经网络进行进一步训练，训练步骤从步骤3开始。

进一步的，所述数据集还包括验证集。本发明中数据集的目的是给卷积神经网络的训练过程提供必要信息，使得卷积神经网络能够通过学习获取数据中潜在的有价值的内容。数据集分为训练集、测试集和验证集三部分。其中，训练集用于训练卷积神经网络；验证集用来对训练中的卷积神经网络进行性能评测；测试集用来对训练完成的卷积神经网络进行性能评测。

本发明的关键点是在优化卷积神经网络时引入了遗传算法的思想，在使用传统随机梯度下降算法(SGD)更新网络参数的同时，对于卷积层的滤波器系数，首先将滤波器按照对网络分类误差的影响程度进行排序，并将滤波器分为对网络误差影响较大的滤波器和对网络误差影响较小的滤波器两类。然后从这两类滤波器中分别随机地挑选一部分系数，用第一类滤波器的系数替换第二类滤波器的系数。接下来让滤波器修改前的网络和滤波器修改后的网络同时训练一定的次数，通过比较两个网络的损失决定保留哪一个网络，并将该网络用于后面的训练过程。

由于本方法针对卷积神经网络的训练过程，而训练过程是其他基于卷积神经网络的算法和应用中不可缺少的部分，因此本方法可以用于任何其他基于卷积神经网络的算法或产品当中。本发明所阐述的基于遗传算法的卷积神经网络优化方法是一种新颖的优化方法，其他的卷积神经网络优化方法无法针对某一个卷积层进行进一步单独的优化更新，因此本方法具有不可替代性。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

在卷积神经网络训练过程中，首先通过选出效果较差的滤波器组(对网络误差影响较大)和效果较好的滤波器组(对网络误差影响较小)，然后通过把较差滤波器组中的部分系数用较好滤波器组中的部分系数进行替换，从而实现卷积层滤波器之间的参数更新；接下来，用修改之后的网络进行训练，训练一定次数后，对比修改后和修改前的网络产生的误差大小，判断先前步骤实现的滤波器参数更新是否有效，从两个网络中进行选择，保留性能好的网络用于后面的训练；通过不断地重复这个过程，最终可以训练出一个性能优异的网络，该网络的特征提取能力比传统的网络要有所提升，所以，本发明阐述的解决方案能够有效地解决现有的卷积神经网络存在性能无法进一步提升的技术问题，进而实现了对卷积神经网络进行了优化，提升了卷积神经网络性能的技术效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中卷积神经网络优化方法的流程示意图；

图2是本申请中滤波器贡献度计算方法示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1，本发明提出一种基于遗传算法的卷积神经网络优化算法，该算法主要解决卷积神经网络中滤波器系数的更新问题，通过将遗传算法的思想用于滤波器系数的更新提升卷积神经网络的特征提取能力，提升网络性能。

本发明的目的可以通过以下的技术方案来实现：(为叙述简便，后文中将“卷积神经网络”简称为“网络”)

一种基于遗传算法的卷积神经网络优化方法，该算法在CPU和GPU上均可运行。方法的主要步骤包括：

第1步：构建一个卷积神经网络，将卷积层、池化层和全连接层按照一定的次序进行连接，并设置参数，具体参数如下：

卷积层：滤波器大小[w_f,h_f]，滤波器移动步长s_f，滤波器个数n_f，滤波器初始化取值H_init，滤波器系数学习率缩放因子k_f。

池化层：池化区域大小[w_p,h_p]，池化区域移动步长s_p，池化方法(区域最大值max-pooling、区域平均值average-pooling，二选一)。

全连接层：输出值个数n_c，连接参数学习率缩放因子k_c，连接参数初始化值W_init。以上参数的取值均不为0。

第2步：在卷积神经网络的末端添加损失层(loss layer)，用来计算损失函数。损失函数选择softmaxloss，具体计算公式为：

其中，N为计算损失时所用的样本个数，K为数据类别个数，y⁽ⁿ⁾为第n个样本的预测类别(标签)。1{y⁽ⁿ⁾＝k}表示当第n个样本的预测结果为第k个类别时，取值为1，否则为0。为网络输出经softmax函数处理之后的取值，的计算公式为：

其中，为网络处理第n个样本时，针对第k个类别的输出值。

第3步：构建具有K个类别的数据集，并将数据集区分为训练集、验证集和测试集。可以根据需要省略验证集的构建，但训练集和测试集必须要构建。

第4步：设定网络的学习率α、最大训练次数n_max，计算损失时需要使用的数据个数N，以及需要进行滤波器优化的卷积层编号l_c。

第5步：开始训练网络。训练网络达到n次后，暂停训练。

第6步：把当前网络进行存储，记存储之后的网络为N_net。存储后的网络会用于第13步的网络对比过程。

第7步：把网络损失层计算得到的损失通过反向传播方法(Backpropagation,BP)传递到第l_c个卷积层，然后计算每个滤波器对网络损失的贡献度。第i个滤波器的贡献度计算公式为：

其中，|δ_ab|为第i个滤波器中位于第a行、第b列的滤波器系数的绝对值，X和Y分别为滤波器的行数和列数。C_i越大，说明第i个滤波器产生的误差对整个网络性能的影响越大，第i个滤波器的重要性越低。贡献度的计算图示可以参考附图2，滤波器贡献度计算方法示意图(以3×3大小的滤波器为例)，图2中的δ代表网络误差在每个滤波器系数上的具体分配值。

第8步：对第l_c个卷积层滤波器的贡献度按照从小到大的顺序进行排序，并从中选出多个特征提取效果最好和特征提取效果最差的滤波器。被选出的滤波器个数不宜过多，否则滤波器更新后会有大量的滤波器具有相同的系数，这会对网络优化造成不利影响。此外，选取出来的效果最差的滤波器个数要偏多一些，这样可以保证后续网络训练过程中，效果最差的滤波器对网络性能的影响尽可能低。因此，选取最前面1％～2％的滤波器作为特征提取效果最优的滤波器，记为选取最后面8％～10％的滤波器作为特征提取效果最差的滤波器，记为

第9步：更新滤波器系数：对于和首先分别从每个滤波器中随机选取1％～2％的滤波器系数，然后将中挑选出来的系数替换为中挑选出来的系数。在这里，挑选1％～2％的系数进行更新，能够减轻系数变更对网络性能的影响，使得网络的优化过程更加平稳。

第10步：修改网络每一层的学习率缩放因子k_f，具体做法是：降低第l_c层以及前面网络层的k_f，增大第l_c层后面网络层的k_f。

第11步：对修改之后的网络进行训练，训练过程进行m次后暂停，然后存储修改之后的网络，记为

第12步：获得N_net和两个网络的损失，分别记为L_net和

第13步：通过损失比较网络N_net和的性能。

如果那么滤波器优化后的网络性能比优化前的网络性能好，这样就用优化后的网络替换优化前的网络N_net，并且更新网络训练次数为存储时网络的训练次数。

如果那么滤波器优化后的网络性能比优化前的网络性能差，这样就丢弃优化后的网络保留优化前的网络N_net，并且更新网络训练次数为存储N_net时网络的训练次数。

第14步：如果网络训练总次数达到了最大次数n_max，那么停止训练，将第13步得到的网络作为最终的输出。否则使用13步对比之后保留下来的网络进行进一步训练，训练步骤从第5步开始。

这里以卷积神经网络相关应用中最常用的AlexNet网络结构为例，说明本方法的有效性。方法验证过程中，使用常用的UIUC-Sports数据集对网络进行训练。AlexNet的网络设置如下：

网络学习率α＝0.0001，最大迭代次数n_max＝300，计算损失所用数据个数N＝256，待优化的卷积层编号为l_c＝3。

网络每经过50次训练进行一次卷积层内部滤波器更新过程。每次将滤波器贡献度按照从小到大的顺序排序，选取前2％作为性能较好的滤波器，选取后10％作为性能较差的滤波器，然后从这些滤波器中分别随机选取1％的系数值进行更新。

对修改后的网络进行训练时，第l_c卷积层和之前的网络层的学习率缩放因子减半，第l_c卷积层之后的网络层的学习率缩放因子扩大10倍。

经过本发明提出的方法训练之后的网络性能，比使用传统优化方法训练的网络性能要高出4％～5％。这样的结果证明了本发明的有效性。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

在卷积神经网络训练过程中，首先通过选出效果较差的滤波器组(对网络误差影响较大)和效果较好的滤波器组(对网络误差影响较小)，然后通过把较差滤波器组中的部分系数用较好滤波器组中的部分系数进行替换，从而实现卷积层滤波器之间的参数更新；接下来，用修改之后的网络进行训练，训练一定次数后，对比修改后和修改前的网络产生的误差大小，判断先前步骤实现的滤波器参数更新是否有效，从两个网络中进行选择，保留性能好的网络用于后面的训练；通过不断地重复这个过程，最终可以训练出一个性能优异的网络，该网络的特征提取能力比传统的网络要有所提升，本发明阐述的解决方案能够有效地现有的卷积神经网络存在性能无法进一步提升的技术问题，进而实现了对卷积神经网络进行了优化，提升了卷积神经网络性能的技术效果。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种卷积神经网络优化方法，其特征在于，所述方法包括：

步骤6：分别从步骤5中选取的每个滤波器中随机选取出滤波器系数，然后对滤波器系数进行更新；

步骤7：修改卷积神经网络每一层的学习率缩放因子，对修改之后的卷积神经网络进行训练，训练过程进行预设次数后暂停，然后存储修改之后的网络为第二卷积神经网络，并分别获得第一卷积神经网络和第二卷积神经网络的损失；

2.根据权利要求1所述的卷积神经网络优化方法，其特征在于，所述构建卷积神经网络具体包括：

池化层：池化区域大小为[w_p,h_p]，池化区域移动步长为s_p；

3.根据权利要求1所述的卷积神经网络优化方法，其特征在于，损失函数选择softmaxloss，具体计算公式为：

E = \frac{- 1}{N} [Σ_{n = 1}^{N} Σ_{k = 1}^{K} 1 {y^{(n)} = k} \cdot p_{k}^{(n)}] - - - (1)

p_{k}^{(n)} = \frac{\exp (x_{k}^{(n)})}{Σ_{k = 0}^{K} \exp (x_{k}^{(n)})} - - - (2)

其中，为网络处理第n个样本时，针对第k个类别的输出值。

4.根据权利要求1所述的卷积神经网络优化方法，其特征在于，设定卷积神经网络参数具体包括：卷积神经网络的学习率α、卷积神经网络最大训练次数n_max，计算损失时需要使用的数据个数N，以及需要进行滤波器优化的卷积层编号l_c。

5.根据权利要求1所述的卷积神经网络优化方法，其特征在于，将卷积神经网络损失层计算得到的损失，通过反向传播方法传递到第l_c个卷积层，然后计算每个滤波器对网络损失的贡献度，第i个滤波器的贡献度计算公式为：

C_{i} = \frac{1}{X Y} Σ_{a = 1}^{X} Σ_{b = 1}^{Y} | δ_{a b} | - - - (3)

其中，|δ_ab|为第i个滤波器中位于第a行、第b列的滤波器系数的绝对值，X和Y分别为滤波器的行数和列数。

6.根据权利要求1所述的卷积神经网络优化方法，其特征在于，对滤波器系数进行更新的具体操作是：将特征提取效果最差的滤波器中选出的系数替换为特征提取效果最优的滤波器中选出的系数。

7.根据权利要求1所述的卷积神经网络优化方法，其特征在于，滤波器系数更新后修改卷积神经网络每一层的学习率缩放因子，具体包括：降低第l_c层以及l_c层前面所有网络层的k_f，增大第l_c层后面所有网络层的k_f。

8.根据权利要求1所述的卷积神经网络优化方法，其特征在于，通过损失比较第一卷积神经网络和第二卷积神经网络的性能，具体包括：

9.根据权利要求1所述的卷积神经网络优化方法，其特征在于，所述方法还包括步骤9：

10.根据权利要求1所述的卷积神经网络优化方法，其特征在于，所述数据集还包括验证集。