CN110211041B

CN110211041B - 一种基于感受野集成的神经网络图像分类器的优化方法

Info

Publication number: CN110211041B
Application number: CN201910378614.6A
Authority: CN
Inventors: 杨云; 邵文昭
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2023-06-23
Anticipated expiration: 2039-05-08
Also published as: CN110211041A

Abstract

本发明公开了一种基于感受野集成的神经网络图像分类器的优化方法，包括以下步骤：从图像数据集中筛选出样本以分别构成训练集和测试集；采用平移变换对训练集进行处理，得到至少两个不同的感受野，将处理结果作为神经网络的输入，以优化出分类器模型；利用测试集对训练出的分类器模型进行正确性检验。本发明通过平移变换的方式控制神经网络的感受野，将优化资源主要集中于图像的中间区域，即最能反映图像特征的区域，同时逐步利用边缘区域进行修正，使得分类器对于图像的主要特征更为关注。本发明在同等迭代次数下，较现有训练方法可以训练出准确率更高的分类器模型。

Description

一种基于感受野集成的神经网络图像分类器的优化方法

技术领域

本发明涉及计算机视觉领域，尤其是一种基于感受野集成的神经网络图像分类器的优化方法。

背景技术

分类是通过事务的属性判断其类别的一类任务。图像分类就是判断图片中的物体所属的类别，起到分类作用的算法就是分类器。神经网络是图像分类任务当中常见的一种分类器。在计算机视觉领域，基于机器学习的图像分类方法包括训练和检验两个过程。通常的，在解决分类问题时，人们采用这样的方法：将整个数据集划分为训练集和测试集，在训练集上训练(或称为优化，在本发明中，两种名称含义相同)出分类器，在测试集上检验分类器的性能。这是机器学习对分类问题的解决办法。对于神经网络分类器来说，其训练过程是由若干次迭代构成的，每次迭代都对分类器进行了一定的更新，从而使其获得更好的分类效果。这样的过程叫做优化。损失函数是衡量神经网络在训练集上的分类效果的标尺。损失是损失函数的输出值。损失越小，神经网络在训练集上的分类效果越好。优化的过程，就是随着迭代，不停地减少损失的过程。在整个优化过程中，迭代次数往往达数万次、数十万次甚至更多。对优化速度的调节，通过对学习率的设定来实现。在神经网络的优化方法中，最常用的是随机梯度下降(Stochastic Gradient Descent，SGD)及其变种。在分类器对样本进行分类时，其依据是样本本身的属性，也就是样本的特征。对于图像分类任务来说，图像的特征就是能够推理出其类别的属性。神经网络分类器的优化，一方面是优化其提取特征的能力，一方面是优化其根据特征判断类别的能力。

神经网络包含若干层，四层及四层以上即为深度神经网络，包含深度神经网络的机器学习就是深度学习。在深度神经网络中，卷积神经网络(Convolutional NeuralNetwork，CNN)[1]被广泛应用于计算机视觉领域。

在深度学习与计算机视觉领域，感受野的含义有两种。对单个神经元来说，指该神经元的输入对应于原图像的区域。对整个神经网络来说，指神经网络所接收到的图像的范围。比如说，某神经网络接收的图像是32x32像素的RGB三通道彩色图像，那么其感受野就是32x32这样的区域。最常见的神经网络感受野有三种：32x32，224x224，227x227。

W_t+1＝W_t+V_t+1

上面两个公式是目前在神经网络优化问题中应用最广泛的随机梯度下降法。其它常用的优化方法，都是这种方法的变型。α表示学习率。

当优化时，随着迭代次数的增加，学习率一般是减小的。也就是说，在刚开始优化时，优化速度通常很快；当优化了一段时间以后，优化的速度变得较慢。这样一方面保证了优化的速度，一方面确保了优化的效果。

1、平移变换(Translation)[5]是一种图像分类领域的数据增强[3]方法。深度神经网络的参数很多，优化所需的训练样本很多，现实中的数据集的样本容量往往无法满足要求。例如，ResNet-110[2]有多达170万个参数，而CIFAR-10数据集仅有5万个训练样本和1万个测试样本，相当于每一个训练样本要优化34个参数，这就会使优化过程面临过拟合的问题。

现有的优化方法仅仅将平移变换视为一般的数据增强方法。而忽略了从概率层面上改变神经网络在优化过程中感受野的作用。

2、图片的各区域所包含的信息的重要性有大小之分，这导致各区域之间有主次之别。一般来说，图片的中央区域是最重要的，但是边缘区域的特征也不可忽略。

在特定数据集上优化完成的神经网络包含了从该数据集上提取特征的能力。在遇到新的任务、有了新的数据集时，人们常常将已经优化好了的神经网络在新的数据集上继续训练，这样就能利用神经网络在原数据集上学到的特征提取的能力。这里的已完成优化的模型叫做预训练模型。

现有的方法在训练分类器模型过程中，只考虑到了优化速度随时间的变化，而没有考虑图片各区域所包含的信息的差别。虽然现有方法所训练出的分类器可以解决实际问题，但是，并没有考虑到图像各个区域之间所包含的信息重要性的差异，也就并没有将梯度优化的资源向中心区域倾斜，因而将大量的梯度浪费在了图像的边缘区域。

3、注意力机制[4]是使神经网络关注于图像中的关键区域或关键信道的各种机制的统称。目前的注意力(attention)机制通过修改神经网络本身的结构，实现了对图片当中特定区域的关注。

目前神经网络的注意力机制存在实现复杂、关键区域判断不准确、难以利用已有预训练模型等问题。

本发明的参考文献如下：

[1]A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenet classificationwith deep convolutional neural networks,”pp.1097–1105,2012。

[2]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”computer vision and pattern recognition,pp.770–778,2016。

[3]L.Perez and J.Wang,“The effectiveness of data augmentation inimage classification using deep learning,”CoRR,vol.abs/1712.04621,2017。

[4]F.Wang,M.Jiang,C.Qian,S.Yang,C.Li,H.Zhang,X.Wang,and X.Tang,“Residual attention network for image classification,”2017，IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pp.6450–6458,2017。

[5]A.Azulay and Y.Weiss,“Why do deep convolutional networksgeneralize so poorly to small image transformations,”arXiv:Computer Visionand Pattern Recognition,2018。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于感受野集成的神经网络图像分类器的优化方法。以在不改变现有神经网络模型结构的前提下，将注意力机制引入到优化过程中，并同时考虑图像的中心和边缘区域，使得训练出的分类器模型具有更高正确率。

在研究中，我们发现数据增强方法中的平移变换(translation)具有将神经网络所关注的区域集中于图像中央区域的效果，并且通过实验证明了图片中心区域包含了最为重要的特征，而边缘区域也包含了一些有助于分类的特征。

平移变换包含填充(padding)和剪切(cropping)两个步骤，其中填充宽度(padding width)决定了神经网络所关注的区域大小。平移变换使感受野不均匀，不同的平移变换创造出了不同的感受野。通过利用平移变换的方法，我们可以实现一种新的神经网络优化机制。

本发明采用的技术方案如下：

一种基于感受野集成的神经网络图像分类器的优化方法，包括以下步骤：

将构建的神经网络在训练集上进行训练，优化出分类器模型；

利用测试集对训练出的分类器模型进行正确性检验；训练集和测试集分别包含若干样本图像；

其中，在利用训练集对神经网络进行训练过程中，采用平移变换控制神经网络的感受野。即对原图像执行填充、剪切的步骤，得到一个图像作为神经网络的输入。

平移变换得到的感受野对于神经网络来说，各像素点被接收到的概率不同，即导致接收到的感受野不均匀。这样，相对于传统单一感受野作为训练对象的方式来说，在关注到图像边缘区域的情况下，将注意力(训练资源)集中于图像中央部位，即反应图像特征更多的区域(更有可能包含关键特征的区域)，从而使得所训练出的神经网络能更好地识别出图像的主要特征，这样可以提高分类器模型的准确性。

上述利用平移变换控制神经网络的感受野的过程为：

采用平移变换，基于训练集为神经网络提供至少两个不同的感受野。即通过平移变换，在原图像基础上进行填充、剪切，在神经网络训练过程中，提供至少两个不同的输入。通过平移变换方法，在神经网络优化过程中，集成多个感受野。

至少两个不同感受野对于神经网络输入而言，在感受野集成过程中，可以突出图像的主要特征区域，进而使得神经网络更能关注到图像的主要特征部分，从而提高了所训练分类器模型的准确率。

进一步的，上述采用平移变换，基于训练集为神经网络提供至少两个不同的感受野的过程为：采用平移变换，分阶段对训练集的样本进行处理，其中，至少两个阶段的平移变换的参数不同，分别将每个阶段的处理结果，作为神经网络在对应阶段训练的输入。

分阶段处理可以得到不同的感受野，也便于设置不同的训练参数。

需要说明的是，本发明中，所谓的分阶段对训练集进行平移变换处理，并不限定是在神经网络训练过程中的处理，还是在神经网络训练前进行的处理，只要在输入到神经网络前，对训练样本进行平移变换的处理即可。可以为在每个阶段的每一次迭代前，对当次神经网络的输入依据当前阶段的参数执行一次平移变换；也可以是先对每个阶段的训练集依据当前阶段的参数平移变换处理得到对应于迭代次数的图像组，每一个图像组再作为每一次迭代的输入。

进一步的，上述采用平移变换为神经网络提供至少两个不同的感受野的过程为：

A.将优化过程划分为若干阶段，每个阶段均采用平移变换对训练集的样本进行处理；分别设置每个阶段的填充宽度、迭代次数和学习率，其中，至少两个阶段的填充宽度不同，每个阶段的学习率与该阶段的填充宽度成正相关；

B.依据A所划分的各个阶段，依次对神经网络进行优化。

即在神经网络在每个阶段训练前，输入为该阶段平移参数(填充宽度)下所得到的图像，再基于该阶段的训练参数(迭代次数、学***移参数进行平移处理结果，每次迭代均运行一次平移变换；或者为每个阶段先依据平移参数对训练集样本进行处理，得到处理后的多组(对应迭代次数)图像组，再在每次迭代时输入一个图像组。考虑到学习效率和***开销，优选前一种方式。

上述方案在无需对神经网络结构进行改变的情况下，从神经网络优化的角度实现了一种特殊的注意力机制，实现在训练过程中，集成多个感受野的效果。分阶段的训练方式，便于将各阶段的训练结果在后续阶段中直接应用(且两阶段的训练参数不同)，从而高效率地训练分类器模型，同时各阶段对于图像特征的关注度不同，依次执行各阶段的训练，可以得到对图像中央部位高度关注，同时兼顾图像边缘区域的模型，其对于图像的主要特征(中央区域特征)学习效果更好，更能准确地对图像的主要特征进行识别判断。

进一步的，上述步骤A中，在设置每个阶段的填充宽度和学习率时，所设置的各阶段的学习率与该阶段的填充宽度成正相关。

正相关应理解为，在设置每阶段的填充宽度和学习率时，如果一填充宽度变大，则该阶段的学习率也变大。这是出于对越中央区域，越需集中学习的考虑，从而集中资源对含图像主要特征最集中的地方进行集中学习。

进一步的，上述A所划分的各个阶段中，至少一个阶段被进一步划分为迭代次数和填充宽度相同，学习率不同的子阶段。这样，便于对训练过程进行小范围训练参数的修改而无需对整个阶段的所有参数进行修改。

进一步的，在上述A中设置各阶段的学习率时，不同阶段可以共享学习率。即同时设置不同阶段的学习率。这样可以提高设置效率。

或者，各阶段所设置的学习率逐渐减小。这样可以控制整个训练过程的优化速度，越往后训练越严谨，使得越往后训练结果越趋于正确的方向。

进一步的，所划分的各阶段的填充宽度逐渐减小。

填充宽度的减小使得被锁定区域逐步增大。这样，伴随着学习的深入，所训练的感受野所包含的图像特征逐级增多，使得训练具有层次性，每一级训练均在原来对于中央区域进行学习的基础上，增加一点边缘特征(重要程度相对上一级较低)用于对模型进行修正，确保越往后所训练出的模型越趋于所需。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明能够通过平移变换控制神经网络的感受野，对感受野集成的同时，使得神经网络对于图像中央区域(重要特征区域)的关注度更高，高效利用了训练资源，同时兼顾边缘区域，进而训练出对图像主要特征学习集中度更高、特征损失更小的分类模型。

2、本发明无需修改已有神经网络结构的注意力机制，无需在普通神经网络基础上增加任何结构，可直接使用已有的神经网络预训练模型。

3、与已有的优化方法相比，在迭代次数不变的前提下，本方法优化出的神经网络可以在测试集上获得更高的正确率。即本发明公布的基于感受野集成的神经网络优化方法能够得到更好的优化效果。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是平移变换处理的一个实施例。

图2是4个不同填充宽度下的被锁定区域视图。

图3是采用平移变换对神经网络进行分阶段训练的实施例。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

先介绍一下平移变换。平移变换就是将原图像延任意方向随机平移若干像素。该方法由两步构成——填充(Padding)和剪切(Cropping)。填充就是在原图像周边补若干层值为0(或其他固定值)的像素点，如图1a所示，剪切就是在填充后的图片上随机裁剪出(或是对称等距离地裁剪出)和原图大小相同的新图片，如图1b所示，为4个不同的剪切实施例。另一种变换方法为，直接利用矩阵运算的方式执行偏移操作，偏移后空去的像素点的值置为0(或其他固定值)。在优化过程中使用平移变换方法，可以从原图片中产生若干新图片，从而有效缓解过拟合问题，提高图像分类器的泛化性能。

在平移变换方法中，正方形图像各区域被神经网络接收到的概率为：

F(l，d，i)＝min(min(i+1，l-i)+d，2d+1]

F(l，d，j)＝min[min(j+1，l-j)+d，2d+1]

上面的公式中，l表示原图片的长度；d表示填充宽度(Padding Width)，也就是原图片周围补0的圈数；i，j表示像素的具***置。

平移变换使图像各区域被神经网络接收到的概率不再相同。中心区域被接收到的概率显著地大于边缘区域。从概率的意义上说，平移变换使神经网络的感受野不均匀。

如图2所示，为32*32的图像在不同填充宽度下的感受野。当图片长度大于填充宽度的2倍时，图像中心存在一块总是能被神经网络接收到的区域(即被接收概率为100％)，我们称其为被锁定区域(Focused Area)。可以看出，填充宽度决定了被锁定区域的大小。具体地，被锁定区域的长度为l-2d。被锁定区域越小，神经网络的注意力越集中于图像的中心区域。通过设置填充宽度，我们可以控制被锁定区域的大小，这样就实现了对感受野(主要分布区域)的控制。

实施例一

本实施例公开了一种基于感受野集成的神经网络图像分类器的优化方法，包括以下步骤：

从图像集中提取出样本以分别构成训练集和测试集；如果已存在训练集和测试集，则跳过此步骤；

采用平移变换对训练集的每个训练样本进行处理，以控制神经网络的感受野，具体为采用平移变换，基于训练集为神经网络提供至少两个(如3个)不同的感受野，将处理结果作为神经网络的输入，优化出分类器模型；

利用测试集对训练出的分类器模型进行正确性检验。

实施例二

本实施例具体公开了上述神经网络的训练过程，包括以下步骤：

A.将优化过程划分为若干阶段，设置每个阶段的填充宽度、迭代次数和学习率；至少两个阶段的填充宽度不同，且各阶段所设置的学习率与该阶段的填充宽度成正相关；所谓正相关，即填充宽度增大，学习率也增大，反之亦然；填充宽度越大，则被锁定区域越小，约趋于图像中央，则所包含的特征越重要，关键性越强，因此，对其学习率应当设置得越高；

B.依据上述优化过程所划分的各个阶段，依次将神经网络在每个阶段上所平移处理得到的训练样本上，基于设置的学习率和迭代次数进行优化。优化完成的神经网络即为所求。

上述步骤B中，在一个实施例中，对于每一个阶段，神经网络在每一次迭代时，均利用平移变换对训练样本进行一次处理，处理结果作为当次迭代的输入。即对于每个阶段，均会执行同迭代次数相同次数的平移变换。在另一实施例中，对于每一个阶段，先基于设置的填充宽度和迭代次数，对训练样本进行平移处理，得到同迭代次数相同组数的样本集，在每一次迭代时，将一组样本集作为神经网络的输入。

实施例三

如图3所示，在一个32*32图像进行优化训练的实施例中，训练过程包括以下步骤：

A.将优化过程划分为3个阶段，设置第一阶段的填充宽度为6(则被锁定区域为20*20)，学习率为0.1，第二阶段的填充宽度为4，学习率为0.01，第三阶段的填充宽度为2，学习率为0.001；三个阶段的迭代次数根据使用的不同神经网络、对模型的不同要求等进行人为设定，例如三个阶段的迭代次数依次为3万、4万、5万次；

B.将神经网络(即初始化模型)依次在每个阶段所处理的训练集上进行学习。即可得到优化后的模型。

实施例四

本实施例公开了另一种优化方法，输入图像的尺寸为32*32，训练过程包括以下步骤：

A.将优化过程划分为3个阶段：第一阶段、第二阶段和第三阶段，第二阶段进一步划分为两个子阶段：第2a阶段和第2b阶段，设置第一阶段的填充宽度为6(则被锁定区域为20*20)，学习率为0.1；第二阶段的填充宽度为4，第2a阶段的学习率为0.006，第2b阶段的学习率为0.004；第三阶段的填充宽度为2，学习率为0.001；三个阶段的迭代次数根据使用的不同神经网络、对模型的不同要求等进行人为设定，例如三个阶段的迭代次数依次为3万、4万、5万次，第2a阶段和第2b阶段的迭代次数均为2万次；

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于感受野集成的神经网络图像分类器的优化方法，包括以下步骤：将构建的神经网络在训练集上进行训练，优化出分类器模型；

利用测试集对训练出的分类器模型进行正确性检验；所述训练集和测试集分别包含若干样本图像；

其特征在于，在利用训练集对神经网络进行训练的过程中：

A.将优化过程划分为若干阶段，每个阶段均采用平移变换对训练集的样本进行处理，分别设置每个阶段的填充宽度、迭代次数和学习率，其中，至少两个阶段的填充宽度不同；在设置每个阶段的填充宽度和学习率时，所设置的各阶段的学习率与该阶段的填充宽度成正相关；

B.依据A所划分的各个阶段，依次对神经网络进行优化。

2.如权利要求1所述的优化方法，其特征在于，所述A所划分的各个阶段中，至少一个阶段被进一步划分为迭代次数和填充宽度相同、学习率不同的子阶段。

3.如权利要求1所述的优化方法，其特征在于，在所述A中设置各阶段的学习率时，不同阶段可以共享学习率；

或者，各阶段所设置的学习率逐渐减小。

4.权利要求1-3之一所述的优化方法，其特征在于，所划分的各阶段的填充宽度逐渐减小。