CN108665005B

CN108665005B - 一种利用dcgan提高基于cnn图像识别性能的方法

Info

Publication number: CN108665005B
Application number: CN201810467893.9A
Authority: CN
Inventors: 方巍; 张飞鸿; 丁叶文
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2021-12-07
Anticipated expiration: 2038-05-16
Also published as: CN108665005A

Abstract

本发明公开了一种利用DCGAN提高基于CNN图像识别性能的方法，该方法将DCGAN出色的数据生成能力与基于CNN图像识别框架进行了二度结合，并且DCGAN是在GAN的基础上经过改进后的新型对抗生成网络，所述方法将CNN应用到了原始结构中，使得GAN具有了深度卷积的特性，并在数据生成方面拥有更好的特征表示形式。本发明很好的解决了图像识别过程中训练样本数据难以收集、样本相似度过大等问题，冲破了样本数量与质量在分类模型优化问题上的限制，进一步强化分类模型，提高图像识别的准确性。

Description

一种利用DCGAN提高基于CNN图像识别性能的方法

技术领域

本发明属于图像识别处理，具体涉及一种基于深度机器学习的图像识别改进，尤其涉及一种利用DCGAN提高基于CNN图像识别性能的方法。

背景技术

随着深度学***移、旋转等畸变具有不变性，具有很强的泛化能力。其中卷积的局部感知和权值共享性可以大幅度减少神经网络的参数量，防止过拟合的同时又降低了神经网络模型的复杂度，给予了分类精准度很大的优化空间。本发明所研究的雷达剖面图主要由光谱、色块等底层语义组成。传统方法例如纹理检测、统计学方法等对于这种特殊的图像并不能发挥太多优势，原因主要有以下三点：

1、无法有效学习雷达剖面图内在的特征，包括像素点的分布和渐变等；

2、雷达剖面图包含信息量太大，传统方法处理过慢，无法解决大数据问题；

3、缺乏高效的学习策略，难以提高识别的准确性。

CNN的上层对语义更敏感，而中间层则特别敏感于底层模式，如颜色和梯度，因此使用CNN解决雷达剖面图识别问题是一个科学且可行的实践。CNN图像分类大多数都是基于有监督学习，这种学习方式在训练过程中需要大量的数据作为训练样本才能得到比较精确的分类。在雷达剖面图识别过程中，由于天气条件的限制，导致像雷雨大风等灾害天气的样本收集工作异常艰难。不仅如此，样本间过度的相似性也会影响训练效果，导致特征难以被有效学习。针对样本数量少和样本过度相似度的问题，我们采用设计深度卷积生成对抗网络(DCGAN)的方法来解决。DCGAN的实质是在GAN的基础上实现拓展，保留了出色生成数据能力的同时，也融合了CNN特征提取的优点，使它在图像分析和处理能力上得到提升。本发明tch Normalization实现局部归一化，从而解决了网络模型在训练时梯度消失和梯度弥散等问题。经检测，DCGAN在celebA、LSUN和GoogleImageNet这种现实世界的真实大规模数据集上训练，结果令人满意。本发明基于DCGAN的网络结构进行样本生成操作，并结合基于CNN的图像识别***有效提高了识别的准确度，使得DCGAN与CNN的二次结合能更好地为科研、生产和决策服务。

发明内容

发明目的：针对上述现有技术的不足，本发明提供一种利用DCGAN提高基于CNN图像识别性能的方法，该方法将DCGAN出色的数据生成能力与基于CNN图像识别框架进行了二度结合，很好的解决了图像识别过程中训练样本数据难以收集、样本相似度过大等问题，冲破了样本数量与质量在分类模型优化问题上的限制、强化分类模型、提高图像识别的准确性。

技术方案：一种利用DCGAN提高基于CNN图像识别性能的方法，步骤如下：

(1)定义DCGAN中生成模型和判别模型的结构；

(2)建立学习率加速策略；

(3)生成样本检测；

(4)构建基于CNN的图像识别框架；

(5)性能优化。

进一步的，步骤(1)中所述的生成模型包括数据转化层和反卷积层，所述数据转化层和反卷积层之间的激活函数为LeakyReLu函数。数据转化层主要将噪声向量通过reshape方法转化为图像类型的向量。反卷积将数据维度进一步转化为图像格式，之间都使用LeakyReLu作为激活函数。

进一步的，步骤(1)所述的判别模型包括卷积层和全连接层，所述卷积层和全连接层之间激活函数为ReLu函数，所述全连接层末端使用Sigmoid或SoftMax函数做二分类；优选的，识别模型包括四层卷积层和全连接层。

更进一步的，步骤(1)包括训练生成器G，所述的生成器具有能生成与真实样本相差无几数据的能力。其作用是把一个噪声包装成另一个逼真的样本，使得判别器误认为是真实样本。判别器D是一个二分类器，用于判断样本的真伪，是生成器学习的来源。

进一步的，步骤(1)包括建立网络损失函数，所述的网络损失函数包括网络总体损失函数、生成模型损失函数和判别模型损失函数，定义如下：

所述网络总体损失函数计算表公式如下：

所述生成模型损失函数计算表公式如下：

LOSS_(G)＝-(log(D₂(G(z))))；

所述判别模型损失函数计算表公式如下：

LOSS_(D)＝-(log(D₁(x))+log(1-D₂(G(z))))；

其中：D(x)为根据数据x的判别函数，G(z)为根据噪声z的生成函数；

表示x来源于数据概率分布，同理

中z来源于噪声分布；D₁(x)与D₂(x)运算方式是等价的。

进一步的，步骤(2)包括使用mini-batch梯度下降的方式优化网络参数，所述的网络参数包括批量大小batch，迭代次数epoch，学习率α，需要调整的权重和偏置值W和b，以及优化梯度下降法时所要增加的动量因子m和v。

进一步的，步骤(2)具体包括以下步骤：

(21)设置学习率，所述学习率初始值范围为[0.9,1.0],其反向传播更新权值和偏置值遵循如下计算公式：

W＝W-α(学习率)·[损失函数对权值求偏导的值]，

其中，W表示更新权值或偏置值，α为学习率；

(22)通过迭代逐步减少学习率，在每次循环中调用反向传播机制来调整权值和偏置值，进而求取损失函数的最小值，将学习率衰减幅度放入迭代操作中，其学习率衰减策略减遵循如下公式：

其中：decay_rate大小取0.1到1.0范围，epoch_i为第i次迭代训练，α₀为初始学习率，取值范围为0.1到1.0。

进一步的，步骤(4)中的识别模型采用4层卷积层和3层全连接层的神经网络，输出的结果为四种分类，分别为有雨有风类、有雨无风类、无雨有风类和无雨无风类。

有益效果：本发明相比现有技术，其显著地效果在于：第一，本发明将DCGAN出色的数据生成能力与基于CNN图像识别框架进行了二度结合，很好的解决了图像识别过程中训练样本数据难以收集、样本相似度过大等问题；第二，可以自动学习雷达剖面图中的隐藏细节，不必通过手工提取；第三，能够应对大数据批量处理问题；第四，冲破了样本数量与质量在分类模型优化问题上的限制，通过有效的算法，多次训练逐步提高图像识别的准确性。

附图说明

图1是本发明方法***流程图；

图2是本发明自定义DCGAN的结构；

图3是本发明样本数据中真实图像与生成图像效果；

图4是本发明识别模型框架图；

图5是本发明四类的概率化结果示意图；

图6是本发明识别网络与原始CNN性能对比图；

图7是本发明识别框架预训练后的4分类结果示意图；

图8是本发明模型强化后的识别结果示意图。

具体实施方式

为了详细的说明本发明公开的技术方案，下面结合说明书附图和具体实施理做进一步的阐述。

本发明主要针对雷达剖面图像做识别。雷达剖面图不同于一般物体图像，它是靠类似于光谱的区域分布以及颜色来描述类别的，因此这种级别的语义利用CNN可以更好的进行特征提取。在识别***中，提取特征后还需进行具体的分类。为了使特征提取与分类归一化，本发明没有使用传统的SVM作为分类器，而是通过全连接层和Softmax进行分类操作。

本发明公开的是一种利用DCGAN提高基于CNN图像识别性能的方法，该方法的***流程图如图1所示，具体步骤如下：

步骤1：构建自定义DCGAN

根据训练数据的规模，自定义DCGAN中生成模型和判别模型的结构，其中包括参数设定和深度设定。在本发明中，去除了判别模型的全连接层，将所有的激活函数设置成LeakyReLu函数，并通过Sigmoid或SoftMax函数做二分类，即“真”和“假”的分类。生成模型实质上是一个反卷积的过程，所有卷积层之间的非线性激活函数都采用ReLu函数，输出层则采用tanh函数。我们设计DCGAN的目标是为了训练一个能将噪声向量z转化为样本数据x的生成器G，以便后期强化识别模型。生成器G的训练目标则是由判别器D来定义的，D的作用是区分真实样本数据p_data(x)和生成数据p_z(z)，而生成器G最大程度让判别器D认为它的输出为真实。通过反复训练会让G和D最终找到一个非凸博弈的平衡，进而生成与真实样本相差无几的数据。我们事先不对数据分布做任何假设或模型要求，而是直接通过使用梯度下降的方式进行优化。网络总体的损失函数通过以下定义：

网络的收敛方向为min_Gmax_DV(D,G)。我们将公式1中的损失函数按照两个模型进行分解，其中公式2是判别模型损失函数，公式3是生成模型损失函数。

LOSS_(D)＝-(log(D₁(x))+log(1-D₂(G(z)))) (公式2)

LOSS_(G)＝-(log(D₂(G(z)))) (公式3)

我们采用Tensorflow框架中的机器学习算法使这些损失函数收敛到最小，并通过反向传播得到最优的权重函数。反复迭代优化操作，不断优化权值和偏置值，就能训练出一个优秀的生成模型以便生成我们需要的数据。判别模型也是如此，我们参考BP神经网络中的批量梯度下降原理，同时将两者的损失函数最小化。如图2所示的是自定义DCGAN的结构。

步骤2：引入学习率衰减策略加速学习

为加快DCGAN的训练过程，我们采用了一个学***稳，因此训练过程会又快又稳定。训练中每迭代一定次数就进行一个学习率衰减，具体步骤是：

1、首先使用较大学习率；

2、通过迭代逐步减少学习率。

学习率衰减策略减遵循公式4：

可以预设定decay_rate大小为0.95，epoch_i为第i次迭代训练，α₀为初始学习率。学习率衰减是跟反向传播的操作同步进行的，当反向传播每迭代一次，学习率就跟着更新一次，保证每次的学习率都不同。

随机梯度下降法的效果并不太好，学习率只能优化它的结果，但不能提高它的效率。为了快速得到一个最优解并使训练后期更加稳定，衰减后的学习率需要结合优化器来进行收敛。大部分的优化器，例如在更新参数上做操作的Momentum。它将动量因素考虑进来，使得梯度变得更陡，虽然能收敛但会使得过程变得非常曲折；而另一种优化器如AdaGrad，则是在学习率上进行修改，相当于加入了惩罚模式，使得每个参数都有自己的学习效率。我们将两者方法结合起来，利用Adam加速神经网络的训练，它的数学形式如下所示。

m_i＝b1*m_i-1+(1-b1)*dx (公式5)

v_i＝b2*v_i-1+(1-b2)*dx² (公式6)

权重参数的更新依赖于两个变量m和v，dx为改变量。公式5中m包含Momentum梯度属性，公式5计算v时含有AdaGrad阻力属性。公式7将m和v都考虑进来实现权重参数的更新。在实验中，我们把损失函数传到优化器中，作为反向传播的源头，同样配合迭代操作进行。在每次训练结束后，我们都会查看前馈网络所返回的正确率与失误率，以此来判断模型的健壮性。

步骤3：生成样本检测

在样本检测之前，首先需要生成样本。我们分别将有雨有风和有雨无风两种类别的雷达剖面图作为样本来训练DCGAN，因为这两种类型的样本相对而言是比较难收集的。为了更有效率的训练同时也防止一次将所有图片读入内存导致卡顿，我们采用了mini-batch训练的方式，一个batch训练64张图片。每当经历过100批，就会在本地生成一个样例图。要充分学习图像的特征需要很多次有效训练。为方便下次继续训练并生成样本，我们每进行100次训练就将生成一个模型并保存下来。训练结束后，加载训练好的模型即可进行样本的生成。图3所示是真实图像与生成图像效果。虽然DCGAN产生的样本在视觉上与真实样本很接近，但人眼是无法作为判断生成样本是否合格的标准的。我们需要对其进行测试，证明生成的样本是否具有真实数据的属性。我们通过使用图4中预先训练的CNN识别框架作为检测工具，随机输入部分生成的样本，并根据分类结果验证生成样本的质量。若生成的样本被准确分类到对应的类别当中，我们就可以认为生成的样本是合格的。经测试，有雨有风类的生成样本被准确分类的成功率为90％，有雨无风类的成功率是88％。这与真实数据在预训练时趋近的成功率保持在合理误差范围中，证明了生成样本是可以与真实样本一同训练使用的。

有了生成样本，就可以进行样本检测了。由于训练用的样本是两种类型，因此生成样本也会有两种。我们用生成样本做四分类操作，若两类样本可以被正确分类，则说明这些生成样本是合格的。为避免小几率的识别影响，用于检测样本的网络与后面实现图像识别的网络是一样的。我们首先将图像识别模型搭建好，并完成预训练，同时与原始CNN进行对比。在展示其优越性能后，复制其所有张量值与结构，即model的ckpt类文件，进行样本的分类检验。

步骤4：构建基于CNN的图像识别框架

本发明中，将用于识别的模型建成具有4层卷积层和3层全连接层的神经网络，输出的结果为四种分类。网络模型的深度是根据需要测试数据的规模及分类数量决定的，后期可以根据实际情况进行拓展。模型框架如图4所示。

在第一个卷积层中，我们定义了32个5x5维度的卷积核，初始化权值取正态分布标准差为0.01上的随机值，并初始化偏置值为0。卷积操作步长统一设置为1，边界处理设置为越界补0形式。池化操作的步长设置为2，而它的边界处理方法是对不足卷积核大小的区域直接丢弃。剩余卷积层中权值与偏置值、卷积核和池化的初始化操作与第一层是保持一致的。第二个卷积层设置了64个5x5的卷积核；第三个卷积层设置了128个3x3的卷积核；第四个卷积层也设置了128个3x3的卷积核。由于CNN可将图片像素作为直接输入，所以需要改变数据维度才能得到最终的一维分类结果。因此，在第一个全连接层中我们定义了1024个神经元，用来转化维度。考虑到神经元的激活规律：当数据具有激活效果时，激活效果越明显神经元被唤起的效果越强。因此非线性激活函数用ReLu。我们为了防止过多不必要的神经元参与计算，在全连接层之间定义了dropout机制，它可以使部分神经元处于休眠状态，目的是避免因启动过多的神经元导致计算量过大的问题，也是更近似人类思维的机制。第二层全连接我们定义了512个神经元，同样使用ReLu激活函数并追加dropout机制。最后一层全连接我们定义了4个神经元用于结果输出，分别代表四类的概率化结果，如图5所示。

步骤5：性能对比及优化

我们的预训练数据集有10000张雷达剖面图，其中包括4个分类类别：有雨有风、有雨无风、无雨有风和无雨无风。每个类别各有2500张图像，每张图像素尺寸为540*440。图像来源于2016和2017年南京地区和安徽地区的雷达观测站。用于质量验证的DCGAN数据为两类：有雨有风和有雨无风各200张的生成图像。

最后的混合训练中，DCGAN生成的数据集每类拓展至1000张。在加入真实数据后，4类数据保持数量一致。在最终测试阶段，我们进行4分类测试，每个分类各200张雷达图像，这些图像是真实雷达数据且不曾参与过训练。

将DCGAN生成的数据放入相应类别训练集中与真实数据一起再次进行训练，发现混合训练的全局准确率有所提升。如图6所示，混合训练后的全局准确率相比之前，训练过程更加稳定，准确率也有提高。为了验证混合训练后的模型是否得到强化，我们将对比一组识别结果。图7代表的是识别框架预训练后的4分类结果，图8展示了经过模型强化后的识别结果。相比之下，经过强化的模型识别准确率得到了提升。

Claims

1.一种利用DCGAN提高基于CNN图像识别性能的方法，其特征在于：包括以下步骤：

(1)定义DCGAN中生成模型和判别模型的结构；

(2)建立学习率加速策略；

(3)生成样本检测；

(4)构建基于CNN的图像识别框架；

(5)性能优化；

其中，步骤(1)中所述的生成模型包括数据转化层和反卷积层，所述数据转化层和反卷积层的激活函数为LeakyReLu函数；

所述的判别模型包括卷积层和全连接层，所述卷积层和全连接层之间激活函数为ReLu函数，所述全连接层末端二分类函数为Sigmoid或SoftMax函数；

其中，步骤(2)具体包括以下步骤：

W＝W-α·[损失函数对权值求偏导的值]

其中，W表示更新权值或偏置值，α为学习率；

其中：decay_rate大小取0.1到1.0范围，epoch_i为第i次迭代训练，α₀为初始学习率，取值范围为0.1到1.0；

其中，步骤(4)中的识别模型采用4层卷积层和3层全连接层的神经网络，输出的结果包括四类，分别为有雨有风类、有雨无风类、无雨有风类和无雨无风类。

2.根据权利要求1所述的一种利用DCGAN提高基于CNN图像识别性能的方法，其特征在于：步骤(1)包括建立网络损失函数，所述的网络损失函数包括网络总体损失函数、生成模型损失函数和判别模型损失函数，上述函数表达式定义如下所示：

所述网络总体损失函数表达式如下：

所述生成模型损失函数表达式如下：

LOSS_(G)＝-(log(D₂(G(z))))；

所述判别模型损失函数表达式如下：

LOSS_(D)＝-(log(D₁(x))+log(1-D₂(G(z))))；

其中：D(x)为根据数据x的判别函数，G(z)为根据噪声z的生成函数，

表示x来源于数据概率分布，同理

中z来源于噪声分布，D₁(x)与D₂(x)运算方式等价。

3.根据权利要求1所述的一种利用DCGAN提高基于CNN图像识别性能的方法，其特征在于：步骤(2)包括使用mini-batch梯度下降的方式优化网络参数，所述的网络参数包括批量大小batch，迭代次数epoch，学习率α，需要调整的权重和偏置值W和b，以及优化梯度下降法时所要增加的动量因子m和v。