CN112529806A - 基于生成对抗网络信息最大化的sar图像数据增强方法 - Google Patents
基于生成对抗网络信息最大化的sar图像数据增强方法 Download PDFInfo
- Publication number
- CN112529806A CN112529806A CN202011477985.9A CN202011477985A CN112529806A CN 112529806 A CN112529806 A CN 112529806A CN 202011477985 A CN202011477985 A CN 202011477985A CN 112529806 A CN112529806 A CN 112529806A
- Authority
- CN
- China
- Prior art keywords
- network
- discriminator
- output
- entering
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 39
- 238000012937 correction Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 238000002474 experimental method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000010355 oscillation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims 5
- 238000013459 approach Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000036544 posture Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 102100024506 Bone morphogenetic protein 2 Human genes 0.000 description 1
- 101000762366 Homo sapiens Bone morphogenetic protein 2 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
- G06T2207/10044—Radar image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于生成对抗网络信息最大化的SAR图像数据增强方法,将输入噪声矢量分解为不可压缩的噪声源z和隐变量c;通过构建生成器网络,生成虚假图像;构建鉴别器网络,将真实的SAR图像x和生成的虚假图像输入鉴别器网络D,输出判别结果;使用神经网络将辅助分布Q参数化并输出Q(c|x)的参数;最大化隐变量c和生成的虚假图像之间的互信息;基于Adam优化算法,对计算的损失值和学***衡;保存生成的虚假图像。本发明实现SAR图像数据的有效增强,从而缓解了SAR图像识别领域数据量不足和样本缺乏多样性等问题。
Description
技术领域
本发明涉及一种基于生成对抗网络信息最大化的SAR图像数据增强方法,属于SAR图像数据增强技术领域。
背景技术
合成孔径雷达(SAR)是一种全天候、全天时工作的高分辨率成像雷达,目前已被广泛应用于环境监测和战场监视等领域。SAR图像目标识别作为SAR技术研究领域中的主要应用,尽管前人已经做了大量的工作,但其的研究仍然是非常困难和极具挑战性的。目前SAR图像识别的研究方法主要是基于机器学习的方法,如k-最近邻(KNN),支持向量机(SVM),卷积神经网络(CNN),增量学习等。尽管这些分类方法具有较高的分类精度,但是以上算法都需要足够数量的训练样本。
在光学图像目标识别领域,ImageNet是一个广泛使用的数据集,它包含大约22000个类和近1500万个标记图像。然而,在SAR目标识别领域,用于SAR目标识别的数据仍然非常有限。数据不足限制了SAR目标识别算法的研究和SAR技术的广泛应用。在当前条件下,因为训练样本的数量相对较少,所以SAR目标识别可以归类为一个小样本识别问题。因此可以通过小样本识别领域中的数据增强技术合理地增加训练数据量以解决SAR图像数据量有限的问题。
数据增强可以通过特定的数据转换来增加训练数据集的大小。现有的数据增强方法主要基于以下三个方式:(1)几何数据增强,如旋转、翻转、偏移和缩放等;(2)像素变换数据增强,如颜色抖动、添加噪声等;(3)线性合成。针对缺乏姿态图像的SAR图像目标识别问题,提出了利用姿态图像合成方法以提高训练数据集中的姿态覆盖率,在少量已知姿态图像的基础上,利用稀疏模型,通过几个已知方位角的图像,线性合成特定方位角的SAR图像。然而,一些线性合成图像会降低识别率。虽然在实际应用中,微调通常可以在一定程度上解决数据量不足的问题,但是该方法耗时较多且效果有限。
目前,通过深度学习方法生成自然图像是计算机视觉领域的研究热点。作为生成自然图像的强大工具,生成对抗网络(GAN)通过生成网络与判别网络之间的博弈,生成与训练样本相似的样本。然而,GAN的训练是困难的。发生器和鉴别器的损耗不能反映训练过程。而且生成的样本缺乏多样性,甚至有时生成的图像充满噪声,难以理解。
发明内容
本发明的目的是为了提供一种基于生成对抗网络信息最大化的SAR图像数据增强方法,本发明提出的GAN可以被定义为具有互信息正则化和超参数的极小极大值博弈。本发明利用信息理论的相关知识,将生成对抗网络进行扩展,以实现SAR图像数据的有效增强,从而缓解了SAR图像识别领域数据量不足和样本缺乏多样性等问题。
本发明的目的是这样实现的:步骤如下:
(1.1)对合成孔径雷达(SAR)原始图像进行预处理操作。
(1.2)将输入噪声矢量分解为两部分,第一部分是不可压缩的噪声源z,另一部分为隐变量c。
(1.3)通过构建生成器网络,将噪声矢量输入生成器网络G,生成虚假图像G(z,c)。
(1.4)构建鉴别器网络,将真实的SAR图像x和生成的虚假图像G(z,c)输入鉴别器网络D,输出判别结果。
(1.5)使用神经网络将辅助分布Q参数化;假设Q合理的逼近真实后验分布P(c|x),并且设置最后的全连接层输出Q(c|x)的参数。
(1.6)最大化隐变量c和生成的虚假图像G(z,c)之间的互信息,使生成的虚假图像与隐变量c有关。
(1.7)根据卷积神经网络的输出分别构建生成器、鉴别器和Q网络的损失函数。
(1.8)基于Adam优化算法,对计算的损失值和学习率对生成器、鉴别器和Q网络分别进行梯度的反向传播,从而更新网络参数。
(1.9)交叉训练生成器网络,鉴别器网络和辅助分布Q网络直至达到纳什平衡。
(1.10)保存生成的虚假图像G(z,c),分析隐变量c与生成图像G(z,c)之间的关系。
本发明还包括这样一些结构特征:
本发明包括的隐变量c其主要内容为:通过互信息理论约束隐变量c与生成图像G(z,c)之间的关系,使得隐变量c里面包含有SAR图像数据的可解释的信息。所述的隐变量c包括一个十维的One-hot向量和两个基于高斯分布的连续变量。
本发明包括的生成器网络G主要由一个拼接层、两个全连接层、一个重建层和两个反卷积层组成。
步骤1:将噪声z和隐变量c合并为生成器网络的输入。
步骤2:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和线性修正单元激活函数后返回特征数为1024的一维特征向量。
步骤3:进入第二个全连接层模块,先经过输入特征数为1024,输出特征数为32*32*128的线性全连接层,再经过批量标准化和线性修正单元映射后返回特征数为131072的一维特征图。
步骤4:通过reshape重建,将上一步骤的输出特征变成四维特征。
步骤5:进入第一个反卷积模块,首先进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4;再经过批量标准化和线性修正单元函数后输出特征图。
步骤6:进入第二个反卷积模块,首先进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4;再经过Sigmoid函数激活后输出特征。在实验时发现当生成器的最后一层增加批量归一化会造成样本震荡和模型的不稳定,所以在原始GAN理论的基础上,去掉最后一层的Batch normalization,并且将激活函数更换为Sigmoid函数,从而输出特征值域为(0,1)。
本发明包括的鉴别器网络D主要是由两个卷积层,一个重构层和两个线性全连接层组成。
步骤1:由于SAR图像是灰度图像,所以鉴别器网络的输入通道数为1。
步骤2:进入第一个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为1,输出特征数为64的卷积层;然后通过带泄露的线性修正单元激活函数映射至输出。和生成器网络的最后一个反卷积模块类似,在实验时发现当鉴别器的第一个卷积模块增加批量归一化会造成样本震荡和模型的不稳定,所以在原始GAN理论的基础上,去掉最后的Batch normalization。
步骤3:进入第二个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为64,输出特征数为128的卷积层;然后通过批量标准化和带泄露的线性修正单元激活函数映射至输出。
步骤4:通过reshape重建,将上一步骤的输出特征进行一维平铺展开。
步骤5:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数后返回特征数为1024的一维特征向量。该全连接层模块的输出将会作为Q网络的输入。
步骤6:进入第二个全连接层模块,先经过输入特征数为1024,输出特征数为1的线性全连接层,该全连接层的输出将会用于计算鉴别器的损失值。
步骤7:经过Sigmoid函数激活后输出鉴别器的判别结果。
本发明包括的使用神经网络将辅助分布Q参数化其主要内容为:本模块使用的Q网络在实验中与鉴别器网络D共享所有的卷积层,但是使用最终的全连接层输出条件分布Q(c|x)的参数。因此,本发明提出的GAN与原始的GAN相比仅增加了可以忽略的计算成本。
步骤1:将鉴别器网络的第一个全连接模块的输入作为Q网络的输入。
步骤2:进入第一个全连接层模块,先经过输入特征数为1024,输出特征数为64的线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数。
步骤3:进入第二个全连接层模块,先经过输入特征数为64,输出特征数为12的线性全连接层,该全连接层的输出将会用于计算Q网络的损失值。
步骤4:经过Sigmoid函数激活后输出条件分布Q(c|x)的参数。
本发明包括的最大化隐变量c和生成的虚假图像G(z,c)之间的互信息,其主要内容为:本发明为生成器网络提供了不可压缩的噪声z和隐变量c作为输入,因此生成器网络的形式变为G(z,c)。但是在标准GAN中,生成器网络可以通过找到满足PG(x|c)=PG(x)的解来自动忽略附加的隐变量c。为了解决这个问题,本发明使用一种信息理论上的正则化:隐变量c和生成器G(z,c)之间应该具有较高的互信息,即I(c,G(z,c))最大化。
在信息论中,X和Y之间的互信息I(X;Y)是用来衡量随机变量X从另一个随机变量Y中学到的“信息量”。互信息可以表示为两者的熵量之差:
I(X;Y)=H(X)-H(X|Y)=H(Y|X)
给定x~PG(x),希望PG(x|c)具有较小的熵。换句话说,隐变量c中的信息不应该在生成图像的过程中丢失。
I(c,G(z,c))=H(c)-H(c|G(z,c))
=Ex~G(z,c)[Ec′~P(c|x)[logP(c′|x)]]+H(c)
实际上,互信息项I(c,G(z,c))难以直接最大化,因为它需要访问后验分布P(c|x)。本发明用辅助分布Q(c|x)来近似P(c|x),并用卷积神经网络来参数化Q(c|x),从而获得其下界。
与现有技术相比,本发明的有益效果是:本发明将输入噪声矢量分解为不可压缩的噪声源z和隐变量c;通过构建生成器网络,生成虚假图像;构建鉴别器网络,将真实的SAR图像x和生成的虚假图像输入鉴别器网络D,输出判别结果;使用神经网络将辅助分布Q参数化并输出Q(c|x)的参数;最大化隐变量c和生成的虚假图像之间的互信息;基于Adam优化算法,对计算的损失值和学***衡;保存生成的虚假图像。本发明利用信息理论的相关知识,将生成对抗网络进行扩展,以实现SAR图像数据的有效增强,从而缓解了SAR图像识别领域数据量不足和样本缺乏多样性等问题。
附图说明
图1为原始的GAN网络结构图;
图2为本发明提出的GAN网络的总体结构图;
图3为本发明提出的生成器网络结构图;
图4为本发明提出的鉴别器网络结构图;
图5为本发明提出的Q网络结构图;
图6为本发明所使用的MSTAR数据集的真实图像;
图7为本发明生成的部分SAR图像;
图8为固定连续变量,控制离散变量生成的SAR图像;
图9为本发明在MSTAR数据集中的BTR70上控制潜变量中的连续分量生成的SAR图像;
图10为本发明在MSTAR数据集中的ZSU_23_4上控制潜变量中的连续分量生成的SAR图像。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明提出一种基于生成对抗网络信息最大化的SAR图像数据增强的方法。针对SAR图像目标识别领域的数据量不足和样本缺乏多样性问题,本发明提出了一个针对生成对抗网络GAN的简单修改,通过最大化GAN的噪声变量的一个固定小子集和观测值之间的互信息,使得在SAR图像上能够发现高度语义化和有意义的隐藏表示信息,进而实现对SAR图像的数据增强。
从图1可以看出,原始的生成对抗网络是由生成器和鉴别器两部分组成,生成器的目的是从随机噪声z中学习一个生成分布PG(x),使其尽可能像是接近真实的数据分布,通过对生成分布PG(x)采样得到生成样本。鉴别器的目的是区分真实数据分布Pdata和生成器分布PG中的样本。通过与鉴别器网络D进行对抗来训练生成器网络G。原始的GAN网络的目标函数可以表示为:
原始GAN使用简单随机噪声z作为输入,同时对生成器使用此噪声的方式没有任何限制。结果,生成器可能会以高度纠缠的方式使用噪声,从而导致z的各个维度不对应于数据的语义特征。
在本发明中,将输入噪声矢量分解为两部分:(i)z,不可压缩的噪声;(ii)c,定义为隐变量。本发明在SAR图像领域常用的数据集MSTAR进行测试,理想的情况是模型自动选择分配一个离散随机变量来表示SAR图像类别,并选择具有两个附加的连续变量来表示SAR图像中独立和显著的属性,例如角度和姿势等。由于MSTAR数据集由十个类别组成,所以本发明指定MSTAR图像是由一个独立的10维one-hot变量和两个独立的连续变量生成。
本发明提出的GAN网络的总体结构如图2所示,GAN主要由生成器网络G,鉴别器网络D和辅助分布网络Q组成。与传统的GAN网络结构相比,使用了Q网络来近似真实的后验分布P(c|x),即Ex[DKL(P(·|x)|Q(·|x))]→0。
表1本发明所使用的测试集和和验证集的类别和样本数量
本发明使用的数据集为MSTAR数据集,其中一部分的样本如图6所示。MSTAR是SAR图像领域广泛使用的数据集,是由美国空军实验室创建的公共数据集。该数据集的图像是在15°和17°两种不同的凹陷角度下拍摄。本发明适用于多个类别,包括BMP2(坦克)、BTR70(装甲车)、T72(坦克)、BTR60(装甲车)、2S1(加农炮)、BRDM2(卡车)、D7(推土机)、T62(坦克)、ZIL131(卡车)和ZSU23/4(加农炮),在本发明中所使用的测试集和和验证集的类别和样本数量表1所示。
下面对具体的实施步骤和网络结构做进一步说明:
(1.1)对合成孔径雷达(SAR)原始图像进行预处理操作。
步骤1:本发明将凹陷角为17°的图像用作训练集,将凹陷角为15°的图像用作测试集。
步骤2:由于MSTAR数据集都是128×128的单通道图像,使用cv以灰度图像的格式读取数据集。
步骤3:使用cv读取的数据是0~255,需要进行归一化处理,即减去均值再除以标准差。
(1.2)将输入噪声矢量分解为两部分,第一部分是不可压缩的噪声源z,另一部分为隐变量c。本发明通过互信息理论约束隐变量c与生成图像G(z,c)之间的关系,使得隐变量c里面包含有对SAR图像数据的可解释的信息。
步骤1:构造并初始化一个十维的one-hot向量和两个基于高斯分布的连续变量,其中十维的one-hot向量是根据样本的标签生成。
步骤2:按照第一维度将两个变量合并组成本发明中的隐变量c。
(1.3)通过构建生成器网络,将噪声矢量输入生成器网络G,生成虚假图像G(z,c)。生成器网络的结构如图3所示,主要由一个拼接层、两个全连接层、一个重建层和两个反卷积层组成。由于SAR图像的样本数量不足且特征相对较少,所以本发明所使用的网络结构简单,网络参数较少,训练时间较短。
步骤1:将上一步骤生成的隐变量c作为生成器网络的输入,特征数为12。
步骤2:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和线性修正单元激活函数后返回特征数为1024的一维特征向量。
步骤3:进入第二个全连接层模块,先经过输入特征数为1024,输出特征数为32*32*128的线性全连接层,再经过批量标准化和线性修正单元映射后返回特征数为131072的一维特征图。
步骤4:通过reshape重建,将上一步骤的输出特征变成四维特征。
步骤5:进入第一个反卷积模块,首先进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4;再经过批量标准化和线性修正单元函数后输出特征图。
步骤6:进入第二个反卷积模块,进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4。
步骤7:经过Sigmoid函数激活后输出特征。在实验时发现当生成器的最后一层增加批量归一化会造成样本震荡和模型的不稳定,所以在原始GAN理论的基础上,去掉最后一层的Batch normalization,并且将激活函数更换为Sigmoid函数,从而输出特征值域为(0,1),大小为128×128×1。
(1.4)构建鉴别器网络,将真实的SAR图像x和生成的虚假图像G(z,c)输入鉴别器网络D,输出判别结果。鉴别器网络结构如图4所示,主要是由两个卷积层,一个重构层和两个线性全连接层组成。鉴别器的目的是区分真实数据分布Pdata和生成器分布PG中的样本,所以最佳鉴别器的定义是:
步骤1:由于SAR图像是灰度图像,所以鉴别器网络的输入通道数为1。将上一步骤中的生成的G(z,c)和真实图像x作为鉴别器网络的输入,输入大小统一为128×128×1
步骤2:进入第一个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为1,输出特征数为64的卷积层;然后通过带泄露的线性修正单元激活函数映射至输出。和生成器网络的最后一个反卷积模块类似,在实验时发现当鉴别器的第一个卷积模块增加批量归一化会造成样本震荡和模型的不稳定,所以在原始GAN理论的基础上,去掉最后的Batch normalization。
步骤3:进入第二个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为64,输出特征数为128的卷积层;然后通过批量标准化和带泄露的线性修正单元激活函数映射至输出。
步骤4:通过reshape重建,将上一步骤的输出特征进行一维平铺展开。
步骤5:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数后返回特征数为1024的一维特征向量。该全连接层模块的输出将会作为Q网络的输入。
步骤6:进入第二个全连接层模块,经过输入特征数为1024,输出特征数为1的线性全连接层,该全连接层的输出将会用于计算鉴别器的损失值。
步骤7:经过Sigmoid函数激活后输出鉴别器的判别结果。
(1.5)使用神经网络将辅助分布Q参数化;假设Q合理的逼近真实后验分布P(c|x),并且设置最后的全连接层输出Q(c|x)的参数。本模块使用的神经网络Q网络如图5所示,在实验中与鉴别器网络D共享所有的卷积层,使用最终的全连接层输出条件分布Q(c|x)的参数。因此,本发明提出的GAN与原始的GAN相比仅增加了可以忽略的计算成本。
步骤1:将鉴别器网络的第一个全连接模块的输入作为Q网络的输入。
步骤2:进入第一个全连接层模块,先经过输入特征数为1024,输出特征数为64的线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数。
步骤3:进入第二个全连接层模块,经过输入特征数为64,输出特征数为12的线性全连接层,该全连接层的输出将会用于计算Q网络的损失值。
步骤4:经过Sigmoid函数激活后输出条件分布Q(c|x)的参数。
(1.6)最大化隐变量c和生成的虚假图像G(z,c)之间的互信息,使生成的虚假图像与隐变量c相关。本发明为生成器网络提供了不可压缩的噪声z和隐变量c,因此生成器网络的形式变为G(z,c)。但是在标准GAN中,生成器可以通过找到满足PG(x|c)=PG(x)的解来自动忽略附加的隐变量c。为了解决这个问题,本发明使用一种信息理论上的正则化:隐变量c和生成器G(z,c)之间具有较高的互信息,即I(c,G(z,c))最大化。
在信息论中,X和Y之间的互信息I(X;Y)是用来衡量随机变量X的随机变量Y知识中学到的“信息量”。互信息可以表示为两者的熵量之差:
I(X;Y)=H(X)-H(X|Y)=H(Y|X) (3)
给定x~PG(x),希望PG(x|c)具有较小的熵。换句话说,隐变量c中的信息不应该在生成图像的过程中丢失。
实际上,互信息项I(c,G(z,c))难以直接最大化,因为它需要访问后验分布P(c|x)。本发明将辅助分布Q(c|x)定义为近似P(c|x),使用上一步骤的卷积神经网络来参数化Q(c|x),从而获得其下界(1.7)根据卷积神经网络的输出分别构建生成器、鉴别器和Q网络的损失函数。本发明提出的GAN可以被定义为具有互信息的正则化和超参数的极小极大值博弈。
本发明提出的GAN使用具有互信息正则化和超参数λ的极小极大值博弈:
其中V(D,G)在公式(1)中定义,表示原始的GAN网络的目标函数。LI(G,Q)表示I(c,G(z,c))的下界。
本发明引入了超参数λ,对于隐变量中离散分量,将其设置为1;对于隐变量中的连续分量,通常使用较小的λ来确保涉及微分熵的λLI(G,Q)与原始GAN具有相同的规模。
(1.8)基于Adam优化算法,根据计算的损失值和学习率对生成器、鉴别器和Q网络分别进行梯度的反向传播,更新网络参数。
本发明采用Adam优化算法分别对生成器网络、鉴别器网络和Q网络进行梯度的反向传播,更新各个网络的参数。其中生成器网络的初始学习率设置为2×10-4,鉴别器网络和Q网络的初始学习率设置为10-3,并且设置每1000迭代学习率减半;动量因子都统一设置为0.5。
(1.9)交叉训练生成器网络,鉴别器网络和辅助分布Q网络直至达到纳什平衡。
由于原始的GAN具有损失震荡和模式崩溃等缺点,因此本发明根据DCGAN引入了现有的技术设计实验,这些技术足以稳定本发明提出的GAN的训练。由公式(5)可知,本发明的提出的GAN的目标函数包含3个部分,即最小化G网络与Q网络的目标函数和最大化D网络的目标函数。
步骤1:先保持生成器网络和Q网络参数不变,单独对鉴别器网路进行训练。鉴别器网络的训练目的是正确区分真实图像和虚假图像,对于真实图像,鉴别器输出D(x)趋近于1,虚假图像D(G(x))趋近于0。
步骤2:保持鉴别器网络D的网络参数不变,单独对生成器网络G进行训练。生成器网络的训练目的是迷惑鉴别器网络,使得鉴别器网络对于虚假图像的输出D(G(x))趋近于1。
步骤3:由于Q网络和鉴别器网路共享所有的卷积层,所以训练Q网络时,仅保持网络参数G不变,对Q网络进行训练。
步骤4:可以看出这和鉴别器的训练目标是相反的,在不断地交叉训练过程中,生成器网络和鉴别器网络不断对抗,最终达到纳什平衡。
(1.10)保存生成的虚假图像G(z,c),分析隐变量c与生成图像G(z,c)之间的关系。
本发明所使用的MSTAR数据集的十种目标样本的光学图像(上)和SAR图像(下)如图6所示。本发明期望能够生成较为清晰的SAR图像,通过控制潜变量生成特定类型的图像并且能够增加SAR图像的姿态多样性。
在所有隐变量的处理中,使用以下约定,每个隐变量从上到下变化,而其他隐变量和噪声被固定。不同列对应于固定潜码和噪声的不同随机样本。将隐变量中的连续分量固定,使用随机噪声和随机离散分量通过GAN网络,生成的部分SAR图像如图7所示。可以看出使用本发明所提方法生成的SAR图像具有较高的清晰度,并且具有明显的边缘特征。将隐变量中的连续分量固定,不断改变离散分量生成的SAR图像如图8所示,可以看出隐变量中的离散分量在很大程度上对应于MSTAR数据库中的十个类别。在MSTAR数据集中的BTR70上控制潜变量中的连续分量生成的SAR图像如图9所示,在MSTAR数据集中的ZSU_23_4上控制潜变量中的连续分量生成的SAR图像如图10所示。可以看出潜变量中的两个连续分量分别捕获了姿势和角度的连续变化,可以通过改变连续分量,得到不同姿势和角度的SAR图像,增加了SAR图像的多样性。
总的来说,本发明提出了一种基于生成对抗网络信息最大化的SAR图像数据增强方法,通过引入隐变量,实现了通过控制离散分量以获取特定类型的SAR图像,解决了数据库中类型不均的问题;通过控制两个连续分量获得不同姿势和角度的SAR图像,解决了SAR图像样本多样性不足的问题。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。
Claims (6)
1.基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤如下:
(1.1)对合成孔径雷达原始图像进行预处理操作;
(1.2)将输入噪声矢量分解为两部分,第一部分是不可压缩的噪声源z,另一部分为隐变量c;
(1.3)通过构建生成器网络,将噪声矢量输入生成器网络G,生成虚假图像G(z,c);
(1.4)构建鉴别器网络,将真实的SAR图像x和生成的虚假图像G(z,c)输入鉴别器网络D,输出判别结果;
(1.5)使用神经网络将辅助分布Q参数化;假设Q合理的逼近真实后验分布P(c|x),并且设置最后的全连接层输出Q(c|x)的参数;
(1.6)最大化隐变量c和生成的虚假图像G(z,c)之间的互信息,使生成的虚假图像与隐变量c有关;
(1.7)根据卷积神经网络的输出分别构建生成器、鉴别器和Q网络的损失函数;
(1.8)基于Adam优化算法,对计算的损失值和学习率对生成器、鉴别器和Q网络分别进行梯度的反向传播,从而更新网络参数;
(1.9)交叉训练生成器网络,鉴别器网络和辅助分布Q网络直至达到纳什平衡;
(1.10)保存生成的虚假图像G(z,c),分析隐变量c与生成图像G(z,c)之间的关系。
2.根据权利要求1所述的基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤(1.2)中的隐变量c具体满足:通过互信息理论约束隐变量c与生成图像G(z,c)之间的关系,使隐变量c里面包含有SAR图像数据的可解释的信息;所述的隐变量c包括一个十维的One-hot向量和两个基于高斯分布的连续变量。
3.根据权利要求2所述的基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤(1.3)中的生成器网络主要由一个拼接层、两个全连接层、一个重建层和两个反卷积层组成,具体包括:
步骤1:将噪声z和隐变量c合并为生成器网络的输入;
步骤2:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和线性修正单元激活函数后返回特征数为1024的一维特征向量;
步骤3:进入第二个全连接层模块,先经过输入特征数为1024,输出特征数为32*32*128的线性全连接层,再经过批量标准化和线性修正单元映射后返回特征数为131072的一维特征图;
步骤4:通过reshape重建,将上一步骤的输出特征变成四维特征;
步骤5:进入第一个反卷积模块,首先进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4;再经过批量标准化和线性修正单元函数后输出特征图;
步骤6:进入第二个反卷积模块,首先进入反卷积层,输入通道数是2,输出通道数为2,卷积核大小为4×4;再经过Sigmoid函数激活后输出特征。
4.根据权利要求3所述的基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤(1.4)中的鉴别器网络包括两个卷积层,一个重构层和两个线性全连接层;具体如下:
步骤1:由于SAR图像是灰度图像,鉴别器网络的输入通道数为1;
步骤2:进入第一个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为1,输出特征数为64的卷积层;然后通过带泄露的线性修正单元激活函数映射至输出;和生成器网络的最后一个反卷积模块类似,在实验时发现当鉴别器的第一个卷积模块增加批量归一化会造成样本震荡和模型的不稳定,所以在原始GAN理论的基础上,去掉最后的Batch normalization;
步骤3:进入第二个卷积模块,首先进入卷积核大小为4×4,图像填充padding为1,步长为2,输入特征数为64,输出特征数为128的卷积层;然后通过批量标准化和带泄露的线性修正单元激活函数映射至输出;
步骤4:通过reshape重建,将上一步骤的输出特征进行一维平铺展开;
步骤5:进入第一个全连接层模块,先经过线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数后返回特征数为1024的一维特征向量,该全连接层模块的输出将会作为Q网络的输入;
步骤6:进入第二个全连接层模块,先经过输入特征数为1024,输出特征数为1的线性全连接层,该全连接层的输出将会用于计算鉴别器的损失值;
步骤7:经过Sigmoid函数激活后输出鉴别器的判别结果。
5.根据权利要求4所述的基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤(1.5)具体为:Q网络在实验中与鉴别器网络D共享所有的卷积层,但是使用最终的全连接层输出条件分布Q(c|x)的参数;具体包括:
步骤1:将鉴别器网络的第一个全连接模块的输入作为Q网络的输入;
步骤2:进入第一个全连接层模块,先经过输入特征数为1024,输出特征数为64的线性全连接层,再经过批量标准化和带泄露的线性修正单元激活函数;
步骤3:进入第二个全连接层模块,先经过输入特征数为64,输出特征数为12的线性全连接层,该全连接层的输出将会用于计算Q网络的损失值;
步骤4:经过Sigmoid函数激活后输出条件分布Q(c|x)的参数。
6.根据权利要求5所述的基于生成对抗网络信息最大化的SAR图像数据增强方法,其特征在于:步骤(1.6)中的最大化隐变量c和生成的虚假图像G(z,c)之间的互信息,具体为:隐变量c和生成器G(z,c)之间应该具有较高的互信息,即I(c,G(z,c))应该最大化;
在信息论中,X和Y之间的互信息I(X;Y)是用来衡量随机变量X从另一个随机变量Y中学到的“信息量”;互信息可以表示为两者的熵量之差:
I(X;Y)=H(X)-H(X|Y)=H(Y|X)
给定x~PG(x),希望PG(x|c)具有较小的熵;
I(c,G(z,c))=H(c)-H(c|G(z,c))
=Ex~G(z,c)[Ec′~P(c|x)[logP(c′|x)]]+H(c)
将辅助分布Q(c|x)定义为近似P(c|x),使用卷积神经网络来参数化Q(c|x),获得其下界。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011477985.9A CN112529806A (zh) | 2020-12-15 | 2020-12-15 | 基于生成对抗网络信息最大化的sar图像数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011477985.9A CN112529806A (zh) | 2020-12-15 | 2020-12-15 | 基于生成对抗网络信息最大化的sar图像数据增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529806A true CN112529806A (zh) | 2021-03-19 |
Family
ID=75000107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011477985.9A Pending CN112529806A (zh) | 2020-12-15 | 2020-12-15 | 基于生成对抗网络信息最大化的sar图像数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529806A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537031A (zh) * | 2021-07-12 | 2021-10-22 | 电子科技大学 | 基于多鉴别器条件生成对抗网络的雷达图像目标识别方法 |
CN114897901A (zh) * | 2022-07-13 | 2022-08-12 | 东声(苏州)智能科技有限公司 | 基于样本扩充的电池质量检测方法、装置和电子设备 |
CN115410083A (zh) * | 2022-08-24 | 2022-11-29 | 南京航空航天大学 | 一种基于对抗域适应的小样本sar目标分类方法及装置 |
WO2023056802A1 (zh) * | 2021-10-08 | 2023-04-13 | 上海交通大学 | 一种最大化互信息的图像分类方法、设备、介质及*** |
CN116383649A (zh) * | 2023-04-03 | 2023-07-04 | 山东省人工智能研究院 | 基于新型生成对抗网络的心电信号增强方法 |
CN116458894A (zh) * | 2023-04-21 | 2023-07-21 | 山东省人工智能研究院 | 基于复合型生成对抗网络的心电信号增强与分类方法 |
CN116663619A (zh) * | 2023-07-31 | 2023-08-29 | 山东科技大学 | 基于gan网络的数据增强方法、设备以及介质 |
CN118097439A (zh) * | 2024-04-28 | 2024-05-28 | 烟台大学 | 一种基于AMFFNet和IACGAN双网络的跨任务迁移SAR目标识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN108664894A (zh) * | 2018-04-10 | 2018-10-16 | 天津大学 | 基于深度卷积对抗神经网络的人体动作雷达图像分类方法 |
CN109409508A (zh) * | 2018-11-06 | 2019-03-01 | 成都信息工程大学 | 一种基于生成对抗网络使用感知损失解决模型崩塌的方法 |
CN111681192A (zh) * | 2020-06-09 | 2020-09-18 | 天津大学 | 一种基于残差图像条件生成对抗网络的比特深度增强方法 |
-
2020
- 2020-12-15 CN CN202011477985.9A patent/CN112529806A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN108664894A (zh) * | 2018-04-10 | 2018-10-16 | 天津大学 | 基于深度卷积对抗神经网络的人体动作雷达图像分类方法 |
CN109409508A (zh) * | 2018-11-06 | 2019-03-01 | 成都信息工程大学 | 一种基于生成对抗网络使用感知损失解决模型崩塌的方法 |
CN111681192A (zh) * | 2020-06-09 | 2020-09-18 | 天津大学 | 一种基于残差图像条件生成对抗网络的比特深度增强方法 |
Non-Patent Citations (2)
Title |
---|
XI CHEN: "InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets", 《ACM》 * |
杨龙: "基于生成式对抗网络的合成孔径雷达舰船数据增广在改进单次多盒检测器中的应用", 《超星期刊》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537031A (zh) * | 2021-07-12 | 2021-10-22 | 电子科技大学 | 基于多鉴别器条件生成对抗网络的雷达图像目标识别方法 |
CN113537031B (zh) * | 2021-07-12 | 2023-04-07 | 电子科技大学 | 基于多鉴别器条件生成对抗网络的雷达图像目标识别方法 |
WO2023056802A1 (zh) * | 2021-10-08 | 2023-04-13 | 上海交通大学 | 一种最大化互信息的图像分类方法、设备、介质及*** |
CN114897901A (zh) * | 2022-07-13 | 2022-08-12 | 东声(苏州)智能科技有限公司 | 基于样本扩充的电池质量检测方法、装置和电子设备 |
CN115410083A (zh) * | 2022-08-24 | 2022-11-29 | 南京航空航天大学 | 一种基于对抗域适应的小样本sar目标分类方法及装置 |
CN115410083B (zh) * | 2022-08-24 | 2024-04-30 | 南京航空航天大学 | 一种基于对抗域适应的小样本sar目标分类方法及装置 |
CN116383649B (zh) * | 2023-04-03 | 2024-01-23 | 山东省人工智能研究院 | 基于新型生成对抗网络的心电信号增强方法 |
CN116383649A (zh) * | 2023-04-03 | 2023-07-04 | 山东省人工智能研究院 | 基于新型生成对抗网络的心电信号增强方法 |
CN116458894A (zh) * | 2023-04-21 | 2023-07-21 | 山东省人工智能研究院 | 基于复合型生成对抗网络的心电信号增强与分类方法 |
CN116458894B (zh) * | 2023-04-21 | 2024-01-26 | 山东省人工智能研究院 | 基于复合型生成对抗网络的心电信号增强与分类方法 |
CN116663619A (zh) * | 2023-07-31 | 2023-08-29 | 山东科技大学 | 基于gan网络的数据增强方法、设备以及介质 |
CN116663619B (zh) * | 2023-07-31 | 2023-10-13 | 山东科技大学 | 基于gan网络的数据增强方法、设备以及介质 |
CN118097439A (zh) * | 2024-04-28 | 2024-05-28 | 烟台大学 | 一种基于AMFFNet和IACGAN双网络的跨任务迁移SAR目标识别方法 |
CN118097439B (zh) * | 2024-04-28 | 2024-07-19 | 烟台大学 | 一种基于AMFFNet和IACGAN双网络的跨任务迁移SAR目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529806A (zh) | 基于生成对抗网络信息最大化的sar图像数据增强方法 | |
CN109934282B (zh) | 一种基于sagan样本扩充和辅助信息的sar目标分类方法 | |
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
Cui et al. | Image data augmentation for SAR sensor via generative adversarial nets | |
Almahairi et al. | Dynamic capacity networks | |
US8190549B2 (en) | Online sparse matrix Gaussian process regression and visual applications | |
Zhang et al. | Adaptive importance learning for improving lightweight image super-resolution network | |
Kingma et al. | Regularized estimation of image statistics by score matching | |
US20230206487A1 (en) | Detection and identification of objects in images | |
Bieder et al. | Comparison of methods generalizing max-and average-pooling | |
Hashemi et al. | Approximate computing for biometric security systems: A case study on iris scanning | |
CN111882026A (zh) | 通过潜在空间正则化对无监督式生成对抗网络进行优化 | |
Franchi et al. | Latent discriminant deterministic uncertainty | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
Wang et al. | Image classification based on principal component analysis optimized generative adversarial networks | |
US20220229943A1 (en) | Joint retrieval and mesh deformation | |
CN111401405B (zh) | 一种多神经网络集成的图像分类方法及*** | |
Gushanskiy et al. | Implementation of Classic Image Transformation Algorithm to Quantum State, Boundary Extraction and Transformation of Half-Tone Image to Binary | |
CN114037644B (zh) | 一种基于生成对抗网络的艺术字图像合成***及方法 | |
CN113627480B (zh) | 一种基于强化学习的极化sar影像分类方法 | |
Yao et al. | Matching wide-baseline stereo images with weak texture using the perspective invariant local feature transformer | |
Eurviriyanukul et al. | Evaluation of recognition of water-meter digits with application programs, APIs, and machine learning algorithms | |
CN115858176B (zh) | 一种基于智能集成开发环境的快速图像识别应用生成方法 | |
Nafisi | Horseshoe regularization for wavelet-based lensing inversion | |
Otsuzuki et al. | Meta-learning of pooling layers for character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210319 |
|
WD01 | Invention patent application deemed withdrawn after publication |