CN109492556B

CN109492556B - 面向小样本残差学习的合成孔径雷达目标识别方法

Info

Publication number: CN109492556B
Application number: CN201811263252.8A
Authority: CN
Inventors: 张帆; 傅真珍; 赵鹏; 尹嫱; 胡伟
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2018-10-28
Filing date: 2018-10-28
Publication date: 2022-09-20
Anticipated expiration: 2038-10-28
Also published as: CN109492556A

Abstract

本发明公开了面向小样本残差学习的合成孔径雷达目标识别方法，针对SAR图像目标识别任务中人工的高成本以及样本数据有限的问题，该方法使用了18层的残差网络作为基础网路结构，将深度残差学习应用到SAR小样本目标识别中，并将Dropout引入了每个残差块的结构中。使用了Softmax Loss和Center Loss这两种损失函数组合所构成的目标函数来进行监督。本发明主要的实施对象是机载聚束式合成孔径雷达所采集的图像，主要工作是对其进行目标识别。

Description

面向小样本残差学习的合成孔径雷达目标识别方法

技术领域

本发明涉及一种基于残差网络的小样本学习的合成孔径雷达目标识别方法，属于合成孔径雷达自动目标识别技术领域。

背景技术

合成孔径雷达(SyntheticAperture Radar，SAR)是一种基于主动式微波传感的高分辨率成像雷达，是遥感领域的重要组成部分。相比于被动成像的光学遥感，合成孔径雷达不受云、雪、雨、雾等不利天气条件和昼夜时间的限制，并且可以一定程度上穿透植被和伪造遮挡，这些优秀的特性使得其被越来越广泛的应用于环境地形调查、军事侦察、海洋监测、农业检测、林业监测、大气监测、地质勘探等领域。

由于成像机理的不同，SAR图像与人眼易于理解的光学图像有着很大的差别，且SAR图像中包含了许多乘性噪声，这些都对图像目标判读解译工作造成了很大干扰。SAR图像目标判读解译的方法主要分为两种，人工目视判读解译与计算机模式识别。目前，人工目视判读解译仍然是最主要的方法。然而人工方式需要耗费极高的成本且工作效率难以进一步提升，因此不断探索更好、更有效的SAR图像目标自动识别的方法是很重要的。

随着科学技术水平的不断进步，深度学习成为了近几年来一个非常热门的领域。为了拓展SAR-ATR领域的研究，人们开始聚焦于使用深度学习的方法来解决SAR目标识别的问题。卷积神经网络(Convolutional Neural Network,CNN)作为深度学习的一个重要分支，因其优越的特征提取能力被广泛的应用在图像视频等领域中。本发明将深度残差学习应用到SAR小样本目标识别中，在以有的基础上就如何在有限样本的条件下进一步提升模型在SAR-ATR任务中的效果进行了探索，并提出了改进的方法。

发明内容

本发明的主要目的是针对SAR图像目标识别任务中人工的高成本以及样本数据有限的问题，提供了一种基于残差网络的小样本学习的合成孔径雷达目标识别方法。该方法使用了18层的残差网络作为基础网路结构，并将Dropout引入了每个残差块的结构中。使用了Softmax Loss和Center Loss这两种损失函数组合所构成的目标函数来进行监督。本发明主要的实施对象是机载聚束式合成孔径雷达所采集的图像，主要工作是对其进行目标识别。

基于残差网络的小样本学习的合成孔径雷达目标识别方法，包括以下步骤：

一种基于残差网络的小样本学习的合成孔径雷达目标识别方法，该方法的步骤包括：

步骤(1)划分好SAR图像的训练集和测试集并进行图像剪裁和归一化处理。

步骤(2)构建加入了Dropout的残差结构，并搭建18层的残差网络模型。

步骤(3)用Center Loss损失函数来对网络倒数第二层输出的特征的类内距离进行约束，用Softmax Loss对经过网络最后的Softmax层的输出进行约束。将两个损失函数的损失结果进行加权作为最后的整体损失来监督步骤(2)中所构建的残差网络模型进行训练。

步骤(4)对网络的参数进行初始化，并选网络的优化函数。

在所述步骤(1)中，对于训练集的目标图像先剪裁出中心尺寸为H1×W1的部分即高×宽，之后随机剪裁出尺寸为H2×W2的图像，这样的裁剪使目标具了有位移性，进而使训练出的网络更具鲁棒性。对于测试集的图像只裁剪出H2×W2的中心目标区域，剪裁过程如图1所示。之后使数据集图像中的每个像素点的像素值都除以255，从而将图像的像素值压缩到0-1之间。

在所述步骤(2)中，构建网络模型时选择了18层的残差网络作为基础网络，并在构建残差块时引入了Dropout层。理论上来说，增加网络的深度提升网络的性能。然而在实际中网络的加深会导致训练困难，而过深的网络往往会出现性能饱和甚至是退化等问题。假设有两个深度不同的网络，深层网络前面的结构与浅层网络一致，后面的结构由不改变输出的线性层构成，那么这两个网络的性能也应该是一样的。而实验结果表明在训练超过一定阶段后，深层网络的效果要逊于浅层网络。这种现象的原因有可能是因为在实际训练中恒等映射很难学到。为了解决这种问题，何凯明等人将恒等映射加入到了网络结构中，进而提出了残差学习。本发明主要针对的对象是样本数量有限的雷达目标图像，希望通过深层次的网络来学习到可分性更强的高层抽象特征，因此本发明使用了残差网络(ResidualNetwork,ResNet)作为主体网络结构。

残差学习的模块结构的特点是引入了快捷连接(Shortcut Connection)，即输入被直接连接到块的输出上，如图2中的(a)所示，层的输出被定义为：

y＝F(x,{W_i})+x (1)

x为层的输入，y为层的输出，W_i为主干支路上可训练的权值，F(x,{W_i})为需要学习的映射关系。

模块中主干支路的映射关系F(·)由多个卷积层(Convolution layer)构成，在每个卷积层后面会连接批标准化(Batch Normalization,BN)层和修正线性单元(RectifiedLinear Unit,ReLU)。

BN层的作用是对上一个卷积层的输出进行标准化来调整数据的分布再传入下个层，从而降低了权值初始化的成本并使网络能更快速的收敛。BN的计算公式如下：

其中m表示当前训练的批次大小，x_i为当前输入的值。公式(2)是在对当前的输入求取均值和方差。

是对x_i进行标准化后的输出。由于标准化后的数值服从均值为0方差为1的高斯分布，这样大部分的值便落在了非线性激活函数的线性区内，这会造成网络性能的退化。因此BN层会通过公式(4)对标准化后的值再进行一次扩展和平移的修正，其中γ是扩展参数，β是平移参数，这两个参数为可训练的参数，作用是自适应的调整标准化的强度。

由于输入数据大都是非线性的，普通的线性映射并不能将其很好地划分，因此需要使用非线性激活函数来赋予网络非线性的特性。ReLU是一种非线性激活函数，其表达式为：f(x)＝max(0,x)，即对于小于0的输入抑制，对于大于0的输入保留。这种激活函数使深层的网络能够收敛，其赋予网络的稀疏性缓解过拟合，并能加快训练速度。

需要注意的是，表达式(1)需要x与F(x,{W_i})的维度一致，若出现了不一致的情况，在F(·)的映射过程中改变了数据的通道数或尺寸，通过对输入x使用1×1的卷积操作来将其转换为与输出相匹配的维度。这时的输出表示为：

y＝F(x,{W_i})+W_sx (5)

除了梯度消失之外，过拟合也是一个严重影响网络训练效果的问题。在Resent提出之后很多人在其基础上做了改进，本方法参考了Wide Residual Networks所提出的在卷积层之间增加Dropout的方法。Dropout是一种依据所设定的概率随机断开神经元的连接的方法，此方法为在训练过程中为网络增加了稀疏性，也有效减轻了特征之间的关联性。本方法在残差块主干支路中的两个卷积层之间引入了Dropout层，并将保留概率设置为0.2，如图2中的(b)所示。发明中使用的网络的主体也是由具有不同特征图数量的该残差模块堆叠而成。

构建好基础残差结构后便开始搭建网络模型。首先将输入图像接入一个卷积层来增加通道数并进行滤波，将卷积层的步长(stride)设置为1，填充(padding)也设置为1，即在进行卷积操作之前先为特征图的四周填充一圈0，从而使得卷积后特征图尺寸不变。

网络的中间部分由4个具有相似结构的残差卷积模块堆叠而成，每个模块由2个图2中的(b)所示的残差结构连接而成。在每个模块的第一个残差结构中，第一个卷积层的步长都被设置为2来将图像的尺寸缩减为原来的二分之一，同时将卷积核的个数设置为原来的2倍从而使输出的特征图数量为原来2倍。而相应残差结构的shortcut支路上也需要进行一个步长为2的1×1卷积操作来将其转换为与输出相匹配的尺寸和维度，此时特征图不做填充。除了每个模块的第一个残差结构的第一个卷积层外，中间部分的其他的卷积层的步长和填充都被设置为1，且每个模块中的第二个残差结构的shortcut支路恢复为恒等映射。每当数据传递到下一个模块的时候，特征图的数量增大到原来的2倍的同时尺寸会缩小一半。

网络中间部分的第4个模块的后面连接了一个全局平均池化(global averagepooling)层用来综合每个特征图的特征。网络的末尾使用了一个全连接层来进行分类。最后使用Softmax层将输出结果映射到[0,1]区间内且使其总和为1，从而得到样本属于每一个类别的概率值。Softmax的表达式为：

其中，V_i表示向量V的第i个元素，K为V的整体维度，S_i为Vi经过Softmax层后的输出。

由于SAR图像的特殊性，图像中所包含的特征并不是十分丰富，而且样本数量比较少，因此选择18层得结构而不是更深的网络，并引入Dropout来缓解由于训练样本较少造成的过拟合问题。

在所述步骤(3)中，除了使用经常用于多目标分类的损失函数Softmax Loss之外，本方法还使用了一种在人脸识别任务中新提出的损失函数Center loss，使其与SoftmaxLoss一同监督网络的训练。Center Loss的基本思想是不仅要求网络正确划分出各个类别，还要在特征描述上让类内距离尽可能的小，通过惩罚每个种类的样本和该种类样本中心的偏移，使得同一种类的样本尽量聚合在一起。使用Center Loss与Softmax Loss相结合的方法使训练出来的参数模型具有更好的泛化能力。损失函数的表达式如下：

L＝L_C+λL_C (9)

L_S表示的是SoftmaxLoss，L_C表示Center Loss，λ是一个平衡两个损失的影响的标量，通常设定在0.1-0.0001之间，L表示网络所使用的组合损失函数；M为训练时一个批次中输入的训练样本的数量，K为样本的类别数，公式(7)中被求对数的值就是该样本所对应的正确类别的Softmax值；x_i代表输入全连接层的第i个样本的特征，y_i表示其真实标签，即真实类别；O对应于x_i经过全连接层之后的输出，O_j对应于输出O的第j维，表示对应于第j类的输出；O_yi对应于输出O的第y_i维，且代表着属于真实类别的输出；c_yi表示属于第y_i类的特征x_i的特征中心，c_yi是能够被训练和优化的。图4展示了在组合损失函数监督下的网络的整体结构。

在所述步骤(4)中，一组合适的初始化参数可以为训练的效率和效果带来很大的提升，采用的是MSRA初始化方法，其适用于非线性激活函数为ReLU的网络。该方法使初始化后的权重服从均值为0，标准差为

的高斯分布，即：

其中W为需要初始化的权重，n表示输入节点的个数。对于网络中的偏置b，其初始值全部定义为0。对于BN层参数的两个参数的初始值，将γ设置为1，β设置为0。

本方法所选用的主要用来优化模型的优化函数为Adam，该算法的作者有一组推荐的参数值，即：lr＝0.001,beta1＝0.9,beta2＝0.999,epsilon＝1e-8；lr表示学习率(learning rate,lr)，beta1和beta2代表一阶矩估计和二阶矩估计的指数衰减率，epsilon表示一个非常小的数，设置该参数是为了防止出现除数为0的情况。对于Center Loss中所涉及的每类特征点的中心位置本，使用了小批量梯度下降算法(Mini-batch GradientDescent,MBGD)来优化，用在此处的学习率通常设置在0-1之间。

附图说明

图1为图像剪裁示意图。

图2为残差块结构示意图。

图3为本发明的残差网络结构图。

图4为在组合损失函数监督下的网络整体的结构示意图。

图5为不同损失函数监督训练下高维特征的分布情况。

图6为本方法实施的流程图。

具体实施方式

以下结合附图对本发明的实施过程和实验结果做进一步的描述。

本发明实施使用的样例数据来自于运动和静止目标的获取与识别(Moving andStationary TargetAcquisition and Recognition，MSTAR)计划公开的MSTAR图像公共数据库。该数据的成像分辨率是0.3m×0.3m。实验所采用的是在X波段、HH极化模式下采集得到的十类军用车辆目标。目标的姿态覆盖范围均为0°～360°。把17°俯仰角下拍摄的图像作为训练集，15°俯仰角下拍摄的图像作为测试集，数据集的设置如表1所示。

表1训练和测试数据集

种类	训练集(17°)	测试集(15°)
			2S1	200	274
BMP2	200	195
			BRDM2	200	274
BTR70	200	196
			BTR60	200	295
D7	200	274
			T72	200	196
T62	200	273
			ZIL131	200	274
ZSU234	200	274
			Total	2000	2425

步骤一、合成孔径雷达目标图像的预处理。

本发明选用的数据集的目标位于图像的中心位置，在处理训练集的图像时，首先剪裁出中心的68×68的区域，再在其中随机提取64×64的区域。这样提取出来的用作训练的目标就具有了位移的特性，而卷积神经网络所具有的平移不变性也得已发挥。对于测试机的图像则直接提取中心处64×64的区域。随机剪裁的示意图如图1所示。之后再将数据集图像中的每个像素点的像素值都除以255，把图像的像素值压缩到0-1之间

步骤二、设定具体的参数。

1)网络结构参数

本方法所使用的结构参考了Resnet-18，本发明也采用了18层的网络结构并做了一些细节的调整来适应数据。针对输入维度为64×64×1的单通道图像，首先使用16个尺寸为3×3的卷积滤波器来增加其通道数并进行滤波。此处采用了先在特征图四周填充零再进行卷积操作的方式，来保证输出特征图的尺寸不变而通道数增多。

网络的中间部分由4个具有相似结构的残差卷积模块堆叠而成，每个模块中包含2个图2(b)所示的残差结构。在每个模块的第1个残差块中，把第一个卷积层的步长设置为2来将特征图的尺寸缩减为原来的二分之一，同时将卷积滤波器的个数设置为之前的2倍来将特征图的通道数扩大2倍。相应的，在该残差块的shortcut连接上也需要进行一个步长为2的1×1卷积操作来将其转换为与输出相匹配的尺寸和维度。该模块内之后的卷积操做的步长设置为1，且下一个残差块的shortcut路径不使用1×1卷积从而将其恢复为恒等映射。经过每个模块后的输出维度显示在表2中。

承接在第4个模块之后的是一个8×8的全局平均池化层，用来对256个8×8的特征图进行平均特征求取。网络的最后接一个全连接层，用来对网络对样本所提取的256维特征进行分类，输出的维度即为整体样本的类别数10。最后对其进行Softmax回归得到样本属于每一类别的概率。

表2网络参数的设置

2)损失函数和优化函数的参数设定

在组合损失函数中使用了一个参数λ来控制平衡两个损失的影响。在MSTAR数据集上进行了多次实验，最后选择了0.01。

优化函数使用了Adam作者推荐的参数lr＝0.001,beta1＝0.9,beta2＝0.999,epsilon＝1e-8。本方法的实验设计为：在训练的过程中，对于每类样本多于50张图像的任务，当执行完第100轮完整训练后就将lr降低10倍，即0.0001。对于每类样本少于50张图像的任务，当执行完第150轮完整训练后再将lr降低10倍。对于用来优化Center Loss中类别中心位置的优化函数MBGD，本发明将其学习率设定为0.5。

3)其他参数

本发明将每类样本数量多于50张图像的任务的批次大小(batch size)设置为32，对于每类样本少于50张的任务，批次大小被设置为10。

步骤三、训练网络模型

通过以上两个步骤将数据和网络模型都准备好后，接下来便可以开始训练网络模型。数据是按照批次(batch)的形式被输入网络，单个批次中的每个样本数据都是以并行的形式在网络中计算传递。一个批次的训练相当于一次迭代(iteration)，当所有的训练数据都在网络中训练过一遍后即为完成一轮(epoch)迭代。训练前会先设定最大的训练轮数，每完成一轮迭代后会利用当前的模型参数对验证集进行一次测试，并记录下验证集的测试精度，每当出现更好的验证结果时就将当前网络模型保存下来。

网络的训练过程为：

(1)对网络的参数进行初始化。

(2)开始进行一轮迭代。

(3)对训练数据进行打乱并按照批次大小M划分出N个批次。

(4)把一个批次的数据输入进网络中，经过网络的前向计算得到输出结果，

再通过组合损失函数得到本次迭代的损失。

(5)通过梯度求导的链式法则，将损失反向传播到网络的每一层得到该层权重W和偏置b的梯度。

(6)最后再通过Adam优化函数更新网络参数，利用优化函数MBGD更新Center Loss中类别的中心位置。到这里为完成一次迭代。

(7)回到步骤(4)进行下一个批次的迭代，直到所有的批次全都完成计算即为完成一轮迭代。

(8)用此刻的模型对验证集的数据进行测试，并记录结果。

(9)返回步骤(2)，直到达到设定的最大的训练轮数。

步骤四、结果验证

为了验证本发明的方法在SAR小样本目标数据集中的表现，在全部的训练样本中每类样本随机的抽取100、50、40、30、20、10个作为小样本数据集中每类训练样本的数量。随着训练样本的减少，网络拟合所需要的迭代的次数也在增加。表3中展示了本发明所使用的方法在MSTAR数据集中的效果。

表3由不同训练样本数据数量得到的精度

从表格中的结果可以看出，在较大的样本集中使用增加Dropout层和使用组合损失函数的效果不很明显，而在小样本的条件下使用单独使用这两种方法都能使分类精度得到提升，并且可以看出增加Dropout的效果更加明显。在同时使用这两种方法的情况下网络的性能得到了进一步的提升，且在每类样本数量为30的情况下仍能获得90％以上的准确率。

为了将在不同损失函数监督下提取到的特征的分布可视化，对网络最后的部分进行了修改：原始的网络中经过全局平均池化层的特征被直接送入输出为10个节点的全连接层进行分类，这里先使用一个全连接层将特征转换到2维，并使Center Loss来对这一层的特征进行监督，最后再通过一个全连接层由这2个节点扩展到10个节点来完成分类，这样便可将经过Center Loss约束后的特征在二维平面上布绘制出来。图5展示了在相同分类精度下，两种损失函数监督下网络分别提取到的特征的分布情况。从图中可以看出组合损失函数中的Center Loss有缩小特征类内距离的作用。

Claims

1.面向小样本残差学习的合成孔径雷达目标识别方法，其特征在于：该方法的步骤包括：

步骤(1)划分好SAR图像的训练集和测试集并进行图像剪裁和归一化处理；

步骤(2)构建加入了Dropout的残差结构，并搭建18层的残差网络模型；

步骤(3)用Center Loss损失函数来对网络倒数第二层输出的特征的类内距离进行约束，用Softmax Loss对经过网络最后的Softmax层的输出进行约束；将两个损失函数的损失结果进行加权作为最后的整体损失来监督步骤(2)中所构建的残差网络模型进行训练；

步骤(4)对网络的参数进行初始化，并选网络的优化函数；

在步骤(1)中，对于训练集的目标图像先剪裁出中心尺寸为H1×W1的部分即高×宽，之后随机剪裁出尺寸为H2×W2的图像，这样的裁剪使目标具了有位移性，进而使训练出的网络更具鲁棒性；对于测试集的图像只裁剪出H2×W2的中心目标区域；之后使数据集图像中的每个像素点的像素值都除以255，从而将图像的像素值压缩到0-1之间；

在步骤(2)中，构建网络模型时选择了18层的残差网络作为基础网络，并在构建残差块时引入了Dropout层；假设有两个深度不同的网络，深层网络前面的结构与浅层网络一致，后面的结构由不改变输出的线性层构成，那么这两个网络的性能也应该是一样的；使用残差网络作为主体网络结构；

残差学习的模块结构是引入了快捷连接，即输入被直接连接到块的输出上，层的输出被定义为：

y＝F(x,{W_i})+x (1)

x为层的输入，y为层的输出，W_i为主干支路上可训练的权值，F(x,{W_i})为需要学习的映射关系；

模块中主干支路的映射关系F(·)由多个卷积层构成，在每个卷积层后面会连接批标准化层和修正线性单元；

BN层的作用是对上一个卷积层的输出进行标准化来调整数据的分布再传入下个层，从而降低了权值初始化的成本并使网络能更快速的收敛；BN的计算公式如下：

其中m表示当前训练的批次大小，x_i为当前输入的值；公式(2)是在对当前的输入求取均值和方差；

是对x_i进行标准化后的输出；由于标准化后的数值服从均值为0方差为1的高斯分布，这样大部分的值便落在了非线性激活函数的线性区内，这会造成网络性能的退化；因此BN层会通过公式(4)对标准化后的值再进行一次扩展和平移的修正，其中γ是扩展参数，β是平移参数，这两个参数为可训练的参数，作用是自适应的调整标准化的强度；

由于输入数据大都是非线性的，普通的线性映射并不能将其很好地划分，因此需要使用非线性激活函数来赋予网络非线性的特性；ReLU是一种非线性激活函数，表达式为：f(x)＝max(0,x)，即对于小于0的输入抑制，对于大于0的输入保留；这种激活函数使深层的网络能够收敛，其赋予网络的稀疏性缓解过拟合，并能加快训练速度；

式(1)需要x与F(x,{W_i})的维度一致，若出现了不一致的情况，在F(·)的映射过程中改变了数据的通道数或尺寸，通过对输入x使用1×1的卷积操作来将其转换为与输出相匹配的维度；这时的输出表示为：

y＝F(x,{W_i})+W_sx (5)

在残差块主干支路中的两个卷积层之间引入了Dropout层，并将保留概率设置为0.2；使用的网络的主体也是由具有不同特征图数量的该残差模块堆叠而成；构建好基础残差结构后便开始搭建网络模型；首先将输入图像接入一个卷积层来增加通道数并进行滤波，将卷积层的步长(stride)设置为1，填充(padding)也设置为1，即在进行卷积操作之前先为特征图的四周填充一圈0，从而使得卷积后特征图尺寸不变；

网络的中间部分由4个具有相似结构的残差卷积模块堆叠而成，每个模块由2个残差结构连接而成；在每个模块的第一个残差结构中，第一个卷积层的步长都被设置为2来将图像的尺寸缩减为原来的二分之一，同时将卷积核的个数设置为原来的2倍从而使输出的特征图数量为原来2倍；而相应残差结构的shortcut支路上也需要进行一个步长为2的1×1卷积操作来将其转换为与输出相匹配的尺寸和维度，此时特征图不做填充；除了每个模块的第一个残差结构的第一个卷积层外，中间部分的其他的卷积层的步长和填充都被设置为1，且每个模块中的第二个残差结构的shortcut支路恢复为恒等映射；每当数据传递到下一个模块的时候，特征图的数量增大到原来的2倍的同时尺寸会缩小一半；

网络中间部分的第4个模块的后面连接了一个全局平均池化层用来综合每个特征图的特征；网络的末尾使用了一个全连接层来进行分类；最后使用Softmax层将输出结果映射到[0,1]区间内且使其总和为1，从而得到样本属于每一个类别的概率值；Softmax的表达式为：

2.根据权利要求1所述的面向小样本残差学习的合成孔径雷达目标识别方法，其特征在于：在所述步骤(3)中，本方法使用了一种在人脸识别任务中新提出的损失函数Centerloss，使其与Softmax Loss一同监督网络的训练；Center Loss的基本思想是不仅要求网络正确划分出各个类别，还要在特征描述上让类内距离尽可能的小，通过惩罚每个种类的样本和该种类样本中心的偏移，使得同一种类的样本尽量聚合在一起；损失函数的表达式如下：

L＝L_C+λL_C (9)

L_S表示的是Softmax Loss，L_C表示Center Loss，λ是一个平衡两个损失的影响的标量，通常设定在0.1-0.0001之间，L表示网络所使用的组合损失函数；M为训练时一个批次中输入的训练样本的数量，K为样本的类别数，公式(7)中被求对数的值就是该样本所对应的正确类别的Softmax值；x_i代表输入全连接层的第i个样本的特征，y_i表示其真实标签，即真实类别；O对应于x_i经过全连接层之后的输出，O_j对应于输出O的第j维，表示对应于第j类的输出；

对应于输出O的第y_i维，且代表着属于真实类别的输出；

表示属于第y_i类的特征x_i的特征中心，

是能够被训练和优化的。

3.根据权利要求1所述的面向小样本残差学习的合成孔径雷达目标识别方法，其特征在于：在所述步骤(4)中，一组合适的初始化参数可以为训练的效率和效果带来很大的提升，采用的是MSRA初始化方法，其适用于非线性激活函数为ReLU的网络；该方法使初始化后的权重服从均值为0，标准差为

的高斯分布，即：

其中W为需要初始化的权重，n表示输入节点的个数；对于网络中的偏置b，其初始值全部定义为0；对于BN层参数的两个参数的初始值，将γ设置为1，β设置为0；

lr＝0.001,beta1＝0.9,beta2＝0.999,epsilon＝1e-8；lr表示学习率(learningrate,lr)，beta1和beta2代表一阶矩估计和二阶矩估计的指数衰减率，epsilon表示一个非常小的数，设置该参数是为了防止出现除数为0的情况。