CN111553280A

CN111553280A - 基于深度学习的目标部位识别方法

Info

Publication number: CN111553280A
Application number: CN202010351971.6A
Authority: CN
Inventors: 刘俊豪; 高亮; 陈潜; 王海涛; 尹洁珺; 夏慧婷
Original assignee: Shanghai Radio Equipment Research Institute
Current assignee: Shanghai Radio Equipment Research Institute
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-18

Abstract

本发明公开了一种基于深度学习的目标部位识别方法，包括：建立深度卷积网络，所述深度卷积网络包括相互连接的主体卷积网络、分类与定位分支网络和目标解析分支网络。所述主体卷积网络用于获取待识别目标雷达图像的若干个尺度的特征图。所述分类与定位分支网络用于对所述若干个尺度的特征图进行分类和边框位置回归处理，得到分类输出和边框位置。所述目标解析分支网络用于对所述若干个尺度的特征图中的一个特征图进行局部结构掩码关键点检测。本发明能够对目标分类、定位以及特定部位识别，实现对目标的精细识别。

Description

基于深度学习的目标部位识别方法

技术领域

本发明涉及目标检测与识别技术领域，特别涉及一种基于深度学习的目标部位识别方法。

背景技术

随着雷达探测技术高分辨、高精度等性能逐步提升，以及先进信号处理技术的发展，目标的细节特征呈现出来，对目标特定部位进行精确探测与识别，从而找到感兴趣的目标部位。如雷达凝视成像，需要对感兴趣部位进行精细识别；又如精确打击***对目标瞄准点选择与低附带毁伤等应用场合，要求在不同姿态、视角等情况下的特定部位精准识别。然而，当前对雷达目标部位识别技术，主要结合目标特征进行模式识别。

例如：文献“基于红外成像引信的瞄准点识别研究”(红外技术，2003年第1期)利用红外探测设备对目标辐射特征进行识别，但依赖目标自身的热辐射；文献“射频成像GIF技术的瞄准点选择算法”(北京理工大学学报，2015年第10期)利用目标自身几何结构，提出了基于凸多边形的瞄准点选择的一种方法，但只能获得模糊的目标中心识别；专利“基于卷积神经网络的空中目标检测方法”(CN201810924226.9)公开了一种适应不同尺寸规格的目标检测方法；专利“一种基于深度学习的多专项目标检测算法”采用多个专项通道对不同形状类别的目标进行检测，但未满足对目标局部特定部位的识别。

由此亟需提供一种能够实现对目标分类、定位、特定部位识别等多任务检测的一种基于深度学习的目标部位识别方法。

发明内容

本发明的目的在于提供一种基于深度学习的目标部位识别方法，所述目标部位识别方法通过多任务深度学习架构设计，实现对目标分类、定位以及特定部位识别，即实现对目标的精细识别的目的。

为了实现以上目的，本发明通过以下技术方案实现：

一种基于深度学习的目标部位识别方法，包括：建立深度卷积网络，所述深度卷积网络包括相互连接的主体卷积网络、分类与定位分支网络和目标解析分支网络。所述主体卷积网络用于获取待识别目标雷达图像的若干个尺度的特征图。所述分类与定位分支网络用于对所述若干个尺度的特征图进行分类和边框位置回归处理，得到分类输出和边框位置。所述目标解析分支网络用于对所述若干个尺度的特征图中的一个特征图进行局部结构掩码关键点检测。

优选地，所述分类输出为待识别目标类型与待识别目标局部结构类型；所述边框位置为待识别目标整体的位置和待识别目标局部结构的位置。

优选地，采用预设的训练集分别对所述主体卷积网络、分类与定位分支网络和目标解析分支网络进行网络训练；采用所述预设的训练集对所述深度卷积网络进行整体网络训练。

优选地，采用对应的损失函数对所述网络训练的过程以及所述整体网络训练的过程进行约束。

优选地，所述损失函数包括分类误差损失函数L_cla、位置误差损失函数L_loc与目标解析误差损失函数L_par；所述分类误差损失函数L_cla和位置误差损失函数L_loc用于在对所述分类与定位分支网络进行网络训练时进行约束：

式中，

为指示参数，当其为1时表示第i个先验框与第j个Ground Truth匹配，且其类型为p；Pos表示正样本集，Neg表示负样本集；

是类别置信度预测值的softmax函数加权值，其表示为：

式中，

为类别p的置信度预测值；

式中，

式中l为先验框的所对应边界框的位置预测值；

为位置参数预测值；{cx,cy,w,h}为位置框坐标集，包括左上角坐标与位置框的宽高；

所述目标解析误差损失L_par用于目标解析分支网络的训练约束：

式中，y_true与y_pred分别表示像素掩码标记值与预测值；

采用所述分类误差损失函数L_cla、位置误差损失函数L_loc与目标解析误差损失函数L_pa的加权和L_loss对所述深度卷积网络的训练过程进行约束：

式中，N是先验框的正样本数量；α为定位误差加权系数；β为解析误差加权系数。

优选地，所述主体卷积网络包括特征金字塔结构和残差网络。

优选地，所述残差网络用于对输入的测试集中的图像进行特征提取，得到若干个层次特征；所述特征金字塔结构用于将所述若干个层次特征进行特征融合得到所述若干个尺度的特征图。

优选地，所述残差网络的网络层次包括：conv1、conv2_x、conv3_x、conv4_x和conv5_x部分；通过特征金字塔结构对所述conv3_x、conv4_x和conv5_x这三个卷积输出结构进行特征融合，形成第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5；所述第一尺度特征图P3的尺度特征＞所述第二尺度特征图P4的尺度特征＞所述第三尺度特征图P5的尺度特征。

优选地，对所述第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5均进行分类和位置回归处理，得到类别置信度和边界框位置。

优选地，采用全卷积网络对所述第一尺度特征图P3进行处理，得到目标解析结果，对该目标解析结果进行像素级分割定位，并采用标记工具对所述目标解析结果进行语义分割掩码位置标记。

本发明至少具有以下优点之一：

本发明利用主体卷积网络提取出多个尺度的特征层，通过分类与定位分支设计实现对多个特征层进行分类与边框位置回归，通过目标解析分支设计实现对目标特定部位的掩码标记，网络架构分支设计实现对目标的分类、定位、以及局部结构特定部位识别等多种任务。本发明可对特定部位标注的数据集直接进行训练，多任务训练共用融合的特征层降低了特征提取成本，所提方法可适用于多种雷达成像体制的目标特定部位识别。

本发明实现了雷达目标局部特定部位的识别，在功能实现与设计上属首次。本发明提出的目标特定部位识别方法适用于多种雷达成像体制，所提方法具有通用性，可应用于其他体制成像方式中，如无线电雷达像、激光点云数据像、红外辐射像、亚毫米波焦平面像等。

附图说明

图1为本发明一实施例提供的一种基于深度学习的目标部位识别方法的深度卷积网络结构图；

图2为本发明一实施例提供的主体卷积网络模型结构图；

图3本发明一实施例提供的目标分类与定位分支网络结构图；

图4为本发明一实施例提供的目标解析分支网络结构图；

图5为本发明一实施例将输入数据输入至所述如图1所示的深度卷积网络后的其输出的结果图。

具体实施方式

以下结合附图1～5和具体实施方式对本发明提出的一种基于深度学习的目标部位识别方法作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合图1～图5所示，本实施例提供的一种基于深度学习的目标部位识别方法，包括：建立深度卷积网络，所述深度卷积网络包括相互连接的主体卷积网络、分类与定位分支网络和目标解析分支网络。实现对待识别目标的分类、定位以及局部结构识别等任务。

所述主体卷积网络用于获取待识别目标雷达图像的若干个尺度的特征图。所述分类与定位分支网络用于对所述若干个尺度的特征图进行分类和边框位置回归处理，得到分类输出和边框位置。所述分类输出为待识别目标类型与待识别目标局部结构类型；所述边框位置为待识别目标整体的位置和待识别目标局部结构的位置。所述目标解析分支网络用于对所述若干个尺度的特征图中的一个大尺寸特征图进行局部结构掩码关键点检测。

本发明对大尺寸特征图(本示例为P3)进入目标解析分支，试验中表明大尺寸特征图在全卷积网络操作中效果更好。

所述主体卷积网络包括特征金字塔结构(FPN)和残差网络(ResNet50)。

所述残差网络ResNet50用于对输入的测试集中的图像进行特征提取，得到若干个层次特征；所述特征金字塔结构(FPN)用于将所述若干个层次特征进行特征融合得到所述若干个尺度的特征图。

所述残差网络的网络层次包括：conv1、conv2_x、conv3_x、conv4_x和conv5_x部分；通过特征金字塔结构对所述conv3_x、conv4_x和conv5_x这三个卷积输出结构进行特征融合，形成第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5；所述第一尺度特征图P3的尺度特征＞所述第二尺度特征图P4的尺度特征＞所述第三尺度特征图P5的尺度特征。这三个尺度特征图能够满足对不同尺寸大小目标(待识别目标)的特征表示。

所述特征金字塔结构上采样方法对底层特征与高层特征融合，这里底层特征是靠近所述特征金字塔结构的输入端提取的特征，而高层特征是远离所述特征金字塔结构的输入端的特征。具体的，如图2所示，由于在不同尺度特征的特征图融合过程中由于其尺度不同由此可以通过二维卷积conv2D与1×1的卷积核上采样进行尺度对齐，便于特征融合。

将conv5_x网络层次的输出经过二维卷积conv2D处理得到所述第三尺度特征图P5，所述第三尺度特征图P5为7×7×512特征图(7×7大小维数为512)；将conv5_x网络层次的输出经过二维卷积conv2D处理以及二维卷积conv2D与1×1的卷积核上采样处理后与所述conv4_x网络层次的输出进行拼接，得到第一拼接中间结果，将该第一拼接中间结果经过二维卷积conv2D处理得到所述第二尺度特征图P4，所述第二尺度特征图P4为14×14特征图；将所述第一拼接中间结果进行二维卷积conv2D与1×1的卷积核上采样处理后与所述conv3_x网络层次的输出进行拼接得到第二拼接中间结果，对所述第二中间拼接结果进行二维卷积conv2D与1×1的卷积核上采样处理后得到所述第一尺度特征图P3，所述第一尺度特征图P3为28×28特征图。深度卷积网络不同网络层表示目标的特征信息程度不同，高层特征图表征更深层次的特征，但尺寸变小，对大目标的检测更有利；底层特征图表征浅层次的特征，尺寸较大，对小目标及细节检测有利；因此，将不同网络层进行融合拼接，使得选择的P3、P4、P5三个尺度的特征图更具表征目标特征的能力。

对所述第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5均进行分类和位置回归处理，得到类别置信度和边界框位置。

首先采用通过3×3的卷积核对所述第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5进行处理，目的是消除上采样的混叠效应；然后经过1×1卷积核处理改变通道数，可以理解的是这里特征融合与通道数变换操作，有多种方法，共同的特点是融合过程中消除上采样混跌，本实施例所提到的特征融合与通道数变换操作是最优选的方案。

具体的是，如图3所示，分别对每个尺寸特征图进行分类和位置回归处理，下面以第三尺度特征图P5为例进行说明，首先对所述第三尺度特征图P5进行3×3的卷积核和1×1的卷积核处理即通过卷积计算得到检测中间结果，所述检测中间结果包括生成先验框、目标分类和目标定位；具体的是，

对第三尺度特征图P5中的每个检测位置(像素点)使用3类先验框，且每类先验框选择3种不同长宽比例，故使用k-means(K均值)处理得到9个先验框，尺度更大的特征图使用更小的先验框。不同尺度特征图设置的先验框数目不同，而同一个尺度特征图上设置的先验框是相同的，先验框的尺度遵守一个线性递增，即随着特征图大小降低先验框尺度线性增加，本实施例使用3个尺度先验框大小相对于输入特征图尺寸的比例s_k表示为

s_k＝0.4k-0.2k＝[1,2,3] (1)

则先验框代表了选择比例为0.2、0.6、1，该比例为训练过程的优选比例，得到的效果相对更好。

采用非极大值抑制算法(NMS)搜索所述中间检测结果的局部极大值，抑制非极大值元素，保留最接近真实(Ground Truth)的预测结果，而抑制其他的预测结果，得到本次识别结果，本次识别结果包括类别置信度和边框位置。

之后对同一目标(同一特征图)做出多次预测，得到多个识别结果。之后再次采用非极大值抑制算法(NMS)搜索多个识别结果中的局部极大值，抑制非极大值元素，保留最接近真实(Ground Truth)的识别结果，而抑制其他的识别结果得到类别置信度和边界框位置。例如所述边框位置通过非极大值抑制处理后，得到最终的输出为边界框位置(或者为边界框位置框)。

如图4所示，采用全卷积网络(FCN)对所述第一尺度特征图P3进行处理，FCN完成对图像进行像素级的分类，从而解决语义级别的图像分割问题，通过FCN对第一尺度特征图P3进行上采样操作，使其恢复输入图像相同的尺寸，并在上采样的特征图上进行逐像素分类。通过FCN得到该目标解析结果的像素级分割定位，如图4中的目标解析结果，并结合训练集预先存储的标记好的样本，通过语义分割掩码损失函数进行评估，评估结果反馈给FCN网络参数完成迭代训练，最终得到整个网络参数的最优值。

所述的目标解析分支网络可以实现目标局部结构的掩码标记，即像素级别的分类识别。该目标解析分支网络直接对所述第一尺度特征图P3进行处理，该第一尺度特征图P3已经融合了低层特征图的信息，并且在大尺度特征图上进行掩码标记位置更准确。通过全卷积网络预测每个所述第一尺度特征图P3(全卷积网络的目标候选框可以用于选择第一尺度特征图P3。)的掩码能完整的保留空间结构信息，实现目标像素级分割定位。并通过目标解析损失函数实现对语义分割掩码位置的评价。

在本实施例中，所述深度卷积网络会采用常规的神经网络训练方法进行训练，之后采用深度卷积网络进行目标部位识别，具体的，采用预设的训练集分别对所述主体卷积网络、分类与定位分支网络和目标解析分支网络进行网络训练；采用所述预设的训练集对所述深度卷积网络进行整体网络训练。

采用对应的损失函数对所述网络训练的过程以及所述整体网络训练的过程进行约束。

所述损失函数包括分类误差损失函数L_cla、位置误差损失函数L_loc与目标解析误差损失函数L_par；所述分类误差损失函数L_cla和位置误差损失函数L_loc用于在对所述分类与定位分支网络进行网络训练时进行约束：

式中，

是类别置信度预测值的softmax函数加权值，其表示为：

式中，

为类别p的置信度预测值；

位置误差损失函数采用了Smooth L1函数，其定义为

式中x为函数定义中输入未知量。

则本实施例的位置误差损失函数定义为

式中，

式中l为先验框的所对应边界框的位置预测值；

目标解析主要是实现局部结构分割，因此这里将目标解析损失函数定义为语义分割掩码损失函数。本发明采用Dice相似系数损失函数，Dice相似系数损失函数本质上是衡量两个样本之间的重叠度，对每个类单独计算，并将各个类的结果求平均作为最终的评分，故所述目标解析误差损失L_par用于目标解析分支网络的训练约束：

式中，y_true与y_pred分别表示像素掩码标记值与预测值；

为了适应目标特定部位识别深度网络的数据集建立，通过对目标图像局部特定部位进行标注。

为了便于理解，本实施例选择飞机目标进行特定部位标注，关注的特定部位包括：头部、机身、尾部、机翼1和机翼2，则在建立训练数据集时，将头部、机身、尾部、机翼1和机翼2进行掩码标注，即对每一个像素进行标注。

本实施例以雷达逆合成孔径像(ISAR)为例，信号带宽1GHz，频率分辨率0.15m，每张雷达像图片分辨率300×300，进入深度网络的输入图像尺寸为224×224。数据集建立包括F22、F35、F16、捕食者等飞机目标4类，训练集中每类目标数为1000，验证集中每类目标数为500，测试集中每类目标数为300。采用训练集对所述深度卷积网络进行训练时，同时采用所述验证集对所述深度卷积网络的输出进行验证，由此实现对所述深度卷积网络的训练。飞机目标特定部位5个，分别为：头部、机身、尾部、机翼1和机翼2。通过本发明所提的多任务深度网络架构进行特定部位识别训练，数据输入与输出如图5所示，得到测试集中目标对每一个像素的识别率均值95％，达到了较高的部位识别准确度。

本实施例提供的深度卷积网络是多任务网络，目标检测包含类别和位置，是目标的整体特征，实现目标整体类型识别，以及位置标定。部位检测通过目标解析分支网络得到，目标解析分支网络和分类与定位分支网络是独立的，只通过相应的损失函数的设计，来平衡两个分支网络对所求结果的影响。类别置信度和边界框位置计算输出是深度卷积网络的前馈过程，本文所述的损失函数，以及后向反馈迭代运算，完成网络权值的训练，通过训练好的深度卷积网络输出即可得到。

由此，本发明利用主体卷积网络提取出多个尺度的特征层，通过分类与定位分支设计实现对多个特征层进行分类与边框位置回归，通过目标解析分支设计实现对目标特定部位的掩码标记，网络架构分支设计实现对目标的分类、定位、以及局部结构特定部位识别等多种任务。本发明可对特定部位标注的数据集直接进行训练，多任务训练共用融合的特征层降低了特征提取成本，所提方法可适用于多种雷达成像体制的目标特定部位识别。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于深度学习的目标部位识别方法，其特征在于，包括：

建立深度卷积网络，所述深度卷积网络包括相互连接的主体卷积网络、分类与定位分支网络和目标解析分支网络；

所述主体卷积网络用于获取待识别目标雷达图像的若干个尺度的特征图；

所述分类与定位分支网络用于对所述若干个尺度的特征图进行分类和边框位置回归处理，得到分类输出和边框位置；

所述目标解析分支网络用于对所述若干个尺度的特征图中的一个特征图进行局部结构掩码关键点检测。

2.如权利要求1所述的基于深度学习的目标部位识别方法，其特征在于，所述分类输出为待识别目标类型与待识别目标局部结构类型；所述边框位置为待识别目标整体的位置和待识别目标局部结构的位置。

3.如权利要求1或2所述的基于深度学习的目标部位识别方法，其特征在于，

采用预设的训练集分别对所述主体卷积网络、分类与定位分支网络和目标解析分支网络进行网络训练；采用所述预设的训练集对所述深度卷积网络进行整体网络训练。

4.如权利要求3所述的基于深度学习的目标部位识别方法，其特征在于，采用对应的损失函数对所述网络训练的过程以及所述整体网络训练的过程进行约束。

5.如权利要求4所述的基于深度学习的目标部位识别方法，其特征在于，

式中，

是类别置信度预测值的softmax函数加权值，其表示为：

式中，

为类别p的置信度预测值；

式中，

式中l为先验框的所对应边界框的位置预测值；

式中，y_true与y_pred分别表示像素掩码标记值与预测值；

6.如权利要求5所述的基于深度学习的目标部位识别方法，其特征在于，所述主体卷积网络包括特征金字塔结构和残差网络。

7.如权利要求6所述的基于深度学习的目标部位识别方法，其特征在于，所述残差网络用于对输入的测试集中的图像进行特征提取，得到若干个层次特征；所述特征金字塔结构用于将所述若干个层次特征进行特征融合得到所述若干个尺度的特征图。

8.如权利要求7所述的基于深度学习的目标部位识别方法，其特征在于，所述残差网络的网络层次包括：conv1、conv2_x、conv3_x、conv4_x和conv5_x部分；通过特征金字塔结构对所述conv3_x、conv4_x和conv5_x这三个卷积输出结构进行特征融合，形成第一尺度特征图P3、第二尺度特征图P4和第三尺度特征图P5；所述第一尺度特征图P3的尺度特征＞所述第二尺度特征图P4的尺度特征＞所述第三尺度特征图P5的尺度特征。

9.如权利要求8所述的基于深度学习的目标部位识别方法，其特征在于，

10.如权利要求9所述的基于深度学习的目标部位识别方法，其特征在于，

采用全卷积网络对所述第一尺度特征图P3进行处理，得到目标解析结果，对该目标解析结果进行像素级分割定位，并采用标记工具对所述目标解析结果进行语义分割掩码位置标记。