CN112036400B

CN112036400B - 构建用于目标检测的网络的方法和目标检测方法及***

Info

Publication number: CN112036400B
Application number: CN202010656620.6A
Authority: CN
Inventors: 魏振忠; 张云皓; 许庭兵
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-04-05
Anticipated expiration: 2040-07-09
Also published as: CN112036400A

Abstract

本申请涉及一种构建用于目标检测的网络的方法和目标检测方法及***，其中，该目标检测方法，包括：使用第一深度学习网络提取图像的浅层特征图；使用第二深度学习网络在图像的浅层特征图上识别目标候选区域和目标尺寸分类，该目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；根据目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图；以及使用第三深度学习网络从最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位。通过该方法，至少提高了对高分辨率图像的目标检测速度。

Description

构建用于目标检测的网络的方法和目标检测方法及***

技术领域

本申请涉及目标检测领域，尤其涉及一种构建用于目标检测的网络的方法和目标检测方法及***。

背景技术

目标检测技术已经被研究了很多年，近年来，随着深度学习(Deep Learning)技术的飞速发展，有许多优秀的目标检测算法被提出。但是由于目标的尺寸变化、遮挡、光照以及图像分辨率的提高等因素影响，目标检测算法在计算机视觉领域仍然是一项非常具有挑战性的研究任务。目标检测可以用于获得目标的类别和目标在图像中的位置，在视觉任务中常用于为目标跟踪提供初值，以及为姿态计算提供目标区域减少姿态求解的计算量。

基于深度学习的目标检测方法，其网络可以分为骨干网络，特征融合网络，以及检测头网络。随着深度学习的发展，骨干网络的层数也随之增加，网络浅层的特征图主要包含低级信息，如边缘和位置信息。网络深层的特征图主要包含高级信息，如语义信息。检测任务包含识别和定位两部分，所以同时需要高级信息和低级信息，为了更好的检测结果，通常采用特征融合的方式，将浅层网络和深层网络相结合。

相关技术中，基于深度学习的检测方法按照检测策略主要分为两阶段网络和单阶段网络。其中单阶段网络由原图输入一次得到最后的预测框和类别分类，虽然检测速度有优势，但是当图像尺寸增大时，整体计算量会大大增加，因而无法实时检测高分辨率图像。两阶段网络是生成一系列较为精确的候选区域框，然后基于候选区域框再进行坐标回归，这样的策略看似可以用于高分辨率图像，但是生成精确的候选区域需要深层网络的支撑，所以也无法实时检测高分辨图像。

综上分析，常见的目标检测算法，无论是单阶段网络还是两阶段网络，其骨干网络部分都在面对高分辨率图像时占用了大部分的计算时间，所以无法实时检测高分辨率图像。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种构建用于目标检测的网络的方法和目标检测方法及***。

第一方面，本申请提供了一种目标检测方法，包括：使用第一深度学习网络提取图像的浅层特征图；使用第二深度学习网络在图像的浅层特征图上识别目标候选区域和目标尺寸分类，其中，目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；根据目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图；以及使用第三深度学习网络从最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位。

在一些实施例中，根据目标的候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图，包括：如果目标尺寸分类为第一类，使用第二深度学习网络在目标候选区域对应的浅层特征图上再次识别目标候选区域和目标尺寸分类；如果目标尺寸分类为第二类，将目标候选区域对应的浅层特征图，作为最终候选区域对应的浅层特征图；如果目标尺寸分类为第三类，将图像的浅层特征图进行降采样，得到最终候选区域对应的浅层特征图；其中，第一类、第二类及第三类对应的目标尺寸依次增大。

在一些实施例中，使用第二深度学习网络在图像的浅层特征图上识别目标候选区域和目标尺寸分类，包括：使用候选区域分类器(Candidate Region Classification，简称为CRC)基于图像的浅层特征图识别目标候选区域；使用行为分类器(BehaviorClassification，简称为BC)基于图像的浅层特征图识别目标尺寸分类。

在一些实施例中，使用候选区域分类器基于所述图像的浅层特征图识别目标候选区域，包括：使用候选区域分类器基于图像的浅层特征图识别目标候选区域，得到目标候选区域对应的编号，其中，编号指示图像上的图像块，每个图像块对应于图像上预定义的位置和大小。

在一些实施例中，使用第三深度学习网络从最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位，包括：使用骨干网络提取最终候选区域的浅层特征图的深层特征图；使用多层特征融合网络对各个深层特征图进行特征融合，以丰富特征图中包含的语义及位置边缘信息；在特征融合后的深层特征图上使用检测头网络预测目标的类别和位置，得到多个检测框结果，对多个检测框结果进行非极大值抑制，得到最终的检测结果。

在一些实施例中，使用候选区域分类器基于图像的浅层特征图识别目标候选区域之前，还包括：使用第一层卷积层整合特征的深度信息，其中，第一层卷积层使用1x1的卷积核，卷积核输入深度是256，输出深度是64；使用第二和第三层卷积层进一步提取用于空间预定位的特征；其中，第二和第三层卷积层为3x3的卷积核；使用兴趣区(Region ofInterest，简称为ROI)层将第三层卷积层输出的特征图调整为预设大小。

第二方面，本申请提供了一种构建用于目标检测的网络的方法，包括：获取训练图像集及图像标签，其中，图像标签包括：目标候选区域标签和目标尺寸分类标签，其中，目标候选区域标签标记目标所在图像块的编号，目标尺寸分类标签标记目标尺寸类别，图像被划分为多个有重叠的图像块，每个图像块对应于图像上预定义的位置和大小；其中，目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；使用第一深度学习网络提取图像集中图像的浅层特征；基于提取出的浅层特征和图像标签训练第二深度学习网络，以使第二深度学习网络能够基于图像的浅层特征识别目标候选区域和目标尺寸分类；根据第二深度学习网络输出的目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图；以及基于选择出的最终候选区域对应的浅层特征图训练第三深度学习网络，以使第三深度学习网络能够基于最终候选区域对应的浅层特征图提取深层特征图并进行目标识别和定位。

在一些实施例中，基于提取出的浅层特征和图像标签训练第二深度学习网络，包括：基于提取出的浅层特征和目标候选区域标签训练候选区域分类器，以使候选区域分类器能够基于图像的浅层特征识别目标候选区域；基于提取出的浅层特征和目标候选区域标签训练行为分类器，以使行为分类器能够基于图像的浅层特征识别目标尺寸分类。

在一些实施例中，第二深度学习网络的损失函数为候选区域分类器的损失函数与行为分类器的损失函数之和。

第三方面，本申请提供了一种目标检测***，该目标检测***包括：摄像机成像单元，被配置为采集图像；传输单元，被配置为传输图像；计算机设备，该计算机设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；该计算机程序被处理器执行时目标检测方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法及***，使用第一深度学习网络提取图像的浅层特征图，使用第二深度学习网络基于图像的浅层特征图识别目标候选区域和目标尺寸分类，并基于目标候选区域和目标尺寸分类选择最终候选区域，使用第三深度学习网络在最终候选区域对应的浅层特征图上进行深层目标识别和定位，至少提高了高分辨率图像的目标识别速度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用于目标检测的深度学习网络的一种实施方式的结构示意图；

图2为根据本申请实施例的构建用于目标检测的深度学习网络的方法一种实施方式的流程图；

图3为本申请实施例提供的具有重叠的图像块一种实施方式的示意图；

图4为根据本申请实施例的目标检测方法一种实施方式的流程图；

图5为根据本申请实施例的目标检测***一种实施方式的示意图；

图6为根据本申请实施例的目标检测方法与其他方法的P-R曲线图；以及

图7为根据本申请实施例的目标检测方法与其他方法的检测结果对比图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例中，如图1所示，用于目标检测的深度学习网络包括：第一深度学习网络10，在本文中也称为浅层特征提取网络，设置为提取图像的浅层特征图；第二深度学习网络20，在本文中也称为空间预定位网络，设置为基于第一深度学习网络10提取的浅层特征图识别目标候选区域和目标尺寸类型，其中，目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；第三深度学习网络30，在本文中也称为深层特征提取及检测网络，设置为基于目标候选区域对应的浅层特征图进行深层特征提取及目标识别和定位。

在某些实施例中，第二深度学习网络20，被设置为基于图像的浅层特征图识别目标候选区域，得到目标候选区域在图像上的编号，其中，每个编号对应于图像上的图像块，图像块对应于图像上预定义的大小和位置。从而通过目标候选区域的编号，确定目标候选区域在图像上的位置和大小。优选地，相同分辨率的图像上图像块的大小和位置相同。由此，以分类的方法实现目标候选区域的识别，而无需通过较深层的特征图来检测目标的位置。在某些实施例中，预先存储图像块的编号与图像块在图像上的位置和大小的对应关系。

在本申请实施例中，如图1所示，第二深度学习网络20与第三深度学习网络30之间，包括：最终候选区域选择模块40，设置为根据第二深度学习网络20识别出的目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图。在本文中，最终候选区域选择模块40也可视为第二深度学习网络20的一部分，本文对此不做限定。

在某些实施例中，作为示例性说明，目标尺寸分类被定义为第一类、第二类和第三类。其中，第一类为目标大小远小于(例如小于设定阈值)目标候选区域的大小的情况，第三类为目标大小大于目标候选区域的情况；除第一类和第三类之外的其他情况为第二类。

在某些实施例中，浅层特征图包括但不限于位置、轮廓等低级特征。第一深度学习网络20设置为提取浅层特征图。作为一个示例性说明，第一深度学习网络20可包括11层卷积神经网络，也可以用常见骨干网络(例如，RetinaNet等，但不限于此)的前几层(例如，使用ResNet50的前11层，但不限于此)。

在某些实施例中，参考图1所示，第二深度学习网络20包括：候选区域分类器(CRC)21，设置为基于图像的浅层特征图识别目标候选区域；行为分类器(BC)22，设置为基于图像的浅层特征图识别目标尺寸分类。

在某些实施例中，候选区域分类器21，被设置为基于图像的浅层特征图识别目标候选区域，得到目标候选区域在图像上的编号，其中，图像被划分为多个有重叠的图像块，每个图像块具有编号，每个图像块具有预定义的大小和位置。优选地，相同分辨率的图像上图像块的大小和位置相同。由此，以分类的方法实现目标候选区域的识别。

在某些实施例中，参考图1所示，第二深度学习网络20还包括：卷积神经网络23，卷积神经网络23的输入端与第一深度学习网络10的输出连接，卷积神经网络23的输出端分别与候选区域分类器21和行为分类器22的输入端连接，被设置为在图像的浅层特征图上进一步提取用于空间定位的特征。

在某些实施例中，如图1所示，第三深度学习网络30包括：骨干网络31，多层特征融合网络32以及检测头网络33。骨干网络30，被设置为提取最终候选区域的浅层特征图的深层特征图。多层特征融合网络32，被设置为对各个深层特征图进行特征融合，以丰富特征图中包含的语义及位置边缘信息。检测头网络33，被设置为在特征融合后的深层特征图上预测目标的类别和位置，得到多个检测框结果，对多个检测框结果进行非极大值抑制，得到最终的检测结果。

在某些实施例中，最终候选区域选择模块40，设置为按照以下方式选择最终候选区域：如果目标尺寸分类为第一类，使用第二深度学习网络20在目标候选区域对应的浅层特征图上再次识别目标候选区域和目标尺寸分类；如果目标尺寸分类为第二类，将目标候选区域对应的浅层特征图，作为最终候选区域对应的浅层特征图；如果目标尺寸分类为第三类，将图像的浅层特征图进行降采样，得到最终候选区域对应的浅层特征图；其中，第一类、第二类及第三类对应的目标尺寸依次增大，第一类也被称为“S”，第二类也被称为“M”，第三类也被称为“L”，但不限于此。

为了更详细描述本申请实施例，将从训练模型和使用模型进行目标检测两个过程来进一步说明。

图2为根据本申请实施例的构建用于目标检测的深度学习网络的方法一种实施方式的流程图，如图2所示，该方法包括步骤S202至步骤S210。

步骤S202，获取训练图像集及图像标签。

在本申请实施例中，图像标签包括：目标候选区域标签和目标尺寸分类标签，其中，目标候选区域标签标记目标所在图像块的编号，目标尺寸分类标签标记目标尺寸类别，训练图像集中的图像被划分为多个有重叠的图像块(每个图像块作为候选区域)，每个图像块具有大小和位置，并具有图像块的编号，由此，通过图像块的编号确定图像块在图像上的大小和位置。其中，目标尺寸分类指示目标大小与目标候选区域大小(图像块的大小)的大小关系。

步骤S204，使用第一深度学习网络提取图像集中图像的浅层特征。其中，浅层特征图包括但不限于位置、轮廓等低级特征。

步骤S206，基于提取出的浅层特征和图像标签训练第二深度学习网络，以使第二深度学习网络能够基于图像的浅层特征识别目标候选区域和目标尺寸分类。

步骤S208，根据第二深度学习网络输出的目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图。

步骤S210，基于选择出的最终候选区域对应的浅层特征图训练第三深度学习网络，以使第三深度学习网络能够基于最终候选区域对应的浅层特征图提取深层特征图并进行目标识别和定位。

在某些实施中，给定一个实例，对于检测任务给出它的坐标框大小和位置，同时我们还给出候选区域分类器和行为分类器的标签值。如图3所示，将图像分为有重合多个区域，按顺序给定每个区域编号，并用nw、nh和ξ来控制候选区域框的大小，其中nw和nh为水平和竖直方向候选区域框的个数，ξ为候选区域框之间的重合度。此时可被完整检测的目标的大小可以根据以下公式算出：

rw·nw＝W+ξ·rw(nw-1) (1)

rh·nh＝H+ξ·rh(nh-1) (2)

mw＝ξ·rw (5)

mh＝ξ·rh (6)

其中H和W分别为原始图像的高和宽，rw和rh为候选区域的尺寸，mw和mh为可完整包含于候选区域中的目标的尺寸(即目标出现在图中任意位置都可以被一个候选区域完包括)。

对于一个实例，它的候选区域分类器的真值为距离实例中心最近的候选区域的序号，用k_c来表示。它的行为分类器的真值k_b可根实例的尺寸(w,h)来判断，如果(w,h)＞ξ·(rw,rh)，则k_b记为L，如果

则k_b记为S，其余情况下，k_b记为M。

对于一个实例，它的坐标框大小和位置应该修改为其在对应候选区域中的新值，可以用以下公式进行计算：

其中，λ_dx为降采样造成的缩放比例，k_c2为对于k_b记为S时执行第二次空间预定位时，候选区域分类器的值。

其中，λ_dy为降采样造成的缩放比例，rh是候选区域的尺寸，rh2是对于k_b记为S时执行第二次空间预定位时，候选区域的尺寸。

其中，λ_dx为降采样造成的缩放比例。

其中，λ_dy为降采样造成的缩放比例。

在步骤S204中，将训练图像集中的图像送入第一深度学习网络(浅层特征提取网络)，得到完整图像的浅层特征图，用Pn表示。作为示例性说明，第一深度学习网络使用ResNet50的前11层。

在步骤S206中，利用第二深度学习网络在浅层特征Pn基础上的得到目标候选区域及目标尺寸分类。参考图2所示，第二深度学习网络包括在Pn后的三层卷积层，其中第一层参数使用1x1的卷积核，卷积核输入深度是256，输出深度是64，目的是整合特征的深度信息，再连接两个3x3的卷积核，用于更好的提取所需的特征信息。然后通过ROI层将特征图调整为固定的大小，最后分别连接两个全连接层作为候选区域分类器和行为分类器的输出。

在步骤S208中，根据候选区域分类器和行为分类器的输出，结合完整图像的浅层特征图Pn，生成最终候选区域的浅层特征图Pn'。生成过程根据行为分类器的输出，可分三种不同的生成方式。

(1)行为分类器输出为L，则此时目标为大目标，为了候选区域能完整包含目标，将完整图像的浅层特征图Pn降采样得到Pn'，这是因为对于大目标，降采样不会导致目标的漏检。

(2)行为分类器输出为M，则此时目标为中等目标，此时目标一定可以被一个候选区域完整包围。再根据候选区域分类器的输出，在完整图像的浅层特征图Pn上裁剪出对应的区域，得到最终候选区域的浅层特征Pn'。

(3)行为分类器输出为S，此时目标为小目标，可以细化候选区域。根据候选区域分类器的输出，在完整图像的浅层特征图Pn上裁剪出对应的区域，得到候选区域的浅层特征，将其连接到空间预定位网络，再次进行候选区域的生成，得到细化后的候选区域的浅层特征图Pn'，并将其作为最终候选区域的浅层特征图。

在步骤S210中，第三深度学习网络(例如，使用ResNet50的后39层)对最终获选区域的浅层特征图Pn'继续提取深层特征。这样便得到候选区域一系列由浅层到深层的特征图。之后融合这些特征图，丰富特征图中包含的语义及位置边缘信息，可以利用FPN方法，也可以使用其他类似方法。在融合后的特征图上利用检测头网络预测目标的类别和位置，这里的检测头网络可以是任意常用的检测网络，为了保证检测速度，可选择RetinaNet。

在步骤S206和步骤S210中，计算损失函数，并更新模型参数。损失函数的计算共包含两大部分，分别是第二深度学习网络(空间预定位网络)L_P的损失和第三深度学习网络中检测头网络的损失L_D。

第二深度学习网络的损失函数包括候选区域分类器的损失以及行为分类器的损失，可根据如下公式计算：

这里y_i'是真实标签，y_i是分类器的输出，k_b是行为分类器的真值，如果k_b为S，即需要细化候选区域，则g_i是第二次分类器的输出，g_i'是第二次分类器的真值。λ₁是用于平衡两个分类器的超参数。

检测头网络的损失函数包括类别分类损失和坐标回归损失，其中类别损失采用focalloss可根据如下公式计算：

L_D＝FL+λ₂L_reg (15)

这里，y_i是类别的预测值，L_reg是框坐标的回归损失，λ₂是用于平衡分类和回归两部分的超参数。

在得到所有损失之后，根据反向传播即可更新网络的参数。

图4为根据本申请实施例的目标检测方法一种实施方式的流程图，如图4所示，该目标检测方法包括步骤S402至步骤S408。

步骤S402，使用第一深度学习网络提取图像的浅层特征图。其中，浅层特征图包括但不限于位置、轮廓等低级特征。

步骤S404，使用第二深度学习网络在图像的浅层特征图上识别目标候选区域和目标尺寸分类。其中，目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系。

步骤S406，根据目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图。

步骤S408，使用第三深度学习网络从最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位。

在一些实施例中，步骤S404中，根据目标的候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图，包括：如果目标尺寸分类为第一类，使用第二深度学习网络在目标候选区域对应的浅层特征图上再次识别目标候选区域和目标尺寸分类；如果目标尺寸分类为第二类，将目标候选区域对应的浅层特征图，作为最终候选区域对应的浅层特征图；如果目标尺寸分类为第三类，将图像的浅层特征图进行降采样，得到最终候选区域对应的浅层特征图；其中，第一类、第二类及第三类对应的目标尺寸依次增大。

在一些实施例中，步骤S404中，使用第二深度学习网络在图像的浅层特征图上识别目标候选区域和目标尺寸分类，包括：使用候选区域分类器(CRC)基于图像的浅层特征图识别目标候选区域；使用行为分类器(BC)基于图像的浅层特征图识别目标尺寸分类。

在一些实施例中，步骤S404中，使用候选区域分类器基于图像的浅层特征图识别目标候选区域，得到目标候选区域对应的编号，其中，编号指示图像上的图像块，其中图像块具有预定义的大小和位置，由此根据图像块的编号确定目标候选区域的大小和位置。

在一些实施例中，步骤S408中，使用第三深度学习网络从最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位，包括：使用骨干网络提取最终候选区域的浅层特征图的深层特征图；使用多层特征融合网络对各个深层特征图进行特征融合，以丰富特征图中包含的语义及位置边缘信息；在特征融合后的深层特征图上使用检测头网络预测目标的类别和位置，得到多个检测框结果，对多个检测框结果进行非极大值抑制，得到最终的检测结果。

在一些实施例中，在上述步骤S404中，使用候选区域分类器基于图像的浅层特征图识别目标候选区域之前，还包括：使用第一层卷积层整合特征的深度信息，其中，第一层卷积层使用1x1的卷积核，卷积核输入深度是256，输出深度是64；使用第二和第三层卷积层进一步提取用于空间预定位的特征；其中，第二和第三层卷积层为3x3的卷积核；使用兴趣区(ROI)层将第三层卷积层输出的特征图调整为预设大小。

图5为根据本申请实施例的目标检测***一种实施方式的示意图，如图5所示，该***包括：摄像机成像单元60，被配置为采集图像；传输单元70，被配置为传输图像；计算机设备80。

本申请实施例中的计算机设备80，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备80至少包括但不限于：可通过***总线相互通信连接的存储器81、处理器82，如图6所示。需要指出的是，图5仅示出了具有组件81-82的计算机设备80，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器81(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备80的内部存储单元，例如该计算机设备80的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备80的外部存储设备，例如该计算机设备80上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器81还可以既包括计算机设备80的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备80的操作***和各类应用软件，例如本文所述的目标检测方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备80的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如目标检测方法的程序代码，以实现目标检测方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储目标检测方法的程序代码，被处理器执行时实现目标检测方法。

实验数据

本实施例中，采用自建的飞机及起落架数据集，数据集中的图片分辨率约为1920*1080，图片包含飞机和起落架两个类别的待检测目标。其中飞机以不同的姿态，位置和大小出现在图像中，起落架可能收起可能放下。数据集一共包括3775图片和超过12000实例，其中，训练集、验证集和测试集分别包括3000、200和575张。实例的尺寸覆盖从1527像素到5像素。高分辨率的图像以及多尺度的实例，可以很好的验证我们的本申请实施例。

所有实验都使用2080Ti显卡。

采用目标检测领域最常用的两个评价指标平均精度(Average Precision)和推理速度(ms)来进行效果评价。其中平均精度AP采用PASCAL VOC CHALLENGE的计算方法，它反映了某一个类别被检测的准确率(Precision)和召回率(Recall)，准确率是指所有被检测到的对象中，检测正确的比例，召回率是指所有被检测出来的对象中，检测正确的数量与真实目标数量的比例。AP越接近1，则该类别的检测质量越高。对于全部类别的评价，采用mAP来表示，它是所有类别AP的平均值。推理速度表示了算法的执行效率，是指每张图像处理的时间，时间越短表示算法的执行效率越高。

为了验证本申请实施例中空间预定位网络(第二深度学***比较，RetianNet使用ResNet-50作为骨干网络，本申请实施例的目标检测方法中浅层特征提取网络(第一深度学习网络)与深层特征提取网络也使用ResNet-50，并且检测头网络与RetinaNet相同。

表1展示了空间预定位网络中候选区域分类器(CRC)的重要性，相比于RetinaNet，我们的方法在加入候选区域分类器后，显著提升了对小目标的检测效果，同时相比于RetiaNet处理1920*1080分辨率的图片，本申请实施例的方法检测速度显著降低。

表1为候选区域分类器的验证数据

表2展示了空间预定位网络中行为分类器(BC)的重要性，相比于只加入候选区域分类器的方法，行为分类器显著提升了对大目标的检测精度，原因是行为分类器可以有效防止大尺寸目标被切割。同时并没有导致推理速度的降低。

表2为行为分类器的验证数据

最后，将本申请实施例的方法同流行的检测模型进行比较。采用的数据集为自建的飞机及起落架数据集。实验结果如表3所示。在相同的推理时间内，本申请实施例的方法可以处理更高分辨率的图像，因而可以得到更高的AP指标。

表3同其他方法的比较

图6展示了本申请实施例的方法与其他方法的P-R曲线，其中，本申请实施例的方法均使用1920*1080作为输入，(a)(b)分表表示对飞机和起落架两类目标的P-R曲线，其中对比方法使用608/608作为图像分辨率。(a)(b)分表表示对飞机和起落架两类目标的P-R曲线，其中对比方法使用960/960作为图像分辨率。

图7展示了对比其他先进检测方法的检测效果示意图。本申请实施例的方法可以很好的检测这些图片中的飞机和起落架，而其他方法会不同程度存在漏检或者误检。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种目标检测方法，其特征在于，包括：

使用第一深度学习网络提取图像的浅层特征图；

使用第二深度学习网络在所述图像的浅层特征图上识别目标候选区域和目标尺寸分类，其中，所述目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；

根据所述目标候选区域和所述目标尺寸分类，选择最终候选区域对应的浅层特征图，包括：

如果所述目标尺寸分类为第一类，使用所述第二深度学习网络在所述目标候选区域对应的浅层特征图上再次识别目标候选区域和目标尺寸分类；

如果所述目标尺寸分类为第二类，将所述目标候选区域对应的浅层特征图，作为最终候选区域对应的浅层特征图；

如果所述目标尺寸分类为第三类，将所述图像的浅层特征图进行降采样，得到最终候选区域对应的浅层特征图；

其中，所述第一类、所述第二类及所述第三类对应的目标尺寸依次增大；

以及，

使用第三深度学习网络从所述最终候选区域对应的浅层特征图上提取用于目标检测的深层特征图，并根据提取的深层特征图进行目标识别和定位，包括：

使用骨干网络提取所述最终候选区域的浅层特征图的深层特征图；

使用多层特征融合网络对各个深层特征图进行特征融合，以丰富特征图中包含的语义及位置边缘信息；

在特征融合后的深层特征图上使用检测头网络预测目标的类别和位置，得到多个检测框结果，对所述多个检测框结果进行非极大值抑制，得到最终的检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，使用第二深度学习网络在所述图像的浅层特征图上识别目标候选区域和目标尺寸分类，包括：

使用候选区域分类器基于所述图像的浅层特征图识别目标候选区域；

使用行为分类器基于所述图像的浅层特征图识别目标尺寸分类。

3.根据权利要求2所述的目标检测方法，其特征在于，使用候选区域分类器基于所述图像的浅层特征图识别目标候选区域，包括：

使用候选区域分类器基于所述图像的浅层特征图识别目标候选区域，得到目标候选区域对应的编号，其中，所述编号指示图像上的图像块，每个图像块对应于图像上预定义的位置和大小。

4.根据权利要求2所述的目标检测方法，其特征在于，使用候选区域分类器基于所述图像的浅层特征图识别目标候选区域之前，还包括：

使用第一层卷积层整合特征的深度信息，其中，所述第一层卷积层使用1x1的卷积核，卷积核输入深度是256，输出深度是64；

使用第二和第三层卷积层进一步提取用于空间预定位的特征，其中，所述第二和第三层卷积层为3x3的卷积核；

使用兴趣区ROI层将第三层卷积层输出的特征图调整为预设大小。

5.一种构建用于目标检测的网络的方法，其特征在于，包括：

获取训练图像集及图像标签，其中，所述图像标签包括：目标候选区域标签和目标尺寸分类标签，其中，所述目标候选区域标签标记目标所在图像块的编号，所述目标尺寸分类标签标记目标尺寸类别，所述图像被划分为多个有重叠的图像块，每个图像块对应于图像上预定义的位置和大小；其中，所述目标尺寸分类指示目标大小与目标候选区域的大小之间的大小关系；

使用第一深度学习网络提取所述图像集中图像的浅层特征；

基于提取出的浅层特征和所述图像标签训练第二深度学习网络，以使第二深度学习网络能够基于图像的浅层特征识别目标候选区域和目标尺寸分类；

根据所述第二深度学习网络输出的目标候选区域和目标尺寸分类，选择最终候选区域对应的浅层特征图，包括：

其中，所述第一类、所述第二类及所述第三类对应的目标尺寸依次增大；以及

基于选择出的最终候选区域对应的浅层特征图训练第三深度学习网络，以使第三深度学习网络能够基于最终候选区域对应的浅层特征图提取深层特征图并进行目标识别和定位，包括：

6.根据权利要求5所述的方法，其特征在于，基于提取出的浅层特征和所述图像标签训练第二深度学习网络，包括：

基于提取出的浅层特征和目标候选区域标签训练候选区域分类器，以使所述候选区域分类器能够基于图像的浅层特征识别目标候选区域；

基于提取出的浅层特征和目标候选区域标签训练行为分类器，以使所述行为分类器能够基于图像的浅层特征识别目标尺寸分类。

7.根据权利要求6所述的方法，其特征在于，所述第二深度学习网络的损失函数为所述候选区域分类器的损失函数与所述行为分类器的损失函数之和。

8.一种目标检测***，其特征在于，所述目标检测***包括：

摄像机成像单元，被配置为采集图像；

传输单元，被配置为传输图像；

计算机设备，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的目标检测方法的步骤。