CN113255589A

CN113255589A - 一种基于多卷积融合网络的目标检测方法及***

Info

Publication number: CN113255589A
Application number: CN202110707169.0A
Authority: CN
Inventors: 陈克鹏
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-08-13
Anticipated expiration: 2041-06-25
Also published as: CN113255589B

Abstract

本发明涉及一种基于多卷积融合网络的目标检测方法及***，该方法包括：将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集；构建用于图像目标检测的网络结构；根据所述数据集训练所述用于图像目标检测的网络结构，获得图像目标检测模型；利用所述图像目标检测模型，对待检测图像数据进行目标检测；所述用于图像目标检测的网络结构包括：ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头。本发明增强了图像目标的表征能力，进而提高了检测准确性。

Description

一种基于多卷积融合网络的目标检测方法及***

技术领域

本发明涉及图像处理领域，特别是涉及一种基于多卷积融合网络的目标检测方法及***。

背景技术

近年来，无人机产业飞速发展，并在救援、测绘、货运、侦察、交通监管等方面得到了广泛应用。对航拍图像中的目标进行准确检测是无人机得以成功完成各项任务的前提条件，然而由于成像角度和高度的影响，航拍图像中的目标往往存在视觉面积较小、分辨率低、背景干扰多等特点，自身特征信息较少，相比自然场景图像中的目标，检测难度更大，目前，航拍图像的检测准确度有待提高。

发明内容

本发明的目的是提供一种基于多卷积融合网络的目标检测方法及***，提高了检测准确度。

为实现上述目的，本发明提供了如下方案：

一种基于多卷积融合网络的目标检测方法，包括：

将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集；

构建用于图像目标检测的网络结构；

根据所述数据集训练所述用于图像目标检测的网络结构，获得图像目标检测模型；

利用所述图像目标检测模型，对待检测图像数据进行目标检测；

所述用于图像目标检测的网络结构包括：ResNet101网络、多卷积融合网络、区域生成网络、ROI池化层和检测头；

所述ResNet101网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块；所述多卷积融合网络包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块；

所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块均用于对输入的图像进行多卷积特征融合；

所述第五卷积模块的输出连接所述第五多卷积融合模块的输入，所述第四卷积模块的输出连接所述第四多卷积融合模块的输入，所述第三卷积模块的输出连接所述第三多卷积融合模块的输入，所述第二卷积模块的输出连接所述第二多卷积融合模块的输入，所述第一卷积模块的输出连接所述第一多卷积融合模块的输入；所述第五多卷积融合模块输出为第五特征图，所述第五特征图通过2倍上采样与所述第四多卷积融合模块的输出按元素相加输出第四特征图，所述第四特征图通过2倍上采样与所述第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图，所述第三特征图通过2倍上采样与所述第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图，所述第二特征图通过2倍上采样与所述第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图；所述第一特征图、所述第二特征图、所述第三特征图、所述第四特征图和所述第五特征图均输入所述区域生成网络；所述区域生成网络连接所述ROI池化层，所述ROI池化层连接所述检测头，所述检测头用于输出检测结果。

可选地，所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同，均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块；

所述第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作，所述第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作，所述第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作，所述第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作；所述第一卷积分支输出的特征图输入所述第一SEnet注意力机制模块，所述第二卷积分支输出的特征图输入所述第二SEnet注意力机制模块，所述第三卷积分支输出的特征图输入所述第三SEnet注意力机制模块，所述第四卷积分支输出的特征图输入所述第四SEnet注意力机制模块；

所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化，得到尺寸为1×1×512的特征图，将尺寸为1×1×512的特征图输入第一全连接层，所述第一全连接层输出尺寸为1×1×512/r的特征图，采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作，通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图；所述r为设定值；

所述第一SEnet注意力机制模块、所述第二SEnet注意力机制模块、所述第三SEnet注意力机制模块和所述第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作，获得特征融合特征图，对所述特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。

可选地，所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同，尺寸均为64×64×512。

可选地，所述检测头包括回归支路和分类支路；所述分类支路利用分类损失确定检测目标的类别，所述回归支路利用回归损失确定检测目标的位置信息。

可选地，所述将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集，具体包括：

通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据；

对所述图像数据进行亮度、饱和度和对比度的随机调整，获得预处理后的图像数据；

将预处理后的图像数据划分为训练集和测试集；

采用Labelme软件对所述训练集中各图像中的车辆目标进行类别标注，获得标注后的所述训练集；所述测试集和类别标注后的所述训练集构成所述数据集。

可选地，所述根据所述数据集训练图像目标检测的网络结构，获得图像目标检测模型，具体包括：

根据所述数据集训练图像目标检测的网络结构时，计算损失函数，根据所述损失函数调整所述网络结构中的参数，获得图像目标检测模型；所述损失函数包括分类损失和回归损失。

可选地，所述损失函数表示为：

；

其中，

表示所述损失函数，i表示第i个样本，

为第一归一化参数，

为第二归一化参数，

为权重的平衡参数，

表示分类损失，

表示回归损失，

表示第i个样本被预测为车辆的概率，

是第i个样本已标注的标签，

表示预测边框的平移缩放参数，

表示真实边框的平移缩放参数。

本发明还公开了一种基于多卷积融合网络的目标检测***，包括：

数据集采集模块，用于将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集；

网络构建模块，用于构建用于图像目标检测的网络结构；

图像目标检测模型训练模块，用于根据所述数据集训练所述用于图像目标检测的网络结构，获得图像目标检测模型；

目标检测模块，用于利用所述图像目标检测模型，对待检测图像数据进行目标检测；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过多卷积融合网络的各多卷积融合区模块融合不同的特征信息，并对不同的特征信息进行多尺度融合，从而增强了图像目标的表征能力，进而提高了检测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于多卷积融合网络的目标检测方法流程示意图；

图2为本发明用于图像目标检测的网络结构示意图一；

图3为本发明用于图像目标检测的网络结构示意图二；

图4为本发明多卷积融合模块结构图；

图5为本发明一种基于多卷积融合网络的目标检测方法简图；

图6为本发明一种基于多卷积融合网络的目标检测***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种图像目标检测的网络结构及方法，提高了检测准确度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种基于多卷积融合网络的目标检测方法流程示意图，如图1所示，一种基于多卷积融合网络的目标检测方法包括以下步骤：

步骤101：将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集。

其中，步骤101具体包括：

通过无人机携带的摄像头采集交通枢纽中来往车辆的图像数据。

对图像数据进行亮度、饱和度和对比度的随机调整，获得预处理后的图像数据。

将预处理后的图像数据划分为训练集和测试集。

采用Labelme软件对训练集中各图像中的车辆目标进行类别标注，获得标注后的训练集；测试集和类别标注后的训练集构成数据集。

步骤102：构建用于图像目标检测的网络结构。

步骤103：根据数据集训练用于图像目标检测的网络结构，获得图像目标检测模型。

其中，步骤103具体包括：

根据数据集训练图像目标检测的网络结构时，计算损失函数，根据损失函数调整网络结构中的参数，获得图像目标检测模型；损失函数包括分类损失和回归损失。

损失函数表示为：

；

其中，

表示损失函数，i表示第i个样本，

为第一归一化参数，

为第二归一化参数，

为权重的平衡参数，

表示分类损失，

表示回归损失，

表示第i个样本被预测为车辆的概率，

是第i个样本已标注的标签，

表示预测边框的平移缩放参数，

表示真实边框的平移缩放参数。

步骤104：利用图像目标检测模型，对待检测图像数据进行目标检测。

图2-图3为本发明用于图像目标检测的网络结构示意图，如图2和图3所示，用于图像目标检测的网络结构包括：ResNet101网络201、多卷积融合网络202、区域生成网络203、ROI（region of interest）池化层204和检测头205。

ResNet101网络201包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块；多卷积融合网络202包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块。

第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块均用于对输入的图像进行多卷积特征融合。

第五卷积模块的输出连接第五多卷积融合模块的输入，第四卷积模块的输出连接第四多卷积融合模块的输入，第三卷积模块的输出连接第三多卷积融合模块的输入，第二卷积模块的输出连接第二多卷积融合模块的输入，第一卷积模块的输出连接第一多卷积融合模块的输入；第五多卷积融合模块输出为第五特征图，第五特征图通过2倍上采样与第四多卷积融合模块的输出按元素相加输出第四特征图，第四特征图通过2倍上采样与第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图，第三特征图通过2倍上采样与第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图，第二特征图通过2倍上采样与第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图；第一特征图、第二特征图、第三特征图、第四特征图和第五特征图输入区域生成网络203；区域生成网络203连接ROI池化层204，ROI池化层204连接检测头205，检测头205用于输出检测结果。区域生成网络203用于生成一系列的候选目标区域。

ROI池化层204中的算法具体为：根据第一特征图和区域生成网络203生成的候选目标区域提取特征图，根据第二特征图和区域生成网络203生成的候选目标区域提取特征图，根据第三特征图和区域生成网络203生成的候选目标区域提取特征图，根据第四特征图和区域生成网络203生成的候选目标区域提取特征图。

图4为本发明多卷积融合模块结构图，如图4所示，第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块结构相同，均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块。

第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作，第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作，第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作，第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作；第一卷积分支输出的特征图输入第一SEnet注意力机制模块，第二卷积分支输出的特征图输入第二SEnet注意力机制模块，第三卷积分支输出的特征图输入第三SEnet注意力机制模块，第四卷积分支输出的特征图输入第四SEnet注意力机制模块。

第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块均基于通道维度对输入的特征图进行全局平均池化，得到尺寸为1×1×512的特征图，将尺寸为1×1×512的特征图输入第一全连接层，第一全连接层输出尺寸为1×1×512/r的特征图，采用ReLU激活函数对尺寸为1×1×512/r的特征图进行激活操作，通过第二全连接层将尺寸为1×1×512/r的特征图扩充为1×1×512后再经过Sigmoid函数输出包含通道注意力信息的特征图；r为设定值。

第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块和第四SEnet注意力机制模块输出的四个包含通道注意力信息的特征图进行元素级的加和操作，获得特征融合特征图，对特征融合特征图进行卷积核为1*1、步长为1、像素填充为0的卷积操作后输出。

第一卷积分支、第二卷积分支、第三卷积分支和第四卷积分支输出的特征的尺寸相同，尺寸均为64×64×512。

检测头205包括回归支路和分类支路；分类支路利用分类损失确定检测目标的类别，回归支路利用回归损失确定检测目标的位置信息。

采用航拍图像数据集对图像目标检测的网络结构进行训练及参数优化，最后进行模型测试，利用图像目标检测模型对待检测车辆图像进行目标检测。

本发明公开了一种多卷积融合模块，并将多卷积融合模块与多尺度特征融合技术相结合，提出了一种图像目标检测的网络结构，本发明一种图像目标检测的网络结构为新型的深度神经网络结构，其特点是采用基于特征金字塔网络(Feature Pyramid Network,FPN)的Faster RCNN网络结构针对整张航拍图像进行目标检测，并在该网络结构中嵌入多个多卷积融合模块来挖掘和提取多种不同属性的目标关键特征信息，从而提高深度神经网络对航拍图像目标的检测准确率。

下面详细说明本发明一种基于多卷积融合网络的目标检测方法。

如图5所示，一种基于多卷积融合网络的目标检测方法具体包括以下步骤。

Step1、构建航拍图像数据集。具体过程为：首先通过无人机摄像头采集交通枢纽来往车辆的图像数据；其次，通过预处理操作对采集所得原始图像进行亮度、饱和度和对比度的随机调整；接下来，基于Labelme软件对图像中的航拍车辆目标进行类别标注，从而得到可扩展标记语言(Extensible Markup Language, XML)格式的标注文件；最后，进行训练集和测试集划分，为训练集中的数据制作标签，测试集中的数据不作处理。

Step2、搭建深度神经网络（图像目标检测的网络结构），并采用航拍图像数据集中的训练集训练深度神经网络模型，得到航拍图像检测模型，以本发明输入航拍图像1024×1024为例，描述具体过程如下：

设计多卷积融合模块（包括第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块），并嵌入Faster RCNN网络的骨干网络ResNet101中。本发明中Faster RCNN所使用的骨干网络为ResNet101，用其来提取航拍图像的特征，ResNet101网络201由5个卷积模块(conv1、conv2、conv3、conv4、conv5)组成，如图3所示，设计多卷积融合模块，并将其分别嵌入5个卷积模块之后，以便使后续特征图都包含所提取到的不同属性的目标关键信息。如图3所示，以本发明输入航拍图像1024×1024为例，其经过前三个卷积模块(conv1、conv2、conv3)后输出特征图C_3的尺寸为128×128×512，将该特征图作为多卷积融合模块（第三多卷积融合模块）的输入，展示多卷积融合模块的设计过程：

如图4所示，首先设计多卷积分支结构，将经过conv3（第三卷积模块）后输出的特征图作为本结构的输入特征图。将该特征图输入不同的卷积分支，即对该特征图分别进行四种不同的卷积操作，包括卷积核为1*1、步长为3、像素填充为0的卷积操作，卷积核为3*3、步长为2、像素填充为1的卷积操作，卷积核为5*5、步长为2、像素填充为2的卷积操作以及卷积核为7*7、步长为2、像素填充为3的卷积操作，从而得到四种尺寸相同但包含不同特征信息的特征图（尺寸为64×64×512）。

接下来，构建SEnet注意力机制，并将SEnet注意力机制嵌入多卷积分支结构之后。首先进行SEnet注意力机制的构建，如图4所示，以多卷积分支结构的四个输出特征图作为SEnet注意力机制的输入，SEnet注意力机制的设计过程为：将经过多卷积分支结构的四个特征图（尺寸均为64×64×512）作为本模块的输入特征图，首先基于通道维度对输入特征图进行全局平均池化，分别得到四个尺寸为1×1×512的特征图。然后将这四个特征图输入一个全连接层，该全连接层的作用是将尺寸为1×1×512的特征图的通道数缩减为原来的r分之一，减少全连接层的计算量，即输出四个尺寸为1×1×512/r的特征图。采用ReLU激活函数对四个特征图分别进行激活操作，再次采用第二个全连接层将四个特征图从1×1×512/r扩充为1×1×512大小，最终经过Sigmoid函数将512层特征图的权重限制到[0，1]的范围。四个特征图的512个通道与该输出权重1×1×512相乘，从而输出四个包含通道注意力信息的特征图（尺寸为64×64×512）。SEnet注意力机制的计算公式如下：

B=σ（FC（ReLu（FC（Avgpool（A）））））；

其中，A表示注意力模块的输入特征图，B表示输出特征图，FC表示全连接层（包括第一全连接层和第二全连接层），σ表示sigmoid激活函数。

SEnet注意力机制不改变特征图的分辨率大小，因此如图4所示，将该注意力机制分别嵌入到多卷积分支结构之后，有助于网络筛选多卷积分支结构所提取到的过量特征信息，并将筛选到的关键特征传递至后续特征层，从而提高对航拍图像目标的检测精度。

最后，设计多卷积融合结构。将SEnet注意力机制输出的四个特征图进行元素级的加和操作，从而获得融合不同特征属性的特征图（尺寸为64×64×512）。并对其进行卷积核为1*1、步长为1、像素填充为0的卷积操作，以将通道数精炼为256，并消除特征混叠效应，最终获得尺寸为64×64×256的特征图。

多卷积融合模块分别由多卷积分支结构、SEnet注意力机制和多卷积融合结构串联组成，如图3所示，将该多卷积融合模块分别嵌入到ResNet101网络201的5个卷积模块之后，有助于网络基于不同卷积操作提取并精炼出更多丰富的关键特征信息，并将该关键特征传递至后续层，从而提高航拍图像目标的检测准确率。此外，多卷积融合模块通过关键特征提炼，可使特征图的空间维度和通道数均减少为原来的一半，从而降低计算成本。

设计基于特征金字塔网络(Feature Pyramid Network, FPN)的Faster R-CNN结构。具体结构（如图3所示）为：骨干网络ResNet101主要由五个卷积模块(conv1、conv2、conv3、conv4、conv5)组成，五个卷积模块的输出特征图，分别表示为C_1、C_2、C_3、C_4和C_5。以本发明输入航拍图像1024×1024为例，C_1至C_5特征图大小依次为：512×512×128、256×256×256、128×128×512、64×64×1024、32×32×2048。将C_1、C_2、C_3、C_4、C_5分别经过五个多卷积融合模块，获得丰富特征信息的同时，统一通道数为256，即尺寸依次为：256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。将C_5经过多卷积融合模块（第五多卷积融合模块）的输出特征图命名为P_6（第五特征图）。再采用多尺度特征融合方式，依次将上一层低分辨率强语义信息的特征图通过2倍缩放上采样得到与下层同尺寸的特征图，并与下层的高分辨率特征图进行元素级相加，从而得到P_2、P_3、P_4、P_5（第四特征图）、P_6（第五特征图）层。将P_2、P_3、P_4层经过3×3卷积，以消除低层的特征混叠效应，并得到最终的P_2（第一特征图）、P_3（第二特征图）、P_4（第三特征图）层。

如图5所示，ResNet101、多卷积融合模块和FPN构成特征提取网络，用于提取输入图像中特征。

接下来，建立RPN（RegionProposal Network，区域生成网络）网络结构。RPN网络结构为一个3×3卷积层和两个输出支路：第一个支路输出候选区域为各类目标的可能性概率；第二个支路输出候选区域边框（bounding box）的左上角坐标和宽高。RPN分别在P_2—P_6这五个特征图层基于3×3大小的滑动锚框遍历特征映射图，生成多个anchor boxes（锚箱），生成一系列的Proposals（候选目标区域），每个层均进行目标候选框预测。最后将每层的预测结果进行连接融合。在RPN训练过程中，与真实的标注框的IOU（交并比）大于0.7的目标为正标签（车辆目标），IOU（交并比）小于0.3的目标则为负标签（背景）。

根据RPN生成的每个Proposals框的面积（w×h）大小，分别将Proposals框映射到对应的特征层

进行下一步ROI Pooling操作。

值计算公式如下：

；

其中

，w和h分别为bounding box的宽和高，k值为2、3、4和5。

P ₂表示第一特征图，P ₃表示第二特征图，P ₄表示第三特征图，P ₅表示第四特征图。

将所得Proposals输入ROI Pooling层进行特征提取，均输出统一大小为7×7的Proposals特征图，以便于下一步输入全连接层。各特征图样本经过两层1024维度的全连接层后，通过Faster RCNN的两个检测分支分别计算：利用分类损失函数进行背景和车辆目标的分类，确定proposal区域所属的车辆类别；利用回归损失完成边框回归操作后获得车辆目标的定位信息。对网络模型进行训练，计算损失函数，并进行整个网络的参数更新，最终得到训练模型，训练损失包括两个部分，即分类损失和回归损失，计算式如下：

；

式中，

表示每一个样本的下标，

和

均为归一化参数，

为权重的平衡参数。

表示分类损失。

表示该样本被预测为车辆的概率，

是已标注的真实数据标签。

表示边框回归损失，

定义为

(t-t*)，

函数的定义为

，x表示公式输入，此处指t-t*，t表示Proposal预测目标框的平移缩放参数，t*表示Proposal对应的真实数据的平移缩放参数，

表示样本为正样本时，即

，才被激活。

表示Proposal预测目标框的平移缩放参数，

表示Proposal对应的真实数据的平移缩放参数，t_x ^*表示预测目标框左上角坐标x的平移缩放参数，t_y表示预测目标框左上角坐标y的平移缩放参数，t_w表示预测目标框宽度w的平移缩放参数。t_h表示预测目标框高度h的平移缩放参数，t_x ^*表示真实目标框左上角坐标x的平移缩放参数，t_y ^*表示真实目标框左上角坐标y的平移缩放参数，t_w ^*表示真实目标框宽度w的平移缩放参数。t_h ^*表示真实目标框高度h的平移缩放参数。

Step3、基于以上步骤完成深度神经网络的整体构造，采用航拍图像数据集进行模型的训练及参数优化，最后进行模型测试。具体为，在航拍图像数据集的训练集上对以上步骤所得到的深度神经网络进行端对端训练，对于每一张输入神经网络的图片，执行前向传播及反向传播步骤，基于损失函数

更新模型内部参数，得到航拍图像目标检测模型。

采用航拍图像数据集的测试集作为测试实例，输入到训练好的深度神经网络模型（图像目标检测模型）中，检测航拍图像中的车辆目标，具体过程如下：

（1）输入一组待测试的航拍图像，限制输入图最大边长为1024，经过ResNet网络、多卷积融合模块和特征金字塔网络(Feature Pyramid Network, FPN)的特征提取后，通过RPN得到图中400个候选目标区域Proposals。

（2）ROI Pooling以原图特征图和各个候选目标区域为输入，提取候选目标区域的特征图并输出统一尺寸的7×7特征图，用于下一步检测框回归及航拍车辆类别分类。

（3）Proposal的特征信息经过全连接层和边框回归与类别判定得到各航拍车辆目标检测框所在的矩形位置信息。最终在原始图像中标出所有被标记为航拍车辆目标的外接矩形。

（4）进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN)：被判定为负样本，事实上也是负样本；真正例(Ture Positve, TP)：被判定为正样本，事实上也是正样本；假反例(False Negative, FN)：被判定为负样本，但实为正样本；假正例(False Positive, FP)：被判定为正样本，但实为负样本。召回率(Recall)=TP/(TP+FN)，准确率(Precision)=TP/(TP+FP)，Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积，平均精度均值mAP为每个类别AP值的平均值。

本发明公开的一种基于多卷积融合网络的目标检测方法有益效果主要包括：

（1）通过本发明采用多卷积融合模块进一步提取conv1-conv5所包含的多种不同潜在特征信息，并基于模块中的SEnet注意力机制提炼出关键检测特征，将该关键特征传递至后面的层，从而提高对航拍图像目标的检测准确率。

（2）通过本发明构建的基于特征金字塔网络(Feature Pyramid Network, FPN)、多卷积融合模块与Faster RCNN的检测网络，该网络将多卷积融合模块与多尺度特征融合技术相结合，从而联合增强了自身对航拍图像目标的特征表征能力。

图6为本发明一种基于多卷积融合网络的目标检测***结构示意图，如图6所示，一种基于多卷积融合网络的目标检测***包括：

数据集采集模块301，用于将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集。

网络构建模块302，用于构建用于图像目标检测的网络结构。

图像目标检测模型训练模块303，用于根据数据集训练用于图像目标检测的网络结构，获得图像目标检测模型。

目标检测模块304，用于利用图像目标检测模型，对待检测图像数据进行目标检测。

用于图像目标检测的网络结构包括：ResNet101网络201、多卷积融合网络202、区域生成网络203、ROI池化层204和检测头205。

第五卷积模块的输出连接第五多卷积融合模块的输入，第四卷积模块的输出连接第四多卷积融合模块的输入，第三卷积模块的输出连接第三多卷积融合模块的输入，第二卷积模块的输出连接第二多卷积融合模块的输入，第一卷积模块的输出连接第一多卷积融合模块的输入；第五多卷积融合模块输出为第五特征图，第五特征图通过2倍上采样与第四多卷积融合模块的输出按元素相加输出第四特征图，第四特征图通过2倍上采样与第三多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第三特征图，第三特征图通过2倍上采样与第二多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第二特征图，第二特征图通过2倍上采样与第一多卷积融合模块的输出按元素相加后进行3×3卷积操作输出第一特征图；第一特征图、第二特征图、第三特征图、第四特征图和第五特征图输入区域生成网络203；区域生成网络203连接ROI池化层204，ROI池化层204连接检测头205，检测头205用于输出检测结果。

第一多卷积融合模块、第二多卷积融合模块、第三多卷积融合模块、第四多卷积融合模块和第五多卷积融合模块结构相同，均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块。

第一卷积分支包括卷积核为1*1、步长为3、像素填充为0的卷积操作，第二卷积分支包括卷积核为3*3、步长为2、像素填充为1的卷积操作，第三卷积分支包括卷积核为5*5、步长为2、像素填充为2的卷积操作，第四卷积分支包括卷积核为7*7、步长为2、像素填充为3的卷积操作；第一卷积分支输出的特征图输入第一SEnet注意力机制模块，第二卷积分支输出的特征图输入第二SEnet注意力机制模块，第三卷积分支输出的特征图输入第三SEnet注意力机制模块，第四卷积分支输出的特征图输入第四SEnet注意力机制模块；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多卷积融合网络的目标检测方法，其特征在于，包括：

构建用于图像目标检测的网络结构；

2.根据权利要求1所述的基于多卷积融合网络的目标检测方法，其特征在于，所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同，均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块；

3.根据权利要求2所述的基于多卷积融合网络的目标检测方法，其特征在于，所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同，尺寸均为64×64×512。

4.根据权利要求1所述的基于多卷积融合网络的目标检测方法，其特征在于，所述检测头包括回归支路和分类支路；所述分类支路利用分类损失确定检测目标的类别，所述回归支路利用回归损失确定检测目标的位置信息。

5.根据权利要求1所述的基于多卷积融合网络的目标检测方法，其特征在于，所述将通过无人机携带的摄像头采集的交通枢纽中来往车辆的图像数据作为数据集，具体包括：

通过无人机携带的摄像头采集交通枢纽中来往车辆的图像数据；

将预处理后的图像数据划分为训练集和测试集；

6.根据权利要求1所述的基于多卷积融合网络的目标检测方法，其特征在于，所述根据所述数据集训练图像目标检测的网络结构，获得图像目标检测模型，具体包括：

7.根据权利要求6所述的基于多卷积融合网络的目标检测方法，其特征在于，所述损失函数表示为：

；

其中，

表示所述损失函数，i表示第i个样本，

为第一归一化参数，

为第二归一化参数，

为权重的平衡参数，

表示分类损失，

表示回归损失，

表示第i个样本被预测为车辆的概率，

是第i个样本已标注的标签，

表示预测边框的平移缩放参数，

表示真实边框的平移缩放参数。

8.一种基于多卷积融合网络的目标检测***，其特征在于，包括：

网络构建模块，用于构建用于图像目标检测的网络结构；

9.根据权利要求8所述的基于多卷积融合网络的目标检测***，其特征在于，所述第一多卷积融合模块、所述第二多卷积融合模块、所述第三多卷积融合模块、所述第四多卷积融合模块和所述第五多卷积融合模块结构相同，均包括第一卷积分支、第二卷积分支、第三卷积分支、第四卷积分支、第一SEnet注意力机制模块、第二SEnet注意力机制模块、第三SEnet注意力机制模块、第四SEnet注意力机制模块；

10.根据权利要求9所述的基于多卷积融合网络的目标检测***，其特征在于，所述第一卷积分支、所述第二卷积分支、所述第三卷积分支和所述第四卷积分支输出的特征的尺寸相同，尺寸均为64×64×512。