CN109886312B

CN109886312B - 一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法

Info

Publication number: CN109886312B
Application number: CN201910079277.0A
Authority: CN
Inventors: 赵才荣; 傅佳悦; 夏烨
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2023-06-06
Anticipated expiration: 2039-01-28
Also published as: CN109886312A

Abstract

本发明涉及一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法，包括以下步骤：1)构建基于多层特征融合的深度学习神经网络模型；2)利用训练样本数据集对模型进行训练；3)对桥梁上拍摄的待检测图像进行图像增强的预处理操作；4)将预处理后的图像输入模型中，得到具有车轮车辆类别坐标标定的输出图像；5)利用重叠率度量方法，将图像中检测到的车轮与对应车辆进行匹配。与现有技术相比，本发明具有提高了检测的精度，增强了实时性，降低漏检概率等优点，本发明在实现车辆目标检测的同时也实现了车轮的检测，并自动将同一图像上的车辆与车轮匹配。

Description

一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法

技术领域

本发明涉及监控视频智能分析领域与桥梁外部荷载监测领域，尤其是涉及一种基于深度学习的桥梁车辆车轮检测方法。

背景技术

车辆车轮检测属于目标检测任务。目标检测的任务是找出图像中所有感兴趣的目标(物体)，是机器视觉领域的核心问题之一。目标检测不仅要定位出目标的位置并且知道目标物是什么。对于计算机来说，面对的是RGB像素矩阵，很难从图像中直接得到车和船这样的抽象概念并定位其位置，再加上物体姿态、光照和复杂背景混杂在一起，使得物体检测更加困难。在本发明中，感兴趣的目标是车辆和车轮。

目标检测算法分为传统目标检测算法和结合深度学习的目标检测算法。

传统的目标检测方法大致可以分为三个步骤：第一个是检测窗口的选择，第二个是特征的设计，第三个是分类器的设计。首先对图像中可能的目标位置提出建议，也就是提出一些可能含有目标的候选区域，然后采用合适的特征模型得到特征表示，最后借助分类器判断各个区域中是否含有特定类型的目标，并且通过一些后处理操作，例如边框位置回归等，得到最终的目标边框。但传统的目标检测方法存在特征表达能力弱、检测速度慢等问题。

基于深度学***下，仍然保持很高的检测精度。

基于深度学习的目标检测算法在检测速度和检测精度上已经超过了传统的目标检测算法，但这类目标检测算法需要足够的训练集数据来实现模型的训练。目前，开放的车辆类数据集有KITTI数据集、PASCAL VOC数据集和COCO数据集的部分车辆图像训练样本，且不存在车轮训练数据集。这对车辆车轮的检测造成一定的困难，难以完成现实场景下的车辆车轮检测。

专利CN108629279A提出了一种基于卷积神经网络的车辆目标检测的方法，采用Faster R-CNN算法进行车辆目标检测，但该方法分为两个阶段，RPN网络提取ROI区域和Fast R-CNN网络进行分类和回归，时间性能较差，难以实时运行。

专利CN108596053A提出了一种基于SSD和车辆姿态分类的车辆检测方法和***，根据车头与水平轴的角度对车辆姿态进行划分，将车辆检测损失和车辆姿态分类任务的损失结合起来形成多任务损失。然而，将车辆姿态分类任务作为车辆检测任务的辅助任务，会额外增添网络的负担，且当图像中存在多个车辆目标时，分类任务的精确度会降低，对最终算法性能造成较大影响。

目前还没有针对检测车辆车轮的较好方法，更没有能完成现实场景下的车辆车轮检测方法。

发明内容

本发明的目的就是为了克服上述现有问题，并实现对交通荷载更好的监测而提供的一种基于深度学习的车辆车轮检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法，包括以下步骤：

1)构建基于多层特征融合的深度学习神经网络模型；

2)利用训练样本数据集对模型进行训练；

3)对桥梁上拍摄的待检测图像进行图像增强的预处理操作；

4)将预处理后的图像输入模型中，得到具有车轮车辆类别坐标标定的输出图像；

5)利用重叠率度量方法，将图像中检测到的车轮与对应车辆进行匹配。

所述的步骤1)具体包括以下步骤：

11)构建特征提取模块，具体包括：采用多层卷积神经网络构建特征提取模块，其中多层卷积神经网络由VGG-16网络中的fc层之前的所有网络层、将两个fc层改为卷积层(卷积层fc6，卷积层fc7)、再额外增添四个卷积层(卷积层conv6_2，卷积层conv7_2，卷积层conv8_2，卷积层conv9_2)构成。

输入层：输入图像大小为300*300，RGB三通道；

第一层、第二层为卷积层：设定64个特征平面，卷积核大小为3×3；第三层为池化层：池化窗口大小为2×2；第四层、第五层为卷积层：设定128个特征平面，卷积核大小为3×3；第六层为池化层：池化窗口大小为2×2；第七层、第八层、第九层为卷积层：设定256个特征平面，卷积核大小为3×3；第十层为池化层：池化窗口大小为2×2；第十一层、第十二层为卷积层：设定512个特征平面，卷积核大小为3×3；

第十三层为卷积层C4_3：设定512个特征平面，卷积核大小为3×3，输入大小为38*38*512，输出大小为38*38*512；

第十四层为池化P4：池化窗口大小为2×2，输入大小为38*38*512，输出大小为19*19*512；

第十五层、第十六层、第十七层为卷积层：设定512个特征平面，卷积核大小为3×3；

第十八层为池化层P5：池化窗口大小为3*3，输入大小为19*19*512，输出大小为19*19*512；

第十九层为卷积层Fc6：设定1024个特征平面，卷积核大小为1×1，输入大小为19*19*1024，输出大小为19*19*1024；

第二十层为卷积层Fc7：设定1024个特征平面，卷积核大小为1×1，输入大小为19*19*1024，输出大小为19*19*1024；

第二十一层为卷积层C6_1：设定256个特征平面，卷积核大小为1×1；

第二十二层为卷积层C6_2：设定512个特征平面，卷积核大小为3×3，输入大小为19*19*1024，输出大小为10*10*512；

第二十一层为卷积层C7_1：设定128个特征平面，卷积核大小为1×1；

第二十二层为卷积层C7_2：设定256个特征平面，卷积核大小为3×3，输入大小为10*10*128，输出大小为5*5*256；

第二十三层为卷积层C8_1：设定128个特征平面，卷积核大小为1×1；

第二十四层为卷积层C8_2：设定256个特征平面，卷积核大小为3×3，输入大小为5*5*128，输出大小为3*3*256；

第二十五层为卷积层C9_1：设定128个特征平面，卷积核大小为1×1；

第二十六层为卷积层C9_2：设定256个特征平面，卷积核大小为3×3，输入大小为3*3*128，输出大小为1*1*256。

12)构建多层特征融合模块，具体包括：

第一层为特征融合层P1：

输入：卷积层conv8_2的输出特征图Out8_2大小为3*3*256、卷积层conv7_2的输出特征图Out7_2大小为5*5*256。

操作：对特征图Out8_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为3*3，最后输出大小为5*5*256。对特征图Out7_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为5*5*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256的卷积操作，将特征图的通道数都转化成256。由于特征图Out8_2的大小与Out7_2的大小不同，因此在特征融合前，对特征图Out8_2使用反卷积操作，设定卷积核大小为3*3，得到与Out7_2特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为5*5*256。

第二层为特征融合层P2：

输入：特征融合层P1的输出，卷积层conv6_2的输出特征图Out6_2大小为10*10*512。

操作：对特征融合层P1的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为2*2，最后输出大小为10*10*256。对特征图Out6_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为10*10*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256卷积操作，将特征图的通道数都转化成256。由于P1输出特征图的大小与Out6_2的大小不同，因此在特征融合前，对P1输出特征图使用反卷积操作，设定卷积核大小为2*2，得到与Out6_2特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为10*10*256。

第三层为特征融合层P3：

输入：特征融合层P2的输出，卷积层fc7的输出特征图OutFc7大小为19*19*1024。

操作：对特征融合层P2的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为3*3，最后输出大小为19*19*256。对特征图OutFc7进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为19*19*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256卷积操作，将特征图的通道数都转化成256。由于P2输出特征图的大小与OutFc7的大小不同，因此在特征融合前，对P2输出特征图使用反卷积操作，设定卷积核大小为3*3，得到与OutFc7特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为19*19*256。

第四层为特征融合层P4：

输入：特征融合层P3的输出，VGG-16网络中卷积层conv4_3的输出特征图Out4_3大小为38*38*512。

操作：对特征融合层P3的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为2*2，最后输出大小为38*38*256。对特征图Out4_3进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为38*38*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256卷积操作，将特征图的通道数都转化成256。由于P3输出特征图的大小与Out4_3的大小不同，因此在特征融合前，对P3输出特征图使用反卷积操作，设定卷积核大小为2*2，得到与Out4_3特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为38*38*256。

使用多层特征融合模块的多层输出特征图进行检测的优势在于，融合后的低层特征图包含更多的语义信息。对于车轮等小目标而言，更深层的特征图会损失位置信息，故其检测集中在特征图较大的低层特征图上，但低层特征图缺乏丰富的语义信息。使用融合后的特征图进行检测，将高层的语义信息融合到低层，可以更精确的检测小目标。

13)设置默认框，具体方式如下：

其中，k表示第k个特征图，m表示特征图数目。在本方法中，最后选择的用于检测的特征图分别为步骤1.2中特征融合层P4的输出、P3的输出、P2的输出、P1的输出、步骤1.1中卷积层conv8_2的输出、conv9_2的输出。s_min取值0.2，s_max取值0.9，表示最低层的尺度为0.2，最高层的尺度为0.9。此外，默认框包含不同的尺寸，即不同纵横比a_r,

和/>

分别表示默认框的宽、高。/>

14)采用多任务训练损失函数，具体公式如下：

其中，L_conf(x,c)表示置信度损失，L_loc(x,l,g)表示定位损失。N是与真实框匹配的预测框数目，参数α设置为1。x表示输入图片，

是匹配第i个预测框到类别为p的第j个真值框的一个指示符。c表示置信度，l表示预测框，g表示真实框。Pos表示与真实框匹配的预测框集合。/>

表示第i个预测框的参数值，其中m的取值(cx,cy),w,h分别表示预测框的中心坐标，以及预测框的宽度和高度。/>

表示第i个真实框的参数值，其中m的取值(cx,cy),w,h分别表示真实框的中心坐标，以及真实框的宽度和高度。/>

表示第i个默认框的参数值。/>

表示第i个预测框属于类别p的置信值。

所述的步骤2)具体包括以下步骤：

21)将所有训练集图像大小统一调整到300*300；

22)初始学习率设置为0.001，训练迭代次数(Iterations)设置为100000次；

23)重复输入训练图像进行模型训练，根据基于多层特征融合的深度学习神经网络模型，得到不同尺度的特征图，根据默认框与真实框之间的匹配情况，利用损失函数计算得到损失值，使用随机梯度下降(SGD)算法调整模型参数，直到训练迭代次数达到设置值。

所述的步骤4)具体包括以下步骤：

41)将预处理后的图像大小调整到300*300；

42)将图片输入步骤2)训练得到的模型中，对于每一个预测框(默认框)，根据位置偏移值以及自身对应的特征图单元位置，进行解码得到预测框在图片中的位置。解码后，对置信度降序排列，仅保留top-k个预测框。最后，使用非极大值抑制算法，过滤重叠度较大的预测框，剩下的即为检测结果。

所述的步骤5)中，重叠率度量方法中重叠率计算公式具体如下：

其中，x_p,x_q表示同一张图像中检测到的两个目标，

分别是目标x_p在图像中的左上角坐标和右下角坐标，/>

分别是目标x_q在图像中的左上角坐标和右下角坐标，/>

表示取/>

与/>

中较小的数，/>

表示取/>

与/>

中较大的数。

以上技术方案，在实现车辆目标检测的同时也实现了车轮的检测，并自动将同一图像上的车辆与车轮匹配。

与现有技术相比，本发明具有以下优点：

一、本发明采用基于深度学习神经网络模型的桥梁车辆车轮检测方法，与传统检测方法相比，具有检测实时性更高的优点，且基于深度学习模型的特征提取方法具有更强的鲁棒性。

二、本发明中提出的基于多层特征融合的神经网络模型，融合了深层(高层)特征图的语义信息与浅层(低层)特征图的位置信息，可有效的实现小目标物体的检测，使车轮以及画面中较小的车辆得以更好的检测，从而提高检测的精度，降低了漏检概率。

附图说明

图1为本发明方法的***流程图。

图2为本发明方法中的基于多层特征融合的深度学习神经网络模型设计示意图。

图3为本发明算法在桥梁真实图像上的检测效果。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1所示算法流程图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：构建基于多层特征融合的深度学习神经网络模型，具体描述如下，构建基于多层特征融合神经网络模型由特征提取模块、多层特征融合模块组成，用于从待检测图像中提取一系列不同尺寸的特征图。基于多层特征融合的深度学习神经网络模型在特征提取模块的基础上，加入了多层特征融合模块，融合了深层特征图的语义信息与浅层特征图的位置信息，可有效的实现小目标物体的检测，使车轮以及画面中较小的车辆得以更好的检测，从而提高检测的精度；具体实施如下：

(1)构建特征提取模块，这部分结构设计是通过对已有网络模块进行改造实现的，具体包括：

输入层：输入图像大小为300*300，RGB三通道；

第一层、第二层为卷积层：设定64个特征平面，卷积核大小为3×3；

第三层为池化层：池化窗口大小为2×2；

第四层、第五层为卷积层：设定128个特征平面，卷积核大小为3×3；

第六层为池化层：池化窗口大小为2×2；

第七层、第八层、第九层为卷积层：设定256个特征平面，卷积核大小为3×3；

第十层为池化层：池化窗口大小为2×2；

第十一层、第十二层为卷积层：设定512个特征平面，卷积核大小为3×3；

(2)构建多层特征融合模块，这部分结构设计是本发明创新点之一，具体包括：

第一层为特征融合层P1：

输出：特征图大小为5*5*256。

第二层为特征融合层P2：

操作：对特征融合层P1的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为2*2，最后输出大小为10*10*256。对特征图Out6_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为10*10*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256卷积操作，将特征图的通道数都转化成256。由于P1输出特征图的大小与Out6_2的大小不同，因此在特征融合前，对P1输出特征图使用反卷积操作，设定卷积核大小为2*2，得到与Out6_2特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为10*10*256。

第三层为特征融合层P3：

操作：对特征融合层P2的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为3*3，最后输出大小为19*19*256。对特征图OutFc7进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为19*19*256。将上述两个输出的特征图融合，对应的像素点进行点乘操作。将上述两个输出的特征图融合，对应的像素点进行点乘操作。对融合后的特征图，通过3*3的卷积操作。为保证两个特征图可以融合，首先通过1*1*256卷积操作，将特征图的通道数都转化成256。由于P2输出特征图的大小与OutFc7的大小不同，因此在特征融合前，对P2输出特征图使用反卷积操作，设定卷积核大小为3*3，得到与OutFc7特征图大小相同的输出。将上述两个输出的特征图通过对应像素点点乘的操作完成融合。对融合后的特征图，采取3*3的卷积操作，以消除反卷积带来的混叠效应。

输出：特征图大小为19*19*256。

第四层为特征融合层P4：

输出：特征图大小为38*38*256。

使用本发明设计的多层特征融合模块的多层输出特征图进行检测的优势在于，融合后的低层特征图仍然能包含更多的语义信息。对于车轮等小目标而言，更深层的特征图会损失位置坐标信息，故其检测集中在特征图较大的低层特征图上，但低层特征图缺乏丰富的语义信息。使用本发明融合后的特征图进行检测，将高层的语义信息融合到低层，可以更精确的检测小目标。

(3)设置默认框，具体方式如下：

其中，k表示第k个特征图，m表示特征图数目。在本方法中，最后选择的用于检测的特征图分别为步骤2.2中特征融合层P4的输出、P3的输出、P2的输出、P1的输出、步骤2.1中卷积层conv8_2的输出、conv9_2的输出。s_min取值0.2，s_max取值0.9，表示最低层的尺度为0.2，最高层的尺度为0.9。此外，默认框包含不同的尺寸，即不同纵横比a_r,

和/>

分别表示默认框的宽、高。

(4)采用多任务训练损失函数，具体公式如下：

/>

表示第i个默认框的参数值。/>

表示第i个预测框属于类别p的置信值。

步骤二：利用训练样本数据集对模型进行训练，具体实施如下：

(1)将所有训练集图像大小统一调整到300*300；

(2)初始学习率设置为0.001，训练迭代次数(Iterations)设置为100000次；

(3)重复输入训练图像进行模型训练，根据基于多层特征融合的深度学习神经网络模型，得到不同尺度的特征图，根据默认框与真实框之间的匹配情况，利用损失函数计算得到损失值，使用随机梯度下降(SGD)算法调整模型参数，直到训练迭代次数达到设置值

步骤三：对桥梁上拍摄的待检测图像进行图像增强的预处理操作，具体描述：在桥梁上拍摄的实际场景下的车辆图片，会因为天气、时间、光照等因素影响图片的质量，Retinex算法能够较好的消除光照因素带来的影响。因此，在实际检测前，需要先进行图片预处理，来提高后续的检测精度。具体实施如下：

Retinex算法具体如下：

I(t_i,t_j)＝R(t_i,t_j)*L(t_i,t_j)

lgR(t_i,t_j)＝lgI(t_i,t_j)-lgL(t_i,t_j)

式中，(t_i,t_j)为像素点的空间二维坐标；I(t_i,t_j)为原始图像；R(t_i,t_j)为反射分量，反应物体本身的颜色特性，对应图像中的高频部分；L(t_i,t_j)为照度分量，反应环境的亮度，对应图像中的低频部分。

Retinex图像增强的思想就是从原始图像中剔除环境亮度的影响，求解出物体本身的颜色特性。照度分量L(t_i,t_j)采用中心环绕函数求解：

L(t_i,t_j)＝I(t_i,t_j)*F(t_i,t_j)

式中，*表示卷积运算。中心环绕函数F(t_i,t_j)常采用高斯中心环绕函数，高斯中心环绕函数的定义如下：

式中，K为归一化因子，r为距中心像素点的距离，τ为尺度因子。τ值设置为250。

在图像增强时，因为原图为彩色图，因此需要分通道处理。

步骤四：将预处理后的图像输入模型中，得到具有车轮车辆类别坐标标定的输出图像，具体实施如下：

(1)将预处理后的图像大小调整到300*300；

(2)将图片输入步骤三训练得到的模型中，对于每一个预测框(默认框)，根据位置偏移值以及自身对应的特征图单元位置，进行解码得到预测框在图片中的位置。解码后，对置信度降序排列，仅保留top-k个预测框。最后，使用非极大值抑制算法，过滤重叠度较大的预测框，剩下的即为检测结果。

步骤五：利用重叠率度量方法，将图像中检测到的车轮与对应车辆进行匹配。

本发明具体实现步骤为：

图1是本发明方法实现流程图，具体实施方式如下：

1、构建特征提取模块；

2、构建多层特征融合模块；

3、构建多任务损失函数；

4、将所有训练集图像大小统一调整到300*300；

5、训练初始学习率设置为0.001，迭代次数设置为10w次，迭代6w次后，学习率降为10^-4，迭代8w次后，学习率降为10^-5。

6、重复输入训练图像进行模型训练，根据训练损失函数计算得到损失值，使用随机梯度下降(SGD)算法调整模型参数，直到训练迭代次数达到设置值；

7、将待检测图像进行图像增强的预处理操作；

8、将待检测图像大小调整为300*300；

9、将待检测图像输入神经网络模型中，检测完成，得到图像中车辆车轮的类别以及在图像中的坐标，并输出到文件中。

10、使用重叠率度量方法，将图像中检测到的车轮与对应车辆进行匹配。

图3为本发明算法在桥梁真实图像上的检测效果。

显然，上述实例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于多层特征融合神经网络模型的桥梁车辆车轮检测方法，其特征在于，包括以下步骤：

1)构建基于多层特征融合的深度学习神经网络模型；

2)利用训练样本数据集对模型进行训练；

3)对桥梁上拍摄的待检测图像进行图像增强的预处理操作；

5)利用重叠率度量方法，将图像中检测到的车轮与对应车辆进行匹配；

所述的步骤1)中，构建基于多层特征融合的深度学习神经网络模型，具体包含以下四个步骤：

步骤1.1，构建特征提取模块；

步骤1.2，构建多层特征融合模块；

步骤1.3，设置默认框；

步骤1.4，构建多任务训练损失函数；

所述的步骤1.2中，多层特征融合模块的构建，具体包括：

第一层为特征融合层P1：

输入：卷积层conv8_2的输出特征图Out8_2大小为3*3*256、卷积层conv7_2的输出特征图Out7_2大小为5*5*256；

操作：对特征图Out8_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为3*3，最后输出大小为5*5*256；对特征图Out7_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为5*5*256；将上述两个输出的特征图融合，对应的像素点进行点乘操作；对融合后的特征图，通过3*3的卷积操作；

输出：特征图大小为5*5*256；

第二层为特征融合层P2：

输入：特征融合层P1的输出，卷积层conv6_2的输出特征图Out6_2大小为10*10*512；

操作：对特征融合层P1的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为2*2，最后输出大小为10*10*256；对特征图Out6_2进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为10*10*256；将上述两个输出的特征图融合，对应的像素点进行点乘操作；对融合后的特征图，通过3*3的卷积操作；

输出：特征图大小为10*10*256；

第三层为特征融合层P3：

输入：特征融合层P2的输出，卷积层fc7的输出特征图OutFc7大小为19*19*1024；

操作：对特征融合层P2的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为3*3，最后输出大小为19*19*256；对特征图OutFc7进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为19*19*256；将上述两个输出的特征图融合，对应的像素点进行点乘操作；对融合后的特征图，通过3*3的卷积操作；

输出：特征图大小为19*19*256；

第四层为特征融合层P4：

输入：特征融合层P3的输出，VGG-16网络中卷积层conv4_3的输出特征图Out4_3大小为38*38*512；

操作：对特征融合层P3的输出进行卷积操作，设定256个特征平面，卷积核大小为1*1，再进行反卷积操作，设定256个特征平面，卷积核大小为2*2，最后输出大小为38*38*256；对特征图Out4_3进行卷积操作，设定256个特征平面，卷积核大小为1*1，输出大小为38*38*256；将上述两个输出的特征图融合，对应的像素点进行点乘操作；对融合后的特征图，通过3*3的卷积操作；

输出：特征图大小为38*38*256；

所述的步骤1.3中，设置默认框，具体方式如下：

其中，k表示第k个特征图，m表示特征图数目；选择用于检测的特征图分别为步骤2.2中特征融合层P4的输出、P3的输出、P2的输出、P1的输出、步骤2.1中卷积层conv8_2的输出、conv9_2的输出；s_min取值0.2，s_max取值0.9，表示最低层的尺度为0.2，最高层的尺度为0.9；不同纵横比a_r,