CN112163602A

CN112163602A - 一种基于深度神经网络的目标检测方法

Info

Publication number: CN112163602A
Application number: CN202010960423.3A
Authority: CN
Inventors: 李利荣; 王子炎; 熊炜; 朱莉; 巩朋成; 张开; 杨荻椿; 艾美慧
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-01-01

Abstract

本发明属于深度学习与机器视觉技术领域，公开了一种基于深度神经网络的目标检测方法，包括获取目标检测对象图像集；对目标检测对象图像集进行预处理后得到数据集，根据数据集构建训练样本集；构建深度神经网络包括特征提取模块、特征融合模块、分类和回归模块；特征提取模块为结合d‑ResNet网络和eSENet模块的新的网络结构eSE‑dResNet；利用训练样本集进行深度神经网络的训练生成目标检测模型；将待检测对象图像输入至目标检测模型中得到目标检测结果。本发明解决了现有技术中目标检测的计算量大、耗时长、泛化能力差、识别精度低的问题，能够显著提高目标检测检测效果，能够适用于各种不良条件下的目标检测。

Description

一种基于深度神经网络的目标检测方法

技术领域

本发明涉及深度学习与机器视觉技术领域，尤其涉及一种基于深度神经网络的目标检测方法。

背景技术

随着深度学习的迅速发展，目标检测作为计算机视觉的重要研究方向在检测效率以及检测精度上得到很大提升，然而现有的目标检测的检测效果还不能够让人满意，无法适用于各种图像背景复杂、环境噪声大、对比度低及光照不均等不良条件下的目标检测。

以列车底部零件检测为例，列车底部零件作为列车运行必要条件是列车重要组成成分之一，为了保证安全运行，需要对进站列车的部件进行常规检查。通常采用的检测方法分为两种，第一种是通过人工对重要部件进行肉眼检查，但是随着列车数量的急剧增加，由于列车底部环境复杂，长时间单调的人工检查会出现视觉疲劳、注意力不集中或者错觉等问题，容易造成漏检，从而可能影响到列车的安全运行，另外一种方法通过在铁路线上安装线阵相机，利用目标检测算法对相机拍摄的车底图片进行检测分析。

传统的目标检测算法主要分为三个步骤，包括区域选择、特征提取和分类器分类。第一步进行区域选择，这一步是为了对目标的位置进行定位，由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的，这种方法的时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。第二步进行特征提取，由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。然而提取特征的好坏直接影响到分类的准确性。第三步进行分类，对上一步提取到的特征进行分类器分类，通常采用支持向量机进行分类。

总的来说，传统的目标检测方法存在几个主要问题：基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余，手工设计的特征对于多样性的变化并没有很好的鲁棒性，而且所采集的照片在图像背景、环境噪声、对比度及曝光度方面都有很大的不同，导致基于单一种类的图像处理技术难以实现多场景下的目标检测，且一种图像处理算法只能定位一种部件，多种部件的定位和分类则需要多种图像处理算法共同协作完成，因此存在计算量大、耗时长、泛化能力差、识别精度低等问题，无法从根本上实现目标自动检测。

发明内容

本发明通过提供一种基于深度神经网络的目标检测方法，解决了现有技术中目标检测的计算量大、耗时长、泛化能力差、识别精度低的问题。

本发明提供一种基于深度神经网络的目标检测方法，包括以下步骤：

步骤1、获取目标检测对象图像集；

步骤2、对所述目标检测对象图像集进行预处理后得到数据集，根据数据集构建训练样本集；

步骤3、构建深度神经网络，所述深度神经网络包括特征提取模块、特征融合模块、分类和回归模块；所述特征提取模块为结合d-ResNet网络和eSENet模块的新的网络结构eSE-dResNet；

步骤4、利用所述训练样本集进行所述深度神经网络的训练，生成目标检测模型；

步骤5、将待检测对象图像输入至所述目标检测模型中，得到目标检测结果。

优选的，所述步骤2中，对所述目标检测对象图像集进行预处理包括：对原始图像进行裁剪修正；若所述目标检测对象图像集中的原始图像宽度一致、高度不等，则维持图像宽度不变，对图像的不同高度进行裁剪，所述裁剪修正采用如下方式实现：

h＝(w-h₁)n+(n-1)h₁

其中，h和w分别表示原始图片的总长度和宽度，h₁表示裁剪出的n张图片后多余矩形的高。

优选的，所述步骤2中，对所述目标检测对象图像集进行预处理还包括：对裁剪修正后的数据集进行扩充，得到扩充后的数据集；利用标注工具对所述扩充后的数据集中的目标检测图像中所含目标进行标注。

优选的，所述步骤3中，所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到；所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行特征拼接操作，然后将拼接后的结果作为第二个1×1卷积块的输入；

所述eSENet模块嵌入在所述d-ResNet网络中的identity block和conv block之间；所述eSENet模块将SENet中激励部分原有的两层全连接层替换成一个卷积核大小为1的卷积层。

优选的，所述步骤3中，所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。

优选的，所述步骤3中，所述特征提取模块包括P₁～P_i共i个阶段，所述特征融合模块包括C_i～C_j共i-j+1个阶段；

对P_i阶段的计算结果做降维运算得到C_i阶段的计算结果，将C_i阶段的计算结果做上采样操作后得到的中间结果和P_i-1阶段的计算结果做降维运算后得到的中间结果进行相加，得到C_i-1阶段的计算结果；

将C_m+1阶段的计算结果做上采样操作后得到的中间结果和P_m阶段的计算结果做降维运算后得到的中间结果进行相加，得到C_m阶段的计算结果；其中，m＝[j,i-2]。

优选的，所述步骤3中，所述分类和回归模块包括：分类子网络、回归子网络；

通过所述分类子网络得到分类结果，通过所述回归子网络得到先验框坐标变化信息；使用k-means聚类算法得到先验框参数信息，根据所述先验框参数信息、所述先验框坐标变化信息得到预测框位置信息；得到多个预测框后，筛选出得分大于给定阈值的预测框，并得到预测框得分信息；利用预测框位置信息和预测框得分信息进行非极大值抑制处理，得到定位与分类结果信息。

优选的，所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积；

所述回归子网络包括4个维度为256的卷积和1个维度为4×K的卷积；

其中，K表示输入特征层所拥有的先验框的数量，N表示所要检测目标的种类个数。

优选的，所述步骤4中，所述目标检测模型采用的总损失函数包括分类损失函数、回归损失函数；所述分类损失函数采用Focal loss损失函数，所述回归损失函数采用Smooth loss损失函数，所述总损失函数如下所示：

其中，Loss表示总损失函数，FL(p_t)表示分类损失函数，

表示回归损失函数。

优选的，所述分类损失函数如下所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，α_t表示权重系数，(1-p_t)^γ表示调节系数，p_t表示样本预测为正的概率；

所述回归损失函数的定义及其导数形式如下所示：

其中，x表示预测值与真实值之间的差距。

本发明中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在发明中，首先获取目标检测对象图像集，并对目标检测对象图像集进行预处理后得到数据集，根据数据集构建训练样本集；然后构建的深度神经网络包括特征提取模块、特征融合模块、分类和回归模块；特征提取模块为结合d-ResNet网络和eSENet 模块的新的网络结构eSE-dResNet；之后利用训练样本集进行深度神经网络的训练，生成目标检测模型；最后将待检测对象图像输入至所述目标检测模型中，得到目标检测结果。本发明采用基于深度神经网络的检测方法能够自动学习目标特征，其泛化能力强，能适用于各种图像背景复杂、环境噪声大、对比度低及光照不均等不良条件下的目标检测，本发明中的特征提取模块实现了不同特征的强化多重提取，能够有效增强特征提取性能，能够显著提高目标检测检测效果。

附图说明

图1为本发明实施例2提供的一种基于深度神经网络的目标检测方法的流程图；

图2为本发明实施例2提供的一种基于深度神经网络的目标检测方法中先验框的示意图；

图3为本发明实施例2提供的一种基于深度神经网络的目标检测方法对应的深度神经网络整体结构图；

图4为本发明实施例2提供的一种基于深度神经网络的目标检测方法中特征提取模块的结构示意图；

图5为本发明实施例2提供的一种基于深度神经网络的目标检测方法中eSENet模块的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

实施例1提供了一种基于深度神经网络的目标检测方法，包括以下步骤：

步骤1、获取目标检测对象图像集。

步骤2、对所述目标检测对象图像集进行预处理后得到数据集，根据数据集构建训练样本集。

具体的，对所述目标检测对象图像集进行预处理包括：对原始图像进行裁剪修正；若所述目标检测对象图像集中的原始图像宽度一致、高度不等，则维持图像宽度不变，对图像的不同高度进行裁剪，所述裁剪修正采用如下方式实现：

h＝(w-h₁)n+(n-1)h₁

对所述目标检测对象图像集进行预处理还包括：对裁剪修正后的数据集进行扩充，得到扩充后的数据集；利用标注工具对所述扩充后的数据集中的目标检测图像中所含目标进行标注。

步骤3、构建深度神经网络，所述深度神经网络包括特征提取模块、特征融合模块、分类和回归模块；所述特征提取模块为结合d-ResNet网络和eSENet模块的新的网络结构eSE-dResNet。

其中，所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到；所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行特征拼接操作，然后将拼接后的结果作为第二个 1×1卷积块的输入；所述eSENet模块嵌入在所述d-ResNet网络中的identity block和 conv block之间；所述eSENet模块将SENet中激励部分原有的两层全连接层替换成一个卷积核大小为1的卷积层。

所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。

所述特征提取模块包括P₁～P_i共i个阶段，所述特征融合模块包括C_i～C_j共i-j+1个阶段；

所述分类和回归模块包括：分类子网络、回归子网络；通过所述分类子网络得到分类结果，通过所述回归子网络得到先验框坐标变化信息；使用k-means聚类算法得到先验框参数信息，根据所述先验框参数信息、所述先验框坐标变化信息得到预测框位置信息；得到多个预测框后，筛选出得分大于给定阈值的预测框，并得到预测框得分信息；利用预测框位置信息和预测框得分信息进行非极大值抑制处理，得到定位与分类结果信息。

所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积；所述回归子网络包括4个维度为256的卷积和1个维度为4×K的卷积；其中，K表示输入特征层所拥有的先验框的数量，N表示所要检测目标的种类个数。

步骤4、利用所述训练样本集进行所述深度神经网络的训练，生成目标检测模型。

具体的，所述目标检测模型采用的总损失函数包括分类损失函数、回归损失函数；所述分类损失函数采用Focal loss损失函数，所述回归损失函数采用Smooth loss 损失函数，所述总损失函数如下所示：

其中，Loss表示总损失函数，FL(p_t)表示分类损失函数，

表示回归损失函数。

所述分类损失函数如下所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

所述回归损失函数的定义及其导数形式如下所示：

其中，x表示预测值与真实值之间的差距。

下面以检测列车底部零件为例，对本发明做进一步的说明。

实施例2：

实施例2提供一种基于深度神经网络的目标检测方法，设计了一种新的目标检测模型，能够快速定位列车底部的关键部件，实现对车轴、挂钩和活塞杆等多个关键部件的多目标分类，减少人工检测的环节，提高检测效率。本实施例根据机车底部环境的复杂性，以残差网络ResNet50为基础，设计了一种改进后的d-ResNet网络，并在该网络中嵌入eSENet模块，增强特征提取性能；同时采用特征金字塔结构进行不同维度的特征融合，使网络能够学到更加丰富的低维特征和高维特征，更加精确地检测到车底零件。实验结果显示，所设计的网络模型对车底部件的检测效果有较大的提升。

本实施例的流程图如图1所示，具体步骤如下：

步骤1：数据处理。

本实施例所使用的数据集由当地铁路局提供。原始的数据集通过架设在铁轨边的高清线阵相机拍摄收集获得，每张图片的宽为2048个像素，而高则由29956到39956 不等，无法直接输入网络进行训练，需要对原始数据进行裁剪修正。本实施例采取的裁剪方式如下所示：

h＝(w-h₁)n+(n-1)h₁

其中，h和w分别表示原始图片的总长度和宽度，h₁表示裁剪出的n张图片后多余矩形的高，这样的裁剪方式十分简单，适合运用在长宽比很大的图片。

裁剪原则保持图片宽度不变，对不同图片进行高度上的裁剪，为了使计算方便，本文首先将输入图片统一裁剪为2048×4096尺寸大小，由于整体数据集的限制，裁剪后的数据量不够且含有部分无目标图片，需要对数据集进行扩充，经过平移、转置、镜像、旋转等几何变换将数据集由原来的5123张扩充到了11747张，然后将处理后的数据按比例分为8037张训练集和3710张测试集，检测对象包括Ⅰ型车轴、Ⅱ型车轴、车标、挂钩和活塞杆五类目标，最后利用标注工具对每张图片中所含目标进行标注。

步骤2：先验框生成。

为了提升检测性能，在训练深度神经网络之前使用k-means聚类算法得到适合本数据集的4种不同大小的先验框，并根据不同特征层调整尺寸，每个特征层都可以将输入图片分为与该特征层长宽对应的网格。

需要说明的是，先验框的数量可针对检测对象的不同进行调整。本实施例所检测的目标种类只有五类，形状和尺寸都固定，针对本实施例数据集的特点，本实施例采用4种先验框。

图2展示了先验框在不同特征层的设置情况，对特征融合模块的5层输出特征图由于其他特征层尺寸过大，这里只列举了最后两层特征层，其中，图2(a)表示输入图片，图2(b)和图2(c)分别表示特征层C6和C7中一个格子内先验框的分布情况，C7特征层大小为8*4，所以整个图片会被分为8*4个网格，然后以每个框的中心建立4个通过聚类得出的形状不同的先验框，其他特征层同理。

步骤3：设计损失函数。

模型训练阶段需要通过最小化损失函数来提升模型整体性能。本实施例所采用的损失函数分为两个部分，包括分类损失函数和回归损失函数，本实施例将二者结合作为总的损失计量。

本实施例设计的检测模型属于单阶段检测模型，利用先验框来提升检测性能，但同样会出现正负样本以及难易样本比例失衡的现象，故本文采用RetinaNet网络所使用的Focal loss(焦点损失)作为模型的分类损失函数，与交叉熵损失函数相比，Focal loss在它的基础上引入了权重系数α_t，通过调整α_t的大小来降低负样本对训练造成的影响。同时，引入系数(1-p_t)^γ来调整易分类样本和难分类样本间的权重，增加了难分类样本对损失值的贡献。损失函数定义如下所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t表示样本预测为正的概率，当γ取值为2，α_t取值为0.25时的实验结果为最优。

回归损失函数采用Smooth loss(平滑损失)损失函数，损失函数定义及其导数形式如下所示：

其中，x表示预测值与真实值之间的差距。Smooth loss损失函数能够限制梯度大小，结合了L1 loss和L2 loss的优势，使得损失函数在0点处也存在导数，网络更具鲁棒性。从平滑损失函数的导数公式中可以看出，当预测框与实际框的差距过大时不会导致梯度过大，当二者差距变小时也能保证足够小的梯度。

总的损失函数如下所示：

步骤4：将数据集输入深度神经网络进行训练。

将步骤1中得到的训练集分批次输入网络进行训练。训练过程中，对数据进行50轮训练，由于图片尺寸太大，受内存限制，每次输入深度神经网络训练的图片张数为 2，迭代次数为200000次，网络采用Adam优化器，网络初始学习率设为1×10^-4。

深度神经网络框架如图3所示，整个深度神经网络分为三个模块：

(1)特征提取模块：

本实施例采用在ResNet50基础上改进后的d-Resnet结合eSEnet作为特征提取模块，模块一共有56层，分为P1～P7共7个阶段(见图1)。为了增加特征提取的丰富性和准确度，本实施例在原始ResNet50结构中的identity block(恒等块)中增加了两条跨层连接，如图4所示，原始的identity block由两个大小为1×1的卷积块以及一个大小为3×3的卷积块组成，改进后的identity block将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行拼接操作(Concatenate，见图4中C连接)，然后将拼接后的结果作为第二个1×1卷积块的输入，再进行卷积操作，将不同特征层进行了拼接，实现了不同特征的强化多重提取，提升了整体效果，本文称这个改进网络为dense-ResNet(简称d-ResNet)，另外，为了充分考虑特征通道之间的关联性，使网络能够提取到更有价值的特征，在每个identity block以及conv block(连接块)中嵌入eSENet模块，d-ResNet和eSENet的组合方式如图4所示。

eSENet模块是在SeNet(Squeeze-and-Excitation Networks)基础上做的改进，与SENet一样，eSENet分为压缩和激励两个部分，采用特征重标定的方式融合特征通道，压缩部分采用自适应全局池化操作，将维度为C大小为W×H的输入压缩到维度为C大小为1×1的输出，这个输出特征融合了全局信息。SENet通过两个全连接层对特征维度进行缩放，第一个全连接层使用参数r将维度为C的输入变成维度为C/r的输出，然后通过第二个全连接层还原到初始维度，期间由于经过降维运算会导致信息损失，eSENet将激励部分原有的两层全连接层替换成一个卷积核大小为1的卷积，在一定程度上减少了信息丢失，同时减少了计算量，使得深度神经网络运行效率得到提升，eSEnet结构如图5所示。

(2)特征融合模块：

特征融合模块是对特征提取模块的计算结果进行融合，通过将拥有不同分辨率和不同语义信息的特征通道相加来增强深度神经网络对不同大小物体的检测效果。首先对P7阶段的计算结果进行一次降维运算得到C7，将特征维度由8*4*2048变成 8*4*256，再对C7采取特征上采样操作，将C7由8*4*256维度变为16*8*256维度，最后对P6做降维运算，并将运算结果与C7上采样的结果相加得到C6。同理，将 P5～P3的特征层数分别通过降维运算减少到256层，再分别与上一层上采样的结果相加，对应得到C5～C3的结果。特征融合只是在特征提取模块的基础上新增了跨层连接，所以在模型效果提升的同时不会增加参数量，且计算量的少量增加也可忽略。

(3)分类和回归：

由于深度神经网络越深，所提取特征的空间信息丢失越严重，对特征融合的效果会产生影响，网络深度不够，所提取特征的语义信息不够丰富，对大目标的检测效果也不好，经过实验，发现本实施例采用5类特征的检测效果最优。

经过特征融合后会得到大小不同但维度相同的5类特征层，将这5类特征层经过分类子网络及回归子网络处理后得到检测结果。分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积，这里的K指的是输入特征层所拥有的先验框的数量，N 指的是所要检测目标的种类个数，特征经过N×K的卷积输出分类结果。回归子网络包括4个维度为256的卷积和1个维度为4×K的卷积，输出结果是每个先验框坐标的变化情况，将先验框结合其变化情况得到预测框位置信息。经过分类和回归网络处理后会得到多个预测框，最后筛选出得分大于给定阈值的预测框，利用这些框的位置信息和得分进行NMS(非极大值抑制)处理得到最终检测结果。

本发明实施例提供的一种基于深度神经网络的目标检测方法至少包括如下技术效果：

(1)传统的目标检测算法，其手工设计的特征对于多样性的变化没有很好的鲁棒性，而采用基于深度神经网络的检测算法能够自动学习目标特征，其泛化能力强，能适用于更多场景。

(2)本发明在ResNet网络的基础上做出改进，设计了d-ResNet网络，并结合eSEnet模块作为特征提取模块，相比于其他特征提取模块，本模块在残差模块中引入密集连接，实现了不同特征的强化多重提取，其特征提取性能更优，且带来的计算量很小。

(3)在特征提取模块中引入注意力机制，采用“特征重标定”方法进行特征通道间的融合，通过自己学习获取特征通道的权重并进行分配，提升有用特征通道的权重，同时削弱相关性小的特征通道的权重。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度神经网络的目标检测方法，其特征在于，包括以下步骤：

步骤1、获取目标检测对象图像集；

2.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤2中，对所述目标检测对象图像集进行预处理包括：对原始图像进行裁剪修正；若所述目标检测对象图像集中的原始图像宽度一致、高度不等，则维持图像宽度不变，对图像的不同高度进行裁剪，所述裁剪修正采用如下方式实现：

h＝(w-h₁)n+(n-1)h₁

3.根据权利要求2所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤2中，对所述目标检测对象图像集进行预处理还包括：对裁剪修正后的数据集进行扩充，得到扩充后的数据集；利用标注工具对所述扩充后的数据集中的目标检测图像中所含目标进行标注。

4.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤3中，所述d-ResNet网络通过在原始ResNet50结构中的identity block中增加了两条跨层连接得到；所述d-ResNet网络将第一个1×1卷积块的输入、第一个1×1卷积块的输出和3×3卷积块的输出进行特征拼接操作，然后将拼接后的结果作为第二个1×1卷积块的输入；

5.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤3中，所述特征融合模块采用特征金字塔结构进行不同维度的特征融合。

6.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤3中，所述特征提取模块包括P₁～P_i共i个阶段，所述特征融合模块包括C_i～C_j共i-j+1个阶段；

7.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤3中，所述分类和回归模块包括：分类子网络、回归子网络；

8.根据权利要求7所述的基于深度神经网络的目标检测方法，其特征在于，所述分类子网络包括4个维度为256的卷积和1个维度为N×K的卷积；

9.根据权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，所述步骤4中，所述目标检测模型采用的总损失函数包括分类损失函数、回归损失函数；所述分类损失函数采用Focal loss损失函数，所述回归损失函数采用Smooth loss损失函数，所述总损失函数如下所示：

其中，Loss表示总损失函数，FL(p_t)表示分类损失函数，

表示回归损失函数。

10.根据权利要求9所述的基于深度神经网络的目标检测方法，其特征在于，所述分类损失函数如下所示：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

所述回归损失函数的定义及其导数形式如下所示：

其中，x表示预测值与真实值之间的差距。