CN110889425A

CN110889425A - 基于深度学习的目标检测方法

Info

Publication number: CN110889425A
Application number: CN201811644255.6A
Authority: CN
Inventors: 邓远志; 林淼; 刘志永; 陈志列
Original assignee: EVOC Intelligent Technology Co Ltd
Current assignee: EVOC Intelligent Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2020-03-17

Abstract

本发明提供一种基于深度学习的目标检测方法。本发明直接选用整图训练模型，通过将候选区域提取和特征检测两个阶段整合为一体，即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框，同时利用显存对存储的特征进行读写，并结合使用softmax函数代替了svm对特征的分类，这样不仅能够提高目标检测的速度，而且利用整图直接训练能够更好地区分目标和背景区域，从而能够提高目标检测的精度。

Description

基于深度学习的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习的目标检测方法。

背景技术

目标检测是实现目标检索、目标追踪、异常行为检测和场景理解等复杂视觉任务的基础，通过算法对图像或者视频中的目标进行检测可以为高级决策提供更多的依据，因此良好的目标检测模型是非常重要的环节。

目前，在目标检测领域中处于主导地位的是基于区域卷积神经网络R-CNN(Region-convolutional neural network)的目标检测方法，该方法的目标检测流程包括：首先生成一个候选区域集合，其中，候选区域是利用图像中的纹理、边缘和颜色等信息预先找出图中目标可能出现的位置，然后将所有候选区域作为训练样本输入到卷积神经网络CNN中进行训练，之后再将每个候选区域提取到的CNN特征输入到分类器SVM中进行训练，最后再分类器SVM分好类的候选区域进行边框回归以修正候选区域，以满足候选区域提取到的窗口与目标真实窗口更加吻合。

在实现本发明的过程中，发明人发现现有技术中至少存在如下技术问题：

在基于R-CNN的目标检测算法中，训练必须分成两个部分进行，即候选区域训练和CNN特征训练，而且该算法需要通过硬盘对存储的特征进行频繁地读写，因此，现有的目标检测方法在同样的硬件平台上检测同分辨率的图像相对比较耗时。

发明内容

本发明提供的基于深度学习的目标检测方法，通过将候选区域提取和特征检测两个阶段整合为一体，利用显存对存储的特征进行读写，并结合使用softmax函数代替了svm对特征的分类，能够提高目标检测的速度和精度。

本发明提供一种基于深度学习的目标检测方法，包括：

(1)加载图像和对应的标注信息文件至计算机显存中，并随机初始化权值矩阵；

其中，所述标注信息文件包括所述图像中各个真实目标的类别和包含所述真实目标的矩形包围框坐标；

(2)对所述图像进行网格划分得到多个网格子图像，并预测各个网格子图像的候选区域；

(3)将各个网格子图像的多个候选区域矩阵向量进行卷积操作得到所述网格子图像的特征图，利用不同尺度的卷积核在不同的卷积层上对所述特征图进行卷积操作，将各个网格子图像对应的不同尺度的特征图进行积分融合；

(4)对融合后的特征图执行池化操作，将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图；

(5)对步骤(4)的输出特征图运用滤波器进行池化操作；

(6)将步骤(5)的输出作为全连接层的输入采用固定步幅进行卷积操作；

(7)将步骤(6)的输出作为分类函数Softmax的输入，先计算出所述图像目标类别的置信度以及预测的坐标信息，再计算与真实标注信息的误差，通过所述误差计算对应梯度值以更新各个层的权值矩阵；

(8)如果训练次数达到设置次数则停止训练，否则返回步骤(3)；

(9)达到设置的训练次数，得到训练完成的模型，将待检测图像与模型权值矩阵进行乘积计算，得到图像中目标检测的结果。

本发明实施例提供的基于深度学习的目标检测方法，本发明直接选用整图训练模型，将目标检测问题转化为一个回归问题，即直接在输入图像的多个位置上回归出真实目标的分类类别和矩形包围框。与现有技术相比，一方面，本发明通过将候选区域提取和特征检测两个阶段整合为一体，即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框，而且在训练过程中不需要通过硬盘进行特征读写，而是利用显存对存储的特征进行读写，读写效率明显提高，从而能够提高目标检测的速度；另一方面，本发明通过不同尺度的卷积核在不同卷积层上进行卷积操作，经过卷积计算后再将不同尺度的特征图进行融合，以适应多尺度的真实目标，而且结合使用softmax函数代替了svm对特征的分类，来提高目标检测的精度。

附图说明

图1为本发明一实施例基于深度学习的目标检测方法的流程图；

图2为本发明的基于深度学***台的应用示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于深度学习的目标检测方法，如图1所示，所述方法包括：

(1)加载图像和对应的标注信息文件至计算机显存中，并随机初始化权值矩阵。

其中，所述标注信息文件包括所述图像中各个真实目标的类别和包含所述真实目标的矩形包围框坐标。

(2)对所述图像进行网格划分得到多个网格子图像，并预测各个网格子图像的候选区域。

(3)将各个网格子图像的多个候选区域矩阵向量进行卷积操作得到所述网格子图像的特征图，利用不同尺度的卷积核在不同的卷积层上对所述特征图进行卷积操作，将各个网格子图像对应的不同尺度的特征图进行积分融合。

(4)对融合后的特征图执行池化操作，将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图。

步骤(4)能够降低特征维度，加强特征的抗干扰(例如由图像拉伸、旋转等操作带来的干扰)能力。

(5)对步骤(4)的输出特征图运用滤波器进行池化操作。

(6)将步骤(5)的输出作为全连接层的输入采用固定步幅进行卷积操作。

具体的，将步骤(5)的输出的特征缩放到1x1000，也就是得到1000维的特征图，再将该特征图进行固定步幅进行卷积操作。

(7)将步骤(6)的输出作为分类函数Softmax的输入，先计算出所述图像目标类别的置信度以及预测的坐标信息，再计算与真实标注信息的误差，通过所述误差计算对应梯度值以更新各个层的权值矩阵。

具体的，将步骤(6)的输出图像特征作为分类函数Softmax的输入，计算出所述图像中目标类别的置信度和目标对应的坐标信息，通过与真实标注信息进行标准欧式距离计算，得到当前图像中目标类别置信度与目标坐标信息的误差，通过所述误差计算对应梯度值，将用来对各个层的权值矩阵进行相加更新，让下一次训练的出来的目标置信度与对应的坐标更加逼近真实值。

(8)如果训练次数达到设置次数则停止训练，否则返回步骤(3)。

具体的，达到设置的训练次数，得到训练完成的模型，再将待检测图像输入，对待检测图像进行(2)至(6)的卷积核池化等计算，最后通过分类函数softmax来得到目标检测的类别和坐标信息，也就是将待检测图像与模型权值矩阵进行乘积计算，得到图像中目标检测的结果。

本发明实施例提供的基于深度学习的目标检测方法，本发明直接选用整图训练模型，将目标检测问题转化为一个回归问题，即直接在输入图像的多个位置上回归出真实目标的分类类别和矩形包围框。与现有技术相比，一方面，从步骤(2)到(7)，本发明通过将从候选区域提取到特征Softmax的分类这一系列流程整合为一体，实现输入端到输出端的训练，即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框，而且在训练过程中不需要通过硬盘进行特征读写，而是利用显存对存储的特征进行读写，读写效率明显提高，从而能够提高目标检测的速度；另一方面，本发明通过不同尺度的卷积核在不同卷积层上进行卷积操作，经过卷积计算后再将不同尺度的特征图进行融合，以适应多尺度的真实目标，而且结合使用softmax函数代替了svm对特征的分类，在高维特征分类中仍保持比较好的性能，用来提高目标检测的精度。

可选地，如果所述矩形包围框的中心坐标位于所述网格子图像的坐标范围中，则对所述网格子图像的矩阵向量与权值矩阵进行乘积计算，预测出多个候选区域，否则对所述网格子图像不进行候选区域预测处理。

可选地，在所述加载图像和对应的标注信息文件至计算机显存中之前，还包括；

采用图像标注工具标注对所述图像中的各个真实目标进行标注，生成标注信息文件。

可选地，在所述加载图像和对应的标注信息文件至计算机显存中之后，所述对所述图像进行网格划分得到多个网格子图像之前，还包括：

初始化所述图像的候选区域的坐标为空。

可选地，所述固定尺度的卷积核为3x3的卷积核或者5x5的卷积核，所述滤波器为2x2的滤波器，所述固定步幅为1x1步幅。

本发明的基于深度学***台中嵌入本发明的目标检测算法后，能够实现对交通安防图像的道路场景进行目标检测，安防平台的目标检测工作流程如下：

1)通过道路交通摄像头对交通道路场景进行视频录像，每隔一定时间就上传录制的图像视频。

2)服务器对视频解码成帧，同时初始化图形加速器，加载深度学习模型。

3)将待检测图像输入到深度学习网络模型中，得到道路交通图像中的目标类别和位置坐标信息，例如，行人的位置、车辆的位置和型号。

4)将识别到目标框出，并在图像中显示出来，识别效果图如图2所示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度学习的目标检测方法，其特征在于，包括：

(4)对融合后的特征图执行池化操作，再将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图；

(5)对步骤(4)的输出特征图运用滤波器进行池化操作；

2.根据权利要求1所述的方法，其特征在于，所述预测各个网格子图像的候选区域包括：

如果所述矩形包围框的中心坐标位于所述网格子图像的坐标范围中，则对所述网格子图像的矩阵向量与权值矩阵进行乘积计算预测出多个候选区域，否则对所述网格子图像不进行候选区域预测处理。

3.根据权利要求1所述的方法，其特征在于，在所述加载图像和对应的标注信息文件至计算机显存中之前，还包括；

采用图像标注工具对所述图像中的各个真实目标进行标注生成标注信息文件。

4.根据权利要求1所述的方法，其特征在于，在所述加载图像和对应的标注信息文件至计算机显存中之后，所述对所述图像进行网格划分得到多个网格子图像之前，还包括：

初始化所述图像的候选区域的坐标为空。

5.根据权利要求1所述的方法，其特征在于，所述固定尺度的卷积核为3x3的卷积核或者5x5的卷积核。

6.根据权利要求1所述的方法，其特征在于，所述滤波器为2x2的滤波器。

7.根据权利要求1所述的方法，其特征在于，所述固定步幅为1x1步幅。