CN110889425A - 基于深度学习的目标检测方法 - Google Patents
基于深度学习的目标检测方法 Download PDFInfo
- Publication number
- CN110889425A CN110889425A CN201811644255.6A CN201811644255A CN110889425A CN 110889425 A CN110889425 A CN 110889425A CN 201811644255 A CN201811644255 A CN 201811644255A CN 110889425 A CN110889425 A CN 110889425A
- Authority
- CN
- China
- Prior art keywords
- image
- target detection
- grid
- target
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的目标检测方法。本发明直接选用整图训练模型,通过将候选区域提取和特征检测两个阶段整合为一体,即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框,同时利用显存对存储的特征进行读写,并结合使用softmax函数代替了svm对特征的分类,这样不仅能够提高目标检测的速度,而且利用整图直接训练能够更好地区分目标和背景区域,从而能够提高目标检测的精度。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于深度学习的目标检测方法。
背景技术
目标检测是实现目标检索、目标追踪、异常行为检测和场景理解等复杂视觉任务的基础,通过算法对图像或者视频中的目标进行检测可以为高级决策提供更多的依据,因此良好的目标检测模型是非常重要的环节。
目前,在目标检测领域中处于主导地位的是基于区域卷积神经网络R-CNN(Region-convolutional neural network)的目标检测方法,该方法的目标检测流程包括:首先生成一个候选区域集合,其中,候选区域是利用图像中的纹理、边缘和颜色等信息预先找出图中目标可能出现的位置,然后将所有候选区域作为训练样本输入到卷积神经网络CNN中进行训练,之后再将每个候选区域提取到的CNN特征输入到分类器SVM中进行训练,最后再分类器SVM分好类的候选区域进行边框回归以修正候选区域,以满足候选区域提取到的窗口与目标真实窗口更加吻合。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
在基于R-CNN的目标检测算法中,训练必须分成两个部分进行,即候选区域训练和CNN特征训练,而且该算法需要通过硬盘对存储的特征进行频繁地读写,因此,现有的目标检测方法在同样的硬件平台上检测同分辨率的图像相对比较耗时。
发明内容
本发明提供的基于深度学习的目标检测方法,通过将候选区域提取和特征检测两个阶段整合为一体,利用显存对存储的特征进行读写,并结合使用softmax函数代替了svm对特征的分类,能够提高目标检测的速度和精度。
本发明提供一种基于深度学习的目标检测方法,包括:
(1)加载图像和对应的标注信息文件至计算机显存中,并随机初始化权值矩阵;
其中,所述标注信息文件包括所述图像中各个真实目标的类别和包含所述真实目标的矩形包围框坐标;
(2)对所述图像进行网格划分得到多个网格子图像,并预测各个网格子图像的候选区域;
(3)将各个网格子图像的多个候选区域矩阵向量进行卷积操作得到所述网格子图像的特征图,利用不同尺度的卷积核在不同的卷积层上对所述特征图进行卷积操作,将各个网格子图像对应的不同尺度的特征图进行积分融合;
(4)对融合后的特征图执行池化操作,将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图;
(5)对步骤(4)的输出特征图运用滤波器进行池化操作;
(6)将步骤(5)的输出作为全连接层的输入采用固定步幅进行卷积操作;
(7)将步骤(6)的输出作为分类函数Softmax的输入,先计算出所述图像目标类别的置信度以及预测的坐标信息,再计算与真实标注信息的误差,通过所述误差计算对应梯度值以更新各个层的权值矩阵;
(8)如果训练次数达到设置次数则停止训练,否则返回步骤(3);
(9)达到设置的训练次数,得到训练完成的模型,将待检测图像与模型权值矩阵进行乘积计算,得到图像中目标检测的结果。
本发明实施例提供的基于深度学习的目标检测方法,本发明直接选用整图训练模型,将目标检测问题转化为一个回归问题,即直接在输入图像的多个位置上回归出真实目标的分类类别和矩形包围框。与现有技术相比,一方面,本发明通过将候选区域提取和特征检测两个阶段整合为一体,即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框,而且在训练过程中不需要通过硬盘进行特征读写,而是利用显存对存储的特征进行读写,读写效率明显提高,从而能够提高目标检测的速度;另一方面,本发明通过不同尺度的卷积核在不同卷积层上进行卷积操作,经过卷积计算后再将不同尺度的特征图进行融合,以适应多尺度的真实目标,而且结合使用softmax函数代替了svm对特征的分类,来提高目标检测的精度。
附图说明
图1为本发明一实施例基于深度学习的目标检测方法的流程图;
图2为本发明的基于深度学***台的应用示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于深度学习的目标检测方法,如图1所示,所述方法包括:
(1)加载图像和对应的标注信息文件至计算机显存中,并随机初始化权值矩阵。
其中,所述标注信息文件包括所述图像中各个真实目标的类别和包含所述真实目标的矩形包围框坐标。
(2)对所述图像进行网格划分得到多个网格子图像,并预测各个网格子图像的候选区域。
(3)将各个网格子图像的多个候选区域矩阵向量进行卷积操作得到所述网格子图像的特征图,利用不同尺度的卷积核在不同的卷积层上对所述特征图进行卷积操作,将各个网格子图像对应的不同尺度的特征图进行积分融合。
(4)对融合后的特征图执行池化操作,将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图。
步骤(4)能够降低特征维度,加强特征的抗干扰(例如由图像拉伸、旋转等操作带来的干扰)能力。
(5)对步骤(4)的输出特征图运用滤波器进行池化操作。
(6)将步骤(5)的输出作为全连接层的输入采用固定步幅进行卷积操作。
具体的,将步骤(5)的输出的特征缩放到1x1000,也就是得到1000维的特征图,再将该特征图进行固定步幅进行卷积操作。
(7)将步骤(6)的输出作为分类函数Softmax的输入,先计算出所述图像目标类别的置信度以及预测的坐标信息,再计算与真实标注信息的误差,通过所述误差计算对应梯度值以更新各个层的权值矩阵。
具体的,将步骤(6)的输出图像特征作为分类函数Softmax的输入,计算出所述图像中目标类别的置信度和目标对应的坐标信息,通过与真实标注信息进行标准欧式距离计算,得到当前图像中目标类别置信度与目标坐标信息的误差,通过所述误差计算对应梯度值,将用来对各个层的权值矩阵进行相加更新,让下一次训练的出来的目标置信度与对应的坐标更加逼近真实值。
(8)如果训练次数达到设置次数则停止训练,否则返回步骤(3)。
(9)达到设置的训练次数,得到训练完成的模型,将待检测图像与模型权值矩阵进行乘积计算,得到图像中目标检测的结果。
具体的,达到设置的训练次数,得到训练完成的模型,再将待检测图像输入,对待检测图像进行(2)至(6)的卷积核池化等计算,最后通过分类函数softmax来得到目标检测的类别和坐标信息,也就是将待检测图像与模型权值矩阵进行乘积计算,得到图像中目标检测的结果。
本发明实施例提供的基于深度学习的目标检测方法,本发明直接选用整图训练模型,将目标检测问题转化为一个回归问题,即直接在输入图像的多个位置上回归出真实目标的分类类别和矩形包围框。与现有技术相比,一方面,从步骤(2)到(7),本发明通过将从候选区域提取到特征Softmax的分类这一系列流程整合为一体,实现输入端到输出端的训练,即直接在图像的多个位置上回归出真实目标的分类类别和矩形包围框,而且在训练过程中不需要通过硬盘进行特征读写,而是利用显存对存储的特征进行读写,读写效率明显提高,从而能够提高目标检测的速度;另一方面,本发明通过不同尺度的卷积核在不同卷积层上进行卷积操作,经过卷积计算后再将不同尺度的特征图进行融合,以适应多尺度的真实目标,而且结合使用softmax函数代替了svm对特征的分类,在高维特征分类中仍保持比较好的性能,用来提高目标检测的精度。
可选地,如果所述矩形包围框的中心坐标位于所述网格子图像的坐标范围中,则对所述网格子图像的矩阵向量与权值矩阵进行乘积计算,预测出多个候选区域,否则对所述网格子图像不进行候选区域预测处理。
可选地,在所述加载图像和对应的标注信息文件至计算机显存中之前,还包括;
采用图像标注工具标注对所述图像中的各个真实目标进行标注,生成标注信息文件。
可选地,在所述加载图像和对应的标注信息文件至计算机显存中之后,所述对所述图像进行网格划分得到多个网格子图像之前,还包括:
初始化所述图像的候选区域的坐标为空。
可选地,所述固定尺度的卷积核为3x3的卷积核或者5x5的卷积核,所述滤波器为2x2的滤波器,所述固定步幅为1x1步幅。
本发明的基于深度学***台中嵌入本发明的目标检测算法后,能够实现对交通安防图像的道路场景进行目标检测,安防平台的目标检测工作流程如下:
1)通过道路交通摄像头对交通道路场景进行视频录像,每隔一定时间就上传录制的图像视频。
2)服务器对视频解码成帧,同时初始化图形加速器,加载深度学习模型。
3)将待检测图像输入到深度学习网络模型中,得到道路交通图像中的目标类别和位置坐标信息,例如,行人的位置、车辆的位置和型号。
4)将识别到目标框出,并在图像中显示出来,识别效果图如图2所示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种基于深度学习的目标检测方法,其特征在于,包括:
(1)加载图像和对应的标注信息文件至计算机显存中,并随机初始化权值矩阵;
其中,所述标注信息文件包括所述图像中各个真实目标的类别和包含所述真实目标的矩形包围框坐标;
(2)对所述图像进行网格划分得到多个网格子图像,并预测各个网格子图像的候选区域;
(3)将各个网格子图像的多个候选区域矩阵向量进行卷积操作得到所述网格子图像的特征图,利用不同尺度的卷积核在不同的卷积层上对所述特征图进行卷积操作,将各个网格子图像对应的不同尺度的特征图进行积分融合;
(4)对融合后的特征图执行池化操作,再将池化操作后的特征图与一个固定尺度的卷积核进行卷积操作以进一步优化特征图;
(5)对步骤(4)的输出特征图运用滤波器进行池化操作;
(6)将步骤(5)的输出作为全连接层的输入采用固定步幅进行卷积操作;
(7)将步骤(6)的输出作为分类函数Softmax的输入,先计算出所述图像目标类别的置信度以及预测的坐标信息,再计算与真实标注信息的误差,通过所述误差计算对应梯度值以更新各个层的权值矩阵;
(8)如果训练次数达到设置次数则停止训练,否则返回步骤(3);
(9)达到设置的训练次数,得到训练完成的模型,将待检测图像与模型权值矩阵进行乘积计算,得到图像中目标检测的结果。
2.根据权利要求1所述的方法,其特征在于,所述预测各个网格子图像的候选区域包括:
如果所述矩形包围框的中心坐标位于所述网格子图像的坐标范围中,则对所述网格子图像的矩阵向量与权值矩阵进行乘积计算预测出多个候选区域,否则对所述网格子图像不进行候选区域预测处理。
3.根据权利要求1所述的方法,其特征在于,在所述加载图像和对应的标注信息文件至计算机显存中之前,还包括;
采用图像标注工具对所述图像中的各个真实目标进行标注生成标注信息文件。
4.根据权利要求1所述的方法,其特征在于,在所述加载图像和对应的标注信息文件至计算机显存中之后,所述对所述图像进行网格划分得到多个网格子图像之前,还包括:
初始化所述图像的候选区域的坐标为空。
5.根据权利要求1所述的方法,其特征在于,所述固定尺度的卷积核为3x3的卷积核或者5x5的卷积核。
6.根据权利要求1所述的方法,其特征在于,所述滤波器为2x2的滤波器。
7.根据权利要求1所述的方法,其特征在于,所述固定步幅为1x1步幅。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644255.6A CN110889425A (zh) | 2018-12-29 | 2018-12-29 | 基于深度学习的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811644255.6A CN110889425A (zh) | 2018-12-29 | 2018-12-29 | 基于深度学习的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110889425A true CN110889425A (zh) | 2020-03-17 |
Family
ID=69745752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811644255.6A Pending CN110889425A (zh) | 2018-12-29 | 2018-12-29 | 基于深度学习的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889425A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611162A (zh) * | 2016-12-20 | 2017-05-03 | 西安电子科技大学 | 基于深度学习ssd框架的道路车辆实时检测方法 |
CN107527009A (zh) * | 2017-07-11 | 2017-12-29 | 浙江汉凡软件科技有限公司 | 一种基于yolo目标检测的遗留物检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
-
2018
- 2018-12-29 CN CN201811644255.6A patent/CN110889425A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611162A (zh) * | 2016-12-20 | 2017-05-03 | 西安电子科技大学 | 基于深度学习ssd框架的道路车辆实时检测方法 |
CN107527009A (zh) * | 2017-07-11 | 2017-12-29 | 浙江汉凡软件科技有限公司 | 一种基于yolo目标检测的遗留物检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
Non-Patent Citations (2)
Title |
---|
JOSEPH REDMON ET AL.: "《YOLOv3: An Incremental Improvement》", 《AIXIV》 * |
袁利毫 等: "《基于YOLOv3的水下小目标自主识别》", 《海洋工程装备与技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980871B (zh) | 应用到道路场景图像的低保真分类器和高保真分类器 | |
JP6897335B2 (ja) | 学習プログラム、学習方法および物体検知装置 | |
US9607228B2 (en) | Parts based object tracking method and apparatus | |
US20170206434A1 (en) | Low- and high-fidelity classifiers applied to road-scene images | |
CN111767878B (zh) | 嵌入式设备中基于深度学习的交通标志检测方法及*** | |
CN111274926B (zh) | 图像数据筛选方法、装置、计算机设备和存储介质 | |
CN112861635B (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
CN109492576B (zh) | 图像识别方法、装置及电子设备 | |
KR20200027889A (ko) | CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN112906816B (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、***及存储介质 | |
CN111209774A (zh) | 目标行为识别及显示方法、装置、设备、可读介质 | |
CN112861631A (zh) | 一种基于Mask Rcnn以及SSD的地磅人体入侵检测方法 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
Choudhury et al. | Improved pedestrian detection using motion segmentation and silhouette orientation | |
CN112686274A (zh) | 目标对象的检测方法及设备 | |
CN112861917A (zh) | 基于图像属性学习的弱监督目标检测方法 | |
CN111833353B (zh) | 一种基于图像分割的高光谱目标检测方法 | |
CN115115825B (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
Sharma et al. | Analytical review on object segmentation and recognition | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN111709377A (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN116051959A (zh) | 一种目标检测方法、装置 | |
CN110889425A (zh) | 基于深度学习的目标检测方法 | |
CN114783042A (zh) | 基于多移动目标的人脸识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200317 |