CN107545263B - 一种物体检测方法及装置 - Google Patents

一种物体检测方法及装置 Download PDF

Info

Publication number
CN107545263B
CN107545263B CN201710652233.3A CN201710652233A CN107545263B CN 107545263 B CN107545263 B CN 107545263B CN 201710652233 A CN201710652233 A CN 201710652233A CN 107545263 B CN107545263 B CN 107545263B
Authority
CN
China
Prior art keywords
picture
feature map
loss function
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710652233.3A
Other languages
English (en)
Other versions
CN107545263A (zh
Inventor
王生进
李栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710652233.3A priority Critical patent/CN107545263B/zh
Publication of CN107545263A publication Critical patent/CN107545263A/zh
Application granted granted Critical
Publication of CN107545263B publication Critical patent/CN107545263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种物体检测方法及装置,所述方法包括:接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制,获得所述样本图片中各个感兴趣物体的检测结果。本发明实施例实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。

Description

一种物体检测方法及装置
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种物体检测方法及装置。
背景技术
物体检测是计算机视觉领域的核心任务之一,是图像理解和认知的关键技术,其根本目的是依靠计算机算法从静态或动态图像中识别感兴趣的物体。物体检测不仅具有重要的理论研究价值,是物体跟踪、身份与属性识别、图像语义描述等其他计算机视觉任务的研究基础,而且具有重要的实际应用价值和广阔的应用前景。例如,基于车载摄像机的车辆检测技术在智能辅助驾驶与无人驾驶领域有着重要应用,通过检测行车周围环境中的其他车辆目标,动态分析其与当前车辆的车距,能够消解潜在的车车冲突和可能发生的事故,从而提高车辆行驶安全性和交通通行效率,为保障人民生命安全和道路交通安全提供技术支撑。在安防视频监控领域,车辆检测技术也有着重要的应用前景,是后续车辆追踪、车牌识别、车辆属性识别(型号、颜色等)等任务的基础。同时,车辆检测还能够应用于智能交通流量统计***,通过自动检测视频流中的车辆目标并计数,能够自动统计重要道路、关卡等场合的车流量,提升交通***效率。因此,车辆检测技术具有重要的研究价值和广泛的应用前景。
目前主流的物体检测技术采用深度学习的框架,利用事先收集的大量目标样本训练神经网络,输出图片中目标的类型和位置。基于深度学习的物体检测方法相比利用传统特征和分类器的方法识别性能更高,能够应用于复杂场景中的目标检测。然而,许多实际应用场合对检测识别率要求较高,需要尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
因此,如何提高检测识别率,尽可能检测到图片中不同尺寸的目标,特别是小尺寸目标,是需要亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种物体检测方法及装置。
第一方面,本发明实施例提供一种物体检测方法,所述方法包括:
接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
可选的,所述图像复原L2损失函数具体包括:
Figure BDA0001368344630000021
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
可选的,所述窗口分类Softmax损失函数具体包括:
Figure BDA0001368344630000022
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
可选的,所述窗口校正平滑L1损失函数具体包括:
Figure BDA0001368344630000023
Figure BDA0001368344630000031
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
第二方面,本发明实施例提供一种物体检测装置,所述装置包括:
样本训练模块,用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
卷积和反卷积模块,用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
网络训练模块,用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
处理模块,用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
可选的,所述网络训练模块中所述图像复原L2损失函数具体包括:
Figure BDA0001368344630000032
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
可选的,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
Figure BDA0001368344630000041
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
可选的,所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
Figure BDA0001368344630000042
Figure BDA0001368344630000043
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述对应的任一方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述对应的任一方法。
本发明实施例提供的物体检测方法及装置,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的物体检测方法的流程示意图;
图2为本发明实施例中训练网络的输入输出示意图;
图3为本发明实施例提供的物体检测装置的结构示意图;
图4为本发明一个实施例提供的电子设备的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种物体检测方法,图1为本发明实施例提供的物体检测方法的流程示意图,如图1所示,所述方法包括:
步骤S101、接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;
其中,所述图片特征图(或者叫地标图)是指利用参数化特征(如点和线)的全局位置来表示环境。机器人的外部环境被一些列参数化的特征,即二维坐标点表示。这些静态的地标点被观测器(装有传感器的机器人)利用多目标跟踪的方法跟踪,从而估计机器人的运动。
步骤S102、通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
其中,所述卷积操作是指,通过卷积神经网络对图片特征图进行限缩,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(alternating convolutional layer)和池层(pooling layer)。
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
所述反卷积操作是指通过测量输出和已知输入重构未知输入的过程
步骤S103、通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
其中,所述损失函数通常而言是由损失项(loss term)和正则项(regularizationterm)组成,损失项对回归问题,常用的有:平方损失(for linear regression),绝对值损失;对分类问题,常用的有:hinge loss(for soft margin SVM),log loss(for logisticregression)。正则项常用的有L1-regularization和L2-regularization。
一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(LossFunction)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来评价模型的预测值Y=f(X)与真实值Y的不一致程度,它是一个非负实值函数。通常使用L(Y,f(x))来表示,损失函数越小,模型的性能就越好。
步骤S104、输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
其中,所述非极大值抑制顾名思义就是抑制不是极大值的元素,搜索局部的极大值。在物体检测非极大值抑制应用十分广泛,主要目的是为了消除多余的框,找到最佳的物体检测的位置。
本发明实施例提供的物体检测方法,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
在上述实施例的基础上,所述图像复原L2损失函数具体包括:
Figure BDA0001368344630000071
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
在上述实施例的基础上,所述窗口分类Softmax损失函数具体包括:
Figure BDA0001368344630000081
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
在上述实施例的基础上,所述窗口校正平滑L1损失函数具体包括:
Figure BDA0001368344630000082
Figure BDA0001368344630000083
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明实施例的具体实施方式为:
将接收到的样本图片进行网络训练,训练时,网络输入为整幅样本图片,训练样本图片需标注轴对齐的物体矩形边框位置,获得样本图片的图片特征图。卷积操作阶段,将获得的样本图片的图片特征图通过5层卷积操作Convi,i=1,2,3,4,5逐渐将特征图缩小,记特征层尺寸依次为Si,i=1,2,3,4,5。卷积操作将特征层的尺寸变小,Si>Sj若i<j。每一层卷积之后增加ReLU非线性输出单元以及池化操作。反卷积操作阶段,在第5层卷积层之后,依次增加4层反卷积操作Deconvi,i=1,2,3,4,记特征层尺寸依次为Di,i=1,2,3,4,保证反卷积层与卷积层特征图尺寸一致,即Si=D5-i,i=1,2,3,4。网络最终特征输出尺寸与输入的样本图片一致,采用图像复原L2损失函数计算图像复原误差,图像复原L2损失函数如下所示:
Figure BDA0001368344630000091
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
为了检测不同尺寸大小的目标,将具有相同尺寸大小的卷积层Convi和反卷积层Deconv5-i特征分别进行级联融合,取i=3,4。在融合后的特征图以及第5层卷积特征图之后通过ROI池化和全连接变换操作获得N+1维输出向量,N表示感兴趣的物体类别。利用窗口分类Softmax损失函数进行窗口分类,利用窗口校正平滑L1损失函数进行窗口位置校正。
窗口分类Softmax损失函数如下:
Figure BDA0001368344630000092
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
窗口校正平滑L1损失函数如下:
Figure BDA0001368344630000093
Figure BDA0001368344630000094
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明实施例采用多任务学***滑L1损失函数,总体损失函数为三者函数线性相加并通过总体损失函数训练网络得到目标训练网络,将通过卷积和反卷积操作得到的输出特征图输入到训练好的目标训练网络,如图2所示,获得样本图片的初始检测结果,在对初始检测结果进行非极大值抑制处理,排除重复检测框,获得样本图片的最终物体检测结果。
本发明实施例提供的物体检测方法,基于对称网络结构的多尺度物体检测方法,通过结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
本发明实施例提供一种物体检测装置,图3为本发明实施例提供的物体检测装置的结构示意图,如图3所示,所述装置包括:样本训练模块301、卷积和反卷积模块302、网络训练模块303和处理模块304;其中,
样本训练模块301用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;卷积和反卷积模块302用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;网络训练模块303用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;处理模块304用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果。
本发明实施例提供的物体检测装置,通过卷积和反卷积模块结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过网络训练模块将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
在上述实施例的基础上,所述网络训练模块中所述图像复原L2损失函数具体包括:
Figure BDA0001368344630000111
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
在上述实施例的基础上,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
Figure BDA0001368344630000112
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号;。
在上述实施例的基础上,所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
Figure BDA0001368344630000121
Figure BDA0001368344630000122
其中t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
本发明提供的物体检测装置是用来实现上述物体检测方法的,所述物体检测方法已经详细描述其具体实施方式,故在此不再赘述。
本发明实施例提供的物体检测装置,通过卷积和反卷积模块结合卷积和反卷积技术,搭建多尺度物体检测网络,通过将具有相同尺寸大小的卷积层和反卷积层特征融合,通过网络训练模块将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络获得目标训练网络,并将经过卷积和反卷积后的特征图输入目标训练网络获得物体检测结果,实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
图4为本发明一个实施例提供的电子设备的逻辑框图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401和存储器402通过所述总线403完成相互间的通信;所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (8)

1.一种物体检测方法,其特征在于,所述方法包括:
接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图,所述图片特征图包括采用参数化特征的全局位置来表示环境;
通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果;
所述反卷积操作是指通过测量输出和已知输入重构未知输入的过程;
所述通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图,具体包括:
卷积操作阶段,将获得的样本图片的图片特征图通过5层卷积操作Convi,i=1,2,3,4,5逐渐将特征图缩小,记特征层尺寸依次为Si,i=1,2,3,4,5,卷积操作将特征层的尺寸变小,Si>Sj若i<j;每一层卷积之后增加ReLU非线性输出单元以及池化操作;
反卷积操作阶段,在第5层卷积层之后,依次增加4层反卷积操作Deconvi,i=1,2,3,4,记特征层尺寸依次为Di,i=1,2,3,4,保证反卷积层与卷积层特征图尺寸一致,即Si=D5-i,i=1,2,3,4,网络最终特征输出尺寸与输入的样本图片一致,采用所述图像复原L2损失函数计算图像复原误差;
为了检测不同尺寸大小的目标,将具有相同尺寸大小的卷积层Convi和反卷积层Deconv5-i特征分别进行级联融合,取i=3,4,在融合后的特征图以及第5层卷积特征图之后通过ROI池化和全连接变换操作获得N+1维输出向量,N表示感兴趣的物体类别,利用所述窗口分类Softmax损失函数进行窗口分类,利用所述窗口校正平滑L1损失函数进行窗口位置校正;
所述窗口校正平滑L1损失函数具体包括:
Figure FFW0000021390770000011
Figure FFW0000021390770000021
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
2.根据权利要求1所述的方法,其特征在于,所述图像复原L2损失函数具体包括:
Figure FFW0000021390770000022
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
3.根据权利要求1所述的方法,其特征在于,所述窗口分类Softmax损失函数具体包括:
Figure FFW0000021390770000023
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
4.一种物体检测装置,其特征在于,所述装置包括:
样本训练模块,用于接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图,所述图片特征图包括采用参数化特征的全局位置来表示环境;
卷积和反卷积模块,用于通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;
网络训练模块,用于通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;
处理模块,用于输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制处理,获得所述样本图片中各个感兴趣物体的检测结果;
所述卷积和反卷积模块中的反卷积操作是指通过测量输出和已知输入重构未知输入的过程;
所述卷积和反卷积模块通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图,具体包括:
卷积操作阶段,将获得的样本图片的图片特征图通过5层卷积操作Convi,i=1,2,3,4,5逐渐将特征图缩小,记特征层尺寸依次为Si,i=1,2,3,4,5,卷积操作将特征层的尺寸变小,Si>Sj若i<j;每一层卷积之后增加ReLU非线性输出单元以及池化操作;
反卷积操作阶段,在第5层卷积层之后,依次增加4层反卷积操作Deconvi,i=1,2,3,4,记特征层尺寸依次为Di,i=1,2,3,4,保证反卷积层与卷积层特征图尺寸一致,即Si=D5-i,i=1,2,3,4,网络最终特征输出尺寸与输入的样本图片一致,采用所述网络训练模块中所述图像复原L2损失函数计算图像复原误差;
为了检测不同尺寸大小的目标,将具有相同尺寸大小的卷积层Convi和反卷积层Deconv5-i特征分别进行级联融合,取i=3,4,在融合后的特征图以及第5层卷积特征图之后通过ROI池化和全连接变换操作获得N+I维输出向量,N表示感兴趣的物体类别,利用所述网络训练模块中所述窗口分类Softmax损失函数进行窗口分类,利用所述窗口校正平滑L1损失函数进行窗口位置校正;
所述网络训练模块中所述窗口校正平滑L1损失函数具体包括:
Figure FFW0000021390770000031
Figure FFW0000021390770000032
其中,t表示预测的所述输出特征图的边框位置;
v表示人工标注的所述图片特征图的真实位置;
x,y,w,h分别表示所述输出特征图的边框的中心横纵坐标和边框的宽高;
l(ti-vi)为预测的所述输出特征图的边框位置与人工标注的所述图片特征图的真实位置的差值,即误差;
l(a)为l(ti-vi)的物理表达式,l(ti-vi)根据l(a)表达式的值获得;
a表示的是ti-vi
i表示的是预测的所述输出特征图的边框序号。
5.根据权利要求4所述的装置,其特征在于,所述网络训练模块中所述图像复原L2损失函数具体包括:
Figure FFW0000021390770000041
其中,b表示输入的所述样本图片的图片特征图;
f(b)表示对所述图片特征图进行所述预设的卷积操作与所述预设的反卷积操作后获得的所述输出特征图。
6.根据权利要求4所述的装置,其特征在于,所述网络训练模块中所述窗口分类Softmax损失函数具体包括:
Figure FFW0000021390770000042
其中,z是softmaxwithloss损失层输入的图片特征图;
f(z)是softmax损失函数输出的图片特征图的分类结果;
y是输入的所述图片特征图z对应的类别,y=0,1,...,N;
N是所述感兴趣的物体类别;
k为Softmax损失函数输出的图片特征图的当前维度索引号;
j为Softmax损失函数输出的图片特征图的索引号。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至3任一所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至3任一所述的方法。
CN201710652233.3A 2017-08-02 2017-08-02 一种物体检测方法及装置 Active CN107545263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710652233.3A CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710652233.3A CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Publications (2)

Publication Number Publication Date
CN107545263A CN107545263A (zh) 2018-01-05
CN107545263B true CN107545263B (zh) 2020-12-15

Family

ID=60971397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710652233.3A Active CN107545263B (zh) 2017-08-02 2017-08-02 一种物体检测方法及装置

Country Status (1)

Country Link
CN (1) CN107545263B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549927A (zh) * 2018-03-16 2018-09-18 深圳市商汤科技有限公司 物体检测网络的训练方法和特征监督图生成方法
CN108830280B (zh) * 2018-05-14 2021-10-26 华南理工大学 一种基于区域提名的小目标检测方法
US11756667B2 (en) 2018-05-30 2023-09-12 Siemens Healthcare Gmbh Decision support system for medical therapy planning
CN109086656B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物检测方法、装置、计算机设备及存储介质
CN108764202B (zh) * 2018-06-06 2023-04-18 平安科技(深圳)有限公司 机场异物识别方法、装置、计算机设备及存储介质
CN109977845B (zh) * 2019-03-21 2021-08-17 百度在线网络技术(北京)有限公司 一种可行驶区域检测方法及车载终端
CN110197152B (zh) * 2019-05-28 2022-08-26 南京邮电大学 一种用于自动驾驶***的道路目标识别方法
CN110533119B (zh) * 2019-09-04 2022-12-27 北京迈格威科技有限公司 标识识别方法及其模型的训练方法、装置及电子***
CN111145097B (zh) * 2019-12-31 2023-09-01 华为技术有限公司 图像处理方法、装置和图像处理***
CN111414825B (zh) * 2020-03-13 2023-09-08 玉林师范学院 一种安全帽佩戴检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080159622A1 (en) * 2006-12-08 2008-07-03 The Nexus Holdings Group, Llc Target object recognition in images and video
US9858525B2 (en) * 2015-10-14 2018-01-02 Microsoft Technology Licensing, Llc System for training networks for semantic segmentation
CN105975941B (zh) * 2016-05-31 2019-04-12 电子科技大学 一种基于深度学习的多方向车型检测识别***
CN106203395B (zh) * 2016-07-26 2020-01-14 厦门大学 基于多任务深度学习的人脸属性识别方法
CN106504233B (zh) * 2016-10-18 2019-04-09 国网山东省电力公司电力科学研究院 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及***
CN106980895A (zh) * 2017-02-22 2017-07-25 中国科学院自动化研究所 基于旋转区域的卷积神经网络预测方法
CN106920243B (zh) * 2017-03-09 2019-12-17 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106991408A (zh) * 2017-04-14 2017-07-28 电子科技大学 一种候选框生成网络的生成方法及人脸检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN106447658A (zh) * 2016-09-26 2017-02-22 西北工业大学 基于全局和局部卷积网络的显著性目标检测方法
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法

Also Published As

Publication number Publication date
CN107545263A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107545263B (zh) 一种物体检测方法及装置
JP7289918B2 (ja) 物体認識方法及び装置
CN106845487B (zh) 一种端到端的车牌识别方法
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
US20230076266A1 (en) Data processing system, object detection method, and apparatus thereof
CN111860439A (zh) 一种无人机巡检图像缺陷检测方法、***及设备
Geng et al. Combining CNN and MRF for road detection
CN112949633B (zh) 一种基于改进YOLOv3的红外目标检测方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
US20230154157A1 (en) Saliency-based input resampling for efficient object detection
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
Muthalagu et al. Vehicle lane markings segmentation and keypoint determination using deep convolutional neural networks
Khellal et al. Pedestrian classification and detection in far infrared images
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和***
CN115631344A (zh) 一种基于特征自适应聚合的目标检测方法
Wang et al. Deep leaning-based ultra-fast stair detection
Yin Object Detection Based on Deep Learning: A Brief Review
Xiang et al. Crowd density estimation method using deep learning for passenger flow detection system in exhibition center
Baghel et al. Analysis of Ex-YOLO algorithm with other real-time algorithms for emergency vehicle detection
Zhang et al. Quality-guided lane detection by deeply modeling sophisticated traffic context
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant