CN105740910A

CN105740910A - 一种车辆物件检测方法及装置

Info

Publication number: CN105740910A
Application number: CN201610073077.0A
Authority: CN
Inventors: 张德兵
Original assignee: BEIJING DEEPGLINT INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING DEEPGLINT INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2016-07-06

Abstract

本申请提供了一种车辆物件检测方法及装置，包括：获取当前场景中的监控图像；利用深度卷积神经网络模型对所述监控图像提取任务相关的具有高效表达能力的特征，输出专门用于检测特定物件的特征图像；将预先训练得到的卷积核与所述特征图像进行卷积计算，得到检测结果，所述检测结果包括物件的类别，物件存在的概率和所述物件的相对位置。由于本申请实施例中利用深度卷积神经网络模型对所述监控图像提取特征输出特征图像，后续只需要将卷积核与不同物件的所述特征图像进行计算即可，无需对原始监控图像进行预处理、无需再对整张原始监控图像进行滑动框扫描，且不需要对原始图像进行多尺度特征计算，从而节省了计算时间、大大提高了检测效率和检测精度。

Description

一种车辆物件检测方法及装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种车辆物件检测方法及装置。

背景技术

目前，***的检测、安全驾驶行为判断、犯罪侦查等具体应用中，需要对车窗上的小物件进行检测，例如：年检标、挂坠、遮阳板、安全带、纸巾盒、打火机、人脸等。

现有的检测方法只能针对某种物件单独检测，主要步骤可以包括：首先对图像进行预处理，例如直方图均衡、对比度调整等；然后提取人工定义的一系列特征，例如：边缘、纹理、各个方向上的梯度特征、Haar特征以及特征模板等；最后利用上述特征，依次对经过预处理的图像中不同大小、长宽比或位置的窗口逐一进行分类判断，如果分类概率大于某个阈值则认为是该物件，否则就不是。

采用上述方式对物件进行检测，需要对每类物体的图片进行反复缩放、多尺度计算，导致计算量较大、且检测效率较低，除此之外，对光照、遮挡、模糊等情况的处理也比较不好，导致检测精度较低。

现有技术不足在于：

现有物件检测方案计算量大、检测效率和精度较低。

发明内容

本申请实施例提出了一种车辆物件检测方法及装置，以解决现有技术中物件检测方案计算量大、检测效率和精度较低的技术问题。

本申请实施例提供了一种车辆物件检测方法，包括如下步骤：

获取当前场景中的监控图像；

利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像；

将预先训练得到的卷积核与所述特征图像进行卷积计算，得到检测结果，所述检测结果包括所述物件的类别、所述物件存在的概率和所述物件的相对位置。

本申请实施例提供了一种车辆物件检测装置，包括：

获取模块，用于获取当前场景中的监控图像；

特征提取模块，用于利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像；

训练模块，用于训练卷积核；

检测模块，用于将预先训练得到的卷积核与所述特征图像进行卷积计算，得到检测结果，所述检测结果包括所述物件的类别、所述物件存在的概率和所述物件的相对位置。

有益效果如下：

本申请实施例所提供的车辆物件检测方法及装置，在获取到当前场景中的监控图像后，可以利用深度卷积神经网络模型对所述监控图像提取特征，输出特征图像，将训练得到的卷积核与所述特征图像进行卷积计算得到检测结果，所述检测结果包括所述物件的类别、物件存在的概率和所述物件的相对位置。由于本申请实施例中利用深度卷积神经网络模型对所述监控图像提取任务相关的具有高效表达能力的特征，输出专门用于检测特定物件的特征图像，后续只需要将卷积核与不同物件的所述特征图像进行计算即可，无需对原始监控图像进行预处理、无需再对整张原始监控图像进行滑动框扫描，且不需要对原始图像进行多尺度特征计算，从而节省了计算时间、大大提高了检测效率和检测精度。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请实施例中车辆物件检测方法实施的流程示意图；

图2示出了本申请实施例中车辆物件检测过程示意图；

图3示出了本申请实施例中车辆物件检测装置的结构示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

针对现有技术的不足，本申请实施例提出了一种车辆物件检测方法及装置，下面进行说明。

图1示出了本申请实施例中车辆物件检测方法实施的流程示意图，如图所示，所述车辆物件检测方法可以包括如下步骤：

步骤101、获取当前场景中的监控图像；

步骤102、利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像；

步骤103、将预先训练得到的卷积核与所述特征图像进行卷积计算，得到检测结果，所述检测结果包括所述物件的类别、所述物件存在的概率和所述物件的相对位置。

具体实施时，可以在需要监控的场景中预先布置监控摄像头，由摄像头回传当前场景中的监控图像。实际使用中，摄像头回传的可能为监控视频，监控视频可以包括若干帧的监控图像。

本申请实施例中的监控图像可以为红绿蓝RGB图像，一个图像可以按照颜色的不同分为三张图像，具体实施时可以分别以三张图像进行后续操作。

深度学习在处理图像问题中展现了巨大的优势，其深层的网络结构和端到端的优化思想使得让机器自动从数据中进行学习成为可能。卷积神经网络(ConvolutionalNeuralNetworks，简称CNN)是深度学习较为热门的方法之一，一般地，卷积神经网络的基本结构可以包括两层，一层是特征提取层，一层是特征映射层。

本申请实施例可以利用深度卷积神经网络模型对所述监控图像进行特征提取，输出特征图像，这个输出就是通过神经网络学习得到的用于检测的特征。其中，深度卷积神经网络模型可以采用现有的模型，例如现有的GoogleNet模型，这个模型是由卷积层和感知模块InceptionModule堆叠而成，具体实施时，本申请实施例可以采用两个卷积层和三个感知模块InceptionModule。

假设对监控图像提取特征后得到1个特征图像，采用一定大小(假设为3*3)的卷积核，可以利用所述卷积核与上述特征图像进行卷积计算，得到一个输出(大小可以为25*50)，所述输出的每个位置可以表示在所述特征图像中该位置存在某个物件的概率。

再利用1个卷积核与上述特征图像进行卷积计算，可以得到该物件的左上角x的相对偏移位置；同理，左上角y的相对偏移位置、右下角x的相对偏移位置、右下角y的相对偏移位置等各需要1个卷积核与特征图像进行计算得到。

因此，对某个物件进行检测，如果从监控图像提取出的特征图像为1个，可以利用5个一定大小(假设为3*3)的卷积核(卷积核总共大小可以为5*3*3)进行计算，卷积核与特征图像进行卷积计算之后，可以得到5张图(大小可以为5*25*50的输出，即5张25*50的图)。

其中，第一张图可以表示每个位置存在该物件的概率，所有的数字都在0～1之间，另外四张图分别可以表示该物件的相对位置的左上角x坐标、左上角y坐标、右下角x坐标、右下角y坐标的相对偏移位置。

如果要对多种物件进行检测，假设需要处理M种物件检测，本申请实施例可以利用5*M个卷积核进行卷积计算，最终输出5*M个图，每个输出的图可以表示某种物件存在的概率、或者某种物件相对偏移位置的四个坐标的输出。

不同物件的检测又可以分为不同的尺度和长宽比，例如：

安全带面积一般可以从40*40*2⁰到40*40*2³，宽高比例可以为1∶2、1∶1、2∶1等；

年检标面积一般可以从10*10*2¹到10*10*2⁵，宽高比例可以为1∶1、2∶1等；

遮阳板面积一般可以从40*40*2⁰到40*40*2³，宽高比例可以为2∶1、4∶1、8∶1等；

纸巾盒面积一般可以从40*40*2⁰到40*40*2³，宽高比例可以为1∶2、1∶1、3∶2等；

挂坠面积一般可以从20*20*2¹到20*20*2³，宽高比例可以为1∶5、0.35∶1等；

其它物件面积可以从20*20*2⁰到20*20*2⁴，宽高比例可以为1∶2、1∶1、2∶1、4∶1等。

本申请实施例通过神经网络将原始的监控图像提取特征后缩小为特征图像，在所述特征图像中进行后续扫描、检测等操作与在原始监控图像中操作相比可以极大降低卷积核的滑动或检测时间。

本申请实施例中所述卷积核可以理解为根据物件进行样本训练得到的数字表示，所述卷积核可以为1*1、3*3、5*5等大小，卷积核中包括多个数值，例如：3*3的卷积核中包括9个数值。

所述卷积核可以为预先根据物件的若干样本进行训练得到的，所述卷积核可以与物件的种类一一对应，例如：可以检测遮阳板的卷积核、可以检测挂坠的卷积核，所述卷积核还可以与某种物件的不同尺度、不同长宽比相对应，例如：可以检测宽高比为1∶1、面积为40*40的安全带的卷积核。

以3*3大小的滑动窗口为例，本申请实施例只需要扫描3*3的滑动窗口，不需要将监控图像变换不同的尺度进行扫描、检测，即，本申请实施例不需要根据物体的尺度变化而变化，降低了计算复杂度、提高了检测效率。

具体实施时，卷积核中的参数与所述深度卷积神经网络模型中的参数可以同时训练得到，也可以先进行卷积核的训练、再进行模型的训练，本申请对卷积核训练和模型训练的顺序不作限制。

本申请实施例所提供的车辆物件检测方法，无需对监控图像进行任何预处理，可以接受任意大小、任意长宽比的图像输入，本申请实施例可以对获取到的图像提取表达能力更强的视觉特征，浓缩得到特征图像，后续只需要对所述特征图像进行检测即可，无需对原始监控图像进行预处理、无需再对整张原始监控图像进行滑动框扫描，且不需要对原始图像进行多尺度特征计算，从而节省了计算时间、大大提高了检测效率和检测精度。

本申请实施例所提供的检测方法不仅可以检测车辆物件，还可以对车牌、车标、车灯、交通标志、交通信号灯等类似物件进行检测，扩展性较强，只需预先训练这些物件的卷积核即可。

实施中，所述利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像，具体可以为：利用深度卷积神经网络模型对所述监控图像提取不同的特征，输出k个用于检测物件的特征图像；

所述将预先训练得到的卷积核与所述特征图像进行卷积计算，具体为：将预先训练得到的5*k*M个卷积核与所述k个特征图像分别进行卷积计算；其中，所述M为物件的种类。

经卷积神经网络模型提取特征后输出的特征图像可以为k张，每张特征图像则可以为25*50等不同大小，特征图像的总的大小可以为k*25*50。当需要处理M种物件检测时，用于检测的卷积核可以有k*M个。

假设本申请实施例中利用深度卷积神经网络模型对所述监控图像提取出k个特征图像，那么可以利用k个卷积核分别与上述的k张特征图像进行一一卷积计算，并将结果求和，这样得到的结果是一定大小的输出，每个位置上表示，在特征图像的该位置存在某个物件的概率。在计算相对的左上角x的相对偏移位置时，可以再利用k个卷积核来进行计算。同理，左上角y的相对偏移、右下角x的相对偏移、右下角y的相对偏移分别可以利用k个卷积核计算得到。

因此，对某个物件进行检测，如果从监控图像提取得到k个特征图像，那么本申请实施例可以利用k*5个卷积核，输出5张图，分别代表存在该物件的概率，左上角x的相对偏移，左上角y的相对偏移，右下角x的相对偏移，右下角y的相对偏移。

如果要对多种物件进行检测，假设需要处理M种物件检测，本申请实施例可以利用k*5*M个卷积核进行卷积计算，最终输出5*M个图，每一个输出图像代表某种物件存在的概率、或者该物件相对偏移位置的四个坐标的输出。

传统技术在具体实施时，通常根据原始监控图像可以提取一些基本的特征，比如纹理，颜色，折线，各个方向的梯度等等，但是这些特征与最终的车辆物件检测任务并不直接相关。而本申请实施例充分借鉴了深度学习模型的高效特征表达能力。深度学习的优势在于，它可以根据任务本身，专门从数据和数据的标注中自动学习得到最紧凑有效的特征。本申请实施例可以利用深度卷积神经网络模型从所述监控图像中自动学习得到更加丰富、更加有表达和区分能力的特征，这些特征里包含了所有能区分某物件与非该物件的信息，比如车牌形状、车牌的位置、车灯的位置、年检标的形状或位置等等。

实施中，所述预先训练得到的卷积核可以为多个，所述将预先训练得到的卷积核与所述特征图像进行卷积计算，具体可以为：

将所述多个预先训练得到的卷积核并行与所述特征图像进行卷积计算。

具体实施时，卷积核可以有多个，按照大小不同可以分为几类，例如：1*1、3*3或5*5等，将这些卷积核分别在所述特征图像上进行滑过即可完成卷积计算。

本申请实施例可以根据实际物件的特征预先训练出多个卷积核，根据不同场景、不同环境、不同距离、不同长宽比的物件样本，经过不断的训练得到可以用于检测物件的卷积核。例如：根据不同场景、不同环境、不同距离、不同长宽比的年检标样本训练得到卷积核，从而可以在监控图像中出现年检标时，采用所述卷积核可以快速、准确的检测出图像中存在年检标且输出所述年检标的位置，从而确定图像中有年检标以及年检标的位置。

如果要检测不同尺度、不同长宽比的某个物件，对于k个特征图像来说，用于检测的卷积核可以有k*scale*ratio个，具体实施时，scale可以有6、7种、ratio可以有4、5种，其中，不同的scale可以负责检测不同大小的该物件，不同的ratio可以负责检测不同长宽比的该物件。

本申请实施例采用多个卷积核进行计算，经汇总后可以得到更为准确的物件存在的概率和所述物件的位置，当多个卷积核均检测出监控图像中存在某个物件，则检测结果的准确性更高。

由于本申请实施例在检测计算过程中，可以多个卷积核同时与所述特征图像进行卷积计算，假设GPU有10个核，那么GPU的10个核可以均匀并行利用，进一步提高了检测效率，而现有技术则只能一个一个串行处理，无法拆分成计算量相同的子任务，因此也无法充分利用GPU多核特性。具体实施时，GPU通常可以有200～4000个核，本申请对GPU的核数不作限制。

实施中，所述卷积计算具体可以为全卷积计算。

现有技术中的进行卷积计算，是将卷积核作为滑动窗口在所述特征图像的某个位置进行卷积计算，在计算结束后再移动到下一个位置进行卷积计算，…，直至完成所述特征图像的全部位置的卷积计算。

而本申请实施例采用的可以是全卷积计算，即，所述卷积核作为滑动窗口一次性的与所述特征图像上所有位置进行卷积计算，显然，与现有技术相比，本申请实施例所提供的方案检测效率更高。

实施中，在进行卷积计算时如果同一物件在不同位置产生响应，可以采用非最大值抑制方法将输出的所述物件的多个相对位置进行合并。

具体实施时，不同的卷积核可能会与同一物件产生响应，即输出该物件存在的概率大于预设阈值，此时，所述图像中所述物件可能被多个检测框所覆盖，本申请实施例中可以采用非最大值抑制方法将这些框进行合并。

本申请实施例中，卷积核在扫描时，多次对同一物件产生较强响应时可以对这些输出的物件相对位置进行合并；或者说，同一物件在卷积核扫描时，在不同位置产生了多次响应(所述响应可以为输出的物件存在概率大于预设阈值)，那么可以将输出的物件相对位置(对应于该物件的检测框)进行合并。

非最大值抑制(Non-maximumsuppression)可以看做是局部最大值的搜索问题，可以简单理解为抑制不是极大值的元素(具体实施时可以将非极大值的像素点所对应的灰度值置为0)、搜索局部的极大值。

具体实施时，当任意两个框的交并比大于预设第二阈值时，则认为这两个框覆盖的是同一物件，即可根据上述非最大值抑制方法将这两个框进行合并。

实施中，所述方法可以进一步包括：

根据所述物件的相对位置和预先设置的相对参考框，计算所述物件在所述监控图像中的绝对位置。

本申请实施例中在得到物件存在的概率和所述物件的相对位置后，可以利用多尺度、多长宽比的相对参考框来计算出所述物件在原始监控图像中的绝对位置。

具体实施时，以遮阳板为例，可以采用4个尺度的相对参考框，每种尺度可以有3中长宽比。例如：相对参考框的面积可以是等比例(比例可以为根号2)从40*40*2⁰到40*40*2³，即，40*40、40*40*2、80*80、80*80*2等，每种尺度的长宽比可以为2∶1、4∶1、8∶1等。假设相对参考框的面积为40*40、长宽比为4∶1，那么，这个相对参考框的大小则为80*20(接近于遮阳板的尺度)。

假设所述物件的相对位置(也就是相对于相对参考框)为(1x，ly，rx，ry)，即所述物件的相对位置的左上角坐标为(1x，ly)、右下角坐标为(rx，ry)，利用面积为a、长宽比为b的相对参考框，进行如下计算：

假设在图像的(w，h)位置，有一个相对参考框的大小为x*y的，根据公式x＝sqrt(a*b)，y＝sqrt(a/b)进行计算，得到相对参考框绝对位置为：

左上角：[w-x/2，h-y/2]，右下角[w+x/2，h+y/2]；

计算得到所述物件在原始监控图像中的绝对位置为

左上角[w-x/2+1x，h-y/2+1y]，右下角[w-x/2+rx，h-y/2+ry]。

具体实施时，本申请实施例中所述长、宽并不一定代表所述物件的长、宽，具体可以是所述物件显示在图片上的大小。

实施中，所述方法可以进一步包括：

利用校验模型对所述检测结果进行校验，所述校验模型是通过对正例和负例进行训练得到的。

具体实施时，假设检测结果确定当前场景中存在所述物件，还可以进一步用校验模型去验证结果是否正确，以降低误差。所述校验模型可以是通过对正例和负例进行训练得到的。其中，正例和负例可以采用1∶1的方式生成。

具体实施时，所述校验模型同样可以采用卷积神经网络进行训练得到，所述校验模型的训练可以与之前训练相对参考框的训练方式相同，可以利用反向传播(BP，backpropagation)算法调整参数，使得在测试集上输出的结果与真实的标注尽可能接近。

本申请实施例可以预先采集较多真实物件样本，正例可以为和某个真实物件外接矩形框的交并比超过预设第一阈值的所有样本，负例则可以是和图像上物件外接矩形框的交并比小于所述预设第一阈值、且至少和某个外接矩形框的交并比大于预设第二阈值的所有样本。

其中，所述交并比可以指两个框的交集的面积除以两个框的并集的面积所得到的数值，其中一个框可以为真实的标注框，即所述物件的外接矩形框；另一个框可以是对所述外接矩形框进行一定的扰动所得到的框。具体实施中，当两个框的交并比大于预设第二阈值(比如0.5)时，则可以经过扰动的框认为是正例，否则可以认为是负例。

假设预设阈值为0.5，本申请实施例中正例可以是和图像上年检标外接矩形框的交并比大于0.5的所有样本，负例可以是和所有年检标的外接矩形框的交并比都在0.5以下、且至少和某个年检标的外接矩形框的交并比在0.1以上。

具体实施时，由于负例的比例太多，本申请实施例中，为了取得有质量的负例，将负例限定为交并比小于预设第一阈值且至少存在一个交并比大于第二阈值。

采用上述方式可能使得纯背景中存在一些剔除不掉的负例，本申请实施例可以加入一些与图像中任意的框都不相交且容易被当成误检测的位置作为负例，从而进一步提高模型的判别能力。

实施中，所述卷积核的训练过程具体可以为：

获取若干物件样本图像，所述样本图像中每个物件标注有外接矩形框；

利用深度卷积神经网络模型提取所述样本图像的特征，输出特征图像；

根据卷积核与所述特征图像检测所述样本图像中的物件，根据检测结果以及所述外接矩形框调整所述卷积核内的参数，直至所述检测结果中物件的位置与所述外接矩形框接近或重合。

具体实施时，获取若干物件样本图像后，可以为每张图像上的物件标注一个外接矩形框，作为后续模型检测的标准。

利用深度卷积神经网络模型提取所述样本图像的特征，输出特征图像后，可以利用预先设置好初始参数的卷积核与所述特征图像进行计算来检测所述样本图像中是否有某个物件以及所述物件的位置等，然后将检测结果与实际标注的外接矩形框进行比较，如果不一致则调整卷积核中的数值、重新计算，直至检测结果不断趋近于实际的物件位置，最终训练得到所述卷积核，确定所述卷积核可以正确检测出是否有该物件以及该物件的位置。

本申请实施例所提出的基于全卷积神经网络的端到端的车辆物件检测方法，具有如下优点：

1)无需对图像进行任何预处理；

2)可以接受任意大小、任意长宽比的图像输入；

3)可以同时处理白天、黑夜、复杂光照、模糊、遮挡和低分辨率等情形；

4)可以同时支持各种小物件的检测；

5)可以同时在CPU和GPU上运行，检测效率高；

6)可扩展性强，很容易扩展到车牌、车标、车灯、交通标志、交通灯等类似物件的检测。

为了便于本申请的实施，下面以实例进行说明。

本申请实施例所提供的物件检测方法可以包括数据收集和标注、网络模型设计、离线训练检测、在线检测等4个步骤，具体如下：

步骤一、数据收集和标注

为了实现对不同场景(例如：不同角度的卡口或者电子警察等场景)、不同环境(例如：白天、黑天、树荫等)、不同距离(例如：远、近)、不同长宽比的车辆小物件进行统一检测，本申请实施例可以收集覆盖上述各种情形的大量真实数据，并进行精确标注。

标注形式可以为给每一种物件标注一个不同颜色的外接矩形框，一张监控图像中可以有多个矩形框，每个框可以和一个物件一一对应。

步骤二、网络模型设计

假设输入的图片大小为M*N(这里以400*800为例)，本申请实施例的网络模型的前半部分可以仿照卷积神经网络经典模型GoogleNet(该模型由卷积层和InceptionModule堆叠而成)设计。

本申请实施例中的网络模型可以采用两层卷积加若干层InceptionModule，可以采用8倍缩小，用于生成小物件对应的特征图像，采用16倍缩小，用于生成大物件的特征图像。其中小物件的特征图像最终输出大小为50*100(这个输出就是通过神经网络学习得到的用于检测的特征)，大物件的特征图像最终输出大小是25*50，然后通过卷积的方式模拟滑动窗口。

具体模型结构如下：

输入图片(400*800)；

经过卷积层进行卷积计算Conv(7，2，64)，其中，卷积核大小为7*7，每次移动2个像素，总共有64个特征图像；

经过池化层进行池化操作Pooling(3，2)，池化范围可以为3*3，每次移动2个像素；

此时输出为100*200；

然后在经过卷积层进行卷积计算Conv(3，1，192)，卷积核大小为3*3，每次移动1个像素，共有192个特征图像；

再经过现有***net中的感知模块Inception3a和Inception3b，以下可以有两个分支：

分支1：经过***net中的Inception3c和Inception3d，输出年检标、挂坠等小物件的特征图像，此时输出大小为50*100；

分支2：经过池化层进行池化操作Pooling(3，2)，再依次经过***net中的Inception4a、Inception4b、Inception4c、Inception4d和Inception4e，最终输出纸巾盒、安全带、遮阳板或其它物件等大物件的特征图像，此时输出大小为25*50。

步骤三、离线训练检测

1、设置模型训练的相关参数

学习率：0.001；

批次大小(mini-batchsize)：100，其中包含50个正例、50个负例；

翻转操作(flip)：对每张图进行左右翻转，从而扩大训练集；

动量(momentum)：0.9；

权值衰减率(weightdecay)：0.0005。

2、正负样本选择机制

检测任务的本质可以为2分类的任务，检测结果为有某个物件或没有该物件，本申请实施例可以生成训练用的正例和负例，正例和负例采用1_∶1的方式生成。

其中，正例可以指和某个真实的物件外接矩形框的交并比(两个框的交的面积除以两个框的并的面积)超过0.5的所有样本(在所述物件外接矩形框基础上经过一定扰动所得到的框)，而负例可以指和这张图上所有物件交并比都在0.5以下，而且至少和某一个物件的外接矩形框的交并比在0.1以上的扰动框。

步骤四、在线检测

将监控图像放到所述深度卷积神经网络模型中进行检测，在不同的特征图像上可以检测出所述监控图像上存在的物件的种类、物件的概率以及该物件的位置。

针对上述步骤二中的分支1得到的年检标、挂坠等特征图像，与预先训练得到的年检标、挂坠等物件的一组卷积核进行卷积计算，得到年检标存在的概率、挂坠存在的概率等，根据概率大小即可确定出物件的类别；再将特征图像分别与四组卷积核进行卷积计算，得到年检标的相对位置(左上角坐标和右下角坐标)、挂坠的相对位置(左上角坐标和右下角坐标)。

针对上述步骤二中的分支2得到的纸巾盒、安全带、遮阳板或其它物件等特征图像，与预先训练得到的纸巾盒、安全带、遮阳板或其它物件的一组卷积核进行卷积计算，得到纸巾盒存在的概率、安全带存在的概率、遮阳板存在的概率等，根据概率大小即可确定出物件的类别；再将特征图像分别与四组卷积核进行卷积计算，得到纸巾盒的相对位置(左上角坐标和右下角坐标)、安全带的相对位置(左上角坐标和右下角坐标)、遮阳板的相对位置等。

在具体实施时，经过检测后可能输出很多的候选框，而且同一物件可能会被多个框所覆盖，因此，本申请实施例可以进行框的融合。具体实施时，可以采用非最大值抑制策略，把对应于同一物件的多个框合并成一个框，得到该物件最可能出现的位置。

本申请实施例提出了一种高精度实时检测算法，利用端到端的深度全卷积神经网络进行车窗小物件的检测和识别，可以同时支持多种复杂场景(例如：白天、黑天、复杂光照、模糊等)，检测和识别结果更加精确，同时利用单一模型即可检测所有小物件，可以在CPU/GPU快速实现，扩展性强。

基于同一发明构思，本申请实施例中还提供了一种车辆物件检测装置，由于这些设备解决问题的原理与一种车辆物件检测方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

图3示出了本申请实施例中车辆物件检测装置的结构示意图，如图所示，所述车辆物件检测装置可以包括：

获取模块301，用于获取当前场景中的监控图像；

特征提取模块302，用于利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像；

训练模块303，用于训练卷积核；

检测模块304，用于将预先训练得到的卷积核与所述特征图像进行卷积计算，得到检测结果，所述检测结果包括所述物件的类别、所述物件存在的概率和所述物件的相对位置。

实施中，所述特征提取模块具体可以用于利用深度卷积神经网络模型对所述监控图像提取不同的特征，输出k个用于检测物件特征图像；所述检测模块具体可以用于将预先训练得到的5*k*M个卷积核与所述k个特征图像分别进行卷积计算，得到检测结果，所述检测结果包括物件存在的概率和所述物件的相对位置；其中，所述M为物件的种类。

实施中，所述卷积计算具体可以为全卷积计算。

实施中，所述检测模块具体可以用于将所述多个预先训练得到的卷积核并行与所述特征图像进行卷积计算，得到检测结果。

实施中，所述检测模块可以进一步用于在进行卷积计算时如果同一物件在不同位置产生响应，采用非最大值抑制方法将输出的所述物件的多个相对位置进行合并。

实施中，所述装置可以进一步包括：

计算模块305，用于根据所述物件的相对位置和预先设置的相对参考框，计算所述物件在所述监控图像中的绝对位置。

实施中，所述装置可以进一步包括：

校验模块306，用于利用校验模型对所述检测结果进行校验，所述校验模型是通过对正例和负例进行训练得到的。

实施中，所述训练模块具体可以包括：

获取单元，用于获取若干物件样本图像，所述样本图像中每个物件标注有外接矩形框；

特征提取单元，用于利用深度卷积神经网络模型提取所述样本图像的特征，输出特征图像；

训练单元，用于根据卷积核与所述特征图像检测所述样本图像中的物件，根据检测结果以及所述外接矩形框调整所述卷积核内的参数，直至所述检测结果中物件的位置与所述外接矩形框接近或重合。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

Claims

1.一种车辆物件检测方法，其特征在于，包括如下步骤：

获取当前场景中的监控图像；

2.如权利要求1所述的方法，其特征在于，所述利用深度卷积神经网络模型对所述监控图像提取特征，输出用于检测物件的特征图像，具体为：利用深度卷积神经网络模型对所述监控图像提取不同的特征，输出k个用于检测物件的特征图像；

3.如权利要求1所述的方法，其特征在于，所述预先训练得到的卷积核为多个，所述将预先训练得到的卷积核与所述特征图像进行卷积计算，具体为：

4.如权利要求1所述的方法，其特征在于，所述卷积计算具体为全卷积计算。

5.如权利要求3所述的方法，其特征在于，在进行卷积计算时如果同一物件在不同位置产生响应，采用非最大值抑制方法将输出的所述物件的多个相对位置进行合并。

6.如权利要求1所述的方法，其特征在于，进一步包括：

7.如权利要求1所述的方法，其特征在于，进一步包括：

8.如权利要求1所述的方法，其特征在于，所述卷积核的训练过程具体为：

9.一种车辆物件检测装置，其特征在于，包括：

获取模块，用于获取当前场景中的监控图像；

训练模块，用于训练卷积核；

10.如权利要求9所述的装置，其特征在于，所述特征提取模块具体用于利用深度卷积神经网络模型对所述监控图像提取不同的特征，输出k个用于检测物件的特征图像；所述检测模块具体用于将预先训练得到的5*k*M个卷积核与所述k个特征图像分别进行卷积计算，得到检测结果，所述检测结果包括物件存在的概率和所述物件的相对位置；其中，所述M为物件的种类。

11.如权利要求9所述的装置，其特征在于，所述卷积计算具体为全卷积计算。

12.如权利要求9所述的装置，其特征在于，所述检测模块具体用于将所述多个预先训练得到的卷积核并行与所述特征图像进行卷积计算，得到检测结果。

13.如权利要求12所述的装置，其特征在于，所述检测模块进一步用于在进行卷积计算时如果同一物件在不同位置产生响应，采用非最大值抑制方法将输出的所述物件的多个相对位置进行合并。

14.如权利要求9所述的装置，其特征在于，进一步包括：

计算模块，用于根据所述物件的相对位置和预先设置的相对参考框，计算所述物件在所述监控图像中的绝对位置。

15.如权利要求9所述的装置，其特征在于，进一步包括：

校验模块，用于利用校验模型对所述检测结果进行校验，所述校验模型是通过对正例和负例进行训练得到的。

16.如权利要求9所述的装置，其特征在于，所述训练模块具体包括：