CN109726741B

CN109726741B - 一种多目标物体的检测方法及装置

Info

Publication number: CN109726741B
Application number: CN201811488003.9A
Authority: CN
Inventors: 夏炎; 刘镇; 吕李娜
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-05-30
Anticipated expiration: 2038-12-06
Also published as: CN109726741A

Abstract

本发明公开一种多目标物体的检测方法及装置，所述方法包括：连接目标物体检测设备装置；利用卷积神经网络创建预训练多目标物体检测模型；安装深度学习框架软件；从摄像头中依次读取每帧图像；将摄像头读取后的图像缩小至448*448像素；将缩小后的图像划分成7*7个相同大小的网格；利用坐标值断物体是否在7*7的网格单元中；将有物体的网格单元送入到预训练网络模型中得出边框回归值；输出每个网格的90个物体类别的边框回归；输出每个边框回归物体的位置值和置信度；设置阈值滤掉得分低的边框；对保留的边框进行非极大值抑制处理，合并边框得到最终的检测结果。本发明解决了现有技术中存在的图像特征提取的设计繁琐，检测速度慢，多目标并发能力差的问题。

Description

一种多目标物体的检测方法及装置

技术领域

本发明属于计算机图像处理与机器视觉技术领域，涉及一种多目标物体的检测方法，更具体的是涉及一种二维视频摄像头的多目标物体的检测方法及装置。

背景技术

传统的目标检测一般使用滑动窗口的框架，主要包括三个步骤：(1)利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域；(2)提取候选区域相关的视觉特征。比如人脸检测常用的Harr特征；行人检测和普通目标检测常用的HOG特征等；(3)利用分类器进行识别，比如常用的SVM模型传。传统的目标检测中，多尺度形变部件模型DPM，把物体看成了多个组成的部件(比如人脸的鼻子、嘴巴等)，用部件间的关系来描述物体，这个特性非常符合自然界很多物体的非刚体特征。DPM可以看做是HOG+SVM的扩展，很好的继承了两者的优点，在人脸检测、行人检测等任务上取得了不错的效果，但是DPM相对复杂，检测速度也较慢，从而也出现了很多改进的方法。其中基于深度学习的目标检测的方法是近几年的研究热点。基于深度学习的目标检测发展起来后，其实效果也一直难以突破。比如OverFeat在ILSVRC2013测试集上的mAP只能达到24.3％。这些创新的工作其实很多时候是把一些传统视觉领域的方法和深度学习结合起来了，比如选择性搜索(Selective Search)和图像金字塔(Pyramid)等。这些方式都是基于区域提名的方式。这种方式实现需要很高的计算资源，并且同时处理多个目标很困难。在实时的摄像头视频流中检测多目标时，往往需要多个GPU显卡的加速训练，使得实现目标物体检测的设备便携性都很差。在一些无网络和移动性要求较高的端到端实时处理领域往往很难应用。

发明内容

本发明的目的是为了解决上述现有技术存在的问题和不足，提供一种二维视频摄像头的多目标物体的检测方法及装置。

利用本发明的方法进行目标物体检测，具有更低的功耗、消耗更低的计算资源、更加便携的优点，且能够适用于无网络环境，以及实现端到端的实时目标物体检测。本发明的最大目标检测种类为90个。

为达到上述目的，本发明提供的技术方案如下：

一种多目标物体检测方法，包括如下步骤：

步骤1：连接目标物体检测设备装置；

步骤2：利用卷积神经网络创建预训练多目标物体检测模型；

步骤3：在目标物体检测设备装置上安装深度学习框架应用软件；

步骤4：利用摄像头读取应用软件，从摄像头中依次读取每帧图像；

步骤5：将摄像头读取后的图像缩小至448*448像素；

步骤6：将缩小后的图像划分成7*7个相同大小的网格；

步骤7：利用坐标值断物体是否在7*7的网格单元中；

步骤8：将步骤7判断有物体的7*7网格单元送入到预训练网络模型中得出边框回归值；

步骤9：通过90个类别的判别器，输出每个网格的90个物体类别的边框回归值；

步骤10：通过90个类别的判别器，输出每个边框回归物体的位置值和置信度；

步骤11：得到每个边框的位置值和置信度值后，设置阈值，滤掉得分低的边框；

步骤12：对保留的边框进行非极大值抑制处理，合并边框得到最终的检测结果。

进一步，步骤1所述连接设备装置的连接方式为：

将移动端显卡芯片和嵌入式主板连接，摄像头和嵌入式主板连接，电源适配器和嵌入式主板连接，硬盘和嵌入式主板连接。

进一步，步骤2所述创建预训练多目标物体检测模型的具体内容和步骤：

(1)准备待检测目标物体的训练样本图片；

(2)手动标定目标在样本图片中的位置和大小边框；

(3)将标定好的样本图片缩小到448*448像素；

(4)使用24层卷积神经网络对缩小的样本进行特征提取，得到一些边框回归坐标、边框中包含物体的置信度和类别概率；

(5)对所有边框进行非极大值抑制，筛选后输出唯一的边框。

进一步，步骤7所述利用坐标值断物体是否在7*7的网格单元中的具体方式是，将所述的物体的中心点坐标与网格单元坐标范围进行比较，以判断所述物体是否在网格单元中。

进一步，所述检测方法，还包括将所述的物体的置信度与目标图像的阈值进行比较，以判断所述待检测的视频中是否包含所述的目标图像的步骤；并利用置信度值得分与目标图像的阈值进行比较，当所述置信度值得分大于或等于目标图像的阈值，则判定所述待检测的视频中包含所述的目标图像；当所述置信度值得分小于目标图像的阈值，则判定所述待检测的视频中不包括所述目标图像。

进一步，所述检测方法，还包括将所述的物体的位置值与预训练多目标物体检测模型中的位置值进行比较，判断所述物体目标检测的精度；并利用位置值与手动标定目标在样本中的位置进行交并比的比较，当所述位置值与手动标定目标在样本中的位置大于或者等于并交比的阈值，则判定所述待检测的检测是正确的；当所述位置值与手动标定目标在样本中的位置小于并交比的阈值，则判定所述待检测的检测是错误的。

为达到上述目的，本发明提供的另一技术方案如下：

一种用于多目标物体检测的装置，包括移动端显卡芯片、嵌入式主板、摄像头、电源适配器和硬盘，其中所述的嵌入式主板是整个多目标物体检测的硬件平台；所述的移动端显卡芯片是嵌入式的图像处理模块负责视频流图像的处理；所述的摄像头用于视频图像的获取；所述的电源适配器负责给嵌入式主板供电；所述的硬盘用于存储数据；所述的嵌入式主板分别与所述的显卡芯片、摄像头、电源适配器和硬盘连接。

本发明的一种多目标物体的检测方法，具有的特点和有益效果是：

1、本发明的方法使用的是低功耗电源，设备的功耗相比电脑和服务器端的深度学习目标检测更加低；

2、本发明的方法可以在无网络的情况下使用，不需要实时传输给服务器端进行运算。能够使用于户外，网络很差的环境；

3、本发明的方法体积很小，在嵌入式装置上应用，适合多目标物体识别的终端应用；

4、本发明的方法每秒处理帧数(FPS)为18-32VOC 2007数据集下的精度75.1％。在满足低功耗的情况下也能有很高的精度；

5、本发明的方法能够同时处理的多目标种类为90个。

附图说明

图1是本发明所述的多目标物体检测方法的流程图。

图2是本发明所述的设备连接图。

图3是本发明所述的创建预训练多目标物体检测模型流程图。

图4是本发明所述的多目标物体检测的设备软件安装流程图。

具体实施方式

下面结合附图对本发明的内容作进一步的详细介绍。

图1所示，为本发明提供的一种多目标物体检测方法的流程图。本发明提供的多目标物体的检测方法，包括如下步骤：

S101，连接目标物体检测设备装置，将多目标物体检测方法所需要的装置连接；

S102，利用卷积神经网络创建预训练多目标物体检测模型。在安装到装置前需要预训练一个多目标检测的模型，目的在无网络的情况下也可以检测；

S103，在目标物体检测设备装置上安装深度学习框架应用软件；

S104，利用摄像头调取应用软件，从视频摄像头中依次读取每帧图像；

S105，利用图像缩放应用软件，将S104读取的图像缩放到448*448像素；

S106，利用图像切割应用软件，将S105缩放后的图像分成7*7的网格；

S107，利用坐标值断物体是否在7*7的网格单元中。如果物体的边框中心坐标落在这个网格中，则这个网格就用来预测该物体；如果这个物体的边框中心坐标不在这个网格中，则这个网格不用来预测该物体。每个网格要预测多个边框回归，每个边框回归除了要回归自身的位置之外，还要附带预测一个置信值；

S108，将S107判别物体在网格中的图片送入到S102的预训练的多目标物体检测模型；

S109，利用多目标物体检测模型网络计算出输出的边界框位置值和置信值，这个置信值代表了所预测的边框中含有物体的置信度和这个边框预测的有多准两重信息，采用如下的公式计算出位置的置信值：

如上述公式所述，其中如果有物体落在一个网格单元里，第一项取1，否则取0。第二项是预测的边框回归和实际的手工标注边框之间的交并比值。每个边框回归要预测中心点横坐标、中心点纵坐标、宽度、长度和置信值共5个值，每个网格还要预测90个类别信息。则7*7个网格，每个网格要预测2个边框回归，还要预测90个类别。输出就是7*7*(5*2+90)的一个张量。

S110，将S109的值进行过滤，采用的是阈值为0.5的深度置信阈值。

在本发明中，将所述位置的置信值和置信度的得分与目标的图像阈值进行比较，以判断所述待检测的视频中是否包含所述的目标图像的步骤，包括：

将所述位置的置信值和置信度响应得分与目标图像的阈值进行比较；

若所述响应得分大于或等于目标图像的阈值，则判定所述待检测的视频中包含所述的目标图像；

若所述的响应得分小于目标图像的阈值，则判定所述待检测的视频中不包括所述目标图像。

S111，对S110在判定所述待检测的视频中包括所述目标图像的步骤之后的得到每个边框的位置值和置信度值后，定位到目标图像区域位置，设置阈值，滤掉得分低的边框；

S112，对保留的边框进行非极大值抑制处理，合并边框得到最终的检测结果，只保留一个最高值的边框，得出检测结果。

基于本发明上述各提供的目标检测方法，本发明还提供一种多目标物体检测装置，该装置用于执行本发明上述的多目标物体检测方法。

图2是本发明提供的一种多目标物体检测的各装置连接图，本发明提供的多目标物体检测的装置1200。包括移动端显卡芯片1个、嵌入式主板1个、摄像头1个、电源适配器1个和硬盘1个。其中嵌入式主板是整个目标物体检测的硬件平台。移动端显卡芯片是嵌入式的图像处理模块负责视频流图像的处理。摄像头用于视频图像的获取。电源适配器负责给嵌入式主板供电。硬盘用于存储数据。移动端显卡芯片804和嵌入式主板805连接，摄像头802和嵌入式主板805连接，电源适配器801和嵌入式主板805连接，硬盘803和嵌入式主板805连接。

图3为本发明所述的创建预训练多目标物体检测模型流程图,提供的一种多目标物体检测模型建立流程图，包括以下步骤：

S110：准备待检测目标物体的训练样本图片,使用单个目标的样本数量不要低于1万张图片；

S111：手动标定目标在样本图片中的位置和大小边框,使用图像处理软件人为手工的标定样本的真实边框的位置；

S112：使用图像处理软件，将标定好的样本缩小到448*448像素；

S113：使用24层卷积神经网络，随后接2个全连接层和一个1*1*90尺寸的卷积神经网络对缩小后的样本进行特征提取，得到一些边框回归坐标值、边框中包含物体的置信度值和90个目标的类别概率值；

S114：将S113得到的特征卷积层值进行非极大值抑制筛选，最后合并成一个边框。

图4为本发明所述的多目标物体检测的设备软件安装流程图。

S201，首先在电脑上安装乌班图的64位操作***。这个操作***使用的是长期支持版；

S202，在完成S201的步骤后，在目标物体检测设备上,用数据线连接刷入主机上的乌班图的64位操作***；

S203，在S202的***安装完毕以后，使用英伟达的嵌入式安装包，安装库达的深度学习图像加速包；

S204，完成S203的安装以后，安装谷歌深度学习框架，使用深度学习的方法来处理目标检测问题；

S205，在完成S204以后安装摄像头调用软件和图像处理软件，主要用于对图像读取、缩放、切割等操作；

S206，安装物体检测框架，采用的谷歌的目标检测应用框架，集成一些优秀的算法和识别边框算法。

本发明的目的是提供一种二维视频摄像头的多目标物体的检测方法。以解决现有技术中存在的图像特征提取的设计繁琐，检测速度慢，设备笨重，功耗高等问题。用本发明的这种方法进行的目标物体检测应具有更低的功耗、更低的计算资源、更加便携，能够适用于无网络环境，端到端的实时目标物体检测。本发明中的设备使用的是90W的低功耗电源，设备的功耗相比电脑和服务器端的深度学习目标检测更加低。本发明中的设备可以在无网络的情况下使用，不需要实时传输给服务器端进行运算。能够使用于户外，网络很差的地区。本发明中的设备体积很小，整套设备只有40*40cm大小，适合多目标物体识别的终端应用。本发明中的方法的每秒处理帧数(FPS)为18-32VOC 2007数据集下的精度75.1％。在满足低功耗的情况下也能有很高的精度。本发明中的方法的能够同时处理的多目标种类为90个。

Claims

1.一种多目标物体的检测方法，基于的检测装置包括移动端显卡芯片、嵌入式主板、摄像头、电源适配器和硬盘，其中所述的嵌入式主板是整个多目标物体检测的硬件平台；所述的移动端显卡芯片是嵌入式的图像处理模块，负责视频流图像的处理；所述的摄像头用于视频图像的获取；所述的电源适配器负责给嵌入式主板供电；所述的硬盘用于存储数据；所述的嵌入式主板分别与所述的显卡芯片、摄像头、电源适配器和硬盘连接；其特征在于，所述检测方法包括如下步骤：

步骤1：连接目标物体检测设备装置，具体连接方式为：将移动端显卡芯片和嵌入式主板连接，摄像头和嵌入式主板连接，电源适配器和嵌入式主板连接，硬盘和嵌入式主板连接；

步骤2：利用卷积神经网络创建预训练多目标物体检测模型，具体内容和步骤：

(1)准备待检测目标物体的训练样本图片；

(2)手动标定目标在样本图片中的位置和大小边框；

(3)将标定好的样本图片缩小到448*448像素；

(5)对所有边框进行非极大值抑制，筛选后输出唯一的边框；

步骤5：将摄像头读取后的图像缩小至448*448像素；

步骤6：将缩小后的图像划分成7*7个相同大小的网格；

步骤7：利用坐标值判断物体是否在7*7的网格单元中，具体方法是，将所述的物体的中心点坐标与网格单元坐标范围进行比较，以判断所述物体是否在网格单元中；

步骤12：对保留的边框进行非极大值抑制处理，合并边框得到最终的检测结果；

所述检测方法还包括将所述的物体的置信度与目标图像的阈值进行比较，以判断所述待检测的视频中是否包含所述的目标图像的步骤；并利用置信度值得分与目标图像的阈值进行比较，

当所述置信度值得分大于或等于目标图像的阈值，则判定所述待检测的视频中包含所述的目标图像；

当所述置信度值得分小于目标图像的阈值，则判定所述待检测的视频中不包括所述目标图像；

所述检测方法还包括将所述的物体的位置值与预训练多目标物体检测模型中的位置值进行比较，判断所述物体目标检测的精度；

并利用位置值与手动标定目标在样本中的位置进行交并比的比较，

当所述位置值与手动标定目标在样本中的位置大于或者等于并交比的阈值，则判定所述待检测的检测是正确的；

当所述位置值与手动标定目标在样本中的位置小于并交比的阈值，则判定所述待检测的检测是错误的。