CN110400305A

CN110400305A - 一种基于深度学习的目标检测方法

Info

Publication number: CN110400305A
Application number: CN201910681200.0A
Authority: CN
Inventors: 徐军; 吴顺义; 张苏元
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-01

Abstract

本发明提出了一种基于深度学习的目标检测方法，属于机器视觉与自动化技术领域。其中该目标检测方法的核心是以深度网络为基础，通过提取不同深度的特征层数据，分别用来检测不同目标，实现对图像中不同大小目标检测。主要步骤为：1，建立深度网络，以较为成熟的网络为基础；2，提取每一个特征层，叫浅层的特征主要用来检测小目标，较深层特征多用于检测大目标；3，建立大目标和小目标同步检测；4，概率比较，确定最后的输出。本发明可以通过调整提取不同深度的特征层，实现对大小目标的偏好检测。

Description

一种基于深度学习的目标检测方法

技术领域

本发明属于机器视觉与自动化技术领域，特别涉及一种基于深度学习的图像目标检测方法。

背景技术

目标检测在国防，工业等领域有着广泛的应用，如可见光跟踪，飞行器辅助导航，汽车无人驾驶，机器人位置估计等，但是用红外，超声波等传感器实现目标检测，由于检测特征单一，容易出现误检测。

图像传感器则与之不同，通过调整不同角度和位置，以及光照强度改变，可以获得加多较为丰富的现场信息，用合理的方法处理图像信息是实现精确目标检测的关键。

目前基于机器视觉的目标检测方法较多，主要分为两大类：一类是基于传统图像处理的目标检测方法，另一种是基于深度学习的目标检测方法。

基于深度学习的目标检测方法有取代基于传统目标检测方法的趋势。

基于机器视觉的目标检测方法，因为图像信息复杂多变，很难有一种检测方法可以适用于每个适用场合，而且在不同的场景有着不同的需求，如在工厂流水线上，要检测体积较小的零件，需要对小物体敏感；在自动驾驶场合需要对较大的物体检测。

发明内容

发明目的：针对目前一般目标检测方法，对于检测图像中大目标和小目标的侧重侧重不同，提供一种可以同时检测不同大小目标的方法，为不同的使用场合，提供可选方法。

技术方案：为了解决上述技术问题，本发明提供了一种基于深度学习的图像目标检测方法，包括如下主要主要步骤：

(1)建立基于深度学习的基本网络结构，可以采用一些比较成熟的CNN网络结构，如VGG等。

(2)特征层抽取，为了应对图像中不同大小的目标，抽取不同深度的特征层，在浅层的CNN特征层，具有较大范围，可以检测到较小的目标；而在深层的特征层上由于范围较小，只能检测到较大目标。

(3)分别用浅层和深层特征去检测图像中目标位置，最后确定目标检测网络的最终输出。

不同的特征层只能确定图像中不同尺度的目标的具***置，而图像中不同目标所属类别，还需要用网络的最后后输出来确定。

对于目标在图像中的位置确定，并没有采取直接输出，而是通过在图像特征层上选取不同大小的先验框，用图像上目标的具***置与不同的先验框做比较，确定具体哪一个先验框与目标实际位置相符，确定哪一个先验框应该被输出。

目标检测网络的运行包含结构为：待检测图像，网络架构，预测输出，先验框生成，测试图像坐标解码，先验框筛选，以及检测结果输出。

本发明具有以下有益效果：首先可以根据需要检测目标在图像中大小的不同，适当调整特征层提出的深浅程度，使其能满足需求，且不会造成资源浪费，其次是一次训练可以适应多种场合，因为训练时把所有特征层都提取出来，并加以矫正参数，使用时可根据需求提取。

附图说明

图1是先验框提取方式。

图2是检测框架训练结构。

图3是检测框架运行结构。

具体实施方式

以下将结合附图对本发明进行详细说明。

样本图像经过标注后，分为两个部分，一个部分是图像原始数据，另外一部分是图像中目标类别，以及每个目标在图像中的位置坐标。

参照图1所示，先验框是基于图像经过卷积网络，在每一层特征图像中提取到的，并且从浅到深，特征图面积越来越小，厚度越来越厚。

先验框的中心坐标是以特征图上每一个点为中心，如在一个38*38的特征图上可以取到1444个中心点。

在同一层特征图上，每个中心点选取的先验框是相同的，如若每个中心点取4个先验框，则上述38*38特征图上共可以取到5776个先验框。

每个先验框有不同的尺寸，但是基本有两种形状的先验框，正方形和长方形，正方形先验框边长计算方式如下：

上式w_s为小正方形的变长。

上式w为大正方形的边长，ImageSize为输入图像大小AnchorSize_small与AnchorSize_big为先验框参数，每一层先验框参数有两个，且计算方式如下：

式中S_min与S_max为上一层的先验框参数，且初始参数为给定值15与90，且m为要提取的特征层数，但是初始层不算，k为当前计算的层数。

第一层特征图先验框计算方式为AnchorSize＝S₁*0.5*Image_size。

h与w分别为长方形的高和宽，且长方形高宽可以和互换，但是一定要标尺面积不变。

参照图2所示，坐标编码是有先验框与目标类别以及目标在图像中的坐标共同生成，通过判断目标在图像中的坐标框与所有先验框的重合度，确定目标框与先验框的相识度既得分。

选取满足阈值的先验框，并与目标框相比较，确定偏移量。

偏移量的计算方式如下式

式中x^t为目标框中心点的横坐标，x^p为目标框中心点的横坐标，x^o中心偏移量的横坐标，其余类似。

在参照图3所示，坐标解码是坐标编码的逆过程，通过偏移量和先验框的坐标计算图像可能的实际坐标，计算方式如下：

x^t＝x^oh^pSr+x^p

y^t＝y^ow^pSr+y^p

上式中x^t为目标框中心点的横坐标，x^p为目标框中心点的横坐标，x^o中心偏移量的横坐标，其余类似。

参照图2所示，训练目标是网络结构的训练主题，不仅要考虑类别匹配，还需要考虑大目标和小目标检测的不同。本发明采取同一个训练目标，分别同步训练。

损失函数定义如下：

式中L_loc(x，l，g)为位置损失误差，L_conf(x，c)为类别损失误差。

式中为第i个先验框与第j个真实框关于第p个类别的匹配程度，若匹配为0 否则为0，为坐标的真实偏移量，预测输出偏移量。

式中N为先验框与真实框匹配的个数，为与第i个先验框与第p个类别为正样本，否则为负样本。

参考图2所示，在训练时，同时用大目标检测和小目标检测矫正网络主体参数，给予大目标和小目标检测相同的权重。

参考图3所示，在运行时分别输出大目标检测与小目标检测结果，并根据对相同目标的检测结果，优先输出概率较大的检测结果。

Claims

1.一种基于深度学习的目标检测方法，其特征在于包括如下内容：在同一个网络主体当中，针对不同大小的检测目标，从不同深度的特征层上抽取，使一个网络能同时根据大小不同的目标作出不同的检测结果；对大目标检测与小目标检测，同时针对同一目标输出结果，以可能性较大的作为最终输出结果；可以根据不同的检测需求，对大目标检测与小目标检测的特征图提取，灵活提取。

2.一种基于深度学习的目标检测方法，其特征在于，包括以下步骤：

第一步，同时分别提取网络主体的不同层数，不同的坐标检测模型；

第二步，对于同一样本检测，一次通过网络主体，获取大小目标检测的不同坐标输出；

第三步，对于同一样本的结果输出，采取大小目标检测的结果做对比输出。