CN111563440A

CN111563440A - 一种基于异构卷积的多核迭代rpn的目标检测方法

Info

Publication number: CN111563440A
Application number: CN202010357545.3A
Authority: CN
Inventors: 刘晋; 尚圣杰
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-21
Also published as: CN111738237B; CN111738237A

Abstract

本发明公开了一种基于异构卷积的多核迭代RPN的目标检测方法，包括：接收待检测的图像数据；对图像数据进行灰度化、局部二值化数据增强处理，获得处理后的图像数据；将处理后的图像数据输入异构卷积网络中进行特征提取获得特征图；将特征图输入至多尺度特征提取网络中,实现不同尺度的特征提取，获得目标特征图；将目标特征图输入RIR目标检测网络中，获取多个区域候选框；根据非极大抑制函数，获得每一个区域候选框对应的目标分数，并根据预设分数阈值，获取区域建议窗口；根据全卷积网络层及归一化指数函数分类器，对区域建议窗口进行分类，获得分类结果、图像类别以及置信度分数。应用本发明实施例，有效解决运行速度慢、小目标检测效果不好等问题。

Description

一种基于异构卷积的多核迭代RPN的目标检测方法

技术领域

本发明涉及计算机视觉图像处理技术领域，尤其涉及一种基于异构卷积的多核迭代RPN的目标检测方法。

背景技术

目标检测是计算机视觉应用中最具有挑战性的任务之一，并在无人驾驶，安防***等领域有着广泛的应用。但在自然场景的目标检测过程中会受到像是光照、物体的方向以及物体遮挡等一些非人为因素的影响。而对于人们日渐增长的使用需求，如何提高自然场景下的目标检测性能已经成为了目前的一个迫切需求。

目前目标检测方法主要分为两大类，包括two-stage和one-stage网络检测。其中two-stage是分为两阶段的目标检测，其主要包括：(1)首先利用区域生成网络(RPN)对图像产生候选区域，(2)再对所产生的候选区域利用深度学习网络进行类别分类。而one-stage网络只包括一个阶段，其直接利用深度学习网络对目标产生类别概率和位置信息。因此two-stage网络存在着检测精度高但检测速度慢的特点，而与其相反，one-stage存在着检测速度快，但精准度不高的特点。

传统的two-stage网络对普通的目标有着良好的检测效果，其主要包括如下几个步骤：(1)使用不同的特征提取网络(例如残差网络(ResNet)、卷积神经网络(CNN)提取目标图像的特征。(2)利用区域生成网络RPN对目标图像进行初步的检测，简单的分辨出图像中的前景与无关的背景，并产生目标的候选区域框。(3)图像分类网络根据RPN生成的候选区域框对图像目标进行类别分类，从而输出目标的最终位置与类别。但是two-stage检测网络对于图像中不同尺寸的物体尤其是小物体的目标检测表现并不良好，虽然利用RPN可以减少无关背景对于图像的干扰，但检测的精度还有很大的提升空间。由于网络的复杂性比较高，因此检测速度也非常慢。

针对目标检测中对于不同尺寸目标不敏感、小目标检测效果不佳以及耗费时间多的问题，我们设计了基于异构卷积的多核迭代RPN目标检测网络，在特征提取方面基于异构核的卷积用1×1尺寸的卷积核代替了3×3尺寸的卷积核，在减少计算量和网络参数量的同时保持了准确度，在特征提取方面极大降低了计算时间，提高检测的速度。我们根据Google所提出的Inception思想，提出了多尺度的特征提取网络，通过不同尺寸的卷积核专注图像中不同尺寸的目标图像，从而通过多尺度的提取网络提高网络对不同尺寸的检测精度。根据现有的RPN网络机制，我们设计了RPNINRPN(RIR)的迭代RPN模式，在第一层RPN生成的区域候选框的基础上，通过第二层RPN再对生成的区域候选框进行更精细的筛选，该筛选不仅能够进一步增加分类网络的准确度，还可以进一步的加强小目标的检测精度，从而有效解决其他方法在检测时检测不全面以及耗费时间过长的问题。

区域生成网络(RPN)是一个全卷积网络，可以同时在特征图的每个位置检测目标并给出目标分数，生成高质量的区域候选框。该网络是由Ross B.Girshick在2016年所提出的Faster-RCNN网络中所提出的一个目标检测辅助网络。

Inception又名GoogleNet，是Google于2014年所提出的一个CNN分类网络模型。Inception网络通过不同尺寸的卷积核使得网络对于不同尺度的图像具有适应性，而又因为网络是在宽度而不是深度上增大网络，因此也极大的减少了网络中的参数，减少计算量。

发明内容

本发明的目的在于提供一种基于异构卷积的多核迭代RPN的目标检测方法，旨在克服现有技术之缺陷，本发明可以有效解决目标检测中对不同尺寸目标不敏感、运行速度慢以及小目标物体检测效果不好等问题。

为了实现上述目的，本发明提供一种基于异构卷积的多核迭代RPN的目标检测方法，所述方法包括：

接收待检测的图像数据；

对所述图像数据进行灰度化、局部二值化数据增强处理，获得处理后的图像数据；

将所述处理后的图像数据输入至异构卷积网络中进行特征提取，获得特征图；

将所述特征图输入至预先构建好的多尺度特征提取网络中,以实现不同尺度的特征提取，获得目标特征图；

将所述目标特征图输入至RIR网络中，获取多个区域候选框；

根据非极大抑制函数，获得每一个区域候选框对应的目标分数；并根据预设分数阈值，对所述多个区域候选框进行筛选，以获取区域建议窗口；

根据全卷积网络层及归一化指数函数分类器，对所述区域建议窗口进行分类，获得分类结果，获得图像类别与置信度分数。

优选的，所述对所述图像数据进行灰度化、局部二值化数据增强处理，获得处理后的图像数据的步骤，包括：

对接收的图像数据进行灰度化处理；

对灰度化处理后的图像进行局部二值化处理,获得二值化图像；

采用数据增强算法对所述二值化图像进行噪音添加、旋转以及翻转，获得处理后的图像数据。

优选的，所述将所述处理后的图像数据输入至异构卷积网络中进行特征提取，获得特征图的步骤，包括：

构建异构卷积网络，其中，所述异构卷积网络为卷积核是3×3和1×1大小并按照异构核模式排列组合构成异构卷积网络；

将处理后的图像数据输入至构建好的所述异构卷积网络中，进行图像特征的提取；

将获得的图像特征图通过1×1的卷积核对图像进行卷积操作，以输出降低维度后的特征图。

一种实现方式中，所述将所述特征图输入至预先构建好的多尺度特征提取网络中,以实现不同尺度的特征提取，获得目标特征图的步骤，包括：

将所述特征图输入至多尺度特征提取网络，以在所述多尺度特征提取网络中采用三种不同尺寸的卷积核对图像中不同比例的目标进行卷积，并根据每种尺寸的卷积核对于不同尺寸的目标敏感程度不同生成所对应的目标特征图。

将所述目标特征图输入至RIR网络中，获取多个区域候选框的步骤，包括：

构建RIR网络结构，其中，所述RIR网络结构为：两个RPN层通过全连接的方式构成的网络结构；

将所述目标特征图输入到RIR网络中，并将第一层RPN根据特征图中的目标生成所设定的n个区域候选框；

通过第二层RPN再对所生成的n个区域候选框进行筛选。

应用本发明实施例提供的一种基于异构卷积的多核迭代RPN的目标检测方法，不同于传统的目标检测形态学处理等方法，在特征提取方面基于异构核的卷积用1×1尺寸的卷积核代替了3×3尺寸的卷积核，在减少计算量和网络参数量的同时保持了准确度，并在特征提取方面极大降低了计算时间，提高检测的速度。根据Google所提出的Inception思想，提出了多尺度的特征提取网络，通过不同尺寸的卷积核分门别类的专注图像中不同尺寸的目标图像，从而通过多尺度的提取网络提高网络的检测精度。我们还引入了根据现有的RPN网络机制，设计了RPNINRPN(RIR)的迭代RPN模式，在第一层RPN生成的区域候选框的基础上，通过第二层RPN再对生成的区域候选框进行更加精细的筛选，不仅能够进一步增加分类网络的准确度，还可以进一步的加强小目标的检测精度，从而有效解决其他方法在检测效果不佳以及耗费时间的问题，并有效解决目标检测中对不同尺寸目标不敏感、运行速度慢以及小目标检测效果不好等问题，适用范围广，鲁棒性强。

附图说明

图1是本发明实施例一种基于异构卷积的多核迭代RPN的目标检测方法的一种流程示意图。

图2是本发明实施例异构卷积网络示意图。

图3是本发明实施例多尺度特征提取网络示意图。

图4是本发明实施例多尺度下不同分支的检测效果比较示意图。

图5是本发明实施例基于异构卷积的多核迭代RPN网络架构示意图。

图6是本发明实施例目标检测网络的实时例的样例图片。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-6。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1本发明提供一种基于异构卷积的多核迭代RPN的目标检测方法，所述方法包括：

S110,接收待检测的图像数据；

S120,对所述图像数据进行灰度化、局部二值化数据增强处理，获得处理后的图像数据；

可以理解的是，对接收的图像数据进行灰度化处理，通过对图像的像素点逐个遍历，并用0-255的数值表示；对灰度化的图像进行局部二值化处理，并通过数据增强算法对图像进行噪音添加、旋转以及翻转等变换，以用来丰富原有图像数据，最后将处理后图像的尺寸设定为网络要求输入的大小。

S130,将所述处理后的图像数据输入至异构卷积网络中进行特征提取，获得特征图；

需要说明的是，构建异构卷积网络的方法：同构卷积是指从卷积网络的首层到底层都为相同大小的卷积核，与此不同的是异构卷积的卷积核的尺寸不同，首先将1×1，3×3两种不同尺寸的卷积核按照一定排列顺序组合，其中设定P为卷积网络中不同类型的核的数量，M是设定网络输入的深度。图2展示的为P＝4且M＝16的异构卷积神经网络。

进一步的，将经过灰度化以及局部二值化的处理后的图像数据传入构建好的异构网络，经过一层3×3卷积核将图像的尺寸变小后，再通过三层1×1卷积核只学习图像的特征，不缩小特征图的尺寸同时具有降低计算复杂度的效果。其中输出的图像矩阵可形式化的表达为以下公式：

其中h_o、h_i、h_k分别为卷积后输出图像矩阵的高度、输入卷积网络图像矩阵的高度以及卷积核的高度。w_o、w_i、w_k分别为卷积后输出图像的宽度、输入卷积网络图像矩阵的宽度以及卷积核的宽度。p所要填充的像素，在异构卷积过程中p＝0，s为卷积核再目标图像上所移动的步数，在卷积核移动过程中设置s＝2。

S140,将所述特征图输入至预先构建好的多尺度特征提取网络中,以实现不同尺度的特征提取，获得目标特征图；

可以理解的是，使用1×1，3×3，5×5尺寸的卷积核构建多尺度特征提取网络的方法：通过异构卷积对图像进行特征提取并输出图像的特征图，再通过一个1×1尺寸的卷积核对特征图降低维度。并将3×1与1×3的两层卷积核代替3×3卷积核，同样的也将5×1与1×5尺寸的卷积核代替5×5卷积核，所构建的多尺度特征提取网络如图3所示。

进一步的，通过上述构建好的多尺度特征提取网络对降低维度的特征图进行特征提取，如图4所示，(a)、(b)、(c)、(d)、(e)分别为原始输入图片以及多尺度特征提取网络中保留三种尺寸卷积分支的最终效果图、去除1×1卷积核分支的最终效果图，去除3×3卷积核分支的最终效果图，去除5×5卷积核分支的最终效果图。表明1×1的卷积核对于大中小尺寸的目标都很敏感，而3×3的卷积核对于大尺寸以及中尺寸的目标敏感，5×5的卷积核仅对于大尺寸的目标敏感，而不能检测到其他较小的目标。因此多尺度的特征提取网络能够针对不同的图像目标进行多尺度的特征提取，获取更准确的信息。

S150,将所述目标特征图输入至RIR网络中，获取多个区域候选框；

需要说明的是，将两层RPN网络层按照顺序连接起来，构成RPNINRPN的RIR网络层，其具体结构如图5所示。

进一步的，将多尺度网络提取的不同尺寸目标的特征图传入构建RIR网络将获得目标特征图传入到RIR网络中，经过3×3尺寸的滑动窗口对特征图进行卷积得到一个通道数为256的特征图，且高度和宽度与传入的特征图相同，设高为H，宽为W，近似的我们将卷积后的特征图可以看作为有H×W个向量，每个向量为256维。再对每个特征向量进行两次全连接操作，分别得到2×H×W和4×H×W大小的特征图，分别表示得到前景分数和背景分数以及前景的四个坐标值。而在RPN的滑动窗口卷积的过程中，每经过一个像素点会产生不同尺寸的K个区域候选框。经实验表明，当设定候选框大小为128×128、256×256、512×512以及长宽比为1:1、2:1、1:2时，即K＝9时能够表现出最好的效果。

S160，根据非极大抑制函数，获得每一个区域候选框对应的目标分数；并根据预设分数阈值，对所述多个区域候选框进行筛选，以获取区域建议窗口；

需要说明的是，通过非极大抑制函数将RIR网络产生的区域候选框以及分数进行筛选。首先对所有的候选区域框的得分进行从高到低的排序，选出具有最高分数的框。同时将最高分数的框与其他框计算重叠面积(IOU)，若IOU大于设定的阈值，则只保留最高分框。若IOU小于设定的阈值，则全部保留，直至区域候选框全部比较完毕。

具体的，通过非极大抑制函数选择出符合设定阈值的区域候选框，在经过第一层RPN后已经选择出比较符合图像中目标实际位置的区域候选框以及分数，再将第一层已经产生的候选框内的特征图像传入到下一层RPN中，第二层RPN对每部分候选框区域再进行更加精准的目标检测以及给出相应分数。找到更加符合标签位置的图像，减少不相关或者相关性少的图像对检测分类造成的影响。通过与第一次产生的区域候选框进行比较，保留最好效果的候选框。其中两层RPN构成的RIR网络所用Loss函数可形式化表示为以下公式：

其中，x，y，w，h分别代表每一层RPN网络中所检测的区域候选框的中心位置坐标以及宽和高。x_box，y_box，w_box，h_box分别为RPN生成的9个区域候选框的中心点坐标以及宽高。x^*，y^*，w^*，h^*为图像标签的中心位置坐标和宽高。N_reg，N_cts为RPN网络产生的区域候选框的个数的归一化以及特征图向量的维度的归一化。当标签标记的是前景时p_i ^*＝1，标记为背景时

p_i为第i个区域候选框是图像目标的概率。λ为调节参数，经试验表明，当λ＝10时Loss函数起到了最大的正向反馈作用。

S170,根据全卷积网络层及归一化指数函数分类器，对所述区域建议窗口进行分类，获得分类结果，获得图像类别与置信度分数。

可以理解的是，将获取的图像上的区域建议窗口分别传入到归一化指数函数softmax中，softmax函数根据设定的物体类别以及所学习得到的特征对目标区域进行分类。并通过Focal Loss损失函数对检测网络进行前向反馈，其中Focal Loss是根据交叉熵函数改进而来，通过减少容易分类的样本的权重和数量较多的背景的权重，使得模型更加专注于难分类的样本。该损失函数可形式化表达为：

L(p_i)＝-β_i(1-p_i) ^γlog(p_i) (5)

其中β_i，γ都为设定的loss参数，在实验中，当γ＝2，β_i＝0h25时训练的模型表现效果最好。p_i则为第i个物体被检测为某一类别的概率值。通过Focal Loss损失函数的机制不断地改进检测分类网络的准确性，输出最终的图像分类类别以及置信度的分数。其中图5为基于异构卷积的多核迭代RPN结构示意图，网络最终得到了图像中目标的分类以及置信度分数。图6为本发明的一个具体实施例样例。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于异构卷积的多核迭代RPN的目标检测方法，其特征在于，所述方法包括：

接收待检测的图像数据；

将所述目标特征图输入至RIR网络中，获取多个区域候选框；

2.根据权利要求1所述的一种基于异构卷积的多核迭代RPN的目标检测方法，其特征在于，所述对所述图像数据进行灰度化、局部二值化数据增强处理，获得处理后的图像数据的步骤，包括：

对接收的图像数据进行灰度化处理；

3.根据权利要求1所述的一种基于异构卷积的多核迭代RPN的目标检测方法，其特征在于，所述将所述处理后的图像数据输入至异构卷积网络中进行特征提取，获得特征图的步骤，包括：

构建异构卷积网络，其中，所述异构卷积网络是将3×3和1×1尺寸的卷积核按照异构模式排列组合构成异构卷积网络；

将获得的图像特征图通过1×1尺寸的卷积核对图像进行卷积操作，以输出降低维度后的特征图。

4.根据权利要求1所述的一种基于异构卷积的多核迭代RPN的目标检测方法，其特征在于，将所述特征图传输入至预先构建好的多尺度特征提取网络中,以实现不同尺度的特征提取，获得目标特征图的步骤，包括：

5.根据权利要求1所述的一种基于异构卷积的多核迭代RPN的目标检测方法，其特征在于，将所述目标特征图输入至RIR网络中，获取多个区域候选框的步骤，包括：

通过第二层RPN再对所生成的n个区域候选框进行筛选。