CN109492636A

CN109492636A - 基于自适应感受野深度学习的目标检测方法

Info

Publication number: CN109492636A
Application number: CN201811154088.7A
Authority: CN
Inventors: 汪晓妍; 钟幸宇; 黄晓洁; 刘震杰; 顾政; 祝骋路; 毛立朝
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-03-19
Anticipated expiration: 2038-09-30
Also published as: CN109492636B

Abstract

一种基于自适应感受野深度学习的目标检测方法，包括以下步骤：步骤1：在网上采集图片作为数据集；步骤2：对采集到的图片进行预处理；步骤3：对采集到的图片按照设定的比例进行划分；步骤4：将训练集输入到网络中，进行训练；步骤5：在基底网络提取特征的基础上，用一个浅层的网络进行预测；步骤6：在基底网络提取特征的基础上，使用RPN网络提取ROIs；步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上；步骤8:将步骤7面积调整后的ROIs进行区域归一化操作；步骤9:将步骤8的结果分别输入到两个全连接层中，分别进行ROIs位置的回归训练以及ROIs的分类训练。本发明提高深度神经网络的性能。

Description

基于自适应感受野深度学习的目标检测方法

技术领域

本发明涉及计算机人工智能技术领域，特别涉及一种基于自适应感受野深度学习的目标检测方法。

技术背景

随着人工智能领域深度学习的快速发展，计算机视觉越来越多的领域受到了巨大的机遇和挑战。很多计算机视觉任务如分割，分类，识别检测等在性能上取得了巨大的进步和提高，如在分类任务中，神经网络的分类准确率已经超过人类。在目标检测领域，深度学习的算法性能也远超传统的目标检测方法。

在卷积神经网络中，感受野起着非常重要的作用。感受野是指卷积神经网络结构中，某个特征映射到输入空间的区域大小。对于某一特征的感受野，可以通过它的中心位置和它的尺寸大小来描述。感受野越大，那么其对应的全局文本信息和语义信息越丰富，这有助神经网络对物体之间的关系进行推断；但是感受野越大，那么其对应的计算量就越大。反之，感受野越小，则其对应的特征就比较局部，图像的细节特征比较丰富。

无论是在基于深度学习的语义分割任务中，还是在目标检测任务中，感受野大小的选取直接影响着深度神经网络的性能。科研人员们对感受野的重视程度越来越高，因此如何对感受野大小的进行选择也是一个热门的研究课题。

发明内容

为了克服如何选择感受野的大小使网络性能最优化这个问题，本发明提出一种基于自适应感受野深度学习的目标检测方法，在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小，从而提高深度神经网络的性能。

本发明解决其技术问题所采用的技术方案是：

一种基于自适应感受野深度学习的目标检测方法，所述的方法包括以下步骤：

步骤1：在网上采集图片作为数据集；

步骤2：对采集到的图片进行预处理，包括随机的裁剪、翻转以及尺寸的归一化；

步骤3：对采集到的图片按照设定的比例进行划分，分为训练集和验证集；

步骤4：将训练集输入到网络中，进行训练，选取ResNet，DenseNet作为基底网络进行特征的提取；

步骤5：在基底网络提取特征的基础上，用一个浅层的网络进行预测，预测的结果维数为二维(N*5)其中N为ROIS的数量，5是指1个比率r,以及左上和右下的偏移信息，比率r的作用是计算众数的区间；

步骤6：在基底网络提取特征的基础上，使用RPN网络提取ROIs；

步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上，即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的的坐标上，通过调整ROIs的面积，从而调整Proposals所对应的感受野的面积；

步骤8:将步骤7面积调整后的ROIs进行区域归一化操作，选取每个区域内落在某个像素值区内像素值的平均值作为输出，区间的选取是根据区间内像素的数量，选取像素数量最多的区间作为最优的区间；

步骤9:将步骤8的结果分别输入到两个全连接层中，分别进行ROIs位置的回归训练以及ROIs的分类训练。

本发明的有益效果表现在：在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小，从而提高深度神经网络的性能。

附图说明

图1是检测的整体框的示意图。

图2是计算像素值区间流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方案并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1和图2，一种基于自适应感受野深度学习的目标检测方法，所述的方法包括以下步骤：

步骤1：在网上采集图片作为数据集；

步骤2:对采集到的图片进行预处理，包括随机的裁剪、翻转(左右翻转，上下翻转)以及图片尺寸大小的归一化处理；

步骤3：对采集到的图片，按照设定的比率进行划分，分为训练集和验证集(比如按照3：1等，这个根据实际情况进行选择)；

步骤4：将训练集输入到深度神经网络中，提取特征；可以选取预训练的ResNet,DenseNet等，具体的层数可以根据实际情况选取，比如ResNet-50,ResNet-101等；比如数据集的数量比较少，则应该选取浅层的网络，这样网络的参数的数量相对比较少，可以防止过拟合；由于网络是预训练的，故网络卷积核的初始参数(权值w和偏差b)已经给出，使用预训练模型的好处是可以加快收敛速度，提高网络的准确率；

步骤5:在步骤4基底网络的基础上，加入一个浅层的网络，网络的结构为一层卷积层，一层激活层，以及池化层，其中卷积层的参数选择为3*3的卷积核大小，卷积核的权值有高斯分布给出，高斯分布的均值为0，方差为0.001；卷积核的数量为N*5，其中N为ROIs的数量，5的含义为1个比率r和Proposals的左上角和右下角的偏移坐标，以此来调整ROIs对应的感受野的大小；激活层选取的是LeakyReLU(Leaky Rectified Linear Unit)激活函数。Pooling层的作用是降维；

步骤6：将步骤4的结果输入到RPN网络中，RPN网络的主要有三个卷积，首先第一个大小为3*3数量为512的卷积进行提取特征，另外1个大小为1*1的卷积进行Anchor-box的偏移的预测，卷积核的数量为4*N(其中4指的是Anchor-boxes相对于ground-truth的偏移，N为Anchor-boxes的数量)；另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测，卷积核的数量为2*N(2是指类别数量，这里预测的类别为是否为背景，N是Anchor-boxes的数量)。以上3个卷积权值参数均有均值为0，方差为0.001的高斯分布给出；Anchor-boxes由如下方式产生：对featuremap每个像素点按照一定的尺寸大小和比率大小产生，比如选取3个尺寸大小，3个比率大小，则每个像素点会产生9个不同大小的Anchor-boxes；将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes；根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs；其中Score的计算方法如下：根据Proposal-boxes与ground-truth的overlap(重叠面积比率)得出。NMS即为选取score保留最高的boxes，其他boxes与score最高的boxes的面积的比若大于预先设定的阈值，则去除该box,反之则保留；

步骤7：将步骤5预测的结果作用到ROIs上，其中将步骤5预测的左上角和右下角的位置偏移和ROIs的左上角和右下角的坐标相加，这样RPN(Region Proposal Network)预测的ROIs的区域就会发生改变，ROIs所对应的感受野就会进行调整,则该网络可以根据是否需要全局文本信息进行调整ROIs的面积大小；

步骤8：由与全连接层的输入是固定的大小，而每个ROIs的大小不一致，因此需要将ROIs进行归一化处理(即为ROIPooling)，但与ROIPooling操作不同的是，不采取每个区域的最大值作为输出，而是选取每个区域内落在某个像素值区内像素值的平均值作为输出，区间的选取是根据区间内像素的数量，选取像素数量最多的区间作为最优的区间；

根据步骤5预测的比率r和像素值大小进行区间的选取，方法为：迭代每个像素，每个像素的区间的像素值P乘以比率r得到差值α，区间的左值为像素值减去差值α，区间的右值为像素值加上去差值α，得到像素值区间为[P-α，P+α]；选择区间内像素数量最多的区间为最终的区间，对所选区间内的像素值取平均值，将该平均值作为该区域的输出。在进行反向传播时，将该平均值作为每个像素位置的像素值；

步骤9:将步骤8的结果分别输入到两个全连接层中，分别进行ROIs位置的回归训练以及ROIs的分类训练；其中全连接层的参数设定，根据实际情况来选取。比如分类的类别为21类，则分类全连接层的数量为21，另外一个全连接层为4*21。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于自适应感受野深度学习的目标检测方法，其特征在于，所述的方法包括以下步骤：

步骤1：在网上采集图片作为数据集；

步骤5：在基底网络提取特征的基础上，用一个浅层的网络进行预测，预测的结果维数为二维，即N*5；其中，N为ROIS的数量，5是指1个比率r,以及左上和右下的偏移信息，比率r的作用是计算众数的区间；

步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上，即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的坐标上，通过调整ROIs的面积，从而调整Proposals所对应的感受野的面积；

2.如权利要求1所述的一种基于自适应感受野深度学习的目标检测方法，其特征在于，所述步骤6中，将步骤4的结果输入到RPN网络中，RPN网络的主要有三个卷积，首先第一个大小为3*3数量为512的卷积进行提取特征，另外1个大小为1*1的卷积进行Anchor-box的偏移的预测，卷积核的数量为4*N，其中4指的是Anchor-boxes相对于ground-truth的偏移，N为Anchor-boxes的数量；另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测，卷积核的数量为2*N，2是指类别数量，这里预测的类别为是否为背景，N是Anchor-boxes的数量；以上3个卷积权值参数均有均值为0，方差为0.001的高斯分布给出；Anchor-boxes由如下方式产生：对featuremap每个像素点按照一定的尺寸大小和比率大小产生，比如选取3个尺寸大小，3个比率大小，则每个像素点会产生9个不同大小的Anchor-boxes；将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes；根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs；其中Score的计算方法如下：根据Proposal-boxes与ground-truth的重叠面积比率overlap得出；NMS即为选取score保留最高的boxes，其他boxes与score最高的boxes的面积的比若大于预先设定的阈值，则去除该box,反之则保留。

3.如权利要求1或2所述的一种基于自适应感受野深度学***均值，将该平均值作为该区域的输出，在进行反向传播时，将该平均值作为每个像素位置的像素值。