CN113052185A

CN113052185A - 一种基于Faster R-CNN的小样本目标检测方法

Info

Publication number: CN113052185A
Application number: CN202110270154.2A
Authority: CN
Inventors: 贾海涛; 鲜维富; 莫超杰; 许文波; 任利; 周焕来; 贾宇明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-06-29

Abstract

本发明公开了一种基于Faster R‑CNN的小样本目标检测方法。本发明结合传统目标检测算法和小样本学习算法，对Faster‑RCNN网络进行了深度的改进和优化，使其适应小样本目标检测。本发明提出基于注意力的RPN模块，利用通道注意机制对不同通道特征分配不同的权重，然后将支持集特征和查询集特征进行深度互相关以生成注意力特征图，然后送入RPN网络生成候选框。本发明基于度量学习，用改进的加权原型网络替换Faster R‑CNN分类器头，提高小样本下候选区域分类准确率；本发明引入多尺度FPN模块，包含两个分支，其中一个分支与一般检测网络类似，应用于RPN层，另一分支应用于支持集图像以提取多尺度特征图，以解决小样本数据集尺度稀疏以及查询图片和支持集图片之间的尺度差异问题。

Description

一种基于Faster R-CNN的小样本目标检测方法

技术领域

本发明涉及深度学习中的小样本学习和目标检测领域，具体涉及小样本条件下的目标检测技术。

背景技术

近年来，伴随着大规模并行计算设备的发展，深度学习理论在计算机视觉的实际应用方面取得了巨大成功。例如，图像识别技术已广泛应用于人脸识别、自动驾驶、生物医学等领域，在这些应用中的核心任务就是通过神经网络模型对场景中的目标进行检测识别。然而，以深度神经网络为基础的图像算法通常需要大量的标注数据，对模型进行端到端的有监督训练，经过大量的迭代次数后才能达到较好的效果。但是由于一些实际应用中的局限性和特殊性，往往很难获得大规模的图像数据样本集合，比如罕见物种图片,稀有遥感图像,珍贵的医疗诊断图片，特殊的军事目标图片等。另一方面，即使拥有足够的样本图片，对大规模的样本数据进行标注也需要消耗巨大的人力物力。因此,在数据稀缺的情况下，如何在小样本中学习并推广到新任务上，成为计算机视觉及其它领域热点讨论的问题。

随着基于深度学习的目标检测技术的不断进步和发展，出现了Faster R-CNN、YOLO、SSD等优秀的目标检测框架，但对于小样本目标检测，是目标检测领域的一个难题。本发明就是着力于解决仅有少数的样本下如何进行目标检测的问题。本发明结合了小样本学习算法和传统目标检测算法Faster R-CNN，设计了能在小样本条件下进行目标检测的一种方法。

发明内容

为了解决小样本条件下的目标检测问题，本发明提出了一种基于Faster R-CNN小样本目标检测技术。该技术基于深度学习中的通用的两阶段目标检测算法Faster R-CNN，并针对样本不足的情况，结合小样本学习技术对Faster R-CNN进行了进一步的改进。

本发明所采用的技术方案是：

步骤1：输入待检测图像作为查询集图像和少量几张包含目标的图像作为支持集图像；

步骤2：通过特征提取网络提取查询图像特征，并提取支持集图像特征作为支持特征；

步骤3：支持图像特征和查询图像特征同时送入FPN网络生成多尺度特征图；

步骤4：特征图通过通道注意力机制和空间注意力以生成注意力特征图，注意力特征图送入RPN网络生成候选框，经过Roi Pooling生成Roi特征图；

步骤5：支持特征和Roi特征分别送入度量分支和回归分支进行分类和定位，检测出对象目标。

与现有技术相比，本发明的有益效果是：

(1)相比传统的目标检测算法，具有更好的泛化性能；

(2)对于样本不足的小样本目标检测，能更好的进行识别和检测。

附图说明

图1为：FPN示意图。

图2为：通道注意力机制结构图。

图3为：多尺度特征图提取过程。

图4为：PASCAL VOC数据集上部分检测结果图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本具体实施方式中，针对小样本目标检测的方法包括下述处理步骤：

步骤1：图像输入

不同于传统目标检测算法，只输入单张待检测图像，小样本目标检测输入待检测的图像作为查询图像，少数几张包含目标的图像作为支持集图像。因此，本方法包括查询图像分支和支持图像分支，两个分支并行同时进行。

步骤2：多尺度特征图提取

本发明对Faster R-CNN检测算法做出了改进，引入多尺度FPN模块同时提取查询图像和支持集图像的多尺度特征图，解决不同尺度的目标检测以及查询图像和支持集图像的尺度差异问题，其中FPN示意图如图1所示。查询图像分支与一般检测网络类似，将FPN应用于RPN层，另一分支应用于支持集图像以提取多尺度特征图，得到每个支持图像特征金字塔，这样丰富了支持集尺度空间。进一步地，得到支持图像特征金字塔后，再经过加权原型网络生成多尺度的每个类的原型，其过程如图3所示。

步骤3：候选区域提取

Faster-RCNN中采用RPN网络(Region Proposal Network)生成潜在的候选区域，然后通过softmax判断锚框属于前景还是背景，再利用包围框回归修正锚框获得较为精确的候选框。在小样本目标检测中，待检测的目标对象仅包含少量训练样本，大量基类上训练得到的RPN网络，在检测新的类别时可能会生成更多与对象无关的候选框，这就要求候选的分类网络具有很好的判别能力。另一方面，RPN网络应该过滤不属于支持集类别的候选区域，减少需要判别候选框数量，有助于进一步提高网络精度。因此，本发明提出基于多注意力机制的RPN网络。注意力机制的思想来源于人类视觉***在观察时有选择性地关注某些重点区域，而忽略其他部分。本发明提出的多注意机制RPN网络，用支持集和查询集样本作为输入，使得RPN网络更有效生成小样本目标的候选框。查询图像和支持图像经过特征提取后首先被送入通道注意力模块，通道注意力机制通过学***均池化进行全局信息的压缩，将每张特征图的所有像素求平均值压缩至1×1大小。然后为了学习通道之间的非线性相关关系，经过两个全连接层和Relu激活函数，并经过一个sigmoid函数进行归一化，最终生成每个通道的注意力权重。将权重与特征图进行相乘，得到经过通道注意力加权的特征图。在经过通道注意力后，将支持集特征和查询集特征进行深度互相关以生成注意力特征图，然后送入RPN网络生成候选框。空间注意力模块中，查询集特征再经过一个卷积层，与常规卷积不同，本发明中采用Depth-wise卷积。同时，支持集特征经过池化和Depth-wise卷积形成1×1×C的向量，该向量作为核与查询集特征进行深度互相关运算，生成能够表示查询集和支持集相关性的注意力特征图。

步骤3：候选区域分类和回归

Faster RCNN在经过RPN网络提取候选框后，与特征图合成Roi特征图，Roi特征图经过最终的分类和定位判断筛选出最终的目标。原始的Faster RCNN网络直接采用传统的softmax函数输出目标的类别，但是对于小样本下的情况，传统的分类方式不具备足够的泛化能力以检测新类别的目标。本发明基于度量学习的方式，提出了改进的加权原型网络替换Faster RCNN分类器头。采用度量学习的方式并结合元学习训练策略，可以训练出具备泛化能力的模型，并能够根据少量样本确定新目标类别，以实现小样本下的目标检测。

原型网络通过嵌入网络学习提取图像的嵌入特征，用支持集图像每个类别的特征的均值向量作为类的原型，如公式1所示。然后通过欧式距离等非参数度量方式判断查询图像特征与每个原型之间的距离来进行分类。

但是这种方式存在的问题是当支持集样本分布差异较大或存在不好的样本时，计算的均值向量不能很好作为类的代表向量。计算均值的方式使得每个样本特征对代表向量的贡献度一样，但是不同样本特征应该具有不同的贡献度。

本发明采用加权的方式计算类的原型。具体的，首先通过一维高斯核函数计算每个支持集样本特征加权系数，具体如公式2所示。

其中，x_ij表示第i个类别的第j个支持样本，x_q表示类别i的查询样本，σ_i表示高斯函数宽度取0.1。

得到关于每个支持集特征的加权系数后，本发明通过加权的方式计算类的原型，具体计算如公式3所示。

其中

是经过加权计算的第i个类别的原型。

对于查询样本，期望其趋向同类别的加权原型而远离不同类别的加权原型，这样可以得到损失函数，如公式4所示。

图4为本发明的方法在PASCAL VOC测试集上检测的结果图，从图中可以看出，本方法具有较好的检测结果，对于部分小目标也能检测出。

以上所述，仅为本发明的具体实施方式，本说明中所公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或/和步骤外，均可以任何方式组合。

Claims

1.一种基于Faster R-CNN的小样本目标检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，步骤3中FPN同时引入查询图像分支和支持集图像分支，其中查询图像分支中FPN网络融合输出的不同尺度特征图输入RPN网络中生成候选区域；支持集图像分支中，支持集图像特征输入FPN网络得到每个支持图像特征金字塔。

3.如权利要求1所述方法，其特征在于，步骤4中为改进的注意力RPN，其中通道注意力机制和空间注意力串行进行，即在经过通道注意力后，将支持集特征和查询集特征进行深度互相关以生成注意力特征图。

4.如权利要求1所述方法，其特征在于，步骤5中的采用改进的加权原型网络作为度量分支。