CN109636846B

CN109636846B - 基于循环注意力卷积神经网络的目标定位方法

Info

Publication number: CN109636846B
Application number: CN201811486423.3A
Authority: CN
Inventors: 李鸿健; 程卓
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2022-10-11
Anticipated expiration: 2038-12-06
Also published as: CN109636846A

Abstract

本发明属于物体检测领域，具体公开了基于循环注意力卷积神经网络的目标定位方法，应用于物体检测领域下的目标定位；所述方法包括构建一个类似于RA‑CNN三层网络结构的双网络模型；定位子网用于输出目标的边界框；判定子网用于给出定位子网输出的边界框的得分；本发明的数据集只需二分类标签，而不需人工标注的边界框，同时减少了计算的消耗。

Description

基于循环注意力卷积神经网络的目标定位方法

技术领域

本发明涉及深度学习领域和物体检测领域，具体是使用深度学习技术实现物体检测下的目标定位；具体为一种基于循环注意力卷积神经网络(Recurrent AttentionConvolutional Neural Network，RA-CNN)的目标定位方法。

背景技术

自从深度学习技术在物体检测上被使用，涌现了一批优秀的算法,使得目标识别有了很大的进展。如较早Girshick等人提出的R-CNN，R-CNN先使用选择搜索算法根据颜色，边缘，纹理等特征快速的找到可能存在目标的候选框，对每一个进行归一化处理后的候选框用卷积网络提取特征，最后再用svm算法进行判定和使用回归器精细修正候选框位置。He,Kaiming等人对R-CNN进行改进提出了SPP-net，它最大的改进是一张图片只用进行一次卷积运算，大大减少了运算消耗，首先同R-CNN一样使用选择搜索算法得到候选区，再对一整张原图进行卷积特征提取得到特征图，在特征图上找到候选区的映射，然后对候选区映射进行金字塔池化得到固定大小的输出，用于全连接网络。之后和R-CNN同样使用svm算法。Girshick,Ross结合SPP-net提出ROI池化，同时把网络最后输出改成了两个，一个是对候选区用softmax分类，另一个是对边界框的微调，同时指出SPP-net训练时的不足，它将同张图片的候选区作为一个批次进行学习，这样相当于一个批次一张图片。Ren,Shaoqing et al提出的Faster R-CNN，它最大的改进是提出的PRN，用来生成候选区域，这几个方法解决了需要用到选择搜索算法生成候选区域，从而进一步降低了计算时间，同时也实现了完全端到端的学习。YOLO是把问题变为回归问题来做的，把每张图片分成S×S个格子，每个格子负责中心在该格子的目标检测，通过卷积网络每个格子都会输出类别和边界框。

然而前面五种方法都会依赖人工标注的边界框，而第一至第四种方法在使用IOU阈值时会用到人工标注的边界框，而第五种方法是在损失函数中直接使用人工标注的边界框信息进行监督训练。

RA-CNN是用于fine-grained分类，它最大的特点就是不依赖于人工标注的边界框。它有三层类似的网络结构，每一层都会用同样的卷积网络进行特征提取，之后会分成两部分，一部分是sotfmax分类器，用于对图像的分类，另一部分是APN，用于生成关注区域。第一层的输入是原图，之后两层的输入是APN生成的关注区域。

与物体检测不同的是，在目标定位任务中目标对象的类别是已知的，这使我们能够更准确地预测目标对象类别的边界框，而忽略了图像中对象类别的实际数量。因此，目标定位是物体检测的中间步骤，目标定位的有效解决方法对物体检测的研究具有重要的启发意义。

发明内容

本发明旨在解决现有物体检测算法对人工标注边界框的依赖，提供一种基于RA-CNN的单一类别的弱监督目标定位方法。本发明的技术方案如下：

S1、构建判定子网，对判定子网的数据集进行预处理；

S2、在所述判定子网中输入其数据集图像，利用损失函数对所述判定子网进行训练，计算出第一损失函数，判断第一损失函数是否收敛，若未收敛，则进入步骤S3，否则进入步骤S4；

S3、使用梯度下降算法更新判定子网的参数，返回步骤S2；

S4、构建定位子网，在定位子网中输入其训练集图像X，输出预测的边界框的四个参数；

S5、根据这四个参数，预测出图像X'，将其输入到训练好的判定子网，输出得分，利用第二损失函数对所述定位子网进行训练，计算出第二损失函数；判断第二损失函数是否收敛，若收敛，则进入步骤S6，否则进入步骤S7；

S6、使用梯度下降算法更新定位子网的参数，返回步骤S5；

S7、将定位子网的测试集图像输入到训练好的定位子网得到预测的边界框，即确定出目标的相对位置。

优选的，所述判定子网包括采用二分类卷积网络，其卷积特征提取器后连接只有一个输出的全连接网络。

进一步的，所述判定子网包括一个卷积网络，其卷积特征提取器后面是一个有四个输出，依次为x，y，h，w的全连接网络，四个输出的取值范围都是0到1，x，y是预测的边界框中心相对于原输入图像的坐标，h，w是预测的边界框相对于原输入图像的长宽比例。

可以理解的是，在图片内的目标定位就是预测边界框，即在一张图片内把目标相对于图片的位置找出来，

判定子网：它是一个二分类卷积网络，卷积特征提取器后面是一个只有一个输出的全连接网络，用于对定位子网输出的边界框内的图像进行判定打分，以及用于对定位子网的训练监督，所以它在训练定位子网之前已经完成训练了，并且在训练定位子网过程中不参加训练。

定位子网：它也是一个卷积网络，卷积特征提取器后面是一个有四个输出x，y，h，w的全连接网络，四个输出的取值范围都应是0到1，x，y是预测的边界框中心相对于原输入图像的坐标，h，w是预测的边界框相对于原输入图像的长宽比例。为达到取值范围的要求，全连接网络最后一层使用sigmoid激活函数公式(1)

训练策略：应先对判定子网的全连接部分使用梯度下降算法进行训练，损失函数使用逻辑回归损失函数公式(2)

n为一个批次的图片数量。y为正确的标签，

为判定子网的输出,H为sigmoid函数。数据集应选用目标占比在90％左右(即目标几乎占满整个图片)的图片作为正例，目标占比较小和其他类别的图片作为负例。判定子网训练完成之后就可以对定位子网训练，定位子网的训练只训练全连接部分，同样使用梯度下降算法，梯度是由判定子网传下来的，这个时候判定子网的损失函数为公式(3)

本发明的优点及有益效果如下：

1、本发明通过双网络结构模型，结合生成对抗网络的思想，能够解决现有物体检测算法对人工标注边界框的依赖。

2、判定子网与训练子网采用相同的卷积网络，其输入图像尺寸和卷积特征提取器一致。

3、在训练定位子网过程中只对定位子网的全连接部分进行训练，这个时候的训练集没有特殊要求，只要图中含有目标即可，能节约时间成本；

4、本发明的数据集只需二分类标签，而不需人工标注的边界框，同时减少了计算的消耗。

5、本发明是端到端的模型。

6、本发明是基于回归的目标定位方法，相对于RCNN系列基于候选框的方法速度有所提升。

附图说明

图1为本发明的训练流程图；

图2为本发明的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明的基于循环注意力卷积神经网络的目标定位方法，包括以下：

第一步构建判定子网：

判定子网：如图2所示，它是一个二分类卷积网络，卷积特征提取器(如：VGG net，Alex net等不包括原本的全连接部分)后面连接一个只有一个输出的全连接网络，用于对定位子网预测的边界框内的图像进行判定打分，以及用于对定位子网的训练监督，所以它在训练定位子网之前已经完成训练了，并且在训练定位子网过程中不参加训练。

第二步训练判定子网：

对判定子网的数据集进行padding预处理，以达到输入尺寸要求，输入图像到判定子网，从而计算出第一损失函数；在判定子网训练过程中仅需要训练全连接部分，第一损失函数使用逻辑回归损失函数公式(2)

n为一个批次的图片数量。y为正确的标签，

为判定子网的输出,H为sigmoid函数。数据集应选用目标占比在90％左右(即目标几乎占满整个图片)的图片作为正例，目标占比较小和其他类别的图片作为负例。在训练开始之前应先对图像做padding处理以达到输入尺寸要求，训练算法使用梯度下降算法。

第三步构建定位子网：

定位子网：如图2所示，它也是一个卷积网络，输入图像尺寸和卷积特征提取器应与判定子网相同，卷积特征提取器后面连接一个有四个输出x，y，h，w的全连接网络，四个输出的取值范围都应是0到1，x，y是输出的边界框中心相对于原输入图像的坐标，h，w是输出的边界框相对于原输入图像的长宽比例。为达到取值范围的要求，全连接网络最后一层使用sigmoid激活函数。然后边界框内的图像会作为判定子网的输入。

第四步训练定位子网：

在训练定位子网过程中只对定位子网的全连接部分进行训练，这个时候的训练集没有特殊要求，只要图中含有目标即可。首先输入定位子网的训练集图片X，先经过定位子网输出预测的边界框四个参数，四个参数通过公式(4)、(5)得到一个掩码矩阵M。

其中，t_x(tl)表示边界框的左上方的横坐标；t_x(br)表示边界框的右下方的横坐标；t_y(tl)表示边界框的左上方的纵坐标；t_y(br)表示边界框的右下方的纵坐标；

是训练集图像X每个像素点的坐标。x，y是预测的边界框中心相对于原输入图像的坐标；h，w是预测的边界框相对于原输入图像的长宽比例。

是训练集图像X每个像素点的坐标；H为sigmoid函数，表示为

之后掩码矩阵M再和原图像X做元素相乘就可以得到预测的边界框内的图像X′，如公式(6)

X′＝X⊙M (6)

再把得到的图像作为判定子网的输入，输出一个得分

再通过第二损失函数公式(3)和梯度下降算法进行训练。

可以理解的是，梯度是对损失函数求的偏导数，也就是说S5的梯度是对第二损失函数的偏导数，S3的梯度是对第一损失函数求偏导数，梯度下降算法是用来逐层更新参数的。梯度下降算法是深度学习的核心，已在各个深度学习框架内已经封装好了，本领域技术人员可根据现有技术进行适当的选择。

第五步使用或测试

此阶段不需要判定子网参与，直接把原始图像输入到定位子网即可得到预测的边界框，即确定出目标的相对位置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于循环注意力卷积神经网络的目标定位方法，其特征在于，包括以下步骤：

S1、构建判定子网，对判定子网的数据集进行预处理；

S3、使用梯度下降算法更新判定子网的参数，返回步骤S2；

S5、根据这四个参数，预测出图像X'，将其输入到训练好的判定子网，输出得分，利用第二损失函数对所述定位子网进行训练，计算出第二损失函数；判断第二损失函数是否收敛，若未收敛，则进入步骤S6，否则进入步骤S7；

S6、使用梯度下降算法更新定位子网的参数，返回步骤S5；

S7、将定位子网的测试集图像输入到训练好的定位子网得到预测的边界框，即确定出目标的相对位置；其中，

所述判定子网包括采用二分类卷积网络，其卷积特征提取器后连接只有一个输出的全连接网络，用于对定位子网预测的边界框内的图像进行判定打分，以及用于对定位子网的训练监督；

所述定位子网包括一个卷积网络，输入图像尺寸和卷积特征提取器应与判定子网相同，其卷积特征提取器后面是一个有四个输出，依次为x，y，h，w的全连接网络，四个输出的取值范围都是0到1，x，y是预测的边界框中心相对于原输入图像的坐标，h，w是预测的边界框相对于原输入图像的长宽比例。

2.根据权利要求1所述的基于循环注意力卷积神经网络的目标定位方法，其特征在于，所述第一损失函数的计算公式包括：

其中，n表示一个批次的图片数量；y_i表示第i个图像为正确的标签，

表示判定子网中第i个图像的输出，H为sigmoid函数。

3.根据权利要求1所述的基于循环注意力卷积神经网络的目标定位方法，其特征在于，所述第二损失函数的计算方式包括：

其中，m表示一个批次的图片数量，

表示判定子网中第j个图像的输出，H为sigmoid函数。

4.根据权利要求1所述的基于循环注意力卷积神经网络的目标定位方法，其特征在于，所述根据这四个参数，预测出图像X'包括：

X′＝X⊙M；

其中：M＝[H(x'-t_x(tl))-H(x'-t_x(br))]·[H(y'-t_y(tl))-H(y'-t_y(br))]；

t_x(tl)表示边界框的左上方的横坐标；t_x(br)表示边界框的右下方的横坐标；t_y(tl)表示边界框的左上方的纵坐标；t_y(br)表示边界框的右下方的纵坐标；

是训练集图像X每个像素点的坐标；H为sigmoid函数。

5.根据权利要求4所述的基于循环注意力卷积神经网络的目标定位方法，其特征在于，

其中，x，y是预测的边界框中心相对于原输入图像的坐标；h，w是预测的边界框相对于原输入图像的长宽比例。