CN111611998A

CN111611998A - 一种基于候选区域面积和宽高的自适应特征块提取方法

Info

Publication number: CN111611998A
Application number: CN202010433564.XA
Authority: CN
Inventors: 陈楚城; 戴宪华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01

Abstract

本发明涉及一种基于候选区域面积和宽高的自适应特征块提取方法，包括：(1)利用特征提取网络对输入图像进行特征提取；(2)通过特征金字塔网络构建检测特征图；(3)利用区域建议网络获取候选区域；(4)通过自适应特征块提取方法获取候选区域的最终特征块；(5)获取检测模型的分类误差和回归误差，训练模型；(6)利用训练好的检测模型获取测试图像的目标位置和类别。本发明的方法可以有效利用多个检测特征图的信息，补充感受野信息的同时获取细节信息，从而提高检测模型在具有悬殊宽高比的目标上的检测性能，最终提高检测模型的整体检测。

Description

一种基于候选区域面积和宽高的自适应特征块提取方法

技术领域

本发明涉及图像目标检测领域，即一种基于候选区域面积和宽高的自适应特征块提取方法。

背景技术

近年来，深度学习技术广泛应用于计算机视觉、自然语言处理和语音处理等多个领域中，并取得显著的成果。其中以深度学习中的卷积神经网络在图像处理领域的成果尤为显著，所取得的效果是传统算法无法比拟的。后来，科研人员将深度学习技术应用于目标检测技术中，提出一系列基于深度学习的目标检测算法，以提高检测模型的检测精度或者检测速度。科研人员为了解决目标物体的多尺度问题，提出了特征金字塔网络结构。

特征金字塔网络中是根据候选区域的面积大小来决定候选区域特征块从哪个检测特征图中获取。但是这种只根据候选区域面积大小的单一元素，当检测对象中存在具有悬殊宽高比的对象，检测模型的检测性能往往较低。这是由于候选区域的面积大小无法全面反映具有悬殊宽高比的对象的整体信息，导致候选区域特征块从不合理的检测特征图中获取，而该检测特征图无法提供充足的感受野和辅助定位的细节信息，因此检测模型的检测性能并不理想。

发明内容

为了克服现有技术存在的不足，本发明提出了一种解决上述难点的基于候选区域面积和宽高的自适应特征块提取方法。

为了实现以上目的，本发明提出的方法具体步骤如下：

(1)图像划分，将图像划分成训练集和测试集两部分，两个部分不存在相同的图像，训练集用来训练检测模型，测试集用来评估检测模型的性能，且训练集和测试集中不仅包含图像，还包含图像中目标对象的位置信息和类别信息；

(2)图像预处理，包括随机上下翻转、随机左右翻转和随机光照改变等，其中随机上下翻转、随机左右翻转和随机光照改变只针对训练集，特别的，当进行随机上下翻转和随机左右翻转的时候，目标对象的坐标信息也需要做出相应的变化；

(3)训练检测模型，将经过图像预处理后的训练集中的图像和标签信息输入到基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行训练，获取各图像中目标对象的预测框和类别，并与实际的标签信息中的真实框和类别进行对比，计算出回归损失和分类损失，其中回归损失和分类损失包含了区域建议网络的损失还有第二阶段的损失，然后采用多学习任务的方法，利用带动量的梯度下降算法进行训练；

(4)测试检测模型，将测试集中的图像输入到训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行检测，获得测试图像中目标对象的位置和类型，并统计检测模型的检测精度。

所述步骤(3)中训练包括构建检测特征图和获取正负样本的步骤、获取区域建议网络损失值的步骤、获取候选区域的步骤、通过自适应特征块提取方法获取候选区域最终特征块的步骤、获取第二阶段损失值的步骤和多任务学习的步骤。

如图1所示，所述步骤(3)具体为：

(3.1)构建带有特征金字塔网络的Faster R-CNN检测模型，其中骨干网络是ResNet50。输入图像经过骨干网络进行特征提取后形成不同大小的特征图，浅层的特征图的分辨率较大，包含的细节信息较多但语义信息较少；深层的特征图的分辨率较小，包含的细节信息较少但语义信息较多。通过从上而下和横向连接的方式构建检测特征图，形成特征金字塔网络。对这些检测特征图通过卷积操作预测不同特征图上不同特征点映射回原图上的点的若干个anchors的前背景分类概率和相对平移缩放参数，同时不同检测特征图上不同特征点映射到原图上的点对应的anchors与真实框计算交并比，如果与真实框的交并比最高或者与任意真实框的交并比大于0.7的anchor则认为是正样本，而与所有真实框的交并比都小于0.3的anchor则认为是负样本；

(3.2)从正负样本集中分别选择128个正样本和128个负样本，组成正负样本比例为1:1的正负样本集。如果正样本集中正样本的数目不足128个，则取出所有正样本，并从负样本从选取若干个负样本，组成256个正负样本。如果正样本集中正样本的数目多于128个，则采用随机采样的方式获取128个正样本。如果负样本集中负样本的数目多于128个，也采用随机采样的方式获取128个负样本。正样本在此的类别为前景，负样本在此的类别为背景，同时可以获取正样本与对应真实框之间的真实平移缩放参数。利用正负样本的类别和模型预测的前背景概率值，利用交叉熵损失函数计算分类损失。利用正样本与对应真实框的真实平移缩放参数和模型预测的相对平移缩放参数，利用smoothL1函数计算回归损失。最终合并分类损失和回归损失，获取区域建议网络的损失值；

(3.3)通过区域建议网络的预测平移缩放参数对anchor boxes进行位置调整，得到候选框。根据候选框的预测前景概率值大小，从5个检测特征图中分别获取2000个候选框，合计10000个候选框。对10000个候选框进行非极大值抑制操作，并获取前景概率值最大的2000个候选框作为候选区域；

(3.4)获取候选区域的面积、宽度和高度，并根据这些信息获取相应的检测特征图，然后根据候选区域在原图中的位置和感受野计算，获取候选区域在相应检测特征图上的特征块。接着对这些特征块分别通过RoI pooling层，得到维度一致的候选区域特征块。最后对这些候选区域特征块进行自适应融合，获取候选区域的最终特征块。其中自适应融合是一种逐点取最大值的方式进行融合。

(3.5)利用候选区域的最终特征块通过全连接层，获取细分类的类别置信度和预测相对平移缩放参数，计算出细分类误差和回归误差，其中分类损失是采用交叉熵损失函数，回归损失是采用smoothL1函数。合并第二阶段的分类损失和回归损失，得到第二阶段的损失值；

(3.6)合并区域建议网络的损失值和第二阶段的损失值，得到检测模型总的损失值，利用带动量的梯度下降算法进行训练。

所述步骤(3.4)的自适应特征块提取方法的操作步骤如下：

首先根据候选区域的面积、宽度和高度等信息，通过公式：

分别获取对应的检测特征图，其中ko取数值4，w和h分别表示候选区域的宽度和高度，Fs、Fw和Fh分别表示由候选区域的面积、宽度和高度决定的检测特征图的层数。接着利用候选区域在原图中的位置和感受野的计算，分别获取候选区域在对应检测特征图上的特征块。对获取的特征块，分别通过RoI pooling层，获取维度一致的候选区域特征块。最后对这些候选区域特征块，通过逐点取最大值的方式进行自适应融合，得到候选区域的最终特征块。逐点取最大值进行自适应融合的简单实例如图2所示。自适应特征块提取方法的流程如图3所示。

所述步骤(3.6)的训练过程具体包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和回归损失：

区域建议网络的损失函数：

另外

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)

x，x_a，x^*分别表示预测框，anchor box和真实框的信息(y，w，h也同x类似)

其中N_cls表示计算分类损失时正负样本个数，N_reg表示anchor定位的数量，λ设为超参数，分类损失函数为交叉熵损失函数，回归损失函数为smoothL1，分类损失中用到正负样本而回归损失中只用到正样本。

Fast R-CNN的损失函数：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v)

v＝(v_x，v_y，v_w，v_h)，表示真实的平移缩放参数，

表示预测的平移缩放参数

其中分类损失函数为交叉熵损失函数，回归损失函数为smoothL1，分类损失中用到正负样本而回归损失中只用到正样本，平移缩放参数的计算同区域建议网络中一致。

所述步骤(4)中测试过程具体为测试图像通过训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型后得到若干个预测框的位置和对应的类别，我们对这些预测框进行非极大值抑制操作，最后保留类别置信度高于某个阈值的若干个预测框作为最后的输出结果。

与现有技术相比，本发明的有益效果是：

本发明的方法对于具有悬殊宽高比的对象，可以利用候选区域的面积、宽度和高度等信息，获取深层检测特征图、中间检测特征图和浅层检测特征图等，然后获取对应的候选区域特征块，再通过逐点取最大值的方式进行自适应融合，最终获取候选区域的最终特征块，综合利用了多个检测特征图的信息，从而补充感受野和获取定位所需的细节信息。对于正常宽高比的对象，本方法所起的作用与之前的方法作用相同。因此，本发明可以综合利用多个检测特征图的信息，提高检测模型对具有悬殊宽高比对象的检测性能，从而提高检测模型的整体检测性能。

附图说明

图1是基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN模型组成示意图

图2是通过逐点取最大值进行自适应融合的简单实例图

图3是自适应特征块提取方法的操作流程示意图

具体实施方式

下面对本发明进行进一步说明。

本发明的实施过程及实施例如下：

(1)图像划分，将铝材瑕疵图像划分成训练集和测试集两部分，其中训练集包含2505张训练图像，测试集包含500张测试图像，两个部分不存在相同的图像，训练集用来训练检测模型，测试集用来评估检测模型的性能，且训练集和测试集中不仅包含图像，还包含图像中目标对象的位置信息和类别信息；

具体实施中，损失包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和定位损失：

区域建议网络的损失函数：

另外

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)

x，x_a，x^*分别表示预测框，anchor box和真实框(y，w，h也同x类似)

其中N_cls＝256表示计算分类损失时正负样本个数，其中前景包含所有的正样本，背景数量满足跟前景数量之和为256，且背景的选择采用在线难分样本挖掘策略获取，N_reg表示anchor定位的数量，λ设为10，分类损失函数为交叉熵损失函数，回归损失函数为smoothL1，分类损失中用到正负样本而回归损失中只用到正样本。

Fast R-CNN的损失函数：

L(p，u，t^u，v)＝L_cls(_p，u)+λ[u≥1]L_loc(t^u，v)

v＝(v_x，v_y，v_w，v_h)，表示真实的平移缩放参数，

表示预测的平移缩放参数

其中分类损失函数为交叉熵损失函数，回归损失函数为smoothL1，分类损失中用到正负样本而回归损失中只用到正样本，平移缩放参数的计算同区域生成网络中一致。

训练时候，每张显卡放置两张训练图像，共用两张显卡进行训练。特征金字塔网络中的检测特征图P2-P6的基本尺寸分别为32x32,64x64,128x128,256x256和512x512等，横纵比都为1:2,1:1和2:1等。随机梯度下降算法中动量设置为0.9，权重衰减设置为0.0005。训练阶段共设置20个迭代周期，每个迭代周期遍历一次训练集。同时在1-16个迭代周期时，学习速率为0.005；在17-19个迭代周期时，学习速率为0.0005；在第20个迭代周期时，学习速率为0.00005。训练阶段图像的短边控制在600-1000之间，每次迭代从600-1000中随机选取一个整数作为短边长度，且采用控制图像横纵比的策略。训练结束后，保存最新的模型作为检测网络的模型。

(5)采用训练后的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型对测试集进行测试，获得测试集图像的检测结果。

具体实施中，将测试集中待测图像输入到检测网络中，获取预测框的位置和对应的类别置信度，其中测试图像的短边大小为800。测试图像通过检测模型可以获取预测框。接着对预测框进行非极大值抑制，非极大值抑制中阈值设置为0.5。最后保留类别置信度大于0.05的预测框，作为最后的预测结果。

最后实验证明，基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型相比带有特征金字塔网络的Faster R-CNN检测模型，在铝材瑕疵测试集中，在IoU＝0.5时，mAP值可以提高1.6％。这部分的提升主要是在桔皮和喷流等瑕疵上，其中桔皮的横纵比为7.6，AP值提高了9.6％；喷流的横纵比为7.1，AP值提高了12.1％。

通过以上实验证明了基于候选区域面积和宽高的自适应特征块提取方法可以提高检测模型对具有悬殊宽高比的对象的检测性能，从而提高检测模型的整体检测性能。

Claims

1.一种基于候选区域面积和宽高的自适应特征块提取方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于候选区域面积和宽高的自适应特征块提取方法，其特征是：

3.根据权利要求2所述的一种基于候选区域面积和宽高的自适应特征块提取方法，其特征是：所述步骤(3)具体为：

4.根据权利要求3所述的一种基于候选区域面积和宽高的自适应特征块提取方法，其特征是，所述步骤(3.4)的自适应特征块提取方法的操作步骤如下：

首先根据候选区域的面积、宽度和高度等信息，通过公式：

分别获取对应的检测特征图。接着利用候选区域在原图中的位置和感受野的计算，分别获取候选区域在对应检测特征图上的特征块。对获取的特征块，分别通过RoI pooling层，获取维度一致的候选区域特征块。最后对这些候选区域特征块，通过逐点取最大值的方式进行自适应融合，得到候选区域的最终特征块。公式(1)中ko取数值4，w和h表示候选区域的宽度和高度，Fs、Fw和Fh分别表示由候选区域的面积、宽度和高度决定的检测特征图层数。

5.根据权利要求3所述的一种基于候选区域面积和宽高的自适应特征块提取方法，其特征是，所述步骤(3.6)的训练过程具体包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和回归损失：

区域建议网络的损失函数：

另外

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，th＝log(h/h_a)

Fast R-CNN的损失函数：

L(p，u，t^u，v)＝L_cls(p，u)+λ[u≥1]L_loc(t^u，v)

v＝(v_x，v_y，v_w，υ_h)，表示真实的平移缩放参数

表示预测的平移缩放参数

6.根据权利要求1所述的一种基于候选区域面积和宽高的自适应特征块提取方法，其特征是：