CN116342857A

CN116342857A - 一种基于类别修正的弱监督目标定位方法

Info

Publication number: CN116342857A
Application number: CN202310336796.7A
Authority: CN
Inventors: 瞿响宇; 杜博; 王增茂; 罗伊文; 陈尚法; 何向阳
Original assignee: Wuhan University WHU; Changjiang Institute of Survey Planning Design and Research Co Ltd
Current assignee: Wuhan University WHU; Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-27

Abstract

本发明属于计算机视觉领域，尤其涉及一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端，我们不再利用类别特征图进行定位，而采用由粗略到精细的流程。本发明的模型由主干网络、定位网络和分类网络组成，首先由定位网络利用无监督分割技术生成类别无关的分割图，从而确定目标物体的粗略位置。之后由分类网络再通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体，对于轮廓细节也可以进行很好的识别。

Description

一种基于类别修正的弱监督目标定位方法

技术领域

本发明属于计算机视觉领域，涉及一种基于类别修正的弱监督目标定位方法。

背景技术

目标定位是计算机视觉领域一个基础性的感知任务，其目的在于定位图像中的目标物体的具***置，并且判断目标物体所属类别。然而在实际应用中，为了让算法模型具有良好的泛化性能，往往需要耗费大规模的人工成本进行目标边界框甚至是像素级别的标注。由于标注成本的问题，弱监督目标定位任务往往通过依靠容易获取和标注的类别标签使得模型具有定位物体的能力。针对弱监督目标定位问题，国内外主流研究是基于CAM技术，通过图中和类别相关的注意力高亮区域来确定物体的位置。但此类方法通常只能定位出物体具有类别辨识度的部分，造成算法定位框往往小于目标物体的不准确问题。因此，如何获取精确的定位框成为弱监督目标定位领域亟需解决的问题。

发明内容

本发明主要是提供了一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端，我们不再利用类别特征图进行定位，而采用由粗略到精细的流程。本发明的算法由一个定位网络和一个分类网络组成。首先由定位网络利用无监督分割技术生成类别无关的分割图，从而确定目标物体的粗略位置。之后由分类网络通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体，对于轮廓细节也可以很好地识别。

本发明提供的技术方案中，由粗略到精细的目标定位方法包括训练阶段和测试阶段，其中训练阶段包括如下步骤：

步骤1，构建目标定位模型，所述目标定位模型包括主干网络，分类网络和定位网络，其中主干网络对输入图像进行特征提取，分类网络和定位网络是对偶的网络，对从主干网络提取的特征进行类别和掩码的预测；

步骤2，对输入图像I，生成和训练样本有分布相似性的合成图像I_s以及前景掩码M_s，然后将合成图像I_s输入目标定位模型中，得到定位网络预测的掩码

步骤3，图片级细定位阶段：增大图像层次中前景和背景之间的差异，让定位网络更精确的定位；包括以下子步骤：

步骤3.1，由步骤2训练好的具有粗略定位能力的定位网络得到真实图片I_r的前景掩码预测

步骤3.2，将前景掩码预测

与真实图片I_r进行哈达玛积得到类别无关的前景注意力图像I_f，同时对前景掩码进行0-1转换为/>

将真实图片I_r与/>

进行哈达玛积得到类别无关的背景注意力图像I_f；

步骤3.3，分别将前景注意力图像I_f和背景注意力图像I_b送进分类网络进行预测，得到预测的概率特征

以及/>

步骤4，特征级精细定位阶段：在图像级别的前景和背景差异得到放大之后，利用与步骤3中相同的方法增大特征层次前景和背景之间的差异，让定位网络进一步修正被错误定位的细节，输出最终的定位结果；

测试阶段的过程如下：

断开定位网络和分类网络的连接，通过对定位网络的前景掩码进行阈值筛选，得到最终的定位框：

其中

表示测试样本通过定位网络预测得到的掩码，θ为筛选的阈值，Select函数选择/>

大于阈值的部分并返回一个包含所有前景坐标的最小边界框作为最终确定的定位框Box。

进一步的，步骤1中主干网络采用U-Net网络结构，定位网络采用CNN卷积网络结构。

进一步的，步骤2中采用BigBiGAN的方法生成合成图像和掩码。

进一步的，步骤2中获得掩码

的具体公式如下：

其中θ_B和θ_L分别代表主干网络和定位网络的参数。

进一步的，采用二分交叉熵函数对定位网络进行优化，损失函数如下：

其中m，n为掩码的宽度和高度，

为前景掩码M_s中i行j列的元素，/>

为预测掩码/>

中i行j列的元素。

进一步的，步骤3.3中预测的概率特征

以及/>

的计算公式如下：

其中θ_B和θ_C分别代表主干网络和分类器的参数，对前景和背景注意力图像的损失函数具体如下：

其中

是前景注意力图像的交叉熵函数，/>

是背景注意力图像的熵的负数，K是数据集整体的类别数，在图片级细定位阶段整体的损失函数可以表示为：

其中α和B是平衡参数。

进一步的，步骤4的具体实现方式如下；

步骤4.1，对于真实图片I_r，用经过步骤3训练的定位网络得到特征图

和掩码/>

特征图的计算公式如下所示：

其中θ_B为主干网络的参数；

步骤4.2，将特征图

与掩码/>

以及掩码的0-1转换/>

分别进行哈达玛积，得到前景特征图/>

和背景特征图/>

公式如下：

步骤4.3，固定由步骤3训练好的分类网络权重，将其作为掩码质量的判断器，分别将前景特征图

和背景特征图/>

送进分类网络进行预测，得到预测的概率特征/>

以及/>

其中θ_C代表分类器的参数；具体损失函数如下：

其中

是前景特征的交叉熵，/>

是背景特征的熵的负数，K是训练样本整体的类别数，在特征级精细定位阶段整体的损失函数可以表示为：

其中α和β是平衡参数。

进一步的，阈值θ的取值为0.55±0.05。

进一步的，α和β的取值均为1。

与现有技术相比，本发明的有益效果是：

本发明规避了CAM技术带来的定位偏小的缺点，CAM全程通过类别信息训练来得到类别注意力图像，但其忽略了类别辨识度不高的物体区域，从而只能进行粗略定位，对于细粒度数据集的定位效果尤其糟糕。本发明采用类别无关信息和类别相关信息相结合的流程，利用类别无关的分割图训练网络，再通过类别信息进行细节修正，从而达到精细定位的效果。本发明可以完整地定位出物体的轮廓，特征图可以清晰的勾勒出目标物体的轮廓信息。在精细定位阶段，类别信息起到辅助修正的作用，不会使网络忽略类别辨识度低的前景区域，从而跳出CAM技术的弊端。

附图说明

图1为本发明实施例中的训练流程图。

图2为本发明实施例中的测试流程图。

具体实施方式

以下结合附图和具体实施例来对本发明做进一步的说明。

本发明提出了一种基于类别修正的弱监督目标定位算法。该算法既利用了类别无关信息也利用了类别相关的信息，同时避免了CAM^[1]技术的弊端。本发明提出了一种***-分类器的双头网络结构来学习类别无关的信息和类别相关的信息。***由一个分割网络组成，其预测的是输入图像的前景掩码。分类器则分别从图像层级和特征层级对***的预测结构进行修正。

[1]B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba,“Learning deepfeatures for discriminative localization,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,pp.2921–2929.

本发明提出了由粗略到精细的训练过程来优化算法模型，如附图1所示。在粗略定位阶段，对于类别无关的信息，我们通过无监督方法生成合成图像I_s以及前景掩码M_s。相关的无监督方法包括^[2],[3]。***预测合成图像I_s的掩码并通过无监督生成的M_s进行监督，进而具有和类别无关的特征分割能力。

[2]A.Voynov,S.Morozov,and A.Babenko,“Object segmentation withoutlabels with large-scale generative models,”in International Conference onMachine Learning.PMLR,2021,pp.10 596–10 606

[3]M.Chen,T.Artieres,and L.Denoyer,“Unsupervised object segmenta-`tion by redrawing,”Advances in Neural Information Processing Systems,vol.32,2019.

在精细定位阶段，具有粗略定位能力的***首先预测真实图片I_r的前景掩码

为了进一步增大前景和背景的差异，我们通过前景掩码和原始图像做哈达玛积得到前景注意力图像和背景注意力图像。分类器这时候对两种注意力图像分别进行不同的分类任务来优化：前景图像由类别标签进行监督，背景图像则不应该归属于任何一类，通过抑制其高归属类别进行监督，从而使本发明进一步增加了特征层次中前景和背景的差异。对***的特征图与其预测的前景掩码进行哈达玛积得到分离后的前景特征图和背景特征图。在图像层级的精细定位过后，分类器将学习到一定的前景分类能力，此时固定分类器的权重使其不再参与梯度回传，利用分类器去判断前景和背景特征图的分离质量，从而增大其在特征层次的前景背景可区分度。

在经过图像层级和特征层级的精细定位训练之后，***通过类别修正可以更好从语义的角度判断前景和背景的区域，同时又避免了CAM技术无法发现不具有类别辨识度的前景这一缺点，本发明可以精确的预测出物体的轮廓。这是因为***是基于类别无关的特征训练，因此对于轮廓、纹理信息本身具有很好的识别。在得到类别修正之后，算法对语义相关和语义无关的前景信息都具有了判断能力。

如附图2所示，测试阶段，本发明取经过训练的***来完成目标定位任务。首先***预测关于真实图片I_r的掩码

由预先确定好的阈值对前景掩码/>

进行二值化处理得到二值前景掩码/>

其中前景值为1，背景值为0。此时前景值可能是不连续的、一簇一簇的，本发明选取最大的连续前景值簇作为预测前景，其余皆视为背景。对筛选出的前景，取包含其的最紧致边界框(即包含所有前景坐标的最小边界框)作为目标物体的定位框Box。

实施例提供的流程具体包括以下步骤：

步骤2：通过GAN等无监督算法，生成和训练样本有分布相似性的合成图像I_s以及前景掩码M_s，实例中选择了BigBiGAN^[2]的方法生成合成图像和掩码。然后将合成图像I_s输入目标定位模型中，得到定位网络所预测的前景掩码

公式如下：

其中θ_B和θ_L分别代表主干网络和定位网络的参数，实例中θ_B采用U-Net网络结构，θ_L采用CNN卷积网络结构。f为网络预测掩码的过程。掩码

中对应像素的值越靠近1说明定位网络越倾向于将其判断为前景，反之，像素值越靠近0代表定位网络越倾向于判断其为背景。之后算法采用二分交叉熵函数(binary cross-entropy)对定位网络进行优化。损失函数如下：

其中m，n为掩码的宽度和高度，

为前景掩码M_s中i行j列的元素，/>

为预测掩码

中i行j列的元素。通过步骤2，定位网络具有粗略的类别无关的定位能力，接下来利用类别信息对定位网络进行类别相关修正。

步骤3：图片级细定位阶段：从图像层次增大前景和背景之间的差异性以修正图像。步骤3可分为以下子步骤：

步骤3.1：通过具有粗定位能力的定位网络得到真实图片I_r的预测掩码

步骤3.2：利用类别信息评价掩码

的质量，并在训练过程中予以修正。将样本I_r与掩码/>

以及掩码的0-1转换/>

分别进行哈达玛积/>

计算，得到前景注意力图像和背景注意力图像，公式如下：

步骤3.3：分别将前景注意力图像I_f和背景注意力图像I_b送进分类网络进行预测，得到预测的概率特征

以及/>

在实例中的公式表现为：

其中θ_B和θ_C分别代表主干网络和分类网络的参数。对于I_f，利用类别标签进行监督，损失函数为交叉熵函数。对于I_b，其不属于任何一类，因此希望模型对于I_b的类别概率预测趋于平均，使其既没有过高的概率预测类别也没有过低的概率类别。在实例中表现为令I_b的预测概率的熵尽可能地大。对前景，背景注意力图像的损失函数具体如下：

其中

是前景注意力图像的交叉熵函数，/>

是背景注意力图像的熵的负数，K是训练样本整体的类别数。在图片级细定位阶段整体的损失函数可以表示为：

其中α和β是平衡参数，在实践中经过大量实验检验，发现均设置为1就可以使算法取得很好的效果。本步骤中，一方面在图像层级对***进行了类别相关修正，另一方面训练分类器具有分类能力，为下一步骤中在特征层面进行类别修正做好准备。

步骤4：在图像级别的前景和背景差异得到增大之后，本步骤还需要进一步确保在特征层次，前景和背景仍然具有差异性，这样才会更加有利于定位网络进行前景定位。步骤4可以细分为以下子步骤：

步骤4.1：对于真实图片I_r，用经过步骤3训练的定位网络得到特征图

和掩码/>

其中掩码的计算公式同(1)，特征图的计算公式如下所示：

其中θ_B为主干网络的参数。

步骤4.2：将特征图

与掩码/>

以及掩码的0-1转换/>

分别进行哈达玛积，得到前景特征图/>

和背景特征图/>

公式如下：

步骤4.3：固定由步骤3训练好的分类网络权重，将其作为掩码质量的判断器。分别将前景特征图

和背景特征图/>

送进分类网络进行预测，得到预测的概率特征/>

以及/>

在实例中的公式表现为：

其中θ_C代表分类网络的参数。对于前景概率特征和背景概率特征的函数和步骤3.3中是一致的。算法采用最小化交叉熵函数优化前景概率特征，采用最大化熵函数优化背景概率特征，在实例中其具体损失函数如下：

其中

是前景特征的交叉熵，/>

是背景特征的熵的负数，K是训练样本整体的类别数。在特征级精细定位阶段整体的损失函数可以表示为：

其中α和β是平衡参数，在实践中经过大量实验检验，和步骤3一致，发现均设置为1就可以使算法取得很好的效果。

尽管步骤4和步骤3具有相似之处，但是步骤4是必要的。因为在步骤3的时候分类网络也是参与训练的，也就是说损失函数一部分在纠正定位模型的特征，但更大的一部分在调整分类网络。但步骤4我们通过固定分类网络以及在特征层次上进行调整，可以让类别信息更充分地传递到定位网络，对网络的定位结果进行细粒度修正。与此同时，步骤3亦是不可或缺的，缺乏步骤3就无法得到一个有泛化能力的分类网络。

具体实现时还有以下注意事项：

本发明测试阶段，对于阈值θ的选取，通过大量实验证明，在CUB数据集中取阈值为0.55可以得到很好的结果。需要指出的是，相比于同类方法，本发明中的方法对阈值的敏感性是不高的，在±0.15的范围内都可以取到很好的效果，而同类方法的阈值容忍区间往往小于±0.05。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。