CN112818832B

CN112818832B - 一种基于部件感知的弱监督物体定位装置及方法

Info

Publication number: CN112818832B
Application number: CN202110124291.5A
Authority: CN
Inventors: 张天柱; 张勇东; 孟梦; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-09-09
Anticipated expiration: 2041-01-28
Also published as: CN112818832A

Abstract

本公开提供一种基于部件感知的弱监督物体定位装置，包括：特征提取模块，用于对输入图像进行特征提取形成特征图；多个部件感知模块，每一个部件感知模块用于捕捉所述特征图的目标的一个部件得到其注意力图，从而获得多个部件的注意力图；部件多样性建模模块，用于根据所述特征图与所述多个部件的注意力图，将其结合转化为多个部件特征；部件重要性建模模块，用于根据所述多个部件特征得到中各部件特征的重要性权重；以及目标定位模块，用于根据所述多个部件的注意力图与所述各部件特征的重要性权重，得到和原图大小一致的激活图，能够对所述激活图设置设定阈值，找到能够覆盖响应区域的最大邻接矩形完成最终定位。

Description

一种基于部件感知的弱监督物体定位装置及方法

技术领域

本公开涉及人工智能领域技术领域，尤其涉及一种基于部件感知的弱监督物体定位装置及方法。

背景技术

针对一幅图像中仅有单个目标的情况，目标定位不仅要识别出图像中目标的类别，还要给出目标在图像中的位置信息。传统的目标定位需要大量的人工标注的边界框作为监督信息，然而这种监督信息的获取十分耗时耗力，限制了目标定位的应用范围。

为了减少标注负担，弱监督目标定位方法(WSOL)应运而生，这类方法仅仅使用图像级别的标注就可以完成识别和定位任务。它们大多基于人工智能技术，并且很多方法的精度可以与全监督目标定位相媲美。然而，为了达到较高的分类精度，目前的弱监督定位方法倾向于仅关注目标最具有判别力的部分，这对于定位任务来说是不利的。本专利提出一种通过捕捉目标多个部件并且自适应的组合多个部件实现目标的分类和定位的弱监督目标定位方法。本方法能够端到端的训练，自动捕捉目标多个部件并进行组合，从而实现目标的完整性定位。

发明内容

(一)要解决的技术问题

基于上述问题，本公开提供了一种基于部件感知的弱监督物体定位装置及方法，以缓解现有技术中训练仅使用图像级标签的情况下，应用时计算机可根据输入图像自动进行分类及定位等技术问题。

(二)技术方案

本公开提供了一种基于部件感知的弱监督物体定位装置，包括：

特征提取模块，用于对输入图像进行特征提取形成特征图；

多个部件感知模块，每一个部件感知模块用于捕捉所述特征图的目标的一个部件得到其注意力图，从而获得多个部件的注意力图；

部件多样性建模模块，用于根据所述特征图与所述多个部件的注意力图，将其结合转化为多个部件特征；

部件重要性建模模块，用于根据所述多个部件特征得到各部件特征的重要性权重；以及

目标定位模块，用于根据所述多个部件的注意力图与所述各部件特征的重要性权重，得到和原图大小一致的激活图，能够对所述激活图设置设定阈值，找到能够覆盖响应区域的最大邻接矩形完成最终定位。

在本公开实施例中，所述的弱监督物体定位装置，还包括部件紧凑性建模模块，用于根据所述多个部件的注意力图与所述特征图，能够使多个部件特征更为紧凑。

在本公开实施例中，所述部件紧凑性建模模块还能够选取所述多个部件的注意力图的各个注意力图的像素点最大值，并为其分配一个伪标签。

在本公开实施例中，所述各个注意力图的像素点的响应值均低于0.2的像素点被视为背景点，不分配伪标签。

在本公开实施例中，所述部件重要性建模模块，包括：

权重预测模块，能够根据所述多个部件特征得到相应的多个分支重要性；以及

分类模块，能够将所述多个部件特征进行分类。

在本公开实施例中，所述特征提取模块使用两种骨干网络进行特征提取，分别是改进后的VGG16以及ResNet50。

在本公开实施例中，所述VGG16用于移除掉conv5-3之后的网络层，并增加了两个卷积层和一个ReLU激活函数。

在本公开实施例中，所述ResNet50用于修改最后一个网络层的步长。

本公开还提供了一种根据上述任一技术方案所述的弱监督物体定位装置的一种基于部件感知的弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；

操作S2：捕捉所述特征图的目标的一个部件得到其注意力图，从而获得多个部件的注意力图；

操作S3：根据所述特征图与所述多个部件的注意力图，将其结合转化为多个部件特征并输出；

操作S4：根据所述多个部件特征得到各部件特征的重要性权重；以及

操作S5：根据所述多个部件的注意力图与所述各部件特征的重要性权重，得到和原图大小一致的激活图，对所述激活图设置设定阈值，找到能够覆盖响应区域的最大邻接矩形完成最终定位。

(三)有益效果

从上述技术方案可以看出，本公开一种基于部件感知的弱监督物体定位装置至少具有以下有益效果其中之一或其中一部分：

(1)实现了训练过程不需要人工参与，因此模型可被端到端训练；

(2)能够自动捕捉目标多个部件并进行组合，实现目标的完整性定位；以及

(3)该方法完全基于2D卷积神经网络，在CUB-200-2011以及ILSVRC 2016数据集上可以分别达到71.2％和54.4％的Top-1准确定位。

附图说明

图1为本公开实施例基于部件感知的弱监督物体定位装置的原理示意图。

图2为本公开实施例基于部件感知的弱监督物体定位方法的方法流程图。

具体实施方式

本公开提供了一种基于部件感知的弱监督物体定位装置，所述弱监督物体定位装置，训练过程不需要人工参与，因此模型可被端到端训练；该装置能自动捕捉目标多个部件并进行组合，实现目标的完整性定位；该装置完全基于2D卷积神经网络，在CUB-200-2011以及ILSVRC 2016数据集上可以分别达到71.2％和54.4％的Top-1准确定位。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于部件感知的弱监督物体定位装置，如图1所示，所述弱监督物体定位装置，包括：特征提取模块，用于对输入图像进行特征提取并输出特征图；多个部件感知模块，每一个部件感知模块用于捕捉所述特征图的目标的一个部件得到其注意力图，从而获得多个部件的注意力图并输出；部件多样性建模模块，用于接收所述特征图与所述多个部件的注意力图，并将其结合转化为多个部件特征并输出；部件重要性建模模块，用于接收所述多个部件特征，根据所述多个部件特征得到各部件特征的重要性权重；以及目标定位模块，用于接收并根据所述多个部件的注意力图与所述各部件特征的重要性权重，得到和原图大小一致的激活图，能够对所述激活图设置设定阈值，找到能够覆盖响应区域的最大邻接矩形完成最终定位。

在本公开实施例中，所述的弱监督物体定位装置，还包括部件紧凑性建模模块，用于接收并根据所述多个部件的注意力图与所述特征图，能够使多个部件特征更为紧凑。

进一步地，所述部件紧凑性建模模块还能够选取所述多个部件的注意力图的各个注意力图的像素点最大值，并为其分配一个伪标签。

进一步地，所述各个注意力图的像素点的响应值均低于0.2的像素点被视为背景点，不分配伪标签。

在本公开实施例中，所述部件重要性建模模块，包括：

权重预测模块，能够根据所述多个部件特征得到相应的多个分支重要性；

分类模块，能够将所述多个部件特征进行分类；

本公开还提供了一种基于部件感知的弱监督物体定位方法，所述方法与现有方法相比，训练过程不需要人工参与，因此模型可被端到端训练；该方法能自动捕捉目标多个部件并进行组合，实现目标的完整性定位；该方法完全基于2D卷积神经网络，在CUB-200-2011以及ILSVRC 2016数据集上可以分别达到71.2％和54.4％的Top-1准确定位。

在本公开实施例中，提供一种基于部件感知的弱监督物体定位方法，如图2所示，所述弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；

具体地，在本公开实施例中，如图1所示，本公开训练过程如下：

部件多样性建模模块，对于一张输入的图像，使用两种骨干网络进行特征提取，分别是改进后的VGG16以及ResNet50。对于VGG16，移除掉conv5-3之后的网络层，并增加了两个卷积层和一个ReLU激活函数。对于ResNet50，修改最后一个网络层的步长。实际应用中，对精度要求较高的情况下，可以使用ResNet50作为特征提取器；对实时性要求较高的情况下，可以使用VGG16作为特征提取器。对于经过特征提取模块输出的特征图F，我们利用K个分支的部件感知模块捕捉目标的K个部件的注意力图a＝[a¹；a²；...；a^K]。为了减少背景的干扰，我们引入了稀疏性损失函数l_spa对背景响应施加惩罚。

将注意力图与特征图F相乘，完成全局池化，获得目标的K个部件的特征P＝[p¹；p²；...；p^K]。除此之外，为了保证学到的目标的K个部件的多样性，我们提出了多样性损失函数l_div，其计算方式如下：

部件紧凑性建模模块，根据K个部件的注意力图，通过选取该像素点在K个相应图的最大值，可以为每个像素点(i，j)，i＝1，2，...，H；j＝1，2，...，W分配一个伪标签z_ij。其中，在所有注意力图中的响应值均低于0.2的像素点被视为背景点，不分配伪标签。假设一张图片中存在M_k个像素点的标签为k，具有其他标签的像素点的数目为N_k。根据特征图，我们使用f_m代表第m个具有标签k的像素点(正样本)的特征，使用f_n代表第n个具有其他标签的像素点(负样本)的特征。首先计算每个部件特征与正、负样本之间的距离分别为d₊(k，m)与d_-(k，n)有：

通过对样本挖掘寻找具有最大距离的正样本对g₊(k)和具有最小距离的负样本对g_-(k)为：

g₊(k)＝maxd₊(k，m)；

g_-(k)＝mind_-(k，n)；

使用三元组损失l_tri减小最难正样本对的距离，增加最难负样本对的距离从而使得部件特征更为紧凑：

这里，margin代表正负样本对的间距，[b]₊＝maX(b，0)。

部件重要性建模模块能够将K个部件的特征F_pa输入权重预测模块，得到K个分支重要性w＝[w¹；w²；...w^K]。将部件特征P＝[p¹；p²；...；p^K]通过一个分类模块，为每一个分支预测出一个分类结果

最终的分类结果由多个分支加权投票获得，如下所示：

在仅仅给定图片标签的情况下，我们最终的损失函数如下给出：

l_final＝l_cla+λ_spal_spa+λ_divl_div+λ_tril_tri

其中，λ_spa，λ_div，λ_tri为平衡系数。分类损失函数l_cls为交叉熵损失函数：

目标定位模块。根据以上计算结果，类别激活图可以由K个部件的注意力图a＝[a¹；a²；...；a^K]以及重要性权重w＝[w¹；w²；...w^K]线性组合得到：

通过对类别激活图A进行双线性插值，可以得到和原图大小一致的激活图。然后对该激活图设置合理的阈值，找到可以覆盖响应区域的最大邻接矩形即为最终定位结果。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开一种基于部件感知的弱监督物体定位装置及方法有了清楚的认识。

综上所述，本公开提供了一种基于部件感知的弱监督物体定位装置及方法，该弱监督物体定位装置及方法实现了训练过程不需要人工参与，因此模型可被端到端训练；能够自动捕捉目标多个部件并进行组合，实现目标的完整性定位；可以用于人脸识别，游戏中的人机交互以及自动驾驶等应用中对输入图像进行自动识别及定位。在实施上，可以以软件的方式安装于前端设备，提供实时检测；也可以安装于后台服务器，提供大批量后台检测。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本公开的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本公开实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本公开的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到「约」的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10％的变化、在一些实施例中±5％的变化、在一些实施例中±1％的变化、在一些实施例中±0.5％的变化。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于部件感知的弱监督物体定位装置，包括：

特征提取模块，用于对输入图像进行特征提取形成特征图；

部件重要性建模模块，用于根据所述多个部件特征得到各部件特征的重要性权重；

目标定位模块，用于根据所述多个部件的注意力图与所述各部件特征的重要性权重，得到和原图大小一致的激活图，能够对所述激活图设置设定阈值，找到能够覆盖响应区域的最大邻接矩形完成最终定位；以及

部件紧凑性建模模块，用于根据多个部件的注意力图与特征图，使多个部件特征更为紧凑；

所述部件紧凑性建模模块还能够选取所述多个部件的注意力图的各个注意力图的像素点最大值，并为其分配一个伪标签；

使用f_m代表第m个具有标签k的像素点正样本的特征，使用f_n代表第n个具有其他标签的像素点负样本的特征，首先计算每个部件特征与正、负样本之间的距离分别为d₊(k，m)与d_-(k，n)有：

g₊(k)＝maxd₊(k，m)；

g_-(k)＝mind_-(k，n)；

这里，margin代表正负样本对的间距，[b]₊＝max(b，0)。

2.根据权利要求1所述的弱监督物体定位装置，其中，所述各个注意力图的像素点的响应值均低于0.2的像素点被视为背景点，不分配伪标签。

3.根据权利要求1所述的弱监督物体定位装置，其中，所述部件重要性建模模块，包括：

分类模块，能够将所述多个部件特征进行分类。

4.根据权利要求1所述的弱监督物体定位装置，其中，所述特征提取模块使用两种骨干网络进行特征提取，分别是改进后的VGG16以及ResNet50。

5.根据权利要求4所述的弱监督物体定位装置，其中，所述VGG16用于移除掉conv5-3之后的网络层，并增加了两个卷积层和一个ReLU激活函数。

6.根据权利要求4所述的弱监督物体定位装置，其中，所述ResNet50用于修改最后一个网络层的步长。

7.一种基于权利要求1至6任一项所述的弱监督物体定位装置的基于部件感知的弱监督物体定位方法，包括：

操作S1：对输入图像进行特征提取形成特征图；