CN111008630A

CN111008630A - 一种基于弱监督学习的目标定位方法

Info

Publication number: CN111008630A
Application number: CN201911310802.1A
Authority: CN
Inventors: 于海玉; 薛均晓; 徐明亮; 吕培; 姜晓恒; 郭毅博
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-14

Abstract

本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型，选取其中的两个卷积层分别生成第一梯度权重图和第一定位图，第二梯度权重图和对应的第二定位图，第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的结果定位图，再对结果定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题，具有较高的定位精度，可以挖掘出更完整的目标区域。

Description

一种基于弱监督学习的目标定位方法

技术领域

本发明涉及深度学习和计算机视觉技术领域，尤其涉及一种基于弱监督学习的目标定位方法。

背景技术

通过弱监督定位识别图像中的目标对象是计算机视觉技术领域研究的一个重要问题。现有的许多弱监督目标定位方法都是利用深度卷积神经网络得到的特征图来估计识别度最高的区域，即只定位识别度最高的目标对象或者其中的一部分。然而，当一个图像包含具有相同类型的多个目标时或者包括多个小目标对象时，现有技术中的方法常常是难以有效确定目标对象。

发明内容

本发明主要解决的技术问题是提供一种基于弱监督学习的目标定位方法，解决现有技术中针对图像具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题，以及对应解决对图像中同种类的形状各异的多个目标物体进行定位检测时成本高、速度慢、准确率低、鲁棒性低的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种基于弱监督学习的目标定位方法，包括以下步骤：

步骤一，对于一个训练好的卷积神经网络模型，选取其中的一个卷积层输出的特征图计算对应的梯度图，再对该梯度图计算高阶偏导，生成对应的第一梯度权重图；步骤二，用滑动窗口在第一梯度权重图遍历所有值，搜索局部最大值，再对所有的局部最大值取线性平均作为特征图的权重，然后计算特征图的权重的加权和，生成对应的第一定位图；步骤三，选取所述卷积神经网络模型的另一个卷积层，重复前述步骤一和步骤二的方法，得到第二梯度权重图和对应的第二定位图；步骤四，将第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的结果定位图；步骤五，再对结果定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成用于目标定位的矩形包围框。

优选的，在步骤一中，经过一次前向传播预测出类别c的得分向量S_c，输入图像I是矢量形式，W_c和b_c分别代表权重矩阵和偏移量，则有：

S_c(I)＝W_c ^TI+b_c

通过一阶泰勒展开把S_c看做I的线性函数，即：

S_c(I)≈W_c ^TI+b_c

再将预测类别得分向量对应的梯度设置为1，其余的为0，使用反向传播算法对输入图像求导，得到图像中每个像素的梯度w：

w是得分向量S_c在像素点I₀处对图像I的偏导，导数的大小代表对输入图像扰动时，每个像素对最终预测结果的影响程度。

优选的，最终预测类别c的得分向量Y_c被看做是最后一个卷积层中特征图A经过全局平均池化操作后的线性组合，A_lj ^k代表在该卷积层第k个特征图A^k第l行、第j列对应像素的梯度，K表示在该卷积层中有K个特征图，L、J表示特征图A^k的长和宽，则有：

代表预测为类别c的情况下特征图A^k对应的权重，Z代表特征图A^k的像素个数，则权重为：

优选的，在反向传播的过程中经过relu层时，在该relu层得到每个特征图对应的梯度权重图，

代表在该卷积层第k个特征图A^k第l行、第j列对应像素的梯度的权重，L、J表示特征图A^k的长和宽，

代表预测为类别c的情况下A^k对应的权重：

优选的，对于类别为c的特征图A^k的梯度权重图G_lj ^kc，包括其中的每一个像素对应的梯度的权重α_lj ^kc∈G_lj ^kc，提供数组l_m_arr，定义尺寸为W×W的滑动窗口最大值滤波器Max_Filter，设置滑动窗的步长为N；对第一梯度权重图G_lj ^kc进行遍历，如果有α_lj ^kc＝Max_Filter(G_lj ^kc)并且α_lj ^kc＞0，则把对应的α_lj ^kc放入数组l_m_arr；继续按步长N滑动该最大值滤波器直到遍历完该梯度权重图G_lj ^kc；最终对数组l_m_arr中存入的数值求平均average(l_m_arr)，进而得到权重

再由权重

计算权重加权和

而得到第一定位图

优选的，步骤一和步骤二中对应的卷积层为卷积神经网络模型VGG16的第五级卷积层，步骤三中对应的卷积层为卷积神经网络模型VGG16的第四级卷积层。

优选的，在步骤二中，基于第五级卷积层的特征图大小是14*14,使用大小为3*3、步长为1的滑动窗口遍历第一梯度权重图，判断每个像素是否为局部最大值，如果滑动窗口中央的值大于或等于周围8个值，则该像素属于局部最大值，否则忽略不计,最终计算512个特征图的加权和，生成14*14的第一定位图。

优选的，在步骤三中，基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第二梯度权重图，判断每个像素是否为局部最大值，如果滑动窗口中央的值大于或等于周围24个值，则该像素属于局部最大值，否则忽略不计，最终计算512个特征图的加权和，生成28*28的第二定位图。

优选的，将第一定位图上采样到像素28*28，然后与第二定位图逐像素相加后生成最终的结果定位图。

本发明的有益效果是：本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型，选取其中的两个卷积层分别生成第一梯度权重图和第一定位图，第二梯度权重图和对应的第二定位图，第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的结果定位图，再对结果定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题，具有较高的定位精度，可以挖掘出更完整的目标区域。

附图说明

图1是根据本发明基于弱监督学习的目标定位方法一实施例的组成示意图；

图2是根据本发明基于弱监督学习的目标定位方法另一实施例中的工作原理流程图；

图3是根据本发明基于弱监督学习的目标定位方法另一实施例中卷积层选取对比图；

图4是根据本发明基于弱监督学习的目标定位方法另一实施例中滑动窗口尺寸选择对比图；

图5是根据本发明基于弱监督学习的目标定位方法另一实施例中分割和矩形框标注图；

图6、图7和图8分别是根据本发明基于弱监督学习的目标定位方法另一实施例与现有技术方法对比定位效果图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1分别给出了本发明基于弱监督学习的目标定位方法对应的网络***实施例，在图1所示的网络体系中包括一个由5级卷积层级联的VGG16网络，在该网络中第一级卷积层输出的特征图是像素为256*256特征图，第二级卷积层输出的特征图是像素为112*112特征图，第三级卷积层输出的特征图是像素为56*56特征图，第四级卷积层输出的特征图是像素为28*28特征图，第五级卷积层输出的特征图是像素为14*14特征图。

进一步可以看出，对第五级卷积层的特征图求取梯度权重图，然后对特征图求得权重和得到第一定位图；同样，对第四级卷积层的特征图求取梯度权重图，然后对特征图求得权重和得到第二定位图；第一定位图经过上采样后与第二定位图的像素大小相同，因此逐个像素相加后既可以得到结构定位图。

图1演示了本发明方法的架构，首先，我们在单个卷积层中采用判别区域发现策略来寻找所选梯度权重映射的多个不同局部最大值。对这些局部极大值信息求平均值，从而对特征图进行加权，这与以前的方法不同。这些多比例尺的定位图是由加权和生成的，其中包含了互补的有意义的信息，较小的定位图突出了较大目标对象的完整区域，较大的定位图突出了目标对象特别是小对象的更多细节。然后将来自不同卷积层的定位图融合在一起，以挖掘更多的目标，即使是小目标。特别是第四级卷积层以边缘和空间信息的形式表示了整体目标，特别是小目标的互补，而第五级卷积层的空间信息只关注大目标中最具识别性的部分。

优选的，本发明方法适用的卷积神经网络包括VGG网络，如上述VGG16网络，也包括ResNet网络，如具体是ResNet-101网络。

图2是本发明基于弱监督学习的目标定位方法对应的流程图，其中包括步骤：

步骤一S101，对于一个训练好的卷积神经网络模型，选取其中的一个卷积层输出的特征图计算对应的梯度图，再对该梯度图计算高阶偏导，生成对应的第一梯度权重图；

步骤二S102，用滑动窗口在第一梯度权重图遍历所有值，搜索局部最大值，再对所有的局部最大值取线性平均作为特征图的权重，然后计算特征图的权重的加权和，生成对应的第一定位图；

步骤三S103，选取所述卷积神经网络模型的另一个卷积层，重复前述步骤一和步骤二的方法，得到第二梯度权重图和对应的第二定位图；

步骤四S104，将第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的定位图；

步骤五S105，再对定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成矩形包围框。

优选的，结合图1所示实施例，在步骤一S101中，优选对VGG16第五级卷积层输出的特征图计算对应的梯度图，再对该梯度图计算高阶偏导，生成对应的第一梯度权重图。

优选的，向图1所示的卷积神经网络输入一张图片I，经过一次前向传播可以预测出类别c的得分向量S_c。图像I是矢量形式，W_c和b_c分别代表权重矩阵和偏移量。

S_c(I)＝W_c ^TI+b_c

在深度卷积网络中，S_c是对于I的高度非线性函数，但是我们可以通过一阶泰勒展开把S_c看做I的线性函数，即：

S_c(I)≈W_c ^TI+b_c

由此，我们将预测类别得分向量对应的梯度设置为1，其余的为0，再使用反向传播算法对输入图像求导，得到图像中每个像素的梯度w：

w是得分向量S_c在像素点I₀处对图像I的偏导，导数的大小代表对输入图像扰动时，每个像素对最终预测结果的影响程度。结合图1，由此可以实现对第五级卷积层输出的特征图计算对应的梯度图。

优选的，在卷积神经网络中存在着一个基本假设，最终预测类别c的得分向量Y_c可以被看做是最后一个卷积层中特征图A经过全局平均池化操作后的线性组合。A_lj ^k代表在该卷积层第k个特征图A^k第l行、第j列对应像素的梯度，K表示在该卷积层中有K个特征图，L、J表示特征图A^k的长和宽，则有：

这里的

代表预测为类别c的情况下特征图A^k对应的权重，Z代表特征图A^k的像素个数，则有：

由此实现了对梯度图计算高阶偏导，生成对应的第一梯度权重图。

进一步优选的，对于

还可以有另外的计算方法，可以反向传播至任意一个中间卷积层，相当于对于中间卷积层的特征图的可视化。该中间卷积层的每个特征图都有对应的梯度图，梯度较大的像素对应了目标物体在图像中的位置。我们进一步通过高阶求导计算梯度的权重，在反向传播的过程中经过relu层时，我们只关注对预测结果有积极影响的像素。在该relu层得到每个特征图对应的梯度权重图，这些梯度权重图可以看作为分类神经网络的每个神经元做决定的依据。

代表预测为类别c的情况下A^k对应的权重：

优选的，对于类别为c的特征图A^k的梯度权重图G_lj ^kc，包括其中的每一个像素对应的梯度权重α_lj ^kc∈G_lj ^kc，提供数组l_m_arr，定义尺寸为W×W的滑动窗口最大值滤波器Max_Filter，设置滑动窗的步长为N；接下来对梯度权重图G_lj ^kc进行遍历，如果有α_lj ^kc＝Max_Filter(G_lj ^kc)并且α_lj ^kc＞0，则把对应的α_lj ^kc放入数组l_m_arr；继续按步长N滑动该滤波器直到遍历完该梯度权重图G_lj ^kc；最终对数组l_m_arr中存入的数值求平均average(l_m_arr)，进而得到权重

再由权重

计算权重加权和

而得到第一定位图

优选的，基于图1，在步骤二S102中，基于第五级卷积层的特征图大小是14*14,优选使用大小为3*3、步长为1的滑动窗口遍历7*7的第一梯度权重图，判断每个像素是否为局部最大值，如果滑动窗口中央的值大于或等于周围8个值，则该像素属于局部最大值，否则忽略不计,最终计算512个特征图的加权和，生成14*14的第一定位图。

进一步的，在步骤三S103中，选取所述卷积神经网络模型VGG16的第四级卷积层输出的特征图计算对应的梯度图，再对该梯度图计算高阶偏导，生成对应的第二梯度权重图，具体的方法同上，这里不再赘述；基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第一梯度权重图，判断每个像素是否为局部最大值，如果窗口中央的值大于或等于周围24个值，则该像素属于局部最大值，否则忽略不计，最终计算512个特征图的加权和，生成28*28的第二定位图。

通过上述方法得到的梯度权重图的权值更有效，可以获得多个对象特别是小对象的完整区域。第四级卷积层和第五级卷积层生成的定位图最终可以融合成一个具有鲁棒性的结果定位图，不同大小的多个目标可以更好地定位在该结果定位图上。

进一步的，在步骤一S103中，若选取所述卷积神经网络模型VGG16的第三级卷积层输出的特征图计算对应的梯度权重图和定位图，则会引入噪声污染，这种噪声将会影响识别的精度，因此这里舍弃了对第三级卷积层输出的特征图的梯度权重图计算，而是只选取第五级卷积层和第四级卷积层进行上述的梯度权重图和定位图计算。

对此还可以结合图3进一步说明，如图3所示，输入图像P1分别在第三级卷积层、第四级卷积层和第五级卷积层进行了上述步骤一和步骤二的处理，分别得到了对应的定位图，即第三定位图R1、第四定位图R2、第五定位图R3，由于第三级卷积层对应的第三定位图R1具有较大噪声特性，因此被舍弃，最终仅选择第四定位图R2和第五定位图R3输出。

进一步的，关于滑动窗口的尺寸选择本发明也进行了优化选择。我们通过测试不同大小的滑动窗口发现，较小的滑动窗口可以捕捉到小面积对象产生的局部最大值，较大的滑动窗口会丢失这些局部最大值。我们的当滑动窗口尺寸为3×3时，在第五级卷积层输出的Top-1误差表现最好，为49.81％，而当滑动窗口尺寸增大为5×5时误差会增大。第四级卷积层进行这样的滑动窗口处理时具有类似的特性，具体如图表1所示。这意味着滑动窗口越小，对梯度权重图的权值计算方法的性能越好，较大的滑动窗口会漏掉一些小对象和响应较弱的对象边缘。如图4所示，其中的输入图像I1经过第五级卷积层生成第一定位图时，当滑动窗口选择为3×3时得到的第一定位图如W1所示，当滑动窗口选择为5×5时得到的第一定位图如W2所示，显然W2比W1失去了更多的小对象和边缘信息。

表1滑动窗口尺寸对应的识别误差统计表

优选的，在步骤四S104中，将第一定位图上采样到像素28*28，然后与第二定位图逐像素相加后生成最终的结果定位图。

进一步的，如图5所示，输入图像M1经过上述步骤一至步骤四处理后，得到结果定位图M2，然后再对结果定位图M2进行阈值分割操作得到阈值分割图M3，利用边缘寻找算法，最终对单个目标物体或多个目标物体生成带有矩形包围框的识别图M4。

由此可见我们提出了一个弱监督对象定位方法侧重于对多个目标的完整区域的定位，即使是响应较弱的小区域，而不是识别性最强的区域，可以有效地在一个场景中定位多个目标，特别是小目标。并且，我们利用梯度权重图中的多个局部极大值，并使用新的加权特征图来定位感兴趣的区域而得到定位图，将不同尺度的特征图映射融合在一起，进一步提高了定位性能。这种策略可以建立在任何现有的卷积神经分类网络上，而不需要额外的修改。

我们提出的方法的主要目的是解决具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题。该方法具有较高的定位精度，表明在多尺度层中应用多鉴别区域发现策略可以挖掘出更完整的目标区域。图6至图8分别显示了本发明方法与现有技术方法的对比识别效果，其中对于每一行而言，左侧第一幅图表示输入的图像，第二幅图是现有技术定位识别的结果，第三幅图是本方法第一定位图，第四幅图是本方法的结果定位图。具体而言，在图6中，本发明方法的定位图可以高亮显示更大和完整的目标区域，以生成更精确的边界框，而现有技术只能找到个别目标，本发明方法可以找到同一动物的每个目标。图7中，本发明方法成功地定位了整个区域，如鸟类的喙部和身体的颜色，比现有技术突出了更完整的主体。图8中，本方法生成的阈值分割图和最终生成的带有矩形包围框的识别图，突出显示了更完整的识别区域，每一个目标都可以找到，而现有技术没有做到。

在利用ILSVRC 2016图集测试时，本发明方法的定位误差为48.65％，较之前的结果高出2.75％。在利用PASCAL VOC 2012图集测试时，本发明方法实现了最高的定位精度0.43。即使对于cub200-2011数据集，本发明方法仍然取得了有竞争力的结果。

在现实世界中，从不同的角度和距离看物体时，物体的外观会有很大的差异。这意味着这些物体的多次出现将对分类预测结果产生不同的影响，特别是当它们以不同的大小出现时。在这种情况下，我们发现在特征权重图中存在多个局部极大值，特别是当一些相似的对象同时出现时，由于这些对象在某些方面具有相似的特性，所以它们代表了对激活神经元的不同程度的响应。另一方面，小目标的响应相对于大目标较弱，但与局部背景相比仍然有较强的差异性，梯度权值的全局平均会弱化小目标的局部最大响应，而增强大部分识别区域的最大响应。

由此可见，本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型，选取其中的两个卷积层分别生成第一梯度权重图和第一定位图，第二梯度权重图和对应的第二定位图，第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的结果定位图，再对结果定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题，具有较高的定位精度，可以挖掘出更完整的目标区域。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于弱监督学习的目标定位方法，其特征在于，包括以下步骤：

步骤一，对于一个训练好的卷积神经网络模型，选取其中的一个卷积层输出的特征图计算对应的梯度图，再对该梯度图计算高阶偏导，生成对应的第一梯度权重图；

步骤二，用滑动窗口在第一梯度权重图遍历所有值，搜索局部最大值，再对所有的局部最大值取线性平均作为特征图的权重，然后计算特征图的权重的加权和，生成对应的第一定位图；

步骤三，选取所述卷积神经网络模型的另一个卷积层，重复前述步骤一和步骤二的方法，得到第二梯度权重图和对应的第二定位图；

步骤四，将第二定位图或第一定位图进行上采样变换，使得第二定位图和第一定位图大小相同，然后逐像素相加后生成最终的结果定位图；

步骤五，再对结果定位图进行阈值分割操作，利用边缘寻找算法，最终对单个或多个目标物体生成用于目标定位的矩形包围框。

2.根据权利要求1所述的基于弱监督学习的目标定位方法，其特征在于，在步骤一中，经过一次前向传播预测出类别c的得分向量S_c，输入图像I是矢量形式，W_c和b_c分别代表权重矩阵和偏移量，则有：

S_c(I)＝W_c ^TI+b_c

通过一阶泰勒展开把S_c看做I的线性函数，即：

S_c(I)≈W_c ^TI+b_c

3.根据权利要求2所述的基于弱监督学***均池化操作后的线性组合，A_lj ^k代表在该卷积层第k个特征图A^k第l行、第j列对应像素的梯度，K表示在该卷积层中有K个特征图，L、J表示特征图A^k的长和宽，则有：

4.根据权利要求2所述的基于弱监督学习的目标定位方法，其特征在于，在反向传播的过程中经过relu层时，在该relu层得到每个特征图对应的梯度权重图，

代表预测为类别c的情况下A^k对应的权重：

5.根据权利要求3所述的基于弱监督学***均average(l_m_arr)，进而得到权重

再由权重

计算权重加权和

而得到第一定位图

6.根据权利要求5所述的基于弱监督学习的目标定位方法，其特征在于，步骤一和步骤二中对应的卷积层为卷积神经网络模型VGG16的第五级卷积层，步骤三中对应的卷积层为卷积神经网络模型VGG16的第四级卷积层。

7.根据权利要求6所述的基于弱监督学习的目标定位方法，其特征在于，在步骤二中，基于第五级卷积层的特征图大小是14*14,使用大小为3*3、步长为1的滑动窗口遍历第一梯度权重图，判断每个像素是否为局部最大值，如果滑动窗口中央的值大于或等于周围8个值，则该像素属于局部最大值，否则忽略不计,最终计算512个特征图的加权和，生成14*14的第一定位图。

8.根据权利要求7所述的基于弱监督学习的目标定位方法，其特征在于，在步骤三中，基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第二梯度权重图，判断每个像素是否为局部最大值，如果滑动窗口中央的值大于或等于周围24个值，则该像素属于局部最大值，否则忽略不计，最终计算512个特征图的加权和，生成28*28的第二定位图。

9.根据权利要求8所述的基于弱监督学习的目标定位方法，其特征在于，将第一定位图上采样到像素28*28，然后与第二定位图逐像素相加后生成最终的结果定位图。