CN111008630A - 一种基于弱监督学习的目标定位方法 - Google Patents

一种基于弱监督学习的目标定位方法 Download PDF

Info

Publication number
CN111008630A
CN111008630A CN201911310802.1A CN201911310802A CN111008630A CN 111008630 A CN111008630 A CN 111008630A CN 201911310802 A CN201911310802 A CN 201911310802A CN 111008630 A CN111008630 A CN 111008630A
Authority
CN
China
Prior art keywords
positioning
map
graph
pixel
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911310802.1A
Other languages
English (en)
Inventor
于海玉
薛均晓
徐明亮
吕培
姜晓恒
郭毅博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201911310802.1A priority Critical patent/CN111008630A/zh
Publication of CN111008630A publication Critical patent/CN111008630A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型,选取其中的两个卷积层分别生成第一梯度权重图和第一定位图,第二梯度权重图和对应的第二定位图,第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的结果定位图,再对结果定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题,具有较高的定位精度,可以挖掘出更完整的目标区域。

Description

一种基于弱监督学习的目标定位方法
技术领域
本发明涉及深度学习和计算机视觉技术领域,尤其涉及一种基于弱监督学习的目标定位方法。
背景技术
通过弱监督定位识别图像中的目标对象是计算机视觉技术领域研究的一个重要问题。现有的许多弱监督目标定位方法都是利用深度卷积神经网络得到的特征图来估计识别度最高的区域,即只定位识别度最高的目标对象或者其中的一部分。然而,当一个图像包含具有相同类型的多个目标时或者包括多个小目标对象时,现有技术中的方法常常是难以有效确定目标对象。
发明内容
本发明主要解决的技术问题是提供一种基于弱监督学习的目标定位方法,解决现有技术中针对图像具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题,以及对应解决对图像中同种类的形状各异的多个目标物体进行定位检测时成本高、速度慢、准确率低、鲁棒性低的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种基于弱监督学习的目标定位方法,包括以下步骤:
步骤一,对于一个训练好的卷积神经网络模型,选取其中的一个卷积层输出的特征图计算对应的梯度图,再对该梯度图计算高阶偏导,生成对应的第一梯度权重图;步骤二,用滑动窗口在第一梯度权重图遍历所有值,搜索局部最大值,再对所有的局部最大值取线性平均作为特征图的权重,然后计算特征图的权重的加权和,生成对应的第一定位图;步骤三,选取所述卷积神经网络模型的另一个卷积层,重复前述步骤一和步骤二的方法,得到第二梯度权重图和对应的第二定位图;步骤四,将第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的结果定位图;步骤五,再对结果定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成用于目标定位的矩形包围框。
优选的,在步骤一中,经过一次前向传播预测出类别c的得分向量Sc,输入图像I是矢量形式,Wc和bc分别代表权重矩阵和偏移量,则有:
Sc(I)=Wc TI+bc
通过一阶泰勒展开把Sc看做I的线性函数,即:
Sc(I)≈Wc TI+bc
再将预测类别得分向量对应的梯度设置为1,其余的为0,使用反向传播算法对输入图像求导,得到图像中每个像素的梯度w:
Figure BDA0002324472900000021
w是得分向量Sc在像素点I0处对图像I的偏导,导数的大小代表对输入图像扰动时,每个像素对最终预测结果的影响程度。
优选的,最终预测类别c的得分向量Yc被看做是最后一个卷积层中特征图A经过全局平均池化操作后的线性组合,Alj k代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度,K表示在该卷积层中有K个特征图,L、J表示特征图Ak的长和宽,则有:
Figure BDA0002324472900000022
Figure BDA0002324472900000023
代表预测为类别c的情况下特征图Ak对应的权重,Z代表特征图Ak的像素个数,则权重为:
Figure BDA0002324472900000024
优选的,在反向传播的过程中经过relu层时,在该relu层得到每个特征图对应的梯度权重图,
Figure BDA0002324472900000031
代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度的权重,L、J表示特征图Ak的长和宽,
Figure BDA0002324472900000032
代表预测为类别c的情况下Ak对应的权重:
Figure BDA0002324472900000033
优选的,对于类别为c的特征图Ak的梯度权重图Glj kc,包括其中的每一个像素对应的梯度的权重αlj kc∈Glj kc,提供数组l_m_arr,定义尺寸为W×W的滑动窗口最大值滤波器Max_Filter,设置滑动窗的步长为N;对第一梯度权重图Glj kc进行遍历,如果有αlj kc=Max_Filter(Glj kc)并且αlj kc>0,则把对应的αlj kc放入数组l_m_arr;继续按步长N滑动该最大值滤波器直到遍历完该梯度权重图Glj kc;最终对数组l_m_arr中存入的数值求平均average(l_m_arr),进而得到权重
Figure BDA0002324472900000034
再由权重
Figure BDA0002324472900000035
计算权重加权和
Figure BDA0002324472900000036
而得到第一定位图
Figure BDA0002324472900000037
优选的,步骤一和步骤二中对应的卷积层为卷积神经网络模型VGG16的第五级卷积层,步骤三中对应的卷积层为卷积神经网络模型VGG16的第四级卷积层。
优选的,在步骤二中,基于第五级卷积层的特征图大小是14*14,使用大小为3*3、步长为1的滑动窗口遍历第一梯度权重图,判断每个像素是否为局部最大值,如果滑动窗口中央的值大于或等于周围8个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成14*14的第一定位图。
优选的,在步骤三中,基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第二梯度权重图,判断每个像素是否为局部最大值,如果滑动窗口中央的值大于或等于周围24个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成28*28的第二定位图。
优选的,将第一定位图上采样到像素28*28,然后与第二定位图逐像素相加后生成最终的结果定位图。
本发明的有益效果是:本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型,选取其中的两个卷积层分别生成第一梯度权重图和第一定位图,第二梯度权重图和对应的第二定位图,第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的结果定位图,再对结果定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题,具有较高的定位精度,可以挖掘出更完整的目标区域。
附图说明
图1是根据本发明基于弱监督学习的目标定位方法一实施例的组成示意图;
图2是根据本发明基于弱监督学习的目标定位方法另一实施例中的工作原理流程图;
图3是根据本发明基于弱监督学习的目标定位方法另一实施例中卷积层选取对比图;
图4是根据本发明基于弱监督学习的目标定位方法另一实施例中滑动窗口尺寸选择对比图;
图5是根据本发明基于弱监督学习的目标定位方法另一实施例中分割和矩形框标注图;
图6、图7和图8分别是根据本发明基于弱监督学习的目标定位方法另一实施例与现有技术方法对比定位效果图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1分别给出了本发明基于弱监督学习的目标定位方法对应的网络***实施例,在图1所示的网络体系中包括一个由5级卷积层级联的VGG16网络,在该网络中第一级卷积层输出的特征图是像素为256*256特征图,第二级卷积层输出的特征图是像素为112*112特征图,第三级卷积层输出的特征图是像素为56*56特征图,第四级卷积层输出的特征图是像素为28*28特征图,第五级卷积层输出的特征图是像素为14*14特征图。
进一步可以看出,对第五级卷积层的特征图求取梯度权重图,然后对特征图求得权重和得到第一定位图;同样,对第四级卷积层的特征图求取梯度权重图,然后对特征图求得权重和得到第二定位图;第一定位图经过上采样后与第二定位图的像素大小相同,因此逐个像素相加后既可以得到结构定位图。
图1演示了本发明方法的架构,首先,我们在单个卷积层中采用判别区域发现策略来寻找所选梯度权重映射的多个不同局部最大值。对这些局部极大值信息求平均值,从而对特征图进行加权,这与以前的方法不同。这些多比例尺的定位图是由加权和生成的,其中包含了互补的有意义的信息,较小的定位图突出了较大目标对象的完整区域,较大的定位图突出了目标对象特别是小对象的更多细节。然后将来自不同卷积层的定位图融合在一起,以挖掘更多的目标,即使是小目标。特别是第四级卷积层以边缘和空间信息的形式表示了整体目标,特别是小目标的互补,而第五级卷积层的空间信息只关注大目标中最具识别性的部分。
优选的,本发明方法适用的卷积神经网络包括VGG网络,如上述VGG16网络,也包括ResNet网络,如具体是ResNet-101网络。
图2是本发明基于弱监督学习的目标定位方法对应的流程图,其中包括步骤:
步骤一S101,对于一个训练好的卷积神经网络模型,选取其中的一个卷积层输出的特征图计算对应的梯度图,再对该梯度图计算高阶偏导,生成对应的第一梯度权重图;
步骤二S102,用滑动窗口在第一梯度权重图遍历所有值,搜索局部最大值,再对所有的局部最大值取线性平均作为特征图的权重,然后计算特征图的权重的加权和,生成对应的第一定位图;
步骤三S103,选取所述卷积神经网络模型的另一个卷积层,重复前述步骤一和步骤二的方法,得到第二梯度权重图和对应的第二定位图;
步骤四S104,将第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的定位图;
步骤五S105,再对定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成矩形包围框。
优选的,结合图1所示实施例,在步骤一S101中,优选对VGG16第五级卷积层输出的特征图计算对应的梯度图,再对该梯度图计算高阶偏导,生成对应的第一梯度权重图。
优选的,向图1所示的卷积神经网络输入一张图片I,经过一次前向传播可以预测出类别c的得分向量Sc。图像I是矢量形式,Wc和bc分别代表权重矩阵和偏移量。
Sc(I)=Wc TI+bc
在深度卷积网络中,Sc是对于I的高度非线性函数,但是我们可以通过一阶泰勒展开把Sc看做I的线性函数,即:
Sc(I)≈Wc TI+bc
由此,我们将预测类别得分向量对应的梯度设置为1,其余的为0,再使用反向传播算法对输入图像求导,得到图像中每个像素的梯度w:
Figure BDA0002324472900000071
w是得分向量Sc在像素点I0处对图像I的偏导,导数的大小代表对输入图像扰动时,每个像素对最终预测结果的影响程度。结合图1,由此可以实现对第五级卷积层输出的特征图计算对应的梯度图。
优选的,在卷积神经网络中存在着一个基本假设,最终预测类别c的得分向量Yc可以被看做是最后一个卷积层中特征图A经过全局平均池化操作后的线性组合。Alj k代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度,K表示在该卷积层中有K个特征图,L、J表示特征图Ak的长和宽,则有:
Figure BDA0002324472900000072
这里的
Figure BDA0002324472900000073
代表预测为类别c的情况下特征图Ak对应的权重,Z代表特征图Ak的像素个数,则有:
Figure BDA0002324472900000074
由此实现了对梯度图计算高阶偏导,生成对应的第一梯度权重图。
进一步优选的,对于
Figure BDA0002324472900000075
还可以有另外的计算方法,可以反向传播至任意一个中间卷积层,相当于对于中间卷积层的特征图的可视化。该中间卷积层的每个特征图都有对应的梯度图,梯度较大的像素对应了目标物体在图像中的位置。我们进一步通过高阶求导计算梯度的权重,在反向传播的过程中经过relu层时,我们只关注对预测结果有积极影响的像素。在该relu层得到每个特征图对应的梯度权重图,这些梯度权重图可以看作为分类神经网络的每个神经元做决定的依据。
Figure BDA0002324472900000076
代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度的权重,L、J表示特征图Ak的长和宽,
Figure BDA0002324472900000077
代表预测为类别c的情况下Ak对应的权重:
Figure BDA0002324472900000081
优选的,对于类别为c的特征图Ak的梯度权重图Glj kc,包括其中的每一个像素对应的梯度权重αlj kc∈Glj kc,提供数组l_m_arr,定义尺寸为W×W的滑动窗口最大值滤波器Max_Filter,设置滑动窗的步长为N;接下来对梯度权重图Glj kc进行遍历,如果有αlj kc=Max_Filter(Glj kc)并且αlj kc>0,则把对应的αlj kc放入数组l_m_arr;继续按步长N滑动该滤波器直到遍历完该梯度权重图Glj kc;最终对数组l_m_arr中存入的数值求平均average(l_m_arr),进而得到权重
Figure BDA0002324472900000082
再由权重
Figure BDA0002324472900000083
计算权重加权和
Figure BDA0002324472900000084
而得到第一定位图
Figure BDA0002324472900000085
优选的,基于图1,在步骤二S102中,基于第五级卷积层的特征图大小是14*14,优选使用大小为3*3、步长为1的滑动窗口遍历7*7的第一梯度权重图,判断每个像素是否为局部最大值,如果滑动窗口中央的值大于或等于周围8个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成14*14的第一定位图。
进一步的,在步骤三S103中,选取所述卷积神经网络模型VGG16的第四级卷积层输出的特征图计算对应的梯度图,再对该梯度图计算高阶偏导,生成对应的第二梯度权重图,具体的方法同上,这里不再赘述;基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第一梯度权重图,判断每个像素是否为局部最大值,如果窗口中央的值大于或等于周围24个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成28*28的第二定位图。
通过上述方法得到的梯度权重图的权值更有效,可以获得多个对象特别是小对象的完整区域。第四级卷积层和第五级卷积层生成的定位图最终可以融合成一个具有鲁棒性的结果定位图,不同大小的多个目标可以更好地定位在该结果定位图上。
进一步的,在步骤一S103中,若选取所述卷积神经网络模型VGG16的第三级卷积层输出的特征图计算对应的梯度权重图和定位图,则会引入噪声污染,这种噪声将会影响识别的精度,因此这里舍弃了对第三级卷积层输出的特征图的梯度权重图计算,而是只选取第五级卷积层和第四级卷积层进行上述的梯度权重图和定位图计算。
对此还可以结合图3进一步说明,如图3所示,输入图像P1分别在第三级卷积层、第四级卷积层和第五级卷积层进行了上述步骤一和步骤二的处理,分别得到了对应的定位图,即第三定位图R1、第四定位图R2、第五定位图R3,由于第三级卷积层对应的第三定位图R1具有较大噪声特性,因此被舍弃,最终仅选择第四定位图R2和第五定位图R3输出。
进一步的,关于滑动窗口的尺寸选择本发明也进行了优化选择。我们通过测试不同大小的滑动窗口发现,较小的滑动窗口可以捕捉到小面积对象产生的局部最大值,较大的滑动窗口会丢失这些局部最大值。我们的当滑动窗口尺寸为3×3时,在第五级卷积层输出的Top-1误差表现最好,为49.81%,而当滑动窗口尺寸增大为5×5时误差会增大。第四级卷积层进行这样的滑动窗口处理时具有类似的特性,具体如图表1所示。这意味着滑动窗口越小,对梯度权重图的权值计算方法的性能越好,较大的滑动窗口会漏掉一些小对象和响应较弱的对象边缘。如图4所示,其中的输入图像I1经过第五级卷积层生成第一定位图时,当滑动窗口选择为3×3时得到的第一定位图如W1所示,当滑动窗口选择为5×5时得到的第一定位图如W2所示,显然W2比W1失去了更多的小对象和边缘信息。
表1滑动窗口尺寸对应的识别误差统计表
Figure BDA0002324472900000091
优选的,在步骤四S104中,将第一定位图上采样到像素28*28,然后与第二定位图逐像素相加后生成最终的结果定位图。
进一步的,如图5所示,输入图像M1经过上述步骤一至步骤四处理后,得到结果定位图M2,然后再对结果定位图M2进行阈值分割操作得到阈值分割图M3,利用边缘寻找算法,最终对单个目标物体或多个目标物体生成带有矩形包围框的识别图M4。
由此可见我们提出了一个弱监督对象定位方法侧重于对多个目标的完整区域的定位,即使是响应较弱的小区域,而不是识别性最强的区域,可以有效地在一个场景中定位多个目标,特别是小目标。并且,我们利用梯度权重图中的多个局部极大值,并使用新的加权特征图来定位感兴趣的区域而得到定位图,将不同尺度的特征图映射融合在一起,进一步提高了定位性能。这种策略可以建立在任何现有的卷积神经分类网络上,而不需要额外的修改。
我们提出的方法的主要目的是解决具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题。该方法具有较高的定位精度,表明在多尺度层中应用多鉴别区域发现策略可以挖掘出更完整的目标区域。图6至图8分别显示了本发明方法与现有技术方法的对比识别效果,其中对于每一行而言,左侧第一幅图表示输入的图像,第二幅图是现有技术定位识别的结果,第三幅图是本方法第一定位图,第四幅图是本方法的结果定位图。具体而言,在图6中,本发明方法的定位图可以高亮显示更大和完整的目标区域,以生成更精确的边界框,而现有技术只能找到个别目标,本发明方法可以找到同一动物的每个目标。图7中,本发明方法成功地定位了整个区域,如鸟类的喙部和身体的颜色,比现有技术突出了更完整的主体。图8中,本方法生成的阈值分割图和最终生成的带有矩形包围框的识别图,突出显示了更完整的识别区域,每一个目标都可以找到,而现有技术没有做到。
在利用ILSVRC 2016图集测试时,本发明方法的定位误差为48.65%,较之前的结果高出2.75%。在利用PASCAL VOC 2012图集测试时,本发明方法实现了最高的定位精度0.43。即使对于cub200-2011数据集,本发明方法仍然取得了有竞争力的结果。
在现实世界中,从不同的角度和距离看物体时,物体的外观会有很大的差异。这意味着这些物体的多次出现将对分类预测结果产生不同的影响,特别是当它们以不同的大小出现时。在这种情况下,我们发现在特征权重图中存在多个局部极大值,特别是当一些相似的对象同时出现时,由于这些对象在某些方面具有相似的特性,所以它们代表了对激活神经元的不同程度的响应。另一方面,小目标的响应相对于大目标较弱,但与局部背景相比仍然有较强的差异性,梯度权值的全局平均会弱化小目标的局部最大响应,而增强大部分识别区域的最大响应。
由此可见,本发明公开了一种基于弱监督学习的目标定位方法。该方法包括对于一个训练好的卷积神经网络模型,选取其中的两个卷积层分别生成第一梯度权重图和第一定位图,第二梯度权重图和对应的第二定位图,第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的结果定位图,再对结果定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成用于目标定位的矩形包围框。该方法有效解决了具有相同类别的多个目标或只给出图像级标签的图像中的小目标的定位问题,具有较高的定位精度,可以挖掘出更完整的目标区域。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于弱监督学习的目标定位方法,其特征在于,包括以下步骤:
步骤一,对于一个训练好的卷积神经网络模型,选取其中的一个卷积层输出的特征图计算对应的梯度图,再对该梯度图计算高阶偏导,生成对应的第一梯度权重图;
步骤二,用滑动窗口在第一梯度权重图遍历所有值,搜索局部最大值,再对所有的局部最大值取线性平均作为特征图的权重,然后计算特征图的权重的加权和,生成对应的第一定位图;
步骤三,选取所述卷积神经网络模型的另一个卷积层,重复前述步骤一和步骤二的方法,得到第二梯度权重图和对应的第二定位图;
步骤四,将第二定位图或第一定位图进行上采样变换,使得第二定位图和第一定位图大小相同,然后逐像素相加后生成最终的结果定位图;
步骤五,再对结果定位图进行阈值分割操作,利用边缘寻找算法,最终对单个或多个目标物体生成用于目标定位的矩形包围框。
2.根据权利要求1所述的基于弱监督学习的目标定位方法,其特征在于,在步骤一中,经过一次前向传播预测出类别c的得分向量Sc,输入图像I是矢量形式,Wc和bc分别代表权重矩阵和偏移量,则有:
Sc(I)=Wc TI+bc
通过一阶泰勒展开把Sc看做I的线性函数,即:
Sc(I)≈Wc TI+bc
再将预测类别得分向量对应的梯度设置为1,其余的为0,使用反向传播算法对输入图像求导,得到图像中每个像素的梯度w:
Figure FDA0002324472890000011
w是得分向量Sc在像素点I0处对图像I的偏导,导数的大小代表对输入图像扰动时,每个像素对最终预测结果的影响程度。
3.根据权利要求2所述的基于弱监督学***均池化操作后的线性组合,Alj k代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度,K表示在该卷积层中有K个特征图,L、J表示特征图Ak的长和宽,则有:
Figure FDA0002324472890000021
Figure FDA0002324472890000026
代表预测为类别c的情况下特征图Ak对应的权重,Z代表特征图Ak的像素个数,则权重为:
Figure FDA0002324472890000022
4.根据权利要求2所述的基于弱监督学习的目标定位方法,其特征在于,在反向传播的过程中经过relu层时,在该relu层得到每个特征图对应的梯度权重图,
Figure FDA0002324472890000027
代表在该卷积层第k个特征图Ak第l行、第j列对应像素的梯度的权重,L、J表示特征图Ak的长和宽,
Figure FDA0002324472890000028
代表预测为类别c的情况下Ak对应的权重:
Figure FDA0002324472890000023
5.根据权利要求3所述的基于弱监督学***均average(l_m_arr),进而得到权重
Figure FDA0002324472890000029
再由权重
Figure FDA00023244728900000210
计算权重加权和
Figure FDA0002324472890000024
而得到第一定位图
Figure FDA0002324472890000025
6.根据权利要求5所述的基于弱监督学习的目标定位方法,其特征在于,步骤一和步骤二中对应的卷积层为卷积神经网络模型VGG16的第五级卷积层,步骤三中对应的卷积层为卷积神经网络模型VGG16的第四级卷积层。
7.根据权利要求6所述的基于弱监督学习的目标定位方法,其特征在于,在步骤二中,基于第五级卷积层的特征图大小是14*14,使用大小为3*3、步长为1的滑动窗口遍历第一梯度权重图,判断每个像素是否为局部最大值,如果滑动窗口中央的值大于或等于周围8个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成14*14的第一定位图。
8.根据权利要求7所述的基于弱监督学习的目标定位方法,其特征在于,在步骤三中,基于第四级卷积层的特征图大小是28*28,使用大小为5*5、步长为1的滑动窗口遍历第二梯度权重图,判断每个像素是否为局部最大值,如果滑动窗口中央的值大于或等于周围24个值,则该像素属于局部最大值,否则忽略不计,最终计算512个特征图的加权和,生成28*28的第二定位图。
9.根据权利要求8所述的基于弱监督学习的目标定位方法,其特征在于,将第一定位图上采样到像素28*28,然后与第二定位图逐像素相加后生成最终的结果定位图。
CN201911310802.1A 2019-12-18 2019-12-18 一种基于弱监督学习的目标定位方法 Pending CN111008630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310802.1A CN111008630A (zh) 2019-12-18 2019-12-18 一种基于弱监督学习的目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310802.1A CN111008630A (zh) 2019-12-18 2019-12-18 一种基于弱监督学习的目标定位方法

Publications (1)

Publication Number Publication Date
CN111008630A true CN111008630A (zh) 2020-04-14

Family

ID=70116826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310802.1A Pending CN111008630A (zh) 2019-12-18 2019-12-18 一种基于弱监督学习的目标定位方法

Country Status (1)

Country Link
CN (1) CN111008630A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132732A (zh) * 2020-09-10 2020-12-25 宁波大学科学技术学院 立体图像的像素预测方法、可逆信息隐藏提取方法、终端及存储介质
CN112287999A (zh) * 2020-10-27 2021-01-29 厦门大学 利用卷积神经网络矫正梯度的弱监督目标定位方法
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859238A (zh) * 2019-03-14 2019-06-07 郑州大学 一种基于多特征最优关联的在线多目标跟踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859238A (zh) * 2019-03-14 2019-06-07 郑州大学 一种基于多特征最优关联的在线多目标跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A. CHATTOPADHAY ET AL.: "Grad-CAM++: Generalized Gradient-Based Visual Explanations for Deep Convolutional Networks", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
PEI LV ET AL.: "Multi-scale discriminative Region Discovery for Weakly-Supervised Object Localization", 《HTTPS://ARXIV.ORG/ABS/1909.10698》 *
R. R. SELVARAJU ET AL.: "Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
X. ZHANG ET AL.: "Adversarial Complementary Learning for Weakly Supervised Object Localization", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132732A (zh) * 2020-09-10 2020-12-25 宁波大学科学技术学院 立体图像的像素预测方法、可逆信息隐藏提取方法、终端及存储介质
CN112132732B (zh) * 2020-09-10 2023-06-02 宁波大学科学技术学院 立体图像的像素预测方法、可逆信息隐藏提取方法、终端及存储介质
CN112287999A (zh) * 2020-10-27 2021-01-29 厦门大学 利用卷积神经网络矫正梯度的弱监督目标定位方法
CN112287999B (zh) * 2020-10-27 2022-06-14 厦门大学 利用卷积神经网络矫正梯度的弱监督目标定位方法
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法

Similar Documents

Publication Publication Date Title
CN106570453B (zh) 用于行人检测的方法、装置和***
CN105225226B (zh) 一种基于图像分割的级联可变形部件模型目标检测方法
CN110033473B (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN107423702B (zh) 基于tld跟踪***的视频目标跟踪方法
CN112750148B (zh) 一种基于孪生网络的多尺度目标感知跟踪方法
CN105809672B (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN111476302A (zh) 基于深度强化学习的Faster-RCNN目标物体检测方法
CN111008630A (zh) 一种基于弱监督学习的目标定位方法
CN108961180B (zh) 红外图像增强方法及***
CN113505670B (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110245587B (zh) 一种基于贝叶斯迁移学习的光学遥感图像目标检测方法
CN110008900A (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
Bria et al. An effective learning strategy for cascaded object detection
CN108460336A (zh) 一种基于深度学习的行人检测方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN110349176B (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和***
CN116310688A (zh) 基于级联融合的目标检测模型及其构建方法、装置及应用
Vora et al. Iterative spectral clustering for unsupervised object localization
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
Ataş Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images
CN112991394A (zh) 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200414