CN114648665A - 一种弱监督目标检测方法及*** - Google Patents

一种弱监督目标检测方法及*** Download PDF

Info

Publication number
CN114648665A
CN114648665A CN202210302852.0A CN202210302852A CN114648665A CN 114648665 A CN114648665 A CN 114648665A CN 202210302852 A CN202210302852 A CN 202210302852A CN 114648665 A CN114648665 A CN 114648665A
Authority
CN
China
Prior art keywords
image
box
module
target
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210302852.0A
Other languages
English (en)
Inventor
马文萍
李腾武
朱浩
武越
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210302852.0A priority Critical patent/CN114648665A/zh
Publication of CN114648665A publication Critical patent/CN114648665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种弱监督目标检测方法及***,在仅有图像类别的标注情况下,训练一个目标检测器,对图片中的目标进行检测,本发明可以节省标注信息耗费的大量人力、物力和财力。在先验框的生成部分,将选择性搜索算法和梯度加权类激活映射方法相结合,以生成更好的先验框,同时,在检测器的优化迭代过程中,加入了低层特征的监督信息,引入似物度的概念,用来衡量先验框内的目标是完整目标的程度。解决当前弱监督目标检测方法易陷入局部最优的痛点,使网络在没有目标边界框信息监督的情况下,倾向于选择覆盖住整个目标的先验框。本发明网络提高了弱监督目标检测的性能,可用于自动驾驶、智能安防等领域;实验结果表明,具有良好的竞争性能。

Description

一种弱监督目标检测方法及***
技术领域
本发明属于计算机视觉图像处理技术领域,具体涉及一种弱监督目标检测方法及***。
背景技术
弱监督目标检测的目的是在仅有图像类别(image level)的标注情况下,训练一个目标检测器,它不同于需要实例级别(instance level,需要标注图像中物体的最大外接矩形的中心坐标、高和宽)标注的全监督目标检测。标注实例级别的信息需要耗费大量的人力、物力和财力。然而,带有图像类别的标注成本显而易见较低,且我们还可以从网络搜索引擎、社交媒体等中爬取大量的带有类别标注的图片。大量的训练数据能提升目标检测性能,显然,这些廉价且易得的仅有类别标注的图片对于目标检测领域来说是一件好事。因此,使用弱监督的方式来学习目标检测器已经受到学术界越来越多的关注,并且这也是工业界目前迫切的需求。
现阶段的弱监督目标检测通常基于多示例MIL(Multiple Instance Learning)的流程,这就会导致弱监督目标检测容易陷入局部最优解的问题,集体来说,由于缺少实例级别的约束,使用图像类别级别的约束会造成弱监督目标检测仅关注局部区域,因为分类仅需要局部信息就够了(例如,对于一张图片里的人或者猫,分类器仅需要关注他们的脸部),而检测的目标是能够精确地定位出物体的最大外接矩形,这就是分类和检测之间的鸿沟。这个局部聚焦问题在有较大类内差异的物体检测上问题尤其严重,这些类别一般包括人、动物这些非刚性多姿态的物体,因为这类物体一般具有某些不变的表观,如脸部。
同时由于没有实例级别的矩形标注信息,现阶段的方法都采用大量的物体提议框(object proposals)来保证召回率,这样会导致提议框中带有大量的噪音(物体的一小部分、背景等),不仅会导致训练不稳定,还消耗大量的GPU运算资源。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种弱监督目标检测方法及***,在进入MIL多示例学习之前,首先对由传统方法SS(Selective Search)产生的提议框进行筛选,筛选得到高质量的提议框送入后面的多示例学习流程,然后在多示例学习过程中,在原有图像级标签监督信息的基础上,添加低层次(颜色、纹理等)的监督信息来更好的对网络进行训练,从而提高网络的检测精度。
本发明采用以下技术方案:
一种弱监督目标检测方法,包括以下步骤:
S1、读取图像数据和图像级标签,图像级标签为只有图像中物体类别的图像级分类标签,并将图像数据分为训练数据集和测试数据集;
S2、在步骤S1读取的训练数据集中使用选择性搜索算法产生候选框,然后通过基于梯度加权类激活映射方法生成高质量的物体提议框;
S3、将步骤S1读取的训练数据集输入VGG16卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
S4、将步骤S1读取到的图像级标签和步骤S3得到的特征矩阵一一对应,进行多示例学习,构建MIL检测器;
S5、向步骤S2得到的物体提议框中加入低层次监督信息,并建立实例分类器进行优化迭代,将得分最高的提议框作为伪标签训练边界框回归网络;
S6、确定步骤S4得到的MIL检测器和步骤S5得到的边界框回归网络的损失函数;
S7、调整步骤S6中边界框回归网络的超参数,得到弱监督检测模型;
S8、利用步骤S1得到的训练数据集对步骤S7中得到的弱监督检测模型进行训练,得到训练好的弱监督检测模型;
S9、在步骤S1得到的测试数据集使用选择性搜索算法产生候选框,然后利用步骤S8训练好的弱监督检测模型对候选框进行分类和边界框回归,得到最终的目标检测框。
具体的,步骤S2中,首先使用一阶段的图像级别分类器预测每张测试图像中得分最高的n个潜在物体类别,然后使用二阶段提议框级别分类器获得用于检测的最终提议框,一阶段的损失函数如下:
Figure BDA0003566205320000031
其中,C是图像类别的总数,yi是第i张图像的标签,Pi是第i个sigmoid分类器的预测结果。
具体的,步骤S4具体为:
S401、对于给定的图像和其对应的标签,通过步骤S2得到一系列物体提议框;然后将物体提议框送入分类数据流和检测数据流,分别通过两个全连接层得到两个数据矩阵;两个数据矩阵分别通过两个softmax运算器产生每个提议框的分类分数和检测分数;
S402、将步骤S401得到的分类分数和检测分数进行element-wise乘积,得到最终的提议框得分,将所有建议框的得分在R的维度上进行相加,得到每个类别的图像级预测分数。
进一步的,步骤S402中,MIL检测器的损失函数为:
Figure BDA0003566205320000032
其中,Pc为第c个类别的图像级预测分数,yc为图像的标签。
具体的,步骤S5具体为:
S501、在MIL检测器的基础上建立K个实例分类器,计算提议框r的低层特征的似物度Obu(r),将似物度Obu(r)和上一个分类器得到的类别得分
Figure BDA0003566205320000041
进行加权相加,将相加后得分高的提议框作为具有完整物体目标的提议框,将前n个得分高的提议框作为下一次迭代训练实例分类器时的伪监督信息,共迭代K次训练K个实例分类器;
S502、在K个实例分类器后面连接一个边界框回归器,边界框回归器的目标是对每一个框都输出一个修正值,分别修正x,y,w,h四个参数。
进一步的,步骤S501中,迭代训练K个实例分类器的损失函数
Figure BDA0003566205320000042
为:
Figure BDA0003566205320000043
其中,R为步骤3中产生的提议框的个数,
Figure BDA0003566205320000044
为每个提议框的损失权重,CE为交叉熵损失函数,
Figure BDA0003566205320000045
代表第r个提议框的C+1个类别的分类概率,
Figure BDA0003566205320000046
是其分类标签。
进一步的,步骤S503中,生成伪监督信息和正样本框具体为:S5031、基于k-1分支的类别概率
Figure BDA0003566205320000047
对proposal的集合R进行NMS,阈值是预定义的Tnms,NMS过后的框的集合记为Rkeep
S5032、对每个类别c,如果
Figure BDA0003566205320000048
在步骤S5031得到的集合Rkeep中搜索类别得分高于Tconf的proposal,然后赋予标签c,如果没有框满足的话,给最高得分赋予标签c,找到的所有框记为Rseek
S5033、对每个找到的proposal,在R中找对应的邻居,并标注为Rneighbor
S5034、将步骤S5032得到的Rseek和步骤S5033Rneighbor合并得到正样本框。
具体的,步骤S6中,总体网络总的损失函数L为:
Figure BDA0003566205320000049
其中,Lbase为MIL检测器的损失函数,λ1为K个实例分类器的损失权重,K为实例分类器的个数,
Figure BDA00035662053200000410
为第k个实例分类器的损失函数,λ2为边界框回归器的损失权重,Lbox为边界框回归器的损失函数。
具体的,步骤S7中,对超参数进行调整具体为:
特征提取阶段使用VGG16网络;实例分类器检测器的损失权重λ1=1,实例分类器的个数K=3,边界框回归网络的损失权重λ2=0.3;NMS的阈值Tnms=0.3,,,Tconf=0.7,Tiou=0.5;网络训练时,初始学习率为0.001,学习率衰减为0.0005,总迭代次数为200000。
本发明的另一技术方案是,一种弱监督目标检测***,包括:
读取模块,读取图像数据和图像级标签,图像级标签为只有图像中物体类别的图像级分类标签,并将图像数据分为训练数据集和测试数据集;
加权模块,在读取模块读取的训练数据集中使用选择性搜索算法产生候选框,然后通过基于梯度加权类激活映射方法生成高质量的物体提议框;
矩阵模块,将读取模块读取的训练数据集输入VGG16卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
学习模块,将读取模块读取到的图像级标签和步骤S3得到的特征矩阵一一对应,进行多示例学习,构建MIL检测器;
迭代模块,向加权模块得到的物体提议框中加入低层次监督信息,并建立实例分类器进行优化迭代;将得分最高的提议框作为伪标签训练边界框回归网络;
函数模块,确定学习模块得到的MIL检测器和迭代模块得到的边界框回归网络的损失函数;
调整模块,调整函数模块中边界框回归网络的超参数,得到弱监督检测模型;
训练模块,利用读取模块得到的训练数据集对调整模块中得到的弱监督检测模型进行训练,得到训练好的弱监督检测模型;
检测模块,在读取模块得到的测试数据集使用选择性搜索算法产生候选框,然后利用训练模块训练好的弱监督检测模型对候选框进行分类和边界框回归,得到最终的目标检测框。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种弱监督目标检测方法,通过每一个阶段对提议框逐步筛选,产生能够框出物体整个部分的提议框作为伪监督信息,监督最终的边界框回归网络,提高目标检测的精度,通过在MIL检测器之前通过Grad-CAM技术进行提议框的生成,得到一系列高质量(覆盖目标更加完全)的提议框,有利于后续检测器的检测,改善传统方法易陷入局部最优的缺陷;在迭代优化过程中加入低层次特征的监督,引入似物度的概念,筛选出内部包含完整目标的的提议框,并生成伪标签对后续迭代过程进行监督,改善了现有方法只框住目标局部的缺点,提高了检测的精度。
进一步的,在步骤S2中,通过基于梯度加权类激活映射方法对由选择性搜索算法产生的候选框进行筛选,筛选得到的提议框靠近物体目标,降低了后面训练MIL检测器时的噪声和干扰。
进一步的,在步骤S4中,构建MIL分类器,在只有图像级标签,缺少实例级标签的情况下,对每张图像中的提议框正确进行了分类,大大降低了标注实例级信息所需的人力物力。
进一步的,步骤S402中MIL检测器的损失函数设置为二分类交叉熵损失,通过在训练过程中将损失进行反向传播,较好的指导了网络优化的方向,加快了训练过程。
进一步的,步骤S5通过引入低层次监督信息即图像似物度的概念,本方法能很好的从一系列提议框中筛选出框住了整个目标的提议框,解决了同期其他弱监督目标检测方法容易陷入局部最优的难题。
进一步的,步骤S501迭代训练K个实例分类器,每次迭代都进行了一次筛选,最终产生的伪监督信息质量较高。实例分类器的损失函数为交叉熵损失,较好的指导了网络优化的方向,加快了训练过程。
进一步的,步骤S503中,通过设定阈值,对提议框进行NMS处理,将重叠度大的提议框进行合并,生成伪监督信息和正样本,较好的指导了边界框回归网络的训练。
进一步的,在步骤S6中,通过整合网络不同部分(MIL分类器,K个实例分类器,边界框回归器)的损失函数,并设置不同部分的损失函数的权重,使得网络在反向传播训练时能够较快的收敛。
进一步的,通过步骤S7中对超参数的调整,设置学习率衰减,保证了训练前期的收敛快速性和训练后期的收敛稳定性。
综上所述,本发明结合深度神经网提取的高层次信息和低层次监督信息,对提议框进行了层层筛选,生成了质量较高的提议框作为目标检测的监督信息,提高了目标检测的精度;同时,网络超参数设置合理,训练过程快速稳定。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的整体设计框架;
图2为伪标签的生成过程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种弱监督目标检测方法,在仅有图像类别的标注情况下,训练一个目标检测器,对图片中的目标进行检测,本发明可以节省标注信息耗费的大量人力、物力和财力。在先验框的生成部分,将选择性搜索(Selective Search,SS)算法和梯度加权类激活映射(Grad-CAM)方法相结合,以生成更好的先验框,这些先验框与Ground Truth的交并比比贪婪搜索的方法获得的交并比更高,可以更好地覆盖整个物体。同时,在检测器的优化迭代过程中,加入了低层特征的监督信息,引入了似物度的概念,用来衡量先验框内的目标是完整目标的程度。解决了当前弱监督目标检测方法易陷入局部最优的痛点,使网络在没有目标边界框信息监督的情况下,更倾向于选择覆盖住整个目标而非目标的一部分的先验框。本发明网络提高了弱监督目标检测的性能,可用于人脸检测、行人计数、车辆检测、机器人导航、安全***等图像处理和检测的相关领域中。实验结果表明,具有良好的竞争性能。
请参阅图1,本发明一种弱监督目标检测方法,包括以下步骤:
S1、从数据集中读取图像和标签,标签是只有图像中物体类别的图像级分类标签;
S2、生成高质量提议框
图1中的part1部分是提议框的生成,结合选择性搜索(SS)和基于梯度加权类激活映射(Grad-CAM)的技术,以生成更好的提议框,这些提议框与Ground Truth的交并比(IOU)比贪婪搜索的方法获得的交并比(IOU)更高,可以更好地覆盖整个物体。
S201、使用选择性搜索算法产生大量的候选框;
S202、通过Grad-CAM来生成高质量的物体提议框。
S2021、在仅有图像级标签的情况下,训练粗分类器,用于多标签图像分类任务,其sigmoid交叉熵损失函数如下:
Figure BDA0003566205320000091
其中,C是图像类别的总数,yi是第i张图像的标签,Pi是第i个sigmoid分类器的预测结果。
S2022、对于每个包含物体类别c的图像,通过粗分类器,通过对一组卷积特征图进行加权组合,获得其针对特定类别的激活图Mc,并在其后设置ReLU函数进行激活:
Figure BDA0003566205320000092
其中,Ak是第k个卷积特征图,
Figure BDA0003566205320000093
是特征图Ak对于类别c的权重,其计算方法是将yc相对于Ak的梯度进行全局平均池化:
Figure BDA0003566205320000094
其中,yc是sigmoid前第c个分类器的得分。
对于给定输入图像的每个特定类别的激活图,首先设置10个分割阈值,在激活图的最大灰度值和所有像素的平均灰度值之间平均分布;
然后,对于每个分割阈值,从特定类别的激活图中获得一个二进制图像;
最后,用最大连通区域得到一组边界框,每个边界框都紧紧地包围着一个最大的连通区域,这些边界框就是筛选后的提议框。
通过这种方式获得大量的特定类别的对象提议框。然而,尽管高响应区域包含了物体,但它们仍然远远不能完全定位整个物体。
S2023、为了解决这个问题,进一步训练一套精细的分类器,以便在弱监督环境下更好地定位整个物体。对于一个给定的物体类别,只选择第一阶段生成的提议框,其softmax响应是最高的(或sigmoid分数为1),将其作为第二阶段的精细分类器训练的输入。这实际上是一个提议框分类任务,其损失函数如下:
Figure BDA0003566205320000101
通过重复第一阶段的操作,生成更高质量的物体提议框,比阶段一能更好地定位整个物体。
综上,首先使用一阶段的图像级别的分类器预测每张测试图像中得分最高的n个潜在物体类别,然后使用二阶段提议框级别的分类器获得用于检测的最终提议框。
S3、将整张图像输入进卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
图1中的part2部分是特征提取网络。
S4、多示例学习;
图1中的part3部分是构造MIL检测器。
S401、对于给定的图像x和其对应的标签yi=[y1,…,C],通过步骤S1得到一系列的提议框
Figure BDA0003566205320000102
其中yC=1或0表示图像中有或没有对象类别c,而C是对象类别的数量;
然后,其提议框特征(FC7的输出)被送入两个数据流,称为分类数据流和检测数据流,分别通过两个全连接层FC8c和FC8d得到两个数据矩阵xc
Figure BDA0003566205320000111
这两个数据矩阵分别通过两个softmax运算器,产生每个提议框的分类分数和检测分数,如下所示:
Figure BDA0003566205320000112
Figure BDA0003566205320000113
S402、最终的提议框得分通过两个矩阵element-wise的乘积得到xR=σcls(xc)⊙σdet(xd),其将被用于下一阶段目标检测器的优化。同时,将所有建议框的得分在R的维度上进行相加,得到第c个类别的图像级预测分数:
Figure BDA0003566205320000114
上述得分即为图像中类别c的预测得分,MIL检测器的损失函数为二分类交叉熵损失:
Figure BDA0003566205320000115
S5、加入低层次监督信息优化迭代
在卷积神经网络中,底层(bottom)的卷积层得到的信息是低级的,属于外观上的特征,如边缘、颜色、纹理等;高层(top)的卷积层之后得到的信息是高级的,属于语义上的特征,如类别这样的信息。如果只根据提议框类别的得分来给它打分,这就只考虑了高级(top-down)的语义信息。但是一个框有没有包含完整的物体不是看高级的语义信息,而是要看低级的外观信息。似物度即为衡量一个图像是物体的程度。
一个物体在图像上表现为具有明确边界和中心。因此,期望一个有完整物体的提议框比一个只框住局部的或框到背景的提议框有更高的似物度得分。因此,在本阶段中引入低层监督信息来优化迭代目标检测器。
S501、迭代训练的K个分类器
受OICR的启发,在MIL检测器的基础上建立K个实例分类器,将第k个分类器的输出作为对第(+1)个分类器的监督,并利用低层的似物度信息指导网络训练。
每个分类器由一个全连接层和一个在C+1个类别维度上的softmax层实现(背景是第0类)。对于第k个实例分类器,训练的损失函数为:
Figure BDA0003566205320000121
其中,
Figure BDA0003566205320000122
代表第r个提议框的C+1个类别的分类概率,
Figure BDA0003566205320000123
是其分类标签。
Figure BDA0003566205320000124
权重
Figure BDA0003566205320000125
基于提议框r的似物度得分来产生。
具体来说,首先计算提议框r的低层特征的似物度Obu(r),其通过衡量跨越超像素(Superpixels Straddling,SS)的程度来衡量,将其和上一个分类器得到的类别得分
Figure BDA0003566205320000126
进行加权相加:
Figure BDA0003566205320000127
Figure BDA0003566205320000128
S502、网络的最后一部分是边界框回归器,这个回归器的目标是对每一个框都输出一个修正值,分别修正x,y,w,h四个参数:
Figure BDA0003566205320000129
边界框回归器的损失函数为:
Figure BDA00035662053200001210
S503、伪监督信息和正样本框的生成。
S5031、基于k-1分支的类别概率
Figure BDA00035662053200001211
对proposal的集合R进行NMS,阈值是预定义的Tnms,NMS过后的框的集合记为Rkeep
S5032、对每个类别c(c>0,即不是背景类),如果
Figure BDA0003566205320000131
也就是说之前MIL检测器判定图像中含有c类的物体的话,就在Rkeep中搜索类别得分高于Tconf的proposal,然后给它们赋予标签c,如果没有框满足的话,就给最高得分的那个赋予标签c。找到的所有框记为Rseek
S5033、对每个找到的proposal,都在R中找它们的邻居,也就是跟它们有超过IOU阈值Tiou的proposal,把这些proposal也都记上相同的类别标签。记这些邻居proposal为Rneighbor,其他的框都视为背景。这样每个proposal就有了它们的伪类别标签;
S5034、正样本框的集合就是Rseek和Rneighbor合并起来的集合。
S6、确定总体网络(包括MIL检测器,K个实例分类器,边界框回归器)的损失函数;
Figure BDA0003566205320000132
S7、超参数的调整;
S701、λ1=1,λ2=0.3;
S702、优化迭代的检测器个数K=3;
S703、特征提取网络使用VGG16;
S704、Tnms=0.3,Tconf=0.7,Tiou=0.5
S705、初始学习率为0.001,学习率衰减为0.0005,总迭代次数为200000;处理的NMS阈值为0.3。
S8、用训练数据集对检测模型进行训练,得到训练好的检测模型;
将训练数据集的样本对(图片和其对应的图像级标签)作为检测模型的输入,训练数据集中每张图片中目标的类别、每次优化迭代proposal的位置和类别作为检测模型的输出,同时在迭代过程中生成伪标签,通过求解预测结果和标签之间的误差计算总体损失,然后通过反向传播使得误差最小,优化检测模型的网络参数,得到训练好的弱监督检测模型,如图2所示。
S9、利用训练好的模型对测试数据集进行测试。
将测试数据集作为弱监督检测模型的输入,弱监督检测模型的输出为测试数据集中目标的位置和类别,将其与测试数据集中的标签(实例级标签)进行对比,验证模型的性能。
本发明再一个实施例中,提供一种弱监督目标检测***,该***能够用于实现上述弱监督目标检测方法,具体的,该弱监督目标检测***包括读取模块、加权模块、矩阵模块、学习模块、迭代模块、函数模块、调整模块、训练模块以及检测模块。
其中,读取模块,读取图像数据和图像级标签,图像级标签为只有图像中物体类别的图像级分类标签,并将图像数据分为训练数据集和测试数据集;
加权模块,在读取模块读取的训练数据集中使用选择性搜索算法产生候选框,然后通过基于梯度加权类激活映射方法生成高质量的物体提议框;
矩阵模块,将读取模块读取的训练数据集输入VGG16卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
学习模块,将读取模块读取到的图像级标签和步骤S3得到的特征矩阵一一对应,进行多示例学习,构建MIL检测器;
迭代模块,向加权模块得到的物体提议框中加入低层次监督信息,并建立实例分类器进行优化迭代;将得分最高的提议框作为伪标签训练边界框回归网络;
函数模块,确定学习模块得到的MIL检测器和迭代模块得到的边界框回归网络的损失函数;
调整模块,调整函数模块中损失函数的超参数,得到弱监督检测模型;
训练模块,利用读取模块得到的训练数据集对调整模块中得到的弱监督检测模型进行训练,得到训练好的弱监督检测模型;
检测模块,在读取模块得到的测试数据集使用选择性搜索算法产生候选框,然后利用训练模块训练好的弱监督检测模型对候选框进行分类和边界框回归,得到最终的目标检测框。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
1.仿真条件:
硬件平台为:HP-Z840工作站,TITAN-X-12GB-GPU,64GB RAM。
软件平台为:Python,Pytorch深度学习框架。
2.仿真内容与结果:
本发明仿真实验的数据集是PASCAL VOC 2007和2012数据集,以及MS COCO数据集,去除数据集中的实例级标签,仅仅使用图像级标签。PASCAL VOC 2007和2012数据集别由20个类别的9962和22531张图像组成,2007数据集有5011张训练图像,2012数据集有11540张训练图像;MS COCO数据集由80个类别的123278张图像组成,选取82783张作为训练图像和40504张作为测试图像。使用mean Average Precision(mAP)(IOU>0.5)作为评价标准。
经过训练之后,模型测试结果如表1所示。
表1本发明在各数据集上的测试结果
Figure BDA0003566205320000151
本发明在PASCAL VOC 2007数据集上的目标检测精度为54.2%,在PASCAL VOC2012数据集上的目标检测精度为47.5%,在MS COCO数据集上的目标检测精度为23.2%,达到了同阶段弱监督目标检测网络的先进水平。
综上所述,本发明一种弱监督目标检测方法及***具有以下特点:
1.只需要图像级别的监督信息
在目标检测任务中,标注实例级别的信息(目标边界框)需要耗费大量的人力、物力和财力。只带有图像类别的标注成本显而易见较低,且我们还可以从网络搜索引擎、社交媒体等中爬取大量的带有类别标注的图片。大量的训练数据能提升目标检测性能。这些廉价且易得的仅有类别标注的图片有利于目标检测领域的发展和工程落地。
2.更优质的提议框
现有的弱监督物体检测算法大多采用传统的选择性搜索(selective search,SS)算法产生提议框,然后在其基础上做分类问题。于是,典型的机器学习分类算法缺陷,就变成了典型的弱监督目标检测缺陷即容易检测到图像中更显著的物体或者物体局部,而丢失小物体或完整物体。本发明通过在MIL检测器之前通过Grad-CAM技术进行提议框的生成,得到一系列高质量(覆盖目标更加完全)的提议框,有利于后续检测器的检测,改善了传统方法易陷入局部最优的缺陷;
3.低层次的监督信息
现有的方法在迭代筛选提议框的时候,评价标准只有提议框的分类的得分,只考虑了高级的语义信息,忽视了低层次信息(边缘、纹理等)在衡量一个目标是不是物体时的重要程度。本发明在迭代优化过程中加入低层次特征的监督,引入似物度的概念,筛选出内部包含完整目标的的提议框,并生成伪标签对后续迭代过程进行监督,改善了现有方法只框住目标局部的缺点,提高了检测的精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种弱监督目标检测方法,其特征在于,包括以下步骤:
S1、读取图像数据和图像级标签,图像级标签为只有图像中物体类别的图像级分类标签,并将图像数据分为训练数据集和测试数据集;
S2、在步骤S1读取的训练数据集中使用选择性搜索算法产生候选框,然后通过基于梯度加权类激活映射方法生成高质量的物体提议框;
S3、将步骤S1读取的训练数据集输入VGG16卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
S4、将步骤S1读取到的图像级标签和步骤S3得到的特征矩阵一一对应,进行多示例学习,构建MIL检测器;
S5、向步骤S2得到的物体提议框中加入低层次监督信息,并建立实例分类器进行优化迭代;将得分最高的提议框作为伪标签训练边界框回归网络;
S6、确定步骤S4得到的MIL检测器和步骤S5得到的边界框回归网络的损失函数;
S7、调整步骤S6边界框回归网络的超参数,得到弱监督检测模型;
S8、利用步骤S1得到的训练数据集对步骤S7中得到的弱监督检测模型进行训练,得到训练好的弱监督检测模型;
S9、在步骤S1得到的测试数据集使用选择性搜索算法产生候选框,然后利用步骤S8训练好的弱监督检测模型对候选框进行分类和边界框回归,得到最终的目标检测框。
2.根据权利要求1所述的弱监督目标检测方法,其特征在于,步骤S2中,首先使用一阶段的图像级别分类器预测每张测试图像中得分最高的n个潜在物体类别,然后使用二阶段提议框级别分类器获得用于检测的最终提议框,一阶段的损失函数如下:
Figure FDA0003566205310000011
其中,C是图像类别的总数,yi是第i张图像的标签,Pi是第i个sigmoid分类器的预测结果。
3.根据权利要求1所述的弱监督目标检测方法,其特征在于,步骤S4具体为:
S401、对于给定的图像和其对应的标签,通过步骤S2得到一系列物体提议框;然后将物体提议框送入分类数据流和检测数据流,分别通过两个全连接层得到两个数据矩阵;两个数据矩阵分别通过两个softmax运算器产生每个提议框的分类分数和检测分数;
S402、将步骤S401得到的分类分数和检测分数进行element-wise乘积,得到最终的提议框得分,将所有建议框的得分在R的维度上进行相加,得到每个类别的图像级预测分数。
4.根据权利要求3所述的弱监督目标检测方法,其特征在于,步骤S402中,MIL检测器的损失函数为:
Figure FDA0003566205310000021
其中,Pc为第c个类别的图像级预测分数,yc为图像的标签。
5.根据权利要求1所述的弱监督目标检测方法,其特征在于,步骤S5具体为:
S501、在MIL检测器的基础上建立K个实例分类器,计算提议框r的低层特征的似物度Obi(r),将似物度Obu(r)和上一个分类器得到的类别得分
Figure FDA0003566205310000022
进行加权相加,将相加后得分高的提议框作为具有完整物体目标的提议框,将前n个得分高的提议框作为下一次迭代训练实例分类器时的伪监督信息,共迭代K次训练K个实例分类器;
S502、在K个实例分类器后面连接一个边界框回归器,边界框回归器的目标是对每一个框都输出一个修正值,分别修正x,y,w,h四个参数。
6.根据权利要求5所述的弱监督目标检测方法,其特征在于,步骤S501中,迭代训练K个实例分类器的损失函数
Figure FDA0003566205310000023
为:
Figure FDA0003566205310000031
其中,R为步骤3中产生的提议框的个数,
Figure FDA0003566205310000032
为每个提议框的损失权重,CE为交叉熵损失函数,
Figure FDA0003566205310000033
代表第r个提议框的C+1个类别的分类概率,
Figure FDA0003566205310000034
是其分类标签。
7.根据权利要求5所述的弱监督目标检测方法,其特征在于,步骤S503中,生成伪监督信息和正样本框具体为:S5031、基于k-1分支的类别概率
Figure FDA0003566205310000035
对proposal的集合R进行NMS,阈值是预定义的Tnms,NMS过后的框的集合记为Rkeep
S5032、对每个类别c,如果
Figure FDA0003566205310000036
在步骤S5031得到的集合Rkeep中搜索类别得分高于Tconf的proposal,然后赋予标签c,如果没有框满足的话,给最高得分赋予标签c,找到的所有框记为Rseek
S5033、对每个找到的proposal,在R中找对应的邻居,并标注为Rneighbor
S5034、将步骤S5032得到的Rseek和步骤S5033Rneighbor合并得到正样本框。
8.根据权利要求1所述的弱监督目标检测方法,其特征在于,步骤S6中,损失函数L为:
Figure FDA0003566205310000037
其中,Lbase为MIL检测器的损失函数,λ1为K个实例分类器的损失权重,K为实例分类器的个数,
Figure FDA0003566205310000038
为第k个实例分类器的损失函数,λ2为边界框回归器的损失权重,Lbox为边界框回归器的损失函数。
9.根据权利要求1所述的弱监督目标检测方法,其特征在于,步骤S7中,对超参数进行调整具体为:
在步骤S3中的特征提取阶段使用VGG16网络;实例分类器检测器的损失权重λ1=1,实例分类器的个数K=3,边界框回归网络的损失权重λ2=0.3;NMS的阈值Tnms=0.3,,,Tconf=0.7,Tiou=0.5;网络训练时,初始学习率为0.001,学习率衰减为0.0005,总迭代次数为200000。
10.一种弱监督目标检测***,其特征在于,包括:
读取模块,读取图像数据和图像级标签,图像级标签为只有图像中物体类别的图像级分类标签,并将图像数据分为训练数据集和测试数据集;
加权模块,在读取模块读取的训练数据集中使用选择性搜索算法产生候选框,然后通过基于梯度加权类激活映射方法生成高质量的物体提议框;
矩阵模块,将读取模块读取的训练数据集输入VGG16卷积神经网络进行特征提取,将提取后的提议框特征通过ROI Pooling层生成形状相同的特征矩阵;
学习模块,将读取模块读取到的图像级标签和步骤S3得到的特征矩阵一一对应,进行多示例学习,构建MIL检测器;
迭代模块,向加权模块得到的物体提议框中加入低层次监督信息,并建立实例分类器进行优化迭代;将得分最高的提议框作为伪标签训练边界框回归网络;
函数模块,确定学习模块得到的MIL检测器和迭代模块得到的边界框回归网络的损失函数;
调整模块,调整函数模块中边界框回归网络的超参数,得到弱监督检测模型;
训练模块,利用读取模块得到的训练数据集对调整模块中得到的弱监督检测模型进行训练,得到训练好的弱监督检测模型;
检测模块,在读取模块得到的测试数据集使用选择性搜索算法产生候选框,然后利用训练模块训练好的弱监督检测模型对候选框进行分类和边界框回归,得到最终的目标检测框。
CN202210302852.0A 2022-03-25 2022-03-25 一种弱监督目标检测方法及*** Pending CN114648665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210302852.0A CN114648665A (zh) 2022-03-25 2022-03-25 一种弱监督目标检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210302852.0A CN114648665A (zh) 2022-03-25 2022-03-25 一种弱监督目标检测方法及***

Publications (1)

Publication Number Publication Date
CN114648665A true CN114648665A (zh) 2022-06-21

Family

ID=81996067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210302852.0A Pending CN114648665A (zh) 2022-03-25 2022-03-25 一种弱监督目标检测方法及***

Country Status (1)

Country Link
CN (1) CN114648665A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN114896307A (zh) * 2022-06-30 2022-08-12 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备
CN115100501A (zh) * 2022-06-22 2022-09-23 中国科学院大学 一种基于单点监督的精准目标检测方法
CN115439688A (zh) * 2022-09-01 2022-12-06 哈尔滨工业大学 一种基于周围区域感知与关联的弱监督物体检测方法
CN115457388A (zh) * 2022-09-06 2022-12-09 湖南经研电力设计有限公司 基于深度学习优化的输变电遥感图像地物辨识方法及***
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116612120A (zh) * 2023-07-20 2023-08-18 山东高速工程检测有限公司 一种针对数据不平衡的两阶段式道路缺陷检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100501A (zh) * 2022-06-22 2022-09-23 中国科学院大学 一种基于单点监督的精准目标检测方法
CN115100501B (zh) * 2022-06-22 2023-09-22 中国科学院大学 一种基于单点监督的精准目标检测方法
CN114896307A (zh) * 2022-06-30 2022-08-12 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备
CN114896307B (zh) * 2022-06-30 2022-09-27 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN115439688A (zh) * 2022-09-01 2022-12-06 哈尔滨工业大学 一种基于周围区域感知与关联的弱监督物体检测方法
CN115457388A (zh) * 2022-09-06 2022-12-09 湖南经研电力设计有限公司 基于深度学习优化的输变电遥感图像地物辨识方法及***
CN115457388B (zh) * 2022-09-06 2023-07-28 湖南经研电力设计有限公司 基于深度学习优化的输变电遥感图像地物辨识方法及***
CN116310293A (zh) * 2023-02-13 2023-06-23 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116310293B (zh) * 2023-02-13 2023-09-12 中国矿业大学(北京) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN116612120A (zh) * 2023-07-20 2023-08-18 山东高速工程检测有限公司 一种针对数据不平衡的两阶段式道路缺陷检测方法
CN116612120B (zh) * 2023-07-20 2023-10-10 山东高速工程检测有限公司 一种针对数据不平衡的两阶段式道路缺陷检测方法

Similar Documents

Publication Publication Date Title
CN114648665A (zh) 一种弱监督目标检测方法及***
CN112396002B (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
Bevandić et al. Simultaneous semantic segmentation and outlier detection in presence of domain shift
CN110097568A (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Long et al. Object detection in aerial images using feature fusion deep networks
US20210326638A1 (en) Video panoptic segmentation
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN111460927A (zh) 对房产证图像进行结构化信息提取的方法
CN111368660A (zh) 一种单阶段半监督图像人体目标检测方法
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN112861917A (zh) 基于图像属性学习的弱监督目标检测方法
CN113592825A (zh) 一种基于yolo算法的煤矸实时检测方法
CN113139896A (zh) 基于超分辨重建的目标检测***及方法
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
Yadav et al. An improved deep learning-based optimal object detection system from images
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN113657414B (zh) 一种物体识别方法
Shahriyar et al. An approach for multi label image classification using single label convolutional neural network
CN113496480A (zh) 一种焊缝图像缺陷的检测方法
CN110929726B (zh) 一种铁路接触网支柱号牌识别方法及***
CN110287970B (zh) 一种基于cam与掩盖的弱监督物体定位方法
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination