CN116977859A - 基于多尺度图像切割和实例困难度的弱监督目标检测方法 - Google Patents

基于多尺度图像切割和实例困难度的弱监督目标检测方法 Download PDF

Info

Publication number
CN116977859A
CN116977859A CN202310996136.1A CN202310996136A CN116977859A CN 116977859 A CN116977859 A CN 116977859A CN 202310996136 A CN202310996136 A CN 202310996136A CN 116977859 A CN116977859 A CN 116977859A
Authority
CN
China
Prior art keywords
scale
target
cutting
target candidate
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310996136.1A
Other languages
English (en)
Inventor
钱晓亮
李洋
王晨好
王慰
曾黎
岳伟超
任航丽
刘向龙
王芳
刘玉翠
吴青娥
张秋闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202310996136.1A priority Critical patent/CN116977859A/zh
Publication of CN116977859A publication Critical patent/CN116977859A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于多尺度图像切割和实例困难度的弱监督目标检测方法,步骤为:对输入图像进行多尺度切割送入共享的主干网络进行特征提取得到特征图;将目标候选框投影到特征图得到目标候选框的特征矩阵;将特征矩阵经过全连接层得到各个切割尺度下的特征向量,将特征向量输入基准弱监督目标检测模块得到得分矩阵并获取类别置信得分矩阵;将特征向量分别送入多个实例分类优化分支得到类别置信度得分并确定正实例;根据目标候选框在背景类别上的最高类别置信得分得到难负例;进行训练得到弱监督目标检测模型;将待检测图像送入弱监督目标检测模型获得目标的类别和位置。本发明可以有效地提升高分辨率遥感图像弱监督目标检测的检测精度。

Description

基于多尺度图像切割和实例困难度的弱监督目标检测方法
技术领域
本发明涉及深度学习中目标检测的技术领域,尤其涉及一种基于多尺度图像切割和实例困难度的弱监督目标检测方法。
背景技术
目标检测是计算机视觉领域的一项重要任务,其主要目标是从图像或视频中准确地识别和定位特定目标的位置。例如,在自动驾驶领域,可以自动识别车辆、行人、斑马线等为自动驾驶***提供精确的信息,在安防监控领域可以实时的自动识别敏感目标从而减少事故发生的概率,在人脸检测、军事侦察等诸多领域中还拥有着广泛的应用。
随着人工智能的不断进步,基于深度学习的目标检测也得到了飞速的发展。在全监督目标检测中,每个训练样本都要手动标注其图像中的所有目标,并用边界框或像素级标签来指示目标的位置,这样的标注过程往往非常耗时、费力,且成本较高。弱监督目标检测仅需要图像类别标注,可以节省大量的人力成本和标注时间,从而受到广泛的关注。
随着深度学***衡的问题,即:简单实例的数量远大于困难实例的数量。虽然简单实例的损失较小,但大量简单实例损失的累加会导致网络过多的关注简单实例而忽略困难实例,限制了弱监督目标检测性能的进一步提升。
申请号为202011481683.9的发明专利公开了一种基于正负样本均衡的弱监督目标检测方法:包括以下步骤:1)采集需要进行目标检测的场景图像,场景图像对应有标签,主要由场景图像和对应的标签组成训练集;2)将训练集输入筛选目标候选框模块,筛选目标候选框模块通过选择性搜索方法获取场景图像的所有目标候选框,根据场景图像对应的弱监督语义分割结果M计算所有目标候选框的环境系数,将所有目标候选框的环境系数进行排序并选择环境系数靠前的若干个目标候选框,将选择的目标候选框作为场景图像对应的初始目标候选框;建立弱监督目标检测网络,将训练集和对应的初始目标候选框同时输入弱监督目标检测网络中进行训练,训练过程中利用最优目标框更新方法获得训练后的弱监督目标检测网络;将待测场景图像分别输入到筛选目标候选框模块和训练后的弱监督目标检测网络中,对待测场景图像的目标进行分类与定位。上述发明只需要含有图像所对应的图像级类别标签数据集,在无目标框级别标签存在的情况下有较好的目标检测能力。但是,上述发明网络模型较复杂,且该弱监督目标检测模型通常不关注目标的非显著区域特征,导致模型的检测结果更倾向于定位目标最显著区域,而不是目标整体,尤其在具有复杂背景的遥感图像中;另一方面,该专利提出的基于正负样本均衡的弱监督目标检测方法,并不能解决难易样本数量不平衡的问题。
发明内容
针对现有的弱监督目标检测方法训练的模型倾向于关注目标最显著部分和存在难易样本数量不平衡的技术问题,本发明提出一种基于多尺度图像切割和实例困难度的弱监督目标检测方法,通过引入一种新颖的基于多尺度图像分割的特征增强模型和感知损失策略,能够有效地将目标整体区域凸显和让难负例在训练中受到更多关注,从而有效地提升弱监督目标检测模型的定位精度。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于多尺度图像切割和实例困难度的弱监督目标检测方法,其步骤如下:
步骤一:基于多尺度图像切割的特征增强:对输入图像进行多尺度的切割,将输入图像和随机选择的至少2个分割尺度下对应的图像块分别送入共享的主干网络进行特征提取并按照空间位置关系拼接得到各个切割尺度下的特征图;根据输入图像得到多个目标候选框,将目标候选框投影到各个切割尺度下的特征图上执行感兴趣区域池化操作得到目标候选框在各个切割尺度下的特征矩阵,根据目标候选框在各个切割尺度下的特征矩阵获取所有正实例在各个切割尺度下的特征图上的最大空间注意力图,得到基于多尺度图像切割的特征增强模块的损失函数,对基于多尺度图像切割的特征增强模块进行训练;
步骤二:将目标候选框在各个切割尺度下的特征矩阵经过两个全连接层得到目标候选框在各个切割尺度下的特征向量,将特征向量输入基准弱监督目标检测模块得到类别置信得分矩阵,根据类别置信得分矩阵得到切割尺度下各个类别的预测得分,计算基准弱监督目标检测模块的损失函数,对基准弱监督目标检测模块进行训练;
步骤三:将步骤二得到的特征向量分别送入多个实例分类优化分支得到目标候选框在各个切割尺度下的类别置信度得分,并利用类别置信度得分确定正实例集合;
步骤四:根据目标候选框在图像中不存在的类别中的最高类别置信得分得到目标候选框的难负例集合,计算目标候选框在所有切割尺度下的实例困难度得分作为损失函数的权重,计算多个实例分类优化分支的损失函数,对多个实例分类优化分支进行训练;
步骤五:循环步骤一至步骤四在数据集中训练弱监督目标检测模型;将待检测图像送入训练后的弱监督目标检测模型获得图像中感兴趣目标的类别和位置。
优选地,所述步骤一中共享的主干网络进行特征提取并按照空间位置关系拼接得到特征图的方法为:对输入图像进行Z个尺度的切割,其中第z个尺度的切割将图像切割为z×z个图像块且z∈[1,Z];在第2到第Z个尺度中随机选择N-1个尺度,且N≤Z;将输入图像和N-1个尺度对应的图像块分别送入共享的主干网络中进行特征提取,得到相应大小的特征图,将第n个分割尺度下所有图像块的特征图按照空间位置关系拼接得到Fn,n∈[1,N],Fn即为输入图像在第n个切割尺度下的特征图。
优选地,使用选择性搜索算法为输入图像生成M个目标候选框,将第r个目标候选框表示为pr,并将其投影到Fn上执行感兴趣区域池化操作得到目标候选框的特征图r∈[1,M],其中,H、W、L分别表示特征图/>的高度、宽度和通道数。
11.根据权利要求1-3中任意一项所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述基于多尺度图像切割的特征增强模块的损失函数为
其中,N是切割尺度的总数,为正实例tq的最大化空间注意力图,max(·)表示逐元素取最大值操作;/>为正实例tq在第n个切割尺度下的空间注意力图,/>表示第n个切割尺度下正实例tq的特征图的第i个通道,i∈[1,L],H、W、L分别表示特征图/>的高度、宽度和通道数,q∈[1,Q]为正实例的索引,Q表示所有实例分类优化分支中正实例的集合,|Q|表示正实例的数量,Sigmoid表示激活函数。
优选地,所述基准弱监督目标检测模块包括两个平行分支,每个平行分支由一个全连接层与一个softmax分类器构成;
所述步骤二中获取类别置信得分矩阵的方法为:
特征图经过两个全连接层后得到目标候选框pr在第n个切割尺度下的特征向量并送入基准弱监督目标检测模块中的两个平行分支;当所有特征向量/>分别经过两个平行分支的全连接层后得到两个矩阵/>其中,C表示目标类别的数量;所有目标候选框在第n个切割尺度下的类别置信得分矩阵/>
其中,σc(.),σd(.)分别表示沿类别与目标候选框维度的softmax操作,⊙表示哈达曼达积。
优选地,所述弱监督目标检测网络的损失函数
第n个切割尺度下的损失函数为
其中,yc=1或0表示输入图像中是否包含第c个类别的目标;输入图像在第n个切割尺度下属于第c个类别的预测得分其中/>表示在第n个切割尺度下目标候选框pr属于类别c的置信得分。
优选地,所述步骤三中得到目标候选框在切割尺度下的类别置信度得分的方法为:将目标候选框pr在第n个切割尺度下的特征向量送入第k个实例分类优化分支中得到对应的类别置信度得分/>k∈[1,K];当k=1时,/>第k个实例分类优化分支的监督信号从第k-1个实例分类优化分支中所有目标候选框的类别置信得分/>中利用伪标签挖掘策略进行挖掘;其中,rcat(·,·)表示沿行方向的拼接操作,K为实例分类优化分支的总数,ZM∈RM表示全0向量;第(C+1)维表示背景类别。
优选地,所述伪标签挖掘策略进行挖掘的方法为:目标候选框pr在第k-1个实例分类优化分支中所有切割尺度下的类别置信度得分取平均得到得分均值且:
按照MIST提出的伪标签挖掘策略,依据得分均值得到第k个实例分类优化分支的实例级伪标签/>若目标候选框pr属于第c个类别的目标,则/>否则若/>则目标候选框pr∈Q。
优选地,判断目标候选框pr是否属于难负例的方法为:在第n个切割尺度下的第k个ICR分支中,标记pr在C+1个类别上的最高类别置信得分为若j≤C且/>且yj=0,则目标候选框pr为难负例;其中,j代表目标候选框pr取得最高类别置信得分的类别,yj表示pr在类别j上的伪标签。
优选地,K个实例分类优化分支的总体损失函数
第k个实例分类优化分支的损失函数:
其中,表示类别置信度得分/>中的第c个元素,/>代表目标候选框pr的权重,为第k个实例分类优化分支的实例级伪标签;/>为目标候选框pr在第k个ICR分支和第n个切割尺度下的实例困难度得分,且:
其中,Rhn表示所有难负例的集合,Ro表示除难负例以外其它所有目标候选框的集合,h代表目标候选框pr的真实类别,表示类别置信度得分/>中的第h个元素;
弱监督目标检测模型的总体损失函数L=LM+LB+LI
与现有技术相比,本发明的有益效果:通过设计了一种新颖的基于多尺度图像分割的特征增强模型,能够有效地将正实例中的目标区域整体凸显;通过设计实例难度感知损失策略,能够有效地让难负例在训练中受到更多关注,从而有效地提升高分辨率遥感图像弱监督目标检测的检测精度。仿真结果表明,本发明能更准确地识别和定位遥感图像的地物目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明的仿真结果图。
图3为本发明与基准算法的仿真效果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于多尺度图像切割和实例困难度的弱监督目标检测方法,包含步骤如下:
步骤一:基于多尺度图像切割的特征增强:对输入图像进行多尺度的切割,将输入图像和随机选择的至少2个分割尺度下对应的图像块分别送入共享的主干网络进行特征提取并按照空间位置关系拼接得到特征图;根据输入图像得到多个目标候选框,将目标候选框投影到特征图上执行感兴趣区域池化操作得到目标候选框的特征图,根据目标候选框的特征图获取正实例的最大空间注意力图,得到基于多尺度图像切割的特征增强模块的损失函数,对基于多尺度图像切割的特征增强模块进行训练。
(1)本实施所使用的训练样本和测试样本均为仅有类别标注的高分辨率遥感图像数据集:DIOR数据集。在DIOR数据集中,总共包含20类目标,每幅图像大小是800×800像素,训练集、验证集和测试集分别包含5862、5863和11738幅图像,本次实施中,DIOR数据集中的训练集和验证集内的样本用于本发明的弱监督目标检测模型的训练,测试集用于弱监督目标检测模型的测试。
如图1所示,首先对每幅输入高分辨率遥感图像进行Z=6个尺度的切割,其中第z个尺度的切割将图像切割为z×z个图像块,且z∈[1,6]。然后,在第2到第6个尺度中随机选择N-1=2个尺度,且N≤Z。将尺度1(原始图像)和N-1个尺度对应的图像块分别送入共享的主干网络中进行特征提取,得到相应大小的特征图,将第n个尺度下所有图像块的特征图按照空间位置关系拼接得到特征图Fn,n∈[1,3],Fn即为输入图像在第n个切割尺度下的特征图。
不同大小的输入图像输入基于多尺度图像切割的特征增强模块后会得到相应大小的特征图,一张图像切割为几个图像块后将图像块分别送入基于多尺度图像切割的特征增强模块得到对应的特征图,然后将特征图按照最初的切割顺序即空间位置关系进行拼接得到拼接后的特征图Fn。弱监督目标检测网络采用VGG16作为主干网络,所有弱监督目标检测网络均采用VGG16。Z=6是根据实验确定的,当Z大于6后检测效果下降,切割次数z∈[1,6]。随机选择N-1是表示在从2到6这5个切割尺度中随机选择N-1个尺度(实验中N=3)并非将所有切割尺度下形成的图像块均送入主干网络,而是随机选择N-1个尺度下对应的图像块输入至主干网络,对切割后形成的图像块进行特征提取得到的特征更倾向于突出局部目标的显著区域,而对未切割的原始图像进行特征提取得到的特征更倾向于突出整张图片的显著区域。后续利用空间注意力图逼近的方法获取目标完整特征。例如:当z=2时,原始图像将被切割为4个图像块,那么对这四个图像块一次送入主干网络得到4个特征,最后需要将这4个特征矩阵拼接后得到整幅图像的特征。主干网络的后续步骤需要依赖整幅图像的特征进行处理。
使用选择性搜索算法[J.R.Uijlings,K.E.Van De Sande,T.Gevers,andA.W.Smeulders,“Selective search for object recognition,”Int.J.Comput.Vis.,vol.104,no.2,pp.154-171,Apr.2013.](简称为SS)为输入图像生成M=2000个目标候选框,将第r个目标候选框表示为pr,并将其投影到特征图Fn上执行感兴趣区域池化操作得到目标候选框的特征图r∈[1,2000],其中,7、7、512分别表示目标候选框的特征图/>的高度、宽度和通道数。感兴趣区域池化操作的目的是在整幅图像特征的基础上扣出来每个目标候选框的特征。目标候选框如图1中的小方框,将其映射到特征图上得到每个白色小框的特征。由于目标候选框的大小不同,池化操作时将高度与宽度其固定到7×7。通道数是根据特征图的通道数决定的,图像经过主干网络后得到的特征通道为512。
由于弱监督没有每个实例的真实位置,生成2000个目标候选框是为了捕捉可能包含目标物体的不同位置和尺度的区域。在目标检测任务中,由于目标物体的位置和尺寸是不确定的,通过生成大量的候选框,可以增加模型对目标物体的覆盖范围,提高检测的准确率。不同的正实例在其各自一系列不同的空间注意力图中获取各自的最大空间注意力图,鼓励不同实例的空间注意力图向各自的最大空间注意力图逼近。
获取正实例的空间注意力图(Spatial Attention Map,SAM):标记第q个正实例为tq,q∈[1,|Q|],正实例tq在第n个切割尺度下的SAM标记为通过以下方式获取:
其中,表示第n个切割尺度下正实例tq的特征图的第i个通道,Q表示所有ICR(Instance Classifier Refinement)分支中正实例集合,|Q|表示正实例的数量。Sigmoid表示激活函数。
标记正实例tq的最大化空间注意力图(Maximum Spatial Attention Map,MSAM)为可通过下式获得:
其中,max(·)表示逐元素取最大值操作。分别为第1、2、3切割尺度下的空间注意力图。
基于多尺度图像切割的特征增强的损失函数LM可通过下式获得:
步骤二:将目标候选框的特征图经过两个全连接层得到目标候选框在切割尺度下的特征向量,将特征向量输入基准弱监督目标检测模块得到两个得分矩阵,根据两个得分矩阵获取类别置信得分矩阵,根据类别置信得分矩阵得到切割尺度下各个类别的预测得分,计算基准弱监督目标检测模块的损失函数,对基准弱监督目标检测模块进行训练。
如图1右上角所示,目标候选框的特征图经过两个全连接层I(Full ConnectionLayer,FC)后得到第r个目标候选框pr在第n个切割尺度下的特征向量/>并送入基准弱监督目标检测模块中的两个平行分支,每个分支由一个FC层与一个softmax分类器构成。当所有特征向量/>分别经过两个分支的全连接层II后得到两个矩阵/>其中,C=20表示目标类别的数量。本发明是在DIOR数据集上做的实验,该数据集一共包含了20个不同的目标类别,因此C=20表示的是目标类别的数量。
至此,所有目标候选框在第n个切割尺度下的类别置信得分矩阵Xn可通过下式获得:
其中,σc(·),σd(·)分别表示沿类别与目标候选框维度的softmax操作,⊙表示哈达曼达积。
输入图像在第n个切割尺度下属于第c个类别的预测得分通过下式获取:
其中,表示在第n个切割尺度下目标候选框pr属于类别c的置信得分。通过第n个切割尺度下的类别置信得分矩阵Xn得到了在第n个切割尺度下属于每个类别的得分,然后从所有类别得分中选取目标候选框pr属于类别c的得分。
至此,基准弱监督目标检测模块在第n个切割尺度下的损失函数可表述如下:
其中,yc=1或0表示输入图像中是否包含第c个类别的目标。基准弱监督目标检测模块的总体损失函数LB如下所示:
基准弱监督目标检测模块为接下来的ICR分支实例级别推理提供了有用的分类得分和目标候选框信息,为目标检测效果提供了重要的基础。弱监督目标检测网络仅包含整幅图像的类别信息,基准弱监督目标检测模块通过计算预测的目标类别信息与真实的目标类别计算损失函数进行反向传播。
步骤三:将步骤二得到的特征向量分别送入多个实例分类优化分支得到目标候选框在切割尺度下的类别置信度得分,并利用类别置信度得分更新正实例集合。
如图1右下角所示,将目标候选框pr在第n个切割尺度下的特征向量送入第k个ICR分支中k∈[1,3],得到对应的类别置信度得分/>第21维表示背景类别。第k个ICR分支的监督信号从第k-1个ICR分支中所有目标候选框的类别置信得分中挖掘,其中,当k=1时,/>rcat(·,·)表示沿行方向的拼接操作,ZM∈R2000表示全0向量,T表示矩阵转置。ICR分支将得到的特征向量/>经过一个全连接层FC和一个类别方向的softmax操作,可得到一个目标候选框类别置信得分矩阵。
具体如下:
将目标候选框pr在第k-1个ICR分支中所有切割尺度下的类别置信度得分取平均得到
按照MIST[Z.Ren et al.,“Instance-aware,context-focused,and memory-efficient weakly supervised object detection,”in Proc.IEEE/CVFConf.Comput.Vis.Pattern Recognit.,2020,pp.10598-10607.]提出的伪标签挖掘策略,依据可以得到第k个ICR分支的实例级伪标签/>若目标候选框pr属于第c个类别的目标,则/>否则/>若/>则目标候选框pr∈Q。
步骤四:根据目标候选框在背景类别上的最高类别置信得到得到目标候选框的难负例集合,计算目标候选框的切割尺度下的实例困难度得分,计算多个实例分类优化分支的损失函数,对多个实例分类优化分支进行训练。
判断目标候选框pr是否属于难负例。在第n个切割尺度下的第k个ICR分支中,标记目标候选框pr在21个类别上的最高类别置信得分为其中,j代表目标候选框pr取得最高类别置信得分的类别,若j≤20且/>且yj=0,则目标候选框pr为难负例。
计算目标候选框pr在第k个ICR分支和第n个切割尺度下的实例困难度得分(Instance Difficulty Score IDS),即,其计算方法如下:
其中,Rhn表示所有难负例的集合,Ro表示除难负例以外其它所有目标候选框的集合,h代表目标候选框pr的真实类别,表示类别置信度得分/>中的第h个元素即第k个ICR分支、第n个切割尺度、第r个目标候选框pr中第h个类别中的得分。|Ro|和|Rhn|分别表示聚合Ro和Rhn的数量。
计算第k个ICR分支的损失函数
其中,为第k个ICR分支在第n个切割尺度下的损失函数,/>表示类别置信度得分/>中的第c个元素。/>代表目标候选框pr的权重,其计算方法参见文献OICR[P.Tang,X.Wang,X.Bai,and W.Liu,“Multiple instance detection network with onlineinstance classifier refinement,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2017,pp.2843-2851.]。3个ICR分支的总体损失LI如下:
步骤五:循环步骤一至四,根据预定的训练轮数(迭代次数),迭代结束后训练也结束。迭代过程中,每间隔1000个迭代会保存一下弱监督目标检测模型,因此在训练结束后会得到多个弱监督目标检测模型。将待检测图像送入训练后的弱监督目标检测模型获得图像中感兴趣目标的类别和位置。
弱监督目标检测模型包括基于多尺度图像切割的特征增强模块、两个全连接层、基准弱监督目标检测模块和多个实例分类优化分支。每个目标候选框自身包涵位置信息,类别置信得分矩阵中的元素称为类别置信度得分,网络会对所有目标候选框在数据集中的C个类别进行预测得到类别置信得分矩阵(M×(C+1)维),某个目标候选框在某个类别上的预测得分称之为类别置信度得分。最终的感兴趣目标就是从目标候选框里面选择的位置信息,目标的类别信息根据最高的类别置信得分相应的类别确定。根据预定的训练轮数(迭代次数),迭代结束后训练也结束。迭代过程中,每间隔1000个迭代会保存一下弱监督目标检测模型,因此在训练结束后会得到多个弱监督目标检测模型。此时利用数据集中的测试集来测试整个迭代过程产生的弱监督目标检测模型,根据测试结果挑选最好的弱监督目标检测模型。
本发明所提出的弱监督目标检测模型的总体损失函数L如下:
L=LM+LB+LI
利用总体损失函数L完成整个弱监督目标检测模型的训练。推理阶段,将待检测图像送入训练后的弱监督目标检测模型获得图像中感兴趣目标的类别和位置。
本发明的实现的硬件配置:E5-2650V4 CPU(2.2GHz 12x2核),512GB内存,8块NVIDIA RTX Titan显卡的工作站进行实验,其软件的平台配置:Ubuntu16.04、Python3.7、Pytorch1.7。
为了更好的证明本发明的性能,如表1所示,本发明在DIOR数据集上与9种流行算法进行对比,9种算法分别是:WSDDN[H.Bilen,A.Vedaldi,Weakly supervised deepdetection networks,in:Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2016,pp.2846-2854],OICR[P.Tang,X.Wang,X.Bai,W.Liu,Multiple instance detectionnetwork with online instance classifier refinement,in:Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2017,pp.3059-295 3067],PCL[P.Tang,X.Wang,S.Bai,W.Shen,X.Bai,W.Liu,A.L.Yuille,PCL:proposal cluster learning for weaklysupervised object detection,IEEE Trans.Pattern Anal.Mach.Intell.42(1)(2020)176-191],MELM[F.Wan,P.Wei,J.Jiao,Z.Han,and Q.Ye,“Min-entropy latent model forweakly supervised object detection,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.,Jun.2018,pp.1297-1306.],DCL[X.Yao,X.Feng,J.Han,G.Cheng,L.Guo,Automatic weakly supervised object detection from high spatial resolutionremote sensing images via dynamic curriculum learning,IEEETrans.Geosci.Remote Sens.59(1)(2021)675-685],MIST[Z.Ren,Z.Yu,X.Yang,M.-Y.Liu,Y.J.Lee,A.G.Schwing,and J.Kautz,“Instance-aware,context-focused,and memory-efficient weakly supervised object detection,”in Proc.IEEE/CVFConf.Comput.Vis.Pattern Recognit.,Jun.2020,pp.10 598-10 607.],PCIR[X.Feng,J.Han,X.Yao,G.Cheng,Progressive contextual instance refinement for weaklysupervised object detection in remote sensing images,IEEE Trans.Geosci.RemoteSens.58(11)(2020)8002-8012],TCA[X.Feng,J.Han,X.Yao,and G.Cheng,“Tcanet:Triplecontext-aware network for weakly supervised object detection in remotesensing images,”IEEE Trans.Geosci.Remote Sens.,vol.59,no.8,pp.6946-6955,Oct.2021.],MIG[B.Wang,Y.Zhao,X.Li,Multiple instance graph learning for weaklysupervised remote sensing object detection,IEEE Trans.Geosci.Remote Sens.60(2022)1-12]。mAP和Corloc分别表示平均精度和定位精度。
表1本发明与9种流行算法在DIOR数据集上关于平均精度和定位精度的对比
方法 mAP CorLoc
WSDDN 13.3 32.4
OICR 16.5 34.8
PCL 18.2 41.5
MELM 18.7 43.3
DCL 20.2 42.2
MIST 22.2 43.6
PCIR 24.9 46.1
TCA 25.8 48.4
MIG 25.1 46.8
本发明 26.4 49.2
从表1可以看出,与其他9种弱监督目标检测方法相比,本发明的方法平均精度和定位精度均高于其他目标检测,能更准确地识别和定位遥感图像的地物目标。
图2给出了本发明的检测结果,通过可以本发明可以准确的定位地物目标。图3给出了本发明与基准方法效果对比图,基准方法采用OICR,本发明的方法,通过引入一种新颖的基于多尺度图像分割的特征增强模型和感知损失策略,能够有效地将正实例中的目标区域整体凸显和让难负例在训练中受到更多关注,与OICR基准方法的对比,通过前两张图片可以看出本发明可以凸显目标整体区域,后三张图片可以表明本发明的方法可以有效的关注难负例与困难实例。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,其步骤如下:
步骤一:基于多尺度图像切割的特征增强:对输入图像进行多尺度的切割,将输入图像和随机选择的至少2个分割尺度下对应的图像块分别送入共享的主干网络进行特征提取并按照空间位置关系拼接得到各个切割尺度下的特征图;根据输入图像得到多个目标候选框,将目标候选框投影到各个切割尺度下的特征图上执行感兴趣区域池化操作得到目标候选框在各个切割尺度下的特征矩阵,根据目标候选框在各个切割尺度下的特征矩阵获取所有正实例在各个切割尺度下的特征图上的最大空间注意力图,得到基于多尺度图像切割的特征增强模块的损失函数,对基于多尺度图像切割的特征增强模块进行训练;
步骤二:将目标候选框在各个切割尺度下的特征矩阵经过两个全连接层得到目标候选框在各个切割尺度下的特征向量,将特征向量输入基准弱监督目标检测模块得到类别置信得分矩阵,根据类别置信得分矩阵得到切割尺度下各个类别的预测得分,计算基准弱监督目标检测模块的损失函数,对基准弱监督目标检测模块进行训练;
步骤三:将步骤二得到的特征向量分别送入多个实例分类优化分支得到目标候选框在各个切割尺度下的类别置信度得分,并利用类别置信度得分确定正实例集合;
步骤四:根据目标候选框在图像中不存在的类别中的最高类别置信得分得到目标候选框的难负例集合,计算目标候选框在各个切割尺度下的实例困难度得分作为损失函数的权重,计算多个实例分类优化分支的损失函数,对多个实例分类优化分支进行训练;
步骤五:循环步骤一至步骤四在数据集中训练弱监督目标检测模型;将待检测图像送入训练后的弱监督目标检测模型获得图像中感兴趣目标的类别和位置。
2.根据权利要求1所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述步骤一中共享的主干网络进行特征提取并按照空间位置关系拼接得到特征图的方法为:对输入图像进行Z个尺度的切割,其中第z个尺度的切割将图像切割为z×z个图像块且z∈[1,Z];在第2到第Z个尺度中随机选择N-1个尺度,且N≤Z;将输入图像和N-1个尺度对应的图像块分别送入共享的主干网络中进行特征提取,得到相应大小的特征图,将第n个分割尺度下所有图像块的特征图按照空间位置关系拼接得到Fn,n∈[1,N],Fn即为输入图像在第n个切割尺度下的特征图。
3.根据权利要求2所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,使用选择性搜索算法为输入图像生成M个目标候选框,将第r个目标候选框表示为pr,并将其投影到Fn上执行感兴趣区域池化操作得到目标候选框的特征图r∈[1,M],其中,H、W、L分别表示特征图/>的高度、宽度和通道数。
4.根据权利要求1-3中任意一项所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述基于多尺度图像切割的特征增强模块的损失函数为
其中,N是切割尺度的总数,为正实例tq的最大化空间注意力图,max(·)表示逐元素取最大值操作;/>为正实例tq在第n个切割尺度下的空间注意力图,/>表示第n个切割尺度下正实例tq的特征图的第i个通道,i∈[1,L],H、W、L分别表示特征图/>的高度、宽度和通道数,q∈[1,Q]为正实例的索引,Q表示所有实例分类优化分支中正实例的集合,|Q|表示正实例的数量,Sigmoid表示激活函数。
5.根据权利要求4所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述基准弱监督目标检测模块包括两个平行分支,每个平行分支由一个全连接层与一个softmax分类器构成;
所述步骤二中获取类别置信得分矩阵的方法为:
特征图Grn经过两个全连接层后得到目标候选框pr在第n个切割尺度下的特征向量并送入基准弱监督目标检测模块中的两个平行分支;当所有特征向量/>分别经过两个平行分支的全连接层后得到两个矩阵/>其中,C表示目标类别的数量;所有目标候选框在第n个切割尺度下的类别置信得分矩阵/>
其中,σc(.),σd(.)分别表示沿类别与目标候选框维度的softmax操作,⊙表示哈达曼达积。
6.根据权利要求5所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述弱监督目标检测网络的损失函数
第n个切割尺度下的损失函数为
其中,yc=1或0表示输入图像中是否包含第c个类别的目标;输入图像在第n个切割尺度下属于第c个类别的预测得分其中/>表示在第n个切割尺度下目标候选框pr属于类别c的置信得分。
7.根据权利要求4或5所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述步骤三中得到目标候选框在切割尺度下的类别置信度得分的方法为:将目标候选框pr在第n个切割尺度下的特征向量送入第k个实例分类优化分支中得到对应的类别置信度得分/>k∈[1,K];当k=1时,/>第k个实例分类优化分支的监督信号从第k-1个实例分类优化分支中所有目标候选框的类别置信得分/>中利用伪标签挖掘策略进行挖掘;其中,rcat(·,·)表示沿行方向的拼接操作,K为实例分类优化分支的总数,ZM∈RM表示全0向量;第(C+1)维表示背景类别。
8.根据权利要求7所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,所述伪标签挖掘策略进行挖掘的方法为:目标候选框pr在第k-1个实例分类优化分支中所有切割尺度下的类别置信度得分取平均得到得分均值且:
按照MIST提出的伪标签挖掘策略,依据得分均值得到第k个实例分类优化分支的实例级伪标签/>若目标候选框pr属于第c个类别的目标,则/>否则/>则目标候选框pr∈Q。
9.根据权利要求7所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,判断目标候选框pr是否属于难负例的方法为:在第n个切割尺度下的第k个ICR分支中,标记pr在C+1个类别上的最高类别置信得分为若j≤C且/>且yj=0,则目标候选框pr为难负例;其中,j代表目标候选框pr取得最高类别置信得分的类别,yj表示pr在类别j上的伪标签。
10.根据权利要求9所述的基于多尺度图像切割和实例困难度的弱监督目标检测方法,其特征在于,K个实例分类优化分支的总体损失函数
第k个实例分类优化分支的损失函数:
其中,表示类别置信度得分/>中的第c个元素,/>代表目标候选框pr的权重,/>为第k个实例分类优化分支的实例级伪标签;/>为目标候选框pr在第k个ICR分支和第n个切割尺度下的实例困难度得分,且:
其中,Rhn表示所有难负例的集合,Ro表示除难负例以外其它所有目标候选框的集合,h代表目标候选框pr的真实类别,表示类别置信度得分/>中的第h个元素;
弱监督目标检测模型的总体损失函数L=LM+LB+LI
CN202310996136.1A 2023-08-09 2023-08-09 基于多尺度图像切割和实例困难度的弱监督目标检测方法 Pending CN116977859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310996136.1A CN116977859A (zh) 2023-08-09 2023-08-09 基于多尺度图像切割和实例困难度的弱监督目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310996136.1A CN116977859A (zh) 2023-08-09 2023-08-09 基于多尺度图像切割和实例困难度的弱监督目标检测方法

Publications (1)

Publication Number Publication Date
CN116977859A true CN116977859A (zh) 2023-10-31

Family

ID=88484827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310996136.1A Pending CN116977859A (zh) 2023-08-09 2023-08-09 基于多尺度图像切割和实例困难度的弱监督目标检测方法

Country Status (1)

Country Link
CN (1) CN116977859A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496130A (zh) * 2023-11-22 2024-02-02 中国科学院空天信息创新研究院 基于上下文感知自训练的基础模型弱监督目标检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496130A (zh) * 2023-11-22 2024-02-02 中国科学院空天信息创新研究院 基于上下文感知自训练的基础模型弱监督目标检测方法

Similar Documents

Publication Publication Date Title
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测***及方法
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN113221787A (zh) 基于多元差异性融合的行人多目标跟踪方法
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN117670820B (zh) 一种塑料薄膜生产缺陷检测方法及***
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN115082781A (zh) 一种舰船图像检测方法、装置以及存储介质
CN113223037B (zh) 一种面向大规模数据的无监督语义分割方法及***
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN116206201A (zh) 一种监督目标检测识别方法、装置、设备及存储介质
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及***
CN114742204A (zh) 检测秸秆覆盖率的方法和装置
CN114462479A (zh) 模型训练方法、检索方法以及模型、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination