CN116342857A - 一种基于类别修正的弱监督目标定位方法 - Google Patents

一种基于类别修正的弱监督目标定位方法 Download PDF

Info

Publication number
CN116342857A
CN116342857A CN202310336796.7A CN202310336796A CN116342857A CN 116342857 A CN116342857 A CN 116342857A CN 202310336796 A CN202310336796 A CN 202310336796A CN 116342857 A CN116342857 A CN 116342857A
Authority
CN
China
Prior art keywords
network
positioning
foreground
mask
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310336796.7A
Other languages
English (en)
Inventor
瞿响宇
杜博
王增茂
罗伊文
陈尚法
何向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Changjiang Institute of Survey Planning Design and Research Co Ltd
Original Assignee
Wuhan University WHU
Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Changjiang Institute of Survey Planning Design and Research Co Ltd filed Critical Wuhan University WHU
Priority to CN202310336796.7A priority Critical patent/CN116342857A/zh
Publication of CN116342857A publication Critical patent/CN116342857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,尤其涉及一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端,我们不再利用类别特征图进行定位,而采用由粗略到精细的流程。本发明的模型由主干网络、定位网络和分类网络组成,首先由定位网络利用无监督分割技术生成类别无关的分割图,从而确定目标物体的粗略位置。之后由分类网络再通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体,对于轮廓细节也可以进行很好的识别。

Description

一种基于类别修正的弱监督目标定位方法
技术领域
本发明属于计算机视觉领域,涉及一种基于类别修正的弱监督目标定位方法。
背景技术
目标定位是计算机视觉领域一个基础性的感知任务,其目的在于定位图像中的目标物体的具***置,并且判断目标物体所属类别。然而在实际应用中,为了让算法模型具有良好的泛化性能,往往需要耗费大规模的人工成本进行目标边界框甚至是像素级别的标注。由于标注成本的问题,弱监督目标定位任务往往通过依靠容易获取和标注的类别标签使得模型具有定位物体的能力。针对弱监督目标定位问题,国内外主流研究是基于CAM技术,通过图中和类别相关的注意力高亮区域来确定物体的位置。但此类方法通常只能定位出物体具有类别辨识度的部分,造成算法定位框往往小于目标物体的不准确问题。因此,如何获取精确的定位框成为弱监督目标定位领域亟需解决的问题。
发明内容
本发明主要是提供了一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端,我们不再利用类别特征图进行定位,而采用由粗略到精细的流程。本发明的算法由一个定位网络和一个分类网络组成。首先由定位网络利用无监督分割技术生成类别无关的分割图,从而确定目标物体的粗略位置。之后由分类网络通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体,对于轮廓细节也可以很好地识别。
本发明提供的技术方案中,由粗略到精细的目标定位方法包括训练阶段和测试阶段,其中训练阶段包括如下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤2,对输入图像I,生成和训练样本有分布相似性的合成图像Is以及前景掩码Ms,然后将合成图像Is输入目标定位模型中,得到定位网络预测的掩码
Figure BDA0004156783310000011
步骤3,图片级细定位阶段:增大图像层次中前景和背景之间的差异,让定位网络更精确的定位;包括以下子步骤:
步骤3.1,由步骤2训练好的具有粗略定位能力的定位网络得到真实图片Ir的前景掩码预测
Figure BDA0004156783310000012
步骤3.2,将前景掩码预测
Figure BDA0004156783310000013
与真实图片Ir进行哈达玛积得到类别无关的前景注意力图像If,同时对前景掩码进行0-1转换为/>
Figure BDA0004156783310000021
将真实图片Ir与/>
Figure BDA0004156783310000022
进行哈达玛积得到类别无关的背景注意力图像If
步骤3.3,分别将前景注意力图像If和背景注意力图像Ib送进分类网络进行预测,得到预测的概率特征
Figure BDA0004156783310000023
以及/>
Figure BDA0004156783310000024
步骤4,特征级精细定位阶段:在图像级别的前景和背景差异得到放大之后,利用与步骤3中相同的方法增大特征层次前景和背景之间的差异,让定位网络进一步修正被错误定位的细节,输出最终的定位结果;
测试阶段的过程如下:
断开定位网络和分类网络的连接,通过对定位网络的前景掩码进行阈值筛选,得到最终的定位框:
Figure BDA0004156783310000025
其中
Figure BDA0004156783310000026
表示测试样本通过定位网络预测得到的掩码,θ为筛选的阈值,Select函数选择/>
Figure BDA0004156783310000027
大于阈值的部分并返回一个包含所有前景坐标的最小边界框作为最终确定的定位框Box。
进一步的,步骤1中主干网络采用U-Net网络结构,定位网络采用CNN卷积网络结构。
进一步的,步骤2中采用BigBiGAN的方法生成合成图像和掩码。
进一步的,步骤2中获得掩码
Figure BDA0004156783310000028
的具体公式如下:
Figure BDA0004156783310000029
其中θB和θL分别代表主干网络和定位网络的参数。
进一步的,采用二分交叉熵函数对定位网络进行优化,损失函数如下:
Figure BDA00041567833100000210
其中m,n为掩码的宽度和高度,
Figure BDA00041567833100000211
为前景掩码Ms中i行j列的元素,/>
Figure BDA00041567833100000212
为预测掩码/>
Figure BDA00041567833100000213
中i行j列的元素。
进一步的,步骤3.3中预测的概率特征
Figure BDA00041567833100000214
以及/>
Figure BDA00041567833100000215
的计算公式如下:
Figure BDA00041567833100000216
其中θB和θC分别代表主干网络和分类器的参数,对前景和背景注意力图像的损失函数具体如下:
Figure BDA00041567833100000217
其中
Figure BDA00041567833100000218
是前景注意力图像的交叉熵函数,/>
Figure BDA00041567833100000219
是背景注意力图像的熵的负数,K是数据集整体的类别数,在图片级细定位阶段整体的损失函数可以表示为:
Figure BDA0004156783310000031
其中α和B是平衡参数。
进一步的,步骤4的具体实现方式如下;
步骤4.1,对于真实图片Ir,用经过步骤3训练的定位网络得到特征图
Figure BDA0004156783310000032
和掩码/>
Figure BDA0004156783310000033
特征图的计算公式如下所示:
Figure BDA0004156783310000034
其中θB为主干网络的参数;
步骤4.2,将特征图
Figure BDA0004156783310000035
与掩码/>
Figure BDA0004156783310000036
以及掩码的0-1转换/>
Figure BDA0004156783310000037
分别进行哈达玛积,得到前景特征图/>
Figure BDA0004156783310000038
和背景特征图/>
Figure BDA0004156783310000039
公式如下:
Figure BDA00041567833100000310
步骤4.3,固定由步骤3训练好的分类网络权重,将其作为掩码质量的判断器,分别将前景特征图
Figure BDA00041567833100000311
和背景特征图/>
Figure BDA00041567833100000312
送进分类网络进行预测,得到预测的概率特征/>
Figure BDA00041567833100000313
以及/>
Figure BDA00041567833100000314
Figure BDA00041567833100000315
其中θC代表分类器的参数;具体损失函数如下:
Figure BDA00041567833100000316
其中
Figure BDA00041567833100000317
是前景特征的交叉熵,/>
Figure BDA00041567833100000318
是背景特征的熵的负数,K是训练样本整体的类别数,在特征级精细定位阶段整体的损失函数可以表示为:
Figure BDA00041567833100000319
其中α和β是平衡参数。
进一步的,阈值θ的取值为0.55±0.05。
进一步的,α和β的取值均为1。
与现有技术相比,本发明的有益效果是:
本发明规避了CAM技术带来的定位偏小的缺点,CAM全程通过类别信息训练来得到类别注意力图像,但其忽略了类别辨识度不高的物体区域,从而只能进行粗略定位,对于细粒度数据集的定位效果尤其糟糕。本发明采用类别无关信息和类别相关信息相结合的流程,利用类别无关的分割图训练网络,再通过类别信息进行细节修正,从而达到精细定位的效果。本发明可以完整地定位出物体的轮廓,特征图可以清晰的勾勒出目标物体的轮廓信息。在精细定位阶段,类别信息起到辅助修正的作用,不会使网络忽略类别辨识度低的前景区域,从而跳出CAM技术的弊端。
附图说明
图1为本发明实施例中的训练流程图。
图2为本发明实施例中的测试流程图。
具体实施方式
以下结合附图和具体实施例来对本发明做进一步的说明。
本发明提出了一种基于类别修正的弱监督目标定位算法。该算法既利用了类别无关信息也利用了类别相关的信息,同时避免了CAM[1]技术的弊端。本发明提出了一种***-分类器的双头网络结构来学习类别无关的信息和类别相关的信息。***由一个分割网络组成,其预测的是输入图像的前景掩码。分类器则分别从图像层级和特征层级对***的预测结构进行修正。
[1]B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba,“Learning deepfeatures for discriminative localization,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,pp.2921–2929.
本发明提出了由粗略到精细的训练过程来优化算法模型,如附图1所示。在粗略定位阶段,对于类别无关的信息,我们通过无监督方法生成合成图像Is以及前景掩码Ms。相关的无监督方法包括[2],[3]。***预测合成图像Is的掩码并通过无监督生成的Ms进行监督,进而具有和类别无关的特征分割能力。
[2]A.Voynov,S.Morozov,and A.Babenko,“Object segmentation withoutlabels with large-scale generative models,”in International Conference onMachine Learning.PMLR,2021,pp.10 596–10 606
[3]M.Chen,T.Artieres,and L.Denoyer,“Unsupervised object segmenta-`tion by redrawing,”Advances in Neural Information Processing Systems,vol.32,2019.
在精细定位阶段,具有粗略定位能力的***首先预测真实图片Ir的前景掩码
Figure BDA0004156783310000041
为了进一步增大前景和背景的差异,我们通过前景掩码和原始图像做哈达玛积得到前景注意力图像和背景注意力图像。分类器这时候对两种注意力图像分别进行不同的分类任务来优化:前景图像由类别标签进行监督,背景图像则不应该归属于任何一类,通过抑制其高归属类别进行监督,从而使本发明进一步增加了特征层次中前景和背景的差异。对***的特征图与其预测的前景掩码进行哈达玛积得到分离后的前景特征图和背景特征图。在图像层级的精细定位过后,分类器将学习到一定的前景分类能力,此时固定分类器的权重使其不再参与梯度回传,利用分类器去判断前景和背景特征图的分离质量,从而增大其在特征层次的前景背景可区分度。
在经过图像层级和特征层级的精细定位训练之后,***通过类别修正可以更好从语义的角度判断前景和背景的区域,同时又避免了CAM技术无法发现不具有类别辨识度的前景这一缺点,本发明可以精确的预测出物体的轮廓。这是因为***是基于类别无关的特征训练,因此对于轮廓、纹理信息本身具有很好的识别。在得到类别修正之后,算法对语义相关和语义无关的前景信息都具有了判断能力。
如附图2所示,测试阶段,本发明取经过训练的***来完成目标定位任务。首先***预测关于真实图片Ir的掩码
Figure BDA0004156783310000051
由预先确定好的阈值对前景掩码/>
Figure BDA0004156783310000052
进行二值化处理得到二值前景掩码/>
Figure BDA0004156783310000053
其中前景值为1,背景值为0。此时前景值可能是不连续的、一簇一簇的,本发明选取最大的连续前景值簇作为预测前景,其余皆视为背景。对筛选出的前景,取包含其的最紧致边界框(即包含所有前景坐标的最小边界框)作为目标物体的定位框Box。
实施例提供的流程具体包括以下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤2:通过GAN等无监督算法,生成和训练样本有分布相似性的合成图像Is以及前景掩码Ms,实例中选择了BigBiGAN[2]的方法生成合成图像和掩码。然后将合成图像Is输入目标定位模型中,得到定位网络所预测的前景掩码
Figure BDA0004156783310000054
公式如下:
Figure BDA0004156783310000055
其中θB和θL分别代表主干网络和定位网络的参数,实例中θB采用U-Net网络结构,θL采用CNN卷积网络结构。f为网络预测掩码的过程。掩码
Figure BDA0004156783310000056
中对应像素的值越靠近1说明定位网络越倾向于将其判断为前景,反之,像素值越靠近0代表定位网络越倾向于判断其为背景。之后算法采用二分交叉熵函数(binary cross-entropy)对定位网络进行优化。损失函数如下:
Figure BDA0004156783310000057
其中m,n为掩码的宽度和高度,
Figure BDA0004156783310000058
为前景掩码Ms中i行j列的元素,/>
Figure BDA0004156783310000059
为预测掩码
Figure BDA00041567833100000510
中i行j列的元素。通过步骤2,定位网络具有粗略的类别无关的定位能力,接下来利用类别信息对定位网络进行类别相关修正。
步骤3:图片级细定位阶段:从图像层次增大前景和背景之间的差异性以修正图像。步骤3可分为以下子步骤:
步骤3.1:通过具有粗定位能力的定位网络得到真实图片Ir的预测掩码
Figure BDA0004156783310000061
步骤3.2:利用类别信息评价掩码
Figure BDA0004156783310000062
的质量,并在训练过程中予以修正。将样本Ir与掩码/>
Figure BDA0004156783310000063
以及掩码的0-1转换/>
Figure BDA0004156783310000064
分别进行哈达玛积/>
Figure BDA0004156783310000065
计算,得到前景注意力图像和背景注意力图像,公式如下:
Figure BDA0004156783310000066
步骤3.3:分别将前景注意力图像If和背景注意力图像Ib送进分类网络进行预测,得到预测的概率特征
Figure BDA0004156783310000067
以及/>
Figure BDA0004156783310000068
在实例中的公式表现为:
Figure BDA0004156783310000069
其中θB和θC分别代表主干网络和分类网络的参数。对于If,利用类别标签进行监督,损失函数为交叉熵函数。对于Ib,其不属于任何一类,因此希望模型对于Ib的类别概率预测趋于平均,使其既没有过高的概率预测类别也没有过低的概率类别。在实例中表现为令Ib的预测概率的熵尽可能地大。对前景,背景注意力图像的损失函数具体如下:
Figure BDA00041567833100000610
其中
Figure BDA00041567833100000611
是前景注意力图像的交叉熵函数,/>
Figure BDA00041567833100000612
是背景注意力图像的熵的负数,K是训练样本整体的类别数。在图片级细定位阶段整体的损失函数可以表示为:
Figure BDA00041567833100000613
其中α和β是平衡参数,在实践中经过大量实验检验,发现均设置为1就可以使算法取得很好的效果。本步骤中,一方面在图像层级对***进行了类别相关修正,另一方面训练分类器具有分类能力,为下一步骤中在特征层面进行类别修正做好准备。
步骤4:在图像级别的前景和背景差异得到增大之后,本步骤还需要进一步确保在特征层次,前景和背景仍然具有差异性,这样才会更加有利于定位网络进行前景定位。步骤4可以细分为以下子步骤:
步骤4.1:对于真实图片Ir,用经过步骤3训练的定位网络得到特征图
Figure BDA00041567833100000614
和掩码/>
Figure BDA00041567833100000615
其中掩码的计算公式同(1),特征图的计算公式如下所示:
Figure BDA00041567833100000616
其中θB为主干网络的参数。
步骤4.2:将特征图
Figure BDA0004156783310000071
与掩码/>
Figure BDA0004156783310000072
以及掩码的0-1转换/>
Figure BDA0004156783310000073
分别进行哈达玛积,得到前景特征图/>
Figure BDA0004156783310000074
和背景特征图/>
Figure BDA0004156783310000075
公式如下:
Figure BDA0004156783310000076
步骤4.3:固定由步骤3训练好的分类网络权重,将其作为掩码质量的判断器。分别将前景特征图
Figure BDA0004156783310000077
和背景特征图/>
Figure BDA0004156783310000078
送进分类网络进行预测,得到预测的概率特征/>
Figure BDA0004156783310000079
以及/>
Figure BDA00041567833100000710
在实例中的公式表现为:
Figure BDA00041567833100000711
其中θC代表分类网络的参数。对于前景概率特征和背景概率特征的函数和步骤3.3中是一致的。算法采用最小化交叉熵函数优化前景概率特征,采用最大化熵函数优化背景概率特征,在实例中其具体损失函数如下:
Figure BDA00041567833100000712
其中
Figure BDA00041567833100000713
是前景特征的交叉熵,/>
Figure BDA00041567833100000714
是背景特征的熵的负数,K是训练样本整体的类别数。在特征级精细定位阶段整体的损失函数可以表示为:
Figure BDA00041567833100000715
其中α和β是平衡参数,在实践中经过大量实验检验,和步骤3一致,发现均设置为1就可以使算法取得很好的效果。
尽管步骤4和步骤3具有相似之处,但是步骤4是必要的。因为在步骤3的时候分类网络也是参与训练的,也就是说损失函数一部分在纠正定位模型的特征,但更大的一部分在调整分类网络。但步骤4我们通过固定分类网络以及在特征层次上进行调整,可以让类别信息更充分地传递到定位网络,对网络的定位结果进行细粒度修正。与此同时,步骤3亦是不可或缺的,缺乏步骤3就无法得到一个有泛化能力的分类网络。
具体实现时还有以下注意事项:
本发明测试阶段,对于阈值θ的选取,通过大量实验证明,在CUB数据集中取阈值为0.55可以得到很好的结果。需要指出的是,相比于同类方法,本发明中的方法对阈值的敏感性是不高的,在±0.15的范围内都可以取到很好的效果,而同类方法的阈值容忍区间往往小于±0.05。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (9)

1.一种基于类别修正的弱监督目标定位方法,其特征在于:包括训练阶段和测试阶段,其中训练阶段包括如下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤2,对输入图像I,生成和训练样本有分布相似性的合成图像Is以及前景掩码Ms,然后将合成图像Is输入目标定位模型中,得到定位网络预测的掩码
Figure FDA0004156783300000011
步骤3,图片级细定位阶段:增大图像层次中前景和背景之间的差异,让定位网络更精确的定位;包括以下子步骤:
步骤3.1,由步骤2训练好的具有粗略定位能力的定位网络得到真实图片Ir的前景掩码预测
Figure FDA0004156783300000012
步骤3.2,将前景掩码预测
Figure FDA0004156783300000013
与真实图片Ir进行哈达玛积得到类别无关的前景注意力图像If,同时对前景掩码进行0-1转换为/>
Figure FDA0004156783300000014
将真实图片Ir与/>
Figure FDA0004156783300000015
进行哈达玛积得到类别无关的背景注意力图像Ib
步骤3.3,分别将前景注意力图像If和背景注意力图像Ib送进分类网络进行预测,得到预测的概率特征
Figure FDA0004156783300000016
以及/>
Figure FDA0004156783300000017
步骤4,特征级精细定位阶段:在图像级别的前景和背景差异得到放大之后,利用与步骤3中相同的方法增大特征层次前景和背景之间的差异,让定位网络进一步修正被错误定位的细节,输出最终的定位结果;
测试阶段的过程如下:
断开定位网络和分类网络的连接,通过对定位网络的前景掩码进行阈值筛选,得到最终的定位框:
Figure FDA0004156783300000018
其中
Figure FDA0004156783300000019
表示测试样本通过定位网络预测得到的掩码,θ为筛选的阈值,Select函数选择/>
Figure FDA00041567833000000110
大于阈值的部分并返回一个包含所有前景坐标的最小边界框作为最终确定的定位框Box。
2.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤1中主干网络采用U-Net网络结构,定位网络采用CNN卷积网络结构。
3.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤2中采用BigBiGAN的方法生成合成图像和掩码。
4.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤2中获得掩码
Figure FDA0004156783300000021
的具体公式如下:
Figure FDA0004156783300000022
其中θB和θL分别代表主干网络和定位网络的参数。
5.如权利要求4所述的一种基于类别修正的弱监督目标定位方法,其特征在于:采用二分交叉熵函数对定位网络进行优化,损失函数如下:
Figure FDA0004156783300000023
其中m,n为掩码的宽度和高度,
Figure FDA0004156783300000024
为前景掩码Ms中i行j列的元素,/>
Figure FDA0004156783300000025
为预测掩码/>
Figure FDA0004156783300000026
中i行j列的元素。
6.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤3.3中预测的概率特征
Figure FDA0004156783300000027
以及/>
Figure FDA0004156783300000028
的计算公式如下:
Figure FDA0004156783300000029
其中θB和θC分别代表主干网络和分类器的参数,对前景和背景注意力图像的损失函数具体如下:
Figure FDA00041567833000000210
其中
Figure FDA00041567833000000211
是前景注意力图像的交叉熵函数,/>
Figure FDA00041567833000000212
是背景注意力图像的熵的负数,K是数据集整体的类别数,在图片级细定位阶段整体的损失函数可以表示为:
Figure FDA00041567833000000213
其中α和β是平衡参数。
7.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤4的具体实现方式如下;
步骤4.1,对于真实图片Ir,用经过步骤3训练的定位网络得到特征图
Figure FDA00041567833000000214
和掩码/>
Figure FDA00041567833000000215
特征图的计算公式如下所示:
Figure FDA00041567833000000216
其中θB为主干网络的参数;
步骤4.2,将特征图
Figure FDA0004156783300000031
与掩码/>
Figure FDA0004156783300000032
以及掩码的0-1转换/>
Figure FDA0004156783300000033
分别进行哈达玛积,得到前景特征图/>
Figure FDA0004156783300000034
和背景特征图/>
Figure FDA0004156783300000035
公式如下:
Figure FDA0004156783300000036
步骤4.3,固定由步骤3训练好的分类网络权重,将其作为掩码质量的判断器,分别将前景特征图
Figure FDA0004156783300000037
和背景特征图/>
Figure FDA0004156783300000038
送进分类网络进行预测,得到预测的概率特征/>
Figure FDA0004156783300000039
以及/>
Figure FDA00041567833000000310
Figure FDA00041567833000000311
其中θC代表分类器的参数;具体损失函数如下:
Figure FDA00041567833000000312
其中
Figure FDA00041567833000000313
是前景特征的交叉熵,/>
Figure FDA00041567833000000314
是背景特征的熵的负数,K是训练样本整体的类别数,在特征级精细定位阶段整体的损失函数可以表示为:
Figure FDA00041567833000000315
其中α和β是平衡参数。
8.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:阈值θ的取值为0.55±0.05。
9.如权利要求6或7所述的一种基于类别修正的弱监督目标定位方法,其特征在于:α和β的取值均为1。
CN202310336796.7A 2023-03-28 2023-03-28 一种基于类别修正的弱监督目标定位方法 Pending CN116342857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310336796.7A CN116342857A (zh) 2023-03-28 2023-03-28 一种基于类别修正的弱监督目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310336796.7A CN116342857A (zh) 2023-03-28 2023-03-28 一种基于类别修正的弱监督目标定位方法

Publications (1)

Publication Number Publication Date
CN116342857A true CN116342857A (zh) 2023-06-27

Family

ID=86892823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310336796.7A Pending CN116342857A (zh) 2023-03-28 2023-03-28 一种基于类别修正的弱监督目标定位方法

Country Status (1)

Country Link
CN (1) CN116342857A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912184A (zh) * 2023-06-30 2023-10-20 哈尔滨工业大学 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912184A (zh) * 2023-06-30 2023-10-20 哈尔滨工业大学 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及***
CN116912184B (zh) * 2023-06-30 2024-02-23 哈尔滨工业大学 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及***

Similar Documents

Publication Publication Date Title
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN111444939B (zh) 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法
Kuznetsova et al. Expanding object detector's horizon: Incremental learning framework for object detection in videos
CN113724231B (zh) 一种基于语义分割和目标检测融合模型的工业缺陷检测方法
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN114648665A (zh) 一种弱监督目标检测方法及***
CN111275010A (zh) 一种基于计算机视觉的行人重识别方法
CN116342857A (zh) 一种基于类别修正的弱监督目标定位方法
CN114818963B (zh) 一种基于跨图像特征融合的小样本检测方法
CN115601307A (zh) 一种细胞自动检测方法
CN115861229A (zh) 一种基于YOLOv5s元器件封装缺陷X射线检测方法
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
CN112418358A (zh) 一种强化深度融合网络的车辆多属性分类方法
CN114078106A (zh) 基于改进Faster R-CNN的疵点检测方法
CN112307894A (zh) 一种社区监控场景下基于皱纹特征和姿态特征的行人年龄识别方法
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN116310293A (zh) 一种基于弱监督学习的生成高质量候选框目标检测方法
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及***
CN110968735B (zh) 一种基于球面相似度层次聚类的无监督行人重识别方法
CN111401286B (zh) 一种基于部件权重生成网络的行人检索方法
Zhao et al. Forward vehicle detection based on deep convolution neural network
CN114581722A (zh) 一种基于孪生残差网络的二阶段多分类工业图像缺陷检测方法
CN113688735A (zh) 一种图像分类方法、装置及电子设备
CN112733883B (zh) 一种点监督的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination