CN116342857A - 一种基于类别修正的弱监督目标定位方法 - Google Patents
一种基于类别修正的弱监督目标定位方法 Download PDFInfo
- Publication number
- CN116342857A CN116342857A CN202310336796.7A CN202310336796A CN116342857A CN 116342857 A CN116342857 A CN 116342857A CN 202310336796 A CN202310336796 A CN 202310336796A CN 116342857 A CN116342857 A CN 116342857A
- Authority
- CN
- China
- Prior art keywords
- network
- positioning
- foreground
- mask
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,尤其涉及一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端,我们不再利用类别特征图进行定位,而采用由粗略到精细的流程。本发明的模型由主干网络、定位网络和分类网络组成,首先由定位网络利用无监督分割技术生成类别无关的分割图,从而确定目标物体的粗略位置。之后由分类网络再通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体,对于轮廓细节也可以进行很好的识别。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于类别修正的弱监督目标定位方法。
背景技术
目标定位是计算机视觉领域一个基础性的感知任务,其目的在于定位图像中的目标物体的具***置,并且判断目标物体所属类别。然而在实际应用中,为了让算法模型具有良好的泛化性能,往往需要耗费大规模的人工成本进行目标边界框甚至是像素级别的标注。由于标注成本的问题,弱监督目标定位任务往往通过依靠容易获取和标注的类别标签使得模型具有定位物体的能力。针对弱监督目标定位问题,国内外主流研究是基于CAM技术,通过图中和类别相关的注意力高亮区域来确定物体的位置。但此类方法通常只能定位出物体具有类别辨识度的部分,造成算法定位框往往小于目标物体的不准确问题。因此,如何获取精确的定位框成为弱监督目标定位领域亟需解决的问题。
发明内容
本发明主要是提供了一种基于类别修正的弱监督目标定位方法。为了解决CAM技术的定位不准确的弊端,我们不再利用类别特征图进行定位,而采用由粗略到精细的流程。本发明的算法由一个定位网络和一个分类网络组成。首先由定位网络利用无监督分割技术生成类别无关的分割图,从而确定目标物体的粗略位置。之后由分类网络通过类别标签进行细粒度修正。此种基于类别修正的方法可以精准的定位物体,对于轮廓细节也可以很好地识别。
本发明提供的技术方案中,由粗略到精细的目标定位方法包括训练阶段和测试阶段,其中训练阶段包括如下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤3,图片级细定位阶段:增大图像层次中前景和背景之间的差异,让定位网络更精确的定位;包括以下子步骤:
步骤4,特征级精细定位阶段:在图像级别的前景和背景差异得到放大之后,利用与步骤3中相同的方法增大特征层次前景和背景之间的差异,让定位网络进一步修正被错误定位的细节,输出最终的定位结果;
测试阶段的过程如下:
断开定位网络和分类网络的连接,通过对定位网络的前景掩码进行阈值筛选,得到最终的定位框:
进一步的,步骤1中主干网络采用U-Net网络结构,定位网络采用CNN卷积网络结构。
进一步的,步骤2中采用BigBiGAN的方法生成合成图像和掩码。
其中θB和θL分别代表主干网络和定位网络的参数。
进一步的,采用二分交叉熵函数对定位网络进行优化,损失函数如下:
其中θB和θC分别代表主干网络和分类器的参数,对前景和背景注意力图像的损失函数具体如下:
其中α和B是平衡参数。
进一步的,步骤4的具体实现方式如下;
其中θB为主干网络的参数;
其中θC代表分类器的参数;具体损失函数如下:
其中α和β是平衡参数。
进一步的,阈值θ的取值为0.55±0.05。
进一步的,α和β的取值均为1。
与现有技术相比,本发明的有益效果是:
本发明规避了CAM技术带来的定位偏小的缺点,CAM全程通过类别信息训练来得到类别注意力图像,但其忽略了类别辨识度不高的物体区域,从而只能进行粗略定位,对于细粒度数据集的定位效果尤其糟糕。本发明采用类别无关信息和类别相关信息相结合的流程,利用类别无关的分割图训练网络,再通过类别信息进行细节修正,从而达到精细定位的效果。本发明可以完整地定位出物体的轮廓,特征图可以清晰的勾勒出目标物体的轮廓信息。在精细定位阶段,类别信息起到辅助修正的作用,不会使网络忽略类别辨识度低的前景区域,从而跳出CAM技术的弊端。
附图说明
图1为本发明实施例中的训练流程图。
图2为本发明实施例中的测试流程图。
具体实施方式
以下结合附图和具体实施例来对本发明做进一步的说明。
本发明提出了一种基于类别修正的弱监督目标定位算法。该算法既利用了类别无关信息也利用了类别相关的信息,同时避免了CAM[1]技术的弊端。本发明提出了一种***-分类器的双头网络结构来学习类别无关的信息和类别相关的信息。***由一个分割网络组成,其预测的是输入图像的前景掩码。分类器则分别从图像层级和特征层级对***的预测结构进行修正。
[1]B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba,“Learning deepfeatures for discriminative localization,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,pp.2921–2929.
本发明提出了由粗略到精细的训练过程来优化算法模型,如附图1所示。在粗略定位阶段,对于类别无关的信息,我们通过无监督方法生成合成图像Is以及前景掩码Ms。相关的无监督方法包括[2],[3]。***预测合成图像Is的掩码并通过无监督生成的Ms进行监督,进而具有和类别无关的特征分割能力。
[2]A.Voynov,S.Morozov,and A.Babenko,“Object segmentation withoutlabels with large-scale generative models,”in International Conference onMachine Learning.PMLR,2021,pp.10 596–10 606
[3]M.Chen,T.Artieres,and L.Denoyer,“Unsupervised object segmenta-`tion by redrawing,”Advances in Neural Information Processing Systems,vol.32,2019.
在精细定位阶段,具有粗略定位能力的***首先预测真实图片Ir的前景掩码为了进一步增大前景和背景的差异,我们通过前景掩码和原始图像做哈达玛积得到前景注意力图像和背景注意力图像。分类器这时候对两种注意力图像分别进行不同的分类任务来优化:前景图像由类别标签进行监督,背景图像则不应该归属于任何一类,通过抑制其高归属类别进行监督,从而使本发明进一步增加了特征层次中前景和背景的差异。对***的特征图与其预测的前景掩码进行哈达玛积得到分离后的前景特征图和背景特征图。在图像层级的精细定位过后,分类器将学习到一定的前景分类能力,此时固定分类器的权重使其不再参与梯度回传,利用分类器去判断前景和背景特征图的分离质量,从而增大其在特征层次的前景背景可区分度。
在经过图像层级和特征层级的精细定位训练之后,***通过类别修正可以更好从语义的角度判断前景和背景的区域,同时又避免了CAM技术无法发现不具有类别辨识度的前景这一缺点,本发明可以精确的预测出物体的轮廓。这是因为***是基于类别无关的特征训练,因此对于轮廓、纹理信息本身具有很好的识别。在得到类别修正之后,算法对语义相关和语义无关的前景信息都具有了判断能力。
如附图2所示,测试阶段,本发明取经过训练的***来完成目标定位任务。首先***预测关于真实图片Ir的掩码由预先确定好的阈值对前景掩码/>进行二值化处理得到二值前景掩码/>其中前景值为1,背景值为0。此时前景值可能是不连续的、一簇一簇的,本发明选取最大的连续前景值簇作为预测前景,其余皆视为背景。对筛选出的前景,取包含其的最紧致边界框(即包含所有前景坐标的最小边界框)作为目标物体的定位框Box。
实施例提供的流程具体包括以下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤2:通过GAN等无监督算法,生成和训练样本有分布相似性的合成图像Is以及前景掩码Ms,实例中选择了BigBiGAN[2]的方法生成合成图像和掩码。然后将合成图像Is输入目标定位模型中,得到定位网络所预测的前景掩码公式如下:
其中θB和θL分别代表主干网络和定位网络的参数,实例中θB采用U-Net网络结构,θL采用CNN卷积网络结构。f为网络预测掩码的过程。掩码中对应像素的值越靠近1说明定位网络越倾向于将其判断为前景,反之,像素值越靠近0代表定位网络越倾向于判断其为背景。之后算法采用二分交叉熵函数(binary cross-entropy)对定位网络进行优化。损失函数如下:
步骤3:图片级细定位阶段:从图像层次增大前景和背景之间的差异性以修正图像。步骤3可分为以下子步骤:
其中θB和θC分别代表主干网络和分类网络的参数。对于If,利用类别标签进行监督,损失函数为交叉熵函数。对于Ib,其不属于任何一类,因此希望模型对于Ib的类别概率预测趋于平均,使其既没有过高的概率预测类别也没有过低的概率类别。在实例中表现为令Ib的预测概率的熵尽可能地大。对前景,背景注意力图像的损失函数具体如下:
其中α和β是平衡参数,在实践中经过大量实验检验,发现均设置为1就可以使算法取得很好的效果。本步骤中,一方面在图像层级对***进行了类别相关修正,另一方面训练分类器具有分类能力,为下一步骤中在特征层面进行类别修正做好准备。
步骤4:在图像级别的前景和背景差异得到增大之后,本步骤还需要进一步确保在特征层次,前景和背景仍然具有差异性,这样才会更加有利于定位网络进行前景定位。步骤4可以细分为以下子步骤:
其中θB为主干网络的参数。
其中θC代表分类网络的参数。对于前景概率特征和背景概率特征的函数和步骤3.3中是一致的。算法采用最小化交叉熵函数优化前景概率特征,采用最大化熵函数优化背景概率特征,在实例中其具体损失函数如下:
其中α和β是平衡参数,在实践中经过大量实验检验,和步骤3一致,发现均设置为1就可以使算法取得很好的效果。
尽管步骤4和步骤3具有相似之处,但是步骤4是必要的。因为在步骤3的时候分类网络也是参与训练的,也就是说损失函数一部分在纠正定位模型的特征,但更大的一部分在调整分类网络。但步骤4我们通过固定分类网络以及在特征层次上进行调整,可以让类别信息更充分地传递到定位网络,对网络的定位结果进行细粒度修正。与此同时,步骤3亦是不可或缺的,缺乏步骤3就无法得到一个有泛化能力的分类网络。
具体实现时还有以下注意事项:
本发明测试阶段,对于阈值θ的选取,通过大量实验证明,在CUB数据集中取阈值为0.55可以得到很好的结果。需要指出的是,相比于同类方法,本发明中的方法对阈值的敏感性是不高的,在±0.15的范围内都可以取到很好的效果,而同类方法的阈值容忍区间往往小于±0.05。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (9)
1.一种基于类别修正的弱监督目标定位方法,其特征在于:包括训练阶段和测试阶段,其中训练阶段包括如下步骤:
步骤1,构建目标定位模型,所述目标定位模型包括主干网络,分类网络和定位网络,其中主干网络对输入图像进行特征提取,分类网络和定位网络是对偶的网络,对从主干网络提取的特征进行类别和掩码的预测;
步骤3,图片级细定位阶段:增大图像层次中前景和背景之间的差异,让定位网络更精确的定位;包括以下子步骤:
步骤4,特征级精细定位阶段:在图像级别的前景和背景差异得到放大之后,利用与步骤3中相同的方法增大特征层次前景和背景之间的差异,让定位网络进一步修正被错误定位的细节,输出最终的定位结果;
测试阶段的过程如下:
断开定位网络和分类网络的连接,通过对定位网络的前景掩码进行阈值筛选,得到最终的定位框:
2.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤1中主干网络采用U-Net网络结构,定位网络采用CNN卷积网络结构。
3.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤2中采用BigBiGAN的方法生成合成图像和掩码。
7.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:步骤4的具体实现方式如下;
其中θB为主干网络的参数;
其中θC代表分类器的参数;具体损失函数如下:
其中α和β是平衡参数。
8.如权利要求1所述的一种基于类别修正的弱监督目标定位方法,其特征在于:阈值θ的取值为0.55±0.05。
9.如权利要求6或7所述的一种基于类别修正的弱监督目标定位方法,其特征在于:α和β的取值均为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310336796.7A CN116342857A (zh) | 2023-03-28 | 2023-03-28 | 一种基于类别修正的弱监督目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310336796.7A CN116342857A (zh) | 2023-03-28 | 2023-03-28 | 一种基于类别修正的弱监督目标定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342857A true CN116342857A (zh) | 2023-06-27 |
Family
ID=86892823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310336796.7A Pending CN116342857A (zh) | 2023-03-28 | 2023-03-28 | 一种基于类别修正的弱监督目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342857A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912184A (zh) * | 2023-06-30 | 2023-10-20 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及*** |
-
2023
- 2023-03-28 CN CN202310336796.7A patent/CN116342857A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912184A (zh) * | 2023-06-30 | 2023-10-20 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及*** |
CN116912184B (zh) * | 2023-06-30 | 2024-02-23 | 哈尔滨工业大学 | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN111444939B (zh) | 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法 | |
Kuznetsova et al. | Expanding object detector's horizon: Incremental learning framework for object detection in videos | |
CN113724231B (zh) | 一种基于语义分割和目标检测融合模型的工业缺陷检测方法 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
CN108564598B (zh) | 一种改进的在线Boosting目标跟踪方法 | |
CN114648665A (zh) | 一种弱监督目标检测方法及*** | |
CN111275010A (zh) | 一种基于计算机视觉的行人重识别方法 | |
CN116342857A (zh) | 一种基于类别修正的弱监督目标定位方法 | |
CN114818963B (zh) | 一种基于跨图像特征融合的小样本检测方法 | |
CN115601307A (zh) | 一种细胞自动检测方法 | |
CN115861229A (zh) | 一种基于YOLOv5s元器件封装缺陷X射线检测方法 | |
CN116051479A (zh) | 融合跨域迁移和异常检测的纺织品缺陷识别方法 | |
CN112418358A (zh) | 一种强化深度融合网络的车辆多属性分类方法 | |
CN114078106A (zh) | 基于改进Faster R-CNN的疵点检测方法 | |
CN112307894A (zh) | 一种社区监控场景下基于皱纹特征和姿态特征的行人年龄识别方法 | |
CN116681961A (zh) | 基于半监督方法和噪声处理的弱监督目标检测方法 | |
CN116310293A (zh) | 一种基于弱监督学习的生成高质量候选框目标检测方法 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及*** | |
CN110968735B (zh) | 一种基于球面相似度层次聚类的无监督行人重识别方法 | |
CN111401286B (zh) | 一种基于部件权重生成网络的行人检索方法 | |
Zhao et al. | Forward vehicle detection based on deep convolution neural network | |
CN114581722A (zh) | 一种基于孪生残差网络的二阶段多分类工业图像缺陷检测方法 | |
CN113688735A (zh) | 一种图像分类方法、装置及电子设备 | |
CN112733883B (zh) | 一种点监督的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |