CN111428730B - 弱监督细粒度物体分类方法 - Google Patents
弱监督细粒度物体分类方法 Download PDFInfo
- Publication number
- CN111428730B CN111428730B CN201910019867.4A CN201910019867A CN111428730B CN 111428730 B CN111428730 B CN 111428730B CN 201910019867 A CN201910019867 A CN 201910019867A CN 111428730 B CN111428730 B CN 111428730B
- Authority
- CN
- China
- Prior art keywords
- rectangular area
- image
- input image
- classification
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种弱监督细粒度物体分类方法,包括:采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。通过采用上述方法可以显著提升分类精确度。
Description
技术领域
本发明涉及人工智能与计算机视觉技术领域,尤其涉及一种弱监督细粒度物体分类方法。
背景技术
细粒度图像分类又被称作子类别图像分类,是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分,但由于子类别间细微的类间差异和较大的类内差异,较之普通的图像分类任务,细粒度图像分类难度更大。
细粒度图像分类是一项极具挑战的研究课题,为了达到满意的分类结果,许多现有的分类算法都严重依赖于人工标注信息。借助于标注框能够完成对前景对象的检测,从而排除掉背景噪声的干扰;而局部区域位置则可以用来对一些有用的局部区域进行定位,或者进行姿态对齐等,以实现局部特征的提取。然而,人工标注信息的获取代价十分昂贵,这在很大程度上制约了这些分类算法的实用性。
发明内容
本发明的目的是提供一种弱监督细粒度物体分类方法,可以显著提升分类精确度。
本发明的目的是通过以下技术方案实现的:
一种弱监督细粒度物体分类方法,包括:
采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;
采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。
由上述本发明提供的技术方案可以看出,通过注意力机制筛选出有区分性的局部区域,再结合分类机制进行分类预测,无需使用标注信息,仅仅依靠类别标签即可完成图像分类任务,不仅节省成本,还可以显著提升分类精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种弱监督细粒度物体分类方法的示意图;
图2为本发明实施例提供的注意力机制示意图;
图3为本发明实施例提供的分类机制示意图;
图4为本发明实施例提供的多次随机擦除示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种弱监督细粒度物体分类方法,如图1所示,其主要包括:
1、采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像。
本发明实施例中,采用注意力机制进行矩形区域图像的提取之前,将输入图像的尺寸调整为2N*2N(例如,448*448)大小,筛选出若干矩形区域图像后,将每一矩形区域图像尺寸调整为N*N(例如,224*224)大小,提供给分类机制。
如图2所示,本步骤的优选实施方式如下:
1)采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列(例如,提取了T个)的矩形区域图像{Rt},每一矩形区域图像对应一个置信度{S(Rt)}, t=1,...,T。
2)按照置信度从大到 小的顺序进行排序,再进行非极大值抑制,(NMS),以剔除重合度较大的低置信度区域,从而筛选出M个矩形区域图像,作为有区分性的局部区域。
筛选出的矩形区域图像记为{Ri},其置信度记为{S(Ri)};分类机制会学习筛选出的每一矩形区域图像的局部特征,并给出相应矩形区域图像被判定为真实类别的概率 {P(Ri)},其中,i=1,...,M表示矩形区域图像的序号。
注意力机制提供的每个矩形区域图像的置信度{S(Ri)}和每个矩形区域图像在分类机制中被判定为真实类别的概率{P(Ri)}应是具有正相关性的。即,矩形区域图像的置信度越高,则在分类机制中被判定为真实类别的概率也越高,因此,{S(Ri)}和{P(Ri)}在排序上应具有一致性。
定义注意力机制损失函数为排序损失函数,优化矩形区域图像的置信度与被判定为真实类别的概率,使二者具有相同的顺序;注意力机制损失函数表示为:
f(x)=max{1-x,0}。
上式中,r=1,...,M。
2、采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。
如图3所示,本步骤的优选实施方式如下:
1)按照置信度大小,从M个矩形区域图像中筛选出前K个矩形区域图像,利用特征提取器分别提取每一个矩形区域图像的特征向量,所提取的特征向量依次通过一个全连接层与softmax层,得到矩形区域图像的预测结果{Pj(Rk)},其中,Pj(Rk)表示第k个矩形区域图像被预测为第j类的概率值。
2)输入图像记为X,采用与矩形区域图像相同的方式进行处理,得到相应的预测结果Pj(X);其中,Pj(X)表示输入图像X被预测为第j类的概率值;
3)为了能够更好的结合输入图片和局部区域的判别效果,将前K个矩形区域图像对应的特征向量,与输入图像的特征向量拼接在一起,得到拼接特征向量C,同样依次通过一个全连接层与softmax层,得到相应的预测结果Pj(C),即拼接特征向量C被预测为第j类的概率值;
4)再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成,得到最终预测结果,其中概率最大值对应的索引index即为预测出的该输入图像的类别:
本发明实施例中,分类机制的损失函数为M个矩形区域图像、输入图像X和以及拼接特征向量C的分类损失之和,表示为:
其中,g代表真实类别的索引,在训练过程中,真实类别的索引是已知的。
最终,联合损失函数Ltotal为注意力机制损失函数Latt和分类机制损失函数Lcls之和,表示为:
Ltotal=Latt+Lcls。
本发明实施例上述方案,涉及训练阶段与测试阶段,两个阶段主要过程类似,通过训练阶段不断优化注意力机制与分类机制所涉及的相关参数,优化完毕后进入测试阶段,可直接进行分类预测。
另外,本发明实施例中,在训练阶段还采用多次随机擦除的方式来实现数据增广,每次在输入图像中随机擦除一个随机大小的矩形区域图像,如图4所示,其中的白色矩形框为随机擦除的矩形区域。由于细粒度物体分类依赖于局部有区分性区域的定位和这些区域的特征学习,而多次随机擦除可以随机在图像的局部区域丢弃信息,因此多次随即擦除还可以提高细粒度物体分类在有区分性区域定位和区域特征学习上的鲁棒性,从而提升细粒度物体分类的精确度。
需要说明的是,图1~图4中所涉及的“输入图像”的内容仅为示例,即目前黑白图像形式的“输入图像”并不影响本发明的公开,同时,在实际应用时可以适用于其他内容、其他颜色的图像。
基于本发明实施例上述方案在现有数据集中进行了验证,其中在CUB-200-2011数据集上达到89.44%的精确度,在Stanford Cars数据集上达到94.3%的精确度,在FGVC-Aircraft上达到92.5%的精确度,与现有方法相比,本发明实施例上述方案显著提升了分类精确度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种弱监督细粒度物体分类方法,其特征在于,包括:
采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;
采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果;
其中,所述采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像包括:
采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列的矩形区域图像,每一矩形区域图像对应一个置信度;
按照置信度从大到 小的顺序进行排序,再进行非极大值抑制,从而筛选出M个矩形区域图像,作为有区分性的局部区域;
筛选出的矩形区域图像记为{Ri},其置信度记为{S(Ri)};分类机制会学习筛选出的每一矩形区域图像的局部特征,并给出相应矩形区域图像被判定为真实类别的概率{P(Ri)},其中,i=1,...,M表示矩形区域图像的序号;
矩形区域图像的置信度越高,则在分类机制中被判定为真实类别的概率也越高,定义注意力机制损失函数为排序损失函数,优化矩形区域图像的置信度与被判定为真实类别的概率,使二者具有相同的顺序;注意力机制损失函数表示为:
f(x)=max{1-x,0}
其中,r=1,...,M。
2.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,采用注意力机制进行矩形区域图像的提取之前,将输入图像的尺寸调整为2N*2N大小,筛选出若干矩形区域图像后,将每一矩形区域图像尺寸调整为N*N大小,提供给分类机制。
3.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,采用分类机制得到一个最终预测结果的步骤包括:
按照置信度大小,从M个矩形区域图像中筛选出前K个矩形区域图像,利用特征提取器分别提取每一个矩形区域图像的特征向量,所提取的特征向量依次通过一个全连接层与softmax层,得到矩形区域图像的预测结果{Pj(Rk)},其中,Pj(Rk)表示第k个矩形区域图像被预测为第j类的概率值;
输入图像记为X,采用与矩形区域图像相同的方式进行处理,得到相应的预测结果Pj(X);其中,Pj(X)表示输入图像X被预测为第j类的概率值;
将前K个矩形区域图像对应的特征向量,与输入图像的特征向量拼接在一起,得到拼接特征向量C,同样依次通过一个全连接层与softmax层,得到相应的预测结果Pj(C),即拼接特征向量C被预测为第j类的概率值;
再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成,得到最终预测结果,其中概率最大值对应的索引index即为预测出的该输入图像的类别:
5.根据权利要求1或4所述的一种弱监督细粒度物体分类方法,其特征在于,联合损失函数Ltotal为注意力机制损失函数Latt和分类机制损失函数Lcls之和,表示为:
Ltotal=Latt+Lcls。
6.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,该方法还包括:在训练阶段,采用多次随机擦除的方式来实现数据增广,每次在输入图像中随机擦除一个随机大小的矩形区域图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910019867.4A CN111428730B (zh) | 2019-01-09 | 2019-01-09 | 弱监督细粒度物体分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910019867.4A CN111428730B (zh) | 2019-01-09 | 2019-01-09 | 弱监督细粒度物体分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428730A CN111428730A (zh) | 2020-07-17 |
CN111428730B true CN111428730B (zh) | 2022-07-08 |
Family
ID=71545895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910019867.4A Active CN111428730B (zh) | 2019-01-09 | 2019-01-09 | 弱监督细粒度物体分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428730B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689091B (zh) * | 2019-10-18 | 2021-05-07 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN113158740B (zh) * | 2021-01-28 | 2022-09-09 | 中国科学技术大学 | 基于记忆机制前景感知建模的弱监督物体定位装置及方法 |
CN115080748B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 一种基于带噪标签学习的弱监督文本分类方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法 |
CN108062574A (zh) * | 2017-12-31 | 2018-05-22 | 厦门大学 | 一种基于特定类别空间约束的弱监督目标检测方法 |
CN108510000A (zh) * | 2018-03-30 | 2018-09-07 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
CN108615028A (zh) * | 2018-05-14 | 2018-10-02 | 北京主线科技有限公司 | 港口重型车辆的细粒度检测识别方法 |
CN108961350A (zh) * | 2018-07-17 | 2018-12-07 | 北京工业大学 | 一种基于显著度匹配的画风迁移方法 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和*** |
CN109086792A (zh) * | 2018-06-26 | 2018-12-25 | 上海理工大学 | 基于检测和识别网络架构的细粒度图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356777B2 (en) * | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
-
2019
- 2019-01-09 CN CN201910019867.4A patent/CN111428730B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法 |
CN108062574A (zh) * | 2017-12-31 | 2018-05-22 | 厦门大学 | 一种基于特定类别空间约束的弱监督目标检测方法 |
CN108510000A (zh) * | 2018-03-30 | 2018-09-07 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
CN108615028A (zh) * | 2018-05-14 | 2018-10-02 | 北京主线科技有限公司 | 港口重型车辆的细粒度检测识别方法 |
CN109086792A (zh) * | 2018-06-26 | 2018-12-25 | 上海理工大学 | 基于检测和识别网络架构的细粒度图像分类方法 |
CN108961350A (zh) * | 2018-07-17 | 2018-12-07 | 北京工业大学 | 一种基于显著度匹配的画风迁移方法 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和*** |
Non-Patent Citations (5)
Title |
---|
Diversfied Visual Attention Networks for Fine-Grained Object Classfication;Bo Zhao 等;《arXiv:1606.08572v2》;20170531;第1-11页 * |
Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN;Xiangteng He 等;《arXiv:1709.08295v1》;20170930;第1-9页 * |
Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition;Jianlong Fu 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171231;第4476-4484页 * |
Random Erasing Data Augmentation;Zhun Zhong 等;《arXiv:1708.04896v2》;20171130;第1-10页 * |
基于鉴别三元组模型和B-CNN模型的细粒度图像识别与分类算法研究;宋凯;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20180815;第2018年卷(第08期);第I138-489页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111428730A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080629B (zh) | 一种图像拼接篡改的检测方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
Tong et al. | Salient object detection via bootstrap learning | |
US8503792B2 (en) | Patch description and modeling for image subscene recognition | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
US8705866B2 (en) | Region description and modeling for image subscene recognition | |
US20230289979A1 (en) | A method for video moving object detection based on relative statistical characteristics of image pixels | |
CN101828201B (zh) | 图像处理装置及方法、学习装置及方法 | |
CN109829467A (zh) | 图像标注方法、电子装置及非暂态电脑可读取储存媒体 | |
US20210019872A1 (en) | Detecting near-duplicate image | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN111428730B (zh) | 弱监督细粒度物体分类方法 | |
CN109657715B (zh) | 一种语义分割方法、装置、设备及介质 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及*** | |
US11055584B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium that perform class identification of an input image using a discriminator that has undergone learning to perform class identification at different granularities | |
CN110689091B (zh) | 弱监督细粒度物体分类方法 | |
CN108647625A (zh) | 一种表情识别方法及装置 | |
CN109740572A (zh) | 一种基于局部彩色纹理特征的人脸活体检测方法 | |
US8503768B2 (en) | Shape description and modeling for image subscene recognition | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN109190456B (zh) | 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及*** | |
Bappy et al. | Real estate image classification | |
CN113343989A (zh) | 一种基于前景选择域自适应的目标检测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |