CN115496948A - 一种基于深度学习的网络监督细粒度图像识别方法和*** - Google Patents

一种基于深度学习的网络监督细粒度图像识别方法和*** Download PDF

Info

Publication number
CN115496948A
CN115496948A CN202211167812.6A CN202211167812A CN115496948A CN 115496948 A CN115496948 A CN 115496948A CN 202211167812 A CN202211167812 A CN 202211167812A CN 115496948 A CN115496948 A CN 115496948A
Authority
CN
China
Prior art keywords
graph
feature
noise label
image
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211167812.6A
Other languages
English (en)
Inventor
林坚满
陈添水
林坚涛
杨志景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211167812.6A priority Critical patent/CN115496948A/zh
Publication of CN115496948A publication Critical patent/CN115496948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度学习的网络监督细粒度图像识别方法和***,通过对含有噪声标签的输入图像进行特征处理,获取含有噪声标签特征的实例图,利用含有标签的实例图为每个类别构建图原型,用所获得的含有噪声标签特征的实例图与图原型对预置的图匹配神经网络模型中进行训练,利用优化后的图匹配神经网络模型进行细粒度图像的识别;该方法基于深度学习进行细粒度图像的识别,通过引入图原型与含有噪声标签特征的实例图进行对比学习,能够有效地对噪声标签进行校正和对离群样本进行剔除,显著提高了细粒度图像识别的效率和准确率。

Description

一种基于深度学习的网络监督细粒度图像识别方法和***
技术领域
本发明涉及图像识别技术领域,更具体地,涉及一种基于深度学习的网络监督细粒度图像识别方法和***。
背景技术
细粒度图像识别旨在识别给定对象类别的子类,例如不同种类的鸟类以及飞机和汽车,在智慧建设以及互联网等领域有着重要的科学意义和应用价值。近年来,随着深度学习的不断发展,细粒度图像识别取得了很大的进展。
目前大部分算法主要采用以优质数据驱动的深度学习来实现细粒度图像识别,在很大程度上依赖于大规模的人工标注的数据,而这些数据集的收集之难以及数据标注成本之高已经成为制约其推广和普及的瓶颈。
在互联网高速发展的当下,网络上有大量的弱标签数据可用于缓解目前细粒度图像识别算法对人工标注的依赖,即将网络检索所得的数据用于训练神经网络模型。然而,网络检索的数据中包含一定比例的噪声标签,这会对模型的训练产生不良影响。此外,细粒度图像中固有的类间方差小和类内方差大的特点进一步提高了识别难度。
目前的现有技术公开了基于类间相似度的分布式标签的细粒度图像识别算法,包括以下步骤:使用骨干网络提取输入图像的特征表示;利用中心损失模块通过特征表示计算中心损失并更新类别中心;分类损失模块利用特征表示和最终标签分布计算分类损失(例如交叉熵损失),其中的最终标签分布通过计算独热标签分布和由类别中心生成的分布式标签分布的加权和得到;由中心损失和分类损失加权求和得到最终的目标损失函数,以此优化整个模型;现有技术中的方法能够通过降低模型预测的确信度缓解过拟合的问题,能够有效学习细粒度数据的辨别性特征,在一定程度上提高区分不同细粒度类别数据的准确性;但现有技术中的方法主要采用以优质数据驱动的深度学习来区分从属类别,依赖于大规模的人工标注的图像数据,数据收集及标注成本较高,在进行细粒度图像识别时常常费时费力,存在着效率和准确率均较低的问题。
发明内容
本发明为克服上述现有技术在进行细粒度图像识别时效率和准确率低下的缺陷,提供一种基于深度学习的网络监督细粒度图像识别方法和***,能够高效准确地对图像进行细粒度识别。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度学习的网络监督细粒度图像识别方法,包括以下步骤:
S1:从互联网中获取含有噪声标签的输入图像;
S2:对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
S3:根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
S4:根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
S5:将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
S6:获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。
优选地,所述步骤S2中,对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图,具体方法为:
用特征提取器对所述含有噪声标签的输入图像进行特征提取,获取整体特征图;将所述整体特征图通过一个卷积层,获取均值滤波后的整体特征图;对所述均值滤波后的整体特征图基于通道数计算每个位置的均值,获取整体均值特征图;搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标,根据最大响应值区域的坐标获取区域判别特征图。
优选地,所述搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标的具体方法为:
根据以下公式进行搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标:
Figure BDA0003862349850000021
Figure BDA0003862349850000022
其中,
Figure BDA0003862349850000023
表示整体均值特征图,f‘g表示均值滤波后的整体特征图,C表示均值滤波后的整体特征图的通道数,
Figure BDA0003862349850000031
表示搜寻最大响应值区域对应的行和列,(i,j)表示最大响应值区域的坐标。
优选地,所述步骤S3中,根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图,具体方法为:
将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度,获取相同维度的区域特征图;利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维,获取降维后的整体特征图和降维后的区域特征图;根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图:
Gins=<Vins,Eins>
其中,Gins表示含有噪声标签特征的实例图,Vins表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合,Eins表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵。
优选地,所述步骤S4中,根据所获取的含有噪声标签特征的实例图,构造图原型的具体方法为:
根据所获取的含有噪声标签特征的实例图,为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型,图原型采用移动平均的方式进行更新:
Gk=<Vk,Ek>
Figure BDA0003862349850000032
其中,Gk表示所构建的第k个类别的图原型,Vk表示第k个类别的图原型中所有特征点的集合,Ek表示第k个类别的图原型中特征点之间连接的邻接矩阵,G'k为更新后的图原型,m为预设参数。
优选地,所述步骤S5中,将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型,具体方法为:
所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层,获得优化后的图匹配神经网络模型包括以下步骤;
S5.1:将所获得的含有噪声标签特征的实例图Gins与图原型Gk输入图内传播层,获得第一特征矩阵和第二特征矩阵,将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新;
S5.2:将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合,获得聚合特征向量;
S5.3:将所述聚合特征向量输入图间传播层进行图卷积操作,并迭代更新所述聚合特征向量,获得第一特征表达fins和第二特征表达Zk
S5.4:将第一特征表达fins和第二特征表达Zk输入图匹配层计算相似度Sk,根据相似度Sk计算图匹配损失
Figure BDA0003862349850000044
S5.5:对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本进行剔除;
S5.6:计算分类交叉熵损失
Figure BDA0003862349850000045
和总损失
Figure BDA0003862349850000046
根据总损失
Figure BDA0003862349850000047
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型。
优选地,所述步骤S5.4中,将第一特征表达fins和第二特征表达Zk输入图匹配层计算相似度Sk,根据相似度Sk计算图匹配损失
Figure BDA0003862349850000048
具体为:
将所述第一特征表达fins和第二特征表达Zk输入图匹配层进行图匹配,并计算相似度Sk,具体为:
Figure BDA0003862349850000041
所述图匹配层设置图匹配损失函数,根据相似度Sk计算图匹配损失,所述图匹配损失函数具体为:
Figure BDA0003862349850000042
Figure BDA0003862349850000043
其中,
Figure BDA0003862349850000049
为图匹配损失,yi表示原始标签,k表示图原型的类别,K表示图原型的类别总数。
优选地,所述步骤S5.5中,对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本进行剔除,具体方法为:
所述图内传播层设置有分类器,将所述含有噪声标签特征的实例图输入分类器中,获得分类器分布概率pi,计算图匹配分布概率di,根据分类器分布概率pi和图匹配分布概率di计算总概率qi,具体为:
qi=αpi+(1-α)di
Figure BDA0003862349850000051
其中,α为预设参数,τ为温度系数;
根据总概率qi和预设阈值T对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本OOD进行剔除,具体为:
Figure BDA0003862349850000052
其中,
Figure BDA00038623498500000512
为伪标签,T为预设阈值,当总概率qi的最大值大于T时,将总概率qi最大值对应的类别作为伪标签;当总概率qi大于类别平均概率时,将原始标签yi作为伪标签,实现对含有噪声标签特征的实例图中的噪声标签进行修正;其他情况将OOD作为伪标签,OOD表示离群样本,实现对离群样本的剔除。
优选地,所述步骤S5.6中,计算分类交叉熵损失
Figure BDA0003862349850000055
和总损失
Figure BDA0003862349850000056
根据总损失
Figure BDA0003862349850000057
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型,具体方法为:
所述图内传播层设置有分类交叉熵损失函数,具体为:
Figure BDA0003862349850000053
其中,
Figure BDA0003862349850000058
为分类交叉熵损失,pij为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率,
Figure BDA0003862349850000059
为第i张含有噪声标签特征的实例图相对第j个类别的伪标签;
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数,所述总损失函数具体为:
Figure BDA0003862349850000054
其中,
Figure BDA00038623498500000510
为总损失,λpro为比例系数;
根据总损失
Figure BDA00038623498500000511
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型。
本发明还提供一种基于深度学习的网络监督细粒度图像识别***,应用上述一种基于深度学习的网络监督细粒度图像识别方法,包括:
图像获取单元:用来从互联网中获取含有噪声标签的输入图像;
特征提取单元:用来对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
实例图生成单元:用来根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
图原型构造单元:用来根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
图匹配单元:用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
图像识别单元:用来获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供一种基于深度学习的网络监督细粒度图像识别方法和***,该方法通过对含有噪声标签的输入图像进行特征处理,获取含有噪声标签特征的实例图,利用含有噪声标签特征的实例图为每个类别构建一个对应的图原型,用所获得的含有噪声标签特征的实例图与图原型对预置的图像匹配神经网络模型中进行训练以及噪声标签的修正,利用优化后的图像匹配神经网络模型进行细粒度图像的识别;该方法基于深度学习进行网络监督细粒度图像的识别,通过引入图原型与含有噪声标签特征的实例图进行对比学习,能够有效地对噪声标签进行校正,显著提高了细粒度图像识别的效率和准确率。
附图说明
图1为实施例1所提供的一种基于深度学习的网络监督细粒度图像识别方法流程图。
图2为实施例2所提供的一种基于深度学习的网络监督细粒度图像识别方法示意图。
图3为实施例3所提供的一种基于深度学习的网络监督细粒度图像识别***结构图。
301-图像获取单元,302-特征提取单元,303-实例图生成单元,304-图原型构造单元,305-图匹配单元,306-图像识别单元。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,本实施例提供一种基于深度学习的网络监督细粒度图像识别方法,包括以下步骤:
S1:从互联网中获取含有噪声标签的输入图像;
S2:对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
S3:根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
S4:根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
S5:将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
S6:获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。
在具体实施过程中,首先通过网络检索获取含有噪声标签的输入图像,之后用CNN卷积神经网络对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图,之后根据所获得的区域判别特征图和整体特征图获取含有噪声标签特征的实例图,之后根据含有噪声标签特征的实例图为每个类别构建一个对应的图原型,之后将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,并计算图匹配损失和分类交叉熵损失进行优化神经网络,获得优化后的图匹配神经网络模型,最后利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果;
该方法基于深度学习进行细粒度图像的识别,通过引入图原型与含有噪声标签特征的实例图进行对比学习,能够有效地对噪声标签进行校正,显著提高了细粒度图像识别的效率和准确率。
实施例2
如图2所示,本实施例提供一种基于深度学习的网络监督细粒度图像识别方法,包括以下步骤:
S1:从互联网中获取含有噪声标签的输入图像;
S2:对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图,具体方法为:
用特征提取器对所述含有噪声标签的输入图像进行特征提取,获取整体特征图;将所述整体特征图通过一个卷积层,获取均值滤波后的整体特征图;对所述均值滤波后的整体特征图基于通道数计算每个位置的均值,获取整体均值特征图;搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标,根据最大响应值区域的坐标获取区域判别特征图;
所述搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标的具体方法为:
根据以下公式进行搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标:
Figure BDA0003862349850000081
Figure BDA0003862349850000082
其中,
Figure BDA0003862349850000083
表示整体均值特征图,f‘g表示均值滤波后的整体特征图,C表示均值滤波后的整体特征图的通道数,
Figure BDA0003862349850000084
表示搜寻最大响应值区域对应的行和列,(i,j)表示最大响应值区域的坐标;
S3:根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图,具体方法为:
将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度,获取相同维度的区域特征图;利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维,获取降维后的整体特征图和降维后的区域特征图;根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图:
Gins=<Vins,Eins>
其中,Gins表示含有噪声标签特征的实例图,Vins表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合,Eins表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵;
S4:根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型,具体方法为:
根据所获取的含有噪声标签特征的实例图,为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型,图原型采用移动平均的方式进行更新:
Gk=<Vk,Ek>
Figure BDA0003862349850000091
其中,Gk表示所构建的第k个类别的图原型,Vk表示第k个类别的图原型中所有特征点的集合,Ek表示第k个类别的图原型中特征点之间连接的邻接矩阵,G'k为更新后的图原型,m为预设参数;
S5:将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层,获取优化后的图匹配神经网络模型包括以下步骤;
S5.1:将所获得的含有噪声标签特征的实例图Gins与图原型Gk输入图内传播层,获得第一特征矩阵和第二特征矩阵,将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新,具体为:
将所获得的含有噪声标签特征的实例图Gins与图原型Gk输入图内传播层,将降维后的整体特征图和降维后的区域特征图中所有特征点的集合Vins重构为第一特征矩阵
Figure BDA0003862349850000092
其中,n1为含有噪声标签特征的实例图所有特征点的数量,c1为含有噪声标签特征的实例图中每个特征点对应的维度;
将图原型中所有特征点的集合Vk重构为第二特征矩阵
Figure BDA0003862349850000093
其中,n2为图原型中所有特征点的数量,c2为图原型中每个特征点对应的维度;
对所述第一特征矩阵和第二特征矩阵分别进行图卷积操作,并迭代更新所述第一特征矩阵和第二特征矩阵,具体为:
Figure BDA0003862349850000094
Figure BDA0003862349850000095
其中,
Figure BDA0003862349850000096
为第l次迭代更新后的第一特征矩阵,
Figure BDA0003862349850000097
为第l次迭代更新后的第二特征矩阵,
Figure BDA0003862349850000098
Figure BDA0003862349850000099
为图内传播层的参数;
S5.2:将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合,获得聚合特征向量,具体为:
将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图像聚合层进行特征结合,获得聚合特征向量,具体为:
Figure BDA0003862349850000101
其中,
Figure BDA0003862349850000102
为聚合特征向量,
Figure BDA0003862349850000103
为更新后的第一特征矩阵,
Figure BDA0003862349850000104
为更新后的第二特征矩阵;
S5.3:将所述聚合特征向量输入图间传播层进行图卷积操作,并迭代更新所述聚合特征向量,获得第一特征表达fins和第二特征表达Zk,具体为:
将所述聚合特征向量输入图间传播层进行图卷积操作,并迭代更新所述聚合特征向量,具体为:
Figure BDA0003862349850000105
其中,
Figure BDA0003862349850000106
为第l次迭代更新后的聚合特征向量,Ecross为聚合特征向量的邻接矩阵,
Figure BDA0003862349850000107
Figure BDA0003862349850000108
为图间传播层的参数;
根据第l次迭代更新后的聚合特征向量获得第一特征表达fins和第二特征表达Zk
S5.4:将第一特征表达fins和第二特征表达Zk输入图匹配层计算相似度Sk,根据相似度Sk计算图匹配损失
Figure BDA00038623498500001012
具体为:
将所述第一特征表达fins和第二特征表达Zk输入图匹配层进行图匹配,并计算相似度Sk,具体为:
Figure BDA0003862349850000109
所述图匹配层设置图匹配损失函数,根据相似度Sk计算图匹配损失,所述图匹配损失函数具体为:
Figure BDA00038623498500001010
Figure BDA00038623498500001011
其中,
Figure BDA00038623498500001013
为图匹配损失,yi表示原始标签,k表示图原型的类别,K表示图原型的类别总数;
S5.5:对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本进行剔除,具体为:
所述图内传播层设置有分类器,将所述含有噪声标签特征的实例图输入分类器中,获得分类器分布概率pi,计算图匹配分布概率di,根据分类器分布概率pi和图匹配分布概率di计算总概率qi,具体为:
qi=αpi+(1-α)di
Figure BDA0003862349850000111
其中,α为预设参数,τ为温度系数;
根据总概率qi和预设阈值T对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本OOD进行剔除,具体为:
Figure BDA0003862349850000112
其中,
Figure BDA0003862349850000115
为伪标签,T为预设阈值,当总概率qi的最大值大于T时,将总概率qi最大值对应的类别作为伪标签;当总概率qi大于类别平均概率时,将原始标签yi作为伪标签,实现对含有噪声标签特征的实例图中的噪声标签进行修正;其他情况将OOD作为伪标签,OOD表示离群样本,实现对离群样本的剔除;
S5.6:计算分类交叉熵损失
Figure BDA0003862349850000116
和总损失
Figure BDA0003862349850000117
根据总损失
Figure BDA0003862349850000118
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型,具体为:
所述图内传播层设置有分类交叉熵损失函数,具体为:
Figure BDA0003862349850000113
其中,
Figure BDA0003862349850000119
为分类交叉熵损失,pij为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率,
Figure BDA00038623498500001110
为第i张含有噪声标签特征的实例图相对第j个类别的伪标签;
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数,所述总损失函数具体为:
Figure BDA0003862349850000114
其中,
Figure BDA0003862349850000125
为总损失,λpro为比例系数;
根据总损失
Figure BDA0003862349850000126
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型;
S6:获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。。
在具体实施过程中,首先通过网络检索获取含有噪声标签的输入图像,本实施例中所使用的数据集为WebFG-496,该数据集由三个子数据集组成,分别为Web-Bird、Web-Aircraft和Web-Car,所述含有噪声标签的输入图像尺寸为448×448;
之后设置以ResNet50-varian作为骨干CNN的卷积神经网络,用特征提取器对所述含有噪声标签的输入图像进行特征提取,获取整体特征图,所述整体特征图维度为14×14×2048;将所述整体特征图通过一个卷积层,获取均值滤波后的整体特征图;对所述均值滤波后的整体特征图基于通道数计算每个位置的均值,获取整体均值特征图;
根据以下公式进行搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标:
Figure BDA0003862349850000121
Figure BDA0003862349850000122
其中,
Figure BDA0003862349850000123
表示整体均值特征图,f‘g表示均值滤波后的整体特征图,C表示均值滤波后的整体特征图的通道数,
Figure BDA0003862349850000124
表示搜寻最大响应值区域对应的行和列,(i,j)表示最大响应值区域的坐标;
根据所获得的最大值响应区域的坐标在所述整体特征图中截取若干不同大小的局部区域,本实施例设置三种不同的面积大小S1、S2、S3以及三种不同的长宽比A1、A2、A3共9种组合,对所述整体特征图进行截取,其中三种不同面积大小S1、S2、S3分别为整体特征图面积的二分之一、三分之一、三分之二,三类不同的长宽比值A1、A2、A3分别为1、0.5、2;
用特征提取器对所截取的若干不同大小的局部区域进行特征提取,获取区域判别特征图;
构建含有噪声标签特征的实例图和每个类别对应的图原型,将得到的含有噪声标签特征的实例图和图原型分别输入图内传播层GCN进行图卷积操作,本实施例中,输出通道数分别为1024和2048;将输出的含有噪声标签特征的实例图和图原型特征进行聚合,并获得第一特征表达fins和第二特征表达Zk;根据第一特征表达fins和第二特征表达Zk分别计算图匹配损失和分类交叉熵损失来对图匹配神经网络模型进行优化;
本实施例中,α=0.5,τ=0.1,T=0.75,λpro=1;
从CUB200-2011、FGVC-Aircraft和Stanford Cars中获取待识别图像作为验证数据,提取待识别图像的特征后,利用所述优化后的图像匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果;
如下表所示,为不同方法细粒度图像的识别准确率对比图:
Figure BDA0003862349850000131
表1-不同方法细粒度图像的识别准确率对比图
与基本模型进行比较,本实施例中的方法在三个数据集上的性能表现都远超于各类基本模型,本实施例使用的骨干网络为ResNet-50,相比于单独ResNet-50模型,本实施例的方法在三个数据集上都有了大幅度的提升,平均识别准确率提升了20.14%;为了进行公平的比较,统一使用ResNet-50作为骨干网络,由图3可知,当使用ResNet-50作为骨干网络时,本实施例的方法取得最高的83.53%的平均准确率,而在Web-Bird、Web-Aircraft和Web-Car上的准确率分别为76.62%、85.79%和82.09%,比目前较为先进的方法Peer-learning高出2.23%、4.2%和1.94%;更进一步地使用其它模型如B-CNN作为骨干网络,从比较结果中可知,本实施例的方法可与不同的骨干网络进行适配,从而在细粒度图像识别中得到较为明显的性能提升;
该方法基于深度学习进行网络监督细粒度图像的识别,通过引入图原型与含有噪声标签特征的实例图进行对比学习,能够有效地对噪声标签进行校正,显著提高了细粒度图像识别的效率和准确率。
实施例3
如图3所示,本实施例提供一种基于深度学习的网络监督细粒度图像识别***,应用实施例1或2所述的基于深度学习的网络监督细粒度图像识别方法,包括:
图像获取单元301:用来从互联网中获取含有噪声标签的输入图像;
特征提取单元302:用来对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
实例图生成单元303:用来根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
图原型构造单元304:用来根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
图匹配单元305:用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
图像识别单元306:用来获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果;
在具体实施过程中,首先利用图像获取单元301进行网络检索,获取含有噪声标签的输入图像;之后利用特征提取单元302对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;利用实例图生成单元303根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;之后根据所获取的含有噪声标签特征的实例图,利用图原型构造单元304为每个类别构造图原型;之后利用图匹配单元305将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;最后图像识别单元306获取待识别图像,提取待识别图像特征后,利用所述优化后的图像匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果;
该***基于深度学习进行细粒度图像的识别,通过引入图原型与含有噪声标签特征的实例图进行对比学习,能够有效地对噪声标签进行校正,显著提高了细粒度图像识别的效率和准确率。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,包括以下步骤:
S1:从互联网中获取含有噪声标签的输入图像;
S2:对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
S3:根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
S4:根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
S5:将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
S6:获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。
2.根据权利要求1所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S2中,对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图,具体方法为:
用特征提取器对所述含有噪声标签的输入图像进行特征提取,获取整体特征图;将所述整体特征图通过一个卷积层,获取均值滤波后的整体特征图;对所述均值滤波后的整体特征图基于通道数计算每个位置的均值,获取整体均值特征图;搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标,根据最大响应值区域的坐标获取区域判别特征图。
3.根据权利要求2所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标的具体方法为:
根据以下公式进行搜寻整体均值特征图中的最大响应值区域,并定位最大响应值区域的坐标:
Figure FDA0003862349840000011
Figure FDA0003862349840000012
其中,
Figure FDA0003862349840000021
表示整体均值特征图,fg‘表示均值滤波后的整体特征图,C表示均值滤波后的整体特征图的通道数,
Figure FDA0003862349840000022
表示搜寻最大响应值区域对应的行和列,(i,j)表示最大响应值区域的坐标。
4.根据权利要求3所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S3中,根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图,具体方法为:
将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度,获取相同维度的区域特征图;利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维,获取降维后的整体特征图和降维后的区域特征图;根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图:
Gins=<Vins,Eins>
其中,Gins表示含有噪声标签特征的实例图,Vins表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合,Eins表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵。
5.根据权利要求4所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S4中,根据所获取的含有噪声标签特征的实例图,构造图原型的具体方法为:
根据所获取的含有噪声标签特征的实例图,为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型,图原型采用移动平均的方式进行更新:
Gk=<Vk,Ek>
Figure FDA0003862349840000023
其中,Gk表示所构建的第k个类别的图原型,Vk表示第k个类别的图原型中所有特征点的集合,Ek表示第k个类别的图原型中特征点之间连接的邻接矩阵,G'k为更新后的图原型,m为预设参数。
6.根据权利要求5所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S5中,将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型,具体方法为:
所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层,获得优化后的图匹配神经网络模型包括以下步骤;
S5.1:将所获得的含有噪声标签特征的实例图Gins与图原型Gk输入图内传播层,获得第一特征矩阵和第二特征矩阵,将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新;
S5.2:将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合,获得聚合特征向量;
S5.3:将所述聚合特征向量输入图间传播层进行图卷积操作,并迭代更新所述聚合特征向量,获得第一特征表达fins和第二特征表达Zk
S5.4:将第一特征表达fins和第二特征表达Zk输入图匹配层计算相似度Sk,根据相似度Sk计算图匹配损失
Figure FDA0003862349840000031
S5.5:对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本进行剔除;
S5.6:计算分类交叉熵损失
Figure FDA0003862349840000032
和总损失
Figure FDA0003862349840000033
根据总损失
Figure FDA0003862349840000034
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型。
7.根据权利要求6所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S5.4中,将第一特征表达fins和第二特征表达Zk输入图匹配层计算相似度Sk,根据相似度Sk计算图匹配损失
Figure FDA0003862349840000035
具体为:
将所述第一特征表达fins和第二特征表达Zk输入图匹配层进行图匹配,并计算相似度Sk,具体为:
Figure FDA0003862349840000036
所述图匹配层设置图匹配损失函数,根据相似度Sk计算图匹配损失,所述图匹配损失函数具体为:
Figure FDA0003862349840000037
Figure FDA0003862349840000038
其中,
Figure FDA0003862349840000039
为图匹配损失,yi表示原始标签,k表示图原型的类别,K表示图原型的类别总数。
8.根据权利要求7所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S5.5中,对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本进行剔除,具体方法为:
所述图内传播层设置有分类器,将所述含有噪声标签特征的实例图输入分类器中,获得分类器分布概率pi,计算图匹配分布概率di,根据分类器分布概率pi和图匹配分布概率di计算总概率qi,具体为:
qi=αpi+(1-α)di
Figure FDA0003862349840000041
其中,α为预设参数,τ为温度系数;
根据总概率qi和预设阈值T对含有噪声标签特征的实例图中的噪声标签进行修正以及对离群样本OOD进行剔除,具体为:
Figure FDA0003862349840000042
其中,
Figure FDA0003862349840000043
为伪标签,T为预设阈值,当总概率qi的最大值大于T时,将总概率qi最大值对应的类别作为伪标签;当总概率qi大于类别平均概率时,将原始标签yi作为伪标签,实现对含有噪声标签特征的实例图中的噪声标签进行修正;其他情况将OOD作为伪标签,OOD表示离群样本,实现对离群样本的剔除。
9.根据权利要求8所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,所述步骤S5.6中,计算分类交叉熵损失
Figure FDA0003862349840000044
和总损失
Figure FDA0003862349840000045
根据总损失
Figure FDA0003862349840000046
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型,具体方法为:
所述图内传播层设置有分类交叉熵损失函数,具体为:
Figure FDA0003862349840000047
其中,
Figure FDA0003862349840000048
为分类交叉熵损失,pij为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率,
Figure FDA0003862349840000049
为第i张含有噪声标签特征的实例图相对第j个类别的伪标签;
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数,所述总损失函数具体为:
Figure FDA0003862349840000051
其中,
Figure FDA0003862349840000052
为总损失,λpro为比例系数;
根据总损失
Figure FDA0003862349840000053
对所述图匹配神经网络模型进行优化,获得优化后的图匹配神经网络模型。
10.一种基于深度学习的网络监督细粒度图像识别***,应用权利要求1-9任意一项中所述的一种基于深度学习的网络监督细粒度图像识别方法,其特征在于,包括:
图像获取单元:用来从互联网中获取含有噪声标签的输入图像;
特征提取单元:用来对所述含有噪声标签的输入图像进行特征提取,获取区域判别特征图和整体特征图;
实例图生成单元:用来根据所获得的区域判别特征图和整体特征图,获取含有噪声标签特征的实例图;
图原型构造单元:用来根据所获取的含有噪声标签特征的实例图,为每个类别构造图原型;
图匹配单元:用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练,获得优化后的图匹配神经网络模型;
图像识别单元:用来获取待识别图像,提取待识别图像特征后,利用所述优化后的图匹配神经网络模型对待识别图像进行识别,获得待识别图像的识别结果。
CN202211167812.6A 2022-09-23 2022-09-23 一种基于深度学习的网络监督细粒度图像识别方法和*** Pending CN115496948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211167812.6A CN115496948A (zh) 2022-09-23 2022-09-23 一种基于深度学习的网络监督细粒度图像识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211167812.6A CN115496948A (zh) 2022-09-23 2022-09-23 一种基于深度学习的网络监督细粒度图像识别方法和***

Publications (1)

Publication Number Publication Date
CN115496948A true CN115496948A (zh) 2022-12-20

Family

ID=84470196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211167812.6A Pending CN115496948A (zh) 2022-09-23 2022-09-23 一种基于深度学习的网络监督细粒度图像识别方法和***

Country Status (1)

Country Link
CN (1) CN115496948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012569A (zh) * 2023-03-24 2023-04-25 广东工业大学 一种基于深度学习的含噪数据下的多标签图像识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012569A (zh) * 2023-03-24 2023-04-25 广东工业大学 一种基于深度学习的含噪数据下的多标签图像识别方法
CN116012569B (zh) * 2023-03-24 2023-08-15 广东工业大学 一种基于深度学习的含噪数据下的多标签图像识别方法

Similar Documents

Publication Publication Date Title
CN111881714B (zh) 一种无监督跨域行人再识别方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN111310861B (zh) 一种基于深度神经网络的车牌识别和定位方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN114067160B (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与***
CN111797779A (zh) 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN111612017B (zh) 一种基于信息增强的目标检测方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113705641B (zh) 基于富上下文网络的高光谱图像分类方法
CN115410088B (zh) 一种基于虚拟分类器的高光谱图像领域自适应方法
CN111898621A (zh) 一种轮廓形状识别方法
CN113947725B (zh) 一种基于卷积宽度迁移网络的高光谱图像分类方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN112347284A (zh) 一种组合商标图像检索方法
CN111832580B (zh) 结合少样本学习与目标属性特征的sar目标识别方法
CN112784754A (zh) 一种车辆再识别方法、装置、设备及存储介质
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN115496948A (zh) 一种基于深度学习的网络监督细粒度图像识别方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination