CN116580289A - 一种基于注意力的细粒度图像识别方法 - Google Patents
一种基于注意力的细粒度图像识别方法 Download PDFInfo
- Publication number
- CN116580289A CN116580289A CN202310678774.9A CN202310678774A CN116580289A CN 116580289 A CN116580289 A CN 116580289A CN 202310678774 A CN202310678774 A CN 202310678774A CN 116580289 A CN116580289 A CN 116580289A
- Authority
- CN
- China
- Prior art keywords
- attention
- scale
- module
- feature
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000007774 longterm Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力的细粒度图像识别方法,属于图像分类技术领域,该方法通过空间深度模块、多尺度特征提取模块、上下文注意力感知模块和多头注意力模块来构建网络模型。通过空间深度模块加强模型的特征提取能力,减少因下采样导致的判别区域丢失;通过多尺度特征提取模块基于显著区域提取多尺度特征,以增强模型的识别准确率;通过上下文注意力感知模块学习各尺度特征间的局部联系;通过多头注意力模块学习多尺度特征的全局和长期联系;最后采用交叉熵损失函数和中心损失函数作为该网络的损失函数,通过扩大样本间的类间距离,缩小类内距离,以减少易混淆区域对模型识别精度的影响。该方法可以很好地解决细粒度图像识别中存在的由于网络层数的加深导致低层次信息丢失,以及忽略多尺度特征间的关系导致识别准确率低的问题。
Description
技术领域
本发明属于细粒度图像处理技术领域,具体涉及一种基于注意力的细粒度图像识别方法。
背景技术
作为计算机视觉领域中的一个重要研究方向,图像识别是最基本的任务,同时也是其他各种视觉任务的基础。作为图像识别领域延伸出的一条重要分支,细粒度图像识别与传统图像识别不同。细粒度图像识别是对同一元类别下的各种子类类别的划分,例如从众多种类的猫中识别出子类别。细粒度图像识别可以分为基于强监督的细粒度图像识别和基于弱监督的细粒度图像识别,前者在模型训练时使用标注点和标注框辅助学习,后者只使用图像标签进行学习。基于弱监督学习的细粒度图像识别主要有基于区域-定位子网络、基于高阶特征编码和基于额外信息辅助识别三种方法。
目前的细粒度图像识别方法主要还是基于区域-定位子网络的方法,这一方法主要是通过注意力机制来定位具有判别性的区域,然后再从这些区域中学习特征。这一方法虽然取得了不错的成效,但还存在着以下不足:现有方法忽略了低层次信息的作用,而且随着网络层数的增加,会导致小的判别性区域中的低层次信息丢失;此外,这些方法只是通过空间注意力和通道注意力找出了关键区域,而忽略了它们之间联系。
发明内容
针对现有技术存在的不足,本发明提供了一种基于注意力的细粒度图像识别方法,所述方法包括以下步骤:
S1构建一个细粒度图像识别网络模型:具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头自注意力模块以及分类器;
S2使用预训练参数优化初始网络;
S3划分数据集并对样本图像进行预处理;
S4将样本图像输入特征提取网络,得到特征图及注意力热力图;
S5同时将提取到的特征图及热力图输入多尺度特征模块,得到多尺度特征图;
S6将多尺度特征图输入上下文注意力感知模块中,使模型学习显著区域的多尺度上下文信息;
S7将多尺度上下文信息输入多头自注意力模块中,使模型学习各尺度特征的长期依赖关系;
S8依据损失函数对网络模型进行训练,重复上述S4~S7步骤直至损失函数收敛。
最终将要识别的细粒度图像输入训练好的模型中进行分类识别。
所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。
进一步的,所述的骨干网络包括:
在每一个Stage中,添加一个空间深度卷积模块替换原本的下采样部分,增强模型对于判别关键区域的识别能力。对于大小为S×S×C1的特征映射X,对该映射进行分割得到子映射,公式如下所示:
fs-1,s-1=X[s-1:S:s,s-1:S:s]
式中f为子特征映射,s为比例因子。在通道维度连接子特征映射,从而将特征映射X转换为一个新的中间特征映射
然后采用非步幅卷积进行特征转换,在特征映射X'后增加一个C2卷积层,其中C2<s2C1,将转换为/>从而尽可能保留微小区域的判别信息。
进一步的,对于给定的特征图X∈RC×H×W,其中C、H、W分别代表通道数、高度和宽度,所述的多尺度特征模块,通过不同大小的矩形区域在特征图X上捕获不同尺度的区域,对于响应区域r(i,j,△x,△y),其中i、j为响应区域中心位置,△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R=r(i,j,m△x,n△y),其中m,n=1,2,3,…;且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息,由此得到一组区域集合R={R}。
进一步的,针对若干个不同大小的区域R=r(i,j,m△x,n△y),使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域,在目标坐标处的变换图像/>公式如下所示:
式中,R(Lψ(y))表示从原始图像中获取区域坐标为y的特征向量;Lψ(y)表示坐标y的变换,其中Ψ是一个可学习参数;K是核函数,当和Lψ(y)不直接相邻时,/>
进一步的,使用上下文注意力感知模块捕获多尺度特征间的联系,使模型能够选择性的关注更相关的区域,以生成整体的上下文信息,得到多尺度特征间的具体公式如下所示:
式中vr为上下文注意特征向量,表示与当前尺度相关联的其他尺度的特征映射,αr,r'表示当前尺度特征与其他相邻尺度特征间的关联性,公式如下所示:
式中Mα为权重矩阵的非线性组合,bα、bβ表示偏差;表示查询向量,/>表示键向量,二者的公式如下所示:
式中Mβ和Mβ'表示权重矩阵,表示当前尺度的特征映射;
进一步的,对上下文向量V={vr|r=1...|R|}进行全局平均池化,将由此得到的上下文特征fr作为多头自注意力模块的输入,学习区域空间排列信息及长期依赖关系,多头自注意力的计算公式如下:
A=Concat(A1,A2,...,A|R|)W0
式中Q、K、V分别为查询向量,键向量和值向量,W0为权重矩阵。
根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,采用交叉熵损失函数和中心损失函数联合训练模型网络,模型的损失函数公式如下所示:
L=LCE+λLcent
式中λ为权重系数,衡量中心损失函数对总体损失的影响,N为类别个数,yi为真实值标签,pi为模型预测标签;W为样本个数,xi为训练样本,表示中心向量,||·||2表示欧式距离;
根据总损失L对所述网络模型进行优化训练,从而获得优化训练好的网络模型。
本发明提供的一种基于注意力的细粒度图像识别方法,具有以下优点:
(1)所述方法通过设计空间深度卷积模块,使模型保留了原本会随着卷积网络层数加深而丢失的低层次信息,从而增强了模型学习特征的多样性,提高了识别准确率。
(2)所述方法不仅考虑到了关键区域,还通过设计多尺度特征模块,获取到了与关键区域相邻的多尺度特征,从而增强了模型的鲁棒性和识别能力。
(3)所述方法通过设计上下文注意力和多头注意力特征,得到了各尺度特征间的局部联系和全局联系,并将其融合得到了较为丰富的特征表示,进一步提升了模型的识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图;
图2是本发明修改后的ConvNeXt网络结构示意图
图3是本发明的***结构图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提供了一种基于注意力的细粒度图像学习方法,所述方法步骤如下:
步骤1、将待分类图像输入特征提取网络,获取特征图:
如图2所示,所述的特征提取网络由ConvNeXt卷积网络作为基础网络,在其上添加空间深度卷积模块构成,该网络主要分为四个阶段即四个Stage,除了第一个Stage外,其余每个Stage包含一个下采样层和若干个卷积层,将Stage中的下采样层替换为空间深度卷积模块增强模型对于微小判别关键区域的识别能力。对于大小为S×S×C1的特征映射X,对该映射进行分割得到子映射,公式如下所示:
fs-1,s-1=X[s-1:S:s,s-1:S:s]
式中f为子特征映射,s为比例因子。在通道维度连接子特征映射,从而将特征映射X转换为一个新的中间特征映射
然后采用非步幅卷积进行特征转换,在特征映射X'后增加一个C2卷积层,其中C2<s2C1,将转换为/>输入图像每经过一个Stage,特征图的空间尺寸减少为原来的一半,通道数据增加一倍,从而尽可能保留微小区域的判别信息。这里获取Stage 4后的特征图,同时通过CAM(Class Activation Mapping)得到注意力热力图。
步骤2、通过多尺度特征模块获取多尺度特征:
如图3所示,所述模型的多尺度特征模块,对于给定的特征图X∈RC×H×W,其中C、H、W分别代表通道数、高度和宽度,所述的多尺度特征模块,通过不同大小的矩形区域在特征图X上捕获不同尺度的区域,对于关键区域r(i,j,△x,△y),其中i、j为响应区域中心位置,△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R=r(i,j,m△x,n△y),其中m,n=1,2,3,…;且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息,由此得到一组区域集合R={R}。
接下来对这组区域集合R=r(i,j,m△x,n△y)使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域,在目标坐标处的变换图像/>公式如下所示:
其中,R(Lψ(y))表示从原始图像中获取区域坐标为y的特征向量;Lψ(y)表示坐标y的变换,其中Ψ是一个可学习参数;K是核函数,当和Lψ(y)不直接相邻时,/>通过该模块,从特征图中获取多尺度特征,并将这些尺度不一的特征整合为相同大小的特征向量,从而便于模型后续计算。
步骤3、通过上下文注意力获取局部联系:
如图3所示,所述模型的上下文注意力模块,该模块用于捕获多尺度特征间的局部联系,使模型能够选择性的关注更相关的区域,以生成整体的上下文信息。在收到多尺度特征后,得到多尺度特征间联系的具体公式如下所示:
式中vr为上下文注意特征向量,表示与当前尺度相关联的其他尺度的特征映射,αr,r'表示当前尺度特征与其他相邻尺度特征间的关联性,公式如下所示:
式中Mα为权重矩阵的非线性组合,bα、bβ表示偏差;表示查询向量,/>表示键向量,二者的公式如下所示:
式中Mβ和Mβ'表示权重矩阵,表示当前尺度的特征映射。
步骤4、通过多头注意力模块获取全局联系:
如图3所示,所述模型的多头注意力模块,先对上下文向量V={vr|r=1...|R|}进行全局平均池化,并将由此得到的上下文特征fr作为多头自注意力模块的输入,学习区域空间排列信息及长期依赖关系,多头自注意力的计算公式如下:
A=Concat(A1,A2,...,A|R|)W0
式中Q、K、V分别为查询向量,键向量和值向量,W0为权重矩阵。
步骤5、结合局部特征和全局特征,得到最终的分类结果:
如图3所示,将上下文注意力得到的特征和多头注意力得到的特征经过FC层拼接在一起,作为最后分类的依据。在训练阶段,采用交叉熵损失函数和中心损失函数联合训练模型网络,模型的损失函数公式如下所示:
L=LCE+λLcent
式中λ为权重系数,衡量中心损失函数对总体损失的影响,N为类别个数,yi为真实值标签,pi为模型预测标签;W为样本个数,xi为训练样本,表示中心向量,||·||2表示欧式距离;
根据总损失L对所述网络模型进行优化训练,不断重复上述步骤,直至损失函数收敛,最终获得优化训练好的网络模型。在训练完成后,输入细粒度图像,模型即可实现高准确率的识别。
简而言之,本实施方式提出了一种基于注意力的细粒度图像识别方法,用于对细粒度图像的分类,设计了一种基于细粒度识别网络模型,其主要包括空间深度卷积模块、特征提取网络、多尺度特征模块、上下文注意力模块和多头注意力模块以及分类器。一方面考虑了微小判别区域低层次信息丢失的问题,另一方面还考虑了判别区域与其他区域之间的联系的问题。
最后说明的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于注意力机制的细粒度图像识别方法,其特征在于,所述方法包括步骤:
S1构建一个细粒度图像识别网络模型:具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头注意力模块以及分类器;
S2使用预训练参数优化初始网络;
S3划分数据集并对样本图像进行预处理;
S4将样本图像输入特征提取网络,得到特征图及注意力热力图;
S5将提取到的特征图及热力图输入多尺度特征提取模块,得到多尺度特征图;
S6将多尺度特征图输入上下文注意力感知模块中,使模型学习显著区域的多尺度上下文信息;
S7将多尺度上下文信息输入多头注意力模块中,使模型学习各尺度特征的长期依赖关系;
S8依据损失函数对网络模型进行训练,重复上述S4~S7步骤直至损失函数收敛。
最终将要识别的细粒度图像输入训练好的模型中进行分类识别。
2.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。
3.根据权利要求2所述的基于注意力的细粒度图像识别方法,其特征在于,在每一个Stage中,添加一个空间深度卷积模块替换原本的下采样部分,增强模型对于微小判别关键区域的识别能力。对于大小为S×S×C1的特征映射X,对该映射进行分割得到子映射,公式如下所示:
fs-1,s-1=X[s-1:S:s,s-1:S:s]
式中f为子特征映射,s为比例因子。在通道维度连接子特征映射,从而将特征映射X转换为一个新的中间特征映射
然后采用非步幅卷积进行特征转换,在特征映射X'后增加一个C2卷积层,其中C2<s2C1,将转换为/>从而尽可能保留微小区域的判别信息。
4.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,对于给定的特征图X∈RC×H×W,其中C、H、W分别代表通道数、高度和宽度,所述的多尺度特征提取模块,通过不同大小的矩形区域在特征图X上捕获不同尺度的区域,对于响应区域r(i,j,△x,△y),其中i、j为响应区域中心位置,△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R=r(i,j,m△x,n△y),其中m,n=1,2,3,…;且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息,由此得到一组区域集合R={R}。
5.根据权利要求4所述的基于注意力的细粒度图像识别方法,其特征在于,针对若干个不同大小的区域R=r(i,j,m△x,n△y),使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域,在目标坐标处的变换图像/>公式如下所示:
式中,R(Lψ(y))表示从原始图像中获取区域坐标为y的特征向量;Lψ(y)表示坐标y的变换,其中Ψ是一个可学习参数;K是核函数,当和Lψ(y)不直接相邻时,/>
6.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,使用上下文注意力感知模块捕获多尺度特征间的联系,使模型能够选择性的关注更相关的区域,以生成整体的上下文信息,得到多尺度特征间联系的具体公式如下所示:
式中vr为上下文注意特征向量,表示与当前尺度相关联的其他尺度的特征映射,αr,r'表示当前尺度特征与其他相邻尺度特征间的关联性,公式如下所示:
式中Mα为权重矩阵的非线性组合,bα、bβ表示偏差;表示查询向量,/>表示键向量,二者的公式如下所示:
式中Mβ和Mβ'表示权重矩阵,表示当前尺度的特征映射。
7.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,对上下文向量V={vr|r=1...|R|}进行全局平均池化,将由此得到的上下文特征fr作为多头注意力模块的输入,学习区域空间排列信息及长期依赖关系,多头注意力的计算公式如下:
A=Concat(A1,A2,...,A|R|)W0
式中Q、K、V分别为查询向量,键向量和值向量,W0为权重矩阵。
8.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,采用交叉熵损失函数和中心损失函数联合训练模型网络,模型的损失函数公式如下所示:
L=LCE+λLcent
式中λ为权重系数,衡量中心损失函数对总体损失的影响,N为类别个数,yi为真实值标签,pi为模型预测标签;W为样本个数,xi为训练样本,表示中心向量,||·||2表示欧式距离;
根据总损失L对所述网络模型进行优化训练,从而获得优化训练好的网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310678774.9A CN116580289A (zh) | 2023-06-08 | 2023-06-08 | 一种基于注意力的细粒度图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310678774.9A CN116580289A (zh) | 2023-06-08 | 2023-06-08 | 一种基于注意力的细粒度图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580289A true CN116580289A (zh) | 2023-08-11 |
Family
ID=87534131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310678774.9A Pending CN116580289A (zh) | 2023-06-08 | 2023-06-08 | 一种基于注意力的细粒度图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580289A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853875A (zh) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | 一种细粒度图像识别方法及*** |
-
2023
- 2023-06-08 CN CN202310678774.9A patent/CN116580289A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853875A (zh) * | 2024-03-04 | 2024-04-09 | 华东交通大学 | 一种细粒度图像识别方法及*** |
CN117853875B (zh) * | 2024-03-04 | 2024-05-14 | 华东交通大学 | 一种细粒度图像识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络*** | |
CN107092884B (zh) | 一种快速粗精级联行人检测方法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
Xia et al. | A deep Siamese postclassification fusion network for semantic change detection | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及*** | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别***及方法 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及*** | |
CN110263731B (zh) | 一种单步人脸检测*** | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及*** | |
CN112784757B (zh) | 海上sar舰船目标显著性检测与识别方法 | |
US20240161531A1 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN113378675A (zh) | 一种同时检测和特征提取的人脸识别方法 | |
CN112488128A (zh) | 一种基于贝塞尔曲线的任意畸变图像线段检测方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN116580289A (zh) | 一种基于注意力的细粒度图像识别方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN111079543B (zh) | 一种基于深度学习的高效车辆颜色识别方法 | |
Xu et al. | UCDFormer: Unsupervised change detection using a transformer-driven image translation | |
CN112418358A (zh) | 一种强化深度融合网络的车辆多属性分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |