CN111126453B - 基于注意力机制和切割填充的细粒度图像分类方法及*** - Google Patents

基于注意力机制和切割填充的细粒度图像分类方法及*** Download PDF

Info

Publication number
CN111126453B
CN111126453B CN201911232112.9A CN201911232112A CN111126453B CN 111126453 B CN111126453 B CN 111126453B CN 201911232112 A CN201911232112 A CN 201911232112A CN 111126453 B CN111126453 B CN 111126453B
Authority
CN
China
Prior art keywords
image
sub
filling
attention
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911232112.9A
Other languages
English (en)
Other versions
CN111126453A (zh
Inventor
李鸿健
曾祥燕
程卓
段小林
何明轩
罗浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911232112.9A priority Critical patent/CN111126453B/zh
Publication of CN111126453A publication Critical patent/CN111126453A/zh
Application granted granted Critical
Publication of CN111126453B publication Critical patent/CN111126453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及深度学习领域和图像分类领域,具体为一种基于注意力机制和切割填充的细粒度图像分类方法,该方法包括:构建卷积神经网络模型;将原始图像输入卷积神经网络模型,结合注意力机制得到关注图像;将关注图像进行切割,得到子图像,对子图像进行填充,并进行下采样得到填充图像;将关注图像和填充图像输入卷积神经网络模型,并分别通过线性层和softmax分类器,得到对应类别的概率值;选取最大概率值,根据最大值判断分类结果;根据结果在原始图像上标记分类标签;本发明对原图像的关注图像进行分割,再进行填充处理,破坏了各部分之间的相关性,使网络更加关注局部特征,确保高层语义不会被破坏,极大地减少了参数的使用和训练时间。

Description

基于注意力机制和切割填充的细粒度图像分类方法及***
技术领域
本发明涉及深度学习领域和图像分类领域,具体涉及一种基于注意力机制和切割填充的细粒度图像分类方法及***。
背景技术
细粒度的图像分类是计算机视觉领域的重要任务,这项任务非常具有挑战性。细粒度的图像分类不同于通用的目标识别,由于粗略地观察细粒度的物体(如鸟类,汽车模型和飞机等)在视觉上是相似的,所以细粒度的图像分类非常依赖于物体的局部特征。通用的分类方法也同样适用于细粒度图像分类,因此如何更好的学习局部特征是细粒度图像分类的关键。
近几年来注意力机制在细粒度图像分类网络中被大量使用,例如循环注意力卷积神经网络(RACNN)和在对象关注模型(OPAM)中使用类激活映(CAM)等方法的出现。对于细粒度图像分类问题中,另一个需要注意的是要关注图像更高层的语义信息以及对目标局部特征的关注。因此zhou提出了破坏和构建学习(DCL)的方法,将目标切割成多个小目标,打乱空间结构进行训练。这种对图像进行分类的方法能破坏对象各部分之间的相关性,从而使网络更加关注局部特征。
但是这种方法破坏了对象的空间结构,使高层的语义信息造成一定的破坏,同时类激活映射的使用需要训练类别权重来获取额外的关注部分来抑制其他类别,造成了图像在进行分类过程中存在误差。
发明内容
为解决以上现有技术的问题,本发明设计了一种基于注意力机制和切割填充的细粒度图像分类方法,该方法的技术方案如下:
S1:构建卷积神经网络模型;
S2:将原始图像输入到卷积神经网络模型中,并结合改进的注意力机制得到关注图像;
S3:将关注图像进行切割,得到关注图像的子图像;再对子图像进行填充处理,得到填充子图像,将填充子图像进行拼接,得到填充图像;
S4:将关注图像和填充图像输入到卷积神经网络模型中,并分别通过线性层和softmax分类器,得到对应类别的概率值;
S5:选取最大概率值,根据最大概率值判断细粒度图像的分类结果;
S6:根据分类的结果在输入的原始图像上标记分类标签。
优选的,基于改进的注意力机制得到关注图的步骤包括:
S21:将原始图像输入卷积神经网络,并在最后一层卷积层的特征图按通道求和得到M(x,y);
S22:对M(x,y)使用双线性插值上采样方法,得到与原始图像大小相同的显著图S(x,y);
S23:设置一个α超参数,并根据显著图的最大值计算阈值θ;
S24:根据得到的阈值θ对显著图S(x,y)进行选取,得到掩码矩阵Mask(i,j),并把掩码矩阵映射到原图像,得到关注部分;
S25:对关注部分进行双线性插值上采样方法,得到与原始图像大小相同的关注图像。
优选的,填充图像的获取包括:
S31:将关注图像切割成N*N个子图像Isub
S32:对每一个子图像进行0填充,得到填充后的子图像IPn
S33:根据原始图像空间位置将0填充后的子图像拼接成新图像;
S34:对新图像进行下采样,得到与原始图像大小相同的填充图像。
一种基于注意力机制和切割填充的细粒度图像分类分类***,所述***包括图像输入端、图像分类模块以及分类结果输出模块;
图像输入端用于将原始图像发送给图像分类模块;
所述图像分类模块用于对原始图像进行分类处理,其中图像分类模块包括:卷积神经网络模块、关注图获取模块、图像分割模块、图像0填充模块、子图像融合模块、图像分类判断模块;
所述卷积神经网络模块用于处理图像输入端发送的原始图像,并在最后一层卷积层的特征图按通道求和得到M(x,y),将得到的M(x,y)发送给关注图获取模块;卷积神经网络模块还会处理关注图获取模块发送的关注图像和子图像融合模块发送的填充图像;处理过程包括:关注图像和填充图像输入到卷积层中,经过每一卷积层进行卷积计算,得到特征图,并将特征图发送给图像分类判断模块;
所述关注图获取模块用于处理最后一层卷积层求和的结果M(x,y)得到关注图像,获取关注图像的过程包括:将得到的M(x,y)进行双线性插值上采样,得到与原始图像大小相同的显著图S(x,y),根据显著图S(x,y)确定阈值θ,根据阈值θ对显著图进行选取,并映射原图像得到关注部分,并将关注部分进行双线性插值上采样,得到关注图像,将关注图像发送给卷积神经网络模块和图像分割模块;
所述图像分割模块用于将关注图像分割成N*N个子图像Isub,并将分割好的子图像发送给图像0填充模块;
所述图像0填充模块用于对每个子图像进行0填充,得到填充后的子图像集合是Ipad{IPn|0≤n<N2};
所述子图像融合模块用于对0填充处理的子图像进行组合拼接,得到新图像,并对新图像进行下采样,得到与原始图像大小相同的填充图像,并将填充图像发送给卷积神经网络模块;
所述图像分类判断模块包括将特征图分别通过线性层和softmax分类器,得到对应类别的概率值;将得到的概率值选取最大值,根据最大值判断细粒度图像的分类结果;将分类结果发送给分类结果输出模块;
所述分类结果输出模块用于输出原始图像的分类信息,根据分类的结果在输入的原始图像上标记分类标签。
本发明采用卷积神经网络对图像进行处理,不需要对目标的各部分打乱进行训练,极大地减少了参数的使用和训练时间;本发明通过改进注意力机制,即在对现在图进行映射时减少权重的使用,降低了计算的步骤和时间;本发明对关注图像进行了分割处理,并将分割后的子图像进行了0填充处理,破坏了目标各部分之间的相关性,从而使网络更加关注局部特征,确保高层语义不会被破坏。
附图说明
图1为本发明的方法流程图;
图2为本发明的具体方法流程示意图;
图3为本发明的方法训练结构图;
图4为本发明的方法的预测结构图;
图5为本发明的***模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
一种基于注意力机制和切割填充的细粒度图像分类方法,如图1所示,所述方法步骤包括:
S1:构建卷积神经网络模型;
S2:将原始图像输入到卷积神经网络模型中,并结合改进的注意力机制得到关注图像;
S3:将关注图像进行切割,得到关注图像的子图像;再对子图像进行填充处理,得到填充子图像,将填充子图像进行拼接,得到填充图像;
S4:将关注图像和填充图像输入到卷积神经网络模型中,并分别通过线性层和softmax分类器,得到对应类别的概率值;
S5:选取最大概率值,根据最大概率值判断细粒度图像的分类结果;
S6:根据分类的结果在输入的原始图像上标记分类标签;
其中,softmax表示归一化指数函数。
在对图像的细粒度识别时,由于一幅图像只包含一个类别的对象,因此不必抑制其他类别的位置,基于这个原理,本发明改进了注意力机制,即在采用注意力机制进行计算时不使用权重,根据最后一层卷积层的特征图求和得到关注部分,降低了计算过程,在单类别的图像中提高了定位准确率。
基于改进的注意力机制得到关注图的步骤包括:
S21:将原始图像输入卷积神经网络模型,并在最后一层卷积层的特征图按通道求和得到M(x,y);
S22:对M(x,y)使用双线性插值上采样方法,得到与原始图像大小相同的显著图S(x,y);
S23:设置一个α超参数,并根据显著图的最大值计算阈值θ;
S24:根据得到的阈值θ对显著图S(x,y)进行选取,得到掩码矩阵Mask(i,j),并把掩码矩阵映射到原图像,得到关注部分;
S25:对关注部分进行双线性插值上采样方法,得到与原始图像大小相同的关注图像。
其中,M(x,y)是最后一层卷积层的特征图按通道求和的二维矩阵,x表示二维矩阵的行,y表示二维矩阵的列;Mask(i,j)表示掩码矩阵,i表示掩码矩阵的行坐标,j表示掩码矩阵的列坐标。
所述得到填充图像的方法步骤包括:
S31:将关注图像切割成N*N个子图像;
S32:对每一个子图像进行0填充,得到填充后的子图像IPn,填充后的子图像集合为Ipad{IPn|0≤n<N2};
S33:根据原始图像空间位置将0填充后的子图像拼接成新图像;
S34:对新图像进行下采样,得到与原始图像大小相同的填充图像;
其中,IPn表示第n个对子图像进行填充后的图像,n表示关注图像的子图像编号,N为一个常数,Ipad{·}表示填充后子图像的集合。
对关注图像进行分割和0填充,破坏了每一个小区域之间的关联性,在卷积网络训练的时候,更好的学习局部区域的特征,并让卷积神经网络模型更好的识别局部区域特征。
本发明的另一实施例,如图2所示,在该实施例中,输入待训练的图像到模型中,最后一层卷积层的特征图按通道求和,然后上采样得到显著图;根据注意力机制得到关注图像,将关注图像切割成N*N个子图像,并对每一个子图像进行大小为P的0填充得到填充图像;在获取关注图像和填充图像时,不需要训练。将得到的关注图像与填充图像一起输入到卷积神经网络模型中,计算损失函数,直至损失函数收敛,则训练好卷积神经网络模型,否则使用梯度下降算法更新各个参数继续输入到卷积神经网络模型中进行训练;当卷积神经网络模型训练好后,输入待测图像,依照待训练图像相同的方法获得关注图像,再将关注图像输入到训练好的模型中,并依次经过线性层、softmax分类器,根据分类器结果中的最大概率值得出最终分类结果。
其中,损失函数可采用交叉熵损失函数、铰链损失函数、指数损失函数等等。
如图3所示,将待训练图像输入卷积网络中,将最后一层卷积层的特征图按通道求和得到M(x,y),并将M(x,y)上采样到原图像相同大小得到显著图S(x,y);最后一层卷积层的特征图按通道求和公式为:
Figure BDA0002303837020000061
得到显著图的公式为:
S(x,y)=g(M(x,y))
其中Z表示特征图的数量,Fz(x,y)表示第z张特征图,M(x,y)是最后一层卷积层的特征图按通道求和的值,g(·)是对M(x,y)采用双线性插值法,S(x,y)表示为显著图,x表示二维矩阵的行,y表示二维矩阵的列。
设置一个α超参数,根据显著图的最大值来求阈值θ,阈值θ的公式如为:
θ=(1-α)·max(S(x,y))
其中,α表示注意率的超参数,max(S(x,y))表示显著图S(x,y)上的最大值。
利用求得的阈值θ对显著图S(x,y)进行选取,得到得到掩码矩阵Mask(i,j),并把掩码矩阵映射到原图像,得到关注部分,并对其使用双线性插值上采样方法,得到与输入图像相同大小的关注图像;所述矩阵掩码的求取公式为:
Figure BDA0002303837020000071
将关注图像切割成N*N个子图像,关注图像切割公式为:
Isub{ISn|0≤n<N2}=fc(ψ(I),N)
其中,i表示掩码矩阵的行坐标,j表示掩码矩阵的列坐标,ψ(I)表示关注部分上采样后的关注图像,N为一个常数,fc(·)表示一种切割方法,即对图像ψ(I)切割成N*N的子图像,Isub表示为切割后子图像的集合,其中ISn表示为第n个子图像。
对Isub的每一个子图像进行大小为P的0填充,然后将填充后的图像根据原始空间位置拼接,并下采样到原图像相同大小;对子图像进行0填充的公式为:
IPn=fp(ISn,P)
图像拼接的公式为:
Figure BDA0002303837020000072
其中,fp(·)表示为对子图像ISn进行大小为P的0填充,Ipad{IPn|0≤n<N2}表示为填充后子图像集合,IPn表示第n个对子图像进行填充后的图像,fs(·)表示为将所有填充后的子图像拼接成与原图像相同大小的新图像,取名为填充图像。
填充的大小P根据不同的神经卷积网络和数据集会得到不同的值。
根据上面得到的关注图像和填充图像一起输入到卷积神经网络中进行训练,计算损失函数,直至损失函数收敛,则训练好模型,否则使用梯度下降算法更新各个参数继续输入到模型中进行训练。
如图4所示,为本发明的预测过程,将待预测图像输入到卷积网络中,使用类似训练过程注意力机制的方法,得到关注图像,将关注图像输入到训练好的模型中,根据softmax分类器的输出最大概率值,判别出该预测图像所属种类。
一种基于注意力机制和切割填充的细粒度图像分类***,如图5所示,所述***包括图像输入端、图像分类模块以及分类结果输出模块;
图像输入端用于将原始图像发送给图像分类模块;
所述图像分类模块用于对原始图像进行分类处理,其中图像分类模块包括:卷积神经网络模块、关注图获取模块、图像分割模块、图像0填充模块、子图像融合模块、图像分类判断模块;
所述卷积神经网络模块用于处理图像输入端发送的原始图像,并在最后一层卷积层的特征图按通道求和得到M(x,y),将得到的M(x,y)发送给关注图获取模块;卷积神经网络模块还会处理关注图获取模块发送的关注图像和子图像融合模块发送的填充图像;处理过程包括:关注图像和填充图像输入到卷积层中,经过每一卷积层进行卷积计算,得到特征图,并将特征图发送给图像分类判断模块;
所述关注图获取模块用于处理最后一层卷积层求和的结果M(x,y)得到关注图像,获取关注图像的过程包括:将得到的M(x,y)进行双线性插值上采样,得到与原始图像大小相同的显著图S(x,y),根据显著图S(x,y)确定阈值θ,根据阈值θ对显著图进行选取,得到关注部分,将关注部分进行双线性插值法上采样,得到关注图像,并将关注图像发送给卷积神经网络模块和图像分割模块;
所述图像分割模块用于将关注图像分割成N*N个子图像Isub,并将分割好的子图像发送给图像0填充模块;
所述图像0填充模块用于对每个子图像进行0填充,得到填充后的子图像集合是Ipad{IPn|0≤n<N2};
所述子图像融合模块用于对0填充处理的子图像进行组合拼接,得到新图像,并对新图像进行下采样,得到与原始图像大小相同的填充图像,并将填充图像发送给卷积神经网络模块;
所述图像分类判断模块包括将特征图分别通过线性层和softmax分类器,得到对应类别的概率值;将得到的概率值选取最大值,根据最大值判断细粒度图像的分类结果;将分类结果发送给分类结果输出模块;
所述分类结果输出模块用于输出原始图像的分类信息,根据分类的结果在输入的原始图像上标记分类标签。
***的实施例可以参照方法的实施例。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于注意力机制和切割填充的细粒度图像分类方法,其特征在于,所述方法步骤包括:
S1:构建卷积神经网络模型;
S2:将原始图像输入到卷积神经网络模型中,并结合改进的注意力机制得到关注图像;基于改进的注意力机制得到关注图的步骤包括:
S21:将原始图像输入卷积神经网络模型,并在最后一层卷积层的特征图按通道求和得到M(x,y);
S22:对M(x,y)使用双线性插值上采样方法,得到与原始图像大小相同的显著图S(x,y);
S23:设置一个α超参数,并根据显著图的最大值计算阈值θ;
S24:根据得到的阈值θ对显著图S(x,y)进行选取,得到掩码矩阵Mask(i,j),并把掩码矩阵映射到原始图像中,得到关注部分;
S25:对关注部分进行双线性插值上采样方法,得到与原始图像大小相同的关注图像;
其中,M(x,y)是最后一层卷积层的特征图按通道求和的二维矩阵,S(x,y)表示显著图,x表示二维矩阵的行,y表示二维矩阵的列;Mask(i,j)表示掩码矩阵,i表示掩码矩阵的行坐标,j表示掩码矩阵的列坐标;
S3:将关注图像进行切割,得到关注图像的子图像;再对子图像进行填充处理,得到填充子图像,将填充子图像进行拼接,得到填充图像;
S4:将关注图像和填充图像输入到卷积神经网络模型中,并分别通过线性层和softmax分类器,得到对应类别的概率值;
S5:选取最大概率值,根据最大概率值判断细粒度图像的分类结果;
S6:根据分类的结果在输入的原始图像上标记分类标签;
其中,softmax表示归一化指数函数。
2.根据权利要求1所述的一种基于注意力机制和切割填充的细粒度图像分类方法,其特征在于,最后一层卷积层的特征图求和公式为:
Figure FDA0003530406040000021
所述显著图公式为:
S(x,y)=g(M(x,y))
所述阈值的设值公式为:
θ=(1-α)·max(S(x,y))
所述掩码矩阵的求取公式为:
Figure FDA0003530406040000022
其中,Z表示特征图的数量,Fz(x,y)表示第z张特征图,g(·)是对M(x,y)采用双线性插值法,α表示注意率的超参数,max(S(x,y))表示显著图S(x,y)上的最大值。
3.根据权利要求1所述的一种基于注意力机制和切割填充的细粒度图像分类方法,其特征在于,所述填充图像的获取包括:
S31:将关注图像切割成N*N个子图像;
S32:对每一个子图像进行0填充,得到填充后的子图像IPn
S33:根据原始图像空间位置将0填充后的子图像拼接成新图像;
S34:对新图像进行下采样,得到与原始图像大小相同的填充图像;
其中,IPn表示对第n个子图像进行填充后的图像,n表示关注图像的子图像编号,N为一个常数。
4.根据权利要求3所述的一种基于注意力机制和切割填充的细粒度图像分类方法,其特征在于,将关注图像分割为子图像的公式为:
Figure FDA0003530406040000023
其中,ψ(I)表示关注部分上采样后得到的关注图像,fc(·)表示一种切割方法,即对图像ψ(I)切割成N*N个子图像,
Figure FDA0003530406040000024
表示为切割后子图像的集合,ISn表示为第n个子图像,N2表示分割后子图像的个数。
5.根据权利要求3所述的一种基于注意力机制和切割填充的细粒度图像分类方法,其特征在于,获得填充图像的公式包括:
Figure FDA0003530406040000033
Figure FDA0003530406040000031
其中,fp(·)表示为对子图像ISn进行大小为P的0填充,
Figure FDA0003530406040000034
表示为切割后子图像的集合,
Figure FDA0003530406040000035
表示为填充后子图像集合,fs(·)表示为将所有填充后的子图像按照原空间位置拼接成与原图像相同大小的填充图像,ψ(I)表示关注部分上采样后得到的关注图像,
Figure FDA0003530406040000032
表示与原始图像大小相同的填充图,N2表示分割后子图像的个数。
6.一种基于注意力机制和切割填充的细粒度图像分类***,其特征在于,所述***包括图像输入端、图像分类模块以及分类结果输出模块;
图像输入端用于将原始图像发送给图像分类模块;
所述图像分类模块用于对原始图像进行分类处理,其中图像分类模块包括:卷积神经网络模块、关注图获取模块、图像分割模块、图像0填充模块、子图像融合模块、图像分类判断模块;
所述卷积神经网络模块用于处理图像输入端发送的原始图像,并在最后一层卷积层的特征图按通道求和得到M(x,y),将得到的M(x,y)发送给关注图获取模块;卷积神经网络模块还会处理关注图获取模块发送的关注图像和子图像融合模块发送的填充图像;处理过程包括:关注图像和填充图像输入到卷积层中,经过每一卷积层进行卷积计算,得到特征图,并将特征图发送给图像分类判断模块;
所述关注图获取模块用于处理最后一层卷积层求和的结果M(x,y)得到关注图像,获取关注图像的过程包括:将得到的M(x,y)进行双线性插值上采样,得到与原始图像大小相同的显著图S(x,y),根据显著图S(x,y)确定阈值θ,根据阈值θ对显著图进行选取,并映射原图像得到关注部分,将关注部分进行双线性插值上采样,得到关注图像,并将关注图像发送给卷积神经网络模块和图像分割模块;
所述图像分割模块用于将关注图像分割成N*N个子图像,并将分割好的子图像发送给图像0填充模块;
所述图像0填充模块用于对每个子图像进行0填充,得到填充后的子图像集合是Ipad{IPn|0≤n<N2};
所述子图像融合模块用于对0填充处理的子图像进行组合拼接,得到新图像,并对新图像进行下采样,得到与原始图像大小相同的填充图像,并将填充图像发送给卷积神经网络模块;
所述图像分类判断模块包括将特征图分别通过线性层和softmax分类器,得到对应类别的概率值;将得到的概率值选取最大值,根据最大值判断细粒度图像的分类结果;将分类结果发送给分类结果输出模块;
所述分类结果输出模块用于输出原始图像的分类信息,根据分类的结果在输入的原始图像上标记分类标签;
其中,M(x,y)是最后一层卷积层的特征图按通道求和的二维矩阵,x表示二维矩阵的行,y表示二维矩阵的列;S(x,y)表示显著图,N表示为一个常数,Ipad表示填充后的子图像集合,pad表示子图像集合下标,IPn表示对第n个子图像进行填充后的图像,n表示关注图像的子图像编号,softmax表示归一化指数函数。
7.根据权利要求6所述的一种基于注意力机制和切割填充的细粒度图像分类***,其特征在于,所述图像分割模块中用于分割图像的公式为:
Figure FDA0003530406040000041
其中,ψ(I)表示关注部分上采样后得到的关注图像,fc(·)表示一种切割方法,即对图像ψ(I)切割成N*N个子图像,
Figure FDA0003530406040000042
表示为切割后子图像的集合,ISn表示为第n个子图像,N2表示分割后子图像的个数。
8.根据权利要求6所述的一种基于注意力机制和切割填充的细粒度图像分类***,其特征在于,所述图像0填充模块中进行图像0填充的公式包括:
Figure FDA0003530406040000043
Figure FDA0003530406040000051
其中,fp(·)表示为对子图像ISn进行大小为P的0填充,
Figure FDA0003530406040000053
表示为填充后子图像集合,fs(·)表示为将所有填充后的子图像按照原空间位置拼接成与原图像相同大小的填充图像,
Figure FDA0003530406040000054
表示为切割后子图像的集合,ψ(I)表示关注部分上采样后得到的关注图像,
Figure FDA0003530406040000052
表示与原始图像大小相同的填充图,N2表示分割后子图像的个数。
CN201911232112.9A 2019-12-05 2019-12-05 基于注意力机制和切割填充的细粒度图像分类方法及*** Active CN111126453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911232112.9A CN111126453B (zh) 2019-12-05 2019-12-05 基于注意力机制和切割填充的细粒度图像分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911232112.9A CN111126453B (zh) 2019-12-05 2019-12-05 基于注意力机制和切割填充的细粒度图像分类方法及***

Publications (2)

Publication Number Publication Date
CN111126453A CN111126453A (zh) 2020-05-08
CN111126453B true CN111126453B (zh) 2022-05-03

Family

ID=70497587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911232112.9A Active CN111126453B (zh) 2019-12-05 2019-12-05 基于注意力机制和切割填充的细粒度图像分类方法及***

Country Status (1)

Country Link
CN (1) CN111126453B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、***、计算机设备及存储介质
CN112836502B (zh) * 2021-03-01 2023-05-09 中央财经大学 一种金融领域事件隐式因果关系抽取方法
CN113298084B (zh) * 2021-04-01 2023-04-07 山东师范大学 用于语义分割的特征图提取方法及***
CN113194334B (zh) * 2021-04-16 2023-06-06 厦门智瞳科技有限公司 一种保护隐私的图像处理方法、装置、终端及存储介质
CN113514072B (zh) * 2021-09-14 2021-12-14 自然资源部第三地理信息制图院 一种面向导航数据与大比例尺制图数据的道路匹配方法
CN114092337B (zh) * 2022-01-19 2022-04-22 苏州浪潮智能科技有限公司 一种图像任意尺度的超分辨率放大的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108416774A (zh) * 2018-03-08 2018-08-17 中山大学 一种基于细粒度神经网络的织物种类识别方法
WO2019018063A1 (en) * 2017-07-19 2019-01-24 Microsoft Technology Licensing, Llc FINAL GRAIN IMAGE RECOGNITION
CN109409384A (zh) * 2018-09-30 2019-03-01 内蒙古科技大学 基于细粒度图像的图像识别方法、装置、介质及设备
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109636846A (zh) * 2018-12-06 2019-04-16 重庆邮电大学 基于循环注意力卷积神经网络的目标定位方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110163302A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于正则化注意力卷积神经网络的示功图识别方法
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019018063A1 (en) * 2017-07-19 2019-01-24 Microsoft Technology Licensing, Llc FINAL GRAIN IMAGE RECOGNITION
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108416774A (zh) * 2018-03-08 2018-08-17 中山大学 一种基于细粒度神经网络的织物种类识别方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109409384A (zh) * 2018-09-30 2019-03-01 内蒙古科技大学 基于细粒度图像的图像识别方法、装置、介质及设备
CN109636846A (zh) * 2018-12-06 2019-04-16 重庆邮电大学 基于循环注意力卷积神经网络的目标定位方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110163302A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于正则化注意力卷积神经网络的示功图识别方法
CN110490254A (zh) * 2019-08-20 2019-11-22 山西潞安环保能源开发股份有限公司五阳煤矿 一种基于双重注意力机制层次网络的图像语义生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力残差机制的细粒度番茄病害识别;胡志伟等;《华南农业大学学报》;20191028;第124-132页 *

Also Published As

Publication number Publication date
CN111126453A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111126453B (zh) 基于注意力机制和切割填充的细粒度图像分类方法及***
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN110751134B (zh) 目标检测方法、装置、存储介质及计算机设备
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN111353373B (zh) 一种相关对齐域适应故障诊断方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111461213B (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN112183203A (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、***及终端
CN112633429A (zh) 一种学生手写选择题识别方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN114743126A (zh) 一种基于图注意力机制网络的车道线标志分割方法
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN116681657B (zh) 基于改进YOLOv7模型的沥青路面病害检测方法
CN111223113B (zh) 基于双重密集上下文感知网络的核磁共振海马体分割算法
CN112381031A (zh) 基于卷积神经网络的实时在线受电弓羊角检测方法
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant