CN113052254B - 多重注意力幽灵残差融合分类模型及其分类方法 - Google Patents
多重注意力幽灵残差融合分类模型及其分类方法 Download PDFInfo
- Publication number
- CN113052254B CN113052254B CN202110366308.8A CN202110366308A CN113052254B CN 113052254 B CN113052254 B CN 113052254B CN 202110366308 A CN202110366308 A CN 202110366308A CN 113052254 B CN113052254 B CN 113052254B
- Authority
- CN
- China
- Prior art keywords
- ghost
- network
- classification
- image
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于图像分类的多重注意力幽灵残差融合分类模型(MAGR)及其分类方法,包括依次连接的基础特征提取网络、幽灵残差映射网络和图像分类网络;基础特征提取网络借助注意力机制有侧重的提取有用的特征信息,负责提取输入图像的基础特征,并送入幽灵残差映射网络;幽灵残差映射网络融合了幽灵卷积、多支路幽灵组卷积和残差连接,负责提取网络的高级特征;图像分类网络根据提取的全部特征信息判断图像所属类别,获取图像对应的标签,实现分类。本发明用于图像分类,能够实现分类模型的高效化、轻量化,同时保证图像的高精度分类。
Description
技术领域
本发明属于图像分类技术领域,隶属于新一代信息技术,涉及一种图像的多重注意力幽灵残差融合分类模型及其分类方法。
背景技术
图像分类技术是指给定一幅输入图像,通过算法判别图像所属类别的图像信息处理技术。图像分类在安防领域的人脸识别、行人检测、智能视频分析,交通领域的车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容的图像检索、相册自动归类等领域都有着广泛的应用。
传统图像分类算法对简单分类任务表现出色,对有严重干扰或差异细微的图像分类的效果无法满足需求。基于神经网络的智能分类方法得到人们的认可,通过加深网络深度提高分类效果是最常见的方法,如深度残差神经网络ResNet,详见“He K,Zhang X,andRen S,“Deep residual learning for image recognition,”Proceedings ofthe IEEEconference on computer vision andpattern recognition,2016,pp.770-778”。ResNet有效提高了网络的分类精度,但同时也带来了高昂的计算成本。
为了加快网络训练效率,人们开始通过替换传统的卷积操作来减少模型的参数量和计算成本,如K.Han等人首次提出了幽灵卷积的概念并由此构建了GhostNet神经网络,大大减了参数量,但该网络存在分类精度不高的问题,详见“K.Han,Y.Wang,Q.Tian,J.Guo,C.Xu and C.Xu,"GhostNet:More Features From Cheap Operations,"2020IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR),Seattle,WA,USA,2020,pp.1577-1586”。
现有图像分类方法往往专注于某一方面的性能,高精度分类模型可能存在计算成本高昂的问题,高效率分类模型也可能存在分类精度不够高的缺陷,难以同时满足某些特定场合中高精度和高效率的双重需求。随着人工智能技术的应用场合越来越丰富,各种智能机器或产品对图像分类技术的要求越来越高,如何实现兼具高效率、高精度优点的图像分类,是目前亟待解决的问题。
发明内容
本发明实施例提供一种多重注意力幽灵残差融合分类模型及其分类方法,以解决图像分类技术领域中出现的模型计算成本高,训练困难,分类精度低等问题。
本发明实施例所采用的技术方案是,多重注意力幽灵残差融合分类模型,包括依次连接的基础特征提取网络、幽灵残差映射网络和图像分类网络;
所述基础特征提取网络,用于提取待分类图像的包括色彩、纹理、轮廓等在内的基础特征信息,CBAM注意力机制能帮助网络有侧重的提取图像通道间和空间位置的特征信息,能更好的帮助分类器提取更多有利于分类的关键特征;
所述的幽灵残差映射网络,通过替换卷积操作、拓宽网络宽度和残差连接的方式建立输入与输出之间的非线性映射关系,反复提取图像的高维特征信息后传送到图像分类网络;
所述的图像分类网络,使用ECA注意力机制对幽灵残差映射网络的输出进一步提取细节、纹理等特征信息后,送入分类器,完成图像的分类任务。
本发明实施例所采用的另一技术方案是,多重注意力幽灵残差融合分类模型分类方法,按照以下步骤进行:
步骤S1、将待分类图像送到多重注意力幽灵残差融合分类模型的基础特征提取网络;
步骤S2、基础特征提取网络对输入图像进行基础特征提取,得到基础特征信息;
步骤S3、将基础特征信息送入幽灵残差映射网络,采用4个MGR-Block模块反复提取输入图像的高维特征信息;
步骤S4、将图像的高维特征信息送入图像分类网络,图像分类网络利用ECA模块对输入的高维特征信息实现通道间的信息交互,实现有侧重地提取对分类更有用的特征信息,然后把最终得到的特征信息传递给分类器实现分类。
本发明实施例的有益效果是,提出了一种多重注意力幽灵残差融合分类模型及其分类方法,设计了一个基础特征提取网络,它使用大小为3×3的卷积层、最大池化层和通道与空间的混合注意力机制来有侧重的提取输入图像的颜色、纹理等关键特征信息。通过顺次连接4个MGR-Block模块,提出了一种幽灵残差映射网络(GRM),GRM使用幽灵卷积操作替换全部的传统卷积以减少模型的计算量和参数量,然后采用多支路组卷积的方式改变GRM中所有的幽灵卷积层以拓宽网络宽度,增强网络的特征提取能力,帮助GRM网络从基础特征网络提供的输出特征中获得更丰富的特征信息。此外,上述4个MGR-Block依次是由3、4、6、3个幽灵子网络(GRS)和一个降维器以局部残差连接的方式构建而成。每个GRS均由1×1幽灵组卷积、3×3幽灵组卷积、1×1幽灵组卷积和Relu非线性激活层依次级联而成,其中第一层1×1幽灵组卷积层的输入和最后一层1×1幽灵组卷积层的输出还通过残差连接直接相连共同作为下一个GRS模块的输入,如此循环到最后一个GRS完成整个GRM网络的幽灵残差映射过程后得到GRM网络的最终输出。图像分类网络由依次连接的ECA注意力模块、全局平均池化层(GAP)和SoftMax分类器构成,把GRM网络的最终输出送入图像分类网络中,通过ECA注意力模块在不降低维度的情况下逐个对通道进行全局平均池化,这样一来每个特征图对应一个特征点,然后把所有特征点组成的特征向量送到SoftMax层,由SoftMax层根据得到的输入特征识别判断待分类图像所属类别及对应标签,最后得到分类结果,完成高效率、高精度的分类任务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的多重注意力幽灵残差融合分类模型的结构示意图。
图2是本发明实施例的多重注意力幽灵残差融合分类模型中基础特征提取网络中CBAM注意力模块的结构示意图。
图3是本发明实施例的多重注意力幽灵残差融合分类模型中幽灵残差映射网络GRM中的幽灵卷积操作的结构示意图。
图4是本发明实施例的多重注意力幽灵残差融合分类模型中幽灵残差映射网络GRM中的多支路幽灵组卷积模块MGR-Block的结构示意图。
图5是本发明实施例的多重注意力幽灵残差融合分类模型中幽灵残差映射网络GRM中的幽灵子网络GRS的结构示意图。
图6是本发明实施例的多重注意力幽灵残差融合分类模型中幽灵残差映射网络GRM中的残差连接结构示意图。
图7是本发明实施例的发明实施例的多重注意力幽灵残差融合分类模型中图像分类网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
经发明人研究发现,现有的基于深度学习的图像分类算法的分类效果不佳,现有的分类模型主要存在以下缺陷:(1)模型参数量大,计算成本高;(2)现有深度学习模型多通过增加网络深度的方式,提高网络的分类效果,这样网络将会出现梯度弥散问题,导致网络训练困难;(3)现有深度学习模型对输入图像中对分类更有用的关键特征信息提取能力不足。针对以上缺陷,本发明实施例提出一种多重注意力幽灵残差融合分类模型,其结构如图1所示,包括依次连接的基础特征提取网络、幽灵残差映射网络和图像分类网络,其中,基础特征提取网络,用于提取初始输入图像的颜色、轮廓等基础特征信息,CBAM注意力机制能够弥补普通卷积池化操作特征提取能力不足的问题。幽灵残差映射网络,通过建立输入与输出之间的多支路幽灵组卷积残差映射关系,反复提取图像的高维特征信息后传送到图像分类网络。图像分类网络,使用ECA注意力机制对幽灵残差映射网络的输出进一步提取细节、纹理等特征信息后,送入分类器,完成图像的分类任务。
本发明实施例中基础特征提取网络由3×3卷积层、最大池化层Maxpool和CBAM注意力机制组成。3×3卷积层,用于提取初始输入图像的包括颜色、轮廓等在内的基础特征信息;最大池化层,用于保留主要的特征的同时减少参数和计算量,防止过拟合,提高模型泛化能力;CBAM注意力机制,用于帮助基础特征提取网络有侧重的提取对分类更有用的特征信息。
对于卷积核的尺寸来说,大尺度的卷积核具有学习复杂特征的能力,但是会丢失细节信息,而小尺度的卷积核易于学习,可以带来更丰富的细节信息,但同时学习复杂特征能力较差。因此采用通道与空间混合注意力机制CBAM帮助网络实现特征的提取,可以有效弥补小尺度单一卷积核提取特征信息能力不足的缺点,保证从初始输入图像中提取更丰富的特征信息,为后续的分类任务作准备。本发明实施例中,基础特征提取网络包括3×3卷积层、最大池化层Maxpool和CBAM注意力机制三个部分。3×3卷积层用于提取初始输入图像的包括颜色、轮廓等在内的基础特征信息。最大池化层Maxpool用于保留主要的特征的同时减少参数和计算量,防止过拟合的同时提高模型泛化能力。CBAM注意力机制由通道注意力机制CA和空间注意力机制SA两部分构成,输入图像依次经过一个卷积层和一个最大池化层后,将提取到的图像特征送入CA模块,得到加权处理结果之后送入SA模块,再进行加权得到提取的基础特征信息。至此,通过基础特征提取网络,获得了基础特征图。
幽灵残差映射网络中的幽灵残差子网络GRS包含的所有卷积层均被替换为幽灵卷积层,每个GRS中的第一层1×1幽灵卷积层的输入和最后一层1×1幽灵卷积层的输出直接相连,作为下一个GRS模块的输入,如此循环至最后一个GRS。GRS内部均采用残差连接,一个GRS的输入被分成32个输入,每个输入一方面按照上述幽灵组卷积的方式前向传递,另一方面则借助残差连接直接传递到输出层,由此得到GRS的最终输出结果。在深度学习中,由于网络深度的加深会导致梯度弥散问题出现,利用残差连接,还能进一步有效改善网络内部的信息和梯度的流动。
由于幽灵卷积可以有效减少计算量,拓宽网络宽度能增强网络的特征提取能力,残差连接可以解决网络梯度弥散问题并改善整个网络的信息流动和梯度更新,对于图像分类算法来说,这些方法可以有效的提升分类效果。因此使用幽灵卷积替换传统卷积,可以有效地降低计算成本。使用多支路幽灵组卷积方式拓宽网络宽度,增强网络特征提取能力。采用残差连接解决网络梯度弥散问题并改善整个网络的信息流动和梯度更新。以此构建幽灵残差映射网络。
图像分类网络包括ECA注意力模块,全局平均池化层GAP,SoftMax分类器。其中的ECA注意力模块将幽灵残差映射网络中所有MGR-Block的最终输出结果在不降低维度的情况下逐个通道全局平均池化,产生一个1×1×C的特征向量,然后通过一个一维卷积层完成跨通道间的信息交互,一维卷积的卷积核大小通过一个自适应函数来确定,它使得通道数较大的层可以更多地进行Cross Channel交互,自适应卷积核大小的计算公式为:
ECA模块通过通道尺寸的非线性映射自适应确定一维卷积的内核大小,内核大小k代表网络跨通道交互的覆盖范围,范围大小与通道维度成是成比例增加的。经ECA注意力模块处理后的输入特征图随后传送到全局平均池化层GAP中,再由新的GAP层对接收到的每一个特征图再次进行全局平均值池化,这样一来每个特征图对应一个特征点,得到分类器SoftMax层方便处理的特征信息,最终由分类器根据传递进来的特征图进行识别判断初始输入图片类别所属及其对应标签信息,打印分类结果。至此,图像分类网络就完成了整个模型的分类任务。
由于每张输入到网络中的待分类图像类别不同,图像所包含的特征信息也各不相同,可能有大小、颜色、轮廓不尽相同的物体。然而在利用卷积层进行特征信息提取时,较小的物体所能够提取到的特征信息很少,而感受野的大小也可能会提取到周围的其他无关信息,随着不断进行卷积处理操作,最后可能会导致原图像中某些特征信息的丢失。因此在这里我们建立了残差连接,通过引入原始图像特征,对处理后行信息结果进行补充,保证较小物体的信息也能呈现在最后输出的特征图上。
基于深度学***均池化层GAP及SoftMax分类器完成分类任务。
本发明实施例提出一种多重注意力幽灵残差融合分类模型及其分类方法,如图1所示,按照以下步骤进行:
步骤S1、将原始图像输入到多重注意力幽灵残差融合分类模型的基础特征提取网络中,依次通过3×3卷积层、最大池化层和CBAM注意力模块。
步骤S2、基础特征提取网络对原始图像进行特征提取,得到基础特征,即图1中的x′;
单层卷积层和最大池化层提取基础特征信息,可能会导致提取过程中遗漏和忽视更有用特征细节信息。本文在基础特征提取网络部分采用CBAM注意力模块帮助网络有侧重的提取更有用的关键特征信息,CBAM注意力模块的结构图见图2,它有效弥补了单层卷积层特征提取能力不足的问题。基础特征提取公式如下:
n=H3×3(m);
x=Maxpool(n);
其中,m为输入的待分类图像,H表示卷积操作算子,下标表示卷积核的大小,Maxpool表示最大池化操作,Mc和Ms分别表示通道特征提取和空间特征提取操作,表示点乘操作,n、x′和x′分别表示对m进行3×3卷积操作、通道特征提取和空间特征提取后得到的特征图,x′为基础特征提取网络最终得到的基础特征。
步骤S3、将基础特征送入幽灵残差映射网络,经MGR-Block反复提取图像的高维特征信息;
幽灵残差映射网络GRM使用幽灵卷积替换传统卷积层,幽灵卷积见图3,幽灵卷积包括两部分,第一部分通过传统卷积生成通道数较小的特征图,第二部分则是通过线性运算利用第一部分的结果生成更多的特征图,两组特征图拼接到一起,得到最终的输出,给出幽灵卷积的数学模型为:
Y1=x1′*f′
Y=Y1+Y2
其中x′表示基础特征提取网络得到的基础特征,假设x′=x1′+x′2(x1′<x′2′),x1′和x′2′分别是有用基础特征信息和冗余基础特征信息,x1″用于产生m个本征特征图Y1,对每一个本征特征图线性运算φj生成s个重影特征,m个本征特征生成n=m×s个幽灵特征图Y2,Ghost卷积操作后得到m+n个输出特征图Y,其中f′∈Rc×k×k×m表示幽灵卷积操作中使用的过滤器,k×k为卷积核的大小,m个本征特征图Y∈Rh′×w′×n,h′、w′分别是输出特征图的高和宽,n为幽灵特征图的个数。
GRM网络内部串联了4个MGR-Block模块,MGR-Block模块结构见图4,4个MGR-Block依次由3、4、6、3个幽灵残差子网络GRS顺次连接而成。GRS结构图见图5,GRS中的所有卷积层均被替换为幽灵卷积层,而每个幽灵卷积层又被分为32条支路,形成一个多支路分组幽灵卷积结构,每个GRS依次由1×1幽灵组卷积、3×3幽灵组卷积、1×1幽灵组卷积和Relu非线性激活层依次级联而成,其中第一层1×1幽灵组卷积层的输入和最后一层1×1幽灵组卷积层的输出直接相连,作为下一个GRS模块的输入,如此循环至最后一个GRS,单个GRS的数学模型如下:
其中输入X=x′,输入X被分为Q个输入Xi,i=1,…,Q,T(Xi)表示第i条支路的映射结果,若干个GRS按顺序依次构成MGR-Block后(这里GRS的个数依次采取3、4、6、3的结构搭建网络),除了第一个GRS的输入为基础特征提取网络的输出,其它的GRS的输入均为上一个GRS的输出,以此实现特征在4个MGR-Block中的传递,其中幽灵映射网络中完整的幽灵组卷积映射过程的数学模型为:
其中K,K=1,…,P,M为第K个多支路幽灵组卷积中包含的GRS的个数,TK(X)表示幽灵映射网络的输出结果。GRS内部采用残差连接将输入直接传递到输出层,一个GRS的输入被分成Q个输入,每个输入一方面按照上述幽灵组卷积的方式前向传递,另一方面则借助残差连接直接传递到输出层,残差连接见图6,由此可得GRM网络的完整数学模型为:
其中TKFin(X)表示完整幽灵残差映射网络GRM的最终输出结果。幽灵卷积可以有效减少模型计算量,多支路组卷积可以拓宽网络宽度,增强网络特征提取能力,残差连接可以有效改善特征信息在网络中的流动和梯度更新,防止梯度弥散或***。
图7所示图像分类网络的输入是GRM的输出TkFin(X),TkFin(X)进入图像分类网络中后首先由ECA模块在不降低维度的情况下逐个通道全局平均池,其数学模型为:
其中Me表示ECA操作过程,表示点乘操作,Tk′Fin(X)表示输入TkFin(X)经过ECA模块后得到的处理结果,随后将Tk′Fin(X)送入GAP层,GAP层对输入的每一个特征图进行全局平均值池化,这样一来每个特征图对应一个特征点,然后把所有特征点组成的特征向量送到SoftMax层,由SoftMax层根据得到的输入特征识别判断待分类图像所属类别及对应标签,最后得到分类结果,完成最终的分类任务。
多重注意力幽灵残差融合分类模型MAGR中的激活函数均采用ReLU激活函数,ReLU激活函数是实现非线性映射的关键,它有助于本发明实施例网络模型学习输入图像的复杂特征。因为卷积层是一种具有互相关特性的线性滤波器。ReLU作为卷积层的激活函数,具有非线性特性,可以将一个节点的多个输入信号转换成一个输出信号,实现输入输出特征图像的非线性映射。
给定一个训练数据集E={X(k),Y(k)},k=1,2,3,...,|D|,其中X(k)和Y(k)分别表示原始图像和图像对应类别标签。多重注意力幽灵残差融合分类模型是实现从图像特征信息到图像类别标签的端到端映射。换句话说,我们发明实施例的多重注意力幽灵残差融合分类模型的目标是学习一个演绎模型Γ,从输入的原始图像图像X(k)中推断出其对应的类别标签Y(k)。
其中Θ=[ω,b]是网络模型参数,ω是权重矩阵,b是偏差。模型参数Θ通过最小化重建的HR图像与真实的HR图像之间的损失来确定。我们将损失函数定义为,
用训练集E训练MAGR的过程是使损失最小化,找到模型Θ的最优参数。MAGR模型的结构如图1所示,它由基础特征提取网络(BFE)、幽灵残差映射网络(GRM)和图像分类网络(IC)组成。BFE负责提取原始图像的基础特征并传送到GRM,GRM负责提取图像的高维特征并送入IC,IC使用ECA注意力模块处理后送入SoftMax分类器执行分类任务。
为了验证本发明实施例的多重注意力幽灵残差融合分类模型的有效性,选择不同场景图像作为测试数据集,与K.Han的算法(K.Han,Y.Wang,Q.Tian,J.Guo,C.Xu andC.Xu,"GhostNet:More Features From Cheap Operations,"2020IEEE/CVF Conferenceon Computer Vision and Pattern Recognition(CVPR),Seattle,WA,USA,2020,pp.1577-1586.);Liu Z的算法(Liu Z,Sun M,andZhou T,“Rethinking the valueofnetworkpruning,”arXiv preprint arXiv1,pp.810.05270,2018.);Shen Y T的算法(Shen Y T,and Wen Y,
“Convolutional Neural Network optimization via Channel ReassessmentAttention module,”arXivpreprint arXiv,pp.2010.05605,2020.);Liu Y的算法(Liu Y,WentzlaffD,andKung S Y,“Rethinking Class-Discrimination Based CNN ChannelPruning,”arXiv preprint arXiv,pp.2004.14492,2020.);F.Ren的算法(F.Ren,W.Liuand G.Wu,"Feature Reuse Residual Networks for Insect Pest Recognition,"inIEEE Access,vol.7,pp.122758-122768,2019.);Wang M的算法(Wang M,Zhang X,and NiuX,“Scene classification ofhigh-resolution remotely sensed image based onResNet,”Journal of Geovisualization and Spatial Analysis,pp.16,2019,3(2).);L.Li的算法(L.Li,T.Tian and H.Li,"Classification of Remote Sensing ScenesBased on Neural Architecture Search Network,"2019IEEE 4th InternationalConference on Signal and Image Processing(ICSIP),Wuxi,China,2019,pp.176-180.)和本发明的实验结果通过主客观两个方面对比分析验证。
本实施例为避免定性分析带来的偏差,使用模型参数量(Params/M)、浮点计算量(FLOPs/M)和分类准确率(Acc/%)三个客观指标进行定量评价,通过在CIFAR10、CIFAR100和UC Merced Land(UC-M)三个数据集上的实验结果进行分析比较。
在CIFAR10数据集上的实验结果如表1所示,粗体表示最好结果,蓝色表示第二好的结果。由表可知:K.Han的Ghost-ResNet-56算法Params和FLOPs均是最低值,但分类精度不高。Liu Z的算法L1-ResNet-56Params指标和FLOPs指标均排名第二,但分类精度仅92.5%。MAGR的Params指标和FLOPs指标均排名第三,但分类精度最高,达到了94.7%,比Ghost-ResNet-56和L1-ResNet-56分别提高了2.1%和2.3%。
表1与其他模型在CIFAR10上的性能比较
在CIFAR100数据集上的实验结果如表2所示,粗体表示最好结果,蓝色表示第二好的结果。由表2可见:Liu Y的算法ResNet-164-S-GD获得了最好的Params指标和最好的FLOPs指标。MAGR的Params指标位居第二,但获得了最高分类精度,达到了78.4%,比ResNet-164-S-GD提高了1.7%。
表2与其他模型在CIFAR100上的性能比较
最后,在UC-M数据集上的实验结果如表3所示,粗体表示最好结果。从表3数据可知,本发明提出的多重注意力幽灵残差融合分类模型及其分类方法MAGR获得了最好效果,分类精度达96.7%。综合以上实验结果可知,MAGR虽然没有获得最好的Params和FLOPs指标,但在相比较的方法中位居中上等,在CIFAR10、CIFAR100、UC-M三个公开的数据集得分类精度均获得了最高值。因此,本发明实施例提出的方法在训练效率上具有优越性,分类精度相较于其它CNN模型具有明显的竞争力。
表3与其他模型在UC-M上的性能比较
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,包括依次连接的基础特征提取网络、幽灵残差映射网络GRM和图像分类网络;
所述基础特征提取网络,用于提取输入图像中包含的色彩、纹理和轮廓三种基础特征信息,CBAM注意力机制能帮助基础特征提取网络有侧重的提取对分类阶段有用的关键信息;
所述的幽灵残差映射网络GRM,通过替换卷积操作、拓宽网络宽度和残差连接的方式建立输入与输出之间的非线性映射关系,减少模型的计算量,同时有效提升了网络的特征提取能力;
所述幽灵残差映射网络GRM由4个多支路幽灵组卷积网络MGR-Block级联而成;
所述的GRM中的第一个MGR-Block由一个降维器和3个幽灵残差子网络GRS级联而成;
所述的GRM中的第二个MGR-Block由一个降维器和4个GRS级联而成;
所述的GRM中的第三个MGR-Block由一个降维器和6个GRS级联而成;
所述的GRM中的第四个MGR-Block由一个降维器和3个GRS级联而成;
所述的GRM输入的是基础特征提取网络提取的基础特征,即基础特征是第一个MGR-Block的输入;
所述幽灵残差子网络GRS,使用幽灵卷积Ghost提取特征,并通过分组将网络宽度拓宽至32倍,每个GRS按照1×1卷积、3×3卷积、1×1卷积的顺序串联而成,每层卷积层后均采用Relu激活层;
所述的图像分类网络,使用ECA注意力机制对幽灵残差映射网络输出的特征进一步提取细节和纹理信息后,送入分类器,完成图像的分类任务。
2.根据权利要求1所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,所述基础特征提取网络对输入图像依次经过一个卷积操作和一个最大池化层后,将提取到的图像特征送入通道注意力模块CA,得到加权处理结果之后送入空间注意力模块SA,再进行加权得到提取的基础特征信息;
所述基础特征提取网络得到的最终的基础特征送入幽灵残差映射网络GRM的输入端。
3.根据权利要求1所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,所述多支路幽灵组卷积网络MGR-Block中包含的GRS两端采取局部残差连接方式将输入输出特征信息融合后输入到下一个GRS,由此实现输入特征在整个GRM网络中的幽灵残差映射与传递;
所述的GRS中的分组卷积操作表示将输入特征先拆分再合并,不改变通道数;
所述的GRS中涉及的卷积层全都是幽灵卷积;
所述的GRS中的局部残差连接融合表示合并特征图,通道数增加。
4.根据权利要求1所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,所述图像分类网络包括依次连接的有效通道注意力机制ECA、全局平均池化GAP及分类器SoftMax三个部分;
所述的ECA可以加强幽灵残差映射输出的高维通道信息之间的联系,在不增加计算量的前提下帮助模型进一步提取有用特征信息,上层输出进入ECA模块后在不降低维度的情况下逐个通道全局平均池化产生一个1×1×C的特征向量,然后通过一个一维卷积层完成跨通道间的信息交互,一维卷积的卷积核尺寸通过一个自适应函数来确定,它使得通道数较大的层可以更多地进行通道之间的交互利用,进而有侧重的提取对最终分类更有用的细节特征信息;
所述的全局平均池化GAP的作用是把ECA得到的每一个输入特征进行全局平均值池化,这样一来每个特征图对应一个特征点,最后得到由全部特征点组成的特征向量;
所述的分类器SoftMax根据GAP层输出的由全部特征点组成的特征向量,判断原始输入图像的类别标签并得到分类结果,实现最终的图像分类。
5.根据权利要求1~4任一项所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,按照以下步骤进行:
步骤S1、将待分类图像输入到图像的多重注意力幽灵残差融合分类模型的基础特征提取网络;
步骤S2、基础特征提取网络对待分类图像进行特征提取,得到基础特征;
步骤S3、将基础特征送入幽灵残差映射网络,采用4个MGR-Block模块反复提取输入图像的高维特征信息;
步骤S4、将图像的高维特征信息送入图像分类网络,图像分类网络利用ECA模块对输入的高维特征信息实现通道间的信息交互,实现有侧重地提取对分类更有用的特征信息,然后把最终得到的特征信息传递给分类器实现分类。
7.根据权利要求5所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,所述步骤S3中幽灵残差映射网络反复提取图像的高维特征信息的过程为:
幽灵残差映射网络中的每个GRS中的第一层1×1幽灵卷积层的输入和最后一层1×1幽灵卷积层的输出直接相连,作为下一个GRS模块的输入,如此循环至最后一个GRS,GRS中的幽灵组卷积数学模型为:
其中输入X=z,输入X被分为32个输入Xi,T(Xi)表示第i条支路的映射结果;幽灵映射网络中完整的幽灵组卷积映射过程的数学模型为:
其中M表示4个依次相连的MGR-Block中包含的GRS的个数,M的取值分别为3、4、6、3,k表示4个依次相连的MGR-Block的序号,与M对应的k的取值分别为1、2、3、4,Tk(X)表示幽灵映射网络的输出结果;
所述的GRS内部采用残差连接将输入直接传递到输出层,一个GRS的输入被分成32个输入,每个输入一方面按照上述幽灵组卷积的方式前向传递,另一方面则借助残差连接直接传递到输出层,由此可得GRS的最终数学模型为:
其中TkFin(X)表示完整幽灵残差映射网络GRM的最终输出结果,M和k的含义与幽灵组卷积映射过程的数学模型中相同。
8.根据权利要求5所述的一种基于多重注意力幽灵残差融合分类模型的图像分类方法,其特征在于,所述步骤S4中图像分类网络的过程为:
图像分类网络的输入是GRM的输出TkFin(X),TkFin(X)进入图像分类网络中后由ECA模块在不降低维度的情况下逐个通道全局平均池,其数学模型为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110366308.8A CN113052254B (zh) | 2021-04-06 | 2021-04-06 | 多重注意力幽灵残差融合分类模型及其分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110366308.8A CN113052254B (zh) | 2021-04-06 | 2021-04-06 | 多重注意力幽灵残差融合分类模型及其分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113052254A CN113052254A (zh) | 2021-06-29 |
CN113052254B true CN113052254B (zh) | 2022-10-04 |
Family
ID=76517598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110366308.8A Active CN113052254B (zh) | 2021-04-06 | 2021-04-06 | 多重注意力幽灵残差融合分类模型及其分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052254B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470827A (zh) * | 2021-06-30 | 2021-10-01 | 上海商汤智能科技有限公司 | 分类方法及装置、电子设备和存储介质 |
CN113658044B (zh) * | 2021-08-03 | 2024-02-27 | 长沙理工大学 | 提高图像分辨率的方法、***、装置及存储介质 |
CN117616471A (zh) * | 2021-10-13 | 2024-02-27 | 英特尔公司 | 样本自适应3d特征校准和关联代理 |
CN114842240A (zh) * | 2022-04-06 | 2022-08-02 | 盐城工学院 | 融合ghost模块和注意力机制的MobileNetV2农作物叶片图像分类方法 |
CN114882281B (zh) * | 2022-05-16 | 2024-06-21 | 安徽理工大学 | 煤矸的轻量级智能分选模型、方法、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046967A (zh) * | 2019-12-18 | 2020-04-21 | 江苏科技大学 | 一种基于卷积神经网络和注意力机制的水下图像分类方法 |
CN111898709A (zh) * | 2020-09-30 | 2020-11-06 | 中国人民解放军国防科技大学 | 一种图像分类方法及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191664B (zh) * | 2018-11-14 | 2024-04-23 | 京东方科技集团股份有限公司 | 标签识别网络的训练方法、标签识别装置/方法及设备 |
US11373066B2 (en) * | 2019-05-17 | 2022-06-28 | Leica Microsystems Cms Gmbh | Deep model matching methods for image transformation |
CN111027630B (zh) * | 2019-12-13 | 2023-04-07 | 安徽理工大学 | 一种基于卷积神经网络的图像分类方法 |
CN111325155B (zh) * | 2020-02-21 | 2022-09-23 | 重庆邮电大学 | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 |
CN111738300A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种交通标志及信号灯检测和识别的优化算法 |
CN111640101B (zh) * | 2020-05-29 | 2022-04-29 | 苏州大学 | 基于Ghost卷积特征融合神经网络实时车流量检测***及方法 |
CN112149747A (zh) * | 2020-09-27 | 2020-12-29 | 浙江物产信息技术有限公司 | 一种基于改良Ghost3D模块和协方差池化的高光谱图像分类方法 |
CN112541409B (zh) * | 2020-11-30 | 2021-09-14 | 北京建筑大学 | 一种融入注意力的残差网络表情识别方法 |
CN112528879B (zh) * | 2020-12-15 | 2024-02-02 | 杭州电子科技大学 | 基于改进GhostNet的多分支行人重识别方法 |
CN112364944B (zh) * | 2020-12-18 | 2022-07-05 | 福州大学 | 一种基于深度学习的生活垃圾分类方法 |
-
2021
- 2021-04-06 CN CN202110366308.8A patent/CN113052254B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046967A (zh) * | 2019-12-18 | 2020-04-21 | 江苏科技大学 | 一种基于卷积神经网络和注意力机制的水下图像分类方法 |
CN111898709A (zh) * | 2020-09-30 | 2020-11-06 | 中国人民解放军国防科技大学 | 一种图像分类方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113052254A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052254B (zh) | 多重注意力幽灵残差融合分类模型及其分类方法 | |
CN111310773B (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
WO2019001070A1 (zh) | 一种基于邻接矩阵的连接信息规整***、图特征提取***、图分类***和方法 | |
WO2019001071A1 (zh) | 一种基于邻接矩阵的图特征提取***、图分类***和方法 | |
CN105354273A (zh) | 一种快速检索高速公路逃费车辆高相似度图像的方法 | |
CN111178316A (zh) | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 | |
Atif et al. | A review on semantic segmentation from a modern perspective | |
Sun et al. | Hyperlayer bilinear pooling with application to fine-grained categorization and image retrieval | |
Su et al. | Transfer learning for video recognition with scarce training data for deep convolutional neural network | |
CN114419413A (zh) | 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法 | |
CN112862015A (zh) | 一种基于超图神经网络的论文分类方法及*** | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
Mereu et al. | Learning sequential descriptors for sequence-based visual place recognition | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN106355210A (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN115830575A (zh) | 一种基于Transformer与跨维度注意力的交通标志检测方法 | |
Li et al. | Few-shot hyperspectral image classification with self-supervised learning | |
Zhu et al. | Local information fusion network for 3D shape classification and retrieval | |
Singh et al. | Iml-gcn: Improved multi-label graph convolutional network for efficient yet precise image classification | |
CN116206082A (zh) | 一种语义场景补全方法、***、设备及存储介质 | |
CN104408158A (zh) | 一种基于几何重构和语义融合的视点追踪方法 | |
CN114998702A (zh) | 基于BlendMask的实体识别、知识图谱生成方法及*** | |
Liu et al. | Playing to Vision Foundation Model's Strengths in Stereo Matching | |
Wang et al. | A spatio-temporal attention convolution block for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |