CN116310476B - 基于非对称卷积残差网络的细粒度图像分类方法及*** - Google Patents

基于非对称卷积残差网络的细粒度图像分类方法及*** Download PDF

Info

Publication number
CN116310476B
CN116310476B CN202211463851.0A CN202211463851A CN116310476B CN 116310476 B CN116310476 B CN 116310476B CN 202211463851 A CN202211463851 A CN 202211463851A CN 116310476 B CN116310476 B CN 116310476B
Authority
CN
China
Prior art keywords
classification
feature extraction
asymmetric
convolution
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211463851.0A
Other languages
English (en)
Other versions
CN116310476A (zh
Inventor
谭志
胥子皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202211463851.0A priority Critical patent/CN116310476B/zh
Publication of CN116310476A publication Critical patent/CN116310476A/zh
Application granted granted Critical
Publication of CN116310476B publication Critical patent/CN116310476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于非对称卷积残差网络的细粒度图像分类方法及***,属于计算机视觉技术领域,获取待分类图像;利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元。本发明在降低残差网络整体计算数据量和模型复杂度的同时提升了模型效果;非对称卷积的使用成功降低了模型复杂度和计算数据量并提升了模型的分类效果;增强了网络的特征提取能力并提升了模型效果。

Description

基于非对称卷积残差网络的细粒度图像分类方法及***
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于非对称卷积残差网络的细粒度图像分类方法及***。
背景技术
细粒度图像分类问题是计算机视觉领域的一个热门问题,它是指在对图像中的物体进行较为粗糙的大类别划分之后,继续进行的更精细的小类别划分任务。也正因如此细粒度图像分类任务和通常的图像分类任务相比其难点在于类别之间差异较小而类别之内差异较大。
细粒度图像分类任务的意义在于无论是工业界还是学术界都存在着广泛的研究需求和应用场景。例如在生态保护中有效识别不同种类的生物,可以为生态研究提供十分有效的帮助。而如果借助计算机视觉技术来低成本高效率的实现这一目的,那么无论对于学术界还是工业界而言都有着非常重要的意义。
Fadi等人提出了一种弹性优化方式,通过把从高斯分布函数中的返回值加入到损失函数中以限制类别间的距离,从而实现分类的目的。该方法在诸如人脸识别等多个细分领域都取得了十分优秀的成果。其实现过程大致如下。第一步,在训练模型前,将数据集的图像经过预处理后统一大小和通道数;第二步,将预处理好的图像送入神经网络中进行特征提取,网络由卷积层、池化层、归一化层、残差连接、激活函数和损失函数组成。图像将首先经过5×5卷积层、归一化层、最大值池化层和Prelu激活函数层进行初步的特征提取;第三步,图像将随后根据网络回传的参数选择进入分别由3×3卷积层、归一化层、Prelu激活函数层、3×3卷积层、归一化层组成的基本模块主通路,或是进入残差连接的高速通路绕过这一模块并多次重复这一过程直至通过所有组成模块以完成特征提取操作;第四步,将第三步中提取到的特征进行重新排列后传入Softmax函数进行分类;第五步,从设置好的高斯分布函数中随机返回一个值添加到Sofmax函数中对特征分类过程进行限制以达到增大类间差异提高模型表现的目的;第六步将分类好的特征传入交叉熵损失函数对效果进行评估并反向回传相关参数指导模型训练,之后经计算得出准确率结果。
然而上述现有的技术仍存在以下几个方面的问题:过度关注模型表现而忽略了模型部署和实现的难易程度,虽然表现十分优秀但过高的模型复杂度导致了难以部署到小型设备中从而造成了难以实现的问题;注意力主要集中于激活函数和损失函数的优化中而忽略了它们之间的配合,使得模型的发展落后于函数方法;模型中使用的特征提取方式效率较低,无法很好的平衡模型复杂度和模型表现。
发明内容
本发明的目的在于提供一种基于非对称卷积残差网络的细粒度图像分类方法及***,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种基于非对称卷积残差网络的细粒度图像分类方法,包括:
获取待分类图像;
利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
优选的,基于卷积的可加性构建所述非对称卷积组,卷积的可加性如下式:I×K1+I×K2=I×(K1+K2);其中K1和K2分别代表两个卷积核,I代表特征图输入。
优选的,训练所述分类模型包括:
获取训练集;所述训练集包括多张高维图像和标注图像中分类目标的低维标签数据;
对输入图像进行尺寸调整、裁剪、随机旋转和数据归一化预处理;
将预处理好的图像输入特征提取模块中进行特征提取;
将提取好的特征向量经过重新排列为一维数据后后传入全连接层通过Softmax函数和对特征向量进行特征分类;
通过梯度下降算法不断优化模型参数,并回传数据更新网络权重,直至分类准确率最优;得到训练好的分类模型。
优选的,其中Softmax函数为:
其中是权重向量/>和偏置项/>的最后一个全连接层输出;/>是权重矩阵w的第yi列;因此softmax的输出是输入xi被正确归类为标签的概率。
优选的,通过一个返回随机值的高斯分布函数来对softmax函数进行限制:
其中LEArc表示该ElasticFace损失函数,N表示类别总数,表示最后一个全连接层与权重向量/>之间的夹角,s为常数,E(m,σ)是一个以softmax函数为概率密度的正态函数,它从高斯分布中返回一个随机值,其平均值为m,标准差为σ。
优选的,梯度下降算法的公式为:
其中表示在点θi位置的梯度,θi+1表示在θi之后的下一个点,α表示为一个常量,表示学习率用它乘以当前的梯度表示当前位置下降的距离。
第二方面,本发明提供一种基于非对称卷积残差网络的细粒度图像分类***,包括:
获取模块,用于获取待分类图像;
分类模块,用于利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于非对称卷积残差网络的细粒度图像分类方法。
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的基于非对称卷积残差网络的细粒度图像分类方法。
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于非对称卷积残差网络的细粒度图像分类方法的指令。
本发明有益效果:通过将非对称卷积融入残差网络中并使用重新设计的全新残差模块使得在降低残差网络整体计算数据量和模型复杂度的同时提升了模型效果。其中非对称卷积的使用成功降低了模型复杂度和计算数据量并提升了模型的分类效果。在残差块的设计中将Relu函数替换为Prelu函数,保留了部分模型训练前期所产生的大量小于零数据使得整个训练曲线更加平滑训练时间和训练效果略有加强。在非对称深度残差块中,改变了残差块中的维度排列,将中间的特征提取阶段维度扩充降低了两端通道混洗的维度,使得整个残差块呈现前后小中间大的橄榄形结构增强了网络的特征提取能力并提升了模型效果。
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的卷积非对称化示意图。
图2为本发明实施例所述的非对称残差结构图。
图3为本发明实施例所述的非对称深层残差模块结构图。
图4为本发明实施例所述的分类模型的特征提取模块的结构图。
图5为本发明实施例所述的基于非对称卷积残差网络的细粒度图像分类方法流程图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1提供一种基于非对称卷积残差网络的细粒度图像分类***,包括:
获取模块,用于获取待分类图像;
分类模块,用于利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
本实施例1中,利用上述的***,实现了基于非对称卷积残差网络的细粒度图像分类方法,包括:
利用获取模块,获取待分类图像;
利用分类模块,基于预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
其中,基于卷积的可加性构建所述非对称卷积组,卷积的可加性如下式:I×K1+I×K2=I×(K1+K2);其中K1和K2分别代表两个卷积核,I代表特征图输入。
训练所述分类模型包括:
获取训练集;所述训练集包括多张高维图像和标注图像中分类目标的低维标签数据;
对输入图像进行尺寸调整、裁剪、随机旋转和数据归一化预处理;
将预处理好的图像输入特征提取模块中进行特征提取;
将提取好的特征向量经过重新排列为一维数据后后传入全连接层通过Softmax函数和对特征向量进行特征分类;
通过梯度下降算法不断优化模型参数,并回传数据更新网络权重,直至分类准确率最优;得到训练好的分类模型。
其中Softmax函数为:
其中是权重向量/>和偏置项/>的最后一个全连接层输出;/>是权重矩阵w的第yi列;因此softmax的输出是输入xi被正确归类为标签的概率。
通过一个返回随机值的高斯分布函数来对softmax函数进行限制:
其中LEArc表示该ElasticFace损失函数,N表示类别总数,表示最后一个全连接层与权重向量/>之间的夹角,s为常数,E(m,σ)是一个以softmax函数为概率密度的正态函数,它从高斯分布中返回一个随机值,其平均值为m,标准差为σ。
梯度下降算法的公式为:
其中表示在点θi位置的梯度,θi+1表示在θi之后的下一个点,α表示为一个常量,表示学习率用它乘以当前的梯度表示当前位置下降的距离。
实施例2
本实施例2中,分别针对浅层残差网络和深层残差网络设计了两种融入非对称卷积全新残差块,构建了一个细粒度图像分类模型,用于细粒度图像分类。该模型结构主要包括特征提取网络和神经网络分类器。
本实施例中,设计非对称卷积组合如下:
在以往的基于卷积的神经网络中,往往为了增强网络的学习和表达能力而不断加深网络,虽然这种思路确实较为有效的提升了网络的能力,但却与此同时也产生了网络结构过于冗长、复杂度较高的问题,同时对于函数方法的不断优化也使得网络的这一问题日益凸显。因此,本实施例中基于卷积的可加性和灵活性等特点,设计了全新的非对称卷积组合。关于卷积运算的可加性可通过如式(1)所示:
I×K1+I×K2=I×(K1+K2);(1)
其中K1和K2分别代表两个卷积核,I代表特征图输入。因此以3×3卷积为例常用的3×3对称卷积即可拆分为由1×3卷积和3×1卷积的一组非对称卷积组合如图1所示。
设计通用非对称残差结构如下:
基于以上所述的卷积的可加性理论,一个对称卷积核可以由一组非对称卷积组合替换。进而本实施例设计的全新非对称残差模块。该模块由两组3维非对称卷积组合与批量归一化层(BatchNorm,BN)、Prelu函数层和残差连接共同组成,其结构如图2所示。输入特征图先经过由BN层穿插其中的两组3维非对称卷积组所组成的特征提取层,再和经由残差连接的便捷通路传输过来的原始数据做相加操作后传入Prelu函数层进行函数处理。
设计非对称深度残差模块如下:
基于以上所述的理论,本实施例中针对深度残差网络继续对残差模块进行改进以进一步降低其参数量和所需算力,使其轻量化小型化成为可能。非对称深度残差模块由一组三维非对称卷积组与1×1卷积层、BN层和Prelu层组成,其结构如图3所示。模块的特征提取部分由一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积负责通道之间的信息交换中间的非对称卷积组负责特征提取,由于精心设计的通道数差别使得整个特征提取部分呈现出两端小中间大的橄榄型结构。这与传统的两端大中间小的瓶颈型结构寓有所区别,此种设计是为了使得中间的非对称卷积组可以在特征提取任务上发挥出更大的效果。从总体来讲这种全新的非对称深度残差结构可以使得深层残差网络的复杂度进一步降低,让其参数量所需算力等相关参数降低到同浅层残差网络同一数量级,并且模型表现维持不变。其前向流程同浅层残差模块相同,输入特征图经特征提取部分处理后和原始信息相加传入函数处理层后继续输出。
如图4所示,本实施例设计的分类模型的网络,整体呈金字塔型由四个通道数依次递增的不同阶段组成,每个阶段由一个通道混洗模块和n个非对称残差模块组成,其中n为可以设置的超参数。输入数据在进入每个阶段时都会先传入通道混洗模块进行通道数统一,之后传入n个非对称残差模块进行特征提取以此完成一个阶段的计算,并以此往复直至完全通过四个阶段。随后将计算好的数据传入分类层进行特征分类并输出分类结果。
如图5所示,为了详细说明本实施例所述的图像分类方法的具体实现方法,结合方法流程图(如图5所示)和2.2.1小节的创新点,对整个方法的实现过程做详细的介绍。
第一步,配置运行环境,选用Pytorch深度学习框架进行训练,在开始训练模型中之前需要安装Numpy、Matplotlib等数据库以配合训练。对于本实施例中,基于Python3.10并配置了新的虚拟环境。
第二步,准备用于训练模型的数据集。本实施例选用RetinaFace数据集进行模型训练,该数据集中包含了大量高维图片和低维标签数据以及用于测试的高维人脸图像和低维标签数据,可以更好的训练模型的泛化性。
第三步,设置模型训练文件和相关参数。除了设置整个***的配置文件外,根据RetinaFace数据集的特点,将整个数据集根据9:1的比例将数据集划分为训练集和测试集,并将批尺寸(Batch Size)设定为16即每次向模型传入16张图像直至全部训练集即完成一次迭代。本发明将迭代次数设置为30以充分训练模型。
第四步,图像预处理和加载阶段。对输入图像通过调用Transform函数的Resize、Randomcrop、Normalize等功能进行尺寸调整、裁剪、随机旋转和数据归一化等预处理操作在统一图像格式的同时加强数据以使得模型在训练过程中避免过拟合等问题且具有更好的泛化性能。
第五步,图像特征提取阶段。将预处理好的图像传入网络中进行特征提取。通过网络中通道混洗模块的1×1卷积增加通整体道数,拓宽网络之后进入非对称残差模块。非对称残差模块中的非对称卷积组会通过卷积操作,对输入的图像数据进行特征提取,并经过为避免训练时发生过拟合而设置的BN层进行数据归一化处理后完成这一层的特征提取操作,传入Prelu激活函数层为增加网络的训练过程增加非线性因素以更好的拟合数据特征,至此完成非对称残差模块中的所有操作并多次重复直至完成所有非对称残差模块。
第六步,特征分类。将提取好的特征向量经过重新排列为一维数据后后传入全连接层通过Softmax函数和对特征向量进行特征分类和模型评估。其中Softmax函数可如式(2)所示:
其中是权重向量/>和偏置项/>的最后一个全连接层输出;/>是权重矩阵w的第yi列;因此softmax的输出是输入xi被正确归类为标签的概率。
第七步,计算损失和准确率。将分类完成后的结果与标签数据进行对比并计算准确率,并将分类结果传入损失函数计算损失。本发明使用在softmax函数中通过高斯函数来进行动态限制的弹性损失函数ElasticFace损失函数。形式上高斯分布的概率密度函数如式(3)所示:
其中μ为分布均值,σ为分布的标准差。据此通过一个返回随机值的高斯分布函数来对softmax进行限制,其公式如式(4)所示:
其中LEArc表示该ElasticFace损失函数,N表示类别总数,表示最后一个全连接层与权重向量/>之间的夹角,s为常数,E(m,σ)是一个以softmax函数为概率密度的正态函数,它从高斯分布中返回一个随机值,其平均值为m,标准差为σ。
将结果传入如上所示的损失函数进行分类之后通过计算分类正确的图像数目在总分类数目中的占比得出分类准确率,并依此对网络进行评估。
第八步,梯度下降算法更新权重。通过梯度下降算法不断优化模型参数,并回传数据更新网络权重,指导模型训练。其中梯度下降算法的公式可以如式(5)表示:
其中表示在点θi位置的梯度,θi+1表示在θi之后的下一个点,α表示为一个常量,表示学习率用它乘以当前的梯度表示当前位置下降的距离。
第九步,保存模型。记录模型训练的准确度,在未达到设定的训练轮数(Epoch)之前,每个Epoch计算一次模型准确率。
第十步,结束整个过程。
综上,本实施例2中,通过将非对称卷积融入残差网络中并使用重新设计的全新残差模块使得在降低残差网络整体计算数据量和模型复杂度的同时提升了模型效果。其中非对称卷积的使用成功降低了模型复杂度和计算数据量并提升了模型的分类效果。在残差块的设计中将Relu函数替换为Prelu函数,保留了部分模型训练前期所产生的大量小于零数据使得整个训练曲线更加平滑训练时间和训练效果略有加强。在非对称深度残差块中,改变了残差块中的维度排列,将中间的特征提取阶段维度扩充降低了两端通道混洗的维度,使得整个残差块呈现前后小中间大的橄榄形结构增强了网络的特征提取能力并提升了模型效果。
运用非对称卷积,重新设计了残差网络中的基本组成模块。在基本模块中使用两组三维非对称卷积组串行排列降低了整体网络的计算数据量和复杂度并提升了模型表现。将模块中的Relu函数替换为Prelu函数并将位置转移到残差连接后,使得整个训练过程更加平滑增强了模型表现,如表1所示。在为深度残差网络设计的深度残差模块中,改变了特征通道的组成结构,将传统两边大中间小的瓶颈形结构改为上下小中间大的橄榄形结构增强了网络的特征提取能力,提升了模型表现。
表1
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现基于非对称卷积残差网络的细粒度图像分类方法,该方法包括:
获取待分类图像;
利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
实施例4
本发明实施例4提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现基于非对称卷积残差网络的细粒度图像分类方法,该方法包括:
获取待分类图像;
利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
实施例5
本发明实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现基于非对称卷积残差网络的细粒度图像分类方法的指令,该方法包括:
获取待分类图像;
利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于非对称卷积残差网络的细粒度图像分类方法,其特征在于,包括:
获取待分类图像;
利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层;
训练所述分类模型包括:
获取训练集;所述训练集包括多张高维图像和标注图像中分类目标的低维标签数据;
对输入图像进行尺寸调整、裁剪、随机旋转和数据归一化预处理;
将预处理好的图像输入特征提取模块中进行特征提取;
将提取好的特征向量经过重新排列为一维数据后后传入全连接层通过Softmax函数和对特征向量进行特征分类;
通过梯度下降算法不断优化模型参数,并回传数据更新网络权重,直至分类准确率最优;得到训练好的分类模型;
其中Softmax函数为:
其中是权重向量/>和偏置项/>的最后一个全连接层输出;/>是权重矩阵w的第yi列;/>表示的是权重矩阵w中的第yi列组成的向量的转置;c表示的是最后一个全连接层输出的总和;因此Softmax的输出是输入xi被正确归类为标签的概率。
2.根据权利要求1所述的基于非对称卷积残差网络的细粒度图像分类方法,其特征在于,基于卷积的可加性构建所述非对称卷积组,卷积的可加性如下式:I×K1+I×K2=I×(K1+K2);其中K1和K2分别代表两个卷积核,I代表特征图输入。
3.根据权利要求1所述的基于非对称卷积残差网络的细粒度图像分类方法,其特征在于,通过一个返回随机值的高斯分布函数来对Softmax函数进行限制:
其中LEArc表示ElasticFace损失函数,N表示类别总数,表示最后一个全连接层与权重向量/>之间的夹角,s为常数,i表示的是第i个标签y,E(m,σ)是一个以Softmax函数为概率密度的正态函数,它从高斯分布中返回一个随机值,其平均值为m,标准差为σ。
4.根据权利要求3所述的基于非对称卷积残差网络的细粒度图像分类方法,其特征在于,梯度下降算法的公式为:
其中表示在点θi位置的梯度,θi+1表示在θi之后的下一个点,α表示为一个常量,表示学习率用它乘以当前的梯度表示当前位置下降的距离。
5.一种基于非对称卷积残差网络的细粒度图像分类***,其特征在于,包括:
获取模块,用于获取待分类图像;
分类模块,用于利用预先训练好的分类模型对获取的待分类图像进行处理,得到分类结果;其中,所述预先训练好的分类模型包括特征提取模块和分类模块;所述特征提取模块包括多个通道数依次递增的特征提取子模块;每个所述特征提取子模块均包括一个通道混洗单元和多个非对称残差单元,通道混洗模块用于对输入的特征图进行通道数统一;非对称残差单元包括一组非对称卷积组和两个1×1卷积和多个穿插其中的BN层组成,两端的1×1卷积用于通道之间的信息交换,中间的非对称卷积组用于对特向进行特征提取,特征提取后和原始信息相加输入函数处理层;
训练所述分类模型包括:
获取训练集;所述训练集包括多张高维图像和标注图像中分类目标的低维标签数据;
对输入图像进行尺寸调整、裁剪、随机旋转和数据归一化预处理;
将预处理好的图像输入特征提取模块中进行特征提取;
将提取好的特征向量经过重新排列为一维数据后后传入全连接层通过Softmax函数和对特征向量进行特征分类;
通过梯度下降算法不断优化模型参数,并回传数据更新网络权重,直至分类准确率最优;得到训练好的分类模型;
其中Softmax函数为:
其中是权重向量/>和偏置项/>的最后一个全连接层输出;/>是权重矩阵w的第yi列;/>表示的是权重矩阵w中的第yi列组成的向量的转置;c表示的是最后一个全连接层输出的总和;因此Softmax的输出是输入xi被正确归类为标签的概率。
6.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-4任一项所述的基于非对称卷积残差网络的细粒度图像分类方法。
7.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-4任一项所述的基于非对称卷积残差网络的细粒度图像分类方法的指令。
CN202211463851.0A 2022-11-22 2022-11-22 基于非对称卷积残差网络的细粒度图像分类方法及*** Active CN116310476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211463851.0A CN116310476B (zh) 2022-11-22 2022-11-22 基于非对称卷积残差网络的细粒度图像分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211463851.0A CN116310476B (zh) 2022-11-22 2022-11-22 基于非对称卷积残差网络的细粒度图像分类方法及***

Publications (2)

Publication Number Publication Date
CN116310476A CN116310476A (zh) 2023-06-23
CN116310476B true CN116310476B (zh) 2023-10-17

Family

ID=86826310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211463851.0A Active CN116310476B (zh) 2022-11-22 2022-11-22 基于非对称卷积残差网络的细粒度图像分类方法及***

Country Status (1)

Country Link
CN (1) CN116310476B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242127A (zh) * 2020-01-15 2020-06-05 上海应用技术大学 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、***、计算机设备及存储介质
CN114782737A (zh) * 2022-03-24 2022-07-22 福建亿榕信息技术有限公司 一种基于改进残差网络的图像分类方法、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907449B (zh) * 2021-02-22 2023-06-09 西南大学 一种基于深度卷积稀疏编码的图像超分辨率重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242127A (zh) * 2020-01-15 2020-06-05 上海应用技术大学 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN112163465A (zh) * 2020-09-11 2021-01-01 华南理工大学 细粒度图像分类方法、***、计算机设备及存储介质
CN114782737A (zh) * 2022-03-24 2022-07-22 福建亿榕信息技术有限公司 一种基于改进残差网络的图像分类方法、设备和存储介质

Also Published As

Publication number Publication date
CN116310476A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Liu et al. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm
Yuan et al. Tensor ring decomposition with rank minimization on latent space: An efficient approach for tensor completion
Howard et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications
US20240202871A1 (en) Three-dimensional point cloud upsampling method, system and device, and medium
Ma et al. Evaluation and acceleration of high-throughput fixed-point object detection on FPGAs
Wang et al. Exploring linear relationship in feature map subspace for convnets compression
Minnehan et al. Cascaded projection: End-to-end network compression and acceleration
Chang et al. An efficient implementation of 2D convolution in CNN
Jiang et al. Cascaded subpatch networks for effective CNNs
CN111723915B (zh) 一种基于深度卷积神经网络的目标检测方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN113065586B (zh) 一种非局域的图像分类装置、方法和存储介质
He et al. Addressnet: Shift-based primitives for efficient convolutional neural networks
Hu et al. Efficient fast semantic segmentation using continuous shuffle dilated convolutions
Zhong et al. Shift-based primitives for efficient convolutional neural networks
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
Zhang et al. A channel pruning algorithm based on depth-wise separable convolution unit
Qi et al. Learning low resource consumption cnn through pruning and quantization
WO2022095984A1 (en) Method and system for convolution with workload-balanced activation sparsity
US20210125063A1 (en) Apparatus and method for generating binary neural network
CN116310476B (zh) 基于非对称卷积残差网络的细粒度图像分类方法及***
Li et al. Towards optimal filter pruning with balanced performance and pruning speed
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法
Singh et al. SkipConv: skip convolution for computationally efficient deep CNNs
CN116543216A (zh) 细粒度图像分类优化方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant