CN114373092A - 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 - Google Patents

一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 Download PDF

Info

Publication number
CN114373092A
CN114373092A CN202111211063.8A CN202111211063A CN114373092A CN 114373092 A CN114373092 A CN 114373092A CN 202111211063 A CN202111211063 A CN 202111211063A CN 114373092 A CN114373092 A CN 114373092A
Authority
CN
China
Prior art keywords
grained
fine
classification
network
jigsaw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111211063.8A
Other languages
English (en)
Inventor
马雷
赵凡
洪汉玉
陈冰川
罗心怡
刘红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202111211063.8A priority Critical patent/CN114373092A/zh
Publication of CN114373092A publication Critical patent/CN114373092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于拼图排列学***。

Description

一种基于拼图排列学习的渐进式训练细粒度视觉分类方法
技术领域
本发明属于深度学习细粒度视觉分类技术领域,具体涉及一种基于拼图排列学习的渐进式训练细粒度视觉分类方法。
背景技术
传统的细粒度视觉分类方法往往采用的是强监督的方式,即不仅仅需要图像级的标签,而且还需要边界框或者部件的信息。虽然基于强监督的方式已经取得了比较显著的性能,但是由于这种方法需要耗费大量的人力以及物力,所以实用性不高。目前的研究基本上都集中在基于弱监督的方法上,即只使用图像级的标签。
目前细粒度视觉分类的方法有很多,比如通过分类子网络进行识别以及通过拼图聚类的方式来进行细粒度对象识别,在***的每一个阶段,***往往只聚焦在对象的局部细节信息,没有考虑全局的信息。但是基于注意力机制的方法以及通过端到端的特征编码的方法,***往往直接从全局对象来学习辨别性的特征,忽视了局部细节信息。
发明内容
本发明要解决的技术问题是:提供一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,用于在学习对象不同粒度大小的局部细节信息的同时学习对象的全局信息来进行细粒度视觉分类。
本发明为解决上述技术问题所采取的技术方案为:一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,包括以下步骤:
S1:采用拼图生成器处理图像数据集中的原始图像,生成不同粒度版本的打乱图像;
S2:通过深度卷积神经网络建立细粒度视觉分类网络,采用渐进式策略训练细粒度视觉分类网络;输入打乱图像,通过残差网络ResNet50的最后三层输出三个中间阶段不同粒度大小的特征谱;输入原始图像让细粒度视觉分类网络学习完整的对象信息,串联残差网络ResNet50的最后三层输出的特征谱,得到串联阶段输出的多尺度多粒度的特征谱;
S3:通过拼图解算器分别处理三个中间阶段的特征谱,学习打乱图像的排列位置,将打乱图像恢复为原始图像,并通过得到的双随机矩阵做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息;
S4:定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
S5:利用训练样本集优化细粒度视觉分类网络;利用测试样本集对细粒度视觉分类网络进行测试。
按上述方案,所述的步骤S1中,具体步骤为:
S11:将原始图像I裁剪成n个图像块,根据图像块的索引得到大小为n×n的索引矩阵PI
S12:随机打乱图像块,通过拼图生成器生成并拼接成一个打乱图像,根据图像块的索引矩阵PI得到打乱图像的索引矩阵PS
S13:根据打乱图像的索引矩阵PS得到独热形式的大小为n2×n2的矩阵P。
进一步的,所述的步骤S2中,具体步骤为:
S21:建立深度卷积神经网络,包括卷积层、池化层和分类层;
S22:卷积层通过残差网络ResNet50提取打乱图像的图像特征,使用残差网络ResNet50的最后三层(F3,F4,F5)分别处理n×n大小的图像;对不同粒度版本的图像输出不同中间阶段的特征谱,设n=25-l+1,l={3,4,5},分别对应输出三个阶段的特征谱F3,F4,F5;卷积层将输出特征谱的通道维度统一到1024维;
S23:池化层对每个阶段的特征谱进行全局平均池化后得到一个1024维的特征向量;
S24:设m表示数据集的类别数,分类层通过分类器处理1024维的特征向量后得到一个m维的特征向量;分类器包括两个全连接层;
S25:使用原始图像作为输入图像,将残差网络ResNet50的最后三层输出的特征谱串联起来得到一个3072维的特征谱;对特征谱进行全局平均池化后经过分类层得到一个m维的特征向量,融合多尺度的特征信息得到对象的局部细节信息;
S26:将步骤S25得到的三个阶段、以及步骤S25得到的串联阶段,共四个阶段预测概率的和作为最终的预测概率。
进一步的,所述的步骤S3中,具体步骤为:
S31:设特征提取器为F(·),解算器为S(·),则拼图解算器为J(I)=S(F(I));
S32:将残差网络ResNet50的三个输出特征谱F3,F4,F5输入拼图解算器进行平均池化、简化为特征向量,通过全连接层得到偏好矩阵
Figure BDA0003308952520000031
偏好矩阵反应了网络将输入图像的排列位置分配给相应位置的偏好程度;
S33:将辛克霍恩算子应用于偏好矩阵获得n2×n2大小的双随机矩阵 M*=Sinkhorn(M);
S34:通过双随机矩阵M*做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息。
进一步的,所述的步骤S4中,具体步骤为:
S41:设第l阶段的预测概率为
Figure BDA0003308952520000032
串联特征谱的预测概率为
Figure BDA0003308952520000033
则分类损失函数为:
Figure BDA0003308952520000034
通过交叉熵损失分别计算每一个阶段和串联阶段的概率得分,最终的总分类损失为每个阶段的损失相加之和;
S42:设双随机矩阵中第i行第j列的元素为
Figure BDA0003308952520000035
生成矩阵中第i行第j列的元素为Pij,每一行或每一列元素的数量为n2,则排列损失函数为:
Figure BDA0003308952520000036
通过二值交叉熵损失计算双随机矩阵M*与矩阵P的匹配程度,使细粒度视觉分类网络学习对象的整体全局信息,通过在每一个阶段同时学习对象的局部细节信息和全局信息提高细粒度视觉分类网络的分类性能。
进一步的,所述的步骤S5中,具体步骤为:
S51:采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据分类损失Lcls和排列损失Lper优化细粒度视觉分类网络;
S52:采用测试样本集在训练集权重的基础上对细粒度视觉分类网络进行测试。
一种基于拼图排列学习的渐进式训练细粒度视觉分类***,包括拼图生成模块、细粒度视觉分类模型构建模块、拼图解算器模块、损失函数模块和训练测试模块;
拼图生成模块用于处理图像数据集,生成不同粒度大小版本的打乱图像;
细粒度视觉分类模型构建模块用于对残差网络ResNet50的最后三层进行渐进式训练,使用不同粒度大小的图像作为输入图像,并且选取不同的中间阶段特征谱输出,得到对象的局部细节信息;使用原始图像作为输入图像,融合残差网络ResNet50的最后三层输出的特征谱得到串联阶段输出特征谱,以融合多尺度的特征信息;
拼图解算器模块用于对前面三个阶段分别学习其拼图排列位置,得到其打乱前的原始图像位置信息,在学习局部信息的同时学习对象的整体全局信息;
损失函数模块用于定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
训练测试模块用于利用训练样本集优化细粒度视觉分类网络,利用测试样本集测试细粒度视觉分类网络。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种基于拼图排列学习的渐进式训练细粒度视觉分类方法。
本发明的有益效果为:
1.本发明的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,通过在残差网络(ResNet50)的每个阶段学习不同粒度大小的局部信息并且融合多尺度的特征,同时在每个阶段使用拼图解算模块学习打乱图像的拼图排列矩阵来学习对象的全局信息,实现了在每个阶段学习不同粒度大小局部信息的同时学习对象的全局信息来进行细粒度视觉分类的功能。
2.本发明通过在模型的每个阶段同时利用不同粒度对象的局部细节信息以及整体对象的全局信息之间的互补关系,使得模型最终的分类性能达到目前最先进的水平。
3.本发明通过拼图生成器将图像数据集裁剪成不同粒度大小的图像,然后使用残差网络(ResNet50)作为特征提取器,将拼图解算器作用在特征图提取的每一个阶段,在每一个阶段同时学***,通过细粒度视觉分类方法得到的精度更高。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的模型示意图。
图3是本发明实施例的拼图解算模块示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,包括以下步骤:
S1:使用一个拼图生成器对图像数据集进行处理,生成不同粒度大小版本的打乱图像;
S11:给定原始输入图像I,将图片裁剪成n个块,根据裁剪得到的图像块的索引得到大小为n×n的矩阵PI
S12:将裁剪的图像块随机打乱,然后拼接成一个打乱版本的图像,根据索引矩阵PI得到对应的打乱版本的矩阵PS
S13:根据索引矩阵PS得到其独热形式P,为大小为n2×n2的矩阵。
有益效果是通过对图像数据集进行预处理,得到不同粒度大小的图像,从而让网络能够更好的学习对象的局部细节的信息。
S2:本发明的模型示意图如图2所示,为了得到对象的局部细节信息,对残差网络(ResNet50)的最后三层采用渐进式训练的策略,使用不同粒度大小的图像作为输入图像,并且选取不同的中间阶段特征谱作为输出;为了融合多尺度的特征信息,使用原始图像作为输入图像,将残差网络(ResNet50)最后三层输出特征谱进行融合,得到串联阶段输出特征谱;
深度卷积神经网络包括:卷积层、池化层和分类层;
卷积层用于通过残差网络(ResNet50)提取拼图生成器生成图像的图像特征,对不同粒度版本的图像选取不同中间阶段的输出特征谱,使用残差网络 (ResNet50)最后三层(F3,F4,F5)分别来处理n×n大小的图像,这里的n=25-l+1,这里l={3,4,5},分别对应于输出特征谱F3,F4,F5三个阶段;通过卷积块将输出特征谱的通道维度统一到1024维;
池化层用于对每个阶段的特征谱进行全局平均池化后得到一个1024维特征向量;
分类层用于将1024维的特征向量经过分类器处理后得到一个m维的特征向量,其中m表示数据集的类别数。分类器由两个全连接层组成。
有益效果是针对不同粒度大小的图像,用渐进式训练的策略来训练网络,采使用残差网络(ResNet50)不同中间阶段的特征谱作为输出,使用残差网络 (ResNet50)的最后三层分别提取不同粒度大小的特征谱,得到多尺度多粒度的对象特征,以此得到对象的局部细节的信息。
使用原始图像作为输入图像,将残差网络(ResNet50)最后三层输出特征谱串联起来,得到一个3072维的特征谱;对所述特征谱进行全局平均池化后经过分类层,得到一个m维的特征向量,其中m表示数据集的类别数。
有益效果是使用原始图像让网络学习完整的对象信息,并且将特征提取器不同阶段的输出特征谱进行融合得到多尺度的特征信息,以此提高网络的分类性能。
使用原始图像作为残差网络(ResNet50)的输入图像,将残差网络(ResNet50) 最后三层的输出特征谱经过上述卷积块、池化层以及分类层处理之后同样得到一个m维的特征向量。通过融合多尺度的特征谱,让网络更好的学习完整对象的信息。最终的预测概率是上述总共四个阶段预测概率的和,通过所述四个阶段的操作可以让分类精度更好。
S3:为了在学习局部信息的同时学习对象的整体全局信息,对前面三个阶段分别学习其拼图排列位置,得到其打乱前的原始图像位置信息;
对所述残差网络(ResNet50)的三个输出特征谱(F3,F4,F5)使用拼图解算模块,得到一个n2×n2大小的双随机矩阵M*
通过拼图解算模块分别对特征提取器的三个输出特征谱进行处理,得到一个双随机矩阵。有益效果是通过拼图解算模块来学习打乱拼图的排列位置,在视觉上面可以理解为将随机打乱的图像恢复为原始图像,最终得到一个双随机矩阵,利用得到的矩阵做排列损失来监督网络。通过拼图解算模块让网络在学习局部信息的同时学习对象的全局信息。
拼图解算模块示意图如图3所示。拼图解算器模块的整个过程可以表示为 J(I)=S(F(I)),其中F(·)表示特征提取器,S(·)表示解算器。主干网的输入是混洗图像I。然后,将来自主干网络的输出特征谱作为解算器的输入。对主干网络的输出使用平均池化,然后将其简化为特征向量。使用全连接层得到一个偏好矩阵
Figure RE-GDA0003544411080000071
该偏好矩阵M反应了网络将输入拼图排列位置分配给相应位置的偏好程度。将辛克霍恩(Sinkhorn)算子应用于偏好矩阵,以获得双随机矩阵M*=Sinkhorn(M)。
S4:定义分类损失函数和排列损失函数,并根据所述分类损失函数和排列损失函数构建损失层;
分类损失函数为:
Figure BDA0003308952520000074
其中,m表示类别数;
Figure BDA0003308952520000075
表示第l阶段的预测概率;
Figure BDA0003308952520000076
表示串联特征谱的预测概率。
有益效果是通过交叉熵损失分别计算每一个阶段以及串联阶段的概率得分,最终的总分类损失为每个阶段的损失相加。
排列损失函数为:
Figure BDA0003308952520000077
其中,M*表示经过拼图解算模块得到的双随机矩阵,P表示由拼图生成器生成的独热(one-hot)形式的矩阵;
Figure BDA0003308952520000078
为所述双随机矩阵中第i行第j列的元素,Pij为所述生成矩阵中第i行第j列的元素;n2为每一行或者每一列元素的数量。
有益效果是通过二值交叉熵损失来计算双随机矩阵M*与矩阵P的匹配程度,从而让***学习对象的整体全局信息。通过在每一个阶段同时学习对象的局部细节信息以及全局信息,来提高***的分类性能。
S5:利用训练样本集对细粒度视觉分类网络进行优化;利用测试样本集对细粒度视觉分类网络进行测试。
利用Pytorch中提供的自动微分技术,使用基于随机梯度下降以及反向传播算法,根据分类损失Lcls以及排列损失Lper,对网络进行优化;利用测试样本集使用训练权重进行测试。
有益效果是通过随机梯度下降、反向传播算法以及损失函数来对网络参数进行优化;然后使用测试集在训练集权重的基础上进行测试。
一种基于拼图排列学习的渐进式训练细粒度视觉分类***,包括拼图生成模块、细粒度视觉分类模型构建模块,拼图解算器模块和训练测试模块;
拼图生成模块,使用一个拼图生成器对图像数据集进行处理,生成不同粒度大小版本的打乱图像;
细粒度视觉分类模型构建模块,为了得到对象的局部细节信息,对残差网络(ResNet50)的最后三层采用渐进式训练的策略,使用不同粒度大小的图像作为输入图像,并且选取不同的中间阶段特征谱作为输出;为了融合多尺度的特征信息,使用原始图像作为输入图像,将残差网络(ResNet50)最后三层输出特征谱进行融合,得到串联阶段输出特征谱;
拼图解算器模块,为了在学习局部信息的同时学习对象的整体全局信息,对前面三个阶段分别学习其拼图排列位置,得到其打乱前的原始图像位置信息;
定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
训练测试模块,利用训练样本集对所述细粒度视觉分类网络进行优化;利用测试样本集对所述细粒度视觉分类网络进行测试。
一种在存储器、处理器及存储在所述存储器上的程序,处理器执行程序时实现基于拼图排列学习的渐进式训练细粒度视觉分类方法的步骤。
本发明实施例是在三个公开的数据集CUB-200-2011、Stanford Cars和FGCV-Aircraft上测试提出的算法。CUB-200-2011数据集是一个包含200个类别总共11788张鸟类图像的细粒度数据集,其中训练集包含5994张图像,测试集包含5794张图像。StanfordCars数据集是一个包含196个类别总共16185张汽车图像的细粒度数据集,其中训练集包含8144张图像,测试集包含8041张图像。 FGCV-Aircraft数据集是一个包含100个类别总共10000张飞机图像的细粒度数据集,其中训练集包含6667张图像,测试集包含3333张图像。
本发明将该方法与几种细粒度视觉分类方法进行了比较,包括DCL、PMG、 WS-DAN和PCA-Net。值得注意的是,本发明所提出的方法与对比实验采用了相同的CNN架构ResNet50作为特征提取器,利用两个NVIDIA TITAN V GPU 和开源机器学习库Pytorch来实现提出的方法。对于三个数据集使用相同的参数设置,将输入图像调整为550×550的固定大小,然后随机裁剪为448×448的固定大小进行后续处理。将训练批次(batch-size)设置为16,初始学习率设置为0.002,迭代次数为200次,随着迭代次数的增加,初始学习率逐渐降低。
如下表所示,与其他最先进的方法相比,本发明提出的方法显示了更好的性能。使用结果表明,所提出基于拼图排列学习的渐进式训练的细粒度视觉分类方法能够更好的找到对象的辨别性区域,用于细粒度视觉分类。在CUB-200-2011 以及Stanford Cars数据集上所提出的方法性能更好。结果表明,该方法与其他方法相比具有优越性。
Figure BDA0003308952520000091
Figure BDA0003308952520000101
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (8)

1.一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:包括以下步骤:
S1:采用拼图生成器处理图像数据集中的原始图像,生成不同粒度版本的打乱图像;
S2:通过深度卷积神经网络建立细粒度视觉分类网络,采用渐进式策略训练细粒度视觉分类网络;输入打乱图像,通过残差网络ResNet50的最后三层输出三个中间阶段不同粒度大小的特征谱;输入原始图像让细粒度视觉分类网络学习完整的对象信息,串联残差网络ResNet50的最后三层输出的特征谱,得到串联阶段输出的多尺度多粒度的特征谱;
S3:通过拼图解算器分别处理三个中间阶段的特征谱,学习打乱图像的排列位置,将打乱图像恢复为原始图像,并通过得到的双随机矩阵做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息;
S4:定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
S5:利用训练样本集优化细粒度视觉分类网络;利用测试样本集对细粒度视觉分类网络进行测试。
2.根据权利要求1所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S1中,具体步骤为:
S11:将原始图像I裁剪成n个图像块,根据图像块的索引得到大小为n×n的索引矩阵PI
S12:随机打乱图像块,通过拼图生成器生成并拼接成一个打乱图像,根据图像块的索引矩阵PI得到打乱图像的索引矩阵PS
S13:根据打乱图像的索引矩阵PS得到独热形式的大小为n2×n2的矩阵P。
3.根据权利要求2所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:建立深度卷积神经网络,包括卷积层、池化层和分类层;
S22:卷积层通过残差网络ResNet50提取打乱图像的图像特征,使用残差网络ResNet50的最后三层(F3,F4,F5)分别处理n×n大小的图像;对不同粒度版本的图像输出不同中间阶段的特征谱,设n=25-l+1,l={3,4,5},分别对应输出三个阶段的特征谱F3,F4,F5;卷积层将输出特征谱的通道维度统一到1024维;
S23:池化层对每个阶段的特征谱进行全局平均池化后得到一个1024维的特征向量;
S24:设m表示数据集的类别数,分类层通过分类器处理1024维的特征向量后得到一个m维的特征向量;分类器包括两个全连接层;
S25:使用原始图像作为输入图像,将残差网络ResNet50的最后三层输出的特征谱串联起来得到一个3072维的特征谱;对特征谱进行全局平均池化后经过分类层得到一个m维的特征向量,融合多尺度的特征信息得到对象的局部细节信息;
S26:将步骤S25得到的三个阶段、以及步骤S25得到的串联阶段,共四个阶段预测概率的和作为最终的预测概率。
4.根据权利要求3所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:设特征提取器为F(·),解算器为S(·),则拼图解算器为J(I)=S(F(I));
S32:将残差网络ResNet50的三个输出特征谱F3,F4,F5输入拼图解算器进行平均池化、简化为特征向量,通过全连接层得到偏好矩阵
Figure FDA0003308952510000021
偏好矩阵反应了网络将输入图像的排列位置分配给相应位置的偏好程度;
S33:将辛克霍恩算子应用于偏好矩阵获得n2×n2大小的双随机矩阵M*=Sinkhorn(M);
S34:通过双随机矩阵M*做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息。
5.根据权利要求4所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S4中,具体步骤为:
S41:设第l阶段的预测概率为
Figure FDA0003308952510000022
串联特征谱的预测概率为
Figure FDA0003308952510000023
则分类损失函数为:
Figure FDA0003308952510000024
通过交叉熵损失分别计算每一个阶段和串联阶段的概率得分,最终的总分类损失为每个阶段的损失相加之和;
S42:设双随机矩阵中第i行第j列的元素为
Figure FDA0003308952510000031
生成矩阵中第i行第j列的元素为Pij,每一行或每一列元素的数量为n2,则排列损失函数为:
Figure FDA0003308952510000032
通过二值交叉熵损失计算双随机矩阵M*与矩阵P的匹配程度,使细粒度视觉分类网络学习对象的整体全局信息,通过在每一个阶段同时学习对象的局部细节信息和全局信息提高细粒度视觉分类网络的分类性能。
6.根据权利要求5所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S5中,具体步骤为:
S51:采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据分类损失Lcls和排列损失Lper优化细粒度视觉分类网络;
S52:采用测试样本集在训练集权重的基础上对细粒度视觉分类网络进行测试。
7.一种用于权利要求1至6中任意一项所述的基于拼图排列学习的渐进式训练细粒度视觉分类方法的细粒度视觉分类***,其特征在于:包括拼图生成模块、细粒度视觉分类模型构建模块、拼图解算器模块、损失函数模块和训练测试模块;拼图生成模块用于处理图像数据集,生成不同粒度大小版本的打乱图像;
细粒度视觉分类模型构建模块用于对残差网络ResNet50的最后三层进行渐进式训练,使用不同粒度大小的图像作为输入图像,并且选取不同的中间阶段特征谱输出,得到对象的局部细节信息;使用原始图像作为输入图像,融合残差网络ResNet50的最后三层输出的特征谱得到串联阶段输出特征谱,以融合多尺度的特征信息;
拼图解算器模块用于对前面三个阶段分别学习其拼图排列位置,得到其打乱前的原始图像位置信息,在学习局部信息的同时学习对象的整体全局信息;
损失函数模块用于定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
训练测试模块用于利用训练样本集优化细粒度视觉分类网络,利用测试样本集测试细粒度视觉分类网络。
8.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求6中任意一项所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法。
CN202111211063.8A 2021-10-18 2021-10-18 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 Pending CN114373092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111211063.8A CN114373092A (zh) 2021-10-18 2021-10-18 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111211063.8A CN114373092A (zh) 2021-10-18 2021-10-18 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

Publications (1)

Publication Number Publication Date
CN114373092A true CN114373092A (zh) 2022-04-19

Family

ID=81138978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111211063.8A Pending CN114373092A (zh) 2021-10-18 2021-10-18 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

Country Status (1)

Country Link
CN (1) CN114373092A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861306A (zh) * 2023-02-20 2023-03-28 武汉纺织大学 一种基于自监督拼图模块的工业品异常检测方法
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861306A (zh) * 2023-02-20 2023-03-28 武汉纺织大学 一种基于自监督拼图模块的工业品异常检测方法
CN117274578A (zh) * 2023-11-23 2023-12-22 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及***
CN117274578B (zh) * 2023-11-23 2024-02-02 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及***

Similar Documents

Publication Publication Date Title
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN113705526B (zh) 一种高光谱遥感影像分类方法
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110046550B (zh) 基于多层特征学习的行人属性识别***及方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
US10867169B2 (en) Character recognition using hierarchical classification
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111461127A (zh) 基于一阶段目标检测框架的实例分割方法
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN114373092A (zh) 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN111626291A (zh) 一种图像视觉关系检测方法、***及终端
CN112446888A (zh) 图像分割模型的处理方法和处理装置
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN115953621A (zh) 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN110222222B (zh) 基于深层主题自编码模型的多模态检索方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination