CN113674334B - 基于深度自注意力网络和局部特征编码的纹理识别方法 - Google Patents

基于深度自注意力网络和局部特征编码的纹理识别方法 Download PDF

Info

Publication number
CN113674334B
CN113674334B CN202110760949.1A CN202110760949A CN113674334B CN 113674334 B CN113674334 B CN 113674334B CN 202110760949 A CN202110760949 A CN 202110760949A CN 113674334 B CN113674334 B CN 113674334B
Authority
CN
China
Prior art keywords
attention
self
window
local
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110760949.1A
Other languages
English (en)
Other versions
CN113674334A (zh
Inventor
彭博
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110760949.1A priority Critical patent/CN113674334B/zh
Publication of CN113674334A publication Critical patent/CN113674334A/zh
Application granted granted Critical
Publication of CN113674334B publication Critical patent/CN113674334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度自注意力网络和局部特征编码的纹理识别方法,根据纹理图像的特点设计了具有四个阶段的深度自注意力模块,在前三个阶段对局部图像块进行合并增大感受野,将自注意力计算限制在固定大小的局部空间;在最后一个阶段取消局部图像块合并,并对在全局计算自注意力,获取局部区块间的联系;从而更好的提取局部区域的纹理特征并保持全局特征不丢失。本发明提出的PET网络充分结合图像内局部区域内的纹理信息,将骨干网络输出的二维特征重塑为三维特征图。通过移动窗口在特征图中密集采样多种尺度的分块描述符,获得一组多尺度的局部表示。最后,对多尺度的分块特征进行局部特征编码和融合,生成一个固定尺度的纹理表示用于最终的分类。

Description

基于深度自注意力网络和局部特征编码的纹理识别方法
技术领域
本发明属于纹理分类、材料分类技术领域,具体涉及一种基于深度自注意力网络和局部特征编码的纹理识别方法。
背景技术
在经典的纹理识别方法中,在基于词袋模型的方法中,首先使用手工特征(如GLCM、LBP、LPQ)提取特征,将每个描述符赋给码本中最接近的视觉词,通过统计视觉词出现频率或对残差进行聚合的方法进行分类。随着深度学习的快速发展,卷积神经网络(CNN)被广泛使用来代替手工提取特征,然后采用纹理编码策略进行最终的纹理分类。
大多数现有方法如FV-CNN(1)、DeepTEN(2)、DEP-NET(3)、LSCTN(4),这些方法通常对CNN提取的整体特征进行基于纹理编码。在纹理图像中,整张图像的像素排列和变化模式往往与局部区域内具有相同的规律,因此局部区域有具有很强的纹理识别能力,而现有的整体编码方法通常依赖CNN进行特征提取,并且忽视了结合局部特征进行纹理编码,因而对纹理的识别性能较低。
上述现有技术中存在的缺陷:
(1)对于经典纹理识别方法,其解决方案中往往依赖于一些图片预处理、手工特征提取和词袋模型,这类方法由于其检测性能较低已远无法满足当前检测需求。其次,没有利用深度学习框架对方法进行优化;
(2)对于同类深度学习方法而言,第一,这类方法通常使用深度卷积网络(CNN)进行深度特征提取,而CNN虽然在基于目标和对象等图像上证明了其强大的特征捕获能力,但是对于纹理特征的提取能力有限。第二,在纹理图像中,局部区域有具有很强的纹理识别能力,现有方法忽视了结合局部特征进行纹理编码,制约了模型对纹理数据的识别能力。
参考文献:
(1):M.Cimpoi,S.Maji,and A.Vedaldi.Deep filter banks for texturerecognition and segmentation.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 3828–3836,2015.1,6;
技术要点比较:该文章提出了采用FisherVector(FV)作为编码层获得无顺序表示,但CNN网络和FisherVector编码层是单独训练的采用FisherVector(FV)作为编码层获得无序表示,但CNN网络和FisherVector编码层是单独训练的,不是端到端结构;
(2):Hang Zhang,Jia Xue,and Kristin Dana.2017.Deep ten:Textureencodingnetwork.InIEEE conference on computer vision and patternrecognition.708–71;
技术要点比较:该文章提出将特征提取和字典编码集成到端到端模型中,在字典学习过程中考虑了视觉词和赋值之间的相关性,改进了VLAD方案,但是没有考虑到局部特征和多尺度特征编码;
(3):Jia Xue,Hang Zhang,and Kristin Dana.2018.Deep texture manifoldfor groundterrain recognition.InIEEE Conference on Computer Vision andPattern Recognition.558–56;
技术要点比较:指出材料表面的纹理不是完全无序的,局部空间的有序信息对纹理识别也至关重要。将字典编码得到的无序信息与有序池化层得到的有序信息通过双线性模型进行融合,但是没有考虑到多尺度和各个局部区域的特征融合;
(4):Xingyuan Bu,Yuwei Wu,Zhi Gao,and Yunde Jia.2019.Deepconvolutionalnetwork with locality and sparsity constraints for texture classification.PatternRecognition91(2019),34-46;
技术要点比较:该文章提使用位置感知编码层进行位置约束,其中字典和编码表示同时学习,但是该方法没有考虑局部特征对纹理分类的显著作用。
发明内容
本发明的目的在于提出一种基于深度自注意力网络和局部特征编码的纹理识别方法。
本发明提出的基于深度自注意力网络的局部特征编码网络(Patch EncodingTransformer,简称PET)设计了一个基于深度自注意力网络(Transformer)的骨干网络取代卷积神经网络(CNN)进行特征提取。根据纹理图像的特点设计了具有四个阶段的深度自注意力模块,在前三个阶段对局部图像块进行合并增大感受野,将自注意力计算限制在固定大小的局部空间;在最后一个阶段取消局部图像块合并,并对在全局计算自注意力,获取局部区块间的联系;从而更好的提取局部区域的纹理特征并保持全局特征不丢失。
本发明提出的PET网络充分结合图像内局部区域内的纹理信息,提出一种局部特征编码方法,将骨干网络输出的二维特征重塑为三维特征图。通过移动窗口在特征图中密集采样多种尺度的分块描述符,获得一组多尺度的局部表示。最后,对多尺度的分块特征进行局部特征编码和融合,生成一个固定尺度的纹理表示用于最终的分类。
本发明提出的基于深度自注意力网络和局部特征编码的纹理识别方法,包括如下步骤:
(1):给定输入图像,对其进行归一化和标准化后进行图像分块,每个图像块的大小为p*p*3,并对每个图像块进行线性变换表示成维度为D的一维向量得到输入向量z,维度为N*d,将其送入到深度自注意力骨干网络,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;
(2):将两种自注意力计算方法即多头自注意力模块(MSA)和基于窗口的自注意力模块(WMSA)串行组合,组成深度自注意力特征提取网络;基于窗口的自注意力模块(WMSA)的特点是在局部区域进行自注意力计算,以更多关注窗口内的局部信息计算;基于窗口的自注意力模块的机制在于将图像划分成若干个子图,在子图内计算自注意力,并且在进入下一个WMSA阶段时会对子图进行合并,扩大感受野,如每次将子图边长扩大一倍,WMSA模块会将多个子图的计算结果进行拼接,得到与多头自注意力模块(MSA)的全局计算结果相同的输出维度;WMSA和MSA的自注意力计算过程如下:
zl=WMSA(LN(zl-1)),
zl=MLP(LN(zl)),
zl+1=MSA(LN(zl)),
zl+1=MLP(LN(zl+1))
其中:zl-1为特征嵌入后的N个图像块,维度为N*D,z1和zl+1为经过自注意力和全连接层后的输出向量,LN为标准化操作,MLP表示两层全连接网络由用于非线性变换,MSA为自注意力模块,WMSA为基于窗口的自注意力模块,与MSA的区别在于将图像划分为若干子图进行自注意力操作并将结果进行拼接。MSA和WMSA中的自注意力计算过程如下:
Figure BDA0003149059260000031
其中:Q、K、V分别是输入向量与Wq、Wk、Wv三个权重相乘得到的可学习变量,然后定义h组自注意力(Attention)模块并进行拼接得到多头自注意力计算结果zl
(3):将输入向量z送入深度自注意力特征提取网络的前三个阶段进行计算,输入维度为N*D,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;深度自注意力特征提取网络由四个阶段组成,分别为三个基于窗口的自注意力模块和一个全局多头自注意力模块;前三个阶段使用窗口合并机制和WMSA模块,在增大模型感受野的同时在局部区域计算自注意力,提取深度局部特征,前三个模块的自注意力模块堆叠个数分别为2,2,4;每次区域合并会将区块的宽W和高度H增加一倍;经过前三个阶段的基于窗口的自注意力模块计算,输出向量x3的维度降低为n*d,其中n=N/64,d=8*d;
(4):将特征提取第三阶段输出的向量z3输入第四阶段全局多头自注意力(MSA)模块中,在这一阶段特征提取过程中去掉了窗口合并,包含4个连续的注意力计算模块,计算过程同步骤(2),经过计算后输出维度不变,输出维度为n*d的特征提取向量x4,其中n=N/64,d=8*d;
(5):通过局部特征编码模块,将步骤(4)骨干网络提取出的特征进行空间重塑,将输出的n*d的二维向量转换为w*w*d的三维特征,其中w=n1/2,以恢复深度特征的空间结构,得到一个三维的特征图;
(6):通过局部特征编码模块,利用正方形窗口对三维特征图进行局部特征截取;为了获得统一的深度窗口特征,使用窗口在特征图的长度和宽度尺寸执行滑动截取;在一个窗口滑动结束后补丁的总数Np为:
Figure BDA0003149059260000041
其中:H和W是特征图的高度和宽度,s是滑动窗口的一次滑动的步长;为了使深度编码的特征更好地感知不同范围内的纹理变化,设计了一种多尺度的特征窗口截取策略,使用不同大小的窗口对特征地图进行截取,具体的,将窗口设置为2*2,3*3和5*5,使用三种窗口在特征图上进行滑动采样;将具有相同深度和不同宽度和高度的深度局部特征块输入到纹理编码模块;
(7):将步骤(5)输入的不同尺度的窗口切块后的特征图送入到纹理编码模块进行编码,根据局部特征编码模块,对于具有Np个视觉描述符的集合X,设X={x1,x2,...,xNp},定义一个具有K个视觉词聚类中心的码本C作为模型的可学习参数,维度为K*D;对于每个描述符xi,残差向量可以表示为rij=xi-CK,其种K是字典参数C中的第K个聚类中心;与硬赋值方法不同,软赋值是通过一个softmax函数将描述符赋值给每个码本中的聚类中心;经过码本E编码的输出向量为K*D维,可以表示为:
Figure BDA0003149059260000051
其中:a函数是对残差的赋值函数,可以表示为:
Figure BDA0003149059260000052
其中:s是可学***滑因子参数;编码方法允许输入变量具有不同的维度,并将它们编码到相同的K*D维度特征空间中。编码层输出的特征E的维度为N*K*D,其中N是被多尺度窗口采样的所有深度局部特征描述子的个数;
(8):将步骤(7)的N*K*D的编码后特征进行特征融合,将N组K*D的特征加权相加得到一个融合多尺度局部特征的纹理表示Efusion,具体可表示为:
Figure BDA0003149059260000053
其中:Ei表示每个编码后的向量,N表示编码后向量的个数,wi是每种尺寸窗口的权重;
(9):将融合向量Efusion铺平成一个K*D的一维向量,并通过一层全连接网络输出一个维度为nclass的一维向量,nclass代表类别数。
本发明的有益效果是:
本发明在基于DTD、MINC、FMD、Fabrics四个数据集的实验结果表明所提出的网络与最新模型相比可以显著提高分类准确率,在四个公开数据集上的分类准确率全部超过了当前最好的方法。说明所提出的方法的有效性大大优于最新方法。
附图说明
图1提出的深度自注意力网络的局部特征编码网络(PET)模型概览图,其中:101为特征提取器前三个基于窗口的自注意力模块(WMSA);102为特征提取器第四个阶段,全局多头自注意力模块(MSA);103为局部特征编码模块;
图2基于窗口的多头注意力机制区域合并过程的示意图。
具体实施方式
下面通过实施例进一步说明本发明。
实施例1:
首先,提出的基于深度自注意力网络(Transformer)的骨干网络在ImageNet训练数据集上进行了训练,获得预训练权重。利用纹理/材料相关数据集图像(DTD、MINC、FMD、Fabrics)首先将图像分块,请参看图2,初始子图块大小为4*4像素,然后通过特征嵌入层把图像块映射到维度为96,使得整体图像输入维度为3136*96;将该向量输入到PET网络中特征提取器中。请参看图1中特征提取器前三个基于窗口的自注意力模块(WMSA)101,首先经过特征提取器的前三个基于窗口的自注意力模块(WSMA)进行窗口合并和局部自注意力计算获得特征x3,输出维度为49*768。请参看图1中特征提取器第四个阶段,全局多头自注意力模块(MSA)102,将前三个基于窗口的自注意力计算模块输出的x3特征向量输入到特征提取器的第四个阶段,全局多头自注意力模块(MSA)中进行全局自注意力计算得到x4,维度为49*768。
请参看图1中局部特征编码模块103,首先将特征提取层输出的二维特征x4进行重塑成一个三维向量,维度为7*7*49,以恢复深度特征的空间结构,得到一个三维的特征图。然后对三维特征图进行窗口截取获得深度局部特征,窗口区域采用正方形截取特征图。使用尺寸为2*2,3*3,5*5的正方形窗口对三维特征图进行局部特征截取;为了获得统一的深度窗口特征,使用窗口在特征图的长度和宽度尺寸执行滑动截取,分别获得三组不同尺度的深度局部特征,每组包含的特征图局部特征块个数为:36、25和9,总计70个。然后将获得的70个不同尺度的深度局部特征块输入到编码层,首先定义可学***滑因子学习聚类中心码本;70个特征块经过码本E编码的输出为70个固定尺度的表示,维度为32*128。将编码后的70*32*128的特征进行加权相加获得一个融合特征,将70个32*128维度的特征加权相加得到一个融合多尺度局部特征的纹理表示Efusion,具体可表示为:
Figure BDA0003149059260000071
其中Ei表示每个编码后的32*128向量,N表示编码后向量的个数,为70,wi是每种尺寸窗口的权重,在本实施例中,对2*2,3*3,5*5赋予不同的权重,分别为0.35,0.45和0.2。将融合向量Efusion铺平成一个32*128的一维向量,并通过一层全连接网络输出分类结果。最后通过一层全连接获得维度为类别个数的输出向量。网络训练过程使用SGD作为优化器,输入图像尺寸为224*224,训练数据批次大小64。学***稳时除以10,衰减率设置为0.0001,动量设置为0.9。
本实施例提出的PET与最新方法对比(DTD、MINC-2500、FMD、Fabric数据集)的实验结果,如表1所示:
表1:
Figure BDA0003149059260000072
表2针对PET中局部特征编码模块(PE)的消融实验,采用多种固定分块的大小和当前最先进的编码方法与我们的方法(PE)进行对比(DTD、MINC数据集),为了保证公平性,骨干网络采用全部采用50层的残差网络(ResNet50);
表2:
Figure BDA0003149059260000081
表3是针对PET中骨干网络的消融实验,与其他当前广泛采用的骨干网络进行对比(DTD、MINC数据集);
表3:
Figure BDA0003149059260000082

Claims (1)

1.基于深度自注意力网络和局部特征编码的纹理识别方法,其特征在于具体步骤如下:
(1):给定输入图像,对其进行归一化和标准化后进行图像分块,每个图像块的大小为p*p*3,并对每个图像块进行线性变换表示成维度为D的一维向量得到输入向量z,维度为N*D,将其送入到深度自注意力骨干网络,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;
(2):将两种自注意力计算方法即多头自注意力模块(MSA)和基于窗口的自注意力模块WMSA串行组合,组成深度自注意力特征提取网络;基于窗口的自注意力模块WMSA的特点是在局部区域进行自注意力计算,以更多关注窗口内的局部信息计算;基于窗口的自注意力模块的机制在于将图像划分成若干个子图,在子图内计算自注意力,并且在进入下一个WMSA阶段时会对子图进行合并,扩大感受野,如每次将子图边长扩大一倍,WMSA模块会将多个子图的计算结果进行拼接,得到与多头自注意力模块MSA的全局计算结果相同的输出维度;WMSA和MSA的自注意力计算过程如下:
zl=WMSA(LN(zl-l)),
zl=MLP(LN(zl)),
zl+1=MSA(LN(zl)),
zl+1=MLP(LN(zl+1))
其中:zl-1为特征嵌入后的N个图像块,维度为N*D,z1和zl+1为经过自注意力和全连接层后的输出向量,LN为标准化操作,MLP表示两层全连接网络由用于非线性变换,MSA为自注意力模块,WMSA为基于窗口的自注意力模块,与MSA的区别在于将图像划分为若干子图进行自注意力操作并将结果进行拼接;MSA和WMSA中的自注意力计算过程如下:
Figure FDA0004077669020000011
其中:Q、K、V分别是输入向量与Wq、Wk、Wv三个权重相乘得到的可学习变量,然后定义h组自注意力模块并进行拼接得到多头自注意力计算结果zl
(3):将输入向量z送入深度自注意力特征提取网络的前三个阶段进行计算,输入维度为N*D,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;深度自注意力特征提取网络由四个阶段组成,分别为三个基于窗口的自注意力模块和一个全局多头自注意力模块;前三个阶段使用窗口合并机制和WMSA模块,在增大模型感受野的同时在局部区域计算自注意力,提取深度局部特征,前三个模块的自注意力模块堆叠个数分别为2,2,4;每次区域合并会将区块的宽W和高度H增加一倍;经过前三个阶段的基于窗口的自注意力模块计算,输出向量x3的维度降低为n*d,其中n=N/64,d=8*d;
(4):将特征提取第三阶段输出的向量z3输入第四阶段全局多头自注意力MSA模块中,在这一阶段特征提取过程中去掉了窗口合并,包含4个连续的自注意力计算模块,计算过程同步骤(2),经过计算后输出维度不变,输出维度为n*d的特征提取向量x4,其中n=N/64,d=8*d;
(5):通过局部特征编码模块,将步骤(4)骨干网络提取出的特征进行空间重塑,将输出的n*d的二维向量转换为w*w*d的三维特征,其中w=n1/2,以恢复深度特征的空间结构,得到一个三维的特征图;
(6):通过局部特征编码模块,利用正方形窗口对三维特征图进行局部特征截取;为了获得统一的深度窗口特征,使用窗口在特征图的长度和宽度尺寸执行滑动截取;在一个窗口滑动结束后补丁的总数Np为:
Figure FDA0004077669020000021
其中:H和W是特征图的高度和宽度,s是滑动窗口的一次滑动的步长;为了使深度编码的特征更好地感知不同范围内的纹理变化,设计了一种多尺度的特征窗口截取策略,使用不同大小的窗口对特征图进行截取,具体的,将窗口设置为2*2,3*3和5*5,使用三种窗口在特征图上进行滑动采样;将具有相同深度和不同宽度和高度的深度局部特征块输入到纹理编码模块;
(7):将步骤(5)输入的不同尺度的窗口切块后的特征图送入到纹理编码模块进行编码,根据局部特征编码模块,对于具有Np个视觉描述符的集合X,设X={x1,x2,...,xNp},定义一个具有K个视觉词聚类中心的码本C作为模型的可学***滑因子学习聚类中心码本;经过码本E编码的输出向量为K*D维,表示为:
Figure FDA0004077669020000031
其中:a函数是对残差的赋值函数,表示为:
Figure FDA0004077669020000032
其中:s是可学***滑因子;编码方法允许输入变量具有不同的维度,并将它们编码到相同的K*D维度特征空间中;编码层输出的特征E的维度为N*K*D,其中N是被多尺度窗口采样的所有深度局部特征描述子的个数;
(8):将步骤(7)的N*K*D的编码后特征进行特征融合,将N组K*D的特征加权相加得到一个融合多尺度局部特征的纹理表示Efusion,具体表示为:
Figure FDA0004077669020000033
其中:Ei表示每个编码后的向量,N表示编码后向量的个数,wi是每种尺寸窗口的权重;
(9):将融合向量Efusion铺平成一个K*D的一维向量,并通过一层全连接网络输出一个维度为nclass的一维向量,nclass代表类别数。
CN202110760949.1A 2021-07-06 2021-07-06 基于深度自注意力网络和局部特征编码的纹理识别方法 Active CN113674334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110760949.1A CN113674334B (zh) 2021-07-06 2021-07-06 基于深度自注意力网络和局部特征编码的纹理识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110760949.1A CN113674334B (zh) 2021-07-06 2021-07-06 基于深度自注意力网络和局部特征编码的纹理识别方法

Publications (2)

Publication Number Publication Date
CN113674334A CN113674334A (zh) 2021-11-19
CN113674334B true CN113674334B (zh) 2023-04-18

Family

ID=78538860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110760949.1A Active CN113674334B (zh) 2021-07-06 2021-07-06 基于深度自注意力网络和局部特征编码的纹理识别方法

Country Status (1)

Country Link
CN (1) CN113674334B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220012B (zh) * 2021-12-16 2024-05-31 池明旻 一种基于深度自注意力网络的纺织品棉麻鉴别方法
CN113963009B (zh) * 2021-12-22 2022-03-18 中科视语(北京)科技有限公司 基于可形变划块的局部自注意力的图像处理方法和***
CN114418030B (zh) * 2022-01-27 2024-04-23 腾讯科技(深圳)有限公司 图像分类方法、图像分类模型的训练方法及装置
CN114627006B (zh) * 2022-02-28 2022-12-20 复旦大学 一种基于深度解耦网络的渐进式图像修复方法
CN115409855B (zh) * 2022-09-20 2023-07-07 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN116070172B (zh) * 2022-11-16 2023-06-02 北京理工大学 增强时间序列的特征表达性的方法
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902692A (zh) * 2019-01-14 2019-06-18 北京工商大学 一种基于局部区域深度特征编码的图像分类方法
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别***及方法
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN112819039A (zh) * 2021-01-14 2021-05-18 华中科技大学 基于多尺度集成特征编码的纹理识别模型建立方法及应用
CN112861978A (zh) * 2021-02-20 2021-05-28 齐齐哈尔大学 一种基于注意力机制的多分支特征融合遥感场景图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***
CN109902692A (zh) * 2019-01-14 2019-06-18 北京工商大学 一种基于局部区域深度特征编码的图像分类方法
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别***及方法
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN112819039A (zh) * 2021-01-14 2021-05-18 华中科技大学 基于多尺度集成特征编码的纹理识别模型建立方法及应用
CN112861978A (zh) * 2021-02-20 2021-05-28 齐齐哈尔大学 一种基于注意力机制的多分支特征融合遥感场景图像分类方法

Also Published As

Publication number Publication date
CN113674334A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113674334B (zh) 基于深度自注意力网络和局部特征编码的纹理识别方法
CN111695467B (zh) 基于超像素样本扩充的空谱全卷积高光谱图像分类方法
CN106529447B (zh) 一种小样本人脸识别方法
CN107330127B (zh) 一种基于文本图片检索的相似文本检测方法
CN109740603B (zh) 基于cnn卷积神经网络下的车辆字符识别方法
Thai et al. Image classification using support vector machine and artificial neural network
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN103927531A (zh) 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN104239902A (zh) 基于非局部相似性和稀疏编码的高光谱图像分类方法
CN111626267B (zh) 一种利用空洞卷积的高光谱遥感图像分类方法
CN109002771B (zh) 一种基于递归神经网络的遥感图像分类方法
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN112926533A (zh) 基于双向特征融合的光学遥感图像地物分类方法及***
Sethy et al. Off-line Odia handwritten numeral recognition using neural network: a comparative analysis
CN115937693A (zh) 一种基于遥感图像的道路识别方法及***
CN114581789A (zh) 一种高光谱图像分类方法及***
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN113496221A (zh) 基于深度双边滤波的点监督遥感图像语义分割方法及***
CN116977747B (zh) 基于多路多尺度特征孪生网络的小样本高光谱分类方法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及***
CN111275732B (zh) 一种基于深度卷积神经网络的前景对象图像分割方法
CN115937567B (zh) 一种基于小波散射网络和ViT的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant