CN113674334A

CN113674334A - 基于深度自注意力网络和局部特征编码的纹理识别方法

Info

Publication number: CN113674334A
Application number: CN202110760949.1A
Authority: CN
Inventors: 彭博; 其他发明人请求不公开姓名
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-19
Anticipated expiration: 2041-07-06
Also published as: CN113674334B

Abstract

本发明涉及一种基于深度自注意力网络和局部特征编码的纹理识别方法，根据纹理图像的特点设计了具有四个阶段的深度自注意力模块，在前三个阶段对局部图像块进行合并增大感受野，将自注意力计算限制在固定大小的局部空间；在最后一个阶段取消局部图像块合并，并对在全局计算自注意力，获取局部区块间的联系；从而更好的提取局部区域的纹理特征并保持全局特征不丢失。本发明提出的PET网络充分结合图像内局部区域内的纹理信息，将骨干网络输出的二维特征重塑为三维特征图。通过移动窗口在特征图中密集采样多种尺度的分块描述符，获得一组多尺度的局部表示。最后，对多尺度的分块特征进行局部特征编码和融合，生成一个固定尺度的纹理表示用于最终的分类。

Description

基于深度自注意力网络和局部特征编码的纹理识别方法

技术领域

本发明属于纹理分类、材料分类技术领域，具体涉及一种基于深度自注意力网络和局部特征编码的纹理识别方法。

背景技术

在经典的纹理识别方法中，在基于词袋模型的方法中，首先使用手工特征(如GLCM、LBP、LPQ)提取特征，将每个描述符赋给码本中最接近的视觉词，通过统计视觉词出现频率或对残差进行聚合的方法进行分类。随着深度学习的快速发展，卷积神经网络(CNN)被广泛使用来代替手工提取特征，然后采用纹理编码策略进行最终的纹理分类。

大多数现有方法如FV-CNN(1)、DeepTEN(2)、DEP-NET(3)、LSCTN(4)，这些方法通常对CNN提取的整体特征进行基于纹理编码。在纹理图像中，整张图像的像素排列和变化模式往往与局部区域内具有相同的规律，因此局部区域有具有很强的纹理识别能力，而现有的整体编码方法通常依赖CNN进行特征提取，并且忽视了结合局部特征进行纹理编码，因而对纹理的识别性能较低。

上述现有技术中存在的缺陷：

(1)对于经典纹理识别方法，其解决方案中往往依赖于一些图片预处理、手工特征提取和词袋模型，这类方法由于其检测性能较低已远无法满足当前检测需求。其次，没有利用深度学习框架对方法进行优化；

(2)对于同类深度学习方法而言，第一，这类方法通常使用深度卷积网络(CNN)进行深度特征提取，而CNN虽然在基于目标和对象等图像上证明了其强大的特征捕获能力，但是对于纹理特征的提取能力有限。第二，在纹理图像中，局部区域有具有很强的纹理识别能力，现有方法忽视了结合局部特征进行纹理编码，制约了模型对纹理数据的识别能力。

参考文献：

(1)：M.Cimpoi,S.Maji,and A.Vedaldi.Deep filter banks for texturerecognition and segmentation.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 3828–3836,2015.1,6；

技术要点比较：该文章提出了采用FisherVector(FV)作为编码层获得无顺序表示，但CNN网络和FisherVector编码层是单独训练的采用FisherVector(FV)作为编码层获得无序表示，但CNN网络和FisherVector编码层是单独训练的，不是端到端结构；

(2)：Hang Zhang,Jia Xue,and Kristin Dana.2017.Deep ten:Textureencodingnetwork.InIEEE conference on computer vision and patternrecognition.708–71；

技术要点比较：该文章提出将特征提取和字典编码集成到端到端模型中，在字典学习过程中考虑了视觉词和赋值之间的相关性，改进了VLAD方案，但是没有考虑到局部特征和多尺度特征编码；

(3)：Jia Xue,Hang Zhang,and Kristin Dana.2018.Deep texture manifoldfor groundterrain recognition.InIEEE Conference on Computer Vision andPattern Recognition.558–56；

技术要点比较：指出材料表面的纹理不是完全无序的，局部空间的有序信息对纹理识别也至关重要。将字典编码得到的无序信息与有序池化层得到的有序信息通过双线性模型进行融合，但是没有考虑到多尺度和各个局部区域的特征融合；

(4)：Xingyuan Bu,Yuwei Wu,Zhi Gao,and Yunde Jia.2019.Deepconvolutionalnetwork with locality and sparsity constraints for texture classification.PatternRecognition91(2019),34-46；

技术要点比较：该文章提使用位置感知编码层进行位置约束，其中字典和编码表示同时学习，但是该方法没有考虑局部特征对纹理分类的显著作用。

发明内容

本发明的目的在于提出一种基于深度自注意力网络和局部特征编码的纹理识别方法。

本发明提出的基于深度自注意力网络的局部特征编码网络(Patch EncodingTransformer，简称PET)设计了一个基于深度自注意力网络(Transformer)的骨干网络取代卷积神经网络(CNN)进行特征提取。根据纹理图像的特点设计了具有四个阶段的深度自注意力模块，在前三个阶段对局部图像块进行合并增大感受野，将自注意力计算限制在固定大小的局部空间；在最后一个阶段取消局部图像块合并，并对在全局计算自注意力，获取局部区块间的联系；从而更好的提取局部区域的纹理特征并保持全局特征不丢失。

本发明提出的PET网络充分结合图像内局部区域内的纹理信息，提出一种局部特征编码方法，将骨干网络输出的二维特征重塑为三维特征图。通过移动窗口在特征图中密集采样多种尺度的分块描述符，获得一组多尺度的局部表示。最后，对多尺度的分块特征进行局部特征编码和融合，生成一个固定尺度的纹理表示用于最终的分类。

本发明提出的基于深度自注意力网络和局部特征编码的纹理识别方法，包括如下步骤：

(1)：给定输入图像，对其进行归一化和标准化后进行图像分块，每个图像块的大小为p*p*3，并对每个图像块进行线性变换表示成维度为D的一维向量得到输入向量z，维度为N*d，将其送入到深度自注意力骨干网络，其中N为初始划分窗口的个数，D为嵌入层将图像变换到一维空间的维度；

(2)：将两种自注意力计算方法即多头自注意力模块(MSA)和基于窗口的自注意力模块(WMSA)串行组合，组成深度自注意力特征提取网络；基于窗口的自注意力模块(WMSA)的特点是在局部区域进行自注意力计算，以更多关注窗口内的局部信息计算；基于窗口的自注意力模块的机制在于将图像划分成若干个子图，在子图内计算自注意力，并且在进入下一个WMSA阶段时会对子图进行合并，扩大感受野，如每次将子图边长扩大一倍，WMSA模块会将多个子图的计算结果进行拼接，得到与多头自注意力模块(MSA)的全局计算结果相同的输出维度；WMSA和MSA的自注意力计算过程如下：

z^l＝WMSA(LN(z^l-1))，

z^l＝MLP(LN(z^l))，

z^l+1＝MSA(LN(z^l))，

z^l+1＝MLP(LN(z^l+1))

其中：z^l-1为特征嵌入后的N个图像块，维度为N*D，z¹和z^l+1为经过自注意力和全连接层后的输出向量，LN为标准化操作，MLP表示两层全连接网络由用于非线性变换，MSA为自注意力模块，WMSA为基于窗口的自注意力模块，与MSA的区别在于将图像划分为若干子图进行自注意力操作并将结果进行拼接。MSA和WMSA中的自注意力计算过程如下：

其中：Q、K、V分别是输入向量与W_q、W_k、W_v三个权重相乘得到的可学习变量，然后定义h组自注意力(Attention)模块并进行拼接得到多头自注意力计算结果z^l；

(3)：将输入向量z送入深度自注意力特征提取网络的前三个阶段进行计算，输入维度为N*D，其中N为初始划分窗口的个数，D为嵌入层将图像变换到一维空间的维度；深度自注意力特征提取网络由四个阶段组成，分别为三个基于窗口的自注意力模块和一个全局多头自注意力模块；前三个阶段使用窗口合并机制和WMSA模块，在增大模型感受野的同时在局部区域计算自注意力，提取深度局部特征，前三个模块的自注意力模块堆叠个数分别为2,2,4；每次区域合并会将区块的宽W和高度H增加一倍；经过前三个阶段的基于窗口的自注意力模块计算，输出向量x₃的维度降低为n*d，其中n＝N/64，d＝8*d；

(4)：将特征提取第三阶段输出的向量z₃输入第四阶段全局多头自注意力(MSA)模块中，在这一阶段特征提取过程中去掉了窗口合并，包含4个连续的注意力计算模块，计算过程同步骤(2)，经过计算后输出维度不变，输出维度为n*d的特征提取向量x₄，其中n＝N/64，d＝8*d；

(5)：通过局部特征编码模块，将步骤(4)骨干网络提取出的特征进行空间重塑，将输出的n*d的二维向量转换为w*w*d的三维特征，其中w＝n^1/2，以恢复深度特征的空间结构，得到一个三维的特征图；

(6)：通过局部特征编码模块，利用正方形窗口对三维特征图进行局部特征截取；为了获得统一的深度窗口特征，使用窗口在特征图的长度和宽度尺寸执行滑动截取；在一个窗口滑动结束后补丁的总数N_p为：

其中：H和W是特征图的高度和宽度，s是滑动窗口的一次滑动的步长；为了使深度编码的特征更好地感知不同范围内的纹理变化，设计了一种多尺度的特征窗口截取策略，使用不同大小的窗口对特征地图进行截取，具体的，将窗口设置为2*2,3*3和5*5，使用三种窗口在特征图上进行滑动采样；将具有相同深度和不同宽度和高度的深度局部特征块输入到纹理编码模块；

(7)：将步骤(5)输入的不同尺度的窗口切块后的特征图送入到纹理编码模块进行编码，根据局部特征编码模块，对于具有N_p个视觉描述符的集合X，设X＝{x1,x2，...,x_Np}，定义一个具有K个视觉词聚类中心的码本C作为模型的可学习参数，维度为K*D；对于每个描述符x_i，残差向量可以表示为r_ij＝x_i-C_K，其种K是字典参数C中的第K个聚类中心；与硬赋值方法不同，软赋值是通过一个softmax函数将描述符赋值给每个码本中的聚类中心；经过码本E编码的输出向量为K*D维，可以表示为：

其中：a函数是对残差的赋值函数，可以表示为：

其中：s是可学***滑因子参数；编码方法允许输入变量具有不同的维度，并将它们编码到相同的K*D维度特征空间中。编码层输出的特征E的维度为N*K*D，其中N是被多尺度窗口采样的所有深度局部特征描述子的个数；

(8)：将步骤(7)的N*K*D的编码后特征进行特征融合，将N组K*D的特征加权相加得到一个融合多尺度局部特征的纹理表示E_fusion，具体可表示为：

其中：E_i表示每个编码后的向量，N表示编码后向量的个数，w_i是每种尺寸窗口的权重；

(9)：将融合向量E_fusion铺平成一个K*D的一维向量，并通过一层全连接网络输出一个维度为nclass的一维向量，nclass代表类别数。

本发明的有益效果是：

本发明在基于DTD、MINC、FMD、Fabrics四个数据集的实验结果表明所提出的网络与最新模型相比可以显著提高分类准确率，在四个公开数据集上的分类准确率全部超过了当前最好的方法。说明所提出的方法的有效性大大优于最新方法。

附图说明

图1提出的深度自注意力网络的局部特征编码网络(PET)模型概览图，其中：101为特征提取器前三个基于窗口的自注意力模块(WMSA)；102为特征提取器第四个阶段，全局多头自注意力模块(MSA)；103为局部特征编码模块；

图2基于窗口的多头注意力机制区域合并过程的示意图。

具体实施方式

下面通过实施例进一步说明本发明。

实施例1：

首先，提出的基于深度自注意力网络(Transformer)的骨干网络在ImageNet训练数据集上进行了训练，获得预训练权重。利用纹理/材料相关数据集图像(DTD、MINC、FMD、Fabrics)首先将图像分块，请参看图2，初始子图块大小为4*4像素，然后通过特征嵌入层把图像块映射到维度为96，使得整体图像输入维度为3136*96；将该向量输入到PET网络中特征提取器中。请参看图1中特征提取器前三个基于窗口的自注意力模块(WMSA)101，首先经过特征提取器的前三个基于窗口的自注意力模块(WSMA)进行窗口合并和局部自注意力计算获得特征x₃，输出维度为49*768。请参看图1中特征提取器第四个阶段，全局多头自注意力模块(MSA)102，将前三个基于窗口的自注意力计算模块输出的x₃特征向量输入到特征提取器的第四个阶段，全局多头自注意力模块(MSA)中进行全局自注意力计算得到x4，维度为49*768。

请参看图1中局部特征编码模块103，首先将特征提取层输出的二维特征x4进行重塑成一个三维向量，维度为7*7*49，以恢复深度特征的空间结构，得到一个三维的特征图。然后对三维特征图进行窗口截取获得深度局部特征，窗口区域采用正方形截取特征图。使用尺寸为2*2,3*3,5*5的正方形窗口对三维特征图进行局部特征截取；为了获得统一的深度窗口特征，使用窗口在特征图的长度和宽度尺寸执行滑动截取，分别获得三组不同尺度的深度局部特征，每组包含的特征图局部特征块个数为：36、25和9，总计70个。然后将获得的70个不同尺度的深度局部特征块输入到编码层，首先定义可学***滑因子学习聚类中心码本；70个特征块经过码本E编码的输出为70个固定尺度的表示，维度为32*128。将编码后的70*32*128的特征进行加权相加获得一个融合特征，将70个32*128维度的特征加权相加得到一个融合多尺度局部特征的纹理表示E_fusion，具体可表示为：

其中E_i表示每个编码后的32*128向量，N表示编码后向量的个数，为70，w_i是每种尺寸窗口的权重，在本实施例中，对2*2,3*3,5*5赋予不同的权重，分别为0.35，0.45和0.2。将融合向量E_fusion铺平成一个32*128的一维向量，并通过一层全连接网络输出分类结果。最后通过一层全连接获得维度为类别个数的输出向量。网络训练过程使用SGD作为优化器，输入图像尺寸为224*224，训练数据批次大小64。学***稳时除以10，衰减率设置为0.0001，动量设置为0.9。

本实施例提出的PET与最新方法对比(DTD、MINC-2500、FMD、Fabric数据集)的实验结果，如表1所示：

表1：

表2针对PET中局部特征编码模块(PE)的消融实验，采用多种固定分块的大小和当前最先进的编码方法与我们的方法(PE)进行对比(DTD、MINC数据集)，为了保证公平性，骨干网络采用全部采用50层的残差网络(ResNet50)；

表2：

表3是针对PET中骨干网络的消融实验，与其他当前广泛采用的骨干网络进行对比(DTD、MINC数据集)；

表3：

Claims

1.基于深度自注意力网络和局部特征编码的纹理识别方法，其特征在于具体步骤如下：

z^l＝WMSA(LN(z^l-1))，

z^l＝MLP(LN(z^l))，

z^l+1＝MSA(LN(z^l))，

z^l+1＝MLP(LN(z^l+1))

其中：z^1-1为特征嵌入后的N个图像块，维度为N*D，z¹和z^l+1为经过自注意力和全连接层后的输出向量，LN为标准化操作，MLP表示两层全连接网络由用于非线性变换，MSA为自注意力模块，WMSA为基于窗口的自注意力模块，与MSA的区别在于将图像划分为若干子图进行自注意力操作并将结果进行拼接；MSA和WMSA中的自注意力计算过程如下：

其中：Q、K、V分别是输入向量与W_q、W_k、W_v三个权重相乘得到的可学习变量，然后定义h组自注意力(Attention)模块并进行拼接得到多头自注意力计算结果z¹；

(3)：将输入向量z送入深度自注意力特征提取网络的前三个阶段进行计算，输入维度为N*D，其中N为初始划分窗口的个数，D为嵌入层将图像变换到一维空间的维度；深度自注意力特征提取网络由四个阶段组成，分别为三个基于窗口的自注意力模块和一个全局多头自注意力模块；前三个阶段使用窗口合并机制和WMSA模块，在增大模型感受野的同时在局部区域计算自注意力，提取深度局部特征，前三个模块的自注意力模块堆叠个数分别为2，2，4；每次区域合并会将区块的宽W和高度H增加一倍；经过前三个阶段的基于窗口的自注意力模块计算，输出向量x₃的维度降低为n*d，其中n＝N/64，d＝8*d；

(4)：将特征提取第三阶段输出的向量z₃输入第四阶段全局多头自注意力(MSA)模块中，在这一阶段特征提取过程中去掉了窗口合并，包含4个连续的自注意力计算模块，计算过程同步骤(2)，经过计算后输出维度不变，输出维度为n*d的特征提取向量x₄，其中n＝N/64，d＝8*d；

其中：H和W是特征图的高度和宽度，s是滑动窗口的一次滑动的步长；为了使深度编码的特征更好地感知不同范围内的纹理变化，设计了一种多尺度的特征窗口截取策略，使用不同大小的窗口对特征地图进行截取，具体的，将窗口设置为2*2，3*3和5*5，使用三种窗口在特征图上进行滑动采样；将具有相同深度和不同宽度和高度的深度局部特征块输入到纹理编码模块；

(7)：将步骤(5)输入的不同尺度的窗口切块后的特征图送入到纹理编码模块进行编码，根据局部特征编码模块，对于具有N_p个视觉描述符的集合X，设

定义一个具有K个视觉词聚类中心的码本C作为模型的可学***滑因子学习聚类中心码本；经过码本E编码的输出向量为K*D维，可以表示为：

其中：a函数是对残差的赋值函数，可以表示为：

其中：s是可学***滑因子；编码方法允许输入变量具有不同的维度，并将它们编码到相同的K*D维度特征空间中；编码层输出的特征E的维度为N*K*D，其中N是被多尺度窗口采样的所有深度局部特征描述子的个数；