CN113011444A

CN113011444A - 一种基于神经网络频域注意力机制的图像识别方法

Info

Publication number: CN113011444A
Application number: CN202011504311.3A
Authority: CN
Inventors: 李玺; 秦泽群; 张芃怡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-06-22
Anticipated expiration: 2040-12-18
Also published as: CN113011444B

Abstract

本发明公开了一种基于神经网络的频域注意力机制设计方法，用于图像识别。具体包括如下步骤：获取用于训练神经网络的图像识别数据集，定义算法目标；建立单一频域变换基函数选择模型；建立组合频域变换基函数选择模型；建立基于神经网络的频域注意力机制；基于前述的建模结果训练预测模型；使用所述预测模型的进行图像识别。本发明通过将不同频域的信息纳入注意力机制中，实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升，具有良好的应用价值。

Description

一种基于神经网络频域注意力机制的图像识别方法

技术领域

本发明属于图像处理领域，具体涉及一种基于神经网络频域注意力机制的图像识别方法。

背景技术

近些年来，神经网络注意力机制由于其计算简单、效果显著，逐渐吸引了人们的注意，并在许多领域，如计算机视觉中得到了广泛应用。该机制主要有两个关键步骤：第一是如何高效地从神经网络中提取信息作为注意力机制的输入；第二是如何设计注意力计算方法，从输入得到合理的注意力，并改善神经网络的学***均池化操作来高效地提取信息用于注意力计算；针对第二点，现有方法一般使用全连接网络作为注意力的计算方法，同时，由于全连接网络具有输入规模平方项的计算复杂度，这也约束了第一步的复杂度，使得人们必须使用全局平均池化操作来进行信息提取。虽然全局平均池化操作计算简单、高效，但是其等价于只提取了信息中的最低频部分，而其他频率的信息全部被丢弃掉了。

发明内容

针对现有技术中存在的问题，本发明提出了一种基于神经网络频域注意力机制的图像识别方法，其采用结合多频段信息的基于神经网络的频域注意力机制设计，该方法具有和全局平均池化操作一样的计算复杂度的同时，能够提取更多的频谱信息，使得注意力机制的输入包含更加丰富的信息，从而提升整体网络的精度的同时，保持了同样的计算量。

为实现上述目的，本发明的技术方案为：

一种基于神经网络频域注意力机制的图像识别方法，其包括以下步骤：

S1、获取用于训练神经网络的图像识别数据集；

S2、以ResNet为骨干建立注意力基础网络；

S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型；

S4、在S2和S3的基础上建立组合频域变换基函数选择模型；

S5、在S4的基础上建立基于神经网络的频域注意力机制，形成最终模型；

S6、基于S1中的图像识别数据集，对S5中的最终模型进行训练，得到图像预测模型；

S7、针对待识别图像，将其输入所述图像预测模型中进行图像识别。

作为优选，步骤S1中，用于图像识别的数据集包括图像组

其中I_i为第i张图像，K为图像组中的图像数目；

定义算法目标为：获取每张图片的分类结果。

进一步的，步骤S2中，建立注意力基础网络过程如下：

S21、构建ResNet作为基础骨干网络；

S22、在ResNet基础上加入注意力机制构建注意力基础网络，其中令 X∈R^C×H×W为ResNet网络中单层的输出特征，其中C、H、W分别为特征的通道数、特征图高度、特征图宽度，所述注意力机制就是对该层输出X做如下变换：

att＝sigmoid(fc(f_i))

其中att∈R^C为变换后得到的注意力向量，sigmoid(·)为sigmoid激活函数， fc(·)为一个两层的全连接网络，f_i∈R^C为输入数据X的频谱；

ResNet网络中一层的输出特征经过变换后的特征

为：

其中

为变换后的特征的第i个通道，att_i为注意力向量的第i个值，X_i,:,:为输入数据X的第i个通道；ResNet网络中每一层均加入注意力机制，将当前层的输出特征变换后，再以变换后的特征

作为经过注意力处理后的特征输入 ResNet下一层，即得到注意力基础网络。

进一步的，所述步骤S3中，单一频域变换基函数选择模型的过程如下：

S31、将每层输出特征X∈R^C×H×W切分为C个二维特征图x^2d∈R^H×W，并对每个二维特征图x^2d进行离散余弦变换，变换过程为：

s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}

对于大小为H×W的二维特征图x^2d，共得到H×W个变换后的频谱分量； f^2d∈R^H×W即为得到的离散余弦变换频谱结果；

为离散余弦变换频谱f^2d中 [h,w]位置的值；

S32、对于C个二维特征图x^2d得到的C个频谱f^2d,每次选择f^2d的一个频谱分量，则对于X∈R^C×H×W，每次得到一个f_i∈R^C；将该f_i带入S2所建立的注意力基础网络，训练并测试该频谱分量作为单一输入时的性能表现，根据不同频率分量的测试结果，最终得到所有频谱分量其性能排序。

进一步的，所述步骤S4中，建立组合频域变换基函数选择模型的过程如下：

S41、依据步骤S32得到的单一频谱作为输入时的性能排序，依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合；

S42、对于任一组合，将输入X∈R^C×H×W按照频率分量数量在通道维度即C 维度上进行划分；假设一个组合中的频域数量为nf，则nf应能够整除C，令 [X⁰,X¹,…,X^nf-1]为划分后的部分，则将输入按如下方式划分：

其中

代表X的第

到

个通道；划分后依序将每个部分利用频率分量组合中的对应频段，按照S32所述方法进行频谱分解，得到 [f⁰,f¹,…,f^nf-1]，其中每个

s.t.j∈{0,1,…,nf-1}；再将每个部分的频谱进行拼接：

f_i＝cat([f⁰,f¹,…,f^nf-1])

其中cat(·)为拼接函数，得到f_i∈R^C；

S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的f_i∈R^C，代入 S2所建立的注意力基础网络，训练并测试模型，得到每种组合的性能表现；

S44、选取性能最高的组合作为最终模型的频谱输入f′_i。

进一步的，所述步骤S5中，建立基于神经网络的频域注意力机制的过程如下：

S51、对于S44中得到的最终模型的输入频谱f′_i，建立如下注意力机制，并得到注意力向量：

att′＝sigmoid(fc(f′_i))

S53、对于S2中基础网络的输入图像或特征X的每个通道，依据注意力向量att′进行注意力尺度变换，得到最终输出

其中

为变换后的特征的第i个通道，att′_i为注意力向量att′的第i个值，X_i,:,:为输入图像或特征的第i个通道，并以此建立神经网络的频域注意力机制，形成最终模型。

进一步的，所述步骤S6具体过程如下：基于S1中的图像识别数据集，使用S2与S3得到的单一频谱性能排序后，分别取最高性能的1、2、4、8、16、 32个频率，得到6种频谱组合，再将这6种频谱组合代入S4中，得到每种组合频谱性能排序，并得到性能最高的频谱组合；将性能最高的频谱组合代入S5中作为最终模型的输入频谱，并基于S1中的图像识别数据集进行最终模型训练，得到图像识别预测模型。

进一步的，所述步骤S7具体如下：在得到S6步骤中的预测模型后，将待识别图像输入该预测模型进行预测，得到图像分类预测结果。

本发明的基于神经网络频域注意力机制的图像识别方法，相比于现有的注意力机制方法，具有以下有益效果：

首先，本发明的基于神经网络频域注意力机制的图像识别方法定义了一种基于频域分析的注意力机制。将原有的注意力机制推广到了频域中，由于频域的完备属性使得注意力机制所注意的信息更加完备。

其次，本发明的基于神经网络频域注意力机制的图像识别方法所拓展的频域分析方法相比于原有的均值方法具有相同的参数量及计算量，可以无缝地扩展原有的任意注意力机制网络。

最后，本发明通过将不同频域的信息纳入注意力机制中，实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升，具有良好的应用价值。

附图说明

图1为一种基于神经网络频域注意力机制的图像识别方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于神经网络频域注意力机制的图像识别方法，其包括以下步骤：

S1、获取用于训练神经网络的图像识别数据集。

在本实施例的步骤S1中，用于图像识别的数据集包括图像组

其中I_i为第i张图像，K为图像组中的图像数目；

定义算法目标为：获取每张图片的分类结果。

S2、以ResNet为骨干建立注意力基础网络。

在本实施例的步骤S2中，具体过程如下：

S21、构建ResNet作为基础骨干网络；

att＝sigmoid(fc(f_i))

其中att∈R^C为变换后得到的注意力向量，sigmoid(·)为sigmoid激活函数， fc(·)为一个两层的全连接网络，f_i∈R^C为输入数据X的频谱。获得频谱的方法可以是S3中的单一频域变换基函数选择模型，也可以是S4中的组合频域变换基函数选择模型。

ResNet网络中一层的输出特征经过变换后的特征

为：

其中

S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型。

在本实施例的步骤S3中，具体过程如下：

s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}

对于大小为H×W的二维特征图x^2d，共得到H×W个变换后的频谱分量；f^2d∈R^H×W即为得到的离散余弦变换频谱结果；

为离散余弦变换频谱f^2d中 [h,w]位置的值；

S32、对于C个二维特征图x^2d得到的C个频谱f^2d,每次选择f^2d的一个频谱分量(例如首次C个频谱f^2d只选

第二次C个频谱f^2d只选

)，则对于 X∈R^C×H×W，每次得到一个f_i∈R^C；将该f_i带入S2所建立的注意力基础网络，训练并测试该频谱分量作为单一输入时的性能表现，根据不同频率分量的测试结果，最终得到所有频谱分量其性能排序。

S4、在S2和S3的基础上建立组合频域变换基函数选择模型。

在本实施例的步骤S4中，具体过程如下：

其中

代表X的第

到

s.t.j∈{0,1,…,nf-1}；再将每个部分的频谱进行拼接：

f_i＝cat([f⁰,f¹,…,f^nf-1])

其中cat(·)为拼接函数，得到f_i∈R^C；

S44、选取性能最高的组合作为最终模型的频谱输入f′_i。

S5、在S4的基础上建立基于神经网络的频域注意力机制，形成最终模型。在本实施例的步骤S5中，建立基于神经网络的频域注意力机制的过程如下：

att′＝sigmoid(fc(f′_i))

其中

为变换后的特征的第i个通道，att′_i为注意力向量att′的第i个值，X_i,:,:为输入图像或特征的第i个通道，并以此建立神经网络的频域注意力机制形成最终模型。

S6、基于S1中的图像识别数据集，对S5中的最终模型进行训练，得到图像预测模型。

在本实施例的步骤S6中，基于S3、S4、S5的建模结果训练预测模型的过程如下：基于S1中的图像识别数据集，使用S2与S3得到的单一频谱性能排序后，分别取最高性能的1、2、4、8、16、32个频率，得到6种频谱组合，再将这6种频谱组合代入S4中，得到每种组合频谱性能排序，并得到性能最高的频谱组合；将性能最高的频谱组合代入S5中作为最终模型的输入频谱，并基于S1 中的图像识别数据集进行最终模型训练，得到图像识别预测模型。

在本实施例的步骤S7中，具体过程如下：在得到S6步骤中的预测模型后，将待识别图像输入该预测模型进行预测，得到图像分类预测结果。

下面将上述S1～S7的方法应用于具体数据集上，以展示其所能实现的技术效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在两个图像具有真值标注的数据集上实施，分别为：

ImageNet数据集[1]：该数据集包含1000类自然图像，1281167张训练图片， 50000张验证图像，每张图像标注包含类别。

MS COCO数据集[2]：该数据集包含物体检测任务及实例分割任务，包含 80类可数物体类别及91类不可数物体类别。数据集共有超过33万张图像，150 万物体实例。

本实施例主要在ImageNet数据集上进行分类准确率对比，分别为Top-1准确率和Top-5准确率。除此之外，本实施例还对比了参数量Parameters和计算量 FLOPS。

表1本实施例在ImageNet数据集上各评价指标对比

在MS COCO数据集上，本实施例使用该专利提出的网络作为骨干网络，并使用Faster RCNN及Mask RCNN分别实现物体检测任务及实例分割任务，对比指标有平均准确率AP、阈值为0.5时的平均准确率AP50、阈值为0.75时的平均准确率AP75。

表2本实施例在MS COCO数据集上物体检测任务各指标对比

表3本实施例在MS COCO数据集上实例分割任务各指标对比

Method	AP	AP50	AP75
				ResNet-50	34.1	55.5	36.2
SENet	35.4	57.4	37.8
				GCNet	35.7	58.4	37.6
ECANet	35.6	58.1	37.7
				本发明方法	36.2	58.6	38.1

上述用于与本发明对比的现有技术，具体做法可参见以下参考文献：

[1]Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchicalimage database[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2009.

[2]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:Common Objects inContext[C]//European Conference on Computer Vision.Springer InternationalPublishing,2014.

[3]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEEComputer Society,2016.

[4]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,PP(99).

[5]Wang Q,Wu B,Zhu P,et al.ECA-Net:Efficient Channel Attention forDeep Convolutional Neural Networks[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2020.

[6]Woo S,Park J,Lee JY,So Kweon I.Cbam:Convolutional block attentionmodule.InProceedings of the European conference on computer vision(ECCV)2018.

[7]Gao Z,Xie J,Wang Q,Li P.Global second-order pooling convolutionalnetworks[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2019.

[8]Cao Y,Xu J,Lin S,Wei F,Hu H.Gcnet:Non-local networks meet squeeze-excitation networks and beyond[C]//2019 IEEE International Conference onComputer Vision Workshops.IEEE,2019.

[9]Bello I,Zoph B,Le Q,et al.Attention Augmented ConvolutionalNetworks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2020.

[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis &Machine Intelligence,2017,39(6):1137-1149.

[11]He K,Gkioxari G,Dollár P,Girshick R.Mask r-cnn[C]\\2017 IEEEinternational conference on computer vision.IEEE,2017.

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于神经网络频域注意力机制的图像识别方法，其特征在于，包括以下步骤：

S1、获取用于训练神经网络的图像识别数据集；

S2、以ResNet为骨干建立注意力基础网络；

S4、在S2和S3的基础上建立组合频域变换基函数选择模型；

2.如权利要求1所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，步骤S1中，用于图像识别的数据集包括图像组

其中Ii为第i张图像，K为图像组中的图像数目；

定义算法目标为：获取每张图片的分类结果。

3.如权利要求2所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，步骤S2中，建立注意力基础网络过程如下：

S21、构建ResNet作为基础骨干网络；

S22、在ResNet基础上加入注意力机制构建注意力基础网络，其中令X∈R^C×H×W为ResNet网络中单层的输出特征，其中C、H、W分别为特征的通道数、特征图高度、特征图宽度，所述注意力机制就是对该层输出X做如下变换：

att＝sigmoid(fc(f_i))

其中att∈R^C为变换后得到的注意力向量，sigmoid(·)为sigmoid激活函数，fc(·)为一个两层的全连接网络，f_i∈R^C为输入数据X的频谱；

ResNet网络中一层的输出特征经过变换后的特征

为：

其中

为变换后的特征的第i个通道，att_i为注意力向量的第i个值，X_{i，：，：}为输入数据X的第i个通道；ResNet网络中每一层均加入注意力机制，将当前层的输出特征变换后，再以变换后的特征

作为经过注意力处理后的特征输入ResNet下一层，即得到注意力基础网络。

4.如权利要求3所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，所述步骤S3中，单一频域变换基函数选择模型的过程如下：

s.t.h∈{0，1，…，H-1}，w∈{0，1，…，W-1}

为离散余弦变换频谱f^2d中[h，w]位置的值；

S32、对于C个二维特征图x^2d得到的C个频谱f^2d，每次选择f^2d的一个频谱分量，则对于X∈R^C×H×W，每次得到一个f_i∈R^C；将该f_i带入S2所建立的注意力基础网络，训练并测试该频谱分量作为单一输入时的性能表现，根据不同频率分量的测试结果，最终得到所有频谱分量其性能排序。

5.如权利要求4所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，所述步骤S4中，建立组合频域变换基函数选择模型的过程如下：

S42、对于任一组合，将输入X∈R^C×H×W按照频率分量数量在通道维度即C维度上进行划分；假设一个组合中的频域数量为nf，则nf应能够整除C，令[X⁰，X¹，…，X^nf-1]为划分后的部分，则将输入按如下方式划分：

其中

代表X的第

到

个通道；划分后依序将每个部分利用频率分量组合中的对应频段，按照S32所述方法进行频谱分解，得到[f⁰，f¹，…，f^nf-1]，其中每个

再将每个部分的频谱进行拼接：

f_i＝cat([f⁰，f¹，…，f^nf-1])

其中cat(·)为拼接函数，得到f_i∈R^C；

S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的f_i∈R^C，代入S2所建立的注意力基础网络，训练并测试模型，得到每种组合的性能表现；

S44、选取性能最高的组合作为最终模型的频谱输入f′_i。

6.如权利要求5所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，所述步骤S5中，建立基于神经网络的频域注意力机制的过程如下：

att′＝sigmoid(fc(f′_i))

其中

为变换后的特征的第i个通道，att′_i为注意力向量att′的第i个值，X_{i，：，：}为输入图像或特征的第i个通道，并以此建立神经网络的频域注意力机制，形成最终模型。

7.如权利要求6所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，所述步骤S6具体如下：基于S1中的图像识别数据集，使用S2与S3得到的单一频谱性能排序后，分别取最高性能的1、2、4、8、16、32个频率，得到6种频谱组合，再将这6种频谱组合代入S4中，得到每种组合频谱性能排序，并得到性能最高的频谱组合；将性能最高的频谱组合代入S5中作为最终模型的输入频谱，并基于S1中的图像识别数据集进行最终模型训练，得到图像识别预测模型。

8.如权利要求7所述的基于神经网络频域注意力机制的图像识别方法，其特征在于，所述步骤S7具体如下：在得到S6步骤中的预测模型后，将待识别图像输入该预测模型进行预测，得到图像分类预测结果。