CN113011444A - 一种基于神经网络频域注意力机制的图像识别方法 - Google Patents

一种基于神经网络频域注意力机制的图像识别方法 Download PDF

Info

Publication number
CN113011444A
CN113011444A CN202011504311.3A CN202011504311A CN113011444A CN 113011444 A CN113011444 A CN 113011444A CN 202011504311 A CN202011504311 A CN 202011504311A CN 113011444 A CN113011444 A CN 113011444A
Authority
CN
China
Prior art keywords
frequency domain
attention
image
attention mechanism
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011504311.3A
Other languages
English (en)
Other versions
CN113011444B (zh
Inventor
李玺
秦泽群
张芃怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011504311.3A priority Critical patent/CN113011444B/zh
Publication of CN113011444A publication Critical patent/CN113011444A/zh
Application granted granted Critical
Publication of CN113011444B publication Critical patent/CN113011444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的频域注意力机制设计方法,用于图像识别。具体包括如下步骤:获取用于训练神经网络的图像识别数据集,定义算法目标;建立单一频域变换基函数选择模型;建立组合频域变换基函数选择模型;建立基于神经网络的频域注意力机制;基于前述的建模结果训练预测模型;使用所述预测模型的进行图像识别。本发明通过将不同频域的信息纳入注意力机制中,实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升,具有良好的应用价值。

Description

一种基于神经网络频域注意力机制的图像识别方法
技术领域
本发明属于图像处理领域,具体涉及一种基于神经网络频域注意力机制的图像识别方法。
背景技术
近些年来,神经网络注意力机制由于其计算简单、效果显著,逐渐吸引了人们的注意,并在许多领域,如计算机视觉中得到了广泛应用。该机制主要有两个关键步骤:第一是如何高效地从神经网络中提取信息作为注意力机制的输入;第二是如何设计注意力计算方法,从输入得到合理的注意力,并改善神经网络的学***均池化操作来高效地提取信息用于注意力计算;针对第二点,现有方法一般使用全连接网络作为注意力的计算方法,同时,由于全连接网络具有输入规模平方项的计算复杂度,这也约束了第一步的复杂度,使得人们必须使用全局平均池化操作来进行信息提取。虽然全局平均池化操作计算简单、高效,但是其等价于只提取了信息中的最低频部分,而其他频率的信息全部被丢弃掉了。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于神经网络频域注意力机制的图像识别方法,其采用结合多频段信息的基于神经网络的频域注意力机制设计,该方法具有和全局平均池化操作一样的计算复杂度的同时,能够提取更多的频谱信息,使得注意力机制的输入包含更加丰富的信息,从而提升整体网络的精度的同时,保持了同样的计算量。
为实现上述目的,本发明的技术方案为:
一种基于神经网络频域注意力机制的图像识别方法,其包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集;
S2、以ResNet为骨干建立注意力基础网络;
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型;
S4、在S2和S3的基础上建立组合频域变换基函数选择模型;
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型;
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型;
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
作为优选,步骤S1中,用于图像识别的数据集包括图像组
Figure RE-GDA0003038645640000021
其中Ii为第i张图像,K为图像组中的图像数目;
定义算法目标为:获取每张图片的分类结果。
进一步的,步骤S2中,建立注意力基础网络过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令 X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数, fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱;
ResNet网络中一层的输出特征经过变换后的特征
Figure RE-GDA0003038645640000027
为:
Figure RE-GDA0003038645640000022
其中
Figure RE-GDA0003038645640000023
为变换后的特征的第i个通道,atti为注意力向量的第i个值,Xi,:,:为输入数据X的第i个通道;ResNet网络中每一层均加入注意力机制,将当前层的输出特征变换后,再以变换后的特征
Figure RE-GDA0003038645640000024
作为经过注意力处理后的特征输入 ResNet下一层,即得到注意力基础网络。
进一步的,所述步骤S3中,单一频域变换基函数选择模型的过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
Figure RE-GDA0003038645640000025
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
对于大小为H×W的二维特征图x2d,共得到H×W个变换后的频谱分量; f2d∈RH×W即为得到的离散余弦变换频谱结果;
Figure RE-GDA0003038645640000026
为离散余弦变换频谱f2d中 [h,w]位置的值;
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量,则对于X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
进一步的,所述步骤S4中,建立组合频域变换基函数选择模型的过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C 维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令 [X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
Figure RE-GDA0003038645640000031
其中
Figure RE-GDA0003038645640000032
代表X的第
Figure RE-GDA0003038645640000033
Figure RE-GDA0003038645640000034
个通道;划分后依序将每个部分利用频率分量组合中的对应频段,按照S32所述方法进行频谱分解,得到 [f0,f1,…,fnf-1],其中每个
Figure RE-GDA0003038645640000035
s.t.j∈{0,1,…,nf-1};再将每个部分的频谱进行拼接:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入 S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i
进一步的,所述步骤S5中,建立基于神经网络的频域注意力机制的过程如下:
S51、对于S44中得到的最终模型的输入频谱f′i,建立如下注意力机制,并得到注意力向量:
att′=sigmoid(fc(f′i))
S53、对于S2中基础网络的输入图像或特征X的每个通道,依据注意力向量att′进行注意力尺度变换,得到最终输出
Figure RE-GDA0003038645640000036
Figure RE-GDA0003038645640000037
其中
Figure RE-GDA0003038645640000038
为变换后的特征的第i个通道,att′i为注意力向量att′的第i个值,Xi,:,:为输入图像或特征的第i个通道,并以此建立神经网络的频域注意力机制,形成最终模型。
进一步的,所述步骤S6具体过程如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、 32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
进一步的,所述步骤S7具体如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
本发明的基于神经网络频域注意力机制的图像识别方法,相比于现有的注意力机制方法,具有以下有益效果:
首先,本发明的基于神经网络频域注意力机制的图像识别方法定义了一种基于频域分析的注意力机制。将原有的注意力机制推广到了频域中,由于频域的完备属性使得注意力机制所注意的信息更加完备。
其次,本发明的基于神经网络频域注意力机制的图像识别方法所拓展的频域分析方法相比于原有的均值方法具有相同的参数量及计算量,可以无缝地扩展原有的任意注意力机制网络。
最后,本发明通过将不同频域的信息纳入注意力机制中,实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升,具有良好的应用价值。
附图说明
图1为一种基于神经网络频域注意力机制的图像识别方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于神经网络频域注意力机制的图像识别方法,其包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集。
在本实施例的步骤S1中,用于图像识别的数据集包括图像组
Figure RE-GDA0003038645640000041
其中Ii为第i张图像,K为图像组中的图像数目;
定义算法目标为:获取每张图片的分类结果。
S2、以ResNet为骨干建立注意力基础网络。
在本实施例的步骤S2中,具体过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令 X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数, fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱。获得频谱的方法可以是S3中的单一频域变换基函数选择模型,也可以是S4中的组合频域变换基函数选择模型。
ResNet网络中一层的输出特征经过变换后的特征
Figure RE-GDA0003038645640000051
为:
Figure RE-GDA0003038645640000052
其中
Figure RE-GDA0003038645640000053
为变换后的特征的第i个通道,atti为注意力向量的第i个值,Xi,:,:为输入数据X的第i个通道;ResNet网络中每一层均加入注意力机制,将当前层的输出特征变换后,再以变换后的特征
Figure RE-GDA0003038645640000054
作为经过注意力处理后的特征输入 ResNet下一层,即得到注意力基础网络。
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型。
在本实施例的步骤S3中,具体过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
Figure RE-GDA0003038645640000055
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
对于大小为H×W的二维特征图x2d,共得到H×W个变换后的频谱分量;f2d∈RH×W即为得到的离散余弦变换频谱结果;
Figure RE-GDA0003038645640000056
为离散余弦变换频谱f2d中 [h,w]位置的值;
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量(例如首次C个频谱f2d只选
Figure RE-GDA0003038645640000061
第二次C个频谱f2d只选
Figure RE-GDA0003038645640000062
),则对于 X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
S4、在S2和S3的基础上建立组合频域变换基函数选择模型。
在本实施例的步骤S4中,具体过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C 维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令 [X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
Figure RE-GDA0003038645640000063
其中
Figure RE-GDA0003038645640000064
代表X的第
Figure RE-GDA0003038645640000065
Figure RE-GDA0003038645640000066
个通道;划分后依序将每个部分利用频率分量组合中的对应频段,按照S32所述方法进行频谱分解,得到 [f0,f1,…,fnf-1],其中每个
Figure RE-GDA0003038645640000067
s.t.j∈{0,1,…,nf-1};再将每个部分的频谱进行拼接:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入 S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型。在本实施例的步骤S5中,建立基于神经网络的频域注意力机制的过程如下:
S51、对于S44中得到的最终模型的输入频谱f′i,建立如下注意力机制,并得到注意力向量:
att′=sigmoid(fc(f′i))
S53、对于S2中基础网络的输入图像或特征X的每个通道,依据注意力向量att′进行注意力尺度变换,得到最终输出
Figure RE-GDA0003038645640000068
Figure RE-GDA0003038645640000069
其中
Figure RE-GDA0003038645640000071
为变换后的特征的第i个通道,att′i为注意力向量att′的第i个值,Xi,:,:为输入图像或特征的第i个通道,并以此建立神经网络的频域注意力机制形成最终模型。
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型。
在本实施例的步骤S6中,基于S3、S4、S5的建模结果训练预测模型的过程如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1 中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
在本实施例的步骤S7中,具体过程如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
下面将上述S1~S7的方法应用于具体数据集上,以展示其所能实现的技术效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个图像具有真值标注的数据集上实施,分别为:
ImageNet数据集[1]:该数据集包含1000类自然图像,1281167张训练图片, 50000张验证图像,每张图像标注包含类别。
MS COCO数据集[2]:该数据集包含物体检测任务及实例分割任务,包含 80类可数物体类别及91类不可数物体类别。数据集共有超过33万张图像,150 万物体实例。
本实施例主要在ImageNet数据集上进行分类准确率对比,分别为Top-1准确率和Top-5准确率。除此之外,本实施例还对比了参数量Parameters和计算量 FLOPS。
表1本实施例在ImageNet数据集上各评价指标对比
Figure RE-GDA0003038645640000081
在MS COCO数据集上,本实施例使用该专利提出的网络作为骨干网络,并使用Faster RCNN及Mask RCNN分别实现物体检测任务及实例分割任务,对比指标有平均准确率AP、阈值为0.5时的平均准确率AP50、阈值为0.75时的平均准确率AP75。
表2本实施例在MS COCO数据集上物体检测任务各指标对比
Figure RE-GDA0003038645640000091
表3本实施例在MS COCO数据集上实例分割任务各指标对比
Method AP AP50 AP75
ResNet-50 34.1 55.5 36.2
SENet 35.4 57.4 37.8
GCNet 35.7 58.4 37.6
ECANet 35.6 58.1 37.7
本发明方法 36.2 58.6 38.1
上述用于与本发明对比的现有技术,具体做法可参见以下参考文献:
[1]Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchicalimage database[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2009.
[2]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:Common Objects inContext[C]//European Conference on Computer Vision.Springer InternationalPublishing,2014.
[3]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEEComputer Society,2016.
[4]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,PP(99).
[5]Wang Q,Wu B,Zhu P,et al.ECA-Net:Efficient Channel Attention forDeep Convolutional Neural Networks[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2020.
[6]Woo S,Park J,Lee JY,So Kweon I.Cbam:Convolutional block attentionmodule.InProceedings of the European conference on computer vision(ECCV)2018.
[7]Gao Z,Xie J,Wang Q,Li P.Global second-order pooling convolutionalnetworks[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2019.
[8]Cao Y,Xu J,Lin S,Wei F,Hu H.Gcnet:Non-local networks meet squeeze-excitation networks and beyond[C]//2019 IEEE International Conference onComputer Vision Workshops.IEEE,2019.
[9]Bello I,Zoph B,Le Q,et al.Attention Augmented ConvolutionalNetworks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2020.
[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis &Machine Intelligence,2017,39(6):1137-1149.
[11]He K,Gkioxari G,Dollár P,Girshick R.Mask r-cnn[C]\\2017 IEEEinternational conference on computer vision.IEEE,2017.
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于神经网络频域注意力机制的图像识别方法,其特征在于,包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集;
S2、以ResNet为骨干建立注意力基础网络;
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型;
S4、在S2和S3的基础上建立组合频域变换基函数选择模型;
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型;
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型;
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
2.如权利要求1所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,步骤S1中,用于图像识别的数据集包括图像组
Figure FDA0002844513170000011
其中Ii为第i张图像,K为图像组中的图像数目;
定义算法目标为:获取每张图片的分类结果。
3.如权利要求2所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,步骤S2中,建立注意力基础网络过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数,fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱;
ResNet网络中一层的输出特征经过变换后的特征
Figure FDA0002844513170000014
为:
Figure FDA0002844513170000012
其中
Figure FDA0002844513170000013
为变换后的特征的第i个通道,atti为注意力向量的第i个值,Xi,:,:为输入数据X的第i个通道;ResNet网络中每一层均加入注意力机制,将当前层的输出特征变换后,再以变换后的特征
Figure FDA0002844513170000015
作为经过注意力处理后的特征输入ResNet下一层,即得到注意力基础网络。
4.如权利要求3所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S3中,单一频域变换基函数选择模型的过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
Figure FDA0002844513170000021
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
对于大小为H×W的二维特征图x2d,共得到H×W个变换后的频谱分量;f2d∈RH×W即为得到的离散余弦变换频谱结果;
Figure FDA0002844513170000022
为离散余弦变换频谱f2d中[h,w]位置的值;
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量,则对于X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
5.如权利要求4所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S4中,建立组合频域变换基函数选择模型的过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令[X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
Figure FDA0002844513170000023
其中
Figure FDA0002844513170000024
代表X的第
Figure FDA0002844513170000025
Figure FDA0002844513170000026
个通道;划分后依序将每个部分利用频率分量组合中的对应频段,按照S32所述方法进行频谱分解,得到[f0,f1,…,fnf-1],其中每个
Figure FDA0002844513170000027
再将每个部分的频谱进行拼接:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i
6.如权利要求5所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S5中,建立基于神经网络的频域注意力机制的过程如下:
S51、对于S44中得到的最终模型的输入频谱f′i,建立如下注意力机制,并得到注意力向量:
att′=sigmoid(fc(f′i))
S53、对于S2中基础网络的输入图像或特征X的每个通道,依据注意力向量att′进行注意力尺度变换,得到最终输出
Figure FDA0002844513170000031
Figure FDA0002844513170000032
其中
Figure FDA0002844513170000033
为变换后的特征的第i个通道,att′i为注意力向量att′的第i个值,Xi,:,:为输入图像或特征的第i个通道,并以此建立神经网络的频域注意力机制,形成最终模型。
7.如权利要求6所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S6具体如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
8.如权利要求7所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S7具体如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
CN202011504311.3A 2020-12-18 2020-12-18 一种基于神经网络频域注意力机制的图像识别方法 Active CN113011444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504311.3A CN113011444B (zh) 2020-12-18 2020-12-18 一种基于神经网络频域注意力机制的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504311.3A CN113011444B (zh) 2020-12-18 2020-12-18 一种基于神经网络频域注意力机制的图像识别方法

Publications (2)

Publication Number Publication Date
CN113011444A true CN113011444A (zh) 2021-06-22
CN113011444B CN113011444B (zh) 2022-05-13

Family

ID=76383532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504311.3A Active CN113011444B (zh) 2020-12-18 2020-12-18 一种基于神经网络频域注意力机制的图像识别方法

Country Status (1)

Country Link
CN (1) CN113011444B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643261A (zh) * 2021-08-13 2021-11-12 江南大学 一种基于频率注意网络的胸肺部疾病诊断方法
CN113706570A (zh) * 2021-08-02 2021-11-26 中山大学 一种斑马鱼荧光图像的分割方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107024987A (zh) * 2017-03-20 2017-08-08 南京邮电大学 一种基于eeg的实时人脑注意力测试和训练***
DE102018202440A1 (de) * 2018-02-19 2019-08-22 Aktiebolaget Skf Messsystem
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
CN111382795A (zh) * 2020-03-09 2020-07-07 交叉信息核心技术研究院(西安)有限公司 基于频域小波基处理的神经网络的图像分类处理方法
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107024987A (zh) * 2017-03-20 2017-08-08 南京邮电大学 一种基于eeg的实时人脑注意力测试和训练***
DE102018202440A1 (de) * 2018-02-19 2019-08-22 Aktiebolaget Skf Messsystem
CN110245665A (zh) * 2019-05-13 2019-09-17 天津大学 基于注意力机制的图像语义分割方法
CN111382795A (zh) * 2020-03-09 2020-07-07 交叉信息核心技术研究院(西安)有限公司 基于频域小波基处理的神经网络的图像分类处理方法
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUN FU,ET.AL: "Dual attention network for scene", 《IEEE CONF. COMPUT. VIS. PATTERN RECOG.》 *
LI, K.,ET.AL: "TF 2 an: a temporal-frequency fusion attention network for spectrum energy level prediction", 《 2019 16TH ANNUAL IEEE INTERNATIONAL CONFERENCE ON SENSING, COMMUNICATION, AND NETWORKING》 *
汤宇豪,等: "基于层次注意力机制的维度情感识别方法", 《计算机工程》 *
胡屹杉等: "结合分段频域和局部注意力的超声甲状腺分割", 《中国图象图形学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706570A (zh) * 2021-08-02 2021-11-26 中山大学 一种斑马鱼荧光图像的分割方法及装置
CN113706570B (zh) * 2021-08-02 2023-09-15 中山大学 一种斑马鱼荧光图像的分割方法及装置
CN113643261A (zh) * 2021-08-13 2021-11-12 江南大学 一种基于频率注意网络的胸肺部疾病诊断方法

Also Published As

Publication number Publication date
CN113011444B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及***
Hayder et al. Boundary-aware instance segmentation
Cao et al. Landmark recognition with sparse representation classification and extreme learning machine
CN107577990B (zh) 一种基于gpu加速检索的大规模人脸识别方法
Paisitkriangkrai et al. Pedestrian detection with spatially pooled features and structured ensemble learning
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别***及方法
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN104778457B (zh) 基于多示例学习的视频人脸识别方法
CN112966137B (zh) 基于全局与局部特征重排的图像检索方法与***
CN105956560A (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
CN110675437A (zh) 一种基于改进gms-orb特征的图像匹配方法及存储介质
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN113011444B (zh) 一种基于神经网络频域注意力机制的图像识别方法
CN105243139A (zh) 一种基于深度学习的三维模型检索方法及其检索装置
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及***
Hayder et al. Shape-aware instance segmentation
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113554654A (zh) 基于图神经网络的点云特征提取模型及分类分割方法
CN112396036B (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN114332544A (zh) 一种基于图像块评分的细粒度图像分类方法和装置
CN113269224A (zh) 一种场景图像分类方法、***及存储介质
CN117453944B (zh) 一种多层级显著区域分解的无监督实例检索方法及***
Sun et al. Deep learning based pedestrian detection
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant