CN113011444A - 一种基于神经网络频域注意力机制的图像识别方法 - Google Patents
一种基于神经网络频域注意力机制的图像识别方法 Download PDFInfo
- Publication number
- CN113011444A CN113011444A CN202011504311.3A CN202011504311A CN113011444A CN 113011444 A CN113011444 A CN 113011444A CN 202011504311 A CN202011504311 A CN 202011504311A CN 113011444 A CN113011444 A CN 113011444A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- attention
- image
- attention mechanism
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/431—Frequency domain transformation; Autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于神经网络的频域注意力机制设计方法,用于图像识别。具体包括如下步骤:获取用于训练神经网络的图像识别数据集,定义算法目标;建立单一频域变换基函数选择模型;建立组合频域变换基函数选择模型;建立基于神经网络的频域注意力机制;基于前述的建模结果训练预测模型;使用所述预测模型的进行图像识别。本发明通过将不同频域的信息纳入注意力机制中,实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升,具有良好的应用价值。
Description
技术领域
本发明属于图像处理领域,具体涉及一种基于神经网络频域注意力机制的图像识别方法。
背景技术
近些年来,神经网络注意力机制由于其计算简单、效果显著,逐渐吸引了人们的注意,并在许多领域,如计算机视觉中得到了广泛应用。该机制主要有两个关键步骤:第一是如何高效地从神经网络中提取信息作为注意力机制的输入;第二是如何设计注意力计算方法,从输入得到合理的注意力,并改善神经网络的学***均池化操作来高效地提取信息用于注意力计算;针对第二点,现有方法一般使用全连接网络作为注意力的计算方法,同时,由于全连接网络具有输入规模平方项的计算复杂度,这也约束了第一步的复杂度,使得人们必须使用全局平均池化操作来进行信息提取。虽然全局平均池化操作计算简单、高效,但是其等价于只提取了信息中的最低频部分,而其他频率的信息全部被丢弃掉了。
发明内容
针对现有技术中存在的问题,本发明提出了一种基于神经网络频域注意力机制的图像识别方法,其采用结合多频段信息的基于神经网络的频域注意力机制设计,该方法具有和全局平均池化操作一样的计算复杂度的同时,能够提取更多的频谱信息,使得注意力机制的输入包含更加丰富的信息,从而提升整体网络的精度的同时,保持了同样的计算量。
为实现上述目的,本发明的技术方案为:
一种基于神经网络频域注意力机制的图像识别方法,其包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集;
S2、以ResNet为骨干建立注意力基础网络;
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型;
S4、在S2和S3的基础上建立组合频域变换基函数选择模型;
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型;
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型;
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
定义算法目标为:获取每张图片的分类结果。
进一步的,步骤S2中,建立注意力基础网络过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令 X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数, fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱;
其中为变换后的特征的第i个通道,atti为注意力向量的第i个值,Xi,:,:为输入数据X的第i个通道;ResNet网络中每一层均加入注意力机制,将当前层的输出特征变换后,再以变换后的特征作为经过注意力处理后的特征输入 ResNet下一层,即得到注意力基础网络。
进一步的,所述步骤S3中,单一频域变换基函数选择模型的过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量,则对于X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
进一步的,所述步骤S4中,建立组合频域变换基函数选择模型的过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C 维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令 [X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
其中代表X的第到个通道;划分后依序将每个部分利用频率分量组合中的对应频段,按照S32所述方法进行频谱分解,得到 [f0,f1,…,fnf-1],其中每个s.t.j∈{0,1,…,nf-1};再将每个部分的频谱进行拼接:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC;
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入 S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i。
进一步的,所述步骤S5中,建立基于神经网络的频域注意力机制的过程如下:
S51、对于S44中得到的最终模型的输入频谱f′i,建立如下注意力机制,并得到注意力向量:
att′=sigmoid(fc(f′i))
进一步的,所述步骤S6具体过程如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、 32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
进一步的,所述步骤S7具体如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
本发明的基于神经网络频域注意力机制的图像识别方法,相比于现有的注意力机制方法,具有以下有益效果:
首先,本发明的基于神经网络频域注意力机制的图像识别方法定义了一种基于频域分析的注意力机制。将原有的注意力机制推广到了频域中,由于频域的完备属性使得注意力机制所注意的信息更加完备。
其次,本发明的基于神经网络频域注意力机制的图像识别方法所拓展的频域分析方法相比于原有的均值方法具有相同的参数量及计算量,可以无缝地扩展原有的任意注意力机制网络。
最后,本发明通过将不同频域的信息纳入注意力机制中,实现了在多种图像识别任务(图像分类、目标检测、实例分割)上、相同计算量与复杂度情况下精度的大幅度提升,具有良好的应用价值。
附图说明
图1为一种基于神经网络频域注意力机制的图像识别方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于神经网络频域注意力机制的图像识别方法,其包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集。
定义算法目标为:获取每张图片的分类结果。
S2、以ResNet为骨干建立注意力基础网络。
在本实施例的步骤S2中,具体过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令 X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数, fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱。获得频谱的方法可以是S3中的单一频域变换基函数选择模型,也可以是S4中的组合频域变换基函数选择模型。
其中为变换后的特征的第i个通道,atti为注意力向量的第i个值,Xi,:,:为输入数据X的第i个通道;ResNet网络中每一层均加入注意力机制,将当前层的输出特征变换后,再以变换后的特征作为经过注意力处理后的特征输入 ResNet下一层,即得到注意力基础网络。
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型。
在本实施例的步骤S3中,具体过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量(例如首次C个频谱f2d只选第二次C个频谱f2d只选),则对于 X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
S4、在S2和S3的基础上建立组合频域变换基函数选择模型。
在本实施例的步骤S4中,具体过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C 维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令 [X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
其中代表X的第到个通道;划分后依序将每个部分利用频率分量组合中的对应频段,按照S32所述方法进行频谱分解,得到 [f0,f1,…,fnf-1],其中每个s.t.j∈{0,1,…,nf-1};再将每个部分的频谱进行拼接:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC;
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入 S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i。
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型。在本实施例的步骤S5中,建立基于神经网络的频域注意力机制的过程如下:
S51、对于S44中得到的最终模型的输入频谱f′i,建立如下注意力机制,并得到注意力向量:
att′=sigmoid(fc(f′i))
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型。
在本实施例的步骤S6中,基于S3、S4、S5的建模结果训练预测模型的过程如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1 中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
在本实施例的步骤S7中,具体过程如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
下面将上述S1~S7的方法应用于具体数据集上,以展示其所能实现的技术效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个图像具有真值标注的数据集上实施,分别为:
ImageNet数据集[1]:该数据集包含1000类自然图像,1281167张训练图片, 50000张验证图像,每张图像标注包含类别。
MS COCO数据集[2]:该数据集包含物体检测任务及实例分割任务,包含 80类可数物体类别及91类不可数物体类别。数据集共有超过33万张图像,150 万物体实例。
本实施例主要在ImageNet数据集上进行分类准确率对比,分别为Top-1准确率和Top-5准确率。除此之外,本实施例还对比了参数量Parameters和计算量 FLOPS。
表1本实施例在ImageNet数据集上各评价指标对比
在MS COCO数据集上,本实施例使用该专利提出的网络作为骨干网络,并使用Faster RCNN及Mask RCNN分别实现物体检测任务及实例分割任务,对比指标有平均准确率AP、阈值为0.5时的平均准确率AP50、阈值为0.75时的平均准确率AP75。
表2本实施例在MS COCO数据集上物体检测任务各指标对比
表3本实施例在MS COCO数据集上实例分割任务各指标对比
Method | AP | AP50 | AP75 |
ResNet-50 | 34.1 | 55.5 | 36.2 |
SENet | 35.4 | 57.4 | 37.8 |
GCNet | 35.7 | 58.4 | 37.6 |
ECANet | 35.6 | 58.1 | 37.7 |
本发明方法 | 36.2 | 58.6 | 38.1 |
上述用于与本发明对比的现有技术,具体做法可参见以下参考文献:
[1]Deng J,Dong W,Socher R,et al.ImageNet:A large-scale hierarchicalimage database[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2009.
[2]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:Common Objects inContext[C]//European Conference on Computer Vision.Springer InternationalPublishing,2014.
[3]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEEComputer Society,2016.
[4]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,PP(99).
[5]Wang Q,Wu B,Zhu P,et al.ECA-Net:Efficient Channel Attention forDeep Convolutional Neural Networks[C]//2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2020.
[6]Woo S,Park J,Lee JY,So Kweon I.Cbam:Convolutional block attentionmodule.InProceedings of the European conference on computer vision(ECCV)2018.
[7]Gao Z,Xie J,Wang Q,Li P.Global second-order pooling convolutionalnetworks[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2019.
[8]Cao Y,Xu J,Lin S,Wei F,Hu H.Gcnet:Non-local networks meet squeeze-excitation networks and beyond[C]//2019 IEEE International Conference onComputer Vision Workshops.IEEE,2019.
[9]Bello I,Zoph B,Le Q,et al.Attention Augmented ConvolutionalNetworks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2020.
[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis &Machine Intelligence,2017,39(6):1137-1149.
[11]He K,Gkioxari G,Dollár P,Girshick R.Mask r-cnn[C]\\2017 IEEEinternational conference on computer vision.IEEE,2017.
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种基于神经网络频域注意力机制的图像识别方法,其特征在于,包括以下步骤:
S1、获取用于训练神经网络的图像识别数据集;
S2、以ResNet为骨干建立注意力基础网络;
S3、基于S2中的注意力基础网络建立单一频域变换基函数选择模型;
S4、在S2和S3的基础上建立组合频域变换基函数选择模型;
S5、在S4的基础上建立基于神经网络的频域注意力机制,形成最终模型;
S6、基于S1中的图像识别数据集,对S5中的最终模型进行训练,得到图像预测模型;
S7、针对待识别图像,将其输入所述图像预测模型中进行图像识别。
3.如权利要求2所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,步骤S2中,建立注意力基础网络过程如下:
S21、构建ResNet作为基础骨干网络;
S22、在ResNet基础上加入注意力机制构建注意力基础网络,其中令X∈RC×H×W为ResNet网络中单层的输出特征,其中C、H、W分别为特征的通道数、特征图高度、特征图宽度,所述注意力机制就是对该层输出X做如下变换:
att=sigmoid(fc(fi))
其中att∈RC为变换后得到的注意力向量,sigmoid(·)为sigmoid激活函数,fc(·)为一个两层的全连接网络,fi∈RC为输入数据X的频谱;
4.如权利要求3所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S3中,单一频域变换基函数选择模型的过程如下:
S31、将每层输出特征X∈RC×H×W切分为C个二维特征图x2d∈RH×W,并对每个二维特征图x2d进行离散余弦变换,变换过程为:
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
S32、对于C个二维特征图x2d得到的C个频谱f2d,每次选择f2d的一个频谱分量,则对于X∈RC×H×W,每次得到一个fi∈RC;将该fi带入S2所建立的注意力基础网络,训练并测试该频谱分量作为单一输入时的性能表现,根据不同频率分量的测试结果,最终得到所有频谱分量其性能排序。
5.如权利要求4所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S4中,建立组合频域变换基函数选择模型的过程如下:
S41、依据步骤S32得到的单一频谱作为输入时的性能排序,依次取最高性能的1、2、4、8、16、32个频谱分量形成6种不同数量频率分量的组合;
S42、对于任一组合,将输入X∈RC×H×W按照频率分量数量在通道维度即C维度上进行划分;假设一个组合中的频域数量为nf,则nf应能够整除C,令[X0,X1,…,Xnf-1]为划分后的部分,则将输入按如下方式划分:
fi=cat([f0,f1,…,fnf-1])
其中cat(·)为拼接函数,得到fi∈RC;
S43、将1、2、4、8、16、32个频谱分量组成的6种组合分别得到的fi∈RC,代入S2所建立的注意力基础网络,训练并测试模型,得到每种组合的性能表现;
S44、选取性能最高的组合作为最终模型的频谱输入f′i。
7.如权利要求6所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S6具体如下:基于S1中的图像识别数据集,使用S2与S3得到的单一频谱性能排序后,分别取最高性能的1、2、4、8、16、32个频率,得到6种频谱组合,再将这6种频谱组合代入S4中,得到每种组合频谱性能排序,并得到性能最高的频谱组合;将性能最高的频谱组合代入S5中作为最终模型的输入频谱,并基于S1中的图像识别数据集进行最终模型训练,得到图像识别预测模型。
8.如权利要求7所述的基于神经网络频域注意力机制的图像识别方法,其特征在于,所述步骤S7具体如下:在得到S6步骤中的预测模型后,将待识别图像输入该预测模型进行预测,得到图像分类预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504311.3A CN113011444B (zh) | 2020-12-18 | 2020-12-18 | 一种基于神经网络频域注意力机制的图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011504311.3A CN113011444B (zh) | 2020-12-18 | 2020-12-18 | 一种基于神经网络频域注意力机制的图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011444A true CN113011444A (zh) | 2021-06-22 |
CN113011444B CN113011444B (zh) | 2022-05-13 |
Family
ID=76383532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011504311.3A Active CN113011444B (zh) | 2020-12-18 | 2020-12-18 | 一种基于神经网络频域注意力机制的图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011444B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643261A (zh) * | 2021-08-13 | 2021-11-12 | 江南大学 | 一种基于频率注意网络的胸肺部疾病诊断方法 |
CN113706570A (zh) * | 2021-08-02 | 2021-11-26 | 中山大学 | 一种斑马鱼荧光图像的分割方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107024987A (zh) * | 2017-03-20 | 2017-08-08 | 南京邮电大学 | 一种基于eeg的实时人脑注意力测试和训练*** |
DE102018202440A1 (de) * | 2018-02-19 | 2019-08-22 | Aktiebolaget Skf | Messsystem |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN111382795A (zh) * | 2020-03-09 | 2020-07-07 | 交叉信息核心技术研究院(西安)有限公司 | 基于频域小波基处理的神经网络的图像分类处理方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
-
2020
- 2020-12-18 CN CN202011504311.3A patent/CN113011444B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107024987A (zh) * | 2017-03-20 | 2017-08-08 | 南京邮电大学 | 一种基于eeg的实时人脑注意力测试和训练*** |
DE102018202440A1 (de) * | 2018-02-19 | 2019-08-22 | Aktiebolaget Skf | Messsystem |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN111382795A (zh) * | 2020-03-09 | 2020-07-07 | 交叉信息核心技术研究院(西安)有限公司 | 基于频域小波基处理的神经网络的图像分类处理方法 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
Non-Patent Citations (4)
Title |
---|
JUN FU,ET.AL: "Dual attention network for scene", 《IEEE CONF. COMPUT. VIS. PATTERN RECOG.》 * |
LI, K.,ET.AL: "TF 2 an: a temporal-frequency fusion attention network for spectrum energy level prediction", 《 2019 16TH ANNUAL IEEE INTERNATIONAL CONFERENCE ON SENSING, COMMUNICATION, AND NETWORKING》 * |
汤宇豪,等: "基于层次注意力机制的维度情感识别方法", 《计算机工程》 * |
胡屹杉等: "结合分段频域和局部注意力的超声甲状腺分割", 《中国图象图形学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706570A (zh) * | 2021-08-02 | 2021-11-26 | 中山大学 | 一种斑马鱼荧光图像的分割方法及装置 |
CN113706570B (zh) * | 2021-08-02 | 2023-09-15 | 中山大学 | 一种斑马鱼荧光图像的分割方法及装置 |
CN113643261A (zh) * | 2021-08-13 | 2021-11-12 | 江南大学 | 一种基于频率注意网络的胸肺部疾病诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113011444B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462126B (zh) | 一种基于边缘增强的语义图像分割方法及*** | |
Hayder et al. | Boundary-aware instance segmentation | |
Cao et al. | Landmark recognition with sparse representation classification and extreme learning machine | |
CN107577990B (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
Paisitkriangkrai et al. | Pedestrian detection with spatially pooled features and structured ensemble learning | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别***及方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN104778457B (zh) | 基于多示例学习的视频人脸识别方法 | |
CN112966137B (zh) | 基于全局与局部特征重排的图像检索方法与*** | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN110675437A (zh) | 一种基于改进gms-orb特征的图像匹配方法及存储介质 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN113011444B (zh) | 一种基于神经网络频域注意力机制的图像识别方法 | |
CN105243139A (zh) | 一种基于深度学习的三维模型检索方法及其检索装置 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及*** | |
Hayder et al. | Shape-aware instance segmentation | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN113554654A (zh) | 基于图神经网络的点云特征提取模型及分类分割方法 | |
CN112396036B (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN114332544A (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
CN113269224A (zh) | 一种场景图像分类方法、***及存储介质 | |
CN117453944B (zh) | 一种多层级显著区域分解的无监督实例检索方法及*** | |
Sun et al. | Deep learning based pedestrian detection | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |