CN113095330A - 一种用于语义分割像素组的压缩注意力模型 - Google Patents
一种用于语义分割像素组的压缩注意力模型 Download PDFInfo
- Publication number
- CN113095330A CN113095330A CN202110482353.XA CN202110482353A CN113095330A CN 113095330 A CN113095330 A CN 113095330A CN 202110482353 A CN202110482353 A CN 202110482353A CN 113095330 A CN113095330 A CN 113095330A
- Authority
- CN
- China
- Prior art keywords
- attention
- pixel
- compressed
- attn
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 12
- 238000012360 testing method Methods 0.000 abstract description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种用于语义分割像素组的压缩注意力模型,该模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征:(1)像素组注意力和(2)逐像素预测。具体而言,提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上,从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此,SA模型增强了像素级密集预测的目标,并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。
Description
技术领域
本发明属于语义分割的技术领域,尤其涉及一种用于语义分割像素组的压缩注意力模型。
背景技术
卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。采用反卷积层对最后一个卷积层的feature map进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。但主要主要集中于从像素级别提高分割性能,但很大程度上忽略了像素分组的隐式任务。
多尺度空间非对称重新校准(MS-SAR),证明了不完全压缩的模块对于图像分类是有效的,且边际计算成本较高。由于空间非对称重新校准(SAR)模块生成的权重是矢量,因此它们不能直接用于分割。
发明内容
为了克服现有技术中的不足,本发明所解决的技术问题在于提供一种用于语义分割像素组的压缩注意力模型,解决在于考虑被忽略的像素组注意力的问题。
为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种用于语义分割像素组的压缩注意力模型,通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能;
首先以残差网络作为基础的残差块;
通过重新校准特征图通道;
采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。
优选的,对未完全压缩的空间信息进行解析表示如下:
xout=xattn*xres+xattn
其中表示注意力卷积通道Fattn(·)的输出,该输出由θattn和注意力卷积层的结构ψattn进行参数化;平均池化层APool(·)用于执行未完全压缩的操作,然后对注意力通道的输出进行上采样,以匹配主卷积通道xres的输出。
进一步的,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。
由上,本发明针对于语义分割像素组的问题,提出了一种新颖的压缩注意力模型,可以处理单个像素的多尺度密集预测,又可以处理像素组的空间注意,具有以下优点:
1、增强了像素级密集预测。
2、解决了大部分被忽略的像素组注意问题。
3、达到更好的语义分割效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的用于语义分割像素组的压缩注意力模型的结构图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1所示,本发明的用于语义分割像素组的压缩注意力模型包括:
以通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能。
SA模型首先以残差网络(ResNets)作为基础的残差块,传统的残基表示如(1):
SA模块通过重新校准特征图通道,得到表达式如(2):
其中w为校准权重。
SA采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。提出一个简单的压缩注意模型如图1所示,可以将其表达如(3)、(4):
xout=xattn*xres+xattn (3)
其中表示注意力卷积通道Fattn(·)的输出,该输出由θattn和注意力卷积层的结构ψattn进行参数化。平均池化层APool(·)用于执行未完全压缩的操作,然后对注意力通道的输出进行上采样,以匹配主卷积通道xres的输出。
这样,SA模型保留了的为压缩的空间信息,同时注意力通道的上采样输出x在主要通道上收集了非局部提取的特征。
本发明实验选在处理器i7-8700k、8GB内存、2个GPU、NVIDIA GeForce GTX1080Ti8GB显卡、windows操作***上,通过PyTorch深度学习框架实现。
数据集方面:Pascal数据集包含59个类别,共10103张图片。其中4998张为训练集,2505张为验证集,2600张为测试集。从该数据集的实验中可以得到具体定量分析的结果。其中PAcc为像素级精度,mIoU为图像像素每个类累加后的平均值。
表1在Pascal数据集上定量分析对比FCN50、FCN101和SA
从上表可见,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。SA模型增强了像素级密集预测的目标,并解决了被忽略的像素组注意力的问题。
本发明的模型利用有效的压缩注意力(SA)模块来解决语义分割中像素组的两个独特特征:(1)像素组注意力和(2)逐像素预测。具体而言,提出的SA模型通过引入“注意力”卷积通道将像素组注意力强加于常规卷积上,从而以有效的方式考虑了空间通道的相互依赖性。与现有的注意力模型不同,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型(SA)。因此,SA模型增强了像素级密集预测的目标,并考虑了被忽略的像素组注意力的问题。本发明相较于其他方法都有显著提高,在PASCAL数据集上的测试结果表明新方法的PAcc和mIoU高于FCN50、FCN101等经典方法。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (3)
1.一种用于语义分割像素组的压缩注意力模型,其特征在于,通过考虑本地和全局方面的重新加权机制来学习语义分割任务的更多代表性功能;
首先以残差网络作为基础的残差块;
通过重新校准特征图通道;
采用重新加权机制对通道进行加权,并且对未完全压缩的空间信息进行解析。
3.如权利要求2所述的用于语义分割像素组的压缩注意力模型,其特征在于,使用通过池化层实现的下采样通道来聚合多尺度特征并同时生成的压缩全局注意力模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482353.XA CN113095330A (zh) | 2021-04-30 | 2021-04-30 | 一种用于语义分割像素组的压缩注意力模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110482353.XA CN113095330A (zh) | 2021-04-30 | 2021-04-30 | 一种用于语义分割像素组的压缩注意力模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095330A true CN113095330A (zh) | 2021-07-09 |
Family
ID=76681053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110482353.XA Pending CN113095330A (zh) | 2021-04-30 | 2021-04-30 | 一种用于语义分割像素组的压缩注意力模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095330A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106412559A (zh) * | 2016-09-21 | 2017-02-15 | 北京物语科技有限公司 | 全视觉摄像技术 |
CN110569851A (zh) * | 2019-08-28 | 2019-12-13 | 广西师范大学 | 门控多层融合的实时语义分割方法 |
CN111145170A (zh) * | 2019-12-31 | 2020-05-12 | 电子科技大学 | 一种基于深度学习的医学影像分割方法 |
CN112287940A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于深度学习的注意力机制的语义分割的方法 |
CN112580782A (zh) * | 2020-12-14 | 2021-03-30 | 华东理工大学 | 基于通道增强的双注意力生成对抗网络及图像生成方法 |
CN112651973A (zh) * | 2020-12-14 | 2021-04-13 | 南京理工大学 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
-
2021
- 2021-04-30 CN CN202110482353.XA patent/CN113095330A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106412559A (zh) * | 2016-09-21 | 2017-02-15 | 北京物语科技有限公司 | 全视觉摄像技术 |
CN110569851A (zh) * | 2019-08-28 | 2019-12-13 | 广西师范大学 | 门控多层融合的实时语义分割方法 |
CN111145170A (zh) * | 2019-12-31 | 2020-05-12 | 电子科技大学 | 一种基于深度学习的医学影像分割方法 |
CN112287940A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于深度学习的注意力机制的语义分割的方法 |
CN112580782A (zh) * | 2020-12-14 | 2021-03-30 | 华东理工大学 | 基于通道增强的双注意力生成对抗网络及图像生成方法 |
CN112651973A (zh) * | 2020-12-14 | 2021-04-13 | 南京理工大学 | 基于特征金字塔注意力和混合注意力级联的语义分割方法 |
Non-Patent Citations (1)
Title |
---|
高丹;陈建英;谢盈;: "A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型", 《中国电子科学研究院学报》, vol. 15, no. 6, pages 518 - 523 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111127374B (zh) | 一种基于多尺度密集网络的Pan-sharpening方法 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN111898439B (zh) | 基于深度学习的交通场景联合目标检测和语义分割方法 | |
CN112488229B (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN111461039A (zh) | 基于多尺度特征融合的地标识别方法 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN111951164A (zh) | 一种图像超分辨率重建网络结构及图像重建效果分析方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN110599455A (zh) | 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质 | |
CN115601820A (zh) | 一种人脸伪造图像检测方法、装置、终端及存储介质 | |
CN115908833A (zh) | 一种基于改进YOLOv3的轻量级垃圾检测方法 | |
CN114494701A (zh) | 一种基于图结构神经网络的语义分割方法及装置 | |
CN115661578A (zh) | 一种工业缺陷图像生成方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及*** | |
CN111339950A (zh) | 一种遥感图像目标检测方法 | |
CN113569687B (zh) | 基于双流网络的场景分类方法、***、设备及介质 | |
CN113505640A (zh) | 一种基于多尺度特征融合的小尺度行人检测方法 | |
CN113688931A (zh) | 一种基于深度学习的超声图像筛选方法和装置 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN101511020B (zh) | 一种基于稀疏分解的图像压缩方法 | |
CN113095330A (zh) | 一种用于语义分割像素组的压缩注意力模型 | |
CN113256528B (zh) | 基于多尺度级联深度残差网络的低照度视频增强方法 | |
CN116363361A (zh) | 基于实时语义分割网络的自动驾驶方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |