CN113240683B - 基于注意力机制的轻量化语义分割模型构建方法 - Google Patents
基于注意力机制的轻量化语义分割模型构建方法 Download PDFInfo
- Publication number
- CN113240683B CN113240683B CN202110638043.2A CN202110638043A CN113240683B CN 113240683 B CN113240683 B CN 113240683B CN 202110638043 A CN202110638043 A CN 202110638043A CN 113240683 B CN113240683 B CN 113240683B
- Authority
- CN
- China
- Prior art keywords
- stage
- path
- function
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于注意力机制的轻量化语义分割模型构建方法,应用于图像处理技术领域,给定图像I,对应的真实标签图GT,构成训练集:步骤1、模型建立;步骤2、模型训练;步骤3、模型测试,将测试集图像输入到训练好的网络模型中,得到测试结果。本发明实现图像分割准确率和分割速度的提升;分割过程不容易过拟合;效率高,便于实际部署;在标注数据的不足的情况下,对其进行快速训练,以进一步提高性能。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及基于注意力机制的轻量化语义分割模型构建方法。
背景技术
图像分割是指根据图像内容对指定区域进行标记的计算机视觉任务,具体来讲,图像语义分割的目的在于标记图像中的每一点像素,并将像素和其对应的类别对应起来。在场景理解、医疗图像、无人驾驶等方面具有重要的实际应用价值。
经典语义分割模型包括:
全卷积神经网络(FCN),作为深度学习中的语义分割网络的经典制作,借鉴了传统的分类网络结构,而又区别于传统的分类网络,将传统分类网络的全连接层转化为卷积层。然后通过反卷积(deconvolution)进行上采样,逐步恢复图像的细节信息并扩大特征图的尺寸。在恢复图像的细节信息过程中,FCN一方面通过可以学习的反卷积来实现,另一方面,采用了跳跃连接(skip-connection)的方式,将下采样过程中得到的特征信息与上采样过程中对应的特征图相融合。但是,FCN存在着诸如语义信息丢失,缺乏对于像素之间关联性研究的技术缺陷。
SegNet,采用了FCN的编码-解码的架构,但是与FCN不同的是,SegNet没有使用跳跃连接结构,并且在上采样的过程中,不是使用反卷积,而是使用了unpooling的操作。在解码器中使用那些存储的索引来对相应特征图进行去池化操作。从而保证了高频信息的完整性,但是对于较低分辨率的特征图进行unpooling时,同样会忽略像素近邻之间的信息。
deeplab系列是由Google团队设计的一系列的语义分割网络模型,采用了空洞卷积和CRF的处理。利用空洞卷积在不增加参数的情况下扩大了感受野的范围。而CRF的后期处理可以更好的提升语义分割的准确率。deeplabv2在v1的基础之上增加了ASPP(空洞空间金字塔池化)模块。
PSPnet,全称为Pyramid Scene Parsing Network,它采用的金字塔池化模块,来融合图像的上下文信息,注重像素之间的关联性。利用预训练模型提取特征后,将采用金字塔池化模块提取图像的上下文信息,并将上下文信息与提取的特征进行堆叠后,经过上采样得到最终的输出。而特征堆叠的过程其实就是讲目标的细节特征和全局特征融合的过程,这里的细节特征指的是浅层特征,也就是浅层网络所提取到的特征,而全局特征指的是深层的特征,也就是常常说的上下文特征。对应的就是深层网络提取的特征。
上述网络模型层数较多,模型参数量较大,随着技术的发展和硬件条件的不断进步,基于像素级别的分割才是图像分类的主流方向。
因此,引入轻量化模型进行语义分割,提出一种基于注意力机制的轻量化语义分割模型构建方法,实现图像分割准确率和分割速度的提升,是本领域技术人员亟需解决的问题技术问题。
发明内容
有鉴于此,本发明提供了一种基于注意力机制的轻量化语义分割模型构建方法,实现图像分割准确率和分割速度的提升。
为了实现上述目的,本发明采用如下技术方案:
基于注意力机制的轻量化语义分割模型构建方法,包括以下步骤:
给定图像I,对应的真实标签图GT,构成训练集:
步骤1、模型建立,采用AHSP模块、Channel Attention Sum、Criss-CrossAttention Sum、Channel Split和Concat构建编码阶段,FFM、Channel Attention Sum、Criss-Cross Attention Sum,ReLU函数、Final Prediction构建解码阶段,编码阶段与解码阶段通过Channel Attention Sum连接,得到基于注意力机制的超轻量化语义分割网络;
步骤2、模型训练,将训练集图像I输入到注意力机制的超轻量化语义分割网络中,得到预测图像,将其与真实标签图GT进行对比,计算出交叉熵函数作为损失函数,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练,训练到整个模型收敛为止;
步骤3、模型测试,将测试集图像输入到训练好的网络模型中,得到测试结果。
优选的,步骤1中,编码网络包括n个阶段,以AHSP模块作为基本模块,引入Criss-Cross Attention Sum、Channel Split、Concat fuse split,构建相互连接的第一路径和第二路径;对训练集图像I进行n次下采样,每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2n。
优选的,第一路径和第二路径在每个阶段的第一个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n},和为步长为2的下采样;F1×1(·)为卷积核为1×1的卷积函数,Split(·)将接收到的特征图沿通道维度分割为两部分,并分别送入和中,得到第一路径特征信息和第二路径特征信息。
优选的,第二路径在每个阶段的第2个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n}。
优选的,步骤1中,解码网络包括n个阶段,以FFM模块为基础,引入ChannelAttention Sum、Criss-Cross Attention Sum构成解码网络,并引入ReLU函数作为最终的输出预测结果的激活函数。
S′i=F1×1(X) (5)
优选的,经过编码阶段得到特征图输出为:
则Di的计算公式过程如下:
S″i=Di(Upsample(CAM(Di+1),2)) (8)
其中,Upsample(·,t)表示使用双线性插值方法以t的系数对特征图进行采样,CAM(·)表示使用通道注意力机制,S″i为下一stage的特征图D经过CAM、上采样、FFM操作后的输出。
优选的,利用Di通过1×1卷积得到测试结果Pi,具体如下:
Pi=Soft max(Upsample(F1×1(Di),2i)) (10)
其中,Pi∈RH×W为预测的类标签图,Soft max(·)为激活函数,i∈{1,2,3,...,n}。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于注意力机制的轻量化语义分割模型构建方法:实现图像分割准确率和分割速度的提升;分割过程不容易过拟合;效率高,便于实际部署;在标注数据的不足的情况下,对其进行快速训练,以进一步提高性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种基于注意力机制的超轻量化语义分割网络结构图;
图2为本发明FFM模块的结构图;
图3为本发明实施例图像,其中,3.1为CT Image,3.2为预测图,3.3为真实标签图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本实发明公开了一种基于注意力机制的轻量化语义分割模型构建方法,包括以下步骤:
给定图像I,对应的真实标签图GT,构成训练集:
步骤1、模型建立,采用AHSP模块、Channel Attention Sum(通道注意力相加)、Criss-Cross Attention Sum(交叉注意力相加)、Channel Split(通道分割)和Concatfuse split(路径融合)构建编码阶段,FFM(特征融合模块)、Channel Attention Sum、Criss-Cross Attention Sum,ReLU函数、Final Prediction构建解码阶段,编码阶段与解码阶段通过Channel Attention Sum连接,得到基于注意力机制的超轻量化语义分割网络;
步骤2、模型训练,将训练集图像I输入到注意力机制的超轻量化语义分割网络中,得到预测图像,将其与真实标签图GT进行对比,计算出交叉熵函数作为损失函数,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练,训练到整个模型收敛为止;
步骤3、模型测试,将测试集图像输入到训练好的网络模型中,得到测试结果。
在一个具体实施例中,Channel Attention Sum在网络结构中用来表示,Criss-Cross Attention Sum在网络结构中用来表示,Concat fuse split在网络中用来表示。
在一个具体实施例中,步骤1,编码网络包括n个阶段,以AHSP模块作为基本模块,引入Criss-Cross Attention Sum、Channel Split、Concat fuse split,构建相互连接的第一路径和第二路径;对训练集图像I进行n次下采样,每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2n。
在一个具体实施例中,第一路径和第二路径在每个阶段的第一个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n},和为步长为2的下采样;F1×1(·)为卷积核为1×1的卷积函数,Split(·)将接收到的特征图沿通道维度分割为两部分,并分别送入和中,得到第一路径特征信息和第二路径特征信息。
在一个具体实施例中,第二路径在每个阶段的第2个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n}。
在一个具体实施例中,步骤1中,解码网络包括n个阶段,以FFM模块为基础,引入Channel Attention Sum、Criss-Cross Attention Sum构成解码网络,并引入ReLU函数作为最终的输出预测结果的激活函数。
S′i=F1×1(X) (5)
在一个具体实施例中,经过编码阶段得到特征图输出为:
则Di的计算公式过程如下:
S″i=Di(Upsample(CAM(Di+1),2)) (8)
其中,Upsample(·,t)表示使用双线性插值方法以t的系数对特征图进行采样,CAM(·)表示使用通道注意力机制,S″i为下采样的最终输出X经过1×1的卷积函数操作后的输出结果。
在一个具体实施例中,利用Di通过1×1卷积得到测试结果Pi,具体如下:
Pi=Soft max(Upsample(F1×1(Di),2i)) (10)
其中,Pi∈RH×W为预测的类标签图,Soft max(·)为激活函数,i∈{1,2,3,...,n};
Softmax函数的定义(以第i个节点输出为例):
其中:Zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数。
在一个具体实施例中,以肺部图像为例进行试验,参照图3所示,3.1为CTImage,3.2为预测图,3.3为真实标签图,表1为此模型的参数量与其他模型参数量的对比:
表1
Methods | Backbone | Param. | FLOPs | Dice | Sen. | Spec. |
U-Net | VGG16 | 7.853M | 38.116G | 0.4 | 0.5 | 0.8 |
Attention-UNet | VGG16 | 8.727M | 31.73G | 0.5 | 0.6 | 0.9 |
U-Net++ | VGG16 | 9.163M | 65.938G | 0.5 | 0.6 | 0.9 |
Minimum-seg | 36.98K | 209.043M | 0.663 | 0.704 | 0.935 |
从表1中的Param.列可以看出,基于注意力机制的超轻量化语义分割网络模型的参数量只有近37K的参数量,其他模型的参数量至少是M级别的,可得出改模型体积量小,进而实现图像分割准确率和分割速度的提升;分割过程不容易过拟合;效率高,便于实际部署;在标注数据的不足的情况下,对其进行快速训练,以进一步提高性能。
对所公开的实施例的上述说明,按照递进的方式进行,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (1)
1.基于注意力机制的轻量化语义分割模型构建方法,其特征在于,包括以下步骤:
给定图像I,对应的真实标签图GT,构成训练集:
步骤1、模型建立,采用AHSP模块、Channel Attention Sum、Criss-Cross AttentionSum、Channel Split和Concat构建编码阶段,FFM、Channel Attention Sum、Criss-CrossAttention Sum,ReLU函数、Final Prediction构建解码阶段,编码阶段与解码阶段通过Channel Attention Sum连接,得到基于注意力机制的超轻量化语义分割网络;
步骤2、模型训练,将训练集图像I输入到注意力机制的超轻量化语义分割网络中,得到预测图像,将其与真实标签图GT进行对比,计算出交叉熵函数作为损失函数,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练,训练到整个模型收敛为止;
步骤3、模型测试,将测试集图像输入到训练好的网络模型中,得到测试结果;
步骤1中,编码网络包括n个阶段,以AHSP模块作为基本模块,引入Criss-CrossAttention Sum、Channel Split、Concat fuse split,构建相互连接的第一路径和第二路径;对训练集图像I进行n次下采样,每个阶段输出特征图的尺寸为原始尺寸的1/2、1/4、...、1/2n;
第一路径和第二路径在每个阶段的第一个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n},和为步长为2的下采样;F1×1(·)为卷积核为1×1的卷积网络转换函数,Split(·)将接收到的特征图沿通道维度分割为两部分,并分别送入和中,得到第一路径特征信息和第二路径特征信息;
第二路径在每个阶段的第2个AHSP模块输出特征图的计算公式如下:
其中,i∈{1,2,3,...,n};
步骤1中,解码网络包括n个阶段,以FFM模块为基础,引入Channel Attention Sum、Criss-Cross Attention Sum构成解码网络,并引入ReLU函数作为最终的输出预测结果的激活函数;
S'i=F1×1(X) (5)
经过编码阶段得到特征图输出为:
则Di的计算公式过程如下:其中i=1,2,…,n-1
其中,Upsample(·,t)表示使用双线性插值方法以t的系数对特征图进行采样,CAM(·)表示使用通道注意力机制,Si”为下一stage的特征图D经过CAM、上采样、FFM操作后的输出;
利用Di通过1×1卷积得到测试结果Pi,具体如下:
Pi=Soft max(Upsample(F1×1(Di),2i)) (10)
其中,Pi∈RH×W为预测的类标签图,Soft max(·)为激活函数,i∈{1,2,3,...,n}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638043.2A CN113240683B (zh) | 2021-06-08 | 2021-06-08 | 基于注意力机制的轻量化语义分割模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638043.2A CN113240683B (zh) | 2021-06-08 | 2021-06-08 | 基于注意力机制的轻量化语义分割模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240683A CN113240683A (zh) | 2021-08-10 |
CN113240683B true CN113240683B (zh) | 2022-09-20 |
Family
ID=77137265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110638043.2A Active CN113240683B (zh) | 2021-06-08 | 2021-06-08 | 基于注意力机制的轻量化语义分割模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240683B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140469B (zh) * | 2021-12-02 | 2023-06-23 | 北京交通大学 | 一种基于多层注意力的深度分层图像语义分割方法 |
CN114255350B (zh) * | 2021-12-23 | 2023-08-04 | 四川大学 | 一种腭部软硬组织厚度测量方法和*** |
CN114241203B (zh) * | 2022-02-24 | 2022-05-13 | 科大天工智能装备技术(天津)有限公司 | 一种工件长度测量方法及*** |
CN116721420B (zh) * | 2023-08-10 | 2023-10-20 | 南昌工程学院 | 一种电气设备紫外图像的语义分割模型构建方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490884B (zh) * | 2019-08-23 | 2023-04-28 | 北京工业大学 | 一种基于对抗的轻量级网络语义分割方法 |
CN111079649B (zh) * | 2019-12-17 | 2023-04-07 | 西安电子科技大学 | 基于轻量化语义分割网络的遥感图像地物分类方法 |
CN112183360B (zh) * | 2020-09-29 | 2022-11-08 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN112330681B (zh) * | 2020-11-06 | 2024-05-28 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
-
2021
- 2021-06-08 CN CN202110638043.2A patent/CN113240683B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113240683A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN111462126B (zh) | 一种基于边缘增强的语义图像分割方法及*** | |
CN111178316B (zh) | 一种高分辨率遥感影像土地覆盖分类方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN111259904B (zh) | 一种基于深度学习和聚类的语义图像分割方法及*** | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN113435253B (zh) | 一种多源影像联合城区地表覆盖分类方法 | |
CN112699899A (zh) | 一种基于生成对抗网络的高光谱图像特征提取方法 | |
CN112329801B (zh) | 一种卷积神经网络非局部信息构建方法 | |
CN112733768A (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN109766918B (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及*** | |
CN113516133A (zh) | 一种多模态图像分类方法及*** | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、*** | |
CN114821050A (zh) | 一种基于transformer的指称图像分割方法 | |
CN115761735A (zh) | 一种基于自适应伪标签纠正的半监督语义分割方法 | |
CN116071715A (zh) | 一种自动驾驶汽车实时语义分割模型构建方法 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN116704506A (zh) | 一种基于交叉环境注意力的指代图像分割方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN113688783B (zh) | 人脸特征提取方法、低分辨率人脸识别方法及设备 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |