CN113537228B - 一种基于深度特征的实时图像语义分割方法 - Google Patents

一种基于深度特征的实时图像语义分割方法 Download PDF

Info

Publication number
CN113537228B
CN113537228B CN202110767097.9A CN202110767097A CN113537228B CN 113537228 B CN113537228 B CN 113537228B CN 202110767097 A CN202110767097 A CN 202110767097A CN 113537228 B CN113537228 B CN 113537228B
Authority
CN
China
Prior art keywords
image
semantic segmentation
attention
features
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110767097.9A
Other languages
English (en)
Other versions
CN113537228A (zh
Inventor
李爽
金�一
姜天姣
赵茜
李雅宁
梁晓虎
祝瑞辉
张衡
黄璐
贾浩男
程建强
陈冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 54 Research Institute
Original Assignee
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 54 Research Institute filed Critical CETC 54 Research Institute
Priority to CN202110767097.9A priority Critical patent/CN113537228B/zh
Publication of CN113537228A publication Critical patent/CN113537228A/zh
Application granted granted Critical
Publication of CN113537228B publication Critical patent/CN113537228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度特征的实时图像语义分割方法,涉及计算机视觉领域。该方法在双分支网络的浅层部分引入注意力机制,用来更加高效地获取特征,提高模型计算效率,并减少噪声的引入。使用Adam与LookAhead融合的优化器在训练过程中进行学习,减少模型收敛过程中不必要的计算,能够更快地收敛到目标条件。本发明能够显著减少计算开销,使得模型能够进行实时语义分割。

Description

一种基于深度特征的实时图像语义分割方法
技术领域
本发明涉及计算机视觉领域,特别是图像语义分割领域,提供了一种基于深度特征的实时图像语义分割方法。
背景技术
图像的语义分割问题是一种非常典型的计算机视觉问题,对场景理解来说至关重要,具有广泛的应用前景。随着科学技术的进步,医学影像处理、道路场景理解,甚至游戏画面处理等需要更加快速的语义分割方法的场景越来越多。关于图像语义分割任务,目前主流的方法有两类:第一类是传统的语义分割方法,包括基于阈值、区域、边缘检测的分割方法和基于遗传算法的分割方法等,这类方法较为简单易懂,但容易受到图像中噪声和光照风因素的影响而导致分割效果较差,抑或不能得到区域的分类信息等;第二类则是目前研究较为热门的深度学习方法,随着神经网络的发展和计算机计算性能的提升,卷积神经网络得到了快速发展,全卷积神经网络的提出则使得深度学习方法在计算机视觉领域突飞猛进。在此基础上,SegNet模型采用了对称的编码器-解码器结构,在训练过程中记录了下采样时特征的位置,并在上采样时进行还原,提高了模型输出的分辨率;空洞卷积通过在卷积核之中***“空洞”以使其增大,这样便在不增加参数数量的基础上扩大了输出单元的感受野面积;RefineNet模型可以使用各个层级的特征,多路搜集图像在进行采样时的信息,尽可能地对全局不同层次的特征进行利用,并采用增加远距离残差连接的方法来进行语义分割;DeepLab v3加入了Batch Normalization层,并设计了并行和串行的空洞卷积模块来对物体进行多尺度分类。
但是现有图像进行语义分割的方法参数量大,在模型的训练过程中,需要较多的硬件资源和较长的时间消耗,给测试环节带来了更多的时间消耗,优化算法在训练过程中不是每次迭代都向着整体的最优化方向,并且由于更新比较频繁,会造成损失函数有比较大的震荡,噪音较多,导致目前基于深度学习的语义分割技术实时性不足,难以广泛应用。
发明内容
有鉴于此,本发明提出一种基于深度特征的实时图像语义分割方法,该方法计算开销小、特征提取能力高、收敛速度快。
为了实现上述目的,本发明采用的技术方案为:
一种基于深度特征的实时图像语义分割方法,包括以下步骤:
(1)将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
(2)计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
(3)加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型。
进一步的,步骤(1)中图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
进一步的,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。
进一步的,注意力学***均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):
Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))
将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学***均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个卷积层,并通过Sigmoid激活函数后得到权重Ms(F):
Ms(F)=σ(f7*7([MaxPool(F),AvgPool(F)]))
其中,F为输入特征,MLP表示全连接层;
最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。
进一步的,两层的全连接层中第一层神经元个数为C/r,r为缩减比例,激活函数为ReLU,第二层神经元个数为C。
进一步的,步骤(2)中计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,具体为:
使用交叉熵损失函数计算损失结果,公式如下:
Figure BDA0003151173680000031
其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;
得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。
本发明相比现有技术的有益效果为:
(1)本发明提出一种新的基于深度特征的实时语义分割注意力学习网络,该网络能够在提取浅层全局特征时应用注意力机制,将通道注意力模块和空间注意力模块串联,获得重点关注区域,减少了网络模型所需要的参数量,有效地降低了训练时间以及对于硬件的消耗。
(2)本发明提出一种在反向传播中更加高效的优化器,将Adam优化器融入LookAhead算法,通过Adam优化器生成的快速权重序列来选择搜索方向计算权重更新,慢速权重滞后更新为模型提供了更加长期的稳定性,提高了模型的收敛速度。
附图说明
图1为本发明实施例中分割方法流程图。
图2为本发明实施例中网络模型结构图。
图3为本发明实施例中注意力学习模块图。
图4为本发明实施例中Adam优化器流程图。
图5为本发明实施例中LookAhead算法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。如图1所示为本发明实施例公开的一种基于深度特征的实时图像语义分割方法,具体实现包括以下步骤:
步骤1:将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
如图2所示,图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
其中,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。
如图3所示,注意力学***均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):
Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))
将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学***均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个7×7卷积层,并通过Sigmoid激活函数后得到权重Ms(F):
Ms(F)=σ(f7*7([MaxPool(F),AvgPool(F)]))
其中,F为输入特征,MLP表示全连接层;
最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。
步骤2:计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
使用交叉熵损失函数计算损失结果,公式如下:
Figure BDA0003151173680000051
其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;
得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。Adam优化器流程如图4所示。在Adam的基础上,将其融合入LookAhead算法来减小方差,LookAhead的算法流程如图5所示,快速权重采用Adam算法更新,在完成梯度的反向传播后开始新的一轮学习,直到达到预设迭代次数,达到预设迭代次数后对模型效果进行测试,若未达到目标要求,则调整模型的超参数配置,若达到目标要求,则保存模型。
步骤3:加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型;
完成基于深度特征的实时图像语义分割。

Claims (5)

1.一种基于深度特征的实时图像语义分割方法,其特征在于,包括以下步骤:
(1)将训练集待分割图像进行数据的标准化和图像的裁剪变换,将处理后的待分割图像输入包括通道注意力模块和空间注意力模块的图像语义分割网络,经过前向传播得到语义分割后的图像;
(2)计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,返回步骤(1)直至达到设定的迭代次数,得到训练好的图像语义分割网络;
(3)加载测试集的数据,通过训练好的图像语义分割网络进行处理,得到图像语义分割结果,并计算评估指标,根据评估指标进行图像语义分割网络性能的判定,若不满足预期要求,则返回步骤(1),若达到预期的性能,则保存模型;
其中,步骤(1)中图像语义分割网络的前向传播具体为:将输入的待分割图像h*w*c,经过一个标准卷积层和一个深度卷积层,然后进入注意力学习模块,得到引入了注意力机制的特征表示,经过注意力学习模块后,进入深度可分离卷积层,输出分为两个支路;一个支路依次经bottleneck模块和金字塔池化模块,再经过上采样处理、深度卷积层和普通卷积层,得到输出特征,另一个支路经过一个普通卷积层,得到输出特征;将两个支路的输出特征相加,并使用激活函数进行非线性变换;最后依次通过两个深度可分离卷积、一个卷积核大小为1×1的卷积以及一个上采样操作,得到分割后的图像;其中,h为图像高度,w为图像宽度,c为图像通道数。
2.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,bottleneck模块内部通道数与输入端通道数的比值设定为6,步长为2,使用三个1×1的卷积核和三个3×3的卷积核。
3.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,注意力学***均池化,得到两个1*1*C的通道描述,C为通道数,再将两个通道描述分别对应送入两层的全连接层,分别得到两个特征,然后再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重Mc(F):
Mc(F)=σ(MLP(MaxPool(F)+MLP(AvgPool(F)))
将权重Mc(F)与输入特征相乘,得到中间特征,将中间特征输入空间注意力学***均池化得到两个h*w*1的通道描述,并将这两个描述按照通道拼接在一起,然后经过一个卷积层,并通过Sigmoid激活函数后得到权重Ms(F):
Ms(F)=σ(f7*7([MaxPool(F),AvgPool(F)]))
其中,F为输入特征,MLP表示全连接层;
最后将权重Ms(F)与中间特征相乘,得到引入了注意力机制的特征表示。
4.根据权利要求3所述的一种基于深度特征的实时图像语义分割方法,其特征在于,两层的全连接层中第一层神经元个数为C/r,r为缩减比例,激活函数为ReLU,第二层神经元个数为C。
5.根据权利要求1所述的一种基于深度特征的实时图像语义分割方法,其特征在于,步骤(2)中计算语义分割后的图像和目标图像之间的损失,并使用损失进行图像语义分割网络的反向传播,更新图像语义分割网络权重,具体为:
使用交叉熵损失函数计算损失结果,公式如下:
Figure FDA0003810517890000021
其中,j表示需要推理的像素点,yi表示正确值即目标图像,Pj表示预测值即语义分割后的图像;
得到损失函数值后,采用Adam与LookAhead融合的优化器通过反向传播更新图像语义分割网络参数。
CN202110767097.9A 2021-07-07 2021-07-07 一种基于深度特征的实时图像语义分割方法 Active CN113537228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110767097.9A CN113537228B (zh) 2021-07-07 2021-07-07 一种基于深度特征的实时图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110767097.9A CN113537228B (zh) 2021-07-07 2021-07-07 一种基于深度特征的实时图像语义分割方法

Publications (2)

Publication Number Publication Date
CN113537228A CN113537228A (zh) 2021-10-22
CN113537228B true CN113537228B (zh) 2022-10-21

Family

ID=78126983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110767097.9A Active CN113537228B (zh) 2021-07-07 2021-07-07 一种基于深度特征的实时图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113537228B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140469B (zh) * 2021-12-02 2023-06-23 北京交通大学 一种基于多层注意力的深度分层图像语义分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法
CN111951288A (zh) * 2020-07-15 2020-11-17 南华大学 一种基于深度学习的皮肤癌病变分割方法
CN112233129A (zh) * 2020-10-20 2021-01-15 湘潭大学 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN112508066A (zh) * 2020-11-25 2021-03-16 四川大学 一种基于残差全卷积分割网络的高光谱图像分类方法
CN112633186A (zh) * 2020-12-26 2021-04-09 上海有个机器人有限公司 室内环境下可行驶路面的分割方法、装置、介质和机器人
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111680695A (zh) * 2020-06-08 2020-09-18 河南工业大学 一种基于反向注意力模型的语义分割方法
CN112651973B (zh) * 2020-12-14 2022-10-28 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN113160229A (zh) * 2021-03-15 2021-07-23 西北大学 基于层级监督级联金字塔网络的胰腺分割方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法
CN111951288A (zh) * 2020-07-15 2020-11-17 南华大学 一种基于深度学习的皮肤癌病变分割方法
CN112233129A (zh) * 2020-10-20 2021-01-15 湘潭大学 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN112508066A (zh) * 2020-11-25 2021-03-16 四川大学 一种基于残差全卷积分割网络的高光谱图像分类方法
CN112633186A (zh) * 2020-12-26 2021-04-09 上海有个机器人有限公司 室内环境下可行驶路面的分割方法、装置、介质和机器人
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与***

Also Published As

Publication number Publication date
CN113537228A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111666836B (zh) M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN108681752B (zh) 一种基于深度学习的图像场景标注方法
CN113313657B (zh) 一种用于低光照图像增强的非监督学习方法和***
WO2022027937A1 (zh) 一种神经网络压缩方法、装置、设备及存储介质
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
Kao et al. Automatic image cropping with aesthetic map and gradient energy map
CN111861906B (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN107564007B (zh) 融合全局信息的场景分割修正方法与***
CN113554599B (zh) 一种基于人类视觉效应的视频质量评价方法
CN115249332A (zh) 基于空谱双分支卷积网络的高光谱图像分类方法及设备
CN114140469B (zh) 一种基于多层注意力的深度分层图像语义分割方法
CN114897782B (zh) 基于生成式对抗网络的胃癌病理切片图像分割预测方法
CN113537228B (zh) 一种基于深度特征的实时图像语义分割方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法
CN113421237A (zh) 基于深度特征迁移学习的无参考图像质量评价方法
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
CN114299305A (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN116433721A (zh) 一种基于生成伪融合特征的室外rgb-t目标跟踪算法
CN113962332B (zh) 基于自优化融合反馈的显著目标识别方法
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant