CN116797789A - 一种基于注意力架构的场景语义分割方法 - Google Patents

一种基于注意力架构的场景语义分割方法 Download PDF

Info

Publication number
CN116797789A
CN116797789A CN202310698684.6A CN202310698684A CN116797789A CN 116797789 A CN116797789 A CN 116797789A CN 202310698684 A CN202310698684 A CN 202310698684A CN 116797789 A CN116797789 A CN 116797789A
Authority
CN
China
Prior art keywords
training
attention
model
semantic segmentation
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310698684.6A
Other languages
English (en)
Inventor
黄丹丹
王贵贤
王英志
陈广秋
许鹤
白昱
薛泓垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202310698684.6A priority Critical patent/CN116797789A/zh
Publication of CN116797789A publication Critical patent/CN116797789A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,尤其为一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:步骤一:数据预处理,为后续的网络模型训练提供数据准备;步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。本发明为了增强像素的特征表示能力,利用双注意力模块分别在空间维度和通道维度建模上下文信息,提升模型整体的特征表达能力。

Description

一种基于注意力架构的场景语义分割方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于注意力架构的场景语义分割方法。
背景技术
在人工智能行业快速发展的时代,自动驾驶技术也越来越贴近人们的生活。自动驾驶技术中,借助计算机来帮助汽车理解其所处的场景是非常重要的,只有自动驾驶***能感知到周围环境中的物和人,其才能正确的做出安全的决策,如果***对环境中的人和物有误判,那可能导致非常严重的后果。
基于传统算法的自动驾驶技术首先通过各种传感器采集周围环境的数据,然后通过传统算法进行数据分析,最后做出决策对车辆进行控制。因此传统算法存在效率低下、无法端到端执行、精度低等缺点。最近几年,随着神经网络的发展和计算机算力的提升,基于深度学习的自动驾驶技术得以飞速发展。首先通过摄像头采集周围环境数据,然后利用深度学习算法把特征提取、图像分割以及车辆决策端到端执行,提高处理速度的同时也大大地提升了精度。相对于昂贵的激光雷达传感器来说,价格低廉的摄像头采集到的图片可以大幅度降低成本,进一步推进自动驾驶技术落地。为保证车辆行驶安全,自动驾驶技术对周围环境有较高的精度要求。
图像语义分割的目的就是针对不同的像素根据其语义范畴进行分类,与传统分割相比语义分割即是达到像素级别的分类。图像的语义分割结果中不但包含了所属语义类别的位置信息还有详细的边界和姿态信息,因此这样精细结果能够使车辆的可行驶区域的判断更加精准、物体类别和形状判断更加精准,现如今自动驾驶领域的主要场景是城市场景,因此城市场景语义分割是一个重要的领域。
目前语义分割主流框架基本都是基于全卷机神经网络演化而来的,然而在自动驾驶***中使用图像语义分割算法时,仍然存在一些问题:
(1)自动驾驶场景的物体尺寸变化比较大,现有的算法对不同尺寸的目标分割的精度不同,不适用于小目标物体。
(2)自动驾驶场景复杂,存在光照明暗相差大、相互之间存在大量的遮挡等问题,目标识别困难,目标边缘模糊,当前许多算法都不适用于检测目标边缘。
因此,本作品致力于利用先进的注意力机制解决上述问题,进而提高语义分割的精度,为自动驾驶技术提供新型解决方案。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于注意力架构的场景语义分割方法,解决了上述背景技术中所提出的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;
步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。
进一步地,所述步骤一中的数据预处理包括:
通过数据预处理工作对原始输入数据进行随机和任意地裁剪以进行数据扩充,然后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的样本图片,最终裁剪大小为768x 768。
进一步地,所述步骤二中模型的训练包括下列步骤:
将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是使用具有扩张策略的残差网络Resnet,一个是包含了通道注意力和空间注意力的轻量级对称双注意力模块,一个是将低层特征与高层特征进行融合的自适应选择交互模块。
进一步地,所述步骤三模型的测试包括:
将训练好的权重参数,在新的传感器采集图像中测试分割效果。
(三)有益效果
与现有技术相比,本发明提供了一种基于注意力架构的场景语义分割方法,具备以下有益效果:
本发明为了增强像素的特征表示能力,利用双注意力模块分别在空间维度和通道维度建模上下文信息,提升模型整体的特征表达能力。
本发明利用高层特征图虽然分辨率低,但它们总是包含丰富的语义信息,因此可以为生成具有更多语义信息的低级特征图提供指导;此外,低层特征图比高层特征图具有更多的空间信息可以为高层特征图提供空间引导,通过有效的特征融合可以进一步提高语义分割效果。
附图说明
图1为本发明整体网络结构图;
图2为为本发明特征融合模块结构图;
图3为本发明轻量化双注意力模块结构图;
图4为本发明本发明各个模块在数据集上的分割效果展示图;
图5为本发明对Cityscapes测试数据集的评价图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1-5所示,本发明一个实施例提出的一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
本发明所述数据预处理具体操作包括下列步骤:
对原始输入数据进行随机和任意地裁剪以进行数据扩充,然后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的样本图片,最终裁剪大小为768x 768。
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;
本发明所述步骤二中模型的训练包括下列步骤:
将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是使用具有扩张策略的残差网络Resnet,一个是包含了通道注意力和空间注意力的轻量级对称双注意力模块,一个是将低层特征与高层特征进行融合的自适应选择交互模块;
第一部分是用于特征提取的残差网络Resnet,本发明在原始残差网络的基础上利用扩张策略,去除了原有网络最后两层的下采样操作以保留更多细节以利于语义分割的结果,使得最终的特征提取网络输出特征图是图的原始1/8,通过对输入原始图像信息进行特征提取,并最终获得从Res-1到Res-4的4级特征;
第二部分是用于增强高级特征表示的轻量化对称双注意力结构,通过特征提取骨干网络Resnet的最高层的输出被传递到空间和通道维度的混合注意力机制,充分利用高级特征之间的对应关系,将空间信息和语义信息适当地整合在一起;该模型利用平均池化和最大池化取代计算所有位置像素之间的相关性的自注意力方法,避免了自注意力带来的高昂计算成本和GPU内存占用,降低模型对于硬件的依赖;
其具体如下:
空间池化注意力模型首先通过并行的自适应全局平均池化和自适应全局最大池化获得两个新的特征向量
和/>
然后将二则沿着信道维度将两者拼接以获得融合特征
接下来,通过1×1卷积将特征通道缩减为1,再通过sigmoid激活函数获得空间注意力权重图
最后,通过空间注意力权重图对每个位置的判别特征进行加权,然后将加权运算的结果与X相加,得到最终输出Espatial;具体运算定义如下:
另一方面,通道池化注意力模型以较低的计算复杂度有效地提取有判别力的信道信息。首先输入特征图X∈RC×H×W,同样通过在空间维度中使用自适应平均池和自适应最大池来生成两个新的特征向量和/>
然后,为了减少计算量,使用1x1卷积→Rule→1x1卷积先降维然后升维,最终得到两个新的特征图和/>
然后,在叠加两个通道特征图之后,通过sigmoid激活来获得通道注意力权重图最后,通过通道注意力权重图测量X的每个通道的判别特征,然后将权重运算的结果与X相加,得到最终输出Echannel,如下所示:
最后,由通道注意力路径生成的特征图连接空间注意力路径,由于通道注意力关注它是什么,空间注意力关注它在哪里,双注意力模块利用了基于上述两者的混合注意力机制,使其有效地利用高层语义信息增强网络像素表示。
第三部分是自适应选择交互结构,旨在更有效地将深层语义信息与浅层轮廓信息相结合,生成更“语义”的低级特征图和更准确的高级特征图。它包含了一个通道注意力模块,有效的弥合了具有大量语义信息的高级特征图和具有精确空间信息的低级特征图之间的差距。
该模块可以学***均池为全局上下文信息提供了可接受的最大域。全局平均池通过压缩特征向量的特征来映射特征向量,并将其反馈到完全连接层,以了解每个特征通道的权重。将融合的特征图用sigmoid函数归一化为0和1,以获得通道注意力权重图。通过将原始特征图与获得的通道注意力权重相乘,可以自适应地选择重要信息,从而使低级特征图具有更多的高级语义信息,从而获得增强的低级语义特征图。同时,在通道注意力权重值的影响下,可以利用低级特征图的几何信息来引导高级特征,然后逐步恢复边缘细节特征。最后,通过逐像素求和来组合增强的高级和低级特征。
步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果;
本发明模型的测试包括;
将训练好的权重参数,在新的图像数据中测试分割效果。
由于自动驾驶场景多样性,不同场景下不同物体目标的尺寸变化大、相互遮挡多、目标辨识难,因此其结果表现也极大地依赖于分割场景的复杂度情况,并且针现有语义分割算法由于一系列卷积和池化操作造成“分辨率丢失”进而导致小目标物体分割精度不够以及“分割边缘模糊”的问题,首先,本发明利用带有空间注意力和通道注意力的双注意力模块分别在空间维度和通道维度建模上下文信息,提升模型整体的特征表达能力,其次,本发明利用高层特征语义丰富却缺乏几何空间细节信息而低层特征虽然包含精准的细节轮廓却缺乏语义的特点,利用一个自适应选择交互模块更加充分指导高层和低层特征的融合,最终在测试对比实验中,证明了本发明不仅可以提取长期相关的上下文信息,而且可以更有效地促进语义信息和轮廓信息的结合,最终实现分割精度和模型复杂性之间的平衡。
利用自动驾驶领域常用的数据集Cityscapes进行网络模型训练,根据Cityscapes数据集的评测工具,测试该方法的训练效果。从表1中的数据可以发现,本发明所提出的场景语义分割算法比其他算法训练出来的权重参数,在该数据测试数据上具有更优的表现。
图5是对Cityscapes测试数据集的评价;
为了更加直观的感受本发明相对于现有算法的有效性,进一步可视化了本发明中的轻量化双注意力结构和自适应选择交互结构的分割结果,如图4所示。由于双注意力结构可以更有效地对上下信息进行建模,并增强像素之间的相关性,因此在原有网络的基础上添加双注意力结构可以有效地避免一些类内分类错误。当进一步添加自适应选择交互结构后,通过抑制非相关信道来增强低级和高级特征表示,从而实现更好的融合效果。因此从图4中第四行可以看到添加自适应选择交互结构融合了低层特征后,使得丢失的细节得以恢复,不同类别间边缘分割更加细化。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于注意力架构的场景语义分割方法,其特征在于:该方法包括以下步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;
步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。
2.根据权利要求1所述的一种基于注意力架构的场景语义分割方法,其特征在于:所述步骤一中的数据预处理包括:
通过数据预处理工作对原始输入数据进行随机和任意地裁剪以进行数据扩充,然后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的样本图片,最终裁剪大小为768x768。
3.根据权利要求1所述的一种基于注意力架构的场景语义分割方法,其特征在于:所述步骤二中模型的训练包括下列步骤:
将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是使用具有扩张策略的残差网络Resnet,一个是包含了通道注意力和空间注意力的轻量级对称双注意力模块,一个是将低层特征与高层特征进行融合的自适应选择交互模块。
4.根据权利要求1所述的一种基于注意力架构的场景语义分割方法,其特征在于:所述步骤三模型的测试包括:
将训练好的权重参数,在新的传感器采集图像中测试分割效果。
CN202310698684.6A 2023-06-13 2023-06-13 一种基于注意力架构的场景语义分割方法 Pending CN116797789A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310698684.6A CN116797789A (zh) 2023-06-13 2023-06-13 一种基于注意力架构的场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310698684.6A CN116797789A (zh) 2023-06-13 2023-06-13 一种基于注意力架构的场景语义分割方法

Publications (1)

Publication Number Publication Date
CN116797789A true CN116797789A (zh) 2023-09-22

Family

ID=88035508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310698684.6A Pending CN116797789A (zh) 2023-06-13 2023-06-13 一种基于注意力架构的场景语义分割方法

Country Status (1)

Country Link
CN (1) CN116797789A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951648A (zh) * 2024-03-26 2024-04-30 成都正扬博创电子技术有限公司 一种机载多源信息融合方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951648A (zh) * 2024-03-26 2024-04-30 成都正扬博创电子技术有限公司 一种机载多源信息融合方法及***
CN117951648B (zh) * 2024-03-26 2024-06-07 成都正扬博创电子技术有限公司 一种机载多源信息融合方法及***

Similar Documents

Publication Publication Date Title
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
Du et al. Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework
CN111582201A (zh) 一种基于几何注意力感知的车道线检测***
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别***及方法
CN113554125B (zh) 结合全局与局部特征的目标检测装置、方法和存储介质
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及***
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN112926461B (zh) 神经网络训练、行驶控制方法及装置
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及***
CN116797789A (zh) 一种基于注意力架构的场景语义分割方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN111259923A (zh) 一种基于改进三维r-cnn算法的多目标检测方法
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN114495050A (zh) 一种面向自动驾驶前向视觉检测的多任务集成检测方法
CN112926667A (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN112347967A (zh) 一种复杂场景下融合运动信息的行人检测方法
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质
CN116310902A (zh) 一种基于轻量级神经网络的无人机目标检测方法及***
CN116259040A (zh) 识别交通标志的方法、装置和电子设备
CN115239974A (zh) 融合注意力机制的视觉同步定位与地图构建闭环检测方法
CN113569803A (zh) 一种基于多尺度卷积的多模态数据融合车道目标检测的方法及***
CN117612231B (zh) 人脸检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination