CN114674338B

CN114674338B - 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法

Info

Publication number: CN114674338B
Application number: CN202210366807.1A
Authority: CN
Inventors: 王雪玮; 梁晓; 李韶华; 冯桂珍; 闫德立
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-05-07
Anticipated expiration: 2042-04-08
Also published as: CN114674338A

Abstract

本发明公开了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，在编码器‑解码器的骨架基础上，构建倒金字塔式的多尺度分层输入和分层输出结构以有效融合道路的形态学特征与语义信息；构建集成通道注意力和空间注意力的跳跃连接结构以实现不同行驶性区域的精确检测。该方法为在M形深度架构下融合多尺度交互策略和双重注意力机制的可行驶区域推荐方法，针对边界模糊、路况多变的复杂道路，能在复杂驾驶场景中基于视觉精细分割出道路的强推荐、弱推荐、不推荐行驶区域，以满足智能汽车在正常、应急等复杂行驶工况下对可行驶区域的不同检测需求。提出的模型兼顾了分割精度和时间效率，在复杂道路可行驶区域检测任务上有明显优势。

Description

基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法

技术领域

本发明涉及一种道路可行驶区域推荐方法，具体是一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，属于自动驾驶与计算机视觉技术领域，特别与道路可行驶区域检测方法有关。

背景技术

在基于视觉的自动驾驶环境感知中，智能汽车通过甄别前方场景的路面、车辆、行人、正负障碍等交通要素信息，检测出可供行驶的道路区域，能够为进一步的路径规划和驾驶决策提供重要的信息支持。对于铺装良好、车道明确、边界清晰的结构化道路，现阶段的自动驾驶已能实现有效的可行驶区域检测。但对于城郊非主干道、乡村街道等结构化程度较低的道路，存在车道与边界模糊、参与者随机性强等突出问题，使得面向结构化道路提出的可行驶区域检测算法难以有效捕捉非结构化道路的特征信息，严重影响检测任务的准确性与实时性，甚至导致失效。更重要的是，出于安全考虑，人类驾驶员在紧急情况下会选择在通常不被视为道路的平坦区域上进行应急行驶。鉴于非结构化道路尤为复杂多变的路况，智能汽车更应具备人类驾驶员对紧急工况的应对能力。因此，对复杂道路的可行驶区域进行多元化分割和精细化推荐，以适应不同的行驶工况，是攸关智能汽车行驶安全的关键任务。

当前，基于视觉的复杂道路可行驶区域检测方法主要可分为三类：基于外观描述、基于几何信息和基于语义分割。基于外观描述的方法由于单一的外观特征极易受到光照变化、路面阴影等因素的干扰；许多研究在外观描述的基础上又融入了道路的几何信息，但是，当场景的几何约束条件无法得到满足或所用的三维数据质量不高时，基于几何信息的方法性能会严重退化；现有基于语义分割方法的数据多在外国特定行驶环境下取得，与我国的复杂道路条件并不完全相符，并且算法对场景中的所有对象均进行语义分割，冗余度高、聚焦不足，所提取的可行驶区域精度受限。此外，无论是基于外观描述、几何信息还是语义分割的方法，现有的可行驶区域检测模型大多只提取单一的道路区域作为可行驶区域，无法兼顾正常行驶工况和紧急行驶工况，很难适应复杂道路的多变路况。因此，现阶段在实际自动驾驶任务中亟需一种考虑我国复杂交通场景，同时具备提取道路各不同区域并兼顾正常行驶工况和紧急行驶工况的可行驶区域推荐方法。

相关专利文献：CN113223313A公开了一种车道推荐方法、装置及车载通信设备，车道推荐方法包括：通过车载通信技术获取目标车辆当前所在道路的车道信息；通过车载通信技术接收目标车辆的周围车辆的车辆数据；根据所述车道信息和所述车辆数据，确定周围车辆在车道中的位置；根据所述车辆数据和周围车辆在车道中的位置，确定目标车辆待选择的各个车道的行驶参数；根据所述目标车辆待选择的各个车道的行驶参数，确定目标车辆通过预定路段的通行时长，根据所确定的通行时长进行车道推荐。CN112857381A公开了一种路径推荐方法、装置及可读介质。所述方法包括：通过识别采集的图像中具有拥堵特性的目标对象，根据所述目标对象和当前导航数据，确定行驶道路的路况信息，根据所述路况信息，生成备选路径，进行路径推荐，使得导航能够及时得到更具体、更准确的路况信息，从而解决无法及时纠正错误的路径的问题。

以上这些技术对于道路可行驶区域推荐方法应如何解决汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题、提高道路可行驶区域的检测精度和时间效率，并未给出具体的指导方案。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，注重对特征提取的高效性和准确性，有效兼顾准确性和实时性，以解决汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题，提高道路可行驶区域的检测精度和时间效率。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法(或者说是基于M形深度架构的道路可行驶区域推荐方法)，其技术方案在于它包括如下步骤：

步骤(1)：构建带标签的数据集，将数据集划分为训练集、验证集和测试集，并对数据集进行预处理；

进一步地，优选的技术方案可以是：所述步骤(1)中构建带标签的数据集的步骤如下：

步骤(101)：对已有的复杂道路驾驶场景图像进行了标注合并与修改，使之符合强推荐、弱推荐、不推荐和背景4种类别的可行驶区域检测任务，此部分样本记为IDD_unst；

步骤(102)：利用全地形智能实验车，在匀速行驶中利用车载摄像头对封闭/半封闭园区的复杂道路进行图像采集，并对其驾驶场景图像进行了相应标注，此部分样本记为Campus_unst；

步骤(103)：利用普通乘用车的行车记录仪，采集并标注我国城郊、乡村等地的复杂道路驾驶场景图像，此部分样本记为China_unst。

步骤(2)：以U形编码器-解码器结构为基础，通过增加多尺度分层输入、双注意力跳接、多尺度分层输出三大结构，构建一个M形编码器-解码器网络即M²AttentionNet模型。

步骤(3)：在模型编码器的输入端构建倒金字塔式的分层输入结构即构建多尺度分层输入结构，此多尺度分层输入结构在不同尺度层级上保留浅层特征，并将其与深层语义进行逐层融合；

进一步地，优选的技术方案可以是：所述模型编码器输入端构建的多尺度分层输入结构的步骤如下：

步骤(31)：对待测图像I进行连续的最大池化下采样，生成尺度递减的图像倒金字塔{I,1/2I,1/4I,1/8I}；

步骤(32)：将四种尺度的图像分层并入编码器支路的对应层级，经Conv、BN和ReLU激活提取特征后，以通道维度拼接的方式与前一层级生成的特征图合并为新的特征图输入网络编码器。

步骤(4)：在M²AttentionNet编码器支路构建四个层级，利用3×3Conv、BN以及ReLU的组合操作在每一层均进行连续两次特征提取。

步骤(5)：保持同一层级的分辨率不变，层间使用2×2最大池化进行下采样。

步骤(6)：对于解码器支路，每一层使用参数相同的Conv-BN-ReLU组合进行连续两次特征提取，层间进行最近邻插值的2×2上采样。

步骤(7)：利用1×1Conv、BN和Softmax激活在解码器支路最终端进行四元分类，生成与输入图像等尺度的预测结果，4个类别分别对应驾驶场景中的强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域。

步骤(8)：在模型输出端设计分层预测与分层损失的输出结构；

进一步地，优选的技术方案可以是：在模型输出端设计分层预测与分层损失的输出结构的具体步骤(或者说是所述模型解码器支路构建的多尺度分层输出的具体步骤)和公式为：

步骤(81)：在解码器支路的每一层均通过上采样和卷积组合(包括1×1Conv、BN和Softmax激活)输出对应的可行驶区域预测图R_s(层序s＝1,2,3,4)，并将所有层的预测图合并为最终的可行驶区域预测结果；

步骤(82)：通过独热编码，融合并计算解码器支路所有层级的损失，第s层的层级损失l_s定义为：

其中，I为输入图像，R^opt为真值，θ为网络参数，N为标签类别数目，此处N为4；在独热码模式下，对于类别k，Y_k ⁺和Y_k ^-分别是其真值中标记为正(1)和负(0)的像素集，x_k为预测值，γ为常数因子，ω为平衡因子；

步骤(83)：计算模型的总损失函数L为四个解码器层级损失l_s之和，L＝∑l_s；

更进一步地，优选的技术方案可以是：所述步骤(8)中在模型输出端设计分层预测与分层损失的公式中，γ＝2，ω＝0.55，损失函数为聚焦损失。

步骤(9)：在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构，其具体步骤(优选的技术方案)如下：

步骤(91)：在分层跳接过程中集成通道注意力和空间注意力双重机制；

步骤(92)：编码器各层级得到的特征图F_w×h×c依次经过通道注意力模块和空间注意力模块进行精调；

步骤(93)：将经双注意力机制调整后的特征图与解码器对应层的上采样特征图进行通道维度的拼接得到最终的输出特征图F”_w×h×c。

步骤(10)：利用训练集对M²AttentionNet模型进行训练，得到参数训练好的模型；利用测试集对训练好的模型进行检测，得到复杂交通场景下的道路可行驶区域；

进一步地，优选的技术方案可以是：步骤(10)在模型进行训练时，其具体参数设置为：训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化，并将其偏差初始化为0，利用随机梯度下降法对所有参数进行更新和优化；Batchsize参数设为64，初始学***翻转、亮度调节、随机噪声预处理方法对样本进行扩增。

步骤(11)：采集实际行驶中的实时交通场景数据，输入到训练好的M²AttentionNet模型中，得到不同行驶区域的推荐结果。

本发明为一种在M形深度架构下融合多尺度交互策略和双重注意力机制的可行驶区域推荐方法，针对边界模糊、路况多变的复杂道路，能够在复杂驾驶场景中基于视觉精细分割出道路的强推荐、弱推荐、不推荐行驶区域，以满足智能汽车在正常、应急等复杂行驶工况下对可行驶区域的不同检测需求。首先，在编码器-解码器的骨架基础上，构建倒金字塔式的多尺度分层输入和分层输出结构以有效融合道路的形态学特征与语义信息；其次，构建集成通道注意力和空间注意力的跳跃连接结构以实现不同行驶性区域的精确检测。该方法在多种真实驾驶场景下均能较好地实现强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域的精细分割。与现有其他主流模型相比，提出的模型兼顾了分割精度和时间效率，在复杂道路可行驶区域检测任务上有明显优势。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下技术特征及有益效果：

(1)本发明提出了一种融合多尺度交互策略和双重注意力机制的道路可行驶区域分割模型M²AttentionNet，能够将道路的真实驾驶场景图像精准分割为强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域，可应对窄道会车、应急避让等特殊行驶工况，有效适应不同道路的多变路况。

(2)本发明在编码器-解码器骨架上设计多尺度分层输入、双注意力跳接、多尺度分层输出三大结构，构建了M形的深度卷积神经网络架构，有效融合浅层特征与深层语义，平衡不同尺度上的模型预测偏倚，并使学***均交并比达到92.46％，平均检测速度达到22.7帧/秒，有效完成了复杂道路可行驶区域的精细化检测任务，同时具有较好的泛化性能。

综上所述，本发明提供了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，它利用卷积神经网络和双重注意力机制注重对特征提取的高效性和准确性，有效兼顾了准确性和实时性，解决了汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题，提高了道路可行驶区域的检测精度和时间效率。

附图说明

图1为本发明实施例提供的M²AttentionNet模型的M形架构示意图。

图2为本发明实施例提供的道路可行驶区域精细推荐示意图，图2中(a)为驾驶场景1的示意图，(b)为本发明提供的道路可行驶区域精细推荐示意图。

图3为本发明实施例提供的双注意力跳接模块示意图。

图4为本发明实施例提供的本发明方法检测结果和人工检测结果对比示意图，图4中(c)为输入图像(驾驶场景2的示意图)，(d)为人工检测结果图(提取结果图)，(e)为本发明方法检测结果图(提取结果图)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，现结合具体实施例，并参照附图，对本发明作进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

如图1所示，图1为本发明实施例提供的M²AttentionNet模型的M形架构示意图，所需实现的目标如图2所示，基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法具体包括如下步骤：

进一步地，所述步骤(1)中构建带标签的数据集的步骤如下：

步骤(101)：对已有的道路驾驶场景图像进行了标注合并与修改，使之符合强推荐、弱推荐、不推荐和背景4种类别的可行驶区域检测任务，此部分样本记为IDD_unst；

步骤(102)：利用全地形智能实验车，在匀速行驶中利用车载摄像头对封闭/半封闭园区的道路进行图像采集，并对其驾驶场景图像进行了相应标注，此部分样本记为Campus_unst；

步骤(3)：在模型编码器的输入端构建倒金字塔式的分层输入结构即构建多尺度分层输入结构，此多尺度分层输入结构在不同尺度层级上保留浅层特征，并将其与深层语义进行逐层融合；所述模型编码器输入端构建的多尺度分层输入结构的步骤如下：

步骤(8)：在模型输出端设计分层预测与分层损失的输出结构，该输出结构的具体步骤(或者说是所述模型解码器支路构建的多尺度分层输出的具体步骤)如下：

其中，I为输入图像，R^opt为真值，θ为网络参数，N为标签类别数目，此处N为4；在独热码模式下，对于类别k，Y_k ⁺和Y_k ^-分别是其真值中标记为正(1)和负(0)的像素集，x_k为预测值，γ为常数因子，ω为平衡因子。公式中，γ＝2(可以采用的数值)，ω＝0.55(可以采用的数值)，损失函数为聚焦损失。

步骤(83)：计算模型的总损失函数L为四个解码器层级损失l_s之和，L＝∑l_s。

步骤(9)：在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构，如图3所示，其具体步骤如下：

步骤(10)：利用训练集对M²AttentionNet模型进行训练，得到参数训练好的模型；利用测试集对训练好的模型进行检测，得到复杂交通场景下的道路可行驶区域。步骤(10)在模型进行训练时，其具体参数设置为：训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化，并将其偏差初始化为0，利用随机梯度下降法对所有参数进行更新和优化；Batchsize参数设为64，初始学***翻转、亮度调节、随机噪声预处理方法对样本进行扩增。

如图4所示，图4为本发明方法检测结果和人工检测结果对比示意图。

进一步地，本发明方法在公开数据集IDD和构建数据集URDD上进行了更广泛的检测和提取实验，包括结构化道路和非结构化道路的实验，并与2015-2021年间公开发表、业内公认一流的FCN模型、UNet模型、SegNet模型、PSPNet模型、DeeplabV3+模型、DANet模型、modified DeeplabV3+模型、Hierarchical Attention模型、HR-Net模型等9个代表性方法(上述模型皆为公知技术)，在相同条件下进行了定量的比较。比较采用2个像素级评估指标：各类别的交并比(IoU)和综合性的平均交并比(mIoU)，其定义见表1。其中，IoU是某一类别的模型检出区域(R_k)与其真值区域(R_k ^opt)的交叠率，即交集与并集的比值。mIoU是全类别的平均IoU指标。IoU和mIoU的值越高，代表模型的分割性能越强。

表1算法性能评估指标

表2为不同模型在URDD数据集上取得的精度与效率。所有可获取源码的方法与本发明方法均在同一工作站(NVIDIA GTX 3090GPU)上运行。可见，本发明方法92.46％的mIoU分数为同类算法中最优。同时，得益于多尺度分层输入、双注意力跳接、多尺度分层输出的轻量化结构，本发明方法在采用多尺度交互和双重注意力的情况下每秒依然能够处理22.7帧图像，算法效率可以满足实时性要求。

表2

模型	图像尺寸	mIoU	速度/(帧·s-1)
				FCN	640×360	67.76％	5.8
UNet	640×360	78.23％	37.1
				SegNet	640×360	68.34％	15.2
PSPNet	640×360	85.40％	3.4
				DeepLabV3+	640×360	85.90％	2.4
DANet	640×360	84.58％	8.1
				modified DeepLabV3+	512×512	86.75％	12.6
Hierarchical Attention	640×360	88.19％	15.3
				HR-Net	640×360	86.56％	16.2
本发明方法	640×360	92.46％	22.7

进一步，为验证本发明方法在多种行驶场景的泛化性能，基于已在URDD数据集完成训练的模型，本发明方法还分别在行车记录仪的新采集数据(含非结构化道路和结构化道路两种场景)以及公开场景KITTI数据集中的语义分割集进行了不经训练、直接测试的分割实验。本发明方法能够对结构化道路场景和非结构化道路场景同时进行较为有效的可行驶区域推荐，在不同场景下的多个实车采集样本数据集上综合mIoU分数平均达到83.94％，证明模型具有较好的泛化性能。

表3

实验结果证明了本发明方法在高检测精度、高泛化性能的同时也具备高时间效率，有效解决了不同道路场景下可行驶区域检测这一难题。

综上所述，本发明提供了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，它利用卷积神经网络和双重注意力机制注重对特征提取的高效性和准确性，解决了汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题，提高了道路可行驶区域的检测精度和时间效率。本发明有效兼顾了准确性和实时性，在不同真实场景下均能取得良好的精细检测效果，平均交并比达到92.46％，平均检测速度达到22.7帧/秒，有效完成了复杂道路可行驶区域的精细化检测任务，同时具有较好的泛化性能。

Claims

1.一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于它包括如下步骤：

步骤(2)：以U形编码器-解码器结构为基础，通过增加多尺度分层输入、双注意力跳接、多尺度分层输出三大结构，构建一个M形编码器-解码器网络即M²AttentionNet模型；

步骤(4)：在M²AttentionNet编码器支路构建四个层级，利用3×3Conv、BN以及ReLU的组合操作在每一层均进行连续两次特征提取；

步骤(5)：保持同一层级的分辨率不变，层间使用2×2最大池化进行下采样；

步骤(6)：对于解码器支路，每一层使用参数相同的Conv-BN-ReLU组合进行连续两次特征提取，层间进行最近邻插值的2×2上采样；

步骤(7)：利用1×1Conv、BN和Softmax激活在解码器支路最终端进行四元分类，生成与输入图像等尺度的预测结果，4个类别分别对应驾驶场景中的强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域；

步骤(9)：在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构；

步骤(10)：利用训练集对M²AttentionNet模型进行训练，得到参数训练好的模型；利用测试集对训练好的模型进行检测，得到交通场景下的道路可行驶区域；

2.根据权利要求1所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，所述步骤(3)中模型编码器输入端构建的多尺度分层输入结构的具体步骤为：

3.根据权利要求1或2所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，所述步骤(8)中在模型输出端设计分层预测与分层损失的输出结构的具体步骤为：

步骤(81)：在解码器支路的每一层均通过上采样和卷积组合，包括1×1Conv、BN和Softmax激活，输出对应的可行驶区域预测图R_s，层序s＝1,2,3,4，并将所有层的预测图合并为最终的可行驶区域预测结果；

4.根据权利要求3所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，所述步骤(8)中在模型输出端设计分层预测与分层损失的公式中，γ＝2，ω＝0.55，损失函数为聚焦损失。

5.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，所述步骤(9)中设计的双注意力跳接结构，其具体步骤为：

6.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，步骤(10)在模型进行训练时，其具体参数设置为：训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化，并将其偏差初始化为0，利用随机梯度下降法对所有参数进行更新和优化；Batchsize参数设为64，初始学习率为1e-4，动量为0.9，每迭代一次递减1e-6；为防止模型过拟合，输入层使用比率为0.1的dropout，输出层使用比率为0.4的dropout，同时采用提前停止策略，当监测到验证集误差在20次迭代循环内不再下降时提前停止训练。

7.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法，其特征在于，步骤(10)在模型进行训练时采用十折交叉验证法，并使用水平翻转、亮度调节、随机噪声预处理方法对样本进行扩增。