CN111950467A

CN111950467A - 基于注意力机制的融合网络车道线检测方法及终端设备

Info

Publication number: CN111950467A
Application number: CN202010817467.0A
Authority: CN
Inventors: 张新钰; 李志伟; 李骏; 宫彦; 高鑫; 刘华平
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-17
Anticipated expiration: 2040-08-14
Also published as: CN111950467B; US11222217B1

Abstract

本发明公开了基于注意力机制的融合网络车道线检测方法及终端设备，所述方法包括：同步采集路面的自然图像和点云数据；将自然图像和点云数据输入预先建立和训练好的融合网络，输出车道检测结果；所述融合网络采用加入时序帧和注意力机制对点云数据和自然图像进行信息融合处理。本发明使用连续帧来提高检测网络性能，以应对标记丢失、车辆遮挡等复杂情况；通过Skip Connection将低维度特征与高维度特征进行拼接，以弥补随着网络深度增加而不断丢失的图像细节信息，利用Decoder还原图像得到最终结果；该融合网络大大提高了车道线的检测性能，并可在各种复杂环境进行检测。

Description

基于注意力机制的融合网络车道线检测方法及终端设备

技术领域

本发明属于计算机视觉技术领域，具体涉及基于注意力机制的融合网络车道线检测方法及终端设备。

背景技术

车道线检测方法主要应用于自动驾驶领域，对车道线进行识别可确定车辆与当前车道的位置关系，进而判断实现以下功能：(1)车道偏移预警，(2)车道保持辅助，(3)车道居中辅助，(4)自动变道辅助。驾驶员辅助***正是通过车道线检测结果为自动驾驶控制模块提供决策依据，车道线检测结果将在很大程度上决定驾驶员辅助***的性能。

目前，车道线检测已成为国内外学者研究和应用的热点，提出了较多的检测方法。由于深度学习的快速发展，且现在广泛用于各个领域，已取得较大突破。深度学习模型不依赖于人工提取特征，模型有着较高的鲁棒性和较好的检测性能，故当前基于深度学习的车道线检测方法成为主流。

近几年，许多学者针对单一图像已提出许多复杂的车道线检测方法，但由于单一图像本身的局限性，导致在恶劣的情况下，如：重影、标记退化、遮挡等，检测方法表现较差。

随着传感器的迅速发展，各种传感器的性能更加优越、价格更加低廉，使得多传感器信息融合成为可能。常见的传感器为可见光成像***和激光雷达成像***，可见光成像***在低光照、浓雾等条件下将导致图像信息缺失，而激光雷达可以克服上述难题，但点云的稀疏性导致其检测能力非常有限，故通过多传感器融合的方法可以提高车道线检测方法的性能。

注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都会见到注意力模型的身影。注意力模型更加关注目标的细节信息，而抑制其他无用信息。

采用融合信息，更多的信息则需要更多的计算资源和时间，若没有合适的融合方法，更多信息可能导致数据的冗余、重叠，进而导致网络性能退化。“如何融合”才能更好的使用多传感器融合信息，以提高融合网络的性能，这将是融合网络需要考虑的重点。融合信息相比于单一信息有着较大的不同，但现有的注意力模型大多是自然图像特征图输入，很难在点云数据和自然图像数据的融合信息上有着较好的表现。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种基于注意力机制的融合网络车道线检测方法，该方法能够提高车道线检测的性能。

为实现上述目的，本发明提出了一种基于注意力机制的融合网络车道线检测方法，所述方法包括：

同步采集路面的自然图像和点云数据；

将自然图像和点云数据输入预先建立和训练好的融合网络，输出车道检测结果；所述融合网络采用加入时序帧和注意力机制对点云数据和自然图像进行信息融合处理。

作为上述方法的一种改进，所述融合网络包括：融合模块、Encoder模块、ConvLSTM模块和Decoder模块；

所述融合模块，用于通过嵌入注意力模型对点云数据和自然图像数据进行跨通道融合，输出融合的特征图至Encoder模块；

所述Encoder模块，用于提取融合模块生成特征图的特征，输出至ConvLSTM模块；

所述ConvLSTM模块，用于使用嵌入了卷积神经网络的长短期记忆网络对Encoder模块输出的特征进行处理，输出处理后的特征至Decoder模块；

所述Decoder模块，用于通过使用上采样恢复结果图的尺寸和分辨率，并通过SkipConnection将底层特征与高层特征进行融合。

作为上述方法的一种改进，所述融合模块包括：点云分支、图像分支和拼接单元；点云分支包括：点云卷积层、点云全局平均池化层、点云融合单元、点云sigmoid函数和点云Hadamard乘积单元；图像分支包括：图像卷积层、图像全局平均池化层、图像融合单元、图像sigmoid函数和图像Hadamard乘积单元；

点云卷积层，用于保持图片尺寸不变，输出特征图R0；图片尺寸为W*H，其中W为横向尺寸，H为纵向尺寸；特征图R0包括C个通道；

点云全局平均池化层，用于分别对特征图R0的C个通道相加求平均，输出点云数据的平均特征图，平均特征图的尺寸为1*1；

点云融合单元，用于将点云全局平均池化层输出的特征图，与图像全局平均池化层输出的同位置同层次的特征图进行融合，生成融合特征图FRP1；

点云sigmoid函数，用于将生成的融合特征图FRP1输入Sigmoid激励函数生成特征图SFRP1；

点云Hadamard乘积单元，用于将特征图SFRP1的尺寸转换为W*H，然后和特征图R0做Hadamard乘积，输出特征图feature map1；

图像卷积层，用于保持图片尺寸不变，输出C个特征图P0；图片尺寸为W*H，特征图P0包括C个通道；

图像全局平均池化层，用于分别对特征图P0的C个通道相加求平均，输出图像数据的平均特征图，平均特征图的尺寸大小为1*1；

图像融合单元，用于将图像全局平均池化层输出的C个特征图，与图像全局平均池化层输出的同位置同层次的特征图进行融合，生成融合特征图FRP2；

图像sigmoid函数，用于将生成的融合特征图FRP2通过Sigmoid激励函数生成特征图SFRP2；

图像Hadamard乘积单元，用于特征图SFRP2的尺寸转换为W*H，然后和特征图R0做Hadamard乘积，输出特征图feature map2；

拼接单元，用于将feature map1和feature map2做特征图通道拼接，形成尺寸大小为WxHx2C的特征图，并作为Encoder模块的输入。

作为上述方法的一种改进，所述点云融合单元的具体处理过程为：

点云融合特征图的第i个通道分别提取点云全局平均池化层输出的第i到第i+k个通道的特征图，以及图像全局平均池化层输出的第i到第i+k个通道的特征图，进行融合计算，得到点云融合特征图的第i个通道的特征图：

其中，y_r为图像全局平均池化层输出的特征图，包括C个通道，其结构为首尾相接的环形，

表示第i+j个通道的特征图；y_p为图像全局平均池化层输出的特征图，包括C个通道，其结构为首尾相接的环形；

表示第i+j个通道的特征图；

表示自然图像的第j个通道权重，

表示点云数据第j个通道权重，i表示特征图通道，i∈[1,C]，j表示第j个邻近通道，j∈[1,k]。

作为上述方法的一种改进，Encoder模块包括三个相同结构的依次连接的卷积层：第一卷积层、第二卷积层和第三卷积层；每个卷积层包括：大小为3且步长为2的卷积核、批归一化、激活层、大小为3且步长为1的卷积核、批归一化和激活层、在Encoder部分参考Unet网络，设计多个卷积核大小为3，步长为2的卷积层；

Decoder模块包括三个相同结构的依次连接的卷积层：第四卷积层、第五卷积层和第六卷积层；每个卷积层包括：大小为3且步长为1的卷积核、批归一化、激活层、大小为3且步长为1的卷积核、批归一化、激活层和上采样层；

通过Skip Connection将第三卷积层的特征引入第四卷积层；通过SkipConnection将第二卷积层的特征引入第五卷积层；通过Skip Connection将第一卷积层的特征引入第六卷积层。

作为上述方法的一种改进，所述ConvLSTM模块包括：ConvLSTM网络和存储单元，ConvLSTM网络为嵌入了卷积神经网络的长短期记忆网络；

ConvLSTM网络的输入端加入软注意力机制，如下所示：

Z_t＝W_z tanh(W_xaX_t+W_haH_t-1+b_a) (5)

其中，X_t表示在t时刻ConvLSTM网络的输入，H_t-1表示在第t-1时刻的隐藏状态，W_z，W_xa和W_ha均表示2-D卷积核，b_a表示偏置项；Z_t表示为生成的二维矩阵；

表示矩阵Z_t中第i行第j列的值，

表示二维得分表的第i行第j列的值，A_t表示二维得分表；X_t'表示通过注意力机制的t时刻ConvLSTM网络的新输入，exp表示指数函数；tanh(·)表示双曲正切非线性；

表示Hadamard乘积；

ConvLSTM网络的输出端加入软注意力机制，重建输出门如下：

V_t＝W_o*tanh(W_xo*X_t+W_ho*H_t-1+b_o) (8)

其中，o_t表示输出门状态；W_xo，W_ho，W_o均表示2-D卷积核，b_o表示偏置项，V_t表示卷积操作后生成的二维矩阵，

表示矩阵V_t中第i行第j列的值；“*”表示卷积运算；

则ConvLSTM网络在t时刻的激活表示为：

其中，C_t，H_t和C_t-1，H_t-1分别表示在时间t和t-1的单元状态和隐藏状态；i_t，f_t和G_t分别表示输入门状态，忘记门状态和候选数据存储单元；W_xi、W_hi、W_xf、W_hf、W_xc和W_hc均表示2-D卷积核，b_i，b_f和b_c分别是输入门的偏置、忘记门的偏置和候选数据存储单元的偏置；σ(·)表示Sigmoid操作；

所述存储单元，用于存储最近5帧的场景的特征图。

作为上述方法的一种改进，所述方法还包括：对融合网络进行训练的步骤；具体包括：

建立包含自然图像和点云数据的数据集；

对数据集进行预处理，包括：使用尺度变化、随机抠图、色彩变化和添加噪声对自然图像的数据集进行扩充，然后进行数据清洗；对点云数据的数据集中的点云图像进行补全；

对预处理后的数据集进行标注；

利用标注的数据集对融合网络的参数进行训练，得到训练好的融合网络。

本发明还提供了一种终端设备，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明的优势在于：

1、本发明使用连续帧来提高检测网络性能，以应对标记丢失、车辆遮挡等复杂情况；最后通过Skip Connection将低维度特征与高维度特征进行拼接，以弥补随着网络深度增加而不断丢失的图像细节信息，利用Decoder还原图像得到最终结果；该融合网络大大提高了车道线的检测性能，并可在各种复杂环境进行检测，如：标记丢失、恶劣天气、遮挡等情况，具有较高的鲁棒性和稳定性；

2、本发明的融合网络中，通过嵌入注意力模型辅助点云数据和自然图像数据进行跨通道融合，能够提高对小目标的检测性能，更好地关注车道线；

3、本发明的融合网络的层数较少，可在实现高精度的车道线检测任务中仍保持较快的检测速度。

附图说明

图1为本发明实施例1提供的基于注意力机制的融合网络车道线检测方法的流程图；

图2为本发明实施例1提供的融合网络设计结构；

图3为本发明实施例1提供的融合模块结构图；

图4为本发明实施例1提供的Encoder和Decoder的卷积层的结构示意图；

图5为本发明实施例1提供的RNN结构图；

图6为本发明实施例1提供的LSTM结构图；

图7为本发明实施例1提供的加入注意力机制的ConvLSTM细节实现图；

图8为本发明实施例1提供的ConvLSTM数据存储示例图；

图9为未加入通道注意力机制和加入通道注意力机制融合网络的一个检测结果对比图；

图10为未加入通道注意力机制和加入通道注意力机制融合网络的另一个检测结果对比图；

图11为本发明提供的道路图像；

图12为本发明提供的融合网络检测的结果图；

图13为本发明的实施例3提供的终端设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例以及相应的附图对本申请技术方案进行清楚、完整地描述。应当理解，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其次，此处所称的“一个实施例”或“实施例”是指可以包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

在车道线检测任务中，大多都是小目标，注意力模型不仅可以给予较好的融合思想，还提高对小目标的关注程度，抑制无用信息，大大提高融合网络的性能；故本发明考虑结合注意力机制搭建新的融合模型以促进点云数据和自然数据的融合，加强跨通道信息交互。此外，本发明还改进ConvLSTM，在其输入端和输出门中加入空间注意力模型，以增加其对时序数据和空间特征的学习能力，更好地通过先前场景对当前场景的车道线预测给予帮助，并大大降低ConvLSMT的参数量，易于模型学习和收敛，加快运行速度。

如图1所示，本发明的实施例1提出一种基于注意力机制的融合网络车道线检测方法，详细步骤如下：

S1：收集同一场景下的自然图像数据集和点云数据集

深度学习模型对数据集有着较大的依赖，采用基于端到端的深度学习模型固然有着诸多的好处，但其也需要更加庞大的数据集和更强的计算资源。因此，我们首先对具有同一场景的自然图像数据集和点云数据集进行收集。由于收集的数据集往往比摄像头直接得到的数据集更清晰，噪点更少，若将融合网络用于工程实验，还需要再次收集数据集，以便于融合网络在该数据集上进行微调。

目前，我们已经收集到的数据集为KITTI和AUDI，它们均有较高质量的数据，但其与实际摄像头拍摄的内容略有不同，取决于车辆所载的摄像头类型以及位置。我们获取的车道线数据集是通过安装在行驶车辆上的可见光摄像头和激光雷达实时采集的，需要指出的是，两种传感器需要同步采集，并减少采集同一场景的误差。融合网络的性能很大程度取决于数据集的质量，故我们的采集样本可见光图像和激光雷达点云需要可以较直观地分辨出车道线。

S2：对收集的数据进行预处理，提高数据质量

为了提高数据集的质量，对图像进行了预处理，包括数据扩充、数据清洗、数据审核等方法。在数据扩充方面，我们使用了尺度变化、随机抠图、色彩变化、添加噪声等的方法对数据的数据集进行了扩充。在尺度变化方面，我们将图像变成(256，128)直至(512，256)，宽度每次增加32像素，高度每次增加16像素，以增加数据集，并使网络可以适应不同尺寸的图片输入。在随机抠图方面，我们尽可能扣取中间部分的图片，使得扣取后的图片仍然含有较多的车道线。在色彩变化方面，我们通过调节色调、饱和度进行数据增强。图像噪声是图像在获取或传输过程中受到随机信号的干扰，在图像上出现一些干扰信息，在这里，我们通过添加高斯噪声和椒盐噪声扩充数据集。

在数据清洗方面，针对数据的不完整性以及不准确性，针对有问题的“脏数据”，对其进行数据清洗。对于不完整数据和异常数据，进行了数据剔除，达到清理的目的。在数据集划分方面：对于车道线检测模型，我们将数据集分别按8：1：1划分为训练集、测试集、验证集，以减轻过拟合现象。

点云数据区别于常见的图像数据，其通过扫描生成数据，考虑到激光发射器发射出的光束未返回或已超出阈值，故采集的点云数据较为稀疏。为了提高融合网络的表现性能，我们使用了点云图像的补全方法，

通过观察发现车采集的车道线数据一般位于图片的下半部分，可能是由于车载摄像头的装载位置，摄像头一般位于车的正前方，拍摄路面和路面上方的信息。我们通过对图片进行裁剪，以增加车道线的显示比重，通过适当增加正样本的方式来提高融合网络性能。

S3：对收集的数据集进行标注

在车道线检测任务中，融合网络基于监督学习进行，故需对收集到的数据集进行车道线标定。我们对可见光图像进行了数据标定，将图像中的明显的车道线标记出来，在车辆遮挡、不清晰等情况下的车道线未进行标定。

在实际的使用，我们通常搭载于车上进行实时检测，通过之前场景的道路情况进而对现在的场景给予帮助。因此，我们使用的数据集要求有时序特征，我们通过车载摄像头和激光雷达采取了较长的视频，并对视频进行抽帧以生成具有时序信号的图片。考虑到标注的成本，我们一共标记了1000多个序列，每个序列包括5张图片，每个序列的最后一张图片进行标注。

S4：融合网络的设计与实现

针对具有时序信号的点云和自然图像和融合数据进行车道线检测，我们设计了如图2所示的融合网络架构，主要包括：融合模块，Encoder模块、ConvLSTM模块、和Decoder模块。所述融合模块，用于更好地融合点云数据和自然图像数据，通过嵌入注意力模型辅助点云数据和自然图像数据进行跨通道融合，以提高对小目标的检测性能，更好地关注车道线。所述Encoder模块，用于融合模块生成的特征图的特征提取，通过多个步长为2的卷积层进行实现。所述ConvLSTM模块，用于使用连续的驾驶场景来检测车道线，通过使用先前帧的场景对当前场景的检测进行有效的帮助，故我们采用了连续帧以增加车道线网络的检测性能，克服使用单帧场景导致的重阴影、遮挡等问题。所述Decoder模块，用于恢复结果图的尺寸和分辨率，通过使用上采样进行实现，并通过Skip Connection将底层特征与高层特征进行融合，网络能够保留更多高层特征图蕴含的高分辨率细节信息，从而大大提高了车道线的检测性能。

(1)融合模块

为了更好的融合点云数据和自然图像数据，我们提出了融合模块，在融合模块中嵌入注意力模型，可以更好地对车道线进行关注，在较多的融合信息中产生关注焦点，抑制无用信息，提高性能并加快网络速度。融合模块采用了点云和自然图像的跨通道融合，加大融合信息的交互，可以更好地利用融合信息，其对小目标的检测性能有着较大的提高，更有利于车道线检测。在很大程度上增强了融合信息，并更好的改变通道权重，产生注意力焦点，提高车道线检测网络的性能。

每经过一个卷积核都会产生一个新的特征图，卷积核的个数将决定经过卷积产生多少特征图，为方便后续的叙述，我们将卷积层中卷积核的个数称为通道数。

融合模块结构如图3所示，对于自然图像数据和点云数据，我们采用了双分支融合结构进行通道权重更新。首先，双分支分别通过卷积层Conv0，图片尺寸大小不变，设为WxH，通道数变为C，生成特征图分别为R0和P0，尺寸大小为WxHxC，再通过全局平均池化(GAP)将每个通道的特征图相加求平均，得到各自通道的平均特征图，此时，特征图的尺寸大小为1x1xC。融合特征图FRP1和FRP2的计算需要用到另一分支同位置同层次的特征图，两个分支经过GAP后的特征图再通过一维卷积Conv1d生成融合特征图，分别为FRP1和FPR2，其尺寸大小仍为1x1xC。将生成的融合特征图FRP1和FRP2通过Sigmoid激励函数，生成SFRP1和SFRP2，其尺寸大小仍为1x1xC。为减少细节特征的丢失，将R0和P0的特征图分别与SFRP1和SFRP2的特征图做Hadamard乘积，得到feature map1和feature map2，需要指出的是，SFRP1和SFRP2需变为和R0和P0相同尺寸的特征图，将1x1扩展到WxH，其中所有的值都相同。最后将feature map1和feature map2做特征图通道拼接，即：特征图尺寸大小变为WxHx2C，并作为Encoder阶段的输入。

生成SFRP1和SFRP2的具体过程如下，第一个分支和第二个分支经过GAP的特征图大小都为1x1xC，当自适应卷积核大小为k(本实施例中取值为5)，第一个分支的融合特征图的第一个通道需要共同提取两个分支的第1到第k个通道进行计算，第二个通道需要共同提取两个分支的第2到第(k+1)个通道进行计算，第二个分支以及其它通道的权重计算类似上述规则。通过上述操作，可生成融合特征图FRP1和FRP2，再通过Sigmoid函数，可实现对通道权重的更新。通道权重更新的详细计算过程如下式所示：

其中，m表示融合特征图，m为1表示FRP1，m为2表示FRP2，i表示特征图通道，i∈[1,C]，j表示第j个邻近通道，j∈[1,k]，y_r表示自然图像通道，y_p表示点云数据通道，k表示附近通道的个数，σ表示sigmoid函数，w_r表示自然图像通道权重，w_p表示点云数据通道权重，w_mi表示融合特征图的第i个通道的权重。通过(1)式，y_i的权重仅考虑y_i和k个邻近通道之间的相互关系来计算，将更新y_i的通道权重为新的权重w_i。应注意到，双分支的第i通道的权重的计算都与双分支的邻近通道有关，相比于原始的通道注意力模型，扩大了融合信息的交互，将更充分利用自然图像数据和点云数据的优越性。

融合模型采用了点云和自然图像的跨通道融合，其对小目标的检测性能有着较大的提高，更有利于车道线检测。由于采用了点云数据和自然图像，网络结构采用了双分支，故需要较大的计算资源和存储空间。最后，通过注意力模型的输出与输入做元素相乘，进而得到整个通道注意力模型的输出结果。

通过不降维的局部跨通道交互的通道注意力模型，融合网络的性能得到了较大的提高，对车道线的检测更加准确，并且该融合模型是复杂度和性能的折中，参数少，十分轻便。

(2)Encoder-Decoder结构

Encoder-Decoder结构是深度学习中非常常见的一种框架，在自然语言处理(NLP)、无监督学习、语义分割等场景下都有较为广泛的应用。Encoder和Decoder部分可以是任意的文字、语音、图像、视频等数据，模型可以采用CNN、RNN、LSTM等，所以基于Encoder-Decoder结构，可以设计出各种各样的应用算法。在本申请中，我们采用双层卷积层作为基本网络模型的基本单元，并在Encoder部分添加通道注意力机制以改变不同输入对中间语义的影响因子，在Encoder、Decoder部分之间添加ConvLSTM模块。Encoder-Decoder详细实现如图4所示。

Encoder模块主要由卷积层(conv)、批归一化(BN)、激活层(ReLu)、注意力模型(attention)构成。在Encoder部分参考Unet网络，设计多个卷积核大小为3，步长为2的卷积层，通过步长为2的卷积层实现下采样的功能。在Encoder的前向传播中，每通过一层卷积层，图像的大小降低一半，通道数增加一倍，以减少信息的丢失。通过多个较小的卷积核提取特征和下采样以生成中间语义，再通过Decoder进行信息恢复。

Decoder模块主要由卷积层(conv)、批归一化(BN)、激活层(ReLu)、上采样层(UpSampling)构成。在Decoder部分，同样通过卷积核大小为3的卷积层，再通过上采样层恢复图像尺寸。需要指出的是，BN层总是跟在Conv层后面，以加快训练速度，提高网络的泛化能力。

对于车道线检测任务来说，空间域信息十分重要。Encoder部分利用步长为2的卷积层进行下采样，已经把特征图的分辨率降的非常小，不利用精确的车道线检测。通过SkipConnection可以把较浅的卷积层特征引过来，那些特征图分辨率较高，且层数浅，会含有比较丰富的low-level信息，更利于车道线检测。通过底层特征与高层特征的融合，网络能够保留更多高层特征图蕴含的高分辨率细节信息，从而提高了图像分割精度。

随着网络越来越深，相应特征图越来越小，感受也会越来越大，但是保留的细节信息会越来越少，而对于语义分割任务，低层卷积所保留的丰富的细节信息是非常有利用价值的，因为我们通过Skip Connection进行低维度和高维度特征的融合以提高车道线检测性能。此外，这种连接可以有效减少梯度消失和网络退化问题，使得训练更容易进行。

(3)ConvLSTM模块

常见的车道线是实线或虚线结构，单张图片的车道线检测模型在重阴影、严重的标记退化、严重的车辆遮挡下表现较差，其主要原因在于单张图片信息不足，故考虑使用连续驾驶场景来检测车道线，希望使用先前帧的场景对当前场景进行有用的帮助，故我们采用了连续帧以增加车道线网络的检测性能。结合卷积操作的LSTM网络对时序信息预测非常有效，并在语义分割框架中显著提高检测性能。我们还改进ConvLSTM，在其输入端和输出门中加入不同类型的注意力模型，以增加其对时序数据的学习能力，更好地通过先前场景对当前场景的车道线预测给予帮助，并大大降低ConvLSMT的参数量，易于模型学习和收敛，加快网络运行速度。此外，我们在ConvLSTM上添加存储模块，使其可以保留最近5帧的场景，以减少重复计算，提高车道线检测速度。

循环神经网络(RNN)是一种用于处理序列数据的神经网络，与以往的神经元相比包含了一个反馈输入的，按时间变化展开如图5所示，可用下式表示：

h',y＝f(h,x) (2)

其中，f表示要学习的映射函数，h表示上一节点的输入，x表示当前节点数据的输入，y表示当前节点数据的输出，h’表示传递到下一节点的输出。上一时刻神经元的信息会与下一时刻神经元相连，即：后面的神经元可以参考前面神经元的“历史信息”，进而高效地处理时序特征。

长短期记忆网络(LSTM)是一种特殊的RNN，主要为了解决长序列训练过程中的梯度消失和梯度***问题。相对比普通的RNN，LSTM能在更长的序列中有着更多的表现，减缓随着网络层数增加而导致的时序特征丢失问题。LSTM的结构如图6所示，相比于RNN只有一个传递状态h^t，LSTM包含两个传递状态，一个为C^t(cellstate)，一个为H^t(hidden state)，其中传递下去的C^t改变很慢，而H^t则在不同节点下有着较大的区别。LSTM使用当前输入X^t和上一个状态传递下来的H^t-1拼接训练得到四个状态，如下式所示：

其中，w，wⁱ，w^f，w^o表示权重矩阵，[a,b]表示将a、b进行拼接，tanh表示激活函数，σ表示sigmoid激活函数，G_t，i_t，f_t，o_t表示输入数据和三个门控状态(记忆门、忘记门、输出门)。通过上述的门控状态，可计算当前节点的C^t、H^t、y^t，下式为具体的计算过程：

其中，⊙表示操作矩阵元素相乘，⊕表示矩阵加法。

LSTM包括三个阶段，忘记阶段：主要对上一个节点传入的信息进行选择性忘记，具体是通过f_t来控制忘记门控；记忆阶段：主要是对这个节点的输入有选择性的进行“记忆“，具体是通过i_t来控制记忆门控；输出阶段：主要是决定哪些信息作为当前状态的输出，具体是通过o_t来控制输出门控。

LSTM在时序数据上有着非常好的表现，常见是有着上下文联系的文本信息，但如果时序数据是图像，则需要在LSTM上加入卷积操作，这样将提取出更有效的时序特征和空间特征，即为ConvLSTM。

ConvLSTM对时间动态的反馈机制和图像表示的抽象能力，被广泛用于视频分析。通过DCNN将每帧图像抽象为低维特征图，ConvLSTM将每个特征图作为时间线上的全连接层并递归检测车道。ConvLSTM对时序信息预测非常有效，并在语义分割框架中显著提高检测性能。

ConvLSTM三个门控不会促进时空特征融合，并且其中的卷积结构较为冗余，ConvLSTM有着大量的参数，学习成本高，需要耗费大量的计算资源和时间。我们考虑借助空间域中的不同门控值来关注空间区域，故对ConvLSTM进行改进。我们尝试在ConvLSTM的输入端和输出门加入空间注意力机制，进而加强对感兴趣通道的关注。

ConvLSTM网络的输入端加入软注意力机制，如下所示：

Z_t＝W_z tanh(W_xaX_t+W_haH_t-1+b_a) (5)

表示矩阵Z_t中第i行第j列的值，

表示Hadamard乘积；

ConvLSTM网络的输出端加入软注意力机制，重建输出门如下：

V_t＝W_o*tanh(W_xo*X_t+W_ho*H_t-1+b_o) (8)

表示矩阵V_t中第i行第j列的值；“*”表示卷积运算；

则ConvLSTM网络在t时刻的激活表示为：

其中，C_t，H_t和C_t-1，H_t-1分别表示在时间t和t-1的单元状态和隐藏状态；i_t，f_t和G_t分别表示输入门状态，忘记门状态和候选数据存储单元；W_xi、W_hi、W_xf、W_hf、W_xc和W_hc均表示2-D卷积核，b_i，b_f和b_c分别是输入门的偏置、忘记门的偏置和候选数据存储单元的偏置；σ(·)表示Sigmoid操作。其详细计算过程如图7所示。

考虑到在实际的工程实验中，需要实时检测车道线，当前场景与前5帧的场景有关，但每次都计算前5帧场景的特征图会存在重复计算的现象，将浪费大量的计算资源，并在很大程度上减慢算法的速度，如：计算第6帧的场景需用到1，2，3，4，5帧的场景，但在第7帧又需要用到2，3，4，5，6帧的场景，其中有一些场景是重复计算，存在浪费计算资源，降低计算速度的现象。而车道线检测对实时性的要求较高，所以我们对ConvLSTM结构进行改进。

我们在ConvLSTM结构上增加了另一个随时序变化的存储单元，每次可存储最近5帧的场景的特征图，以便于当前场景使用时，可快速地调用所需特征图。如图8所示，类似流水线进行工作，每次仅需要计算当前场景的特征图，将大大加快车道线的检测速度。

S5：使用融合网络进行车道线检测

在融合网络的输入中，我们采用具有时序信号的补全点云数据和自然图像输入到融合结构，通过精心设计的融合结构以加强信息交互，进而输出到Encoder结构。实验证明，加入融合模块对车道线检测有着更好的性能改进，如图9和图10所示为融合网络的最后两层的特征图，左图为未加入融合模块的检测结果，右图为融合网络的检测结果。通过对左右两图的对比，我们可以清晰看到，随着融合模块的加入，特征图的细节特征更加明显，并且车道线附近的噪点更少，更易于检测车道线。

在Encoder部分通过多个基本单元为3x3的双层卷积层，且第一个卷积层步长为2，以实现下采样，Encoder部分的特征图将再次输入到ConvLSTM网络。

通过ConvLSTM网络，使用连续帧来提高检测网络性能，以应对标记丢失、车辆遮挡等复杂情况。最后通过Skip Connection将低维度特征与高维度特征进行拼接，以弥补随着网络深度增加而不断丢失的图像细节信息，并容易训练网络，利用Decoder模块还原图像尺寸得到最终结果。为方便观察，图11为道路图，而图12是图11的检测结果，可以看出检测结果良好。

本发明通过对融合模块对点云和图像进行信息融合，并加入时序帧和空间注意力机制，使得车道线检测更加高效、准确，在自动驾驶领域中，车道线检测任务尤为重要，该方法将有着更广泛的利用，同时，该方法也为其它领域给予一定参考价值。

实施例2

本发明的实施例2公开一种基于注意力机制的融合网络车道线检测***，包括：

数据采集模块，用于同步采集路面的自然图像和点云数据；

车道监测模块，用于将自然图像和点云数据输入预先建立和训练好的融合网络，输出车道检测结果；所述融合网络采用加入时序帧和注意力机制对点云数据和自然图像进行信息融合处理。

实施例3

如图13所示，本发明的实施例3提供的一种终端设备，包括：至少一个处理器301、存储器302、至少一个网络接口303和用户接口304。各个组件通过总线***305耦合在一起。可理解，总线***305用于实现这些组件之间的连接通信。总线***305除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线***305。

其中，用户接口304可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(track ball)、触感板或者触摸屏等。

可以理解，本公开实施例中的存储器302可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器302存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作***3021和应用程序3022。

其中，操作***3021，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序3022中。

在本公开实施例中，通过调用存储器302存储的程序或指令，具体的，可以是应用程序3022中存储的程序或指令，处理器301用于：

执行实施例1的方法的步骤。

实施例1的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302，处理器301读取存储器302中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

实施例4

本发明实施例4提供一种非易失性存储介质，用于存储计算机程序。当该计算机程序被处理器执行时可以实现实施例1中方法的各个步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于注意力机制的融合网络车道线检测方法，所述方法包括：

同步采集路面的自然图像和点云数据；

2.根据权利要求1所述的基于注意力机制的融合网络车道线检测方法，其特征在于，所述融合网络包括：融合模块、Encoder模块、ConvLSTM模块和Decoder模块；

3.根据权利要求1所述的基于注意力机制的融合网络车道线检测方法，其特征在于，所述融合模块包括：点云分支、图像分支和拼接单元；点云分支包括：点云卷积层、点云全局平均池化层、点云融合单元、点云sigmoid函数和点云Hadamard乘积单元；图像分支包括：图像卷积层、图像全局平均池化层、图像融合单元、图像sigmoid函数和图像Hadamard乘积单元；

4.根据权利要求3所述的基于注意力机制的融合网络车道线检测方法，其特征在于，所述点云融合单元的具体处理过程为：

表示第i+j个通道的特征图；

表示自然图像的第j个通道权重，

5.根据权利要求4所述的基于注意力机制的融合网络车道线检测方法，其特征在于，Encoder模块包括三个相同结构的依次连接的卷积层：第一卷积层、第二卷积层和第三卷积层；每个卷积层包括：大小为3且步长为2的卷积核、批归一化、激活层、大小为3且步长为1的卷积核、批归一化和激活层、在Encoder部分参考Unet网络，设计多个卷积核大小为3，步长为2的卷积层；

通过Skip Connection将第三卷积层的特征引入第四卷积层；通过Skip Connection将第二卷积层的特征引入第五卷积层；通过Skip Connection将第一卷积层的特征引入第六卷积层。

6.根据权利要求5所述的基于注意力机制的融合网络车道线检测方法，其特征在于，所述ConvLSTM模块包括：ConvLSTM网络和存储单元，ConvLSTM网络为嵌入了卷积神经网络的长短期记忆网络；

ConvLSTM网络的输入端加入软注意力机制，如下所示：

Z_t＝W_ztanh(W_xaX_t+W_haH_t-1+b_a) (5)

表示矩阵Z_t中第i行第j列的值，

表示Hadamard乘积；

ConvLSTM网络的输出端加入软注意力机制，重建输出门如下：

V_t＝W_o*tanh(W_xo*X_t+W_ho*H_t-1+b_o) (8)

其中，o_t表示输出门状态；W_xo，W_ho，W_o均表示2-D卷积核，b_o表示偏置项，V_t表示卷积操作后生成的二维矩阵，V_t ^ij表示矩阵V_t中第i行第j列的值；“*”表示卷积运算；

则ConvLSTM网络在t时刻的激活表示为：

所述存储单元，用于存储最近5帧的场景的特征图。

7.根据权利要求1所述的基于注意力机制的融合网络车道线检测方法，其特征在于，所述方法还包括：对融合网络进行训练的步骤；具体包括：

建立包含自然图像和点云数据的数据集；

对预处理后的数据集进行标注；

8.一种终端设备，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

9.一种存储介质，包括：包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。