CN116310970A

CN116310970A - 基于深度学习的自动驾驶场景分类算法

Info

Publication number: CN116310970A
Application number: CN202310198793.1A
Authority: CN
Inventors: 钟萍; 杨昊楠; 陈铂垒; 崔永正; 卢思怡
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-23

Abstract

本发明公开了一种基于深度学习的自动驾驶场景分类算法，包括获取自动驾驶场景视频数据，采用数据预处理的方式构建输入数据集；构建自动驾驶场景分类初步模型；采用构建输入数据集对构建的自动驾驶场景分类初步模型进行训练，得到自动驾驶场景分类模型；采用获取的自动波驾驶场景分类模型，完成自动驾驶场景分类。本发明提高了视频分类算法的鲁棒性，能够较好地解决自动驾驶道路、天气、车辆行驶动作分类问题，分类精度和稳定性优于目前最先进的视频分类算法。

Description

基于深度学习的自动驾驶场景分类算法

技术领域

本发明属于智能驾驶领域的图像识别技术领域，具体涉及一种基于深度学习的自动驾驶场景分类算法。

背景技术

自动驾驶感知技术的发展需要海量的行车图像数据作为支撑，行车图像数据的分类精度和分类效率是影响智能驾驶技术发展的重要因素。自动驾驶场景分类的目标主要是将行车场景按照道路场景、天气因素、车辆运动方式进行分类。例如在雨雪、雾霾等复杂天气条件下，对高速道路、涵洞、路口、匝道、桥梁等道路场景进行分类，对车辆直行、转向等运动方式进行分类，有助于车辆速度和驾驶模式的调整。此外，准确的场景数据分类有助于发现异常驾驶状态，这些珍贵的异常数据有利于排除潜在的行车风险。高效的场景数据分类将为图像数据的标注和算法测试提供便利，有利于海量数据的分类管理。

用于分类处理海量数据的传统方法中，基于高层语义的场景分类方法以场景图像为基础，定义了主场景和子场景，并根据预设的参数边界和提取标准对各子场景进行并行的关键信息识别，根据设定的场景融合条件和原则，对各个子场景进行场景融合，进而得出多维度的驾驶场景用于分类识别。但是在图像分类处理的过程中需要解决的问题相对较为复杂，表达形式的多样性也使得处理过程所耗时间较长。

随着计算机技术的不断更新，基于传统深度学习的道路场景分类方法、基于卷积神经网络的道路场景分类与道路分割方法、基于注意力机制的图像场景分类方法纷纷被提出，在不同的程度上解决了图像分类问题，但是由于方法本身的局限性以及海量图像分类处理的复杂性，目前用于海量数据分类管理的方法，在处理图像分类时并不能达到预想的理想效果，同时处理的时间相对较长，所需成本相对较高，并不适用于实际的自动驾驶技术领域。

发明内容

本发明的目的在于提供一种通用性好、鲁棒性强、分类精度高的基于深度学习的自动驾驶场景分类算法。

本发明提供的这种基于深度学习的自动驾驶场景分类算法，包括如下步骤：

S1.获取自动驾驶场景视频数据，采用数据预处理的方式构建输入数据集；

S2.构建自动驾驶场景分类初步模型；

S3.采用步骤S1构建的输入数据集对步骤S2构建的自动驾驶场景分类初步模型进行训练，得到自动驾驶场景分类模型；

S4.采用步骤S3获取的自动驾驶场景分类模型，完成自动驾驶场景分类。

步骤S1所述的获取自动驾驶场景视频数据，采用数据预处理的方式构建输入数据集，具体包括如下步骤：

数据预处理：

(1)将自动驾驶场景视频数据以固定帧数进行单个视频的剪裁；

(2)针对剪裁后的视频进行解码处理，并从视频中等间隔采样N张图像用于视频分类特征提取，其中N为图像的张数，取值为整数；

(3)对步骤(2)中获取的视频图像进行平均池化处理，将图像大小降采样为原始图像的1/2大小，记为：F＝[f₁,f₂,..f_i.,f_N-1,f_N]，其中，f_i为平均池化处理后的任意一张图像的大小；

(4)针对步骤(3)中获取的N张视频图像，将每相邻两帧图像做差得到帧差，同时对求得的帧差进行最大池化操作，凸显出图像的变化差异；最大池化处理将帧差的尺寸下采样成原始帧差大小的1/2，记为：DF＝[I₁,I₂,I₃,..I_i.,I_N-1]，其中，I_i为最大池化处理后的任意一张图像帧差的大小；

(5)将已经获取的图像F＝[f₁,f₂,..f_i.,f_N-1,f_N]和帧差DF＝[I₁,I₂,I₃,..I_i.,I_N-1]进行加权求和处理，如下：

p₁＝αf₁+βI₁

p₂＝αf₂+βI₂

……

p_N-1＝αf_N-1+βI_N-1

p_N＝αf_N+βI_N-1

其中，α、β分别代表图像与帧差在求和处理过程中占据的权重，需满足条件：0≤α≤1、0≤β≤1，且α+β≤1；I_i＝MaxPool(f_i+1-f_i)，MaxPool为最大池化处理；

构建输入数据集，具体包括：

(1)采用预处理后的数据，从中裁剪n张分辨率大小为224×224的图像，n代表图像的张数，且n≤N；

裁剪的方式具体为：按照固定大小的格式对每张图像进行裁剪；裁剪方式为从上至下的方式进行裁剪，或从左至右的方式进行裁剪；

若图像的纵向长度大于横向长度，则采用从上至下的方式进行裁剪：从图像的顶部开始裁剪第一个裁剪块，第二个裁剪块在第一个裁剪块后进行裁剪，直至最后一个裁剪块裁剪到图像的底部；

若图像的纵向长度小于横向长度，则采用从左至右的方式进行裁剪：从图像的左端开始裁剪第一个裁剪块，第二个裁剪块同样在第一个裁剪块后进行裁剪，直至最后一个裁剪块裁剪到图像的右端；

若图像的纵向长度等于横向长度，则自行选择从上至下的方式进行裁剪，或从左至右的方式进行裁剪；

裁剪时，保持每个裁剪块的大小一致，同时在裁剪的过程中相邻的裁剪块在裁剪的过程中能够存在重叠部分；

(2)针对步骤(1)获取的n张图像，划分成分辨率大小为16×16的图像块，采用投影、平铺的处理方式将图像块转换为向量形式，对向量形式的图像块进行相对位置编码和类别嵌入处理，处理后的数据构建成输入数据集。

步骤S3所述的采用步骤S1构建的输入数据集对步骤S2构建的自动驾驶场景分类初步模型进行训练，得到自动驾驶场景分类模型，具体包括：

构建若干个时空注意力感知块，使得前一个时空感知块的输出作为下一个时空感知块的输入，同时将步骤S1所述的构建的输入数据集作为第一个时空感知块的输入参与第一个时空感知块的构建；

时空注意力感知块包括：多头时间注意力模块、图像块卷积注意力模块、多头空间注意力模块、多层感知机模块、第一层归一化模块、第二层归一化模块、第三层归一化模块和第四层归一化模块。

每一个时空注意力感知块的工作流程具体包括：输入数据经由第一层归一化模块的处理后，将第一层归一化处理的输出作为多头时间注意力模块的输入，将多头时间注意力模块的输出与输入数据作求和处理，得到第一求和输出数据；将第一求和输出数据作为第二层归一化模块的输入，同时将第二层归一化模块输出作为图像块卷积注意力模块的输入，将图像块卷积注意力模块的输出与第一求和输出数据作求和处理，得到第二求和输出数据；将第二求和输出数据作为第三层归一化模块的输入，同时将第三层归一化模块的输出作为多头时间注意力模块的输入，将多头空间注意力模块的输出与第二求和输出数据作求和处理，得到第三求和输出数据；将第三求和输出数据作为第四层归一化模块的输入，同时将第四层归一化模块的输出作为多层感知机的输入，将多层感知机的输出与第三求和输出数据作求和处理，得到第四求和输出数据，将第四求和输出数据作为单个时空注意力感知块的输出，作为下一个相邻的时空注意力感知块的输入，参与下一个时空注意力感知块的构建。

(1)多头时间注意力模块：

采用步骤S1构建的输入数据集，通过时间自注意力机制进行时序信息建模，具体包括：获取步骤S1通过处理得到的分辨率大小为224×224的图像，采用时间自注意力机制在时间维度对视频数据特征进行建模。针对不同图像中相同颜色、相同位置的图像块进行时间注意力的计算，计算方式如下：

Q＝xW_q,K＝xW_k,V＝xW_v

其中，x为输入的原始图像特征；W_q，W_k和W_v为可学***方；λ为用于获取偏差的权重；z为计算所得的自注意力；

将每张图像裁剪为m行×m列的正方形格子大小，第一行、第一列的格子进行第一次计算，第一行、第二列的格子与第二行、第二列的格子参与第二次计算；第四行、第四列的格子参与第三次计算，以此类推，完成所有格子的计算。

(2)图像块卷积注意力模块：通过CNN进行局部空间信息建模，具体包括：

通过在图像块层级进行卷积操作，对图像块之间的静态局部相关性进行建模，在此基础上进一步利用自注意力机制进行动态全局建模来编码图像特征；

(2-1)首先采用设定大小的卷积块在图像块层级进行静态局部信息建模，通过在卷积操作中对图像边缘进行补充，获得与原图像大小一致的特征图；

(2-2)随后将该特征图与原图像进行拼接，保留原始图像和局部信息建模的共同特征，获得局部建模的特征图；

(2-3)基于拼接后的图像，采用两层1×1的卷积操作获取相应的权重信息，用于计算注意力；

(2-4)与此同时，同样采用1×1的卷积层对原始图像块进行编码，随后将编码后的图像与权重相乘，获取注意力机制的计算结果；

(2-5)为了防止梯度***和网络退化，采用残差连接的方式，将步骤(2-2)得到的特征图与步骤(2-4)得到的注意力机制的计算结果相加作为模块的输出。

(3)多头空间注意力模块：

通过空间注意力机制进行全局空间信息建模，具体包括：将位置信息建模作为神经网络的一部分来学习特征间的位置依赖关系，利用图像块之间的位置和语义关系；获取数据预处理后得到的图像块，对图像块之间的相对位置进行建模，定义单个图像块的位置信息为：

其中，(Cx_i,Cy_i)为图像块的几何中心；w_i为图像块的宽度；h_i为图像块的高度；

是第i个图像块的左上角的像素点位置，/>

是第i个图像块的右下角的像素点位置；/>

为右下角的像素点位置横坐标；/>

为右下角的像素点位置纵坐标；/>

为左上角的像素点位置横坐标；/>

为左上角的像素点位置纵坐标；

通过下列计算方式来描述第i个图像块和第j个图像块的相对位置关系：

λ_ij＝RELU(ω^TFC(r_ij))

其中，r_ij是相对位置关系；FC是全连接层神经网络，用于获取r_ij的高维度表示；ω^T是待学习的权重参数，λ_ij是相对几何特征；RELU激活函数用于零修整操作，只保留相对几何关系计算为正数时的情况，使得只考虑具有几何关系的图像块之间的关系；w_i是第i个图像块的宽度；w_j是第j个图像块的宽度；h_i是第i个图像块的高度；h_j是第j个图像块的高度。

通过相对位置编码计算的相对位置信息增强Transformer中注意力的计算，自注意力的计算方式如下：

Q＝xW_q,K＝xW_k,V＝xW_v

其中，x为输入的原始图像特征；W_q，W_k和W_v为可学***方；λ为用于获取偏差的权重；z为计算所得的自注意力。

步骤S4所述的采用步骤S3获取的自动驾驶场景分类模型，完成自动驾驶场景分类，具体包括：针对步骤S3获取的自动驾驶场景分类模型，采用残差连接方式防止模型退化，通过堆叠不同数量的时空注意力感知块来解决场景分类问题，最后通过全连接层来进行分类结果输出。

本发明提供的这种基于深度学习的自动驾驶场景分类算法，通过采用数据预处理的方式对自动驾驶场景的视频数据进行处理，采用预处理后的数据构建了输入数据集，通过对自动驾驶场景分类初步模型的训练，得到了自动驾驶场景分类模型，进而完成自动驾驶场景的分类处理；本发明的通用性好、鲁棒性强、分类精度高。

附图说明

图1为本发明方法的方法流程示意图。

图2为自动驾驶场景分类算法流程图。

图3为帧差计算和图像特征融合流程示意图。

图4为自动驾驶场景图像裁剪方式示意图。

图5为自动驾驶场景图像裁剪方式示意图。

图6为Transformer编码器数据输入的示意图。

图7为时间自注意力机制计算方式的示意图。

图8为具有局部信息建模能力的自注意力机制的示意图。

图9为具有局部信息建模能力的自注意力机制计算流程的示意图。

图10为自动驾驶路口场景的示意图。

图11为自动驾驶桥梁场景的示意图。

图12为收费站和匝道场景的示意图。

图13为车辆转向和拥堵场景的示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于深度学习的自动驾驶场景分类算法，包括如下步骤：

如图2所示为自动驾驶场景分类算法流程图，主要包括视频数据处理与加载、图像划分与相对位置编码、具有局部信息建模能力的空间自注意力机制、经过视频帧差增强的时间自注意力机制四个部分。

S1.获取自动驾驶场景视频数据，采用数据预处理的方式构建输入数据集；具体包括：

数据预处理：

(2)针对剪裁后的视频进行解码处理，并从视频中等间隔采样N张图像用于视频分类特征提取，其中N为图像的张数，取值为整数，范围为8～16；

(4)针对步骤(2)中获取的N张视频图像，将每相邻两帧图像做差处理，同时对求得的帧差进行最大池化操作，凸显出图像的变化差异，最大池化处理将帧差的尺寸下采样成原始帧差大小的1/2，记为：DF＝[I₁,I₂,I₃,..I_i.,I_N-1]，其中，I_i为最大池化处理后的任意一张图像的帧差的大小；

本发明对1920×1080分辨率的视频图像进行平均池化，选择16×16大小的固定块剪裁视频图像；

(5)将已经获取的图像F＝[f1,f2,..fi.,f_N-1,f_N]和帧差DF＝[I₁,I₂,I₃,..I_i.,I_N-1]进行加权求和处理，如下：

p₁＝αf₁+βI₁

p₂＝αf₂+βI₂

……

p_N-1＝αf_N-1+βI_N-1

p_N＝αf_N+βI_N-1

如图2所示的(a)图为自动驾驶场景分类算法流程图，根据流程图所示，时间注意力机制的计算输入融入了相邻两帧图像的帧差信息，最大池化的帧差信息凸显了图像的特征，进一步增强了时间注意力对视频图像变化的捕捉能力。

如图2所示的(b)为时空注意力感知块示意图，本方法针对自动驾驶场景分类任务提出了时空注意力感知块，用于视频数据的特征提取和建模。为了进一步提高模型的表征能力，采用了多头时间注意力和多头空间注意力，并在不同的模块之间采用残差连接方式来防止模型退化。

如图3所示为帧差计算和图像特征融合流程的示意图，对于获取的图像F和帧差DF进行加权求和参照图3所示的流程。

本方法以224×224分辨率大小为窗口对图像进行纵向滑动裁剪；如图4所示为自动驾驶场景图像裁剪方式示意图，裁剪方式参照图4方式进行；

构建输入数据集，具体包括：

本发明方法采用90帧图像的固定格式剪裁单个视频；

如图5所示为自动驾驶场景图像剪裁方式示意图，本方法将224×224分辨率的图像划分为16×16分辨率大小的图像块；如图6所示为Transformer编码器数据输入的示意图，将3张图像划分成分辨率大小为16×16的图像块，采用投影、平铺的处理方式将图像块转换为向量形式，对向量形式的图像块进行相对位置编码和类别嵌入处理，作为Transformer编码器的输入，得到14×14个图像块。

S2.构建自动驾驶场景分类初步模型；

S3.采用步骤S1构建的输入数据集对步骤S2构建的自动驾驶场景分类初步模型进行训练，得到自动驾驶场景分类模型；具体包括：

构建多个时空注意力感知块，使得前一个时空感知块的输出作为下一个时空感知块的输入，同时将步骤S1所述的构建的输入数据集作为第一个时空感知块的输入参与第一个时空感知块的构建；

(1)多头时间注意力模块：

采用步骤S1构建的输入数据集，通过时间自注意力机制进行时序信息建模，具体包括：获取步骤S1通过处理得到的分辨率大小为224×224的图像，采用时间自注意力机制在时间维度对视频数据特征进行充分的建模。针对不同图像中相同颜色、相同位置的图像块进行时间注意力的计算，计算方式如下：

Q＝xW_q,K＝xW_k,V＝xW_v

本方法根据划分的图像块计算稀疏时间注意力，图7所示为时间自注意力机制计算方式的示意图，根据图中的彩色图像块所示的区域计算对应的时间注意力；未标注彩色图像块的区域按照图中所示的色块类推计算时间注意力；

通过在图像块层级进行卷积操作，对图像块之间的静态局部相关性进行建模，在此基础上进一步利用自注意力机制进行动态全局建模来充分编码图像特征；

如图8所示为具有局部信息建模能力的自注意力机制的示意图，如图9所示为具有局部信息建模能力的自注意力机制计算流程的示意图，采用大小为如3×3的卷积块在图像块层级进行静态局部信息建模。

(3)多头空间注意力模块：

是第i个图像块的左上角的像素点位置，/>

是第i个图像块的右下角的像素点位置；/>

为右下角的像素点位置横坐标；/>

为右下角的像素点位置纵坐标；/>

为左上角的像素点位置横坐标；/>

为左上角的像素点位置纵坐标；

λ_ij＝RELU(ω^TFC(r_ij))

Q＝xW_q,K＝xW_k,V＝xW_v

S4.采用步骤S3获取的自动驾驶场景分类模型，完成自动驾驶场景分类；具体包括：针对步骤S3获取的自动驾驶场景分类模型，采用残差连接方式防止模型退化，通过堆叠不同数量的时空注意力感知块来解决场景分类问题，最后通过全连接层来进行分类结果输出。

如图10所示为自动驾驶路口场景的示意图，在对自动驾驶场景分类实际应用中，以图10所示路口场景为例，得益于时空注意力机制，本发明所提出的场景分类算法能够针对不同天气、不同路口场景的数据进行准确分类。

如图11所示为自动驾驶桥梁场景的示意图，以图11所示的桥梁场景为例，得益于时空注意力感知块的建模能力，本发明所提出的场景分类算法能够对远距离小目标场景进行准确分类。

如图12所示为收费站和匝道场景的示意图，以图12所示收费站和高速匝道场景为例，本发明所提出的场景分类算法能够排除建筑物、广告牌、道路、桥梁的干扰，准确地对收费站和匝道特征进行表征。

如图13所示为车辆转向和拥堵场景的示意图，以图13所示的车辆转向动作和车辆拥堵场景为例，本发明所提出的场景分类算法能够对车辆的动作行为进行建模和准确分类。

Claims

1.一种基于深度学习的自动驾驶场景分类算法，包括如下步骤：

S2.构建自动驾驶场景分类初步模型；

2.根据权利要求1所述的基于深度学习的自动驾驶场景分类算法，其特征在于步骤S1所述的获取自动驾驶场景视频数据，采用数据预处理的方式构建输入数据集，具体包括如下步骤：

数据预处理：

(4)针对步骤(3)中获取的N张视频图像，将每相邻两帧图像做差得到帧差，同时对求得的帧差进行最大池化操作，凸显出图像的变化差异；最大池化处理将帧差的尺寸下采样成原始帧差大小的1/2，记为：DF＝[I₁,I₂,I₃,..I_i.,I_N-1]，其中，I_i为最大池化处理后的任意一张图像的帧差的大小；

p₁＝αf₁+βI₁

p₂＝αf₂+βI₂

……

p_N-1＝αf_N-1+βI_N-1

p_N＝αf_N+βI_N-1

构建输入数据集，具体包括：

3.根据权利要求1所述的基于深度学习的自动驾驶场景分类算法，其特征在于步骤S3所述的采用步骤S1构建的输入数据集对步骤S2构建的自动驾驶场景分类初步模型进行训练，得到自动驾驶场景分类模型，具体包括：

时空注意力感知块包括：多头时间注意力模块、图像块卷积注意力模块、多头空间注意力模块、多层感知机模块、第一层归一化模块、第二层归一化模块、第三层归一化模块和第四层归一化模块；

4.根据权利要求1所述的基于深度学习的自动驾驶场景分类算法，其特征在于所述的多头时间注意力模块，具体包括：

采用步骤S1构建的输入数据集，通过时间自注意力机制进行时序信息建模，具体包括：获取步骤S1通过处理得到的分辨率大小为224×224的图像，采用时间自注意力机制在时间维度对视频数据特征进行建模；针对不同图像中相同颜色、相同位置的图像块进行时间注意力的计算，计算方式如下：

Q＝xW_q,K＝xW_k,V＝xW_v

5.根据权利要求4所述的基于深度学习的自动驾驶场景分类算法，其特征在于所述的图像块卷积注意力模块，具体包括：

通过CNN进行局部空间信息建模：

6.根据权利要求5所述的基于深度学习的自动驾驶场景分类算法，其特征在于所述的多头空间注意力模块，具体包括：

是第i个图像块的左上角的像素点位置，/>

是第i个图像块的右下角的像素点位置；/>

为右下角的像素点位置横坐标；/>

为右下角的像素点位置纵坐标；/>

为左上角的像素点位置横坐标；/>

为左上角的像素点位置纵坐标；

λ_ij＝RELU(ω^TFC(r_ij))

其中，r_ij是相对位置关系；FC是全连接层神经网络，用于获取r_ij的高维度表示；ω^T是待学习的权重参数，λ_ij是相对几何特征；RELU激活函数用于零修整操作，只保留相对几何关系计算为正数时的情况，使得只考虑具有几何关系的图像块之间的关系；w_i是第i个图像块的宽度；w_j是第j个图像块的宽度；h_i是第i个图像块的高度；h_j是第j个图像块的高度；

Q＝xW_q,K＝xW_k,V＝xW_v

7.根据权利要求6所述的基于深度学习的自动驾驶场景分类算法，其特征在于步骤S4所述的采用步骤S3获取的自动驾驶场景分类模型，完成自动驾驶场景分类，具体包括：针对步骤S3获取的自动驾驶场景分类模型，采用残差连接方式防止模型退化，通过堆叠不同数量的时空注意力感知块来解决场景分类问题，最后通过全连接层来进行分类结果输出。