CN116630917A - 一种车道线检测方法 - Google Patents
一种车道线检测方法 Download PDFInfo
- Publication number
- CN116630917A CN116630917A CN202310504571.8A CN202310504571A CN116630917A CN 116630917 A CN116630917 A CN 116630917A CN 202310504571 A CN202310504571 A CN 202310504571A CN 116630917 A CN116630917 A CN 116630917A
- Authority
- CN
- China
- Prior art keywords
- lane line
- feature map
- module
- feature
- characteristic diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 90
- 238000010586 diagram Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 230000006872 improvement Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种车道线检测方法,包括以下步骤:对收集的车道线检测数据集使用可旋转的边界框进行标签标注;通过改进的Swin‑Transformer算法得到特征图;将所述的特征图基于特征融合网络处理得到融合的特征图;将融合后的特征图输入检测头进行检测;利用基于圆形平滑标签改进后的预测框输出最后的预测结果,通过贝塞尔曲线多项式拟合车道线。本发明能够更好突显出目标的角度信息和特征信息,从而更准确地框定车道线的位置和形状,具有更高的检测速度和识别精度,可以更好帮助车辆感知路面轨道信息,具有较好的实际可行性。
Description
技术领域
本发明涉及自动驾驶技术领域,尤其涉及一种车道线检测方法。
背景技术
随着人工智能技术的飞速发展,智能交通应运而生。智能驾驶技术作为智能交通领域的一个分支,通过融合计算机、传感器、人工智能等多种技术实现人-车-路的智能信息交换,使车辆具备环境感知能力,为驾驶员提供更加安全可靠的驾驶策略,进一步提高车辆驾驶的安全性与舒适性。
车道线检测是智能驾驶技术中的关键环节,快速且有效地对路况图像中的车道线进行检测,对行车路径规划、道路偏离提醒和交通事故的避免有着十分重要的作用。
传统的目标检测算法流程主要分为三步:1)区域选择;2)特征提取;3)分类。首先采用类似穷举的滑动窗口遍历整个图像,对目标可能出现的区域进行定位。这样的穷举方法时间复杂度高,会产生大量冗余的窗口,而且滑动窗口的尺度变换不灵活,对一些尺寸变化较大的目标,不能很好的检测。对于特征提取的部分,传统目标检测算法采用手工提取的特征来表达物体,例如尺度不变特征变换算法(Scale-invariant feature transform,SIFT)、方向梯度直方图特征(Histogram of Oriented Gradient,HOG)、加速稳健特征(Speeded Up Robust Features,SURF)等。但是在实际场景中,目标背景复杂,姿态变换多样,还会受光照、遮挡、角度等影响,人们很难设计出具有通用性的、能适用于各种复杂背景的手工特征。在提取到特征之后,分类通常会确定区域内是否含有目标。常用的分类算法有SVM、Adaboost等。此类技术在特定的环境中运作良好。但是,在驾驶和周围环境变化的情况下,其性能还是很差,所以不适合实际的道路场景应用。传感器技术的发展,能够进行大容量和高速处理的硬件技术的发展,以及各种深度学习算法的发展,如基于卷积神经网络(CNN)的计算机视觉方法和YOLO算法,已经显著改善了车道检测和识别性能。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种车道线检测方法解决了现有技术检测速度慢,识别精度低的问题。
为解决上述技术问题,本发明提供如下技术方案:
对收集的车道线检测数据集使用可旋转的边界框进行标签标注;
通过改进的Swin-Transformer算法得到特征图;
将所述的特征图基于特征融合网络处理得到融合的特征图;
将融合后的特征图输入检测头进行检测;
利用基于圆形平滑标签改进后的预测框输出最后的预测结果,通过贝塞尔曲线多项式拟合车道线。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述对收集的车道线检测数据集,使用旋转标注工具中的可旋转边界框,针对图像中的目标车道线进行标签标注并生成相应文件,可旋转边界框所标注信息包含目标车道线的矩形包围盒的坐标xywh以及包围盒的边和水平线之间的夹角。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述改进的Swin-Transformer算法得到特征图,在Swin-Transformer Block模块中加入全局注意力,在计算窗口注意力操作之后加入全局注意力操作,即在通过窗口注意力操作获得特征序列x,再通过三个权重矩阵Wq、Wk和Wv分别转化为Query向量、Key向量和Value向量,点积Query向量和Key向量得到权重矩阵,权重矩阵乘以Value向量得到多头注意力输出向量x,多头注意力输出向量x表示为:
其中,dk为全局注意力头的长度,Softmax为归一化指数函数。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述改进的Swin-Transformer算法得到特征图,包括以下步骤:
输入的图像的车道线彩色图像X=[H,W,3],其中H为图像的高度,W为图像的宽度,3为图像的通道数,图像X通过Patch拆分模块拆分为非重叠相等尺寸的Patch,将每个Patch展平为token向量;
将token向量输入线性嵌入层进行处理,将维度投影到任意维度C,其中C的典型值为96;
将经过线性嵌入层处理的token向量馈入若干具有改进自注意力的Swin-Transformer Block进行操作;
基于移位窗口的多头自注意力模块以及全局注意力操作将线性嵌入层和改进的Swin-Transformer Block模块作为第一个处理阶段;
经过第一个处理阶段处理后得到了图像的特征向量,将特征向量输入PatchMerging模块进行处理得到类似下采样操作的效果,通过改进的Swin-Transformer Block模块处理得到特征图out1;
将Patch Merging和改进的Swin-Transformer Block模块作为第二个阶段对图像特征进行处理分别得到特征图out1,特征图out2,特征图out3,其中特征图out1的大小为[H/8,W/8,2C],特征图out2的大小为[H/16,W/16,4C],特征图out3的大小为[H/32,W/32,8C],进而提取到多尺度的特征图。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述特征图基于特征融合网络处理得到融合的特征图,基于特征融合网络指的是YOLOv5的颈部网络,得到的特征图out3,经过CBS模块进行卷积操作得到了高层特征图f3;
所述高层特征图f3经过上采样和所述特征图out2进行拼接操作得到的特征图,经过C3Ⅱ_1模块处理和CBS模块的卷积操作后得到中层特征图f2;
所述中层特征图f2经过上采样和所述特征图out1进行拼接操作,经过C3Ⅱ_1模块处理之后得到底层特征图f1,输出到检测头;
对底层特征图f1采用CBS模块进行处理与中层特征图f2进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的中层特征图f2′再输出到检测头;
将新的中层特征图f2′采用CBS模块进行卷积操作,与高层特征图f3进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的高层特征图f3′再输出到检测头。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述CBS模块由Conv函数,BN函数和SiLU函数组成,其中Conv函数用于对特征图进行卷积操作,BN函数对数据进行批量归一化操作,SiLU函数作为最后的激活函数。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述C3模块由3个CBS模块以及多个Bottleneck模块组成,C3模块对残差特征进行学习,结构包含两个分支,其中第一分支使用了指定的多个Bottleneck堆叠和3个标准CBS模块,第二分支仅经过一个CBS模块,最后将两个分支进行拼接操作。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述将融合后的特征图输入检测头进行检测,结合了特征金字塔网络和路径聚合网络,其中特征金字塔网络是自顶向下,将高层的强语义特征传递下来,对整个金字塔进行增强,增强了语义信息,对定位信息没有传递,路径聚合网络在特征金字塔网络的后面添加一个自底向上的金字塔,将低层的强定位特征传递上去,直接使用路径聚合网络中的多尺度融合特征图输入到检测头中进行检测。
作为本发明所述的车道线检测方法的一种优选方案,其中:所述改进预测框是在基于圆形平滑标签的基础上优化了预测框,以分类而非回归的方法对角度进行预测,选择合适的窗函数避免角度周期性问题,其中圆形平滑标签表示为:
其中,g(x)代表窗函数,r是窗函数的半径,θ表示当前边界框的角度。
作为本发明所述的车道线检测方法的一种优选方案,其中:对于预测框所表征出的车道线信息采用贝塞尔曲线多项式对车道线进行拟合,其中n阶的贝塞尔曲线通式表示为:
其中,Pi同步表示为给定点的横或纵坐标,n表示贝塞尔曲线多项式的阶数,i表示该多项式的第i项。
本发明的有益效果:本发明使用可旋转检测框代替传统的水平检测框来提取车道线的图像特征,能够更好突显出目标的角度信息,从而更准确地框定车道线的位置和形状。借助改进的Swin-Transformer算法在提取图像特征所具备的高性能并通过YOLOv5颈部网络对该多尺度的特征图进行融合,与其他现有方法相比,具有更高的检测速度和识别精度,可以更好帮助车辆感知路面轨道信息,具有较好的实际可行性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种车道线检测方法的基本流程示意图;
图2为本发明一个实施例提供的一种车道线检测方法的改进的Swin-TransformerBlock模块结构示意图;
图3为本发明一个实施例提供的一种车道线检测方法的网络模型结构示意图;
图4为本发明一个实施例提供的一种车道线检测方法的C3模块结构示意图;
图5为本发明一个实施例提供的一种车道线检测方法的改进的预测框预测信息示意图;
图6为本发明一个实施例提供的一种车道线检测方法的圆形平滑标签示意图;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1-6,为本发明的一个实施例,提供了一种车道线检测方法,如图1所示,包括以下步骤:
S1:对收集的车道线检测数据集使用可旋转的边界框进行标签标注;
更进一步的,在收集的车道线检测数据集图像中使用rolabelimg旋转标注工具的可旋转边界框对图像中的目标车道线进行标签标注并生成相应文件,可旋转边界框所标注信息包含目标车道线的矩形包围盒的坐标xywh以及包围盒的边和水平线之间的夹角,相对于传统的水平边界框,所述可旋转边界框能够更好突出目标的角度信息;
S2:通过改进的Swin-Transformer算法得到特征图;
更进一步的,将已经完成标签工作的数据集划分为训练集、验证集和测试集。对图像进行预处理操作是为了方便模型处理数据集,将数据集中的图像大小调整为32的倍数是为了适应卷积和池化操作。这样可以确保特征图在多次卷积和池化后仍能够保持足够的分辨率和信息量,防止信息丢失和模型性能下降;
更进一步的,如图2所示,所述改进的Swin-Transformer算法是在其中的Swin-Transformer Block模块中加入全局注意力,由于原先的Swin-Transformer Block模块中将注意力的计算限制在了每个窗口内,这使得信息交流不够充分而导致部分信息缺失,在计算窗口注意力操作之后可加入全局注意力操作(Global Attention),即在通过窗口注意力操作获得特征序列x,再通过三个权重矩阵Wq、Wk和Wv分别转化为Query向量、Key向量和Value向量,点积Query向量和Key向量得到权重矩阵,权重矩阵乘以Value向量得到多头注意力输出向量x,计算过程为:
其中,dk为全局注意力头的长度,Softmax为归一化指数函数,通过加入全局注意力操作,使得全局的信息得到了充分的交互;
更进一步的,网络模型的整体结构如图3所示,所述改进的Swin-Transformer算法提取图像特征的过程为:
A1:输入的图像的车道线彩色图像X=[H,W,3],其中H为图像的高度,W为图像的宽度,3为图像的通道数,图像X首先会通过Patch拆分模块将其拆分为非重叠等尺寸的Patch,之后将每个Patch展平为token向量;
A2:将token向量输入线性嵌入层(Linear Embedding)进行处理,将维度投影到任意维度C,其中C的典型值为96;
A3:将上述经过处理的token馈入若干具有改进自注意力的Swin-TransformerBlock进行相关操作;
A4:所述改进的Swin-Transformer Block模块主要应用了基于移位窗口的多头自注意力模块(W-MSA/SW-MSA)以及全局注意力操作(Global Attention),使得模型更容易捕获长距离相互依赖的特征且使得全局的信息得以充分交互,此时可以将线性嵌入层和改进的Swin-Transformer Block模块作为第一个处理阶段;
A5:经过上述第一个处理阶段处理后得到了图像的特征向量,再将特征向量输入Patch Merging模块进行处理可以得到类似下采样操作的效果,再通过改进的Swin-Transformer Block模块处理得到特征图out1;
A6:接下来将Patch Merging和改进的Swin-Transformer Block模块作为第二个处理阶段对图像特征进行处理,分别得到特征图out1(大小为[H/8,W/8,2C]),特征图out2(大小为[H/16,W/16,4C]),特征图out3(大小为[H/32,W/32,8C]),这样就可以提取到多尺度的特征图,帮助模型捕捉不同尺度的目标和细节信息,提高模型的性能和鲁棒性;
例如将所述车道线检测数据集从宽度×高度×通道数为1280×720×3的图像调整成宽度×高度×通道数为640×640×3的图像,其中宽度和高度的单位为像素。将经过预处理的训练集图片输入到改进的Swin-Transformer结构中,经过处理后输出三个特征图,分别是out1:(特征图大小为80×80×192)、out2:(特征图大小为40×40×384)和out3:(特征图大小为20×20×768)。
S3:将所述的特征图基于特征融合网络处理得到融合的特征图;
更进一步的,特征融合网络指的是YOLOv5颈部网络,特征图out3经过CBS模块进行卷积操作得到了高层特征图f3;
所述高层特征图f3经过上采样,再与所述特征图out2进行拼接操作得到的特征图,经过C3Ⅱ_1模块处理,再经过CBS模块的卷积操作后得到中层特征图f2;
所述中层特征图f2经过上采样,再与所述特征图out1进行拼接操作,经过C3Ⅱ_1模块处理之后得到底层特征图f1,输出到检测头;
之后先对底层特征图f1采用CBS模块进行处理再与中层特征图f2进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的中层特征图f2′再输出到检测头;
最后将新的中层特征图f2′采用CBS模块进行卷积操作,然后再与高层特征图f3进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的高层特征图f3′再输出到检测头;
更进一步的,所述CBS模块由Conv函数,BN函数和SiLU函数组成,其中Conv函数用于对特征图进行卷积操作,BN函数对数据进行批量归一化操作,SiLU函数作为最后的激活函数;
更进一步的,由图4中C3模块示意图所示,所述C3模块由3个CBS模块以及多个Bottleneck模块组成,C3模块主要对残差特征进行学习,结构包含两个分支,第一分支使用了上述指定多个Bottleneck堆叠和3个标准CBS模块,第二分支仅经过一个CBS模块,最后将两支进行拼接操作;
例如:将经过改进的Swin-Transformer结构所输出的大小为(20×20×768)特征图经过CBS模块的卷积操作后进行降维得到高层特征图f3(大小为20×20×512);
所述高层特征图f3(大小为20×20×512)经过上采样操作之后(大小为40×40×512),再与主干网络得到的特征图out2进行拼接操作得到的特征图,先采用C3Ⅱ_1模块处理,再经过CBS模块卷积操作进行降维后得到中层特征图f2(大小为40×40×256);
所述中层特征图f2(大小为40×40×256)经过上采样操作(大小为80×80×256),再与主干网络得到的特征图out1进行拼接操作,经过C3Ⅱ_1模块处理之后即可得到底层特征图f1(大小为80×80×256),将其输出到检测头。
对底层特征图f1(大小为80×80×256)采用下采样操作进行处理(大小为40×40×256)再与中层特征图f2(大小为40×40×256)进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的中层特征图f2′(大小为40×40×512)再输出到检测头;
将新的中层特征图f2′(大小为40×40×512)采用下采样操作进行处理(大小为20×20×512),然后再与高层特征图f3(大小为20×20×512)进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的高层特征图f3′(大小为20×20×1024)再输出到检测头;
S4:将融合后的特征图输入检测头进行检测;
更进一步的,模型中结合了特征金字塔网络(FPN)和路径聚合网络(PANet),其中特征金字塔网络是自顶向下,将高层的强语义特征传递下来,对整个金字塔进行增强,增强了语义信息,对定位信息没有传递,而路径聚合网络在特征金字塔网络的后面添加一个自底向上的金字塔,这样的操作是对特征金字塔网络的补充,将低层的强定位特征传递上去,将二者结合起来就能获得更好的特征融合效果。然后直接使用路径聚合网络中的多尺度融合特征图输入到检测头中进行检测。
S5:利用基于圆形平滑标签改进后的预测框输出最后的预测结果,通过贝塞尔曲线多项式拟合车道线。
改进后的预测框预测信息如图5所示,相较于原先水平检测框所显示的信息仅为包含目标的矩形包围盒的坐标,改进后的预测框预测信息突出了Bθij这一重要的目标的角度信息,使得改进后的预测框能够更好表征目标信息,更加精确地框定目标的形状和位置。
更进一步的,如果采用回归的方式预测角度,就会导致出现边界不连续的问题,这会使得模型计算边界处损失值时突然增大,会极大影响检测的结果。
如图6中的圆形平滑标签示意图所示,改进后的预测框会将预测到的角度以及该目标所具有的真实角度利用窗函数进行处理,又因为这种形式的处理,即通过窗函数处理所形成的圆形平滑标签能够避免模型预测到的角度信息和真实的角度信息之间的误差的突变,这种处理方式使得模型能够更加稳定地进行训练过程。
所述改进预测框是在基于圆形平滑标签(CSL)的基础上优化了预测框,以分类而非回归的方法对角度进行预测,选择合适的窗函数避免角度周期性问题,其中圆形平滑标签(CSL)计算过程如下:
其中g(x)代表窗函数,r是窗函数的半径,θ表示当前边界框的角度,可以选择高斯函数(Gaussian)作为窗函数,高斯函数公式为:
高斯函数的一维图是特征对称“bell curve”形状,a是曲线尖峰的高度,b是尖峰中心的坐标,c称为标准方差,表征的是bell钟状的宽度,标签值在边界处是连续的,通过应用高斯函数作为窗函数,可达成对角度进行分类而获得较好的预测结果;
更进一步的,对于预测框所表征出的车道线信息采用贝塞尔曲线多项式对车道线进行拟合,其中n阶的贝塞尔曲线通式如下:
公式中的Pi同步表示为给定点的横或纵坐标,n表示贝塞尔曲线多项式的阶数,i表示该多项式的第i项。以二阶贝塞尔曲线作为拟合函数,根据车道线数据点和贝塞尔曲线的阶数,计算出贝塞尔曲线的系数,使用计算出的贝塞尔曲线系数,绘制车道线曲线。
实施例2
参照表1,为本发明的一个实施例,提供了一种车道线检测方法,为了验证其有益效果,提供了本方案与其他两种方案在Caltech Lanes数据集上的对比结果。
方案一:将使用水平边界框标注后的车道线数据集输入未进行任何改进的YOLO算法进行训练并输出模型;
方案二:先将车道线检测数据集中的原有图像转换为鸟瞰图。通过逆透视变换可以实现这一结果,大致过程为:首先标定图像中的道路区域从而确定感兴趣区域(ROI),之后利用标定的ROI的相关坐标数据计算透视变换矩阵,得到透视变换矩阵之后就可以完成数据集中原图像到鸟瞰图的转变。
得到鸟瞰图后,可以利用水平边界框对鸟瞰图中的车道线目标进行标签标注的处理,之后将其输入到YOLO算法中进行训练并输出模型。
本方案:使用可旋转检测框代替传统的水平检测框来提取车道线的图像特征,能够更好突显出目标的角度信息,从而更准确地框定车道线的位置和形状。借助改进的Swin-Transformer算法在提取图像特征所具备的高性能并通过YOLOv5颈部网络对该多尺度的特征图进行融合,最后将得到的多尺度融合特征图输入检测头进行检测。
表1对比表
方案一 | 方案二 | 本方案 | |
识别精度 | 84.4% | 88.44% | 90.16% |
角度信息 | 未表现出 | 未表现出 | 可表现出 |
输出预测框 | 未能表征车道线形状 | 未能表征车道线形状 | 可以表征车道线形状 |
从表1中可以看出,我方对于车道线检测的处理及划分较为细致,通过对收集的车道线检测数据集使用可旋转的边界框进行标签标注;通过改进的Swin-Transformer算法得到特征图;将所述的特征图经过YOLOv5的颈部网络处理得到融合的特征图;将融合后的特征图输入检测头进行检测;利用基于圆形平滑标签改进后的预测框输出最后的预测结果,通过贝塞尔曲线多项式拟合车道线,使得识别精度更高,角度信息更清晰,输出预测框可以表征出车道线形状,可以更好帮助车辆感知路面轨道信息。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种车道线检测方法,其特征在于,包括:
对收集的车道线检测数据集使用可旋转的边界框进行标签标注;
通过改进的Swin-Transformer算法得到特征图;
将所述的特征图基于特征融合网络处理得到融合的特征图;
将融合后的特征图输入检测头进行检测;
利用基于圆形平滑标签改进后的预测框输出最后的预测结果,通过贝塞尔曲线多项式拟合车道线。
2.如权利要求1所述的车道线检测方法,其特征在于:所述对收集的车道线检测数据集,使用旋转标注工具中的可旋转边界框,针对图像中的目标车道线进行标签标注并生成相应文件,可旋转边界框所标注信息包含目标车道线的矩形包围盒的坐标xywh以及包围盒的边和水平线之间的夹角。
3.如权利要求2所述的车道线检测方法,其特征在于:所述改进的Swin-Transformer算法得到特征图,在Swin-Transformer Block模块中加入全局注意力,在计算窗口注意力操作之后加入全局注意力操作,即在通过窗口注意力操作获得特征序列x,再通过三个权重矩阵Wq、Wk和Wv分别转化为Query向量、Key向量和Value向量,点积Query向量和Key向量得到权重矩阵,权重矩阵乘以Value向量得到多头注意力输出向量x,多头注意力输出向量x表示为:
其中,dk为全局注意力头的长度,Softmax为归一化指数函数。
4.如权利要求3所述的车道线检测方法,其特征在于:所述改进的Swin-Transformer算法得到特征图,包括以下步骤:
输入的图像的车道线彩色图像X=[H,W,3],其中H为图像的高度,W为图像的宽度,3为图像的通道数,图像X通过Patch拆分模块拆分为非重叠相等尺寸的Patch,将每个Patch展平为token向量;
将token向量输入线性嵌入层进行处理,将维度投影到任意维度C,其中C的典型值为96;
将经过线性嵌入层处理的token向量馈入若干具有改进自注意力的Swin-TransformerBlock进行操作;
基于移位窗口的多头自注意力模块以及全局注意力操作将线性嵌入层和改进的Swin-Transformer Block模块作为第一个处理阶段;
经过第一个处理阶段处理后得到了图像的特征向量,将特征向量输入Patch Merging模块进行处理得到类似下采样操作的效果,通过改进的Swin-Transformer Block模块处理得到特征图out1;
将Patch Merging和改进的Swin-Transformer Block模块作为第二个阶段对图像特征进行处理分别得到特征图out1,特征图out2,特征图out3,其中特征图out1的大小为[H/8,W/8,2C],特征图out2的大小为[H/16,W/16,4C],特征图out3的大小为[H/32,W/32,8C],进而提取到多尺度的特征图。
5.如权利要求4所述的车道线检测方法,其特征在于:所述特征图基于特征融合网络处理得到融合的特征图,特征融合网络指的是YOLOv5的颈部网络,得到的特征图out3,经过CBS模块进行卷积操作得到了高层特征图f3;
所述高层特征图f3经过上采样和所述特征图out2进行拼接操作得到的特征图,经过C3Ⅱ_1模块处理和CBS模块的卷积操作后得到中层特征图f2;
所述中层特征图f2经过上采样和所述特征图out1进行拼接操作,经过C3Ⅱ_1模块处理之后得到底层特征图f1,输出到检测头;
对底层特征图f1采用CBS模块进行处理与中层特征图f2进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的中层特征图f2′再输出到检测头;
将新的中层特征图f2′采用CBS模块进行卷积操作,与高层特征图f3进行拼接,拼接后的特征图用C3Ⅱ_1模块进行处理,得到新的高层特征图f3′再输出到检测头。
6.如权利要求5所述的车道线检测方法,其特征在于:所述CBS模块由Conv函数,BN函数和SiLU函数组成,其中Conv函数用于对特征图进行卷积操作,BN函数对数据进行批量归一化操作,SiLU函数作为最后的激活函数。
7.如权利要求4-6任一项所述的车道线检测方法,其特征在于:所述C3模块由3个CBS模块以及多个Bottleneck模块组成,C3模块对残差特征进行学习,结构包含两个分支,其中第一分支使用了指定的多个Bottleneck堆叠和3个标准CBS模块,第二分支仅经过一个CBS模块,最后将两个分支进行拼接操作。
8.如权利要求7所述的车道线检测方法,其特征在于:所述将融合后的特征图输入检测头进行检测,结合了特征金字塔网络和路径聚合网络,路径聚合网络在特征金字塔网络的后面添加一个自底向上的金字塔,将低层的强定位特征传递上去,将经过路径聚合网络中的多尺度融合特征图输入到检测头中进行检测。
9.如权利要求8所述的车道线检测方法,其特征在于:所述改进预测框是在基于圆形平滑标签的基础上优化了预测框,以分类而非回归的方法对角度进行预测,选择合适的窗函数避免角度周期性问题,其中圆形平滑标签表示为:
其中,g(x)代表窗函数,r是窗函数的半径,θ表示当前边界框的角度。
10.如权利要求8或9所述的车道线检测方法,其特征在于:对于预测框所表征出的车道线信息采用贝塞尔曲线多项式对车道线进行拟合,其中n阶的贝塞尔曲线通式表示为:
其中,Pi同步表示为给定点的横或纵坐标,n表示贝塞尔曲线多项式的阶数,i表示该多项式的第i项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504571.8A CN116630917A (zh) | 2023-05-06 | 2023-05-06 | 一种车道线检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504571.8A CN116630917A (zh) | 2023-05-06 | 2023-05-06 | 一种车道线检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630917A true CN116630917A (zh) | 2023-08-22 |
Family
ID=87620427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310504571.8A Pending CN116630917A (zh) | 2023-05-06 | 2023-05-06 | 一种车道线检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630917A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710755A (zh) * | 2024-02-04 | 2024-03-15 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别***及方法 |
-
2023
- 2023-05-06 CN CN202310504571.8A patent/CN116630917A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710755A (zh) * | 2024-02-04 | 2024-03-15 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别***及方法 |
CN117710755B (zh) * | 2024-02-04 | 2024-05-03 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及*** | |
US20240037926A1 (en) | Segmenting objects by refining shape priors | |
CN111914838B (zh) | 一种基于文本行识别的车牌识别方法 | |
CN111008632B (zh) | 一种基于深度学习的车牌字符分割方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及*** | |
CN113903028A (zh) | 一种目标检测方法及电子设备 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及*** | |
CN112132013B (zh) | 一种车辆关键点检测方法 | |
CN114120289A (zh) | 一种行车区域与车道线识别方法及*** | |
CN116630917A (zh) | 一种车道线检测方法 | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN113408413B (zh) | 应急车道的识别方法、***及装置 | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN112949500A (zh) | 一种基于空间特征编码改进的YOLOv3车道线检测方法 | |
Al Mamun et al. | Efficient lane marking detection using deep learning technique with differential and cross-entropy loss. | |
CN111881914A (zh) | 一种基于自学习阈值的车牌字符分割方法及*** | |
CN116052149A (zh) | 一种基于CS-ABCNet的电力塔牌检测识别方法 | |
Zhang et al. | Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image | |
CN115294548A (zh) | 一种基于行方向上位置选择和分类方法的车道线检测方法 | |
CN114757819A (zh) | 一种结构引导的风格偏差校正型风格迁移方法及*** | |
CN114332814A (zh) | 一种停车框识别方法、装置、电子设备及存储介质 | |
CN113537397A (zh) | 基于多尺度特征融合的目标检测与图像清晰联合学习方法 | |
CN117392392B (zh) | 一种割胶线识别与生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |