CN114674338B - 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 - Google Patents
基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 Download PDFInfo
- Publication number
- CN114674338B CN114674338B CN202210366807.1A CN202210366807A CN114674338B CN 114674338 B CN114674338 B CN 114674338B CN 202210366807 A CN202210366807 A CN 202210366807A CN 114674338 B CN114674338 B CN 114674338B
- Authority
- CN
- China
- Prior art keywords
- attention
- output
- model
- road
- layered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000009977 dual effect Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 36
- 230000011218 segmentation Effects 0.000 abstract description 12
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000000877 morphologic effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3453—Special cost functions, i.e. other than distance or default speed limit of road segments
- G01C21/3461—Preferred or disfavoured areas, e.g. dangerous zones, toll or emission zones, intersections, manoeuvre types, segments such as motorways, toll roads, ferries
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/28—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network with correlation of data from several navigational instruments
- G01C21/30—Map- or contour-matching
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3602—Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,在编码器‑解码器的骨架基础上,构建倒金字塔式的多尺度分层输入和分层输出结构以有效融合道路的形态学特征与语义信息;构建集成通道注意力和空间注意力的跳跃连接结构以实现不同行驶性区域的精确检测。该方法为在M形深度架构下融合多尺度交互策略和双重注意力机制的可行驶区域推荐方法,针对边界模糊、路况多变的复杂道路,能在复杂驾驶场景中基于视觉精细分割出道路的强推荐、弱推荐、不推荐行驶区域,以满足智能汽车在正常、应急等复杂行驶工况下对可行驶区域的不同检测需求。提出的模型兼顾了分割精度和时间效率,在复杂道路可行驶区域检测任务上有明显优势。
Description
技术领域
本发明涉及一种道路可行驶区域推荐方法,具体是一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,属于自动驾驶与计算机视觉技术领域,特别与道路可行驶区域检测方法有关。
背景技术
在基于视觉的自动驾驶环境感知中,智能汽车通过甄别前方场景的路面、车辆、行人、正负障碍等交通要素信息,检测出可供行驶的道路区域,能够为进一步的路径规划和驾驶决策提供重要的信息支持。对于铺装良好、车道明确、边界清晰的结构化道路,现阶段的自动驾驶已能实现有效的可行驶区域检测。但对于城郊非主干道、乡村街道等结构化程度较低的道路,存在车道与边界模糊、参与者随机性强等突出问题,使得面向结构化道路提出的可行驶区域检测算法难以有效捕捉非结构化道路的特征信息,严重影响检测任务的准确性与实时性,甚至导致失效。更重要的是,出于安全考虑,人类驾驶员在紧急情况下会选择在通常不被视为道路的平坦区域上进行应急行驶。鉴于非结构化道路尤为复杂多变的路况,智能汽车更应具备人类驾驶员对紧急工况的应对能力。因此,对复杂道路的可行驶区域进行多元化分割和精细化推荐,以适应不同的行驶工况,是攸关智能汽车行驶安全的关键任务。
当前,基于视觉的复杂道路可行驶区域检测方法主要可分为三类:基于外观描述、基于几何信息和基于语义分割。基于外观描述的方法由于单一的外观特征极易受到光照变化、路面阴影等因素的干扰;许多研究在外观描述的基础上又融入了道路的几何信息,但是,当场景的几何约束条件无法得到满足或所用的三维数据质量不高时,基于几何信息的方法性能会严重退化;现有基于语义分割方法的数据多在外国特定行驶环境下取得,与我国的复杂道路条件并不完全相符,并且算法对场景中的所有对象均进行语义分割,冗余度高、聚焦不足,所提取的可行驶区域精度受限。此外,无论是基于外观描述、几何信息还是语义分割的方法,现有的可行驶区域检测模型大多只提取单一的道路区域作为可行驶区域,无法兼顾正常行驶工况和紧急行驶工况,很难适应复杂道路的多变路况。因此,现阶段在实际自动驾驶任务中亟需一种考虑我国复杂交通场景,同时具备提取道路各不同区域并兼顾正常行驶工况和紧急行驶工况的可行驶区域推荐方法。
相关专利文献:CN113223313A公开了一种车道推荐方法、装置及车载通信设备,车道推荐方法包括:通过车载通信技术获取目标车辆当前所在道路的车道信息;通过车载通信技术接收目标车辆的周围车辆的车辆数据;根据所述车道信息和所述车辆数据,确定周围车辆在车道中的位置;根据所述车辆数据和周围车辆在车道中的位置,确定目标车辆待选择的各个车道的行驶参数;根据所述目标车辆待选择的各个车道的行驶参数,确定目标车辆通过预定路段的通行时长,根据所确定的通行时长进行车道推荐。CN112857381A公开了一种路径推荐方法、装置及可读介质。所述方法包括:通过识别采集的图像中具有拥堵特性的目标对象,根据所述目标对象和当前导航数据,确定行驶道路的路况信息,根据所述路况信息,生成备选路径,进行路径推荐,使得导航能够及时得到更具体、更准确的路况信息,从而解决无法及时纠正错误的路径的问题。
以上这些技术对于道路可行驶区域推荐方法应如何解决汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题、提高道路可行驶区域的检测精度和时间效率,并未给出具体的指导方案。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,注重对特征提取的高效性和准确性,有效兼顾准确性和实时性,以解决汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题,提高道路可行驶区域的检测精度和时间效率。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法(或者说是基于M形深度架构的道路可行驶区域推荐方法),其技术方案在于它包括如下步骤:
步骤(1):构建带标签的数据集,将数据集划分为训练集、验证集和测试集,并对数据集进行预处理;
进一步地,优选的技术方案可以是:所述步骤(1)中构建带标签的数据集的步骤如下:
步骤(101):对已有的复杂道路驾驶场景图像进行了标注合并与修改,使之符合强推荐、弱推荐、不推荐和背景4种类别的可行驶区域检测任务,此部分样本记为IDD_unst;
步骤(102):利用全地形智能实验车,在匀速行驶中利用车载摄像头对封闭/半封闭园区的复杂道路进行图像采集,并对其驾驶场景图像进行了相应标注,此部分样本记为Campus_unst;
步骤(103):利用普通乘用车的行车记录仪,采集并标注我国城郊、乡村等地的复杂道路驾驶场景图像,此部分样本记为China_unst。
步骤(2):以U形编码器-解码器结构为基础,通过增加多尺度分层输入、双注意力跳接、多尺度分层输出三大结构,构建一个M形编码器-解码器网络即M2AttentionNet模型。
步骤(3):在模型编码器的输入端构建倒金字塔式的分层输入结构即构建多尺度分层输入结构,此多尺度分层输入结构在不同尺度层级上保留浅层特征,并将其与深层语义进行逐层融合;
进一步地,优选的技术方案可以是:所述模型编码器输入端构建的多尺度分层输入结构的步骤如下:
步骤(31):对待测图像I进行连续的最大池化下采样,生成尺度递减的图像倒金字塔{I,1/2I,1/4I,1/8I};
步骤(32):将四种尺度的图像分层并入编码器支路的对应层级,经Conv、BN和ReLU激活提取特征后,以通道维度拼接的方式与前一层级生成的特征图合并为新的特征图输入网络编码器。
步骤(4):在M2AttentionNet编码器支路构建四个层级,利用3×3Conv、BN以及ReLU的组合操作在每一层均进行连续两次特征提取。
步骤(5):保持同一层级的分辨率不变,层间使用2×2最大池化进行下采样。
步骤(6):对于解码器支路,每一层使用参数相同的Conv-BN-ReLU组合进行连续两次特征提取,层间进行最近邻插值的2×2上采样。
步骤(7):利用1×1Conv、BN和Softmax激活在解码器支路最终端进行四元分类,生成与输入图像等尺度的预测结果,4个类别分别对应驾驶场景中的强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域。
步骤(8):在模型输出端设计分层预测与分层损失的输出结构;
进一步地,优选的技术方案可以是:在模型输出端设计分层预测与分层损失的输出结构的具体步骤(或者说是所述模型解码器支路构建的多尺度分层输出的具体步骤)和公式为:
步骤(81):在解码器支路的每一层均通过上采样和卷积组合(包括1×1Conv、BN和Softmax激活)输出对应的可行驶区域预测图Rs(层序s=1,2,3,4),并将所有层的预测图合并为最终的可行驶区域预测结果;
步骤(82):通过独热编码,融合并计算解码器支路所有层级的损失,第s层的层级损失ls定义为:
其中,I为输入图像,Ropt为真值,θ为网络参数,N为标签类别数目,此处N为4;在独热码模式下,对于类别k,Yk +和Yk -分别是其真值中标记为正(1)和负(0)的像素集,xk为预测值,γ为常数因子,ω为平衡因子;
步骤(83):计算模型的总损失函数L为四个解码器层级损失ls之和,L=∑ls;
更进一步地,优选的技术方案可以是:所述步骤(8)中在模型输出端设计分层预测与分层损失的公式中,γ=2,ω=0.55,损失函数为聚焦损失。
步骤(9):在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构,其具体步骤(优选的技术方案)如下:
步骤(91):在分层跳接过程中集成通道注意力和空间注意力双重机制;
步骤(92):编码器各层级得到的特征图Fw×h×c依次经过通道注意力模块和空间注意力模块进行精调;
步骤(93):将经双注意力机制调整后的特征图与解码器对应层的上采样特征图进行通道维度的拼接得到最终的输出特征图F”w×h×c。
步骤(10):利用训练集对M2AttentionNet模型进行训练,得到参数训练好的模型;利用测试集对训练好的模型进行检测,得到复杂交通场景下的道路可行驶区域;
进一步地,优选的技术方案可以是:步骤(10)在模型进行训练时,其具体参数设置为:训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化,并将其偏差初始化为0,利用随机梯度下降法对所有参数进行更新和优化;Batchsize参数设为64,初始学***翻转、亮度调节、随机噪声预处理方法对样本进行扩增。
步骤(11):采集实际行驶中的实时交通场景数据,输入到训练好的M2AttentionNet模型中,得到不同行驶区域的推荐结果。
本发明为一种在M形深度架构下融合多尺度交互策略和双重注意力机制的可行驶区域推荐方法,针对边界模糊、路况多变的复杂道路,能够在复杂驾驶场景中基于视觉精细分割出道路的强推荐、弱推荐、不推荐行驶区域,以满足智能汽车在正常、应急等复杂行驶工况下对可行驶区域的不同检测需求。首先,在编码器-解码器的骨架基础上,构建倒金字塔式的多尺度分层输入和分层输出结构以有效融合道路的形态学特征与语义信息;其次,构建集成通道注意力和空间注意力的跳跃连接结构以实现不同行驶性区域的精确检测。该方法在多种真实驾驶场景下均能较好地实现强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域的精细分割。与现有其他主流模型相比,提出的模型兼顾了分割精度和时间效率,在复杂道路可行驶区域检测任务上有明显优势。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:
(1)本发明提出了一种融合多尺度交互策略和双重注意力机制的道路可行驶区域分割模型M2AttentionNet,能够将道路的真实驾驶场景图像精准分割为强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域,可应对窄道会车、应急避让等特殊行驶工况,有效适应不同道路的多变路况。
(2)本发明在编码器-解码器骨架上设计多尺度分层输入、双注意力跳接、多尺度分层输出三大结构,构建了M形的深度卷积神经网络架构,有效融合浅层特征与深层语义,平衡不同尺度上的模型预测偏倚,并使学***均交并比达到92.46%,平均检测速度达到22.7帧/秒,有效完成了复杂道路可行驶区域的精细化检测任务,同时具有较好的泛化性能。
综上所述,本发明提供了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,它利用卷积神经网络和双重注意力机制注重对特征提取的高效性和准确性,有效兼顾了准确性和实时性,解决了汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题,提高了道路可行驶区域的检测精度和时间效率。
附图说明
图1为本发明实施例提供的M2AttentionNet模型的M形架构示意图。
图2为本发明实施例提供的道路可行驶区域精细推荐示意图,图2中(a)为驾驶场景1的示意图,(b)为本发明提供的道路可行驶区域精细推荐示意图。
图3为本发明实施例提供的双注意力跳接模块示意图。
图4为本发明实施例提供的本发明方法检测结果和人工检测结果对比示意图,图4中(c)为输入图像(驾驶场景2的示意图),(d)为人工检测结果图(提取结果图),(e)为本发明方法检测结果图(提取结果图)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,现结合具体实施例,并参照附图,对本发明作进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
如图1所示,图1为本发明实施例提供的M2AttentionNet模型的M形架构示意图,所需实现的目标如图2所示,基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法具体包括如下步骤:
步骤(1):构建带标签的数据集,将数据集划分为训练集、验证集和测试集,并对数据集进行预处理;
进一步地,所述步骤(1)中构建带标签的数据集的步骤如下:
步骤(101):对已有的道路驾驶场景图像进行了标注合并与修改,使之符合强推荐、弱推荐、不推荐和背景4种类别的可行驶区域检测任务,此部分样本记为IDD_unst;
步骤(102):利用全地形智能实验车,在匀速行驶中利用车载摄像头对封闭/半封闭园区的道路进行图像采集,并对其驾驶场景图像进行了相应标注,此部分样本记为Campus_unst;
步骤(103):利用普通乘用车的行车记录仪,采集并标注我国城郊、乡村等地的复杂道路驾驶场景图像,此部分样本记为China_unst。
步骤(2):以U形编码器-解码器结构为基础,通过增加多尺度分层输入、双注意力跳接、多尺度分层输出三大结构,构建一个M形编码器-解码器网络即M2AttentionNet模型。
步骤(3):在模型编码器的输入端构建倒金字塔式的分层输入结构即构建多尺度分层输入结构,此多尺度分层输入结构在不同尺度层级上保留浅层特征,并将其与深层语义进行逐层融合;所述模型编码器输入端构建的多尺度分层输入结构的步骤如下:
步骤(31):对待测图像I进行连续的最大池化下采样,生成尺度递减的图像倒金字塔{I,1/2I,1/4I,1/8I};
步骤(32):将四种尺度的图像分层并入编码器支路的对应层级,经Conv、BN和ReLU激活提取特征后,以通道维度拼接的方式与前一层级生成的特征图合并为新的特征图输入网络编码器。
步骤(4):在M2AttentionNet编码器支路构建四个层级,利用3×3Conv、BN以及ReLU的组合操作在每一层均进行连续两次特征提取。
步骤(5):保持同一层级的分辨率不变,层间使用2×2最大池化进行下采样。
步骤(6):对于解码器支路,每一层使用参数相同的Conv-BN-ReLU组合进行连续两次特征提取,层间进行最近邻插值的2×2上采样。
步骤(7):利用1×1Conv、BN和Softmax激活在解码器支路最终端进行四元分类,生成与输入图像等尺度的预测结果,4个类别分别对应驾驶场景中的强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域。
步骤(8):在模型输出端设计分层预测与分层损失的输出结构,该输出结构的具体步骤(或者说是所述模型解码器支路构建的多尺度分层输出的具体步骤)如下:
步骤(81):在解码器支路的每一层均通过上采样和卷积组合(包括1×1Conv、BN和Softmax激活)输出对应的可行驶区域预测图Rs(层序s=1,2,3,4),并将所有层的预测图合并为最终的可行驶区域预测结果;
步骤(82):通过独热编码,融合并计算解码器支路所有层级的损失,第s层的层级损失ls定义为:
其中,I为输入图像,Ropt为真值,θ为网络参数,N为标签类别数目,此处N为4;在独热码模式下,对于类别k,Yk +和Yk -分别是其真值中标记为正(1)和负(0)的像素集,xk为预测值,γ为常数因子,ω为平衡因子。公式中,γ=2(可以采用的数值),ω=0.55(可以采用的数值),损失函数为聚焦损失。
步骤(83):计算模型的总损失函数L为四个解码器层级损失ls之和,L=∑ls。
步骤(9):在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构,如图3所示,其具体步骤如下:
步骤(91):在分层跳接过程中集成通道注意力和空间注意力双重机制;
步骤(92):编码器各层级得到的特征图Fw×h×c依次经过通道注意力模块和空间注意力模块进行精调;
步骤(93):将经双注意力机制调整后的特征图与解码器对应层的上采样特征图进行通道维度的拼接得到最终的输出特征图F”w×h×c。
步骤(10):利用训练集对M2AttentionNet模型进行训练,得到参数训练好的模型;利用测试集对训练好的模型进行检测,得到复杂交通场景下的道路可行驶区域。步骤(10)在模型进行训练时,其具体参数设置为:训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化,并将其偏差初始化为0,利用随机梯度下降法对所有参数进行更新和优化;Batchsize参数设为64,初始学***翻转、亮度调节、随机噪声预处理方法对样本进行扩增。
步骤(11):采集实际行驶中的实时交通场景数据,输入到训练好的M2AttentionNet模型中,得到不同行驶区域的推荐结果。
如图4所示,图4为本发明方法检测结果和人工检测结果对比示意图。
进一步地,本发明方法在公开数据集IDD和构建数据集URDD上进行了更广泛的检测和提取实验,包括结构化道路和非结构化道路的实验,并与2015-2021年间公开发表、业内公认一流的FCN模型、UNet模型、SegNet模型、PSPNet模型、DeeplabV3+模型、DANet模型、modified DeeplabV3+模型、Hierarchical Attention模型、HR-Net模型等9个代表性方法(上述模型皆为公知技术),在相同条件下进行了定量的比较。比较采用2个像素级评估指标:各类别的交并比(IoU)和综合性的平均交并比(mIoU),其定义见表1。其中,IoU是某一类别的模型检出区域(Rk)与其真值区域(Rk opt)的交叠率,即交集与并集的比值。mIoU是全类别的平均IoU指标。IoU和mIoU的值越高,代表模型的分割性能越强。
表1算法性能评估指标
表2为不同模型在URDD数据集上取得的精度与效率。所有可获取源码的方法与本发明方法均在同一工作站(NVIDIA GTX 3090GPU)上运行。可见,本发明方法92.46%的mIoU分数为同类算法中最优。同时,得益于多尺度分层输入、双注意力跳接、多尺度分层输出的轻量化结构,本发明方法在采用多尺度交互和双重注意力的情况下每秒依然能够处理22.7帧图像,算法效率可以满足实时性要求。
表2
模型 | 图像尺寸 | mIoU | 速度/(帧·s-1) |
FCN | 640×360 | 67.76% | 5.8 |
UNet | 640×360 | 78.23% | 37.1 |
SegNet | 640×360 | 68.34% | 15.2 |
PSPNet | 640×360 | 85.40% | 3.4 |
DeepLabV3+ | 640×360 | 85.90% | 2.4 |
DANet | 640×360 | 84.58% | 8.1 |
modified DeepLabV3+ | 512×512 | 86.75% | 12.6 |
Hierarchical Attention | 640×360 | 88.19% | 15.3 |
HR-Net | 640×360 | 86.56% | 16.2 |
本发明方法 | 640×360 | 92.46% | 22.7 |
进一步,为验证本发明方法在多种行驶场景的泛化性能,基于已在URDD数据集完成训练的模型,本发明方法还分别在行车记录仪的新采集数据(含非结构化道路和结构化道路两种场景)以及公开场景KITTI数据集中的语义分割集进行了不经训练、直接测试的分割实验。本发明方法能够对结构化道路场景和非结构化道路场景同时进行较为有效的可行驶区域推荐,在不同场景下的多个实车采集样本数据集上综合mIoU分数平均达到83.94%,证明模型具有较好的泛化性能。
表3
实验结果证明了本发明方法在高检测精度、高泛化性能的同时也具备高时间效率,有效解决了不同道路场景下可行驶区域检测这一难题。
综上所述,本发明提供了一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,它利用卷积神经网络和双重注意力机制注重对特征提取的高效性和准确性,解决了汽车在实际驾驶任务中道路区域边界模糊混叠与行驶工况复杂多变的检测难题,提高了道路可行驶区域的检测精度和时间效率。本发明有效兼顾了准确性和实时性,在不同真实场景下均能取得良好的精细检测效果,平均交并比达到92.46%,平均检测速度达到22.7帧/秒,有效完成了复杂道路可行驶区域的精细化检测任务,同时具有较好的泛化性能。
Claims (7)
1.一种基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于它包括如下步骤:
步骤(1):构建带标签的数据集,将数据集划分为训练集、验证集和测试集,并对数据集进行预处理;
步骤(2):以U形编码器-解码器结构为基础,通过增加多尺度分层输入、双注意力跳接、多尺度分层输出三大结构,构建一个M形编码器-解码器网络即M2AttentionNet模型;
步骤(3):在模型编码器的输入端构建倒金字塔式的分层输入结构即构建多尺度分层输入结构,此多尺度分层输入结构在不同尺度层级上保留浅层特征,并将其与深层语义进行逐层融合;
步骤(4):在M2AttentionNet编码器支路构建四个层级,利用3×3Conv、BN以及ReLU的组合操作在每一层均进行连续两次特征提取;
步骤(5):保持同一层级的分辨率不变,层间使用2×2最大池化进行下采样;
步骤(6):对于解码器支路,每一层使用参数相同的Conv-BN-ReLU组合进行连续两次特征提取,层间进行最近邻插值的2×2上采样;
步骤(7):利用1×1Conv、BN和Softmax激活在解码器支路最终端进行四元分类,生成与输入图像等尺度的预测结果,4个类别分别对应驾驶场景中的强推荐行驶区域、弱推荐行驶区域、不推荐行驶区域和背景区域;
步骤(8):在模型输出端设计分层预测与分层损失的输出结构;
步骤(9):在编码器-解码器中间的跳跃连接部分设计双注意力跳接结构;
步骤(10):利用训练集对M2AttentionNet模型进行训练,得到参数训练好的模型;利用测试集对训练好的模型进行检测,得到交通场景下的道路可行驶区域;
步骤(11):采集实际行驶中的实时交通场景数据,输入到训练好的M2AttentionNet模型中,得到不同行驶区域的推荐结果。
2.根据权利要求1所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,所述步骤(3)中模型编码器输入端构建的多尺度分层输入结构的具体步骤为:
步骤(31):对待测图像I进行连续的最大池化下采样,生成尺度递减的图像倒金字塔{I,1/2I,1/4I,1/8I};
步骤(32):将四种尺度的图像分层并入编码器支路的对应层级,经Conv、BN和ReLU激活提取特征后,以通道维度拼接的方式与前一层级生成的特征图合并为新的特征图输入网络编码器。
3.根据权利要求1或2所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,所述步骤(8)中在模型输出端设计分层预测与分层损失的输出结构的具体步骤为:
步骤(81):在解码器支路的每一层均通过上采样和卷积组合,包括1×1Conv、BN和Softmax激活,输出对应的可行驶区域预测图Rs,层序s=1,2,3,4,并将所有层的预测图合并为最终的可行驶区域预测结果;
步骤(82):通过独热编码,融合并计算解码器支路所有层级的损失,第s层的层级损失ls定义为:
其中,I为输入图像,Ropt为真值,θ为网络参数,N为标签类别数目,此处N为4;在独热码模式下,对于类别k,Yk +和Yk -分别是其真值中标记为正(1)和负(0)的像素集,xk为预测值,γ为常数因子,ω为平衡因子;
步骤(83):计算模型的总损失函数L为四个解码器层级损失ls之和,L=∑ls。
4.根据权利要求3所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,所述步骤(8)中在模型输出端设计分层预测与分层损失的公式中,γ=2,ω=0.55,损失函数为聚焦损失。
5.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,所述步骤(9)中设计的双注意力跳接结构,其具体步骤为:
步骤(91):在分层跳接过程中集成通道注意力和空间注意力双重机制;
步骤(92):编码器各层级得到的特征图Fw×h×c依次经过通道注意力模块和空间注意力模块进行精调;
步骤(93):将经双注意力机制调整后的特征图与解码器对应层的上采样特征图进行通道维度的拼接得到最终的输出特征图F”w×h×c。
6.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,步骤(10)在模型进行训练时,其具体参数设置为:训练过程中使用Keras内置的Glorot工具对所有卷积层参数进行初始化,并将其偏差初始化为0,利用随机梯度下降法对所有参数进行更新和优化;Batchsize参数设为64,初始学习率为1e-4,动量为0.9,每迭代一次递减1e-6;为防止模型过拟合,输入层使用比率为0.1的dropout,输出层使用比率为0.4的dropout,同时采用提前停止策略,当监测到验证集误差在20次迭代循环内不再下降时提前停止训练。
7.根据权利要求1、2、4任一项所述的基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法,其特征在于,步骤(10)在模型进行训练时采用十折交叉验证法,并使用水平翻转、亮度调节、随机噪声预处理方法对样本进行扩增。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366807.1A CN114674338B (zh) | 2022-04-08 | 2022-04-08 | 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210366807.1A CN114674338B (zh) | 2022-04-08 | 2022-04-08 | 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114674338A CN114674338A (zh) | 2022-06-28 |
CN114674338B true CN114674338B (zh) | 2024-05-07 |
Family
ID=82077498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210366807.1A Active CN114674338B (zh) | 2022-04-08 | 2022-04-08 | 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114674338B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345875A (zh) * | 2018-04-08 | 2018-07-31 | 北京初速度科技有限公司 | 可行驶区域检测模型训练方法、检测方法和装置 |
CN108985194A (zh) * | 2018-06-29 | 2018-12-11 | 华南理工大学 | 一种基于图像语义分割的智能车辆可行驶区域的识别方法 |
FR3092546A1 (fr) * | 2019-02-13 | 2020-08-14 | Safran | Identification de zones roulables avec prise en compte de l’incertitude par une méthode d’apprentissage profond |
CN111882620A (zh) * | 2020-06-19 | 2020-11-03 | 江苏大学 | 一种基于多尺度信息道路可行驶区域分割方法 |
CN112639821A (zh) * | 2020-05-11 | 2021-04-09 | 华为技术有限公司 | 一种车辆可行驶区域检测方法、***以及采用该***的自动驾驶车辆 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102421855B1 (ko) * | 2017-09-28 | 2022-07-18 | 삼성전자주식회사 | 주행 차로를 식별하는 방법 및 장치 |
-
2022
- 2022-04-08 CN CN202210366807.1A patent/CN114674338B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345875A (zh) * | 2018-04-08 | 2018-07-31 | 北京初速度科技有限公司 | 可行驶区域检测模型训练方法、检测方法和装置 |
CN108985194A (zh) * | 2018-06-29 | 2018-12-11 | 华南理工大学 | 一种基于图像语义分割的智能车辆可行驶区域的识别方法 |
FR3092546A1 (fr) * | 2019-02-13 | 2020-08-14 | Safran | Identification de zones roulables avec prise en compte de l’incertitude par une méthode d’apprentissage profond |
CN112639821A (zh) * | 2020-05-11 | 2021-04-09 | 华为技术有限公司 | 一种车辆可行驶区域检测方法、***以及采用该***的自动驾驶车辆 |
WO2021226776A1 (zh) * | 2020-05-11 | 2021-11-18 | 华为技术有限公司 | 一种车辆可行驶区域检测方法、***以及采用该***的自动驾驶车辆 |
CN114282597A (zh) * | 2020-05-11 | 2022-04-05 | 华为技术有限公司 | 一种车辆可行驶区域检测方法、***以及采用该***的自动驾驶车辆 |
CN111882620A (zh) * | 2020-06-19 | 2020-11-03 | 江苏大学 | 一种基于多尺度信息道路可行驶区域分割方法 |
Non-Patent Citations (1)
Title |
---|
基于SegNet的非结构道路可行驶区域语义分割;张凯航;冀杰;蒋骆;周显林;;重庆大学学报;20200315(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114674338A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105160309B (zh) | 基于图像形态学分割及区域生长的三车道检测方法 | |
CN108985194B (zh) | 一种基于图像语义分割的智能车辆可行驶区域的识别方法 | |
CN112200161A (zh) | 一种基于混合注意力机制的人脸识别检测方法 | |
US8487991B2 (en) | Clear path detection using a vanishing point | |
CN102044151A (zh) | 基于光照可见度辨识的夜间车辆视频检测方法 | |
Cai et al. | Applying machine learning and *** street view to explore effects of drivers’ visual environment on traffic safety | |
CN112329533B (zh) | 一种基于图像分割的局部路面附着系数估计方法 | |
CN110532961A (zh) | 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法 | |
KR102377044B1 (ko) | 보행 안전 위험 평가 장치 및 방법, 그리고 이를 구현하기 위한 프로그램이 기록된 기록매체 | |
AU2017261601A1 (en) | Intelligent automatic license plate recognition for electronic tolling environments | |
CN114092917A (zh) | 一种基于mr-ssd的被遮挡交通标志检测方法及*** | |
Kim et al. | Toward explainable and advisable model for self‐driving cars | |
CN212009589U (zh) | 一种基于深度学习的视频识别行车车轨迹获取装置 | |
CN111046723B (zh) | 一种基于深度学习的车道线检测方法 | |
Cheng et al. | Semantic segmentation of road profiles for efficient sensing in autonomous driving | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN114674338B (zh) | 基于分层输入输出和双注意力跳接的道路可行驶区域精细推荐方法 | |
Sharma et al. | Deep Learning-Based Object Detection and Classification for Autonomous Vehicles in Different Weather Scenarios of Quebec, Canada | |
CN115294545A (zh) | 一种基于深度学习的复杂路面车道识别方法及芯片 | |
CN113945222B (zh) | 道路信息的识别方法、装置、电子设备、车辆及介质 | |
CN114911891A (zh) | 历史街道空间品质分析方法、***、存储介质及设备 | |
Chae | Simulation of Pedestrian-vehicle Interactions at Roundabouts. | |
Kim | Explainable and Advisable Learning for Self-driving Vehicles | |
CN116386044A (zh) | 一种弯道违法占道预测方法及*** | |
CN116052135B (zh) | 一种基于纹理特征的雾天交通标志识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |