CN116450761A - 地图生成方法、装置、电子设备及存储介质 - Google Patents
地图生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116450761A CN116450761A CN202310301074.8A CN202310301074A CN116450761A CN 116450761 A CN116450761 A CN 116450761A CN 202310301074 A CN202310301074 A CN 202310301074A CN 116450761 A CN116450761 A CN 116450761A
- Authority
- CN
- China
- Prior art keywords
- map
- feature
- features
- sample
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 147
- 230000001537 neural effect Effects 0.000 claims abstract description 75
- 210000005036 nerve Anatomy 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 34
- 230000007246 mechanism Effects 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003935 attention Effects 0.000 description 49
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000000926 separation method Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种地图生成方法、装置、电子设备及存储介质,涉及地图生成技术领域。该方法包括:获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。通过本发明实施例的方法,可以通过将当前的目标图像特征融合神经地图先验来提高地图的推理性能,以提升在线语义地图的预测质量。
Description
技术领域
本发明实施例涉及地图生成技术领域,尤其涉及一种地图生成方法、装置、电子设备及存储介质。
背景技术
针对高清语义地图,目前大多数高清语义地图是通过昂贵的人工注释建立的离线地图,当道路情况发生变化时,其并不支持及时更新,这就会导致车辆使用过时的地图所带来的安全隐患问题。
基于此,相关技术中提出了对语义地图进行在线推测,这些方案通常使用深度学习方法实时推断语义地图,以有效解决地图无法及时更新的问题。然而,目前推断出的地图质量通常远低于预先构建的离线地图,也就是说,如何实时预测出高质量的语义地图是本发明亟待解决的技术问题。
发明内容
基于上述技术问题,本发明实施例提供一种地图生成方法、装置、电子设备及存储介质,以提高语义地图的预测质量。
本发明实施例提供了一种地图生成方法,所述方法包括:
获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;
根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;
将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;
将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
本发明实施例第二方面提供了一种地图生成装置,所述装置包括:
图像特征确定模块,用于获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;
先验特征确定模块,用于根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;
融合特征确定模块,用于将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;
地图确定模块,用于将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
本发明实施例第三方面提供了一种电子设备,所述电子设备包括:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被该处理器执行时实现如本发明实施例第一方面的地图生成方法。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面的地图生成方法。
通过本发明实施例的地图生成方法,获取目标图像,通过编码器对目标图像进行处理,得到目标图像特征;根据目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;将目标图像特征与目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;将目标融合特征输入至解码器,得到目标图像对应的语义地图。在本方法中,提出了神经地图先验,以在进行地图推理时通过训练好的地图特征生成模型,将当前特征(即目标图像特征)与之前特征(神经地图先验中对应的目标先验特征)进行特征融合,从而通过将当前的目标图像特征融合神经地图先验来提高地图的推理性能,以提升在线语义地图的预测质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例示出的一种地图生成方法的流程图;
图2是本发明一实施例示出的一种GRU融合可视化后的注意力图;
图3是本发明一实施例示出的一种地图生成方法的流程图;
图4是本发明一实施例提供的地图生成装置的结构框图;
图5是本发明一实施例示出的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
事实上,高清语义地图的用途非常广泛,对于行人、车辆导航有着重要意义。例如,高清(HD)语义地图是城市街道自动驾驶的关键组成部分,自动驾驶车辆依赖于高清(HD)语义地图来预测未来轨迹,并在城市街道上进行导航。大多数自动汽车使用离线HD语义地图,这些地图是预先注释的。这些离线语义地图是使用复杂的构建管道构建的,包括多次LiDAR扫描的勘测车,全局点云对齐和手动地图元素注释。虽然这些离线映射解决方案实现了高精度,但它们很麻烦且昂贵,限制了它们的可扩展性。
而如前所述,当前已有一些方案提出从车载传感器观测中进行高清语义地图的学习,这些解决方案通常使用深度学习方法实时推断地图元素,有效地消除了地图更新问题。然而,这些方法的高清语义地图学习取决于传感器的感知范围,容易受遮挡影响,在恶劣天气和被遮挡的情况下推断的地图质量可能会存在进一步的恶化,导致推断的地图质量通常低于预先构建的全局离线地图,无法达到语义地图的精度要求。
基于此,本发明提供了一种地图生成方法,该方法提出了神经地图先验,即之前推理得到的地图的神经网络特征,通过事先训练好的地图特征生成模型融合当前图像特征(即目标图像特征)与神经地图先验中对应的先验特征(即目标先验特征),得到细化后的精细特征(即目标融合特征),以进一步得到目标对象对应的语义地图,从而提高了语义地图的在线预测质量。也就是说,本发明提供了一种结合了两个时间线上最佳特征的混合建图方法,以通过预先构建并维护的神经地图先验进一步提升高清语义地图的学习性能。
参照图1,图1是本发明一实施例示出的一种地图生成方法的流程图。
如图1所示,该方法包括以下步骤:
步骤S11:获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征。
本实施例可以先获取目标图像,以基于目标图像推测出与目标图像对应的语义地图。其中,目标图像可以为道路环境图像或街道环境图像,目标图像可以是单帧全景图像,可以是多帧周围图像,也可以是多帧周围图像拼接而成的图像。具体的,目标图像可以是通过车辆中能够捕捉周围环境的摄像机所获取到的,例如可以是车载六个环绕视角摄像头捕获的图像逐帧运行。其中,车辆可以是自动驾驶车辆,可以是智能车辆,还可以是普通车辆。进一步地,本实施例可以是实时拍摄获取目标图像,通过本实施例的方法实时进行目标图像对应的语义地图的推测,也可以是拍摄目标图像并保存,之后再获取拍摄的目标图像,通过本实施例的方法进行语义地图的推测,本实施例对此不作限制。
本实施例可以通过编码器对获取到的目标图像进行处理,得到目标图像对应的目标图像特征。其中,本实施例中的编码器和解码器可以是进行地图推理的任意编码器-解码器架构。例如,可以是HDMapNet模型(即一个在线高清地图构建与评估框架模型),可以是LSS模型(Lift,Splat,Shoot模型,即通过隐含的非投影到三维的方式对任意相机支架的图像进行编码模型),可以是BEVFormer模型(即通过时空变换从多镜头图像中学习鸟瞰表征模型),也可以是VectorMapNet模型(即端到端的矢量高清地图学习模型)等等,这些都是相关技术中进行在线语义地图推断的模型,本实施例提供的地图生成方法可以在相关技术中语义地图推断模型的基础上进一步提升语义地图的推理质量。在一实施例中,编码器处理得到的目标图像特征可以是BEV特征。
步骤S12:根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征。
本实施例中预先保存有神经地图先验(Neural Map Prior,NMP),本实施例的神经地图先验是一种全局地图的神经表示,为之前通过本实施例方法推理得到的地图的神经网络特征,本实施例的神经地图先验可以定义为初始化为空的稀疏地图图块。也就是说,本实施例一开始可以先创建出稀疏地图图块的存储方式,且创建时为空,然后依据本实施例的方法推理得到目标融合特征后,逐步将得到的目标融合特征作为神经地图先验进行存储,从而得到预先存储的神经地图先验。
可以理解的是,本实施例的神经地图先验为全局神经地图先验,目标融合特征为局部地图特征,且目标图像对应的语义地图为局部语义地图。其中,这里的“全局”与“局部”相对应,指的是本实施例的神经地图先验(即全局神经地图先验)包括多个“局部”地图特征。
本实施例中可以获取到目标图像对应的位置信息,然后根据位置信息从神经地图先验中确定出与该位置信息对应的先验特征(即之前通过本方法推断得到的融合特征)以作为目标先验特征。其中,本实施例中神经地图先验是通过稀疏地图图块进行存储的,每个之前推断得到的融合特征通过与其对应的图像的位置信息作为地理索引存入相应地图图块中。即每个地图图块对应于物理地图上的一个位置。也就是说,用于推理的图像对应有位置信息,根据图像通过本方法推理得到融合特征后,该融合特征以地图图块的形式与该位置信息对应存储,从而形成有多个稀疏地图图块的神经地图先验。
在本实施例中,将地图图块作为神经地图先验的存储格式。这是由于在城市中,建筑物占据了大部分区域,而与道路相关的区域只占据了一小部分。为了避免随着城市的物理规模扩大而增大地图的存储量,本实施例设计了一种将城市划分为稀疏地图图块的存储结构,这些地图图块由它们的物理坐标进行索引。例如,在nuScenes数据集中,波士顿地区的左上角坐标为(298m,328m),右下角坐标为(2527m,1896m),且nuScenes数据集中波士顿是一个高2公里、宽1.5公里的城市区域。而如果将神经地图先验的特征维度定义为265通道,地图先验特征的分辨率为0.3m,那么将nuScenes数据集中波士顿的数据存储起来需要38GB。基于此,本实施例没有在城市的每个位置存储神经地图先验,而是将城市划分为32x32个地图图块,每个地图图块的尺寸为69m x 49m。通常,本实施例的地图图块只比鸟瞰视图(BEV)范围稍大,后者设置为60m x 30m。在车载地图推断期间,只需从全局地图(即神经地图先验)中提取相关的地图图块,尤其是那些与当前感知范围重叠的地图图块,从而无需存储不含道路相关信息的地图图块。去除这些地图图块后,本实施例只需要12GB就可以保存整个城市,如波士顿地区的道路信息。
如此,稀疏的地图图块结构节省了内存消耗,每辆汽车只需要少量磁盘内存就可以采用本实施例的地图图块结构。车辆不需要存储整个城市的地图,而是可以按需下载地图图块。这些地图图块将在保持固定训练模型的同时被更新、整合和异步上传到云端。随着时间的推移,可以获得了越来越多的行程数据,从而获得更广阔、质量更好的地图。
其中,目标图像对应的位置信息可以是通过车辆中提供精确定位的定位***所获取到的,例如车辆中配备有车载传感器,该车载传感器包括有捕捉周围环境的摄像机和提供精确定位的定位***(如GPS/IMU***),从而可以通过摄像机获取目标图像,通过定位***获取到与目标图像对应的位置信息。
步骤S13:将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征。
本实施例中,在得到目标图像特征和目标先验特征之后,可以将目标图像特征和目标先验特征输入至事先训练好的地图特征生成模型,通过地图特征生成模型对目标图像特征和目标先验特征进行特征融合,得到地图特征生成模型输出的、经过融合精修后的目标融合特征。其中,本实施例事先训练好的地图特征生成模型用于在进行局部地图预测时融合目标图像特征以及其对应的神经地图先验,以对目标图像特征进行进一步细化,从而推断出高精度的局部语义地图。
步骤S14:将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
本实施例中,在得到地图特征生成模型输出的目标融合特征后,可以将目标融合特征输入至解码器,得到解码器输出的局部语义地图,即得到该目标图像对应的语义地图,从而完成在线局部地图的预测。
本实施例中在进行在线语义地图预测时,提出了神经地图先验,不仅考虑了获取到的当前特征(即目标图像特征),还会考虑到之前特征(神经地图先验中对应的目标先验特征),从而通过简单高效的地图特征生成模型,将当前特征与先前特征融合,以对当前特征进行精细处理,通过以前从不同车辆不同时间点收集得到的神经地图先验来与相关地图推理技术中经编码器处理得到的目标图像特征进行兼容,从而提高地图的推理性能,以达到提升在线语义地图的预测质量。且本实施例可以通过神经地图先验中的可靠信息避免在线局部地图推理受到恶劣天气的影响,使得在恶劣天气下的地图推理结果得到显著的改进。
结合以上实施例,在一种实施方式中,本发明还提供了一种地图生成方法,在该方法中,还可以包括步骤:将所述神经地图先验中的所述目标先验特征替换为所述目标融合特征。
本实施例中,在得到目标融合特征后,目标融合特征不仅可以通过解码器处理得到目标图像对应的语义地图,目标融合特征还可以用于对神经地图先验进行更新。其中,本实施例的目标图像特征的大小与目标先验特征的大小相同,融合得到的目标融合特征的大小与目标先验特征的大小相同,神经地图先验是在每次得到目标融合特征后进行更新的。具体的,可以是在得到该目标融合特征后,将神经地图先验中的目标先验特征替换为该目标融合特征,从而实现神经地图先验的更新。
在本实施例中,经地图特征生成模型输出的目标融合特征可以用于全局神经地图先验的更新和局部地图的推理,使得局部地图推理的效果和全局神经地图先验的表达质量相互改进,从而随着车辆穿过场景越多,预测的局部语义地图的质量更好,全局神经地图先验更完整和及时更新。
结合以上实施例,在一种实施方式中,本发明还提供了一种地图生成方法,在该方法中,还包括了地图特征生成模型的训练方法,具体地,该地图特征生成模型的训练步骤可以包括如下步骤:
步骤A:获取样本图像,通过所述编码器对所述样本图像进行处理,得到样本图像特征。
本实施例中,可以从样本库或数据库中获取样本图像,例如数据库可以为nuScenes数据集,这是一个大型自动驾驶数据集,涵盖了各种天气条件、交通状况和一天中的不同时段,它包括多次遍历,具有精确的定位和带有注释的高清地图语义标签。例如数据集可以包括外部摄像头参数和自主车辆与全局坐标系的转换关系。
获取到样本图像后,可以通过编码器对样本图像进行图像处理,例如进行BEV特征的提取,从而得到样本图像对应的样本图像特征,样本图像特征可以是BEV特征。其中,本实施例训练时用到的编-解码器结构与应用时用到的编-解码器结构相同。如可以是进行地图推理的任意编码器-解码器架构。例如,可以是HDMapNet模型,可以是LSS模型,可以是BEVFormer模型,也可以是VectorMapNet模型等等。
步骤B:根据所述样本图像对应的位置信息,从所述神经地图先验中确定对应的样本先验特征。
本实施例中,可以根据样本图像对应的位置信息,从神经地图先验中确定出与该位置信息对应的先验特征以作为样本先验特征。其中,本实施例中训练时生成神经地图先验的方法与应用时生成神经地图先验的方法相同。可以理解的是,训练时,神经地图先验从无到有,并辅助融合模块(即初始模型)的训练。到应用时,神经地图先验从无到有,并通过融合模块(即初始模型)逐步填充及更新,帮助在线地图预测得更好。
步骤C:将所述样本图像特征与所述样本先验特征输入至初始模型进行特征融合,得到样本融合特征;所述样本融合特征用于确定所述样本图像对应的语义地图以及更新所述神经地图先验。
本实施例构建了一个初始模型,该初始模型用于对样本图像特征和样本先验特征进行特征融合。然后,本实施例将样本图像特征和样本先验特征输出至初始模型进行特征融合,以得到初始模型输出的样本融合特征。其中,样本融合特征可以用于确定样本图像对应的语义地图以及更新神经地图先验,也即进行局部地图推理和全局神经地图先验的更新。具体的,局部地图推理流程可以是在测试车辆上直接运行,通过融合车载传感器观测和全局地图先验以进行局部地图推理,也可以是通过获取到的数据集中的样本数据进行。而局部地图推理反过来可以通过注意操作更新地图先验。这两个流程形成了一个周期,并可以通过收集到的大量数据(如每天从大量车辆在开车道路上收集到的数据)相互改进。
步骤D:基于所述样本融合特征对所述初始模型进行训练,将训练好的所述初始模型确定为所述地图特征生成模型。
本实施例中,在初始模型输出样本融合特征后,可以基于样本融合特征对该初始模型进行训练,从而将训练好的初始模型确定为地图特征生成模型。
示例的,在一实施例中,采用BEV编码器-解码器架构,将BEV编码器称为fE,解码器称为fD,神经地图先验(即全局神经地图先验)记作其中,HG和WG分别表示城市的高度和宽度。首先,一组观测值由样本图像I以及其对应的位置信息(即为全局坐标系中的车辆位置)组成,本实施例中一组观测值为一组训练数据。其中,本实施例可以使用Gego将BEV的每个像素的局部坐标(/>其中H和W表示BEV特征的尺寸)转换为固定的全局坐标系,即为/>首先,可以先获取样本图像特征(即在线BEV特征)/>其中,C表示网络的隐藏嵌入尺寸,然后使用车辆位置Pego查询全局先验Pg以获得样本先验特征(即局部先验BEV特征)/>随后,应用融合函数(即初始模型)得到样本融合特征(即细化的BEV特征):表示为Frefine=fFusion(O,Pl),其中/>最后,将细化后的BEV特征通过解码器fD解码为最终地图输出,同时使用Frefine更新全局地图先验Pg。整个过程持续运行,并随时间整合过去不同时期的多样且互补的观测结果,从而完成地图特征生成模型的训练。
在本实施例中,针对地图特征生成模型的训练,提出了一种神经地图先验,以结合离线全局神经地图先验的维护以及在线局部地图的推理,同时通过本实施例的方法进行局部推理消耗的计算量和内存与相关技术中的单帧***相似,却能够取得更好的技术效果:提升局部地图推理的质量。
结合以上实施例,本发明还提供了一种地图生成方法,在该方法中,所述初始模型包括:注意力机制模块和门控循环单元;且上述步骤C具体还可以包括以下步骤:
步骤C1:将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征。
本实施例中,提出的神经地图先验(NMP)中的先验特征为在线地图推断提供了强有力的先验信息。此时需要一个融合函数来聚合先验特征和当前特征。通常,连接操作被广泛用于特征聚合,它是一个对称函数,其中先验特征和当前特征被认为同等重要。然而,在本实施例的地图问题中,每次遍历间的道路状况可能发生很大变化,这意味着当前特征和先验特征可能具有不同的重要性。因此,本实施例使用一个由注意力机制模块和门控循环单元变体组成的非对称融合函数,来构建初始模型。
本实施例的初始模型中的注意力机制模块主要用于动态捕捉当前特征和先前特征(即先验特征)之间的相关性以进行特征融合。其中,本实施例中的注意力机制模块可以为当前到先前交叉注意力模块(C2P attention)。本实施例将样本图像特征与样本先验特征输入至注意力机制模块,通过注意力机制模块对当前特征和先前特征进行特征融合处理,从而得到注意力机制模块输出的中间融合特征。
步骤C2:通过所述门控循环单元对所述中间融合特征与所述样本先验特征进行特征融合,得到所述样本融合特征。
针对神经地图先验的更新,如果更新速度太快,神经地图先验可能很容易受到一些劣质局部观察的影响;如果更新速度过慢,神经地图先验可能无法及时捕捉道路状况的变化。基于此,本实施例考虑到控制神经地图先验的更新速度,可以通过门控循环单元(GRU)来对注意力机制模块输出的中间融合特征与样本先验特征进行特征融合,以平衡新生成的中间融合特征与样本先验特征(即旧地图先验)之间的比例,从而得到最终的样本融合特征。
示例的,可以是通过2D卷积变体的门控循环单元以平衡更新和遗忘的比例。其中,注意力机制模块输出的中间融合额特征可以为O′,在t-1时更新的局部地图先验特征(即样本先验特征或目标先验特征)是从全局神经地图先验/>(即神经地图先验)中提取的。门控循环单元GRU将O′与t-1时更新的局部先验特征/>融合,得到t时的新先验特征(即样本融合特征或目标融合特征),并通过解码器预测局部语义地图。然后,通过直接替换来更新相应位置的全局神经地图先验/>也即将神经地图先验中的样本先验特征或目标先验特征替换为新生成的样本融合特征或目标融合特征。
具体的,门控循环单元可以GRU使用以下操作将O′与先前特征融合:
其中,将zt表示为更新门,rt表示为复位门或遗忘门,σ表示Sigmoid函数,W*表示2D卷积的权重(如式(1)中的Wz、Wr、Wh均为权重),操作符⊙表示Hadamard积。也就是说,GRU中的更新门zt和遗忘门rt决定了从先前遍历(即先前特征)中融合到当前BEV特征O′的信息量以及将当前BEV特征融合到全局地图先验特征中的信息量。作为数据驱动的方法,本实施例中的GRU作为选择性注意机制,取代了一些手工制作的线性更新规则,实现更好的效果。
进一步的,门控循环单元GRU融合过程的最后一步如下:
其中,可以理解为zt是一个可学习的参数,其中H,W表示BEV特征的高度和宽度。局部地图先验特征称为/>当前特征称为/>可以观察到,当当前帧的预测质量较好时,网络倾向于学习更大的zt,从而给当前特征更大的权重。当当前帧的预测质量不佳时,通常位置是一个路口或离汽车更远的地方,网络倾向于学习更大的1-zt,以给先验特征更大的权重。如此,本实施例初始模型中的门控循环单元可以学会选择性地结合当前和先前帧的特征,从而更好地控制神经地图先验的更新速度。
如图2所示,图2是本发明一实施例示出的一种GRU融合可视化后的注意力图。如图2所示,从第一行到第五行分别为:GT真实地图、基于HDMapNet模型推理的地图、基于BEVFormer模型推理的地图和基于BEVFormer模型同时使用上述实施例提出的NMP神经地图先验(即上述提出的运用NMP的地图生成方法)和GRU权值。从图2中可以看出,本实施例提出的地图生成方法与基线方法相比,使用神经地图先验NMP可以生成更准确连贯的语义地图。
结合以上实施例,在一可选实施例中,上述步骤C1可以具体包括以下步骤:
步骤C1-1:将所述样本图像特征和所述样本先验特征分别划分成多个块,得到多个样本图像子特征和多个样本先验子特征。
本实施例中,在得到样本图像特征和样本先验特征之后,可以将样本图像特征和样本先验特征分别划分为多个小块,从而得到多个样本图像子特征和多个样本先验子特征。示例的,可以使用10x10大小的块,以在BEV中表示3m x 3m的区域,从而在节省参数(即节省计算资源)的同时保留了局部空间信息。
步骤C1-2:在所述多个样本图像子特征和多个样本先验子特征进入第一线性层之后,将每个所述样本图像子特征均作为样本图像子特征标记,将每个所述样本先验子特征均作为样本先验子特征标记。
本实施例中,在得到多个样本图像子特征和多个样本先验子特征之后,多个样本图像子特征和多个样本先验子特征会进入注意力机制模块的第一线性层,其中,该第一线性层可以为一个全连接层。在多个样本图像子特征和多个样本先验子特征进入第一线性层之后,使用第一线性层将每一个块,(即每一个子特征)均作为一个标记。其中,将每个样本图像子特征均作为样本图像子特征标记,将每个样本先验子特征均作为样本先验子特征标记。
步骤C1-3:将所述样本图像子特征标记作为查询,将所述样本先验子特征标记作为键和值,根据所述查询、键和值进行运算,得到运算结果。
本实施例中,可以将样本图像子特征标记作为查询Q,将样本先验子特征标记作为键和值即key-value,然后根据查询、键和值进行注意力运算,从而得到运算结果。具体的,可以是将查询Q和键key之间进行运算,然后再乘到值value上,从而得到最终的注意力运算结果。
步骤C1-4:将所述运算结果输入至第二线性层,得到所述第二线性层输出的所述中间融合特征。
本实施例中,得到运算结果后,即得到注意力处理后的特征之后,将运算结果(即上述注意力处理后的特征)输入至第二线性层,从而得到该第二线性层输出的,也是整个注意力机制模块输出的中间融合特征。而输出的特征与输入的特征大小相同,也即中间融合特征与样本图像特征大小以及样本先验特征的尺寸两两相同,且中间融合特征(即经过优化的BEV特征)的质量优于先验特征和当前特征。
其中,第二线性层也可以是一个全连接层。在一可选实施例中,本实施例中注意力机制模块中的所有线性层均为使用256维的特征维度进行嵌入,也即第一线性层和第二线性层均为一个具有256个滤波器的全连接层。
结合以上实施例,本发明还提供了一种地图生成方法,在该方法中,在上述步骤C1之前,地图特征生成模型的训练步骤还可以包括:
C0:对所述样本图像特征和所述样本先验特征分别添加对应的位置编码,得到中间样本图像特征和中间样本先验特征。
考虑到随着位置离自主驾驶车辆越远,预测地图的准确性会降低,为了使初始模型能够意识到位置的影响因素,从而学会相信位置更靠近自车的当前特征,同时相信位置更远离自车的先前特征,本实施例在将样本图像特征和样本先验特征输入至初始模型(如fFusion)之前,通过位置编码对样本图像特征和样本先验特征进行预处理。
其中,本实施例是对样本图像特征和样本先验特征分别添加对应的位置编码,从而分别得到中间样本图像特征和中间样本先验特征。其中,位置编码是一个网格形状的可学习的变量,用于让初始模型能够在空间位置上,如离车近,就相信当前特征,如离车远,就相信先前特征。具体的,可以是为样本先验特征添加一组位置编码(网络状的可学习参数)以及,为样本图像特征添加一组位置编码/>其中,这里的H和W分别表示BEV特征的高度和宽度。
在本方法中,上述步骤C1具体可以包括:将所述中间样本图像特征与所述中间样本先验特征输入至所述注意力机制模块,得到所述中间融合特征。
本实施例中,在得到中间样本图像特征与中间样本先验特征之后,可以是将中间样本图像特征与中间样本先验特征输入至注意力机制模块进行处理,从而得到注意力机制模块所输出的中间融合特征。
其中,在一实施例中,对样本图像特征与样本先验特征分别添加位置编码,得到中间样本图像特征与中间样本先验特征之后,在注意力机制模块需要先将先前特征和当前特征分成多个块的情况下,是将中间样本图像特征与中间样本先验特征分别划分成多个块,从而得到多个样本图像子特征和多个样本先验子特征。
为了说明本实施例中位置编码、注意力机制模块以及门控循环单元的有效性,本实施例还进行了一个简单的融合基线,即移动平均(MA)来进行比较。对于MA,在一组实验中,使用平均移动MA作为融合函数即初始模型来代替注意力机制模块以及门控循环单元,其中,MA的更新规则可以为:
其中,式3中的α是手动搜索的比率,为t时的局部地图新先验特征,/>为在t-1时更新的局部地图先验特征。如下表1所示,mIoU为平均交集并集,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计。本实施例所提出的注意力机制模块C2P Attention,位置编码PE和门控循环单元GRU都是提高在线地图预测性能的关键。特别是,GRU和MA作为更新模块并获得了类似的性能改进。而本实施例选择使用GRU,可以避免对MA的手动参数搜索。比较下表1的C到E和F到G,局部PE使交叉口的mIoU分别提高了2.67和2.72,这表明局部PE对特征融合有益,特别是对于交叉口,这也是单帧模型预测的最具挑战性的类别。添加局部PE允许模型从神经地图先验中提取更多有力信息,以补充当前观察缺失的信息。比较下表的C到F和E到G,可以发现CA(即C2P Attention)时车道分割线的mIoU分别增加了1.83和2.05。这表明CA能够更好地处理车道结构。研究表明,本实施例所提出的三个组件(位置编码、注意力机制模块以及门控循环单元)对于特征融合和更新都是有效的。
表1
在另一组实验中,将本实施例所提供的方法应用到HDMapNet模型、LSS模型、BEVFormer模型和VectorMapNet模型中,以评估本实施例所提供的地图生成方法的有效性:在训练过程中,可以冻结得到在线BEV特征之前的所有模块,只训练C2P Attention模块、本地PE、GRU和解码器。在测试过程中,所有样本按时间顺序排序。实验在8个NVIDIA3090GPU上进行,输入图像尺寸为1600x 900,批量大小为1。如下表所示,表2和表3中的结果表明,本实施例提出的NMP(即提出的地图生成方法)在所有基线模型中都能持续改善地图分割和检测性能。其中,表2和表3中的mIoU为平均交集并集,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计。这些结果表明,本实施例提供的NMP是一种通用方法,有可能应用于其他地图学习框架。
表2
表3
结合以上实施例,在一可选实施例中,本发明还提出一种地图生成方法,在该方法中,所述训练步骤还可以包括:
步骤E:对目标区域的数据集进行划分,得到训练集和测试集。
本实施例考虑到目前在线地图推理泛化性差的问题,为了训练出能够在训练集和测试集分布不同城市中依旧能实现较好推理效果的地图特征生成模型,本实施例通过对目标区域的数据集进行重新划分,得到训练集和测试集,其中,目标区域可以为任意一个区域,如任意一个城市、地区等等,示例的,可以是对nuScenes数据集中的子集(如波士顿地区的数据集)进行重新划分,得到训练集和测试集。
神经地图先验对在线地图推断的改进归因于从其他行程中生成神经先验,这些先验提供了更近的观察和互补视角,使当前观察能够“看得更远”或绕过障碍。而缺乏历史行程观察的数据无法从神经网络先验的改进中受益,因此,本实施例通过对目标区域的数据集(如波士顿地区的数据集)进行重新划分,使得每个训练和测试样本都有一个过去的行程,得到训练集和测试集。也就是说,其中,划分出的训练集包括训练样本图像,训练样本图像对应有神经地图先验,测试集包括测试样本图像,测试样本图像对应有神经地图先验,且训练集的采集位置与测试集的采集位置在地理位置上不相交。
步骤F:根据所述测试集,对经由所述训练集训练得到的地图特征生成模型进行测试,得到测试结果。
本实施例中,通过训练集中的样本数据对初始模型进行训练,得训练好的地图特征生成模型,然后再根据测试集中的数据对经由该训练集训练得到的地图特征生成模型进行测试,以得到测试结果,然后再根据测试结果进行地图特征生成模型的再训练,然后再进行测试,重复前述步骤,直至训练出满足条件的地图特征生成模型,如此,训练出的地图特征生成模型在其他城市中也能取得较好的效果,尽可能避免了地域限制,从而在一定程度上缓解地图学习泛化性差的问题。
在本实施例中,通过对目标区域的数据集进行重新划分,并通过精确计算历史帧和当前帧之间的重叠,能够更准确地寻找到和当前帧对应的历史行程。本实施例采用平均交集并集(mIoU)来评估高清语义学习的质量以评估以下3个静态地图因素:道路边界、车道分隔线和人行横道。如下表4所示,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计,Boston Split为针对目标区域的数据集的分割(如针对波士顿地区的数据集进行分割),Original Split为普通***即原始方法中的针对正常数据集的分割,NMP为神经地图先验,即表示运用了本实施例的方法,可以看出,本方法提出的针对目标区域的数据集的分割的基线结果低于原始***(即普通***),且针对目标区域的数据集的分割中神经地图先验的改进大于原始***中的改进。
表4
在一种可选实施方式中,针对本实施例的NMP超参数,针对光栅化的神经地图先验可以默认为使用0.3m的量化尺寸,如下表5所示,mIoU为平均交集并集,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计,NMP Grid Resolution为NMP分辨率,Baseline为基线。针对神经地图先验的量化尺寸进行了研究,其中神经地图先验的维度为256。在表5中,研究了不同分辨率的全局神经地图先验即神经地图先验对在线地图学习有效性的影响。直观地说,可以认为处理的道路信息是一个小物体,因此应该以细分辨率存储先验信息,以明确指示它是否是道路。因此,较小的空间量化尺寸是首选。然而,极小的分辨率意味着神经地图先验所需的存储空间呈二次增长,而且容易受到定位中的随机误差影响。因此,针对量化尺寸的选择是在较小的存储和更高的准确性之间的权衡。而研究表明,最佳性能是通过适当的量化尺寸(0.3m)实现的。
表5
在一可选的实施方式中,请参考图3,图3是本发明一实施例示出的一种地图生成方法的流程图。如图3所示,既可以表示为地图特征生成模块的训练过程,也可以表示为地图特征生成模块的应用过程。
在训练过程时,首先经由编码器Encoder fE对样本图像进行处理,得到处理后的当前BEV特征O(即样本图像特征);以及,从地图图块存储器中拉取t-1时更新的神经地图先验(被选择的地图图块),然后根据样本图像的位置信息,也即当前车辆位置Posego从/>中采样地图图块形成对应的样本先验BEV特征/>然后将样本图像特征O以及样本先验特征/>输入至初始模型(即图中的融合函数)中进行训练。具体地,是分别为样本图像特征O以及样本先验特征/>添加位置编码PE,为样本图像特征O添加位置编码PEc,为样本先验特征/>添加位置编码PEp,然后再将添加了位置编码PEc的特征O划分为多个小块,得到多个样本图像子特征,将添加了位置编码PEp的样本先验特征/>划分为多个小块,得到多个样本先验子特征,并将每个子特征均转换为标记,将样本图像子特征标记作为查询,将样本先验子特征标记作为键和值,进行标准的交叉注意力(C2P Attention)处理,得到中间融合特征,然后再将中间融合特征与样本先验特征/>通过GRU进行处理,从而得到初始模型最终的输出Frefine,也即/>从而根据Frefine通过解码器Decoder fD推测出语义地图,以及根据/>对神经地图先验进行对应位置的替换,即由特征/>更新地图图块,从而实现神经地图先验的更新。
而在应用过程时,首先经由编码器Encoder fE对目标图像进行处理,得到处理后的当前BEV特征O(即目标图像特征);以及,从地图图块存储器中拉取t-1时更新的神经地图先验(被选择的地图图块),然后根据目标图像的位置信息,也即当前车辆位置Posego从/>中采样地图图块形成对应的目标先验BEV特征/>然后将目标图像特征O以及目标先验特征/>输入至地图特征生成模型(即图中的融合函数)中进行处理。具体地是分别为目标图像特征O以及目标先验特征/>添加位置编码PE,为目标图像特征O添加位置编码PEc,为目标先验特征/>添加位置编码PEp,然后再将添加了位置编码PEc的特征O划分为多个小块,得到多个目标图像子特征,将添加了位置编码PEp的目标先验特征/>划分为多个小块,得到多个目标先验子特征,并将每个子特征均转换为标记,将目标图像子特征标记作为查询,将目标先验子特征作为键和值,进行标准的交叉注意力(C2P Attention)处理,得到目标中间融合特征,然后再将目标中间融合特征与目标先验特征/>通过GRU进行处理,从而得到地图特征生成模型最终的输出Frefine,也即/>从而根据Frefine通过解码器Decoder fD推测出语义地图,以及根据/>对神经地图先验进行对应位置的替换,即由特征更新地图图块,从而实现神经地图先验的更新。
具体来说,在图3中,在最上面一行,通过BEV编码器和解码器获得以图像为输入和地图分割结果为输出的在线高清语义地图学习。为了更好地利用神经地图先验,我们在编码器和解码器之间添加了定制的融合模块即本实施例的地图特征生成模型或初始模型(C2P Attention和GRU)——融合输出由解码器进行解码,得到最终的地图输出。在底部一行中,从存储磁盘中提取与当前BEV特征重叠的神经先验地图,然后裁剪出与当前帧具有相同位置的先验特征。更新后,将之前的神经先验地图放回被提取的先验地图中。
表6
针对上述实施例,在一实施例中研究表明,上述实施例所提出的神经地图先验能够帮助看得更远。具体的,地图的传统功能之一是提供超视距(地平线之外)的道路信息,这对于下游导航和规划至关重要,并有助于做出明智决策。而实施例中的神经地图先验同样为实现这一基本目的提供了支持,可以通过允许车载地图推断看得更远。如上表6所示,我们提出的神经地图先验方法在原始基线方法的BEV范围为60m×30m、100m×100m和160m×100m的情况下,可以均匀地改善基线方法地图的分割结果。
其中,表6中的mIoU为平均交集并集,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计,BEV Range为BEV范围。基于摄像头的地图分割和检测在离自车最远的地图部分通常被认为具有挑战性,因为它们在图像中仅占据几个像素。因此,将场景的历史先验纳入考虑对于提高地图分割和检测性能至关重要。而如表所示,上述实施例的方法的优势在于它能够增强长距离的感知结果,而这是单帧方法难以实现的。实验结果表明,随着距离的减小,性能有下降的趋势,但我们的方法仍显著提高了结果。
针对上述实施例,一实施例中研究表明,在上述实施例中,采用多程融合比单程内融合更好。如下表7所示,对单次行程内信息(单程融合)与多次行程间信息(多程融合)的重要性进行了分析。其中,表7中的mIoU为平均交集并集,Divider为车道分隔线,Crossing为人行横道,Boundary为道路边界,ALL为总计,Intra-trip fusion为单程融合,Inter-tripfusion为多程融合。具体来说,行程内信息意味着可用的神经地图先验仅限于单个当前行程。相反,行程间信息模型是使用从相同位置的任意行程生成的地图先验。研究结果表明,多次行程的先验信息对于地图构建更为重要,因为行程内模型的表现远不如行程间模型。
表7
以及,通过上述实施例提供的涉及神经地图先验NMP的地图生成方法,对与在恶劣天气条件下的地图推测更有帮助,因为驾驶汽车(无论是自动驾驶、智能驾驶还是普通驾驶)不可避免地面临着在恶劣天气条件下行驶时的挑战,如雨天或夜间行驶,这可能使车辆难以准确识别道路信息。然而,在较好的天气和光照条件下获得的神经地图先验可以提供更可靠的信息,使车辆能够更准确地感知道路信息并在恶劣天气条件下安全行驶。
如下表8所示,表8表明,在雨天和夜间使用神经地图先验比在正常天气下取得更明显的改进,这表明上述实施例的模型可以有效地从NMP中提取必要的信息以应对恶劣天气场景。然而,由于地图先验信息有限和样本数量较少,表中可以看出在夜间雨天的改进较小。
表8
表9
而在一个实施例中,针对本实施例选取的注意力机制模块为C2PAttention(Current-to-prior attention)模块的情况下,C2P Attention模块使用了Crossattention的技术,而Cross attention交叉注意力模块的窗口大小可以自由设置。也即针对C2P Attention的设计,道路结构应该在空间上保持连贯性,这在上表9中也得到了证实:
可以从表9中看出,随着窗口形状的增大,C2P Attention在分隔线和边界上的性能得到了改善。然而,过大的窗口尺寸可能会引入来自相邻车道的无关信息,同时参数数量也显著增加。因此,窗口尺寸的选择是在捕捉相关的道路结构和排除不相关的空间信息之间的平衡,基于此,本实施例根据实验性能选择了3m x 3m的最佳窗口尺寸。
而在另一实施中,经研究,本实施例所提出的地图生成方法,在相关技术原始模型的基础上每帧仅增加了23ms,但显著提高了模型性能,其中包括从神经地图先验中提取和存储特征以及整合其他模块。
结合以上实施例,一实施例提出了一种新的神经地图先验***,以帮助在线高清语义地图学习。关键的思想是通过C2PAttention和GRU逐帧增量地联合局部地图推理和全局地图先验更新。这种设计使得神经地图先验能够输出精确和连贯的全局地图先验,并促进在线语义地图学习。而神经地图先验与最新的地图分割/检测架构兼容,在恶劣天气下提高了地图预测性能,以及远离当前位置一定距离的地图预测。融合模块重建的全局地图先验可以直接用于规划和控制等下游任务。基于此,通过与下游任务端到端的联合训练,神经地图先验可以开启基于学习的自动驾驶感知和识别***的新可能。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,本发明一实施例提供了一种地图生成装置400。参考图4,图4是本发明一实施例提供的地图生成装置的结构框图。如图4所示,该装置400包括:
图像特征确定模块401,用于获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;
先验特征确定模块402,用于根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;
融合特征确定模块403,用于将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;
地图确定模块404,用于将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
可选的,所述目标融合特征的大小与所述目标先验特征的大小相同,所述神经地图先验是在每次得到所述目标融合特征后进行更新的;所述装置400还包括:
更新模块,用于将所述神经地图先验中的所述目标先验特征替换为所述目标融合特征。
可选的,所述地图特征生成模型是由模型生成模块进行训练得到的,所述模型生成模块,包括:
样本图像特征确定模块,用于获取样本图像,通过所述编码器对所述样本图像进行处理,得到样本图像特征;
样本先验特征确定模块,用于根据所述样本图像对应的位置信息,从所述神经地图先验中确定对应的样本先验特征;
样本融合特征确定模块,用于将所述样本图像特征与所述样本先验特征输入至初始模型进行特征融合,得到样本融合特征;所述样本融合特征用于确定所述样本图像对应的语义地图以及更新所述神经地图先验;
模型训练模块,用于基于所述样本融合特征对所述初始模型进行训练,将训练好的所述初始模型确定为所述地图特征生成模型。
可选的,所述初始模型包括:注意力机制模块和门控循环单元;所述样本融合特征确定模块,包括:
第一融合模块,用于将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征;
第二融合模块,用于通过所述门控循环单元对所述中间融合特征与所述样本先验特征进行特征融合,得到所述样本融合特征。
可选的,所述模型生成模块还包括:
位置编码模块,用于在所述将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征之前,对所述样本图像特征和所述样本先验特征分别添加对应的位置编码,得到中间样本图像特征和中间样本先验特征;
所述第一融合模块,包括:
第一融合子模块,用于将所述中间样本图像特征与所述中间样本先验特征输入至所述注意力机制模块,得到所述中间融合特征。
可选的,所述第一融合模块,包括:
特征划分模块,用于将所述样本图像特征和所述样本先验特征分别划分成多个块,得到多个样本图像子特征和多个样本先验子特征;
转换模块,用于在所述多个样本图像子特征和多个样本先验子特征进入第一线性层之后,将每个所述样本图像子特征均作为样本图像子特征标记,将每个所述样本先验子特征均作为样本先验子特征标记;
运算模块,用于将所述样本图像子特征标记作为查询,将所述样本先验子特征标记作为键和值,根据所述查询、键和值进行运算,得到运算结果;
第二融合子模块,用于将所述运算结果输入至第二线性层,得到所述第二线性层输出的所述中间融合特征。
可选的,所述模型生成模块还包括:
数据集划分模块,用于对目标区域的数据集进行划分,得到训练集和测试集;所述训练集包括训练样本图像,所述测试集包括测试样本图像,所述训练集的采集位置与所述测试集的采集位置在地理位置上不相交;
测试模块,用于根据所述测试集,对经由所述训练集训练得到的地图特征生成模型进行测试,得到测试结果。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如本发明上述任一实施例所述的地图生成方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种电子设备500,如图5所示。图5是本发明一实施例示出的一种电子设备的示意图。该电子设备包括存储器502、处理器501及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本发明上述任一实施例所述的地图生成方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种地图生成方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种地图生成方法,其特征在于,所述方法包括:
获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;
根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;
将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;
将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
2.根据权利要求1所述的地图生成方法,其特征在于,所述目标融合特征的大小与所述目标先验特征的大小相同,所述神经地图先验是在每次得到所述目标融合特征后进行更新的;所述方法还包括:
将所述神经地图先验中的所述目标先验特征替换为所述目标融合特征。
3.根据权利要求1或2所述的地图生成方法,其特征在于,所述地图特征生成模型的训练步骤,包括:
获取样本图像,通过所述编码器对所述样本图像进行处理,得到样本图像特征;
根据所述样本图像对应的位置信息,从所述神经地图先验中确定对应的样本先验特征;
将所述样本图像特征与所述样本先验特征输入至初始模型进行特征融合,得到样本融合特征;所述样本融合特征用于确定所述样本图像对应的语义地图以及更新所述神经地图先验;
基于所述样本融合特征对所述初始模型进行训练,将训练好的所述初始模型确定为所述地图特征生成模型。
4.根据权利要求3所述的地图生成方法,其特征在于,所述初始模型包括:注意力机制模块和门控循环单元;所述将所述样本图像特征与所述样本先验特征输入至初始模型进行特征融合,得到样本融合特征,包括:
将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征;
通过所述门控循环单元对所述中间融合特征与所述样本先验特征进行特征融合,得到所述样本融合特征。
5.根据权利要求4所述的地图生成方法,其特征在于,在所述将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征之前,所述训练步骤还包括:
对所述样本图像特征和所述样本先验特征分别添加对应的位置编码,得到中间样本图像特征和中间样本先验特征;
所述将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征,包括:
将所述中间样本图像特征与所述中间样本先验特征输入至所述注意力机制模块,得到所述中间融合特征。
6.根据权利要求4所述的地图生成方法,其特征在于,所述将所述样本图像特征与所述样本先验特征输入至所述注意力机制模块,得到中间融合特征,包括:
将所述样本图像特征和所述样本先验特征分别划分成多个块,得到多个样本图像子特征和多个样本先验子特征;
在所述多个样本图像子特征和多个样本先验子特征进入第一线性层之后,将每个所述样本图像子特征均作为样本图像子特征标记,将每个所述样本先验子特征均作为样本先验子特征标记;
将所述样本图像子特征标记作为查询,将所述样本先验子特征标记作为键和值,根据所述查询、键和值进行运算,得到运算结果;
将所述运算结果输入至第二线性层,得到所述第二线性层输出的所述中间融合特征。
7.根据权利要求3所述的地图生成方法,其特征在于,所述训练步骤还包括:
对目标区域的数据集进行划分,得到训练集和测试集;所述训练集包括训练样本图像,所述测试集包括测试样本图像,所述训练集的采集位置与所述测试集的采集位置在地理位置上不相交;
根据所述测试集,对经由所述训练集训练得到的地图特征生成模型进行测试,得到测试结果。
8.一种地图生成装置,其特征在于,所述装置包括:
图像特征确定模块,用于获取目标图像,通过编码器对所述目标图像进行处理,得到目标图像特征;
先验特征确定模块,用于根据所述目标图像对应的位置信息,从神经地图先验中确定对应的目标先验特征;
融合特征确定模块,用于将所述目标图像特征与所述目标先验特征输入至训练好的地图特征生成模型进行特征融合,得到目标融合特征;
地图确定模块,用于将所述目标融合特征输入至解码器,得到所述目标图像对应的语义地图。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的地图生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的地图生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310301074.8A CN116450761A (zh) | 2023-03-24 | 2023-03-24 | 地图生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310301074.8A CN116450761A (zh) | 2023-03-24 | 2023-03-24 | 地图生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450761A true CN116450761A (zh) | 2023-07-18 |
Family
ID=87119420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310301074.8A Pending CN116450761A (zh) | 2023-03-24 | 2023-03-24 | 地图生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450761A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096800A (zh) * | 2024-04-29 | 2024-05-28 | 合肥市正茂科技有限公司 | 一种小样本语义分割模型的训练方法、装置、设备及介质 |
-
2023
- 2023-03-24 CN CN202310301074.8A patent/CN116450761A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096800A (zh) * | 2024-04-29 | 2024-05-28 | 合肥市正茂科技有限公司 | 一种小样本语义分割模型的训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991156B2 (en) | Multi-modal data fusion for enhanced 3D perception for platforms | |
US11494937B2 (en) | Multi-task multi-sensor fusion for three-dimensional object detection | |
US11217012B2 (en) | System and method for identifying travel way features for autonomous vehicle motion control | |
US20230144209A1 (en) | Lane line detection method and related device | |
JP4595759B2 (ja) | 環境認識装置 | |
US20220261601A1 (en) | Multiple Stage Image Based Object Detection and Recognition | |
CA3158597C (en) | Conditional entropy coding for efficient video compression | |
JP2022003508A (ja) | 軌道計画モデルの訓練方法と装置、電子機器、コンピュータ記憶媒体及びコンピュータプログラム | |
Xiong et al. | Neural map prior for autonomous driving | |
CN110986945B (zh) | 基于语义高度地图的局部导航方法和*** | |
CN114648551B (zh) | 轨迹预测方法及装置 | |
CN116450761A (zh) | 地图生成方法、装置、电子设备及存储介质 | |
CN115049130A (zh) | 一种基于时空金字塔的自动驾驶轨迹预测方法 | |
CN114997307A (zh) | 一种轨迹预测方法、装置、设备及存储介质 | |
Huang et al. | Multi-modal policy fusion for end-to-end autonomous driving | |
Zhang et al. | Hierarchical road topology learning for urban mapless driving | |
Zhang et al. | Bev-locator: An end-to-end visual semantic localization network using multi-view images | |
Thomas et al. | Semantic grid-based road model estimation for autonomous driving | |
CN117372991A (zh) | 基于多视角多模态融合的自动驾驶方法及*** | |
CN110532868B (zh) | 一种预测自由空间语义边界的方法 | |
CN116880462A (zh) | 自动驾驶模型、训练方法和自动驾驶方法和车辆 | |
Yuan et al. | Presight: Enhancing autonomous vehicle perception with city-scale nerf priors | |
Ma et al. | Monocular 3D lane detection for Autonomous Driving: Recent Achievements, Challenges, and Outlooks | |
US20210090277A1 (en) | Systems and methods for conditioning training data to avoid learned aberrations | |
Fennessy | Autonomous vehicle end-to-end reinforcement learning model and the effects of image segmentation on model quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |