CN115435795B

CN115435795B - 一种基于环视图像和语义地图的车辆定位方法

Info

Publication number: CN115435795B
Application number: CN202211151775.XA
Authority: CN
Inventors: 周文强; 张志煌; 许萌; 彭涛
Original assignee: Suzhou Qingyu Technology Co Ltd
Current assignee: Suzhou Qingyu Technology Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2024-05-03
Anticipated expiration: 2042-09-21
Also published as: CN115435795A

Abstract

本发明实施例涉及一种基于环视图像和语义地图的车辆定位方法，所述方法包括：在时刻t获取当前时刻的行驶速度和行驶加速度；并获取上一时刻t‑1的车辆定位向量；并获取当前时刻t的第一环视图像集合和第一语义地图；对当前时刻的自车定位进行初步估计生成估计定位向量；将第一环视图像集合和第一语义地图输入定位偏移预测模型对当前时刻车辆的真实定位与估计定位的偏移进行预测；根据估计定位向量和定位偏移向量对当前时刻车辆的真实定位进行计算生成对应的当前定位向量。通过本发明，可以在车辆定位模块工作不正常时接替定位模块进行实时定位，达到保障定位输出的实时性和准确性的目的。

Description

一种基于环视图像和语义地图的车辆定位方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于环视图像和语义地图的车辆定位方法。

背景技术

自动驾驶***常规情况下都是通过定位模块(GPS定位模块、北斗定位模块等)获得车辆的定位信息，该定位信息会被其他工作模块(诸如预测模块、规划模块等)用作参考。定位模块输出的定位信息越准确则诸如预测模块、规划模块等其他工作模块输出的预测轨迹准确度就越高。然而在一些特定环境下，例如，在隧道中或在微波信号干扰较强的地区，车辆的定位模块会出现卫星信号接收不良或接收信号质量较差等情况，这时定位模块要么产生较大的输出延时、要么输出的定位信息误差偏大。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种基于环视图像和语义地图的车辆定位方法、电子设备及计算机可读存储介质；首先基于前一时刻的定位向量(坐标，朝向角)和当前时刻的车辆运动信息(行驶速度、行驶加速度)对当前时刻的车辆定位进行估计得到对应的估计定位向量；然后基于一个定位偏移预测模型，根据当前时刻的环视图像集合和所属路段的语义地图对当前时刻车辆的真实定位与估计定位的偏移进行预测得到对应的定位偏移向量(坐标偏移，朝向角偏移)；再根据估计定位向量和定位偏移向量算出当前时刻车辆的真实定位向量。通过本发明，自动驾驶***就可以在车辆进入隧道或处于微波信号干扰较强地区时采用本发明提供的定位处理机制接替定位模块进行实时车辆定位，从而达到保障定位输出的实时性和准确性的目的。

为实现上述目的，本发明实施例第一方面提供了一种基于环视图像和语义地图的车辆定位方法，所述方法包括：

在时刻t获取当前时刻的行驶速度和行驶加速度；并获取上一时刻t-1的车辆定位向量作为对应的前一定位向量P_t-1；并获取当前时刻t的第一环视图像集合和第一语义地图；所述前一定位向量P_t-1包括前一定位坐标(x_t-1,y_t-1)和前一朝向角θ_t-1；

根据所述行驶速度、所述行驶加速度、所述前一定位向量P_t-1和所述第一语义地图对当前时刻的自车定位进行初步估计生成对应的估计定位向量P^*；所述估计定位向量P^*包括估计定位坐标(x^*,y^*)和估计朝向角θ^*；

将所述第一环视图像集合和所述第一语义地图输入基于环视图像和语义地图的定位偏移预测模型对当前时刻车辆的真实定位与估计定位的偏移进行预测生成对应的定位偏移向量△P_t；所述定位偏移向量△P_t包括定位偏移坐标(△x_t,△y_t)和定位偏移朝向角△θ_t；

根据所述估计定位向量P^*和所述定位偏移向量△P_t对当前时刻车辆的真实定位进行计算生成对应的当前定位向量P_t；所述当前定位向量P_t包括当前定位坐标(x_t,y_t)和当前朝向角θ_t，x_t＝x^*+△x_t，y_t＝y^*+△y_t，θ_t＝θ^*+△θ_t。

优选的，所述第一语义地图包括多个第一地图元素；所述第一地图元素包括第一元素类型、第一元素形状和第一元素标记点序列；所述第一元素标记点序列包括多个第一元素标记点d_i；所述第一元素标记点d_i包括第一标记点坐标(x_i,y_i)；i≥1；

所述第一环视图像集合包括多个第一环视图像；

所述定位偏移预测模型包括BEV特征编码网络、语义地图编码器、跨模态编码网络和位姿解码器；所述BEV特征编码网络包括图像特征提取网络、BEV特征转换网络、残差网络和位置编码器；所述BEV特征转换网络包括透视图编码器和视角转换器；所述跨模态编码网络包括自注意编码器和交叉注意编码器；所述位姿解码器包括第一全连接层、第一最大池化层和第二全连接层；

所述图像特征提取网络的输出与所述透视图编码器的输入连接；所述透视图编码器的输出与所述视角转换器的输入连接；所述视角转换器的输出与所述残差网络的输入连接；所述残差网络的输出分别与所述位置编码器和所述自注意编码器的输入连接；所述位置编码器的输出分别与所述自注意编码器和所述交叉注意编码器的输入连接；所述语义地图编码器的输出与所述交叉注意编码器的输入连接；所述交叉注意编码器的输出与所述第一全连接层的输入连接；所述第一全连接层的输出与所述第一最大池化层的输入连接；所述第一最大池化层的输出与所述第二全连接层的输入连接；

所述图像特征提取网络基于EfficientNet实现；所述BEV特征转换网络的所述透视图编码器和所述视角转换器基于HDMapNet的透视图编码器和视角转换器实现；所述位置编码器基于DERT的位置编码方案实现。

优选的，所述根据所述行驶速度、所述行驶加速度、所述前一定位向量P_t-1和所述第一语义地图对当前时刻的自车定位进行初步估计生成对应的估计定位向量P^*，具体包括：

根据所述行驶速度、所述行驶加速度、所述前一定位向量P_t-1的所述前一定位坐标(x_t-1,y_t-1)和所述第一语义地图对当前时刻的自车定位坐标进行估计生成对应的所述估计定位坐标(x^*,y^*)；

根据所述前一定位坐标(x_t-1,y_t-1)、所述估计定位坐标(x^*,y^*)和所述前一定位向量P_t-1的所述前一朝向角θ_t-1对当前时刻的自车定位朝向角进行估计生成对应的所述估计朝向角θ^*；

由得到的所述估计定位坐标(x^*,y^*)和所述估计朝向角θ^*组成对应的所述估计定位向量P^*。

优选的，所述将所述第一环视图像集合和所述第一语义地图输入基于环视图像和语义地图的定位偏移预测模型对当前时刻车辆的真实定位与估计定位的偏移进行预测生成对应的定位偏移向量△P_t，具体包括：

将所述第一环视图像集合输入所述定位偏移预测模型的所述BEV特征编码网络进行BEV特征编码处理生成对应的第一BEV特征张量和第一位置编码张量；所述第一BEV特征张量的形状为H₁×W₁×C₁，H₁、W₁、C₁为正整数；所述第一位置编码张量的形状为M₁×C₁，M₁为正整数；

将所述第一语义地图输入所述定位偏移预测模型的所述语义地图编码器进行地图编码处理生成对应的第一地图特征张量；所述第一地图特征张量的形状为M₂×C₂，M₂、C₂为预先设定的地图特征张量维度参数；

将所述第一BEV特征张量、所述第一位置编码张量和所述第一地图特征张量输入所述定位偏移预测模型的所述跨模态编码网络进行BEV特征到地图特征的跨模态关联处理生成对应的第一关联特征张量；所述第一关联特征张量的形状为M₂×C₂；

将所述第一关联特征张量输入所述定位偏移预测模型的所述位姿解码器进行解码处理生成对应的所述定位偏移向量△P_t；所述定位偏移向量△P_t包括所述定位偏移坐标(△x_t,△y_t)和所述定位偏移朝向角△θ_t。

进一步的，所述将所述第一环视图像集合输入所述定位偏移预测模型的所述BEV特征编码网络进行BEV特征编码处理生成对应的第一BEV特征张量和第一位置编码张量，具体包括：

将所述第一环视图像集合输入所述定位偏移预测模型的所述BEV特征编码网络；

由所述BEV特征编码网络将各个所述第一环视图像输入所述图像特征提取网络进行图像特征提取处理生成得到对应的第一特征图；并将各个所述第一特征图输入所述透视图编码器进行透视图特征编码处理生成对应的第一透视特征图；并将各个所述第一透视特征图输入所述视角转换器进行从透视图像素坐标系到相机坐标系再到自车坐标系的BEV特征转换处理生成对应的第一BEV特征图；并将得到的所有所述第一BEV特征图加起来组成一个完整的环视BEV特征图作为对应的第二BEV特征图；所述第二BEV特征图的形状为H₀×W₀×C₁，H₀、W₀为所述第二BEV特征图的高度和宽度，C₁为所述第二BEV特征图的特征维度；

并将所述第二BEV特征图输入所述残差网络进行下采样处理生成对应的第三BEV特征图；并对所述第三BEV特征图进行张量转换生成对应的所述第一BEV特征张量；所述第三BEV特征图的形状为H₁×W₁×C₁，H₁、W₁为所述第三BEV特征图的高度和宽度，H₁＝H₀/n，W₁＝W₀/n，n为所述残差网络的网络降采样参数；所述第一BEV特征张量的形状为H₁×W₁×C₁；

并将所述第一BEV特征张量输入所述位置编码器先按所述网络降采样参数n进行上采样生成对应的上采样张量再对所述上采样张量进行位置编码处理生成对应的所述第一位置编码张量；所述上采样张量的形状为H₀×W₀×C₁；所述第一位置编码张量的形状为M₁×C₁，M₁＝H₀*W₀＝(H₁*n)*(W₁*n)。

进一步的，所述将所述第一语义地图输入所述定位偏移预测模型的所述语义地图编码器进行地图编码处理生成对应的第一地图特征张量，具体包括：

将所述第一语义地图输入所述定位偏移预测模型的所述语义地图编码器；由所述语义地图编码器根据预先设定的地图特征张量维度参数M₂、C₂初始化一个形状为M₂×C₂×8的全0张量记为对应的第一模板张量，所述第一模板张量包括M₂×C₂个长度为8的第一模板向量A；并为所述第一语义地图上，每个所述第一元素标记点序列中每两个相邻的所述第一元素标记点d_i分配一个对应的所述第一模板向量A；并对两个相邻的所述第一元素标记点d_i对应的所述第一模板向量A进行特征向量编码；并在所述特征向量编码完成时，对形状为M₂×C₂×8的所述第一模板张量进行一次全连接计算生成对应的形状为M₂×C₂的所述第一地图特征张量。

进一步优选的，所述对两个相邻的所述第一元素标记点d_i对应的所述第一模板向量A进行特征向量编码，具体包括：

将两个相邻的所述第一元素标记点d_i中脚标i偏小的作为对应的起始标记点，脚标i偏大的作为对应的结束标记点；

并将所述第一语义地图中，所述起始标记点和所述结束标记点的所述第一标记点坐标(x_i,y_i)提取出来作为对应的当前起始点坐标和当前结束点坐标；

并将所述第一语义地图中，与所述起始标记点和所述结束标记点对应的所述第一元素标记点序列对应的所述第一地图元素的所述第一元素类型和所述第一元素形状提取出来作为对应的当前元素类型和当前元素形状；

并按预设的编码规则由所述当前起始点坐标的两个坐标分量、所述当前结束点坐标的两个坐标分量、所述当前元素类型和所述当前元素形状组成对应的所述当前编码序列；

并基于所述当前编码序列对所述起始标记点和所述结束标记点对应的所述第一模板向量A的向量数据进行设置。

进一步的，所述将所述第一BEV特征张量、所述第一位置编码张量和所述第一地图特征张量输入所述定位偏移预测模型的所述跨模态编码网络进行BEV特征到地图特征的跨模态关联处理生成对应的第一关联特征张量，具体包括：

将所述第一BEV特征张量、所述第一位置编码张量和所述第一地图特征张量输入所述定位偏移预测模型的所述跨模态编码网络；

由所述跨模态编码网络将所述第一BEV特征张量和所述第一位置编码张量输入所述自注意编码器进行自注意编码处理生成对应的第一自注意编码张量；并将所述第一位置编码张量、所述第一地图特征张量和所述第一自注意编码张量输入所述交叉注意编码器进行交叉注意编码处理生成对应的所述第一关联特征张量；所述第一自注意编码张量的形状为M₁×C₂；所述第一关联特征张量的形状固定为M₂×C₂。

进一步的，所述将所述第一关联特征张量输入所述定位偏移预测模型的所述位姿解码器进行解码处理生成对应的所述定位偏移向量△P_t，具体包括：

将所述第一关联特征张量输入所述定位偏移预测模型的所述位姿解码器；由所述位姿解码器将所述第一关联特征张量输入所述第一全连接层进行全连接运算生成对应的第一输出张量；并将所述第一输出张量输入所述第一最大池化层进行最大池化处理生成对应的第二输出张量；并将所述第二输出张量输入所述第二全连接层进行全连接运算生成对应的所述定位偏移向量△P_t；所述定位偏移向量△P_t包括所述定位偏移坐标(△x_t,△y_t)和所述定位偏移朝向角△θ_t。

本发明实施例第二方面提供了一种电子设备，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现上述第一方面所述的方法步骤；

所述收发器与所述处理器耦合，由所述处理器控制所述收发器进行消息收发。

本发明实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种基于环视图像和语义地图的车辆定位方法、电子设备及计算机可读存储介质；首先基于前一时刻的定位向量(坐标，朝向角)和当前时刻的车辆运动信息(行驶速度、行驶加速度)对当前时刻的车辆定位进行估计得到对应的估计定位向量；然后基于一个定位偏移预测模型，根据当前时刻的环视图像集合和所属路段的语义地图对当前时刻车辆的真实定位与估计定位的偏移进行预测得到对应的定位偏移向量(坐标偏移，朝向角偏移)；再根据估计定位向量和定位偏移向量算出当前时刻车辆的真实定位向量。通过本发明，自动驾驶***就可以在车辆进入隧道或处于微波信号干扰较强地区时采用本发明提供的定位处理机制接替定位模块进行实时车辆定位，解决了在特定环境下(在隧道中或在微波信号干扰较强的地区)会出现定位延时较大、误差较大的问题，保证了定位输出的实时性和准确性。

附图说明

图1为本发明实施例一提供的一种基于环视图像和语义地图的车辆定位方法示意图；

图2为本发明实施例一提供的定位偏移预测模型的结构示意图；

图3为本发明实施例二提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例一提供一种基于环视图像和语义地图的车辆定位方法，如图1为本发明实施例一提供的一种基于环视图像和语义地图的车辆定位方法示意图所示，本方法主要包括如下步骤：

步骤1，在时刻t获取当前时刻的行驶速度和行驶加速度；并获取上一时刻t-1的车辆定位向量作为对应的前一定位向量P_t-1；并获取当前时刻t的第一环视图像集合和第一语义地图；

其中，第一语义地图包括多个第一地图元素；第一地图元素包括第一元素类型、第一元素形状和第一元素标记点序列；第一元素标记点序列包括多个第一元素标记点d_i；第一元素标记点d_i包括第一标记点坐标(x_i,y_i)；i≥1；

第一环视图像集合包括多个第一环视图像；前一定位向量P_t-1包括前一定位坐标(x_t-1,y_t-1)和前一朝向角θ_t-1。

这里，本发明实施例的自动驾驶***从车辆的惯性测量单元(InertialMeasurement Unit，IMU)获得当前时刻t的行驶速度和行驶加速度。

上一时刻t-1的车辆定位向量即前一定位向量P_t-1可以是自动驾驶***在上一时刻通过本发明方法算出的定位向量，也可以是自动驾驶***从定位模块处获得的上一时刻的定位向量。

第一语义地图为自动驾驶***在时刻t从地图模块获取的与车辆当前行驶道路有关的语义地图，该语义地图有可能多个时刻使用的都是同一个地图，即使前后时刻的语义地图不一致也具有一定的连续性；语义地图上存在多个静止的地图元素(诸如车道线、道路边缘、红绿灯、路灯、建筑物等等)即第一地图元素；每个第一地图元素对应一个第一元素类型(诸如车道线类型、道路边缘类型、红绿灯类型、路灯类型、建筑物类型等等)和第一元素形状(诸如直线形状、多边形形状、圆形形状等等)；每个第一地图元素还包括一组地图上的标记点，这组标记点按一个固定的方向(诸如车道的行驶方向)进行排序产生一个标记点序列即第一元素标记点序列，序列中每个第一元素标记点d_i还对应一个地图坐标即第一标记点坐标(x_i,y_i)。

当前时刻t的第一环视图像集合是自动驾驶***从车辆感知模块处获得的实时环视图像集合，需要说明的是，本发明实施例的车辆上装有多个可以同时进行多角度环视拍摄的摄像头，车辆感知模块将这些摄像头拍摄的实时图像作为对应的第一环视图像，并按一个指定顺序对所有第一环视图像进行排序组成第一环视图像集合以供自动驾驶***使用，例如从左前方开始按顺时针方向进行排序，又例如从右前方开始按逆时针方向进行排序，又例如从左后方开始按逆时针方向进行排序，又例如从右后方开始按顺时针方向进行排序等等。

步骤2，根据行驶速度、行驶加速度、前一定位向量P_t-1和第一语义地图对当前时刻的自车定位进行初步估计生成对应的估计定位向量P^*；

其中，估计定位向量P^*包括估计定位坐标(x^*,y^*)和估计朝向角θ^*；

具体包括：步骤21，根据行驶速度、行驶加速度、前一定位向量P_t-1的前一定位坐标(x_t-1,y_t-1)和第一语义地图对当前时刻的自车定位坐标进行估计生成对应的估计定位坐标(x^*,y^*)；

这里，本发明实施例的自动驾驶***根据前一定位向量P_t-1的前一定位坐标(x_t-1,y_t-1)在第一语义地图上定位前一时刻位置点以及对应的行驶车道；再在该行驶车道上按匀加速行驶运动模式根据当前时刻的行驶速度v_t和行驶加速度a_t对前一时刻位置点的行驶速度v_t-1进行估算；并在该行驶车道上按匀加速行驶运动模式，根据已知的前一时刻位置点、前一时刻行驶速度即行驶速度v_t-1和匀加速度即行驶加速度a_t对当前时刻的位置进行估计得到对应的估计定位坐标(x^*,y^*)；

步骤22，根据前一定位坐标(x_t-1,y_t-1)、估计定位坐标(x^*,y^*)和前一定位向量P_t-1的前一朝向角θ_t-1对当前时刻的自车定位朝向角进行估计生成对应的估计朝向角θ^*；

这里，本发明实施例的自动驾驶***根据前一定位向量P_t-1的前一定位坐标(x_t-1,y_t-1)和估计定位坐标(x^*,y^*)可以得到对应的前后时刻的转角变化量，再由前一定位向量P_t-1的前一朝向角θ_t-1加上转角变化量就能得到估计朝向角θ^*；

步骤23，由得到的估计定位坐标(x^*,y^*)和估计朝向角θ^*组成对应的估计定位向量P^*。

步骤3，将第一环视图像集合和第一语义地图输入基于环视图像和语义地图的定位偏移预测模型对当前时刻车辆的真实定位与估计定位的偏移进行预测生成对应的定位偏移向量△P_t；

其中，定位偏移预测模型包括BEV特征编码网络、语义地图编码器、跨模态编码网络和位姿解码器；BEV特征编码网络包括图像特征提取网络、BEV特征转换网络、残差网络和位置编码器；BEV特征转换网络包括透视图编码器和视角转换器；跨模态编码网络包括自注意编码器和交叉注意编码器；位姿解码器包括第一全连接层、第一最大池化层和第二全连接层；图像特征提取网络的输出与透视图编码器的输入连接；透视图编码器的输出与视角转换器的输入连接；视角转换器的输出与残差网络的输入连接；残差网络的输出分别与位置编码器和自注意编码器的输入连接；位置编码器的输出分别与自注意编码器和交叉注意编码器的输入连接；语义地图编码器的输出与交叉注意编码器的输入连接；交叉注意编码器的输出与第一全连接层的输入连接；第一全连接层的输出与第一最大池化层的输入连接；第一最大池化层的输出与第二全连接层的输入连接；图像特征提取网络基于EfficientNet实现；BEV特征转换网络的透视图编码器和视角转换器基于HDMapNet的透视图编码器和视角转换器实现；位置编码器基于DERT的位置编码方案实现；

这里，本发明实施例提供一种基于环视图像和语义地图的定位偏移预测模型，该模型结构如图2为本发明实施例一提供的定位偏移预测模型的结构示意图所示；需要说明的是，本发明实施例定位偏移预测模型的图像特征提取网络是参考EfficientNet实现的，EfficientNet的网络结构可通过公开的技术论文《EfficientNet:Rethinking ModelScaling for Convolutional Neural Networks》获取，在此不做一一赘述；本发明实施例定位偏移预测模型的BEV特征转换网络的透视图编码器和视角转换器是参考HDMapNet的透视图编码器(Perspective view image encoder)和视角转换器(Neural viewtransformer)实现的，HDMapNet的透视图编码器和视角转换器可通过公开的技术论文《HDMapNet:An Online HD Map Construction and Evaluation Framework》获取，在此不做一一赘述；本发明实施例定位偏移预测模型的位置编码器是参考DERT的编码器之前的位置编码(positional encoding)方案实现的，DERT的位置编码方案可通过公开的技术论文《End-to-End Object Detection with Transformers》获取，在此不做一一赘述；当前步骤3即是本发明实施例基于上述定位偏移预测模型进行定位偏移预测的处理步骤，具体包括：

具体包括：步骤31，将第一环视图像集合输入定位偏移预测模型的BEV特征编码网络进行BEV特征编码处理生成对应的第一BEV特征张量和第一位置编码张量；

其中，第一BEV特征张量的形状为H₁×W₁×C₁，H₁、W₁、C₁为正整数；第一位置编码张量的形状为M₁×C₁，M₁为正整数；

具体包括：步骤311，将第一环视图像集合输入定位偏移预测模型的BEV特征编码网络；

步骤312，由BEV特征编码网络将各个第一环视图像输入图像特征提取网络进行图像特征提取处理生成得到对应的第一特征图；并将各个第一特征图输入透视图编码器进行透视图特征编码处理生成对应的第一透视特征图；并将各个第一透视特征图输入视角转换器进行从透视图像素坐标系到相机坐标系再到自车坐标系的BEV特征转换处理生成对应的第一BEV特征图；并将得到的所有第一BEV特征图加起来组成一个完整的环视BEV特征图作为对应的第二BEV特征图；

其中，第二BEV特征图的形状为H₀×W₀×C₁，H₀、W₀为第二BEV特征图的高度和宽度，C₁为第二BEV特征图的特征维度；

这里，本发明实施例由具体为EfficientNet的BEV特征编码网络对各个第一环视图像进行图像特征，因为EfficientNet网络并不对输入进行形状规定，所以采用EfficientNet作为BEV特征编码网络可以提高对各种尺寸、精度图像的兼容性；在得到EfficientNet输出的第一特征图之后将其输入透视图编码器，由HDMapNet的实现可知透视图编码器会输出带有深度特征的第一透视特征图；在得到第一透视特征图之后将其输入视角转换器，由HDMapNet的实现可知视角转换器会先对第一透视特征图做从透视图像素坐标系到相机坐标系的特征转换，再基于已知的各个摄像头的相机外参对该特征转换结果做从相机坐标系到自车坐标系上鸟瞰(Bird's-Eye View，BEV)平面的特征转换从而得到各个摄像头对应的第一BEV特征图；因为每个第一BEV特征图只对应一个摄像头的拍摄范围，所以将所有摄像头的所有第一BEV特征图加起来就能得到一个完整的环视BEV特征图即第二BEV特征图；

步骤313，并将第二BEV特征图输入残差网络进行下采样处理生成对应的第三BEV特征图；并对第三BEV特征图进行张量转换生成对应的第一BEV特征张量；

其中，第三BEV特征图的形状为H₁×W₁×C₁，H₁、W₁为第三BEV特征图的高度和宽度，H₁＝H₀/n，W₁＝W₀/n，n为残差网络的网络降采样参数；第一BEV特征张量的形状为H₁×W₁×C₁；

这里，本发明实施例的BEV特征编码网络在通过图像特征提取网络得到第二BEV特征图之后，会将其送入残差网络进行降采样处理；残差网络(Residual Networks，ResNet)的处理原理如论文《Deep Residual Learning for Image Recognition》中所示，在此不做一一赘述；在具体实施时可根据自车的算力等条件进行残差网络选型；本发明实施例的残差网络的网络降采样参数n默认为32，即第一BEV特征张量的形状H₁×W₁×C₁为(H₀/32)×(W₀/32)×C₁；

步骤314，并将第一BEV特征张量输入位置编码器先按网络降采样参数n进行上采样生成对应的上采样张量再对上采样张量进行位置编码处理生成对应的第一位置编码张量；

其中，上采样张量的形状为H₀×W₀×C₁；第一位置编码张量的形状为M₁×C₁，M₁＝H₀*W₀＝(H₁*n)*(W₁*n)；

这里，本发明实施例基于DERT的位置编码(positional encoding)方案对第一BEV特征张量进行位置编码实现，在编码之前为使得输出的位置编码张量即第一位置编码张量能与环视BEV特征图即第二BEV特征图的尺寸保持对应关系，所以要对第一BEV特征张量做一次上采样；

步骤32，将第一语义地图输入定位偏移预测模型的语义地图编码器进行地图编码处理生成对应的第一地图特征张量；

其中，第一地图特征张量的形状为M₂×C₂，M₂、C₂为预先设定的地图特征张量维度参数；

具体包括：将第一语义地图输入定位偏移预测模型的语义地图编码器；由语义地图编码器根据预先设定的地图特征张量维度参数M₂、C₂初始化一个形状为M₂×C₂×8的全0张量记为对应的第一模板张量，第一模板张量包括M₂×C₂个长度为8的第一模板向量A；并为第一语义地图上，每个第一元素标记点序列中每两个相邻的第一元素标记点d_i分配一个对应的第一模板向量A；并对两个相邻的第一元素标记点d_i对应的第一模板向量A进行特征向量编码；并在特征向量编码完成时，对形状为M₂×C₂×8的第一模板张量进行一次全连接计算生成对应的形状为M₂×C₂的第一地图特征张量；

其中，对两个相邻的第一元素标记点d_i对应的第一模板向量A进行特征向量编码，具体为：将两个相邻的第一元素标记点d_i中脚标i偏小的作为对应的起始标记点，脚标i偏大的作为对应的结束标记点；并将第一语义地图中，起始标记点和结束标记点的第一标记点坐标(x_i,y_i)提取出来作为对应的当前起始点坐标和当前结束点坐标；并将第一语义地图中，与起始标记点和结束标记点对应的第一元素标记点序列对应的第一地图元素的第一元素类型和第一元素形状提取出来作为对应的当前元素类型和当前元素形状；并按预设的编码规则由当前起始点坐标的两个坐标分量、当前结束点坐标的两个坐标分量、当前元素类型和当前元素形状组成对应的当前编码序列；并基于当前编码序列对起始标记点和结束标记点对应的第一模板向量A的向量数据进行设置；

这里，本发明实施例的语义地图编码器用于对第一语义地图进行结构化张量转换，输出的第一地图特征张量形状大小固定为M₂×C₂，M₂、C₂为预先设定的地图特征张量维度参数，常规情况下，M₂默认设为64，C₂默认设为128；

步骤33，将第一BEV特征张量、第一位置编码张量和第一地图特征张量输入定位偏移预测模型的跨模态编码网络进行BEV特征到地图特征的跨模态关联处理生成对应的第一关联特征张量；

具体包括：将第一BEV特征张量、第一位置编码张量和第一地图特征张量输入定位偏移预测模型的跨模态编码网络；由跨模态编码网络将第一BEV特征张量和第一位置编码张量输入自注意编码器进行自注意编码处理生成对应的第一自注意编码张量；并将第一位置编码张量、第一地图特征张量和第一自注意编码张量输入交叉注意编码器进行交叉注意编码处理生成对应的第一关联特征张量；

其中，第一自注意编码张量的形状为M₁×C₂；第一关联特征张量的形状固定为M₂×C₂；

这里，本发明实施例跨模态编码网络使用的自注意编码器(self attentionencoder)即为常规的自注意编码器，本发明实施例跨模态编码网络使用的交叉注意编码器(cross attention encoder)类似多模态注意力处理机制中解码器对编码器输入进行处理的交叉注意编码模块，自注意编码器和交叉注意编码器可参见技术论文《Attention IsAll You Need》的技术实现，在此不做一一赘述；本发明实施例通过跨模态编码网络可以对车辆周围各个静止参考物(诸如车道线、道路边缘、红绿灯、路灯、建筑物等等)的BEV特征和地图特征进行关联得到对应的第一关联特征张量；

步骤34，将第一关联特征张量输入定位偏移预测模型的位姿解码器进行解码处理生成对应的定位偏移向量△P_t；

具体包括：将第一关联特征张量输入定位偏移预测模型的位姿解码器；由位姿解码器将第一关联特征张量输入第一全连接层进行全连接运算生成对应的第一输出张量；并将第一输出张量输入第一最大池化层进行最大池化处理生成对应的第二输出张量；并将第二输出张量输入第二全连接层进行全连接运算生成对应的定位偏移向量△P_t；

其中，定位偏移向量△P_t包括定位偏移坐标(△x_t,△y_t)和定位偏移朝向角△θ_t。

这里，本发明实施例的位姿解码器可根据输入的第一关联特征张量进行车辆真实定位的位姿偏移量(坐标偏移和朝向角偏移)解码；位姿解码器在计算时，先通过第一全连接层对第一关联特征张量中的各个第一关联特征向量进行全连接运算得到对应的第一输出张量；再通过第一最大池化层对第一输出张量进行运算得到的第二输出张量为一个全局向量；再通过第二全连接层对该全局向量进行全连接运算就可输出一个车辆真实定位的位姿偏移量(坐标偏移和朝向角偏移)解码结果即定位偏移向量△P_t，该定位偏移向量△P_t由定位偏移坐标(△x_t,△y_t)和定位偏移朝向角△θ_t构成。

步骤4，根据估计定位向量P^*和定位偏移向量△P_t对当前时刻车辆的真实定位进行计算生成对应的当前定位向量P_t；

其中，当前定位向量P_t包括当前定位坐标(x_t,y_t)和当前朝向角θ_t，x_t＝x^*+△x_t，y_t＝y^*+△y_t，θ_t＝θ^*+△θ_t。

这里，P_t＝P^*+△P_t；本发明实施例在得到当前定位向量P_t之后，除了会将其作为实时定位信息提供给内部关联工作模块(诸如预测模块、规划模块等)使用之外还会将其作为下一时刻t+1的前一定位向量P_t，然后在下一时刻t+1重复上述步骤1-4对下一时刻t+1的定位向量P_t+1进行计算。

图3为本发明实施例二提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示，该电子设备可以包括：处理器301(例如CPU)、存储器302、收发器303；收发器303耦合至处理器301，处理器301控制收发器303的收发动作。存储器302中可以存储各种指令，以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的，本发明实施例涉及的电子设备还包括：电源304、***总线305以及通信端口306。***总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的***总线305可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该***总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、图形处理器(Graphics Processing Unit，GPU)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片，该芯片用于执行前述方法实施例描述的处理步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于环视图像和语义地图的车辆定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于环视图像和语义地图的车辆定位方法，其特征在于，

所述第一语义地图包括多个第一地图元素；所述第一地图元素包括第一元素类型、第一元素形状和第一元素标记点序列；所述第一元素标记点序列包括多个第一元素标记点d_i；所述第一元素标记点d_i包括第一标记点坐标(x_i,y_i)；i≥1；

所述第一环视图像集合包括多个第一环视图像；

3.根据权利要求2所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述根据所述行驶速度、所述行驶加速度、所述前一定位向量P_t-1和所述第一语义地图对当前时刻的自车定位进行初步估计生成对应的估计定位向量P^*，具体包括：

4.根据权利要求2所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述将所述第一环视图像集合和所述第一语义地图输入基于环视图像和语义地图的定位偏移预测模型对当前时刻车辆的真实定位与估计定位的偏移进行预测生成对应的定位偏移向量△P_t，具体包括：

5.根据权利要求4所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述将所述第一环视图像集合输入所述定位偏移预测模型的所述BEV特征编码网络进行BEV特征编码处理生成对应的第一BEV特征张量和第一位置编码张量，具体包括：

6.根据权利要求4所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述将所述第一语义地图输入所述定位偏移预测模型的所述语义地图编码器进行地图编码处理生成对应的第一地图特征张量，具体包括：

7.根据权利要求6所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述对两个相邻的所述第一元素标记点d_i对应的所述第一模板向量A进行特征向量编码，具体包括：

8.根据权利要求4所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述将所述第一BEV特征张量、所述第一位置编码张量和所述第一地图特征张量输入所述定位偏移预测模型的所述跨模态编码网络进行BEV特征到地图特征的跨模态关联处理生成对应的第一关联特征张量，具体包括：

9.根据权利要求4所述的基于环视图像和语义地图的车辆定位方法，其特征在于，所述将所述第一关联特征张量输入所述定位偏移预测模型的所述位姿解码器进行解码处理生成对应的所述定位偏移向量△P_t，具体包括：

10.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现权利要求1-9任一项所述的方法步骤；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1-9任一项所述的方法的指令。