CN116630912A

CN116630912A - 三维语义占用预测方法、***、设备、介质及产品

Info

Publication number: CN116630912A
Application number: CN202310316950.4A
Authority: CN
Inventors: 张云鹏; 朱政; 都大龙
Original assignee: Beijing Jianzhi Technology Co ltd
Current assignee: Beijing Jianzhi Technology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-08-22

Abstract

本公开是关于一种三维语义占用预测方法、***、设备、介质及产品，包括：获得环视图像，其中，环视图像包括多个视角下的彩色图像；对环视图像进行三维网格特征提取，得到初始三维网格特征；划分初始三维网格特征的局部范围，并在局部范围内进行特征提取，得到三维特征，对初始三维网格特征进行池化处理，得到平面特征，并根据平面特征得到表征语义布局信息的二维特征；融合三维特征和二维特征，得到多尺度三维网格特征；根据多尺度三维网格特征，预测出环视图像的三维语义占用结果。本申请通过上述方式能够为完整的还原整个三维环境，在三维语义占用预测准确性上具有明显提升。

Description

三维语义占用预测方法、***、设备、介质及产品

技术领域

本公开涉及自动驾驶领域，尤其涉及一种三维语义占用预测方法、***、设备、介质及产品。

背景技术

三维语义占用能够完整地表征三维环境中的关键信息，为自动驾驶决策提供感知结果，现有技术中常采用三视角方法(英文记为TPVFormer)作为从环视图像到三维语义占用的中间表示，三视角法是采用三个视角下的二维平面特征作为整体三维环境的特征表示，然而由于维度上的本质差异，这种特征表示在从多视角图像编码视觉特征时会产生明显的信息损失，而这种损失在解码预测的过程中是无法恢复的，从而导致了该方法在三维语义占用预测任务上的表现欠佳。举例来讲，假设三维坐标系X、Y、Z的正方向分别对应车身向右、向前和向上，而常见的驾驶场景下可能存在一系列沿着X轴双向行驶的车辆，在该情境下，X-Y平面能够从俯视角对这些车辆进行感知，然而在X-Z平面上同向行驶的车辆会产生相互交叠、在Y-Z平面上异向行驶的车辆也会相互交叠，从而导致最终得到的三维特征会包含三条射线上相互杂糅的特征信息，难以产生准确的语义占用预测结果。并且现有技术在获得三维网格特征后，常采用简单的多层感知器实现最终的语义占用预测。由于语义类别的预测需要更加高层的视觉信息，这种局部预测难以利用更加大范围的背景信息，不利于更加准确的语义占用预测。

发明内容

为克服相关技术中存在的问题，本公开提供一种三维语义占用预测方法、***、设备、介质及产品。

根据本公开实施例的第一方面，提供一种三维语义占用预测方法，包括：获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；

对所述环视图像进行三维网格特征提取，得到初始三维网格特征；

划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；

融合所述三维特征和所述二维特征，得到多尺度三维网格特征；

基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

在一些实施例中，对所述环视图像进行三维网格特征提取，得到初始三维网格特征，包括：

将所述环视图像输入到图像编码器中，获取多张视觉特征图；

将所述多张视觉特征图输入到视角转换器中，获取上下文特征和深度分布特征；

通过对所述上下文特征和所述深度分布特征计算外积，并进一步进行体素池化，获取所述初始三维网格特征。

在一些实施例中，所述划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征，包括：

将所述初始三维网格特征在水平方向上划分预设大小网格，并基于共享的窗口注意力机制进行处理，并在所述局部范围内进行特征提取，得到三维特征；

将所述初始三维网格特征在高度方向上平均池化，获取平面特征，并将所述平面特征通过所述共享的窗口注意力机制和空洞空间卷积池化金字塔处理，并根据所述平面特征得到表征语义布局信息的二维特征。

在一些实施例中，所述融合所述三维特征和所述二维特征，得到多尺度三维网格特征，包括：

对所述三维特征和所述二维特征采用加权求和的方式进行融合，获取多尺度三维网格特征，其中，所述加权求和过程是以所述局部特征高度方向上的权重引导的。

在一些实施例中，基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果，包括：

基于多尺度可变注意力机制将查询特征与所述多尺度三维网格特征进行交互，并对所述查询特征进行更新，并且随着迭代次数的增加，查询特征能够更加关注到当前场景下的语义信息，从而输出环视图像的三维语义占用结果，其中，所述查询特征是一系列可学习的特征参数。

进一步的，所述多尺度可变注意力机制是带有遮盖的注意力机制，使得每个所述查询特征只与对应的所述多尺度三维网格特征进行交互。

根据本公开实施例的第二方面，提供一种三维语义占用预测***，包括：

获取模块，用于获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；

第一提取模块，对所述环视图像进行三维网格特征提取，得到初始三维网格特征；

第二提取模块，划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；

融合模块，融合所述三维特征和所述二维特征，得到多尺度三维网格特征；

预测模块，基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

本申请第三方面的实施例提供了一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现本申请上述的第一方面的实施例所提供的三维语义占用预测方法的步骤。

本申请第四方面的实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行时实现本申请上述的第一方面的实施例所提供的三维语义占用预测方法的步骤。

本申请第五方面的实施例提供了一种计算机程序产品，当所述计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行实现本申请上述的第一方面的实施例所提供的三维语义占用预测方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：本申请在编码部分，分别在局部和整体上进行二维窗口注意力计算，利用较小的计算量实现了对于三维网格特征的有效处理从而获取多尺度三维网格特征。在解码部分，通过不断应用可变形注意力机制，使得查询特征能够与编码器得到的多尺度三维网格特征进行交互、实现查询特征的更新，最终查询特征能够解码为三维语义占用结果，获取的三维语义占用结果，能够为完整的还原整个三维环境，在三维语义占用预测准确性上具有明显提升。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种三维语义占用预测方法的流程图。

图2是根据一示例性实施例示出的一种三维语义占用预测***的框图。

图3是根据一示例性实施例示出的一种预测三维语义占用的可视化图。

图4是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的***和方法的例子。

图1是根据一示例性实施例示出的一种三维语义占用预测方法的流程图，如图1所示，包括以下步骤：

步骤S101中，获得环视图像，其中，所述环视图像包括多个视角下的彩色图像。

具体的，通常汽车上设置有环视相机，通过环形相机对汽车周围的环境进行拍摄，可以获得多个视角下的彩色图像，即获得了汽车周围的环视图像。

步骤S102中，对所述环视图像进行三维网格特征提取，得到初始三维网格特征。

具体的，为了获取环视图像的三维语义占用结果，需要对环视图像进行三维网格特征提取，从而能够将将环视图像转化为三维语义占用。

具体的，对于输入环视图像，首先经过图像编码器得到视觉特征图，接下来将获得的视觉特征图输入到视角转换器中，视觉特征图分别预测上下文特征(Context Feature)和深度分布(Depth Distribution)，上下文特征和深度分布二者通过外积和体素池化(Voxel Pooling)得到基于多视角视觉特征的三维网格特征(3D Feature Volume)即初始三维网格特征，从而建立起对三维环境的初步描述。

步骤S103中，划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征。

具体的，通过双路转换器的三维编码器，来对局部和全局两条路径分支来分别处理初始三维网格特征，从而获取局部的三维特征以及全局的二维特征，从而为后续获取动态、高效、多尺度的三维特征做准备，其中，双路转换器的三维编码器由多个连续的双路转换器模块(Dual-path Transformer Block)和卷积模块(Conv Block)构成。

具体的，在局部分支，输入的初始三维网格特征在水平方向上划分7×7大小的网格(预设大小网格)，其划分网格的大小可根据不同的情况划分不同大小的网格，并采用共享的窗口注意力机制(Windowed Attention)进行处理，在局部范围内进行特征提取，从而获取局部的三维特征。全局分支，初始三维特征首先在高度方向上进行平均池化、得到鸟瞰图视角下的平面特征(BEV Feature)，该平面特征首先由参数共享的窗口注意力机制模块进行处理，然后由语义分割领域常用的空洞空间卷积池化金字塔(ASPP)进一步处理，从而在整个场景的感受野上提取语义布局信息，从而获取全局的二维特征。

步骤S104中，融合所述三维特征和所述二维特征，得到多尺度三维网格特征。

具体的，通过对局部的三维特征和全局的二维特征进行融合，获取多尺度多尺度三维网格特征，避免出现现有技术中三维特征会包含三条射线上杂糅信息的问题，从而产生更加准确的语义占用预测结果。

具体的，局部和全局两个分支提取的特征通过加权求和的方式实现融合。由于局部分支和全局分支分别产生三维和二维特征，全局分支的特征需要沿着高度维进行复制、从而实现相同形状的特征相加，为了使得局部和全局信息能够更好地进行融合，局部分支的三维特征预测得到高度方向的权重以引导该相加过程。

步骤S105中，基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

具体的，通过上述方式获取多尺度三维网格特征后，通过解码器来对多尺度三维网格特征实现最终的三维语义占用结果预测。

具体的，将获取的多尺度三维网格特征输入到基于转换器的三维解码器中进行解码，其中，基于转换器的三维解码器主要由两个部分组成：(1)用于融合输入三维特征(Voxel Features)的多尺度可变注意力机制(Multi-scale 3D Deformable Attention)(2)用于迭代更新查询特征(Query Features)的转换器结构。第一部分，对于输入的多尺度三维网格特征，由于不同尺度在包含局部细节和整体语义上的侧重点略有不同(如低层特征更关注细节、而高层特征更关注语义)，因此多尺度三维网格特征特征之间的交互和融合是非常有必要的。本发明采用了可变注意力机制来实现这一交互过程，具体来讲，每个输入的多尺度三维网格特征会预测一系列的采样点和采样权重，并从其他三维特征的对应位置抽样得到相应的特征信息，并对自身的特征进行更新。通过这一过程，每个尺度下的三维特征都可以同时包含局部和全局信息。在第二部分，基于查询特征和注意力机制来实现最终的三维语义占用预测。具体来讲，查询特征是一系列可学习的特征参数，在解码预测过程中，这些查询特征会经过多次迭代更新，在每轮迭代中会依次通过以下运算：

(1)与先前得到的多尺度三维网格特征通过多尺度可变注意力机制进行交互。

(2)不同查询特征之间通过注意力机制进行交互，由于不同查询特征通常关注不同类别的信息，这一过程能够充分地交换来自不同语义的背景信息。

(3)查询特征通过多层感知器更新自身特征，可以理解为一般的特征计算过程。在每轮迭代完成后，这些查询特征会通过线性层运算得到类别得分和对应的三维语义占用结果，用于下一轮迭代或最终输出结果。

如图3所示，图3是展示了本发明在nuScenes数据集上、基于六张环视图像得到的三维语义占用预测的可视化。图片左上角为输入图像、右上角为语义占用在各相机视角下的渲染结果、下方为两个全局视角下的语义占用结果，可以看到本发明的预测结果能够较好地还原整个三维环境，对于车辆、行人、可行驶区域、树木、建筑、道路障碍等都具有较好的识别效果。

在一些实施例中，所述多尺度可变注意力机制是带有遮盖的注意力机制，使得每个所述查询特征只与对应的所述多尺度三维网格特征进行交互。

具体的，上述(1)运算步骤中通过多尺度可变注意力机制进行交互采用了带有遮盖的注意力机制，即每个查询特征只会与其对应的前景区域进行交互，如某个查询特征倾向于识别车辆，那么该查询就只会与预测为车辆的三维特征区域进行交互，该预测结果通常来自于上一轮迭代的预测。

图2是根据一示例性实施例示出的一种三维语义占用预测***框图。参照图2，该***包括获取模块201，第一提取模块202，第,二提取模块203，融合模块204和预测模块205。

获取模块201，用于获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；

第一提取模块202，对所述环视图像进行三维网格特征提取，得到初始三维网格特征；

第二提取模块203，划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；

融合模块204，融合所述三维特征和所述二维特征，得到多尺度三维网格特征；

预测模块205，基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

关于上述实施例中的***，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图4所示。该电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入***。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种三维语义占用预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入***可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的三维语义占用预测***可以实现为一种计算机程序的形式，计算机程序可在如图4所示的电子设备上运行。电子设备的存储器中可存储组成该三维语义占用预测***的各个程序模块。

该电子设备中的存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现根据上述任意一个实施例所述的三维语义占用预测方法。例如实现三维语义占用预测方法，包括：获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；对所述环视图像进行三维网格特征提取，得到初始三维网格特征；划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；融合所述三维特征和所述二维特征，得到多尺度三维网格特征；基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；对所述环视图像进行三维网格特征提取，得到初始三维网格特征；划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；融合所述三维特征和所述二维特征，得到多尺度三维网格特征；基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

在一个实施例中，提供了一种计算机程序产品，当计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行以下步骤：获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；对所述环视图像进行三维网格特征提取，得到初始三维网格特征；划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征；融合所述三维特征和所述二维特征，得到多尺度三维网格特征；基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，比如静态随机存取存储器(Static Random Access Memory，SRAM)和动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个的技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种三维语义占用预测方法，其特征在于，包括：

获得环视图像，其中，所述环视图像包括多个视角下的彩色图像；

2.如权利要求1所述的三维语义占用预测方法，其特征在于，对所述环视图像进行三维网格特征提取，得到初始三维网格特征，包括：

3.如权利要求1所述的三维语义占用预测方法，其特征在于，所述划分所述初始三维网格特征的局部范围，并在所述局部范围内进行特征提取，得到三维特征，对所述初始三维网格特征进行池化处理，得到平面特征，并根据所述平面特征得到表征语义布局信息的二维特征，包括：

4.如权利要求1所述的三维语义占用预测方法，其特征在于，所述融合所述三维特征和所述二维特征，得到多尺度三维网格特征，包括：

5.如权利要求1所述的三维语义占用预测方法，其特征在于，基于所述多尺度三维网格特征和基于转换器的三维解码器预测出所述环视图像的三维语义占用结果，包括：

6.如权利要求5所述的三维语义占用预测方法，其特征在于，所述多尺度可变注意力机制是带有遮盖的注意力机制，使得每个所述查询特征只与对应的所述多尺度三维网格特征进行交互。

7.一种三维语义占用预测***，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现根据权利要求1-6中任一所述的三维语义占用预测方法。

9.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行根据权利要求1-6中任一项所述的三维语义占用预测方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由移动终端的处理器执行时，使得移动终端能够执行根据权利要求1-6中任一项所述的三维语义占用预测方法。